Skript zur Vorlesung Statistik - Fachbereich MN

Werbung
Skript zur Vorlesung Statistik
Dietrich Baumgarten
«
17. Juni 2014
Inhaltsverzeichnis
1 Grundlagen
1
1.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Zum Begri Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.3
Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik
. . .
2
. . . . . . . . . . . . . . . .
2
. . . . . . . . . . . . . . .
3
. . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Gliederung einer statistischen Untersuchung
1.4.1
Beispiele statistischer Untersuchungen
1.5
Statistische Grundbegrie
1.6
Bestands- und Bewegungsmassen
. . . . . . . . . . . . . . . . . . . . . .
4
1.7
Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.8
Messen und Skalenniveaus
6
1.9
Fragebögen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10 Die Datenmatrix
1.11 Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . .
7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2 Darstellung univariater Daten
11
2.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Zum Begri univariate Datenanalyse
. . . . . . . . . . . . . . . . . . . .
11
2.3
Die vier Grundformen von Datensätzen . . . . . . . . . . . . . . . . . . .
11
2.4
Absolute und relative Häugkeiten
13
2.5
Kumulierte absolute und relative Häugkeiten
2.6
Häugkeitstabellen
2.7
Stab- Säulen- und Balkendiagramme
2.8
Empirische Verteilungsfunktion
2.9
2.9.1
. . . . . . . . . . . . . . . . . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
. . . . . . . . . . . . . . . . . . . . .
11
. . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . . . . .
15
Der Sonderfall nominaler Merkmale . . . . . . . . . . . . . . . . . . . . .
17
Kreis- und Säulendiagramm
2.10 Aufgaben
3 Maÿzahlen einer Verteilung
21
3.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2
Denition und Einteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3
Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.4
3.5
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.4.1
Der Median metrischer Merkmale . . . . . . . . . . . . . . . . . .
23
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.5.1
Median und Quantile aus einer Häugkeitstabelle
3.5.2
Spannweite und Interquartilsabstand
. . . . . . . . .
25
. . . . . . . . . . . . . . . .
26
iii
Inhaltsverzeichnis
3.6
Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1
3.7
3.8
Eine Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . .
28
Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.7.1
30
Eigenschaften des arithmetischen Mittels . . . . . . . . . . . . . .
Streuungsmaÿe mit Bezug auf den Mittelwert
. . . . . . . . . . . . . . .
30
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.8.1
Die Varianz
3.8.2
Stichprobenvarianz
. . . . . . . . . . . . . . . . . . . . . . . . . .
32
3.8.3
Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .
33
3.8.4
Der Variationskoezient . . . . . . . . . . . . . . . . . . . . . . .
33
3.8.5
Arbeitstabelle zur Berechnung . . . . . . . . . . . . . . . . . . . .
34
Mittlere absolute Abstände . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.10 Transformationseigenschaften der Maÿzahlen . . . . . . . . . . . . . . . .
36
3.9
3.11 Anforderungen an Maÿzahlen metrischer Merkmale
. . . . . . . . . . . .
36
3.12 Abschlieÿendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.13 Excel-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.14 Aufgaben
39
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Klassenbildung
43
4.1
Übersicht und Lernziele
4.2
Klassen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.3
Häugkeitstabelle klassierter Daten . . . . . . . . . . . . . . . . . . . . .
46
4.4
Histogramme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.5
Approximierende empirische Verteilungsfunktion . . . . . . . . . . . . . .
47
4.6
Maÿzahlen bei klassierten Daten . . . . . . . . . . . . . . . . . . . . . . .
48
4.7
. . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.1
Der Modus
4.6.2
Median und Quantile
4.6.3
Arithmetisches Mittel und Varianz
Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
43
48
48
. . . . . . . . . . . . . . . . .
50
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
5 Konzentration
53
5.1
Übersicht und Lernziele
5.2
Absolute und relative Konzentration
. . . . . . . . . . . . . . . . . . . .
53
5.3
Relative Konzentration . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.3.1
Die Merkmalssumme und ihre Verteilung . . . . . . . . . . . . . .
54
5.3.2
Die Lorenzkurve
56
5.3.3
Der Gini-Koezient
. . . . . . . . . . . . . . . . . . . . . . . . .
56
5.3.4
Der normierte Gini-Koezient . . . . . . . . . . . . . . . . . . . .
58
5.3.5
Relative Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.3.6
Klassierte Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.3.7
Vorgehensweise mit Excel
5.4
iv
27
Absolute Konzentration
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
53
. . . . . . . . . . . . . . . . . . . . . .
60
. . . . . . . . . . . . . . . . . . . . . . . . . . .
61
5.4.1
Konzentrationskurve und Rosenbluth-Index
. . . . . . . . . . . .
61
5.4.2
Rosenbluth-Index . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
5.4.3
Herndahl-Index
62
. . . . . . . . . . . . . . . . . . . . . . . . . . .
Inhaltsverzeichnis
5.4.4
Relative Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.5
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.6
Aufgaben
65
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Einführung in die Wahrscheinlichkeitsrechnung
67
6.1
Übersicht
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.2
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.3
Laplace-Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.4
Allgemeine Zufalls-Experimente . . . . . . . . . . . . . . . . . . . . . . .
69
6.5
Wahrscheinlichkeit von Ereignissen
. . . . . . . . . . . . . . . . . . . . .
71
6.6
Rechenregeln für Ereignisse
. . . . . . . . . . . . . . . . . . . . . . . . .
72
6.7
Abhängige mehrstuge Zufallsexperimente
. . . . . . . . . . . . . . . . .
74
6.8
Unabhängige mehrstuge Zufallsexperimente . . . . . . . . . . . . . . . .
76
6.9
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit . . . . . .
79
6.10 Der Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.11 Aufgaben
85
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Endliche Zufallsvariable
87
7.1
Übersicht
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.2
Einführung und Denition . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.2.1
Das Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.2.2
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
7.2.3
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
7.2.4
Varianz und der Standardabweichung . . . . . . . . . . . . . . . .
90
7.2.5
Die Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
7.2.6
Berechnung der Korrelationen . . . . . . . . . . . . . . . . . . . .
94
7.2.7
Erwartungswert und Varianz einer Linearkombination . . . . . . .
95
7.2.8
Kovarianz- und Korrelationsmatrix
. . . . . . . . . . . . . . . . .
96
7.2.9
Eigenschaften der Kovarianzmatrix
. . . . . . . . . . . . . . . . .
97
7.3
Verteilung einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . .
98
7.4
Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.5
Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.6
Unabhängige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.7
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.8
Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8 Kombinatorik
109
8.1
Übersicht
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.2
Fakultät und Binomialkoezient
8.3
Das Multiplikationsprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.4
Permutationen
8.5
Kombinationen und Variationen . . . . . . . . . . . . . . . . . . . . . . . 112
8.6
Die binomische Formel
8.7
Kombinatorische Excel-Funktionen
. . . . . . . . . . . . . . . . . . . . . . 109
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
. . . . . . . . . . . . . . . . . . . . . 116
v
Inhaltsverzeichnis
8.8
Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9 Spezielle diskrete Verteilungen
119
9.1
Übersicht
9.2
Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.3
Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.4
Bernoulli-Verteilung
9.5
Binomialverteilung
9.5.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Wahrscheinlichkeitsfunktion und Verteilungsfunktion
9.6
Hypergeometrische Verteilung
9.7
Poissonverteilung
9.8
Die geometrische Verteilung
9.9
Aufgaben
. . . . . . . 124
. . . . . . . . . . . . . . . . . . . . . . . . 125
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
. . . . . . . . . . . . . . . . . . . . . . . . . 130
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
10 Stetige Zufallsvariablen
10.1 Übersicht
133
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
10.2 Einführung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
10.3 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.4 Einfache Linearkombinationen . . . . . . . . . . . . . . . . . . . . . . . . 138
10.5 Symmetrische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 139
10.6 Die Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
10.7 Die Exponentialverteilung
10.8 Normalverteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . 141
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
10.8.1 Standardnormalverteilung
10.9 Quantile und Streubereiche
10.10Aufgaben
. . . . . . . . . . . . . . . . . . . . . . 144
. . . . . . . . . . . . . . . . . . . . . . . . . 146
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
10.11Tabelle der Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . 150
11 Summen und Funktionen von Zufallsvariablen
11.1 Übersicht
151
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.2 Die Ungleichungen von Markov und Chebychev
11.3 Zentraler Grenzwertsatz
. . . . . . . . . . . . . . . . . . . . . . . . . . . 152
12 Anhang: Mengen und Zahlen
12.1 Übersicht und Lernziele
12.2 Mengen
. . . . . . . . . . . . . . 151
155
. . . . . . . . . . . . . . . . . . . . . . . . . . . 155
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
12.3 Zahlenmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
12.3.1 Intervalle
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.3.2 Wissenschaftliche Darstellung einer Zahl
. . . . . . . . . . . . . . 159
12.4 Mächtigkeit von Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
12.5 Relationen und Verknüpfungen von Mengen
. . . . . . . . . . . . . . . . 160
12.5.1 Venn-Diagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
12.5.2 Beispiele zu den Relationen und Verknüpfungen . . . . . . . . . . 162
12.5.3 Zusammenfassung der Rechengesetze
vi
. . . . . . . . . . . . . . . . 163
Inhaltsverzeichnis
12.6 Die Potenzmenge
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
12.7 Kartesisches Produkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
12.7.1 Das kartesische Koordinatensystem
12.8 Aufgaben
. . . . . . . . . . . . . . . . . 166
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
13 Ausgewählte Lösungen
169
13.1 Zu Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
13.2 Zu Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
13.3 Zu Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
13.4 Zu Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
13.5 Zu Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
13.6 Zu Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
13.7 Zu Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
13.8 Zu Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
13.9 Zu Kapitel 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
13.10Zu Kapitel 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.11Zu Kapitel 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
vii
Abbildungsverzeichnis
2.1
Häugkeitstabellen und Stabdiagramme
. . . . . . . . . . . . . . . . . .
14
2.2
Empirische Verteilungsfunktion
. . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Häugkeitstabelle und Säulendiagramm . . . . . . . . . . . . . . . . . . .
18
2.4
Kreis- und Säulendiagramm im Vergleich . . . . . . . . . . . . . . . . . .
19
3.1
Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.2
Eine weitere Form des Boxplots
. . . . . . . . . . . . . . . . . . . . . . .
28
3.3
Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .
35
3.4
Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .
38
4.1
Diskrete Auswertung
43
4.2
Histogramm und approximierende empirische Verteilungsfunktion
5.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
47
Arbeitstabelle zum Beispiel 5.1
. . . . . . . . . . . . . . . . . . . . . . .
55
5.2
Arbeitstabelle zum Beispiel 5.2
. . . . . . . . . . . . . . . . . . . . . . .
55
5.3
Zusammenhang zwischen Lorenzkurve und Gini-Koezient . . . . . . . .
57
5.4
Arbeitsblatt für Lorenzkurve mit klassierten Daten
. . . . . . . . . . . .
59
5.5
Arbeitsblatt für Lorenzkurve mit klassierten Daten
. . . . . . . . . . . .
59
5.6
Arbeitsblatt für Konzentrationskurve, Rosenbluth- und Herndahl-Index
61
5.7
Arbeitsblatt für absolute Konzentration bei relativen Daten . . . . . . . .
64
6.1
Zufallsgeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
6.2
Baumdiagramm zum Beispiel 6.4
. . . . . . . . . . . . . . . . . . . . . .
75
6.3
Baumdiagramm von Beispiel 6.5 . . . . . . . . . . . . . . . . . . . . . . .
76
6.4
Baumdiagramm zum Beispiel 6.4
. . . . . . . . . . . . . . . . . . . . . .
77
6.5
Baumdiagramm zum Beispiel 6.7
. . . . . . . . . . . . . . . . . . . . . .
78
6.6
Der Satz von der totalen Wahrscheinlichkeit
. . . . . . . . . . . . . . . .
82
6.7
Arbeitstabelle zum Beispiel 6.15 . . . . . . . . . . . . . . . . . . . . . . .
83
6.8
Arbeitstabelle für das Beispiel 6.16
. . . . . . . . . . . . . . . . . . . . .
85
7.1
Arbeitsblatt zur Portfoliotheorie . . . . . . . . . . . . . . . . . . . . . . .
88
7.2
Abweichungen der Renditen vom Erwartungswert
93
7.3
Arbeitstabelle einer endlichen Zufallsvariablen
7.4
Gleichverteilte Zufallsvariable
8.1
Das Pascalsche Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.1
Verteilung einer H(10, 6, 20)-verteilten Zufallsvariablen . . . . . . . . . . 127
. . . . . . . . . . . . .
. . . . . . . . . . . . . . . 100
. . . . . . . . . . . . . . . . . . . . . . . . 105
ix
Abbildungsverzeichnis
9.2
Verteilung einer Ps(1,5)-verteilten Zufallsvariablen . . . . . . . . . . . . . 129
10.1 Dichte- und Verteilungsform . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.2 Verteilungs- und Dichtefunktion von N(0,5; 0,25)
. . . . . . . . . . . . . 139
10.3 Dichte- und Verteilungsfunktion einer Normalverteilung . . . . . . . . . . 145
10.4 Standardnormalverteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . 150
12.1 Die Zahlengerade
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.2 Venn-Diagramme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
12.3 Das kartesische Koordinatensystem
. . . . . . . . . . . . . . . . . . . . . 167
13.1 Maÿzahlen der Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
13.2 Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
13.3 Häugkeitstabelle, Diagramme und Maÿzahlen.
13.4 Häugkeitstabelle und Diagramme
. . . . . . 173
. . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . . . . . . . . 175
13.5 Boxplot zu den Daten des Beispiels 2.1 . . . . . . . . . . . . . . . . . . . 176
13.6 Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
13.7 Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
13.8 Lösung zur Aufgabe
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
13.9 Klassierte Häugkeitstabelle und Diagramme . . . . . . . . . . . . . . . . 178
13.10Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 179
13.11Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
. . . . . . 179
13.12Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
. . . . . . 180
13.13Häugkeitstabelle und Diagramme.
. . . . . . . . . . . . . . . . . . . . . 181
13.14Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 182
13.15Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 182
13.16Häugkeitstabelle und Diagramme.
. . . . . . . . . . . . . . . . . . . . . 183
13.17Baumdiagramme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
13.18Baumdiagramm und Verteilung
. . . . . . . . . . . . . . . . . . . . . . . 186
13.19Arbeitstabelle für die Aufgabe 10
. . . . . . . . . . . . . . . . . . . . . . 189
13.20Arbeitstabelle für den Satz von Bayes . . . . . . . . . . . . . . . . . . . . 190
13.21Verteilung von Chuck-a-luck . . . . . . . . . . . . . . . . . . . . . . . . . 191
13.22Verteilung der Zufallsvariable der Aufgabe 1
. . . . . . . . . . . . . . . . 196
13.23Verteilung der Zufallsvariable der Aufgabe 2
. . . . . . . . . . . . . . . . 196
13.24Verteilung der Zufallsvariable der Aufgabe 3
. . . . . . . . . . . . . . . . 197
13.25Verteilung der Zufallsvariable
. . . . . . . . . . . . . . . . . . . . . . . . 198
13.26Verteilung einer Ps(1)-verteilten Zufallsvariablen . . . . . . . . . . . . . . 199
x
Tabellenverzeichnis
1.1
Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Liste der Weltmeister im Fuÿball
. . . . . . . . . . . . . . . . . . . . . .
17
3.1
Anzahl von Cocktails . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.2
Benötigte Werte für den Boxplot
. . . . . . . . . . . . . . . . . . . . . .
28
4.1
Häugkeitstabelle klassierter Daten . . . . . . . . . . . . . . . . . . . . .
46
4.2
Häugkeitstabelle klassierter Daten . . . . . . . . . . . . . . . . . . . . .
49
4.3
Brumm, Brumm
50
5.1
Daten zur Aufgabe 5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.2
Fiktive Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
6.1
Diskrete Wahrscheinlichkeitsverteilung
69
6.2
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.4
. . . . . . . . . .
75
6.3
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.5
. . . . . . . . . .
76
6.4
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.6
. . . . . . . . . .
77
6.5
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.7
. . . . . . . . . .
77
8.1
Die Fakultäten von 0 bis 11
8.2
Formeln der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . 114
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
8
. . . . . . . . . . . . . . . . . . . . . . . . . 109
10.1 Einige Quantile der Standardnormalverteilung . . . . . . . . . . . . . . . 146
12.1 Rechengesetze für Mengenoperationen . . . . . . . . . . . . . . . . . . . . 163
13.1 Brumm, Brumm
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
13.2 Fiktive Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
xi
1 Grundlagen
1.1 Übersicht und Lernziele
In diesem Kapitel werden folgende Themen behandelt:
- Der Unterschied zwischen schlieÿender und beschreibender Statistik;
- Grundbegrie der Statistik wie Grundgesamtheit, Stichprobe und Merkmalsträger;
- Die vier Arten von Merkmalen;
- Darstellung der Antworten einer Befragung in einer Datenmatrix.
1.2 Zum Begri Statistik
Statistik
geht auf das neulateinische Wort status zurück, dessen Bedeutungen Staat
und Zustand sind. Statistik betraf ursprünglich alle Daten, die der Verwaltung bei der
Entscheidungsndung behilich sein konnten, etwa Daten über die Bevölkerung (Geburten, Eheschlieÿungen und Todesfälle), Handel und Gewerbe sowie Ein- und Ausgaben
des Staates. Datensammlungen dieser Art werden heute als amtliche Statistik bezeichnet, wofür staatliche Organisationseinheiten wie etwa das Statistische Bundesamt zuständig sind. Inzwischen sammeln aber auch Unternehmen und andere Organisationen
Daten über Kunden, Mitarbeiter oder Geschäftspartner. Die erste Bedeutung des Begris Statistik ist also die Zusammenstellung von Zahlen und Daten über bestimmte
Gesamtheiten.
Weiterhin versteht man unter Statistik alle Methoden zur Analyse von variierenden
Eigenschaften von Objekten einer fest umrissenen Gesamtheit. Die Unterschiede bei
den Ausprägungen der Eigenschaften müssen dabei zumindest teilweise zufälliger Natur
sein. Dabei muss zunächst eine präzise Frage gestellt und in ein Modell verwandelt
werden. Danach erfolgt die Erhebung von Daten und deren Auswertung bezüglich der
Fragestellung.
Halten wir fest: Der Begri Statistik bezeichnet sowohl Datenbestände und deren
Erhebung wie Bevölkerungsstatistik als auch Methoden zur Untersuchung von Massenphänomenen, die unter Einuss des Zufalls entstanden sind, durch die Auswertung
bestehender oder extra zu diesem Zweck erhobener Daten.
1
1 Grundlagen
1.3 Wahrscheinlichkeitstheorie, beschreibende und
schlieÿende Statistik
In der Statistik, geht es um das Problem, Beobachtungen, die unter Einuss des Zufalls
entstanden sind, zu analysieren.
Die
beschreibende oder deskriptive Statistik
erfasst und bereitet Daten auf und verdich-
tet sie in Form von Tabellen, graphischen Darstellungen und Kennzahlen wie Mittelwert
und Varianz. Die beschreibende Statistik beschäftigt sich nur mit den vorliegenden Daten, daher beziehen sich alle Aussagen auch nur auf diese Daten.
Die
schlieÿende oder induktive Statistik
stellt Methoden zur Verfügung, die einen
Schluss von Teilerhebungen auf Grundgesamtheiten erlauben. Meinungsforschungsinstitute benötigen die schlieÿende Statistik, um die Ergebnisse von Umfragen auf die
Gesamtheit zu übertragen. Da statistische Schlüsse auf den Daten einer Stichprobe genannten Auswahl beruhen, sind Schlussfolgerungen auf die Gesamtheit möglicherweise
fehlerhaft. Zu einem Verfahren der schlieÿenden Statistik gehören Abschätzungen der
Fehler. Diese liefert die
Wahrscheinlichkeitstheorie ,
ein Spezialgebiet der Mathematik
zur Beschreibung zufallsabhängiger Vorgänge. Die Wahrscheinlichkeitsrechnung entstand
aus Untersuchungen von Glücksspielen und basierte zunächst auf rein kombinatorischen
Methoden. Die moderne Wahrscheinlichkeitstheorie beruht auf einem für Nichtmathematiker kaum verständlichen axiomatischen Regelwerk des russischen Mathematikers
Kolmogorov.
1.4 Gliederung einer statistischen Untersuchung
Eine statistische Untersuchung besteht aus mehreren Schritten.
(1)
Festlegung der Fragestellung und der Grundgesamtheit
Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher
müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B. die Wahlberechtigten zur Bundestagswahl 2009, bilden die sogenannte
Grundgesamtheit .
(2)
Voll- oder Teilerhebung
Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei
einer Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine sogenannte
Stichprobe . Vollerhebungen sind bei groÿen Grundgesamtheiten oft aus Kosten-
Bei einer
gründen nicht sinnvoll, manchmal sogar prinzipiell unmöglich. Bei einer Teilerhebung hat die richtige Auswahl der Stichprobe eine groÿe Bedeutung für die
Übertragung der gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel
der Bundestagswahl muss eine Teilerhebung alle gesellschaftlichen Strömungen der
wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten Kriterien aussuchen, oder aber die Auswahl dem Zufall
überlassen. Eine hinreichend groÿe Zufallsstichprobe wird in der Regel durchaus
repräsentativ für die Grundgesamtheit sein.
2
1.5 Statistische Grundbegrie
(3)
Datenerhebung
Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der
Datenerhebung. Man kann Daten durch
Beobachtung
und durch
Befragung
gewin-
nen. Daten können durch schriftliche oder mündliche Befragung erhoben werden,
wobei die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die
Auswahl sollte sich danach richten, was am besten für das Ziel der Untersuchung
geeignet ist.
(4)
Die Datenaufbereitung und Datendarstellung
Zunächst werden fehlerhafte Daten bereinigt und dann in einer Datenbank erfasst
und von geeigneten Programmen wie SAS oder SPSS ausgewertet und dargestellt,
etwa in Form von Tabellen, Diagrammen und Kennzahlen, also mit Verfahren der
beschreibenden Statistik.
(5)
Datenanalyse
Bei der Auswertung werden Methoden der schlieÿenden Statistik eingesetzt. Die
schlieÿende Statistik ist stark mathematisch orientiert und beschäftigt sich damit,
welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im
Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile
der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt
meist in der Form von sogenannten Kondenzintervallen in der Form: mit einer
Wahrscheinlichkeit von 99 % wird die CDU einen Stimmanteil zwischen 33 % und
36 % haben.
1.4.1 Beispiele statistischer Untersuchungen
Ich gebe zur Verdeutlichung einige typische Fragen an, die mit statistischen Untersuchungen beantwortet werden können.
•
Berechnung der Anteils von derzeitigen Wählern der FDP.
Die Grundgesamtheit sind hier alle Wahlberechtigten in Deutschland. Da nur amtliche Stellen diese Grundgesamtheit kennen, ist diese Frage nur über eine Stichprobe zu beantworten, die Auswertung muss mit Methoden der schlieÿenden Statistik
erfolgen und wird somit fehlerhaft sein.
•
Wohnungszählung in Deutschland im Rahmen der Volkszählung 2011.
Die Grundgesamtheit sind hier alle Gebäude in Deutschland. Da alle Eigentümer
befragt werden und auskunftspichtig sind, liegt eine Vollerhebung vor.
•
Bestimmung des Anteils fehlerhafter Glühbirnen an einem Produktionsstandort.
Auch hier kann man nur eine Teilerhebung durchführen, es sei denn, die Glühbirnen
werden innerhalb der Produktion sofort getestet.
1.5 Statistische Grundbegrie
Zur Beschreibung statistischer Untersuchungen werden folgende Begrie benutzt:
3
1 Grundlagen
•
Statistische Einheit oder Merkmalsträger
Dieser Begri beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie
Geburten oder Sterbefälle.
•
Grundgesamtheit
So wird die Menge der statistischen Einheiten genannt.
•
Bestandsmasse
Besitzen die statistischen Einheiten der Grundgesamtheit einen längeren Bestand,
so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische
Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick.
•
Bewegungsmasse oder Ereignismasse
Die statistischen Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst.
•
Merkmale
Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter
oder Haarfarbe bei Personen, werden Merkmale genannt.
•
Merkmalsausprägungen
Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die
beiden Ausprägungen weiblich und männlich und die Ausprägungen des Merkmals
Alter einer Person sind die natürlichen Zahlen.
1.6 Bestands- und Bewegungsmassen
Bei den Gesamtheiten wird zwischen Bestandsmassen und Bewegungsmassen unterschieden. Bestandsmassen werden an einem
einer
Zeitspanne
Zeitpunkt, Bewegungsmassen dagegen innerhalb
erfasst. Oft korrespondieren die beiden Gesamtheiten miteinander. Die
Einwohner Heidelbergs werden am 1.1.2010 und dann wieder am 1.1.2011 gezählt, also
jeweils an einem festen Zeitpunkt, daher handelt es sich um Bestandsmassen. Die Stadtverwaltung erfasst auch alle in einem Jahr erfolgten An- und Abmeldungen, sowie alle
Geburten und Todesfälle. Das sind vier Bewegungsmassen, die den Unterschied zwischen
den beiden Bestandsmassen erklären:
Einw. 2011
4
= Einw.
2010
+ Geburten − Todesfälle + Abmeldungen − Anmeldungen
1.7 Einteilung von Merkmalen
1.7 Einteilung von Merkmalen
Je nach Fragestellung können Personen, Unternehmen oder ganze Länder statistische
Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die
statistischen Einheiten oft auch als
Merkmalsträger
bezeichnet werden. Weitere Beispiele
für Merkmale sind die Konfession mit den Ausprägungen wie RK (römisch katholisch),
EKD (evangelische Kirche Deutschlands) oder andere. Bei einer Wohnung gibt es
Merkmale wie Anzahl der Zimmer, Gröÿe im qm, Balkon usw. mit Ausprägungen wie
4, 80 qm und keiner.
Merkmale werden mit groÿen lateinischen Buchstaben wie etwa
X
bezeichnet, die
zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index
verwendet wird, also
x 1 , x2 , x3 , . . . , x n .
Merkmale lassen sich je nach Typ der Werte ihrer Ausprägung in vier Klassen einteilen.
(1)
Nominale Merkmale
Nominal stammt vom lateinischen Wort nomen für Namen ab, weil die möglichen
Werte der Ausprägungen nur benannt können werden, es gibt keine Maÿeinheit.
Dies trit auf Merkmale wie Geschlecht mit den Ausprägungen w und m und
auf Konfession mit den erwähnten Ausprägungen RK, EKD und andere
zu. Bei der Erfassung werden nominale Merkmalsausprägungen meistens durch
Zahlwerte kodiert, etwa 0 für w und 1 für m, das ändert aber nichts an der
prinzipiell zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur in
kategoriell
Kategorien einteilen kann, werden nominale Merkmale auch
genannt.
Wenn es für die Ausprägung eines nominalen Merkmals nur zwei mögliche Werte
gibt, spricht man von einem
dichotomen ,
sonst von einem
polytomen
Merkmal.
Das Merkmal Geschlecht ist somit dichotom, während das Merkmal Nationaltät
polytom ist.
(2)
Ordinale Merkmale
Hier lassen sich die Ausprägungen in eine Rangfolge bringen, aber man kann für
die Werte und deren Abstände untereinander kein Maÿ angeben. Das trit z.B.
auf Schulnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, aber
man kann nicht sagen, dass die Noten sehr gut und gut denselben Abstand wie die
Noten gut und befriedigend haben. Auch die Werte ordinal skalierter Merkmale
werden zur besseren Auswertung mit Zahlen codiert.
(3)
Metrische Merkmale
Sind bei einem Merkmal die Ausprägungen Zahlen mit Einheiten, so spricht man
von einem metrischen Merkmal. Hier können die Abstände zwischen den Werten
sinnvoll bestimmt werden. Beispiele sind die Merkmale Gröÿe, Gewicht und Alter einer Person. Metrische Merkmale werden auch
kardinal
genannt. Metrische
Merkmale werden noch weiter unterteilt, und zwar in diskret und stetig. Das Gewicht einer Person ist ein stetiges metrisches Merkmal, da die Werte stetig über
5
1 Grundlagen
ein ganzes Intervall verteilt sind. Dagegen hat das Merkmal Anzahl der Kinder nur
endlich viele Werte, was man als diskret bezeichnet.
Die vier Merkmalsklassen sind also nominal, ordinal, metrisch diskret und metrisch stetig, wobei statt nominal auch kategoriell und statt metrisch auch kardinal verwendet
qualitatativ
zusammengefasst, die beiden metrischen Merkmale werden dagegen quantitativ genannt.
werden. Nominale und ordinale Merkmale werden unter dem Oberbegri als
Fassen wir zusammen:
Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen und danach
entscheiden, ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal und sonst nominal genannt. Bei einem quantitativen Merkmal ist zu untersuchen
ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von
einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall
verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal
als kategoriell bezeichnet.
Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und
deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei
ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit
der Berechnung von Mittelwerten, aber auch anderer statistischer Maÿzahlen und Verfahren. Mittelwerte sowie andere statistische Maÿzahlen und deren Anwendbarkeit bei
den drei Merkmalskategorien werden noch ausführlich behandelt.
Abschlieÿend noch einige Beispiele. Geschlecht, Haarfarbe und Nationalität sind alles nominale Merkmale. Schulnoten, die Vergabe von Sternen, etwa 1 bis 5, an Hotels
oder die Einteilung der Sympathie zu Politikern in die Ränge Mag ich, Na ja und
Eher nicht sind ordinale Merkmale. Die folgenden Merkmale sind diskret und metrisch: Zahl der Eheschlieÿungen, Einwohnerzahl von Darmstadt, Anzahl von Studenten
der Hochschule Darmstadt. Körpergröÿe und Gewicht einer Person sind stetige metrische
Merkmale, deren mögliche Werte z.B. 1,80 m und 78,44 kg sein können.
1.8 Messen und Skalenniveaus
Dieser Abschnitt ist zunächst nur für den hartgesottenen Leser.
Den Ausprägungen eines Merkmals müssen bestimmte Werte zugeordnet werden. Die
Wahl muss dabei so getroen werden, dass die Werte strukturtreu sind, sodass die Werte
die realen Unterschiede auch korrekt wiedergeben. Das sei am Beispiel des Merkmals
Religionszugehörigkeit verdeutlicht. Im Jahr 1950 waren in Deutschland die drei Werte
evangelisch, römisch katholisch und andere oder keine ausreichend, während diese
Einteilung heute sicher nicht mehr strukturtreu ist, es sei denn, dass es nur um die
Abführung der Kirchensteuer geht.
Die Ausprägungen eines Merkmals müssen messbar sein und einem sogenannten
lenniveau
6
Ska-
zugeordnet werden können. Obwohl es unzählige Merkmale gibt, werden nur
1.9 Fragebögen
vier Skalenniveaus benötigt und diese decken sich auch noch weitgehend mit der Einteilung der Merkmale. Jedem Skalenniveau entsprechen bestimmte Relationen, in der je
zwei Messwerte zueinander stehen.
Ich gebe jetzt die vier Skalenniveaus und ihre denierende Relation an.
(1)
Nominalskala
Die Beziehung besteht in der Feststellung, ob zwei Messwerte gleich sind oder
nicht, weitere Unterscheidungen sind nicht möglich. Die Nominalskala passt daher
genau zu den nominalen Merkmalen wie Geschlecht oder Familienstand.
(2)
Ordinalskala
Bei einer Ordinalskala lassen sich ebenfalls je zwei Messwerte auf Gleichheit untersuchen, aber zusätzlich ist ein Gröÿenvergleich möglich, die Messwerte lassen sich
anordnen, aber man kann keine Abstände zwischen den Messwerten angeben. Die
Merkmale mit einer Ordinalskala sind also genau die ordinalen Merkmale.
(3)
Intervallskala
Bei einer Intervallskala ist der Abstand zwischen je zwei Messwerten deniert.
Streng genommen ist das keine Relation, aber eine eindeutige Festlegung des Begris Intervallskala. Ein Abstand von 0 bedeutet Gleichheit, ein positiver Abstand
entspricht der Beziehung Gröÿer, eine Intervallskala ist somit immer auch eine Ordinalskala. Intervallskalen gelten für metrische Merkmale, wofür Abstände
zwischen den Ausprägungen aber nicht notwendig Verhältnisse gebildet werden
können. Beispiel von Merkmalen mit einer Intervallskala sind die Temperatur, die
Uhrzeit, das Datum sowie Längen- und Breitengrade von Orten auf der Erde. In
jedem Fall ist der Abstand zwischen zwei Messwerten genau deniert, aber es können keine Verhältnisse gebildet werden. Mittag ist genau zwei Stunden vor 10:00,
aber nicht um 20 % später, so wenig wie Rom 12 % südlicher als München liegt.
(4)
Verhaltnisskala (Ratioskala)
Bei dieser Skala können zusätzlich zu den Abständen auch die Verhältnisse von
Messwerten gebildet werden. Diese Messwerte besitzen einen natürlichen Nullpunkt. Beispiele von Merkmalen mit Verhältnisskala sind das Gewicht und die
Gröÿe oder das Vermögen. Man kann hier Aussagen treen wie, Am Nachmittag
kommen doppelt so viel Studenten in die Vorlesung wie am Morgen oder Mein
Elefant nimmt pro Jahr 5 % zu.
Die vier Skalenniveaus sind also geordnet, d.h. jede höhere Skala schlieÿt die niedrigeren Skalen ein. Verhältnisskala und Intervallskala werden auch als metrische Skalen
bezeichnet; eine Vielzahl von statistischen Berechnungen benötigen metrisch skalierte
Merkmale, um sie sinnvoll anwenden zu können.
1.9 Fragebögen
Die Erhebung basiert in der Regel auf Fragen, die dem Untersuchungsziel angepasst
sind. Die einzelnen Fragen werden zu einem
Fragebogen
zusammengefasst. Ein Dozent
7
1 Grundlagen
befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Hobbies und
Schulabschluss. Die Hobbies werden auf Sport und Reisen begrenzt und bilden eine sogenannte
Mehrfachfrage . In diesem Fall wird jedem Hobby ein eigenes Merkmal zugeordnet,
mit den zulässigen Antworten ja und nein. Abschlieÿend soll jeder Teilnehmer mit
eigenen Worten die Mensa bewerten.
Man unterscheidet oene und geschlossene Fragen. Bei
geschlossenen Fragen
muss
eine Antwort aus einer Liste oder einem Zahlenbereich ausgewählt werden, das trit auf
die Fragen nach Geschlecht, Alter, Schulabschluss und den Hobbies zu. Die Bewertung
der Mensa ist eine
oene Frage , die sicherlich zu sehr unterschiedlichen Antworten führt
und deshalb statistisch schwierig auszuwerten ist.
1.10 Die Datenmatrix
Die ausgefüllten Fragebögen werden in Form einer Tabelle zusammengefasst, der sogenannten
Datenmatrix .
Die Tabelle 1.1 zeigt die zu den erwähnten Fragen erstellte
Datenmatrix.
Tabelle 1.1: Eine Datenmatrix
ID
X (Sex)
V (Alter) Y1 (Sport) Y2 (Reisen) Z (Schulabschluss)
1
1 männlich
27
1 Ja
1 Ja
3 Mittlere Reife
2
0 weiblich
54
1
1
3
3
1
34
1
0 Nein
4 Abitur
4
0
16
0 Nein
1
2 Hauptschule
5
0
15
0
1
1 nichts
In einer Zeile stehen die Antworten eines Befragten, also einer statistischen Einheit
bzw. eines Merkmalsträgers, der durch eine eindeutige ID zu identizieren ist, in jeder
Spalte sind die Werte der Merkmale zu nden. Jedem Merkmal wird eine Variable zugeordnet, hier das nominale Merkmal
X
für das Geschlecht, das ordinale Merkmal
den Schulabschluss und das metrische Merkmal
Y1
und
Y2
sind Teile einer
V
Z
für
für das Alter. Die nominalen Merkmale
Mehrfachfrage , hier nach dem Hobby, worauf der gemeinsame
Buchstabe Y hinweist. Die Werte der Variablen
Y1
und
Y2
sind ja oder nein, also
handelt es sich um dichotome Merkmale. Die Rohdaten einer Befragung werden meist
auch für qualitative Merkmale durch Zahlen codiert, hier etwa 0 für weiblich und 1 für
männlich. Oft zeigt man diese Codierung beim ersten Auftreten in der Datenmatrix
an. Trotz der zahlenmäÿigen Erfassung sollte klar sein, dass das arithmetische Mittel
des Geschlechts der Merkmalsträger nicht 0,4 ist.
8
1.11 Aufgaben
1.11 Aufgaben
Aufgabe 1.
Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle
Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung,
das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen
Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art
sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese?
Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.
Aufgabe 2.
Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-
schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben
diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern
an.
Aufgabe 3.
Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-
menhang zwischen Bestands- und Bewegungsmassen.
9
2 Darstellung univariater Daten
2.1 Übersicht und Lernziele
In diesem Kapitel werden folgende Themen behandelt:
- Darstellung univariater Daten durch eine Häugkeitstabelle;
- Grasche Darstellung univariater Daten Stab-, Balken- und Säulendiagramm;
- Die empirische Verteilungsfunktion.
2.2 Zum Begri univariate Datenanalyse
Die univariate Datenanalyse bezeichnet alle Verfahren, die nur auf ein einzelnes Merkmal einer Grundgesamtheit angewendet werden. Die Ausprägungen werden zunächst in
einer Häugkeitstabelle übersichtlich dargestellt. Die Häugkeitstabellen können durch
verschiedene Arten von Diagrammen veranschaulicht werden. Die sogenannte empirische
Verteilungsfunktion ist eine weitere Möglichkeit der Darstellung der Ausprägungen. Dabei bleibt der ursprüngliche Informationsgehalt weitgehend erhalten. Eine Informationsverdichtung liefern sogenannte Maÿzahlen wie arithmetischer Mittelwert und Varianz.
2.3 Die vier Grundformen von Datensätzen
Bei der univariaten Datenanalyse verwendet man vier verschiedene, aber eng verwandte
Listen von Daten.
(1)
Urliste
Die Daten einer Erhebung werden in einer Datenmatrix festgehalten, bei der eine
Zeile den vollständigen Datensatz einer statistischen Einheit, also eines Merkmalsträgers, beschreibt. In den Spalten stehen die Werte der einzelnen Merkmale. Bei
der univariaten Datenauswertung wird nur ein Merkmal allein ausgewertet. Bei
einer Grundgesamtheit mit
n Merkmalsträgern besteht eine Spalte somit aus einer
Folge
x1 , x2 , . . . , xn ,
wobei
xi
den als
die Merkmalsausprägung des i-ten Merkmalsträgers ist. Diese Werte wer-
Urliste
bezeichnet und stehen am Anfang jedes Verfahrens.
11
2 Darstellung univariater Daten
(2)
Aufsteigend geordnete Urliste
Die Urliste ist unübersichtlich und wird deshalb der Gröÿe nach geordnet, um etwas
Licht ins Dunkel zu bringen, und zwar in der Regel in aufsteigender Ordnung
x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Die seltsame Bezeichnung
x(j)
ist in der beschreibenden Statistik für die Elemente
der aufsteigend geordneten Urliste üblich.
(3)
Absteigend geordnete Urliste
Manchmal fängt die Ordnung auch beim gröÿten Einzelwert an und verläuft dann
absteigend. Auch hierfür haben sich die Statistiker eine seltsame Bezeichnung einfallen lassen
x(1) ≥ x(2) ≥ . . . ≥ x(n) .
Die Elemente der absteigend geordneten Liste werden also mit
(4)
x(j)
bezeichnet,
Ausprägungen
Innerhalb einer Urliste treten in der Regel manche Werte mehrfach auf. Es gibt
dann nur
k
wirklich verschiedene Werte, die ich wie Handl mit
ai
bezeichne, der
Gröÿe nach anordne
a1 < a2 < a3 < . . . < ak−1 < ak
und als
Ausprägungen
bezeichne.
Ich bezeichne mit n immer die Anzahl der Daten und mit k die Anzahl der Ausprägungen.
Nur wenn alle Werte verschieden sind, ist k = n, sonst ist k < n.
Beispiel 2.1.
9
Hier sind
6
7
Die folgende Liste zeigt die Studiendauer einer Gruppe von Studenten
10
n = 10
7
5
7
9
x4 = 10,
und
6
denn der vierte Wert der Urliste ist 10. Die nach
zunehmenden Werten geordnete Liste
5
6
6
6
7
7
7
9
6.
9
x(j)
ist
10.
Aus dieser ergibt sich durch Weglassen der Wiederholungen die Liste
aj
der Ausprägun-
gen
5
6
Somit sind
7
9
x(4) = 6
10.
und
a4 = 9,
denn in der aufsteigend geordneten Liste ist das vierte
Element 6 und in der Liste der Ausprägungen ist das vierte Element 9. Da es nur fünf
Ausprägungen gibt, ist
12
k = 5.
2.4 Absolute und relative Häugkeiten
2.4 Absolute und relative Häugkeiten
Bei der Datenanalyse wird gezählt, wie viele Merkmalsträger
Man nennt diese Zahl die
als
Häugkeitsliste
absolute Häugkeit
ni
ai hat.
(ai , ni ) werden
die Ausprägung
der Ausprägung. Die Paare
bezeichnet. Die absolute Häugkeit allein ist wenig aussagekräftig,
n
dazu ist der Bezug zur Anzahl
der Merkmalsträger nötig, also die
relative Häugkeit
fi = ni /n.
Da die absoluten Häugkeiten
ben, liegen die Werte der
fi
ni
zwischen
1 und n liegen und zusammengezählt n erge-
zwischen 0 und 1 und ihre Summe ist genau 1, in Formeln
k
X
i=1
k
X
ni = n1 + n2 + · · · + nk = n,
(2.1)
fi = f1 + f2 + · · · + fk = 1.
(2.2)
i=1
Relative Häugkeiten werden oft auch in Prozent angegeben, dafür müssen die Werte
mit 100 multipliziert werden, die Summe ergibt dann 100.
In manchen Fällen liegt die Urliste der Daten nicht vor, weil bei der Datenerfassung
bereits die möglichen Ausprägungen bekannt sind und nur noch die absoluten Häugkeiten ausgezählt werden müssen.
Die Merkmale mit gleichem Wert bilden eine Gruppe, man spricht auch von
gruppier-
ten Daten . Die Anzahl von Gruppen werde ich immer mit k bezeichnen. Wenn alle Werte
k = n und x(j) = aj . Im Beispiel 2.1 gibt es k = 5
n1 = 1, n2 = 3, n3 = 3, n3 = 2 sowie n5 = 1
und den relativen Häugkeiten f1 = 0, 1, f2 = 0, 3, f3 = 0, 3, f4 = 0, 2 und f5 = 0, 1.
Die absoluten Häugkeiten ni summieren sich zu n = 10 und die relativen Häugkeiten
der Urliste verschieden sind, folgen
Gruppen mit den absoluten Häugkeiten
zu 1.
2.5 Kumulierte absolute und relative Häugkeiten
Bei mindestens ordinalen Merkmalen sind die Ausprägungen
a1 , a2 , . . . , ak
der Gröÿe
nach geordnet. Deshalb ist eine stufenweise Ansammlung (Kumulation) bereits erreichter
Anteile möglich, um etwa bei den Ergebnissen einer Klassenarbeit, den Prozentsatz
von Schülern anzugeben, die mindestens eine vier erreicht haben. Sind
n1 , n2 , . . . , nk
die absoluten Häugkeiten der geordneten Merkmalsausprägungen, so werden die i-te
kumulierte absolute bzw. relative Häugkeit durch
Ni =
k
X
nj = n1 + n2 + · · · + ni ,
(2.3)
fj = f1 + f2 + · · · + fi
(2.4)
j=1
Fi =
k
X
j=1
13
2 Darstellung univariater Daten
berechnet.
Bei den Daten des Beispiels 2.1 ergeben sich folgende Werte für die kumulierten abso-
N1 = 1, N2 = 4, N3 = 7, N4 = 9 und N5 = 10 und entsprechend nach
Division dieser Werte durch n = 10 die kumulierten relativen Häugkeiten F1 = 0, 1,
F2 = 0, 4, F3 = 0, 7, F5 = 0, 9 und F5 = 1.
luten Häugkeiten
2.6 Häugkeitstabellen
Die Ausprägungen und deren absoluten und relativen Häugkeiten sowie die entsprechenden kumulierten Werte werden in einer Tabelle zusammengefasst, die man
keitstabelle
Häug-
nennt. Im Beispiel der Studiendauer ergibt sich die Häugkeitstabelle wie in
der Tabelle der Abbildung 2.1 im Bereich A1:F6 dargestellt. Nach diesem Muster wird
die Häugkeitstabelle eines jeden mindestens ordinalen Merkmals aufgebaut.
1
2
3
4
5
6
7
8
9
10
11
A B
i ai
1
2
3
4
5
5
6
7
9
10
C
ni
1
3
3
2
1
D
Ni
E
fi
F GH
Fi
1
4
7
9
10
0,1
0,3
0,3
0,2
0,1
0,1
0,4
0,7
0,9
1
5 5
0 0,1
0 1
6
6
0 0,3
0
3
I
J K
L
M
N
O
P
Rel. Stabdiagramm
S
T
U V W
xi x(i)
ni
ai
4 5 6 7 8 9 10 11
7 7
0 0,3
0 3
R
Abs. Stabdiagramm
fi
0,3
0,2
0,1
0
Q
9 9
0 0,2
0 2
3
2
1
0
ai
4 5 6 7 8 9 10 11
10 10
0 0,1
0
1
9 5
6 6
7 6
10 6
7 7
5 7
7 7
9 9
6 9
6 10
Abbildung 2.1: Häugkeitstabellen und Stabdiagramme
In den Spalte V und W stehen die Werte der Urliste bzw. der geordneten Urliste.
In der ersten Spalte steht der Index
Ausprägungen
ai ,
i
der jeweiligen Zeile, in der zweiten stehen die
in der dritten die absoluten Häugkeiten, in der vierten die kumu-
lierten absoluten Häugkeiten, in der fünften die relativen Häugkeiten, in der letzten
die kumulierten relativen Häugkeiten. Den kumulierten relativen Häugkeiten können
wir unter anderem entnehmen, dass die Studiendauer bei 90 Prozent der untersuchten
Studenten höchstens 9 Semester lang war.
2.7 Stab- Säulen- und Balkendiagramme
.
Absolute und relative Häugkeiten lassen sich durch Diagramme veranschaulichen. Bei
Stab- und Säulendiagrammen werden die Werte der Häugkeiten
ni
bzw.
von Stäben oder Höhen von Säulen umgerechnet und über den Werten von
fi
in Längen
ai abgetragen.
Deshalb kann man die Werte der Häugkeiten sehr gut vergleichen und sogar ablesen.
14
2.8 Empirische Verteilungsfunktion
Die Abbildung 2.1 zeigt die Häugkeitstabelle sowie die Stabdiagramme der absoluten
und relativen Häugkeiten.
ai eine senkrechte Strecke mit der
abgetragen, also die Strecke (ai , 0)(ai , fi ).
Für eine Stabverteilung wird über jeder Ausprägung
Länge der relativen Häugkeit
fi
nach oben
Die Anfangs- und Endpunkte dieser
k
Strecken benden sich im Bereich B8:O9 des
abgebildeten Arbeitsblatts. Jeder Stab ist eine Punkt-Grak für sich, der erste Stab
wird durch den Bereich B8:C9 erzeugt, dann kommen die leeren Zellen D8:C9 und dann
folgen die Koordinaten des zweiten Stabs, usw. bis zu den Koordinaten des letzten Stabs.
Die Zeile 10 enthält die y-Werte für das Stabdiagramm der absoluten Häugkeiten. Sie
müssen die Koordinaten der Strecken unbedingt durch leere Zellen trennen, sonst würde
Excel die Stäbe durch hässliche Zickzacklinien verbinden.
Bei einem Balkendiagramm werden die Werte
Werte der
fi
ai
auf der y-Achse eingetragen und die
nach rechts, also waagrecht wie ein Balken.
2.8 Empirische Verteilungsfunktion
Bis jetzt wurden nur die Häugkeiten grasch dargestellt. Es gibt aber auch eine grasche Darstellung der kumulierten relativen Häugkeiten als Graph einer Funktion, der
sogenannten empirischen Verteilungsfunktion.
Diese ist nur für die Merkmalsausprägungen mindestens ordinaler Merkmale deniert.
Die
empirische Verteilungsfunktion F : R → [0, 1]
einer Urliste von
...,
xn
für jede reelle Zahl
leitet sich aus der Forderung ab, dass
F (x)
Anteil der Werte angibt, welche kleiner oder höchstens gleich
x
n
Werten
x
x1 , x2 ,
den relativen
sind; die Funktion ist
also für alle reellen Zahlen deniert und nicht nur für die eigentlichen Messwerte. Die
formale Denition der empirischen Verteilungsfunktion lautet
F (x) =
Anzahl der Daten
xi ≤ x
n
.
Die empirische Verteilungsfunktion gibt die Summe der relativen Häugkeiten aller Daten an, die kleiner oder gleich
x
sind, daher ist sie zwischen zwei benachbarten Daten
x1 ,
xn . Die Gröÿe des Sprunges am Wert xi ist die relative Häugkeit von xi .
Liegen n verschiedene Einzelbeobachtungen mit der aufsteigend geordneten Urliste
x(1) , x(2) , . . . , x(n) vor, so hat jeder Sprung die Höhe 1/n und die empirische Verteilungsfunktion zwischen x(i) und x(i+1) den Wert i/n.
konstant, hat also die Form einer Treppe. Die Sprungstellen sind gerade die Daten
x2 ,
...,
Wenn nicht alle Beobachtungen verschieden sind, wird die empirische Verteilungsfunktion über die Ausprägungen bestimmt. Da diese eine der Gröÿe nach geordnete Reihe
a1 < a2 < a3 . . . < ak−1 < ak
ai−1 ≤ x < ai konstant,
Ausprägung ai um die rela-
bilden, ist die empirische Verteilungsfunktion in jedem Intervall
und zwar mit dem Wert
tive Häugkeit
fi
Fi−1
und springt an der nächsten
nach oben auf den neuen Wert
Fi .
Funktionen dieser Art werden als
15
2 Darstellung univariater Daten
Treppenfunktion
bezeichnet. Damit ergibt sich für die empirische Verteilungsfunktion:


0,
F (x) = Fi ,


1,
wenn
wenn
wenn
x < a1 ;
ai ≤ x < ai+1 ;
x ≥ ak .
1 ≤ i ≤ k − 1;
Die empirische Verteilungsfunktion beginnt ihren langen Weg von
Ausprägung
a1
beim Wert 0, macht dann an jedem der
k
−∞
bis zur kleinsten
Messwerte einen Sprung nach
ak den Endwert 1, und verharrt auf diesem Wert
∞. Gezeichnet wird die empirische Verteilungsfunktion deshalb von einem Wert etwas
oben und erreicht am gröÿten Messwert
bis
links vom kleinsten bis zu einem Wert etwas rechts von der gröÿten Ausprägung.
Die empirische Verteilungsfunktion des Merkmals
X
Anzahl der benötigten Semes-
ter ergibt sich aus der Häugkeitstabelle der Abbildung 2.1.

0,





0, 1,


0, 4,
F (x) =

0, 7,





0, 9,



1,
wenn
wenn
wenn
wenn
wenn
wenn
x < 5;
5 ≤ x < 6;
6 ≤ x < 7;
7 ≤ x < 9;
9 ≤ x < 10;
x ≥ 10.
Mit der empirischen Verteilungsfunktion kann man den Anteil
malsträger, deren Merkmalsausprägung im Intervall
(a, b]
f (a < X ≤ b)
der Merk-
liegt, bestimmen:
f (a < X ≤ b) = F (b) − F (a).
Der Anteil an Studenten, die länger als 6 und höchstens 9 Semester bis zum Abschluss
benötigten, ist also
F (9) − F (6) = 0, 9 − 0, 4 = 0, 5.
Den Graph der empirischen Verteilungsfunktion habe ich ebenfalls mit Excel erstellt.
A B
1 i ai
2 1 5
3 2 6
4 3 7
5 4 9
6 5 10
7
8
9 4 5
10 0 0
C
D
E
F
ni Ni fi Fi
1 1 0,1 0,1
3 4 0,3 0,4
3 7 0,3 0,7
2 9 0,2 0,9
1 10 0,1 1
G
H
J
K
L
M
N
O
P
Empirische Verteilungsfunktion
1
0,8
0,6
0,4
0,2
0
Fi
Q
R
5
6
7
9
10
0,1
0,4
0,7
0,9
1
ai
4
5
6
0,1 0,1
I
6 7
0,4 0,4
5
6
7
7 9
0,7 0,7
8
9
10
9 10
0,9 0,9
11
10 11
1 1
Abbildung 2.2: Empirische Verteilungsfunktion
In der Abbildung 2.2 ist der Graph dieser Funktion zu sehen. Die empirische Verteilungsfunktion ist rechtsstetig, d.h. die Treppenfunktion beginnt nach jedem Sprung
16
2.9 Der Sonderfall nominaler Merkmale
gleich am Anfang, also an der Stelle
ai
mit dem neuen Wert
Fi . Man deutet dies grasch
mit einer Klammer oder wie in der Abbildung mit einer Markierung am Anfang der
Treppenstufen an. Formal bedeutet die Rechtsstetigkeit für
1≤i≤k
F (ai ) = lim F (ai + ε),
ε→0+
wobei hier nur
ε > 0 erlaubt ist, da die Annäherung von rechts erfolgt. An allen anderen
Punkten ist die Funktion ohnehin stetig.
F (x) müssen also für 1 ≤ i ≤ k die waag(ai , Fi )(ai+1 , Fi ) eingezeichnet werden. Vor dem kleinsten Wert a1 ist
konstant 0, nach dem gröÿten Wert ak konstant 1. Ich habe die Koordina-
Für die empirische Verteilungsfunktion
rechte Strecken
die Funktion
ten der jeweiligen Anfangs- und Endpunkte der Treppenstufen im Bereich A9:Q10 des
Excel-Arbeitsblatts von Abbildung 2.2 aufgeführt. Auch hier ist jede Stufe der Treppenfunktion eine Punktgrak. Die Markierungen am Anfang der Treppen werden ebenfalls
als Punktgrak erzeugt, die zugehörigen Koordinaten stehen im Bereich Q1:R5.
Bemerkung 2.1. Der Begri empirisch bezieht sich immer auf Erfahrungen, Messungen
oder Beobachtungen und wird oft im Gegensatz zum Begri theoretisch verwendet. Empirische Verteilungsfunktionen basieren auf beobachteten Daten, während theoretische
Verteilungsfunktionen von einem Modell abgeleitet sind. Für weitere Auskünfte über
den Unterschied zwischen theoretischen und empirischen Verteilungsfunktionen wenden
Sie sich an den Hütchenspieler ihres Vertrauens oder lesen dessen Allgemeine Geschäftsbedingungen.
2.9 Der Sonderfall nominaler Merkmale
Nominale Merkmale haben keine natürliche Rangordnung, man verwendet für die Anordnung die vorgenommene Kodierung oder eine Anordnung nach dem Alphabet, trotzdem
ist keine Anhäufung möglich, daher entfallen in der Häugkeitstabelle die beiden Spalten
für
Ni
und
Fi .
Beispiel 2.2.
Seit 1930 werden alle vier Jahre mit Ausnahme von 1942 und 1946 Fuÿ-
ballweltmeisterschaften in wechselnden Ländern ausgetragen. Bisher gab es nur 9 Weltmeister und zwar in alphabetischer Reihenfolge Argentinien, Brasilien, Deutschland,
England, Frankreich, Italien, Spanien und Uruguay. Die folgende Tabelle zeigt die Anfangsbuchstaben der Weltmeisternationen und die verkürzte Jahreszahl ihres Triumphs.
Tabelle 2.1: Liste der Weltmeister im Fuÿball
30
34
38
50
54
58
62
66
70
74
78
82
86
90
94
98
02
06
10
U
I
I
U
D
B
B
E
B
D
A
I
A
D
B
F
B
I
S
Diese Datensammlung ist die Urliste, die in einer Datenmatrix eine Spalte wäre, hier
aber aus Platzgründen in einer Zeile steht. Ich fasse die einmaligen Weltmeister England,
Frankreich und Spanien zum Rest zusammen.
17
2 Darstellung univariater Daten
Die ungeordnete und die in alphabetischer Reihenfolge der Anfangsbuchstaben geordnete Urliste sowie die Ausprägungen sind dann
U I I U D B B R B D A I A D B F B I R
A A B B B B B D D D I I I I R R R U U
A B D I R U
Somit sind
x3 = I , x(3) = B und a3 = D, denn der Wert des dritten Merkmals der Urliste
ist I, der dritte Wert der geordneten Urliste ist B und die dritte Ausprägung ist
D. Weiterhin sind
und
n6 = 2.
n = 19, k = 6
sowie
n1 = 2, n2 = 5, n3 = 3, n4 = 4, n5 = 3
Die Ausprägungen und ihre Häugkeiten ergeben sich aus der geordneten
Urliste. Die zugehörige Häugkeitstabelle ist in Abbildung 2.3 zu sehen, wobei ich die
Ländernamen durch drei Buchstaben kodiert habe.
1
2
3
4
5
6
7
A
B
C
i
1
2
3
4
5
6
ai
Arg
Bra
Deu
Ita
Uru
Rst
ni
2
5
3
4
2
3
D
E
fi
6
10,53% # 5
4
26,32% W 3
15,79% M 2
1
21,05%
0
10,53%
15,79%
F
G
Arg Bra Deu Ita
Land
Uru Rst
Abbildung 2.3: Häugkeitstabelle und Säulendiagramm
Hier sind
a2 = Bra, n2 = 5
und
f2 = 5/19 = 26, 32 %.
Das Säulendiagramm der Ver-
teilung der Weltmeister ist in der Abbildung 2.3 zu sehen, wobei ich hier absolute Zahlen
verwendet habe. Die Ergebnisse einer Wahl zum Bundestag werden dagegen besser mit
relativen Häugkeiten dargeboten. Bei nominalen Merkmalen sind Säulen- und Balkendiagramme meist die richtige Wahl. Die Presse verwendet sehr gerne
Kreisdiagramme ,
dafür müssen die Anteile in Flächeninhalte von Kreissektoren umgerechnet werden, oder
man überlässt das Excel.
2.9.1 Kreis- und Säulendiagramm
Die Ausprägungen nominaler Daten werden oft durch ein Kreis-, Säulen- oder Balkendiagramm dargestellt.
Bei der Bundestagswahl 2002 erhielt die CDU/CSU 38,5, die SPD 38,5, die FDP 7,4
und die GRÜNEN 8,5 Prozent der Zweitstimmen. In der Abbildung 2.4 sehen Sie diese Daten im Bereich A1:E2 eines Arbeitsblatts als Liste und darunter als Säulen- und
Kreisdiagramm. Bei einem Kreisdiagramm werden den relativen Anteilen
ren mit den Winkeln
fi · 360 zugeordnet. Bei einen Säulendiagramm
fi
Kreissekto-
werden die relativen
Anteile als Säulen dargestellt. Der Vergleich zeigt, dass Säulendiagramme anschaulicher
als Kreisdiagramme sind.
18
2.10 Aufgaben
1
2
3
4
5
6
B
Partei
Anteil
CDU/CSU
38,5
SPD
38,5
FDP
7,4
GRÜNE
8,5
C
D
E
F
G
Wahl 2002
Wahl 2002
Stimmanteil
A
H
CDU/CSU
40
20
0
SPD
Grüne
FDP
CDU/CSU SPD Grüne FDP
Partei
Abbildung 2.4: Kreis- und Säulendiagramm im Vergleich
2.10 Aufgaben
Aufgabe 1.
An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind
hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen
hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine
Verteilungsfunktion?
Aufgabe 2.
Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der
Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält
die folgenden Werte für die Anzahl
10
12
7
12
8
8
14
8
X
12
von Salamischeiben
10
10
7
12
14
10
14
7
12
8
8.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
19
3 Maÿzahlen einer Verteilung
3.1 Übersicht und Lernziele
In diesem Kapitel werden folgende Themen behandelt:
- Zweck der Maÿzahlen und ihre Einteilung in Lage-, Streuungs- und Schiefemaÿe;
- Modus, Median, Quantile, Quartile und Boxplot;
- Arithmetisches Mittel, Varianz, Standardabweichung und Variationskoezient
3.2 Denition und Einteilung
Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treende Maÿzahlen will man die Information
bewusst verdichten, um spezische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet dabei zwischen
ungsmaÿen
und
Lagemaÿen , Streu-
Schiefemaÿen . Lagemaÿe geben an, wo sich die Zentren der Verteilung
benden, Streuungsmaÿe sind Indikatoren dafür, wie gedrängt oder verstreut sich die
Beobachtungen um die Lagemaÿe verteilen. Schiefemaÿe zeigen Abweichungen von der
Symmetrie und der sogenannten Normalverteilung an. Diese werden hier nicht behandelt.
3.3 Modus
Die Merkmalsausprägung, die am häugsten vorkommt, wird
Modus
genannt, und kann
für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei
oder mehr Beobachtungen gleich oft auftreten können. Wenn sogar alle Werte verschieden sind, ist jeder davon auch ein Modus. Eine andere Bezeichnung für den Modus ist
Modalwert .
Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen mit
der Urliste
(xi )
der Noten der sieben teilnehmenden Damen:
gut, ausreichend, befriedigend, gut, befriedigend, ausreichend, gut.
(3.1)
Das Merkmal Note ist ordinal, der häugste Wert ist hier gut.
Besonders einfach wird die Bestimmung des Modus, wenn für die Verteilung bereits
eine Häugkeitstabelle vorliegt, der Modus ist dann in der Zeile mit dem gröÿten
ni
zu
21
3 Maÿzahlen einer Verteilung
nden. Die in der Abbildung 2.1 auf Seite 14 im Bereich A1:F6 dargestellte Häugkeitstabelle zeigt die Verteilung der Studiendauer einer Gruppe von Studenten. Hier sind
n2 = n3 = 3
die gröÿten Werte, also sind sowohl
a2 = 6
als auch
a3 = 7
Modi. Bei der
Häugkeitstabelle 2.1 auf Seite 17 mit den Fuÿballweltmeistern ist der Modus eindeutig,
da
n2 = 5
gröÿer als alle anderen
ni
ist, somit ist
a2 = Bra(silien)
der Modus.
3.4 Median
Der
Median
ist derjenige Merkmalswert eines mindestens ordinalen Merkmals
mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang
X,
den
n unterschrei-
ten oder höchstens erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen. Der Median wird mit dem Symbol
Der Median wird manchmal auch Zentralwert genannt und mit
Z
x0,5
bezeichnet.
bezeichnet.
Ordinale Daten lassen sich der Gröÿe nach ordnen, bei den Noten der Studentinnen
ergibt sich dann die geordnete Urliste
(x(i) )
gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend.
Ist die Anzahl
x0,5 .
n
der Beobachtungen ungerade, so ist der Wert
x((n+1)/2)
(3.2)
der Median
Bei den sieben Noten der Studentinnen mit der Urliste von 3.1 ist somit der vierte
Wert
x(4)
Schwieriger wird der Fall,
nissen
x0,5 = befriedigend.
wenn n gerade ist, wie
der Median, also ist
(x(i) )
bei den bereits geordneten Ergeb-
der Studenten:
sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend.
(3.3)
Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte Note
erfüllen die an den Median gestellten Bedingungen, denn drei und damit genau 50 %
aller Werte sind kleiner oder höchstens gleich
oder gleich
x(3) .
x(3) = sehr
gut und vier Werte sind gröÿer
Dagegen sind vier Werte kleiner oder gleich
sind gröÿer oder gleich
x(4) =
gut und drei Werte
x(4) .
Halten wir als Ergebnis fest, dass bei mindestens ordinalen Merkmalen die Werte
zunächst geordnet werden. Der Median wird aus der geordneten Urliste
(x(i) )
wie folgt
gefunden:
x0,5
Ist die Anzahl
n
(
x((n+1)/2) ,
=
x(n/2) und x(1+n/2)
für
für
n
n
ungerade,
gerade.
(3.4)
der Daten eine gerade Zahl, so ist der Median also nicht eindeutig. Der
Median teilt die Merkmalsträger der Untersuchung in zwei gleich groÿe Gruppen, die
bezogen auf das untersuchte Merkmal besser und schlechter abschneiden.
22
3.5 Quantile
3.4.1 Der Median metrischer Merkmale
n die Eindeutigkeit
x(1+n/2) erzwungen. Es ergibt sich dann:
(
x((n+1)/2) ,
für n ungerade;
= x(n/2) +x(1+n/2)
, für n gerade.
2
Ist das Merkmal metrisch, wird für gerade Werte von
durch Mittelung von
x(n/2)
x0,5
des Medians
und
(3.5)
Der Median trennt die Merkmalsträger in zwei Hälften, bei einer Einkommens- oder
Vermögensverteilung liegt das Einkommen bzw. Vermögen von jeweils 50 Prozent der
Merkmalsträger oberhalb bzw. unterhalb des Medians.
Bei metrischen Merkmalen ist der Median der Wert, der die Summe der Beträge
der Abstände zu den Messwerten (x1 , x2 , . . . , xn ) minimiert, d.h. der Median erfüllt die
Bedingung
x0,5 = min g(x),
x∈R
mit
g(x) =
n
X
|x − xi | .
(3.6)
i=1
Diese Eigenschaft ist nicht ganz einfach herzuleiten, da die Funktion
g(x) nicht dieren-
zierbar ist.
Beispiel 3.1.
Die Post hat neun Kunden in einer Straÿe, die täglich einmal Briefe
abgeben wollen. Die Standorte der Kunden liegen vom Anfang der Straÿe aus gemessen
200, 350, 140, 600, 800, 100, 260, 320, 1000.
Meter entfernt. Die Straÿe liegt in einer Fuÿgängerzone, der mit der Einsammlung der
Briefe betraute Mitarbeiter darf sein Fahrzeug aber an einem Ort abstellen, wohin die
Kunden gegen 16:00 die Briefe abliefern. An welchem Ort sollte dies geschehen, damit
die Summe der Wege der Kunden minimal wird?
Die geordnete Urliste lautet
100, 140, 200, 260, 320, 350, 600, 800, 1000.
Der Median ist der fünfte Wert der geordneten Liste, also sollte der Fahrer sein Fahrzeug 320 m vom Anfang der Straÿe aus abstellen.
Eine Woche später kommt ein weiterer Kunde hinzu, dessen Geschäft 2000 m vom Anfang der Straÿe entfernt ist. Der Median ist jetzt der Mittelwert des fünften und sechsten
geordneten Werts, also 335. Hier zeigt sich, dass der Median robust gegen sogenannte
Ausreiÿer
ist, der groÿe neue Wert ändert den Median kaum. Das arithmetische Mittel
dagegen steigt von 458,75 auf 630.
3.5 Quantile
Der Median
x0,5
teilt die Beobachtungen in zwei gleich groÿe Teile. Man kann die ge-
ordnete Urliste nach demselben Prinzip für jede beliebige Zahl
Quantil
genannten und mit
xp
0<p<1
durch einen
bezeichneten Wert aufteilen. Dabei sollen mindestens
23
3 Maÿzahlen einer Verteilung
100p Prozent der Beobachtungen kleiner oder gleich dem Quantil xp und mindestens
100(1 − p) Prozent der Beobachtungen gröÿer oder gleich dem Quantil xp sein. Da n
Werte vorliegen, ist x(np) der natürliche Kandidat für xp . Ist np ganzzahlig, so sind x(np)
und x(1+np) gleichwertig, daher wird in diesem Fall bei metrischen Merkmalen wieder
der Mittelwert von beiden genommen. Ist np nicht ganzzahlig, so nimmt man x(C(np))
für xp , wobei C(np) diejenige ganze Zahl bezeichnet, die aus Aufrunden nach oben aus
np entsteht. Es gilt also z.B. C(7, 2) = 8, C(9, 1) = 10, aber C(7) = 7. Das C steht
dabei für ceil, dem englischen Wort für Decke.
Das ergibt folgende Formel für metrische Merkmale:
(
x(C(np)) ,
xp =
0, 5 x(np) + x(1+np) ,
für
für
np
np
nicht ganzzahlig;
(3.7)
ganzzahlig.
Bei ordinalen Merkmalen ist eine Mittelung verboten. Somit deniert man hier
(
x(C(np)) ,
xp =
x(np) und x(1+np)
Der Median ist das zu
p = 0, 5
für
für
np
np
nicht ganzzahlig;
(3.8)
ganzzahlig.
gehörende Quantil und wird genauso berechnet wie
alle anderen Quantile und daher nicht mehr gesondert betrachtet.
Die Quantile
und
Q3
x0,25
und
x0,75
heiÿen
unteres
bzw.
oberes Quartil
und werden mit
Q1
bezeichnet. Der Median ist das mittlere Quartil und wird daher in diesem Zu-
sammenhang mit
Q2
bezeichnet. Durch die drei Quartile werden die Werte der Gröÿe
nach in vier gleich groÿe Abschnitte geteilt, die jeweils ein Viertel der Werte umfassen.
Durch Terzile werden die Werte der Gröÿe nach in drei gleich groÿe Abschnitte geteilt:
unteres, mittleres und oberes Drittel. Man benötigt dafür die Terzile
T1 = x1/3
und
T2 = x2/3 .
Beispiel 3.2. Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten im Kugelstoÿen mit der in [m] angegebenen bereits geordneten Messreihe:
6,1
6,6
6,9
7,1
7,2
7,3
7,4
7,7
8,2
8,4
9,1
10,3
10,5
11,4.
Q3 sowie die Terzile T1 und T2 .
Hier sind sowohl 3, 75 = 15 · 0, 25 als auch 7, 5 = 15 · 0, 5 sowie 11, 25 = 15 · 0, 75
nicht ganzzahlig. Deshalb ist Q1 der vierte, Q2 der achte und Q3 der zwölfte Wert der
Zu berechnen seien die drei Quartile
Q1 , Q2
7,9
und
geordneten Urliste. Die drei Quartile sind somit:
Q1 = x0,25 = x(4) = 7, 1,
Q2 = x0,5 = x(8) = 7, 7,
Q3 = x0,75 = x(12) = 9, 1.
Für das erste Terzil
T1 = x1/3
wird zunächst
np = 15/3 = 5
berechnet. Diese Zahl ist
ganzzahlig, somit ist
T1 = 0, 5(x(5) + x(6) ) = 0, 5(7, 2 + 7, 3) = 7, 25.
24
3.5 Quantile
Tatsächlich sind nun fünf Daten kleiner oder höchstens gleich
mindestens
2/3 = 10
x1/3
oder gröÿer. Für das zweite Terzil
T2 = x2/3
x1/3
und zehn Daten
wird zunächst
np = 15 ·
berechnet. Diese Zahl ist ganzzahlig, somit ist
T2 = 0, 5(x(10) + x(11) ) = 0, 5(8, 2 + 8, 4) = 8, 3.
Beispiel 3.3.
1
4
Ein Barkeeper zählt die Anzahl von Cocktails seiner Gäste:
3
6
3
2
2
2
Zu berechnen seien die Quartile
1
4.
Q1 , Q2
und
Q3
sowie
T1 .
Die zugehörige geordnete Urliste lautet
1
Für
1
2
2
Q1 = x0,25
2
3
3
4
muss zunächst
4
6.
np = 10 · 0, 25 = 2, 5
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 3 ergibt. Deshalb ist
Q1
der dritte Wert der geordneten Urliste.
Für
Q3 = x0,75
muss zunächst
np = 10 · 0, 75 = 7, 5
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 8 ergibt. Deshalb ist
Q3
der achte Wert der geordneten Urliste.
Dagegen ist
5 = 10·0, 5 ganzzahlig, also ist der Median der Mittelwert aus dem fünften
und sechsten Wert. Die drei Quartile sind somit:
Q1 = x0,25 = x(3) = 2,
Q2 = x0,5 = 0, 5(x(5) + x(6) ) = 0, 5(2 + 3) = 2, 5,
Q3 = x0,75 = x(8) = 4.
Für
T1 = x1/3
muss zunächst
np = 10 · 1/3 = 3, 3333
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 4 ergibt. Deshalb ist
T1
der vierte Wert der geordneten Urliste, also
T1 = 2.
3.5.1 Median und Quantile aus einer Häugkeitstabelle
xp wird
Fi−1 < p, so ist die
zugehörige Ausprägung ai das Quantil xp . Gibt es dagegen eine Zeile i mit Fi > p sowie
Fi−1 = p, so sind bei ordinalen Merkmalen sowohl ai als auch ai−1 das Quantil xp . Bei
metrischen Merkmalen wird der Mittelwert von ai und ai−1 verwendet.
Oft wurde für die Daten bereits eine Häugkeitstabelle erstellt. Das Quantil
dann wie folgt bestimmt: Gibt es eine Zeile
Beispiel 3.4.
i
mit
Fi > p
sowie
Die in Abschnitt 3.3 auf Seite 22 aufgelisteten Noten der Studenten erge-
ben die folgende Häugkeitstabelle:
p = 0, 5 und in der Häugkeitstabelle gilt für i = 2 zum ersten Mal Fi > 0, 5, aber es ist Fi−1 = 0, 5, also sind
bei diesem ordinalen Merkmal sowohl die Ausprägung a2 =sehr gut als auch a1 =gut
Der Median ist nicht eindeutig, denn für den Median ist
der Median.
25
3 Maÿzahlen einer Verteilung
i
ai (Note)
1
ni
fi
Fi
sehr gut
3
3/6
3/6
2
gut
1
1/6
4/6
3
befriedigend
1
1/6
5/6
4
ausreichend
1
1/6
1
Q1 und Q2 . Das untere
x0,25 . Die erste Ausprägung mit Fi > p = 0, 25 bendet sich in
der ersten Zeile mit F1 = 1/2 und es ist F0 = 0 < 0, 25, also ist Q1 = a1 = sehr gut. Das
obere Quartil ist das Quantil x0,75 . Die erste Ausprägung mit Fi > p = 0, 75 ist in der
dritten Zeile mit F3 = 5/6 , und es ist F2 = 2/3 < 0, 75, also ist Q3 = a3 = befriedigend.
Eindeutig sind dagegen das untere und das obere Quartil
Quartil ist das Quantil
Beispiel 3.5.
Die Werte des Beispiels 3.3 auf Seite 25 stammen von einem metrischen
Merkmal und führen zu folgender Häugkeitstabelle:
Tabelle 3.1: Anzahl von Cocktails
i
ai
ni
fi
Fi
1
1
2
0,2
0,2
2
2
3
0,3
0,5
3
3
2
0,2
0,7
4
4
2
0,2
0,9
5
6
1
0,1
1
Hier berechnen sich die drei Quartile wie folgt
Q1 = x0,25 = a2 = 2
Q2 = x0,5 = 0, 5(a2 + a3 ) = 2, 5
Q3 = x0,75 = a4 = 4,
i = 2 ist das erste Mal Fi > 0, 25 und es
ist gleichzeitig F1 < 0, 25. Für den Median ist p = 0, 5 und für i = 3 gilt zum ersten Mal
Fi > p, aber gleichzeitig ist F2 = p = 0, 5, also muss für den Median der Mittelwert von
a2 und a3 gebildet werden. Die Begründung für das dritte Quartil überlasse ich Ihnen.
denn für das erste Quartil ist
p = 0, 25
und für
3.5.2 Spannweite und Interquartilsabstand
p = r/s, r = 1, 2, . . . , s − 1 in
Teile zerlegt werden. Besonders häug werden die Daten in s = 4 Teibenötigten Quantile werden Quartile genannt und mit Q1 , Q2 und Q3
Jede angeordnete Datenreihe kann durch Quantile mit
s
gleich groÿe
le zerlegt, die
26
3.6 Boxplots
Q1 entspricht dem Quantil x0,25 , das sogenannte obere Quartil Q3 entspricht dem Quantil x0,75 .
Die Dierenz zwischen Q3 und Q1 wird Interquartilsabstand IQR (von der englischen
Bezeichnung interquartile range abgeleitet) genannt. Innerhalb des Intervalls [Q1 , Q3 ]
liegen 50 % der Daten. Die Dierenz zwischen dem gröÿten Wert x(n) und dem kleinsten
Wert x(1) wird Spannweite R genannt (von englisch range).
Bezeichnet man den kleinsten Wert x(1) mit Q0 und den gröÿten Wert x(n) mit Q4 , so
bezeichnet. Das Quartil
Q2
ist der Median
x0,5 ,
das sogenannte untere Quartil
ergibt sich
R = Q4 − Q0 ,
IQR = Q3 − Q1 .
(3.9)
(3.10)
3.6 Boxplots
Ein
Boxplot
ist eine komprimierte graphische Darstellung eines Datensatzes, die von
Tukey (1977) eingeführt worden ist. Boxplots veranschaulichen vier Bereiche mit je einem
Viertel der Werte. Ein Boxplot besteht aus der eigentlichen Box und zwei sogenannten
Zäunen (auch Antennen genannt), die an die Box anschlieÿen.
Die Box ist immer ein Rechteck, das durch das erste und dritte Quartil begrenzt wird,
die Box umfasst also die mittlere Hälfte der Daten, bestimmt durch den Interquartilsabstand.
Die Box wird durch den Median in zwei in der Regel ungleich groÿe Teile geteilt. Die
Lage des Medians gibt Aufschluss über die Symmetrie. Liegt der Median ungefähr in
der Mitte der Box, so deutet dies auf eine symmetrische Verteilung hin. Bei einer rechtsschiefen Verteilung liegt der Median näher am unteren Quartil und bei einer linksschiefen
Verteilung näher am oberen Quartil.
Die Box vermittelt also einen Überblick über die mittleren 50 % der Beobachtungen
eines Datensatzes, während die Zäune (whiskers, adjacent values) das erste und letzte
Viertel der Verteilung veranschaulichen. Bei der einfachsten Form reichen die Linien der
Zäune gerade bis an den kleinsten bzw. gröÿten Wert heran. Die Enden der Linien sind
durch kleine senkrechte Striche gekennzeichnet.
Der Boxplot zum Beispiel 3.3 auf Seite 25 sieht dann so aus:
Abbildung 3.1: Einfacher Boxplot
Der kleinste Wert ist nämlich
die Werte
Q1 = 2, Q2 = 2, 5
Q0 = 1, der
Q3 = 4.
gröÿte
Q4 = 6
und die drei Quartile haben
und
27
3 Maÿzahlen einer Verteilung
3.6.1 Eine Variante des Boxplots
Bei der folgenden weit verbreiteten Variante des Boxplots werden nur die Zäune verändert, und zwar sind die Zäune durch diejenigen Beobachtungen festgelegt, die gerade
[Q1 − 1, 5IQR, Q3 + 1, 5IQR]
noch innerhalb des Bereichs
ginnt also beim kleinsten
Z0
liegen. Der untere Zaun be-
genannten Wert, der gröÿer oder gleich
und der obere Zaun endet beim gröÿten
Z4
Q1 − 1, 5IQR
ist
genannten Wert, der kleiner oder gleich
ist. Darüber hinaus liegende Beobachtungen gelten als mögliche Ausreiÿer , also stark aus der Reihe fallende Werte, und werden einzeln durch ein Symbole wie
Q3 + 1, 5IQR
Kreis oder Sternchen gekennzeichnet.
Beispiel 3.6.
Die in Meter gemessenen Weiten
X
im Speerwurf einer Gruppe von
Sportstudenten waren wie folgt:
35, 45, 50, 50, 51, 51, 51, 53, 54, 54, 55, 56, 56, 56, 57
57, 57, 58, 58, 60, 61, 61, 61, 62, 62, 62, 62, 65, 70, 75.
Die Beobachtungen sind bereits geordnet, der Boxplot wird nach den Werten der folgenden Tabelle gezeichnet.
Tabelle 3.2: Benötigte Werte für den Boxplot
Q1
Q2
Q3
IQR
Q1 − 1, 5IQR
Q3 + 1, 5IQR
Z0
Z4
53
57
61
8
41
73
45
70
Überzeugen Sie sich selbst: Der Median
Q2
ist der Mittelwert des 15. und 16. Wertes,
also 57. Das untere Quartil ist der achte Wert, denn
30·0, 25 = 7, 5 und das obere Quartil
ist der 23. Wert, also 61. Somit ist der Interquartilsabstand 8 und das 1,5-fache davon
41 = Q1 − 1, 5IQR, also
gleich 73 = Q3 + 1, 5IQR,
12. Der untere Zaun beginnt beim kleinsten Wert gröÿer gleich
bei 45. Der obere Zaun endet beim gröÿten Wert kleiner
also bei 70. Verdächtig als Ausreiÿer sind lediglich die Werte 35 und 75. Der zugehörige
Boxplot sieht daher wie folgt aus:
Abbildung 3.2: Eine weitere Form des Boxplots
Die Box wird wie beim einfachen Boxplot durch
Q1 , Q2
und
Q3
festgelegt, aber die
Zäune nicht mehr durch den kleinsten und den gröÿten Wert, sondern durch
28
Z0
und
Z4 .
3.7 Das arithmetische Mittel
3.7 Das arithmetische Mittel
Das
arithmetische Mittel , auch als Mittelwert
bezeichnet, mittelt über alle Beobachtun-
gen. Daher muss das Merkmal metrisch sein. Es gilt dann
n
1X
x1 + x2 + · · · + xn
=
xi .
x̄ =
n
n i=1
Kennt man bereits die Ausprägungen
ai
(3.11)
mit ihren absoluten Häugkeiten
ni ,
so gilt
k
n1 a1 + n2 a2 + · · · + nk ak
1X
x̄ =
=
n i ai .
n
n i=1
Wegen
fi = ni /n
(3.12)
gilt auch
x̄ = f1 a1 + f2 a2 + · · · + fk ak =
k
X
f i ai .
(3.13)
i=1
Beispiel 3.7.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das erste
hat vier Mitarbeiter mit den Monatsgehältern von 2.000, 2.600, 3.000 und 4.000 Euro.
Im zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro
im Monat.
Im ersten Team sind alle
n=4
Werte verschieden, daher wird der Mittelwert nach
der Formel (3.11) berechnet
x̄ = (2.000 + 2.600 + 3.000 + 4.000)/4 = 11.600/4 = 2.900.
n = 5 Werte verschieden, sondern es sind a1 = 2.000
n2 = 2 sowie a3 = 6.000 und n3 = 1, daher wird der
In der zweiten Gruppe sind nicht alle
und
n1 = 2, a2 = 3.000
und
Mittelwert nach der Formel (3.12) berechnet
x̄ = (2 · 2.000 + 2 · 3.000 + 1 · 6.000)/5 = 16.000/5 = 3.200.
Beispiel 3.8.
Betrachten wir die Altersverteilung einer Gruppe von
n = 13
junger
Menschen mit den bereits geordneten Werten
18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22.
so gelten
18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22
260
=
= 20,
13
13
3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22
260
x̄ =
=
= 20,
13
13
3
3
1
3
3
260
x̄ =
· 18 +
· 19 +
· 20 +
· 21 +
· 22 =
= 20.
13
13
13
13
13
13
x̄ =
29
3 Maÿzahlen einer Verteilung
3.7.1 Eigenschaften des arithmetischen Mittels
Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also
n
X
(xi − x̄) = 0.
(3.14)
i=1
Gibt es umgekehrt eine Zahl
z,
die diese Bedingung erfüllt, so ist
z = x̄.
Man kann an
der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel
ist, denn zu jeder Abweichung nach oben gibt es eine genau so groÿe Abweichung nach
unten.
Auch das arithmetisches Mittel erfüllt eine Minimumeigenschaft, es minimiert nämlich
die quadrierten Abstände zu den Beobachtungen, genauer es gilt
x̄ = min QS(x),
x∈R
mit
QS(x) =
n
X
(x − xi )2 .
(3.15)
i=1
Diese Eigenschaft ist sehr einfach mit Mitteln der Dierentialrechnung zu beweisen, denn
die zu minimierende Funktion
QS(x)
ist dierenzierbar. Die Bezeichnung QS steht
für Quadratsumme.
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert
Lagemaÿe charakterisieren die Mitte einer Verteilung, Streuungsmaÿe sollen widerspiegeln, wie stark die Werte um das Zentrum verstreut sind. Bei geringer Streuung liegen
die einzelnen Werte überwiegend in der Nähe von Median und Mittelwert, bei groÿer
Streuung sind die durchschnittlichen Abweichungen vom Zentrum entsprechend groÿ.
Streuungsmaÿe nehmen also in der Regel Bezug auf ein Lagemaÿ. Zunächst wird als
Lagemaÿ das arithmetische Mittel verwendet. Als einfaches Streuungsmaÿ bietet sich
an, die absoluten Abstände vom arithmetischen Mittel zu mitteln
dx̄ =
n
X
|xi − x̄| .
(3.16)
i=1
Es gibt aber geeignetere Streuungsmaÿe.
3.8.1 Die Varianz
Ausdrücke mit Betragsstrichen sind nicht dierenzierbar, daher verwendet man für die
Messung von Variabilität lieber quadratische Abweichungen vom Mittelwert. Zunächst
führe ich folgende Bezeichnung ein:
QS(x) =
n
X
i=1
30
(xi − x)2 .
(3.17)
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert
Die Bezeichnung QS steht für Quadratsumme. Der Wert von
Verschiebungssatz von Steiner
Es gilt folgende Beziehung, die
QS(x) =
n
X
(xi − x)2 =
i=1
n
X
x
ist zunächst beliebig.
genannt wird.
(xi − x̄)2 + n (x̄ − x)2 .
(3.18)
i=1
Daraus folgt, dass die Funktion
QS(x)
für
x = x̄
minimal wird.
Der Beweis dieser wichtigen Beziehung sei nun skizziert.
QS(x) =
=
n
X
2
(xi − x) =
i=1
n
X
n
X
([xi − x̄] + [x̄ − x])2
i=1
(xi − x̄)2 + 2(xi − x̄)(x̄ − x) + (x̄ − x)2
i=1
=
n
X
(xi − x̄)2 + n (x̄ − x)2 .
i=1
Dabei wurde die Beziehung
n
X
(xi − x̄) = 0
i=1
verwendet. Die mittlere quadratische Abweichung vom Mittelwert ist somit ein zweck2
volles Streuungsmaÿ, das
genannt und mit σ bezeichnet wird.
Varianz
n
1X
(xi − x̄)2 .
σ = QS(x̄) =
n i=1
2
(3.19)
Die Varianz hat nur dann den Wert 0, wenn jede einzelne quadratische Dierenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen und folglich konstant sind. Bei nicht konstanten Daten ist die Varianz immer positiv.
Setzt man im Verschiebungssatz von Steiner x
2
für die Varianz σ :
n
1X 2
2
x
σ =
n i=1 i
= 0, kommt man auf eine zweite Formel
− x̄2 .
(3.20)
Diese Formel ist bei Rechnungen mit der Hand oder einem Taschenrechner meist einfacher als die Formel (3.19).
Beispiel 3.9.
Seien noch einmal die Einkünfte des ersten IT-Teams betrachtet mit den
Werten von 2.000, 2.600, 3.000 und 4.000 Euro. Das arithmetische Mittel
11.600/4 = 2.900.
x̄ hat den Wert
Somit gilt:
(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2
4
= 530.000,
2.0002 + 2.6002 + 3.0002 + 4.0002
σ2 =
− 2.9002 = 530.000.
4
σ2 =
31
3 Maÿzahlen einer Verteilung
(a1 , a2 , . . . , ak ), k < n mit
Häugkeiten fi auf, so gelten:
Kennt man bereits die Ausprägungen
gkeiten
ni
bzw. mit den relativen
den absoluten Häu-
k
1X
σ =
ni (ai − x̄)2 ,
n i=1
2
k
X
2
σ =
fi (ai − x̄)2 ,
(3.21)
(3.22)
i=1
k
1X
ni a2i − x̄2 .
n i=1
σ2 =
Beispiel 3.10.
(3.23)
Betrachten wir dazu jetzt die Monatseinkünfte des zweiten Teams von
zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro:
2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2
= 2.160.000,
5
1
σ2 =
2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.160.000.
5
σ2 =
3.8.2 Stichprobenvarianz
Die Varianz wird verwendet, wenn das Merkmal einer Grundgesamtheit untersucht wird,
was in der beschreibenden Statistik sehr oft der Fall ist, da die Daten aus amtlichen
oder betrieblichen Vollerhebungen stammen. In der schlieÿenden Statistik stammen die
Daten in der Regel von einer Stichprobe. In diesem Fall dividiert man die Summe der
n, sondern durch n−1 und spricht
empirischen Varianz s2 . Somit besteht zwischen
quadrierten Abweichungen vom Mittelwert nicht durch
von der
Stichprobenvarianz
oder der
der Varianz und der Stichprobenvarianz der einfache Zusammenhang
s2 =
n
σ2.
n−1
(3.24)
Daraus ergeben sich folgende Formeln
n
1 X
s =
(xi − x̄)2 ,
n − 1 i=1
2
(3.25)
n
1 X 2
n
s =
xi −
x̄2 ,
n − 1 i=1
n−1
2
(3.26)
bzw. bei Kenntnis der Häugkeitsliste
k
s2 =
1 X
ni (ai − x̄)2 ,
n − 1 i=1
(3.27)
k
1 X
n
s =
ni a2i −
x̄2 .
n − 1 i=1
n−1
2
32
(3.28)
3.8 Streuungsmaÿe mit Bezug auf den Mittelwert
Beim Team mit den Monatseinkünften von 2.000, 2.600, 3.000 und 4.000 Euro erhält
man also
4
4
s2 = σ 2 = · 530.000 = 706.666, 67,
3
3
1
s2 =
(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2
3
= 706.666, 67,
4
1
s2 =
2.0002 + 2.6002 + 3.0002 + 4.0002 − 2.9002 = 706.666, 67.
3
3
Beim anderen Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000
sowie einmal 6.000 Euro, kann die empirische Varianz wie folgt berechnet werden
5
5
s2 = σ 2 = · 2.160.000 = 2.700.000,
4
4
1
s2 =
2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.700.000,
4
5
1
s2 =
2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.700.000.
4
4
3.8.3 Die Standardabweichung
Varianz und empirische Varianz haben nicht die Maÿeinheiten der Beobachtungen selbst.
Daher wird die Quadratwurzel aus der Varianz bzw. der empirischen Varianz gezogen.
Die somit erhaltenen Werte werden
weichung s genannt.
Standardabweichung σ bzw. empirische Standardab-
Im Beispiel des ersten Teams ergibt sich
σ =
√
530.000 = 728, 01
Euro. Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen
√
s= √
706.666, 67 = 840, 63 Euro.
2.160.000 = 1.469, 69 Euro.
sich σ =
werden, also erhält man beim erstem Team
Im Beispiel des zweiten Teams ergibt
Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen
werden, also erhält man
s=
√
2.700.000 = 1.643, 17
Euro.
3.8.4 Der Variationskoezient
Die Standardabweichung ist ebenso wie die Spannweite und die mittleren absoluten
Abweichungen vom arithmetischen Mittel oder vom Median ein Maÿ für die absolute
Streuung. Diese sind im Allgemeinen dimensionsbehaftete Gröÿen, die von der Maÿeinheit abhängen, in der ein Merkmal gemessen wird. Relative Streuungsmaÿe sind dagegen
dimensionslos. Ein Beispiel eines solchen relativen Maÿes ist der sogenannte
koezient .
abweichung
Für ein metrisches Merkmal
σ
X
ist der Variationskoezient
mit arithmetischem Mittel
v
v=
x̄
Variations-
und Standard-
deniert durch
σ
.
x̄
(3.29)
33
3 Maÿzahlen einer Verteilung
Der Variationskoezient ist ein relatives Streuungsmaÿ, denn das absolute Streuungsmaÿ
σ
wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der Varia-
tionskoezient hat keine Einheit, da er der Quotient zweier Gröÿen gleicher Dimension
ist.
Beim ersten Team ergibt sich
v = σ/x̄ = 728, 01/2.900 = 0, 2510.
Bei dem Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie
einmal 6.000 ergibt sich
v = σ/x̄ = 1.469, 69/3.200 = 0, 4593.
Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten
im Kugelstoÿen mit der in [m] angegebenen Messreihe:
6, 1 6, 6 6, 9 7, 1 7, 2 7, 2 7, 4 7, 7 7, 9 8, 2 8, 4 9, 1 10, 3 10, 5 11, 4.
Man erhält:
1
(6, 1 + 6, 6 + · · · + 11, 4) = 8, 13,
15
1
σ 2 = (6, 12 + 6, 62 + · · · + 11, 42 ) − 8, 132 = 2, 24,
15
p
σ = 2, 24 = 1, 496662955,
σ
v = = 0, 184091384,
x̄
s2 = (15/14)σ 2 = 2, 4,
p
s = 2, 4 = 1, 549193338.
x̄ =
3.8.5 Arbeitstabelle zur Berechnung
Der Mittelwert und die Varianz sowie die davon abgeleiteten Gröÿen lassen sich mit
Arbeitstabellen berechnen. Ich zeige dies ein letztes Mal an den Daten der Einkünfte der
beiden IT-Teams. Im linken Tabellenteil werden die Daten des ersten Teams verwendet.
In den Zellen B2 bis B5 stehen die Daten, darunter deren Summe, die durch die Anzahl
n=4
der Daten geteilt wird und den Mittelwert
x̄
in der Zelle A8 ergibt. In der Spalte
C sehen Sie direkt die Quadrate der Daten, in der Zelle C6 dann deren Summe. Die
Varianz ergibt sich in der Zelle B8 durch Division dieser Summe durch n, wovon dann
2
das Quadrat des Mittelwerts, also x̄ , abgezogen wird. Die Standardabweichung σ sehen
Sie in der Zelle C8, dafür muss nur die Wurzel aus der Varianz gezogen werden. Auch die
empirische Varianz ergibt sich sofort aus der Varianz durch Multiplikation mit
n/(n−1),
hier also mit 4/3. Die empirische Standardabweichung folgt durch Wurzelziehen. Der
Variationskoezient ist der Bruch
v = σ/x̄.
Für das zweite Team müssen die Ausprägungen
ai
und deren Häugkeiten
ni
berück-
sichtigt werden, die entsprechenden Werte stehen im Bereich F2:G4. In den Zellen H2
34
3.9 Mittlere absolute Abstände
bis H4 stehen die Produkte
ni · a2i . Die
sich in den Zellen H6 bzw. I6. Der Mittelwert x̄ steht in
durch Division des Wertes der Zelle H6 durch n = 5. Die
n i · ai
jeweiligen Summen benden
der Zelle G8 und ergibt sich
und in den Zellen I2 bis I4 die Produkte
Varianz steht in der Zelle H8 und ergibt sich durch Division des Wertes der Zelle G6
2
durch n = 5, wovon dann wieder x̄ abgezogen wird.
A
1
2
3
4
5
6
7
8
9
10
B
i
1
2
3
4
xi
2.000
2.600
3.000
4.000
11.600
σ2
530.000
xquer
2900
s2
s
706.666,6667 840,6347
C
D E
2
i
xi
4.000.000
6.760.000
9.000.000
16.000.000
35.760.000
F
G
ni
ai
1 2000
2 3000
3 6000
σ
728,0110
H
2
2
1
5
xquer
3.200
s2
2.700.000
v
0,2510
I
ni*ai
4.000
6.000
6.000
16.000
ni*ai2
8.000.000
18.000.000
36.000.000
62.000.000
σ2
2.160.000
σ
1.469,6938
s
1643,1677
v
0,4593
Abbildung 3.3: Arbeitstabelle für einige Maÿzahlen
Schneller und sicherer kommen Sie mit den Excel-Funktionen zum Ziel, die ich später
vorstellen werde. Das gezeigte Schema ist für Rechnungen mit der Hand geeignet.
3.9 Mittlere absolute Abstände
Die Streuungsmaÿe Varianz und Standardabweichung beziehen sich auf das arithmetische Mittel. Es gibt aber auch Streuungsmaÿe, die als Lagemaÿ den Median verwenden,
und zwar die gemittelten absoluten Abstände vom Median. Es ergibt sich dann
n
dx0,5
1X
=
|xi − x0,5 | .
n i=1
(a1 , a2 , . . . , ak ), k < n
Häugkeit fi auf, so gelten
Kennt man bereits die Ausprägungen
gkeiten
ni
bzw. mit der relativen
(3.30)
mit den absoluten Häu-
k
dx0,5
1X
ni |ai − x0,5 | ,
=
n i=1
dx0,5 =
k
X
fi |ai − x0,5 | .
(3.31)
(3.32)
i=1
Beispiel 3.11.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das
erste hat vier Mitarbeiter mit den Gehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im
35
3 Maÿzahlen einer Verteilung
zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im
Monat.
Hier ist im ersten Team der Median der Mittelwert zwischen dem zweiten und drittem
Wert, also 2.800 Euro. Im zweiten Team ist der Median der dritte Wert, also 3.000 Euro.
Somit folgen die Werte
|2.000 − 2.800| + |2.600 − 2.800| + · |3.000 − 2.800| + · |4.000 − 2.800|
= 600,
4
2 · |2.000 − 3.000| + 2 · |3.000 − 3.000| + |6.000 − 3.000|
= 1.000.
=
5
dx0,5 =
dx0,5
Die Werte der zweiten Gruppe sind stärker verstreut als in der ersten Gruppe.
3.10 Transformationseigenschaften der Maÿzahlen
Oft werden die ursprünglichen Daten
(x1 , x2 , . . . , xn )
einer linearen Transformation un-
terworfen, d.h.
yi = a xi + b.
Durch diese Transformation ändern sich auch die Maÿzahlen und zwar gelten folgende
Beziehungen:
ȳ = a x̄ + b,
y0,5 = a x0,5 + b,
σy2 = a2 σx2 ,
(3.33)
(3.34)
(3.35)
σy = |a| σx .
(3.36)
Nehmen wir wieder das Team mit den Ausgangswerten von je zweimal 2.000 Euro bzw.
3.000 EURO und einmal 6.000 Euro als Beispiel. Der dankbare Chef erhöhe die Gehälter
um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt also:
yi = 1, 05 xi + 200.
Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaÿe angeben:
ȳ = a x̄ + b = 1, 05 · 3.200 + 200 = 3.560,
y0,5 = a x0,5 + b = 1, 05 · 3.000 + 200 = 3.350,
σy2 = a2 σx2 = 1, 052 · 2.160.000 = 2.381.400,
σy = a σx2 = 1, 05 · 1.469, 690 = 1.543, 18.
3.11 Anforderungen an Maÿzahlen metrischer
Merkmale
Abschlieÿend sei kurz gestreift, welche allgemeinen Anforderungen an Maÿzahlen metrischer Merkmale gestellt werden. Der Ausgangspunkt ist der Datensatz
36
(x1 , . . . , xn ).
Bei
3.12 Abschlieÿendes Beispiel
metrischen Merkmalen wird eine Maÿzahl
m durch eine Abbildung ϕ : Rn → R wie folgt
festgelegt
m = ϕ(x1 , . . . , xn ).
Bei Lagemaÿen sollte die Funktion
ϕ
(3.37)
die beiden Eigenschaften
ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ) + t,
ϕ(ax1 , ax2 , . . . , axn ) = aϕ(x1 , x2 , . . . , xn )
(3.38)
(3.39)
erfüllen. Wenn alle Daten um einen konstanten Wert verändert werden, soll auch das
Lagemaÿ sich entsprechend anpassen. Werden dagegen alle Daten mit einem Faktor
multipliziert, soll sich das auch auf das Lagemaÿ so auswirken.
Bei Streuungsmaÿen werden dagegen
ϕ(x1 , x2 , . . . , xn ) ≥ 0,
ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ),
ϕ(ax1 , ax2 , . . . , axn ) = |a|p ϕ(x1 , x2 , . . . , xn ), p > 0
(3.40)
(3.41)
(3.42)
gefordert. Streuungsmaÿe müssen nichtnegativ und für nicht konstante Daten sogar positiv sein und dürfen sich bei einer Verschiebung der Daten nicht ändern, während die
Multiplikation mit einem Faktor das Streuungsmaÿ um eine Potenz
p des Betrags dieses
ϕ ste-
Faktors vergröÿert. Auÿerdem sollte bei allen Maÿzahlen die zugehörige Funktion
tig sein, damit kleine Änderungen bei den Daten auch nur kleine Änderungen bei den
Maÿzahlen nach sich ziehen.
3.12 Abschlieÿendes Beispiel
Beispiel 3.12.
Die folgende Urliste stammt von Frondel und gibt Auskunft über die
Körpergröÿen von 20 Teilnehmern eines Kurses in Statistik.
1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83
1,75, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83.
Es sollen nun die wichtigsten Kennzahlen berechnet werden. Für die Bestimmung der
Quantile wird die aufsteigend geordnete Urliste benötigt, sie lautet
1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76
1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93,
Hier sind sowohl
10 = 20 · 0, 5
als auch
5 = 20 · 0, 25
2,05.
sowie
15 = 20 · 0, 75
ganzzahlig.
Deshalb ergibt sich für die Quartile:
x0,25 = Q1 = 0, 5(x(5) + x(6) ) = 0, 5(1, 71 + 1, 71) = 1, 71,
x0,5 = Q2 = 0, 5(x(10) + x(11) ) = 0, 5(1, 76 + 1, 78) = 1, 77,
x0,75 = Q3 = 0, 5(x(15) + x(16) ) = 0, 5(1, 83 + 1, 86) = 1, 845.
37
3 Maÿzahlen einer Verteilung
Für das obere Terzil
T2 = x2/3
ergibt sich wegen
13, 3333 = 20 · 2/3
T2 = x2/3 = x(14) = 1, 83.
Weitere Kennzahlen werden wie folgt berechnet
1
(1, 56 + 2, 05 + · · · + 1, 83) = 1, 7845,
20
1
σ 2 = (1, 562 + 2, 052 + · · · + 1, 832 ) − 1, 78452 = 0, 01244,
20
p
σ = 0, 01244 = 0, 11156,
σ
0, 11156
v= =
= 0, 062516,
x̄
1, 7845
s2 = (20/19)σ 2 = 0, 013099737,
p
s = 0, 013094737 = 0, 114454082.
x̄ =
3.13 Excel-Funktionen
Für die hier vorgestellten Maÿzahlen gibt es Funktionen in Excel. Vorausgesetzt wird
immer, dass die Daten in einem zusammenhängenden Bereich stehen, z.B. folgende acht
Zahlen im Bereich B2:B9
10
3
12
6
1
11
4
9.
Der Mittelwert wird durch =MITTELWERT(B2:B9) berechnet.
A B C
1 i xi x(i)
2 1 10 1
3 2 3 3
4 3 12 4
5 4 6 6
6 5 1 9
7 6 11 10
8 7 4 11
9 8 9 12
D
Q1
Q2
Q3
xquer
σ2
σ
s2
s
v
E
F
3,5
=0,5*(C3+C4)
7,5
=0,5*(C5+C6)
10,5
=0,5*(C7+C8)
=MITTELWERT(B2:B9) =MITTELWERT(B2:B9)
=VAR.P(B2:B9)
=VARIANZEN(B2:B9)
=STABW.N(B2:B9)
=STABWN(B2:B9)
=VAR.S(B2:B9)
=VARIANZ(B2:B9)
=STABW.S(B2:B9)
=STABW(B2:B9)
=E6/E4
=F6/F4
G
=QUANTIL(B2:B9;0,25)
=QUANTIL(B2:B9;0,5)
=QUANTIL(B2:B9;0,75)
7
14,5
3,80788655293195
16,5714285714286
4,07080195679286
0,543983793275993
H
3,75
7,5
10,25
Abbildung 3.4: Arbeitstabelle für einige Maÿzahlen
2
Für die Varianz muss man unterscheiden zwischen der Varianz σ für eine Gesamt2
heit, englisch Population, und der empirischen Varianz s für eine Stichprobe, englisch
2
Sample. Die Funktion VARIANZEN berechnet σ . Die Funktion VARIANZ berechnet
2
die empirische Varianz, also s .
Für die Standardabweichung einer Grundgesamtheit gibt es Funktion STABWN. Bei
den obigen Zahlen ergibt sich somit für =STABWN(B2:B9) der Wert 3,807886553,
38
3.14 Aufgaben
also die Quadratwurzel von 14,5. Für die Standardabweichung einer Stichprobe gibt es
die Funktion STABW. Daher hat =STABW(B2:B9) den Wert 4,070801957, also die
Quadratwurzel von 16,57142857. Die Funktionen sind im Bereich F4:F8 zu sehen.
Im neueren Excel sollen diese Funktionen nicht mehr verwendet werden, sondern für
die beiden Varianzen die Funktionen VAR.P und VAR.S, wobei sich P immer auf
die Grundgesamtheit (Population) und S auf eine Stichprobe (Sample) beziehen. Bei
den obigen Zahlen ergeben sich somit für =VAR.P(B2:B9) der Wert 14,5 und für
=VAR.S(B2:B9) der Wert 16,57142857, also das 8/7-fache von 14,5.
Für die beiden Standardabweichungen gibt es die beiden Funktionen STABW.N und
STABW.S. Warum hier ein N statt dem P steht, weiÿ niemand. Bei den obigen
Zahlen ergeben sich somit für =STABW.N(B2:B9) der Wert 3,807886553, und für
=STABW.S(B2:B9) der Wert 4,070801957. Die Funktionen sind im Bereich E4:E8 zu
sehen.
Alle Funktionen müssen immer auf die Urliste oder die geordnete Urliste angewendet
werden, niemals nur auf die Ausprägungen, da deren absolute Häugkeit unberücksichtigt bliebe! Für den Variationskoezienten gibt es in Excel keine Funktion.
Die Quantile berechnet Excel anders als von mir beschrieben. Es gibt ab Excel 2010
zwei Funktionen, und zwar QUANTIL.INKL und QUANTIL.EXKL. Die erste entspricht
der alten Funktion QUANTIL. Sie müssen als erstes Argument einen Bereich eingeben,
hier also B2:B9 und als zweiten den Wert von
p
als Zahl zwischen 0 und 1. Das erste
Quartil sollte somit durch =QUANTIL.INKL(B2:B9;0,25) bestimmt werden. Excel
liefert 3,75, während nach meiner Denition der Mittelwert von 3 und 4 zu bilden ist,
also 3,5.
Excel rechnet dabei wie folgt
r = (n − 1) · p, wobei n die Anzahl der bereits aufsteir in den ganzzahligen Teil i und den Rest
1. Bestimme zunächst die Zahl
gend angeordneten Werte ist. Zerlege
nach dem Komma
2. Das Quantil
xp
d.
ist dann
xp = (1 − d)x(i) + dx(i+1) .
Im obigen Beispiel sind für das erste Quartil
r = (8 − 1)/4 = 2, 75,
und somit sind
i=2
und
p = 0, 25 und es ist n = 8.
d = 0, 75 und deshalb
Also ist
xp = (1 − d)x(i) + dx(i+1) = 0, 25 · 3 + 0, 75 · 4 = 3, 75.
Bitte beachten Sie, dass diese Berechnungsmethode zwar einleuchtend ist, aber von der
in der Statistik üblichen abweicht!
3.14 Aufgaben
Aufgabe 1.
In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses
eines Gymnasiums beim Kugelstoÿen auf folgende Weiten
X
in [m]
39
3 Maÿzahlen einer Verteilung
3,23
2,35
5,37
3,49
6,90
2,93
1,81
4,26
4,44
2,73.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil, das
arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten
des Merkmals
Aufgabe 2.
X.
Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut
und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher
Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische
Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll
Mittelwert und Varianz zu berechnen?
Aufgabe 3.
In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses
aufgeführt.
19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist
die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen
Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das
obere Quartil, die Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und
die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Der Wert 52 ist
ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser
Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten
aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die
Standardabweichung?
Aufgabe 4.
Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt
auf folgende Werte:
3
6
5
8
6
4
4
4
3
6.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist
die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das untere
Quartil, den Median, das obere Quartil und die Quantile
40
x0,2
sowie
x0,9 .
Berechnen Sie
3.14 Aufgaben
das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische
Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Stellen Sie die Daten als Häugkeitstabelle dar. Berechnen
Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die
relativen Häugkeiten und die Verteilungsfunktion.
Aufgabe 5. Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite
12.
Aufgabe 6.
In einem Projekt zur Betriebsinformatik wurden die Studierenden unter
anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe:
44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60.
Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.
41
4 Klassenbildung
4.1 Übersicht und Lernziele
In diesem Kapitel wird erklärt:
- wie man für stetige metrische Merkmale Klassen bildet;
- wie das Histogramm und die empirische Verteilungsfunktion von klassierten Daten
gebildet werden;
- wie man näherungsweise bei klassierten Daten Median und Quantile berechnet;
- wie man näherungsweise bei klassierten Daten Mittelwert und Varianz berechnet.
4.2 Klassen
Werte
1,56
1,62
1,68
1,69
1,71
1,75
1,76
1,78
1,83
1,86
1,89
1,91
1,93
2,05
ni Ni
1
1
1
1
3
1
2
1
4
1
1
1
1
1
1
2
3
4
7
8
10
11
15
16
17
18
19
20
fi
Fi
0,05
0,05
0,05
0,05
0,15
0,05
0,1
0,05
0,2
0,05
0,05
0,05
0,05
0,05
0,05
0,1
0,15
0,2
0,35
0,4
0,5
0,55
0,75
0,8
0,85
0,9
0,95
1
0,2
0,1
0
1,5
1,6
1,7
1,8
1,9
2
2,1
1,5
1,6
1,7
1,8
1,9
2
2,1
1
0,5
0
Abbildung 4.1: Diskrete Auswertung
Im abgebildeten Excel-Arbeitsblatt ist die Häugkeitstabelle sowie das Stabdiagramm
und die Verteilungsfunktion der Daten des Beispiels 3.12 von Seite 37 zu sehen. Die Werte der Daten sind fast alle verschieden, daher ist im Stabdiagramm wenig über das Wesen
der Verteilung zu erkennen. Das liegt daran, dass die Körpergröÿe ein stetiges Merkmal
43
4 Klassenbildung
ist, das beliebig genau gemessen werden kann, weswegen nur selten Werte mehrfach vorliegen. Ähnliches trit auf andere stetige Merkmale wie Gewicht, Zeitmessungen eines
Volksmarathons oder die Brenndauer von Glühbirnen zu, aber auch bei ökonomischen
Daten, die wie das Einkommen oder Vermögen in einer Währung angegeben werden. In
der Praxis behandelt man oft auch diskrete metrische Merkmale wie das Alter oder die
erreichte Punktzahl in einer Klausur als stetig, wenn sie sehr viele Merkmalsausprägungen besitzen.
Man gewinnt an Übersichtlichkeit durch die Bildung von
Klassen
genannten Interval-
len, wobei jeweils die Obergrenze einer Klasse die Untergrenze der benachbarten rechten
Klasse ist. Die Klassenbildung erfordert also die Wahl einer Folge von aufsteigenden
Werten
x∗0 < x∗1 < x∗2 < . . . < x∗k−1 < x∗k ,
∗
∗
wobei die Werte der Urliste alle zwischen x0 und xk liegen sollten. Die erste Klasse ist
∗
∗
∗
∗
∗
∗
∗
∗
dann [x0 , x1 ], die zweite (x1 , x2 ], gefolgt von (x2 , x3 ] bis zu (xk−1 , xk ]. Die erste Klasse
ist ein abgeschlossenes Intervall, da beide Grenzen zur Klasse gehören. Danach folgen
links oene und rechts abgeschlossene Klassen, d.h. die Obergrenze gehört zur Klasse,
die Untergrenze hingegen nicht.
Ich habe die Klassengrenzen x∗i zur Unterscheidung von den Daten mit einem *
gekennzeichnet.
Vor der Klassenbildung wird die aufsteigend geordnete Urliste gebildet, sie lautet hier
1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76
1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93,
2,05.
Es muss also der Bereich zwischen 1,56 und 2,05 abgedeckt werden. Klassengrenzen
∗
sollten mit den Ziern 0 oder 5 enden, es bietet sich an bei x0 = 1, 50 anzufangen und
∗
bei x5 = 2, 10 aufzuhören. Für die mittleren Klassengrenzen seien die Werte 1,65, 1,75,
1,85 und 1,95 gewählt. Damit ergeben sich die Klassen
[1, 50, 1, 65], (1, 65, 1, 75], (1, 75, 1, 85], (1, 85, 1, 95], (1, 95, 2, 10].
Wie erwähnt ist die erste Klasse abgeschlossen, die folgenden sind links oen und rechts
abgeschlossen. Der 1,75 m groÿe Teilnehmer gehört also zur Klasse
(1, 65, 1, 75].
Bei der Klassenbildung werden folgende Begrie verwendet.
(1)
Klassenanzahl
Ich werde die Anzahl aller Daten der Urliste immer mit
Klassen mit
k
n
und die Anzahl aller
bezeichnen. In Beispiel der Körpergröÿen sind somit
n = 20
und
k = 5.
(2)
Klassenbreite
Die Dierenz aus oberer und unterer Klassengrenze wird als
net, also hat man
k
Klassenbreite
bezeich-
Klassenbreiten
∆i = x∗i − x∗i−1 ,
i = 1, . . . , k.
Meistens werden Klassen gleicher Breite gewählt, aber es sind auch Klassen mit
unterschiedlicher Breiten möglich.
44
4.2 Klassen
(3)
Absolute und relative (kumulierte) Häugkeit
Für
i = 1, 2, . . . , k
bezeichnet die absolute Häugkeit
der Urliste, die in der i-ten Klasse liegen und
(4)
fi = ni /n
ni
die Anzahl aller Daten
die relative Häugkeit.
Absolute und relative kumulierte Häugkeit
Ni und Fi
∗
mit xj ≤ xi .
Die kumulierten absoluten und relativen Häugkeiten
absolute bzw. relative Anzahl aller Daten der Urliste
(5)
stehen für die
Absolute und relative Häugkeitsdichte
Die Klassenbildung erfordert noch zwei weitere Gröÿen, die sogenannte absolute
und relative
Häugkeitsdichte .
Damit werden die Verhältnisse der absoluten (ni )
bzw. der relativen Häugkeit (fi ) der i-ten Klasse zur entsprechenden Klassenbreite
∆i
bezeichnet. Die Häugkeitsdichte misst also für jede Klasse den Anteil der
Daten pro Einheit. Damit erst werden Vergleiche zwischen Klassen unterschiedlicher Breite möglich. Die beiden Häugkeitsdichten berechnen sich für
1≤i≤k
wie folgt
ni
,
∆i
n∗
fi
fi∗ = i =
.
n
∆i
n∗i =
(6)
Klassenmitte
Die Mitte einer Klasse wird wenig überraschend
(4.1)
(4.2)
Klassenmitte
genannt. Sie dient
bei manchen Rechnungen als gemeinsamer Wert aller Daten der Urliste, die in
einer Klasse liegen. Die Klassenmitte ist das arithmetische Mittel aus unterer und
oberer Klassengrenze, also
mi =
(7)
x∗i + x∗i−1
,
2
i = 1, . . . , k.
Klassenmittelwert
Der
Klassenmittelwert x̄i
der Klasse
i
ist das arithmetische Mittel aller Werte
der Urliste, die innerhalb der betrachteten Klasse
i
xk
liegen. Der Klassenmittelwert
kann nur bei Kenntnis der Urliste berechnet werden, sonst muss man die Klassenmitte nehmen.
Der Unterschied zwischen der Klassenmitte und dem Klassenmittelwert sei an der vierten Klasse
(1, 85, 1, 95]
erläutert. Die Klassenmitte ist die Mitte zwischen den Grenzen,
also deren arithmetisches Mittel, in diesem Fall somit
m4 = 1, 90. Der Klassenmittelwert
ist das arithmetische Mittel aller Werte, die in der Klasse liegen, das sind hier die vier
Werte 1,86, 1,89, 1,91 und 1,93. Deren Mittelwert ist
x̄4 = (1, 86 + 1, 89 + 1, 91 + 1, 93)/4 = 1, 8975,
und somit verschieden von
m4 = 1, 90.
45
4 Klassenbildung
4.3 Häugkeitstabelle klassierter Daten
Die Häugkeitstabelle klassierter Daten zeigt die erwähnten Gröÿen übersichtlich angeordnet. Der allgemeine Aufbau einer solchen Häugkeitstabelle ist beispielhaft in Tabelle
4.1 zu nden.
Tabelle 4.1: Häugkeitstabelle klassierter Daten
Klasse
x∗i−1
x∗i
∆i
ni
n∗i
Ni
fi
fi∗
Fi
1
1,50
1,65
0,15
2
13,33
2
0,10
0,67
0,10
2
1,65
1,75
0,10
6
60
8
0,30
3,00
0,40
3
1,75
1,85
0,10
7
70
15
0,35
3,50
0,75
4
1,85
1,95
0,10
4
40
19
0,20
2,00
0,95
5
1,95
2,10
0,15
1
6,67
20
0,05
0,34
1,00
Man kann der Häugkeitstabelle entnehmen, dass 95 Prozent aller Teilnehmer höchstens 1,95 m groÿ waren und die Häugkeitsdichte in der Klasse
(1, 75, 1, 85]
am gröÿten
und in der letzten Klasse am kleinsten ist.
4.4 Histogramme
Graphisch werden Klassen mit einem
Histogramm
dargestellt. Dabei zeichnet man in
einem rechtwinkligen Koordinatensystem auf der horizontalen Achse, der Abszisse, die
Klassengrenzen ein und trägt über jeder Klasse ein Rechteck ab, dessen Fläche gleich
der relativen Häugkeit fi der Klasse ist. Die Höhe des Rechtecks ist daher der Wert
∗
der Häugkeitsdichte fi = fi /∆i , also der Bruch aus relativer Häugkeit fi und Klassenbreite ∆i . Die Summe aller Flächeninhalte der Rechtecke ist die Summe der relativen
Häugkeiten
fi ,
also 1.
Ein Histogramm ist also die Darstellung der Verteilungsdichte klassierter Daten durch
∗
eine Reihe von Rechtecken. Man kann einem Histogramm eine Funktion
zuordnen, die man
empirische Dichtefunktion
(
fi∗ ,
f ∗ (x) =
0,
für
f : R → R
nennt. Sie ist wie folgt deniert
x∗i−1 < x ≤ x∗i
1 ≤ i ≤ k,
sonst.
Im Beispiel der Körpergröÿen lese ich die Klassengrenzen aus der zweiten und dritten
Spalte ab, die Werte der Häugkeitsdichten übertrage ich aus der vorletzten Spalte. Die
46
4.5 Approximierende empirische Verteilungsfunktion
empirische Dichtefunktion lautet somit:

0, 67,





3, 0,



3, 5,
f ∗ (x) =

2, 0,




0, 34,



0,
für
für
für
für
für
1, 50 < x ≤ 1, 65,
1, 65 < x ≤ 1, 75,
1, 75 < x ≤ 1, 85,
1, 85 < x ≤ 1, 95,
1, 95 < x ≤ 2, 10,
sonst.
Die Abbildung 4.2 zeigt das zugehörige Histogramm und die noch zu besprechende empirische Verteilungsfunktion. Um ganz genau zu sein: Das Histogramm besteht aus Recht-
F*
f*
F*
f*
3
1,00
0,75
2
0,50
1
0,25
0
0,00
1,40
1,50
1,60
1,70
1,80
1,90
2,00
2,10
Größe in [m]
Abbildung 4.2: Histogramm und approximierende empirische Verteilungsfunktion
ecken, der Graph der empirischen Dichtefunktion
f ∗ (x)
nur aus deren oberen Seiten,
also ohne die senkrechten Seiten der Rechtecke.
4.5 Approximierende empirische Verteilungsfunktion
In der Abbildung 4.2 bendet sich noch eine zweite Funktion, und zwar die zugehörige Verteilungsfunktion, deren Werte sich auf die rechte Ordinate beziehen. Durch die
Klassenbildung gehen aber alle Informationen über die einzelnen Werte innerhalb einer Klasse verloren, daher kennt man die empirische Verteilungsfunktion nur noch an
den Klassengrenzen. Anstelle der eigentlichen empirischen Verteilungsfunktion wird eine
∗
Funktion F (x) konstruiert, für die an den Klassengrenzen
F ∗ (x∗i ) = Fi ,
i = 1, . . . , k.
gilt. Diese Werte sind in der Abbildung 4.2 markiert. Für die Werte dazwischen verwendet man lineare Interpolation und erhält eine stetige Funktion aus zusammenhängenden
47
4 Klassenbildung
Geradenstücken, einem sogenannten Polygonzug. Da diese Funktion nicht exakt die empirische Verteilungsfunktion ist, nennen manche Autoren sie
Verteilungsfunktion
Wegen
Intervall
approximierende empirische
(vgl. Handl). Dem werde ich mich anschlieÿen.
fi = Fi − Fi−1 hat die approximierende empirische Verteilungsfunktion im
(x∗i−1 , x∗i ) die Steigung fi∗ , also die Höhe des Rechtecks im Histogramm. Daher
gilt auÿer an den Klassengrenzen
F ∗0 (x) = f ∗ (x).
Diese Beziehung zwischen Dichte-und Verteilungsfunktion ist typisch für stetige Merkmale. Für die approximierende empirische Verteilungsfunktion gilt somit


0,
∗
F (x) = Fi−1 + fi∗ x − x∗i−1 ,


1,
für
für
für
x ≤ x∗0 ,
x∗i−1 < x ≤ x∗i , i = 1, 2, . . . , k ,
x ≥ x∗k .
4.6 Maÿzahlen bei klassierten Daten
Die Klassenbildung dient der Übersichtlichkeit, führt aber zu einem Informationsverlust.
Liegen die Daten eines stetigen Merkmals noch als geordnete Urliste vor, so sollten
die Maÿzahlen wie beschrieben ermittelt werden. Wenn aber nur noch die klassierte
Häugkeitstabelle vorliegt, können die Maÿzahlen nur näherungsweise berechnet werden.
4.6.1 Der Modus
Liegen die Daten nur in Form einer klassierten Häugkeitstabelle vor, so ist der Modus
∗
eine ganze Klasse, nämlich wieder diejenige mit dem gröÿten Wert von fi . Betrachten
Sie dazu bitte die Tabelle 4.1 der Körpergröÿen. Hier ist der Modus die ganze Klasse
mit den Grenzen
(1, 75, 1, 85].
Möchte man einen eindeutigen Wert, muss man sich für
die Klassenmitte entscheiden, hier also für 1,80.
4.6.2 Median und Quantile
Steht nur noch die Häugkeitstabelle der klassierten Daten zur Verfügung, so ergibt
sich der Median wie in der Abbildung 4.1 auf Seite 43 zu sehen näherungsweise über
den Schnitt der Geraden y = 0, 5 mit dem Graphen der approximierenden empirischen
∗
Verteilungsfunktion F , d.h. der Median ist die Lösung der Gleichung
0, 5 = F ∗ (x0,5 ).
(4.3)
Nach demselben Schema wird auch das allgemeine p-Quantil bei klassierten Daten
berechnet, d.h. das p-Quantil ist näherungsweise die Lösung der Gleichung
p = F ∗ (xp ).
48
(4.4)
4.6 Maÿzahlen bei klassierten Daten
(x∗i−1 , x∗i ] mit Fi = p,
Fi > p gilt. Wegen
Gibt es eine Klasse
zum ersten Mal
so ist
xp = x∗i .
Sonst wählt man die Klasse, wo
F ∗ (x) = Fi−1 + fi∗ x − x∗i−1
folgt aus der Bedingung (4.4) die Grundformel zu Berechnung des p-Quantils:
xp ≈ x∗i−1 +
(p − Fi−1 )
.
fi∗
(4.5)
Betrachten wir dazu noch einmal die Tabelle der Körpergröÿen mit klassierten Daten
Tabelle 4.2: Häugkeitstabelle klassierter Daten
Klasse
x∗i−1
x∗i
∆i
ni
fi
fi∗
Fi
1
1,50
1,65
0,15
2
0,10
0,67
0,10
2
1,65
1,75
0,10
6
0,30
3,00
0,40
3
1,75
1,85
0,10
7
0,35
3,50
0,75
4
1,85
1,95
0,10
4
0,20
2,00
0,95
5
1,95
2,10
0,15
1
0,05
0,34
1,00
Wir verwenden die Grundformel (4.5) jetzt zur näherungsweisen Bestimmung einiger
Quantile.
x0,05 muss die erste Klasse betrachtet werden. Hier sind
= F0 = 0 und f1∗ = 0, 67. Damit folgt
Zur Bestimmung des Quantils
F1 = 0, 10
sowie
F1−1
x0,05 ≈ 1, 50 +
(0, 05 − 0, 00)
= 1, 575.
0, 67
Das stimmt sehr gut mit dem exakten Wert von 1,59 überein. Zur Bestimmung des
x0,25 muss die zweite Klasse
F2−1 = 0, 10 und f2∗ = 3. Damit folgt
unteren Quartils
sowie
betrachtet werden. Hier sind
(0, 25 − 0, 10))
= 1, 70.
3
i = 3, F3 = 0, 75 sowie F2 = 0, 40.
F2 = 0, 40
x0,25 ≈ 1, 65 +
Für den Median ist
p = 0, 5,
also
Weiter ist
f3∗ = 3, 5
und damit folgt
x0,5 ≈ 1, 75 +
Zur Bestimmung des dritten Quartils
Hier ist
F3 = 0, 75
(0, 5 − 0, 4)
= 1, 78.
3, 5
x0,75
muss die dritte Klasse betrachtet werden.
und somit gilt
x0,75 ≈ x3 = 1, 85.
Die Näherungswerte stimmen sehr gut mit dem exakten Wert von 1,71, 1,77 und 1,845
überein, siehe Beispiel 3.12 auf Seite 37.
49
4 Klassenbildung
4.6.3 Arithmetisches Mittel und Varianz
Bei klassiertem Datenmaterial fehlen die Einzelwerte, manchmal sind aber die Klassenmittelwerte
x̄i
der Werte, die in einer Klasse liegen, bekannt. Dann ergeben sich das
arithmetische Mittel und die Varianz durch die Formeln
Pk
ni x̄i
n1 x̄1 + n2 x̄2 + · · · + nk x̄k
= i=1
,
x̄ =
n
n
Pk
ni x̄2i
n1 x̄21 + n2 x̄22 + · · · + nk x̄2k
2
2
σ ≈
− x̄ = i=1
− x̄2 .
n
n
Hier sind
ni
(4.6)
(4.7)
die absoluten Häugkeiten der Klassen.
Sind die Klassenmittelwerte unbekannt, werden näherungsweise die Klassenmitten
mi
verwendet. Das arithmetische Mittel und die Varianz werden dann durch
Pk
ni mi
n1 m1 + n2 m2 + · · · + nk mk
= i=1
,
x̄ ≈
n
n
P
k
ni m2i
n1 m21 + n2 m22 + · · · + nk m2k
2
2
σ ≈
− x̄ = i=1
− x̄2 .
n
n
(4.8)
(4.9)
angenähert.
Betrachten wir die Daten der Tabelle 4.2. Die Klassenmittelwerte sind nicht vorhanden, daher muss der Mittelwert näherungsweise über die Klassenmitten
mi
berechnet
werden. Damit erhalten wir folgende Näherungen
x̄ ≈ (2 · 1, 575 + 6 · 1, 70 + 7 · 1, 80 + 4 · 1, 90 + 1 · 2, 025) /20 = 1, 78,
σ 2 ≈ 2 · 1, 5752 + 6 · 1, 702 + 7 · 1, 802 + 4 · 1, 902 + 1 · 2, 0252 /20 − 1, 782 = 0, 0077.
Die Näherung für das arithmetische Mittel kommt sehr nah an den exakten Wert von
1,7845 heran. Die näherungsweise berechnete Varianz weicht dagegen deutlich vom exakten Wert 0,012106 ab. Das liegt daran, dass bei der Näherung für die Varianz die
Streuung innerhalb der Klassen nicht berücksichtigt wird. Es gibt deshalb Korrekturformeln, auf die ich aber nicht eingehen möchte. Näheres dazu siehe von der Lippe.
4.7 Aufgaben
Aufgabe 1.
(Wikipedia, 19.2.2009) Es liegen für 32 europäische Länder als Indikator
für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden in
Klassen eingeteilt wie folgt. In 9 Ländern kommen z.B. auf je 1.000 Einwohner mehr als
Tabelle 4.3: Brumm, Brumm
50
[0, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 700]
5
6
6
9
6
4.7 Aufgaben
400 und bis zu 500 PKW. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm
sowie die approximierende Verteilungsfunktion. Berechnen Sie dann näherungsweise die
Quartile
Q1 , Q2
Aufgabe 2.
und
Q3
sowie den Mittelwert und die Varianz.
Die Daten seien wieder die Körpergröÿen der Abbildung 4.1, aber die Klas-
sengrenzen seien 1,50, 1,70, 1,80, 1,90 und 2,10. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie
dann näherungsweise die Quartile
Q1 , Q2
und
Q3
sowie den Mittelwert und die Varianz.
51
5 Konzentration
5.1 Übersicht und Lernziele
In diesem Kapitel werden folgende Themen untersucht
- Der Unterschied zwischen absoluter und relativer Konzentration;
- Die Darstellung von relativer Konzentration durch die Lorenzkurve;
- Die Berechnung und Deutung des Gini-Koezienten;
- Die absolute Konzentration und die Konzentrationskurve;
- Die Berechnung und Deutung des Rosenbluth- und des Herndahl-Index.
5.2 Absolute und relative Konzentration
Konzentration ist das Gegenteil von Ausgeglichenheit, in der Wirtschaftstheorie meint
man damit eine marktbeherrschende Stellung von wenigen Anbietern. Das kann daran
liegen, dass es überhaupt nur eine kleine
Anzahl
von Anbietern gibt oder dass ein kleiner
Anteil von Anbietern einen groÿen Teil der Nachfrage abdeckt. Im ersten Fall spricht man
absoluter, im zweiten von relativer Konzentration. Eine hohe relative Konzentration
wird auch nach dem neulateinischen Wort disparitas für Ungleichheit als Disparität
von
bezeichnet.
Ein schönes Beispiel über den Unterschied zwischen absoluter und relativer Konzentration ist die Verteilung des Grundbesitzes in Schottland, wovon 80 Prozent auf 1200
Personen, also weniger als einem Prozent der Einwohnerschaft fallen. Quelle: Newsweek
(20.1.2003), zitiert nach Uebe. Hier liegt relative aber keine absolute Konzentration vor.
Oft überdecken sich beide Begrie auch. Es gibt kaum mehr als fünf Anbieter von Suchmaschinen, wobei davon aber noch einmal 90 Prozent aller Suchanfragen auf nur einen
Anbieter fallen. Hier ist die Anzahl der Anbieter gering, also liegt absoluter Konzentration vor, aber selbst innerhalb dieser kleinen Gruppe sind die relativen Anteile sehr
ungleichmäÿig verteilt, das Kennzeichen von relativer Konzentration oder Disparität.
Weit stärker als die marktbeherrschende Stellung von Google missfällt vielen Mitbürgern die ungleiche Verteilung von Einkommen, Vermögen oder Grundbesitz, sei es innerhalb eines Landes wie Deutschland oder global zwischen Erdteilen. Auch der Verbrauch
von Energie und Rohstoen ist weltweit stark auf einen kleinen Anteil der Weltbevölkerung konzentriert. Hier geht es immer um Disparität, also relative Konzentration.
53
5 Konzentration
Konzentration beschreibt einen Zustand, ist aber oft das Ergebnis länger anhaltender Prozesse der Marktbereinigung. Der Zustand der absoluten Konzentration ist das
Ergebnis von Übernahmen oder Ausscheiden von Konkurrenten, während bei relativer
Konzentration einige Wettbewerber ihren Marktanteil überproportional ausweiten konnten oder bereits von Anfang an marktbeherrschend waren.
5.3 Relative Konzentration
5.3.1 Die Merkmalssumme und ihre Verteilung
Zunächst müssen die verwendeten Begrie geklärt werden. Betrachtet wird ein verhältnisskaliertes Merkmal mit nichtnegativen Ausprägungen, da von den Ausprägungen nicht
nur Summen und Teilsummen sondern auch Verhältnisse gebildet werden sollen. Bisher wurde die durch das Merkmal erzeugte Verteilung der Merkmalsträger untersucht,
jetzt geht es zusätzlich um die Verteilung der Merkmalssumme auf die Merkmalsträger.
Die Merkmalssumme ist bildlich gesprochen der ganze zu verteilende Kuchen, etwa der
Gesamtlohn eines Unternehmens, das Volkseinkommen oder der gesamte Umsatz einer
Branche.
Ausgangspunkt sind die
n Werte xi der Urliste, die der Gröÿe nach ansteigend geordnet
werden, was zur neuen Liste
x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n) .
führt. Die seltsame Bezeichnung
x(j)
ist in der beschreibenden Statistik für die Ele-
i Merkmalsträger mit kleinstem
Fi = i/n. Die Merkmalssumme, sowie
mente der aufsteigend geordneten Urliste üblich. Die
Anteil haben die kumulierte relative Häugkeit
die relativen und die kumuliert relativen Anteile an ihr ergeben sich aus
S=
n
X
x(j) ,
qj = x(j) /S,
Qi =
j=1
Da die
x(j)
i
X
qj .
j=1
der Gröÿe nach geordnet sind, folgt
0 ≤ Qi ≤ Fi ≤ 1.
Die Punkte
(Fi | Qi )
liegen somit alle unterhalb oder höchstens auf der Winkelhalbierenden des Einheitsquadrats des ersten Quadranten.
Beispiel 5.1.
Eine Kleinstadt hat fünf Bäcker, die sich unterschiedlicher Beliebtheit
erfreuen. Die Jahresgewinne sind 60, 40, 150, 20 und 90 in 1.000 Euro. Hier ist also
n = 5
und somit
fi = 1/5
sowie
Fi = i/5
für
1 ≤ i ≤ 5.
Die aufsteigend geordnete
Urliste ist 20, 40, 60, 90 und 150, die Gesamtsumme des Gewinns ist 360 und somit etwa
q3 = 60/360
und
Q3 = 120/360.
Die lästige Rechnerei habe ich in einem Arbeitsblatt
von Excel erledigt.
Manchmal sind die Merkmale gruppiert, d.h. die Daten der Urliste kann man zu
k < n
54
aufsteigend geordneten Ausprägungen
ai ,
die mit der Häugkeit
ni
auftreten,
5.3 Relative Konzentration
1
2
3
4
5
6
7
8
A B
C
D
E
F
G
H
I
xi
x(i)
fi
qi
0,056
0,111
0,167
0,250
0,417
1,000
Qi
0,000
0,056
0,167
0,333
0,583
1,000
0,000
Gi
0,2
0,2
0,2
0,2
0,2
1,0
Fi
0,0
0,2
0,4
0,6
0,8
1,0
0,0
1,0
0,8
0,6
0,4
0,2
0,0
i
1 60 20
2 40 40
3 150 60
4 20 90
5 90 150
360 360
0,011
0,044
0,100
0,183
0,317
0,344
J
0,0 0,2 0,4 0,6 0,8 1,0
Abbildung 5.1: Arbeitstabelle zum Beispiel 5.1
umordnen. Die kumulierten Häugkeiten
Fi ,
Merkmalssumme
S,
sowie die relativen
und die kumuliert relativen Anteile an ihr ergeben sich aus
fj = nj /n,
Fi =
i
X
fj ,
S=
k
X
j=1
n j aj ,
qj =
j=1
nj aj
,
S
Qi =
i
X
qj .
j=1
Beispiel 5.2. Betrachten wir ein Unternehmen, das nach vier Tarifen bezahlt. Die Tarife
berücksichtigen nur die Qualikation des Mitarbeiters, nicht aber Alter oder Familienstand. Die Jahreslöhne in 1.000 Euro betragen 20, 45, 72 und 108. Von den 20 Mitarbeitern gehören 6 der untersten Tarifgruppe, 4 der nächst höheren und jeweils 5 den beiden
höchsten an. Zur besseren Übersicht zeige ich diese Werte in einer Häugkeitstabelle, die
um drei Spalten erweitert ist, um die Merkmalssumme zu berechnen sowie deren relative
und die kumulierte relative Aufteilung auf die Mitarbeiter der vier Tarifgruppen.
A B
1
2
3
4
5
6
7
i
ai
1 20
2 45
3 72
4 108
C
D
ni ni*ai
6 120
4 180
5 360
5 540
20 1200
E
F
G
H
I
fi
qi
Fi
Qi
Gi
0,1
0,15
0,3
0,45
1
0
0,3
0,5
0,75
1,000
0
0
0,100
0,250
0,550
1,000
0
0,030
0,070
0,200
0,388
0,313
0,3
0,2
0,25
0,25
1
J
K
1
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Abbildung 5.2: Arbeitstabelle zum Beispiel 5.2
ni Mitarbeiter der i-ten Tarifgruppe tragen den Wert si = ni ai zur MerkmalssumS = 1.200 bei. Der entsprechende relative Anteil qi = si /S steht neben dem relativen
Anteil der fi . Der Tabelle kann entnommen werden, dass die 5 Mitarbeiter der höchsten
Die
me
Tarifgruppe 25 Prozent der Belegschaft ausmachen, aber 45 Prozent der Lohnsumme auf
sich vereinigen. Die kumulierten Häugkeiten
Fi
und die kumulierten Anteile
Qi
sind
55
5 Konzentration
ebenfalls benachbart. Alle Mitarbeiter der drei ersten Tarifgruppen bilden 75 Prozent
der Belegschaft und haben einen Anteil von 55 Prozent an der Merkmalssumme.
5.3.2 Die Lorenzkurve
Die um die kumulierten relativen Anteile an der Merkmalssumme erweiterten Häugkeitstabellen werden durch die sogenannte
Lorenzkurve
veranschaulicht. Werden wie im
vorigen Abschnitt die kumulierten Anteile des Merkmals mit
Fi
und die kumulierten
Qi bezeichnet, so ergibt sich die Lorenzkurve als
streckenweise Verbindung der Punkte (0 | 0), (F1 | Q1 ), . . . , (Fn−1 | Qn−1 ), (1 | 1). Zur VerAnteile an der Merkmalssumme mit
anschaulichung der Konzentration wird auch immer noch die Winkelhalbierende, also die
(0 | 0), eingezeichnet.
Für das Beispiel 5.1 werden die Punkte (0 | 0), (0, 2 | 0, 056), (0, 4 | 0, 167), (0, 6 | 0, 333),
(0, 8 | 0, 583) und (1 | 1) durch Strecken verbunden, wodurch die Lorenzkurve entsteht,
und dann wird vom letzten Punkt der Lorenzkurve, also von (1 | 1) noch die Strecke
zurück nach (0 | 0) erzeugt. Die Koordinaten dieser Punkte stehen im Bereich F2:E8 des
Verbindung der Punkte
(1 | 1)
und
Arbeitsblatts. Die ebenfalls abgebildete Lorenzkurve entsteht in Excel durch Darstellung
dieses Bereichs durch ein sogenanntes Punktdiagramm, wobei ich als Typ Punkte mit
geraden Linien und Datenpunkten wählte.
Für das Beispiel 5.2 werden die Punkte
(1 | 1)
und
(0 | 0)
(0 | 0), (0, 3 | 0, 1), (0, 5 | 0, 25), (0, 75 | 0, 55),
durch Strecken verbunden. Die Koordinaten dieser Punkte stehen im
Bereich G2:H7.
5.3.3 Der Gini-Koezient
Je ungleicher die Merkmalssumme auf die Grundgesamtheit verteilt ist, desto stärker
hängt die Lorenzkurve nach rechts unten durch, während bei gleichen Anteilen Lorenzkurve und Winkelhalbierende zusammenfallen. Die Winkelhalbierende teilt das Einheitsquadrat in zwei Dreiecke mit Flächeninhalt von 1/2. Die Fläche zwischen der Winkelhalbierenden und der Lorenzkurve ist ein Maÿ für die Abweichung von der Gleichheit.
Der
Gini-Koezient
ist das Verhältnis des Inhalts dieser Fläche zum Inhalt der Ge-
samtäche des Dreiecks. Damit ist der Gini-Koezient ein Wert zwischen 0 und 1, wobei
der Wert 0 gleiche Anteile und der Wert 1 vollständige Konzentration anzeigt.
In der Abbildung 5.3 ist links noch einmal die Lorenzkurve des Beispiels 5.2 zu sehen,
rechts daneben bendet sich der Extremfall der Ungleichverteilung, wo von
die ersten
n
Einheiten
n−1 leer ausgehen und das gesamte Einkommen auf die letzte Einheit fällt. Die
Fläche zwischen der Winkelhalbierenden und der Lorenzkurve ist jeweils grau ausgefüllt.
Da die Gesamtäche
I
des Dreiecks den Inhalt 1/2 hat, beträgt der Flächeninhalt der
Fläche zwischen der Lorenzkurve und der Winkelhalbierenden
I = 1/2 −
X
Inhalt der Trapeze,
da die Lorenzkurve sich aus lauter Trapezen zusammensetzt. Betrachten wir in der Abbildung 5.3 in der linken Lorenzkurve das Trapez mit den Eckpunkten
56
(F2 | 0), (F2 | Q2 ),
5.3 Relative Konzentration
Abbildung 5.3: Zusammenhang zwischen Lorenzkurve und Gini-Koezient
(F3 | Q3 ) sowie (F3 | 0). Die
0, 5 (Q2 + Q3 ) und daher ist
Breite ist
f3 = F3 − F2
und die durchschnittliche Höhe
der Inhalt dieses Trapezes
f3 · 0, 5 (Q2 + Q3 ).
Somit hat die
Fläche zwischen Lorenzkurve und Winkelhalbierender den Inhalt
I = 1/2 −
k
X
fi · 0, 5 (Qi−1 + Qi ) ,
i=1
mit
Q0 = 0.
Teilt man diesen Wert jetzt noch durch 1/2, ergibt sich die Formel für den
Gini-Koezient
G=1−
k
X
fi (Qi−1 + Qi ) ,
mit
Q0 = 0.
(5.1)
i=1
f1 = 0, 3, f2 = 0, 2, f3 = 0, 25, f4 = 0, 25 sowie Q0 = 0, Q1 = 0, 1,
Q2 = 0, 25, Q3 = 0, 55, Q4 = 1. Also ergibt sich für den Gini-Koezient:
Im Beispiel 5.2 sind
G = 1−0, 3 (0, 1 + 0)+0, 2 (0, 25 + 0, 1)+0, 25 (0, 55 + 0, 25)+0, 25 (1 + 0, 55) = 0, 3125.
Für den Gini-Koezient habe ich die letzte Spalte des Arbeitsblatts von Abbildung
5.2 eingerichtet. Es werden die Produkte
fi (Qi + Qi−1 ) benötigt. Somit steht in Zelle I3
zunächst die Formel
= E3 ∗ (H2 + H3)
Diese Formel ziehe ich am Ausfüllkästchen bis zur Zelle I6 nach unten. In der Zelle I7
trage ich dann noch die Formel
= 1 − Summe(I3 : I6)
ein und erhalte damit den Gini-Koezient.
57
5 Konzentration
5.3.4 Der normierte Gini-Koezient
In der Abbildung 5.3 ist rechts der Extremfall vollständiger Konzentration der Merkmalssumme auf eine einzige von insgesamt
n statistische Einheiten zu sehen. Selbst dann
hat der Gini-Koezient nicht den Wert 1, denn die Lorenzkurve verläuft dann von 0 bis
1/(n − 1)
auf der Abszisse und steigt von dort als Strecke zum Punkt
(1 | 1).
Die Fläche
zwischen Lorenzkurve und Winkelhalbierender ist ein Dreieck mit Grundseite
und Höhe 1, also mit einem Flächeninhalt von
1/2
(n − 1)/n
(n−1)/(2n). Teilt man diesen Wert durch
ergibt sich für den Gini-Koezient der Maximalwert von
Gmax =
Man deniert daher bei
Koezient
n
n−1
.
n
statistischen Einheiten den sogenannten
wie folgt:
Gnorm =
n
G.
n−1
normierten Gini(5.2)
Im Beispiel 5.1 sind 5 statistische Einheiten vorhanden, der normierte Gini-Koezient
ist somit
Gnorm =
Im Beispiel 5.2 sind
n = 20
5
0, 344 = 0, 431.
4
statistische Einheiten auf
k = 4
Gruppen verteilt, der
normierte Gini-Koezient ist somit
Gnorm =
20
0, 3125 = 0, 328947368.
19
5.3.5 Relative Daten
Lorenzkurve und die beiden Gini-Koezienten hängen nur von relativen Werten der
Ausprägungen und der Verteilungen der Merkmalssumme ab. Deshalb werden manchmal
auch nur relative Werte angegeben. Betrachten wir ein ktives Land, wo die ärmsten
30 Prozent der Bevölkerung über 10 Prozent des Gesamteinkommens verfügen und die
nächsten 20 Prozent der Bevölkerung auf weitere 15 Prozent des Gesamteinkommens
kommen. Die nächsten 25 Prozent der Bevölkerung haben am Gesamteinkommen einen
Anteil von 30 Prozent und die letzten 25 Prozent teilen sich die restlichen 45 Prozent.
Die Gesamtzahl der Bevölkerung und deren Gesamteinkommen sind hier nicht bekannt. Die Arbeitstabelle in der Art von Abbildung 5.2 beginnt somit erst ab der Spalte
mit den relativen Anteilen
fi ,
gefolgt von der Spalte mit den relativen Anteilen an der
Merkmalssumme, gefolgt von den restlichen Spalten. Wenn Sie die Daten von hier genauer untersuchen, werden sie feststellen, dass sie mit den Daten der Abbildung 5.2
übereinstimmen, Lorenzkurve und die beiden Gini-Koezienten sind deshalb gleich.
5.3.6 Klassierte Daten
Lorenzkurven und Gini-Koezient werden sehr häug auf bereits klassierte Daten angewandt. Beachtet werden muss, ob für die Klassen aus der Urliste ein Klassenmittelwert
58
5.3 Relative Konzentration
vorhanden ist oder nicht. Im letzteren Fall wird anstelle des Klassenmittelwerts die Klassenmitte als Näherung genommen. Ich zeige die Vorgehensweise an zwei Beispielen.
Beispiel 5.3.
Die monatlichen Einkommen (in Asturios) in Costa Asturia sind so wie
im abgebildeten Arbeitsblatt über die 15 Millionen Einwohner verteilt. Ein freundlicher
Statistiker hat hier vor der Klassenbildung noch die Klassenmittelwerte
x̄i
ausgerechnet
und in die Spalte E eingetragen. Die zweite Klasse umfasst alle Einkommen über 1.000
bis höchstens 2.000 Asturios mit
n2 = 6
Mio. und
x̄2 = 1.600.
Diese Klasse trägt zur
gesamten Merkmalssumme von 52.800 Millionen Asturios den Beitrag 9.600 Millionen
Asturios bei. Der Beitrag der i-ten Klasse zur Merkmalssumme ist entsprechend
si =
x̄i ni .
A
1
2
3
4
5
6
7
8
B
C
i xi-1*
1
2
3
4
5
0
1000
2000
3500
über
D
E
F
G
H
I
J
K
L
M
xi* ni
KMWi si
fi
qi
Fi
Qi
Gi
1
(Mio)
0
0
1000
2
600 1200 0,133 0,023 0,133 0,023 0,003
2000
6 1600 9600 0,400 0,182 0,533 0,205 0,091 0,5
3500
3 2800 8400 0,200 0,159 0,733 0,364 0,114
6000
2 4800 9600 0,133 0,182 0,867 0,545 0,121
0
6000
2 12000 24000 0,133 0,455 1,000 1,000 0,206
0 0,2 0,4 0,6 0,8 1
15
52800
1
1
0
0 0,465
Abbildung 5.4: Arbeitsblatt für Lorenzkurve mit klassierten Daten
x∗i
und die Häugkeiten ni angegeben, dann muss der
mi = 0, 5(x∗i−1 + x∗i ) ersetzt werden. Der
Beitrag der i-ten Klasse zur Merkmalssumme ist entsprechend si = mi ni .
Oft sind nur die Klassengrenzen
Klassenmittelwert
Beispiel 5.4.
x̄i
durch die Klassenmitte
In einem Betrieb wurden die im Bereich A3:D6 der Abbildung 5.5 stehen-
den Daten über die monatlichen Einkommen in 100 Euro der 25 Mitarbeiter erhoben.
[5, 12] mit 5 Mitarbeitern, die letzte
(30, 50] mit ebenfalls 5 Mitarbeitern. Hier sind die Klassenmittelwerte unbekannt und
Hier wurden also vier Klassen gebildet, die erste ist
ist
wurden durch die Klassenmitten angenähert.
A B
1
2
3
4
5
6
7
8
C
D
E
i xi-1* xi* ni mi
1 5
2 10
3 18
4 30
10
18
30
50
5 7,50
8 14,00
7 24,00
5 40,00
25
F
si
G
fi
37,5
112
168
200
517,5
0,200
0,320
0,280
0,200
1
H
qi
0,072
0,216
0,325
0,386
1
I
Fi
0
0,200
0,520
0,800
1,000
0
J
Qi
0
0,072
0,289
0,614
1,000
0
K
Gi
0,0145
0,1156
0,2527
0,3227
0,2945
0,3068
L
M
1
0,5
0
0 0,25 0,5 0,75 1
Abbildung 5.5: Arbeitsblatt für Lorenzkurve mit klassierten Daten
59
5 Konzentration
5.3.7 Vorgehensweise mit Excel
Die Berechnungen seien am Arbeitsblatt des Beispiels 5.4 ausführlich erläutert. Ausgangspunkt sind die Klassen und die entsprechenden Häugkeiten, also die vier ersten
Spalten. In der Spalte E stehen entweder die Klassenmittelwerte oder die Klassenmitten.
Der Klassenmittelwert der ersten Klasse steht in der Zelle E3 und ergibt sich aus der
Formel
= 0, 5 ∗ (B3 + C3)
Diese Formel lässt sich am Ausfüllkästchen bequem nach unten bis zur Zelle E6 ziehen.
In der Spalte F stehen die Teilbeiträge zur Merkmalssumme, in Zelle F3 kommt zunächst
die Formel
= D3 ∗ E3
Auch diese Formel lässt sich am Ausfüllkästchen bequem nach unten bis zur Zelle F6
ziehen. Danach werden die Summen der Spalten D und F berechnet. In den Zellen D8
und F8 stehen die Formeln
= Summe(D3 : D6)
Für die
fi
= Summe(F 3 : F 6)
müssen die in der dritten Spalte stehenden Häugkeiten durch die Spalten-
summe dieser Spalte geteilt werden. Dazu trägt man in der Zelle G3 die Formel
= D3/D$7
Das Dollarzeichen vor der 7 verhindert, dass sich beim Ziehen am Ziehpunkt die Zelle D7
mit nach unten zieht. Das ganze müssen Sie für die Spalte H wiederholen, also zunächst
in H3 die Formel
= F 3/F $7
eintragen und dann ziehen. Die kumulierten Werte der
Population sind in Spalte I. Sie müssen zunächst in der Zelle I3 die Formel
= I2 + G3
eintragen, da die Formel
Fi = Fi−1 + fi
gilt mit
F0 = 0 Dies ist der Grund für die beiden
Nullen in der zweiten Zeile. Diese Formel können Sie am Ausfüllkästchen nach unten
ziehen.
Das führen Sie dann sinngemäÿ für die nächste Spalte durch, also zunächst in Zelle J3
= J2 + H3
eintragen und dann nach unten ziehen.
Für den Gini-Koezient habe ich die letzte Spalte eingerichtet. Es werden die Produkte
fi (Qi + Qi−1 )
benötigt. Somit steht in Zelle K3 zunächst die Formel
= G3 ∗ (J2 + J3)
Das wird nach unten gezogen. In der Zelle K7 trage ich dann noch die Formel
= 1 − Summe(K3 : K6)
ein und erhalte damit den Gini-Koezient. Da die Anzahl
n = 25
der statistischen
Einheiten noch nicht übermäÿig groÿ ist, lohnt es sich den normierten Gini-Koezient
auszurechnen, der in der Zelle K8 steht und über die Formel
dem Gini-Koezient zusammenhängt.
60
= K7 ∗ D7/(D7 − 1)
mit
5.4 Absolute Konzentration
5.4 Absolute Konzentration
5.4.1 Konzentrationskurve und Rosenbluth-Index
Absolute Konzentration liegt vor, wenn eine geringe Anzahl von Merkmalsträgern einen
groÿen Anteil an der Merkmalssumme auf sich vereinigt, d.h. es kommt auf die kumulierten Anteile der gröÿten Marktteilnehmer an. Die Werte der Urliste werden hier deshalb
nach
abnehmenden
Merkmalsbeträgen geordnet
x(1) ≥ x(2) ≥ . . . ≥ x(n) .
Die Elemente der absteigend geordneten Liste werden mit
x(j)
bezeichnet, daraus wird
zunächst die Merkmalssumme berechnet, danach die relativen Anteile davon und abschlieÿend die kumulierten relativen Anteile:
S=
n
X
(j)
x ,
(j)
cj = x /S,
Ci =
j=1
Die Gröÿen
Ci heiÿen Konzentrationsraten
i
X
cj .
j=1
und beschreiben den kumulierten Anteil der
i
gröÿten Merkmalsträger. Soweit deckt sich alles mit der Vorgehensweise bei der relativen
Konzentration, nur erfolgt die Kumulation von oben nach unten und nicht von unten
nach oben. Zeichnet man die geordneten Paare
(i | Ci )
in ein kartesisches Koordinaten-
system ein und verbindet man die Punkte mit den Koordinaten
so heiÿt der daraus resultierende Polygonzug
(0 | 0), (1 | C1 ), . . . , (n | 1),
Konzentrationskurve .
Die maximale Kon-
zentration ist erreicht, wenn der gröÿte Merkmalsträger die gesamte Merkmalssumme
auf sich vereinigt. Dann gelten
x(1) = S, x(2) = x(3) = · · · = x(n) = 0,
C1 = C2 = · · · = Cn = 1.
In der folgenden Abbildung ist die Konzentrationskurve der Bäcker von Beispiel 5.1
zu sehen.
Abbildung 5.6: Arbeitsblatt für Konzentrationskurve, Rosenbluth- und Herndahl-Index
In der ersten Spalte stehen die jährlichen Gewinne der fünf Bäcker, in der zweiten
folgen die Gewinnzahlen abnehmend geordnet. Dann werden die relativen Anteile berechnet, die zugehörigen Konzentrationsraten
Ci
stehen in der übernächsten Spalte. Da-
zwischen, also in der Spalte D habe ich die Laufzahlen
i
der Bäcker eingetragen. Die
61
5 Konzentration
Konzentrationskurve ist dann wieder der Polygonzug, der zum Bereich D2:E8 gehört.
Die Spalten F und G dienen der Berechnung von zwei weiteren Kennzahlen, die ich jetzt
nacheinander vorstelle.
5.4.2 Rosenbluth-Index
So wie der Gini-Koezient aus der Lorenzkurve abgeleitet wird, stammt der
Index
Rosenbluth-
aus der Konzentrationskurve. Anders als der Gini-Koezient wird aber nicht die
Fläche zwischen der Diagonalen und dem Graph der Konzentrationskurve herangezogen,
y = 1, wobei die y-Achse die
n Trapezen, wobei das erste zu
sondern die Fläche oberhalb dieses Graphen bis zur Geraden
natürliche linke Begrenzung ist. Diese Fläche besteht aus
einem Dreieck verkümmert ist. Ich habe die Trapeze in der Abbildung 5.6 abwechselnd
grau und weiÿ ausgefüllt. Die Breite der Trapeze sind die
ist
i − 0, 5.
F =
n
X
ci (i − 0, 5) =
i=1
da die
ci
ci ,
die durchschnittliche Höhe
Damit hat die besagte Fläche den Inhalt
n
X
ci i − 0, 5
n
X
i=1
ci =
i=1
n
X
ci i − 0, 5,
i=1
F liegt zwischen 1/2 und n/2, denn
somit F = 1/2, während bei gleichmäÿiger
aufsummiert 1 ergeben. Der Wert von
bei maximaler Konzentration ist
c1 = 1
und
Verteilung der Graph der Konzentrationskurve mit der Diagonalen des Rechtecks mit
den Seitenlängen 1 und
gröÿer ist
F,
n
deshalb wäre
Wert zwischen
2/n
zusammenfällt. Je geringer also die Konzentration ist, umso
1/F
ein gutes Konzentrationsmaÿ. Allerdings verliefe dessen
und 2, weswegen der Rosenbluth-Index,
festgelegt wird und zwischen
KR =
1/n
2
KR
genannt, durch
und 1 liegt. Ich halte das in einer Formel fest
1
,
i=1 ci i − 1
Pn
1/n ≤ KR ≤ 1.
In der Spalte F des abgebildeten Arbeitsblatts stehen die Produkte
wird der Rosenbluth-Index,
KR
1/(2F )
(5.3)
ci i .
In der Zelle F8
durch die Excel-Formel
= 1/(2 ∗ SU M M E(F 3 : F 7) − 1)
berechnet.
5.4.3 Herndahl-Index
Der
Herndahl-Index KH
ist bekannteste Maÿ der absoluten Konzentration. Er berech-
net sich aus der Summe der Quadrate der relativen Anteile an der Merkmalssumme,
also
KH =
n
X
i=1
62
c2i
Pn
x2
= Pni=1 i 2 .
( i=1 xi )
(5.4)
5.4 Absolute Konzentration
Man muss zur Berechnung dieses Index noch nicht einmal die Urliste ordnen. Ich habe
die Spalte G für den Herndahl-Index eingerichtet. Hier benden sich im Bereich G3:G7
die Quadrate der
ci
und in der Zelle G8 die Formel
= SU M M E(G3 : G7)
Der Herndahl-Index ist eng mit dem Variationskoezient
KH =
vX
verwandt. Es gilt
2
vX
+1
.
n
(5.5)
n Werte xj gleich sind.
1/n. Damit ergibt sich die Untergrenze des Herndahl-Index
Der Herndahl-Index nimmt seinen kleinsten Wert an, wenn alle
Dann haben alle ci den Wert
aus
min
KH
n
X
=
(1/n)2 = n/n2 = 1/n.
i=1
Bei vollständiger Konzentration ergibt sich sofort
max
KH
= 1.
Der Herndahl-Index wird in den USA auch als Herndahl-Hirschman Index bezeichnet. Er wird zuweilen mit Zinsfüÿen berechnet, statt etwa 0,75 wird dann mit 75 gerechnet. Der Wertebereich ist dann
100/n ≤ KH ≤ 100.
Der Herndahl-Index wird einge-
setzt, um die Wettbewerbssituation in Märkten zu beurteilen. Geringer Wettbewerb wird
in der Wirtschaftstheorie für schädlich gehalten, da Monopolbildungen, Absprachen und
mangelnde Ezienz die Folge sind. Der Herndahl-Index wird herangezogen, wenn in
problematischen Märkten Zusammenschlüsse oder Übernahmen beantragt werden. Das
amerikanische Wikipedia schreibt dazu am 13.8.2011:
If the Herndahl index is above a certain threshold then economists consider
the market to have a high concentration. The Antitrust Division of the Department of Justice considers Herndahl indices between 0.1000 and 0.1800
to be moderately concentrated and indices above 0.2500 to be concentrated, while the EU prefers to focus on the level of change, for instance that
concern is raised if there is a 0.025 change when the index already shows a
concentration of 0.1.
In den USA gelten Werte des Herndahl-Index unter 0,1 für unbedenklich, bei Werten
zwischen 0,1 und 0,18 sieht man Anhaltspunkte für Konzentration und deutet Werte
über 0,25 als klares Zeichen von hoher Konzentration. Die EU, also die Europäische
Union, möchte es erst gar nicht zu hoher Konzentration kommen lassen, und schaut
bei möglichen Zusammenschlüssen auf die Veränderung des Herndahl-Index und sieht
Zuwächse von mehr als 0,025 kritisch, wenn der Herndahl-Index vorher bereits über 0,1
war.
Beispiel 5.5.
Das US-Wikipedia liefert auch gleich ein Beispiel eines Marktes für was
auch immer mit 26 Firmen, zufällig genauso viel wie das Alphabet Buchstaben hat. Die
63
5 Konzentration
Gesellschaften heiÿen nach Buchstaben und haben folgende Marktanteile: A: 0,3, B bis
F jeweils 0,1 und G bis Z jeweils 0,01. Der Herndahl-Index ist somit
KH = 0, 32 + 5 · 0, 12 + 20 · 0, 012 = 0, 142.
Wenn jetzt C beantragt B und D zu übernehmen, verändert sich der Herndahl-Index
wie folgt
KH = 0, 32 + 0, 32 + 2 · 0, 12 + 20 · 0, 012 = 0, 202.
Nach amerikanischer Auslegung ist das kein Problem, denn der Herndahl-Index bleibt
auch nach dem Zusammenschluss unter 0,25, mit europäischen Augen gesehen steigt der
Herndahl-Index aber von einem Wert über 0,1 um mehr als 0,025.
5.4.4 Relative Daten
Die Konzentrationskurve sowie der Rosenbluth- und der Herndahl-Index werden aus
den relativen Anteilen der Merkmalsträger an der Merkmalssumme berechnet. Deshalb
werden manchmal auch nur relative Werte angegeben, wie im folgenden Beispiel, das
Konzentration als einen zeitabhängigen Vorgang darstellt.
Beispiel 5.6.
In Costa Asturia wird der Energiemarkt durch fünf Unternehmen abge-
deckt, deren Marktanteile für das Jahr 2000 in der Spalte A der Abbildung 5.7 zu nden
sind. Die Konzentrationskurve sowie der Rosenbluth-Index
KH
KR und der Herndahl-Index
werden allein aus den relativen Daten erzeugt. Im Jahr 2010 war der vormals kleins-
te Anbieter durch Übernahme vom Markt verschwunden und zusätzlich haben sich die
Marktanteile zugunsten des ersten Anbieters drastisch verschoben, siehe Spalte J. Dies
wirkt sich auch auf die Konzentrationskurve aus und verändert die beiden Indizes eindrucksvoll.
A
B
C
D
E
1
ci
K_H
0,40
0,25
0,20
0,10
0,05
1,00
Ci
0,00
0,40
0,65
0,85
0,95
1,00
0,00
KR
2
3
4
5
6
7
8
i
0
1
2
3
4
5
0
0,400
0,500
0,600
0,400
0,250
0,303
0,160
0,063
0,040
0,010
0,003
0,275
F
G
H I
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
J
K
L
M
N
ci
i
0
1
2
3
4
0
Ci
0,0
0,6
0,8
0,9
1,0
0,0
KR
K_H
0,600
0,400
0,300
0,400
0,417
0,36
0,04
0,01
0,01
0,42
0,6
0,2
0,1
0,1
1,0
O
P
Q
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
Abbildung 5.7: Arbeitsblatt für absolute Konzentration bei relativen Daten
5.5 Zusammenfassung
Man unterscheidet absolute und relative Konzentration. Relative Konzentration untersucht anteilsmäÿige Ungleichverteilung an der Merkmalssumme. Das Ausmaÿ an relativer Konzentration wird durch die Lorenzkurve veranschaulicht. Der Gini-Koezient
64
5.6 Aufgaben
verdichtet die Informationen der Lorenzkurve zu einer Kennzahl, nämlich dem Zweifachen des Inhalts der Fläche zwischen der Lorenzkurve und der Winkelhalbierenden. Bei
einer geringen Zahl
n
von Merkmalsträgern wird der Gini-Koezient mit dem Faktor
n/(n − 1) multipliziert, was den normierten Gini-Koezienten ergibt. Hat der normierte
Gini-Koezient den Wert 0, ist die Merkmalssumme gleichmäÿig auf die Merkmalsträger verteilt, bei einem Wert von 1 ist die Merkmalssumme auf eine einzige statistische
Einheit konzentriert.
5.6 Aufgaben
Aufgabe 1.
In der Kleinstadt des Beispiels 5.1 auf Seite 54 hat der erfolgreichste der
fünf Bäcker sein Geschäft auf seine zwei Söhne verteilt, die Jahresgewinne von 60 und
90 Tausend Euro erwirtschaften. Die Jahresgewinne der anderen Bäckereien veränderten
sich nicht. Somit sind die Jahresgewinne der nun sechs Bäcker 60, 40, 60, 90, 20 und
90 in Tausend Euro. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und
welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten und zeichnen Sie die Lorenzkurve. Zeichnen Sie die
Konzentrationskurve und berechnen sie den Rosenbluth- und den Herndahl-Index.
Aufgabe 2. Auf Drängen der EU-Kommission wurde der Energiemarkt in Costa Asturia
neu geordnet, das bisher gröÿte Unternehmen wurde in drei Anbieter mit je 20 Prozent
Marktanteil aufgeteilt. Das bisher zweitgröÿte Unternehmen konnte seinen Marktanteil
um fünf Prozent auf Kosten des kleinsten Unternehmens steigern, sodass die nun sechs
Anbieter Marktanteile von 25, dreimal 20, 10 und 5 Prozent haben. Zeichnen Sie die
Konzentrationskurve und berechnen sie den Rosenbluth- und den Herndahl-Index.
Aufgabe 3.
(Anderson et al.). In einem kleinen Land gibt es 5.527 Privathaushalte mit
einer Person und 5.959, 4.314 und 3.351 mit zwei, drei und vier Personen. Was sind hier
die statistischen Einheiten und die statistische Gesamtheit? Handelt es sich dabei um
eine Bestands- oder Bewegungsmasse? Welcher Art ist die Erhebung? Welcher Art ist
das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die
erweiterte Häugkeitstabelle und den Gini-Koezienten. Zeichnen Sie die Stabverteilung
und die empirische Verteilungsfunktion sowie die Lorenzkurve. Ermitteln Sie den Modus,
das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz
und den Variationskoezienten des Merkmals
X.
Die angegebenen Daten entsprechen
in einer Einheit von 1.000 Wohnungen genau dem Stand von Westdeutschland 1970.
Aufgabe 4.
Diese Aufgabe stammt von von der Lippe, ich habe nur andere Zahlen
verwendet:
200 Angehörige eines primitiven Volksstammes, sogenannte Urmenschen, gehen auf
die Jagd nach Federvieh. Ihre Beute beträgt 1.000 Wildgänse. Durch das an sich nur
bei primitiven Völkern bekannte Gerangel um Geld, Gut und Prestige entstand trotz
Eingreifens des Häuptlings eine etwas ungleiche Verteilung der Beute. Es bekamen 78
65
5 Konzentration
Jäger drei, 58 fünf, 41 sechs und 23 sogar zehn Gänse. Erstellen Sie die Lorenzkurve und
berechnen Sie die beiden Gini-Koezienten.
Aufgabe 5.
(Anderson et al.) In der Tabelle 5.1 steht die Verteilung der Beschäftigten
auf Arbeitsstätten im Produzierenden Gewerbe in Westdeutschland im Jahr 1970.
Tabelle 5.1: Daten zur Aufgabe 5
Arbeitsstätten
Anzahl in 100
Beschäftigte in 1000
1 - 4
3493
735
5 - 9
1231
800
10 - 19
636
854
20 - 49
442
1350
50 - 99
176
1226
100 - 199
98
1353
200 - 499
62
1884
500 und mehr
32
4658
6170
12860
Summen
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher
Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen
Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden
Gini-Koezienten und zeichnen Sie die Lorenzkurve.
Aufgabe 6.
(Uebe) In einem Betrieb wurden folgende Daten über die monatlichen Ein-
kommen (in 100
e)
der beschäftigten Frauen erhoben: Was ist die statistische Einheit
Tabelle 5.2: Fiktive Einkommen
Einkommen
Anzahl der Frauen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
(24, 30]
10
15
10
5
4
und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte gibt es? Stellen Sie die durch die Tabelle
5.2 gegebene Einkommensverteilung als Häugkeitstabelle und als Histogramm dar und
erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion. Erstellen Sie
die Lorenzkurve und berechnen Sie die beiden Gini-Koezienten. Berechnen Sie für die
Einkommen der Frauen näherungsweise Modus, unteres Quartil, Median, oberes Quartil, die Quantile
x0,1
sowie
x0,9 ,
Mittelwert sowie Varianz und empirische Varianz und
Standardabweichung und empirische Standardabweichung und den Variationskoezient.
Aufgabe 7.
66
Man beweise die Beziehung (5.5) auf Seite 63.
6 Einführung in die
Wahrscheinlichkeitsrechnung
6.1 Übersicht
In diesem Kapitel werden die Grundlagen der Wahrscheinlichkeitsrechnung vorgestellt
- Zufallsgeräte und Zufallsexperimente;
- Ergebnis und Ergebnismenge sowie Ereignis bei einem Zufallsexperiment;
- Laplace-Experimente;
- Mehrstuge Zufallsexperimente und ihre Modellierung durch Baumdiagramme;
- Produktwahrscheinlichkeitsraum;
- Stochastische Unabhängigkeit und bedingte Wahrscheinlichkeit;
- Der Satz von Bayes.
6.2 Diskrete Verteilungen
Es gibt Experimente, deren Ausgang bis auf Messungenauigkeiten vorhersehbar ist, etwa
das Fallen eines Balles, was durch bekannte physikalische Gesetze beschrieben werden
kann. Solche Experimente und Ereignisse heiÿen deterministisch. Es gibt aber auch Experimente, deren Ausgang ungewiss ist, etwa der Stimmanteil der CDU/CSU bei der
nächsten Bundestagswahl, oder welche Nation die nächste Fuÿball-Europameisterschaft
gewinnt. Obwohl man hier den exakten Ausgang nicht kennt, gibt es aber doch gewisse Gesetzmäÿigkeiten, die zur ungefähren Vorhersage des Ausgangs dienen. Im Beispiel
der Bundestagswahl kann man damit rechnen, dass CDU und CSU wieder die stärkste
Fraktion bilden und wahrscheinlich auf einen Stimmenanteil zwischen 30 und 40 Prozent
kommen. Im Falle der Europameisterschaft weiÿ man, dass nur eine der 16 qualizierten
Nationen gewinnen kann, somit steht schon mal eine Menge
Ω möglicher
Ausgänge fest.
Das trit auch auf die Ausgänge typischer Glücksspiele zu, beim Roulette bleibt die
Kugel auf einer der Zahlen von 0 bis 36 liegen, ein Würfel fällt auf einer der Zahlen von
1 bis 6 und eine Münze muss sich für Wappen oder Zahl entscheiden.
67
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.1. Bei einem Zufallsexperiment gibt es eine meist mit Ω bezeichnete Menge
möglicher Ergebnisse. Diese Menge wird
Ergebnismenge des Zufallsexperiments genannt.
Die Elemente dieser Menge sind die möglichen Ausgänge des Zufallsexperiments und
werden als
Ergebnis oder Ausfall bezeichnet. Die Teilmengen von Ω werden als Ereignisse
bezeichnet. Wenn der Ausgang des Zufallsexperiments in einer Teilmenge
man: Das Ereignis
A
liegt, sagt
A ist eingetreten. Ereignisse, die nur aus einem Element, also einem
Ergebnis bestehen, werden
Elementarereignis
genannt.
Ich werde zunächst nur endliche oder abzählbar unendliche Ergebnismengen betrachten. Solche Mengen können durchgezählt werden, d.h.
Ω = { ω1 , ω2 , . . . , ωn , . . . } = { ωi : i ∈ I }.
i werden zu einer Indexmenge I zusammengefasst,
I = { 1, 2, 3, . . . , n } und bei unendlichen Mengen in der
Die Indizes genannten ganzen Zahlen
wobei bei endlichen Mengen
Regel
I=N
ist.
Die Ergebnisse beim Werfen eines Würfels sind die ganzen Zahlen von 1 bis 6, die
zusammen die Ergebnismenge
die Teilmengen
A = { 1, 3, 5 }
Ω = { 1, 2, 3, 4, 5, 6 } bilden. Mögliche Ereignisse sind etwa
oder { 2, 4, 6 }. Das Ereignis A tritt also genau dann ein,
wenn eine gerade Zahl gewürfelt wird. Für das Zufallsexperiment Werfen einer Münze
erhält man die Ergebnismenge
Ω = { Wappen, Zahl }.
Die meisten Zufallsexperimente können zumindest theoretisch beliebig oft wiederholt
ω1 , ω2 , . . . ,
N -maliger Wiederholung des Zufallsexperiments tritt jedes Ergebnis ωi mit
einer absoluten Häugkeit ni und einer relativen Häugkeit fi = ni /N ein. Für sehr groÿe
Werte von N werden sich in vielen Fällen die relativen Häugkeiten stabilisieren und
gegen einen Grenzwert pi konvergieren. Dieser Wert wird als die Wahrscheinlichkeit des
Eintreens des Ergebnisses ωi bezeichnet. Aus der Beschreibenden Statistik ist bekannt,
werden. Sei zunächst angenommen, dass es nur endlich viele Ergebnisse
ωn
gibt. Bei
dass die Summe der relativen Häugkeiten 1 ist, deshalb trit dies auch auf die Summe
der
n
Wahrscheinlichkeiten
pi
zu.
Diese anschaulichen Überlegungen werden nun in eine strenge mathematische Form
gebracht.
Denition 6.2.
Es sei
Ω = {ω1 , ω2 , . . . , ωn , . . .}
(6.1)
p : Ω → R heiÿt
diskrete Verteilung auf Ω, wenn
eine endliche oder abzählbar unendliche Ergebnismenge. Eine Funktion
diskrete Wahrscheinlichkeitsverteilung
oder nur kurz
folgende beide Bedingungen erfüllt sind:
p(ω1 ) + p(ω2 ) + · · · + p(ωn ) + · · · = 1,
p(ωi ) ≥ 0.
(6.2)
(6.3)
p(ωi ) als Wahrscheinlichkeit für das Eintreten des Ergebnisses ωi
p(ωi ) schreibt man meist nur pi . Das Paar (Ω, p) wird als diskreter
Dabei wird die Zahl
gedeutet. Statt
Wahrscheinlichkeitsraum bezeichnet.
Eine diskreter Wahrscheinlichkeitsraum kann also durch eine Tabelle beschrieben werden, in deren beiden Zeilen die Ergebnismenge
68
Ω
und die Verteilung
p
stehen:
6.3 Laplace-Experimente
Tabelle 6.1: Diskrete Wahrscheinlichkeitsverteilung
Ω ω1
ω2
...
ωn
...
p
p2
...
pn
...
p1
6.3 Laplace-Experimente
Bei manchen Zufallsexperimenten lassen sich die exakten Wahrscheinlichkeiten angeben. Bei einem sehr gut gearbeiteten Würfel sollte jede der sechs Seiten mit gleicher
Wahrscheinlichkeit oben erscheinen, bei einer Münze sollten beide Seiten mit gleicher
Wahrscheinlichkeit fallen und aus einem gut durchgemischten Kartenstapel sollte jede
Karte mit derselben Wahrscheinlichkeit gezogen werden können. Zufallsexperimente dieser Art werden
n
Laplace-Experimente
genannt. Bei einem Laplace-Experiment gibt es nur
Ergebnisse, die alle mit derselben Wahrscheinlichkeit
1/n
auftreten. Zufallsgeräte wie
Münzen und Würfel, die Laplace-Experimente erzeugen, werden meist fair, ideal oder
Laplace genannt. Obwohl es fast unmöglich ist, Würfel oder Münzen mit perfekter
Symmetrie zu bauen, wird man in vielen Modellen von einem Laplace-Experiment ausgehen. Beim Lotto mit 49 Zahlen scheint die Durchmischung so gut zu gelingen, dass jede
Zahl eine Wahrscheinlichkeit von
1/49
hat. Ein Casino muss im eigenen Interesse dafür
sorgen, dass alle Zahlen von 0 bis 36 mit derselben Wahrscheinlichkeit
1/37
auftreten,
da sonst Verluste drohen.
Halten wir das Gesagte in einer Denition fest.
Denition 6.3.
Ein Zufallsexperiment auf einer
endlichen
Menge
Ω = { ω1 , ω2 , . . . , ωn }
heiÿt ein Laplace-Experiment, wenn alle Wahrscheinlichkeiten
Solche Verteilungen werden
Gleichverteilungen
(6.4)
pi
den Wert
1/n
haben.
genannt.
Betrachten wir einige Laplace-Experimente und die zugehörigen Ergebnismengen.
Ω = {Wappen, Zahl } beschreibt das Werfen einer fairen MünVerteilung ist pi = 1/2, i = 1, 2.
1. Die Ergebnismenge
ze. Die zugehörige
2. Beim Werfen eines fairen Würfels, auch als Laplace-Würfel oder L-Würfel bezeichnet, erhält man die Ergebnismenge
ist
Ω = { 1, 2, 3, 4, 5, 6 }. Die zugehörige Verteilung
pi = 1/6, i = 1, . . . , 6.
3. Beim Roulette erhält man die Ergebnismenge
Verteilung ist
Ω = { 0, 1, 2, . . . , 36 }. Die zugehörige
pi = 1/37, i = 0, . . . , 36.
6.4 Allgemeine Zufalls-Experimente
Zufallsexperimente basieren oft auf Geräten, die so konstruiert sind, dass der Ausgang nicht vorhersehbar ist, eben zufällig, aber nicht beliebig. Beim Lotto wird eine
69
6 Einführung in die Wahrscheinlichkeitsrechnung
Trommel mit 49 Kugeln sehr lange und sehr raniert durchmischt, sodass jede Kugel dieselbe Wahrscheinlichkeit zu fallen hat. Ich werde in Anlehnung an Engel Geräte mit zufälligem Ausgang Zufallsgeräte nennen. Die bisher beschriebenen LaplaceZufallsexperimente sind das Ergebnis der Zufallsgeräte Münze, Würfel und Roulettekessel. In der Abbildung 6.1 sind Zufallsgeräte zu sehen, die nicht zu Gleichverteilungen
führen.
G
R
R
G
G
B
RG-Rad
ANANAS
RGB-Rad
KSW-Urne
ANS-Urne
1
2 3 3
3
3
B-Würfel
Abbildung 6.1: Zufallsgeräte
Links sehen Sie zwei Glücksräder. Ein Glücksrad ist ein Zufallsgerät, wenn der Zeiger
mit groÿer Geschwindigkeit angestoÿen wird und dann zufällig in einer beliebigen Winkelposition zur Ruhe kommt. Die Wahrscheinlichkeit, dass der Zeiger dann in einem der
Sektoren steht, ist proportional zum Winkel des Sektors. Das berühmteste Glücksrad ist
der Roulettekessel mit 37 gleich groÿen Sektoren. Bei Urnen erfolgt die zufällige Auswahl durch einem blinden, des Lesens unkundigen Aen, dem zur Sicherheit die Augen
verbunden werden. Ganz rechts ist die Abwicklung eines Würfels zu sehen, bei dem nur
die Zahlen von 1 bis 3 vorkommen. Die Grundmengen und die zugehörigen Verteilungen
sind dann wie folgt.
1. Beim linken Glücksrad sei der kleinere Sektor rot (R), der gröÿere grün (G). Damit
erhält man die Ergebnismenge
1/4
und
pG = 3/4,
Ω = {R, G }
mit den Wahrscheinlichkeiten
pR =
da der grüne Sektor dreimal so groÿ wie der rote ist. Dieses
Zufallsgerät werde ich RG-Rad nennen.
2. Beim rechten Glücksrad sei der kleinste Sektor rot (R), der nächst gröÿere grün
Ω = {R, G, B }
pB = 1/2, da der zweite
(G) und der gröÿte blau (B). Damit erhält man die Ergebnismenge
mit den Wahrscheinlichkeiten
pR = 1/6, pG = 1/3
und
Sektor doppelt so groÿ wie der erste ist und der dritte genauso groÿ wie die beiden
anderen zusammen. Dieses Zufallsgerät werde ich RGB-Rad nennen.
3. Die linke Urne enthält vier schwarze (S), acht weiÿe (W) und 10 karierte (K)
Ω = {S, W, K }. Die zugehörigen
= 4/11 und pK = 5/11. Dieses Zufalls-
Kugeln. Damit erhält man die Ergebnismenge
Wahrscheinlichkeiten sind
pS = 2/11, pW
gerät werde ich KSW-Urne nennen.
4. Die rechte Urne enthält drei A, zwei N und ein S. Damit erhält man die Ergebnismenge
pN = 1/3
70
Ω = {A, N, S }. Die zugehörigen Wahrscheinlichkeiten sind pA = 1/2,
pS = 1/6. Dieses Zufallsgerät werde ich ANS-Urne nennen.
und
6.5 Wahrscheinlichkeit von Ereignissen
5. Der Würfel enthält je eine Seite mit den Zahlen 1 und 2 und vier Seiten mit der
Ω = { 1, 2, 3 } mit der Wahrscheinp3 = 2/3. Dieses Zufallsgerät werde ich
Zahl 3. Damit erhält man die Ergebnismenge
lichkeitsverteilung
p1 = p2 = 1/6
sowie
B-Würfel nennen.
6.5 Wahrscheinlichkeit von Ereignissen
Bei Zufallsexperimenten sind nicht nur die Wahrscheinlichkeiten der Ergebnisse wichtig,
sondern auch die Wahrscheinlichkeit von Ereignissen
nismenge
Ω
A,
die als Teilmengen der Ergeb-
betrachtet werden. Beim Monopoly möchte man gern den Besuch teurer
Grundstücke vermeiden und ermittelt die Wahrscheinlichkeit für bestimmte den Ruin
bedeutende Augenzahlen wie etwa 6, 7 oder 9. Beim Roulette kann man auf die ungeraden Zahlen setzen mit der Ereignismenge
U = { 1, 3, . . . , 35 }.
Bei bekannter Verteilung
kann man jeder Teilmenge
A = { ωr , ωs , . . . , ωt }
(6.5)
auf naheliegende Weise eine Wahrscheinlichkeit zuweisen, die man mit einem groÿen
P
abkürzt
P (A) = pr + ps + . . . + pt .
(6.6)
Diese Festsetzung lässt sich problemlos auf unendliche Teilmengen von
wenn
Ω
Ω
erweitern,
abzählbar ist.
Besonderes einfach ist die Bestimmung der Wahrscheinlichkeiten von Ereignissen bei
Laplace-Experimenten mit der Ergebnismenge
lichkeit eines Ereignisses
P (A) =
Für eine beliebige Menge
mente von
A
Ω.
Hier ergibt sich für die Wahrschein-
A:
A
Anzahl der Elemente von
Anzahl der Elemente von
wird mit
|A|
|A|
A
=
.
Ω
|Ω|
(6.7)
die Anzahl der Elemente bezeichnet. Die Ele-
werden günstige, die Elemente von
Ω
mögliche Fälle genannt. Daher sagt
man bei Laplace-Ereignissen, dass die Wahrscheinlichkeit eines Ereignisses das Verhältnis der für
A
günstigen zu den möglichen Fällen ist
P (A) =
Anzahl der für
A
günstigen Fälle
Anzahl der möglichen Fälle
.
(6.8)
Bei einem fairen Würfel beträgt die Wahrscheinlichkeit eine ungerade Zahl zu werfen
somit 3/6, denn es gibt 3 günstige und 6 mögliche Fälle. Setzt man im Roulette auf die
ungeraden Zahlen, sind 18 Ausfälle günstig und wegen der 0 sind 37 Fälle möglich, die
Wahrscheinlichkeit des Ereignisses ist somit 18/37.
∅ den Wert 0 zu, wird durch (6.6) eine Abbildung P :
P(Ω) → R hergestellt, wobei P(Ω) die Potenzmenge von Ω bezeichnet. Diese Abbildung
Weist man der leeren Menge
erfüllt die in der folgenden Denition geforderten Eigenschaften.
71
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.4.
P(Ω)
Ω
Es sei
eine abzählbare Ergebnismenge eines Zufallsexperiments und
die Potenzmenge von
scheinlichkeitsmaÿ
Ω.
P : P(Ω) → R ein WahrΩ, wenn sie folgenden Axiomen
Dann heiÿt eine Abbildung
oder kurz eine
Wahrscheinlichkeit
auf
genügt:
1. Nichtnegativität:
2. Normiertheit:
3. Additivität:
(Ω, P )
Das Paar
0 ≤ P (A).
P (Ω) = 1.
P (A ∪ B) = P (A) + P (B),
A ∩ B = ∅.
falls
wird ein abzählbarer Wahrscheinlichkeitsraum genannt.
Es lässt sich umgekehrt sehr leicht zeigen, dass zu jedem abzählbaren Wahrscheinlichkeitsraum
(Ω, P ) genau eine Verteilung p gehört, sodass die Wahrscheinlichkeit eines
A über die Gleichung (6.6) erfolgt. Damit sind für abzählbare Ergebnismen-
Ereignisses
gen die beiden Denitionen 6.2 und 6.4 gleichwertig. Da Verteilungen nur die beiden
einfachen Bedingungen (6.2) und (6.3) erfüllen müssen, ist es meist besser, Verteilungen
zu bestimmen.
6.6 Rechenregeln für Ereignisse
Halten wir noch einmal fest, dass jedes Ereignis durch eine Teilmenge
menge
Ω
A
der Ergebnis-
dargestellt wird. Man sagt, das Ereignis A ist eingetreten, wenn das Ergeb-
nis des Zufallsexperiments ein Element von
A
ist. Die zugeordnete Wahrscheinlichkeit
P (A)
des Eintretens des Ereignisses ist durch den Wert
des Wahrscheinlichkeitsmaÿes
bestimmt. Aus den Axiomen der Denition 6.4 lassen sich eine Reihe nützlicher Rechenregeln herleiten. Zunächst seien noch einige Aussagen und Bezeichnungen eingeführt.
(1) Die Menge
Ω
wird als sicheres Ereignis bezeichnet, weil es immer eintritt.
(2) Die leere Menge
∅
heiÿt das unmögliche Ereignis, das niemals eintritt.
(3) Ein Ereignis, das genau dann eintritt, wenn
A⊂Ω
nicht eintritt, heiÿt das zu
A
Ā ⊂ Ω. Die Vereinigung von A und dem komplementären
Ā ergibt genau Ω, daher wird Ā auch durch das Symbol Ω \ A dargestellt.
komplementäre Ereignis
Ereignis
(4) Das Ereignis
A∩B
(5) Das Ereignis
A∪B
tritt genau dann ein, wenn sowohl
tritt genau dann ein, wenn
A
A
oder
als auch
B
B
eintreten.
(oder beide zugleich)
eintreten.
(6) Zwei Ereignisse
A
treten können, d.h.
(7) Die Dierenz
nicht
72
B
A\B
eintritt.
B heiÿen
A ∩ B = ∅.
und
unverträglich, wenn sie nicht beide zugleich ein-
der Ereignisse
A
und
B
tritt genau dann ein, wenn
A
aber
6.6 Rechenregeln für Ereignisse
Aus der Denition 6.4 lassen sich eine Reihe von Folgerungen ableiten, die ohne Beweis
im folgenden Satz zusammengestellt werden.
Satz 6.1. Für die Funktion P (A) gelten folgende Gesetze:
1. Für das unmögliche Ereignis ∅ gilt: P (∅) = 0.
2. Für das zum Ereignis A komplementäre Ereignis Ā gilt: P (Ā) = 1 − P (A).
3. Für die Vereinigung zweier beliebiger Ereignisse A und B gilt:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
P (A ∪ B) ≤ P (A) + P (B),
P (A ∪ B) = P (A) + P (B), wenn A ∩ B = ∅.
4. Für die Dierenz zwischen den beliebigen Ereignissen B und A gilt:
P (B \ A) = P (B) − P (A ∩ B).
5. Für zwei Ereignisse A und B mit der Beziehung A ⊂ B gilt:
P (A) ≤ P (B),
P (B) = P (A) + P (B \ A).
Ich werde diese Regeln am bereits vertrauten Modell des Laplace-Würfels erläutern.
Beispiel 6.1.
Ein Laplace-Würfel werde einmal geworfen, das Ergebnis wird mit
X
bezeichnet. Wir betrachten folgende vier Ereignisse
A = { 1, 3, 5 }
a)
X
ist ungerade. Dies ergibt die Menge
b)
X
ist gerade. Dies ergibt die Menge
c)
X < 3.
Dies ergibt die Menge
C = { 1, 2 }
d)
X = 4.
Dies ergibt die Menge
D = {4}
Die Menge
B
ist komplementär zu
mit
B = Ā = { 2, 4, 6 }
mit
mit
P (A) = 1/2.
mit
P (B) = 1/2.
P (C) = 1/3.
P (A) = 1/6.
A, und es gilt 1 = P (A) + P (B). Der Durchschnitt
A und C ist die Menge E = { 1 },
F = { 1, 2, 3, 5 }. Es gilt damit
von
die Vereinigung der beiden Mengen ist die Menge
P (F ) = P (A ∪ C) = 2/3 = 1/2 + 1/3 − 1/6 = P (A) + P (C) − P (A ∩ C).
Der Durchschnitt der Mengen
die Menge
G = { 1, 3, 4, 5 }.
A
und
D
ist leer, die Vereinigung beider Mengen ergibt
Es gilt damit
P (G) = P (A ∪ D) = 2/3 = 1/2 + 1/6 = P (A) + P (D).
Die Menge
{ 3, 5 }.
A\C
enthält alle Elemente von
A,
die nicht in
C
liegen, also ist
Der Durchschnitt beider Mengen besteht nur aus der Menge
{1}
A\C =
und damit ist
dann
P (A \ C) = 1/3 = P (A) − P (A ∩ C) = 1/2 − 1/6.
73
6 Einführung in die Wahrscheinlichkeitsrechnung
Das folgende Beispiel stammt von Mayer:
Beispiel 6.2.
Ein Student muss zwei Klausuren in den Fächern A und B schreiben, die
er mit den Wahrscheinlichkeiten 0,7 und 0,8 besteht. Beide Klausuren besteht er mit
einer Wahrscheinlichkeit von 0,6. Wie hoch ist die Wahrscheinlichkeit wenigstens eine
Klausur zu bestehen?
Seien die zu den Ereignissen gehörenden Mengen ebenfalls
A und B
genannt, so gilt also
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 7 + 0, 8 − 0, 6 = 0, 9.
Beispiel 6.3.
In einer Urne benden sich 100 Kugeln mit den Nummern 1 bis 100. Eine
Kugel werde zufällig gezogen, deren Nummer sei
keiten der folgenden vier Ereignisse: a)
c)
X
X
X.
ist durch 6 teilbar. b)
enthält die Zier 9 und ist durch 6 teilbar. d)
die Zier 9. e)
X
Wie hoch sind die Wahrscheinlich-
X
X
enthält die Zier 9.
ist durch 6 teilbar oder enthält
ist durch 6 teilbar, enthält aber nicht die Zier 9.
Hier ist für a) zunächst die Ereignismenge
Für b) wird die Menge
B
A für die Teilbarkeit von X
durch 6 zu bilden.
mit allen Zahlen zwischen 1 und 100, die die Zier 9 enthalten.
für c) wird die Ereignismenge
abschlieÿend für e) die Menge
A ∪ B und
A\B .
für d) die Ereignismenge
A∩B
benötigt und
A = { 6, 12, 18, . . . , 90, 96 },
B = { 9, 19, 29, . . . , 90, 91, . . . , 99 },
A ∩ B = { 90, 96 }.
Die Mengen
A
und
B
bestehen aus 16 bzw. 19 Zahlen, der gemeinsame Durchschnitt
aus zwei Zahlen. Somit gilt zunächst
P (A) = 16/100 = 0, 16,
P (B) = 19/100 = 0, 19,
P (A ∩ B) = 2/100 = 0, 02.
Damit ergeben sich weiter
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 16 + 0, 19 − 0, 02 = 0, 33,
P (A \ B) = P (A) − P (A ∩ B) = 0, 16 − 0, 02 = 0, 14.
6.7 Abhängige mehrstuge Zufallsexperimente
Bisher wurden nur einstuge Zufallsexperimente betrachtet wie etwa das einmalige Werfen einer Münze. Eine Folge einstuger Zufallsexperimente wird als stochastischer Prozess oder ein mehrstuges Zufallsexperiment genannt, etwa das Ziehen der Lottozahlen.
Mehrstuge Zufallsexperimente werden oft durch Baumdiagramme dargestellt. Von einem Anfangsknoten verlaufen die Zweige zu den Ergebnissen des ersten Experiments,
74
6.7 Abhängige mehrstuge Zufallsexperimente
wobei deren Wahrscheinlichkeiten an die Kanten geschrieben werden. Von jedem Ergebnis der ersten Stufe gehen dann die Verzweigungen der zweiten Stufe aus, wobei eine
Baumstruktur entsteht. Betrachten wir dazu ein Beispiel.
Beispiel 6.4.
In einer Urne benden sich die vier Buchstaben ANNE, d.h. der Buchsta-
be N kommt zweimal vor. Unser hilfreicher blinder Ae zieht mit verbundenen Augen
zwei Buchstaben ohne Zurücklegen, wobei die Reihenfolge beachtet wird. Welche Kombinationen ergeben sich mit welchen Wahrscheinlichkeiten?
Start
1/4
1/4
A
1/2
E
N
1/3
2/3
1/3
2/3
1/3
E
N
A
N
A
1/3
1/3
E
N
Abbildung 6.2: Baumdiagramm zum Beispiel 6.4
In der ersten Stufe werden die Buchstaben A und E mit der Wahrscheinlichkeit von 1/4
und ein N mit einer Wahrscheinlichkeit von 1/2 gezogen. Auf ein A folgt ein E mit einer
Wahrscheinlichkeit 1/3 und ein N mit einer Wahrscheinlichkeit von 2/3, also haben die
Ergebnisse AE und AN die Wahrscheinlichkeiten
1/4 · 1/3 bzw. 1/4 · 2/3. Auf ein E folgt
ein A mit einer Wahrscheinlichkeit 1/3 und ein N mit einer Wahrscheinlichkeit von 2/3,
also haben die Ergebnisse AE und AN die Wahrscheinlichkeiten
1/4 · 1/3 bzw. 1/4 · 2/3.
Auf ein N folgen alle drei Buchstaben mit einer Wahrscheinlichkeit von 1/3, also haben
die Ergebnisse NA, NE und NN jeweils die Wahrscheinlichkeiten
1/2 · 1/3.
Das wird
viel übersichtlicher durch das abgebildete Baumdiagramm. Die folgende Tabelle zeigt
die Ergebnismenge
Ω
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.2: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.4
Ω
AE
AN
EA
EN
NA
NE
NN
p
1/12
1/6
1/12
1/6
1/6
1/6
1/6
Das Ereignis, dass der zweite Buchstabe ein N ist, entspricht der Menge
A = { AN, EN, N N }
mit
P (A) = 3 · 1/6 = 1/2.
Die Vorgehensweise bei mehrstugen Zufallsexperimenten ist also wie folgt.
1. Die Zweige jeder Stufe werden mit den Wahrscheinlichkeiten belegt und führen zu
den Knoten, welche die Ergebnisse dieser Stufe darstellen.
75
6 Einführung in die Wahrscheinlichkeitsrechnung
2. Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten längs des Pfades. Dies wird als
Pfadregel
bezeichnet.
3. Zur Berechnung der Wahrscheinlichkeit eines bestimmten Ereignisses werden alle
Pfade bestimmt, die zu diesem Ereignis gehören und die einzelnen Wahrscheinlichkeiten werden entsprechend der Pfadregel berechnet und zusammengezählt.
Nun sollten Sie das folgende Beispiel von Engel selbst lösen können.
Beispiel 6.5.
In einer Urne benden sich die Buchstaben des Wortes ANANAS. Es
werden zwei Buchstaben zufällig ohne Zurücklegen gezogen. Bestimmen Sie die Ergebnismenge und die Verteilung. Mit welcher Wahrscheinlichkeit ist der zweite Buchstabe
kein A?
Zunächst wird das Baumdiagramm erstellt, siehe Abbildung 6.3.
Start
1/2
1/3
A
2/5
N
2/5
A
1/6
1/5
N
3/5
S
A
S
1/5
1/5
N
S
3/5
2/5
A
N
Abbildung 6.3: Baumdiagramm von Beispiel 6.5
Daraus ergeben sich die Ergebnismenge und die Verteilung
Tabelle 6.3: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.5
Ω
AA
AN
AS
NA
NN
NS
SA
SN
p
1/5
1/5
1/10
1/5
1/15
1/15
1/10
1/15
Das Ereignis, dass der zweite Buchstabe kein A ist, entspricht der Menge
A = { AN, AS, N N, N S, SN } mit P (A) = 1/5 + 1/10 + 1/15 + 1/15 + 1/15 = 1/2.
6.8 Unabhängige mehrstuge Zufallsexperimente
Die bisher betrachteten mehrstugen Zufallsexperimente hatten in jeder Stufe Ergebnismengen, die vom Ausgang der vorherigen Stufen abhängig waren. Beim Ziehen von
Buchstaben aus den Urnen fehlen die bereits gezogenen Buchstaben. Das wird anders,
wenn die gezogenen Buchstaben wieder in die Urne zurückgelegt werden. Es werden jetzt
mehrstugen Zufallsexperimente betrachtet, bei denen jede Stufe durch einen Wahrscheinlichkeitsraum
(Ωi , Pi )
beschrieben werden kann und wo sich die einzelnen Stufen
nicht gegenseitig beeinussen.
76
6.8 Unabhängige mehrstuge Zufallsexperimente
Beispiel 6.6. Beginnen wir mit der Urne, worin die Buchstaben ANNE liegen, aber diesmal wird der gezogene Buchstabe zurückgelegt. Welche Kombinationen ergeben sich bei
zweimaligem Ziehen mit welchen Wahrscheinlichkeiten? Mit welcher Wahrscheinlichkeit
ist der zweite Buchstabe ein N?
Start
1/4
1/4
1/2
A
1/4
E
1/4
A
1/2
E
1/4
N
N
1/4
A
1/2
E
1/4
N
1/4
A
1/2
E
N
Abbildung 6.4: Baumdiagramm zum Beispiel 6.4
Durch das Zurücklegen sind alle Verzweigungen der zweiten und der ersten Stufe
gleich.
In der ersten Stufe werden die Buchstaben A und E mit der Wahrscheinlichkeit von
1/4 und ein N mit einer Wahrscheinlichkeit von 1/2 gezogen, und dies bleibt auch so
in der zweiten Stufe. Die Wahrscheinlichkeit eines Paars wie AE ist das Produkt der
Einzelwahrscheinlichkeiten also
die Ergebnismenge
Ω
p(AE) = p(A)p(E) = 1/16.
Die folgende Tabelle zeigt
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.4: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.6
Beispiel 6.7.
Ω
AA
AE
AN
EA
EE
EN
NA
NE
NN
p
1/16
1/16
1/8
1/16
1/16
1/8
1/8
1/8
1/4
Beide Zeiger der Glücksräder der Abbildung 6.1 auf Seite 70 werden un-
abhängig voneinander in Schwung gebracht. Der Zeiger des ersten Glücksrads kann im
roten oder im dreimal so groÿen grünen Sektor stehen bleiben, während der Zeiger des
zweiten Glücksrads sogar in drei Sektoren enden kann. Die erste Stufe des Zufallsex-
Ω1 = { r, g } mit den Wahrscheinlichkeiten 1/4 und 1/2 und die
zweite Stufe durch Ω2 = { R, G, B } mit den Wahrscheinlichkeiten 1/6, 1/3 und 1/2. Die
periments wird durch
Wahrscheinlichkeit eines Paars wie rR ist auch hier das Produkt der Einzelwahrscheinlichkeiten also
Ω
p(rR) = p(r)p(R) = 1/24.
Die folgende Tabelle zeigt die Ergebnismenge
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.5: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.7
Ω
rR
rG
rB
gR
gG
gB
p
1/24
1/12
1/8
1/8
1/4
3/8
77
6 Einführung in die Wahrscheinlichkeitsrechnung
Bei unabhängigen mehrstugen Zufallsexperimenten ist ein Baumdiagramm eigentlich
überüssig. Ich zeige es trotzdem:
Start
1/6
R
1/4
3/4
r
g
1/3
1/2
G
1/6
B
R
1/3
1/2
G
B
Abbildung 6.5: Baumdiagramm zum Beispiel 6.7
Die beiden Beispiele lassen sich leicht auf beliebige mehrstuge unabhängige Zufallsexperimente verallgemeinern. Ein aus
n unabhängigen Zufallsexperimenten bestehendes
Zufallsexperiment wird durch folgenden Wahrscheinlichkeitsraum beschrieben
Ω=
n
Y
Ωi = Ω1 × Ω2 × . . . × Ωn = {(ω1 , ω2 , . . . , ωn ) : ωi ∈ Ωi , 1 ≤ i ≤ n}.
(6.9)
i=1
Die Wahrscheinlichkeitsräume dieser Art nennt man
sie aus
n
Wahrscheinlichkeitsräumen
(Ωi , Pi )
Produktwahrscheinlichkeiträume , da
durch das kartesische Produkt entstehen.
Die Wahrscheinlichkeit eines Ergebnisses ist das Produkt der einzelnen Wahrscheinlichkeiten
p(ω1 , ω2 , . . . , ωn ) = p1 (ω1 )p2 (ω2 ) · · · pn (ωn ),
die Verteilungen auf Ωi sind. Falls alle Ωi gleich Ω1 sind, schreibt man für
Ωn1 .
Wenn die n Stufen jeweils ni Ausfälle haben, besteht der Produktwahrscheinlichkeits-
wobei die
pi
das kartesische Produkt
raum aus
N=
n
Y
ni
(6.10)
i=1
Ausfällen.
Beispiel 6.8.
Vier B-Würfel der Abbildung 6.1 auf Seite 6.1 werden gleichzeitig gewor-
n = 4 gleichen Stufen mit jeweils ni = 3
(i, j, k, l) zusammenfasst. Im Gegensatz zum
fen. Hier besteht das Zufallsexperiment aus
Ergebnissen, die man als Folge der Form
Beispiel 6.7 sind alle einzelnen Zufallsexperimente gleich. Die Ergebnismenge ist somit
Ω = Ω41 ,
und besteht aus
81 = 34
mit
Ω1 = { 1, 2, 3 }
Ergebnissen. Zur Berechnung der Wahrscheinlichkeit eines
Ergebnisses wird wieder die Pfadregel benutzt. Das Ergebnis
hat die Wahrscheinlichkeit von
78
1/6 · 1/6 · 2/3 · 2/3 = 1/81.
(1, 2, 3, 3)
beispielsweise
6.9 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
Ein besonders wichtiger Spezialfall der Produkträume entsteht im Zusammenhang mit
einem sogenannten
Bernoulli-Experiment . Darunter versteht man ein Zufallsexperiment,
das nur zwei Ergebnisse wie Wappen oder Zahl, Erfolg oder Misserfolg oder 1 und 0 hat.
Das erste Ergebnis soll mit einer Wahrscheinlichkeit von
Wahrscheinlichkeit von
p eintreten, das andere mit einer
1 − p.
Die n-fache unabhängige Durchführung eines Bernoullin
Experiments wird durch einen Produktraum der Form Ω1 , wobei Ω1 nur zwei Elemente
n
n
hat. Der Produktraum Ω1 hat 2 Elemente.
Beispiel 6.9.
Das Werfen von drei fairen Münzen ist ein Bernoulli-Experiment, dessen
Ergebnismenge
Ω = { W, Z }3 = { W W W, W W Z, W ZW, ZW W, W ZZ, ZW Z, ZZW, ZZZ }
aus acht gleichwahrscheinlichen Ergebnisfolgen besteht. Die Wahrscheinlichkeit genau
einmal Wappen zu werfen ist 3/8, denn das zugehörige Ereignis ist
A = { W ZZ, ZW Z, ZZW } .
Beispiel 6.10. Das sechsmalige Drehen des Glücksrads mit den Ausgängen rot und grün
ist ein Bernoulli-Experiment, dessen Ergebnismenge bereits
26 = 64
Elemente umfasst.
Beispiel 6.11. Das Werfen von zwei Würfeln ist dagegen kein Bernoulli-Experiment, da
in jeder Stufe sechs und damit mehr als zwei Ausfälle vorhanden sind. Die Ergebnismenge
Ω = { (1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), . . . , (6, 6) }
hat 36 Elemente. Jedes Paar tritt bei einem fairen Würfel mit der Wahrscheinlichkeit
1/36
auf. Beim Monopoly spielt das Ereignis einen Pasch zu werfen eine gewisse Rolle.
Ein Pasch wird durch die Menge
A = { (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6) }
dargestellt, die zugehörige Wahrscheinlichkeit hat den Wert
P (A) = 1/6.
6.9 Bedingte Wahrscheinlichkeit und stochastische
Unabhängigkeit
A und B eines Zufallsexperiments zusammen,
von B verändert sich die Wahrscheinlichkeit des
In vielen Fällen hängen zwei Ereignisse
d.h. beim Eintreen des Ausgangs
A, d.h. sie ist jetzt gröÿer oder kleiner geworden. Es kann aber auch sein,
dass das Ereignis B keinen Einuss auf das Ereignis A hat. Wenn eine Mannschaft zur
Halbzeit in einem Fuÿballspiel deutlich führt (Ereignis B ) ist die Wahrscheinlichkeit eines
Sieges (Ereignis A) höher einzuschätzen als bei einem unentschiedenen Halbzeitstand.
Eintreens von
Bei der Ziehung der Lottozahlen steigt die Wahrscheinlichkeit eines hohen Gewinns,
wenn die ersten drei gezogenen Zahlen stimmen.
79
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.5. Die Wahrscheinlichkeit für das Ereignis A unter der Bedingung, dass das
Ereignis
B
B
bedingte Wahrscheinlichkeit
eingetreten ist, heiÿt
und man schreibt
P (A|B).
P (A|B) =
Die Ereignisse
A
und
B
von
A unter der Bedingung
Es gilt
heiÿen
P (A ∩ B)
.
P (B)
(6.11)
unabhängig, wenn die folgende Bedingung gilt
P (A ∩ B) = P (A)P (B).
Beispiel 6.12.
(6.12)
Skat wird mit einem Blatt aus 32 Karten gespielt, die in die vier Farben
Karo, Herz, Pik und Kreuz aufgeteilt sind. Von jeder Farbe gibt es jeweils die Bilder
genannten Karten Sieben, Acht, Neun, Zehn, Bube, Dame, König und Ass. Es werde
eine Karte gezogen.
A
A∩B
P (A) = 1/8
und
ist das Ereignis Herz Dame. Hier
beiden Ereignisse
A
B sei das Ereignis für
P (B) = 1/4 sowie P (A ∩ B) = 1/32, denn
gilt also P (A ∩ B) = P (A)P (B), also sind die
sei das Ereignis für das Bild Dame und
die Farbe Herz. Somit sind
und
B
unabhängig.
Man sieht sofort, dass die Ereignisse
A
und
B
genau dann unabhängig sind, wenn die
Bedingung
P (A|B) = P (A).
erfüllt ist. Die Gleichung 6.11 wird oft nach
(6.13)
P (A ∩ B)
aufgelöst
P (A ∩ B) = P (B)P (A|B),
P (A ∩ B) = P (A)P (B|A).
(6.14)
(6.15)
Die erste Gleichungen wird immer dann verwendet, wenn man
P (B) und P (A|B) kennt
oder gut schätzen kann. Der Star des FC Bayern München Arjen Robben ist sehr oft
verletzt, er spielt in einer Saison mit der Wahrscheinlichkeit von 30 Prozent, dies ist
das Ereignis
B.
Wenn er eingesetzt werden kann, gewinnen die Bayern mit einer Wahr-
scheinlichkeit von 90 Prozent, dies ist die bedingte Wahrscheinlichkeit
das Ereignis
A
P (A|B),
wobei
ein Sieg der Bayern ist. Die Wahrscheinlichkeit, dass die Bayern sowohl
siegen als auch mit Robben spielen ist somit
P (A ∩ B) = P (B)P (A|B) = 0, 3 · 0, 9 = 0, 27.
Auch für das Ereignis Herz Dame kann die Beziehung (6.14) herangezogen werden.
Hier sind
B
das Ereignis für die Farbe Herz mit
P (B) = 1/4
A das Ereignis für
P (A|B) = 1/8, also
und
das Bild Dame. Da es in jeder Farbe genau eine Dame gibt, ist
P (A ∩ B) = P (B)P (A|B) = 1/4 · 1/8 = 1/32.
Beispiel 6.13. Ich wette darauf, dass die ersten zwei gezogenen Lottozahlen beide unter
30 sind.
Hier besteht die Ergebnismenge
Ω
aus den folgenden
49 · 48
Zahlenpaaren
Ω = { (i, j) : 1 ≤ i, j ≤ 49, i 6= j } = { (1, 2), (1, 3), . . . , (49, 48) }.
80
6.9 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
(2, 4) hat nach der Pfadregel die Wahrscheinlichkeit 1/49 ·
zuständige Ereignis A besteht aus den folgenden 29 · 28
Jedes einzelne Ergebnis, etwa
1/48.
Das für meine Wette
Zahlenpaaren
A = { (i, j) : 1 ≤ i, j ≤ 29, i 6= j } = { (1, 2), (1, 3), . . . , (29, 28) }.
Die Wahrscheinlichkeit
P (A)
lässt sich mit bedingten Wahrscheinlichkeiten bestim-
A1 und A2 die Ereignisse,
A = A1 ∩ A2 und deshalb
men. Seien
ist, so ist
dass die erste Zahl bzw. die zweite Zahl unter 30
P (A) = P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 29/49 · 28/48 = 0, 345238.
Diese Wette hätte ich also besser sein lassen!
Ich werde die bedingte Wahrscheinlichkeit und die stochastische Unabhängigkeit abschlieÿend am Beispiel des Laplace-Würfels erläutern.
Beispiel 6.14.
Ein Laplace-Würfel werde einmal geworfen, das Ergebnis wird mit
X
bezeichnet. Wir betrachten folgende vier Ereignisse
A = { 1, 3, 5 }
a)
X
b)
X ≤ 3.
Dies ergibt die Menge
B = { 1, 2, 3 }
mit
P (B) = 1/2.
c)
X > 3.
Dies ergibt die Menge
C = { 4, 5, 6 }
mit
P (C) = 1/2.
d)
X < 3.
Dies ergibt die Menge
D = { 1, 2 }
e)
X = 4.
Dies ergibt die Menge
E = {4}
Hier ist
von
A
ist ungerade. Dies ergibt die Menge
P (A|B) = 2/3, denn wenn B
mit
mit
mit
P (A) = 1/2.
P (D) = 1/3.
P (A) = 1/6.
erfüllt ist, sind die Werte 1 und 3 für das Eintreen
günstig. Das ergibt sich auch aus der Formel für die bedingte Wahrscheinlichkeit
P (A|B) =
P (A ∩ B)
P ({ 1, 3 })
=
= 2/3,
P (B)
P (B)
P (A|B) > P (A).
C erfüllt ist, ist 5
also gilt für die bedingte Wahrscheinlichkeit
Dagegen ist
P (A|C) = 1/3,
denn wenn
für das Eintreen von
A
günstig. Das ergibt sich auch aus der Formel für die bedingte Wahrscheinlichkeit
P (A|C) =
P ({ 5 })
P (A ∩ C)
=
= 1/3,
P (C)
P (C)
P (A|C) < P (A).
A und D sind stochastisch unabhängig voneinander, denn wegen A ∩ D =
also gilt für die bedingte Wahrscheinlichkeit
Die Mengen
{1}
gilt
1/6 = P (A ∩ D) = P (A)P (D) = 1/2 · 1/3.
P (A|D) = P (A).
E keine gemeinsamen Elemente
gar nicht eintreten, wenn E gilt.
Somit ist
Da
A
A
kann
und
haben, ist
P (A|E) = 0,
d.h. das Ereignis
81
6 Einführung in die Wahrscheinlichkeitsrechnung
6.10 Der Satz von Bayes
Bei bestimmten Zufallsexperimenten wird die Ergebnismenge in
Bi , i = 1, . . . , n
n disjunkte Teilmengen
Ω und die
zerlegt, d.h. die Mengen ergeben vereint die Ergebnismenge
paarweisen Durchschnitte der Mengen sind leer. Dann bilden aber auch für jedes Ereignis
A⊂Ω
die Mengen
A ∩ Bi
eine Zerlegung von
A.
Deshalb gilt der folgende Satz:
Satz 1. Seien B1 , B2 ,. . . , Bn disjunkte Teilmengen, die vereint die Grundmenge Ω
ergeben. Dann gelten für jedes Ereignis A
P (A) =
P (A) =
n
X
k=1
n
X
P (A ∩ Bk ),
(6.16)
P (Bk )P (A|Bk ).
(6.17)
k=1
Dies ist der sogenannte
Satz von der totalen Wahrscheinlichkeit
.
Die Gleichung (6.17) folgt aus (6.16) wegen
P (Bk )P (A|Bk ) = P (A ∩ Bk ).
Der Satz wird durch die Abbildung verdeutlicht.
B1 B2 B3
...
Bk
...
Ω
P(Bk)
Bn
P(B1)
B1
A
…
P(A|B1)
P(Bn)
Bk
P(A|Bk)
Ω
…
Bn
P(A|Bn)
A
Abbildung 6.6: Der Satz von der totalen Wahrscheinlichkeit
Nun wird die umgekehrte Frage gestellt: Wie hoch ist die Wahrscheinlichkeit für das
Ereignis
Bk , wenn man weiÿ, dass A eingetreten ist? Gefragt ist also nach der bedingten
P (Bk |A). Sei P (A) > 0, dann gilt
Wahrscheinlichkeit
P (Bk |A) = P (A ∩ Bk )/P (A) = P (Bk )P (A|Bk )/P (A),
woraus der berühmte Satz von Bayes folgt.
Satz 2. Seien B1 , B2 ,. . . , Bn disjunkte Teilmengen, die vereint die Grundmenge Ω
ergeben und A ein Ereignis mit P (A) > 0. Dann ist
P (Bk )P (A|Bk )
P (Bk |A) = Pn
.
i=1 P (Bi )P (A|Bi )
82
(6.18)
6.10 Der Satz von Bayes
Beispiel 6.15.
Betrachten wir eine Autofabrik, die ihre Gesamtproduktion eines be-
stimmten Autotyps auf drei Werke verteilt. Das erste Werk produziert 50, das zweite
Werk 30 und das dritte Werk 20 Prozent aller Autos. Im ersten Werk sind 1, im zweiten
Werk 5 und im dritten Werk sogar 10 Prozent aller dort hergestellten Autos nicht ohne
Mängel. Wie groÿ ist die Wahrscheinlichkeit, dass ein Käufer ein defektes Autos erhält
und mit welchen Wahrscheinlichkeiten stammen defekte Autos aus den drei Werken?
A
Hier ist
und
B3
das Ereignis, dass der Käufer ein defektes Auto erwischt und mit
B1 , B2
werden die Ereignisse bezeichnet, dass das Auto aus dem ersten, zweiten oder
dritten Werk stammt, die entsprechenden Wahrscheinlichkeiten betragen
P (B2 ) = 0, 3
P (B1 ) = 0, 5,
P (B3 ) = 0, 2. Die Wahrscheinlichkeit für ein defektes Auto aus dem
P (A|B1 ) = 0, 01, entsprechend sind P (A|B2 ) = 0, 05 und P (A|B3 ) = 0, 1
und
ersten Werk ist
zu deuten. Somit gilt nach dem Satz über die totale Wahrscheinlichkeit
P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) + P (B3 )P (A|B3 ),
P (A) = 0, 5 · 0, 01 + 0, 3 · 0, 05 + 0, 2 · 0, 1 = 0, 04.
Der Käufer erhält also mit einer Wahrscheinlichkeit von 4 Prozent ein defektes Auto.
Mit einer Wahrscheinlichkeit von
0, 5 · 0, 01 = 0, 005
werden defekte Autos im ersten
Werk hergestellt. Bezieht man diese Wahrscheinlichkeit auf die Wahrscheinlichkeit aller
defekten Autos, so ergibt sich der Anteil
P (B1 |A) = 0, 005/0, 04
des ersten Werks an
den defekten Autos. Genauso geht man für die restlichen Werke vor und erhält
P (B1 |A) = P (B1 )P (A|B1 )/P (A) = (0, 5 · 0, 01)/0, 04 = 0, 005/0, 04 = 0, 125,
P (B2 |A) = P (B2 )P (A|B2 )/P (A) = (0, 3 · 0, 05)/0, 04 = 0, 015/0, 04 = 0, 375,
P (B3 |A) = P (B3 )P (A|B3 )/P (A) = (0, 2 · 0, 1)/0, 04 = 0, 02/0, 04 = 0, 5.
Die nötigen Rechnungen kann man in einer Arbeitstabelle organisieren.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
A
B
C
D
E
FG H
I
i P(Bi) P(A|Bi) P(Bi)*P(A|Bi) P(Bi|A)
1 0,5
0,01
0,005 0,125
2 0,3
0,05
0,015 0,375
3 0,2
0,10
0,020 0,500
Σ
1
0,040
1
J
K
L MN
Start
0,5
B1
0,3
0,2
B2
0,01
0,05
B3
0,10
A
Abbildung 6.7: Arbeitstabelle zum Beispiel 6.15
i, in der Spalte B die WahrscheinlichP (Bi ) für die drei Werke und in der Spalte C die bedingten Wahrscheinlichkeiten
In der Spalte A stehen die laufende Nummern
keiten
83
6 Einführung in die Wahrscheinlichkeitsrechnung
P (A|Bi ).
In der Spalte D stehen die Produkte
P (Bi )P (A|Bi )
der Werte der Spalten B
und C und in die Zelle D7 kommt die Summe dieser Produkte, also nach dem Satz von
der totalen Wahrscheinlichkeit der Wert von
P (Bi |A)
P (A).
Die bedingten Wahrscheinlichkeiten
benden sich in der Spalte E, Formel in der Zelle E4 lautet
=E4/$D$7.
Diese Formel gilt dann entsprechend für die Zeilen 5 und 6.
Der Satz von Bayes liefert Wahrscheinlichkeiten für die Ursachen eines eingetroenen Ereignisses, wenn man weiÿ, mit welcher Wahrscheinlichkeit diese Ursachen zu dem
eingetroenen Ereignis führen. In der Politik wird die Regierung eine günstige wirtschaftliche Lage, also das eingetroene Ereignis, auf die eigenen Leistungen zurückführen, die
Opposition wird andere Ursachen ausmachen. Bei der Diagnose von Krankheiten gibt es
Tests für das Vorhandensein bestimmter Krankheiten. Leider sind solche Tests auch bei
gesunden Personen zuweilen positiv. Ich vertiefe das an einem Beispiel.
Beispiel 6.16.
Eine bestimmte Krankheit trete in einer Risikogruppe mit einer Wahr-
scheinlichkeit von 2 Prozent auf. Ein Test zeige dies mit einer Wahrscheinlichkeit von 95
Prozent an, schlage aber auch bei 10 Prozent aller Gesunden Alarm. Wie hoch ist die
Wahrscheinlichkeit einer Erkrankung, wenn der Test positiv ausfällt?
B2 die Ereignisse für das Vorhandensein bzw. Nichtvorhandensein
der Krankheit und A das Ereignis eines positiven Tests. Hier sind P (B1 ) = 0, 02 und
P (B2 ) = 0, 98 sowie P (A|B1 ) = 0, 95 und P (A|B2 ) = 0, 1 und deshalb
Hier sind
B1
und
P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) = 0, 02 · 0, 95 + 0, 98 · 0, 1 = 0, 117,
0, 95 · 0, 02
= 0, 162393162,
P (B1 |A) =
0, 117
d.h. nur rund jede sechste positiv getestete Person ist tatsächlich auch erkrankt. Das liegt
an der geringen Verbreitung der Krankheit und an der hohen Falschalarmwahrscheinlichkeit des Tests, was zusammen dafür sorgt, dass 83 Prozent aller positiv getesteten
Personen gesund ist.
Für die Wahrscheinlichkeit dafür, dass der Test eine Erkrankung nicht anzeigt, muss
P (B1 |Ā)
berechnet werden, denn
Ā
ist das zu
A
komplementäre Ereignis. Somit gilt
P (Ā) = 1 − P (A) = 1 − 0, 117 = 0, 883,
P (B1 )(1 − P (A|B1 ))
0, 02 · 0, 05
P (B1 |Ā) =
=
= 0, 001132503.
0, 883
P (Ā)
Auch dafür lege ich eine Arbeitstabelle an, wobei auch die bedingten Wahrscheinlichunter der Voraussetzung des komplementären Ereignisses Ā
c
bestimmt werden. In der Tabelle wird die zu A komplementäre Tabelle mit A bezeichkeiten der Ereignisse
Bi
net. Die Formel in der Zelle F2 lautet
=B2*(1-C2)/(1-$D$4)
Diese Formel gilt dann entsprechend für die restlichen Zeilen.
Die Daten dieses Beispiels sind von mir erfunden und sollen niemand von Vorsorgeuntersuchungen abhalten.
84
6.11 Aufgaben
A
i
B
C
D
P(Bi) P(A|Bi) P(Bi)*P(A|Bi)
1
2
1 0,02
3
2 0,98
4 Summen
1
0,95
0,1
E
P(Bi|A)
F
c
P(Bi|A )
0,019 0,162393 0,001133
0,098 0,837607 0,998867
0,117
1
1
Abbildung 6.8: Arbeitstabelle für das Beispiel 6.16
6.11 Aufgaben
Aufgabe 1. Ein Zauberer behauptet aus einem gut durchgemischten Spiel mit 32 Karten
als dritte Karte die Herz Dame zu ziehen. Wie hoch ist die Wahrscheinlichkeit dafür ohne
Tricks?
Aufgabe 2. In einer Urne benden sich die sechs Buchstaben des Wortes ANANAS. Mit
welchen Wahrscheinlichkeiten entsteht der Name ANNA bei viermaligem Ziehen, und
zwar einmal mit und einmal ohne Zurücklegen, wobei die Reihenfolge beachtet wird.
Aufgabe 3.
Eine Urne enthalte 3 weiÿe und 2 schwarze Kugeln. Aus der Urne werden
nacheinander 2 Kugeln herausgenommen, einmal ohne und das andere Mal mit zurücklegen. Zeichnen Sie die jeweiligen Baumdiagramme und bestimmen Sie die zugehörigen
Wahrscheinlichkeitsverteilungen. Wie groÿ ist jeweils die Wahrscheinlichkeit, 2 weiÿe
Kugeln zu ziehen?
Aufgabe 4.
In einer Schale benden sich neun gleich aussehende Pralinen, wovon vier
nach Champagner und fünf nach Eierlikör (Igitt) schmecken. Ein Gast darf drei Pralinen zufällig aussuchen. Wie sieht die Ergebnismenge und die Verteilung aus? Zeichnen
Sie die jeweiligen Baumdiagramme und bestimmen Sie die Ergebnismenge
Ω
und die
Wahrscheinlichkeitsverteilung. Wie groÿ ist die Wahrscheinlichkeit, drei Bohnen mit Eierlikörgeschmack zu erwischen?
Aufgabe 5.
Beim Spiel Mensch ärgere dich nicht darf man am Anfang dreimal hin-
tereinander würfeln, mit dem Ziel eine 6 zu werfen, da dann eine Figur ins Spielfeld
gesetzt wird. Beschreiben Sie das Zufallsexperiment durch einen Produktwahrscheinlichkeitsraum und dann das Ereignis
Wahrscheinlichkeit von
A
A,
dass keine 6 erzielt wurde. Berechnen Sie die
und geben Sie an, mit welcher Wahrscheinlichkeit wenigstens
eine 6 erreicht wird.
Aufgabe 6.
Ein Student muss Klausuren in den drei Fächern A, B, C schreiben. Er
schätzt die Wahrscheinlichkeiten für das Bestehen im Fach A mit 0,9, in B mit 0,8 und in
C mit 0,4. Die Inhalte der Fächer sind sehr verschieden, sodass das Bestehen unabhängig
voneinander ist. Man bestimme die Ergebnismenge
Ω und die Wahrscheinlichkeitsvertei-
lung. Danach gebe man an, wie hoch die Wahrscheinlichkeiten dafür sind, alle, höchstens
zwei und keine Klausur zu bestehen.
Aufgabe 7.
(vgl. Mayer) Für zwei unabhängige Ereignisse
P (A|B) = 2/3
und
A
und
B
gelte:
P (A ∩ B) = 1/6.
85
6 Einführung in die Wahrscheinlichkeitsrechnung
Man berechne
P (A), P (B), P (A ∪ B), P (B|A)
sowie
P (A\B)
und
P (B\A).
Aufgabe 8. Es seien A und B zwei Ereignisse mit P (A∩B) = 0, 6 und P (A∩ B̄) = 0, 2.
Bestimmen Sie
Aufgabe 9.
P (A)
und
P (Ā)
sowie
P (B|A)
und
P (B̄|A).
Ein Zufallsexperiment besteht darin, dass man mit einem Würfel solange
würfelt, bis zum ersten Mal eine Zahl zweimal auftritt, was spätestens beim siebten Wurf
passiert. Bestimmen Sie die Ergebnismenge
Aufgabe 10.
Ω
und die Wahrscheinlichkeitsverteilung.
Es seien drei Urnen mit je drei Kugeln betrachtet, wobei die erste Urne
drei, die zweite zwei und die dritte nur noch eine schwarze Kugel enthält, die anderen
Kugeln seien jeweils weiÿ. Das zweite Glücksrad der Abbildung 6.1 von Seite 70 werde
gedreht. Wenn der Zeiger des Glücksrads im roten Bereich zum Stehen kommt, wird eine
Kugel aus der ersten Urne gezogen, im grünen Sektor aus der zweiten und sonst aus der
dritten. Man bestimme die Ergebnismenge
Ω
und das Ereignis, dass die gezogene Kugel
schwarz ist. Danach berechne man die Wahrscheinlichkeiten dafür, dass eine gezogene
schwarze Kugel aus der ersten, zweiten oder dritten Urne stammt.
Aufgabe 11.
An einem texanischen Gericht arbeiten drei Richter B1, B2 und B3; die
Auswahl der Richter erfolgt zufällig, wobei B1 die Hälfte aller Prozesse übernimmt, auf
B2 fallen 30 % und auf B3 20 % aller Verfahren. Die Wahrscheinlichkeit eines Unschuldigen in einem Mordprozess auf einen Freispruch beim ersten Richter beträgt 90 %, beim
zweiten 50 % und beim dritten lediglich 40 %.
a) Wie groÿ ist die Wahrscheinlichkeit eines Freispruchs für einen Unschuldigen? Wie
groÿ ist die Wahrscheinlichkeit für eine Verurteilung?
b) Mit welchen Wahrscheinlichkeiten stammt der Freispruch eines Unschuldigen von
B1, B2 und B3?
c) Mit welchen Wahrscheinlichkeiten stammt eine Verurteilung eines Unschuldigen
von B1, B2 und B3?
Aufgabe 12.
In 10 Urnen benden sich schwarze und weiÿe Kugeln, und zwar in der
k-ten Urne genau
k, 1 ≤ k ≤ 10
schwarze Kugeln. Wie groÿ ist die Wahrscheinlichkeit
eine schwarze Kugel zu ziehen, wenn die Urne zufällig gewählt wird? Wie groÿ ist die
Wahrscheinlichkeit, dass eine gezogene schwarze Kugel der k-ten Urne entstammt?
86
7 Endliche Zufallsvariable
7.1 Übersicht
Themen dieses Kapitel sind endliche Zufallsvariablen und deren Eigenschaften.
- Erwartungswert, Varianz und Standardabweichung;
- Verteilung und kumulierte Verteilung;
- Wahrscheinlichkeitsfunktion und Verteilungsfunktion;
- unabhängige Zufallsvariablen.
7.2 Einführung und Denition
Die Ergebnisse von Zufallsexperimenten sind oft Zahlenbereiche, aber fast immer ist das
Ergebnis mit einer Zahl verknüpft, die man bei Glücksspielen als Gewinn oder Verlust
deuten kann. Bei einem Fuÿballspiel sind die Ergebnisse Zahlenpaare wie 4:3 oder 0:0,
also keine Zahlen, aber ein Wettbüro setzt für jeden Ausgang eine Gewinnquote fest.
7.2.1 Das Model
Wir betrachten im Jahr 2035 den glücklichen Staat Merkelien, von einigen älteren Bewohnern immer noch starrsinnig Deutschland genannt. Nach einer Reihe von Finanz-.
Atom- und Nahrungsmittelkatastrophen sind durch die Eingrie der gütigen, im Volke verehrten und auf Lebenszeit ernannten Staatschen alle Sorgen für immer gebannt
und die Bedürfnisse der Menschen werden von nur noch drei Aktiengesellschaften befriedigt, die erste versorgt die Bevölkerung mit allen Konsumartikeln von Babywindeln bis
zu Elektronikartikeln und giftfreien Lebensmittel, die zweite widmet sich der Energieversorgung durch lustige Windräder und die dritte ist für die Mobilität zuständig, vom
Automobilbau bis zum Öentlichen Nah- und Fernverkehr. Die drei Unternehmen haben
die meisten Zufallseinüssen ausgeschaltet, die Erträge sind nur vom Weltmarktpreis der
Rohstoe und der Weltkonjunktur abhängig.
Innerhalb einer Beobachtungsperiode von jeweils einem halben Jahr ist der Zustand
der Weltkonjunktur mit einer Wahrscheinlichkeit von
lichkeit von
3/8
5/8 gut und mit einer Wahrschein-
schlecht. Der Preis der Rohstoe ist zu je 50 % hoch oder niedrig. Au-
ÿerdem wird die nicht ganz realistische Annahme getroen, dass Rohstopreise und der
Zustand der Weltkonjunktur unabhängig voneinander sind. Dann gibt es pro Periode
87
7 Endliche Zufallsvariable
nur die vier Zustände (g, n), (g, h), (s, n) und (s, h), wobei g und s für gute bzw.
schlechte Konjunktur und n und h für niedrige bzw. hohe Rohstopreise stehen.
Die Erträge der drei Unternehmen in Abhängigkeit der vier Zustände nden Sie in dem
Excel-Arbeitsblatt der Abbildung 7.1.
A
1
2
3
4
5
6
7
8
B
Wahrschein
lichkeit
5/16
5/16
3/16
3/16
Zustand
(g, n)
(g, h)
(s, n)
(s, h)
E(Ri)
Var(Ri)
Std(Ri)
C
Rendite
Aktie 1
Konsum
12
6
6
5
7,6875
8,5898
2,9308
D
E
F
G
Rendite Rendite Rendite Rendite
Aktie 2 Aktie 3
(0,1;0,4;0 (0,5;0,4;0
Öl
Auto
,5) (S)
,1) (T)
10
20 15,2000 12,0000
14
15 13,7000 10,1000
4
9
6,7000
5,5000
8
5
6,2000
6,2000
9,7500 13,5625 11,4500
9,1000
12,4375 31,2461 15,3750
6,9475
3,5267
5,5898
3,9211
2,6358
Abbildung 7.1: Arbeitsblatt zur Portfoliotheorie
In der ersten Spalte des Excel-Arbeitsblatt der Abbildung 7.1 stehen die vier Zustände
und in der zweiten die Wahrscheinlichkeiten ihres Auftretens. Wegen der Unabhängigkeit
der Konjunktur von den Rohstopreisen werden die Einzelwahrscheinlichkeiten multipliziert, z.B. ist der Zustand der Weltkonjunktur mit einer Wahrscheinlichkeit von 3/8
schlecht und die Rohstopreise sind mit einer Wahrscheinlichkeit von 1/2 niedrig, also
hat das Paar
(s, n)
eine Wahrscheinlichkeit von
3/8 · 1/2 = 3/16.
Das ökonomische Model wird also durch folgenden endlichen Wahrscheinlichkeitsraum
(Ω, p)
beschrieben:
Ω ω1 = (g, n)
ω2 = (g, h)
ω3 = (s, n) ω4 = (s, h)
p
p2 = 5/16
p3 = 3/16
p1 = 5/16
p4 = 3/16
7.2.2 Zufallsvariablen
Die Rendite
R1
der Aktie 1 hängt also davon ab, welcher der vier Zustände eintritt.
Mathematisch gesehen ist die Rendite der ersten Aktie damit eine Funktion
von
Ω
nach
R.
Funktionen auf einem Wahrscheinlichkeitsraum werden
R1 : Ω → R
Zufallsvariablen
genannt. Es ist üblich Zufallsvariablen mit groÿen Buchstaben zu bezeichnen. Im Beispiel
der Rendite der ersten Aktie gibt es nur die vier Werte
R1 (ω3 ) = 6
und
R1 (ω4 ) = 5.
Denition 7.1.
R1 (ω1 ) = 12, R1 (ω2 ) = 6,
Zufallsvariablen sind formal wie folgt deniert
(Ω, p) ein endlicher Wahrscheinlichkeitsraum. Dann nennt man
eine beliebige Abbildung X : Ω → R eine Zufallsvariable , d.h. eine Zufallsvariable ordnet
den Ergebnissen des Ω zugrundeliegenden Zufallsexperiments Zahlen zu.
Es sei
Man kann aus Zufallsvariablen, die über derselben Ergebnismenge
Ω
deniert sind
Linearkombinationen bilden und erhält damit neue Zufallsvariablen. Im Beispiel von
88
7.2 Einführung und Denition
Anlagen in Wertpapieren entspricht eine Linearkombination einer Anlagenmischung, einem sogenanntem Portfolio.
Ein Anleger stellt beispielsweise sein Portfolio aus einer Mischung von 10 Prozent
Aktien der ersten, 40 Prozent der zweiten und 50 Prozent der dritten Anlage zusammen.
S = 0, 1R1 +0, 4R2 +0, 5R3 . Sollte sich der erste
Zustand (g,n) einstellen ist seine Rendite 15, 2 = 0, 1·12+0, 4·10+0, 5·20, entsprechend
ergibt sich beim Zustand (g,h) die Rendite 13, 7 = 0, 1·6+0, 4·14+0, 5·15. Die restlichen
Seine Rendite ist dann die Zufallsvariable
Werte nden Sie in den Zellen F2:F5 der Abbildung 7.1.
T =
Im Bereich G2:G5 derselben Abbildung sehen Sie die Werte der Zufallsvariablen
0, 5R1 +0, 4R2 +0, 1R3 . Diese Zufallsvariable beschreibt die Rendite des Portfolios, dessen
relativen Anteilen in die drei Anlagen bei 50, 40 und 10 Prozent liegen.
7.2.3 Erwartungswert
Die Rendite
R1
der Aktie 1 hängt also davon ab, welcher der vier Zustände eintritt.
In einer Periode mit guter Konjunktur und niedrigen Rohstopreisen sind die Kunden
konsumfreudig, entsprechend hoch ist die Rendite von 12 % unter diesem Umstand, der
aber nur mit einer Wahrscheinlichkeit von 5/16 eintritt. Der Beitrag diese Zustands zur
erwarteten Rendite ist
E(Zustand = (g, n)) = p(Zustand = (g, n)) · R(Zustand = (g, n)) =
5
· 12.
16
Der Erwartungswert der Rendite muss die anderen Zustände in gleicher Weise berücksichtigen. Somit ergibt sich für den Erwartungswert
Aktie 1
E(R1 ) = µ1 =
E(R1 ) = µ1
der Rendite
R1
der
5
3
3
5
· 12 +
·6+
·6+
· 5 = 7, 6875.
16
16
16
16
Auf dieselbe Weise ergeben sich die Erwartungswerte der Renditen der beiden anderen
Aktien:
5
· 10 +
16
5
E(R3 ) = µ3 =
· 20 +
16
E(R2 ) = µ2 =
5
· 14 +
16
5
· 15 +
16
3
·4+
16
3
·9+
16
3
· 8 = 9, 7500,
16
3
· 5 = 13, 5625.
16
Diese Vorgehensweise wird auf alle diskreten Zufallsvariablen angewendet und führt
zu der folgenden Denition.
Denition 7.2.
Es sei
(Ω, p)
eine Zufallsvariable. Dann wird der folgende Ausdruck Erwartungswert
und mit
E(X)
bezeichnet
E(X) = p1 X(ω1 ) + p2 X(ω2 ) + · · · + pN X(ωN ),
wobei
pi
pi
die Wahrscheinlichkeit
immer für
X :Ω→R
von X genannt
ein endlicher Wahrscheinlichkeitsraum und
p(ωi )
des Ereignisses
ωi
(7.1)
bezeichnet. Im folgenden steht
p(ωi )
89
7 Endliche Zufallsvariable
Der Erwartungswert ist bei endlichen Verteilungen die Summe der mit den Wahrscheinlichkeiten gewichteten Werte der Zufallsvariablen. Der Mathematiker sieht in der
Gleichung (7.1) eine Abbildung, die jeder Zufallsvariablen
Diese Abbildung wird
Erwartungswertoperator
X
eine Zahl
E(X)
zuordnet.
genannt, das Ergebnis wird oft mit
µX
abgekürzt, also
µX = E(X).
Auch ich werde je nach Umstand beide Schreibweisen benutzen, also sowohl
µX
als auch
E(X).
Führt man zur Vereinfachung noch das Summensymbol
tive Form:
E(X) =
N
X
Σ ein,
ergibt sich die alterna-
X(ωi )pi .
(7.2)
i=1
Das hier angenommene Model soll jeweils für ein halbes Jahr gültig sein. Für langfristig
ausgerichtete Anleger ist die duchschnittliche Rendite über viele Perioden wichtig. Da die
p1 = 5/16, p2 = 5/16, p3 = 3/16
und
p4 = 3/16
Perioden jeder Zustand ungefähr mit der Häugkeit
Kpi
auftreten.
vier Zustände die Wahrscheinlichkeiten
haben, wird nach
K
Die aufsummierte Rendite wird somit ungefähr gleich dem folgendem Wert sein
RK = K[12 · 5/16 + 6 · 5/16 + 6 · 3/16 + 5 · 3/16] = K E(R1 ),
d.h. die durchschnittliche Rendite ist der Erwartungswert.
Der Erwartungswert entspricht dem arithmetischen Mittelwert aus der Beschreibenden
Statistik und verdichtet die Information über die Verteilung zu einem einzigen Zahlenwert, der das langfristige Mittel bei mehrfacher Wiederholung darstellt. Häug werden
Entscheidungen allein über den Erwartungswert getroen, was aber nur dann sinnvoll
ist, wenn das Zufallsexperiment oft genug unter gleichen Bedingungen wiederholt wird.
Auch über die langfristigen Chancen bei Glücksspielen spielt der Erwartungswert die
entscheidende Rolle.
Der Erwartungswert ist linear, d.h. es gilt für zwei Zufallsvariablen
Y :Ω→R
sowie zwei beliebigen Zahlen
µ
und
X :Ω→R
und
λ
E(µX + λY ) = µ E(X) + λ E(Y ).
(7.3)
Die Linearität gilt natürlich auch für beliebige Linearkombinationen. In unserem Eingangsbeispiel der Abbildung 7.1 wurden die drei Zufallsvariablen
führt. Für die Zufallsvariable
S = 0, 1R1 + 0, 4R2 + 0, 5R3
R1 , R2
und
R3
einge-
gilt somit
E(S) = 0, 1 E(R1 )+0, 4 E(R2 )+0, 5 E(R3 ) = 0, 1·7, 6875+0, 4·9, 75+0, 5·13, 5625 = 11, 45.
7.2.4 Varianz und der Standardabweichung
Investoren berücksichtigen neben der Rendite, genauer neben der erwarteten Rendite einer Anlage auch immer das damit verbundene Risiko. Unter
Risiko
versteht man in der
Finanzmathematik allgemein die Flatterhaftigkeit einer Anlage, also in welchem Maÿ die
90
7.2 Einführung und Denition
einzelnen Renditen in den beobachteten Perioden vom Erwartungswert abweichen. Die
Varianz Var(X) einer Zufallsvariablen X
stellt ein Maÿ für die Streuung der Verteilung
dar. Wie in der Beschreibenden Statistik wird die Varianz bei endlichen Verteilungen
durch die Summe der mit den Wahrscheinlichkeiten gewichteten quadratischen Abweichungen der Werte der Zufallsvariablen vom Erwartungswert deniert.
Denition 7.3.
Für eine endliche Zufallsvariable
Var(X) =
N
X
X:Ω→R
wird die
Varianz
(X(ωi ) − E(X))2 pi
durch
(7.4)
i=1
festgelegt. Die Wurzel aus der Varianz heiÿt
Standardabweichung Std(X). Für die Vari-
anz und die Standardabweichung werden oft die Symbole
σ2
und
Die Varianz ist somit der Erwartungswert der Zufallsvariablen
Var(X) = E((X − E(X))2 ).
σ
verwendet.
(X − E(X))2 :
(7.5)
Daraus ergibt sich folgende nützliche Formel
Var(X) = E(X 2 ) − E(X)2 .
(7.6)
also
Var(X) =
N
X
X(ωi )2 pi − E(X)2 .
(7.7)
i=1
Diese Formel ist zum Rechnen meist einfacher als (7.4).
X eine Zufallsvariable ist und
Z = X + a Zufallsvariablen und es
Abschlieÿend noch zwei wichtige Rechengesetze. Wenn
a
eine beliebige Zahl, dann sind auch
Y = aX
und
gilt:
Var(aX) = a2 Var(X),
Var(X + a) = Var(X).
(7.8)
(7.9)
Bei Zufallsvariablen, die Renditen von Wertpapieren beschreiben, wird die sogenannte
Volatilität über die Standardabweichung deniert. Für andere Zufallsvariablen ist die
Volatilität nicht sinnvoll.
Denition 7.4.
Zeitraum
t
Es sei
R
beschreibt. Die
eine Zufallsvariable, die die Rendite einer Geldanlage im
Volatilität
ist durch die Beziehung
1
V olaR = (σR ) t
(7.10)
deniert. Die Volatilität ergibt sich also aus der Standardabweichung durch Annualisierung. Die Bezeichnung Volatilität leitet sich ab vom lateinischen Verb volare (attern).
91
7 Endliche Zufallsvariable
Kehren wir zu unseren drei Aktien zurück. Wir haben bereits die Erwartungswerte
der Renditen berechnet. Wegen (7.7) gilt für die erste Aktie:
σR2 1 =
5
5
3
3
· 12 · 12 +
·6·6+
·6·6+
· 5 · 5 − 7, 6875 · 7, 6875 = 8, 5898.
16
16
16
16
Die Standardabweichung ist die Wurzel aus dieser Zahl, also ergibt sich
σR1 =
Da die Länge
t
p
8, 5898 = 2, 9308.
der Betrachtungsperiode ein halbes Jahr ist, folgt für die Volatilität:
1
V olaR1 = (σR1 ) t = σR2 1 = 8, 5898.
Auf dieselbe Weise ergeben sich die Varianzen der Renditen der beiden anderen Aktien:
5
5
3
3
· 102 +
· 142 +
· 42 +
· 82 − 9, 75002 = 12, 4375,
16
16
16
16
q
p
= σR2 2 = 12, 4375 = 3, 5267
σR2 2 =
σ R2
5
3
3
5
· 202 +
· 152 +
· 92 +
· 52 − 13, 56252 = 31, 2461,
16
16
16
16
q
p
2
= σR3 = 31, 2461 = 5, 5898.
σR2 3 =
σ R3
In der Abbildung 7.2 sind die Abweichungen der Renditen der drei Aktien vom jeweiligen
Erwartungswert bei jedem der vier Zustände zu sehen. Je höher die Abweichungen sind,
umso atterhafter und damit unvorhersehbarer sind die Werte der Zufallsvariablen. Die
Varianz mittelt die Quadrate der einzelnen Abweichungen und ist somit eine Maÿzahl
für die Flatterhaftigkeit. Das gilt auch für die Standardabweichung als Wurzel der Varianz. Die Standardabweichung wird meist bevorzugt, da sie dieselbe Dimension wie die
zugrundeliegende Zufallsvariable hat. Die drei Zufallsvariablen haben die Standardabweichungen von 2,9308, 3,5267 und 5,5898. In der Abbildung 7.2 ist deitlich zu erkennen,
dass die Abweichungen vom Erwartungswert bei der dritten Zufallsvariablen am gröÿten
und bei der ersten am geringsten sind, entsprechend ist der Wert der Standardabweichung der dritten Zufallavariable am gröÿten und der Wert der ersten Zufallsvariablen
am kleinsten.
7.2.5 Die Kovarianz
In der Abbildung 7.2 sind die Abweichungen der Renditen der drei Aktien vom jeweiligen
Erwartungswert bei jedem der vier Zustände zu sehen. Man erkennt deutlich, dass die
Abweichungen vom jeweiligen Erwartungswert oft in dieselbe Richtung gehen. Man sagt
die Zufallsvariablen der Renditen sind abhängig voneinander oder
korrelieren.
Benötigt
wird ein Maÿ, das die Gröÿe der Gleichschwingung angibt. Bei Zufallsvariablen ohne Abhängigkeit werden die Abweichungen vom jeweiligen Erwartungswert unabhängig
92
7.2 Einführung und Denition
Abweichungen vom
Erwartungswert
Kovarianzen
10
8
6
4
2
0
-2
-4
-6
-8
-10
(g, n)
(g, h)
(s, n)
(s, h)
Zustände
Abbildung 7.2: Abweichungen der Renditen vom Erwartungswert
voneinander mal nach oben oder nach unten verlaufen, während bei abhängigen Zufallsvariablen die Abweichungen häug dieselbe Richtung haben werden. Multipliziert man
die Abweichungen, so wird das Produkt dann häug positiv sein, da die einzelnen Abweichungen dasselbe Vorzeichen haben. Diese Idee schlägt sich in der folgenden Denition
nieder.
Denition 7.5.
variablen
(Ω, p) ein Wahrscheinlichkeitsraum und R und S zwei ZufallsWerten R(ωi ) und S(ωi ). Die Kovarianz von R und S wird wie
Es seien
Ω→R
mit
folgt deniert:
Cov(R, S) =
N
X
pi [R(ωi ) − E(R)] [S(ωi ) − E(S)] .
(7.11)
i=1
Statt
Cov(R, S)
schreibt man oft auch
σR,S .
Dieser sperrige Ausdruck wird durch das Summensymbol handlicher: Mit ein bisschen
Algebra lässt sich (7.11) auf eine zum Rechnen bequemere Formel umstellen:
Cov(R, S) =
N
X
pi R(ωi )S(ωi ) − E(R) E(S)
(7.12)
i=1
oder ausgeschrieben
Cov(R, S) = p1 R(ω1 )S(ω1 ) + p2 R(ω2 )S(ω2 ) + · · · + pN R(ωN )S(ωi ) − E(R) E(S).
(7.13)
R − E(R) und S − E(S) Zufallsvariablen sind und diese Zufallsvariablen gerade die Werte [R(ωi ) − E(R)] und [S(ωi ) − E(S)] für i = 1, . . . , N annehmen,
Da mit
R
und
S
auch
wird die Kovarianz eigentlich durch
Cov(R, S) = E ([R − E(R)] [S − E(S)]) = E(RS) − E(R) E(S)
(7.14)
deniert und zur Berechnung wird dann auf die Formel (7.13) zurückgegrien.
93
7 Endliche Zufallsvariable
Kehren wir zu unseren drei Aktien zurück. Wir haben bereits die Erwartungswerte
der Renditen berechnet. Wegen (7.13) gilt für die Kovarianz der Renditen der ersten und
zweiten Aktie:
Cov(R1 , R2 ) =
5
3
3
5
· 12 · 10 +
· 6 · 14 +
·6·4+
· 5 · 8 − 7, 6875 · 9, 75 = 0, 7969.
16
16
16
16
Genauso berechnen sich die beiden anderen Kovarianzen:
5
· 12 · 20 +
16
= 13, 6758,
5
· 10 · 20 +
Cov(R2 , R3 ) =
16
= 10, 1406.
Cov(R1 , R3 ) =
5
3
3
· 6 · 15 +
·6·9+
· 5 · 5 − 7, 6875 · 13, 5625
16
16
16
5
3
3
· 14 · 15 +
·4·9+
· 8 · 5 − 9, 75 · 13, 5625
16
16
16
7.2.6 Berechnung der Korrelationen
Die Gröÿe der Kovarianz allein ist nicht aussagekräftig für die Verwandschaft zweier Zufallsvariablen, da bei Zufallsvariablen mit groÿen Werten automatisch ein groÿer Wert
für die Kovarianz folgt. Man normiert daher den Ausdruck der Kovarianz durch das
Produkt der beiden Standardabweichungen und erhält einen neuen Ausdruck, der
relation
Kor-
genannt wird.
Denition 7.6.
variablen
(Ω, p) ein Wahrscheinlichkeitsraum und R und S
Korrelation Cor(R, S) wird wie folgt festgelegt
Es seien
Ω → R.
Die
Cor(R, S) =
Cov(R, S)
.
Std(R) Std(S)
zwei Zufalls-
(7.15)
Die Korrelation wird ebenfalls durch einen griechischen Buchstaben abgekürzt, und zwar
ρR,S .
Im griechischen Gewand erscheint (7.15) damit so
ρR,S =
σR,S
.
σR σS
Somit ergeben sich folgende Werte für unsere drei Aktien:
0, 7969
Cov(R1 , R2 )
=
= 0, 0771,
Std(R1 ) Std(R2 )
2, 9308 · 3, 5267
Cov(R1 , R3 )
13, 6758
Cor(R1 , R3 ) =
=
= 0, 8348,
Std(R1 ) Std(R3 )
2, 9308 · 5, 5898
Cov(R2 , R3 )
10, 1406
Cor(R2 , R3 ) =
=
= 0, 5144.
Std(R2 ) Std(R3 )
3, 5267 · 5, 5898
Cor(R1 , R2 ) =
94
(7.16)
7.2 Einführung und Denition
7.2.7 Erwartungswert und Varianz einer Linearkombination
Wir betrachten nun wieder zwei Zufallsvariablen
bination
Z = µX + λY .
X
Y
und
Für den Erwartungswert von
Z
und bilden die Linearkom-
gilt
E(Z) = µ E(X) + λ E(Y ).
Über die Kovarianz ergibt sich eine entsprechende Formel für die Varianz
Var(µX + λY ) = µ2 Var(X) + λ2 Var(Y ) + 2µλ Cov(X, Y ).
Im allgemeinen Fall liegen
k
Zufallsvariablen
R1 , R2 ,
...,
Rk
vor. Seien
v1 , v2 ,
...,
vk
beliebige reelle Zahlen, die zusammen den Vektor
v = (v1 , v2 , . . . , vk )T
bilden. Dieser Vektor führt zur Zufallsvariablen
Rv = v1 R1 + v2 R2 + · · · + vk Rk .
Wenn die Zufallsvariablen
Zufallsvariable
Rv
Ri
Renditen von Anlagen beschreiben, ergibt sich somit die
eines Portfolios, wobei der Wert von
Anlage entspricht. In diesem Fall heiÿt der Vektor
Es sei neben
Rv
vi
der Investition in die i-te
v der Portfoliovektor des Portfolios.
noch die Zufallsvariable
Rw = w1 R1 + w2 R2 + · · · + wk Rk
betrachtet. Dann gelten folgende Formeln:
E(Rv ) = v1 E(R1 ) + v2 E(R2 ) + · · · + vk E(Rk ),
!!
k
k−1
k
X
X
X
V ar(Rv ) =
vi2 σi2 + 2
vi vj σi,j
,
i=1
Cov(Rv , Rw ) =
k X
k
X
i=1
vi wj σi,j .
(7.17)
(7.18)
j=i+1
(7.19)
i=1 j=1
Diese Formeln gelten natürlich auch dann, wenn die beteiligten Zufallsvariablen keine
Renditen beschreiben.
Betrachten wir als Beispiel die Daten des Eingangsbeispiels und wählen die Portfoliovektoren
= (0.1, 0.4, 0.5)T sowie = (0.5, 0.3, 0.2)T , so folgen:
v
w
E(Rv ) = 0, 1 · 7, 6875 + 0, 4 · 9, 75 + 0, 5 · 13, 5625 = 11, 45,
V ar(Rv ) = 8, 5898 · 0, 12 + 12, 4375 · 0, 42 + 31, 2461 · 0, 52
+ 2(0, 7969 · 0, 1 · 0, 4 + 13, 6758 · 0, 1 · 0, 5 + 10, 1406 · 0, 4 · 0, 5) = 15, 375,
Cov(Rv , Rw ) = 8, 5898 · 0, 1 · 0, 5 + 0, 7969 · 0, 1 · 0, 3 + 13, 6758 · 0, 1 · 0, 2
+ 0, 7969 · 0, 4 · 0, 5 + 12, 4375 · 0, 4 · 0, 3 + 10, 1406 · 0, 4 · 0, 2
+ 13, 6758 · 0, 5 · 0, 5 + 10, 1406 · 0, 5 · 0, 3 + 31, 2461 · 0, 5 · 0, 2 = 11, 2547.
Ich werde wegen der besseren Lesbarkeit innerhalb von Vektoren anstatt des Kommas
einen Punkt als Dezimalzeichen verwenden.
95
7 Endliche Zufallsvariable
7.2.8 Kovarianz- und Korrelationsmatrix
n Zufallsvariablen R1 , R2 , . . . Rk
 
R1
R2 

R=
 ..  .
 . 
Rk
Wie in unserem Beispiel werden sehr oft
zu einem Zufallsvektor
betrachtet und
zusammengefasst.
Vektoren werden fett gesetzt und immer als Spaltenvektoren aufgefasst. Entsprechend
wird durch Transponation aus einem Spaltenvektor ein Zeilenvektor, d.h
RT = (R1 , R2 , . . . , Rk ), R = (R1 , R2 , . . . , Rk )T
und umgekehrt aus einem Zeilenvektor ein Spaltenvektor. Für die Transponation verwende ich das hochgestellte
T.
Die Erwartungswerte der Komponenten eines Zufallsvektors bilden ebenfalls einen
E(R)
Vektor, der mit
abgekürzt und als Erwartungswertvektor bezeichnet wird, d.h.
E(R) = (E(R1 ), E(R2 ), . . . , E(Rk ))T .
Bildet man alle möglichen Kovarianzen, so kann man diese zu einer Matrix zusammenfassen. Das ergibt folgende Denition:
Denition 7.7. Die Kovarianzmatrix V
einer Menge von Zufallsvariablen
R1 , R2 , . . . Rk
ist durch die Gleichungen
Vi,j := σi,j = Cov(Ri , Rj ),
deniert. Statt
Vi,j
wird meist
σi,j
1 ≤ i, j ≤ k
(7.20)
geschrieben.
In dieser Matrix stehen in der Hauptdiagonalen wegen
σi,i = σi2
die Varianzen der ein-
zelnen Zufallsvariablen, deshalb wird diese Matrix auch oft Varianz-Kovarianz-Matrix
genannt. Wegen
Cov(Ri , Rj ) = Cov(Rj , Ri )
ist diese Matrix symmetrisch. Die Kovari-
anzmatrix des Eingangsbeispiels ist


8, 5898 0, 7969 13, 6758
V =  0, 7969 12, 4375 10, 1406 .
13, 6758 10, 1406 31, 2461
Genauso wie die Kovarianzen zur Kovarianzmatrix
auch die Korrelationen zur
ρi,j =
96
V = (σi,j )
lassen sich natürlich
Korrelationsmatrix R = (ρi,j ) zusammenfassen. Es gilt
σi,j
.
σi σj
7.2 Einführung und Denition
Die Korrelationsmatrix des Eingangsbeispiels ist


1, 0000 0, 0771 0, 8348
R = 0, 0771 1, 0000 0, 5144 .
0, 8348 0, 5144 1, 0000
In der Hauptdiagonalen einer Korrelationsmatrix haben wegen
σi,i = σi2
alle Elemente
den Wert 1.
Für einen beliebigen Vektor
v = (v1 , v2 , . . . , vk )T
wird die Zufallsvariable
Rv = v1 R1 + v2 R2 + · · · + vk Rk
Rv und Rw haben Erwartungswerte, Varianzen und KoE(R) und die Kovarianzmatrix V ausdrücken lassen, und zwar
gebildet. Die Zufallsvariablen
varianzen, die sich durch
gilt:
E(Rv ) = vT E(R),
(7.21)
V ar(Rv ) = v V v,
T
(7.22)
Cov(Rv , Rw ) = vT V w.
(7.23)
Diese Formeln entsprechen den Formeln (7.17) bis (7.19), sind aber kürzer und eleganter.
7.2.9 Eigenschaften der Kovarianzmatrix
In allen sinnvollen Fällen ist diese Matrix auch positiv denit, d.h. für jeden Vektor
x = (x1 , x2 , . . . , xk )T
gilt
xT V x ≥ 0,
T
wobei der Wert 0 nur für den Nullvektor 0 = (0, 0, . . . , 0)
(7.24)
angenommen wird.
Die Bedingung (7.24) ergibt ausgeschrieben:
k X
k
X
xi xj σi,j > 0 ∀x ∈ Rk , x 6= 0.
(7.25)
i=1 j=1
Im Eingangsbeispiel ist die Kovarianzmatrix


8, 5898 0, 7969 13, 6758
V =  0, 7969 12, 4375 10, 1406 .
13, 6758 10, 1406 31, 2461
97
7 Endliche Zufallsvariable
Somit wird die Bedingung (7.24) für positive Denitheit:
8, 5898x21 + 12, 4375x22 + 31, 2461x23 +
2(0, 7969x1 x2 + 13, 6758x1 x3 + 10, 1406x2 x3 ) ≥ 0,
wobei der Wert 0 nur für den dreidimensionalen Nullvektor
(0, 0, 0)T
(7.26)
angenommen wird.
Nun können Sie so viele Vektoren in (7.26) einsetzen wie Sie wollen und immer die
Richtigkeit der Bedingung bestätigen, aus der Sicht eines pingeligen Mathematikers ist
dies kein Beweis. Es gilt aber folgender Satz:
Satz 7.1. Eine Kovarianzmatrix ist genau dann positiv denit, wenn sie invertierbar
ist. Ist sie nicht invertierbar, gilt die Bedingung (7.24) zwar auch, aber der Wert 0 kann
auch für Vektoren erreicht werden, die verschieden vom Nullvektor sind.
7.3 Verteilung einer Zufallsvariablen
Zufallsvariablen beschreiben in der Finanzmathematik die Renditen von Wertpapieren
und bei Glücksspielen den Gewinn oder Verlust eines Spielers.
Beispiel 7.1.
Wenn ein Spieler beim Roulette auf die Zahl 19 einen Chip im Wert von
100 Euro setzt, so erhält er seinen Einsatz und einen Gewinn von 3.500 Euro zurück,
wenn die Kugel auf das Fach dieser Zahl ausrollt, ansonsten streicht die Bank den Einsaz
ein. Hier ist
Ω
der Bereich der ganzen Zahlen zwischen 0 und 36, wobei jeder Wert eine
Wahrscheinlichkeit von
pi = 1/37
hat. Für den Spieler vereinfacht sich der Ausgang des
X : Ω → R mit
(
−100, wenn ω 6= 19;
X(ω) =
3.500, wenn ω = 19.
Zufallsexperiments auf die Zufallsvariable
x1 = −100 und x2 = 3.500, die mit den
f1 = 36/37 und f2 = 1/37 auftreten. Aus der Sicht des Spielers
Paare (x1 , f1 ) und (x2 , f2 ) den Ausgang des Spiels.
Die Zufallsvariable hat lediglich die zwei Werte
Wahrscheinlichkeiten
beschreiben die
Beispiel 7.2.
Beim Monopolyspiel werden zwei Würfel geworfen, aber man interessiert
sich nicht für die 36 verschiedenen Augenpaare, sondern nur für die 11 Werte
x2 = 3,
...,
x11 = 12
der Augensumme.
Von Interesse sind nicht nur die Werte
scheinlichkeiten
bigen Wert
von
xi
xi
fi ,
x1 = 2,
xi
der Zufallsvariablen, sondern auch die Wahr-
mit denen die Zufallsvariable diese Werte abnimmt. Für einen belie-
einer Zufallsvariablen, ergibt sich die Wahrscheinlichkeit
fi
des Auftretens
durch die Wahrscheinlichkeit des Ereignisses
Ai = { ω | X(ω) = xi }.
Für diese Menge, mathematisch gesehen das Urbild von
X = xi
98
xi , wird die drollige Bezeichnung
7.3 Verteilung einer Zufallsvariablen
verwendet. Entsprechend wird die Wahrscheinlichkeit des Eintretens von
xi )
bezeichnet und mit
fi
xi
mit
P (X =
abgekürzt, d.h.
fi = P (Ai ) = P ({ ω | X(ω) = xi }).
Die Urbilder
Ai
zerlegen die Ergebnismenge
Summe der Wahrscheinlichkeiten
fi
Ω
in
n
disjunkte Teile, deshalb hat die
den Wert 1, also ergibt sich auf der Bildmenge
X(Ω)
eine Wahrscheinlichkeitsverteilung. Das ist bei allen endlichen Zufallsvariablen der Fall
und führt zu folgender Denition.
Denition 7.8.
Es seien
x1 , x2 , . . . , xn
die Werte der Zufallsvariablen
P (X = xi ).
X
und
f1 , f2 , . . . , fn
bzw. die zugehörigen Wahrscheinlichkeiten, d.h.
Dann heiÿt die Gesamtheit aller Zahlenpaare
Zufallsvariablen
(xi , fi ),
die
Verteilung
fi =
der
X.
Im Falle des Roulettespielers gibt es nur die Werte
x1 = −100
und
x2 = 3.500.
Die
Wahrscheinlichkeiten des Auftretens sind
f1 = P (X = x1 ) = P ({ω | X(ω) = x1 }) = P ({ 0, 1, . . . , 18, 20, 21, . . . , 36 }) = 36/37.
f2 = P (X = x2 ) = P ({ω | X(ω) = x2 }) = P ({ 19 }) = 1/37.
Verteilungen können durch eine Tabelle beschrieben werden, wobei in der ersten Zeile
die Werte und darunter die Wahrscheinlichkeiten ihres Auftretens stehen, deren Summe
immer 1 ergibt. Die Verteilung der Zufallsvariablen des Roulettebeispiels ist somit
xi
-100
3.500
fi
36/37
1/37
Das folgende Beispiel veranschaulicht zunächst noch mal den Begri der Verteilung.
Kurz vor der Sache mit dem Apfel schlägt Adam seiner Eva folgendes Spiel vor: In
einer Urne benden sich zehn Kugeln mit den Buchstaben EVASANANAS. Eva darf
eine Kugel ziehen und erhält für ein V 4 Euro und muss für ein A oder E einen Euro
bezahlen. Zieht sie S oder N geschieht gar nichts. Hier wird die Ereignismenge von den
Buchstaben A, E, N, S und V gebildet. Die Wahrscheinlichkeitsverteilung und die Werte
der Zufallsvariablen
X
zeigt die folgende Tabelle:
ωi
pi
xi
fi
Die Zufallsvariable
Ereignisse
X = xi
A
E
N
S
V
0,4
0,1
0,2
0,2
0,1
-1
0
-1
0,5
0
4
0,4
0,1
X nimmt nur die Werte x1 = −1, x2 = 0 und x3 = 4 an. Die drei
i = 1, 2, 3 teilen Ω in die Mengen {A, E}, {N, S} und {V } mit
mit
99
7 Endliche Zufallsvariable
den Wahrscheinlichkeiten
f1 = 0, 5, f2 = 0, 4
und
f3 = 0, 1.
Die Verteilung von
X
ist
demnach
xi
-1
0
4
fi
0,5
0,4
0,1
Man ordnet der Verteilung einer endlichen Zufallsvariablen eine Funktion zu, die an
den Stellen
xi
den Wert
fi
hat und sonst überall den Wert 0 hat. Ich halte dies in einer
Denition fest.
Denition 7.9.
heiÿt die Funktion
die
(xi , fi ) die Verteilung einer Zufallsvariable X . Dann
Es seien die Paare
(
fi ,
f (x) =
0,
Wahrscheinlichkeitsfunktion
für
x = xi , i = 1, 2, . . . , n
sonst
der Zufallsvariablen
X.
Der Graph der Wahrscheinlichkeitsfunktion stimmt nur an den Punkten
(xi , fi )
mit der Abszisse überein. Die Punkte
(xi , fi )
nicht
werden durch kleine Kreise oder ähnliche
Symbole gekennzeichnet. Üblich sind auch senkrechte Stäbe von der Abszisse zu den
Punkten.
i
xi
fi
xi2fi
xifi
Fi
F(x)
f(x)
0,5
0,5
0,6
1
0
0
0,9
0,4
0,4
1,6
1
0,75
0,5
0,2
-0,1
2,1
1 -1
0,5 -0,5
2
0
0,4
3
4
0,1
x
0
0,25
-2 -1 0 1 2 3 4
E(X)= -0,1
x
0
-2 -1 0 1 2 3 4 5
Var(X)= 2,09
Abbildung 7.3: Arbeitstabelle einer endlichen Zufallsvariablen
7.4 Verteilungsfunktion
Neben der Wahrscheinlichkeitsfunktion
Funktion
F (x),
f (x)
sehen Sie den Graph einer eng verwandten
die wie in der Beschreibenden Statistik durch Kumulierung der Wahr-
scheinlichkeiten entsteht. Damit ergibt sich folgende Denition.
Denition 7.10.
für jede reelle Zahl
tens den Wert
x
Die Verteilungsfunktion
x
F : R → [0, 1]
annimmt, d.h.
F (x) = P (X ≤ x).
100
einer Zufallsvariablen
die Wahrscheinlichkeit dafür an, dass die Zufallsvariable
X
X
gibt
höchs-
7.5 Erwartungswert und Varianz
Auch hier ist mit der Abkürzung
X≤x
das Ereignis
{ω : X(ω) ≤ x}
gemeint.
Die Verteilungsfunktion einer endlichen Zufallsvariablen ergibt sich aus der zugehörigen Wahrscheinlichkeitsfunktion durch Summation aller
X
F (x) =
xi ≤ x:
fi
mit
xi
werden mit
fj .
xj ≤x
Die Werte
F (xi )
der Verteilungsfunktion an den Stellen
Denition 7.11.
Da die kumulierten Wahrscheinlichkeiten
den, bezeichne ich die Gesamtheit aller Paare
(xi , Fi )
als
Fi
Fi
bezeichnet.
sehr oft verwendet wer-
kumulierte Verteilung
der Zu-
fallsvariablen.
Es ist sinnvoll, die Verteilung und die kumulierte Verteilung in einer Tabelle wie in
der Abbildung 7.3 anzuordnen.
Die Verteilungsfunktion einer endlichen Zufallsvariablen ist ein Treppenfunktion, die
zwischen zwei benachbarten Werten
xi+1
zum Wert
Fi+1
nach dem gröÿten Wert
Werte
Fi
xi
xi
und
xi+1
den konstanten Wert
springt. Vor dem kleinsten Wert
xn
hat
F
x1
hat
F
Fi
hat und bei
immer den Wert 0 und
immer den Wert 1. In der Abbildung 7.3 stehen die
in der zweiten Spalte, die
fi
folgen in der dritten und die kumulierten Werte
stehen ganz rechts.
Aus der Tabelle erhält man die Verteilungsfunktion der Zufallsvariablen

0,



0, 5,
F (x) =

0, 9,



1,
Jede Verteilungsfunktion
F (x)
für
für
für
für
X
x < −1;
−1 ≤ x < 0;
0 ≤ x < 4;
x ≥ 4.
hat folgende vier charakteristischen Eigenschaften:
(1)
F (x)
ist monoton steigend.
(2)
F (x)
ist in jedem Punkt zumindest rechtsseitig stetig.
(3)
limx→−∞ F (x) = 0.
(4)
limx→∞ F (x) = 1.
7.5 Erwartungswert und Varianz
Kehren wir zurück zum Spiel von Adam und Eva und der Frage, ob Eva sich auf dieses
Spiel einlassen soll. Zunächst muss klar sein, dass bei einer einzelnen Durchführung jeder Spieler Gewinnchancen hat. Statistisch steht im Vordergrund, wie sich der Gewinn
verteilt, wenn das Spiel mehrfach durchgeführt wird. Da die fünf Buchstaben die Wahrscheinlichkeiten
pA = 0, 4, pE = 0, 1, pN = 0, 2, pS = 0, 2 und pV = 0, 1 haben, wird nach
101
7 Endliche Zufallsvariable
K
Partien der Buchstabe A ungefähr mit der Häugkeit
E entsprechend ungefähr mit der Häugkeit
KpE
KpA
auftreten, der Buchstabe
usw. Evas Gewinn oder Verlust wird
somit ungefähr gleich der folgenden Summe sein
VK = K · pA · (−1) + K · pE · (−1) + K · pN · 0 + K · pS · 0 + K · pV · 4
VK = K[(−1) · pA + (−1) · pE + 0 · pN + 0 · pS + 4 · pV ] = −K · 0, 1,
d.h. im Durchschnitt verliert Eva pro Spiel auf lange Sicht 10 Cent, also dem Wert
des Terms innerhalb der eckigen Klammern, obwohl natürlich kein einziges Spiel diesen
Ausgang hat.
Der langfristige Durchschnitt wird als
Erwartungswert E(X) einer Zufallsvariablen X
bezeichnet. Ich wiederhole noch einmal die Denition:
Denition 7.12.
Ω = { ω1 , ω2 , . . . , ωN } eine endliche Ergebnismenge mit den
gehörigen Wahrscheinlichkeiten pi und X : Ω → R eine Zufallsvariable. Dann wird
folgende Ausdruck Erwartungswert von X genannt und mit E(X) bezeichnet
Sei
E(X) =
N
X
X(ωi )pi .
zuder
(7.27)
i=1
Der Erwartungswert wird über die Gleichung (7.27) deniert, aber die Berechnung
erfolgt schneller über die Verteilung der Zufallsvariablen. Für die endliche Zufallsvariable
X
mit der Verteilung
(xi , fi ), i = 1, 2, . . . , n
E(X) =
gilt für den Erwartungswert
n
X
xi f i .
(7.28)
i=1
Der Erwartungswert ist bei endlichen Verteilungen die Summe der mit den Wahrscheinlichkeiten gewichteten Werte der Zufallsvariablen. In unserem Fall vereinfacht sich die
Rechnung unter Verwendung der Verteilung wie folgt
E(X) = x1 f1 + x2 f2 + x3 f3 = (−1) · 0, 5 + 0 · 0, 4 + 4 · 0, 1 = −0, 1.
Sobald die Verteilung bestimmt ist, wird der Erwartungswert über (7.28) und nicht über
(7.27) berechnet. In der vierten Spalte des abgebildeten Arbeitsblatts nden Sie die Produkte
xi f i
und darunter deren Summe, also den Erwartungswert. Der Erwartungswert
beim Roulette mit einem Einsatz von 100 Euro auf die Zahl 19 ist somit
E(X) = −100 · 36/37 + 3500 · 1/37 = −2, 7027027.
Wer also tausend Mal mit dieser Strategie setzt, wird mit einem Verlust von 2.702,70
Euro zu rechnen haben.
Der Erwartungswerts
E(X)
ist also der durchschnittliche Ausgang einer Zufallsvaria-
blen. Daher wird ein Spiel gerecht oder fair genannt, wenn der Erwartungswert 0 ist. Ist
E(X) > 0
heiÿt das Spiel günstig und ungünstig für
nur ungünstige Spiele an.
102
E(X) < 0.
Casinos bieten natürlich
7.5 Erwartungswert und Varianz
Die
Varianz Var(X)
einer Zufallsvariablen
X
stellt ein Maÿ für die Streuung der
Verteilung dar. Wie in der Beschreibenden Statistik wird die Varianz bei endlichen Verteilungen durch die Summe der mit den Wahrscheinlichkeiten gewichteten quadratischen
Abweichungen der Werte der Zufallsvariablen vom Erwartungswert deniert. Die Wurzel
aus der Varianz heiÿt
Standardabweichung Std(X).
abweichung werden oft die Symbole
σ
2
und
σ
Für die Varianz und die Standard-
verwendet.
Wie der Erwartungswert kann auch die Varianz durch die zugehörige Verteilung berechnet werden. Sei
X
eine endliche Zufallsvariable mit der Verteilung
(xi , fi ), dann kann
die Varianz über eine der beiden folgenden Formeln berechnet werden
Var(X) =
n
X
(xi − E(X))2 fi ,
(7.29)
x2i fi − E(X)2 .
(7.30)
i=1
Var(X) =
n
X
i=1
Die Varianz im paradiesischen Spiel ist somit wegen
E(X) = −0, 1
Var(X) = (−1 + 0, 1)2 · 0, 5 + (0 + 0, 1)2 · 0, 4 + (−4 + 0, 1)2 · 0, 1 = 2, 09,
Var(X) = (−1)2 · 0, 5 + (0)2 · 0, 4 + (−4)2 · 0, 1 − (−0, 1)2 = 2, 09.
Die untere Formel ist zum Rechnen besser geeignet. Die Standardabweichung
ist die Wurzel aus der Varianz, also gilt hier
Std(X) =
√
2, 09 = 1, 445683229.
Std(X)
Da die
Standardabweichung die Wurzel aus der Varianz ist, gibt man oft nur die Varianz oder
nur die Standardabweichung an.
Die Untersuchung einer endlichen Zufallsvariablen lässt sich durch eine Arbeitstabelle
so wie in der Abbildung 7.3 auf Seite 100 organisieren. In der ersten Spalte steht der
laufende Index
scheinlichkeiten
i, in der zweiten und dritten die Werte xi und die zugehörigen Wahrfi , also die Verteilung. Die kumulierten Wahrscheinlichkeiten benden
sich in der letzten Spalte. Damit lassen sich die Wahrscheinlichkeits- und die Verteilungsfunktion zeichnen. Die vierte Spalte ist für die Produkte
xi f i
eingerichtet, deren
2
Summe ist der Erwartungswert. In der fünften Spalte stehen dann die Produkte xi fi .
2
Deren Summe ist aber noch nicht die Varianz, es muss davon noch E(X) abgezogen
werden.
Bei vielen Zufallsvariablen lassen sich die Wahrscheinlichkeiten
fi = P (X = xi )
be-
stimmen, ohne vorher die gesamte Ausgangsverteilung auf dem Wahrscheinlichkeitsraum
(Ω, p)
zu berechnen.
Beispiel 7.3.
X des Spielers, der beim Roulette
(−100, 36/37), (3.500, 1/37), denn es gibt
Die Zufallsvariable des Gewinns
Euro auf die 19 setzt, hat die Verteilung
100
nur
ein günstige Zahl und einschlieÿlich der 0 insgesamt 36 ungünstige Zahlen. Also sind
E(X) = −100 · 36/37 + 3.500 · 1/37 = −2, 7027027,
Var(X) = (−100)2 · 36/37 + (3.500)2 · 1/37 − (−2, 7027027)2 = 340.803, 5062,
p
Std(X) = 340.803, 5062 = 583, 7837838.
103
7 Endliche Zufallsvariable
Es sei nun ein weiterer Spieler betrachtet, der ebenfalls mit 100 Euro spielt, aber
Y hat die Verteilung
(−100, 19/37), (100, 18/37), denn es gibt 18 rote Zahlen und 18 schwarze sowie die eben-
auf die roten Zahlen setzt. Die Zufallsvariable seines Gewinns
falls ungünstige 0. Hier sind
E(Y ) = −100 · 19/37 + 100 · 18/37 = −2, 702702703,
Var(Y ) = (−100)2 · 19/37 + (100)2 · 18/37 − (−2, 7027027)2 = 9992, 695398,
p
Std(Y ) = 9992, 695398 = 99, 96347032.
Die Erwartungswerte der zu den beiden Strategien gehörenden Zufallsvariablen sind
gleich, aber die Varianzen und Standardabweichungen unterscheiden sich deutlich, deshalb ist die zweite Strategie weniger risikoreich.
Beispiel 7.4.
Eine Mutter verspricht ihrer Tochter einen Euro, wenn die Augenzahl bei
einem Wurf mit einem fairen Würfel höher als 2 ist.
x1 = 0 und x2 = 1,
f1 = 1/3 und f2 = 2/3 auftreten. Der Erwartungswert
dieser Zufallsvariablen ist E(B) = 0 · 1/3 + 1 · 2/3 = 2/3 und die Varianz ist Var(B) =
02 · 1/3 + 12 · 2/3 − 4/9 = 2/9.
Der Gewinn
B
der Tochter ist eine Zufallsvariable mit den Werten
die mit den Wahrscheinlichkeiten
7.6 Unabhängige Zufallsvariable
Zwei Zufallsvariable
X
keine Rückschlüsse auf
und
Y
Y
heiÿen unabhängig, wenn man durch Kenntnisse über
ziehen kann. Seien
(xi , fi )
und
(yj , gj )
die Verteilungen der
beiden Zufallsvariablen, so sind diese unabhängig voneinander, wenn
yj ) = P (X = xi ).
X
P (X = xi |Y =
Daraus folgt die Bedingung für Unabhängigkeit
P (X = xi
und
Y = yj ) = P (X = xi )P (Y = yj ) = fi gj .
(7.31)
Diese Bedingung führt zu folgendem Satz.
Satz 3. Für zwei unabhängige Zufallsvariablen X und Y gelten
E(XY ) = E(X) E(Y ),
Var(X + Y ) = Var(X) + Var(Y ).
(7.32)
(7.33)
Die Formel 7.32 folgt aus
E(XY ) =
n X
m
X
i=1 j=1
xi y j f i g j =
n
X
i=1
!
xi f i
m
X
!
yj gj
= E(X) E(Y ).
j=1
Damit leiten wir nun auch Formel 7.33 her
Var(X + Y ) = E((X + Y )2 ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2 E(XY ) − E(X)2 − 2 E(X) E(Y ) + E(Y )2
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 = Var(X) + Var(Y ).
104
7.6 Unabhängige Zufallsvariable
Hier wurde ausgenutzt, dass für unabhängige Zufallsvariablen E(XY ) =
2
2
und die nützliche immer gültige Beziehung Var(X) = E(X ) − E(X) .
E(X) E(Y ) gilt
Ohne Beweis gebe ich noch eine Verschärfung der Gleichung (7.33) an.
Satz 4. Es seien X1 , X2 , . . . , Xk unabhängige Zufallsvariablen. Dann gilt
Var(X1 + X2 + · · · + Xk ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xk ).
(7.34)
Unabhängige Zufallsvariablen treten sehr oft im Zusammenhang mit unabhängigen
mehrstugen Zufallsprozessen wie etwa dem mehrfachen Werfen einer Münze oder eines
Würfels auf, wobei jeder Stufe eine Zufallsvariable zugeordnet werden kann.
Die Verteilung und die kumulierte Verteilung der Zufallsvariablen
X
der Augenzahl
eines fairen Würfels zeigt die folgende Abbildung.
i xi
fi
xifi
xi2fi
Fi
1 1 0,1667 0,1667 0,1667 0,1667 0,20
f(x)
F(x)
1
2 2 0,1667 0,3333 0,6667 0,3333 0,15
3 3 0,1667 0,5000 1,5000 0,5000
4 4 0,1667 0,6667 2,6667 0,6667 0,10
0,8
0,6
0,4
5 5 0,1667 0,8333 4,1667 0,8333 0,05
6 6 0,1667 1,0000 6,0000 1,0000
0,00
E(X) = 3,5000 15,1667
0,2
x
0
Var(X)= 2,9167
0
x
1 2
3 4 5
6
0
1
2
3
4
5
6
Abbildung 7.4: Gleichverteilte Zufallsvariable
Jeder Wert dieser Zufallsvariablen wird mit derselben Wahrscheinlichkeit angenommen. Solche Verteilungen werden gleichverteilt genannt. Es gelten
Var(X) = 2, 916̄ ≈ 2, 9167.
E(X) = 3, 5
und
Die nötigen Rechenschritte entnehmen Sie bitte der Abbil-
dung.
Beim Spiel Monopoly werden zwei faire Würfel gleichzeitig geworfen und die Summe
S der Augenzahlen gebildet. Die Zufallsvariable S ist die Summe der Zufallsvariablen
X1 und X2 der einzelnen Augenzahlen. Wie gerade gezeigt, gelten E(Xi ) = 3, 5 und
Var(Xi ) = 2, 916̄ für i = 1, 2. Also ist E(S) = E(X1 ) + E(X2 ) = 7. Da die beiden
Zufallsvariablen X1 und X2 unabhängig voneinander sind, gilt auch Var(S) = Var(X1 )+
Var(X2 ) = 2 · 2, 916̄ = 5, 83̄.
Nun werden wieder zwei faire Würfel geworfen und das Produkt P der Augenzahlen
X1 und X2 gebildet. Wegen der Unabhängigkeit der beiden Zufallsvariablen ist E(P ) =
E(X1 ) E(X2 ) = 12, 25.
Beispiel 7.5.
Weil die Tochter des Beispiels 7.4 besonders lieb war, darf sie ausnahms-
weise dreimal würfeln und erhält einen Euro für jeden Wurf, dessen Augenzahl höher
als zwei ausfällt. Die Zufallsvariable ihres Gewinns sei mit
E(X)
und
X
bezeichnet. Bestimmen Sie
Var(X).
105
7 Endliche Zufallsvariable
Hier wird das Zufallsexperiment des Beispiels 7.4 dreimal unabhängig voneinander wie-
Bi beschrieben werB dieses Beispiels hat, also gilt
E(X) = 3 E(B) = 3 · 2/3 = 2 und Var(X) = 3 Var(B) =
derholt, in jeder Stufe kann der Gewinn durch eine Zufallsvariable
den, die dieselbe Verteilung wie die Zufallsvariable
X = B1 + B1 + B3 .
3 · 2/9 = 2/3.
Daher sind
Hier konnten Erwartungswert und Varianz berechnet werden, ohne die Verteilung zu
X
x1 = 0, x2 = 1, x3 = 2 und x4 = 3. Wir
Wahrscheinlichkeiten fi = P (X = xi ). Die arme
bestimmen. Diese lässt sich aber auch recht einfach herleiten. Die Zufallsvariable
hat nur vier mögliche Ausgänge, nämlich
benötigen nur noch die zugehörigen
Kleine geht genau dann leer aus, wenn dreimal die Augenzahl unter 3 bleibt, was mit
3
einer Wahrscheinlichkeit von f0 = P (X = 0) = (1/3) eintritt. Sie gewinnt umgekehrt
genau dann drei Euro, wenn alle drei Augenzahlen gröÿer als 2 sind, was mit einer
3
Wahrscheinlichkeit von f4 = P (X = 3) = (2/3) eintritt. Einen Euro streicht sie ein,
wenn die Augenzahl von genau einem Würfel über 2 ist. Dieser Würfel kann jeder der
2
drei Würfel sein, was jeweils mit der Wahrscheinlichkeit (1/3)(2/3) eintritt, also ist
2
von f2 = P (X = 1) = 3 · (1/3)(2/3) . Genauso überlegt man sich f3 = P (X = 2) =
3 · (1/3)2 (2/3). Die Verteilung der Zufallsvariablen X ist in der folgenden Abbildung zu
sehen.
i xi
fi
xifi
xi2fi
Fi
0,5 f(x)
1 0 0,0370 0,0000 0,0000 0,0370 0,4
2 1 0,2222 0,2222 0,2222 0,2593 0,3
0,75
0,5
3 2 0,4444 0,8889 1,7778 0,7037 0,2
4 3 0,2963 0,8889 2,6667 1,0000 0,1
E(X) = 2,0000 4,6667
F(x)
1
0,25
0,0
0
Var(X)= 0,6667
1
2
3
0
x
x
-1
0
1
2
3
7.7 Zusammenfassung
X
(1) Eine endliche Zufallsvariable
ist eine Abbildung von einem endlichen Wahr-
scheinlichkeitsraum in die reellen Zahlen, also
(2) Für jeden Wert
xi
von
X
gibt es eine mit
die aus allen Urbildern von
(3) Die Verteilung besteht aus
xi
n
X : Ω = { ω1 , ω2 , . . . , ωN } → R.
X = xi
bezeichnete Teilmenge von
besteht, also aus allen
Paaren
(xi , fi )
mit
ω∈Ω
mit
Ω,
X(ω) = xi .
fi = P (X = xi ).
(4) Erwartungswert und Varianz einer Zufallsvariablen ergeben sich durch
E(X) =
Var(X) =
n
X
i=1
n
X
i=1
106
xi f i ,
(7.35)
x2i fi − E(X)2 .
(7.36)
7.8 Aufgaben
(5) Es seien
X 1 , X2 ,
. . . Xk Zufallsvariablen und
a1 , a2 ,
. . . ak beliebige Zahlen. Dann
gilt
E(a1 X1 + a2 X2 + · · · + ak Xk ) = a1 E(X1 ) + a2 E(X2 ) + · · · + ak E(Xk ).
(6) Es seien
X
eine Zufallsvariable und
a
(7.37)
eine beliebige Zahl. Dann gelten
Var(aX) = a2 Var(X), Var(X + a) = Var(X)
(7.38)
(7) Zwei Zufallsvariablen heiÿen unabhängig, wenn der Ausgang der einen keinen Einuss auf den Ausgang der anderen hat.
(8) Es seien
X1 , X2 ,
. . . Xk
unabhängige
Zufallsvariablen. Dann gilt
Var(X1 + X2 + · · · + Xk ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xk ),
(7.39)
7.8 Aufgaben
Aufgabe 1.
Abhängig von der Konjunktur ergeben sich die jährlichen Renditen der
beiden einzigen Aktiengesellschaften eines kleinen Landes aus der folgenden Tabelle.
Berechnen Sie die erwarteten Renditen, die Kovarianzmatrix und die Korrelationsmatrix.
Die Zufallsvariable
S
beschreibe die Rendite eines Portfolios, das je zur Hälfte aus beiden
Anlagen besteht; die Zufallsvariable
T
beschreibe die Rendite eines Portfolios, das nur zu
einem Viertel aus der ersten Anlage besteht. Von diesen Portfolios mögen Sie ebenfalls die
Rendite, Varianz und das Risiko berechnen und abschlieÿend Kovarianz und Korrelation
der beiden Portfolios.
Konjunktur
Wahrscheinlichkeit
Rendite A
Gut
0,35
0,25
0,60
Normal
0,50
0,20
0,10
-0,25
-0,30
Schlecht
Aufgabe 2.
Rendite B
(Mayer) Zwei Spieler A und B spielen folgendes Spiel: Es wird mit zwei fai-
ren Würfeln gewürfelt. Unterscheiden sich die Augenzahlen höchstens um 1, so bekommt
A von B 6 Euro ansonsten bekommt B von A 5 Euro. Man bestimme die Verteilung und
die kumulierte Verteilung der Zufallsvariablen
X
Danach berechne man mit Hilfe der Verteilung
für die Auszahlung aus Sicht von A.
E(X), Var(X)
und
Std(X).
Welcher
Spieler ist im Vorteil?
Aufgabe 3.
(Engel) Chuck-a-luck wird in den USA nach folgenden Regeln gespielt: Ein
Spieler darf eine Zahl zwischen 1 und 6 wählen und bezahlt einen Einsatz. Danach werden
drei faire Würfel geworfen. Erscheint seine Zahl auf keinem der drei Würfel, ist der
Einsatz verloren. Sonst erhält der Spieler seinen Einsatz zurück und bekommt zusätzlich
107
7 Endliche Zufallsvariable
für jeden Würfel, worauf seine Zahl erscheint, einen Gewinn in Höhe seines Einsatzes,
also insgesamt zusätzlich zu seinem Einsatz das 1-, 2- oder 3-fache seines Einsatzes. Man
bestimme die Verteilung und die kumulierte Verteilung der Zufallsvariablen
X
für den
Gewinn und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach
berechne man mit Hilfe der Verteilung
E(X)
und
Var(X).
Ist das Spiel gerecht oder
ungünstig für den Spieler?
Aufgabe 4.
Sei
X
die Augenzahl des Würfels, der an je einer Seite eine 1 und eine 2
hat und dessen restliche vier Seiten 3 zeigen. Dieses Zufallsgerät werde ich im folgenden
B-Würfel nennen. Man bestimme die Verteilung und die kumulierte Verteilung und stelle
die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit
Hilfe der Verteilung
Aufgabe 5.
E(X)
und
Var(X).
Zwei B-Würfel werden geworfen. Es sei
S
die Summe der Augenzahlen.
Man bestimme die Verteilung sowie die kumulierte Verteilung und berechne damit
und
dar
E(S)
Var(S). Danach stellen Sie bitte S als Summe zweier unabhängiger Zufallsvariablen
und berechnen damit E(S) und Var(S) erneut.
Aufgabe 6.
E(T )
T das Produkt der Augenzahlen.
E(T ) und Var(T ). Auch hier kann
Zwei B-Würfel werden geworfen. Es sei
Man bestimme die Verteilung und berechne damit
nochmal anders berechnet werden.
Aufgabe 7.
Beim Spiel Monopoly werden zwei faire Würfel gleichzeitig geworfen. Die
Zufallsvariable
S
sei die Summe der Augenzahlen. Man bestimme die Verteilung und die
kumulierte Verteilung und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion
dar. Danach berechne man mit Hilfe der Verteilung
E(S)
und
Var(S).
Aufgabe 8. Eine Croupier setzt das wöchentliche Taschengeld X seines Sohnes wie folgt
fest: Der Sohn darf einen fairen Würfel werfen. Ist die Augenzahhl gerade, bekommt er
nichts, sonst erhält er die Augenzahl in Euro ausgezahlt. Man bestimme die Verteilung
und die kumulierte Verteilung und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit Hilfe der Verteilung
108
E(S)
und
Var(S).
8 Kombinatorik
8.1 Übersicht
Themen diese Kapitels sind
- Die Symbole
n!
n
k
und
- Das Multiplikationsprinzip
- Die Denitionen von Permutation, Variation und Kombination
8.2 Fakultät und Binomialkoezient
In der Kombinatorik werden drei Symbole benötigt, und zwar
Denition 8.1.
Das Produkt der ersten
Fakultät ) bezeichnet:
n
n!
und
(n)k
sowie
natürlichen Zahlen wird mit
n!
n
.
k
(lies:
n-
n! = 1 · 2 · 3 · · · (n − 1) · n.
Dabei wird zusätzlich
0! = 1
festgelegt.
Tabelle 8.1: Die Fakultäten von 0 bis 11
n
0
1
2
3
4
5
6
7
8
9
10
11
n!
1
1
2
6
24
120
720
5.040
40.320
362.880
3.628.800
39.916.800
Wie man an den Werten der Tabelle 8.1 sieht, wachsen die Zahlen
Für groÿe
n
n!
sehr schnell an.
gibt es die sogenannte Stirlingsche Näherungsformel
n! ≈
Manchmal wird nur das Produkt der
n n √
e
k<n
2πn.
gröÿten Zahlen
(n)k = n · (n − 1) · (n − 2) · · · (n − k + 1)
benötigt. Für
n=k
ergibt sich wieder
n!.
Auÿerdem gilt
(n)k =
Genauso wichtig sind die sogenannten
n!
.
k!
Binomialkoezienten .
109
8 Kombinatorik
Denition 8.2. Seien
n und k beliebige nichtnegative ganze Zahlen, dann ist der Bino
n
mialkoezient
, (lies:
k
n über k ) durch folgenden Ausdruck deniert:
n
n · (n − 1) · · · (n − k + 1)
(n)k
=
.
=
k
1 · 2···k
k!
Für
k=0
wird
n
0
=1
gesetzt.
Also sind
5! = 1 · 2 · 3 · 4 · 5 = 120,
7
7·6·5·4·3
= 21,
=
1·2·3·4·5
5
7
7·6
=
= 21,
2
1·2
5
1·2·3·4·5
=
= 1,
5
1·2·3·4·5
5
= 1.
0
Wie Sie sehen, ist
7
5
=
7
. Das ist kein Zufall, wie der folgende Satz zeigt:
2
Satz 8.1. Es gelten folgende Formeln:
n
n!
=
,
k
k! · (n − k)!
n
= n,
1
n
= 1,
n
n
n
=
,
k
n−k
n
n
n+1
+
=
.
k
k+1
k+1
(8.1)
(8.2)
(8.3)
(8.4)
(8.5)
Diese Regeln sind bis auf die letzte sehr leicht nachzuweisen. Wegen der Regel (8.1)
können die Binomialkoezienten aus einer Tabelle von Werten für
etwa
n! berechnet werden,
5.040
7
7!
=
= 21.
=
5! · 2!
120 · 2
5
Dank der Regel (8.5) können die Binomialkoezienten zeilenweise nach dem Schema
der Abbildung 8.1 bestimmt werden. Wegen der dreiecksförmigen Anordnung heiÿt das
Schema nach seinem Entdecker Pascalsches Dreieck. Jede Zeile ist entsprechend der
Regel (8.4) symmetrisch aufgebaut. Man entnimmt dem Dreieck ein weiteres Mal den
7
.
Wert von 21 für
2
Bei einem wissenschaftlichen Taschenrechner erhält man Binomialkoezienten wie
15
etwa
über die nCr-Taste, also 15 nCr 4 =1.365.
4
110
8.3 Das Multiplikationsprinzip
A B C D E F G H I J K L M N O P Q R S
1 n
2 0
1
3 1
1
1
4 2
1
2
1
5 3
1
3
3
1
6 4
1
4
6
4
1
7 5
1
5
10
10
5
1
8 6
1
6
15
20
15
6
1
9 7
1
7
21
35
35
21
7
1
10 8
1
8
28
56
70
56
28
8
1
Abbildung 8.1: Das Pascalsche Dreieck
8.3 Das Multiplikationsprinzip
In der Kombinatorik geht es um die Anordnung und Auswahl von Objekten aus einer
vorgegebenen Menge und die Bestimmung der Anzahl aller Möglichkeiten. Das wichtigste
Prinzip ist das Multiplikationsprinzip. Gegeben seien zwei endliche Mengen
M
und
N
m bzw. n Elementen, dann gibt es m·n Paare (x, y) mit x ∈ M und y ∈ N . Das liegt
x ∈ M jeweils alle y ∈ N zuordnen kann. Seien etwa M = { a, b }
und N = { 1, 2, 3 }, so gibt es die 2 · 3 Paare
mit
daran, dass man jedem
(a, 1), (a, 2), (a, 3), (b, 1), (b, 2), (b, 3).
Dieses Ergebnis lässt sich auf mehr als zwei Mengen übertragen. Ein Betrieb habe vier
Abteilungen mit 8, 12, 9 bzw. 10 Mitarbeitern. Jede Abteilung darf genau ein Mitglied
8 · 12 · 9 · 10 = 8.640 mögliche Zusammensetzungen
des Betriebsrats stellen. Dann gibt es
für den Betriebsrat.
8.4 Permutationen
Denition 8.3.
Eine
Permutation
einer Menge von
n
Objekten
x1 , x2 ,
...,
xn
ist eine
beliebige Umordnung dieser Objekte.
Die Menge
{ E, V, A }
hat also folgende 6 Permutationen:
EVA, EAV, VEA, VAE, AEV, AVE.
Satz 8.2. Die Anzahl der Permutationen von n verschiedenen Elementen ist n!.
Das liegt daran, dass man zur Auswahl des ersten Elements
Auswahl des zweiten nur noch
n!
n−1
n
Möglichkeiten hat, zur
usw. Also gibt es nach dem Multiplikationsprinzip
Möglichkeiten.
111
8 Kombinatorik
Beispiel 8.1.
An einem Tangokurs nehmen je 12 Damen und Herren teil. Wieviel mög-
liche Paarbildungen sind möglich?
Wie es so schön heiÿt: It takes two to tango, also gibt es
12! = 12 · 11! = 479.001.600
mögliche Paarbildungen.
Bisher waren die
n
Objekte unterscheidbar, man spricht von einer Permutation ohne
Wiederholung. Es gibt aber auch Fälle, wo die
n
Elemente in Teilklassen gleichartiger
Elemente zerfallen. Sucht man etwa alle Umordnungen des Wortes EVE, so gibt es nur
drei Stück, und zwar EVE, EEV und VEE. Die Buchstaben des Wortes ANNA kann
man nur in sechs Möglichkeiten anordnen, und zwar
AANN, ANAN, ANNA, NAAN, NANA, NNAA.
Hier zerfallen die
n = 4
Elemente in zwei Teilklassen mit je zwei gleichartigen Ele-
menten. Von den eigentlich
n! = 4!
möglichen Anordnungen sind die Permutationen der
gleichartigen Elemente nicht unterscheidbar, es bleiben nur
re Permutationen übrig. Diese Permutationen heiÿen
4!/(2!·2!) = 6 unterscheidba-
Permutationen mit Wiederholung.
Das Beispiel führt zu folgendem Satz
Satz 8.3. Gegeben seien n Elemente, die in k Teilklassen mit nicht zu unterscheidenden
Elementen zerfallen. Die einzelnen Klassen enthalten n1 , n2 , . . ., nk Elemente. Dann gibt
es
n!
,
n1 ! · n2 ! · · · nk !
n = n1 + n2 + · · · + nk
(8.6)
Permutationen mit Wiederholung.
Beispiel 8.2.
Aus Sicht der Damen tanzen vier Herren ausgezeichnet, drei ganz gut
und fünf eher steif. Wieviel Möglichkeiten bleiben jetzt?
Die zwölf Herren zerfallen in drei Gruppen aus tänzerischer Sicht nicht zu unterscheidenden Herren, damit verbleiben
12!/(3! · 4! · 5!) = 479.001.600/(6 · 24 · 120) = 27.720
Möglichkeiten.
8.5 Kombinationen und Variationen
Denition 8.4.
Bei einer
Kombination
werden aus
n
verschiedenen Elementen
mente ausgewählt, man nennt die so erhaltene Auswahl eine Kombination von
k
Ele-
n Elemen-
ten zur k-ten Klasse. Wenn Elemente gleicher Art wiederholt, also mehrmals, ausgewählt
Kombination mit Wiederholungen. Müssen dagegen
verschieden sein, so spricht man von einer Kombination ohne
werden können, nennt man dies eine
die Arten aller Elemente
Wiederholung. Bei einer Kombination wird die Reihenfolge nicht beachtet.
112
8.5 Kombinationen und Variationen
Wenn es auf die Reihenfolge der Anordnung ankommt, nennt man dies eine
von
n
Variation
Elementen zur k-ten Klasse. Wenn Elemente gleicher Art wiederholt, also mehr-
mals, ausgewählt werden können, nennt man dies eine
Variation mit Wiederholungen.
Müssen dagegen die Arten aller Elemente verschieden sein, so spricht man von einer
Variation ohne Wiederholung.
Es gibt somit vier verschiedene Möglichkeiten
k
Elemente aus einer Menge von
n Ele-
menten auszuwählen: Mit oder ohne Berücksichtigung der Anordnung und mit oder ohne
Wiederholung bei der Auswahl von Elementen. Ich gebe für jede der vier Möglichkeiten
ein Beispiel.
Beispiel 8.3.
Ein Koch benötigt nach dem Schlieÿen der Küche aus einer Gruppe von
vier Lehrlingen namens A, B, C und D einen zum Abwaschen des Geschirrs und einen
zum Putzen der Küche. Wieviel Möglichkeiten hat er bei der Auswahl?
Hier muss die Reihenfolge beachtet werden, da die Tätigkeiten sich unterscheiden, also
gibt es folgende zwölf Möglichkeiten
AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC.
Es handelt sich um eine Variation von
n = 4
Elementen zur
k = 2-ten
Klasse ohne
Wiederholung.
Beispiel 8.4.
Einige Zeit später benötigt er aus derselben Gruppe zwei zum Schälen
der Kartoeln. Wieviel Möglichkeiten hat er bei der Auswahl?
Hier muss die Reihenfolge nicht beachtet werden, also gibt es folgende sechs Möglichkeiten
AB, AC, AD, BC, BD, CD.
Es handelt sich um eine Kombination von
n=4
Elementen zur
k = 2-ten
Klasse ohne
Wiederholung.
Beispiel 8.5.
Wieviel zweistellige Zahlen kann man aus den drei Ziern 1, 2 und 3
bilden?
Hier muss die Reihenfolge beachtet werden und Wiederholungen sind möglich, also gibt
es folgende neun Möglichkeiten
11, 12, 13, 21, 22, 23, 31, 32, 33.
Es handelt sich um eine Variation von
n = 3
Elementen zur
k = 2-ten
Klasse mit
Wiederholung.
Beispiel 8.6.
Eine Konditorei hat verschiedene Sorten Kuchen U, V, W und X zur
Auswahl. Wieviel Möglichkeiten gibt es, zwei Stück zu kaufen?
Hier muss die Reihenfolge nicht beachtet werden, aber Wiederholungen sind möglich,
also gibt es folgende zehn Möglichkeiten
UU, UV, UW, UX, VV, VW, VX, WW, WX, XX.
Es handelt sich um eine Kombination von
n=4
Elementen zur
k = 2-ten
Klasse mit
Wiederholung.
113
8 Kombinatorik
In diesen Beispielen wurden die Anzahlen der Möglichkeiten durch Aufzählen aller
Möglichkeiten gewonnen. Für groÿe Werte von
n
und
k
werden Formeln benötigt, die
ich in der Tabelle 8.2 zusammengestellt habe.
Tabelle 8.2: Formeln der Kombinatorik
Variation
Kombination
ohne Wiederholung
mit Wiederholung
(n)k
n
nk
n+k−1
k
k
Die Formeln der ersten Spalte sind recht einfach zu erklären. Wenn es auf die Reihenfolge ankommt, also bei der Variation, und Wiederholungen nicht möglich sind, gibt es
zur Auswahl des ersten Elements
noch aus den
n
Möglichkeiten, das zweite Element kann dann nur
n − 1 Übrigen ausgewählt werden und beim k-ten Element steht nur noch
n − k + 1 Wahlmöglichkeiten zur Verfügung. Die Anzahl der Variationen
eine Menge mit
ist also
(n)k = n(n − 1) · · · (n − k + 1).
Kommt es auf die Reihenfolge nicht an, also bei der Kombination, muss dieser Wert
k! geteilt werden, was dann zum Binomialkoezient nk führt.
Wenn Wiederholungen erlaubt sind und die Reihenfolge zu berücksichtigen ist, hat
durch
man in jedem der
nk .
k
Schritte alle
n
Elemente zur Auswahl, die Anzahl der Variationen
ist dann
Die Formel für die Kombination von
n
Elementen zur
k = 2-ten
Klasse mit Wieder-
n zur Auswahl stehenden Elemente
n − 1 Grenzen, etwa einem Strich repräsentiert. Vor der r-ten Grenze steht
holung ist dagegen nicht unmittelbar einsichtig. Die
werden durch
so oft eine 0, wie das r-te Element ausgewählt wurde, wenn es gar nicht ausgewählt ist,
gibt es nur die Grenze. Insgesamt benötigt man dann
k
Nullen und
n−1
Grenzen, also
gibt es n + k − 1 Positionen. An jeder Position kann eine der k Nullen stehen, somit gibt
n+k−1
es
Möglichkeiten. Seien beispielsweise aus den n = 3 Buchstaben a, b, c k = 4
k
Buchstaben auszuwählen, so gibt es n + k − 1 = 3 + 4 − 1 = 6 Positionen mit n − 1 = 2
Grenzen und
k=4
Nullen, etwa
|000|0
|0000|
00|0|0.
Die erste Verteilung entspricht einer Auswahl von nullmal a, dreimal b und einmal c.
Die zweite Verteilung entspricht einer Auswahl von nullmal a, viermal b und nullmal
c. Die dritte Verteilung entspricht einer Auswahl von zweimal a, und je einem b und c.
3+4−1
Insgesamt gibt es
= 15 Möglichkeiten.
4
Die Kombination von n Elementen zur k = 2-ten Klasse mit Wiederholung entspricht
folgendem Urnenmodell: Gesucht ist die Anzahl aller Möglichkeiten k Kugeln auf n
n+k−1
, denn die Kugeln können wieder
Urnen zu verteilen. Auch hier ist die Lösung
k
durch Nullen und die n Urnen durch n − 1 Grenzen dargestellt werden.
114
8.5 Kombinationen und Variationen
Im Beispiel 8.3 liegt eine Variation ohne Wiederholung vor und es sind
k = 2,
also gibt es
(n)k = 4 · 3 = 12
n = 4
und
Möglichkeiten.
Im Beispiel 8.4 liegt eine Kombination ohne Wiederholung vor und es sind n = 4 und
n
also gibt es
= (4 · 3)/(1 · 2) = 6 Möglichkeiten.
k
Im Beispiel 8.5 liegt eine Variation mit Wiederholung vor und es sind n = 3 und k = 2,
k
2
also gibt es n = 3 = 9 Möglichkeiten.
k = 2,
Im Beispiel 8.6 liegt eine Kombination mit Wiederholung vor und es sind
n+k−1
also gibt es
= 52 = 10 Möglichkeiten.
k
Zur Einübung der vier Formeln gebe ich noch einige weitere Beispiele.
n=4
und
k = 2,
Beispiel 8.7.
Bei der Weltmeisterschaft der Damen im Fuÿball werden unter 16 teil-
nehmenden Nationen die Plätze 1 bis 4 ausgetragen. Wieviel verschiedene Reihenfolgen
gibt es?
Hier muss die Reihenfolge beachtet werden, aber es sind keine Wiederholungen erlaubt,
also gibt es wegen
n = 16
und
k=4
(16)4 = 16 · 15 · 14 · 13 = 43.680
Möglichkeiten für Variationen aus 16 Elementen zur 4-ten Klasse.
Beispiel 8.8. Von den 18 Bundesligavereinen sind die ersten drei Vereine der Endtabelle
für die Champions-League direkt qualiziert. Wieviel Möglichkeiten gibt es dafür?
Da die ersten drei alle direkt qualiziert sind, kommt es nicht auf die Reihenfolge an,
18
daher gibt es wegen n = 18 und k = 3 somit
= 816 Möglichkeiten.
3
Beispiel 8.9.
Wieviel verschiedene Tippreihen gibt es in der Elfer Wette des Fuÿball-
totos?
Es handelt sich um Variationen aus den
k
11
mit Wiederholung, also gibt es n = 3
n = 3 Zahlen 0, 1 und 2 zur k = 11-ten Klasse
= 177.147 verschiedene Tippreihen in der 11er
Wette des Fuÿballtotos.
Beispiel 8.10.
In einer Bar gibt es 12 verschiedene Cocktails zur Auswahl. Ein Gast
möchte sich vier Drinks am Abend gönnen, wobei es ihm auf die Reihenfolge nicht
ankommt und Wiederholungen zulässig sind. Wieviel verschiedene Möglichkeiten der
Bestellung hat er?
Da die Reihenfolge nicht beachtet wird, handelt es sich um eine Kombination von n = 12
=
k = 4-ten Klasse mit Wiederholung. Es gibt also 12+4−1
4
1.365 verschiedene Möglichkeiten für den Zecher.
Sorten von Cocktails zur
Wieviel Möglichkeiten gibt es 12 ununterscheidbare Kugeln auf vier Urnen zu verteilen?
Es handelt sich um eine Kombination von n
4+12−1
Wiederholung. Es gibt deshalb
= 15
12
12
der Verteilung auf die Urnen.
= 4 Urnen zur k = 12-ten Klasse mit
= 15
= 455 verschiedene Möglichkeiten
3
115
8 Kombinatorik
8.6 Die binomische Formel
Die Binomialkoezienten verdanken ihre Bezeichnung der binomischen Formel:
n n 0
n n−1 1
n n−k k
n 0 n
(a + b) =
a ·b +
a
· b + ··· +
a
· b + ··· +
a ·b .
0
1
k
n
n
Man kann sich diese Formel wie folgt herleiten. Für jeden Term
gleichen Faktoren
(a + b)
tion k-ter Klasse aus den
genau k-mal ein
n
a
ak bn−k
muss aus den
n
ausgesucht werden, das ist eine Kombina-
Termen ohne Wiederholung und ohne Berücksichtigung der
n
Möglichkeiten diesen Term zu bilden.
k
Reihenfolge, also gibt es genau
8.7 Kombinatorische Excel-Funktionen
Die Formeln der Kombinatorik enthalten meistens die Fakultät und die Binomialkoefzienten. In Excel heiÿt die Funktion zur Berechnung der Fakultät einer natürlichen
Zahl wenig überraschend FAKULTÄT, entsprechend ist etwa FAKULTÄT(5)
Binomialkoezienten geben an, wieviel Möglichkeiten es gibt,
k
= 120. Die
Elemente ohne Berück-
sichtigung der Reihenfolge und ohne Zurücklegen auszuwählen. Manchmal soll nicht nur
eine Gruppe der Gröÿe
kr .
k
ausgewählt werden, sondern
Die Gesamtgröÿe ist dann
n = k1 + k2 + · · · + kr .
r
Gruppen der Gröÿen
k1 , k2
bis
Die POLYNOMIAL-Funktion in
Excel liefert die Anzahl aller Möglichkeiten einer Auswahl wie beschrieben und lautet
somit
P OLY N OM IAL(k1 ; k2 ; . . . ; kr ) =
Im Sonderfall
(k1 + k2 + · · · kr )!
.
k1 !k2 ! · · · kr !
r = 2 ist daher
k1 + k2
k1 + k2
=
= P OLY N OM IAL(k1 ; k2 ).
k1
k2
oder
n
n
=
= P OLY N OM IAL(k; n − k).
k
n−k
Somit ist etwa
30
30
=
= P OLY N OM IAL(12; 18) = 86.493.225,
12
18
aber bitte nicht
P OLY N OM IAL(30; 12)
8.8 Aufgaben
Aufgabe 1.
Ein Tischtennistrainer entscheidet, dass jeder seiner sechs Schützlinge zum
Abschluss noch einen Satz gegen ihn spielen muss. Wieviel Reihenfolgen gibt es?
116
8.8 Aufgaben
Aufgabe 2. Eine Gruppe von 12 Schülern muss sich in der Jugendherberge auf zwei Einzelzimmer, zwei Dreibettzimmer und ein Vierbettzimmer verteilen. Wieviel verschiedene
Belegungen gibt es?
Aufgabe 3. Wieviel verschiedene Möglichkeiten gibt es bei der Ziehung der Lottozahlen
im Spiel 6 aus 49, wo aus den 49 ersten Zahlen 6 Zahlen zufällig gezogen werden.
Aufgabe 4.
Wieviel vierstellige Zahlen mit ungeraden Ziern gibt es? (Engel)
Aufgabe 5.
Wieviel vierstellige Zahlen mit ungeraden Ziern gibt es, wenn jede Zier
höchstens einmal vorkommen darf ?
Aufgabe 6. Auf einem Ball wollen einen bestimmten Tanz zehn Damen und fünf Herren
tanzen. Wieviel Möglichkeiten gibt es fünf Damen tanzen zu lassen?
Aufgabe 7.
Auf dem Weihnachtsmarkt bietet ein Wagen vier verschiedene Sorten von
Mohrenköpfen für 50 Cent an. Ein Kind darf sich für vier Euro eindecken. Wieviel
verschiedene Zusammenstellungen sind möglich?
Aufgabe 8. Für 20 Studenten werden drei Sprachkurse angeboten. Wieviel verschiedene
Zusammenstellungen sind möglich?
Aufgabe 9.
Aus drei verschiedenen Briefmarkenserien mit
e
1,00-Marken sollen al-
le Möglichkeiten zusammengestellt werden, mit denen man einen 5
e-Brief
frankieren
kann, wobei die Reihenfolge der Marken keine Rolle spielt. (Quelle: Clara-SchumannGymnasium in Lahr/Schwarzwald, Andreas Brinken).
117
9 Spezielle diskrete Verteilungen
9.1 Übersicht
Thema dieses Kapitels sind spezielle diskrete Verteilungen
- Die diskrete Gleichverteilung
- Die Bernoulli-Verteilung
- Die Binominalverteilung
- Die hypergeometrische Verteilung
- Die Poissonverteilung
- Die geometrische Verteilung
9.2 Diskrete Zufallsvariable
Bisher haben wir nur Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen betrachtet. Dann kann die Zufallsvariable nur endlich viele Werte annehmen. Ist der Wahrscheinlichkeitsraum dagegen abzählbar unendlich, kann es auch abzählbar unendlich viele Werte für eine Zufallsvariable geben. Ansonsten ändert sich nichts an der Denition einer
Zufallsvariablen.
Denition 9.1.
(Ω, P ) ein abzählbarer Wahrscheinlichkeitsraum. Dann nennt
man eine beliebige Abbildung X : Ω → R eine Zufallsvariable , d.h. eine Zufallsvariable
ordnet den Ergebnissen des Ω zugrundeliegenden Zufallsexperiments Zahlen zu. Die von
Es sei
der Zufallsvariablen angenommenen Werte werden als Zielbereich bezeichnet.
Eine Teilmenge von
R
heiÿt diskret, wenn alle Abstände zwischen je zwei Elemen-
ten der Menge gröÿer als eine feste Zahl
eine diskrete Menge ist, wird als
ε
sind. Eine Zufallsvariable, deren Zielnereich
diskrete Zufallsvariable
bezeichnet. Eine Menge ist ge-
nau dann diskret, wenn sie endlich ist oder abzählbar unendlich ohne Häufungspunkte.
Eine diskrete Zufallsvariable hat also einen endlichen oder abzählbar unendlichen Wertebereich ohne Häufungspunkte. Um unnötige Komplikationen zu vermeiden, sei angenommen, dass der Zielbereich aus einer endlichen oder abzählbar unendlichen streng
monoton wachsenden Folge
x1 , x2 ,
...,
mit einer bestimmten Wahrscheinlichkeit
xn , . . . von Zahlen besteht. Jeder Wert wird
fi = f (xi ) angenommen. Die Funktion f hat
119
9 Spezielle diskrete Verteilungen
für alle anderen Stellen
nannt. Die Paare
x 6= xi
den Wert 0 und wird
(xi , fi ) werden Verteilung
Wahrscheinlichkeitsfunktion
ge-
der Zufallsvariablen genannt. Wenn man die
Verteilung kennt, vergisst man den ursprünglichen Wahrscheinlichkeitsraum, und arbeitet nur noch damit. Die beiden wichtigsten Kenngröÿen einer Zufallsvariablen sind der
Erwartungswert und die Varianz, die sich aus der Verteilung wie folgt ergeben:
E(X) =
Var(X) =
n
X
i=1
n
X
xi f i ,
(9.1)
x2i fi − E(X)2 .
(9.2)
i=1
Sollten abzählbar unendlich viele Werte vorliegen, liegt die Obergrenze der Summation
bei
∞.
Dann müssen die beiden Formeln auf Konvergenz untersucht werden.
In diesem Kapitel werden besonders wichtige Verteilungen vorgestellt, die bestimmte Bedingungen erfüllen und mit denen konkrete Probleme modelliert werden können.
Meistens werden die speziellen Verteilungen durch einige wenige Parameter gekennzeichnet.
9.3 Diskrete Gleichverteilung
Die wohl einfachste diskrete Verteilung ist die
Denition 9.2.
tern
m
und
n,
Gleichverteilung .
X heiÿt gleichverteilt mit den Paramem, m + 1, . . . m + n − 1 mit gleicher Wahrscheinlichkeit
Eine diskrete Zufallsvariable
wenn die Werte
angenommen werden.
Bezeichnung
X ∼ U (m, n).
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:
(
1/n x = m, m + 1, . . . , m + n − 1
f (x) =
0,
sonst.
2m + n − 1
,
E(X) =
2
n2 − 1
Var(X) =
.
12
(9.3)
(9.4)
(9.5)
Kurzbeschreibung und Anwendungen:
-
n ganzzahlige Werte m, m + 1, . . . m + n − 1 treten mit gleicher Wahrscheinlichkeit
1/n auf.
- Beim Werfen eines fairen Würfels treten die Augenzahlen 1, 2, . . . , 6 auf.
- Beim Roulette fallen die 37 Zahlen 0, 1, 2 bis 36, also sind
120
m=0
und
n = 37.
9.4 Bernoulli-Verteilung
Die Verteilung und die kumulierte Verteilung der Zufallsvariablen
X
der Augenzahl eines
fairen Würfels zeigt die Abbildung 7.4 auf Seite 105.
m = 1 und n = 6 und somit E(X) = (2 + 6 − 1)/2 = 3, 5 sowie
Var(X) = (6 − 1)/12 = 2, 916667. Das stimmt mit den bereits über die Verteilung
Hier sind also
2
berechneten Werten überein.
9.4 Bernoulli-Verteilung
Bei einem sogenannten Bernoulli-Experiment wird nur unterschieden, ob ein bestimmtes
A eingetreten ist oder nicht. Die Wahrscheinlichkeit des Eintretens von A wird
p bezeichnet, das zu A komplementäre Ereignis Ā hat deshalb die Wahrscheinlichkeit
q = 1 − p. Wenn A eintritt, erhält die Zufallsvariable X den Wert 1, sonst den Wert 0.
Ereignis
mit
Die zugehörigen Zufallsvariablen haben eine Bernoulli-Verteilung.
Denition 9.3. Eine diskrete Zufallsvariable X mit den Werten 0 und 1 heiÿt Bernoulli-
verteilt
mit dem Parameter
p,
wenn der Wert 1 mit der Wahrscheinlichkeit
p
angenom-
men wird.
Bezeichnung
X ∼ Be(p).
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:


1 − p x = 0
f (x) = p
x=1


0,
sonst.
(9.6)
E(X) = p,
Var(X) = p(1 − p).
(9.7)
(9.8)
Die Formeln für den Erwartungswert und die Varianz einer mit dem Parameter
Bernoulli-verteilten Zufallsvariablen
X
p
ergeben sich wie folgt
E(X) = b1 f1 + b2 f2 = 0 · (1 − p) + 1 · p = p,
Var(X) = b21 f1 + b22 f2 − p2 = 02 · (1 − p) + 12 · p − p2 = p(1 − p) = pq.
Kurzbeschreibung und Anwendungen:
- Ein bestimmtes Ereignis tritt mit der Wahrscheinlichkeit
p
auf.
- Beim Wurf einer fairen Münze werden die Ergebnisse Wappen und Zahl mit 0 und
1 kodiert,
p = 1/2.
- Beim Werfen eines fairen Würfels tritt die Augenzahl 6 mit der Wahrscheinlichkeit
p = 1/6
auf.
- Beim Roulette fällt die Zahl 13 mit der Wahrscheinlichkeit
p = 1/37.
121
9 Spezielle diskrete Verteilungen
Beispiel 9.1.
Eine Mutter verspricht ihrer Tochter einen Euro, wenn die Augenzahl bei
einem Wurf mit einem fairen Würfel höher als 2 ist.
A
Das Ereignis
X
E(X) = 2/3
Ausgang
sind hier die ganzen Zahlen von 3 bis 6, somit ist
des Spiels gilt
X ∼ Be(2/3). Der Erwartungswert
Var(X) = p(1 − p) = 2/9.
p = 2/3.
Für den
des Spiels ist folglich
und die Varianz ist
9.5 Binomialverteilung
Binomialverteilte Zufallsvariablen entstehen, wenn ein Bernoulli-Experiment
n-mal
un-
abhängig voneinander wiederholt wird, d.h. die einzelnen Experimente beeinussen sich
p
gegenseitig nicht, haben aber immer dieselbe Wahrscheinlichkeit
Zufallsvariable
X
zählt die Anzahl der Erfolge, daher kann
annehmen. Auÿerdem ist
X
die Summe von
n
X
für einen Erfolg. Die
nur die Werte 0 bis
n
unabhängigen Bernoulli-verteilten Zu-
fallsvariablen.
Denition 9.4.
werde
n-mal
Ein Bernoulli-Experiment mit der Wahrscheinlichkeiten
welche die Anzahl der Erfolge zählt,
Bezeichnung:
p
für Erfolg
X,
Parametern n und p.
unabhängig wiederholt. Dann heiÿt die Verteilung der Zufallsvariablen
Binominalverteilung
mit dem
X ∼ B(n, p).
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:
( n
f (x) =
x
px (1 − p)n−x
0,
x = 0, 1, . . . , n,
(9.9)
sonst.
E(X) = np,
Var(X) = np(1 − p).
(9.10)
(9.11)
Kurzbeschreibung und Anwendungen:
n unabhängigen Bernoulli-Experimente
keit p wird die Anzahl der Erfolge gezählt.
- Bei
mit konstanter Erfolgswahrscheinlich-
- Eine faire Münze wird 10-mal geworfen und die Zufallsvariable
Wappen el, also ist
- Ein fairer Würfel wird 8-mal geworfen und die Zufallsvariable
Zahl 6 el, also ist
X
zählt, wie oft
X ∼ B(10, 1/2).
X
zählt, wie oft die
X ∼ B(8, 1/6).
- Bei einer Verkehrskontrolle nach einem bayrischen Volksfest werden 1.000 Fahrer
auf Alkohol getestet. Ein Fahrer überschreitet mit einer Wahrscheinlichkeit von
42 Prozent die zulässige Obergrenze. Die Zufallsvariable
somit ist
122
X ∼ B(1.000; 0, 42).
X
misst diese Fälle und
9.5 Binomialverteilung
Die Formel der Wahrscheinlichkeitsfunktion sei kurz begründet.
Zufallsvariablen sind Funktionen von einem Wahrscheinlichkeitsraum
Menge
Ω
einer B(n, p)-verteilten Zufallsvariablen
ω = (s1 , s2 , . . . , sn )
Die Zufallsvariable
X:Ω→R
X
si = 0
Ω
nach
R.
Die
besteht aus allen Folgen der Form
oder
si = 1.
zählt die Anzahl aller Erfolge, also ist
X(ω) = X(s1 , s2 , . . . , sn ) = s1 + s2 + · · · + sn .
Die Wahrscheinlichkeit einer Folge
si = 1 ab. Da
Fehlschlags 1 − p ist,
aller
ω
hängt nur von der Anzahl
x
aller Erfolge, d.h.
in jeder Stufe die Wahrscheinlichkeit eines Erfolgs
bedeuten
x
Erfolge entsprechend
n−x
p
und eines
Fehlschläge, was mit der
Wahrscheinlichkeit
px (1 − p)n−x
eintritt. Genau
x Erfolge und damit n − x Fehlschläge treten mit der Häugkeit
n
x
auf,
also ist die Wahrscheinlichkeit dafür
n x
P (X = x) =
p (1 − p)n−x .
x
Die Formeln für Erwartungswert und Varianz folgen aus der Tatsache, dass eine binomialverteilte Zufallsvariable die Summe von
n unabhängigen Be(p)-verteilten Zufalls-
variablen ist.
Beispiel 9.2.
Die Zufallsvariable
X
messe die Anzahl des Auftretens der Augenzahl 6
bei 6-maligem Würfeln. Zu bestimmen sei der Erwartungswert und die Varianz von
X.
Danach berechne man die Wahrscheinlichkeiten für keine 6, eine 6 sowie höchstens und
mindestens eine 6.
Die Zufallsvariable
X
ist B(6, 1/6)-verteilt. Es gilt also:
E(X) = 6 · 1/6 = 1,
Var(X) = 6 · 1/6 · 5/6 = 5/6,
6
P (X = 0) =
· (1/6)0 · (5/6)6 ≈ 0, 3349
0
6
P (X = 1) =
· (1/6)1 · (5/6)5 ≈ 0, 4019
1
P (X ≤ 1) = P (X = 0) + (X = 1) ≈ 0, 3349 + 0, 4019 = 0, 7368
P (X ≥ 1) = 1 − P (X = 0) ≈ 1 − 0, 3349 = 0, 6651
Beispiel 9.3.
Weil die Tochter des Beispiels 9.1 besonders lieb war, darf sie ausnahms-
weise dreimal würfeln und erhält einen Euro für jeden Wurf, dessen Augenzahl höher
als zwei ausfällt. Die Zufallsvariable ihres Gewinns sei mit
E(X)
und
X
bezeichnet. Bestimmen Sie
Var(X).
Hier wird das Bernoulli-Experiment des Beispiels 9.1 dreimal unabhängig wiederholt,
also ist
X ∼ B(3, 2/3).
Daher sind
E(X) = 3 · 2/3 = 2
und
Var(X) = 3 · 2/9 = 2/3
123
9 Spezielle diskrete Verteilungen
9.5.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Die Binomialverteilung tritt im Zusammenhang mit Urnenproblemen auf. Es sei eine
Urne mit 6 schwarzen und 14 weiÿen Kugeln betrachtet. Es wird zehnmal eine Kugel
gezogen, die Farbe notiert und danach wird die Kugel wieder in die Urne zurückgelegt.
Die Anzahl
X
gezogener schwarzer Kugeln ist eine B(10;0,3)-verteilte Zufallsvariable.
Mit der Formel (9.9) für die Verteilung können wir damit u.a. folgende Fragen beantworten: Wie groÿ sind die Wahrscheinlichkeiten für 0, 3 und 8 Erfolge? Die Antworten
sind auf vier Stellen gerundet 0,0282, 0,2668 und 0,0014. Sei beispielhaft der Wert für
f (3)
vorgerechnet:
10
f (3) = b(3; 10, 0, 3) =
· 0, 33 · 0, 77 = 120 · 0, 027 · 0, 0823543 ≈ 0, 2668
3
Ich werde die Wahrscheinlichkeitsfunktion einer B(n, p)-verteilten Zufallsvariable mit
b(x; n, p)
bezeichnen.
Genauso wichtig sind die Werte der kumulierten Verteilung, da man häug Fragen beantworten will wie: Mit welcher Wahrscheinlichkeit werden höchstens drei Erfolge erzielt.
Die Antwort liefert die kumulierte Verteilung
F (x),
die ich mit
B(x; n, p)
bezeichnen
werde. Somit ist
F (3) = B(3; 10, 0, 3) = b(0; 10, 0, 3) + b(1; 10, 0, 3) + b(2; 10, 0, 3) + b(3; 10, 0, 3)
10
10
10
10
0
10
1
9
2
8
=
0, 3 · 0, 7 +
0, 3 · 0, 7 +
0, 3 · 0, 7 +
0, 33 · 0, 77
0
1
2
3
≈ 0, 6496
Es wird also neben der Wahrscheinlichkeitsfunktion auch die kumulierte Verteilung
benötigt. In der folgenden Abbildung sehen Sie die beiden Verteilungen und die zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion einer B(10;
0,3)-verteilten Zufallsvariablen.
Die Berechnungen sind mühsam! Excel ab 2007 stellt die Funktion BINOMM.VERT
bereit. Dafür sind die folgenden Angaben erforderlich:
1.
x:
Die Anzahl der in der Stichprobe erzielten Erfolge.
2.
n:
Der Umfang (Gröÿe) der Stichprobe.
3.
p:
Die Wahrscheinlichkeit eines Erfolgs.
4. Kumuliert Ein Wahrheitswert, der den Typ der Funktion bestimmt. Ist Kumuliert
mit WAHR belegt, berechnet BINOM.VERT den Wert der Verteilungsfunktion.
Ist Kumuliert mit FALSCH belegt, gibt die Funktion den Wert der Wahrscheinlichkeitsfunktion zurück.
Bitte achten Sie genau auf die Reihenfolge der Argumente! Die Werte von
und
B(3; 10, 0, 3)
ergeben sich also durch BINOM.VERT(3;10;0,3;FALSCH) bzw. BI-
NOM.VERT(3;10;0,3;WAHR).
124
b(3; 10, 0, 3)
9.6 Hypergeometrische Verteilung
k
0
1
2
3
4
5
6
7
8
9
10
b(k;n,p)
0,02824752
0,12106082
0,23347444
0,26682793
0,20012095
0,10291935
0,03675691
0,00900169
0,0014467
0,00013778
5,9049E-06
B(k;n,p)
0,028247525
0,149308346
0,382782786
0,649610718
0,849731667
0,952651013
0,989407922
0,998409614
0,999856314
0,999994095
1
Verteilungsfunktion für B(10,0,3)
F(x)
1
0,8
0,6
0,4
0,2
0
-1
0
1
2
3
4
5
6
7
8
9 10 11
Anzahl Erfolge
Wahrscheinlichkeitsfunktion für B(10,0,3)
Histogramm für B(10, 0,3)
0,3
0,3
0,2
0,2
0,1
0,1
0
0
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
9.6 Hypergeometrische Verteilung
Die hypergeometrische Verteilung und die Binomialverteilung sind eng verwandt. Beim
Urnenmodell ergibt sich die Binomialverteilung, wenn gezogene Kugeln wieder zurückgelegt werden und die hypergeometrische Verteilung, wenn dies unterbleibt. Es sei nochmals die Urne mit 6 schwarzen und 14 weiÿen Kugeln betrachtet. Wieder werden zehn
Kugeln gezogen, aber diesmal ohne Zurücklegen. Die Anzahl
X
gezogener schwarzer
Kugeln ist eine hypergeometrisch verteilte Zufallsvariable. Im allgemeinen Fall gibt es
N
Kugeln, wovon
M
schwarz sind. Aus dieser Urne werden
ander ohne Zurücklegen entnommen und die Anzahl
X
n
Kugeln zufällig nachein-
der schwarzen Kugeln gezählt.
Verallgemeinert man die Kugeln zu beliebigen Objekten, wovon Teile eine gewünschte
Eigenschaft haben, kommt man zu folgender Denition.
Denition 9.5.
In einer Menge von
N
Dingen werden
träger angesehen. Die diskrete Zufallsvariable
n-maligem Ziehen (1
Zufallsvariablen
Bezeichnung:
≤ n ≤ N)
X
M (1 ≤ M ≤ N )
als Erfolgs-
zählt die Anzahl der Erfolgsträger bei
ohne Zurücklegent. Dann heiÿt die Verteilung dieser
hypergeometrische Verteilung
mit den Parametern
n, M, N .
X ∼ H(n, M, N ).
125
9 Spezielle diskrete Verteilungen
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:
 M N −M
 ( x )( n−x )
(Nn )
f (x) = h(x; n, M, N ) =
0,
M
E(X) = n · ,
N
n(N − n) M
M
Var(X) =
1−
.
N −1 N
N
x = 0, 1, . . . , min(n, M )
sonst.
(9.13)
(9.14)
Ich werde die Wahrscheinlichkeitsfunktion mit
H(x; n, M, N ) bezeichnen.
n der Stichprobe, dann die
Anzahl N der Objekte.
(9.12)
h(x; n, M, N ) und die Verteilungsfunk-
tion mit
Bitte auf die Reihenfolge achten: Zuerst kommt die
Gröÿe
Anzahl
M
der Erfolgsträger und zum Schluss die
Kurzbeschreibung und Anwendungen:
- Unter
N
Objekten gibt es
M
Erfolgsträger, es wird n-mal ohne Zurücklegen gezo-
gen.
- In einer Warensendung vom Umfang
Stücke. Die Zufallsvariable
vom Umfang
n=8
X
N = 100
M = 5
benden sich
fehlerhafte
zählt, wieviel fehlerhafte Stücke in einer Stichprobe
sind, also ist
X ∼ H(8, 5, 100).
- Von einem Flug aus Zürich kehren
N = 100
Reisende zurück, von denen
Schwarzgeld mit sich führen. Die Zufallsvariable
der Zoll in einer Stichprobe vom Umfang
X
M = 50
zählt, wieviel Steuerhinterzieher
n = 12 ndet, also ist X ∼ H(12, 50, 100).
.
Bemerkung 9.1.
Ersetzt man in den Voraussetzungen der hypergeometrischen Vertei-
lung Ziehen ohne Zurücklegen durch Ziehen mit Zurücklegen, so erhält man statt einer
H(n;M;N)-Verteilung eine B(n;M/N)-Verteilung.
Die Formel für die Wahrscheinlichkeitsfunktion lässt sich am Urnenmodell herleiten.
Es werden also
n Kugeln aus einer Urne mit N
Kugeln gezogen, wovon
M
Kugeln schwarz
sind. Gefragt ist nach der Wahrscheinlichkeit x schwarze Kugeln zu entnehmen. Hier gibt
N
M N −M
es
Möglichkeiten, wovon
günstig sind. Das Verhältnis der günstigen zu
x
x
n−x
den möglichen Fällen führt zur Formel (9.12). Eine typische Anwendung von (9.12) zeigt
das folgende Beispiel.
Beispiel 9.4. Wie groÿ ist die Wahrscheinlichkeit für genau 3 und für höchstens 3 Richtige im Zahlenlotto?
Die Stichprobe hat die Gröÿe
n = 6,
davon sind
träger, die Anzahl der richtigen Zahlen
P (X = 3) = h(3; 6, 6, 49) =
6
3
X
49−6
6−3
49
6
M =6
der
N = 49
Zahlen die Erfolgs-
ist H(6, 6, 49)-verteilt. Es gilt also:
≈ 0, 0177,
P (X ≤ 3) = H(3; 6, 6, 49)
= h(0; 6, 6, 49) + h(1; 6, 6, 49) + h(2; 6, 6, 49) + h(3; 6, 6, 49) ≈ 0, 9990
126
9.6 Hypergeometrische Verteilung
Erwartungswert und Varianz haben die Werte 3 und 11,105263158.
Excel stellt ab 2007 die Funktion HYPGEOM.VERT bereit. Dafür sind die folgenden
Angaben erforderlich:
1.
x:
Die Anzahl der in der Stichprobe erzielten Erfolge.
2.
n:
Der Umfang (Gröÿe) der Stichprobe.
3.
M:
Die Anzahl der in der Grundgesamtheit möglichen Erfolge.
4.
N:
Der Umfang (Gröÿe) der Grundgesamtheit.
5. Kumuliert Ein Wahrheitswert, der den Typ der Funktion bestimmt. Ist Kumuliert
mit WAHR belegt, berechnet HYPGEOM.VERT den Wert der Verteilungsfunktion. Ist Kumuliert mit FALSCH belegt, gibt die Funktion den Wert der Wahrscheinlichkeitsfunktion zurück.
Bitte achten Sie genau auf die Reihenfolge! Der erste Parameter ist die Anzahl der
Erfolge in der Stichprobe gefolgt vom Parameter für die Gröÿe der Stichprobe. Der
dritte Parameter beschreibt die Anzahl der Erfolge in der Grundgesamtheit und der
letzte die Gröÿe der Grundgesamtheit.
Damit lassen sich die Verteilung und die kumulierte Verteilung der Zufallsvariablen
des Beispiels der Urne mit den 6 schwarzen und 14 weiÿen Kugeln berechnen. In der
folgenden Abbildung sehen Sie zusätzlich das Histogramm der H(10, 6, 20)-verteilten
Zufallsvariablen.
n
M
N
10
6
20
x h(x; n, M, N) H(x; n, M, N)
0 0,0054180 0,0054180
1 0,0650155 0,0704334
2 0,2438080 0,3142415
3 0,3715170 0,6857585
4 0,2438080 0,9295666
5 0,0650155 0,9945820
6 0,0054180 1,0000000
Histogramm von X ~ H(10, 6, 20)
0,4
0,3
0,2
0,1
0,0
0
1
2
3
4
5
6
Abbildung 9.1: Verteilung einer H(10, 6, 20)-verteilten Zufallsvariablen
Wir können damit u.a. folgende Fragen beantworten: Wie groÿ sind die Wahrscheinlichkeiten für das Ziehen von 0, 3 und 5 schwarzen Kugeln? Die Antworten sind 0,005418,
0,371517 und 0,0650155. Sei beispielhaft der Wert für
f (5) = h(5; 10, 6, 20)) =
6
20−6
5
10−5
20
10
=
f (5)
vorgerechnet:
6 · 2002
= 0, 0650155
184.756
Genauso wichtig sind die Werte der kumulierten Verteilung. Mit einer Wahrscheinlichkeit von 0,6857585 werden höchstens drei schwarze Kugeln und mit einer Wahrscheinlichkeit von
1 − 0, 6857585 = 0, 3142415
mindestens vier schwarze Kugeln gezogen.
127
9 Spezielle diskrete Verteilungen
9.7 Poissonverteilung
Diese Verteilung tritt auf, wenn viele Kunden unabhängig voneinander eine Dienstleistung beanspruchen und deshalb nicht vorherzusehen ist, wann dies geschieht, aber
trotzdem die durchschnittliche Anzahl in einer bestimmten Zeiteinheit bekannt oder
zumindest gut abgeschätzt werden kann. Ein Kiosk soll beispielsweise innerhalb 10 Minuten durchschnittlich von
λ = 1, 5
Kunden besucht werden. Gefragt sind dann etwa
die Wahrscheinlichkeiten dafür, dass innerhalb von 10 Minuten genau oder höchstens 3
Kunden ankommen. Statistische Probleme dieser Art stellen sich auch in Call-Centern
und jeder Art von Bedienungsschaltern. Bitte beachten Sie, dass der Parameter
λ
ein
Mittelwert ist und somit nicht ganzzahlig sein muss.
Denition 9.6.
Bestimmte Ereignisse treten in einem gegebenen Zeitraum im Durch-
λ-mal unabhängig voneinander ein. Dann heiÿt die Verteilung der ZufallsvariaX , welche die Anzahl des Eintretens der Ereignisse zählt, Poissonverteilung mit
Parameter λ.
schnitt
blen
dem
Bezeichnung:
X ∼ P s(λ).
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:
(
f (x) = ps(x; λ) =
λx −λ
e
x!
x = 0, 1, 2, 3, . . . , n, . . .,
0,
sonst.
E(X) = λ,
Var(X) = λ.
(9.16)
(9.17)
Ich werde die Wahrscheinlichkeitsfunktion mit
mit
P s(x; λ)
(9.15)
ps(x; λ)
und die Verteilungsfunktion
bezeichnen.
Bemerkung 9.2.
Die Poissonverteilung ist für alle ganzen nichtnegativen Zahlen
deniert, aber für groÿe Werte von
x
x konvergiert ps(x; λ) rasch gegen 0. Die Poissonver-
teilung ist nach dem französischen Mathematiker Simeon Denis Poisson benannt. Dieser
erkannte, dass die Binomialverteilung durch die Poissonverteilung approximiert werden
kann, wenn
n ≥ 50
und
p ≤ 0, 1
sind mit
λ = np.
Kurzbeschreibung und Anwendungen:
- Poissonverteilungen ergeben sich bei der Messung von Ankünften an Schaltern,
wenn die einzelnen Ankünfte unabhängig voneinander eintreten und die durchschnittliche Zahl der Ankünfte in einer bestimmten Zeiteinheit bekannt ist. Die
Poissonverteilung wird auch für
n ≥ 50
und
p ≤ 0, 1
statt der Binomialverteilung
verwendet.
- Ein Servicetechniker eines Druckmaschinenherstellers hat innerhalb einer Nacht
durchschnittlich 1,5 Einsätze, also gilt für die Anzahl
P s(1, 5).
128
X
seiner Einsätze
X ∼
9.7 Poissonverteilung
- In einem bestimmten von der Welt abgeschnittenen Dorf in den Anden haben
5 Prozent einen bestimmten Gendefekt. Es werden 200 Einwohner zufällig aus-
X von Personen mit diesem Gendefekt ist binomialverteilt,
also X ∼ B(200; 0, 05), aber man könnte näherungsweise die Poissonverteilung
X ∼ B(10) verwenden.
gewählt. Die Anzahl
Excel ab 2007 stellt die Funktion POISSON.VERT bereit. Dafür sind die folgenden
Angaben erforderlich:
1.
x:
Die Anzahl der in der Stichprobe erzielten Erfolge.
2.
λ:
Die durchschnittliche Anzahl von Erfolgen.
3. Kumuliert Ein Wahrheitswert, der den Typ der Funktion bestimmt. Ist Kumuliert
mit WAHR belegt, berechnet POISSON.VERT den Wert der Verteilungsfunktion.
Ist Kumuliert mit FALSCH belegt, gibt die Funktion den Wert der Wahrscheinlichkeitsfunktion zurück.
Damit lassen sich die Verteilung und die kumulierte Verteilung der Zufallsvariablen
X
des Beispiels des Servicetechnikers mit den durchschnittlich 1,5 Nachteinsätzen be-
rechnen. In der folgenden Abbildung sehen Sie zusätzlich das Histogramm der Ps(1,5)verteilten Zufallsvariablen.
λ
0
1
2
3
4
5
6
7
8
1,5
ps(x;λ)
0,2231302
0,3346952
0,2510214
0,1255107
0,0470665
0,0141200
0,0035300
0,0007564
0,0001418
Ps(x;λ)
0,2231302
0,5578254
0,8088468
0,9343575
0,9814241
0,9955440
0,9990740
0,9998304
0,9999723
Histogramm von X ~ Ps(1,5)
0,4
0,3
0,2
0,1
0,0
0
1
2
3
4
5
6
7
8
Abbildung 9.2: Verteilung einer Ps(1,5)-verteilten Zufallsvariablen
Wir können damit u.a. folgende Fragen beantworten: Wie groÿ sind die Wahrscheinlichkeiten für genau bzw. höchstens 3 Einsätzen in einer Nacht? Zur Übung seien die
Werte auch vorgerechnet:
P (X = 3) = ps(3; 1, 5) = (1, 53 /3!)e−1,5 = 0, 5625 · 0, 22313016 ≈ 0, 1255
P (X ≤ 3) = P s(3; 1, 5) = (1, 50 /0! + 1, 51 /1! + 1, 52 /2! + 1, 53 /3!)e−1,5 ≈ 0, 9344
129
9 Spezielle diskrete Verteilungen
9.8 Die geometrische Verteilung
Wie die Binomialverteilung basiert auch die geometrische Verteilung auf einem mehrmals wiederholten Bernoulli-Experiment. Wieder sei
p
die Erfolgswahrscheinlichkeit für
das Eintreen des Ereignisses. Das Zufallsexperiment wird bis zum erstmaligen Auftreten eines Erfolgs wiederholt, der Wert der Zufallsvariablen
X
ist dann die Anzahl der
benötigten Versuche. Hier gilt
P (X = 1) = p,
P (X = 2) = (1 − p)p,
P (X = 3) = (1 − p)2 p.
Denition 9.7.
Ein Bernoulliexperiment wird bis zum erstmaligen Erfolg wiederholt.
Dann heiÿt die Verteilung der Zufallsvariablen
rimente bis zum ersten Erfolg zählt,
Bezeichnung:
X,
welche die Anzahl der nötigen Expe-
geometrische Verteilung
mit dem Parameter
p.
X ∼ Geom(p).
Wahrscheinlichkeitsfunktion, Erwartungswert und Varianz:
f (x) = geom(x; p) = (1 − p)x−1 p, x = 0, 1, 2, 3, . . . , n, . . .
1
E(X) = ,
p
1−p
.
Var(X) =
p2
Ich werde die Wahrscheinlichkeitsfunktion mit
mit
Geom(x; p)
(9.18)
(9.19)
(9.20)
geom(x; p) und die Verteilungsfunktion
bezeichnen.
Anwendungen:
- Ein Mitarbeiter eines Call-Centers zählt die Anzahl der Telefonate, bis zum ersten
Abschluss.
- Ein verzweifeltes Kind zählt die Anzahl der Würfe bis zur ersten Sechs.
- Jedes fünfte Auto in Japan ist ein ausländisches Fabrikat. Ein Mitarbeiter einer
Tankstelle zählt alle Fahrzeuge bis zum erstmaligem Erscheinen eines nicht japanischen Models.
9.9 Aufgaben
Aufgabe 1.
genzahl
X
Ein fairer Würfel werde solange gewürfelt, bis zum ersten Mal die Au-
eine ungerade Zahl ist, also
X = 1, X = 3, oder X = 5. Geben Sie die
X in tabellarischer Form an und zeichnen
Verteilung und die kumulierte Verteilung von
130
9.9 Aufgaben
Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Finden Sie eine diskrete gleichverteilte Zufallsvariable
und
b.
Y,
so dass
X = aY + b
mit geeigneten reellen Zahlen
Bestimmen Sie damit Erwartungswert und Varianz der Zufallsvariablen
Aufgabe 2.
a
X.
Eine Fernsehsendung wird von 40 Prozent der erwünschten Zielgruppe ge-
sehen. Bei einer Befragung werden sechs Mitglieder der Zielgruppe zufällig ausgewählt
und zur Sendung befragt. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie
deren Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen
Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ ist die Wahrscheinlichkeit, dabei auf keinen einzigen, genau einen oder genau zwei, höchstens zwei
oder mindestens drei Zuschauer zu stoÿen? Bestimmen Sie abschlieÿend Erwartungswert
und Varianz der zugrundeliegenden Zufallsvariablen.
Aufgabe 3.
Ein Arbeiter fertigt 9 Werkstücke, von denen 3 fehlerbehaftet sind, davon
werden 4 Werkstücke überprüft. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben
Sie deren Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ ist die
Wahrscheinlichkeit, dass bei der Überprüfung von den 4 Werkstücken kein oder genau
ein Werkstück, zwei oder höchstens zwei bzw. mindestens zwei Stücke fehlerbehaftet
sind? Bestimmen Sie abschlieÿend Erwartungswert und Varianz der zugrundeliegenden
Zufallsvariablen.
Aufgabe 4.
In einer Trommel benden sich 100 Lose, wovon 60 Nieten sind. Ein Kind
kauft fünf Lose. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie deren Ver-
teilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie die
Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ sind die Wahrscheinlichkeiten für 0, 3 und 5 Nieten? Wie groÿ sind die Wahrscheinlichkeiten für höchstens 3
Nieten? Bestimmen Sie abschlieÿend Erwartungswert und Varianz der zugrundeliegenden Zufallsvariablen.
Aufgabe 5.
In einem kleinen Krankenhaus wird durchschnittlich pro Tag ein Neuge-
borenes entbunden. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie deren
Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie das
Histogramm! Wie groÿ ist die Wahrscheinlichkeit, dass an einem Tag in dieser Klinik
kein, genau ein sowie höchstens und mindestens ein Baby geboren wird? Bestimmen Sie
dann Erwartungswert und Varianz der zugrundeliegenden Zufallsvariablen. Wie groÿ ist
die Wahrscheinlichkeit, dass an einem Tag mindestens zwei und höchstens vier Babys
geboren werden? Wie groÿ ist die Wahrscheinlichkeit, dass in einer Woche genau 8 Babys
geboren werden?
Aufgabe 6.
Jeder dritte Einwohner Münchens ist ein Zugereister. Ein Reporter des
Bayrischen Rundfunks möchte auf dem Viktualienmarkt einen echten Einheimischen
befragen und wählt zufällig bis zum Erfolg einen der Besucher aus. Bestimmen Sie eine
geeignete Zufallsvariable
X , geben Sie deren Verteilung und die kumulierte Verteilung in
tabellarischer Form an und zeichnen Sie das Histogramm! Wie groÿ ist die Wahrscheinlichkeit, dass schon der erste Befragte ein Bayer ist? Wie groÿ ist die Wahrscheinlichkeit,
dass mindestens die ersten vier Befragten alle zugereist sind?
131
10 Stetige Zufallsvariablen
10.1 Übersicht
Thema dieses Kapitels sind stetige Verteilungen
- Verteilungs- und Dichtefunktion
- Berechnung von Erwartungswert, Varianz und Standardabweichung
- Die Normalverteilung mit Parametern
µ
und
σ
- Die Bedeutung der Standardnormalverteilung
- Quantile und Streubereiche
- Die Summe unabhängiger stetiger Zufallsvariablen
- Der Zentrale Grenzwertsatz
10.2 Einführung
Bisher wurden nur Zufallsvariable betrachtet, die nur endlich oder abzählbar unendlich
viele Werte annehmen. Es gibt aber auch zufallsgesteuerte Ereignisse, die jeden Wert in
einem bestimmten Intervall annehmen. Auch die Ausgänge dieser Ereignisse lassen sich
durch Zufallsvariablen beschreiben, die man
stetige Zufallsvariablen
nennt. Der Begri
deutet an, dass Wertemenge von X nicht diskret ist, sondern ein Kontinuum bildet. Typische Beispiele für stetige Zufallsvariablen sind:
(1) Die Temperatur
(2) Die Lebensdauer
(3) Das Gewicht
(4) Die Höhe
H
G
T am Mittag des nächsten
D eines Smartphones.
Tages.
eines Neugeborenen.
des ersten Gehalts.
Über die Höhe des Gehalts könnte man sagen, dass alle Werte in Euro und Cent angegeben werden und es deshalb nur endlich viele Werte gibt, aber die Beschreibung solcher
Zufallsvariablen wird einfacher, wenn man zumindest theoretisch jeden Wert in einem
bestimmten Bereich zulässt. Allen Beispielen ist gemein, dass der Ausgang zwar nicht
genau vorhersehbar, aber auch nicht völlig beliebig ist. Bei einer Zufallsvariablen wird
133
10 Stetige Zufallsvariablen
die Ungewissheit durch die Forderung begrenzt, dass zu jeder reellen Zahl
scheinlichkeit
x
die Wahr-
P (X ≤ x) bekannt sein soll. Nur wenn der Ausgang eines realen Problems
diese Forderung erfüllt, ist die Modellierung durch eine Zufallsvariable sinnvoll.
Denition 10.1. Der Ausgang X eines Zufallsexperiments wird Zufallsvariable genannt,
wenn der Ausgang eine reelle Zahl ist und es eine
tion
F : R → R
mit
F (x) = P (X ≤ x)
Verteilungsfunktion
genannte Funk-
gibt. Die Verteilungsfunktion muss folgende
Eigenschaften haben:
1.
F
ist monoton wachsend.
2.
F
ist rechtsseitig stetig.
3. Es gelten
F (∞)
F (−∞) = 0
und
für die Grenzwerte
F (∞) = 1, wobei hier und im Folgenden F (−∞) und
limx→−∞ F (x) und limx→∞ F (x) stehen, sofern diese
existieren.
Der Wert
x
F (x) der Verteilungsfunktion einer stetigen Zufallsvariablen X
gibt wie bisher die Wahrscheinlichkeit dafür an, dass die Zufallsvariable
den Wert
x
an der Stelle
X
höchstens
annimmt.
Diese drei Eigenschaften hat jede Verteilungsfunktion. Eine Zufallsvariable wird endlich genannt, wenn die Verteilungsfunktion eine Treppenfunktion ist, die nur endlich
viele Unstetigkeitsstellen
x1 , x2 , . . . , xn
hat. Die zugehörige Zufallsvariable kann nur die-
se Werte annehmen und zwar mit den Wahrscheinlichkeiten
Sprungs der Verteilungsfunktion an der Stellen
xi
pi ,
die gleich der Höhe des
sind. Eine Zufallsvariable wird diskret
genannt, wenn die Verteilungsfunktion eine Treppenfunktion ist, die nur endlich oder
abzählbar unendlich viele Unstetigkeitsstellen ohne Häufungspunkt hat. Zufallsvariablen mit Bernoulli- oder Binomialverteilung sind endlich, solche mit Poissonverteilung
oder der geometrischen Verteilung sind diskret. Auch hier sind die Sprungstellen der
Verteilungsfunktion die möglichen Werte und die Höhen der Sprünge die zugeordneten
Wahrscheinlichkeiten
P (X = xi ).
Zur Modellierung von wie am Anfang dieses Abschnitts aufgeführten Zufallsexperimenten sind Verteilungsfunktionen mit Sprüngen ungeeignet. Daher wird eine weitere
Klasse von Zufallsvariablen eingeführt.
Denition 10.2.
Eine Zufallsvariable heiÿt
stetig , wenn die Verteilungsfunktion F
tig und bis auf endlich viele Punkte stetig dierenzierbar ist. Ihre Ableitung
Dichtefunktion f
F
0
ste-
heiÿt
der stetigen Zufallsvariablen.
Wegen der Stigkeit der Verteilungsfunktion ist die Wahrscheinlichkeit, dass eine stetige
Zufallsvariable einen einzelnen Wert annimmt, gleich Null. Dagegen nimmt eine diskrete
Zufallsvariable jeden ihrer möglichen Werte mit positiver Wahrscheinlichkeit an. Für die
X mit der Verteilungsfunktion F (x)
(a, b), (a, b], [a, b) oder [a, b] annimmt, gilt:
Wahrscheinlichkeit, dass eine Zufallsvariable
Wert in einem der vier Intervalle
einen
P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = F (b) − F (a).
134
10.2 Einführung
Anders als bei diskreten Zufallsvariablen spielt es bei stetigen keine Rolle, ob bei einem
Intervall die Endpunkte dazu gehören oder nicht.
Zur Beschreibung einer stetigen Zufallsvariablen wird nur die Verteilungsfunktion benötigt, deren Werte für wichtige Verteilungen tabelliert werden. Wesentlich anschaulicher
0
als die Verteilungsfunkton F ist ihre Ableitung f = F , also die Dichtefunktion. Diese
hat folgende Eigenschaften:
Z
(1) f (x) ≥ 0;
∞
(2)
Z
(3) P (a ≤ X ≤ b) =
f (x) dx = 1;
b
f (x) dx.
−∞
(10.1)
a
Die Nichtnegativität folgt aus der Monotonie der Verteilungsfunktion, die beiden weiteren Eigenschaften ergeben sich aus dem sogenannten Hauptsatz der Dierential- und
Integralrechnung.
Die Wahrscheinlichkeit
P (a ≤ X ≤ b)
ist gleich dem Inhalt der Fläche, welche durch
f und die x-Achse sowie die Geraden x = a und x = b begrenzt wird.
f (x) stellen selbst keine Wahrscheinlichkeiten dar. Die Dichtefunktion
annehmen, die gröÿer als 1 sind. Setzt man a = −∞ und b = x ergibt
die Dichtefunktion
Die Zahlenwerte
kann also Werte
sich die Verteilungsfunktion aus der Dichtefunktion
Z
x
f (t) dt.
F (x) =
(10.2)
−∞
Zwischen der Dichtefunktion einer stetigen Zufallsvariablen und der Verteilungsfunktion
besteht ein einfacher Zusammenhang. Bei einer stetigen Zufallsvariablen entspricht der
F (x) der Verteilungsfunktion dem Inhalt der Fläche unterhalb der Dichtefunktion
von −∞ bis zum Wert von x. Man erhält also die Verteilungsfunktion durch Integration
Wert
der Dichtefunktion und die Dichtefunktion als Ableitung der Verteilungsfunktion.
Bemerkung 10.1. Eine nichtnegative stetige Funktion f ist also genau dann eine DichF gibt
F0 = f.
tefunktion, wenn es eine Funktion
höchstens endlich viele Stellen ist
Beispiel 10.1.
mit
F (−∞) = 0
und
F (∞) = 1
und bis auf
Die Funktionen
(
exp(−x),
f (x) =
0,
für
für
x ≥ 0;
x<0
(
1 − exp(−x),
F (x) =
0,
für
für
x ≥ 0;
x < 0.
X , denn F ist
0
oensichtlich eine Verteilungsfunktion und bis auf die Stelle x = 0 ist F = f . Somit
ist z.B. P (1 ≤ X < 2) = F (2) − F (1) = exp(−1) − exp(−2) = 0, 232544158. In der
sind die Dichte- und Verteilungsfunktion einer stetigen Zufallsvariable
Abbildung sind die Dichte- und die Verteilungsfunktion zu sehen. Jede Zufallsvariable
mit dieser Verteilung wird als
Exp(1)-verteilt
bezeichnet.
R2
exp(−t) dt, aber
1
die Integration kann ich mir ersparen, da die Verteilungsfunktion bekannt ist. Aus der
Die gesuchte Wahrscheinlichkeit ist die schraerte Fläche, also
Zeichnung lässt sich die gesuchte Wahrscheinlichkeit ungefähr ablesen:
F (2) − F (1) ≈
0, 86 − 0, 63 = 0, 23.
135
10 Stetige Zufallsvariablen
Exponentialverteilung mit λ = 1
f, F
1,1
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
F(x)
f(x)
P(1 0
x
1
2
3
4
Abbildung 10.1: Dichte- und Verteilungsform
Beispiel 10.2.
Auch die Funktionen
(
2x,
f (x) =
0,
für


0,
F (x) = x2 ,


1,
0 ≤ x ≤ 1;
für alle übrigen
x,
für
für
für
x ≤ 0;
0 ≤ x ≤ 1;
x>1
sind Dichte- und die Verteilungsfunktion einer stetigen Zufallsvariablen X , denn F ist
0
eine Verteilungsfunktion und bis auf die Stelle x = 1 gilt F = f . Somit ist z.B. P (0, 1 <
X < 0, 5) = F (0, 5) − F (0, 1) = 0, 24.
10.3 Erwartungswert und Varianz
Der Erwartungswert bei diskreten Verteilungen ist die Summe der mit den Wahrscheinlichkeiten gewichteten Werte der Zufallsvariablen. Bei stetigen Verteilungen wird die
Summenbildung durch die Integration ersetzt.
Denition 10.3.
funktion
f (x)
Der Erwartungswert einer stetigen Zufallsvariable
X
mit der Dichte-
wird durch folgenden Ausdruck festgelegt:
Z
∞
xf (x) dx.
E(X) =
(10.3)
−∞
Der Erwartungswert muss nicht immer existieren, d.h. es gibt Dichtefunktionen, wofür
das obige Integral nicht gebildet werden kann.
Die Varianz ist bei den diskreten Verteilungen die Summe der mit den Wahrscheinlichkeiten gewichteten quadratischen Abweichungen der Werte der Zufallsvariablen vom
Erwartungswert. Bei stetigen Verteilungen wird die Summenbildung durch die Integration ersetzt.
136
10.3 Erwartungswert und Varianz
Denition 10.4.
f (x)
Die Varianz einer stetigen Zufallsvariable
X
mit der Dichtefunktion
wird durch folgenden Ausdruck festgelegt:
∞
Z
(x − E(X))2 f (x) dx.
Var(X) =
(10.4)
−∞
Die positive Quadratwurzel
p
Var(X)
Standardabweichung , geschrieben Std(X).
heiÿt
Auch die Varianz kann nicht für alle Dichtefunktionen bestimmt werden. Wie bei
diskreten Zufallsvariablen wird auch hier die Varianz meist wie folgt berechnet
Z
∞
x2 f (x) dx − E(X)2 .
Var(X) =
(10.5)
−∞
Bemerkung 10.2. Für den Erwartungswert und die Standardabweichung einer Zufallsvariablen werden oft die griechischen Buchstaben
Beispiel 10.3.
µ
und
σ
verwendet.
. Ich berechne jetzt den Erwartungswert, die Varianz und die Standard-
abweichung der Zufallsvariablen des Beispiels 10.2 auf Seite 136.
Der Erwartungswert und die Varianz sind
Z
∞
Z
1
1
2x2 dx = 2x3 /30 = 2/3 − 0 = 2/3.
0
−∞
Z ∞
Z 1
1
2
2
Var(X) =
x f (x) dx − E(X) =
2x3 dx − 4/9 = x4 /20 − 4/9 = 1/18 ≈ 0, 0556,
0
p−∞
√
Std(X) = 1/18 = 2/6 ≈ 0, 2357.
E(X) =
xf (x) dx =
Beispiel 10.4.
Ich berechne jetzt den Erwartungswert, die Varianz und die Standard-
abweichung der Zufallsvariablen des Beispiels 10.2 auf Seite 135. Dabei sind Werte von
bestimmten Integrale zu berechnen, die sich alle als Spezialfälle der folgende Formel
ergeben:
Z
∞
xk λe−λx dx =
0
Nur für Mathematiker: Die Transformation
k
Faktor 1/λ auf Γ(k + 1) = k!.
Da die Dichtefunktion nur für
x≥0
k!
λk
z = λx
(10.6)
führt die linke Seite bis auf den
verschieden von 0 ist und hier
f (x) = e−x
gilt,
sind der Erwartungswert und die Varianz
∞
Z
xe−x dx = 1,
E(X) =
0
Z
denn
k=1
und
∞
x2 e−x dx − E(X)2 = 2 − 1 = 1,
Var(X) =
λ = 1,
denn
k=2
und
λ = 1,
0
Std(X) =
√
1 = 1.
137
10 Stetige Zufallsvariablen
10.4 Einfache Linearkombinationen
Oft ist der Ausgang eines zufälligen Ereignisses abhängig vom Wert einer Zufallsvaria-
G, den eine Maschine abwirft, ist proportional zu ihrer Lebensdauer X ,
abzüglich des einmaligen Anschaungspreises P , also G = aX + P , wobei a der Proportionalitätsfaktor ist. Für jede Zufallsvariable X kann entsprechend die Zufallsvariable
Y = aX + b gebildet werden, wobei a und b beliebige Zahlen sind. Ein solcher Ausdruck
ble. Der Gewinn
sei als einfache Linearkombination bezeichnet. Deren Dichte- und Verteilungsfunktion
erfüllen für
a>0
die Gleichungen
x−b
x−b
1
FY (x) = F
a > 0,
fY (x) = f
a
a
a
1
x−b
x−b
fY (x) =
f
FY (x) = 1 − F
a < 0.
|a|
a
a
Dies folgt für
Für
a < 0
(10.8)
FY (x) = P (aX + b ≤ x) = P (X ≤ (x − b)/a) = F ((x − b)/a).
beachtet werden, dass bei der Division durch a aus ≤ dann ≥ wird.
a>0
muss
(10.7)
aus
Die Formeln für die Dichtefunktion ergeben sich durch Ableiten. Aus der Dichtefunktion
lassen sich die Beziehungen
E(aX + b) = a E(X) + b,
Var(aX + b) = a2 Var(X).
(10.9)
z = (x − b)/a herleiten. Sie sollten sich das aber auch anschaulich
klarmachen: Die Konstante b verschiebt je nach Vorzeichen den Erwartungswert nach
links oder rechts. Der Proportionalitätsfaktor a wirkt sich auf jeden der zufallsabhängigen Werte von X aus und führt zur proportionalen Änderung von Y .
Der zufallsunabhängige Faktor b hat keine Auswirkung auf die Varianz, aber diese
2
wächst proportional zu a .
durch die Substitution
Beispiel 10.5.
Eine GE sei 10.000 Euro, eine Zeiteinheit ein Jahr. Der Aufbau einer
Schwarzbrennerei koste 1 GE und werfe in der Zeit
Behörden den Erlös
3T
T
bis zur Aufdeckung durch die
T für t ≥ 0 durch f (t) = e−t
GE ab, wobei die Zufallsvariable
gegeben ist. Welche Zufallsvariable
G beschreibt den Gewinn, welche Werte haben deren
Erwartungswert, Varianz und Standardabweichung. Wie lautet die Dichte- und Verteilungsfunktion von
G? Wie hoch ist die Wahrscheinlichkeit höchstens die Gewinnschwelle
zu erreichen? Wie hoch ist die Wahrscheinlichkeit eines Gewinns von mindestens 4 GE?
Hier sind zunächst
1 = Var(X)
sofort
G = 3T − 1, also a = 3 und b = −1. Damit
E(G) = 2 und Var(G) = 9 sowie Std(G) = 3.
folgen wegen
Da
a>0
E(X) =
ist, ergeben
sich
(
e−(x+1)/3) /3,
fG (x) =
0,
für
für
x ≥ −1;
x < −1.
(
1 − e−(x+1)/3) ,
FG (x) =
0,
für
für
x ≥ −1;
x < −1.
Die Gewinnschwelle liegt bei x = 0, diese wird höchstens mit der Wahrscheinlichkeit
FG (0) = 1 − e−1/3 = 0, 28347 erreicht. Mindestens 4 GE werden mit der Wahrscheinlichkeit
138
1 − FG (4) = 1 − 0, 8111 = 0, 1889
erzielt.
10.5 Symmetrische Verteilungen
E(aX + b) = a E(X) + b wird oft dafür verwendet, eine Zufallsvariable X als Linearkombination X = σZ + µ auszudrücken, wobei die Zufallsvariable
normiert ist. So bezeichnet man Zufallsvariablen mit E(Z) = 0 und Var(Z) = 1. Durch
Die wichtige Gleichung
die Transformationen
X −µ
,
σ
sich aus X
Z=
ergeben
X = σZ + µ
bzw.
mit
µ = E(X)
eine normierte Zufallsvariable
mierten Zufallsvariable
Z.
Z
und
σ = Std(X)
(10.10)
X aus einer norfZ besteht der Zu-
und umgekehrt
Zwischen den Dichtefunktionen
fX
unnd
sammenhang
1
fX (x) = fZ
σ
x−µ
σ
.
(10.11)
10.5 Symmetrische Verteilungen
Denition 10.5.
x = µ,
Die Verteilung einer Zufallsvariablen heiÿt
wenn die Dichtefunktion
für jede reelle Zahl
x
symmetrisch
f (x) achsensymmetrisch zum
f (µ − x) = f (µ + x) gilt.
Punkt
µ
zum Punkt
ist, wenn also
die Beziehung
In der folgenden Abbildung sind die Verteilungs- und Dichtefunktion einer zum Punkt
µ = 0, 5
symmetrischen Zufallsvariablen zu sehen.
Normalverteilung mit μ = 0,5 und σ = 0,5, N(0,5; 0,25)
1,2
f, F
1,0
0,8
0,6
0,4
0,2
0,0
-1,5
-1,0
-0,5
F(0,5 - x) = 1 - F(0,5 + x)
f(0,5 + x) = f(0,5 -x)
x
0,0
0,5
1,0
1,5
2,0
2,5
Abbildung 10.2: Verteilungs- und Dichtefunktion von N(0,5; 0,25)
Der griechische Buchstabe
µ ist in der Statistik für den Erwartungswert reserviert und
E(X) = µ
für jede Zufallsvariable, deren Dichtefunktion zum Punkt
es gilt tatsächlich
µ
symmetrisch ist. Dabei muss aber vorausgesetzt werden, dass der Erwartungswert
überhaupt existiert. Dann gilt nämlich wegen der Symmetrie der Dichtefunktion
Z
∞
Z
(x − µ)f (x) dx,
0=
−∞
also
∞
E(X) =
Z
xf (x) dx =
−∞
µf (x) dx = µ.
−∞
F (x) ist nicht achsen- sondern punktsymmetrisch, und
P (µ|1/2), erfüllt also für jede reelle Zahl x > 0 die Beziehung
Die Verteilungsfunktion
zum Drehpunkt
∞
zwar
F (µ − x) = 1 − F (µ + x).
139
10 Stetige Zufallsvariablen
P (X ≥ µ + x) = 1 − F (µ + x) = F (µ − x) = P (X ≤ µ − x). In der
Abbildung ist P (X ≤ 1, 5 = 0, 5 + 1) = F (1, 5) schraert. Für den Rest am rechten Teil
gilt P (X ≥ 1, 5) = 1 − F (1, 5). Wegen der Symmetrie ist aber 1 − F (1, 5) = P (X ≥
1, 5) = P (X ≤ −0, 5) = F (−0, 5).
Dies folgt aus
10.6 Die Rechteckverteilung
Viele Verteilungen lassen sich zu einer Gruppe mit ähnlichem Verhalten zusammenfassen.
Oft gibt es einen Standardzufallsvariable
Z,
aus dem alle anderen Zufallsvariablen als
Linearkombination hervorgehen.
Eine stetige Zufallsvariable mit der unten stehenden Dichte- und Verteilungsfunktion
heiÿt rechteckverteilt. Man schreibt
X ∼ U(a, b).
Die Notation rührt von der englischen
Bezeichnung Uniform her. Daher spricht man auch von einer Gleichverteilung. Für Zu-
U ∼ U(0, 1) reserviere ich den Buchstaben U . Für eine Zufallsvariable
X = a + (b − a)U .




für x < a;
0
für
x
<
a;
0

x−a
1
f (x) = b−a für a ≤ x ≤ b; F (x) = a + b−a für a ≤ x ≤ b;




0
für x > b;
1
für x > b;
fallsvariablen mit
X ∼ U(a, b)
gilt
E(X) =
a+b
,
2
Var(X) =
f, F
(b − a)2
.
12
Rechteckverteilung X ~ U(a, b)
1
0,75
0,5
0,25
0
f
F
x
0
1
2
3
4
5
6
Anwendungen und Beispiele:
•
Der Zeiger einer Uhr bleibt mit gleicher Wahrscheinlichkeit auf jedem Winkel zwischen 0 und 360° stehen.
•
Geht man ohne Kenntnis der Abfahrtszeit zur Haltestelle von einem Bus, der
pünktlich alle 10 Minuten abfährt, ist die Wartezeit
•
U(0, 10)-verteilt.
Jeder Rechner hat ein Verfahren zur Erzeugung von Zufallszahlen, die
U(0, 1)-
verteilte Zufallwerte simulieren. Da diese Zahlen berechnet und daher nicht wirklich
Realisationen
Zufallszahlen.
140
U(0, 10)-verteilter Zufallsvariablen sind, spricht man oft von Pseudo-
10.7 Die Exponentialverteilung
Für
U ∼ U(0, 1)
ergibt sich aus der Symmetrie zum Punkt 0,5
E(U ) = 1/2.
Die
Varianz berechnet sich aus
Z
Var(U ) =
1
x2 dx − 1/4 = 1/3 − 1/4 = 1/12.
0
Für die Linearkombination
X = a + (b − a)U
folgen damit die angegebenen Formeln für
den Erwartungswert und die Varianz.
10.7 Die Exponentialverteilung
Eine weitere Klasse von Zufallsvariablen haben eine Exponentialverteilung. Es gibt hier
nur einen Parameter, der meist λ genannt wird und positiv sein muss. Man schreibt X ∼
Exp(λ), wenn die Zufallsvariable die unten stehende Dichte- und Verteilungsfunktion hat.
(
(
λ exp(−λx), für x ≥ 0;
1 − exp(−λx), für x ≥ 0;
f (x) =
F (x) =
0,
für x < 0.
0,
für x < 0.
1
1
E(X) = , Var(X) = 2 .
λ
λ
y
Exponentialverteilungen mit λ = 2 und λ = 3/4
2
λ
1,5
1
λ /
0,5
x
0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
Anwendungen und Beispiele:
•
Die Exponentialverteilung ist ein nützliches Modell für die Lebensdauer von Teilen, die zwar nicht verschleiÿen, aber doch unbrauchbar werden. Das trit etwa auf
elektronische Komponenten, Fensterscheiben oder Geschirr zu, auf die gern angeführten Glühbirnen schon weniger. Der Parameter
1/λ
ist dann die durchschnitt-
liche Lebensdauer, vergleichen Sie bitte dazu die abgebildeten Dichtefunktionen
für
λ=2
und
λ = 3/4.
Die höhere Lebensdauer zeigt sich am acheren Verlauf
der Dichtefunktion, was auch die höhere Varianz zur Folge hat. Die Lebensdauer
von eigentlich nicht alternden Gegenständen wird begrenzt durch Unglücksfälle
wie Steinschlag bei einer Fensterscheibe oder Ungeschick bei einer Kaeetasse.
141
10 Stetige Zufallsvariablen
•
Diese unglücklichen Ereignisse sind wiederum typische Realisationen eines Poissonprozesses, d.h. die Anzahl solcher Ereignisse ist Poissonverteilt. Poissonprozesse bedingen also die Lebensdauer, umgekehrt beschreibt die Exponentialverteilung
die Zeit zwischen zwei Ereignissen eines Poissonprozesses. Bei einem Possonpro-
λ fest, wie oft das Poissonereignis durchschnittlich eintritt,
dass der durchschnittliche Zeitabstand 1/λ ist.
zess legt der Parameter
somit ist auch klar,
•
Ein Vielfahrer mit Bleifuÿ wird jährlich im Durchschnitt 12-mal geblitzt, diese
Ereignisse bilden einen Poissonprozess mit
Ps(12)-verteilt
Exp(12)-verteilt.
Strafzettel
zeigen
λ = 12.
Also ist die Anzahl
N
der
und der durchschnittliche Abstand zwischen zwei An-
Erwartungswert und Varianz berechnen sich wie im Beispiel 10.3 auf Seite 137.
Die entscheidende Eigenschaft der Exponentialverteilung ist die Beziehung
∆) = F (x)F (∆)
für
x, ∆ > 0.
F (x +
Daraus folgt die sogenannte Alterungslosigkeit insofern,
dass die Wahrscheinlichkeit eines Endes im Zeitraum zwischen
Voraussetzung, dass das die Lebensdauer
x
x
und
x+∆
unter der
erreicht wurde, genauso hoch ist wie die
Wahrscheinlichkeit des Ablebens im Zeitraum von 0 bis
∆.
Am Beispiel von Tassen:
Eine neue Tasse wird mit derselben Wahrscheinlichkeit innerhalb des nächsten Jahres
Opfer einer ungeschickten Hausfrau wie eine ältere.
10.8 Normalverteilung
Die Normalverteilung umfasst genauso wie die Rechteck- und die Exponentialverteilung eigentlich eine ganze Familie von Verteilungen zusammen, die durch eine einfache
Linearkombination ineinander übergeführt werden können, trotzdem spricht man von
der Normalverteilung. Die überragende Bedeutung der Normalverteilung hat folgende
Gründe:
•
Viele biologische, technische und auch ökonomische Gröÿen wie Gewicht, Messfehler oder Umsatz lassen sich durch normalverteilte Zufallsvariablen beschreiben,
andere Gröÿen wie etwa die Verteilung des Volkseinkommens oder die Entwicklung
des Preises einer Aktie hängen über die Logarithmusfunktion mit der Normalverteilung zusammen.
•
Die Ursache dafür ist der sogenannte Zentralen Grenzwertsatz, der in unpräziser
Form besagt, dass eine Zufallsvariable, die sich aus der Summe von vielen unabhängigen einzelnen Zufallsvariablen zusammensetzt, zumindest annähernd normalverteilt ist. Zufallsgesteuerte Ausgänge, die vielen unabhängigen Einüssen unterliegen, werden daher oft durch normalverteilte Zufallsvariablen modelliert.
•
Als Folge des Zentralen Grenzwertsatzes sind können viele Verteilungen durch
eine Normalverteilung angenähert werden. Das trit auf die Binomial- und die
Poissonverteilung und die hypergeometrische Verteilung zu, nicht aber auf die
142
10.8 Normalverteilung
Exponential- und die Rechteckverteilung, aber wohl auf die Summen von mehreren Zufallsvariablen dieser Typen.
Aufgrund des Zentralen Grenzwertsatzes kann in den folgenden Fällen von normalverteilten Zufallsvariablen ausgegangen werden:
•
Die monatliche Rendite eines Aktienindex.
•
Der Gesamtgewinn eines groÿen Konzerns mit vielen unabhängigen Geschäftsfeldern.
•
Der Absatz eines Wasserwerkes oder ähnlicher Versorger mit vielen Kunden.
Die Verteilungsfunktion der Normalverteilung sieht wie der Schnitt durch eine Glocke
aus, sie wird daher Gauÿsche Glockenkurve genannt, zu Ehren von Carl Friedrich Gauÿ,
der ihre Bedeutung erkannte. Eigentlich gibt es nicht nur eine, sondern eine ganze Familie
von Normalverteilungen, die von zwei Parametern
µ
Denition 10.6.
mit der unten stehenden Dichte- und
Eine stetige Zufallsvariablen
Normalverteilung
X
und
σ
abhängen.
µ und σ . Kurzformen
X ist N (µ, σ )-verteilt bzw. hat eine N (µ, σ 2 )-Verteilung.
Z x
2
1 t−µ 2
1
1
− 21 ( x−µ
)
σ
, F (x) = √
e− 2 ( σ ) dt.
(10.12)
f (x) = √ e
σ 2π
σ 2π −∞
Verteilungsfunktion heiÿt
2
dafür sind X ∼ N (µ, σ ) oder
mit den Parametern
2
Verschiedene Normalverteilungen
0,8
0,7
μ = 0, σ = 0,5
0,6
0,5
μ = -2, σ = 0,5
0,4
0,3
0,2
μ = 0, σ = 2
0,1
x
-5,0
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
In der Abbildung können Sie erkennen, wie die Parameter
Dichtefunktion festlegen. Der Parameter
Der Parameter
σ
µ
µ
4,0
und
σ
0,0
5,0 -0,1
das Aussehen der
ist der Symmetriepunkt und das Maximum.
legt fest, wie breit die Verteilung ist, je gröÿer
σ
wird, umso acher
und breiter wird die Dichtefunktion. Wenn die Varianz sinkt, verläuft die Dichtefunktion steiler um
µ.
Bei gleichem
σ,
aber unterschiedlichem
µ
haben die Dichtefunktionen
dieselbe Form, nur der Symmetriepunkt ist verschoben.
Normalverteilte Zufallsvariablen und ihre Dichtefunktionen haben folgende Eigenschaften.
143
10 Stetige Zufallsvariablen
• E(X) = µ und Var(X) = σ 2 , daher rühren die Bezeichnungen für die Parameter µ
und σ , die üblicherweise für Erwartungswert und Standardabweichung stehen.
•
Der Median ist
•
Jede Linearkombination normalverteilter Zufallsvariablen ist ebenfalls normalver2
teilt. Sind X und Y zwei unabhängige Zufallsvariable mit X ∼ N (µX , σX ) und
2
Y ∼ N (µY , σY ), so ist für beliebige Zahlen a und b auch aX + bY normalverteilt,
2 2
2 2
d.h. aX + bY ∼ N (aµX + bµY , a σX + b σY + 2ab Cov(X, Y )).
•
µ.
•
X und Y
Cov(X, Y ) = 0 gilt.
Zwei normalverteilte Zufallsvariablen
deren Kovarianz 0 ist, d.h
sind genau dann unabhängig, wenn
Der Graph der Dichtefunktion ist achsensymmetrisch zur Geraden mit der Gleichung
x = µ.
•
Der Graph der Dichtefunktion hat sein einziges Maximum bei
1
malwert ist fmax = √ .
σ 2π
•
Die Dichtefunktion ist links von
x=µ
x = µ,
der Maxi-
streng monoton steigend und rechts davon
streng monoton fallend.
•
Die Dichtefunktion hat nur die zwei Wendestellen bei
1
.
hat an den Wendestellen den Wert √
σ 2πe
•
Der Inhalt der Fläche, die von der Dichtefunktion der Normalverteilung und dem
Intervall
[µ − zσ, µ + zσ]
für ein beliebiges
x = µ±σ . Die Dichtefunktion
z > 0
eingeschlossen wird, ist für
alle Normalverteilungen gleich groÿ. Man teilt deshalb oft die Fläche unter der
Dichtefunktion in
σ -Bereiche
um den Mittelpunkt
µ,
etwa den 1-, 2- oder 3-σ -
Bereich. Ungefähr 68,27 % der Werte liegen innerhalb einer Standardweichung vom
P (µ − σ ≤ X ≤ µ + σ) = 0, 6827. Für Abweichungen von zwei und
drei Standabweichungen vom Mittelwert gelten P (µ − 2σ ≤ X ≤ µ + 2σ) = 0, 9545
bzw. P (µ − 3σ ≤ X ≤ µ + 3σ) = 0, 9973. Etwas vereinfacht lautet die Regel: Die
Mittelwert, d.h.
Ausfälle einer normalverteilten Zufallsvariablen fallen zu ungefähr 2/3 und 0,95 in
den Einsigma- bzw Zweisigmabereich um den Mittelpunkt und fast alle Ausfälle
liegen im Dreisigmabereich um den Mittelpunkt.
10.8.1 Standardnormalverteilung
Unter den unendlich vielen Normalverteilungen ragt diejenige mit
µ = 0
und
σ = 1
hervor, weil die Verteilungsfunktion jeder anderen Normalverteilungen auf deren Verteilungsfunktion zurückgeführt werden kann. Man hebt die Dichte- und Verteilungsfunktion
der
N (0, 1)-Verteilung
ϕ(z) und Φ(z) hervor,
x genannt wird. Die Formeln der Dichte-
mit den dafür reservierten Bezeichnungen
wobei die unabhängige Variable oft
z
und nicht
und der Verteilungsfunktion der Standardnormalverteilung sind
1 2
1
ϕ(z) = √ e− 2 z ,
2π
144
1
Φ(z) = √
2π
Z
z
−∞
1 2
e− 2 t dt.
(10.13)
10.8 Normalverteilung
Standardnormalverteilung mit μ = 0 und σ = 1, N(0; 12)
ϕ, Ф
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
Ф(z)
P(Z ≤ zp) = p
0,0
ϕ(z
1,0 zp 1,5
0,5
)
2,0
2,5
z
3,0
Abbildung 10.3: Dichte- und Verteilungsfunktion einer Normalverteilung
Es gelten folgende Symmetrien
Φ(−z) = 1 − Φ(z).
ϕ(z) = ϕ(−z),
Ist
X
eine
N (µ, σ 2 )-verteilte
(10.14)
Zufallsvariable, dann gilt oensichtlich für die Dichte-
und Verteilungsfunktion
1
f (x) = ϕ
σ
Damit gehen die Zufallsvariablen
ander über:
Z=
N (0, 1)-verteilt.
x−µ
σ
X
und
,
Z
X −µ
,
σ
F (x) = Φ
x−µ
σ
.
durch einfache Linearkombinationen inein-
X = σZ + µ.
Daher werden nur die Werte der Standardnormalverteilung tabelliert,
Φ(−z) =
1 − Φ(z) kann man sich auf Werte z ≥ 0 beschränken. Zur Einübung sei für eine N (0, 1)verteilte Zufallsvariable Z die Wahrscheinlichkeit P (0.5 ≤ Z ≤ 1, 5) gesucht. In der
hier in der Abbildung 10.4 auf Seite 150. Wegen der Symmetriebedingung
Abbildung 10.3 entspricht dies dem Inhalt der schraerten Fläche, der gesuchte Wert
ist
Φ(1, 5) − Φ(0, 5) = 0, 93319 − 0, 69146 = 0, 24173.
Dies lässt sich auch aus der
Abbildung über die Verteilungsfunktion näherungsweise ablesen.
Beispiel 10.6.
X eines Kellners pro Abend sei normalverteilt mit einem
Erwartungswert in Höhe von 20 e und einer Standardabweichung in Höhe von 6 e. Wie
Das Trinkgeld
groÿ sind die Wahrscheinlichkeiten, dass das eingenommene Trinkgeld des Kellners an
einem Abend a) unter 17
e
bleibt, b) über 29 Euro steigt und c) zwischen 17 und 29
Euro liegt? (Uni Kassel)
Grundsätzliche Transformation:
z = (x − µ)/σ ,
hier also
z = (x − 20)/6.
Somit
P (X < 17) = Φ(−0, 5) = 1 − Φ(0, 5) = 0, 30854, P (X > 29) = Φ(1, 5) = 0, 93319,
P (17 ≤ X ≤ 29) = 0, 93319 − 0, 30854 = 0, 62465.
145
10 Stetige Zufallsvariablen
10.9 Quantile und Streubereiche
Tabellen wie diese gibt es von allen wichtigen Verteilungsfunktionen der Statistik. Sie
X für ausgewählte Zahlen x ∈ R die Wahrscheinlichkeit dafür an, dass der Wert von X höchstens x wird, also P (X ≤ x).
Häug sucht man aber umgekehrt zu einer gegebenen Wahrscheinlichkeit 0 < p < 1
den Wert xp mit P (X ≤ xp ) = p. Er wird als p-Quantil bezeichnet. Das wird in einer
geben für die betrachtete Zufallsvariable
Denition festgehalten.
Denition 10.7.
Sei
X
eine stetige Zufallsvariable, deren Verteilungsfunktion streng
monoton wachsend ist. Für jede Zahl
p mit 0 < p < 1 ist das p-Quantil xp die Zahl, wofür
P (X ≤ xp ) = p gilt. Das p-Quantil teilt also die möglichen Ausfälle der Zufallsvariablen
in zwei Bereiche, und zwar so, dass die Wahrscheinlichkeit dafür, dass X höchstens den
Wert p annimmt gerade p ist. Somit ist die Wahrscheinlichkeit, dass X mindestens den
Wert xp annimmt entsprechend 1 − p.
Wie in der beschreibenden Statistik werden das 0,5-Quantil als Median sowie das
0,25-Quantil und das 0,75-Quantil als unteres und oberes Quartil bezeichnet. Wenn die
Verteilungsfunktion streng monoton wachsend ist wie etwa
Φ(z),
so ist das p-Quantil
eindeutig bestimmt und ergibt sich durch den x-Wert des Schnittpunkts der Geraden
y = p mit der Verteilungsfunktion. Liegen die Werte der Verteilungsfunktion tabellarisch
vor, wird der zur vorgegebenen Wahrscheinlichkeit p gehörende Wert in der Tabelle der
gesucht.
Ich zeige das am Beispiel des 0,9-Quantils einer standardnormalverteilten Zufallsvariable. In der Tabelle 10.4 ndet man 0,9 nicht direkt, sondern nur 0,89973 und 0,90147
mit den zugehörigen Werten 1,28 bzw. 1,29, der exakte Wert mit vier Stellen nach dem
Komma ergibt sich durch Interpolation und ist 1,2816. Das ist modernen Menschen
nicht mehr zuzumuten, daher werden für alle wichtigen Verteilungen auch die meist verwendeten Quantile tabelliert. Besonders wichtig sind die Quantile für Werte nahe bei
0 und Werte nahe bei 1, da diese Quantile die extremen Ausfälle der Zufallsvariablen
links und rechts abtrennen. In der folgenden Tabelle benden sich einige Quantile der
Standardnormalverteilung. Aus der Beziehung
Φ(−z) = 1 − Φ(z)
folgt hier
zp = −z1−p .
Tabelle 10.1: Einige Quantile der Standardnormalverteilung
p
0,005
0,01
0,025
0,05
0,95
0,975
0,99
0,995
zp
-2,5758
-2,3263
-1,9600
-1,6449
1,6449
1,9600
2,3263
2,5758
Bei p-Werten nahe bei 0, schreibt man meistens
1 wird entsprechend
Zufallsvariablen
X
1−α
statt
p
α
statt
verwendet. Die Quantile
p,
xα
bei p-Werten nahe bei
und
P (X ≤ xα ) = α, P (X ≥ xα ) = 1 − α,
P (X ≤ x1−α ) = 1 − α, P (X ≥ x1−α ) = α.
146
x1−α
einer steigen
erfüllen also
(10.15)
(10.16)
10.9 Quantile und Streubereiche
0,5
0,15
P(-z0,95 ≤ ≤ , ) = 0,9
P(x0,05 ≤ ≤ , )=0,9
0,1
0,25
0,05
xz
x
0
0
x0,05
5
x0,95
10
15
20
z0,05
-3
Eng verwandt mit den Quantilen sind die
Streubereiche
α
Wieder wird eine meist kleine Wahrscheinlichkeit
0
0
z0,95
3
einer Verteilungsfunktion.
vorgegeben, aber diesmal wird ein
zentrales inneres Intervall gesucht, in das die Zufallsvariable mit der Wahrscheinlichkeit
1−α
fällt, während ein Ausfall in die Bereiche rechts und links davon jeweils nur die
Wahrscheinlichkeit
α/2
hat. Die Grenzen
P (c ≤ X ≤ d) = 1 − α,
Ich werde dieses Intervall
und
d = x1−α/2
c
und
d
dieses Intervalls erfüllen also
P (X ≤ c) = α/2,
P (X ≥ d) = α/2.
(1−α)-Steubereich nennen. Es wird von den Quantilen c = xα/2
begrenzt. Es schlieÿt also gerade die extremen Werte am linken und
rechten Rand aus, für die
P (X ≤ xα/2 ) = α/2
und
P (X ≥ x1−α/2 ) = α/2
gelten.
Bei einer standardnormalverteilten Zufallsvariable ist aus Symmetriegründen
−z1−α/2 , also
[−1, 96, 1, 96]
zα/2 =
1 − α-Steubereich das Intervall [−z1−α/2 , z1−α/2 ]; somit ist etwa
0, 95-Steubereich, denn 1,96 ist das 0,975-Quantil der Standardnor-
ist der
der
malverteilung.
N (µ, σ 2 ) verteilten Zufallsvariablen X
ergeben sich ebenso aus der Standardnormalverteilung wie für jeden Wert α das Quantil
xα aus dem Quantil zα und somit auch das Kondidenzintervall:
a−µ
b−µ
−Φ
,
(10.17)
P (a ≤ X ≤ b) = Φ
σ
σ
xα = µ + zα σ, α-Quantil,
(10.18)
[µ − z1−α/2 σ, µ + z1−α/2 σ], (1 − α)-Steubereich.
(10.19)
Die Berechnung von Wahrscheinlichkeiten einer
Beispiel 10.7.
X sei N (1, 4)-verteilt. Berechnen Sie P (X ≤ 1),
P (4 ≤ X ≤ 6). Bestimmen Sie dann das 0,975-Quantil und
Die Zufallsvariable
P (X ≤ 4), P (X ≥ 6)
und
das Kondenzintervall zur Kondenzzahl 0,95.
Hier sind also
µ=1
und
σ = 2.
Somit sind:
P (X ≤ 1) = F (µ) = 0, 5, P (X ≤ 4) = Φ((4 − 1)/2) = 0, 93319
P (X ≥ 6) = 1 − P (X ≤ 6) = 1 − Φ((6 − 1)/2) = 1 − 0, 99379 = 0, 00621
P (4 ≤ X ≤ 6) = 0, 99379 − 0, 93319 = 0, 0606.
x0,975 = µ + z0,975 σ = 1 + 1, 96 · 2 = 4, 92,
I0,95 = [µ − z0,975 σ, µ + z0,975 σ] = [0, 96, 4, 92].
147
10 Stetige Zufallsvariablen
10.10 Aufgaben
Aufgabe 1.
Es sei X eine stetige Zufallsvariable mit der Dichte
(
x/4 + b
f (x) =
0
für
0 ≤ x ≤ 2;
sonst
b so fest, dass f eine Dichtefunktion wird. Bestimmen Sie dabei
F . Zeichnen Sie nun die Dichte- und die Verteilungsfunktion. Berechnen Sie dann für eine Zufallsvariable X , deren Verteilung durch f gegeben ist, die folgenden Wahrscheinlichkeiten: P (X < 1), P (X > 1) und P (0, 25 < X < 1).
Bestimmen Sie abschlieÿend E(X), Var(X) und Std(X).
Legen Sie die Konstante
gleichzeitig die Verteilungsfunktion
Aufgabe 2.
An einem oensichtlich nicht deutschen Bahnhof fährt ein Nahverkehrs-
zug exakt alle 30 Minuten ab. Durch welche Zufallsvariable
X
lässt sich die Wartezeit
eines zufällig eintreenden Fahrgasts beschreiben? Bestimmen Sie die Dichte- und die
Verteilungsfunktion, sowie Erwartungswert, Varianz und Standardabweichung von
X.
Wie groÿ ist die Wahrscheinlichkeit, dass ein zufällig eintreender Fahrgast mehr als 20
Minuten auf diesen Zug warten muss?
Aufgabe 3.
Die Funktion
f
sei für
0 ≤ x ≤ 2
durch die Funktionsgleichung
f (x) =
ax(2 − x) gegeben und nehme sonst den Wert 0 an. Legen Sie die Konstante a so fest,
dass f eine Dichtefunktion wird. Bestimmen Sie dabei gleichzeitig die Verteilungsfunktion F . Zeichnen Sie nun die Dichte- und die Verteilungsfunktion. Berechnen Sie dann
für eine Zufallsvariable X , deren Verteilung durch f gegeben ist, die folgenden Wahrscheinlichkeiten: P (X < 0, 25), P (X > 0, 25) und P (0, 25 < X < 0, 5). Bestimmen Sie
abschlieÿend E(X), Var(X) und Std(X).
Aufgabe 4.
Herr B. aus A. wird jährlich durchschnittlich 6-mal Opfer von Fehlmessun-
gen seiner gefahrenen Geschwindigkeit.
a) Durch welche Zufallsvariable
N
lässt sich die jährliche Anzahl dieser Fehlmessungen
beschreiben? Bestimmen Sie die Dichte- und die Verteilungsfunktion, sowie Erwartungswert, Varianz und Standardabweichung von
N.
Wie groÿ ist die Wahrscheinlichkeit,
mindestens viermal erwischt zu werden?
b) Durch welche Zufallsvariable
N
lässt sich die Zeit
T
zwischen zwei Fehlmessungen
beschreiben? Bestimmen Sie die Dichte- und die Verteilungsfunktion, sowie Erwartungswert, Varianz und Standardabweichung von
T.
Wie groÿ ist die Wahrscheinlichkeit,
mindestens ein halbes Jahr unbehelligt zu bleiben?
Aufgabe 5.
Die durchschnittliche Gebrauchszeit einer Fensterscheibe sei 20 Jahre.
a) Mit welcher Wahrscheinlichkeit hält die Scheibe länger als 30 Jahre?
b) Die Scheibe ist 20 Jahre alt. Mit welcher Wahrscheinlichkeit lebt sie noch weitere 10
Jahre ?
c) Nach welcher Zeit ist eine Scheibe nur noch mit einer Wahrscheinlichkeit von 25
Prozent funktionstüchtig?
d) Erzeugen Sie 100 Zufallszahlen für diese Zufallsvariable und bilden Sie davon den
Mittelwert und vergleichen Sie diesen Wert mit dem Erwartungswert.
148
10.10 Aufgaben
Aufgabe 6.
Die Körpergröÿe erwachsener Frauen in Deutschland ist angeblich nähe-
rungsweise normalverteilt mit den Parametern
µ = 165
cm und
σ=5
cm. Wie groÿ ist
die Wahrscheinllichkeit, dass eine zufällig ausgewählte Frau a) mindestens 155 cm, b)
höchstens 180 cm und c) zwischen 155 cm und 180 cm groÿ ist? Bestimmen Sie dann
das 0,95-Quantil und den 0,95-Streubereich.
Aufgabe 7.
Nennen Sie ökonomische Beispiele von Zufallsvariablen, in denen Ihrer
Meinung nach die Voraussetzungen für die Anwendung des Zentralen Grenzwertsatzes
erfüllt sind.
Aufgabe 8.
Die Zufallsvariable
X
der Anzahl der Zuschauer der Fernsehserie GESE
(Gute Ehen, Schlechte Ehen) hat in Einheiten von einer Million die Dichtefunktion
2
f (x) = ce−2(x−2) .
a) Welchen Wert hat
c?
b) Welchen Wert haben der Median, der Erwartungswert und die Varianz von
X.
c) Der Produzent erhält eine Prämie von 100.000 Euro, wenn mehr als 3 Millionen die
nächste Folge sehen. Wie hoch die Wahrscheinlichkeit, dass dies eintrit?
d) Die Hauptdarstellerin wird gefeuert, wenn die Anzahl der Zuschauer der nächsten
Folge unter eine Million fällt. Welche Wahrscheinlichkeit hat dieser tragische Fall?
149
10 Stetige Zufallsvariablen
10.11 Tabelle der Standardnormalverteilung
Ф(-z) = 1- Ф(z)
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
0
0,50000
0,53983
0,57926
0,61791
0,65542
0,69146
0,72575
0,75804
0,78814
0,81594
0,84134
0,86433
0,88493
0,90320
0,91924
0,93319
0,94520
0,95543
0,96407
0,97128
0,97725
0,98214
0,98610
0,98928
0,99180
0,99379
0,99534
0,99653
0,99744
0,99813
0,99865
0,01
0,50399
0,54380
0,58317
0,62172
0,65910
0,69497
0,72907
0,76115
0,79103
0,81859
0,84375
0,86650
0,88686
0,90490
0,92073
0,93448
0,94630
0,95637
0,96485
0,97193
0,97778
0,98257
0,98645
0,98956
0,99202
0,99396
0,99547
0,99664
0,99752
0,99819
0,99869
Ф(1,25) = 0,89435
0,02
0,50798
0,54776
0,58706
0,62552
0,66276
0,69847
0,73237
0,76424
0,79389
0,82121
0,84614
0,86864
0,88877
0,90658
0,92220
0,93574
0,94738
0,95728
0,96562
0,97257
0,97831
0,98300
0,98679
0,98983
0,99224
0,99413
0,99560
0,99674
0,99760
0,99825
0,99874
0,03
0,51197
0,55172
0,59095
0,62930
0,66640
0,70194
0,73565
0,76730
0,79673
0,82381
0,84849
0,87076
0,89065
0,90824
0,92364
0,93699
0,94845
0,95818
0,96638
0,97320
0,97882
0,98341
0,98713
0,99010
0,99245
0,99430
0,99573
0,99683
0,99767
0,99831
0,99878
0,04
0,51595
0,55567
0,59483
0,63307
0,67003
0,70540
0,73891
0,77035
0,79955
0,82639
0,85083
0,87286
0,89251
0,90988
0,92507
0,93822
0,94950
0,95907
0,96712
0,97381
0,97932
0,98382
0,98745
0,99036
0,99266
0,99446
0,99585
0,99693
0,99774
0,99836
0,99882
Ф(-1,25) = 1- 0,89435 = 0,10565
0,05
0,51994
0,55962
0,59871
0,63683
0,67364
0,70884
0,74215
0,77337
0,80234
0,82894
0,85314
0,87493
0,89435
0,91149
0,92647
0,93943
0,95053
0,95994
0,96784
0,97441
0,97982
0,98422
0,98778
0,99061
0,99286
0,99461
0,99598
0,99702
0,99781
0,99841
0,99886
0,06
0,52392
0,56356
0,60257
0,64058
0,67724
0,71226
0,74537
0,77637
0,80511
0,83147
0,85543
0,87698
0,89617
0,91309
0,92785
0,94062
0,95154
0,96080
0,96856
0,97500
0,98030
0,98461
0,98809
0,99086
0,99305
0,99477
0,99609
0,99711
0,99788
0,99846
0,99889
0,07
0,52790
0,56749
0,60642
0,64431
0,68082
0,71566
0,74857
0,77935
0,80785
0,83398
0,85769
0,87900
0,89796
0,91466
0,92922
0,94179
0,95254
0,96164
0,96926
0,97558
0,98077
0,98500
0,98840
0,99111
0,99324
0,99492
0,99621
0,99720
0,99795
0,99851
0,99893
Abbildung 10.4: Standardnormalverteilung
150
0,08
0,53188
0,57142
0,61026
0,64803
0,68439
0,71904
0,75175
0,78230
0,81057
0,83646
0,85993
0,88100
0,89973
0,91621
0,93056
0,94295
0,95352
0,96246
0,96995
0,97615
0,98124
0,98537
0,98870
0,99134
0,99343
0,99506
0,99632
0,99728
0,99801
0,99856
0,99896
0,09
0,53586
0,57535
0,61409
0,65173
0,68793
0,72240
0,75490
0,78524
0,81327
0,83891
0,86214
0,88298
0,90147
0,91774
0,93189
0,94408
0,95449
0,96327
0,97062
0,97670
0,98169
0,98574
0,98899
0,99158
0,99361
0,99520
0,99643
0,99736
0,99807
0,99861
0,99900
11 Summen und Funktionen von
Zufallsvariablen
11.1 Übersicht
Thema dieses Kapitels sind die Verteilungen von Zufallsvariablen, die aals Suumen oder
Funktionen von Zufallsvariablen entstehen
- Verteilung einer Funktion einer Zufallsvariablen
- Verteilung der Summe von Zufallsvariablen
- Die Ungleichungen von Markov und Tschebysche
- Das Schwache Gesetz der Groÿen Zahlen
- Der Zentrale Grenzwertsatz
Nicht fertig, nicht prüfungsrelevant..
11.2 Die Ungleichungen von Markov und Chebychev
Es geht darum, welche Aussagen über eine Zufallsvariable allein aus der Kenntnis des
Erwartungswertes und der Varianz über die Steubereiche sagen kann. Dafür gibt es
mehrere Ungleichungen, die alle aus dem folgenden Satz folgen.
Satz 11.1. Ungleichung von Markov.
Sei X eine Zufallsvariable, deren Verteilungsfunktion F (x) = 0 für alle x < 0 erfüllt.
Falls für eine Zahl r > 0 der Erwartungswert E(X r ) existiert, gilt für alle c > 0 die
P (X ≥ c) ≤
E(X r )
.
cr
(11.1)
Der Beweis benötigt etwas Maÿtheorie.
r
Z
∞
r
Z
x dF (x) ≥
E(X ) =
0
∞
cr dF (x) = cr P (X ≥ c),
c
und damit folgt die Ungleichung durch Division durch
cr .
Die wesentlich bekanntere
zweite Ungleichung wird nach Chebychev benannt und lautet:
151
11 Summen und Funktionen von Zufallsvariablen
Satz 11.2. Ungleichung von Chebychev.
Sei X eine Zufallsvariable für die der Erwartungswert µ und die Varianz σ 2 existieren.
Dann gilt für alle c > 0 die sogenannte Chebychevsche Ungleichung
P (|X − µ| ≥ c) ≤
σ2
,
c2
bzw. P (|X − µ| ≥ cσ) ≤
1
.
c2
(11.2)
Zum Beweis wird die Markovsche Ungleichung für r = 2 auf die nichtnegative ZufallsY = |X − µ| angewandt, bei der E(Y 2 ) = σ 2 gilt.
variable
Beispiel 11.1.
X ∼ Exp(1). Deren
Erwartungswert und Varianz haben beide den Wert 1. Für die Wahrscheinlichkeit P (X ≥
3) liefert die Markovsche Ungleichung für r = 1 somit die Abschätzung P (X ≥ 4) ≤ 1/4.
Die Ungleichung von Chebychev führt zur wesentlich schärferen Abschätzung P (X ≥
4) = P (|X − 1| ≥ 3) = 1/9 = 0, 1111. Der exakte Wert ist P (X ≥ 4) = 1 − (1 − e−4 ) =
e−4 = 0, 0183.
Betrachten wir wieder eine Zufallsvariable mit
11.3 Zentraler Grenzwertsatz
Der
Zentrale Grenzwertsatz
zeigt ein weiteres Mal die überragende Bedeutung der Nor-
malverteilung. In unpräziser Form besagt er, dass eine Zufallsvariable, die sich aus der
Summe von vielen unabhängigen einzelnen Zufallsvariablen zusammensetzt, zumindest
annähernd normalverteilt ist. Zufallsgesteuerte Ausgänge, die vielen unabhängigen Einüssen unterliegen, werden daher oft durch normalverteilte Zufallsvariablen modelliert.
Mathematisch ist der Ausgangspunkt eine Folge
X1 , X2 , X3
,. . . Xn von Zufallsva-
riablen, die alle dieselbe Verteilung aufweisen und paarweise unabhängig sind. Diese
Annahme wird so häug getroen, dass sie mit u.i.v. für unabhängig und identisch verteilt bzw. engl. mit i.i.d. für independent and identically distributed abgekürzt wird.
Weiter wird stillschweigend angenommen, dass sowohl der Erwartungswert E(Xi ) =: µ
2
2
als auch die Varianz E ((Xi − µ) ) =: σ existieren. Aus diesen Gröÿen werden folgende
Zufallsvariablen gebildet
S n = X 1 + X2 + · · · + Xn ,
Sn
,
X̄ =
n
n
1 X
S =
(Xi − X̄)2 .
n − 1 i=1
2
Dann gilt zunächst der folgende Satz.
Satz 11.3. Für eine beliebige Folge X1 , X2 , X3 ,. . . Xn von u.i.v. Zufallsvariablen gelten
E(Sn ) = nµ,
E(X̄) = µ,
σ2
Var(X̄) = ,
n
E(S 2 ) = σ 2 .
Sind die Zufallsvariablen zusätzlich normalverteilt gelten Sn ∼ N (nµ, nσ 2 ) und X̄ ∼
N (µ, σ 2 /n).
152
11.3 Zentraler Grenzwertsatz
f,g,h
Rechteckverteilung und eine
Faltung
1
0,8
Summe von 3
rechteckverteilten ZV
0,6
Summe von 6
rechteckverteilten ZV
0,4
0,2
Normalverteilung
μ = 0, σ^2 = 1/2
x
0
-2
-1,5
-1
-0,5
Die Zufallsvariable
X̄
0
0,5
1
1,5
2
ist das arithmetische Mittel der einzelnen Zufallsvariablen und
hat somit als Erwartungswert den gemeinsamen Erwartungswert
µ. Dafür genügt wegen
der Linearität des Erwartungswerts die Voraussetzung, dass die Zufallsvariablen dieselbe Verteilung haben, die Unabhängigkeit wird hier nicht benötigt. Die Beziehung für
die Varianz erfordert aber zwingend die Unabhängigkeit und dieselbe Verteilung. Durch
2
2
die Mittelung verkleinert sich die Varianz von σ auf σ /n und damit die Standardab√
2
weichung von σ auf σ / n. Man muss also den Mittelwert von hundert unabhängigen
Realisationen bilden, um die Standardabweichung auf den zehnten Teil zu verkleinern.
Beispiel 11.2.
Ein Ökobauer mit vielen glücklichen Hühnern verkauft Eier im Sech-
serpack. Er weiÿ, dass ein Ei durchschnittlich 60 g wiegt und die Standardabweichung
6 g beträgt. Bestimmen Sie für die Kondenzzahl
γ = 0, 9
das Kondenzintervall eines
einzelnen Eies und das Kondenzintervall des Durchschnittsgewichts der Eier in einem
Sechserpack.
Die Zufallsvariable
X
für das Gewicht eines Eies in Gramm wird als normalverteilt an-
genommen, da sie unabhängigen Einüssen wie Gewicht, Alter und Wohlbenden des
Huhns unterworfen ist. Es gelten somit
Durchschnitts
X̄ ∼ N (60, 36/6).
X ∼ N (60, 36)
und für die Zufallsvariable des
Für die Kondenzintervalle wird das
(1 + γ)/2 = 0, 95-
Quantil der Standardnormalverteilung benötigt. Es hat den Wert 1,6449. Damit ergeben
sich die Kondenzintervalle
[60 − 1, 6449 · 6, 60 + 1, 6449 · 6] = [50.13, 69.87]
√
√
[60 − 1, 6449 · 6, 60 + 1, 6449 · 6] = [55.97, 64.03].
Der Zentrale Grenzwertsatz soll hier nicht bewiesen werden, zumal es verschiedene
Versionen mit leicht unterschiedlichen Voraussetzungen und damit entsprechend unterschiedlichen Folgerungen gibt. Hier genügt folgende Version.
153
11 Summen und Funktionen von Zufallsvariablen
Satz 11.4. Es sei X1 , X2 , X3 ,. . . Xn eine Folge von u.i.v. Zufallsvariablen, wofür E(Xi ),
E(Xi2 ) und E(|Xi |3 ) existieren. Dann hat die standardisierte Zufallsvariable
Zn =
X1 + X2 + · · · + Xn − nµ
√
σ n
den Erwartungswert 0 und die Varianz 1 und die Verteilungsfunktionen Fn (z) der Zufallsvariablen Zn konvergieren für n → ∞ punktweise gegen die Verteilungsfunktion Φ(z)
der Standardnormalverteilung.
Aufgrund des Zentralen Grenzwertsatzes kann in den folgenden Fällen von normalverteilten Zufallsvariablen ausgegangen werden:
•
Die monatliche Rendite eines Aktienindex.
•
Der Gesamtgewinn eines groÿen Konzerns mit vielen unabhängigen Geschäftsfeldern.
•
Der Absatz eines Wasserwerkes oder ähnlicher Versorger mit vielen Kunden.
Aufgabe 1.
Die Körpergröÿe erwachsener Frauen in Deutschland ist angeblich nähe-
rungsweise normalverteilt mit den Parametern
µ = 165
cm und
σ=5
cm. Wie groÿ ist
die Wahrscheinllichkeit, dass eine zufällig ausgewählte Frau a) mindestens 155 cm, b)
höchstens 180 cm und c) zwischen 155 cm und 180 cm groÿ ist? Bestimmen Sie dann das
0,95-Quantil und den 0,95-Streubereich. Wie groÿ ist die Wahrscheinlichkeit, dass der
Durchschnitt einer Gruppe von 100 nicht verwandten Frauen gröÿer als 170 cm ist? Bestimmen Sie abschlieÿend das 0,95-Quantil und das Kondenzintervall zur Kondenzzahl
γ = 0, 9
154
für den Durchschnitt von 100 unverwandten Frauen aus Deutschland.
12 Anhang: Mengen und Zahlen
12.1 Übersicht und Lernziele
In diesem Kapitel werden folgende Themen behandelt
- Einführung des Mengenbegris;
- Zahlenmengen;
- Mächtigkeit von Mengen;
- Die Potenzmenge;
- Vereinigung, Durchschnitt und Dierenz von Mengen;
- Das kartesische Produkt von Mengen;
12.2 Mengen
In der Mathematik bildet das Konzept der
Menge
die Grundlage einer einheitlichen,
knappen und anschaulichen Beschreibung von Objekten, die durch eine gemeinsame Eigenschaft zusammengehören. Diese Objekte heiÿen Elemente der Menge. Der Mengenbegri ist grundlegend für alle Zweige der Mathematik und erleichtert die mathematische
Modellbildung. Für die Untersuchung von Mengen werden bestimmte Begrie und Operationen eingeführt und daraus Gesetzmäÿigkeiten hergeleitet, die man als Mengenlehre
bezeichnet. Die Mengenlehre wurde von den Mathematikern Georg Cantor und Richard
Dedekind entwickelt. Die Denition von Georg Cantor lautet wie folgt:
Denition 12.1.
Eine
Menge
ist eine Zusammenfassung bestimmter wohlunterschiede-
ner Objekte unserer Anschauung oder unseres Denkens, welche die
Elemente
der Menge
genannt werden, zu einem Ganzen.
Diese Denition ist nicht widerspruchsfrei und führt zu Paradoxien wie die Menge
aller Mengen, die sich selbst als Element enthalten müsste. Trotzdem ist diese Denition
ausreichend für ein solides Fundament der meisten Zweige der Mathematik. Eine Menge
kann nur dann verwendet werden, wenn es eine klare Entscheidung darüber gibt, ob ein
bestimmtes Element zu ihr gehört oder nicht. Mengen werden auf zwei Weisen gebildet,
und zwar entweder durch
Aufzählung
oder durch eine
Beschreibung
der Elemente. Das
wird jetzt genauer festgehalten:
155
12 Anhang: Mengen und Zahlen
•
Mengen werden meistens mit groÿen Buchstaben und die Elemente mit kleinen
Buchstaben bezeichnet.
•
Die Zugehörigkeit eines Elementes
x zu einer Menge M wird durch das Symbol ∈
angezeigt, also x ∈ M . Durch y ∈
/ M wird ausgedrückt, dass y kein Element der
Menge M ist. Sei etwa V die Menge aller Vokale, so gelten a ∈ V und b ∈
/ V.
•
Beim aufzählenden Verfahren stehen die Elemente in einer geschweiften Klammer
und sind durch Kommas getrennt, wie etwa die Menge
•
M = { 2,
5, 7 }.
Bei unendlichen Mengen werden einige Elemente angegeben, die das Bildungsgesetz
zeigen und der Rest durch drei Pünktchen angedeutet, wie etwa die Menge der
natürlichen Zahlen
N = { 1, 2, 3, 4, . . . }.
•
Beim beschreibenden Verfahren geht man von einer bereits denierten Menge aus
und schränkt nach einem Längsstrich die Elemente durch eine Eigenschaft ein wie
etwa
M = {x ∈ N | x
•
ist Primzahl }.
Eine besondere Rolle spielt die sogenannte leere Menge, die keine Elemente hat, daher die Beschreibung leer. Die leere Menge wird mit
{} oder mit ∅ gekennzeichnet.
Die leere Menge ist nicht immer sofort zu erkennen und tarnt sich beispielsweise
wie folgt:
L = { x ∈ R | x2 + 1 = 0 }.
Hier soll
L
die Menge aller reelle Lösungen der Gleichung
x2 + 1 = 0
sein, die
aber leer ist, da die Gleichung keine reellen Lösungen hat. Durch die Einführung
der leeren Menge müssen Probleme ohne Lösungen nicht als Sonderfall behandelt
werden.
Mengen dürfen aus beliebigen Elementen bestehen wie etwa
K = { CDU, 3,
Hut }, erge-
ben sich aber meistens durch gemeinsame Eigenschaften der Elemente. Die Buchstaben
M = { S, T, A, I, K }. Die Elemente der
Menge M könnte, muss aber nicht in der geord-
des Wortes STATISTIK bilden die Menge
Menge müssen nicht geordnet sein, die
neten Weise
M = { A,
I, K, S, T } geschrieben werden. Auÿerdem wird jedes Element
einer Menge nur einmal aufgeführt.
12.3 Zahlenmengen
Die wichtigsten Mengen sind Zahlenmengen wie die Menge der natürlichen Zahlen
Zahlenmengen werden auf der sogenannten
Zahlengeraden
N.
veranschaulicht. Darauf wer-
den willkürlich zwei Punkte gewählt, der linke repräsentiert die Zahl 0, der rechte die
Zahl 1, der Abstand zwischen beiden Punkten wird ebenfalls als 1 bezeichnet. Die nächste natürliche Zahl 2 liegt rechts von der 1 im Abstand 1. Hängt man nach diesem Prinzip
156
12.3 Zahlenmengen
an die jeweils zuletzt erzeugte natürliche Zahl
sich die nächste natürliche Zahl
n
nach rechts den Abstand 1 an, ergibt
n+1. Dieser Vorgang kann unendlich oft wiederholt wer-
den, also gibt es unendlich viele natürliche Zahlen und die Zahlengerade ist nach rechts
unendlich lang. Wie bei einem Thermometer werden die negativen ganzen Zahlen spiegelbildlich zur Zahl 0 abgetragen, d.h. für
0 den Abstand
n. Auf
n∈N
diese Weise ergibt sich
−n links von der
die Menge Z = { 0, 1, −1, 2, −2, 3, −3, . . . }
hat die negative Zahl
der ganzen Zahlen. Wie bei vielen unendlichen Mengen verwendet man auch hier drei
Punkte
...
um anzudeuten, dass es immer so weiter geht. Die Zahlengerade ist nach
rechts und links unbeschränkt, was durch je einen Pfeil links und rechts angedeutet
wird.
Der Doppelstrich wird für alle wichtigen Zahlenmengen benutzt, wie auch für die Menge der rationalen Zahlen
wird, wobei
q 6= 0
Q,
die durch Brüche
p/q
von ganzen Zahlen
p
und
q
gebildet
gelten muss. Die rationalen Zahlen liegen so dicht verpackt auf der
Zahlengeraden, dass zwischen je zwei rationale Zahlen immer noch unendlich viele weitere rationale Zahlen liegen. Trotzdem füllen die rationalen Zahlen die Zahlengerade nicht
aus, es bleiben Lücken wie etwa für die Zahl
Zahlen dieser Art werden als
irrational
√
2, die man nicht als Bruch darstellen kann.
bezeichnet. Die irrationalen Zahlen ergänzen die
rationalen Zahlen zur Menge der reellen Zahlen
R,
womit dann alle Punkte der Zahlen-
geraden belegt sind. Zwei Zahlen mit gleichem Abstand von der Zahl 0 unterscheiden
sich jeweils nur im Vorzeichen, wie etwa 1 und -1, zwei derartige Zahlen nennt man
genzahlen
Betrag .
und ihren Abstand zum Nullpunkt den (absoluten)
durch zwei Striche symbolisiert, etwa
| − 2, 1| = 2, 1 = |2, 1|.
Ge-
Der Betrag wird
Der Betrag einer positiven
Zahl ist stets die Zahl selbst, der Betrag einer negativen Zahl
x
ist gleich
−x.
In der Abbildung 12.1 sehen Sie die Zahlengerade und drei besonders berühmte irra-
√
tionale Zahlen mit ihren Gegenzahlen, nämlich
und
2 = 1, 41421356 . . ., e = 2, 71828182 . . .
π = 3, 14159265 . . .
-π -e
-√2
-4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5 0
√2
0,5
1
1,5
e π
2
2,5
3
3,5
4
Abbildung 12.1: Die Zahlengerade
x > 0 positiv genannt werden,
und solche mit x ≥ 0 nicht negativ. Entsprechend heiÿen alle Zahlen x mit x < 0 negativ,
und solche mit x ≤ 0 nicht positiv.
Abschlieÿend sei noch erwähnt, dass alle Zahlen
x
mit
12.3.1 Intervalle
Intervalle sind zusammenhängende Teilmengen von
durch seine untere Grenze
a
und seine obere Grenze
R. Ein beschränktes Intervall wird
b festgelegt, wobei jede der beiden
157
12 Anhang: Mengen und Zahlen
Grenzen zum Intervall gehören darf, aber auch ausgeschlossen sein kann. Es gibt also
abgeschlossen ,
oen , wenn beide Grenzen nicht enthalten
sind. Ein beschränktes Intervall heiÿt links halboen , wenn a nicht dazu gehört, aber b
doch. Ein beschränktes Intervall heiÿt rechts halboen , wenn b nicht dazu gehört, aber
vier Formen von beschränkten Intervallen. Ein beschränktes Intervall ist
wenn es beide Grenzen
a
a
und
b
enthält, und
doch.
Man verwendet für Grenzen, die zum Intervall gehören, eckige Klammern und runde
Klammern für Grenzen, die nicht zum Intervall gehören. Statt der runden Klammern
werden auch nach auÿen gewendete (gespiegelte) eckige verwendet. Im Folgenden werden
beide Schreibweisen gezeigt und der Mengenschreibweise gegenübergestellt:
•
Abgeschlossenes Intervall (enthält
a
und
b):
[a, b] = { x ∈ R | a ≤ x ≤ b }.
•
Oenes Intervall (enthält weder
a
noch
b):
(a, b) =]a, b[= { x ∈ R | a < x < b }.
•
Linksoenes Intervall (enthält nicht
a,
aber
b):
(a, b] =]a, b] = { x ∈ R | a < x ≤ b }.
•
Rechtsoenes Intervall (enthält nicht
b,
aber
a):
[a, b) = [a, b[= { x ∈ R | a ≤ x < b }.
Es wird auch der Fall zugelassen, dass ein Intervall nach links oder rechts unbeschränkt
ist. Bei nach rechts unbeschränkten Intervallen fehlt die Obergrenze
gibt es vier mögliche unbeschränkte Intervalle:
•
Rechtsseitig unendliches abgeschlossenes Intervall (enthält
a):
[a, ∞) = [a, ∞[= { x ∈ R | a ≤ x < ∞ }.
•
Rechtsseitig unendliches oenes Intervall (enthält
a
nicht):
(a, ∞) =]a, ∞[= { x ∈ R | a < x < ∞ }.
•
Linksseitig unendliches abgeschlossenes Intervall (enthält
b):
(−∞, b] =] − ∞, b] = { x ∈ R | −∞ < x ≤ b }.
158
Die gewohnte
b = ∞ gesetzt wird. EntIntervall a = −∞ gesetzt. Wieder
Schreibweise kann beibehalten werden, wenn in diesem Fall
sprechend wird bei einem nach links unbeschränkten
b.
12.3 Zahlenmengen
•
Linksseitig unendliches oenes Intervall (enthält
b
nicht):
(−∞, b) =] − ∞, b[= { x ∈ R | −∞ < x < b }.
Zur Vermeidung von Verwechslungen mit dem Dezimalkomma wird als Trennzeichen
manchmal das Semikolon (;) verwendet, etwa
Beispiel 12.1.
• [2, 3]:
[2, 1; 3, 2]
statt
[2, 1, 3, 2]
.
Ich gebe jetzt einige Beispiele von Intervallen an.
alle reellen Zahlen zwischen 2 und 3, einschlieÿlich von 2 und 3.
• (2, ∞):
alle reellen Zahlen, die echt gröÿer als 2 sind.
• [2, ∞):
alle reellen Zahlen, die gröÿer gleich 2 sind.
• [2, 3; 3, 3]:
alle reellen Zahlen zwischen 2,3 und 3,3, einschlieÿlich von 2,3 und 3,3.
• (2, 3; 3, 3]:
alle reellen Zahlen zwischen 2,3 und 3,3, ohne 2,3, aber mit 3,3.
12.3.2 Wissenschaftliche Darstellung einer Zahl
Bei sehr groÿen oder sehr kleinen Zahlen wird häug die sogenannte wissenschaftliche
Darstellung einer Zahl verwendet. Dabei wird eine Zahl durch eine Mantisse und eine
Potenz von 10 dargestellt, wobei die Mantisse genau eine Stelle vor dem Komma hat
n
6
und statt 10 der Ausdruck En verwendet wird, etwa 1, 23 E 6, womit die Zahl 1, 23 · 10
gemeint ist. Für die normale Darstellung wird das Komma in der Mantisse um so viele
Stellen nach rechts verschoben, wie der Exponent angibt, wobei leere Stellen zuvor mit
Nullen auüllen zu sind. Somit gilt
1, 23 E 6 = 1, 230000 E 6 = 1, 230000 106 = 1.230.000.
Umgekehrt lautet die wissenschaftliche Darstellung von 12345678 somit
1, 2345678 E 7,
da das Komma um sieben Stellen nach rechts verschoben wurde.
Bei sehr kleinen Zahlen werden negative Zehnerpotenzen eingesetzt, aber die Mantisse
hat auch jetzt genau eine Stelle vor dem Dezimalkomma. Für die normale Darstellung
werden bei einem negativen Exponenten
E −n
nach dem Komma
n−1
Nullen gesetzt
und dann folgen ohne Komma die Ziern der Mantisse. Somit gilt
1, 23 E −6 = 0, 00000123.
Hier sind
5 = 6 − 1 Nullen nach dem Komma nötig, dann folgen die Ziern der Mantisse.
Umgekehrt sucht man bei der normalen Darstellung die erste von 0 verschiedene Zier
und nennt die Stellenzahl
n.
Die Mantisse wird von den Ziern ab der Stelle
n
gebildet,
wobei die Zier der n-ten Stelle vor dem Komma steht. Die wissenschaftliche Darstellung
von 0,00000001234 lautet somit
1, 224 E −8,
da die erste von 0 verschiedene Zier an
der achten Stelle steht.
159
12 Anhang: Mengen und Zahlen
In der wissenschaftlichen Darstellung lassen sich Zahlen leicht miteinander multiplizieren und dividieren, und zwar werden beim Multiplizieren die beiden Mantissen miteinander multipliziert und die Exponenten addiert, während man beim Dividieren die
beiden Mantissen dividiert und die Exponenten subtrahiert.
1, 2 E −6 · 2, 345 E 8 = 2, 814 E 2
1, 2 E −6 : 2, 345 E 8 = 0, 511727079 E −14 = 5, 11727079 E −15
12.4 Mächtigkeit von Mengen
Denition 12.2.
Unter der Mächtigkeit einer endlichen Menge
M
versteht man die
|M |.
Anzahl ihrer Elemente. Man schreibt dafür
Die Mächtigkeit der leeren Menge wird 0 gesetzt, da sie kein Element hat. Bei allen
nicht leeren endlichen Mengen ist die Mächtigkeit eine natürliche Zahl. Die Menge
{ 1, 2, 3 }
hat die Mächtigkeit
Denition 12.3.
Zwei Mengen
wenn jedem Element von
ein Element von
A
A
A
B
(A ∼ B),
von B genau
heiÿen gleichmächtig, symbolisch
B
und jedem Element
zugeordnet werden kann.
Zwei endliche Mengen
B = { a, b, c }
und
genau ein Element von
A und B
sind genau dann gleich mächtig, wenn sie dieselbe An-
zahl von Elementen besitzen, also
und
A=
|A| = 3.
|A| = |B|
A = { 1, 2, 3 }
C = { 1, 2 }. Bei endli-
gilt. Somit sind die Mengen
gleich mächtig, nicht aber die Mengen
A
und
chen Mengen kann eine echte Teilmenge niemals so mächtig sein wie ihre Obermenge, bei
unendlichen Mengen ist das erstaunlicherweise schon möglich. Seien dazu die Mengen
N
der natürlichen Zahlen und die Menge
Obwohl
G
eine echte Teilmenge von
Element von
N
N
G
der geraden natürlichen Zahlen betrachtet.
ist, kann man jedem Element von
zuordnen, und zwar über die Vorschrift
G
genau ein
n ↔ 2n.
Mengen mit gleicher Mächtigkeit wie die natürlichen Zahlen sind in der Mathematik
besonders wichtig, da sie die einfachsten nicht endlichen Mengen sind. Man führt für
diese Mengen einen eigenen Begri ein.
Denition 12.4.
zur Menge
N
Eine Menge
A
heiÿt abzählbar, wenn sie endlich oder gleichmächtig
der natürlichen Zahlen ist. Nicht endliche abzählbare Mengen werden
abzählbar unendlich genannt.
12.5 Relationen und Verknüpfungen von Mengen
Es gibt für Mengen bestimmte Beziehungen wie Gleichheit, die man durch Operatoren
knapp und zweckmäÿig beschreiben kann. Zunächst wird untersucht, wie man Mengen
vergleichen kann.
160
12.5 Relationen und Verknüpfungen von Mengen
A = B.
(1) Gleichheit
Die einfachste Beziehung zwischen zwei Mengen
A
und
B
ist die Gleichheit, die
genau dann gilt, wenn beide Mengen dieselben Elemente enthalten. Man drückt
=
dies durch den Operator
aus. Zum Beispiel gilt
{ 1, 2, 3 } = { 3, 1, 2 },
da bei
Mengen die Reihenfolge der Elemente keine Rolle spielt.
A 6= B .
Mengen A
(2) Ungleichheit
Wenn zwei
B nicht
A 6= B
und
Man schreibt dafür kurz
gleich sind, werden sie als ungleich bezeichnet.
(3)
A
ist Teilmenge von
B , A ⊆ B bzw. B ⊇ A.
Man bezeichnet eine Menge A als Teilmenge der Menge B , wenn jedes Element
der Menge A auch Element der Menge B ist. Der entsprechende Operator ist ⊆.
Wenn A eine Teilmenge von B ist, nennt man B die Obermenge von A. Die leere
Menge ∅ ist Teilmenge jeder Menge A und jede Menge A ist Teilmenge von sich
selbst also ausgedrückt durch Operatoren ∅ ⊆ A und A ⊆ A.
(4)
A
ist echte Teilmenge von
Man nennt
nicht mit
B
A
eine
B, A ⊂ B
echte Teilmenge
B ⊃ A.
B , wenn A
bzw.
von
Teilmenge von
übereinstimmt. Der entsprechende Operator ist
⊂.
B
ist, aber
Die Menge aller
Vokale ist eine echte Teilmenge der Menge aller Buchstaben und die Menge aller
Primzahlen eine echte Teilmenge von
Aus Grundmengen
A
und
B
N.
lassen sich weitere Mengen bilden, auch für die Darstel-
lung dieser Verknüpfungen werden Operatoren verwendet.
A ∩ B = { x | x ∈ A und x ∈ B }.
A und B ist die Menge aller Elemente, die sowohl
zur Menge A als auch zur Menge B gehören. Daher ist der Durchschnitt von A
und B eine Teilmenge sowohl von A als auch von B , also
(1) Durchschnitt von Mengen
Der Durchschnitt zweier Mengen
A ∩ B ⊆ A,
A ∩ B ⊆ B.
Die Durchschnittsbildung kann vertauscht werden, d.h. es gilt
A ∩ B = B ∩ A.
Auch wenn man den Durchschnitt von mehr als zwei Mengen bildet, spielt die
Reihenfolge keine Rolle. Haben zwei Mengen
A und B
kein gemeinsames Element,
so nennt man sie elementfremd (disjunkt), die Durchschnittsmenge ist dann die
leere Menge, also sind
A genau dann
A ∩ A = A.
ist
A und B
A ∩ B = ∅ gilt. Weiter
A ∩ B = A ist. Insbesondere gilt
genau dann disjunkt, wenn
eine Teilmenge von
B,
wenn
A ∪ B = { x | x ∈ A oder x ∈ B }.
Die Vereinigung zweier Mengen A und B ist die Menge aller Elemente, die zu einer
(2) Vereinigung von Mengen
der beiden Mengen gehören. Selbstverständlich schlieÿt dies auch die Elemente
mit ein, die zu beiden Mengen, also dem Durchschnitt gehören. Somit sind beide
Mengen
A
und
B
Teilmenge ihrer Vereinigung, also
A ⊆ A ∪ B,
B ⊆ A ∪ B.
161
12 Anhang: Mengen und Zahlen
Die Vereinigungsbildung kann vertauscht werden, d.h. es gilt
A ∪ B = B ∪ A. Auch
wenn man die Vereinigung von mehr als zwei Mengen bildet, spielt die Reihenfolge
A genau
A ∪ A = A.
keine Rolle. Weiter ist
Insbesondere gilt
dann eine Teilmenge von
B,
wenn
A∪B=B
ist.
A \ B = { x | x ∈ A und x ∈
/ B }.
A \ B ist die Menge aller Elemente von A, die nicht zu B
gehören. Die Dierenzmenge A \ B ist natürlich eine Teilmenge von A und stimmt
genau dann mit A überein, wenn A und B disjunkt sind. Die Dierenzmenge A \ B
ist dagegen genau dann die leere Menge, wenn A eine Teilmenge von B ist.
(3) Die Dierenzmenge
Die Dierenzmenge
(4) Die Komplementärmenge
Ā = { x | x ∈ Ω
und
x∈
/ A }.
Fast immer sind Mengen Teilmengen einer Grundmenge, die in der Statistik meist
Ω heiÿt. Die Komplementärmenge Ā ist dann gleich Ω \ A. Die Komplementärmenc
0
ge wird oft auch mit A oder mit A bezeichnet.
12.5.1 Venn-Diagramme
Die vier Verknüpfungen lassen sich grasch durch sogenannte Venn-Diagramme veranschaulichen. Das äuÿere Rechteck stellt die Grundmenge
die Mengen
A
und
A
B
(a) A∩B
Ω
dar, die inneren Rechtecke
B.
A
B
A
B
(b) AUB
(c) A\B
A
(d) Ac
Abbildung 12.2: Venn-Diagramme
12.5.2 Beispiele zu den Relationen und Verknüpfungen
Im folgenden Beispiel wird als Grundmenge
G, U
angenommen. Weiter seien mit
und
P
Ω
die Menge der natürlichen Zahlen
die Menge der geraden bzw. ungeraden
natürlichen Zahlen sowie die Menge der Primzahlen bezeichnet. Die Menge
zeichne die echten Teiler von 12, also die Menge
ist das Komplement von
• N
ist die Vereinigung von
162
U,
G
also
und
G = Ū = N \ U .
U,
also
ET (12)
be-
{ 2, 3, 4, 6 }. Es gelten dann u.a. folgende
Beziehungen.
• G
N
N = G ∪ U.
12.5 Relationen und Verknüpfungen von Mengen
•
Die leere Menge
∅
•
Der Durchschnitt von
ist der Durchschnitt von
G
und
P
G
ist die Menge
und
U,
{ 2 },
also
∅ = G ∩ U.
{ 2 } = P ∩ G,
da 2 die
U ∪ P = { 2, 3, 5, 7, . . . },
also alle
also
einzige gerade Primzahl ist.
•
Die Vereinigung von
U
und
P
ist die Menge
ungeraden Zahlen und die Zahl 2, da 2 die einzige gerade Primzahl ist.
•
Der Durchschnitt von
•
Der Dierenz von
P
P
und
und
ET (12)
ET (12)
ist die Menge
P ∩ ET (12) = { 2, 3 }.
ist die Menge
P \ ET (12) = { x ∈ P | x ≥ 5 }.
12.5.3 Zusammenfassung der Rechengesetze
In der folgenden Tabelle werden die wichtigsten Gesetzmäÿigkeiten für das Rechnen mit
Mengen zusammengefasst.
Tabelle 12.1: Rechengesetze für Mengenoperationen
Gesetz
∩
Idempotenz
A ∩ A=A
A ∪ A=A
(A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
A ∩ B=B ∩ A
A ∪ B=B ∪ A
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ ∅=∅
A ∪ ∅=A
A ∩ Ω=A
A ∪ Ω=Ω
A ∩ B = Ā ∪ B̄
A ∪ B = Ā ∩ B̄
Assoziativ
Kommutativ
Distributiv
Leere Menge
Grundmenge
de Morgan
∪
Beispiel 12.2. Die Distributivgesetze und die Regeln von de Morgan seien für folgenden
Fall erläutert:
Ω = { x ∈ N | x < 10 }, A = { 1, 2, 4 }, B = { 1, 2, 8, 9 }
und
C =
{ 1, 3, 5, 7 }.
• A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Hier sind B ∪ C = { 1, 2, 3, 5, 7, 8, 9 } und somit A ∩ (B ∪ C) = { 1, 2 }. Umgekehrt
sind A ∩ B = { 1, 2 } und A ∩ B = { 1 } und daher auch (A ∩ B) ∪ (A ∩ C) =
{ 1, 2 }.
• A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Hier sind B ∩ C = { 1 } und somit A ∪ (B ∩ C) = { 1, 2, 4 }. Umgekehrt sind
A ∪ B = { 1, 2, 4, 8, 9 } und A ∪ C = { 1, 2, 3, 4, 5, 7 } und daher auch (A ∪ B) ∩
(A ∪ C) = { 1, 2, 4 }.
163
12 Anhang: Mengen und Zahlen
• A ∩ B = Ā ∪ B̄
Hier sind A ∩ B = { 1, 2 } und somit A ∩ B = { 3, 4, 5, 6, 7, 8, 9 }. Weiter sind Ā =
{ 3, 4, 5, 6, 7, 8, 9 } und B̄ = { 3, 4, 5, 6, 7 } und folglich Ā ∪ B̄ = { 3, 4, 5, 6, 7, 8, 9 }.
• A ∪ B = Ā ∩ B̄
Hier sind A ∪ B = { 1, 2, 4, 8, 9 } und somit A ∪ B = { 3, 5, 6, 7 }. Weiter sind
Ā = { 3, 5, 6, 7, 8, 9 } und B̄ = { 3, 4, 5, 6, 7 } und folglich Ā ∩ B̄ = { 3, 5, 6, 7 }.
12.6 Die Potenzmenge
In der Statistik geht man oft von einer meist
Ω
genannten Grundmenge aus und be-
trachtet die Elemente der Menge als Ausgänge etwa bei einem Fuÿballspiel 0 für ein
Unentschieden, 1 für einen Sieg der Heim- und 2 für einen Sieg der Auswärtsmannschaft. Die Grundmenge ist hier
beschreiben, etwa
{ 0, 1 },
Ω = { 0, 1, 2 }.
Die Teilmengen lassen sich ebenfalls
was für ein Unentschieden oder einen Sieg der Heimmann-
schaft steht. Die Teilmengen einer Menge sind so wichtig, dass man sie selbst zu einer
Menge zusammenfasst, der sogenannten Potenzmenge, einer Menge also, deren Elemente
Mengen sind. Ich halte das in einer Denition fest.
Denition 12.5.
Unter der
Potenzmenge P(Ω) einer Menge Ω versteht man die Menge
ihrer Teilmengen. Dabei ist zu beachten, dass die leere Menge
∅
und die Grundmenge
ebenfalls dazu zählen. Eine beliebige Teilmenge der Potenzmenge heiÿt
über
Ω
Mengensystem
Ω.
Ω = { x, y, z }. Zur Potenzmenge gehören alle
Ω selbst. Weiter gibt es drei Teilmengen
mit nur einem Element, nämlich { x }, { y } und { z }, sowie drei Teilmengen mit je
zwei Elementen, und zwar { x, y }, { x, z } und { y, z }. Die Potenzmenge P(Ω) und das
Mengensystem Z aller Mengen mit genau zwei Elementen sind somit
Betrachten wir als Beispiel die Menge
Teilmengen, also auch die leere Menge und
P(Ω) = { ∅, { x }, { y }, { z }, { x, y }, { x, z }, { y, z }, { x, y, z } },
Z = { { x, y }, { x, z }, { y, z } }
Beachten Sie bitte den Unterschied zwischen x, dem Element von
welche eine Teilmenge von
x ∈ Ω,
Die Potenzmenge von
Ω
und ein Element von
{ x } ⊂ Ω,
Ω hat 8 = 2|Ω| = 23
P(Ω)
{ x } ∈ P(Ω),
Ω und der Menge { x },
ist, also
Z ⊂ P(Ω).
Elemente. Das ist kein Zufall, wie der folgende
Satz zeigt.
Satz 5. Es sei X eine endliche Menge mit n Elementen. Dann besteht die Potenzmen-
ge P(X) aus 2n Teilmengen. Die Anzahl der Elemente einer Menge wird Mächtigkeit
genannt und mit |X| bezeichnet. Somit hängt für endliche Mengen die Mächtigkeit von
X und mit der von P(X) wie folgt zusammen:
|P(X)| = 2|X| .
164
(12.1)
12.7 Kartesisches Produkt
Der Beweis sei angedeutet. Man kann jede endliche Menge mit
n
Elementen in der
X = { x1 , x2 , . . . , xn } schreiben. Bei jeder Teilmenge kann entschieden werden,
xi dazu gehört oder nicht. Somit gehört zu jeder Teilmenge genau eine
Folge (z1 , z2 , . . . , zn ), wobei zi den Wert 1 hat, wenn xi zur Menge gehört und sonst den
n
Wert 0 annimmt. Es gibt aber genau 2 Folgen dieser Art.
Form
ob das Element
12.7 Kartesisches Produkt
Denition 12.6.
Das Mengenprodukt
A × B := { (a, b) | a ∈ A, b ∈ B } .
ist die Menge aller geordneten Paare
Menge als
kartesisches Produkt
(a, b)
mit
a∈A
b ∈ B . Man
von A und B .
und
(nach René Descartes)
Beim kartesischen Produkt wird also jedes Element von
Geschrieben wird es als
A × B,
bezeichnet diese
A mit jedem von B kombiniert.
gelesen als A kreuz B.
Beispiel 12.3. Wir bilden das Mengenprodukt C = A×B von den Mengen A = { a, b, c }
und
B = { 1, 2 }.
Da jedes Element von
A
mit jedem von
B
verbunden wird, ergibt sich
C = A × B = { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) }.
Beim kartesischen Produkt kommt es auf die Reihenfolge an, das Produkt
D = B×A
ist die folgende Menge
D = B × A = { (1, a), (1, b), (1, c), (2, a), (2, b), (2, c) }.
A×B
(a, 1) steht an erster Stelle ein Element von A
B . Bei den Elementen von B × A wie etwa (1, a) steht
erster Stelle ein Element von B gefolgt von einem Element von A. Die Reihenfolge
wesentlich, da die Paare geordnet sind und somit (a, 1) 6= (1, a) gilt.
Bei den Elementen von
wie etwa
gefolgt von einem Element von
an
ist
Man kann das kartesische Produkt auch von zwei identischen Mengen bilden. Mit den
Bezeichnungen vom vorigen Beispiel ergeben sich
E = A × A = { (a, a), (a, b), (a, c), (b, a), (b, b), (b, c), (c, a), (c, b), (c, c) },
F = B × B = { (1, 1), (1, 2), (2, 1), (2, 2) }.
Statt
A×A
schreibt man meistens
A2 .
Das kartesische Produkt lässt sich auch von mehr als zwei Mengen bilden.
Denition 12.7.
n
Y
Das Mengenprodukt
Ai = A1 × A1 · · · × An := { (a1 , a2 , . . . , an ) | ai ∈ Ai , i = 1, . . . , n}
i=1
ist die Menge aller geordneten n-Tupeln
(a1 , a2 , . . . , an )
mit
ai
aus
Ai .
165
12 Anhang: Mengen und Zahlen
Ai leer, dann ist auch das kartesische Produkt
A, schreibt man auch hier vereinfacht An , d.h.
Ist eine der Mengen
Sind alle
Ai
gleich
n
A :=
n
Y
die leere Menge.
A.
i=1
Nun wird untersucht, wie viele Elemente die Produktmenge hat. Dabei bestehe das
|A1 |, |A1 |,
Produkt nur aus endlichen Mengen mit den Mächtigkeiten
erste Position des n-Tupels wird von den Elementen von
|A1 |
A
|An |.
Die
besetzt, und dafür gibt es
Möglichkeiten. An der zweiten Stelle stehen die Elemente von
Möglichkeiten gibt, in der Kombination ergeben sich
...,
|A2 | · |A2 |
A2 ,
wofür es
|A2 |
Möglichkeiten. Da man
diese Überlegung fortführen kann, folgt für die Mächtigkeit des kartesischen Produkts
die folgende Aussage:
Sind
A1 , A2 , . . . , An
endlich viele endliche Mengen. Dann ist auch ihr kartesisches
Produkt eine endliche Menge, und die Anzahl seiner Elemente ist gleich dem Produkt
der Mächtigkeiten der
Ai
|
n
Y
Ai | =
i=1
Wenn alle Mengen gleich
A
n
Y
|Ai |.
i=1
sind, gilt:
|An | =
n
Y
|A| = |A|n .
i=1
Dieses Ergebnis rechtfertigt die Bezeichnung Produktmenge.
A und B wie im Beispiel 12.3 die Mengen { a, b, c }
|A × A| = 9, |A × B| = |B × A| = 6 und |B × B = 4|.
Seien mit
so gilt
und
{ 1, 2 }
bezeichnet,
12.7.1 Das kartesische Koordinatensystem
Auf René Descartes (1596 - 1650) geht das kartesische Produkt
R2 = R×R zurück, wobei
R die Menge der reellen Zahlen bezeichnet, die man sich auf der Zahlengerade vorstellen
2
kann. Das kartesische Produkt R veranschaulicht man sich als eine Ebene mit einem
rechtwinkligen (kartesischen) Koordinatensystem. Die waagrechte Achse wird meist als
x-Achse oder Abszisse bezeichnet, die senkrechte Achse heiÿt y-Achse oder Ordinate . Die
Achsen schneiden sich in einem Punkt, den man als Ursprung des Koordinatensystems
bezeichnet. Die Bezeichnungen x- und y-Achse sind zwar weit verbreitet, aber man darf
natürlich auch andere Symbole verwenden. Die geordneten Paare
(a, b), a, b ∈ R
lassen
sich dann als die Koordinaten eines Punktes in der Ebene deuten, wobei der Ursprung
die Koordinaten
(0, 0)
hat. Dabei ist die Reihenfolge wesentlich, denn der Wert von
wird waagrecht und der Wert von
b
a
wird senkrecht abgetragen. Die Koordinatenachsen
teilen die Ebene in vier Quadranten ein. Die Nummerierung erfolgt im Gegenzeigersinn.
In der Abbildung 12.3 sehen Sie ein kartesisches Koordinatensystem mit den üblichen
Bezeichnungen und den Punkten
Quadranten liegen.
166
(2, 1), (−2, 1), (−2, −1) sowie (−2, −1), die in den vier
12.8 Aufgaben
Kartesisches Koordinatensystem
2
y-Achse (Ordinate)
I. Quadrant
II. Quadrant
1
x-Achse (Abszisse)
0
-3
-2
-1
0
1
2
3
-1
III. Quadrant
IV. Quadrant
-2
Abbildung 12.3: Das kartesische Koordinatensystem
12.8 Aufgaben
Aufgabe 1.
2
x + 2x + 1
Bestimmen Sie die folgenden Mengen:
= 0 } und { x ∈ R | x2 + 2x + 2 = 0 }
Aufgabe 2.
Seien
T (8) = { 1, 2, 4, 8 }
und
{ x ∈ R | x > x2 }, { x ∈ R |
T (12) = { 1, 2, 3, 4, 6, 12 }
die Mengen der
Teiler von 8 bzw. 12. Welche Mächtigkeit haben diese Mengen? Welche Mächtigkeit
haben deren Potenzmengen? Bestimmen Sie
und
T (8) ∪ T (12), T (8) ∩ T (12), T (8) \ T (12)
T (12) \ T (8).
Aufgabe 3.
Vereinfachen Sie die folgenden Ausdrücke für beliebige Mengen:
Aufgabe 4.
Sei
A ∩ (A ∩
B), (A ∩ B) ∩ (B ∩ C), ∅ ∩ (A ∩ B), ∅ ∪ (A ∪ B), A ∪ (A ∩ B), A ∪ (A \ B) und
A ∪ (B \ A).
{ 2 } ∈ P(X)?
Ist
Z = { 0, 1, 2, · · · , 9 }. Wieviel
∅ ∈ P(X)? Ist Z ∈ P(X)?
Teilmengen hat
Z?
Ist
2 ∈ P(X)?
Ist
167
13 Ausgewählte Lösungen
13.1 Zu Kapitel 1
Aufgabe 1.
Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle
Mitarbeiter in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung,
das Geburtsjahr sowie Tarifgruppe und Gehalt sind. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art sind
die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben
Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.
Die statistischen Einheiten sind die Mitarbeiter, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal Geschlecht ist nominal
und dichotom, das Merkmal Abteilung ist nominal und polytom. Das Merkmal Geburtsjahr ist metrisch diskret, die Tarifgruppe ist ordinal und das Gehalt metrisch stetig.
ID
X (Sex)
A (Abt.) J (Geb.Jahr) T (Tarifg.) G (Gehalt)
1
1 männlich
Personal
1972
T4
2.345
2
0 weiblich
Vertrieb
1980
T1
7.050
Aufgabe 2.
Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Ge-
schlecht, Nationalität, Alter, Schulbildung und Fachbereich. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher
Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese? Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern an.
Die statistischen Einheiten sind die Studenten, die zusammen die statistische Gesamtheit
bilden. Es handelt sich um eine Teilerhebung. Die Merkmale Nationalität und Fachbereich sind nominal und polytom, die Schulbildung ordinal, das Alter metrisch diskret.
Aufgabe 3.
Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusam-
menhang zwischen Bestands- und Bewegungsmassen.
Die zugelassenen PKW bilden eine Bestandsmasse, Zulassungen und Abmeldungen bilden Bewegungsmassen. Die Veränderungen bei der Bestandsmasse zwischen zwei Erhebungen werden durch die beiden Bewegungsmassen verursacht.
169
13 Ausgewählte Lösungen
13.2 Zu Kapitel 2
Aufgabe 1.
An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was sind
hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen
hat es? Berechnen Sie die Häugkeitstabelle und stellen Sie dann die Daten als Säulendiagramm dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine
Verteilungsfunktion?
ai
Männlich
Weiblich
Summen
ni
fi
9
11
20
0,45
0,55
1
Säulendiagramm
0,6
0,4
0,2
0
Männlich
Weiblich
Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das Merkmal ist das Geschlecht
des Teilnehmers, die möglichen Ausprägungen sind männlich und weiblich. Dieses
Merkmal ist nominal, daher gibt es keine Anordnung und folglich auch weder kumulierte
Häugkeiten noch die Verteilungsfunktion. Die Häugkeitstabelle und das Säulendiagramm sind abgebildet.
Aufgabe 2.
Der Chef einer Pizzeria glaubt, dass der Koch die Salamischeiben auf der
Pizza Salami Maximale zu unregelmäÿig verteilt. Er nimmt eine Stichprobe und erhält
die folgenden Werte für die Anzahl
10
12
7
12
8
8
14
8
X
von Salamischeiben
12
10
10
7
12
14
10
14
7
12
8
8.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
1
2
3
4
5
6
7
8
9
10
11
170
A
i
Urliste xi
geordnete Urliste x(i)
B
C D E F G H I J K
1 2 3 4 5 6 7 8 9 10
10 12 7 12 8 8 14 8 12 10
7 7 7 8 8 8 8 8 10 10
fi
L M N O P
11 12 13 14 15
10 7 12 14 10
10 10 12 12 12
i
1
0,75
0,5
0,25
0
0,3
0,2
0,1
0
6 7 8 9 10 11 12 13 14 15
Anzahl Salamischeiben
1
2
6 7 8 9 10 11 12 13 14 15
Anzahl Salamischeiben
Q R S
16 17 18
14 7 12
12 12 14
T
19
8
14
U
20
8
14
ai ni Ni
fi
Fi
7
8
3 10
4 12
5 14
3 3 0,15 0,15
5 8 0,25 0,4
4 12 0,2 0,6
5 17 0,25 0,85
3 20 0,15
1
13.2 Zu Kapitel 2
Die statistischen Einheiten sind die insgesamt hergestellten Pizzen der Sorte Salami
Maximale, die zusammen die statistische Gesamtheit bilden. Da nur 20 Pizzen untersucht wurden, handelt es sich um eine Teilerhebung. Das Merkmal ist die Anzahl von
Salamischeiben, die möglichen Ausprägungen sind natürliche Zahlen. Dieses Merkmal
ist metrisch diskret. Die Häugkeitstabelle und das Säulendiagramm sowie die Verteilungsfunktion sind abgebildet.
171
13 Ausgewählte Lösungen
13.3 Zu Kapitel 3
Aufgabe 1.
In der Abiturprüfung kamen die Schülerinnen des Sportleistungskurses
eines Gymnasiums beim Kugelstoÿen auf folgende Weiten
3,23
2,35
5,37
3,49
6,90
2,93
1,81
X
4,26
in [m]
4,44
2,73.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie das untere Quartil, den Median, das obere Quartil,
das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische
Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Die statistischen Einheiten sind die Schülerinnen des Sportleistungskurses, die zusammen die Gesamtheit bilden. Da alle Einheiten berücksichtigt werden, handelt es sich um
eine Vollerhebung. Das Merkmal sind die erzielten Weiten. Dieses Merkmal ist metrisch
stetig.
Die restliche Lösung nden Sie im abgebildeten Arbeitsblatt. Im Bereich F4:G7 sehen
Sie die Funktionen von Excel für die Werte für das arithmetische Mittel, die Varianz
und die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung. Die Funktionen der Spalte F gelten nur im neuen Excel.
A
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
i
B
C
x(i)
1,81
2,35
2,73
2,93
3,23
3,49
4,26
4,44
5,37
6,9
=SUMME(C2:C11)
σ2
xquer
=C12/A11 =D12/A11-B14^2
3,751
2,105749
xi
1 3,23
2 2,35
3 5,37
4 3,49
5 6,9
6 2,93
7 1,81
8 4,26
9 4,44
10 2,73
D
x(i)2
=C2^2
=C3^2
=C4^2
=C5^2
=C6^2
=C7^2
=C8^2
=C9^2
=C10^2
=C11^2
=SUMME(D2:D11)
σ
=C14^0,5
1,45112
E
Q1
Q2
Q3
xquer
σ2
σ
s2
s
F
2,73
3,36
4,44
=MITTELWERT(B2:B11)
=VAR.P(B2:B11)
=STABW.N(B2:B11)
=VAR.S(B2:B11)
=STABW.S(B2:B11)
s2
s
=C14*10/9 =E14^0,5
2,339721
1,529615
G
=C4
=0,5*(C6+C7)
=C9
=VARIANZEN(B2:B11)
=STABWN(B2:B11)
=VARIANZ(B2:B11)
=STABW(B2:B11)
v
=D14/B14
0,386862
Abbildung 13.1: Maÿzahlen der Aufgabe
Aufgabe 2.
Der Notenspiegel einer Klausur ist wie folgt: 6-mal sehr gut, je 5-mal gut
und befriedigend, 3-mal ausreichend und einmal mangelhaft. Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist die Erhebung? Welcher
Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie die empirische
Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist es hier nicht sinnvoll
172
13.3 Zu Kapitel 3
Mittelwert und Varianz zu berechnen?
Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Es handelt sich um eine Vollerhebung. Das untersuchte Merkmal ist die Note
des Teilnehmers, die möglichen Ausprägungen sind sehr gut, gut usw. Das Merkmal ist ordinal, folglich sollten Mittelwert und Varianz nicht berechnet werden, was aber
gerade bei Noten fast immer doch gemacht wird. Die Häugkeitstabelle und die beiden
Diagramme sind abgebildet. Ich habe die Noten wie in der Schule üblich durch die Zahlen
1 bis 5 codiert.
1
2
3
4
5
6
7
8
9
10
A
i
1
2
3
4
5
B
ai
C D
ni Ni
1
2
3
4
5
6
5
5
3
1
Modus 1
Q1 1
Q2 2
Q3 3
6
11
16
19
20
E
fi
0,3
0,25
0,25
0,15
0,05
F
Fi
0,3
0,55
0,8
0,95
1
x0,95 4 und 5
G
H
I
0,35
1,2
0,3
1
0,25
J
0,8
0,2
0,6
0,15
0,1
0,4
0,05
0,2
0
0
0 1 2 3 4 5 6
0
1
2
3
4
5
6
Abbildung 13.2: Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
Modus: Für den Modus wird der Index
ist das der Index
a1 = sehr
i=1
mit
ni = 6.
i
mit dem gröÿten Wert von
Die zugehörige Ausprägung
ai
ni
gesucht, hier
ist der Modus, also
gut.
Unteres Quartil: Zum ersten Mal wird für den Index
i = 1 Fi > 0, 25 > Fi−1 ,
also ist
a1
(sehr gut) das untere Quartil.
Median: Zum ersten Mal wird für den Index
i = 2 Fi > 0, 5 > Fi−1 ,
also ist
a2
(gut) der
Median.
Oberes Quartil: Zum ersten Mal wird für den Index
i = 3 Fi > 0, 75 > Fi−1 ,
also ist
a3
(befriedigend) das obere Quartil.
Das Quantil
x0,95
ist nicht eindeutig, da für den Index
gilt, somit ergeben sich sowohl die Werte
a4
i=4
die Gleichung
(ausreichend) als auch
a5
Fi = 0, 95
(mangelhaft).
Eine Mittelung zwischen a4 und a5 ist hier nicht statthaft, da das betrachtete Merkmal
ordinal ist.
Aufgabe 3.
In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses
aufgeführt.
19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art ist
die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Erstellen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung für die relativen Häugkeiten sowie die empirische Verteilungsfunktion. Berechnen
173
13 Ausgewählte Lösungen
Sie mit Hilfe der Häugkeitstabelle den Modus, das untere Quartil, den Median, das
obere Quartil, die Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und
die Standardabweichung sowie die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Der Wert 52 ist
ein Zahlendreher und wäre korrekt 25. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die Standardabweichung? Ein anderer Auswerter dieser
Daten unterdrückt den Ausreiÿer von 52 ganz, geht also nur noch von 20 statt 21 Werten
aus. Wie ändern sich damit der Median, das arithmetische Mittel, die Varianz und die
Standardabweichung?
i
ai ni Ni
1
2
3
4
5
6
7
19
20
21
22
23
26
52
4
5
5
3
2
1
1
4
9
14
17
19
20
21
fi
Fi
0,190476
0,238095
0,238095
0,142857
0,095238
0,047619
0,047619
0,190476
0,428571
0,666667
0,809524
0,904762
0,952381
1,000000
Modus 20 und 21 xquer
2
20 σ
Q1
Q2
Q3
x0,1
x0,9
21
22
19
23
22,4285714
46,4353741
6,8143506
48,7571429
6,98263151
0,30382455
σ
s2
s
v
1
0,8
0,6
0,4
0,2
0
0,2
0,1
0
10
20
30
40
50
10
20
30
40
50
Abbildung 13.3: Häugkeitstabelle, Diagramme und Maÿzahlen.
Die statistischen Einheiten sind die Studenten des Kurses, die zusammen die Gesamtheit bilden. Da alle Teilnehmer berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal ist Alter der Teilnehmer. Dieses Merkmal ist metrisch diskret.
Bis auf die beiden letzten Fragen sind alle weiteren Lösungen im folgenden Arbeitsblatt
versammelt.
Aufgabe 4.
Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt
auf folgende Werte:
3
6
5
8
6
4
4
4
3
6.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Ordnen Sie die Urliste und bestimmen Sie damit den Modus, das
untere Quartil, den Median, das obere Quartil und die Quantile
x0,2
sowie
x0,9 .
Be-
rechnen Sie das arithmetische Mittel, die Varianz und die Standardabweichung sowie
die empirische Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Stellen Sie die Daten als Häugkeitstabelle dar.
Berechnen Sie damit die drei Quartile erneut. Zeichnen Sie abschlieÿend das Stabdiagramm für die relativen Häugkeiten und die Verteilungsfunktion.
174
13.3 Zu Kapitel 3
Die statistischen Einheiten sind die Tische, die zusammen die Gesamtheit bilden. Da
alle Tische berücksichtigt werden, handelt es sich um eine Vollerhebung. Das Merkmal
sind die Anzahl der Gäste am Tisch. Dieses Merkmal ist metrisch diskret. Die Häugkeitstabelle und die Stabverteilung für die relativen Häugkeiten sowie die empirische
Verteilungsfunktion sind abgebildet.
Für die Maÿzahlen arithmetisches Mittel, Varianz usw. gelten
x̄ = (3 · 2 + 4 · 3 + 5 · 1 + 6 · 3 + 8 · 1)/10 = 4, 9,
σ 2 = (32 · 2 + 42 · 3 + 52 · 1 + 62 · 3 + 82 · 1)/10 − 4, 92 = 2, 29,
s2 = (10/9) · σ 2 = 2, 54̄,
√
σ = σ 2 = 1, 51327460,
√
s = s2 = 1, 59513148,
v = σ/x̄ = 0, 30883155.
1
2
3
4
5
6
7
8
9
10
11
D E F G H
I
Fi
i ai ni Ni fi
1
2
3
4
5
3
4
5
6
8
2
3
1
3
1
2
5
6
9
10
0,2
0,3
0,1
0,3
0,1
2
0
J
K
L
M
N
O
fi
0,2
0,5
0,6
0,9
1
0,3
0,2
0,1
ai
0
P
Q
1
0,8
0,6
0,4
0,2
0
2 3 4 5 6 7 8
3 3
0 0,2
3
4
0,2 0,2
3
0
4
4
0 0,3
4 5
0,5 0,5
R
S
T
U V W
Fi
ai
3
4
5
6
8
X
0,2
0,5
0,6
0,9
1
2 3 4 5 6 7 8
5 5
0 0,1
5 6
0,6 0,6
6 6
0 0,3
8
6
8
0,9 0,9
8
1
8
0 0,1
9
1
Abbildung 13.4: Häugkeitstabelle und Diagramme
Modus: Für den Modus wird der Index
gilt für
i=2
und
i=4
mit
ni = 3 .
i
ni gesucht, hier
a2 = 4 und a4 = 6
mit dem gröÿten Wert von
Die zugehörigen Ausprägungen
sind Modi.
Unteres Quartil: Zum ersten Mal wird für den Index
a2 = 4
i = 2 Fi > 0, 25 > Fi−1
das untere Quartil.
i = 3 Fi > 0, 5 aber Fi−1 = 0, 5, somit
Median, also Q2 = 4, 5.
wird für den Index i = 4 Fi > 0, 75 > Fi−1 , also
Median: Zum ersten Mal wird für den Index
der Mittelwert von
a3
und
a2
der
Oberes Quartil: Zum ersten Mal
a4 = 6
, also ist
ist
ist
das obere Quartil.
Wie beim Median begründet sind
x0,2 = 3, 5
und
x0,9 = 7.
Aufgabe 5. Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite
12.
175
13 Ausgewählte Lösungen
Q1 , Q2 und Q3 noch der
Hier sind Q0 = 5, Q1 = 6,
Für einen einfachen Boxplot werden neben den drei Quartilen
Q0 und der gröÿte Q4 Wert der Daten benötigt.
Q2 = 7, Q3 = 8 und Q4 = 10, das ergibt den folgenden Boxplot:
kleinste
Einfacher Boxplot: Studiendauer in Semester
4
5
6
7
8
9
10
11
Abbildung 13.5: Boxplot zu den Daten des Beispiels 2.1
Aufgabe 6.
In einem Projekt zur Betriebsinformatik wurden die Studierenden unter
anderem nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe:
44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60.
Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite 117.
n = 21 bereits geordnete Daten. Somit sind Q0 = 44, Q1 = x6 = 51, Q2 = x11 =
52, Q3 = x16 = 54 und Q4 = x21 = 60. Der einfache Boxplot sieht daher wie folgt aus
Es sind
Einfacher Boxplot: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
62
Abbildung 13.6: Einfacher Boxplot
IQR = Q3 −Q1 = 54−51 = 3, das 1,5-fache davon beträgt
Q1 − 4, 5 = 46, 5, also
Z0 = 49. Der obere Zaun ist die gröÿte Beobachtung unterhalb von Q3 + 4, 5 = 58, 5,
also Z4 = 58. Ausreiÿer nach unten sind alle Werte unterhalb von Z0 , also 46 und 44.
Ausreiÿer nach oben sind alle Werte oberhalb von Z4 , also nur 60. Der zweite Boxplot
Der Interquartilsabstand ist
4,5. Der untere Zaun ist die kleinste Beobachtung oberhalb von
sieht daher wie folgt aus
Variante des Boxplots: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
Abbildung 13.7: Variante des Boxplots
176
62
13.4 Zu Kapitel 4
13.4 Zu Kapitel 4
Aufgabe 1.
(Wikipedia, 19.2.2009) Es liegen für 32 europäische Länder als Indikator
für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden in
Klassen eingeteilt wie folgt. In 9 Ländern kommen z.B. auf je 1.000 Einwohner mehr als
Tabelle 13.1: Brumm, Brumm
[0, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 700]
5
6
6
9
6
400 und bis zu 500 PKW. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm
sowie die approximierende Verteilungsfunktion. Berechnen Sie dann näherungsweise die
Quartile
Q1 , Q2
und
i xi-1* xi* ni Ni
1
2
3
4
5
0
200
300
400
500
200
300
400
500
700
5
6
6
9
6
5
11
17
26
32
Q3
sowie den Mittelwert und die Varianz.
fi
0,15625
0,1875
0,1875
0,28125
0,1875
fi*
Fi
0,00078125
0,001875
0,001875
0,0028125
0,0009375
Modus
0,15625
0,34375
0,53125
0,8125
1
0,003
Q1
Q2
Q3
450,00 xquer
2
250,00 σ
383,33 σ
2
477,78 s
s
367,19
25876,46
160,86
26711,19
163,44
1
0,8
0,002
0,6
0,4
0,001
0,2
0
-100
100
300
500
0
-100
700
100
300
500
700
Abbildung 13.8: Lösung zur Aufgabe
Aufgabe 2.
Die Daten seien wieder die Körpergröÿen der Abbildung 4.1, aber die Klas-
sengrenzen seien 1,50, 1,70, 1,80, 1,90 und 2,10. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie
dann näherungsweise die Quartile
Q1 , Q2
und
Q3
sowie den Mittelwert und die Varianz.
177
13 Ausgewählte Lösungen
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
F G
i xi-1*
H
xi*
1
2
3
4
4
1,70
1,80
1,90
2,10
1,50
1,70
1,80
1,90
I J
n i Ni
K
fi
L
fi*
M
Fi
4 4
0,2
1
0,2
7 11 0,35
3,5 0,55
6 17
0,3
3 0,85
3 20 0,15 0,75
1
N
O
Modus
Q1
Q2
Q3
P
Q
1,75 xquer
2
1,71429 σ
1,78571 σ
2
1,86667 s
s
R
1,7875
0,01546875
0,12437343
0,016282895
0,127604446
1
0,8
0,6
0,4
0,2
0
2
0
1,40
Q1
Q3
σ2
1,60
1,80
2,00
2,20
1,40
1,60
1,80
2,00
1,7+(0,25-0,2)/3,5
Q2
1,7+(0,5-0,2)/3,5
1,8+(0,75-0,55)/3
xquer 0,2*1,6+0,35*1,75+0,3*1,85+0,15*2
0,2*1,6^2+0,35*1,75^2+0,3*1,85^2+0,15*2^2-1,7875^2
Abbildung 13.9: Klassierte Häugkeitstabelle und Diagramme
178
2,20
13.5 Zu Kapitel 5
13.5 Zu Kapitel 5
Aufgabe 1.
In der Kleinstadt des Beispiels 5.1 auf Seite 54 hat der erfolgreichste der
fünf Bäcker sein Geschäft auf seine zwei Söhne verteilt, die Jahresgewinne von 60 und
90 Tausend Euro erwirtschaften. Die Jahresgewinne der anderen Bäckereien veränderten
sich nicht. Somit sind die Jahresgewinne der nun sechs Bäcker 60, 40, 60, 90, 20 und 90
in Tausend Euro.
Was sind hier die statistischen Einheiten und die statistische Gesamtheit? Welcher Art
ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche möglichen Ausprägungen hat es?
Die statistischen Einheiten sind die Bäckereien, die insgesamt die statistische Gesamtheit
der Untersuchung bilden. Das untersuchte Merkmal ist der Jahresgewinn, die möglichen
Werte sind die reellen Zahlen. Das Merkmal ist stetig metrisch.
Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten und
zeichnen Sie die Lorenzkurve. Der normierte Gini-Koezient ist 6/5-mal gröÿer als der
xi
i
1
2
3
4
5
6
x(i)
60 20
40 40
60 60
90 60
20 90
90 90
360 360
fi
0,1667
0,1667
0,1667
0,1667
0,1667
0,1667
1,0000
qi
Fi
0,0556
0,1111
0,1667
0,1667
0,2500
0,2500
1,0000
0,0
0,1667
0,3333
0,5000
0,6667
0,8333
1,0000
0,0000
Qi
0,000
0,0556
0,1667
0,3333
0,5000
0,7500
1,0000
0,0000
Gi
1,0
0,8
0,0093
0,0370
0,0833
0,1389
0,2083
0,2917
0,2315
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Abbildung 13.10: Häugkeitstabelle und Lorenzkurve
Gini-Koezient, hat also den Wert 0,2778.
Zeichnen Sie die Konzentrationskurve und berechnen Sie den Rosenbluth- und den
Herndahl-Index.
xi
x(i)
60 90
40 90
90 60
60 60
20 40
90 20
360 360
ci
0,250
0,250
0,167
0,167
0,111
0,056
1,000
i
0
1
2
3
4
5
6
0
Ci
0,000
0,250
0,500
0,667
0,833
0,944
1,000
0,000
KR
ci2
0,250
0,500
0,500
0,667
0,556
0,333
0,217
0,063
0,063
0,028
0,028
0,012
0,003
0,196
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
6
Abbildung 13.11: Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
179
13 Ausgewählte Lösungen
Aufgabe 2. Auf Drängen der EU-Kommission wurde der Energiemarkt in Costa Asturia
neu geordnet, das bisher gröÿte Unternehmen wurde in drei Anbieter mit je 20 Prozent
Marktanteil aufgeteilt. Das bisher zweitgröÿte Unternehmen konnte seinen Marktanteil
um fünf Prozent auf Kosten des kleinsten Unternehmens steigern, sodass die nun sechs
Anbieter Marktanteile von 25, dreimal 20, 10 und 5 Prozent haben. Zeichnen Sie die
Konzentrationskurve und berechnen sie den Rosenbluth- und den Herndahl-Index.
ci
i
Ci
KR
K_H
1,0
0 0,00
0,25 1 0,25 0,250 0,063
0,8
0,20 2 0,45 0,400 0,040
0,6
0,20 3 0,65 0,600 0,040
0,4
0,20 4 0,85 0,800 0,040
0,2
0,10 5 0,95 0,500 0,010
0,05 6 1,00 0,300 0,003
1,00 0 0,00 0,213 0,195
0,0
0
1
2
3
4
5
6
Abbildung 13.12: Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
Aufgabe 3.
(Anderson et al.). In einem kleinen Land gibt es 5.527 Privathaushalte mit
einer Person und 5.959, 4.314 und 3.351 mit zwei, drei und vier Personen. Was sind hier
die statistischen Einheiten und die statistische Gesamtheit? Handelt es sich dabei um
eine Bestands- oder Bewegungsmasse? Welcher Art ist die Erhebung? Welcher Art ist
das untersuchte Merkmal und welche möglichen Ausprägungen hat es? Berechnen Sie die
erweiterte Häugkeitstabelle und den Gini-Koezienten. Zeichnen Sie die Stabverteilung
und die empirische Verteilungsfunktion sowie die Lorenzkurve. Ermitteln Sie den Modus,
das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz
und den Variationskoezienten des Merkmals
X.
Die angegebenen Daten entsprechen
in einer Einheit von 1.000 Wohnungen genau dem Stand von Westdeutschland 1970.
Die Grundgesamtheit sind die Haushalte der BRD 1970 mit höchstens vier Personen.
Dies ist eine Bestandsmasse. Die erweiterte Häugkeitstabelle ist und die geforderten
Diagramme sind abgebildet. Der Gini-Koezient hat den Wert 0,258.
Modus: häugster Wert tritt für
i=2
Unteres Quartil: Zum ersten Mal gilt für den
Fi−1 ,
also ist
a1 = 1
a2 = 2
i=2
also ist
Mittelwert
die Ungleichung
die Ungleichung
Fi > 0, 25 > Fi−1 ,
der Median.
Oberes Quartil: Zum ersten Mal gilt für den Index
Fi−1 ,
a3 = 3
i=3
die Ungleichung
das obere Quartil.
x̄:
n1 x1 + n2 x2 + · · · nk xk
,
n
5527 · 1 + 5959 · 2 + 4314 · 3 + 3351 · 4
x̄ =
= 2, 286617.
19151
x̄ =
180
a2 = 2.
Fi > 0, 25 >
somit ist der Modus
das untere Quartil.
Median: Zum ersten Mal gilt für den Index
also ist
n2 = 5959,
Index i = 1
auf mit
Fi > 0, 25 >
13.5 Zu Kapitel 5
A
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
B
C
ai ni
i
1
2
3
4
1
2
3
4
D
E
fi
5527
5959
4314
3351
19151
F
xi*ni
0,2886
0,3112
0,2253
0,1750
1
5527
11918
12942
13404
43791
1
0,3
0,75
0,2
0,5
0,1
0,25
0
0
1
2
3
4
Qi
0
0,2886
0,5998
0,8250
1,0000
0
0
0,1262
0,3984
0,6939
1,0000
0
I
J
1
2
3
4
K
L
Gi
0,036
0,163
0,246
0,296
0,258
Lorenzkurve
1
0,8
0,6
0,4
0,2
0
0
5
H
Fi
0,1262
0,2722
0,2955
0,3061
1
0,4
0
G
qi
5
0 0,2 0,4 0,6 0,8 1
xquer (5527*1 + 5959*2 + 4314*3 + 3351*4)/19151 = 2,286617
σ2 (5527*1^2 + 5959*2^2 + 4314*3^2 + 3351*4^2)/19151 - 2,286617^2 =1,1316255
σ 1,063778633
v 0,465219
Abbildung 13.13: Häugkeitstabelle und Diagramme.
Varianz
σ2,
Standardabweichung
σ
und Variationskoezient
v:
n1 x21 + n2 x22 + · · · nk x2k
− x̄2 ,
n
5527 · 12 + 5959 · 22 + 4314 · 22 + 3351 · 22
σ2 =
− 2, 286612 = 1, 13163,
19151
√
2
σ = σ = 1, 0637789,
v = σ/x̄ = 1, 0637789/2, 286617 = 0, 465219442.
σ2 =
Empirische Varianz und Empirische Standardabweichung:
19151 2
n
σ2 =
σ = 1, 13168459,
n
−
1
19150
√
s = s2 = 1, 0638067.
s2 =
Aufgabe 4.
Diese Aufgabe stammt von von der Lippe, ich habe nur andere Zahlen
verwendet:
200 Angehörige eines primitiven Volksstammes, sogenannte Urmenschen, gehen auf
die Jagd nach Federvieh. Ihre Beute beträgt 1.000 Wildgänse. Durch das an sich nur
bei primitiven Völkern bekannte Gerangel um Geld, Gut und Prestige entstand trotz
Eingreifens des Häuptlings eine etwas ungleiche Verteilung der Beute. Es bekamen 78
Jäger drei, 58 fünf, 41 sechs und 23 sogar zehn Gänse. Erstellen Sie die Lorenzkurve und
berechnen Sie die beiden Gini-Koezienten.
181
13 Ausgewählte Lösungen
i
ni
ai
1
2
3
4
3
5
6
10
ni*ai
78 234
58 290
41 246
23 230
200 1000
fi
0,390
0,290
0,205
0,115
1
qi
Fi
Qi
Gi
0,234
0,290
0,246
0,230
1
0
0,390
0,680
0,885
1,000
0
0
0,234
0,524
0,770
1,000
0
0,091
0,220
0,265
0,204
0,220
1
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Abbildung 13.14: Häugkeitstabelle und Lorenzkurve
Der normierte Gini-Koezient ist 200/199-mal gröÿer als der Gini-Koezient, hat
also den Wert 0,221.
Aufgabe 5.
(Anderson et al.) In der Tabelle 5.1 auf Seite 66 steht die Verteilung der
Beschäftigten auf Arbeitsstätten im Produzierenden Gewerbe in Westdeutschland im
Jahr 1970. Was sind hier die statistischen Einheiten und die statistische Gesamtheit?
Welcher Art ist die Erhebung? Welcher Art ist das untersuchte Merkmal und welche
möglichen Ausprägungen hat es?
Die statistischen Einheiten sind die Arbeitsstätten, die insgesamt die statistische Gesamtheit der Untersuchung bilden. Es handelt sich um eine Vollerhebung. Das untersuchte Merkmal ist die Anzahl der Mitarbeiter, die möglichen Werte sind die natürlichen
Zahlen. Das Merkmal ist diskret metrisch.
Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten und
zeichnen Sie die Lorenzkurve.
i xi-1*
1
1
2
4
3
9
4 19
5 49
6 99
7 199
8 499
xi* ni
si
fi
4 3493
735
9 1231
800
19 636
854
49 442 1350
99 176 1226
199
98 1353
499
62 1884
∞
32 4658
6170 12860
0,5661
0,1995
0,1031
0,0716
0,0285
0,0159
0,0100
0,0052
qi
Fi
Qi
Gi
0,0572
0,0622
0,0664
0,1050
0,0953
0,1052
0,1465
0,3622
0
0,5661
0,7656
0,8687
0,9404
0,9689
0,9848
0,9948
1,0000
0
0,0572
0,1194
0,1858
0,2907
0,3861
0,4913
0,6378
1,0000
0,0324
0,0352
0,0315
0,0341
0,0193
0,0139
0,0113
0,8222
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
Abbildung 13.15: Häugkeitstabelle und Lorenzkurve
Wegen der groÿen Zahl sind die Werte beider Gini-Koezienten fast gleich.
Aufgabe 6.
(Uebe) In einem Betrieb wurden folgende Daten über die monatlichen Ein-
kommen (in 100
e)
der beschäftigten Frauen erhoben: Was ist die statistische Einheit
und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte gibt es? Stellen Sie die durch die Tabelle
13.2 gegebene Einkommensverteilung als Häugkeitstabelle und als Histogramm dar und
182
13.5 Zu Kapitel 5
Tabelle 13.2: Fiktive Einkommen
Einkommen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
(24, 30]
10
15
10
5
4
Anzahl der Frauen
erstellen Sie dann den Graphen der approximierenden Verteilungsfunktion. Erstellen Sie
die Lorenzkurve und berechnen Sie die beiden Gini-Koezienten. Berechnen Sie für die
Einkommen der Frauen näherungsweise Modus, unteres Quartil, Median, oberes Quartil, die Quantile
x0,1
sowie
x0,9 ,
Mittelwert sowie Varianz und empirische Varianz und
Standardabweichung und empirische Standardabweichung und den Variationskoezient.
Die statistische Einheit ist eine Mitarbeiterin, die Gesamtheit sind alle Mitarbeiterinnen des Betriebs. Das Merkmal ist metrisch und stetig, die möglichen Werte sind alle
positiven Zahlen.
1 A B C D E
2 i x*i-1 x*i Δi ni
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0
1
2
3
4
5
6
12
16
20
24
0,10
12
16
20
24
30
F
G
H
I
fi
fi*
nimi
qi
6 10 0,2273 0,037879 90 0,129
4 15 0,3409 0,085227 210 0,301
4 10 0,2273 0,056818 180 0,258
4 5 0,1136 0,028409 110 0,158
6 4 0,0909 0,015152 108 0,155
44
698
1
Histogramm und
Verteilungsfunktion
1,00
0,08
0,75
0,06
0,50
0,04
0,25
0,02
0,00
0,00
3 6 9 12 15 18 21 24 27 30
Einkommen in 100 €
J
K
L
M
Fi
Qi
Gi
0,0000
0,2273
0,5682
0,7955
0,9091
1,0000
0
0,0000
0,1289
0,4298
0,6877
0,8453
1,0000
0
0,0293
0,1905
0,2540
0,1742
0,1678
0,1843
N
O
Lorenzkurve
1,0
E
i 0,8
n
0,6
k
n
o 0,4
m 0,2
m
e 0,0
0,0
0,2
0,4
0,6
0,8
Mitarbeiter
1,0
Abbildung 13.16: Häugkeitstabelle und Diagramme.
Der normierte Gini-Koezient hat den Wert
der
n = 44
0, 1886 = 44 · 0, 1843/43.
Die Einkommen
Frauen verteilen sich auf fünf Klassen. In den Spalten B und C benden
sich Unter- und Obergrenzen der Klassen, in der Spalte D die Klassenbreite und in der
Spalte E die absolute Klassenhäugkeit. In der Spalte F folgen die relativen Klassenhäu-
fi , also die durch n = 44 geteilten absoluten Klassenhäugkeiten. In der Spalte
∗
G stehen die relativen Häugkeitsdichten fi = fi /∆i . Diese werden für das Histogramm
∗
∗
∗
benötigt. Über jedem Intervall [xi−1 , xi ] wird ein Rechteck der Höhe fi gezeichnet. In der
Spalte J sehen Sie die kumulierten absoluten Häugkeiten Fi . Für die empirische Vertei∗
lungsfunktion werden die Punkte (xi , Fi ) durch Strecken verbunden. Vor der kleinsten
∗
Untergrenze x0 = 6 hat die empirische Verteilungsfunktion den konstanten Wert 0 und
gkeiten
183
13 Ausgewählte Lösungen
nach der gröÿten Obergrenze
x∗5 = 30
verharrt die empirische Verteilungsfunktion beim
Wert 1. Die Wertetabelle für das Histogramm und die empirische Verteilungsfunktion
bendet sich im Bereich A10 bis C26. Wegen der stark unterschiedlichen Wertebereiche, habe ich für die Verteilungsfunktion eine eigene vertikale Achse verwendet, die sich
rechts bendet.
Für die Lorenzkurve müssen die relativen Anteile der Klassen am Gesamteinkommen
bestimmt werden. Da kein Klassenmittelwert angegeben wurde, werden die Mitten der
Klassen als Näherung für die Klassenmittelwerte verwendet. Die zehn Frauen der Klasse
[600, 1200] haben demnach ein Gesamteinkommen von 9.000 Euro und die 15 Frauen der
Klasse (1200, 1600] haben entsprechend ein Gesamteinkommen von 21.000 Euro. Diese
Werte benden sich in der Spalte H und summieren sich auf 69.800 Euro. Die zugehörigen
relativen Anteile
qi
sind in der Spalte I zu sehen. So ist etwa
kumulierten relativen Anteile
Qi
q3 = 180/698 = 0, 258.
Die
am Gesamteinkommen benden sich in der Spalte K.
Für die Lorenzkurve werden die Punkte
(Fi , Qi )
miteinander verbunden.
Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, unteres Quartil,
Median, oberes Quartil, die Quantile
x0,1
sowie
x0,9 ,
Mittelwert sowie Varianz und em-
pirische Varianz und Standardabweichung und empirische Standardabweichung und den
Variationskoezient.
Modus: 14Quartile und Quantile:
Q1
Q2
Q3
x0,1
x0,9
= x0,25 ≈ 12 + (0, 25 − 0, 2273)/0, 085227 = 12, 26635377,
= x0,5 ≈ 12 + (0, 5 − 0, 2273)/0, 085227 = 15, 19976533,
= x0,25 ≈ 16 + (0, 75 − 0, 5682)/0, 056818 = 19, 1997184,
≈ 6 + (0, 1 − 0, 0)/0, 037879 = 8, 639985,
≈ 20 + (0, 9 − 0, 7955)/0, 028409 = 23, 678412.
Mittelwert, Varianz, empirische Varianz, Standardabweichung, empirische Standardabweichung:
x̄ ≈ (10 · 9 + 15 · 14 + 10 · 18 + 5 · 22 + 4 · 27)/44 = 15, 86363636,
σ 2 ≈ (10 · 92 + 15 · 142 + 10 · 182 + 5 · 222 + 4 · 272 )/44 − 15, 86363642 = 28, 48140496,
s2 = (n/(n − 1)) · σ 2 = (44/43) · σ 2 ≈ 29, 14376321,
√
σ = σ 2 ≈ 5, 336797257,
√
s = s2 ≈ 5, 398496385.
Aufgabe 7.
Man beweise die Beziehung (5.5) auf Seite 63.
Pn
KH =
184
x2i
Pni=1 2
( i=1 xi )
nσ 2 + nx̄2
1
=
=
2
2
n x̄
n
σ 2
v2 + 1
+1 = X
.
x̄
n
13.6 Zu Kapitel 6
13.6 Zu Kapitel 6
Aufgabe 1.
Ein Zauberer behauptet aus einem gut durchgemischten Spiel mit 32 Kar-
ten als dritte Karte die Herz Dame zu ziehen. Wie hoch ist die Wahrscheinlichkeit dafür
ohne Tricks?
Zunächst muss also zweimal aus 32 bzw. 31 Karten nicht die Herz Dame gezogen werden,
und dann aus 30 Karten die Herz Dame gescht werden, was mit folgender Wahrscheinlichkeit geschieht
p = 31/32 · 30/31 · 1/30 = 1/32 = 0, 03125.
Aufgabe 2. In einer Urne benden sich die sechs Buchstaben des Wortes ANANAS. Mit
welchen Wahrscheinlichkeiten entsteht der Name ANNA bei viermaligem Ziehen, und
zwar einmal mit und einmal ohne Zurücklegen, wobei die Reihenfolge beachtet wird.
pm = 1/2 · 1/3 · 1/3 · 1/2 = 1/36
po = 1/2 · 2/5 · 1/4 · 2/3 = 1/30
Aufgabe 3.
mit Zurücklegen,
ohne Zurücklegen.
(vgl. Mayer) Eine Urne enthalte 3 weiÿe und 2 schwarze Kugeln. Aus der
Urne werden nacheinander 2 Kugeln herausgenommen, einmal ohne und das andere Mal
mit zurücklegen. Zeichnen Sie die jeweiligen Baumdiagramme und bestimmen Sie die zugehörigen Wahrscheinlichkeitsverteilungen. Wie groÿ ist jeweils die Wahrscheinlichkeit,
2 weiÿe Kugeln zu ziehen?
Start
Start
2/5
3/5
S
1/4
S
2/5
W
3/4
W
1/2
3/5
S
1/2
S
2/5
W
S
P(WW)=3/5 * 1/2= 3/10 = 0,3
W
3/5
W
2/5
S
3/5
W
P(WW)=3/5 * 3/5= 9/25 = 0,36
Abbildung 13.17: Baumdiagramme
Das Baumdiagramm ohne Zurücklegen ist links, das Baumdiagramm mit Zurücklegen
rechts zu sehen. Die Wahrscheinlichkeitsverteilungen sind in der folgenden Tabelle zu
sehen.
Ω
Mit Zurücklegen
SS
p
Ohne Zurücklegen
Aufgabe 4.
p
SW
WS
WW
0,1
0,3
0,3
0,3
0,16
0,24
0,24
0,36
In einer Schale benden sich neun gleich aussehende Pralinen, wovon vier
nach Champagner und fünf nach Eierlikör (Igitt) schmecken. Ein Gast darf drei Pralinen zufällig aussuchen. Wie sieht die Ergebnismenge und die Verteilung aus? Zeichnen
185
13 Ausgewählte Lösungen
Sie die jeweiligen Baumdiagramme und bestimmen Sie die Ergebnismenge
Ω
und die
Wahrscheinlichkeitsverteilung. Wie groÿ ist die Wahrscheinlichkeit, drei Bohnen mit Eierlikörgeschmack zu erwischen?
Die Ergebnismenge sind alle Folgen der Form
pagner und
E
XY Z ,
wobei
X
und
wie Eierlikör stehen. Somit hat die Ergebnismenge
Ω
Y
für
C
wie Cham-
acht Elemente. Die
zugehörigen Wahrscheinlichkeiten werden über das Baumdiagramm berechnet.
5/9
4/8
E
Start
4/9
4/8
E
5/8
C
C
3/8
E
C
3/7
4/7
4/7
3/7
4/7
3/7
5/7
2/7
E
C
E
C
E
C
E
C
Abbildung 13.18: Baumdiagramm und Verteilung
Die Wahrscheinlichkeitsverteilung ist in der folgenden Tabelle zu sehen.
Ω
CCC
CCE
CEC
CEE
ECC
ECE
EEC
EEE
p
0,0476
0,1190
0,1190
0,1587
0,1190
0,1587
0,1587
0,1190
Aufgabe 5.
Beim Spiel Mensch ärgere dich nicht darf man am Anfang dreimal hin-
tereinander würfeln, mit dem Ziel eine 6 zu werfen, da dann eine Figur ins Spielfeld
gesetzt wird. Beschreiben Sie das Zufallsexperiment durch einen Produktwahrscheinlichkeitsraum und dann das Ereignis
Wahrscheinlichkeit von
A
A,
dass keine 6 erzielt wurde. Berechnen Sie die
und geben Sie an, mit welcher Wahrscheinlichkeit wenigstens
eine 6 erreicht wird.
Jedes einzelne Zufallsexperiment wird durch die Grundmenge
Ω1 = { 1, 2, 3, 4, 5, 6 }
be-
schrieben, die Ergebnismenge ist somit
Ω = Ω31 = { (k, l, m) : 1 ≤ k, l, m ≤ 6 } .
Das Ereignis
A
A
besteht aus allen Tripeln
(k, l, m)
mit Werten zwischen 1 und 5, d.h.
tritt ein, wenn man dreimal hintereinander keine 6 würfelt. In jeder Stufe besteht
P (A) = 5/6 · 5/6 ·
5/6 = 0, 5787 und folglich fällt mindestens eine 6 mit der Wahrscheinlichkeit des zu A
komplementären Ereignisses, also P (Ā) = 1 − 0, 578703704 = 0, 421296296.
dafür die Wahrscheinlichkeit von 5/6, nach der Pfadregel ist deshalb
Aufgabe 6.
Ein Student muss Klausuren in den drei Fächern A, B, C schreiben. Er
schätzt die Wahrscheinlichkeiten für das Bestehen im Fach A mit 0,9, in B mit 0,8 und in
C mit 0,4. Die Inhalte der Fächer sind sehr verschieden, sodass das Bestehen unabhängig
voneinander ist. Man bestimme die Ergebnismenge
Ω und die Wahrscheinlichkeitsvertei-
lung. Danach gebe man an, wie hoch die Wahrscheinlichkeiten dafür sind, alle, höchstens
186
13.6 Zu Kapitel 6
zwei und keine Klausur zu bestehen.
Der Student kann jede der drei Klausuren bestehen oder nicht bestehen. Das Bestehen
A, das Durchfallen mit Ā gekennzeichnet. Es sind P (A) = 0, 9
P (Ā) = 0, 1. Genauso gelten P (B) = 0, 8 und somit P (B̄) = 0, 2 sowie
P (C) = 0, 4 und somit P (C̄) = 0, 6. Die Wahrscheinlichkeitsverteilungen sind in der
im Fach A wird durch
und somit
folgenden Tabelle zu sehen.
Ω
ABC
AB C̄
AB̄C
ĀBC
AB̄ C̄
ĀB C̄
ĀB̄C
ĀB̄ C̄
p
0,288
0,432
0,072
0,032
0,108
0,048
0,008
0,012
Die Wahrscheinlichkeit von
0, 9 · 0, 2 · 0, 4.
AB̄C
berechnet sich beispielsweise durch das Produkt
Alle Klausuren werden mit der Wahrscheinlichkeit
P (ABC) = P (A) · P (B) · P (C) = 0, 9 · 0, 8 · 0, 4 = 0, 288
bestanden. Höchstens zwei Klausuren werden somit mit der Wahrscheinlichkeit
0, 288 = 0, 712
1−
bestanden. Mit der Wahrscheinlichkeit
P (ĀB̄ C̄) = P (Ā) · P (B̄) · P (Ā) = 0, 1 · 0, 2 · 0, 6 = 0, 012
fällt der Student durch alle Klausuren.
Aufgabe 7.
(vgl. Mayer) Für zwei unabhängige Ereignisse
P (A|B) = 2/3
Man berechne
Da
A
und
B
und
und
B
gelte:
P (A ∩ B) = 1/6.
P (A), P (B), P (A ∪ B), P (B|A)
unabhängig sind, gilt
A
sowie
P (A\B)
P (A) = P (A|B) = 2/3.
und
P (B\A).
Aus
1/6 = P (A ∩ B) = P (A)P (B)
folgt wegen
P (A) = 2/3
somit
P (B) = 1/6/2/3 = 1/4.
Weiter gelten
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 2/3 + 1/4 − 1/6 = 3/4,
P (B|A) = P (B) = 1/4,
P (A\B) = P (A) − P (A ∩ B) = 2/3 − 1/6 = 1/2,
P (B\A) = P (B) − P (A ∩ B) = 1/4 − 1/6 = 1/12.
Aufgabe 8. Es seien A und B zwei Ereignisse mit P (A∩B) = 0, 6 und P (A∩ B̄) = 0, 2.
Bestimmen Sie
P (A)
und
P (Ā)
sowie
P (B|A)
und
P (B̄|A).
P (A) = P (A ∩ B) + P (A ∩ B̄) = 0, 6 + 0, 2 = 0, 8,
P (Ā) = 1 − P (A) = 1 − 0, 8 = 0, 2,
P (B|A) = P (A ∩ B)/P (A) = 0, 6/0, 8 = 0, 75,
P (B̄|A) = P (A ∩ B̄)/P (A) = 0, 2 · 0, 8 = 0, 25.
187
13 Ausgewählte Lösungen
Aufgabe 9.
Ein Zufallsexperiment besteht darin, dass man mit einem Würfel solange
würfelt, bis zum ersten Mal eine Zahl zweimal auftritt, was spätestens beim siebten Wurf
passiert. Bestimmen Sie die Ergebnismenge
Ω
und die Wahrscheinlichkeitsverteilung.
Beim zweiten Wurf ist Schluss, wenn die gewürfelte Zahl mit der Zahl des ersten Wurfs
übereinstimmt, wofür eine Wahrscheinlichkeit von 1/6 besteht. Mit einer Wahrscheinlichkeit von 5/6 muss man ein drittes Mal würfeln. Trit man eine der beiden bereits
gewürfelten Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von
5/6 · 1/3 = 5/18.
Mit einer Wahrscheinlichkeit von 2/3 muss man ein viertes Mal würfeln. Trit man eine der drei bereits gewürfelten Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von
5/6·2/3·1/2 = 5/18. Mit einer Wahrscheinlichkeit von 1/2 muss man ein fünftes Mal würfeln. Trit man eine der vier bereits gewürfelten Zahlen ist Schluss, also mit einer Wahr-
5/6 · 2/3 · 1/2 · 2/3 = 5/27. Trit man eine der fünf bereits gewürfelten
Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von 5/6·2/3·1/2·1/3·5/6 = 25/324.
scheinlichkeit von
Endgültig Schluss ist beim siebten Versuch, den man aber nur mit einer Wahrscheinlichkeit von
5/6 · 2/3 · 1/2 · 1/3 · 1/6 = 5/324
erreicht. Die Wahrscheinlichkeitsverteilung ist
in der folgenden Tabelle zu sehen.
Ω
2
3
4
5
6
7
p
0,166667
0,277778
0,277778
0,185185
0,077160
0,015432
Aufgabe 10.
Es seien drei Urnen mit je drei Kugeln betrachtet, wobei die erste Urne
drei, die zweite zwei und die dritte nur noch eine schwarze Kugel enthält, die anderen
Kugeln seien jeweils weiÿ. Das zweite Glücksrad der Abbildung 6.1 von Seite 70 werde
gedreht. Wenn der Zeiger des Glücksrads im roten Bereich zum Stehen kommt, wird eine
Kugel aus der ersten Urne gezogen, im grünen Sektor aus der zweiten und sonst aus der
dritten. Man bestimme die Ergebnismenge
Ω
und das Ereignis, dass die gezogene Kugel
schwarz ist. Danach berechne man die Wahrscheinlichkeiten dafür, dass eine gezogene
schwarze Kugel aus der ersten, zweiten oder dritten Urne stammt.
Die Ergebnismenge setzt sich aus dem Ergebnis des Glücksrads und dem anschlieÿenden
Ziehen einer Kugel aus der entsprechenden Urne zusammen. Das Zufallsexperiment hat
daher folgende Verteilung
Die Menge
A,
Ω
RS
GS
GW
BS
BW
p
1/6
2/9
1/9
1/6
1/3
die das Ereignis des Ziehens einer schwarzen Kugel beschreibt, ist
A = { RS, GS, BS }
mit
P (A) = 1/6 + 2/9 + 1/6 = 5/9.
Nun werde ich die Wahrscheinlichkeit für das Ziehen einer schwarzen Kugel über den
Satz der totalen Wahrscheinlichkeit berechnen und anschlieÿend die Wahrscheinlichkeit
dafür ermitteln, dass eine gezogene schwarze Kugel der zweiten Urne entstammt. Dafür
wird folgende Excel-Tabelle eingerichtet:
188
13.6 Zu Kapitel 6
A
2
i
3
1
4
2
5
3
6 Summen
B
P(Bi)
0,16666667
0,33333333
0,5
1
C
P(A|Bi)
1
0,66666667
0,33333333
D
P(Bi)*P(A|Bi)
E
P(Bi|A)
0,16666667
0,22222222
0,16666667
0,55555556
0,3
0,4
0,3
1
Abbildung 13.19: Arbeitstabelle für die Aufgabe 10
Die Ereignisse
B1 , B2
und
B3
stehen für den Zeigerstand des Glücksrads, die zugehöri-
gen Wahrscheinlichkeiten benden sich in der Spalte B. In der Spalte C sehen Sie die
P (A|Bi ). In der Zelle D6 steht die Summe der Produkte
von P (A). Die Formel in der Zelle E3 lautet
bedingten Wahrscheinlichkeiten
P (Bi )P (A|Bi ),
also der Wert
=D3/$D$6.
Diese Formel gilt dann entsprechend für die restlichen Zeilen. Eine schwarze Kugel
stammt also mit den Wahrscheinlichkeiten 0,3, 0,4 und 0,3 aus der ersten, zweiten oder
dritten Urne.
Aufgabe 11.
An einem texanischen Gericht arbeiten drei Richter B1, B2 und B3; die
Auswahl der Richter erfolgt zufällig, wobei B1 die Hälfte aller Prozesse übernimmt, auf
B2 fallen 30 % und auf B3 20 % aller Verfahren. Die Wahrscheinlichkeit eines Unschuldigen in einem Mordprozess auf einen Freispruch beim ersten Richter beträgt 90 %, beim
zweiten 50 % und beim dritten lediglich 40 %.
a) Wie groÿ ist die Wahrscheinlichkeit eines Freispruchs für einen Unschuldigen? Wie
groÿ ist die Wahrscheinlichkeit für eine Verurteilung?
b) Mit welchen Wahrscheinlichkeiten stammt der Freispruch eines Unschuldigen von
B1, B2 und B3?
c) Mit welchen Wahrscheinlichkeiten stammt eine Verurteilung eines Unschuldigen
von B1, B2 und B3?
Die Ergebnisse kann man dem abgebildeten Arbeitsblatt entnehmen. Aus I10 folgt, dass
ein Unschuldiger mit der Wahrscheinlichkeit von 0,68 frei gesprochen und folglich mit
der Wahrscheinlichkeit von 0,32 verurteilt wird. Ein Freispruch geht mit der Wahrscheinlichkeit von 0,66176 auf den ersten Richter zurück, der auch nur rund 16 Prozent aller
Fehlurteile zu verantworten hat. Genauso werden die Leistungen der beiden anderen
Richter gedeutet.
Aufgabe 12.
In 10 Urnen benden sich schwarze und weiÿe Kugeln, und zwar in der
k-ten Urne genau
k, 1 ≤ k ≤ 10
schwarze Kugeln. Wie groÿ ist die Wahrscheinlichkeit
eine schwarze Kugel zu ziehen, wenn die Urne zufällig gewählt wird? Wie groÿ ist die
Wahrscheinlichkeit, dass eine gezogene schwarze Kugel der k-ten Urne entstammt?
189
13 Ausgewählte Lösungen
F
G
H
I
J
K
P(Bi) P(A|Bi) P(Bi)*P(A|Bi)
P(Bi|A)
P(Bi|Ac)
6
i
7
1 0,5
0,9
0,45 0,661764706 0,15625
8
2 0,3
0,5
0,15 0,220588235 0,46875
9
3 0,2
0,4
0,08 0,117647059
0,375
10 Summen
1
0,68
1
1
Abbildung 13.20: Arbeitstabelle für den Satz von Bayes
Seien
Bk
die Ereignisse, dass die k-te Urne gewählt wird, und
S
das Ereignis, dass
die gezogene Kugel schwarz ist. Da die Urnen mit gleicher Wahrscheinlichkeit gewählt
werden, sind
p(Bk ) = 1/10.
Hier sind zusätzlich
p(S|Bk ) = k/10,
also nach dem Satz
von der totalen Wahrscheinlichkeit
p(S) = 1/10
10
X
k/10 = 1/100
k=1
10
X
k = 10(10 + 1)/2 · 1/100 = 55/100.
k=1
Aus dem Satz von Bayes folgen
p(Bk |S) = p(S|Bk )/p(S) = k/55.
13.7 Zu Kapitel 7
Aufgabe 1.
(Mayer) Zwei Spieler A und B spielen folgendes Spiel: Es wird mit zwei fai-
ren Würfeln gewürfelt. Unterscheiden sich die Augenzahlen höchstens um 1, so bekommt
A von B 6 Euro ansonsten bekommt B von A 5 Euro. Man bestimme die Verteilung und
X für die Auszahlung aus Sicht von A.
Verteilung E(X), V ar(X) und Std(X). Welcher
die kumulierte Verteilung der Zufallsvariablen
Danach berechne man mit Hilfe der
Spieler ist im Vorteil?
Es gibt beim Werfen von zwei fairen Würfeln 36 Kombinationen. Für den Spieler A
(1, 1) bis (6, 6) und die 5 Pärchen
(1, 2), (2, 1) bis (5, 6), (6, 5). Die Verteilung des Ausgangs X aus der Sicht des Spielers A
ist somit (6, 16/36), (−5, 20/36). Der Erwartungswert ist
sind davon nur 16 günstig, nämlich alle 6 Paschs von
E(X) = 6 · 16/36 − 5 · 20/36 = −1/9 ≈ −0, 1111 . . .
Das Spiel ist also auf lange Sicht für Spieler B vorteilhaft. Für die Varianz und die
Standardabweichung ergeben sich
V ar(X) = 62 · 16/36 + (−5)2 · 20/36 = 29, 8̄, Std(X) =
Aufgabe 2.
p
V ar(X) = 5, 467073156
(Engel) Chuck-a-luck wird in den USA nach folgenden Regeln gespielt: Ein
Spieler darf eine Zahl zwischen 1 und 6 wählen und bezahlt einen Einsatz. Danach werden
drei faire Würfel geworfen. Erscheint seine Zahl auf keinem der drei Würfel, ist der
190
13.7 Zu Kapitel 7
Einsatz verloren. Sonst erhält der Spieler seinen Einsatz zurück und bekommt zusätzlich
für jeden Würfel, worauf seine Zahl erscheint, einen Gewinn in Höhe seines Einsatzes,
also insgesamt zusätzlich zu seinem Einsatz das 1-, 2- oder 3-fache seines Einsatzes. Man
bestimme die Verteilung und die kumulierte Verteilung der Zufallsvariablen
X
für den
Gewinn und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach
berechne man mit Hilfe der Verteilung
E(X)
und
V ar(X).
Ist das Spiel gerecht oder
ungünstig für den Spieler?
Die Zufallsvariable
X
des Gewinns bei einem Einsatz von 1 nimmt nur die Werte -1,
1, 2 und 3 an. Der Wert
x1 = −1
ergibt sich, wenn die drei gewürfelten Augenzahlen
3
verschieden von der gewählten Zahl sind, was mit einer Wahrscheinlichkeit von (5/6) =
125/216 geschieht. Wenn die gewählte Zahl genau einmal erscheint, ist der Gewinn x2 =
1. Dafür muss einer der drei Würfel die gewünschte Augenzahl haben, die anderen beiden
2
nicht. Dafür gibt es drei Möglichkeiten mit der Wahrscheinlichkeit 1/6 · (5/6) , also wird
2
ein Gewinn x2 = 1 von mit der Wahrscheinlichkeit 3 · 1/6 · (5/6) = 25/72 eintreten. Ein
Gewinn von x3 = 2 setzt voraus, dass zwei Würfel die gewünschte Augenzahl tragen und
der dritte nicht. Dafür gibt es ebenfalls drei Möglichkeiten mit der Wahrscheinlichkeit
(1/6)2 · 5/6, also wird ein Gewinn x3 = 2 von mit der Wahrscheinlichkeit 3 · (1/6)2 · 5/6 =
5/72 eintreten. Der Wert x4 = 3 ergibt sich, wenn die drei gewürfelten Augenzahlen mit
3
der gewählten Zahl übereinstimmen, was mit einer Wahrscheinlichkeit von (1/6) =
1/216 geschieht. Der Erwartungswert des Spiels aus der Sicht des Spielers ist somit
E(X) = −1 · 125/216 + 1 · 25/72 + 2 · 5/72 + 3 · 1/216 = −0, 0787
Das Spiel ist also wie zu erwarten ungünstig für den Spieler. Die Verteilung von
X
ist
in der folgenden Abbildung zu sehen ist. Die Werte der Verteilung stehen in der dritten
Spalte der Abbildung und wurden aus der letzten Spalte der Tabelle übernommen, z.B.
2
ist f2 = 3 · (5/6) · 1/6 = 25/72. Dies ist die Wahrscheinlichkeit für X = x2 = 1.
i xi
fi
xi2fi
xifi
Fi
F(x)
f(x)
0,6
0,5
2 1 0,3472 0,3472 0,3472 0,9259
0,4
3 2 0,0694 0,1389 0,2778 0,9954 0,3
4 3 0,0046 0,0139 0,0417 1,0000 0,2
E(X) = -0,0787 1,2454
0,1
Var(X)= 1,2392
0,0
1
1 -1 0,5787 -0,5787 0,5787 0,5787
0,8
0,6
0,4
0,2
x
-2
Std(X)= 1,1132
-1
0
1
2
3
x
0
-2 -1 0
1
2
3
Abbildung 13.21: Verteilung von Chuck-a-luck
Aufgabe 3.
Sei
X
die Augenzahl des Würfels, der an je einer Seite eine 1 und eine 2
hat und dessen restliche vier Seiten 3 zeigen. Dieses Zufallsgerät werde ich im folgenden
B-Würfel nennen. Man bestimme die Verteilung und die kumulierte Verteilung und stelle
die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit
Hilfe der Verteilung
E(X)
und
V ar(X).
191
13 Ausgewählte Lösungen
xi
i
fi
xifi
xi2fi
Fi
1
1
1/6
1/6
1/6
1/6
2
2
1/6
1/3
2/3
1/3
3
3
2/3
2
6
1
2,5 6,8333
1
2/3
2/3
1/3
1/3
x
0
Var(X)= 0,5833
E(X)= 2,5
F(x)
f(x)
0
1
2
0
3
x
0
1
2
3
Std(X)= 0,7638
Aufgabe 4.
Zwei B-Würfel werden geworfen. Es sei
S
die Summe der Augenzahlen.
Man bestimme die Verteilung sowie die kumulierte Verteilung und berechne damit
und
dar
E(S)
V ar(S). Danach stellen Sie bitte S als Summe zweier unabhängiger Zufallsvariablen
und berechnen damit E(S) und V ar(S) erneut.
Ω
pi
ti
fi
(1, 3)
1/9
3
(3, 1)
1/9
3
2/9
ti
fi
tifi
1
2
3
4
1/36 1/18 2/9
1/36
0,0278 0,1111 0,6667 0,1111
6
2/9
1,3333
2
0,0278 0,2222 2,0000 0,4444
8,0000 36,0000 46,6944 Var(X)= 7,6319
ti fi
(1, 1)
1/36
1
1/36
(1, 2)
1/36
2
Die Zufallsvariable
S
(2, 1)
1/36
2
1/18
(2, 2)
1/36
4
1/36
(2, 3)
1/9
6
9 Summe
4/9 1
4,0000 6,2500
(3, 2)
1/9
6
2/9
(3, 3) Σ
4/9 1
9
4/9 1
E(X)= 6,2500
ist die Summe der beiden Zufallsvariablen
X1
und
X2 ,
wel-
che die Augenzahl des jeweiligen Würfels beschreiben. In der vorigen Aufgabe wur-
V ar(Xi ) = 0, 58333 . . . ermittelt. Da beide Zufallsvariablen
unabhängig voneinander sind, gelten E(S) = E(X1 ) + E(X2 ) = 2 · 2, 5 = 5 und
V ar(S) = V ar(X1 ) + V ar(X2 ) = 1, 166 . . .
den
E(Xi ) = 2, 5
Aufgabe 5.
und
E(T )
nochmal anders berechnet werden.
Ω
pi
ti
gi
(1, 3)
1/9
3
(3, 1)
1/9
3
2/9
si
fi
tifi
1
2
3
4
1/36 1/18 2/9
1/36
0,0278 0,1111 0,6667 0,1111
6
2/9
1,3333
2
0,0278 0,2222 2,0000 0,4444
8,0000 36,0000 46,6944 Var(X)= 7,6319
ti fi
192
T das Produkt der Augenzahlen.
E(T ) und V ar(T ). Auch hier kann
Zwei B-Würfel werden geworfen. Es sei
Man bestimme die Verteilung und berechne damit
(1, 1)
1/36
1
1/36
(1, 2)
1/36
2
(2, 1)
1/36
2
1/18
(2, 2)
1/36
4
1/36
(2, 3)
1/9
6
9 Summe
4/9 1
4,0000 6,2500
(3, 2)
1/9
6
2/9
(3, 3)
4/9 1
9
4/9 1
E(X)= 6,2500
13.8 Zu Kapitel 8
Die Zufallsvariable
T
ist das Produkt der beiden Zufallsvariablen
X1
und
X2 ,
wel-
che die Augenzahl des jeweiligen Würfels beschreiben. In der vorigen Aufgabe wurden
E(Xi ) = 2, 5 bestimmt, also gilt
E(T ) = E(X1 )E(X2 ) = 6, 25.
Aufgabe 6.
wegen der Unabhängigkeit der beiden Zufallsvariablen
Beim Spiel Monopoly werden zwei faire Würfel gleichzeitig geworfen. Die
Zufallsvariable
S
sei die Summe der Augenzahlen. Man bestimme die Verteilung und die
kumulierte Verteilung und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion
dar. Danach berechne man mit Hilfe der Verteilung
E(S)
und
V ar(S).
Das Werfen von zwei fairen Würfeln ist ein Laplace-Experiment mit folgender Ergebnismenge
Ω = { (i, j) | 1 ≤ i ≤ 6, 1 ≤ j ≤ 6 }
Die Zufallsvariable
S : Ω → R
bildet das Paar
(i, j) ∈ Ω
auf
S(i, j) = i + j
ab. Da-
S alle Werte zwischen 2 und 12 an. Für das Auftreten eines Summenwerts
2 ≤ x ≤ 12 müssen die zugehörigen Paare mit S(i, j) = i + j = x gefunden werden,
etwa für die Summe x = 4 die drei Paare (1, 3), (2, 2) und (3, 1), von denen jedes mit
her nimmt
einer Wahrscheinlichkeit von 1/36 auftritt, also hat der Gesamtwert 4 eine Wahrscheinlichkeit von 3/36. So ergeben sich die Verteilung und die kumulierte Verteilung von
wie abgebildet. Daraus folgen
x
f(x)
xifi
xi2fi
E(S) = 7
F(x)
und
Wahrscheinlichkeitsfunktion
Verteilungsfunktion
2 1/36 0,0556 0,1111 1/36
3 2/36 0,1667 0,5000 3/36
4 3/36 0,3333 1,3333 6/36
S
V ar(S) = 5, 833 . . .
0,2
1
0,2
0,8
5 4/36 0,5556 2,7778 10/36
6 5/36 0,8333 5,0000 15/36
7 6/36 1,1667 8,1667 21/36
8 5/36 1,1111 8,8889 26/36
9 4/36 1,0000 9,0000 30/36
0,6
0,1
0,4
0,1
0,2
0
0,0
10 3/36 0,8333 8,3333 33/36
1 2 3 4 5 6 7 8 9 101112
1 2 3 4 5 6 7 8 9 101112
11 2/36 0,6111 6,7222 35/36
Summe der Augenzahlen
Summe der Augenzahlen
12 1/36 0,3333 4,0000 36/36
E(X) = 7,0000 54,8333
Var(X)= 5,8333
13.8 Zu Kapitel 8
Aufgabe 1.
Ein Tischtennistrainer entscheidet, dass jeder seiner sechs Schützlinge zum
Abschluss noch einen Satz gegen ihn spielen muss. Wieviel Reihenfolgen gibt es?
Es gibt
6! = 720
Reihenfolgen.
193
13 Ausgewählte Lösungen
Aufgabe 2.
Eine Gruppe von 12 Schülern muss sich in der Jugendherberge auf zwei
Einzelzimmer, zwei Dreibettzimmer und ein Vierbettzimmer verteilen. Wieviel verschiedene Belegungen gibt es?
k = 5 Teilklassen, wobei die i-te Teilklasse dem i-ten
Wert von ni gleich der Anzahl von Betten des Zimmers ist.
Hier gibt es
Zimmer entspricht
und der
Somit gibt es
12!/(1! · 1! · 3! · 3! · 4!) = 2 · 11 · 10 · 9 · 8 · 7 · 5 = 554.400
mögliche Belegungen. Mit Excel: Formel
= P OLY N OM IAL(1; 1; 3; 3; 4).
Es handelt
sich um eine Permutation mit Wiederholung.
Aufgabe 3. Wieviel verschiedene Möglichkeiten gibt es bei der Ziehung der Lottozahlen
im Spiel 6 aus 49, wo aus den 49 ersten Zahlen 6 Zahlen zufällig gezogen werden.
Hier kommt es nicht auf die Reihenfolge an und keine Zahl darf zweimal erscheinen,
also ist dies eine Kombination aus 49 Elementen zur 6-ten Klasse ohne Wiederholung.
Somit gibt es
49
= (49 · 48 · 47 · 46 · 45 · 44)/(1 · 2 · 3 · 4 · 5 · 6) = 13.983.816
6
Möglichkeiten. Mit Excel: Formel
Aufgabe 4.
= P OLY N OM IAL(43; 6).
Wieviel vierstellige Zahlen mit ungeraden Ziern gibt es? (Engel)
Es gibt nur die
n=5
ungeraden Ziern 1, 3, 5, 7, 9. Hier spielt die Reihenfolge eine
Rolle und Wiederholungen sind erlaubt, also handelt es sich um eine Variation aus n =
k
4
Elementen zur k = 4-ten Klasse; somit ist die gesuchte Anzahl gleich n = 5 = 625.
Aufgabe 5.
5
Wieviel vierstellige Zahlen mit ungeraden Ziern gibt es, wenn jede Zier
höchstens einmal vorkommen darf ?
Es ist eine Variation aus den
n = 5
Klasse ohne Wiederholung, also ist diese Anzahl gleich
Aufgabe 6.
k = 4-ten
(n)k = 5 · 4 · 3 · 2 = 120.
ungeraden Ziern 1, 3, 5, 7, 9 der
Auf einem Ball wollen einen bestimmten Tanz zehn Damen und fünf Her-
ren tanzen. Wieviel Möglichkeiten gibt es fünf Damen tanzen zu lassen?
Da nur
k = 5
Herren zur Verfügung stehen, müssen aus den
n = 10
Damen
k
aus-
gewählt werden. Es handelt sich um eine Kombination von 10 Damen zur 5-ten Klasse
ohne Wiederholung, also gibt es
10
= (10 · 9 · 8 · 7 · 6)/(1 · 2 · 3 · 4 · 5) = 252
5
Möglichkeiten. Mit Excel: Formel
194
= P OLY N OM IAL(5; 5).
13.9 Zu Kapitel 9
Aufgabe 7.
Auf dem Weihnachtsmarkt bietet ein Wagen vier verschiedene Sorten von
Mohrenköpfen für 50 Cent an. Ein Kind darf sich für vier Euro eindecken. Wieviel verschiedene Zusammenstellungen sind möglich?
Das Kind kann also aus
n = 4
Sorten, d.h. den Mohrenköpfen,
k = 8
Objekte aus-
suchen, wobei Wiederholungen möglich sind, aber die Reihenfolge zumindest beim Kauf
4+8−1
11
keine Rolle spielt. Daher gibt es
=
= 165 Möglichkeiten, denn es handelt
8
8
sich um eine Kombination aus 4 Sorten zur 8-ten Klasse mit Wiederholung.
Aufgabe 8.
Für 20 Studenten werden drei Sprachkurse angeboten. Wieviel verschiede-
ne Zusammenstellungen sind möglich?
Dies entspricht dem Problem
k = 20
Kugeln auf
n=3
Urnen zu verteilen, was einer
Kombination aus n = 3 Elementen zur k = 20-ten Klasse mit Wiederholung entspricht.
3+20−1
Somit gibt es
= 231 Möglichkeiten.
20
Aufgabe 9.
Aus drei verschiedenen Briefmarkenserien mit
e
1,00-Marken sollen al-
le Möglichkeiten zusammengestellt werden, mit denen man einen 5
e-Brief
frankieren
kann, wobei die Reihenfolge der Marken keine Rolle spielt.
Dies entspricht dem Problem
k = 5
Briefmarken auf
n = 3
unterschiedlichen Sorten
zusammenzustellen, was einer Kombination aus n = 3 Elementen zur k
3+5−1
mit Wiederholung entspricht. Somit gibt es
= 21 Möglichkeiten.
5
= 5-ten
Klasse
13.9 Zu Kapitel 9
Aufgabe 1.
Ein fairer Würfel werde solange gewürfelt, bis zum ersten Mal die Augen-
X eine ungerade Zahl ist. Geben Sie die Verteilung und die kumulierte Verteilung
von X in tabellarischer Form an und zeichnen Sie die Wahrscheinlichkeitsfunktion und
die Verteilungsfunktion! Finden Sie eine diskrete gleichverteilte Zufallsvariable Y , so dass
X = aY +b mit geeigneten reellen Zahlen a und b. Bestimmen Sie damit Erwartungswert
und Varianz der Zufallsvariablen X .
zahl
Die Zufallsvariable
X
nimmt die Werte 1, 3 und 5 mit derselben Wahrscheinlichkeit,
also mit 1/3 an. In der Abbildung 13.22 sehen Sie die beiden Verteilungen und die
zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion.
Y ∼ U (m = 0, n = 3), d.h. Y nimmt die Werte 0, 1 und 2 mit der Wahrscheinlich2
keit 1/3 an. Hier sind E(Y ) = 1 und V ar(Y ) = (n −1)/12 = 2/3. Weiter ist X = 2Y +1,
2
also sind E(X) = 2E(Y ) + 1 = 3 und V ar(X) = 2 V ar(Y ) = 8/3. Man sieht dies auch
direkt über die Verteilung von X
Sei
E(X) = (1 + 3 + 5)/3 = 3,
V ar(X) = (12 + 32 + 52 )/3 − E(X)2 = (35 − 27)/3 = 8/3.
195
13 Ausgewählte Lösungen
x
1
3
5
f(x) F(x)
1/3 1/3
1/3 2/3
1/3
1
0,4
1
0,75
0,5
0,25
0
0,2
0
0
1
2
3
4
5
0
1
2
3
4
5
Abbildung 13.22: Verteilung der Zufallsvariable der Aufgabe 1
Aufgabe 2.
Eine Fernsehsendung wird von 40 Prozent der erwünschten Zielgruppe ge-
sehen. Bei einer Befragung werden sechs Mitglieder der Zielgruppe zufällig ausgewählt
und zur Sendung befragt. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie
deren Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen
Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ ist die Wahrscheinlichkeit, dabei auf keinen einzigen, genau einen oder genau zwei, höchstens zwei
oder mindestens drei Zuschauer zu stoÿen? Bestimmen Sie abschlieÿend Erwartungswert
und Varianz der zugrundeliegenden Zufallsvariablen.
X misst die Anzahl von Zuschauern der Sendung in der Stichprobe
und somit gilt X ∼ B(6; 0, 4). In der Abbildung 13.23 sehen Sie die beiden Verteilungen
Die Zufallsvariable
und die zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion.
Aus der Tabelle lassen sich die geforderten Werte ablesen, etwa
0, 0467. Weiter sind P (X = 1) = 6·0, 41 ·0, 65 = 0, 1866 und P (X =
0, 3110.
P (X = 0) = 0, 66 =
2) = 15·0, 42 ·0, 64 =
Somit sind
P (X ≤ 2) = 0, 0467 + 0, 1866 + 0, 3110 = 0, 5443,
P (X ≥ 3) = 1 − P (X ≤ 2) = 0, 4557.
Wegen
n
6
0
1
2
3
4
5
6
n=6
und
p = 0, 4
p
0,4
b(x;n;p) B(x;n;p)
0,0467 0,0467
0,1866 0,2333
0,3110 0,5443
0,2765 0,8208
0,1382 0,9590
0,0369 0,9959
0,0041 1,0000
sind
E(X) = 2, 4
und
V ar(X) = 6 · 0, 4 · 0, 6 = 1, 44.
Wahrscheinlichkeitsfunktion
Verteilungsfunktion
0,4
1
0,3
0,8
0,6
0,2
0,4
0,1
0,2
0
0
-1 0
1
2 3
4
5 6
-1 0 1 2 3 4 5 6
Abbildung 13.23: Verteilung der Zufallsvariable der Aufgabe 2
196
13.9 Zu Kapitel 9
Aufgabe 3.
Ein Arbeiter fertigt 9 Werkstücke, von denen 3 fehlerbehaftet sind, davon
werden 4 Werkstücke überprüft. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben
Sie deren Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ ist die
Wahrscheinlichkeit, dass bei der Überprüfung von den 4 Werkstücken kein oder genau
ein Werkstück, zwei oder höchstens zwei bzw. mindestens zwei Stücke fehlerbehaftet
sind? Bestimmen Sie abschlieÿend Erwartungswert und Varianz der zugrundeliegenden
Zufallsvariablen.
X misst die Anzahl fehlerbehafteter Werkstücke in der Stichprobe
X ∼ H(4, 3, 9). In der Abbildung 13.24 sehen Sie die beiden Verteilungen
Die Zufallsvariable
und somit gilt
und die zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion, wobei ich aus Versehen auch den nicht möglichen Wert
x = 4 aufgeführt habe. Aus
der Tabelle lassen sich die geforderten Werte ablesen, ich werde sie aber berechnen. Der
9
konstante Nenner ist
= 126.
4
P (X
P (X
P (X
P (X
P (X
Wegen
n=4
und
3 6
= 0) =
/126 = 0, 1190,
0 4
3 6
= 1) =
/126 = 0, 4762,
1 3
3 6
= 2) =
/126 = 0, 3571,
2 2
≤ 2) = 0, 1190 + 0, 4762 + 0, 3571 = 0, 9524,
≥ 2) = 1 − P (X ≤ 1) = 1 − 0, 1190 − 0, 4762 = 0, 4048.
M =3
sowie
N =9
sind
E(X) = 4 · 3/9 = 4/3,
M
20 3
3
n(N − n) M
·
1−
=
1−
= 5/9.
V ar(X) =
N −1 N
N
8 9
9
n
M
N
4
3
9
x h(x;n;M,N) H(x;n;M,N)
0
0,1190
0,1190
1
0,4762
0,5952
2
0,3571
0,9524
3
0,0476
1,0000
4
0,0000
1,0000
Wahrscheinlichkeitsfunktion
Verteilungsfunktion
0,5
0,4
0,3
0,2
0,1
0
-1
0
1
2
3
4
1
0,8
0,6
0,4
0,2
0
-1
0
1
2
3
4
Abbildung 13.24: Verteilung der Zufallsvariable der Aufgabe 3
197
13 Ausgewählte Lösungen
Aufgabe 4.
In einer Trommel benden sich 100 Lose, wovon 60 Nieten sind. Ein Kind
kauft fünf Lose. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie deren Ver-
teilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie die
Wahrscheinlichkeitsfunktion und die Verteilungsfunktion! Wie groÿ sind die Wahrscheinlichkeiten für 0, 3 und 5 Nieten? Wie groÿ sind die Wahrscheinlichkeiten für höchstens 3
Nieten? Bestimmen Sie abschlieÿend Erwartungswert und Varianz der zugrundeliegenden Zufallsvariablen.
Die Zufallsvariable
X
der Anzahl von Nieten in der Stichprobe ist H(5; 60; 100)-verteilt.
In der folgenden Abbildung sehen Sie die beiden Verteilungen und die zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion.
1
2
3
4
5
6
7
8
9
A
n
5
x
0
1
2
3
4
5
B
M
C
N
60
100
h(x;n;M,N)
H(x;n;M,N)
0,0087
0,0087
0,0728
0,0816
0,2323
0,3139
0,3545
0,6684
0,2591
0,9275
0,0725
1,0000
D
E
F
G
H
Verteilungsfunktion
Wahrscheinlichkeitsfunktion
0,4
1
0,8
0,6
0,4
0,2
0
0,3
0,2
0,1
0,0
0
1
2
3
4
5
0
1
2
3
4
5
Abbildung 13.25: Verteilung der Zufallsvariable
Wir können damit u.a. folgende Fragen beantworten: Wie groÿ sind die Wahrscheinlichkeiten für 0, 3 und 5 Nieten? Die Antworten sind 0,0087, 0,3545 und 0,0725. Sei
beispielhaft der Wert für
f (3)
vorgerechnet:
60
3
P (X = 3) = h(3, 5, 60, 100) =
P (X = 3) =
100−60
5−3
100
5
10 · 59 · 58 · 20 · 39
= 26.691.600/75.287.520 = 0, 3545.
5 · 33 · 49 · 97 · 96
Höchstens 3 Nieten werden mit der Wahrscheinlichkeit 0,6684 gezogen. Erwartungswert
und Varianz haben die Werte 3 und 1,1515. . .
Aufgabe 5.
In einem kleinen Krankenhaus wird durchschnittlich pro Tag ein Neuge-
borenes entbunden. Bestimmen Sie eine geeignete Zufallsvariable
X,
geben Sie deren
Verteilung und die kumulierte Verteilung in tabellarischer Form an und zeichnen Sie das
Histogramm! Wie groÿ ist die Wahrscheinlichkeit, dass an einem Tag in dieser Klinik
kein, genau ein sowie höchstens und mindestens ein Baby geboren wird? Bestimmen Sie
dann Erwartungswert und Varianz der zugrundeliegenden Zufallsvariablen. Wie groÿ ist
die Wahrscheinlichkeit, dass an einem Tag mindestens zwei und höchstens vier Babys
geboren werden? Wie groÿ ist die Wahrscheinlichkeit, dass in einer Woche genau 8 Babys
198
13.10 Zu Kapitel 10
geboren werden?
X
Die Zufallsvariable
der Anzahl täglich in der Klinik geborenen Säuglinge ist Ps(1)-
verteilt. In der folgenden Abbildung sehen Sie die beiden Verteilungen und die zugehörigen Graphen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion.
λ
0
1
2
3
4
5
6
7
8
1
ps(x;λ)
0,3678794
0,3678794
0,1839397
0,0613132
0,0153283
0,0030657
0,0005109
0,0000730
0,0000091
Ps(x;λ)
0,3678794
0,7357589
0,9196986
0,9810118
0,9963402
0,9994058
0,9999168
0,9999898
0,9999989
Histogramm von X ~ Ps(1)
0,4
0,3
0,2
0,1
0,0
0
1
2
3
4
5
6
7
8
Abbildung 13.26: Verteilung einer Ps(1)-verteilten Zufallsvariablen
Erwartungswert und Varianz haben beide die Werte
λ = 1.
Wegen
λ=1
erhält man
10 −1
e ≈ 0, 3678794
0!
11
= 1) = ps(1; 1) = e−1 ≈ 0, 3678794
1!
≤ 1) = P s(0; 1) ≈ 0, 3678794 + 0, 3678794 = 0, 7357588
≥ 1) = 1 − ps(0; 1) ≈ 0, 6321206
≤ 4) = P s(4; 1) − P s(1; 1) ≈ 0, 9963402 − 0, 7357589 = 0, 2605813
P (X = 0) = ps(0; 1) =
P (X
P (X
P (X
P (2 ≤ X
Die Zufallsvariable
Y
der Anzahl in einer Woche in der Klinik geborenen Säuglinge ist
Ps(7)-verteilt. Also:
P (Y = 8) = ps(8; 7) =
78 −7
e ≈ 0, 130377432
8!
13.10 Zu Kapitel 10
Aufgabe 1.
Die Funktion f sei für 0 ≤ x ≤ 2 durch die Funktionsgleichung f (x) =
ax(2 − x) gegeben und nehme sonst den Wert 0 an. Legen Sie die Konstante a so fest,
dass f eine Dichtefunktion wird. Bestimmen Sie dabei gleichzeitig die Verteilungsfunktion F . Zeichnen Sie nun die Dichte- und die Verteilungsfunktion. Berechnen Sie dann
für eine Zufallsvariable X , deren Verteilung durch f gegeben ist, die folgenden Wahrscheinlichkeiten: P (X < 0, 25), P (X > 0, 25) und P (0, 25 < X < 0, 5). Bestimmen Sie
abschlieÿend E(X), Var(X) und Std(X).
199
13 Ausgewählte Lösungen
Eine Dichtefunktion muss nichtnegative Werte haben, was hier für alle a > 0 der Fall ist.
2
2
3
Für 0 ≤ x ≤ 2 gilt f (x) = 2ax−ax , also ist hier F (x) = ax −ax /3+C . Die Konstante
a muss so festgelegt werden, dass die Verteilungsfunktion die Bedingungen F (0) = 0 und
F (2) = 1 erfüllt, also ist C = 0 und a = 0, 75, d.h. F (x) = 0, 75x2 − 0, 25x3 und folglich
f (x) = 1, 5x − 0, 75x2 . Wegen F (0, 25) = 0, 04296875 und F (0, 5) = 0, 15625 sind die
gesuchten Wahrscheinlichkeiten deshalb P (X < 0, 25) = 0, 04296875, P (X > 0, 25) =
1 − F (0, 25) = 0, 95703125 und P (0, 25 < X < 0, 5) = F (0, 5) − F (0, 25) = 0, 11328125.
Für x < 0 gilt f (x) = F (x) = 0. Für x > 2 gilt f (x) = 0 und F (x) = 1.
Der Erwartungswert und die Varianz sind
Z
∞
2
Z
(1, 5x2 − 0, 75x3 ) dx
−∞
0
2
3
4
= (0, 5x − 0, 75x /4)0 = 4 − 3 = 1.
Z ∞
Z 2
2
2
Var(X) =
x f (x) dx − E(X) =
(1, 5x3 − 0, 75x4 ) dx − 12
−∞
0
2
4
5
= (1, 5x /4 − 0, 75x /5) 0 = 6 − 24/5 − 1 = 1/5 = 0, 2.
E(X) =
xf (x) dx =
Da die Dichtefunktion symmetrisch zum Punkt
1 ist, hätte ich sofort E(X) = 1 angeben
können.
-0,4
f(x) =-0,75x^2 +1,5x, oder 0
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-0,2
0
0,2
0,4
0,6
0,8
Aufgabe 2.
F(x) = -0,25x^3 + 0,75x^2 oder 0 oder 1
1
1,2
1,4
1,6
1,8
2
2,2
2,4
Eine stetige Zufallsvariable mit der Dichtefunktion


0
f (x) = 1/(b − a)


0
heiÿt rechteckverteilt. Man schreibt
für
für
für
X ∼ U(a, b).
x < a;
a ≤ x ≤ b;
x>b
Die Notation rührt von der englischen
Bezeichnung Uniform her. Daher spricht man auch von einer Gleichverteilung. Berechnen
Sie die zugehörige Verteilungsfunktion
200
F (x)
und zeichnen Sie für
a=1
und
b=3
die
13.10 Zu Kapitel 10
Dichtefunktion und die Verteilungsfunktion in ein Koordinatensystem. Berechnen Sie
X ∼ U(a, b).
x < a gilt f (x) = F (x) = 0. Für x > b gilt f (x) = 0 und F (x) = 1. Innerhalb von
I = [a, b] besteht die Beziehung F 0 (x) = 1/(a − b), somit ist hier F (x) = (x − a)/(a − b).
Die Dichtefunktion ist symmetrisch bezüglich der Mitte (a + b)/2 des Intervalls I , somit
ist E(X) = (a + b)/2 für eine im Intervall I gleichverteilte stetige Zufallsvariable. Die
den Erwartungswert und die Varianz einer Zufallsvariablen
Für
Varianz wird wie folgt berechnet:
Z
∞
2
Z
2
b
x f (x) dx − E(X) =
Var(X) =
−∞
x2 /(a − b) dx − (a2 + 2ab + b2 )/4
a
b
= x /(3(a − b))a − (a2 + 2ab + b2 )/4
3
= (b3 − a3 )/(3(b − a)) − (a2 + 2ab + b2 )/4 = (b − a)2 /12.
f(x)
F(x)
1
0,75
0,5
0,25
0
0
Aufgabe 3.
0,5
1
1,5
2
2,5
3
3,5
4
Eine stetige Zufallsvariable mit der Dichtefunktion
(
0
f (x) =
λ exp(−λx)
für
für
x < 0;
x ≥ 0.
λ. Man schreibt X ∼ Exp(λ). Berechnen Sie die
F (x) und zeichnen Sie für λ = 2 die Dichtefunktion und
heiÿt exponentialverteilt mit Parameter
zugehörige Verteilungsfunktion
die Verteilungsfunktion in ein Koordinatensystem. Berechnen Sie den Erwartungswert
und die Varianz einer exponentialverteilten stetigen Zufallsvariablen.
Die angegebene Funktion hat für
x ≥ 0
die Funktionsgleichung
f (x) = λ exp(−λx).
Die Funktionswerte sind nichtnegativ. Die Funktion ist genau dann eine Dichtefunktion,
F gefunden wird, die für alle x <= 0 den Wert 0, und deren
Ableitung für x > 0 mit f (x) = λ exp(−λx) übereinstimmt und deren Funktionswerte
für x → ∞ gegen 1 konvergieren. Jede Stammfunktion von f hat die Funktionsgleichung
F (x) = C − exp(−λx), für C = 1 ist das auch eine Verteilungsfunktion, und zwar die
wenn eine Stammfunktion
Verteilungsfunktion zur angegebenen Dichtefunktion. Beide sind abgebildet.
f (x) = 0 für x < 0 aus
Z ∞
∞
xf (x) dx =
λx exp(−λx) dx.
Der Erwartungswert berechnet sich wegen
Z
E(X) =
0
0
201
13 Ausgewählte Lösungen
g(x) = λx exp(−λx) hat die Funktionsgleichung G(x) = (−x+
C) exp(−λx) + D, woraus sofort C = −1/λ folgt. Setzt man D = 0, so ergibt sich
E(X) = G(∞) − G(0) = 1/λ.
2
Für die Varianz wird eine Stammfunktion von h(x) = λx exp(−λx) gesucht. Der
2
Ansatz ist hier H(x) = (−x + Cx + D) exp(−λx). Leitet man diesen Ausdruck ab, muss
2
sich h ergeben, woraus durch Koezientenvergleich C = −2/λ und D = −(2/λ) folgen.
Jede Stammfunktion von
Damit ist
∞
Z
x2 f (x) dx − E(X)2
Var(X) =
0
= H(∞) − H(0) − (1/λ)2 = (2/λ)2 − (1/λ)2 = (1/λ)2 .
Exponentialverteilung mit λ = 2
2
1,75
1,5
1,25
1
0,75
0,5
0,25
0
-1
-0,5
F(x)
f(x)
0
0,5
1
1,5
2
2,5
3
x
13.11 Zu Kapitel 12
Aufgabe 1.
Bestimmen Sie die folgenden Mengen: { x
2
x + 2x + 1 = 0 } und { x ∈ R | x2 + 2x + 2 = 0 }
{ x ∈ R | x > x2 } = (0, 1), { x ∈ R | x2 + 2x + 1 =
x2 + 2x + 2 = 0 } = ∅.
Aufgabe 2.
Seien
T (8) = { 1, 2, 4, 8 }
und
∈ R | x > x2 }, { x ∈ R |
0 } = { −1 }
T (12) = { 1, 2, 3, 4, 6, 12 }
und
{x ∈ R |
die Mengen der
Teiler von 8 bzw. 12. Welche Mächtigkeit haben diese Mengen? Welche Mächtigkeit ha-
T (8) ∪ T (12), T (8) ∩ T (12), T (8) \ T (12) und
T (12) \ T (8).
T (8) = { 1, 2, 4, 8 }, T (12) = { 1, 2, 3, 4, 6, 12 }. |T (8) = 4| , |T (12) = 6|. Die Potenzmen4
6
gen haben die Mächtigkeiten 2 = 16 und 2 = 32. T (8) ∪ T (12) = { 1, 2, 3, 4, 6, 8, 12 },
T (8) ∩ T (12) = { 1, 2, 4 }, T (8) \ T (12) = { 8 } und T (12) \ T (8) = { 3, 6, 12 }.
ben deren Potenzmengen? Bestimmen Sie
Aufgabe 3.
Vereinfachen Sie die folgenden Ausdrücke für beliebige Mengen: A ∩ (A ∩
B), (A ∩ B) ∩ (B ∩ C), ∅ ∩ (A ∩ B), ∅ ∪ (A ∪ B), A ∪ (A ∩ B), A ∪ (A \ B) und
A ∪ (B \ A).
A ∩ (A∩B) = A∩B), (A∩B) ∩ (B∩C) = A∩B ∩ C , ∅ ∩(A∩B) = ∅, ∅ ∪(A∪B) = A∪B ,
A ∪ (A ∩ B) = A, A ∪ (A \ B) = A und A ∪ (B \ A) = A ∪ B .
202
13.11 Zu Kapitel 12
Aufgabe 4.
Z = { 0, 1, 2, · · · , 9 }. Wieviel Teilmengen hat Z ? Ist 2 ∈ P(X)? Ist
{ 2 } ∈ P(X)? Ist ∅ ∈ P(X)? Ist Z ∈ P(X)?
|Z| = 210 = 1024, 2 ∈ P(X) ist falsch. { 2 } ∈ P(X) ist richtig. ∅ ∈ P(X) stimmt.
Z ∈ P(X) stimmt auch.
Sei
203
Index
Abszisse, 162
Gleichverteilung, 69, 120
arithmetisches Mittel, 29
Grundgesamtheit, 2, 4
Ausprägung, 12
Gruppierte Daten, 13
Ausreiÿer, 23, 28
Häugkeit
Balkendiagramm, 14
absolute, 13
Bernoulli-Experiment, 79
relative, 13
Bernoulli-verteilt, 121
Häugkeitsdichte
Bestandsmasse, 4
absolute, 45
Betrag, 153
relative, 45
Bewegungsmasse, 4
Häugkeitsliste, 13
Binomialkoezienten, 109
Häugkeitstabelle, 14
Binominalverteilung, 122
Herndahl-Index, 62
Boxplot, 27
Histogramm, 46
Datenmatrix, 8
Dichtefunktion, 134
empirische, 46
Disparität, 53
Elemente, 151
Interquartilsabstand, 27
Intervall
abgeschlossenes, 154
links halboenes, 154
oenes, 154
rechts halboenes, 154
empirische Verteilungsfunktion, 15
Intervallskala, 7
Ereignismasse, 4
irrationale Zahlen, 153
Ereignisse, 68
Ergebnismenge, 68
Erwartungswert, 102
Erwartungswertoperator, 90
Fragebogen, 7
kartesisches Produkt, 161
Klassen, 44
Klassenbreite, 44
Klassenmitte, 45
Klassenmittelwert, 45
geschlossene Fragen, 8
Kombination, 112
oene Fragen, 8
Kondenzintervall, 145
Kondenzniveau, 145
Gegenzahlen, 153
Kondenzzahl, 145
geometrische Verteilung, 130
Konzentration
Gini-Koezient, 56
absolute, 53
normiert, 58
relative, 53
205
Index
Konzentrationskurve, 61
Permutation, 111
Konzentrationsrate, 61
Pfadregel, 76
Korrelation, 94
Poissonverteilung, 128
Korrelationsmatrix, 96
Potenzmenge, 160
Kovarianz, 93
Produktwahrscheinlichkeitraum, 78
Kovarianzmatrix, 96
Kreisdiagramm, 18
Quantil, 23
Quartil
Lagemaÿe, 21
oberes, 24
Laplace-Experimente, 69
unteres, 24
Lorenzkurve, 56
Mächtigkeit, 160
Median, 22
Mehrfachfrage, 8
Menge, 151
Aufzählung, 151
Beschreibung, 151
Mengensystem, 160
Merkmal, 4
dichotom, 5
kardinal, 5
kategoriell, 5
metrisch, 5
Nominal, 5
Ordinal, 5
polytom, 5
qualitatativ, 6
quantitativ, 6
Merkmalsausprägung, 4
Merkmalsträger, 4, 5
Mittelwert, 29
Modalwert, 21
Modus, 21
Multiplikationsprinzip, 111
Nominalskala, 7
Normalverteilung, 141
Risiko, 90
Rosenbluth-Index, 62
Säulendiagramm, 14, 18
Schiefemaÿe, 21
Skalenniveau, 6
Spannweite, 27
Stabdiagramme, 14
Standardabweichung, 33, 91, 103, 137
empirische, 33
Statistik, 1
beschreibende, 2
schlieÿende, 2
Statistische Einheit, 4
Stichprobe, 2
Stichprobenvarianz, 32
Streuungsmaÿe, 21
Teilmenge, 157
echte, 157
Treppenfunktion, 16
Urliste, 11
Ursprung, 162
Varianz, 31, 91
empirische, 32
Varianz einer Zufallsvariablen, 91, 103
Variation, 113
Obermenge, 157
Variationskoezient, 33
Ordinalskala, 7
Verschiebungssatz von Steiner, 31
Ordinate, 162
Verteilung, 99, 120
kumulierte, 101
p-Quantil
einerVerteilung, 144
206
symmetrische, 139
Verteilungsfunktion, 134
Index
approximierende empirische, 48
Vertrauensintervall, 145
Volatilität, 91
Vollerhebung, 2
Wahrscheinlichkeit, 72
Wahrscheinlichkeitsfunktion, 100, 120
Wahrscheinlichkeitsmaÿ, 72
Wahrscheinlichkeitstheorie, 2
Wahrscheinlichkeitsverteilung
diskret, 68
x-Achse, 162
y-Achse, 162
Zahlengerade, 152
Zentrale Grenzwertsatz, 146
Zufallsvariable, 88, 119, 134
diskrete, 119
stetige, 133, 134
207
Herunterladen