Skript zur Vorlesung Statistik - Fachbereich Mathematik und

Werbung
Skript zur Vorlesung Statistik
Dietrich Baumgarten
«
21. Mai 2012
Inhaltsverzeichnis
1 Grundlagen
1
1.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Zum Begri Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.3
Wahrscheinlichkeitstheorie, beschreibende und schlieÿende Statistik
. . .
2
. . . . . . . . . . . . . . . .
2
. . . . . . . . . . . . . . .
3
. . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Gliederung einer statistischen Untersuchung
1.4.1
Beispiele statistischer Untersuchungen
1.5
Statistische Grundbegrie
1.6
Bestands- und Bewegungsmassen
. . . . . . . . . . . . . . . . . . . . . .
4
1.7
Einteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.8
Messen und Skalenniveaus
6
1.9
Fragebögen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10 Die Datenmatrix
1.11 Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . .
7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2 Darstellung univariater Daten
11
2.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Die vier Grundformen von Datensätzen . . . . . . . . . . . . . . . . . . .
11
2.3
Absolute und relative Häugkeiten
12
2.4
Kumulierte absolute und relative Häugkeiten
2.5
Häugkeitstabellen
2.6
Stab- Säulen- und Balkendiagramme
2.7
Empirische Verteilungsfunktion
2.8
Der Sonderfall nominaler Merkmale . . . . . . . . . . . . . . . . . . . . .
17
2.9
Aufgaben
18
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . . . . .
15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Maÿzahlen einer Verteilung
19
3.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2
Denition und Einteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.3
Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.4
Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.4.1
Eigenschaften des Medians . . . . . . . . . . . . . . . . . . . . . .
21
3.5
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.6
Median und Quantile aus einer Häugkeitstabelle
. . . . . . . . . . . . .
23
3.7
Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.7.1
Spannweite und Interquartilsabstand
3.7.2
Prinzip der Boxplots
. . . . . . . . . . . . . . . .
25
. . . . . . . . . . . . . . . . . . . . . . . . .
25
iii
Inhaltsverzeichnis
3.7.3
3.8
3.9
Eine Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . .
Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3.8.1
28
Eigenschaften des arithmetischen Mittels . . . . . . . . . . . . . .
Streuungsmaÿe mit Bezug auf den Mittelwert
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.9.1
Die Varianz
3.9.2
Stichprobenvarianz
. . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.9.3
Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .
31
28
3.9.4
Der Variationskoezient . . . . . . . . . . . . . . . . . . . . . . .
31
3.10 Arbeitstabelle zur Berechnung . . . . . . . . . . . . . . . . . . . . . . . .
32
3.11 Transformationseigenschaften der Maÿzahlen . . . . . . . . . . . . . . . .
33
3.12 Mittlere absolute Abstände . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.13 Anforderungen an Maÿzahlen metrischer Merkmale
34
. . . . . . . . . . . .
3.14 Abschlieÿendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.15 Excel-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.16 Aufgaben
37
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Klassenbildung
41
4.1
Übersicht und Lernziele
4.2
Klassen
4.3
Häugkeitstabelle klassierter Daten . . . . . . . . . . . . . . . . . . . . .
44
4.4
Histogramme
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.5
Approximierende empirische Verteilungsfunktion . . . . . . . . . . . . . .
45
4.6
Maÿzahlen bei klassierten Daten . . . . . . . . . . . . . . . . . . . . . . .
46
4.6.1
Der Modus
46
4.6.2
Median und Quantile
4.6.3
Arithmetisches Mittel und Varianz
4.7
Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . . .
41
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
48
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
5.1
Übersicht und Lernziele
5.2
Absolute und relative Konzentration
5.3
5.4
46
. . . . . . . . . . . . . . . . .
5 Darstellung und Kennzahlen von Konzentration
iv
26
51
. . . . . . . . . . . . . . . . . . . . . . . . . . .
51
. . . . . . . . . . . . . . . . . . . .
51
Relative Konzentration . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
5.3.1
Die Merkmalssumme und ihre Verteilung . . . . . . . . . . . . . .
52
5.3.2
Die Lorenzkurve
54
5.3.3
Der Gini-Koezient
. . . . . . . . . . . . . . . . . . . . . . . . .
54
5.3.4
Der normierte Gini-Koezient . . . . . . . . . . . . . . . . . . . .
56
5.3.5
Relative Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.3.6
Klassierte Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.3.7
Vorgehensweise mit Excel
Absolute Konzentration
. . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
58
. . . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.4.1
Konzentrationskurve und Rosenbluth-Index
. . . . . . . . . . . .
59
5.4.2
Rosenbluth-Index . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
5.4.3
Herndahl-Index
. . . . . . . . . . . . . . . . . . . . . . . . . . .
60
5.4.4
Relative Daten
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Inhaltsverzeichnis
5.5
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
5.6
Aufgaben
63
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Einführung in die Wahrscheinlichkeitsrechnung
67
6.1
Übersicht und Lernziele
. . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.2
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.3
Laplace-Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
6.4
Allgemeine Zufalls-Experimente . . . . . . . . . . . . . . . . . . . . . . .
69
6.5
Wahrscheinlichkeit von Ereignissen
71
6.6
Rechenregeln für Ereignisse
6.7
Abhängige mehrstuge Zufallsexperimente
. . . . . . . . . . . . . . . . .
74
6.8
Unabhängige mehrstuge Zufallsexperimente . . . . . . . . . . . . . . . .
76
6.9
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
72
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit . . . . . .
79
6.10 Der Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.11 Aufgaben
85
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Diskrete Zufallsvariable
87
7.1
Lernziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2
Einführung und Denition . . . . . . . . . . . . . . . . . . . . . . . . . .
87
7.3
Die Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . . . . . .
88
7.4
Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen
. . . . .
89
7.5
Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
7.6
Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . .
91
7.7
Bernoulli-Verteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
7.8
Unabhängige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . .
95
7.9
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
7.10 Aufgaben
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8 Ausgewählte Lösungen
87
98
99
8.1
Zu Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.2
Zu Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.3
Zu Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.4
Zu Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.5
Zu Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.6
Zu Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
v
Abbildungsverzeichnis
2.1
Stabdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2
Empirische Verteilungsfunktion
. . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Häugkeitstabelle und Säulendiagramm . . . . . . . . . . . . . . . . . . .
18
3.1
Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.2
Eine weitere Form des Boxplots
. . . . . . . . . . . . . . . . . . . . . . .
26
3.3
Arbeitstabelle für einige Maÿzahlen . . . . . . . . . . . . . . . . . . . . .
33
4.1
Diskrete Auswertung
41
4.2
Histogramm und approximierende empirische Verteilungsfunktion
5.1
5.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
45
Arbeitstabelle zum Beispiel 5.1
. . . . . . . . . . . . . . . . . . . . . . .
53
Arbeitstabelle zum Beispiel 5.2
. . . . . . . . . . . . . . . . . . . . . . .
53
5.3
Zusammenhang zwischen Lorenzkurve und Gini-Koezient . . . . . . . .
55
5.4
Arbeitsblatt für Lorenzkurve mit klassierten Daten
. . . . . . . . . . . .
57
5.5
Arbeitsblatt für Lorenzkurve mit klassierten Daten
. . . . . . . . . . . .
57
5.6
Arbeitsblatt für Konzentrationskurve, Rosenbluth- und Herndahl-Index
59
5.7
Arbeitsblatt für absolute Konzentration bei relativen Daten . . . . . . . .
62
6.1
Zufallsgeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
6.2
Baumdiagramm zum Beispiel 6.4
. . . . . . . . . . . . . . . . . . . . . .
75
6.3
Baumdiagramm von Beispiel 6.5 . . . . . . . . . . . . . . . . . . . . . . .
76
6.4
Baumdiagramm zum Beispiel 6.4
. . . . . . . . . . . . . . . . . . . . . .
77
6.5
Baumdiagramm zum Beispiel 6.7
. . . . . . . . . . . . . . . . . . . . . .
78
6.6
Der Satz von der totalen Wahrscheinlichkeit
. . . . . . . . . . . . . . . .
82
6.7
Arbeitstabelle zum Beispiel 6.15 . . . . . . . . . . . . . . . . . . . . . . .
83
6.8
Arbeitstabelle für das Beispiel 6.16
. . . . . . . . . . . . . . . . . . . . .
85
7.1
Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
7.2
Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
8.1
Häugkeitstabelle und Säulendiagramm.
99
8.2
Maÿzahlen der Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3
Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
8.4
Häugkeitstabelle und Diagramme
8.5
Boxplot zu den Daten des Beispiels 2.1 . . . . . . . . . . . . . . . . . . . 102
8.6
Häugkeitstabelle, Diagramme und Maÿzahlen.
8.7
Einfacher Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
. . . . . . . . . . . . . . . . . .
. . . . . . 101
. . . . . . . . . . . . . . . . . . . . . 102
. . . . . . . . . . . . . . 103
vii
Abbildungsverzeichnis
8.8
Variante des Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.9
Lösung zur Aufgabe
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.10 Klassierte Häugkeitstabelle und Diagramme . . . . . . . . . . . . . . . . 105
8.11 Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 106
8.12 Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
. . . . . . 106
8.13 Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
. . . . . . 107
8.14 Häugkeitstabelle und Diagramme.
. . . . . . . . . . . . . . . . . . . . . 108
8.15 Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 108
8.16 Häugkeitstabelle und Lorenzkurve
. . . . . . . . . . . . . . . . . . . . . 109
8.17 Häugkeitstabelle, Histogramm und Verteilungsfunktion.
8.18 Baumdiagramme
. . . . . . . . . 110
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.19 Baumdiagramm und Verteilung
. . . . . . . . . . . . . . . . . . . . . . . 112
8.20 Arbeitstabelle für die Aufgabe 10
. . . . . . . . . . . . . . . . . . . . . . 115
8.21 Arbeitstabelle für den Satz von Bayes . . . . . . . . . . . . . . . . . . . . 116
8.22 Verteilung von Chuck-a-luck . . . . . . . . . . . . . . . . . . . . . . . . . 118
viii
Tabellenverzeichnis
1.1
Eine Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Aufbau einer Häugkeitstabelle
2.2
Liste der Weltmeister im Fuÿball
8
. . . . . . . . . . . . . . . . . . . . . . .
14
. . . . . . . . . . . . . . . . . . . . . .
17
3.1
Notenverteilung Herren . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2
Anzahl von Cocktails . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.3
Benötigte Werte für den Boxplot
. . . . . . . . . . . . . . . . . . . . . .
26
3.4
Notenverteilung der Teilnehmer
. . . . . . . . . . . . . . . . . . . . . . .
38
4.1
Häugkeitstabelle eines stetigen Merkmals
. . . . . . . . . . . . . . . . .
4.2
Häugkeitstabelle eines stetigen Merkmals
. . . . . . . . . . . . . . . . .
47
4.3
Brumm, Brumm
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
5.1
Gröÿe von Haushalten, BRD 1970 . . . . . . . . . . . . . . . . . . . . . .
63
5.2
Fiktive Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
6.1
Diskrete Wahrscheinlichkeitsverteilung
69
6.2
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.4
. . . . . . . . . .
75
6.3
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.5
. . . . . . . . . .
76
6.4
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.6
. . . . . . . . . .
77
6.5
Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.7
. . . . . . . . . .
77
7.1
Bernoulliverteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
8.1
Notenverteilung der Teilnehmer
8.2
Brumm, Brumm
8.3
Gröÿe von Haushalten, BRD 1970 . . . . . . . . . . . . . . . . . . . . . . 107
8.4
Fiktive Einkommen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
. . . . . . . . . . . . . . . . . . .
44
. . . . . . . . . . . . . . . . . . . . . . . 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
ix
1 Grundlagen
1.1 Übersicht und Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie
- den Unterschied zwischen schlieÿender und beschreibender Statistik kennen;
- wissen, welche Rolle die Wahrscheinlichkeitstheorie spielt;
- die wichtigsten Grundbegrie der Statistik wie Grundgesamtheit, Stichprobe und
Merkmalsträger verstehen;
- die vier Arten von Merkmalen unterscheiden können;
- wissen, wie die Ergebnisse einer Befragung in einer Datenmatrix festgehalten werden.
1.2 Zum Begri Statistik
Statistik
geht auf das neulateinische Wort status zurück, dessen Bedeutungen Staat
und Zustand sind. Statistik betraf ursprünglich alle Daten, die der Verwaltung bei der
Entscheidungsndung behilich sein konnten, etwa Daten über die Bevölkerung (Geburten, Eheschlieÿungen und Todesfälle), Handel und Gewerbe sowie Ein- und Ausgaben
des Staates. Datensammlungen dieser Art werden heute als amtliche Statistik bezeichnet, wofür staatliche Organisationseinheiten wie etwa das Statistische Bundesamt zuständig sind. Inzwischen sammeln aber auch Unternehmen und andere Organisationen
Daten über Kunden, Mitarbeiter oder Geschäftspartner. Die erste Bedeutung des Begris Statistik ist also die Zusammenstellung von Zahlen und Daten über bestimmte
Gesamtheiten.
Weiterhin versteht man unter Statistik alle Methoden zur Analyse von variierenden
Eigenschaften von Objekten einer fest umrissenen Gesamtheit. Die Unterschiede bei
den Ausprägungen der Eigenschaften müssen dabei zumindest teilweise zufälliger Natur
sein. Dabei muss zunächst eine präzise Frage gestellt und in ein Modell verwandelt
werden. Danach erfolgt die Erhebung von Daten und deren Auswertung bezüglich der
Fragestellung.
Halten wir fest: Der Begri Statistik bezeichnet sowohl Datenbestände und deren
Erhebung wie Bevölkerungsstatistik als auch Methoden zur Untersuchung von Massenphänomenen, die unter Einuss des Zufalls entstanden sind, durch die Auswertung
bestehender oder extra zu diesem Zweck erhobener Daten.
1
1 Grundlagen
1.3 Wahrscheinlichkeitstheorie, beschreibende und
schlieÿende Statistik
In der Statistik, geht es um das Problem, Beobachtungen, die unter Einuss des Zufalls
entstanden sind, zu analysieren.
Die
beschreibende oder deskriptive Statistik
erfasst und bereitet Daten auf und verdich-
tet sie in Form von Tabellen, graphischen Darstellungen und Kennzahlen wie Mittelwert
und Varianz. Die beschreibende Statistik beschäftigt sich nur mit den vorliegenden Daten, daher beziehen sich alle Aussagen auch nur auf diese Daten.
Die
schlieÿende oder induktive Statistik
stellt Methoden zur Verfügung, die einen
Schluss von Teilerhebungen auf Grundgesamtheiten erlauben. Meinungsforschungsinstitute benötigen die schlieÿende Statistik, um die Ergebnisse von Umfragen auf die
Gesamtheit zu übertragen. Da statistische Schlüsse auf den Daten einer Stichprobe genannten Auswahl beruhen, sind Schlussfolgerungen auf die Gesamtheit möglicherweise
fehlerhaft. Zu einem Verfahren der schlieÿenden Statistik gehören Abschätzungen der
Fehler. Diese liefert die
Wahrscheinlichkeitstheorie ,
ein Spezialgebiet der Mathematik
zur Beschreibung zufallsabhängiger Vorgänge. Die Wahrscheinlichkeitsrechnung entstand
aus Untersuchungen von Glücksspielen und basierte zunächst auf rein kombinatorischen
Methoden. Die moderne Wahrscheinlichkeitstheorie beruht auf einem für Nichtmathematiker kaum verständlichen axiomatischen Regelwerk des russischen Mathematikers
Kolmogorov.
1.4 Gliederung einer statistischen Untersuchung
Eine statistische Untersuchung besteht aus mehreren Schritten.
(1)
Festlegung der Fragestellung und der Grundgesamtheit
Statistische Untersuchungen sollen Vermutungen bestätigen oder widerlegen, daher
müssen zunächst die Objekte der Untersuchung genau festgelegt werden. Diese Objekte, z.B. die Wahlberechtigten zur Bundestagswahl 2009, bilden die so genannte
Grundgesamtheit .
(2)
Voll- oder Teilerhebung
Vollerhebung werden alle Objekte der Grundgesamtheit untersucht, bei einer Teilerhebung dagegen nur ein Teil der Grundgesamtheit, eine so genannte Stichprobe . Vollerhebungen sind bei groÿen Grundgesamtheiten oft aus Kostengründen
Bei einer
nicht sinnvoll, manchmal sogar prinzipiell unmöglich. Bei einer Teilerhebung hat
die richtige Auswahl der Stichprobe eine groÿe Bedeutung für die Übertragung der
gewonnenen Ergebnisse auf die Grundgesamtheit, im Beispiel der Bundestagswahl
muss eine Teilerhebung alle gesellschaftlichen Strömungen der wahlberechtigten Bevölkerung widerspiegeln. Man kann daher die Stichprobe bewusst nach bestimmten
Kriterien aussuchen, oder aber die Auswahl dem Zufall überlassen. Eine hinreichend
groÿe Zufallsstichprobe wird in der Regel durchaus repräsentativ für die Grundgesamtheit sein.
2
1.5 Statistische Grundbegrie
(3)
Datenerhebung
Hat man Grundgesamtheit und Stichprobe gewählt, stellt sich das Problem der Datenerhebung. Man kann Daten durch
Beobachtung
und durch
Befragung
gewinnen.
Daten können durch schriftliche oder mündliche Befragung erhoben werden, wobei
die mündliche Befragung persönlich oder über Telefon erfolgen kann. Die Auswahl
sollte sich danach richten, was am besten für das Ziel der Untersuchung geeignet ist.
(4)
Die Datenaufbereitung und Datendarstellung
Zunächst werden fehlerhafte Daten bereinigt und dann in einer Datenbank erfasst
und von geeigneten Programmen wie SAS oder SPSS ausgewertet und dargestellt,
etwa in Form von Tabellen, Diagrammen und Kennzahlen, also mit Verfahren der
beschreibenden Statistik.
(5)
Datenanalyse
Bei der Auswertung werden Methoden der schlieÿenden Statistik eingesetzt. Die
schlieÿende Statistik ist stark mathematisch orientiert und beschäftigt sich damit,
welche Schlüsse von einer Stichprobe auf die Grundgesamtheit möglich sind. Im
Beispiel der Bundestagswahl geht es dabei um die Frage, wie gut die Stimmanteile
der einzelnen Parteien durch die Stichprobe geschätzt werden. Die Angabe erfolgt
meist in der Form von so genannten Kondenzintervallen in der Form: mit eine
Wahrscheinlichkeit von 99 % wird die CDU einen Stimmanteil zwischen 33 % und
36 % haben.
1.4.1 Beispiele statistischer Untersuchungen
Ich gebe zur Verdeutlichung einige typische Fragen an, die mit statistischen Untersuchungen beantwortet werden können.
•
Berechnung der Anteils von derzeitigen Wählern der FDP.
Die Grundgesamtheit sind hier alle Wahlberechtigten in Deutschland. Da nur amtliche Stellen diese Grundgesamtheit kennen, ist diese Frage nur über eine Stichprobe zu beantworten, die Auswertung muss mir Methoden der schlieÿenden Statistik
erfolgen und wird somit fehlerhaft sein.
•
Wohnungszählung in Deutschland im Rahmen der Volkszählung 2011.
Die Grundgesamtheit sind hier alle Gebäude in Deutschland. Da alle Eigentümer
befragt werden und auskunftspichtig sind, liegt eine Vollerhebung vor.
•
Bestimmung des Anteils fehlerhafter Glühbirnen an einem Produktionsstandort.
Auch hier kann man nur eine Teilerhebung durchführen, es sei denn, die Glühbirnen
werden innerhalb der Produktion sofort getestet.
1.5 Statistische Grundbegrie
Zur Beschreibung statistischer Untersuchungen werden folgende Begrie benutzt:
3
1 Grundlagen
•
Statistische Einheit oder Merkmalsträger
Dieser Begri beinhaltet Personen oder Gegenstände, aber auch Ereignisse wie
Geburten oder Sterbefälle.
•
Grundgesamtheit
So wird die Menge der statistischen Einheiten genannt.
•
Bestandsmasse
Besitzen die statistischen Einheiten der Grundgesamtheit einen längeren Bestand,
so spricht man von einer Bestandsmasse. Die Erfassung erfolgt zu einem bestimmten Zeitpunkt. Der Wohnungsbestand und die Einwohner einer Stadt sind typische
Bestandsmassen, eine Befragung erfasst den Zustand in einem bestimmten Augenblick.
•
Bewegungsmasse oder Ereignismasse
Die statistischen Einheiten einer Ereignismasse sind Ereignisse von kurzer Lebensdauer wie Geburten, Todesfälle oder Störfälle in einem Kraftwerk. Wegen der kurzen Lebenszeit eines Ereignisses, werden die statistischen Einheiten einer Ereignismasse über einen längeren Zeitraum hinweg erfasst.
•
Merkmale
Die bei einer statistischen Einheit erhobenen Eigenschaften wie Geschlecht, Alter
oder Haarfarbe bei Personen, werden Merkmale genannt.
•
Merkmalsausprägungen
Die verschiedenen Werte, die ein Merkmal annehmen kann, werden Merkmalsausprägungen genannt. Beim Merkmal Haarfarbe beispielsweise gibt es die klassischen Ausprägungen wie blond, rot bzw. schwarzhaarig, das Geschlecht hat die
beiden Ausprägungen weiblich und männlich und die Ausprägungen des Merkmals
Alter einer Person sind die natürlichen Zahlen.
1.6 Bestands- und Bewegungsmassen
Bei den Gesamtheiten wird zwischen Bestandsmassen und Bewegungsmassen unterschieden. Bestandsmassen werden an einem
einer
Zeitspanne
Zeitpunkt, Bewegungsmassen dagegen innerhalb
erfasst. Oft korrespondieren die beiden Gesamtheiten miteinander. Die
Einwohner Heidelbergs werden am 1.1.2010 und dann wieder am 1.1.2011 gezählt, also
jeweils an einem festen Zeitpunkt, daher handelt es sich um Bestandsmassen. Die Stadtverwaltung erfasst auch alle in einem Jahr erfolgten An- und Abmeldungen, sowie alle
Geburten und Todesfälle. Das sind vier Bewegungsmassen, die den Unterschied zwischen
den beiden Bestandsmassen erklären:
Einw. 2011
4
= Einw.
2010
+ Geburten − Todesfälle + Abmeldungen − Anmeldungen
1.7 Einteilung von Merkmalen
1.7 Einteilung von Merkmalen
Je nach Fragestellung können Personen, Unternehmen oder ganze Länder statistische
Einheiten bilden. Wichtig ist eine räumlich, zeitlich und sachlich klar umrissene Fragestellung mit geeigneten Merkmalen. Merkmale spielen eine so bedeutende Rolle, dass die
statistischen Einheiten oft auch als
Merkmalsträger
bezeichnet werden. Weitere Beispiele
für Merkmale sind die Konfession mit den Ausprägungen wie RK (römisch katholisch),
EKD (evangelische Kirche Deutschlands) oder andere. Bei einer Wohnung gibt es
Merkmale wie Anzahl der Zimmer, Gröÿe im qm, Balkon usw. mit Ausprägungen wie
4, 80 qm und keiner.
Merkmale werden mit groÿen lateinischen Buchstaben wie etwa
X
bezeichnet, die
zugehörigen Merkmalsausprägungen mit kleinen, wobei zur Unterscheidung ein Index
verwendet wird, also
x 1 , x2 , x3 , . . . , x n .
Merkmale lassen sich je nach Typ der Werte ihrer Ausprägung in vier Klassen einteilen.
(1)
Nominale Merkmale
Nominal stammt vom lateinischen Wort nomen für Namen ab, weil die möglichen
Werte der Ausprägungen nur benannt können werden, es gibt keine Maÿeinheit. Dies
trit auf Merkmale wie Geschlecht mit den Ausprägungen w und m und auf
Konfession mit den erwähnten Ausprägungen RK, EKD und andere zu. Bei
der Erfassung werden nominale Merkmalsausprägungen meistens durch Zahlwerte
kodiert, etwa 0 für w und 1 für m, das ändert aber nichts an der prinzipiell
zahlenfernen Natur dieser Merkmale. Da man die Ausprägungen nur in Kategorien
einteilen kann, werden nominale Merkmale auch
kategoriell
genannt. Wenn es für
die Ausprägung eines nominalen Merkmals nur zwei mögliche Werte gibt, spricht
man von einem
dichotomen ,
sonst von einem
polytomen
Merkmal. Das Merkmal
Geschlecht ist somit dichotom, während das Merkmal Nationaltät polytom ist.
(2)
Ordinale Merkmale
Hier lassen sich die Ausprägungen in eine Rangfolge bringen, aber man kann für
die Werte und deren Abstände untereinander kein Maÿ angeben. Das trit z.B. auf
Schulnoten zu, sehr gut ist besser als gut, gut besser als befriedigend, aber man
kann nicht sagen, dass die Noten sehr gut und gut denselben Abstand wie die Noten
gut und befriedigend haben. Auch die Werte ordinal skalierter Merkmale werden zur
besseren Auswertung mit Zahlen codiert.
(3)
Metrische Merkmale
Sind bei einem Merkmal die Ausprägungen Zahlen mit sinnvollen Einheiten, so
spricht man von einem metrischen Merkmal. Hier können die Abstände zwischen
den Werten sinnvoll bestimmt werden. Beispiele sind die Merkmale Gröÿe, Gewicht
und Alter einer Person. Metrische Merkmale werden auch
kardinal
genannt. Metri-
sche Merkmale werden noch weiter unterteilt, und zwar in diskret und stetig. Das
Gewicht einer Person ist ein stetiges metrisches Merkmal, da die Werte stetig über
ein ganzes Intervall verteilt sind. Dagegen hat das Merkmal Anzahl der Kinder nur
endlich viele Werte, was man als diskret bezeichnet.
5
1 Grundlagen
Die vier Merkmalsklassen sind also nominal, ordinal, metrisch diskret und metrisch stetig, wobei statt nominal auch kategoriell und statt metrisch auch kardinal verwendet
qualitatativ
zusammengefasst, die beiden metrischen Merkmale werden dagegen quantitativ genannt.
werden. Nominale und ordinale Merkmale werden unter dem Oberbegri als
Fassen wir zusammen:
Sie müssen Merkmale also zunächst in qualitativ oder quantitativ einteilen und danach
entscheiden, ob sich ein als qualitativ erkanntes Merkmal ordnen lässt, dann wird es ordinal und sonst nominal genannt. Bei einem quantitativen Merkmal ist zu untersuchen
ob nur endlich oder abzählbar unendlich viele Werte auftreten, dann spricht man von
einem diskreten metrischen Merkmal. Liegen die Werte stetig in einem ganzen Intervall
verteilt, spricht man von einem stetigen metrischen Merkmal. Metrische Merkmale werden oft auch kardinale Merkmale genannt und nominale Merkmale werden manchmal
als kategoriell bezeichnet.
Entscheidend ist, die wesentlichen Qualitätsunterschiede der Merkmalskategorien und
deren Konsequenzen zu kennen: Bei metrischen Merkmalen können Abstände quantiziert werden, was bei ordinalen und nominalen Merkmalen nicht der Fall ist, während bei
ordinalen Merkmalen immerhin noch eine natürliche Rangfolge unter den Merkmalswerten existiert. Diese Unterschiede haben Konsequenzen u.a. hinsichtlich der Möglichkeit
der Berechnung von Mittelwerten, aber auch anderer statistischer Maÿzahlen und Verfahren. Mittelwerte sowie andere statistische Maÿzahlen und deren Anwendbarkeit bei
den drei Merkmalskategorien werden noch ausführlich behandelt.
Abschlieÿend noch einige Beispiele. Geschlecht, Haarfarbe und Nationalität sind alles nominale Merkmale. Schulnoten, die Vergabe von Sternen, etwa 1 bis 5, an Hotels
oder die Einteilung der Sympathie zu Politikern in die Ränge Mag ich, Na ja und
Eher nicht sind ordinale Merkmale. Die folgenden Merkmale sind diskret und metrisch: Zahl der Eheschlieÿungen, Einwohnerzahl von Darmstadt, Anzahl von Studenten
der Hochschule Darmstadt. Körpergröÿe und Gewicht einer Person sind stetige metrische
Merkmale, deren mögliche Werte z.B. 1,80 m und 78,44 kg sein können.
1.8 Messen und Skalenniveaus
Dieser Abschnitt ist zunächst nur für den hartgesottenen Leser.
Den Ausprägungen eines Merkmals müssen bestimmte Werte zugeordnet werden. Die
Wahl muss dabei so getroen werden, dass die Werte strukturtreu sind, sodass die Werte
die realen Unterschiede auch korrekt wiedergeben. Das sei am Beispiel des Merkmals
Religionszugehörigkeit verdeutlicht. Im Jahr 1950 waren in Deutschland die drei Werte
evangelisch, römisch katholisch und andere oder keine ausreichend, während diese
Einteilung heute sicher nicht mehr strukturtreu ist, es sei denn, dass es nur um die
Abführung der Kirchensteuer geht.
Die Ausprägungen eines Merkmals müssen messbar sein und einem so genannten
lenniveau
Ska-
zugeordnet werden können. Obwohl es unzählige Merkmale gibt, werden nur
vier Skalenniveaus benötigt und diese decken sich auch noch weitgehend mit der Einteilung der Merkmale. Jedem Skalenniveau entsprechen bestimmte Relationen, in der je
6
1.9 Fragebögen
zwei Messwerte zueinander stehen.
Ich gebe jetzt die vier Skalenniveaus und ihre denierende Relation an.
(1)
Nominalskala
Die Beziehung besteht in der Feststellung, ob zwei Messwerte gleich sind oder nicht,
weitere Unterscheidungen sind nicht möglich. Die Nominalskala passt daher genau
zu den nominalen Merkmalen wie Geschlecht oder Familienstand.
(2)
Ordinalskala
Bei einer Ordinalskala lassen sich ebenfalls je zwei Messwerte auf Gleichheit untersuchen, aber zusätzlich ist ein Gröÿenvergleich möglich, die Messwerte lassen sich
anordnen, aber man kann keine Abstände zwischen den Messwerten angeben. Die
Merkmale mit einer Ordinalskala sind also genau die ordinalen Merkmale.
(3)
Intervallskala
Bei einer Intervallskala ist der Abstand zwischen je zwei Messwerten deniert. Streng
genommen ist das keine Relation, aber eine eindeutige Festlegung des Begris Intervallskala. Ein Abstand von 0 bedeutet Gleichheit, ein positiver Abstand entspricht
der Beziehung Gröÿer, eine Intervallskala ist somit immer auch eine Ordinalskala.
Intervallskalen gelten für metrische Merkmale, wofür Abstände zwischen den Ausprägungen aber nicht notwendig Verhältnisse gebildet werden können. Beispiel von
Merkmalen mit einer Intervallskala sind die Temperatur, die Uhrzeit, das Datum sowie Längen- und Breitengrade von Orten auf der Erde. In jedem Fall ist der Abstand
zwischen zwei Messwerten genau deniert, aber es können keine Verhältnisse gebildet werden. Mittag ist genau zwei Stunden vor 10:00, aber nicht um 20 % später, so
wenig wie Rom 12 % südlicher als München liegt.
(4)
Verhaltnisskala (Ratioskala)
Bei dieser Skala können zusätzlich zu den Abständen auch die Verhältnisse von Messwerten gebildet werden. Diese Messwerte besitzen einen natürlichen Nullpunkt. Beispiele von Merkmalen mit Verhältnisskala sind das Gewicht und die Gröÿe oder das
Vermögen. Man kann hier Aussagen treen wie, Am Nachmittag kommen doppelt
so viel Studenten in die Vorlesung wie am Morgen oder Mein Elefant nimmt pro
Jahr 5 % zu.
Die vier Skalenniveaus sind also geordnet, d.h. jede höhere Skala schlieÿt die niedrigeren Skalen ein. Verhältnisskala und Intervallskala werden auch als metrische Skalen
bezeichnet; eine Vielzahl von statistischen Berechnungen benötigen metrisch skalierte
Merkmale, um sie sinnvoll anwenden zu können.
1.9 Fragebögen
Die Erhebung basiert in der Regel auf Fragen, die dem Untersuchungsziel angepasst
sind. Die einzelnen Fragen werden zu einem
Fragebogen
zusammengefasst. Ein Dozent
befragt beispielsweise die Teilnehmer seines Kurses nach Geschlecht, Alter, Hobbies und
7
1 Grundlagen
Schulabschluss. Die Hobbies werden auf Sport und Reisen begrenzt und bilden eine so
genannte
Mehrfachfrage . In diesem Fall wird jedem Hobby ein eigenes Merkmal zugeord-
net, mit den zulässigen Antworten ja und nein. Abschlieÿend soll jeder Teilnehmer
mit eigenen Worten die Mensa bewerten.
Man unterscheidet oene und geschlossene Fragen. Bei
geschlossenen Fragen
muss
eine Antwort aus einer Liste oder einem Zahlenbereich ausgewählt werden, das trit auf
die Fragen nach Geschlecht, Alter, Schulabschluss und den Hobbies zu. Die Bewertung
der Mensa ist eine
oene Frage , die sicherlich zu sehr unterschiedlichen Antworten führt
und deshalb statistisch schwierig auszuwerten ist.
1.10 Die Datenmatrix
Die ausgefüllten Fragebögen werden in Form einer Tabelle zusammengefasst, der so
genannten
Datenmatrix .
Die Tabelle 1.1 zeigt die zu den erwähnten Fragen erstellte
Datenmatrix.
Tabelle 1.1: Eine Datenmatrix
ID
X (Sex)
V (Alter) Y1 (Sport) Y2 (Reisen) Z (Schulabschluss)
1
1 männlich
27
1 Ja
1 Ja
3 Mittlere Reife
2
0 weiblich
54
1
1
3
3
1
34
1
0 Nein
4 Abitur
4
0
16
0 Nein
1
2 Hauptschule
5
0
15
0
1
1 nichts
In einer Zeile stehen die Antworten eines Befragten, also einer statistischen Einheit
bzw. eines Merkmalsträgers, der durch eine eindeutige ID zu identizieren ist, In jeder Spalte sind die Werte der Merkmale zu nden. Jedem Merkmal wird eine Variable
zugeordnet, hier das nominale Merkmal
Z
X
für das Geschlecht, das ordinale Merkmal
für den Schulabschluss und das metrische Merkmal
Merkmale
Y1
und
Y2
V
für das Alter. Die nominalen
sind Teile einer , hier nach dem Hobby, worauf der gemeinsame
Buchstabe Y hinweist. Die Werte der Variablen
Y1
und
Y2
sind ja oder nein, also
handelt es sich um dichotome Merkmale. Die Rohdaten einer Befragung werden meist
auch für qualitative Merkmale durch Zahlen codiert, hier etwa 0 für weiblich und 1 für
männlich. Oft zeigt man diese Codierung beim ersten Auftreten in der Datenmatrix
an. Trotz der zahlenmäÿigen Erfassung sollte klar sein, dass das arithmetische Mittel
des Geschlechts der Merkmalsträger nicht 0,4 ist.
8
1.11 Aufgaben
1.11 Aufgaben
1.) Eine Firma der Metallverarbeitung fasst die wichtigsten Daten über alle Mitarbeiter
in einer Datenmatrix zusammen, deren Felder das Geschlecht, die Abteilung, das
Geburtsjahr sowie Tarifgruppe und Gehalt sind.
a) Was sind hier die statistische Gesamtheit und die statistische Einheiten?
b) Welcher Art ist die Erhebung?
c) Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese?
d) Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern
an.
2.) Eine Hochschule befragt 100 zufällig ausgewählte Studenten nach Geschlecht, Nationalität, Alter, Schulbildung und Fachbereich.
a) Was sind hier die statistische Gesamtheit und die statistische Einheiten?
b) Welcher Art ist die Erhebung?
c) Welcher Art sind die oben erwähnten Merkmale und welche möglichen Ausprägungen haben diese?
d) Geben Sie die Datenmatrix mit den Werten von zwei ktiven Merkmalsträgern
an.
3.) Zeigen Sie am Beispiel der in Deutschland zugelassenen PKW den Zusammenhang
zwischen Bestands- und Bewegungsmassen.
9
2 Darstellung univariater Daten
2.1 Übersicht und Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie
- wissen wie man die Werte eines Merkmals durch eine Häugkeitstabelle darstellt;
- wissen wie man die Häugkeitsverteilung durch ein Stabdiagramm veranschaulicht;
- wissen wie die empirische Verteilungsfunktion deniert ist;
2.2 Die vier Grundformen von Datensätzen
Bei der univariaten Datenanalyse verwendet man vier verschiedene, aber eng verwandte
Listen von Daten.
(1)
Urliste
Die Daten einer Erhebung werden in einer Datenmatrix festgehalten, bei der eine
Zeile den vollständigen Datensatz einer statistischen Einheit, also eines Merkmalsträgers, beschreibt. In den Spalten stehen die Werte der einzelnen Merkmale. Bei
der univariaten Datenauswertung wird nur ein Merkmal allein ausgewertet. Bei einer
Grundgesamtheit mit
n
Merkmalsträgern besteht eine Spalte somit aus einer Folge
x1 , x2 , . . . , xn ,
wobei
als
(2)
xi die Merkmalsausprägung des i-ten Merkmalsträgers ist. Diese Werte werden
Urliste
bezeichnet und stehen am Anfang jedes Verfahrens.
aufsteigend geordnete Urliste
Die Urliste ist unübersichtlich und wird deshalb der Gröÿe nach geordnet, um etwas
Licht ins Dunkel zu bringen, und zwar in der Regel in aufsteigender Ordnung
x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Die seltsame Bezeichnung
x(j)
ist in der beschreibenden Statistik für die Elemente
der aufsteigend geordneten Urliste üblich.
(3)
absteigend geordnete Urliste
Manchmal fängt die Ordnung auch beim gröÿten Einzelwert an und verläuft dann
11
2 Darstellung univariater Daten
absteigend. Auch hierfür haben sich die Statistiker eine seltsame Bezeichnung einfallen lassen
x(1) ≥ x(2) . . . ≥ x(n) .
Die Elemente der absteigend geordneten Liste werden mit
(4)
x(j)
bezeichnet,
Ausprägungen
Innerhalb einer Urliste treten in der Regel manche Werte mehrfach auf. Es gibt dann
nur
k
wirklich verschiedene Werte, die ich wie Handl mit
ai
bezeichne, der Gröÿe
nach anordne
a1 < a2 < a3 . . . < ak−1 < ak
und als
Ausprägungen
bezeichne.
Ich bezeichne mit n immer die Anzahl der Daten und mit k die Anzahl der Ausprägungen.
Nur wenn alle Werte verschieden sind, ist k = n, sonst ist k < n.
Beispiel 2.1.
9
Hier sind
6
7
Die folgende Liste zeigt die Studiendauer einer Gruppe von Studenten
10
n = 10
7
5
7
9
x4 = 10,
und
6
denn der vierte Wert der Urliste ist 10. Die nach
zunehmenden Werten geordnete Liste
5
6
6
6
7
7
7
6.
9
9
x(j)
ist
10.
Aus dieser ergibt sich durch Weglassen der Wiederholungen die Liste
aj
der Ausprägun-
gen
5
6
Somit sind
7
9
x(4) = 6
10
und
a4 = 9 ,
denn in der zunehmend geordneten Liste ist das vierte
Element 6 und in der Liste der Ausprägungen ist das vierte Element 9. Da es nur fünf
Ausprägungen gibt, ist
k = 5.
2.3 Absolute und relative Häugkeiten
Bei der Datenanalyse wird gezählt, wie viele Merkmalsträger
Man nennt diese Zahl die
absolute Häugkeit
ni
ai
hat.
der Ausprägung. Die absolute Häugkeit
allein ist wenig aussagekräftig, dazu ist der Bezug zur Anzahl
nötig, also die
die Ausprägung
relative Häugkeit
n
der Merkmalsträger
fi = ni /n.
In manchen Fällen liegt die Urliste der Daten nicht vor, weil bei der Datenerfassung bereits die möglichen Ausprägungen bekannt sind und nur noch die absoluten Häugkeiten
ausgezählt werden müssen. Die Paare
Da die absoluten Häugkeiten
ergeben, liegen die Werte der
12
fi
ni
(ai , ni )
werden als
zwischen
1
und
n
Häugkeitsliste
bezeichnet.
liegen und zusammengezählt
n
zwischen 0 und 1 und ihre Summe ist genau 1. Relative
2.4 Kumulierte absolute und relative Häugkeiten
Häugkeiten werden oft auch in Prozent angegeben, dafür müssen die Werte mit 100
multipliziert werden und die Summe ergibt 100.
Die Merkmale mit gleichem Wert bilden eine Gruppe, man spricht auch von
gruppier-
ten Daten . Die Anzahl von Gruppen werde ich immer mit k bezeichnen. Wenn alle Werte
k = n und x(j) = aj . Im Beispiel 2.1 gibt es k = 5
Gruppen mit den absoluten Häugkeiten n1 = 1, n2 = 3, n3 = 3, n3 = 2 sowie n5 = 1
und den relativen Häugkeiten f1 = 0, 1, f2 = 0, 3, f3 = 0, 3, f4 = 0, 2 und f5 = 0, 1. Die
absoluten Häugkeiten ni summieren sich zu n und die relativen Häugkeiten zu 1.
der Urliste verschieden sind, folgen
k
X
i=1
k
X
ni = n1 + n2 + · · · + nk = n
(2.1)
fi = f1 + f2 + · · · + fk = 1
(2.2)
i=1
2.4 Kumulierte absolute und relative Häugkeiten
Bei mindestens ordinalen Merkmalen sind die Ausprägungen
a1 , a2 , . . . , ak
der Gröÿe
nach geordnet. Deshalb ist eine stufenweise Ansammlung (Kumulation) bereits erreichter
Anteile möglich, um etwa bei den Ergebnissen einer Klassenarbeit, den Prozentsatz
von Schülern anzugeben, die mindestens eine vier erreicht haben. Sind
n1 , n2 , . . . , nk
die absoluten Häugkeiten der geordneten Merkmalsausprägungen, so werden die i-te
kumulierte absolute bzw. relative Häugkeit durch
Ni =
k
X
nj = n1 + n2 + · · · + ni
(2.3)
fj = f1 + f2 + · · · + fi
(2.4)
j=1
Fi =
k
X
j=1
berechnet.
Bei den Daten des Beispiels 2.1 ergeben sich folgende Werte für die kumulierten abso-
N1 = 1, N2 = 4, N3 = 7, N4 = 9 und N5 = 10 und entsprechend nach
Division dieser Werte durch n = 10 die kumulierten relativen Häugkeiten F1 = 0, 1,
F2 = 0, 4, F3 = 0, 7, F5 = 0, 9 und F5 = 1.
luten Häugkeiten
2.5 Häugkeitstabellen
Die Ausprägungen und deren absoluten und relativen Häugkeiten sowie die entsprechenden kumulierten Werte werden in einer Tabelle zusammengefasst, die man
keitstabelle
Häug-
nennt. Im Beispiel der Studiendauer ergibt sich die Häugkeitstabelle wie in
der Tabelle 2.1 dargestellt. Nach diesem Muster wird die Häugkeitstabelle eines jeden
mindestens ordinalen Merkmals aufgebaut.
13
2 Darstellung univariater Daten
Tabelle 2.1: Aufbau einer Häugkeitstabelle
i
ai
ni
Ni
fi
Fi
1
5
1
1
0,1
0,1
2
6
3
4
0,3
0,4
3
7
3
7
0,3
0,7
4
9
2
9
0,2
0,9
5
10
1
10
0,1
1
In der ersten Spalte steht der Index
Ausprägungen
ai ,
i
der jeweiligen Zeile, in der zweiten stehen die
in der dritten die absoluten Häugkeiten, in der vierten die kumu-
lierten absoluten Häugkeiten, in der fünften die relativen Häugkeiten, in der letzten
die kumulierten relativen Häugkeiten. Den kumulierten relativen Häugkeiten können
wir unter anderem entnehmen, dass die Studiendauer bei 90 Prozent der untersuchten
Studenten höchstens 9 Semester lang war.
2.6 Stab- Säulen- und Balkendiagramme
.
Absolute und relative Häugkeiten lassen sich durch Diagramme veranschaulichen. Bei
Stab- und Säulendiagrammen werden die Werte der Häugkeiten
ni
bzw.
fi
in Längen
von Stäben oder Höhen von Säulen umgerechnet und über den Werten von
ai
abge-
tragen. Deshalb kann man die Werte der Häugkeiten sehr gut vergleichen und sogar
ablesen. Die Stabdiagramme der absoluten und relativen Häugkeiten der Verteilung
der Häugkeitstabelle 2.1 zeigt die folgende Abbildung.
1
2
3
4
5
6
7
8
9
10
A B
i ai
1
2
3
4
5
5
6
7
9
10
C
ni
1
3
3
2
1
5 5
0 0,1
0 1
D
Ni
E
fi
F
Fi
1
4
7
9
10
0,1
0,3
0,3
0,2
0,1
0,1
0,4
0,7
0,9
1
G
H
I
J
K
L
M
N
fi
6
6
0 0,3
0
3
Q
R
S
ni
ai
4 5 6 7 8 9 10 11
7 7
0 0,3
0 3
P
Abs. Stabdiagramm
Rel. Stabdiagramm
0,3
0,2
0,1
0
O
3
2
1
0
9 9
0 0,2
0 2
ai
4 5 6 7 8 9 10 11
10 10
0 0,1
0
1
Abbildung 2.1: Stabdiagramme
Für eine Stabverteilung wird über jeder Ausprägung
Länge der relativen Häugkeit
14
fi
ai eine senkrechte Strecke mit der
(ai , 0)(ai , fi ).
nach oben abgetragen, also die Strecken
2.7 Empirische Verteilungsfunktion
Die Anfangs- und Endpunkte dieser
k
Strecken benden sich im Bereich B8:O9 des
abgebildeten Arbeitsblatts. Jeder Stab ist eine Punkt-Grak für sich, der erste Stab
wird durch den Bereich B8:C9 erzeugt, dann kommen die leeren Zellen D8:C9 und dann
folgen die Koordinaten des zweiten Stabs, usw. bis zu den Koordinaten des letzten Stabs.
Die Zeile 10 enthält die y-Werte für das Stabdiagramm der absoluten Häugkeiten.
Bei einem Balkendiagramm werden die Werte
Werte der
fi
ai
auf der y-Achse eingetragen und die
nach rechts, also waagrecht wie ein Balken.
2.7 Empirische Verteilungsfunktion
Bis jetzt wurden nur die Häugkeiten grasch dargestellt. Es gibt aber auch eine grasche Darstellung der kumulierten relativen Häugkeiten als Graph einer Funktion, der
sogenannten empirischen Verteilungsfunktion.
Diese ist nur für die Merkmalsausprägungen mindestens ordinaler Merkmale deniert.
Die
empirische Verteilungsfunktion F : R → [0, 1]
einer Urliste von
...,
xn
für jede reelle Zahl
leitet sich aus der Forderung ab, dass
F (x)
Anteil der Werte angibt, welche kleiner oder höchstens gleich
x
n
Werten
x
x1 , x2 ,
den relativen
sind; die Funktion ist
also für alle reellen Zahlen deniert und nicht nur für die eigentlichen Messwerte. Die
formale Denition der empirischen Verteilungsfunktion lautet
F (x) =
Anzahl der Daten
xi ≤ x
n
.
Die empirische Verteilungsfunktion gibt die Summe der relativen Häugkeiten aller Daten an, die kleiner oder gleich
x
sind, daher ist sie zwischen zwei benachbarten Daten
x1 ,
xn . Die Gröÿe des Sprunges am Wert xi ist die relative Häugkeit von xi .
Liegen n verschiedene Einzelbeobachtungen mit der aufsteigend geordneten Urliste
x(1) , x(2) , . . . , x(n) vor, so hat jeder Sprung die Höhe 1/n und die empirische Verteilungsfunktion zwischen x(i) und x(i+1) den Wert i/n.
konstant, hat also die Form einer Treppe. Die Sprungstellen sind gerade die Daten
x2 ,
...,
Wenn nicht alle Beobachtungen verschieden sind, wird die empirische Verteilungsfunktion über die Ausprägungen bestimmt. Da diese eine der Gröÿe nach geordnete Reihe
a1 < a2 < a3 . . . < ak−1 < ak
bilden, ist die empirische Verteilungsfunktion in jedem Intervall
und zwar mit dem Wert
tive Häugkeit
fi
Treppenfunktion
Fi−1
ai−1 ≤ x < ai konstant,
ai um die rela-
und springt an der nächsten Ausprägung
nach oben auf den neuen Wert
Fi .
Funktionen dieser Art werden als
bezeichnet. Damit ergibt sich für die empirische Verteilungsfunktion:


0,
F (x) = Fi ,


1,
wenn
wenn
wenn
x < a1 ;
ai ≤ x < ai+1 ,
x ≥ ak .
1 ≤ i ≤ k − 1;
Die empirische Verteilungsfunktion beginnt ihren langen Weg von
Ausprägung
a1
beim Wert 0, macht dann an jedem der
k
−∞
bis zur kleinsten
Messwerte einen Sprung nach
15
2 Darstellung univariater Daten
oben und erreicht am gröÿten Messwert
bis
ak
den Endwert 1, und verharrt auf diesem Wert
∞. Gezeichnet wird die empirische Verteilungsfunktion deshalb von einem Wert etwas
links vom kleinsten bis zu einem Wert etwas rechts von der gröÿten Ausprägung.
Die empirische Verteilungsfunktion des Merkmals
X
Anzahl der benötigten Semes-
ter ergibt sich aus der Häugkeitstabelle der Abbildung 2.1.


0,



0, 1,



0, 4,
F (x) =

0, 7,





0, 9,



1,
wenn
wenn
wenn
wenn
wenn
wenn
x < 5;
5 ≤ x < 6;
6 ≤ x < 7;
7 ≤ x < 9;
9 ≤ x < 10;
x ≥ 10.
Mit der empirischen Verteilungsfunktion kann man den Anteil
malsträger, deren Merkmalsausprägung im Intervall
(a, b]
f (a < X ≤ b)
der Merk-
liegt, bestimmen:
f (a < X ≤ b) = F (b) − F (a)
Der Anteil an Studenten, die länger als 6 und höchstens 9 Semester bis zum Abschluss
benötigten, ist also
F (9) − F (6) = 0, 9 − 0, 4 = 0, 5.
Den Graph der empirischen Verteilungsfunktion habe ich ebenfalls mit Excel erstellt.
A B
1 i ai
2 1 5
3 2 6
4 3 7
5 4 9
6 5 10
7
8
9 4 5
10 0 0
C
D
E
F
ni Ni fi Fi
1 1 0,1 0,1
3 4 0,3 0,4
3 7 0,3 0,7
2 9 0,2 0,9
1 10 0,1 1
G
H
I
6
0,1 0,1
K
L
M
N
O
P
Empirische Verteilungsfunktion
1
0,8
0,6
0,4
0,2
0
Fi
Q
R
5
6
7
9
10
0,1
0,4
0,7
0,9
1
ai
4
5
J
5
6 7
0,4 0,4
6
7
8
7 9
0,7 0,7
9
10
11
9 10
0,9 0,9
10 11
1 1
Abbildung 2.2: Empirische Verteilungsfunktion
In der Abbildung 2.2 ist der Graph dieser Funktion zu sehen. Die empirische Verteilungsfunktion ist rechtsstetig, d.h. die Treppenfunktion beginnt nach jedem Sprung
gleich am Anfang, also an der Stelle
ai
mit dem neuen Wert
Fi . Man deutet dies grasch
mit einer Klammer oder wie in der Abbildung mit einer Markierung am Anfang der
Treppenstufen an. Formal bedeutet die Rechtsstetigkeit für
1≤i≤k
F (ai ) = lim F (ai + ε),
ε→0+
wobei hier nur
ε > 0 erlaubt ist, da die Annäherung von rechts erfolgt. An allen anderen
Punkten ist die Funktion ohnehin stetig.
16
2.8 Der Sonderfall nominaler Merkmale
Für die empirische Verteilungsfunktion
rechte Strecken
F (x)
müssen also für
1 ≤ i ≤ k
die waag-
(ai , Fi )(ai+1 , Fi ) eingezeichnet werden. Vor dem kleinsten Wert a1 ist
0, nach dem gröÿten Wert ak konstant 1. Ich habe die Koordina-
die Funktion konstant
ten der jeweiligen Anfangs- und Endpunkte der Treppenstufen im Bereich A9:Q10 des
Excel-Arbeitsblatts von Abbildung 2.2 aufgeführt. Auch hier ist jede Stufe der Treppenfunktion eine Punktgrak. Die Markierungen am Anfang der Treppen werden ebenfalls
als Punktgrak erzeugt, die zugehörigen Koordinaten stehen im Bereich R1:S5.
Bemerkung 2.1. Der Begri empirisch bezieht sich immer auf Erfahrungen, Messungen
oder Beobachtungen und wird oft im Gegensatz zum Begri theoretisch verwendet. Empirische Verteilungsfunktionen basieren auf beobachteten Daten, während theoretische
Verteilungsfunktionen von einem Modell abgeleitet sind. Für weitere Auskünfte über
den Unterschied zwischen theoretischen und empirischen Verteilungsfunktionen wenden
Sie sich an den Hütchenspieler ihres Vertrauens oder lesen dessen Allgemeine Geschäftsbedingungen.
2.8 Der Sonderfall nominaler Merkmale
Nominale Merkmale haben keine natürliche Rangordnung, man verwendet für die Anordnung die vorgenommene Kodierung oder eine Anordnung nach dem Alphabet, trotzdem
ist keine Anhäufung möglich, daher entfallen in der Häugkeitstabelle die beiden Spalten
für
Ni
und
Fi .
Beispiel 2.2.
Seit 1930 werden alle vier Jahre mit Ausnahme von 1942 und 1946 Fuÿ-
ballweltmeisterschaften in wechselnden Ländern ausgetragen. Bisher gab es nur 9 Weltmeister und zwar in alphabetischer Reihenfolge Argentinien, Brasilien, Deutschland,
England, Frankreich, Italien, Spanien und Uruguay. Die folgende Tabelle zeigt die Anfangsbuchstaben der Weltmeisternationen und die verkürzte Jahreszahl ihres Triumphs.
Diese Datensammlung ist die Urliste, die in einer Datenmatrix eine Spalte wäre, hier
Tabelle 2.2: Liste der Weltmeister im Fuÿball
30
34
38
50
54
58
62
66
70
74
78
82
86
90
94
98
02
06
10
U
I
I
U
D
B
B
E
B
D
A
I
A
D
B
F
B
I
S
aber aus Platzgründen in einer Zeile steht. Ich fasse die einmaligen Weltmeister England,
Frankreich und Spanien zum Rest zusammen.
Die ungeordnete und die in alphabetischer Reihenfolge der Anfangsbuchstaben geordnete Urliste sowie die Ausprägungen sind dann
U I I U D B B R B D A I A D B F B I R
A A B B B B B D D D I I I I R R R U U
A B D I R U
17
2 Darstellung univariater Daten
Somit sind
x3 = I , x(3) = B und a3 = D, denn der Wert des dritten Merkmals der Urliste
ist I, der dritte Wert der geordneten Urliste ist B und die dritte Ausprägung ist
D. Weiterhin sind
und
n6 = 2.
n = 19, k = 6
sowie
n1 = 2, n2 = 5, n3 = 3, n4 = 4, n5 = 3
Die Ausprägungen und ihre Häugkeiten ergeben sich aus der geordneten
Urliste. Die zugehörige Häugkeitstabelle ist in Abbildung 2.3 zu sehen, wobei ich die
Ländernamen durch drei Buchstaben kodiert habe.
1
2
3
4
5
6
7
A
B
C
i
1
2
3
4
5
6
ai
Arg
Bra
Deu
Ita
Uru
Rst
ni
2
5
3
4
2
3
D
E
fi
6
10,53% # 5
4
26,32% W 3
15,79% M 2
1
21,05%
0
10,53%
15,79%
F
G
Arg Bra Deu Ita
Land
Uru Rst
Abbildung 2.3: Häugkeitstabelle und Säulendiagramm
Hier sind
a2 = Bra, n2 = 5
und
f2 = 5/19 = 26, 32 %.
Das Säulendiagramm der Ver-
teilung der Weltmeister ist in der Abbildung 2.3 zu sehen, wobei ich hier absolute Zahlen
verwendet habe. Die Ergebnisse einer Wahl zum Bundestag werden dagegen besser mit
relativen Häugkeiten dargeboten. Bei nominalen Merkmalen sind Säulen- und Balkendiagramme meist die richtige Wahl. Die Presse verwendet sehr gerne
Kreisdiagramme ,
dafür müssen die Anteile in Flächeninhalte von Kreissektoren umgerechnet werden, oder
man überlässt das Excel.
2.9 Aufgaben
1.) An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher
Art ist das beschriebene Merkmal und welche möglichen Ausprägungen gibt es? Berechnen Sie die Häugkeitstabelle und stellen dann die Daten als Säulendiagramm
dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?
18
3 Maÿzahlen einer Verteilung
3.1 Übersicht und Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie
- die Einteilung der Maÿzahlen in
Lagemaÿe, Streuungsmaÿe
und
Schiefemaÿe
ken-
nen;
- die Lagemaÿe Mittelwert, Modus und Median verstehen und berechnen können;
- die Streuungsmaÿe Varianz und Standardabweichung verstehen und berechnen
können;
- wissen, wie man Quantile deniert und berechnet;
- wissen, was ein Boxplot ist.
3.2 Denition und Einteilung
Die Verteilungen von Merkmalen lassen sich durch Tabellen und Diagramme ohne Informationsverlust darstellen. Durch einige treende Maÿzahlen will man die Information
bewusst verdichten, um spezische Eigenschaften zu betonen. Dies erleichtert die Vergleichbarkeit von Verteilungen. Man unterscheidet dabei zwischen
ungsmaÿen
und
Lagemaÿen , Streu-
Schiefemaÿen . Lagemaÿe geben an, wo sich die Zentren der Verteilung
benden, Streuungsmaÿe sind Indikatoren dafür, wie gedrängt oder verstreut sich die
Beobachtungen um die Lagemaÿe verteilen. Schiefemaÿe zeigen Abweichungen von der
Symmetrie und der so genannten Normalverteilung an. Diese werden hier nicht behandelt.
3.3 Modus
Die Merkmalsausprägung, die am häugsten vorkommt, wird
Modus
genannt, und kann
für jedes Messniveau bestimmt werden. Der Modus ist nicht immer eindeutig, da zwei
oder mehr Beobachtungen gleich oft auftreten können. Wenn sogar alle Werte verschieden sind, ist jeder davon auch ein Modus. Eine andere Bezeichnung für den Modus ist
Modalwert .
19
3 Maÿzahlen einer Verteilung
Betrachten wir die Noten einer Klausur, aufgeteilt nach Geschlecht und beginnen mit
(xi )
der Urliste
der Noten der sieben teilnehmenden Damen:
gut, ausreichend, befriedigend, gut, befriedigend, ausreichend, gut
(3.1)
Das Merkmal Note ist ordinal, der häugste Wert ist hier gut.
Besonders einfach wird die Bestimmung des Modus, wenn für die Verteilung bereits
eine Häugkeitstabelle vorliegt, der Modus ist dann in der Zeile mit dem gröÿten
ni
zu nden. Die Häugkeitstabelle 2.1 auf Seite 14 zeigt die Verteilung der Studiendauer
einer Gruppe von Studenten. Hier sind
a2 = 6
als auch
a3 = 7
n2 = n3 = 3
Modi. Bei der Häugkeitstabelle 2.2 auf Seite 17 mit den
Fuÿballweltmeistern ist der Modus eindeutig, da
somit ist
a2 = Bra(silien)
die gröÿten Werte, also sind sowohl
n2 = 5
ni
ist,
X,
den
gröÿer als alle anderen
der Modus.
3.4 Median
Der
Median
ist derjenige Merkmalswert eines mindestens ordinalen Merkmals
mindestens 50 Prozent aller Merkmalswerte einer Stichprobe vom Umfang
n unterschrei-
ten oder höchstens erreichen und den mindestens 50 Prozent aller Merkmalswerte überschreiten oder zumindest erreichen. Der Median wird mit dem Symbol
Der Median wird manchmal auch Zentralwert genannt und mit
Z
x0,5
bezeichnet.
bezeichnet.
Ordinale Daten lassen sich der Gröÿe nach ordnen, bei den Noten der Studentinnen
ergibt sich dann die geordnete Urliste
(x(i) )
gut, gut, gut, befriedigend, befriedigend, ausreichend, ausreichend
Ist die Anzahl
x0,5 .
n
der Beobachtungen ungerade, so ist der Wert
x((n+1)/2)
(3.2)
der Median
Bei den sieben Noten der Studentinnen mit der Urliste von 3.1 ist somit der vierte
Wert
x(4)
Schwieriger wird der Fall,
nissen
x0,5 = befriedigend.
wenn n gerade ist, wie
der Median, also ist
(x(i) )
bei den bereits geordneten Ergeb-
der Studenten:
sehr gut, sehr gut, sehr gut, gut, befriedigend, ausreichend.
(3.3)
Hier ist der Median nicht mehr eindeutig, denn sowohl die dritte als auch die vierte Note
erfüllen die an den Median gestellten Bedingungen, denn drei und damit genau 50 %
aller Werte sind kleiner oder höchstens gleich
oder gleich
x(3) .
x(3) = sehr
gut und vier Werte sind gröÿer
Dagegen sind vier Werte kleiner oder gleich
sind gröÿer oder gleich
x(4) =
gut und drei Werte
x(4) .
Halten wir als Ergebnis fest, dass bei mindestens ordinalen Merkmalen die Werte
zunächst geordnet werden. Der Median wird aus der geordneten Urliste
(x(i) )
wie folgt
gefunden:
x0,5
20
(
x((n+1)/2) ,
=
x(n/2) und x(1+n/2)
für
für
n
n
ungerade,
gerade.
(3.4)
3.4 Median
Ist die Anzahl
n
der Daten eine gerade Zahl, so ist der Median also nicht eindeutig.
Ist das Merkmal metrisch, wird für gerade Werte von
durch Mittelung von
x(n/2)
und
x0,5 =
x(1+n/2)
n die Eindeutigkeit des Medians
erzwungen. Es ergibt sich dann:
(
x((n+1)/2) ,
für
x(n/2) +x(1+n/2)
,
2
für
n
n
ungerade;
(3.5)
gerade
3.4.1 Eigenschaften des Medians
Der Median teilt die Merkmalsträger der Untersuchung in zwei gleich groÿe Gruppen, die
bezogen auf das untersuchte Merkmal besser und schlechter abschneiden. Der Median
einer Einkommens- oder Vermögensverteilung trennt die Merkmalsträger in zwei Hälften,
deren Einkommen bzw. Vermögen oberhalb oder unterhalb des Medians liegt.
Der Median hat eine Reihe von bemerkenswerten Eigenschaften, u.a. ist der Median
der Wert, der die Summe der Beträge der Abstände zu den Messwerten (x1 , x2 , . . . , xn )
minimiert, d.h. der Median erfüllt die Bedingung
x0,5 = min g(x) = min
x∈R
n
X
x∈R
|x − xi |
(3.6)
i=1
Hier werden natürlich metrische Merkmale vorausgesetzt. Diese Eigenschaft ist nicht
durch Dierentiation zu lösen, da die zu minimierende Funktion
g(x)
wegen der Be-
tragsstriche nicht dierenzierbar ist.
Beispiel 3.1.
Die Post hat neun Kunden in einer Straÿe, die täglich einmal Briefe
abgeben wollen. Die Standorte der Kunden liegen vom Anfang der Straÿe aus gemessen
200, 350, 140, 600, 800, 100, 260, 320, 1000
Meter entfernt. Die Straÿe liegt in einer Fuÿgängerzone, der mit der Einsammlung der
Briefe betraute Mitarbeiter darf sein Fahrzeug aber an jedem Ort abstellen, wohin die
Kunden gegen 16:00 die Briefe abliefern. An welchem Ort sollte dies geschehen, damit
die Summe der Wege der Kunden minimal wird?
Die geordnete Urliste lautet
100, 140, 200, 260, 320, 350, 600, 800, 1000
Der Median ist der fünfte Wert der geordneten Liste, also sollte der Fahrer sein Fahrzeug 320 m vom Anfang der Straÿe aus abstellen.
Eine weitere Eigenschaft des Medians ist seine Robustheit gegen extreme Werte, so
genannte
Ausreiÿer . Einige vereinzelte Langzeitstudenten ändern nichts am Median der
Studiendauer, können aber das arithmetische Mittel empndlich nach oben drücken.
21
3 Maÿzahlen einer Verteilung
3.5 Quantile
Der Median
x0,5
teilt die Beobachtungen in zwei gleich groÿe Teile. Man kann die ge-
ordnete Urliste nach demselben Prinzip für jede beliebige Zahl
0<p<1
durch einen
Quantil genannten und mit xp bezeichneten Wert aufteilen. Dabei sollen mindestens
100p Prozent der Beobachtungen kleiner oder gleich dem Quantil xp und mindestens
100(1 − p) Prozent der Beobachtungen gröÿer oder gleich dem Quantil xp sein. Da n
Werte vorliegen, ist x(np) der natürliche Kandidat für xp . Ist np ganzzahlig, so sind x(np)
und x(1+np) gleichwertig, daher wird in diesem Fall bei metrischen Merkmalen wieder
der Mittelwert von beiden genommen. Ist np nicht ganzzahlig, so nimmt man x(C(np))
für xp , wobei C(np) diejenige ganze Zahl bezeichnet, die aus Aufrunden nach oben aus
np entsteht. Es gilt also z.B. C(7, 2) = 8, C(9, 1) = 10, aber C(7) = 7. Das C steht
dabei für ceil, dem englischen Wort für Decke.
Das ergibt folgende Formel für metrische Merkmale:
(
x(C(np)) ,
xp =
0, 5 x(np) + x(1+np) ,
für
für
np
np
nicht ganzzahlig;
(3.7)
ganzzahlig;
Bei ordinalen Merkmalen ist eine Mittelung verboten. Somit deniert man hier
(
x(C(np)) ,
xp =
x(np) und x(1+np)
Der Median ist das zu
p = 0, 5
für
für
np nicht ganzzahlig;
n gerade.
(3.8)
gehörende Quantil und wird genauso berechnet wie
alle anderen Quantile und daher nicht mehr gesondert betrachtet.
Die Quantile
und
Q3
x0,25
und
x0,75
heiÿen
unteres
bzw.
oberes Quartil
und werden mit
Q1
bezeichnet. Der Median ist das mittlere Quartil und wird daher in diesem Zu-
sammenhang mit
Q2
bezeichnet. Durch die drei Quartile werden die Werte der Gröÿe
nach in vier gleich groÿe Abschnitte geteilt, die jeweils ein Viertel der Werte umfassen.
Durch Terzile werden die Werte der Gröÿe nach in drei gleich groÿe Abschnitte geteilt:
unteres, mittleres und oberes Drittel. Man benötigt dafür die Terzile
T1 = x1/3
und
T2 = x2/3 .
Beispiel 3.2. Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten im Kugelstoÿen mit der in [m] angegebenen Messreihe:
6,1
6,6
6,9
7,1
7,2
7,3
7,4
7,7
7,9
8,2
8,4
nicht ganzzahlig.
geordneten Urliste. Die drei Quartile sind somit:
Q1 = x0,25 = x(4) = 7, 1
Q2 = x0,5 = x(8) = x4 = 7, 7
Q3 = x0,75 = x(12) = x12 = 9, 1
22
10,3
10,5
11,4
Q1 , Q2 und Q3 sowie das erste Terzile T1 .
3, 25 = 15 · 0, 25 als auch 7, 5 = 15 · 0, 5 sowie 11, 25 = 15 · 0, 75
Deshalb ist Q1 der vierte, Q2 der achte und Q3 der zwölfte Wert der
Zu berechnen seien die drei Quartile
Hier sind sowohl
9,1
3.6 Median und Quantile aus einer Häugkeitstabelle
T1 = x1/3
Für das erste Terzil
wird zunächst
np = 15/3 = 5
berechnet. Diese Zahl ist
ganzzahlig, somit ist
T1 = 0, 5(x(5) + x(6) ) = 0, 5(7, 2 + 7, 3) = 7, 25.
Tatsächlich sind nun fünf Daten kleiner oder höchstens gleich
mindestens
x1/3
Beispiel 3.3.
1
4
x1/3
und zehn Daten
oder gröÿer.
Ein Barkeeper zählt die Anzahl von Cocktails seiner Gäste:
3
6
3
2
2
2
Zu berechnen seien die Quantile
1
4
Q1 , Q2
und
Q3
sowie
T1 .
Die zugehörige geordnete Urliste lautet
1
Für
1
2
2
Q1 = x0,25
2
3
3
4
muss zunächst
4
6
np = 10 · 0, 25 = 2, 5
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 3 ergibt. Deshalb ist
Q1
der dritte Wert der geordneten Urliste.
Für
Q3 = x0,75
muss zunächst
np = 10 · 0, 75 = 7, 5
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 8 ergibt. Deshalb ist
Q3
der achte Wert der geordneten Urliste.
Dagegen ist
5 = 10·0, 5 ganzzahlig, also ist der Median der Mittelwert aus dem fünften
und sechsten Wert. Die drei Quartile sind somit:
Q1 = x0,25 = x(3) = 2
Q2 = x0,5 = 0, 5(x(5) + x(6) ) = 0, 5(2 + 3) = 2, 5
Q3 = x0,75 = x(8) = 4
Für
T1 = x1/3
muss zunächst
np = 10 · 1/3 = 3, 3333
bestimmt werden. Diese Zahl ist
nicht ganzzahlig, also muss sie nach oben aufgerundet werden, was 4 ergibt. Deshalb ist
T1
der vierte Wert der geordneten Urliste, also
T1 = 2.
3.6 Median und Quantile aus einer Häugkeitstabelle
Oft wurde für die Daten bereits eine Häugkeitstabelle erstellt. Das Quantil
xp
wird
dann wie folgt bestimmt.
i mit Fi > p sowie Fi−1 < p, so ist die zugehörige Ausprägung ai das
xp . Gibt es dagegen eine Zeile i mit Fi > p sowie Fi−1 = p, so sind bei ordinalen
Merkmalen sowohl ai als auch ai−1 das Quantil xp . Bei metrischen Merkmalen wird der
Mittelwert von ai und ai−1 verwendet.
Gibt es eine Zeile
Quantil
Beispiel 3.4.
Die in 3.3 auf Seite 20 aufgelisteten Noten der Studenten ergeben die
Häugkeitstabelle
23
3 Maÿzahlen einer Verteilung
Tabelle 3.1: Notenverteilung Herren
i
ai (Note)
1
ni
fi
Fi
sehr gut
3
3/6
3/6
2
gut
1
1/6
4/6
3
befriedigend
1
1/6
5/6
4
ausreichend
1
1/6
1
p = 0, 5 und in der Häugkeitstabelle 3.1 gilt für i = 2 zum ersten Mal Fi > 0, 5, aber es ist Fi−1 = 0, 5, also sind
bei diesem ordinalen Merkmal sowohl die Ausprägung a2 =sehr gut als auch a1 =gut
Der Median ist nicht eindeutig, denn für den Median ist
der Median.
Q1 und Q2 . Das untere
x0,25 . Die erste Ausprägung mit Fi > p = 0, 25 bendet sich in
der ersten Zeile mit F1 = 1/2 und es ist F0 = 0 < 0, 25, also ist Q1 = a1 = sehr gut. Das
obere Quartil ist das Quantil x0,75 . Die erste Ausprägung mit Fi > p = 0, 75 ist in der
dritten Zeile mit F3 = 5/6 , und es ist F2 = 2/3 < 0, 75, also ist Q3 = a3 = befriedigend.
Eindeutig sind dagegen das untere und das obere Quartil
Quartil ist das Quantil
Beispiel 3.5.
Die Werte des Beispiels 3.3 auf Seite 23 stammen von einem metrischen
Merkmal und führen zu folgender Häugkeitstabelle:
Tabelle 3.2: Anzahl von Cocktails
i
ai
ni
fi
Fi
1
1
2
0,2
0,2
2
2
3
0,3
0,5
3
3
2
0,2
0,7
4
4
2
0,2
0,9
5
6
1
0,1
1
Hier berechnen sich die drei Quartile wie folgt
Q1 = x0,25 = a1 = 2
Q2 = x0,5 = 0, 5(a2 + a3 ) = 2, 5
Q3 = x0,75 = a4 = 4,
i = 2 ist das erste Mal Fi > 0, 25 und es
ist gleichzeitig F1 < 0, 25. Für den Median ist p = 0, 55 und für i = 3 gilt zum ersten Mal
Fi > p, aber gleichzeitig ist F2 = p = 0, 5, also muss für den Median der Mittelwert von
a2 und a3 gebildet werden. Die Begründung für das dritte Quartil überlasse ich Ihnen.
denn für das erste Quartil ist
24
p = 0, 25
und für
3.7 Boxplots
3.7 Boxplots
3.7.1 Spannweite und Interquartilsabstand
p = r/s, r = 1, 2, . . . , s − 1 in
s gleich groÿe Teile zerlegt werden. Besonders häug werden die Daten in s = 4 Teile zerlegt, die benötigten Quantile werden Quartile genannt und mit Q1 , Q2 und Q3
bezeichnet. Das Quartil Q2 ist der Median x0,5 , das so genannte untere Quartil Q1 entspricht dem Quantil x0,25 , das so genannte obere Quartil Q3 entspricht dem Quantil x0,75 .
Die Dierenz zwischen Q3 und Q1 wird Interquartilsabstand IQR (von der englischen
Bezeichnung interquartile range abgeleitet) genannt. Innerhalb des Intervalls [Q1 , Q3 ]
liegen 50 % der Daten. Die Dierenz zwischen dem gröÿten Wert x(n) und dem kleinsten
Wert x(1) wird Spannweite R genannt (von englisch range).
Bezeichnet man den kleinsten Wert x(1) mit Q0 und den gröÿten Wert x(n) mit Q4 , so
Jede angeordnete Datenreihe kann durch Quantile mit
ergibt sich
R = Q4 − Q0
IQR = Q3 − Q1
(3.9)
(3.10)
3.7.2 Prinzip der Boxplots
Ein
Boxplot
ist eine komprimierte graphische Darstellung eines Datensatzes, die von
Tukey (1977) eingeführt worden ist. Ein Boxplot besteht aus der eigentlichen Box und
zwei so genannten Zäunen (auch Antennen genannt), die an die Box anschlieÿen. Die Box
ist immer ein Rechteck, das durch das erste und dritte Quartil begrenzt und durch den
Median unterteilt wird, wobei der Median aber normalerweise nicht in der Mitte der Box
liegt. Die Box vermittelt einen Überblick über die mittleren 50 % der Beobachtungen
eines Datensatzes, während die Zäune (whiskers, adjacent values) das erste und letzte
Viertel der Verteilung veranschaulichen. Bei der einfachsten Form reichen die Zäune
gerade bis an den kleinsten bzw. gröÿten Wert heran.
Der Boxplot zum Beispiel 3.3 sieht dann so aus:
Abbildung 3.1: Einfacher Boxplot
Q0 = 1, der gröÿte Q4 = 6
Q1 = 2, Q2 = 2, 5 und Q3 = 4 berechnet.
Der kleinste Wert ist nämlich
3.5 bereits
und es wurden im Beispiel
Boxplots veranschaulichen also vier Bereiche mit je einem Viertel der Werte. Die Box
selber umfasst die mittlere Hälfte der Daten, bestimmt durch den Interquartilsabstand.
Die Box wird durch den Median in zwei in der Regel ungleich groÿe Teile geteilt. Die
Lage des Medians gibt Aufschluss über die Symmetrie. Liegt der Median ungefähr in
25
3 Maÿzahlen einer Verteilung
der Mitte der Box, so deutet dies auf eine symmetrische Verteilung hin. Bei einer rechtsschiefen Verteilung liegt der Median näher am unteren Quartil und bei einer linksschiefen
Verteilung näher am oberen Quartil.
3.7.3 Eine Variante des Boxplots
Bei der folgenden weit verbreiteten Variante des Boxplots werden nur die Zäune verändert, und zwar sind die Zäune durch diejenigen Beobachtungen festgelegt, die gerade
[Q1 −1, 5IQR, Q3 +1, 5IQR] liegen. Der untere Zaun beginnt
also beim kleinsten Z0 genannten Wert, der gröÿer oder gleich Q1 − 1, 5IQR ist und der
obere Zaun endet beim gröÿten Z4 genannten Wert, der kleiner oder gleich Q3 + 1, 5IQR
noch innerhalb des Bereichs
ist. Darüber hinaus liegende Beobachtungen gelten als mögliche Ausreiÿer und werden
einzeln durch ein bestimmtes Symbol wie ein Kreis oder ein Sternchen gekennzeichnet.
Beispiel 3.6.
Die in Meter gemessenen Weiten
X
im Speerwurf einer Gruppe von
Sportstudenten waren wie folgt:
35, 45, 50, 50, 51, 51, 51, 53, 54, 54, 55, 56, 56, 56, 57
57, 57, 58, 58, 60, 61, 61, 61, 62, 62, 62, 62, 65, 70, 75
Die Beobachtungen sind bereits geordnet, der Boxplot wird nach den Werten der folgenden Tabelle gezeichnet.
Tabelle 3.3: Benötigte Werte für den Boxplot
Q1
Q2
Q3
IQR
Q1 − 1, 5IQR
Q3 + 1, 5IQR
Z0
Z4
53
57
61
8
41
73
45
70
Überzeugen Sie sich selbst: Der Median
Q2
ist der Mittelwert des 15. und 16. Wertes,
also 57. Das untere Quartil ist der achte Wert, denn
30·0, 25 = 7, 5 und das obere Quartil
ist der 23. Wert, also 61. Somit ist der Interquartilsabstand 8 und das 1,5-fache davon
41 = Q1 − 1, 5IQR, also
gleich 73 = Q3 + 1, 5IQR,
12. Der untere Zaun beginnt beim kleinsten Wert gröÿer gleich
bei 45. Der obere Zaun endet beim gröÿten Wert kleiner
also bei 70. Verdächtig als Ausreiÿer sind lediglich die Werte 35 und 75. Der zugehörige
Boxplot sieht daher wie folgt aus:
Abbildung 3.2: Eine weitere Form des Boxplots
Die Box wird wie beim einfachen Boxplot durch
Q1 , Q2
und
Q3
festgelegt, aber die
Zäune nicht mehr durch den kleinsten und den gröÿten Wert, sondern durch
26
Z0
und
Z4 .
3.8 Das arithmetische Mittel
3.8 Das arithmetische Mittel
Das
arithmetische Mittel , auch als Mittelwert
bezeichnet, mittelt über alle Beobachtun-
gen. Daher muss das Merkmal metrisch sein. Es gilt dann
n
1X
x1 + x2 + · · · + xn
=
xi .
x̄ =
n
n i=1
Kennt man bereits die Ausprägungen
ai
(3.11)
mit ihren absoluten Häugkeiten
ni ,
so gilt
k
n1 a1 + n2 a2 + · · · + nk ak
1X
x̄ =
=
n i ai .
n
n i=1
Wegen
fi = ni /n
(3.12)
gilt auch
x̄ = f1 a1 + f2 a2 + · · · + fk ak =
k
X
f i ai .
(3.13)
i=1
Beispiel 3.7.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das erste
hat vier Mitarbeiter mit den Gehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im
zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im
Monat.
Im ersten Team sind alle
n=4
Werte verschieden, daher wird der Mittelwert nach
der Formel (3.11) berechnet
x̄ = (2.000 + 2.600 + 3.000 + 4.000)/4 = 11.600/4 = 2.900.
n = 5 Werte verschieden, sondern es sind a1 = 2.000
n2 = 2 sowie a3 = 6.000 und n3 = 1, daher wird der
In der zweiten Gruppe sind nicht alle
und
n1 = 2, a2 = 3.000
und
Mittelwert nach der Formel (3.12) berechnet
x̄ = (2 · 2.000 + 2 · 3.000 + 1 · 6.000)/5 = 16.000/5 = 3.200.
Beispiel 3.8.
Betrachten wir eine Altersverteilung einer Gruppe von
n = 13
junger
Menschen mit den bereits geordneten Werten
18, 18, 18, 19, 19, 19, 20, 21, 21, 21, 22, 22, 22
so gelten
18 + 18 + 18 + 19 + 19 + 19 + 20 + 21 + 21 + 21 + 22 + 22 + 22
260
=
= 20
13
13
3 · 18 + 3 · 19 + 20 + 3 · 21 + 3 · 22
260
x̄ =
=
= 20
13
13
3
3
1
3
3
260
x̄ =
· 18 +
· 19 +
· 20 +
· 21 +
· 22 =
= 20
13
13
13
13
13
13
x̄ =
27
3 Maÿzahlen einer Verteilung
3.8.1 Eigenschaften des arithmetischen Mittels
Da das arithmetische Mittel über alle Einzelwerte mittelt, ist die Summe der Abweichungen gleich 0, also
n
X
(xi − x̄) = 0
(3.14)
i=1
Gibt es umgekehrt eine Zahl
z,
die diese Bedingung erfüllt, so ist
z = x̄.
Man kann an
der Datenreihe der Altersverteilung damit sofort raten, dass 20 das arithmetische Mittel
ist, denn zu jeder Abweichung nach oben gibt es eine genau so groÿe Abweichung nach
unten.
Auch das arithmetisches Mittel erfüllt eine Minimumeigenschaft, es minimiert nämlich
die quadrierten Abstände zu den Beobachtungen, genauer es gilt
x̄ = min f (x) = min
x∈R
x∈R
n
X
(x − xi )2 .
(3.15)
i=1
Diese Eigenschaft ist sehr einfach mit Mitteln der Dierentialrechnung zu beweisen, denn
die zu minimierende Funktion
f (x)
ist dierenzierbar.
3.9 Streuungsmaÿe mit Bezug auf den Mittelwert
Lagemaÿe charakterisieren die Mitte einer Verteilung, Streuungsmaÿe sollen widerspiegeln, wie stark die Werte um das Zentrum verstreut sind. Bei geringer Streuung liegen
die einzelnen Werte überwiegend in der Nähe von Median und Mittelwert, bei groÿer
Streuung sind die durchschnittlichen Abweichungen vom Zentrum entsprechend groÿ.
Streuungsmaÿe nehmen also in der Regel Bezug auf ein Lagemaÿ. Zunächst wird als
Lagemaÿ das arithmetische Mittel verwendet. Als einfaches Streungsmaÿ bietet sich an,
die absoluten Abstände vom arithmetischen Mittel zu mitteln
dx̄ =
n
X
|xi − x̄|
(3.16)
i=1
Es gibt aber geeignetere Streuungsmaÿe.
3.9.1 Die Varianz
Ausdrücke mit Betragsstrichen sind nicht dierenzierbar, daher verwendet man für die
Messung von Variabilität lieber quadratische Abweichungen vom Mittelwert. Zunächst
führe ich folgende Bezeichnung ein:
QS(c) =
n
X
i=1
28
(xi − c)2 .
(3.17)
3.9 Streuungsmaÿe mit Bezug auf den Mittelwert
Die Bezeichnung QS steht für Quadratsumme. Der Wert von
Verschiebungssatz von Steiner
Es gilt folgende Beziehung, die
QS(c) =
n
X
(xi − c)2 =
i=1
n
X
c
ist zunächst beliebig.
genannt wird.
(xi − x̄)2 + n (x̄ − c)2 .
(3.18)
i=1
Daraus folgt, dass die Funktion
QS(c)
für
c = x̄
minimal wird.
Der Beweis dieser wichtigen Beziehung sei nun skizziert.
QS(c) =
=
n
X
2
(xi − c) =
i=1
n
X
n
X
([xi − x̄] + [x̄ − c])2
i=1
(xi − x̄)2 + 2(xi − x̄)(x̄ − c) + (x̄ − c)2
i=1
=
n
X
(xi − x̄)2 + n (x̄ − c)2 .
i=1
Dabei wurde die Beziehung
n
X
(xi − x̄) = 0
i=1
verwendet. Die mittlere quadratische Abweichung vom Mittelwert ist somit ein geeigne2
tes Streuungsmaÿ, das
genannt und mit σ bezeichnet wird.
Varianz
n
1X
(xi − x̄)2
σ = QS(x̄) =
n i=1
2
(3.19)
Die Varianz hat nur dann den Wert 0, wenn jede einzelne quadratische Dierenz verschwindet, also alle Datenwerte mit dem Mittelwert übereinstimmen und folglich konstant sind. Bei nicht konstanten Daten ist die Varianz immer positiv.
Setzt man im Verschiebungssatz von Steiner c
2
für die Varianz σ :
n
1X 2
2
x
σ =
n i=1 i
= 0, kommt man auf eine zweite Formel
− x̄2 .
(3.20)
Diese Formel ist bei Rechnungen mit der Hand oder einem Taschenrechner meist einfacher als die Formel (3.19).
Beispiel 3.9.
Seien noch einmal die Einkünfte des ersten IT-Teams betrachtet mit den
Werten von 2.000, 2.600, 3.000 und 4.000 Euro. Das arithmetische Mittel
11.600/4 = 2.900.
x̄ hat den Wert
Somit gilt:
(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2
4
= 530.000
2.0002 + 2.6002 + 3.0002 + 4.0002
σ2 =
− 2.9002 = 530.000
4
σ2 =
29
3 Maÿzahlen einer Verteilung
(a1 , a2 , . . . , ak ), k < n mit
Häugkeiten fi auf, so gelten:
Kennt man bereits die Ausprägungen
gkeiten
ni
bzw. mit den relativen
den absoluten Häu-
k
1X
σ =
ni (ai − x̄)2 ,
n i=1
2
k
X
2
σ =
fi (ai − x̄)2 ,
(3.21)
(3.22)
i=1
k
1X
ni a2i − x̄2 .
n i=1
σ2 =
Beispiel 3.10.
(3.23)
Betrachten wir dazu jetzt die Monatseinkünfte des zweiten Teams von
zweimal 2.000 und zweimal 3.000 sowie einmal 6.000 Euro:
2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2
= 2.160.000,
5
1
σ2 =
2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.160.000.
5
σ2 =
3.9.2 Stichprobenvarianz
Die Varianz wird verwendet, wenn das Merkmal einer Grundgesamtheit untersucht wird,
was in der beschreibenden Statistik sehr oft der Fall ist, da die Daten aus amtlichen
oder betrieblichen Vollerhebungen stammen. In der schlieÿenden Statistik stammen die
Daten in der Regel von einer Stichprobe. In diesem Fall dividiert man die Summe der
n, sondern durch n−1 und spricht
empirischen Varianz s2 . Somit besteht zwischen
quadrierten Abweichungen vom Mittelwert nicht durch
von der
Stichprobenvarianz
oder der
der Varianz und der Stichprobenvarianz der einfache Zusammenhang
s2 =
n
σ2.
n−1
(3.24)
Daraus ergeben sich folgende Formeln
n
1 X
s =
(xi − x̄)2
n − 1 i=1
2
(3.25)
n
1 X 2
n
s =
xi −
x̄2
n − 1 i=1
n−1
2
(3.26)
bzw. bei Kenntnis der Häugkeitsliste
k
s2 =
1 X
ni (ai − x̄)2
n − 1 i=1
(3.27)
k
1 X
n
s =
ni a2i −
x̄2 .
n − 1 i=1
n−1
2
30
(3.28)
3.9 Streuungsmaÿe mit Bezug auf den Mittelwert
Beim Team mit den Monatseinkünften von 2.000, 2.600, 3.000 und 4.000 Euro erhält
man also
4
4
s2 = σ 2 = · 530.000 = 706.666, 67
3
3
1
s2 =
(2.000 − 2.900)2 + (2.600 − 2.900)2 + (3.000 − 2.900)2 + (4.000 − 2.900)2
3
= 706.666, 67
4
1
s2 =
2.0002 + 2.6002 + 3.0002 + 4.0002 − 2.9002 = 706.666, 67.
3
3
Beim anderen Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000
sowie einmal 6.000 Euro, so kann die empirische Varianz wie folgt berechnet werden
5
5
s2 = σ 2 = · 2.160.000 = 2.700.000
4
4
1
s2 =
2 · (2.000 − 3.200)2 + 2 · (3.000 − 3.200)2 + (6.000 − 3.200)2 = 2.700.000
4
5
1
s2 =
2 · 2.0002 + 2 · 3.0002 + 6.0002 − 3.2002 = 2.700.000.
4
4
3.9.3 Die Standardabweichung
Varianz und empirische Varianz haben nicht die Maÿeinheiten der Beobachtungen selbst.
Daher wird die Quadratwurzel aus der Varianz bzw. der empirische Varianz gezogen. Die
somit erhaltenen Werte werden
chung s genannt.
Standardabweichung σ
Im Beispiel des ersten Teams ergibt sich
σ =
bzw.
empirische Standardabwei-
√
530.000 = 728, 01
Euro. Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen
√
s= √
706.666, 67 = 840, 63 Euro.
2.160.000 = 1.469, 69 Euro.
sich σ =
werden, also erhält man beim erstem Team
Im Beispiel des zweiten Teams ergibt
Für die
empirische Standardabweichung muss die Wurzel aus der empirischen Varianz gezogen
werden, also erhält man
s=
√
2.700.000 = 1.643, 17
Euro.
3.9.4 Der Variationskoezient
Die Standardabweichung ist ebenso wie die Spannweite und die mittleren absoluten
Abweichungen vom arithmetischen Mittel oder vom Median, ein Maÿ für die absolute
Streuung. Diese sind im Allgemeinen dimensionsbehaftete Maÿe, die von der Einheit
abhängen, in der ein Merkmal gemessen wird. Relative Streuungsmaÿe sind dagegen
dimensionslos. Ein Beispiel eines solchen relativen Maÿes ist der so genannte
koezient .
abweichung
Für ein metrisches Merkmal
σ
X
ist der Variationskoezient
mit arithmetischem Mittel
v
v=
x̄
Variations-
und Standard-
deniert durch
σ
.
x̄
(3.29)
31
3 Maÿzahlen einer Verteilung
Der Variationskoezient ist ein relatives Streuungsmaÿ, denn das absolute Streuungsmaÿ
σ
wird ins Verhältnis gesetzt zum arithmetische Mittel des Merkmals. Der Varia-
tionskoezient hat keine Einheit, da er der Quotient zweier Gröÿen gleicher Dimension
ist.
Beim ersten Team ergibt sich
v = σ/x̄ = 728, 01/2.900 = 0, 2510.
Bei dem Team mit den Monatseinkünften von zweimal 2.000 und zweimal 3.000 sowie
einmal 6.000 ergibt sich
v = σ/x̄ = 1.469, 69/3.200 = 0, 4593.
Betrachten wir die bei einem Wettkampf erbrachten Weiten von 15 Sportstudenten
im Kugelstoÿen mit der in [m] angegebenen Messreihe:
6, 1 6, 6 6, 9 7, 1 7, 2 7, 2 7, 4 7, 7 7, 9 8, 2 8, 4 9, 1 10, 3 10, 5 11, 4
Man erhält:
1
(6, 1 + 6, 6 + · · · + 11, 4) = 8, 13
15
1
σ 2 = (6, 12 + 6, 62 + · · · + 11, 42 ) − 8, 132 = 2, 24
15
p
σ = 2, 24 = 1, 496662955
σ
v = = 0, 184091384
x̄
2
s = (15/14)σ 2 = 2, 4
p
s = 2, 4 = 1, 549193338
x̄ =
3.10 Arbeitstabelle zur Berechnung
Der Mittelwert und die Varianz sowie die davon abgeleiteten Gröÿen lassen sich mit
Arbeitstabellen berechnen. Ich zeige dies ein letztes Mal an den Daten der Einkünfte der
beien IT-Teams. Im linken Tabellenteil werden die Daten des ersten Teams verwendet.
In den Zellen B2 bis B5 stehen die Daten, darunter deren Summe, die durch die Anzahl
n=4
der Daten geteilt wird und den Mittelwert
x̄
in der Zelle A8 ergibt. In der Spalte
C sehen Sie direkt die Quadrate der Daten, in der Zelle C6 dann deren Summe. Die
Varianz ergibt sich in der Zelle B8 durch Division dieser Summe durch
2
das Quadrat des Mittelwerts, also x̄ , abgezogen wird.
Für das zweite Team müssen die Ausprägungen
ai
n,
wovon dann
und deren Häugkeiten
ni
berück-
sichtigt werden, die entsprechenden Werte stehen im Bereich F2:G4. In den Zellen H2
2
bis H4 stehen die Produkte ni · ai und in den Zellen I2 bis I4 die Produkte ni · ai . Die
jeweiligen Summen benden sich in den Zellen H6 bzw. I6. Der Mittelwert x̄ steht in
der Zelle G8 und ergibt sich durch Division des Wertes der Zelle H6 durch
32
n = 5.
Die
3.11 Transformationseigenschaften der Maÿzahlen
A
1
2
3
4
5
6
7
8
9
10
B
i
1
2
3
4
xi
2.000
2.600
3.000
4.000
11.600
σ2
530.000
xquer
2900
2
s
s
706.666,6667 840,6347
C
D E
2
i
xi
4.000.000
6.760.000
9.000.000
16.000.000
35.760.000
F
ai
1 2000
2 3000
3 6000
σ
728,0110
v
0,2510
G
H
ni
2
2
1
5
xquer
3.200
s2
2.700.000
I
ni*ai
4.000
6.000
6.000
16.000
ni*ai2
8.000.000
18.000.000
36.000.000
62.000.000
σ2
2.160.000
σ
1.469,6938
s
1643,1677
v
0,4593
Abbildung 3.3: Arbeitstabelle für einige Maÿzahlen
Varianz steht in der Zelle H8 und ergibt sich durch Division des Wertes der Zelle G6
2
durch n = 5, wovon dann wieder x̄ abgezogen wird.
Schneller und sicherer kommen Sie mit den Excel-Funktionen zum Ziel, die ich später
vorstellen werde. Das gezeigte Schema ist für Rechnungen mit der Hand geeignet.
3.11 Transformationseigenschaften der Maÿzahlen
Oft werden die ursprünglichen Daten
(x1 , x2 , . . . , xn )
einer linearen Transformation un-
terworfen, d.h.
yi = a xi + b.
Durch diese Transformation ändern sich auch die Maÿzahlen und zwar gelten folgende
Beziehungen:
ȳ = a x̄ + b
y0.5 = a x0.5 + b
σy2 = a2 σx2
σy = |a| σx
(3.30)
(3.31)
(3.32)
(3.33)
Nehmen wir wieder das Team mit den Ausgangswerten von je zweimal 2.000 Euro bzw.
3.000 EURO und einmal 6.000 Euro als Beispiel. Der dankbare Chef erhöhe die Gehälter
um den Sockelbetrag von 200 Euro und um zusätzliche 5 Prozent. Dann gilt also:
yi = 1, 05 xi + 200.
33
3 Maÿzahlen einer Verteilung
Ohne Berechnung der Einzelwerte können wir somit folgende neue Lagemaÿe angeben:
ȳ = a x̄ + b = 1, 05 · 3.200 + 200 = 3.560
y0.5 = a x0.5 + b = 1, 05 · 3.000 + 200 = 3.350
σy2 = a2 σx2 = 1, 052 · 2.160.000 = 2.381.400
σy = a σx2 = 1, 05 · 1.469, 690 = 1.543, 18
3.12 Mittlere absolute Abstände
Die Streungsmaÿe Varianz und Standardabweichung beziehen sich auf das arithmetische
Mittel. Es gibt aber auch Streungsmaÿe, die als Lagemaÿ den Median verwende, und
zwar die gemittelten absoluten Abstände vom Median. Es ergibt sich dann
n
dx0,5
1X
=
|xi − x0,5 |
n i=1
(a1 , a2 , . . . , ak ), k < n
Häugkeit fi auf, so gelten
Kennt man bereits die Ausprägungen
gkeiten
ni
bzw. mit der relativen
(3.34)
mit den absoluten Häu-
k
dx0,5
1X
ni |ai − x0,5 | ,
=
n i=1
dx0,5 =
k
X
(3.35)
fi |ai − x0,5 | .
(3.36)
i=1
Beispiel 3.11.
Die IT-Abteilung eines Unternehmens besteht aus zwei Teams. Das
erste hat vier Mitarbeiter mit den Gehältern von 2.000, 2.600, 3.000 und 4.000 Euro. Im
zweiten verdienen je zwei Mitarbeiter 2.000 bzw. 3.000 und die Leiterin 6.000 Euro im
Monat.
Hier ist im ersten Team der Median der Mittelwert zwischen dem zweiten und drittem
Wert, also 2.800 Euro. Im zweiten Team ist der Median der dritte Wert, also 3.000 Euro.
Somit folgen die Werte
|2.000 − 2.800| + |2.600 − 2.800| + · |3.000 − 2.800| + · |4.000 − 2.800|
= 600;
4
2 · |2.000 − 3.000| + 2 · |3.000 − 3.000| + |6.000 − 3.000|
= 1.000
=
5
dx0,5 =
dx0,5
Die Werte der zweiten Gruppe sind stärker verstreut als in der ersten Gruppe.
3.13 Anforderungen an Maÿzahlen metrischer
Merkmale
Abschlieÿend sei kurz gestreift, welche allgemeinen Anforderungen an Maÿzahlen metrischer Merkmale gestellt werden. Der Ausgangspunkt ist der Datensatz
34
(x1 , . . . , xn ).
Bei
3.14 Abschlieÿendes Beispiel
metrischen Merkmalen wird eine Maÿzahl
m durch eine Abbildung ϕ : Rn → R wie folgt
festgelegt
m = ϕ(x1 , . . . , xn )
Bei Lagemaÿen sollte die Funktion
ϕ
(3.37)
die beiden Eigenschaften
ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ) + t,
ϕ(ax1 , ax2 , . . . , axn ) = aϕ(x1 , x2 , . . . , xn )
(3.38)
(3.39)
erfüllen. Wenn alle Daten um einen konstanten Wert verändert werden, soll auch das
Lagemaÿ sich entsprechend anpassen. Werden dagegen alle Daten mit einem Faktor
multipliziert, soll sich das auch auf das Lagemaÿ so auswirken.
Bei Streuungsmaÿen werden dagegen
ϕ(x1 , x2 , . . . , xn ) ≥ 0
ϕ(x1 + t, x2 + t, . . . , xn + t) = ϕ(x1 , x2 , . . . , xn ),
ϕ(ax1 , ax2 , . . . , axn ) = |a|p ϕ(x1 , x2 , . . . , xn ), p > 0
(3.40)
(3.41)
(3.42)
gefordert. Streuungsmaÿe müssen nichtnegativ und für nicht konstante Daten sogar positiv sein und dürfen sich bei einer Verschiebung der Daten nicht ändern, während die
Multiplikation mit einem Faktor das Streuungsmaÿ um eine Potenz
p des Betrags dieses
ϕ ste-
Faktors vergröÿert. Auÿerdem sollte bei allen Maÿzahlen die zugehörige Funktion
tig sein, damit kleine Änderungen bei den Daten auch nur kleine Änderungen bei den
Maÿzahlen nach sich ziehen.
3.14 Abschlieÿendes Beispiel
Beispiel 3.12.
Die folgende Urliste stammt von Frondel und gibt Auskunft über die
Körpergröÿen von 20 Teilnehmern eines Kurses in Statistik.
1,56, 2,05, 1,76, 1,68, 1,86, 1,71, 1,62, 1,83, 1,76, 1,83
1,75, 1,69, 1,91, 1,89, 1,83, 1,93, 1,71, 1,78, 1,71, 1,83
Es sollen nun die wichtigsten Kennzahlen berechnet werden. Für die Bestimmung der
Quantile wird die aufsteigend geordnete Urliste benötigt, sie lautet
1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76
1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93,
Hier sind sowohl
10 = 20 · 0, 5
als auch
5 = 20 · 0, 25
2,05
sowie
15 = 20 · 0, 75
ganzzahlig.
Deshalb ergibt sich für die Quartile:
x0,25 = Q1 = 0, 5(x(5) + x(6) ) = 0, 5(1, 71 + 1, 71) = 1, 71
x0,5 = Q2 = 0, 5(x(10) + x(11) ) = 0, 5(1, 76 + 1, 78) = 1, 77
x0,75 = Q3 = 0, 5(x(15) + x(16) ) = 0, 5(1, 83 + 1, 86) = 1, 845
35
3 Maÿzahlen einer Verteilung
Für das obere Terzil
T2 = x2/3
ergibt sich wegen
13, 3333 = 20 · 2/3
T2 = x2/3 = x(14) = 1, 83.
Weitere Kennzahlen werden wie folgt berechnet
1
(1, 56 + 2, 05 + · · · + 1, 83) = 1, 7845
20
1
σ 2 = (1, 562 + 2, 052 + · · · + 1, 832 ) − 1, 78452 = 0, 01244
20
p
σ = 0, 01244 = 0, 11156
σ
0, 11156
v= =
= 0, 062516
x̄
1, 7845
s2 = (20/19)σ 2 = 0, 013099737
p
s = 0, 013094737 = 0, 114454082
x̄ =
3.15 Excel-Funktionen
Für die hier vorgestellten Maÿzahlen gibt es Funktionen in Excel. Vorausgesetzt wird
immer, dass die Daten in einem zusammenhängenden Bereich stehen, z.B. folgende acht
Zahlen im Bereich A1:A8
1
3
4
6
9
10
11
12
Der Mittelwert wird durch =MITTELWERT(A1:A8) berechnet.
2
Für die Varianz muss man unterscheiden zwischen der Varianz σ für eine Gesamt2
heit, englisch Population, und der Stichprobenvarianz s . Die Funktion VARIANZEN
berechnet die Varianz der Werte im markierten Bereich anhand der Grundgesamtheit
aller Werte. Die Funktion VARIANZ berechnet die empirische Varianz der Werte, also
als Stichprobe. Im neueren Excel sollen diese Funktionen nicht mehr verwendet werden,
sondern die einsichtigeren VAR.P und VAR.S, wobei sich P immer auf die Grundgesamtheit und S auf eine Stichprobe bezieht. Bei den obigen Zahlen ergibt sich somit
sowohl für =VARIANZEN(A1:A8) als auch für =VAR.P(A1:A8) der Wert 14,5 und
für =VARIANZ(A1:A8) als auch für =VAR.S(A1:A8) der Wert 16,57142857, also
das 8/7-fache von 14,5.
Für die Standardabweichung einer Grundgesamtheit gibt es die beiden Funktionen
STABWN und STABW.N. Warum hier ein N statt dem P steht, weiÿ niemand.
Bei den obigen Zahlen ergibt sich somit sowohl für =STABWN(A1:A8) als auch für
=STABW.N(A1:A8) der Wert 3,807886553, also die Quadratwurzel von 14,5.
Für die Standardabweichung einer Stichprobe gibt es die beiden Funktionen STABW
und STABW.S. Daher haben =STABW(A1:A8) und =STABW.S(A1:A8) den Wert
4,070801957, also die Quadratwurzel von 16,57142857. Das ist sehr verwirrend, lesen Sie
immer die eingeblendete Beschreibung der verwendeten Funktionen durch.
36
3.16 Aufgaben
Die Quantile berechnet Excel anders als von mir beschrieben. Es gibt ab Excel 2010
zwei Funktionen, und zwar QUANTIL.INKL und QUANTIL.EXKL. Die erste entspricht
der alten Funktion QUANTIL. Sie müssen als erstes Argument einen Bereich eingeben,
hier also A1:A8 und als zweiten den Wert von
p
als Zahl zwischen 0 und 1. Das erste
Quartil sollte somit durch =QUANTIL.INKL(A1:A8;0,25) bestimmt werden. Excel
liefert 3,75, während nach meiner Denition der Mittelwert von 3 und 4 zu bilden ist,
also 3,5.
Excel rechnet dabei wie folgt
r = (n − 1) · p, wobei n die Anzahl der bereits aufsteiist. Zerlege r in den ganzzahligen Teil i und den Rest
1. Bestimme zunächst die Zahl
gend angeordneten Werte
nach dem Komma
2. Das Quantil
xp
d.
ist dann
xp = (1 − d)x(i) + dx(i+1) .
p = 0, 25 und es ist n = 8.
i = 2 und d = 0, 75 und deshalb
Im obigen Beispiel sind für das erste Quartil
r = (8 − 1)/4 = 2, 75,
und somit sind
Also ist
xp = (1 − d)x(i) + dx(i+1) = 0, 25 · 3 + 0, 75 · 4 = 3, 75.
Bitte beachten Sie, dass diese Berechnungsmethode zwar einleuchtend ist, aber von der
in der Statistik üblichen abweicht!
3.16 Aufgaben
1.) Im Sportunterricht kam eine Gruppe von Mädchen beim Kugelstoÿen auf folgende
Weiten
X
3,23
in [m]
2,35
5,37
3,49
6,90
2,93
1,81
4,26
4,44
2,73.
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen
Ausprägungen gibt es?
b) Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische
Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
2.) In der Tabelle 3.4 sind die Noten der Teilnehmer eines Kurses aufgeführt. Welcher
Art ist das beschriebene Merkmal und welche möglichen Ausprägungen gibt es?
Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie
die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere
Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist
es hier nicht sinnvoll Mittelwert und Varianz zu berechnen?
37
3 Maÿzahlen einer Verteilung
Tabelle 3.4: Notenverteilung der Teilnehmer
Note
sehr gut
gut
befriedigend
ausreichend
mangelhaft
6
5
5
3
1
ni
3.) Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt auf fol-
gende Werte:
3
6
5
8
6
4
4
4
3
6.
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
b) Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung
für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
c) Berechnen Sie den Modus, das untere Quartil, den Median, das obere Quartil, die
Quantile
x0,2
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und die Standard-
abweichung sowie die empirische Varianz und die empirische Standardabweichung
und dann noch den Variationskoezienten des Merkmals
X.
4.) Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite 12.
5.) In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses aufgeführt.
19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung?
b) Welcher Art ist das beschriebene Merkmal und welche möglichen Werte gibt es?
c) Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung
für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
d) Berechnen Sie den Modus, das untere Quartil, den Median, das obere Quartil, die
Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und die Standard-
abweichung sowie die empirische Varianz und die empirische Standardabweichung
und dann noch den Variationskoezienten des Merkmals
X.
e) Der Wert 52 ist ein Zahlendreher und wäre korrekt 25. Wie ändern sich die
Ergebnisse von d) dadurch?
f ) Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht
also nur noch von 20 statt 21 Werten aus. Wie ändern sich dadurch die Ergebnisse
von d)?
6.) In einem Projekt zur Betriebsinformatik wurden die Studierenden unter anderem
nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe:
38
3.16 Aufgaben
44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60
Man erstelle beide Varianten des Boxplots. Die Daten stammen von Heindl, Seite
117.
39
4 Klassenbildung
4.1 Übersicht und Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie wissen
- wie man für stetige metrische Merkmale Klassen bildet;
- wie die Verteilungsdichte- und die empirische Verteilungsfunktion von klassierten
Daten gebildet werden.
- wie man näherungsweise bei klassierten Daten Median und Quantile berechnet;
- wie man näherungsweise bei klassierten Daten Mittelwert und Varianz berechnet;
4.2 Klassen
Werte
1,56
1,62
1,68
1,69
1,71
1,75
1,76
1,78
1,83
1,86
1,89
1,91
1,93
2,05
ni Ni
1
1
1
1
3
1
2
1
4
1
1
1
1
1
1
2
3
4
7
8
10
11
15
16
17
18
19
20
fi
Fi
0,05
0,05
0,05
0,05
0,15
0,05
0,1
0,05
0,2
0,05
0,05
0,05
0,05
0,05
0,05
0,1
0,15
0,2
0,35
0,4
0,5
0,55
0,75
0,8
0,85
0,9
0,95
1
0,2
0,1
0
1,5
1,6
1,7
1,8
1,9
2
2,1
1,5
1,6
1,7
1,8
1,9
2
2,1
1
0,5
0
Abbildung 4.1: Diskrete Auswertung
Im abgebildeten Excel-Arbeitsblatt ist die Häugkeitstabelle sowie das Stabdiagramm
und die Verteilungsfunktion der Daten des Beispiels 3.12 von Seite 35 zu sehen. Die Werte der Daten sind fast alle verschieden, daher ist im Stabdiagramm wenig über das Wesen
41
4 Klassenbildung
der Verteilung zu erkennen. Das liegt daran, dass die Körpergröÿe ein stetiges Merkmal
ist, das beliebig genau gemessen werden kann, weswegen nur selten Werte mehrfach vorliegen. Ähnliches trit auf andere stetige Merkmale wie Gewicht, Zeitmessungen eines
Volksmarathons oder die Brenndauer von Glühbirnen zu, aber auch bei ökonomischen
Daten, die wie das Einkommen oder Vermögen in einer Währung angegeben werden. In
der Praxis behandelt man oft auch diskrete metrische Merkmale wie das Alter oder die
erreichte Punktzahl in einer Klausur als stetig, wenn sie sehr viele Merkmalsausprägungen besitzen.
Man gewinnt an Übersichtlichkeit durch die Bildung von
Klassen
genannten Interval-
len, wobei jeweils die Obergrenze einer Klasse die Untergrenze der benachbarten rechten
Klasse ist. Die Klassenbildung erfordert also die Wahl einer Folge von aufsteigenden
Werten
x∗0 < x∗1 < x∗2 < . . . < x∗k−1 < x∗k ,
∗
∗
wobei die Werte der Urliste alle zwischen x0 und xk liegen sollten. Die erste Klasse ist
∗
∗
∗
∗
∗
∗
∗
∗
dann [x0 , x1 ], die zweite (x1 , x2 ], gefolgt von (x2 , x3 ] bis zu (xk−1 , xk ]. Die erste Klasse
ist ein abgeschlossenes Intervall, da beide Grenzen zur Klasse gehören. Danach folgen
links oene und rechts abgeschlossene Klassen, d.h. die Obergrenze gehört zur Klasse,
die Untergrenze hingegen nicht.
Ich habe die Klassengrenzen x∗i zur Unterscheidung von den Daten mit einem *
gekennzeichnet.
Vor der Klassenbildung wird die aufsteigend geordnete Urliste gebildet, sie lautet hier
1,56, 1,62, 1,68, 1,69, 1,71, 1,71, 1,71, 1,75, 1,76, 1,76
1,78, 1,83, 1,83, 1,83, 1,83, 1,86, 1,89, 1,91, 1,93,
2,05
Es muss also der Bereich zwischen 1,56 und 2,05 abgedeckt werden. Klassengrenzen
∗
sollten mit den Ziern 0 oder 5 enden, es bietet sich an bei x0 = 1, 50 anzufangen und
∗
bei x5 = 2, 10 aufzuhören. Für die mittleren Klassengrenzen seien die Werte 1,65, 1,75,
1,85 und 1,95 gewählt. Damit ergeben sich die Klassen
[1, 50, 1, 65], (1, 65, 1, 75], (1, 75, 1, 85], (1, 85, 1, 95], (1, 95, 2, 10].
Wie erwähnt ist die erste Klasse abgeschlossen, die folgenden sind links oen und rechts
abgeschlossen. Der 1,75 m groÿe Teilnehmer gehört also zur Klasse
(1, 65, 1, 75].
Bei der Klassenbildung werden folgende Begrie verwendet.
(1)
Klassenanzahl
Ich werde die Anzahl aller Daten der Urliste immer mit
Klassen mit
k
n
und die Anzahl aller
bezeichnen. In Beispiel der Körpergröÿen sind somit
n = 20
und
k = 5.
(2)
Klassenbreite
Die Dierenz aus oberer und unterer Klassengrenze wird als
net, also hat man
k
Klassenbreiten
∆i = x∗i − x∗i−1 ,
42
i = 1, . . . , k.
Klassenbreite
bezeich-
4.2 Klassen
Meistens werden Klassen gleicher Breite gewählt, aber es sind auch Klassen unterschiedlicher Breiten möglich.
(3)
Absolute und relative (kumulierte) Häugkeit
Für
i = 1, 2, . . . , k
bezeichnet die absolute Häugkeit
Urliste, die in der i-ten Klasse liegen und
(4)
fi = ni /n
ni
die relative Häugkeit.
Absolute und relative kumulierte Häugkeit
Die kumulierten absoluten und relativen Häugkeiten
solute bzw. relative Anzahl aller Daten der Urliste mit
(5)
die Anzahl aller Daten der
Ni und Fi
xj ≤ x∗i .
stehen für die ab-
Absolute und relative Häugkeitsdichte
Die Klassenbildung erfordert noch zwei weitere Gröÿen, die so genannte absolute
und relative
Häugkeitsdichte .
Damit werden die Verhältnisse der absoluten (ni )
bzw. der relativen Häugkeit (fi ) der i-ten Klasse zur entsprechenden Klassenbreite
∆i
bezeichnet. Die Häugkeitsdichte misst also für jede Klasse den Anteil der Daten
pro Einheit. Damit erst werden Vergleiche zwischen Klassen unterschiedlicher Breite
möglich. Die beiden Häugkeitsdichten berechnen sich für
1≤i≤k
ni
∆i
∗
n
fi
fi∗ = i =
n
∆i
n∗i =
(6)
wie folgt
(4.1)
(4.2)
Klassenmitte
Die Mitte einer Klasse wird wenig überraschend
Klassenmitte
genannt. Sie dient
bei manchen Rechnungen als gemeinsamer Wert aller Daten der Urliste, die in einer
Klasse liegen. Die Klassenmitte ist das arithmetische Mittel aus unterer und oberer
Klassengrenze, also
(7)
x∗i + x∗i−1
,
mi =
2
i = 1, . . . , k
Klassenmittelwert
Der
Klassenmittelwert x̄i
der Klasse
i
ist das arithmetische Mittel aller Werte
der Urliste, die innerhalb der betrachteten Klasse
i
xk
liegen. Das Klassenmittel kann
nur bei Kenntnis der Urliste berechnet werden, sonst muss man die Klassenmitte
nehmen.
Der Unterschied zwischen der Klassenmitte und dem Klassenmittelwert sei an der vierten Klasse
(1, 85, 1, 95]
erläutert. Die Klassenmitte ist die Mitte zwischen den Grenzen,
also deren arithmetisches Mittel, in diesem Fall somit
m4 = 1, 90. Der Klassenmittelwert
ist das arithmetische Mittel aller Werte, die in der Klasse liegen, das sind hier die vier
Werte 1,86, 1,89, 1,91 und 1,93. Deren Mittelwert ist
x̄4 = (1, 86 + 1, 89 + 1, 91 + 1, 93)/4 = 1, 8975,
und somit verschieden von
m4 = 1, 90.
43
4 Klassenbildung
4.3 Häugkeitstabelle klassierter Daten
Die Häugkeitstabelle klassierter Daten zeigt die erwähnten Gröÿen übersichtlich angeordnet. Der allgemeine Aufbau einer solchen Häugkeitstabelle ist beispielhaft in Tabelle
4.1 zu nden.
Tabelle 4.1: Häugkeitstabelle eines stetigen Merkmals
Klasse
x∗i−1
x∗i
∆i
ni
n∗i
Ni
fi
fi∗
Fi
1
1,50
1,65
0,15
2
13,33
2
0,10
0,67
0,10
2
1,65
1,75
0,10
6
60
8
0,30
3,00
0,40
3
1,75
1,85
0,10
7
70
15
0,35
3,50
0,75
4
1,85
1,95
0,10
4
40
19
0,20
2,00
0,95
5
1,95
2,10
0,15
1
6,67
20
0,05
0,34
1,00
Man kann der Häugkeitstabelle entnehmen, dass 95 Prozent aller Teilnehmer höchstens 1,95 m groÿ waren und die Häugkeitsdichte in der Klasse
(1, 75, 1, 85]
am gröÿten
und in der letzten Klasse am kleinsten ist.
4.4 Histogramme
Graphisch werden Klassen mit einem
Histogramm
dargestellt. Dabei zeichnet man in
einem rechtwinkligen Koordinatensystem auf der horizontalen Achse, der Abszisse, die
Klassengrenzen ein und trägt über jeder Klasse ein Rechteck ab, dessen Fläche gleich
der relativen Häugkeit fi der Klasse ist. Die Höhe des Rechtecks ist daher der Wert
∗
der Häugkeitsdichte fi = fi /∆i , also der Bruch aus relativer Häugkeit fi und Klassenbreite ∆i . Die Summe aller Flächeninhalte der Rechtecke ist die Summe der relativen
Häugkeiten
fi ,
also 1.
Ein Histogramm ist also die Darstellung der Verteilungsdichte klassierter Daten durch
∗
eine Reihe von Rechtecken. Man kann einem Histogramm eine Funktion
zuordnen, die man
empirische Dichtefunktion
(
fi∗ ,
f ∗ (x) =
0,
für
f : R → R
nennt. Sie ist wie folgt deniert
x∗i−1 < x ≤ x∗i
1≤i≤k
sonst.
Im Beispiel der Körpergröÿen lese ich die Klassengrenzen aus der zweiten und dritten
Spalte ab, die Werte der Häugkeitsdichten übertrage ich aus der vorletzten Spalte. Die
44
4.5 Approximierende empirische Verteilungsfunktion
empirische Dichtefunktion lautet somit:

0, 67,





3, 0,



3, 5,
f ∗ (x) =

2, 0,




0, 34,



0,
für
für
für
für
für
1, 50 < x ≤ 1, 65
1, 65 < x ≤ 1, 75
1, 75 < x ≤ 1, 85
1, 85 < x ≤ 1, 95
1, 95 < x ≤ 2, 10
sonst.
Die Abbildung 4.2 zeigt das zugehörige Histogramm und die noch zu besprechende empirische Verteilungsfunktion. Um ganz genau zu sein: Das Histogramm besteht aus Recht-
F*
f*
F*
f*
3
1,00
0,75
2
0,50
1
0,25
0
0,00
1,40
1,50
1,60
1,70
1,80
1,90
2,00
2,10
Größe in [m]
Abbildung 4.2: Histogramm und approximierende empirische Verteilungsfunktion
ecken, der Graph der empirischen Dichtefunktion
f ∗ (x)
nur aus deren oberen Seiten,
also ohne die senkrechten Seiten der Rechtecke.
4.5 Approximierende empirische Verteilungsfunktion
In der Abbildung 4.2 bendet sich noch eine zweite Funktion, und zwar die zugehörige Verteilungsfunktion, deren Werte sich auf die rechte Ordinate beziehen. Durch die
Klassenbildung gehen aber alle Informationen über die einzelnen Werte innerhalb einer Klasse verloren, daher kennt man die empirische Verteilungsfunktion nur noch an
den Klassengrenzen. Anstelle der eigentlichen empirischen Verteilungsfunktion wird eine
∗
Funktion F (x) konstruiert, für die an den Klassengrenzen
F ∗ (x∗i ) = Fi ,
i = 1, . . . , k.
gilt. Diese Werte sind in der Abbildung 4.2 markiert. Für die Werte dazwischen verwendet man lineare Interpolation und erhält eine stetige Funktion aus zusammenhängenden
45
4 Klassenbildung
Geradenstücken, einem so genannten Polygonzug. Somit gilt


0,
∗
F (x) = Fi−1 +


1,
für
x ≤ x∗0 .
x∗i−1 < x ≤ x∗i , i = 1, 2, . . . , k
für
x ≥ x∗k .
für
Fi −Fi−1
x∗i −x∗i−1
x − x∗i−1 ,
Da diese Funktion nicht exakt die empirische Verteilungsfunktion ist, nennen manche
Autoren sie
approximierende empirische Verteilungsfunktion
(vgl. Handl). Dem werde
ich mich anschlieÿen.
Wegen
Intervall
fi = Fi − Fi−1 hat die approximierende empirische Verteilungsfunktion im
(x∗i−1 , x∗i ) die Steigung fi∗ , also die Höhe des Rechtecks im Histogramm. Daher
gilt auÿer an den Klassengrenzen
F ∗0 (x) = f ∗ (x).
Diese Beziehung zwischen Dichte-und Verteilungsfunktion ist typisch für stetige Merkmale.
4.6 Maÿzahlen bei klassierten Daten
Die Klassenbildung dient der Übersichtlichkeit, führt aber zu einem Informationsverlust.
Liegen die Daten eines stetigen Merkmals noch als geordnete Urliste vor, so sollten
die Maÿzahlen wie beschrieben ermittelt werden. Wenn aber nur noch die klassierte
Häugkeitstabelle vorliegt, können die Maÿzahlen nur näherungsweise berechnet werden.
4.6.1 Der Modus
Liegen die Daten nur in Form einer klassierten Häugkeitstabelle vor, so ist der Modus
∗
eine ganze Klasse, nämlich wieder diejenige mit dem gröÿten Wert von fi . Betrachten
Sie dazu bitte die Tabelle 4.1 der Körpergröÿen. Hier ist der Modus die ganze Klasse
mit den Grenzen
(1, 75, 1, 85].
Möchte man einen eindeutigen Wert, muss man sich für
die Klassenmitte entscheiden, hier also für 1,80.
4.6.2 Median und Quantile
Steht nur noch die Häugkeitstabelle der klassierten Daten zur Verfügung, so ergibt
sich der Median wie in der Abbildung 4.1 auf Seite 41 zu sehen näherungsweise über
den Schnitt der Geraden y = 0, 5 mit dem Graphen der approximierenden empirischen
∗
Verteilungsfunktion F , d.h. der Median ist die Lösung der Gleichung
0, 5 = F ∗ (x0,5 )
(4.3)
Nach demselben Schema wird auch das allgemeine p-Quantil bei klassierten Daten
berechnet, d.h. das p-Quantil ist näherungsweise die Lösung der Gleichung
p = F ∗ (xp ).
46
(4.4)
4.6 Maÿzahlen bei klassierten Daten
(x∗i−1 , x∗i ] mit Fi = p,
Fi > p gilt. Wegen
so ist
Gibt es eine Klasse
zum ersten Mal
F ∗ (x) = Fi−1 +
xp = x∗i .
Sonst wählt man die Klasse, wo
Fi − Fi−1
∗
x
−
x
i−1
x∗i − x∗i−1
folgt aus der Bedingung (4.4) die Grundformel zu Berechnung des p-Quantils:
(p − Fi−1 ) x∗i − x∗i−1
xp ≈ x∗i−1 +
Fi − Fi−1
(4.5)
Betrachten wir dazu noch einmal die Tabelle der Körpergröÿen mit klassierten Daten
Tabelle 4.2: Häugkeitstabelle eines stetigen Merkmals
Klasse
x∗i−1
x∗i
∆i
ni
fi
fi∗
Fi
1
1,50
1,65
0,15
2
0,10
0,67
0,10
2
1,65
1,75
0,10
6
0,30
3,00
0,40
3
1,75
1,85
0,10
7
0,35
3,50
0,75
4
1,85
1,95
0,10
4
0,20
2,00
0,95
5
1,95
2,10
0,15
1
0,05
0,34
1,00
Wir verwenden die Grundformel (4.5) jetzt zur näherungsweisen Bestimmung einiger
Quantile.
x0,05
Zur Bestimmung des Quantils
F1 = 0, 10
sowie
F1−1 = F0 =
muss die erste Klasse betrachtet werden. Hier ist
0. Weiter sind x∗1 = 1, 65 und x∗0 = 1, 50 und damit folgt
x0,05 ≈ 1, 50 +
(0, 05 − 0, 00) (1, 65 − 1, 50)
= 1, 575
0, 10 − 0, 00
Das stimmt sehr gut mit dem exakten Wert von 1,59 überein.
Zur Bestimmung des unteren Quartils
Hier ist
F2 = 0, 40
sowie
F2−1 =
x0,25
muss die zweite Klasse betrachtet werden.
0, 10. Weiter sind x∗2 = 1, 75 und x∗1 = 1, 65 und damit
folgt
(0, 25 − 0, 10) (1, 75 − 1, 65)
= 1, 70
0, 40 − 0, 10
Für den Median ist p = 0, 5, also i = 3, F3 = 0, 75 sowie F2 = 0, 40.
x∗3 = 1, 85 und x∗2 = 1, 75 und damit folgt
x0,25 ≈ 1, 65 +
(0, 5 − 0, 4) (1, 85 − 1, 75)
= 1, 78
0, 75 − 0, 4
Quartils x0,75 muss die dritte Klasse
Weiter sind
x0,5 ≈ 1, 75 +
Zur Bestimmung des dritten
Hier ist
F3 = 0, 75
betrachtet werden.
und somit gilt
x0,75 ≈ x3 = 1, 85
Die Näherungswerte stimmen sehr gut mit dem exakten Wert von 1,71, 1,77 und 1,845
überein, siehe Beispiel 3.12 auf Seite 35.
47
4 Klassenbildung
4.6.3 Arithmetisches Mittel und Varianz
Bei klassiertem Datenmaterial fehlen die Einzelwerte, manchmal sind aber die Klassenmittelwerte
x̄i
der Werte, die in einer Klasse liegen, bekannt. Dann ergeben sich das
arithmetische Mittel und die Varianz durch die Formeln
Pk
ni x̄i
n1 x̄1 + n2 x̄2 + · · · + nk x̄k
= i=1
,
x̄ =
n
n
Pk
ni x̄2i
n1 x̄21 + n2 x̄22 + · · · + nk x̄2k
2
2
σ ≈
− x̄ = i=1
− x̄2
n
n
Hier sind
ni
(4.6)
(4.7)
die absoluten Häugkeiten der Klassen.
Sind die Klassenmittelwerte unbekannt, werden näherungsweise die Klassenmitten
mi
verwendet. Das arithmetische Mittel und die Varianz werden dann durch
Pk
ni mi
n1 m1 + n2 m2 + · · · + nk mk
= i=1
,
x̄ ≈
n
n
P
k
ni m2i
n1 m21 + n2 m22 + · · · + nk m2k
2
2
σ ≈
− x̄ = i=1
− x̄2
n
n
(4.8)
(4.9)
angenähert.
Betrachten wir die Daten der Tabelle 4.2. Die Klassenmittelwerte sind nicht vorhanden, daher muss der Mittelwert näherungsweise über die Klassenmitten
mi
berechnet
werden. Damit erhalten wir folgende Näherungen
x̄ ≈ (2 · 1, 575 + 6 · 1, 70 + 7 · 1, 80 + 4 · 1, 90 + 1 · 2, 025) /20 = 1, 78
σ 2 ≈ 2 · 1, 5752 + 6 · 1, 702 + 7 · 1, 802 + 4 · 1, 902 + 1 · 2, 0252 /20 − 1, 782 = 0, 0077.
Die Näherung für das arithmetische Mittel kommt sehr nah an den exakten Wert von
1,7845 heran. Die näherungsweise berechnete Varianz weicht dagegen deutlich vom exakten Wert 0,012106 ab. Das liegt daran, dass bei der Näherung für die Varianz die
Streuung innerhalb der Klassen nicht berücksichtigt wird. Es gibt deshalb Korrekturformeln, auf die ich aber nicht eingehen möchte. Näheres dazu siehe von der Lippe.
4.7 Aufgaben
1.) (Wikipedia, 19.2.2009) Es liegen für 32 europäische Länder als Indikator für den
Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden in
Klassen eingeteilt wie folgt. In 9 Ländern kommen z.B. auf je 1.000 Einwohner mehr
Tabelle 4.3: Brumm, Brumm
48
[0, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 700]
5
6
6
9
6
4.7 Aufgaben
als 400 und bis zu 500 PKW. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie dann näherungsweise die Quartile
Q1 , Q2
und
Q3
sowie den Mittelwert und die Varianz.
2.) Die Daten seien wieder die Körpergröÿen der Abbildung 4.1, aber die Klassengrenzen
seien 1,50, 1,70, 1,80, 1,90 und 2,10. Erstellen Sie die klassierte Häugkeitstabelle,
das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie dann
näherungsweise die Quartile
Q1 , Q2
und
Q3
sowie den Mittelwert und die Varianz.
49
5 Darstellung und Kennzahlen von
Konzentration
5.1 Übersicht und Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie
- den Unterschied zwischen absoluter und relativer Konzentration kennen;
- wissen, wie man relative Konzentration durch die Lorenzkurve veranschaulicht;
- den Gini-Koezient berechnen und deuten können;
- wissen, wie man absolute Konzentration durch die Konzentrationskurve veranschaulicht;
- den Rosenbluth- und den Herndahl-Index berechnen und deuten können.
5.2 Absolute und relative Konzentration
Konzentration ist das Gegenteil von Ausgeglichenheit, in der Wirtschaftstheorie meint
man damit eine marktbeherrschende Stellung von wenigen Anbietern. Das kann daran liegen, dass es überhaupt nur eine kleine
kleiner
Anteil
Anzahl
von Anbietern gibt oder dass ein
von Anbietern einen groÿen Teil der Nachfrage abdeckt. Im ersten Fall
spricht man von
absoluter,
im zweiten von
Konzentration wird auch als
Disparität
relativer Konzentration.
Eine hohe relative
bezeichnet. Laut Duden leitet sich Disparität
vom spätlateinischen disparitas ab und bedeutet Ungleichheit, hier bezogen auf die
relativen Marktanteile.
Ein schönes Beispiel über den Unterschied zwischen absoluter und relativer Konzentration ist die Verteilung des Grundbesitzes in Schottland, wovon 80 Prozent auf 1200
Personen, also weniger als einem Prozent der Einwohnerschaft fallen. Quelle: Newsweek
(20.1.2003), zitiert nach Uebe. Hier liegt relative aber keine absolute Konzentration vor.
Oft überdecken sich beide Begrie auch. Es gibt kaum mehr als fünf Anbieter von Suchmaschinen, wobei davon aber noch einmal 90 Prozent aller Suchanfragen auf nur einen
Anbieter fallen. Hier ist die Anzahl der Anbieter gering, also liegt absoluter Konzentration vor, aber selbst innerhalb dieser kleinen Gruppe sind die relativen Anteile sehr
ungleichmäÿig verteilt, das Kennzeichen von relativer Konzentration oder Disparität.
51
5 Darstellung und Kennzahlen von Konzentration
Weit stärker als die marktbeherrschende Stellung von Google missfällt vielen Mitbürgern die ungleiche Verteilung von Einkommen, Vermögen oder Grundbesitz, sei es innerhalb eines Landes wie Deutschland oder global zwischen Erdteilen. Auch der Verbrauch
von Energie und Rohstoen ist weltweit stark auf einen kleinen Anteil der Weltbevölkerung konzentriert. Hier geht es immer um Disparität, also relative Konzentration.
Konzentration beschreibt einen Zustand, ist aber oft das Ergebnis länger anhaltender Prozesse der Marktbereinigung. Der Zustand der absoluten Konzentration ist das
Ergebnis von Übernahmen oder Ausscheiden von Konkurrenten, während bei relativer
Konzentration einige Wettbewerber ihren Marktanteil überproportional ausweiten konnten oder bereits von Anfang an marktbeherrschend waren.
5.3 Relative Konzentration
5.3.1 Die Merkmalssumme und ihre Verteilung
Zunächst müssen die verwendeten Begrie geklärt werden. Betrachtet wird ein verhältnisskaliertes Merkmal mit nichtnegativen Ausprägungen, da von den Ausprägungen nicht
nur Summen und Teilsummen sondern auch Verhältnisse gebildet werden sollen. Bisher wurde die durch das Merkmal erzeugte Verteilung der Merkmalsträger untersucht,
jetzt geht es zusätzlich um die Verteilung der Merkmalssumme auf die Merkmalsträger.
Die Merkmalssumme ist bildlich gesprochen der ganze zu verteilende Kuchen, etwa der
Gesamtlohn eines Unternehmens, das Volkseinkommen oder der gesamte Umsatz einer
Branche.
Die Werte der Urliste werden zunächst nach
zunehmenden Merkmalsbeträgen geordnet
x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Die seltsame Bezeichnung
x(j)
ist in der beschreibenden Statistik für die Elemente der
i Merkmalsträger mit kleinstem Anteil haben
Fi = i/n. Die Merkmalssumme, sowie die relativen
aufsteigend geordneten Urliste üblich. Die
die kumulierte relative Häugkeit
und die kumuliert relativen Anteile an ihr ergeben sich aus
S=
n
X
xj ,
qj = x(j) /S
j=1
Da die
x(j)
Qi =
i
X
qj
j=1
der Gröÿe nach geordnet sind, folgt
0 ≤ Qi ≤ Fi ≤ 1.
Die Punkte
(Fi , Qi )
liegen somit alle unterhalb oder höchstens auf der Winkelhalbierenden des Einheitsquadrats des ersten Quadranten.
Beispiel 5.1.
Eine Kleinstadt hat fünf Bäcker, die sich unterschiedlicher Beliebtheit
erfreuen. Die Jahresgewinne sind 60, 40, 150, 20 und 90 in 1.000 Euro. Hier ist also
n = 5
und somit
fi = 1/5
sowie
Fi = i/5
für
1 ≤ i ≤ 5.
Die aufsteigend geordnete
Urliste ist 20, 40, 60, 90 und 150, die Gesamtsumme des Gewinns ist 360 und somit etwa
q3 = 60/360
und
Q3 = 120/360.
von Excel erledigt.
52
Die lästige Rechnerei habe ich in einem Arbeitsblatt
5.3 Relative Konzentration
1
2
3
4
5
6
7
8
A B
C
D
E
F
G
H
I
xi
x(i)
fi
qi
0,056
0,111
0,167
0,250
0,417
1,000
Qi
0,000
0,056
0,167
0,333
0,583
1,000
0,000
Gi
0,2
0,2
0,2
0,2
0,2
1,0
Fi
0,0
0,2
0,4
0,6
0,8
1,0
0,0
1,0
0,8
0,6
0,4
0,2
0,0
i
1 60 20
2 40 40
3 150 60
4 20 90
5 90 150
360 360
0,011
0,044
0,100
0,183
0,317
0,344
J
0,0 0,2 0,4 0,6 0,8 1,0
Abbildung 5.1: Arbeitstabelle zum Beispiel 5.1
Manchmal sind die Merkmale gruppiert, d.h. die Daten der Urliste kann man zu
k < n
aufsteigend geordneten Ausprägungen
umordnen. Die kumulierten Häugkeiten
Fi ,
ai ,
die mit der Häugkeit
Merkmalssumme
S,
ni
auftreten,
sowie die relativen
und die kumuliert relativen Anteile an ihr ergeben sich aus
fj = nj /n,
Fi =
i
X
fj ,
S=
k
X
j=1
nj aj
qj =
,
S
n j aj ,
j=1
Qi =
i
X
qj .
j=1
Beispiel 5.2. Betrachten wir ein Unternehmen, das nach vier Tarifen bezahlt. Die Tarife
berücksichtigen nur die Qualikation des Mitarbeiters, nicht aber Alter oder Familienstand. Die Jahreslöhne in 1.000 Euro betragen 20, 45, 72 und 108. Von den 20 Mitarbeitern gehören 6 der untersten Tarifgruppe, 4 der nächst höheren und jeweils 5 den beiden
höchsten an. Zur besseren Übersicht zeige ich diese Werte in einer Häugkeitstabelle, die
um drei Spalten erweitert ist, um die Merkmalssumme zu berechnen sowie deren relative
und die kumulierte relative Aufteilung auf die Mitarbeiter der vier Tarifgruppen.
A B
1
2
3
4
5
6
7
i
ai
1 20
2 45
3 72
4 108
C
D
ni ni*ai
6 120
4 180
5 360
5 540
20 1200
E
F
G
H
I
fi
qi
Fi
Qi
Gi
0,1
0,15
0,3
0,45
1
0
0,3
0,5
0,75
1,000
0
0
0,100
0,250
0,550
1,000
0
0,030
0,070
0,200
0,388
0,313
0,3
0,2
0,25
0,25
1
J
K
1
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Abbildung 5.2: Arbeitstabelle zum Beispiel 5.2
ni Mitarbeiter der i-ten Tarifgruppe tragen den Wert si = ni ai zur Merkmalssumme S = 1.200 bei. Der entsprechende relative Anteil qi = si /S steht neben dem relativen
Anteil der fi . Der Tabelle kann entnommen werden, dass die 5 Mitarbeiter der höchsten
Die
Tarifgruppe 25 Prozent der Belegschaft ausmachen, aber 45 Prozent der Lohnsumme auf
53
5 Darstellung und Kennzahlen von Konzentration
sich vereinigen. Die kumulierten Häugkeiten
Fi
und die kumulierten Anteile
Qi
sind
ebenfalls benachbart. Alle Mitarbeiter der drei ersten Tarifgruppen bilden 75 Prozent
der Belegschaft und haben einen Anteil von 55 Prozent an der Merkmalssumme.
5.3.2 Die Lorenzkurve
Die um die kumulierten relativen Anteile an der Merkmalssumme erweiterten Häugkeitstabellen werden durch die so genannte
Lorenzkurve
veranschaulicht. Werden wie im
Fi und die kumulierten
Qi bezeichnet, so ergibt sich die Lorenzkurve als
Punkte (0, 0), (F1 , Q1 ), . . . , (Fn−1 , Qn−1 ), (1, 1). Zur Ver-
vorigen Abschnitt die kumulierten Anteile des Merkmals mit
Anteile an der Merkmalssumme mit
streckenweise Verbindung der
anschaulichung der Konzentration wird auch immer noch die Winkelhalbierende, also
die Verbindung der Punkte
(1, 1)
Für das Beispiel 5.1 werden die
(0, 8, 0, 583)
und
(1, 1)
(0, 0), eingezeichnet.
Punkte (0, 0), (0, 2, 0, 056), (0, 4, 0, 167), (0, 6, 0, 333),
und
durch Strecken verbunden, wodurch die Lorenzkurve entsteht,
und dann wird vom letzten Punkt der Lorenzkurve, also von
zurück nach
(0, 0)
(1, 1)
noch die Strecke
erzeugt. Die Koordinaten dieser Punkte stehen im Bereich F2:E8 des
Arbeitsblatts. Die ebenfalls abgebildete Lorenzkurve entsteht in Excel durch Darstellung
dieses Bereichs durch ein so genanntes Punktdiagramm, wobei ich als Typ Punkte mit
geraden Linien und Datenpunkten wählte.
Für das Beispiel 5.2 werden die Punkte
(1, 1)
und
(0, 0)
(0, 0), (0, 3, 0, 1), (0, 5, 0, 25), (0, 75, 0, 55),
durch Strecken zu verbinden. Die Koordinaten dieser Punkte stehen im
Bereich G2:H7.
5.3.3 Der Gini-Koezient
Je ungleicher die Merkmalssumme auf die Grundgesamtheit verteilt ist, desto stärker
hängt die Lorenzkurve nach rechts unten durch, während bei gleichen Anteilen Lorenzkurve und Winkelhalbierende zusammenfallen. Die Winkelhalbierende teilt das Einheitsquadrat in zwei Dreiecke mit Flächeninhalt von 1/2. Die Fläche zwischen der Winkelhalbierenden und der Lorenzkurve ist ein Maÿ für die Abweichung von der Gleichheit.
Der
Gini-Koezient
ist das Verhältnis des Inhalts dieser Fläche zum Inhalt der Ge-
samtäche des Dreiecks. Damit ist der Gini-Koezient ein Wert zwischen 0 und 1, wobei
der Wert 0 gleiche Anteile und der Wert 1 vollständige Konzentration anzeigt.
In der Abbildung 5.3 ist links noch einmal die Lorenzkurve des Beispiels 5.2 zu sehen,
n Einheiten
n−1 leer ausgehen und das gesamte Einkommen auf die letzte Einheit fällt. Die
rechts daneben bendet sich der Extremfall der Ungleichverteilung, wo von
die ersten
Fläche zwischen der Winkelhalbierenden und der Lorenzkurve ist jeweils grau ausgefüllt.
Da die Gesamtäche
I
des Dreiecks den Inhalt 1/2 hat, beträgt der Flächeninhalt der
Fläche zwischen der Lorenzkurve und der Winkelhalbierenden
I = 1/2 −
X
Inhalt der Trapeze,
da die Lorenzkurve sich aus lauter Trapezen zusammensetzt. Betrachten wir in der Abbildung 5.3 in der linken Lorenzkurve das Trapez mit den Eckpunkten
54
(F2 , 0), (F2 , Q2 ),
5.3 Relative Konzentration
Abbildung 5.3: Zusammenhang zwischen Lorenzkurve und Gini-Koezient
(F3 , Q3 ) sowie (0, Q3 ). Die
0, 5 (Q2 + Q3 ) und daher ist
Breite ist
f3 = F 3 − F 2
und die durchschnittliche Höhe
f3 · 0, 5 (Q2 + Q3 ).
der Inhalt dieses Trapezes
Somit hat die
Fläche zwischen Lorenzkurve und Winkelhalbierender den Inhalt
I = 1/2 −
k
X
fi · 0, 5 (Qi−1 + Qi ) ,
i=1
mit
Q0 = 0.
Teilt man diesen Wert jetzt noch durch 1/2, ergibt sich die Formel für den
Gini-Koezient
G=1−
k
X
fi (Qi−1 + Qi ) ,
mit
Q0 = 0
(5.1)
i=1
f1 = 0, 3, f2 = 0, 2, f3 = 0, 25, f4 = 0, 25 sowie Q0 = 0, Q1 = 0, 1,
Q2 = 0, 25, Q3 = 0, 55, Q4 = 1. Also ergibt sich für den Gini-Koezient:
Im Beispiel 5.2 sind
G = 1 − 0, 3 (0, 1 + 0) + 0, 2 (0, 25 + 0, 1) + 0, 25 (0, 55 + 0, 25) + 0, 25 (1 + 0, 55) = 0, 3125
Für den Gini-Koezient habe ich die letzte Spalte des Arbeitsblatts von Abbildung
5.2 eingerichtet. Es werden die Produkte
fi (Qi + Qi−1 ) benötigt. Somit steht in Zelle I3
zunächst die Formel
= E3 ∗ (H2 + H3)
Diese Formel ziehe ich am Ausfüllkästchen bis zur Zelle I6 nach unten. In der Zelle I7
trage ich dann noch die Formel
= 1 − Summe(I3 : I6)
ein und erhalte damit den Gini-Koezient.
55
5 Darstellung und Kennzahlen von Konzentration
5.3.4 Der normierte Gini-Koezient
In der Abbildung 5.3 ist rechts der Extremfall vollständiger Konzentration der Merkmalssumme auf eine einzige von insgesamt
n statistische Einheiten zu sehen. Selbst dann
hat der Gini-Koezient nicht den Wert 1 werden, denn die Lorenzkurve verläuft dann
von 0 bis
1/(n − 1)
auf der Abszisse und steigt dann als Strecke zum Punkt
(1, 1).
Die
Fläche zwischen Lorenzkurve und Winkelhalbierender ist ein Dreieck mit Grundseite
(n − 1)/n
und Höhe 1, also mit einem Flächeninhalt von
Wert durch
1/2
Gmax =
Man deniert daher bei
Koezient
(n − 1)/(2n).
Teilt man diesen
ergibt sich für den Gini-Koezient der Maximalwert von
n
n−1
n
statistischen Einheiten den so genannten
wie folgt:
Gnorm =
n
G.
n−1
normierten Gini(5.2)
Im Beispiel 5.1 sind 5 statistische Einheiten vorhanden, der normierte Gini-Koezient
ist somit
Gnorm =
Im Beispiel 5.2 sind
n = 20
5
0, 344 = 0, 431
4
statistische Einheiten auf
k = 4
Gruppen verteilt, der
normierte Gini-Koezient ist somit
Gnorm =
20
0, 3125 = 0, 328947368
19
5.3.5 Relative Daten
Lorenzkurve und die beiden Gini-Koezienten hängen nur von relativen Werten der
Ausprägungen und der Verteilungen der Merkmalssumme ab. Deshalb werden manchmal
auch nur relative Werte angegeben. Betrachten wir ein ktives Land, wo die ärmsten
30 Prozent der Bevölkerung über 10 Prozent des Gesamteinkommens verfügen und die
nächsten 20 Prozent der Bevölkerung auf weitere 15 Prozent des Gesamteinkommens
kommen. Die nächsten 25 Prozent der Bevölkerung haben am Gesamteinkommen einen
Anteil von 30 Prozent und die letzten 25 Prozent teilen sich die restlichen 45 Prozent.
Die Gesamtzahl der Bevölkerung und deren Gesamteinkommen sind hier nicht bekannt. Die Arbeitstabelle in der Art von Abbildung 5.2 beginnt somit erst ab der Spalte
mit den relativen Anteilen
fi ,
gefolgt von der Spalte mit den relativen Anteilen an der
Merkmalssumme, gefolgt von den restlichen Spalten. Wenn Sie die Daten von hier genauer untersuchen, werden sie feststellen, dass sie mit den Daten der Abbildung 5.2
übereinstimmen, Lorenzkurve und die beiden Gini-Koezienten sind deshalb gleich.
5.3.6 Klassierte Daten
Lorenzkurven und Gini-Koezient werden sehr häug auf bereits klassierte Daten angewandt. Beachtet werden muss, ob für die Klassen aus der Urliste ein Klassenmittelwert
56
5.3 Relative Konzentration
vorhanden ist oder nicht. Im letzteren Fall wird anstelle des Klassenmittelwerts die Klassenmitte als Näherung genommen. Ich zeige die Vorgehensweise an zwei Beispielen.
Beispiel 5.3.
Die monatlichen Einkommen (in Asturios) in Costa Asturia sind so wie
im abgebildeten Arbeitsblatt über die 15 Millionen Einwohner verteilt. Ein freundlicher
Statistiker hat hier vor der Klassenbildung noch die Klassenmittelwerte
x̄i
ausgerechnet
und in die Spalte E eingetragen. Die zweite Klasse umfasst alle Einkommen über 1.000
bis höchstens 2.000 Asturios mit
n2 = 6
Mio. und
x̄2 = 1.600.
Diese Klasse trägt zur
gesamten Merkmalssumme von 52.800 Millionen Asturios den Beitrag 9.600 Millionen
Asturios bei. Der Beitrag der i-ten Klasse zur Merkmalssumme ist entsprechend
si =
x̄i ni .
1
2
3
4
5
6
7
8
A
B
i
xi*
C
1
2
3
4
5
0
1000
2000
3500
über
D
E
F
G
H
I
J
K
L
M
x(i)* ni
KMWi si
fi
qi
Fi
Qi
Gi
1
(Mio)
0
0
1000
2
600 1200 0,133 0,023 0,133 0,023 0,003
2000
6 1600 9600 0,400 0,182 0,533 0,205 0,091 0,5
3500
3 2800 8400 0,200 0,159 0,733 0,364 0,114
6000
2 4800 9600 0,133 0,182 0,867 0,545 0,121
0
6000
2 12000 24000 0,133 0,455 1,000 1,000 0,206
0 0,2 0,4 0,6 0,8 1
15
52800
1
1
0
0 0,465
Abbildung 5.4: Arbeitsblatt für Lorenzkurve mit klassierten Daten
x∗i
und die Häugkeiten ni angegeben, dann muss der
mi = 0, 5(x∗i−1 + x∗i ) ersetzt werden. Der
Beitrag der i-ten Klasse zur Merkmalssumme ist entsprechend si = mi ni .
Oft sind nur die Klassengrenzen
Klassenmittelwert
Beispiel 5.4.
x̄i
durch die Klassenmitte
In einem Betrieb wurden die im Bereich A3:D6 der Abbildung 5.5 stehen-
den Daten über die monatlichen Einkommen in 100 Euro der 25 Mitarbeiter erhoben.
[5, 12] mit 5 Mitarbeitern, die letzte
(30, 50] mit ebenfalls 5 Mitarbeitern. Hier sind die Klassenmittelwerte unbekannt und
Hier wurden also vier Klassen gebildet, die erste ist
ist
wurden durch die Klassenmitten angenähert.
A B
1
2
3
4
5
6
7
8
C
D
E
i xi* x(i)* ni mi
1 5
2 10
3 18
4 30
10
18
30
50
5 7,50
8 14,00
7 24,00
5 40,00
25
F
si
G
fi
37,5
112
168
200
517,5
0,200
0,320
0,280
0,200
1
H
qi
0,072
0,216
0,325
0,386
1
I
Fi
0
0,200
0,520
0,800
1,000
0
J
Qi
0
0,072
0,289
0,614
1,000
0
K
Gi
0,0145
0,1156
0,2527
0,3227
0,2945
0,3068
L
M
1
0,5
0
0 0,25 0,5 0,75 1
Abbildung 5.5: Arbeitsblatt für Lorenzkurve mit klassierten Daten
57
5 Darstellung und Kennzahlen von Konzentration
5.3.7 Vorgehensweise mit Excel
Die Berechnungen seien am Arbeitsblatt des Beispiels 5.4 ausführlich erläutert. Ausgangspunkt sind die Klassen und die entsprechenden Häugkeiten, also die vier ersten
Spalten. In der Spalte E stehen entweder die Klassenmittelwerte oder die Klassenmitten.
Der Klassenmittelwert der ersten Klasse steht in der Zelle E3 und ergibt sich aus der
Formel
= 0, 5 ∗ (B3 + C3)
Diese Formel lässt sich am Ausfüllkästchen bequem nach unten bis zur Zelle E6 ziehen.
In der Spalte F stehen die Teilbeiträge zur Merkmalssumme, in Zelle F3 kommt zunächst
die Formel
= D3 ∗ E3
Auch diese Formel lässt sich am Ausfüllkästchen bequem nach unten bis zur Zelle F6
ziehen. Danach werden die Summen der Spalten D und F berechnet. In den Zellen D8
und F8 stehen die Formeln
= Summe(D3 : D6)
Für die
fi
= Summe(F 3 : F 6)
müssen die in der dritten Spalte stehenden Häugkeiten durch die Spalten-
summe dieser Spalte geteilt werden. Dazu trägt man in der Zelle G3 die Formel
= D3/D$7
Das Dollarzeichen vor der 7 verhindert, dass sich beim Ziehen am Ziehpunkt die Zelle D7
mit nach unten zieht. Das ganze müssen Sie für die Spalte H wiederholen, also zunächst
in H3 die Formel
= F 3/F $7
eintragen und dann ziehen. Die kumulierten Werte der
Population sind in Spalte I. Sie müssen zunächst in der Zelle I3 die Formel
= I2 + G3
eintragen, da die Formel
Fi = Fi−1 + fi
gilt mit
F0 = 0 Dies ist der Grund für die beiden
Nullen in der zweiten Zeile. Diese Formel können Sie am Ausfüllkästchen nach unten
ziehen.
Das führen Sie dann sinngemäÿ für die nächste Spalte durch, also zunächst in Zelle J3
= J2 + H3
eintragen und dann nach unten ziehen.
Für den Gini-Koezient habe ich die letzte Spalte eingerichtet. Es werden die Produkte
fi (Qi + Qi−1 )
benötigt. Somit steht in Zelle K3 zunächst die Formel
= G3 ∗ (J2 + J3).
Das wird nach unten gezogen. In der Zelle K7 trage ich dann noch die Formel
= 1 − Summe(K3 : K6)
ein und erhalte damit den Gini-Koezient. Da die Anzahl
n = 25
der statistischen
Einheiten noch nicht übermäÿig groÿ ist, lohnt es sich den normierten Gini-Koezient
auszurechnen, der in der Zelle K8 steht und über die Formel
dem Gini-Koezient zusammenhängt.
58
= K7 ∗ D7/(D7 − 1)
mit
5.4 Absolute Konzentration
5.4 Absolute Konzentration
5.4.1 Konzentrationskurve und Rosenbluth-Index
Absolute Konzentration liegt vor, wenn eine geringe Anzahl von Merkmalsträgern einen
groÿen Anteil an der Merkmalssumme auf sich vereinigt, d.h. es kommt auf die kumulierten Anteile der gröÿten Marktteilnehmer an. Die Werte der Urliste werden hier deshalb
nach
abnehmenden
Merkmalsbeträgen geordnet
x(1) ≥ x(2) . . . ≥ x(n) .
Die Elemente der absteigend geordneten Liste werden mit
x(j)
bezeichnet, daraus wird
zunächst die Merkmalssumme berechnet, danach die relativen Anteile davon und abschlieÿend die kumulierten relativen Anteile:
S=
n
X
(j)
x ,
(j)
cj = x /S,
Ci =
j=1
Die Gröÿen
Ci heiÿen Konzentrationsraten
i
X
cj .
j=1
und beschreiben den kumulierten Anteil der
i
gröÿten Merkmalsträger. Soweit deckt sich alles mit der Vorgehensweise bei der relativen
Konzentration, nur erfolgt die Kumulation von oben nach unten und nicht von unten
nach oben. Zeichnet man die geordneten Paare
(i, Ci )
in ein kartesisches Koordinaten-
system ein und verbindet man die Punkte mit den Koordinaten
so heiÿt der daraus resultierende Polygonzug
(0, 0), (1, C1 ), . . . , (n, 1),
Konzentrationskurve .
Die maximale Kon-
zentration ist erreicht, wenn der gröÿte Merkmalsträger die gesamte Merkmalssumme
auf sich vereinigt. Dann gelten
x(1) = S, x(2) = x(3) = · · · = x(n) = 0,
C1 = C2 = · · · = Cn = 1
In der folgenden Abbildung ist die Konzentrationskurve der Bäcker von Beispiel 5.1
zu sehen.
Abbildung 5.6: Arbeitsblatt für Konzentrationskurve, Rosenbluth- und Herndahl-Index
In der ersten Spalte stehen die jährlichen Gewinne der fünf Bäcker, in der zweiten
folgen die Gewinnzahlen abnehmend geordnet. Dann werden die relativen Anteile berechnet, die zugehörigen Konzentrationsraten
Ci
stehen in der übernächsten Spalte. Da-
zwischen, also in der Spalte D habe ich die Laufzahlen
i
der Bäcker eingetragen. Die
59
5 Darstellung und Kennzahlen von Konzentration
Konzentrationskurve ist dann wieder der Polygonzug, der zum Bereich D2:E8 gehört.
Die Spalten F und G dienen der Berechnung von zwei weiteren Kennzahlen, die ich jetzt
nacheinander vorstelle.
5.4.2 Rosenbluth-Index
So wie der Gini-Koezient aus der Lorenzkurve abgeleitet wird, stammt der
Index
Rosenbluth-
aus der Konzentrationskurve. Anders als der Gini-Koezient wird aber nicht die
Fläche zwischen der Diagonalen und dem Graph der Konzentrationskurve herangezogen,
y = 1, wobei die y-Achse die
n Trapezen, wobei das erste zu
sondern die Fläche oberhalb dieses Graphen bis zur Geraden
natürliche linke Begrenzung ist. Diese Fläche besteht aus
einem Dreieck verkümmert ist. Ich habe die Trapeze in der Abbildung 5.6 abwechselnd
grau und weiÿ ausgefüllt. Die Breite de Trapeze sind die
ist
i − 0, 5.
F =
n
X
ci (i − 0, 5) =
i=1
da die
ci
ci ,
die durchschnittliche Höhe
Damit hat die besagte Fläche den Inhalt
n
X
ci i − 0, 5
n
X
i=1
ci =
i=1
n
X
ci i − 0, 5,
i=1
F liegt zwischen 1/2 und n/2, denn
somit F = 1/2, während bei gleichmäÿiger
aufsummiert 1 ergeben. Der Wert von
bei maximaler Konzentration ist
c1 = 1
und
Verteilung der Graph der Konzentrationskurve mit der Diagonalen des Rechtecks mit
den Seitenlängen 1 und
gröÿer ist
F,
n
deshalb wäre
Wert zwischen
2/n
zusammenfällt. Je geringer also die Konzentration ist, umso
1/F
ein gutes Konzentrationsmaÿ. Allerdings verliefe dessen
und 2, weswegen der Rosenbluth-Index,
festgelegt wird und zwischen
KR =
1/n
2
KR
genannt, durch
und 1 liegt. Ich halte das in einer Formel fest
1
,
i=1 ci i − 1
Pn
1/n ≤ KR ≤ 1.
In der Spalte F des abgebildeten Arbeitsblatts stehen die Produkte
wird der Rosenbluth-Index,
KR
1/(2F )
(5.3)
ci i .
In der Zelle F8
durch die Excel-Formel
= 1/(2 ∗ SU M M E(F 3 : F 7) − 1)
berechnet.
5.4.3 Herndahl-Index
Der
Herndahl-Index KH
ist bekannteste Maÿ der absoluten Konzentration. Er berech-
net sich aus der Summe der Quadrate der relativen Anteile an der Merkmalssumme,
also
KH =
n
X
i=1
60
c2i
Pn
x2
= Pni=1 i 2 .
( i=1 xi )
(5.4)
5.4 Absolute Konzentration
Man muss zur Berechnung dieses Index noch nicht einmal die Urliste ordnen. Ich habe
die Spalte G für den Herndahl-Index eingerichtet. Hier benden sich im Bereich G3:G7
die Quadrate der
ci
und in der Zelle G8 die Formel
= SU M M E(G3 : G7)
Der Herndahl-Index ist eng mit dem Variationskoezient
KH =
vX
verwandt. Es gilt
2
vX
+1
.
n
(5.5)
n Werte xj gleich sind.
1/n. Damit ergibt sich die Untergrenze des Herndahl-Index
Der Herndahl-Index nimmt seinen kleinsten Wert an, wenn alle
Dann haben alle ci den Wert
aus
min
KH
n
X
=
(1/n)2 = n/n2 = 1/n.
i=1
Bei vollständiger Konzentration ergibt sich sofort
max
KH
= 1.
Der Herndahl-Index wird in den USA auch als Herndahl-Hirschman Index bezeichnet. Er wird auch zuweilen mit Zinsfüÿen berechnet, statt etwa 0,75 wird dann mit 75
gerechnet. Der Wertebereich ist dann
100/n ≤ KH ≤ 100.
Der Herndahl-Index wird
eingesetzt, um die Wettbewerbssituation in Märkten zu beurteilen. Geringer Wettbewerb
wird in der Wirtschaftstheorie für schädlich gehalten, da Monopolbildungen, Absprachen
und mangelnde Ezienz die Folge sind. Der Herndahl-Index wird herangezogen, wenn
in problematischen Märkten Zusammenschlüsse oder Übernahmen beantragt werden.
Das amerikanische Wikipedia schreibt dazu am 13.8.2011:
If the Herndahl index is above a certain threshold then economists consider
the market to have a high concentration. The Antitrust Division of the Department of Justice considers Herndahl indices between 0.1000 and 0.1800
to be moderately concentrated and indices above 0.2500 to be concentrated, while the EU prefers to focus on the level of change, for instance that
concern is raised if there is a 0.025 change when the index already shows a
concentration of 0.1.
In den USA gelten Werte des Herndahl-Index unter 0,1 für unbedenklich, bei Werten
zwischen 0,1 und 0,18 sieht man Anhaltspunkte für Konzentration und deutet Werte
über 0,25 als klares Zeichen von hoher Konzentration. Die EU, also die Europäische
Union, möchte es erst gar nicht zu hoher Konzentration kommen lassen, und schaut
bei möglichen Zusammenschlüssen auf die Veränderung des Herndahl-Index und sieht
Zuwächse von mehr als 0,025 kritisch, wenn der Herndahl-Index vorher bereits über 0,1
war.
Beispiel 5.5.
Das US-Wikipedia liefert auch gleich ein Beispiel eines Marktes für was
auch immer mit 26 Firmen, zufällig genauso viel wie das Alphabet Buchstaben hat. Die
61
5 Darstellung und Kennzahlen von Konzentration
Gesellschaften heiÿen nach Buchstaben und haben folgende Marktanteile: A: 0,3, B bis
F jeweils 0,1 und G bis Z jeweils 0,01. Der Herndahl-Index ist somit
KH = 0, 32 + 5 · 0, 12 + 20 · 0, 012 = 0, 142.
Wenn jetzt C beantragt B und D zu übernehmen, verändert sich der Herndahl-Index
wie folgt
KH = 0, 32 + 0, 32 + 2 · 0, 12 + 20 · 0, 012 = 0, 202.
Nach amerikanischer Auslegung ist das kein Problem, denn der Herndahl-Index bleibt
auch nach dem Zusammenschluss unter 0,25, mit europäischen Augen gesehen, steigt
der Herndahl-Index aber von einem Wert über 0,1 um mehr als 0,025.
5.4.4 Relative Daten
Die Konzentrationskurve sowie der Rosenbluth- und der Herndahl-Index werden aus
den relativen Anteilen der Merkmalsträger an der Merkmalssumme berechnet. Deshalb
werden manchmal auch nur relative Werte angegeben, wie im folgenden Beispiel, das
Konzentration als einen zeitabhängigen Vorgang darstellt.
Beispiel 5.6.
In Costa Asturia wird der Energiemarkt durch fünf Unternehmen abge-
deckt, deren Marktanteile für das Jahr 2000 in der Spalte A der Abbildung 5.7 zu nden
sind. Die Konzentrationskurve sowie der Rosenbluth-Index
KH
KR und der Herndahl-Index
werden allein aus den relativen Daten erzeugt. Im Jahr 2010 war der vormals kleins-
te Anbieter durch Übernahme vom Markt verschwunden und zusätzlich haben sich die
Marktanteile zugunsten des ersten Anbieters drastisch verschoben, siehe Spalte J. Dies
wirkt sich auch auf die Konzentrationskurve aus und verändert die beiden Indizes eindrucksvoll.
A
B
C
D
E
1
ci
K_H
0,40
0,25
0,20
0,10
0,05
1,00
Ci
0,00
0,40
0,65
0,85
0,95
1,00
0,00
KR
2
3
4
5
6
7
8
i
0
1
2
3
4
5
0
0,400
0,500
0,600
0,400
0,250
0,303
0,160
0,063
0,040
0,010
0,003
0,275
F
G
H I
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
J
K
L
M
N
ci
i
0
1
2
3
4
0
Ci
0,0
0,6
0,8
0,9
1,0
0,0
KR
K_H
0,600
0,400
0,300
0,400
0,417
0,36
0,04
0,01
0,01
0,42
0,6
0,2
0,1
0,1
1,0
O
P
Q
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
Abbildung 5.7: Arbeitsblatt für absolute Konzentration bei relativen Daten
5.5 Zusammenfassung
Man unterscheidet absolute und relative Konzentration. Relative Konzentration untersucht anteilsmäÿige Ungleichverteilung an der Merkmalssumme. Das Ausmaÿ an relativer Konzentration wird durch die Lorenzkurve veranschaulicht. Der Gini-Koezient
62
5.6 Aufgaben
verdichtet die Informationen der Lorenzkurve zu einer Kennzahl, nämlich dem Zweifachen des Inhalts der Fläche zwischen der Lorenzkurve und der Winkelhalbierenden. Bei
einer geringen Zahl
n
von Merkmalsträgern wird der Gini-Koezient mit dem Faktor
n/(n − 1) multipliziert, was den normierten Gini-Koezienten ergibt. Hat der normierte
Gini-Koezient den Wert 0, ist die Merkmalssumme gleichmäÿig auf die Merkmalsträger verteilt, bei einem Wert von 1 ist die Merkmalssumme auf eine einzige statistische
Einheit konzentriert.
5.6 Aufgaben
1.) In der Kleinstadt des Beispiels 5.1 auf Seite 52 hat der erfolgreichste der fünf Bäcker
sein Geschäft auf seine zwei Söhne verteilt, die Jahresgewinne von 60 und 90 Tausend
Euro erwirtschaften. Die Jahresgewinne der anderen Bäckereien veränderten sich
nicht. Somit sind die Jahresgewinne der nun sechs Bäcker 60, 40, 60, 90, 20 und 90
in Tausend Euro.
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
b) Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten
und zeichnen Sie die Lorenzkurve.
c) Zeichnen Sie die Konzentrationskurve und berechnen sie den Rosenbluth- und
den Herndahl-Index.
2.) Auf Drängen der EU-Kommission wurde der Energiemarkt in Costa Asturia neu
geordnet, das bisher gröÿte Unternehmen wurde in drei Anbieter mit je 20 Prozent
Marktanteil aufgeteilt. Das bisher zweitgröÿte Unternehmen konnte seinen Marktanteil um fünf Prozent auf Kosten des kleinsten Unternehmens steigern, sodass die nun
sechs Anbieter Marktanteile von 25, dreimal 20, 10 und 5 Prozent haben. Zeichnen
Sie die Konzentrationskurve und berechnen sie den Rosenbluth- und den HerndahlIndex.
3.) (Anderson et al.). In der Tabelle 5.1 ist die Zahl der Personen in Privathaushalten
in der BRD 1970 aufgeführt.
Tabelle 5.1: Gröÿe von Haushalten, BRD 1970
Haushaltsgröÿe
Zahl der Haushalte in 1000
1
2
3
4
5527
5959
4314
3351
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
63
5 Darstellung und Kennzahlen von Konzentration
b) Erstellen Sie die Häugkeitstabelle und berechnen Sie den Gini-Koezienten und
zeichnen Sie die Lorenzkurve.
4.) Diese Aufgabe stammt von von der Lippe, ich habe nur andere Zahlen verwendet:
200 Angehörige eines primitiven Volksstammes, sogenannte Urmenschen, gehen
auf die Jagd nach Federvieh. Ihre Beute beträgt 1.000 Wildgänse. Durch das an sich
nur bei primitiven Völkern bekannte Gerangel um Geld, Gut und Prestige entstand
trotz Eingreifens des Häuptlings eine etwas ungleiche Verteilung der Beute. Es bekamen 78 Jäger drei, 58 fünf, 41 sechs und 23 sogar zehn Gänse. Erstellen Sie die
Lorenzkurve und berechnen Sie die beiden Gini-Koezienten.
5.) (Anderson et al.) In der folgenden Tabelle steht die Verteilung der Beschäftigten auf
Arbeitsstätten im Produzierenden Gewerbe in Westdeutschland im Jahr 1970.
Arbeitsstätten
Anzahl in 100
Beschäftigte in 1000
1 - 4
3493
735
5 - 9
1231
800
10 - 19
636
854
20 - 49
442
1350
50 - 99
176
1226
100 - 199
98
1353
200 - 499
62
1884
500 und mehr
32
4658
6170
12860
Summen
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
b) Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten
und zeichnen Sie die Lorenzkurve.
6.) (Uebe) In einem Betrieb wurden folgende Daten über die monatlichen Einkommen
(in 100
e)
der beschäftigten Frauen erhoben:
Tabelle 5.2: Fiktive Einkommen
Einkommen
Anzahl der Frauen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
(24, 30]
10
15
10
5
4
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
64
5.6 Aufgaben
b) Stellen Sie die durch die Tabelle 5.2 gegebene Einkommensverteilung als Häugkeitstabelle und als Histogramm dar und erstellen Sie dann den Graphen der
approximierenden Verteilungsfunktion.
c) Erstellen Sie die Lorenzkurve und berechnen Sie die beiden Gini-Koezienten.
d) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, unteres
Quartil, Median, oberes Quartil, die Quantile
x0,1
sowie
x0,9 ,
Mittelwert sowie
Varianz und empirische Varianz und Standardabweichung und empirische Standardabweichung und den Variationskoezient.
7.) Man beweise die Beziehung (5.5) auf Seite 61.
65
6 Einführung in die
Wahrscheinlichkeitsrechnung
6.1 Übersicht und Lernziele
Es werden einführende Themen und Begrie der Wahrscheinlichkeit vorgestellt wie
- Zufallsgeräte und Zufallsexperimente;
- Ergebnis und Ergebnismenge sowie Ereignis bei einem Zufallsexperiment;
- Laplace-Experimente;
- Mehrstuge Zuzfallsexperimente und ihre Modellierung durch Baumdiagramme;
- Produktwahrscheinlichkeitsraum
- Stochastische Unabhängigkeit und bedingte Wahrscheinlichkeit
- Der Satz von Bayes
6.2 Diskrete Verteilungen
Es gibt Experimente, deren Ausgang bis auf Messungenauigkeiten vorhersehbar ist, etwa
das Fallen eines Balles, was durch bekannte physikalische Gesetze beschrieben werden
kann. Solche Experimente und Ereignisse heiÿen deterministisch. Es gibt aber auch Experimente, deren Ausgang ungewiss ist, etwa die Bundestagswahl 2013 oder die FussballEuropameisterschaft 2012. Obwohl man hier den exakten Ausgang nicht kennt, gibt es
aber doch gewisse Gesetzmäÿigkeiten, die zur ungefähren Vorhersage des Ausgangs dienen. Im Beispiel der Bundestagswahl kann man damit rechnen, dass CDU und CSU
wieder die stärkste Fraktion bilden und wahrscheinlich auf einen Stimmenanteil zwischen 30 und 40 Prozent kommen. Im Falle der Europameisterschaft weiÿ man, dass nur
eine der 16 qualizierten Nationen gewinnen kann, somit steht schon mal eine Menge
Ω
möglicher Ausgänge fest. Das trit auch auf die Ausgänge typischer Glücksspiele zu,
beim Roulette bleibt die Kugel auf einer der Zahlen von 0 bis 36 liegen, ein Würfel
fällt auf einer der Zahlen von 1 bis 6 und eine Münze musss sich für Wappen oder Zahl
entscheiden.
67
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.1. Bei einem Zufallsexperiment gibt es eine meist mit Ω bezeichnete Menge
möglicher Ergebnisse. Diese Menge wird
Ergebnismenge des Zufallsexperiments genannt.
Die Elemente dieser Menge sind die möglichen Ausgänge des Zufallsexperiments und
werden als
Ergebnis oder Ausfall bezeichnet. Die Teilmengen von Ω werden als Ereignisse
bezeichnet. Wenn der Ausgang des Zufallsexperiments in einer Teilmenge
man: Das Ereignis
A
liegt, sagt
A ist eingetreten. Ereignisse, die nur aus einem Element, also einem
Ergebnis bestehen, werden
Elementarereignis
genannt.
Ich werde zunächst nur endliche oder abzählbar unendliche Ergebnismengen betrachten. Solche Mengen können durchgezählt werden, d.h.
Ω = { ω1 , ω2 , . . . , ωn , . . . } = { ωi : i ∈ I }.
i werden zu einer Indexmenge I zusammengefasst,
I = { 1, 2, 3, . . . , n } und bei unendlichen Mengen in der
Die Indizes genannten ganzen Zahlen
wobei bei endlichen Mengen
Regel
I=N
ist.
Die Ergebnisse beim Werfen eines Würfels sind die ganzen Zahlen von 1 bis 6, die
Ω = { 1, 2, 3, 4, 5, 6 } bilden. Möglich Ereignisse
A = { 1, 3, 5 } oder { 2, 4, 6 }. Das Ereignis A tritt also genau
zusammen die Ergebnismenge
sind etwa
die Teilmengen
dann ein,
wenn eine gerade Zahl gewürfelt wird. Für das Zufallsexperiment Werfen einer Münze
erhält man die Ergebnismenge
Ω = { Wappen, Zahl }.
Die meisten Zufallsexperimente können zumindest theoretisch beliebig oft wiederholt
ω1 , ω2 , . . . ,
ωn gibt. Bei N -maliger Wiederholung des Zufallsexperiments tritt jedes Ergebnis ωi mit
einer absoluten Häugkeit ni und einer relativen Häugkeit fi = ni /N ein. Für sehr groÿe
Werte von N werden sich in vielen Fällen die relativen Häugkeiten stabilisieren und
gegen einen Grenzwert pi konvergieren. Dieser Wert wird als die Wahrscheinlichkeit des
Eintreens des Ergebnisses ωi bezeichnet. Aus der Beschreibenden Statistik ist bekannt,
werden. Sei zunächst angenommen, dass es nur endlich viele Ergebnisse
dass die Summe der relativen Häugkeiten 1 ist, deshalb trit dies auch auf die Summe
der
n
Wahrscheinlichkeiten
pi
zu.
Diese anschaulichen Überlegungen werden nun in eine strenge mathematische Form
gebracht.
Denition 6.2.
Es sei
Ω = {ω1 , ω2 , . . . , ωn , . . .}
(6.1)
p : Ω → R heiÿt
diskrete Verteilung auf Ω, wenn
eine endliche oder abzählbar unendliche Ergebnismenge. Eine Funktion
diskrete Wahrscheinlichkeitsverteilung
oder nur kurz
folgende beide Bedingungen erfüllt sind:
p(ω1 ) + p(ω2 ) + · · · + p(ωn ) + · · · = 1
p(ωi ) ≥ 0.
Dabei wird die Zahl
gedeutet. Statt
p(ωi )
p(ωi )
(6.2)
(6.3)
als Wahrscheinlichkeit für das Eintreten des Ergebnisses
schreibt man meist nur
ωi
pi .
Eine diskreten Wahrscheinlichkeitsverteilung kann also durch eine Tabelle beschrieben
werden, in deren beiden Zeilen die Ergebnismenge
68
Ω
und die Verteilung
p
stehen:
6.3 Laplace-Experimente
Tabelle 6.1: Diskrete Wahrscheinlichkeitsverteilung
Ω ω1
ω2
...
ωn
p
p2
...
pn
p1
6.3 Laplace-Experimente
Bei manchen Zufallsexperimeneten lassen sich die exakten Wahrscheinlichkeiten angeben. Bei einem sehr gut gearbeiteten Würfel sollte jede der sechs Seiten mit gleicher
Wahrscheinlichkeit oben erscheinen, bei einer Münze sollten beide Seiten mit gleicher
Wahrscheinlichkeit fallen und aus einem gut durchgemischten Kartenstapel sollte jede
Karte mit derselben Wahrscheinlichkeit gezogen werden können. Zufallsexperimente dieser Art werden
n
Laplace-Experimente
genannt. Bei einem Laplace-Experiment gibt es nur
Ergebnisse, die alle mit derselben Wahrscheinlichkeit
1/n
auftreten. Zufallsgeräte wie
Münzen und Würfel, die Laplace-Experimente erzeugen, werden meist fair, ideal oder
Laplace genannt. Obwohl es fast unmöglich ist, Würfel oder Münzen mit perfekter
Symmetrie zu bauen, wird man in viel Modellen von einem Laplace-Experiment ausgehen. Beim Lotto mit 49 Zahlen scheint die Durchmischung so gut zu gelingen, dass
jede Zahl eine Wahrscheinlichkeit von
1/49
hat. Ein Casino muss im eigenen Interesse
Sorge dafür tragen, dass alle Zahlen von 0 bis 36 mit derselben Wahrscheinlichkeit
1/37
auftreten, da sonst Verluste drohen.
Halten wir das Gesagte in einer Denition fest.
Denition 6.3.
Ein Zufallsexperiment auf einer
endlichen
Menge
Ω = { ω1 , ω2 , . . . , ωn }
heiÿt eine Laplace-Experiment, wenn alle Wahrscheinlichkeiten
Solche Verteilungen werden
Gleichverteilungen
(6.4)
pi
den Wert
1/n
haben.
genannt.
Betrachten wir einige Laplace-Experimente und die zugehörigen Ergebnismengen.
Ω = {Wappen, Zahl } beschreibt das Werfen einer fairen MünVerteilung ist pi = 1/2, i = 1, 2.
1. Die Ergebnismenge
ze. Die zugehörige
2. Beim Werfen eines fairen Würfels, auch als Laplace-Würfel oder L-Würfel bezeichnet, erhält man die Ergebnismenge
ist
Ω = { 1, 2, 3, 4, 5, 6 }. Die zugehörige Verteilung
pi = 1/6, i = 1, . . . , 6.
3. Beim Roulette erhält man die Ergebnismenge
rige Verteilung ist
Ω = { 0, , 1, 2, . . . , 36 }.
Die zugehö-
pi = 1/37, i = 0, . . . , 36.
6.4 Allgemeine Zufalls-Experimente
Zufallsexperimente basieren oft auf Geräten, die so konstruiert sind, dass der Ausgang nicht vorhersehbar ist, eben zufällig, aber nicht beliebig. Beim Lotto wird eine
69
6 Einführung in die Wahrscheinlichkeitsrechnung
Trommel mit 49 Kugeln sehr lange und sehr raniert durchmischt, sodass jede Kugel dieselbe Wahrscheinlichkeit zu fallen hat. Ich werde in Anlehnung an Engel Geräte mit zufälligem Ausgang Zufallsgeräte nennen. Die bisher beschriebenen LaplaceZufallsexperimente sind das Ergebnis der Zufallsgeräte Münze, Würfel und Roulettekessel. In der Abbildung 6.1 sind Zufallsgeräte zu sehen, die nicht zu Gleichverteilungen
führen.
G
R
R
G
G
B
RG-Rad
ANANAS
RGB-Rad
KSW-Urne
ANS-Urne
1
2 3 3
3
3
B-Würfel
Abbildung 6.1: Zufallsgeräte
Links sehen Sie zwei Glücksräder. Ein Glücksrad ist ein Zufallsgerät, wenn der Zeiger
mit groÿer Geschwindigkeit angestoÿen wird und dann zufällig in einer beliebigen Winkelposition zur Ruhe kommt. Die Wahrscheinlichkeit, dass der Zeiger dann in einem der
Sektoren steht, ist proportional zum Winkel des Sektors. Das berühmteste Glücksrad ist
der Roulettekessel mit 37 gleich groÿen Sektoren. Bei Urnen erfolgt die zufällige Auswahl durch einem blinden, des Lesens unkundigen Aen, dem zur Sicherheit die Augen
verbunden werden. Ganz rechts ist die Abwicklung eines Würfels zu sehen, bei dem nur
die Zahlen von 1 bis 3 vorkommen. Die Grundmengen und die zugehörigen Verteilunge
sind dann wie folgt.
1. Beim linken Glücksrad sei der kleinere Sektor rot (R), der gröÿere grün (G). Damit
erhält man die Ergebnismenge
1/4
und
pG = 3/4,
Ω = {R, G }
mit den Wahrscheinlichkeiten
pR =
da der grüne Sektor dreimal so groÿ wie der rote ist. Dieses
Zufallsgerät werde ich RG-Rad nennen.
2. Beim rechten Glücksrad sei der kleinste Sektor rot (R), der nächst gröÿere grün
Ω = {R, G, B }
pB = 1/2, da der zweite
(G) und der gröÿte blau (B). Damit erhält man die Ergebnismenge
mit den Wahrscheinlichkeiten
pR = 1/6, pG = 1/3
und
Sektor doppelt so groÿ wie der erste ist und der dritte genauso groÿ wie die beiden
anderen zusammen. Dieses Zufallsgerät werde ich RGB-Rad nennen.
3. Die linke Urne enthält vier schwarze (S), acht weiÿe (W) und 10 karierte (K)
Ω = {S, W, K }. Die zugehörigen
= 4/11 und pK = 5/11. Dieses Zufalls-
Kugeln. Damit erhält man die Ergebnismenge
Wahrscheinlichkeiten sind
pS = 2/11, pW
gerät werde ich KSW-Urne nennen.
4. Die rechte Urne enthält drei A, zwei N und ein S. Damit erhält man die Ergebnismenge
pN = 1/3
70
Ω = {A, N, S }. Die zugehörigen Wahrscheinlichkeiten sind pA = 1/2,
pS = 1/6. Dieses Zufallsgerät werde ich ANS-Urne nennen.
und
6.5 Wahrscheinlichkeit von Ereignissen
5. Der Würfel enthält je eine Seite mit den Zahlen 1 und 2 und vier Seiten mit der
Ω = { 1, 2, 3 } mit der Wahrscheinp3 = 2/3. Dieses Zufallsgerät werde ich
Zahl 3. Damit erhält man die Ergebnismenge
lichkeitsverteilung
p1 = p2 = 1/6
sowie
B-Würfel nennen.
6.5 Wahrscheinlichkeit von Ereignissen
Bei Zufallsexperimenten sind nicht nur die Wahrscheinlichkeiten der Ergebnisse wichtig,
sondern auch die Wahrscheinlichkeit von Ereignissen
nismenge
Ω
A,
die als Teilmengen der Ergeb-
betrachtet werden. Beim Monopoly möchte man gern den Besuch teurer
Grundstücke vermeiden und ermittelt die Wahrscheinlichkeit für bestimmte den Ruin
bedeutende Augenzahlen wie etwa 6, 7 oder 9. Beim Roulette kann man auf die ungeraden Zahlen setzen mit der Ereignismenge
U = { 1, 3, . . . , 35 }.
Bei bekannter Verteilung
kann man jeder Teilmenge
A = { ωr , ωs , . . . , ωt }
(6.5)
auf naheliegende Weise eine Wahrscheinlichkeit zuweisen, die man mit einem groÿen
P
abkürzt
P (A) = pr + ps + . . . + pt .
(6.6)
Diese Festsetzung lässt sich problemlos auf unendliche Teilmengen von
wenn
Ω
Ω
erweitern,
abzählbar ist.
Besonderes einfach ist die Bestimmung der Wahrscheinlichkeiten von Ereignissen bei
Laplace-Experimenten mit der Ergebnismenge
lichkeit eines Ereignisses
P (A) =
Für eine beliebige Menge
mente von
A
Ω.
Hier ergibt sich für die Wahrschein-
A:
A
Anzahl der Elemente von
Anzahl der Elemente von
wird mit
|A|
|A|
A
=
.
Ω
|Ω|
(6.7)
die Anzahl der Elemente bezeichnet. Die Ele-
werden günstige, die Elemente von
Ω
mögliche Fälle genannt. Daher sagt
man bei Laplace-Ereignissen, dass die Wahrscheinlichkeit eines Ereignisses das Verhältnis der für
A
günstigen zu den möglichen Fällen ist
P (A) =
Anzahl der für
A
günstigen Fälle
Anzahl der möglichen Fälle
.
(6.8)
Bei einem fairen Würfel beträgt die Wahrscheinlichkeit eine ungerade Zahl zu werfen
somit 3/6, denn es gibt 3 günstige und 6 mögliche Fälle. Setzt man im Roulette auf die
ungeraden Zahlen, sind 18 Ausfälle günstig und wegen der 0 sind 37 Fälle möglich, die
Wahrscheinlichkeit des Ereignisses ist somit 18/37.
∅ den Wert 0 zu, wird durch 6.6 eine Abbildung P :
P(Ω) → R hergestellt, wobei P(Ω) die Potenzmenge von Ω bezeichnet. Diese Abbildung
Weist man der leeren Menge
erfüllt die in der folgenden Denition geforderten Eigenschaften.
71
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.4.
P(Ω)
Ω
Es sei
eine abzählbare Ergebnismenge eines Zufallsexperiments und
die Potenzmenge von
scheinlichkeitsmaÿ
Ω.
P : P(Ω) → R ein WahrΩ, wenn sie folgenden Axiomen
Dann heiÿt eine Abbildung
oder kurz eine
Wahrscheinlichkeit
auf
genügt:
0 ≤ P (A).
1. Nichtnegativität:
2. Normiertheit:
3. Additivität:
(Ω, P )
Das Paar
P (Ω) = 1.
P (A ∪ B) = P (A) + P (B),
falls
A ∩ B = ∅.
wird ein abzählbarer Wahrscheinlichkeitsraum genannt.
Es lässt sich umgekehrt sehr leicht zeigen, dass zu jedem abzählbaren Wahrscheinlichkeitsraum
(Ω, P ) genau eine Verteilung p gehört, sodass die Wahrscheinlichkeit eines
A über die Gleichung 6.6 erfolgt. Damit sind für abzählbare Ergebnismen-
Ereignisses
gen die beiden Denitionen 6.2 und 6.4 gleichwertig. Da Verteilungen nur die beiden
einfachen Bedingungen (6.2) und (6.3) erfüllen müssen, ist es meist einfacher Verteilungen zu bestimmen.
6.6 Rechenregeln für Ereignisse
Halten wir noch einmal fest, dass jedes Ereignis durch eine Teilmenge
menge
Ω
A
der Ergebnis-
dargestellt wird. Man sagt, das Ereignis A ist eingetreten, wenn das Ergeb-
nis des Zufallsexperiments ein Element von
A
ist. Die zugeordnete Wahrscheinlichkeit
des Eintretens des Ereignisses ist durch den Wert
P (A)
des Wahrscheinlichkeitsmaÿes
bestimmt. Aus den Axiomen der Denition 6.4 lassen sich eine Reihe nützlicher Rechenregeln herleiten. Zunächst seien noch einige Aussagen und Bezeichnungen eingeführt.
(1) Die Menge
Ω
wird als sicheres Ereignis bezeichnet, weil es immer eintritt.
(2) Die leere Menge
∅
heiÿt das unmögliche Ereignis, das niemals eintritt.
(3) Ein Ereignis, das genau dann eintritt, wenn
komplementäre Ereignis
Ereignis
Ā
ergibt genau
(4) Das Ereignis
(5) Das Ereignis
A∩B
A ⊂ Ω
nicht eintritt, heiÿt das zu
Ā ⊂ Ω. Die Vereinigung von A und dem komplementären
Ω, daher wird Ā auch durch das Symbol Ω \ A dargestellt.
tritt genau dann ein, wenn sowohl
A∪B
A
tritt genau dann ein, wenn
A
A
als auch
oder
B
B
eintreten.
(oder beide zugleich)
eintreten.
A und B heiÿen unverträglich, wenn sie nicht beide zugleich eintreten
A ∩ B = ∅.
(6) Zwei Ereignisse
können, d.h.
(7) Die Dierenz
B
72
eintritt.
A\B
der Ereignisse
A und B
tritt genau dann ein, wenn
A aber nicht
6.6 Rechenregeln für Ereignisse
Aus der Denition 6.4 lassen sich eine Reihe von Folgerungen ableiten, die ohne Beweis
im folgenden Satz zusammengestellt werden.
Satz 6.1. Für die Funktion P (A) gelten folgende Gesetze:
1. Für das unmögliche Ereignis ∅ gilt: P (∅) = 0.
2. Für das zum Ereignis A komplementäre Ereignis Ā gilt: P (Ā) = 1 − P (A).
3. Für die Vereinigung zweier beliebiger Ereignisse A und B gilt:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (A ∪ B) ≤ P (A) + P (B)
P (A ∪ B) = P (A) + P (B), wenn A ∩ B = ∅
4. Für die Dierenz zwischen den beliebigen Ereignissen B und A gilt:
P (B \ A) = P (B) − P (A ∩ B)
5. Für zwei Ereignisse A und B mit der Beziehung A ⊂ B gilt:
P (A) ≤ P (B),
P (B) = P (A) + P (B \ A).
Ich werde diese Regeln am bereits vertrauten Modell des Laplace-Würfels erläutern.
Beispiel 6.1.
Ein Laplace-Würfel werde einmal geworfen, das Ergebnis wird mit
X
bezeichnet. Wir betrachten folgende vier Ereignisse
A = { 1, 3, 5 }
a)
X
ist ungerade. Dies ergibt die Menge
b)
X
ist gerade. Dies ergibt die Menge
c)
X < 3.
Dies ergibt die Menge
C = { 1, 2 }
d)
X = 4.
Dies ergibt die Menge
D = {4}
Die Menge
B
ist komplementär zu
mit
B = Ā = { 2, 4, 6 }
mit
mit
P (A) = 1/2.
mit
P (B) = 1/2.
P (C) = 1/3.
P (A) = 1/6.
A, und es gilt 1 = P (A) + P (B). Der Durchschnitt
von A und C ist die Menge E = { 1 },
F = { 1, 2, 3, 5 }. Es gilt damit
die Vereinigung der beiden Mengen ist die Menge
P (F ) = P (A ∪ C) = 2/3 = 1/2 + 1/3 − 1/6 = P (A) + P (C) − P (A ∩ C).
Der Durchschnitt der Mengen
die Menge
G = { 1, 3, 4, 5 }.
A
und
D
ist leer, die Vereinigung beider Mengen ergibt
Es gilt damit
P (G) = P (A ∪ D) = 2/3 = 1/2 + 1/6 = P (A) + P (D).
Die Menge
{ 3, 5 }.
A\C
enthält alle Elemente von
A,
die nicht in
C
liegen, also ist
Der Durchschnitt beider Mengen besteht nur aus der Menge
{1}
A\C =
und damit ist
dann
P (A \ C) = 1/3 = P (A) − P (A ∩ C) = 1/2 − 1/6.
73
6 Einführung in die Wahrscheinlichkeitsrechnung
Das folgenden Beispiel stammt von Mayer:
Beispiel 6.2.
Ein Student muss zwei Klausuren in den Fächern A und B schreiben, die
er mit den Wahrscheinlichkeiten 0,7 und 0,8 besteht. Beide Klausuren besteht er mit
einer Wahrscheinlichkeit von 0,6. Wie hoch ist die Wahrscheinlichkeit wenigstens eine
Klausur zu bestehen?
Seien die zu den Ereignissen gehörenden Mengen ebenfalls
A und B
genannt, so gilt also
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 7 + 0, 8 − 0, 6 = 0, 9
Beispiel 6.3.
In einer Urne benden sich 100 Kugeln mit den Nummern 1 bis 100. Eine
Kugel werde zufällig gezogen, deren Nummer sei
keiten der folgenden vier Ereignisse: a)
c)
X
X
X.
enthält die Zier 9 und ist durch 6 teilbar. d)
die Zier 9. e)
X
Wie hoch sind die Wahrscheinlich-
ist durch 6 teilbar. b)
X
X
enthält die Zier 9.
ist durch 6 teilbar oder enthält
ist durch 6 teilbar, enthält aber nicht die Zier 9.
Hier ist für a) zunächst die Ereignismenge
Für b) wird die Menge
B
durch 6 zu bilden.
mit allen Zahlen zwischen 1 und 100, die die Zier 9 enthalten.
A ∪ B und
Menge A \ B .
für c) wird die Ereignismenge
abschlieÿend für e) die
A für die Teilbarkeit von X
für d) die Ereignismenge
A∩B
benötigt und
A = { 6, 12, 18, . . . , 90, 96 }
B = { 9, 19, 29, . . . , 90, 91, . . . , 99 }
A ∩ B = { 90, 96 }
Die Mengen
A
und
B
bestehen aus 16 bzw. 19 Zahlen, der gemeinsame Durchschnitt
aus zwei Zahlen. Somit gilt zunächst
P (A) = 16/100 = 0, 16
P (B) = 19/100 = 0, 19
P (A ∩ B) = 2/100 = 0, 02
Damit ergeben sich weiter
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 16 + 0, 19 − 0, 02 = 0, 33
P (A \ B) = P (A) − P (A ∩ B) = 0, 16 − 0, 02 = 0, 14
6.7 Abhängige mehrstuge Zufallsexperimente
Bisher wurden nur einstuge Zufallsexperimente betrachtet wie etwa das einmalige Werfen einer Münze. Eine Folge einstuger Zufallsexperimente wird als stochastischer Prozess oder ein mehrstuges Zufallsexperiment genannt, etwa das Ziehen der Lottozahlen.
Mehrstuge Zufallsexperimente werden oft durch Baumdiagramme dargestellt. Von einem Anfangsknoten verzweigen sich die Zweige zu den Ergebnissen des ersten Experiments, wobei deren Wahrscheinlichkeiten an die Kanten geschrieben werden. Von jedem
74
6.7 Abhängige mehrstuge Zufallsexperimente
Ergebnis der ersten Stufe gehen dann die der zweiten Stufe aus, wobei eine Baumstruktur
entsteht. Betrachten wir dazu ein Beispiel.
Beispiel 6.4.
In einer Urne benden sich die vier Buchstaben ANNE, d.h. der Buchsta-
be N kommt zweimal vor. Unser hilfreicher blinder Ae zieht mit verbundenen Augen
zwei Buchstaben ohne Zurücklegen, wobei die Reihenfolge beachtet wird. Welche Kombinationen ergeben sich mit welchen Wahrscheinlichkeiten?
Start
1/4
1/4
A
1/2
E
N
1/3
2/3
1/3
2/3
1/3
E
N
A
N
A
1/3
1/3
E
N
Abbildung 6.2: Baumdiagramm zum Beispiel 6.4
In der ersten Stufe werden die Buchstaben A und E mit der Wahrscheinlichkeit von 1/4
und ein N mit einer Wahrscheinlichkeit von 1/2 gezogen. Auf ein A folgt ein E mit einer
Wahrscheinlichkeit 1/3 und ein N mit einer Wahrscheinlichkeit von 2/3, also haben die
Ergebnisse AE und AN die Wahrscheinlichkeiten
1/4 · 1/3 bzw. 1/4 · 2/3. Auf ein E folgt
ein A mit einer Wahrscheinlichkeit 1/3 und ein N mit einer Wahrscheinlichkeit von 2/3,
also haben die Ergebisse AE und AN die Wahrscheinlichkeiten
1/4 · 1/3
bzw.
1/4 · 2/3.
Auf ein N folgen alle drei Buchstaben mit einer Wahrscheinlichkeit von 1/3, also haben
die Ergebnisse NA, NE und NN jeweils die Wahrscheinlichkeiten
1/2 · 1/3.
Das wird
viel übersichtlicher durch das abgebildete Baumdiagramm. Die folgende Tabelle zeigt
die Ergebnismenge
Ω
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.2: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.4
Ω
AE
AN
EA
EN
NA
NE
NN
p
1/12
1/6
1/12
1/6
1/6
1/6
1/6
Das Ereignis, dass der zweite Buchstabe ein N ist, entspricht der Menge
A = { AN, EN, N N }
mit
P (A) = 3 · 1/6 = 1/2
Die Vorgehensweise bei mehrstugen Zufallsexperimenten ist also wie folgt.
1. Die Zweige jeder Stufe werden mit den Wahrscheinlichkeiten belegt und führen zu
den Knoten, welche die Ergebnisse dieser Stufe darstellen.
2. Die Wahrscheinlickeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten längs des Pfades. Dies wird als
Pfadregel
bezeichnet.
75
6 Einführung in die Wahrscheinlichkeitsrechnung
3. Zur Berechnung der Wahrscheinlichkeit eines bestimmten Ereignisses werden alle
Pfade bestimmt, die zu diesem Ereignis gehören und die einzelnen Wahrscheinlichkeiten werden entsprechend der Pfadregel berechnet und zusammengezählt.
Nun sollten Sie das folgende Beispiel von Engel selbst lösen können.
Beispiel 6.5.
In einer Urne benden sich die Buchstaben des Wortes ANANAS. Es
werden zwei Buchstaben zufällig ohne Zurücklegen gezogen. Bestimmen Sie die Ergebnismenge und die Verteilung. Mit welcher Wahrscheinlichkeit ist der zweite Buchstabe
kein A?
Zunächst wird das Baumdiagramm erstellt, siehe Abbildung 6.3.
Start
1/2
1/3
A
2/5
N
2/5
A
1/6
1/5
N
3/5
S
A
S
1/5
1/5
N
S
3/5
2/5
A
N
Abbildung 6.3: Baumdiagramm von Beispiel 6.5
Daraus ergeben sich die Ergebnismenge und die Verteilung
Tabelle 6.3: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.5
Ω
AA
AN
AS
NA
NN
NS
SA
SN
p
1/5
1/5
1/10
1/5
1/15
1/15
1/10
1/15
Das Ereignis, dass der zweite Buchstabe kein A ist, entspricht der Menge
A = { AN, AS, N N, N S, SN } mit P (A) = 1/5 + 1/10 + 1/15 + 1/15 + 1/15 = 1/2
6.8 Unabhängige mehrstuge Zufallsexperimente
Die bisher betrachteten mehrstugen Zufallsexperimente hatten in jeder Stufe Ergebnismengen, die vom Ausgang der vorherigen Stufen abhängig waren. Beim Ziehen von
Buchstaben aus den Urnen fehlen die bereits gezogenen Buchstaben. Das wird anders,
wenn die gezogenen Buchstaben wieder in die Urne zurückgelegt werden. Es werden jetzt
mehrstugen Zufallsexperimente betrachtet, bei denen jede Stufe durch einen Wahrscheinlichkeitsraum
(Ωi , Pi )
beschrieben werden kann und wo sich die einzelnen Stufen
nicht gegenseitig beeinussen.
76
6.8 Unabhängige mehrstuge Zufallsexperimente
Beispiel 6.6. Beginnen wir mit der Urne, worin die Buchstaben ANNE liegen, abe diesmal wird der gezogene Buchstabe zurückgelegt. Welche Kombinationen ergeben sich bei
zweimaligem Ziehen mit welchen Wahrscheinlichkeiten? Mit welcher Wahrscheinlichkeit
ist der zweite Buchstabe ein N?
Start
1/4
1/4
1/2
A
1/4
E
1/4
A
1/2
E
1/4
N
N
1/4
A
1/2
E
1/4
N
1/4
A
1/2
E
N
Abbildung 6.4: Baumdiagramm zum Beispiel 6.4
Durch das Zurücklegen sind alle Verzweigungen der zweiten und der ersten Stufe gleich
In der ersten Stufe werden die Buchstaben A und E mit der Wahrscheinlichkeit von
1/4 und ein N mit einer Wahrscheinlichkeit von 1/2 gezogen, und dies bleibt auch so
in der zweiten Stufe. Die Wahrscheinlichkeit eines Paars wie AE ist das Produkt der
Einzelwahrscheinlichkeiten also
die Ergebnismenge
Ω
p(AE) = p(A)p(E) = 1/16.
Die folgende Tabelle zeigt
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.4: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.6
Beispiel 6.7.
Ω
AA
AE
AN
EA
EE
EN
NA
NE
NN
p
1/16
1/16
1/8
1/16
1/16
1/8
1/8
1/8
1/4
Beide Zeiger der Glücksräder der Abbildung 6.1 auf Seite 70 werden un-
abhängig voneinander in Schwung gebracht. Der Zeiger des ersten Glücksrad kann im
roten oder im dreimal so groÿen grünen Sektor stehen bleiben, während der Zeiger des
zweiten Glücksrads sogar in drei Sektoren enden kann. Die erste Stufe des Zufallsex-
Ω1 = { r, g } mit den Wahrscheinlichkeiten 1/4 und 1/2 und die
Ω2 = { R, G, B } mit den Wahrscheinlichkeiten 1/6, 1/3 und 1/2. Die
periments wird durch
zweite Stufe durch
Wahrscheinlichkeit eines Paars wie rR ist auch hier das Produkt der Einzelwahrscheinlichkeiten also
Ω
p(rR) = p(r)p(R) = 1/24.
Die folgende Tabelle zeigt die Ergebnismenge
mit den zugehörigen Wahrscheinlichkeiten, also die Verteilung.
Tabelle 6.5: Diskrete Wahrscheinlichkeitsverteilung von Beispiel 6.7
Ω
rR
rG
rB
gR
gG
gB
p
1/24
1/12
1/8
1/8
1/4
3/8
Bei unabhängigen mehrstugen Zufallsexperimenten ist ein Baumdiagramm eigentlich
überüssig. Ich zeige es trotzdem:
77
6 Einführung in die Wahrscheinlichkeitsrechnung
Start
1/6
1/4
3/4
r
g
1/3
R
1/2
G
1/6
B
1/3
R
1/2
G
B
Abbildung 6.5: Baumdiagramm zum Beispiel 6.7
Die beiden Beispiele lassen sich leicht auf beliebige mehrstuge unabhängige Zufallsexperimente verallgemeinern. Ein aus
n unabhängigen Zufallsexperimenten bestehendes
Zufallsexperiment wird durch folgenden Wahrscheinlichkeitsraum beschrieben
Ω=
n
Y
Ωi = Ω1 × Ω2 × . . . × Ωn = {(ω1 , ω2 , . . . , ωn ) : ωi ∈ Ωi , 1 ≤ i ≤ n}.
(6.9)
i=1
Die Wahrscheinlichkeitsräume dieser Art nennt man
sie aus
n
(Ωi , Pi )
Wahrscheinlichkeitsräumen
Produktwahrscheinlichkeiträume , da
durch das kartesische Produkt entstehen.
Die Wahrscheinlichkeit eines Ergebnisses ist das Produkt der einzelnen Wahrscheinlichkeiten
p(ω1 , ω2 , . . . , ωn ) = p1 (ω1 )p2 (ω2 ) · · · pn (ωn ),
wobei die
pi
die Verteilungen auf
n
das kartesische Produkt Ω1 .
Wenn die
n
Stufen jewils
ni
Ωi
sind. Falls alle
Ωi
gleich
Ω1
sind, schreibt man für
Ausfälle haben, besteht der Produktwahrscheinlichkeits-
raum aus
N=
n
Y
ni
(6.10)
i=1
Ausfällen.
Beispiel 6.8.
Vier B-Würfel der Abbildung 6.1 auf Seite 6.1 werden gleichzeitig gewor-
n = 4 gleichen Stufen mit jeweils ni = 3
(i, j, k, l) zusammenfasst. Im Gegensatz zum
fen. Hier besteht das Zufallsexperiment aus
Ergebnissen, die man als Folge der Form
Beispiel 6.7 sind alle einzelnen Zufallsexperimente gleich. Die Ergebnismenge ist somit
Ω = Ω41 ,
und besteht aus
81 = 34
mit
Ω1 = { 1, 2, 3 }
Ergebnissen. Zur Berechnung der Wahrscheinlichkeit eines
Ergebnisses wird wieder die Pfadregel benutzt. Das Ergebnis
hat die Wahrscheinlichkeit von
(1, 2, 3, 3)
beispielsweise
1/6 · 1/6 · 2/3 · 2/3 = 1/81.
Ein besonders wichtiger Spezialfall der Produkträume entsteht im Zusammenhang mit
einem sogenannten
78
Bernoulli-Experiment . Darunter versteht man ein Zufallsexperiment,
6.9 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
das nur zwei Ergebnisse wie Wappen oder Zahl, Erfolg oder Misserfolg oder 1 und 0 hat.
Das erste Ergebnis soll mit einer Wahrscheinlichkeit von
Wahrscheinlichkeit von
p eintreten, das andere mit einer
1 − p.
Die n-fache unabhängige Durchführung eines Bernoullin
Experiments wird durch einen Produktraum der Form Ω1 , wobei Ω1 nur zwei Elemente
n
n
hat. Der Produktraum Ω1 hat 2 Elemente.
Beispiel 6.9.
Das Werfen von drei fairen Münzen ist ein Bernoulli-Experiment, dessen
Ergebnismenge
Ω = { W, Z }3 = { W W W, W W Z, W ZW, ZW W, W ZZ, ZW Z, ZZW, ZZZ }
aus acht gleichwahrscheinlichen Ergebnisfolgen besteht. Die Wahrscheinlichkeit genau
einmal Wappen zu werfen ist 3/8, denn das zugehörige Ereignis ist
A = { W ZZ, ZW Z, ZZW } .
Beispiel 6.10. Das sechsmalige Drehen des Glücksrads mit den Ausgängen rot und grün
ist ein Bernoulli-Experiment, dessen Ergebnismenge bereits
26 = 64
Elemente umfasst.
Beispiel 6.11. Das Werfen von zwei Würfeln ist dagegen kein Bernoulli-Experiment, da
in jeder Stufe sechs und damit mehr als zwei Ausfälle vorhanden sind. Die Ergebnismenge
Ω = { (1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), . . . , (6, 6) }
hat 36 Elemente. Jedes Paar tritt bei einem fairen Würfel mit der Wahrscheinlichkeit
1/36
auf. Beim Monopoly spielt das Ereignis einen Pasch zu werfen eine gewisse Rolle.
Ein Pasch wird durch die Menge
A = { (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6) }
dargestellt, die zugehörige Wahrscheinlichkeit hat den Wert
P (A) = 1/6.
6.9 Bedingte Wahrscheinlichkeit und stochastische
Unabhängigkeit
A und B eines Zufallsexperiments zusammen,
von B verändert sich die Wahrscheinlichkeit des
In vielen Fällen hängen zwei Ereignisse
d.h. beim Eintreen des Ausgangs
A, d.h. sie ist jetzt gröÿer oder kleiner geworden. Es kann aber auch sein,
dass das Ereignis B keinen Einuss auf das Ereignis A hat. Wenn eine Mannschaft zur
Halbzeit in einem Fuÿballspiel deutlich führt (Ereignis B ) ist die Wahrscheinlichkeit eines
Sieges (Ereignis A) höher einzuschätzen als bei einem unentschiedenen Halbzeitstand.
Eintreens von
Bei der Ziehung der Lottozahlen steigt die Wahrscheinlichkeit eines hohen Gewinns,
wenn die ersten drei gezogenen Zahlen stimmen.
79
6 Einführung in die Wahrscheinlichkeitsrechnung
Denition 6.5. Die Wahrscheinlichkeit für das Ereignis A unter der Bedingung, dass das
Ereignis
B
B
bedingte Wahrscheinlichkeit
eingetreten ist, heiÿt
und man schreibt
P (A|B).
P (A|B) =
Die Ereignisse
A
und
B
von
A unter der Bedingung
Es gilt
heiÿen
P (A ∩ B)
.
P (B)
(6.11)
unabhängig, wenn die folgende Bedingung gilt
P (A ∩ B) = P (A)P (B)
Beispiel 6.12.
(6.12)
Skat wird mit einem Blatt aus 32 Karten gespielt, die in die vier Farben
Karo, Herz, Pik und Kreuz aufgeteilt sind. Von jeder Farbe gibt es jeweils die Bilder
genannten Karten Sieben, Acht, Neun, Zehn, Bube, Dame, König und Ass. Es werde
eine Karte gezogen.
A
A∩B
P (A) = 1/8
und
ist das Ereignis Herz Dame. Hier
beiden Ereignisse
A
B sei das Ereignis für
P (B) = 1/4 sowie P (A ∩ B) = 1/32, denn
gilt also P (A ∩ B) = P (A)P (B), also sind die
sei das Ereignis für das Bild Dame und
die Farbe Herz. Somit sind
und
B
unabhängig.
Man sieht sofort, dass die Ereignisse
A
und
B
genau dann unabhängig sind, wenn die
Bedingung
P (A|B) = P (A).
erfüllt ist. Die Gleichung 6.11 wird oft nach
(6.13)
P (A ∩ B)
aufgelöst
P (A ∩ B) = P (B)P (A|B),
P (A ∩ B) = P (A)P (B|A)
(6.14)
(6.15)
Die erste Gleichungen wird immer dann verwendet, wenn man
P (B) und P (A|B) kennt
oder gut schätzen kann. Der Star des FC Bayern München Arjen Robben ist sehr oft
verletzt, er spielt in einer Saison mit der Wahrscheinlichkeit von 30 Prozent, dies ist
das Ereignis
B.
Wenn er eingesetzt werden kann, gewinnen die Bayern mit einer Wahr-
scheinlichkeit von 90 Prozent, dies ist die bedingte Wahrscheinlichkeit
das Ereignis
A
P (A|B),
wobei
ein Sieg der Bayern ist. Die Wahrscheinlichkeit, dass die Bayern sowohl
siegen als auch mit Robben spielen ist somit
P (A ∩ B) = P (B)P (A|B) = 0, 3 · 0, 9 = 0, 27.
Auch für das Ereignis Herz Dame kann die Beziehung (6.14) herangezogen werden.
Hier sind
B
das Ereignis für die Farbe Herz mit
P (B) = 1/4
A das Ereignis für
P (A|B) = 1/8, also
und
das Bild Dame. Da es in jeder Farbe genau eine Dame gibt, ist
P (A ∩ B) = P (B)P (A|B) = 1/4 · 1/8 = 1/32.
Beispiel 6.13. Ich wette darauf, dass die ersten zwei gezogenen Lottozahlen beide unter
30 sind.
Hier besteht die Ergebnismenge
Ω
aus den folgenden
49 · 48
Zahlenpaaren
Ω = { (i, j) : 1 ≤ i, j ≤ 49, i 6= j } = { (1, 2), (1, 3), . . . , (49, 48) }.
80
6.9 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
(2, 4) hat nach der Pfadregel die Wahrscheinlichkeit 1/49 ·
zuständige Ereignis A besteht aus den folgenden 29 · 28
Jedes einzelne Ergebnis, etwa
1/48.
Das für meine Wette
Zahlenpaaren
A = { (i, j) : 1 ≤ i, j ≤ 29, i 6= j } = { (1, 2), (1, 3), . . . , (29, 28) }.
Die Wahrscheinlichkeit
P (A)
lässt sich mit bedingten Wahrscheinlichkeiten bestim-
A1 und A2 die Ereignisse,
A = A1 ∩ A2 und deshalb
men. Seien
ist, so ist
dass die erste Zahl bzw. die zweite Zahl unter 30
P (A) = P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 29/49 · 28/48.
Ich werde die bedingte Wahrscheinlichkeit und die stochastische Unabhängigkeit abschlieÿend am Beispiel des Laplace-Würfels erläutern.
Beispiel 6.14.
Ein Laplace-Würfel werde einmal geworfen, das Ergebnis wird mit
X
bezeichnet. Wir betrachten folgende vier Ereignisse
A = { 1, 3, 5 }
a)
X
b)
X ≤ 3.
Dies ergibt die Menge
B = { 1, 2, 3 }
mit
P (B) = 1/2.
c)
X > 3.
Dies ergibt die Menge
C = { 4, 5, 6 }
mit
P (C) = 1/2.
d)
X < 3.
Dies ergibt die Menge
D = { 1, 2 }
e)
X = 4.
Dies ergibt die Menge
E = {4}
ist ungerade. Dies ergibt die Menge
Hier ist
von
A
P (A|B) = 2/3, denn wenn B
mit
mit
mit
P (A) = 1/2.
P (D) = 1/3.
P (A) = 1/6.
erfüllt ist, sind die Werte 1 und 3 für das Eintreen
günstig. Das ergibt sich auch aus der Formel für die bedingte Wahrscheinlichkeit
P (A|B) =
P ({ 1, 3 })
P (A ∩ B)
=
= 2/3,
P (B)
P (B)
P (A|B) > P (A).
C erfüllt ist, ist 5
also gilt für die bedingte Wahrscheinlichkeit
Dagegen ist
P (A|C) = 1/3,
denn wenn
für das Eintreen von
A
günstig. Das ergibt sich auch aus der Formel für die bedingte Wahrscheinlichkeit
P (A|C) =
P ({ 5 })
P (A ∩ C)
=
= 1/3,
P (C)
P (C)
P (A|C) < P (A).
A und D sind stochastisch unabhängig voneinander, denn wegen A ∩ D =
also gilt für die bedingte Wahrscheinlichkeit
Die Mengen
{1}
gilt
1/6 = P (A ∩ D) = P (A)P (D) = 1/2 · 1/3.
P (A|D) = P (A).
E keine gemeinsamen Elemente
gar nicht eintreten, wenn E gilt.
Somit ist
Da
A
A
kann
und
haben, ist
P (A|E) = 0,
d.h. das Ereignis
81
6 Einführung in die Wahrscheinlichkeitsrechnung
6.10 Der Satz von Bayes
Bei bestimmten Zufallsexperimenten wird die Ergebnismenge in
Bi , i = 1, . . . , n
n disjunkte Teilmengen
Ω und die
zerlegt, d.h. die Mengen ergeben vereint die Ergebnismenge
paarweisen Durchschnitte der Mengen sind leer. Dann bilden aber auch für jedes Ereignis
A⊂Ω
die Mengen
A ∩ Bi
eine Zerlegung von
A.
Deshalb gilt der folgende Satz:
Satz 1. Seien B1 , B2 ,. . . , Bn disjunkte Teilmengen, die vereint die Grundmenge Ω
ergeben. Dann gelten für jedes Ereignis A
P (A) =
P (A) =
n
X
k=1
n
X
P (A ∩ Bk ),
(6.16)
P (Bk )P (A|Bk )
(6.17)
k=1
Dies ist der sogenannte
Satz von der totalen Wahrscheinlichkeit
.
Die Gleichung (6.17) folgt aus (6.16) wegen
P (Bk )P (A|Bk ) = P (A ∩ Bk ).
Der Satz wird durch die Abbildung verdeutlicht.
B1 B2 B3
...
Bk
...
Ω
P(Bk)
Bn
P(B1)
B1
A
…
P(A|B1)
P(Bn)
Bk
P(A|Bk)
Ω
…
Bn
P(A|Bn)
A
Abbildung 6.6: Der Satz von der totalen Wahrscheinlichkeit
Nun wird die umgekehrte Frage gestellt: Wie hoch ist die Wahrscheinlichkeit für das
Ereignis
Bk , wenn man weiÿ, dass A eingetreten ist? Gefragt ist also nach der bedingten
P (Bk |A). Sei P (A) > 0, dann gilt
Wahrscheinlichkeit
P (Bk |A) = P (A ∩ Bk )/P (A) = P (Bk )P (A|Bk )/P (A),
woraus der berühmte Satz von Bayes folgt.
Satz 2. Seien B1 , B2 ,. . . , Bn disjunkte Teilmengen, die vereint die Grundmenge Ω
ergeben und A ein Ereignis mit P (A) > 0. Dann ist
P (Bk )P (A|Bk )
P (Bk |A) = Pn
i=1 P (Bi )P (A|Bi )
82
(6.18)
6.10 Der Satz von Bayes
Beispiel 6.15.
Betrachten wir eine Autofabrik, die ihre Gesamtproduktion eines be-
stimmten Autotyps auf drei Werke verteilt. Das erste Werk produziert 50, das zweite
Werk 30 und das dritte Werk 20 Prozent aller Autos. Im ersten Werk sind 1, im zweiten
Werk 5 und im dritten Werk sogar 10 Prozent aller dort hergestellten Autos nicht ohne
Mängel. Wie groÿ ist die Wahrscheinlichkeit, dass ein Käufer ein defektes Autos erhält
und mit welchen Wahrscheinlichkeiten stammen defekte Autos aus den drei Werken?
A
Hier ist
und
B3
das Ereignis, dass der Käufer ein defektes Auto erwischt und mit
B1 , B2
werden die Ereignisse bezeichnet, dass das Auto aus dem ersten, zweiten oder
dritten Werk stammt, die entsprechenden Wahrscheinlichkeiten betragen
P (B2 ) = 0, 3
P (B1 ) = 0, 5,
P (B3 ) = 0, 2. Die Wahrscheinlichkeit für ein defektes Auto aus dem
P (A|B1 ) = 0, 01, entsprechend sind P (A|B2 ) = 0, 05 und P (A|B3 ) = 0, 1
und
ersten Werk ist
zu deuten. Somit gilt nach dem Satz über die totale Wahrscheinlichkeit
P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) + P (B3 )P (A|B3 )
P (A) = 0, 5 · 0, 01 + 0, 3 · 0, 05 + 0, 2 · 0, 1 = 0, 04.
Der Käufer erhält also mit einer Wahrscheinlichkeit von 4 Prozent ein defektes Auto.
Mit einer Wahrscheinlichkeit von
0, 5 · 0, 01 = 0, 005
werden defekte Autos im ersten
Werk hergestellt. Bezieht man diese Wahrscheinlichkeit auf die Wahrscheinlichkeit aller
defekten Autos, so ergibt sich der Anteil
P (B1 |A) = 0, 005/0, 04
des ersten Werks an
den defekten Autos. Genauso geht man für die restlichen Werke vor und erhält
P (B1 |A) = P (B1 )P (A|B1 )/P (A) = (0, 5 · 0, 01)/0, 04 = 0, 005/0, 04 = 0, 125
P (B2 |A) = P (B2 )P (A|B2 )/P (A) = (0, 3 · 0, 05)/0, 04 = 0, 015/0, 04 = 0, 375
P (B3 |A) = P (B3 )P (A|B3 )/P (A) = (0, 2 · 0, 1)/0, 04 = 0, 02/0, 04 = 0, 5
Die nötigen Rechnungen kann man in einer Arbeitstabelle organisieren.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
A
B
C
D
E
FG H
I
i P(Bi) P(A|Bi) P(Bi)*P(A|Bi) P(Bi|A)
1 0,5
0,01
0,005 0,125
2 0,3
0,05
0,015 0,375
3 0,2
0,10
0,020 0,500
Σ
1
0,040
1
J
K
L MN
Start
0,5
B1
0,3
0,2
B2
0,01
0,05
B3
0,10
A
Abbildung 6.7: Arbeitstabelle zum Beispiel 6.15
i, in der Spalte B die WahrscheinlichP (Bi ) für die drei Werke und in der Spalte C die bedingten Wahrscheinlichkeiten
In der Spalte A stehen die laufende Nummern
keiten
83
6 Einführung in die Wahrscheinlichkeitsrechnung
P (A|Bi ).
In der Spalte D stehen die Produkte
P (Bi )P (A|Bi )
der Werte der Spalten B
und C und in die Zelle D7 kommt die Summe dieser Produkte, also nach dem Satz von
der totalen Wahrscheinlichkeit der Wert von
P (Bi |A)
P (A).
Die bedingten Wahrscheinlichkeiten
benden sich in der Spalte E, Formel in der Zelle E4 lautet
=E4/$D$7.
Diese Formel gilt dann entsprechend für die Zeilen 5 und 6.
Der Satz von Bayes liefert Wahrscheinlichkeiten für die Ursachen eines eingetroenen Ereignisses, wenn man weiÿ, mit welcher Wahrscheinlichkeit diese Ursachen zu dem
eingetroenen Ereignis führen. In der Politik wird die Regierung eine günstige wirtschaftliche Lage, also das eingetroene Ereignis, auf die eigenen Leistungen zurückführen, die
Opposition wird andere Ursachen ausmachen. Bei der Diagnose von Krankheiten gibt es
Tests für das Vorhandensein bestimmter Krankheiten. Leider sind solche Tests auch bei
gesunden Personen zuweilen positiv. Ich vertiefe das an einem Beispiel.
Beispiel 6.16.
Eine bestimmte Krankheit trete in einer Risikogruppe mit einer Wahr-
scheinlichkeit von 2 Prozent auf. Ein Test zeige dies mit einer Wahrscheinlichkeit von 95
Prozent an, schlage aber auch bei 10 Prozent aller Gesunden Alarm. Wie hoch ist die
Wahrscheinlichkeit einer Erkrankung, wenn der Test positiv ausfällt?
B2 die Ereignisse für das Vorhandensein bzw. Nichtvorhandensein
der Krankheit und A das Ereigniss eines positiven Tests. Hier sind P (B1 ) = 0, 02 und
P (B2 ) = 0, 98 sowie P (A|B1 ) = 0, 95 und P (A|B2 ) = 0, 1 und deshalb
Hier sind
B1
und
P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) = 0, 02 · 0, 95 + 0, 98 · 0, 1 = 0, 117
0, 95 · 0, 02
= 0, 162393162,
P (B1 |A) =
0, 117
d.h. nur rund jeder sechste positiv getestete Person ist tatsächlich auch erkrankt. Das
liegt an der geringen Verbreitung der Krankheit und an der hohen Falschalarmwahrscheinlichkeit des Tests, was zusammen dafür sorgt, dass 83 Prozent aller positiv getesteten Pesonen gesund ist.
Für die Wahrscheinlichkeit dafür, dass der Test eine Erkrankung nicht anzeigt, muss
P (B1 |Ā)
berechnet werden, denn
Ā
ist das zu
A
komplementäre Ereignis. Somit gilt
P (Ā) = 1 − P (A) = 1 − 0, 117 = 0, 883
0, 02 · 0, 05
P (B1 )(1 − P (A|B1 ))
=
= 0, 001132503
P (B1 |Ā) =
0, 883
P (Ā)
Auch dafür lege ich eine Arbeitstabelle an, wobei auch die bedingten Wahrscheinlichkeiten der Ereignisse
Bi
unter der Voraussetzung des komplementären Ereignisses Ā
A komplemetäre Tabelle mit Ac bezeich-
bestimmt werden. In der Tabelle wird die zu
net. Die Formel in der Zelle F2 lautet
=B2*(1-C2)/(1-$D$4).
Diese Formel gilt dann entsprechend für die restlichen Zeilen.
84
6.11 Aufgaben
A
i
B
C
D
P(Bi) P(A|Bi) P(Bi)*P(A|Bi)
1
2
1 0,02
3
2 0,98
4 Summen
1
0,95
0,1
E
P(Bi|A)
F
c
P(Bi|A )
0,019 0,162393 0,001133
0,098 0,837607 0,998867
0,117
1
1
Abbildung 6.8: Arbeitstabelle für das Beispiel 6.16
Die Daten dieses Beispiels sind von mir erfunden und sollen niemand von Vorsorgeuntersuchungen abhalten. Ich möchte diesen Abschnitt mit einem Beispiel beenden, das
auf Uebe zurückgeht.
6.11 Aufgaben
Aufgabe 1. Ein Zauberer behauptet aus einem gut durchgemischten Spiel mit 32 Karten
als dritte Karte die Herz Dame zu ziehen. Wie hoch ist die Wahrscheinlichkeit dafür ohne
Tricks?
Aufgabe 2.
In einer Urne benden sich die vier Buchstaben ANANAS. Mit welchen
Wahrscheinlichkeiten entsteht der Name ANNA bei viermaligem Ziehen, und zwar einmal mit und einmal ohne Zurücklegen, wobei die Reihenfolge beachtet wird.
Aufgabe 3.
(vgl. Mayer) Eine Urne enthalte 3 weiÿe und 2 schwarze Kugeln. Aus der
Urne werden nacheinander 2 Kugeln herausgenommen, einmal ohne und das andere Mal
mit zurücklegen. Zeichnen Sie die jeweiligen Baumdiagramme und bestimmen Sie die zugehörigen Wahrscheinlichkeitsverteilungen. Wie groÿ ist jeweils die Wahrscheinlichkeit,
2 weiÿe Kugeln zu ziehen?
Aufgabe 4.
In einer Schale benden sich neun gleich aussehende Pralinen, wovon vier
nach Champagner und fünf nach Eierlikör (Igitt) schmecken. Ein Gast darf drei Pralinen zufällig aussuchen. Wie sieht die Ergebnismenge und die Verteilung aus? Zeichnen
Sie die jeweiligen Baumdiagramme und bestimmen Sie die Ergebnismenge
Ω
und die
Wahrscheinlichkeitsverteilung. Wie groÿ ist die Wahrscheinlickeit, drei Bohnen mit Eierlikörgeschmack zu erwischen?
Aufgabe 5.
Beim Spiel Mensch ärgere dich nicht darf man am Anfang dreimal hin-
tereinander würfeln, mit dem Ziel eine 6 zu werfen, da dann eine Figur ins Spielfeld
gesetzt wird. Beschreiben Sie das Zufallsexperiment durch einen Produktwahrscheinlichkeitsraum und dann das Ereignis
Wahrscheinlichkeit von
A
A,
dass keine 6 erzielt wurde. Berechnen Sie die
und geben Sie an, mit welcher Wahrscheinlichkeit wenigstens
eine 6 erreicht wird.
Aufgabe 6.
Ein Student muss Klausuren in den drei Fächern A, B, C schreiben. Er
schätzt die Wahrscheinlichkeiten für das Bestehen im Fach A mit 0,9, in B mit 0,8 und in
C mit 0,4. Die Inhalte der Fächer sind sehr verschieden, sodass das Bestehen unabhängig
85
6 Einführung in die Wahrscheinlichkeitsrechnung
voneinander ist. Man bestimme die Ergebnismenge
Ω und die Wahrscheinlichkeitsvertei-
lung. Danach gebe man an, wie hoch die Wahrscheinlichkeiten dafür sind, alle, höchstens
zwei und keine Klausur zu bestehen.
Aufgabe 7.
(vgl. Mayer) Für zwei unabhängige Ereignisse
P (A|B) = 2/3
Man berechne
und
A
und
B
gelte:
P (A ∩ B) = 1/6.
P (A), P (B), P (A ∪ B), P (B|A)
sowie
P (A\B)
und
P (B\A).
Aufgabe 8. Es seien A und B zwei Ereignisse mit P (A∩B) = 0, 6 und P (A∩ B̄) = 0, 2.
P (A)
Bestimmen Sie
Aufgabe 9.
und
P (Ā)
sowie
P (B|A)
und
P (B̄|A).
Ein Zufallsexperiment besteht darin, dass man mit einem Würfel solange
würfelt, bis zum ersten Mal eine Zahl zweimal auftritt, was spätestens beim siebten Wurf
passiert. Bestimmen Sie die Ergebnismenge
Aufgabe 10.
Ω
und die Wahrscheinlichkeitsverteilung.
Es seien drei Urnen mit je drei Kugeln betrachtet, wobei die erste Urne
drei, die zweite zwei und die dritte nur noch eine schwarze Kugel enthält, die anderen
Kugeln seien jeweils weiÿ. Das zweite Glücksrad der Abbildung 6.1 von Seite 70 werde
gedreht. Wenn der Zeiger des Glücksrads im roten Bereich zum Stehen kommt, wird eine
Kugel aus der ersten Urne gezogen, im grünen Sektor aus der zweiten und sonst aus der
dritten. Man bestimme die Ergebnismenge
Ω
und das Ereignis, dass die gezogene Kugel
schwarz ist. Danach berechne man die Wahrscheinlichkeiten dafür, dass eine gezogene
schwarze Kugel aus der ersten, zweiten oder dritten Urne stammt.
Aufgabe 11.
An einem texanischen Gericht arbeiten drei Richter B1, B2 und B3; die
Auswahl der Richter erfolgt zufällig, wobei B1 die Hälfte aller Prozesse übernimmt, auf
B2 fallen 30 % und auf B3 20 % aller Verfahren. Die Wahrscheinlichkeit eines Unschuldigen in einem Mordprozess auf einen Freispruch beim ersten Richter beträgt 90 %, beim
zweiten 50 % und beim dritten lediglich 40 %.
a) Wie groÿ ist die Wahrscheinlichkeit eines Freispruchs für einen Unschuldigen? Wie
groÿ ist die Wahrscheinlichkeit für eine Verurteilung?
b) Mit welchen Wahrscheinlichkeiten stammt der Freispruch eines Unschuldigen von B1,
B2 und B3?
c) Mit welchen Wahrscheinlichkeiten stammt eine Verurteilung eines Unschuldigen von
B1, B2 und B3?
Aufgabe 12.
In 10 Urnen benden sich schwarze und weiÿe Kugeln, und zwar in der
k-ten Urne genau
k, 1 ≤ k ≤ 10
schwarze Kugeln. Wie groÿ ist die Wahrscheinlichkeit
eine schwarze Kugel zu ziehen, wenn die Urne zufällig gewählt wird? Wie groÿ ist die
Wahrscheinlichkeit, dass eine gezogene schwarze Kugel der k-ten Urne entstammt?
86
7 Diskrete Zufallsvariable
7.1 Lernziele
Wenn Sie dieses Kapitel durchgearbeitet haben, sollten Sie
- wissen, was eine diskrete Zufallsvariable ist
- wissen, was man unter der Verteilung einer Zufallsvariable versteht
- wissen, was man unter der Wahrscheinlichkeitsfunktion und Verteilungsfunktion
versteht
- Erwartungswert, Varianz und Standardabweichung für diskrete Zufallsvariable berechnen können
- wisse, was unabhängige Zufallsvariablen sind
7.2 Einführung und Denition
Die Ergebnisse von Zufallsexperimenten sind oft aber nicht immer Zahlenbereiche, aber
fast immer ist das Ergebnis mit einer Zahl verknüpft, die man als Gewinn oder Verlust
deuten kann. Bei einem Fussballspiel sind die Ergebnisse Zahlenpaare wie 4:3 oder 0:0,
also keine Zahlen, aber ein Wettbüro setzt für jeden Ausgang eine Gewinnquote fest.
Aus der Sicht der Mathematik ergibt dies eine Funktion
X : Ω → R,
wobei
Ω
die
Ergebnismenge aller denkbaren Ausgänge des Spiels ist. Ähnlich verhält es sich beim
Roulette. Wenn ein Spieler auf eine bestimmte Zahl, etwa 13 einen Chip im Wert von
100 Euro setzt, so erhält er 3.600 Euro zurück, wenn die Kugel auf das Fach dieser
Zahl ausrollt, ansonsten streicht die Bank den Chip ein. Hier ist
Ω
der Bereich der
ganzen Zahlen zwischen 0 und 36, aber für den Spieler vereinfacht sich der Ausgang des
X : Ω → R mit
(
−100, wenn ω =
6 13;
X(ω) =
3.500, wenn ω = 13
Zufallsexperiments auf die Funktion
Denition 7.1.
(Ω, P ) ein abzählbarer Wahrscheinlichkeitsraum. Dann nennt
man eine beliebige Abbildung X : Ω → R eine Zufallsvariable , d.h eine Zufallsvariable
ordnet den Ergebnissen des Ω zugrundeliegenden Zufallsexperiments Zahlen zu.
Es sei
87
7 Diskrete Zufallsvariable
Die Bezeichnung Zufallsvariable ist ziemlich unsinnig, denn eine Zufallsvariable ist
eine genau festgelegte Funktion!
Es ist üblich Zufallsvariablen mit groÿen Buchstaben zu bezeichnen, aber für die Werte
der Funktion stehen kleine Buchstaben. Im Beispiel des Roulettespielers gibt es nur die
beiden Werte
x1 = −100
und
x2 = 3.500.
Da zunächst nur abzählbare Ergebnismengen
betrachtet werden, kann eine Zufallsvariable auch nur abzählbar viele Werte annehmen.
Es wird aber noch zusätzlich verlangt, dass der Wertebereich eine diskrete Teilmenge
der reellen Zahlen ist.
Denition 7.2.
Eine Teilmenge von
R
heiÿt diskret, wenn alle Abstände zwischen je
zwei Elementen der Menge gröÿer als eine feste Zahl
ε
sind.
Eine Menge ist genau dann diskret, wenn sie endlich ist oder abzählbar unendlich
ohne Häufungspunkte. Eine diskrete Zufallsvariable hat also einen endlichen oder oder
abzählbar unendlichen Wertebereich ohne Häufungspunkte.
Zunächst werde ich nur endliche Ergebnismengen
Ω = { ω1 , ω2 , . . . , ωN } betrachten.
x1 , x2 , xn , und es wird immer
Dann hat eine Zufallsvariable nur endlich viele Werte
angenommen, dass diese Werte aufsteigend geordnet sind. Meistens ist wie bei dem Roulettebeispiel
n
klein im Verhältnis zu
N.
Die Verallgemeinerung auf unendliche diskrete
Mengen ist nicht schwer, erfordert aber für eine Einführung unnötige mathematische
Symbolik wie Indexmengen.
7.3 Die Verteilung einer diskreten Zufallsvariablen
Von Interesse sind nicht nur die Werte der Zufallsvariablen, sondern auch die Wahrscheinlichkeiten, mit denen die Zufallsvariable diese Werte abnimmt. Für einen beliebiger Wert
xi
einer Zufallsvariablen, ergibt sich die Wahrscheinlichkeit des Auftretens von
xi
durch
die Wahrscheinlichkeit des Ereignisses
Ai = {ω : X(ω) = xi }.
Für diese Menge, mathematisch gesehen das Urbild von
xi , wird die drollige Bezeichnung
X = xi
verwendet. Entsprechend wird die Wahrscheinlichkeit des Eintretens von
xi )
xi
mit
P (X =
bezeichnet. Gemeint ist damit aber
P (Ai ) = P ({ω : X(ω) = xi }).
Im Falle des Roulettespielers gibt es nur die Werte
x1 = −100
und
x2 = 3.500.
Die
Wahrscheinlichkeiten des Auftretens sind
P (X = x1 ) = P (A1 ) = P ({ω : X(ω) = x1 }) = P ({ 0, 1, . . . , 12 } ∪ { 14, 15, . . . , 36 }).
P (X = x2 ) = P (A2 ) = P ({ω : X(ω) = x2 }) = P ({ 13 }).
88
7.4 Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen
Ω in zwei disjunkte Teile, deshalb
summieren sich die Wahrscheinlichkeiten P (X = x1 ) = 36/37 und P (X = x2 ) = 1/37
gerade zu 1, also ergibt sich auf der Bildmenge X(Ω) = { x1 , x2 } eine Wahrscheinlichkeitsverteilung (f1 , f2 ). Das ist bei allen diskreten Zufallvariablen der Fall und führt zu
Die Urbilder
A1
und
A2
zerlegen die Ergebnismenge
folgender Denition.
Denition 7.3.
Es seien
x1 , x2 , . . . , xn , . . .
die Werte der Zufallsvariablen
X
und
f1 , f2 , . . . , fn , . . .
die zugehörigen Wahrscheinlichkeiten, d.h.
aller Zahlenpaare
(xi , fi ),
die
Verteilung
fi = P (X = xi ).
Dann heiÿt die Gesamtheit
der Zufallsvariablen
X.
Verteilungen können also durch eine Tabelle beschrieben werden, wobei in der ersten
Zeile die Werte und darunter die Wahrscheinlichkeiten ihres Auftretens stehen, deren
Summe immer 1 ergibt. Die Verteilung der Zufallsvariablen des Roulettebeispiels ist
somit
xi
-100
3.500
fi
36/37
1/37
7.4 Die Wahrscheinlichkeitsfunktion einer diskreten
Zufallsvariablen
Das folgenden Beispiel veranschaulicht zunächst noch mal den Begri der Verteilung.
Wir werden davon später auch noch grasche Veranschaulichungen zeigen. Kurz vor der
Sache mit dem Apfel schlägt Adam seiner Eva folgendes Spiel vor: In einer Urne benden
sich zehn Kugeln mit den Buchstaben EVASANANAS. Eva darf eine Kugel ziehen und
erhält für ein V 4 Euro und muss für ein A oder E einen Euro bezahlen. Zieht sie S
oder N geschieht gar nichts. Hier wird die Ereignismenge von den Buchstaben A, E, N,
S und V gebildet. Die Wahrscheinlichkeitsverteilung und die Werte der Zufallsvariablen
X
zeigt die folgende Tabelle:
ωi
pi
X(ωi )
fi
Die Zufallsvariable
Ereignisse
X = xi
A
E
N
S
V
0,4
0,1
0,2
0,2
0,1
-1
-1
0
0
4
0,4
0,1
0,5
X nimmt nur die Werte x1 = −1, x2 = 0 und x3 = 4 an. Die drei
i = 1, 2, 3 teilen Ω in die Mengen {A, E}, {N, S} und {V } mit
mit
89
7 Diskrete Zufallsvariable
den Wahrscheinlichkeiten
f1 = 0, 5, f2 = 0, 4
und
f3 = 0, 1.
Die Verteilung von
X
ist
demnach
xi
-1
0
4
fi
0,5
0,4
0,1
Man ordnet der Verteilung einer diskreten Zufallsvariablen eine Funktion zu, die an
den Stellen
xi
den Wert
fi
hat und sonst überall den Wert 0 hat. Ich halte dies in einer
Denition fest.
Denition 7.4.
Es seien die Paare
(xi , fi ) die Verteilung einer Zufallsvariable X . Dann
heiÿt die Funktion
(
fi ,
f (x) =
0,
die
Wahrscheinlichkeitsfunktion
für
x = xi , i = 1, 2, . . . , n, . . .;
sonst
der Zufallsvariablen
X.
Der Graph der Wahrscheinlichkeitsfunktion stimmt nur an den Punkten
(xi , fi )
mit der Abszisse überein. Die Punkte
(xi , fi )
nicht
werden durch kleine Kreise oder ähnliche
Symbole gekennzeichnet. Üblich sind auch senkrechte Stäbe von der Abszisse zu den
Punkten.
i
xi
fi
xifi
xi2fi
Fi
F(x)
f(x)
0,5
0,5
0,6
1
0
0
0,9
0,4
0,4
1,6
1
0,75
0,5
0,2
-0,1
2,1
1 -1
0,5 -0,5
2
0
0,4
3
4
0,1
x
0
0,25
-2 -1 0 1 2 3 4
E(X)= -0,1
x
0
-2 -1 0 1 2 3 4 5
Var(X)= 2,09
Abbildung 7.1: Diskrete Zufallsvariable
7.5 Verteilungsfunktion
Neben der Wahrscheinlichkeitsfunktion
Funktion
F (x),
f (x)
sehen Sie den Graph einer eng verwandten
die wie in der Beschreibenden Statistik durch Kumulierung der Wahr-
scheinlichkeiten entsteht. Damit ergibt sich folgende Denition.
Denition 7.5. Die Verteilungsfunktion F : R 7→ [0, 1] einer Zufallsvariablen X gibt für
jede reelle Zahl
den Wert
x
x
die Wahrscheinlichkeit dafür an, dass die Zufallsvariable
annimmt, d.h.
F (x) = P (X ≤ x).
90
X
höchstens
7.6 Erwartungswert und Varianz
Auch hier ist mit der Abkürzung
X≤x
das Ereignis
{ω : X(ω) ≤ x}
gemeint.
Die Verteilungsfunktion einer diskreten Zufallsvariablen ergibt sich aus der zugehörigen Wahrscheinlichkeitsfunktion durch Summation aller
F (x) = Fi =
X
fi
mit
xi ≤ x:
fi .
xi ≤x
Die Verteilungsfunktion einer diskreten Zufallsvariablen ist ein Treppenfunktion, die
xi und xi+1 den konstanten Wert Fi hat und bei
Fi+1 springt. Vor dem ersten Wert x1 hat F immer den Wert 0 und nach
dem letzten Wert xn hat F immer den Wert 1. In der Abbildung 7.1 stehen die Werte xi
in der zweiten Spalte, die fi folgen in der dritten und die kumulierten Werte Fi stehen
zwischen zwei benachbarten Werten
xi+1
zum Wert
ganz rechts.
Aus der Tabelle erhält man die Verteilungsfunktion der Zufallsvariablen

0,



0, 5,
F (x) =

0, 9,



1,
für
für
für
für
X
x < −1
−1 ≤ x < 0
0≤x<4
x≥4
Denition 7.6. Da die kumulierten Wahrscheinlichkeiten Fi sehr oft verwendet werden,
bezeichne ich die Gesamtheit aller Paare
(xi , Fi )
als kumulierte Verteilung der Zufalls-
variablen.
Es ist sinnvoll, die Verteilung und die kumulierte Verteilung in einer Tabelle wie in
der Abbildung 7.1 anzuordnen.
Jede Verteilungsfunktion
F (x)
hat folgende vier charakteristischen Eigenschaften:
(1)
F (x)
ist monoton steigend
(2)
F (x)
ist in jedem Punkt zumindest rechtsseitig stetig
(3)
limx→−∞ F (x) = 0
(4)
limx→∞ F (x) = 1
7.6 Erwartungswert und Varianz
Kehren wir zurück zum Spiel von Adam und Eva und der Frage, ob Eva sich auf dieses
Spiel einlassen soll. Zunächst muss klar sein, dass bei einer einzelnen Durchführung jeder Spieler Gewinnchancen hat. Statistisch steht im Vordergrund, wie sich der Gewinn
verteilt, wenn das Spiel mehrfach durchgeführt wird. Da die fünf Buchstaben die Wahrscheinlichkeiten
n
pA = 0, 4, pE = 0, 1, pN = 0, 2, pS = 0, 2 und pV = 0, 1 haben, wird nach
npA auftreten, der Buchstabe
Partien der Buchstabe A ungefähr mit der Häugkeit
91
7 Diskrete Zufallsvariable
E entsprechend ungefähr mit der Häugkeit
npE
usw. Evas Verlust wird somit ungefähr
gleich der folgenden Summe sein
Vn = n · pA · (−1) + n · pE · (−1) + n · pN · 0 + n · pS · 0 + n · pV · 4
Vn = n[(−1) · pA + (−1) · pE + 0 · pN + 0 · pS + 4 · pV ] = −n0, 1,
d.h. im Duchschnitt verliert Eva pro Spiel auf lange Sicht 10 Cent, also dem Wert
des terms innerhalb der eckigen Klammern, obwohl natürlich kein einziges Spiel diesen
Ausgang hat.
Der langfristige Duchschnitt wird als
Erwartungswert E(X) einer Zufallsvariablen X
bezeichnet. Er wird wird somit wie folgt deniert:
Denition 7.7.
Ω = { ω1 , ω2 , . . . , ωN } eine endliche Ergebnismenge mit dem Wahrscheinlichkeitsverteilung p und X : Ω 7→ R eine Zufallsvariable. Dann wird der folgende
Ausdruck Erwartungswert von X genannt und mit E(X) bezeichnet
Sei
E(X) =
N
X
X(ωi )pi .
(7.1)
i=1
Diese Formel lässt sich leicht auf unendliche diskrete Ergebnismengen verallgemeinern.
Der Erwartungswert entspricht dem arithmetischen Mittelwert aus der Beschreibenden
Statistik und verdichtet die Information über die Verteilung zu einem Zahlenwert. Häug
werden Entscheidungen allein über den Erwartungswert getroen. Auch über die langfristigen Chancen bei Glücksspielen spielt der Erwartungswert die entscheidende Rolle.
Es muss aber betont werden, dass der Erwartungswert nur dann sinnvoll zur Beurteilung
ist, wenn das Zufallsexperiment oft genug unter gleichen Bedingungen wiederholt wird.
Der Erwartungswert im paradiesischen Spiel ist somit
E(X) = (−1) · pA + (−1) · pE + 0 · pN + 0 · pS + 4 · pV = −0, 1.
Der Erwartungswert ist linear, d.h. es gilt für zwei Zufallsvariablen
Y : Ω 7→ R
sowie zwei beliebigen Zahlen
µ
und
X : Ω 7→ R
und
λ
E(µX + λY ) = µE(X) + λE(Y ).
(7.2)
Der Erwartungswert wird über die Gleichung (7.1) deniert, aber die Berechnung erfolgt schneller über die Verteilung der Zufallsvariablen. Für die diskrete Zufallsvariablen
X
mit der Verteilung
(xi , fi )i∈J
gilt für den
E(X) =
Erwartungswert
n
X
xi f i .
(7.3)
i=1
Der Erwartungswert ist bei diskreten Verteilungen die Summe der mit den Wahrscheinlichkeiten gewichteten Werte der Zufallsvariablen. In unserem Fall vereinfacht sich die
Rechnung unter Verwendung der Verteilung wie folgt
E(X) = x1 f1 + x2 f2 + x3 f3 = (−1) · 0, 5 + 0 · 0, 4 + 4 · 0, 1 = −0, 1.
92
7.6 Erwartungswert und Varianz
Wenn man also erste einmal die Verteilung bestimmt hat, wird der Erwartungswert über
(7.3) und nicht über (7.1) berechnet. In der vierten Spalte des abgebildeten Arbeitsblatts
nden Sie die Produkte
xi f i
und darunter deren Summe, also den Erwartungswert.
Der Erwartungswert beim Roulette mit einem Einsatz von 100 Euro auf die Zahl 13
ist der Erwartungswert
E(X) = −100 · 36/37 + 3500 · 1/37 = −2, 7027027.
Wer also 1.000 mal mit dieser Strategie setzt wird mit einem Verlust von 2,702,70 Euro
zu rechnen haben.
Wegen der Deutung des Erwartungswerts
E(X)
als dem durchschnittlichen Ausgang
eines Spiels, wird ein Spiel gerecht oder fair genannt, wenn der Erwartungswert 0 ist. Ist
E(X) > 0 heiÿt das Spiel günstig und ungünstig für E(X) < 0. Casinos bieten natürlich
nur ungünstige Spiele an. Die Varianz V ar(X) einer Zufallsvariablen X stellt ein Maÿ
für die Streuung der Verteilung. Wie in der Beschreibenden Statistik wird die Varianz
bei diskreten Verteilungen durch die Summe der mit den Wahrscheinlichkeiten gewichteten quadratischen Abweichungen der Werte der Zufallsvariablen vom Erwartungswert
deniert.
Denition 7.8.
Für eine diskrete Zufallsvariable
V ar(X) =
N
X
X : Ω 7→ R
wird die
Varianz
durch
(X(ωi ) − E(X))2 pi
(7.4)
i=1
festgelegt. Für die Varianz wird oft auch durch das Symbol
aus der Varianz heiÿt
σ2
verwendet. Die Wurzel
Standardabweichung ; bitte mit einem d in der Mitte schreiben.
Die Varianz ist somit der Erwartungswert der Zufallsvariablen
(X − E(X))2 .
Man
rechnet leicht folgende nützliche Formel nach
V ar(X) =
N
X
X(ωi )2 pi − E(X)2 = E(X 2 ) − E(X)2 .
(7.5)
i=1
Diese Formel ist zum Rechnen meist einfacher als die eigentliche Denition.
Wie der Erwartungswert kann auch die Varianz einer Zufallsvariablen durch die zugehörige Verteilung berechnet werden. Sei
lung
(xj , fj )j∈J ,
X
eine diskrete Zufallsvariable mit der Vertei-
so gilt für die Varianz
n
n
X
X
2
V ar(X) =
(xi − E(X)) fi =
x2i fi − E(X)2 .
i=1
(7.6)
i=1
93
7 Diskrete Zufallsvariable
E(X) = −0, 1
Die Varianz im paradiesischen Spiel ist somit wegen
V ar(X) = (−1 + 0, 1)2 · 0, 4 + (−1 + 0, 1)2 · 0, 1 + (0 + 0, 1)2 · 0, 2
+ (0 + 0, 1)2 · 0, 2 + (4 + 0, 1)2 · 0, 1 = 2, 09,
V ar(X) = (−1)2 · 0, 4 + (−1)2 · 0, 1 + (0)2 · 0, 2 + (0)2 · 0, 2
+ (4)2 · 0, 1 − (−0, 1)2 = 2, 09,
V ar(X) = (−1 + 0, 1)2 · 0, 5 + (0 + 0, 1)2 · 0, 4 + (−4 + 0, 1)2 · 0, 1 = 2, 09,
V ar(X) = (−1)2 · 0, 5 + (0)2 · 0, 4 + (−4)2 · 0, 1 − (−0, 1)2 = 2, 09.
Ich habe die Varianz mit alle vier möglichen Formel der berechnet, am einfachsten ist die
letzte Formel. In der fünften Spalte der Abbildung 7.1 auf Seite 90 stehen die Produkte
x2i fi . Deren Summe ist aber noch nicht die Varianz, es muss davon noch E(X)2 abgezogen
werden.
Nun kehren wir zu dem Spieler zurück, der beim Roulette 100 Euro auf die 13 setzt.
E(X) = −2, 7027027, die
(3.500, 1/37). Damit ergibt sich
Der Eerwartungswert ist
(−100, 36/37)
und
Verteilung besteht aus den Paaren
V ar(X) = (−100)2 · 36/37 + (3.500)2 · 1/37 − (−2, 7027027)2 = 340.803, 5062.
X eine Zufallsvariable ist und a
Z = X + a Zufallsvariable und es gilt:
Abschlieÿend noch zwei wichtige Rechengesetze. Wenn
eine beliebige Zahl, dann sind auch
Y = aX
und
V ar(aX) = a2 V ar(X),
V ar(X + a) = V ar(X),
Beispiel 7.1.
(7.7)
(7.8)
Es sei nun ein weiterer Spieler betrachtet, der ebenfalls mit 100 Euro
spielt, aber auf die roten Zahlen setzt. Die zugehörige Zufallsvariable sei mit
Y
bezeich-
net, die Verteilung steht in der folgenden Tabelle:
yi
-100
pi
19/37
100
18/37
Für den Erwartungswert und die Varianz der Zufallsvariablen
Y
ergibt sich:
E(Y ) = −100 · 19/37 + 100 · 18/37 = −2, 702702703,
V ar(Y ) = (−100)2 · 19/37 + (100)2 · 18/37 − (−2, 7027027)2 = 9992, 695398.
Die Erwartungswerte der zu den beiden Strategien gehörenden Zufallsvariablen sind
gleich, aber die Varianzen unterscheiden sich deutlich, deshalb ist die zweite Strategie
weniger risikoreich.
94
7.7 Bernoulli-Verteilung
7.7 Bernoulli-Verteilung
Die einfachsten Zufallsvariablen beschreiben ein sogenanntes Bernoulli-Experiment. Da-
A eingetreten ist oder nicht. Die
A wird mit p bezeichnet, das zu A komplementäre
Ereignis Ā hat deshalb die Wahrscheinlichkeit q = 1 − p. Wenn A eintritt, erhält die
Zufallsvariable B den Wert 1, sonst den Wert 0. Die Verteilung von B ist somit
bei wird nur unterschieden, ob ein bestimmtes Ereignis
Wahrscheinlichkeit des Eintretens von
Tabelle 7.1: Bernoulliverteilung
bi
0
1
fi
1−p
p
Denition 7.9. Jede dermaÿen verteilte Zufallsvariable heiÿt Bernoulli-verteilt mit dem
Parameter
p,
die Verteilung selbst wird
Bernoulli-Verteilung
Erwartungswert und Varianz einer mit dem Parameter
variablen
B
p
genannt.
Bernoulli-verteilten Zufalls-
berechnen sich wie folgt
E(B) = b1 f1 + b2 f2 = 0 · (1 − p) + 1 · p = p, ,
V ar(B) = b21 f1 + b22 f2 − p2 = 02 · (1 − p) + 12 · p − p2 = p(1 − p) = pq.
Beispiel 7.2.
(7.9)
(7.10)
Eine Mutter vespricht ihrer Tochter einen Euro, wenn die Augenzahl bei
einem Wurf mit einem fairen Würfel höher als 2 ist.
Das Ereignis
A
p = 2/3. Der ErwarV ar(B) = p(1 − p) = 2/9.
sind hier die ganzen Zahlen von 3 bis 6, somit ist
tungswert des Spiels ist
E(B) = 2/3
und die Varianz ist
7.8 Unabhängige Zufallsvariable
Zwei Zufallsvariable
X
keine Rückschlüsse auf
und
Y
Y
heiÿen unabhängig, wenn man durch Kenntnisse über
ziehen kann. Seien
(xi , fi )
und
(yj , gj )
der beiden Zufallsvariablen, so sind diese unabhängig voneinander, wenn
yj ) = P (X = xi ).
X
die Verteilungen von
P (X = xi |Y =
Daraus folgt die Bedingung für Unabhängigkeit
P (X = xi
und
Y = yj ) = P (X = xi )P (Y = yj ) = fi gj .
(7.11)
Diese Bedingung führt zu folgenden Satz.
Satz 3. Für zwei unabhängige Zufallsvariablen X und Y gelten
E(XY ) = E(X)E(Y ),
V ar(X + Y ) = V ar(X) + V ar(Y ),
(7.12)
(7.13)
95
7 Diskrete Zufallsvariable
Die Formel 7.12 folgt aus
E(XY ) =
n X
m
X
n
m
X
X
xi y j f i g j = (
xi fi )(
yj gj ) = E(X)E(Y ).
i=1 j=1
i=1
j=1
Damit leiten wir nun auch Formel 7.13 her
V ar(X + Y ) = E((X + Y )2 ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2E(X)E(Y ) − E(X)2 − 2E(X)E(Y ) + E(Y )2 ,
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 = V ar(X) + V ar(Y ).
Hier wurde ausgenutzt, dass für unabhängige Zufallsvariablen E(XY ) =
2
2
und die nützliche immer gültige Beziehung V ar(X) = E(X ) − E(X) .
E(X)E(Y ) gilt
Ohne Beweis gebe ich noch eine Verschärfung der Gleichung (7.13) an.
Satz 4. Es seien X1 , X2 , . . . Xn unabhängige Zufallsvariablen. Dann gilt
V ar(X1 + X2 + · · · + Xn ) = V ar(X1 ) + V ar(X − 2) + · · · + V ar(Xn ),
(7.14)
Unabhängige Zufallsvariablen treten fast ausschlieÿlich im Zusammenhang mit unabhängigen mehrstugen Zufallsprozessen wie etwa dem mehrfachen Werfen einer Münze
oder eines Würfels auf, wobei jeder Stufe eine Zufallsvariable zugeordnet werden kann.
Beispiel 7.3.
Weil die Tochter des Beispiels 7.2 besonders lieb war, darf sie ausnahms-
weise dreimal würfeln und erhält einen Euro für jeden Wurf, dessen Augenzahl höher
als zwei ausfällt. Die Zufallsvariable ihres Gewinns sei mit
E(X)
und
X
bezeichnet. Bestimmen Sie
V ar(X).
Hier wird das Bernoulli-Experiment des Beispiels 7.2 dreimal unabhängig wiederholt, in
jeder Stufe kann der Gewinn durch eine Bernoulli-verteilte Zufallsvariable
p = 2/3 beschrieben werden und es
E(X) = 3 · 2/3 = 2 und V ar(X) = 3 · 2/9 = 2/3
Parameter
gilt
X = B1 + B1 + B3 .
Bi
mit dem
Daher sind
7.9 Zusammenfassung
(1) Eine diskrete Zufallsvariable
X
raum in die reellen Zahlen, also
(2) Für jeden Wert
xi
von
ist eine Abbildung von einem Wahrscheinlichkeits-
X : Ω = { ω1 , ω2 , . . . , ωN } → R.
X gibt es eine mit X = xi bezeichnete Teilmenge
xi besteht, also aus allen ω ∈ Ω mit X(ω) = xi .
von
Ω,
die
aus allen Urbildern von
(3) Die Verteilung besteht aus allen Paaren
(xi , fi )
mit
fi = P (X = xi ).
(4) Erwartungswert und Varianz einer Zufallsvariablen ergeben sich durch
E(X) =
V ar(X) =
n
X
i=1
n
X
i=1
96
xi f i ,
(7.15)
x2i fi − E(X)2 .
(7.16)
7.9 Zusammenfassung
(5) Es seien
X 1 , X2 ,
. . . Xn
beliebig e Zufallsvariablen. Dann gilt
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ).
(7.17)
(6) Zwei Zufallsvariablen heiÿen unabhängig, wenn der Ausgang der einen keinen Einuss auf den Ausgang der anderen hat.
(7) Es seien
X 1 , X2 ,
. . . Xn
unabhängige
Zufallsvariablen. Dann gilt
V ar(X1 + X2 + · · · + Xn ) = V ar(X1 ) + V ar(X2 ) + · · · + V ar(Xn ),
Beispiel 7.4.
(7.18)
Zum Abschluss wird nochmal das Beispiel 7.3 betrachtet. Es werden die
Verteilung bestimmt und die Wahrscheinlichkeits- sowie die Verteilungsfunktion darge-
E(X) und V ar(X) erneut berechnet.
wird mit A bezeichnet, erfolglose Würfe mit Ā. Da ein Wurf
Augenzahl gröÿer als 2 ist, sind P (A) = 2/3 und P (Ā) = 1/3.
stellt und mit Hilfe der Verteilung
Jeder erfolgreiche Wurf
erfolgreich ist, wenn die
Damit gibt es folgende in der Tabelle aufgeführten 8 Ergebnisse beim dreimaligem Würfeln:
Nr.
ωi
xi
pi
fi .
1
ĀĀĀ
0
(1/3)3
(1/3)3
2
ĀĀA
ĀAĀ
AĀĀ
1
(1/3)2 · 2/3
(1/3)2 · 2/3
(1/3)2 · 2/3
3 · (1/3)2 · 2/3
ĀAA
AĀA
AAĀ
AAA
2
1/3 · (2/3)2
1/3 · (2/3)2
1/3 · (2/3)2
(2/3)3
3 · 1/3 · (2/3)2
(2/3)3
3
4
5
6
7
8
Die Höhe
X
1
1
2
2
3
des Gewinns ist eine Zufallsvariable, deren Verteilung in der folgen-
den Abbildung zu sehen ist. Die Werte der Verteilung stehen in der dritten Spalte
der Abbildung und wurden aus der letzen Spalte der Tabelle übernommen, z.B. ist
f2 = 3 · (1/3)2 · 2/3 = 2/9 = 0, 2̄. Dies ist die Wahrscheinlichkeit für X = x2 = 1.
i xi
fi
xifi
xi2fi
Fi
1 0 0,0370 0,0000 0,0000 0,0370
2 1 0,2222 0,2222 0,2222 0,2593
0,5 f(x)
0,4
0,75
3 2 0,4444 0,8889 1,7778 0,7037 0,3
4 3 0,2963 0,8889 2,6667 1,0000 0,2
0,5
0,1
0,25
E(X) = 2,0000 4,6667
0,0
Var(X)= 0,6667
F(x)
1
x
0
1
2
0
3
x
-1
0
1
2
3
Abbildung 7.2: Diskrete Zufallsvariable
97
7 Diskrete Zufallsvariable
7.10 Aufgaben
Aufgabe 1.
(Mayer) Zwei Spieler A und B spielen folgendes Spiel: Es wird mit zwei
fairen Würfeln gewürfelt. Unterscheiden sich die Augenzahlen höchstens um 1, so bekommt A von B 6 Euro ansonsten bekommt B von A 5 Euro. Welcher Spieler ist im
Vorteil?
Aufgabe 2.
(Engel) Chuck-a-luck wird in den USA nach folgenden Regeln gespielt:
Ein Spieler darf eine Zahl zwischen 1 und 6 wählen und bezahlt einen Einsatz. Danach
werden drei faire Würfel geworfen. Der Spieler bekommt für jeden Würfel, worauf seine
Zahl erscheint, seinen Einsatz zurück, also insgesamt das 0-, 1-, 2- oder 3-fache seines
Einsatzes. Man bestimme die Verteilung und die kumulierte Verteilung und stelle die
Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit Hilfe
der Verteilung
Aufgabe 3.
E(X)
Sei
X
und
V ar(X).
Ist das Spiel gerecht oder ungünstig für den Spieler?
die Augenzahl des Würfels, der an je einer Seite eine 1 und eine 2
hat und dessen restliche vier Seiten 3 zeigen. Dieses Zufallsgerät werde ich im folgenden
B-Würfel nennen. Man bestimme die Verteilung und die kumulierte Verteilung und stelle
die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit
Hilfe der Verteilung
Aufgabe 4.
E(X)
und
V ar(X).
S die Summe der Augenzahlen.
E(S) und V ar(S). Man überprüfe
Zwei B-Würfel werden geworfen. Es sei
Man bestimme die Verteilung und berechne damit
die Berechnungen von
E(S)
und
V ar(S)
durch Verwendung der Ergebnisse der vorigen
Aufgabe.
Aufgabe 5.
E(T )
T das Produkt der Augenzahlen.
E(T ) und V ar(T ). Auch hier kann
Zwei B-Würfel werden geworfen. Es sei
Man bestimme die Verteilung und berechne damit
nochmal anders berechnet werden.
Aufgabe 6.
Beim Spiel Monopoly werden zwei faire Würfel gleichzeitig geworfen. Die
Zufallsvariable
S
sei die Summe der Augenzahlen. Man bestimme die Verteilung und die
kumulierte Verteilung und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion
dar. Danach berechne man mit Hilfe der Verteilung
98
E(S)
und
V ar(S).
8 Ausgewählte Lösungen
8.1 Zu Kapitel 2
1.) An einem Kochkurs nahmen neun Männer und elf Frauen teil. Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher
Art ist das beschriebene Merkmal und welche möglichen Ausprägungen gibt es? Berechnen Sie die Häugkeitstabelle und stellen dann die Daten als Säulendiagramm
dar. Warum gibt es hier keine kumulierten Häugkeiten und somit auch keine Verteilungsfunktion?
Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Das Merkmal ist das Geschlecht des Teilnehmers, die möglichen
Ausprägungen sind männlich und weiblich. Dieses Merkmal ist nominal, daher
gibt es keine Anordnung und folglich auch weder kumulierte Häugkeiten noch die
Verteilungsfunktion. Die Häugkeitstabelle und das Säulendiagramm sind abgebildet.
A
1
2
3
4
5
6
7
8
9
B
C
D
Absolute
Relative
GeschlechtHäufigkeit Häufigkeit
Männlich
9
0,45
Weiblich
11
0,55
Summen
20
1
E
F
G
H
Säulendiagramm
0,6
0,4
0,2
0
Geschlecht
Männlich
Weiblich
0,45
0,55
Abbildung 8.1: Häugkeitstabelle und Säulendiagramm.
8.2 Zu Kapitel 3
1.) Im Sportunterricht kam eine Gruppe von Mädchen beim Kugelstoÿen auf folgende
Weiten
X
3,23
in [m]
2,35
5,37
3,49
6,90
2,93
1,81
4,26
4,44
2,73.
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen
Ausprägungen gibt es?
99
8 Ausgewählte Lösungen
Die statistischen Einheiten sind die Mädchen, die zusammen die Gesamtheit bilden. Das Merkmal sind die erzielten Weiten. Dieses Merkmal ist metrisch stetig.
b) Berechnen Sie das untere Quartil, den Median, das obere Quartil, das arithmetische Mittel, die Varianz und die Standardabweichung sowie die empirische
Varianz und die empirische Standardabweichung und dann noch den Variationskoezienten des Merkmals
X.
Die Lösung nden Sie im abgebildeten Arbeitsblatt.
A
B
C
D
E
F
1 i
xi
x(i)
x(i)2
Q1
2
1 3,23 1,81
3,2761
Q2
3
2 2,35 2,35
5,5225
Q3
4
3 5,37 2,73
7,4529
xquer
σ2
5
4 3,49 2,93
8,5849
6
5 6,90 3,23 10,4329
σ
s2
7
6 2,93 3,49 12,1801
8
7 1,81 4,26 18,1476
s
9
8 4,26 4,44 19,7136
v
10
9 4,44 5,37 28,8369
11 10 2,73 6,90 47,6100
12
37,51 161,7575
G
2,73
3,36
4,44
3,751
2,105749
1,451119912
2,339721111
1,529614694
0,386862147
H
3,751
2,105749
1,451119912
2,339721111
1,529614694
Abbildung 8.2: Maÿzahlen der Aufgabe
2.) In der Tabelle 8.1 sind die Noten der Teilnehmer eines Kurses aufgeführt. Welcher
Art ist das beschriebene Merkmal und welche möglichen Ausprägungen gibt es?
Berechnen Sie die Häugkeitstabelle und zeichnen dann die Stabverteilung sowie
die empirische Verteilungsfunktion. Geben Sie abschlieÿend den Modus, das untere
Quartil, den Median und das obere Quartil sowie das 95 % Quantil an. Warum ist
es hier nicht sinnvoll Mittelwert und Varianz zu berechnen?
Tabelle 8.1: Notenverteilung der Teilnehmer
Note
sehr gut
gut
befriedigend
ausreichend
mangelhaft
6
5
5
3
1
ni
Die statistischen Einheiten sind die Teilnehmer, die zusammen die statistische Gesamtheit bilden. Das untersuchte Merkmal ist die Note des Teilnehmers, die möglichen Ausprägungen sind sehr gut, gut usw. Das Merkmal ist ordinal, folglich
sollten Mittelwert und Varianz nicht berechnet werden, was aber gerade bei Noten
fast immer doch gemacht wird. Die Häugkeitstabelle und die beiden Diagramme
sind abgebildet. Ich habe die Noten wie in der Schule üblich durch die Zahlen 1 bis
5 codiert.
Modus: Für den Modus wird der Index
ist das der Index
100
i=1
mit
ni = 6 .
i
mit dem gröÿten Wert von
Die zugehörige Ausprägung
ai
ni
gesucht, hier
ist der Modus,
8.2 Zu Kapitel 3
1
2
3
4
5
6
7
8
9
10
A
i
1
2
3
4
5
B
ai
C D
ni Ni
1
2
3
4
5
6
5
5
3
1
Modus 1
Q1 1
Q2 2
Q3 3
E
fi
6
11
16
19
20
F
Fi
0,3
0,25
0,25
0,15
0,05
G
0,3
0,55
0,8
0,95
1
x0,95 4 und 5
H
I
0,35
1,2
0,3
1
0,25
J
0,8
0,2
0,6
0,15
0,1
0,4
0,05
0,2
0
0
0 1 2 3 4 5 6
0
1
2
3
4
5
6
Abbildung 8.3: Häugkeitstabelle, Diagramme und Maÿzahlen der Verteilung.
also
a1 = sehr
gut.
Unteres Quartil: Zum ersten Mal wird für den Index
ist
a1
i = 1 Fi > 0, 25 > Fi−1 ,
also
(sehr gut) das untere Quartil.
Median: Zum ersten Mal wird für den Index
i = 2 Fi > 0, 5 > Fi−1 ,
also ist
a2
(gut)
der Median.
Oberes Quartil: Zum ersten Mal wird für den Index
a3
i = 3 Fi > 0, 75 > Fi−1 ,
also ist
(befriedigend) das obere Quartil.
Das Quantil
x0,95
i = 4 die Gleichung Fi = 0, 95
a4 (ausreichend) als auch a5 (mangelhaft).
ist nicht eindeutig, da für den Index
gilt, somit ergeben sich sowohl die Werte
Eine Mittelung zwischen a4 und a5 ist hier nicht statthaft, da das betrachtete Merkmal
ordinal ist.
3.) Ein Gastwirt zählt die Anzahl
X
der Gäste an seinen Tischen und kommt auf fol-
gende Werte:
3
6
5
8
6
4
4
4
3
6.
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
Die statistischen Einheiten sind die Tische, die zusammen die Gesamtheit bilden.
Das Merkmal sind die Anzahl der Gäste am Tisch. Dieses Merkmal ist metrisch
diskret.
b) Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung
für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
c) Berechnen Sie den Modus, das untere Quartil, den Median, das obere Quartil, die
Quantile
x0,2
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und die Standard-
abweichung sowie die empirische Varianz und die empirische Standardabweichung
und dann noch den Variationskoezienten des Merkmals
X.
i mit dem gröÿten Wert von ni gesucht,
ni = 3. Die zugehörigen Ausprägungen a2 = 4
Modus: Für den Modus wird der Index
hier gilt für
i=2
und
i=4
mit
101
8 Ausgewählte Lösungen
A B C D E F G
1 xi x(i)
i ai ni Ni
2 3 3
1 3 2 2
2 4 3 5
3 6 3
3 5 1 6
4 5 4
5 8 4
4 6 3 9
6 6 4
5 8 1 10
7 4 5
8 4 6
9 4 6
10 3 6
2
11 6 8
0
H
fi
I
J
K
Fi
0,2
0,3
0,1
0,3
0,1
3
0
L
M
N
O
P
fi
0,2
0,5
0,6
0,9
1
0,2
0,1
ai
2 3 4 5 6 7 8
3 3
0 0,2
3
4
0,2 0,2
4
4
0 0,3
4 5
0,5 0,5
R
S
T
U V W
3
4
5
6
8
Fi
1
0,8
0,6
0,4
0,2
0
0,3
0
Q
ai
X
0,2
0,5
0,6
0,9
1
2 3 4 5 6 7 8
5 5
0 0,2
5 6
0,6 0,6
6 6
0 0,2
8
6
8
0,9 0,9
8
1
8
0 0,1
9
1
Abbildung 8.4: Häugkeitstabelle und Diagramme
und
a4 = 6
sind Modi.
Unteres Quartil: Zum ersten Mal wird für den Index
also ist
a2 = 4
i = 2 Fi > 0, 25 > Fi−1
,
das untere Quartil.
i = 3 Fi > 0, 5 aber Fi−1 = 0, 5,
somit ist der Mittelwert von a3 und a2 der Median, also Q2 = 4, 5.
Oberes Quartil: Zum ersten Mal wird für den Index i = 4 Fi > 0, 75 > Fi−1 , also
ist a4 = 6 das obere Quartil.
Wie beim Median begründet sind x0,2 = 3, 5 und x0,9 = 7.
Median: Zum ersten Mal wird für den Index
Für die restlichen Maÿzahlen gelten
x̄ = (3 · 2 + 4 · 3 + 5 · 1 + 6 · 3 + 8 · 1)/10 = 4, 9
σ 2 = (32 · 2 + 42 · 3 + 52 · 1 + 62 · 3 + 82 · 1)/10 − 4, 92 = 2, 29
s2 = (10/9) · σ 2 = 2, 54̄
√
σ = σ 2 = 1, 51327460
√
s = s2 = 1, 59513148
v = σ/x̄ = 0, 30883155
4.) Erstellen Sie den einfachen Boxplot zu den Daten des Beispiels 2.1 auf Seite 12.
Für einen einfachen Boxplot werden neben den drei Quartilen
der kleinste Q0 und der gröÿte Q4 Wert
Q1 = 6, Q2 = 7, Q3 = 8 und Q4 = 10, das
Q1 , Q2
der Daten benötigt. Hier sind
ergibt den folgenden Boxplot:
Einfacher Boxplot: Studiendauer in Semester
4
5
6
7
8
9
10
11
Abbildung 8.5: Boxplot zu den Daten des Beispiels 2.1
102
und
Q3 noch
Q0 = 5,
8.2 Zu Kapitel 3
5.) In der folgenden Urliste ist das Lebensalter
X
von Studenten eines Kurses aufgeführt.
19, 21, 26, 20, 22, 19, 20, 19, 23, 21, 52, 22, 19, 21, 20, 23, 22, 21, 21, 20, 20
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung?
b) Welcher Art ist das beschriebene Merkmal und welche möglichen Werte gibt es?
c) Berechnen Sie die Häugkeitstabelle und zeichnen Sie dann die Stabverteilung
für die relativen Häugkeiten sowie die empirische Verteilungsfunktion.
d) Berechnen Sie den Modus, das untere Quartil, den Median, das obere Quartil, die
Quantile
x0,4
sowie
x0,9 ,
das arithmetische Mittel, die Varianz und die Standard-
abweichung sowie die empirische Varianz und die empirische Standardabweichung
und dann noch den Variationskoezienten des Merkmals
X.
e) Der Wert 52 ist ein Zahlendreher und wäre korrekt 25. Wie ändern sich die
Ergebnisse von d) dadurch?
f ) Ein anderer Auswerter dieser Daten unterdrückt den Ausreiÿer von 52 ganz, geht
also nur noch von 20 statt 21 Werten aus. Wie ändern sich dadurch die Ergebnisse
von d)?
Bis auf die beiden letzten Fragen sind alle Antworten im folgenden Arbeitsblatt
versammelt.
i
ai ni Ni
1
2
3
4
5
6
7
19
20
21
22
23
26
52
4
5
5
3
2
1
1
4
9
14
17
19
20
21
fi
Fi
0,190476
0,238095
0,238095
0,142857
0,095238
0,047619
0,047619
0,190476
0,428571
0,666667
0,809524
0,904762
0,952381
1,000000
Modus 20 und 21 xquer
2
Q1
20 σ
21
22
19
23
Q2
Q3
x0,1
x0,9
22,4285714
46,4353741
6,8143506
48,7571429
6,98263151
0,30382455
σ
s2
s
v
1
0,8
0,6
0,4
0,2
0
0,2
0,1
0
10
20
30
40
50
10
20
30
40
50
Abbildung 8.6: Häugkeitstabelle, Diagramme und Maÿzahlen.
6.) In einem Projekt zur Betriebsinformatik wurden die Studierenden unter anderem
nach dem Alter ihres Vaters gefragt. Hier ist die geordnete Stichprobe:
103
8 Ausgewählte Lösungen
44 46 49 50 50 51 51 51 51 51 52 52 53 53 53 54 55 56 57 58 60
Man erstelle beide Varianten des Boxplots.
n = 21 bereits geordnete Daten. Somit
Q2 = x11 = 52, Q3 = x16 = 54 und Q4 = x21 = 60.
Es sind
sind
Q0 = 44, Q1 = x6 = 51,
Der einfache Boxplot sieht daher
wie folgt aus
Einfacher Boxplot: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
62
Abbildung 8.7: Einfacher Boxplot
Der Interquartilsabstand ist
IQR = Q3 − Q1 = 54 − 51 = 3,
das 1,5-fache davon
Q1 − 4, 5 =
46, 5, also Z0 = 49. Der obere Zaun ist die gröÿte Beobachtung unterhalb von Q3 +
4, 5 = 58, 5, also Z4 = 58. Ausreiÿer nach unten sind alle Werte unterhalb von Z0 ,
also 46 und 44. Ausreiÿer nach oben sind alle Werte oberhalb von Z4 , also nur 60.
beträgt 4,5. Der untere Zaun ist die kleinste Beobachtung oberhalb von
Der zweite Boxplot sieht daher wie folgt aus
Variante des Boxplots: Alter von Vätern
42
44
46
48
50
52
54
56
58
60
62
Abbildung 8.8: Variante des Boxplots
8.3 Zu Kapitel 4
1.) (Wikipedia, 19.2.2009) Es liegen für 32 europäische Länder als Indikator für den
Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden in
Klassen eingeteilt wie folgt. In 9 Ländern kommen z.B. auf je 1.000 Einwohner mehr
Tabelle 8.2: Brumm, Brumm
[0, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 700]
5
6
6
9
6
als 400 und bis zu 500 PKW. Erstellen Sie die klassierte Häugkeitstabelle, das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie dann näherungsweise die Quartile
104
Q1 , Q2
und
Q3
sowie den Mittelwert und die Varianz.
8.3 Zu Kapitel 4
i xi-1* xi* ni Ni
1
2
3
4
5
0
200
300
400
500
200
300
400
500
700
5
6
6
9
6
5
11
17
26
32
fi
fi*
0,15625
0,1875
0,1875
0,28125
0,1875
Fi
0,00078125
0,001875
0,001875
0,0028125
0,0009375
Modus
0,003
450,00 xquer
2
250,00 σ
Q1
Q2
Q3
0,15625
0,34375
0,53125
0,8125
1
367,19
25876,46
160,86
26711,19
163,44
383,33 σ
2
477,78 s
s
1
0,8
0,002
0,6
0,4
0,001
0,2
0
-100
100
300
500
0
-100
700
100
300
500
700
Abbildung 8.9: Lösung zur Aufgabe
2.) Die Daten seien wieder die Körpergröÿen der Abbildung 4.1, aber die Klassengrenzen
seien 1,50, 1,70, 1,80, 1,90 und 2,10. Erstellen Sie die klassierte Häugkeitstabelle,
das Histogramm sowie die approximierende Verteilungsfunktion. Berechnen Sie dann
näherungsweise die Quartile
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
L
fi*
und
Q3
M
Fi
N
F G
i xi-1*
H
xi*
I J
n i Ni
1
2
3
4
1,70
1,80
1,90
2,10
4 4 0,2
1 0,2
7 11 0,35 3,5 0,55
6 17 0,3
3 0,85
3 20 0,15 0,75
1
1,50
1,70
1,80
1,90
K
fi
Q1 , Q2
4
3
2
1
0
sowie den Mittelwert und die Varianz.
O
Modus
Q1
Q2
Q3
P
Q
1,75 xquer
2
1,71429 σ
1,78571 σ
2
1,86667 s
s
R
1,7875
0,01546875
0,12437343
0,016282895
0,127604446
1
0,8
0,6
0,4
0,2
0
1,40
1,60
1,80
2,00
Größe in [m]
2,20
1,40
1,60
1,80
2,00
Größe in [m]
2,20
Q1
1,7+((0,25-0,2)*(1,8-1,7))/(0,55-0,2)
Q2
1,7+((0,5-0,2)*(1,8-1,7))/(0,55-0,2)
Q3
1,8+((0,75-0,55)*(1,9-1,8))/(0,85-0,55)
xquer 0,2*1,6+0,35*1,75+0,3*1,85+0,15*2
σ2
0,2*1,6^2+0,35*1,75^2+0,3*1,85^2+0,15*2^2-R1^2
Abbildung 8.10: Klassierte Häugkeitstabelle und Diagramme
105
8 Ausgewählte Lösungen
8.4 Zu Kapitel 5
1.) In der Kleinstadt des Beispiels 5.1 auf Seite 52 hat der erfolgreichste der fünf Bäcker
sein Geschäft auf seine zwei Söhne verteilt, die Jahresgewinne von 60 und 90 Tausend
Euro erwirtschaften. Die Jahresgewinne der anderen Bäckereien veränderten sich
nicht. Somit sind die Jahresgewinne der nun sechs Bäcker 60, 40, 60, 90, 20 und 90
in Tausend Euro.
a) Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten
und zeichnen Sie die Lorenzkurve.
i
1
2
3
4
5
6
xi
x(i)
60 20
40 40
60 60
90 60
20 90
90 90
360 360
fi
0,1667
0,1667
0,1667
0,1667
0,1667
0,1667
1,0000
qi
Fi
0,0556
0,1111
0,1667
0,1667
0,2500
0,2500
1,0000
0,0
0,1667
0,3333
0,5000
0,6667
0,8333
1,0000
0,0000
Qi
0,000
0,0556
0,1667
0,3333
0,5000
0,7500
1,0000
0,0000
Gi
1,0
0,8
0,0093
0,0370
0,0833
0,1389
0,2083
0,2917
0,2315
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Abbildung 8.11: Häugkeitstabelle und Lorenzkurve
Der normierte Gini-Koezient ist 6/5-mal gröÿer als der Gini-Koezient, hat
also den Wert 0,2778.
b) Zeichnen Sie die Konzentrationskurve und berechnen Sie den Rosenbluth- und
den Herndahl-Index.
xi
x(i)
60 90
40 90
90 60
60 60
20 40
90 20
360 360
ci
0,250
0,250
0,167
0,167
0,111
0,056
1,000
i
0
1
2
3
4
5
6
0
Ci
0,000
0,250
0,500
0,667
0,833
0,944
1,000
0,000
KR
ci2
0,250
0,500
0,500
0,667
0,556
0,333
0,217
0,063
0,063
0,028
0,028
0,012
0,003
0,196
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
6
Abbildung 8.12: Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
c) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
Die statistischen Einheiten sind die Bäckereien, die insgesamt die statistische
106
8.4 Zu Kapitel 5
Gesamtheit der Untersuchung bilden. Das untersuchte Merkmal ist der Jahresgewinn, die möglichen Werte sind die reellen Zahlen. Das Merkmal ist stetig
metrisch.
2.) Auf Drängen der EU-Kommission wurde der Energiemarkt in Costa Asturia neu
geordnet, das bisher gröÿte Unternehmen wurde in drei Anbieter mit je 20 Prozent
Marktanteil aufgeteilt. Das bisher zweitgröÿte Unternehmen konnte seinen Marktanteil um fünf Prozent auf Kosten des kleinsten Unternehmens steigern, sodass die nun
sechs Anbieter Marktanteile von 25, dreimal 20, 10 und 5 Prozent haben. Zeichnen
Sie die Konzentrationskurve und berechnen sie den Rosenbluth- und den HerndahlIndex.
ci
i
Ci
KR
K_H
1,0
0 0,00
0,25 1 0,25 0,250 0,063
0,8
0,20 2 0,45 0,400 0,040
0,6
0,20 3 0,65 0,600 0,040
0,4
0,20 4 0,85 0,800 0,040
0,2
0,10 5 0,95 0,500 0,010
0,05 6 1,00 0,300 0,003
1,00 0 0,00 0,213 0,195
0,0
0
1
2
3
4
5
6
Abbildung 8.13: Konzentrationskurve und Rosenbluth- sowie Herndahl-Index
3.) (Anderson et al.). In der Tabelle 8.3 ist die Zahl der Personen in Privathaushalten
in der BRD 1970 aufgeführt.
Tabelle 8.3: Gröÿe von Haushalten, BRD 1970
Haushaltsgröÿe
Zahl der Haushalte in 1000
1
2
3
4
5527
5959
4314
3351
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
Die statistischen Einheiten sind die Haushalte, die insgesamt die statistische Gesamtheit der Untersuchung bilden. Das untersuchte Merkmal ist die Anzahl von
Personen, die in dem Haushalt wohnen, die möglichen Werte sind die natürlichen
Zahlen. Das Merkmal ist diskret metrisch.
b) Erstellen Sie die Häugkeitstabelle und berechnen Sie den Gini-Koezienten und
zeichnen Sie die Lorenzkurve.
107
8 Ausgewählte Lösungen
A
B
1 xi
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
C
ni
1
2
3
4
D
fi
5527
5959
4314
3351
19151
xi*ni
0,2886
0,3112
0,2253
0,1750
1
E
F
qi
5527
11918
12942
13404
43791
G
Fi
0,1262
0,2722
0,2955
0,3061
1
H
Qi
0
0,2886
0,5998
0,8250
1,0000
0
I
J
Gi
0
0,1262
0,3984
0,6939
1,0000
0
0,036
0,163
0,246
0,296
0,258
Verteilungsfunktion
Stabdiagramm
1,20
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
K
L
M
fi
1,00
0,80
0,60
1
0,40
0,8
Fi
1
1
0,0000 -0,5
0,2886
1
0,0000
0,0000
2
2
0,0000
0,3112
1
2
0,2886
0,2886
3
3
0,0000
0,2253
2
3
0,5998
0,5998
4
4
0,0000
0,1750
3
4
0,8250
0,8250
Lorenzkurve
4 100,00%
5,5 100,00%
0,6
0,20
0,4
0,00
0
1
2
3
4
Haushaltsgröße
0,2
0
1
2 3 4 5
Haushaltsgröße
0
0
0,2
0,4
0,6
0,8
1
Abbildung 8.14: Häugkeitstabelle und Diagramme.
Zu sehen sind auch noch das Stabdiagramm und die empirische Verteilungsfunktion.
4.) Diese Aufgabe stammt von von der Lippe, ich habe nur andere Zahlen verwendet:
200 Angehörige eines primitiven Volksstammes, sogenannte Urmenschen, gehen
auf die Jagd nach Federvieh. Ihre Beute beträgt 1.000 Wildgänse. Durch das an sich
nur bei primitiven Völkern bekannte Gerangel um Geld, Gut und Prestige entstand
trotz Eingreifens des Häuptlings eine etwas ungleiche Verteilung der Beute. Es bekamen 78 Jäger drei, 58 fünf, 41 sechs und 23 sogar zehn Gänse. Erstellen Sie die
Lorenzkurve und berechnen Sie die beiden Gini-Koezienten.
i
1
2
3
4
ai
3
5
6
10
ni
ni*ai
78 234
58 290
41 246
23 230
200 1000
fi
0,390
0,290
0,205
0,115
1
qi
Fi
Qi
Gi
0,234
0,290
0,246
0,230
1
0
0,390
0,680
0,885
1,000
0
0
0,234
0,524
0,770
1,000
0
0,091
0,220
0,265
0,204
0,220
1
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
Abbildung 8.15: Häugkeitstabelle und Lorenzkurve
Der normierte Gini-Koezient ist 200/199-mal gröÿer als der Gini-Koezient, hat
also den Wert 0,221.
5.) (Anderson et al.) In der folgenden Tabelle steht die Verteilung der Beschäftigten auf
Arbeitsstätten im Produzierenden Gewerbe in Westdeutschland im Jahr 1970.
108
8.4 Zu Kapitel 5
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
Die statistischen Einheiten sind die Arbeitsstätten, die insgesamt die statistische
Gesamtheit der Untersuchung bilden. Das untersuchte Merkmal ist die Anzahl
der Mitarbeiter, die möglichen Werte sind die natürlichen Zahlen. Das Merkmal
ist diskret metrisch.
b) Erstellen Sie die Häugkeitstabelle und berechnen Sie die beiden Gini-Koezienten
und zeichnen Sie die Lorenzkurve.
i
xi*
x(i)* ni
si
fi
1
1
4 3493
735
2
4
9 1231
800
3
9
19 636
854
4 19
49 442 1350
5 49
99 176 1226
6 99 199
98 1353
7 199 499
62 1884
8 499 ∞
32 4658
6170 12860
0,5661
0,1995
0,1031
0,0716
0,0285
0,0159
0,0100
0,0052
qi
Fi
Qi
Gi
0,0572
0,0622
0,0664
0,1050
0,0953
0,1052
0,1465
0,3622
0
0,5661
0,7656
0,8687
0,9404
0,9689
0,9848
0,9948
1,0000
0
0,0572
0,1194
0,1858
0,2907
0,3861
0,4913
0,6378
1,0000
0,0324
0,0352
0,0315
0,0341
0,0193
0,0139
0,0113
0,8222
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
Abbildung 8.16: Häugkeitstabelle und Lorenzkurve
Wegen der groÿen Zahl sind die Werte beider Gini-Koezienten fast gleich.
6.) (Uebe) In einem Betrieb wurden folgende Daten über die monatlichen Einkommen
(in 100
e)
der beschäftigten Frauen erhoben:
Tabelle 8.4: Fiktive Einkommen
Einkommen
Anzahl der Frauen
(6, 12]
(12, 16]
(16, 20]
(20, 24]
(24, 30]
10
15
10
5
4
a) Was ist die statistische Einheit und was ist die statistische Gesamtheit der Untersuchung? Welcher Art ist das beschriebene Merkmal und welche möglichen Werte
gibt es?
Die statistische Einheit ist eine Mitarbeiterin, die Gesamtheit sind alle Mitarbeiterinnen des Betriebs. Das Merkmal ist metrisch und stetig, die möglichen Werte
sind alle positiven Zahlen.
b) Stellen Sie die durch die Tabelle 8.4 gegebene Einkommensverteilung als Häugkeitstabelle und als Histogramm dar und erstellen Sie dann den Graphen der
approximierenden Verteilungsfunktion.
109
8 Ausgewählte Lösungen
1
2
A
B
UG
OG
3
4
5
6
7
8
6
12
16
20
24
9
10
11
x
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
6
6
12
12
12
16
16
16
20
20
20
24
24
24
30
30
C
12
16
20
24
30
VDF
0
0,038
0,038
0
0,085
0,085
0
0,057
0,057
0
0,028
0,028
0
0,015
0,015
0
D
E
F
G
H
∆i ni
fi
^fi
nimi
qi
6 10 0,2273 0,038 90 12,89%
4 15 0,3409 0,085 210 30,09%
4 10 0,2273 0,057 180 25,79%
4 5 0,1136 0,028 110 15,76%
6 4 0,0909 0,015 108 15,47%
44
698
1
VF
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
3,00
6,00
0,00
0,00
30,00
40,00
I
J
K
Fi
Qi
Gi
0,0000
0,2273
0,5682
0,7955
0,9091
1,0000
0,0000
0,1289
0,4298
0,6877
0,8453
1,0000
M
1,00
1,00
0,75
0,05
0,50
0,04
0,03
0,25
0,02
P
Lorenzkurve
E
i
n
k
o
m
m
e
n
0,07
0,06
O
0,00 0,00
1,00 1,00
1,00
0,08
N
0,0293
0,1905
0,2540
0,1742
0,1678
0,1843
Histogramm und
Verteilungsfunktion
0,09
L
1,00
0,80
0,60
0,40
0,20
0,01
0,00
0,00
0,00
3
6
9
12 15 18 21 24 27 30
0,00
0,20
0,40
0,60
0,80
1,00
Mitarbeiter
Einkommen in 100 €
Abbildung 8.17: Häugkeitstabelle, Histogramm und Verteilungsfunktion.
c) Erstellen Sie die Lorenzkurve und berechnen Sie die beiden Gini-Koezienten.
Der normierte gini-Koezient hat den Wert
0, 1886 = 44 · 0, 1843/43.
d) Berechnen Sie für die Einkommen der Frauen näherungsweise Modus, unteres
Quartil, Median, oberes Quartil, die Quantile
x0,1
sowie
x0,9 ,
Mittelwert sowie
Varianz und empirische Varianz und Standardabweichung und empirische Standardabweichung und den Variationskoezient.
Modus: 14
Quartile und Quantile:
Q1
Q2
Q3
x0,1
x0,9
= x0,25 ≈ 12 + (0, 25 − 0, 2273) · (16 − 12)/(0, 5682 − 0, 2273) = 12, 26635377
= x0,5 ≈ 12 + (0, 5 − 0, 2273) · (16 − 12)/(0, 5682 − 0, 2273) = 15, 19976533
= x0,25 ≈ 16 + (0, 75 − 0, 5682) · (20 − 16)/(0, 7955 − 0, 56823) = 19, 1997184
≈ 6 + (0, 1 − 0, 0) · (12 − 6)/(0, 2273 − 0) = 8, 639683238
≈ 20 + (0, 9 − 0, 7955) · (24 − 20)/(0, 9091 − 0, 7955) = 23, 67957746
Mittelwert, Varianz, empirische Varianz, Standardabweichung, empirische Stan-
110
8.5 Zu Kapitel 6
dardabweichung:
x̄ ≈ (10 · 9 + 15 · 14 + 10 · 18 + 5 · 22 + 4 · 27)/44 = 15, 86363636
σ 2 ≈ (10 · (9 − 15, 8636364)2 + 15 · (14 − 15, 8636364)2 + 10 · (18 − 15, 8636364)2
+ 5 · (22 − 15, 8636364)2 + 4 · (27 − 15, 8636364)2 )/44 = 28, 48140496s2 = (n/(n − 1)) · σ 2 = (44/
√
σ = σ 2 ≈ 5, 336797257
√
s = s2 ≈ 5, 398496385
7.) Man beweise die Beziehung (5.5) auf Seite 61.
Pn
KH =
2
i=1 xi
P
2
( ni=1 xi )
nσ 2 + nx̄2
1
=
=
2
2
n x̄
n
2
σ 2
vX
+1
+1 =
x̄
n
8.5 Zu Kapitel 6
Aufgabe 1.
Ein Zauberer behauptet aus einem gut durchgemischten Spiel mit 32 Kar-
ten als dritte Karte die Herz Dame zu ziehen. Wie hoch ist die Wahrscheinlichkeit dafür
ohne Tricks?
Zunächst muss also zweimal aus 32 bzw. 31 Karten nicht die Herz Dame gezogen werden,
und dann aus 30 Karten die Herz Dame gescht werden, was mit folgender Wahrscheinlichkeit geschieht
p = 31/32 · 30/31 · 1/30 = 1/32 = 0, 03125
Aufgabe 2.
In einer Urne benden sich die vier Buchstaben ANANAS. Mit welchen
Wahrscheinlichkeiten entsteht der Name ANNA bei viermaligem Ziehen, und zwar einmal mit und einmal ohne Zurücklegen, wobei die Reihenfolge beachtet wird.
pm = 1/2 · 1/3 · 1/3 · 1/6 = 0, 009259259
po = 1/2 · 2/5 · 1/4 · 2/3 = 0, 033333333
Aufgabe 3.
mit Zurücklegen,
ohne Zurücklegen,
(vgl. Mayer) Eine Urne enthalte 3 weiÿe und 2 schwarze Kugeln. Aus der
Urne werden nacheinander 2 Kugeln herausgenommen, einmal ohne und das andere Mal
mit zurücklegen. Zeichnen Sie die jeweiligen Baumdiagramme und bestimmen Sie die zugehörigen Wahrscheinlichkeitsverteilungen. Wie groÿ ist jeweils die Wahrscheinlichkeit,
2 weiÿe Kugeln zu ziehen?
Das Baumdiagramm ohne Zurücklegen ist links, das Baumdiagramm mit Zurücklegen
rechts zu sehen. Die Wahrscheinlichkeitsverteilungen sind in der folgenden Tabelle zu
sehen.
Ω
Mit Zurücklegen
p
Ohne Zurücklegen
p
SS
SW
WS
WW
0,1
0,3
0,3
0,3
0,16
0,24
0,24
0,36
111
8 Ausgewählte Lösungen
Start
Start
2/5
3/5
S
2/5
W
1/4
3/4
S
S
1/2
W
3/5
1/2
S
W
2/5
W
3/5
S
P(WW)=3/5 * 1/2= 3/10 = 0,3
2/5
W
3/5
S
W
P(WW)=3/5 * 3/5= 9/25 = 0,36
Abbildung 8.18: Baumdiagramme
Aufgabe 4.
In einer Schale benden sich neun gleich aussehende Pralinen, wovon vier
nach Champagner und fünf nach Eierlikör (Igitt) schmecken. Ein Gast darf drei Pralinen zufällig aussuchen. Wie sieht die Ergebnismenge und die Verteilung aus? Zeichnen
Sie die jeweiligen Baumdiagramme und bestimmen Sie die Ergebnismenge
Ω
und die
Wahrscheinlichkeitsverteilung. Wie groÿ ist die Wahrscheinlickeit, drei Bohnen mit Eierlikörgeschmack zu erwischen?
Die Ergebnismenge sind alle Folgen der Form
pagner und
E
XY Z ,
wobei
X
und
wie Eierlikör stehen. Somit hat die Ergebnismenge
Y
Ω
für
C
wie Cham-
acht Elemente. Die
zugehörigen Wahrscheinlichkeiten werden über das Baumdiagramm berechnet.
5/9
4/8
E
Start
4/9
4/8
E
5/8
C
C
3/8
E
C
3/7
4/7
4/7
3/7
4/7
3/7
5/7
2/7
E
C
E
C
E
C
E
C
Abbildung 8.19: Baumdiagramm und Verteilung
Die Wahrscheinlichkeitsverteilung ist in der folgenden Tabelle zu sehen.
Ω
CCC
CCE
CEC
CEE
ECC
ECE
EEC
EEE
p
0,0476
0,1190
0,1190
0,1587
0,1190
0,1587
0,1587
0,1190
Aufgabe 5.
Beim Spiel Mensch ärgere dich nicht darf man am Anfang dreimal hin-
tereinander würfeln, mit dem Ziel eine 6 zu werfen, da dann eine Figur ins Spielfeld
gesetzt wird. Beschreiben Sie das Zufallsexperiment durch einen Produktwahrscheinlichkeitsraum und dann das Ereignis
Wahrscheinlichkeit von
eine 6 erreicht wird.
112
A
A,
dass keine 6 erzielt wurde. Berechnen Sie die
und geben Sie an, mit welcher Wahrscheinlichkeit wenigstens
8.5 Zu Kapitel 6
Ω1 = { 1, 2, 3, 4, 5, 6 }
Jedes einzelne Zufallsexperiment wird durch die Grundmenge
be-
schrieben, die Ergebnismenge ist somit
Ω = Ω31 = { (k, l, m) : 1 ≤ k, l, m ≤ 6 } .
A
Das Ereignis
A
besteht aus allen Tripeln
(k, l, m)
mit Werten zwischen 1 und 5, d.h.
tritt ein, wenn man dreimal hintereinander keine 6 würfelt. In jeder Stufe besteht
P (A) = 5/6 · 5/6 ·
5/6 = 0, 5787 und folglich fällt mindestens eine 6 mit der Wahrscheinlichkeit des zu A
komplementären Ereignisses, also P (Ā) = 1 − 0, 578703704 = 0, 421296296.
dafür die Wahrscheinlichkeit von 5/6, nach der Pfadregel ist deshalb
Aufgabe 6.
Ein Student muss Klausuren in den drei Fächern A, B, C schreiben. Er
schätzt die Wahrscheinlichkeiten für das Bestehen im Fach A mit 0,9, in B mit 0,8 und in
C mit 0,4. Die Inhalte der Fächer sind sehr verschieden, sodass das Bestehen unabhängig
voneinander ist. Man bestimme die Ergebnismenge
Ω und die Wahrscheinlichkeitsvertei-
lung. Danach gebe man an, wie hoch die Wahrscheinlichkeiten dafür sind, alle, höchstens
zwei und keine Klausur zu bestehen.
Der Student kann jede der drei Klausuren bestehen oder nicht bestehen. Das Bestehen
A, das Durchfallen mit Ā gekennzeichnet. Es sind P (A) = 0, 9
P (Ā) = 0, 1. Genauso gelten P (B) = 0, 8 und somit P (B̄) = 0, 2 sowie
P (C) = 0, 4 und somit P (C̄) = 0, 5. Die Wahrscheinlichkeitsverteilungen sind in der
im Fach A wird durch
und somit
folgenden Tabelle zu sehen.
Ω
ABC
AB C̄
AB̄C
ĀBC
AB̄ C̄
ĀB C̄
ĀB̄C
ĀB̄ C̄
p
0,288
0,432
0,072
0,032
0,108
0,048
0,008
0,012
Die Wahrscheinlichkeit von
0, 9 · 0, 2 · 0, 4.
AB̄C
berechnet sich beispielsweise durch das Produkt
Alle Klausuren werden mit der Wahrscheinlichkeit
P (ABC) = P (A) · P (B) · P (C) = 0, 9 · 0, 8 · 0, 4 = 0, 288
bestanden. Höchstens zwei Klausuren werden somit mit der Wahrscheinlichkeit
0, 288 = 0, 712
1−
bestanden. Mit der Wahrscheinlichkeit
P (ĀB̄ C̄) = P (Ā) · P (B̄) · P (Ā) = 0, 1 · 0, 2 · 0, 6 = 0, 012
fällt der Student durch alle Klausuren.
Aufgabe 7.
(vgl. Mayer) Für zwei unabhängige Ereignisse
P (A|B) = 2/3
Man berechne
Da
A
und
B
und
und
B
gelte:
P (A ∩ B) = 1/6.
P (A), P (B), P (A ∪ B), P (B|A)
unabhängig sind, gilt
A
sowie
P (A\B)
P (A) = P (A|B) = 2/3.
und
P (B\A).
Aus
1/6 = P (A ∩ B) = P (A)P (B)
113
8 Ausgewählte Lösungen
P (A) = 2/3
folgt wegen
somit
P (B) = 1/6/2/3 = 1/4.
Weiter gelten
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 2/3 + 1/4 − 1/6 = 3/4
P (B|A) = P (B) = 1/4
P (A\B) = P (A) − P (A ∩ B) = 2/3 − 1/6 = 1/2
P (B\A) = P (B) − P (A ∩ B) = 1/4 − 1/6 = 1/12
Aufgabe 8. Es seien A und B zwei Ereignisse mit P (A∩B) = 0, 6 und P (A∩ B̄) = 0, 2.
Bestimmen Sie
P (A)
und
P (Ā)
sowie
P (B|A)
und
P (B̄|A).
P (A) = P (A ∩ B) + P (A ∩ B̄) = 0, 6 + 0, 2 = 0, 8
P (Ā) = 1 − P (A) = 1 − 0, 8 = 0, 2
P (B|A) = P (A ∩ B)/P (A) = 0, 6/0, 8 = 0, 75
P (B̄|A) = P (A ∩ B̄)/P (A) = 0, 2 · 0, 8 = 0, 25.
Aufgabe 9.
Ein Zufallsexperiment besteht darin, dass man mit einem Würfel solange
würfelt, bis zum ersten Mal eine Zahl zweimal auftritt, was spätestens beim siebten Wurf
passiert. Bestimmen Sie die Ergebnismenge
Ω
und die Wahrscheinlichkeitsverteilung.
Beim zweiten Wurf ist Schluss, wenn die gewürfelte Zahl mit der Zahl des ersten Wurfs
übereinstimmt, wofür eine Wahrscheinlichkeit von 1/6 besteht. Mit einer Wahrscheinlichkeit von 5/6 muss man ein drittes Mal würfeln. Trit man eine der beiden bereits
gewürfelten Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von
5/6 · 1/3 = 5/18.
Mit einer Wahrscheinlichkeit von 2/3 muss man ein viertes Mal würfeln. Trit man eine der drei bereits gewürfelten Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von
5/6·2/3·1/2 = 5/18. Mit einer Wahrscheinlichkeit von 1/2 muss man ein fünftes Mal würfeln. Trit man eine der vier bereits gewürfelten Zahlen ist Schluss, also mit einer Wahr-
5/6 · 2/3 · 1/2 · 2/3 = 5/27. Trit man eine der fünf bereits gewürfelten
Zahlen ist Schluss, also mit einer Wahrscheinlichkeit von 5/6·2/3·1/2·1/3·5/6 = 25/324.
scheinlichkeit von
Endgültig Schluss ist beim siebten Versuch, den man aber nur mit einer Wahrscheinlichkeit von
5/6 · 2/3 · 1/2 · 1/3 · 1/6 = 5/324
erreicht. Die Wahrscheinlichkeitsverteilung ist
in der folgenden Tabelle zu sehen.
Ω
2
3
4
5
6
7
p
0,166667
0,277778
0,277778
0,185185
0,077160
0,015432
Aufgabe 10.
Es seien drei Urnen mit je drei Kugeln betrachtet, wobei die erste Urne
drei, die zweite zwei und die dritte nur noch eine schwarze Kugel enthält, die anderen
Kugeln seien jeweils weiÿ. Das zweite Glücksrad der Abbildung 6.1 von Seite 70 werde
gedreht. Wenn der Zeiger des Glücksrads im roten Bereich zum Stehen kommt, wird eine
Kugel aus der ersten Urne gezogen, im grünen Sektor aus der zweiten und sonst aus der
dritten. Man bestimme die Ergebnismenge
Ω
und das Ereignis, dass die gezogene Kugel
schwarz ist. Danach berechne man die Wahrscheinlichkeiten dafür, dass eine gezogene
schwarze Kugel aus der ersten, zweiten oder dritten Urne stammt.
114
8.5 Zu Kapitel 6
Die Ergebnismenge setzt sich aus dem Ergebnis des Glücksrads und dem anschlieÿenden
Ziehen einer Kugel aus der entsprechenden Urne zusammen. Das Zufallsexperiment hat
daher folgende Verteilung
Die Menge
A,
Ω
RS
GS
GW
BS
BW
p
1/6
2/9
1/9
1/6
1/3
die das Ereignis des Ziehens einer schwarzen Kugel beschreibt, ist
A = { RS, GS, BS }
P (A) = 1/6 + 2/9 + 1/6 = 5/9.
mit
Nun werde ich die Wahrscheinlichkeit für das Ziehen einer schwarzen Kugel über den
Satz der totalen Wahrscheinlichkeit berechnen und anschlieÿend die Wahrscheinlichkeit
dafür ermitteln, dass eine gezogene schwarze Kugel der zweiten Urne entstammt. Dafür
wird folgende Excel-Tabelle eingerichtet:
A
2
i
3
1
4
2
5
3
6 Summen
B
P(Bi)
0,16666667
0,33333333
0,5
1
C
P(A|Bi)
1
0,66666667
0,33333333
D
P(Bi)*P(A|Bi)
E
P(Bi|A)
0,16666667
0,22222222
0,16666667
0,55555556
0,3
0,4
0,3
1
Abbildung 8.20: Arbeitstabelle für die Aufgabe 10
Die Ereignisse
B1 , B2
und
B3
stehen für den Zeigerstand des Glücksrads, die zugehöri-
gen Wahrscheinlichkeiten benden sich in der Spalte B. In der Spalte C sehen Sie die
P (A|Bi ). In der Zelle D6 steht die Summe der Produkte
von P (A). Die Formel in der Zelle E3 lautet
bedingten Wahrscheinlichkeiten
P (Bi )P (A|Bi ),
also der Wert
=D3/$D$6.
Diese Formel gilt dann entsprechend für die restlichen Zeilen. Eine schwarze Kugel
stammt also mit den Wahrscheinlichkeiten 0,3, 0,4 und 0,3 aus der ersten, zweiten oder
dritten Urne.
Aufgabe 11.
An einem texanischen Gericht arbeiten drei Richter B1, B2 und B3; die
Auswahl der Richter erfolgt zufällig, wobei B1 die Hälfte aller Prozesse übernimmt, auf
B2 fallen 30 % und auf B3 20 % aller Verfahren. Die Wahrscheinlichkeit eines Unschuldigen in einem Mordprozess auf einen Freispruch beim ersten Richter beträgt 90 %, beim
zweiten 50 % und beim dritten lediglich 40 %.
a) Wie groÿ ist die Wahrscheinlichkeit eines Freispruchs für einen Unschuldigen? Wie
groÿ ist die Wahrscheinlichkeit für eine Verurteilung?
115
8 Ausgewählte Lösungen
b) Mit welchen Wahrscheinlichkeiten stammt der Freispruch eines Unschuldigen von B1,
B2 und B3?
c) Mit welchen Wahrscheinlichkeiten stammt eine Verurteilung eines Unschuldigen von
B1, B2 und B3?
Die Ergebnisse kann man dem abgebildeten Arbeitsblatt entnehmen. Aus I10 folgt, dass
ein Unschuldiger mit der Wahrscheinlichkeit von 0,68 frei gesprochen und folglich mit
der Wahrscheinlichkeit von 0,32 verurteilt wird. Ein Freispruch geht mit der Wahrscheinlichkeit von 0,66176 auf den ersten Richter zurück, der auch nur rund 16 Prozent aller
Fehlurteile zu verantworten hat. Genauso werden die Leistungen der beiden anderen
Richter gedeutet.
F
G
H
I
J
K
P(Bi|A)
P(Bi|Ac)
P(Bi) P(A|Bi) P(Bi)*P(A|Bi)
6
i
7
1 0,5
0,9
0,45 0,661764706 0,15625
8
2 0,3
0,5
0,15 0,220588235 0,46875
9
3 0,2
0,4
0,08 0,117647059
0,375
10 Summen
1
0,68
1
1
Abbildung 8.21: Arbeitstabelle für den Satz von Bayes
Aufgabe 12.
In 10 Urnen benden sich schwarze und weiÿe Kugeln, und zwar in der
k-ten Urne genau
k, 1 ≤ k ≤ 10
schwarze Kugeln. Wie groÿ ist die Wahrscheinlichkeit
eine schwarze Kugel zu ziehen, wenn die Urne zufällig gewählt wird? Wie groÿ ist die
Wahrscheinlichkeit, dass eine gezogene schwarze Kugel der k-ten Urne entstammt?
Seien
Bk
die Ereignisse, dass die k-te Urne gewählt wird, und
S
das Ereignis, dass
die gezogene Kugel schwarz ist. Da die Urnen mit gleicher Wahrscheinlichkeit gewählt
werden, sind
p(Bk ) = 1/10.
Hier sind zusätzlich
p(S|Bk ) = k/10,
also nach dem Satz
von der totalen Wahrscheinlichkeit
p(S) = 1/10
10
X
k/10 = 1/100
10
X
k = 10(10 + 1)/2 · 1/100 = 55/100.
k=1
k=1
Aus dem Satz von Bayes folgen
p(Bk |S) = p(S|Bk )/p(S) = k/55.
8.6 Zu Kapitel 7
Aufgabe 1.
(Mayer) Zwei Spieler A und B spielen folgendes Spiel: Es wird mit zwei
fairen Würfeln gewürfelt. Unterscheiden sich die Augenzahlen höchstens um 1, so bekommt A von B 6 Euro ansonsten bekommt B von A 5 Euro. Welcher Spieler ist im
116
8.6 Zu Kapitel 7
Vorteil?
Es gibt beim Werfen von zwei fairen Würfeln 36 Kombinationen. Für den Spieler A
(1, 1) bis (6, 6) und die 5 Pärchen
(1, 2), (2, 1) bis (5, 6), (6, 5). Die Verteilung des Ausgangs X aus der Sicht des Spielers A
ist somit (6, 16/36), (−5, 20/36). Der Erwartungswert ist
sind davon nur 16 günstig, nämlich alle 6 Paschs von
E(X) = 6 · 16/36 − 5 · 20/36 = 1/9 = 0, 111 . . .
Das Spiel ist also auf lange Sicht für Spieler B vorteilhaft.
Aufgabe 2.
(Engel) Chuck-a-luck wird in den USA nach folgenden Regeln gespielt:
Ein Spieler darf eine Zahl zwischen 1 und 6 wählen und bezahlt einen Einsatz. Danach
werden drei faire Würfel geworfen. Der Spieler bekommt für jeden Würfel, worauf seine
Zahl erscheint, seinen Einsatz zurück, also insgesamt das 0-, 1-, 2- oder 3-fache seines
Einsatzes. Man bestimme die Verteilung und die kumulierte Verteilung und stelle die
Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit Hilfe der Verteilung
E(X) und V ar(X). Ist das Spiel gerecht oder ungünstig für den Spieler?
Das Spiel ähnelt dem Mutter-Tochter-Spiel. Jeder Würfel, auf dem die gewählte Zahl
erscheint, wird mit
P (Ā) = 5/6.
A
bezeichnet, erfolglose Würfe mit
Ā.
Hier sind
P (A) = 1/6
und
Damit gibt es folgende in der Tabelle aufgeführten 8 Ergebnisse beim
dreimaligem Würfeln:
Nr.
ωi
xi
pi
fi .
1
ĀĀĀ
-1
(5/6)3
(5/6)3 = 125/216
2
ĀĀA
ĀAĀ
AĀĀ
1
(5/6)2 · 1/6
(5/6)2 · 1/6
(5/6)2 · 1/6
3 · (5/6)2 · 1/6 = 25/72
ĀAA
AĀA
AAĀ
AAA
2
5/6 · (1/6)2
5/6 · (1/6)2
5/6 · (1/6)2
(1/6)3
3 · 5/6 · (1/6)2 = 5/72
(1/6)3 = 1/216
3
4
5
6
7
8
1
1
2
2
3
Der Erwartungswert des Spiels aus der Sicht des Spielers ist somit
E(X) = −1 · 125/216 + 1 · 25/72 + 2 · 5/72 + 3 · 1/216 = −0, 0787
Das Spiel ist also wie zu erwarten ungünstig für den Spieler. Die Höhe
X
des Gewinns
ist eine Zufallsvariable, deren Verteilung in der folgenden Abbildung zu sehen ist. Die
Werte der Verteilung stehen in der dritten Spalte der Abbildung und wurden aus der
2
letzen Spalte der Tabelle übernommen, z.B. ist f2 = 3 · (5/6) · 1/6 = 25/72. Dies ist die
Wahrscheinlichkeit für
X = x2 = 1.
117
8 Ausgewählte Lösungen
i xi
fi
xi2fi
xifi
Fi
F(x)
f(x)
0,6
1
0,5
0,75
0,4
0,3 0,5
0,2
0,25
0,1
0
0,0
x
1 -1 0,5787 -0,5787 0,5787 0,5787
2 1 0,3472 0,3472 0,3472 0,9259
3 2 0,0694 0,1389 0,2778 0,9954
4 3 0,0046 0,0139 0,0417 1,0000
E(X) = -0,0787 1,2454
-2
Var(X)= 1,2392
-1
0
1
2
x
-2 -1 0
3
1
2
3
Abbildung 8.22: Verteilung von Chuck-a-luck
Aufgabe 3.
X
Sei
die Augenzahl des Würfels, der an je einer Seite eine 1 und eine 2
hat und dessen restliche vier Seiten 3 zeigen. Dieses Zufallsgerät werde ich im folgenden
B-Würfel nennen. Man bestimme die Verteilung und die kumulierte Verteilung und stelle
die Wahrscheinlichkeits- sowie die Verteilungsfunktion dar. Danach berechne man mit
Hilfe der Verteilung
i
xi
fi
E(X)
und
xi2fi
xifi
V ar(X).
Fi
1
1
1/6
1/6
1/6
1/6
2
2
1/6
1/3
2/3
8/9
3
3
2/3
2
6
1
2,5 6,8333
1
0,6
0,75
0,5
0,4
0,2
x
0,0
0
E(X)= 2,5
Aufgabe 4.
F(x)
f(x)
1
2
0,25
x
0
3
0
1
2
3
Var(X)= 0,5833
S die Summe der Augenzahlen.
E(S) und V ar(S). Man überprüfe
Zwei B-Würfel werden geworfen. Es sei
Man bestimme die Verteilung und berechne damit
die Berechnungen von
E(S)
und
V ar(S)
durch Verwendung der Ergebnisse der vorigen
Aufgabe.
Ω
pi
si
fi
si
fi
sifi
2
si fi
(1, 1)
1/36
2
1/36
(1, 2)
1/36
3
(2, 1)
1/36
3
1/18
(1, 3)
1/9
4
2
3
4
5
1/36 1/18 1/4
2/9
0,0556 0,1667 1,0000 1,1111
(2, 2)
1/36
4
(3, 1)
1/9
4
1/4
(2, 3)
1/9
5
(3, 2)
1/9
5
2/9
(3, 3)
4/9 1
6
4/9 1
6 Summe
4/9
2,6667
5,0000
E(X)= 5,0000
0,1111 0,5000 4,0000 5,5556 16,0000 26,1667
Var(X)= 1,1667
Die Zufallsvariable
S
ist die Summe der beiden Zufallsvariablen
X1
und
X2 ,
wel-
che die Augenzahl des jeweiligen Würfels beschreiben. In der vorigen Aufgabe wur-
118
8.6 Zu Kapitel 7
V ar(Xi ) = 0, 58333 . . . ermiitelt. Da beide Zufallsvariablen
unabhängig voneinander sind, gelten E(S) = E(X1 ) + E(X2 ) = 2 · 2, 5 = 5 und
V ar(S) = V ar(X1 ) + V ar(X2 ) = 1, 166 . . .
den
E(Xi ) = 2, 5
Aufgabe 5.
und
Man bestimme die Verteilung und berechne damit
E(T )
T das Produkt der Augenzahlen.
E(T ) und V ar(T ). Auch hier kann
Zwei B-Würfel werden geworfen. Es sei
nochmal anders berechnet werden.
Ω
pi
ti
gi
(1, 1)
1/36
1
1/36
(1, 3)
1/9
3
(3, 1)
1/9
3
2/9
si
fi
tifi
1
2
3
4
1/36 1/18 2/9
1/36
0,0278 0,1111 0,6667 0,1111
6
2/9
1,3333
2
0,0278 0,2222 2,0000 0,4444
8,0000 36,0000 46,6944 Var(X)= 7,6319
ti fi
Die Zufallsvariable
(1, 2)
1/36
2
T
(2, 1)
1/36
2
1/18
(2, 2)
1/36
4
1/36
(2, 3)
1/9
6
(3, 2)
1/9
6
2/9
9 Summe
4/9 1
4,0000 6,2500
(3, 3)
4/9 1
9
4/9 1
E(X)= 6,2500
ist das Produkt der beiden Zufallsvariablen
X1
und
X2 ,
wel-
che die Augenzahl des jeweiligen Würfels beschreiben. In der vorigen Aufgabe wurden
E(Xi ) = 2, 5 bestimmt, also gilt
E(T ) = E(X1 )E(X2 ) = 6, 25.
Aufgabe 6.
wegen der Unabhängigkeit der beiden Zufallsvariablen
Beim Spiel Monopoly werden zwei faire Würfel gleichzeitig geworfen. Die
Zufallsvariable
S
sei die Summe der Augenzahlen. Man bestimme die Verteilung und die
kumulierte Verteilung und stelle die Wahrscheinlichkeits- sowie die Verteilungsfunktion
dar. Danach berechne man mit Hilfe der Verteilung
E(S)
und
V ar(S).
Das Werfen von zwei fairen Würfeln ist ein Laplace-Experiment mit folgender Ergebnismenge
Ω = { (i, j) : 1 ≤ i ≤ 6, 1 ≤ j ≤ 6 }
Für das Auftreten eines Summenwerts müssen die zugehörigen Paare gefunden werden,
etwa für die Summe 4 die drei Paare
(1, 3), (2, 2)und (2, 2),
von denen jedes mit einer
Wahrscheinlichkeit von 1/36 auftritt, also hat der Gesamtwert 4 eine Wahrscheinlichkeit
von 3/36. Auf diese Weise ergibt sich folgende Verteilung
xi
2
3
4
5
6
7
8
9
10
11
12
fi
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
119
Index
arithmetisches Mittel, 27
relative, 43
Ausprägung, 12
Häugkeitsliste, 12
Ausreiÿer, 21
Häugkeitstabelle, 13
Balkendiagramm, 14
Bernoulli-Experiment, 78
Herndahl-Index, 60
Histogramm, 44
Bernoulli-Verteilung, 95
Interquartilsabstand, 25
Bestandsmasse, 4
Intervallskala, 7
Bewegungsmasse, 4
Boxplot, 25
Klassen, 42
Klassenbreite, 42
Datenmatrix, 8
Klassenmitte, 43
Dichtefunktion
Klassenmittelwert, 43
empirische, 44
Disparität, 51
empirische Verteilungsfunktion, 15
Ereignismasse, 4
Ereignisse, 68
Ergebnismenge, 68
Erwartungswert, 92
Fragebogen, 7
geschlossene Fragen, 8
oene Fragen, 8
Gini-Koezient, 54
normiert, 56
Gleichverteilung, 69
Grundgesamtheit, 2, 4
Gruppierte Daten, 13
Häugkeit
Konzentration
absolute, 51
relative, 51
Konzentrationskurve, 59
Konzentrationsrate, 59
Kreisdiagramm, 18
Lagemaÿe, 19
Laplace-Experimente, 69
Lorenzkurve, 54
Median, 20
Mehrfachfrage, 8
Merkmal, 4
dichotom, 5
kardinal, 5
kategoriell, 5
metrisch, 5
Nominal, 5
absolute, 12
Ordinal, 5
relative, 12
polytom, 5
Häugkeitsdichte
absolute, 43
qualitatativ, 6
quantitativ, 6
121
Index
Merkmalsausprägung, 4
Wahrscheinlichkeit, 72
Merkmalsträger, 4, 5
Wahrscheinlichkeitsfunktion, 90
Mittelwert, 27
Wahrscheinlichkeitsmaÿ, 72
Modalwert, 19
Wahrscheinlichkeitstheorie, 2
Modus, 19
Wahrscheinlichkeitsverteilung
diskret, 68
Nominalskala, 7
Zufallsvariable, 87
Ordinalskala, 7
Pfadregel, 75
Produktwahrscheinlichkeitraum, 78
Quantil, 22
Quartil
oberes, 22
unteres, 22
Rosenbluth-Index, 60
Säulendiagramm, 14
Schiefemaÿe, 19
Skalenniveau, 6
Spannweite, 25
Stabdiagramme, 14
Standardabweichung, 31, 93
empirische, 31
Statistik, 1
beschreibende, 2
schlieÿende, 2
Statistische Einheit, 4
Stichprobe, 2
Stichprobenvarianz, 30
Streuungsmaÿe, 19
Treppenfunktion, 15
Urliste, 11
Varianz, 29, 93
empirische, 30
Variationskoezient, 31
Verschiebungssatz von Steiner, 29
Verteilungsfunktion
approximierende empirische, 46
Vollerhebung, 2
122
Herunterladen