Wahrscheinlichkeitsrechnung für Lehrer - TU Berlin

Werbung
INHALTSVERZEICHNIS
1
Inhaltsverzeichnis
1 Einführung
Wahrscheinlichkeitsrechnung
für Lehrer
Technische Universität Berlin
Fakultät II – Mathematik und Naturwissenschaften
Institut für Mathematik
Dr. G. Penn-Karras
Abbildungen von A. Gündel-vom Hofe
4
1.1
Das Problem von Pacioli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung . . . . . . . . . . . . 10
1.3
Zufallsexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Grundbegriffe der Zähltechnik
5
16
2.1
Kombinatorische Grundüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Von Pascal bis Kolmogorow - Axiomatisierung
32
(nach einer Vorlage von Prof. G. Leßner)
Stand: 29. März 2007
f
3.1
Historische Entwicklung des Wahrscheinlichkeitsbegriffs . . . . . . . . . . . . . . 32
3.2
Das Axiomensystem von Kolmogorow . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4
Bertrands Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5
Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4 Folgerungen aus den Axiomen
F(x)
f(x)
µ
x
R
43
4.1
Der Satz von Sylvester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2
Anwendungen des Satzes von Sylvester . . . . . . . . . . . . . . . . . . . . . . . 46
4.3
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4
Der Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5
Totale Wahrscheinlichkeit, Satz von Bayes . . . . . . . . . . . . . . . . . . . . . 54
5 Unabhängigkeit und Produkträume
59
5.1
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2
Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3
Vermischte Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6 Diskrete Zufallsgrößen
67
6.1
Zufallsgrößen und Wahrscheinlichkeitsfunktionen . . . . . . . . . . . . . . . . . . 67
6.2
Erwartungswert, Varianz und Streuung . . . . . . . . . . . . . . . . . . . . . . . 70
6.3
Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.4
Ergänzungen und Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2
INHALTSVERZEICHNIS
7 Die Binomialverteilung
80
8 Weitere diskrete Verteilungen
87
8.1 Die geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.3 Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.4 Die Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9 Stetige Zufallsgrößen
98
9.1 Die Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.2 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
9.3 Momente höherer Ordnung, Varianz und Schiefe . . . . . . . . . . . . . . . . . . 105
9.4 Die Ungleichung von Tschebyschew . . . . . . . . . . . . . . . . . . . . . . . . . 109
10 Die Normalverteilung
112
10.1 Einführung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3
INHALTSVERZEICHNIS
13.5 Irrfahrten auf einer Geraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
14 Stichproben und ihre Parameter
167
15 Einfache Entscheidungsverfahren
174
15.1 Das Testen einer Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
15.2 Der exakte Test von Fisher
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
15.3 Der Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
15.4 Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
16 Punktschätzung von Parametern
183
16.1 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 183
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
. . . . . . . . . . . . . . . . 187
16.3 Das Maximum–Likelihood–Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . 194
17 Konfidenzintervalle
200
17.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
10.2 Die standardisierte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 115
17.2 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
10.3 Die Grenzwertsätze von de Moivre und Laplace . . . . . . . . . . . . . . . . . . 116
17.3 Schätzung des Erwartungswertes einer Normalverteilung . . . . . . . . . . . . . 204
10.4 Anwendungen der Normalapproximation . . . . . . . . . . . . . . . . . . . . . . 121
18 Regression und Korrelation
11 Verteilungen von Zufallsvektoren
211
123
18.1 Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.1 Diskrete zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 124
18.2 Rangkorrelation und Vierfelderkorrelation . . . . . . . . . . . . . . . . . . . . . 217
11.2 Stetige zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 128
A Übersichten
12 Weitere Eigenschaften von Zufallsvektoren
220
136
A.1 Kombinatorische Grundformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
12.1 Unabhängige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
A.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
12.2 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
A.3 Stetige Verteilungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.3 Kovarianz und Korrelation zweier Zufallsgrößen . . . . . . . . . . . . . . . . . . 142
12.4 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
B Tabellen
224
B.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
13 Homogene Markowketten
B.1.1 p ≤ 0, 15 bzw. p ≥ 0, 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
148
13.1 Eigenschaften von Markowketten . . . . . . . . . . . . . . . . . . . . . . . . . . 148
B.1.2 0, 2 ≤ p ≤ 0, 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
13.2 Stochastische Matrizen und gerichtete Graphen . . . . . . . . . . . . . . . . . . 150
B.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
13.3 Die Pfadregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
13.4 Die Mittelwertregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Index
238
4
1
1 EINFÜHRUNG
Einführung
1.1 Das Problem von Pacioli
5
bewusst etwas leichtere Brötchen her. Als sich eines Tages eine Kontrolle ansagte, las er rasch
noch die ganz leichten aus. Wie hätte man den Betrug aufdecken können?
Probleme der Wahrscheinlichkeitsrechnung erfordern Denkstrategien, die sich von den Vorgehensweisen in der Geometrie, der Algebra und der Analysis, um nur einige bekanntere Disziplinen zu nennen, wesentlich unterscheiden.
Betrachten wir einige Beispiele.
Beispiel 1.1:
Ein Test besteht aus 10 Fragen. Zu jeder Frage sind 3 Antworten zur Auswahl gegeben, von
denen genau eine richtig ist. Bei 7 oder mehr richtigen Antworten ist der Test bestanden.
Ein ahnungsloser“ Prüfling kennt genau zwei richtige Antworten; bei den übrigen acht Fragen
”
wählt er blindlings aus.
Mit wieviel Prozent Sicherheit kann er erwarten, den Test zu bestehen?
Beispiel 1.2:
Der Vater verspricht seinem Sohn: Du erhältst einen Schachcomputer, wenn Du von 3 Schachpartien, die Du abwechselnd gegen deine Mutter und gegen mich spielst, zwei aufeinanderfolgende gewinnst.
Der Vater spielt besser als die Mutter. Gegen wen soll der Sohn zuerst spielen?
Beispiel 1.3:
In einer Urne befinden sich 50 Kugeln: 49 schwarze und eine weiße. Zwei Personen ziehen
abwechselnd nacheinander ohne Zurücklegen eine Kugel. Wer zuerst die weiße Kugel zieht, hat
gewonnen. Würden Sie lieber als Erster oder als Zweiter ziehen wollen?
Beispiel 1.4:
Ein Labyrinth wird nacheinander von einzelnen Mäusen durchlaufen (Abb. 1.1). Jede Maus
startet bei E1 und wird in der Falle E5 gefangen.
E4
E5
E1
E3
E2
Abb. 1.1
In jedem Knotenpunkt wählt sie rein zufällig“ eine der Röhren zur Fortsetzung ihrer Wande”
rung aus. Wieviele Röhren werden vor dem Erreichen der Falle im Durchschnitt durchlaufen?
Beispiel 1.5:
Noch vor einigen Jahren mussten die Brötchen im Durchschnitt 50 g wiegen. Ein Bäcker stellte
Beispiel 1.6:
Zwei Spieler spielen mit einem Würfel Schrumm“. Dabei wirft ein Spieler eine Serie von
”
Würfen, und die erzielte Augensumme wird ihm gutgeschrieben, sofern die Serie keine 6 enthält.
Einem Spieler, der eine 6 wirft, wird nichts gutgeschrieben, und er muss den Würfel an den
Gegner abgeben. Wer Augen angeschrieben haben will, muss daher seine Serie abbrechen und
den Partner werfen lassen, ehe eine 6 erscheint.
Mit welcher Strategie soll man spielen?
Beispiel 1.7:
5 % aller Dahlienknollen einer bestimmten Sorte treiben nicht. Jemand kauft 100 Knollen. Ihm
wird versichert, dass 90 % seiner Pflanzen angehen“.
”
Inwieweit ist auf diese Versicherung Verlass?
1.1
Das Problem von Pacioli
Schon im Altertum traten elementar zu lösende mathematische Probleme auf, die zur Wahrscheinlichkeitstheorie gerechnet werden können. Damals wurden auch die ersten statistischen
Daten bei Volkszählungen in Ägypten, Griechenland und im Römischen Reich (Herodes) gesammelt. Eine intensivere Beschäftigung mit statistischen Daten begann jedoch erst mit dem
aufkommenden weltweiten Handel. So wurden im 14. Jahrhundert die ersten Schiffsversicherungen in Italien und Holland eingerichtet. Sie versicherten Güter, die auf dem Seeweg
transportiert werden sollten, mit Prämien von 12–15 % des Gutwertes. Versicherungen für den
Landtransport verlangten damals 6–8 % des Gutwertes.
Außer durch solche statistischen Daten, die wir grob als Wahrscheinlichkeiten für Güterverlust“
”
charakterisieren können, wurde die Entwicklung der Wahrscheinlichkeitstheorie durch Gewinnund Verlustuntersuchungen von Spielen angeregt. Einen großen Entwicklungsimpuls erhielt die
Wahrscheinlichkeitsrechnung, als sich der Chevalier de Méré, ein leidenschaftlicher Spieler zur
Zeit Ludwigs des XIV., bei seinem Freund Blaise Pascal über die Mathematik beklagte.
Man spielte damals ein Würfelspiel, bei dem man vom Bankhalter das Doppelte seines Einsatzes
erhielt, wenn man bei 4 Würfen in Reihenfolge keine 6 warf. Wir wollen uns davon überzeugen,
dass sich das Spiel für die Bank lohnt. Bei jedem Wurf sind die Zahlen 1, 2, 3, 4 oder 5 für den
Spieler günstig. Wirft er zweimal, so sind für ihn die Möglichkeiten (1, 1), (1, 2), (2, 1), . . . , (5, 5)
günstig, und das sind 5 · 5 = 25 Zahlenpaare. Bei 4 Würfen mit einem Würfel gewinnt der
Spieler daher, wenn er eines der 5 · 5 · 5 · 5 = 625 Viertupel wirft, die keine 6 enthalten.
Nun kann man aber 6 ·6 ·6 ·6 = 1296 verschiedene Viertupel erzielen, also sind 1296− 625 = 671
für die Bank günstig, und diese gewinnt auf lange Sicht.
Heutzutage beschreibt man diese Situation wie folgt: Die Wahrscheinlichkeit, dass der Spieler
gewinnt, ist bei diesem Spiel
5 4
1
625
=
≈ 0, 482 < ,
1296
6
2
6
1 EINFÜHRUNG
die Wahrscheinlichkeit, dass die Bank gewinnt,
5 4
671
1
=1−
≈ 0, 518 > .
1296
6
2
De Méré wollte das Spiel folgendermaßen variieren: Die Spieler sollten gewinnen, wenn sie in
24 Würfen mit 2 Würfeln keine Doppelsechs erzielten.
Die Anzahl 24 ergibt sich hierbei wie folgt: Bei einem Würfel gibt es sechs mögliche Ergebnisse,
die Anzahl der Würfe ist 4. Bei 2 Würfeln gibt es 6 · 6 = 36 mögliche Ergebnisse, also muss
man, um auf dasselbe Verhältnis zu kommen, 24 Würfe zulassen.
Es zeigte sich jedoch bald, dass die Bank dabei Verluste machte. De Méré war damit unzufrieden und wandte sich mit seinem Unmut über die Widersprüche in der Mathematik an
Pascal. Dieser beurteilte das Problem folgendermaßen: Bei jedem Wurf gibt es 35 für den
Spieler günstige von insgesamt 36 Möglichkeiten. Bei 24 Würfen verhält sich daher die Anzahl
der günstigen Chancen zur Anzahl der möglichen wie
35 24
1
3524
=
≈ 0, 509 > .
3624
36
2
Bei genügend vielen Spielen wird daher der Spieler gewinnen und die Bank verlieren.
Ein anderes Problem beschreibt Pacioli in seinem 1494 in Venedig erschienen Werk Summa
”
de Arithmetica, Geometria, Proportioni et Proportionalità“:
Beispiel 1.8: (Problem von Pacioli)
Zwei gleichwertige Mannschaften spielen Ball um einen Preis von 22 Dukaten. Sieger ist, wer
zuerst 60 Punkte errungen hat. Durch besondere Umstände kann das Spiel nicht zuende geführt
werden. Wie ist das Preisgeld gerecht zu verteilen, wenn bis zu diesem Zeitpunkt die eine Seite
50 Punkte, die andere 30 erhalten hat?
Pacioli teilte das Preisgeld im Verhältnis 50 : 30 der bisher gewonnenen Punkte auf, vergab
50
30
also 80
· 22 = 13, 75 bzw. 80
· 22 = 8, 25 Dukaten.
Schon Tartaglia bemerkte, dass an Paciolis Lösung etwas nicht stimmen kann. In seinem
1556 in Venedig veröffentlichten Werk Trattato generale di numeri e misure“ griff er deshalb
”
das Problem nochmals auf. Er kritisierte Paciolis Lösung mit folgendem Hinweis: Hätte
beim Spielabbruch eine Partei 10 Punkte und die andere 0, so erhielte die erstere alles und
die letztere nichts, was offensichtlich unsinnig sei, da bei diesem Stande beide Parteien fast die
gleiche Gewinnchance besitzen.
Die von Tartaglia vorgeschlagene Lösung des Problems geht davon aus, dass jeder Partei
im Grunde die Hälfte des Gewinns, also 11 Dukaten zustehen (allerdings verwendete Tartaglia andere Werte; wir haben seine Zahlen denen von Pacioli angepasst). Wir betrachten
exemplarisch zwei Zahlenbeispiele:
10
= 16 der der anderen
(a) Hat eine Partei 10 Punkte und die andere 0, so erhält sie zusätzlich 60
11
Partei zustehenden Dukaten, also insgesamt 11 + 6 = 12, 83 Dukaten. Die andere Partei
= 9, 16 Dukaten.
erhält 11 − 11
6
7
1.1 Das Problem von Pacioli
(b) Hat eine Partei 50 Punkte und die andere 30, so hat sie 20 Punkte mehr errungen und
= 13 von den 11 Dukaten der Gegenseite dazu, also insgesamt 11 + 11
= 14, 6
erhält 20
60
3
Dukaten. Die andere Partei erhält 11 − 11
=
7,
3
Dukaten.
3
Aufgabe 1.1:
Beurteilen Sie die Vorschläge von Pacioli und Tartaglia.
Pacioli und Tartaglia versuchten, ein natürliches Gerechtigkeitsgefühl quantitativ zu beschreiben. Sie besaßen aber dafür keinen Kalkül. Sie hätten auch so verteilen können: Da
der ersten Mannschaft 10 Punkte und der zweiten 30 zum Gewinn fehlen, verteilen wir das
Preisgeld im Verhältnis 30:10, zahlen also 16, 5 und 5, 5 Dukaten aus.
De Méré hatte Pascal auch auf dieses Problem aufmerksam gemacht, und Pascal korrespondierte über dieses und andere Probleme seit 1654 mit Fermat. Viele Historiker bezeichnen
diesen Zeitpunkt als die eigentliche Geburtsstunde der Wahrscheinlichkeitsrechnung.
Pascal schlug vor, Preisgelder bei abgebrochenen Spielen nicht nach der Anzahl der bereits
erzielten Punkte zu verteilen, sondern nach den Gewinnwahrscheinlichkeiten bei Fortsetzung
des Spiels. Dieser Vorschlag war nicht neu. Ihn hatte schon Cardano in seiner Kritik an
der Paciolischen Lösung gemacht, welche er 1539 in seiner Practica arithmeticae generalis“
”
veröffentlichte. Nur hatte Cardano keinen Lösungsweg gefunden.
Wir wollen zuerst eine von Fermat entwickelte Methode angeben. Sie bezieht sich auf ein
Glücksspiel, in dem beide Parteien für jedes Spiel dieselben Chancen besitzen, und in dem die
Partei A zum Sieg noch 2 Spiele und die Partei B noch 3 Spiele benötigt: Der Wettkampf kann
bei diesem Stand noch höchstens 4 Spiele dauern. Welches sind die möglichen Ergebnisse?
Bezeichnen wir einen Gewinn von A mit + und eine Gewinn mit B mit −, so ergeben sich 16
Möglichkeiten:
1 2
+ +
+ +
+ +
+ −
3 4 5 6
+ + − +
+ − + +
− + + −
+ + + −
7 8 9
+ − +
− + −
+ + −
− − +
10
−
+
−
+
11 12 13
− − −
− − −
+ − +
+ + −
14 15 16
− + −
+ − −
− − −
− − −
In den Fällen 1 bis 11 gewinnt A, in den restlichen 5 Fällen B. Daher sollen nach Fermat
5
der Einsätze an A und 16
an B verteilt werden.
11
16
Zu dieser Zeit hatte Pascal bereits das Manuskript zu seiner berühmten Arbeit Traité du
”
triangle arithmétique“ fertiggestellt, in der er das später nach ihm benannte Pascalsche
Dreieck entwickelte und auf Probleme der Wahrscheinlichkeitsrechnung anwendete. Ohne den
Bezug zur Wahrscheinlichkeitsrechnung findet sich das Schema schon 1556 bei Tartaglia.
Erinnern wir uns: Das Pascalsche Dreieck ist eine Tabelle der Binomialkoeffizienten, d.h. der
8
1 EINFÜHRUNG
Koeffizienten der Entwicklungen von (a + b)n , n = 0, 1, 2, . . . :
(a + b)0
(a + b)1
(a + b)2
(a + b)3
(a + b)4
(a + b)5
(a + b)6 1
...
...
1
1
1
3
1
1
6
...
...
2
4
Für A sind diejenigen Spielfolgen günstig, in denen B höchstens zweimal gewinnt, das sind
4
4
4
+
+
= 1 + 4 + 6 = 11 .
0
1
2
1
3
1
6
4
1
5
10
10
5
...
15
... ...
20
... ...
15
... ...
1
6
...
...
1
...
Allgemein gilt die binomische Formel
n 0 n
n
n n−2 2
n n−1 1
n n 0
ab ,
a1 bn−1 +
a b + ... +
a b +
a b +
(a + b)n =
n
n−1
2
1
0
wobei die Binomialkoeffizienten folgendermaßen erklärt sind:
Definition 1.1: (Binomialkoeffizienten)
Für n, k ∈ N0 ist der Binomialkoeffizient nk (sprich n über k“) erklärt durch
”
(
n!
für k ≤ n
n · (n − 1) · . . . · (n − k + 1)
n
k!(n−k)!
=
=
.
k
k!
0
für k > n
Speziell erhält man durch Einsetzen von a = b = 1 in die binomische Formel
n
n
n
n
n
.
+
+ ... +
+
+
(1 + 1)n = 2n =
n
n−1
2
1
0
In typischer Binomialkoeffizientenschreibweise lautet das Dreieck
0
0
1
1
0
1
2
2
2
0
1
2
3
3
3
3
0
1
2
3
4
4
4
4
4
0
...
...
1
...
...
2
...
...
3
...
...
9
A benötigt noch 2 Spiele zum Sieg, B noch 3 Spiele. Nach 2 + 3 − 1 = 4 Spielen ist der
Wettkampf
also
spätestens
entschieden. Wir gehen in die 4. Zeile des Dreiecks und finden die
Zahlen 40 , 41 , 42 , 43 , 44 .
1
1
1.1 Das Problem von Pacioli
4
...
Addiert man zwei nebeneinanderstehende Koeffizienten, so erhält man den direkt unter beiden
befindlichen Koeffizienten, denn es gilt
n+1
n
n
.
=
+
k+1
k+1
k
Pascal löste das oben gestellte Problem mit Hilfe seines Dreiecks. Wir wollen seine Lösung
vorläufig nur nachvollziehen, eine Begründung der Vorgehensweise ergibt sich aus Kapitel 7.
Für B sind die übrigen Spielfolgen günstig:
4
4
+
= 4+1 = 5 .
3
4
Damit kommt Pascal zu derselben Aufteilung des Gewinnes wie Fermat.
Aufgabe 1.2:
Zwei Spieler spielen um Geld. Sie werfen eine Münze. Erscheint Zahl, erhält A einen Punkt,
erscheint Kopf, erhält B einen Punkt. Wer zuerst 10 Punkte erreicht, hat gewonnen. Beim
Stand von 7:6 für A müssen sie das Spiel durch eine Störung abbrechen.
Wie ist das Preisgeld
(a) nach Pacioli zu verteilen?
(b) nach Tartaglia zu verteilen?
(c) zu verteilen, wenn man proportional nach der Anzahl der von beiden Spielern noch zu
erzielenden Punkte aufteilt?
(d) nach Pascal und Fermat zu verteilen?
Aufgabe 1.3:
Kann man das Problem des Pacioli mit der Methode von Pascal entscheiden?
Aufgabe 1.4:
Man beweise:
n
n
n+1
+
=
gilt für k, n ∈ N0 .
k
k+1
k+1
n X
n k n−k
a b
gilt für alle n ∈ N0 und a, b ∈ R.
(b) (a + b)n =
k
k=0
(a)
Pacioli und Tartaglia scheiterten, weil sie weder eine vernünftige Vorstellung vom Wahrscheinlichkeitsbegriff besaßen, noch über geeignete Abzählverfahren verfügten. Damit uns nicht
ähnliche Fehler unterlaufen, wollen wir uns jetzt anhand eines Spezialfalles mit einigen Grundbegriffen der Wahrscheinlichkeitsrechnung vertraut machen.
10
1.2
1 EINFÜHRUNG
Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung
In der Umgangssprache wird das Wort wahrscheinlich“ oft so benutzt, dass sein Sinn mathe”
matisch nicht beschrieben werden kann. Betrachten wir folgende Aussagen:
(a) Es regnet; wahrscheinlich kommt Christoph wieder völlig durchnässt nach Hause.
(b) Von 3 Millionen Menschen, die mit dem Auto in den Urlaub fahren, werden wahrscheinlich
mehr als 100 verunglücken.
1.2 Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung
Definition 1.2: (Klassische Wahrscheinlichkeit)
Ω sei eine endliche Menge gleichmöglicher“ Ergebnisse und A ⊆ Ω.
”
Die klassische Wahrscheinlichkeit für das Eintreten des Ereignisses A ist der Quotient
aus der Anzahl |A| der für das Ereignis günstigen Ergebnisse und der Anzahl |Ω| der möglichen
Ergebnisse:
P (A) =
(c) Wenn man eine Münze 100–mal wirft, wird wahrscheinlich mehr als 30–mal Zahl erscheinen.
(d) Wahrscheinlich werden die Italiener in diesem Jahr keine Regierungskrise mehr bekommen.
Mathematische Maße für die Wahrscheinlichkeit von Ereignissen kann man gewinnen, wenn
man einen Versuch beliebig oft wiederholen kann (wie das Werfen einer Münze) oder wenn man
eine genügende Anzahl von beobachteten Daten zur Verfügung hat (Unfallstatistik). Hilfreich
sind auch Symmetriebetrachtungen. Der Grad der Gewissheit subjektiver Meinungen lässt sich
durch die mathematische Wahrscheinlichkeit nicht messen (Aussagen (a) und (d)).
Pascal und Fermat begründeten die klassische Wahrscheinlichkeitsrechnung. Dabei handelt es sich um die Beschreibung von Experimenten, deren Ergebnisse gleichmöglich“
”
sind. Die Feststellung der Gleichmöglichkeit erfolgte damals durch Symmetriebetrachtungen.
Beim Werfen einer Münze oder eines Würfels kann man aus Gründen der Kongruenz der Seitenflächen und der Homogenität des Materials erwarten, dass kein Ergebnis gegenüber dem
anderen bevorzugt eintritt. Entsprechend sind die 36 geordneten Paare, die man beim Werfen
mit 2 Würfeln erzielen kann, gleichmöglich.
Wir nennen die Menge der möglichen Ergebnisse eines Experiments Stichprobenraum Ω.
Ein Ergebnis ω ∈ Ω ist also ein Element des Stichprobenraums.
11
|A|
.
|Ω|
Diese Festsetzung der Wahrscheinlichkeit stammt von Jakob Bernoulli und Laplace. Mit
ihr arbeiteten aber auch schon Pascal und Fermat, allerdings ohne sich auf eine Definition
berufen zu können.
Die klassische Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist eine rationale Zahl
|A| zwischen 0 und 1. Ferner gilt:
P (∅) = 0 und P (Ω) = 1 .
Ω nennen wir das sichere Ereignis. Es tritt immer ein, weil jedes mögliche Ergebnis zu Ω
gehört.
Die leere Menge ∅ bezeichnen wir als unmögliches Ereignis. Es tritt niemals ein, da die
leere Menge kein Ergebnis enthalten kann.
Tritt ein Ereignis nicht ein (z.B. keine gerade Zahl beim Würfeln), dann tritt das Gegenereignis oder komplementäre Ereignis ein:
AC = Ω \A .
Aufgabe 1.5:
Der Stichprobenraum für den Münzwurf ist {Z, K}, Z = Zahl, K = Kopf; der für das Würfeln
mit einem Würfel {1, . . . , 6}, der für das Würfeln mit zwei Würfeln {(1/1), (1/2), . . . , (6/6)}.
Zeigen Sie, dass für die klassische Wahrscheinlichkeit von AC gilt P (AC ) = 1 − P (A).
Gewisse Teilmengen des Stichprobenraums nennen wir Ereignisse. Beispielsweise verstehen
wir unter dem Ereignis Wurf einer zusammengesetzten Zahl“ beim Würfeln mit einem Würfel
”
die Menge {4, 6}.
Bemerkung 1.1:
Ein Ereignis, das nur aus einem einzigen Ergebnis besteht, heißt Elementarereignis. So ist
z.B. das Ereignis, beim Würfeln mit einem Würfel eine 4 zu erhalten, das Elementarereignis
{4}. Es ist wichtig, zwischen Ergebnissen und Elementarereignissen zu unterscheiden!
Jedes Ereignis A besitzt |A| Elemente; hierbei ist 0 ≤ |A| ≤ |Ω|. Man sagt, ein Ereignis A tritt
ein, wenn eines seiner |A| Elemente als Versuchsergebnis erscheint. Unter den |Ω| möglichen
Ergebnissen sind also |A| für den Eintritt des Ereignisses A günstige, d.h. günstig ist vom Gan, und dieser ist um so größer, je mehr Elemente von Ω die Menge A enthält.
zen der Bruchteil |A|
|Ω|
Fassen wir unsere Überlegungen in einem Begriff zusammen.
Ein Stichprobenraum Ω, der aus gleichmöglichen“ Ergebnissen besteht, ist der einfachste Spe”
zialfall eines Wahrscheinlichkeitsraumes. Bevor mit der klassischen Wahrscheinlichkeit gearbeitet wird, muss immer geprüft werden, ob die Annahme der Gleichmöglichkeit“ der Ergebnisse
”
gerechtfertigt ist. Es ist aber - auch bei endlichem Stichprobenraum - nicht immer praktikabel
oder sinnvoll, vom klassischen Wahrscheinlichkeitsbegriff auszugehen.
Zu gegebenen Ereignissen lassen sich durch Vereinigungs– und Durchschnittsbildung neue Ereignisse bilden.
Für einen vorgegebenen endlichen Stichprobenraum Ω ist die Menge der Ereignisse die Potenzmenge P(Ω), die mit den Verknüpfungen ∩, ∪ und der Komplementbildung \ eine sogenannte
Ereignisalgebra (P(Ω), ∩, ∪, \) bildet.
12
1 EINFÜHRUNG
Für manche Fragestellungen der Wahrscheinlichkeitsrechnung kann jedoch die volle Potenzmenge P(Ω) viel zu umfassend sein, insbesondere dann, wenn Ω eine überabzählbar unendliche
Menge ist. Es genügt dann, als Ereignisse die Elemente einer geeigneten Teilmenge der Potenzmenge von Ω zu betrachten. Welche Teilmengen als Ereignisse geeignet sind, wie man mit ihnen
umgehen darf, und wie man ihnen Wahrscheinlichkeiten zuordnet, werden wir noch festsetzen.
Damit treten wir dann in die Theorie der Wahrscheinlichkeitsrechnung ein.
Aufgabe 1.6:
Der Großherzog der Toskana fragte Galilei1 , warum beim Werfen dreier Würfel die Summe
10 öfter als die Summe 9 auftrete, obwohl beide Summen auf genau 6 Arten erzeugbar seien:
9 = 1+2+6=1+3+5=1+4+4=2+2+5=2+3+4=3+3+3
10 = 1 + 3 + 6 = 1 + 4 + 5 = 2 + 4 + 4 = 2 + 2 + 6 = 2 + 3 + 5 = 3 + 3 + 4 .
Klären Sie den Sachverhalt.
Aufgabe 1.7:
Wie groß ist die Wahrscheinlichkeit, mit 3 Würfeln
(a) eine gerade Summe von Augen zu werfen?
1.3 Zufallsexperimente
13
K beim Münzwurf bzw. mit 1, . . . , n beim Ziehen der Kugel bezeichnen. Man kann nicht mit
Sicherheit sagen, welches eintreten wird.
Eine (endliche oder unendliche) Kette nacheinander durchgeführter Experimente nennen wir
mehrstufiges Zufallsexperiment. Die Ergebnisse sind k–Tupel (Paare, Tripel) im endlichen Fall oder Folgen im unendlichen Fall.
Werfen wir etwa zuerst einen Würfel, dann eine Münze und schließlich eine Kugel in den Kessel
eines Roulettespiels, so machen wir ein 3–stufiges Zufallsexperiment, und unsere Ergebnisse
sind die Elemente des Stichprobenraums Ω = {1, . . . , 6} × {Z, K} × {0, 1, . . . , 35, 36} .
Es ist klar, dass diese Menge 6 · 2 · 37 Elemente besitzt und dass den Elementarereignissen die
1
zuzuordnen ist.
klassische Wahrscheinlichkeit P ({ω}) = 6·2·37
Ein Beispiel eines vierstufigen Zufallsexperiments haben wir auf Seite 5 kennengelernt: Ein
Würfel wird viermal nacheinander geworfen, und das Ergebnis ist eines von
|{1, . . . , 6}|4 = 6 · 6 · 6 · 6 = 1296
verschiedenen 4–Tupeln.
Die Anfrage des Chevalier de Méré bei Pascal wegen der Chancen, beim 24–maligen Werfen
eines Würfelpaares keine Doppelsechs zu erzielen, bezieht sich sogar auf ein 24–stufiges Zufallsexperiment.
(b) mehr als 15 Augen zu werfen?
(c) ein gerades Produkt von Augen zu werfen?
(d) ein durch 3 teilbares Produkt von Augen zu werfen?
Aufgabe 1.8:
Wie groß ist die Wahrscheinlichkeit, dass bei 3–maligem Werfen eines Würfels jeder folgende
Wurf
Satz 1.1:
Ein k–stufiges Zufallsexperiment habe auf den einzelnen Stufen n1 , n2 , . . . , nk mögliche Ergebnisse, und zwar sei jede der Anzahlen nj (j ∈ {2, . . . , k}) unabhängig vom Ausfall des
Experiments auf den vorangegangenen Stufen 1, 2, . . . , j − 1.
Dann besitzt der Stichprobenraum Ω genau
n := n1 · n2 · . . . · nk
mögliche Ergebnisse.
(a) mehr Augen zeigt als der vorangehende?
(b) nicht weniger Augen zeigt als der vorangehende?
Beweis:
Für k = 1 ist n = n1 .
1.3
Zufallsexperimente
Zufallsgeräte wie Münzen, Glücksräder, Kartenspiele oder Urnen mit Kugeln sind jedem
von uns bekannt. In der realen Welt verlaufen viele Prozesse so, als seien sie durch Zufallsgeräte
gesteuert. Darum hat die mathematische Beschreibung von Zufallsgeräten große praktische
Bedeutung.
Das Werfen einer Münze oder das Ziehen einer von n Kugeln aus einer Urne sind Zufallsexperimente. Es gibt zwei bzw. n mögliche Ergebnisse, die wir mit 0 und 1 oder mit Z und
1
Galileo Galilei, Anhänger der Lehre des Kopernikus, Begründer der modernen Kinematik; durch die
Inquisition 1616 zum Schweigen verurteilt.
Besitzt der Stichprobenraum eines (k − 1)–stufigen Zufallsexperiments als Ergebnisse genau
n1 · n2 · . . . · nk−1 verschiedene (k − 1)–Tupel, so kann jedes von diesen durch nk verschiedene
Elemente zu nk verschiedenen k–Tupel fortgesetzt werden, und somit erhalten wir insgesamt
n = n1 · n2 · . . . · nk−1 · nk
verschiedene k–Tupel. 2
Mehrstufige Zufallsexperimente lassen sich vorteilhaft durch Ergebnisbäume oder Baumdiagramme veranschaulichen. Als Beispiel zeigen wir den Baum zu unserem dreistufigen Experiment, bestehend aus dem Wurf eines Würfels, einer Münze und einer Roulettekugel (Abb.
1.2). Dabei haben wir in der 3. Stufe auf den größten Teil der 6 · 2 · 37 Äste“ verzichtet.
”
14
1 EINFÜHRUNG
1.3 Zufallsexperimente
15
Bemerkung 1.2:
1.Stufe
2.Stufe
Ist der Ausfall eines k–stufigen Zufallexperiments auf jeder der k Stufen unabhängig vom Ausfall
auf den vorangegangenen Stufen, d.h. steht für jede Stufe j ein eigener Stufenstichprobenraum
Ωj zur Verfügung, so ist der Stichprobenraum des gesamten Experiments der Produktstichprobenraum
3.Stufe
(1,Z,0)
(1,Z,1)
(1,Z)
(1,Z,36)
(1,K,0)
(1,K,1)
1
(1,K)
(1,K,36)
(2,Z,0)
(2,Z,1)
(2,Z)
(2,Z,36)
(2,K,0)
(2,K,1)
(2,K)
(2,K,36)
2
Ω = Ω1 × Ω 2 × · · · × Ω k .
Der folgende Satz ist ein Spezialfall einer allgemeineren Situation, die in Abschnitt 5.2 behandelt
wird.
Satz 1.2:
Ω1 , Ω2 , . . . , Ωk seien endliche Stichprobenräume, in denen der klassische Wahrscheinlichkeitsbegriff gilt.
Ω = Ω1 × · · · × Ω k
sei der Stichprobenraum eines Zufallsexperiments mit k voneinander unabhängigen Stufen.
Dann ist die klassische Wahrscheinlichkeit jedes Elementarereignisses von Ω gleich dem
Produkt der Wahrscheinlichkeiten der Elementarereignisse der Stufenstichprobenräume.
(3,Z)
3
(3,K)
Beweis:
(4,Z)
Die klassische Wahrscheinlichkeit der einelementigen Untermengen ist der Kehrwert der Anzahl
der Elemente des Stichprobenraums.
(4,K)
Ist Ω das Produkt der endlichen Mengen Ω1 , , . . . , Ωk , so folgt für die Wahrscheinlichkeiten der
Elementarereignisse {ω} ∈ Ω
4
(5,Z,0)
(5,Z,1)
(5,Z)
5
(5,K)
(6,Z)
6
(5,Z,36)
(5,K,0)
(5,K,1)
(5,K,36)
(6,Z,0)
(6,Z,1)
(6,Z,36)
(6,K,0)
(6,K,1)
(6,K)
(6,K,36)
Abb. 1.2
P ({ω}) =
1
1
1
1
1
1
=
=
=
·
· ... ·
.2
|Ω|
|Ω1 × . . . × Ωk |
|Ω1 | · |Ω2 | · . . . · |Ωn |
|Ω1 | |Ω2 |
|Ωk |
16
2
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
Grundbegriffe der Zähltechnik
2.1 Kombinatorische Grundüberlegungen
Satz 2.1:
Wir erwähnten schon, dass es den Mathematikern des 15. und des 16. Jahrhunderts, als
die ersten Schritte in der Entwicklung der Wahrscheinlichkeitsrechnung getan wurden, oft an
geeigneten Abzählverfahren mangelte, um die Anzahl der Elemente von Stichprobenräumen
oder die Anzahl der für bestimmte Ereignisse günstigen Ergebnisse zu ermitteln.
Erst 1544 veröffentlichte Michael Stifel in seinem Werk Arithmetica Integra“ eine Tabelle
”
der Koeffizienten in den Entwicklungen von (a + b)2 , (a + b)3 bis (a + b)17 . 1570 erschien
ein Buch von Cardano, in dem er ein Kapitel Opus novum de proportionibus numerorum“
”
nannte und in welchem er sich mit Problemen der Kombinatorik auseinandersetzte. Unter
anderem hatte er alle zweielementigen Teilmengen einer
sechselementigen Menge bestimmt
und (ohne Beweis) festgestellt, dass für die Anzahlen nk der verschiedenen Teilmengen mit k
Elementen,
die man aus den Elementen einer n–elementigen Menge bilden kann, die Formel
n
+ n2 + . . . + nn = 2n − 1 gilt.
1
Man beschäftigte sich damals viel mit Glücksspielen. Mit Hilfe der Binomialkoeffizienten gelang
es Pascal, eine Strategie zur Prognose von Spielausgängen zu entwickeln. Erstaunlicherweise
waren die Binomialkoeffizienten schon Jahrhunderte früher den Hindus, den Persern und den
Arabern bekannt, ein Gedankenaustausch mit den Europäern fand jedoch nicht statt.
Es gibt genau nk verschiedene Abbildungen einer k–elementigen Menge in eine n–elementige
Menge.
Beweis: durch vollständige Induktion nach k (Aufgabe). 2
In Abbildung 2.2 ist der Fall k = 3, n = 2 skizziert.
A
B
Abb. 2.2
Der Totoschein in Beispiel 2.1 kann also auf 311 gleichmögliche“ Weisen ausgefüllt werden;
”
man gewinnt im 1. Rang mit der Wahrscheinlichkeit
P (R1 ) =
2.1
17
Kombinatorische Grundüberlegungen
1
1
=
= 0, 0000056 .
311
177147
Aufgabe 2.1:
Zum Lösen einfacher Probleme der Wahrscheinlichkeitsrechnung benötigt man häufig geeignete
Zählverfahren. Wir wollen dafür Beispiele geben. Die Ergebnisse sind in Abschnitt A.1 im
Anhang kurz zusammengefasst.
Man bestimme die Gewinnwahrscheinlichkeiten für den 2. bzw. 3. Rang im Beispiel 2.1.
Aus Satz 2.1 folgt unmittelbar
Satz 2.2:
Beispiel 2.1: (Fußballtoto)
1
Beim Fußballtoto soll man von 11 Spielpaarungen tippen, ob
die gastgebende Mannschaft (1) oder der Gast (2) gewinnt,
oder ob die Begegnung unentschieden (0) endet. Bei 11, 10, 9
richtigen Vorhersagen gewinnt man im 1., 2. oder 3. Rang.
x
x
A füllt seinen Totoschein unter Zuhilfenahme eines Würfels
aus: Fällt 1“ oder 4“, tippt er 1, bei 3“ oder 6“ tippt er
”
”
”
”
0, bei 2“ oder 5“ die 2.
”
”
Mit welchen Wahrscheinlichkeiten gewinnt er in den einzelnen
Rängen?
x
0
x
2
nk ist die Anzahl der Möglichkeiten,
(a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge unter Zulassung
von Elementwiederholungen zu bilden;
x
x
x
x
x
(b) verschiedene Tupel von k Kugeln durch Ziehen mit Zurücklegen aus einer Urne mit n
unterscheidbaren Kugeln zu erhalten
(Ziehen mit Zurücklegen mit Berücksichtigung der Reihenfolge);
(c) k verschiedene Kugeln auf n unterscheidbare Urnen zu verteilen.
x
x
Abb. 2.1
Hinweis: Die Anzahl der Möglichkeiten, den Totoschein auszufüllen, ist gleich der Anzahl der
verschiedenen Abbildungen einer 11–elementigen Menge in eine 3–elementige, denn jedem Spiel
wird einer von drei Spielausgängen zugeordnet.
Beispiel 2.2: (Geburtstagsproblem)
In einem Klassenraum befinden sich k Personen.
(a) Mit welcher Wahrscheinlichkeit haben wenigstens zwei Personen an demselben Tag des
Jahres Geburtstag?
18
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
19
2.1 Kombinatorische Grundüberlegungen
P(Ek )
(b) Der Lehrer ist am 1. Januar geboren. Wie wahrscheinlich ist es, dass wenigstens ein
Schüler auch am 1. Januar geboren wurde?
1,00
0,90
Hinweis: Es sei k ≤ 365. Wir berechnen die Wahrscheinlichkeit für das Ereignis EkC , dass keine
zwei Personen an demselben Tag des Jahres Geburtstag haben (Schaltjahre bleiben unberücksichtigt). Dann müssen den k Personen k verschiedene Tage als Geburtstag zugeordnet sein.
0,80
0,70
0,60
Satz 2.3:
0,50
n!
verschiedene injektive Abbildungen f : A → B von einer k–elemenEs gibt genau (n−k)!
tigen Menge A in eine n–elementige B mit n ≥ k.
0,40
0,30
Beweis: durch vollständige Induktion nach k (Aufgabe). 2
0,20
In Abbildung 2.3 ist der Fall k = 2, n = 3 skizziert.
0,10
A
5
10 13 16
20 23 26 29 32
37
44
57
k
Abb. 2.4
B
Aufgabe 2.2:
Man beantworte die Fragen aus Beispiel 2.2 für n = 365 und k = 20, 30, 40.
Abb. 2.3
Aus Satz 2.3 folgt wieder unmittelbar
Teil (a) des Geburtstagsproblems lässt sich nun wie folgt entscheiden:
Das Jahr hat n = 365 Tage. Dafür, dass k Personen an k verschiedenen Tagen Geburtstag
n!
Möglichkeiten. Insgesamt gibt es für die Verteilung der Geburtstage nk
haben, gibt es (n−k)!
Möglichkeiten (Satz 2.1), und diese sind gleichmöglich“, so dass der klassische Wahrscheinlich”
keitsbegriff anwendbar ist. Die Wahrscheinlichkeit dafür, dass keine 2 Personen an demselben
Tag Geburtstag haben, ist demnach
P (EkC ) =
n!
.
(n − k)! nk
Die Wahrscheinlichkeit für das Zusammenfallen von mindestens zwei Geburtstagen ist somit
P (Ek ) = 1 −
10
13
16
20
0, 12 0, 19 0, 28 0, 41
Für n ≥ k ist
n!
(n−k)!
die Anzahl der Möglichkeiten,
(a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge ohne Elementwiederholungen zu bilden;
(b) verschiedene Tupel von k Kugeln durch Ziehen ohne Zurücklegen aus einer Urne mit n
unterscheidbaren Kugeln zu erhalten
(Ziehen ohne Zurücklegen mit Berücksichtigung der Reihenfolge);
(c) k verschiedene Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne
höchstens eine Kugel erhält.
n!
.
(n − k)! nk
Einige Werte sind in der folgenden Tabelle angegeben.
k
P (Ek )
Satz 2.4:
22
23
26
0, 48 0, 51 0, 60
29
32
37
0, 68 0, 75 0, 85
44
57
0, 93 0, 99
Abb. 2.4 liefert eine graphische Aufbereitung des Zusammenhangs zwischen k und P (Ek ).
Man beachte dabei, dass die Funktion k 7→ P (Ek ) nur für natürliche Zahlen erklärt ist!
Beispiel 2.3: (Sitzordnung)
Bei einer Einladung für n Personen hat der Gastgeber die Tischkarten von seinem Sohn auf
einem runden Tisch aufstellen lassen. Der Sohn hat nicht lange nachgedacht und die Karten,
wie sie ihm in die Finger kamen, abgelegt.
Wie wahrscheinlich ist es, dass zwei Freunde, die nebeneinander sitzen möchten, ihre Karten
auch nebeneinander vorfinden?
20
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
21
2.1 Kombinatorische Grundüberlegungen
B
Hinweis: Zunächst gilt es, die Anzahl der verschiedenen Sitzanordnungen zu ermitteln. Dabei
sind zwei Sitzanordnungen verschieden, wenn wenigstens eine Person auf einem anderen Stuhl
sitzt.
Satz 2.5:
C4
Es gibt genau n! verschiedene bijektive Abbildungen f : A → B von einer n–elementigen
Menge A auf eine n–elementige Menge B (bzw. sich selbst).
C1
Setzt man k = n in Satz 2.3, so geht
n!
(n−k)!
C3
C
Beweis:
C2
in n! über. 2
A
In Abbildung 2.5 ist der Fall n = 3 skizziert.
Abb. 2.6
A
B
Abb. 2.5
Hinweis: Auf kürzestem Wege gelangt man von A nach B, indem man sich auf den gegebenen
Straßen nach rechts oder nach oben bewegt. Auf diese Weise seien von A nach B genau n
Straßenabschnitte zu durchlaufen, und zwar k waagerecht und n − k senkrecht (vgl. Abb. 2.7).
In welcher Reihenfolge die k bzw. n − k Abschnitte durchlaufen werden, ist belanglos. Es
B
Es gibt demnach genau n! verschiedene Sitzanordnungen.
n
n-1
Aufgabe 2.3:
n-2
Man bestimme ähnlich die Anzahl der für die Freunde in Beispiel 2.3 günstigen Möglichkeiten
und ermittle dann die gesuchte Wahrscheinlichkeit.
.
.
.
Aus Satz 2.5 ergibt sich unmittelbar
k+2
k+1
Satz 2.6:
A
n! ist die Anzahl der Möglichkeiten, eine n-elementige Menge anzuordnen, d.h. eine nelementige Menge hat genau n! Permutationen.
0
1
2
. . . . .
k-2
k-1
k
Abb. 2.7
Beispiel 2.4: (Verbrecherfang)
kommt nur darauf an, dass von n Schritten genau k in die eine Richtung und genau n − k in die
andere erfolgen. Deshalb bestimmt sich die Anzahl der kürzesten Wege nach dem folgenden
Ein von der Polizei Verfolgter will in dem Straßennetz der Abb. 2.6 auf kürzestem Wege von
A nach B.
Satz 2.7:
(a) In C befindet sich eine Polizeistreife.
Wie groß ist die Wahrscheinlichkeit dafür, dass die verfolgte Person auf die Polizisten
trifft, wenn man annimmt, dass je zwei Wege von A nach B gleichwahrscheinlich sind?
Es gibt genau nk verschiedene Abbildungen einer n–elementigen Menge A in die 2–elementige
Menge {a, b}, wobei k Elemente auf a und n − k Elemente auf b abgebildet werden.
Beweis: (durch vollständige Induktion nach n)
(b) Die Polizeistreife erfährt, dass der Gesuchte A verlassen hat. Sie hat noch die Möglichkeit,
statt C einen der Punkte C1 , C2 , C3 , C4 zu besetzen. Welchen der 5 Punkte soll sie (unter
der Voraussetzung der Gleichwahrscheinlichkeit aller Wege) besetzt halten?
Für n = 0 ist die Formel richtig (Induktionsanfang).
Die Formel sei für n − 1 richtig (Induktionsannahme).
22
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
Die Formel ist sicher für n richtig, falls k = 0 oder k = n ist.
Falls 0 < k < n nehmen wir aus der Menge A ein Element x heraus. Es gibt zwei Möglichkeiten
(vgl. Abb 2.8):
A
A
B
x
a
b
k-1
a
n-k-1
n-k
b
x
(a)
Satz 2.8:
n
ist die Anzahl der Möglichkeiten
k
(a) n–Tupel aus einer 2-elementigen Menge zu bilden, wobei genau k–mal das eine Element
und (n − k)–mal das andere Element verwendet wird;
B
k
23
2.1 Kombinatorische Grundüberlegungen
(b) eine Menge von k Kugeln aus einer Urne mit n unterscheidbaren Kugeln zu ziehen
(Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge);
(c) k gleiche Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne höchstens
eine Kugel enthält;
(d) eine k–elementige Teilmenge aus einer n–elementigen Menge auszuwählen.
(b)
Abb. 2.8
Entweder wird x auf a abgebildet. Dann müssen von den übrigen n − 1 Elementen von A genau
k − 1 auf a abgebildet werden, und das geht nach Induktionsvoraussetzung auf genau n−1
k−1
Arten. Oder aber x wird auf b abgebildet. Dannwerden von den übrigen n − 1 Elementen
genau k auf a abgebildet. Das geht auf genau n−1
Arten.
k
n−1
n
Insgesamt erhält man also n−1
+
=
Möglichkeiten.
2
k−1
k
k
Beispiel 2.5: (Wahl)
7 Kinder wählen bei einem Spiel einen Häuptling, wobei jedes Kind einem der 3 möglichen
Kandidaten eine Stimme gibt. Wieviele verschiedene Wahlausgänge sind möglich?
Hinweis: Man stelle sich vor, jeder der drei Kandidaten legt in seine“ Urne für jede der für
”
ihn abgegebenen Stimmen eine Kugel. Da es keine Rolle spielt, von welchem Kind die Stimme
stammt, sind die Kugeln ununterscheidbar, also gleich.
In Abbildung 2.9 ist der Fall n = 3, k = 1 skizziert.
Satz 2.9:
n+k−1
ist die Anzahl der Möglichkeiten
k
A
(a) k gleiche Kugeln auf n unterscheidbare Urnen zu verteilen;
B
a b
a b
a b
Abb. 2.9
12
kürzeste Wege von A nach B.
Es gibt demnach in Beispiel 2.4 genau
7
Aufgabe 2.4
Man beantworte die im Beispiel 2.4 gestellten Fragen.
Aufgabe 2.5
Man vergleiche in Beispiel 2.4 die Wahrscheinlichkeiten der Wege mit denen in der folgenden,
modifizierten Aufgabenstellung: Der Dieb entscheidet an jeder Ecke (außer am Rand), ob er
nach rechts oder nach oben läuft, wobei diese beiden Möglichkeiten stets gleichwahrscheinlich
seien.
Aus Satz 2.7 folgern wir direkt Satz 2.8.
(b) k Kugeln mit Zurücklegen aus einer Urne mit n unterscheidbaren Kugeln zu ziehen,
wobei die Reihenfolge nicht berücksichtigt wird
(Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge).
Beweis:
zu (a): Die n Urnen denken wir uns durch n Fächer repräsentiert, welche durch n−1 Stellwände
erzeugt werden:
1. Urne 2. Urne 3. Urne
...
(n − 1). Urne n. Urne
Die Kugeln werden zwischen die Stellwände bzw. vor die erste oder hinter die letzte Stellwand
gelegt:
oo ooo
...
o
oooo .
Dabei dürfen Fächer freibleiben.
Ersetzen wir die Kugeln durch Nullen und die Trennwände durch Einsen, so entspricht jeder
Verteilung ein Tupel mit m = k + n − 1 Stellen,
bestehend aus k Nullen und n − 1 Einsen, und
es gibt nach Satz 2.8 (a) genau m
= n+k−1
solcher Tupel.
k
k
24
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
Aus n − n1 − . . . − nk−1 Elementen lassen sich auf
auswählen, die auf k abgebildet werden.
zu (b): Aufgabe. 2
7+3−1
7
Die Wahl der Kinder hat also genau
=
9
7
25
2.1 Kombinatorische Grundüberlegungen
= 36 mögliche Ausgänge.
n−n1 −...−nk−1
nk
Arten die nk Elemente
Insgesamt erhält man als Anzahl der Möglichkeiten
n − n1 − n2 − . . . − nk−1
n
n − n1 − n2
n − n1
· ... ·
·
·
nk
n3
n2
n1
Beispiel 2.6:
Von den 16 Feldern einer Tafel (Abb. 2.10) sollen 2 weiß, 3 rot, 5 grün und 6 schwarz gefärbt
werden. Wieviele verschiedene Möglichkeiten gibt es?
=
(n − n1 )!
(n − n1 · . . . · nk−1 )!
n!
n!
·
· ... ·
.2
=
n1 !(n − n1 )! n2 !(n − n1 − n2 )!
nk ! (n − n1 − . . . − nk )!
n1 ! · . . . · nk !
|
{z
}
=0
In Abbildung 2.11 ist der Fall k = 3, n = 1 + 1 + 2 skizziert.
A
B
Abb. 2.10
Hinweis: Wir denken uns eine Menge, die eine weiße, eine rote, eine grüne und eine schwarze
Kugel enthält. Dann fragen wir nach der Anzahl der verschiedenen Abbildungen der Menge
der 16 Felder auf diese 4–elementige Menge, wobei 2 Felder auf die weiße Kugel, 3 auf die rote
Kugel usw. abgebildet werden.
A
B
Die Antwort gibt der
Abb. 2.11
Satz 2.10:
Die Anzahl verschiedener Abbildungen einer Menge mit n Elementen in die Menge {1, . . . , k},
bei denen jeweils ni Elemente die Zahl i als Bild erhalten, ist
n
n!
:=
.
n1 , n2 , . . . , nk
n1 ! n2 ! . . . nk !
Hierbei gelte n = n1 + n2 + . . . + nk .
Beweis:
Aus n Elementen lassen sich auf
werden.
n
n1
Für das Brett im Beispiel 2.6 gibt es demnach
Aus den restlichen n − n1 Elementen lassen sich auf
die auf 2 abgebildet werden.
..
.
n−n1
n2
Arten die n2 Elemente auswählen,
= 20 180 160 Färbungsmöglichkeiten.
Aus Satz 2.10 ergibt sich unmittelbar
Satz 2.11:
Arten die n1 Elemente auswählen, die auf 1 abgebildet
16!
2! 3! 5! 6!
n
n1 , n2 , . . . , nk
:=
n!
n1 ! n2 ! . . . nk !
mit
n = n1 + . . . + nk
ist die Anzahl der verschiedenen n-Tupel aus einer k-elementigen Menge, die genau n1 -mal
das erste, n2 -mal das zweite, . . . , nk -mal das k-te Element enthalten.
Bemerkung 2.1
Die Sätze 2.10 und 2.11 sind Verallgemeinerungen der Sätze 2.7 und 2.8(a).
26
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
2.2
Aufgaben
(b) Wie viele dieser Zahlen sind teilbar
(i) durch 2 ,
Aufgabe 2.6:
In der Bundesrepublik trägt jeder Personalausweis einen Kennbuchstaben, gefolgt von einer
7–stelligen Zahl, deren erste Ziffer von 0 verschieden ist.
Wieviele verschiedene Ausweiskennzeichnungen sind dadurch möglich?
Aufgabe 2.7: (Bridge)
Beim Bridgespiel werden 52 verschiedene Karten zu gleichen Teilen an 4 Personen verteilt.
27
2.2 Aufgaben
(ii) durch 5 ,
(iii) durch 25 ,
(iv) durch 6 ?
(c) Wieviele dieser Zahlen sind größer als 4000?
Aufgabe 2.12:
Auf wieviele verschiedene Arten lassen sich k Nullen und m Einsen anordnen?
Aufgabe 2.13:
Man bestimme geeignete Stichprobenräume Ω für die Beispiele 2.1 und 2.2 (a), (b).
Wieviel verschiedene Verteilungen gibt es?
Aufgabe 2.14:
Aufgabe 2.8: (Skat)
Beim Skatspiel werden 32 verschiedene Karten zu je 10 an 3 Personen verteilt, und 2 Karten
kommen in den Skat“.
”
Wieviel verschiedene Möglichkeiten gibt es, die 32 Skatkarten auszuteilen?
Man bestimme geeignete Stichprobenräume Ω für die Probleme der Beispiele 2.3 und 2.4.
Welche Elemente enthalten die günstigen Ereignisse
E:
F:
Die Freunde sitzen nebeneinander“ bzw.
”
Der Fluchtweg führt von A über C nach B“.
”
Aufgabe 2.9:
Aufgabe 2.15:
In einem Kühlschrank befinden sich 10 Eier, darunter 3 faule.
Man bestimme geeignete Stichprobenräume für die Probleme der Aufgaben 2.6 bis 2.9.
Wie wahrscheinlich ist es, beim Entnehmen von 4 Eiern
(a) genau ein faules mitzugreifen;
(b) mindestens ein faules mitzugreifen.
Aufgabe 2.16:
Wie wahrscheinlich ist es, dass ein durch Losentscheid gebildeter Ausschuss von 5 Personen
aus 2 Frauen und 3 Männern besteht, wenn aus einer Menge von 5 Frauen und 9 Männern
ausgewählt werden kann?
Aufgabe 2.10:
Aufgabe 2.17:
Ein Skatspieler hält folgendes Blatt in der Hand: Karo 7, 8, Herz 7, 9, Pik 8, 9, 10, Bube,
Dame, As. Er hofft auf einen günstigen Skat und reizt bis 40.
Man bestimme die Anzahl der 4–ziffrigen Zahlen zwischen 1000 und 9999, in denen mindestens
eine Ziffer doppelt ist.
(a) Wie groß ist die Wahrscheinlichkeit, dass
Aufgabe 2.18:
Die Abbildung 2.12 zeigt zwei Streckennetze.
(i) Pik 7 im Skat liegt,
D
E
A
A
Abb. 2.12a
Aufgabe 2.11:
(a) Wie viele vierstellige Zahlen kann man mittels der sechs Ziffern 1, 2, 3, 4, 5, 7 bilden?
B
F
(iii) Kreuz Bube und ein As im Skat liegen?
b) Wie groß sind die entsprechenden Wahrscheinlichkeiten, wenn der Spieler zufällig“ in das
”
Blatt eines seiner Mitspieler gesehen und festgestellt hat, dass dieser von den fraglichen
Karten (Pik 7, Karo As, Herz As, Kreuz As, Karo Bube, Herz Bube, Kreuz Bube) nur
den Karo Buben besitzt?
B
C
(ii) zwei Buben im Skat liegen,
Abb. 2.12b
Man bestimme
(a) die Anzahl der kürzesten Wege von A nach B über C und D.
28
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
(b) die Anzahl der kürzesten Wege von A nach B über E und F .
29
2.2 Aufgaben
(b) Man bestimme geeignete Stichprobenräume und die günstigen“ Ereignisse Das Fahrrad
”
”
wird entsichert“ in beiden Räumen.
Aufgabe 2.19:
Wie ist die Lösung des Problems des Pacioli mit der Methode von Pascal als Wegeproblem
zu verstehen (Skizze)?
Aufgabe 2.20:
Zwei Skatspiele mit 32 Spielkarten heißen unterschiedlich gemischt, wenn in den nebeneinanderliegenden Kartenstapeln für mindestens ein k die k–te Karte des einen Spiels nicht mit der
k–ten Karte des anderen Spiels übereinstimmt.
(a) Man bestimme den Stichprobenraum der verschiedenen Mischungen eines Kartenspiels
und seine Mächtigkeit.
(b) Wie wahrscheinlich ist es, dass in einem gemischten Skatspiel die Karten in folgender
Reihenfolge liegen: Zuerst die 8 Kreuzkarten, dann die 8 Pikkarten, dann die 8 Herzkarten
und schließlich die 8 Karokarten?
(c) Wie wahrscheinlich ist es, dass von jeder der 4 Farben die 8 Karten hintereinanderliegen?
Aufgabe 2.23:
An einem Bridgetunier nehmen 8 Personen teil. Jede mögliche Paarung soll gegen jede andere
mögliche Paarung antreten.
Wieviele Begegnungen sind auszutragen?
Aufgabe 2.24:
Drei Damen und drei Herren benutzen einen Sessellift mit Einzelsitzen. Sie fahren nacheinander
ab.
(a) Auf wieviele Arten ist das möglich?
(b) Wieviele Arten sind möglich, wenn die Herren den Damen den Vortritt lassen?
(c) Wieviele Arten sind möglich, wenn es sich um drei Paare handelt und diese hinereinander
abfahren?
Aufgabe 2.25:
(b) im 2. Rang, wenn man 5 von den 6 gezogenen Zahlen und die Zusatzzahl vorhersagt;
(c) im 3. Rang, wenn man 5 von den 6 gezogenen Zahlen vorhersagt (ohne die Zusatzzahl);
(d) im 4. Rang, wenn man 4 von den 6 Zahlen vorhersagt.
Mit welchen Wahrscheinlichkeiten gewinnt man in den einzelnen Rängen?
durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, n)
(a) direkt,
(b) indem man die Wege von (0, 0) über A0 , A1 , . . . , An nach (n, n) ermittelt und addiert
(Abb. 2.13).
(n,n)
An
(0,k)
(n,k)
Ak
A n-1
Ak-1
...
Aufgabe 2.22:
..
(a) im 1. Rang, wenn man die 6 gezogenen Zahlen vorhersagt;
Man beweise die Formel
2 2 2 2
2n
n
n
n
n
=
+ ... +
+
+
n
n
2
1
0
...
Fritz schließt sein Fahrrad stets mit einem Stahlbügel an, der ein 6–stelliges Zahlenschloss
besitzt. Christoph benutzt stets zwei Stahlbügel mit 3–stelligen Zahlenschlössern.
.
Beim Zahlenlotto befinden sich 49 durchnumerierte Kugeln in einer Urne“. 6 Zahlen und eine
”
Zusatzzahl werden ohne Zurücklegen gezogen. Man sagt 6 Zahlen vorher und gewinnt
...
...
...
Aufgabe 2.21: (Lotto)
An jeder Stelle“ können die Ziffern 0, 1, . . . , 9 erscheinen.
”
An dem 6–stelligen Zahlenschloss werden von einem Dieb 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen.
An den beiden dreistelligen Zahlenschlössern werden je 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen.
(a) Man berechne die Wahrscheinlichkeiten dafür, dass eines der beiden Fahrräder bei den
oben beschriebenen Versuchen entsichert wird.
A1
A1
A0
(0,0)
(0,0)
Abb. 2.13
Aufgabe 2.26:
Für k ≤ n beweise man die Formel
n+k
n k
k
n
n k
=
+ ... +
+
k
0
k
k−1
1
k
0
A0
Abb. 2.14
(n,0)
30
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, k) auf zwei Arten (Abb.
2.14).
Aufgabe 2.27:
(a) Auf wieviele Arten kann man 50 verschiedene Bücher an 4 Personen verteilen?
(b) Auf wieviele Arten kann man 50 gleiche Bonbons an 4 Personen verteilen?
Aufgabe 2.28:
Beim Lotto werden jede Woche 6 Gewinnzahlen aus den Zahlen 1, 2, . . . , 49 gezogen.
Wie groß ist die Wahrscheinlichkeit dafür, dass mindestens zwei der sechs Zahlen benachbart
sind?
2.2 Aufgaben
31
(b) Wie groß ist die Wahrscheinlichkeit, dass in der 1. Urne genau k Kugeln liegen?
(c) Wie groß ist die Wahrscheinlichkeit dafür, dass sich
(c1 ) in k vorbestimmten Urnen je genau eine Kugel befindet?
(c2 ) in k beliebigen Urnen je genau eine Kugel befindet?
Aufgabe 2.31:
Bei der Bose–Einstein–Aufteilung, die sich bei der Beschreibung von Photonen und Atomen
mit einer geraden Anzahl von Elementarteilchen bewährt, wird vorausgesetzt:
(1) Die k Kugeln sind ununterscheidbar.
(2) In jeder Urne Uj können sich beliebig viele Kugeln befinden.
Aufgabe 2.29:
Es erscheint wahrscheinlich“, dass bei n Würfen einer Kugel in den aus den Fächern F1 , . . . , Fn
”
bestehenden Kessel eines Roulettespiels das Fach Fn mindestens einmal getroffen wird.
Bearbeiten Sie hier (a)–(c) entsprechend Aufgabe 2.30.
(a) Wie groß ist diese Wahrscheinlichkeit wirklich?
Aufgabe 2.32:
(b) Wie groß ist sie bei n = 6 (Würfel)?
Die Fermi–Dirac–Aufteilung für die Beschreibung von Elektronen, Protonen und Neutronen
verlangt:
(c) Was erhält man für n → ∞, und wie ist das Ergebnis zu deuten?
(d) Wie groß ist die Wahrscheinlichkeit, dass bei n Würfen
(i) das Fach F1 genau einmal getroffen wird?
(ii) die Fächer F1 und F2 je genau einmal getroffen werden?
(iii) die Fächer F1 , . . . , Fk je genau einmal getroffen werden?
Viele physikalischen Probleme lassen sich mathematisch dadurch erfassen, dass man k Partikel
(Kugeln) auf n Zellen (Urnen) verteilt. Gesucht ist dann immer die Wahrscheinlichkeit dafür,
dass für alle j ∈ {1, . . . , n} in der Urne Uj genau kj Kugeln liegen. Man muss aber vorher festlegen, welche Konstellationen überhaupt möglich sind und postuliert dann, dass alle möglichen
Fälle gleichwahrscheinlich sind.
Aufgabe 2.30:
In der kinetischen Gastheorie hat sich folgendes, von Maxwell und Boltzmann stammende
Modell bewährt:
(1) Die k Kugeln sind unterscheidbar.
(2) In jeder Urne Uj können sich beliebig viele Kugeln befinden.
(a) Zeichnen Sie die möglichen Verteilungen von zwei Kugeln auf drei Urnen.
(1) Die k Kugeln sind ununterscheidbar.
(2) In jeder Urne Uj kann höchstens eine Kugel sein (Pauli–Prinzip).
Bearbeiten Sie (a)–(c) wieder entsprechend Aufgabe 2.30.
32
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
3
Von Pascal bis Kolmogorow - Axiomatisierung
3.1
Historische Entwicklung des Wahrscheinlichkeitsbegriffs
Der Begriff der mathematischen Wahrscheinlichkeit hat sich allmählich entwickelt. In den
Aufzeichnungen von Pascal und Fermat fehlt er noch.
1655 hielt sich der bekannte Holländer Huygens2 in Paris auf und hörte dort von dem Problem
”
der gerechten Beurteilung der Chancen“, mit welchem sich Pascal und Fermat beschäftigten. Er begann dieses Problem selbst zu bearbeiten und veröffentlichte seine Erkenntnisse 1657
in einer Re Ratiociniis in Ludo Aleae“ genannten Schrift, die bis in den Beginn des 18. Jahr”
hunderts die klassische Einführung in die Wahrscheinlichkeitstheorie blieb. In Lehrsätzen führt
Huygens den Begriff des Erwartungswertes ein. Wir zitieren:
Lehrsatz 1: Bei gleichen Chancen, a oder b zu erhalten, ist der Wert
a+b
.
2
Lehrsatz 2: Bestehen k Chancen für a und m Chancen für b, so ist bei Gleichheit der Chancen
.
der Wert ka+mb
k+m
Auch Huygens verfügte nicht über den Begriff der mathematischen Wahrscheinlichkeit. Seine
Überlegungen liefen unabhängig von denen Pascals und Fermats ab.
Der Wahrscheinlichkeitsbegriff findet sich erstmalig in der Ars Conjectandi“ (Kunst des Ver”
mutens) des Schweizers Bernoulli3 , welche 1713 posthum veröffentlicht wurde. Bernoulli
erklärt die mathematische Wahrscheinlichkeit als den Grad der Gewissheit, welcher sich zur
”
Gewissheit wie der Teil zum Ganzen verhält“. In der Praxis benutzte Bernoulli diesen
Wahrscheinlichkeitsbegriff in vielen Fällen so, wie ihn Laplace 1814 festgesetzt hat:
Die Theorie des Zufalls ermittelt die gesuchte Wahrscheinlichkeit eines Ereignisses durch
”
Zurückführung aller Ereignisse derselben Art auf eine gewisse Anzahl gleich möglicher Fälle
. . . und durch Bestimmung der dem Ereignis günstigen Fälle. Das Verhältnis dieser Zahl zu
der aller möglichen Fälle ist das Maß dieser Wahrscheinlichkeit, . . .“ (Essai philosophique sur
les probabilités).
Das ist die sogenannte klassische“ Definition der Wahrscheinlichkeit. Im Gegensatz zu der
”
von Bernoulli getroffenen Festsetzung wird hier nicht versucht, den Begriff qualitativ zu
beschreiben, sondern erläutert, wie man in einfachen Fällen seine Quantität bestimmt.
Wie wir wissen, entwickelte sich die Wahrscheinlichkeitsrechnung zunächst als eine Theorie der
Glückspiele.
Der klassische Rahmen der Wahrscheinlichkeitsrechnung wurde erst gesprengt, als Maxwell
und Boltzmann die statistische Betrachtungsweise in die Thermodynamik einführten. Es
zeigte sich jedoch gerade in diesem Bereich, dass der zu unklar definierte Begriff der Wahrscheinlichkeit zu Missverständnissen beim Begreifen der physikalischen Natur führen konnte.
Unter Wahrscheinlichkeit“ verstanden die Physiker die relative Häufigkeit des Eintritts be”
”
stimmter auffallender Ereignisse“ (nach Smoluchowski).
2
3
Christian Huygens, Math. Kurventheorie, Wellentheorie des Lichts
Jakob Bernoulli, Divergenz der harmon. Reihe, 1. Bern. Ungl., Gesetz der großen Zahlen
33
3.1 Historische Entwicklung des Wahrscheinlichkeitsbegriffs
Wir wollen die Beziehung zwischen relativer Häufigkeit und Wahrscheinlichkeit näher erläutern.
Wir werfen zwei Würfel und fragen nach der Wahrscheinlichkeit, die Augensumme 7 zu erzielen. 36 verschiedene Ereignisse sind möglich, davon sind (1, 6), (2, 5), . . . , (6, 1) günstig. Die
klassische Wahrscheinlichkeit beträgt
6
1
= = 0, 16
36
6
Wir zählen nun bei insgesamt n Würfen, wie oft unter ihnen das Ereignis Augensumme 7“
”
auftritt; diese Zahl bezeichnen wir als absolute Häufigkeit hn ({7}). Schließlich bilden wir
die relativen Häufigkeiten
rn ({7}) :=
hn ({7})
.
n
Die folgende Tabelle zeigt die Ergebnisse:
n
hn ({7})
rn ({7})
12
24
36
48
72
96
120
144
168
192
216
2
5
7
7
8
10
15
22
26
29
33
0, 167 0, 208 0, 194 0, 146 0, 111 0, 104 0, 125 0, 153 0, 156 0, 151 0, 153
Wir stellen die oben gefundenen Werte von rn über n in Abb. 3.1 graphisch dar. Man erkennt, dass sich die relativen Häufigkeiten mit wachsender Anzahl der Wiederholungen des
Experiments schnell stabilisieren.
rn({7})
0,20
0,18
0,16
0,14
0,12
0,10
n
12 24 36 48
72
96
120
144
168
192
216
Abb. 3.1
Noch deutlicher zeigt dies die Grafik in Abb. 3.2, welche für eine Folge von 400 Münzwürfen die
relative Häufigkeit des Ereignisse Kopf“ in Abhängigkeit von der Anzahl der Würfe angibt.
”
Es ist nun eine Erfahrungssache (und damit eine nur durch Experimente zu beweisende Einsicht), dass die relativen Häufigkeiten zufälliger Ereignisse A, wenn sich nur die zugrundeliegenden Bedingungen oft genug realisieren lassen, bei genügend langen Versuchsreihen in der Nähe
eines festen Wertes P (A) bleiben. Diesen Wert nennen wir statistische Wahrscheinlichkeit des betreffenden Ereignisses. Die Existenz der statistischen Wahrscheinlichkeit ist insoweit
34
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
35
3.2 Das Axiomensystem von Kolmogorow
Von diesem Einwand abgesehen, gehört jeder Limes zu einer unendlichen Folge; es gibt aber
im Universum nur endliche Versuchsreihen! Auch diese Überlegung stellt die Existenz des o.a.
Limes in Frage.
1
3.2
0,5
Das Axiomensystem von Kolmogorow
Unser Ziel besteht darin, zufällige Erscheinungen der Wirklichkeit durch eine mathematische
Struktur zu beschreiben. Es soll also nicht mit der physikalischen Realität, sondern mit einem
Modell davon umgegangen werden.
0
2
5
10
20
50
100
400
bewiesen wie naturwissenschaftliche Versuche Beweiskraft für die Existenz von Naturgesetzen
besitzen.
Entsprechendes ist aus der Physik bekannt, wo z.B. Körper als ausdehnungslose Massepunkte,
das Licht als Welle oder Korpuskel, je nach Bedarf, betrachtet werden. Nur wenn das Modell
die Wirklichkeit adäquat beschreibt, kann die mathematische Theorie brauchbare Resultate
liefern. Es ist daher erforderlich, sich beim Aufbau der mathematischen Struktur eng an die
Realität anzulehnen.
Die statistische Wahrscheinlichkeit ist kein Begriff der reinen Mathematik. Sie ist nicht exakt
bestimmbar, sondern abhängig vom Messreihenumfang immer nur mehr oder weniger gut approximierbar. Ihre Existenz wird postuliert, etwa wie die Existenz der Masse eines Körpers,
die wir auch nie ganz genau messen können.
Die historischen Bemühungen zeigen, dass der Begriff der mathematischen Wahrscheinlichkeit
aus den relativen Häufigkeiten nicht abzuleiten ist, da diese für ein bestimmtes Ereignis bei
wiederholten Versuchen schwanken. Einige ihrer typischen Eigenschaften spiegeln sich jedoch
in der zu entwickelnden Theorie wider:
Abb. 3.2
In der reinen“ Mathematik haben Erfahrungselemente keine Beweiskraft. Hilbert forderte
”
deshalb auf dem Mathematikerkongress in Paris im Jahre 1900, die Wahrscheinlichkeitsrechnung (und die Mechanik) wie die Grundlagen der Geometrie zu axiomatisieren.
(b) Ein sicheres Ereignis hat die relative Häufigkeit 1.
Einen anderen interessanten Ansatz zur Überwindung des klassischen Wahrscheinlichkeitsbegriffs und zur axiomatischen Begründung der Wahrscheinlichkeitsrechnung schlug von Mises
im Jahre 1919 vor. Er ging davon aus, dass sich bei genügend vielen Wiederholungen eines
Experiments die relativen Häufigkeiten stabilisieren.
(c) Hat bei n Versuchen das Ereignis A die absolute bzw. relative Häufigkeit hn (A) bzw.
rn (A) und das Ereignis B die absolute bzw. relative Häufigkeit hn (B) bzw. rn (B) und
treten die beiden Ereignisse nicht gleichzeitig ein, so hat das Ereignis A ∪ B die absolute
bzw. relative Häufigkeit
Sein erstes Axiom postuliert dementsprechend für alle eigentlichen Untermengen A eines gegebenen Stichprobenraumes Ω die Existenz des Grenzwertes
hn (A)
=: P (A) ,
n
wobei n die Anzahl der Wiederholungen des Versuchs ist, bei dem A eintreten kann. Von
Mises hielt den Begriff der Wahrscheinlichkeit nicht für einen mathematischen Gegenstand
und die Wahrscheinlichkeitstheorie für eine Wissenschaft zur Erforschung der Erscheinungen
der realen Welt, über die man aus der Mathematik nichts entnehmen kann.
lim
n→∞
Die oben angegebene Grenzwertbeziehung bedeutet, dass es zu jedem ε > 0 ein N ∈ N gibt, so
dass für alle n ∈ N mit n ≥ N gilt
hn (A)
− P (A) < ε .
n
Die Zahlen hn (A) sind Messergebnisse einer Versuchsreihe. Auch für noch so große N besteht
jedoch eine gewisse Wahrscheinlichkeit dafür, dass im Bereich n ≥ N eine Serie mit unverhältnismäßig vielen Erfolgen oder Misserfolgen eintrifft, so dass hnn(A) von P (A) um mehr als ε
abweicht. Das widerspricht aber der Existenz des Grenzwertes.
(a) Die relative Häufigkeit liegt zwischen 0 und 1.
hn (A ∪ B) = hn (A) + hn (B)
bzw.
rn (A ∪ B) = rn (A) + rn (B) .
Das heutzutage gebräuchliche Axiomensystem der Wahrscheinlichkeitsrechnung geht auf den
russischen Mathematiker Kolmogorow zurück. Er hat es in einer 1933 erschienenen Arbeit
Grundbegriffe der Wahrscheinlichkeitsrechnung“ veröffentlicht, nachdem bereits 1917 Bern”
stein den ersten systematischen Aufbau einer Axiomatik angegeben hatte.
Wir wollen das Kolmogorowsche Axiomensystem vorstellen. Hierzu definieren wir zunächst
den Begriff der Ereignisalgebra.
36
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
Bemerkung 3.3:
Definition 3.1: (Ereignisalgebra)
Gegeben sei eine (endliche oder unendliche) nicht-leere Menge, der sogenannte Stichprobenraum Ω.
E ⊆ P(Ω) heißt Ereignisalgebra über Ω, wenn folgende Eigenschaften erfüllt sind:
(E1 )
Ω ∈ E und ∅ ∈ E .
(E2 )
Für jede abzählbare Indexmenge I mit Ai ∈ E für i ∈ I gilt
(E3 )
37
3.2 Das Axiomensystem von Kolmogorow
Für alle A, B ∈ E gilt A\B ∈ E .
S
i∈I
Ai ∈ E und
T
i∈I
Ai ∈ E.
Wenn Ω endlich ist, dann gibt es nur endlich viele Ereignisse. Die Bedingung (K3 ) kann dann
folgendermaßen vereinfacht werden:
(K3 )′
es gilt P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅.
Durch vollständige Induktion lässt sich diese Eigenschaft dann auf die disjunkte Vereinigung
endlich vieler Ereignisse ausdehnen.
Durch Beschränkung von Ω ergibt sich folgender Sonderfall:
Definition 3.4: (diskreter Wahrscheinlichkeitsraum)
Ist Ω eine nichtleere, abzählbare Menge, so heißt Ω diskreter Stichprobenraum.
Bemerkung 3.1:
Statt Ereignisalgebra über Ω sagt man auch σ–Algebra“.
”
Ein Wahrscheinlichkeitsraum der Gestalt
Ω, P(Ω), P ,
P : P(Ω) → R geeignet
heißt diskreter Wahrscheinlichkeitsraum.
Definition 3.2: (Ergebnis, Ereignis)
Die Elemente des Stichprobenraumes Ω heißen Ergebnisse, die Elemente der Ereignisalgebra
E heißen Ereignisse.
Falls für ein ε ∈ Ω auch {ε} ∈ E gilt, dann heißt {ε} Elementarereignis.
Definition 3.3: (Axiomensystem von Kolmogorow)
Es sei Ω ein Stichprobenraum, E eine Ereignisalgebra über Ω und P : E → R eine Funktion
mit den Eigenschaften
(K1 )
P (Ω) = 1
(Normierung)
(K2 )
P (A) ≥ 0 für alle A ∈ E
(Nichtnegativität)
(K3 )
für jede abzählbare Menge paarweise disjunkter Ereignisse {Ai | i ∈ I} gilt
S P
(σ–Additivität).
Ai = P (Ai )
P
i∈I
i∈I
Dann heißt P Wahrscheinlichkeitsbelegung und das Tripel (Ω, E, P ) Wahrscheinlichkeitsraum.
Bemerkung 3.2:
In (K3 ) wird eine Vereinigung paarweise disjunkter Mengen vorgenommen. Man spricht in
Ṡ
diesem Fall von einer disjunkten Vereinigung“ und schreibt dafür auch Ai . So weist z.B.
”
i∈I
˙ darauf hin, dass A ∩ B = ∅ gilt.
die Schreibweise C = A∪B
In einem diskreten Wahrscheinlichkeitsraum erhält man alle möglichen Wahrscheinlichkeitsbelegungen, indem man die Wahrscheinlichkeiten der Elementarereignisse festlegt.
Satz 3.1:
Es sei Ω = {ω1 , ω2 , ω3 , . . . } ein diskreter Stichprobenraum.
Für jedes Ergebnis ωj ∈ Ω sei P ({ωj }) = pj . Hierbei seien die pj nicht-negative Zahlen mit
P
pj = 1 (ist Ω abzählbar unendlich, so ist dies eine unendliche Reihe).
j
Für beliebige Ereignisse A setzt man P (A) =
P
pj .
ωj ∈A
Dann ist (Ω, P(Ω), P ein Wahrscheinlichkeitsraum.
Beweis: Aufgabe. 2
Bemerkung 3.4:
Hat Ω genau n Elemente und gibt man jedem Elementarereignis {ω} die Wahrscheinlichkeit
P ({ω}) = n1 , so spricht man von einem Laplaceschen Wahrscheinlichkeitsraum.
Für beliebige Ereignisse A ⊂ Ω erhält man dann P (A) =
1.2 erklärte klassische Wahrscheinlichkeit.
|A|
|Ω|
. Dies ist gerade die in Definition
38
3.3
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
Beispiele
Beispiel 3.1:
Das Werfen von zwei unterscheidbaren Würfeln erzeugt die Paarmenge Ω = {1, 2, . . . , 6}2 .
1
Jeder der 36 einelementigen Untermengen kann man die Wahrscheinlichkeit pi = 36
zuordnen.
Beispiel 3.2:
Beim Spiel interessiert man sich manchmal nur für die Augensumme von zwei geworfenen
Würfeln. Dann wählt man als Stichprobenraum zweckmäßig
Ω = {2, 3, . . . , 12} .
Will man den einelementigen Teilmengen adäquate Wahrscheinlichkeiten zuordnen, so muss
man berücksichtigen, dass sich die meisten Elemente durch mehrere Augenpaare erzeugen lassen. Daher ist die klassische Wahrscheinlichkeit nicht angebracht, sondern man setzt

k−1


für k = 2, 3, . . . , 7

36
pk = P ({k}) =


 13 − k für k = 8, 9, . . . , 12 .
36
Diese Wahrscheinlichkeiten sind in Abb. 3.3 veranschaulicht.
39
3.3 Beispiele
In der Praxis gilt p ≈ q ≈ 12 , aber man kann sich gut vorstellen, dass diese Symmetrie bei einer
Münze mit einem sehr erhabenen Wappen ( Kopf“) auch einmal stärker gestört sein kann.
”
Die Funktion p : N → [0, 1], k 7→ pk = pq k−1 für k ∈ N heißt geometrische Verteilung,
da die Werte eine geometrische Folge bilden.
Beispiel 3.4: (Nadelproblem von Buffon)
In einer Ebene seien parallele Geraden markiert, die voneinander jeweils den Abstand d haben. Auf diese Ebene wird zufällig“ eine Nadel der Länge ℓ < d geworfen. Mit welcher
”
Wahrscheinlichkeit schneidet sie eine der markierten Geraden?
x sei der Abstand des Nadelmittelpunktes von derjenigen Geraden, die ihm am nächsten liegt.
t sei der Winkel, den die Nadel mit dieser Geraden bildet (vgl. Abb. 3.4).
t
A
0
2
P({k})
Abb. 3.4
6/36
Die Versuchsergebnisse sind die Paare (x, t) mit 0 ≤ x ≤
Rechteck Ω.
5/36
x
Abb. 3.5
d
2
und 0 ≤ t ≤ π; sie bilden ein
Die Nadel schneidet eine der Geraden, wenn x ≤ 2ℓ sin t ist, d.h. wenn der Punkt (x, t) in der
schraffierten Teilfläche A des Rechtecks liegt (s. Abb. 3.5). Diese hat den Inhalt
4/36
3/36
2/36
I(A) =
1/36
Zπ
0
2
3
4
5
6
7
8
9
10 11 12
Abb. 3.3
Beispiel 3.3:
Als Beispiel mit abzählbar unendlich vielen Ergebnissen betrachten wir das Werfen einer Münze
bis zum Erscheinen von Kopf“. Wir zählen die Anzahl der benötigten Würfe, und so ergibt
”
sich ganz natürlich
Ω = N = {1, 2, . . . } .
Setzen wir für jedes Ereignis {k} die Wahrscheinlichkeit durch pk = P ({k}) = pq k−1 mit p, q > 0
∞
P
und p + q = 1 fest, so gilt
pk = 1 . Die Begründung für diese Festlegung wird in Beispiel 5.4
nachgereicht.
d
2
k=1
π
ℓ
ℓ
sin t dt = (− cos t) 0 = ℓ .
2
2
Läuft das Experiment so ab, dass alle Punkte der Fläche Ω gleichmöglich“ sind, dann ergibt
”
sich für die gesuchte Wahrscheinlichkeit
P (A) =
ℓ
I(A)
2ℓ
=
.
=
I(Ω)
πd
π · d2
Als Ereignisalgebra E kann einfach die Menge E = {∅, A, Ac , Ω} gewählt werden. Auf dieser
ist dann P definiert.
Bemerkung 3.5:
Kann man die möglichen Ergebnisse eines Zufallsexperiments graphisch durch eine Punktmenge
Ω in der Ebene darstellen, so dass für die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω gilt
Flächeninhalt von A
,
Flächeninhalt von Ω
so spricht man von einer geometrischen Wahrscheinlichkeit.
P (A) =
40
3.4
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
Bertrands Paradoxon
Die Axiomatisierung der Wahrscheinlichkeitsrechnung verlief parallel zur Entwicklung der Lebesgueschen Maß- und Integrationstheorie. Nach Kolmogorow war die Analogie zwischen
dem Maß einer Menge und der Wahrscheinlichkeit eines Ereignisses offensichtlich.
zwischen den gegenüberliegenden Ecken des einbeschriebenen Dreiecks durch diesen Punkt
liegen. Die gesuchte Wahrscheinlichkeit ist demnach der Quotient der Längen des zugehörigen
Kreisbogenstücks und des gesamten Kreisbogens
p′′ =
1
3
Die Theorie ist heute in sich stimmig. Das bedeutet aber nicht, dass sie auf jede praktische
Fragestellung eine eindeutige Antwort gibt.
Zunächst einmal existieren zu einem gegebenen Ereignisraum eine Reihe von unterschiedlichen
Wahrscheinlichkeitsbelegungen. Es ist dann Aufgabe des Untersuchenden, daraus die der Realität am besten entsprechende auszuwählen.
In der Mathematik wird nicht die Natur selbst bearbeitet, sondern ein Modell von ihr. Tatsächlich
können aber zu ein- und demselben Problem ganz unterschiedliche Modelle existieren. Das hat
schon Joseph Bertrand 1889 in seinem in Paris erschienenen Calcul des Probabilités“ ge”
zeigt.
Ihm ging es vor allem darum nachzuweisen, dass man mit dem von Laplace übernommenen
Begriff der Gleichwahrscheinlichkeit nicht auskommen kann. Er konstruierte das folgende
Beispiel 3.5: (Bertrands Paradoxon)
Rein zufällig“ wird in einem Kreis eine Sehne ausgewählt. Mit welcher Wahrscheinlichkeit p
”
ist sie länger als eine Seite eines dem Kreis einbeschriebenen gleichseitigen Dreiecks?
Bertrand fand mehrere verschiedene Lösungen. Sehen wir uns zwei davon an.
1. Lösung: Aus Symmetriegründen genügt es, alle Sehnen senkrecht zu einem Durchmesser zu
betrachten (s. Abb. 3.6). Die Wahrscheinlichkeit auf dem Durchmesser einen Punkt auszuwählen, durch den eine Sehne geht, die länger als die Dreiecksseite ist, ergibt sich aus dem
Verhältnis der Längen der Durchmesser des Inkreises und des gegebenen (Um–)Kreises:
p′ =
· 2πr
1
= .
2πr
3
Bertrand entschied sich für die erste Lösung. Tatsächlich beruhen die voneinander abweichenden Ergebnisse auf unterschiedlichen Vorstellungen von gleicher Wahrscheinlichkeit“.
”
Im ersten Falle ist das Auswählen von Punkten auf einer Strecke gleich wahrscheinlich, im
zweiten das Auswählen von Punkten auf einem Kreis.
Aufgabe 3.1:
Im Inneren eines Kreises wird rein zufällig“ ein Punkt gewählt und durch ihn diejenige Sehne
”
gelegt, die er halbiert (wird der Mittelpunkt gewählt, so kann als Sehne ein beliebiger Durchmesser festgelegt werden).
Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger als eine Seite des einbeschriebenen gleichseitigen Dreiecks ausfällt?
Jedem Auswahlverfahren können wir einen passenden Wahrscheinlichkeitsraum zuordnen, und
welcher dieser Räume das Phänomen zutreffend beschreibt, hängt von dem Zufallsgerät ab,
durch das wir die Sehne auswählen lassen.
3.5
Weitere Aufgaben
Aufgabe 3.2:
Eine Münze vom Durchmesser
stand 1 geworfen.
r
2
2·
1
= .
2·r
2
41
3.5 Weitere Aufgaben
1
2
wird auf ein großmaschiges Karopapier mit dem Maschenab-
(a) Wie groß ist die Wahrscheinlichkeit p1 dafür, dass die Münze keine Maschenecke“ be”
deckt?
(b) Wie groß ist die Wahrscheinlichkeit p2 dafür, dass kein Punkt einer Linie bedeckt wird?
r/2
r
Aufgabe 3.3:
Drei Punkte a, b, c werden zufällig“ auf einem Kreis ausgewählt. Mit welcher Wahrscheinlich”
keit liegen alle drei Punkte auf einem Halbkreis?
Aufgabe 3.4:
Abb. 3.6
Abb. 3.7
2. Lösung: Aus Symmetriegründen genügt es, alle Sehnen durch einen Punkt der Peripherie zu
betrachten (s. Abb. 3.7). Länger als die Dreiecksseite sind diejenigen Sehnen, deren Endpunkte
E ⊆ P(Ω) habe folgende Eigenschaften:
Ω ∈ E,
Zeigen Sie
AC ∈ E, falls A ∈ E,
[
i∈I
Ai ∈ E, falls Ai ∈ E für alle i ∈ I, Iabzählbar.
42
43
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
4
i) ∅ ∈ E,
T
Ai ∈ E, falls Ai ∈ E für alle i ∈ I, I abzählbar,
ii)
Folgerungen aus den Axiomen
4.1
i∈I
iii) A\B ∈ E für alle A, B ∈ E.
Der Satz von Sylvester
Satz 4.1:
Bemerkung 3.6:
Aufgabe 3.4 zeigt, dass zur Definition einer Ereignisalgebra wesentlich weniger Eigenschaften
gefordert werden müssen, als wir das in Definition 3.1 getan haben.
(a) Die Wahrscheinlichkeit des unmöglichen Ereignisses ist P (∅) = 0 .
(b) Für das Komplementärereignis von A ∈ E gilt P (AC ) = 1 − P (A) .
(c) Für alle Ereignisse A, B mit A ⊂ B gilt die Monotonieeigenschaft P (A) ≤ P (B) .
Aufgabe 3.5:
(d) Für alle Ereignisse A, B gilt P (A ∪ B) = P (A ∩ B) + P (A ∩ B C ) + P (AC ∩ B) .
Es sei E := {M ⊂ N | M ist endlich oder N \M ist endlich}.
Zeigen Sie, dass E keine Ereignisalgebra ist.
Beweis:
Aufgabe, für Teil (d) vgl. Abb. 4.1. 2
Aufgabe 3.6:
Zeigen Sie, dass E aus Aufgabe 3.5 eine Ereignisalgebra wird, wenn in der Definition endlich“
”
durch abzählbar“ ersetzt wird.
”
B
Aufgabe 3.7:
c
A B
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum. Zeigen Sie:
(a) Für jede wachsende Folge von Ereignissen A1 ⊂ A2 ⊂ . . . gilt P
(b) Für jede fallende Folge von Ereignissen B1 ⊃ B2 ⊃ . . . gilt P
∞
T
∞
S
j=1
j=1
A B
c
B A
A
Ω
Aj = lim P (Aj ).
j→∞
Bj = lim P (Bj ).
Abb. 4.1
j→∞
Satz 4.2: (Additionssatz)
Für alle Ereignisse A, B eines Ereignisraumes E gilt (vgl. Abb. 4.1)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .
Beweis:
Aufgabe. 2
Satz 4.3: (Additionssatz für 3 Ereignisse)
Für je drei Ereignisse eines Ereignisraumes gilt
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
− P (A ∩ B) − P (B ∩ C) − P (A ∩ C)
+ P (A ∩ B ∩ C)
Beweis:
Aufgabe. 2
44
4 FOLGERUNGEN AUS DEN AXIOMEN
Aufgabe 4.1:
A und B seien Ereignisse eines Ereignisraumes E mit P (A) =
Man bestimme
(a) P (A ∪ B)
C
(b) P (AC ) und P (B C )
C
(d) P (A ∪ B )
C
(e) P (A ∩ B )
3
8
, P (B) =
1
2
, P (A ∩ B) =
1
4
.
(c) P (AC ∩ B C )
C
(f) P (A ∩ B) .
45
4.1 Der Satz von Sylvester
Die Sätze 4.2 und 4.3 lassen sich auf jede endliche Anzahl von Ereignissen zum Satz von Sylvester4 verallgemeinern:
Satz 4.4: (Satz von Sylvester)
n
S
P
P
P
P
Ai =
P (Ai ) −
P (Ai ∩ Aj ) +
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
i=1
i
i<j
i<j<k
· · · + (−1)n−1 P (A1 ∩ A2 ∩ . . . ∩ An ) .
Aufgabe 4.2:
Eine Blutgruppenuntersuchung von Europäern ergab:
50 % besitzen das Antigen vom Typ α,
11 % besitzen das Antigen vom Typ β,
4 % besitzen Antigene beider Typen.
Beweis durch vollständige Induktion nach n:
Für n = 1 und n = 2 (Satz 4.2) ist die Aussage richtig.
Wieviel Prozent der Bevölkerung besitzen nur das Antigen vom Typ α, nur das Antigen vom
Typ β bzw. kein Antigen?
Die Aussage sei richtig für n = ℓ. Dann ergibt sich für n = ℓ + 1:
P (A1 ∪ . . . ∪ Aℓ+1 ) = P (A1 ∪ . . . ∪ Aℓ ) ∪ Aℓ+1
= P (A1 ∪ . . . ∪ Aℓ ) + P (Aℓ+1 ) − P (A1 ∪ . . . ∪ Aℓ ) ∩ Aℓ+1
X
(IV ) X
P (Ai ∩ Aj ) ± . . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ )
P (Ai ) −
=
(n=2)
Aufgabe 4.3:
Um einen Überblick über die Absatzchancen seiner Produkte zu erhalten, holt sich ein Hersteller
Informationen. Er erfährt über das ihn interessierende Gebiet, dass
i<j≤ℓ
i≤ℓ
+ P (Aℓ+1 ) − P
86 % der Bevölkerung ein Radiogerät,
69 % ein Fernsehgerät und
63 % beide Geräte angemeldet haben.
(IV )
=
Wieviel Prozent der Bevölkerung haben demnach keines von beiden Geräten angemeldet?
X
i≤ℓ
P (Ai ) −
Aufgabe 4.4:
−
Eine Zahl wird willkürlich aus der Menge der ersten 300 natürlichen Zahlen ausgewählt. Wie
groß ist die Wahrscheinlichkeit, dass diese Zahl durch 5, 6 oder 8 teilbar ist?
i<j≤ℓ
"
P (Ai ∩ Aj ) +
X
i<j<k≤ℓ
(Ar ∩ Aℓ+1 )
r=1
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
. . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ ) + P (Aℓ+1 )
X
X
(Ai ∩ Aℓ+1 ) −
P (Ai ∩ Aℓ+1 ) ∩ (Aj ∩ Aℓ+1 ) ± . . .
i≤ℓ
i<j≤ℓ
#
ℓ
\
ℓ−1
(Ar ∩ Aℓ+1 )
. . . + (−1) P
r=1
Aufgabe 4.5:
Man beweise die Ungleichung P
X
ℓ
[
n
S
i=1
Ai
≤
eines Wahrscheinlichkeitsraumes (Ω, E, P ).
n
P
=
P (Ai ) für beliebige Ereignisse A1 , A2 , . . . , An
X
i≤ℓ+1
i=1
P (Ai ) −
X
i<j≤ℓ+1
P (Ai ∩ Aj ) +
X
i<j<k≤ℓ+1
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
. . . + (−1)ℓ P (A1 ∩ . . . ∩ Aℓ ∩ Aℓ+1 ) . 2
Bemerkung 4.1:
Bemerkung 4.2:
Die Formel gestattet, die Wahrscheinlichkeit eines Ereignisses, das sich als Vereinigung von
Ereignissen mit bekannten Wahrscheinlichkeiten ergibt, nach oben abzuschätzen. Sie ist um so
besser brauchbar, je kleiner die Wahrscheinlichkeiten P (Ai ) sind.
In einem Laplaceschen Wahrscheinlichkeitsraum Ω gilt für jedes Ereignis P (A) =
(vgl. Bemerkung 3.4).
Eine Anwendungsmöglichkeit bietet Beispiel 2.2 (b).
|A|
|Ω|
Die Formel von Sylvester liefert daher nach Multiplikation mit |Ω| eine Formel für die
Mächtigkeit einer Vereinigungsmenge:
P
P
P
|A1 ∪ A2 ∪ . . . ∪ An | = |Ai | − |Ai ∩ Aj | +
|Ai ∩ Aj ∩ Ak | ∓ . . . + (−1)n−1 |A1 ∩ . . . ∩ An | .
i
4
i<j
i<j<k
England, Determinanten- und Matrizentheorie, algebraische Gleichungen.
46
4.2
4 FOLGERUNGEN AUS DEN AXIOMEN
Anwendungen des Satzes von Sylvester
47
4.2 Anwendungen des Satzes von Sylvester
Beispiel 4.1:
Wir bestimmen die Anzahl der zu 18 teilerfremden natürlichen Zahlen ≤ 18:
Die Eulersche Funktion
Wegen 18 = 2 · 32 sind die Primteiler p1 = 2 und p2 = 3. Die Eulersche Funktion liefert
Wie viele Elemente der Menge Ω = {1, 2, . . . , n} sind zu n teilerfremd?
Die Abbildung S : N → N, die jeder Zahl n die Anzahl S(n) der zu n teilerfremden Zahlen
zwischen 1 und n zuordnet heißt Eulersche Funktion. Wir suchen nach einer Formel für S(n).
Hierzu betrachten wir zunächst die Primfaktorenzerlegung von n
mit paarweise verschiedene Primfaktoren pi , i ∈ {1, . . . , r}. Ferner seien
mit
n
|Ai | = ,
pi
Mengenalgebraisch ergibt sich der folgende Zusammenhang:
Die Menge der Vielfachen von p1 = 2 ist A1 = {2, 4, 6, 8, 10, 12, 14, 16, 18}; die Menge der
Vielfachen von p2 = 3 ist A2 = {3, 6, 9, 12, 15, 18}, und man erhält A1 ∩ A2 = {6, 12, 18} .
n = pα1 1 · pα2 2 · . . . · pαr r
n
Ai = x ∈ Ω pi |x = pi , 2pi , 3pi , . . . , · pi
pi
1 1
S(18) = 18 · 1 −
· 1−
=6.
2
3
Also gilt |A1 ∪ A2 | = |A1 | + |A2 | − |A1 ∩ A2 | = 9 + 6 − 3 = 12 (vgl. Abb. 4.2), und daher
i ∈ {1, . . . , r}
S(18) = |Ω| − |A1 ∪ A2 | = 18 − 12 = 6 .
die Vielfachenmengen der pi . Durch Schneiden ergeben sich für i < j die Vielfachenmengen
Ai ∩ Aj = x ∈ Ω pi pj |x
n
pi pj
|Ai ∩ Aj | =
mit
A1
Allgemein erhält man für i1 < i2 < · · · < im
Ai1 ∩ Ai2 ∩ . . . ∩ Aim = x ∈ Ω pi1 pi2 . . . pim |x
|Ai1 ∩ . . . ∩ Aim | =
mit
A2
n
.
pi1 pi2 . . . pim
Ω
Die Menge der zu n nicht teilerfremden Zahlen zwischen 1 und n ist
A1 ∪ A2 ∪ . . . ∪ Ar = x ∈ Ω pi |x gilt für mindestens ein i ,
Abb. 4.2
und die Menge der zu n teilerfremden Zahlen ist ihr Komplement. Nach Bemerkung 4.2 hat es
die Mächtigkeit
Beispiel 4.2:
S(n) = |(A1 ∪ . . . ∪ Ar )C | = |Ω \(A1 ∪...∪Ar ) | = |Ω| − |A1 ∪ . . . ∪ Ar |
= |Ω| −
= n−
P
1≤i≤r
P
1≤i≤r
= n 1−
= n 1−
= n
r
Q
i=1
|Ai | +
n
pi
P
i
1
1
pi
+
P
P
i<j
1−
.
1
pi pj
1
p2
|Ai ∩ Aj | −
1≤i<j≤r
1≤i<j≤r
1
pi
p1
1−
+
P
P
1≤i<j<k≤r
|Ai ∩ Aj ∩ Ak | ± . . .
. . . + (−1)r |A1 ∩ A2 ∩ . . . ∩ Ar |
n
pi pj
−
1−
−
1≤i<j<k≤r
P
i<j<k
1
p3
P
1
pi pj pk
n
pi pj pk
± . . . + (−1)
· ... · 1 −
Das ist die aus der Zahlentheorie bekannte Formel.
± . . . + (−1)r p1 p2n...pr
1
pr
r
1
p1 p2 ...pr
Die Anzahl der zu 2400 = 25 · 3 · 52 teilerfremden natürlichen Zahlen ≤ 2400 ist
1 1
1 2 4
1 1−
1−
= 2400 · · · = 640 .
S(2400) = 2400 1 −
2
3
5
2 3 5
Das Bernoulli–Eulersche Problem der vertauschten Briefe
Wie groß ist die Wahrscheinlichkeit dafür, n Briefe in die dafür vorbereiteten Umschläge zu
tun, ohne dass ein Brief im richtigen Umschlag steckt?
Die Menge Ω der möglichen Verpackungen hat die Mächtigkeit |Ω| = n! .
Ai sei die Menge derjenigen Verpackungen, bei denen der i–te Brief im richtigen Umschlag liegt.
Es gilt |Ai | = (n − 1)! .
Für i < j ist dann Ai ∩ Aj die Menge aller Verpackungen, bei denen der i–te und der j–te Brief
im richtigen Umschlag sind. Man erhält |Ai ∩ Aj | = (n − 2)! .
48
4 FOLGERUNGEN AUS DEN AXIOMEN
Entsprechend ist Ai1 ∩ Ai2 ∩ . . . ∩ Aim die Menge aller derjenigen Verpackungen, bei denen der
i1 –te, . . . , im –te Brief im richtigen Umschlag sind. Hier gilt natürlich für i1 < i2 < . . . < im
Die gesuchte Wahrscheinlichkeit ist P (A1 ∪ A2 ∪ . . . ∪ An )C . Nach dem Satz von Sylvester
ergibt sich unter der Voraussetzung der Gleichmöglichkeit“ aller Verpackungen
”
P (A1 ∪ . . . ∪ An )
=1−
|A1 ∪ A2 ∪ . . . ∪ An |
= 1 − P (A1 ∪ . . . ∪ An ) = 1 −
|Ω|
X |Ai ∩ Aj |
X
X |Ai |
|Ai ∩ Aj ∩ Ak |
+
−
± ...
|Ω|
|Ω|
|Ω|
1≤i<j≤n
1≤i≤n
1≤i<j<k≤n
. . . + (−1)n
|A1 ∩ A2 ∩ A3 ∩ . . . ∩ An |
|Ω|
X (n − 1)!
P (n − 2)!
P
(n − 3)!
1
+
−
± . . . + (−1)n
n!
n!
n!
n!
1≤i<j≤n
1≤i<j<k≤n
1≤i≤n
n (n − 2)!
n (n − 3)!
n 1
n (n − 1)!
+
−
± . . . + (−1)n
=1−
2
3
n n!
n!
n!
n!
1
=1−
=
1
1
1
1
1
− + − ± . . . + (−1)n ·
=
0! 1! 2! 3!
n!
n
X
k=0
(−1)k
k!
Für genügend großes n gilt die Näherungsformel
n
X
(−1)k
k=0
k!
≈
∞
X
(−1)k
k=0
k!
1
(n+1)!
, denn für die Leibniz-Reihe gilt die Abschätzung
1
1
1
1 1
1
1
1
−1
− + ∓ . . . (−1)n
−
+
∓ . . . <
.
e −
= 0! 1! 2!
n!
(n + 1)! (n + 2)! (n + 3)!
(n + 1)!
Für n ≥ 5 z.B. unterscheidet sich
1
e
1
27!
< 10−28 .
Eine Permutation heiße Fixpunktfrei, wenn sie kein Element auf sich abbildet.
Bestimmen Sie die Anzahl fn der n–stelligen fixpunktfreien Permutationen.
Aufgabe 4.7:
30 Personen nehmen am Weihnachtsfest eines Sportvereins teil. Jeder bringt ein Geschenk mit.
Die Geschenke werden in einen Sack getan und vom Weihnachtsmann“ zufällig wieder verteilt.
”
Wie groß ist die Wahrscheinlichkeit, dass dabei niemand sein eigenes Geschenk erhält?
Aufgabe 4.8:
Das Blatt eines Skatspielers, der hoch gereizt hat, ist nur noch zu retten“, wenn er die Pik–7
”
oder den Kreuz–Buben im Skat findet. Wie groß ist die Wahrscheinlichkeit dafür?
4.3
Bedingte Wahrscheinlichkeiten
Häufig nimmt man zur leichteren Analyse von zufälligen Vorgängen eine Aufteilung nach verschiedenen Merkmalen vor. Versicherungsgesellschaften möchten z.B. wissen, ob die Verkehrsunfallhäufigkeit auf dem Lande sich von der in Städten unterscheidet. Mediziner interessiert das
Herzinfarktrisiko bei Essern, die ungesättigte Fettsäuren bevorzugen, im Vergleich zu Menschen,
die ihre Essgewohnheiten nicht kontrollieren. Andere finden interessant, ob die Häufigkeit von
Morden in Ländern mit Todesstrafe eine andere ist als in Ländern ohne Todesstrafe.
Beispiel 4.4:
= e−1 .
Dabei bleibt der Fehler unter
Der bei dieser Näherungsrechnung gemachte Fehler beträgt weniger als
Aufgabe 4.6:
|Ai1 ∩ Ai2 ∩ . . . ∩ Aim | = (n − m)! .
C
49
4.3 Bedingte Wahrscheinlichkeiten
von
1
0!
+ ... +
(−1)5
5!
um weniger als
1
6!
< 1, 4 · 10−3 .
Beispiel 4.3:
Wie groß ist die Wahrscheinlichkeit, dass beim zufälligen Anordnen der 26 Buchstaben A – Z
kein Buchstabe auf seinen ursprünglichen Platz kommt?
Diese Fragestellung ist in der Kryptographie von Bedeutung. Mit der oben entwickelten Formel
erhält man die Wahrscheinlichkeit
1
1
1
1
p = − + ± ... +
≈ e−1 ≈ 0, 3679
0! 1! 2!
26!
Wir betrachten eine Menge Ω von n erwachsenen Personen. Jede Person soll bei einer zufälligen Auswahl mit der gleichen Wahrscheinlichkeit n1 gezogen werden. Wir betrachten die beiden
Ereignisse W : die gewählte Person ist weiblich“und F : die gewählte Person ist farbenblind“.
”
”
Man erhält
P (W ) =
|W |
,
n
P (F ) =
|F |
,
n
P (W ∩ F ) =
|W ∩ F |
.
n
Für die Anzahl der Frauen gelte |W | > 0. Eine aus W zufällig gewählte Frau ist dann mit der
Wahrscheinlichkeit
P (F/W ) =
|W ∩ F |
|W |
farbenblind. Wir bezeichnen P (F/W ) als Wahrscheinlichkeit von F unter der Bedingung W“
”
und finden
P (F/W ) =
|W ∩ F |
=
|W |
|W ∩F |
n
|W |
n
=
P (W ∩ F )
.
P (W )
50
4 FOLGERUNGEN AUS DEN AXIOMEN
Diese Beziehung veranlasst uns, den Begriff der bedingten Wahrscheinlichkeit einzuführen. Dabei handelt es sich um nichts grundsätzlich Neues, sondern nur um eine Abkürzung für einen
Quotienten bekannter Größen, die aber sehr nützlich ist.
Ist der Anteil der Farbenblinden |Fn | in der gesamten Menge gleich dem entsprechenden Anteil
unter den Frauen |W|W∩F| | , so hat Farbenblindheit nichts mit dem Geschlecht zu tun bzw. ist von
ihm unabhängig (vgl. S. 59f). In diesem Fall ist P (F/W ) = P (F ).
Definition 4.1: (bedingte Wahrscheinlichkeit)
A sei ein Ereignis in einem Wahrscheinlichkeitsraum (Ω, E, P ) mit P (A) > 0. Dann heißt
P (A ∩ B)
P (B/A) =
P (A)
51
4.4 Der Multiplikationssatz
(a) das andere Kind jünger ist,
(b) über das andere Kind nichts bekannt ist.
Die Wahrscheinlichkeit für Jungen und Mädchen sollen hierbei als gleich angenommen werden.
4.4
Der Multiplikationssatz
Formt man die Formel in Definition 4.1 um, so erhält man
Satz 4.6:
Für beliebige Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ) gilt
die bedingte Wahrscheinlichkeit des Ereignisses B unter (der Bedingung) A.
Diesen Begriff können wir folgendermaßen erklären:
Wenn wir schon wissen, dass das Ergebnis eines Zufallexperiments in A liegt, fragen wir nach
der Wahrscheinlichkeit dafür, dass es auch noch in B liegt. D.h. wir können uns A ⊂ Ω als
einen neuen Stichprobenraum vorstellen, in dem wir Ereignisse B ⊂ A betrachten.
P (A ∩ B) = P (A) · P (B/A) .
Bemerkung 4.3:
P (B/A) lässt sich häufig einfacher als P (A∩B) bestimmen, so dass wir eine Formel zur Bestimmung von Wahrscheinlichkeiten von Schnitten gewonnen haben, die sich zudem verallgemeinern
lässt.
Genaueres regelt
Beispiel 4.5:
Satz 4.5:
Vier unterscheidbare Kugeln werden in sechs Zellen verteilt. Alle 64 Möglichkeiten seien gleichwahrscheinlich. Wie groß ist die Wahrscheinlichkeit dafür, dass die beiden ersten Kugeln in
zwei verschiedene Zellen fallen und eine der 6 Zellen genau drei Kugeln enthält?
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum und A ∈ E mit P (A) > 0. Es sei
EA = {B ∈ E | B ⊂ A} und PA : EA → [0, 1] mit PA (B) := P (B/A).
Wir betrachten die Ereignisse
A:
B:
Dann ist (A, EA , PA ) ein Wahrscheinlichkeitsraum.
Beweis:
Aufgabe. 2
Interessanterweise besteht zwischen der bedingten Wahrscheinlichkeit und der absoluten keine
feste größer–kleiner–Relation. Gilt nämlich für zwei Ereignisse A, B
= 65 . Ist A eingetreten, gibt es für
Gesucht ist P (A ∩ B). Man erhält zunächst P (A) = 6·5
62
die Verteilung der restlichen Kugeln 62 Möglichkeiten, wovon genau 2 das Ereignis B eintreten
1
2
. Also erhält man
lassen, d.h. P (B/A) = 2 =
6
18
P (A ∩ B) = P (A) · P (B/A) =
P (B/A) > P (B),
so ergibt sich für das komplementäre Ereignis
C
die beiden ersten Kugeln fallen in verschiedene Zellen“,
”
eine Zelle enthält genau drei Kugeln“.
”
5 1
5
·
=
.
6 18
108
Beispiel 4.6:
C
P (B /A) = 1 − P (B/A) < 1 − P (B) = P (B ).
Aufgabe 4.9:
Eine Familie hat zwei Kinder, von denen eines ein Junge ist. Man bestimme die Wahrscheinlichkeit dafür, dass das andere Kind ebenfalls ein Junge ist. Dabei setze man voraus, dass
Zwei Urnen U1 , U2 gleichen Typs enthalten 2 weiße und 3 blaue bzw. 4 weiße und 5 blaue
Kugeln. Wir wählen zunächst zufällig eine Urne aus und ziehen anschließend aus dieser Urne
eine Kugel. Wie groß ist die Wahrscheinlichkeit dafür, eine weiße Kugel zu ziehen, die aus der
Urne U1 stammt?
52
4 FOLGERUNGEN AUS DEN AXIOMEN
Wir zerlegen den Stichprobenraum Ω der 14 Kugeln in zwei disjunkte Ereignisse, nämlich die Kugeln der Urnen U1 und U2 , die
beide mit der Wahrscheinlichkeit 12 eintreten (man beachte, dass
(Ω, P(Ω), P ) kein Laplace-Wahrscheinlichkeitsraum ist!).
W bzw. B seien die Mengen der insgesamt vorhandenen weißen
bzw. blauen Kugeln.
Ω
U1
U2
W
2
4
B
3
5
Abb. 4.3
Bemerkung 4.4:
In der Veranschaulichung durch ein Baumdiagramm entspricht die im Multiplikationssatz angegebene Formel gerade der Berechnung von Wahrscheinlichkeiten durch Multiplizieren der
”
Wahrscheinlichkeiten entlang der Äste“ des Baums (s. Abb. 4.5).
1/2
W U1
3/5
B U1
U1
4/9
1/2
W U2
U2
B U2
5/9
Abb. 4.4
Ist die erste Urne gewählt worden, so ist die Wahrscheinlichkeit dafür, aus dieser eine weiße
Kugel zu ziehen, P (W/U1 ) = 52 . Damit lautet die Antwort auf unsere Frage
P (W ∩ U1 ) = P (U1 ) · P (W/U1 ) =
P(A3 / A2
P(A2 / A1 )
P(A 1 )
Die Situation lässt sich durch das Baumdiagramm in Abb. 4.4 veranschaulichen. Man beachte, dass die in der zweiten Stufe des Baums angegebenen Wahrscheinlichkeiten bedingte
Wahrscheinlichkeiten sind.
2/5
53
4.4 Der Multiplikationssatz
A1
A2
A1 )
A1
A3
A2
A1
Abb. 4.5
Beispiel 4.7:
Von 200 Schrauben passen 17 nicht. Zwei werden zufällig herausgegriffen. Wie wahrscheinlich
ist es, dass man 0 bzw. 1 bzw. 2 passende wählt?
Es sei {k} das Ereignis, dass k Schrauben passen. Mit dem Multiplikationssatz erhält man
17 16
·
≈ 0, 0068,
200 199
und daher durch Komplementbildung
P ({0}) =
P ({2}) =
183 182
·
≈ 0, 8368,
200 199
P ({1}) = 1 − P ({0}) − P ({2}) ≈ 0, 1563.
Aufgabe 4.10:
1 2
1
· = .
2 5
5
Von 4 Sicherheitsschlüsseln schließe genau einer. Die Schlüssel werden der Reihe nach probiert.
(a) Wie groß ist die Wahrscheinlichkeit dafür, dass der 3. probierte Schlüssel schließt?
Wir verallgemeinern nun den letzten Satz.
(b) Definieren Sie einen geeigneten Stichprobenraum Ω sowie die Ereignisse
Satz 4.7: (Multiplikationssatz)
A1 : der zuerst probierte Schlüssel schließt nicht,
A2 : der an 2. Stelle probierte Schlüssel schließt nicht,
A3 : der an 3. Stelle probierte Schlüssel schließt?
Sind A1 , A2 , . . . , An Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ), so gilt
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 /A1 ) · P (A3 /A2 ∩ A1 ) · . . . · P (An /An−1 ∩ . . . ∩ A1 ).
Welches der folgenden Ereignisse halten Sie für wahrscheinlicher:
Beweis: (durch vollständige Induktion nach n)
Für n = 1 und n = 2 ist die Behauptung wahr (s. Satz 4.6).
Die Behauptung sei für n = k richtig (Induktionsvoraussetzung). Dann erhält man für n = k+1
P (A1 ∩ . . . ∩ Ak+1 )
=
(n=2)
=
(IV)
=
P (A1 ∩ . . . ∩ Ak ) ∩ Ak+1
Aufgabe 4.11:
P (A1 ∩ . . . ∩ Ak ) · P (Ak+1 /A1 ∩ . . . ∩ Ak )
P (A1 ) · P (A2 /A1 ) · . . . · P (Ak /Ak−1 ∩ . . . ∩ A1 ) · P (Ak+1 /Ak ∩ . . . ∩ A1 ) . 2
(1) Die Mutter hat blaue Augen, wenn die Tochter blaue Augen hat.
(2) Die Tochter hat blaue Augen, wenn die Mutter blaue Augen hat.
Aufgabe 4.12:
Eine Lieferung von 1000 Glühlampen enthält 8 defekte. Drei Lampen werden entnommen und
verkauft. Wie groß ist die Wahrscheinlichkeit dafür
54
4 FOLGERUNGEN AUS DEN AXIOMEN
55
4.5 Totale Wahrscheinlichkeit, Satz von Bayes
(a) dass diese 3 Lampen defekt sind?
1/3
W I
I
(b) dass genau zwei dieser 3 Lampen defekt sind?
S I
2/3
Hinweis: Man versuche, beide Probleme sowohl mittels des klassischen Wahrscheinlichkeitsbegriffs (Kombinatorik) als auch über den Multiplikationssatz zu bearbeiten.
1/3
1/3
Aufgabe 4.13:
Man zeige: Sind A und B Ereignisse eines Wahrscheinlichkeitsraumes, so gilt
W II
3/5
S II
4/9
W III
5/9
S III
II
1/3
P (A) · P (B/A) = P (B) · P (A/B) .
2/5
III
Aufgabe 4.14:
Lösen Sie mit Hilfe des Satzes 4.7 das Geburtstagsproblem“ (Beispiel 2.2), wie groß die Wahr”
scheinlichkeit dafür ist, dass unter k ≤ 365 Personen mindestens zwei am gleichen Tage Geburtstag haben (ohne Berücksichtigung von Schaltjahren).
Hinweis: Numerieren Sie die k Personen, und nennen Sie Ak das Ereignis, dass die k–te Person
an einem anderen Tag Geburtstag hat als die k − 1 Personen vor ihr.
4.5
Abb. 4.7
Produkte ist die gesuchte Wahrscheinlichkeit:
P (W ) =
53
1 1 1 2 1 4
· + · + · =
.
3 3 3 5 3 9
135
Dieses Vorgehen rechtfertigt der nachfolgende Satz. Wir legen vorher einen zur Formulierung
benötigten Begriff fest.
Totale Wahrscheinlichkeit, Satz von Bayes
Definition 4.2: (Klasseneinteilung)
Wir betrachten folgendes
Beispiel 4.8:
Gegeben seien drei Urnen I, II und III, die eine weiße und zwei
schwarze, zwei weiße und drei schwarze bzw. vier weiße und fünf
schwarze Kugeln enthalten (Abb. 4.6).
Es wird zunächst zufällig eine Urne ausgewählt und anschließend
aus dieser eine Kugel gezogen. Wie groß ist die Wahrscheinlichkeit
dafür,
Unter einer Klasseneinteilung eines Stichprobenraumes S
versteht man ein System
Ai (vgl. Abb. 4.8).
{Ai | i ∈ I} von Ereignissen mit Ai ∩ Ak = ∅ für i 6= k und Ω =
i∈I
I
II
III
W
◦
◦ ◦
◦ ◦
◦ ◦
S
• •
• • •
• • •
• •
Abb. 4.6
(a) aus der bereits gewählten Urne II eine weiße Kugel zu ziehen,
Satz 4.8: (Satz von der totalen Wahrscheinlichkeit)
Ist I eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω, so gilt für jedes Ereignis B ⊂ Ω
X
P (B) =
P (Ai ) · P (B/Ai ) .
i∈I
(b) dass eine gezogene weiße Kugel aus der Urne II stammt,
Beweis:
(c) eine weiße Kugel zu ziehen?
Wir übersetzen das Problem in ein Baumdiagramm, indem wir zunächst die verschiedenen
Wahlmöglichkeiten für die Urnen mit ihren Wahrscheinlichkeiten markieren und anschließend
die Wahlmöglichkeiten für die Kugeln (Abb. 4.7).
Die Antwort auf (a) liest man direkt als P (W/II) =
unmittelbar entnehmen.
2
5
ab. (b) kann man dem Diagramm nicht
Die Antwort auf (c) lautet: Wir durchlaufen alle Pfade, die mit einer weißen Kugel enden und
bilden für jeden Pfad nach Satz 4.7 das Produkt der Wahrscheinlichkeiten. Die Summe der
Es ergibt sich durch Anwendung von Satz 4.6
P (B) = P (B ∩ Ω) = P B ∩
S
i∈I
(∗) P
P
S
P (Ai ) · P (B/Ai ) ;
P (B ∩ Ai ) =
(B ∩ Ai ) =
Ai = P
i∈I
i∈I
hierbei gilt (∗) nach dem 3. Kolmogorowschen Axiom wegen
(B ∩ Ai ) ∩ (B ∩ Ak ) = B ∩ (Ai ∩ Ak ) = B ∩ ∅ = ∅ für i 6= k . 2
i∈I
56
4 FOLGERUNGEN AUS DEN AXIOMEN
An
Aj
B
A1
Bemerkung 4.5:
A2
A3
Ai
A4
57
4.5 Totale Wahrscheinlichkeit, Satz von Bayes
In der Formel von Bayes heißt P (Aj ) die a priori Wahrscheinlichkeit und P (Aj /B)
die a posteriori Wahrscheinlichkeit.
Ω
Abb. 4.8
Beispiel 4.8: (Fortsetzung)
Wir lösen jetzt das in (b) gestellte Problem.
Gefragt wird nach der Wahrscheinlichkeit P (II/W ) . Nach dem Satz von Bayes gilt
Aufgabe 4.15:
Drei Maschinen eines Betriebes stellen gleiche Teile her. Die erste Maschine erzeugt 45 %, die
zweite 35 % und die dritte 20 % der Produktion. Der Ausschuss beträgt nach statistischen
Erhebungen auf der ersten Maschine 1 %, auf der zweiten 2 % und auf der dritten 3 %.
P (II/W ) =
=
Wie wahrscheinlich ist es, dass ein beliebiges aus diesem Betrieb stammendes Teil zum Ausschuss gehört?
Aufgabe 4.16:
Ein Kaufhaus verkauft Herrenanzüge, und zwar 25 % große, 54 % mittlere und 21 % kleine
Größen. Es müssen 16 % der großen, 12 % der mittleren und 19 % der kleinen Größen geändert
werden. Mit welcher Wahrscheinlichkeit muss die Änderungsabteilung einen beliebigen verkauften Anzug bearbeiten?
Als einer der ersten interessierte sich der Engländer Bayes dafür, ob man aus dem Ergebnis eines Zufallsexperiments etwas über den zugrundeliegenden Ereignisraum aussagen kann.
Beispielsweise stellten wir im Beispiel 4.8 die Frage, mit welcher Wahrscheinlichkeit Urne II
gewählt wurde, wenn schon bekannt ist, dass die gezogene Kugel weiß ist. Wie Bayes diese
Art von Problemstellung löste, zeigt der folgende Satz.
P (II) · P (W/II)
P (I) · P (W/I) + P (II) · P (W/II) + P (III) · P (W/III)
1
3
1
3
1
3
· 25
· + · 25 + 31 ·
1
3
4
9
=
2
15
53
135
=
18
.
53
Für das Ereignis Urne II wird gewählt“ ist also die a priori Wahrscheinlichkeit P (II) = 31 .
”
Die a posteriori Wahrscheinlichkeit d.h. die Wahrscheinlichkeit, nachdem eine weiße Kugel
.
gezogen wurde, ist P (II/W ) = 18
53
Aufgabe 4.17:
Die Zuverlässigkeit einer Tuberkulose-Röntgenuntersuchung sei durch folgende Angaben beschrieben:
90 % aller Tbc–Kranken werden als krank erkannt, 10 % werden für gesund gehalten.
99 % der gesunden Personen werden als solche eingeschätzt, 1 % wird als krank eingestuft.
Aus einer großen Bevölkerung, von der 0,1 % Tbc–krank ist, wird bei einer Einstellungsuntersuchung eine Person geröntgt und als Tbc–verdächtig eingestuft.
Wie groß ist die Wahrscheinlichkeit, dass diese Person wirklich Tbc–krank ist?
Satz 4.9: (Satz von Bayes)
I sei eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω in Ereignisse.
Ist B ein Ereignis mit P (B) 6= 0, so gilt für alle j ∈ I
P (Aj /B) =
P (Aj ) · P (B/Aj )
P (Aj ) · P (B/Aj )
.
=P
P (Ai ) · P (B/Ai )
P (B)
i∈I
Beweis:
Aufgabe 4.18:
Bei Touristenreisen in tropische Länder mit X–Fiebergefährdung lassen sich durchschnittlich 3
von 4 Personen gegen diese Krankheit impfen. Eine Statistik ergibt:
• Von 7 Erkrankten sind durchschnittlich 3 geimpft.
• Von 20 Geimpften wird durchschnittlich einer krank.
(a) Man stelle ein Baumdiagramm für die Beziehungen zwischen Erkrankung und Impfung
auf und trage die aus der Problemstellung bekannten Wahrscheinlichkeiten ein.
Die angegebene Formel ergibt sich durch Einsetzen der Darstellung von P (B) aus Satz 4.8 in
(b) Man berechne, mit welcher Wahrscheinlichkeit eine nicht geimpfte Person erkrankt.
P (Aj ∩ B)
P (Aj ) · P (B/Aj )
P (Aj /B) =
=
.2
P (B)
P (B)
(c) Kann man die Impfung empfehlen?
58
5
Aufgabe 4.19:
Die Kisten mit äußerlich gleichen Feuerwerkskörpern unterschiedlicher Qualität sind vor dem
Beschriften durcheinandergeraten. In jeder Kiste sind 100 Stück, und es gibt Kisten mit geringer, mit mittlerer und mit hoher Qualität. Die Anzahlen dieser Kisten verhalten sich wie 1 : 1
: 2.
Das Testen eines Feuerwerkskörpers verbraucht ihn. Es wird daher festgesetzt, dass von jeder
Kiste zwei Feuerwerkskörper gezündet werden.
Auf Grund früherer Erfahrungen schätzt der Hersteller die bedingten Wahrscheinlichkeiten,
dabei x defekte Feuerwerkskörper zu entdecken, wie folgt ein:
0
1
2
0,49
0,42
0,09
0,64
0,32
0,04
5.1
Unabhängigkeit
Nach der Erklärung der bedingten Wahrscheinlichkeit ist es naheliegend, zwei Ereignisse A und
B mit P (B/A) = P (B) unabhängig zu nennen. Um jedoch von der Voraussetzung P (A) > 0
freizuwerden und die Formulierung symmetrisch in A und B vornehmen zu können, setzen wir
fest:
Definition 5.1: (Unabhängigkeit von 2 Ereignissen)
P (A ∩ B) = P (A) · P (B).
0,81
0,18
0,01
Aufgabe 5.1:
Wie groß sind demnach die Wahrscheinlichkeiten, dass eine Kiste Feuerwerkskörper geringer,
mittlerer bzw. hoher Qualität enthält, wenn beim Test 0, 1, 2 Feuerwerkskörper defekt sind?
Zwei Ereignisse A, B mit P (A) 6= 0 sind genau dann unabhängig, wenn P (B/A) = P (B) gilt.
Beispiel 5.1:
In einer Urne befinden sich hundert von 1 bis 100 durchnumerierte Kugeln. Ai sei das Ereignis,
eine Kugel mit einer durch i teilbaren Nummer zu ziehen. Sind die Ereignisse
Beispiel 4.9:
Hier wird die Bayessche Formel zum Modifizieren subjektiver“ Wahrscheinlichkeiten benutzt.
”
Dem Studenten S wird in einer Kneipe von einem Fremden F das Angebot gemacht, die
Bezahlung der Zeche von einem Münzwurf abhängig zu machen. F holt eine Münze aus der
Tasche und erklärt sich bereit, bei Zahl die Zeche zu übernehmen, bei Kopf soll S zahlen. S
schätzt, F könnte mit der Wahrscheinlichkeit p“ ein Gauner sein und mit der Münze so gut
”
wie sicher Kopf werfen.
A : der Mann betrügt
und
B : beim Münzwurf fällt Kopf.
Die a priori Wahrscheinlichkeit für A ist also (nach Einschätzung von S) P (A) = p.
Die Münze wird geworfen; es erscheint Kopf“. Nun modifiziert S die vermutete Wahrschein”
lichkeit zu der a posteriori Wahrscheinlichkeit
P (A/B) =
Unabhängigkeit und Produkträume
Zwei Ereignisse A, B heißen unabhängig, wenn gilt
Qualität
Anzahl x der defekten
Feuerwerkskörper
gering mittel hoch
Sei
59
4 FOLGERUNGEN AUS DEN AXIOMEN
P (A) · P (B/A)
p·1
=
P (A) · P (B/A) + P (AC ) · P (B/AC )
p · 1 + (1 − p)
Ein Zahlenbeispiel:
p = P (A) = 0, 20 ⇒ P (A/B) =
2 · 0, 20
= 0, 33 .
1 + 0, 20
1
2
=
2p
>p.
1+p
A4 und A5
bzw.
A4 und A6
bzw.
A11 und A12
unabhängig?
1
1 1
· =
= P (A20 ) = P (A4 ∩ A5 )
4 5
20
1 16
4
8
P (A4 ) · P (A6 )
=
·
=
6=
= P (A12 ) = P (A4 ∩ A6 )
4 100
100
100
8
72
9
·
= 4 6= 0 = P (∅) = P (A11 ∩ A12 ) .
P (A11 ) · P (A12 ) =
100 100
10
P (A4 ) · P (A5 )
=
Nur A4 und A5 sind unabhängig.
Beispiel 5.2:
Für die n Kinder einer Familie gibt es 2n denkbare Geschlechtsausprägungen. Diese betrachten
wir als gleichwahrscheinlich. Sind die Ereignisse
A:
beide Geschlechter sind vertreten“
”
und B:
es gibt höchstens ein Mädchen“
”
unabhängig?
AC enthält 2 Elemente (alles Mädchen oder alles Jungen), d.h. P (A) = 1 − P (AC ) = 1 −
2
2n
.
Für B gibt es folgende n + 1 Fälle: Kein Mädchen oder das i–te Kind, i ∈ {1, . . . , n}, ist ein
.
Mädchen und der Rest Jungen. Also gilt P (B) = n+1
2n
60
5 UNABHÄNGIGKEIT UND PRODUKTRÄUME
A ∩ B bedeutet, dass es genau ein Mädchen gibt. Also ist analog P (A ∩ B) = 2nn .
, also 2n = 2(n + 1) .
A und B sind genau dann unabhängig, wenn gilt 2nn = 1 − 22n · n+1
2n
Dies gilt nur für n = 3, d.h. nur in diesem Fall sind A und B unabhängig.
61
5.1 Unabhängigkeit
(a) Sie zielen auf verschiedene Hasen. Wie groß ist die Wahrscheinlichkeit dafür,
(i) dass beide Hasen getroffen werden,
(ii) dass genau ein Hase getroffen wird,
(iii) dass mindestens ein Hase getroffen wird?
Satz 5.1:
Wenn A und B unabhängig sind, dann sind auch folgende Ereignisse unabhängig:
(a) A und B C ,
(b) AC und B,
(c) AC und B C .
Beweis:
(c) P (AC ∩ B C ) = P (A ∪ B)C = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B)
= 1 − P (A) − P (B) + P (A) · P (B) = 1 − P (A) 1 − P (B)
= P (AC ) P (B C )
(a) und (b) lassen sich ähnlich begründen. 2
Aufgabe 5.2:
Sind P (A) 6= 0 und P (B) 6= 0, so ist P (B/A) = P (B) äquivalent zu P (A/B) = P (A).
Aufgabe 5.3:
Zwei Jäger geben unabhängig voneinander je einen Schuss auf denselben Hasen ab. Ihre Trefferwahrscheinlichkeiten seien 14 und 31 . Mit welcher Wahrscheinlichkeit wird der Hase getroffen?
Man konstruiere einen passenden Stichprobenraum Ω und gebe die Ereignisse der erste Jäger
”
trifft“ und der zweite Jäger trifft“ an.
”
Aufgabe 5.4:
Bei einem alten Ehepaar sei die Wahrscheinlichkeit nach 10 Jahren noch zu leben für den Mann
1
und für die Frau 14 . Das Überleben des Mannes und der Frau seien dabei unabhängig. Wie
5
groß ist die Wahrscheinlichkeit dafür, dass nach 10 Jahren
(a) noch beide leben,
(b) Wie groß ist die Trefferwahrscheinlichkeit, wenn beide Jäger ihren Schuss auf denselben
Hasen abgeben?
Definition 5.2: (Unabhängigkeit von n Ereignissen)
Die Ereignisse A1 , . . . , An heißen unabhängig, wenn für jede Auswahl Ai1 , . . . , Air von Ereignissen gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Air ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Air ) .
Bemerkung 5.1:
Drei oder mehr Ereignisse heißen paarweise unabhängig, wenn je zwei der Ereignisse unabhängig sind. Wie das folgende Beispiel zeigt können Ereignisse paarweise unabhängig sein,
ohne unabhängig zu sein.
Beispiel 5.3:
Ein grüner und ein roter Würfel werden geworfen. Wir betrachten die Ereignisse
A1 :
der grüne Würfel zeigt 6“,
A2 : der rote Würfel zeigt 6“,
”
”
A3 : die Summe der Augen beider Würfel ist ungerade“.
”
(a) Die drei Ereignisse sind paarweise unabhängig:
1
1 1
P (A1 ∩ A2 ) = P {(6/6)} =
= · = P (A1 ) · P (A2 )
36
6 6
3
1
1 18
P (A2 ∩ A3 ) = P {(1/6), (3/6), (5/6)} =
=
= ·
= P (A2 ) · P (A3 )
36
12
6 36
1
1 18
P (A1 ∩ A3 ) =
= ·
= P (A1 ) · P (A3 )
12
6 36
(b) höchstens noch einer lebt,
(c) keiner mehr lebt,
(d) nur noch die Frau lebt,
(e) nur noch der Mann lebt?
(b) Die drei Ereignisse sind nicht unabhängig:
P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0 6=
1 1 1
1
= · · = P (A1 ) · P (A2 ) · P (A3 ) .
72
6 6 2
Aufgabe 5.5:
Aufgabe 5.6:
Zwei Jäger mit der Trefferwahrscheinlichkeit p1 bzw. p2 geben unabhängig voneinander einen
Schuß auf einen Hasen ab.
Wieviele Rosinen muss man mindestens in 500 g Teig tun, damit ein 50 g–Brötchen mit 99 %iger
Wahrscheinlichkeit mindestens eine Rosine enthält?
62
5 UNABHÄNGIGKEIT UND PRODUKTRÄUME
Aufgabe 5.7:
Ölbohrungen sind sehr teuer; auf eine fündige Bohrung entfallen 10 nichtfündige. Wieviele
Bohrungen muss man niederbringen, um mit mindestens 50 %iger Sicherheit fündig zu werden?
Satz 5.2:
Sind die Ereignisse A1 , A2 , . . ., An unabhängig, so erhält man wiederum n unabhängige
Ereignisse, wenn man eine beliebige Anzahl von ihnen durch ihre Komplemente ersetzt.
Das sind gerade die in Beispiel 3.3 angegebenen Wahrscheinlichkeiten. Man beachte, dass dort
ein anderer Stichprobenraum verwendet wurde!
Aufgabe 5.9:
Drei Spieler A, B, C werfen in dieser Reihenfolge eine ideale Münze und fahren hiermit zyklisch
fort, bis zum ersten Mal Kopf“ fällt. Der Spieler, der als erstes Kopf“ wirft, hat gewonnen.
”
”
Welches sind die Gewinnwahrscheinlichkeiten der drei Spieler?
5.2
Beweis:
Wir zeigen zunächst, dass man im Sinne des Satzes A1 durch
AC
1
ersetzen kann.
Sei {Ai2 , Ai3 , . . ., Aik } mit ij 6= 1, eine Teilmenge der gegebenen Ereignisse. Wegen
C
P (Ai2 ∩. . .∩Aik ) = P ((A1 ∪AC
1 )∩Ai2 ∩. . .∩Aik ) = P (A1 ∩Ai2 ∩. . .∩Aik )+P (A1 ∩Ai2 ∩. . .∩Aik )
erhält man aus der Unabhängigkeit der Ereignisse
P (AC
1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai2 ∩ . . . ∩ Aik ) − P (A1 ∩ Ai2 ∩ . . . ∩ Aik )
= P (Ai2 ) · . . . · P (Aik ) − P (A1 ) · P (Ai2 ) · . . . · P (Aik )
= (1 − P (A1 )) · P (Ai2 ) · . . . · P (Aik )
= P (AC
1 ) · P (Ai2 ) · . . . · P (Aik )
Wie A1 lässt sich auch jedes andere Ereignis Aj durch sein Komplement ersetzen.
Sind schon m Ereignisse ersetzt, kann man mit der gleichen Argumentation ein (m + 1)–tes
ersetzen (Induktion). 2
Aufgabe 5.8:
n
Eine Münze werde n–mal geworfen, wobei alle 2 möglichen Elementereignisse gleichwahrscheinlich seien.
Sei Ak das Ereignis, dass im k–ten Wurf Zahl“ fällt. Sind die Ak unabhängig?
”
Beispiel 5.4:
Der Unabhängigkeitsbegriff wurde schon bei der Angabe eines Modells für das Werfen einer
Münze bis zum Erscheinen von Kopf“ genannt (vgl. Beispiel 3.3).
”
Wenn man Kopf“ mit K und Zahl“ mit Z abkürzt, so enthält der Stichprobenraum Ω als
”
”
Ergebnisse die Tupel K, ZK, ZZK, ZZZK, usw.
Es sei p die Wahrscheinlichkeit für Kopf“ und q = 1 − p die Wahrscheinlichkeit für Zahl“
”
”
in einem Wurf. Weiterhin sei Aj das Ereignis, dass im j-ten Wurf Zahl“ fällt. Werden die
”
einzelnen Würfe unabhängig voneinander ausgeführt, so gilt
C
n−1
p.
P ({Z
. ZK}}) = P (A1 ∩ . . . ∩ An−1 ∩ AC
n ) = P (A1 ) · . . . · P (An−1 ) · P (An ) = q
| . .{z
n Zeichen
63
5.2 Produkträume
Produkträume
Unabhängige Zufallsexperimente sind ein Spezialfall mehrstufiger Zufallsexperimente.
Sie lassen sich durch Stichprobenräume beschreiben, die als kartesische Produkte anderer Stichprobenräume darstellbar sind. Wir geben an, wie Wahrscheinlichkeiten auf solchen Produkt”
räumen“ erklärt werden.
Satz 5.3:
Gegeben seien endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n}.
n
Setzt man im Stichprobenraum Ω := × Ωj für Elementarereignisse mit ω = (ω 1 , . . . , ω n ) ∈ Ω
j=1
P
P ({ω}), dann
P ({ω}) := P1 ({ω 1 }) · . . . · Pn ({ω n }) und für beliebige Ereignisse P (A) :=
ω∈A
!
n
n
× Ωj , P × Ωj , P ein diskreter Wahrscheinlichkeitsraum
ist
j=1
j=1
Beweis:
Offensichtlich ist Ω als endliche Vereinigung abzählbarer Mengen abzählbar. Die für die Elementarereignisse festgesetzten Wahrscheinlichkeiten sind als Produkt von Wahrscheinlichkeiten
nicht-negativ. Nach Satz 3.1 ist also nur zu zeigen, dass sich die Wahrscheinlichkeiten der Elementarereignisse zu 1 aufsummieren. Man erhält
X
X
P ({ω}) =
(ω 1 ,...,ω n )∈Ω
ω∈Ω
=
X
ω 1 ∈Ω1
P1 ({ω 1 }) · . . . · Pn ({ω n }) =
P1 ({ω 1 }) · . . . ·
X
ω n ∈Ωn
X
ω 1 ∈Ω1
···
X
ω n ∈Ωn
P1 ({ω 1 }) · . . . · Pn ({ω n })
Pn ({ω n }) = 1 · . . . · 1 = 1. 2
Definition 5.3: (Produktwahrscheinlichkeitsraum)
Für endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n} heißt
!
n
n
× Ωj , P × Ωj , P mit P aus Satz 5.3 Produktwahrscheinlichkeitsraum.
j=1
j=1
64
5 UNABHÄNGIGKEIT UND PRODUKTRÄUME
Für k = 1 ergibt sich gerade P (Bi ) = Pi (Ai ). Einsetzen liefert schließlich
Satz 5.4:
Für i ∈ {1, . . . , n} seien Ci ⊂ Ωi Ereignisse. Dann gilt in dem laut Definition 5.3 definierten
Produktwahrscheinlichkeitsraum
P (C1 × · · · × Cn ) = P1 (C1 ) · . . . · Pn (Cn ).
Beweis:
n
× Ci )
P
i=1
65
5.2 Produkträume
(K3 )
=
X
P ({(ω 1 , . . . , ω n )}) =
(ω 1 ,...,ω n )∈C1 ×...×Cn
=
X
ω 1 ∈C
1
P1 ({ω 1 }) · . . . ·
X
ω n ∈Cn
X
ω 1 ∈C1 ,...,ω n ∈Cn
Pn ({ω n })
P1 ({ω 1 }) · . . . · Pn ({ω n })
(K3 )
= P1 (C1 ) · . . . · Pn (Cn ) . 2
P (Bj1 ∩ . . . ∩ Bjk ) = P (Bj1 ) · . . . · P (Bjk ) . 2
Bemerkung 5.2:
Mit einem Produktraum beschreibt man Zufallsexperimente aus n unabhängigen Versuchen.
Diese Situation wurde von bereits in Abschnitt 1.3 unter dem Stichwort mehrstufige Zufallsexperimente betrachtet. Dort legten wir jedoch speziell den klassischen Wahrscheinlichkeitsbegriff zugrunde.
Ist Ω1 = . . . = Ωn , also der Wahrscheinlichkeitsraum gleich (Ω1 )n , P (Ω1 )n , P , so spricht
man von einem Zufallsexperiment aus n unabhängigen Wiederholungen eines Versuchs.
Beispiel 5.6:
Jungen– und Mädchengeburten sind nur annähernd gleichverteilt; die Wahrscheinlichkeit für
die Geburt eines Jungen ist p = 0, 514.
Beispiel 5.5:
Es ist klar, dass das Werfen einer Primzahl mit einem Würfel und das Erzielen einer durch 7
teilbaren Zahl mit der Kugel beim Roulettespiel als unabhängige Ereignisse A1 = {2, 3, 5} und
A2 = {0, 7, 14, 21, 28, 35} anzusehen sind. Die Gleichung P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ergibt
aber keinen Sinn. Das Ereignis A1 ∩ A2 ist noch nicht einmal erklärt, denn A1 und A2 liegen
in verschiedenen Wahrscheinlichkeitsräumen.
Um die Unabhängigkeit sinnvoll formulieren zu können, verwenden wir den übergeordneten
Raum Ω1 × Ω2 . Es ist A1 ⊂ Ω1 = {1, . . . , 6} und A2 ⊂ Ω2 = {0, . . . , 36}. Wir betrachten
A1 × Ω2 und Ω1 × A2 als Ereignisse des Produktstichprobenraums Ω1 × Ω2 . Im zugehörigen
Produktwahrscheinlichkeitsraum sind diese Ereignisse dann unabhängig.
Eine Verallgemeinerung der angegebenen Konstruktion enthält der folgende Satz.
Satz 5.5:
Für i ∈ {1, . . . , n} seien Ai ⊂ Ωi Ereignisse. Die Ereignisse Bi = Ω1 × . . . × Ai × . . . × Ωn des
n
Produktwahrscheinlichkeitsraums werden dadurch gebildet, dass man in
× Ωj genau eine
j=1
Menge Ωi durch Ai ersetzt. Dann gilt
(1) Bi und Ai haben dieselben Wahrscheinlichkeiten, d.h. P (Bi ) = Pi (Ai ) und
(2) die Bi sind unabhängig.
Welche Wahrscheinlichkeiten haben die möglichen Geschlechtskombinationen in einer Familie
mit zwei Kindern, wenn das Geschlecht des zweiten Kindes von dem des ersten unabhängig ist?
Sei Ω1 = {J, M } mit P1 ({J}) = p. In Ω = Ω1 × Ω1 gilt mit q = 1 − p
P ({(J, J)})
= p2 =
0, 5142
≈ 0, 264
2
P ({(M, M )}) = q =
(1 − 0, 514)2
≈ 0, 236
P ({(J, M )}) = pq = 0, 514 · (1 − 0, 514) ≈ 0, 250 = P ({M, J}) .
Das Beispiel lässt sich verallgemeinern.
Beispiel 5.7:
Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse: Erfolg und Misserfolg, bezeichnet
durch 1 und 0. Die zugehörigen Wahrscheinlichkeiten seien
P1 ({1}) = p
und
P1 ({0}) = 1 − p = q .
Das Experiment werde n–mal wiederholt, wobei die Wiederholungen unabhängig sein sollen.
Man spricht von einem Bernoullischen Versuchsschema.
Jedem Versuch gibt man den Stichprobenraum Ω1 = {0, 1} mit den oben angegebenen Wahrscheinlichkeiten. Den n–fach wiederholten Versuch beschreibt der Produktraum
e = Ω1 × . . . × Ω 1 = Ω 1 n .
Ω
Oft interessiert man sich für die Wahrscheinlichkeit, in n Versuchen genau k Erfolge zu erzielen,
d.h. in dem n–Tupel genau k–mal die 1 anzutreffen.
Beweis:
Wir wenden Satz 5.4 auf eine Auswahl Bj1 , . . . , Bjk der Ereignisse B1 , . . . , Bn an:
P (Bj1 ∩ Bj2 ∩ . . . ∩ Bjk ) = P (Ω1 × . . . × Aj1 × . . . × Ajk × . . . × Ωn )
= P1 (Ω1 ) · . . . · Pj1 (Aj1 ) · . . . · Pjk (Ajk ) · . . . · Pn (Ωn )
= Pj1 (Aj1 ) · . . . · Pjk (Ajk ) .
Ein Elementarereignis bestehend aus einem derartigen Tupel hat wegen der Unabhängigkeit
die Wahrscheinlichkeit pk · q n−k . Dabei ist die Reihenfolge der Einsen und Nullen innerhalb des
Tupels belanglos, da stets k–mal der Faktor p und (n − k)–mal der Faktor q auftritt.
Nun gibt es nk verschiedene n–Tupel aus k Einsen und n − k Nullen (vgl. Satz 2.8 (a)).
Deshalb ist die gesuchte Wahrscheinlichkeit
n k n−k
p q
, k ∈ {0, 1, . . . , n}.
bn,p (k) := pk =
k
66
67
5 UNABHÄNGIGKEIT UND PRODUKTRÄUME
Die hierdurch auf Ω = {0, 1, . . . , n} definierte Funktion bn,p heißt Binomialverteilung. Sie
wird in Kapitel 7 eingehend betrachtet.
Das angegebene Modell eignet sich zur Lösung des Problems des Chevalier de Méré (S. 5f):
Beispiel 5.8:
6
Diskrete Zufallsgrößen
Vielfach interessieren bei gewissen Untersuchungen nicht die Objekte des Stichprobenraumes
Ω, sondern diesen zugeordnete Zahlenwerte.
Beispiel 6.1:
Wie groß ist die Wahrscheinlichkeit,
Die Kuchenbrötchen einer Backserie sollen eine gewisse Mindestzahl von Rosinen enthalten. Zu
Untersuchungszwecken definiert deshalb der Mathematiker auf der Menge der Brötchen eine
Funktion X, die jedem Brötchen die Anzahl der in ihm enthaltenen Rosinen zuordnet.
(a) bei 4 Würfen mit einemWürfel mindestens eine Sechs zu werfen;
(b) bei 24 Würfen mit zwei Würfeln mindestens eine Doppelsechs zu werfen?
zu (a): Wir verwenden die Binomialverteilung mit n = 4 und der Erfolgswahrscheinlichkeit
p = 16 , mit einem Wurf eine 6 zu werfen. pi sei die Wahrscheinlichkeit des Ereignisses Ai ,
mit n = 4 Würfen genau i Sechsen zu erzielen. Dann ist die gesuchte Wahrscheinlichkeit
α=P
4
S
i=1
4
4
4
P
P
P
Ai =
P (Ai ) =
pi =
i=1
i=1
i=1
4
i
1 i
6
5 4−i
6
6.1
Zufallsgrößen und Wahrscheinlichkeitsfunktionen
.
Definition 6.1: (Zufallsgröße)
Man erhält sie einfacher über das Gegenereignis:
4 1 0 5 4
625
671
1
α = 1 − p0 = 1 −
=1−
=
≈ 0, 5177 > .
0 6
6
1296
1296
2
zu (b): Entsprechend erhält man hier mit n = 24 und der Erfolgswahrscheinlichkeit p =
Doppelsechs zu werfen
35 24
1
1 0 35 24
24
=1−
≈ 0, 4914 < .
β = 1 − p0 = 1 −
36
36
36
2
0
5.3
Wir wollen im folgenden nun solche Funktionen von einem Stichprobenraum Ω in die Menge R
der reellen Zahlen genauer untersuchen.
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, E, P ). Eine Abbildung
X:Ω→R
1
36
eine
Vermischte Aufgaben
Aufgabe 5.10:
24 % der männlichen und 10 % der weiblichen Bewerber an einer Hochschule möchten einen
Studienplatz der Ingenieurwissenschaften. 40 % der Bewerber seien Frauen. Wie groß ist die
Wahrscheinlichkeit dafür, dass ein per Zufall vergebener Studienplatz der Ingenieurwissenschaften an eine Frau fällt?
heißt Zufallsgrösse oder Zufallsvariable, wenn das Urbild jeder reellen Zahl und jedes
reellen Intervalls zur Ereignisalgebra E gehört.
Da sich die Brötchenserie für eine einführende Betrachtung nicht gut eignet, gehen wir zu einem
einfacheren Beispiel über.
Beispiel 6.2:
Bei einem Spiel werden zwei (echte) Würfel geworfen, und das Doppelte der Summe der Augen
wird als Gewinn ausgeschüttet.
Auf Ω = {(i, j) | i, j ∈ {1, 2, . . . , 6}} definieren wir die Zufallsgröße
X:Ω→R,
(i, j) 7→ 2(i + j) ,
Aufgabe 5.11:
wobei E = P(Ω) gewählt wird.
Drei Würfel werden wiederholt geworfen. Das Spiel endet, wenn zum 2. Mal die Summe der
Augen größer als 15 ist. Mit welchen Wahrscheinlichkeiten endet es nach 1, 2, 3, . . . Würfen?
Man macht sich in diesem Falle leicht klar, dass die Urbilder reeller Zahlen und reeller Intervalle
zu E gehören, wie das in Definition 6.1 gefordert wird.
Aufgabe 5.12:
Aufgabe 6.1:
Wir werfen wiederholt drei Münzen und hören auf, wenn 2 Münzen Zahl“ und eine Kopf“
”
”
zeigen.
X −1 (M ) sei das Urbild von M bzgl. X aus Beispiel 6.2. Man bestimme
Konstruieren Sie geeignet einen Stichprobenraum Ω und eine Ereignisalgebra E und geben Sie
eine sinnvolle Wahrscheinlichkeitsbelegung p : E → R an.
X −1 ({8}), X −1 ({10, 14}), X −1 ({0, 4, 6}), X −1 (∅), X −1 ([20, 30[), X −1 (R), X −1 (R− ) .
68
6 DISKRETE ZUFALLSGRÖSSEN
69
6.1 Zufallsgrößen und Wahrscheinlichkeitsfunktionen
p(x)
Da laut Definition 6.1 die Urbilder von Zahlen und Intervallen Ereignisse sind, kann jeder Zahl
und jedem Intervall die Wahrscheinlichkeit zugeordnet werden, mit der X auf diese Zahl bzw.
in dieses Intervall abgebildet wird. Wir betrachten zunächst die Urbilder von Zahlen.
6/36
5/36
Für eine Zufallsgröße X : Ω → R ist X −1 ({x}) = {ω ∈ Ω | X(ω) = x} für jedes x ∈ R
ein Ereignis, dem die Wahrscheinlichkeitsbelegung P eine Wahrscheinlichkeit zuordnet. Damit gehört zu jedem x ∈ R eine Wahrscheinlichkeit. Diese Zuordnung ist allerdings nur für
diskrete Zufallsgrößen sinnvoll.
4/36
3/36
2/36
Definition 6.2: (diskrete Zufallsgröße)
1/36
Eine Zufallsgrösse X heißt diskret, wenn sie nur abzählbar viele Werte annimmt.
4
8
Jede auf einem diskreten Stichprobenraum definierte Zufallsgröße ist demnach diskret.
12
20
16
24
x
Abb. 6.1
Definition 6.3: (Wahrscheinlichkeitsverteilung diskreter Zufallsgrößen)
Satz 6.1:
Die Funktion
X sei eine diskrete Zufallsgröße, welche die paarweise verschiedenen Werte x1 , x2 , x3 , . . . (und
nur diese) annehme. Dann gilt für die Wahrscheinlichkeitsfunktion p von X
X
p(xj ) = 1 .
p : R → [0, 1]
mit
p(x) := P (X = x) := P ({ω ∈ Ω | X(ω) = x})
heißt Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsverteilung oder
auch kurz Verteilung der diskreten Zufallsgröße X.
j
Beweis:
Beispiel 6.3:
Wir zeigen an unserem Würfelbeispiels 6.2 die Entstehung einer Wahrscheinlichkeitsverteilung.
Für i 6= k ist xi 6= xk und deshalb {ω ∈ Ω | X(ω) = S
xi } ∩ {ω ∈ Ω | X(ω) = xk } = ∅.
Andererseits wird jedes ω ∈ Ω auf ein xj abgebildet, d.h. {ω | X(ω) = xj } = Ω, und daraus
j
x = X((i, j))
4
6
8
10
...
X −1 ({x})
{(1, 1)}
{(1, 2), (2, 1)}
{(1, 3), (2, 2), (3, 1)}
{(1, 4), (2, 3), (3, 2), (4, 1)}
...
p(x) = P (X = x)
1
36
2
36
3
36
4
36
...
Bilder der Zufallsgröße
zugehörige Urbilder
Wahrscheinlichkeitsverteilung auf R
`
´
= P X −1 ({x})
j
Man beachte, dass die Wahrscheinlichkeitsverteilung aus Wahrscheinlichkeiten von Urbildmengen besteht. Für alle x ∈ R, die nicht als Bilder unter X auftreten, ist die Menge der Urbilder
leer und deshalb p(x) = 0.
Die vollständige Wahrscheinlichkeitsfunktion bei unserem Würfelbeispiel lautet
p : R → [0, 1] ,

x

 6 − | 2 − 7| für x ∈ {4, 6, 8, . . . , 22, 24} ,
36
p(x) =


0
sonst .
Abb. 6.1 zeigt den Graphen.
folgt nach den Axiomen K1 und K3
X
X
P (X = xj ) = P (Ω) = 1 . 2
p(xj ) =
j
Beispiel 6.4: (Geometrische Verteilung)
Wirft man eine Münze so lange bis Kopf“ fällt, kann man Ω = {K, ZK, ZZK, ZZZK, . . . }
”
setzen (vgl. auch Beispiel 5.4). Um zu notieren, wie lange man jeweils braucht, kann man
jedem Ergebnis die Anzahl der Würfe bis zum Erfolg zuordnen:
X:Ω→R
mit
X(ZZ
. . ZK}) = x .
| .{z
x Zeichen
Tritt das Ereignis Kopf“ bei einem Wurf mit der Erfolgswahrscheinlichkeit p ein (0 < p < 1)
”
und ist die Gegenwahrscheinlichkeit q = 1 − p, so erhält man nach Beispiel 5.4 als Wahrscheinlichkeitsfunktion der Zufallsgröße X die geometrische Verteilung:
( x−1
q p für x ∈ N ,
p : R → [0, 1] , p(x) = P (X = x) =
0
sonst .
70
6 DISKRETE ZUFALLSGRÖSSEN
Aufgabe 6.2:
Bei einer Lotterie befinden sich in einer verdeckten Urne 4 weiße und 6 schwarze Kugeln gleicher
Konsistenz. 4 Kugeln werden gleichzeitig entnommen. Man erhält bei
4
3
2
Kugeln gleicher Farbe
Kugeln gleicher Farbe
Kugeln gleicher Farbe
71
6.2 Erwartungswert, Varianz und Streuung
In der folgenden Definition wird diese Idee noch verallgemeinert: Es wird angegeben, wie nicht
nur der Erwartungswert der Zufallsgröße X selbst, sondern auch der Erwartungswert einer auf
X definierten Funktion g zu berechnen ist.
Definition 6.4: (Erwartungswert diskreter Zufallsgrößen)
13 Gewinnpunkte,
11 Gewinnpunkte,
2 Gewinnpunkte.
Finden Sie eine passende Zufallsgröße X und die zugehörige Wahrscheinlichkeitsfunktion p.
X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , x3 , . . . , und p sei die zugehörige Wahrscheinlichkeitsfunktion. Dann heißt
P
µ = E(X) =
xi p(xi ).
i
6.2
Erwartungswert oder Mittelwert von X, falls
Erwartungswert, Varianz und Streuung
i
Viele Prozesse unseres Lebens beschäftigen sich mit Gewinn und Verlust (Industrieproduktion,
landwirtschaftliche Produktion, Verkehrswesen, Theaterveranstaltungen, Spielbank).
Im Beispiel 6.2 werden beim Würfelspiel 2(i + j) Punkte pro Wurf an den würfelnden Spieler
ausgeschüttet“ (1 ≤ i, j ≤ 6). Wird jeder Punkt durch die Bank“ mit einem gewissen
”
”
Geldbetrag belohnt, so muss der Bankhalter die durchschnittliche Anzahl der erzielten Punkte
kennen, um die Spieleinsätze entsprechend festsetzen zu können.
Die 36 Würfelergebnisse (i, j) sind gleichwahrscheinlich. Man kann daher, um den Durchschnittswert zu ermitteln, so tun, als ob unter 36 Würfen jedes Ergebnis genau einmal vorkommt. Das bedeutet, bei 36 Würfen werden an den Spieler durchschnittlich
1–mal
2–mal
4
6
Punkte
Punkte
..
.
6–mal 14 Punkte
..
.
1–mal 24 Punkte
= 2 · (1 + 1)
= 2 · (1 + 2) = 2 · (2 + 1)
= 2 · (1 + 6) = · . . . · = 2 · (6 + 1)
4·
+ 6·
+ 16
+ 8·
+ 18
+ 10 ·
+ 20 ·
4
36
3
36
+ 12 ·
+ 22 ·
5
36
2
36
+ 14 ·
+ 24 ·
6
36
1
36
i
Erwartungswert von g(X), sofern
P
i
|g(xi )| p(xi ) existiert (konvergiert).
Ist speziell g(x) = xk , k ∈ N, so spricht man vom Moment k–ter Ordnung von X und
schreibt µk := E(X k ).
Bemerkung 6.1:
X sei eine diskrete Zufallsgröße auf einem Stichprobenraum Ω und g : X(Ω) → R eine Funktion.
Beweisen Sie, dass die Verkettung Y = g ◦ X eine Zufallsgröße ist.
Punkte. Der Durchschnittswurf erbringt demnach
3
36
4
· 36
Ist g eine auf {x1 , x2 , . . . } definierte Funktion, dann heißt die Zahl
P
E g(X) :=
g(xi )p(xi )
Aufgabe 6.3:
= 2 · (6 + 6)
1 · 4 + 2 · 6 + 3 · 8 + 4 · 10 + 5 · 12 + 6 · 14 + 5 · 16 + 4 · 18 + 3 · 20 + 2 · 22 + 1 · 24 = 504
2
36
5
· 36
|xi | p(xi ) exisitiert (konvergiert).
Die Voraussetzung der absoluten Konvergenz
ist erforderlich, da sie beliebige Umordnungen
der Reihe erlaubt und somit E g(X) nicht von der Reihenfolge abhängt, in der die Zahlen
g(xi )p(xi ) addiert werden.
ausgeschüttet (man vergleiche hierzu Beispiel 6.3 und Abbildung 6.1). Insgesamt sind das
1
36
P
Der in Definition 6.4 erklärte Erwartungswert von g(X) ist daher der Erwartungswert der
Zufallsgröße Y . Untersuchen Sie, ob die Existenz von E(X) die von E(Y ) = E(g(X)) impliziert.
Beispiel 6.5:
Max besitzt 108 Euro, Moritz 106 Euro. Max schlägt vor, eine Münze zu werfen. Fällt Kopf,
verliert Moritz 106 Euro, fällt Zahl, gewinnt er 107 Euro.
=
504
36
= 14
Punkte. Will die Bank auf lange Sicht keine Verluste machen, muss sie mindestens ein Äquivalent zu 14 Punkten pro Wurf als Einsatz fordern.
Ein Vergleich mit der Abb. 6.1 zeigt, wie sich die 14 Punkte ergeben: man multipliziert die
möglichen Punktzahlen mit ihren Wahrscheinlichkeiten, addiert diese Produkte und erhält so
den zu erwartenden Gewinn“ oder kurz den Erwartungswert des Gewinns“.
”
”
Moritz hat eine Gewinnerwartung von E(X) = −106 Euro · 21 + 107 Euro · 12 = 4, 5 · 106
Euro. Das Spiel ist für Moritz sehr günstig. Dennoch sollte er es ablehnen, da er mit der
Wahrscheinlichkeit 21 ruiniert wird.
Gibt X die möglichen Gewinne bei einem Glücksspiel an, so nennt man das Spiel
günstig, wenn E(X) > 0,
fair, wenn E(X) = 0,
ungünstig, wenn E(X) < 0
72
6 DISKRETE ZUFALLSGRÖSSEN
ist. Wie das obige Beispiel zeigt, ist es nicht immer klug, jedes günstige Spiel zu spielen. Die
Sicherung einer guten Existenz ist unter Umständen ruinösem Gewinnstreben vorzuziehen.
Beispiel 6.6:
Das folgende Problem entstand im 2. Weltkrieg in den USA, als Millionen von Rekruten in
kurzer Zeit ärztlich untersucht werden mussten.
Der Anteil q einer Bevölkerung habe eine Krankheit, die durch Blutuntersuchung festgestellt
werden kann. Der Anteil p = 1 − q hat die entsprechenden Merkmale nicht im Blut. Wir
vergleichen zwei Untersuchungsverfahren:
1. Einzelprüfung: Jeder wird einzeln untersucht, und man braucht einen Test pro Person.
2. Gruppenprüfung: Das Blut von k Personen wird vermischt und untersucht.
Bei der Gruppenprüfung sind mit der Wahrscheinlichkeit pk alle gesund, und man braucht nur
diesen einen Test. Mit der Wahrscheinlichkeit 1 − pk ist mindestens einer krank. In diesem
Falle wird jeder der Gruppe einzeln untersucht, und man braucht insgesamt k + 1 Tests.
Gibt Xk die Anzahl der notwendigen Blutanalysen pro Gruppe von k Personen an, so ist
E(Xk ) = 1 · pk + (k + 1) (1 − pk ) = k + 1 − kpk .
Pro Person braucht man also durchschnittlich 1+ k1 −pk Analysen. Die Einsparung im Vergleich
zur Einzelprüfung ist daher
pk −
1
.
k
Für welches k ist die Ersparnis maximal? Das hängt von p ab. Zunächst muss
1
p >
k
k
oder
1
p> √
k
k
sein, damit überhaupt etwas eingespart werden kann.
1
√
k
k
hat für k = 3 das Minimum 0, 693. Daher muss p > 0, 693 sein. Für solche p ist
p3 −
1
1
> p2 − .
3
2
Eine Zweiergruppe ist daher nie optimal.
Für 0, 693 < p < 0, 876 ist die optimale Gruppengröße kopt = 3.
Es sei z.B. p = 0, 9. Dann zeigt die folgende Tabelle den optimalen Fall kopt = 4 mit einer
Ersparnis von fast 41%:
k
(0, 9)k −
1
k
2
3
4
5
0, 31 0, 396 0, 406 0, 390
Entsprechend ergibt sich die Übersichtstabelle:
73
6.2 Erwartungswert, Varianz und Streuung
p
0, 7
0, 8
0, 85
0, 90
0, 91
0, 92
0, 93
0, 94
0, 95
0, 96
0, 97
0, 98
kopt
3
3
3
4
4
4
4
5
5
6
6
8
0, 99
11
Ersparnis in %
15
18
28
41
44
47
50
53
57
62
67
73
80
Wenn 1% der Bevölkerung krank ist (p = 0, 99), dann spart man 80%, wenn man Elfergruppen
bildet. Das war die Ersparnis bei den US–Rekruten, die auf Syphilis getestet wurden.
Beispiel 6.7:
Bei gesunden Menschen beträgt der Blutdruck etwa 120 (mm Hg). Eine Arzneimittelfirma lässt
zwei Medikamente A und B zur Regulierung des Bluthochdruckes über 180 (mm Hg) klinisch
testen. Gleiche Dosen reduzieren die Werte auf die in den folgenden Tabellen unter xA und xB
angegebenen Ergebnisse.
Bei beiden Medikamenten entspricht der Erwartungswert dem Normalwert. Ist trotzdem ein
Mittel vorzuziehen?
xA p(xA ) xA p(xA ) xA − µA
105 0, 02
2, 10
−15
110
115
120
125
130
135
0, 08
0, 15
0, 46
0, 23
0, 04
0, 02
µA = E(XA ) = 120, 00
8, 80
17, 25
55, 20
28, 75
5, 20
2, 70
−10
−5
0
5
10
15
(xA − µA )2 p(xA )
4, 50
100
25
0
25
100
225
σA2 = V (XA ) = 30, 5
xB p(xB ) xB p(xB ) xB − µB
105
0, 04
4, 2
−15
110
0, 09
9, 9
−10
115
0, 16
18, 4
−5
120
0, 40
48, 0
0
125
0, 20
25, 0
5
130
0, 07
9, 1
10
135
0, 04
5, 4
15
µB = E(XB ) = 120, 00
(xA − µA )2
225
(xB − µB )2
225
100
25
0
25
100
225
σB2 = V (XB ) = 43
8, 00
3, 75
0, 00
5, 75
4, 00
4, 50
σA =
p
V (XA ) = 5, 5
(xB − µB )2 p(xB )
9
9
4
0
5
7
9
σB =
p
V (XB ) = 6, 6
Um diese Frage zu beantworten, berechnen wir zunächst in Spalte 4 die Abweichungen vom
Mittelwert. Der Erwartungswert dieser Differenzen ist 0 (warum?) und daher kein geeignetes
Maß für die durchschnittliche Abweichung vom Mittelwert. Eine sinnvolle Größe wäre der
Erwartungswert des Betrages dieser Differenz.
74
6 DISKRETE ZUFALLSGRÖSSEN
Man hat sich aber für eine andere Vorgehensweise entschieden und betrachtet die als Varianz
bezeichnete mittlere quadratische Abweichung vom Mittelwert, d.h. den Erwartungswert von
(X − µ)2 . Die Standardabweichung definiert man als Wurzel der Varianz.
Definition 6.5: (Varianz und Streuung)
Es sei X eine diskrete Zufallsgröße, die die Werte x1 , x2 , . . . annimmt. p sei ihre Wahrscheinlichkeitsfunktion und E(X) = µ ihr Erwartungswert.
Dann heißt der Erwartungswert der Funktion g(X) = (X −µ)2 , falls er exisitiert, die Varianz
V (X) der Zufallsgröße X. Man bezeichnet sie auch durch
P
σ 2 := V (X) := E(X − µ)2 = (xi − µ)2 p(xi ) .
i
p
Die Wurzel σ = V (X) aus der Varianz heißt Streuung oder Standardabweichung.
Beide Medikamente besitzen denselben Erwartungswert, das Medikament A wirkt jedoch wegen
der geringeren Streuung zuverlässiger und ist deshalb vorzuziehen.
6.3
Die Verteilungsfunktion
75
6.3 Die Verteilungsfunktion
Satz 6.2:
X : Ω → R sei eine diskrete Zufallsgröße mit paarweise verschiedenen Werten x1 , x2 , . . .
und der Wahrscheinlichkeitsverteilung p : R → [0, 1]. Dann gilt für die Verteilungsfunktion
F : R → [0, 1]
P
F (x) =
p(xi ) .
xi ≤x
Beweis:
Für xi 6= xk gilt {ω | X(ω) = xi } ∩ {ω | X(ω) = xk } = ∅, also
[
X
X
F (x) = P (X ≤ x) = P
{ω | X(ω) = xi } =
P ({ω | X(ω) = xi }) =
p(xi ). 2
xi ≤x
xi ≤x
Beispiel 6.8:
Die Graphen in Abb. 6.2 zeigen für das Medikament B die Wahrscheinlichkeitsverteilung p
und die Verteilungsfunktion F . Die Sprunghöhen von F stimmen mit den von 0 verschiedenen
Werten von p überein.
1,0
p(x)
1,0
0,9
Häufig interessiert man sich für die Wahrscheinlichkeit, mit der die Werte einer Zufallsgröße X
unterhalb (oder oberhalb) einer gewissen Schranke x bleiben.
Wir fragen beispielsweise nach der Wahrscheinlichkeit, mit der im Beispiel 6.7 bei einem mit
den Substanzen A bzw. B behandelten Patienten der Blutdruck höchstens den Normwert von
120 mm Hg erreicht. Aus der Tabelle auf Seite 73 lesen wir (für B) ab:
P (XB ≤ 120) =
P
xB ≤120
0,8
0,6
0,5
0,5
0,4
0,4
0,3
0,2
0,2
0,1
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsgröße. Dann heißt die
durch
mit
0,7
0,6
x
105 110
x 7→ F (x) := P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x})
erklärte Abbildung Verteilungsfunktion der Zufallsgröße X.
F ist wohldefiniert, da nach der Definition einer Zufallsgröße die Menge {ω ∈ Ω | X(ω) ≤ x}
als Urbild des reellen Intervalls ] − ∞, x] ein Ereignis in E darstellt und infolgedessen eine
Wahrscheinlichkeit besitzt.
115 120 125 130 135
0,1
R
Abb. 6.2 a
Definition 6.6: (Verteilungsfunktion)
F : R → [0, 1]
0,8
0,7
Die gesuchte Wahrscheinlichkeit ist also eine Summe von Werten der Wahrscheinlichkeitsfunktion. Wir wollen diese Vorgehensweise verallgemeinern.
F(x)
0,9
0,3
p(xB ) = 0, 04 + 0, 09 + 0, 16 + 0, 40 = 0, 69 .
xi ≤x
x
105 110
115 120 125 130 135
R
Abb. 6.2 b
Satz 6.3:
X : Ω → R sei eine Zufallsgröße und F : R → [0, 1] die zugehörige Verteilungsfunktion. Dann
gilt
P (a < X ≤ b) = P ({ω ∈ Ω | a < X(ω) ≤ b}) = F (b) − F (a) .
Beweis:
Es gilt {ω ∈ Ω | X(ω) ≤ a} ∩ {ω ∈ Ω | a < X(ω) ≤ b} = ∅
und {ω ∈ Ω | X(ω) ≤ a} ∪ {ω ∈ Ω | a < X(ω) ≤ b} = {ω ∈ Ω | X(ω) ≤ b}.
76
6 DISKRETE ZUFALLSGRÖSSEN
Daraus folgt nach (K3 ) die Behauptung, denn P (X ≤ a) + P (a < X ≤ b) = P (X ≤ b). 2
Beweis:
P
j
Satz 6.4:
Weiterhin gilt lim F (x) = 1 und lim F (x) = 0.
x→−∞
Beweis:
Für a ≤ b gilt nach Satz 6.3 F (b) − F (a) = P (a < X ≤ b) ≥ 0, d.h. F wächst monoton.
monoton wächst, folgt lim F (x) = lim F (j) = lim P (Aj ) = P
x→∞
Setzt man Bj = X
−1
j→∞
j=1
j→∞
j→∞
Aufgabe 6.4:
∞
T
j=1
j
j
j
Aj = Ω. Da F
Man kann umgekehrt auch zeigen, dass die Varianz genau dann existiert, wenn E(X) und
E(X 2 ) existieren.
j=1
Aj = P (Ω) = 1.
(] − ∞, −j]), dann gilt offenbar B1 ⊃ B2 ⊃ . . . und
folgt lim F (x) = lim F (−j) = lim P (Bj ) = P
x→−∞
j→∞
∞
S
∞
S
P 2
P
P
xj p(xj ) − 2µ xj p(xj ) + µ2 p(xj )
Bemerkung 6.3:
Zum Beweis der anderen Teile verwenden wir Aufgabe 3.7:
Setzt man Aj = X −1 (] − ∞, j]), dann gilt offenbar A1 ⊂ A2 ⊂ . . . und
(xj − µ)2 p(xj ) =
ist für endlich viele Summanden klar; die Gleichung gilt auch, wenn über unendlich viele j
summiert wird, denn die Existenz der Reihe unmittelbar rechts des Gleichheitszeichens ist
durch die vorausgesetzte Existenz der übrigen Reihen gesichert. Es gilt daher
V (X) = E (X − µ)2 = E(X 2 ) − 2µE(X) + µ2 · 1 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − E 2 (X). 2
Jede Verteilungsfunktion F : R → [0, 1] ist monoton wachsend.
x→∞
77
6.4 Ergänzungen und Aufgaben
Bj = P (∅) = 0. 2
Satz 6.6:
∞
T
j=1
Bj = ∅, woraus
X sei eine diskrete Zufallsgröße mit der Wahrscheinlichkeitsfunktion p : R → [0, 1]. Es existiere
E(X) und V (X). Dann existieren für a, b ∈ R Erwartungswert und Varianz von aX + b, und
es gilt
E(aX + b) = aE(X) + b ;
Man drücke P (a < X) durch F aus.
Beweis:
V (aX + b) = a2 V (X) ;
σaX+b = |a| σX .
Aufgabe. 2
Bemerkung 6.2:
Man beachte: Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung sind dasselbe,
aber nicht zu verwechseln mit der Verteilungsfunktion.
Die Wahrscheinlichkeitsverteilung ist nur für diskrete Zufallsgrößen erklärt. Definition 6.6 für
die Verteilungsfunktion ist dagegen für alle Zufallsgrößen anwendbar. Die beiden letzten Sätze
6.3 und 6.4 sind dann für alle Zufallsgrößen gültig.
6.4
Ergänzungen und Aufgaben
Satz 6.7:
X sei eine diskrete Zufallsgröße
auf Ω und g1 , g2 zwei auf X(Ω) definierte Funktionen, deren
Erwartungswerte E g1 (X) und E g2 (X) existieren.
Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt
E (g1 (X) + g2 (X)) = E g1 (X) + E g2 (X) .
Beweis:
Aufgabe. 2
Satz 6.5:
X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . und p ihre Wahrscheinlichkeitsfunktion.
2
Existieren der Erwartungswert µ = E(X) und die Varianz V (X), so existiert auch E(X ),
und es gilt
V (X) = E(X 2 ) − E 2 (X) = E(X 2 ) − µ2 .
Aufgabe 6.5:
Die Spielbank B von Bad Salzberg beabsichtigt, folgendes Glücksspiel spielen zu lassen:
Ein Reißnagel wird dreimal nacheinander geworfen. Fällt er dabei zweimal nacheinander auf
den Dorn d, so erhält der Spieler S das Sechsfache seines Einsatzes, andernfalls nichts. Die
Bank behält in beiden Fällen den Einsatz.
Sie sind beauftragt, für die Bank ein Gutachten anzufertigen, und lassen den Reißnagel testen.
Als (statistische) Wahrscheinlichkeit für die Dornlage ergibt sich P1 ({d}) = 0, 3. Die Tellerlage
t hat demnach P1 ({t}) = 0, 7.
78
6 DISKRETE ZUFALLSGRÖSSEN
79
6.4 Ergänzungen und Aufgaben
Geben Sie für das Spiel einen geeigneten Stichprobenraum Ω an.
nacheinander ohne Zurücklegen gezogen.
Die Bank will das Spiel mit einem Einsatz von 100 Euro spielen lassen. Konstruieren Sie eine
passende Zufallsgröße X und geben Sie die zugehörige Wahrscheinlichkeitsfunktion an.
Für jede weiße Kugel erhalten Sie 1 Euro, für jede schwarze müssen Sie 1 Euro zahlen. Das
Spiel darf nach jedem Durchgang abgebrochen werden.
Berechnen Sie den Erwartungswert, die Varianz und die Streuung. Ist das Spiel für die Bank
günstig?
Aufgabe: 6.6
Abb. 6.4
Wie oft muss man im Mittel eine ideale Münze werfen, bis Kopf erscheint?
Welches ist die für Sie günstigste Spielstrategie?
Aufgabe 6.7:
In Urne 1 befinden sich drei weiße und zwei schwarze, in Urne 2 je eine weiße und eine schwarze
Kugel (s. Abb. 6.3).
Im Dunkeln wird aus Urne 1 eine Kugel gezogen und in Urne 2 gelegt. Dann wird ebenso
Hinweis: Bestimmen Sie zunächst für jeden möglichen Zwischenstand die Gewinnerwartung
des Spielers für den Fall, dass er weiterspielt.
Aufgabe: 6.11 (Petersburger Paradoxon5 )
Eine Münze wird geworfen, bis Kopf erscheint. Für die Wartezeit X (= Anzahl der Würfe)
erhalte man den Gewinn g(X) = 2X . Berechnen Sie die Gewinnerwartung E(g(X)).
Aufgabe 6.12:
U2
U1
Abb. 6.3
aus Urne 2 eine Kugel gezogen und in Urne 1 gelegt. Nun werden aus Urne 1 drei Kugeln
gleichzeitig herausgegriffen. X gebe die Anzahl der darunter befindlichen weißen Kugeln an.
Eine ideale Münze wird solange geworfen, bis zum ersten Male Kopf erscheint oder bis 9–mal
Zahl erschienen ist. X und g(X) = 2X seien wie oben erklärt.
(a) Berechnen Sie den Erwartungswert E g(X) .
(b) Berechnen Sie den Erwartungswert, wenn 9 durch n ersetzt wird.
Ermitteln Sie die zugehörige Wahrscheinlichkeitsfunktion p(x) = P (X = x) und berechnen Sie
E(X) und V (X).
Aufgabe 6.13:
Aufgabe 6.8:
Eine Münze mit der Erfolgswahrscheinlichkeit p für Kopf“ wir so lange geworfen, bis Kopf“
”
”
zum ersten Male erscheint. X und g(X) seien wie oben erklärt.
Siglinde Kühn glaubt zu wissen, wie sie ihr Bafög verstärken kann. Immer nach Erhalt ihrer
364 Euro geht sie in die Spielbank und setzt 1 Euro auf einfache Chance. Gewinnt sie, hört sie
auf; verliert sie, setzt sie das Dreifache auf einfache Chance usw.
Welche Gewinnerwartung hat sie? Wie stark streuen die Ergebnisse?
(a) Bestimmen Sie E g(X) und V g(X) . Für welche p sind diese Ausdrücke sinnvoll?
(b) Sie spielen das Spiel gegen die Spielbank von Bad Salzberg, welche maximal 2n auszahlt
und für die Wurfanzahlen X > n nichts gibt.
Welche Gewinnerwartung hat man, wenn von den Einsätzen pro Wurf abgesehen wird?
Was ergibt sich speziell für p = 21 ?
Aufgabe 6.9:
In amerikanischen Spielkasinos und auf Rummelplätzen findet sich folgendes Spiel:
Der Spieler setzt auf eine der Zahlen 1, 2, 3, 4, 5, 6. Dann werden drei Würfel geworfen. Erscheint
seine Zahl 1–, 2– oder 3–mal, erhält er das 1–, 2– oder 3–fache seines Einsatzes und dazu den
Einsatz zurück. Andernfalls verliert er den Einsatz.
(c) Wie groß ist die Gewinnerwartung, wenn die Bank für X > n auch 2n auszahlt? Was
ergibt sich nun für p = 21 ?
Berechnen Sie E(X), wenn X den Spielgewinn für 1 Dollar Einsatz angibt.
Aufgabe 6.10:
Eine Urne enthält zwei weiße und drei schwarze Kugeln (s. Abb. 6.4). Die Kugeln werden
5
von Daniel Bernoulli
80
7
81
7 DIE BINOMIALVERTEILUNG
Die Binomialverteilung
x=0
Wiederholt betrachteten wir Bernoulli-Experimente, d.h. Experimente mit nur zwei möglichen Ausgängen: Münzwurf (Zahl oder Kopf), Mensch-ärgere-Dich-nicht-Spiel (6 fällt oder fällt
nicht), Ölbohrung (Erfolg oder Misserfolg), Rosinenbrötchen (mit oder ohne Rosine).
Bezeichnen wir bei jedem Versuch den Erfolg mit 1 und den Misserfolg mit 0, so besteht bei n
Versuchen der Stichprobenraum aus n–tupeln von Nullen und Einsen:
n
Ω = × Ω1 = (Ω1 )n ,
ν=1
ω 7→ X(ω) = x
zählen lässt. X ist dann nach Beispiel 5.7 binomialverteilt, d.h. es gilt P (X = x) = bn,p (x).
Definition 7.1: (Binomialverteilung)
Für n ∈ N und p ∈ [0, 1], q = 1 − p heißt bn,p : R → [0, 1] mit
 
 n px q n−x für x ∈ {0, . . . , n},
x
bn,p (x) =


0
sonst.
für m, n ∈ N0 mit m + n ≥ 1 und 0 ≤ p ≤ 1, q = 1 − p.
n X
2n + 1
(b)
Nach Jacob Bernoulli, der sich als erster genauer mit Serien von Zufallsexperimenten mit
nur zwei mögliche Ergebnissen befasste, heißt die Binomialverteilung auch Bernoulliverteilung.
Aufgabe 7.1:
n
P
Satz 7.1:
Zählt X die Anzahl der Erfolge unter n unabhängig wiederholten Bernoulli-Experimenten
der Erfolgswahrscheinlichkeit p, so ist der Erwartungswert von X
µ = E(X) = np .
Beweis:
n
n
n
X
X
x n x−1 n−x
n x n−x X n x n−x
p q
p q
= np
x
p q
=
x
n x
x
x
x=1
x=1
x=0
x=0
n−1 n X
X
n − 1 x n−1−x
n − 1 x−1 n−x
p q
= np (p + q)n−1 = np . 2
p q
= np
= np
x
x−1
x=0
x=1
E(X) =
Lösen Sie das verallgemeinerte Pacioli–Problem (vgl. S. 6): A trägt einen Wettkampf gegen
B aus, der aus einer Serie von Spielen besteht. In jedem Spiel besitze A die Erfolgswahrscheinlichkeit p. A gewinne genau dann, wenn er m Spiele gewinnt, bevor er n verliert.
Mit welcher Wahrscheinlichkeit siegt A, mit welcher B?
Man beweise die folgenden Identitäten
n
X
x bn,p (x) =
Bei n unabhängig wiederholten Bernoulli-Experimenten der Erfolgswahrscheinlichkeit p ist
die Streuung der Zufallsvariablen X, die die Anzahl der Erfolge zählt
p
√
σ = V (X) = npq mit q = 1 − p .
Beweis:
bn,p (x) = 1 hat.
x=0
Aufgabe 7.3:
= 4n .
Satz 7.2:
Bemerkung 7.1:
Aufgabe 7.2:
x
x=0
Binomialfunktion oder Binomialverteilung.
Zeigen Sie, dass die Binomialfunktion die Eigenschaft
n−1 X
m + n − 1 x m+n−1−x
m + n − 1 x m+n−1−x
q p
= 1
p q
+
x
x
x=0
Die Werte der Binomialfunktion sind für verschiedene n, x und p in Tabellen zusammengefasst.
Eine solche Tabelle findet sich im Anhang ab Seite 224.
Ω1 = {0, 1} .
Dabei habe jeder einzelne Versuch die Erfolgswahrscheinlichkeit p, und die Versuche seien unabhängig. Häufig interessiert die Anzahl x der Erfolge bei n Versuchen, die man durch eine
Zufallsgröße
X:Ω→R,
m−1
X
(a)
Wir verwenden einen gängigen Trick“ und berechnen zunächst
”
n
n
X
X
n x n−x
x(x − 1)
x(x − 1) bn,p (x) =
p q
E X(X − 1) =
x
x=0
x=0
= n(n − 1) p2
= n(n − 1) p2
n n
X
X
n − 2 x−2 n−x
n x−2 n−x
x x−1
p q
p q
= n(n − 1) p2
·
·
x−2
x
n n−1
x=2
x=2
n−2 X
n−2
x=0
x
px q n−2−x = n(n − 1) p2 (p + q)n−2 = n(n − 1) p2 .
82
83
7 DIE BINOMIALVERTEILUNG
Hieraus folgt nach Satz 6.5 und Satz 6.7
σ 2 = V (X) = E(X 2 ) − E 2 (X) = E X(X − 1) + E(X) − E 2 (X)
= n(n − 1)p2 + np − n2 p2 = np(1 − p) = npq. 2
Satz 7.3:
Die Binomialfunktion bn,p : R → [0, 1], nimmt ihr Maximum im Intervall
[(n + 1)p − 1, (n + 1)p] = [np − q, np + p]
an, also in einem Intervall der Länge 1, das den Erwartungswert µ = np enthält.
Aufgabe 7.4:
Bestimmen Sie die Varianz der Binomialverteilung, indem Sie direkt von der Definition ausgehen, d.h. ohne Verwendung des Satzes 6.5.
Beispiel 7.1:
Die Binomialfunktion bn,p für n = 16 und p = 0, 55 hat den Mittelwert µ = 8, 8 und das
(einfache) Streuintervall [µ − σ, µ + σ] ≈ [6, 8; 10, 8], da die Streuung σ ≈ 1, 99 beträgt. Die
Funktion ist in Abb. 7.1 graphisch dargestellt. Typisch für die Binomialverteilung ist, dass
b 16;p=0,55 (x)
0,20
Beweis:
Aufgabe. 2
Aufgabe 7.5:
Begründen Sie, dass die Binomialfunktion bn,p für ungerades n und p =
Stellen annimmt.
1
2
ihr Maximum an zwei
Aufgabe 7.6:
A gewinne gegen B mit der (statistisch gewonnenen) Wahrscheinlichkeit p = 0, 6.
(a) Wie wahrscheinlich ist es, dass A von 6 Begegnungen mindestens 4 gewinnt?
0,19
(b) X zähle die Anzahl der Erfolge von A. Bestimmen Sie die Verteilungsfunktion F von X
und zeichnen Sie ihren Graphen.
0,18
0,17
0,16
Beispiel 7.2:
0,15
Die Kantine einer Behörde bietet zum Frühstück helle und dunkle Brötchen an. Erfahrungsgemäß werden 50 Brötchen verlangt, darunter 10 dunkle. Der Wirt bestellt deshalb genau 40
helle und 10 dunkle Brötchen.
0,14
0,13
0,12
Setzen Sie voraus, dass wirklich 50 Brötchen verlangt werden und dass die Nachfrage nach den
dunklen (hellen) Brötchen Bernoulli-verteilt ist.
0,11
0,10
0,09
(a) Wie groß ist die Wahrscheinlichkeit, dass die dunklen (hellen) Brötchen nicht ausreichen?
0,08
(b) Eine möglichst große Anzahl der Kunden soll zufriedengestellt werden. Wieviele dunkle
bzw. helle Brötchen müssen mindestens eingekauft werden, damit die Nachfrage nach
dunklen bzw. nach hellen Brötchen jeweils mit 95 % iger Sicherheit befriedigt werden
kann?
0,07
0,06
0,05
0,04
0,03
Wir beantworten (a), (b) für die dunklen Brötchen:
0,02
0,01
x
0,00
0
1
2
3
µ = 8,8
4
5
7
6
σ = 1,99
8
9 10 11 12 13 14 15 16
[ µ−σ , µ+σ ] = [ 6,8 ; 10,8 ]
Abb. 7.1
ihre von 0 verschiedenen Werte zuerst monoton wachsen und dann monoton fallen. Das ergibt
sich als Nebenergebnis aus dem Beweis des folgenden Satzes.
(a) P (X > 10) = 1 − P (X ≤ 10) = 1 −
10
P
x=0
50
x
0, 2x · 0, 850−x = 1 − 0, 58355 = 0, 41645 .
Das bedeutet, dass die 10 Schwarzbrötchen fast an jedem zweiten Morgen nicht ausreichen.
(b) Wir suchen die kleinstmögliche Anzahl y von Brötchen die bestellt werden müssen, damit
der Bedarf mit mindestens 95 % Sicherheit gedeckt werden kann, d.h.
P (X ≤ y) =
y
P
x=0
50
x
0, 2x · 0, 850−x ≥ 0, 95,
y minimal.
84
85
7 DIE BINOMIALVERTEILUNG
Mit dem Tabellenausschnitt in Abb. 7.2 erhält man y = 15, denn
14
P
x=0
n
50
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Aufgabe 7.7:
50
x
0, 2x · 0, 850−x = 0, 93927
p=0,20
0,00001
0,00018
0,00109
0,00437
0,01284
0,02953
0,05537
0,08701
0,11692
0,13641
0,13982
0,12711
0,10328
0,07547
0,04986
0,02992
0,01636
0,00818
0,00375
0,00158
0,00061
0,00022
0,00007
0,00002
0,00001
0,00000
p=0,25
0,00000
0,00001
0,00008
0,00041
0,00161
0,00494
0,01234
0,02586
0,04634
0,07209
0,09852
0,11942
0,12937
0,12605
0,11104
0,08884
0,06478
0,04318
0,02639
0,01482
0,00765
0,00365
0,00160
0,00065
0,00024
0,00008
p=0,30
0,00000
0,00003
0,00014
0,00055
0,00177
0,00477
0,01099
0,02198
0,03862
0,06019
0,08383
0,10502
0,11895
0,12235
0,11470
0,09831
0,07725
0,05576
0,03704
0,02268
0,01281
0,00668
0,00322
0,00144
und
15
P
x=0
p=0,35
0,00000
0,00001
0,00004
0,00017
0,00058
0,00168
0,00422
0,00931
0,01823
0,03190
0,05020
0,07144
0,09233
0,10875
0,11712
0,11562
0,10485
0,08751
0,06731
0,04778
0,03132
0,01897
0,01062
..
.
50
x
dingungen rechnen muss. Es erscheint plausibel anzunehmen, dass bei n Versuchen mit der
Erfolgswahrscheinlichkeit p eben auch der Anteil p an Erfolgen eintritt.
0, 2x · 0, 850−x = 0, 96919.
p=0,40
0,00000
0,00001
0,00005
0,00017
0,00053
0,00144
0,00349
0,00756
0,01474
0,02597
0,04155
0,06059
0,08079
0,09874
0,11086
0,11456
0,10910
0,09588
0,07781
0,05836
0,04046
p=0,45
0,00000
0,00001
0,00004
0,00014
0,00043
0,00114
0,00272
0,00589
0,01157
0,02070
0,03388
0,05082
0,07002
0,08880
0,10379
0,11194
0,11150
0,10263
0,08733
p=0,50
0,00000
0,00001
0,00003
0,00011
0,00032
0,00083
0,00200
0,00437
0,00875
0,01603
0,02701
0,04186
0,05980
0,07883
0,09596
0,10796
0,11228
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
Abb. 7.2
Man berechne Beispiel 7.2 für die hellen Brötchen.
Aufgabe 7.8:
Ein Lederwarenhändler möchte Kunde einer Lederhandschuhfirma werden, die versichert hat,
dass höchsten 5 % ihrer Erzeugnisse zu Beanstandungen Anlass geben. Der Händler bestellt
zur Probe 20 Paare und prüft sie.
Wie soll er sich entscheiden, wenn 0, 1, 2 Paare Mängel aufweisen?
Wie groß ist jeweils die Wahrscheinlichkeit, dass er dem Lieferanten Unrecht tut, wenn er nicht
bei ihm Kunde wird?
Eine naheliegende Frage ist, mit wieviel defekten Paaren der Händler unter den obigen Be-
Oft ist für ein Bernoulli-Experiment die Erfolgswahrscheinlichkeit p nicht bekannt. Will
man z.B. für den Ausgang eines sportlichen Wahlkampfes eine Prognose geben, so muss man
p schätzen. Das gelingt am einfachsten, wenn man auf eine Serie von Begegnungen derselben
Kontrahenten zurückgreifen kann.
Man setzt dann p gleich der relativen Häufigkeit, mit der der Erfolg eingetreten ist (das meinten
wir, als wir weiter oben von statistisch gewonnener Wahrscheinlichkeit p sprachen).
Natürlich begeht man in der Regel einen Fehler, wenn man statt der tatsächlichen Wahrscheinlichkeit p die durch eine Versuchsserie ermittelte relative Häufigkeit eines Erfolges benutzt.
Das ist schon deshalb klar, weil Versuchsserien gleicher Länge normalerweise unterschiedliche
Anzahlen von Erfolgen aufweisen werden.
Das Verfahren wird gerechtfertigt indem wir zeigen, dass sich die relativen Häufigkeiten bei
genügender Serienlänge mit großer Wahrscheinlichkeit kaum von p unterscheiden. Das ist die
qualitative Formulierung des Bernoullischen Gesetzes der großen Zahlen. Wir wollen nun
eine quantitative Version geben.
Satz 7.4: (Gesetz der grossen Zahlen von Bernoulli)
Die Erfolgswahrscheinlichkeit in einem Bernoulliexperiment sei p ∈ (0, 1). Die Zufallsgröße
X gebe Anzahl der Erfolge bei n–maliger Versuchswiederholung an.
Dann erfüllt die relative Häufigkeit
X
1
P − p ≤ ε > 1 −
n
4nε2
X
n
der Erfolge für alle ε > 0
und
X
lim P − p ≤ ε = 1.
n
n→∞
Beweis:
Wir beweisen zunächst die komplementäre Aussage P Xn − p > ε <
P Xn − p > ε = P n Xn − np > nε = P (|X − np| > nε) =
1
:
4nε2
P
P (X = x) .
|x−np|>nε
Aus der Ungleichung unter dem Summenzeichen ergibt sich (nε)2 < (x − np)2 oder 1 <
für alle x, über die summiert wird. Damit folgt
P Xn − p > ε ≤
n (x − np)2
P
(x − np)2
P (X = x) ≤
P (X = x)
2
(nε)
(nε)2
x=0
|x−np|>nε
n
1
npq
pq
1 P
(x − µ)2 bn,p (x) =
V (X) = 2 2 =
=
(nε)2 x=0
(nε)2
nε
nε2
(x−np)2
(nε)2
P
nach Satz 7.2. Die zweite Vergrößerung ergibt sich dadurch, dass man die Einschränkung für
die x fallenlässt und einfach über alle x summiert.
Allerdings können nicht beide Ungleichungen mit Gleichheit erfüllt sein:
86
87
7 DIE BINOMIALVERTEILUNG
Die erste Ungleichung ist nur dann mit Gleichheit erfüllt, wenn die Menge der x, über die
summiert wird, leer ist, die zweite, wenn die Menge der x, über die zusätzlich summiert wird,
leer ist oder nur x = np enthält. Es wird aber
über die zwei Werte x = 0
insgesamt
mindestens
pq
und x = n summiert. Daher gilt sogar P Xn − p > ε < nε
2.
Da pq = p(1 − p) für p = q =
1
2
den kleinstmöglichen Wert
1
pq
P Xn − p > ε <
≤
,
nε2
4nε2
1
4
8
Weitere diskrete Verteilungen
Als Beispiele diskreter Wahrscheinlichkeitsfunktionen lernten wir bisher die Binomialverteilung und die Geometrische Verteilung kennen. Die erstere wurde ausführlich diskutiert.
annimmt, erhält man weiter
X
1
d.h. P − p ≤ ε > 1 −
.
n
4nε2
Die Grenzwertfassung folgt hieraus wegen 1 ≥ P (| Xn − p| ≤ ε) . 2
8.1
Die geometrische Verteilung
Geometrisch verteilte Zufallsgrößen treten immer dann auf, wenn bei einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p > 0 die Anzahl der benötigten Versuche bis zum ersten
Erfolg gezählt wird (vgl. Beispiel 6.4).
Bemerkung 7.2:
Satz 7.4 besagt, dass die Wahrscheinlichkeit p = P (A) eines Ereignisses A durch die relative
Häufigkeit eines Bernoulli-Experiments approximiert werden kann, wobei die Wahrscheinlichkeit dafür, dass rn (A) wirklich in der Nähe von p liegt, mit n wächst.
Eine gewisse Wahrscheinlichkeit, dass man einen groben Fehler begeht, wenn man p := rn (A)
setzt, bleibt allerdings auch bei langen Versuchsserien bestehen.
Aufgabe 7.9:
Buffon erzielte bei 4040 Münzwürfen 2048 Erfolge ( Zahl“). Bestimmen Sie ein möglichst
”
kleines Intervall, das mit 95 % iger Sicherheit die Erfolgswahrscheinlichkeit p für den Einzelwurf
überdeckt.
Aufgabe 7.10:
Ein Reißnagel wir 30–mal auf ein Blatt Papier geworfen. Dabei bleibe er 12–mal mit der Spitze
nach unten und 18–mal mit der Spitze nach oben (also auf dem Kopf) liegen.
Welche Erfolgswahrscheinlichkeit pe sollte man nach diesen Ergebnissen für die Kopflage annehmen?
Welche Sicherheit gibt das Bernoullische Gesetz der großen Zahl dafür, dass der gewählte
Näherungswert pe wirklich nahe an p liegt?
Aufgabe 7.11:
Wir setzen den Einsatz a. Dann wird der Glücksgenerator (s. Abb. 7.3) n-mal gedreht.
Jedesmal, wenn 3 erscheint, wird der vorhandene Einsatz verdreifacht, wenn 13 erscheint, wird
er gedrittelt. Xn gebe an, was wir schließlich herausbekommen.
(a) Wie groß ist E(X2 )?
(b) Wie groß ist E(Xn )?
1
3
Definition 8.1: (geometrische Verteilung)
Die Funktion g : R → [0, 1] mit
(
p q x−1 für x ∈ N,
g(x) =
0
sonst
mit 0 < p ≤ 1 und q = 1 − p heißt geometrische Verteilung zum Parameter p.
Aufgabe 8.1:
X sei eine geometrisch verteilte Zufallsgröße mit dem Parameter p > 0.
(a) Bestimmen Sie den Mittelwert E(X) und die Varianz V (X).
(b) Bestimmen Sie die Werte der Verteilungsfunktion F von X (summensymbolfreie Form).
Aufgabe 8.2:
Es sei X eine geometrisch verteilte Zufallsgröße. Zeigen Sie, dass für alle k, n ∈ N0 gilt
P (X > n + k / X > k) = P (X > n) (∗)
( der Zufall hat kein Gedächtnis“).
”
Interpretieren Sie diese Formel anhand eines geeigneten Spiels (Würfeln, Lotto).
Aufgabe 8.3:
Es sei X eine Zufallsgröße mit Werten in N, die die Eigenschaft (∗) aus Aufgabe 8.2 hat. Zeigen
Sie, dass X geometrisch verteilt ist.
3
(c) Bestimmen Sie lim E(Xn ).
8.2
Die hypergeometrische Verteilung
Wir beginnen mit einem praktischen Beispiel.
n→∞
Abb. 7.3
Gegeben seien N Glühbirnen, darunter K nicht funktionsfähige, also Ausschuss. Die Wahr.
scheinlichkeit, zufällig eine unbrauchbare herauszugreifen, ist p = K
N
88
8 WEITERE DISKRETE VERTEILUNGEN
Zieht man einzeln, wirft aber jede gezogene Birne sofort zurück, rührt um und zieht erneut, so
ergibt sich die Wahrscheinlichkeit, bei n–maligem Ziehen mit Zurücklegen
genau x unbrauch
bare Birnen zu erhalten, durch die Binomialverteilung bn,p (x) = nx px q n−x .
Normalerweise will jedoch niemand so vorgehen. Man möchte ohne Zurückzulegen ziehen und
die unbrauchbaren Objekte sofort isolieren. Welches mathematische Modell wird diesem Verfahren gerecht?
Wir verallgemeinern zunächst die Problemstellung. Eine Menge von N Elementen zerfalle in
zwei Klassen von K
und N −K Objekten. Es wird eine Stichprobe von n Elementen entnommen,
wobei jede der Nn möglichen Stichproben gleichwahrscheinlich sei.
−K
Es gibt Kx Möglichkeiten, aus den K Elementen genau x auszuwählen und Nn−x
Möglich
K N −K
keiten, von den N − K Objekten n − x zu wählen. Daher gibt es x n−x verschiedene
Stichproben, die genau x Elemente aus der ersten und n − x Elemente aus der zweiten Teilmenge enthalten.
Die Wahrscheinlichkeit dafür, dass in einer zufällig genommenen Stichprobe genau x von den
(K )(N −K )
K Elementen sind, ist demnach h(x) = x Nn−x .
(n)
Beweis:
n
n K N −K
P
P
( x )( n−x )
Für die Wahrscheinlichkeiten h(x) muss gelten
h(x) =
= 1 . Multipliziert man
(Nn )
x=0
x=0
N
mit n , so ergibt sich die angegebene Formel. 2
Satz 8.2:
Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat den Erwartungswert
E(X) = n
E(X) =
=
=
(∗)
=
hypergeometrische Verteilung mit den Parametern N, K, n.
Wir werden jetzt den Erwartungswert und die Streuung einer hypergeometrisch verteilten Zufallsgröße X bestimmen. Dabei ist folgende Gleichung von Vandermonde6 sehr hilfreich.
Satz 8.1: (Vandermondesche Konvolution)
Für alle Zahlen N, K, n ∈ N0 mit n ≤ N und K ≤ N gilt
X
n N
N −K
K
=
.
n
n−x
x
x=0
6
Paris, Gleichungslehre, Determinantentheorie.
n
X
x=0
Für N, K, n ∈ N0 mit n ≤ N und K ≤ N heißt die Funktion h : R → [0, 1] mit
 K N −K
 ( x )( n−x ) für x ∈ {0, 1, . . . , n},
(Nn )
h(x) :=

0
sonst
Man beachte, dass in der Definition durchaus x > K oder n − x > N − K sein darf. Die entsprechenden Binomialkoeffizienten verschwinden dann, so dass sich in beiden Fällen h(x) = 0
ergibt.
K
= np ,
N
wobei p =
K
.
N
Beweis:
Definition 8.2: (hypergeometrische Verteilung)
Bemerkung 8.1:
89
8.2 Die hypergeometrische Verteilung
1
N
n
x·
K
x
n
X
x=1
N −K
n−x
N
n
x·
K
x
=
n
X
x=1
x·
K
x
N −K
n−x
N
n
K − 1 (N − 1) − (K − 1)
x−1
(n − 1) − (x − 1)
n−1 K X K − 1 (N − 1) − (K − 1)
·
N
(n − 1) − x
x
n
x=0
K
N −1
K
K
·
= np .
= N = n
N
N
n−1
n
n
Hierbei wurde an der mit (∗) bezeichneten Stelle die Vandermondesche Konvolution für die
Parameter N − 1, K − 1 und n − 1 verwendet. 2
Der Erwartungswert beim Ziehen ohne Zurücklegen ist also genauso groß wie beim Ziehen mit
Zurücklegen (Binomialverteilung).
Satz 8.3:
Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat die Varianz
K
K N −n
N −n
K
V (X) = n · 1 −
= npq
, wobei p =
und q = 1 − p .
N
N N −1
N −1
N
Beweis:
Wir wenden wieder den bekannten Trick an und berechnen zunächst
90
8 WEITERE DISKRETE VERTEILUNGEN
91
8.3 Die Poissonverteilung
annähern. Dies soll in der folgenden Aufgabe bewiesen werden.
E X(X − 1)
=
n
X
x=0
=
=
(∗)
=
x(x − 1)
K
x
N −K
n−x
N
n
Aufgabe 8.4:
Man beweise, dass die hypergeometrische Verteilung für N ≫ n durch die Binomialverteilung approximiert wird.
1
K (K − 1) K − 2 (N − 2) − (K − 2)
x
(x
−
1)
N
(n − 2) − (x − 2)
x (x − 1) x − 2
n
x=2
n
X
Anleitung: Man bestimme in der in Bemerkung 8.2 angegebenen Darstellung für festes n, x, p
und q den Grenzwert lim h(x).
N →∞
n−2 X
K − 2 (N − 2) − (K − 2)
K(K
−
1)
N
(n − 2) − x
x
n
x=0
N −2
n n−1
1
K(K − 1)
= K(K − 1) ·
·
.
N
n
−
2
N
N −1
n
1
8.3
Hierbei gilt (∗) nach der Vandermondeschen Konvolution mit um 2 erniedrigten Werten. Mit
Satz 6.5 und Satz 6.7 folgt weiter
V (X) = E(X 2 ) − (E(X))2 = E X(X − 1) + E(X) − (E(X))2
2
K
K
n n−1
·
+n − n
= K(K − 1) ·
N N −1
N
N
= n·
K (K − 1)(n − 1)N + (N − 1)N − nK(N − 1)
·
N
(N − 1)N
N −n
N −1
Wir lernen jetzt eine Wahrscheinlichkeitsfunktion kennen, die sich besonders gut zur Beschreibung seltener Ereignisse in einem sehr oft wiederholten Experiment eignet. Theoretisch muss
man hier die Binomialverteilung verwenden. Allerdings ist die praktische Berechnung der Werte wegen der auftretenden großen Fakultäten häufig nicht mehr möglich. Man kann in diesen
Fällen die Binomialverteilung durch die Poisson7 -Verteilung annähern.
Beispiel 8.1:
Eine Reihe von Medikamenten ruft in seltenen Fällen allergische Reaktionen hervor. Wir betrachten eine Tablettenkur gegen Darmpilze, die an n = 20 000 Personen durchgeführt wird
und die mit der Wahrscheinlichkeit p = 0, 001 juckende Hautausschläge erzeugt.
X zähle die Anzahl der Personen, die über die berichteten Hautreaktionen klagen. Die Wahrscheinlichkeit, dass es sich dabei um genau x Personen handelt, ist
K KnN − KN − nN + N + N 2 − N − nKN + nK
·
N
(N − 1)N
K N −n
K
N −n
K (N − K)(N − n)
1−
·
= n
= npq
.2
= n·
N
N (N − 1)
N
N N −1
N −1
= n·
Die Varianz der hypergeometrischen Verteilung ist also um den Faktor
Binomialverteilung.
P (X = x) = bn,p (x) =
Dazu beweisen wir den
Satz 8.4:
Hält man in der Binomialverteilung den Mittelwert µ := np konstant und lässt n groß
werden (wodurch p bei festem µ klein wird), dann erhält man für k ∈ N0 als Grenzwert
lim bn,p (k) =
Bemerkung 8.2:
n→∞
np=µ
Die Erfolgswahrscheinlichkeit beim Entnehmen des ersten der n Objekte ist gerade p =
hypergeometrische Verteilung lässt sich auch folgendermaßen schreiben:
Nq Np
x
n−x
N
n
mit
20 000
0, 001x · 0, 99920 000−x .
x
Bei der Werteberechnung macht der Rechner Probleme. Wie lassen sich diese überwinden?
kleiner als die der
Die hypergeometrische Verteilung kann z.B. bei der Qualitätskontrolle eingesetzt werden: Aus
einer Warenladung mit N Exemplaren werden n Exemplare ausgewählt und getestet. Aus der
Anzahl x der hierbei gefundenen defekten Teile lässt sich die Anzahl K der insgesamt defekten
Teile schätzen (vgl. Kapitel 16).
h(x) =
Die Poissonverteilung
K
.
N
Die
Das bedeutet, dass für große n und kleine p folgende Näherungsformel gilt:
bn,p (k) ≈
q =1−p .
Ist N sehr viel größer als n, dann ist es offensichtlich ohne großen Einfluss, ob man zurücklegt
oder nicht. Man kann dann die hypergeometrische Verteilung durch die Binomialverteilung
µk −µ
e .
k!
7
(np)k −np
e
.
k!
Paris, Untersuchungen zur Analysis.
92
8 WEITERE DISKRETE VERTEILUNGEN
Beweis:
µ k n!
n k
µ n−k
p (1 − p)n−k =
bn,p (k) =
· 1−
k
k! (n − k)! n
n
n(n − 1) . . . (n − k + 1)
µk
µ n
1
=
1−
·
·
µ k
k!
n
nk
1− n
n
1 · (1 − n1 ) (1 − n2 ) . . . (1 − k−1
)
−µ
µk
n
·
1+
=
k!
n
(1 − nµ )k
93
8.3 Die Poissonverteilung
P(X = x)
x
0,35
Binomialverteilung b5, p=0,3 (x)
x
x
Binomialverteilung b10, p=0,15(x)
x
0,30
Poissonverteilung pλ=1,5 (x)
0,25
k
→
µ −µ
e
k!
für n → ∞. 2
0,20
x
Definition 8.3: (Poissonverteilung
Die Funktion p : R → [0, 1] mit
( µx
e−µ , für x ∈ N0
x!
p(x) =
0
sonst
heißt Poissonverteilung zum Parameter µ > 0.
0,15
x
0,10
0,05
x
0
2
1
3
4
Zeigen Sie, dass der Parameter µ gerade der Erwartungswert der Poissonverteilung ist und
berechnen Sie die Streuung.
Aufgabe 8.6:
Berechnen Sie bn,p (x) für x = 0, 1, 2, 10, 20 aus dem Beispiel 8.1 näherungsweise.
In Abbildung 8.1 werden die Binomialverteilungen für n = 5 und p = 0, 3 und für n = 10
und p = 0, 15 (also jeweils µ = np = 1, 5) mit der Poissonverteilung zum Parameter µ = 1, 5
verglichen. Bei noch größerem n, etwa n ≥ 100, stimmen die Graphen der beiden Funktionen
fast vollständig überein.
Beispiel 8.2:
Aus den Angaben der preußischen Armee hat Bortkiewicz ( Das Gesetz der kleinen Zahlen“,
”
Leipzig 1898) die Anzahlen der Soldaten von 10 Kavallerieregimenten8 zusammengestellt, die
in einem Zeitraum von 20 Jahren infolge eines Huftritts starben.
Als zufälliges Ereignis betrachten wir hier die Anzahl x der Regimentsmitglieder, die im Laufe
eines Jahres einen tödlichen Pferdehuftritt erhalten. Es liegen Beobachtungen aus 10 · 20 = 200
Regimentsjahren vor, da 10 Regimenter über 20 Jahre kontrolliert wurden.
8
Ein Kavallerieregiment bestand aus fünf Eskadrons, im Einsatz aus vier Eskadrons. Jeder Eskadron hatte
100–150 Pferde.
x
x
0,00
Aufgabe 8.5:
5
6
7
8
9
10
Abb. 8.1
x (Anzahl der Toten)
h200 (x) abs. Häuf. der Reg.-Jahre mit x Toten
r200 (x) rel. Häufigkeit
p(x) Wahrscheinlichkeit (Poissonverteilt)
0
1
2
3
4
≥5
109
65
22
3
1
0
0, 545 0, 325 0, 110 0, 015 0, 005 0, 0
0, 543 0, 331 0, 101 0, 021 0, 003 0, 0
Zur Berechnung der Wahrscheinlichkeiten mittels der Poissonverteilung wurde der Mittelwert
µ = E(X) aus der Zeile der relativen Häufigkeiten bestimmt:
µ = E(X) = 0 · 0, 545 + 1 · 0, 325 + 2 · 0, 110 + 3 · 0, 015 + 4 · 0, 005 = 0, 61 .
Damit ergibt sich p(x) =
0, 61x · e−0,61
, also im einzelnen
x!
p(0) = e−0,61
= 0, 543
p(1) = 0, 61 · e−0,61
= 0, 331
p(2) =
0, 612 · e−0,61
= 0, 101
2!
0, 613 · e−0,61
= 0, 021
3!
0, 614 · e−0,61
p(4) =
= 0, 003
4!
0, 615 · e−0,61
p(5) =
< 4 · 10−4
5!
p(3) =
94
8 WEITERE DISKRETE VERTEILUNGEN
Die Wahrscheinlichkeiten weichen nur wenig von den relativen Häufigkeiten ab.
111
Aufgabe 8.7:
Bei einer Verkehrszählung in Graz, Münzgrabenstraße zwischen Brockmanngasse und Stremayergasse am 28.9.1963, 1020 − 1110 Uhr, wurde die Anzahl h(x) der Zeitintervalle von 30
Sekunden registriert, in denen man x Pkw beobachtete.
x
h(x)
0
6
1
2
0
−
18 21 26
4
5
16 8
6
2
7 8
1 2
≥9
0
100
−
Analog zu den obigen Beispielen erhält man näherungsweise Poissonverteilungen, wenn man
durch geeignete relative Häufigkeiten die Wahrscheinlichkeit bestimmt, dass
2. in einem Land innerhalb einer Woche genau x Streiks ausbrechen;
0
−
0
−
+
0
+
−
0
+
+
−
0
0
0
0
−
+
−
+
+
−
+
−
+
−
+
+
−
0
0
011
0
+
−
0
0
0
0
−
+
−
+
+
−
0
−
−
0
−
−
−
−
−
0
−
+
+
−
−
0
−
0
0
−
0
0
−
−
0
+
0
+
010
0
+
0
+
+
+
−
+
+
−
+
0
+
0
+
−
+
0
001
+
0
0
−
0
+
0
+
+
−
+
−
+
+
+
−
0
+
−
+
−
+
+
0
+
0
+
−
0
−
0
−
0
0
+
0
+
0
0
000
−
+
+
0
−
+
0
−
+
0
0
−
+
−
0
+
−
+
0
+
0
−
0
−
0
3. auf einer Buchseite genau x-mal das Wort oder“ vorkommt;
”
000
4. in einem Jahr auf der Erde genau x Kriege ausbrechen.
−“: 1. Versuch
”
001
+
−
−
010
011
100
101
+“: 2. Versuch
”
Abb. 8.2
110
111
0“: 3. Versuch
”
Beispiel 8.3:
Man kann die Poissonverteilung mit Hilfe einer größeren Anzahl von Personen (z.B. einer
Schulklasse) leicht simulieren.
Wir verteilen 64 Punkte auf die 64 Felder eines Schachbretts. Wir haben also N = 64 Felder
−1
und im Durchschnitt µ = 1 Punkt pro Feld. Nach der Poissonverteilung sind 64 · ex! Felder
mit genau x Punkten zu erwarten.
Jedes Feld wird durch 6 binäre Ziffern gekennzeichnet. Für jeden Punkt wird das Feld durch
6–fachen Münzwurf bestimmt. Kopf“ bedeutet die Ziffer 0 und Zahl“ die Ziffer 1.
”
”
In der Abb. 8.2 sind die Ergebnisse von 3 Versuchen durch die Zeichen −, + und 0 unterschieden.
Die Tabelle in Abbildung 8.3 zeigt die theoretischen Werte sowie die beobachteten Werte aus
den 3 Versuchen und deren arithmetisches Mittel.
Nimmt man die drei Versuche zusammen, so stellen Sie eine Verteilung von durchschnittlich
x −3
µ = 3 Punkten auf 64 Felder dar. Daher sind 64· 3 x!e Felder mit genau x Punkten zu erwarten.
Die Auswertung ist in der Tabelle in Abbildung 8.4 gegeben.
Offensichtlich beschreibt die Poissonverteilung unsere Versuche in befriedigender Weise. Um
ein objektives Urteil zu erhalten könnte man die Güte der Übereinstimmung χ2 testen.
0
0
−
−
−
+
−
0
+
−
0
−
+
−
0
+
+
+
−
−
−
+
1. bei der Emission eines radioaktiven Präparates in einem Zeitabschnitt gerade x Teilchen
ausgesandt werden;
0
−
+
0
Welche Werte liefert die angepasste Poissonverteilung?
0
0
−
110
101
3
+
0
+
Die folgende Tabelle zeigt das Ergebnis:
95
8.3 Die Poissonverteilung
Anzahl x der Punkte pro Feld
0
1
2
3
4
>4
23,55
23,55
11,77
3,92
0,98
0,23
1. Versuch
20
28
12
4
0
0
2. Versuch
24
21
14
5
0
0
3. Versuch
25
22
12
2
3
0
23
23,7
12,7
3,7
1
0
64·e−1
x!
der
theoretische Anzahl
Felder mit genau x Punkten
Beobachtete Anzahl
der Felder mit
genau x Punkten
Mittel aus den 3 Versuchen
Abb. 8.3
Anzahl der Punkte pro Feld
Anzahl der Felder
mit genau x Punkten
0
1
2
3
4
5
6
>6
theoretisch
3,2
9,6
14,3
14,3
10,8
6,5
3,2
2,1
beobachtet
2
11
10
17
13
8
3
0
Abb. 8.4
96
8 WEITERE DISKRETE VERTEILUNGEN
8.4 Die Multinomialverteilung
Aufgabe 8.8:
Aufgabe 8.9:
Die Anzahl der Eier, die an einem Tag auf einem Hühnerhof gelegt werden, sei Poissonverteilt
zum Parameter µ. Jedes gelegte Ei sei mit der Wahrscheinlichkeit p weiß. Bestimmen Sie die
Verteilung der pro Tag gelegten weißen Eier.
Wie groß ist die Wahrscheinlichkeit, bei sechsmaligem Würfeln mit einem idealen Würfel
97
(a) jedes mögliche Ergebnis genau einmal
(b) genau einmal die 4, genau 2–mal die 5 und genau dreimal die 6
zu erzielen?
8.4
Die folgenden Aufgaben sollen einen Ausblick auf die nächsten Kapitel geben.
Die Multinomialverteilung
Aufgabe 8.10:
Eigentlich ist es an dieser Stelle zu früh, die Multinomialverteilung einzuführen, denn sie
stellt eine Verteilung mehrerer Zufallsgrößen, d.h. eines Zufallsvektors (s. Kapitel 11) dar.
Andererseits ist sie eine unmittelbare Verallgemeinerung der Binomialverteilung. Sie ist
uns bereits früher implizit begegnet (vgl. Satz 2.11).
In einer Stadt mit 10 000 erwachsenen Einwohnern soll das Netz der Omnibuslinien geändert
werden. Um sich über die öffentliche Meinung zu diesem Vorhaben zu informieren, werden 100
Personen zufällig ausgewählt und befragt.
Satz 8.5:
Wie groß ist die Wahrscheinlichkeit, dass mehr als 50 Personen zustimmen, obwohl tatsächlich
55 % der Erwachsenen das Vorhaben ablehnen?
Ein Zufallsexperiment habe genau die möglichen (disjunkten) Ausgänge A1 , A2 , . . . , Ak .
P
Jedes Ereignis Aj habe die Wahrscheinlichkeit pj = P (Aj ) mit
pj = 1.
In einem Land mit 50 · 106 erwerbstätigen Einwohnern soll der Beginn der Arbeitszeit um eine
Stunde vorverlegt werden. Um sich ein Bild der öffentlichen Meinung zu diesem Vorhaben zu
machen, lässt die Regierung 104 Erwerbstätige repräsentativ auswählen und befragen.
Das Experiment werde n–mal unabhängig wiederholt.
Dann ist die Wahrscheinlichkeit dafür, dass dabei das Ereignis A1 genau x1 –mal, . . . , das
Ereignis Ak genau xk –mal eintritt
p(x1 , x2 , . . . , xk ) =
n!
px1 px2 . . . pxkk
x1 ! x2 ! . . . xk ! 1 2
für x1 , . . . , xn ∈ N0 mit
P
xj = n.
Beweis:
Die Ergebnisse sind n–Tupel, gehören also dem Produktraum Ωn an. Wir betrachten speziell
n–Tupel, die genau x1 Elemente von A1 , . . . , xk Elemente von Ak enthalten.
Da das Experiment unabhängig wiederholt wird, hat jedes dieser Tupel die Wahrscheinlichkeit
px1 1 · . . . · pxkk .
Nun gibt es nach Satz 2.11 genau x1 !
angegebene Wahrscheinlichkeit. 2
n!
x2 !... xk !
solcher n–Tupel. Insgesamt erhält man also die
Definition 8.4: (Multinomialverteilung)
k
Es seien p1 , . . . , pk ∈ R+
0 mit p1 + . . . + pk = 1. Dann heißt die Funktion p : R → [0, 1]

n!

px1 . . . pxkk für x1 + x2 + . . . + xk = n, xj ∈ {0, . . . , n},
x1 ! . . . xk ! 1
p(x1 , . . . , xk ) =

0
sonst
Multinomialverteilung auf einem k–dimensionalen Zufallsvektor.
Aufgabe 8.11:
Mit welcher Wahrscheinlichkeit ergibt die Befragung eine zustimmende Mehrheit, obwohl tatsächlich 53 % der arbeitetenden Bevölkerung dagegen sind?
Sowohl mit der Binomialverteilung als auch mit der hypergeometrischen Verteilung
erhält man bei der Lösung der Aufgabe 8.11 praktisch nicht auswertbare Ansätze, und auch die
Approximation durch die Poissonverteilung führt nicht zum Ziel. Wir werden in Kapitel
10 die sogenannte Normalverteilung einführen, die die Binomialverteilung wiederum
approximiert und deren Werte aus einer Tabelle leicht abgelesen werden können.
98
9 STETIGE ZUFALLSGRÖSSEN
9
Stetige Zufallsgrößen
9.1
99
9.1 Die Wahrscheinlichkeitsdichte
Trägt man nun über jedem der Intervalle ein Rechteck auf, dessen Flächeninhalt der relativen Häufigkeit entspricht, mit der über diesem Intervall ein Faden reißt, so erhält man ein
Histogramm als anschauliche Darstellung der Häufigkeitsverteilung (Abb.9.1).
Die Wahrscheinlichkeitsdichte
Für diskrete Zufallsgrößen X : Ω → R definiert man eine Verteilung p(x) =PP (X = x). Für
p(xi ), d.h. die
die Verteilungsfunktionen F (x) = P (X ≤ x) ergibt sich dann F (x) =
xi ≤x
Verteilungsfunktion ist eine Treppenfunktion.
Bei stetigen Zufallsgrößen X ist die Verteilungsfunktion F dagegen eine stetige Funktion.
In den meisten Anwendungen ist F sogar (stückweise) stetig differenzierbar, und somit die
Stammfunktion einer (stückweise) stetigen Funktion f . Diese heißt dann Dichte von X.
1,3
1,2
1,1
1,0
0,9
0,8
Wir erläutern den Begriff der Dichte an einem Beispiel.
0,7
Beispiel 9.1:
0,6
Der Faden einer Fabrikation von Baumwollgarn soll auf seine Festigkeit untersucht werden.
Dazu werden 300 Rollen mit diesem Garn ausgewählt, an welche jeweils Gewichte mit zunehmender Masse angehängt werden. X bezeichne die Masse, bei der der jeweilige Faden zerreißt.
Obwohl es willkürlich wäre anzunehmen, dass X nur bestimmte diskrete Werte hat, ist es
naheliegend, mit einer gewissen Masse zu beginnen, zu prüfen, welche Fäden bei dieser Masse
bereits zerreißen, und die Masse dann schrittweise um einen gewissen Betrag zu erhöhen.
Bei unserem Versuch hielten alle Fäden die Masse 0, 5 kg aus. Die Masse wurde dann jeweils
um 0, 14 kg erhöht.
0,5
0,4
0,3
0,2
0,1
0,0
0,5
0,64 0,78 0,92 1,06 1,20 1,34 1,48 1,62 1,76 1,90 2,04 2,18 2,32 kg
Abb. 9.1
Nr. k
1
2
3
4
5
6
7
8
9
10
11
12
13
Zerreißfestigkeit abs. Häuf. h(k)
0,5 bis 0,64
0,64 bis 0,78
0,78 bis 0,92
0,92 bis 1,06
1,06 bis 1,20
1,20 bis 1,34
1,34 bis 1,48
1,48 bis 1,62
1,62 bis 1,76
1,76 bis 1,90
1,90 bis 2,04
2,04 bis 2,18
2,18 bis 2,32
1
2
9
25
37
53
56
53
25
19
16
3
1
300
rel. Häuf. r(k) =
0,00333
0,00667
0,03000
0,08333
0,12333
0,17667
0,18667
0,17667
0,08333
0,06333
0,05333
0,01000
0,00333
0,99999
h(k)
300
Dichte der rel. Häuf.
r(k)
0,14
0,024
0,048
0,214
0,595
0,881
1,262
1,333
1,262
0,595
0,452
0,381
0,071
0,024
In der 3. Spalte der angegebenen Tabelle kann man ablesen, wieviele Fäden dabei jeweils
zerrissen. In den weiteren Spalten wurde die relative Häufigkeit r berechnet und anschließend
durch die Intervallbreite dividiert.
Da die Inhalte der Rechteckflächen die Bedeutung von relativen Häufigkeiten haben, müssen
ihre Höhen die relativen Häufigkeiten dividiert durch die Intervallbreite sein. Man bezeichnet
sie als Dichten der relativen Häufigkeiten. Da die Summe aller relativen Häufigkeiten
1 ist, hat die gesamte Fläche unter der Treppe den Flächeninhalt 1.
Die Dichten für gewisse Zerreißfestigkeiten dürften sich aber kaum sprunghaft ändern. Deshalb
ist es vernünftiger, sie durch eine stetige Funktion f zu beschreiben, die die Treppenfunktion
interpoliert und die mit der x–Achse ebenfalls die Fläche 1 einschließt.
Eine solche Funktion heißt Wahrscheinlichkeitsdichte (Abb. 9.1). Über jedem Intervall
der x–Achse begrenzt sie einen Streifen nach oben, dessen Flächeninhalt die Wahrscheinlichkeit
angibt, mit der die Werte von X in diesem Intervall liegen.
Z.B. ist die Wahrscheinlichkeit dafür, dass ein Faden aus der oben beschriebenen Produktion bei
1,20
R
f (t) dt , die Wahrscheinlichkeit, dass er
einer Masse zwischen 1, 06 kg und 1, 20 kg zerreißt,
1,06
bei einer Belastung bis zu 1, 20 kg zerreißt, ist
1,20
R
f (t) dt , wobei f über ]−∞, 0] den Wert 0 hat.
−∞
Zufallsgrößen X : Ω → R haben definitionsgemäß die Eigenschaft, dass Urbilder von Intervallen
und Zahlen Ereignisse sind. Das Urbild des Intervalls ] − ∞, x] ist {ω ∈ Ω | X(ω) ≤ x}. Wie
im diskreten Fall schreiben wir kurz P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x}) .
100
9 STETIGE ZUFALLSGRÖSSEN
101
9.1 Die Wahrscheinlichkeitsdichte
Definition 9.1: (stetige Zufallsgröße)
Definition 9.2: (Gleichverteilung)
Eine Zufallsgröße X heißt stetig, wenn ihre Verteilungsfunktion F (x) = P (X ≤ x) eine
stetige Funktion ist.
Die durch die Dichtefunktion f : R → R mit
( 1
für a ≤ x ≤ b
b−a
f (x) =
0
sonst
Gibt es eine nicht-negative, stückweise stetige Funktion f : R → R+
0 , so dass für die Verteilungsfunktion F von X gilt
F (x) = P (X ≤ x) =
Zx
definierte Wahrscheinlichkeitsverteilung heißt Gleichverteilung auf [a, b].
f (t) dt,
−∞
Dichte und Verteilungsfunktionder Gleichverteilung sind in Abb. 9.2 dargestellt.
so heißt diese Funktion f Wahrscheinlichkeitsdichte oder kurz Dichte von X.
f(x) Wahrscheinlichkeitsdichte
F(x)
1,0
1
b-a
Bemerkung 9.1:
Laut Definition 9.1 ergibt sich die Verteilungsfunktion einer Zufallsgröße X aus der Dichte,
sofern diese existiert. Umgekehrt gilt aber F ′ (x) = f (x) an allen Stellen, an denen f stetig ist.
Die Verteilungsfunktion bestimmt also auch die Dichte.
0,0
0
Nach Satz 6.3 ist
a
P (a < X ≤ b) = F (b) − F (a) =
Zb
x
b
a
x
Abb. 9.2b
Eine Anwendung der Gleichverteilung liefert das folgende
a
Da es beim Integrieren auf einen Punkt nicht ankommt, setzt man auch
P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Zb
f (t) dt = F (b) − F (a) .
a
Insbesondere gilt also für stetige Zufallsgrößen P (X = a) = 0 für alle a ∈ R. Weiterhin gilt
nach Satz 6.4
Z∞
f (t) dt = lim F (x) = 1.
x→∞
−∞
Die Dichte schließt also mit der x-Achse den Flächeninhalt 1 ein.
Die Bedeutung von f erscheint zunächst unklar. Wenn sich der Mittelwertsatz der Integralrechnung anwenden lässt, erhält man
x+h
Z
F (x + h) − F (x)
1
1
f (t) dt = f (ξ) mit ξ ∈ [x, x + h] .
P (x < X ≤ x + h) =
=
h
h
h
x
Die Dichte lässt sich also etwa als Wahrscheinlichkeit pro Intervallbreite“ deuten.
”
Das einfachste Beispiel ist eine auf einem festen Intervall [a, b] konstanten Dichte, die außerhalb
Rb
1
sein.
von [a, b] verschwindet. Wegen f (x) dx = 1 muss die Konstante b−a
a
b
Abb. 9.2a
f (t) dt.
Verteilungsfunktion
Beispiel 9.2:
Wir wollen eine Zahl x aus dem Intervall [0, 1] zufällig“ auswählen. Jedes x ∈ [0, 1] hat die
”
∞
X
Darstellung x =
ak 10−k mit ak ∈ {0, 1, 2, . . . , 9}.
k=1
Eine Möglichkeit wäre, die Wahl jedes ak durch ein Laplaceexperiment zu beschreiben und diese
Experimente nacheinander unabhängig auszuführen.
n
X
Betrachtet man für beliebiges n ∈ N ein α der Form α =
ak 10−k , so stimmen alle Zahlen
k=1
x mit α ≤ x < α + 10−n in den ersten n Stellen nach dem Komma mit α überein. Die
Wahrscheinlichkeit, eine solche Zahl zu erhalten, ist also
P (α ≤ X < α + 10−n ) =
1
1
1
·...·
= n = 10−n = (α + 10−n ) − α
10
10
10
(Intervallbreite).
Da sich jedes andere Intervall beliebig genau durch Intervalle der Form [α, α + 10−n ) approximieren lässt, sollte allgemein P (α ≤ X ≤ β) = β − α für 0 ≤ α ≤ β ≤ 1 gesetzt werden. Das
ist aber gerade die Wahrscheinlichkeit, die die Gleichverteilung auf [0, 1] liefert.
Beispiel 9.3:
An einer relativ ruhigen Landstraße messe man mit einer Stoppuhr die Wartezeit zwischen den
einzelnen Fahrzeugen. Dies ist eine Zufallsgröße X mit kontinuierlichem Wertebereich. Die
beobachtete relative Häufigkeit des Ereignisses, dass die Wartezeit nicht größer als x ist, wird
102
9 STETIGE ZUFALLSGRÖSSEN
Der Verteilungsfunktion im diskreten F : R → [0, 1] mit F (x) =
gut durch eine Verteilungsfunktion der Gestalt
F (x) = P (X ≤ x) =
(
x
1 − e− µ für x ≥ 0
0
103
9.2 Der Erwartungswert
Verteilungsfunktion F : R → [0, 1] mit F (x) =
für x < 0 ,
mit geeignetem µ > 0 approximiert (die xBegründung hierfür wird in Bemerkung 9.2 gegeben).
Man erhält dann f (x) = F ′ (x) = µ1 e− µ für positive x. In Beispiel 9.4 wird gezeigt, dass µ
hierbei gerade die mittlere Wartezeit ist.
−∞
In Definition 6.4 definierten wir für den diskreten Fall den Erwartungswert von g(X) als
X
X
|g(xi )| p(xi ) existiert.
g(xi ) p(xi ), falls
E(g(X)) =
i
Bedenkt man, dass eine stetige Zufallsgröße einen Wert in dem Intervall [x, x + △x] ungefähr
mit der Wahrscheinlichkeit f (x) · △x annimmt, so ergibt sich entsprechend die Definition des
Erwartungswertes einer stetigen Zufallsgröße:
Definition 9.3: (Exponentialverteilung)
Die durch die Dichtefunktion f : R → R mit
(
x
1 −µ
e
für x ≥ 0
µ
f (x) =
0
für x < 0
Definition 9.4: (Erwartungswert stetiger Zufallsgrößen)
Sei f die Dichte einer Zufallsgröße X. Dann heißt
definierte Wahrscheinlichkeitsverteilung heißt Exponentialverteilung zum Parameter µ.
Z∞
µ = E(X) =
x f (x) dx
−∞
Aufgabe 9.1:
Die Zufallsvariable X sei exponentialverteilt. Zeigen Sie, dass für alle x, y ≥ 0 gilt
P (X > x + y / X > x) = P (X > y). (∗)
Bemerkung 9.2:
Erwartungswert oder Mittelwert von X falls
R∞
−∞
|x| f (x) dx existiert.
Allgemeiner sei g eine auf dem Wertebereich von X erklärte stetige Funktion, für die
R∞
|g(x)| f (x) dx existiert. Dann heißt
−∞
Die in Aufgabe 9.1 angegebene Eigenschaft ist eine stetige Entsprechung der in Aufgabe 8.2
angegebenen Eigenschaft für die geometrische Verteilung. Entsprechend zu Aufgabe 8.3 lässt
sich auch hier zeigen, dass die Gleichung (∗) für die Exponentialverteilung charakteristisch ist.
Wegen der Gleichung (∗) ist die Exponentialverteilung besonders gut für die Beschreibung von
Wartezeiten geeignet, denn auf Wartezeiten X bezogen besagt die Gleichung:
Die Wahrscheinlichkeit, noch mehr als y Minuten zu warten ist immer gleich, egal wie lange
(= x Minuten) man bereits gewartet hat.
Daher beschreibt man mit ihr u.a. die Dauer von Telefongesprächen, die Bedienungszeit von
Kunden, die Reparaturzeit von Maschinen etc.
Der Erwartungswert
E g(X) :=
Z∞
R∞
f (x) dx = 1.
−∞
Man beachte hierbei: Dichten sind keine Wahrscheinlichkeiten!
∞
P
j=1
p(xj ) = 1 ent-
g(x) f (x) dx.
−∞
Erwartungswert von g(X). Speziell für g(x) = xk , k ∈ N, spricht man auch hier vom
Moment k–ter Ordnung µk := E(X k ) von X.
Beispiel 9.4:
(a) Für die Gleichverteilung f (x) =
E(X) =
Der diskreten Wahrscheinlichkeitsverteilung p : {x1 , x2 , . . . } → [0, 1] mit
spricht im stetigen Fall die Dichte f : R → R+
0 mit
f (t) dt .
p(xj ) entspricht die stetige
xj ≤x
Beide geben einander entsprechende Wahrscheinlichkeiten an, nämlich F (x) = P (X ≤ x).
i
9.2
Rx
P
Z∞
−∞
xf (x) dx =
Zb
a
1
b−a
auf [a, b] ergibt sich
1 b2 − a2
a+b
x
dx =
=
.
b−a
2 b−a
2
(b) Für die Exponentialverteilung findet man mit partieller Integration
Z∞
Z∞
Z∞
x ∞
x ∞
x
x − µx
E(X) =
xf (x) dx =
e dx = −xe− µ + e− µ dx = −µe− µ = µ.
µ
0
0
−∞
0
0
104
9 STETIGE ZUFALLSGRÖSSEN
Die für eine diskrete Zufallsgröße X in den Sätzen 6.6 und 6.7 bewiesenen Aussagen gelten
unter entsprechenden Voraussetzungen analog im stetigen Fall:
g1 und g2 seien zwei stetige Funktionen
auf dem
Wertebereich der stetigen Zufallsgröße X,
deren Erwartungswerte E g1 (X) und E g2 (X) existieren.
Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt
E g1 (X) + g2 (X) = E g1 (X) + E g2 (X) .
Momente höherer Ordnung, Varianz und Schiefe
Nach Voraussetzung ist
R∞
−∞
|g1 (x)| f (x) dx < ∞ und
|g1 (x) + g2 (x)| f (x) dx ≤
−∞
=
Z∞
−∞
Z∞
R∞
−∞
Falls µk = E(X k ) existiert, so gilt im diskreten wie auch im stetigen Fall
E (aX)k = ak E(X k ) für alle a ∈ R.
|g2 (x)| f (x) dx < ∞ . Hieraus folgt
Z∞
|g2 (x)| f (x) dx < ∞ ,
Die Existenz der Momente hängt also mit der Wahrscheinlichkeit zusammen, mit der die Zufallsgröße X absolut große Werte annimmt. Ist |X| beschränkt, so existieren die Momente jeder
Ordnung.
und deshalb existiert E g1 (X) + g2 (X) . Man erhält dann
=
=
Z∞
−∞
Z∞
−∞
g1 (x) + g2 (x) f (x) dx
g1 (x) f (x) dx +
Existiert das Moment k–ter Ordnung von X, so gilt sowohl im diskreten als auch im stetigen
Fall
1
.
lim ak P (|X| > a) = 0, d.h. P (|X| > a) = o
a→∞
ak
−∞
−∞
Beweis: Aufgabe. 2
Aufgabe 9.2:
|g1 (x)| + |g2 (x)| f (x) dx
|g1 (x)| f (x) dx +
Dabei wird für die Existenz des Moments die absolute Konvergenz der zugehörigen Reihe bzw.
des zugehörigen Integrals vorausgesetzt. Der Erwartungswert E(X) ist das Moment 1. Ordnung. Man beweist leicht den folgenden
Satz 9.3:
Beweis:
E g1 (X) + g2 (X)
9.3
Wir erklärten in Definition 6.4 für diskrete und in Definition 9.4 für stetige Zufallsvariable X
das k-te Moment als µk = E(X k ).
Satz 9.1:
Z∞
Z∞
−∞
Satz 9.4:
Für diskrete und stetige Zufallsgrößen X gilt:
g2 (x) f (x) dx = E g1 (X) + E g2 (X) . 2
Satz 9.1 kann durch vollständige Induktion auf jede endliche Anzahl von Summanden ausgedehnt werden.
Satz 9.2:
Existiert das Moment k–ter Ordnung µk von X, so existieren alle Momente µr mit r ≤ k.
Beweis: Aufgabe. 2
Beispiel 9.5:
(a) Für die Gleichverteilung (s. Definition 9.2) ergibt sich
X sei eine stetige Zufallsgröße, und es existiere E(X).
Dann existiert für alle a, b ∈ R auch E(aX + b), und es gilt
E(aX + b) = aE(X) + b .
Beweis:
Aufgabe. 2
105
9.3 Momente höherer Ordnung, Varianz und Schiefe
µk = E(X k ) =
Z∞
−∞
xk f (x) dx =
Zb
a
k
1 bk+1 − ak+1
1 X i k−i
xk
dx =
=
a b .
b−a
k+1
b−a
k + 1 i=0
Da das Integrationsintervall endlich ist, konvergieren“ diese Integrale auch absolut. Also
”
existieren die µk .
106
9 STETIGE ZUFALLSGRÖSSEN
(b) Für die Exponentialverteilung (Definition 9.3) ergibt sich mit Beispiel 9.4 b
µk = E(X k ) =
Z∞
xk f (x) dx =
Z∞
9.3 Momente höherer Ordnung, Varianz und Schiefe
Beispiel 9.6:
(a) Für die Gleichverteilung ergibt sich nach Beispiel 9.5 a
xk − µx
e dx
µ
2
a+b
b2 + ab + a2
−
V (X) = E (X − µ)2 = µ2 − µ21 =
3
2
b2 + ab + a2 b2 + 2ab + a2
(b − a)2
b−a
=
−
=
, also σ = √ .
3
4
12
2 3
0
−∞
Z∞ k−1
Z∞
x
x
x ∞
x
e− µ dx
= −xk e− µ + k xk−1 e− µ dx = kµ
µ
0
0
0
= kµµk−1 = · · · = k(k − 1) · · · 2 µk−1 µ1 = k! µk .
(b) Für die Exponentialverteilung ergibt sich nach Beispiel 9.5 b
V (X) = µ2 − µ21 = 2µ2 − µ2 = µ2 ,
Da f (x) = 0 für negative x gilt, konvergieren diese Integrale auch absolut.
c sei eine reelle Zahl und X eine stetige oder diskrete Zufallsgröße.
Dann heißt E (X − c)k Moment k–ter Ordnung bezüglich c.
Satz 9.5:
k
Ist c = µ = E(X), so spricht man vom k. zentralen Moment mk = E (X − µ) .
Die zentralen Momente lassen sich durch die gewöhnlichen Momente (Definition 6.4 und 9.4)
ausdrücken (mit µ1 = µ):
m2
m3
= E(X − µ) = E(X) − µ = µ − µ = 0
= E (X − µ)2 = E X 2 − 2µX + µ2 = E(X 2 ) − 2µ · E(X) + µ2 = µ2 − µ21
= E (X − µ)3 = E(X 3 − 3µX 2 + 3µ2 X − µ3 )
= E(X 3 ) − 3µE(X 2 ) + 3µ2 E(X) − µ3
u.s.w.
also σ = µ .
Der Mittelwert µ hat eine interessante Minimaleigenschaft. Er ist derjenige Wert c, für welchen
die Momente 2. Ordnung bezüglich c am kleinsten ausfallen:
Definition 9.5: (Momente bzgl. c, zentrale Momente)
m1
107
= µ3 − 3µ1 µ2 + 2µ31
Wie schon für diskrete Zufallsgrößen definieren wir die Varianz als zweites zentrales Moment
(vgl. Def. 6.5).
Definition 9.6: (Varianz und Streuung)
X sei eine stetige (oder diskrete) Zufallsgröße. Das zentrale Moment zweiter Ordnung
σ 2 = V (X) = E (X − µ)2
p
heißt Varianz. Ihre Wurzel σ = V (X) heißt Standardabweichung oder Streuung.
Bemerkung 9.3:
Wie im diskreten Fall gilt auch hier V (X) = E(X 2 ) − E 2 (X), denn V (X) = m2 = µ2 − µ21 .
Für jedes c 6= µ gilt V (X) = E (X − µ)2 < E (X − c)2 .
Beweis:
E (X − c)2
= E (X − µ + µ − c)2
= E (X − µ)2 + 2(µ − c) E(X − µ) + (µ − c)2 = V (X) + (µ − c)2 . 2
Analog zu Satz 6.6 für diskrete Zufallsvariable gilt allgemein
Satz 9.6:
Sei X eine stetige (oder diskrete) Zufallsvariable, deren Varianz existiert. Dann gilt
V (aX + b) = a2 V (X) für alle a, b ∈ R.
Beweis:
V (aX + b) = E (aX + b − E(aX + b))2 = E (aX + b − (aµ + b))2 = E (a(X − µ))2
= E a2 (X − µ)2 = a2 E (X − µ)2 = a2 V (X). 2
Definition 9.7: (standardisierte Zufallsgröße)
X sei eine Zufallsgröße mit Erwartungswert µ und Streuung σ 6= 0. Dann heißt
Z=
X −µ
σ
die zugehörige standardisierte oder normierte Zufallsgröße.
108
9 STETIGE ZUFALLSGRÖSSEN
109
9.4 Die Ungleichung von Tschebyschew
Beispiel 9.7:
Aus den vorangegangenen Sätzen lässt sich zeigen:
(a) Für die Gleichverteilung f (x) =
Satz 9.7:
S(X) =
X sei eine Zufallsgröße mit der Streuung σ 6= 0 und Z die zugehörige standardisierte Zufallsgröße. Dann gilt
E(Z) = 0 und V (Z) = 1 .
X sei eine stetige oder diskrete Zufallsgröße, deren 3. Moment existiert. Dann heißt das dritte
Moment der zugehörigen standardisierten Zufallsgröße Z
S(X) := E(Z 3 ) =
1
m3
E (X − µ)3 = √ 3
σ3
m2
die Schiefe der zugehörigen Verteilung.
Satz 9.8:
Ist die Dichte f : R → R+
0 einer stetigen Zufallsgröße X symmetrisch bezüglich µ und existiert
ihr 3. Moment, so gilt S(X) = 0.
Beweis: Aufgabe. 2
Aufgabe 9.3:
Formulieren und beweisen Sie eine dem Satz 9.8 entsprechende Aussage für eine diskrete Zufallsgröße X mit der Wahrscheinlichkeitsfunktion p.
3
Zb (x − a+b
)4
1
a+b
2
·
dx =
x−
3
2
b−a
4σ (b − a)
a
x
S(X) =
Definition 9.8: (Schiefe)
1
1
E (X − µ)3 = 3
σ3
σ
ergibt sich
b
= 0.
a
(b) Für die Exponentialverteilung f (x) = µ1 e− µ erhält man aus Beispiel 9.5 und den Berechnungen der zentralen Momente auf Seite 106
Beweis: Aufgabe. 2
Die Gleichverteilung ist offenbar symmetrisch bezüglich des Mittelwertes µ, die Exponentialverteilung ist es nicht. Mit Hilfe des 3. zentralen Moments legt man ein Maß für Asymmetrie
einer Zufallsvariable fest.
1
b−a
m3
µ3 − 3µ1 µ2 + 2µ31
1
=
= 3 6µ3 − 3µ · 2µ2 + 2µ3 = 2 ;
3
σ
σ3
µ
hier liegt positive Schiefe vor.
Aufgabe 9.4:
Man berechne Erwartungswert, Varianz, Streuung und Schiefe für die Verteilungen f : R → R+
0
mit
2(1 − x) für x ∈ ]0, 1[,
(a) f (x) =
0
sonst;
−x
xe
für x ∈ R+
0,
(b) f (x) =
0
sonst;
sin x für x ∈ [0, π2 ],
(c) f (x) =
0
sonst.
9.4
Die Ungleichung von Tschebyschew
In Satz 9.5 stellten wir fest, dass der Wert des zweiten Moments bzgl. c für c = µ minimal
ist. Die mittlere quadratische Abweichung der Werte der Zufallsgröße X wird demnach am
kleinsten, wenn sie von µ aus gemessen wird. Die Verteilung von X konzentriert sich in diesem
Sinne um µ als Zentrum.
Unabhängig von der Gestalt der Verteilung gibt es eine von Tschebyschew9 entdeckte Mindest”
konzentration“ der Wahrscheinlichkeit P um µ herum.
Satz 9.9: (Tschebyschewsche Ungleichung)
Zwar kann das 3. zentrale Moment oder die Schiefe auch für nicht-symmetrische Verteilungen
verschwinden, aber dies ist äußerst selten der Fall. Man kann daher zwischen symmetrischen
Verteilungen und solchen mit positiver bzw. negativer Schiefe zu unterscheiden.
X sei eine (diskrete oder stetige) Zufallsgröße, deren Erwartungswert µ und Varianz σ 2 6= 0
existieren. Dann gilt für jede reelle Zahl k > 0
P (|X − µ| ≥ kσ) ≤
9
1
.
k2
Russ. Mathematiker, sprich tschebyschoff“
”
110
9 STETIGE ZUFALLSGRÖSSEN
Beweis:
Wir beweisen die Aussage nur für diskrete Zufallsgrößen X. Man erhält zunächst
X
P (|X − µ| ≥ kσ) =
p(x) .
|x−µ|≥kσ
Wegen
(x−µ)2
k2 σ 2
≥ 1 für alle x, über die summiert wird folgt hieraus
P (|X − µ| ≥ kσ) ≤
X
|x−µ|≥kσ
X (x − µ)2
x
k2σ2
p(x) =
1
1
E (X − µ)2 = 2 . 2
k2σ2
k
Bemerkung 9.4:
Aus der Tschebyschewschen Ungleichung ergibt sich unmittelbar
P (|X − µ| < kσ) = 1 − P (|X − µ| ≥ kσ) ≥ 1 −
111
Aus einer Stichprobe wird beispielsweise ermittelt, dass die Streuung σ = 0, 01 mm beträgt.
(Genaueres dazu in den Kapiteln 14 und 16). Dann gilt
1
P (|X − µ| ≥ 0, 10) = P (|X − µ| ≥ 10 · 0, 01) ≤ 2 = 0, 01 .
10
Höchstens 1 % aller Kugeln ist zu groß oder zu klein.
Aufgabe 9.7:
(a) Eine echte Münze werde 1000 mal geworfen. Man schätze die Wahrscheinlichkeit dafür,
dass die relative Häufigkeit von Zahl“ zwischen 0,4 und 0,6 liegt, mit der Tscheby”
schewschen Ungleichung ab.
(x − µ)2
p(x) .
k2σ2
Lässt man die einschränkende Bedingung für x weg, so wächst die rechte Seite:
P (|X − µ| ≥ kσ) ≤
9.4 Die Ungleichung von Tschebyschew
Bemerkung 9.5:
Die Ungleichung Tschebyschews gilt für alle Zufallsgrößen X. Man darf daher nicht erwarten,
dass sie in jedem Falle sehr genau ist.
Aufgabe 9.8:
Man schätze ab, mit welcher Wahrscheinlichkeit die Werte von X höchstens außerhalb des
1−, 2−, 3−, 4−fachen Streuintervalls um den Mittelwert µ liegen.
1
.
k2
Das bedeutet, dass für großes k die Werte von X mit hoher Wahrscheinlichkeit in das Intervall
]µ − kσ, µ + kσ[ fallen.
So wird beispielsweise das offene Intervall ]µ − 2, 5 σ; µ + 2, 5 σ[ von P mindestens mit der
Wahrscheinlichkeit
P (|X − µ| < 2, 5 σ) = 1 − P (|X − µ| ≥ 2, 5 σ) ≥ 1 −
(b) Welchen Ausdruck hätte man im Falle des exakten Vorgehens zu berechnen?
1
= 0, 84 = 84%
2, 52
belegt. Man beachte, dass dies lediglich der kleinstmögliche Wert ist. Für die meisten Zufallsgrößen X ist P (|X − µ| < 2, 5 σ) viel größer, bei normalverteiltem X z.B. immerhin 98,8 %
(vgl. Kapitel 10). Andererseits gibt es eine diskrete Verteilung, bei der diese Wahrscheinlichkeit
tatsächlich nur 84 % beträgt.
Aufgabe 9.5:
Man konstruiere eine diskrete Verteilung mit der Eigenschaft P (|X − µ| < 2, 5 σ) = 0, 84.
Aufgabe 9.6:
Führen Sie den Beweis von Satz 9.9 für eine stetige Zufallsgröße X durch.
Beispiel 9.8:
Bei Industrieprodukten müssen Normen eingehalten werden. So dürfen die Durchmesser von
Kugeln eines Kugellagers nur geringfügig voneinander differieren. Ist z.B. die Norm µ = 30, 00
mm mit der Toleranz ±0, 10 mm, so kann man ohne Kenntnis der genauen Verteilung folgendermaßen abschätzen, wieviele Kugeln die Norm mindestens einhalten:
Aufgabe 9.9:
Die Zufallsgröße X habe den Mittelwert µ = 5 und die Varianz σ 2 = 9.
(a) Bestimmen Sie ein Intervall, in dem die Werte von X mit der Wahrscheinlichkeit 0,9
liegen.
(b) Wie groß muss k ∈ R+ in der Tschebyschewschen Ungleichung gewählt werden, damit
P (|X − µ| ≥ kσ) ≤ 0, 81 gilt?
(c) Für welches k ∈ R+ nimmt die Zufallsgröße X Werte aus dem Intervall ]µ − kσ, µ + kσ[
mit einer Wahrscheinlichkeit von mindestens 0,95 an?
Aufgabe 9.10:
X gebe die Summe der Augen beim Werfen zweier Würfel an.
Vergleichen Sie die genauen Werte für P (|X − µ| < kσ) mit den entsprechenden Abschätzungen
nach der Tschebyschewschen Ungleichung für k = 1, k = 2 und k = 2, 5.
Aufgabe 9.11:
Die Zufallsgröße X nehme nur nicht-negative Werte an. Beweisen Sie für k > 0
µ
P (X ≥ k) ≤ .
k
Aufgabe 9.12:
Wenden Sie die Tschebyschewsche Ungleichung auf eine binomialverteilte Zufallsgröße an.
Vergleichen Sie das Ergebnis mit der Aussage von Satz 7.4.
112
10
10.1
10 DIE NORMALVERTEILUNG
Die Gaußsche Normalverteilung
113
10.1 Einführung der Normalverteilung
Aufgabe 10.1:
(a) Wo ist f streng monoton wachsend (fallend)?
Einführung der Normalverteilung
(b) Man bestimme Lage, Art und Größe der Extremwerte von f .
Definition 10.1: (Normalverteilung)
(c) Man untersuche f auf Wendepunkte (Lage, Art, Werte).
Eine stetige Zufallsgröße X heißt normalverteilt, wenn ihre Dichte von der Gestalt
1 x−µ 2
1
f (x) = √ e− 2 σ
σ 2π
mit µ ∈ R und σ ∈ R+ ist. Die zugehörige Verteilungsfunktion ist demnach
F (x) =
1
√
σ 2π
Zx
1 t−µ
σ
e− 2
−∞
2
(d) Welche Symmetrieeigenschaften hat f ?
(e) Für welches c wird P (c ≤ X ≤ c + a) bei festem a > 0 maximal?
Um grundlegende Eigenschaften der Normalverteilung beweisen zu können braucht man immer
wieder die folgende Formel:
dt .
Satz 10.1:
Nach Gauss, der diese Funktionen u.a. im Zusammenhang mit der Theorie der Messfehler untersuchte, heißt die Normalverteilung auch Gaußverteilung. Die folgende Abbildung
zeigt den Graphen von f für µ = 0 und drei verschiedene Werte von σ. Wegen der Form des
Graphen spricht man auch von der Gaussschen Glockenkurve (s. Abb. 10.1).
Z∞
√
2
e−v dv =
π.
−∞
Beweis:
2
Da e−v < e−|v| für |v| > 1 gilt, überzeugt man sich leicht, dass das uneigentliche Integral
existiert. Man erhält dann
f(x)
0,9

σ = 0,5

Z∞
e
−∞
0,5
−v 2
2
dv 
-4
-3
-2
-1
=
1
2
3
4
x
2
e−x dx
Z∞ Z2π
0
σ= 2
0
Z∞
−∞
(∗)
σ= 1
0,1
=
Z∞
2
e−y dy =
−∞
2
r e−r dϕ dr =
0
Z∞
0
Z∞ Z∞
2 −y 2
e−x
ZZ
dx dy =
−∞ −∞
2 +y 2 )
e−(x
dx dy
R2
2
2 ∞
2πr e−r dr = −πe−r = π .
0
Hierbei wurde an der mit (∗) bezeichneten Stelle in Polarkoordinaten x = r cos ϕ, y = r sin ϕ
mit dx dy = r dϕ dr transformiert. Die angegebene Formel folgt durch Wurzelziehen. 2
Abb. 10.1
Wir wollen hervorheben, dass wir die Normalverteilung definiert und nicht hergeleitet
haben. Sie ist ein theoretisch formuliertes Verteilungsgesetz. Ob es überhaupt Häufigkeitsverteilungen gibt, die diesem Gesetz genügen bzw. ihm hinreichend“ nahe kommen, ist eine
”
statistische Fragestellung. Wir werden allerdings beweisen, dass die Normalverteilung gut
zur Approximation der Binomialverteilung geeignet ist. Der zentrale Grenzwertsatz zeigt
ebenfalls, inwiefern sich Zufallsgrößen durch die Normalverteilung approximieren lassen.
Einige Eigenschaften der Normalverteilung sollen in der folgenden Aufgabe ermittelt werden.
Wir zeigen nun, dass f eine Dichte mit Mittelwert µ und Streuung σ ist. Zur Veranschaulichung
sind in Abbildung 10.2 die Dichte f (x) und die Verteilungsfunktion F (x) graphisch dargestellt.
Satz 10.2:
f ist eine Wahrscheinlichkeitsdichte, d.h.
Z∞
−∞
f (t) dt =
Z∞
−∞
1 t−µ 2
1
√ e− 2 ( σ ) dt = 1 .
σ 2π
114
10 DIE NORMALVERTEILUNG
1
F
115
10.2 Die standardisierte Normalverteilung
Beweis: Aufgabe. 2
f
Aufgabe 10.2:
Man bestimme die Schiefe der Normalverteilung.
F(x)
0,5
F(x)
f(x)
µ
R
x
0
µ
Abb. 10.2 a
x
Für den Mittelwert µ = 0 und die Streuung σ = 1 ist die Normalverteilung tabelliert (s.
Anhang). In diesem Fall bezeichnen wir die Dichte und die Verteilungsfunktion mit
1 2
1
ϕ(z) = √ e− 2 z
2π
Mit der Substitution v =
−∞
R
Die standardisierte Normalverteilung
Abb. 10.2 b
Beweis:
Z∞
10.2
t−µ
√
σ 2
⇒
1 t−µ 2
1
1
√ e− 2 ( σ ) dt = √
π
σ 2π
dv
dt
=
Z∞
1
√
σ 2
1 t−µ 2
)
σ
Z∞
−∞
f (x) =
dt = µ .
1
ϕ(z) und F (x) = Φ(z) ,
σ
wobei z =
x−µ
.
σ
Satz 10.5:
Sei X eine normalverteilte Zufallsgröße mit Mittelwert µ und Streuung σ, und Z =
die zugehörige standardisierte Zufallsgröße.
Beweis:
1
E(X) = √
π
2
Man beweise, dass zwischen der Dichte f (x) und Verteilungsfunktion F (x) der Gaussverteilung mit Mittelwert µ und Streuung σ und den standardisierten Formen ϕ(z) und Φ(z)
folgender Zusammenhang besteht:
−∞
Mit der Substitution v =
1
e− 2 t dt .
Aufgabe 10.3:
−∞
t e− 2 (
Zz
2
e−v dv = 1. 2
Der Erwartungswert der Normalverteilung ist µ, d.h.
Z∞
1
Φ(z) = √
2π
Um die Tabellen für eine beliebige normalverteilte Zufallsgröße X gebrauchen zu können, muss
man diese in die zugehörige standardisierte Zufallsgröße Z mit dem Mittelwert µ = 0 und der
Streuung σ = 1 transformieren (s. Definition 9.7).
erhält man
Satz 10.3:
1
E(X) = √
σ 2π
und
t−µ
√ ,
σ 2
−v 2
(µ + vσ 2)e
Z∞
µ
dv = √
π
−∞
−v 2
e
−∞
√ Z∞
σ 2
2
dv + √
ve−v dv = µ ,
π
−∞
2
denn das zweite Integral hat den Wert 0, da ve−v eine ungerade Funktion ist. 2
Satz 10.4:
Beweis:
Wegen Aufgabe 10.3 gilt mit den dort verwendeten Bezeichnungen
X −µ
x−µ
P (Z ≤ z) = P
≤
= P (X ≤ x) = F (x) = Φ(z) ,
σ
σ
d.h. Φ(z) ist die Verteilungsfunktion von Z. Wegen Φ′ (z) = ϕ(z) ist ϕ(z) die Dichte von Z. 2
Bemerkung 10.1:
Die Varianz der Normalverteilung ist σ 2 , d.h.
1
V (X) = E(X − µ)2 = √
σ 2π
sei
Dann ist Z ebenfalls normalverteilt mit der Dichte ϕ und der Verteilungsfunktion Φ.
√
also t = µ + vσ 2, erhalten wir
√
X−µ
σ
Z∞
−∞
1 t−µ 2
)
σ
(t − µ)2 e− 2 (
dt = σ 2 .
In Satz 10.5 wurde gezeigt, dass die standardisierte Zufallsgröße einer normalverteilten Zufallsgröße normalverteilt ist. In Satz 17.3 wird allgemeiner bewiesen, dass jede lineare Transformation einer normalverteilten Zufallsgröße normalverteilt.
Außerdem wird im gleichen Abschnitt gezeigt, dass die Summe unabhängiger normalverteilter
Zufallsgrößen stets normalverteilt ist. (s. Satz 17.2).
116
10 DIE NORMALVERTEILUNG
Zu vorgegebenem a und b setzt man also α =
a−µ
σ
und β =
b−µ
σ
und erhält
P (a < X ≤ b) = P (α < Z ≤ β) = Φ(β) − Φ(α).
Diese Werte lassen sich für positive Argumente aus der Tabelle im Anhang ablesen. Bei negativen Argumenten hilft die folgende Aufgabe:
Wir verzichten auf den aufwändigen Beweis. Er findet sich in einschlägigen Analysislehrbüchern.
Bemerkung 10.2:
√
Die Tilde ∼ bedeutet, dass n! und 2πn
lim √
Aufgabe 10.4:
n→∞
Zeigen Sie, dass für die Verteilungsfunktion Φ der standardisierten Normalverteilung gilt:
Φ(−z) = 1 − Φ(z).
Beispiel 10.1:
P (24 < X ≤ 28) = P (0, 25 < Z ≤ 1, 25) = Φ(1, 25)−Φ(0, 25) = 0, 89435−0, 59871 = 0, 29564 .
asymptotisch gleich sind, d.h.
Satz 10.7: (Lokaler Grenzwertsatz von de Moivre und Laplace)
Sei 0 < p < 1 und q = 1 − p. Weiterhin sei (xn ) eine Folge mit den Eigenschaften
(i) xn ∈ {0, 1, . . . , n}
(ii) (zn ) mit zn =
und
xn −np
√
npq
ist eine beschränkte Folge.
Dann genügt die Binomialverteilung bn,p (xn ) der Beziehung
Aufgabe 10.5:
Die Zufallsgröße X sei normalverteilt mit Mittelwert µ und Streuung σ. Man bestimme die
Wahrscheinlichkeit dafür, dass die Werte von X in folgenden Intervallen liegen:
[µ − σ, µ + σ] ,
n!
n = 1 .
2πn ne
n n
e
Der folgende Satz zeigt, dass für große n die Binomialverteilung bn,p (x) gut durch die Normalverteilung fn (x) mit gleichem Mittelwert und gleicher Streuung angenähert wird.
Die maximale Tagestemperatur X im Juli sei normalverteilt mit dem Mittelwert 23◦ und der
Streuung 4◦ . Wie groß ist die Wahrscheinlichkeit, dass sie zwischen 24◦ und 28◦ liegt?
24 − 23
28 − 23
a = 24◦ −→ α =
= 0, 25 ,
b = 28◦ −→ β =
= 1, 25 ;
4
4
Aus der Tabelle auf Seite 236/237 entnimmt man also
(a)
117
10.3 Die Grenzwertsätze von de Moivre und Laplace
(b)
[µ − 2σ, µ + 2σ] ,
(c)
[µ − 3σ, µ + 3σ] .
Man vergleiche diese Ergebnisse mit den Werten, die die Tschebyschewsche Ungleichung
(Satz 9.9) liefert.
bn,p (xn ) ∼ fn (xn ) =
1
ϕ(zn ) ;
σn
hierbei sei fn die Normalverteilung mit µn = np und σn =
√
npq .
Beweis:
Aufgabe 10.6:
Wir schreiben im folgenden aus Gründen der Übersichtlichkeit x statt xn und z statt zn .
Die Masse m von 800 Männern sei normalverteilt mit dem Mittelwert µ = 71 kg und der
Standardabweichung σ = 6 kg. Wieviele Männer wiegen
Der Beweis erfolgt in mehreren kleinen Schritten.
(a) zwischen 70 und 75 kg?
10.3
(b) über 78 kg?
Die Grenzwertsätze von de Moivre und Laplace
In diesem Abschnitt beweisen wir die Grenzwertsätze von de Moivre und Laplace. Mit
ihnen lassen sich Werte der Binomialverteilung näherungsweise mittels der Normalverteilung zu berechnen. Für den Beweis braucht man eine von Stirling gefundene Formel,
die Fakultäten durch Potenzen approximiert.
Satz 10.6: (Formel von Stirling)
n n
√
n! ∼
2πn
.
e
1. Mit y := n − x erhalten wir
n! x y
n x n−x
p q .
p q
=
bn,p (x) =
x! y!
x
Aus z =
x−np
√
npq
ergibt sich
r
q npq = np 1 + z
;
np
r
p √
y = n − x = nq − z npq = nq 1 − z
.
nq
x
= np + z
√
(1)
Bei beschränktem z folgt x → ∞ und y → ∞ für n → ∞.
2. Wir ersetzen n!, x! und y! in bn,p (x) mit Hilfe der Stirlingschen Formel. Wegen ex+y = en
118
10 DIE NORMALVERTEILUNG
und nn = nx · ny erhält man
n n
√
r
2πn
n np x nq y
1
x x √e
y y p x q y = √
bn,p (x) ∼ √
.
y
2π xy x
2πx
2πy
e
e
6. Durch Einsetzen in (3) ergibt sich
Bemerkung 10.3:
Man kann zeigen, dass die in Satz 10.7 bewiesene Approximation der Binomial- durch die
Normalverteilung gleichmäßig“ ist. Das soll bedeuten:
”
Zu fest gewählten α, β ∈ R mit α < β sei F die Menge aller reellen Folgen (xn ) mit den
−np
Eigenschaften xn ∈ {0, 1, . . . , n} und α ≤ zn = x√n npq
≤ β.
r r q
p
xy
= npq 1 + z
1−z
,
n
np
nq
r
r
q
p
y
x
= 1+z
,
= 1−z
.
np
np
nq
nq
Das setzen wir in (2) ein:
(3)
4. Wir wenden die Taylorentwicklung des natürlichen Logarithmus
ln (1 + t) = t −
t2 t3
+ + höh. Potenzen von t ,
2
3
auf die beiden Potenzen in (3) an und verwenden (1):
r
r
q −x− 21
q 1+z
ln
= − x + 12 ln 1 + z
np
np
r
q
1
1
z2 q
c1
√
z
−
+ 1,5 + höh. Pot. von 1/2
= − np + z npq +
2
np
2 np n
n
z2
c2
1
√
2
= −z npq − z q + q + 1/2 + höh. Pot. von 1/2 ;
2
n
n
r
r
p −y− 21
p = − y + 21 ln 1 − z
1−z
ln
nq
nq
r
p
1
1
z2 p
c3
√
= − nq − z npq +
−z
−
+ 1.5 + höh. Pot. von 1/2
2
nq
2 nq n
n
2
z
1
c
√
4
= z npq − z 2 p + p + 1/2 + höh. Pot. von 1/2 .
2
n
n
5. Durch Addition erhalten wir den Logarithmus des Produkts der beiden letzten Terme aus
(3) (man beachte p + q = 1):
r
r
q −x− 21
p −y− 21
z2
1
c
1+z
ln
1−z
= − + 1/2 + höh. Pot. von 1/2 .
np
nq
2
n
n
Durch Davorschalten“ der Exponentialfunktion auf beiden Seiten erhält man
”
r
r
2
1
1
1 )
− z2 + c + (höh. Pot. von
z2
q −x− 2 p −y− 2
n1/2
n1/2
1−z
= e
∼ e− 2 .
1+z
np
nq
z2
1
1
1
e− 2 = fn (x) =
ϕ(zn ). 2
bn,p (x) ∼ √ √
npq
σ
2π
n
(2)
3. Aus (1) ergibt sich
r
r
1 1
q −x− 21 p −y− 21
1+z
1−z
.
bn,p (x) ∼ √ √
np
nq
2π npq
119
10.3 Die Grenzwertsätze von de Moivre und Laplace
Dann gibt es zu jedem ε > 0 ein N (ε), so dass für alle n ≥ N (ε) und für alle Folgen aus F gilt
bn (xn )
< ε.
−
1
fn (xn )
In der Praxis ist Satz 10.7 kaum eine Hilfe. Man ist z.B. im allgemeinen nicht an der Wahrscheinlichkeit für genau 100 fehlerhafte Stücke in einer Sendung von n = 10000 Stück interessiert, sondern möchte die Wahrscheinlichkeit dafür wissen, dass die Lieferung nicht mehr als
100 unbrauchbare Stücke enthält. Demnach wird nicht nach bn,p (100) gefragt, sondern nach
100
P
der Summe
bn,p (x). Da hilft der integrale Grenzwertsatz weiter.
x=0
Satz 10.8: (Integraler Grenzwertsatz von de Moivre und Laplace)
Die Zufallsgrößen Xn seien binomialverteilt mit P (Xn = x) = bn,p (x), wobei 0 < p < 1 und
q = 1 − p. Dann gilt für alle α ≤ β
1
Xn − np
≤β = √
lim P α < √
n→∞
npq
2π
Beweis:
Es gilt P
Xn − np
α< √
≤β
npq
=
X
Zβ
t2
e− 2 dt = Φ(β) − Φ(α) .
α
bn,p (x).
√
≤β
α< x−np
npq
Da hier Wahrscheinlichkeiten der Zufallsgrößen Xn summiert werden, bei denen die Werte der
(x)
−np
= 1.
beschränkt sind, gilt nach Satz 10.7 lim bfn,p
normalisierten Zufallsgrößen Zn = X√nnpq
n (x)
n→∞
Wegen der Gleichmäßigkeit dieser Approximation (s. Bemerkung 10.3) gilt mit der Abkürzung
√
z = z(x) = x−np
für genügend großes n
npq
b (x)
z2 1
n,p
−
< √ ε
2
√
·e
− 1 < ε , und weiter bn,p (x) −
z2
1
2πnpq
2πnpq
−
√2πnpq e 2
120
10 DIE NORMALVERTEILUNG
z2
wegen e− 2 ≤ 1. Wir erhalten unter Verwendung der Dreiecksungleichung
X
X X
z 2 z2
1
1
√
bn,p (x) −
bn,p (x) − √
· e− 2 = e− 2 x−np
2πnpq
2πnpq
α< √npq ≤β
α< x−np
√
√
≤β
≤β
α< x−np
npq
npq
≤
X
√
≤β
α< x−np
npq
wobei Kn = int(np +
ist.
z2
bn,p (x) − √ 1
· e− 2
2πnpq
√
npq β) − int(np +
Wegen z(x) − z(x − 1) =
X
√
≤β
α< x−np
npq
√
x−np
√
npq
z2
1
e− 2
2πnpq
−
=
x−1−np
√
npq
√
=
X
npq α) ≈
√1
npq
X
√
≤β
α< x−np
npq
√
Rβ
npq (β − α) die Anzahl der Summanden
→ 0 für n → ∞ ist
α
+
√
≤β
α< x−np
npq
Für 0 < p < 1 gilt
lim P
n→∞
10.4
Xn − np
≤z
√
npq
Zβ
α
t2
e− 2
dt
X
2 X
z
1
−
√
≤ e 2 bn,p (x) −
x−np
2πnpq
x−np
α< √npq ≤β
α< √npq ≤β
Zβ
X
2
2
t
z
1
1 −
−
√ e 2 (z(x) − z(x − 1)) − √
e 2 dt +
x−np
2π
2π
α< √npq ≤β
α
δ δ
<
+
= δ,
2 2
was schon die behauptete Aussage darstellt. 2
= lim
n→∞
X
x−np
√
≤z
npq
1
bn,p (x) = √
2π
Zz
t2
e− 2 dt = Φ(z) .
−∞
x
0
1
2
3
4
5
6
7
8
bn,p (x)
1
256
8
256
28
256
56
256
70
256
56
256
28
256
8
256
1
256
t2
z2
1
1
√ e− 2 (z(x) − z(x − 1)) − √
2π
2π
Anwendungen der Normalapproximation
e− 2 dt. Für großes n kann man deshalb folgen-
dermaßen abschätzen:
Zβ
t2
X
−
np
1
−
P α < √
2 dt √
e
≤
β
−
npq
2π
α
X
X
z2
1
√ e− 2 (z(x) − z(x − 1))
= bn,p (x) −
x−np
2π
α< √npq ≤β
√
≤β
α< x−np
npq
X
Mit etwas anderen Methoden10 kann man auf die Beschränktheit der standardisierten Zufallsgröße Z verzichten und erhält direkt die Konvergenz der Verteilungsfunktion der standardisierten Binomialverteilung gegen die Verteilungsfunktion der Normalverteilung:
Wir bezeichnen die Approximation der Binomialverteilung nach den Sätzen 10.7 und 10.8
durch die Normalverteilung als Normalapproximation. Zur Anschauung vergleichen
wir in Abb. 10.3 die Binomialverteilung graphisch mit n = 8 und p = q = 21 mit ihrer Normalapproximation. Die Werte der Binomialverteilung sind
1
√ e− 2 (z(x) − z(x − 1))
2π
√1
2π
Bemerkung 10.4:
ε
εKn
√
= √
,
2πnpq
2πnpq
z2
√
≤β
α< x−np
npq
eine Riemannsche Summe des Integrals
<
121
10.4 Anwendungen der Normalapproximation
80
70
60
50
40
30
20
10
y [
]
0
Normalverteilung
Binomialverteilung
1
2
3
4
5
6
7
8
x
Abb. 10.3
Beispiel 10.2:
56
= 0, 21875 der Binomialverteilung (vgl. Abb.10.3) auf zwei
Wir wollen den Wert b8, 1 (3) = 256
2
verschiedene Arten mit Hilfe der Normalverteilung annähern. Hierzu bestimmen wir zunächst
r
1
1 1 √
√
µ = n · p = 8 · = 4 und σ = npq = 8 · · = 2 ≈ 1, 41 .
2
2 2
Nach Satz 10.7 erhält man
1
3−4
−1
1
1
1
=√ ϕ √
= √ e− 4 ≈ 0, 21970.
b8, 1 (3) ≈ √ ϕ √
2
2 π
2
2
2
2
10
vgl. z.B. M. Fisz, Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 167 f.
122
123
10 DIE NORMALVERTEILUNG
11
Die Abschätzung ist recht genau: Der Fehler beträgt weniger als 0, 5 %.
Man kann aber auch Satz 10.8 anwenden. Hierbei ist es naheliegend, die Wahrscheinlichkeit
P (2, 5 < X ≤ 3, 5) = P (X = 3) = b8, 1 (3) durch die Normalapproximation auszuwerten (man
2
beachte, dass die Binomialverteilung nur ganzzahlige Werte annimmt).
Wir setzten also a = 2, 5 → α =
Aufgabe 10.4 erhält man dann
2,5−4
√
2
≈ −1, 061 und b = 3, 5 → β =
3,5−4
√
2
≈ −0, 354. Mit
Verteilungen von Zufallsvektoren
Häufig betrachtet man mehrere auf der gleichen Menge definierte Zufallsgrößen. Körpergröße
und Gewicht der Personen einer Gruppe sind ein Beispiel dafür. Fasst man zwei oder mehr
Größen zu Paaren oder n–Tupeln zusammen, so erhält man Zufallsvektoren
(X, Y )
bzw.
(X1 , . . . , Xn ) ;
man spricht auch von mehrdimensionalen Zufallsgrössen.
b8, 1 (3) = P (2, 5 < X ≤ 3, 5) ≈ Φ(−0, 354) − Φ(−1, 061) = 1 − Φ(0, 354) − (1 − Φ(1, 061))
Wir wollen uns hier mit Verteilungen von Zufallsvektoren beschäftigen. Die damit zusammenhängenden Begriffe erklären wir zunächst an einem Beispiel.
Hierbei wurden die Werte der Normalverteilung aus den Tabellenwerten interpoliert.
Beispiel 11.1:
Aufgabe 10.7:
Beim Roulettespiel wird stets eine der 37 Zahlen 0, 1, . . . , 36 ausgespielt. Wir betrachten das
Setzen auf die Kolonne K = {1, 2, . . . , 12} bzw. auf die Impair genannte Menge der ungeraden
Zahlen U = {1, 3 . . . , 35}.
2
= Φ(1, 061) − Φ(0, 354) ≈ 0, 85566 − 0, 63833 = 0, 21733 .
Mit Hilfe der Normalapproximation schätze man folgende Werte der Binomialverteilung b20; 1 :
2
b20; 1 (12) ≈ 0, 12013 und
2
12
X
P (8 < X ≤ 12) =
b20; 1 ≈ 0, 16018 + 0, 17620 + 0, 16018 + 0, 12013 = 0, 61669 .
2
x=9
Es handle sich um ein Laplace–Experiment, und die Zufallsgrößen X bzw. Y mögen den
Reingewinn beim Setzen einer Einheit auf K bzw. U angeben.
Beim Eintreten von K erhält man den dreifachen Einsatz ausbezahlt (Reingewinn 2 Einheiten),
hat X die Verteilung
andernfalls verliert man den Einsatz. Wegen P (K) = 12
37
Aufgabe 10.8:
Eine homogene Münze wird 75–mal geworfen. Man bestimme die Wahrscheinlichkeit dafür,
dass die Anzahl mit der Kopf“ fällt, zwischen 40 (einschließlich) und 50 (einschließlich) liegt.
”
Aufgabe 10.9:
Man bestimme die Lösungen der Aufgaben 8.10 und 8.11 mit Hilfe der Normalapproximation.
Eine ideale Münze wird 2n–mal geworfen, und X zählt, wie oft Kopf“ erscheint. Zeigen Sie,
”
dass für großes n für die Wahrscheinlichkeit, genau n Erfolge zu erzielen, gilt
Aufgabe 10.11:
Lösen Sie das Buffonsche Münzwurfproblem (vgl. Aufgabe 7.9) mit Hilfe des Satzes 10.8.
2
12
37
−1
25
37
Beim Spiel auf einfache Chancen gibt es eine Sonderregelung. Wird eine ungerade Zahl ausgespielt, bekommt man den doppelten Einsatz ausbezahlt, erscheint die 0, kann man den halben
Einsatz herausnehmen, in allen anderen Fällen verliert man den Einsatz. Y hat daher die
folgende Verteilung:
Aufgabe 10.10:
1
P (X = n) ≈ √ .
πn
xi
P (X = xi ) = f1 (xi )
yi
1
P (Y = yi ) = f2 (yi )
18
37
− 21
1
37
−1
18
37
Setzen wir jetzt je eine Einheit auf K und auf U , so werden die beiden Gewinne durch den
Zufallsvektor (X, Y ) beschrieben. Treten z.B. die Ereignisse K und U zugleich ein, d.h.
das Ereignis K ∩ U = {1, 3, 5, 7, 9, 11}, dann nimmt X den Wert 2 und Y den Wert 1 an. Wir
schreiben dafür
6
.
P (X = 2, Y = 1) := P (K ∩ U ) =
37
Analog ergibt sich
P (X = 2, Y = − 21 )
P (X = 2, Y = −1)
P (X = −1, Y = 1)
:=
:=
:=
P (X = −1, Y = − 21 ) :=
P (K ∩ {0})
C
P (K ∩ (U \ {0}))
C
P (K ∩ U )
P (K C ∩ {0})
C
C
=
P (∅)
=
P ({2, 4, . . . , 12})
= 0,
=
= P ({13, 15, . . . , 35}) =
=
P ({0})
=
P (X = −1, Y = −1) := P (K ∩ (U \ {0})) = P ({14, 16, . . . , 36}) =
6
37
12
37
1
37
12
37
,
,
,
.
124
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
Wir fassen diese Ergebnisse in einer Tabelle zusammen:
Y = − 12
Y =1
X=2
X = −1
f2 (y)
6
37
12
37
f2 (1) =
Definition 11.2: (gemeinsame Verteilung eines diskreten Zufallsvektors)
Y = −1
1
37
f2 (− 21 )
=
1
37
f2 (−1) =
(X, Y ) sei ein diskreter Zufallsvektor. Dann heißt die Funktion f : R × R → [0, 1] mit
f1 (x)
6
37
12
37
0
18
37
125
11.1 Diskrete zweidimensionale Verteilungen
12
37
25
= 37
f1 (2) =
f1 (−1)
18
37
1
f (x, y) := P (X = x, Y = y) = P ({ω | X(ω) = x ∧ Y (ω) = y})
gemeinsame Verteilung der beiden diskreten Zufallsgrößen X und Y oder auch Wahrscheinlichkeitsfunktion des Zufallsvektors (X, Y ).
Die Summen der Zeilen liefern die Wahrscheinlichkeiten, mit denen die Zufallsgröße X ihre
Werte annimmt; die Summen der Spalten ergeben die Wahrscheinlichkeiten für die Werte von
Y.
Man beachte, dass f (x, y) = 0 ist, sofern x nicht in der Bildmenge {xi } von X oder y nicht in
der Bildmenge {yj } von Y liegt.
Die Tabelle enthält die Werte einer Funktion f : R × R → [0, 1] der beiden Variablen x und y.
Abbildung 11.1 zeigt ihren Graphen als Stabdiagramm.
Satz 11.1:
f(x,y) = P(X=x,Y=y)
x
X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre
gemeinsame Verteilung. Dann gilt
XX
f (xi , yj ) = 1.
xi
yj
y
Beweis:
(2,1)
2
Wir betrachten die Ereignisse
(2,-0.5)
1
(2,-1)
1
0
(-1,1)
-0.5
-1
-1
(-1,-0.5)
(-1,-1)
Abb. 11.1
Wir kommen nun zur allgemeinen Begriffsbildung. Dabei werden wir uns weitgehend auf die Betrachtung zweidimensionaler Zufallsvektoren beschränken und auf Verallgemeinerungsmöglichkeiten nur hinweisen.
11.1
Diskrete zweidimensionale Verteilungen
Definition 11.1: (diskreter Zufallsvektor)
Ein Zufallsvektor (X, Y ) : Ω 7→ R × R heißt diskret, wenn X und Y jeweils nur
abzählbar viele Werte xi und yj annehmen.
Ai := X −1 (xi ) = {ω | X(ω) = xi } und Bj := Y −1 (yj ) = {ω | Y (ω) = yj .}
S
Die Ereignisse Ai sind paarweise disjunkt, und es gilt Ai = Ω, denn jedes ω ∈ Ω wird durch X
i
S
auf genau ein xi abgebildet. Entsprechend sind auch die Bj paarweise disjunkt mit Bj = Ω.
j
S S S
Man erhält daher Ω = Ω ∩ Ω =
Ai ∩
Bj = (Ai ∩ Bj ) . Wegen der Disjunktheit der
i
j
i,j
Ereignisse Ai ∩ Bj erhält man nach dem 1. und dem 3. Axiom von Kolmogorow
X
X
X
P (Ai ∩ Bj ) =
1 = P (Ω) =
P (X = xi , Y = yj ) =
f (xi , yj ) . 2
xi ,yj
i,j
xi ,yj
Satz 11.2:
X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre
gemeinsame Verteilung.
Dann sind die Wahrscheinlichkeitsverteilung f1 der Zufallsgröße X und die zugehörige Verteilungsfunktion F1 bestimmt durch
X
XX
f1 (x) = P (X = x) =
f (x, yj ) und F1 (x) = P (X ≤ x) =
f (xi , yj ).
yj
Eine entsprechende Aussage gilt für die Zufallsgröße Y .
xi ≤x yj
126
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
Beweis:
S
S
Mit den in Satz 11.1 verwendeten Bezeichnungen gilt Ai = Ai ∩ ( Bj ) = (Ai ∩ Bj ), und
j
j
diese Mengen sind paarweise disjunkt. Daher gilt für alle xi aus der Wertemenge von X
X
X
X
f (xi , yj ) .
P (X = xi , Y = yj ) =
P (Ai ∩ Bj ) =
f1 (xi ) = P (X = xi ) = P (Ai ) =
Satz 11.3:
Für die Verteilungsfunktion eines diskreten Zufallsvektors (X, Y ) gilt
X
f (xi , yj ) .
F (x, y) = P (X ≤ x, Y ≤ y) =
xi ≤x
yj ≤y
yj
yj
j
127
11.1 Diskrete zweidimensionale Verteilungen
Für alle x ∈ R, die nicht im Wertebereich von X liegen, gilt f1 (x) = 0 und f (x, yj ) = 0 für alle
yj , d.h. die Gleichung gilt in diesem Fall auch.
Beweis:
Die behauptete Darstellung für F1 folgt durch Einsetzen der Darstellung von f1 in
X
X
F1 (x) = P (X ≤ x) =
P (X = xi ) =
f1 (xi ). 2
Die Funktion F ist also eine 2–dimensionale Treppenfunktion über der x–y–Ebene. Die Treppe
steigt zur Höhe 1 auf. Ein qualitatives Bild der Verteilungsfunktion, die man aus der Tabelle auf
Seite 124 entnehmen kann, zeigt Abb. 11.2. In dieser Graphik sind die Verteilungsfunktionen
F1 und F2 der beiden Zufallsgrößen X und Y , die in Richtung der beiden Koordinatenachsen
definiert sind, durch dickere Linien hervorgehoben.
xi ≤x
xi ≤x
Aufgabe. 2
Demnach erhält man die Wahrscheinlichkeitsfunktionen der Zufallsgrößen X und Y direkt aus
der gemeinsamen Verteilung durch geeignete Summenbildung. Trägt man wie auf Seite 124
die Werte P (X = xi , Y = yj ) in eine Matrix ein und addiert über die einzelnen Zeilen bzw.
Spalten, so ergeben sich am Rand die Werte der Wahrscheinlichkeitsfunktionen von X und Y ,
also f1 (xi ) = P (X = xi ) bzw. f2 (yj ) = P (Y = yj ).
F(x,y)
F2
y
Definition 11.3: (Randverteilungen diskreter Zufallsvektoren)
f : R × R → [0, 1] sei die Verteilung des diskreten Zufallsvektors (X, Y ). Dann heißen
X
X
f1 (x) = P (X = x) =
f (x, yj ) bzw. f2 (y) = P (Y = y) =
f (xi , y)
yj
x
F1
y
xi
1
Randverteilung der Zufallsgröße X bzw. der Zufallsgröße Y .
Die zugehörigen Verteilungsfunktionen F1 (x) = P (X ≤ x) bzw. F2 (y) = P (Y ≤ y) heißen
Verteilungsfunktion der Randverteilung von X bzw. von Y .
(2,-1)
-1
0
1
2
(-1,1)
Man beachte: Statt f benutzten wir früher den Buchstaben p.
x
Analog zur Verteilungsfunktion einer eindimensionalen Zufallsgröße legen wir eine Verteilungsfunktion mit zwei Variablen für den Zufallsvektor (X, Y ) fest.
y
(-1,-0.5)
(-1,-1)
3D-Darstellung
Abb. 11.2 a
x
-0,5
-1
Grundriß
Abb. 11.2 b
Definition 11.4: (Verteilungsfunktion eines Zufallsvektors)
Bemerkung 11.1:
Die Funktion F : R × R → [0, 1] mit
Die in diesem Abschnitt eingeführten Bezeichnungen lassen sich leicht für n-dimensionale Zufallsvektoren (X1 , . . . , Xn ) : Ω → Rn verallgemeinern:
F (x, y) := P (X ≤ x, Y ≤ y) := P ({ω ∈ Ω | X(ω) ≤ x ∧ Y (ω) ≤ y})
heißt Verteilungsfunktion des Zufallsvektors (X, Y ).
(X1 , . . . , Xn ) heißt diskret, wenn jede der Zufallsgrößen Xj nur abzählbar viele Werte annimmt.
Auch die Verteilungsfunktion des Zufallsvektors erhält man im diskreten Fall duch Summation:
f (y1 , . . . , yn ) = P (X1 = y1 , . . . , Xn = yn ) heißt gemeinsame Verteilung der Zufallsgrößen
X1 , . . . , Xn oder Wahrscheinlichkeitsverteilung des Zufallsvektors (X1 , . . . , Xn ). Es gilt
128
P
x1
···
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
P
f (x1 , . . . , xn ) = 1, wobei xj in der Summe alle Werte durchläuft, die die Zufallsgröße
diese (mit noch zu bestimmendem Proportionalitätsfaktor α)
xn
Xj annimmt.
fj (yj ) = P (Xj = yj ) ist die Randverteilung der Zufallsgröße Xj . Man erhält ihre Werte,
indem man die Werte von f (x1 , . . . , yj , . . . , xn ) aufsummiert, wobei yj an der j-ten Stelle festgehalten wird und die anderen Variablen alle angenommenen Werte der jeweils zugehörigen
Zufallsgröße durchlaufen.
F (y1 , . . . , yn ) = P (X1 ≤ y1 , . . . , Xn ≤ yn ) ist die Verteilungsfunktion des Zufallsvektors (X1 , . . . , Xn ) und Fj (yj ) = P (Xj ≤ yj ) die Verteilungsfunktion der Randverteilung von Xj . Man erhält diese Verteilungsfunktionen ebenfalls durch geeignete Summenbildung.
11.2
f (x, y) =
(
αH
(R −
R
p
x2 + y 2 )
für
0
p
x2 + y 2 ≤ R,
sonst.
Wir betrachten jetzt den Kreiskegel von oben. Dabei stechen wir durch achsenparallele, senkrechte Schnitte aus ihm ein Stück heraus und durchsuchen es (siehe Abb. 11.4).
Die Wahrscheinlichkeit, dabei erfolgreich zu sein, bezeichnen wir mit F (x, y). Die Dichte f ist
so festgelegt, dass ihr Integral gerade F liefert:
F (x, y) = P (X ≤ x, Y ≤ y) =
Stetige zweidimensionale Verteilungen
129
11.2 Stetige zweidimensionale Verteilungen
Zx Zy
f (ξ, η) dη dξ .
−∞ −∞
Die Definition 11.4 für die Verteilungsfunktion lässt sich nicht nur auf diskrete, sondern auf alle
Zufallsgrößen anwenden. Man bezeichnet einen Zufallsvektor als stetig, wenn seine Verteilungsfunktion stetig ist. In den meisten Fällen setzt man allerdings die Existenz einer Wahrscheinlichkeitsdichte voraus. Wir motivieren die Dichte eines Zufallsvektors anhand eines geometrischen
Problems.
Beispiel 11.2:
Durch ein Sieb geworfener Kies bildet einen geraden Kreiskegel der Höhe H mit dem Grundkreisradius R (Abb. 11.3). Ist in diesem Haufen eine Stecknadel versteckt, die es zu suchen gilt,
so ist die Wahrscheinlichkeit, fündig zu werden, proportional zum durchsuchten Volumen. Wir
denken uns nun den Kegel in sehr schmale, senkrecht stehende Säulen aufgeteilt. Deren Volumen ist jeweils der Höhe h und der Grundfläche I proportional. Also ist die Wahrscheinlichkeit,
in einer solchen Säule das Objekt zu finden αhI, α Proportionalitätsfaktor.
Allgemein ergibt sich der Begriff der Verteilungsfunktion einer zweidimensionalen Zufallsgröße
(X, Y ) im stetigen Fall genauso wie im diskreten, d.h. Definition 11.4 bezieht sich auf beide
Sachverhalte.
Definition 11.5: (gemeinsame Dichte eines stetigen Zufallsvektors)
Eine zweidimensionale Zufallsgröße (X, Y ) heißt stetig, wenn ihre Verteilungsfunktion
F (x, y) = P (X ≤ x, Y ≤ y) stetig ist.
Existiert eine (bis auf endlich viele stetig differenzierbare Kurven) überall stetige Funktion
f : R × R → R+
0 , so dass für die Verteilungsfunktion F von (X, Y ) gilt
F (x, y) := P (X ≤ x, Y ≤ y) =
Zx Zy
f (ξ, η) dη dξ ,
−∞ −∞
so heißt f Wahrscheinlichkeitsdichte von (X, Y ) oder gemeinsame Dichte der
Zufallsgrößen X und Y .
η
Bemerkung 11.2:
Wir werden hier i.a. davon ausgehen, dass die Verteilung eines stetigen Zufallsvektors durch
eine Dichte bestimmt ist.
H
(x,y)
h
ξ
r
R
(0,0)
Abb. 11.3
Existiert eine Dichte f , so bestimmt sie die Verteilungsfunktion F . Umgekehrt wird aber wegen
f (x, y) =
(x,y)
Abb. 11.4
Dividiert man durch den Flächeninhalt I des Grundelements, so erhält man die Wahrscheinp
(R − r) = H
(R − x2 + y 2 ) ist
lichkeitsdichte an der betreffenden Stelle. Wegen h = H
R
R
∂ 2 F (x, y)
∂ 2 F (x, y)
=
,
∂x ∂y
∂y ∂x
die Dichte eindeutig durch die Verteilungsfunktion bestimmt, sofern diese zweimal stetig partiell
differenzierbar ist.
Analog zum eindimensionalen Fall beweist man den folgenden Satz:
130
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
x2
x1
Satz 11.4:
Für die Verteilungsfunktion F einer zweidimensionalen Zufallsgröße (X, Y ) gilt
lim F (x, y) =
x→∞
y→∞
Z∞ Z∞
R
f (ξ, η) dη dξ = 1 .
R2
11.5
Der Graph der Dichte beschreibt über der x, y–Ebene eine Fläche. Der Körper zwischen dieser
Fläche und der x, y–Ebene besitzt das Volumen 1. Die Verteilungsfunktion F (x, y) ist das
Volumen des Teilkörpers über der Grundfläche {(ξ, η) | ξ ≤ x, η ≤ y} .
Beispiel 11.2: (Fortsetzung)
f (ξ, η) dη dξ =
−∞ −∞
ZZ
α
ξ 2 +η 2 ≤R2
(X, Y ) bildet
p
H
(R − ξ 2 + η 2 ) dη dξ = α
R
ZZ
h(ξ, η) dη dξ
ξ 2 +η 2 ≤R2
1
1
= α · Volumen des Kegels = α · · Grundfläche · Höhe = α · · πR2 · H .
3
3
Demnach ist α =
f (x, y) =
(
3
πR2 H
3
πR3
und
(R −
R = ] − ∞, x2 ] × ] − ∞, y2 ]
= ]x1 , x2 ] × ]y1 , y2 ] ∪ ] − ∞, x1 ] × ]y1 , y2 ] ∪ ]x1 , x2 ] × ] − ∞, y1 ] ∪ ] − ∞, x1 ] × ] − ∞, y1 ]
= R0 ∪ R1 ∪ R2 ∪ R3
mit den Bezeichnungen der Abbildung.
Die Konstante α in der Dichte bestimmt sich aus
Z∞ Z∞
y1
R3
−∞ −∞
y
2
R0
R1
Beweis: Aufgabe. 2
1 =
131
11.2 Stetige zweidimensionale Verteilungen
p
0
x2 + y 2 )
für
p
x2 + y 2 ≤ R ,
sonst.
Der nächste Satz gilt sowohl für stetige als auch für diskrete Zufallsgrößen.
Satz 11.5:
(X, Y ) sei ein auf dem Stichprobenraum Ω definierter zweidimensionaler Zufallsvektor und
F : R × R → [0, 1] seine Verteilungsfunktion. Dann ist die Wahrscheinlichkeit, dass der
Zufallsvektor in das Rechteck R0 :=]x1 , x2 ]×]y1 , y2 ] abbildet
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) := P ({ω | x1 < X(ω) ≤ x2 ∧ y1 < Y (ω) ≤ y2 })
= F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) .
Beweis:
Wir argumentieren geometrisch (vgl. Abb. 11.5). Hierzu zerlegen wir R = ] − ∞, x2 ]×] − ∞, y2 ]
in vier paarweise punktfremde Mengen und wenden die Axiome von Kolomogorow an:
nach R3
mit der
Wahrscheinlichkeit
“
“
“
R2
“
“
“
“
“
“
R1
“
“
“
“
“
“
R
“
“
“
F (x1 , y1 )
ab.
F (x2 , y1 ) − F (x1 , y1 )
F (x1 , y2 ) − F (x1 , y1 )
F (x2 , y2 )
“
“
“
Damit ergibt sich für die gesuchte Wahrscheinlichkeit P (R0 ) als
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P R \ (R1 ∪ R2 ∪ R3 ) = P (R) − P (R1 ) − P (R2 ) − P (R3 )
= F (x2 , y2 ) − F (x1 , y2 ) − F (x1 , y1 ) − F (x2 , y1 ) − F (x1 , y1 ) − F (x1 , y1 )
= F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) . 2
Satz 11.6:
(X, Y ) sei eine stetige zweidimensionale Zufallsgröße mit der Verteilungsfunktion F und der
gemeinsamen Dichte f . Dann gilt
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) =
Zx2 Zy2
f (x, y) dy dx .
x1 y1
Beweis:
Nach Satz 11.5 ist
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 )
=
=
Rx2 Ry2
−∞ −∞
Rx2 Ry2
x1 −∞
f (x, y) dy dx −
f (x, y) dy dx −
Rx1 Ry2
−∞ −∞
Rx2 Ry1
f (x, y) dy dx −
f (x, y) dy dx =
x1 −∞
Rx2 Ry1
−∞ −∞
Rx2 Ry2
f (x, y) dy dx +
f (x, y) dy dx . 2
x1 y1
Rx1 Ry1
−∞ −∞
f (x, y) dy dx
132
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
Bemerkung 11.3:
Allgemein lässt sich für beliebige reguläre Gebiete G in der x, y–Ebene zeigen
P (X, Y ) ∈ G =
ZZ
133
11.2 Stetige zweidimensionale Verteilungen
(a) Für (x, y) ∈ B1 gilt
F (x, y) =
f (x, y) dy dx .
Zy Zξ
0
G
1
dη dξ +
ξ
0
Zx Zy
y
1
dη dξ =
ξ
0
Zy
dξ +
0
Zx
y
x
dξ = y + y ln .
ξ
y
y
Für (x, y) ∈ B2 erhält man F (x, y) = F (1, y) = y + y ln y1 .
Beispiel 11.3:
Die Zufallsgröße (X, Y ) besitze die Dichte
f (x, y) =
(
1
x
Für (x, y) ∈ B3 erhält man F (x, y) = F (x, x) = x .
für 0 < y < x < 1 ,
0
Für (x, y) ∈ B4 gilt analog F (x, y) = F (1, 1) = 1 .
sonst.
Für (x, y) ∈ B5 ist F (x, y) = 0 .
(a) Wie lautet die Verteilungsfunktion von (X, Y )?
(b) Wie groß ist die Wahrscheinlichkeit dafür, dass die Werte von (X, Y ) innerhalb des achsenparallelen Quadrats mit Seiten der Länge 0.2 liegen, dessen Mittelpunkt in (0.5, 0.3) liegt?
(c) Wie groß ist die mittlere Wahrscheinlichkeitsdichte innerhalb dieses Quadrats?
(b) P (0.4 < X ≤ 0.6 , 0.2 < Y ≤ 0.4) = F (0.6, 0.4) − F (0.6, 0.2) − F (0.4, 0.4) + F (0.4, 0.2)
0,6
0,4
= 0, 4 + 0, 4 ln 0,4
− 0, 2 − 0, 2 ln 0,6
− 0, 4 − 0, 4 ln 0,4
+ 0, 2 + 0, 2 ln 0,4
0,2
0,2
= 0, 4 ln 23 − 0, 2 ln 3 + 0, 2 ln 2 = 0, 2 · ln 32 ≈ 0, 0811 .
(c) Wir dividieren die Wahrscheinlichkeit durch die Fläche 0, 22 :
Wir teilen die Ebene in 5 Bereiche B1 , . . . , B5 ein (s. Abb. 11.6):
B1 = {(x, y) | 0 < x < 1 und 0 < y < x} ,
B3 = {(x, y) | 0 < x < 1 und x ≤ y} ,
2
B5 = R \ (B1 ∪ . . . ∪ B4 ) .
B4 = {(x, y) | 1 ≤ x und 1 ≤ y} ,
η
1
f (x, y) ≈
B2 = {(x, y) | 1 ≤ x und 0 < y < 1} ,
0, 0811
= 2, 0275 .
0, 04
An der Stelle (0.5, 0.3) selbst ist die Dichte f (0.5, 0.3) =
kleiner als 1,5 %.
1
0.5
= 2 . Die Abweichung ist
Auch zu den Verteilungen stetiger Zufallsvektoren existieren Randverteilungen. Sie werden
analog zum diskreten Fall definiert, wobei die Integration an die Stelle der Summation tritt.
B4
B3
Satz 11.7:
Es sei f (x, y) die Dichte einer zweidimensionalen Zufallsgröße (X, Y ). Dann sind
B5
F1 (x) =
B2
B1
Zx Z∞
−∞ −∞
f (ξ, η) dη dξ
und f1 (x) =
Z∞
f (x, η) dη
−∞
die Verteilungsfunktion und die Dichte der Zufallsgröße X. Entsprechendes gilt für Y .
1
ξ
Beweis:
Abb. 11.6
Der erste Teil der Behauptung folgt aus F1 (x) = P (X ≤ x) = P (X ≤ x, Y < ∞). Der zweite
Teil ergibt sich aus f1 (x) = F1′ (x). 2
134
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
Definition 11.6: (Randverteilungen eines stetigen Zufallsvektors)
f sei die Wahrscheinlichkeitsdichte einer stetigen Zufallsgröße (X, Y ). Dann heißen
f1 (x) =
Z∞
f (x, η) dη
bzw. F1 (x) =
Zx
f1 (ξ) dξ =
Z∞
f (ξ, y) dξ
bzw. F2 (y) =
Zy
f2 (η) dη =
(a) Man bestimme die Konstante k so, dass
(
k(x + y)
für 0 ≤ x, y und x + y ≤ 2
f (x, y) =
0
sonst
die Dichtefunktion einer Zufallsgröße (X, Y ) wird.
f (ξ, η) dη dξ .
(b) Bestimmen Sie die zugehörige Verteilungsfunktion F (x, y).
−∞ −∞
−∞
−∞
Z∞ Zy
Entwickeln Sie eine Verallgemeinerung des Satzes 11.5 für 3 (bzw. n) Dimensionen.
Aufgabe 11.3:
Randverteilung der Zufallsgröße X bzw. Verteilungsfunktion der Randverteilung von X. Entsprechend sind die Randverteilung von Y bzw. die zugehörige
Verteilungsfunktion
f2 (y) =
Aufgabe 11.2:
f (ξ, η) dη dξ
−∞ −∞
−∞
−∞
Zx Z∞
11.2 Stetige zweidimensionale Verteilungen
Aufgabe 11.4:
Aufgabe 11.1:
Bestimmen Sie für die Zufallsgröße (X, Y ) aus Beispiel 11.3
(a) die Randverteilungen f1 von X und f2 von Y ,
(b) die Verteilungsfunktionen F1 von X und F2 von Y .
Die Zufallsgröße (X, Y ) besitze die Verteilungsfunktion F mit
(
(1 − e−x )(1 − e−y )
für 0 < x, y
F (x, y) =
0
sonst.
Bestimmen Sie
(a) die Dichte f von (X, Y );
Bemerkung 11.4:
Wie schon im diskreten Fall lassen sich die verwendeten Begriffe auch hier für n-dimensionale
Zufallsvektoren verallgemeinern:
Der Zufallsvektor (X1 , . . . , Xn ) heißt stetig, wenn seine Verteilungsfunktion F (x1 , . . . , xn )
eine stetige Funktion ist.
Gibt es eine – bis auf Nullmengen des Rn – überall stetige Abbildung f : Rn → R+
0 , so dass für
die Verteilungsfunktion gilt
Zx1 Zxn
. . . f (ξ1 , . . . , ξn ) dξn . . . dξ1 ,
F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) =
−∞
−∞
so heißt f gemeinsame Dichte der Zufallsgrößen X1 , . . . , Xn oder Wahrscheinlichkeitsdichte des Zufallsvektors (X1 , . . . , Xn ). Falls f überall stetig ist, gilt
∂ n F (x1 , . . . , xn )
.
∂x1 . . . ∂xn
Die Randverteilung fj der Zufallsgröße Xj erhält man dann durch vollständige Integration
der Funktion f (x1 , . . . , xn ) über alle bis auf die j-te Variable.
f (x1 , . . . , xn ) =
Die Verteilungsfunktion der Randverteilung von Xj ist entsprechend
Z∞
Z∞ Zxj
Fj (xj ) =
. . . . . . f (ξ1 , . . . , ξj , . . . , ξn ) dξn . . . dξj . . . dξ1 .
−∞
−∞
−∞
(b) P (Y < X) .
135
136
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
12
12.2 Erwartungswerte
137
Weitere Eigenschaften von Zufallsvektoren
12.1
Nach Satz 12.2 ist daher bei unabhängigen Zufallsgrößen die gemeinsame Verteilung bzw.
Dichte durch die Verteilungen der einzelnen Zufallsgrößen bereits bestimmt.
Unabhängige Zufallsgrössen
Zwei Ereignisse A, B sind unabhängig, wenn P (A ∩ B) = P (A) · P (B) gilt. Da die Urbilder
von Intervallen unter Zufallsgrößen Ereignisse sind, liegt es nahe, die Unabhängigkeit von Zufallsgrößen über die Unabhängigkeit der Urbilder bestimmter Intervalle zu definieren.
Beweisen Sie Satz 12.2 für diskrete Zufallsgrößen.
Definition 12.1: (Unabhängigkeit zweier Zufallsgrößen)
Bemerkung 12.1:
(X, Y ) sei ein (diskreter oder stetiger) Zufallsvektor mit der Verteilungsfunktion F und den
Randverteilungsfunktionen F1 und F2 .
Für diskrete Zufallsgrössen bedeutet Satz 12.2, dass P (X = x, Y = y) = P (X = x) · P (Y = y)
eine zur Unabhängigkeit äquivalente Bedingung ist.
X und Y heißen unabhängig, wenn für alle x, y ∈ R gilt
Für stetige Zufallsgrößen lässt sich die Voraussetzung, dass f , f1 und f2 überall stetig sind,
folgendermassen abschwächen:
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y),
d.h. F (x, y) = F1 (x) · F2 (y) .
Aufgabe 12.1:
In der Äquivalenz X, Y unabh. ⇔ f (x, y) = f1 (x)f2 (y)“ gilt ⇐“ auch, wenn die Funktionen
”
”
nicht überall stetig sind und ⇒“ jedenfalls an allen Stetigkeitsstellen von f , f1 und f2 .
”
Satz 12.1:
Beispiel 12.1:
X und Y sind genau dann unabhängig, wenn für alle x1 , x2 , y1 , y2 ∈ R gilt
Die beiden in Beispiel 11.1 behandelten Zufallsgrößen X und Y sind nicht unabhängig. Das
zeigt die Tabelle auf Seite 124. Man erkennt z.B.
12 18
6
6=
·
= f1 (2) · f2 (1) .
f (2, 1) =
37
37 37
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P (x1 < X ≤ x2 ) · P (y1 < Y ≤ y2 ) .
Beweis: Aufgabe. 2
Definition 12.2: (Unabhängigkeit von n Zufallsgrößen)
Satz 12.2:
X und Y seien Zufallsgrößen, f ihre gemeinsame Verteilung bzw. Dichte und f1 bzw. f2 die
Randverteilungen. X und Y seien entweder beide diskret oder beide stetig; im zweiten Fall
sollen f , f1 und f2 überall stetige Funktionen sein.
Dann sind X und Y genau dann unabhängig, wenn für alle x, y ∈ R gilt
Die Zufallsgrößen X1 , . . . , Xn mit der gemeinsamen Verteilungsfunktion F und den Verteilungsfunktionen Fj der Randverteilungen von Xj heißen unabhängig, wenn für alle
x1 , . . . , xn ∈ R gilt
F (x1 , . . . xn ) = F1 (x1 ) · . . . · Fn (xn ) .
Zufallsgrößen, die nicht unabhängig sind, heißen abhängig.
f (x, y) = f1 (x) · f2 (y) .
Bemerkung 12.2:
Beweis:
Wir beweisen die Behauptung für den Fall, dass X und Y stetig sind.
X und Y seien unabhängig. Dann gilt wegen Bemerkung 11.2
∂ 2 F1 (x) · F2 (y)
∂ 2 F (x, y)
∂F1 (x) ∂F2 (y)
f (x, y) =
=
=
·
= f1 (x)f2 (y).
∂x ∂y
∂x ∂y
∂x
∂y
Umgekehrt gelte f (x, y) = f1 (x)f2 (y). Dann erhält man
Zy
Zx
Zx Zy
Zx Zy
f1 (ξ) f2 (η) dη dξ =
f1 (ξ) dξ · f2 (η) dη = F1 (x)F2 (y). 2
f (ξ, η) dη dξ =
F (x, y) =
−∞ −∞
−∞ −∞
−∞
−∞
Man kann analog zu Satz 12.2 zeigen, dass bei nur stetigen oder nur diskreten Zufallsgrößen
X1 , . . . , Xn im Wesentlichen die Bedingung
f (x1 , . . . , xn ) = f1 (x1 ) · . . . · fn (xn ) für alle x1 , . . . , xn ∈ R
notwendig und hinreichend für die Unabhängigkeit ist.
12.2
Erwartungswerte
In Beispiel 11.1 betrachteten wir das Roulettespiel, wobei auf die Kolonne K = {1, . . . , 12}
bzw. die Menge der ungeraden Zahlen U = {1, 3, . . . , 35} gesetzt werden sollte.
138
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
139
12.2 Erwartungswerte
Beispiel 12.2:
Der Roulettespieler interessiert sich nach jedem Einzelspiel für die Gewinnsumme, die ihm seine
beiden Einsätze eingebracht haben. Diese wird durch die Zufallsgröße X + Y angegeben. Die
Verteilung dieser Summengröße ist durch die gemeinsame Verteilung der beiden Zufallsgrößen
X und Y bestimmt. Aus der Tabelle auf Seite 124 lassen sich die Werte, die X + Y annehmen
kann und die zugehörigen Wahrscheinlichkeiten entnehmen.
−1
x
2
2
2
y
1
x+y
3
− 21
−1
1
0
P (X = x, Y = y)
6
37
0
6
37
12
37
3
2
1
−1
−1
− 32
−2
− 21
1
37
Beweis: Aufgabe. 2
Aufgabe 12.3:
Die Zufallsgröße (X, Y ) besitze eine konstante Dichte in dem Quadrat ]0, 1] × ]0, 1].
(a) Man bestimme die Funktionen H(z) und h(z) zur Zufallsgröße Z = X + Y .
(b) Man berechne die Randverteilungen von X und Y , deren Mittelwerte und Varianzen.
−1
Aufgabe 12.4:
12
37
In diesem Beispiel ist P (X = x, Y = y) = P (X + Y = x + y), denn jede Summe kann nur
auf eine Art zustande kommen. Für den Erwartungswert der Summengröße X + Y ergibt sich
daher
3
6
12 3 1
12
6
+ ·0+1·
+0·
− ·
−2·
37 2
37
37 2 37
37
36 + 12 − 3 − 48
3
1
1
=
=− =− −
= E(X) + E(Y ) .
74
74
37 74
E(X + Y ) = 3 ·
Der Erwartungswert der Summe X + Y ist hier gleich der Summe der Erwartungswerte von
X und Y . Wir werden in Satz 12.6 beweisen, dass sich hinter dieser Übereinstimmung ein
allgemeines Gesetz verbirgt.
Aufgabe 12.2:
(a) Die unabhängigen Zufallsgrößen X1 und X2 seien Poissonverteilt zu den Parametern µ1
und µ2 . Zeigen Sie, dass die Zufallsgröße Z = X1 + X2 ebenfalls Poissonverteilt ist, und
zwar zum Parameter µ = µ1 + µ2 .
(b) Verallgemeinern Sie die Aussage aus Teil (a) auf eine Summe von n unabhängigen, Poissonverteilten Zufallsgrößen.
Satz 12.4:
Es sei (X, Y ) eine zweidimensionale Zufallsgröße, g : R2 → R eine Funktion und Z = g(X, Y ).
(a) (X, Y ) sei diskret mit der Wahrscheinlichkeitsfunktion
f . Dann existiert der
XX
|g(xi , yj )| f (xi , yj ) existiert, und es gilt
Erwartungswert E(Z) denau dann, wenn
i
2
E(Z) = E g(X, Y ) =
Es sei (X, Y ) ein Zufallsvektor und g : R → R eine stetige Funktion. Zeigen Sie, dass
Z = g(X, Y ) ebenfalls eine Zufallsgröße ist.
Satz 12.3:
Es sei (X, Y ) ein Zufallsvektor und g : R2 → R eine stetige Funktion. Wir betrachten die
Zufallsgröße Z = g(X, Y ).
(a) Sind X und Y diskret mit gemeinsamer Verteilung f und Werten xi und yj , so erhält
man die Wahrscheinlichkeitsfunktion h(z) und die Verteilungsfunktion H(z) von Z durch
X
XX
h(z) = P (Z = z) =
f (xi , yj ) und H(z) = P (Z ≤ z) =
f (xi , yj ) .
g(xi ,yj )=z
g(x,y)≤z
i
j
g(xi , yj ) f (xi , yj ) .
j
(b) (X, Y ) sei stetig mit der gemeinsamen Dichte f , und g sei eine stetige Funktion.
Dann existiert der Erwartungswert E(Z) genau dann, wenn
Z∞ Z∞
|g(x, y)| f (x, y) dy dx existiert, und es gilt
−∞ −∞
E(Z) = E g(X, Y ) =
g(xi ,yj )≤z
(b) Sind X und Y stetig mit gemeinsamer Dichte f , so erhält man die Verteilungsfunktion
H(z) von Z durch
Z Z
H(z) = P (Z ≤ z) =
f (x, y) dx dy .
XX
Z∞ Z∞
g(x, y) f (x, y) dy dx .
−∞ −∞
Beweis:
Der Erwartungswert der Zufallsgröße Z = g(X, Y ) ergibt sich im diskreten Fall als
X X
X X
X
zk · h(zk ) =
zk · f (xi , yj ) =
E(Z) =
g(xi , yj ) f (xi , yj ) ,
zk
zk g(xi ,yj )=zk
zk g(xi ,yj )=zk
140
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
wobei die zk alle möglichen Werte der Zufallsgröße Z durchlaufen. Diese erhält man aber gerade
als g(xi , yj ) mit allen möglichen Werten xi für X und yj für Y . Daher gilt weiter
X X
XX
g(xi , yj ) f (xi , yj ) .
E(Z) =
g(xi , yj ) f (xi , yj ) =
zk g(xi ,yj )=zk
yj
xi
Zur Ermittlung des Erwartungswertes von Z muss man daher g(x, y)f (x, y) über alle auftretenden x, y summieren.
Bei stetigen Zufallsgrößen tritt wie üblich die Integration an Stelle der Summation. Wir verzichten hier auf den technisch etwas aufwändigeren Beweis. 2
Beispiel 12.3:
Wir bestimmen E(XY ) für die zweidimensionale Zufallsgröße (X, Y ) mit der Dichte
(
6(1 − x − y)
für 0 < y < 1 − x und 0 < x < 1 ,
f (x, y) =
0
sonst.
E(XY ) =
Z1 Z1−ξ
Z1 Z1−ξ
6 ξ (1 − ξ) η − 6 ξ η 2 dη dξ
6 ξ η (1 − ξ − η) dη dξ =
0
=
Z1
0
=
Z1
0
0
0
1−ξ
3 ξ (1 − ξ) η 2 − 2 ξ η 3 dξ =
0
ξ (1 − ξ)3 dξ =
Z1
0
Z1
3
3
3 ξ (1 − ξ) − 2 ξ (1 − ξ) dξ
0
(1 − ξ)3 − (1 − ξ)4 dξ
0
1
−1
1
1
1 1
4
5 =
(1 − ξ) + (1 − ξ) = − =
.
4
5
4 5
20
0
141
12.2 Erwartungswerte
Beweis:
(a) Diskreter Fall:
f sei die Wahrscheinlichkeitsfunktion von (X, Y ). Nach Voraussetzung gilt
XX
XX
|h(xi , yj )| f (xi , yj ) < ∞. Das garantiert die
|g(xi , yj )| f (xi , yj ) < ∞ und
i
i
j
j
Existenz des Erwartungswertes von ag+bh. Weiterhin sind alle in der folgenden Rechnung
auftretenden Reihen absolut konvergent und dürfen beliebig umsortiert werden. Man
erhält also
XX
ag(xi , yj ) + bh(xi , yj ) f (xi , yj )
E ag(X, Y ) + bh(X, Y ) =
i X
j
XX
X
bh(xi , yj ) f (xi , yj )
ag(xi , yj ) f (xi , yj ) +
=
i Xj X
iXjX
h(xi , yj ) f (xi , yj )
g(xi , yj ) f (xi , yj ) + b
= a
i
j
i j
= a E g(X, Y ) + b E h(X, Y ) .
(b) Stetiger Fall: Aufgabe. 2
Bemerkung 12.3:
Hängt die Funktion g i nur von einer Variablen X ab, so erhält man aus Satz 12.4
X
X
X
XX
g(xi ) f1 (xi ) bzw.
f (xi , yj ) =
g(xi )
g(xi )f (xi , yj ) =
E g(X) =
i
E g(X) =
g(x) f (x, y) dy dx =
−∞ −∞
i
j
i
j
Z∞ Z∞
Z∞
g(x)
−∞
Z∞
f (x, y) dy dx =
−∞
Z∞
g(x) f1 (x) dx ,
−∞
wobei f1 die Wahrscheinlichkeitsfunktion bzw. Dichte der Randverteilung von X bezüglich
(X, Y ) ist. Dies stimmt also mit der ursprünglichen Definition des Erwartungswertes überein.
Summen (oder allgemeiner Linearkombinationen) oder Produkte von mehreren Zufallsgrößen
treten recht häufig auf. Daher werden wir untersuchen, unter welchen Bedingungen der Mittelwert oder die Varianz von Summen oder Produkten von Zufallsgrößen aus den Mittelwerten
oder Varianzen der einzelnen Größen abgeleitet werden kann.
Insbesondere ergibt sich damit als Spezialfall des Satzes 12.5 E(X +Y ) = E(X)+E(Y ) . Durch
vollständige Induktion folgt weiter
Der folgende Satz befasst sich zunächst mit Linearkombinationen von Zufallsgrößen.
Existieren die Mittelwerte der n Zufallsgrößen X1 , . . . , Xn , so gilt
!
n
n
X
X
E(Xi ) .
E
Xi =
Satz 12.5:
(X, Y ) sei ein Zufallsvektor, und es seien g(X, Y ) und h(X, Y ) Zufallsgrößen, deren Erwartungswerte existieren. Dann gilt für beliebige a, b ∈ R
E ag(X, Y ) + bh(X, Y ) = a E g(X, Y ) + b E h(X, Y ) .
Satz 12.6: (Additionssatz für Mittelwerte)
i=1
i=1
Beispiel 12.4:
Sei p die Erfolgswahrscheinlichkeit bei einem Bernoulli Experiment. Das Experiment werde n–mal durchgeführt, wobei die Zufallsgröße Xi die Anzahl der Erfolge“ bei der i–ten
”
142
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
Durchführung angibt. Die zugehörige Wahrscheinlichkeitsfunktion hat die Werte fi (0) = 1 − p
und fi (1) = p, und man erhält E(Xi ) = 0 · (1 − p) + 1 · p = p .
Die Gesamtzahl der Erfolge bei n Ausführungen
ist Z = X1 + . . . + Xn . Diese Zufallsgröße hat
P
nach Satz 12.6 den Mittelwert E(Z) =
E(Xi ) = np . Das hatten wir schon früher ermittelt.
i
Aufgabe 12.5:
Die zweidimensionale Zufallsgröße (X, Y ) besitze die Dichte
(
x+y
für 0 ≤ x, y ≤ 1 ,
f (x, y) =
0
sonst.
143
12.3 Kovarianz und Korrelation zweier Zufallsgrößen
Wir bestimmen nun die Varianz einer Summe von Zufallsgrößen.
Satz 12.8:
Die Varianz V (X + Y ) der Summe zweier Zufallsgrößen X und Y , deren Varianzen und
Kovarianz existieren, ist
2
2
σX+Y
= V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) = σX
+ σY2 + 2σXY .
Beweis:
Für Z = X + Y erhält man zunächst
E(Z 2 ) = E(X 2 + 2XY + Y 2 ) = E(X 2 ) + 2E(XY ) + E(Y 2 ) ,
(a) Berechnen Sie die Verteilungsfunktion F und begründen Sie, dass f eine Dichte ist.
(b) Bestimmen Sie die Randverteilungen f1 bzw. f2 der Zufallsgrößen X bzw. Y und berechnen Sie E(X), E(Y ), V (X), V (Y ).
(c) Zeigen Sie, dass die Zufallsgrößen X und Y nicht unabhängig sind.
(d) Wählen Sie als Dichte der zweidimensionalen stetigen Zufallsgröße (X, Y ) die Funktion
f , gegeben durch f (x, y) = f1 (x) · f2 (y).
Welche Randverteilungen haben dann die Funktionen X und Y ? Sind X und Y abhängig
oder unabhängig? Was fällt Ihnen auf?
E 2 (Z) = E 2 (X + Y ) = E(X) + E(Y )
2
= E 2 (X) + 2E(X) E(Y ) + E 2 (Y ) .
Einsetzen in die Formel V (Z) = E(Z 2 ) − E 2 (Z) ergibt
V (Z) = E(X 2 ) − E 2 (X) + E(Y 2 ) − E 2 (Y ) + 2 E(XY ) − E(X) E(Y )
= V (X) + V (Y ) + 2 Cov(X, Y ) . 2
Bemerkung 12.4:
Allgemeiner erhält man für die Zufallsgrößen X1 , . . . , Xn
12.3
Kovarianz und Korrelation zweier Zufallsgrößen
Die Varianz einer Zufallsgröße X ist V (X) = E (X − E(X))2 = E (X − E(X)) ·(X − E(X)) ,
2
2
und nach Satz 6.5 gilt V (X) = E(X ) − E (X) = E(X · X) − E(X) · E(X).
Wir definieren die Kovarianz zweier Zufallsgrößen durch einen ähnlichen Term.
Definition 12.3: (Kovarianz zweier Zufallsgrößen)
Die Kovarianz zweier Zufallsgrößen X und Y ist, sofern die auftretenden Größen existieren
σXY := Cov(X, Y ) := E X − E(X) · Y − E(Y ) .
Satz 12.7:
Existieren für X und Y die Erwartungswerte sowie die Kovarianz, so gilt
Cov(X, Y ) = E(XY ) − E(X) · E(Y ) .
Beweis: Aufgabe. 2
V
n
X
i=1
n
n
X
X
X
X
Cov(Xi , Xj ) .
Xn =
Cov(Xi , Xj ) =
V (Xi ) +
V (Xn ) + 2
i<j
i=1
i=1
i6=j
Satz 12.9:
Sind die Zufallsgrößen X und Y unabhängig, dann gilt
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0
Beweis:
Wir betrachten exemplarisch den stetigen Fall. Für die gemeinsame Dichte von X und Y gilt
f (x, y) = f1 (x) · f2 (y). Daher erhält man
E(XY ) =
=
R∞ R∞
−∞ −∞
R∞
xy f (x, y) dy dx =
x f1 (x) dx
−∞
R∞
−∞
Aus Satz 12.7 folgt die Behauptung.
R∞ R∞
xy f1 (x)f2 (y) dy dx
−∞ −∞
y f2 (y) dy = E(X) · E(Y ) .
2
144
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
12.3 Kovarianz und Korrelation zweier Zufallsgrößen
145
eines so gebildeten Stapels von der mittleren Stapelhöhe ist offenbar jeweils 10–mal so groß wie
die Abweichung der einzelnen Plattendicke von µ. Für die Höhe der so gebildeten Stapel ergibt
sich deshalb die Standardabweichung 10σ.
Aus Satz 12.9 und Bemerkung 12.4 folgt unmittelbar
Satz 12.10: (Additionssatz für Varianzen unabhängiger Zufallsgrößen)
Die Varianz einer Summe unabhängiger Zufallsgrößen, deren Varianzen existieren, ist gleich
der Summe dieser Varianzen, d.h.
V (X1 + . . . + Xn ) = V (X1 ) + . . . + V (Xn ) .
Legt man demgegenüber die Platten so übereinander, wie sie aus der Herstellung kommen,
so sind Dicken der einzelnen Platten in einem Stapel voneinander unabhängig. Dicke und
dünne Platten folgen ganz zufällig aufeinander, so dass sich die Abweichungen vom Mittelwert
in gewissen Grenzen gegenseitig aufheben können. Für die Höhe der Zehnerstapel wird man
also geringere Schwankungen erwarten als im ersten Fall. In der Tat beträgt
√ nach dem oben
bewiesenen Satz jetzt die Varianz nur 10σ 2 bzw. die Standardabweichung 10 σ.
Insbesondere gilt V (X + Y ) = V (X) + V (Y ), falls X und Y unabhängig sind.
Beispiel 12.5:
Wir betrachten das n–mal ausgeführte Bernoulliexperiment aus Beispiel 12.4. Jedes Xi hat
die Bilder 0 oder 1, also gilt Xi2 = Xi . Die Varianz von Xi ist daher
V (Xi ) = E(Xi2 ) − E 2 (Xi ) = E(Xi ) − E 2 (Xi ) = p − p2 = p(1 − p) = pq .
Sind die einzelnen Ausführungen des Experiments unabhängig, so ergibt sich als Varianz der
Summe Z = X1 + · · · + Xn , die die Anzahl der Erfolge zählt, die früher schon ermittelte Größe
V (z) = V (X1 + . . . + Xn ) =
n
X
pq = npq .
Satz 12.11: (Multiplikationssatz für Mittelwerte unabh. Zufallsgrößen)
X1 , . . . , Xn seien unabhängig und E(Xi ) existiere für jedes i ∈ {1, . . . , n}. Dann ist
E(X1 · . . . · Xn ) =
n
Y
E(Xi ) .
i=1
Insbesondere gilt E(XY ) = E(X) · E(Y ), falls X und Y unabhängig sind.
i=1
Das Ergebnis von Satz 12.10 ist etwas überraschend, wenn wir es mit Satz 9.6 auf Seite 107
vergleichen. Haben wir nämlich eine Zufallsgröße X mit der Varianz σ 2 und bestimmen die
n
P
Varianz der n–fachen Zufallsgröße nX, die sich auch als Summe nX =
X darstellen lässt,
i=1
so ergibt sich nach Satz 9.6
Bei Produkten ist die Bestimmung des Erwartungswertes im allgemeinen nicht so einfach wie bei
Summen. Allerdings folgt direkt aus Satz 12.9, dass sich die Erwartungswerte unabhängiger
Zufallsgrößen multiplizieren. Durch vollständige Induktion ergibt sich hieraus der Satz für den
Mittelwert des Produkts n unabhängiger Zufallsgrößen:
Der Korrelationskoeffizient zweier Zufallsgrössen wird mit Hilfe von Kovarianz und Varianzen
definiert. Hierbei müssen die Varianzen der Zufallsgrössen 6= 0 sein. Man mache sich klar, dass
eine Zufallsgrösse, deren Varianz verschwindet, nur einen einzigen Wert annehmen kann, also
konstant ist. Daher ist das Nichtverschwinden der Varianz keine wirkliche Einschränkung.
V (nX) = n2 V (X) = n2 σ 2 .
Hat man dagegen n unabhängige Zufallsgrößen Xi , die alle dieselbe Varianz σ 2 haben, so ist
V (X1 + . . . + Xn ) =
n
X
V (Xi ) = nσ 2 .
i=1
Wir klären diesen Sachverhalt mit Hilfe des folgenden Beispiels:
Definition 12.4: Für zwei Zufallsgrößen X und Y mit σX 6= 0 6= σY heißt
ρ(X, Y ) =
σXY
σX σY
Korrelationskoeffizient, sofern dieser Ausdruck existiert.
Verschwindet ρ(X, Y ), so heißen X und Y unkorreliert.
Beispiel 12.6:
Eine Firma stellt Platten her, die in der Dicke um einen bestimmten Mittelwert µ schwanken.
Die Streuung sei σ. Je 10 Platten werden auf einen Stapel gelegt. Die mittlere Stapelhöhe ist
offenbar 10µ.
Man kann nun aber nach zwei Prinzipien stapeln:
Legt man jeweils nur Platten (fast) genau gleicher Dicke auf einen Stapel, so ist die Dicke jeder
weiteren Platte von der Dicke der ersten Platte im Stapel abhängig. Die Abweichung der Höhe
Satz 12.12:
Für den Korrelationskoeffizienten zweier Zufallsgrößen X und Y gilt −1 ≤ ρ(X, Y ) ≤ 1.
146
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
Beweis:
147
12.4 Der zentrale Grenzwertsatz
Satz 12.13: (Zentraler Grenzwertsatz)
Da Varianzen nicht-negativ sind, gilt für jede Zahl λ ∈ R
0 ≤ V (λX + Y ) =
=
2
λ 2 σX
λσX + ρ(X, Y )σY
Einsetzen von λ = −ρ(X, Y ) ·
2
+ 2λσXY +
σY2
2
λ 2 σX
=
+ 1 − (ρ(X, Y ))2 σY2 .
+ 2λρ(X, Y )σX σY +
σY2
σY
und Division durch σY2 liefert die Behauptung. 2
σX
Bemerkung 12.5:
Unabhängige Zufallsgrößen sind unkorreliert, denn nach Satz 12.9 verschwindet dann die Kovarianz und damit auch der Korrelationskoeffizient. Andererseits kann es durchaus sein, dass
der Korrelationskoeffizient ρ(X, Y ) den Wert 0 hat, obwohl X und Y nicht unabhängig sind.
In Kapitel 18 werden wir eine Interpretation des Korrelationskoeffizienten als Maß für die lineare
Abhängigkeit zwischen X und Y kennenlernen.
Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen, deren Erwartungswerte
und Varianzen existieren, und Sn∗ die Standardisierung ihrer Summe. Dann gilt
lim P (Sn∗ ≤ z) = Φ(z).
n→∞
Hierbei sei Φ die Verteilungsfunktion der Standard-Normalverteilung.
Um den zentralen Grenzwertsatz anwenden zu können, berechnen wir die Standardisierung
einer Summe unabhängiger, identisch verteilter Zufallsgrößen explizit.
Satz 12.14:
Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen mit Mittelwert µ und Streun
P
Xi
ung σ. Dann ist die standardisierte Zufallsgröße zu ihrer Summe Sn =
i=1
12.4
Der zentrale Grenzwertsatz
Wir haben gezeigt, dass sich für große Werte von n die Binomialverteilung durch die Normalverteilung approximieren lässt. Nun kann eine mit den Parametern n und p binomialverteilte
Zufallsgröße Sn aufgefasst werden als die Summe Sn = X1 + · · · + Xn von n Zufallsgrößen, die
Erfolg oder Misserfolg von n unabhängig durchgeführten Bernoulli-Experimenten angeben.
Der zentrale Grenzwertsatz besagt im Wesentlichen, dass sich unter gewissen Voraussetzungen die Summe einer großen Anzahl unabhängiger Zufallsgrößen durch die Normalverteilung
approximieren lässt. Um die Voraussetzungen einfach zu halten, betrachten wir hier nur den
Spezialfall, dass n Zufallsgrößen mit der gleichen Verteilung summiert werden.
Sn∗ =
Sn − nµ
√
=
nσ
n
P
i=1
Xi − nµ
√
.
nσ
Beweis:
Nach Satz 12.6 gilt E(Sn ) = nµ. Da X1√
, . . . , Xn unabhängig sind, erhält man nach Satz 12.10
V (Sn ) = nσ 2 , d.h. Sn hat die Streuung nσ.
Einsetzen dieser Größen in Definition 9.7 ergibt die Behauptung. 2
Aufgabe 12.6:
Definition 12.5: (identisch verteilte Zufallsgrößen)
Die Zufallsgrößen X1 , . . . , Xn heißen identisch verteilt, wenn ihre Verteilungsfunktionen
gleich sind, d.h. wenn für alle i, j gilt P (Xi ≤ x) = P (Xj ≤ x).
X1 , . . . X1000 seien unabhängige, identisch verteilte diskrete Zufallsvariable mit den Wahrschein3
.
lichkeitsverteilungen p(1) = 15 , p(3) = 41 , p(6) = 52 , p(11) = 20
Bestimmen Sie mit dem zentralen Grenzwertsatz näherungsweise die Wahrscheinlichkeit dafür,
1000
P
Xi Werte zwischen 4820 und 5180 annimmt.
dass die Zufallsvariable S1000 =
i=1
Offensichtlich haben identisch verteilte Zufallsgrößen den gleichen Erwartungswert und die
gleiche Varianz, sofern diese existieren.
Wir zitieren nun eine einfache Version des zentralen Grenzwertsatzes ohne Beweis:
Aufgabe 12.7:
Die mittlere Lebensdauer (in Stunden) eines sehr empfindlichen Maschinenteils betrage 50 mit
der Varianz 900. Fällt dieses Maschinenteil aus, so wird es sofort ohne Zeitverlust durch ein
Reserveteil ersetzt, dessen Lebensdauer die gleiche Verteilung besitzt.
Wie viele Maschinenteile sind erforderlich, damit mit einer Wahrscheinlichkeit von 0, 95 die
Maschine mindestens 5000 Stunden mit diesen Maschinenteilen läuft?
148
13
13.1
13 HOMOGENE MARKOWKETTEN
Homogene Markowketten
149
13.1 Eigenschaften von Markowketten
Definition 13.1: (Zustandsraum, Verteilung)
Es sei Ω der Stichprobenraum eines Zufallsexperiments.
Eigenschaften von Markowketten
In vielen Prozessen der Natur, Technik oder Wirtschaft sind eintretende Ereignisse von (örtlich
oder zeitlich) vorausgegangenen abhängig. So ist z.B. die heutige Einwohnerzahl eines Ortes
durch die gestrige bedingt.
Der Zustandsraum A sei eine abzählbare Menge. Yi : Ω → A sei eine Abbildung mit der
Eigenschaft, dass die Urbilder Yi−1 (k) für alle k ∈ A Ereignisse sind.
Dann heißt Yi Zustand. Man sagt, das System ist im Zustand Yi oder mit der Wahrscheinlichkeit P (Yi = k) im lokalen Zustand k.
(i)
Markow hat zur Beschreibung und Untersuchung von solchen abhängigen Ereignissen Methoden entwickelt, die man Markowketten nennt. Wir betrachten den einfachsten Typ und
verwenden nur elementare Hilfsmittel.
Die Verteilung von Yi ist die Abbildung a(i) : A → R mit k → ak = P (Yi = k) für k ∈ A.
Beispiel 13.1:
Bemerkung 13.1:
Eine Maus bewegt sich in einem Labyrinth (Abb. 13.1). Zur Zeit i liegt eine bestimmte Wahrscheinlichkeit dafür vor, dass sie sich im Knoten k befindet. Wir sagen, das System sei in einem
bestimmten Zustand Yi .
Häufig ist A = {1, . . . , n} oder A = N; in diesem Fall ist Yi eine Zufallsgröße. Manchmal bieten
sich aber auch andere Bezeichnungen an, weil sie suggestiver sind. Wir werden hier nicht zu
streng sein und Yi immer als Zufallsgröße bezeichnen.
Durchläuft die Maus eine Röhre zum nächsten Knoten, so geht das System vom Zustand Yi
in den Zustand Yi+1 über. Die Aufenthaltswahrscheinlichkeit in den einzelnen Knoten ändert
sich. Jeder Übergang von einem Knoten k zu einem Knoten ℓ wird mit einer gewissen Übergangswahrscheinlichkeit pkℓ vollzogen.
In Beispielen und Herleitungen gehen wir der Einfachheit halber oft von A = {1, 2, 3, . . . } aus.
Falle
2
4
3
Die Übergangswahrscheinlichkeiten könnten hierbei von vorausgegangenen Zuständen abhängen.
Typisch für Markowketten ist aber gerade die Unabhängigkeit der Übergangswahrscheinlichkeiten von vorangegandenen Zuständen.
Definition 13.2: (Markow-Kette, homogene Markowkette)
1
7
Ändert sich der Zustand eines Systems, so wird Ω durch eine andere Zufallsgröße Yj (anders)
in A abgebildet. Wir betrachten hier Folgen von Zuständen, also von Zufallsgrößen (Yi )i∈N0 .
Dabei beobachten wir, dass mit gewissen Wahrscheinlichkeiten pkℓ Übergänge zwischen lokalen
Zuständen k und ℓ stattfinden (die Maus läuft vom Knoten k in den Knoten ℓ).
5
6
Eine Folge von Zuständen (Yi )i∈N0 mit Yi : Ω → A heißt eine Markowkette auf Ω, wenn
die Übergangswahrscheinlichkeiten zwischen aufeinanderfolgenden Zuständen nur von
diesen abhängen und von keinem der vorangegangenen Zustände, d.h.
P (Yi+1 = ℓ / Yi = ki , Yi−1 = ki−1 , . . . , Y0 = k0 ) = P (Yi+1 = ℓ / Yi = ki )
(Markoweigenschaft).
Abb. 13.1
Setzt man beispielsweise die Maus am Anfang in den Knoten 3, so gilt für den Anfangszustand
P (Y0 = 3) = 1 und P (Y0 = k) = 0 für k 6= 3.
Wählt die Maus jede der 6 angrenzenden Röhren mit gleicher Wahrscheinlichkeit, so gilt für
den nachfolgenden Zustand
1
P (Y1 = 2) = P (Y1 = 4) = P (Y1 = 5) = P (Y1 = 6) = ,
6
1
P (Y1 = 3) = , P (Y1 = 1) = P (Y1 = 7) = 0.
3
Eine Markowkette heißt weiterhin homogen, wenn jede Übergangswahrscheinlichkeit nur
von k und ℓ und nicht von i ( der Zeit“) abhängt. Wir setzen dann
”
pkℓ = P (Yi+1 = ℓ / Yi = k)
für
i ∈ N0 .
Beispiel 13.2:
Wir untersuchen die Bedeutung der Begriffe aus Definition 13.2 anhand von Beispiel 13.1.
150
13 HOMOGENE MARKOWKETTEN
Nimmt man z.B. an, dass die Maus nach genau 20 Übergängen müde ist und sich im 21. Übergang ausruht (d.h. in ihrem Knoten bleibt), dann erhält man eine inhomogene Markowkette,
denn die Übergangswahrscheinlichkeiten hängen von der Zeit“, d.h. von der Nummer des
”
Übergangs ab.
Nimmt man dagegen an, dass die Maus müde wird, wenn sie zum dritten Mal im Knoten 2
ankommt, dann liegt gar keine Markow-Kette vor. In diesem Fall hängen die Überganswahrscheinlichkeiten nämlich von vorangegangenen Zuständen ab.
Wir werden uns hier nur mit homogenen Markowketten beschäftigen.
13.2
Stochastische Matrizen und gerichtete Graphen
Die Übergangswahrscheinlichkeiten zwischen den Zuständen einer homogenen Markowkette lassen sich gut in einer Übergangsmatrix Ü anordnen.


 p11 p12 p13 . . . 


 p21 p22 p23 . . . 





 p
p
p
.
.
.

 31 32 33
Ü = 


 p
p
p
.
.
.

 41 42 43


..
.. . . 
 ..
. 
.
.
 .


Dabei bezieht sich jede Zeile der Matrix auf einen Ausgangszustand und jede Spalte auf einen
Zielzustand. Man beachte, dass die Matrix im abzählbar unendlichen Fall unendlich viele Zeilen
und Spalten besitzt.
Für Übergangsmatrizen gilt der folgende
151
13.2 Stochastische Matrizen und gerichtete Graphen
landet und in den anderen Zuständen jeden angrenzenden Weg mit gleicher Wahrscheinlichkeit
einschlägt. Die zugehörige Übergangsmatrix ist dann








Ü = 






0 1 0 0 0 0 0





1
1
1
1

0
0 6
6
6
6


0 0 0 1 0 0 0 .

0 0 13 31 0 31 0 


0 0 13 0 31 0 13 

0 21 0 0 0 21 0
1
3
0
1
3
2
6
0 0 0
1
3
Definition 13.3: (stochastische Matrix)
Matrizen mit den Eigenschaften (1), (2) aus Satz 13.1 heißen stochastisch.
Zur Veranschaulichung von homogenen Markowprozessen dienen häufig auch gerichtete Graphen. Das sind Systeme von Knoten, die den Zuständen entsprechen, und Verbindungslinien,
die den Übergängen mit nicht-verschwindender Übergangswahrscheinlichkeit entsprechen.
Abbildung 13.2 zeigt den Graphen für die Maus im Labyrinth. Hier soll von jedem Knoten aus
jeder der wegführenden Pfeile mit gleicher Wahrscheinlichkeit gewählt werden. Dass von der
Falle“ 4 kein Pfeil wegführt ist so zu interpretieren, daß p44 = 1 und p4k = 0 für alle k 6= 4 ist.
”
Oft trägt man aber auch neben den Pfeilspitzen die zugehörigen Übergangswahrscheinlichkeiten
ein.
1
2
3
4
7
6
5
Satz 13.1:
pkℓ ≥ 0 für alle k, ℓ ∈ A.
P
(2) Die Summe über jede Zeile ist 1:
pkℓ = 1 für alle k ∈ A.
(1) Kein Koeffizient ist negativ:
ℓ
Beweis:
(1) Die pkℓ sind Wahrscheinlichkeiten.
(2) Jeder Zustand hat mit Sicherheit, also der Wahrscheinlichkeit 1, einen Folgezustand. 2
Beispiel 13.3:
Wir gehen davon aus, dass die Maus im Labyrinth (Abb. 13.1) im Zustand 4 in einer Falle
Abb. 13.2
Jede Versuchsfolge einer Markowkette beginnt mit einem bestimmten Anfangszustand Y0 .
Hierzu wird die sogenannte Anfangsverteilung
a = (a1 , a2 , a3 , . . . ) = P (Y0 = 1), P (Y0 = 2), P (Y0 = 3), . . . ,
also die Verteilung a := a(0) der Zufallsgröße Y0 der Markowkette, vorgegeben.
Man spricht
P
auch vom Anlaufvektor a. Da eine Verteilung vorliegt, gilt ak ≥ 0 und
ak = 1 .
k
152
13 HOMOGENE MARKOWKETTEN
153
13.3 Die Pfadregeln
Oft wird durch Y0 ganz Ω auf ein bestimmtes Element k ∈ N abgebildet (z.B. wenn die Maus
in den Knoten k des Labyrinths gesetzt wird). Dann gilt aℓ = P (Y0 = ℓ) = 0 für ℓ 6= k und
ak = P (Y0 = k) = 1. Der Anlaufvektor ist also a = (0, . . . , 0, 1, 0, . . . ). Der Anfangszustand
kann aber auch anders festgelegt werden.
Übergangsmatrix:
Beispiel 13.4:
Die beiden Behauptungen folgen leicht mit vollständiger Induktion aus dieser Formel. 2

p11 p12 . . .


(i+1) (i+1)
(i) (i)
(a1 , a2 , . . . ) = (a1 , a2 , . . . )  p21 p22 . . .  ,
..
.. . .
.
.
.

oder kurz
a(i+1) = a(i) · Ü .
Wir bestimmen den Startplatz der Maus in Abb. 13.1 nach dem folgenden Verfahren:
Wir werfen 6 mal eine Münze. Fällt dabei k–mal (0 ≤ k ≤ 6) Zahl, setzen wir die Maus
in den Knoten k + 1. Aus der Tabelle der Binomialverteilung (s. S. 229) ergibt sich nun der
Anlaufvektor
a = ( 0.016 ; 0.094 ; 0.234 ; 0.313 ; 0.234 ; 0.094 ; 0.016 ) .
Bemerkung 13.2:
Man beachte, dass der Anlaufvektor bzw. die Verteilungen stets von links an die Übergangsmatrix multipliziert werden.
Beispiel 13.5:
Der Anlaufvektor beschreibt die Zustandsverteilung zu Beginn der Versuchsreihe. Bei jedem
Versuch ändert sich die Verteilung. Hierdurch entstehen die Verteilungen a(1) , a(2) , . . . mit
(i) (i)
a(i) = (a1 , a2 , . . . ) = (P (Yi = 1), P (Yi = 2), . . . ), die man auchX
als Wahrscheinlichkeits(i)
(i)
ak = 1.
vektoren i-ter Stufe bezeichnet. Auch hier gilt ak ≥ 0 und
k
Die Maus wird in den Knoten 3 des Labyrinths der Abb. 13.1 gesetzt. Wo ist sie mit welcher
Wahrscheinlichkeit nach zwei Durchläufen?
Wir nehmen die Übergangsmatrix Ü aus dem Beispiel 13.3, und multiplizieren sie zweimal mit
dem Anlaufvektor:
1 2 1 1 1
1 1 5 5 2 2 2
a(2) = aÜ 2 = (0, 0, 1, 0, 0, 0, 0)Ü 2 = (0, , , , , , 0)Ü = ( ,
,
,
, ,
,
).
6 6 6 6 6
18 18 18 18 18 18 18
Wir wollen die Verteilung in jeder Stufe berechnen.
13.3
Die Pfadregeln
Satz 13.2:
Es sei (Yi )i∈N0 eine homogene Markowkette. a(i) sei die Verteilung von Yi und Ü = (pkℓ ) die
Übergangsmatrix. Dann gilt
(i)
a
= a · Ü
i
für i ∈ N0
und
(i+j)
a
(j)
=a
· Ü
i
Für Ereignisse A0 , . . . , An eines Wahrscheinlichkeitsraumes gilt der Multiplikationssatz 4.7
P (A0 ∩ . . . ∩ An ) = P (A0 ) · P (A1 /A0 ) · P (A2 /A1 ∩ A0 ) · . . . · P (An /An−1 ∩ . . . ∩ A0 ) .
Für die Ereignisse Ai = Yi−1 (ki ) heißt das unter Berücksichtigung der Markoweigenschaft
für i, j ∈ N0
wobei a = a(0) der Anlaufvektor ist.
P (Yi = k0 , . . . , Yi+r = kr ) = P (Yi = k0 ) · P (Yi+1 = k1 / Yi = k0 )
·P (Yi+2 = k2 / Yi+1 = k1 ) · . . . · P (Yi+r = kr / Yi+r−1 = kr−1 )
Beweis:
Wir verwenden die Formel von der totalen Wahrscheinlichkeit
(Satz 4.8). Dazu betrachten wir
S
Ak := Yi−1 (k). Es ist Ak ∩Aj = ∅ für k 6= j und
Ak = Ω. Daher ist Ak eine Klasseneinteilung.
k∈A
−1
Für Bℓ = Yi+1
(ℓ) ergibt sich durch Einsetzen in die Formel
X
(i+1)
P (Ak ) P (Bℓ /Ak )
aℓ
= P (Yi+1 = ℓ) = P (Bℓ ) =
k∈A
=
X
k∈A
P (Yi = k) · P (Yi+1 = ℓ / Yi = k) =


p1ℓ


(i)
(i) (i)
ak · pkℓ = (a1 , a2 , . . . )  p2ℓ  .
.
..
k∈A
X
Die ℓ–te Komponente des Wahrscheinlichkeitsvektors (i + 1)–ter Stufe ist also das Produkt aus
dem Wahrscheinlichkeitsvektor i–ter Stufe und der ℓ–ten Spalte der Übergangsmatrix. Also
erhält man den ganzen Vektor (i + 1)–ter Stufe als Produkt des Vektors i–ter Stufe mit der
= P (Yi = k0 ) · pk0 k1 · pk1 k2 · . . . · pkr−1 kr .
Die Division durch P (Yi = k0 ) liefert die Wahrscheinlichkeit, ausgehend von k0 über k1 , k2 , . . . , kr−1
nach kr zu gelangen, als bedingte Wahrscheinlichkeit
P (Yi = k0 , . . . , Yi+r = kr / Yi = k0 ) = pk0 k1 · pk1 k2 · . . . · pkr−1 kr .
Jeder der in dem Produkt vorkommenden Übergangswahrscheinlichkeiten entspricht eine Kante
in einem gerichteten Graphen. Eine Folge aneinanderhängender Kanten nennen wir Pfad (s.
Abb. 13.3). Es gilt also
Satz 13.3: (Pfadregel 1)
Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten längs
des Pfades.
154
13 HOMOGENE MARKOWKETTEN
k2
kr
k2
q k3
q k4
k
-1 k
r
p
k1
p
k0
q k5
kr
k1
p k0 k1
155
13.3 Die Pfadregeln
k r-1
T
q k2
Abb. 13.3
q k1
Definition 13.4: (Rand, absorbierende Markow-Kette)
Ein Zustand r einer Markowkette heißt absorbierend, wenn prr = 1 ist.
Die Gesamtheit der absorbierenden Zustände des Zustandsraumes A heißt Rand R, ihre
Komplementärmenge A \ R heißt Menge der inneren Zustände.
Wir sprechen von einer absorbierenden Markowkette, wenn der Rand R nicht leer ist
und von jedem Zustand aus erreicht werden kann.
Die Maus, die durch ein Röhrensystem (Abb. 13.1) läuft, befindet sich auf einer sogenannten
Irrfahrt, wenn in jedem Knoten der Zufall darüber entscheidet, durch welche Röhre sie sich
weiterbewegt. Markowketten lassen sich als Irrfahrten auf gerichteten Graphen deuten,
deren Knoten den Zustandsraum bilden. Auf dem Rand endet die Irrfahrt.
In der Regel interessiert man sich für zwei Fragestellungen:
• die Wahrscheinlichkeit für die Absorption in einer bestimmten Teilmenge T ⊂ R des
Randes;
• die mittlere Dauer“, also die durchschnittliche Anzahl der durchlaufenen Kanten, bis zur
”
Absorption auf dem Rand.
Abb. 13.4
Die mittlere Dauer einer Irrfahrt lässt sich durch Mittelwertbildung bestimmen:
Satz 13.5: (Pfadregel 3)
Xk zähle die Anzahlen der Kanten, aus denen ein Pfad besteht, der vom Zustand k aus zum
Rand R führt. Sei P (Xk = x) = rk,x . Dann ist die mittlere Dauer (Länge) einer Irrfahrt vom
Zustand k aus
X
µk := E(Xk ) =
x · rk,x .
x∈N0
Die Pfadregeln stellen für sich genommen nichts Neues dar. Sie sind nur Anwendungen bekannter Sätze in einem speziellen Problemkreis. Man stößt mit ihnen an Grenzen, wenn ein Graph
mehrere geschlossene Teile (sog. Zyklen) enthält, wodurch die Anzahl der möglichen Pfade unendlich und – vor allem – unübersehbar wird. Das folgende Beispiel lässt sich allerdings noch
gut überblicken:
Beispiel 13.6:
Die Sätze 13.4 und 13.5 liefern erste Hilfsmittel zur Behandlung dieser Fragestellungen. Die
Lösung dieser Probleme wird dann von den Mittelwertregeln ermöglicht.
Sie besitzen 2000 Euro, benötigen aber 10000 Euro. Dazu gehen Sie in eine Spielbank und
setzen in einem fairen Glücksspiel stets so viel von Ihrem Geld, dass Sie im Gewinnfall Ihrem
Ziel möglichst nahe kommen.
Satz 13.4: (Pfadregel 2)
Diesem Vorgehen entspricht ein Graph, der mit dem Zustand 2000 beginnt und der den Rand
R = {0, 10000} hat. Die möglichen Gewinne und Verluste führen auf den in Abbildung 13.5
dargestellten Zustandsgraphen.
Die Wahrscheinlichkeit pk , vom Zustand k ausgehend in der Teilmenge T ⊂ R absorbiert
zu werden, ist gleich der Summe der Wahrscheinlichkeiten qk,t aller Pfade, die von k nach T
führen:
X
qk,t .
pk =
6.000
2.000
t
Hierbei sind die Pfade durch den Index t numeriert. Jedes qk,t ist ein Produkt aus den pℓm
längs des betreffenden Pfades (s. Abb 13.4).
Beweis:
Die durch paarweise verschiedene Pfade dargestellten Ereignisse sind durchschnittsfremd. Daher ergibt sich nach dem 3. Kolmogorowschen Axiom die Behauptung. 2
0
10.000
4.000
8.000
Abb. 13.5
Jede Übergangswahrscheinlichkeit 6= 0 hat den Wert pkℓ =
1
2
. Wir ermitteln
156
13 HOMOGENE MARKOWKETTEN
157
13.4 Die Mittelwertregeln
a) die Gewinnwahrscheinlichkeit p2000 , d.h. die Wahrscheinlichkeit, vom Zustand 2000 ausgehend im Zustand 10000 absorbiert zu werden,
1
11
111
1111
0
00
001
0011
Start
b) die Verteilung der Spieldauer (= Spieleanzahl) X,
c) E(X) und V (X).
Lösung:
a) Wegen des Kreises 2000 → 4000 → 8000 → 6000 → 2000 gibt es unendlich viele Pfade
von 2000 nach 10000.
Sie haben die Längen 3 bzw. 4, vermehrt um eine vielfache Länge des Kreises. Nach der
2. und der 1. Pfadregel erhalten wir deshalb p2000 als unendliche Reihe
p2000 =
=
1
1
1 1
1
1 1 2
1
+ 3+ 4 4+ 3+ 4
+ ...
+
23 24
2
2 2
2
2
24
3
1
3
3
3
16
=
+ 2 + 3 + ... =
.
1
16 16
16
5
1 − 16
b) Für jedes x ∈ N gibt es genau einen Pfad der Länge x von 2000 nach R = {0, 10000}.
Die Pfade der Längen 3 und 4 mod 4 enden in 10000, die der Längen 1 und 2 mod 4 in
0. Die Verteilung der Pfadlängen ist
r2000,x : = P (X = x) =
c)
1
,
2x
σ 2 = V (X) = E(X 2 ) − E 2 (X) =
Dabei wurde
∞
P
n=0
nq n =
q
(1−q)2
und
∞
P
n=0
x=1
b) wie lange das Spiel im Mittel dauert.
Mit den Pfadregeln ist das Problem höchstens noch für Virtuosen zu bearbeiten. Vor der
Lösung stellen wir deshalb schlagkräftigere Werkzeuge bereit.
Satz 13.6: (Mittelwertregel 1)
Dann gilt:
x2 ·
n2 q n =
a) mit welcher Wahrscheinlichkeit man gewinnt, wenn man auf die Folge 0011 setzt ;
pk sei die Wahrscheinlichkeit, bei einer in k startenden Irrfahrt auf T absorbiert zu werden.
pkℓ seien die Übergangswahrscheinlichkeiten vom k–ten in den ℓ–ten Zustand, k, ℓ ∈ A .
1
x· x = 2
x · qx =
µ = E(X) =
2
x=1
x=1
∞
X
Die Ecken sind hierbei durch die geworfenen Teilergebnisse gekennzeichnet (Zustandsraum A).
Uns interessiert,
A sei der Zustandsraum einer absorbierenden Markowkette, R der Rand und T eine nichtleere Teilmenge des Randes.
x = 1, 2, . . . .
∞
X
∞
X
Abb. 13.6
1
− 4 = 6 − 4 = 2.
2x
q(1+q)
(1−q)3
für |q| < 1 benutzt.
pk
Aufgabe 13.1:
 X

pkℓ pℓ für k ∈ A\R



 ℓ∈A
=
1
für k ∈ T





0
für k ∈ R \T .
Berechnen Sie den Gewinnerwartungswert in Beispiel 13.6 und interpretieren Sie das Ergebnis.
Beweis:
13.4
Die Mittelwertregeln
Beispiel 13.7:
Eine Laplace–Münze, deren Seiten mit 0 bzw. 1 beschriftet sind, wird so lange geworfen bis
1
. Auf
eine der Folgen 1111 oder 0011 aufgetreten ist. Beide haben die Wahrscheinlichkeit 16
welche Folge würden Sie setzen?
Das Spiel entspricht einer bei Start beginnenden Irrfahrt auf dem in Abbildung 13.6 dargestellten Graphen.
Die beiden letzten Teile der Aussage über pk sind klar.
Für k ∈ A \ R führt jeder Pfad von k nach T zunächst zu einem Knoten ℓ ∈ A (s. Abb. 13.7;
ℓ kann auch in R liegen). Die Wahrscheinlichkeit, von k direkt über ℓ nach T zu gelangen ist
nach der 1. Pfadregel pkℓ pℓ . Aus der 2. Pfadregel folgt dann die Behauptung. 2
Bemerkung 13.3:
P
Die Formel pk =
pkℓ pℓ gilt auch für k ∈ R, denn dann ist pkk = 1 und pkℓ = 0 für ℓ 6= k.
ℓ∈A
Insgesamt gilt also p = Ü · p, wobei p = (p1 , p2 , . . . )T der Vektor ist, dessen k-te Komponente
158
13 HOMOGENE MARKOWKETTEN
1
p k1
p k2
2
p k3
p kn
3
.....
k
p1
Satz 13.8: (Mittelwertregel 2)
p2
p3
159
13.4 Die Mittelwertregeln
A = {1, 2, . . . , n} sei der Zustandsraum einer absorbierenden Markowkette mit n Zuständen,
und R sei der Rand. Die pkl seien die Übergangswahrscheinlichkeiten zwischen den Zuständen.
T
pn
n
Dann ist die mittlere Dauer µk bis zur Absorption im Rand R vom Zustand k aus
P
(
1 + pkℓ µℓ für k ∈ A\R ,
ℓ
µk =
0
für k ∈ R.
Abb. 13.7
Beweis:
die Wahrscheinlichkeit angibt, von k aus in T ⊂ R absorbiert zu werden.
Man beachte, dass p hierbei von rechts an die Übergangsmatrix Ü multipliziert wird.
Aufgabe 13.2:
Man übersetze die Aussage von Satz 13.6 in ein Eigenwertproblem.
Für k ∈ R ist die Behauptung klar.
Die Zufallsgröße Xk gebe die Länge eines Pfades von k bis zur Absorption in R an, und es sei
rk,x = P (Xk = x) die Wahrscheinlichkeit
P für die Absorption nach genau x Schritten. Da nach
rk,x = 1. Die mittlere Dauer bis zur Absorption von k
Satz 13.7 alle Pfade in R enden, gilt
x
P
aus ist dann µk := E(Xk ) =
x rk,x .
x
Bevor wir uns mit der mittleren Dauer eines Markowprozesses befassen, untersuchen wir,
unter welchen Bedingungen ein solcher Prozess mit Sicherheit enden muss.
Satz 13.7:
Jeder Prozess in einer absorbierenden Markowkette mit endlich vielen Zuständen
endet mit der Wahrscheinlichkeit 1 in einer Absorptionsstelle.
Für k 6∈ R werden die Längen der Pfade von k direkt über ℓ nach R von der Zufallsgröße
(1 + Xℓ ) angegeben, denn diese Pfade sind um einen Zustandsübergang länger als die von k
ausgehenden. Nach dem Multiplikationssatz (Satz 4.7) ist pkℓ rℓ,y die Wahrscheinlichkeit für die
Absorption nach y + 1 Schritten, wobei der 1. Schritt nach ℓ führt.
P
Der Satz 4.8 von der totalen Wahrscheinlichkeit ergibt dann rk,x =
pkℓ rℓ,x−1 für x ≥ 1. Für
µk =
Beweis:
ℓ
x = 0 ist rk,x = 0, da k 6∈ R. Man erhält also
X
x
x rk,x =
X
x≥1
x
X
ℓ
pkℓ rℓ,x−1 =
X
pkℓ
X
y
ℓ
(1 + y)rℓ,y =
X
pkℓ (1 + µℓ ) = 1 +
ℓ
Beim Start eines Teilchens in k ∈ A, sei dk die minimale Schrittzahl bis zur Absorption und rk
die Wahrscheinlichkeit, dass das Teilchen nach dk Schritten absorbiert ist. Dann ist dk < ∞
und rk > 0.
Hierbei wurde im letzten Schritt die Formel
Da A endlich ist gilt r := min {rk | k ∈ A} > 0 und d := max {dk | k ∈ A} < ∞.
Beispiel 13.7: (Lösung)
Die Wahrscheinlichkeit qk,m , dass ein im Zustand k startendes Teilchen nach m Schritten noch
nicht absorbiert ist, fällt mit m monoton (warum?). Daher gilt
Mit Hilfe der Mittelwertregeln kann Beispiel 13.7 leicht bearbeitet werden.
P
X
pkℓ µℓ .
ℓ
pkℓ = 1 verwendet. 2
ℓ
a) Da es sich um Münzwürfe handelt, sind alle Übergangswahrscheinlichkeiten 12 .
qk,d ≤ qk,dk = 1 − rk ≤ 1 − r < 1 .
Wir suchen die Gewinnwahrscheinlichkeit pStart , d.h. die Wahrscheinlichkeit in 0011 absorbiert zu werden, wenn man in der Ecke Start startet.
Für jedes Teilchen – unabhängig vom Startzustand – erfüllt also die Wahrscheinlichkeit qed , nach
d Schritten noch nicht absorbiert zu sein, qed ≤ 1 − r. Daher ist jedes Teilchen nach nd Schritten
mit einer Wahrscheinlichkeit qe(nd) ≤ (1 − r)n nicht absorbiert. Es gilt aber
Nach der 1. Mittelwertregel erhält man jede Absorptionswahrscheinlichkeit als Linearkombination der Absorptionswahrscheinlichkeiten der Nachfolgezustände mit den Übergangswahrscheinlichkeiten als Koeffizienten.
Die Wahrscheinlichkeit, nie absorbiert zu werden, ist demnach 0. 2
Aus Abbildung 13.7 lässt sich damit folgendes Gleichungssystem ablesen:
0 ≤ lim qe(nd) ≤ lim (1 − r)
n→∞
n→∞
n
= 0.
160
13 HOMOGENE MARKOWKETTEN
pStart
=
1
1
p0 + p1
2
2
p0
=
1
1
p1 + p00
2
2
p1
=
1
1
p0 + p11
2
2
p00
=
1
1
p00 + p001
2
2
p11
=
1
1
p0 + p111
2
2
p001
=
1
1
p0 + p0011
2
2
p111
=
1
1
p0 + p1111
2
2
p0011
= 1
p1111
= 0
161
13.4 Die Mittelwertregeln
4
5
Leim
1
2
3
Abb. 13.8
Löst man dieses System, so findet man insbesondere
4
p0 = ,
5
7
p1 =
10
und
pStart
b) Die Aussagen der Mittelwertregel 2 lauten hier
µ0
1
1
= 1 + µ1 + µ00
2
2
µ00
= 1+
µ001
= 1+
µ0011
= 0
Hinweis: Duch geschicktes Ausnutzen von Symmetrien kommt man mit nur 4 Zuständen aus.
Aufgabe 13.5:
Im Arbeitszimmer von Prof. Leßner herrscht totale Unordnung. Hunderte von Skriptblättern,
Entwürfen und Büchern liegen vermischt auf dem Schreibtisch und dem Fußboden herum.
Wenn er davon etwas braucht, sucht er es in einer Folge von Runden.
1
1
µ0 + µ1
2
2
= 1+
Abb. 13.9
sie in jeder Ecke eine der angrenzenden Kanten mit gleicher Wahrscheinlichkeit. Eine Kante ist
mit Leim bestrichen. Nach wie vielen durchlaufenen Kanten klebt die Raupe im Durchschnitt
fest, wenn sie in der mit Start gekennzeichneten Ecke startet?
3
= .
4
Also wird mit der Wahrscheinlichkeit 43 die Ziffernfolge 0011 vor der Ziffernfolge 1111
geworfen, obwohl die beiden Zifferfolgen gleich wahrscheinlich sind.
µStart
Start
µ1
1
1
= 1 + µ0 + µ11
2
2
1
1
µ00 + µ001
2
2
µ11
= 1+
1
1
µ0 + µ111
2
2
1
µ0 + 12 µ0011
2
µ111
= 1+
1
µ0 + 12 µ1111
2
µ1111
= 0
= 10, 8 und µ1 = 56
= 11, 2. Also hat das Spiel im
Daraus bestimmt man µ0 = 54
5
5
1
1
Durchschnitt µStart = 1 + µ0 + µ1 = 12 Übergänge.
2
2
Aufgabe 13.3:
In dem in Abb. 13.8 dargestellten Labyrinth bewegt sich eine stochastische“ Maus. Wieviele
”
Kanten durchläuft sie im Durchschnitt, ehe sie in der Falle“ 5 gefangen wird, wenn man sie in
”
1 aussetzt und sie in jeder erreichten Ecke“ jede Kante zur Fortbewegung mit gleicher Chance
”
wählt (auch die, über die sie eintraf)?
Aufgabe 13.4:
Eine stochastische“ Raupe irrt entlang der Kanten eines Würfels (s. Abb. 13.9). Dabei wählt
”
In der ersten Runde ist seine Erfolgswahrscheinlichkeit p1 = 21 . Von Runde zu Runde wird er
müder: Hat er in der (i − 1)–ten Runde keinen Erfolg, ist seine Erfolgsaussicht in der i–ten
1
.
Runde nur noch pi = i+1
Die Zufallsgröße X gebe die Nummer der Runde an, in der der Erfolg eintritt. Ermitteln Sie:
a)
P (X = n) ,
b)
P (X ≤ n) ,
c) P (X > n) ,
d) E(X) .
Hinweis: Benutzen Sie einen Graphen mit unendlich vielen Suchzuständen 1, 2, 3, . . . und einem
Erfolgszustand E. Deuten Sie die Erfolgswahrscheinlichkeiten als Übergangswahrscheinlichkeiten von den Suchzuständen in den Erfolgszustand. Starten Sie im Suchzustand 1.
Aufgabe 13.6:
Die Herren A und B verwickeln Sie in ein Pistolentriell. A besitze die Trefferwahrscheinlichkeit
9
, die von B sei 45 . Sie sind C und haben nur eine Trefferwahrscheinlichkeit von 21 .
10
Die Reihenfolge wurde folgendermaßen ausgelost: A beginnt, anschließend schießt B, dann
C. In dieser Reihenfolge wird dann zyklisch geschossen (wobei Tote naturgemäß übersprungen
werden) bis nur noch einer am Leben ist. Jeder darf sich jedesmal sein Ziel frei wählen. Ein
Ehrenkodex verbietet allen Teilnehmern, einfach in die Luft zu schießen.
a) Wie groß sind Ihre Überlebenschancen, wenn Sie und die beiden anderen sich optimal
verhalten?
b) Mit welcher Wahrscheinlichkeit überleben A bzw. B?
162
13 HOMOGENE MARKOWKETTEN
163
13.5 Irrfahrten auf einer Geraden
Hinweis: Machen Sie sich klar, wie jeder der Schussberechtigten sich optimalerweise verhalten
muss. Was passiert insbesondere, nachdem er getroffen hat?
Rechtfertigen Sie dann den Graphen in Abbildung 13.10 für den Verlauf des Triells (in dem
Graphen wurden als Bezeichnung der Zustände die noch lebenden Personen in der Reihenfolge
ihrer Schussberechtigung angegeben).
1/2
CA
1/10
AC
10
9/
2
4/5
CAB
CB
1/2
BC
Abb. 13.12
Eine ideale Münze mit den Seiten 1 und 0 wird geworfen, bis zum ersten Mal das Wort
1/2
C
1/2
1/
BCA
1/5
1/10
Abb. 13.11
A
1/2
1/5
ABC
(Start)
9/10
4/5
B
Abb. 13.10
Aufgabe 13.7:
Eine asymmetrische Münze mit der Wahrscheinlichkeit p für das Ereignis {1} und der Wahrscheinlichkeit q = 1 − p für das Gegenereignis {0} wird solange geworfen, bis ein symmetrisches
Wort aus mehr als einem Zeichen entstanden ist (z.B. 00 oder 101). Wie lange muss man im
Mittel auf ein solches Palindrom warten?
Hinweis: Wir konstruieren einen Graphen mit 3 Zuständen: Bei Start geht es los, wir werfen
0 oder 1 und dann solange wiederholt das Gegenereignis, bis wieder die 0 bzw. die 1 erscheint
(Absorption).
Aufgabe 13.8:
Bestimmen Sie die Wahrscheinlichkeit dafür, dass bei wiederholtem Würfeln die 1 und die 3
vor 2 oder 4 oder 6 fällt.
Hinweis: x1 sei die erste der beiden Zahlen 1, 3, die erscheint, x2 die zweite. Start reproduziert
sich, wenn 5 fällt; x1 , wenn 5 oder x1 fällt. Gesucht ist die Wahrscheinlichkeit pStart für
Absorption in der Teilmenge T = {x2 } des Randes.
a) 111,
b) 001
erscheint. Bestimmen Sie die mittlere Wartezeit für jedes dieser Wörter.
13.5
Irrfahrten auf einer Geraden
Durch Werfen einer Münze wird ein Teilchen auf der Menge {0, 1, . . . , n} gesteuert. Es startet
in x, und mit jedem Wurf springt es mit der Wahrscheinlichkeit p eine Nummer höher oder mit
der Wahrscheinlichkeit q = 1 − p eine Nummer tiefer. R = {0, n} sei der absorbierende Rand.
Symmetrische Irrfahrt:
Die Münze ist symmetrisch, also p = q = 12 .
1. Wie groß ist die Wahrscheinlichkeit, von x ∈ {0, 1, . . . , n} aus in 0 absorbiert zu werden?
Ist px diese Wahrscheinlichkeit, so liefert Mittelwertregel 1
px =
1
1
· px−1 + · px+1
2
2
für
x 6∈ {0, n}
und
p0 = 1 ,
pn = 0 .
Dies bedeutet, dass je 3 benachbarte Werte der Wahrscheinlichkeitsfunktion auf einer Geraden
liegen (1. Gleichung), welche durch (0, 1) und (n, 0) geht (s. Abb. 13.13).
px
1
Aufgabe 13.9:
Zwei stochastische Käfer starten gleichzeitig eine Irrfahrt auf dem Graphen in Abb. 13.11. Wie
groß ist die mittlere Laufzeit bis zur Begegnung?
Aufgabe 13.10:
Zwei stochastische Käfer starten auf den gegenüberliegenden Ecken eines regulären 8–Ecks (s.
Abb. 13.12). Man bestimme die mittlere Laufzeit bis zur Begegnung.
Aufgabe 13.11:
px-1
px
px+1
0
1 2
x-1 x x+1
Abb. 13.13
n
x
164
13 HOMOGENE MARKOWKETTEN
165
13.5 Irrfahrten auf einer Geraden
Die Gleichung dieser Geraden lautet daher px = 1 − nx . Ein in x befindliches Teilchen wird
demnach mit der Wahrscheinlichkeit px = 1 − nx in 0 absorbiert.
Beweis:
2. Wieviele Schritte macht das Teilchen im Durchschnitt bis zur Absorption auf dem Rand
R = {0, n} ?
Überraschend an dieser Aussage ist ihre Unabhängigkeit von x. Für x = 1 z.B. gilt µ1 = ∞,
obwohl die Hälfte aller Wege von 1 aus nur die Länge 1 hat!
Mit n → ∞ folgt aus Satz 13.9 px → 1 und µx → ∞ für jedes feste x. 2
µx sei die mittlere Schrittzahl von x aus. Damit liefert Mittelwertregel 2
µx = 1 +
1
1
µx−1 + µx+1
2
2
für x 6∈ {0, n}
und
µ0 = µn = 0 .
Hieraus ergibt sich die Rekursionsformel
µx+1 = 2µx − µx−1 − 2 .
Auf A = {0, 1, . . . , n} finde eine symmetrische Irrfahrt statt. n sei absorbierend, 0 reflektierend
(d.h. die Übergangswahrscheinlichkeit von 0 nach 1 ist p01 = 1).
a) Bestimmen Sie die mittlere Schrittzahl µx von x aus bis zur Absorption.
Wir verwenden µ0 = 0 und lassen µ1 zunächst offen. So finden wir nacheinander
µ2 = 2µ1 − 2 = 2 (µ1 − 1),
Aufgabe 13.13:
µ3 = 3µ1 − 6 = 3 (µ1 − 2),
µ4 = 4µ1 − 12 = 4 (µ1 − 3) .
Wir vermuten µx = x(µ1 − x + 1), was sich durch vollständige Induktion beweisen lässt.
b) Zeigen Sie, dass px = 1 die Wahrscheinlichkeit dafür ist, dass ein in x startender Irrfahrer
in n absorbiert wird.
Setzt man x = n, so erhält man 0 = µn = n (µ1 −n+1). Daher ist µ1 = n−1 und µx = x(n−x) .
Asymmetrische Irrfahrt
Insgesamt haben wir also bewiesen
Der Zustandsraum des Irrfahrers sei wieder {0, . . . , n} mit dem Rand {0, n}. Die steuernde
Münze sei asymmetrisch, d.h. die Übergangswahrscheinlichkeiten p von x nach x + 1 seien
verschieden von den Übergangswahrscheinlichkeiten q = 1 − p von x nach x − 1.
Satz 13.9:
Bei einer symmetrischen Irrfahrt auf der Menge {0, . . . , n} gilt für die Wahrscheinlichkeit px ,
von x aus in 0 absorbiert zu werden und für die mittlere Dauer µx bis zur Absorption in 0
oder n
px = 1 −
x
n
und µx = x(n − x).
Wie groß ist die Wahrscheinlichkeit px , von x aus in 0 absorbiert zu werden?
Nach der ersten Mittelwertregel ist
px = ppx+1 + qpx−1
x 6∈ {0, n}
für
und
p0 = 1 ,
pn = 0 .
Wegen p + q = 1 ergibt sich aus der ersten Gleichung
Aufgabe 13.12:
X hat x Euro und Y hat y Euro. In jedem Spiel setzen sie je 1 Euro und werfen eine ideale
Münze. Sie spielen so lange bis einer von ihnen ruiniert ist.
a) Mit welcher Wahrscheinlichkeit wird X ruiniert?
b) Wie lange dauert das Spiel im Mittel?
c) Beantworten Sie a) und b) konkret für x = 1 und y = 10000.
Satz 13.10:
Bei einer symmetrischen Irrfahrt auf dem Zustandsraum N0 mit absorbierendem Rand {0}
ist für jedes x > 0 die Absorptionswahrscheinlichkeit px = 1 und die Länge des mittleren
Absorptionsweges µx = ∞.
ppx + qpx = ppx+1 + qpx−1 ,
also
Das führt rekursiv auf px+1 − px =
px+1 − px =
q x
(p1
p
q
(px − px−1 ) .
p
− p0 ) für x ∈ {0, . . . , n − 1} .
Addiert man die ersten x dieser Gleichungen, so kommt man auf
px − p0 = (p1 − p0 )
x−1 X
1 − ( pq )x
q j
.
= (p1 − p0 )
p
1 − pq
j=0
Wegen p0 = 1 und pn = 0 erhält man durch Einsetzen von x = n
−1 = (p1 − p0 )
1 − ( pq )n
1−
q
p
,
woraus folgt p1 − p0 = −
Durch Einsetzen und Grenzwertbildung ergibt sich der
q
p
q n.
(p)
1−
1−
166
167
13 HOMOGENE MARKOWKETTEN
14
Satz 13.11:
Bei einer asymmetrischen Irrfahrt auf {0, . . . , n} ist die Wahrscheinlichkeit px , von x aus in 0
absorbiert zu werden
q x
q x
q n
1−
−
p
p
p
px = 1 −
q n =
q n .
1−
1−
p
p
Bei einer asymmetrischen Irrfahrt auf N0 mit {0} als Rand gilt für die Wahrscheinlichkeit px
von x aus in 0 absorbiert zu werden,

für q > p
 1
px =
q x

für q < p .
p
In Abbildung 13.14 ist px für die Irrfahrt auf N0 veranschaulicht.
px
px = 1
1
0
1
x
(p > q)
x
Aufgabe 13.14:
Zeigen Sie, dass bei der asymmetrischen Irrfahrt auf {0, 1, . . . , n} für die mittlere Schrittzahl
µx von x bis zur Absorption gilt
1 − ( pq )x
n
x
−
·
,
q − p q − p 1 − ( pq )n
p 6= q .
Berechnen Sie lim µx sowohl für q > p als auch für q < p.
n→∞
Die Objekte müssen der Grundgesamtheit zufällig und unabhängig entnommen werden.
Die Zufälligkeit wird durch ein Losverfahren erreicht, das Chancengleichheit garantiert, die Unabhängigkeit dadurch, dass die Lose einzeln gezogen und vor der nächsten Ziehung zurückgelegt
werden.
Stichproben müssen repräsentativ sein. Bei Meinungsumfragen ist also der Anteil der verschiedenen Bevölkerungsgruppen zu berücksichtigen, bei Handwerksprodukten die im Tagesverlauf zunehmende Ermüdung der Handwerker und die damit abnehmende Qualität der Arbeit.
(a) Welche Aussage kann man damit über die mittlere Betriebsdauer µ der Gesamtheit der
produzierten Staubsauger diesen Typs machen?
x
Abb. 13.14
µx =
Stichproben werden aus Grundgesamtheiten entnommen. Beispiele dafür sind etwa die
Menge der Staubsauger einer Wochenproduktion oder die Menge der im Jahre 1989 in Deutschland Geborenen.
Beispiel 14.1:
p1
px
Statistische Verfahren wendet man an, wenn eine Untersuchung grundsätzlich an sehr vielen
Einzelobjekten durchgeführt werden müsste, es aber zu aufwendig, zu teuer oder gar unmöglich
ist, alle Objekte der Menge in die Untersuchung einzubeziehen. Man nimmt dann stattdessen
Stichproben.
Eine Elektrofirma möchte die mittlere Lebensdauer in Betriebstunden der von ihr produzierten
Staubsauger ermitteln. Da man nicht alle Geräte prüfen kann, wird die Untersuchung an einer
zufällig aus einer Wochenproduktion ausgewählten Stichprobe von 10 Stück durchgeführt. Es
ergibt sich eine mittlere Betriebsdauer von x Stunden.
(p < q)
q
px =
p
Stichproben und ihre Parameter
(b) Welche Mindestbetriebsdauer kann die Firma garantieren, wenn sie ihrer Prognose zu
95% sicher sein will?
Definition 14.1: (Stichprobe, Stichprobenwert)
Werden n (nicht notwendig paarweise verschiedene) Werte x1 , . . . , xn eines Merkmals X
beobachtet, dann nennt man das n–Tupel x = (x1 , . . . , xn ) Stichprobe vom Umfang n.
Jedes xi heißt ein Stichprobenwert.
Beispiel 14.2:
Das Durchschnittsgewicht eines ausgewachsenen Löwen soll ermittelt werden. Dazu kann man
nicht sämtliche Löwen in der Wüste einsammeln und wiegen, sondern muss sich mit einer
Stichprobe begnügen. 25 Löwen werden gewogen. Ihre Massen in kg seien
191, 195, 200, 181, 209, 172, 196, 192, 201, 229,
183, 194, 199, 206, 203, 219, 192, 186, 213, 197,
211, 188, 195, 205, 197.
168
169
14 STICHPROBEN UND IHRE PARAMETER
Da kaum zwei Löwen die gleiche Masse haben, ist diese Stichprobe wenig aufschlussreich. Wir
ordnen sie daher nach der Größe und nehmen eine Klasseneinteilung vor, wobei wir die Grenzen
der Klassen so legen, dass auf sie kein Wert fällt. Wir nehmen die Grenzen 169, 5 − 179, 5 −
189, 5 − 199, 5 − 209, 5 − 219, 5 − 229, 5. Das ergibt sechs Klassen:
172
181,
191,
200,
211,
229
183,
192,
201,
213,
Bemerkung 14.1:
Bei einer durch eine Klasseneinteilung gegebenen Stichprobe nimmt man als Spannweite die
Differenz aus dem rechten Randwert der obersten Klasse und dem linken Randwert der untersten Klasse.
Histogramme geben grobe Hinweise auf die zugrundeliegenden Verteilungen. Deren Parameter wie Mittelwert, Varianz, Erfolgswahrscheinlichkeit u.a. lassen sich aber ohne
weiteres nicht entnehmen. Näherungswerte für die Parameter müssen direkt aus den Messwerten gewonnen werden.
186, 188
192, 194, 195, 195, 196, 197, 197, 199
203, 205, 206, 209
219
Trägt man die Anzahl der Werte jeder Klasse wie in Abbildung 14.1 als Histogramm über der
Klasse auf, so erkennt man besser, wie die Massen verteilt sind.
h
Wir wollen einige Grundbegriffe einführen. Dabei benutzen wir Bezeichnungen, die der Wahrscheinlichkeitsrechnung entlehnt sind. Die zugehörigen Begriffe sind hier aber in der Regel von
jenen verschieden. Die Namensgleichheit wird lediglich durch das gleiche Konstruktionsprinzip
nahegelegt.
Definition 14.3: (Mittelwert einer Stichprobe)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl
10
n
x=
8
1X
xi
n i=1
Mittelwert der Stichprobe (x1 , x2 , . . . , xn ).
6
4
Defintion 14.4: (absolute und relative Häufigkeit)
2
169,5
179,5
189,5
199,5
209,5
219,5
229,5
G [Kp]
Abb. 14.1
Infolge der Verschiedenheit der Werte mussten wir hier einzelnen Klassen absolute Häufigkeiten
zuordnen. Vielfach liegt diese Klassenbildung von vornherein in der Natur der Sache. Verteilt
man etwa bei einer Prüfungsarbeit die Noten 1, 2, . . . , 6, so ist jede Note mit einer gewissen
Häufigkeit vertreten.
Tritt unter n Beobachtungen eines Merkmals X ein Wert xi k–mal auf, so heißt die Anzahl
h(xi ) = k absolute Häufigkeit und die Zahl r(xi ) = n1 h(xi ) relative Häufigkeit von
xi .
Bemerkung 14.2:
Sind genau die m Werte x1 , . . . , xm paarweise voneinander verschieden, also xm+1 , . . . , xn Wiederholungen von einigen dieser Werte, so lässt sich der Mittelwert unter Verwendung von Definition 14.4 auch wie folgt berechnen:
m
Definition 14.2: (Spannweite)
Ist x(1) der kleinste und ist x(n) der größte Wert einer Stichprobe vom Umfang n, dann heißt
x(n) − x(1) die Spannweite der Stichprobe.
Beispiel 14.3:
Die Spannweite unserer Löwensstichprobe beträgt 229 kg − 172 kg = 57 kg. Kann man daraus
schließen, wie schwer ein Löwe schlechthin werden kann?
x=
m
X
1X
xi h(xi ) =
xi r(xi ) .
n i=1
i=1
Die Mittelwertbildung für eine Stichprobe ist demnach eine Kopie des aus der Wahrscheinlichkeitsrechnung bekannten Verfahrens, wobei die relativen Häufigkeiten die Rolle der Wahrscheinlichkeiten einnehmen.
Zur Berechnung der Varianz einer Stichprobe x1 , . . . , xn kann man entsprechend vorgehen:
170
171
14 STICHPROBEN UND IHRE PARAMETER
Definition 14.5: (empirische Varianz)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl
!
!
!
n
n
n
X
1X
1
1X 2
2
2
2
2
2
xi − nx
(xi − x) =
x −x =
s =
n i=1
n i=1 i
n
i=1
die empirische Varianz der Stichprobe.
Ergibt sich z.B. bei einem Leistungstest für zwei Schulklassen derselbe Mittelwert so kann es
für die Beurteilung der angewandten Lehrmethoden entscheidend sein, ob auch die Varianzen
annähernd übereinstimmen oder nicht. Die Maßzahlen x und s2 liefern hier genauere Information als nur die graphischen Darstellungen.
Sind die Mittelwerte für die zu vergleichenden Gruppen von Testpersonen verschieden, so lassen
sich die Streuungen nicht unmittelbar vergleichen, denn zu im Mittel höheren Werten gehört
in der Regel auch eine (absolut) größere Streuung.
Aufgabe 14.1:
Bemerkung 14.3:
Sind unter n genau m paarweise verschiedene Werte x1 , . . . , xm , so kann man die empirische
Varianz auch folgendermaßen ausrechnen:
s2 =
1
n
m
X
i=1
(xi − x)2 h(xi ) =
m
X
i=1
(xi − x)2 r(xi ) .
Häufig wird die Varianz für Stichproben nicht durch die empirischen Varianz sondern durch
die sogenannte Stichprobenvarianz festgelegt. Vorsicht: Diese beiden Bezeichnungen werden in der Literatur nicht einheitlich verwendet!
Definition 14.6: (Stichprobenvarianz)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt
!
!
n
n
X
1 X
1
2
2
2
2
se =
xi − nx
(xi − x) =
n − 1 i=1
n−1
i=1
Stichprobenvarianz der Stichprobe.
Ist x = (x1 , . . . , xn ) eine Stichprobe mit dem Mittelwert x, dann hat ihre lineare Transformation
ax + b := (ax1 + b, . . . , axn + b) den Mittelwert
ax + b = ax + b .
Aufgabe 14.2:
x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) seien zwei Stichproben gleichen Umfangs. Dann gilt für
den Mittelwert ihrer Linearkombination ax + by := (ax1 + by1 , . . . , axn + byn )
ax + by = ax + by .
Häufig ist der Mittelwert keine geeignete Größe zur Beurteilung der Mehrheit einer gewissen
Gesamtheit.
Beispiel 14.4:
Zum Spaß springe ich mit 3 Freunden über eine Hochsprunglatte. Ich schaffe 1,20 m, meine
Freunde 1,23, 1,28 und 1,31. Ein langer Fremder tritt hinzu und fragt höflich, ob er mitspringen
dürfe. Wir sind einverstanden. Er überquert die Latte bei 2,47 m. Wie sich später herausstellt,
ist es Valentin Hüpverrenkow, der Weltrekordler.
Wir kommen nach Hause und erzählen, dass wir im Durchschnitt
x=
Bemerkung 14.4:
n
s2 und se2 hängen durch die Beziehung se2 = n−1
s2 voneinander ab. Der Unterschied ist bei
größeren Stichproben praktisch ohne Bedeutung. Er ist jedoch von großem theoretischen Interesse:
Stichproben werden genommen, um von ihnen auf die Grundgesamtheit zu schließen. Mit der
Varianz der Stichprobe möchte man ein Maß für die Varianz der Grundgesamtheit gewinnen.
Merkwürdigerweise ist nun se2 dafür in gewissem Sinne ein besserer Näherungswert als s2 . Deshalb ist die Stichprobenvarianz in der Statistik der gängigere Begriff. Wir kommen in Satz
16.5 darauf zurück.
Die Bedeutung der definierten Maßzahlen entspricht ganz dem, was bei Wahrscheinlichkeitsverteilungen ausgeführt wurde: Der Mittelwert charakterisiert grob die Lage der Werte, die
Varianz kennzeichnet ihre Streuung um das Mittel.
1, 20 + 1, 23 + 1, 28 + 1, 31 + 2, 47
m ≈ 1, 50m
5
geschafft haben, und unsere Leistung klingt ganz passabel.
Unsere Auskunft spiegelt aber ganz und gar nicht das Leistungsvermögen der Mehrheit. Denn
wir allein sprangen im Schnitt nur etwa 1, 25 m. Der Mittelwert x ist sehr empfindlich gegen
sogenannte Ausreißer“.
”
Weniger empfindlich auf Außreißerwerte reagiert der Zentralwert oder empirischen Median einer Stichprobe.
172
173
14 STICHPROBEN UND IHRE PARAMETER
Definition 14.7: (empirischer Median)
x(1) ≤ x(2) ≤ . . . ≤ x(n) seien die der Größe nach geordneten Werte eine Stichprobe vom
Umfang n. Dann heißt der Wert

, falls n ungerade ist,
x( n+1 )

2
x
e=
x( n2 ) + x( n2 +1)

, falls n gerade ist,
2
Zentralwert oder empirischer Median der Stichprobe.
Demnach ist der Zentralwert bei ungeradem n der Wert in der Mitte und bei geradem n das
arithmetische Mittel der beiden in der Mitte stehenden Werte.
Beispiel 14.5:
Der Zentralwert im Beispiel 14.4 ist x
e = x( 5+1 ) = x(3) = 1.28 m. Er beschreibt die Leistung der
2
Allgemeinheit besser als der Mittelwert x.
In unserem Beispiel liegen Mittelwert und Median weit auseinander. Diese Art der Abweichung
der beiden Werte voneinander enthält eine Aussage über die Asymmetrie einer Verteilung und
ist damit ein einfaches Interpretationsinstrument einer gegebenen Häufigkeitsverteilung.
Der Mittelwert einer Stichprobe besitzt eine entsprechende Minimaleigenschaft wie der Mittelwert einer Zufallsgröße (vgl. hierzu Satz 9.5; der Beweis verläuft genauso wie dort).
Der Beweis dieser Aussage ist nicht schwer, aber recht umständlich, weswegen wir darauf verzichten.
Aufgabe 14.3:
Im Rahmen einer Lebensmittelkontrolle wurde das Füllgewicht von 40 Dosen Kaffee–Extrakt
einer bestimmten Sorte auf 0,5 g genau ermittelt. Dabei ergaben sich folgende Rohwerte:
40, 5
45, 0
42, 0
43, 0
49, 0
43, 0
47, 0
48, 0
46, 0
46, 5
44, 5
50, 0
49, 0
42, 5
43, 5
48, 0
49, 0
46, 0
53, 0
40, 0
47, 0
55, 0
47, 0
48, 5
42, 0
47, 5
45, 5
48, 0
47, 0
47, 0
52, 0
48, 0
46, 5
45, 5
45, 0
51, 0
44, 0
50, 0
43, 0
45, 0
Man erstelle für die Klasseneinteilung mit der Klassenbreite 2 und Klassengrenzen bei 39, 5 −
41, 5 usw. eine Strichliste und zeichne das Histogramm (Werte, die auf eine Klassengrenze fallen,
kann man beiden Klassen je zur Hälfte zurechnen).
Man berechne für die Werte den Mittelwert x und die empirische Varianz s2 , und dabei x einmal
exakt aufgrund der gegebenen Rohwerte und einmal unter Verwendung der durchgeführten
Klasseneinteilung.
Warum kann die Abweichung, die sich ergibt, hier nur gering sein?
Aufgabe 14.4:
Gegeben sei folgende Häufigkeitsverteilung:
Satz 14.1:
(x1 , . . . , xn ) sei eine Stichprobe und x ihr Mittelwert. Dann gilt für jede Zahl c 6= x
n
X
i=1
(xi − x)2 <
n
X
i=1
(xi − c)2 .
Zur Festlegung eines Streumaßes einer Stichprobe um eine Zahl c ∈ R kann man statt der
Summe der Abstandsquadrate (xi − c)2 wie in Satz 14.1 auch die Summe der Abstandsbeträge
|xi −c| betrachten. Bezüglich dieses Streumaßes hat dann der Median eine Minimaleigenschaft.
Satz 14.2:
Bei jeder Stichprobe x1 , . . . , xn ist die Summe der Abstände vom empirischen Median x
e
minimal:
n
X
i=1
|xi − x
e| ≤
n
X
i=1
|xi − c|
für alle c ∈ R.
Klassenmitten
0
1
2
3
4
5 6
7
8
9
10 11 12
13 14 15
Klassenhäufigkeit (absolut)
0
8
12 15
6
4 2
5
3
4
2
0
Man berechne den Mittelwert x und den Median x
e.
0
1
2
0
174
15
15.1
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
Einfache Entscheidungsverfahren
175
15.1 Das Testen einer Hypothese
Die Nullhypothese H0 :
Mäuse verhalten sich (innerhalb gewisser Grenzen) gegen Wärme bzw. Kälte indifferent; die
Wahrscheinlichkeit für die Wahl jedes der temperierten Zweige ist also p = 21 .
Das Testen einer Hypothese
Eine typische Problemstellung der Statistik ist das Testen von Hypothesen.
Im Gegensatz zur Wahrscheinlichkeitstheorie, in der aus gegebenen Wahrscheinlichkeiten auf
andere Wahrscheinlichkeiten geschlossen wird, geht es darum, aus Einzelergebnissen eines wiederholten Experiments auf die Wahrscheinlichkeiten zu schließen, die den Ausfall des Experiments bestimmen. Im einfachsten Fall ist zu prüfen, ob die tatsächliche Wahrscheinlichkeit p
einer vermuteten Wahrscheinlichkeit p0 gleich ist.
Wir wollen zunächst den sehr bedeutend klingenden Ausdruck Testen einer Hypothese“
”
an einigen einfachen Beispielen erläutern.
Beispiel 15.1:
Wir prüfen, ob eine Münze ideal“ ist, d.h. ob gleich oft Kopf“ oder Zahl“ fällt. Wir nehmen
”
”
”
uns dazu vor, sie 5–mal zu werfen und die Hypothese, die Münze sei ideal, genau dann zu
verwerfen, wenn 5–mal Kopf“ oder 5–mal Zahl“ fällt.
”
”
Das ist ein Test der genannten Hypothese. Die Absprache, die Idealannahme zu verwerfen,
wenn man als Ergebnis entweder 5–mal Kopf oder 5–mal Zahl erhält, heißt die Entscheidungsvorschrift für den Test.
Die Gegenhypothese H1 :
Mäuse unterscheiden zwischen Laufgängen unterschiedlicher Temperatur, d.h. es ist p >
p < 21 .
Wir testen also p = 12 gegen p 6= 21 . Da p sowohl größer als auch kleiner als p =
sprechen wir von einem zweiseitigen Test.
Beispiel 15.3:
oder
sein kann,
Wir legen folgende Vorgehensweise fest: Die Nullhypothese wird verworfen, wenn das Ergebnis signifikant auf dem 5%–Niveau ist. Was heißt das?
Die Anzahl der möglichen Erfolge liegt zwischen 0 und n (im Beispiel ist n = 20). Besonders
große oder auffällig kleine Werte von X lassen uns an der Nullhypothese zweifeln.
Wir zerlegen daher Die Menge [0, n] in zwei Teilmengen K = [0, a]∪[n−b, n] und K C =]a, n−b[
(vgl. Abb. 15.2). Dabei enthält K die Erfolgsanzahlen mit den geringsten Wahrscheinlichkeiten und K C die mit den größten, wobei zur Berechnung der Wahrscheinlichkeiten der in der
Nullhypothese angegebene Parameter p = 12 verwendet wird.
Insgesamt sollen die Wahrscheinlichkeiten für die Erfolgsanzahlen aus K einen vorgegebenen
Wert α, das sogenannte Signifikanzniveau, nicht überschreiten.
K
Beispiel 15.2:
Eine Urne enthält zwei Kugeln. Wir vermuten, dass beide rot sind. Um diese Hypothese
zu testen, ziehen wir eine Kugel. Ist sie rot, erkennen wir die Hypothese an. Die Entscheidungsvorschrift lautet: Nimm an, dass beide Kugeln rot sind, wenn die gezogene Kugel rot
ist.
1
2
1
2
K
c
[
]
[
]
0
a
n-b
n
R
Abb. 15.2
Wir fassen dies zunächst zu einer Definition zusammen:
Wir lassen 20 Mäuse durch einen Gang mit Zimmertemperatur (20◦ ) laufen, der sich in zwei
Gänge verzweigt, von denen der eine auf 0◦ gekühlt, der andere auf 40◦ erwärmt ist (s. Abb.
15.1). X sei die Zufallsgröße, die die Anzahl derjenigen Mäuse zählt, die den wärmeren Gang
vorziehen.
40°
20°
?
Definition 15.1: (Kritisches Gebiet, Signifikanzniveau)
Setzt man fest, die Nullhypothese H0 zu verwerfen, wenn das Ergebnis X des Zufallsexperiments in K liegt, so nennt man K kritisches Gebiet.
Zu einem kritischen Gebiet K gehört das Signifikanzniveau oder die Irrtumswahrscheinlichkeit α, wenn gilt P (X ∈ K) = P ({ω | X(ω) ∈ K}) ≤ α.
Ein Ergebnis ω ∈ Ω heißt signifikant auf dem α–Niveau, wenn es durch X in ein
kritisches Gebiet K zum Signifikanzniveau α abgebildet wird, d.h. X(ω) = x ∈ K.
0°
Abb. 15.1
Unser Experiment hat folgenden Ausfall: 01000110000110010000. Dabei bezeichnen die Einsen
die von X gezählten Erfolge. Wir stellen zwei Hypothesen einander gegenüber.
Im vorliegenden Fall ist laut Nullhypothese p = 21 . Wegen der Symmetrie des Problems wählt
man daher a = b. Dann besteht K = [0, a] ∪ [n − a, n] aus zwei gleich wahrscheinlichen,
symmetrisch zu K C gelegenen Mengen.
Wir berechnen das zum 5%–Niveau gehörige kritische Gebiet. Dazu entnehmen wir nach stei-
176
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
gender Größe geordnet der Tabelle für die Binomialfunktion solange Werte bn,p (x) = b20;0.5 (x),
wie die Summe 0, 05 = 5% nicht übersteigt (die genauen Zahlen stehen in Abb. 15.3). Die
zugehörigen x-Werte bilden das kritische Gebiet.
x
b(x)
0
20
1
19
2
18
3
17
4
16
5
15
6
14
0, 00000
0, 00000
0, 00002
0, 00002
0, 00018
0, 00018
0, 00109
0, 00109
0, 00462
0, 00462
0, 01479
0, 01479
0, 03696
0, 03696
P
177
15.1 Das Testen einer Hypothese
geburten sind, d.h. H0 ist p = 21“.
”
Die Gegenhypothese lautet: Knabengeburten sind häufiger. H1 ist also p > 12 “. Es handelt
”
sich hier um einen einseitigen Test.
1984 verteilten sich die ersten 2000 Einzelgeburten in einem westeuropäischen Gebiet wie folgt:
b(x)
Knaben: 1059,
Mädchen: 941.
Ist die Abweichung vom Erwartungswert signifikant auf dem 1%–Niveau?
Wir stellen das zum 1%–Niveau gehörige kritische Gebiet K fest. Hier suchen wir eine möglichst
große Menge K = [a, n] mit P (X ∈ K) ≤ 0, 01, denn da wir p = 21 gegen p > 12 einseitig
testen, unterstützen nur große Werte von X die Gegenhypothese.
0,00004
0, 00040
Zum Signifikanzniveau α = 0, 01 bestimmen wir also ein möglichst kleines a so, dass
0, 00258
P (X ≥ a) ≤ 0, 01 d.h.
0, 01182
0, 04140
< 5%
Abb. 15.3
Das kritische Gebiet ist die Menge K = [0, 5] ∪ [15, 20].
Im Beispiel 15.3 wurden 6 Erfolge gezählt. Da 6 nicht im kritischen Gebiet liegt, können wir
trotz des augenscheinlich“ einseitigen Ausfalls die Nullhypothese H0 nicht auf dem 5%-Niveau
”
verwerfen. 6 Erfolge sind nicht einmal signifikant auf dem 10%–Niveau, und daher, wie man in
der Statistik sagt, auch nicht verdächtig.
x=a
Einsetzen von n = 2000 und p =
a = 1053. Daher ist
K = [1053, 2000]
0, 11532 > 11%
n
X
und
bn,p (x) ≤ 0, 01 .
1
2
führt nach Anwendung der Normalapproximation auf
1059 ∈ K .
Der gefundene Wert ist signifikant auf dem 1%–Niveau, und die Nullhypothese, dass Knabenund Mädchengeburten gleich wahrscheinlich sind, kann mit 99%iger statistischer Sicherheit
verworfen werden.
Aufgabe 15.1:
Man prüfe, wie die Entscheidung im Beispiel 15.4 ausgefallen wäre, wenn man nur die ersten
200 Einzelgeburten untersucht hätte und dabei folgende Verteilung entdeckt hätte:
Knaben: 106
Mädchen: 94 .
Bemerkung 15.1:
Richtet man sich nach der Entscheidungsregel, Nullhypothesen zu verwerfen, wenn das Ergebnis
eines Zufallsexperiments signifikant auf dem 5%–Niveau ist, so begeht man im Mittel nur in 5%
1
aller Fälle oder mit der Wahrscheinlichkeit 20
den Fehler, die Nullhypothese H0 zu verwerfen,
obwohl sie wahr ist. Diesen Fehler nennt man α–Fehler oder Fehler erster Art.
In der Praxis sind Signifikanzniveaus von 5%, 1% und 0, 5% üblich, je nachdem, wie sicher man
sein möchte, wenn man eine Nullhypothese verwirft. Je niedriger das Niveau, desto sicherer ist
die Entscheidung. Die Zahl 1 − α heißt statistische Sicherheit.
Man begeht natürlich auch einen Fehler, wenn man die Nullhypothese nicht verwirft, obwohl
sie falsch ist. Dies nennt man einen Fehler 2. Art oder einen β–Fehler.
Beispiel 15.4:
Werden im Durchschnitt mehr Knaben als Mädchen geboren, oder ist der öfter festgestellte
Überhang an Knabengeburten auf statistische Streuung der Gleichverteilung zurückführbar?
Wir stellen die Nullhypothese auf, dass Knabengeburten genau so wahrscheinlich wie Mädchen-
Nehmen wir das Ergebnis von Aufgabe 15.1 vorweg: Obwohl die Zahlenverhältnisse praktisch
dieselben sind, lässt sich die Nullhypothese nicht einmal auf dem 10%–Niveau verwerfen.
Eine Stichprobe von 200 Geburten ist einfach zu klein, um eine sichere Aussage zu machen,
wenn sich p0 und p nur wenig unterscheiden. Für sichere Aussagen müssen Stichproben hinreichend groß sein. Andererseits begrenzen die anfallenden Kosten die Größe nach oben.
Aufgabe 15.2:
Einem gerade geschlüpften Küken werden dreieckige und runde falsche Körner aus Papier vorgeworfen. Ist das Erkennen der runden Kornform“ angeboren?
”
Das Küken pickt 18 Körner“ auf, davon 13 runde.
”
Welchen Schluss können wir daraus ziehen? Testen wir einseitig oder zweiseitig?
Aufgabe 15.3:
Dieselben Ratten werden zweimal nacheinander durch einen Gang geschickt, der sich in zwei
178
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
Gänge gabelt. Wir wollen prüfen, ob Ratten neugierig sind. Als Erfolg zählen wir, wenn sich
eine Ratte beim zweiten Mal an der Gabelung anders entscheidet.
a) Bei 10 Ratten zählen wir 8 Erfolge.
b) Bei 15 Ratten zählen wir 12 Erfolge.
Welchen Schluss können wir jeweils ziehen?
15.2
Der exakte Test von Fisher
Bei großen Zahlen kann man oft ohne Rechnung erkennen, dass Versuchsergebnisse signifikant
voneinander abweichen.
179
15.2 Der exakte Test von Fisher
davon mindestens 5, d.h. 5 oder 6, zufällig mit Capelli behandelt werden, denn eine große
”
Zahl“ im rechten unteren Eintrag der Tabelle lässt zugunsten der Gegenhypothese H1 an H0
zweifeln.
Die hypergeometrische Verteilung liefert
5
7
· 1 + 76 · 50
105 + 7
= 0, 12 .
=
α = 5
12
924
6
Das Ergebnis des Tests reicht nicht aus, um die Nullhypothese Capelli wirkt genauso wie No”
glatz“ zu verwerfen.
Aufgabe 15.4:
Beispiel 15.5:
Der Salk–Impfstoff gegen Kinderlähmung wurde in den USA im Jahre 1954 erprobt. 401974
Kinder wurden geimpft, der eine Teil, die Versuchsgruppe, mit Salk–Impfstoff, der andere Teil,
die Kontrollgruppe, mit Salzwasser. Die folgende Tabelle zeigt die Ergebnisse:
Polio kein Polio
Versuchsgruppe
Kontrollgruppe
Summe
Dr. Wolle testet die Nullhypothese, dass das Haarwuchsmittel Capelli“ in 50% aller Fälle
”
Haarausfall stoppt, gegen die Gegenhypothese, dass das Mittel den Haarausfall mit einer Wahr1
scheinlichkeit von p > 2 stoppt, an 6 Patienten. Er erhält folgendes Resultat:
Summe
33
115
200712
201114
200745
201229
148
401826
401974
Anzahl
weiter Haarausfall
1
Haarausfall gestoppt
5
a) Kann man demnach die Nullhypothese verwerfen? Falls ja, auf welchem Niveau?
b) Wieviel Patienten müsste er testen, um bei im Verhältnis gleichem Ausfall die Nullhypothese auf dem 0, 5%–Niveau verwerfen zu können?
Eine solche Tabelle heißt Vierfeldertafel.
Dass sich durch Impfen die Erkrankungsgefahr wesentlich vermindert, erkennt man auf den
ersten Blick. Bei kleinen Zahlen muss man jedoch mit solchen Urteilen sehr vorsichtig sein.
Ohne Rechnung lassen sich die Ergebnisse nicht zuverlässig deuten. Das zeigt das folgende
Beispiel 15.6:
Dr. Wolle bringt das neue Haarwuchsmittel Capelli“ auf den Markt. Er verspricht, dass es
”
besser sei als das bekannte Präparat Noglatz“ , denn er hat beide Präparate an je 6 Versuchs”
personen getestet und folgendes Resultat gefunden:
Noglatz
Capelli
weiter Haarausfall
Haarausfall gestoppt
4
1
2
5
5
7
Aufgabe 15.5:
Eine gefährliche Krankheit wurde bisher mit dem Mittel A behandelt. Man hat ein neues Mittel
B gefunden, das es zu erproben gilt. 15 Patienten werden behandelt, 8 erhalten das neue Mittel
B, 7 das Mittel A.
Um psychologische Einflüsse auszuschalten, erfolgt der Versuch doppel-blind, d.h. weder der
Arzt noch der Patient weiß, welche Arznei jeweils genommen wird. Das Ergebnis zeigt die
folgende Vierfeldertafel:
6
6
Wie ist dieses Ergebnis zu beurteilen?
Wir testen die Nullhypothese Capelli wirkt genauso gut wie Noglatz“ gegen die Gegenhypo”
these Capelli wirkt besser als Noglatz“.
”
Wir gehen von der These aus, dass entweder beide Präparate einem Patienten helfen können
oder keines von beiden. Dann gibt es also unter den 12 Versuchspersonen genau 7, deren
Haarausfall gestoppt werden kann. Wir prüfen, wie groß die Wahrscheinlichkeit dafür ist, dass
sterben
überleben
Summe
Mittel A
Mittel B
4
2
3
6
7
8
Summe
6
9
15
Das neue Mittel scheint auf den ersten Blick viel wirksamer zu sein: Die mit A behandelten
Personen haben die Sterblichkeit 57%, die mit B behandelten 25%.
Testen Sie die Nullhypothese, dass A und B gleich wirksam sind mit dem exakten Test von
Fisher gegen die Gegenhypothese, dass B besser wirkt.
Aufgabe 15.6:
Härtet Stress ab (Zeitschrift Science“, Bd. 140 (1963), p. 1414 f)?
”
180
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
Von 23 Affen werden 11 Versuchsaffen ausgelost. Sie müssen 24 Stunden lang fleißig arbeiten
(einen Hebel fest drücken). Sobald sie nachlassen, werden sie durch einen Stromstoß bestraft.
Die übrigen 12 Kontrollaffen brauchen gar nichts zu tun. Danach werden alle 23 Affen mit dem
Polio–I–Virus geimpft.
Man wird vermuten, dass es den Versuchsaffen schlechter ergehen wird, denn sie sind durch
eine lange Tortur geschwächt. Die nachstehende Vierfeldertafel zeigt das überraschende
Ergebnis:
überlebt
gestorben
Summe
Versuchsaffen
Kontrollaffen
7
1
4
11
11
12
Summe
8
15
23
Zwei Hypothesen sind zu vergleichen:
H0 : Stress ist ohne Wirkung;
H1 : Stress macht widerstandsfähig.
181
15.3 Der Vorzeichentest
15.3
Der Vorzeichentest
Eine landwirtschaftliche Schule führt folgendes Anbauexperiment zur Ermittlung einer Düngerwirkung durch: Die zur Verfügung stehende Anbaufläche wird in 10 Felder, numeriert von 1
bis 10, aufgeteilt, und jede dieser Parzellen wird noch einmal halbiert. Durch Los wird bestimmt, welche Hälfte jeder Parzelle zu düngen ist. Dann wird die ganze Fläche bepflanzt. Als
Kontrollabschnitte dienen die nicht gedüngten Abschnitte. Die Nullhypothese lautet: Der bei
diesem Experiment verwendete Dünger hat keinen Einfluss auf den Ertrag.
Die folgende Tabelle zeigt das Ergebnis des Anbaus:
Nummer des Feldes
1
2
3
4
5
6
7
8
9
10
Ertrag ohne Dünger
Ertrag mit Dünger
91
100
97
94
80
103
72
89
108
102
98
99
95
87
101
113
83
96
88
93
Differenzen
Vorzeichen
+9
+
−3
−
+23 +17
+
+
−6
−
+1 −8
+ −
+12 +13 +5
+
+
+
Nach dem Zahlenmaterial halten wir H1 für richtig. Wir nehmen das Gegenteil, also H0 an:
Unabhängig vom Stress hätten von den 23 Affen 8 überlebt und 15 wären gestorben. Beim
Auslosen der 11 Versuchsaffen haben wir zufällig sehr viele Überlebende gezogen.
Wir werten die Anzahl der positiven und negativen Differenzen aus. Unter der Nullhypothese
ist die Wahrscheinlichkeit einer positiven Differenz gleich der einer negativen. Jedes der 210
möglichen 10–Tupel für die Plus- und Minuszeichen hat die gleiche Wahrscheinlichkeit. Demnach ist die Anzahl der Pluszeichen binomialverteilt mit n = 10 und p = 12 .
Kann man H0 verwerfen?
Wir haben 7 Pluszeichen. Die Signifikanzwahrscheinlichkeit des Versuchs ist daher
Aufgabe 15.7:
Es gibt zwei Arten von Zwillingen: Die eineiigen sind identische Kopien voneinander, sie haben
dasselbe genetische Material. Dagegen haben die zweieiigen Zwillinge nicht mehr gemeinsames
genetisches Material als gewöhnliche Geschwister.
Ist Kriminalität durch Umwelteinflüsse bedingt oder durch genetische Faktoren?
Von 13 Kriminellen, die eineiige Zwillinge waren, hatten 10 Zwillingsbrüder oder –schwestern,
die ebenfalls verurteilt waren, während in 3 Fällen der Zwillingspartner anscheinend nicht
kriminell war. Von 17 Kriminellen, die zweieiige Zwillinge (gleichen Geschlechts) waren, hatten
2 verurteilte Zwillingpartner, während die anderen 15 nicht als Kriminelle bekannt waren.
Zwillingspartner ist
verurteilt nicht verurteilt
Summe
eineiig
zweieiig
10
2
3
15
13
17
Summe
12
18
30
Prüfen Sie die Nullhypothese H0 , dass eineiige und zweieiige Zwillinge gleiches Verhalten zeigen
gegen eine geeignete Gegenhypothese.
P (X ≥ 7) =
X
x≥7
bn,p (x) =
10 X
10 1
= 0, 17189
x 210
x=7
und liegt oberhalb der üblicherweise benutzten Signifikanzniveaus. Damit können wir die Nullhypothese nicht verwerfen.
Bemerkung 15.2:
Der Vorzeichentest berücksichtigt nur die Anzahl positiver bzw. negativer Differenzen, vernachlässigt jedoch ihre Beträge. Betrachten wir die Daten, so fällt auf, dass die größte positive
Differenz +23 ist, während die kleinste negative Differenz nur −8 erreicht. Ein Einbeziehen der
Beträge könnte die Alternativhypothese, der Dünger sei ertragsfördernd, stützen.
Es gibt Testmethoden, die den Vorzeichentest so verfeinern, dass nicht nur die Vorzeichen sondernn auch die Beträge der Differenzen berücksichtigt werden. Wir werden auf diese Methoden
nicht eingehen.
Da man Messungen in der Praxis nicht unendlich fein machen kann, ist das Auftreten von
Nulldifferenzen möglich. Ist ihre Anzahl klein, so nimmt man sie am besten aus der Betrachtung
heraus. Bei größeren Anzahlen ist das aber nicht möglich, da man durch das Herausnehmen
prinzipiell eine Verfälschung des Ergebnisses vornimmt. Hierin besteht ein weiteres Problem
des Vorzeichentests in seiner einfachsten Version.
182
183
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
15.4
16
Weitere Aufgaben
Aufgabe 15.8:
Der Hersteller behauptet, alle 10 Geräte einer Lieferung seien einwandfrei. Ein Abnehmer führt
folgende Eingangskontrolle durch: Er prüft 5 Geräte. Sind sie alle einwandfrei, so nimmt er die
Sendung an, sonst läßt er sie zurückgehen.
Berechnen Sie die Irrtumswahrscheinlichkeit bei dieser Entscheidung, falls genau ein Gerät
fehlerhaft ist.
Aufgabe 15.9:
Eine Multiple-Choice-Prüfung bestehe aus 100 Einzelfragen, wobei bei jeder Frage in zufälliger
Reihenfolge 4 Antworten angegeben sind, von denen genau eine richtig ist. Der Prüfling darf
jeweils nur eine Antwort ankreuzen.
Wieviele richtig angekreuzte Antworten müssen zum Bestehen der Prüfung mindestens verlangt
werden, damit man die Prüfung durch Raten höchstens mit der Wahrscheinlichkeit
a) 0,05,
b) 0,01,
c) 0,001,
d) 0,0001
bestehen kann?
16.1
Punktschätzung von Parametern
Eigenschaften von Schätzfunktionen
Bei Schätzproblemen geht es darum, aus einer Stichprobe Näherungswerte für unbekannte
Konstanten zu ermitteln, die in der zugrundeliegenden Verteilung auftreten, also z.B. p in der
Binomialverteilung oder µ und σ in der Normalverteilung. Diese werden Parameter der
Verteilung genannt. Gleichzeitig versucht man, Aussagen über die Sicherheit der Schätzwerte
zu gewinnen.
Ist eine Stichprobe vom Umfang n gegeben, so können wir ihr, wie in Kapitel 14 angegeben,
einen Mittelwert und eine Varianz zuordnen. Um die entsprechenden Parameter für die Verteilung zu gewinnen, müssen wir geeignete Schätzfunktionen entwickeln.
Es ist z.B. naheliegend, den Mittelwert x = n1 (x1 + . . . + xn ) der n Stichprobenwerte x1 , . . . , xn
als Schätzwert für den Mittelwert µ der zugehörigen Zufallsgröße X zu verwenden. Wir können
jedes xi als Wert einer Zufallsgröße Xi ansehen und x als Wert einer aus den Zufallsgrößen
Xi zusammengesetzten Zufallsgröße X. Die Zufallsgröße Xi liefert den Wert bei der i–ten
Beobachtung des Merkmals X. Die Xi und X sind daher identisch verteilt und unabhängig.
n
P
Xi bezeichnete Zufallsgröße ist eine Schätzfunktion
Die als Stichprobenmittel X = n1
i=1
für µ. Damit haben wir ein Beispiel für folgende Konstruktion:
Aufgabe 15.10:
Ein Schüler verteilt an 1800 Haushalte eines Bezirks Prospekte. Falls mehr als 5% der Haushalte
keinen Prospekt erhalten, soll er keine Vergütung für seine unzuverlässige Arbeit erhalten.
Zur Nachprüfung werden
a) n=100,
b) n=400
der Haushalte befragt, ob sie den Prospekt erhalten haben.
Wieviele der befragten Haushalte müssen mindestens den Prospekt nicht erhalten haben, damit
die Nichthonorierung der Arbeit mit einer Irrtumswahrscheinlichkeit von höchstens α = 0, 02
zu recht erfolgt?
Aufgabe 15.11:
In einer Telefonzentrale sei die Anzahl der Anrufe pro Minute Poissonverteilt. Zum Einstellungszeitpunkt einer Telefonistin betrug der Mittelwert µ = 4, 1. Nach einer gewissen
Zeitspanne stellt die Telefonistin fest, dass innerhalb einer Stunde 273 Anrufe erfolgten.
Kann daraus mit einer Irrtumswahrscheinlichkeit von α = 0, 05 geschlossen werden, dass sich
die mittlere Anzahl der Anrufe pro Minute signifikant erhöht hat?
Hinweis: Setzen Sie die Anzahl der in den einzelnen Minuten eingehenden Anrufe als unabhängig voraus und verwenden Sie Aufgabe 12.4. Berechnen Sie dann die gesuchte Wahrscheinlichkeit näherungsweise mit Hilfe des zentralen Grenzwertsatzes.
Zu einem unbekannten Parameter u einer Verteilung betrachten wir eine reellwertige Funktion
g, die es gestattet, aus n Stichprobenwerten x1 , . . . , xn einen Näherungswert u von u in der
Gestalt u = g(x1 , . . . , xn ) zu berechnen.
Definition 16.1: (Schätzfunktion, Schätzwert)
Sind X1 , . . . , Xn und X identisch verteilt und liefert die Funktion
U = g(X1 , . . . , Xn )
Näherungswerte u des Parameters u, so heißt sie eine Schätzfunktion für u. Der Wert
u = g(x1 , . . . , xn ), der sich aus einer Stichprobe ergibt, heißt Schätzwert von u.
Für einen Parameter u gibt es oft mehrere Schätzmöglichkeiten. Wie entscheiden wir, ob eine
vorliegende Schätzfunktion überhaupt brauchbar ist?
Ein Kriterium hierfür ist, dass der Erwartungswert der Schätzfunktion mit dem zu schätzenden
Parameter der Verteilung übereinstimmt.
Definition 16.2: (Erwartungstreue einer Schätzfunktion)
Es seien X1 , . . ., Xn und X identisch verteilt. Eine Schätzfunktion U = g(X1 , . . . , Xn ) für
einen Parameter u der Verteilung von X heißt erwartungstreu, wenn gilt
E(U ) = u .
184
16 PUNKTSCHÄTZUNG VON PARAMETERN
185
16.1 Eigenschaften von Schätzfunktionen
Satz 16.2:
Wir erläutern den Begriff der Erwartungstreue anhand eines Beispiels.
Die Zufallsgrößen X1 , . . ., Xn seien unabhängig und identisch verteilt mit Streuung σ. Dann
gilt für die Varianz des Stichprobenmittels X = n1 (X1 + · · · + Xn )
Beispiel 16.1:
Ein Bernoulli-Experiment mit der unbekannten Erfolgswahrscheinlichkeit p wird dreimal ausgeführt. Eine naheliegende Schätzfunktion für p ist offensichtlich die relative Häufigkeit der
Erfolge P = 31 (X1 + X2 + X3 ), wobei Xj die Anzahl der Erfolge im j-ten Versuch angibt.
P nimmt die Werte 0, 31 ,
P (P = 0) = (1 − p)3 ,
2
3
und 1 an, und man erhält
1
P (P = ) = 3p(1 − p)2 ,
3
2
P (P = ) = 3p2 (1 − p),
3
V (X) =
σ2
.
n
Beweis:
P (P = 1) = p3 .
Die unabhängigen Zufallsgrößen Xi haben alle die Varianz V (Xi ) = V (X) = σ 2 . Nach den
Sätzen 6.6 und 12.10 erhält man also
Der Erwartungswert der Zufallsgröße P ist dann
n
1
2
E(P ) = 0 · (1 − p)3 + · 3p(1 − p)2 + · 3p2 (1 − p) + 1 · p3 = p(1 − 2p + p2 + 2p − 2p2 + p2 ) = p.
3
3
V (X) = V
1X
Xi
n i=1
!
2
1
V
=
n
n
X
i=1
Xi
!
=
n
1 X
V (X)
1
.2
V (Xi ) = 2 · nσ 2 =
n2 i=1
n
n
P ist daher eine erwartungstreue Schätzfunktion für p.
Ist z.B. der wahre Wert p = 12 , dann wird p = 0 und p = 1 jeweils mit der Wahrscheinlichkeit
1
und p = 31 und p = 32 jeweils mit der Wahrscheinlichkeit 83 geschätzt.
8
Im Durchschnitt schätzt man also p = 12 . Allerdings wird der wahre Wert p =
geschätzt!
1
2
selbst nie
Dieses Ergebnis bedeutet, dass die Varianz des Stichprobenmittels mit wachsendem Stichprobenumfang immer kleiner wird. Je größer die Stichproben sind, desto näher liegen im allgemeinen
ihre Mittelwerte beieinander.
Bemerkung 16.1:
σ(X)
√
n
Satz 16.1:
Die Standardabweichung σ(X) =
Die Zufallsgrößen X und Xi , i ∈ N seien identisch verteilt. Dann ist eine erwartungstreue
Schätzfunktion für den Mittelwert µ von X das Stichprobenmittel
Die Werte von X streuen weniger stark um den gemeinsamen Erwartungswert von X und X
als die Werte von X. Bei einer Stichprobe von nur 4 Elementen ist die Streuung von X schon
halb so groß wie die von X. Man nutzt dies z.B. bei physikalischen Messungen aus: Je häufiger
man eine Größe misst, um so weniger wird sich i.a. der Mittelwert aller Meßwerte vom Erwartungswert µ unterscheiden.
n
X=
1X
Xi .
n i=1
Beweis:
Sei µ der Mittelwert der identisch verteilten Zufallsgrößen X und Xi , i ∈ N. Dann ergibt sich
nach den Sätzen 12.5 und 12.6
!
n
n
1X
1
1X
Xi =
E(Xi ) = · nµ = µ . 2
E(X) = E
n i=1
n i=1
n
Die Schätzfunktion X hat demnach denselben Erwartungswert wie X selbst. Anders ausgedrückt: Die Werte von X sind Mittelwerte von Stichproben vom Umfang n der Zufallsgröße
X. Der Mittelwert aller dieser Stichprobenmittel ist gerade der Mittelwert von X.
Warum schätzen wir µ mit X und nicht einfach mit X? Das erkennen wir, wenn wir die Varianzen von X und X vergleichen:
des Stichprobenmittels heißt Stichprobenfehler.
Die Erwartungstreue einer Schätzfunktion U = g(X1 , . . . , Xn ) garantiert nicht, dass die durch
sie gefundenen Werte u gute Näherungswerte des zu schätzenden Parameters u sind. Von einer
guten Schätzfunktion verlangt man deshalb, dass ihre Werte u mit hoher Wahrscheinlichkeit nahe bei u liegen. Insbesondere soll diese Wahrscheinlichkeit mit wachsendem Stichprobenumfang
gegen den Wert 1 konvergieren.
Definition 16.3: (Konsistenz einer Schätzfunktion)
Eine Folge von Schätzfunktionen U n = gn (X1 , . . ., Xn ) für einen Parameter u heißt konsistent, wenn für alle ε > 0 gilt
lim P (|U n − u| < ε) = 1 .
n→∞
Ein einfaches Kriterium zur Überprüfung der Konsistenz liefert der folgende Satz.
186
16 PUNKTSCHÄTZUNG VON PARAMETERN
187
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
Beweis:
Satz 16.3:
Es sei U n eine Folge erwartungstreuer Schätzfunktionen für den Parameter u.
Weiterhin gelte lim V (U n ) = 0. Dann ist U n konsistent.
n→∞
Beweis:
Wegen der Erwartungtreue haben alle U n den Mittelwert µn = u. Wir wenden die Ungleichung
von Tscherbyschew (Satz 9.9) an:
P (|U n − u| ≥ kσn ) = P (|U n − µn | ≥ kσn ) ≤
Wir erweitern die rechte Seite mit
P (|U n − u| ≥ ε) ≤
σn2
1
,
k2
Wir ermitteln zunächst mit Hilfe der Formel E(X 2 ) = V (X) + E 2 (X) aus Satz 6.5
n
n
n
n
P
P 2
P
P 2
2
2
2
(Xi − X)2 = E
E
Xi − 2X
Xi + nX = E
Xi − 2nX + nX
i=1
i=1
i=1
i=1
n
n
P 2
P
2
2
2
2
2
=E
Xi − nX =
E(Xi ) − nE(X ) = n · E(X ) − nE(X )
i=1
= (n − 1)V (X).
k ∈ R+ .
= V (U n ) und setzen kσn =: ε. Dann folgt:
V (U n )
.
ε2
Hat nun U n die Eigenschaft V (U n ) → 0 für n → ∞, so ergibt sich für jedes ε
P (|U n − u| < ε) = 1 − P (|U n − u| ≥ ε) → 1 − 0 = 1 . 2
Wir zeigen nun, dass das Stichprobenmittel konsistent ist:
Man erhält E(Se2 ) =
1
n
Die Folge U n = X = (X1 + . . . + Xn ) von Schätzfunktionen für den Mittelwert ist für jede
Verteilung mit endlicher Varianz konsistent.
Beweis:
Nach Satz 16.2 gilt V (Un ) = V (X) =
Behauptung. 2
1
n
1
E
n−1
n
P
i=1
(Xi − X)2
Se2 ) =
= V (X) und E(S 2 ) = E( n−1
n
n−1
V
n
(X). 2
Bisher stellten wir Eigenschaften von Schätzfunktionen zusammen. Nun gibt es aber kein allgemeingültiges Verfahren um Schätzfunktionen zu finden. Wir werden in Abschnitt 16.2 eine besonders zuverlässige erwartungstreue Schätzfunktion zur Schätzung eines Populationsumfangs
entwickeln.
In Abschnitt 16.3 stellen wir die häufig verwendete Maximum-Likelihood-Schätzmethode vor.
Diese erzeugt aber im allgemeinen keine erwartungstreue Schätzfunktion.
16.2
Satz 16.4:
i=1
= n · (V (X) + E 2 (X)) − n(V (X) + E 2 (X)) = nV (X) + nµ2 − V (X) − nµ2
Ein Beispiel: Schätzung eines Populationsumfangs
In diesem Abschnitt werden wir ein Beispiel untersuchen, bei dem mehrere erwartungstreue
Schätzfunktionen für ein und denselben Parameter bereitstehen. Wir wollen davon die beste
Schätzfunktion auswählen.
Beispiel 16.2:
V (X) → 0 für n → ∞. Aus Satz 16.3 folgt die
Wir wollen auch eine geeignete Schätzfunktion für die Varianz einer Zufallsgröße entwickeln.
Dabei stellt sich heraus, dass die Stichprobenvarianz erwartungstreu ist.
Für einen Waldlauf hat ein Sportverein die Teilnehmer von 1 bis N durchnumeriert. Die Nummern hängen nicht von der Leistungsfähigkeit ab. Ein Spaziergänger begegnet einer Gruppe
von 11 Läufern, aus deren Nummern er auf die ihm unbekannte Anzahl der Teilnehmer schließen möchte. Die beobachteten Nummern sind 27, 3, 38, 42, 15, 30, 26, 36, 45, 51, 24.
Bemerkung 16.2:
Satz 16.5:
Eine erwartungstreue Schätzfunktion der Varianz ist die Stichprobenvarianz
Wir beschreiben das Problem durch ein Urnenproblem:
n
Se2 =
1 X
(Xi − X)2 .
n − 1 i=1
Im Gegensatz dazu ist die empirische Varianz S 2 =
Dieses Schätzproblem trat im 2. Weltkrieg auf, als man aus den Seriennummern von erbeuteten
Waffen (Panzern, Kanonen) auf den Umfang der Waffenproduktion schließen wollte.
1
n
n
P
(Xi − X)2 nicht erwartungstreu.
i=1
Eine Urne enthalte N von 1 aufwärts durchnumerierte Kugeln. Die Anzahl N sei nicht bekannt.
Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsgrößen X1 , . . . , Xn geben die
gezogenen Nummern an, und zwar Xk die der an k–ter Stelle gezogenen Kugel (k ∈ {1, . . . , n}).
Aus den Nummern der Stichprobe soll N geschätzt werden.
Zur Lösung des Schätzproblems gehen wir in folgenden Schritten vor:
188
16 PUNKTSCHÄTZUNG VON PARAMETERN
- Wir sammeln zunächst Ideen zur Bestimmung von Schätzfunktionen und legen dadurch
vorläufige Schätzfunktionen fest.
- Wir berechnen den Erwartungswert der vorläufigen Schätzfunktionen und korrigieren diese so, dass wir erwartungstreue Schätzfunktionen erhalten (ab Seite 189).
- Wir berechnen die Varianzen der erwartungstreuen Schätzfunktionen (ab Seite 190).
- Wir vergleichen die berechneten Varianzen. Die Schätzfunktion mit der kleinsten Varianz
ist die zuverlässigste (s. Tabelle auf Seite 194).
Konstruktion verschiedener Schätzfunktionen
Aus den Zufallsgrößen X1 , . . . , Xn definieren wir neue Zufallsgrößen Y1 , . . . , Yn , indem wir die
Werte aufsteigend ordnen. Demnach gibt Y1 das kleinste, Yn das größte und allgemein Yk das
k–kleinste Beobachtungsergebnis an.
Seien also Y1 < Y2 < . . . < Yn die n geordneten Werte der Stichprobe. Ihre graphische
Veranschaulichung in Abbildung 16.1 hilft uns, die Entstehung der folgenden Schätzfunktionen
zu verstehen. Dabei geht es zunächst nur darum, Näherungswerte für N zu erzeugen. Eine
Feinkorrektur“ der Funktionen auf Erwartungstreue erfolgt später.
”
N?
y1
y2
y3
.....
yn
Abb. 16.1
(a) Der Mittelwert X der Xi wird ungefähr in die Mitte der Numerierung fallen.
n
n
1X
2X
Aus X =
Xk konstruiert man die vorläufige Schätzfunktion 2X =
Xk .
n k=1
n k=1
(b) Der Median (Zentralwert) wird ungefähr in die Mitte der Numerierung fallen. Bei geradem
n liegt er zwischen Y n2 und Y n2 +1 , bei ungeradem fällt er mit Y n+1 zusammen. Das ergibt
2
die vorläufige Schätzfunktion
(
Y n2 + Y n2 +1
für gerades n
Y =
für ungerades n.
2Y n+1
2
(c) Das Maximum Yn der beobachteten Werte weicht von N etwa um genausoviel ab wie das
Minimum Y1 von 0. Das ergibt die vorläufige Schätzfunktion Y1 + Yn .
(d) Eine zu (c) analoge Argumentation führt allgemeiner zu Yk + Yn+1−k ,
k ∈ {1, . . . , n}.
(e) N folgt auf den größten beobachteten Wert Yn etwa im mittleren Abstand aller beobachteten Werte. Man erhält die vorläufige Schätzfunktion
Yn +
(Y1 − 0) + (Y2 − Y1 ) + . . . + (Yn − Yn−1 )
n+1
=
Yn .
n
n
Man beachte, dass die in (b) und (c) angegebenen Schätzfunktionen Spezialfälle der in (d)
in (b) und k = 1 in (c)). Daher werden für (b)
angegebenen sind (mit k = n2 bzw. k = n+1
2
und (c) einige der Rechnungen nicht gesondert ausgeführt.
Prüfung der Schätzfunktionen auf Erwartungstreue
Zur Berechnung der Erwartungswerte werden die Wahrscheinlichkeitsfunktionen der Xk und
der Yk (k ∈ {1, . . . , n}) benötigt.
Bei N Kugeln in der Urne gilt zunächst

 N1 für i ∈ {1, 2, . . . , N } ,
P (Xk = i) =
 0
sonst .
Somit erhalten wir
In Beispiel 16.2 liefert Y1 den Wert 3, Y2 den Wert 15 und Y11 den Wert 51.
1
189
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
E(Xk ) =
N
X
i=1
i·
1
N (N + 1) 1
N +1
=
·
=
N
2
N
2
Dass die k–größte beobachtete Nummer Yk ein i ist, ergibt sich aus dem Ziehen der k − 1
kleineren Werte aus den mit 1, . . . , i − 1 benannten Kugeln und dem gleichzeitigen Ziehen der
n − k größeren Werte aus den mit i + 1, . . . , N benannten Kugeln. D.h. es sind k − 1 Kugeln
aus i − 1 und zugleich n − k Kugeln aus N − i zu ziehen, und das bei Nn Teilmengen mit n
Elementen. Also gilt
 i−1 N −i
n−k )
 (k−1)(
für i ∈ {k, k + 1, . . . , N − n + k} ,
(Nn )
P (Yk = i) =

0
sonst.
Die Erwartungswerte der Yk berechnet man unter Verwendung der Formeln i ·
N +1
und Nn = Nn+1
als
+1 n+1
E(Yk ) =
NX
−n+k
i=k
= k
N +1
n+1
i·
i−1
k−1
N
n
N −i
n−k
= k
(N +1)−(n+1)+(k+1)
X
i=k+1
NX
−n+k
i=k
i
k
i−1
(k+1)−1
N −i
n−k
N
n
(N +1)−i
(n+1)−(k+1)
N +1
n+1
(∗)
= k
i−1
k−1
=k·
i
k
N +1
.
n+1
(∗): Die Summanden lassen sich als die Wahrscheinlichkeiten P (Ybk+1 = i) interpretieren, allerdings beim Ziehen von n + 1 Kugeln aus einer Urne mit N + 1 durchnumerierten Kugeln.
Daher ist ihre Summe 1.
Die Berechnung der Erwartungswerte der Schätzfunktionen (a)–(e) ergibt also
190
16 PUNKTSCHÄTZUNG VON PARAMETERN
n
(a) E(2X) =
2X
2
N +1
= N + 1,
E(Xi ) = · n
n i=1
n
2
(d) E(Yk + Yn+1−k ) = k
(e) E
n+1
Yn
n
Um die Kovarianzen zu ermitteln, benötigen wir die gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) von Xk und Xm . Für k 6= m ist
N +1
N +1
+ (n + 1 − k)
= N + 1 (ebenso bei (b) und (c)),
n+1
n+1
N +1
n+1
·n
= N + 1.
=
n
n+1
Daraus ergeben sich die auf Erwartungstreue korrigierten Schätzfunktionen mit ihren
Schätzwerten für das Urnenproblem:
P (Xk = i, Xm = j) =
Schätzfunktion:
2X − 1 (



Wert in Beispiel 16.2:
N
X
ij
i,j=1
i6=j
60, 3
Y1 + Yn − 1
53
=
(d) Yk + Yn+1−k − 1
65 (für k = 3)
(c)
(e)
2
für ungerades n
n+1
Yn − 1
n
54, 6 .
Aufgabe 16.1:
Welche der Schätzfunktionen kann kleinere Werte annehmen als das beobachtete Maximum?
sonst.
i6=j
59
Y n2 + Y n2 +1 − 1 für gerades n
2Y n+1 − 1
0
N
X
1
1
ij
=
N (N − 1)
N (N − 1) i,j=1
1
=
N (N − 1)
(b) Y − 1 =
1
für i, j ∈ {1, 2, . . . , N } und i 6= j ,
N (N − 1)
Man erhält daher für k 6= m
E(Xk Xm ) =
(a)
191
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
1
N (N − 1)
N
X
i=1
i
!
N
X
j
j=1
N (N + 1)
2
2
!
!
−
−
N (N + 1) (2N + 1)
6
N
X
i=1
i
2
!
=
(N + 1) (3N + 2)
.
12
Damit ist
Cov (Xk , Xm ) = E(Xk Xm ) − E(Xk ) E(Xm )
2
(N + 1) (3N + 2)
(N + 1)
N +1
=
= −
−
.
12
2
12
Berechnung der Varianzen
Mit Satz 6.6 ergibt sich die gesuchte Varianz der Schätzfunktion aus (a) als
Wir berechnen für jede der Schätzfunktionen die Varianz. Hierbei verwenden wir die Abkürzung
n
(N + 1)(N − n)
,
A :=
(n + 1)(n + 2)
2
V (2X − 1) = 2 V (X) = 4V
da dieser Term in allen berechneten Varianzen vorkommt.
Zur
der Varianzen benutzen wir die in Bemerkung 12.4 angegebene Formel
Berechnung
n
n
P
P
P
V
Xi =
V (Xi ) +
Cov (Xi , Xk ). Man erhält zunächst
i=1
i=1
E(Xk2 ) =
i6=k
N
X
i=1
i2 ·
N (N + 1)(2N + 1) 1
(N + 1) (2N + 1)
1
=
·
=
N
6
N
6
V (Xk ) = E(Xk2 ) − (E(Xk ))2 =
(N + 1) (2N + 1)
−
6
N +1
2
2
=
(N + 1) (N − 1)
.
12
!
n
X
1
Xk
=4· 2 V
n
k=1

!

n
n
X
4 X

=
V (Xk ) +
Cov (Xk , Xm )

2
n
k,m=1
k=1
k6=m
4
(N + 1) (N − n)
N +1
(N + 1) (N − 1)
=
=
−
n(n
−
1)
n
n2
12
12
3n
=
und weiter
1X
Xk
n k=1
(n + 1)(n + 2)
A.
3n
Um die Varianzen der Yk zu ermitteln berechnen wir zunächst mit i(i + 1)
i−1
k−1
= k(k + 1)
i+1
k+1
192
und
16 PUNKTSCHÄTZUNG VON PARAMETERN
N
n
=
(n+1) (n+2)
(N +1) (N +2)
·
N +2
n+2
E(Yk (Yk + 1)) =
NX
−n+k
i(i + 1)
i=k
= k(k + 1)
i−1
k−1
N
n
N −i
n−k
(N + 1) (N + 2)
(n + 1) (n + 2)
= k(k + 1)
NX
−n+k
i=k
(N +2)−(n+2)+(k+2)
X
i+1
k+1
N
n
i=k+2
(N + 1) (N + 2)
= k(k + 1)
.
(n + 1) (n + 2)
(∗)
i−1
(k+2)−1
Zur Ermittlung der Kovarianz von Yk und Ym für k < m verwenden wir die Formeln
(n+1) (n+2)
i−1
N −j
N +1−j
= k ki und (N + 1 − j) n−m
= (n + 1 − m) n+1−m
sowie Nn = (N
·
k−1
+1) (N +2)
i
N −i
n−k
(N +2)−i
(n+2)−(k+2)
N +2
n+2
E Yk · (N + 1 − Ym )
i(N + 1 − j)
= k(n + 1 − m)
NX
−n+k N −n+m
X
i=k
i=k
i
k
j=m−k+i
(N + 1) (N + 2)
(n + 1) (n + 2)
i=k+1
j−i−1
m−k−1
N
n
= k(n + 1 − m)
N −j
n−m
j=(m+1)−(k+1)+i
(∗)
j−i−1
N +1−j
m−k−1 n+1−m
N
n
i−1
(k+1)−1
X
X
·
k(n + 1 − k)
k(n + 1 − k)(N + 1)(N − n)
=
A.
(n + 1)2 (n + 2)
n+1
j=m−k+i
i−1
k−1
(N +2)−(n+2)+(k+1) (N +2)−(n+2)+(m+1)
V (Yk ) = E(Yk2 ) − E 2 (Yk ) = E(Yk (Yk + 1)) − E(Yk ) − E 2 (Yk )
=
NX
−n+k N −n+m
X
=
= k(n + 1 − m) ·
Als Varianz von Yk ergibt sich jetzt
(N + 1) (N + 2)
(N + 1)
(N + 1)2
−k
− k2
(n + 1) (n + 2)
(n + 1)
(n + 1)2
N +2
n+2
und berechnen zunächst
(∗): Deutet man die Summanden als Wahrscheinlichkeiten P (Yek+2 = i) beim Ziehen von n + 2
Kugeln aus einer Urne mit N + 2 durchnumerierten Kugeln, so erkennt man, dass die
Summe gleich 1 sein muss.
= k(k + 1)
193
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
(N + 1)(N + 2)
.
(n + 1)(n + 2)
j−i−1
(m+1)−(k+1)−1
N +2
n+2
(N +2)−j
(n+2)−(m+1)
(∗) Ähnlich wie auf den Seiten 189 und 192 wird hier mit Hilfe der Wahrscheinlichkeiten
P (Yek+1 = i, Yem+1 = j) für N + 2 Kugeln, aus denen n + 2 gezogen wurden, argumentiert,
dass die Doppelsumme den Wert 1 hat.
Man erhält mit den üblichen Rechenregeln für Erwartungswerte weiter für k < m
Daher erhält man für die Schätzfunktion aus (e)
2
2
n+1
n+1
n
n+1
n+1
V
V (Yn ) =
Yn − 1 =
A =
A.
n
n
n
n+1
n
Cov (Yk , Ym ) = E(Yk Ym ) − E(Yk )E(Ym ) = E(Yk ) E(N + 1 − Ym ) − E Yk (N + 1 − Ym )
=
(N + 1)(N + 2)
k(N + 1) (n + 1 − m)(N + 1)
·
− k(n + 1 − m)
n+1
n+1
(n + 1)(n + 2)
=
k(n + 1 − m)(N + 1)(N − n)
k(n + 1 − m)
=
A.
(n + 1)2 (n + 2)
n+1
In (b) erhält man für ungerades n
V 2Y n+1 − 1 = 4 · V Y n+1
2
2
=4·
n+1 2
2
n+1
A = (n + 1)A .
Für k < m ist die gemeinsame Verteilung von Yk und Ym

j−i−1 N −j für i, j ∈ {1, 2, . . . , N }

i−1



n−m
 k−1 m−k−1
mit
k ≤ i und j ≤ N − n + m
N
P (Yk = i, Ym = j) =
n
und j − i ≥ m − k





0
sonst.
Diese Wahrscheinlichkeit ergibt sich folgendermaßen:
Die k − 1 kleinsten Beobachtungsergebnisse werden aus i − 1 Zahlen ausgewählt;
die m − k − 1 Ergebnisse zwischen Yk und Ym werden aus j − i − 1 Zahlen gewählt;
die n − m größten Werte werden aus N − j Zahlen gewählt.
Speziell ergibt sich für k ≤
Cov (Yk , Yn+1−k ) =
n
2
k2
A.
n+1
Benötigt wird noch die Varianz von Yk + Yn+1−k für k ≤ n2 . Es ist
V (Yk + Yn+1−k ) = V (Yk ) + V (Yn+1−k ) + 2Cov(Yk , Yn+1−k )
=
k(n+1−k)
n+1
A+
(n+1−k)k
n+1
A+
2k2
n+1
A = 2kA .
Aus dieser Formel entnimmt man die Varianzen der Schätzfunktionen aus (d), aus (c) und aus
(b) für den Fall, dass n gerade ist.
194
16 PUNKTSCHÄTZUNG VON PARAMETERN
Beispiel 16.3:
Ermittlung der besten Schätzfunktion
Wir stellen die Ergebnisse in der folgenden Tabelle zusammen. Hierbei verwenden wir wieder
+1)(N −n)
.
die Abkürzung A = (N
(n+1)(n+2)
Schätzfunktion:
(a)
(b) Y − 1 =
(c)
Varianz:
(n + 1) (n + 2)
·A
3n
2X − 1

Y n + Y n2 +1 − 1 für gerades n

 2


2Y n+1 − 1 für ungerades n
2
Y1 + Yn − 1
(e)
Bei einem Experiment werden die Werte einer Zufallsgröße X beobachtet, von der man weiß,
dass sie binomialverteilt mit n = 4 und unbekanntem p ist.
p soll nun geschätzt werden, d.h. jedem Beobachtungswert x ist eine Zahl p zuzuordnen. Die
Situation wird durch das Schaubild in Abbildung 16.2 illustriert. In Richtung der x–Achse ist
für jedes p die zugehörige Verteilung aufgetragen. Geht man bei festem x =
x0 in Richtung der
p–Achse, so durchläuft man die Werte der Funktionen p 7→ b4,p (x0 ) = x40 px0 (1 − p)4−x0 .
n·A
(n + 1) · A
b4,p (x)
x
2·A
n
(d) Yk + Yn+1−k − 1 für k ≤
2
4
1
2k · A
b4,p(4) = p
3
3
n+1
· A.
n
n+1
Yn − 1
n
195
16.3 Das Maximum–Likelihood–Prinzip
b4,p(3) = 4p (1-p)
2
2
b4,p(2) = 6p (1-p)
1
b4,p(1) = 4p (1-p)
Die Varianzen lassen sich daher ohne Kenntnis von N vergleichen. Insbesondere ist die Varianz
der Schätzfunktion aus (e) stets am kleinsten. Also ist
b4,p(0) = (1-p)
0
n+1
Yn − 1
N=
n
0,25
0,5
2
3
4
p
1
0,75
Abb. 16.2
die beste der angegebenen Schätzfunktionen. Um zu der besten Schätzung zu kommen, genügt
es daher, die größte Nummer aus den gezogenen Kugeln und den Umfang der Stichprobe zu
kennen.
Wird nun der Wert x0 beobachtet, so wird der Schätzwert p∗ = p(x0 ) für p so gewählt, dass die
Wahrscheinlichkeit b4,p (x0 ) maximal ist (maximum likelihood). Die zugehörige Schätzfunktion
bezeichnen wir mit P ∗ = p(X). Eine einfache Rechnung liefert
p(0) = 0,
Bemerkung 16.3:
p(1) = 0, 25,
p(2) = 0, 5,
p(3) = 0, 75,
p(4) = 1.
n+1
Man kann sogar zeigen, dass die Schätzfunktion N =
Yn − 1 von allen erwartungstreuen
n
n
P
Schätzfunktionen der Gestalt N =
αj Yj + β die kleinste Varianz hat.
Definition 16.4: (Maximum–Likelihood–Prinzip)
16.3
Für ein Beobachtungsergebnis (x1 , . . . , xn ) ist die Likelihood-Funktion definiert durch
j=1
Das Maximum–Likelihood–Prinzip
Im vorangegangenen Abschnitt haben wir Schätzfunktionen mehr oder weniger erraten. Wir
besprechen jetzt ein Prinzip, mit dessen Hilfe sich solche Funktionen ableiten lassen. Das Verfahren wurde in Sonderfällen bereits von Gauss angewandt und 1912 von R.A. Fisher für
statistische Zwecke weiterentwickelt. Wir veranschaulichen das Vorgehen zunächst an dem einfachen
X1 , . . . , Xn seien diskret oder stetig verteilte Zufallsgrößen, deren gemeinsame Verteilung bzw.
Dichte fu von einem Parameter u mit unbekanntem Wert abhängt.
u 7→ ϕ(u) = fu (x1 , . . . , xn ).
Ein Wert u∗ = u(x1 , . . . , xn ) des Parameters u, für den die Likelihood-Funktion ϕ
maximal ist, heißt Maximum-Likelihood-Schätzwert für u.
Die zugehörige Schätzfunktion U ∗ = u(X1 , . . . , Xn ) heißt Maximum-Likelihood-Schätzfunktion für u.
4
196
16 PUNKTSCHÄTZUNG VON PARAMETERN
197
16.3 Das Maximum–Likelihood–Prinzip
Bemerkung 16.4:
Beispiel 16.4:
Sind die Zufallsgrößen X1 , . . . , Xn diskret, dann maximiert der Maximum-Likelihood-Schätzwert gerade die Wahrscheinlichkeit Pu (X1 = x1 , . . . , Xn = xn ) = fu (X1 = x1 , . . . , Xn = xn ) des
tatsächlich eingetretenen Ereignisses. Daher kommt seine Bezeichnung.
Die Phenylketonurie ist eine erbliche Stoffwechselkrankheit, die zu geistiger Entwicklungshemmung führt und deshalb sofort behandelt werden muss. Jedes Neugeborene wird im Hinblick
auf sie untersucht. Die Vererbung ist rezessiv. Ist also der Genotyp am Genort A bestimmend
für die Krankheit und das Allel A dominant über a, so sind die Träger des Genotyps aa krank,
die der Genotypen aA und AA nicht krank. Zwischen den gesund erscheinenden Trägern der
Genotypen AA und aA kann man nicht unterscheiden. r sei die Wahrscheinlichkeit für das
Auftreten des Allels a.
Für stetige Zufallsgrößenn X1 , . . . , Xn mit gemeinsamer Wahrscheinlichkeitsdichte fu (x1 , . . . , xn )
erhält man nach dem Mittelwertsatz der Integralrechnung
Pu (x1 ≤ X1 ≤ x1 + △x1 , . . . , xn ≤ Xn ≤ xn + △xn ) ≈ fu (x1 , . . . , xn ) △x1 · . . . · △xn ,
was plausibel macht, dass im stetigen Fall die Dichte maximiert wird.
Nach den Gesetzen der Genetik (Hardy–Weinberg–Gleichgewicht) sind die Wahrscheinlichkeiten
für den Genotypen der Neugeborenen wie folgt:
Bemerkung 16.5:
Besonders wichtig ist folgender Spezialfall:
Genotyp
aa
Die Stichprobe (x1 , . . . , xn ) entstehe durch n-fache unabhängige Wiederholung eines Zufallsexperiments, wobei die zugehörige Zufallsgröße X die Wahrscheinlichkeitsverteilung bzw. Dichte
fu hat.
Wahrscheinlichkeit
r2
Da sich die Verteilungen bzw. Dichten multiplizieren ist in diesem Fall die Likelihoodfunktion
ϕ(u) = fu (x1 ) · . . . · fu (xn ).
Kann der Parameter u Werte aus einem Intervall annehmen, so ist – unter geeigneten Differenzierbarkeitsvoraussetzungen und wenn man von Maximalstellen am Rand absieht – eine
notwendige Bedingung für die Maximalstelle ϕ′ (u) = 0.
Da ln streng monoton ist haben die Funktionen ϕ und ln ϕ dieselben Maximalstellen. Treten
in der Likelihood-Funktion viele Produkte auf (vgl. Bemerkung 16.5), so ist es häufig sehr viel
einfacher, die Maximalstellen von ln ϕ zu bestimmen.
X gebe die Anzahl der Kranken unter n Neugeborenen an. Dann ist X bernoulliverteilt gemäß
für r2 ergibt sich nach Aufgabe 16.2 die Funkbn,r2 (x). Als Maximum–Likelihood-Schätzgröße
q
X
,
n
und r(X) =
Maximum–Likelihood–Schätzfunktionen sind nicht zwangsläufig erwartungstreu, und ihre quadratische Abweichung vom gesuchten Parameter muss nicht minimal sein.
Wir bestimmen nun einige Maximum–Likelihood–Schätzfunktionen.
Aufgabe 16.2:
Ein Experiment mit unbekannter Erfolgswahrscheinlichkeit p wird n–mal unabhängig wiederholt, wobei x Erfolge eintreten.
X
n
ist die Maximum–Likelihood–Schätzfunktion von r.
Beispiel 16.5: (rot-grün-Farbenblindheit)
Aus einem bestimmten genetischen Modell für die Rotgrünblindheit beim Menschen ergeben
sich die 4 Wahrscheinlichkeiten in der folgenden Tabelle:
männlich
Bemerkung 16.7:
Zeigen Sie, dass
X
n
normalsichtig
Die Likelihood-Funktion ϕ muss keine Maximalstelle haben, und diese muss im Falle der Existenz nicht eindeutig sein. In vielen Anwendungsproblemen gibt es aber eine eindeutig bestimmte Maximalstelle.
eine Maximum–Likelihood–Schätzfunktion für p ist.
AA
r2 ist damit die Wahrscheinlichkeit für kranke Neugeborene, 1 − r2 die für gesunde. Die Wahrscheinlichkeit r soll geschätzt werden.
tion
Bemerkung 16.6:
aA
2r(1 − r) (1 − r)2
rotgrünblind
1
2
(1 − p)
1
2
p
weiblich
1
2
(1 − p2 )
1
2
p2
Denn der Genort, an dem die Rotgrünblindheit verursacht wird, befindet sich auf dem XGeschlechtschromosom. Männliche Personen besitzen ein X– und ein Y –Chromosom, weibliche
zwei X–Chromosomen. Männer sind rotgrünblind, wenn sich auf dem X–Chromosom das Allel,
das die Rotgrünblindheit verursacht, befindet, dagegen Frauen, wenn sich dieses Allel auf beiden
X–Chromosomen befindet.
Das die Rotgrünblindheit verursachende Allel tritt auf den X–Chromosomen mit der Wahrscheinlichkeit p auf, die es zu schätzen gilt. Dazu werden n Personen zufällig ausgewählt und auf
Rotgrünblindheit untersucht. Die Zufallsgrößen X1 , X2 , X3 und X4 geben die Zahl der männlichen Gesunden, der weiblichen Gesunden, der männlichen Rotgrünblinden und der weiblichen
Rotgrünblinden an. Der Zufallsvektor (X1 , X2 , X3 , X4 ) ist multinomialverteilt (s. Definition
8.4) mit den Parametern
n
und
p1 =
1
(1 − p) ,
2
p2 =
1
(1 − p2 ) ,
2
p3 =
1
p,
2
p4 =
1 2
p .
2
198
16 PUNKTSCHÄTZUNG VON PARAMETERN
Wenn die Xi die Werte xi angenommen haben, ist der Maximum–Likelihood-Schätzwert für p
die Stelle, an der die Funktion
x1 1
x2 1 x3 1 x4
1
n!
(1 − p)
(1 − p2 )
p
p2
p 7→
x1 ! x2 ! x3 ! x4 ! 2
2
2
2
199
16.3 Das Maximum–Likelihood–Prinzip
maximal ist. Wir untersuchen das Monotonieverhalten:
K(N − K − n + x + 1)
K(N − K + x + 1) − Kn
hK (x)
=
=
.
hK−1 (x)
(K − x) (N − K + 1)
K(N − K + x + 1) − (N + 1)x
Daher gilt
=: Pp (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 )
das Maximum annimmt. Um den Schätzwert zu ermitteln, differenzieren wir p 7→ ln Pp und
erhalten
x1 + x2
x2
x3 + 2x4
∂ ln Pp
=−
+
+
.
∂p
1−p
1+p
p
Es ist
∂ ln Pp
∂p
p2 +
= 0 genau dann, wenn gilt (mit n = x1 + x2 + x3 + x4 )
x3 + 2x4
x1
p−
= 0.
n + x2 + x4
n + x2 + x4
Im Intervall ]0, 1[ hat diese quadratische Gleichung die einzige Lösung
s
x1
x3 + 2x4
x21
p∗ = −
+
+
.
2(n + x2 + x4 )
4(n + x2 + x4 )2 n + x2 + x4
Wegen P0 = 0 = P1 und Pp > 0 für 0 < p < 1 muss Pp an der Stelle p∗ ein Maximum haben.
Beispielsweise ergaben sich bei der Untersuchung von n = 1000 Personen folgende Werte:
x2 x3 x4
x1
480 492 25 3
Daraus resultiert der Schätzwert p∗ = 0, 055.
Bemerkung 16.8:
Spart man sich die lästige Maximum–Likelihood–Rechnung und schätzt die Wahrscheinlichkeit
p einfach mit der Schätzfunktion n2 X3 , so erhält man den Schätzwert p = 0, 05.
Beispiel 16.6:
Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung beurteilen. Aus
einer Sendung von N = 125 Teilen nimmt er n = 24 und überprüft sie. Er findet x = 3 defekte
Teile und möchte die Zahl K aller defekten Teile der Lieferung schätzen.
Die Zufallsgröße X, die die Anzahl der defekten Teile angibt, ist hypergeometrisch verteilt, d.h.
K N −K
hK (x) =
x
n−x
N
n
.
Für K suchen wir die Maximum–Likelihood–Schätzfunktion. Das bedeutet: Bei gegebenem
Beobachtungsergebnis x ist der Wert K(x) des Parameters K zu bestimmen, für den
K 7→ hK (x)
hK (x) ≥ hK−1 (x)
⇐⇒
Kn ≤ (N + 1)x
⇐⇒
(N + 1)x
.
n
K≤
Wir suchen die Zahl K, die den maximalen Wert liefert, d.h. hK−1 (x) ≤ hK (x) ≥ hK+1 (x)
erfüllt. Nach obiger Rechnung muss für dieses K gelten
(N + 1)x
(N + 1)x
−1 ≤ K ≤
.
n
n
Ist also
(N +1)x
n
nicht ganzzahlig, so ist K(x) =
h
(N +1)x
n
Ist (N +1)x
∈ {1, . . . , N }, so kann entweder K 1 (x) =
n
werden.
i
die Maximum-Likelihood-Schätzung.
(N +1)x
n
Der Käufer elektronischer Bauteile würde daher K(3) =
Bemerkung 16.9:
− 1 oder K 2 (x) =
126·3 24
(N +1)x
n
geschätzt
= 15 schätzen.
Einfacher erhält man mit gesundem Menschenverstand“ die erwartungstreue Schätzfunktion
”
e
K(X)
= Xn N , denn der Anteil der defekten Teile insgesamt sollte etwa dem Anteil der defekten
Teile der Stichprobe entsprechen.
Diese Schätzfunktion liefert im Beispiel 16.6 den Schätzwert
125
24
· 2 ≈ 15, 6.
Aufgabe 16.3:
N sei die nicht bekannte Anzahl der Fische in einem Teich. Um N zu ermitteln, werden K
Fische gefangen, durch einen roten Fleck gekennzeichnet und wieder ausgesetzt. Einige Tage
später werden n Fische gefangen; x von ihnen haben einen roten Fleck.
Führen Sie eine Maximum–Likelihood–Schätzung für N durch. Bestimmen Sie dazu die Verteilung und suchen Sie ihren Maximalwert in Abhängigkeit von N .
Aufgabe 16.4:
Eine durch unabhängige Wiederholungen gewonnene Stichprobe einer poissonverteilten Zufallsgröße habe die Werte x1 , . . . , xn . Man bestimme durch eine Maximum–Likelihood-Schätzung
einen Näherungswert für µ.
Aufgabe 16.5:
Man bestimme aus einer Stichprobe von n Werten x1 , . . . , xn mittels der Maximum–LikelihoodMethode den Mittelwert µ und die Varianz σ 2 einer normalverteilten Zufallsgröße X. Die Werte
xi seien unabhängig ermittelt.
Vergleichen Sie die Ergebnisse mit den Sätzen 16.1 und 16.5.
200
17
17.1
17 KONFIDENZINTERVALLE
Konfidenzintervalle
Problemstellung
Bei der Punktschätzung eines unbekannten Parameters wird jedem Ergebnis eines Experiments
durch eine Schätzfunktion eine reelle Zahl, der Schätzwert für den Parameter, zugeordnet. Man
entscheidet sich also für einen einzelnen der möglichen Parameterwerte.
Dabei darf die Entscheidung nicht mit der Vorstellung verbunden werden, den wahren Parameterwert gefunden zu haben. Auch wird für eine Punktschätzung keine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht. Man nimmt i.a. in Kauf, dass mit hoher
Wahrscheinlichkeit der Schätzwert nicht der wahre Parameterwert ist. Wir betrachten hierzu
das
17.2 Ein Beispiel
Grenze O(x) eines solchen Schätzintervalls sind die Werte von zwei Zufallsgrößen U (X) und
O(X). Damit werden Schätzintervalle (wie auch Schätzwerte) durch das zufällige Ergebnis
eines Experiments festgelegt.
Bei der Festlegung des Intervalls wird gefordert, dass der gesuchte Parameterwert mit einer
Mindestwahrscheinlichkeit von 1 − α von dem Intervall überdeckt“ wird.
”
Definition 17.1: (Konfidenzintervall, Schätzintervall)
Ein Intervall mit zufälligen Grenzen [U (X), O(X)], für das für jeden Parameterwert u gilt
P U (X) ≤ u ≤ O(X) ≥ 1 − α ,
nennt man ein Konfidenzintervall für den Parameterwert u zum (Konfidenz–)Niveau
1 − α oder ein (1 − α) · 100 %–Konfidenzintervall.
Beispiel 17.1:
Für ein Ergebnis x des Zufallsexperiments heißt dann [U (x), O(x)] Schätzintervall.
Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung von 1000 Teilen
beurteilen. Dazu entnimmt er der Lieferung zufällig 50 Teile, die er überprüft.
1 − α heisst Sicherheiswahrscheinlichkeit.
Dieses Zufallsexperiment kann durch ein Urnenmodell beschrieben werden, wobei die Urne
1000 weiße und schwarze Kugeln, mit einem unbekannten Anteil schwarzer, enthält. Aus der
Urne werden 50 Kugeln ohne Zurücklegen gezogen. Wir betrachten eine rechnerisch etwas
übersichtlichere Variante dieses Problems.
Bemerkung 17.1:
Beispiel 17.2:
In einer Urne liegen 12 Kugeln, von denen ein unbekannter Anteil u schwarz ist. Wir ziehen 6
Kugeln. Die Zufallsgröße X gebe die Anzahl der schwarzen unter den gezogenen Kugeln an.
e
X ist hypergeometrisch verteilt. Nach Bemerkung 16.9 ist K(X)
= 12 · X6 eine erwartungstreue
Schätzgröße für die unbekannte Anzahl der schwarzen Kugeln in der Urne. Dementsprechend
wird der unbekannte Anteil der schwarzen Kugeln mit der erwartungstreuen Schätzgröße X6
geschätzt. Mögliche Werte dieser Schätzgröße sind 0, 61 , 26 , . . . , 1.
5
Befinden sich nun tatsächlich 5 schwarze Kugeln in der Urne, so kann der wahre Anteil 12
von
X
der Schätzgröße 6 gar nicht als Wert angenommen werden. Wenn sich 2 schwarze Kugeln in der
2
nur mit der Wahrscheinlichkeit
Urne befinden, so nimmt die Schätzgröße X6 den wahren Anteil 12
6
P (X = 1) = 11 an.
Ist die Verteilung einer Schätzgröße stetig, so erhält man sogar mit Wahrscheinlichkeit 1, d.h.
mit Sicherheit einen Schätzwert, der vom wahren Parameterwert abweicht.
Man kann also nicht davon ausgehen, dass eine Schätzgröße mit großer Wahrscheinlichkeit
den wahren Parameterwert als Wert annimmt. Diese Eigenschaft von Punktschätzungen wird
manchmal als nachteilig empfunden. Wir betrachten jetzt eine andere Schätzmethode, bei der
außerdem eine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht wird.
Bei einer Intervallschätzung wird jedem Ergebnis x eines Experiments ein Intervall reeller
Zahlen, ein sogenanntes Schätzintervall, zugeordnet. Die untere Grenze U (x) und die obere
201
Der Begriff des Konfidenzintervalls wurde 1935 von J. Neyman eingeführt.
In der Literatur werden manchmal die Schätzintervalle [U (x), O(x)] selbst, als Konfidenzin”
tervalle“ oder Realisierungen des Konfidenzintervalls“ bezeichnet. Wir wollen hier jedoch die
”
Bezeichnungen auseinanderhalten.
Von einem Konfidenzintervall verlangt man, dass es den unbekannten wahren Parameterwert mit vorgegebener Mindeswahrscheinlichkeit enthält, ganz gleich welche Verteilung die
wahre ist (Zuverlässigkeit der Schätzung). Außerdem sollte das Konfidenzintervall
zu möglichst kurzen Schätzintervallen führen (Aussagekraft der Schätzung).
Die Zuverlässigkeit und die Aussagekraft einer Intervallschätzung kann man nicht gemeinsam
maximieren. Vielmehr hat eine erhöhte Zuverlässigkeit eine verminderte Aussagekraft zur Folge
und umgekehrt.
17.2
Ein Beispiel
In diesem Abschnitt werden wir Beispiel 17.2 aufgreifen und ein Konfidenzintervall für den
Anteil u der schwarzen Kugeln konstruieren. In Abbildung 17.1 sind zunächst die Wahrscheinlichkeiten für die Werte der hypergeometrisch verteilten Zufallsgröße X bei den verschiedenen
Mischungsverhältnissen in der Urne angegeben.
Konstruktion eines Konfidenzintervalls für u zum Niveau 0, 9
Wir wählen jetzt α = 0, 1. Wir bestimmen zu jedem Beobachtungsergebnis x (d.h. x schwarze
Kugeln gezogen) ein Schätzintervall für u.
202
17 KONFIDENZINTERVALLE
Werte
von X
Anteil u der schwarzen Kugeln
1
12
2
12
3
12
4
12
5
12
6
12
7
12
8
12
9
12
10
12
11
12
x
0
0
1
0.5 0.227 0.091 0.030 0.008 0.001 0
0
0
0
0
0
1
0
0.5 0.545 0.409 0.242 0.114 0.039 0.008 0
0
0
0
0
2
0
0
0.227 0.409 0.455 0.379 0.244 0.114 0.030 0
0
0
0
3
0
0
0
0.091 0.242 0.379 0.433 0.379 0.242 0.091 0
0
0
4
0
0
0
0
0.030 0.114 0.244 0.379 0.455 0.409 0.227 0
0
5
0
0
0
0
0
0
6
0
0
0
0
0.008 0.039 0.114 0.242 0.409 0.545 0.5
0
0
0.001 0.008 0.030 0.091 0.227 0.5
1
1
Abb. 17.1
1
, . . . , 11
, 1} Mengen
Zur Konstruktion bestimmen wir zunächst für jeden Wert von u ∈ {0, 16
16
Au von möglichen Beobachtungsergebnissen. Diese werden so aus den Werten der Zufallsgröße
X gebildet, dass die Wahrscheinlichkeit P (X ∈ Au ) die Zahl 1 − α = 0, 9 gerade erreicht oder
um möglichst wenig übersteigt, und dass die Wahrscheinlichkeiten, dass X kleiner bzw. größer
als die Werte in Au ist, möglichst gleich groß sind (ideal wäre α/2).
Die Mengen Au und die Wahrscheinlichkeiten P (X ∈ Au ) können aus der Tabelle in Abbildung
17.1 abgelesen werden. Es ergibt sich:
0
u
Au
P (X ∈ Au )
1
12
2
12
{0} {0, 1} {0, 1, 2}
1
1
1
3
12
4
12
5
12
6
12
7
12
8
12
9
12
10
12
11
12
0, 940
0, 984
0, 920
0, 984
0, 940
0, 909
1
1
1
12
Wir wählen nun als Schätzintervall zum Beobachtungsergebnis x das kleinste Intervall, das alle
Parameterwerte u mit x ∈ Au enthält.
Beispielsweise gehört 2 genau dann zu Au , wenn u zwischen
2 ∈ Au ⇐⇒ U (2) :=
2
12
und
7
12
liegt, also
7
2
≤u≤
=: O(2) .
12
12
Allgemeiner setzt man x ∈ Au ⇔ U (x) ≤ u ≤ O(x) (vgl. Tabelle unten). Wir definieren also
die Funktionen U (untere Grenze) und O (obere Grenze) durch
U (x) = Min {u | x ∈ Au }
und
O(x) = Max {u | x ∈ Au } .
d.h. das konstruierte Konfidenzintervall [U (X), O(X)] hat das gewünschte Niveau.
In unserem Beispiel hat es sogar das Niveau 0, 909, da 0, 909 die kleinste der Wahrscheinlichkeiten P (X ∈ Au ) ist. Für die einzelnen Beobachtungsergebnisse ergeben sich aus der Tabelle
für Au die folgenden Schätzintervalle:
Beobachtungsergebnis x Schätzintervall [U (x), O(x)]
Schätzwert
0
2
[0, 12
]
0
1
1 5
, 12 ]
[ 12
2
12
2
2 7
, 12 ]
[ 12
4
12
3
3 8
, 12 ]
[ 12
6
12
4
5 10
, 12 ]
[ 12
8
12
5
7 11
, 12 ]
[ 12
10
12
6
9
, 1]
[ 12
1
x
6
Die Werte der Schätzgröße X6 sind in der letzten Spalte angegeben. Die Schätzwerte liegen
mehr oder weniger in der Mitte der entsprechenden Schätzintervalle.
Interpretation des Konfidenzintervalls [U (X), O(X)] und des Konfidenzniveaus
9
3
und u = 12
kann man je zwei verschiedene Mengen als Au wählen. Wir entscheiden
Für u = 12
uns willkürlich für die Mengen A 3 = {1, 2, 3} und A 9 = {4, 5, 6}.
12
Bei dieser Definition enthält ein Schätzintervall [U (x), O(x)] gerade alle Parameterwerte, unter
denen x mit relativ großer Wahrscheinlichkeit zu den Beobachtungsergebnissen gehört. Wegen
der Äquivalenz U (x) ≤ u ≤ O(x) ⇔ x ∈ Au gilt für jedes u
P U (X) ≤ u ≤ O(X) = P (X ∈ Au ) ≥ 1 − α ,
1
{0, 1, 2}
{3, 4, 5}
{1, 2, 3} {1, 2, 3, 4} {2, 3, 4} {2, 3, 4, 5} {3, 4, 5}
{4, 5, 6} {5, 6} {6}
{1, 2, 3}
{4, 5, 6}
0, 909
203
17.2 Ein Beispiel
Die Wahrscheinlichkeit P U (X) ≤ u ≤ O(X) ist die Wahrscheinlichkeit, dass das Konfidenzintervall [U (X), O(X)] den Parameterwert u überdeckt, wenn man annimmt, dass u der wahre
Parameterwert der Verteilung der Zufallsgröße X ist.
Bei der Formulierung dieses Sachverhalts muss beachtet werden, dass das Intervall [U (X), O(X)]
und nicht der Parameterwert u stochastischen (zufälligen) Charakter hat. Nicht benutzen sollte
man daher Formulierungen wie: u ist mit einer Wahrscheinlichkeit von mindestens 1 − α im
Konfidenzintervall enthalten.
Wird x beobachtet, so kann man ziemlich sicher (Konfidenzniveau 1−α) sein (oder zuverlässig
”
schließen“), dass der wahre Parameterwert der Verteilung der Zufallsgröße X in [U (X), O(X)]
liegt. Man sagt: Ein Schätzintervall zum Konfidenzniveau 1 − α für den wahren Anteil der
schwarzen Kugeln in der Urne ist [U (x), O(x)] .
5 10
, 12 ] ein Schätzintervall für u zum Niveau 0, 9.
Nimmt z.B. X den Wert x = 4 an, so ist [ 12
5 10
, 12 ] stochastischen
Auch hier muss man auf die Formulierung achten. Da weder u noch [ 12
Charakter haben, ist es sinnlos zu sagen: u liegt mit einer Wahrscheinlichkeit von mindestens
5 10
, 12 ]. Das Konfidenzniveau muss vielmehr folgendermaßen gedeutet werden:
0, 9 im Intervall [ 12
204
17 KONFIDENZINTERVALLE
Werden in vielen (verschiedenen) Situationen Experimente unabhängig voneinander durchgeführt, und wird aufgrund der Ergebnisse jeweils zum Niveau 1 − α ein Schätzintervall bestimmt, so wird sich der Anteil der Schätzintervalle, die den jeweils wahren Parameterwert
nicht enthalten, auf nicht mehr als ungefähr α belaufen.
Wird z.B. 1 − α = 0, 95 gewählt, so kann man erwarten, dass etwa bei 95 % aller Stichproben,
die man entnimmt, die zugehörigen Schätzintervalle den Wert u überdecken und etwa bei 5 %
nicht. Hat man solche Intervalle bestimmt, so ist die Aussage, dass so ein Intervall u überdeckt,
in etwa 19 von 20 Fällen zutreffend, und in etwa einem von 20 Fällen falsch. Bei 1 − α = 0, 99
wird diese Aussage in etwa 99 von 100 Fällen richtig sein und nur in etwa einem Fall falsch.
Die erhöhte Sicherheit bedingt längere Konfidenzintervalle. Welchen Wert 1 − α man im konkreten Fall wählen soll, ist kein mathematisches Problem sondern hängt von der Art der Anwendung ab. Man muss sich überlegen, wie groß das Riskiko ist, das man bei einer falschen
Aussage eingeht.
Aufgabe 17.1:
Die Zufallsgröße X, die die Lebensdauer einer Glühbirne angibt, sei exponentialverteilt mit
unbekanntem Mittelwert µ. Eine getestete Glühbirne hielt 1000 Stunden. Bestimmen Sie ein
95%-Schätzintervall für die mittlere Lebensdauer.
205
17.3 Schätzung des Erwartungswertes einer Normalverteilung
Gesucht ist nun ein 99%–Schätzintervall für die mittlere Größe der Sägeblatter.
Zur Lösung dieses Problems benötigen wir einige noch nicht behandelte Sätze, insbesondere
Eigenschaften der Normalverteilung. Wir stellen diese zunächst zusammen.
Benötigte Sätze
Satz 17.1:
X und Y seien unabhängige stetige Zufallsgrößen mit den stetigen Dichten f1 , f2 : R → R .
Dann besitzt Z := X + Y die Verteilungsfunktion F : R → R und die Dichte f : R → R mit

 z−y
Z∞
Z
Z∞


f1 (z − y) f2 (y) dy .
f1 (x) dx dy und f (z) =
f2 (y)
F (z) =
−∞
−∞
−∞
Beweis: Aufgabe; man verwende Satz 12.3 und beachte die Unabhängigkeit von X und Y . 2
Satz 17.2: (Summe unabhängiger normalverteilter Zufallsgrößen)
17.3
Schätzung des Erwartungswertes einer Normalverteilung
Problemstellung
X1 , . . . , Xn seien unabhängige normalverteilte Zufallsgrößen mit den Mittelwerten µ1 , . . . , µn
und den Varianzen σ12 , . . . , σn2 . Dann ist auch die Zufallsgröße
Z = X1 + . . . + X n
Gegeben ist eine Stichprobe x1 , . . . , xn aus einer normalverteilten Grundgesamtheit, deren Varianz σ 2 bekannt ist. Der Erwartungswert µ sei unbekannt, und es soll ein Konfidenzintervall
für µ bestimmt werden.
Bemerkung 17.2:
Die Aufgabe hat praktische Bedeutung. Handelt es sich z.B. um die Abmessung eines Massenartikels (Länge eines Bolzens, Stärke einer Dichtung), so kann es durchaus sein, dass man µ
nicht kennt, weil µ von der jeweiligen Einstellung der Maschine abhängt, mit dem der Artikel
gefertigt wird, dass man aber σ aus früherer Erfahrung kennt, weil σ in erster Linie von der
Güte der Maschine und fast nicht von deren spezieller Einstellung abhängt.
Beispiel 17.3:
An einer Maschine können Kreissägeblätter mit verschiedenem Durchmesser hergestellt werden.
Aufgrund langer Erfahrung kennt man die Standardabweichung σ = 0, 8 mm des Blattdurchmessers, die bei der Produktion einer bestimmten Sägeblattart auftritt; dabei hängt die Standardabweichung nicht von der Größe der hergestellten Sägeblätter selbst ab. Zur Produktion
einer bestimmten Größe wird die Maschine neu eingestellt, und es werden die Durchmesser von
25 produzierten Blättern gemessen. Die Messungen ergaben die 25 Werte (in mm):
154, 7; 155, 8; 155, 3; 155, 5; 155, 0; 154, 3; 156, 2; 153, 1; 154, 2; 155, 1; 153, 8; 154, 6; 155, 5;
153, 8; 155, 6; 154, 5; 155, 8; 156, 0; 155, 0; 155, 9; 153, 6; 154, 4; 154, 1; 154, 3; 155, 3.
normalverteilt mit Mittelwert µ = µ1 + . . . + µn und Varianz σ 2 = σ12 + . . . + σn2 .
Beweis:
Die Summenformeln für die Mittelwerte und die Varianzen wurden in den Sätzen 12.6 und
12.10 hergeleitet. Daher müssen wir nur noch zeigen, dass X normalverteilt ist. Wir führen
den Beweis durch vollständigen Induktion.
Sei n = 2, also Z = X1 + X2 . Die Dichten von X1 und X2 sind
f1 (x) = √
x−µ1 2
1
−1(
)
e 2 σ1
2π σ1
und
f2 (x) = √
x−µ2 2
1
−1(
)
e 2 σ2 .
2π σ2
Nach Satz 17.1 hat Z die Dichte
f (z) =
Z∞
−∞
1
f1 (z − y) f2 (y) dy =
2πσ1 σ2
Z∞
− 12
e
„
z−y−µ1
σ1
«2 „
« !
y−µ2 2
+
σ2
−∞
Mit den Abkürzungen µ := µ1 + µ2 und σ 2 := σ12 + σ22 sowie
σ
z−µ
σ 2 µ2 + σ22 (z − µ1 )
v1 :=
und v2 :=
y− 1
σ 1 σ2
σ2
σ
dy .
206
17 KONFIDENZINTERVALLE
kann man folgende Formel nachrechnen:
2 2
y − µ2
z − y − µ1
+
= v12 + v22 .
σ1
σ2
−
Beweis:
Die Verteilungsfunktion von Y lautet
1 2
v
2 2
Da v2 von y unabhängig ist kann der Faktor e
1
Substitution y → v1 mit dv
= σ1σσ2 erhält man
dy
1
2πσ1 σ2
f (z) =
Z∞
−∞
1 − 1 v22
e 2
2πσ
=
1
e− 2
Z∞
v12 +v22
1
2
dy =
(∗)
e− 2 v1 dv1 =
−∞
vor das Integral gezogen werden. Mit der
1 2
1
e− 2 v2
2πσ1 σ2
1 2
e− 2 v1 dy
−∞
1 z−µ 2
1 − 1 v22 √
1
e 2 · 2π = √
e− 2 ( σ ) .
2πσ
2π σ
Im Induktionsschritt setzen wir voraus, dass für n = k unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk auch die Zufallsgröße Y = X1 + . . . + Xk normalverteilt ist.
Wir betrachten nun n = k + 1 unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk , Xk+1 .
Man kann zeigen, dass Y = X1 + . . . + Xk und Xk+1 ebenfalls unabhängig sind (s. Aufgabe
17.2).
Die Zufallsgröße Y ist nach Induktionsvoraussetzung normalverteilt, und daher ist wegen der
Induktionsverankerung (n = 2) die Zufallsgröße
Z=
F (y) = P (Y ≤ y) = P (aX + b ≤ y) = P
τ −b
a
Wir substituieren t =
Z∞
Zu (∗) vgl. Satz 10.2. Für n = 2 ist Z daher normalverteilt.
k+1
X
207
17.3 Schätzung des Erwartungswertes einer Normalverteilung
Ry
y−b
1
=√
2π σ
Za
1 t−µ 2
)
σ
e− 2 (
dt .
−∞
und
−
e
τ − b − aµ
τ − µY
t−µ
=
=
.
σ
aσ
σY
1 τ −µY 2
(
)
2
σY
dτ gilt die Behauptung. 2
−∞
Die Aussagen über Mittelwert und Varianz ergeben sich auch aus den Sätzen 9.2 und 9.6.
Ein Spezialfall von Satz 17.3 wurde implizit schon in Satz 10.5 für die normalisierte Zufallsgröße
Z = X−µ
, d.h. für a = σ1 und b = − σµ hergeleitet.
σ
Aus den Sätzen 17.2 und 17.3 folgert man direkt:
Satz 17.4:
Sind X1 , . . . , Xn unabhängige normalverteilte Zufallsgrößen, von denen jede den Mittelwert µ
und die Varianz σ 2 besitzt, so ist
X=
ebenfalls normalverteilt. 2
1
(X1 + . . . + Xn )
n
normalverteilt mit Mittelwert µ und Varianz
Aufgabe 17.2:
Zeigen Sie durch vollständige Induktion nach k, dass für k + 1 unabhängige Zufallsgrößen
X1 , . . . , Xk , Xk+1 auch Y = X1 + . . . + Xk und Xk+1 unabhängig sind.
Bemerkung 17.3:
Xi = Y + Xk+1
i=1
√ 1
2π σY
y−b
X≤
a
und erhalten
dt
1
σ
σ
= =
=
dτ
a
aσ
σY
Wegen F (y) =
Z=
σ2
.
n
Die standardisierte Zufallsgröße
√ X −µ
n
σ
von X ist ebenfalls normalverteilt mit Mittelwert 0 und Varianz 1.
Satz 17.3: (Lineare Transformation normalverteilter Zufallsgrößen)
Ist die Zufallsgröße X normalverteilt mit Mittelwert µ und Varianz σ 2 , so ist die Zufallsgröße
Y = aX + b ,
a, b ∈ R, a > 0
ebenfalls normalverteilt mit Mittelwert µY = aµ + b und Varianz σY2 = a2 σ 2 .
Bestimmung eines Konfidenzintervalls
Aus Symmetriegründen wird das Konfidenzintervall symmetrisch zum Mittelwert X der beobachteten Messergebnisse gewählt. Gesucht wird also ein möglichst kleines Intervall [X − a , X +
a] mit der Eigenschaft
208
17 KONFIDENZINTERVALLE
17.3 Schätzung des Erwartungswertes einer Normalverteilung
209
Beispiel 17.4:
1 − α ≤ P (X − a ≤ µ ≤ X + a) = P (−a ≤ X − µ ≤ a)
√
√
√ √ −a n
a n (s. Satz 17.4)
a n
−a n √ (X − µ)
=
P
≤ n
≤
≤Z≤
= P
σ
σ
σ
σ
σ
√ √ √ a n
−a n
a n
= Φ
−Φ
= 2Φ
− 1.
σ
σ
σ
√
α
σ
σ
a n
α
) ≥ 1−
oder a ≥ √ Φ−1 (1 − ) =: √ z0 . Hieraus ergibt
σ
2
2
n
n
sich die folgende Vorgehensweise:
Dies ist äquivalent zu Φ(
Wir bestimmen ein 95 %–Schätzintervall für den Mittelwert einer Normalverteilung mit
der Varianz σ 2 = 9 aus einer Stichprobe mit dem Mittelwert x = 5 und dem Umfang n = 100.
1. Schritt: Es ist 1 − α = 0, 95 .
2. Schritt: Das Urbild von 1 −
3. Schritt: a =
1,96·3
√
100
α
2
= 0, 975 ist z0 = 1, 960 .
= 0, 588 .
4. Schritt: x = 5 (ist hier gegeben).
Ein Schätzintervall für µ zum Niveau 1 − α = 0, 95 ist [x − a, x + a] = [ 4.412 , 5.588 ].
Aufgabe 17.3:
1. Schritt: Man wählt ein Konfidenzniveau 1 − α (z.B. 0, 90; 0, 95 o.ä.).
α
2
gehörige Urbild z0 ( zwischen −z0 und z0 liegt dann die Wahrscheinlichkeit 1 − α,
s. Abb. 17.2).
2. Schritt: Man bestimmt mit Hilfe der Tafel der Normalverteilung (siehe Anhang) das zu 1−
φ(z)
Berechnen Sie das Schätzintervall aus Beispiel 17.3.
Zuverlässigkeit und Aussagekraft
In der Praxis steht man oft vor dem Problem, dass man einerseits ein gewisses Konfidenzniveau
nicht unterschreiten will, andererseits aber eine maximale Länge für das Konfidenzintervall
vorgegeben ist. Beiden Forderungen kann man durch Wahl einer hinreichend großen Stichprobe
genügen.
1- α
Beispiel 17.5:
α/2
α/2
-z0
z0
z
Abb. 17.2
Für die wichtigsten Werte von α sind die z0 in der folgenden Tabelle aufgeführt.
1−α
0, 90
0, 95
0, 99
0, 999
Welchen Umfang muss die Stichprobe in Beispiel 17.4 haben, wenn man ein 95 %–Konfidenzintervall der Länge 2a = 0, 4 haben möchte?
2
2
Die Intervallänge ist 2a = 2z√0nσ . Daraus folgt n = z0aσ = 1,960·3
= 864, 36. Also muss
0,2
n ≥ 865 sein.
Allgemein nimmt die Intervallänge 2a mit wachsendem n ab. Abbildung 17.3 zeigt die Art
der Abhängigkeit, wobei die Länge in Vielfachen von σ gemessen wird. Je kürzere Intervalle
man wünscht, desto größere Stichproben sind erforderlich. Die halbe Intervallänge verlangt den
vierfachen Stichprobenumfang.
z0 σ
3. Schritt: Man berechnet die Zahl a = √ .
n
Zuverlässigkeit und Aussagekraft einer Intervallschätzung lassen sich, wie zu Anfang des Kapitels erwähnt, nicht gemeinsam maximieren. Abbildung 17.4 kann man entnehmen, wie bei
konstant gehaltenem Stichprobenumfang n die Intervallänge 2a mit dem Konfidenzniveau 1 − α
zunimmt. Die Länge wird dabei wiederum in Vielfachen von σ gemessen. Man beachte: Für
α → 0 gilt 2a → ∞.
4. Schritt: Man berechnet gegebenenfalls den Mittelwert x der Stichprobe x1 , . . . , xn .
Aufgabe 17.4:
z0
1, 645 1, 960 2, 576 3, 291
Dann lautet das Schätzintervall für den Mittelwert µ der Grundgesamtheit
[x − a, x + a].
Das zugehörige Konfidenzintervall ist dementsprechend [U (X), O(X)] = X − a, X + a .
Welchen Umfang muss die Stichprobe im Beispiel 17.4 haben, wenn man ein 99 %–Konfidenzintervall der Länge 0, 40 haben möchte?
210
211
17 KONFIDENZINTERVALLE
18
0,6
18.1
1- α = 99%
0,2
Unsere Frage lautet: Besteht zwischen X und Y näherungsweise ein linearer Zusammenhang?
Zwischen der Seitenlänge eines Quadrats und seinem Flächeninhalt besteht ein streng funktionaler, aber nichtlinearer Zusammenhang, denn jeder Seitenlänge ist genau ein Flächeninhalt
zugeordnet.
1- α = 95%
0,0
0
1000
500
Regressionsgeraden
Die bisher dargestellten statistischen Methoden waren auf die Untersuchung einer eindimensionalen Häufigkeitsverteilung bezogen. Nun betrachten wir für ein beobachtetes Ergebnis jeweils
zwei Merkmale X und Y , d.h. wir gehen von Datenpaaren – in der Regel von Zahlenpaaren
(X, Y ) – aus.
0,4
2a
σ
Regression und Korrelation
n
Abb. 17.3
Wenn wir Körpergröße und Gewicht vergleichen, so besteht kein funktionaler Zusammenhang.
Es gibt gleich große, aber verschieden schwere Personen und umgekehrt. Dennoch lehrt die
Erfahrung, dass insgesamt gesehen die Regel je größer, desto schwerer“ durchaus zutrifft. Wir
”
wollen versuchen, einen derartigen Zusammenhang zweier Größen zu beschreiben und durch
eine geeignete Maßzahl zu charakterisieren.
Zur Erfassung einer zweidimensionalen Häufigkeitsverteilung bietet sich als einfachstes Mittel
die Strichliste an. Für die Merkmale Größe X und Gewicht Y bei 100 erwachsenen Personen
ist in Abb. 18.1 ein Beispiel angegeben.
1,0
2a
σ
100
95
Gewicht 90
in kg
85
80
75
70
65
60
55
50
45
n = 50
0,5
n = 100
n = 200
n = 1000
|
|
||
||
||
|
||
|
||
|||
|6 |||
||
|
||||
|6 |||
|6 |||||
|
||
|||
|
|6 |||
||
|||
|
|6 ||||
||
||
|
|6 |||
|6 |||
||
|
||
||
|
||||
|
|
||
|
||
|
150 155 160 165 170 175 180 185 190 195
Größe in cm
0,0
0,90
1,00
0,95
1- α
Abb. 17.4
Abb. 18.1
Aufgrund einer solchen Strichliste könnte man die relativen Häufigkeiten für die einzelnen
Wertepaare berechnen und wie in Abschnitt 11.1 den Graphen der zweidimensionalen Treppenfunktion F entwickeln.
Für die weiteren Überlegungen wollen wir vorerst voraussetzen, dass die Paare (x, y) wie in
unserem Beispiel Paare von Maßzahlen sind. Wenn wir ferner vereinfachend annehmen, dass
212
18 REGRESSION UND KORRELATION
213
18.1 Regressionsgeraden
y
keine zwei Wertepaare übereinstimmen11 , so lassen sich die gegebenen Daten auch wie in Abb.
18.2 als Punktwolke“ in einem kartesischen Koordinatensystem darstellen.
”
y
x
Abb. 18.3 b
versuchen, die Regressionslinie durch eine Regressionsgerade zu ersetzen, d.h. durch eine
Gerade
y = ax + b ,
x
Abb. 18.2
Auch wenn wir wissen, dass es sich nicht um einen funktionalen Zusammenhang handeln kann,
fragen wir nach einer Kurve bzw. nach einem Streckenzug, durch den die in der Punktwolke
erkennbare Beziehung in einer Vereinfachung und Idealisierung dargestellt wird. Dafür gibt
es ein äußerst einfaches Verfahren: Wir führen eine Klasseneinteilung für die Variable X ein
(nicht aber für Y ). Für die in eine Klasse fallenden Punkte bilden wir das Mittel der y–Werte
und tragen es über der Klassenmitte auf. Verbindet man die so erhaltenen Punkte, so entsteht
eine Regressionslinie. Die Abbildungen 18.3 enthalten zwei Beispiele.
die sich der Punktwolke möglichst gut anpasst. Dabei suchen wir zunächst nach einer näherungsweise linearen Abhängigkeit der Größe y von der Größe x, d.h. wir denken uns die x-Werte
als fest vorgegeben, die y-Werte dagegen als fehlerbehaftet.
Als Maß der Anpassung betrachten wir daher die Summe der Abweichungsquadrate der gegebenen Punkte von der gesuchten Geraden in y-Richtung. Diese soll möglichst klein werden.
Die Abweichung in y-Richtung di eines Punktes (xi , yi ) von der Geraden g ist di = yi − axi − b
(s. Abb. 18.4), und die Summe der Abstandsquadrate erhält man als
y
(xi ,yi )
yi
y
g
di
axi + b
(xi ,axi + b)
xi
x
Abb. 18.4
Abb. 18.3 a
Wir wollen von Regression bezüglich X sprechen, da die Klassenbildung für X erfolgte. Man
kann natürlich auch umgekehrt Klassenbildung bezüglich Y und Mittelwertbildung bezüglich
X durchführen. Die dabei entstehende Regressionslinie bezüglich Y ist im allgemeinen von der
bezüglich X verschieden.
Von besonderem Interesse ist nun der Fall, in dem die Regressionslinie annähernd geradlinig
verläuft wie z.B. in Abb. 18.3 b. Wir verschärfen für diesen Fall unsere Aufgabenstellung und
11
Diese Voraussetzung ist nur für die graphische Darstellung von Bedeutung, nicht aber für die folgende
Herleitung der statistischen Maßzahl r.
x
D=
n
X
i=1
(yi − axi − b)2 .
D ist eine Funktion der beiden Koeffizienten a und b. Wir suchen die Gerade, für die D
möglichst klein wird, d.h. das Minimum von D. Da an einer lokalen Minimalstelle die beiden
und ∂D
verschwinden müssen, erhält man die beiden Bedingungen
partiellen Ableitungen ∂D
∂a
∂b
n
X
∂D
= −2
(yi − axi − b)xi = 0
∂a
i=1
n
und
X
∂D
= −2
(yi − axi − b) = 0 ,
∂b
i=1
214
18 REGRESSION UND KORRELATION
215
18.1 Regressionsgeraden
wodurch die Koeffizienten a und b eindeutig bestimmt sind. Denn aus der zweiten Gleichung
n
n
P
P
folgt zunächst
yi − a xi = nb und hieraus durch Division durch n
und für diese gelten die bisherigen Überlegungen und Rechnungen mit entsprechend geänderten
Bezeichnungen ebenso. Es ist
sXY
a′ = 2
sY
Die gesuchte Gerade muss also durch den Punkt (x, y) mit den beiden Mittelwerten als Koordinaten laufen. Um die Steigung a zu bestimmen setzen wir b in die erste Gleichung ein und
erhalten
!
n
n
n
n
n
X
X
X
X
X
2
2
2
xi − nx − nx y, also
xi =
xi yi − a
0=
xi yi − a
xi − (y − ax)
der Regressionskoeffizient bezüglich y, und es gilt hier die Beziehung y = a1′ x + b′ , woraus dann
die Geradengleichung in der Gestalt y = a1′ x + b′ hervorgeht. Da beide Regressionsgeraden
durch (x, y) gehen, gilt:
i=1
i=1
y − ax = b .
i=1
i=1
i=1
P
xi yi − nx y
=
a= P 2
xi − nx2
1
n
i=1
i=1
P
xi yi − x y
P 2
.
1
xi − x2
n
Satz 18.1:
Die Regressionsgeraden bezüglich x und y schneiden sich im Punkt (x, y).
Im allgemeinen bilden die beiden Regressionsgeraden eine sogenannte Regressionsschere (s.
Die angegebenen Werte von a und b sind die einzigen Kandidaten für eine Extremalstelle von
D. Da aber D für betragsmäßig großes a bzw. b beliebig groß wird, muss hier das globale
Minimum liegen.
y
g : y = ax + b
g’ : y = a’x + b’
s2X
In dem Ausdruck für a hat sich im Nenner gerade die empirische Varianz
(vgl. Definition
14.5) von X ergeben. Der Zähler ist der entsprechende empirische Ausdruck für die Kovarianz zweier Zufallsgrößen X und Y (vgl. Definition 12.3); wir bezeichnen diesen Term mit sXY .
y
g
g’
Definition 18.1: (Regressionskoeffizient einer Häufigkeitsverteilung
Ist für die zweidimensionale Häufigkeitsverteilung der Variablen X und Y die empirische Varianz s2X 6= 0, so heißt die Zahl
sXY
a= 2
sX
n
mit
sXY
1X
=
xi yi − x y
n i=1
und
1X 2
s2X =
xi − x2
n
Regressionskoeffizient bezüglich X.
sXY
s2X
x.
Wir hätten auch umgekehrt nach einer Abhängigkeit der x–Werte von den y–Werten fragen
können. Gerade bei empirisch gegebenen Wertepaaren wie Körpergrößen und Gewichten oder
Längen und Zeiten ist die Frage nach einem linearen Zusammenhang in der einen Richtung ja
ebenso sinnvoll wie in der anderen.
Denken wir uns die Regressionsgerade bezüglich X durch (x, y) in der Form
y − y = a(x − x)
dargestellt, dann hat die Regressionsgerade bzgl. Y die Gestalt
a′ (y − y) = (x − x) ,
x
Abb. 18.5
Abb. 18.5). Lägen alle Punkte genau auf einer Geraden, so müssten die beiden Regressionsgeraden g und g ′ identisch sein. Die Steigungsfaktoren beider Geraden wären dann gleich,
also
a=
Die Voraussetzung s2X 6= 0 ist praktisch immer erfüllt; denn hätte die Varianz den Wert 0, so
müssten alle x–Werte gleich sein, d.h. X wäre konstant.
Für das Absolutglied b unserer Geradengleichung ergibt sich b = y −
x
1
a′
oder
a · a′ =
s2XY
= 1.
· s2Y
s2X
Je näher das Produkt der beiden Regressionskoeffizienten dem Wert 1 kommt, desto enger ist
die Regressionsschere, desto enger also der lineare Zusammenhang zwischen X und Y . Als
Maßzahl für diesen Zusammenhang verwendet man allerdings nicht unmittelbar das Produkt
a · a′ , sondern dessen Quadratwurzel, versehen mit dem Vorzeichen der Kovarianz.
Definition 18.2: (Korrelationskoeffizient einer Häufigkeitsverteilung)
Sind die empirischen Varianzen sX und sY von 0 verschieden, so heisst die Zahl
P
1
xi yi − x y
sXY
r=
= q Pn
P 2
sX · sY
1
yi − y 2 )
( n x2i − x2 ) ( n1
Korrelationskoeffizient für die Häufigkeitsverteilung der Variablen X und Y .
216
18 REGRESSION UND KORRELATION
18.2
Diese Definition hat den Vorzug, dass r nicht nur wie das Produkt a · a′ die Güte“ des linearen
”
Zusammenhangs erkennen lässt, sondern auch die Richtung“. Ein Regressionskoeffizient ist ja
”
ein Steigungsfaktor, dessen Vorzeichen nur von sXY abhängt, da die Varianz im Nenner stets
positiv ist. Das Vorzeichen von r gibt also an, ob die Regressionsgeraden steigen oder fallen.
Aufgabe 18.1:
Gegeben sei die zweidimensionale Häufigkeitsverteilung“ (1, 1), (3, 5), (6, 6). Bestimmen Sie
”
die beiden Regressionsgeraden und den Korrelationkoeffizienten.
Man kann sich anschaulich klarmachen, dass von den beiden Regressionsgeraden g stets etwas
weniger gegen die x–Achse geneigt sein muss als g ′ . Das Produkt aa′ und somit auch r können
deshalb dem Betrag nach nicht größer als 1 sein.
217
18.2 Rangkorrelation und Vierfelderkorrelation
Rangkorrelation und Vierfelderkorrelation
Bisher haben wir für X und Y Intervallskalen12 vorausgesetzt. Man spricht deshalb auch
von Masskorrelation. Der hergeleitete Korrelationskoeffizient kann jedoch auch verwendet
werden, wenn die Paare (x, y) nicht Maßzahlpaare sondern Paare von Rangplätzen sind.
Es kann z.B. untersucht werden, wie sich die leistungsmäßige Rangordnung innerhalb einer
Schülergruppe in einem bestimmten Zeitraum verschiebt. Für jeden Schüler wird dann am
Anfang und am Ende des betreffenden Unterrichtsabschnitts der Rangplatz ermittelt, ohne
dass damit eine absolute Leistungsbeurteilung“ verbunden sein muss.
”
Für die beiden Rangreihen berechnet man dann den meist als rRang bezeichneten Rangkorrelationskoeffizienten, indem man in dem Ausdruck für r die Rangzahlen wie Maßzahlen
verwendet. Man kommt dabei zu einer wesentlich einfacheren Formel, weil sowohl die xi als
auch die yi genau die natürlichen Zahlen von 1 bis n durchlaufen müssen:
Der formale Nachweis dieser Tatsache erfordert einen gewissen Rechenaufwand:
Satz 18.3:
Satz 18.2:
Existiert der Korrelationskoeffizient r für eine zweidimensionale Häufigkeitsverteilung, so gilt
−1 ≤ r ≤ 1 .
Beweis:
Wir drücken die Summe der Abstandquadrate D =
rRang = 1 −
P
(yi − axi − b)2 durch r aus:
X
2
(yi − y) − a(xi − x)
(yi − axi − y + ax)2 =
X
X
X
=
(yi − y)2 − 2a
(xi − x) (yi − y) + a2
(xi − x)2
s2XY · s2X
2s2
+
= n(s2Y − 2asXY + a2 s2X ) = n s2Y − XY
s2X
s4X
s2
s2
= n s2Y − XY
= n · s2Y 1 − 2XY2 = n · s2Y (1 − r2 ) .
s2X
sX sY
D =
X
Durchlaufen sowohl die Werte xi als auch die Werte yi die n Rangplätze 1, . . . , n, dann lautet
der Rangkorrelationskoeffizient der beiden Zufallsgrößen X und Y
Beweis:
Es gilt
x=y=
Wir betonen noch einmal, dass r die Güte eines linearen Zusammenhangs von X und Y misst
und nicht eine Abhängigkeit schlechthin.
Bemerkung 18.1:
Definition 18.2 und Satz 18.2 sind gerade die Enrsprechungen zu Definition 12.4 und Satz
12.12. Dort wurde der Korrelationskoeffizient zweier Zufallsgrößen definiert und bewiesen, dass
er betragsmäßig nicht größer als 1 ist.
1
(n + 1) ,
2
x y = x2 = y 2 =
und daher
s2X = s2Y = sX sY =
Weiterhin erhält man
sXY
Wegen D ≥ 0, n > 0 und s2Y > 0 muss 1 − r2 ≥ 0 gelten. 2
n
X
6
(xi − yi )2 .
(n − 1) n (n + 1) i=1
1
(n + 1)2 ,
4
X
x2i =
X
yi2 =
n(n + 1)(2n + 1)
.
6
(n + 1)(n − 1)
(n + 1)(2n + 1) 1
1X 2
xi − x2 =
− (n + 1)2 =
.
n
6
4
12
1X
xi yi − x y =
n
−1 X
=
(xi − yi )2 +
2n
=
Hieraus folgt die Behauptung. 2
−1 X
1 X 2
1 X 2
(xi − yi )2 +
xi +
yi − x y
2n
2n
2n
1X 2
−1 X
xi − x2 =
(xi − yi )2 + sX sY .
n
2n
Bei der praktischen Aufstellung einer Rangreihe ist zu beachten, dass eventuell gleichen Rohwerten das arithmetische Mittel der betreffenden Rangplätze zugeordnet wird. Lauten z.B.
12
D.h. die Werte der Skala beziehen sich auf eine gegebene Maßeinheit (im Gegensatz dazu werden Leistungsnoten von einer Ordinalskala erfasst, d.h. die Leistungen stehen nur in einer Rangfolge).
218
18 REGRESSION UND KORRELATION
die Punktzahlen in einem Test 20 18 18 16 . . . , so beginnt die zugehörige Rangreihe statt mit
1 2 3 4 . . . mit 1 2, 5 2, 5 4 . . . . Satz 18.3 ist dann allerdings nicht mehr direkt anwendbar.
Neben der Rangkorrelation wollen wir noch einen weiteren Sonderfall erwähnen. Haben X und
Y je eine Zweipunktverteilung, sind beides also Alternativmerkmale wie krank – nicht krank“
”
oder geimpft – nicht geimpft“, so hat die Häufigkeitstabelle nur vier Felder, in die wir die mit
”
a, b, c, d bezeichneten absoluten Häufigkeiten eintragen. Den beiden möglichen Fälle für X und
Y ordnen wir die Zahlen 0 und 1 zu:
Y
nicht erkrankt erkrankt
X
0
1
nicht geimpft
0
a
b
geimpft
1
c
d
Es ist dann offenbar
X
X
xi
=
x2i = (a + b) · 0 + (c + d) · 1 = c + d = nx ,
X
X
yi
=
yi2 = (a + c) · 0 + (b + d) · 1 = b + d = ny ,
X
xi yi = a · 0 · 0 + b · 0 · 1 + c · 1 · 0 + d · 1 · 1 = d ,
wobei a+ b + c + d = n. Setzt man dies wiederum in Definition 18.2 ein und erweitert den Bruch
mit n2 , so ergibt sich der Pearsonsche Vierfelder–Korrelationskoeffizient rφ :
nd − (c + d) (b + d)
n(b + d) − (b + d)2
n − (c + b + d) d − bc
= q
n − (c + d) (c + d) n − (b + d) (b + d)
rφ = q
n(c + d) − (c + d)2
ad − bc
.
= p
(a + b) (c + d) (a + c) (b + d)
219
18.2 Rangkorrelation und Vierfelderkorrelation
in eine Rangfolge gebracht – ein im Zusammenhang mit dem Problem der Leistungsmessung
vielfach durchgeführter Versuch. Die Ergebnisse kann man den Abbildungen 18.6 entnehmen.
Die Abbildung rechts zeigt eine häufig verwendete und für kleinere Werte von n sehr übersichtliche graphische Darstellung der Rangkorrelation.
Rangreihe nach
Lehrer X
Lehrer Y
Rangplatz nach
Schüler
a
b
c
d
e
f
g
h
Lehrer X
2
1
4
8
3
7
5
6
Lehrer Y
3
2
4
8
1
6
7
5
b
e
a
e
b
a
c
c
g
h
h
f
g
f
d
Abb. 18.6 a
d
Abb. 18.6 b
Man bestimme den Koeffizienten rRang .
Aufgabe 18.3:
Man bestimme die beiden Regressionsgeraden und den Maßkorrelationskoeffizienten r für die
folgenden Wertepaare:
x
y
1 2
2 1
4
2
5
3
3
4
Aufgabe 18.4:
An einer Aufnahmeprüfung für eine höhere Schule haben 60 Schüler aus Schule A und 40 Schüler
aus Schule B teilgenommen. 40 Schüler haben nicht bestanden, darunter 10 von Schule B.
Als Spezialfälle von r können auch die statistischen Maßzahlen rRang und rφ nur Werte von −1
bis +1 annehmen.
In welcher Weise hängt der Prüfungserfolg davon ab, welche Schule besucht wurde?
In Bezug auf die Frage nach dem Zusammenhang zweier Größen gibt es neben den hier herausgegriffenen noch zahlreiche andere Problemstellungen und entsprechend auch weitere statistische
Maßzahlen, auf die wir hier nicht eingehen. Ihre Anwendbarkeit hängt vor allem davon ab,
was für eine Skalierung für die Variablen X und Y jeweils vorliegt. Die Aussagekraft eines
gefundenen Wertes in Bezug auf bloße Zufälligkeit muss dann mit Methoden der beurteilenden
Statistik überprüft werden.
Wie groß ist die Wahrscheinlichkeit, die Prüfung zu bestehen, wenn man Schule A bzw. Schule
B besucht?
Aufgabe 18.2:
Acht Reifeprüfungs–Aufsätze wurden unabhängig voneinander von zwei Lehrern korrigiert und
Man bestimme den Koeffizienten rφ .
Aufgabe 18.5:
Wie müssten in Aufgabe 18.4 die bestandenen und nicht bestandenen Prüfungen zahlenmäßig
auf die beiden Schulen verteilt sein, wenn kein Zusammenhang zwischen Prüfungserfolg und
besuchter Schule besteht, wenn also für jede Schule der gleiche Prozentsatz bestandener Prüfungen zu erwarten ist wie für die Gesamtheit der n = 100 Schüler? Wie groß ist in diesem Fall
der Koeffizient rφ ?
220
A
A ÜBERSICHTEN
Übersichten
A.1
221
A.2 Diskrete Verteilungen
b)
Kombinatorische Grundformeln
Ziehen
Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln (mit oder ohne Zurücklegen)
gezogen. Die Anzahl der möglichen Ergebnisse ist in der Tabelle angegeben.
n
verschiedene n-Tupel bilden,
k
bei denen das erste Element k-mal und das zweite Element (n − k)-mal verwendet
wird.
n!
verschieii) Aus einer r-elementigen Menge kann man genau n1 ,n2n,...,nr =
n1 ! · . . . · nr !
dene n-Tupel bilden, bei denen das j-te Element genau nj -mal verwendet wird.
Hierbei muss gelten n1 + n2 + · · · + nr = n.
i) Aus einer 2-elementigen Menge kann man genau
Abbildungen
mit Zurücklegen
mit Berücksichtigung
der Reihenfolge
ohne Berücksichtigung
der Reihenfolge
nk
n+k−1
k
ohne Zurücklegen
n!
(n − k)!
n
k
Verteilen
k (verschiedene oder gleiche) Kugeln werden auf n unterscheidbare Urnen verteilt. Die Anzahl
der möglichen Ergebnisse ist in der Tabelle angegeben.
beliebig viele Kugeln
pro Urne
maximal eine Kugel
pro Urne
nk
n!
(n − k)!
verschiedene Kugeln
gleiche Kugeln
n+k−1
k
n
k
Anordnung und Teilmengen
a) Es gibt genau nk verschiedene Abbildungen einer k-elementigen in eine n-elementige Menge.
n!
Abbildungen injektiv.
Hiervon sind genau
(n − k)!
n
b)
i) Es gibt genau
verschiedene Abbildungen einer n-elementigen Menge in die
k
2-elementige Menge {a, b}, bei denen genau k Elemente auf a abgebildet werden.
n!
ii) Es gibt genau n1 ,n2n,...,nr =
verschiedene Abbildungen einer n-elementigen
n1 ! . . . nr !
Menge in die r-elementige Menge {a1 , . . . , ar }, bei denen genau nj Elemente auf aj
abgebildet werden.
Hierbei muss gelten n1 + n2 + · · · + nr = n.
A.2
Diskrete Verteilungen
Binomial-Verteilung
• Wahrscheinlichkeitsverteilung:
P (X = k) = bn;p (k) =
n Objekte lassen sich auf genau n! verschiedene
Arten anordnen.
n
verschiedene k-elementige Teilmengen.
k
• Varianz und Streuung:
Tupelbildung
• Maximalstelle:
Eine n-elementige Menge hat genau
a) Aus einer n-elementigen Menge kann man
i) nk verschiedene k-Tupel mit Elementwiederholung und
n!
verschiedene k-Tupel ohne Elementwiederholung bilden.
ii)
(n − k)!
• Erwartungswert:
n
k
pk q n−k
für
k ∈ {0, . . . , n}
E(X) = np
V (X) = npq,
σ=
√
npq
kmax ∈ [ (n + 1)p − 1 , (n + 1)p ]
• Approximationen:
bn; nµ (k) ≈ pµ (k)
• Anwendung:
bn;p (k) ≈
k−np
√ 1 ϕ( √
)
npq
npq
für große n
für große n
(Normalverteilung)
(Poissonverteilung)
Anzahl der Erfolge bei der n-fachen unabhängigen Ausführung
eines Bernoulli-Experiments mit Erfolgswahrscheinlichkeit p
222
A ÜBERSICHTEN
A.3
Geometrische Verteilung
• Wahrscheinlichkeitsverteilung: P (X = k) = q k−1 p für k ∈ N mit 0 < p ≤ 1, q = 1 − p
• Erwartungswert:
• Varianz:
E(X) =
V (X) =
• Anwendung:
1
p
• Erwartungswert:
P (X = k) = pµ (k) =
µk
k!
· e−µ
für
k ∈ N0
E(X) = µ
• Wahrscheinlichkeitsverteilung:
P (X = k) = h(k) =
E(X) = n ·
• Approximation:
• Anwendung:
K
k
K
N
K
N
kmax ∈
· 1−
h
K
N
N −K
n−k
N
n
·
(K+1)·(n+1)
(N +2)
h(k) ≈ bn; K (k)
N
für
k ∈ {0, . . . , n}
• Wahrscheinlichkeitsverteilung:
V (X) =
√
≤β
α< x−np
npq
E(X) =
n2 −1
12
n+1
2
1 x−µ
√ 1 e− 2 ( σ )
2π σ
• Verteilungsfunktion:
F (x) =
f (x) = σ1 ϕ
• Dichte:
f (x) =
x−µ
σ
− 1,
(K+1)·(n+1)
(N +2)
für
N ≫n
1
n
;
Rx
e− 2 (
1
t−µ 2
σ
) dt
−∞
F (x) = Φ
x−µ
σ
0
für x < 0
für x ≥ 0
0
für x < 0
x
F (x) =
1 − e− µ für x ≥ 0
• Erwartungswert und Varianz:
N −n
N −1
P (X = k) =
√1
2π σ
x
1 −µ
e
µ
• Verteilungsfunktion:
i
• Anwendung:
(Binomialverteilung)
Gleichverteilung
• Varianz:
−∞
Exponentialverteilung
Anzahl der markierten Objekte beim Ziehen ohne Zurücklegen
von n aus N Objekten, von denen K markiert sind
• Erwartungswert:
f (x) =
• Berechnung:
Hypergeometrische Verteilung
V (X) = n ·
1 2
e− 2 τ dτ
µ = 0; σ = 1
P
bn,p (x) = Φ(β) − Φ(α)
lim
n→∞
Rz
Allgemeine Normalverteilung
• Dichte:
kmax ∈ [ µ − 1 , µ ]
• Erwartungswert:
√1
2π
Φ(z) =
2
V (X) = µ
• Maximalstelle:
1 2
√1 e− 2 z
2π
• Erwartungswert und Streuung:
• Anwendung: Annäherung der Binomialverteilung für große n und kleine p
• Varianz:
ϕ(z) =
• Grenzwerteigenschaft:
• Wahrscheinlichkeitsverteilung:
• Maximalstelle:
Standardisierte Normalverteilung
• Verteilungsfunktion:
Anzahl der Versuche bis zum ersten Erfolg bei einem
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p
Poisson-Verteilung
• Varianz:
Stetige Verteilungen
• Dichte:
q
p2
223
A.3 Stetige Verteilungen
für k ∈ {1, . . . , n}
E(X) = µ;
V (X) = µ2
Wartezeiten
Gleichverteilung
• Dichte:
f (x) =
• Verteilungsfunktion:
1
b−a
0
für a ≤ x ≤ b
sonst

x<a
 0 für
x−a
für
a
≤
x
≤b
F (x) =
 b−a
1 für b < x
• Erwartungswert und Varianz:
E(X) =
a+b
;
2
V (X) =
(b−a)2
12
224
B
B TABELLEN
Tabellen
Binomialverteilung
B.1.1
p ≤ 0, 15 bzw. p ≥ 0, 85
4
5
6
7
8
k
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
p=0,01
0,97030
0,02940
0,00030
0,00000
0,96060
0,03881
0,00059
0,00000
n k
k p (1
n
9
− p)n−k ; fehlende Werte sind < 5 · 10−6
0,95099
0,04803
0,00097
0,00001
0,00000
p=0,02
0,94119
0,05762
0,00118
0,00001
0,92237
0,07530
0,00230
0,00003
0,00000
0,90392
0,09224
0,00376
0,00008
0,00000
p=0,03
0,91267
0,08468
0,00262
0,00003
0,88529
0,10952
0,00508
0,00010
0,00000
0,85873
0,13279
0,00821
0,00025
0,00000
0,94148
0,05706
0,00144
0,00002
0,00000
0,88584
0,10847
0,00553
0,00015
0,00000
0,93207
0,06590
0,00200
0,00003
0,00000
0,92274
0,07457
0,00264
0,00005
0,00000
p=0,99
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
B.1
n
3
225
B.1 Binomialverteilung
0,83297
0,15457
0,01195
0,00049
0,00001
0,00000
p=0,04
0,88474
0,11059
0,00461
0,00006
0,84935
0,14156
0,00885
0,00025
0,00000
0,81537
0,16987
0,01416
0,00059
0,00001
0,00000
0,78276
0,19569
0,02038
0,00113
0,00004
0,00000
p=0,05
0,85737
0,13538
0,00713
0,00013
0,81451
0,17148
0,01354
0,00047
0,00001
0,77378
0,20363
0,02143
0,00113
0,00003
0,00000
0,73509
0,23213
0,03054
0,00214
0,00008
0,00000
0,86813
0,12402
0,00759
0,00026
0,00001
0,00000
0,80798
0,17492
0,01623
0,00084
0,00003
0,00000
0,75145
0,21917
0,02740
0,00190
0,00008
0,00000
0,69834
0,25728
0,04062
0,00356
0,00019
0,00001
0,00000
0,85076
0,13890
0,00992
0,00040
0,00001
0,00000
0,78374
0,19392
0,02099
0,00130
0,00005
0,00000
0,72139
0,24046
0,03507
0,00292
0,00015
0,00001
0,00000
0,66342
0,27933
0,05146
0,00542
0,00036
0,00002
0,00000
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,72900
0,24300
0,02700
0,00100
0,65610
0,29160
0,04860
0,00360
0,00010
0,59049
0,32805
0,07290
0,00810
0,00045
0,00001
0,53144
0,35429
0,09842
0,01458
0,00122
0,00005
0,00000
0,47830
0,37201
0,12400
0,02296
0,00255
0,00017
0,00001
0,00000
0,43047
0,38264
0,14880
0,03307
0,00459
0,00041
0,00002
0,00000
p=0,90
p=0,15
0,61412
0,32512
0,05738
0,00337
0,52201
0,36847
0,09754
0,01147
0,00051
0,44371
0,39150
0,13818
0,02438
0,00215
0,00008
0,37715
0,39933
0,17618
0,04145
0,00549
0,00039
0,00001
0,32058
0,39601
0,20965
0,06166
0,01088
0,00115
0,00007
0,00000
0,27249
0,38469
0,23760
0,08386
0,01850
0,00261
0,00023
0,00001
0,00000
p=0,85
3
2
1
0
4
3
2
1
0
5
4
3
2
1
0
6
5
4
3
2
1
0
7
6
5
4
3
2
1
0
8
7
6
5
4
3
2
1
0
k
10
15
20
k
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
p=0,01
0,91352
0,08305
0,00336
0,00008
0,00000
p=0,02
0,83375
0,15314
0,01250
0,00060
0,00002
0,00000
p=0,03
0,76023
0,21161
0,02618
0,00189
0,00009
0,00000
p=0,04
0,69253
0,25970
0,04328
0,00421
0,00026
0,00001
0,00000
p=0,05
0,63025
0,29854
0,06285
0,00772
0,00061
0,00003
0,00000
p=0,10
0,38742
0,38742
0,17219
0,04464
0,00744
0,00083
0,00006
0,00000
0,90438
0,09135
0,00415
0,00011
0,00000
0,81707
0,16675
0,01531
0,00083
0,00003
0,00000
0,73742
0,22807
0,03174
0,00262
0,00014
0,00001
0,00000
0,66483
0,27701
0,05194
0,00577
0,00042
0,00002
0,00000
0,59874
0,31512
0,07463
0,01048
0,00096
0,00006
0,00000
0,34868
0,38742
0,19371
0,05740
0,01116
0,00149
0,00014
0,00001
0,00000
0,86006
0,13031
0,00921
0,00040
0,00001
0,00000
0,73857
0,22609
0,03230
0,00286
0,00017
0,00001
0,00000
0,63325
0,29378
0,06360
0,00852
0,00079
0,00005
0,00000
0,54209
0,33880
0,09882
0,01784
0,00223
0,00020
0,00001
0,00000
0,46329
0,36576
0,13475
0,03073
0,00485
0,00056
0,00005
0,00000
0,20589
0,34315
0,26690
0,12851
0,04284
0,01047
0,00194
0,00028
0,00003
0,00000
0,81791
0,16523
0,01586
0,00096
0,00004
0,00000
0,66761
0,27249
0,05283
0,00647
0,00056
0,00004
0,00000
0,54379
0,33637
0,09883
0,01834
0,00241
0,00024
0,00002
0,00000
0,44200
0,36834
0,14580
0,03645
0,00645
0,00086
0,00009
0,00001
0,00000
0,35849
0,37735
0,18868
0,05958
0,01333
0,00224
0,00030
0,00003
0,00000
0,12158
0,27017
0,28518
0,19012
0,08978
0,03192
0,00887
0,00197
0,00036
0,00005
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,90
p=0,15
0,23162
0,36786
0,25967
0,10692
0,02830
0,00499
0,00059
0,00004
0,00000
0,19687
0,34743
0,27590
0,12983
0,04010
0,00849
0,00125
0,00013
0,00001
0,00000
0,08735
0,23123
0,28564
0,21843
0,11564
0,04490
0,01320
0,00300
0,00053
0,00007
0,00001
0,00000
0,03876
0,13680
0,22934
0,24283
0,18212
0,10285
0,04537
0,01601
0,00459
0,00108
0,00021
0,00003
0,00000
p=0,85
9
8
7
6
5
4
3
2
1
10
9
8
7
6
5
4
3
2
1
15
14
13
12
11
10
9
8
7
6
5
4
20
19
18
17
16
15
14
13
12
11
10
9
8
k
226
B TABELLEN
n
k
n
50
100
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
p=0,01
0,60501
0,30556
0,07562
0,01222
0,00145
0,00013
0,00001
0,00000
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
p=0,02
0,36417
0,37160
0,18580
0,06067
0,01455
0,00273
0,00042
0,00005
0,00001
0,00000
p=0,03
0,21807
0,33721
0,25552
0,12644
0,04595
0,01307
0,00303
0,00059
0,00010
0,00001
0,00000
p=0,04
0,12989
0,27060
0,27623
0,18416
0,09016
0,03456
0,01080
0,00283
0,00063
0,00012
0,00002
0,00000
p=0,05
0,07694
0,20249
0,26110
0,21987
0,13598
0,06584
0,02599
0,00860
0,00243
0,00060
0,00013
0,00002
0,00000
0,36603
0,36973
0,18486
0,06100
0,01494
0,00290
0,00046
0,00006
0,00001
0,00000
0,13262
0,27065
0,27341
0,18228
0,09021
0,03535
0,01142
0,00313
0,00074
0,00015
0,00003
0,00000
0,04755
0,14707
0,22515
0,22747
0,17061
0,10131
0,04961
0,02060
0,00741
0,00234
0,00066
0,00017
0,00004
0,00001
0,00000
0,01687
0,07029
0,14498
0,19733
0,19939
0,15951
0,10523
0,05888
0,02852
0,01215
0,00461
0,00157
0,00049
0,00014
0,00004
0,00001
0,00000
0,00592
0,03116
0,08118
0,13958
0,17814
0,18002
0,15001
0,10603
0,06487
0,03490
0,01672
0,00720
0,00281
0,00100
0,00033
0,00010
0,00003
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,00515
0,02863
0,07794
0,13857
0,18090
0,18492
0,15410
0,10763
0,06428
0,03333
0,01518
0,00613
0,00222
0,00072
0,00021
0,00006
0,00001
0,00000
0,00003
0,00030
0,00162
0,00589
0,01587
0,03387
0,05958
0,08890
0,11482
0,13042
0,13187
0,11988
0,09879
0,07430
0,05130
0,03268
0,01929
0,01059
0,00543
0,00260
0,00117
0,00050
p=0,90
227
B.1 Binomialverteilung
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
p=0,15
0,00030
0,00261
0,01128
0,03186
0,06606
0,10725
0,14195
0,15745
0,14935
0,12299
0,08899
0,05711
0,03275
0,01689
0,00788
0,00334
0,00129
0,00045
0,00015
0,00004
0,00001
0,00000
0,00000
0,00001
0,00008
0,00033
0,00113
0,00315
0,00746
0,01531
0,02762
0,04435
0,06404
0,08382
0,10012
0,10980
0,11109
0,10415
0,09081
0,07390
0,05628
0,04022
0,02704
p=0,85
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
k
n
100
200
k
22
23
24
25
26
27
28
29
30
31
32
33
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
p=0,01
p=0,02
p=0,03
p=0,04
p=0,05
0,13398
0,27067
0,27203
0,18136
0,09022
0,03572
0,01173
0,00328
0,00080
0,00017
0,00003
0,00001
0,00000
0,01759
0,07179
0,14577
0,19635
0,19735
0,15788
0,10472
0,05923
0,02916
0,01270
0,00495
0,00174
0,00056
0,00017
0,00005
0,00001
0,00000
0,00226
0,01399
0,04304
0,08786
0,13383
0,16225
0,16309
0,13979
0,10430
0,06882
0,04065
0,02172
0,01058
0,00473
0,00195
0,00075
0,00027
0,00009
0,00003
0,00001
0,00000
0,00028
0,00237
0,00983
0,02704
0,05549
0,09063
0,12273
0,14172
0,14246
0,12663
0,10078
0,07253
0,04760
0,02868
0,01596
0,00825
0,00397
0,00179
0,00076
0,00030
0,00011
0,00004
0,00001
0,00000
0,00004
0,00037
0,00193
0,00671
0,01740
0,03590
0,06140
0,08956
0,11372
0,12769
0,12836
0,11669
0,09673
0,07362
0,05176
0,03378
0,02056
0,01171
0,00627
0,00316
0,00150
0,00068
0,00029
0,00012
0,00005
0,00002
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,00020
0,00007
0,00003
0,00001
0,00000
0,00000
0,00001
0,00003
0,00011
0,00034
0,00090
0,00214
0,00454
0,00872
0,01526
0,02452
0,03638
0,05013
0,06440
0,07745
0,08749
0,09312
0,09364
0,08918
0,08062
0,06933
0,05681
0,04444
0,03323
0,02380
0,01634
0,01077
0,00682
0,00415
p=0,90
p=0,15
0,01714
0,01026
0,00581
0,00311
0,00159
0,00077
0,00035
0,00015
0,00006
0,00003
0,00001
0,00000
0,00000
0,00001
0,00002
0,00004
0,00011
0,00026
0,00056
0,00115
0,00219
0,00392
0,00663
0,01059
0,01602
0,02301
0,03142
0,04089
0,05080
0,06034
0,06863
0,07483
0,07832
0,07878
0,07624
p=0,85
78
77
76
75
74
73
72
71
70
69
68
67
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
k
228
B TABELLEN
n
k
n
200
k
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
p=0,01
p=0,99
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
p=0,02
p=0,98
p=0,03
p=0,97
p=0,04
p=0,96
p=0,05
p=0,95
p=0,10
0,00244
0,00138
0,00075
0,00040
0,00020
0,00010
0,00005
0,00002
0,00001
0,00000
p=0,90
p=0,15
0,07105
0,06383
0,05533
0,04631
0,03746
0,02930
0,02218
0,01626
0,01155
0,00795
0,00531
0,00344
0,00217
0,00133
0,00079
0,00046
0,00026
0,00014
0,00007
0,00004
0,00002
0,00001
0,00000
p=0,85
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
k
n
6
7
8
0, 2 ≤ p ≤ 0, 8
n
3
4
5
k
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
p=0,20
0,51200
0,38400
0,09600
0,00800
0,40960
0,40960
0,15360
0,02560
0,00160
0,32768
0,40960
0,20480
0,05120
0,00640
0,00032
p=0,80
p=0,25
0,42188
0,42188
0,14063
0,01563
0,31641
0,42188
0,21094
0,04688
0,00391
0,23730
0,39551
0,26367
0,08789
0,01465
0,00098
p=0,75
p=0,30
0,34300
0,44100
0,18900
0,02700
0,24010
0,41160
0,26460
0,07560
0,00810
0,16807
0,36015
0,30870
0,13230
0,02835
0,00243
p=0,70
p=0,35
0,27463
0,44362
0,23887
0,04287
0,17851
0,38447
0,31054
0,11147
0,01501
0,11603
0,31239
0,33642
0,18115
0,04877
0,00525
p=0,65
p=0,40
0,21600
0,43200
0,28800
0,06400
0,12960
0,34560
0,34560
0,15360
0,02560
0,07776
0,25920
0,34560
0,23040
0,07680
0,01024
p=0,60
p=0,45
0,16638
0,40838
0,33413
0,09113
0,09151
0,29948
0,36754
0,20048
0,04101
0,05033
0,20589
0,33691
0,27565
0,11277
0,01845
p=0,55
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
9
B.1.2
229
B.1 Binomialverteilung
p=0,50
0,12500
0,37500
0,37500
0,12500
0,06250
0,25000
0,37500
0,25000
0,06250
0,03125
0,15625
0,31250
0,31250
0,15625
0,03125
p=0,50
3
2
1
0
4
3
2
1
0
5
4
3
2
1
0
k
10
k
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10
p=0,20
0,26214
0,39322
0,24576
0,08192
0,01536
0,00154
0,00006
0,20972
0,36700
0,27525
0,11469
0,02867
0,00430
0,00036
0,00001
0,16777
0,33554
0,29360
0,14680
0,04588
0,00918
0,00115
0,00008
0,00000
0,13422
0,30199
0,30199
0,17616
0,06606
0,01652
0,00275
0,00029
0,00002
0,00000
0,10737
0,26844
0,30199
0,20133
0,08808
0,02642
0,00551
0,00079
0,00007
0,00000
p=0,80
p=0,25
0,17798
0,35596
0,29663
0,13184
0,03296
0,00439
0,00024
0,13348
0,31146
0,31146
0,17303
0,05768
0,01154
0,00128
0,00006
0,10011
0,26697
0,31146
0,20764
0,08652
0,02307
0,00385
0,00037
0,00002
0,07508
0,22525
0,30034
0,23360
0,11680
0,03893
0,00865
0,00124
0,00010
0,00000
0,05631
0,18771
0,28157
0,25028
0,14600
0,05840
0,01622
0,00309
0,00039
0,00003
0,00000
p=0,75
p=0,30
0,11765
0,30253
0,32413
0,18522
0,05953
0,01021
0,00073
0,08235
0,24706
0,31765
0,22689
0,09724
0,02500
0,00357
0,00022
0,05765
0,19765
0,29648
0,25412
0,13614
0,04668
0,01000
0,00122
0,00007
0,04035
0,15565
0,26683
0,26683
0,17153
0,07351
0,02100
0,00386
0,00041
0,00002
0,02825
0,12106
0,23347
0,26683
0,20012
0,10292
0,03676
0,00900
0,00145
0,00014
0,00001
p=0,70
p=0,35
0,07542
0,24366
0,32801
0,23549
0,09510
0,02048
0,00184
0,04902
0,18478
0,29848
0,26787
0,14424
0,04660
0,00836
0,00064
0,03186
0,13726
0,25869
0,27859
0,18751
0,08077
0,02175
0,00335
0,00023
0,02071
0,10037
0,21619
0,27162
0,21939
0,11813
0,04241
0,00979
0,00132
0,00008
0,01346
0,07249
0,17565
0,25222
0,23767
0,15357
0,06891
0,02120
0,00428
0,00051
0,00003
p=0,65
p=0,40
0,04666
0,18662
0,31104
0,27648
0,13824
0,03686
0,00410
0,02799
0,13064
0,26127
0,29030
0,19354
0,07741
0,01720
0,00164
0,01680
0,08958
0,20902
0,27869
0,23224
0,12386
0,04129
0,00786
0,00066
0,01008
0,06047
0,16124
0,25082
0,25082
0,16722
0,07432
0,02123
0,00354
0,00026
0,00605
0,04031
0,12093
0,21499
0,25082
0,20066
0,11148
0,04247
0,01062
0,00157
0,00010
p=0,60
p=0,45
0,02768
0,13589
0,27795
0,30322
0,18607
0,06089
0,00830
0,01522
0,08719
0,21402
0,29185
0,23878
0,11722
0,03197
0,00374
0,00837
0,05481
0,15695
0,25683
0,26266
0,17192
0,07033
0,01644
0,00168
0,00461
0,03391
0,11099
0,21188
0,26004
0,21276
0,11605
0,04069
0,00832
0,00076
0,00253
0,02072
0,07630
0,16648
0,23837
0,23403
0,15957
0,07460
0,02289
0,00416
0,00034
p=0,55
p=0,50
0,01563
0,09375
0,23438
0,31250
0,23438
0,09375
0,01563
0,00781
0,05469
0,16406
0,27344
0,27344
0,16406
0,05469
0,00781
0,00391
0,03125
0,10938
0,21875
0,27344
0,21875
0,10938
0,03125
0,00391
0,00195
0,01758
0,07031
0,16406
0,24609
0,24609
0,16406
0,07031
0,01758
0,00195
0,00098
0,00977
0,04395
0,11719
0,20508
0,24609
0,20508
0,11719
0,04395
0,00977
0,00098
p=0,50
6
5
4
3
2
1
0
7
6
5
4
3
2
1
0
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
10
9
8
7
6
5
4
3
2
1
0
k
230
B TABELLEN
n
k
n
15
20
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
p=0,20
0,03518
0,13194
0,23090
0,25014
0,18760
0,10318
0,04299
0,01382
0,00345
0,00067
0,00010
0,00001
0,00000
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
p=0,25
0,01336
0,06682
0,15591
0,22520
0,22520
0,16515
0,09175
0,03932
0,01311
0,00340
0,00068
0,00010
0,00001
0,00000
p=0,30
0,00475
0,03052
0,09156
0,17004
0,21862
0,20613
0,14724
0,08113
0,03477
0,01159
0,00298
0,00058
0,00008
0,00001
0,00000
p=0,35
0,00156
0,01262
0,04756
0,11096
0,17925
0,21234
0,19056
0,13193
0,07104
0,02975
0,00961
0,00235
0,00042
0,00005
0,00000
0,00018
0,00195
0,00998
0,03226
0,07382
0,12720
0,17123
0,18440
0,16135
0,11584
0,06861
0,03359
0,01356
0,00449
0,00121
0,00026
0,00004
0,00001
0,00000
p=0,40
0,00047
0,00470
0,02194
0,06339
0,12678
0,18594
0,20660
0,17708
0,11806
0,06121
0,02449
0,00742
0,00165
0,00025
0,00002
0,00000
0,00004
0,00049
0,00309
0,01235
0,03499
0,07465
0,12441
0,16588
0,17971
0,15974
0,11714
0,07099
0,03550
0,01456
0,00485
0,00129
0,00027
0,00004
0,00000
p=0,45
0,00013
0,00156
0,00896
0,03177
0,07798
0,14036
0,19140
0,20134
0,16474
0,10483
0,05146
0,01914
0,00522
0,00099
0,00012
0,00001
0,00001
0,00010
0,00082
0,00401
0,01393
0,03647
0,07460
0,12207
0,16230
0,17705
0,15935
0,11852
0,07273
0,03662
0,01498
0,00490
0,00125
0,00024
0,00003
0,00000
0,01153
0,05765
0,13691
0,20536
0,21820
0,17456
0,10910
0,05455
0,02216
0,00739
0,00203
0,00046
0,00009
0,00001
0,00000
0,00317
0,02114
0,06695
0,13390
0,18969
0,20233
0,16861
0,11241
0,06089
0,02706
0,00992
0,00301
0,00075
0,00015
0,00003
0,00000
0,00080
0,00684
0,02785
0,07160
0,13042
0,17886
0,19164
0,16426
0,11440
0,06537
0,03082
0,01201
0,00386
0,00102
0,00022
0,00004
0,00001
0,00000
p=0,80
p=0,75
p=0,70
p=0,65
p=0,60
p=0,55
231
B.1 Binomialverteilung
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
p=0,50
0,00003
0,00046
0,00320
0,01389
0,04166
0,09164
0,15274
0,19638
0,19638
0,15274
0,09164
0,04166
0,01389
0,00320
0,00046
0,00003
0,00000
0,00002
0,00018
0,00109
0,00462
0,01479
0,03696
0,07393
0,12013
0,16018
0,17620
0,16018
0,12013
0,07393
0,03696
0,01479
0,00462
0,00109
0,00018
0,00002
0,00000
p=0,50
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
k
n
50
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
p=0,20
0,00001
0,00018
0,00109
0,00437
0,01284
0,02953
0,05537
0,08701
0,11692
0,13641
0,13982
0,12711
0,10328
0,07547
0,04986
0,02992
0,01636
0,00818
0,00375
0,00158
0,00061
0,00022
0,00007
0,00002
0,00001
0,00000
p=0,80
p=0,25
0,00000
0,00001
0,00008
0,00041
0,00161
0,00494
0,01234
0,02586
0,04634
0,07209
0,09852
0,11942
0,12937
0,12605
0,11104
0,08884
0,06478
0,04318
0,02639
0,01482
0,00765
0,00365
0,00160
0,00065
0,00024
0,00008
0,00003
0,00001
0,00000
p=0,75
p=0,30
0,00000
0,00003
0,00014
0,00055
0,00177
0,00477
0,01099
0,02198
0,03862
0,06019
0,08383
0,10502
0,11895
0,12235
0,11470
0,09831
0,07725
0,05576
0,03704
0,02268
0,01281
0,00668
0,00322
0,00144
0,00059
0,00023
0,00008
0,00003
0,00001
0,00000
p=0,70
p=0,35
0,00000
0,00001
0,00004
0,00017
0,00058
0,00168
0,00422
0,00931
0,01823
0,03190
0,05020
0,07144
0,09233
0,10875
0,11712
0,11562
0,10485
0,08751
0,06731
0,04778
0,03132
0,01897
0,01062
0,00550
0,00263
0,00116
0,00048
0,00018
0,00006
0,00002
0,00001
0,00000
p=0,65
p=0,40
0,00000
0,00001
0,00005
0,00017
0,00053
0,00144
0,00349
0,00756
0,01474
0,02597
0,04155
0,06059
0,08079
0,09874
0,11086
0,11456
0,10910
0,09588
0,07781
0,05836
0,04046
0,02594
0,01537
0,00842
0,00426
0,00199
0,00085
0,00034
0,00012
0,00004
0,00001
0,00000
p=0,60
p=0,45
0,00000
0,00001
0,00004
0,00014
0,00043
0,00114
0,00272
0,00589
0,01157
0,02070
0,03388
0,05082
0,07002
0,08880
0,10379
0,11194
0,11150
0,10263
0,08733
0,06870
0,04997
0,03358
0,02084
0,01194
0,00630
0,00306
0,00137
0,00056
0,00021
0,00007
0,00002
0,00001
0,00000
p=0,55
p=0,50
0,00000
0,00001
0,00003
0,00011
0,00032
0,00083
0,00200
0,00437
0,00875
0,01603
0,02701
0,04186
0,05980
0,07883
0,09596
0,10796
0,11228
0,10796
0,09596
0,07883
0,05980
0,04186
0,02701
0,01603
0,00875
0,00437
0,00200
0,00083
0,00032
0,00011
0,00003
0,00001
0,00000
p=0,50
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
k
232
B TABELLEN
n
k
n
100
k
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
p=0,20
0,00000
0,00001
0,00006
0,00020
0,00058
0,00148
0,00336
0,00688
0,01275
0,02158
0,03353
0,04806
0,06383
0,07885
0,09090
0,09807
0,09930
0,09457
0,08490
0,07198
0,05773
0,04388
0,03164
0,02168
0,01413
0,00877
0,00519
0,00293
0,00158
0,00081
0,00040
0,00019
0,00009
0,00004
0,00002
0,00001
0,00000
p=0,80
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
p=0,25
0,00000
0,00001
0,00003
0,00009
0,00026
0,00063
0,00143
0,00296
0,00566
0,01003
0,01652
0,02539
0,03652
0,04930
0,06260
0,07494
0,08471
0,09059
0,09180
0,08827
0,08064
0,07008
0,05800
0,04575
0,03444
0,02475
0,01700
0,01117
0,00702
0,00422
0,00244
0,00135
0,00071
0,00036
0,00018
0,00008
0,00004
0,00002
0,00001
0,00000
p=0,75
p=0,30
0,00000
0,00001
0,00004
0,00010
0,00025
0,00056
0,00119
0,00236
0,00436
0,00758
0,01237
0,01903
0,02767
0,03804
0,04956
0,06127
0,07197
0,08041
0,08556
0,08678
0,08398
0,07761
0,06854
0,05788
0,04678
0,03620
0,02683
0,01907
0,01299
0,00849
0,00532
0,00321
0,00185
0,00103
0,00055
0,00028
0,00014
0,00007
0,00003
p=0,70
p=0,35
0,00000
0,00001
0,00003
0,00009
0,00020
0,00044
0,00090
0,00175
0,00319
0,00551
0,00901
0,01400
0,02066
0,02901
0,03878
0,04942
0,06009
0,06977
0,07741
0,08214
0,08340
0,08109
0,07552
0,06742
0,05771
0,04739
0,03734
0,02825
0,02052
0,01431
0,00959
0,00617
0,00382
0,00227
0,00130
p=0,65
p=0,40
0,00000
0,00001
0,00003
0,00006
0,00014
0,00031
0,00063
0,00121
0,00220
0,00383
0,00634
0,01001
0,01507
0,02166
0,02975
0,03908
0,04913
0,05914
0,06820
0,07538
0,07989
0,08122
0,07924
0,07421
0,06673
0,05763
0,04781
0,03811
0,02919
0,02149
0,01520
p=0,60
p=0,45
0,00000
0,00001
0,00002
0,00004
0,00009
0,00020
0,00040
0,00078
0,00143
0,00253
0,00426
0,00687
0,01060
0,01566
0,02217
0,03007
0,03911
0,04880
0,05843
0,06716
0,07412
0,07856
0,07999
0,07825
0,07356
0,06645
0,05770
p=0,55
233
B.1 Binomialverteilung
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
p=0,50
0,00000
0,00001
0,00002
0,00005
0,00011
0,00023
0,00046
0,00086
0,00156
0,00270
0,00447
0,00711
0,01084
0,01587
0,02229
0,03007
0,03895
0,04847
0,05796
0,06659
0,07353
0,07803
p=0,50
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
k
n
100
200
k
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
p=0,20
0,00000
0,00001
0,00003
0,00006
0,00013
0,00027
0,00051
0,00095
0,00167
0,00280
0,00452
0,00698
0,01035
0,01474
0,02021
0,02669
0,03397
0,04171
0,04946
0,05667
0,06280
0,06734
0,06993
p=0,80
p=0,25
0,00000
0,00001
0,00001
0,00003
0,00005
0,00011
0,00020
0,00037
0,00066
0,00112
0,00183
0,00289
0,00442
0,00653
0,00934
0,01293
p=0,75
p=0,30
0,00001
0,00001
0,00000
0,00000
0,00001
0,00002
0,00004
0,00007
0,00013
0,00024
p=0,70
p=0,35
0,00071
0,00038
0,00019
0,00009
0,00004
0,00002
0,00001
0,00000
p=0,40
0,01034
0,00676
0,00424
0,00256
0,00149
0,00083
0,00044
0,00023
0,00011
0,00005
0,00002
0,00001
0,00000
p=0,45
0,04815
0,03862
0,02978
0,02207
0,01571
0,01075
0,00707
0,00447
0,00271
0,00158
0,00088
0,00047
0,00024
0,00012
0,00006
0,00003
0,00001
0,00000
p=0,50
0,07959
0,07803
0,07353
0,06659
0,05796
0,04847
0,03895
0,03007
0,02229
0,01587
0,01084
0,00711
0,00447
0,00270
0,00156
0,00086
0,00046
0,00023
0,00011
0,00005
0,00002
0,00001
0,00000
p=0,65
p=0,60
p=0,55
p=0,50
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
k
234
B TABELLEN
n
k
n
200
k
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
p=0,20
0,07037
0,06865
0,06498
0,05969
0,05324
0,04614
0,03887
0,03184
0,02537
0,01968
0,01486
0,01092
0,00783
0,00546
0,00372
0,00247
0,00160
0,00101
0,00062
0,00037
0,00022
0,00013
0,00007
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,80
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
p=0,25
0,01735
0,02256
0,02847
0,03487
0,04148
0,04793
0,05384
0,05880
0,06247
0,06460
0,06503
0,06375
0,06089
0,05668
0,05143
0,04551
0,03928
0,03308
0,02718
0,02181
0,01708
0,01307
0,00977
0,00713
0,00509
0,00355
0,00242
0,00161
0,00105
0,00067
0,00042
0,00026
0,00015
0,00009
0,00005
0,00003
0,00002
0,00001
0,00000
p=0,75
p=0,30
0,00041
0,00068
0,00111
0,00175
0,00268
0,00398
0,00574
0,00806
0,01102
0,01464
0,01895
0,02389
0,02934
0,03511
0,04096
0,04660
0,05171
0,05599
0,05916
0,06103
0,06146
0,06045
0,05809
0,05453
0,05003
0,04486
0,03932
0,03371
0,02825
0,02316
0,01858
0,01458
0,01119
0,00841
0,00619
0,00446
0,00314
0,00217
0,00146
0,00097
0,00063
0,00040
0,00025
0,00015
0,00009
0,00005
p=0,70
p=0,35
0,00000
0,00001
0,00001
0,00002
0,00004
0,00008
0,00013
0,00023
0,00039
0,00063
0,00099
0,00153
0,00230
0,00338
0,00483
0,00673
0,00916
0,01215
0,01575
0,01993
0,02463
0,02974
0,03507
0,04043
0,04555
0,05016
0,05402
0,05690
0,05861
0,05906
0,05823
0,05617
0,05304
0,04901
0,04434
0,03927
0,03405
0,02891
0,02404
0,01958
0,01562
0,01221
0,00934
0,00701
0,00515
p=0,65
p=0,40
0,00000
0,00001
0,00001
0,00002
0,00004
0,00007
0,00012
0,00020
0,00033
0,00052
0,00082
0,00125
0,00187
0,00273
0,00390
0,00543
0,00741
0,00988
0,01288
0,01643
0,02050
0,02502
0,02988
0,03493
0,03997
0,04476
0,04908
0,05269
0,05540
0,05703
0,05751
0,05680
0,05495
0,05208
0,04836
0,04400
p=0,60
p=0,45
0,00000
0,00001
0,00002
0,00003
0,00005
0,00009
0,00015
0,00025
0,00040
0,00062
0,00095
0,00143
0,00210
0,00301
0,00422
0,00580
0,00781
0,01029
0,01328
0,01678
0,02076
0,02517
0,02988
0,03476
0,03961
0,04423
p=0,55
235
B.1 Binomialverteilung
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
p=0,50
0,00000
0,00001
0,00001
0,00002
0,00004
0,00006
0,00011
0,00017
0,00028
0,00044
0,00068
0,00103
0,00152
0,00220
0,00313
0,00436
0,00596
p=0,50
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
k
n
200
k
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
p=0,20
p=0,80
p=0,25
p=0,75
p=0,30
0,00003
0,00002
0,00001
0,00001
0,00000
p=0,35
0,00371
0,00262
0,00181
0,00123
0,00081
0,00053
0,00034
0,00021
0,00013
0,00008
0,00005
0,00003
0,00001
0,00001
0,00000
p=0,40
0,03922
0,03426
0,02933
0,02461
0,02023
0,01631
0,01288
0,00997
0,00757
0,00563
0,00410
0,00293
0,00206
0,00141
0,00095
0,00063
0,00041
0,00026
0,00016
0,00010
0,00006
0,00003
0,00002
0,00001
0,00001
0,00000
p=0,45
0,04839
0,05188
0,05451
0,05612
0,05663
0,05601
0,05429
0,05159
0,04804
0,04386
0,03925
0,03443
0,02961
0,02496
0,02063
0,01671
0,01327
0,01033
0,00788
0,00590
0,00432
0,00311
0,00219
0,00151
0,00102
0,00068
0,00044
0,00028
0,00018
0,00011
0,00006
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,70
p=0,65
p=0,60
p=0,55
p=0,50
0,00796
0,01044
0,01340
0,01686
0,02080
0,02514
0,02979
0,03459
0,03938
0,04393
0,04805
0,05152
0,05415
0,05579
0,05635
0,05579
0,05415
0,05152
0,04805
0,04393
0,03938
0,03459
0,02979
0,02514
0,02080
0,01686
0,01340
0,01044
0,00796
0,00596
0,00436
0,00313
0,00220
0,00152
0,00103
0,00068
0,00044
0,00028
0,00017
0,00011
0,00006
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,50
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
k
236
B.2
B TABELLEN
Normalverteilung
Verteilungsfunktion Φ der standardisierten Normalverteilung. Φ(−z) = 1 − Φ(z)
ϕ
Φ(z)
ϕ(z)
z
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
Φ(z)
0,50000
0,50399
0,50798
0,51197
0,51595
0,51994
0,52392
0,52790
0,53188
0,53586
0,53983
0,54380
0,54776
0,55172
0,55567
0,55962
0,56356
0,56749
0,57142
0,57535
0,57926
0,58317
0,58706
0,59095
0,59483
0,59871
0,60257
0,60642
0,61026
0,61409
0,61791
0,62172
0,62552
z
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,48
0,49
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
Φ(z)
0,62930
0,63307
0,63683
0,64058
0,64431
0,64803
0,65173
0,65542
0,65910
0,66276
0,66640
0,67003
0,67364
0,67724
0,68082
0,68439
0,68793
0,69146
0,69497
0,69847
0,70194
0,70540
0,70884
0,71226
0,71566
0,71904
0,72240
0,72575
0,72907
0,73237
0,73565
0,73891
0,74215
z
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
Φ(z)
0,74537
0,74857
0,75175
0,75490
0,75804
0,76115
0,76424
0,76730
0,77035
0,77337
0,77637
0,77935
0,78230
0,78524
0,78814
0,79103
0,79389
0,79673
0,79955
0,80234
0,80511
0,80785
0,81057
0,81327
0,81594
0,81859
0,82121
0,82381
0,82639
0,82894
0,83147
0,83398
0,83646
z
0,99
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
Φ(z)
0,83891
0,84134
0,84375
0,84614
0,84849
0,85083
0,85314
0,85543
0,85769
0,85993
0,86214
0,86433
0,86650
0,86864
0,87076
0,87286
0,87493
0,87698
0,87900
0,88100
0,88298
0,88493
0,88686
0,88877
0,89065
0,89251
0,89435
0,89617
0,89796
0,89973
0,90147
0,90320
0,90490
z
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
Φ(z)
0,90658
0,90824
0,90988
0,91149
0,91308
0,91466
0,91621
0,91774
0,91924
0,92073
0,92220
0,92364
0,92507
0,92647
0,92785
0,92922
0,93056
0,93189
0,93319
0,93448
0,93574
0,93699
0,93822
0,93943
0,94062
0,94179
0,94295
0,94408
0,94520
0,94630
0,94738
0,94845
0,94950
237
B.2 Normalverteilung
z
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
2,00
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
2,10
2,11
Φ(z)
0,95053
0,95154
0,95254
0,95352
0,95449
0,95543
0,95637
0,95728
0,95818
0,95907
0,95994
0,96080
0,96164
0,96246
0,96327
0,96407
0,96485
0,96562
0,96638
0,96712
0,96784
0,96856
0,96926
0,96995
0,97062
0,97128
0,97193
0,97257
0,97320
0,97381
0,97441
0,97500
0,97558
0,97615
0,97670
0,97725
0,97778
0,97831
0,97882
0,97932
0,97982
0,98030
0,98077
0,98124
0,98169
0,98214
0,98257
z
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
2,20
2,21
2,22
2,23
2,24
2,25
2,26
2,27
2,28
2,29
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,44
2,45
2,46
2,47
2,48
2,49
2,50
2,51
2,52
2,53
2,54
2,55
2,56
2,57
2,58
Φ(z)
0,98300
0,98341
0,98382
0,98422
0,98461
0,98500
0,98537
0,98574
0,98610
0,98645
0,98679
0,98713
0,98745
0,98778
0,98809
0,98840
0,98870
0,98899
0,98928
0,98956
0,98983
0,99010
0,99036
0,99061
0,99086
0,99111
0,99134
0,99158
0,99180
0,99202
0,99224
0,99245
0,99266
0,99286
0,99305
0,99324
0,99343
0,99361
0,99379
0,99396
0,99413
0,99430
0,99446
0,99461
0,99477
0,99492
0,99506
z
2,59
2,60
2,61
2,62
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,70
2,71
2,72
2,73
2,74
2,75
2,76
2,77
2,78
2,79
2,80
2,81
2,82
2,83
2,84
2,85
2,86
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,94
2,95
2,96
2,97
2,98
2,99
3,00
3,01
3,02
3,03
3,04
3,05
Φ(z)
0,99520
0,99534
0,99547
0,99560
0,99573
0,99585
0,99598
0,99609
0,99621
0,99632
0,99643
0,99653
0,99664
0,99674
0,99683
0,99693
0,99702
0,99711
0,99720
0,99728
0,99736
0,99744
0,99752
0,99760
0,99767
0,99774
0,99781
0,99788
0,99795
0,99801
0,99807
0,99813
0,99819
0,99825
0,99831
0,99836
0,99841
0,99846
0,99851
0,99856
0,99861
0,99865
0,99869
0,99874
0,99878
0,99882
0,99886
z
3,06
3,07
3,08
3,09
3,10
3,11
3,12
3,13
3,14
3,15
3,16
3,17
3,18
3,19
3,20
3,21
3,22
3,23
3,24
3,25
3,26
3,27
3,28
3,29
3,30
3,31
3,32
3,33
3,34
3,35
3,36
3,37
3,38
3,39
3,40
3,41
3,42
3,43
3,44
3,45
3,46
3,47
3,48
3,49
3,50
3,51
3,52
Φ(z)
0,99889
0,99893
0,99896
0,99900
0,99903
0,99906
0,99910
0,99913
0,99916
0,99918
0,99921
0,99924
0,99926
0,99929
0,99931
0,99934
0,99936
0,99938
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
0,99952
0,99953
0,99955
0,99957
0,99958
0,99960
0,99961
0,99962
0,99964
0,99965
0,99966
0,99968
0,99969
0,99970
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
0,99977
0,99978
0,99978
z
3,53
3,54
3,55
3,56
3,57
3,58
3,59
3,60
3,61
3,62
3,63
3,64
3,65
3,66
3,67
3,68
3,69
3,70
3,71
3,72
3,73
3,74
3,75
3,76
3,77
3,78
3,79
3,80
3,81
3,82
3,83
3,84
3,85
3,86
3,87
3,88
3,89
3,90
3,91
3,92
3,93
3,94
3,95
3,96
3,97
3,98
3,99
Φ(z)
0,99979
0,99980
0,99981
0,99981
0,99982
0,99983
0,99983
0,99984
0,99985
0,99985
0,99986
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
0,99989
0,99990
0,99990
0,99990
0,99991
0,99991
0,99992
0,99992
0,99992
0,99992
0,99993
0,99993
0,99993
0,99994
0,99994
0,99994
0,99994
0,99995
0,99995
0,99995
0,99995
0,99995
0,99996
0,99996
0,99996
0,99996
0,99996
0,99996
0,99997
0,99997
239
INDEX
Index
A
Abbildungen 17, 221
-, bijektive 20
-, injektive 18
- mit vorgegebenen Urbildmengen 21, 24
abhängige Zufallsgrößen 137
absolute Häufigkeit 33, 169
absorbierende Markowkette 154
- absorbierender Zustand 154
Additionssatz
- für Wahrscheinlichkeiten 43
- für Mittelwerte 141
- für Varianzen unabhängiger Zufallsgrößen
144
α-Fehler 176
allgemeine Normalverteilung 112, 223
Anfangsverteilung 151
Anlaufvektor 151
Anordnung 220
a posteriori Wahrscheinlichkeit 57
Approximation
- der Binomialverteilung durch die Normalverteilung 121, 221, 223
- der Binomialverteilung durch die Poissonverteilung 91, 221
- der hypergeometrischen Verteilung durch
die Binomialverteilung 91, 222
a priori Wahrscheinlichkeit 57
asymmetrische Irrfahrt 165
Aussagekraft einer Schätzung 201, 209
Axiomensystem für eine Ereignisalgebra 36
Axiomensystem von Kolmogoroff 36
B
Baumdiagramm 13, 52, 55
Bayes, Thomas (1702-1761)
-, Satz von 56
bedingte Wahrscheinlichkeit 50
Bernoulli, Daniel (1700-1782) 79
Bernoulli, Jakob (1654-1705) 11, 32, 80
Bernoulli-Eulersches Problem der vertauschten
Briefe 47
Bernoullisches Gesetz der großen Zahlen 85
Bernoullisches Versuchsschema 65
Bernoulliverteilung 80
Bernstein, Sergei (1880-1968) 35
Bertrand, Joseph (1822-1900)
-, Paradoxon von 40
β-Fehler 176
Binomialfunktion 80
Binomialkoeffizienten 8, 21, 23, 88
Binomialverteilung 66, 80, 221
-, Approximation durch die Poissonverteilung 91, 221,
-, Normalapproximation 97, 121 221, 223
-, Tabelle 224
Boltzmann, Ludwig (1844-1906) 32, 30
Bose-Einstein-Aufteilung 31
Bridge 26
Buffon, George Louis Comte de (1707-1788) 86
-, Nadelproblem von 39
C
Cardano, Geronimo (1501-1576) 7, 16
Covarianz s. Kovarianz
D
Dichte 100
- der relativen Häufigkeiten 99
-, gemeinsame 129
diskrete Verteilungen (Übersicht) 221
diskrete Zufallsgröße 68
-, zweidimensionale 124
diskreter Wahrscheinlichkeitsraum 37
diskreter Zufallsvektor 124
E
einseitiger Test 177
Elementarereignis 10, 36
empirischer Median 172
empirische Varianz 170
Entscheidungsvorschrift 174
Ereignis 10, 36
-, komplementäres 11, 43
-, sicheres 11
-, unmögliches 11, 43
Ereignisalgebra 11, 36
Ergebnis 10, 36
238
Ergebnisbäume 13
erwartungstreue Schätzfunktion 183
Erwartungswert 71, 100, 139
- Additionssatz 141
- der Binomialverteilung 81
- der Exponentialverteilung 103
- der Gleichverteilung 103
- der hypergeometrischen Verteilung 89
- nach Huygens 32
- Multiplikationssatz 145
Euler, Leonhard (1707-1783)
-, Funktion 46
-, Problem der vertauschten Briefe 47
exakter Test von Fisher 178
Exponentialverteilung 102, 223
F
faires Spiel 71
Fehler
- erster Art 176
- zweiter Art 176
Fermat, Pierre de (1601-1655) 10, 32
Fermi-Dirac-Aufteilung 31
Fisher, exakter Test von 178
Formel von Stirling 116
Fußballtoto 16
G
Galilei, Galileo (1564-1642) 12
Gauß, Carl Friedrich (1777-1855)
Gaußverteilung 112
Gebiet, kritisches 175
Geburtstagsproblem 17
Gegenhypothese 175
gemeinsame Dichte 129
gemeinsame Verteilung 125
geometrische Verteilung 38, 69, 87, 222
geometrische Wahrscheinlichkeit 39
Gesetz der großen Zahlen von Bernoulli 85
Gleichverteilung 101, 222, 223
Glockenkurve 112
Grenzwertsatz, zentraler 147
Grenzwertsätze von de Moivre und Laplace 117,
119
günstiges Spiel 71
H
Häufigkeit, absolute bzw. relative 33, 169
Hilbert, David (1862-1943) 34
Histogramm 99
homogene Markowkette 149
Huygens, Christian (1629-1695) 32
hypergeometrische Verteilung 88, 222
-, Approximation durch die Binomialverteilung 91, 222
Hypothese 175
I
identisch verteilte Zufallsgrößen 146
innerer Zustand 154
integraler Grenzwertsatz von de Moivre und
Laplace 119
Intervallschätzung 200
Irrfahrt 154
Irrfahrten auf der Geraden 163
-, asymetrische 165
-, symetrische 163
Irrtumswahrscheinlichkeit 175
J
K
Klasseneinteilung 55
klassische Wahrscheinlichkeit 11, 37
Kolmogorow, Andrej (1903-1987) 35
-, Axiomensystem von 36
Konfidenzintervall 201
-, Interpretation 203
Konfidenzniveau 201
konsistente Schätzfunktion 185
Korrelationskoeffizient 145, 215
-, Rang- 217
-, Pearsonscher Vierfelder- 218
Kovarianz 142, 214
- unabhängiger Zufallsgrößen 143
kritisches Gebiet 175
L
Laplace, Pierre Simon Marquis de (1749-1827)
11, 32
-, Grenzwertsätze 117, 119
Laplacescher Wahrscheinlichkeitsraum 37
lokaler Grenzwertsatz von de Moivre und Laplace 117
Lotto 28
240
INDEX
O
M
Markow, Andrej Andrejewitsch (1856-1922)
P
Markoweigenschaft 149
paarweise unabhängige Ereignisse 61
Markowkette 149
Pacioli, Luca (ca. 1445-1515) 6
-, absorbierende 154
Parameter 183
-, homogene 149
Pascal, Blaise (1623-1662) 5, 16, 32
Maßkorrelation 217
Pascalsches Dreieck 7
Matrix, stochastische 151
Pauli-Prinzip 31
Maximum-Likelihood-Prinzip 195
Pearson, Karl (1857-1936)
Maxwell, James C. (1831-1879) 32, 30
Pearsonscher Vierfelderkorrelationskoeffizient 218
Maxwell-Boltzmann-Modell 30
Permutationen 20
Median, empirischer 172
Petersburger Paradoxon 79
mehrdimensionale Zufallsgröße 123
Pfad 153
mehrstufiges Zufallsexperiment 13, 63
Pfadregeln 153, 154, 155
Méré, Antoine G., Chevalier de (1607-1684) 5,
Poisson, Siméon Denis (1781-1840) 91
66
Poissonverteilung 92, 222
Mises, Richard Edler von (1883-1953) 34
Populationsumfang 187
Mittelwert 71
Problem des Pacioli 6
- Additionssatz 141
Produktstichprobenraum 15
- einer Stichprobe 169
Produktwahrscheinlichkeitsraum 63
- Multiplikationssatz 145
Punktschätzung 183
Mittelwertregeln 157, 159
Q
Moivre, Abraham de (1667-1754)
-, Grenzwertsätze 117, 119
R
Moment
Rand (absorbierende Zustände) 154
- k-ter Ordnung 71, 103
Randverteilung 126, 134
- k-ter Ordnung bezüglich c 106
-, Verteilungsfunktion der 125, 134
-, zentrales 106
Rangkorrelationskoeffizient 217
Monotonieeigenschaft 43
Regressionsgerade 213
Multinomialverteilung 96
Regressionskoeffizient 214
Multiplikationssatz 51
Regressionslinie 212
- für Mittelwerte unabhängiger Zufallsgrößen
Regressionsschere 215
145
relative Häufigkeit 33, 169
Rotgrün-Farbenblindheit 197
N
Nadelproblem von Buffon 39
S
Neyman, J. 201
Satz von Bayes 56
Normalapproximation der Binomialverteilung Satz von Sylvester 45
97, 121, 221, 223
Satz von der totalen Wahrscheinlichkeit 55
Normalverteilung 112, 223
Schätzfunktion 183
-, lineare Transformation 206
-, erwartungstreue 183
-, standardisierte 115, 223
- für den Mittelwert 184
-, Summe 205
- für die Varianz 186
-, Tabelle 236
- für einen Populationsumfang 187
normierte Zufallsgröße 107
-, konsistente 185
-, Maximum-Likelihood- 195
Nullhypothese 175
241
INDEX
Schätzintervall 201
Schätzung
- des Erwartungwertes einer Normalverteilung 204
- eines Populationsumfangs 187
Schätzwert 183
Schiefe einer Verteilung 108
Sicherheit, statistische 176
Sicherheitswahrscheinlichkeit 201
σ-Additivität 36
σ-Algebra 36
Signifikanzniveau 175
Sitzordnung 19
Skat 26
Smoluchowski, M.V. (1872-1917) 32
Spannweite einer Stichprobe 168
Standardabweichung 74, 106
standardisierte Normalverteilung 115, 223
standardisierte Zufallsgröße 107
statistische Sicherheit 176
statistische Wahrscheinlichkeit 33
stetige Verteilungen (Übersicht) 223
stetige Zufallsgröße 100
-, zweidimensionale 129
Stichprobe 167
Stichprobenfehler 185
Stichprobenmittel 184
Stichprobenraum 10, 36
-, diskreter 37
-, Produkt- 63
Stichprobenvarianz 170, 186
Stichprobenwert 167
Stifel, Michael (1487-1567) 16
Stirling, James (1692-1770)
-, Formel von 116
stochastische Matrix 151
Streuung 74, 106
Summe normalverteilter Zufallsgrößen 205
Sylvester, James Joseph (1814-1897)
-, Satz von 45
symmetrische Irrfahrt 163
T
Tabelle
-, der Binomialverteilung 224
-, der Normalverteilung 236
Tartaglia, Niccolò (ca. 1500-1557) 6
Teilmengen 220
Testen einer Hypothese 174
-, einseitiges 177
-, zweiseitiges 175
totale Wahrscheinlichkeit 55
Tschebyschew, Pafnutij Lwowitsch (1821-1894)
-, Ungleichung von 109
Tupelbildung 220
U
Übergangsmatrix 150
Übergangswahrscheinlichkeit 149
unabhängige Ereignisse 61
-, n = 2 50, 59
-, paarweise 61
unabhängige Zufallsexperimente 15, 63
unabhängige Zufallsgrößen 136, 137, 143
Ungleichung von Tschebyschew 109
ungünstiges Spiel 71
V
Vandermonde, Alexandre (1735-1796) 88
Vandermondesche Konvolution 88
Varianz 74, 106
- Additionssatz 144
- der Binomialverteilung 81
- der Exponentialverteilung 107
- der Gleichverteilung 107
- der hypergeometrischen Verteilung 89
-, empirische 170
-, Stichproben- 170
- von Summen von Zufallsgrößen 143
Verbrecherfang 20
verdächtiges Ergebnis 176
vertauschte Briefe 47
Verteilen (Übersicht) 220
Verteilung 68
-, Binomial- 80, 221, 224
-, Exponential- 102, 223
-, gemeinsame 124
-, geometrische 38, 69, 87, 222
-, Gleich- 101, 222, 223
-, hypergeometrische 88, 222
-, Multinomial- 96
-, Normal- 112, 223, 236
-, Poisson- 92, 222
Verteilungsfunktion 74, 100
242
- der Randverteilung 125, 134
- eines Zufallsvektors 126, 129
Verwerfen der Nullhypothese 175
Vierfelderkorrelationskoeffizient 218
Vierfeldertafel 178
Vorzeichentest 181
W
Wahl 23
Wahrscheinlichkeit
- a posteriori 57
- a priori 57
-, bedingte 50
-, geometrische 39
-, klassische 11, 37
-, statistische 33
-, totale 55
Wahrscheinlichkeitsbelegung 36
Wahrscheinlichkeitsdichte 100
- eines Zufallsvektors 129
Wahrscheinlichkeitsfunktion 68
- eines Zufallsvektors 125
Wahrscheinlichkeitsraum 36
-, diskreter 37
-, Laplacescher 37
-, Produkt- 63
Wahrscheinlichkeitsvektor 152
Wahrscheinlichkeitsverteilung 68
- eines Zufallsvektors 125
X
Y
Z
zentrale Momente 106
zentraler Grenzwertsatz 147
Zentralwert einer Stichprobe 172
Ziehen
- mit Zurücklegen mit Berücksichtigung der
Reihenfolge 17
- mit Zurücklegen ohne Berücksichtigung
der Reihenfolge 23
- ohne Zurücklegen mit Berücksichtigung
der Reihenfolge 19
- ohne Zurücklegen ohne Berücksichtigung
der Reihenfolge 23
- Übersicht 220
INDEX
Zufallsexperiment 12
-, mehrstufiges 13, 63
Zufallsgeräte 12
Zufallsgrößen 67
-, diskrete 68
-, diskrete zweidimensionale 124
-, identisch verteilte 146
-, lineare Transformation normalverteilter
206
-, standardisierte 107
-, stetige 100
-, stetige zweidimensionale 129
-, Summe normalverteilter 205
-, unabhängige 136, 137, 143
Zufallsvariable 67
Zufallsvektor 123
Zustand 149
-, absorbierender 154
-, innerer 154
-, lokaler 149
Zustandsraum 149
Zuverlässigkeit einer Schätzung 209
zweiseitiger Test 175
Herunterladen