Grundlagen der Stochastik

Werbung
Grundlagen der Stochastik
In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen
von PD Dr. Fiebig im Wintersemester 2007/2008
Kirsten Bolze
Göttingen, [email protected]
Frank Werner
Göttingen, [email protected]
2
Inhaltsverzeichnis
Inhaltsverzeichnis
Inhaltsverzeichnis
2
Literatur
4
Vorwort
5
1 Grundbegriffe
1.1 Einführung . . . . . . . . . . . . . . . . . . .
1.1.1 Mengentheoretische Verknüpfungen . .
1.1.2 Relative Häufigkeiten . . . . . . . . .
1.1.3 Axiomatik nach Kolmogoroff (1939) .
1.2 Laplace Experimente . . . . . . . . . . . . . .
1.3 Allgemeine diskrete Wahrscheinlichkeitsräume
1.4 Siebformeln . . . . . . . . . . . . . . . . . . .
1.4.1 Allgemeine Siebformeln . . . . . . . .
1.4.2 Die Bonferroni-Ungleichungen . . . . .
1.4.3 Anwendung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
7
7
8
8
11
13
15
15
17
20
2 Kombinatorik
2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . .
2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) . . . . . . .
2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung)
2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
26
26
27
28
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
3.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . .
3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . .
3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
33
38
40
43
45
4 Zufallsvariablen, Verteilungen
4.1 Zufallsvariablen . . . . . . . . . . . . . . . .
4.1.1 Unabhängigkeit von Zufallsvariablen
4.2 Verteilungen . . . . . . . . . . . . . . . . . .
4.2.1 Eigenschaften der Possionverteilung
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
und -funktionen
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
51
56
59
5 Kenngrößen von Verteilungen
5.1 Der Erwartungswert . . . . . . . . . . . . . . .
5.1.1 Erwartungswerte einiger Verteilungen .
5.1.2 Eigenschaften des Erwartungswertes . .
5.1.3 Produktformel . . . . . . . . . . . . . .
5.2 Varianzen . . . . . . . . . . . . . . . . . . . . .
5.2.1 Varianzen einiger diskreter Verteilungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
60
62
64
65
69
6 Wahrscheinlichkeitsungleichungen und das SGGZ
6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
72
73
74
7 Faltung, bedingte Verteilungen und Korrelation
7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . .
7.1.2 Faltungen einiger wichtiger Verteilungen . . . . .
7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . .
7.2.1 Der bedingte Erwartungswert . . . . . . . . . . .
7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . .
7.2.3 Anwendung der iterierten Erwartung . . . . . . .
7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)
7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
78
78
80
82
82
83
84
85
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
3
8 Erzeugende Funktion und Verzweigungsprozesse
8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . .
8.1.1 Modellbildung . . . . . . . . . . . . . . . .
8.1.2 Motivation . . . . . . . . . . . . . . . . . .
8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . .
.
.
.
.
87
92
92
92
92
9 Grenzwertsatz von de Moivre-Laplace
9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . .
9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . .
95
95
98
99
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Allgemeine Modelle und stetige Verteilungen
10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . .
10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen
10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . .
10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
10.8 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . .
10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . .
10.10.1 Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.10.2 Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
100
100
102
104
105
105
106
106
107
108
108
108
111
114
117
122
125
125
126
127
11 Markov-Ketten mit endlichem Zustandsraum
11.1 Steuerung der Sprünge: Übergangsmatrizen und -graphen . . . .
11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . .
11.1.2 Die Periode einer Übergangsmatrix . . . . . . . . . . . . .
11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten
11.3 Invariante Maße und Konvergenzsätze . . . . . . . . . . . . . . .
11.4 Rückkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . .
11.4.1 Der Rückkehrzeitensatz . . . . . . . . . . . . . . . . . . .
11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . .
11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
133
133
135
136
139
140
141
146
147
150
150
152
12 Schätzer und statistische Tests
12.1 Punktschätzer . . . . . . . . . . .
12.1.1 ML-Schätzer . . . . . . .
12.1.2 Erwartungstreue Schätzer
12.2 Statistische Tests . . . . . . . . .
12.2.1 Der einseitige Gaußtest .
12.2.2 Der t-Test . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
154
154
155
156
159
161
162
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Tabelle der Standardnormalverteilung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
B Kenngrößen der wichtigsten Verteilungen
164
B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Stichwortverzeichnis
166
4
Literatur
Literatur
[Dehling/Haupt] Herold Dehling, Beate Haupt : Einführung in die Wahrscheinlichkeitstheorie und
Statistik
Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X
[Krengel] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik
Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5
Vorwort
5
Vorwort
Dieses Skript ist unter einigem Arbeitsaufwand während der Vorlesung Grundlagen der Stochastik“ von
”
PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universität Göttingen entstanden.
Der Begriff der Stochastik umfasst heutzutage die Unterbegriffe der Wahrscheinlichkeitstheorie und der
Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium
wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, während die Statistik sich mit
der Analyse und Modellierung von Datenstrukturen befasst. Die Ursprünge der Stochastik als Wissenschaft gehen auf das Glücksspiel (Würfeln, Kartenspiel etc.) zurück und liegen etwa um 1630. Als erste
stellten Menschen wie Pascal oder Fermat Fragen wie Was ist wahrscheinlicher? Bei vier Würfen mit
”
einem Würfel eine 6 oder bei 24 Würfen mit zwei Würfeln eine Doppel-6 zu haben?“
Der Begriff der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprägt.
Die axiomatische Einführung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff.
Heutzutage findet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualitätskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Prämien oder
in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse.
In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus
Prognosen für die Daten getätigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geprüft und neue Modelle geschaffen werden.
Es handelt sich hierbei ausdrücklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer
wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten für
das Verständnis aufwerfen wird.
Göttingen, 23. Januar 2009
Kirsten Bolze, Frank Werner
6
1 Grundbegriffe
Motivation
Zur Motivation wollen wir zwei Beispiele für stochastische Modelle angeben.
• Europäische Call-Option
Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen
zu können. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?
Eine mögliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines
stochastischen Modells zur Entwicklung der Preisentwicklung gegeben:
√ C = S(0) · Φ (ω) − k · exp (−r) · Φ ω − σ t1
Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und σ die Voluntarität
(Schwankung) des Marktes. ω ist gegeben als
k
rt1 + σ 2 t21 − log S(0)
√
ω=
σ t1
und Φ ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.
Φ (ω) =
Zω
−∞
2
x
1
√ exp −
dx
2
2π
Für dieses Modell wurde 1997 der Nobelpreis für Ökonomie verliehen.
• Spracherkennung
Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Für jedes Wort wi in der deutschen Sprache
sei Wi das Ereignis
w wurde gesprochen“
” i
Gesucht ist nun das Wort wi , das der Sprecher tatsächlich gesagt hat, d.h. mit unserem Modell das
Wort wi , für welches
P (wi | A)
am größten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.Ä. durchlaufen,
um alle Wörter der deutschen Sprache abzudecken.
Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet für jedes (!) i mit Hilfe stochastischer Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zusätzlich
die relative Häufigkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen
wir die Bayes-Formel
P (A | wi ) · P (Wi )
P (wi | A) = 100.000
P
P (A | wk ) · P (Wk )
k=1
Der Nenner dieses Ausdrucks hängt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn
P (A | wi ) · P (Wi ) maximal ist.
1
Grundbegriffe
1.1 Definition:
Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist.
Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.
1 Grundbegriffe
1.1
7
Einführung
1.2 Definition:
Ein diskreter Grundraum Ω = {ω1 , ω2 , ...} ist eine nicht leere, abzählbare (oder endliche) Menge.
Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis.
Beispiel 1.3:
Für einen Würfelwurf mit einem Würfel wäre Ω = {1, 2, 3, 4, 5, 6}. 5 ∈ Ω entspricht dann dem Ergebnis
5 wurde geworfen“ und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gewürfelt“.
”
”
1.4 Definition:
Sei Ω ein diskreter Grundraum. Wir nennen
• Ω ⊆ Ω das sichere Ereignis und
• ∅ ⊆ Ω das unmögliche Ereignis.
1.1.1
Mengentheoretische Verknüpfungen
Beispiel 1.5:
Wir betrachten einen zweifachen Würfelwurf. Ein geeigneter Grundraum hier ist
2
Ω = {1, 2, 3, 4, 5, 6) × {1, 2, 3, 4, 5, 6) = {1, 2, 3, 4, 5, 6} = {(i, j) | i, j ∈ N, 1 ≤ i, j ≤ 6}
Wir betrachten die Ereignisse
A =
Beim ersten Wurf wird eine 6 gewürfelt“
”
A = Beim zweiten Wurf wird eine 3 gewürfelt“
”
Diese Ereignisse entsprechen dann den Teilmengen
A = {(6, i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω
und
B = {(j, 3) | j ∈ N, 1 ≤ j ≤ 6}
Dann ist A ∩ B = {(6, 3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass
im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt.
1.6 Definition:
Sei Ω ein diskreter Grundraum und seien Ai , i ∈ N sowie A, B Ereignisse. Dann entsprechen
•
”
A und B treten ein“ dem Ereignis A ∩ B
•
”
A oder B treten ein“ dem Ereignis A ∪ B
•
”
Jedes der Ai , i ∈ N ist eingetreten“ dem Ereignis
•
”
Mindestens eins der Ai , i ∈ N ist eingetreten“ dem Ereignis
•
”
A ist nicht eingetreten“ dem Ereignis Ac := Ω \ A.
T
Ai
i∈N
S
Ai
i∈N
Man kann sich mittels Venn-Diagrammen gut Verknüpfungen von Ereignissen verdeutlichen.
1.7 Definition:
Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h.
i 6= j ⇒ Ai ∩ Aj = ∅
Dann schreiben wir auch
[
i∈N
Ai =:
X
i∈N
Ai
8
1 Grundbegriffe
1.1.2
Relative Häufigkeiten
Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafür sind sogenannte
relative Häufigkeiten:
1.8 Definition:
Sei Ω0 ein diskreter Grundraum. Die relative Häufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von
Relationen ω1 , ω2 , ..., ωn aus gleichwertigen Experimenten ist definiert als
rn (A) :=
1
# {j = 1, ..., n | ωj ∈ A}
n
Beispiel 1.9:
Bei 300 Würfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1“
”
das Ergebnis Spitze nach oben“ und 0“ das Ergebnis Kopf nach oben“. Dann ist
”
”
”
Ω := {0, 1}
300
= {(ω1 , ..., ω300 ) | ωi ∈ {0, 1} ∀ 1 ≤ i ≤ 300}
ein geeigneter Grundraum für dieses Experiment. Außerdem setzt man Ω0 := {0, 1} als den Grundraum
für einen einfachen Wurf der Reißzwecke fest. Entsprechend ist für n = 300 also
Ω = Ωn0
und es gilt rn ({1}) =
1
300
· 124.
Wir wollen nun einige offensichtliche Eigenschaften relativer Häufigkeiten in einem Lemma festhalten:
1.10 Lemma:
Es gelten die folgenden Relationen:
• 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0 .
• rn (Ω0 ) = 1.
• rn (A + B) = rn (A) + rn (B) für A, B ⊆ Ω mit A ∩ B = ∅.
/ ∞ gegen die Wahrscheinlichkeit P (A)
Die Idee ist nun, dass die relativen Häufigkeiten rn (A) für n
eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die
relativen Häufigkeiten für immer größer werdendes n stabilsieren. Um diese Aussage auch beweisen zu
können, brauchen wir nun eine geeignete Axiomatik.
1.1.3
Axiomatik nach Kolmogoroff (1939)
1.11 Definition:
Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei Ω ein diskreter Grundraum und
P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfüllt:
(A1) Positivität
Es gilt P (A) ≥ 0 für alle A ⊆ Ω.
(A2) Normiertheit
Es gilt P (Ω) = 1.
(A3) σ-Additivität
Für jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... ⊆ Ω gilt
!
∞
∞
X
X
P (Ai )
P
Ai =
i=1
i=1
P heißt Wahrscheinlichkeitsmaß oder auch (Wahrscheinlichkeits-)Verteilung auf Ω. P (A) ist die
Wahrscheinlichkeit des Ereignisses A ⊂ Ω.
1 Grundbegriffe
9
Folgerung 1.12 (Rechenregeln):
(R1) Es ist P (∅) = 0.
(R2) Es gilt Additivität, d.h.
n
X
P
Ai
i=1
!
=
n
X
P (Ai )
i=1
für endlich viele paarweise disjunkte Mengen A1 , ..., An .
Beweis:
(R1) Setze Ai = ∅ für i = 1, 2, 3, .... Dann gilt
R ∋ P (∅) = P
∞
[
Ai
i=1
!
(A3)
=
∞
X
P (Ai ) =
∞
X
P (∅)
i=1
i=1
Aus der Konvergenz der Summe folgt P (∅) = 0.
(R2) Setze in (A3) Ai = ∅ für i > n und benutze (R1).
In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erhält, empirisch verifiziert werden.
Beim Wurf der Reißzwecke setzt man z.B. Ω = {0, 1}, P (1) = 0.4 und P (0) = 0.6 (wobei 1 Spitze oben“
”
bedeutet) und bestätigt sich dies so in unserem Versuch mit 300 Würfen, denn
r300 (1) =
124
176
≈ 0.4 und r300 (0) =
≈ 0.6
300
300
1.13 Definition:
Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit
Ac := Ω \ A
Wir erinnern uns an die de Morgan’schen Regeln:
1.14 Hilfssatz:
Für zwei Mengen M und N gelten:
Mc ∪ Nc
Mc ∩ Nc
=
=
(M ∩ N )
c
(1.1)
c
(M ∪ N )
(1.2)
Beweis:
Sei x ∈ M c ∪ N c . Dann gilt sicherlich entweder x ∈ M c oder x ∈ N c (oder beides), d.h. x ∈
/ M oder
x∈
/ N (oder beides). Daher ist x ∈
/ M ∩ N und daher
x ∈ (M ∩ N )
c
c
Ist andersherum x ∈ (M ∩ N ) , so ist x ∈
/ M ∩ N und daher entweder x ∈
/ N oder x ∈
/ M (oder beides).
Entsprechend gilt sicherlich x ∈ M c oder x ∈ N c was (1.1) zeigt.
Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x ∈
/ M und x ∈
/ N . Daher gilt auch x ∈
/ M ∪ N und
entsprechend
c
x ∈ (M ∪ N )
c
Ist andersherum x ∈ (M ∪ N ) , so ist x ∈
/ M ∪ N , also x ∈
/ M und x ∈
/ N . Das hat aber x ∈ M c und
x ∈ N c zur Folge und daher gilt
x ∈ Mc ∩ Nc
Das zeigt (1.2).
Bemerkung 1.15:
Natürlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und
Schnitte. Sind Ai , i ∈ N Mengen, so gilt:
!c
∞
∞
[
\
c
Ai =
(1.3)
Ai
i=1
∞
\
i=1
i=1
Aci
=
∞
[
i=1
Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.
Ai
!c
(1.4)
10
1 Grundbegriffe
1.16 Lemma (weitere Rechenregeln):
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum. A, B und Ai seien Ereignisse für i ∈ N. Dann gilt:
(R3) P (A) = 1 − P (Ac )
(R4) P (A) ≤ 1 für alle A ⊂ Ω
(R5) P (A \ B) = P (A) − P (B) falls B ⊂ A
(R6) P (B) ≤ P (A), wenn B ⊂ A
(Monotonie)
(R7) Für beliebige endliche oder unendliche Folgen A1 , A2 , A3 , ... gilt
!
X
[
P
P (Ai )
Ai ≤
(Boole’sche Ungleichung)
i
i
(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt
(Stetigkeit von unten)
P
∞
[
Ai
!
Ai
!
i=1
(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt
= lim P (Ai )
i→∞
(Stetigkeit von oben)
P
∞
\
i=1
= lim P (Ai )
i→∞
Beweis:
Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt:
(A2)
(R2)
(R3) Es gilt Ω = A ∪ Ac mit A, Ac disjunkt und damit 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ).
Durch Umstellen erhält man P (A) = 1 − P (Ac ).
(A1)
(R4) Da P (Ac ) ≥ 0 folgt mit (R3) P (A) = 1 − P (Ac ) ≤ 1.
(R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \ B) + P (B).
(A1)
(R6) Nach Rechenregel (R3) ist P (B) = P (A) − P (A \ B). Außerdem ist P (A \ B) ≥ 0 und es folgt die
Behauptung.
(R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 ∪ A2 ), ... d.h.
Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1 ) für n ∈ N
Die Bi sind paarweise disjunkt und Bi ⊂ Ai für alle i ∈ N. Es gilt also
[
X
Ai
Bi =
i∈N
i∈N
und damit
P
[
i∈N
Ai
!
X
=P
i∈N
Bi
!
(A3)
=
X
i∈N
(R4)
P (Bi ) ≤
X
i∈N
(R8) Setze die Bi wie eben. Dann gilt:
P
∞
[
i=1
Ai
!
=
∞
X
P
Bi
i=1
(A3)
=
∞
X
!
P (Bi )
i=1
=
(R2)
=
=
lim
n→∞
n
X
lim P
n→∞
P (Bi )
i=1
n
X
i=1
lim P (An )
n→∞
Bi
!
P (Ai )
1 Grundbegriffe
11
(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar
Ac1 ⊂ Ac2 ⊂ ...
Wir berechnen daher
P
∞
\
i=1
Ai
!
(1.4)
=
∞
[
P
Aci
i=1
(R3)
=
(R8)
=
(R3)
=
=
1−P
∞
[
!c !
Aci
i=1
!
1 − lim P (Aci )
i→∞
1 − 1 − lim P (A1 )
i→∞
lim P (Ai )
i→∞
was die Behauptung zeigt.
1.2
Laplace Experimente
1.17 Definition:
Ein Paar (Ω, P ) heißt Laplace-Raum, wenn
• Ω = {ω1 , ..., ωn } endlich ist und
• für alle A ⊆ Ω
P (A) =
#A
# günstige Fälle“
= ”
#Ω
# mögliche Fälle“
”
gilt.
P heißt Laplace-Verteilung oder diskrete Gleichverteilung auf Ω = {ω1 , ..., ωn }.
Bemerkung 1.18:
Sei (Ω, P ) ein Laplace-Raum. Dann ist
P ({ω}) =
1
1
= ∀ω∈Ω
#Ω
n
Beispiel 1.19:
(1) Gegeben sei ein Würfel. Wir setzen als Grundraum Ω = {1, 2, ..., 6} mit P als der Laplace-Verteilung.
Uns interessiert das Ereignis A =“gerade Zahl“ = {2, 4, 6}. Dann gilt:
P (A) =
#A
#{2, 4, 6}
1
=
=
#Ω
6
2
(2) Beim Wurf der Reißzwecke liegt kein Laplace-Raum vor, da
P (1) = 0.4 6= 0.6 = P (0)
(3) Man muss darauf achten den richtigen“ Laplace-Raum zu wählen. Beim (gleichzeitigen) Wurf
”
zweier fairer Münzen ist die Wahrscheinlichkeit des Ereignisses
B = “einmal Kopf und einmal Zahl wird geworfen“
gesucht.
Modell 1: Wir setzen Ω := {KK, KZ, ZK, ZZ} als Laplace-Raum. Das liefert
P (B) = P ({KZ, ZK}) =
#{ZK, KZ}
2
1
= =
#Ω
4
2
12
1 Grundbegriffe
Modell 2: Wir setzen Ω := {KK, KZ, ZZ} ohne Beachtung der Ordnung - das liefert
P ({KZ}) =
1
3
Dieses Ergebnis ist empirisch wiederlegbar.
(4) Summe von Augenzahlen
Es werde zwei Mal gewürfelt. Sei Am =“Die Augensumme ist m“ für m = 2, 3, ..., 12.
Unser Modell ist Ω = {1, 2, ..., 6}2 = {(i, j) | 1 ≤ i, j ≤ 6} als Laplace-Raum, d.h.
P (Am ) =
#Am
#Ω
Offenbar ist #Ω = 36. Nun ergibt sich
#A2
#A3
#A4
#A5
#A6
#A7
#A8
#A12
=
#{(1, 1)}
=
#{(1, 2), (2, 1)}
=
#{(1, 3), (2, 2), (3, 1)}
=
#{(1, 4), (2, 3), (3, 2), (4, 1)}
=
#{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
= #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}
=
#{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}
..
.
=
#{(6, 6)}
=
=
=
=
=
=
=
..
.
=
1
2
3
4
5
6
5
P (A2 )
P (A3 )
P (A4 )
P (A5 )
P (A6 )
P (A7 )
P (A8 )
1 P (A12 )
=
=
=
=
=
=
=
..
.
=
1
36
2
36
3
36
4
36
5
36
6
36
5
36
1
36
(5) Teilungsproblem des Luca Paccioli (1494)
Zwei Spieler A und B wiederholen ein faires Spiel (z.B. Münzwurf). Wer zuerst sechs Spiele gewonnen
hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist
der Einsatz gerecht aufzuteilen?
Um diese Frage zu beantworten, betrachten wir Verläufe, die zu einer Entscheidung führen. Es
ergeben sich die folgenden Modelle:
Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fällen. Damit gehen
Einsatzes an Spieler A und 14 an Spieler B.
3
4
des
Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Definition
des Laplace-Raums gehen 87 des Einsatzes an Spieler A und 81 an Spieler B.
(6) Wir werfen 10 mal eine Münze. Gesucht ist die Wahrscheinlichkeit des Ereignisses
C = “mindestens 1 mal tritt Kopf auf“
Unser Modell ist Ω := {K, Z}10 = {(a1 , ..., a10 ) | ai ∈ {K, Z}} als Laplace-Raum.
Es folgt #Ω = 1024 und wir berechnen
P (C) =
#C
#Ω
mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!
P (C) = 1 − P (C c ) = 1 −
# { Es tritt kein mal Kopf auf“}
1
1023
#C c
”
=1−
=1−
=
#Ω
#Ω
1024
1024
(7) Maxima von Augenzahlen
Es wird k mal gewürfelt. Sei m ∈ {1, 2, ..., 6} und das Ereignis Bm =“höchste Augenzahl ist m“.
Wir verwenden als Modell den Laplace-Raum
Ω := {1, ..., 6}k = {(a1 , ..., ak ) | ai ∈ {1, ..., 6}}
Für 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so
P (Am ) =
mk
#Am
= k.
#Ω
6
Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am . Die Rechenregel (R5) liefert nun
P (Bm ) = P (Am ) − P (Am−1 ) =
(m − 1)k
mk − (m − 1)k
mk
−
=
.
k
k
6
6
6k
1 Grundbegriffe
1.3
13
Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen
1.20 Lemma:
Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte
P ({ω}) , ω ∈ Ω
Beweis:
Sei A ⊆ Ω beliebig. Dann gilt
A=
[
ω∈A
{ω} =
X
ω∈A
{ω}
und diese Vereinigung ist abzählbar, da der Grundraum Ω selbst schon abzählbar ist. Es folgt aus (A3):
!
X
X
P (A) = P
{ω} =
P ({ω}) .
ω∈A
ω∈Ω
Daher ist P durch die Werte in der Voraussetzung bereits festgelegt.
Bemerkung 1.21:
Wegen (A1) und (R4) ist bereits klar, dass
0 ≤ P ({ω}) ≤ 1
für alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch
!
X
X
(A3)
P ({ω}) = P
{ω} = P (Ω)
ω∈Ω
(A2)
=
1
ω∈Ω
gelten.
Das veranlasst uns zu folgender
1.22 Definition:
/ [0, 1] mit der Eigenschaft
Sei Ω ein diskreter Grundraum. Eine Abbildung p : Ω
X
p (ω) = 1
ω∈Ω
heißt Wahrscheinlichkeitsfunktion auf Ω.
Bemerkung 1.23:
Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist
p (ω) := P ({ω})
wie oben gesehen eine Wahrscheinlichkeitsfunktion.
Beispiel 1.24:
Wir betrachten den zu einmaligem Würfeln gehörigen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion p gegeben durch
p (1) = p (2) = ... = p (6) =
1
.
6
Beispiel 1.25:
Wir betrachten wieder unser Beispiel der Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion
p ist gegeben durch
p (1) = 0.4, p (0) = 0.6.
1.26 Satz:
Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch
X
P (A) :=
p (ω) , A ⊆ Ω
ω∈A
eine Wahrscheinlichkeitsverteilung P auf Ω.
14
1 Grundbegriffe
Beweis:
Wir müssen lediglich die Axiome (A1), (A2) und (A3) prüfen.
(A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort
X
P (A) =
ω∈A
(A2) Offenbar ist
P (Ω) =
X
p (ω) ≥ 0.
| {z }
≥0
p (ω) = 1.
ω∈Ω
(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist
P
∞
X
i=1
Ai
!
=
X
ω∈
∞
P
p (ω) .
Ai
i=1
Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der
Disjunktheit der Ai :
!
∞
∞ X
∞
X
X
X
P (Ai ) .
p (ω) =
P
Ai =
i=1
i=1 ω∈Ai
i=1
Das zeigt die Behauptung.
Bemerkung 1.27:
Für diskrete Grundräume Ω haben wir also folgendes:
Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen p auf Ω lassen sich bijektiv durch
P 7→ p, p (ω) := P ({ω}) , ω ∈ Ω
ineinander abbilden.
Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen
arbeitet.
Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0, 1]
oder Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach der Wahrscheinlichkeit eines einzelnen
Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wäre stets 0.
Man stelle sich Beispielsweise einen Zufallsgenerator vor, der gleichverteilt“ Zahlen aus [0, 1] zieht. Die
”
Wahrscheinlichkeit, dass eine 0 gezogen wird, müsste dann 0 sein, aber die Summe über alle Zahlen der
Wahrscheinlichkeiten wäre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!
Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzählbare) Grundräume Ω
verallgemeinern und liefern so eine einheitliche Theorie für alle Wahrscheinlichkeitsräume.
Beispiel 1.28:
Wir können einen gefälschten Würfel modellieren durch
p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2.
Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1, 2, ..., 6}. Die zugehörige Wahrscheinlichkeitsverteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.
Beispiel 1.29:
Auf Ω = {2, 3, ..., 12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor
5 6 5
1
1 2
.
, , ..., , , , ...,
36 36
36 36 36
36
1
2
Damit ist natürlich gemeint, dass p (2) = 36
, p (3) = 36
etc. ist. Diese Wahrscheinlichkeitsfunktion definiert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Würfeln.
1 Grundbegriffe
1.4
15
Siebformeln
In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschätzen, wenn
wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω, P ) ein Wahrscheinlichkeitsraum.
1.30 Lemma:
Sind A1 , A2 ⊆ Ω Ereignisse, so gilt
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) .
Beweis:
Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2 ). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅.
Daher gilt:
P (A1 ∪ A2 )
=
(R2)
P (B1 ∪ B2 )
=
P (B1 ) + P (B2 )
=
P (A1 ) + P (A1 \ (A1 ∩ A2 ))
(R5)
=
P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) .
Das zeigt die Behauptung.
Beispiel 1.31:
Wir definieren das Ereignis A als
A:= Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 oder durch 5 teilbar“
”
Um P (A) zu berechnen definieren wir
A2 := Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 teilbar“
”
A5 := Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 5 teilbar“
”
Dann gilt A = A2 ∪ A5 , offenbar ist P (A2 ) =
P (A2 ∩ A5 )
50
100
= 21 , P (A5 ) =
20
100
=
1
5
und
= P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 und durch 5 teilbar“)
”
1
10
=
.
= P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 10 teilbar“) =
”
100
10
Nach Lemma 1.30 ist also
P (A) = P (A2 ) + P (A5 ) − P (A2 ∩ A5 ) =
1 1
1
3
+ −
= .
2 5 10
5
Sind A1 , A2 , A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel
P (A1 ∪ A2 ∪ A3 )
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) ,
wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus
den folgenden allgemeinen Siebformeln.
1.4.1
Allgemeine Siebformeln
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse, n ≥ 2. Setze
X
Sk :=
P (Ai1 ∩ ... ∩ Aik )
1≤i1 <i2 <...<ik ≤n
für 1 ≤ k ≤ n.
1.32 Satz (Siebformel von Poincare-Sylvester):
Unter obigen Voraussetzungen gilt
!
n
n
X
[
k−1
(−1)
Sk
P
Ai =
i=1
k=1
16
1 Grundbegriffe
Beweis:
Wir zeigen die Aussage durch Induktion über n.
• Induktionsanfang (I.A.):
Lemma 1.30 liefert
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) =
{z
}
| {z } |
=S1
=S2
n
X
(−1)
k−1
Sk
k=1
• Induktionsvoraussetzung (I.V.):
Gelte
n
[
P
Ai
i=1
für alle Ereignisse A1 , ..., Am ⊆ Ω.
!
n
X
=
(−1)
k−1
Sk
k=1
/ n + 1):
• Induktionsschritt (n
Wir setzen
B := A1 ∪ ... ∪ An
Dann gilt:
P
n+1
[
i=1
Ai
!
=
I.A.
=
=
P (B ∪ An+1 )
P (B) + P (An+1 ) − P (B ∩ An+1 )
!
!
!
n
n
[
[
P
Ai ∩ An+1
Ai + P (An+1 ) − P
i=1
i=1
I.V.
=
n
X
(−1)
k−1
k=1
I.V.
=
n
X
(−1)
=
1≤i1 <i2 <...<ik ≤n
n
X
1≤i1 <i2 <...<ik ≤n
(−1)
1≤i1 <i2 <...<ik ≤n
k=1
=
n
X
1≤i1 <i2 <...<ik ≤n
P (Ai ) +
1≤i≤n
−
n
X
=
−
k=1
n−1
X
k−1
k
(−1)
k=1
(−1)
P (Ai1 ∩ ... ∩ Aik ∩ An+1 )
1≤i1 <i2 <...<ik ≤n
1≤i1 <i2 <...<ik ≤n
P (Ai ) +
P ((Ai1 ∩ An+1 ) ∩ ... ∩ (Aik ∩ An+1 ))
X
k−1
X
k−1
(−1)
1≤i≤n+1
n
X
(−1)
k=2
k=1
X
n
X
(Ai ∩ An+1 )
P (Ai1 ∩ ... ∩ Aik ) + P (An+1 )
X
k−1
(−1)
k=1
X
X
k−1
i=1
X
!
P (Ai1 ∩ ... ∩ Aik ) + P (An+1 )
X
k−1
(−1)
k=1
n
X
−
X
k−1
k=1
−
Sk + P (An+1 ) − P
n
[
P (Ai1 ∩ ... ∩ Aik ) + P (An+1 )
P (Ai1 ∩ ... ∩ Aik ∩ An+1 )
X
1≤i1 <i2 <...<ik+1 ≤n
1≤i1 <i2 <...<ik ≤n
P Ai1 ∩ ... ∩ Aik+1
P (Ai1 ∩ ... ∩ Aik ∩ An+1 )
1 Grundbegriffe
17
=
n+1
X
i=1
P (Ai ) −
n−1
X
(−1)
k=1
X
+
1≤i1 <i2 <...<ik ≤n
=
n+1
X
i=1
P (Ai ) −
− (−1)
k−1
n−1
X


X
1≤i1 <i2 <...<ik+1 ≤n
(−1)
k−1
k=1


X
1≤i1 <i2 <...<ik+1 ≤n+1
P (A1 ∩ ... ∩ An )

n
n+1
X
X
k−1 
(−1)
P (Ai ) +
=
X
1≤i1 <i2 <...<ik ≤n+1
k=2
n
+ (−1) P (A1 ∩ ... ∩ An )
=
n+1
X
(−1)
k−1

n−1
P (A1 ∩ ... ∩ An )
P (Ai1 ∩ ... ∩ Aik ∩ An+1 ) − (−1)
n−1
i=1
P Ai1 ∩ ... ∩ Aik+1

P Ai1 ∩ ... ∩ Aik+1 

P (Ai1 ∩ ... ∩ Aik )
Sk
k=1
Es folgt die Behauptung.
1.4.2
Die Bonferroni-Ungleichungen
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse.
Wir beweisen hier zunächst die folgende Variante der Siebformel:
1.33 Lemma:
Es gilt
P
n
[
i=1
Ai
!
=
n
X
i=1
P (Ai ) −
Beweis:
Wir setzen B1 := A1 und für 2 ≤ k ≤ n:
Bk := Ak \
Dann gilt
k−1
[
Ai
i=1
n
[
i=1
!
n
X
i=1

P
j=1
= Ak \
Ai =
i−1
[
n
[
k−1
[
i=1

(Ai ∩ Aj )
(Ai ∩ Ak )
Bi
i=1
und die Mengen Bi sind disjunkt. Außerdem gilt wegen
k−1
[
i=1
(Ai ∩ Ak ) ⊂ Ak
auch
P (Bk ) = P (Ak ) − P
k−1
[
i=1
(Ai ∩ Ak )
!
!
(1.5)
18
1 Grundbegriffe
Damit folgt dann:
P
n
[
i=1
Ai
!
n
[
= P
i=1
=
n
X
i=1
=
n
X
i=1
=
n
X
i=1
Bi
!
P (Bi )


P (Ai ) − P 
j=1
P (Ai ) −
n
X
was die Behauptung zeigt.
Mit den Bezeichnungen
Sk :=
i−1
[
X
1≤i1 <i2 <...<ik ≤n
i=1

P

(Aj ∩ Ai )
i−1
[
j=1

(Aj ∩ Ai )
P (Ai1 ∩ ... ∩ Aik )
für 1 ≤ k ≤ n kann man jetzt folgern:
Folgerung 1.34:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse. Dann gilt für jedes m ∈
{1, ..., n} die Formel


!
i1[
−1
m
n
X
X
[
i−1
m
(1.6)
(Ai1 ∩ ... ∩ Aim ∩ Aj )
(−1)
Si + (−1)
P
P
Ai =
i=1
i=1
1≤i1 <...<im ≤n
j=1
Beweis:
Der Beweis erfolgt durch Induktion nach m ≤ n.
• Induktionsanfang (I.A.):
Das ist genau die bereits gezeigte Gleichung (1.5).
• Induktionsvoraussetzung (I.V.):
Gelte (1.6).
• Induktionsschritt (m < n, m
/ m + 1):
Wir wollen Gleichung (1.5) auf den Term


i1[
−1
(Ai1 ∩ ... ∩ Aim ∩ Aj )
P
j=1
aus der Induktionsvoraussetzung anwenden. Setze dazu für gegebene 1 ≤ j < i1 < ... < im ≤ n
Bj := Ai1 ∩ ... ∩ Aim ∩ Aj
Dann gilt:

i1[
−1
P
j=1

(Ai1 ∩ ... ∩ Aim ∩ Aj )
=
(1.5)
=

i1[
−1
P
iX
1 −1
j=1
j=1

Bj 
P (Bj ) −
iX
1 −1
j=1
P
j−1
[
k=1
(Bj ∩ Bk )
!
1 Grundbegriffe
19
iX
1 −1
=
P (Ai1 ∩ ... ∩ Aim ∩ Aj )
j=1
−
iX
1 −1
k=1
(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ai1 ∩ ... ∩ Aim ∩ Ak )
iX
1 −1
j−1
[
P
j=1
k=1
!
(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak )
Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir
!
n
[
P
Ai
i=1
I.V.
=
=
m
X
(−1)
i−1
Si + (−1)
m
1≤i1 <...<im ≤n
m
X
X
i−1
Si + (−1)
m
1≤i1 <...<im ≤n
i=1
−
=
X
i=1
(−1)
iX
1 −1
j−1
[
P
j=1
m
X
k=1
(−1)
i−1
(Ai1 ∩ ... ∩ Aim
Si + (−1)
m
X
iX
1 −1
X
m+1
(−1)
i−1
Si + (−1)


j−1
[
P
+ (−1)
X
m+1
(−1)
i−1
Si + + (−1)
j=1
j=1

i1[
−1
P
j=1
m+1
P (Ai1 ∩ ... ∩ Aim ∩ Aj )
P (Ai1 ∩ ... ∩ Aim ∩ Aj )
!
(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak )
P Ai1 ∩ ... ∩ Aim+1
{z
X
was die Behauptung zeigt.
}

P
Als einfache Folgerung erhalten wir nun
1.35 Satz (Bonferroni-Ungleichungen):
Unter den Voraussetzungen wie oben gelten:
(1) Für ungerades m ∈ {1, ..., n} gilt
P
n
[
Ai
i=1
(2) Für gerades m ∈ {1, ..., n} gilt
P
n
[
i=1
Ai

Ai1 ∩ ... ∩ Aim+1 ∩ Aj 
1≤i1 <...<im+1 ≤n
i=1

(Ai1 ∩ ... ∩ Aim ∩ Aj )
=Sm+1
1≤i1 <...<im+1 ≤n
m+1
X
k=1
1≤i1 <...<im+1 ≤n
|
i1[
−1
iX
1 −1
iX
1 −1
X
m
i=1
=
P
1≤i1 <...<im ≤n j=1
1≤i1 <...<im ≤n j=1
=

!
∩ Aj ∩ Ak ) 
X
m
i=1
+ (−1)
!
P (Ai1 ∩ ... ∩ Aim ∩ Aj )
j=1
−
P
j=1
iX
1 −1
=
j−1
[
!
≤
m
X
!
≥
m
X
i−1
Si
i−1
Si
(−1)
i=1
i=1
(−1)
i1[
−1
j=1

Ai1 ∩ ... ∩ Aim+1 ∩ Aj 
20
1 Grundbegriffe
Beweis:
Nach Definition eines Wahrscheinlichkeitsraums ist für jede Auswahl 1 ≤ i1 < ... < im ≤ n


i1[
−1
(Ai1 ∩ ... ∩ Aim ∩ Aj ) ≥ 0
P
j=1
Ist nun m ∈ {1, ..., n} ungerade, so folgt
P
n
[
Ai
i=1
!
(1.6)
=
m
X
(−1)
i−1
Si + (−1)
m
1≤i1 <...<im ≤n
i=1
=
m
X
(−1)
i−1
i=1
≤
m
X
X
(−1)
i−1
Si −
X
1≤i1 <...<im ≤n

P

P
i1[
−1
j=1
P
i=1
Ai
!
(1.6)
=
m
X
(−1)
i−1
Si + (−1)
m
X
m
X
X
m
1≤i1 <...<im ≤n
(−1)
i−1
Si +
X
1≤i1 <...<im ≤n
i=1
≥
(Ai1 ∩ ... ∩ Aim ∩ Aj )

(Ai1 ∩ ... ∩ Aim ∩ Aj )
Si
i=1
=
j=1

i=1
Ganz analog gilt für jedes gerade m ∈ {1, ..., n}, dass
n
[
i1[
−1
(−1)
i−1

P

P
i1[
−1
j=1
i1[
−1
j=1

(Ai1 ∩ ... ∩ Aim ∩ Aj )

(Ai1 ∩ ... ∩ Aim ∩ Aj )
Si
i=1
womit die Behauptung gezeigt ist.
Bemerkung 1.36:
Für m = 1 liefert das genau die in (R7) unabhängig schon gezeigte Boole’sche Ungleichung
!
n
n
X
[
P (Ai )
P
Ai ≤
i=1
1.4.3
(1.7)
i=1
Anwendung
Wir wollen hier eine Anwendung aus der Zuverlässigkeitstheorie diskutieren:
Korollar 1.37:
Mögen die Voraussetzungen von oben gelten. Sind A1 , ..., An Ereignisse mit P (Ai ) ≥ 1 − εi für Zahlen
0 ≤ εi ≤ 1, i = 1, ..., n, so gilt
!
n
n
X
\
εi
P
Ai ≥ 1 −
i=1
i=1
1 Grundbegriffe
21
Beweis:
Es gilt
P
n
\
i=1
Ai
!
(R3)
=
(1.3)
=
(1.7)
≥
(R3)
=
≥
1−P
1−P
1−
1−
1−
n
X
n
\
Ai
i=1
n
[
i=1
Aci
!c !
!
P (Aci )
i=1
n
X
i=1
n
X
i=1
(1 − P (Ai ))
(1 − 1 − εi ) = 1 −
n
X
εi
i=1
Das zeigt die Behauptung.
In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur
funktioniert, wenn alle Komponenten funktionieren. Dann ist
Ai = Die i-te Komponente ist intakt“
”
und
n
T
i=1
Ai = Das System ist intakt“
”
Man erhält so eine Abschätzung für die Sicherheit des Systems, wenn man Abschätzungen für die Sicherheit der Komponenten hat.
Beispiel 1.38:
Ist etwa P (Ai ) ≥ 0.99 für alle i = 1, ..., n, also εi = 0.01 für alle i = 1, ..., n, so ist das System immerhin
noch mit Wahrscheinlichkeit
!
n
\
n
P
Ai ≥ 1 −
100
i=1
intakt.
22
2
2 Kombinatorik
Kombinatorik
Hier wollen wir das sogenannte Urnen- und Fächermodell einführen. Dazu betrachten wir vier verschiedene Grundräume ΩI , ΩII , ΩIII , ΩIV die aus Urnen- bzw. Fächermodellen entstehen und bestimmen ihre
Kardinalitäten. In der Praxis werden ΩI , ΩII und ΩIII oft als Grundräume für Laplace-Räume benutzt,
ΩIV ist spezieller.
Beispiel 2.1:
Wir wollen Würfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer
Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem
Zurücklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus
der selben Urne mit zurücklegen etc..
Das realisiert genau Würfeln als Laplace-Raum wie bereits bekannt.
Urnenmodell I:
k-faches Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
welche die Nummern 1 bis n tragen.
Der Grundraum ist hier
ΩI = {(a1 , ..., ak ) | 1 ≤ ai ≤ n, i = 1, ..., n}
wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Es ist
#ΩI = nk
Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert
werden und verteilt diese Kugeln in n Fächer. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird
als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i“ gelandet ist. Der Grundraum
”
der Ergebnisse ist dann genau wie oben schon eingeführt
ΩI = {(a1 , ..., ak ) | 1 ≤ ai ≤ n, i = 1, ..., n}
Beispiel 2.2:
Das Fächermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfügbaren Schaltern anstellen oder in der Informatik k Jobs auf n Prozessoren verteilt werden.
Urnenmodell II:
k-faches Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
welche die Nummern 1 bis n tragen. Das ist offenbar nur für k ≤ n möglich.
Der Grundraum ist hier
ΩII = {(a1 , ..., ak ) | ai 6= aj für i 6= j und ai ∈ {1, ..., n} für i = 1, ..., k}
wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalität von ΩII
berechnet sich wie folgt:
Beim Ziehen der ersten Kugel gibt es n Möglichkeiten, beim Ziehen der zweiten Kugel n−1 Möglichkeiten
usw, daher ist
n!
=: (n)k
#ΩII = n · (n − 1) · ... · (n − k + 1) =
(n − k)!
Wir sprechen diese Zahl als n unten k“.
”
Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert
werden und verteilt diese Kugeln in n Fächer. Diesmal ist aber jeweils maximal eine Kugel pro Fach
erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i“ gelandet
”
ist.
2 Kombinatorik
23
Bemerkung 2.3 (Spezialfall):
Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII
genau die Menge aller Permutationen der Zahlen {1, ..., n}, da in den Tupeln (a1 , ..., an ) jede Zahl aus
{1, ..., n} genau einmal auftaucht. Man sieht mit obiger Formel sofort
#ΩII = (n)n = n!
Beispiel 2.4:
(1) Wir wollen die Wahrscheinlichkeit für Fixpunkte von Permutationen berechnen.
Dazu sei k = n und ΩII mit der Laplace-Verteilung versehen. Entsprechend gilt dann für jede
Permutation (a1 , ..., an ) ∈ ΩII der Menge {1, ..., n}, dass
P ({(a1 , ..., an )}) =
1
1
=
#ΩII
n!
Sei nun Ai := {(a1 , ..., an ) ∈ ΩII | ai = i} das Ereignis Die Permutation hat an der Stelle i einen
”
Fixpunkt“. Dann gilt
#Ai
(n − 1)!
1
P (Ai ) =
=
= ∀ i = 1, ..., n
#ΩII
n!
n
da Ai genau die Menge aller Permutationen von {1, ..., n} ist, welche i festhält, also nur n−1-Zahlen
aus {1, ..., n} \ {i} permutiert. Das entspricht genau einer Permutation der Zahlen
{1, ..., n} \ {i} ∼
= {1, ..., n − 1}
und deren Anzahl ist wie oben gesehen genau (n − 1)!.
(2) Eine Person probiert ihre n Schlüssel zufällig an einem Schloss durch. Nur einer der Schlüssel passt.
Sei Bi das Ereignis der i-te Schlüssel passt“. Wir bezeichnen die Schlüssel mit 1, ..., n und nehmen
”
durch Umnummerieren stets an, dass 1 der passende Schlüssel ist. Als Modell verwenden wir wieder
ΩII als Laplace-Raum. Dann ist
Bi {(a1 , ..., an ) ∈ ΩII | ai = 1}
und entsprechend
P (Bi ) =
#Bi
1
=
#ΩII
n
wie oben.
Urnenmodell III:
k-faches Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
welche die Nummern 1 bis n tragen. Das ist offenbar wieder nur für k ≤ n möglich.
Der Grundraum ist hier
ΩIII = {T ⊂ {1, ..., n} | #T = k}
Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen
i ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalität von ΩII berechnet sich mit dem Prinzip des
Schäfers:1
Will man #ΩIII durch abzählen berechnen, so erscheint dies sehr schwer. Man definiert also
f : ΩII
1 Prinzip
/ ΩIII durch f ((a1 , ..., ak )) := {a1 , ..., ak }
des Schäfers:
Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zählen. Man kann
auch die Anzahl der Beine auf der Wiese zählen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe
Ergebnis:
# Beine
= # Schafe
4
Dieses Prinzip klingt zunächst sehr abstrus, aber oben wird die enorme Mächtigkeit des Prinzips klar.
24
2 Kombinatorik
Diese Abbildung ist wohldefiniert, da wir für jedes (a1 , ..., ak ) ∈ ΩII gefordert hatten, dass die ai paarweise
verschieden sind. Man erhält als Bild unter f also tatsächlich eine k-elementige Teilmenge von {1, ..., n}.
Ganz offenbar ist f surjektiv und jede Menge {a1 , ..., ak } ∈ ΩIII (∼Schaf) hat genau k! Urbilder (∼Beine)
unter f , da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:
(n)k
1
n!
n
#ΩIII = #ΩII ·
=
=
=:
k!
k!
k! (n − k)!
k
Die Zahl nk wird auch Binomialkoeffizient“ oder n über k“ genannt.
”
”
Bemerkung 2.5 (Eigenschaften der Binomialkoeffizenten):
(1) Es gilt
n
n
=
k
n−k
(2) Der Binomische Lehrsatz besagt
n
(x + y) =
n X
n
k=0
k
xk y n−k
(3) Die Anzahl der möglichen Auswahlen
1 ≤ i1 < ... < ik ≤ n
(2.1)
- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigen
Teilmengen von {1, ..., n} (einfach die Ordnung vergessen). Daher gibt es genau
n
k
Möglichkeiten, Zahlen i1 , ..., ik wie in (2.1) auszuwählen.
Beispiel 2.6:
Ein klassisches Beispiel für das Urnenmodell III ist das gewöhnliche Lotto. Hier werden 6 Kugeln aus
49 möglichen Kugel ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen, d.h. es ist
n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T
der gezogenen Kugeln entscheidend ist.
Um die Wahrscheinlichkeit für 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhalten so für einen beliebigen festen Tip T = {a1 , ..., a6 } ⊂ {1, ..., 49} die Wahrscheinlichkeit
P (T ) =
#T
=
#ΩIII
1
49
6
=
1
13.983.816
6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich!
Jetzt wollen wir noch das zugehörige Fächermodell entwickeln.
Man betrachtet dazu die verschiedenen Möglichkeiten k nicht zu unterscheidende Kugeln auf n Fächer
zu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur
die Teilmenge der besetzten Fächer.
Urnenmodell IV:
k-faches Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge aus einer Urne mit n Kugeln,
welche die Nummern 1 bis n tragen.
Als Ergebnis notieren wir nur das Tupel (k1 , ..., kn ), wobei die Zahl ki angibt, wie oft die Kugel mit der
Nummer i gezogen wurde. Zwangsläufig gilt dann
n
X
i=1
ki = k
2 Kombinatorik
25
Der Grundraum ist also
ΩIV :=
Beispiel 2.7:
(
n
X
(k1 , ..., kn ) 0 ≤ ki ≤ k ∀ i = 1, ...n und
ki = k
i=1
)
Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor
(3, 0, 2, 4, 0, 1)
welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel
Nummer 3 usw..
Bevor wir die Kardinalität von ΩIV bestimmen wollen wir kurz das zugehörige Fächermodell vorstellen.
Man betrachte k Kugeln, die auf n Fächer verteilt werden - mit erlaubter Mehrfachbesetzung der Fächer
- und zähle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind für i = 1, ..., n.
Beispiel 2.8:
In der Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und
man nachher die Auslastung der einzelnen Schalter betrachten will.
Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen
Raum, dessen Kardinalität wir bereits kennen.
Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Länge n + k − 1. Wir betrachten jetzt 0
als eine Kugel und 1 als die Markierung für nächstes Fach“. Unter dieser Identifikation wird etwa das
”
Ergebnis (3, 0, 2, 4, 0, 1) aus Beispiel 2.7 zur Folge
000110010000110
Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von {(ai , ..., an ) | ai ∈ {0, 1} für i = 1, ..., n}
erhalten, so muss jede der Folgen genau n − 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten
wir offenbar eine Bijektion!
Eine Folge der Länge n + k − 1 mit genau n − 1 1en und k 0en ist aber bereits eindeutig durch die Auswahl
der Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen müssen 1en sein.
Daher ist
n+k−1
#ΩIV = # {T ⊂ {1, ..., n + k − 1} | #T = k} =
k
wie oben berechnet.
In Beispiel 2.7 ergibt sich also
15!
10 + 6 − 1
#ΩIV =
=
= 3003
10
10!(15 − 10)!
Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrscheinlichkeit
1
P (k1 , k2 , ..., kn ) =
≈ 0, 00033
#ΩIV
2.9 Definition:
Wir definieren den Multinomialkoeffizient als

n
P

k!
k
ki = k
falls
k
≥
0
∀
1
≤
i
≤
n,
i
k1 !·k2 !·...·kn !
:=
i=1

k1 , k2 , ..., kn
0
sonst
Bemerkung 2.10:
Für den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2 , dann gilt:
k
k!
k!
=
=
k1 , k2
k1 ! · k2 !
k1 !(k − k1 )!
2.11 Lemma:
Die Anzahl der Möglichkeiten eine Menge A der Kardinalität k in n Teilmengen A1 , ..., An mit #Ai = ki
n
P
ki = k zu zerlegen ist gegeben durch
und
i=1
k
k1 , k2 , ..., kn
=
k!
k1 ! · k2 ! · ... · kn !
26
2 Kombinatorik
Beweis:
Für A1 gibt es kk1 Möglichkeiten, Elemente auszuwählen. Dann ist #(A \ A1 ) = k − k1 und es gibt für
1
Möglichkeiten, Elemente auszuwählen. Für A3 bleiben k−kk13−k2 Möglichkeiten usw..
A2 nur noch k−k
k2
Die Gesamtzahl der Möglichkeiten A in Teilmengen der Größe k1 , ..., kn zu zerlegen beträgt also
k
k − k1 − k2 − ... − kn−1
k − k1 − k2
k − k1
· ... ·
·
·
kn
k3
k2
k1
k!
(k − k1 )!
(k − k1 − k2 )!
kn
=
·
·
· ... ·
k1 !(k − k1 )! k2 !((k − k1 − k2 )! k3 !(k − k1 − k2 − k3 )!
kn
=
k!
k1 ! · k2 ! · ... · kn !
Das zeigt die Behauptung.
Beispiel 2.12 (zum Vergleich zu Beispiel 2.7):
Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums
ΩI = {(a1 , ..., ak ) | ai ∈ 1, ..., n für 1 ≤ i ≤ k}
und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fächer
verteilt. ai ist das Fach der i-ten Kugel. Sei
Ak1 ,k2 ,...,k6 = {(a1 , ..., a6 ) | genau k1 der ai ’s sind 1, k2 der ai ’s sind 2, ..., kn der ai ’s sind 6}
Laut Lemma 2.11 ist
#Ak1 ,...,k6 =
und daher gilt
P (Ak1 ,k2 ,...,kn ) =
k
k1 , ..., k6
1
k!
·
nk k1 ! · ... · kn !
(2.2)
Einsetzen in (2.2) liefert nun
P (A3,0,2,4,0,1 ) =
P (A10,0,0,0,0,0 ) =
P (A2,2,2,2,1,1 ) =
10!
1
·
≈ 0, 0002
61 0 4! · 0! · 2! · 3! · 0! · 1!
1 10!
·
≈ 0, 000000017
610 10!
1
10!
·
≈ 0, 0037
10
6
2! · 2! · 2! · 2! · 1! · 1!
Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustände gemäß
der Laplace-Verteilung auf ΩIV .
2.1
Binomial- und Hypergeometrische Verteilung
Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N − R weiße Kugeln enthalten sind.
Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurücklegen) gezogen.
Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.
2.1.1
Ziehen mit Zurücklegen (Binomialverteilung)
Gegeben sei
ΩI = {(a1 , a2 , ..., an ) | 1 ≤ ai ≤ N }
mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er ), wobei
Er = {(a1 , a2 , ...an ) | #{i | ai ∈ {1, 2, ..., R}} = r}
Er entspricht den r roten Kugeln, anders gesagt den r Erfolgen“.
”
Wir wollen nun #Er bestimmen:
Sie I ⊂ {1, 2, ..., n} die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist
Er die disjunkte Vereinigung aller Ereignisse
EI = {(a1 , a2 , ..., an ) | ai ∈ {1, 2, ..., R} ⇔ i ∈ I}
2 Kombinatorik
27
über alle r-elementigen Teilmengen I ⊂ {1, 2, ..., n}. Für festes I ist
und es gibt
n
r
#EI = Rr · (N − R)n−r
Teilmengen I ⊂ {1, 2, ..., n} mit #I = r. Damit ist
n−r
#Er
R
1
n
n
R
· 1−
= n·
· Rr · (N − R)n−r =
·
#ΩI
N
N
N
r
r
P (Er ) =
2.13 Definition (Binomialverteilung):
Für p ∈ [0, 1] und n ∈ N heißt
n j
binn,p (j) = b(n, p, j) =
p (1 − p)n−j ,
j
0≤j≤n
die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n.
Beispiel 2.14 (Münzwurf ):
n-maliges Werfen einer Münze ist wie Ziehen mit Zurücklegen aus einer Urne mit 2 Kugeln. Wir modellieren mit Hilfe der Binomialverteilung:
k n−k n
1
n
1
n
1
·
=
P ( k mal Kopf“) =
·
”
2
2
2
k
k
2.1.2
Ziehen ohne Zurücklegen (Hypergeometrische Verteilung)
Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum
und damit ist #ΩIII =
Er
N
n
ΩIII = {T ⊂ {1, 2, ..., N } | #T = n}
. Die Kugeln 1, 2, ..., R seien rot. Hier ist
= {T ⊂ {1, 2, ..., N } | # (T ∩ {1, ..., R}) = r, #T = n}
= {T ⊂ {1, 2, ..., N } | #(T ∩ {1, 2, ..., R}) = r, #(T ∩ {R + 1, ..., N }) = n − r}
−R
Dabei gibt es genau Rr Teilmengen von {1,2,...,R} der Kardinalität r und Nn−r
Teilmengen der Kardinalität n − r von {R + 1, ..., N }. Damit folgt
R
N −R
#Er =
·
r
n−r
2.15 Definition:
Wir nennen
#Er
=
hyp(r, n, R, N ) := P (Er ) =
#ΩIII
R
r
·
N −R
n−r
N
n
die hypergeometrische Verteilung zu den Parametern n, N und R.
Beispiel 2.16 (Skat):
Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit für das Ereignis Spieler 1 bekommt 3 Asse“ gesucht.
”
Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen.
Gesucht: P (3 Erfolge) = P (E3 )
Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung:
28
4
66
3 · 7
=
P (E3 ) = hyp(3, 10, 4, 32)
≈ 0, 073
32
899
10
28
2.2
2 Kombinatorik
Das Stimmzettelproblem
Die Auszählung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenüber
Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses
2.17 Satz:
Wenn a > b, so ist
E:= A liegt während der gesamten Auszählung in Führung“.
”
P (E) =
und hängt damit nur vom Quotienten
b
a
1−
1+
b
a
b
a
ab.
Beweis:
Wir stellen die Auszählung der Stimmzettel als Pfad da. Der Pfad
“B,B,A,A,A,B,A,A,B“
entspräche dann also der Auszählung
Stimmen für A
erste Stimme für B, zweite Stimme für B, dritte Stimme für A usw. “
”
Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:
5
4
3
2
1
0
0
1
2
3
4
5 Stimmen für B
Abbildung 1: Der Auszählungspfad B,B,A,A,A,B,A,A,B“
”
Wir betrachten dazu also
Ω = {Pfade von (0, 0) nach (b, a)}
als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte der A-Stimmen eindeutig
festgelegt und hat logischerweise Länge a + b, daher gilt
a+b
#Ω =
b
Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu
E1
= {Pfade oberhalb der Diagonalen}
E2
= {Pfade durch (0, 1) , die nicht oberhalb der Diagonalen liegen}
E3
= {Pfade, die durch (1, 0) verlaufen}
Da jeder Pfad, welcher oberhalb der Diagonalen verläuft, automatisch durch (0, 1) verlaufen muss, gilt
dann
3
X
Ei
Ω=
i=1
2 Kombinatorik
29
A
A
A
2
2
2
1
1
1
0
0
1
0
B
2
0
1
0
B
2
0
1
2
B
Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1 , aus E2 und aus E3
Gesucht ist in diesem Zusammenhang natürlich
P (E) = P (E1 ) =
#E1
#Ω
und wir können #E1 über #E1 = #Ω − #E2 − #E3 berechnen. Die Kardinalität #E3 von E3 ist offenbar
a+b−1
#E3 =
= Anzahl der Pfade der Länge a + b − 1 von (1, 0) nach (b, a)
a
da jeder Pfad aus E1 genau eins kürzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes
2.18 Lemma (Spiegelungsprinzip):
Falls a > b, so gilt
#E2 = #E3
Beweis:
Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlich
bei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad
von (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2 .
A
A
2
2
1
=⇒ 1
0
0
1
2
0
B
0
1
2
B
Abbildung 3: Verdeutlichung des Spiegelungsprinzips
Diese Abbildung ist offenbar bijektiv.
Damit folgt dann sofort
#E1 = #Ω − 2#E3 =
Daraus folgt
#E
P (E) =
#Ω
a+b
a+b−1
−2
b
a
2
=
1−
=
1−2
=
1−2
=
=
und das zeigt die Behauptung.
a+b−1
a
a+b
a
(a + b − 1)!a!b!
a! (b − 1)! (a + b)!
b
a+b
a + b − 2b
a+b
1−
a−b
=
a+b
1+
b
a
b
a
30
2 Kombinatorik
Beispiel 2.19:
Wir betrachten die Wahlergebnisse
a = 100
und b = 50
(2.3)
a = 200
und b = 100.
(2.4)
In beiden Fällen ist
b
1
=
a
2
und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A während der
gesamten Auszählung in Führung lag, in beiden Fällen (2.3) und (2.4) bei
P (E) =
liegt.
1−
1+
1
2
1
2
=
1
3
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
3
3.1
31
Unabhängigkeit, bedingte Wahrscheinlichkeiten und
mehrstufige Experimente
Unabhängigkeit
Wir beginnen mit einem motivierenden Beispiel.
Beispiel 3.1:
Man betrachtet das Werfen zweier Würfel und die Ereignisse
A =
Augensumme ist gerade“
”
B = Mindestens eine 6“
”
Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazu
simulieren wir n = 10.000 Würfe mit zwei Würfeln und erhalten in unserer Simulation, dass das Ereignis
A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig)
genau hA∩B = 1386 mal eintritt.
Wenn B keinen Einfluss“ auf das Eintreten von A hat, so sollte
”
hA
hA∩B
≈
n
hB
gelten. Wir können diese Aussage auf relative Häufigkeiten umformen:
hA∩B
hA hB
≈
·
.
n
n
n
Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende
3.2 Definition:
Sei (Ω, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, falls
P (A ∩ B) = P (A) · P (B)
gilt.
Beispiel 3.3:
Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhängig sind, denn
hA hB
hA∩B
= 0.1386 6= 0.155 ≈
·
.
n
n
n
2
Um diese Aussage anhand der Definition nachzuprüfen betrachtet man Ω = {1, 2, 3, 4, 5, 6} als LaplaceRaum und hat damit
A = {(1, 1) , (1, 3) , (1, 5) , (2, 2) , ..., (6, 6)} ,
B
= {(1, 6) , ..., (6, 6) , (6, 1) , ..., (6, 5)} .
Also gilt #A = 18 und #B = 11. Das liefert
P (A) =
11
1
und P (B) =
.
2
36
Jetzt berechnet man noch
A ∩ B = {(2, 6) , (4, 6) , (6, 6) , (6, 2) , (6, 4)}
und hat damit
#A ∩ B
5
11
1 11
=
6=
= ·
= P (A) · P (B) .
#Ω
36
78
2 36
Die angegebenen Ereignisse A und B sind also in der Tat abhängig.
P (A ∩ B) =
Beispiel 3.4:
Betrachte wieder das Setting aus Beispiel 3.1 und das zusätzliche Ereignis
C = Der erste Wurf ist eine 6“
”
Wir wollen zeigen, dass A und C unabhängig sind. Dazu berechnen wir
P (A ∩ C) = P ({(6, 2), (6, 4), (6, 6)}) =
was diese Aussage zeigt.
1
1 1
3
=
= · = P (A) · P (C) ,
36
12
2 6
32
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Beispiel 3.5:
Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot
und Kugel 3 weiß. Wir wollen zwei Ziehungen durchführen und betrachten die Ereignisse
A =
B
erster Zug rot“
”
= zweiter Zug weiß“
”
Ziehen wir mit Zurücklegen, so ist offenbar Ω = {(i, j) | 1 ≤ i, j ≤ 3} und daher #Ω = 9. Das liefert
P (A) =
1
2
2
2
, P (B) = , P (A ∩ B) = P ({(1, 3) , (2, 3)}) =
= = P (A) · P (B) .
3
3
#Ω
9
Mit Zurücklegen sind A und B also unabhängig.
Ziehen wir ohne Zurücklegen, so ist offenbar Ω = {(i, j) | 1 ≤ i, j ≤ 3, i 6= j} und daher #Ω = 6. Das
liefert
P (A)
=
2
,
3
P (B) = P ({(1, 3) , (2, 3)}) =
P (A ∩ B) = P ({(1, 3) , (2, 3)}) =
2
1
= ,
#Ω
3
2
2
= 6= P (A) · P (B) .
#Ω
6
Ohne Zurücklegen sind A und B also abhängig!
Bemerkung 3.6:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A, B ⊂ Ω zwei Ereignisse mit A ∩ B = ∅. Dann können
A und B offenbar nur dann unabhängig sein, wenn
0 = P (A ∩ B) = P (A) · P (B) ,
d.h. wenn entweder P (A) = 0 oder P (B) = 0 gilt.
Jetzt wollen wir unsere Definition auf n Ereignisse A1 , ..., An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω, P )
verallgemeinern. Wir definieren dazu wie folgt:
3.7 Definition:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω Ereignisse.
Wir nennen A1 , ..., An unabhängig, falls für jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ n
beliebig, die Gleichung


k
k
Y
\
P Aij
Aij  =
P
j=1
j=1
gilt.
Diese Definition mag zunächst etwas unintuitiv erscheinen, sie ermöglicht aber folgendes
3.8 Lemma:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An ⊂ Ω unabhängige Ereignisse.
(1) Für jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehende
Teilfamilie Ai1 , ..., Aik unabhängig.
(2) Sei Bi = Ai oder Bi = Aci für jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1 , ..., Bn unabhängig.
Beweis:
(1) Diese Aussage ist mit der Definition sofort klar.
(2) Offenbar genügt es zu zeigen, dass die Ereignisse Ac1 , A2 , ..., An ebenfalls unabhängig sind. Den
allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue
Vorgehen dafür kann man etwa bei [Dehling/Haupt] nachlesen.).
Wir wollen die offenbar gültige Gleichung
P (Ac ∩ B) = P (B) − P (A ∩ B)
(3.1)
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
33
nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu
zeigen. Ist i1 = 1, so gilt
(3.1)
P (Ac1 ∩ ... ∩ Aik )
P (Ai2 ∩ ... ∩ Aik ) − P (A1 ∩ Ai2 ∩ ... ∩ Aik )
=
Unabhängigkeit von A1 ,Ai2 ,...,Aik
=
P (Ai2 ) · ... · P (Aik ) − P (A1 ) · ... · P (Aik )
=
(1 − P (A1 ))
P (Ac1 ) ·
=
k
Y
k
Y
P Aij
j=2
P Aij
j=2
was die Behauptung zeigt.
Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Unabhängigkeit aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschied
ist:
Beispiel 3.9 (Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit):
3
Wir betrachten de dreifachen Münzwurf, also Ω = {K, Z} mit der Laplace-Verteilung. Wir betrachten
die Ereignisse
A1
A2
A3
Scheinbar ist dann
P (A1 ) =
=
erster Wurf = zweiter Wurf“
”
= zweiter Wurf = dritter Wurf“
”
= erster Wurf = dritter Wurf“
”
4
1
# {KKK, KKZ, ZZZ, ZZK}
= =
#Ω
8
2
und ganz analog P (A2 ) = P (A3 ) = 21 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte:
P (A1 ∩ A2 ) =
Wegen
1
2
·
1
2
=
1
4
# {KKK, ZZZ}
1
= = P (A1 ∩ A3 ) = P (A2 ∩ A3 ) .
#Ω
4
sind also A1 , A2 und A3 paarweise unabhängig. Da aber
P (A1 ∩ A2 ∩ A3 ) = P ({KKK, ZZZ}) = P (A1 ∩ A2 ) = P (A1 ∩ A3 ) = P (A2 ∩ A3 ) =
1
1 1 1
6= · ·
4
2 2 2
sind die Ereignisse A1 , A2 und A3 insgesamt nicht unabhängig.
Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintreten
von A3 und umgekehrt.
3.2
Bedingte Wahrscheinlichkeiten
Bei n Versuchen trete das Ereignis A ∩ B mit Häufigkeit hA∩B und das Ereignis B mit Häufigkeit hB 6= 0
auf. Anschaulich ist dann
die relative Häufigkeit des Auftretens von A, gegeben B tritt auf“
”
gegeben als
hA∩B
=
hB
hA∩B
n
hB
n
in relativen Häufigkeiten.
Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende
3.10 Definition:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A, B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist
P (A | B) :=
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.
34
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Beispiel 3.11:
Wir Würfeln einfach mit einem fairen Würfel. Dazu verwenden wir Ω = {1, 2, 3, 4, 5, 6} mit der LaplaceVerteilung. Sei A = {4, 5, 6} und B = {2, 4, 6}. Dann ist
P (A) = P (B) =
1
2
und
1
.
3
P (A ∩ B) = P ({4, 6}) =
Das liefert P (A | B) =
2
3
mit der Definition.
Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewürfelt
wurde, so ist die Wahrscheinlichkeit, dass der Wurf ≥ 4 ist, genau 23 .
Beispiel 3.12:
Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir Ω = {JJ, JM, M J, M M }
mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafür ausrechnen, dass die Familie
zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also
A := {JJ}
B
:= {JJ, JM, M J} .
Dann ist A ∩ B = {JJ} und daher gilt
P ( 2 Jungen“ | mindestens 1 Junge“) = P (A | B) =
”
”
1
P (A ∩ B)
= .
P (B)
3
3.13 Satz (Multiplikationsformel):
Sei (Ω, P ) ein Wahrscheinlichkeitsraum.
(1) Sind zwei Ereignisse A, B ⊂ Ω gegeben, so gilt
P (A ∩ B) = P (A | B) · P (B) .
(2) Sind n Ereignisse A1 , ..., An ⊂ Ω gegeben, so gilt
P (A1 ∩ ... ∩ An ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P
Beweis:
(1) Es gilt per Definition
P (A | B) · P (B) =
n−1
\
Ai
An i=1
!
P (A ∩ B)
· P (B) = P (A ∩ B) .
P (B)
(2) Einsetzen der Definition liefert
P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P
= P (A1 ) ·
= P (A1 ) ·
n
Y
k=2
n
Y
k=2

k−1
\
Aj 
P Ak j=1
k
T
P
= P (A1 ) ·
k=2
!
Aj
j=1
P
k−1
T
j=1
n
Y


P
k
\
j=1
Aj
!

Aj  ·
n
Y
k=2
1
P
k−1
T
j=1
Aj
!
n−1
\
Ai
An i=1
!
.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
= P (A1 ) ·
n
Y
k=2
P

= P (A1 ) · P 

= P
Das zeigt die Behauptung.
n
\
j=1


k
\
j=1
n
\
j=1

Aj  ·

n−1
Y
k=1
35
1
P
k
T
Aj
j=1
!
1
P (A1 )
Aj  ·
Aj  .
Beispiel 3.14:
Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhält.
Sei dazu
Ai := der i-te Spieler hat genau ein Ass“ für i = 1, 2, 3
”
Mit der hypergeometrischen Verteilung sieht man schnell
3 19
2 10
4 28
P (A1 ) =
1
32
10
9 , P (A2 | A1 ) =
1
22
10
9 , P (A3 | A1 ∩ A2 ) =
1
12
10
Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit:
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) =
385 3 10
50
· ·
=
.
899 7 33
899
3.15 Satz:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch
PB (A) := P (A | B) , A ⊂ Ω
eine Wahrscheinlichkeitsverteilung auf Ω.
Beweis:
Wir müssen die Axiome (A1) bis (A3) nachprüfen:
(A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt
PB (A) = P (A | B) =
P (A ∩ B)
≥ 0.
P (B)
(A2) Offenbar ist
PB (Ω) = P (Ω | B) =
P (Ω ∩ B)
P (B)
=
= 1.
P (B)
P (B)
(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt
PB
∞
X
i=1
Ai
!
=
P
∞
X
i=1
P
=
Ai
P (B)
P
(A3) für P
∞
P
i=1
=
=
Ai | B
∞
P
i=1
!
∩B
9 .
(Ai ∩ B)
P (B)
∞
∞
X
P (Ai ∩ B) X
PB (Ai ) .
=
P (B)
i=1
i=1
36
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Das zeigt die Behauptung.
Bemerkung 3.16:
Damit gelten die Rechenregeln (R1) bis (R9) auch für PB , d.h. zum Beispiel
P (Ac | B) = PB (Ac ) = 1 − PB (A) = 1 − P (A | B)
für zwei Ereignisse A, B ⊂ Ω, P (B) > 0 usw..
Bemerkung 3.17:
Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als
(
P ({ω})
P ({ω} ∩ B)
falls ω ∈ B
P (B)
,
=
pB (ω) = PB ({ω}) =
P (B)
0
falls ω ∈
/B
ω ∈ A.
Beispiel 3.18:
2
Wir würfeln zweifach mit einem fairen Würfel. Dazu nutzen wir wieder Ω = {1, 2, 3, 4, 5, 6} als Grundraum mit der Laplace-Verteilung. Betrachte das Ereignis
B = Augensumme ist ≥ 10
”
”
Dann ist P (B) =
durch den Vektor
6
36
=
1
36
und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen ist
3 2 1
(pB (2) , pB (3) , ..., pB (12)) = 0, 0, 0, 0, 0, 0, 0, 0, , ,
6 6 6
gegeben.
3.19 Satz:
Sei (Ω, P ) ein Wahrscheinlichkeitsraum.
(1)
(Formel von der totalen Wahrscheinlichkeit)
Sei Bi , i ∈ I eine abzählbar unendliche oder endliche disjunkte Zerlegung von Ω. Dann gilt für alle
A ⊂ Ω die Formel
X
P (A) =
P (Bi ) · P (A | Bi )
(3.2)
i∈I
(2)
(Formel von Bayes)
Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt für jedes k ∈ I:
P (A | Bk ) · P (Bk )
P (Bk | A) = P
P (A | Bi ) · P (Bi )
(3.3)
i∈I
Beweis:
(1) Mit der Mulitplikationsformel gilt
P (A)
P
i∈I
Bi =Ω
=
=
P
P
A∩
X
i∈I
Bi ∩Bj =∅ für i6=j
=
X
i∈I
Multiplikationsformel
=
X
i∈I
was die Aussage zeigt.
X
!!
Bi
i∈I
!
(A ∩ Bi )
P (A ∩ Bi )
P (A | Bi ) · P (Bi )
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
37
(2) Hier folgt unter Benutzung von (1):
P (Bk | A)
=
P (Bk ∩ A)
P (A)
=
P (A ∩ Bk )
P (A)
Multiplikationsformel
=
P (A | Bk ) · P (Bk )
P (A)
P (A | Bk ) · P (Bk )
P
.
P (A | Bi ) · P (Bi )
(3.2)
=
i∈I
Das zeigt ebenfalls die Behauptung.
Beispiel 3.20:
Eine Krankheit tritt bei 0.5% der Bevölkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auch
bei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu
haben.
Betrachte nun folgendes Modell: Sei Ω die Bevölkerung und P die Laplace-Verteilung. Sei weiterhin B1
die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mit
positivem Testergebnis . Dann ist Ω = B1 ∪ B2 mit B1 ∩ B2 = ∅.
P (B1 ) = 0.995
P (B2 ) = 0.005
P (A|B1 ) = 0.02 P (A|B2 ) = 0.99
Mit der Formel von Bayes berechnet man
P (B2 |A)
=
P (A|B2 ) · P (B2 )
2
P
P (A|Bi ) · P (Bi )
i=1
=
P (A|B2 ) · P (B2 )
P (A|B1) · P (B1 ) + P (A|B2 ) · P (B2 )
0.99 · 0.005
0.02 · 0.995 + 0.99 · 0.005
≈ 0.2
=
Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich
erkrankt.
Beispiel 3.21 (Simpson-Paradoxon):
Im Folgenden werden wir ein Beispiel aus dem Bereich How to lie with statistics“ geben, d.h. es wird eine
”
Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmen
scheint. Bei genauerer Betrachtung und unter Berücksichtigung aller Werte im Detail ergibt sich jedoch
genau die gegenteilige Aussage:
University of Berkeley:
In einem Jahr haben sich 1200 Männer und 900 Frauen um einen Studienplatz beworben. Zugelassen
wurden 55% der Männer und nur 48, 9% der Frauen. Offensichtlich wurden die Männer bevorzugt, oder
nicht?
Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fächern A und B gab.
Fach A
Fach B
Summe
Männer
beworben zugelassen
900
540=60%
300
120=40%
1200
660=55%
Frauen
beworben zugelassen
100
80=80%
800
360=45%
900
440=48,8%
Die Frauen wurden also in jedem Fach bevorzugt!
Dies können wir auch mit bedingten Wahrscheinlichkeiten nachrechnen:
Seien Zm =“zugelassene Männer“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt
38
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
nach dem Satz der totalen Wahrscheinlichkeit:
P (Zm ) = P (Zm |Am ) · P (Am ) + P (Zm |Bm ) · P (Bm )
=
0.6 · 0.75 + 0.4 · 0.25
=
0.55
Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerberinnen Fach B“.
P (Zf )
= P (Zf |Af ) · P (Af ) + P (Zf |Bf ) · P (Bf )
=
=
1
8
+ 0.45 ·
9
9
0.488
0.8 ·
Das Ergebnis kommt zustande, da sich anteilig viel mehr Männer als Frauen in Fach A beworben haben,
wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen für
Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.
3.3
Mehrstufige Experimente
Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgeführten Experimente
die Wahrscheinlichkeiten für den Ausgang des nächsten Experiments bestimmen.
Sei p1 der Wahrscheinlichkeitsvektor für die Ausgänge des ersten Experiments. Beim Ausgang a1 ∈ Ω1
ist jeweils p2 ( · |a1 ) ein Wahrscheinlichkeitsvektor für die Ausgänge des zweiten Experiments.
Beispiel 3.22 (zweistufiges Zufallsexperiment):
In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohne
Zurücklegen.
In der ersten Ziehung erhält man mit einer Wahrscheinlichkeit von 23 eine rote Kugel und mit einer
Wahrscheinlichkeit von 13 eine weiße Kugel, d.h.
p1 (R) =
2
,
3
p1 (W ) =
1
.
3
In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder weiß jeweils mit der
Wahrscheinlichkeit 12 gezogen werden oder wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheit
nun eine rote Kugel gezogen werden. Das heißt
p2 (R, R) =
1
,
2
p2 (R, W ) =
1
2
bzw.
p2 (R, W ) = 1,
p2 (W, W ) = 0.
Der Grundraum des 2-stufigen Modells ist
Ω = Ω1 × Ω2 = {(a1 , a2 ) | ai ∈ Ωi }
mit der Wahrscheinlichkeitsfunktion
p(a1 , a2 ) := p(a1 ) · p2 (a2 |a1 ).
Das heißt p(a1 , a2 ) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades:
START → a1 → a2 .
Im Bsp.:
p(R|W ) = p1 (R) · p2 (W |R) =
2 1
1
· = .
3 2
3
Bemerkung 3.23:
Für Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist
X
P (A) =
p1 (a1 ) · p2 (a2 |a1 )
(a1 ,a2 )∈A
die Summe aller Pfadwahrscheinlichkeiten.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
39
Beispiel 3.24:
Es stehe Xi für das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt:
2 1 1
2
P (X2 = R) = P ( zweite Kugel ist rot“) = P (R, R) + P (W, R) = · + · 1 =
”
3 2 3
3
3.25 Definition (n-stufiges Experiment):
Seien Ω1 , Ω2 , ..., Ωn diskrete Grundräume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahrscheinlichkeit). Für jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2 (a2 |a1 ) auf den Ausgang des
zweiten Teilexperiments gegeben.
Allgemein: Für jede Folge von Ausgängen a1 , a2 , ..., aj−1 mit ai ∈ Ωi , 1 ≤ i ≤ j − 1 der ersten j-1
Teilexperimente ist eine Wahrscheinlichkeitsfunktion
pj (aj |a1 , ...aj−1 )
auf den Ausgängen aj ∈ Ωj gegeben. Für einen Pfad (a1 , ..., an ) ∈ Ω1 × ... × Ωn setzt man
p(a1 , ..., an ) = p1 (a1 ) · p2 (a2 |a1 ) · . . . · pn (an |a1 , ..., an−1 ).
Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlichkeitsverteilung P über
X
P (A) :=
p(a1 , ..., an ),
A ⊆ Ω.
(a1 ,...,an )∈A
P ist dann die Verteilung des mehrstufigen Experiments.
Beispiel 3.26 (Polya’sches Urnenmodell):
In diesem Modell, das ursprünglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren,
enthält eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurückgelegt mit
c ∈ Z zusätzlichen Kugeln der gleichen Farbe.
Das heißt für c = −1 entspricht dies dem Ziehen ohne Zurücklegen und für c = 0 dem Ziehen mit
Zurücklegen.
Ein graphisches Beispiel:
}}}
+
}2 3
}
}}}
}3 4
} }
}}}
A 1
A4 }
A
A
AU
}}
}}}
Q
Q
Q
1
3
Q
Q
}
Q
QQ
s
}
}}}
}1 2
}}
}}}
A
1
A2 }
A
A
AU
}}
}}}
Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1.
Dann ist
2 3 1 1
2
· + · = = P (X1 = R)
3 4 3 2
3
Wir wollen nun zeigen, dass unabhängig vom gewählten c immer gilt: Die Wahrscheinlichkeit für 2.Kugel
”
ist rot“ ist immer gleich der Wahrscheinlichkeit für 1.Kugel ist rot“:
”
Beweis:
Es sind
s
r
,
p1 (S) =
p1 (R) =
r+s
r+s
r+c
s
p2 (R|R) =
,
p2 (S|R) =
r+s+c
r+s+c
P (X2 = R) =
40
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Damit ist
P (X2 = R) = P (R, R) + P (S, R)
r
r+c
s
r
·
+
·
r+s r+s+c r+s r+s+c
s
r+c
r
·
+
r+s
r+s+c r+s+c
r
r+s
=
=
=
= P (X1 = R).
Man berechnet
p(R, S, R, R)
= p1 (R) · p2 (S|R) · p3 (R|RS) · p4 (R|RSR)
=
s
r+c
r + 2c
r
·
·
·
r + s r + s + c r + s + 2c r + s + 3c
Bemerkung 3.27:
Man beobachtet also:
Ist (a1 , ..., an ) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist
p(a1 , ..., an ) =
n−1
Y
i=0
1
r + s + ic
k−1
n−k−1
Y
Y
(s + ic) .
(k + ic) ·
·
i=0
i=0
Das heißt die Wahrscheinlichkeit von (a1 , ..., an ) hängt nur von der Anzahl gezogener Kugeln ab, nicht
von der Reihenfolge. Daher gilt
p(aτ (1) , ..., aτ (n) ) = p(a1 , ..., an )
für jede Permutation τ von {1, ..., n}. Solche Verteilungen nennt man auch austauschbar.
Aufgabe 3.28:
Zeige damit
P (Xj = R) =
3.3.1
r
für alle j = 1, 2, ...
r+s
Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen
(1) Ist Ω1 × ... × Ωn ein mehrstufiges Modell mit Übergangswahrscheinlichkeiten
pj (aj | a1 , ..., aj−1 ) ,
1≤j≤n
so setzen wir
(b1 , ..., bk ) := {(a1 , ..., an ) | ai = bi für 1 ≤ i ≤ k}
als die Menge aller Pfade, die mit b1 , ..., bk beginnen fest. Dann gilt:
P (b1 , ..., bk ) = p1 (b1 ) · p2 (b2 | b1 ) · ... · pk (bk | b1 , ..., bk )
Beweis:
Wir zeigen nur den Fall n = 2, k = 1, die anderen Fälle überlegt man sich analog (wobei der Beweis
dann sehr Index-lastig wird). Es gilt
P (b1 ) = P ({b1 } × Ω)
X
p (b1 , a2 )
=
a2 ∈Ω2
=
X
a2 ∈Ω2
p1 (b1 ) · p2 (a2 | b1 )
= p1 (b1 ) ·
X
a2 ∈Ω2
|
p2 (a2 | b1 )
{z
=1
}
da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
41
(2) Ganz analog gilt
P (bk+1 , ..., bn | b1 , ..., bk ) = pk+1 (bk+1 | b1 , ..., bk ) · pk+2 (bk+2 | b1 , ..., bk+1 ) · ... · pn (bn | b1 , ..., bn−1 )
Beweis:
Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt
P (b2 | b1 )
=
p (b1 , b2 )
p (b1 )
=
p1 (b1 ) p2 (b2 | b1 )
p1 (b1 )
=
p2 (b2 | b1 ) .
Teil (1)
Das zeigt die Behauptung.
Beispiel 3.29 (Ziehen aus zufälliger Urne):
Wir betrachten vier Urnen U1 , U2 , U3 , U4 . Jede der Urnen enthalte drei Kugeln, wobei Ui genau i − 1 rote
und 3 − (i − 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus:
Schritt 1 Wähle rein zufällig eine Urne.
Schritt 2 Ziehe eine Kugel und notiere die Farbe.
Dieses Experiment gestaltet sich etwa so:
START
P
J PPP
1
PP 4
J 1
1 P
PP
4
J4
PP
PP
J
q
)
J
J
^
A } } }
A } } }
A
A
A } } }
A } } }
U1 - Urne 1
U4 - Urne 4
A
A
A
A
U2 - Urne 2
U3 - Urne 3
A
A
A
A
1
0
A1
A0
A
A
2
2
1
1
A
A
3
3
A3
A3
A
A
A
A
U
A
AU
A
A
}
} }
}
AU
AU
}
}}
}
1
4
Abbildung 5: Ziehen aus zufälliger Urne“
”
Es ist also Ω1 = {1, 2, 3, 4}, wobei die Zahl i ∈ Ω1 dann einfach der Nummer der Urne im ersten Schritt
entspricht. Wir sehen sofort, dass
1
p1 (1) = ... = p1 (4) = .
4
Weiter verwenden wir Ω2 = {R, S} was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen
soll. Da die Urne U1 keine roten Kugeln enthält, ist also
p2 (R | 1) = 0 und p2 (S | 1) = 1.
Ganz analog enthält die Urne U2 eine rote und zwei schwarze Kugeln, es ist also
p2 (R | 2) =
2
1
und p2 (S | 2) = .
3
3
Ganz analog berechnet man die anderen Werte für p2 .
Wir wollen nun folgende Frage beantworten:
Was kann man über die im ersten Schritt gewählte Urne aussagen, gegeben es wurde im zweiten Schritt
eine rote Kugel gezogen?
42
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Zur Beantwortung setzen wir
Bi
A
:=
Urne i im ersten Schritt gewählt“,
i = 1, 2, 3, 4,
”
:= rote Kugel im zweiten Schritt gezogen“.
”
Wie oben sieht man sofort, dass
P (A | B1 ) = 0, P (A | B2 ) =
1
2
, P (A | B2 ) = , P (A | B3 ) = 1.
3
3
Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt
P (A) =
4
X
i=1
P (A | Bi ) · P (Bi ) =
4
X
i=1
p2 (R | i) · p1 (i) =
1
.
2
Mit der Formel von Bayes (3.3) ergibt sich nun für die gesuchte Wahrscheinlichkeit
P (Bk | A)
(3.3)
=
P (Bk | A)
P (A | Bk ) · P (Bk )
=
4
X
i=1
P (A | Bi ) · P (Bi )
{z
|
=P (A)
2P (A | Bk ) · P (Bk )
| {z }
=
}
= 14
1
P (A | Bk ) ,
2
=
Als Vektor gilt also
(P (Bk | A))k=1,2,3,4 =
k = 1, 2, 3, 4.
1 2 3
0, , ,
6 6 6
Das ist die sogenannte
a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 14 , 41 , 41 , 41 .
Der MAP-Schätzer (MAP steht für maximum a-posteriori“) der Urnennummer k wählt das k mit maxi”
malem P (Bk | A) aus - hier also k = 4. Das beantwortet“ die obige Frage.
”
Beispiel 3.30:
Wir betrachten eine leicht geänderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht
ein zufällig gewählt, sondern per Münzwurf bestimmt. Wir werfen dazu drei faire Münzen und wähle die
Urne, die so viele rote Kugeln enthält, wie oft Kopf“ geworfen wurde. Wegen
”
3
1
P ({ZZZ}) = , P ({KZZ, ZKZ, ZZK}) =
8
8
usw. erhalten wir also die a-priori-Verteilung 81 , 83 , 38 , 81 . Wir definieren A und Bi , i = 1, 2, 3, 4 wie im
Beispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier
P (A) = 0 ·
1 1 3 2 3
1
1
+ · + · +1· =
8 3 8 3 8
8
2
und wie oben gilt
(P (Bk | A))k=1,2,3,4 =
P (A | Bk ) · P (Bk )
1
2
=
k=1,2,3,4
1 1 1
0, , ,
4 2 4
Hier würde der MAP-Schätzer also die Urne mit der Nummer k = 3 auswählen.
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
3.4
43
Produkt-Experimente und spezielle Verteilungen
Für i = 1, ..., n seien (Ωi , Pi ) diskrete Wahrscheinlichkeitsräume. Die stochastisch unabhängige Ausführung mehrerer Experimente aus (Ωi , Pi ), i = 1, ..., n, wird modelliert durch
Ω := Ω1 × ... × Ωn =
n
Y
n
Ωi , P :=
⊗P ,
(3.4)
i
i=1
i=1
wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion
p (a1 , ..., an ) =
n
Y
i=1
Pi ({ai }) , (a1 , ..., an ) ∈ Ω = {(b1 , ..., bn ) | bi ∈ Ωi , i = 1, ..., n}
(3.5)
gegeben ist.
3.31 Definition:
Der Raum (Ω, P ) wie in (3.4) definiert heißt Produkt der Wahrscheinlichkeitsräume (Ωi , Pi ) , i =
1, ..., n.
Bemerkung 3.32:
(Ω, P ) ist selbst wieder ein Wahrscheinlichkeitsraum.
Beweis:
Es genügt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω als
endliches Produkt abzählbarer Mengen selbst wieder abzählbar.
Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfüllt, ist klar, denn jedes der Pi erfüllt
diese Axiome. Außerdem gilt
!
n
X
Y
X
X
P (Ω) =
p (a1 , ..., an ) =
Pk ({ak }) = 1
P1 ({a1 }) · ... · Pn ({an }) =
(a1 ,...,an )∈Ω
k=1
(a1 ,...,an )∈Ω
und das zeigt die Behauptung.
|
ak ∈Ωk
{z
(A3) für Pk
=
1
}
Beispiel 3.33:
Wir wollen das Produkt der Experimente Würfeln“ und Münzwurf“ bilden. Sei dazu Ω1 := {K, Z}
”
”
ebenso mit der Laplace-Verteilung versehen wie Ω2 := {1, 2, 3, 4, 5, 6}. Dann ist
Ω = Ω1 × Ω2 = {(a1 , a2 ) | a1 ∈ {K, Z} , a2 ∈ {1, 2, 3, 4, 5, 6}}
und es gilt
1
p (a1 , a2 ) = P1 ({a1 }) · P2 ({a2 }) =
| {z } | {z } 12
= 12
= 61
für alle Tupel (a1 , a2 ) ∈ Ω.
Dieses Ergebnis ist natürlich ziemlich eintönig, würde man etwa eine gefälschte Münze verwenden, so
wäre das Ergebnis interessanter.
Bemerkung 3.34:
Man kann den Produktraum (Ω, P ) auch als mehrstufiges Modell mit den Übergangswahrscheinlichkeiten
pi (ai | a1 , ..., ai−1 ) = Pi ({ai }) , 1 ≤ i ≤ n, ak ∈ Ωk
auffassen. Man beachte, dass diese Übergangswahrscheinlichkeiten nicht von den vorangehenden Stufen
abhängen.
3.35 Definition:
Für Ereignisse Ai ⊆ Ωi , 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω, P ) als
A := A1 × A2 × ... × An = {(a1 , ..., an ) | ai ∈ Ai , 1 ≤ i ≤ n}
44
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
Bemerkung 3.36:
Dann gilt
P (A) =
n
Y
Pk (Ak )
k=1
Beweis:
Es ist
P (A)
=
Definition
=
P (A1 × ... × An )
X
p (a1 , ..., an )
(a1 ,...,an )∈A
X
=
n
Y
(a1 ,...,an )∈A k=1
=
n
Y
k=1
=
n
Y
X
ak ∈Ak
Pk ({ak })
Pk ({ak })
!
Pk (Ak ) ,
k=1
was die Behauptung zeigt.
3.37 Satz:
Seien Ai ⊆ Ωi Ereignisse. Setze A∗k := {(a1 , ..., an ) ∈ Ω | ak ∈ Ak } für 1 ≤ k ≤ n. Für das Produktexperiment (Ω, P ) wie in (3.4) gelten:
(1) P (A∗k ) = Pk (Ak ) für jedes 1 ≤ k ≤ n.
(2) Die Ereignisse A∗1 , ..., A∗n sind in jedem Fall unabhängig.
Beweis:
(1) Es ist
P (A∗i )
P (Ω1 × ... × Ωi−1 × Ai × Ωi+1 × ... × Ωn )
=
Bemerkung 3.36
=
P1 (Ω1 ) · ... · Pi−1 (Ωi−1 ) · Pi (Ai ) · Pi+1 (Ωi+1 ) · ... · Pn (Ωn )
=
Pi (Ai ) ,
was die Behauptung zeigt.
(2) Für jede Teilfamilie
gilt

P
A∗i1 , ..., A∗ik mit 1 ≤ ii < ... < ik ≤ n
k
\
j=1

A∗ij 
=
Bemerkung 3.36
=
P (Ω1 × ... × Ωi1 −1 × Ai1 × Ωi1 +1 × ...)
Pi1 (Ai1 ) · ... · Pik (Aik ) · P1 (Ω1 ) ·...
| {z }
=1
(1)
=
Das zeigt auch hier die Behauptung.
P A∗i1 · ... · P A∗ik .
Bemerkung 3.38:
Mit Hilfe dieses Satzes können wir sehr leicht einen Wahrscheinlichkeitsraum (Ω, P ) konstruieren, der n
unabhängige Ereignisse enthält, die vorgegebene Wahrscheinlichkeiten p1 , ..., pn haben:
Setze Ω1 = ... = Ωn = {0, 1}, A1 = ... = An = {1} und definieren für jedes i = 1, ..., n
Pi ({0}) := 1 − pi , Pi ({1}) := pi
| {z }
Pi (Ai )
Nach dem Satz sind dann
ten.
A∗1 , ..., A∗n
unabhängige Experimente mit den vorgegebenen Wahrscheinlichkei-
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
3.4.1
45
Mit Produktexperimenten zusammenhängende Verteilungen
(1) Binomialverteilung ( Zählen von Erfolgen“)
”
Ein Bernoulli-Experiment ist ein Experiment mit Ω = {0, 1} und Erfolgswahrscheinlichkeit
p (1) = p ∈ [0, 1], p (0) = 1 − p.
Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit ist dann
n
Ω = {0, 1} , p (a1 , ..., an ) = pa1 · ... · pan für (a1 , ..., an ) ∈ Ω
Sei jetzt


n


X
aj = k
Ak := (a1 , ..., an ) 

j=1
das Ereignis k Erfolge“ für 0 ≤ k ≤ n. Dann ist #Ak =
”
n
k
, für jedes (a1 , ..., an ) ∈ Ak gilt
P ({(a1 , ..., an )}) = pk (1 − p)
und daher folgt
P (Ak ) =
n−k
n k
n−k
p (1 − p)
, 0 ≤ k ≤ n.
k
Wir erhalten also genau die Binomialverteilung.
(2) Multinomialverteilung ( Zählen von Ausgängen“)
”
Man führt n identische, stochastisch unabhängige Experimente durch. Jedes Experiment hat r
Ausgänge 1, ..., r, die mit Wahrscheinlichkeiten p1 , ..., pr auftreten.
Modell: Seien Ωi = {1, ..., r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor (p1 , ..., pr ) gegeben (1 ≤ i ≤ n).
Im Produktexperiment ist
n
Ω = Ω1 × ... × Ωn = {1, ..., r}n
und
P =
⊗P
i
i=1
und somit
p(a1 , .., an ) = pa1 · ... · pan .
Sei Ak1 ,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1“, ..., kr mal den Ausgang r“ zu
”
”
n
P
ki = n und 0 ≤ ki für i ≤ i ≤ n gelten). Dann ist
erhalten (dabei muss natürlich
i=1
P (Ak1 ,...,kr ) =
die auf
(
n
k1 , ..., kr
· pk11 · ... · pkr r
n
X
(k1 , ..., kr ) ki = n, 0 ≤ ki
i=1
)
gegebene Multinomialverteilung mit Parametern n und p1 , .., pr . Dabei muss natürlich
r
X
pi = 1
i=1
gelten.
Beispiel 3.39:
Auf einem Glücksrad sind 3 Bereiche markiert. Beim zufälligen Drehen stoppt das Rad mit Wahrscheinlichkeit p1 = 12 im Bereich 1“, mit p2 = 83 im Bereich 2“ und mit p3 = 18 im Bereich 3“.
”
”
”
Dann ist
5 3 2
3
1
10
1
·
·
.
P (5 mal 1“, 3 mal 2“, 2 mal 3“) = P (A5,3,2 ) =
·
”
”
”
2
8
8
5, 3, 2
46
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
(3) Geometrische Verteilung ( Warten auf den ersten Erfolg“)
”
Gegeben sei ein n-faches Bernoulli-Experiment Ω = {0, 1}n mit Erfolgswahrscheinlichkeit p ∈ [0, 1].
Sei für 1 ≤ k ≤ n Ak das Ereignis erster Erfolg im k-ten Versuch (1 ≤ k ≤ n). Dann ist
”
”
P (Ak ) = (1 − p)k−1 · p
Beweis:
Im Produktexperiment ist natürlich Pi = P für jedes 1 ≤ i ≤ n, wobei P ({0}) = 1−p, P ({1}) = p.
Offenbar entspricht für 1 ≤ k ≤ n das Ereignis Ak genau der Menge
{0} × ... × {0} × {1} ,
{z
}
|
(k−1)-mal
da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten dürfen. Gemäß Bemerkung 3.36
gilt dann
P (Ak ) = P ({0} × ... × {0} × {1}) =
k−1
Y
i=1
k−1
Pi ({0}) · Pk ({1}) = (1 − p)
· p,
was die Behauptung zeigt.
/ ∞, also
Intuitiv richtig erscheint die Aussage auch für n
k−1
pk := Pk (Ak ) = (1 − p)
· p, k = 1, 2, ....
Für den formalen Beweis benötigt man Maßtheorie. Diese Gleichung definiert die geometrische Verteilung auf N mit P (1) = p, P (2) = (1 − p) · p, ....
Dies ist tatsächlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion handelt:
∞
X
pk
=
k=1
=
geometrische Reihe
p·
p·
=
p·
=
p
p
=
1.
∞
X
(1 − p)k−1
k=1
∞
X
(1 − p)k
k=0
1
1 − (1 − p)
(4) Negative Binomialverteilung ( k Misserfolge vor dem r-ten Erfolg“)
”
Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0, 1].
Seien r, k ∈ N mit k + r ≤ n. Setze
A := genau k Misserfolge vor dem r-ten Erfolg“.
”
3.40 Lemma:
Es gilt
P (A) =
k+r−1 r
k
p (1 − p)
k
Beweis:
k+r
Sei Ω = {0, 1}
der Produktraum mit der Verteilung, welche durch pi (1) = p, pi (0) = 1 − p,
1 ≤ i ≤ k + r gegeben ist. Natürlich soll dabei 1“ für Erfolg“ und 0“ für Misserfolg“ stehen.
”
”
”
”
Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vor
dem r-ten Erfolg zu erhalten genau
k + r − 1 r−1
k+r−1−(r−1)
p
(1 − p)
r−1
3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente
und daher folgt
P (A)
=
k + r − 1 r−1
k
p
(1 − p) ·
r−1
p
|{z}
r−ter Erfolg
k+r−1
k
pr (1 − p)
k + r − 1 − (r − 1)
k+r−1 r
=
p (1 − p)k ,
k
=
was die Behauptung zeigt.
Diese Verteilung nennt man auch die negative Binomialverteilung.
47
48
4
4.1
4 Zufallsvariablen, Verteilungen
Zufallsvariablen, Verteilungen
Zufallsvariablen
Das Ziel der Einführung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie
bilden ein wichtiges Handwerkszeug zur Formulierung und Lösung von stochastischen Problemen.
4.1 Definition:
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Ω′ 6= ∅ eine beliebige Menge. Eine Abbildung
X:Ω
/ Ω′
heißt Zufallsvariable (abgekürzt auch ZV) mit Werten in Ω′ .
Falls Ω′ ⊂ Rd so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X
reellwertige Zufallsvariable.
Beispiel 4.2:
Beim zweimaligen Würfeln ist Ω = {1, ..., 6}2 und ω = (a1 , a2 ) ∈ Ω mit 1 ≤ ai ≤ 6.
Wir betrachten die Summe der Augenzahlen
X(ω) := a1 + a2 ,
das Maximum der Würfelergebnisse
X(ω) := max {a1 , a2 } ,
oder das Produkt der Augenzahlen
X(ω) := a1 · a2 .
Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω′ = {2, ..., 12}.
Bemerkung 4.3:
X muss nicht injektiv und auch nicht surjektiv sein.
X transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist
”
P (X = 4) = P ({(a1 , a2 ) | a1 + a2 = 4})
= P ({(1, 3), (2, 2), (3, 1)})
= P ({(1, 3)}) + P ({(2, 2)}) + P ({(3, 1)})
=
1
1
1
1
+
+
=
36 36 36
12
Das heißt, man bestimmt die Verteilung von X auf Ω′ über Mengen wie X −1 ({4}).
X −1 ist eine Abbildung von Mengen, d.h
X : P(Ω′ ) → P(Ω)
A′ 7−→ X −1 (A′ ) = {ω ∈ Ω | X(ω) ∈ A′ }.
Die allgemeinen Regeln für Urbilder gelten natürlich auch für Zufallsvariablen, wir wollen sie ohne Beweis
in folgendem Lemma festhalten:
4.4 Lemma (Eigenschaften):
Es gilt:
(U1) X −1 (X(Ω)) = Ω und X −1 (∅) = ∅
S ′
S −1 ′
−1
(U2) X
Ai =
X (Ai )
i∈I
(U3) X −1
T
i∈I
i∈I
A′i
=
T
i∈I
X −1 (A′i )
(U4) X −1 (Ω′ \ A′ ) = Ω \ X −1 (A′ )
4.5 Definition:
Sei ohne Einschränkung Ω′ = X(Ω). Für einen diskreten Wahrscheinlichkeitsraum (Ω, P ) wird durch
P X : P (Ω′ )
/ R, A′ 7→ P X (A′ ) := P (X −1 (A′ ))
eine Wahrscheinlichkeitsverteilung P X auf der diskreten Menge Ω′ definiert.
P X heißt Verteilung von X auf Ω′ (unter P ).
4 Zufallsvariablen, Verteilungen
49
Beweis:
Wir müssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:
(A1) P X (A′ ) ≥ 0 gilt.
(A2) P X (Ω′ )
Definition
=
P X −1 (Ω′ ) = P (Ω) = 1
(A3) Seien A′1 , A′2 , ... disjunkte Teilmengen von Ω′ . Dann gilt
PX
∞
[
A′i
i=1
!
Definition
=
X −1
P
∞
[
A′i
i=1
=
P
X
−1
∞
X
A′i
i=1
(U3)
=
P
∞
X
σ-Additivität
=
!!
!
(A′i )
i=1
∞
X
!!
P (X −1 (A′i ))
i=1
Definition
=
∞
X
P X (A′i ).
i=1
Das zeigt, dass P X in der Tat ein Wahrscheinlichkeitsmaß auf Ω′ ist.
Bemerkung 4.6:
Mittels Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω′ , P X ).
”
Notation 1:
Sei (Ω, P ) diskreter Wahrscheinlichkeitsraum, X : Ω → Ω′ eine Zufallsvariable.
Man schreibt/meint
(X = x) := {ω ∈ Ω | X(ω) = x} ,
x ∈ Ω′
und
(X ∈ A) := {X ∈ A} = {ω ∈ Ω | X(ω) ∈ A}
, A ⊂ Ω′ .
Damit schreibt man P X (A) = P (X ∈ A) sowie P X ({x}) = P (X = x).
Falls X reellwertig ist (d.h. Ω′ ⊂ R) so benutzt man auch (X ≤ x) = {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x}.
Beispiel 4.7:
Sei Ω = {1, ..., 6}2 , P (a1 , a2 ) =
1
36
∀ (a1 , a2 ) ∈ Ω.
• X(a1 , a2 ) = a1 + a2 mit Ω′ = {2, 3, ..., 12}.
Für x ∈ Ω′ gilt:
P
X
=P X
−1
({x}) =
(
x−1
36
13−x
36
falls x = 2, ..., 7,
.
falls x = 8, ..., 12
• X(a1 , a2 ) = max {a1 , a2 } mit Ω′ = {1, ..., 6}
Für x ∈ Ω′ gilt:
P X (x) = P (X = x) = P ({a1 , a2 ) | max {a1 , a2 } = x}) =
2x − 1
.
36
Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω′ gegeben.
Man spricht oft einfach von einer Ω′ -wertigen Zufallsvariablen X, mit Verteilung P X und erwähnt weder
(Ω, P ) noch die spezielle Abbildung X.
50
4 Zufallsvariablen, Verteilungen
4.8 Definition (Indikatorvariable):
Für A ⊂ Ω definieren wir durch
/ {0, 1}, 1A (ω) =
1A : Ω
(
1
0
falls ω ∈ A
falls w ∈
/A
die Indikatorvariable zu A.
Die Verteilung von X = 1A sieht wie folgt aus:
• P X ({1}) = P X −1 ({1}) = P ({ω ∈ Ω | X(ω) = 1}) = P (A)
• P X ({0}) = P X −1 ({1}) = P ({ω ∈ Ω | X(ω) = 0}) = P (AC )
Beispiel 4.9:
Sei Ω = {1, ..., 6} und A = {2, 4, 6}. Dann ordnet 1A wie folgt zu:
2, 4, 6
7→
1,
1, 3, 5
7→
0.
Bemerkung 4.10:
Falls Ω′ ⊂ Rd , d ≥ 2 und damit X(ω) = (X1 (ω), ..., Xd (ω)) so ist für A = A1 × ... × Ad :


d
\
P (X ∈ A) = P  {Xj ∈ Aj } .
j=1
Insbesondere gilt also

P (X = x) = P (X1 = x1 , ..., Xd = xd ) = P 
d
\
j=1

Xi−1 ({xi }) .
4.11 Definition (Gemeinsame Verteilung):
/ Ω′ , j = 1, ..., n seien Zufallsvariablen. Wir definieren
Sei (Ω, P ) gegeben, Xj : Ω
j
X:Ω
/ Ω′1 × ... × Ω′n durch ω 7→ (X1 (ω), ..., Xn (ω)).
Dann heißt P X = P (X1 ,...Xn ) die gemeinsame Verteilung von X1 , ...Xn . Die zugehörige Wahrscheinlichkeitsfunktion ist
p(x1 , ...xn ) = P (X1 = x1 , ...Xn = xn )
für alle Tupel (x1 , ..., xn ) ∈ Ω′ .
Beispiel 4.12:
Wir wollen wieder zweifach mit einem fairen Würfel werfen. Betrachte also Ω = {1, 2, 3, 4, 5, 6} mit der
/ Ω (also Ω′ = Ω),
Lapace-Verteilung P . Definiere für (a1 , a2 ) = ω ∈ Ω die Zufallsvariablen X1 , X2 : Ω
X1 (ω) :=
min {a1 , a2 } ,
X2 (ω) :=
max {a1 , a2 } .
Die gemeinsame Verteilung von X1 und X2 können wir dann als Matrix schreiben. Setze dazu c :=
und erhalte
x1 / x2
1
2
3
4
5
6
P (X1 ) ({x1 })
1
c
2c
2c
2c
2c
2c
11c
2
0
c
2c
2c
2c
2c
9c
3
0
0
c
2c
2c
2c
7c
4
0
0
0
c
2c
2c
5c
5
0
0
0
0
c
2c
3c
0
0
0
0
0
c
c
c
3c
5c
7c
9c
11c
6
P
(X2 )
({x2 })
1
36
4 Zufallsvariablen, Verteilungen
51
Dabei steht in der Zelle (i, j) natürlich P (X1 ,X2 ) ({i} × {j}) = P (X1 = i, X2 = j) und wir haben in der
letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese
sich einfach als Summe der Zeilen- / Spalteneinträge berechnen.
4.13 Definition:
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω
Für eine Indexauswahl
1 ≤ i1 < ... < ik ≤ n
/ Ω′ für 1 ≤ j ≤ n Zufallsvariablen.
j
nennen wir die gemeinsame Verteilung von Xi1 , ..., Xik eine k-dimensionale Randverteilung oder
auch Marginalverteilung.
Beispiel 4.14:
Sei X = (X1 , X2 ). Dann sind P Xi für i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel
X
P X1 (x1 ) = P (X1 = x1 ) =
P (X1 = x1 , X2 = x2 ) ,
x1 ∈ Ω′1 .
x2 ∈X2 (Ω)
4.1.1
Unabhängigkeit von Zufallsvariablen
Die Idee ist, dass zwei Zufallsvariablen X1 , X2 unabhängig sind, wenn
P (X1 = x1 , X2 = x2 ) = P (X1 = x1 ) · P (X2 = x2 ) ∀ (x1 , x2 ) ∈ Ω′1 × Ω′2
gilt.
Beispiel 4.15:
In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass
P (X1 = 1, X2 = 1) =
1
36
gilt, aber
11 1
1
·
6=
36 36
36
ist. Daher sollten X1 und X2 wie dort definiert nicht unabhängig sein.
P (X1 = 1) · P (X2 = 1) =
4.16 Definition:
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω
Wir nennen X1 , ..., Xn unabhängig, wenn
/ Ω′ für 1 ≤ i ≤ n Zufallsvariablen.
i
n
P (X1 ,...,Xn ) =
⊗P
Xi
i=1
n
gilt. Dabei meint
⊗ PX
i
einfach das Produkt der Verteilungen, also
i=1
n
⊗P
i=1
Xi
(A1 × ... × An ) =
n
Y
P Xi (Ai ) ,
i=1
Ai ∈ Ω′i für i = 1, ...n.
Beispiel 4.17:
/ {0, 1} durch folgende Tabelle gegeben, in welche wir auch gleich die
Sei n = 2 und seien X1 , X2 : Ω
X2
X1
wie im obigen Beispiel eintragen:
und P
Einzelverteilungen P
x1 /x2
0
1
P
X2
({x2 })
P X1 ({x1 })
0
1
0.12
0.28
0.4
0.18
0.42
0.6
0.3
0.7
Man stellt fest, dass
2
⊗P
i=1
Xi
(x1 , x2 )
Definition
=
P X1 (x1 ) · P X2 (x2 ) = P (X1 = x1 ) · P (X2 = x2 )
52
4 Zufallsvariablen, Verteilungen
gilt. In jeder Zelle gilt
P (X1 = x1 ) · P (X2 = x2 ) = P (X1 = x1 , X2 = x2 )
und daher sind X1 und X2 hier unabhängig.
4.18 Satz:
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω
Dann sind die folgenden Aussagen äquivalent:
/ Ω′ für 1 ≤ i ≤ n Zufallsvariablen.
i
(1) X1 , ..., Xn sind unabhängig.
(2) Für alle Ai ⊆ Ω′i , 1 ≤ i ≤ n gilt
P (X1 ∈ A1 , ..., Xn ∈ An ) =
n
Y
i=1
P (Xi ∈ Ai ) .
(3) Für alle xi ∈ Ω′i , 1 ≤ i 6= n gilt
P (X1 = x1 , ..., Xn = xn ) =
n
Y
P (Xi = xi ) .
i=1
Beweis:
(1)⇒(2)“ Für beliebige Ai ⊆ Ω′i , 1 ≤ i ≤ n, gilt
”
P (X1 ∈ A1 , ..., Xn ∈ An )
P ((X1 , ..., Xn ) ∈ A1 × ... × An )
=
=
X1 ,...,Xn unabhängig
=
P (X1 ,...,Xn ) (A1 × ... × An )
!
n
⊗P
Xi
(A1 × ... × An )
i=1
n
Y
=
P Xi (Ai )
i=1
n
Y
=
i=1
P (Xi ∈ Ai )
(2)⇒(3)“ Für gegebene xi ∈ Ω′i , 1 ≤ i ≤ n setze Ai := {xi }.
”
(3)⇒(1)“ Hier gilt für alle xi ∈ Ω′i , 1 ≤ i ≤ n:
”
P
(X1 ,...,Xn )
(x1 , ..., xn )
(3)
=
n
Y
P (Xi = xi )
i=1
Definition
=
!
n
⊗P
Xi
i=1
Daher stimmen die zu den Verteilungen P (X1 ,...,Xn ) und
(x1 , ..., xn )
n
⊗ PX
i
gehörigen Wahrscheinlichkeits-
i=1
funktionen auf allen Tupeln (x1 , ..., xn ) ∈ Ω1 × ... × Ωn überein und aus diesem Grund müssen die
beiden Verteilungen gleich sein.
Unabhängige Zufallsvariablen verwendet man üblicherweise zur Modellierung von Ausgängen von Experimenten, die völlig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als
Ziegenproblem oder auch 3-Türen-Problem bekannt ist:
Beispiel 4.19:
Wir betrachten drei Türen mit den Nummern 1 bis 3, wobei hinter einer rein zufälligen Tür ein Gewinn (etwa ein Auto) und hinter den anderen beiden Türen je eine Ziege ist. Die Türen sind natürlich
verschlossen. Das Spiel läuft nun wie folgt ab:
(1) Der Kandidat wählt eine Tür.
4 Zufallsvariablen, Verteilungen
53
(2) Der Moderator öffnet eine der beiden anderen Türen, aber nicht die, hinter welcher sich der Gewinn
befindet.
(3) Der Kandidat darf wechseln.
Die Frage ist nun, ob es sich für den Kandidaten lohnt, zu wechseln.
Wir modellieren das Problem durch folgende Zufallsvariablen:
• X1 := Nummer der Tür, hinter welcher sich der Gewinn befindet (∈ {1, 2, 3}).
• X2 := Nummer der Tür, die der Kandidat in Schritt (1) auswählt (∈ {1, 2, 3}).
Nach unseren Annahmen ist dann
P (X1 = 1) = P (X1 = 2) = P (X1 = 3) =
1
3
(der Gewinn ist rein zufällig verteilt) und die Zufallsvariablen X1 und X2 sind unabhängig (der Kandidat
hat keine Informationen über die Gewinntür.
Verfolgt der Kandidat die Strategie nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also
”
P ( Gewinn“)
”
=
P (X1 = X2 )
3
X
=
P (X1 = i, X2 = i)
i=1
X1 ,X2 unabhängig
=
3
X
i=1
P (X1 = i) ·P (X2 = i)
| {z }
= 13
3
1X
P (X2 = i)
3 i=1
{z
}
|
=
=1
1
.
3
=
Man beachte, dass es für dieses Ergebnis völlig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der
Kandidat mit Vorliebe eine der Türen auswählt.
Verfolgt der Kandidat dagegen die Strategie wechseln“, so gewinnt er genau dann, wenn X1 6= X2 gilt
”
(weil der Moderator dann nur genau eine Tür öffnen kann, hinter der natürlich eine Ziege steht, und der
Kandidat in Schritt (3) dann zwangsläufig auf die Gewinn-Tür wechselt). Es folgt also
1
2
P ( Gewinn“) = P (X1 6= X2 ) = 1 − P (X1 = X2 ) = 1 − = .
”
3
3
Die Strategie wechseln“ ist also deutlich besser!
”
4.20 Definition (Funktionen von Zufallsvariablen):
Sei Ω ein diskreter Grundraum und seien Ω′ , Ω′′ beliebige Mengen. Sei X : Ω
/ Ω′′ eine beliebige Abbildung. Dann wird durch
und g : Ω′
/ Ω′′
g(X) := g ◦ X : Ω
eine Ω′′ -wertige Zufallsvariable g ◦ X durch ω 7→ g(X(ω)) auf Ω definiert.
Beispiel 4.21:
Sei g : Rn
/ R gegeben durch x = (x1 , ..., xn ) 7→
X:Ω
n
P
xi . Ist
i=1
/ Rn , ω 7→ (X1 (ω), ..., Xn (ω))
eine Zufallsvariable, so ist g(X) gegeben durch
ω 7→
n
X
i=1
Xi (ω),
ω ∈ Ω.
/ Ω′ eine Zufallsvariable
54
4 Zufallsvariablen, Verteilungen
Beispiel 4.22:
Sei X : Ω
/ R eine Zufallsvariable und g : R
/ R gegeben durch
x 7→ xk
k
für ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω)) , ω ∈ Ω und wir schreiben auch
X k := g(X)
4.23 Lemma:
/ Ωi , 1 ≤ i ≤ n unabhängige ZufallsvaSei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω
riablen. Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen
Xi1 , ..., Xik
unabhängig.
Beweis:
Laut Satz 4.18 genügt es zu zeigen, dass für alle Aij ⊂ Ω′ij , 1 ≤ j ≤ k, gilt:
P (Xi1 ,...,Xik ) (Ai1 × ... × Aik ) =
k
Y
j=1
P Xij ∈ Aij .
Es gilt
P (Xi1 ,...,Xik ) (Ai1 × ... × Aik )
P (Xi1 ∈ Ai1 , ..., Xik ∈ Aik )
=
P X1 ∈ Ω′1 , ..., Xi1 −1 ∈ Ω′i1 −1 , Xi1 ∈ Ai1 , Xi1 +1 ∈ Ω′i1 +1 , ...
| {z }
|
{z
}
{z
}
|
=
trivial!
trivial!
Ω′ik −1 , Xik
..., Xik −1 ∈
{z
|
trivial!
X1 ,...,Xn unabh.
}
trivial!
∈ Aik , Xik +1 ∈
{z
|
Ω′ik +1 , ..., Xn
trivial!
}
|
∈ Ω′
{z n}
trivial!
P (X1 ∈ Ω′1 ) · ... · P Xi1 −1 ∈ Ω′i1 −1 · P (Xi1 ∈ Ai1 ) ·
· P Xi1 +1 ∈ Ω′i1 +1 · ... · P Xik −1 ∈ Ω′ik −1 · P (Xik ∈ Aik ) ·
· P Xik +1 ∈ Ω′ik +1 · ... · P (Xn ∈ Ω′n )
=
n
Y
=
i=1
i6=ij ∀j∈{1,...,k}
k
Y
=
j=1
P (Xi ∈ Ω′i ) ·
|
{z
}
=1
k
Y
j=1
P Xij ∈ Aij
P Xij ∈ Aij .
Damit ist die Behauptung gezeigt.
4.24 Satz (Blockungslemma):
/ Ωi , 1 ≤ i ≤ n unabhängige ZufallsvaSei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω
riablen. Sei I1 , ..., Ik eine disjunkte Zerlegung der Menge {1, ..., n} und setze cj := #Ij . Seien zuletzt
gj :
×Ω
′
i
/ Ω′′j , j = 1, ..., k
i∈Ij
n
o
beliebige Abbildungen. Ist Ij = ij1 , ..., ijcj , so sind auch die Zufallsvariablen
Yj := gj Xij , ..., Xijc , j = 1, ..., k
1
unabhängig.
j
4 Zufallsvariablen, Verteilungen
55
Beweis:
Es genügt offenbar zu zeigen, dass für eine Abbildung
g : Ω′1 × ... × Ω′m
/ Ω′′ , 1 ≤ m < n,
und X := g (X1 , ..., Xm ) die Zufallsvariablen
X, Xm+1 , ..., Xn
ebenfalls unabhängig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω′i , m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen:
n
Y
i=m+1
P (Xi = xi ) · P (X = y) = P (X = y, Xm+1 = xm+1 , ..., Xn = xn )
(4.1)
Für y ∈ Ω′′ berechnen wir dazu zunächst
P (X = y) = P X −1 ({y})
= P a ∈ Ω | X1 (a) ∈ g −1 ({y}) , ..., Xm (a) ∈ g −1 ({y})
= P (X1 ,...,Xm ) g −1 ({y})
X
p(X1 ,...,Xm ) (a)
=
a∈g −1 ({y})
=
X
P (X1 = a, ..., Xm = a)
a∈g −1 ({y})
Damit folgt
=
P (X = y) · P (Xm+1 = xm+1 , ..., Xn = xn )
X
P (X1 = a, ..., Xn = a) · P (Xm+1 = xm+1 , ..., Xn = xn )
a∈g −1 ({y})
Unabhängigkeit, Lemma 4.23
=
X
P (X1 = a, ..., Xm = a, Xm+1 = xm+1 , ..., Xn = xn )
a∈g −1 ({y})
=
P X1 ∈ g −1 ({y}) , ..., Xm ∈ g −1 ({y}) , Xm+1 = xm+1 , ..., Xn = xn
=
P (X = y, Xm+1 = xm+1 , ..., Xn = xn )
Damit ist 4.1 und daher die Behauptung gezeigt.
Beispiel 4.25:
Sind X1 , ..., Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in R, so sind auch die Zufallsvariablen
X12 , ..., Xn2
unabhängig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 ≤ i ≤ n und
g1 (x) = g2 (x) = ... = gn (x) = x2 an.
Genauso folgt dann die Unabhängigkeit von
|X1 |, ..., |Xn |
oder
X12 , |X2 |, |X3 |5 , ...
usw..
Beispiel 4.26:
Seien X1 , ..., X5 unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit
Werten in R. Dann sind auch die Zufallsvariablen
X1 sin(X4 ), X2 · exp(X3 · X5 )
unabhängig. Um das zu sehen wende das Blockungslemma auf I1 = {1, 4} und I2 = {2, 3, 5} mit g1 (x, y) =
x · sin(y), g2 (x, y, z) = x · exp (y · z) an.
56
4.2
4 Zufallsvariablen, Verteilungen
Verteilungen
Sei stets (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω
/ Ω′ eine Zufallsvariable.
4.27 Definition:
Ist Ω′ = {x1 , ..., xn }, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls
1
∀ k = 1, ..., n.
n
P (x = xk ) =
4.28 Definition:
Ist Ω′ = {0, 1}, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0, 1], falls
P (X = 1) = p, P (x = 0) = 1 − p.
Wir schreiben dann auch X ∼ B (1, p).
4.29 Definition:
Ist Ω′ = {1, ..., n}, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0, 1] , n ∈ N, falls
n k
n−k
P (X = k) =
p (1 − p)
, k = 0, ..., n.
k
Wir schreiben dann auch X ∼ B (n, p).
Abbildung 6: Binomialverteilungen B(n, p) mit p = 0.1, 0.2, 0.5, 0.8
4.30 Satz:
Seien X1 , ..., Xn unabhängige Zufallsvariablen auf (Ω, P ) und es gelte Xi ∼ B(1, p) für jedes i ∈ {1, ..., n}
mit festem p ∈ [0, 1]. Dann gilt
X1 + ... + Xn ∼ B(n, p).
Beweis:
Es ist
X
P (X1 + ... + Xn = k) =
n
Für jedes (a1 , ..., an ) ∈ {0, 1} mit
P (X1 = a1 , ..., Xn = an )
Außerdem ist
(
# (a1 , ..., an ) ∈ {0, 1}
n
|
n
X
n
P
P (X1 = a1 , ..., Xn = an )
(a1 ,...,an )∈{0,1}n
n
P
ai =k
i=1
ai = k gilt
i=1
X1 ,...,Xn unabhängig
ai = k
i=1
Damit folgt schon die Behauptung.
=
)
n−k
P (X1 = a1 ) · ... · P (Xn = an ) = pk (1 − p)
=
#k − elementige Teilmengen einer n − elementigen Menge
=
n
.
k
4 Zufallsvariablen, Verteilungen
57
4.31 Definition:
Ist Ω′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0, 1], falls
P (X = k) = p · (1 − p)
k−1
, k ∈ N.
Wir schreiben dann auch X ∼ Geo(p).
Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5, 0.25, 0.1
4.32 Lemma:
Ist X ∼ Geo(p), so gilt
k−1
P (X ≥ k) = (1 − p)
für jedes k ∈ N.
Beweis:
Es ist
P (X ≥ k)
=
∞
X
P (X = j)
j=k
=
∞
X
j=k
(1 − p)
j−1
k−1
= p · (1 − p)
=
k−1
(1 − p)
p
∞
X
j=0
|
j
(1 − p)
{z
1
=p
}
für jedes k ∈ N. Das zeigt die Behauptung.
Bemerkung 4.33:
In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der
Überlebenswahrscheinlichkeit“.
”
Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k
Arbeitsgänge hält, so verwendet man X ∼ Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen
festen Arbeitsgang überlebt.
4.34 Lemma:
Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedächtnislosigkeit, nämlich
P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j, k ∈ N.
58
4 Zufallsvariablen, Verteilungen
Beweis:
Seien k, j ∈ N. Da k ≥ 1 ist stets
{X ≥ k + j} ∩ {X > j} = {ω ∈ Ω | X(ω) ≥ k + j} ∩ {ω ∈ Ω | X(ω) ≥ j + 1} = {X ≥ k + j}
(4.2)
Damit folgt
P (X ≥ k + j | X > j)
(4.2)
=
P (X ≥ k + j)
P (X ≥ j + 1)
k+j−1
=
(1 − p)
=
(1 − p)
Lemma 4.32
Lemma 4.32
=
j
(1 − p)
k−1
P (X ≥ k) .
Damit ist die Behauptung gezeigt.
Bemerkung 4.35:
Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Übungsblatt 5.
Bemerkung 4.36:
Betrachtet man X ∼ Geo(p) als Überlebenswahrscheinlichkeit“, so sagt die Gedächtnislosigkeit genau,
”
dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind.
4.37 Definition:
Ist Ω′ = N0 , so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0, ∞), falls
λk
, k ∈ N0 .
P (X = k) = exp (−λ) ·
{z k!}
|
=poiλ (k)
Wir schreiben dann auch X ∼ Poi(λ).
Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2, 4, 10, 16
Bemerkung 4.38:
Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B.
• Anrufen pro Minute in einem Call-Center,
• der Anzahl radioaktiver Zerfälle pro Zeitintervall und
• der Anzahl von Meteoriteneinschlägen in einem Gebiet pro Zeitintervall.
Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler möglicher, aber nur mit kleiner
Wahrscheinlichkeit eintretender Ereignisse gewählt werden.
4 Zufallsvariablen, Verteilungen
4.2.1
59
Eigenschaften der Possionverteilung
4.39 Satz (Poisson-Grenzwertsatz):
Ist (Xn )n≥1 eine Folge von B(n, pn ) verteilten Zufallsvariablen mit n · pn
lim P (Xn = k) = poiλ (k)
n
/∞
/ λ ∈ (0, ∞), so gilt
für k = 0, 1, ...
n→∞
Beweis:
Zunächst gilt
P (Xn = k)
n
=
· pkn · (1 − p)n−k
k
=
=
npn n
n · (n − 1) · ... · (n − k + 1) 1
· (1 − pn )−k
· k · (n · pn )k · 1 −
k!
n
n
n n−1
n − k + 1 (n · pn )k n · p n n
·
· ... ·
·
· 1−
· (1 − pn )−k
n
n
n
k!
n
Berechnen wir nun die Grenzwerte einzeln, so haben wir
n n−1
n−k+1
·
· ... ·
n
n
n
(n · pn )k
k!
n · p n n
1−
n
(1 − pn )−k
Das liefert
P (Xn = k)
n
/∞
n
/∞
/
1,
n
/∞
/
λk
,
k!
n
/∞
/
exp(−λ),
n
/∞
/
1.
k
/ exp(−λ) · λ
k!
mit der obigen Darstellung und zeigt die Behauptung.
Die folgende Fehlerabschätzung wollen wir nur ohne Beweis angeben:
4.40 Satz (Fehlerabschätzung für die Poisson-Approximation der Binomialverteilung):
Sei X ∼ B(n, p) und λ := n · p. Dann gilt für jede Teilmenge A ⊂ {0, 1, 2, ...}:
X
poiλ (k) ≤ (1 − exp(−np)) · p
P (x ∈ A) −
k∈A
≤ p.
Insbesondere ist
Beispiel 4.41:
k
P (X = k) − exp(−λ) · λ ≤ (1 − exp(−np)) · p
k! ∀k = 0, 1, 2, ...
Sei n = 1000 und p = 10−3 . Dann ist der Fehler der Approximation:
X
poiλ (k) ≤ (1 − exp(1)) · 10−3 ≈ 0.64 · 10−3 = 0.00064
P (x ∈ A) −
k∈A
60
5
5.1
5 Kenngrößen von Verteilungen
Kenngrößen von Verteilungen
Der Erwartungswert
5.1 Lemma:
Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf
Ω. Dann gilt
X
X
|X(ω)| · P (ω) < ∞ ⇔
|x| · P X (x) < ∞
x∈Ω′
ω∈Ω
und in diesem Falle
X
ω∈Ω
X
X(ω) · P (ω) =
x∈Ω′
x · P (X = x).
Beweis:
Wir berechnen
X
ω∈Ω
X(ω) · P (ω) =
X
X
x∈Ω′
ω∈Ω
X(ω)=x
X
X
=
x∈Ω′
X
=
x∈Ω′
=
X
x∈Ω′
ω∈Ω
X(ω)=x
x·
X(ω) · P (ω)
x · P (ω)
X
P (ω)
ω∈Ω
X(ω)=x
x · P (X = x).
Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die < ∞“-Bedingungen äquivalent sind.
”
5.2 Definition:
Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf
Ω. Wir definieren den Erwartungswert E(X) von X durch
X
X
E(X) :=
X(ω) · P (ω), falls
|X(ω)| · P (ω) < ∞
(5.1)
ω∈Ω
=
X
x∈Ω′
ω∈Ω
x · P (X = x), falls
X
x∈Ω′
|x| · P X (x) < ∞.
(5.2)
Bemerkung 5.3:
(5.2) zeigt, dass E(X) nur von der Verteilung P X von X abhängt. E(X) ist in diesem Sinne also eine
Kenngröße“ der Verteilung von X.
”
Bemerkung 5.4:
Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist.
Bemerkung 5.5:
Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die
< ∞“-Forderung verzichten und lässt auch E(X) = ∞ zu.
”
5.1.1
Erwartungswerte einiger Verteilungen
Beispiel 5.6:
Sei X Laplace-verteilt auf Ω′ = {x1 , ..., xN } ⊂ R. Dann gilt
E(X) =
N
X
i=1
xi · P (X = xi ) =
N
1 X
xi ,
·
N i=1
da P (X = xi ) =
Ein Spezialfall ist {x1 , ..., xN } = {1, ..., N }. Dann ist
E(X) =
N
N +1
1 N (N + 1)
1 X
·
=
.
i=
N i=1
N
2
2
Bei einem herkömmlichen Würfel ist demnach E(X) = 3.5.
1
.
N
5 Kenngrößen von Verteilungen
61
Beispiel 5.7:
Sei X ∼ B(1, p) eine Bernoulli-verteilte Zufallsvariable mit Ω′ = {0, 1} und P (X = 1) = p. Dann ist
E(X) = 0 · (1 − p) + p = p.
Insbesondere liefert das für die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrscheinlichkeitsverteilung P auf Ω, dass X ∼ B(1, p) mit p = P (A), also E(X) = P (A).
Damit ist für das Würfeln einer geraden Zahl (also A = {2, 4, 6} ⊂ {1, ..., 6}) der Erwartungswert
E(1A ) = P (A) =
1
,
2
was der Intuition entspricht.
Beispiel 5.8:
Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von
E(X) =
n X
k=0
n
k
n−k
k·
· p · (1 − p)
k
einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.
Beispiel 5.9:
Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist
E(X)
=
∞
X
k=0
=
k · exp(−λ) ·
λk
k!
∞
X
λk−1
exp(−λ) · λ ·
(k − 1)!
k=1
=
=
exp(−λ) · λ ·
∞
X
λk
k=0
k!
exp(−λ) · λ · exp(λ)
= λ.
5.10 Hilfssatz:
Sei X eine diskrete Zufallsvariable auf (Ω, P ) mit Werten in N0 . Dann gilt
E (X) =
∞
X
n=1
Beweis:
Nach 5.1 gilt
E (X) =
∞
X
n=0
P (X ≥ n) .
n · P (X = n) =
∞
X
n=1
(5.3)
n · P (X = n) ,
und diese Summe konvergiert absolut. Daher können wir Umordnen und erhalten so
E (X) =
∞
∞ X
X
n=1 k=n
P (X = k) =
∞
X
n=1
P (X ≥ n) ,
was die Behauptung zeigt.
Beispiel 5.11:
Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = p1 .
62
5 Kenngrößen von Verteilungen
Beweis:
Anwenden von Hilfssatz 5.10 liefert
∞
X
(5.3)
E (X)
=
n=1
∞
X
Lemma 4.32
=
n=1
∞
X
=
n=0
P (X ≥ n)
n−1
(1 − p)
n
(1 − p)
1
1 − (1 − p)
=
1
,
p
=
womit die Behauptung schon gezeigt ist.
Das heißt beim Würfeln mit X =“Warten auf die erste 6“:
1
E(X) = 1 = 6.
6
5.1.2
Eigenschaften des Erwartungswertes
5.12 Satz (Transformationsformel):
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω′ und
g := Ω′ → R eine Abbildung mit
X
|g(x)| · P (X = x) < ∞.
x∈Ω′
Dann ist
E(g(X)) =
X
x∈Ω′
g(x) · P (X = x).
Beweis:
Für die Verteilung von Y = g ◦ X gilt:
P (Y = y) = P (g ◦ X = y)
= P ({ω | g ◦ X(ω) = y})



 X
{ω | X(ω) = x}
= P
x∈Ω
g(x)=y
X
=
P (X = x)
x∈Ω
g(x)=y
Damit erhalten wir
E(g(X))
= E(Y )
X
=
y · P (Y = y)
y∈Y (Ω)
=
X
y∈Y (Ω)
=
X
y·
X
X
y∈Y (Ω) x∈g −1 ({y})
=
X
X
y∈Y (Ω) x∈g −1 ({y})
=
X
x∈Ω′
P (X = x)
x∈g −1 ({y})
y · P (X = x)
g(x) · P (X = x)
g(x) · P (X = x)
Die selbe Rechnung mit Beträgen zeigt, dass der Erwartungswert E (g(X)) im definierten Sinne existiert.
5 Kenngrößen von Verteilungen
63
Beispiel 5.13:
Sei g(x) = xk . Dann heißt
E(X k ) =
X
xk P (X = x)
k = 1, 2, ...
x∈Ω′
das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das 1.Moment von X“
”
gleich dem Erwartungswert von X.
5.14 Satz (Linearität und Monotonie des Erwartungswertes):
Seinen X, Y Zufallsvariablen auf (Ω, P ), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Dann
gelten die folgenden Rechenregeln:
(1) E(X + Y ) = E(X) + E(Y )
(2) E(aX) = a · E(X)
(3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω)
Beweis:
(1) Per Definition gilt
E(X + Y ) =
X
(X + Y )(ω) · P (ω)
ω∈Ω
=
X
ω∈Ω
=
X
ω∈Ω
(X(ω) + Y (ω)) · P (ω)
X(ω) · P (ω) +
X
ω∈Ω
Y (ω) · P (ω)
= E(X) + E(Y ).
Die gleiche Rechnung mit Beträgen zeigt, dass E(X + Y ) existiert.
(2) Hier ist
E(aX) =
X
ω∈Ω
a · X(ω) · P (ω) = a ·
X
ω∈Ω
X(ω) · P (ω) = a · E(X).
(3) Zuletzt berechnet man
E(X) =
X
ω∈Ω
X(ω) · P (ω) ≥
X
ω∈Ω
Y (ω) · P (ω) = E(Y ).
Damit ist der Satz bewiesen.
Beispiel 5.15:
Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable und seien X1 , X2 , ..., Xn unabhängig nach B(1, p)
verteilt. Nach Satz 4.30 ist dann X1 + X2 + ... + Xn ∼ B(n, p), das heißt X und X1 + X2 + ... + Xn haben
die gleiche Verteilung. Folglich gilt
E(X) = E(X1 + X2 + ... + Xn )
Linearität
=
E(X1 ) + E(X2 ) + ... + E(Xn ) = n · p,
da E(X1 ) = ... = E(Xn ) = p für Bernoulli-verteilte X1 , ..., Xn .
Beispiel 5.16:
Sei X(a1 , a2 , ..., an ) gleich der Anzahl der Fixpunkte der Permutation a1 , a2 , ..., an von 1, 2, ..., n.
Für n = 4 gilt dann z.B. X(1, 4, 3, 2) = 2.
Allgemein schreiben wir:
X(a1 , a2 , ..., an ) = #{i | ai = i}
Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Für Ai = {(a1 , ..., an ) | ai = i} gilt
dann
n
X
1Ai .
X=
i=1
Mit Hilfe der Linearität können wir zeigen:
!
n
n
n
n
X
X
X
X
1
P (Ai ) =
E(X) = E
E(1Ai ) =
1Ai =
= 1.
n
i=1
i=1
i=1
i=1
64
5 Kenngrößen von Verteilungen
Beispiel 5.17 (Sammlerproblem):
Wir ziehen aus einer Urne mit n Kugeln, welche mit 1, ..., n nummeriert sind, mit Zurücklegen bis jede
Kugel mindestens einmal gezogen wurde. Wir wollen nun die benötigte Anzahl X von Ziehungen modellieren und den Erwartungswert E(X) bestimmen.
n
Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo( n−i
n ) und E(Xi ) = n−i nach Beispiel 5.11.
(Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen“ nachdem bereits i ver”
schiedene Kugeln gezogen wurden, insbesondere X0 ≡ 1)
Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1, X1 =
2, X2 = 3, X4 = 2.
Man berechnet
E(X)
= E(X0 ) + E(X1 ) + ... + E(Xn − 1)
n
n
n
n
=
+
+
+ ... +
n n−1 n−2
1
n
X1
= n·
i
i=1
≈ n · ln(n).
Damit können wir den Erwartungswert für n = 3, 10, 100 und 10000 berechnen:
n
5.1.3
E(X)
3
5.5
10
29.3
100
518.7
10000
97876.1
Produktformel
Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets
E (X · Y ) = E (X) · E (Y )
(5.4)
gilt.
Beispiel 5.18:
Sei X ∼ B(1, p) und Y = X. Dann haben wir
E (X · Y ) = E X 2 = E (X) = p,
da X 2 = X, denn schließlich nimmt X nur Werte in {0, 1} an. Andererseits ist aber
2
E (X) · E (Y ) = (E (X)) = p2 .
Für p ∈ (0, 1) gilt aber p2 6= p, womit (5.4) im Allgemeinen also falsch ist.
5.19 Satz (Produktformel für unabhängige Zufallsvariablen):
Seien X, Y unabhängige Zufallsvariablen auf (Ω, P ) mit existenten Erwartungswerten E(X), E(Y ). Dann
gilt
E (X · Y ) = E(X) · E(Y ).
5 Kenngrößen von Verteilungen
65
Beweis:
Mittels der ersten Definition des Erwartungswerts (5.1) berechnet man
X
E (X · Y )
=
(X · Y ) (ω)P ({ω})
ω∈Ω
=
X
ω∈Ω
=
X(ω) · Y (ω) · P ({ω})
X
X
x∈X(Ω) y∈Y (Ω)
=
X
X
x∈X(Ω) y∈Y (Ω)
=
X
X
X
ω∈Ω
X(ω)=x,Y (ω)=y
x·y
X (ω) · Y (ω) ·P ({ω})
|
{z
}
=x·y
X
P ({ω})
ω∈Ω
X(ω)=x,Y (ω)=y
P (X = x, Y = y)
x∈X(Ω) y∈Y (Ω)
X,Y unabhängig
=
X
X
x∈X(Ω) y∈Y (Ω)
=


X
x∈X(Ω)
P (X = x) · P (Y = y)
 
xP (X = x) · 
X
y∈Y (Ω)

yP (Y = y) ,
was nach der zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht.
Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, führt man zunächst die selbe Rechnung mit
Beträgen durch.
Beispiel 5.20:
Wir betrachten zwei faire Würfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“.
Mit obigem Satz gilt dann
2
7
E (X · Y ) = E (X) · E (Y ) =
.
2
5.2
Varianzen
5.21 Definition:
Sei X eine reelle Zufallsvariable mit E X 2 < ∞. Dann wird die Varianz von X definiert durch
2
V (X) := E (X − E (X)) .
Ebenso definiert man die Standardabweichung σX von X als
σX :=
p
V (X).
Bemerkung 5.22:
(1) Da E X 2 < ∞ ist und für jede reelle Zahl x ∈ R auch |x|≤ 1 + x2 gilt, ist auch E (|X|) < ∞
und daher existiert E (X) unter der Voraussetzung E X 2 < ∞. Insbesondere ist V (X) also
wohldefiniert.
2
(2) Da (X − E(X)) ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert.
(3) X − E(X) geht aus X durch Zentrieren“ hervor, d.h.
”
E (X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0,
da der Erwartungswert E(E(X)) der festen Zahl E(X) (d.h. der konstanten Zufallsvariable ω 7→
E(X)) natürlich wieder E(X) selbst ist.
Bemerkung 5.23:
Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).
66
5 Kenngrößen von Verteilungen
Bemerkung 5.24:
Nach der Transformationsformel für den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) :=
2
(x − E(X)) , x ∈ R:
X
Transformationsformel
2
V (X) = E(g(X))
=
(x − E(X)) · P (X = x) .
(5.5)
x∈X(Ω)
Beispiel 5.25:
Wir betrachten das einmalige Würfeln mit einem fairen Würfen und definieren die Zufallsvariable X als
die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 27 , und daher ist die Varianz von X nach
obiger Bemerkung gegeben als
2
6 X
7
1
35
x−
V (X) =
=
.
2
6
12
x=1
5.26 Definition:
Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω, P ). Falls
k
E (X − E(X))
existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.
Bemerkung 5.27:
Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch die
Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine Kenngröße“
”
der Verteilung.
5.28 Definition:
Seien X, Y reelle Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞. Dann wird die Kovarianz von X und
Y definiert durch
CoV (X, Y ) = E ((X − E(X)) · (Y − E(Y ))) .
Bemerkung 5.29:
Für eine reelle Zufallsvariable gilt dann
CoV(X, X) = V (X).
5.30 Satz (Rechenregeln für die Varianz):
Seien X, Y und Xi für 1 ≤ i ≤ n reelle Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞ und E Xi2 < ∞,
1 ≤ i ≤ n. Seien außerdem a, b ∈ R. Dann gelten die folgenden Rechenregeln
2
(V1) V (X) = E X 2 − (E (X)) , insbesondere ist V (X) < ∞.
(V2) V (aX + b) = a2 · V (X).
(V3) CoV (X, Y ) = E (X · Y ) − E (X) · E (Y ).
(V4) Für Summen gilt
V
n
X
i=1
Xi
!
=
n
X
i=1
V (Xi ) −
(V5) Sind X1 , ..., Xn unabhängig, so gilt sogar
V
n
X
i=1
Xi
!
=
n
X
CoV (Xi , Xj ) .
i,j=1
i6=j
n
X
V (Xi ) .
i=1
Beweis:
(V1) Mittels der Linearität des Erwartungswerts hat man
2
V (X) = E (X − E (X))
2
= E X 2 − 2E (X) · X + (E (X))
2
= E X 2 − 2E (X) · E (E (X)) + E (E (X))
2
2
= E X 2 − 2 (E (X)) + (E (X))
2
= E X 2 − (E (X)) .
5 Kenngrößen von Verteilungen
67
Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natürlich der Wert der Zufallsvariablen selbst ist.
(V2) Es ist
2
V (aX + b) = E ((aX + b) − E (aX + b))
2
= E (aX + b − aE (X) − E (b))
2
= E a2 (X − E(X))
2
= a2 E (X − E(X))
= a2 V (X).
(V3) Man berechnet
CoV (X, Y )
= E ((X − E(X)) · (Y − E(Y )))
= E (X · Y − X · E(Y ) − Y · E(X) + E (X) · E (Y ))
= E (X · Y ) − E (X) · E(E(Y )) − E(Y ) · E(E(X)) + E(E(X)) · E(E(Y ))
= E (X · Y ) − E (X) · E (Y ) − E (Y ) · E (X) + E (X) · E (Y )
= E (X · Y ) − E (X) · E (Y ) .
Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen
natürlich der Wert der Zufallsvariablen selbst ist.
(V4) Wir setzen Zi := Xi − E (Xi ) für 1 ≤ i ≤ n. Dann ist
!
n
n
n
n
X
X
X
X
Zi ,
(Xi − E (Xi )) =
Xi − E
Xi =
i=1
womit
V
n
X
i=1
Xi
!
=
(5.6)
=
=
=
=

n
X
E
i=1
=
Xi − E
i=1
n
X
E

E
n
X
n
X
n
X
i=1
!!2 

Xi
i=1

i=1
Zi =Xi −E(Xi )
n
X
!2 
n
X
E
Zi 

i=1
n
X
i,j=1
i,j=1
=
(5.6)
i=1
i=1
i=1

!  n
X
Zj 
Zi · 
j=1

Zi · Zj 
E (Zi · Zj )
n
X
E (Zi · Zj )
E Zi2 +
i,j=1
i6=j
V (Xi ) +
n
X
CoV (Xi , Xj )
i,j=1
i6=j
folgt.
(V5) Nach Satz 5.19 gilt wegen der Unabhängigkeit von X1 , ..., Xn für alle Paare 1 ≤ i, j ≤ n, i 6= j:
E (Xi · Xj ) = E (Xi ) · E (Xj ) .
Mit Regel (V3) ist also CoV (Xi , Xj ) = 0 falls i 6= j. Damit folgt (V5) aus (V4).
68
5 Kenngrößen von Verteilungen
Bemerkung 5.31:
Im Beweis von (V5) haben wir gezeigt, dass für unabhängige, reelle Zufallsvariablen X, Y stets
CoV (X, Y ) = 0
gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:
Beispiel 5.32:
Betrachte eine Zufallsvariable X mit Werten in {−N, ..., N } auf einem diskreten Wahrscheinlichkeitsraum
(Ω, P ). Wir nehmen an, dass
P (X = n) = P (X = −n) ∀ n ∈ {−N, ..., N }
und 0 < P (X = 0) < 1 gilt.
Dann gilt CoV X, X 2 = 0, aber X und X 2 sind nicht unabhängig.
Beweis:
Zunächst ist
E (X)
N
X
(5.1)
=
k=−N
k · P (X = k)
0 · P (X = 0) +
=
N
X
=
k=1
=
0.
N
X
k=1
k · P (X = k) −
N
X
k=1
k · P (X = −k)
k · (P (X = k) − P (X = −k))
|
{z
}
=0 nach Voraussetzung
(5.7)
Genauso folgt mit der Transformationsformel (Satz 5.12) für g(x) = x3 , dass
E X3
N
X
(5.1)
=
k=−N
k 3 · P (X = k)
03 · P (X = 0) +
=
N
X
=
k=1
=
0.
N
X
k=1
k 3 · P (X = k) −
N
X
k=1
k 3 · P (X = −k)
k 3 · (P (X = k) − P (X = −k))
|
{z
}
=0 nach Voraussetzung
(5.8)
Damit folgt nach Definition der Kovarianz
CoV X, X 2
=
=
=
(5.7) & (5.8)
=
E
X−
E(X)
| {z }
=0 nach (5.7)
X2 − E X2
E X3 − X · E X2
E X 3 − E (X) · E X 2
0.
Bleibt zu zeigen, dass X und X 2 nicht unabhängig sind. Dazu nehmen wir an, X und X 2 wären unabhängig. Dann gilt insbesondere
2
2
P (X,X ) (0, 0) = P X (0) · P X (0)
5 Kenngrößen von Verteilungen
69
Beachten wir nun, dass X 2 = 0 ⇔ X = 0, so folgt
P (X = 0)
= P (X = 0, X = 0)
= P X = 0, X 2 = 0
2
= P (X,X ) (0, 0)
2
= P X (0) · P X (0)
= P (X = 0) · P X 2 = 0
=
2
(P (X = 0)) ,
was ein Widerspruch zu P (X = 0) ∈ (0, 1) ist. Es folgt die Behauptung.
5.33 Definition:
Seien X, Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls
CoV (X, Y ) = 0
gilt.
Es gilt also:
unabhängig
5.2.1
⇒
unkorreliert
6
⇐
Varianzen einiger diskreter Verteilungen
Beispiel 5.34:
Sei X ∼ B (1, p) für p ∈ [0, 1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und
daher gilt wegen X 2 = X (X hat wieder nur Werte in {0, 1}):
2
V (X) = E X 2 − (E (X))
2
= E (X) − (E (X))
= p − p2
= p · (1 − p) .
V (X)
0
1
p
Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1, p) in Abhängigkeit von
p ∈ [0, 1]
Beispiel 5.35:
Sei X ∼ B(n, p) mit n ∈ N und p ∈ [0, 1]. Seien außerdem X1 , ..., Xn ∼ B (1, p) unabhängig. Nach Satz
4.30 gilt dann
X1 + ... + Xn ∼ B (n, p) ,
weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung
abhängt, gilt also
!
n
X
V (X)
=
V
Xi
i=1
(V5)
n
X
V (Xi )
i=1
Beispiel 5.34
=
np (1 − p)
70
5 Kenngrößen von Verteilungen
Beispiel 5.36:
Sei X ∼ Poi (λ) für ein 0 < λ < ∞. Dann ist
P (X = k) = exp (−λ) ·
λk
für k ∈ N
k!
und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und
haben so
2
V (X) = E X 2 − (E(X)) = E X 2 − λ2 .
Zur Berechnung von E X 2 nutzen wir den folgenden Trick:
E X 2 = E X 2 − X + E (X) .
Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k 2 − k auf E(X 2 − X) = E(g(X)) an und
erhalte so
E X2 − X
=
E (g(X))
Transformationsformel
=
∞
X
k=0
=
∞
X
k=0
=
∞
X
k=2
=
k 2 − k P (X = k)
k (k − 1) exp (−λ)
λk
k!
k (k − 1) exp (−λ)
λk
k!
exp (−λ)
∞
X
k=2
=
λ2 exp (−λ)
λk
(k − 2)!
∞
X
λk
k=0
k!
=
λ2 exp (−λ) exp (λ)
=
λ2 .
Das ergibt zusammen
Beispiel 5.37:
2
V (X) = E X 2 − X + E (X) − (E (X)) = λ2 + λ − λ2 = λ
Sei X ∼ Geo(p) für ein p ∈ [0, 1]. Wir haben schon gesehen, dass dann E(X) =
zu berechnen, nutzen wir das folgende
5.38 Lemma:
Ist X eine Zufallsvariable mit Werten in N, so gilt
∞
X
(2n − 1) P (X ≥ n) .
E X2 =
n=1
Beweis:
Mit der Transformationsformel (Satz 5.12) für g(k) := k 2 folgt direkt
E (X) =
∞
X
n=0
n2 P (X = n) =
∞
X
n=1
n2 P (X = n) .
1
p
gilt. Um die Varianz
5 Kenngrößen von Verteilungen
71
Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:
∞
X
n2 P (X = n)
=
1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ...
=
(P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ...
=
(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)
n=1
+5P (X = 3) + 12P (X = 4) + ...
=
(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)
+5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...
=
∞
X
n=1
(2n − 1) · P (X ≥ n) .
Es folgt die Behauptung.
Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1 − p)
E X2
k−1
, womit dann
∞
1X
n−1
p (2n − 1) (1 − p)
p n=1
=
∞
1X
(2n − 1) P (X = n)
p n=1
=
gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k − 1 rückwärts an und erhalten
so
E X2
=
1
E ((2X − 1))
p
=
1
1
2E(X) −
p
p
=
1
2
−
p2
p
=
2−p
.
p2
Für die Varianz gilt damit
V (X)
(V1)
=
2−p
1
1−p
2
E X 2 − (E (X)) =
− 2 =
.
p2
p
p2
72
6
6.1
6 Wahrscheinlichkeitsungleichungen und das SGGZ
Wahrscheinlichkeitsungleichungen und das SGGZ
Das schwache Gesetz großer Zahlen (SGGZ)
6.1 Satz (Markov-Ungleichung):
Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω, P ).
Dann gilt für jedes reelle a > 0:
P (X ≥ a) ≤
E(X)
a
(6.1)
Beweis:
Es gilt
P (X ≥ a)
X
=
P (X = x)
x∈X(Ω),x≥a
≤
≤
=
X
x∈X(Ω),x≥a
X
x∈X(Ω)
x
P (X = x)
a
x
P (X = x)
a
1
E(X),
a
was die Behauptung zeigt.
6.2 Satz (Tschebyschow-Ungleichung):
Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < ∞. Dann gilt für jedes reelle a > 0:
P (|X − E(X)| ≥ a) ≤
V (X)
a2
(6.2)
Beweis:
Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist
|X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a2 .
(6.3)
Damit gilt
P (|X − E(X)| ≥ a)
(6.3)
=
(6.1)
≤
=
2
P (X − E(X)) ≥ a2
2
E (X − E(X))
a2
V (X)
,
a2
womit die Behauptung gezeigt ist.
Folgerung 6.3:
Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < ∞. Dann gilt für jedes reelle c > 0:
P (|X − E(X)| ≥ cσX ) ≤
1
c2
Beweis:
p
Wende (6.2) mit a = cσX an und nutze σX = V (X).
Bemerkung 6.4:
Für jede reelle, diskrete Zufallsvariable X mit E X 2 < ∞ gilt also
usw.
P (|X − E(X)| ≥ 2σX )
≤
P (|X − E(X)| ≥ 3σX )
≤
1
4
1
9
(6.4)
6 Wahrscheinlichkeitsungleichungen und das SGGZ
73
Beispiel 6.5:
Wir betrachten 100 faire Münzwürfe
und definieren die Zufallsvariable X als die Anzahl der ”Kopf“Ergebnisse. Dann ist X ∼ B 100, 21 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 41 = 25. Also
ist σX = 5 und daher haben wir nach (6.4):
P (|X − 50| ≥ 10)
≤
P (|X − 50| ≥ 15)
≤
1
4
1
9
Bemerkung 6.6:
Die Abschätzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, können oft verbessert
werden. Siehe dazu etwa später die Exponentialungleichungen oder den zentralen Grenzwertsatz.
6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)):
Seien X1 , ..., Xn unabhängige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω, P ) und es gelte
E Xi2 < ∞ für jedes 1 ≤ i ≤ n. Dann gilt für jedes ε > 0:
n
!
1 X
/∞
V (X1 ) n
/ 0.
Xi − E (X1 ) ≥ ε ≤
(6.5)
P n
nε2
i=1
Beweis:
Zunächst halten wir fest, dass
!
n
1X
E (Xi ) .
n i=1
E (X1 ) = E
Außerdem gilt E (X1 ) = E (Xi ) für jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung die
gleiche Verteilung besitzen.
Daher folgt mit der Tschebyschow-Ungleichung:
n
P
1
n
!
V
X
i
1 X
n
(6.2)
i=1
≤
Xi − E (Xi ) ≥ ε
P n
ε2
i=1
n
P
Xi
V
(V2)
i=1
=
n2 ε2
n
P
V (Xi )
X1 ,...,Xn unabhängig
i=1
=
n2 ε2
V (X1 )
=
.
nε2
Das zeigt die Behauptung.
Bemerkung 6.8:
Damit liegt für große n der empirische Mittelwert
n
1X
Xi
n i=1
mit hoher Wahrscheinlichkeit in der ε-Nähe des Erwartungswertes E(X1 ).
6.1.1
Spezialfall - Das SGGZ von Bernoulli
6.9 Satz:
Seien Xi ∼ B(1, p) für ein p ∈ [0, 1] und 1 ≤ i ≤ n, außerdem seien X1 , ..., Xn unabhängig. Dann gilt
!
n
1 X
1
.
(6.6)
X i − p ≥ ε ≤
P n
4nε2
i=1
74
6 Wahrscheinlichkeitsungleichungen und das SGGZ
Beweis:
Wir wissen schon, dass E (X1 ) = p und V (X1 ) = p · (1 − p) gilt. Nach dem SGGZ gilt also
!
n
1 X
p · (1 − p)
.
X i − p ≥ ε ≤
P n
nε2
i=1
Offenbar ist aber p · (1 − p) ≤
1
4
∀ p ∈ R, womit die Behauptung folgt.
Beispiel 6.10:
Wir betrachten 1000 faire Münzwürfe und setzen
(
1 Kopf im i-ten Wurf
Xi :=
.
0 Zahl im i-ten Wurf
Dann gilt Xi ∼ B 1, 12 für alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1 , ..., X1000 sind unabhängig.
Nun setzen wir
1000
X
Xi ,
X :=
i=1
was der Anzahl an Kopf-Würfen in 1000 Würfen entspricht. Es ist
E (X) =
1000
X
E (Xi ) =
1000
X
i=1
i=1
1
= 500
2
und entsprechend berechnet man mit dem SGGZ von Bernoulli:
P (X ≤ 400 oder X ≥ 600)
=
=
(6.6)
≤
=
P (|X − 500| ≥ 100)
!
1 1000
X
1 1
Xi − ≥
P 1000
2 10
i=1
1
4 · 1000 ·
1
100
1
= 0.025.
40
Damit ist auch
P (400 < X < 600) = 1 − P (X ≤ 400 oder X ≥ 600) ≥ 1 − 0.025 = 0.975.
6.2
Exponential-Ungleichungen
Notation 2:
Sind X1 , ..., Xn unabhängige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) gegeben, so schreiben wir auch
Xi
i.i.d.
∼
B (1, p) ,
falls die Verteilung die Bernoulli-Verteilung ist usw..
i.i.d. steht dabei für independent identically distributed“.
”
6.11 Satz (Bernstein-Ungleichung):
i.i.d.
Seien Xi ∼ B (1, p) für ein p ∈ [0, 1]. Dann gilt für alle ε > 0:
!
n
1
1X
Xi − p ≥ ε
≤ exp − nε2 ,
P
n i=1
4
!
n
1
1X
Xi − p ≤ −ε
≤ exp − nε2 ,
P
n i=1
4
!
n
1 X
1 2
P X i − p ≥ ε
≤ 2 exp − nε .
n
4
i=1
(6.7)
6 Wahrscheinlichkeitsungleichungen und das SGGZ
75
Beweis:
Offenbar folgt die dritte Ungleichung mittels der Boole’schen Ungleichung (1.7) bereits aus den ersten
beiden Ungleichungen:
!
!
!
n
n
n
1 X
(1.7)
1X
1X
P X i − p ≥ ε
Xi − p ≥ ε + P
Xi − p ≤ −ε .
≤ P
n
n i=1
n i=1
i=1
Wir zeigen nur die erste Ungleichung, die zweite lässt sich absolut analog beweisen.
!
!
n
n
1X
1X
Xi − p ≥ ε
= P
Xi ≥ p + ε
P
n i=1
n i=1
!
n
X
= P
Xi ≥ np + nε .
(6.8)
i=1
Nach Satz 4.30 ist
n
P
i=1
n
P
Xi ∼ B (n, p), daher folgt also für m := ⌈n (p + ε)⌉:
1X
Xi − p ≥ ε
n i=1
!
(6.8)
=
n X
n k n−k
p (1 − p)
| {z }
k
k=m
λ>0 beliebig
≤
=
n
X
k=m
=:q
exp (λ (k − n (p + ε)))
exp (−λnε)
n k n−k
p q
k
n X
n
exp (λk − λnp) pk q n−k
k
k=m
=
n X
n
k
n−k
exp (−λnε)
(p exp (λq)) (q exp (−λp))
k
=
exp (−λnε) (p exp (λq) + q exp (−λp)) .
k=m
n
(6.9)
Allgemein ist exp (x) ≤ x + exp x2 für x ∈ R2 , daher folgt
!
n
(6.9)
1X
n
Xi − p ≥ ε
P
≤
exp (−λnε) (p exp (λq) + q exp (−λp))
n i=1
n
=
exp (−λnε) p λq + exp λ2 q 2 + q −λp + exp λ2 p2
n
=
exp (−λnε) p exp λ2 q 2 + q exp λ2 p2
n
≤
exp (−λnε) p exp λ2 + q exp λ2
=
exp (−λnε) exp nλ2
=
exp n λ2 − λε
(6.10)
für jedes λ > 0. Nun wählen wir λ = 2ε , was genau dem Minimum von λ 7→ λ2 − λε entspricht. Es folgt
damit
!
n
(6.10)
1X
ε
1 2
ε 2
P
n − εn = exp − ε n ,
Xi − p ≥ ε
≤ exp
n i=1
2
2
4
was die Behauptung zeigt.
Beispiel 6.12:
Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert
!
1 1000
X
(6.7)
10
1
1 1
P = 2 exp −
≈ 0.164,
Xi − ≥ 0.1
≤ 2 exp − 1000 ·
1000
2
4
100
4
i=1
was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafür ist, dass n = 1000
einfach noch zu klein ist!
Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich
bessere Ergebnisse erzielen kann.
2 Für x < 0 ist diese Ungleichung offensichtlich. Für x = 0 gilt Gleichheit und für x ≥ 1 ist x2 ≥ x, womit die Ungleichung
aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?
76
6 Wahrscheinlichkeitsungleichungen und das SGGZ
Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen:
6.13 Satz (Chernov-Ungleichung):
i.i.d.
Seien Xi ∼ B (1, p) für ein p ∈ [0, 1]. Dann gilt für
!
n
1X
P
Xi − p ≥ ε
n i=1
!
n
1X
P
Xi − p ≤ −ε
n i=1
!
n
1 X
X i − p ≥ ε
P n
i=1
alle ε > 0:
≤ exp −2nε2 ,
≤ exp −2nε2 ,
≤ 2 exp −2nε2 .
(6.11)
Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:
6.14 Satz (Hoeffding-Ungleichung):
Seien X1 , ..., Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a ≤ Xi ≤ b für alle 1 ≤ i ≤ n.
Mit c := b − a gilt dann für alle ε > 0:
!
n
1 X
n
Xi − E (X1 ) ≥ ε ≤ 2 exp −2ε2 2 .
P n
c
i=1
Bemerkung 6.15:
Offenbar folgt die Chernov-Ungleichung aus der Hoeffding-Ungleichung mit a = 0 und b = 1.
Beispiel 6.16:
Wir betrachten wieder die Münzwürfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier
!
1 1000
X
(6.11)
1 1
= 2 exp (−20) ≈ 0.00000000412
Xi − ≥ 0.1
P ≤ 2 exp −2 · 1000 ·
1000
2
100
i=1
- besser gehts nicht!
7 Faltung, bedingte Verteilungen und Korrelation
7
7.1
77
Faltung, bedingte Verteilungen und Korrelation
Die Faltung
Wir betrachten oft Summen unabhängiger Zufallsvariablen. Was kann man über die Verteilung dieser
Summe aussagen?
7.1 Satz:
Es seien X1 , ..., Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ).
(1) Dann ist die Verteilung P X1 +...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 , ..., P Xn
der Zufallsvariablen X1 , ..., Xn festgelegt.
(2) Für x ∈ (X1 + ... + Xn ) (Ω) (also x im Wertebereich der Summe) gilt
X
P (X1 = x1 ) · ... · P (Xn = xn ) .
P (X1 + ... + Xn = x) =
(7.1)
x1 ∈X1 (Ω),...,xn ∈Xn (Ω)
x1 +...+xn =x
Beweis:
Offenbar folgt (2) aus (1). Für (1) sehen wir zunächst, dass
X
{X1 = x1 , ..., Xn = xn } .
{X1 + ... + Xn = x} =
x1 ∈X1 (Ω),...,xn ∈Xn (Ω)
x1 +...+xn =x
Damit folgt
P (X1 + ... + Xn = x)
=
X
P (X1 = x1 , ..., Xn = xn )
X
P (X1 = x1 ) · ... · P (Xn = xn )
x1 ∈X1 (Ω),...,xn ∈Xn (Ω)
x1 +...+xn =x
X1 ,...,Xn unabhängig
=
x1 ∈X1 (Ω),...,xn ∈Xn (Ω)
x1 +...+xn =x
und die Behauptung ist gezeigt.
7.2 Definition:
Seien X1 , ..., Xn unabhängige Zufallsvariablen. Wir definieren die Faltung von P X1 , ..., P Xn als
P X1 ⋆ ... ⋆ P Xn := P X1 +...+Xn .
Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung.
7.3 Definition:
Für Wahrscheinlichkeitsverteilungen P1 , ..., Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ... ⋆ Pn
als die Verteilung von X1 + ... + Xn , wobei Xi , 1 ≤ i ≤ n, unabhängige Zufallsvariablen mit P Xi = Pi
sind.
Bemerkung 7.4:
Im Allgemeinen (d.h. ohne Unabhängigkeit), ist die Verteilung der Summe X + Y zweier Zufallsvariablen
X und Y nicht durch die Verteilungen von X und Y festgelegt.
Beispiel 7.5:
i.i.d.
Seien X, Y ∼ B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2, p) gilt, d.h. die
Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor
1 1 1
.
, ,
4 2 4
In diesem Sinne ist die Bernoulli-Verteilung eine schöne“ Verteilung, ihre Faltung gibt wieder eine uns
”
bekannte und leicht zu berechnende Verteilung - die Binomialverteilung!
Beispiel 7.6:
Sei X ∼ B 1, 12 und Y = X. Insbesondere sind X und Y dann nicht unabhängig und es gilt auch
Y ∼ B 1, 21 . Damit gilt
 1

 2 falls x = 0
0 falls x = 1 .
P (X + Y = x) = P (2X = x) =

 1
falls x = 2
2
78
7.1.1
7 Faltung, bedingte Verteilungen und Korrelation
Spezialfall
Seien X, Y unabhängige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit
X (Ω) ⊂ N0 , Y (Ω) ⊂ N0 . Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt für k ∈ N0 :
P (X + Y = k)
(7.1)
=
X
x,y∈N0
x+y=k
=
k
X
P (X = x) P (Y = k − x)
k
X
pX (x) · pY (k − x)
x=0
=
P (X = x) · P (Y = y)
x=0
(7.2)
Beispiel 7.7:
Wir betrachten die Augensumme beim zweifachen Würfeln. Setze dazu X1 := erster Wurf und X2 :=
zweiter Wurf. Wir haben in einem früheren Beispiel schon gesehen, dass die Verteilung der Summe
P (X + Y = k) für k = 2, ..., 12 den Wahrscheinlichkeitsvektor
1 2 3 4 5 6 5 4 3 2 1
, , , , , , , , , ,
36 36 36 36 36 36 36 36 36 36 36
liefert. Das kann man mit der obigen Darstellung leicht nachrechnen.
7.1.2
Faltungen einiger wichtiger Verteilungen
7.8 Satz:
Seien X, Y zwei unabhängige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) für zwei Parameter
0 < λ, µ < ∞. Dann gilt
X + Y ∼ Poi (λ + µ) .
Beweis:
Da die Poisson-Verteilung für Zufallsvariablen mit Werten in N0 definiert ist, können wir obigen Spezialfall
anwenden:
P (X + Y = k)
(7.2)
=
k
X
x=0
=
k
X
x=0
=
=
=
P (X = x) · P (Y = k − x)
exp (−λ)
λx
µk−x
exp (−µ)
x!
(k − x)!
k
X
k!
1
exp (− (λ + µ))
λx µk−x
k!
x!
(k
−
x)!
x=0
1
k
exp (− (λ + µ)) (λ + µ)
k!
poiλ+µ (k) .
Das zeigt die Behauptung.
Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der
Parameter.
Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus
zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei
Poi (λ) verteilt, bei der zweiten Zentrale Poi (µ) verteilt.
Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi (λ + µ)
verteilt ist.
7.9 Hilfssatz:
Es gilt
k X
n
m
n+m
=
.
x k−x
k
x=0
7 Faltung, bedingte Verteilungen und Korrelation
79
Beweis:
Wir wir im Kapitel über Kombinatorik gesehen haben, ist ab genau die Anzahl der Möglichkeiten, b
genau die Anzahl der Möglichkeiten,
Elemente aus einer a-elementigen Menge auszuwählen. Also ist n+m
k
aus der Menge {1, ..., n + m} genau k Elemente auszuwählen.
Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1, ..., n} ausgewählt werden, und
die Elemente, die aus {n + 1, ..., n + m} ausgewählt werden. Die Summe dieser beiden Auswahlen muss
entsprechend k ergeben. Jetzt klassifizieren wir dies nach der Kardinalität x der ersten Auswahl, die
genau die Summe all dieser Klassifikationen, d.h.
zwischen 0 und k liegen muss. Offenbar ist dann n+m
k
X
k n+m
n
m
=
,
k
x k−x
x=0
was die Behauptung zeigt.
7.10 Satz:
Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhängige Zufallsvariablen mit Parametern p ∈ [0, 1] und
n, m ∈ N. Dann gilt
X + Y ∼ B (m + n, p) .
Beweis:
Für 0 ≤ k ≤ m + n gilt
P X+Y (k)
=
(7.2)
=
P (X + Y = k)
k
X
x=0
=
P (X = x) P (Y = k − x)
k X
n
x=0
x
px (1 − p)
n−x
m
m−(k−x)
pk−x (1 − p)
k−x
=
k X
n
m
n−x+m−k+x
pk (1 − p)
x
k
−
x
x=0
=
pk (1 − p)
Hilfssatz 7.9
=
n+m−k
k X
n
m
x k−x
x=0
n+m k
n+m−k
p (1 − p)
.
k
Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.
80
7.2
7 Faltung, bedingte Verteilungen und Korrelation
Bedingte Verteilungen
7.11 Definition:
/ Ω′ , Y : Ω
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω
Zufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0.
Die bedingte Verteilung von Y gegeben X = x ist
/ Ω′′ diskrete
P (Y ∈ A | X = x) für A ⊂ Ω′′ .
Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist
pY |X (y|x) := P (Y = y | X = x) =
p(X,Y ) (x, y)
P (Y = y, X = x)
=
,
P (X = x)
pX (x)
(x, y) ∈ Ω′ , Ω′′ .
D.h. für jedes x wie in der Annahme ist pY |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω′′ bzw. Y (Ω).
Beispiel 7.12:
Wir würfeln zweimal mit einem fairen Würfel und definieren unsere Zufallsvariablen X1 , X2 als die Ergebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Natürlich sind X1 und X2 unabhängig. Setze nun
Y := X1 + X2 , X := X1 .
Dann ist Y die Augensumme des Experiments.
Zunächst berechnen wir formal
P (Y = y | X = x)
P (X1 + X2 = y | X1 = x)
=
P (X1 + X2 = y, X1 = x)
P (X1 = x)
=
=
X1 ,X2 unabhängig
=
P (X2 = y − x, X1 = x)
P (X1 = x)
(
1
6
P (X2 = y − x) =
0
falls 1 ≤ y − x ≤ 6
.
sonst
Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X (y|x)
angeben. In der x-ten Zeile steht dabei pY |X (·|x):
x/y
2
3
4
5
6
7
8
9
10
11
12
1
1
6
1
6
1
6
1
6
1
6
1
6
0
0
0
0
0
2
0
1
6
1
6
1
6
1
6
1
6
1
6
0
0
0
0
1
6
1
6
1
6
1
6
1
6
0
0
0
1
6
1
6
1
6
1
6
1
6
1
6
0
0
1
6
1
6
1
6
1
6
1
6
0
1
6
1
6
1
6
1
6
1
6
1
6
3
0
0
1
6
4
0
0
0
5
0
0
0
0
1
6
6
0
0
0
0
0
Beispiel 7.13:
Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhängige Zufallsvariablen. Die bedingte Verteilung von X
gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B (n + m, r)) der Frage
Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten
”
auftreten?“
7 Faltung, bedingte Verteilungen und Korrelation
81
Man berechnet
pX|X+Y (j|k)
=
P (X = j | X + Y = k)
=
P (X = j, Y = k − j)
P (X + Y = k)
P (X = j) P (Y = k − j)
P (X + Y = k)
k−j
n−j
m−(k−j)
n j
m
(1 − p)
j p (1 − p)
k−j p
m+n−k
n+m k
p (1 − p)
k
m
n
X,Y unabhängig
=
=
j
=
k−j
n+m
k
,
und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung für das Experiment
n + m Kugeln gegeben, davon n rote.
”
Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“
entspricht.
Beispiel 7.14:
Seien X ∼ Poi (λ) , Y ∼ Poi (µ) unabhängige Zufallsvariablen. Wir modellieren damit etwa Anfragen an
einen Server, die über zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an
der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X +Y = k ist dann die Frage, wie viele
der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ)
und damit berechnet man
pX|X+Y (j|k)
=
P (X = j | X + Y = k)
=
P (X = j, Y = k − j)
P (X + Y = k)
X,Y unabhängig
=
P (X = j) P (Y = k − j)
P (X + Y = k)
k−j
j
µ
exp (−λ) λj! exp (−µ) (k−j)!
=
k
exp (−λ − µ) (λ+µ)
k!
1
k j k−j
λ µ
j
k−j
j
(λ + µ) (λ + µ)
j k−j
µ
k
λ
.
·
λ+µ
λ+µ
j
| {z }
=
=
λ
=1− λ+µ
λ
Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B k, λ+µ
gegeben.
Nach obigen Beispielen kann man schon vermuten:
Bemerkung 7.15:
Die Zufallsvariablen X und Y sind genau dann unabhängig, wenn pY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′ × Ω′′
gilt.
Beweis:
Nach Definition der bedingten Wahrscheinlichkeit ist
pY |X (y, x) = pY (y)
Wir sehen also
⇔
p(X,Y ) (x, y)
= pY (y)
pX (x)
⇔
P (X,Y ) (x, y) = P Y (y) · P X (x).
pY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′ × Ω′′ ⇔ P (X,Y ) = P X ⊗ P Y .
Nach Satz 4.18 ist die hintere Bedingung aber äquivalent zur Unabhängigkeit von X und Y .
82
7.2.1
7 Faltung, bedingte Verteilungen und Korrelation
Der bedingte Erwartungswert
7.16 Definition:
/ Ω′ , Y : Ω
/ Ω′′ diskrete
Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω
Zufallsvariablen auf diesem Raum. Für x ∈ Ω′ mit P (X = x) > 0 ist der bedingte Erwartungswert
von Y gegeben X = x definiert durch
X
E (Y | X = x) =
y · pY |X (y|x) .
y∈Y (Ω)
Beispiel 7.17:
Wir betrachten zweifaches Würfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster
Wurf. Dann schließen wir aus obiger Tabelle, dass
12
X
E (Y | X = x) =
y=2
y · pY |X (y|x) =
x+6
X
y
= x + 3.5.
6
y=x+1
Beispiel 7.18:
Seien X ∼ Poi (λ) und Y ∼ Poi (µ) unabhängig. Dann ist die bedingte Verteilung von X gegeben
λ
X +Y = x genau durch B x, λ+µ
gegeben, womit nach dem Erwartungswert für Binomial-Experimente
sofort
λ
E X X +Y =x =x·
λ+µ
folgt.
7.2.2
Die bedingte Erwartung
Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher
g (x) := E (Y | X = x) ,
7.19 Definition:
Die Abbildung g (X) : Ω
x ∈ X (Ω) .
/ R, also
Ω
X
/ X(Ω)
g
/R
ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch
E (Y | X) := g (X) .
Beispiel 7.20:
Wir würfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5
gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable
E (Y | X) = X + 3.5.
Beispiel 7.21:
Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung
aus diesem Beispiel folgt
λ
.
E (X | X + Y ) = (Y + X)
λ+µ
Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten
Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz:
7.22 Satz (iterierte Erwartung):
Es gilt
E (Y ) = E (E (Y | X)) .
Beweis:
Wende Satz 7.23 mit f ≡ 1 an.
(7.3)
7 Faltung, bedingte Verteilungen und Korrelation
83
Der folgende Satz ist allgemeiner und beinhaltet den Satz über die iterierte Erwartung bereits:
7.23 Satz:
Für eine beliebige Abbildung f : X (Ω)
/ R gilt
E (f (X) · Y ) = E (f (X) · E (Y | X)) .
Beweis:
Betrachte
Ω
(X,Y )
h
/ X(Ω) × Y (Ω)
{z
}
|
/R
⊂R2
für h (x, y) := f (x) · y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12)
E (f (X) · Y ) = E (h(X, Y ))
X
h(x, y)P (X = x, Y = y)
=
x∈X(Ω)
y∈Y (Ω)
=
X
X
x∈X(Ω) y∈Y (Ω)
=
X
x∈X(Ω)
=
X
x∈X(Ω)
=
X
x∈X(Ω)
f (x) · ypY |X (y|x) · pX (x)
f (x) · pX (x)
X
y∈Y (Ω)
|
ypY |X (y|x)
{z
=E(Y | X=x)
f (x) · pX (x) E (Y | X = x)
{z
}
|
}
=g(x)
f (x)g(x) · pX (x)
= E (f (X) · g(X))
= E (f (X) · E (Y | X)) ,
was die Behauptung zeigt.
Beispiel 7.24:
Wieder zweifaches Würfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben
oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:
E (Y )
7.2.3
(7.3)
=
E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.
Anwendung der iterierten Erwartung
7.25 Definition:
Sei I eine beliebige Indexmenge und seien Xi , i ∈ I Zufallsvariablen. Wir nennen Xi , i ∈ I unabhängig,
falls jede endliche Teilfamilie Xij , j ∈ J, #J < ∞, unabhängig ist.
Der folgende Satz behandelt den Erwartungswert zufälliger Summen:
7.26 Satz (Wald’sche Identität):
Sei N eine Zufallsvariable mit Werten in N0 . Seien X1 , X2 , ... Zufallsvariablen mit gleichem Erwartungswert und N, X1 , X2 , ... im obigen Sinne unabhängig. Setze
N (ω)
SN (ω) :=
X
Xi (ω) .
i=1
Dann gilt
E (SN ) = E (N ) · E (X1 ) .
84
7 Faltung, bedingte Verteilungen und Korrelation
Beweis:
Es gilt
pSN |N (j|n) =
P (SN = j, N = n)
=
P (N = n)
Nach Dem Blockungslemma (Satz 4.24) sind auch
n
P
P
n
P
i=1
Xi = j, N = n
P (N = n)
.
Xi und N unabhängig, das liefert
i=1
pSN |N (j|n) = P
n
X
Xi = j
i=1
!
.
Damit ist aber per Definition
E (SN | N = n)
=
∞
X
j=0
j·P
= E
n
X
i=1
Xi
n
X
Xi = j
i=1
!
!
= n · E (X1 ) ,
da nach Voraussetzung alle Xi ’s den gleichen Erwartungswert haben. Das zeigt
E (SN | N ) = N · E (X1 )
und mit dem Satz über die iterierte Erwartung folgt
E (SN )
(7.3)
=
E (E (SN | N )) = E (N · E (X1 )) = E (N ) · E (X1 ) .
Das zeigt die Behauptung.
Beispiel 7.27:
Wir betrachten N als die Anzahl Schadensfälle in einem Jahr bei einer Versicherung und X1 , X2 , ...
als die entsprechenden Schadenshöhen. Dann liefert uns die Wald’sche Identität eine Formel für die zu
erwartenden Leistungen, die die Versicherung zu zahlen hat.
Beispiel 7.28:
Wir betrachten N als Anzahl von Münzwürfen, bis das Ergebnis Kopf“ zum ersten Mal auftritt und Xi
”
als die Augenzahl eines Würfelwurfs. Dann entspricht die Summe
N (ω)
SN (ω) :=
X
Xi (ω)
i=1
genau der Summe der Augenzahlen
der Würfelwürfe, bis bei parallelen Münzwürfen erstmalig Kopf“
”
kommt. Da N ∼ Geo 12 gilt, liefert die Wald’sche Identität
E (SN ) = E (N ) · E (X1 ) = 2 · 3.5 = 7.
7.2.4
Anwendung des allgemeineren Satzes (Satz 7.23)
Wir wollen hier E (Y | X) als bester Vorhersager von Y gegeben die Information X“ betrachten
”
(bezüglich des erwarteten quadratischen Fehlers). Wir beobachten zunächst:
Bemerkung 7.29:
Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a∗ ∈ R, so dass der erwartete quadratische Fehler
(E(Y − a)2 ) minimal wird, ist a∗ = E(Y ).
Beweis:
Per Definition ist für unser a∗ genau
E (Y − a∗ )2 = V (Y ).
7 Faltung, bedingte Verteilungen und Korrelation
85
Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man
f (a) = E (Y − a)2 = E(Y 2 ) − 2aE(Y ) + a2 ,
so ist
f ′ (a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ).
Da es sich bei f um eine nach oben geöffnete Parabel handelt, ist a∗ = E (Y ) somit das eindeutige globale
Minimum.
7.30 Satz:
/ R ist
Seien X und Y reelle Zufallsvariablen. Für jede Funktion ϕ : X(Ω)
2
E (Y − ϕ(X)) ≥ E (Y − E(Y | X))2
und Gleichheit gilt genau für ϕ(x) = E(Y | X).
Beweis:
Sei ϕ : X(Ω)
/ R eine beliebige Funktion. Dann gilt
2
2
E (Y − E(Y | X)) + E (ϕ(X) − E( Y | X))
2
= E Y 2 − 2E (Y · E (Y | X)) + E (E (Y | X))
2
2
+E (ϕ(X)) − 2E (ϕ(X) · E(Y |X)) + E (E(Y |X)) .
(7.4)
(7.5)
Nach Satz 7.23 sind
E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y )
(7.6)
2
E(Y · E(Y | X)) = E (E(Y | X) · E(Y | X)) = E (E(Y |X))
| {z }
=:f (X)
Daher folgt
(7.6) &(7.7)
=
=
.
(7.7)
−2E (Y · E(Y | X)) + E (E(Y | X))2 − 2E (ϕ(X) · E(Y | X)) + E (E(Y | X))2
−2E (E(Y |X))2 + 2E (E(Y |X))2 − 2E (ϕ(X) · Y )
−2E(ϕ(X) · Y )
und damit haben wir
(7.5)
=
=
2
2
E (Y − E(Y |X)) + E (ϕ(X) − E(Y |X))
E(Y 2 ) − 2E(ϕ(X) · Y ) + E (ϕ(X))2
2
E (Y − ϕ(X))
2
2
Da (ϕ(X) − E(Y |X)) ≥ 0 ist auch E (ϕ(X) − E(Y |X)) ≥ 0 und es folgt die Behauptung.
Bemerkung 7.31:
In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten
quadratischen Fehler.
7.3
Korrelation
Wir wollen nun den besten Vorhersager der Form aX + b (a, b ∈ R) finden. Das heißt, wir betrachten im
Folgenden nur lineare ϕ.
7.32 Definition:
Seien X, Y reelle Zufallsvariablen mit V (X) > 0, V (Y ) > 0. Ihr Korrelationskoeffizient ist
ρX,Y := p
CoV(X, Y )
CoV(X, Y )
p
.
=
σX · σY
V (X) · V (Y )
86
7 Faltung, bedingte Verteilungen und Korrelation
Bemerkung 7.33:
X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist.
7.34 Satz (Bester linearer Vorhersager):
Y
Die Zahl E (Y − aX − b)2 wird minimal für a∗ = σσX
· ρX,Y und b∗ = E(Y ) −
den minimalen Wert gilt:
2
E (Y − a∗ X − b∗ ) = 1 − ρ2X,Y · V (Y ),
σY
σX
· ρX,Y · E(X). Für
wobei (1 − ρ2X,Y ) die Verbesserung gegenüber dem konstanten Vorhersager V (Y ) ist.
Beweis:
Für festes a wird laut Bemerkung 7.29 E (Y − aX − b)2 minimiert (wobei wir Y −aX als Zufallsvariable
Z betrachten und b finden wollen, s.d. der Ausdruck minimiert wird) durch b∗ = E(Y − aX) = E(Y ) −
aE(X) und es ist
2
E (Y − aX − b∗ ) = V (Y − aX).
Nun müssen wir ein a finden, sodass V (Y − aX) minimal wird.
Wenn wir
f (a) := V (Y −aX) = V (Y )+CoV(Y, −aX)+CoV(−aX, Y )+V (−aX) = V (Y )−2a CoV(X, Y )+a2 V (X)
setzen, so ist
f ′ (a) = −2 CoV(X, Y ) + 2aV (X) = 0
genau dann, wenn
a = a∗ =
CoV(X, Y )
σY
· ρX,Y
=
V (X)
σX
ist und es folgt durch Einsetzen in die Gleichung oben
∗
V (Y − a X)
CoV(X, Y )
· CoV(X, Y ) +
= V (Y ) − 2
V (X)
CoV(X, Y )
V (X)
2
· V (X)
CoV(X, Y )2
CoV(X, Y )2
+
V (X)
V (X)
CoV(X, Y )2
= V (Y ) · 1 −
V (X)
2
= V (Y ) · 1 − ρX,Y
= V (Y ) − 2
Das zeigt die Behauptung.
Bemerkung 7.35:
Mit a = 0 und b = E(Y ) folgt:
2
2
0 ≤ E (Y − a∗ X − b∗ ) ≤ E (Y − 0X − E(Y )) = V (Y )
{z
}
|
=(1−ρ2X,Y )·V (Y )
und damit
0 ≤ ρ2X,Y ≤ 1
bzw.
− 1 ≤ ρX,Y ≤ 1.
7.36 Definition:
Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert.
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten auch größere Y -Werte
voraussagen.
7.37 Definition:
Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert.
Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten kleinere Y -Werte
voraussagen.
8 Erzeugende Funktion und Verzweigungsprozesse
8
87
Erzeugende Funktion und Verzweigungsprozesse
In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnen
kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen
Rechnen mit den zugehörigen Funktionen wird (z.B. Produkt der Funktionen).
In der Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und bei
Fourier-Transformationen genutzt.
Wir betrachten hier nun als einfacheres Beispiel für analytische Methoden:
8.1 Definition (Erzeugende Funktion):
Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in N0 .
Sei pk = P (X = k) für k ∈ N0 . Die erzeugende Funktion (der Verteilung) von X ist die Funktion
gX (t) :=
∞
X
k=0
pk · t k .
Bemerkung 8.2:
∞
P
pk = 1 und pk ≥ 0 folgt, dass gX (t) für alle t ∈ [−1, 1] konvergiert (sogar absolut).
Wegen gX (1) =
k=0
Insbesondere gilt gX (1) = 1.
Folglich können wir den Differenzierbarkeitssatz für Potenzreihen anwenden, das liefert das folgende
8.3 Lemma:
Für t ∈ (−1, 1) ist die j-te Ableitung gegeben durch
(j)
gX (t) =
∞
X
k=j
k · (k − 1) · ... · (k − j + 1) · pk · t(k−j) .
8.4 Satz:
Die Verteilung von X ist durch gX festgelegt.
Beweis:
(j)
Es gilt P (X = 0) = p0 = gx (0) und mit obigem Lemma gx (0) = j! · pj , das heißt
P (X = j) =
1 (j)
· g (0).
j! X
Es folgt die Behauptung.
Beispiel 8.5:
Sei X ∼ Poi(λ). Dann gilt
gX (t) =
∞
X
(λt)k
λk k
= exp(−λ) · exp(λ · t)
·t = exp(−λ)
exp(−λ) ·
k!
{z k!}
k=0
k=0 |
∞
X
pk
Diese Funktion sieht für λ = 2 wie folgt aus:
2
1
−1
0
1 t
Abbildung 10: Die erzeugende Funktion gX für X ∼ Poi (2).
3 Das
meint entweder R
/ R oder C
/ C!
88
8 Erzeugende Funktion und Verzweigungsprozesse
Beispiel 8.6:
Sei X ∼ B(n, p). Dann gilt
gX (t)
=
n X
n
k
k=0
=
Diese Funktion sieht für n = 2 und p =
1
2
pk · (1 − p)n−k · tk
(p · t + (1 − p))n
wie folgt aus:
2
1
−1
1 t
0
Abbildung 11: Die erzeugende Funktion gX für X ∼ B 2, 12 .
8.7 Satz (Eigenschaften):
Sei g = gX eine erzeugende Funktion.
• Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex.
• Es gilt
lim g (1) (t) = E(X)
tր1
und allgemeiner
lim g (j) (t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) .
tր1
Man nennt dies j-tes faktorielles Moment von X.
Beweis:
• Als absolut konvergente Potenzreihe ist g in [−1, 1] stetig. Da mit dem Lemma
g ′ (t) =
∞
X
k=1
k · pk tk−1
gilt und k · pk ≥ 0 ist, ist g ′ ≥ 0 in [0, 1] und daher g monoton wachsend in [0, 1].
g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination der konvexen Funktion t 7→ tk mit
k ≥ 0 ist.
• Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt
lim
tր1
∞
X
ak tk =
∞
X
ak
k=0
k=0
wobei beide Seiten ∞ sein können. Mit der Transformationsformel für den Erwartungswert (Satz
5.12) gilt für die Funktion h(k) := k · (k − 1) · ... · (k − j + 1)
lim g (j) (t)
tր1
=
∞
X
k=j
Transformationsformel
k · (k − 1) · ... · (k − j + 1) · pk
=
E(h(X))
=
E(X(X − 1)(X − 2) · ... · (X − j + 1)).
8 Erzeugende Funktion und Verzweigungsprozesse
89
Beispiel 8.8:
Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja
schon kennen).
Die erzeugende Funktion ist nach Beispiel 8.5
gX (t) = exp(−λ) · exp(λt).
Man berechnet die Ableitungen
(1)
=
exp(−λ) · λ · exp(λt)
(2)
=
exp(−λ) · λ2 · exp(λt).
gX (t)
gX (t)
Mit dem Satz ist
(1)
E(X) = lim gX = exp(−λ) · exp(λ) · λ = λ
tր1
und
(2)
E(X(X − 1)) = E X 2 − E(X) = lim gX (t) = λ2 .
tր1
Wir erhalten durch Umstellen
2
V (X) = E X 2 − (E(X)) = λ2 + λ − λ2 = λ.
8.9 Satz:
Seien X, Y unabhängige Zufallsvariablen mit Werten in N0 . Dann gilt
gX+Y (t) = gX (t) · gY (t),
t ∈ [−1, 1] .
Beweis:
Sei t ∈ [−1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) für die Funktion h(x) := tx ,
x ≥ 0:
∞
X
tk · P (X = k) = gX (t) .
E tX = E (h(X)) =
k=0
Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabhängig und mit der Produktformel für den Erwartungswert unabhängiger Zufallsvariablen (Satz 5.19) folgt
gX+Y (t) = E tX+Y = E tX · tY = E(tX ) · E(tY ) = gX (t) · gY (t).
Das zeigt schon die Behauptung.
Beispiel 8.10:
Wir wollen nun mit dieser Formel zeigen, dass
Poi(λ) ⋆ Poi(µ) = Poi(λ + µ)
gilt.
Beweis:
Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhängig. Dann gilt
gX+Y (t)
Satz 8.9
=
gX (t) · gY (t)
=
exp(λ) exp(λt) exp(−µ) exp(µt)
=
exp(−(λ + µ)) exp((λ + µ)t)
und da nach Satz 8.4 die Verteilung von X + Y bereits durch gX+Y festgelegt ist folgt die Behauptung.
Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes
bzw. des Blockungslemmas für die oben schon gezeigte Formel
gX+Y (t) = gX (t) · gY (t),
t ∈ [−1, 1]
für unabhängige Zufallsvariablen X, Y mit Werten N0 geben:
(8.1)
90
8 Erzeugende Funktion und Verzweigungsprozesse
Beweis:
Per Definition ist
gX+Y (t)
∞
X
=
k=0
∞
X
(7.2)
=
k=0
P (X + Y = k) tk


k
X
j=0

tk
P (X = j) · P (Y = k − j) |{z}


∞
X

P (X = j) tj  ·
Cauchy-Reihenprodukt
=
∞
X
j=0
=tj ·tk−j
P (Y = k) t
k=0
k
!
gX (t) · gY (t),
=
was die Behauptung schon zeigt.
Folgerung 8.11:
Für endlich viele unabhängige, N0 -wertige Zufallsvariablen X1 , ..., Xn gilt
gX1 +...+Xn = gX1 · ... · gXn
als Funktion.
Beweis:
Einfach induktiv (8.1) anwenden.
8.12 Satz (Erzeugende Funktion für zufällige Summe):
Seien N, X1 , X2 , ... unabhängige, N0 -wertige diskrete Zufallsvariablen auf (Ω, P ), s.d. die Zufallsvariablen
X1 , X2 , ... alle die gleiche Verteilung haben. Setze
N (ω)
SN (ω) :=
X
ω ∈ Ω.
Xi (ω) ,
j=1
Dann ist
gSN (t) = (gN ◦ gX1 ) (t) = gN (gX1 (t)) ∀ t ∈ [−1, 1] .
Beweis:
n
P
Xi für jedes n ∈ N0 unabhängig sind, stellen wir zunächst
Da nach dem Blockungslemma auch N und
i=1
fest, dass
P (Sn = k)
=
∞
X
P (N = n, Sn = k)
n=0
=
∞
X
n=0
P (N = n) · (Sn = k)
(8.2)
Damit folgt direkt aus der Definition der erzeugenden Funktion für t ∈ [−1, 1], dass
gSN (t)
=
∞
X
k=0
(8.2)
=
P (SN = k) · tk
∞
∞ X
X
k=0 n=0
absolute Konvergenz
=
∞
X
P (N = n) · P (Sn = k) · tk
∞
X
P (N = n)
n=0
k=0
=gSn (t)
=
∞
X
n=0
X1 ,X2 ,... gleich verteilt
=
∞
X
{z
Folgerung 8.11
=
P (N = n) gX1 (t) · ... · gXn (t)
P (N = n) (gX1 (t))
n=0
=
|
P (Sn = k) · tk
gN (gX1 (t)) .
n
}
gX1 (t)·...·gXn (t)
8 Erzeugende Funktion und Verzweigungsprozesse
91
Das zeigt die Behauptung.
Als Korollar erhalten wir hier einen Spezialfall (N0 -wertige Zufallsvariablen) der Wald’schen Identität:
Korollar 8.13:
Unter den Voraussetzungen von Satz 8.12 gilt
E (SN ) = E (N ) · E (X1 ) .
Beweis:
′
Für jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim gX
(t). Daher folgt:
tր1
E (SN )
lim gS′ N (t)
=
tր1
Satz 8.12
=
′
lim (gN ◦ gX1 ) (t)
tր1
′
lim g (X1 ) (t) · gN
(gX1 (t))
=
tր1
′
lim g (X1 ) (t) · lim gN
(gX1 (t))
=
tր1
tր1
Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt
gX1 (t) ր 1 für t ր 1.
′
(t) = E(N ) existiert, folgt
Da lim gN
tր1
E (SN ) =
=
′
lim g (X1 ) (t) · lim gN
(gX1 (t))
tր1
′
lim g (X1 ) (t) · lim gN
(t)
tր1
= E(X1 ) · E(N ),
was die Behauptung zeigt.
tր1
tր1
92
8.1
8 Erzeugende Funktion und Verzweigungsprozesse
Verzweigungsprozesse
Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufällige Anzahl
k ∈ N0 von Nachkommen gemäß einer Wahrscheinlichkeitsfunktion, die durch p0 , p1 , p2 , ... gegeben ist.
Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..
Diese Nachkommen bilden die erste Generation.
Die Teilchen der ersten Generation erzeugen dann unabhängig voneinander wieder Nachkommen nach
dem gleichen Zufallsgesetz p0 , p1 , p2 , .... Diese Nachkommen bilden dann die zweite Generation usw..
8.1.1
Modellbildung
Diesen Prozess wollen wir nun modellieren:
Sei (pk )k∈N0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j für n, j ∈ N unabhängige
Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk für alle n, j ∈ N und k ∈ N0 . Sei zuletzt Z0 = 1.
Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nun
induktiv die Anzahl der Teilchen in der n-ten Generation:
Ist Zn−1 (also die Anzahl Teilchen in der n-ten Generation) schon definiert, so setze
Zn−1
Zn :=
X
Xn,j .
j=1
Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n − 1-ten Generation
zur n-ten Generation beisteuert.
Die Folge von Zufallsvariablen (Zn )n∈N heißt dann Galton-Watson-Prozess.
8.1.2
Motivation
Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten
sich um 1870 einige Forscher für die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche
mittels eines Verzweigungprozesses wie oben berechnet werden kann.
Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerken
gebraucht.
8.1.3
Aussterbewahrscheinlichkeit
Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n
oder früher ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten
”
Generation ausstirbt usw..
Offenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als
J :=
∞
[
n=1
{Zn = 0} .
Auch klar ist, dass {Zn = 0} ⊂ {Zn+1 = 0} für alle n ∈ N gilt, da der Prozess natürlich ausgestorben
bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt
q = P (J ) = lim P (Zn = 0) = lim qn .
n→∞
n→∞
Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses.
Zur Bestimmung von q können wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden
Funktionen gZn (0) = P (Zn = 0) = qn nutzen.
Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende
Funktion
∞
X
pk t k
g (t) := gXn,j (t) =
k=0
mit den am Anfang vorgegebenen Zahlen pk haben, gilt
gZ1
Z1 =X1,1
=
gX1,1 = g.
8 Erzeugende Funktion und Verzweigungsprozesse
93
Genauso folgt
Z2 =
Z1
X
X2,j
Z2
X
X3,j
j=1
Z3 =
j=1
(8.12)
⇒
(8.12)
⇒
gZ2 = gZ1 ◦ gX1,1 = g ◦ g
gZ3 = gZ2 ◦ gX2,1 = g ◦ g ◦ g
und induktiv
gZn = g ◦ ... ◦ g .
| {z }
n−mal
Daher ist
q = lim qn = lim gZn (0) = lim g ◦ ... ◦ g (0).
n→∞ | {z }
n→∞
n→∞
n−mal
8.14 Lemma:
Die Zahl
q = lim g ◦ ... ◦ g (0)
n→∞ | {z }
n−mal
ist die kleinste Lösung der Gleichung g(t) = t im Intervall [0, 1].
Beweis:
Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g(0) ≥ 0 und
entsprechend g(g(0)) ≥ g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ◦ ... ◦ g(0) monoton
wachsend und durch 1 beschränkt ist. Daher existiert die Zahl q.
Jetzt zeigen wir zunächst, dass q eine Lösung von g(t) = t ist:
g stetig
g(q) = g lim g ◦ ... ◦ g (0)
=
lim g ◦ ... ◦ g (0) = q.
n→∞ | {z }
n→∞ | {z }
n−mal
(n+1)−mal
Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist.
Sei x ∈ [0, 1] mit g(x) = x. Insbesondere gilt dann auch für alle n ∈ N
g ◦ ... ◦ g (x) = x.
| {z }
n−mal
Aus der Monotonie von g folgt
0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ◦ ... ◦ g (0) ≤ x ∀ n ∈ N.
| {z }
n−mal
Durch Bilden des Grenzwertes n
8.15 Definition:
Wir nennen g : [0, 1]
mischen Systems.
/ ∞ erhält man die Behauptung.
/ [0, 1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna-
94
8 Erzeugende Funktion und Verzweigungsprozesse
Beispiel 8.16:
k
Sei pk := exp (−λ) λk! mit λ = 12 , so kann man am Graphen der erzeugenden Funktion
g(t) = exp (−λ) exp (λt)
leicht sehen, dass t = 1 die kleinste Lösung der Gleichung g(t) = t ist:
b
g(t)
t
Abbildung 12: Die Funktion g(t) = exp − 21 exp
1
2t
.
Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt!
Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ) exp (λt) leicht sehen, das
der kleinste Wert t mit g(t) = t kleiner als 1 (nämlich t ≈ 0.2032) ist:
b
g(t)
b
t
Abbildung 13: Die Funktion g(t) = exp (−2) exp (2t).
Wir wollen nun noch einige Aussagen über q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j )
ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst
nichts mit Stochastik zu tun hat.
8.17 Satz (ohne Beweis):
(1) Ist p0 = 0, so gilt q = 0.
(2) Ist p0 > 0 und E (Xn,j ) > 1, so ist q ∈ ]0, 1[.
(3) Ist p0 > 0 und E (Xn,j ) = 1, so gilt trotzdem q = 1.
k
Auf den Übungsblättern wird für die Zahlen pk := p · (1 − p) explizit gezeigt, dass
q < 1 ⇔ E (Xn,j ) > 1.
9 Grenzwertsatz von de Moivre-Laplace
9
95
Grenzwertsatz von de Moivre-Laplace
9.1
Normalapproximation der Binomialverteilung
Diese Approximation liefert ein Ergebnis für Summen unabhängiger Bernoulli-Variablen. Später wird sie
als Spezialfall eines allgemeinen zentralen Grenzwertsatzes“ bewiesen.
”
Seien X1 , X2 , ...Xn unabhängig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn . Man stellt sich
0 < p < 1 fest vor und n als variabel.
Sei p = 21 . Betrachte zum Beispiel Stabdiagramme für
• n = 1 und S1 = X1 ,
• n = 2 und S2 = X1 + X2 ∼ B 2, 12 ,
• n = 50 und Sn =
50
P
i=1
Xi ∼ B 50, 21 .
Lässt man nun n gegen unendlich laufen, so ist Sn ∼ B(n, p), d.h. der Erwartungswert E(Sn ) = n · p
sowie die Varianz V (Sn ) = n · p · (1 − p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau
das sehen wir auch bei Betrachtung der Stabdiagramme.
Beide Effekte kann man stabilisieren“ indem man zu standardisierten Zufallsvariablen übergeht:
”
Setze
Sn − E(Sn )
Sn∗ = p
.
V (Sn )
Dann gilt für alle n ∈ N:
E (Sn∗ ) = E
=
=
V
(Sn∗ )
p
Sn − E(Sn )
p
V (Sn )
1
V (Sn )
!
· E (Sn − E(Sn ))
0,
= V
Sn − E(Sn )
p
V (Sn )
!
=
1
· V (Sn − E(Sn ))
V (Sn )
=
V (Sn )
V (Sn )
=
1.
Die Werte, die die Zufallsvariable Sn∗ annimmt, sind
k − np
x0 , x1 , ...xn ∈ R wobei xk = √
,
npq
0 ≤ k ≤ n, q = 1 − p.
Beispiel 9.1:
= k5 − 10, 0 ≤ k ≤ 100.
• Für n = 100, p = 21 ist zum Beispiel xk = k−50
5
Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.
k
• Für n = 10.000, p = 21 ist zum Beispiel xk = k−5000
= 50
− 100, 0 ≤ k ≤ 100.
50
Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.
Wir möchten nun die Wahrscheinlichkeit bestimmen, dass Sn∗ in einem Intervall [a, b] liegt. Dazu formulieren wir den folgenden Satz.
96
9 Grenzwertsatz von de Moivre-Laplace
9.2 Satz (Grenzwertsatz von de Moivre-Laplace):
Sei
2
1
x
ϕ(x) := √ exp −
,
2
2π
x ∈ R.
i.i.d
Sei 0 < p < 1 fest und seien für jedes n X1 , ...Xn ∼ B(1, p).
Dann gilt für jedes Paar a < b mit a, b ∈ R:
lim P (a ≤
n→∞
Sn∗
≤ b) =
Zb
ϕ(x) dx bzw. einseitig lim P
n→∞
(Sn∗
≤ b) =
a
Zb
ϕ(x) dx.
−∞
Mit der Stammfunktion
Φ(t) :=
Zt
ϕ(τ ) dτ,
−∞
kann man schreiben:
t∈R
lim P (a ≤ Sn∗ ≤ b) = Φ(b) − Φ(a).
n→∞
Der Beweis folgt später aus dem zentralen Grenzwertsatz (Satz 10.100).
Bemerkung 9.3:
Die Aussagen gelten auch für <“ statt ≤.
”
9.4 Definition:
Die Funktion ϕ gegeben durch
2
t
1
√
exp −
ϕ(t) :=
2
2π
nennt man auch Gaußsche Glockenkurve oder Dichte der Standard-Normalverteilung.
Bemerkung 9.5 (Eigenschaften):
Es gilt
Z∞
ϕ(t) dt = 1.
−∞
Außerdem ist ϕ beliebig oft stetig differenzierbar. Der Graph stellt sich wie folgt dar:
−3
−2
−1
1
2
Abbildung 14: Die Dichte der Standardnormalverteilung ϕ(t) :=
√1
2π
t
2
exp − t2 .
9.6 Definition:
Wir nennen Φ die Verteilungsfunktion der Standardnormalverteilung.
Bemerkung 9.7:
Φ berechnet sich entsprechend wie folgt:
Φ(1)
−3
−2
−1
1
Abbildung 15: Die angegebene Fläche entspricht Φ(1) =
2
R1
−∞
√1
2π
t
2
exp − t2 dt.
9 Grenzwertsatz von de Moivre-Laplace
97
Oder direkt als Funktion:
bbb
bbb
bbb
bbb
bbb
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbbb
bbbbb
bbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbb
bbbbbbbb
bbbbbbbbb
bbbbbbbbbb
bbbbbbbbbbbb
bbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
−4.0 −3.6 −3.2 −2.8 −2.4 −2.0 −1.6 −1.2 −0.8 −0.4 0
bbb
bb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bbb
bb
bb
bbb
bbb
bbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbb
bbbbb
bbbbb
b
bbbbb
bbbbb
bbbbbb
bbbbbb
bbbbbbb
bbbbbbbb
bbbbbbbbb
bbbbbbbbbb
bbbbbbbbbbbb
bbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Abbildung 16: Die Verteilungsfunktion Φ der Standardnormalverteilung.
Für Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es für Werte t ≥ 0 tabelliert:
Beispiel 9.8:
• Φ(1) ≈ 0.8413,
• Φ(1.645) ≈ 0.95,
• Φ(1.96) ≈ 0.975,
d.h. zum Beispiel
lim P (Sn∗ ≤ 1)
/∞
n
n→∞
/ Φ(1) = 0.8413.
Für weitere Werte siehe Anhang A.
Bemerkung 9.9:
Um Φ an negativen Stellen auszuwerten, betrachtet man für t > 0:
Φ(−t)
=
Z−t
ϕ(τ ) dτ
−∞
Symmetrie von ϕ
=
Z∞
ϕ(τ ) dτ
t
=
Z∞
−∞
=
ϕ(τ ) dτ −
Zt
ϕ(τ ) dτ
−∞
1 − Φ(t)
Beispiel 9.10:
i.i.d
Seien X1 , ..., Xn ∼ B(1, p),
Sn :=
Dann bestimmt man
n
X
Sn − np
.
Xi und Sn∗ := √
npq
i=1
lim P (−1 ≤ Sn∗ ≤ 1)
n→∞
=
Φ(1) − Φ(−1)
=
Φ(1) − (1 − Φ(1))
=
2Φ(1) − 1
Tabelle
=
2 · 0.8413 − 1 ≈ 0.68
98
9 Grenzwertsatz von de Moivre-Laplace
9.2
Anwendung I: Normalapproximation der Binomialverteilung
Wir erinnern uns: Die Poissonapproximation mit λ = n · p für B(n, p) ist eine gute Approximation, wenn
p sehr klein ist.
Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist.
Als Faustregel für gut“ gilt hier: npq ≥ 9.
”
Für Sn ∼ B(n, p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt
P (i ≤ Sn ≤ j)
=
P
i − np
j − np Sn − np
≤ √
≤ √
√
npq
npq
npq
| {z } | {z } | {z }
∗
=Sn
=:a
de Moivre
≈
Φ
j − np
√
npq
−Φ
=:b
i − np
√
npq
Bemerkung 9.11:
• Dies sieht eigentlich verboten aus, da a und b von n abhängen. Es ist jedoch kein Problem, denn
man kann zeigen:
/∞
n
/ 0.
sup | P (a ≤ Sn∗ ≤ b) − (Φ(b) − Φ(a)) |
a<b
• Fehlerabschätzungen (nach Berry-Esseen):
| P (a ≤ Sn∗ ≤ b) − (Φ(b) − Φ(a)) | ≤
wobei cp konstant ist und nur von p abhängt.
Für p = 21 ist zum Beispiel cp = 1 und der Fehler ist ≤
1.6
√
,
n
1.6 · cp
√
n
d.h. etwa ≤ 0.016 für n = 10.000.
Bemerkung 9.12:
Man kann die Approximation verbessern, indem man j durch j +
turterme ± 12 “), dies verliert aber für n → ∞ an Bedeutung.
1
2
und i durch i −
1
2
ersetzt ( Korrek”
Beispiel 9.13:
Es wird n = 600-mal gewürfelt. Sei Sn die Anzahl der Sechsen. Dann ist
1
S600 ∼ B 600,
.
6
Man berechnet mit q = 1 − p:
• E (Sn ) = np = 600 ·
1
6
• V (Sn ) = npq = 600 ·
= 100,
1
6
·
5
6
= 83 13 ,
• σ ≈ 9.13....
Damit berechnet man:
P (90 ≤ Sn ≤ 110)
≈


 90 − 100
110 − 100 
Sn − 100

P
 9.13 ≤ 9.13 ≤
9.13 
| {z }
∗
=Sn
de Moivre
≈
=
≈
Tabelle
−10
10
−Φ
Φ
9.13
9.13
10
2·Φ
−1
9.13
2 · Φ(1.095) − 1
=
2 · 0.863 − 1
=
0.726.
9 Grenzwertsatz von de Moivre-Laplace
99
Bei der Rechnung mit Korrekturtermen ergibt sich:
10 + 12
−10 − 21
P (90 ≤ Sn ≤ 110) ≈ Φ
−Φ
9.13
9.13
10.5
−1
= 2·Φ
9.13
≈ 2 · Φ(1.15) − 1
≈ 2 · 0.8749 − 1
=
0.7498.
Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - für n = 600 kann man diesen rechnergestützt
noch leicht exakt berechnen.
Mit Tschebyschow erhält man:
P (90 ≤ Sn ≤ 110) = 1 − P (|Sn − 100| ≥ 11) ≥ 0.31
|
{z
}
≤
- keine große Erkenntnis!
9.3
V (Sn )
= 83.3
121 ≈0.69
112
Anwendung II: Bestimmung eines Stichprobenumfangs
Konkret wollen wir dies für Wahlvorhersagen durchführen. Die Aufgabe ist, den Anteil an einer Partei A
aus einer Umfrage von n zufällig ausgewählten Befragten heraus zu schätzen.
von A
Seien X1 , ...Xn ∼ B(1, p) unabhängig und p = alle Wähler
Wahlberechtigten , womit p unbekannt ist!
Aufgabe: Schätze p durch p̂ = n1 Sn . Wie groß ist n zu wählen, damit für jedes p ∈ [0, 1] mit Wahrscheinlichkeit ≥ 0.95 der wahre Wert p im (zufälligen) Intervall [p̂ − ε, p̂ + ε] liegt?
Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist
Pp (p ∈ [p̂ − ε, p̂ + ε])
Pp (−0.01 ≤ p̂ − p ≤ 0.01)
np̂ − np
0.01 · n
−0.01 · n
≤ √
≤ √
Pp
√
npq
npq
npq
0.01 · n
−0.01 · n
Φ √
−Φ
√
npq
npq
0.01 · n
2·Φ √
−1
npq
|
{z
}
=
=
de Moivre
≈
=
!
≥0.95
Es folgt
Φ
0.01 · n
√
npq
!
≥
1.95
= 0.975.
2
Aus der Tabelle entnimmt man
Φ(t) ≥ 0.975 für t ≥ 1.96
und somit folgt
0.01·n
√
npq
⇔
⇔
⇐
√
n
n
n
≥ 1.96
√
≥ 196 pq
≥ (196)2 · pq
|{z}
≥ 9604.
≤ 14
Ist die Vorinformation p ≤ 0.1 gegeben, dann genügt es
n ≥ (196)2 · max p(1 − p) = (196)2 · 0.1 · 0.9 = 3458
p∈[0,0.1]
Menschen zu befragen.
100
10
10 Allgemeine Modelle und stetige Verteilungen
Allgemeine Modelle und stetige Verteilungen
Von diesem Abschnitt an wollen wir uns nicht mehr länger auf diskrete Wahrscheinlichkeitsräume beschränken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine
Zufallsgröße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.
”
Zb
(10.1)
P (a ≤ X ≤ b) = ϕ(t) dt = Φ(b) − Φ(a)
a
für a < b und die oben schon betrachtete Funktion
2
t
1
ϕ(t) = √ exp −
.
2
2π
In diesem Fall würde man sagen, dass X Standard-Normalverteilt ist und X ∼ N (0, 1) schreiben.
Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine Wahrscheinlichkeit“ zu”
ordnet.
Für Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genügt diese Vorstellung voll und
ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Maßtheorie besteht.
10.1
Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen
10.1 Definition:
Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, P ), s.d. Ω eine beliebige Menge und A eine
σ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften:
(σ1) Ω ∈ A
(σ2) A ∈ A ⇒ Ac ∈ A
(σ3) A1 , A2 , ... ∈ A ⇒
∞
S
i=1
Ai ∈ A
Außerdem ist P eine auf A definierte reelle Funktion mit
(A1) P (A) ≥ 0 ∀ A ∈ A
(A2) P (Ω) = 1
(A3) Sind A1 , A2 , ... ∈ A paarweise disjunkt, so gilt
P
∞
[
i=1
Ai
!
=
∞
X
P (Ai ) .
i=1
P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω, A).
Bemerkung 10.2:
Das Axiom (σ3) sorgt dafür, dass Axiom (A3) Sinn macht.
Beispiel 10.3:
Ist Ω eine diskrete (d.h. abzählbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω)
verwenden und erhält so genau die diskreten Wahrscheinlichkeitsräume, wie wir sie bisher betrachtet
haben.
Beispiel 10.4:
Für jede Menge Ω kann man A = {∅, Ω} betrachten. Dieser Fall ist aber nicht sehr interessant, man
spricht dann auch von der trivialen σ-Algebra.
Bemerkung 10.5:
Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzählbare mengentheoretische Operationen wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zum
Beispiel
!c !c
!c
∞
∞
∞
[
[
[
(1.3)
c
Ai =
A1 , A2 , ... ∈ A ⇒
=
Ai
Ai ,
i=1
i=1
und die rechte Menge ist wegen (σ2) und (σ3) wieder in A.
i=1
10 Allgemeine Modelle und stetige Verteilungen
101
Bemerkung 10.6:
Für eine Wahrscheinlichkeitsverteilung P wie in der Definition oben gelten ebenfalls alle Rechenregeln,
die wir am Anfang für den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese
ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.
10.7 Definition:
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ω′ , A′ eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′ .
/ Ω′ s.d.
Eine Zufallsvariable X auf (Ω, A, P ) ist eine Abbildung X : Ω
X −1 (A) = {x ∈ Ω | X(x) ∈ A′ } ∈ A ∀ A′ ∈ A′
(10.2)
gilt.
Bemerkung 10.8:
Allgemeine Abbildungen X : (Ω, A)
/ Ω′ , A′ mit der Eigenschaft (10.2) nennt man auch meßbar.
10.9 Definition:
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ω′ , A′ eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′ .
Eine Zufallsvariable X auf (Ω, A, P ) definiert durch
P X (A′ ) := P X −1 (A′ ) ,
A′ ∈ A′
eine Wahrscheinlichkeitsverteilung
P X auf Ω′ , A′ , d.h. wir erhalten einen weiteren Wahrscheinlich
keitsraum Ω′ , A′ , P X . Wir nennen P X auch Verteilung von X.
Formal müssten wir hier jetzt die Axiome (A1) bis (A3) für P X nachrechen. Das gleicht aber wörtlich
dem diskreten Fall, der nach Definition 4.5 gezeigt wurde.
Bemerkung 10.10:
Wie im diskreten Fall auch schreibt man auch
P (X ∈ A′ ) := P X −1 (A′ ) ,
A′ ∈ A′ .
Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht
immer einfach mit A = P (Ω) - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende
Beispiel liefert eine Begründung:
Beispiel 10.11:
Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0, 1[ mit folgender Eigenschaft:
Ist A ⊂ [0, 1[ und x ∈ [0, 1[ so, dass A + x := {a + x | a ∈ A} ⊂ [0, 1[ ist,
so gilt stets P (A) = P (A + x).
Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[)
geben kann, wie es z.B. von einer Normalverteilung“ zu erwarten wäre.
”
Dazu betrachten wir eine spezielle Menge A0 ⊂ 0, 12 (auch Vitali-Menge genannt), die wir wie folgt
konstruieren: Betrachte die Äquivalenzrelaztion
x ∼ y :⇔ |x − y| ∈ Q
auf [0, 1[. Diese zerlegt [0, 1[ in Äquivalenzklassen
[x] := {y | |x − y| ∈ Q} ,
x ∈ [0, 1[ .
Gemäß dem Auswahlaxiom wähle aus jeder Klasse [x] einen Vertreter z[x] ∈ 0, 12 und definiere A0 als
die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl
P (A0 ) = 0
als auch
P (A0 ) > 0
erfüllen müsste - ein Widerspruch!
Der einzige Ausweg ist also, P nur für bestimmte Teilmengen zu definieren, was uns zum obigen Begriff
der σ-Algebra führt.
Ohne Beweis wollen wir folgendes Resultat angeben:
Bemerkung 10.12 (Satz von Banach-Kuratowski):
Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.
102
10.2
10 Allgemeine Modelle und stetige Verteilungen
W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen
Um Wahrscheinlichkeitsverteilungen auf R“ zu betrachten, benötigen wir zunächst eine σ-Algebra. Wir
”
betrachten die folgende
10.13 Definition:
Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthält.
Man beachte folgenden Satz aus der Maßtheorie:
10.14 Satz (ohne Beweis):
Die folgenden Forderungen an eine σ-Algebra auf R sind äquivalent:
(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.
(2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b] mit a < b enthält.
(3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b[ mit a < b enthält.
(4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form (−∞, b] mit b ∈ R enthält.
Bemerkung 10.15:
Die Borel’sche σ-Algebra B enthält im Wesentlichen alle Teilmengen von R, die einem in der Praxis
begegnen. Allerdings enthält sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in
B enthalten.
10.16 Definition:
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω, A, P ) ist eine meßbare Abbildung
X /
(Ω, A, P )
(R, B) .
Beispiel 10.17:
Ein bekannter Satz aus der Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R
eine reelle Zufallsvariable
/ (R, B)
X : (R, B, P )
/ R auch
ist.
Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.
Das meint hier dann natürlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben:
10.18 Definition:
Eine Funktion F : R
/ [0, 1] heißt Verteilungsfunktion, wenn
(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),
(2) es gilt
lim F (x) = 0 und lim F (x) = 1 und
x→−∞
x→∞
(3) F ist rechtsstetig, d.h. für alle x ∈ R gilt
F (x) = lim F (y).
yցx
Beispiel 10.19:
Der folgende Graph definiert eine Verteilungsfunktion:
1
−1
0
1
t
Abbildung 17: Beispiel einer Verteilungsfunktion.
10 Allgemeine Modelle und stetige Verteilungen
103
10.20 Satz:
Sei P eine Verteilung auf R. Dann ist
F (x) := P ((−∞, x])
eine Verteilungsfunktion.
Beweis:
Nutze aus §1 die Rechenregeln (R8) und (R9):
A1 ⊃ A2 ⊃ ...
⇒
A1 ⊂ A2 ⊂ ...
P
∞
\
Ai
!
= lim P (Ai )
(10.3)
Ai
!
⇒
= lim P (Ai )
(10.4)
i=1
P
∞
[
i=1
i→∞
i→∞
Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B
wachsend. Außerdem folgt für An := (−∞, n]
lim F (x) = lim F (n) = lim P (An )
x→−∞
n→−∞
lim F (x)
x→∞
(10.3)
=
n→−∞
und genauso
(10.4)
=
P
−∞
\
n=−1
∞
[
P
⇒ P (A) ≤ P (B)), ist auch F monoton
(−∞, n]
n=1
!
An
!
= P (∅) = 0
= P (R) = 1.
Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn )n∈N eine Folge aus R, die gegen x ∈ R konvergiert
und xn ≥ x ∀ n ∈ N erfüllt. Ohne Einschränkung können wir xn+1 ≤ xn für alle n ∈ N annehmen, denn
andernfalls wählen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt
∞
\
(−∞, xn ] = (−∞, x]
n=1
und daher folgt
(10.3)
lim F (xn ) = lim P ((−∞, xn ])
n→∞
=
n→∞
P ((−∞, x]) = F (x).
Das zeigt die Behauptung.
Bemerkung 10.21:
Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist
FX (x) := P (X ≤ x) = P X ((−∞, x])
die Verteilungsfunktion der Verteilung von X.
Für diskrete Zufallsvariablen, die nur die Werte x1 , x2 , ... annehmen, ist
FX (x) =
∞
X
i=1
xi ≤x
P (X = xi ) = P (X ≤ x) .
Im Folgenden sehen wir etwa den Graphen von FX für eine Zufallsvariable X ∼ B 2, 12 , denn es gilt
P (X = 0) = 41 , P (X = 1) = 12 , P (X = 2) = 14 :
1
b
b
b
0
1
2
3
Abbildung 18: Der Graph der Verteilungsfunktion FX für X ∼ B 2, 12 .
Wir zitieren nun folgenden Satz aus der Maßtheorie:
104
10 Allgemeine Modelle und stetige Verteilungen
10.22 Satz (Umkehrung):
Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d.
P ((−∞, x]) = F (x) ∀ x ∈ R
gilt. Damit gilt dann auch
P ((−∞, b]) − P ((−∞, a]) = ((a, b]) = F (b) − F (a)
für alle a < b ∈ R.
Bemerkung 10.23:
Die Sätze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionen
und der Menge aller Verteilungen auf R gibt. Die Abbildung F 7→ P wird dabei durch Satz 10.22 geliefert.
Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv:
Sind F1 , F2 zwei Verteilungsfunktionen mit F1 6= F2 , so gibt es ein x ∈ R mit F1 (x) 6= F2 (x). Entsprechend
erfüllen dann die zugehörigen Verteilungen P1 und P2
P1 ((−∞, x]) = F1 (x) 6= F2 (x) = P2 ((−∞, x]) ,
womit die Verteilungen nicht gleich sein können.
10.3
Stetige Verteilungen
10.24 Definition:
Eine Dichte ist eine integrierbare Funktion f : R
dass
Z∞
/ R mit f (t) ≥ 0 für alle t ∈ R und der Eigenschaft,
f (t) dt = 1.
(10.5)
−∞
Beachte, das integrierbar“ hier Riemann-integrierbar“ heißt.
”
”
Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf
höchstens endlich viele Sprungstellen sind!!
10.25 Satz:
Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit
P (]a, b]) =
Zb
f (t) dt
a
für a < b ∈ R.
Beweis:
Setze
F (x) :=
Zx
f (t) dt.
−∞
Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Außerdem
folgt wegen der Positivität von f , dass F monoton wachsend ist. Wegen (10.5) ist lim F (x) = 1. Das
x→∞
lim F (x) = 0 gilt ist klar.
x→−∞
Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natürlich wieder auf (R, B)) mit der
Eigenschaft wie in der Behauptung.
10.26 Definition:
Wahrscheinlichkeitsverteilungen auf R, für die es eine Dichte f mit
P (]a, b]) =
Zb
a
für alle a < b gibt, nennt man stetige Verteilungen.
f (t) dt
10 Allgemeine Modelle und stetige Verteilungen
105
10.27 Definition:
Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h.
wenn
Zb
P (a ≤ X ≤ b) = f (t) dt
a
für eine geeignete Dichte f gilt.
Bemerkung 10.28:
Ist P eine stetige Verteilung, so gilt
P ({x}) = 0
für alle x ∈ R.
Beweis:
Es gilt
P ({x})
(10.3)
=
Zx
1
f (t) dt = 0
= lim
lim P
x − ,x
n→∞
n→∞
n
1
x− n
nach unserer Annahme, dass f stetig bis auf höchstens endlich viele Sprungstellen ist.
Folgerung 10.29:
Insbesondere gilt für stetige Verteilungen also
P ([a, b]) = P (]a, b])
usw..
Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, für die es eine
Dichte f mit
Zb
P (a ≤ X ≤ b) = f (t) dt
a
gibt.
10.4
Zufallsvariablen mit stetiger Verteilung
In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Überblick der Eigenschaften geben:
10.4.1
Die Gleichverteilung
Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch
(
1 falls t ∈ [0, 1]
f (t) = 1[0,1] (t) =
,
t ∈ R.
0 falls t ∈
/ [0, 1]
Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch
X ∼ U (0, 1) .
Die zugehörige Verteilungsfunktion ist


 0 falls x ≤ 0
x falls 0 ≤ x ≤ 1 .
F (x) = P (X ≤ x) =


1 falls x ≥ 1
Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.
Allgemeiner:
Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte
f (t) =
1
1[r,s] (t).
s−r
Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch
X ∼ U (r, s) .
106
10 Allgemeine Modelle und stetige Verteilungen
10.4.2
Die Normalverteilung
Die Dichte der Normalverteilung N µ, σ 2 mit µ ∈ R, σ 2 ∈ (0, ∞) ist gegeben als
!
2
1
(x − µ)
ϕµ,σ2 (t) = f (t) := √
.
exp −
2σ 2
2πσ 2
Wir kennen schon den Spezialfall µ = 0, σ 2 = 1 der
Standard-Normalverteilung. Wir werden später noch
sehen, dass für eine Zufallsvariable X ∼ N µ, σ 2 die Zahl µ der Erwartungswert und σ 2 die Varianz ist.
Solche Zufallsvariablen X ∼ N µ, σ 2 verwendet man etwa dann, wenn X eine ungenaue Messung mit
Erwartungswert (bekannt z.B. aus der Theorie) µ ist. Insbesondere simuliert man damit eine Verteilung
natürlicher Messgrößen.
Die Verteilungsfunktion
Zx
ϕ0,1 (t) dt
Φ(x) =
−∞
der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch
Zx
ϕµ,σ2 (t) dt,
−∞
also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36
sehen werden.
Außerdem zeigen wir in Beispiel 10.35, dass
X ∼ N (0, 1) , µ ∈ R, σ ∈ (0, ∞) ⇒ Y = σX + µ ∼ N (µ, σ)
gilt.
10.4.3
Die Exponentialverteilung
Setze für einen reellen Parameter λ > 0 die Dichte der Exponentialverteilung als
(
λ exp (−λt) falls t ≥ 0
f (t) :=
0
falls t < 0
fest. Diese Funktion sieht für λ = 2 wie folgt aus:
1
−1
0
1
t
Abbildung 19: Die Funktion f (t) für λ = 2.
Wir nennen f die Dichte der Exponentialverteilung Exp(λ) auf R. Die zugehörige Verteilungsfunktion
ist
(
1 − exp (−λx) falls x > 0
F (x) =
.
0
falls x ≤ 0
Insbesondere gilt für eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b:
P (a ≤ X ≤ b) = F (b) − F (a) = (1 − exp (−λb)) − (1 − exp (−λa)) = exp (−λb) − exp (−λa) .
Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B.
• zur Simulation der Lebensdauer von Geräten / technischen Bauteilen, falls sie gebraucht wie neu“
”
sind (wir sehen gleich, welche Bedeutung das hat).
• zur Simulation von Längen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center
oder radiaoktiven Zerfallsprozessen.
10 Allgemeine Modelle und stetige Verteilungen
107
• zur Simulation von Bedienzeiten an Schaltern.
Für X ∼ Exp (λ) ist ein Leichtes, mit Hilfe der Verteilungsfunktion die Überlebensdauer“ zu berechnen:
”
P (X > x) = 1 − P (X ≤ x) = 1 − F (x) = exp (−λx) .
Wir sehen sofort, dass die Überlebensdauer also exponentiell schnell fällt!
Jetzt wollen wir uns dem Ausspruch gebraucht wie neu“ bzw. der Gedächtnislosigkeit dieser Verteilung
”
widmen. Für x, t ≥ 0 gilt
P (X > t + x | X > t)
=
P (X > t + x und X > t)
P (X > t)
=
P (X > t + x)
P (X > t)
=
exp (−λ (t + x))
exp (−λt)
=
exp (−λx)
= P (X > x) .
Simuliert man also die Lebensdauer eines Geräts mit der Exponentialverteilung, so hat ein gebraucht
gekauftes Gerät die selbe Qualität wie ein Neues!
10.4.4
Die Pareto-Verteilung
Man betrachtet für einen Parameter α > 0 die Dichte
(
α
(t+1)α+1
f (t) =
0
falls t ≥ 0
.
falls t < 0
Der Graph von f stellt sich wie folgt dar:
3
2
1
−1
0
1
t
Abbildung 20: Die Funktion f (t) für α = 4.
Zunächst ähnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dass
hier nur polynomielles Abfallverhalten vorliegt!
Diese Dichte f definiert uns die Pareto-Verteilung. Für eine paretoverteilte Zufallsvariable X mit
Parameter α > 0 schreiben wir auch X ∼ Pareto(α).
Man modelliert mit der Pareto-Verteilung etwa Dateigrößen in Byte in Datenbanken oder auf Servern.
Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wie
bei Exp (λ) sind.
Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo früher die Exponentialverteilung verwendet
wurde.
108
10.4.5
10 Allgemeine Modelle und stetige Verteilungen
Die Cauchy-Verteilung
Betrachte die Dichte
f (t) :=
1
.
π (1 + t2 )
Diese hat den Graphen
−2
−1
0
1
t
Abbildung 21: Die Funktion f (t) für λ = 2.
und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung
keinen Erwartungswert besitzt.
10.4.6
Die Gamma-Verteilung
Zunächst benötigen wir die
10.30 Definition (Gamma-Funktion):
Sei x ∈ (0, ∞). Dann definiert man die Gamma-Funktion Γ durch
Γ (x) =
Z∞
tx−1 exp (−t) dt.
0
Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbare
Funktion definiert. Außerdem erfüllt sie bekanntlich die Funktionalgleichung
Γ (x + 1) = xΓ(x) ∀ x ∈ (0, ∞) ,
was auch Γ (n) = (n − 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwähnt werden, dass
Z∞
√
1
1
Γ
=
exp x2 dx = π.
2
2
0
Nun definieren wir die Gamma-Verteilung Gamma (r, λ) für reelle Parameter r, λ > 0 durch die Dichte
( r
λ
r−1
exp (−λt) falls t > 0
Γ(r) t
.
f (t) =
0
falls t ≤ 0
Zunächst betrachten wir einige Spezialfälle:
(1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, da
die Dichten übereinstimmen.
(b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r, λ) genau die Verteilung von X1 + ... + Xr
i.i.d.
für Zufallsvariablen X1 , ..., Xr ∼ Exp (λ) ist (vergleiche eines der Übungsblätter).
(2) (a) Gamma 12 , 21 ist genau die Verteilung von X 2 für X ∼ N (0, 1), wie wir in Beispiel 10.32
sehen werden.
i.i.d.
(b) Gamma n2 , 21 für n ∈ N ist genau die Verteilung von X12 +...+Xn2 , falls X1 , ..., Xn ∼ N (0, 1)
gilt.
Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n
Freiheitsgraden genannt und als χ2n bezeichnet.
10.5
Berechnung und Transformation von Dichten
10.31 Satz:
Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1 , ..., ck stetig differenzierbar ist.
Sei C = {c1 , ..., ck }. Dann definiert
(
F ′ (t) falls t ∈ C
f (t) :=
0
falls t ∈
/C
eine Dichte für die durch F definierte Verteilung auf R.
10 Allgemeine Modelle und stetige Verteilungen
109
Beweis:
Mit Satz 10.25 genügt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar).
Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher ist
auch f ≥ 0.
Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschränkung
c0 < c1 < ... < ck < ck+1
an. Dann gilt (mit F (−∞) = 0 und F (∞) = 1) für i = 0, ..., k die Relation
cZi+1
f (t) dt =
lim
aցci ,bրci+1
ci
Zb
f (t) dt =
lim
aցci ,bրci+1
(F (b) − F (a)) = F (ci+1 ) − F (ci ),
(10.6)
a
da F stetig ist. Das zeigt
Z∞
−∞
c
k Zi+1
X
f (t) dt =
f (t) dt
(10.6)
i=0 c
i
=
k
X
i=0
(F (ci+1 ) − F (ci )) = F (∞) − F (−∞) = 1.
Also ist f eine Dichte und es folgt die Behauptung.
Beispiel 10.32 (Anwendung):
Sei X ∼ N (0, 1) und Y := X 2 . Dann ist Y ∼ χ21 = Gamma
1 1
2, 2
.
Beweis:
Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0
für x < 0 gelten. Falls x ≥ 0, so haben wir
FY (x)
= P (Y ≤ x)
= P 0 ≤ X2 ≤ x
√ √
= P − x≤X≤ x
√ √ = Φ x −Φ − x
√ = 2Φ x − 1,
wobei Φ die Verteilungsfunktion der Standard-Normalverteilung ist.
√
√ ′
Wegen (Φ ( x)) = ϕ( x) 2√1 x ist FY an allen Punkten x 6= 0 stetig differenzierbar und mit Satz 10.31
folgt, dass die Dichte von Y gegeben ist durch
(
(
(
√ ′
x
√1
FY′ (x) falls x > 0
exp
−
falls x 6= 0
2 (Φ ( x)) falls x > 0
2
2πx
fY (x) =
=
.
=
0
falls x ≤ 0
0
falls x = 0
0
falls x ≤ 0
Wegen Γ
1
2
=
√
π ist der Faktor
und es folgt die Behauptung.
1
1 2
1
2 √
=
Γ 21
2π
Für die folgende Transformation brauchen wir erst folgende
10.33 Definition:
Seien I, J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I
und u−1 stetig differenzierbar sind.
/ J ist eine bijektive Abbildung, s.d. u
Dann gilt der folgende
10.34 Satz (Transformationsformel für Dichten):
Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R.
/ J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte
Sei außerdem u : I
′
fY (y) = fX u−1 (y) · u−1 (y) .
110
10 Allgemeine Modelle und stetige Verteilungen
Beweis:
Zunächst können wir ohne Einschränkung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel
Zb
(f ◦ g) (y) · g ′ (y) dy
f (x) dx =
a
g −1
Z (b)
g −1 (a)
für den Diffeomorphismus g = u−1 anwenden. Damit folgt
P (a ≤ Y ≤ b) = P u−1 (a) ≤ X ≤ u−1 (b)
=
u−1
Z (b)
fX (x) dx
u−1 (a)
=
Zb
a
da u nach Annahme streng monoton steigend ist.
′
fX u−1 (y) u−1 (y) dy
| {z }
=|(u−1 )′ (y)|
Beispiel 10.35 (Anwendung):
Sei X ∼ N (0, 1) und Y := σX + µ mit µ, σ ∈ R und σ > 0. Dann ist Y ∼ N µ, σ 2 .
Beweis:
Wir setzen
u (x) := σx + µ.
Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit
u−1 (y) =
′
y−µ
1
und u−1 (y) = .
σ
σ
Mit Satz 10.34 folgt für die Dichte fY von Y und fX von X, dass
!
!
2
2
y−µ
1
1
(y − µ)
1
1
(y − µ)
fY (y) = fX
· = √ exp −
· =√
,
exp −
σ
σ
2σ 2
σ
2σ 2
2π
2πσ 2
was genau der Dichte zu N µ, σ 2 entspricht.
Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen:
Beweis (alternativ):
Es ist
FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P
X≤
y−µ
σ
=Φ
y−µ
σ
für die Verteilungsfunktion Φ der Standard-Normalverteilung. Mit Satz 10.31 ist dann
′
y−µ
1
1
y−µ
y−µ
fY (y) = Φ
= ϕ
= Φ′
σ
σ
σ
σ
σ
für die Dichte ϕ der Standard-Normalverteilung - und das ist genau die Dichte zu N µ, σ 2 .
Bemerkung 10.36:
Ganz analog können wir nun zeigen, wie man die Verteilungsfunktion zu N µ, σ 2 aus den Tabellen für
Φ (der Verteilungsfunktion von N (0, 1)) berechnet:
Ist Y ∼ N µ, σ 2 für µ, σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass
X :=
1
(Y − µ) ∼ N (0, 1)
σ
gilt. Damit ist dann aber
P (Y ≤ y) = P (σX + µ ≤ y) = P
- und das ist tabelliert!
y−µ
X≤
σ
=Φ
y−µ
σ
10 Allgemeine Modelle und stetige Verteilungen
10.6
111
Erwartungswert und Varianz
10.37 Definition:
Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls
Z∞
−∞
|x|f (x) dx < ∞.
In diesem Fall definiert man
E (X) :=
Z∞
xf (x) dx.
−∞
Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,
und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.
Bemerkung 10.38:
Ist X wie in der Definition und X ≥ 0, so kann man stets
E (X) :=
Z∞
xf (x) dx
−∞
setzen und entsprechend einfach ∞ als Wert zulassen.
Beispiel 10.39:
Sei X ∼ U (r, s). Dann ist
E (X) =
Zs
r
Beispiel 10.40:
x
1
1 s2 − r2
1 1 2 s
s+r
dx =
x r=
=
.
s−r
s−r2
2 s−r
2
Sei X ∼ N (0, 1). Dann ist
E (X) =
Z∞
−∞
1
xϕ(x) dx = √
2π
Z∞
−∞
2
2
1
x ∞
x
dx = √ exp −
= 0.
x exp −
−∞
2
2
2π
Beispiel 10.41:
Sei X eine Cauchy-verteilte Zufallsvariable. Für die zugehörige Dichte f ist dann
Z∞
−∞
|x|f (x) dx =
Z∞
−∞
1
|x|
dx =
π (1 + x2 )
π
Daher hat X keinen Erwartungswert!
Z∞
0
1
2x
2 R
ln
1
+
x
= ∞.
dx
=
lim
0
1 + x2
π R→∞
112
10 Allgemeine Modelle und stetige Verteilungen
Beispiel 10.42:
Sei X ∼ Exp (λ). Dann ist
E (X)
Z∞
=
tλ exp (−λt) dt
0
=
λ
Z∞
t exp (−λt) dt
0

∞
t
1
λ
exp (−λt) 0 −
−λ
−λ
partielle Integration
=
Z∞
=
Z∞
0

exp (−λt) dt
exp (−λt) dt
0
∞
1
− exp (−λt) 0
λ
1
.
λ
=
=
Beispiel 10.43:
Sei X ∼ Pareto (α). Zunächst untersuchen wir, für welche α > 0 der Erwartungswert existiert. Bekanntlich
existiert das Integral
Z∞
1
dt
tβ
c
mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist der Erwartungswert für α ≤ 1 zwangsläufig
nicht existent. Für α > 1 gilt:
Z∞
0
αt
(t + 1)
α+1
dt =
Z∞
α
Z∞
α
α dt − 1
(t + 1)
0
=
0
t+1
(t + 1)
α+1
dt −
Z∞
0
α
(t + 1)
α+1
dt
∞
α
(t + 1)1−α 0 − 1
1−α
α
= −
−1
1−α
α−1
α
−
=
α−1 α−1
1
.
=
α−1
=
Da X ∼ Pareto(α) nach Definition der Dichte als nicht-negativ angenommen werden kann, haben wir
also
(
∞
falls α ≤ 1
E (X) =
.
1
falls α > 1
α−1
Aus der Maßtheorie zitieren wir ohne Beweis den folgenden
10.44 Satz (Transformationsformel für den Erwartungswert - ohne Beweis):
/ R eine meßbare Funktion (also z.B. stetig).
Sei X eine reelle Zufallsvariable mit Dichte f und g : R
Dann gilt
E (g(X)) =
Z∞
−∞
g(x) · f (x) dx,
(10.7)
10 Allgemeine Modelle und stetige Verteilungen
falls
Z∞
−∞
113
|g(x)|f (x) dx < ∞
ist.
Bemerkung 10.45:
Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b:
E (aX + b)
(10.7)
=
Z∞
(ax + b) f (x) dx
−∞
=
a
Z∞
xf (x) dx + b
f (x) dx
−∞
−∞
=
Z∞
aE (X) + b
|
{z
=1
}
Beispiel 10.46:
Sei X ∼ N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann
σX + µ ∼ N µ, σ 2
gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt
E (σX + µ) = σE(X) + µ = µ.
Daher ist µ wie schon weiter oben bemerkt der Erwartungswert einer N µ, σ 2 -verteilten Zufallsvariablen.
10.47 Definition:
k
Sei X eine stetig verteilte reelle Zufallsvariable. Falls E |X| < ∞ gilt (in dem Sinne, dass der Erwartungswert für nicht-negative Zufallsvariablen in [0, ∞] stets existiert), so nennen wir
E Xk
das k-te Moment von X.
10.48 Definition:
Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianz
von X durch
2
2
V (X) := E (X − E(X)) = E X 2 − (E (X)) .
Bemerkung 10.49:
Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist
V (X) =
Z∞
−∞
falls existent.

x2 f (x) dx − 
Z∞
−∞
2
xf (x) dx
Beispiel 10.50:
Sei X ∼ U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) =
10.49 haben wir also
Z1
1
1 1
1
V (X) = x2 dx − = − =
.
4
3 4
12
0
1
2
gilt. Nach Bemerkung
114
10 Allgemeine Modelle und stetige Verteilungen
Allgemein folgt ganz genauso
X ∼ U (r, s) ⇒ V (X)
1
s−r
=
Zs
2
x dx −
r
(s + r)
s3 − r3
−
3(s − r)
4
=
s+r
2
2
2
4s2 + 4rs + 4r2
3s2 + 6rs + 3r2
−
12
12
2
2
s − 2rs + r
12
=
=
2
(s − r)
.
12
=
Bemerkung 10.51:
Man zeigt ganz genau wie im diskreten Fall, dass
V (aX + b) = a2 V (X)
gilt.
Beispiel 10.52:
Sei X ∼ N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also
V (X)
Z∞
=
−∞
1
√
2π
=
partielle Integration
=
2
x
1
x2 √ exp −
dx
2
2π
Z∞
−∞
2 x
x · x exp −
dx
2
|
{z
}
′
2
= exp − x2


2 2
Z∞
∞
x
1 
x
√
−x exp −
exp −
dx
+
−∞
2
2
2π
−∞
=
=
1
√
2π
Z∞
−∞
x2
exp −
dx
2
1
Mit der Regel aus Bemerkung 10.51 zeigt das
Y ∼ N µ, σ 2
⇒ V (Y ) = σ 2 ,
da für X ∼ N (0, 1) mit Beispiel 10.35 σX + µ ∼ N µ, σ 2 gilt.
10.7
Mehrdimensionale stetige Verteilungen
Zunächst müssen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten können und
welche nicht. Dazu gehen wir genau wie auf R vor und wählen eine geeignete σ-Algebra.
10.53 Definition:
Die Borel’sche σ-Algebra Bn des Rn ist die kleinste σ-Algebra auf dem Rn , die alle offenen Mengen
enthält.
Auch im Rn behält Satz 10.14 seine Gültigkeit! Allerdings ändert sich hier die Formulierung etwas:
10.54 Satz (ohne Beweis):
Die folgenden Forderungen an eine σ-Algebra auf Rn sind äquivalent:
(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.
10 Allgemeine Modelle und stetige Verteilungen
115
(2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke
(a, b] := (a1 , b1 ] × ... × (an , bn ]
mit a = (a1 , ..., an ) , b = (b1 , ..., bn ) ∈ Rn enthält.
10.55 Definition:
Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn
Z
f (x) dx = 1.
/ R mit f ≥ 0 und
Rn
Ebenso zitieren wir den folgenden Satz aus der Maßtheorie:
10.56 Satz (ohne Beweis):
/ R eine Dichte auf dem Rn , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P
Ist f : Rn
n
auf (R , Bn ) mit der Eigenschaft, dass
P ((a, b]) =
Zb1
a1
...
Zbn
f (x1 , ..., xn ) dxn ... dx1 =:
an
Z
f (x) dx
(a,b]
für alle Rechtecke (a, b].
10.57 Definition:
Die reellen Zufallsvariablen X1 , ..., Xn haben die gemeinsame Dichte f , wenn f eine Dichte auf dem
Rn ist und für alle a, b ∈ Rn gilt:
Z
P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) =
f (x) dx.
(a,b]
Beispiel 10.58:
2
Für n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1] .
Beispiel 10.59:
Durch
1
1{(x,y)∈R2 | x2 +y2 ≤1}
π
definieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R2 .
f :=
Bemerkung 10.60:
Diese Beispiele lassen sich durchaus verallgemeinern:
Ist A ⊂ R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer
beliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion
f :=
1
1A
Vol(A)
ist die Dichte der Gleichverteilung auf A.
10.61 Definition (Produktdichten):
Sind f1 , ..., fn Dichten auf R, so ist
f (x1 , ..., xn ) := f1 (x1 ) · ... · fn (xn )
eine Dichte auf dem Rn . f heißt Produktdichte der Dichten f1 , ..., fn . Die gemäß Satz 10.56 zu f
gehörende Wahrscheinlichkeitsverteilung P auf (Rn , Bn ) heißt Produktverteilung der zu f1 , ..., fn
gehörenden Verteilungen P1 , ..., Pn auf R gemäß Satz 10.25. Maßtheoretisch schreibt man auch
P = P1 × ... × Pn .
Beispiel 10.62:
Die Funktion 1[0,1]2 ist die Dichte zu P1 × P2 , wenn P1 , P2 Gleichverteilungen auf [0, 1] sind.
116
10 Allgemeine Modelle und stetige Verteilungen
Beispiel 10.63:
Sei n ∈ N≥2 und sei fi (xi ) :=
gegeben durch
√1
2π
2
x
exp − 2i für i = 1, ..., n. Dann ist die zugehörige Produktdichte
f (x1 , ..., xn ) = f1 (x1 ) · ... · fn (xn ) =
beziehungsweise
f (x) = (2π)
−n
2
1
√
2π
n
1
exp − x21 + ... + x2n
2
kxk22
,
exp −
2
x ∈ Rn
für die gewöhnliche euklidische Norm auf dem Rn . Für n = 3 sieht die Produktdichte wie folgt aus:
z
y
x
Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3 .
An dieser Stelle zitieren wir folgende Sätze aus der Maßtheorie:
10.64 Satz (ohne Beweis):
Sind X, Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt für jedes glatte
Gebiet A ⊂ R2 , dass
Z
P ((X, Y ) ∈ A) = f (x, y) d(x, y).
A
Außerdem benötigen wir die Transformationsformel für den Erwartungswert von Funktionen von Zufallsvektoren:
10.65 Satz (ohne Beweis):
/R
Sind X1 , ..., Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn
meßbar (z.B. stetig), so gilt
Z
E (g (X1 , ..., Xn )) = g(x)f (x) dx
(10.8)
Rn
falls
Z
Rn
|g(x)|f (x) dx < ∞
ist.
10.66 Hilfssatz:
Sind X1 , X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist
f1 (x1 ) :=
Z∞
f (x1 , x2 ) dx2
Z∞
f (x1 , x2 ) dx1
−∞
die Dichte zu X1 und
f2 (x2 ) :=
−∞
die Dichte zu X2 .
10 Allgemeine Modelle und stetige Verteilungen
117
Beweis:
Es gilt
P (a1 ≤ X1 ≤ b1 )
P (a1 ≤ X1 ≤ b1 , −∞ < X2 < ∞)
=
Satz 10.64
=
Zb1 Z∞
f (x1 , x2 ) dx2 dx1 .
a1 −∞
|
{z
}
=f1 (x1 )
Ganz analog kann man für f2 vorgehen. Das zeigt schon die Behauptung.
Bemerkung 10.67:
Jetzt können wir endlich zeigen, dass der Erwartungswert linear ist:
E (X1 + X2 ) = E (X1 ) + E (X2 ) .
Beweis:
Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1 , x2 ) = x1 + x2 an. Das liefert
Z
(x1 + x2 ) f (x1 , x2 ) d(x1 , x2 )
E (X1 + X2 )
=
R2
=
Z
x1 f (x1 , x2 ) d(x1 , x2 ) +
=
R
Hilfssatz 10.66
=
x2 f (x1 , x2 ) d(x1 , x2 )
R2
R2
Z
Z

x1 
Z
R

f (x1 , x2 ) dx2  dx1 +
Z
R
E (X1 ) + E (X2 )

x2 
Z
R

f (x1 , x2 ) dx1  dx2
Damit ist die Behauptung gezeigt.
10.8
Unabhängigkeit
10.68 Definition:
Reelle Zufallsvariablen X1 , ..., Xn heißen unabhängig, wenn
P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) =
für alle a = (a1 , ..., an ) , b = (b1 , ..., bn ) ∈ Rn gilt.
n
Y
i=1
P (ai ≤ Xi ≤ bi )
10.69 Satz (Unabhängigkeit bei stetigen Verteilungen):
(1) Sind X1 , ..., Xn unabhängige Zufallsvariablen mit Dichten f1 , ..., fn entsprechend, so ist die gemeinsame Dichte f durch die Produktdichte
f (x1 , ..., xn ) := f1 (x1 ) · ... · fn (xn )
(10.9)
gegeben.
(2) Sind X1 , ..., Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind
X1 , ..., Xn unabhängig und fi ist die Dichte zu Xi , i = 1, ..., n.
Beweis:
(1) Wegen der Unabhängigkeit und der Definition der Dichten fi gilt
P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) =
n
Y
i=1
P (ai ≤ Xi ≤ bi )
bi
=
n Z
Y
fi (xi ) dxi
i=1 a
=
Z
(a,b]
i
f (x) dx
118
10 Allgemeine Modelle und stetige Verteilungen
für alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1 , ..., Xn ist.
(2) Da X1 , ..., Xn eine gemeinsame Dichte der Form (10.9) haben, ist
P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) =
Zb1
...
Zbn
f1 (x1 ) · ... · fn (xn ) dxn ... dx1
an
a1
bi
=
n Z
Y
fi (xi ) dxi
(10.10)
i=1 a
i
für jedes Rechteck (a, b].
/ − ∞, bj
/ ∞ für alle j 6= i
Für festes i ∈ {1, ..., n} lassen wir jetzt in dieser Gleichung aj
gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi ) und die rechte Seite gegen
Zbi
fi (xi ) dxi ,
ai
da jedes fj eine Dichte ist und somit
R∞
fj (xj ) dxj = 1 erfüllt. Das zeigt, dass fi die Dichte zu Xi
−∞
ist, also
P (ai ≤ Xi ≤ bi ) =
Zbi
fi (xi ) dxi .
ai
Damit ist aber wegen (10.10)
P (a1 ≤ X1 ≤ b1 , ..., an ≤ Xn ≤ bn ) =
n
Y
i=1
P (ai ≤ Xi ≤ bi ) ,
womit X1 , ..., Xn per Definition unabhängig sind.
Beispiel 10.70:
Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehen
an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass
wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir
den Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass X
und Y unabhängig sind. Gefragt ist dann nach
P (Y ≥ 2X) .
(10.11)
Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.
f (x, y) = (λ exp (−λx)) (λ exp (−λy)) 1[0,∞)2 .
Um (10.11) zu bestimmen betrachten wir
A = {(x, y) | x, y ≥ 0, y ≥ 2x} .
10 Allgemeine Modelle und stetige Verteilungen
119
Mit Satz 10.64 folgt
P (A)
=
Z
f (x, y) dx dy
A
2
Z∞ Z∞
exp (−λ(x + y)) dy dx
= λ2
Z∞ Z∞
exp (−λ(x + y)) dy dx
= λ
0 2x
0 2x
=
Z∞
0
=
Z∞

λ exp (−λx) 
Z∞
2x

exp (−λy) dy  dx
λ exp (−λx) exp (−2λx) dx
0
=
1
3
Z∞
3λ exp (−3λx) dx
0
=
=
∞
1
(− exp (−3λx)) 0
3
1
.
3
Zuletzt sei noch der folgende Satz aus der Maßtheorie erwähnt:
10.71 Satz (ohne Beweis):
Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch für Zufallsvariablen mit stetigen
Verteilungen.
Wir zeigen nun, dass der Produktsatz für unabhängige Zufallsvariablen auch im stetigen Fall gilt:
10.72 Satz:
Sind X und Y unabhängige Zufallsvariablen mit Dichten fX und fY , so gilt
E(X · Y ) = E(X) · E(Y ).
Beweis:
/ R. Die Dichte zu (X, Y ) hat gemäß Satz 10.69 Produktform f (x, y) =
Setze g(x, y) = x · y, g : R2
fX (x) · fY (y), da X und Y unabhängig sind.
Damit gilt
E(X · Y )
=
Transformationsformel
=
E(g(X, Y ))
Z∞ Z∞
g(x, y) · f (x, y) dx dy
Z∞ Z∞
x · y · fX (x) · fY (y) dx dy
−∞ −∞
=
−∞ −∞
=
Z∞
−∞
x · fX (x) dx ·
Z∞
−∞
y · fY (y) dy.
Das zeigt die Behauptung.
Korollar 10.73:
Sind X und Y stetige unabhängige Zufallsvariablen, so gilt
CoV(X, Y ) = E(X · Y ) − E(X)E(Y ) = 0,
das heißt, X und Y sind unkorreliert.
120
10 Allgemeine Modelle und stetige Verteilungen
10.74 Definition (Faltung):
Seien f1 und f2 Dichten auf R. Die Dichte
f1 ⋆ f2 (z) =
Z∞
−∞
f1 (x)f2 (z − x) dx
nennen wir Faltung f1 ⋆ f2 von f1 und f2 .
10.75 Satz (Dichten für Summen von unabhängigen Zufallsvariablen mit Dichten):
Seien X und Y unabhängige Zufallsvariablen mit Dichten fX und fY . Dann hat X +Y die Dichte fX ⋆ fY .
Beweis:
X und Y haben die gemeinsame Dichte f (x, y) = fX (x) · fY (y), da X und Y unabhängig sind. Sei A die
Menge
A := {(x, y) | x + y ≤ b} .
Dann gilt
P (X + Y ≤ b)
Z
=
f (x, y) dx dy
A
Z∞
=
−∞
=

b−x
Z

fX (x)fY (y) dy  dx

−∞
Z∞ Zb
fX (x)fY (z − x) dz dx


−∞ −∞
Zb
=
−∞
Zb
=

Z∞
−∞
fx (x)fy (z − x) dx dz
fX ⋆ fY (z) dz.
−∞
Damit ist die Behauptung gezeigt.
Beispiel 10.76 (Gleichverteilung U(0, 1)):
Seien X und Y unabhängig und gleichverteilt auf [0, 1]. Dann ist die Dichte von X + Y gegeben als

falls 0 ≤ t ≤ 1

 t
2 − t falls 1 ≤ t ≤ 2 .
fX+Y (t) =


0
sonst
1
−2
−1
0
1
2
3
Abbildung 23: Die Dichte von X + Y für X, Y
i.i.d.
∼
U (0, 1).
10 Allgemeine Modelle und stetige Verteilungen
121
Beweis:
Offenbar ist fX (t) = 1[0,1] (t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als
(fX ⋆ fY ) (z)
=
Z∞
−∞
=
Z1
0
fX (x) · fY (z − x) dx
1[0,1] (z − x) dx
z−1
Z
= −
1[0,1] (y) dy
z
=
Zz
1[0,1] (y) dy.
z−1
Nun unterscheiden wir vier Fälle:
• Ist z < 0, so ist offenbar
• Ist z > 2, so ist offenbar
Rz
1[0,1] (y) dy = 0.
z−1
Rz
1[0,1] (y) dy = 0.
z−1
• Ist 0 ≤ z ≤ 1, so berechnet man
Zz
1[0,1] (y) dy =
Zz
1 dy = z.
0
z−1
• Ist 1 ≤ z ≤ 2, so berechnet man
Zz
1[0,1] (y) dy =
z−1
Z1
1 dy = 2 − z.
z−1
Das zeigt die Behauptung.
10.77 Satz:
Seien Xi ∼ N (µi , σi2 ), für i = 1, 2 unabhängig. Dann ist X1 + X2 normalverteilt mit Parametern µ1 + µ2
und σ12 + σ22 , d.h.
X1 + X2 ∼ N µ1 + µ2 , σ12 + σ22 .
Beweis:
Es genügt zu zeigen, dass
(X1 − µ1 ) + (X2 − µ2 ) ∼ N 0, σ12 + σ22
gilt, wobei (X1 − µ1 ) ∼ N 0, σ12 und (X2 − µ2 ) ∼ N 0, σ22 verteilt sind. Nach Definition der Faltung
zweier Dichten ergibt sich für festes z ∈ R:
f0,σ12 ⋆ f0,σ22 (z) =
Z∞
−∞
=
Wir setzen nun
σ :=
√
1
1
1 x2
(z − x)2
dx
exp − 2 · √
exp −
2 σ1
2σ22
2πσ1
2πσ2
1
2πσ1 σ2
Z∞
−∞


 1 x2
(z − x)2 


+
exp −
 dx.
σ22

 2 σ12
{z
}
|
q
σ12 + σ22 und w = w(x) =
=:(∗)
σ
σ1
·x−
z.
σ1 σ2
σσ2
(10.12)
122
10 Allgemeine Modelle und stetige Verteilungen
Dann ist
w2 +
z2
σ2
=
σ2
z2
σ12 + σ22 2 2xz
x − 2 + 2 1 2 z2 + 2
2
2
σ1 σ2
σ2
σ σ
σ
| 2 {z
}
2
= z2
σ
2
Da dw =
σ
σ1 σ2 dx
ist, folgt dx =
=
x2
2xz
z2
x2
+ 2− 2 + 2
2
σ1
σ2
σ2
σ2
=
x2
(z − x)2
+
σ12
σ22
=
(∗).
σ1 σ2
σ dw.
f0,σ12 ⋆ f0,σ22 (z)
=
=
Wir substituieren also in (10.12) und erhalten so
1
2πσ1 σ2
Z∞
−∞
1
exp −
2
z2
w + 2
σ
2
σ1 σ2
dw
σ
Z∞
1
z2
1
1
√ exp − w2 dw
exp − 2 −
2πσ
2σ
2
2π
−∞
{z
}
|
=1 (Std.normalverteilung)
= f0,σ2 (z)
= f0,σ12 +σ22 (z).
Damit ist der Satz bewiesen.
10.9
Die mehrdimensionale Normalverteilung
10.78 Definition:
Wir haben in Beispiel 10.63 schon gesehen, dass für unabhängige Zufallsvariablen Z1 , ..., Zn ∼ N (0, 1)
T
die Zufallsgröße Z = (Z1 , ..., Zn ) die Dichte
!
n
1X 2
1
f (z1 , ..., zn ) = √ n exp −
z
2 ν=1 i
2π
besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung
nennen. Wir schreiben dann auch
T
(Z1 , ..., Zn ) ∼ N (0, In ) ,
wobei wir mit

die n × n-Einheitsmatrix bezeichnen.

In = 

1
0
..
.
0
1




10.79 Definition:
T
Sei Z = (Z1 , ..., Zn ) ∼ N (0, In ), A eine reelle n × n-Matrix und µ ∈ R. Dann nennen wir die Verteilung
von
A·Z +µ
eine n-dimensionale Normalverteilung zu A und µ.
10.80 Definition:
T
Sei Z = (Z1 , ..., Zn ) ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor
T
E (Z) = (E (Z1 ) , ..., E (Zn )) .
Beispiel 10.81:
Sei Z ∼ N (0, In ). Dann ist offenbar E (Z) = 0 ∈ Rn . Außerdem folgt für jede n × n-Matrix A und jedes
µ ∈ Rn , dass
E (AZ + µ) = AE (Z) + µ = µ.
10 Allgemeine Modelle und stetige Verteilungen
123
10.82 Definition:
T
Sei Z = (Z1 , ..., Zn ) ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist
ΣZ := (CoV (Zi , Zj ))1≤i,j≤n .
Beispiel 10.83:
T
Sei Z = (Z1 , ..., Zn ) ∼ N (0, In ). Wegen
CoV (Zi , Zj ) =
(
0 falls i 6= j
1 falls i = j
ist ΣZ = In .
10.84 Lemma:
Sei Z ein beliebiger Zufallsvektor, A = (ai,j )1≤i,j≤n eine beliebige reelle n × n-Matrix und µ ∈ Rn . Dann
gilt für X := A · Z + µ, dass
ΣX = A · ΣZ · AT .
Beweis:
Es ist
CoV (Xi , Xj ) = E ((Xi − E (Xi )) (Xj − E (Xj )))
!!
!
n
n
X
X
·
= E
ai,k Zk + µi
ai,k Zk + µi − E
k=1
n
X
aj,k Zk + µj
k=1
= E
n
X
k=1
=
n
X
!
k=1
E
n
X
aj,k Zk + µj
k=1
!
ai,k (Zk − E (Zk ))
·
n
X
l=1
!!!
aj,l (Zl − E (Zl ))
!!
ai,k CoV (Zk , Zl ) aj,l
k,l=1
=
n
X
ai,k CoV (Zk , Zl ) aTl,j
k,l=1
A · Σz · AT i,j
Das zeigt die Behauptung.
Beispiel 10.85:
Sei Z ∼ N (0, In ) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Nach
Lemma 10.84 gilt dann
ΣX = A · ΣZ ·AT = A · AT .
|{z}
=In
Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und µ
gegeben durch µ und ΣX = A · AT .
Bemerkung 10.86:
Sei Z ∼ N (0, In ) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Dann ist
die Matrix ΣX = A · AT stets symmetrisch und positiv semi-definit, d.h. für jedes x ∈ Rn gilt
xT ΣX x ≥ 0.
Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, ist
Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentransformation, denn demnach ist Σ = V · D · V T für eine orthogonale Matrix V und eine Diagonalmatrix


d1
0


..
.
D=
.


0
dn
124
10 Allgemeine Modelle und stetige Verteilungen
Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen
 √

d1
0

 T
..
 ·V ,
A := V · 
.


√
dn
0
{z
}
|
√
=: D
und haben dann
A · AT = V ·
√
√
T
T
T
D·V
| {z· V} · D · V = V · D · V = Σ.
=In
10.87 Definition:
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wir
von einer ausgearteten Normalverteilung.
10.88 Definition:
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) 6= 0, so sprechen wir
von einer nicht ausgearteten Normalverteilung.
10.89 Satz:
Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn und
det(Σ) 6= 0. Dann ist die zugehörige Dichte gegeben als
1
1
T
−1
exp −
(x − µ) · Σ · (x − µ)
,
x ∈ Rn .
(10.13)
f (x) = √ n p
2
2π
det(Σ)
Beweis:
T
Wir wollen den Transformationssatz für Dichten im Rn benutzen: Hat Z = (Z1 , ..., Zn ) auf offenem
/ N für N ⊂ Rn ebenfalls offen ein Diffeomorphismus, so hat
M ⊂ Rn die Dichte fZ und ist u : M
X := u (Z) die Dichte
(10.14)
fX (x) = fZ u−1 (x) · det D(u−1 )(x) .
Dabei bezeichnet D(u−1 ) das totale Differential von u−1 .
Dieser Satz folgt direkt aus der Transformationsformel im Rn , der explizite Beweis findet sich bei
[Dehling/Haupt], Seite 181.
Hier ist Z ∼ N (0, In ), M = N = Rn und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert.
Da det (Σ) 6= 0 ist, ist auch det (A) 6= 0, d.h.
u−1 (x) = A−1 (y − µ)
existiert. Damit ist dann
det D u−1 (x) = det(A−1 ) =
1
1
.
=p
|det (A)|
det(Σ)
Beachte dabei, dass det (Σ) > 0 wegen der positiven Semi-Definitheit von Σ.
n
P
T
zi2 = (z1 , ..., zn ) · (z1 , ..., zn ) ist, gilt
Da
i=1
fZ (z) = √
1
n exp − z T · z .
2
2π
1
Mit der angegebenen Transformationsformel für Dichten (10.14) folgt
T
1
1 −1
1
·p
A (x − µ)
A−1 (x − µ)
fX (x) =
√ n exp −
2
det(Σ)
2π
1
1
T −1
=
(x − µ) Σ (x − µ)
exp −
√ n p
2
2π · det(Σ)
und somit die Behauptung.
10 Allgemeine Modelle und stetige Verteilungen
125
Bemerkung 10.90:
Ist det (Σ) = 0, so gibt es keine Dichte auf dem Rn für die zugehörige Verteilung.
Bemerkung 10.91:
Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist!
Bemerkung 10.92:
Der Fall det (Σ) 6= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h.
xT Σx > 0 ∀ x ∈ Rn \ {0} .
Für jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die
Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.
10.9.1
Folgerungen
10.93 Satz:
T
Sei X = (X1 , ..., Xn ) nach N (µ, Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdem
det (Σ) 6= 0. Dann gilt
Xi ∼ N (µi , Σi,i ) .
Allgemeiner: Ist c ∈ Rn \ {0}, so ist
n
X
i=1
ci Xi ∼ N
n
X
ci µi ,
n
X
c2i Σi,i
i=1
i=1
!
.
Sind die Xi ’s paarweise unkorreliert, so sind sie unabhängig.
Beweis:
Da alles nur von der Verteilung abhängt, können wir wie folgt vorgehen: Finde eine n × n-Matrix A, s.d.
A · AT = Σ gilt. Dann ist X = A · Z + µ für Z ∼ N (0, In ). Damit folgt aber
Xi =
n
X
Ai,k Zk + µi ,
k=1
womit mehrfaches anwenden des Faltungssatzes für die Normalverteilung (Satz 10.77) sofort
!
!
n
n
X
X
2
T
Ai,k = N µi ,
Xi ∼ N µi ,
Ai,k Ak,i = N (µi , Σi,i )
k=1
k=1
n
liefert. Ganz analog geht man für beliebiges c ∈ R \ {0} vor.
Kommen wir zur Unabhängigkeit. Sind die Xi ’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix.
Die Dichte fX von X ist gemäß 10.13 gegeben, und da Σ−1 ebenso wie Σ Diagonalform hat, ist sie in
Produktform. Satz 10.69 liefert, dass die Xi ’s unabhängig sind.
10.10
Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz
Bemerkung 10.94:
Wir haben schon gesehen, dass für stetige Zufallsvariablen X und Y ebenso wie für diskrete die Linearität
des Erwartungswertes gilt:
E (aX + Y ) = aE (X) + E (Y ) ,
a ∈ R.
(10.15)
Außerdem ist der Erwartungswert monoton, d.h.
X≤Y
⇒ E (X) ≤ E (Y ) .
Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall für die Varianz
gelten, sich auf den stetigen Fall übertragen, also
V (aX + b) = a2 V (X)
(10.16)
für a, b ∈ R und X stetig verteilte Zufallsvariable usw..
Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie im
stetigen Fall.
Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen.
126
10.10.1
10 Allgemeine Modelle und stetige Verteilungen
Die Jensen’sche Ungleichung
Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes
10.95 Lemma (Jensen’sche Ungleichung):
Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fällen) und g : R
eine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung
/R
g (E (X)) ≤ E (g (X)) .
Beweis:
Für eine konvexe Funktion g können wir an den Punkt (E (X) , g (E (X))) eine (ohne weitere Voraussetzungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form
L (x) = c · (x − E (X)) + g (E (X)) ,
wobei c = g ′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbesondere gilt dann
E (L (X)) = E (c · (X − E (X)) + g (E (X)))
= c · (E (X) − E (X)) + g (E (X))
= g (E (X))
Da g konvex und L linear ist, gilt L ≤ g und mit der Monotonie des Erwartungswerts folgt so
g (E (X)) = E (L (X)) ≤ E (g (X)) ,
was die Behauptung zeigt.
Beispiel 10.96:
Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x2 , so folgt
2
(E (X)) ≤ E X 2 .
2
Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E X 2 − (E (X)) ist.
Bemerkung 10.97:
Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch für Intervalle I ⊂ R, etwa
I = [0, ∞) anwenden, wenn X Werte in I hat.
10 Allgemeine Modelle und stetige Verteilungen
10.10.2
127
Der zentrale Grenzwertsatz (ZGWS)
10.98 Definition (drittes zentrales Moment):
Sei X eine reelle Zufallsvariable. Wir definieren
3
γ (X) := E |X − E (X)|
als das dritte zentrale Moment von X.
Bemerkung 10.99:
Sei X eine reelle Zufallsvariable. Offenbar hängt γ (X) nur von der Verteilung von X ab.
10.100 Satz (Zentraler Grenzwertsatz):
Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X)und γ := γ(X) existieren
und V (X) > 0 ist (das ist zum Beispiel für B (n, p) , Geo(p), Exp (λ) , N µ, σ 2 usw. der Fall).
Für jedes n ∈ N seien X1 , ..., Xn unabhängige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei
nun
n
X
Xi
Sn :=
i=1
und Φ die Verteilungsfunktion von N (0, 1). Dann gilt
!
Sn − E (Sn )
p
≤ x − Φ (x)
sup P
V (Sn )
x∈R
n
/∞
/ 0.
(10.17)
Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.
Bemerkung 10.101:
Natürlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤.
Bemerkung 10.102:
Natürlich folgt mit dem zentralen Grenzwertsatz auch
!
Sn − E (Sn )
sup P a ≤ p
≤ b − (Φ(b) − Φ(a))
V (Sn )
a≤b
n
/∞
/ 0.
10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung):
Sei X1 , X2 , ... eine Folge unabhängiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1 ), V (X1 )
und γ (X1 ) existieren und V (X1 ) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0, 1).
Dann gilt


n
n
P
P


Xi
Xi − E
/∞
n
 i=1

i=1

/ 0.

s sup P 
≤ x − Φ (x)
n
x∈R 
P

V
Xi
i=1
Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace):
Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit
0 < p < 1 fest und X1 , X2 , ... ∼ B (1, p) unabhängig verteilt.
Nun zeigen wir zunächst folgenden
10.105 Hilfssatz:
Sei Y ∼ N 0, σ 2 verteilt. Dann gilt
3
E |Y |
=
r
8 3
σ .
π
Beweis:
Gemäß der Transformationsformel für den Erwartungswert (Satz 10.44) ist
3
E |Y |
=
Z∞
−∞
=
√
1
1
exp − 2 t2 dt
|t|3 √
2σ
2πσ 2
2
2πσ 2
·
Z∞
0
1
t3 exp − 2 t2 dt.
2σ
128
10 Allgemeine Modelle und stetige Verteilungen
√
Nun substituiert man t = σ 2x, womit dt =
3
E |Y |
√σ
2x
dx ist und
2
√
·
2πσ 2
Z∞
=
2σ 4
√
·
2πσ 2
Z∞ √
=
Z∞
=
=
4σ 3
√ ·
2π
0
√ 3
σ
1
σ 3 2x exp − 2 σ 2 2x √ dx
2σ
2x
2
2x exp (−x) dx
0
x exp (−x) dx
0
4σ 3
√ · Γ (2)
2π
4σ 3
√ · (2 − 1)!
2π
r
16 3
σ
=
2π
r
8 3
σ .
=
π
=
Das zeigt die Behauptung.
Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest:
Bemerkung 10.106:
Sind die Zufallsvariablen Xi unabhängig, so gilt
V
n
X
Xi
i=1
!
=
n
X
V (Xi ) ,
i=1
was wir im diskreten Fall auch bewiesen haben.
Beweis (von Satz 10.100):
Setze
Fn (x) := P
für x ∈ R und σ :=
p
!
Sn − E (Sn )
p
≤x
V (Sn )
V (x1 ). Wir müssen also zeigen, dass
sup |Fn (x) − Φ(x)|
/∞
n
/.
(10.18)
x∈R
Für (10.18) genügt es zu zeigen, dass es für jedes ε > 0 ein δ > 0 gibt, s.d.
√
γ
≤ δ ⇒ sup |Fn (x) − Φ(x)| ≤ ε,
nσ 3
x∈R
denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d.
sup |Fn (x) − Φ(x)| ≤ ε
x∈R
ist.
Wir beginnen dazu mit einigen Vorbereitungen. Setze
Xi − E (Xi )
Zi := p
nV (Xi )
für i = 1, ..., n. Dann ist nach der Bemerkung 10.106
n
Sn − E (Sn ) X
p
Zi
=
V (Sn )
i=1
√γ 3
nσ
≤ δ und somit
10 Allgemeine Modelle und stetige Verteilungen
129
und entsprechend auch
n
X
Fn (x) = P
i=1
!
Zi ≤ x ,
x ∈ R.
Offenbar ist E (Zi ) = 0 für i = 1, ..., n und man berechnet mit den Regeln für die Varianz
1
1
2
E Zi2 = V (Zi ) + (E (Zi )) =
· V (Xi − E (Xi )) =
| {z } nV (Xi )
n
=0
für jedes i = 1, ..., n. Zuletzt ist
3
E |Zi |
3
|Xi − E (Xi )|
p
3
nV (Xi )
=E
!
γ
= √ 3 .
( n) σ 3
Seien ferner Y1 , ..., Yn unabhängig (auch von den Zi ’s) mit Yi ∼ N 0, n1 . Nach dem Faltungssatz für die
Normalverteilung (Satz 10.77) ist dann
n
X
Yi ∼ N (0, 1)
Yi2
verteilt. Außerdem ist E (Yi ) = 0, E
i=1
= V (Yi ) = n1 und mit Hilfssatz 10.105 auch
r
8 1
3
E |Yi | =
√ .
π n3
Wähle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und
(
1 falls t ≤ 0
f (t) =
.
0 falls t ≥ ε
Setze dann zu x ∈ R fx (t) := f (t − x), t ∈ R und M := sup |f ′′′ (t)|. Nach dem Satz von Taylor gilt dann
t∈R
für alle t, h ∈ R
fx (t + h) = fx (t) + fx′ (t) · h + fx′′ (t) ·
|h|3
|h|3
h2
+ v(t, h) mit |v(t, h)| ≤ sup |fx′′′ (t)| ·
≤M·
. (10.19)
2
6
6
t∈R
Jetzt definieren wir
δ := δ(ε) =
und wählen n ∈ N so groß, dass
√γ 3
nσ
≤ δ gilt.
3.6 · ε
q M 1 + π8
Schritt I
Wir zeigen nun, dass
!!
n
X
−E
Zi
E fx
i=1
für alle x ∈ R gilt.
Setze SjZ :=
j
P
i=1
fx
!!
M
Yi
≤
6
i=1
n
X
n X
3
3
E |Zi | + E |Yi |
i=1
!
(10.20)
Z
und h = Zn in der Taylorentwicklung (10.19):
Zi für j = 1, ..., n. Betrachte nun t = Sn−1
Zn2
Z
Z
Z
Z
Z
·
· Zn + fx′′ Sn−1
+ fx′ Sn−1
+ v Sn−1
, Zn .
fx Sn−1
+ Zn = fx Sn−1
2
| {z }
Z
=Sn
Z
Z
und
und Zn sowie fx′′ Sn−1
Nach dem Blockungslemma sind fx′ Sn−1
unseren Vorüberlegungen
E fx SnZ
Z
= E fx Sn−1
Z
+ E fx′ Sn−1
Z
· E (Zn ) +E fx′′ Sn−1
| {z }
=0
2
Zn
2
unabhängig, d.h. es folgt mit
2
Zn
Z
·E
+E v Sn−1
, Zn .
2
| {z }
1
= 2n
130
10 Allgemeine Modelle und stetige Verteilungen
Genauso folgt mit h = Yn , dass
E
Z
fx Sn−1
+ Yn
=E
Z
fx Sn−1
Subtrahieren der Gleichungen liefert
Z
E fx SnZ − E fx Sn−1
+ Yn +E
fx′′
Z
Sn−1
=
≤
Yn2
Z
·E
+E v Sn−1
, Yn .
2
| {z }
1
= 2n
Z
Z
E v Sn−1
, Zn − E v Sn−1
, Yn Z
Z
E v Sn−1
, Yn , Zn + E v Sn−1
Z
E v SnZ , Zn + E v Sn−1
, Yn (10.19), Monotonie
M 3
3
.
≤
E |Zn | + E |Yn |
6
n P
haben wollen, betrachten wir
Yi
Da wir ja eigentlich eine Abschätzung für E fx SnZ − E fx
i=1
Z
nun die Taylor-Entwicklung (10.19) mit t = Sn−2 + Yn und h = Zn−1 bzw. h = Yn−1 . Dort erhalten
wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschätzung
M 3
3
Z
Z
E fx Sn−1
+ Yn − E fx Sn−2
+ Yn−1 + Yn ≤
.
E |Zn−1 | + E |Yn−1 |
6
Z
Nutze dann die Taylor-Entwicklung (10.19) mit t = Sn−3
+ Yn−1 Yn und h = Zn−2 bzw. h = Yn−2 usw..
Das liefert dann allgemein
M 3
3
Z
E fx SkZ + Yk+1 + ... + Yn − E fx Sk−1
+ Yk + ... + Yn ≤
E |Zk | + E |Yk |
6
Jensen’sche Ungleichung
≤
für alle k ∈ {1, ..., n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20).
Schritt II
Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Vorüberlegungen
ist die rechte Seite
!
!
r
n
γ
M
M X 8 1
3
3
√ 3+
√
.
(10.21)
E |Zi | + E |Yi |
=
6 i=1
6
π n
nσ
3
Da g (x) := x 2 konvex ist, folgt mit der Jensen’schen Ungleichung 10.95, dass
3
p
3
3 V (X) = E |X − E (X) |2 2 ≤ E |X − E(X)|2 2 = E |X − E(X)|3 = γ
σ3 =
ist. Daher ist
γ
≥1
σ3
und es folgt, dass die rechte Seite 10.21
!
r
M
8 1
γ
√ 3+
√
≤
6
π n
nσ
=
!
r
8 1
γ
γ
√ 3+ 3
√
σ
π n
nσ
r !
8
M γ
√ 3 1+
6
π
nσ
| {z }
M
6
≤δ
≤
=
=
=
erfüllt - also genau die Behauptung.
M
δ 1+
6
r !
8
π
M
3.6ε
q 6 M 1+ 8
π
3.6
ε
6
0.6ε
r !
8
1+
π
10 Allgemeine Modelle und stetige Verteilungen
131
Schritt III
Nach Definition der Zi haben wir nun für alle x ∈ R
n
X
Fn (x) = P
i=1
= E
!
Zi ≤ x
n
X
1(−∞,x]
Zi
i=1
da 1(−∞,x]
n
P
i=1
Zi
∼ B 1, P
n
P
i=1
!!
,
Zi ≤ x
gilt. Nach Wahl von f ist 1(−∞,x] ≤ fx und daher folgt
mit der Monotonie des Erwartungswerts
Fn (x) ≤ E
n
X
fx
Zi
i=1
!!
,
was mit Schritt I und II wiederum
Fn (x) ≤ E
fx
n
X
Yi
i=1
!!
+ 0.6ε
zeigt. Nun ist 1(−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wieder mit der Monotonie
!!
!
n
n
X
X
+ 0.6ε = P
Fn (x) ≤ E 1(−∞,x+ε]
Yi ≤ x + ε + 0.6ε.
Yi
i=1
i=1
Da wie schon bemerkt laut Faltungssatz (Satz 10.77)
n
P
i=1
P
n
X
i=1
Yi ≤ x + ε
!
Yi ∼ N (0, 1) gilt, ist
= Φ (x + ε) ,
d.h. wir haben
Fn (x) ≤ Φ(x + ε) + 0.6ε.
Der Mittelwertsatz der Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ′ (ξ) für ein ξ ∈ R. Wegen
Φ′ (ξ) = ϕ(ξ) ≤ √12π ≤ 0.4 für die Dichte ϕ der Standard-Normalverteilung folgt somit
Fn (x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε.
Ganz analog erhält man
Φ(x − ε) ≤ Fn (x) + 0.6ε
und mit dem Mittelwertsatz zusätzlich
Φ(x) ≤ Φ(x − ε) + 0.4ε.
Zusammen zeigt das
|Fn (x) − Φ(x)| ≤ ε
für alle x ∈ R und daher über (10.18) die Behauptung.
10.107 Satz (Fehlerabschätzung nach Berry-Esseen):
Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt für jedes n ∈ N
!
0.8γ
Sn − E (Sn )
p
≤ x − Φ(x) ≤ √ 3
P
nσ
V (Sn )
für jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit
!
Sn − E (Sn )
1.6γ
≤ b − (Φ(b) − Φ(a)) ≤ √ 3 .
P a ≤ p
nσ
V (Sn )
132
10 Allgemeine Modelle und stetige Verteilungen
Beweis:
Diese Abschätzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas
Arbeitsaufwand, sie herauszulesen.
Beispiel 10.108:
Wir wollen Fehlerabschätzungen für den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 21
herleiten. Seien also X1 , X2 , ... ∼ B 1, 12 unabhängige Zufallsvariablen. Dann ist V (Xi ) = 14 , d.h. mit
den Bezeichnungen des zentralen Grenzversatzes ist
3
σ 3 = V (X) 2 =
Außerdem ist |Xi − E(Xi )| = 21 , da E (Xi ) =
Daher ist
γ
σ3
1
2
1
.
8
ist, d.h.
1
3
γ = E |X1 − E(X1 )| = .
8
= 1 und die Fehlerabschätzungen werden zu
0.8
1.6
√ bzw. √ .
n
n
11 Markov-Ketten mit endlichem Zustandsraum
11
133
Markov-Ketten mit endlichem Zustandsraum
Die Idee
Wir wollen ein stochastisches Modell für die Bewegung eines Teilchens auf endlich vielen Zuständen
geben, wobei die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen Zustand und nicht von
der weiteren Vergangenheit abhängt. Diese Eigenschaft wird auch Markov-Eigenschaft“ genannt und ist
”
oftmals nur eine Approximation der Wirklichkeit. Die Lösung für ein solches Modell sind Markov-Ketten,
die wir in Abschnitt 11.2 kennen lernen werden.
Beispiel 11.1:
Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er wählt aus allen ihm
erlaubten Zügen jeweils rein zufällig (also gleichverteilt) den nächsten Raus. In diesem Beispiel entsprechen
die Zustände den 64 Feldern des Schachbretts und das Teilchen dem Springer.
Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner
Startposition ankommt.
Beispiel 11.2:
Ein weiteres Beispiel ist ein sogenannter Netbot“, der zufällig gemäß Ausgangslinks von Seite zu Seite
”
wandert.
Beispiel 11.3 (Markov):
Markov betrachtete ursprünglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in
Puschkin’s Roman Eugene Onegin“ die Markov-Eigenschaft hätte, dann wäre die Übergangsmatrix“
”
”
(definieren wir weiter unten) gegeben durch
*
V j
0.128
0.337
0.872
K
0.663
[
.
Heutzutage werden Markov-Ketten vor allem als Modell für DNA-Folgen genutzt, wobei das Alphabet
dann {A, C, G, T} ist.
Eine andere Interpretation von Markov-Ketten ist, dass ein System (=
b Teilchen) sich in einem von endlich
vielen Zuständen befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.
Diese Interpretation wird heutzutage etwas bei der Pufferauslastung von Servern verwendet.
11.1
Steuerung der Sprünge: Übergangsmatrizen und -graphen
11.4 Definition:
Eine Zustandsmenge S ist eine endliche Menge.
Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1, ..., N }, allerdings verwenden wir oft das
Symbol 1 für den Zustand 1“, um nicht durcheinander zu kommen.
”
11.5 Definition:
Sei #S = N ∈ N. Eine N × N -Matrix P = (pi,j )i,j∈S mit den Eigenschaften
• pi,j ≥ 0 ∀ i, j ∈ S
P
•
pi,j = 1 ∀ i ∈ S
j∈S
heißt stochastische Matrix oder Übergangsmatrix auf S.
In diesem Fall sind alle Zeilen von P stochastische Vektoren.
Notation 3:
Sei P eine Übergangsmatrix auf S. Für den Eintrag von P in der i-ten Zeile und j-ten Spalte schreiben
wir
P (i, j) = pi,j
bei i, j ∈ S.
134
11 Markov-Ketten mit endlichem Zustandsraum
Beispiel 11.6:
Wir wollen die tägliche Wetterentwicklung modellieren. Dazu sei
S := {Regen, Sonne, bewölkt} .
Wir nummerieren die Zustände in dieser Reihe durch (also
Als Übergangsmatrix definieren wir

0 1 0
 1
P :=  3 0 23
1
3
1
3
Regen =
b 1, Sonne =
b 2, bewölkt =
b 3).


.
1
3
Das soll etwa bedeuten, dass
2
.
3
P (morgen bewölkt | heute Sonne) = p2,3 =
11.7 Definition:
Zu einer Übergangsmatrix P auf S gehört stets ein Übergangsgraph GP , welcher wie folgt zu konstruieren
ist:
Die Menge E der Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehört
genau dann zur Kantenmenge V von GP , wenn pi,j > 0 gilt.
Beispiel 11.8:
In unserem Wettermodell aus Beispiel 11.6 wäre der zugehörige Graph
6 2
V
2
3
1
1
3
1
3
1
3
v
1 o
1
3
3
V
Beispiel 11.9 (Lieblingsbeispiel des Dozenten):
Betrachte die Übergangsmatrix
P=
0
1
1
2
1
2
!
.
Dann ist der zugehörige Übergangsgraph GP gegeben als
1
2
1
*
1 j
1
2
2
.
[
11.10 Definition:
Sei G = (V, E) ein Graph und i, j ∈ V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken
vi,i1 , vi1 ,i2 , ..., vin−1 ,in , vin ,j
zwischen den Punkten i und i1 , i1 und i2 ,... entsprechend mit i1 , ..., in ∈ V .
Im allgemeinen existiert kein Pfad zwischen beliebigen i, j ∈ V . Für einen Pfad w gegeben durch i =
i0 , i1 , ..., in = j von i nach j sei |w| = n seine Länge. Wir schreiben für w auch
i
Man kann Wege auch verknüpfen: Ist i
|w1 w2 | = |w1 | + |w2 |.
w1
w
/ j.
/ j und j
w2
/ k, so ist i
w1 w2
/ k ebenfalls ein Weg mit
11 Markov-Ketten mit endlichem Zustandsraum
135
11.11 Definition:
Sei P eine Übergangsmatrix auf S. P beziehungsweise der zugehörige Übergangsgraph GP heißen
irreduzibel, wenn es für jedes Paar i, j ∈ S ein Pfad von i nach j von GP gibt.
Beispiel 11.12:
Die Übergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrachtet man dagegen die Übergangsmatrix
!
1 0
P=
,
1
1
2
2
so sieht man am zugehörigen Graphen
1
2
1 j
2
1
2
1
[
leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !
Bemerkung 11.13:
Man beobachtet nun Folgendes: Ist P eine Übergangsmatrix auf S, so beschreibt eine Folge von Zuständen
i = i0 , i1 , ..., in−1 , in = j
aus S genau dann einen Pfad von i nach j, wenn
pi0 ,i1 > 0 und pi1 ,i2 > 0 und ... und pin−1 ,in > 0
ist, d.h. falls die Zahl
n−1
Y
piν ,iν+1
ν=0
strikt positiv ist.
Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Länge.
11.1.1
Potenzen der Matrix P
Im Weiteren benötigen wir ständig n-te Potenzen der Matrix P. Sei n ∈ N und N = #S. Man beachte:
• Die N × N -Matrix P2 = P · P ist gegeben durch
X
X
P2 (i, j) =
pi,k · pk,j =
P (i, k) · P (k, j) ,
k∈S
k∈S
• Allgemein folgt induktiv für Pn = P · Pn−1 , dass
X
Pn (i, j) =
pi,i1 · ... · pin−1 ,j ,
i1 ,...,in−1 ∈S
i, j ∈ S.
i, j ∈ S,
(11.1)
d.h. dass die Zahl Pn (i, j) genau die Summe aller Gewichte von Pfaden der Länge n von i nach j
ist.
Damit haben wir sofort folgenden
11.14 Satz:
Sei P eine Übergangsmatrix auf S. Dann gilt:
P ist genau dann irreduzibel, wenn es für jedes Paar i, j ∈ S ein n = n (i, j) ∈ N mit
Pn (i, j) > 0
gibt.
136
11 Markov-Ketten mit endlichem Zustandsraum
Beweis:
Ist P irreduzibel, so gibt es zu i, j ∈ S ein n = n (i, j) und einen Pfad der Länge n von i nach j mit
Gewicht λ ∈ (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte von
Pfaden der Länge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt
Pn (i, j) ≥ λ > 0.
Gibt es zu i, j ∈ S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass ein
Pfad von i nach j in GP der Länge n existiert.
Beispiel 11.15:
Sei
0
1
P=
Dann ist
1
0
0
1
!
2
1
0
!
.
!
0 1
1 0
4
= P = P = ... und
= P = P3 = P5 = ....
Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehörigen
Graphen GP leicht erkennen:
1
*
1 j
2 .
1
Beispiel 11.16:
Wir betrachten wieder die Übergangsmatrix
0
1
1
2
1
2
!
1
2
1
4
1
2
3
4
!
1, 2
o
P=
aus Beispiel 11.9. Dann ist
2
P =
womit offenbar n = 2 für jedes Paar i, j ∈ S =
zu zeigen.
n
,
ausreicht, um die Irreduzibilität mit dem Satz
Wir werden meist nur irreduzible Übergangsmatrizen P
betrachten!
11.1.2
Die Periode einer Übergangsmatrix
11.17 Definition:
Sei P eine irreduzible Übergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist der größte gemeinsame Teiler der Menge
{n ∈ N | es gibt einen Pfad der Länge n von i nach i} = {n ∈ N | Pn (i, i) > 0} .
Beispiel 11.18:
Wir betrachten wieder die Übergangsmatrix
P=
0
1
1
0
!
aus Beispiel 11.15.
Für den Zustand i = 1 existieren offenbar Pfade mit Längen 2,4,6,8,... von i nach
i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Definition
auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.
Genauso ist d 2 = 2.
11 Markov-Ketten mit endlichem Zustandsraum
137
Beispiel 11.19:
Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist
!
0 1
P=
.
1
1
2
2
• Für i = 1 finden wir offenbar Pfade von i nach i mit den Längen 2,3,4,5,6 usw., schließlich können
wir im Zustand
” 2 “ immer rotieren. Das größte gemeinsame Teiler dieser Menge ist 1, d.h. wir
haben d 1 = 1.
einen
• Für i = 2 gibt es sogar Pfad von i nach i mit Länge 1, weshalb es keinen größeren Teiler als
1 geben kann. Es folgt d 2 = 1.
Nach diesen beiden Beispielen kann man schon vermuten: Für jedes i ∈ S ist d(i) gleich. In der Tat ist
diese Aussage stets richtig:
11.20 Satz:
Sei P eine irreduzible Übergangsmatrix auf S. Dann ist die Periode d(i) für jedes i ∈ S gleich.
Beweis:
Seien i, j ∈ S. Es genügt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i)d(j).
Da P irreduzibel ist finden wir einen Weg i
ist dann
w1
/ j mit |w1 | = r und j
w1 w2
i
mit |w1 w2 | = r + s. Das zeigt zunächst
Ist nun j
w
w2
/ i mit |w2 | = r. Insbesondere
/i
d(i)r + s.
(11.2)
/ j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i)n. Da dann
w1 ww2
i
/i
ein Pfad mit |w1 ww2 | = r + s + n ist, folgt daraus
d(i)r + s + n.
Mit (11.2) und (11.3) folgt aber d(i)n, was zu zeigen war.
(11.3)
Bemerkung 11.21:
Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zuständen
auch für nicht irreduzible Übergangsmatrizen P definieren, allerdings kann dann d(i) 6= d(j) für i 6= j,
i, j ∈ S gelten.
11.22 Definition:
Sei P eine irreduzible Übergangsmatrix auf S. Wir nennen die Zahl
d := d(i), i ∈ S beliebig
die Periode von P. Nach obigem Satz ist d wohldefiniert.
11.23 Definition:
Sei P eine irreduzible Übergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch.
Bemerkung 11.24:
Zur Bestimmung der Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Übergangsgraphen
GP zum Beispiel eine Schleife der Form
p3 >0
p1
)i
... j
p2
so wählt man als Zustand i und hat sofort d = 1.
Z
,
138
11 Markov-Ketten mit endlichem Zustandsraum
Beispiel 11.25:
Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen
1
2
1
2
*
1 j
1
2
*
2 j
1
2
*
3 j
1
2
4
1
2
gegeben ist. Da es offenbar nur Wege gerader Längen von i nach i für jedes i ∈ S =
geben kann, ist d = 2.
n
1, 2, 3, 4
o
Beispiel 11.26:
Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen
6 1
V
1
2
1
2
1
2
2
1
2
1
2
3 3
sv
1
2
gegeben ist. Dann finden wir für jedes i ∈ S =
folgt.
n
1, 2, 3
o
Wege der Länge 2 und 3, weshalb d = 1
11.27 Satz:
Seine Übergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit
Pn (i, j) > 0 ∀ i, j ∈ S
gibt.
Beweis:
Wir wollen die folgende zahlentheoretische Tatsache verwenden:
Ist der größte gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler natürlicher Zahlen = 1, so gibt es ein
k ∈ N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als
m = a1 · n1 + ... + ak nk
mit Koeffizienten ai ∈ N, i = 1, .., k. Dies sieht man leicht über die Theorie der Hauptideale ein.
⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d 1 = 1 und es gibt nach unserer zahlentheoretischen
”
Tatsache ein M ∈ N, s.d. für alle m ≥ M ein Weg
1
w
/ 1 , |w| = m
existiert.
Für #S = N setze nun n := M + 2N . Da P irreduzibel ist, finden wir zu i, j ∈ S beliebig einen
Weg
w1
/j
i
mit |w1 | ≤ N , indem wir keine Zustände unnötigerweise doppelt besuchen. Genauso existiert auch
ein Weg
w2
/j
1
mit |w2 | ≤ N . Gemäß der Wahl von M finden wir einen Pfad
1
w
/ 1
11 Markov-Ketten mit endlichem Zustandsraum
139
mit |w| = 2N − |w1 | − |w2 | + M ≥ M . Damit ist
i
w1 ww2
/j
mit |w1 ww2 | = 2N + M , also Pn (i, j) > 0.
⇐“ Ist Pn (i, j) > 0 für alle i, j ∈ S, so folgt aus der Darstellungsformel
”
X
Pn+1 (i, j) =
P (i, k) · Pn (k, j)
k∈S
und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Länge N ist , auch sofort
Pn+1 (i, j) > 0 ∀ i, j ∈ S. Daher gibt es Wege der Länge n und n + 1 von 1 nach 1 . Es folgt
d(1)(n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch.
Die Irreduzibilität von P folgt bereits aus Satz 11.14.
11.2
Markov-Ketten
Von jetzt an werden wir stets ohne Einschränkung S = {1, ..., N } annehmen. Bisher haben wir in diesem
Zusammenhang unsere Zustände stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.
Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist.
11.28 Definition:
Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung
π0 := (π0 (1) , ..., π0 (N )) .
11.29 Definition:
Sei P eine Übergangsmatrix und π0 eine Startverteilung auf S.
Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge
X0 , X1 , X2 , X3 , ...
von (diskreten) Zufallsvariablen mit Werten in S, s.d.
(1) P (X0 = i) = π0 (i)
(2)
Für alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1 , ..., in−k
(Startverteilung)
(Markov-Eigenschaft)
∈ S mit P (Xn = in , ..., Xn−k = in−k ) 6= 0 gilt
P (Xn+1 = in+1 | Xn = in , ..., Xn−k = in−k ) = P (Xn+1 = in+1 | Xn = in ) = P (in , in+1 ) .
Bemerkung 11.30:
(1) Xn gibt in diesem Modell den zufälligen Zustand zur Zeit n ∈ N an.
(2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen
Prozesses X0 , X1 , X2 , ..., dass die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen
”
Zustand und nicht von der weiteren Vergangenheit abhängt“, wie wir es in der Idee zu Beginn
gefordert haben.
Die Forderung P (Xn = in , ..., Xn−k = in−k ) 6= 0 ist mathematisch unerlässlich, wir werden sie aber
stets stillschweigend annehmen.
Man kann sich nun Fragen, ob es überhaupt Markov-Ketten gibt (d.h. ob für jede Übergangsmatrix und
jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Maßtheorie
beantwortet diese Frage mit ja.
Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige“
”
Modell für das zufällige, durch P gesteuerte Wandern auf GP bei zufälligem, durch π0 gesteuertem Start
handelt.
140
11.2.1
11 Markov-Ketten mit endlichem Zustandsraum
Drei elementare Wahrscheinlichkeiten von Markov-Ketten
Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29.
Bemerkung 11.31 (Pfadwahrscheinlichkeiten):
Für m ∈ N und i0 , i1 , ..., im ∈ S haben wir
P Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0
=
|
{z
}
P (Xn+m = im | B)
=:B
Markov-Eigenschaft
=
P (im−1 , im ) · P (B) .
Daher folgt induktiv
P (Xn+m = im , Xn+m−1 = im−1 , ..., Xn = i0 ) =
m
Y
ν=1
P (iν−1 , iν ) · P (Xn = i0 ) .
Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist
P (X0 = ii ) = π0 (i0 )
durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also
genau unseren Wünschen!
Bemerkung 11.32 (m-Schritt Übergangswahrscheinlichkeiten):
Sind i, j ∈ S, so erhält man durch disjunkte Zerlegung von S in seine Elemente sofort
P (Xn+m = j, Xn = i)
X
P (Xn+m = j, Xn+m−1 = im−1 , ..., Xn+1 = i1 , Xn = i)
=
im−1 ,...,i1 ∈S
Bemerkung 11.31
P (Xn = i) ·
=
(11.1)
X
im−1 ,...,i1 ∈S
P (i, i1 ) · P (i1 , i2 ) · ... · P (im−1 , j)
P (Xn = i) · P (i, j) .
=
Insbesondere folgt durch Division des Terms P (Xn = i), dass
P (Xn+m = j | Xn = i) = Pm (i, j) .
Beispiel 11.33:
Ist
P=
0
1
1
2
1
2
!
die Übergangsmatrix aus Beispiel 11.9, so berechnet man
!
!
P2 =
1
2
1
4
1
2
3
4
, P4 =
3
8
5
16
5
8
11
16
, P10 ≈
0.33398
0.33301
5
16
= 0.3125.
Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) =
0.66602
0.66699
Bemerkung 11.34 (Verteilung zur Zeit n):
Sei
πn (j) := P (Xn = j) , j ∈ S
!
.
die Verteilung von Xn . Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der
Formel von der totalen Wahrscheinlichkeit für jedes j ∈ S
πn (j)
=
(3.2)
=
P (Xn = j)
X
P (Xn = j | X0 = i) · P (X0 = i)
i∈S
Bemerkung 11.32
=
X
i∈S
=
Pn (i, j) · π0 (i)
(π0 Pn ) (j) ,
11 Markov-Ketten mit endlichem Zustandsraum
141
wobei π0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 × N -Matrix) π0 und der N × N -Matrix
Pn bezeichnet. Das liefert die Formel
π n = π 0 Pn .
(11.4)
Beispiel 11.35:
Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa π0 = (0, 1), d.h. starten wir mit Sicherheit
im Zustand 2, so ist
5 11
π4 = π0 P4 = zweite Zeile von P4 =
.
,
16 16
Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.
Ist dagegen π0 = 12 , 21 , was etwa einem Münzwurf für den Startzustand entspricht, so ist
1
1
11 21
π4 = π0 P4 = · erste Zeile von P4 + · zweite Zeile von P4 =
.
,
2
2
32 32
Wir werden im nächsten Abschnitt allgemein sehen, dass
/∞
1 2
n
/
πn
,
3 3
für jede beliebige Startverteilung π0 gilt!
11.3
Invariante Maße und Konvergenzsätze
11.36 Definition:
Ist P eine Übergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass
πP = π
ist, so nennt man π eine invariante Verteilung.
Bemerkung 11.37:
Der Begriff invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt
”
πPn = πP Pn−1 = πPn−1 = ... = π.
D.h. wenn X0 , X1 , X2 , ... eine Markov-Kette zu P mit der speziellen Startverteilung π0 = π ist, so gilt
πn = π ∀ n ∈ N
nach (11.4).
11.38 Satz (Konvergenzsatz):
Sei P eine irreduzible und aperiodische Übergangsmatrix.
(1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von Pn
(exponentiell schnell) gegen π, d.h.
Pn (i, j)
/∞
n
/ π (j) ∀ i ∈ S.
(2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung π0 , so gilt
πn
d.h. P (Xn = j)
n
/∞
n
/ π (j) für alle j ∈ S.
/∞
/ π,
142
11 Markov-Ketten mit endlichem Zustandsraum
Beweis:
(1) Wir unterteilen den Beweis in zwei Schritte:
Schritt I
Sei j ∈ S beliebig aber fest. Wir setzen
(n)
mj
(n)
Mj
Wegen
:=
:=
min Pn (i, j) =
b Minimum der Werte der j − en Spalte von Pn ,
i∈S
max Pn (i, j) =
b Maximum der Werte der j − en Spalte von Pn .
i∈S
(n+1)
mj
=
min Pn+1 (i, j)
=
min
i∈S
i∈S
≥ min
i∈S
X
P (i, k) Pn (k, j)
k∈S
X
(n)
P (i, k) mj
k∈S
(n)
= mj
und
(n+1)
Mj
=
max Pn+1 (i, j)
=
max
i∈S
i∈S
≤ min
i∈S
=
X
P (i, k) Pn (k, j)
k∈S
X
(n)
P (i, k) Mj
k∈S
(n)
Mj
(n)
(n)
ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj
fallend in n.
Unser Ziel ist es nun zu zeigen, dass
(n)
Mj
(n)
− mj
n
/∞
/0
monoton
(11.5)
gilt.
Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt,
s.d.
PL (i, j) ≥ δ ∀ i, j ∈ S
ist. Sei n ∈ N zunächst fest. Wähle
• ein i0 ∈ S mit
(n+L)
Pn+L (i0 , j) = mj
und
• ein i1 ∈ S mit
Sei nun
(n+L)
Pn+L (i1 , j) = Mj
I+ := k ∈ S | PL (i1 , k) ≥ PL (i0 , k)
und I− := S \ I+ . Mit dieser Einteilung folgt
X
X L
P (i1 , k) − PL (i0 , k)
PL (i1 , k) − PL (i0 , k) +
k∈I+
.
=
X
k∈S
k∈I−
=
PL (i1 , k) −
1 − 1 = 0.
X
PL (i0 , k)
k∈S
(11.6)
11 Markov-Ketten mit endlichem Zustandsraum
143
Damit gilt dann
(n+L)
Mj
(n+L)
− mj
= Pn+L (i1 , j) − Pn+L (i0 , j)
X
X
=
Pn (i1 , k) PL (k, j) −
Pn (i0 , k) PL (k, j)
k∈S
X
=
|
k∈S
PL (i1 , k) − PL (i0 , k) Pn (k, j)
{z
}
k∈I+
k∈I−
X
=
k∈S
=:dk
X
dk Pn (k, j) +
dk Pn (k, j) ,
und da für k ∈ I+ offenbar dk ≥ 0 und für k ∈ I− offenbar dk < 0 gilt folgt so
X
X
(n+L)
(n+L)
(n)
(n)
Mj
− mj
≤
d k Mj +
d k mj
k∈I+
X
(11.6)
=
k∈I−
k∈I+
≤
≤
(n)
Mj
(m·L)
Mj
(m·L)
− mj
(n)
Da wir schon wissen, dass mj
Aussage (11.5).
(n)
− mj
(n)
− mj
m
≤ (1 − δ)
|
(0)
Mj
X
PL (i1 , k) − δ
·
k∈I+
(n)
(1 − δ) · Mj
Induktiv folgt also für jedes m ∈ N, dass
(n)
d k Mj
(n)
− mj
(0)
− mj
{z
}
.
m
/∞
/ 0.
≤1
(n)
monoton wächst und Mj
monoton fällt folgt so die behauptete
Schritt II
Setze nun
(n)
π (j) := lim mj
n→∞
(n)
Da die Folgen mj
werte. Wegen
(n)
und Mj
(n)
= lim Mj .
n→∞
beschränkt (durch [0, 1]) und monoton sind, existieren diese Grenz(n)
mj
(n)
≤ Pn (i, j) ≤ Mj
∀i∈S
folgt sofort
Pn (i, j)
n
/∞
/ π (j)
für alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach:
• Wir müssen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber
(Pn (1, j))j∈S
für jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge für n
vergiert, ist diese Aussage klar.
/ ∞ gegen π kon-
• Wir müssen zeigen, dass π eine invariante Verteilung für P ist. Das folgt aus
πP(j) =
X
k∈S
π(k)P (k, j) ←−n
für jedes j ∈ S.
/∞ X
k∈S
Pn (i, k) π(k)P (k, j) = Pn+1 (i, j)
n
/∞
/ π(j)
144
11 Markov-Ketten mit endlichem Zustandsraum
• Wir müssen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung mit π ′ = π ′ P. Insbesondere ist dann π ′ = π ′ Pn für alle n ∈ N und daher gilt für alle
j∈S
X
π ′ (j) =
π ′ (k)Pn (k, j) .
k∈S
Im Grenzübergang n
/ ∞ ist Pn (k, j)
/ π (j), d.h. es folgt
X
π ′ (j) =
π ′ (k) π(j) = π(j)
k∈S
|
{z
}
=1
für alle j ∈ S, was gleichbedeutend mit π = π ′ ist.
(2) Mit Teil (1) folgt leicht für jede beliebige Startverteilung π0 und jedes j ∈ S
P (Xn = j)
=
πn (j)
Bemerkung 11.34
(π0 Pn ) (j)
X
π0 (k)
=
=
k∈S
/∞
n
/
π (j)
X
k∈S
=
n
Das zeigt πn
/∞
π(j).
|
Pn (k, j)
| {z }
/∞
n
/ π(j)
π0 (k)
{z
=1
}
/ π.
Beispiel 11.39:
Wir haben schon gesehen, dass die Übergangsmatrix
P=
0
1
1
2
1
2
!
aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunächst eine invariante Verteilung π,
d.h. ein π = (π(1), π(2)) mit πP = π. Das liefert das Gleichungssystem
1
π(2)
2
1
π(1) + π(2)
2
= π(1)
= π(2),
woraus nur π = (a, 2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor
sein soll, muss a + 2a = 1 gelten, d.h. a = 31 . Es folgt, dass
1 2
π=
,
3 3
die einzige invariante Verteilung zu P ist, was eine Probe leicht bestätigt:
! 0 1
1 2
1 2
= π.
,
,
=
πP =
1
1
3 3
3 3
2
2
Mit Satz 11.38 folgt also
n
P
und P (Xn = 1)
n
/∞
/∞
n
/ 1 , P (Xn = 2)
3
n
/
1
3
1
3
/∞
/
2
3
2
3
2
3
!
für jede beliebige Startverteilung π0 .
11 Markov-Ketten mit endlichem Zustandsraum
145
11.40 Hilfssatz:
Sei P eine irreduzible Übergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix
1
1
Pk := 1 −
P + IN
k
k
für die N × N -Einheitsmatrix IN für jedes k ∈ N≥2 aperiodisch und irreduzibel.
Beweis:
Laut Satz 11.27 müssen wir zeigen, dass es ein M ∈ N gibt, s.d. PM
k (i, j) > 0 ∀ i, j ∈ S.
Da P irreduzibel ist, gibt es gemäß Satz 11.14 zu jedem Paar i, j ∈ S ein n (i, j) mit Pn(i,j) (i, j) > 0.
Setze nun
M := max n (i, j) .
i,j∈S
Sei nun i, j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar
PM
k
=
M X
M
ν=0
ν
1
1−
k
ν
1
k M −ν
Pν ,
j
da IN
= IN und P · IN = IN · P = P. Also ist
PM
k
ν
n(i,j)
M X
1
1
1
M
1
M
ν
P (i, j) ≥
1−
(i, j) =
1−
Pn(i,j) (i, j) > 0.
M
−ν
M
−n(i,j)
|
{z
}
k
k
k
n
(i,
j)
ν
k
ν=0 |
{z
} ≥0
>0
Das zeigt die Behauptung.
11.41 Satz (Invariante Verteilung):
Ist P eine irreduzible Übergangsmatrix, so gibt es genau eine invariante Verteilung π zu P.
Beweis:
Sei wieder ohne Einschränkung S = {1, ..., N }.
• Existenz:
Sei IN die N × N -Einheitsmatrix. Für k ∈ N≥2 setze
1
1
P + IN .
Pk := 1 −
k
k
(11.7)
Diese Matrix ist gemäß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu
jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk .
Da π (k) Koordinatenweise durch [0, 1] beschränkt ist, existiert eine Teilfolge ki s.d.
i
π ki
/∞
/π
für eine Wahrscheinlichkeitsverteilung π gilt. Diese erfüllt dann
π ki = π ki · Pki .
Mit i
/ ∞ in dieser Gleichung folgt
π = π · P.
• Eindeutigkeit:
Ist π = πP und π ′ = π ′ P für zwei Wahrscheinlichkeitsverteilungen π, π ′ , so folgt insbesondere nach
(11.7), dass
π
π
′
= πP2
= π ′ P2 ,
was nach Satz 11.38 π = π ′ zur Folge hat.
Der Konvergenzsatz lässt sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses
Ergebnis allerdings nur ohne Beweis angeben:
146
11 Markov-Ketten mit endlichem Zustandsraum
Bemerkung 11.42 (Konvergenzsatz für periodische Matrizen):
Sei d > 1 die Periode der irreduziblen Übergangsmatrix P. Setze
Si (n) := {j ∈ S | es gibt einen Pfad der Länge n von i nach j in S} .
Für j ∈
/ Si (n) ist dann P (Xn = j) = 0 und es gilt
/∞
n
max |P (Xn = j) − d · π(j)|
j∈Si (n)
/0
exponentiell schnell.
11.4
Rückkehrzeiten und starkes Gesetz
11.43 Definition:
Sei P eine irreduzible Übergangsmatrix auf S = {1, ..., N } und i ∈ S. Sei Ti die zufällige Zeit (∈ N), die
vergeht, bis die in i gestartete“ Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet
”
in i gestartet, dass π0 = ei für den i-ten karthesischen Einheitsvektor ei gilt. Dann ist
Ti = inf {n ≥ 1 | Xn = i}
und wir nennen Ti die Rückkehrzeit von i.
Bemerkung 11.44:
Beachte, dass
{Ti = n} = {Xn = i, .Xn−1 6= i, ..., X1 6= i, X0 = i} .
Beispiel 11.45:
Betrachte wieder die Übergangsmatrix P zum Übergangsgraphen GP aus Beispiel 11.9:
1
2
1
*
1 j
1
2
2
.
[
Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zufälligen Größe T1 bestimmen.
n
Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 12 für n ≥ 1. Damit folgt
E (T1 )
∞
X
=
n=0
n · P (T1 = n)
n−1
∞
X
1
n
2
n=2
=
∞
X
=
(n + 1)
n=1
n
1
2
n X
∞ n
∞
X
1
1
+
.
n
2
2
n=1
n=1
| {z }
=
=1
Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo
d.h. wir haben
E (T1 ) = 3.
1
2
entspricht ist ihr Wert = 2,
Für Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) =
E (T2 ) = 1 ·
1
1
3
+2· = .
2
2
2
Insbesondere sehen wir in diesem Beispiel schon, dass
E (Ti ) =
für die zu P invariante Verteilung π =
1 2
3, 3
gilt.
1
π(i)
1
2
ist
11 Markov-Ketten mit endlichem Zustandsraum
147
11.46 Satz (Positive Rekurrenz - ohne Beweis):
Sei P eine irreduzible Übergangsmatrix und X0 , X1 , ... die zugehörige in i ∈ S gestartete Markov-Kette.
Dann gilt:
(1) Man kehrt sicher zu i zurück, d.h.
∞
X
P (Ti = n) = 1.
n=1
(2) Es ist
E (Ti ) =
∞
X
n=1
P (Ti = n) < ∞.
Ein Teil des Beweises ist Aufgabe 5 des Übungsblatts 12.
Bemerkung 11.47:
Ist #S = ∞, so ist der Satz von der positiven Rekurrenz im allgemeinen falsch.
11.4.1 Der Rückkehrzeitensatz
11.48 Lemma:
Sei X0 , X1 , X2 , ... eine Markov-Kette und E ⊂ S n . Dann gilt für jedes in+1 , in ∈ S
P Xn+1 = in+1 | Xn = in , (X0 , ..., Xn−1 ) ∈ E = P (Xn+1 = in+1 | Xn = in ) .
|
{z
} | {z } |
{z
}
=:A
=:B
(11.8)
=:C
Beweis:
Wir zerlegen das Ereignis C disjunkt als
C=
X
Ck
k∈I
mit Ck ’s von der Form {X0 = i0 , ..., Xn−1 = in−1 } für ein Tupel (i0 , ..., in−1 ) ∈ E. Nach der MarkovEigenschaft gilt
P (A | B ∩ Ck ) = P (A | B) ∀ k ∈ I,
d.h. es folgt
P (A ∩ B ∩ Ck ) = P (A | B) · P (B ∩ Ck ) ∀ k ∈ I
nach Definition der bedingten Wahrscheinlichkeit. Bilden der Summe über k ∈ I liefert
P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) ,
was per Definition gleichbedeutend mit
P (A | B ∩ C) = P (A | B)
ist - das ist genau die Behauptung.
11.49 Satz (Rückkehrzeitensatz):
Sei P eine irreduzible Übergangsmatrix und π die zugehörige invariante Verteilung. Dann gilt
E (Ti ) =
1
π(i)
für jedes i ∈ S.
Beweis:
Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion
µ (k) :=
∞
X
n=0
P (Xn = k, Ti > n) ,
k ∈ S.
Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Übergangsmatrix P und die Zahlen
P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber
bis zur Zeit n noch nicht wieder in i war.
148
11 Markov-Ketten mit endlichem Zustandsraum
Ohne Einschränkung nehmen wir wieder S = {1, ..., N } an. Setze dann
µ := (µ (1) , ..., µ (N )) .
Dann gilt
N
X
µ (k)
N
∞ X
X
=
P (Xn = k, Ti > n)
n=0 k=1
k=1
∞
X
=
P (Ti > n)
n=0
∞
X
=
n=1
(5.3)
=
P (Ti ≥ n)
E (Ti )
und diese Zahl ist nach dem Satz über die positive Rekurrenz oben < ∞. Daher ist
1
µ(N )
µ(1)
·µ=
, ...,
E (Ti )
E (Ti )
E (Ti )
ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt.
Zur Vorbereitung berechnen wir für k ∈ S, k 6= i und j ∈ S, dass
P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) · P (Xn = k, Ti > n) .
Verwenden wir nun das Lemma oben für E = {(i, j1 , ..., jn−1 ) ∈ S n | j1 , ..., jn−1 6= i}, so folgt wegen
{Ti > n} = {Xn−1 6= i, ..., X1 6= i, X0 = i} =
ˆ (X0 , ..., Xn−1 ) ∈ E,
dass
(11.8)
P (Xn+1 = j, Xn = k, Ti > n)
=
P (Xn+1 = j | Xn = k) · P (Xn = k, Ti > n)
=
P (k, j) · P (Xn = k, Ti > n) .
Man beobachtet schnell, dass diese Gleichung auch für k = i richtig bleibt:Ist n > 0, so sind zwingend
beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j).
1
Es genügt nun zu zeigen, dass µP = µ ist, der Faktor E(T
braucht nicht beachtet zu werden (da er auf
i)
beiden Seiten auftaucht). Mit obiger Rechnung gilt für j ∈ S:
X
(µP) (j) =
µ(k) · P (k, j)
k∈S
=
∞ X
X
P (Xn = k, Ti > n) P (k, j)
n=0 k∈S
=
∞ X
X
P (Xn+1 = j, Xn = k, Ti > n)
n=0 k∈S
=
∞
X
P (Xn+1 = j, Ti > n) .
n=0
Jetzt unterscheiden wir: Für j 6= i erhält man damit
(µP) (j)
=
∞
X
P (Xn+1 = j, Ti > n)
n=0
=
∞
X
P (Xn+1 = j, Ti > n + 1)
n=0
= µ(j) − P (X0 = j, Ti > 0)
= µ(j),
11 Markov-Ketten mit endlichem Zustandsraum
149
und für i = j erhält man
(µP) (j)
∞
X
=
P (Xn+1 = j, Ti > n)
n=0
∞
X
=
P (Ti = n + 1)
n=0
Satz 11.46
=
1.
Beachte nun noch, dass
µ(i) =
∞
X
P (Xn = i, Ti > n) =
∞
X
n=1
n=0
P (Xn = i, Ti > n) + P (X0 = i, Ti > 0) = 1.
|
{z
} |
{z
}
=0
=1
1
·µ eine invariante Verteilung für P ist. Gemäß Satz 11.41 ist die invariante Verteilung
Das zeigt, dass E(T
i)
eindeutig, d.h. wir haben
1
· µ(i) = π(i).
E (Ti )
Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung.
11.50 Satz (Starkes Gesetz - ohne Beweis):
/ R eine Funktion. Für jede Startverteilung π0 gilt
Sei P irreduzible Übergangsmatrix und sei f : S
4
dann mit Wahrscheinlichkeit 1:
Ist x0 , x1 , x2 , ... ein zufälliger Pfad der Markov-Kette X0 , X1 , ... zu P und π0 (d.h. eine Realisierung“
”
dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ (f ):
n−1
1X
f (xk )
n
n
/∞
/
X
f (j)π(j).
j∈S
k=0
Dabei bezeichnet π die invariante Verteilung zu P.
Insbesondere gilt für A ⊆ S und f := 1A , dass
1
# {0 ≤ k ≤ n − 1 | xk ∈ A}
n
n
/∞
/
X
π(j) = π(A).
j∈A
D.h. die Anzahl der Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 für n
”
scheinlichkeit von A unter der invarianten Verteilung π.
Speziell für A = {i} gilt also
1
# {0 ≤ k ≤ n − 1 | xk = i}
n
4 Eine
n
Konvergenz dieser Art nennt man fast sichere Konvergenz.
/∞
/ π(i).
/ ∞ gegen die Wahr-
150
11.5
11.5.1
11 Markov-Ketten mit endlichem Zustandsraum
Beispiele
Irrfahrt auf ungerichtetem Graphen
In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden.
Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.
11.51 Definition:
Für jede Ecke i ∈ S sei
d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} .
Beispiel 11.52:
Sei G gegeben als
1
3
Dann ist d
2















n
o
2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3
4
= 3, d
4
= 1.
Wir wandern nun rein zufällig auf diesem Graphen, in dem wir jeweils gleichverteilt die nächste Ecke
unter den mit i verbunden Ecken wählen. D.h.
11.53 Definition:
Sei P die N × N -Matrix mit
P (i, j) =
(
0
1
d(i)
falls keine Kante zwischen i und j existiert,
falls eine Kante zwischen i und j existiert.
Offenbar ist P tatsächlich eine stochastische Matrix:
X
j∈S
P (i, j) =
X
j∈{k | es gibt eine Kante zwischen i und k}
11.54 Definition:
Wir setzen
D :=
X
d(i).
i∈S
11.55 Satz:
Damit ist
π(i) :=
eine invariante Verteilung von P.
d(i)
, i∈S
D
d(i)
1
=
= 1 ∀ i ∈ S.
d(i)
d(i)
11 Markov-Ketten mit endlichem Zustandsraum
151
Beweis:
Man berechnet
(πP) (j)
=
X
π(i)P (i, j)
i∈S
X
=
i∈{k | es gibt eine Kante zwischen i und j}
1
d(i)
·
D d(i)
1
· # {k | es gibt eine Kante zwischen i und j}
D
d(j)
=
D
= π(j)
=
für j ∈ S.
Bemerkung 11.56:
Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig
bestimmt ist.
Beispiel 11.57:
Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i, j) | 1 ≤ i, j ≤ 4}.
Der zugehörige Graph stellt sich wie folgt dar:
(1,4)
(2,4)
(3,4)
(4,4)
OOO
o
o
// OOOOO
/
/
o
o
O
o
o
//
//
OOOooo
OOO
oo
//
//
//
OOO ooOOOO ooo
o
o
//
o
o
OOO
OOO
/ ooo
/ ooo
//
OOOOoOoooo///
OOOOOooooo///
//
oO
oO
//
ooooo OOOOO///
ooooo OOOOO///
O
O
o
o
//
/
/
O
O
o
o
o
//OOoOoOoo
//OOOO /o/ oooo
// OOOO
o//o OOOO
o
o
/
o
o
O
O
// oo // oo // /
/
/
/
/
(1,3)
(2,3)
(3,3)
(4,3)
//
OOO /// oo
/// oo
// OOOOO //
/
/
O
o
o
//
//
O O o/o
o/o
//
OOOO///
//
//
ooOoOoOO//O/
oooo ///
OO/ O // o
o
//ooo
//ooo
// OOO
/O/ OOO
// // // OOOoOoooo//
// OOOOooooo//
/
//
/ oooo OOOO //
/ oooo OOOO //
//
/
/
O /
O /
ooo//
o/
//
//
//
OO/O/ OO ooo oo ///
OO/O/ OO
// ooooo
//
O
O
// oooOO
// OOO
//
/
/o // OOO /
ooooo// ooooo// OOOO / //
//
//
//
//
/
(1,2)
(2,2)
(3,2)
(4,2)
OOO //
OOO // oo
/// oo
OO O /
OO O o/oo
o
o/o
OOO //
ooOoOoOO//O/
oooo ///
OO/ O
o
o
// OOO
/O/ OOO
//
ooo
ooo
// OOOoOoooo // OOOOooooo //
// oooo OOOO
// oooo OOOO
//
//
OOOO
OOOO
ooo//
ooo//
o
o
O
O
o
o
OoOoOo
OOO
//
//
/
oo
o
O
O
o
o
OOO
OOO //
o
/ / o
o
ooooo
O
O
oo
(1,1)
(2,1)
(3,1)
(4,1)
Aus diesem Graphen lesen wir nun die Gradzahlen d
folgenden Tabelle bezeichnet d (i,j) :
(i,j)
2
3
3
2
3
4
4
3
3
4
4
3
2
3
3
2
ab. Der Eintrag in der Zelle (i, j) der
152
11 Markov-Ketten mit endlichem Zustandsraum
Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemäß dem Satz die invariante
Verteilung π:5
1
24
1
16
1
16
1
24
1
16
1
12
1
12
1
16
1
16
1
12
1
12
1
16
1
24
1
16
1
16
1
24
Daraus erhalten wir nun:
(1) Nach dem Rückkehrzeitensatz ist dann zum Beispiel
E T(1,1) =
1
= 24.
π((1, 1))
(2) Das starke Gesetz sagt etwa, dass für einen Springerpfad die relative Häufigkeit der Besuche in den
mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen
π ({(i, j) | 2 ≤ i, j ≤ 3}) = 4 ·
1
1
=
12
3
konvergiert.
(3) Sei P die zugehörige Übergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.
Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe
(Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zurückziehen
möglich ist, genau Periode d = 2.
(4) Mit Bemerkung 11.42 ist für großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben
als
1
0 81 0
12
0 61 0 18
1
0 61 0
8
1
0 81 0 12
Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springer
sich zur Zeit n in der Position (i, j) aufhält.
11.5.2
Ehrenfeld-Diffusion
Wir nehmen an, in einem Hörsaal befinden sich N Gasmoleküle. Wir zerteilen den Hörsaal in die rechte
Hälfte H1 und die linke Hälfte H2 . Als Modell nehmen wir an, dass jeweils ein Molekül zufällig ausgewählt
wird und dieses dann in die andere Hörsaalhälfte wechselt.
Sei dazu
S = {0, ..., N } ,
was der Anzahl der Gasmoleküle in H1 entsprechen soll. Offenbar muss dann für die Übergangsmatrix P
P (i, i + 1)
=
P (i, i − 1)
=
N −i
,
N
i
,
N
i<N
i>1
gelten. Alle übrigen Einträge der Matrix sind 0.
Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch
N −N
π(i) =
2 , i ∈ S.
i
D.h. wir haben π ∼ B N, 12 .
Nach dem Rückkehrzeitensatz ist dann zum Beispiel
E (T0 ) =
1
= 2N .
π(0)
5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die
Matrix ist also irreduzibel!
11 Markov-Ketten mit endlichem Zustandsraum
153
D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmoleküle sind, so ist zu erwarten, dass
dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist für eine Anzahl N von Molekülen reichlich groß!
Außerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist:
Sei N = 10.000. Wegen π ∼ B 10.000, 12 liefert die Chernov-Ungleichung
π ({4801, ..., 5199}) ≥ 0.9993.
Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmoleküle sind.
154
12
12 Schätzer und statistische Tests
Schätzer und statistische Tests
Wir beginnen mit einen motivierenden Beispiel.
Beispiel 12.1:
Wir wollen eine Lebensmittelkontrolle durchführen. Dazu messen wir die Füllungen von 1-Liter-Flaschen
nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte
999, 990, 995, 1003, 1001, 991.
Diese Messwerte wollen wir im folgenden mit x1 , ..., x6 bezeichnen. Wir können uns nun die folgenden
Fragen stellen:
(1) Wenn man annimmt, dass die Füllmenge eine N µ, σ 2 -verteilte Zufallsvariable ist, wie schätzt
man dann mittels dieser Messungen den Erwartungswert? Wie schätzt man die Varianz?
Um solche Fragen zu beantworten wollen wir hier kurz ML-Schätzer und erwartungstreue Schätzer
behandeln.
(2) Soll die Kontrolle wegen zu geringer Befüllung nach dieser Messung einschreiten?
Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.
12.1
Punktschätzer
Sei X eine Zufallsvariable (oder ein Zufallsvektor)
X:Ω
/ X.
Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum.
Wir nehmen natürlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass
wir hier P anstelle von P X schreiben.
Stattdessen nehmen wir an, dass P in einer Familie
P = {Pθ | θ ∈ Θ}
von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell für die
möglichen Verteilungen von X.
Beispiel 12.2:
Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit. Dann ist X = {0, ..., n} und das statistische Modell ist gegeben als
P = B (n, θ) | θ ∈ [0, 1] .
| {z }
| {z }
=Pθ
=Θ
Zu jeder der Verteilungen Pθ gehört in diesem Fall eine Wahrscheinlichkeitsfunktion
n x
n−x
pθ (x) =
θ (1 − θ)
,
x = 0, ..., n.
x
Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ oder
allgemeiner eine Funktion g in Abhängigkeit von θ geschätzt werden.
12.3 Definition:
Ein Schätzer für θ ∈ Θ ist eine Abbildung
t:X
/ Θ.
Für ein konkretes x ∈ X heißt t(x) dann eine Schätzung für θ.
Die Zufallsvariable T := t (X) wird ebenfalls Schätzer für θ genannt.
Beispiel 12.4:
Betrachte wieder das Setting aus Beispiel 12.2. Ist x ∈ {0, ..., n} die Stichprobe, so ist
t(x) :=
x
n
12 Schätzer und statistische Tests
155
ein Schätzer für die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen,
ob dieser Schätzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.
Ebenso ist dann
1
T = X
n
ein Schätzer für θ und konkret für n = 20 und x = 14 ist
t(14) =
7
= 0.7
10
eine Schätzung von θ.
12.5 Definition:
Sei g eine beliebige Funktion auf Θ. Jede Abbildung
t:X
/ g (Θ)
heißt Schätzer für g(θ).
Beispiel 12.6:
Wieder im Setting von Beispiel 12.2 können wir versuchen, die Varianz von B (nθ) zu schätzen, d.h.
g(θ) = n · θ · (1 − θ) .
Ein möglicher Schätzer wäre
x
x
x
1−
=x· 1−
.
n
n
n
Weiter unten werden wir uns mit der Frage beschäftigen, ob dieser Schätzer sinnvoll bzw. gut ist.
t(x) := n ·
Man sollte beachten, dass es im Allgemeinen nicht den Besten“ Schätzer gibt. Es gibt verschiedene
”
Verfahren zur Herleitung und verschiedene Güte-Kriterien für Schätzer. Wir besprechen hier die MLSchätzer und die erwartungstreuen Schätzer, es gibt außerdem noch Risiko-Schätzer, Konsistenz-Schätzer
und viele mehr.
12.1.1 ML-Schätzer
12.7 Definition:
Wir sagen, ein Schätzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:
Für jedes x ∈ X ist t(x) = θML ∈ Θ mit
pθML (x) ≥ pθ (x) ∀ θ ∈ Θ.
Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehörige pθ die entsprechende Wahrscheinlichkeitsfunktion, ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte.
D.h. für festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion
Lx (θ) = pθ (x)
über θ ∈ Θ.
Beispiel 12.8:
Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als
n x
n−x
Lx (θ) =
θ (1 − θ)
.
x
Um einen ML-Schätzer für θ zu bestimmen ist diese Funktion jetzt für gegebenes x ∈ {0, ..., n} über
θ ∈ [0, 1] zu minimieren.
Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton
steigend ist6 , nehmen Lx und log Lx im selben θ ihr Maximum.
6 Wir
betrachten hier stets nur den natürlichen Logarithmus ln = log.
156
12 Schätzer und statistische Tests
Beispiel 12.9:
Im obigen Beispiel 12.2 ist dann
log Lx (θ) = log
n
+ x log θ + (n − x) log (1 − θ) .
x
Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so
!
0 = 0+
x n−x
−
,
θ
1−θ
womit θ = nx folgt.
Also ist unser Schätzer
n
x
von oben sogar ein ML-Schätzer für die Erfolgswahrscheinlichkeit θ.
t(x) =
12.1.2
Erwartungstreue Schätzer
12.10 Definition:
Ein Schätzer t für θ ist erwartungstreu, wenn
Eθ (t(X)) = θ
für alle θ ∈ Θ gilt, d.h.: Ist θ der wahre Parameter, so ist die (zufällige) Schätzung t(x) zumindest im
Erwartungswert gleich θ.
Ganz analog definiert man für Schätzer von Funktionen:
12.11 Definition:
Ein Schätzer t für eine Funktion g in Abhängigkeit von θ ist erwartungstreu, wenn
Eθ (t(X)) = g (θ)
für alle θ ∈ Θ gilt.
Beispiel 12.12:
Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schätzer
t(x) =
x
n
von dort erwartungstreu ist.
Beweis:
Mit der Linearität des Erwartungswertes gilt
1
1
X
= E (X) = θn = θ.
E (t (X)) = E
n
n
n
Es folgt die Behauptung.
Beispiel 12.13:
Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist
x
t(x) = x 1 −
n
ein ML-Schätzer für die Varianz, denn schließlich haben wir dort einfach den ML-Schätzer für θ in die
12 Schätzer und statistische Tests
157
Varianz-Formel θ 7→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu:
X
Eθ (t(X)) = Eθ X 1 −
n
1
= Eθ (X) − Eθ X 2
n
1
2
= nθ −
Vθ (X) + (Eθ (X))
n
1
= nθ −
nθ (1 − θ) + n2 θ2
n
= (n − 1) θ (1 − θ)
n−1
nθ (1 − θ) .
n } | {z }
| {z
=
6=1
=g(θ)=Vθ (X)
Allerdings sehen wir an dieser Berechnung schon, dass
n
x
n
t(x) =
x 1−
n−1
n−1
n
ein erwartungstreuer Schätzer für die Varianz ist.
Z.B. für n = 2 ist die Abweichung zwischen diesen beiden Schätzern deutlich: Ist der wahre Parameter
θ = 21 , so ist
1
n−1
(1 − θ) = ,
Eθ (t(X)) =
θ
4
obwohl die tatsächliche Varianz
1
2
beträgt.
Wir wollen nun eine allgemeinere Situation betrachten:
Seien X1 , ..., Xn unabhängige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variablen. Definiere als Stichprobenraum
n
X=
×X
ν=1
Betrachte dazu das statistische Modell
P=
1
= X1 ×... × X1 .
{z
}
|
n−mal
P̃θ × ... × P̃θ | θ ∈ Θ ,
{z
}
|
=:Pθ
wobei jedes P̃θ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.
Beispiel 12.14:
Sei etwa
P̃θ ∈ {B (1, θ) | 0 ≤ θ ≤ 1}
oder
P̃θ ∈ N µ, σ 2 | µ ∈ R, σ 2 > 0 .
Wir wollen im zweiten Fall θ := µ, σ 2 setzen.
(1) Wir wollen zuerst einen Schätzer für den Erwartungswert Eθ (X1 ) von P̃θ herleiten.
12.15 Lemma:
Der Schätzer
n
t (x1 , ..., xn ) :=
ist erwartungstreu für Eθ (X1 ).
1X
xi = x̄
n i=1
158
12 Schätzer und statistische Tests
Beweis:
Man berechnet
n
Eθ (t (X1 , ..., Xn ))
= Eθ
n
=
1X
Xi
n i=1
!
1X
Eθ (Xi )
n i=1
= Eθ (X1 ) .
Das zeigt die Behauptung.
Beispiel 12.16:
In Beispiel 12.1 wäre also
6
1X
xi = 996.5
6 i=1
eine erwartungstreue Schätzung für µ.
(2) Jetzt wollen wir einen Schätzer für die Varianz Vθ (X1 ) von P̃θ herleiten. Sei dazu wieder
n
x̄ :=
1X
xi .
n i=1
Berechne nun
n
X
i=1
2
(xi − x̄)
=
n
X
i=1
=
n
X
i=1
=
n
X
i=1
x2i − 2
n
X
xi x̄ +
n
X
x̄2
i=1
i=1
x2i − 2nx̄2 + nx̄2
2
x2i − n (x̄)
(12.1)
und
Eθ
x̄2
=
=


n
X
1
Eθ 
Xi · Xj 
n2
i,j=1
n
n
1 X
1 X
Eθ (Xi · Xj )
Eθ (Xi · Xi ) + 2
n2 i=1
n i,j=1
i6=j
Unabhängigkeit
=
1
nEθ
n2
n
1 X
X12 + 2
Eθ (Xi ) · Eθ (Xj )
n i,j=1
i6=j
=
2
n−1
1
2
Eθ X 1 +
(Eθ (X1 )) .
n
n
Jetzt können wir zeigen:
12.17 Lemma:
Der Schätzer
(12.2)
n
S 2 (x1 , ..., xn ) =
1 X
2
(xi − x̄)
n − 1 i=1
ist ein erwartungstreuer Schätzer für die Varianz. Er wird auch Stichprobenvarianz genannt.
12 Schätzer und statistische Tests
159
Beweis:
Es gilt
Eθ
n
X
i=1
2
(Xi − x̄)
!
(12.1)
=
Eθ
n
X
Xi2
i=1
(12.2)
=
=
2
− nx̄
!
2
nEθ X12 − Eθ X12 + (n − 1) (Eθ (X1 ))
2
(n − 1) Eθ X12 − (Eθ (X1 ))
(n − 1) Vθ (X1 ) .
=
Das zeigt die Behauptung.
Beachte den Unterschied zur empirischen Varianz
n
1X
2
σ̂ (x1 , ..., xn ) =
(xi − x̄) .
n i=1
2
/ ∞.
Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n
√
2
2
In der Praxis wird S als Schätzer für die Varianz und S als Schätzer für die Standardabweichung
verwendet.
Beispiel 12.18:
In Beispiel 12.1 wäre also
6
S 2 (x1 , ..., x6 ) =
6
1X
1X
2
2
(xi − x̄) =
(xi − 996.5) = 28.7
5 i=1
5 i=1
√
eine erwartungstreue Schätzung für σ 2 . Entsprechend schätzen wir σ als 28.7 ≈ 5.357.
Die Schätzung der Parameter µ, σ 2 von N µ, σ 2 würde in unserem Fall also
µ = 996.5 und σ 2 = 28.7
liefern.
12.2
Statistische Tests
Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschäftigen, ob aufgrund dieser Stichproben die
Kontrolle eingeschaltet werden sollte. Dazu beschäftigen wir uns allgemein mit statistischen Tests:
Sei X ein Stichprobenraum und
P = {Pθ | θ ∈ Θ}
ein statistisches Modell für die möglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X
mit Werten in X. Seien nun
Θ0 ⊂ Θ und Θ1 ⊂ Θ
zwei disjunkte Teilmengen.
12.19 Definition:
Die Aussage
H0 : θ ∈ Θ0
nennen wir Hypothese und die Aussage
H1 : θ ∈ Θ1
nennen wir Alternative.
Beispiel 12.20:
In Beispiel 12.1 wäre
P=
N µ, σ 2 | µ ≥ 0, σ 2 > 0
| {z }
=θ
160
12 Schätzer und statistische Tests
das statistische Modell für die möglichen Verteilungen der Befüllung. Die Aussage kein Betrug“ ent”
spräche dann der Hypothese
H0 : θ ∈ Θ0 := µ, σ 2 | µ = 1000, σ 2 > 0
und die Aussage Betrug“ entspräche der Alternative
”
H1 : θ ∈ Θ1 := µ, σ 2 | µ < 1000, σ 2 > 0 .
12.21 Definition:
Das Entscheidungsproblem
H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1
heißt Testproblem.
12.22 Definition:
Ein Test ist eine Abbildung
ϕ:X
/ {0, 1} ,
wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese
nicht verworfen wird.
Die Menge
{x ∈ X | ϕ(x) = 1}
heißt Verwerfungsbereich.
Bemerkung 12.23:
Als Hypothese sollte man stets die Annahme wählen, deren Verwerfung die größeren Konsequenzen hat
- wie vor Gericht die Unschuldsvermutung. Der Grund dafür ist, dass durch (statistische) Tests stets nur
der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.
Beim Test eines neuen Prototypen würde man als Hypothese also das bisherige Produkt ist besser“
”
verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.
12.24 Definition:
Sei ϕ ein Test. Wir definieren die Gütefunktion βϕ : Θ
/ [0, 1] von ϕ durch
βϕ (θ) := Pθ (ϕ(x) = 1) ,
d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.
Für θ ∈ Θ0 ist βϕ (θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung
12.23).
Das primäre Ziel bei statistischen Tests ist es nun, den Fehler erster Art für alle θ ∈ Θ0 zu kontrollieren!
12.25 Definition:
Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0, 1], wenn
sup βϕ (θ) ≤ α
θ∈Θ0
ist, d.h. wenn für alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschränkt ist.
12.26 Definition:
1
= 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund
Ist ϕ ein Test zum Niveau α = 20
dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis.
Bei α =
1
100
= 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.
Wir wollen im folgenden zwei Arten von Tests für Normalverteilungen besprechen.
12 Schätzer und statistische Tests
12.2.1
161
Der einseitige Gaußtest
Dieser Test wird durchgeführt, wenn die Varianz bekannt ist.
Beispiel 12.27:
Wissen wir also etwa in Beispiel 12.1, dass die Füllmaschine eine Standard-Abweichung von σ0 = 5 hat,
so können wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ, 25) | µ ≥ 0} ist und
unsere Hypothese ( kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( Betrug“) ist dann
”
”
µ < µ0 = 1000.
Wir wollen nun in Abhängigkeit von
n
x̄ =
1X
xi
n i=1
entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall
(−∞, z)
mit einem noch zu bestimmenden z wählen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn x̄ < z gilt.
Wir werden hier jetzt beispielhaft an unserem Füllmengenbeispiel z so bestimmen, dass der zugehörige
Test das Niveau 0.05 hat.
Seien X1 , ..., Xn die zufälligen Meßwerte und sei wie immer
n
X̄ =
1X
Xi .
n i=1
Es ist z so zu bestimmen, dass unter der Hypothese µ = µ0 gilt:
Pµ0 X̄ < z ≤ 0.05.
Unter der Hypothese µ = µ0 gilt Xi ∼ N µ0 , σ02 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass
X̄ − µ0
σ0
√
n
∼ N (0, 1) .
Damit haben wir
Pµ0 X̄ < z = Pµ0
Wir müssen also ein y finden, s.d.
X̄ − µ0
σ0
√
n
<
| {z }
∼N (0,1)
z − µ0
σ0
√
n
| {z }
!
!
≤ 0.05.
=:y
Φ(y) = 0.05
für die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall,
wenn Φ(−y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so
−y = 1.645,
womit
σ0
z = µ0 + √ · (−1.645)
n
ist.
Beispiel 12.28:
In Beispiel 12.1 wäre dementsprechend
σ0
5
z = µ0 + √ · (−1.645) = 1000 − 1.645 √ ≈ 996.64.
n
6
Wegen x̄ = 996.5 würden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung
machen!
162
12.2.2
12 Schätzer und statistische Tests
Der t-Test
Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.
In unserem Beispiel 12.1 wollen wir hier also
H0 : θ ∈ Θ0 = µ, σ 2 | µ = µ0 = 1000, σ 2 > 0
gegen
H1 : θ ∈ Θ1 =
testen.
Als Testgröße“ kann man jetzt nicht
”
µ, σ 2
| µ < µ0 = 1000, σ 2 > 0
X̄ − µ0
σ0
√
n
nutzen, da man σ0 nicht kennt. Die Lösung für dieses Problem ist denkbar einfach: Man schätzt σ0 über
v
u
n
√
u 1 X
2
2
t
Xi − X̄ ,
S= S =
n − 1 i=1
wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Schätzer für σ0 ist!
Nach dieser Schätzung nutzt man dann
!
X̄ − µ0
z − µ0
P X̄ < z = P
<
,
S
S
√
n
| {z }
√
n
=Y
und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhängig von σ 2 , d.h. von der
wahren Varianz. Die Dichte zu tn−1 sieht der Dichte von N (0, 1) sehr ähnlich und in gewissem Sinne gilt
/∞
n
/ N (0, 1). Die Verteilungsfunktion Ft
der Verteilung tn−1 ist ebenso wie Φ tabelliert.
tn−1
n−1
Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1 (−y) = 0.95
suchen.
Beispiel 12.29:
In Beispiel 12.1 betrachten wir n = 6, also t5 . Es folgt aus der Tabelle y = −2.015 und damit
5.3572
S
≈ 995.593.
z = µ0 + √ · (−2.015) = 1000 − 2.015 · √
n
6
In diesem Fall würden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!
A Tabelle der Standardnormalverteilung
A
163
Tabelle der Standardnormalverteilung
Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion
2
1
t
√ exp −
dt
2
2π
Zx
Φ(x) =
−∞
der Standard-Normalverteilung geben. Da
Φ (−x) = 1 − Φ (x) ,
x ≥ 0,
sind nur positive Werte angegeben:
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
2.70
2.80
2.90
3.00
3.10
3.20
3.30
3.40
3.50
3.60
3.70
3.80
3.90
0.00
0.500000
0.539828
0.579260
0.617911
0.655422
0.691462
0.725747
0.758036
0.788145
0.815940
0.841345
0.864334
0.884930
0.903199
0.919243
0.933193
0.945201
0.955435
0.964070
0.971284
0.977250
0.982136
0.986097
0.989276
0.991802
0.993790
0.995339
0.996533
0.997445
0.998134
0.998650
0.999032
0.999313
0.999517
0.999663
0.999767
0.999841
0.999802
0.999928
0.999952
0.01
0.503989
0.543795
0.583166
0.621719
0.659097
0.694974
0.729069
0.761148
0.791030
0.818589
0.844752
0.866500
0.886860
0.904902
0.920730
0.934478
0.946301
0.956367
0.964852
0.971933
0.977784
0.982571
0.986447
0.989556
0.992024
0.993963
0.995473
0.996636
0.997523
0.998193
0.998694
0.999064
0.999336
0.999533
0.999675
0.999776
0.999847
0.999896
0.999930
0.999954
0.02
0.507978
0.547758
0.587064
0.625516
0.662757
0.698468
0.732371
0.764238
0.793892
0.821214
0.846136
0.868643
0.888767
0.906582
0.922196
0.935744
0.947384
0.957284
0.965621
0.972571
0.978308
0.982997
0.986791
0.989830
0.992240
0.994132
0.995603
0.996736
0.997599
0.998250
0.998736
0.999096
0.999359
0.999550
0.999687
0.999784
0.999853
0.999900
0.999933
0.999956
0.03
0.511967
0.551717
0.590954
0.629300
0.666402
0.701944
0.735653
0.767305
0.796731
0.823814
0.848495
0.870762
0.890651
0.908241
0.923641
0.936992
0.948449
0.958185
0.966375
0.973197
0.978822
0.983414
0.987126
0.990097
0.992451
0.994297
0.995731
0.996833
0.997673
0.998305
0.998777
0.999126
0.999381
0.999566
0.999698
0.999792
0.999858
0.999904
0.999936
0.999958
0.04
0.515953
0.555670
0.594835
0.633072
0.670031
0.705402
0.738914
0.770350
0.799546
0.826391
0.850830
0.872857
0.892512
0.909877
0.925066
0.938220
0.949497
0.959071
0.967116
0.973810
0.979325
0.983823
0.987455
0.990358
0.992656
0.994457
0.995855
0.996928
0.997744
0.998359
0.998817
0.999155
0.999402
0.999581
0.999709
0.999800
0.999864
0.999908
0.999938
0.999959
0.05
0.519939
0.559618
0.598706
0.636831
0.673645
0.708840
0.742154
0.773373
0.802338
0.828944
0.853141
0.874928
0.894350
0.911492
0.926471
0.939429
0.950529
0.959941
0.967843
0.974412
0.979818
0.984222
0.987776
0.990613
0.992857
0.994614
0.995975
0.997020
0.997814
0.998411
0.998856
0.999184
0.999423
0.999596
0.999720
0.999807
0.999869
0.999912
0.999941
0.999961
0.06
0.523922
0.563559
0.602568
0.640576
0.677242
0.712260
0.745373
0.776373
0.805106
0.831472
0.855428
0.876976
0.896165
0.913085
0.927855
0.940620
0.951543
0.960796
0.968557
0.975002
0.980301
0.984614
0.988089
0.990863
0.993053
0.994766
0.996093
0.997110
0.997882
0.998462
0.998893
0.999211
0.999443
0.999610
0.999730
0.999815
0.999874
0.999915
0.999943
0.999963
0.07
0.527903
0.567495
0.606420
0.644309
0.680822
0.715661
0.748571
0.779350
0.807850
0.833977
0.857690
0.878999
0.897958
0.914656
0.929219
0.941792
0.952540
0.961636
0.969258
0.975581
0.980774
0.984997
0.988396
0.991106
0.993244
0.994915
0.996207
0.997197
0.997948
0.998511
0.998930
0.999238
0.999462
0.999624
0.999740
0.999821
0.999879
0.999918
0.999946
0.999964
0.08
0.531881
0.571424
0.610261
0.648027
0.684386
0.719043
0.751748
0.782305
0.810570
0.836457
0.859929
0.881000
0.899727
0.916207
0.930563
0.942947
0.953521
0.962463
0.969946
0.976148
0.981237
0.985371
0.988696
0.991344
0.993431
0.995060
0.996319
0.997282
0.998012
0.998559
0.998965
0.999264
0.999481
0.999638
0.999749
0.999828
0.999883
0.999922
0.999948
0.999966
0.09
0.535856
0.575345
0.614092
0.651732
0.687933
0.722405
0.754903
0.785236
0.813267
0.838913
0.862143
0.882977
0.901475
0.917736
0.931888
0.944083
0.954486
0.963273
0.970621
0.976705
0.981691
0.985738
0.988989
0.991567
0.993613
0.995201
0.996427
0.997365
0.998074
0.998605
0.998999
0.999289
0.999499
0.999650
0.999758
0.999835
0.999888
0.999925
0.999950
0.999967
Dabei ist der Eintrag in der Zelle (i, j) genau Φ (i + j). Hier nochmal der Graph:
bbbbb
bbbbb
bbbbb
0.8
0.6
0.4
0.2
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbb
bbbbbbb
bbbbbbb
bbbbbbb
bbbbbbbbb
bbbbbbbbb
bbbbbbbbbb
bbbbbbbbbbb
bbbbbbbbbbbbb
bbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
−4.0 −3.6 −3.2 −2.8 −2.4 −2.0 −1.6 −1.2 −0.8 −0.4 0
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbb
bbbbbb
bbbbbb
bbb
bbbbb
bbbbbb
bbbbbbb
bbbbbbb
bbbbbbb
bbbbbbbb
bbbbbbbbb
bbbbbbbbb
bbbbbbbbbbb
bbbbbbbbbbbb
bbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbb
0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Abbildung 24: Die Verteilungsfunktion Φ der Standardnormalverteilung.
B.1
Kenngrößen der wichtigsten Verteilungen
164
B
Diskrete Verteilungen
P (X = k) für k ∈ X (Ω)
Erwartungswert
Varianz
{1, ..., N }
1
N
N +1
2
N 2 −1
12
p
p (1 − p)
n·p
n · p · (1 − p)
R
nN
R (N −R) N −n
nN
N
N −1
Parameter
Laplace
N ∈N
Benoulli
p ∈ [0, 1]
B (1, p)
{0, 1}
Binomial
p ∈ [0, 1], n ∈ N
B (n, p)
{1, ..., n}
Hypergeometrisch
N, R ∈ N, N ≥ R, n ∈ N
Poisson
λ>0
Geometrisch
p ∈ [0, 1]
Negativ-Binomial
p ∈ [0, 1], r ∈ N
Bezeichnung
X (Ω)
Verteilung
{0, ..., n}
Poi (λ)
Geo (p)
N0
N
N0
1−k
pk (1 − p)
n−k
n k
k p (1 − p)
R
k
N −R
n−k
N
n
( )(
)
( )
k
exp (−λ) λk!
k−1
p · (1 − p)
k
r+k−1 r
p (1 − p)
k
r·
λ
λ
1
p
1−p
p2
1−p
p
r 1−p
p2
B Kenngrößen der wichtigsten Verteilungen
Stetige Verteilungen
Verteilung
Parameter
Bezeichnung
Gleichverteilung
a<b
U (a, b)
Normalverteilung
µ ∈ R, σ > 0
N µ, σ 2
Exponentialverteilung
λ>0
Exp (λ)
Gammaverteilung
r, λ ∈ (0, ∞)
Gamma (r, λ)
Chi-Quadrat-Verteilung
n∈N
Paretoverteilung
Cauchyverteilung
α ∈ (0, ∞)
Wahrscheinlichkeitsdichte
f (t) =
χ2n = Gamma
Pareto(α)
f (t) =
Erwartungswert
Varianz
b+a
2
(b−a)2
12
µ
σ
1
λ
1
λ2
r
λ
r
λ2
1
b−a 1[a,b] (t)
√ 1
2πσ 2
2
exp − (t−µ)
2
2σ
f (t) = λ exp (−λt) 1(0,∞) (t)
n 1
2, 2
f (t) =
λr r−1
Γ(r) t
n
f (t) =
2− 2
Γ( n
2)
exp (−λt) 1(0,∞) (t)
n
t 2 −1 exp − 2t 1(0,∞) (t)
f (t) =
α
1
(t)
(t+1)α+1 (0,∞)
f (t) :=
1
π(1+t2 )
n
(
∞
1
α−1
falls α ≤ 1
falls α > 1
existiert nicht
2n
(
α
α−2
∞
−
α2
(α−1)2
falls α > 2
falls α ≤ 2
B Kenngrößen der wichtigsten Verteilungen
B.2
existiert nicht
165
166
Stichwortverzeichnis
Stichwortverzeichnis
σ-Algebra, 100, 102, 114
Borel’sche, 102, 114
triviale, 100
3-Türen-Problem, 52
Abbildung
meßbare, 101
Bayes
Formel von, 36
bedingte Erwartung, 82
Bernoulli
-Experiment, 45
Bernstein
Ungleichung, 74
Binomialkoeffizient, 24
Binomialverteilung, siehe Verteilung
Blockungslemma, 54, 119
Borel’sche σ-Algebra, 102, 114
Cauchyverteilung, siehe Verteilung
Chernov
Ungleichung, 76
Chi-Quadrat-Verteilung, siehe Verteilung
de Moivre-Laplace
Grenzwertsatz von, 96
de Morgan’sche Regeln, 9
Dichte, 104, 115
der Standardnormalverteilung, 96
gemeinsame, 115
Produktdichte, 115
Transformationsformel, 109
Ereignis, 7
bedingte Wahrscheinlichkeit, 33
sicheres, 7
Unabhängigkeit, 31, 32
unmögliches, 7
Verknüpfungen, 7
Ergebnis, 7
Erwartungswert, 60
bedingter, 82
eines Zufallsvektors, 122
Jensen’sche Ungleichung, 126
Linearität, 63, 117
Produktformel, 64
Trafoformel, siehe Transformationsformel
Experiment
n-stufiges, 39
Exponentialverteilung, siehe Verteilung
Fächermodell, 22
Faltung, 120
Formel
Mulitplikationsformel, 34
von Bayes, 36
von der totalen Wahrscheinlichkeit, 36
Funktion
erzeugende, 87
Gamma-, 108
rechtstetig, 102
Galton-Watson-Prozess, 92
Gammaverteilung, siehe Verteilung
Gaußsche Glockenkurve, 96
geometrische Verteilung, siehe Verteilung
Gleichverteilung, siehe Verteilung
diskrete, 11
Graph
Pfad, 134
Gewicht, 135
Länge, 135
Weg, 134
Grundraum
diskreter, 7
Hoeffding
Ungleichung, 76
Indikatorvariable, 50
Korellationskoeffizient, 85
Korrelation
negative, 86
positive, 86
Kovarianz
eines Zufallsvektors, 123
Laplace-Raum, 11
Laplace-Verteilung, 11
Markov-Kette, 139
Übergangsgraph, 134
irreduzibel, 135
Übergangsmatrix, 133
aperiodisch, 137
irreduzibel, 135
Periode, 137
in i gestartete, 146
Konvergenzssatz, 141
Markov-Eigenschaft, 139
Rückkehrzeit, 146
Rückkehrzeitensatz, 147
Satz von der invarianten Verteilung, 145
Satz von der positiven Rekurrenz, 147
starkes Gesetz, 149
Startverteilung, 139
stochastische Matrix, 133
Verteilung
invariante, 141
Zustand
Periode, 136
Zustandsmenge, 133
Markov-Ungleichung, 72
Menge
Komplement, 9
Multinomialkoeffizient, 25
Multinomialverteilung, siehe Verteilung
negative Binomialverteilung, siehe Verteilung
Stichwortverzeichnis
Normalapproximation, 98
Normalverteilung, siehe Verteilung
Paretoverteilung, siehe Verteilung
Polya’sches Urnenmodell, 39
relative Häufigkeit, 8
Satz
Abel’scher Grenzwertsatz, 88
Binomischer Lehrsatz, 24
Grenzwertsatz von de Moivre-Laplace, 96
Konvergenzsatz für Markov-Ketten, 141
Poisson-Grenzwert, 59
Rückkehrzeitensatz, 147
von der invarianten Verteilung, 145
von der iterierten Erwartung, 82
von der positiven Rekurrenz, 147
Zentraler Grenzwertsatz, 127
Fehlerabschätzung nach Berry-Esseen, 131
Schätzer, 154
erwartungstreuer, 156
ML-, 155
Schätzung, 154
Schwaches Gesetz großer Zahlen, 73
Siebformel, 15
Bonferroni-Ungleichungen, 19
von Poincare-Sylvester, 15
Simpson-Paradoxon, 37
Spiegelungsprinzip, 29
Stichprobe
Stichprobenvarianz, 158
Stichprobenraum, 154
Stimmzettelproblem, 28
System
dynamisches, 93
Grenzwert, 93
Test, 160
t-, 162
Alternative, 159
Fehler erster Art, 160
Gütefunktion, 160
Gauß-, 161
hoch-signifikantes Ergebnis, 160
Hypothese, 159
signifikantes Ergebnis, 160
Testproblem, 160
Verwerfungsbereich, 160
zum Niveau α, 160
Transformationsformel, 62, 112, 116
Tschebyschow-Ungleichung, 72
Ungleichung
Bernstein-, 74
Bonferroni, 19
Boole’sche, 10, 20
Chernov-, 76
Hoeffding-, 76
Markov, 72
SGGZ, siehe Schwaches Gesetz großer Zahlen
Tschebyschow, 72
Urnenmodell, 22
167
Varianz, 65, 113
empirische, 159
Rechenregeln, 66
Stichprobenvarianz, 158
Verteilung, 100
k-dimensionale Randverteilung, 51
n-dimensionale Normalverteilung, 122
n-dimensionale Std.-Normalverteilung, 122
a-posteriori, 42
a-priori, 42
austauschbare, 40
bedingte, 80
Binomialverteilung, 27
Cauchy-, 108
Chi-Quadrat, 108
einer Zufallsvariable, 48
Exponential-, 106
Gedächtnislosigkeit, 107
Faltung, 77
Gamma-, 108
gemeinsame, 50
geometrische, 46
Gleichverteilung, 105
hypergeometrische, 27
Marginalverteilung, 51
Multinomialverteilung, 45
negative Binomialverteilung, 47
Normalverteilung, 106
ausgeartete, 124
nicht ausgeartete, 124
Pareto-, 107
Produktverteilung, 115
Standard-Normalverteilung, 96, 106
stetige, 104
Verteilungsfunktion, 102
Standardnormalverteilung, 96
Verzweigungsprozess, 92
Aussterbewahrscheinlichkeit, 92
Vitali-Menge, 101
Vorhersager
linearer, 86
Wahrscheinlichkeit
bedingte, 33
Multiplikationsformel, 34
Wahrscheinlichkeitsfunktion, 13
bedingte, 80
Wahrscheinlichkeitsraum, 100
diskreter, 8
Laplace-Raum, 11
Produkt, 43
Wahrscheinlichkeitsverteilung, 100
Wald’sche Identität, 83, 91
Ziegenproblem, 52
zufällige Summe
erzeugende Funktion, 90
Zufallsexperiment, 6
Zufallsvariabel
standardisierte, 95
Zufallsvariable, 48, 101
j-tes faktorielles Moment, 88
168
Stichwortverzeichnis
k-tes Moment, 113
k-tes zentrales Moment, 66
bedingte Erwartung, siehe bedingte Erwartung
Bernoulli-verteilte, 56
Binomial-verteilte, 56
Poisson-Approximation, 59
drittes zentrales Moment, 127
Erwartungswert, siehe Erwartungswert
Funktion von Zufallsvariablen, 53
gemeinsame Dichte, 115
geometrisch verteilte, 57
Gedächtnislosigkeit, 57
gleichverteilte, 56
Kovarianz, 66
Laplace-verteilte, 56
Poisson-verteilte, 58
reelle, 102
Standardabweichung, 65
stetig verteilte, 105
Erwartungswert, 111
Unabhängigkeit, 51, 83, 117
unkorreliert, 69, 119
Varianz, siehe Varianz
Verteilung, 48, 101
bedingte, 80
Faltung, 77
Wahrscheinlichkeitsfunktion
bedingte, 80
Herunterladen