Einführung in die Wahrscheinlichkeitstheorie

Werbung
Einführung in die Wahrscheinlichkeitstheorie
Prof. Dr. Andreas Eberle
20. April 2010
Inhaltsverzeichnis
Inhaltsverzeichnis
2
1
8
Diskrete Zufallsvariablen
1.1
1.2
1.3
1.4
2
Ereignisse und ihre Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . .
10
Ereignisse als Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . .
14
Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . .
17
Gleichverteilungen / Laplace-Modelle . . . . . . . . . . . . . . . . . . .
17
Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
18
Diskrete Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . .
22
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . .
27
Simulation von Gleichverteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
28
Lineare Kongruenzgeneratoren (LCG) . . . . . . . . . . . . . . . . . . .
29
Shift-Register-Generatoren . . . . . . . . . . . . . . . . . . . . . . . . .
34
Kombination von Zufallszahlengeneratoren . . . . . . . . . . . . . . . .
35
Zufallszahlen aus [0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Zufallspermutationen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Linearität und Monotonie des Erwartungswertes . . . . . . . . . . . . . . . . . .
39
Bedingte Wahrscheinlichkeiten und Unabhängigkeit
43
2.1
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung . . . . . . . . .
44
2
INHALTSVERZEICHNIS
2.2
2.3
2.4
2.5
3
Bayessche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Mehrstufige diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Berechnung von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . .
54
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . .
55
Verteilungen für unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . .
57
Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
Unabhängige Zufallsvariablen und Random Walk . . . . . . . . . . . . . . . . .
63
Unabhängigkeit von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . .
63
Der Random Walk auf Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Symmetrischer Random Walk . . . . . . . . . . . . . . . . . . . . . . .
67
Simulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Das direkte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
Acceptance-Rejection-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3 Konvergenzsätze und Monte Carlo Verfahren
75
3.1
Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.2
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
80
3.3
Monte Carlo-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
Varianzreduktion durch Importance Sampling . . . . . . . . . . . . . . . . . . .
85
Gleichgewichte von Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . .
88
Gleichgewichte und Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . .
88
Metropolis-Algorithmus und Gibbs-Sampler . . . . . . . . . . . . . . . . . . . .
92
Die Metropolis-Kette . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
Der Gibbs-Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
Konvergenz ins Gleichgewicht . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
3.4
3.5
4 Stetige und Allgemeine Modelle
101
4.1
Unendliche Kombinationen von Ereignissen . . . . . . . . . . . . . . . . . . . . 101
4.2
Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . 109
Beispiele von Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . . . . . . . . 109
Konstruktion von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen . . . . . . . . . 114
Universität Bonn
Wintersemester 2009/2010
4
INHALTSVERZEICHNIS
4.3
Allgemeine Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . 118
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 121
Charakterisierung der Verteilung . . . . . . . . . . . . . . . . . . . . . . 122
4.4
Wahrscheinlichkeitsverteilungen auf R . . . . . . . . . . . . . . . . . . . . . . . 125
Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 125
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Transformation von absolutstetigen Zufallsvariablen . . . . . . . . . . . . . . . . 133
4.5
Quantile und Inversionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Konstruktion und Simulation reellwertiger Zufallsvariablen . . . . . . . . . . . . 137
4.6
Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . 142
Der Satz von De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 143
Approximative Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 149
5
Unabhängigkeit und Produktmodelle
5.1
152
Unabhängigkeit in allgemeinen Modellen . . . . . . . . . . . . . . . . . . . . . 152
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 155
Konfidenzintervalle für Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.2
Gemeinsame Verteilungen und endliche Produktmodelle . . . . . . . . . . . . . 161
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen . . . . . . . . . . 161
Absolutstetigkeit von multivariaten Verteilungen . . . . . . . . . . . . . . . . . . 164
Absolutstetigkeit von endlichen Produktmodellen . . . . . . . . . . . . . 164
Gemeinsame Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Reelle Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.3
Unendliche Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Konstruktion von unabhängigen Zufallsvariablen . . . . . . . . . . . . . . . . . 173
Unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.4
Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Das 0-1-Gesetz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Anwendungen auf Random Walks und Perkolationsmodelle . . . . . . . . . . . . 181
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
INHALTSVERZEICHNIS
6 Erwartungswert und Varianz
6.1
5
186
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Definition des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Elementare Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 186
Nichtnegative Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 187
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 190
Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . 190
Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.2
Berechnung von Erwartungswerten; Dichten . . . . . . . . . . . . . . . . . . . . 194
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Zufallsvariablen mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Existenz von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
6.3
Varianz, Kovarianz und lineare Regression . . . . . . . . . . . . . . . . . . . . . 203
Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 205
Beste Prognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Unabhängigkeit und Unkorreliertheit . . . . . . . . . . . . . . . . . . . . . . . . 215
7 Gesetze der großen Zahlen
7.1
217
Ungleichungen und Konvergenz von ZVn . . . . . . . . . . . . . . . . . . . . . 217
Konvergenzbegriffe für Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 217
Die Markov-Čebyšev-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 220
Wichtige Spezialfälle: . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
7.2
Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 224
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 225
Das starke Gesetz für quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . 226
7.3
Von L2 nach L1 mit Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 230
Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Schätzen von Kenngrößen einer unbekannten Verteilung . . . . . . . . . . . . . 234
Konvergenz der empirischen Verteilungsfunktionen . . . . . . . . . . . . . . . . 236
Histogramme und Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . 238
Universität Bonn
Wintersemester 2009/2010
6
INHALTSVERZEICHNIS
7.4
Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Extrema der Entropie: . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Statistische Interpretation der Entropie . . . . . . . . . . . . . . . . . . . . . . . 244
Entropie und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
8
Grenzwertsätze
8.1
248
Charakteristische und Momentenerzeugende Funktionen . . . . . . . . . . . . . 249
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Inversion der Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . 253
8.2
Erste Anwendungen auf Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . 255
Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
Große Abweichungen vom Gesetz der großen Zahlen . . . . . . . . . . . . . . . 257
8.3
Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 263
Konvergenz der Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . 268
Existenz schwach konvergenter Teilfolgen . . . . . . . . . . . . . . . . . . . . . 271
Schwache Konvergenz über charakteristische Funktionen . . . . . . . . . . . . . 273
8.4
Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
ZGS für Summen von i.i.d. Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 276
Normalapproximationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
Heavy Tails, Konvergenz gegen α-stabile Verteilungen . . . . . . . . . . . . . . 281
Der Satz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
9
Multivariate Verteilungen und Statistik
9.1
287
Mehrstufige Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Stochastische Kerne und der Satz von Fubini . . . . . . . . . . . . . . . . . . . 287
Wichtige Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
Bedingte Dichten und Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . 291
9.2
Summen unabhängiger Zufallsvariablen, Faltung . . . . . . . . . . . . . . . . . 295
Verteilungen von Summen unabhängiger Zufallsvariablen . . . . . . . . . . . . . 296
Wartezeiten, Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 298
9.3
Transformationen, Gaußmodelle und Parameterschätzung . . . . . . . . . . . . . 300
Der Dichtetransformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
Multivariate Normalverteilungen und multivariater ZGS . . . . . . . . . . . . . . 301
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
INHALTSVERZEICHNIS
7
Parameterschätzung im Gaußmodell . . . . . . . . . . . . . . . . . . . . . . . . 305
Exkurs zu Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
10 Bedingte Erwartungen
312
10.1 Bedingen auf diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 312
Bedingte Erwartungen als Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 312
Formel von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 314
Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Anwendung auf zufällige Summen . . . . . . . . . . . . . . . . . . . . . . . . . 316
Charakterisierende Eigenschaften der bedingten Erwartung . . . . . . . . . . . . 317
10.2 Erzeugende Funktionen, Verzweigungsprozesse und Erneuerungen . . . . . . . . 318
Erzeugende Funktionen von ganzzahligen Zufallsvariablen . . . . . . . . . . . . 318
Erzeugende Funktionen zufälliger Summen . . . . . . . . . . . . . . . . . . . . 320
Galton-Watson-Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . 320
Rekurrente Ereignisse und Erneuerungsgleichung . . . . . . . . . . . . . . . . . 323
10.3 Bedingen auf allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 326
Das Faktorisierungslemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
Definition allgemeiner bedingter Erwartung . . . . . . . . . . . . . . . . . . . . 328
Diskreter und absolutstetiger Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Reguläre bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Stichwortverzeichnis
Universität Bonn
337
Wintersemester 2009/2010
Kapitel 1
Diskrete Zufallsvariablen
Unser Ziel in diesem Kapitel ist die mathematische Modellierung von Zufallsvorgängen. Einfache Beispiele für Zufallsvorgänge sind das Werfen eines Würfels oder Münzwürfe. Anhand
dieser Beispiele wollen wir zunächst einige grundlegende Begriffe der Wahrscheinlichkeitstheorie veranschaulichen.
N OTATIONEN :
|A| bezeichnet die Anzahl der Elemente einer Menge A, AC bezeichnet das
Komplement der Menge A innerhalb einer bestimmten Menge B, die A enthält.
Beispiel (Werfen eines Würfels).
• Mögliche Fälle sind 1, 2, 3, 4, 5, 6. Mit Ω = {1, 2, 3, 4, 5, 6} wird die Menge aller mög-
lichen Fälle bezeichnet. Ein Elementarereignis ist ein möglicher Fall, also ein Element
ω ∈ Ω.
• Ereignisse sind die Objekte, denen man eine Wahrscheinlichkeit zuordnen kann, zum Beispiel:
{3}
»Augenzahl ist 3«
{2, 4, 6}
»Augenzahl ist gerade«
{1, 3, 5} = {2, 4, 6}C
»Augenzahl ist nicht gerade«
»Augenzahl ist größer als 3«
»Augenzahl ist gerade und größer als 3«
»Augenzahl gerade oder größer als 3«
{4, 5, 6}
{4, 6} = {2, 4, 6} ∩ {4, 5, 6}
{2, 4, 5, 6} = {2, 4, 6} ∪ {4, 5, 6}
Jedes Ereignis kann durch eine Teilmenge A von Ω dargestellt werden!
8
9
• Wahrscheinlichkeiten werden mit P (für »probability«) bezeichnet. Zum Beispiel sollte
für einen »fairen« Würfel gelten:
1
P [»3«] = ,
6
Anzahl günstige Fälle
|{2, 4, 6}|
3
1
=
= = ,
Anzahl mögliche Fälle
|{1, 2, 3, 4, 5, 6}|
6
2
4
2
P [»Augenzahl gerade oder größer als 3«] = = .
6
3
P [»Augenzahl gerade«] =
• Zufallsvariablen sind Abbildungen X : Ω → S, wobei S eine beliebige Menge ist, zum
Beispiel:
X(ω) = ω,

1
falls ω ∈ {1, 2, 3, 4, 5},
X(ω) =
−5 falls ω ∈ 6,
Beispiel (Münzwürfe).
»Augenzahl des Wurfs«, oder
»Gewinn bei einem fairen Spiel«.
a) E IN M ÜNZWURF :
Die Menge der möglichen Fälle ist Ω = {0, 1}, wobei 0 für »Kopf« und 1 für »Zahl« steht.
Die Wahrscheinlichkeiten sind
P [{1}] = p
Für p =
1
2
und
P [{0}] = 1 − p
mit 0 ≤ p ≤ 1.
ist der Münzwurf fair.
b) E NDLICH VIELE FAIRE M ÜNZWÜRFE :
Die Menge der möglichen Fälle lautet
Ω = {ω = (x1 , . . . , xn ) | xi ∈ {0, 1}} =: {0, 1}n .
Alle Ausgänge sind genau dann gleich wahrscheinlich, wenn P [{ω}] = 2−n für alle ω ∈ Ω
gilt. Dies wird im folgenden angenommen. Zufallsvariablen von Interesse sind beispielsweise:
• Xi (ω) := xi , das Ergebnis des i-ten Wurfs. Das Ereignis »i-ter Wurf ist Kopf« wird
durch die Menge Ai = {ω ∈ Ω | Xi (ω) = 0} =: {Xi = 0} beschrieben, und hat die
Wahrscheinlichkeit P [Ai ] = 12 .
P
• Sn (ω) := ni=1 Xi (ω), die Anzahl der Einsen in n Münzwürfen. Das Ereignis »ge-
nau k-mal Zahl« wird durch die Menge A = {ω ∈ Ω | Sn (ω) = k} =: {Sn = k} be
schrieben und hat die Wahrscheinlichkeit P [A] = nk 2−n .
Universität Bonn
Wintersemester 2009/2010
10
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
c) U NENDLICH VIELE M ÜNZWÜRFE :
Die Menge der möglichen Fälle ist nun
Ω = {ω = (x1 , x2 , . . .) | xi ∈ {0, 1}} = {0, 1}N .
Diese Menge ist überabzählbar, da die Abbildung
Ω → [0, 1]
(x1 , x2 , . . .) 7→ 0.x1 x2 . . .
surjektiv ist, (wobei das Einheitsintervall binär dargestellt wird). Die Definition von Ereignissen und Wahrscheinlichkeiten ist daher in diesem Fall aufwändiger. Wahrscheinlichkeitsverteilungen auf überabzählbaren Mengen werden systematisch in der Vorlesung
»Einführung in die Wahrscheinlichkeitstheorie« betrachtet.
In dieser Vorlesung ist die Menge der möglichen Fälle Ω abzählbar. Solche Zufallsvorgänge werden diskret genannt.
1.1
Ereignisse und ihre Wahrscheinlichkeit
Ereignisse als Mengen
Sei Ω die Menge der möglichen Fälle und A ⊆ Ω ein Ereignis. Als Notationen für die Menge A
werden wir auch verwenden:
A = {ω ∈ Ω | ω ∈ A} = {ω ∈ A} = { »A tritt ein« }.
Wir wollen nun Kombinationen von Ereignissen betrachten.
Seien A, B, Ai , i ∈ I, Ereignisse. Was bedeuten Ereignisse wie AC , A ∪ B,
T
i∈I
Ai anschaulich?
Um dies herauszufinden, betrachten wir einen möglichen Fall ω und untersuchen, wann dieser
eintritt:
• A ∪ B:
ω ∈A∪B
⇔
»A ∪ B tritt ein« ⇔
•
S
i∈I
ω ∈ A oder ω ∈ B,
»A tritt ein oder B tritt ein«.
Ai :
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
S
ω ∈ i∈I Ai
⇔
S
» i∈I Ai tritt ein« ⇔
11
es gibt ein i ∈ I mit ω ∈ Ai .
»mindestens eines der Ereignisse Ai tritt ein«.
• W EITERE B EISPIELE :
A∩B
T
i∈I Ai
AC = Ω
A=∅
A=Ω
A = {ω}
⇔ »A und B treten ein«,
⇔ »jedes der Ai tritt ein«,
⇔ »A tritt nicht ein«,
⇔ »unmögliches Ereignis« (tritt nie ein),
⇔ »sicheres Ereignis« (tritt immer ein),
⇔ »Elementarereignis« (tritt nur im Fall ω ein).
Sei A die Kollektion aller im Modell zugelassenen bzw. in Betracht gezogenen Ereignisse.
A besteht aus Teilmengen von Ω, d.h.
A ⊆ P(Ω),
wobei
P(Ω) := {A | A ⊆ Ω}
die Potenzmenge von Ω, d.h. die Menge aller Teilmengen von Ω bezeichnet. Die Kollektion A
sollte unter den obigen Mengenoperationen, also abzählbaren Vereinigungen, Durchschnitten und
Komplementbildung abgeschlossen sein. Wir fordern daher:
Axiom. A ⊆ P(Ω) ist eine σ-Algebra, d.h.
(i) Ω ∈ A,
(ii) Für alle A ∈ A gilt:
(iii) Für A1 , A2 , . . . ∈ A gilt:
AC ∈ A,
S∞
i=1
Ai ∈ A.
Bemerkung. Für σ-Algebren gilt auch:
a) Nach (i) und (ii) ist ∅ = ΩC ∈ A.
b) Sind A, B ∈ A, so gilt nach (iii) und a):
A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ . . . ∈ A.
c) Sind A1 , A2 , . . . ∈ A, so ist nach (ii) und (iii):
T∞
Beispiel. Die Potenzmenge A = P(Ω) ist eine σ-Algebra.
i=1
S
C C
Ai = ( ∞
i=1 Ai ) ∈ A.
Üblicherweise verwendet man A = P(Ω) bei diskreten Modellen, d.h. für abzählbare Ω. Bei
nichtdiskreten Modellen kann man nicht jede Wahrscheinlichkeitsverteilung P auf einer σ-Algebra
A ⊂ P(Ω) zu einer Wahrscheinlichkeitsverteilung auf P(Ω) erweitern (siehe »Einführung in die
Wahrscheinlichkeitstheorie«).
Universität Bonn
Wintersemester 2009/2010
12
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Wahrscheinlichkeitsverteilungen
Sei Ω eine nichtleere Menge und A ⊆ P(Ω) eine σ-Algebra. Wir wollen nun Ereignissen A ∈ A
eine Wahrscheinlichkeit P [A] zuordnen. Für Ereignisse A, B ∈ A gilt:
A ∪ B tritt ein ⇔ A oder B tritt ein.
Angenommen, A und B treten nicht gleichzeitig ein, d.h.
A ∩ B = ∅,
(A und B sind »disjunkt«).
Dann sollte »endliche Additivität« gelten:
P [A ∪ B] = P [A] + P [B].
Axiom. Eine Abbildung
P : A → [0, ∞]
A 7→ P [A]
ist eine Wahrscheinlichkeitsverteilung auf (Ω, A), wenn gilt:
(i) P ist »σ-additiv«, d.h. für Ereignisse A1 , A2 , . . . ∈ A mit Ai ∩ Aj = ∅ für i 6= j gilt:
P
∞
[
i=1
Ai =
∞
X
P [Ai ].
i=1
(ii) P ist »normiert«, d.h.
P [Ω] = 1.
Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus einer Menge Ω, einer σ-Algebra A ⊆ P(Ω),
und einer Wahrscheinlichkeitsverteilung P auf (Ω, A).
Satz 1.1 (Elementare Rechenregeln). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
i) Es gilt P [∅] = 0,
ii) Für A, B ∈ A mit A ∩ B = ∅ gilt endliche Additivität:
P [A ∪ B] = P [A] + P [B].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
13
iii) Für A, B ∈ A mit A ⊆ B gilt:
P [B] = P [A] + P [B\A].
Insbesondere gilt:
P [A] ≤ P [B],
»Monotonie«,
P [AC ] = 1 − P [A],
»Gegenereignis«,
P [A] ≤ 1.
iv) Für A, B ∈ A gilt:
P [A ∪ B] = P [A] + P [B] − P [A ∩ B] ≤ P [A] + P [B].
Beweis.
i) Wegen der σ-Additivität von P gilt
1 = P [Ω] = P [Ω ∪ ∅ ∪ ∅ ∪ . . .] = P [Ω] + P [∅] + P [∅] + . . . ,
| {z } |{z} |{z}
=1
und damit
≥0
≥0
P [∅] = 0.
ii) Für disjunkte Ereignisse A, B folgt aus der σ-Additivität und mit i):
P [A ∪ B] = P [A ∪ B ∪ ∅ ∪ ∅ ∪ . . .]
= P [A] + P [B] + P [∅] + . . .
= P [A] + P [B].
iii) Falls A ⊆ B, ist B = A ∪ (B\A). Da diese Vereinigung disjunkt ist, folgt mit ii):
P [B] = P [A] + P [B\A] ≥ P [A].
Insbesondere ist 1 = P [Ω] = P [A] + P [AC ] und somit P [A] ≤ 1.
iv) Nach iii) gilt:
P [A ∪ B] = P [A] + P [(A ∪ B)\A]
= P [A] + P [B\(A ∩ B)]
= P [A] + P [B] − P [A ∩ B].
Universität Bonn
Wintersemester 2009/2010
14
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Aussage iv) des Satzes lässt sich für endlich viele Ereignisse verallgemeinern. Nach iv) gilt für
die Vereinigung von drei Ereignissen:
P [A ∪ B ∪ C] = P [A ∪ B] + P [C] − P [(A ∪ B) ∩ C]
= P [A ∪ B] + P [C] − P [(A ∩ C) ∪ (B ∩ C)]
= P [A] + P [B] + P [C] − P [A ∩ B] − P [A ∩ C] − P [B ∩ C] + P [A ∩ B ∩ C].
Mit vollständiger Induktion folgt:
Korollar (Einschluss-/Ausschlussprinzip). Für n ∈ N mit Ereignissen A1 , . . . , An ∈ A gilt:
P [ A1 ∪ A2 ∪ . . . ∪ An ] =
|
{z
}
»eines der Ai tritt ein«
n
X
X
(−1)k−1
].
A ∩ Ai2 ∩ . . . ∩ Aik
{z
}
| i1
»Ai1 , Ai2 , . . . und Aik treten ein«
P[
1≤i1 <...<ik ≤n
k=1
Das Einschluss-/Ausschlussprinzip werden wir auf eine elegantere Weise am Ende dieses Kapitels beweisen (siehe Satz 1.9).
Diskrete Wahrscheinlichkeitsverteilungen
Als Beispiel für eine diskrete Wahrscheinlichkeitsverteilung haben wir den Münzwurf betrachtet:
Ω = {0, 1},
A LLGEMEIN :
A = {{∅}, {0}, {1}, {0, 1}},
P [{1}] = p,
P [∅] = 0,
P [{0}] = 1 − p,
P [Ω] = 1.
Ist die Menge der möglichen Fälle Ω endlich oder abzählbar unendlich, dann
setzen wir als zugehörige σ-Algebra A = P[Ω].
Satz 1.2.
i) Sei 0 ≤ p(ω) ≤ 1,
ist durch
P
ω∈Ω
p(ω) = 1 eine Gewichtung der möglichen Fälle. Dann
P [A] :=
X
p(ω),
ω∈A
(A ⊆ Ω),
eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert.
ii) Umgekehrt ist jede Wahrscheinlichkeitsverteilung P auf (Ω, A) von dieser Form mit
p(ω) = P [{ω}]
(ω ∈ Ω).
p : Ω → [0, 1] heißt Massenfunktion (»probability mass function«) der diskreten Wahr-
scheinlichkeitsverteilung P .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
15
Für den Beweis des Satzes brauchen wir einige Vorbereitungen.
Bemerkung (Vorbemerkung zu Summen mit positiven Summanden). Sei A eine abzählbare
Menge, p(ω) ≥ 0 für alle ω ∈ A. Dann definieren wir
X
∞
X
p(ω) :=
p(ωi ),
i=1
ω∈A
wobei ω1 , ω2 , . . . eine beliebige Abzählung von A ist.
Lemma 1.3.
i)
P
lung). Es gilt:
ω∈A
p(ω) ∈ [0, ∞] und ist wohldefiniert (d.h. unabhängig von der AbzähX
X
p(ω) = sup
p(ω).
(1.1.1)
(A ⊆ B).
(1.1.2)
F ⊆A
ω∈F
|F |<∞
ω∈A
Insbesondere gilt Monotonie:
X
ω∈A
ii) Ist A =
S∞
i=1
p(ω) ≤
X
p(ω),
ω∈B
Ai eine disjunkte Zerlegung, dann gilt:
X
p(ω) =
∞ X
X
p(ω).
i=1 ω∈Ai
ω∈A
i) Sei ω1 , ω2 , . . . eine beliebige Abzählung von A. Aus p(ωi ) ≥ 0 für alle i ∈ N
P
folgt, dass die Partialsummen ni=1 p(ωi ) monoton wachsend sind. Daraus folgt:
Beweis.
∞
X
p(ωi ) = sup
i=1
n∈N
n
X
p(ωi ).
i=1
Falls die Menge der Partialsummen von oben beschränkt ist, existiert dieses Supremum
in [0, ∞). Andernfalls divergiert die Folge der Partialsummen bestimmt gegen +∞. Zu
zeigen bleibt:
sup
n∈N
n
X
i=1
p(ωi ) = sup
X
p(ω)
ist unabhängig von der Abzählung von A.
F ⊆A
ω∈F
|F |<∞
»≤«: Für alle n ∈ N gilt:
n
X
i=1
p(ωi ) ≤ sup
X
p(ω),
F ⊆A
ω∈F
|F |<∞
da das Supremum auch über F = {ω1 , . . . , ωn } gebildet wird. Damit folgt »≤«.
Universität Bonn
Wintersemester 2009/2010
16
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
»≥«: Da F ⊆ A endlich ist, gibt es ein n ∈ N, so dass F ⊆ {ω1 , . . . , ωn } . Also gilt:
X
ω∈F
n
X
p(ω) ≤
i=1
p(ωi ) ≤
∞
X
p(ωi ).
i=1
Damit folgt »≥«.
ii)
• Falls A endlich ist, gilt Ai 6= ∅ nur für endlich viele i ∈ N und alle Ai sind endlich.
Die Behauptung folgt dann aus dem Kommutativ- und dem Assoziativgesetz.
• Sei andernfalls A abzählbar unendlich.
S
»≤«: Da F ⊆ A endlich, ist F = ∞
i F ∩ Ai . Da diese Vereinigung disjunkt ist, folgt
mit σ-Additivität und Gleichung (1.1.2):
X
X
P [F ] =
P [F ∩ Ai ] ≤
P [Ai ].
i∈N
i∈N
Mit (i)) gilt auch:
P [A] = sup P [F ] ≤
F ⊆A
|F |<∞
X
P [Ai ].
i∈N
Damit folgt »≤«.
»≥«: Seien Fi ⊆ Ai endlich. Da die Fi disjunkt sind, folgt mit σ-Additivität und Gleichung (1.1.2) für alle n ∈ N:
n
X
P [Fi ] = P
i=1
Mit (1.1.1) folgt
"
n
[
i=1
Fi ≤ P
"∞
[
i=1
n
X
P [Ai ] ≤ P [A],
∞
X
P [Ai ] ≤ P [A].
i=1
und für n → ∞ schließlich
#
i=1
#
Ai = P [A].
Damit folgt »≥«.
i) Es ist P [Ω] =
Beweis von Satz 1.2.
P
ω∈Ω
Seien Ai , (i ∈ N) disjunkt und A :=
1.3.ii):
P
∞
[
i=1
Ai = P [A] =
S∞
X
ω∈A
Einführung in die Wahrscheinlichkeitstheorie
p(ω) = 1 nach Voraussetzung.
i=1
Ai . Die σ-Additivität von P folgt aus Lemma
p(ω) =
∞ X
X
i=1 ω∈Ai
p(ω) =
∞
X
P [Ai ]
i=1
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
17
ii) Aus der σ-Additivität von P folgt:
P [A] = P
[
ω∈A
X
P [{ω}].
{ω} =
| {z }
disjunkt
ω∈A
Spezielle Wahrscheinlichkeitsverteilungen
Gleichverteilungen / Laplace-Modelle
Sei Ω endlich und nichtleer, A = P(Ω) und p(ω) =
1
|Ω|
für alle ω ∈ Ω. Dann ist
|A|
Anzahl »günstiger« Fälle
=
,
(A ⊆ Ω),
|Ω|
Anzahl aller Fälle
die Wahrscheinlichkeitsverteilung zu p und wird Gleichverteilung genannt.
P [A] =
Beispiele.
a) n FAIRE M ÜNZWÜRFE :
Sei Ω = {0, 1}n und P die Gleichverteilung. Dann ist
1
p(ω) = n .
2
b) Z UFÄLLIGE P ERMUTATIONEN :
Sei Ω = Sn = {ω : {1, 2, . . . , n} → {1, 2, . . . , n} bijektive Abbildungen } und P die
Gleichverteilung. Dann ist
|A|
.
n!
Beispiele für zufällige Permutationen sind das Mischen eines Kartenspiels, Vertauschen
P [A] =
von Hüten oder Umzug in die LWK, wobei n Schlüssel zufällig vertauscht werden. Es gilt:
P [»der k-te Schlüssel passt auf Schloss i«] = P [{ω ∈ Sn | ω(i) = k}] =
(n − 1)!
1
= .
n!
n
Wie groß ist die Wahrscheinlichkeit, dass einer der Schlüssel sofort passt?
Das Ereignis »Schlüssel i passt« ist Ai = {ω | ω(i) = i} = {»i ist Fixpunkt« }. Die Wahr-
scheinlichkeit für das Ereignis »ein Schlüssel passt« ist nach dem Einschluss-/Ausschlussprinzip (Satz 1.9):
P [»es gibt mindestens einen Fixpunkt«] = P [A1 ∪ A2 ∪ . . . ∪ An ]
n
X
X
=
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ]
(−1)k+1
=
k=1
n
X
k=1
Universität Bonn
1≤i1 <i2 <...<ik ≤n
(−1)k+1
X
1≤i1 <i2 <...<ik
(n − k)!
,
n!
≤n
Wintersemester 2009/2010
18
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
wobei die innere Summe über alle k-elementigen Teilmengen läuft. Es folgt:
n
X
k+1 n (n − k)!
=
(−1)
k
n!
k=1
=−
n
X
(−1)k
k=1
k!
Für das Gegenereignis erhalten wir:
P [»kein Schlüssel passt«] = P [»kein Fixpunkt«] − P [»mindestens ein Fixpunkt«]
n
X
(−1)k
=1+
k!
k=1
=
n
X
(−1)k
k!
k=0
.
Die letzte Summe konvergiert für n → ∞ gegen e−1 . Der Grenzwert existiert also und ist
weder 0 noch 1! Die Wahrscheinlichkeit hängt für große n nur wenig von n ab.
Empirische Verteilungen
Seien x1 , x2 , . . . , xn ∈ Ω Beobachtungsdaten oder Merkmalsausprägungen, zum Beispiel das
Alter aller Einwohner von Bonn. Sei
N [A] := |{i ∈ {1, . . . , n} | xi ∈ A}|,
die Anzahl bzw. Häufigkeit der Werte in A, und
P [A] :=
die relative Häufigkeit der Werte in A.
N [A]
,
n
Dann ist P eine Wahrscheinlichkeitsverteilung auf (Ω, P(Ω)) mit Massenfunktion
p(ω) =
Beispiele.
N [{ω}]
,
n
der relativen Häufigkeit der Merkmalsausprägungen.
a) A BZÄHLUNG ALLER MÖGLICHEN FÄLLE:
Sei x1 , . . . , xn eine Abzählung der Elemente in Ω. Dann stimmt die empirische Verteilung
mit der Gleichverteilung überein.
b) E MPIRISCHE V ERTEILUNG VON n Z UFALLSZAHLEN AUS {1, 2, 3, 4, 5, 6}:
x=RandomChoice [ { 1 , 2 , 3 , 4 , 5 , 6 } , n ] ;
L i s t P l o t [ BinCounts [ x [ [ 1 ; ; n ] , {1 , 7 , 1 } ] / n ,
F i l l i n g −> Axis , PlotRange −> { 0 , 0 . 3 } ,
P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ] , {n , 1 , 1 0 0 , 1}
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
19
0.30
0.25
0.20
0.15
0.10
0.05
• n = 100:
0
1
2
3
4
5
6
0.30
0.25
0.20
0.15
0.10
0.05
• n = 10000:
0
1
2
3
4
5
6
c) E MPIRISCHE V ERTEILUNG DER B UCHSTABEN » A « BIS » Z «:
• in dem Wort »Eisenbahnschrankenwaerterhaeuschen«:
f r e q = S t r i n g C o u n t [ " e i s e n b a h n s c h r a n k e n w a e r t e r h a e u s c h e n " , # ] & /@
CharacterRange [ " a " , " z " ] ;
r e l f r e q = f r e q / Total [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ]
Universität Bonn
Wintersemester 2009/2010
20
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
0.20
0.15
0.10
0.05
5
10
15
20
25
• in einem englischen Wörterbuch:
f r e q = Length [ D i c t i o n a r y L o o k u p [ # ~~ ___ ] ] & /@
CharacterRange [ " a " , " z " ] ;
r e l f r e q = f r e q / Total [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ]
0.12
0.10
0.08
0.06
0.04
0.02
5
10
15
20
25
d) B ENFORDSCHES G ESETZ :
Das Benfordsche Gesetz, auch Newcomb-Benford’s Law (NBL) beschreibt eine Gesetzmäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen,
zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzahlen von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz
gefasst besagt es:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
21
»Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter
Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist
ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum
Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,5-mal so häufig auf
wie solche mit der Anfangsziffer 9.«
1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und
im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer
deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden
seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit geraten, als der Physiker Frank Benford (1883−1948) diese Gesetzmäßigkeit wiederentdeckte
und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt,
in neuerer Zeit wird aber durch die Bezeichnung »Newcomb-Benford’s Law« (NBL) dem
eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Gesetzmäßigkeit nicht einmal allen Statistikern bekannt. Erst seit der US-amerikanische Mathematiker Theodore Hill versucht hat, die Benford-Verteilung zur Lösung praktischer Probleme nutzbar zu machen, ist ihr Bekanntheitsgrad gewachsen.(Quelle: »Wikipedia«)
H ÄUFIGKEITSVERTEILUNG DER A NFANGSZIFFERN VON Z AHLEN :
Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in
empirischen Datensätzen näherungsweise mit folgenden relativen Häufigkeiten p(d) auf:
p(d) = log10 1 +
1
= log10 d + 1 − log10 d.
d
In der Grafik unten (Quelle: »Wolfram Demonstrations Project«) werden die relativen
Häufigkeiten der Anfangsziffern 1 bis 9 in den Anzahlen der Telefonanschlüsse in allen
Ländern der Erde mit den nach dem Benfordschen Gesetz prognostizierten relativen HäuUniversität Bonn
Wintersemester 2009/2010
22
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
figkeiten verglichen.
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1.2
1
2
3
4
5
6
7
8
9
Diskrete Zufallsvariablen und ihre Verteilung
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
Definition.
i) Eine diskrete Zufallsvariable (ZV) ist eine Abbildung
X : Ω → S,
S abzählbar,
so dass für alle a ∈ S gilt:
X −1 (a) := {ω ∈ Ω | X(ω) = a} ∈ A.
(1.2.1)
Für X −1 (a) (das Urbild von a unter X) schreiben wir im folgenden {X = a}.
ii) Die Verteilung von X ist die Wahrscheinlichkeitsverteilung µX auf S mit Gewichten
(a ∈ S).
pX (a) := P [{X = a}],
Für P [{X = a}] schreiben wir im folgenden P [X = a].
Bemerkung.
a) In der Tat ist pX Massenfunktion einer Wahrscheinlichkeitsverteilung (siehe
Satz 1.2):
i) Für alle a ∈ S gilt:
pX (a) ≥ 0
ii) Da die Ereignisse {X = a} disjunkt sind, folgt:
X
X
[
pX (a) =
P [X = a] = P
{X = a} = P [Ω] = 1.
a∈S
a∈S
Einführung in die Wahrscheinlichkeitstheorie
a∈S
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
b) Für B ⊆ S gilt:
{X ∈ B} := {ω ∈ Ω|X(ω) ∈ B} =
|
{z
}
P [X ∈ B] =
X
X −1 (B)
P [X = a] =
a∈B
X
[
a∈B
{X = a} ∈ A,
| {z }
23
sowie
∈A
pX (a) = µX (B).
a∈B
Die Verteilung µX gibt also an, mit welchen Wahrscheinlichkeiten die Zufallsvariable X
Werte in bestimmten Mengen annimmt.
Beispiele (Zweimal würfeln). Sei Ω = {ω = (ω1 , ω2 ) | ωi ∈ {1, . . . , 6}} und sei P die Gleich-
verteilung.
a)
Sei Xi : Ω → S := {1, 2, 3, 4, 5, 6},
X(ω) := ωi ,
die Augenzahl des i-ten Wurfs.
Xi ist eine diskrete Zufallsvariable mit Verteilung µXi . Die Gewichte von µXi sind
pXi (a) = P [Xi = a] =
1
6
=
36
6
für alle a ∈ S,
d.h. Xi ist gleichverteilt.
b)
Sei Y : Ω → Se := {2, 3, . . . , 12}
Y (ω) := X1 (ω) + X2 (ω),
die Summe der Augenzahlen.
Die Gewichte der Verteilung von Y sind
pY (a) = P [Y = a] =
d.h. Y ist nicht mehr gleichverteilt!

1



 36
2
36



. . .
falls a ∈ {2, 12},
falls a ∈ {3, 11}, .
Allgemeiner:
Beispiel. Sei Ω = {ω1 , . . . , ωn } endlich, P die Gleichverteilung, X : Ω → S eine Zufallsvariable
und xi := X(ωi ). Dann ist
P [X = a] =
|{1 ≤ i ≤ n | xi = a}|
|{ω ∈ Ω | X(ω) = a}|
=
,
|Ω|
n
also ist µx die empirische Verteilung von x1 , . . . , xn .
Universität Bonn
Wintersemester 2009/2010
24
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Binomialverteilung
Beispiel (»Ziehen mit Zurücklegen«). Wir betrachten eine endliche Grundgesamtheit (Population, Zustandsraum) S, zum Beispiel Kugeln in einer Urne, Vögel im Wald, Einwohner in NRW.
Wir wollen nun die zufällige Entnahme von n Einzelstichproben mit Zurücklegen aus S beschreiben und setzen daher
Ω = S n = {ω = (x1 , . . . , xn ) | xi ∈ S}.
Wir nehmen an, daß alle kombinierten Stichproben gleich wahrscheinlich sind, d.h. P sei die
Gleichverteilung auf Ω.
R ELEVANTE Z UFALLSVARIABLEN UND E REIGNISSE :
• i-ter Stichprobenwert:
Xi (ω) = xi ,
P [Xi = a] =
|S|n−1
|S|n−1
1
=
=
,
n
|Ω|
|S|
|S|
für alle a ∈ S,
d.h. Xi ist gleichverteilt auf S.
Sei E ⊆ S eine bestimmte Merkmalsausprägung der Stichprobe, die wir im folgenden
als »Erfolg« bezeichnen (zum Beispiel schwarze Kugel, Beobachtung einer Amsel). Dann
können wir die Ereignisse
{Xi ∈ E},»Erfolg bei i-ter Stichprobe«,
betrachten. Es gilt:
P [Xi ∈ E] = µXi (E) =
|E|
.
|S|
Wir setzen
q :=
|E|
,
|S|
»Erfolgswahrscheinlichkeit«
• Häufigkeit von E / »Anzahl der Erfolge«:
Sei nun
N : Ω → {0, 1, 2, . . . , n},
N (ω) := |{1 ≤ i ≤ n | Xi (ω) ∈ E}|
die Anzahl der Einzelstichproben mit Merkmalsausprägung E.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
25
Lemma 1.4. Für k ∈ {0, 1, . . . , n} gilt:
n k
p (1 − p)n−k .
P [N = k] =
k
Beweis. Es gilt
n
|{ω ∈ Ω | N (ω) = k}| =
|E|k |S\E|n−k ,
k
wobei
n
=Anzahl der Möglichkeiten k Indizes aus {1, . . . , n} auszuwählen,
k
für die ein Erfolg eintritt,
|E|k =Anzahl der Möglichkeiten für jeden Erfolg,
|S\E|n−k =Anzahl der Möglichkeiten für jeden Mißerfolg.
Also gilt:
n
k
|E|k |S\E|n−k
P [N = k] =
=
|S|n
n k
p (1 − p)n−k .
=
k
k n−k
|E|
|S\E|
n
k
|S|
|S|
Definition. Sei n ∈ N und p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} mit
Massenfunktion
n k
pn,p (k) =
p (1 − p)n−k
k
heißt Binomialverteilung mit Parametern n und p (kurz: Bin(n, p)).
Bemerkung. Daß pn,p eine Massenfunktion einer Wahrscheinlichkeitsverteilung ist, folgt aus
Lemma 1.3!
Bemerkung. Ereignisse E1 , . . . , En heißen unabhängig, falls
P [Ei1 ∩ Ei2 ∩ . . . ∩ Eik ] = P [Ei1 ] · P [Ei2 ] · · · P [Eik ]
für alle k ≤ n und 1 ≤ i1 < i2 < . . . < ik ≤ n gilt.
Sind E1 , . . . , En unabhängig und P [Ei ] = p, dann ist
n k
P [»genau k der Ei treten ein«] =
p (1 − p)n−k ,
k
d.h. die Anzahl der Ereignisse, die eintreten, ist binomialverteilt. Der Beweis folgt weiter unten.
Universität Bonn
Wintersemester 2009/2010
26
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Poissonverteilung
Beispiel (Warteschlange). Angenommen, die Kunden in einer Warteschlange kommen unabhängig voneinander zu zufälligen (gleichverteilten) Zeitpunkten. Wie viele Kunden kommen in
einer Zeitspanne der Länge t0 an? Sei N die Anzahl dieser Kunden und t0 = 1. Wir unterteilen
das Intervall [0, 1]:
Wir machen die folgende Annahme (die natürlich in zu modellierenden Anwendungsproblemen
zu überprüfen ist):
»Wenn n sehr groß ist, dann kommt in einer Zeitspanne der Länge
1
n
fast immer
höchstens ein Kunde«.
Ei stehe für das Ereignis, daß ein Kunde im Zeitintervall
i−1
n
, ni ankommt (1 ≤ i ≤ n). Wir
nehmen außerdem an, daß die Wahrscheinlichkeit unabhängig von i und näherungsweise proportional zu
1
n
ist, also:
λ
,
λ ∈ (0, ∞).
n
Für das Ereignis, daß genau k Kunden im Zeitintervall [0, 1] ankommen, sollte dann gelten, dass
P [Ei ] ≈
P [N = k] ≈ P [»genau k der Ei treten ein«] ≈ pn, λ (k),
n
wobei pn, λ (k) das Gewicht von k unter der Binomialverteilung mit Parametern n und
n
λ
n
ist. Diese
Näherung sollte »für große n immer genauer werden«.
Satz 1.5 (Poissonapproximation der Binomialverteilung). Sei λ ∈ (0, ∞). Dann gilt:
lim pn, λ (k) =
n→∞
n
λk −λ
e ,
k!
k = 0, 1, 2, . . . .
Beweis. Es gilt:
n!
·
pn, λ (k) =
n
k!(n − k)!
n−k
k λ
λ
· 1−
n
n
n −k
λ
λ
λk n · (n − 1) · . . . · (n − k + 1)
· 1−
· 1−
·
=
k
k! |
n
n
{z
} | {zn } |
{z
}
→1
k
−→
λ −λ
e
k!
→e−λ
→1
für n → ∞.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
27
Definition. Die Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Massenfunktion
p(k) =
λk −λ
e ,
k!
k = 0, 1, 2, . . . ,
heißt Poissonverteilung mit Parameter λ.
Aufgrund des Satzes verwendet man die Poissonverteilung zur näherungsweisen Modellierung
der Häufigkeit seltener Ereignisse (zum Beispiel Tippfehler in einem Buch, Schadensfälle bei
Versicherung, Zusammenbrüche des T-Mobile-Netzes, . . . ) und damit zur »Approximation« von
Binomialverteilungen mit kleiner Erfolgswahrscheinlichkeit p.
Für häufigere Ereignisse (zum Beispiel wenn Erfolgswahrscheinlichkeit p unabhängig von n ist)
verwendet man hingegen besser eine Normalverteilung zur näherungsweisen Modellierung der
(geeignet reskalierten) relativen Häufigkeit
k
n
des Ereignisses für große n. Definition und Eigen-
schaften von Normalverteilungen werden wir später kennenlernen.
Die folgenden (mit »Maple« erstellten) Graphiken zeigen die Poisson- und Normalapproximation (Poisson schwarz, Normalverteilung rot) der Binomialverteilung (blau) für unterschiedliche
Parameterwerte:
n = 100, p = 0, 35
n = 100, p = 0, 02
Hypergeometrische Verteilung
Beispiel (Ziehen ohne Zurücklegen). Wir betrachten m Kugeln in einer Urne (Wähler, Fische
im See, . . . ), davon r rote und m − r schwarze. Gezogen wird eine zufällige Stichprobe von n
Universität Bonn
Wintersemester 2009/2010
28
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Kugeln, n ≤ min(r, m − r). Sind alle Stichproben gleich wahrscheinlich, dann ist ein geeignetes
Modell gegeben durch:
Ω = P({1, . . . , m}) = alle Teilmengen von {1, . . . , m} der Kardinalität n,
P = Gleichverteilung auf Ω.
Wir definieren eine Zufallsvariable N : Ω → {1, . . . , m} durch
N (ω) := Anzahl der roten Kugeln in ω.
Für das Ereignis, daß genau k rote Kugeln in der Stichprobe sind, gilt:
m−r
r
· n−k
|{ω ∈ Ω | N (ω) = k}|
k
=
P [N = k] =
,
(k = 0, 1, . . . , n).
m
|Ω|
n
Diese Wahrscheinlichkeitsverteilung wird hypergeometrische Verteilung mit Parametern m,
r und n genannt.
Bemerkung. Untersucht man die Asymptotik der hypergeometrischen Verteilung für m → ∞,
r → ∞, p =
r
m
fest und n fest, so gilt:
n k
p (1 − p)k ,
P [N = k] −→
k
d.h. die hypergeometrische Verteilung nähert sich der Binomialverteilung an. Eine anschauliche
Erklärung dafür ist:
Befinden sich sehr viele Kugeln in der Urne, dann ist der Unterschied zwischen Ziehen mit und
ohne Zurücklegen vernachlässigbar, da nur sehr selten dieselbe Kugel zweimal gezogen wird.
1.3
Simulation von Gleichverteilungen
Ein (Pseudo-) Zufallszahlengenerator ist ein Algorithmus, der eine deterministische Folge
von ganzen Zahlen x1 , x2 , x3 , . . .mit Werten zwischen 0 und einem Maximalwert m − 1 erzeugt,
welche durch eine vorgegebene Klasse statistischer Tests nicht von einer Folge von Stichpro-
ben unabhängiger, auf {0, 1, 2, . . . , m − 1} gleichverteilter Zufallsgrößen unterscheidbar ist. Ein
Zufallszahlengenerator erzeugt also nicht wirklich zufällige Zahlen. Die von »guten« Zufallszahlengeneratoren erzeugten Zahlen haben aber statistische Eigenschaften, die denen von echten
Zufallszahlen in vielerlei (aber nicht in jeder) Hinsicht sehr ähnlich sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
29
Konkret werden die Pseudozufallszahlen üblicherweise über eine deterministische Rekurrenzrelation vom Typ
xn+1 = f (xn−k+1 , xn−k+2 , . . . , xn ) ,
n = k, k + 1, k + 2, . . . ,
aus Saatwerten x1 , x2 , . . . , xk erzeugt. In vielen Fällen hängt die Funktion f nur von der letzten
erzeugten Zufallszahl xn ab. Wir betrachten einige Beispiele:
Lineare Kongruenzgeneratoren (LCG)
Bei linearen Kongruenzgeneratoren ist die Rekurrenzrelation vom Typ
xn+1 = (axn + c) mod m,
n = 0, 1, 2, . . . .
Hierbei sind a, c und m geeignet zu wählende positive ganze Zahlen, zum Beispiel:
ZX81-Generator :
m = 216 + 1, a = 75,
c = 0.
RANDU, IBM 360/370 : m = 231 ,
a = 65539,
c = 0.
m = 232 ,
a = 69069,
c = 1.
Marsaglia-Generator :
Langlands-Generator :
48
m=2 ,
a = 142412240584757, c = 11.
Um einen ersten Eindruck zu erhalten, wie die Qualität der erzeugten Pseudozufallszahlen von a,
c und m abhängt, implementieren wir die Generatoren mit »Mathematica«:
f [ x_ ] : = Mod[ a x + c , m]
Beispiel. Wir beginnen zur Demonstration mit dem Beispiel eines ganz schlechten LCG:
a = 11; c = 0; m = 63;
pseudorandomdata = NestList [ f , 1 , 300];
L i s t P l o t [ pseudorandomdata ]
Universität Bonn
Wintersemester 2009/2010
30
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
60
50
40
30
20
10
50
100
150
200
250
300
Die Folge von Zufallszahlen ist in diesem Fall periodisch mit einer Periode, die viel kleiner ist
als die maximal mögliche (63). Dies rechnet man auch leicht nach.
Periodizität mit Periode kleiner als m kann man leicht ausschließen. Es gilt nämlich:
Satz (Knuth). Die Periode eines LCG ist gleich m genau dann, wenn
i) c und m teilerfremd sind,
ii) jeder Primfaktor von m ein Teiler von a − 1 ist, und
iii) falls 4 ein Teiler von m ist, dann auch von a − 1.
Beweis. siehe D. Knuth: »The art of computer programming, Vol. 2.«
Beispiel (ZX 81-Generator). Hier ergibt sich ein besseres Bild, solange wir nur die Verteilung
der einzelnen Zufallszahlen betrachten:
a = 7 5 ; c = 0 ; m = 2^16 + 1 ;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
31
60 000
50 000
40 000
30 000
20 000
10 000
5000
10 000
15 000
20 000
25 000
30 000
Fassen wir jedoch Paare (xi , xi+1 ) von aufeinanderfolgenden Pseudozufallszahlen als Koordinaten eines zweidimensionalen Pseudozufallsvektors auf, und betrachten die empirische Verteilung
dieser Vektoren, so ergibt sich keine besonders gute Approximation einer zweidimensionalen
Gleichverteilung:
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ]
60 000
50 000
40 000
30 000
20 000
10 000
10 000
20 000
30 000
40 000
50 000
60 000
Beispiel (RANDU). Hier scheinen sowohl die einzelnen Pseudozufallszahlen xi als auch die
Vektoren (xi , xi+1 ) näherungsweise gleichverteilt zu sein:
a = 65539; c = 0; m = 2^31;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
Universität Bonn
Wintersemester 2009/2010
32
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
5000
10 000
15 000
20 000
25 000
30 000
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ]
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
5.0 ´ 10 8
1.0 ´ 10 9
1.5 ´ 10 9
2.0 ´ 10 9
Fassen wir aber jeweils drei aufeinanderfolgende Pseudozufallszahlen als Koordinaten eines Vektors
(xi , xi+1 , xi+2 ) im Z3 auf, dann ist die empirische Verteilung dieser Pseudozufallsvektoren keine
Gleichverteilung mehr, sondern konzentriert sich auf nur 15 zweidimensionalen Hyperebenen:
blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; L i s t P o i n t P l o t 3 D [ blocks3 ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
33
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
0
2.0 ´ 10
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
1.5 ´ 10 9
2.0 ´ 10 9
0
1.0 ´ 10 9
5.0 ´ 10 8
0
Beispiel (Marsaglia-Generator). Der von Marsaglia 1972 vorgeschlagene LCG besteht dagegen
alle obigen Tests (und einige weitere):
a = 60069; c = 1; m = 2^32;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10 9
5000
10 000
15 000
20 000
25 000
30 000
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ;
ListPlot [ blocks ]
Universität Bonn
Wintersemester 2009/2010
34
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10 9
1 ´ 10 9
2 ´ 10 9
3 ´ 10 9
4 ´ 10 9
blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ;
ListPointPlot3D [ blocks3 ]
4 ´ 10 93 ´ 10 9
2 ´ 10 9
1 ´ 10 9
0
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10
0
4 ´ 10 9
3 ´ 10
2 ´ 10
1 ´ 10
9
9
9
0
Dies bedeutet natürlich nicht, daß die vom Marsaglia-Generator erzeugte Folge eine für alle
Zwecke akzeptable Approximation einer Folge von unabhängigen Stichproben von der Gleichverteilung ist. Da die Folge in Wirklichkeit deterministisch ist, kann man einen Test konstruieren,
der sie von einer echten Zufallsfolge unterscheidet.
Shift-Register-Generatoren
Bei Shift-Register-Generatoren interpretiert man eine Zahl xn ∈ {0,1,. . . , 2k − 1 zunächst als
Binärzahl bzw. als Vektor aus {0, 1}k , und wendet dann eine gegebene Matrix T darauf an, um
xn+1 zu erhalten:
xn+1 = T xn ,
Einführung in die Wahrscheinlichkeitstheorie
n = 0, 1, 2, . . . .
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
35
Kombination von Zufallszahlengeneratoren
Zufallszahlengeneratoren lassen sich kombinieren, zum Beispiel indem man die von mehreren
Zufallszahlengeneratoren erzeugten Folgen von Pseudozufallszahlen aus {0,1,. . . ,m − 1} mo-
dulo m addiert. Auf diese Weise erhält man sehr leistungsfähige Zufallszahlengeneratoren, zum
Beispiel den Kiss-Generator von Marsaglia, der einen LCG und zwei Shift-Register-Generatoren
kombiniert, Periode 295 hat, und umfangreiche statistische Tests besteht.
Zufallszahlen aus [0,1)
Ein Zufallszahlengenerator kann natürlich nicht wirklich reelle Pseudozufallszahlen erzeugen,
die die Gleichverteilung auf dem Intervall [0, 1) simulieren, denn dazu würden unendlich vie-
le »zufällige« Nachkommastellen benötigt. Stattdessen werden üblicherweise (pseudo-)zufällige
Dezimalzahlen vom Typ
un =
xn
,
m
xn ∈ {0, 1, . . . , m − 1},
erzeugt, wobei m vorgegeben ist (zum Beispiel Darstellungsgenauigkeit des Computers), und xn
eine Folge ganzzahliger Pseudozufallszahlen aus {0, 1, . . . , m - 1} ist. In »Mathematica« kann
man mit
h
i
RandomReal spec, WorkingPrecision → k
pseudozufällige Dezimalzahlen mit einer beliebigen vorgegebenen Anzahl k von Nachkommastellen erzeugen.
Zufallspermutationen
Der folgende Algorithmus erzeugt eine (pseudo-)zufällige Permutation aus Sn :
Algorithmus 1.6 (RPERM).
r p e r m [ n_ ] : =
Module [ { x = Range [ n ] , k , a } , Beginn mit Liste 1,2,...,n
Do [
k = RandomInteger [{ i , n } ] ;
a = x[[ i ]]; x[[ i ]] = x[[k ]]; x[[k]] = a ;
x
, {i , n − 1}];
(Vertausche x[[i]] und x[[k]])
(Schleife, i läuft von 1 bis n − 1)
(Ausgabe von x) ]
Universität Bonn
Wintersemester 2009/2010
36
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
rperm [ 1 7 ]
{ 1 2 , 5 , 1 3 , 8 , 1 7 , 9 , 1 0 , 6 , 1 , 7 , 1 6 , 1 5 , 1 4 , 4 , 2 , 3 , 11}
Ü BUNG :
Sei Ωn = {1, 2, . . . , n} × {2, 3, . . . , n} × · · · × {n − 1, n}.
a) Zeigen Sie, daß die Abbildung X(ω) = τn−1,ωn−1 ◦ · · · ◦ τ2,ω2 ◦ τ1,ω1 eine Bijektion von Ωn
nach Sn ist (τi,j bezeichnet die Transposition von i und j).
b) Folgern Sie, daß der Algorithmus oben tatsächlich eine Stichprobe einer gleichverteilten
Zufallspermutation aus Sn simuliert.
1.4
Erwartungswert
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, S ⊆ R abzählbar und X : Ω → S eine Zufallsvaria-
ble auf (Ω, A, P ).
Definition. Der Erwartungswert von X bzgl. P ist definiert als
E[X] :=
X
a∈S
a · P [X = a] =
X
a∈S
a · pX (a),
sofern die Summe auf der rechten Seite wohldefiniert ist (d.h. unabhängig von der Abzählung von
S).
Bemerkung.
a) Falls X(ω) ≥ 0 für alle ω ∈ Ω gilt, sind alle Summanden der Reihe nichtne-
gativ und der Erwartungswert E[X] ∈ [0, ∞] wohldefiniert.
b) Falls die Reihe absolut konvergiert, d.h. falls
Erwartungswert E[X] ∈ R wohldefiniert.
P
a∈S
|a| · P [X = a] endlich ist, ist der
E[X] kann als der Prognosewert oder (gewichteter) Mittelwert für X(ω) interpretiert werden.
Beispiel (Indikatorfunktion eines Ereignisses A ∈ A). Sei

1 falls ω ∈ A,
X(ω) = IA (ω) :=
0 falls ω ∈ AC .
Dann ist der Erwartungswert
E[X] = 1 · P [X = 1] + 0 · P [X = 0] = P [A].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
37
Ein Beispiel dafür ist ein elementarer Versicherungskontrakt mit Leistung

c falls ω ∈ A,
»Schadensfall«,
Y =
0 sonst.
Dann gilt:
Y = c · IA
E[Y ] = c · P [A].
und
Beispiel (Poissonverteilung). Sei X Poisson-verteilt mit Parameter λ. Dann ist der Erwartungswert
∞
∞
X
X
λk−1 −λ
λk −λ
λk −λ
e =λ·
e = λ.
E[X] =
k · P [X = k] =
k· e =λ·
k!
(k − 1)!
(k)!
k=1
k=0
k=0
k=0
∞
X
∞
X
Wir können daher den Parameter λ als Erwartungswert oder die mittlere Häufigkeit des Ereignisses interpretieren.
Transformationssatz
Sei nun S eine beliebige abzählbare Menge, g : S → R eine Funktion und X : Ω → S eine
Zufallsvariable. Wir definieren
g(X) : Ω → R,
ω 7→ g(X(ω)).
g(X) ist eine reellwertige Zufallsvariable.
Satz 1.7 (Transformationssatz). Es gilt
E[g(X)] =
X
a∈S
g(a) · P [X = a],
falls die Summe wohldefiniert ist (zum Beispiel falls g nichtnegativ ist oder die Summe absolut
konvergiert).
Beweis. Es gilt mit Verwendung der σ-Additivität
X
X
E[g(X)] =
b · P [g(X) = b] =
b·P
b∈g(S)
=
X
b∈g(S)
=
X
b·
X
X
a∈S
Universität Bonn
{X = a}
a∈g −1 (b)
P [X = a]
a∈g −1 (b)
X
b∈g(S) a∈g −1 (b)
=
b∈g(S)
[
g(a) · P [X = a]
g(a) · P [X = a].
Wintersemester 2009/2010
38
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Bemerkung.
a) Insbesondere gilt:
E[|X|] =
X
a∈S
|a| · P [X = a].
Ist E[|X|] endlich, dann konvergiert E[X] =
b) Ist Ω abzählbar, dann folgt für X : Ω → R:
E[X] = E[X ◦ idΩ ] =
X
ω∈Ω
P
a · P [X = a] absolut.
X(ω) · P [{ω}] =
X
X(ω) p(ω),
ω∈Ω
wobei idΩ die identische Abbildung auf Ω bezeichnet. Der Erwartungswert ist das gewichtete Mittel. Ist P die Gleichverteilung auf Ω, folgt weiter:
E[X] =
1 X
X(ω).
|Ω| ω∈Ω
Der Erwartungswert ist in diesem Spezialfall das arithmetische Mittel .
Beispiel (Sankt-Petersburg-Paradoxon). Wir betrachten ein Glücksspiel mit fairen Münzwürfen
X1 , X2 , . . ., wobei sich der Gewinn in jeder Runde verdoppelt bis zum ersten Mal »Kopf« fällt,
dann ist das Spiel beendet.Wie hoch wäre eine faire Teilnahmegebühr für dieses Spiel?
Der Gewinn ist
G(ω) = 2T (ω) ,
mit
T (ω) := min{n ∈ N | Xn (ω) = 1},
der Wartezeit auf »Kopf«.
Für den erwarteten Gewinn ergibt sich
E[G] =
∞
X
k=1
= ∞.
k
2 · P [T = k] =
∞
X
k=1
k
2 · P [X1 = · · · = Xk−1 = 1, Xk = 0] =
∞
X
2k 2−k
k=1
Das Spiel sollte also auf den ersten Blick bei beliebig hoher Teilnahmegebühr attraktiv sein –
dennoch wäre wohl kaum jemand bereit, einen sehr hohen Einsatz zu zahlen.
Eine angemessenere Beschreibung – vom Blickwinkel des Spielers aus betrachtet – erhält man,
wenn man eine (üblicherweise als monoton wachsend und konkav vorausgesetzte) Nutzenfunktion u(x) einführt, die den Nutzen beschreibt, den der Spieler vom Kapital x hat. Für kleine x
könnte etwa u(x) = x gelten, aber für große x wäre plausibler u(x) < x. Dann ist c ein fairer
Einsatz aus Sicht des Spielers, wenn u(c) = E[u(G)] gilt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
39
Linearität und Monotonie des Erwartungswertes
Satz 1.8 (Linearität des Erwartungswerts). Seien X : Ω → SX ⊆ R und Y : Ω → SY ⊆ R
diskrete reellwertige Zufallsvariablen auf (Ω, A, P ), für die E[|X|] und E[|Y |] endlich sind,
dann gilt:
für alle λ, µ ∈ R.
E[λ X + µ Y ] = λ E[X] + µ E[Y ]
Beweis. Wir definieren g : SX × SY → R,
(x, y) 7→ λ x + µ y. Dann ist g(X, Y ) = λ X + µ Y
eine Zufallsvariable mit Werten in SX × SY . Mit dem Transformationssatz folgt:
E[λ X + µ Y ] = E[g(X, Y )]
X X
=
g(a, b) P [X = a, Y = b]
(1.4.1)
a∈SX b∈SY
=
X X
a∈SX b∈SY
=λ
X
a∈SX
=λ
X
a
(λ a + µ b) P [X = a, Y = b]
X
P [X = a, Y = b] + µ
b∈SY
a P [X = a] + µ
a∈SX
X
X
b∈SY
b
X
P [X = a, Y = b]
a∈SX
b P [Y = b]
b∈SY
= λ E[X] + µ E[Y ].
Hierbei konvergiert die Reihe in (1.4.1) absolut, da
X X
a∈SX b∈SY
|λ a + µ b| P [X = a, Y = b] ≤ |λ|
X
a∈SX
|a| P [X = a] + |µ|
X
b∈SY
|b| P [Y = b]
= |λ| E[|X|] + |µ| E[|Y |]
nach Voraussetzung endlich ist.
Korollar (Monotonie des Erwartungswerts). Seien die Voraussetzungen von Satz 1.8 erfüllt. Sei
zusätzlich X(ω) ≤ Y (ω) für alle ω ∈ Ω, dann gilt:
E[X] ≤ E[Y ].
Beweis. Nach Voraussetzung gilt (Y − X)(ω) ≥ 0 für alle ω ∈ Ω, weshalb der Erwartungswert
E[Y − X] nichtnegativ ist. Aufgrund der Linearität des Erwartungswerts folgt:
0 ≤ E[Y − X] = E[Y ] − E[X].
Universität Bonn
Wintersemester 2009/2010
40
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Beispiele (Unabhängige 0-1-Experimente). Seien A1 , A2 , . . . , An ∈ A unabhängige Ereignisse
mit Wahrscheinlichkeit p, und sei
Xi = IAi ,
die Indikatorfunktion des Ereignisses Ai , i = 0, . . . , n.
a) Die Zufallsvariablen Xi sind Bernoulli-verteilt mit Parameter p, d.h.

1 mit Wahrscheinlichkeit p,
Xi =
0 mit Wahrscheinlichkeit 1 − p.
Also gilt:
E[Xi ] = E[IAi ] = P [Ai ] = p,
analog zu Beispiel 1.4.
b) Die Anzahl
Sn = X1 + X2 + · · · + Xn
der Ereignisse, die eintreten, ist binomialverteilt mit Parametern n und p (siehe Übung),
d.h.
n k
p (1 − p)n−k .
P [Sn = k] =
k
Den Erwartungswert kann man daher wie folgt berechnen:
n
X
n k
E[Sn ] =
k · P [Sn = k] =
k
p (1 − p)n−k
k
k=0
k=0
n
X
= . . . = n p.
Einfacher benutzt man aber die Linearität des Erwartungswerts, und erhält
#
" n
n
X
X
Xi =
E[Sn ] = E
E[Xi ] = n p,
i=1
i=1
sogar ohne Verwendung der Unabhängigkeit!
Beispiel (Abhängige 0-1-Experimente). Wir betrachten eine Population aus m Objekten, davon
r rote, aus der eine Zufallsstichprobe aus n Objekten ohne Zurücklegen entnommen wird, n ≤
min(r, m − r). Sei Ai das Ereignis, daß das i-te Objekt in der Stichprobe rot ist, und Xi = IAi .
Die Anzahl
Sn = X1 + · · · + Xn
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
41
der roten Objekte in der Zufallsstichprobe ist dann hypergeometrisch verteilt mit Parametern m,
r und n. Als Erwartungswert dieser Verteilung erhalten wir analog zum letzten Beispiel:
E[Sn ] =
n
X
E[Xi ] =
i=1
n
X
P [Ai ] = n
i=1
r
.
m
Beispiel (Inversionen von Zufallspermutationen). Seien Ω = Sn die Menge aller Permutationen
ω : {1, . . . , n} → {1, . . . , n}, P die Gleichverteilung auf Ω, und
N (ω) = |{(i, j) | i < j und ω(i) > ω(j)}|,
die Anzahl der Inversionen einer Permutation ω ∈ Ω. Dann gilt
N=
X
IAi,j ,
wobei
1≤i<j≤n
Ai,j = {ω ∈ Sn | ω(i) > ω(j)}
das Ereignis ist, daß eine Inversion von i und j auftritt. Es folgt:
E[N ] =
X
E[IAi,j ] =
i<j
A NWENDUNG :
X
i<j
P [{ω ∈ Sn | ω(i) > ω(j)}] =
X1
i<j
1
=
2
2
n (n − 1)
n
=
.
2
4
Beim Sortieralgorithmus »Insertion Sort« wird der Wert ω(i) einer Liste
{ω(1), ω(2), . . . , ω(n)} beim Einfügen von ω(j) genau dann verschoben, wenn ω(j) < ω(i)
gilt. Ist die Anfangsanordnung eine Zufallspermutation der korrekten Anordnung, dann ist die
mittlere Anzahl der Verschiebungen, die der Algorithmus vornimmt, also gleich
n (n−1)
.
4
Satz 1.9 (Einschluss-/Ausschlussprinzip). Für n ∈ N und Ereignisse A1 , . . . , An ∈ A gilt:
P [A1 ∪ A2 ∪ . . . ∪ An ] =
Universität Bonn
n
X
k=1
(−1)k−1
X
1≤i1 <...<ik ≤n
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
Wintersemester 2009/2010
42
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Beweis. Wir betrachten zunächst das Gegenereignis, und drücken die Wahrscheinlichkeiten als
Erwartungswerte von Indikatorfunktionen aus. Unter Ausnutzung der Linearität des Erwartungswerts erhalten wir:
C
P (A1 ∪ · · · ∪ An )C = P AC
C
1 ∩ · · · ∩ An = E IAC
1 ∩···∩An
n
n
Y
Y
=E
IACi = E
(1 − IAi )
i=1
=
=
=
n
X
k=0
n
X
k=0
n
X
(−1)k
i=1
X
1≤i1 <...<ik ≤n
(−1)k
X
1≤i1 <...<ik ≤n
(−1)k
k=0
X
1≤i1 <...<ik ≤n
E IAi1 · · · · · IAik
E IAi1 ∩···∩Aik
P Ai1 ∩ · · · Aik .
Es folgt:
P [A1 ∪ · · · ∪ An ] = 1 − P (A1 ∪ · · · ∪ An )C
n
X
X
=
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
(−1)k−1
k=1
Einführung in die Wahrscheinlichkeitstheorie
1≤i1 <...<ik ≤n
Prof. Andreas Eberle
Kapitel 2
Bedingte Wahrscheinlichkeiten und
Unabhängigkeit
2.1 Bedingte Wahrscheinlichkeiten
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und A, B ∈ A Ereignisse. Was ist die Wahrscheinlichkeit dafür, daß A eintritt, wenn wir schon wissen, daß B eintritt?
ω∈B
Relevante Fälle:
Davon günstige Fälle: ω ∈ A ∩ B
Definition. Sei P [B] 6= 0. Dann heißt
P [A|B] :=
P [A ∩ B]
P [B]
die bedingte Wahrscheinlichkeit von A gegeben B.
Bemerkung.
a) P [ • |B] : A 7→ P [A|B] ist eine Wahrscheinlichkeitsverteilung auf (Ω, A),
die bedingte Verteilung gegeben B . Der Erwartungswert
E[X|B] =
X
a∈S
a · P [X = a|B]
einer diskreten Zufallsvariable X : Ω → S bzgl. der bedingten Verteilung heißt bedingte
Erwartung von X gegeben B.
b) Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann gilt:
P [A|B] =
|A ∩ B|
|A ∩ B|/|Ω|
=
|B|/|Ω|
|B|
43
für alle A, B ⊆ Ω.
44
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beispiele.
a) Wir betrachten eine Familie mit 2 Kindern, und stellen die Frage nach dem
Geschlecht der Kinder. Sei daher
Ω = {JJ, JM, M J, M M }.
Angenommen, alle Fälle wären gleich wahrscheinlich. Dann gilt:
P [»beide Mädchen« | »eines Mädchen«] =
|{M M }|
1
= ,
|{M M, JM, M J}|
3
P [»beide Mädchen« | »das erste ist Mädchen«] =
1
|{M M }|
= .
|{M M, M J}|
2
In Wirklichkeit sind die Kombinationen JJ und M M wahrscheinlicher.
b) Bei 20 fairen Münzwürfen fällt 15-mal »Zahl«. Wie groß ist die Wahrscheinlichkeit, daß
die ersten 5 Würfe »Zahl« ergeben haben? Sei
Ω = {ω = (x1 , . . . x20 ) | xi ∈ {0, 1}},
Xi (ω) = xi ,
und
der Ausgang des i-ten Wurfs.
Es gilt:
P X1 = . . . = X5 = 1 20
X
i=1
Xi = 15 =
=
Dagegen ist P [X1 = . . . = X5 = 1] =
1
.
32
20
P
P X1 = . . . = X5 = 1 und Xi = 10
i=6
−5
2
−15
·2
2−20 20
15
P
15
20
P
i=1
10 =
Xi = 15
1
15 · 14 · · · · · 11
≈ .
20 · 19 · · · · · 16
5
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung
Sei Ω =
I.
S
Hi eine disjunkte Zerlegung von Ω in abzählbar viele Fälle (»Hypothesen«) Hi , i ∈
Satz 2.1 (Formel von der totalen Wahrscheinlichkeit). Für alle A ∈ A gilt:
P [A] =
X
i∈I
P [Hi ]6=0
Einführung in die Wahrscheinlichkeitstheorie
P [A|Hi ] · P [Hi ]
Prof. Andreas Eberle
2.1. BEDINGTE WAHRSCHEINLICHKEITEN
Beweis. Es ist A = A ∩ (
S
Hi ) =
i∈I
Additivität:
P [A] =
X
i∈I
S
i∈I
P [A ∩ Hi ] =
45
(A ∩ Hi ) eine disjunkte Vereinigung, also gilt nach σ-
X
i∈I
X
P [A ∩ H ] =
| {z i}
i∈I,
P [Hi ]6=0
=0, falls P [Hi ]=0
P [A|Hi ] · P [Hi ].
Beispiel. Urne 1 enthalte 2 rote und 3 schwarze Kugeln, Urne 2 enthalte 3 rote und 4 schwarze
Kugeln. Wir legen eine Kugel K1 von Urne 1 in Urne 2 und ziehen eine Kugel K2 aus Urne 2.
Mit welcher Wahrscheinlichkeit ist K2 rot?
P [K2 rot] = P [K2 rot | K1 rot] · P [K1 rot] + P [K2 rot | K1 schwarz] · P [K1 schwarz]
4 2 3 3
17
= · + · = .
8 5 8 5
40
Beispiel (Simpson-Paradoxon). Bewerbungen in Berkeley:
B EWERBUNGEN IN B ERKELEY
Statistik 1:
Männer
2083
Empirische
Verteilung:
P [A|M ]
angenommen (A)
996
Frauen
angenommen (A)
1067
≈ 0, 48
349
P [A|F ] ≈
0, 33
G ENAUERE A NALYSE DURCH U NTERTEILUNG IN 4 FACHBEREICHE
Statistik 2:
Männer
angenommen (A)
Frauen
angenommen (A)
Bereich 1
825
511
62%
108
89
82%
Bereich 2
560
353
63%
25
17
68%
Bereich 3
325
110
34%
593
219
37%
Bereich 4
373
22
6%
341
24
7%
Sei PM [A] := P [A|M ] die empirische Verteilung unter Männern und PF [A] := P [A|F ] die
empirische Verteilung unter Frauen, angenommen zu werden. Die Aufgliederung nach Fachbereichen ergibt folgende Zerlegung in Hypothesen:
PM [A] =
4
X
i=1
PM [A|Hi ] PM [Hi ],
PF [A] =
4
X
PF [A|Hi ] PF [Hi ].
i=1
Im Beispiel ist PF [A|Hi ] > PM [A|Hi ] für alle i, aber dennoch PF [A] < PM [A]. Die erste Statistik vermischt verschiedene Populationen und legt deshalb eventuell eine falsche Schlussfolgerung
nahe.
Universität Bonn
Wintersemester 2009/2010
46
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Bayessche Regel
Wie wahrscheinlich sind die Hypothesen Hi ? Ohne zusätzliche Information ist P [Hi ] die Wahrscheinlichkeit von Hi . In der Bayesschen Statistik interpretiert man P [Hi ] als unsere subjektive
Einschätzung (aufgrund von vorhandenem oder nicht vorhandenem Vorwissen) über die vorliegende Situation (»a priori degree of belief«).
Angenommen, wir wissen nun zusätzlich, daß ein Ereignis A ∈ A mit P [A] 6= 0 eintritt, und wir
kennen die bedingte Wahrscheinlichkeit (»likelihood«) P [A|Hi ] für das Eintreten von A unter
der Hypothese Hi für jedes i ∈ I mit P [Hi ] 6= 0. Wie sieht dann unsere neue Einschätzung der
Wahrscheinlichkeiten der Hi (»a posteriori degree of belief«) aus?
Korollar (Bayessche Regel). Für A ∈ A mit P [A] 6= 0 gilt:
P [Hi |A] =
P [A|Hi ] · P [Hi ]
P
P [A|Hj ] · P [Hj ]
für alle i ∈ I mit P [Hi ] 6= 0, d.h.
j∈I
P [Hj ]6=0
P [Hi |A] = c · P [Hi ] · P [A|Hi ],
wobei c eine von i unabhängige Konstante ist.
Beweis. Es gilt:
P [Hi |A] =
P [A ∩ Hi ]
=
P [A]
P [A|Hi ] · P [Hi ]
P
.
P [A|Hj ] · P [Hj ]
j∈I
P [Hj ]6=0
Beispiel. Von 10.000 Personen eines Alters habe einer die Krankheit K. Ein Test sei positiv (+)
bei 96% der Kranken und 0,1% der Gesunden.
=
1
.
10000
P [K C ] =
P [+|K] =
0, 96.
P [+|K C ] =
P [K]
A priori:
Likelihood:
9999
.
10000
0, 001.
A posteriori:
P [+|K] · P [K]
P [+|K] · P [K] + P [+|K C ] · P [K C ]
0, 96 · 10−4
1
=
≈ .
−4
−3
0, 96 · 10 + 10 · 0, 9999
11
P [K|+] =
Daraus folgt insbesondere: P [K C |+] ≈
ausgehen, daß
10
11
10
,
11
d.h. ohne zusätzliche Informationen muss man davon
der positiv getesteten Personen in Wirklichkeit gesund sind!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
47
2.2 Mehrstufige diskrete Modelle
Wir betrachten ein n-stufiges Zufallsexperiment. Sind Ω1 , . . . , Ωn abzählbare Stichprobenräume
der Teilexperimente, dann können wir
Ω = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) | ωi ∈ Ωi }
als Stichprobenraum des Gesamtexperiments auffassen und setzen A = P(Ω). Für ω ∈ Ω und
k = 1, . . . , n sei
Xk (ω) = ωk ,
der Ausgang des k-ten Teilexperiments.
Angenommen, wir kennen
P [X1 = x1 ] = p1 (x1 ),
für alle x1 ∈ Ω1 ,
(2.2.1)
die Verteilung (Massenfunktion) von X1 , sowie
P [Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ] = pk (xk | x1 , . . . , xk−1 ),
(2.2.2)
die bedingte Verteilung von Xk gegeben X1 , . . . , Xk−1 für k = 2, . . . n, xi ∈ Ωi mit P [X1 =
x1 , . . . , Xk−1 = xk−1 ] 6= 0.
Wie sieht die gesamte Wahrscheinlichkeitsverteilung P auf Ω aus?
Satz 2.2. Seien p1 und pk ( • | x1 , . . . , xk−1 ) für jedes k = 2, . . . , n und x1 ∈ Ω1 , . . . , xk−1 ∈
Ωk−1 die Massenfunktion einer Wahrscheinlichkeitsverteilung auf Ωk . Dann existiert genau eine
Wahrscheinlichkeitsverteilung P auf (Ω, A) mit (2.2.1) und (2.2.2). Diese ist bestimmt durch die
Massenfunktion
p(x1 , . . . , xn ) = p1 (x1 ) p2 (x2 | x1 ) p3 (x3 | x1 , x2 ) · · · pn (xn | x1 , . . . , xn−1 ).
Beweis.
• E INDEUTIGKEIT:
Wir behaupten, dass für eine Verteilung P mit (2.2.1) und (2.2.2) gilt:
P [X1 = x1 , . . . , Xk = xk ] = p1 (x1 )·p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ),
Universität Bonn
k = 1, . . . , n.
Wintersemester 2009/2010
48
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Der Induktionsanfang folgt aus Bedingung (2.2.1). Sei die Induktionsbehauptung für k − 1
wahr, dann folgt nach Induktionsannahme und (2.2.2):
P [X1 = x1 , . . . , Xk = xk ] =P [X1 = x1 , . . . , Xk−1 = xk−1 ]
· P [X1 = x1 , . . . , Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ]
=p1 (x1 ) · p2 (x2 | x1 ) · · · pk−1 (xk−1 | x1 , . . . , xk−2 )
· pk (xk | x1 , . . . , xk−1 ),
falls P [X1 = x1 , . . . , Xk−1 = xk−1 ] 6= 0. Andernfalls verschwinden beide Seiten und die
Behauptung folgt. Für k = n erhalten wir als Massenfunktion von P :
p(x1 , . . . , xn ) = P [X1 = x1 , . . . , Xn = xn ] = p1 (x1 ) · · · pn (xn | x1 , . . . , xn−1 ).
• E XISTENZ :
p ist Massenfunktion einer Wahrscheinlichkeitsverteilung P auf Ω1 × · · · × Ωn , denn:
X
x1 ∈Ω1
...
X
p(x1 , . . . , xn ) =
xn ∈Ωn
X
p1 (x1 )
x1 ∈Ω1
X
x2 ∈Ω2
p2 (x2 | x1 ) . . .
= 1.
X
xn ∈Ωn
pn (xn | x1 , . . . , xn )
|
{z
=1
}
Für P gilt:
P [X1 = x1 , . . . Xk = xk ] =
X
...
xk+1 ∈Ωk+1
X
p(x1 , . . . , xn )
xn ∈Ωn
= p1 (x1 ) p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ),
k = 1, . . . , n.
Damit folgen (2.2.1) und (2.2.2).
Beispiel. Wie groß ist die Wahrscheinlichkeit, daß beim Skat jeder Spieler genau einen der vier
Buben erhält? Sei
Ω = {(ω1 , ω2 , ω3 ) | ωi ∈ {0, 1, 2, 3, 4}},
Xi (ω) = ωi = Anzahl der Buben von Spieler i.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
49
p3 (a|aa)
p2 (a|a)
aa
p3 (b|aa)
p3 (a|ab)
a
p3 (b|ab)
p3 (a|ba)
p2 (a|b)
p1 (b)
aba
abb
baa
ba
p3 (b|ba)
p3 (a|bb)
b
bab
bba
bb
p2 (b|b)
p3 (b|bb)
p3 (a|ca)
p1 (c)
aab
ab
p2 (b|a)
p1 (a)
aaa
p2 (a|c)
bbb
caa
ca
p3 (b|ca)
p3 (a|cb)
c
cab
cba
cb
p2 (b|c)
p3 (b|cb)
cbb
Abbildung 2.1: Baumdarstellung der Fallunterscheidungen
Es gilt:
p1 (x1 ) =
p2 (x2 | x1 ) =
Damit folgt:
4
x1
28
10−x1
32
10
4−x1
x2
,
18+x1
10−x2
22
10
hypergeometrische Verteilung,
 4−x −x 18+x +x
1
2
1
2

10−x3 )
 ( x3 )(
12
(10)
p3 (x3 | x1 , x2 ) =

0
falls 2 ≤ x1 + x2 + x3 ≤ 4,
sonst.
p(1, 1, 1) = p1 (1) p2 (1 | 1) p3 (1 | 1, 1) ≈ 5, 56%.
Im folgenden betrachten wir zwei fundamentale Klassen von mehrstufigen Modellen, Produktmodelle und Markov-Ketten.
Universität Bonn
Wintersemester 2009/2010
50
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Produktmodelle
Angenommen, der Ausgang des i-ten Experiments hängt nicht von x1 , . . . , xi−1 ab. Dann sollte
gelten:
pi (xi | x1 , . . . , xi−1 ) = pi (xi )
mit einer von x1 , . . . , xi−1 unabhängigen Massenfunktion pi einer Wahrscheinlichkeitsverteilung
Pi auf Ωi . Die Wahrscheinlichkeitsverteilung P auf Ω hat dann die Massenfunktion
p(x1 , . . . , xn ) =
n
Y
x ∈ Ω.
pi (xi ),
i=1
(2.2.3)
Definition. Die Wahrscheinlichkeitsverteilung P auf Ω = Ω1 × . . . × Ωn mit Massenfunktion
(2.2.3) heißt Produkt von P1 , . . . , Pn und wird mit P1 ⊗ . . . ⊗ Pn notiert.
Beispiel (n-dimensionale Bernoulli-Verteilung). Wir betrachten n unabhängige 0-1-Experimente
mit Erfolgswahrscheinlichkeit p:
Ω1 = . . . = Ωn = {0, 1},
Sei k =
Pn
i=1
pi (0) = 1 − p,
pi (1) = p,
i = 1, . . . , n.
xi die Anzahl der Einsen. Dann ist
p(x1 , . . . , xn ) =
n
Y
i=1
pi (xi ) = pk (1 − p)n−k
die n-dimensionale Bernoulli-Verteilung.
Bemerkung. Sind die Mengen Ωi , i = 1, . . . , n endlich, und ist Pi die Gleichverteilung auf Ωi ,
dann ist P1 ⊗ . . . ⊗ Pn die Gleichverteilung auf Ω1 × . . . × Ωn .
Die Multiplikativität im Produktmodell gilt nicht nur für die Massenfunktion, sondern allgemeiner für die Wahrscheinlichkeiten, daß in den Teilexperimenten bestimmte Ereignisse A1 , . . . , An
eintreten:
Satz 2.3. Im Produktmodell gilt für beliebige Ereignisse Ai ⊆ Ωi , i = 1, . . . , n:
P [X1 ∈ A1 , . . . , Xn ∈ An ] =
||
P [A1 × . . . × An ]
n
Y
i=1
||
n
Y
P [Xi ∈ Ai ]
(2.2.4)
Pi [Ai ]
i=1
(d.h. X1 , . . . , Xn sind unabhängige Zufallsvariablen, siehe nächsten Abschnitt).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
51
Beweis. Es gilt:
P [X1 ∈ A1 , . . . , Xn ∈ An ] = P [(X1 , . . . , Xn ) ∈ A1 × · · · × An ] = P [A1 × · · · × An ]
n
X
X
X Y
=
p(x) =
...
pi (xi )
=
x∈A1 ×···×An
n X
Y
pi (xi ) =
i=1 xi ∈Ai
x1 ∈A1
n
Y
xn ∈An i=1
Pi [Ai ].
i=1
Insbesondere gilt:
P [Xi ∈ Ai ] = P [X1 ∈ Ω, . . . , Xi−1 ∈ Ω, Xi ∈ Ai , Xi+1 ∈ Ω, . . . , Xn ∈ Ω] = Pi [Ai ].
Markov-Ketten
Zur Modellierung einer zufälligen zeitlichen Entwicklung mit abzählbarem Zustandsraum S betrachten wir den Stichprobenraum
Ω = S n+1 = {(x0 , x1 , . . . , xn ) | xi ∈ S}.
Oft ist es naheliegend anzunehmen, daß die Weiterentwicklung des Systems nur vom gegenwärtigen Zustand, aber nicht vom vorherigen Verlauf abhängt (»kein Gedächtnis«), d.h. es sollte
gelten:
pk (xk | x0 , . . . , xk−1 ) = pk (xk−1 , xk ) ,
|
{z
}
(2.2.5)
»Bewegungsgesetz«
wobei pk : S × S → [0, 1] folgende Bedingungen erfüllt:
i) pk (x, y) ≥ 0
ii)
P
y∈S
für alle x, y ∈ S
pk (x, y) = 1
für alle x ∈ S
d.h. pk (x, •) ist für jedes x ∈ S die Massenfunktion einer Wahrscheinlichkeitsverteilung auf S.
Definition. Eine Matrix pk (x, y) (x, y ∈ S) mit i) und ii) heißt stochastische Matrix (oder
stochastischer Kern) auf S.
Im Mehrstufenmodell folgt aus Gleichung (2.2.5):
p(x0 , x1 , . . . , xn ) =
p0 (x0 )
| {z }
p1 (x0 , x1 ) p2 (x1 , x2 ) · · · pn (xn−1 , xn ),
für x0 , . . . , xn ∈ S.
»Startverteilung«
Den Fall, in dem der Übergangsmechanismus pk (x, y) = p(x, y) unabhängig von k ist, nennt
man zeitlich homogen.
Universität Bonn
Wintersemester 2009/2010
52
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beispiele.
a) P RODUKTMODELL (siehe oben):
pk (x, y) = pk (y) ist unabhängig von x.
b) A BHÄNGIGE M ÜNZWÜRFE:
1 1
ε∈ − , .
2 2
S = {0, 1},
p=
1
2
1
2
+ε
−ε
1
2
1
2
−ε
+ε
!
.
c) S ELBSTBEFRUCHTUNG VON P FLANZEN:


1 0 0



p =  41 12 41 

0 0 1
d) R ANDOM WALK AUF S = Zd , (d ∈ N):
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
p(x, y) =

1
2d
0
53
falls |x − y| = 1,
sonst.
e) U RNENMODELL VON P. UND T. E HRENFEST (Austausch von Gasmolekülen in zwei Behältern):
Es seien N Kugeln auf zwei Urnen verteilt. Zu jedem Zeitpunkt t ∈ N wechselt eine
zufällig ausgewählte Kugel die Urne.
M AKROSKOPISCHES M ODELL :
S = {0, 1, 2, . . . , n}.
x ∈ S beschreibt die Anzahl Kugeln in der ersten Urne.

x

falls y = x − 1,

n

p(x, y) = n−x
falls y = x + 1,
n



0
sonst.
M IKROSKOPISCHES M ODELL :
S = {0, 1}n = {(σ1 , . . . , σn ) | σi ∈ {0, 1}}.
Es ist σi = 1 genau dann, wenn sich die i-te Kugel in Urne 1 befindet.

 1 falls Pn |σi − σei | = 1,
i=1
p(σ, σ̃) = N
0 sonst.
Die resultierende Markov-Kette ist ein Random Walk auf dem Hyperwürfel {0, 1}n , d.h.
sie springt in jedem Schritt von einer Ecke des Hyperwürfels zu einer zufällig ausgewählten
benachbarten Ecke.
Universität Bonn
Wintersemester 2009/2010
54
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Berechnung von Wahrscheinlichkeiten
Satz 2.4 (Markov-Eigenschaft). Für alle 0 ≤ k < l ≤ n und x0 , . . . , xl ∈ S mit P [X0 =
x0 , . . . , Xk = xk ] 6= 0 gilt:
P [Xl = xl | X0 = x0 , . . . , Xk = xk ] = P [Xl = xl | Xk = xk ]
= (pk+1 pk+2 · · · pl )(xk , xl ),
wobei
(p q)(x, y) :=
X
p(x, z) q(z, y)
z∈S
das Produkt der Matrizen p und q ist.
Bemerkung.
a) M ARKOV-E IGENSCHAFT:
Die Weiterentwicklung hängt jeweils nur vom gegenwärtigen Zustand xk ab, und nicht vom
vorherigen Verlauf x0 , x1 , . . . , xk−1 .
b) n-S CHRITT-Ü BERGANGSWAHRSCHEINLICHKEITEN :
P [Xn = y | X0 = x] = (p1 p2 · · · pn )(x, y)
= pn (x, y)
falls zeitlich homogen, d.h. pi ≡ p.
Beweis.
P [Xl = xl | X0 = x0 , . . . , Xk = xk ] =
=
=
P [X0 = x0 , . . . , Xk = xk , Xl = xl ]
P [X0 = x0 , . . . , Xk = xk ]
P
xk+1 ,...,xl−1 p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl )
X
xk+1
p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk )
X
...
pk+1 (xk , xk+1 ) pk+2 (xk+1 , xk+2 ) · · · pl (xl−1 , xl )
xl−1
= (pk+1 pk+2 · · · pl )(xk , xl ).
P [Xl = xl | Xk = xk ] =
=
P [Xk = xk , Xl = xl ]
P [Xk = xk ]
P
P
x1 ,...,xk−1
P
xk+1 ,...,xl−1
x1 ,...,xk−1
p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl )
p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk )
= (pk+1 pk+2 · · · pl )(xk , xl ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
55
Beispiel.
S = {0, 1},
0 < α, β ≤ 1.
Für alle n ∈ N gilt:
pn (0, 0) = pn−1 (0, 0) · p(0, 0) + pn−1 (0, 1) · p(1, 0)
= pn−1 (0, 0) · (1 − α) + (1 − pn−1 (0, 0)) · β
= (1 − α − β) · pn−1 (0, 0) + β.
Daraus folgt mit Induktion:
α
β
+
(1 − α − β)n ,
α+β α+β
pn (0, 1) = 1 − pn (0, 0).
pn (0, 0) =
und
Analoge Formeln erhält man für pn (1, 0) und pn (1, 1) durch Vertauschung von α und β. Für die
n-Schritt-Übergangsmatrix ergibt sich:
!
pn =
β
α+β
β
α+β
α
α+β
α
α+β
+
|
{z
}
Gleiche Zeilen
(1 − α − β)n
|
α
α+β
−β
α+β
−α
α+β
β
α+β
!
.
{z
}
−→ 0 exponentiell schnell,
falls α < 1 oder β < 1
Insbesondere gilt pn (0, ·) ≈ pn (1, ·) für große n ∈ N. Die Kette »vergisst« also ihren Startwert
exponentiell schnell (»Exponentieller Gedächtnisverlust«)!.
2.3 Unabhängigkeit von Ereignissen
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Hängen zwei Ereignisse A, B ∈ A nicht voneinan-
der ab, dann sollte gelten:
P [A|B] = P [A],
fallsP [B] 6= 0,
P [B|A] = P [B],
| {z }
fallsP [A] 6= 0,
sowie
P [B∩A]
P [A]
also insgesamt
P [A ∩ B] = P [A] · P [B].
Universität Bonn
(2.3.1)
Wintersemester 2009/2010
56
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Definition.
i) Zwei Ereignisse A, B ∈ A heißen unabhängig (bzgl. P), falls (2.3.1) gilt.
ii) Eine beliebige Kollektion Ai , i ∈ I, von Ereignissen heißt unabhängig (bzgl. P), falls
n
Y
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =
P [Aik ]
k=1
für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt.
Beispiele.
a) Falls P [A] ∈ {0, 1} gilt, ist A unabhängig von B für alle B ∈ A.
b) Wir betrachten das Modell für ZWEI FAIRE M ÜNZWÜRFE, also Ω = {0, 1}2 und P sei die
Gleichverteilung. Die Ereignisse
A1 = {(1, 0), (1, 1)}, »erster Wurf Zahl«,
A2 = {(0, 1), (1, 1)}, »zweiter Wurf Zahl«,
A3 = {(0, 0), (1, 1)}, »beide Würfe gleich«,
sind paarweise unabhängig, denn es gilt:
1
P [Ai ∩ Aj ] = = P [Ai ] · P [Aj ]
für alle i 6= j.
4
Allerdings ist die Kollektion A1 , A2 , A3 nicht unabhängig, denn es gilt
1
P [A1 ∩ A2 ∩ A3 ] = 6= P [A1 ] · P [A2 ] · P [A3 ].
4
Lemma 2.5. Seien die Ereignisse A1 , . . . , An ∈ A unabhängig, Bj = Aj oder Bj = AC
j für alle
j = 1, . . . , n. Dann sind die Ereignisse B1 , . . . , Bn unabhängig.
Beweis. Sei ohne Beschränkung der Allgemeinheit:
B1 = A1 ,
...,
Bk = Ak ,
Bk+1 = AC
k+1 ,
Bn = AC
n
...,
. Dann gilt unter Verwendung der Linearität des Erwartungswerts und der Unabhängigkeit von
A1 , . . . , An :
C
P [B1 ∩ . . . ∩ Bn ] = P A1 ∩ . . . ∩ Ak ∩ AC
∩
.
.
.
A
k+1
n
= E IA1 · · · IAk · (1 − IAk+1 ) · · · (1 − IAn )
X
Y = E I A1 · · · IA k ·
IAj
(−1)|J|
=
X
J⊆{k+1,...,n}
=
X
J⊆{k+1,...,n}
J⊆{k+1,...,n}
j∈J
(−1)|J| P A1 ∩ . . . ∩ Ak ∩
(−1)|J| P [A1 ] · · · P [Ak ] ·
\
j∈J
Y
Aj
P [Aj ]
j∈J
= P [A1 ] · · · P [Ak ] · (1 − P [Ak+1 ]) . . . (1 − P [An ]) = P [B1 ] · · · P [Bn ].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
57
Verteilungen für unabhängige Ereignisse
Seien A1 , A2 , . . . ∈ A unabhängige Ereignisse (bzgl. P ) mit P [Ai ] = p ∈ [0, 1]. Die Existenz
von unendlich vielen unabhängigen Ereignissen auf einem geeigneten Wahrscheinlichkeitsraum
setzen wir hier voraus – ein Beweis wird erst in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gegeben.
Geometrische Verteilung
Die Wartezeit auf das erste Eintreten eines der Ereignisse ist
T (ω) = inf{n ∈ N | ω ∈ An },
wobei min ∅ := ∞.
Mit Lemma 2.5 folgt:
C
C
P [T = n] = P [AC
1 ∩ A2 ∩ . . . ∩ An−1 ∩ An ]
= P [An ] ·
n−1
Y
P [AC
i ]
i=1
= p · (1 − p)n−1 .
Definition. Sei p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf N mit Massenfunktion
p(n) = p · (1 − p)n−1
heißt geometrische Verteilung zum Parameter p.
Bemerkung.
a) Für p 6= 0 gilt:
∞
X
n=1
p · (1 − p)n−1 = 1,
d.h. die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung auf den natürlichen
Zahlen, und
P [T = ∞] = 0.
b) Allgemein gilt:
c) Es gilt:
C
n
P [T > n] = P AC
1 ∩ . . . ∩ An = (1 − p) .
E[T ] =
∞
X
n=0
(siehe Übung).
Universität Bonn
P [T > n] =
1
1
= ,
1 − (1 − p)
p
Wintersemester 2009/2010
58
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Binomialverteilung
Die Anzahl der Ereignisse unter A1 , . . . , An , die eintreten, ist
Sn (ω) = |{1 ≤ i ≤ n | ω ∈ Ai }| =
n
X
IAi (ω).
i=1
Es gilt:
P [Sn = k] =
X
P
X
Y
P [Ai ] ·
X
Y
p·
X
p|I| · (1 − p)|I
I⊆{1,...,n}
|I|=k
=
\
i∈I
I⊆{1,...,n} i∈I
|I|=k
=
I⊆{1,...,n} i∈I
|I|=k
=
Ai ∩
Y
i∈I C
\
AC
i
i∈{1,...,n}\I
Y
P [AC
i ]
i∈I C
(1 − p)
C|
I⊆{1,...,n}
|I|=k
n k
p (1 − p)n−k ,
=
k
d.h. Sn ist Binomialverteilt mit Parametern n und p.
Satz 2.6 (»Law of Averages«, Bernstein-Ungleichung). Für alle ε > 0 und n ∈ N gilt:
Sn
2
≥ p + ε ≤ e−2ε n ,
und
P
n
Sn
2
P
≤ p − ε ≤ e−2ε n .
n
Insbesondere gilt:
Sn
2
P − p > ε ≤ 2 e−2ε n ,
n
d.h. die Wahrscheinlichkeit für eine Abweichung des Mittelwerts
Sn
n
vom Erwartungswert p um
mehr als ε fällt exponentiell in n.
Bemerkung.
a) Satz 2.6 ist eine erste Version des »Gesetzes der großen Zahlen«.
b) Der Satz liefert eine nachträgliche Rechtfertigung der frequentistischen Interpretation der
Wahrscheinlichkeit als asymptotische relative Häufigkeit.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
59
c) Anwendung auf Schätzen von p:
p≈
Sn
= relative Häufigkeit des Ereignisses bei n unabhängigen Stichproben.
n
d) Anwendung auf näherungsweise Monte Carlo-Berechnung von p:
Simuliere n unabhängige Stichproben, p ∼ relative Häufigkeit.
Beweis. Sei q := 1 − p, Sn ∼ Bin(n, p). Dann gilt für λ > 0:
X n
pk q n−k
P [Sn ≥ n (p + ε)] =
k
k≥np+nε
X n
eλk pk q n−k e−λ(np+nε)
≤
k
k≥np+nε
n X
k
n
p eλ q n−k e−λnp e−λnε
≤
k
k=0
n
n
= p eλ + q e−λnp e−λnε ≤ p eλq + q e−λp e−λnε .
Wir behaupten:
λ2
p eλq + q e−λp ≤ e 8 .
Damit folgt:
P [Sn ≥ n (p + ε)] ≤ en (
λ2
−λε)
8
.
Der Exponent ist minimal für λ = 4ε. Für diese Wahl von λ folgt schließlich
2
P [Sn ≥ n (p + ε)] ≤ e−2nε .
Beweis der Behauptung:
f (λ) := log p eλq + q e−λp = log e−λ p (p eλ + q) = −λ p + log p eλ + q .
Zu zeigen ist nun
f (λ) ≤
λ2
8
für alle λ ≥ 0.
Es gilt:
f (0) = 0,
p eλ
p
= −p +
,
λ
pe + q
p + q e−λ
p q e−λ
1
f ′′ (λ) =
≤ .
−λ
2
(p + q e )
4
f ′ (λ) = −p +
Universität Bonn
f ′ (0) = 0,
Wintersemester 2009/2010
60
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Die letzte Ungleichung folgt aus::
(a + b)2 = a2 + b2 + 2 a b ≥ 4 a b
Damit folgt
Z
λ
f ′ (x) dx
f (λ) = f (0) +
0
Z λZ x
Z
′′
=
f (y) dy dx ≤
0
0
0
λ
x
λ2
dx ≤
4
8
für alle λ ≥ 0.
Beispiel. Im letzten Satz wurde gezeigt:
Sn =
n
X
I Ai ,
i=1
Sn
Ai unabhängig mit P [Ai ] = p =⇒ P − p ≥ ε −→ 0 für n → ∞.
n
Zur Demonstration simulieren wir den Verlauf von Sn und
Sn
n
mehrfach (m-mal):
V ERLAUF VON Sn
m = 3 0 ; nmax = 1 0 0 0 ; p = 0 . 7 ;
(Wir erzeugen m × nmax Bernoulli-Stichproben mit Wahrscheinlichkeit p)
x = RandomChoice [ { 1 − p , p } −> { 0 , 1 } , {nmax , m} ] ; s = A c c u m u l a t e [ x ] ;
Das Feld s enthält m Verläufe von sn = x1 + . . . + xn , n = 1, . . . , nmax
M a n i p u l a t e [ Show [
L i s t L i n e P l o t [ Transpose [ s [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ p∗Range [ n ] , P l o t S t y l e −> { Black , T h i c k } ] ]
, {{ n , 5 0 } , 1 , nmax , 1 } ]
(Vergleich der m Verläufe von sn mit np)
• n = 50:
40
30
20
10
10
20
30
Einführung in die Wahrscheinlichkeitstheorie
40
50
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
61
• n = 500:
350
300
250
200
150
100
50
100
V ERLAUF VON
200
300
400
500
Sn
n
mean = s / Range [ nmax ] ;
(Das Feld mean enthält m Verläufe der Werte von
sn
n )
M a n i p u l a t e [ Show [
L i s t L i n e P l o t [ Transpose [ mean [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ C o n s t a n t A r r a y [ p , n ] , P l o t S t y l e −> { Black , T h i c k } ] ] , {{ n ,
5 0 } , 1 , nmax , 1 } ]
• n = 50:
1.0
0.9
0.8
0.7
0.6
0.5
0.4
10
Universität Bonn
20
30
40
50
Wintersemester 2009/2010
62
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• n = 500:
0.80
0.75
0.70
0.65
100
200
300
400
500
V ERTEILUNG VON Sn
Manipulate [
L i s t P l o t [ Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , p ] , k ] } , {k , 0 , n } ] ,
PlotRange −> A l l , F i l l i n g −> A x i s ]
, {{ n , 5 0 } , 1 , nmax , 1 } ]
• n = 50:
0.12
0.10
0.08
0.06
0.04
0.02
10
20
30
Einführung in die Wahrscheinlichkeitstheorie
40
50
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
63
• n = 500:
0.04
0.03
0.02
0.01
100
200
300
400
500
2.4 Unabhängige Zufallsvariablen und Random Walk
Unabhängigkeit von diskreten Zufallsvariablen
Seien Xi : Ω → Si , i = 1, . . . , n, diskrete Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω, A, P ). Dann ist (X1 , . . . , Xn ) eine Zufallsvariable mit Werten im Produktraum S1 × · · · × Sn .
Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn . Die Massenfunktion der gemeinsamen Verteilung lautet
pX1 ,...,Xn (a1 , . . . , an ) = P [X1 = a1 , . . . , Xn = an ].
Definition. Die diskreten Zufallsvariablen X1 , . . . , Xn heißen unabhängig, falls gilt:
P [X1 = a1 , . . . , Xn = an ] =
n
Y
P [Xi = ai ]
i=1
für alle ai ∈ Si ,
i = 1, . . . , n.
Die gemeinsame Verteilung enthält Informationen über den Zusammenhang zwischen den Zufallsgrößen Xi .
Satz 2.7. Die folgenden Aussagen sind äquivalent:
(i) X1 , . . . , Xn sind unabhängig.
(ii) pX1 ,...,Xn (a1 , . . . , an ) =
(iii) µX1 ,...,Xn =
Universität Bonn
Nn
i=1
µ Xi .
Qn
i=1
pXi (ai ).
Wintersemester 2009/2010
64
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
(iv) Die Ereignisse {X1 ∈ A1 }, . . . , {Xn ∈ An } sind unabhängig für alle Ai ⊆ Si , i =
1, . . . , n.
(v) Die Ereignisse {X1 = a1 }, . . . , {Xn = an } sind unabhängig für alle ai ∈ Si , i = 1, . . . , n.
Beweis.
• (i) ⇔ (ii) nach Definition von pX1 ,...,Xn .
• (ii) ⇔ (iii) nach Definition von
• (iii) ⇒ (iv):
Nn
i=1
µ Xi .
Seien 1 ≤ i1 < i2 < . . . < im ≤ n und Aik ⊆ Sik , (k = 1, . . . , m). Wir setzen Ai := Ω für
i∈
/ {i1 , . . . , im }. Mit (iii) folgt dann nach Satz 2.2:
P [Xi1 ∈ Ai1 , . . . , Xim ∈ Aim ] = P [X1 ∈ A1 , . . . , Xn ∈ An ]
= P [(X1 , . . . , Xn ) ∈ A1 × . . . × An ]
= µX1 ,...,Xn (A1 × . . . × An )
n
n
Y
Y
=
µXi (Ai ) =
P [Xi ∈ Ai ]
=
i=1
i=1
m
Y
P [Xik ∈ Aik ].
i=1
• (iv) ⇒ (v) ⇒ (i) ist klar.
Definition. Eine beliebige Kollektion Xi : Ω → Si , i ∈ I, von diskreten Zufallsvariablen heißt
unabhängig, falls die Ereignisse {Xi = ai }, i ∈ I, für alle ai ∈ Si unabhängig sind.
Der Random Walk auf Z
Seien X1 , X2 , . . . unabhängige identisch verteilte (»i.i.d.« – independent and identically distributed) Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P ) mit
P [Xi = +1] = p,
P [Xi = −1] = 1 − p,
Einführung in die Wahrscheinlichkeitstheorie
p ∈ (0, 1).
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
65
Die Existenz von unendlich vielen unabhängigen identisch verteilten Zufallsvariablen auf einem
geeigneten Wahrscheinlichkeitsraum (unendliches Produktmodell) wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gezeigt. Sei a ∈ Z ein fester Startwert. Wir betrachten
die durch
S0 = a,
Sn+1 = Sn + Xn+1 ,
definierte zufällige Bewegung (»Irrfahrt« oder »Random Walk«) auf Z. Als Position zur Zeit n
ergibt sich:
Sn = a + X1 + X2 + · · · + Xn .
Irrfahrten werden unter anderem in primitiven Modellen für die Kapitalentwicklung beim Glücksspiel oder an der Börse (Aktienkurs), sowie die Brownsche Molekularbewegung (im Skalierungslimes Schrittweite → 0) eingesetzt.
Beispiel (Symmetrischer Random Walk, p = 21 ).
z u f a l l = RandomChoice [{ −1 , 1 } , 1 0 0 0 0 ] ;
randomwalk = F o l d L i s t [ Plus , 0 , z u f a l l ] ;
Manipulate [
L i s t L i n e P l o t [ randomwalk [ [ 1 ; ; nmax ] ] ] , {nmax , 1 0 , 1 0 0 0 0 , 1 0 } ]
• nmax = 50:
2
10
20
30
40
50
-2
-4
-6
-8
Universität Bonn
Wintersemester 2009/2010
66
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• nmax = 500:
30
20
10
100
200
300
400
500
2000
3000
4000
5000
• nmax = 5000:
100
80
60
40
20
1000
Lemma 2.8 (Verteilung von Sn ). Für k ∈ Z gilt

0
P [Sn = a + k] =
n+k
n−k
n
 n+k
p 2 (1 − p) 2
falls n + k ungerade oder |k| > n,
sonst.
2
Beweis. Es gilt:

Xi = 1
genau
Sn = a + k ⇔ X1 + · · · + Xn = k ⇔
X = −1 genau
i
n+k
-mal,
2
n−k
-mal.
2
Beispiel (Rückkehrwahrscheinlichkeit zum Startpunkt). Mithilfe der Stirlingschen Formel
n n
√
n! ∼ 2πn
für n → ∞.
e
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
67
folgt:
P [S2n+1 = a] = 0,
(2n)! n
2n n
p (1 − p)n
P [S2n = a] =
p (1 − p)n =
(n!)2
n
√
)2n n
1
4πn ( 2n
n
e
∼
(4p (1 − p))n
n 2n p (1 − p) = √
2πn ( e )
πn
für n → ∞,
wobei zwei Folgen an und bn asymptotisch äquivalent heißen (an ∼ bn ), falls limn→∞
an
bn
=1
gilt.
• Falls p 6=
1
2
gilt 4 p (1 − p) < 1 und P [S2n = a] konvergiert exponentiell schnell gegen 0.
• Falls p =
1
2
konvergiert P [S2n = a] ∼
√1
πn
nur langsam gegen 0.
Symmetrischer Random Walk
Ab jetzt betrachten wir den symmetrischen Random Walk, d.h. p = 21 .
Sei λ ∈ Z. Wir wollen die Verteilung der Zufallsvariable
Tλ (ω) := inf{n ∈ N | Sn (ω) = λ},
(min ∅ := ∞),
bestimmen. Für λ 6= a ist Tλ die erste Trefferzeit von λ, für λ = a ist es die erste Rückkehrzeit
nach a. Beschreibt der Random Walk beispielsweise die Kapitalentwicklung in einem Glücksspiel, dann kann man T0 als Ruinzeitpunkt interpretieren.
Sei n ∈ N. Wir wollen nun die Wahrscheinlichkeit
"n
#
[
P [Tλ ≤ n] = P
{Si = λ}
i=1
berechnen. Da das Ereignis {Tλ ≤ n} von mehreren Positionen des Random Walks abhängt
(S1 , S2 , . . . , Sn ), benötigen wir die gemeinsame Verteilung dieser Zufallsvariablen. Sei also
S(ω) := (S0 (ω), S1 (ω), . . . , Sn (ω))
der Bewegungsverlauf bis zur Zeit n . Dann ist S eine Zufallsvariable mit Werten im Raum
b (n)
Ω
a := {(s0 , s1 , . . . , sn ) | s0 = a, si ∈ Z, so dass: |si − si−1 | = 1 für alle i ∈ {1, . . . , n}}
der möglichen Pfade des Random Walk. Sei µa die gemeinsame Verteilung von S unter P .
b (n)
Lemma 2.9. µa ist die Gleichverteilung auf dem Pfadraum Ω
a .
Universität Bonn
Wintersemester 2009/2010
68
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beweis. Es gilt
µa ({(s0 , . . . , sn )}) = P [S0 = s0 , . . . , Sn = sn ]
= P [S0 = s0 , X1 = s1 − s0 , . . . , Xn = sn − sn−1 ]


0
falls s0 6= a oder |si − si−1 | =
6 1 für ein i ∈ {1, . . . , n},



b (n)
=
(d.h. (s0 , . . . , sn ) ∈
/Ω
a ),



2−n sonst, d.h. falls (s , . . . , s ) ∈ Ω
b (n)
a .
0
n
Satz 2.10 (Reflektionsprinzip). Seien λ, b ∈ Z. Es gelte entweder (a < λ und b ≤ λ), oder
(a > λ und b ≥ λ). Dann gilt:
P [Tλ ≤ n, Sn = b] = P [Sn = b⋆ ],
wobei b⋆ := λ + (λ − b) = 2λ − b die Spiegelung von b an λ ist.
Beweis. Es gilt:
=:A
}|
{
z
P [Tλ ≤ n, Sn = b] = µa [{(s0 , . . . , sn ) | sn = b, si = λ für ein i ∈ {1, . . . , n}}],
P [Sn = b⋆ ] = µa [{(s0 , . . . , sn ) | sn = b⋆ }].
|
{z
}
=:B
Die im Bild dargestellte Transformation (Reflektion des Pfades nach Treffen von λ) definiert eine
b (n)
Bijektion von A nach B. Also gilt |A| = |B|. Da µa die Gleichverteilung auf Ω
a ist, folgt:
|B|
|A|
=
= µa (B).
µa (A) = (n)
ba b (n)
Ω
Ω
a Korollar (Verteilung der Trefferzeiten). Es gilt:
i)

P [Sn ≥ λ] + P [Sn > λ],
P [Tλ ≤ n] =
P [S ≤ λ] + P [S < λ],
n
n
Einführung in die Wahrscheinlichkeitstheorie
falls λ > a,
falls λ < a.
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
69
4
λ
2
2
Tλ
4
6
8
10
12
14
−2
Abbildung 2.2: Spiegelung des Random Walks an λ = 3
ii)

 1 P [Sn−1 = λ − 1] − 1 P [Sn−1 = λ + 1],
2
P [Tλ = n] = 2
 1 P [S
1
n−1 = λ + 1] − 2 P [Sn−1 = λ − 1],
2

−n
n
 λ−a n+λ−a
2
falls λ > a,
n
2
=
−n
n
 a−λ n+λ−a
2
falls λ < a.
n
falls λ > a,
falls λ < a.
2
Beweis. Wir beweisen die Aussagen für λ > a, der andere Fall wird jeweils analog gezeigt.
i)
P [Tλ ≤ n] =
X
b∈Z
P [Tλ ≤ n, Sn = b]
{z
}
|
=
=
X
b≥λ
Universität Bonn
P [Sn = b] +
X
b<λ
|
=
(
P [Sn = b]
falls b ≥ λ,
P [Sn = b⋆ ] falls b < λ.
P [Sn = b⋆ ] = P [Sn ≥ λ] + P [Sn > λ].
P
{z
P [Sn =b]
b>λ
}
Wintersemester 2009/2010
70
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
ii)
P [Tλ = n] = P [Tλ ≤ n] − P [Tλ ≤ n − 1]
Mit i) folgt
=:I
=:A
Wegen
=:II
z
}|
{ z
}|
{
= P [Sn ≥ λ] − P [Sn−1 ≥ λ] + P [Sn ≥ λ + 1] − P [Sn−1 ≥ λ + 1]
| {z }
| {z }
=:B
P [A] − P [B] = P [A\B] + P [A ∩ B] − P [B\A] − P [B ∩ A] = P [A\B] − P [B\A]
erhalten wir für den ersten Term:
I = P [Sn ≥ λ, Sn−1 < λ] − P [Sn−1 ≥ λ, Sn < λ]
= P [Sn−1 = λ − 1, Sn = λ] − P [Sn−1 = λ, Sn = λ − 1]
1
1
P [Sn−1 = λ − 1] − P [Sn−1 = λ].
=
2
2
Hierbei haben wir benutzt, dass
b (n)
|{(s0 , . . . , sn ) ∈ Ω
a | sn−1 = λ − 1}|
= |{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ}|
+|{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ − 2}|
= 2 · |{(s0 , . . . , sn )|sn−1 = λ − 1, sn = λ}
gilt. Mit einer analogen Berechnung für den zweiten Term erhalten wir insgesamt:
P [Tλ = n] = I + II
1
=
(P [Sn−1 = λ − 1] − P [Sn−1 = λ]
2
+P [Sn−1 = (λ + 1) − 1] − P [Sn−1 = λ + 1])
1
=
(P [Sn−1 = λ − 1] − P [Sn−1 = λ + 1]).
2
Sei Mn := max(S0 , S1 , . . . , Sn ).
Korollar (Verteilung des Maximums). Für λ > a gilt:
P [Mn ≥ λ] = P [Tλ ≤ n] = P [Sn ≥ λ] + P [Sn > λ].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN
71
2.5 Simulationsverfahren
Die Simulation von Stichproben verschiedener Wahrscheinlichkeitsverteilungen geht von auf
[0, 1] gleichverteilten Pseudo-Zufallszahlen aus. In Wirklichkeit simuliert ein Zufallszahlengenerator natürlich nur auf {k m−1 | k = 0, 1, . . . , m − 1} gleichverteilte Zufallszahlen, wobei m−1
die Darstellungsgenauigkeit des Computers ist. Dieser Aspekt wird im folgenden ignoriert. Um
Simulationsverfahren zu analysieren, benötigen wir noch den Begriff einer auf [0, 1] gleichverteilten reellwertigen Zufallsvariablen. Die Existenz solcher Zufallsvariablen auf einem geeigneten
Wahrscheinlichkeitsraum wird hier vorausgesetzt, und kann erst in der Vorlesung »Analysis III«
bzw. in der »Einführung in die Wahrscheinlichkeitstheorie« gezeigt werden.
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, und U : Ω → [0, 1] eine Abbildung.
Definition.
i) U ist eine reellwertige Zufallsvariable, falls gilt:
{ω ∈ Ω | U (ω) ≤ y} ∈ A
für alle y ∈ R.
ii) Eine reellwertige Zufallsvariable U : Ω → [0, 1] ist gleichverteilt auf [0, 1], falls
P [U ≤ y] = y
für alle y ∈ [0, 1].
Wir notieren dies im folgenden als (U ∼ Unif[0, 1]).
iii) Reellwertige Zufallsvariablen Ui : Ω → R, i ∈ I, heißen unabhängig, falls die Ereignisse
{Ui ≤ yi }, i ∈ I, für alle yi ∈ R unabhängig sind.
Ein Zufallszahlengenerator simuliert Stichproben u1 = U1 (ω), u2 = U2 (ω), . . . von auf [0, 1]
gleichverteilten unabhängigen Zufallsvariablen. Wie erzeugt man daraus Stichproben von diskreten Verteilungen?
Das direkte Verfahren
Sei S = {a1 , a2 , . . .} endlich oder abzählbar unendlich, und µ eine Wahrscheinlichkeitsverteilung
auf S mit Gewichten pi = p(ai ). Wir setzen
sn :=
n
X
i=1
pi ,
n ∈ N,
»kumulative Verteilungsfunktion«.
Sei U : Ω → [0, 1) eine gleichverteilte Zufallsvariable. Wir setzen
X(ω) := ai ,
Universität Bonn
falls si−1 < U (ω) ≤ si ,
i ∈ N.
Wintersemester 2009/2010
72
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Lemma 2.11. Falls U ∼ Unif[0, 1), gilt X ∼ µ.
Beweis. Für alle i ∈ N gilt:
P [X = ai ] = P [si−1 < U ≤ si ] = P [U ≤ si ] − P [U ≤ si−1 ] = si − si−1 = pi .
Algorithmus 2.12 (Direkte Simulation einer diskreten Verteilung).
I NPUT:
Gewichte p1 , p2 , . . . ,
O UTPUT:
n := 1
Pseudozufallsstichprobe x von µ.
s := p1
erzeuge Zufallszahl u ∼ Unif[0, 1)
while u > s do
n := n + 1
s := s + pn
end while
return x := an
Bemerkung.
a) Die mittlere Anzahl von Schritten des Algorithmus ist
∞
X
n pn = Erwartungswert von Wahrscheinlichkeitsverteilung (pn ) auf N.
n=1
b) Für große Zustandsräume S ist das direkte Verfahren oft nicht praktikabel, siehe Übung.
Acceptance-Rejection-Verfahren
Sei S eine endliche oder abzählbare Menge, µ eine Wahrscheinlichkeitsverteilung auf S mit
Massenfunktion p(x), und ν eine Wahrscheinlichkeitsverteilung auf S mit Massenfunktion q(x).
Angenommen, wir können unabhängige Stichproben von ν erzeugen. Wie können wir daraus
Stichproben von µ erhalten? I DEE :
scheinlichkeit proportional zu
p(x)
,
q(x)
Erzeuge Stichprobe x von ν, akzeptiere diese mit Wahrsonst verwerfe die Stichprobe und wiederhole.
A NNAHME :
es gibt ein c ∈ [1, ∞) :
p(x) ≤ c q(x)
für alle x ∈ S.
Aus der Annahme folgt:
p(x)
≤1
c q(x)
d.h. wir können
p(x)
c q(x)
für alle x ∈ S,
als Akzeptanzwahrscheinlichkeit wählen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN
73
Algorithmus 2.13 (Acceptance-Rejection-Verfahren).
I NPUT:
Gewichte p(y), q(y), c
(y ∈ S),
Stichprobe x von µ.
O UTPUT:
repeat
erzeuge Stichprobe x ∼ ν
erzeuge Stichprobe u ∼ Unif[0, 1]
until
p(x)
c q(x)
return x
≥ u {akzeptiere mit Wahrscheinlichkeit
p(x)
}
c q(x)
A NALYSE DES A LGORITHMUS
Für die verwendeten Zufallsvariablen gilt:
X1 , X2 , . . . ∼ ν,
(Vorschläge),
U1 , U2 , . . . ∼ Unif[0, 1].
Es gilt Unabhängigkeit, d.h.
P [X1 = a1 , . . . , Xn = an , U1 ≤ y1 , . . . , Un ≤ qn ] =
n
Y
i=1
P [Xi = ai ] ·
n
Y
i=1
P [Ui ≤ yi ]
für alle n ∈ N, ai ∈ S und yi ∈ R.
Seien
n
T = min n ∈ N p(Xn )
c q(Xn )
≥ Un
XT (ω) = XT (ω) (ω)
o
die »Akzeptanzzeit«, und
die ausgegebene Stichprobe.
des Acceptance-Rejection-Verfahrens. Wir erhalten:
Satz 2.14.
i) T ist geometrisch verteilt mit Parameter 1/c,
ii) XT ∼ µ.
Bemerkung. Insbesondere ist die mittlere Anzahl von Schritten bis Akzeptanz:
E[T ] = c.
Beweis.
i) Sei
An :=
Universität Bonn
p(Xn )
≥ Un .
c q(Xn )
Wintersemester 2009/2010
74
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Aus der Unabhängigkeit der Zufallsvariablen X1 , U1 , X2 , U2 , . . . folgt, daß auch die Ereignisse A1 , A2 , . . . unabhängig sind. Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen. Zudem gilt wegen der Unabhängigkeit von Xn und Un :
X p(a)
P [An ] =
P
Un ≤
∩ {Xn = a}
c q(a)
a∈S
X p(a)
· P [Xn = a]
=
P
Un ≤
c q(a)
a∈S
X p(a)
1
=
· q(a) = .
c q(a)
c
a∈S
Also ist
T (ω) = min{n ∈ N | ω ∈ An }
geometrisch verteilt mit Parameter 1/c.
ii)
P [XT = a] =
=
∞
X
n=1
∞
X
n=1
P [{XT = a} ∩ {T = n}]
C
P [{Xn = a} ∩ An ∩ AC
1 ∩ . . . An−1 ]
∞
X
p(a)
≥ Un
=
P [{Xn = a} ∩
c
q(a)
n=1
n−1
∞
X
1
p(a)
1−
=
q(a)
c q(a)
c
n=1
∞
n−1
p(a) X
1
=
1−
c n=1
c
=
C
∩ AC
1 ∩ . . . An−1 ]
1
p(a)
= p(a).
c 1 − (1 − 1c )
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 3
Konvergenzsätze und Monte Carlo
Verfahren
Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S, und f : S → R eine
reellwertige Zufallsvariable. Angenommen, wir wollen den Erwartungswert
θ := Eµ [f ] =
X
f (x) µ(x)
x∈S
berechnen, aber die Menge S ist zu groß, um die Summe direkt auszuführen. In einem Monte
Carlo-Verfahren simuliert man eine große Anzahl unabhängiger Stichproben X1 (ω), . . . , Xn (ω)
von µ, und approximiert den Erwartungswert θ durch den Monte Carlo-Schätzer
n
1X
θbn (ω) :=
f (Xi (ω)).
n i=1
Wir wollen nun Methoden entwickeln, mit denen der Approximationsfehler |θbn − θ| abgeschätzt
werden kann, und die Asymptotik des Approximationsfehlers für n → ∞ untersuchen. Nach
dem Transformationssatz (1.7) und der Linearität des Erwartungswerts (1.8) gilt:
n
n
1X
1 XX
E[θbn ] =
E[f (Xi )] =
f (x) µ({x}) = Eµ [f ] = θ,
n i=1
n i=1 x∈S
d.h. θbn ist ein erwartungstreuer Schätzer für θ. Der mittlere quadratische Fehler (»MSE« – mean
squared error) des Schätzers ist daher:
MSE = E[|θbn − θ|2 ] = E[|θbn − E[θbn ]|2 ].
75
76
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
3.1
Varianz und Kovarianz
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → S eine Zufallsvariable auf (Ω, A, P ),
so dass E[|X|] endlich ist.
Definition.
Var(X) := E (X − E[X])2
heißt Varianz von X und liegt in [0, ∞].
σ(X) :=
heißt Standardabweichung von X.
p
Var(X)
Die Varianz bzw. Standardabweichung kann als Kennzahl für die Größe der Fluktuationen (Streuung) der Zufallsvariablen X um den Erwartungswert E[X] und damit als Maß für das Risiko bei
Prognose des Ausgangs X(ω) durch E[X] interpretiert werden.
(a) Die Varianz hängt nur von der Verteilung von X ab:
X
X
Var(X) =
(a − m)2 pX (a),
wobei
m
= E[X] =
a pX (a).
Bemerkung.
a∈S
a∈S
(b) Es gilt
Var(X) = 0
Bemerkung (Rechenregeln).
genau dann, wenn
P [X = E[X]] = 1.
i)
Var(X) = E X 2 − E[X]2 .
Insbesondere ist die Varianz von X genau dann endlich, wenn E[X 2 ] endlich ist.
ii)
Var(aX + b) = Var(aX) = a2 Var(X)
Beweis.
für alle a, b ∈ R.
i) Nach der Linearität des Erwartungswerts gilt
Var(X) = E X 2 − 2X · E[X] + E[X]2 = E X 2 − E[X]2 .
ii) Wiederholte Anwendung der Linearität des Erwartungswerts liefert
Var(aX + b) = E (aX + b − E[aX + b])2 = E (aX − E[aX])2 = a2 Var(X).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.1. VARIANZ UND KOVARIANZ
Beispiele.
77
a) Sei X = 1 mit Wahrscheinlichkeit p und X = 0 mit Wahrscheinlichkeit 1 − p.
Dann ist der Erwartungswert von X:
E X 2 = E[X] = p,
und die Varianz von X:
Var(X) = p − p2 = p (1 − p).
b) Sei T geometrisch verteilt (T ∼ Geom(p)) mit Parameter p ∈ (0, 1]. Der Erwartungswert
von T beträgt:
E[T ] =
∞
X
k (1 − p)
∞
X
k (k + 1) (1 − p)k−1 p
k=1
k−1
∞
p X
p 1
1
p = −p
(1 − p)k = −p
= .
dp k=0
dp p
p
Außerdem gilt:
E[T (T + 1)] =
k=1
=
∞
X
k=1
k−2
k (k − 1) (1 − p)
∞
2
d2 X
(1 − p)k = 2 .
p=p 2
dp k=0
p
Die Varianz von T ist somit:
2
1
1
1−p
Var(T ) = E T 2 − E[T ]2 = 2 − − 2 =
.
p
p p
p2
Definition.
L2 (Ω, A, P ) := {X : Ω → R | X ist diskrete Zufallsvariable mit E X 2 < ∞}
Lemma 3.1.
i) Für Zufallsvariablen X, Y ∈ L2 gilt:
p
p
E[|XY |] ≤ E [X 2 ] E [Y 2 ] < ∞.
ii) L2 ist ein Vektorraum, und
(X, Y )L2 := E[X Y ]
ist eine positiv semidefinite symmetrische Bilinearform (»Skalarprodukt«) auf L2 .
Bemerkung.
i) Insbesondere gilt die Cauchy-Schwarz-Ungleichung:
E[X Y ]2 ≤ E[|X Y |] ≤ E X 2 E Y 2
Universität Bonn
für alle X, Y ∈ L2 .
Wintersemester 2009/2010
78
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
ii) Für eine Zufallsvariable X ∈ L2 gilt
E[|X|] ≤
Beweis.
p
E [X 2 ]
p
E [12 ] < ∞.
i) Nach der Cauchy-Schwarz-Ungleichung gilt:
X
E[|X Y |] =
|a b| P [X = a, Y = b]
a∈X(Ω)
b∈Y (Ω)
=
X
|a|
sX
a2
a∈X(Ω)
b∈Y (Ω)
≤
=
=
s
p
p
p
P [X = a, Y = b] |b| P [X = a, Y = b]
P [X = a, Y = b]
a,b
X
a2 P [X = a]
a
sX
sX
b2 P [X = a, Y = b]
a,b
b2 P [Y = b]
b
p
E [X 2 ] E [Y 2 ].
ii) Seien X, Y ∈ L2 , a ∈ R. Dann ist aX + Y eine diskrete Zufallsvariable, für die nach
Monotonie und der Linearität des Erwartungswerts gilt:
E (aX + Y )2 = E a2 X 2 + 2aX Y + Y 2 ≤ 2a2 E X 2 + 2E Y 2 < ∞.
(X, Y )L2 = E[X Y ] ist bilinear, da E[ • ] linear und symmetrisch ist, und positiv semidefinit, aufgrund von:
(X, X)L2 = E X 2 ≥ 0
für alle X ∈ L2 .
Definition. Seien X, Y ∈ L2 .
i)
Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])] = E[X Y ] − E[X] E[Y ]
heißt Kovarianz von X und Y .
ii) Gilt σ(X), σ(Y ) 6= 0, so heißt
̺(X, Y ) :=
Cov(X, Y )
σ(X) σ(Y )
Korrelationskoeffizient von X und Y .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.1. VARIANZ UND KOVARIANZ
79
iii) X und Y heißen unkorreliert, falls Cov(X, Y ) = 0, d.h.
E[X Y ] = E[X] · E[Y ].
Bemerkung. Cov : L2 × L2 → R ist eine symmetrische Bilinearform mit:
Cov(X, X) = Var(X) ≥ 0
für alle X ∈ L2 .
Satz 3.2 (Zusammenhang von Unabhängigkeit und Unkorreliertheit). Seien X : Ω → S und
Y : Ω → T diskrete Zufallsvariablen auf (Ω, A, P ). Dann sind äquivalent:
(i) X und Y sind unabhängig, d.h.
P [X ∈ A, Y ∈ B] = P [X ∈ A] P [Y ∈ B]
für alle A, B ∈ A.
(ii) f (X) und g(Y ) sind unkorreliert für alle Funktionen f : S → R und g : T → R mit
f (X), g(Y ) ∈ L2 .
Beweis.
• (i)⇒ (ii): Seien X und Y unabhängig, dann gilt:
E[f (X)g(Y )] =
XX
f (a) g(b) P [X = a, Y = b]
a∈S b∈T
=
X
f (a) P [X = a]
a∈S
X
g(b) P [Y = b] = E[f (X)] E[g(Y )]
b∈T
Somit folgt:
Cov(f (X), g(Y )) = 0.
• (ii)⇒ (i): Aus (ii) folgt für alle a ∈ S, b ∈ T :
P [X = a, Y = b] = E[I{a} (X) I{b} (Y )]
= E[I{a} (X)] E[I{b} (Y )] = P [X = a] P [Y = b].
Beispiel. Sei X = +1, 0, −1 jeweils mit Wahrscheinlichkeit 31 , und Y = X 2 . Dann sind X und
Y nicht unabhängig, aber unkorreliert:
E[X Y ] = 0 = E[X] E[Y ].
Universität Bonn
Wintersemester 2009/2010
80
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Satz 3.3 (Varianz von Summen). Für X1 , . . . , Xn ∈ L2 gilt:
Var(X1 + · · · + Xn ) =
n
X
Var(Xi ) + 2
i=1
n
X
Cov(Xi , Xj ).
i,j=1
i<j
Falls X1 , . . . , Xn unkorreliert sind, folgt insbesondere:
Var(X1 + · · · + Xn ) =
n
X
Var(Xi ).
i=1
Beweis. Nach Bilinearität der Kovarianz gilt:
n
n
X
X
Var(X1 + · · · + Xn ) = Cov(
Xi ,
Xj )
i=1
=
n
X
j=1
Cov(Xi , Xj ) =
i,j=1
n
X
Var(Xi ) + 2
i=1
n
X
Cov(Xi , Xj ).
i,j=1
i<j
Beispiel (Varianz der Binomialverteilung). Sei

n
1 mit Wahrscheinlichkeit p,
X
Sn =
Xi ,
Xi =
0 mit Wahrscheinlichkeit 1 − p,
i=1
mit unabhängigen Zufallsvariablen Xi . Mit Satz 3.2 folgt:
Var(Sn ) =
n
X
i=1
Var(Xi ) = n p (1 − p).
Analog gilt für den Random Walk:
√
σ(Sn ) = O( n).
3.2
Das schwache Gesetz der großen Zahlen
Seien X1 , X2 , . . . : Ω → R Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeits-
raum (Ω, A, P ) definiert sind (z.B. wiederholte Ausführungen desselben Zufallsexperiments),
und sei
Sn (ω)
=
X1 (ω) + · · · + Xn (ω).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.2. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
81
Wir betrachten die empirischen Mittelwerte
Sn (ω)
n
=
X1 (ω) + . . . + Xn (ω)
,
n
d.h. die arithmetischen Mittel der ersten n Beobachtungswerte X1 (ω), . . . , Xn (ω). Gesetze der
großen Zahlen besagen, dass sich unter geeigneten Voraussetzungen die zufälligen „Fluktuationen“ der Xi für große n wegmitteln, d.h. in einem noch zu präzisierenden Sinn gilt
Sn (ω)
Sn
für große n,
≈ E
n
n
bzw.
Sn E[Sn ]
−
n
n
n→∞
−→
0.
Ist insbesondere E[Xi ] = m für alle i, dann sollten die empirischen Mittelwerte Sn /n gegen m
konvergieren. Das folgende einfache Beispiel zeigt, dass wir ohne weitere Voraussetzungen an
die Zufallsvariablen Xi kein Gesetz der großen Zahlen erwarten können.
Beispiel. Sind die Zufallsvariablen Xi alle gleich, d.h. X1 = X2 = . . ., so gilt
n. Es gibt also kein Wegmitteln des Zufalls, somit kein Gesetz großer Zahlen.
Sn
= X1 für alle
n
Andererseits erwartet man ein Wegmitteln des Zufalls bei unabhängigen Wiederholungen desselben Zufallsexperiments.
Wir werden nun zeigen, dass sogar Unkorreliertheit und beschränkte Varianzen der Zufallsvariablen Xi genügen, um ein Gesetz der großen Zahlen zu erhalten. Dazu nehmen wir an, dass
X1 , X2 , . . . diskrete Zufallsvariablen aus L2 (Ω, A, P ) sind, die folgende Voraussetzungen erfüllen:
A NNAHMEN :
(i) Die Zufallsvariablen sind unkorreliert:
Cov(Xi , Xj ) = 0
für alle i 6= j.
(ii) Die Varianzen sind beschränkt:
v := sup Var(Xi ) < ∞.
i∈N
Es wird keine Unabhängigkeit vorausgesetzt!
Universität Bonn
Wintersemester 2009/2010
82
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Satz 3.4 (Schwaches Gesetz der großen Zahlen). Unter den Voraussetzungen (i) und (ii) gilt für
alle ε > 0:
Sn E[Sn ] ≥ ε ≤ v −→0
P −
n
n ε2 n
Gilt außerdem E[Xi ] = m für alle i ∈ N, folgt
m.
E[Sn ]
n
= m und
für n → ∞.
Sn
n
konvergiert stochastisch gegen
Zum Beweis benötigen wir:
Lemma 3.5 (Čebyšev-Ungleichung). Für X ∈ L2 und c > 0 gilt:
P [|X − E[X]| ≥ c] ≤
1
Var(X).
c2
Beweis. Es gilt
1
(X − E[X])2
2
c
1
2
(X − E[X]) ist überall nichtnegativ und ≥ 1 auf {|X − E[X]| ≥ c}. Durch Bilden des
c2
I{|X−E[X]|≥c} ≤
Erwartungswerts folgt:
1 1
P [|X − E[X]| ≥ c] = E I{|X−E[X]|≥c} ≤ E[ 2 (X − E[X])2 ] = 2 E (X − E[X])2
c
c
Beweis von Satz 3.4. Nach der Čebyšev-Ungleichung und den Annahmen (i) und (ii) gilt für ε >
0:
n
n
X
Sn E[Sn ] v
1
Sn
1 X
1
Var(Xi ) ≤
.
= 2 2 Var(
Xi ) = 2 2
P −
≥ ε ≤ 2 Var
n
n
ε
n
n ε
n ε i=1
n ε2
i=1
Bemerkung (Starkes Gesetz der großen Zahlen).
Sn (ω)
−→ m
n
mit Wahrscheinlichkeit 1.
Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen.
3.3
Monte Carlo-Verfahren
Sei S eine abzählbare Menge und µ eine Wahrscheinlichkeitsverteilung auf S. Wir bezeichnen
im folgenden die Massenfunktion ebenfalls mit µ, d.h.
µ(x) := µ({x}).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
83
Sei f : S → R eine reellwertige Funktion mit:
Eµ [f 2 ] =
X
x∈S
f (x)2 µ(x) < ∞.
Wir wollen den Erwartungswert
θ := Eµ [f ] =
X
f (x) µ(x)
x∈S
näherungsweise berechnen bzw. schätzen. Dazu approximieren wir θ durch die Monte CarloSchätzer
n
1X
θbn :=
f (Xi ),
n i=1
n ∈ N,
wobei X1 , X2 , . . . unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P )
mit Verteilung µ sind. Nach der Abschätzung aus dem Gesetz der großen Zahlen ergibt sich:
Korollar.
1
P [|θbn − θ| ≥ ε] ≤
Varµ [f ] −→ 0 für n → ∞,
n ε2
d.h. θbn ist eine konsistente Schätzfolge für θ.
Beweis. Da die Zufallsvariablen Xi unabhängig sind, sind f (Xi ), i ∈ N, unkorreliert. Zudem gilt
E[f (Xi )] =
X
f (x) µ(x) = Eµ [f ] = θ,
und
x∈S
X
Var[f (Xi )] =
(f (x) − θ)2 µ(x) = Varµ [f ] < ∞
x∈S
nach Voraussetzung. Die Behauptung folgt nun aus Satz 3.4.
Bemerkung.
a) θbn ist ein erwartungstreuer Schätzer für θ:
n
E[θbn ] =
1X
E[f (Xi )] = Eµ [f ] = θ.
n i=1
b) Für den mittleren quadratischen Fehler des Schätzers ergibt sich nach a):
h
i
1
E |θbn − θ|2 = Var(θbn ) = Varµ [f ].
n
Insbesondere gilt:
Universität Bonn
kθbn − θkL2
q
√
= E[|θbn − θ|2 ] = O(1/ n).
Wintersemester 2009/2010
84
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Beispiele.
a) M ONTE C ARLO -S CHÄTZUNG VON θ =
R
[0,1]d
f (x) dx:
Das mehrdimensionale Integral ist folgendermaßen definiert:
Z 1
Z 1
Z
f (x) dx :=
...
f (x1 , . . . , xd ) dx1 . . . dxd .
[0,1]d
0
0
Der Wert von θ kann mit dem folgenden Algorithmus geschätzt werden.
erzeuge Pseudozufallszahlen u1 , u2 , . . . , und ∈ (0, 1)
x(1) := (u1 , . . . , ud )
x(2) := (ud+1 , . . . , u2d )
...
x(n) := (u(n−1)d+1 , . . . , und )
Pn
(i)
θ̂n = n1
i=1 f (x ) ist Schätzwert für θ.
b) M ONTE C ARLO -S CHÄTZUNG VON WAHRSCHEINLICHKEITEN :
Sei S abzählbar, B ⊆ S. Wir suchen:
p = µ(B) = Eµ [IB ]
Ein Monte Carlo-Schätzer ist
n
1X
IB (Xi ),
pbn =
n i=1
Xi unabhängig mit Verteilung µ.
F EHLERKONTROLLE :
• Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|b
pn − p| ≥ ε] ≤
Gilt beispielsweise n ≥
1
1
p (1 − p)
1
Var(b
pn ) = 2 Varµ (IB ) =
≤
.
2
2
ε
nε
nε
4nε2
5
,
ε2
dann erhalten wir:
P [p ∈
/ (b
pn − ε, pbn + ε)] ≤ 5%,
unabhängig von p,
d.h. das zufällige Intervall (b
pn − ε, pbn + ε) ist ein 95%-Konfidenzintervall für den
gesuchten Wert p.
• Mithilfe der Bernstein-Ungleichung (Chernoff-Abschätzung) erhalten wir für δ > 0
P
und Sn := ni=1 IB (Xi ):
1
2
P [p ∈
/ (b
pn −ε, pbn +ε)] = P Sn −p ≥ ε ≤ 2e−2nε ≤ δ,
n
Einführung in die Wahrscheinlichkeitstheorie
falls n ≥
log(2/δ)
.
2ε2
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
85
Für kleine δ ist die erhaltene Bedingung an n wesentlich schwächer als eine entsprechende Bedingung, die man durch Anwenden der Čebyšev-Ungleichung erhält. Für
den relativen Schätzfehler (b
pn − p)/p ergibt sich:
2 p2
P [|b
pn − p| ≥ εp] ≤ 2e−2nε
≤ δ,
falls n ≥
log(2/δ)
.
2ε2 p2
Die benötigte Anzahl von Stichproben für eine (ε, δ)-Approximation von p ist also polynomiell in ε, log(1/δ) und 1/p. Mit einer etwas modizifierten Abschätzung
kann man statt der Ordnung O( p12 ) sogar O( p1 ) erhalten, siehe Mitzenmacher und
Upfal: »Probability and Computing«.
Beispiel. Wie viele Stichproben sind nötig, damit der relative Fehler mit 95% Wahrscheinlichkeit unterhalb von 10% liegt? Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|b
pn − p| ≥ 0, 1 p] ≤
p (1 − p)
100 (1 − p)
=
≤ 0, 05,
n (0, 1 p)2
np
falls n ≥
2000 (1 − p)
.
p
So sind zum Beispiel für p = 10−5 ungefähr n ≈ 2 108 Stichproben ausreichend. Dies ist nur
eine obere Schranke, aber man kann zeigen, daß die tatsächlich benötigte Stichprobenzahl immer
noch sehr groß ist. Für solch kleine Wahrscheinlichkeiten ist das einfache Monte Carlo-Verfahren
ineffektiv, da die meisten Summanden von θbn dann gleich 0 sind. Wir brauchen daher ein alter-
natives Schätzverfahren mit geringerer Varianz.
Varianzreduktion durch Importance Sampling
Sei ν eine weitere Wahrscheinlichkeitsverteilung auf S mit Massenfunktion ν(x) = ν({x}). Es
gelte ν(x) > 0 für alle x ∈ S. Dann können wir den gesuchten Wert θ auch als Erwartungswert
bzgl. ν ausdrücken:
θ = Eµ [f ] =
X
f (x) µ(x) =
x∈S
X
f (x)
x∈S
µ(x)
ν(x) = Eν [f ̺],
ν(x)
wobei
̺(x) =
µ(x)
ν(x)
der Quotient der beiden Massenfunktionen ist. Ein alternativer Monte Carlo-Schätzer für θ ist
daher
Universität Bonn
n
1X
f (Yi ) ̺(Yi ),
θen =
n i=1
Wintersemester 2009/2010
86
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
e1
v
e2
w
e3
Abbildung 3.1: kleiner Beispielgraph für Perkolation
wobei die Yi unabhängige Zufallsvariablen mit Verteilung ν sind. Auch θen ist erwartungstreu:
Für die Varianz erhalten wir:
Varν (θen ) =
Eν [θen ] = Eν [f ̺] = θ.
1
1 X
Varν (f ̺) =
f (x)2 ̺(x)2 ν(x) − θ2 .
n
n x∈S
Bei geeigneter Wahl von ν kann die Varianz von θen deutlich kleiner sein als die des Schätzers θbn .
Faustregel für eine gute Wahl von ν : ν(x) sollte groß sein, wenn |f (x)| groß ist.
»Importance Sampling«: Mehr Gewicht für die wichtigen x!
Beispiel (Zuverlässigkeit von Netzwerken; Perkolation). Gegeben sei ein endlicher Graph (V, E),
wobei V die Menge der Knoten und E die Menge der Kanten bezeichnet. Wir nehmen an, dass
die Kanten unabhängig voneinander mit Wahrscheinlichkeit ε ≪ 1 ausfallen. Seien v, w ∈ E
vorgegebene Knoten. Wir wollen die Wahrscheinlichkeit
p = P [»v nicht verbunden mit w durch intakte Kanten«]
approximativ berechnen. Sei
S = {0, 1}E = {(xe )e∈E | xe ∈ {0, 1}}
die Menge der Konfigurationen von intakten (xl = 0) bzw. defekten (xl = 1) Kanten und µ die
Wahrscheinlichkeitsverteilung auf S mit Massenfunktion
µ(x) = εk(x) (1 − ε)|E|−k(x) ,
Einführung in die Wahrscheinlichkeitstheorie
k(x) =
X
xe .
e∈E
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
87
Sei
A = {x ∈ S | v, w nicht verbunden durch Kanten e mit xe = 0}.
Dann ist
p = µ(A) = Eµ [IA ].
Der »klassische Monte Carlo-Schätzer« für p ist
n
1X
pbn =
IA (Xi ),
n i=1
Fordern wir nun zum Beispiel
σ(b
pn ) =
Xi unabhängig mit Verteilung µ.
r
p(1 − p) ! p
≤ ,
n
10
dann benötigen wir eine Stichprobenanzahl
100 (1 − p)
,
p
um diese Bedingung zu erfüllen. Die Größenordnung von p für das in der obigen Graphik dargen≥
stellte Netzwerk mit ε = 1% lässt sich wie folgt abschätzen:
10−6 = µ(»e1 , e2 , e3 versagen«) ≤ p ≤ µ(»mindestens 3 Kanten versagen«)
22
· 10−6 ≈ 1, 5 · 10−3 .
=
3
Es sind also eventuell mehrere Millionen Stichproben nötig!
Um die benötigte Stichprobenanzahl zu reduzieren, wenden wir ein Importance Sampling-Verfahren
an. Sei
ν(x) = t−k(x) (1 − t)|E|−k(x) ,
die Verteilung bei Ausfallwahrscheinlichkeit t :=
3
.
22
k(x) =
X
xe ,
e∈E
Da unter ν im Schnitt 3 Kanten defekt sind,
ist der Ausfall der Verbindung bzgl. ν nicht mehr selten. Für den Schätzer
n
1 X
µ(Yi )
pen =
IA (Yi )
,
n i=1
ν(Yi )
Yi unabhängig mit Verteilung ν,
erhalten wir im Beispiel von oben:
2
1 X
2 µ(x)
IA (x)
− p2
Var(e
pn ) =
n x∈S
ν(x)
2 k |E|−k
22 ε
1 X |E|
(1 − ε)2
p
≤
≤ 0, 0053 .
n k=3 k
t
1−t
n
Diese Abschätzung ist etwa um den Faktor 200 besser als die für den einfachen Monte CarloSchätzer erhaltene Abschätzung der Varianz.
Universität Bonn
Wintersemester 2009/2010
88
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
3.4
Gleichgewichte von Markov-Ketten
Sei S eine abzählbare Menge, ν eine Wahrscheinlichkeitsverteilung auf S, und p(x, y), (x, y ∈
S), eine stochastische Matrix bzw. Übergangsmatrix, d.h. p(x, y) erfüllt die folgenden Bedingungen:
(i) p(x, y) ≥ 0
(ii)
P
y∈S
für alle x, y ∈ S,
für alle x ∈ S.
p(x, y) = 1
Hier und im folgenden bezeichnen wir diskrete Wahrscheinlichkeitsverteilungen und die entsprechenden Massenfunktionen mit demselben Buchstaben, d.h. ν(x) := ν({x}).
Definition. Eine Folge X0 , X1 , . . . : Ω → S von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißt zeitlich homogene Markov-Kette mit Startverteilung ν und Übergangsmatrix p, falls die folgenden Bedingungen erfüllt sind:
(i) Für alle x0 ∈ S gilt:
P [X0 = x0 ] = ν(x0 )
(ii) Für alle n ∈ N und x0 , . . . , xn+1 ∈ S mit P [X0 = x0 , . . . , Xn = xn ] 6= 0 gilt:
P [Xn+1 = xn+1 | X0 = x0 , . . . , Xn = xn ] = p(xn , xn+1 ).
Bemerkung. Die Bedingungen (i) und (ii) sind äquivalent zu:
P [X0 = x0 , . . . , Xn = xn ] = ν(x0 ) p(x0 , x1 ) · · · p(xn−1 , xn )
für alle n ∈ N, xi ∈ S.
Gleichgewichte und Stationarität
Für eine Wahrscheinlichkeitsverteilung µ mit Massenfunktion µ(x) = µ({x}) und eine stochastische Matrix p auf S setzen wir
(µ p)(y) :=
X
µ(x) p(x, y),
x∈S
(y ∈ S),
d.h. µ p ist der Zeilenvektor, den wir erhalten, wenn wir den Zeilenvektor (µ(x))x∈S von links an
die Matrix p multiplizieren.
Lemma 3.6.
i) Die Verteilung zur Zeit n einer Markov-Kette mit Startverteilung ν und Über-
gangsmatrix p ist ν pn .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
89
ii) Gilt ν p = ν, dann folgt Xn ∼ ν für alle n ∈ N. (»Stationarität«)
Beweis.
i) Wie im Beweis von Satz 2.4 erhalten wir
P [Xn = y | X0 = x] = pn (x, y)
für alle n ∈ N und x, y ∈ S mit P [X0 = x] 6= 0, und damit:
X
P [Xn = y] =
x∈S
P [X0 =x]6=0
=
X
P [Xn = y | X0 = x] P [X0 = x]
pn (x, y) ν(x) = (ν pn )(y).
x∈S
ν(x)6=0
ii) Aus ν p = ν folgt ν pn = ν für alle n ∈ N.
Definition.
i) Eine Wahrscheinlichkeitsverteilung µ auf S heißt Gleichgewichtsverteilung
(oder stationäre Verteilung) der Übergangsmatrix p, falls µ p = µ, d.h. falls:
X
µ(x) p(x, y) = µ(y)
x∈S
für alle y ∈ S.
ii) µ erfüllt die Detailed Balance-Bedingung bzgl. der Übergangsmatrix p, falls gilt:
µ(x) p(x, y) = µ(y) p(y, x)
für alle x, y ∈ S
(3.4.1)
Satz 3.7. Erfüllt µ die Detailed Balance-Bedingung (3.4.1), dann ist µ eine Gleichgewichtsverteilung von p.
Beweis. Aus der Detailed Balance-Bedingung folgt:
X
µ(x) p(x, y) =
x∈S
X
µ(y) p(y, x) = µ(y).
x∈S
Bemerkung. Bei Startverteilung µ gilt:
µ(x) p(x, y) = P [X0 = x, X1 = y],
Universität Bonn
»Fluss von x nach y«.
Wintersemester 2009/2010
90
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
µ(x) p(x, y)
=
µ(y) p(y, x)
»Fluss von x nach y«
P
x∈S µ(x) p(x, y)
=
»Fluss von y nach x«
P
x∈S µ(y) p(y, x)
D ETAILED BALANCE:
G LEICHGEWICHT:
=
»Gesamter Fluss nach y«
Beispiele.
»Gesamter Fluss von y«.
a) M ARKOV-K ETTE AUF S = {0, 1}:
Seien α, β ∈ [0, 1] und
1−α
p=
β
α
1−β
!
.
Dann ist die Gleichgewichtsbedingung µ p = µ äquivalent zu den folgenden Gleichungen:
µ(0) = µ(0) (1 − α) + µ(1) β,
µ(1) = µ(0) α + µ(1) (1 − β).
Da µ eine Wahrscheinlichkeitsverteilung ist, sind beide Gleichungen äquivalent zu
β (1 − µ(0)) = α µ(0).
Die letzte Gleichung
ist äquivalent zur Detailed Balance-Bedingung (3.4.1). Falls α+β > 0
gilt, ist µ =
β
, α
α+β α+β
die eindeutige Gleichgewichtsverteilung und erfüllt die Detailed
Balance-Bedingung. Falls α = β = 0 gilt, ist jede Wahrscheinlichkeitsverteilung µ eine
Gleichgewichtsverteilung mit Detailed Balance-Bedingung.
b) Z YKLISCHER R ANDOM WALK : Sei S = Z/nZ ein diskreter Kreis, und
p(k, k + 1) = p,
Die Gleichverteilung µ(x) =
1
n
p(k, k − 1) = 1 − p.
ist ein Gleichgewicht. Die Detailed Balance-Bedingung ist
dagegen nur für p = 12 , d.h. im symmetrischen Fall, erfüllt.
c) E HRENFEST-M ODELL:
Sei S = {0, 1, . . . , n},
p(k, k − 1) =
k
,
n
Einführung in die Wahrscheinlichkeitstheorie
p(k, k + 1) =
n−k
.
n
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
91
Man kann erwarten, daß sich im Gleichgewicht jede Kugel mit Wahrscheinlichkeit 21 in
jeder der beiden Urnen befindet. Tatsächlich erfüllt die Binomialverteilung µ(k) = nk 2−n
mit Parameter p =
1
2
die Detailed Balance-Bedingung:
µ(k − 1) p(k − 1, k) = µ(k) p(k, k − 1)
k = 1, . . . , n
ist äquivalent zu
2−n
n!
n!
n − (k − 1)
k
= 2−n
(k − 1)!(n − (k − 1))!
n
k!(n − k)! n
k = 1, . . . , n
d) R ANDOM WALKS AUF G RAPHEN :
Sei (V, E) ein endlicher Graph, S = V die Menge der Knoten.
• Sei
p(x, y) =


1
deg(x)
falls {x, y} ∈ E,
0
sonst.
Die Detailed Balance-Bedingung lautet in diesem Fall:
µ(x) p(x, y) = µ(y) p(y, x).
Sie ist erfüllt, falls
µ(x) = c deg(x)
gilt, wobei c eine Konstante ist. Damit µ eine Wahrscheinlichkeitsverteilung ist, muss
c so gewählt werden, dass gilt:
X
x∈B
deg(x) = 2 |E|.
Somit ist die Gleichgewichtsverteilung:
µ(x) =
• Sei △ := maxx∈V deg(x),
p(x, y) =

1
△
1 −
deg(x)
.
2|E|
deg(x)
△
falls {x, y} ∈ E,
sonst.
Es gilt p(x, y) = p(y, x) und somit ist die Gleichverteilung auf V die stationäre Verteilung.
Universität Bonn
Wintersemester 2009/2010
92
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Ist deg(x) konstant, dann stimmen die Random Walks in beiden Beispielen überein, und
die Gleichverteilung ist ein Gleichgewicht.
Im nächsten Abschnitt zeigen wir:
Satz (Konvergenzsatz für Markov-Ketten). Ist S endlich, und p eine irreduzible und aperiodische
stochastische Matrix mit Gleichgewicht µ, dann gilt für alle Wahrscheinlichkeitsverteilungen ν
auf S:
lim (ν pn )(x) = µ(x)
n→∞
für alle x ∈ S.
Aufgrund des Konvergenzsatzes können wir Stichproben von einer Wahrscheinlichkeitsverteilung µ näherungsweise erzeugen, indem wir eine Markov-Kette Xn mit Gleichgewicht µ simulieren, und für großes n auswerten. Wie findet man eine Markov-Kette mit einer vorgegebenen
stationären Verteilung?
Metropolis-Algorithmus und Gibbs-Sampler
Die Metropolis-Kette
Sei q(x, y) eine symmetrische stochastische Matrix, d.h. q(x, y) = q(y, x) für alle x, y ∈ S.
Dann erfüllt die Gleichverteilung die Detailed Balance-Bedingung (3.4.1). Sei nun µ eine beliebige Wahrscheinlichkeitsverteilung auf S mit µ(x) > 0 für alle x ∈ S. Wie können wir die
Übergangsmatrix q so modifizieren, dass die Detailed Balance-Bedingung bzgl. µ erfüllt ist?
Algorithmus 3.8 (Metropolis-Algorithmus (Update x → y)).
Wahrscheinlichkeit q(x, y) vor
schlage Übergang x → y mit
akzeptiere Übergang mit Wahrscheinlichkeit α(x, y) ∈ [0, 1]
sonst verwerfe Vorschlag und bleibe bei x
Ü BERGANGSMATRIX :

α(x, y) q(x, y)
p(x, y) :=
1 − P
y6=x α(x, y) q(x, y)
für y 6= x,
für y = x.
Die Detailed Balance-Bedingung lautet:
µ(x) α(x, y) = µ(y) α(y, x)
für alle x, y ∈ S.
Sie ist äquivalent dazu, dass
b(x, y) := µ(x) α(x, y)
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
93
symmetrisch in x und y ist. Was ist die größtmögliche Wahl von b(x, y)?
Aus α(x, y) ≤ 1 folgen
b(x, y) ≤ µ(x),
b(x, y) = b(y, x) ≤ µ(y),
und somit
b(x, y) ≤ min(µ(x), µ(y)).
Der größtmögliche Wert b(x, y) = min(µ(x), µ(y)) entspricht gerade

falls µ(y) ≥ µ(x),
µ(y) 1
α(x, y) = min 1,
=
 µ(y) falls µ(x) ≥ µ(y).
µ(x)
µ(x)
Definition. Die Markov-Kette mit Übergangsmatrix
µ(y)
· q(x, y)
p(x, y) = min 1,
µ(x)
für y 6= x
heißt Metropolis-Kette mit Vorschlagsverteilung q(x, y) und Gleichgewicht µ.
Satz 3.9. µ erfüllt die Detailed Balance-Bedingung bzgl. p.
Beweis. siehe oben.
Der Gibbs-Sampler
Sei S = S1 × · · · × Sd ein endlicher Produktraum, µ(x1 , . . . , xd ) eine Wahrscheinlichkeitsverteilung auf S und
µ(x1 , . . . , xd )
z∈Si µ(x1 , . . . , xi−1 , z, xi+1 , . . . , xd )
µi (xi | x1 , . . . , xi−1 , xi+1 , . . . , xd ) := P
die bedingte Verteilung der i-ten Komponente gegeben die übrigen Komponenten.
Algorithmus 3.10 (Gibbs-Sampler (Update x → y)).
y := x
for i := 1, . . . d do
update yi ∼ µi ( • | y1 , . . . yi−1 , yi+1 , . . . , yd )
end for
return y
Universität Bonn
Wintersemester 2009/2010
94
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Ü BERGANGSMATRIX :
p = pd pd−1 · · · p1 ,
wobei

µi (yi | y1 , . . . , yi−1 , yi+1 , . . . , yd ) falls yk = xk für alle k 6= i,
pi (x, y) =
0
sonst.
Satz 3.11.
i) µ erfüllt die Detailed Balance-Bedingung bzgl. pi für alle i = 1, . . . , d.
ii) µ ist ein Gleichgewicht von p.
Beweis.
i) Der Beweis der ersten Aussage ist eine Übungsaufgabe.
ii) Nach der ersten Aussage ist µ ein Gleichgewicht von pi für alle i. Also gilt auch
µ p = µ pd pd−1 · · · p1 = µ.
Bemerkung. Zur Simulation von Yn , n ≥ 0, genügt es, die Massenfunktion µ(x) bis auf eine
multiplikative Konstante zu kennen:
aus µ(x) = C f (X) folgt
α(x, y) = min 1,
f (y) f (x)
unabhängig von C.
Beispiel (Rucksackproblem). Gegeben:
ω1 , . . . , ωd ∈ R, »Gewichte«,
v1 , . . . , vd ∈ R, »Werte«.
Rucksack mit maximalem Gewicht b > 0, packe soviel Wert wie möglich ein.
S = {0, 1}d ,
Sb = {(z1 , . . . , zd ) ∈ S :
Pd
alle Konfigurationen,
i=1 zi
wi ≤ b}, zulässige Konfigurationen,
zi = 1 : i-ter Gegenstand im Rucksack.
RUCKSACKPROBLEM:
maximiere V (z) =
Pd
i=1 zi
Einführung in die Wahrscheinlichkeitstheorie
vi unter Nebenbedingung z ∈ Sb .
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
95
Das Rucksackproblem ist NP-vollständig, insbesondere ist keine Lösung in O(dk ) Schritten für
ein k ∈ N bekannt.
S TOCHASTISCHER Z UGANG : S IMULATED A NNEALING
Für β > 0 betrachten wir die Wahrscheinlichkeitsverteilung

 1 eβ V (z) für z ∈ Sb ,
µβ (z) = Zβ
0
für z ∈ S\Sb ,
auf S, wobei Zβ =
P
z∈Sb
eβ V (z) eine Konstante ist, die µ zu einer Wahrscheinlichkeitsverteilung
normiert. Für β = 0 ist µβ die Gleichverteilung auf Sb . Für β → ∞ konvergiert µβ gegen die
Gleichverteilung auf der Menge der globalen Maxima von V , denn:

0
β V (z)
e
1
µβ (z) =
=P
−→
β (V (y)−V (z))

1
Zβ
y∈Sb e
|{y | V (y)=max V }|
I DEE :
falls V (z) 6= max V,
falls V (z) = max V.
Simuliere Stichprobe z von µβ für β groß (β → ∞). Dann ist V (z) wahrscheinlich
nahe dem Maximalwert.
M ETROPOLIS -A LGORITHMUS :
Sei x+ := max(x, 0) der Positivteil von x. Wir wählen als
Vorschlagsmatrix die Übergangsmatrix

 1 falls zi 6= wi für genau ein i ∈ {1, . . . , d},
q(z, w) := d
0 sonst,
des Random Walks auf {0, 1}d . Für die Akzeptanzwahrscheinlichkeit ergibt sich

 −β (V (z)−V (w))
e
für z, w ∈ Sb ,
µβ (w)
=
αβ (z, w) = min 1,
0
µβ (z)
für z ∈ Sb , w ∈
/ Sb .
Der Vorschlag w wir also mit Wahrscheinlichkeit 1 akzeptiert, wenn V (w) ≥ V (z) gilt – andernfalls wird der Vorschlag nur mit Wahrscheinlichkeit exp −β (V (z) − V (w)) akzeptiert.
Algorithmus 3.12 (Simulation einer Markov-Kette mit Gleichgewicht µβ ).
Sb
initialisiere z (0) ∈
for n = 1, 2, . . . do
z (n) := w := z (n−1)
erzeuge i ∼ Unif{1, . . . , d}
wi := 1 − wi
if w ∈ Sb then
Universität Bonn
Wintersemester 2009/2010
96
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
erzeuge u ∼ Unif(0, 1)
if u ≤ αβ (z, w) then
z (n) := w
end if
end if
end for
Algorithmus 3.13 (Simulated Annealing). Wie Algorithmus 3.12 aber mit β = β(n) → ∞ für
n → ∞.
Bemerkung.
a) P HYSIKALISCHE I NTERPRETATIONEN:
µβ ist die Verteilung im thermodynamischen Gleichgewicht für die Energiefunktion H(z) =
−V (z) bei der Temperatur T = 1/β. Der Grenzwert β → ∞ entspricht T → 0 (»simuliertes Abkühlen«).
b) Die beim Simulated Annealing-Verfahren simulierte zeitlich inhomogene Markov-Kette
findet im allgemeinen nicht das globale Maximum von V , sondern kann in lokalen Maxima »steckenbleiben«. Man kann zeigen, daß die Verteilung der Markov-Kette zur Zeit n
gegen die Gleichverteilung auf den Maximalstellen konvergiert, falls β(n) nur sehr langsam (logarithmisch) gegen +∞ geht. In praktischen Anwendungen wird der Algorithmus
aber in der Regel mit einem schnelleren »Cooling schedule« β(n) verwendet. Das Auffinden eines globalen Maximums ist dann nicht garantiert – trotzdem erhält man ein oft
nützliches heuristisches Verfahren.
3.5
Konvergenz ins Gleichgewicht
Sei S = {x1 , . . . , xm } eine endliche Menge, und
WV(S) := {µ = (µ(x1 ), . . . , µ(xm )) | µ(xi ) ≥ 0,
m
X
i=1
µ(xi ) = 1} ⊆ Rm
die Menge aller Wahrscheinlichkeitsverteilungen auf S. Geometrisch ist WV(S) ein Simplex im
Rm . Wir führen nun einen Abstandsbegriff auf WV(S) ein:
Definition. Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen µ, ν auf S ist:
1
1X
dT V (µ, ν) := kµ − νk1 =
|µ(x) − ν(x)|.
2
2 x∈S
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT
Bemerkung.
97
a) Für alle µ, ν ∈ WV(S) gilt:
dT V (µ, ν) ≤
1X
(µ(x) + ν(x)) = 1.
2 x∈S
b) Seien µ, ν Wahrscheinlichkeitsverteilungen und A := {x ∈ S | µ(x) ≥ ν(x)}. Dann gilt:
dT V (µ, ν) =
X
x∈A
(µ(x) − ν(x)) = max |µ(A) − ν(A)|.
A⊆S
Der Beweis dieser Aussage ist eine Übungsaufgabe.
Wir betrachten im folgenden eine stochastische Matrix p(x, y), (x, y ∈ S), mit Gleichgewicht
µ. Die Verteilung einer Markov-Kette mit Startverteilung ν und Übergangsmatrix p zur Zeit n ist
ν pn . Um Konvergenz ins Gleichgewicht zu zeigen, verwenden wir die folgende Annahme:
Es gibt ein δ ∈ (0, 1] und ein r ∈ N, so dass für alle x, y ∈ S
M INORISIERUNGSBEDINGUNG :
gilt:
pr (x, y) ≥ δ · µ(y).
(3.5.1)
Satz 3.14. Gilt die Minorisierungsbedingung (3.5.1), dann konvergiert ν pn für jede Startverteilung ν exponentiell schnell gegen µ. Genauer gilt für alle n ∈ N und ν ∈ WV(S):
dT V (ν pn , µ) ≤ (1 − δ)⌊n/r⌋ .
Bemerkung. Insbesondere ist µ das eindeutige Gleichgewicht: Betrachte eine beliebige Wahrscheinlichkeitsverteilung ν mit ν p = ν. Dann folgt für n → ∞:
dT V (ν, µ) = dT V (ν pn , µ) −→ 0,
also dT V (µ, ν) = 0, und somit µ = ν.
Beweis.
1. Durch die Zerlegung
pr (x, y) = δ µ(y) + (1 − δ) q(x, y)
der r-Schritt-Übergangswahrscheinlichkeiten wird eine stochastische Matrix q definiert,
denn
(i) Aus der Minorisierungsbedingung (3.5.1) folgt q(x, y) ≥ 0 für alle x, y ∈ S.
P
P
P
(ii) Aus y∈S pr (x, y) = 1, y∈S µ(y) = 1 folgt y∈S q(x, y) = 1 für alle x ∈ S.
Universität Bonn
Wintersemester 2009/2010
98
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Wir setzen im folgenden λ := 1 − δ. Dann gilt für alle ν ∈ WV(S):
ν pr = (1 − λ) µ + λ ν q.
(3.5.2)
2. Wir wollen mit vollständiger Induktion zeigen:
ν pkr = (1 − λk ) µ + λk ν q k
für alle k ≥ 0,
ν ∈ WV(S).
(3.5.3)
Für k = 0 ist die Aussage offensichtlich wahr. Gilt (3.5.3) für ein k ≥ 0, dann erhalten wir
durch Anwenden von Gleichung (3.5.2) auf νe pr mit νe = ν q k :
ν p(k+1)r = ν pkr pr
= ((1 − λk ) µ + λk ν q k ) pr
|{z}
=e
ν
= (1 − λk ) µ pr +(1 − λ) λk µ + λk+1 ν q k q
|{z}
=µ
= (1 − λk+1 ) µ + λk+1 ν q k+1 .
3. Für n ∈ N, n = k r + i, (k ∈ N, 0 ≤ i < r), folgt:
ν pn = ν pkr pi = (1 − λk ) µ pi +λk ν q k pi ,
|{z}
=µ
also
ν pn − µ = λk (ν q k pi − µ)
und damit
dT V (ν pn , µ) =
für alle ν ∈ WV(S),
1
kν pn − µk1 = λk dT V (ν q k pi , µ) ≤ λk
2
nach der letzten Bemerkung.
Welche Übergangsmatrizen erfüllen die Minorisierungsbedingung?
Definition.
i) Die stochastische Matrix p heißt irreduzibel, falls es für alle x, y ∈ S ein
n ∈ N gibt, so dass pn (x, y) > 0 gilt.
ii) Die Periode von x ∈ S ist definiert als
Periode(x) := ggT({n ∈ N | pn (x, x) > 0}).
|
{z
}
=:R(x)
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT
Lemma 3.15.
99
i) Falls p irreduzibel ist, gilt Periode(x) = Periode(y) für alle x, y ∈ S.
ii) Falls p irreduzibel und aperiodisch (d.h. Periode(x) = 1 für alle x ∈ S) ist, gibt es ein
r > 0, so dass pr (x, y) > 0 für alle x, y ∈ S gilt.
Beweis. Seien x, y ∈ S.
i) Sei p irreduzibel. Dann gibt es ein s und ein t ∈ N, so dass gilt:
ps (x, y) > 0
und
pt (y, x) > 0.
Für a := s + t folgt:
• pa (x, x) ≥ ps (x, y) pt (y, x) > 0, also a ∈ R(x).
• pn+a (x, x) ≥ ps (x, y) pn (y, y) pt (y, x) > 0 für alle n ∈ R(y), also n + a ∈ R(x) für
alle n ∈ R(y).
Periode(x) ist ein gemeinsamer Teiler von R(x), somit Teiler von a und n + a, also auch
von n für alle n ∈ R(y). Daher ist Periode(x) ein gemeinsamer Teiler von R(y) und somit
gilt:
Periode(x) ≤ Periode(y).
»≥« wird analog gezeigt. Es folgt:
Periode(x) = Periode(y).
ii) R(x) ist abgeschlossen unter Addition, denn falls s, t ∈ R(x) ist, gilt:
ps+t (x, x) ≥ ps (x, x) pt (x, x) > 0,
und somit s + t ∈ R(x). Da p aperiodisch ist, folgt ggT(R(x)) = 1 für alle x ∈ S. Nach
einem Satz der Zahlentheorie gilt:
Da R(x) additiv abgeschlossen, gibt es für alle x ein r(x) ∈ N mit n ∈ R(x) für alle
n ≥ r(x).
n ∈ R(x) impliziert pn (x, x) > 0. Da p irreduzibel ist, folgt, dass es für alle x, y ein
r(x, y) ∈ N gibt, so dass gilt:
pn (x, y) > 0
für alle n ≥ r(x, y).
Für r ≥ maxx,y∈S r(x, y) folgt dann pr (x, y) > 0 für alle x, y ∈ S.
Universität Bonn
Wintersemester 2009/2010
100
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Satz 3.16 (Konvergenzsatz für endliche Markov-Ketten). Ist p irreduzibel und aperiodisch mit
Gleichgewicht µ, dann gilt:
lim dT V (ν pn , µ) = 0
für alle ν ∈ WV(S).
n→∞
Beweis. Da p irreduzibel und aperiodisch ist, gibt es ein r ∈ N mit:
pr (x, y) > 0
für alle x, y ∈ S.
Daher gibt es ein r ∈ N und ein δ > 0, so dass gilt:
pr (x, y) > δ µ(y)
für alle x, y ∈ S,
(z.B. δ := minx,y∈S pr (x, y)). Mit Satz 3.14 folgt die Behauptung.
Beispiel (Metropolis-Kette). Sei S endlich, µ(x) > 0 für alle x ∈ S, nicht konstant, und q(x, y)
irreduzibel. Dann ist p(x, y) irreduzibel und aperiodisch. Somit folgt die Konvergenz ins Gleichgewicht nach Satz 3.16, allerdings evtl. sehr langsam!
A NWENDUNG : M ARKOV-C HAIN -M ONTE C ARLO -V ERFAHREN
Sei µ ∈ WV(S), f : S → R.
G ESUCHT:
θ = Eµ [f ],
M ARKOV-C HAIN -M ONTE C ARLO -S CHÄTZER:
b+n
1 X
b
θn,b =
f (Xk ),
n k=b+1
wobei b ∈ N eine feste Konstante (»burn-in-Zeit«) und (Xk )k∈N irreduzible Markov-Ketten mit
Gleichgewicht µ sind.
Satz (Ergodensatz / Gesetz der großen Zahlen für Markov-Ketten). : Für alle b ∈ N gilt:
lim θbn,b = θ
n→∞
mit Wahrscheinlichkeit 1,
Beweis. siehe Vorlesung »Stochastische Prozesse«.
Die Analyse des Schätzfehler ist im Allgemeinen diffizil!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 4
Stetige und Allgemeine Modelle
4.1 Unendliche Kombinationen von Ereignissen
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Ist (An )n∈N eine Folge von bzgl. P unabhängigen
Ereignissen, An ∈ A mit fester Wahrscheinlichkeit
P [An ] = p ∈ [0, 1]
und
Sn (ω) =
n
X
i=1
IAi (ω) = |{1 ≤ i ≤ n : ω ∈ Ai }|
die Anzahl der Ereignisse unter den ersten n, die eintreten, dann ist Sn binomialverteilt mit den
Parametern n und p. Für die relative Häufigkeit
Ungleichung
d.h. die Verteilung von
Sn
n
Sn
n
der Ereignisse Ai gilt die Bernstein-Chernoff-
Sn
2
P − p ≥ ε ≤ 2 · e−2ε n ,
n
(4.1.1)
konzentriert sich für n → ∞ sehr rasch in der Nähe von p, siehe Ab-
schnitt 2.3. Insbesondere ergibt sich ein Spezialfall des schwachen Gesetzes der großen Zahlen:
die Folge der Zufallsvariablen
Sn
n
konvergiert P -stochastisch gegen p, d.h.
Sn
n→∞
P − p ≥ ε → 0 für alle ε > 0.
n
Definition. (1). Eine P -Nullmenge ist ein Ereignis A ∈ A mit P [A] = 0.
(2). Ein Ereignis A ∈ A tritt P -fast sicher bzw. für P -fast alle ω ∈ Ω ein, falls P [A] = 1 gilt,
d.h. falls AC eine P -Nullmenge ist.
101
102
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir wollen nun Methoden entwickeln, die es uns ermöglichen, zu zeigen, dass aus (4.1.1) sogar
Sn (ω)
=p
n→∞
n
lim
für P -fast alle ω ∈ Ω
(4.1.2)
folgt. Das relevante Ereignis
Sn (ω)
L := ω ∈ Ω : lim
=p
n→∞
n
lässt sich offensichtlich nicht durch endlich viele der Ai beschreiben.
Seien nun allgemein A1 , A2 , . . . ∈ A beliebige Ereignisse. Uns interessieren zusammengesetzte
Ereignisse wie z.B.
∞
S
n=1
∞
T
n=1
∞
T
An
(„Eines der An tritt ein“)
An
(„Alle der An treten ein“)
∞
S
An = {ω ∈ Ω : ∀m
∞ T
∞
S
An = {ω ∈ Ω : ∃m
m=1 n=m
m=1 n=m
∃n ≥ m : ω ∈ An }
(„Unendlich viele der An treten ein“ oder
„An tritt immer mal wieder ein“)
∀n ≥ m : ω ∈ An }
(„An tritt schließlich ein“)
Aufgrund der Eigenschaften einer σ-Algebra liegen alle diese Mengen wieder in A. Das Ereignis
L läßt sich wie folgt als abzählbare Kombination der Ai ausdrücken:
ω∈L
⇐⇒
⇐⇒
⇐⇒
Somit gilt
Sn
=p
n→∞ n
Sn
∀ε ∈ Q+ : − p ≤ ε schließlich
n
Sn
∀ε ∈ Q+ ∃m ∈ N ∀n ≥ m : − p ≤ ε
n
lim
\ Sn
− p ≤ ε schließlich
L =
n
ε∈Q+
\ [ \ Sn
=
n − p ≤ ε .
ε∈Q m∈N n≥m
+
Um Wahrscheinlichkeiten von solchen Ereignissen berechnen zu können, ist es wesentlich, dass
eine Wahrscheinlichkeitsverteilung P nicht nur endlich additiv, sondern sogar σ-additiv ist. Der
folgende Satz gibt eine alternative Charakterisierung der σ-Additivität:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
103
Satz 4.1 (σ-Additivität und monotone Stetigkeit). Sei A eine σ-Algebra und P : A → [0, ∞]
additiv, d.h.
A ∩ B = ∅ ⇒ P [A ∪ B] = P [A] + P [B].
(i) P ist σ-additiv genau dann, wenn:
A1 ⊆ A2 ⊆ . . . ⇒ P
"
∞
[
#
An = lim P [An ]
n=1
n→∞
(ii) Gilt P [Ω] = 1, dann ist dies auch äquivalent zu:
#
"∞
\
A1 ⊇ A2 ⊇ . . . ⇒ P
An = lim P [An ]
n→∞
n=1
Beweis.
(i) Sei P σ-additiv und A1 ⊆ A2 ⊆ . . . . Die Mengen B1 := A1 , B2 := A2 \A1 ,
B3 := A3 \A2 , . . . sind disjunkt mit
n
[
Bi =
i=1
n
[
Ai = An
∞
[
und
i=1
Bi =
i=1
∞
[
Ai .
i=1
Also gilt:
P
"∞
[
i=1
Ai
#
=
P
"∞
[
Bi
i=1
σ−add.
=
#
∞
X
P [Bi ]
i=1
=
=
=
lim
n
X
n→∞
lim P
n→∞
P [Bi ]
i=1
"
n
[
Bi
i=1
#
lim P [An ].
n→∞
Der Beweis der umgekehrten Implikation wird dem Leser als Übungsaufgabe überlassen.
(ii) Gilt P [Ω] = 1, dann folgt
" ∞ !c #
"∞ #
"∞ #
[
[
\
= 1−P
P
Aci
Aci .
Ai = P
i=1
i=1
i=1
Die Behauptung folgt nun aus (i).
Universität Bonn
Wintersemester 2009/2010
104
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Ab jetzt setzen wir wieder voraus, dass P eine Wahrscheinlichkeitsverteilung ist. Eine weitere
Folgerung aus der σ-Additivität ist:
Satz 4.2 (σ-Subadditivität). Für beliebige Ereignisse A1 , A2 , . . . ∈ A gilt:
#
"∞
∞
X
[
P [An ]
P
An ≤
n=1
n=1
Abbildung 4.1: Darstellung von drei Mengen. Das Maß der Vereinigung von Mengen ist stets
kleiner gleich als die Summe der Maße der einzelnen Mengen.
Beweis. Die Mengen
sind disjunkt mit
∞
S
Bn =
n=1
P
∞
S
Bn = An \ (An−1 ∪ · · · ∪ A1 )
An . Also gilt:
n=1
"
∞
[
n=1
#
An = P
"
∞
[
#
Bn =
n=1
∞
X
n=1
P [B ] ≤
| {z n}
≤P [An ]
∞
X
P [An ].
n=1
Bemerkung. Insbesondere ist eine Vereinigung von abzählbar vielen Nullmengen wieder eine
Nullmenge.
Der folgende Satz spielt eine zentrale Rolle beim Beweis von Konvergenzaussagen für Zufallsvariablen:
Satz 4.3 (1. Borel - Cantelli - Lemma). Für Ereignisse A1 , A2 , . . . ∈ A mit
∞
X
n=1
P [An ] < ∞
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
gilt:
"
P [„unendlich viele der An treten ein“] = P
Beweis. Da die Folge
S
105
\ [
#
An = 0.
m n≥m
An =: Bm von Ereignissen aus A monoton fallend ist, ergibt sich nach
n≥m
Satz 4.1 und 4.2:
P
"
\ [
m n≥m
An
#
= P
4.1
=
=
"
\
Bm
m
#
lim P [Bm ]
#
"
[
An
lim P
m→∞
m→∞
n≥m
|
{z
∞
4.2 P
≤
≤ lim inf
m→∞
da die Summe
∞
P
n=m
∞
X
n=m
|
}
P [An ]
P [An ] = 0,
{z
m→∞
P [An ] nach Voraussetzung konvergiert.
→ 0
}
n=1
Das erste Borel-Cantelli-Lemma besagt, daß mit Wahrscheinlichkeit 1 nur endlich viele der ErP
eignisse An , n ∈ N eintreten, falls
P [An ] < ∞ gilt. Die Unabhängigkeit der Ereignisse ermöglicht die Umkehrung dieser Aussage. Es gilt sogar:
Satz 4.4 (2. Borel - Cantelli - Lemma). Für unabhängige Ereignisse A1 , A2 , . . . ∈ A mit
∞
X
n=1
P [An ] = ∞
gilt:
P [An unendlich oft] = P
"
\ [
m n≥m
#
An = 1
Bemerkung. Insbesondere ergibt sich ein 0-1 Gesetz:
Sind A1 , A2 , . . . ∈ A unabhängige Ereignisse, dann beträgt die Wahrscheinlichkeit, dass unendP
lich viele der An , n ∈ N, eintreten, entweder 0 oder 1 - je nachdem ob die Summe
P [An ]
endlich oder unendlich ist.
Universität Bonn
Wintersemester 2009/2010
106
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir zeigen nun das zweite Borel-Cantelli-Lemma:
Beweis. Sind die Ereignisse An , n ∈ N unabhängig, so auch die Ereignisse AC
n , siehe Lemma
2.5. Zu zeigen ist:
P [An nur endlich oft] = P
Nach Satz 4.1 gilt:
P
"
[ \
#
"
AC
=0
n
"
#
m n≥m
= lim P
AC
n
m n≥m
#
[ \
m→∞
\
AC
n
n≥m
(4.1.3)
Wegen der Unabhängigkeit der Ereignisse AC
n erhalten wir zudem
#
"
" k
#
\
\
mon.
Stetigkeit
P
AC
=
lim P
AC
n
n
k→∞
n≥m
unabh.
=
da lim
k
P
k→∞ n=m
P [An ] =
∞
P
n=m
lim
k→∞
n=m
k
Y
n=m
lim inf
=
lim inf e
k→∞
k→∞
=1−P [An ]≤exp(−P [An ])
k
Y
≤
P [AC ]
| {zn}
e−P [An ]
n=m
k
P
P [An ]
−
n=m
= 0,
(4.1.4)
P [An ] = ∞ nach Voraussetzung.
Aus 4.1.3 und 4.1.4 folgt die Behauptung.
Mithilfe des 1. Borel-Cantelli-Lemmas können wir nun eine erste Version eines starken Gesetzes
großer Zahlen beweisen. Sei p ∈ [0, 1].
Satz 4.5 (Starkes Gesetz großer Zahlen I, Borel 1909, Hausdorff 1914, Cantelli 1917). Sind
A1 , A2 , . . . ∈ A unabhängige Ereignisse mit Wahrscheinlichkeit P [An ] = p für alle n ∈ N, dann
n
P
I Ai :
gilt für Sn =
i=1
Sn (ω)
= p für P -fast alle ω ∈ Ω
lim
|{z}
n→∞
| {z n }
asymptotische
W’keit
relative Häufig-
keit des Ereignisses
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
Beweis. Sei
107
1
L := ω ∈ Ω Sn (ω) → p für n → ∞
n
Zu zeigen ist, dass LC ∈ A mit P [LC ] = 0.
Wegen
ω∈L
C
Sn (ω)
⇐⇒
6→ p ⇐⇒ ∃ε ∈ Q+
n
gilt:
[ Sn (ω)
L =
n − p > ε
C
unendlich oft
ε∈Q+
Sn (ω)
:
− p > ε
n
unendlich oft
[ \ [ Sn (ω)
=
n − p > ε ∈ A.
ε∈Q+ m n≥m
Zudem folgt aus der Bernstein-Chernoff-Abschätzung:
X
∞
∞
X
Sn
2
P − p > ε ≤
2e−2nε < ∞
n
n=1
n=1
für alle ε > 0, also nach dem 1. Borel-Cantelli-Lemma:
Sn
P − p > ε unendlich oft = 0.
n
Also ist Lc eine Vereinigung von abzählbar vielen Nullmengen, und damit nach Satz 4.2 selbst
eine Nullmenge.
Das starke Gesetz großer Zahlen in obigem Sinn rechtfertigt nochmals im Nachhinein die empirische Interpretation der Wahrscheinlichkeit eines Ereignisses als asymptotische relative Häufigkeit
bei unabhängigen Wiederholungen.
Beispiel (Random Walk/Irrfahrt). Wir betrachten einen Random Walk
Zn = X1 + X2 + X3 + . . . + Xn
(n ∈ N)
mit unabhängigen identisch verteilten Inkrementen Xi , i ∈ N, mit
P [Xi = 1] = p
und
P [Xi = −1] = 1 − p,
p ∈ (0, 1) fest.
Die Ereignisse Ai := {Xi = 1} sind unabhängig mit P [Ai ] = p und es gilt:
Xi = IAi − IACi = 2IAi − 1,
also
Zn = 2Sn − n,
Universität Bonn
wobei
Sn =
n
X
I Ai .
i=1
Wintersemester 2009/2010
108
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Nach Satz 4.5 folgt:
Zn
Sn
= 2 lim
− 1 = 2p − 1 P -fast sicher.
n→∞ n
n→∞ n
lim
Für p 6=
1
2
wächst (bzw. fällt) Zn also mit Wahrscheinlichkeit 1 asymptotisch linear (siehe Abbil-
dung 4.2):
Zn ∼ (2p − 1) · n
P -fast sicher
(2p − 1)n
50
40
30
20
10
100
200
300
400
Abbildung 4.2: Random Walk mit Drift: p = 0.55, n = 500
Zn
→ 0 P -fast sicher. In diesem
n
Fall liegt für hinreichend große n der Graph einer typischen Trajektorie Zn (ω) in einem beliebig
Für p =
1
2
dagegen wächst der Random Walk sublinear, d.h.
kleinen Sektor um die x-Achse (siehe Abbildung 4.3).
10
100
200
300
400
−10
−20
Abbildung 4.3: Random Walk ohne Drift: p = 0.5, n = 500
Eine viel präzisere Beschreibung der Asymptotik des Random Walk liefert der Satz vom iterierten Logarithmus:
lim sup √
n→∞
Sn (ω)
= +1 P -fast sicher,
n log log n
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
lim inf √
n→∞
109
Sn (ω)
= −1 P -fast sicher
n log log n
Mehr dazu: siehe Vorlesung „Stochastische Prozesse.“
4.2 Allgemeine Wahrscheinlichkeitsräume
Bisher haben wir uns noch nicht mit der Frage befasst, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem unendlich viele unabhängige Ereignisse bzw. Zufallsvariablen realisiert
werden können. Auch die Realisierung einer auf einem endlichen reellen Intervall gleichverteilten Zufallsvariable auf einem geeigneten Wahrscheinlichkeitsraum haben wir noch nicht gezeigt.
Die Existenz solcher Räume wurde stillschweigend vorausgesetzt.
Tatsächlich ist es oft nicht notwendig, den zugrunde liegenden Wahrscheinlichkeitsraum explizit zu kennen - die Kenntnis der gemeinsamen Verteilungen aller relevanten Zufallsvariablen
genügt, um Wahrscheinlichkeiten und Erwartungswerte zu berechnen. Dennoch ist es an dieser
Stelle hilfreich, die grundlegenden Existenzfragen zu klären, und unsere Modelle auf ein sicheres
Fundament zu stellen. Die dabei entwickelten Begriffsbildungen werden sich beim Umgang mit
stetigen und allgemeinen Zufallsvariablen als unverzichtbar erweisen.
Beispiele von Wahrscheinlichkeitsräumen
Wir beginnen mit einer Auflistung von verschiedenen Wahrscheinlichkeitsräumen (Ω, A, P ), die
wir gerne konstruieren würden:
Dirac-Maß
Sei Ω beliebig, a ∈ Ω fest, A = P(Ω), P = δa , wobei
δa [A] :=

1
0
falls a ∈ A
sonst
Dies ist eine deterministische Verteilung mit:
P [{ω = a}] = 1
Universität Bonn
Wintersemester 2009/2010
110
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Diskrete Wahrscheinlichkeitsräume
Ist Ω eine abzählbare Menge und p : Ω → [0, 1] eine Gewichtsfunktion mit
P
p(ω) = 1,
ω∈Ω
dann haben wir bereits gezeigt, dass eine eindeutige Wahrscheinlichkeitsverteilung P auf der
Potenzmenge A = P(Ω) existiert mit
P [A] =
X
p(a) =
a∈A
X
p(a)δa [A]
a∈Ω
∀A ⊆ Ω.
Jede diskrete Wahrscheinlichkeitsverteilung ist eine Konvexkombination von Diracmaßen:
P =
X
p(a)δa
a∈Ω
Endliche Produktmodelle
Auch die Konstruktion mehrstufiger diskreter Modelle ist auf diese Weise möglich: Ist beispielsweise
Ω = {(ω1 , . . . , ωn ) : ωi ∈ Ωi } = Ω1 × . . . × Ωn
eine Produktmenge, und sind p1 , . . . , pn Gewichtsfunktionen von Wahrscheinlichkeitsverteilungen P1 , . . . , Pn auf Ω1 , . . . , Ωn , dann ist
p(ω) =
n
Y
pi (ωi )
i=1
die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung P = P1 ⊗ . . . ⊗ Pn auf Ω. Unter dieser
Wahrscheinlichkeitsverteilung sind die Zufallsvariablen Xi (ω) = ωi unabhängig.
Unendliches Produktmodell (z.B. Münzwurffolge)
Es stellt sich die Frage, ob wir auch unendlich viele unabhängige Zufallsvariablen auf einem ähnlichen Produktraum realisieren können. Im einfachsten Fall möchten wir eine Folge unabhängiger
fairer Münzwürfe (0-1-Experimente) auf dem Grundraum
Ω = {ω = (ω1 , ω2 , . . .) : ωi ∈ {0, 1}} = {0, 1}N
modellieren. Ω ist überabzählbar, denn die Abbildung X : (0, 1) → Ω, die einer reellen Zahl die
Ziffernfolge ihrer Binärdarstellung zuordnet, ist injektiv. Genauer ist eine injektive Abbildung
X : (0, 1) → Ω definiert durch
X(ω) = (X1 (ω), X2 (ω), X3 (ω), . . .),
Einführung in die Wahrscheinlichkeitstheorie
(4.2.1)
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
X1 (ω)
1
X2 (ω)
1
0.5
1.0
111
X3 (ω)
1
0.25 0.50 0.75 1.00
0.25
0.50
0.75
1.00
Abbildung 4.4: Darstellung der ersten drei Xi (ω).
wobei Xn (ω) = IDn (ω), Dn =
2n−1
S
i=1
[(2i − 1) · 2−n , 2i · 2−n ).
Wir suchen eine Wahrscheinlichkeitsverteilung P auf Ω mit
P [{ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an }] = 2−n
(4.2.2)
Gibt es eine σ-Algebra A, die alle diese Ereignisse enthält, und eine eindeutige Wahrscheinlich-
keitsverteilung P auf A mit (4.2.2)?
Wir werden in Abschnitt 5.3 zeigen, dass dies der Fall ist; wobei aber
(1). A 6= P(Ω)
(2). P [{ω}] = 0
und
für alle ω ∈ Ω
gelten muss. Das entsprechende Produktmodell unterscheidet sich in dieser Hinsicht grundlegend
von diskreten Modellen.
Kontinuierliche Gleichverteilung
Für die Gleichverteilung auf einem endlichen reellen Intervall Ω = [a, b], −∞ < a < b < ∞,
sollte gelten:
d−c
∀a ≤ c < d ≤ b.
(4.2.3)
b−a
Gibt es eine σ-Algebra B, die alle Teilintervalle von [a, b] enthält, und eine WahrscheinlichkeitsP [(c, d)] = P [[c, d]] =
verteilung P auf B mit (4.2.3)?
Wieder ist die Antwort positiv, aber erneut gilt notwendigerweise B 6= P(Ω) und P [{ω}] = 0
für alle ω ∈ Ω.
Tatsächlich sind die Probleme in den letzten beiden Abschnitten weitgehend äquivalent: die durch
die Binärdarstellung (4.2.1) definierte Abbildung X ist eine Bijektion von [0, 1) nach {0, 1}N \ A,
wobei A = {ω ∈ Ω : ωn = 1 schließlich} eine abzählbare Teilmenge ist. Eine Gleichverteilung
auf [0, 1) wird durch X auf eine Münzwurffolge auf {0, 1}N abgebildet, und umgekehrt.
Universität Bonn
Wintersemester 2009/2010
112
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Brownsche Bewegung
Simuliert man einen Random Walk, so ergibt sich in einem geeigneten Skalierungslimes mit
Schrittweite → 0 anscheinend eine irreguläre, aber stetige zufällige Bewegung in kontinuierlicher
Zeit. Der entsprechende, 1923 von N. Wiener konstruierte stochastische Prozess heißt Brown16
14
12
10
8
6
4
2
−2
−4
−6
−8
10
20
30
40
50
60
70
80
90
Abbildung 4.5: Graph einer Stichprobe der eindimensionalen Brownschen Bewegung
sche Bewegung, und kann durch eine Wahrscheinlichkeitsverteilung P (das Wienermaß) auf dem
Raum
Ω = C([0, 1], R) = {ω : [0, 1] → R|ω stetig}
beschrieben werden. Für diese, als Modell für Aktienkurse, zufällige Bewegungen, etc. in diversen Anwendungsbereichen fundamentale Wahrscheinlichkeitsverteilung gilt unter anderem:
1
P [{ω ∈ Ω : ω(t) ∈ [a, b)}] = √
2πt
Zb
x2
e− 2t dx
für alle t > 0,
a
siehe zum Beispiel die Vorlesung „Stochastische Prozesse“ im Sommersemester.
Um Wahrscheinlichkeitsverteilungen wie in den letzten beiden Beispielen zu konstruieren, benötigen wir zunächst geeignete σ-Algebren, die die relevanten Ereignisse bzw. Intervalle enthalten.
Dazu verwenden wir die folgende Konstruktion:
Konstruktion von σ-Algebren
Sei Ω eine beliebige Menge, und J ⊆ P(Ω) eine Kollektion von Ereignissen, die auf jeden Fall
in der zu konstruierenden σ-Algebra enthalten sein sollen (z.B. die Mengen aus den Beispielen
zu unendlichen Produktmodellen und kontinuierlichen Gleichverteilungen auf Seite 110f).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
Definition. Die Kollektion
σ(J ) :=
\
113
F
F ⊇J
F σ-Algebra auf Ω
von Teilmengen von Ω heißt die von J -erzeugte σ-Algebra.
Bemerkung. Wie man leicht nachprüft (Übung), ist σ(J ) tatsächlich eine σ-Algebra, und damit
die kleinste σ-Algebra, die J enthält.
Beispiel (Borel’sche σ-Algebra auf R). Sei Ω = R und J = {(s, t)| − ∞ ≤ s ≤ t ≤ ∞} die
Kollektion aller offenen Intervalle. Die von J erzeugte σ-Algebra
B(R) := σ(J )
heißt Borel’sche σ-Algebra. Man prüft leicht nach, dass B(R) auch alle abgeschlossenen und
halboffenen Intervalle enthält. Die Borel’sche σ-Algebra wird auch erzeugt von der Kollektion
aller abgeschlossenen bzw. aller kompakten Intervall. Ebenso gilt:
B(R) = σ({(−∞, c]|c ∈ R})
Allgemeiner definieren wir:
Definition. Sei Ω ein topologischer Raum (also z.B. ein metrischer Raum wie Rn , C([0, 1], R)
etc.), und sei τ die Kollektion aller offenen Teilmengen von Ω (die Topologie). Die von τ erzeugte
σ-Algebra
B(Ω) := σ(τ )
heißt Borel’sche σ-Algebra auf Ω.
Wieder verifiziert man, dass B(Ω) auch von den abgeschlossenen Teilmengen erzeugt wird. Im
Fall Ω = R ergibt sich die oben definierte, von den Intervallen erzeugte, σ-Algebra.
Bemerkung. Nicht jede Teilmenge von R ist in der Borelschen σ-Algebra B(R) enthalten - ein
Beispiel wird in den Übungen gegeben.
Trotzdem enthält B(R) so gut wie alle Teilmengen von R, die in Anwendungsproblemen auftreten; z.B. alle offenen und abgeschlossenen Teilmengen von R, sowie alle Mengen, die durch
Bildung von abzählbar vielen Vereinigungen, Durchschnitten und Komplementbildungen daraus
entstehen.
Universität Bonn
Wintersemester 2009/2010
114
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel (Produkt σ-Algebra auf {0, 1}N ). Eine Zylindermenge auf dem Folgenraum
Ω = {0, 1}N = {(ω1 , ω2 , . . .) : ωi ∈ {0, 1}}
ist eine Teilmenge A von Ω von der Form
A = {ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an },
n ∈ N, a1 , . . . , an ∈ {0, 1}.
In Beispiel 4.2 von oben betrachten wir die von der Kollektion C aller Zylindermengen erzeugte
σ-Algebra A = σ(C ) auf {0, 1}N . A heißt Produkt-σ-Algebra auf Ω.
Allgemeiner sei I eine beliebige Menge, und Ω =
Q
Ωi eine Produktmenge (mit endlich, ab-
i∈I
zählbar, oder sogar überabzählbar vielen Faktoren Ωi , i ∈ I).
Definition. Sind Ai , i ∈ I σ-Algebren auf Ωi , dann heißt die von der Kollektion C aller Zylindermengen
{ω = (ωi )i∈I ∈ Ω : ωi1 ∈ Ai1 , ωi2 ∈ Ai2 , . . . , ωin ∈ Ain },
n ∈ N, i1 , . . . , in ∈ I, Ai1 ∈ Ai1 , . . . , Ain ∈ Ain , erzeugte σ-Algebra
O
A=
Ai := σ(C )
i∈I
Produkt σ-Algebra auf Ω.
Man kann nachprüfen, dass die etwas anders definierte Produkt-σ-Algebra aus Beispiel 4.2 ein
Spezialfall dieser allgemeinen Konstruktion ist.
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen
Sei (Ω, A) ein messbarer Raum, d.h. Ω ist eine nichtleere Menge und A ⊆ P(Ω) eine σ-
Algebra. In der Regel sind die Wahrscheinlichkeiten P [A] zunächst für Ereignisse A aus einer
Teilmenge J ⊆ A mit A = σ(J ) gegeben, z.B. für Intervalle bei Wahrscheinlichkeitsverteilun-
gen auf R. Es stellt sich die Frage, ob hierdurch bereits die Wahrscheinlichkeiten aller Ereignisse
in A eindeutig festgelegt sind, und ob sich P zu einer Wahrscheinlichkeitsverteilung auf A fort-
setzen lässt. Diese Fragen beantworten die folgenden beiden fundamentalen Sätze.
Definition. (1). Ein Mengensystem J ⊆ A heißt durchschnittsstabil, falls
A, B ∈ J
⇒
A∩B ∈ J.
(2). J heißt Algebra, falls
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
115
(a) Ω ∈ J
(b) A ∈ J
(c) A, B ∈ J
AC ∈ J
⇒
⇒
A∪B ∈ J.
Eine Algebra ist stabil unter endlichen Mengenoperationen (Bilden von endlichen Vereinigungen,
Durchschnitten und Komplementen). Insbesondere ist jede Algebra durchschnittsstabil.
Beispiel. (1). Die Kollektion aller offenen Intervalle ist eine durchschnittsstabile Teilmenge
von B(R), aber keine Algebra. Dasselbe gilt für das Mengensystem J = {(−∞, c]|c ∈ R}.
(2). Die Kollektion aller endlichen Vereinigungen von beliebigen Teilintervallen von R ist eine
Algebra.
Satz 4.6 (Eindeutigkeitssatz). Stimmen zwei Wahrscheinlichkeitsverteilungen P und P̃ auf
(Ω, A) überein auf einem durchschnittsstabilen Mengensystem J ⊆ A, so auch auf σ(J ).
Den Satz werden wir am Ende dieses Abschnittes beweisen.
Beispiel. (1). Eine Wahrscheinlichkeitsverteilung P auf B(R) ist eindeutig festgelegt durch die
Wahrscheinlichkeiten P [(−∞, c]], c ∈ R.
(2). Die Wahrscheinlichkeitsverteilung P im Modell der unendlich vielen Münzwürfe ist eindeutig festgelegt durch die Wahrscheinlichkeiten der Ausgänge der ersten n Würfe für alle
n ∈ N.
Nach dem Eindeutigkeitssatz 4.6 ist eine Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Ereignisse aus einem durchschnittsstabilen Erzeugendensystem festgelegt. Umgekehrt zeigt der folgende Satz, dass sich eine auf einem Erzeugendensystem J gegebene σ-
additive Abbildung zu einem Maß auf der σ-Algebra fortsetzen lässt, falls J eine Algebra ist.
Satz 4.7 (Fortsetzungssatz von Carathéodory). Ist J eine Algebra, und P : J → [0, ∞] eine
σ-additive Abbildung, dann besitzt P eine Fortsetzung zu einem Maß auf σ(J ).
Den Beweis dieses klassischen Resultats findet man in vielen Maßtheorie-, Analysis- bzw. Wahrscheinlichkeitstheorie-Büchern (siehe z. B. Williams: „Probability with martingales“, Appendix
A1). Wir verweisen hier auf die Analysisvorlesung, da für die weitere Entwicklung der Wahrscheinlichkeitstheorie in dieser Vorlesung der Existenzsatz zwar fundamental ist, das Beweisverfahren aber keine Rolle mehr spielen wird.
Universität Bonn
Wintersemester 2009/2010
116
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Bemerkung. Ist P [Ω] = 1, bzw. allgemeiner P [Ω] < ∞, dann ist die Maßfortsetzung nach Satz
4.6 eindeutig, denn eine Algebra ist durchschnittsstabil.
Als Konsequenz aus dem Fortsetzungssatz erhält man:
Korollar 4.8 (Existenz und Eindeutigkeit der kontinuierlichen Gleichverteilung). Es existiert genau eine Wahrscheinlichkeitsverteilung U(0,1) auf B((0, 1)) mit
U(0,1) [(a, b)] = b − a
für alle 0 < a ≤ b < 1.
(4.2.4)
Zum Beweis ist noch zu zeigen, dass die durch (4.2.4) definierte Abbildung U(0,1) sich zu ei-
ner σ-additiven Abbildung auf die von den offenen Intervallen erzeugte Algebra A0 aller endli-
chen Vereinigungen von beliebigen (offenen, abgeschlossenen, halboffenen) Teilintervallen von
(0, 1) fortsetzen lässt. Wie die Fortsetzung auf A0 aussieht, ist offensichtlich - der Beweis der
σ-Additivität ist etwas aufwändiger. Wir verweisen dazu wieder auf die Analysisvorlesung, bzw.
den Appendix A1 in Williams: „Probability with martingales.“
Bemerkung. (1). Auf ähnliche Weise folgt die Existenz und Eindeutigkeit des durch
d
Y
λ[(a1 , b1 ) × . . . × (ad , bd )] =
(bi − ai )
i=1
für alle ai , bi ∈ R mit ai ≤ bi
eindeutig festgelegten Lebesguemaßes λ auf B(Rd ), siehe Analysis III. Man beachte, dass
wegen λ[Rd ] = ∞ eine Reihe von Aussagen, die wir für Wahrscheinlichkeitsverteilungen
beweisen werden, nicht für das Lebesguemaß auf Rd gelten!
(2). Auch die Existenz der Wahrscheinlichkeitsverteilungen im Modell für unendlich viele faire
Münzwürfe kann man mithilfe des Satzes von Carathéodory zeigen. Wir werden diese
Wahrscheinlichkeitsverteilung stattdessen unmittelbar aus der Gleichverteilung U(0,1) konstruieren.
Zum Abschluss dieses Abschnitts beweisen wir nun den Eindeutigkeitssatz. Dazu betrachten wir
das Mengensystem
D := {A ∈ A | P [A] = P̃ [A]} ⊇ J .
Zu zeigen ist: D ⊇ σ(J ).
Dazu stellen wir fest, daß D folgende Eigenschaften hat:
(i) Ω ∈ D
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
(ii) A ∈ D ⇒ Ac ∈ D
(iii) A1 , A2 , . . . ∈ D paarweise disjunkt ⇒
S
117
Ai ∈ D
Definition. Ein Mengensystem D ⊆ P(Ω) mit (i) - (iii) heißt Dynkinsystem.
Bemerkung. Für ein Dynkinsystem D gilt:
C
C
A, B ∈ D , A ⊆ B ⇒ B\A = B ∩ AC = (B
| {z∪ A}) ∈ D
disjunkt
Lemma 4.9. Jedes ∩ - stabile Dynkinsystem D ist eine σ - Algebra.
Beweis. Für A, B ∈ D gilt:
∈D f alls ∩−stabil
A∪B = A
∪
↑
disjunkt
z }| {
(B\(A ∩ B))
| {z }
∈ D.
∈D nach Bem.
Hieraus folgt für A1 , A2 , . . . ∈ D durch Induktion
Bn :=
n
[
i=1
und damit
∞
[
Ai =
i=1
∞
[
n=1
Bn =
Ai ∈ D,
∞
[
(Bn \Bn−1 ) ∈ D.
| {z }
n=1
∈D nach Bem.
↑
disjunkt
Lemma 4.10. Ist J ein ∩ - stabiles Mengensystem , so stimmt das von J erzeugte Dynkinsystem
\
D
D(J ) :=
D Dynkinsystem
D⊇J
mit der von J erzeugten σ - Algebra σ(J ) überein.
Aus Lemma (4.10) folgt der Eindeutigkeitssatz, denn {A ∈ A |P [A] = P̃ [A]} ist ein Dynkinsystem, das J enthält, und somit gilt nach dem Lemma
{A ∈ A |P [A] = P̃ [A]} ⊇ D(J ) = σ(J ),
falls J durchschnittsstabil ist.
Universität Bonn
Wintersemester 2009/2010
118
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis. (von Lemma (4.10))
Jede σ - Algebra ist ein Dynkinsystem, also gilt D(J ) ⊆ σ(J ).
Es bleibt zu zeigen, dass D(J ) eine σ - Algebra ist (hieraus folgt dann D(J ) = σ(J )). Nach
dem ersten Lemma ist dies der Fall, wenn D(J ) durchschnittsstabil ist. Dies zeigen wir nun in
zwei Schritten:
Schritt 1: B ∈ J , A ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DB := { A ∈ A | A ∩ B ∈ D(J )} ⊇ J ist ein Dynkinsystem. Z.B. gilt
A ∈ DB ⇒ A ∩ B ∈ D(J )
Bem.
⇒ AC ∩ B = B \ (A
∩ B}) ∈ D(J )
| {z
↑
∈D(J )
∈D(J )
⇒ AC ∈ DB usw.
Also gilt DB ⊇ D(J ), und damit A ∩ B ∈ D(J ) für alle A ∈ D(J ).
Schritt 2:
A, B ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DA := { B ∈ A | A ∩ B ∈ D(J )} ⊇ J nach Schritt 1. Zudem ist DA ein
Dynkinsystem (Beweis analog zu Schritt 1), also gilt DA ⊇ D(J ).
4.3
Allgemeine Zufallsvariablen und ihre Verteilung
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Wir wollen nun Zufallsvariablen X : Ω → S mit
Werten in einem allgemeinen messbaren Raum (S, S) betrachten. Beispielsweise ist S = R oder
S = Rd und S ist die Borelsche σ-Algebra. Oft interessieren uns die Wahrscheinlichkeiten von
Ereignissen der Form
{X ∈ B} = {ω ∈ Ω|X(ω) ∈ B} = X −1 (B),
„Der Wert der Zufallsgröße X liegt in B“
wobei B ⊆ S eine Menge aus der σ-Algebra S auf dem Bildraum ist, also z.B. ein Intervall oder
eine allgemeinere Borelmenge, falls S = R gilt.
Wir erweitern dementsprechend die zuvor eingeführten Konzepte einer Zufallsvariablen und ihrer
Verteilung.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
119
Allgemeine Zufallsvariablen
Definition. Eine Abbildung X : Ω → S heißt messbar bzgl. A/S, falls
(M )
X −1 (B) ∈ A
für alle B ∈ S.
Eine Zufallsvariable ist eine auf einem Wahrscheinlichkeitsraum definierte messbare Abbildung.
Bemerkung. (1). Ist Ω abzählbar und A = P(Ω), dann ist jede Abbildung X : Ω → S eine
Zufallsvariable.
(2). Ist S abzählbar und S = P(S), dann ist X genau dann eine Zufallsvariable, falls
{X = a} = X −1 ({a}) ∈ A
für alle a ∈ S
gilt. Dies ist gerade die Definition einer diskreten Zufallsvariable von oben.
Stimmt die σ-Algebra S nicht mit der Potenzmenge P(S) überein, dann ist es meist schwierig,
eine Bedingung (M ) für alle Mengen B ∈ S explizit zu zeigen. Die folgenden Aussagen liefern
handhabbare Kriterien, mit denen man in fast allen praktisch relevanten Fällen sehr leicht zeigen
kann, dass die zugrunde liegenden Abbildungen messbar sind. Wir bemerken zunächst, dass es
genügt die Bedingung (M ) für alle Mengen aus einem Erzeugendensystem J der σ-Algebra S
zu überprüfen:
Lemma 4.11. Sei J ⊆ P(S) mit S = σ(J ). Dann gilt (M ) bereits, falls
X −1 (B) ∈ A
für alle B ∈ J .
Beweis. Das Mengensystem {B ∈ S|X −1 (B) ∈ A} ist eine σ-Algebra, wie man leicht nach-
prüft. Diese enthält J nach Voraussetzung, also enthält sie auch die von J erzeugte σ-Algebra
S.
Korollar (Reellwertige Zufallsvariablen). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine
Abbildung X : Ω → R ist genau dann eine Zufallsvariable bzgl. der Borelschen σ-Algebra,
wenn
{X ≤ c} = {ω ∈ Ω | X(ω) ≤ c} ∈ A
∀ c ∈ R,
{X < c} = {ω ∈ Ω | X(ω) < c} ∈ A
∀ c ∈ R.
bzw. wenn
Beweis. Es gilt {X ≤ c} = X −1 ((−∞, c]). Die Intervalle (−∞, c], c ∈ R, erzeugen B(R), also
folgt die erste Aussage. Die zweite Aussage zeigt man analog.
Universität Bonn
Wintersemester 2009/2010
120
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel (Indikatorfunktionen). Für eine Menge A ⊆ Ω gilt:
IA ist Zufallsvariable ⇔ A ∈ A,
denn


∅



{IA ≤ c} = Ω



AC
falls c < 0
falls c ≥ 1
,
falls 0 ≤ c < 1
und AC ist genau dann in A enthalten, wenn A in A enthalten ist.
Korollar (Stetige Abbildungen sind messbar). Seien Ω und S topologische Räume, und A, S
die Borelschen σ-Algebren. Dann gilt:
X : Ω → S stetig ⇒ X messbar.
Beweis. Sei J die Topologie von S, d.h. die Kollektion aller offenen Teilmengen von S. Nach
Definition der Borelschen σ-Algebra gilt S = σ(J ). Wegen
B∈J
X stetig
⇒ B offen =⇒ X −1 (B) offen =⇒ X −1 (B) ∈ A
folgt die Behauptung.
Kompositionen von messbaren Abbildungen sind wieder messbar:
Lemma 4.12. Sind (Ω1 , A1 ), (Ω2 , A2 ) und (Ω3 , A3 ) messbare Räume, und ist X1 : Ω1 → Ω2
messbar bzgl. A1 /A2 und X2 : Ω2 → Ω3 messbar bzgl. A2 /A3 , dann ist X2 ◦ X1 messbar bzgl.
A1 /A3 .
X
X
1
2
Ω1 −→
Ω2 −→
Ω3
A1
A2
A3
Beweis. Für B ∈ A3 gilt (X2 ◦ X1 )−1 (B) = X1−1 (X2−1 (B)) ∈ A1 .
| {z }
∈A2
Beispiel. (1). Ist X : Ω → R eine reellwertige Zufallsvariable und f : R → R eine messbare
(z.B. stetige) Funktion, dann ist auch
f (X) := f ◦ X : Ω → R
wieder eine reellwertige Zufallsvariable. Beispielsweise sind |X|, |X|p , eX usw. Zufallsvariablen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
121
(2). Sind X, Y : Ω → R reellwertige Zufallsvariablen, dann ist (X, Y ) : ω 7→ (X(ω), Y (ω))
eine messbare Abbildung in den R2 mit Borelscher σ-Algebra.
Da die Abbildung (x, y) 7→ x + y stetig ist, ist X + Y wieder eine reellwertige Zufallsvariable. Dies sieht man auch direkt wie folgt: Für c ∈ R gilt:
X + Y < c ⇐⇒ ∃ r, s ∈ Q : r + s < c, X < r und Y < s,
also
{X + Y < c} =
[
r,s∈Q
r+s<c
({X < r} ∩ {Y < s}) ∈ A
Verteilungen von Zufallsvariablen
Um Zufallsexperimente zu analysieren, müssen wir wissen, mit welchen Wahrscheinlichkeiten
die relevanten Zufallsvariablen Werte in bestimmten Bereichen annehmen. Dies wird durch die
Verteilung beschrieben. Seien (Ω, A) und (S, S) messbare Räume.
Satz 4.13 (Bild einer Wahrscheinlichkeitsverteilung unter einer ZV). Ist P eine Wahrscheinlichkeitsverteilung auf (Ω, A), und X : Ω → S messbar bzgl. A/S, dann ist durch
µX (B) := P [X ∈ B] = P [X −1 (B)]
(B ∈ S)
eine Wahrscheinlichkeitsverteilung auf (S, S) definiert.
Beweis.
(1). µX (S) = P [X −1 (S)] = P [Ω] = 1
(2). Sind Bn ∈ S, n ∈ N, paarweise disjunkte Mengen, dann sind auch die Urbilder X −1 (Bn ),
n ∈ N, paarweise disjunkt. Also gilt wegen der σ-Additivität von P :
#
"
#
"
!#
"
[
[
X
X
[
Bn = P X −1
µX
X −1 (Bn ) =
P [X −1 (Bn )] =
µX [Bn ].
Bn
=P
n
n
n
n
n
Definition. Die Wahrscheinlichkeitsverteilung µX auf (S, S) heißt Bild von P unter X oder
Verteilung (law) von X unter P .
Für µX werden häufig auch die folgenden Notationen verwendet:
µX = P ◦ X −1 = LX = PX = X(P )
Universität Bonn
Wintersemester 2009/2010
122
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Charakterisierung der Verteilung
• Diskrete Zufallsvariablen:
Die Verteilung µX einer diskreten Zufallsvariablen ist eindeutig durch die Massenfunktion
a ∈ S,
pX (a) = P [X = a] = µX [{a}],
festgelegt.
• Reelle Zufallsvariablen
Die Verteilung µX einer reellwertigen Zufallsvariablen X : Ω → R ist eine Wahrscheinlichkeitsverteilung auf B(R). Sie ist eindeutig festgelegt durch die Wahrscheinlichkeiten
µX [(−∞, c]] = P [X ≤ c],
c ∈ R,
da die Intervalle (−∞, c], c ∈ R, ein durchschnittsstabiles Erzeugendensystem der Borelschen σ-Algebra bilden.
Definition. Die Funktion FX : R → [0, 1],
FX (c) := P [X ≤ c] = µX [(−∞, c]]
heißt Verteilungsfunktion (distribution function) der Zufallsvariable X : Ω → R bzw. der
Wahrscheinlichkeitsverteilung µX auf (R, B(R)).
Beispiel (Kontinuierliche Gleichverteilung). Seien a, b ∈ R mit a < b. Eine Zufallsvariable
X : Ω → R ist gleichverteilt auf dem Intervall (a, b), falls
FX (c) = P [X ≤ c] = U(a,b) [(a, c)] =
c−a
b−a
für alle c ∈ (a, b)
gilt. Eine auf (0, 1) gleichverteilte Zufallsvariable ist zum Beispiel die Identität
U (ω) = ω
auf dem Wahrscheinlichkeitsraum (Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) ). Ist U gleichverteilt auf
(0, 1), dann ist die Zufallsvariable
X(ω) = a + (b − a)U (ω)
gleichverteilt auf (a, b).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
123
Beispiel (Exponentialverteilung). Angenommen, wir wollen die Wartezeit auf das erste Eintreten
eines unvorhersehbaren Ereignisses (radioaktiver Zerfall, Erdbeben, . . . ) mithilfe einer Zufallsvariable T : Ω → (0, ∞) beschreiben. Wir überlegen uns zunächst, welche Verteilung zur Model-
lierung einer solchen Situation angemessen sein könnte. Um die Wahrscheinlichkeit P [T > t] zu
approximieren, unterteilen wir das Intervall (0, t] in eine große Anzahl n ∈ N von gleich großen
Intervallen ( (k−1)t
, kt
], 1 ≤ k ≤ n.
n
n
0
(k − 1)t
n
t
kt
n
Abbildung 4.6: Unterteilung des Intervalls (0, t] in n Teile.
Sei Ak das Ereignis, dass das unvorhersehbare Geschehen im Zeitraum ( (k−1)t
, kt
] eintritt. Ein
n
n
nahe liegender Modellierungsansatz ist anzunehmen, dass die Ereignisse Ak unabhängig sind mit
Wahrscheinlichkeit
t
P [Ak ] ≈ λ ,
n
wobei λ > 0 die „Intensität“, d.h. die mittlere Häufigkeit des Geschehens pro Zeiteinheit, beschreibt, und die Approximation für n → ∞ immer genauer wird. Damit erhalten wir:
n
λt
C
C
P [T > t] = P [A1 ∩ . . . ∩ An ] ≈ 1 −
für großes n.
n
Für n → ∞ konvergiert die rechte Seite gegen e−λt .
Daher liegt folgende Definition nahe:
Definition. Eine Zufallsvariable T : Ω → [0, ∞) heißt exponentialverteilt zum Parameter λ>0,
falls
P [T > t] = e−λt
für alle t ≥ 0 gilt.
Die Exponentialverteilung zum Parameter λ ist dementsprechend die Wahrscheinlichkeitsverteilung µ = Exp(λ) auf (R, B(R)) mit
µ[(t, ∞)] = e−λt
Universität Bonn
für alle t ≥ 0,
Wintersemester 2009/2010
124
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
bzw. mit Verteilungsfunktion
F (t) = µ[(−∞, t]] =

1 − e−λt
0
für t ≥ 0
(4.3.1)
für t < 0.
Nach dem Eindeutigkeitssatz ist die Exp(λ)-Verteilung durch (4.3.1) eindeutig festgelegt.
Wir konstruieren nun explizit eine exponentialverteilte Zufallsvariable. Dazu bemerken wir, dass
T : Ω → R genau dann exponentialverteilt mit Parameter λ ist, wenn
λ
1
−λT
P [e
< u] = P T > − log u = e λ log u = u
λ
für alle u ∈ (0, 1) gilt, d.h. wenn e−λT auf (0, 1) gleichverteilt ist. Also können wir eine exponentialverteilte Zufallsvariable konstruieren, indem wir umgekehrt
1
T := − log U
λ
U ∼ U(0,1)
setzen. Insbesondere ergibt sich die folgende Methode zur Simulation einer exponentialverteilten
Zufallsvariable:
Algorithmus 4.14 (Simulation einer exponentialverteilten Stichprobe).
Input: Intensität λ > 0
Output: Stichprobe x von Exp(λ)
(1). Simuliere u ∼ U(0,1)
(2). Setze x := − λ1 log u
Wir werden in Abschnitt 4.5 zeigen, dass mit einem entsprechenden Verfahren beliebige reelle Zufallsvariablen konstruiert und simuliert werden können. Zum Abschluss dieses Abschnitts
zeigen wir noch eine bemerkenswerte Eigenschaft exponentialverteilter Zufallsvariablen:
Satz 4.15 (Gedächtnislosigkeit der Exponentialverteilung). Ist T exponentialverteilt, dann gilt
für alle s, t ≥ 0:
P [T − s > t|T > s] = P [T > t].
Hierbei ist T − s die verbleibende Wartezeit auf das erste Eintreten des Ereignisses. Also:
Auch wenn man schon sehr lange vergeblich gewartet hat,
liegt das nächste Ereignis nicht näher als am Anfang!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
125
Beweis.
P [T −s > t|T > s] =
P [T − s > t und T > s]
P [T > s + t]
e−λ(t+s)
=
=
= e−λt = P [T > t].
P [T > s]
T >s
e−λs
4.4 Wahrscheinlichkeitsverteilungen auf R
In diesem und im nächsten Abschnitt beschäftigen wir uns systematischer mit der Beschreibung,
Konstruktion und Simulation reellwertiger Zufallsvariablen. Wir notieren dazu zunächst einige
grundlegende Eigenschaften der Verteilungsfunktion
F (c)
=
P [X ≤ c]
einer auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten Zufallsvariable X : Ω → R.
Wir werden im nächsten Abschnitt sehen, dass umgekehrt jede Funktion mit den Eigenschaften
(1)-(3) aus Satz 4.16 die Verteilungsfunktion einer reellen Zufallsvariable ist.
Eigenschaften der Verteilungsfunktion
Satz 4.16. Für die Verteilungsfunktion F : R → [0, 1] einer reellwertigen Zufallsvariable X gilt:
(1). F ist monoton wachsend,
(2). lim F (c) = 0 und lim F (c) = 1,
c→−∞
c→∞
(3). F ist rechtsstetig, d.h. F (c) = lim F (y) für alle c ∈ R,
yցc
(4). F (c) = lim F (y) + µX [{c}].
yրc
Insbesondere ist F stetig bei c, falls µX [{c}] = 0 gilt.
Beweis. Die Aussagen folgen unmittelbar aus der monotonen Stetigkeit und Normiertheit der
zugrundeliegenden Wahrscheinlichkeitsverteilung P . Der Beweis der Eigenschaften (1)-(3) wird
dem Leser als Übung überlassen. Zum Beweis von (4) bemerken wir, dass für y < c gilt:
F (c) − F (y) = P [X ≤ c] − P [X ≤ y] = P [y < X ≤ c].
Für eine monoton wachsende Folge yn ր c erhalten wir daher aufgrund der monotonen Stetigkeit
von P :
F (c) − lim F (yn ) =
n→∞
lim P [yn < X ≤ c] = P
n→∞
= P [X = c] = µX [{c}].
Universität Bonn
"
\
n
#
{yn < X ≤ c}
Wintersemester 2009/2010
126
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Da dies für alle Folgen yn ր c gilt, folgt die Behauptung.
Im Folgenden betrachten wir einige Beispiele von eindimensionalen Verteilungen und ihren Verteilungsfunktionen.
Diskrete Verteilungen
Die Verteilung µ einer reellen Zufallsvariable X heißt diskret, wenn µ[S] = 1 für eine abzählbare
Menge S gilt.
Beispiele. (1). B ERNOULLI -V ERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[{0}] = 1 − p.
µ[{1}] = p,
Als Verteilungsfunktion ergibt sich
µX


0



F (c) = 1 − p



1
1
für c < 0
für c ∈ [0, 1)
für c ≥ 1.
F
1
1−p
1−p
1
1
Abbildung 4.7: Massen- und Verteilungsfunktion einer Ber(p)-verteilten Zufallsvariablen.
(2). G EOMETRISCHE V ERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[{k}] = (1 − p)k−1 · p
für k ∈ N.
Für eine geometrisch verteilte Zufallsvariable T gilt:
F (c) = P [T ≤ c] = 1 − P [T > c] = 1 − (1 − p)⌊c⌋
| {z }
für c ≥ 0,
=P [T >⌊c⌋]
wobei ⌊c⌋ := max{n ∈ Z | n ≤ c} der ganzzahlige Anteil von c ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
127
1
F
1
2
3
4
5
6
7
1
2
3
4
5
6
7
1
Abbildung 4.8: Massen- und Verteilungsfunktion einer Geom( 12 )-verteilten Zufallsvariablen.
(3). B INOMIALVERTEILUNG MIT PARAMETERN n UND p:
n k
p (1 − p)n−k
für k = 0, 1, . . . , n
µ[{k}] =
k
Somit ist die Verteilungsfunktion von Bin(n, p):
F (c) =
⌊c⌋ X
n
k=0
k
pk (1 − p)n−k
0.15
0.10
0.05
−0.05
10
20
30
40
50
−0.10
Abbildung 4.9: Massenfunktion einer Bin(55, 0.6)-verteilten Zufallsvariable.
Universität Bonn
Wintersemester 2009/2010
128
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
−0.1
10
20
30
40
50
Abbildung 4.10: Verteilungsfunktion von Bin(55, 0.6)
Allgemein sind die Unstetigkeitsstellen der Verteilungsfunktion F einer reellwertigen Zufallsvariable X nach Satz 4.16 (4) gerade die Atome der Verteilung, d.h. die c ∈ R mit µX [{c}] > 0.
Nimmt X nur endlich viele Werte in einem Intervall I an, dann ist F auf I stückweise konstant,
und springt nur bei diesen Werten.
Stetige Verteilungen
Die Verteilung µ einer reellen Zufallsvariable X heißt stetig, bzw. absolutstetig, falls eine integrierbare Funktion f : R → [0, ∞) existiert mit
F (c) = P [X ≤ c] = µ[(−∞, c]] =
Zc
f (x) dx
für alle c ∈ R.
(4.4.1)
−∞
Das Integral ist dabei im Allgemeinen als Lebesgueintegral zu interpretieren. Ist die Funktion f
stetig, dann stimmt dieses mit dem Riemannintegral überein. Da µ eine Wahrscheinlichkeitsverteilung ist, folgt, dass f eine Wahrscheinlichkeitsdichte ist, d.h. f ≥ 0 und
Z
f (x) = 1.
R
Definition. Eine Lebesgue-integrierbare Funktion f : R → [0, ∞) mit (4.4.1) heißt Dichtefunktion der Zufallsvariable X bzw. der Verteilung µ.
Bemerkung. (1). Nach dem Hauptsatz der Differential- und Integralrechnung gilt
F ′ (x) = f (x)
Einführung in die Wahrscheinlichkeitstheorie
(4.4.2)
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
129
für alle x ∈ R, falls f stetig ist. Im Allgemeinen gilt (4.4.2) für λ-fast alle x, wobei λ das
Lebesguemaß auf R ist.
(2). Aus (4.4.1) folgt aufgrund der Eigenschaften des Lebesgueintegrals (s. Kapitel 6 unten):
Z
P [X ∈ B] = µX [B] = f (x) dx,
(4.4.3)
B
für alle Mengen B ∈ B(R). Zum Beweis zeigt man, dass beide Seiten von (4.4.3) Wahr-
scheinlichkeitsverteilungen definieren, und wendet den Eindeutigkeitssatz an.
Beispiele. (1). G LEICHVERTEILUNG AUF (a, b) (−∞ < a < b < ∞).


0 für c ≤ a



1
f (x) =
I(a,b) (x),
F (c) = c−a
für a ≤ c ≤ b
b−a

b−a


1 für c ≥ b
.
1
1
2
3
Abbildung 4.11: Dichte f (x) = 1[1,3] (x) einer uniform auf [1, 3] verteilten Zufallsvariable (blau),
und deren Verteilungsfunktion F (c) (rot)
Affine Funktionen von gleichverteilten Zufallsvariablen sind wieder gleichverteilt.
(2). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0.
f (x) = λe−λx I(0,∞) (x),
F (c) = µ[(−∞, c]] = (1 − e
−λc +
) =
Z
∞
f (x)dx.
c
Ist T eine exponentialverteilte Zufallsvariable zum Parameter λ, und a > 0, dann ist aT
exponentialverteilt zum Parameter λa , denn
λ
c
P [aT > c] = P [T > ] = e− a c
a
Universität Bonn
für alle c ≥ 0.
Wintersemester 2009/2010
130
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1
1
2
3
4
5
Abbildung 4.12: Dichte f (x) = 1[0,∞) (x) · e−x einer zum Parameter 1 exponentialverteilten
Zufallsvariable (blau) und deren Verteilungsfunktion F (c) (rot)
(3). N ORMALVERTEILUNGEN
√
R∞ −z2 /2
e
dz = 2π ist die „Gaußsche Glockenkurve“
Wegen
−∞
1
2
f (z) = √ e−z /2 ,
z ∈ R,
2π
eine Wahrscheinlichkeitsdichte. Eine stetige Zufallsvariable Z mit Dichtefunktion f heißt
standardnormalverteilt. Die Verteilungsfunktion
Zc
z2
1
√ e− 2 dz
Φ(c) =
2π
−∞
der Standardnormalverteilung ist i.A. nicht explizit berechenbar. Ist Z standardnormalverteilt, und
X(ω) = σZ(ω) + m
mit σ > 0, m ∈ R, dann ist X eine Zufallsvariable mit Verteilungsfunktion
c−m
c−m
=Φ
.
FX (c) = P [X ≤ c] = P Z ≤
σ
σ
Mithilfe der Substitution z =
x−m
σ
erhalten wir:
c−m
FX (c) =
Zσ
−∞
z2
1
√ e− 2 dz =
2π
Zc
−∞
√
1
2πσ 2
e− 2 (
1
x−m 2
σ
) dx
Definition. Die Wahrscheinlichkeitsverteilung N (m, σ 2 ) auf R mit Dichtefunktion
fm,σ (x) = √
1
2πσ 2
· e− 2 (
1
x−m 2
σ
)
heißt Normalverteilung mit Mittel m und Varianz σ 2 . Die Verteilung N (0, 1) heißt Standardnormalverteilung.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
131
Wir werden im nächsten Abschnitt sehen, dass die Binomialverteilung (also die Verteilung
der Anzahl der Erfolge bei unabhängigen 0-1-Experimenten mit Erfolgswahrscheinlichkeit
p) für große n näherungsweise durch eine Normalverteilung beschrieben werden kann.
Entsprechendes gilt viel allgemeiner für die Verteilungen von Summen vieler kleiner unabhängiger Zufallsvariablen (Zentraler Grenzwertsatz, s.u.).
1
Abfall um Faktor e− 2
e−2
9
e− 2
m − 3σ
m − 2σ
m−σ
m
m+σ
m + 2σ
m + 3σ
Abbildung 4.13: Dichte einer normalverteilten Zufallsvariable mit Mittelwert m und Varianz σ 2 .
m − 3σ
m − 2σ
m−σ
m
m+σ
m + 2σ
m + 3σ
Abbildung 4.14: Verteilungsfunktion einer normalverteilten Zufallsvariable mit Mittelwert m und
Varianz σ 2 .
Die Dichte der Normalverteilung ist an der Stelle m maximal, und klingt außerhalb einer
σ-Umgebung von m rasch ab. Beispielsweise gilt
fm,σ (m ± σ) =
Universität Bonn
fm,σ (m)
√
e
Wintersemester 2009/2010
132
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
fm,σ (m)
e2
fm,σ (m)
fm,σ (m ± 3σ) =
e9/2
Für die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable Werte außerhalb der
fm,σ (m ± 2σ) =
σ-, 2σ- und 3σ-Umgebungen annimmt, erhält man:
X − m
P [|X − m| > kσ] = P >k
σ = P [|Z| > k] = 2P [Z > k] = 2(1 − Φ(k))


31.7% für k = 1



=
4.6%
für k = 2



0.26% für k = 3
Eine Abweichung der Größe σ vom Mittelwert m ist also für eine normalverteilte Zufallsvariable relativ typisch, eine Abweichung der Größe 3σ dagegen schon sehr selten.
Die folgenden expliziten Abschätzungen für die Wahrscheinlichkeiten großer Werte sind oft nützlich:
Lemma 4.17. Für eine standardnormalverteilte Zufallsvariable Z gilt:
1
1
1
2
2
−1/2
(2π)
·
− 3 · e−y /2 ≤ P [Z ≥ y] ≤ (2π)−1/2 · · e−y /2
y y
y
Beweis. Es gilt:
P [Z ≥ y] = (2π)−1/2
Z∞
e−z
2 /2
∀y > 0
dz
y
Um das Integral abzuschätzen, versuchen wir approximative Stammfunktionen zu finden. Zunächst gilt:
d
dz
also
1 2
− e−z /2
z
=
1 −z2 /2
e
=
y
1
1+ 2
z
Z∞ y
· e−z
2 /2
≥ e−z
2 /2
∀z ≥ 0,
Z∞
1 −z2 /2
2
dz ≥ e−z /2 dz,
e
y
y
woraus die obere Schranke für P [Z ≥ y] folgt.
Für die untere Schranke approximieren wir die Stammfunktion noch etwas genauer. Es gilt:
1
1
d
1
1
3
2
2
−z 2 /2
− + 3 e
= 1 + 2 − 2 − 4 e−z /2 ≤ e−z /2 ,
dz
z z
z
z
z
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
und damit
1
1
− 3
y y
−y 2 /2
e
≤
Z∞
e−z
2 /2
133
dz.
y
Für eine N (m, σ 2 )-verteilte Zufallsvariable X mit σ > 0 ist Z =
X−m
σ
standardnormalverteilt.
Also erhalten wir für y ≥ m:
(y−m)2
X −m
1
y−m
P [X ≥ y] = P
≤
≥
· (2πσ)−1/2 · e− 2σ2 ,
σ
σ
y−m
sowie eine entsprechende Abschätzung nach unten.
Transformation von absolutstetigen Zufallsvariablen
Wir haben in Beispielen bereits mehrfach die Verteilung von Funktionen von absolutstetigen
Zufallsvariablen berechnet. Sei nun allgemein I ⊆ R ein offenes Intervall, und X : Ω → I eine
Zufallsvariable mit stetiger Verteilung.
Satz 4.18 (Eindimensionaler Dichtetransformationssatz). Ist Φ : I → J einmal stetig diffe-
renzierbar mit Φ′ (x) 6= 0 für alle x ∈ I, dann ist die Verteilung von Φ(X) absolutstetig mit
Dichte
fΦ(X) (y)
=

fX (Φ−1 (y)) · |(Φ−1 )′ (y)|
0
für y ∈ Φ(I)
.
(4.4.4)
sonst
Beweis. Nach der Voraussetzung gilt entweder Φ′ > 0 auf I oder Φ′ < 0 auf I. Wir betrachten
nur den ersten Fall. Aus Φ′ > 0 folgt, dass Φ streng monoton wachsend ist, also eine Bijektion
von I nach Φ(I). Daher erhalten wir
FΦ(X) (c)
=
P [Φ(X) ≤ c]
=
P [X ≤ Φ−1 (I)]
=
FX (Φ−1 (c))
für alle c ∈ Φ(I). Nach der Kettenregel ist dann FΦ(X) für fast alle c ∈ Φ(I) differenzierbar, und
es gilt
′
FΦ(X)
(c)
=
fX (Φ−1 (c)) · (Φ−1 )′ (c).
Die Behauptung folgt hieraus nach dem Hauptsatz der Differential- und Integralrechnung, da
P [Φ(x) 6∈ Φ(I)] = 0.
Universität Bonn
Wintersemester 2009/2010
134
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel (Geometrische Wahrscheinlichkeiten). Sei θ : Ω → [0, 2π) ein zufälliger, auf [0, 2π)
gleichverteilter, Winkel. Wir wollen die Verteilung von cos θ berechnen. Da die Kosinusfunktion
auf [0, 2π) nicht streng monoton ist, ist (4.4.4) nicht direkt anwendbar. Wir können aber das
Intervall [0, 2π) in die Teile [0, π) und [π, 2π) zerlegen, und dann die Verteilung ähnlich wie im
Beweis von Satz 4.18 berechnen. Wegen
P [cos θ > c] = P [cos θ > c
und
θ ∈ [0, π)] + P [cos θ > c
und
θ ∈ [π, 2π)]
= P [θ ∈ [0, arccos c)] + P [θ ∈ [π − arccos c, π)]
2
=
· arccos c
2π
erhalten wir, dass cos θ eine sogenannte „Halbkreisverteilung“ mit Dichte
fcos θ (x)
′
Fcos
θ (x)
=
1
1
;
·√
π
1 − x2
=
x ∈ [−1, 1)
hat.
1
−1
1
Abbildung 4.15: Abbildung der Dichtefunktion fcos θ
Anstelle von (4.4.4) gilt in diesem Fall
fcos θ (x)
=
fX (ψ1 (x)) · |ψ1′ (x)| + fX (ψ2 (x)) · |ψ2′ (x)|,
wobei ψ1 (x) = arccos x und ψ2 (x) = 2π − arccos x die Umkehrfunktionen auf den Teilinter-
vallen sind. Entsprechende Formeln erhält man auch allgemein, wenn die Transformation nur
stückweise bijektiv ist. Auf ähnliche Weise zeigt man für a > 0 (Übung):
fa tan θ (x)
=
1
1
·
,
πa 1 + (x/a)2
Einführung in die Wahrscheinlichkeitstheorie
x ∈ R.
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
135
0.4
0.2
−2
−1
1
2
Abbildung 4.16: Abbildung der Dichtefunktion fa tan θ
Die Verteilung mit dieser Dichte heißt Cauchyverteilung zum Parameter a. Sie beschreibt unter
anderem die Intensitätsverteilung auf einer Geraden, die von einer in alle Richtungen gleichmäßig
strahlenden Lichtquelle im Abstand a bestrahlt wird.
⊗
θ
a
a · tan θ
4.5 Quantile und Inversionsverfahren
Quantile sind Stellen, an denen die Verteilungsfunktion einen bestimmten Wert überschreitet.
Mithilfe von Quantilen kann man daher verallgemeinerte Umkehrfunktionen der im Allgemeinen
nicht bijektiven Verteilungsfunktion definieren. Diese Umkehrabbildungen werden wir nutzen,
um reellwertige Zufallsvariablen mit einer gegebenen Verteilungsfunktion explizit zu konstruieren.
Quantile
In praktischen Anwendungen (z.B. Qualitätskontrolle) müssen häufig Werte berechnet werden,
sodass ein vorgegebener Anteil der Gesamtmasse einer Wahrscheinlichkeitsverteilung auf R unterhalb dieses Wertes liegt. Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilungsfunktion F .
Definition. Sei u ∈ [0, 1]. Dann heißt q ∈ R ein u-Quantil der Verteilung von X, falls
P [X < q] ≤ u
Universität Bonn
und
P [X > q] ≤ 1 − u
Wintersemester 2009/2010
136
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
gilt. Ein 21 -Quantil heißt Median.
Ist die Verteilungsfunktion nicht streng monoton wachsend, dann kann es mehrere u-Quantile zu
einem Wert u geben.
Beispiel (Stichprobenquantile). Wir betrachten eine Stichprobe, die aus n reellwertigen Daten
/ Messwerten x1 , . . . , xn mit x1 ≤ x2 ≤ . . . ≤ xn besteht. Die empirische Verteilung der
Stichprobe ist die Wahrscheinlichkeitsverteilung
n
1X
µ=
δx
n i=1 i
auf (R, P(R)), d.h. für B ⊆ R ist
µ[B] =
1
|{xi ∈ B, 1 ≤ i ≤ n}|
n
die relative Häufigkeit des Bereichs B unter den Messwerten xi . Die empirische Verteilung ergibt
sich, wenn wir zufällig ein i ∈ {1, . . . , n} wählen, und den entsprechenden Messwert betrachten.
Die Quantile der empirischen Verteilung bezeichnet man als Stichprobenquantile. Für u ∈ [0, 1]
sei
ku := 1 + (n − 1)u ∈ [1, n].
Ist ku ganzzahlig, dann ist xku das eindeutige u-Quantil der Stichprobe. Allgemein ist jedes q ∈
[x⌊ku ⌋ , x⌈ku ⌉ ] ein u-Quantil der Stichprobe, d.h. für ku 6∈ Z gibt es mehrere u-Quantile.
Wir definieren nun zwei verallgemeinerte Inverse einer Verteilungsfunktion F , die ja im Allgemeinen nicht bijektiv ist. Für u ∈ (0, 1) sei
G(u) := inf{x ∈ R|F (x) ≥ u} = sup{x ∈ R|F (x) < u}
und
G(u) := inf{x ∈ R|F (x) > u} = sup{x ∈ R|F (x) ≤ u}.
Offensichtlich gilt G(u) ≤ G(u). Ist die Funktion F stetig und streng monoton wachsend, also
eine Bijektion von R nach (0, 1), dann gilt G(u) = G(u) = F −1 (u). Die Funktion G heißt daher
auch die linksstetige verallgemeinerte Inverse von F . Der folgende Satz zeigt, dass G(u) das
kleinste und G(u) das größte u-Quantil ist:
Satz 4.19. Für u ∈ (0, 1) und q ∈ R sind die folgenden Aussagen äquivalent:
(1). q ist ein u-Quantil.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
137
(2). F (q−) ≤ u ≤ F (q).
(3). G(u) ≤ q ≤ G(u).
Hierbei ist F (q−) := lim F (y) der linksseitige Limes von F an der Stelle q.
yրq
Beweis. Nach Definition ist q genau dann ein u-Quantil, wenn
P [X < q] ≤ u ≤ 1 − P [X > q] = P [X ≤ q]
gilt. Hieraus folgt die Äquivalenz von (1) und (2).
Um zu beweisen, dass (3) äquivalent zu diesen Bedingungen ist, müssen wir zeigen, dass G(u)
das kleinste und G(u) das größte u-Quantil ist. Wir bemerken zunächst, dass G(u) ein u-Quantil
ist, da
F (x) ≤ u,
| {z }
F (G(u)−) = lim
xրG(u)
<u
für x<G(u)
und
F (G(u)) = lim
xցG(u)
F (x) ≥ u.
| {z }
≥u
für x>G(u)
Andererseits gilt für x < G(u):
F (x) < u,
d.h. x ist kein u-Quantil. Somit ist G(u) das kleinste u-Quantil. Auf ähnliche Weise folgt, dass
G(u) das größte u-Quantil ist (Übung!).
Konstruktion und Simulation reellwertiger Zufallsvariablen
Wie erzeugt man ausgehend von auf (0, 1) gleichverteilten Zufallszahlen Stichproben von anderen Verteilungen µ auf R1 ?
Gilt µ(S) = 1 für eine endliche Teilmenge S ⊆ R, dann können wir die Frage
Endlicher Fall:
leicht beantworten: Sei S = {x1 , . . . , xn } ⊆ R mit n ∈ N und x1 < x2 < . . . < xn . Die
Verteilungsfunktion einer Wahrscheinlichkeitsverteilung µ auf S ist
X
F (c) = µ[(−∞, c]] =
µ({xi }).
i:xi ≤c
Ist U eine auf (0, 1) gleichverteilte Zufallsvariable, dann wird durch
X(ω) = xk
Universität Bonn
falls F (xk−1 ) < U (ω) ≤ F (xk ),
x0 := −∞
Wintersemester 2009/2010
138
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
eine Zufallsvariable mit Verteilung µ definiert, denn
P [X = xk ] = F (xk ) − F (xk−1 ) = µ[{xk }].
F (x)
Generiere u ∼ Unif{[0, 1]}
1
u
µ(x1 )
x1 x2 x3
x4
x5
x6
x7
Abbildung 4.17: Wir generieren eine uniform auf (0, 1) verteilte Pseudozufallszahl u. Suche nun
k
P
µ(xi ) > u. Dann ist x = xk eine Pseudozufallsstichprobe von
das minimale k ∈ N, für das
i=1
der Verteilung µ.
Allgemeiner Fall:
Wir wollen das Vorgehen nun verallgemeinern. Sei F : R → [0, 1] eine
Funktion mit den Eigenschaften
(1). monoton wachsend:
(2). rechtsstetig:
(3). normiert:
F (x) ≤ F (y)
∀x≤y
lim F (x) = F (c) ∀ c ∈ R
x↓c
lim F (x) = 0 ,
xց−∞
lim F (x) = 1.
xր+∞
Das folgende Resultat liefert eine explizite Konstruktion einer Zufallsvariable mit Verteilungsfunktion F :
Satz 4.20. Ist F : R → [0, 1] eine Funktion mit (1)-(3), und
G(u) = inf{x ∈ R|F (x) ≥ c},
Einführung in die Wahrscheinlichkeitstheorie
u ∈ (0, 1),
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
139
die linksstetige verallgemeinerte Inverse, dann ist das Bild
µ := U(0,1) ◦ G−1
der Gleichverteilung auf (0, 1) unter G eine Wahrscheinlichkeitsverteilung auf R mit Verteilungsfunktion F .
Insbesondere gilt: Ist U : Ω → (0, 1) eine unter P gleichverteilte Zufallsvariable, dann hat die
Zufallsvariable
X(ω) := G(U (ω))
unter P die Verteilungsfunktion F .
Beweis. Da G(u) ein u-Quantil ist, gilt F (G(u)) ≥ u, also
G(u) = min{x ∈ R|F (x) ≥ u},
und somit für c ∈ R :
G(u) ≤ c ⇐⇒ F (x) ≥ u für ein x ≤ c ⇐⇒ F (c) ≥ u.
Es folgt:
P [G(U ) ≤ c] = U(0,1) [{u ∈ (0, 1)| G(u) ≤ c }]
| {z }
⇐⇒ F (c)≥u
= U(0,1) [(0, F (c))] = F (c).
Also ist F die Verteilungsfunktion von G(U ) bzw. von µ.
Bemerkung. (1). Ist F eine Bijektion von R nach (0, 1) (also stetig und streng monoton wachsend), dann ist G = F −1 .
(2). Nimmt X nur endlich viele Werte x1 < x2 < . . . < xn an, dann ist F stückweise konstant,
und es gilt:
G(u) = xk für F (xk−1 ) < u ≤ F (xk ),
x0 := −∞,
d.h. G ist genau die oben im endlichen Fall verwendete Transformation.
Das Resultat liefert einen
Universität Bonn
Wintersemester 2009/2010
140
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Existenzsatz: Zu jeder Funktion F mit (1)-(3) existiert eine reelle Zufallsvariable X bzw. eine
Wahrscheinlichkeitsverteilung µ auf R mit Verteilungsfunktion F .
Zudem erhalten wir einen expliziten Algorithmus zur Simulation einer Stichprobe von µ:
Algorithmus 4.21 (Inversionsverfahren zur Simulation einer Stichprobe x von µ).
(1). Erzeuge (Pseudo)-Zufallszahl u ∈ (0, 1).
(2). Setze x := G(u).
Dieser Algorithmus funktioniert theoretisch immer. Er ist aber oft nicht praktikabel, da man G
nicht immer berechnen kann, oder da das Anwenden der Transformation G (zunächst unwesentliche) Schwachstellen des verwendeten Zufallsgenerators verstärkt. Man greift daher oft selbst
im eindimensionalen Fall auf andere Simulationsverfahren wie z.B. „Acceptance Rejection“ Methoden zurück.
Beispiel. (1). B ERNOULLI (p)-V ERTEILUNG AUF {0, 1}. Hier gilt:
F = (1 − p) · I[ 0, 1) + 1 · I[1,∞)
und G = 1(1−p,1) , siehe Abbildung 4.18.
Also ist die Zufallsvariable G(U ) = I{U <1−p} für U ∼ U(0,1) Bernoulli(p)-verteilt.
F
1
G = I(1−p,1)
1
1−p
1
1
Abbildung 4.18: G(U ) = I{U >1−p} ist Bernoulli(p)-verteilt.
(2). G LEICHVERTEILUNG AUF (a, b):
F (c) =
c−a
b−a
für c ∈ [a, b],
G(u) = a + (b − a)u,
siehe Abbildung 4.19. Also ist a + (b − a)U für U ∼ U(0,1) gleichverteilt auf (a, b).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
141
G = a + (b − a)u
b
F
a
1
a
b
0
1
Abbildung 4.19: G(u) = a + (b − a)u ist (für u ∼ unif{(0, 1)}) uniform auf (a, b) verteilt.
(3). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0:
F (x) = 1 − e−λx ,
1
G(u) = F −1 (u) = − log(1 − u).
λ
Anwenden des Logarithmus transformiert also die gleichverteilte Zufallsvariable 1 − u in
eine exponentialverteilte Zufallsvariable.
Universität Bonn
Wintersemester 2009/2010
142
4.6
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Normalapproximation der Binomialverteilung
Die Binomialverteilung mit Parametern n und p beschreibt die Verteilung der Anzahl derjenigen
unter n unabhängigen Ereignissen mit Wahrscheinlichkeit p, die in einem Zufallsexperiment eintreten. Viele Anwendungsprobleme führen daher auf die Berechnung von Wahrscheinlichkeiten
bzgl. der Binomialverteilung. Für große n ist eine exakte Berechnung dieser Wahrscheinlichkeiten aber in der Regel nicht mehr möglich. Bei seltenen Ereignissen kann man die Poissonapproximation zur näherungsweisen Berechnung nutzen:
Konvergiert n → ∞, und konvergiert gleichzeitig der Erwartungswert n · pn gegen eine positive
reelle Zahl λ > 0, dann nähern sich die Gewichte bn,pn (k) der Binomialverteilung denen einer
Poissonverteilung mit Parameter λ an:
λk
n k
bn,pn (k) =
pn (1 − pn )n−k → e−λ
(k = 0, 1, 2, . . .),
k
k
siehe Satz 1.5. Geht die Wahrscheinlichkeit pn für n → ∞ nicht gegen 0, sondern hat zum Beispiel einen festen Wert p ∈ (0, 1), dann kann die Poissonapproximation nicht verwendet werden.
Stattdessen scheinen sich die Gewichte der Binomialverteilung einer Gaußschen Glockenkurve
anzunähern, wie z.B. die folgende mit Mathematica erstellte Grafik zeigt:
Manipulate [
ListPlot [
Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , Min [ 1 , lambda / n ] ] , k ] } , {k , 0 ,
I n t e g e r P a r t [ 4 lambda ] } ] ,
F i l l i n g −> Axis , PlotRange −> A l l ,
P l o t M a r k e r s −> { Automatic , Medium } , Axes −> { True , F a l s e } ] , {{ n , 1 0 ,
"n" } , 3 , 300 ,1} ,
{{ lambda , 5 , " E r w a r t u n g s w e r t : np=Lambda " } , 2 , 2 0 } ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
143
Wir wollen diese Aussage nun mathematisch präzisieren und beweisen.
Der Satz von De Moivre - Laplace
Wir analysieren zunächst das asymptotische Verhalten von Binomialkoeffizienten mithilfe der
Stirlingschen Formel.
Definition. Zwei Folgen an , bn ∈ R+ , n ∈ N, heißen asymptotisch äquivalent (an ∼ bn ), falls
an
=1
n→∞ bn
lim
gilt.
Bemerkung.
(1). an ∼ bn
⇐⇒
∃εn → 0 : an = bn (1 + εn )
(2). an ∼ bn
⇐⇒
b n ∼ an
(3). an ∼ bn , cn ∼ dn
=⇒
1
an
⇐⇒
∼
⇐⇒
log an − log bn → 0
1
bn
an · cn ∼ bn · dn
Satz 4.22 (Stirlingsche Formel).
n! ∼
√
2πn ·
n n
e
Zum Beweis nimmt man den Logarithmus, und schätzt die sich ergebende Summe mithilfe eines
Integrals ab, siehe z.B. Forster: „Analysis I“.
Mithilfe der Stirlingschen Formel können wir die Gewichte
n k
bn,p (k) =
p (1 − p)n−k
k
der Binomialverteilung für große n und k approximieren. Sei dazu Sn eine Bin(n, p)-verteilte
Zufallsvariable auf (Ω, A, P ). Für den Erwartungswert und die Standardabweichung von Sn gilt:
E[Sn ] = np
und
σ(Sn ) =
p
p
V ar[Sn ] = np(1 − p).
Dies deutet darauf hin, dass sich die Masse der Binomialverteilung für große n überwiegend in
√
einer Umgebung der Größenordnung O( n) um np konzentriert.
Universität Bonn
Wintersemester 2009/2010
144
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
np
√
O( n)
Abbildung 4.20: Die Gewichte der Binomialverteilung liegen für große n näherungsweise auf
p
einer Glockenkurve mit Mittel np und Standardabweichung np(1 − p).
Wir werden nun mithilfe der Stirlingschen Formel die Gewichte
n k
bn,p (k) = P [Sn = k] =
p (1 − p)n−k
k
√
der Binomialverteilung für große n und k in einer Umgebung der Größenordnung O( n) von
np ausgehend von der Stirlingschen Formel approximieren, und die vermutete asymptotische
Darstellung präzisieren und beweisen.
Dazu führen wir noch folgende Notation ein: Wir schreiben
an (k) ≈ bn (k)
falls
wobei
(„lokal gleichmäßig asymptotisch äquivalent“),
an (k)
− 1 → 0
sup k∈Un,r bn (k)
Un,r
=
für alle r ∈ R+ gilt,
{0 ≤ k ≤ n : |k − np| ≤ r ·
√
n}.
Die Aussagen aus der Bemerkung oben gelten analog für diese Art der lokal gleichmäßigen
asymptotischen Äquivalenz von an (k) und bn (k).
Satz 4.23 (de Moivre 1733, Laplace 1819). Sei p ∈ (0, 1) und σ 2 = p(1 − p). Dann gilt:
2 !
k − np
1
1
√
(1). P [Sn = k] = bn,p (k) ≈ √
exp − 2
=: ebn,p (k)
2σ
n
2πnσ 2
Sn − np
≤b
(2). P a ≤ √
n
nր∞
−→
Rb
a
x2
1
√
e− 2σ2 d x
2
}
| 2πσ{z
Gaußsche Glockenkurve
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
Beweis.
145
(1). Wir beweisen die Aussage in zwei Schritten:
(a) Wir zeigen zunächst mithilfe der Stirlingschen Formel:
bn,p (k)
1
≈
q
·
k
k
2πn n (1 − n )
Es gilt
lim √
n→∞
Für k ∈ Un,r gilt
also folgt
p
≥
k
k
n
!k
np − A ·
k!
sup √
−
1
k
k∈Un,r 2πk k
k!
·
n!
n
2πn ne
√
≈
=
√
!n−k
=:
bn,p (k)
(4.6.1)
1.
n→∞
−→
n
−→
e
d.h.
1−p
1 − nk
∞,
für n → ∞,
0
k
k
2πk
.
e
Analog erhält man
(n − k)!
≈
p
2π(n − k)
n−k
e
n−k
,
und damit
n!
pk (1 − p)n−k
k! · (n − k)!
√
2πn · nn · pk · (1 − p)n−k
p
≈
2π k(n − k) · k k · (n − k)n−k
r
np k n(1 − p) n−k
n
=
2πk(n − k) k
n−k
bn,p (k) =
= bn,p (k).
(b) Wir zeigen nun mithilfe einer Taylorapproximation:
Für k ∈ Un,r gilt
Universität Bonn
bn,p (k)
≈
k
− p
n
ebn,p (k)
≤
r · n− 2 ,
(4.6.2)
1
Wintersemester 2009/2010
146
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
woraus folgt:
s
k
k
2π · n · · 1 −
n
n
p
2π · n · p · (1 − p)
≈
=
√
2π · n · σ 2 . (4.6.3)
Um die Asymptotik der übrigen Faktoren von bn,p (k) zu erhalten, verwenden wir eine
Taylorapproximation für den Logarithmus:
Wegen
x log
x
p
x−p+
=
1
(x − p)2 + O(|x − p|3 )
2p
gilt:

p
log 
k
n




= (−n) 



=
!k
!n−k 
1−p

1 − nk
k
n
k
log
n
p
| {z }
Taylor k
1 k
k
( n −p)2 +O(| n
−p|3 )
= n −p+ 2p
k
+
1−
log
n
{z
|
1 − nk
1−p
! 





} 
1
k 2
k
k
+ 2(1−p)
(p− n
) +O(| n
−p|3 )
=p− n
k
1
k
1 k
( − p)2 +
(p − )2 +O(| − p|3 )
2p n
2(1 − p)
n
n
{z
}
|
(p − nk )2 1
1
=
+
2
p 1−p
{z
}
|
=
=
!

1
p(1−p)
1
k
k
(p − )2 + O(| − p|3 )
2p(1 − p)
n
n
Für k ∈ Un,r gilt:
Also folgt:

p
log 
k
n
!k
3
k
− p
n
1−p
1 − nk
!n−k 
1

≤
=
3
r 3 · n− 2 .
1
− 2
2σ
k
−p
n
2
+ Rk,n ,
wobei |Rk,n | ≤ const. · r3 n− 2 für alle k ∈ Un,r , d.h.
!k
!n−k
2 !
p
k
1−p
1
.
−p
≈ exp − 2
k
2σ
n
1 − nk
n
(4.6.4)
Aussage (4.6.2) folgt dann aus (4.6.3) und (4.6.4).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
147
(c) Aus (a) und (b) folgt nun Behauptung (1).
(2). Aufgrund von (1) erhalten wir für a, b ∈ R mit a < b:
X
Sn − np
P a≤ √
≤b =
P [S = k]
| n{z }
n
k∈{0,1,...,n}
√
a≤ k−np
≤b
n
X
=
=bn,p (k)≈ebn,p (k)
ebn,p (k)(1 + εn,p (k)),
k∈{0,1,...,n}
√
≤b
a≤ k−np
n
wobei
εn,p
:=
sup
√
≤b
a≤ k−np
n
|εn,p (k)|
−→
0
für n → ∞.
(4.6.5)
(4.6.6)
Wir zeigen nun
lim
n→∞
X
ebn,p (k)
=
k∈{0,1,...,n}
√
≤b
a≤ k−np
n
Zb
a
x2
√
· exp − 2
2σ
2πσ 2
1
dx
Aus (4.6.5) und (4.6.6) folgt dann die Behauptung, da
X
X
ebn,p (k) · εn,p (k) ≤ εn,p ·
ebn,p (k) n→∞ −→
|{z}
k∈{0,1,...,n}
→0 k∈{0,1,...,n}
k−np
a≤ √n ≤b
√
≤b
a≤ k−np
n
|
{z
}
R
→ ab ...dx<∞
Zum Beweis von (4.6.6) sei
Γn :=
k − np √ k = 0, 1, . . . , n ⊆ R.
n
Dann ist Γn ein äquidistantes Gitter mit Maschenweite ∆ =
X
ebn,p (k)
k∈{0,1,...,n}
√
a≤ k−np
≤b
n
0
=
X
x∈Γn
a≤x≤b
√
1
2πσ 2
√1 ,
n
−
x2
2σ 2
und es gilt
∆x.
Für n → ∞ folgt (4.6.6), da die rechte Seite eine Riemannsummenapproximation des
Integrals ist.
Universität Bonn
Wintersemester 2009/2010
148
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Der Satz von de Moivre/Laplace besagt, dass die Verteilungen der Zufallsvariablen
Sn√−np
n
für
n → ∞ schwach gegen die Normalverteilung N (0, σ 2 ) mit Varianz σ 2 = p(1−p) konvergieren.
Die allgemeine Definition der schwachen Konvergenz einer Folge von Wahrscheinlichkeitsvertei-
lungen wird in Abschnitt 8.3 unten gegeben. Ist Z eine standardnormalverteilte Zufallsvariable,
dann gilt:
Sn − np
√
n
D
−→
σZ,
bzw.
Sn − E[Sn ]
σ(Sn )
Sn − np
√
σ n
=
D
−→
Z,
(4.6.7)
D
wobei „→“ für schwache Konvergenz der Verteilungen der Zufallsvariablen steht (Konvergenz
in Verteilung, s.u.).
Bemerkung. (1). Die Aussage (4.6.7) ist ein Spezialfall eines viel allgemeineren zentralen
Grenzwertsatzes:
Sind X1 , X2 , . . . unabhängige, identisch verteilte Zufallsvariablen mit endlicher Varianz,
und ist Sn = X1 + . . . + Xn , dann konvergieren die Verteilungen der standardisierten
Summen
Sn − E[Sn ]
σ(Sn )
schwach gegen eine Standardnormalverteilung, s.u.
Die Normalverteilung tritt also als universeller Skalierungslimes von Summen unabhängiger Zufallsvariablen auf.
(2). Heuristisch gilt für große n nach (4.6.7)
„ Sn
D
≈
np +
D
p
np(1 − p) · Z,
“
(4.6.8)
wobei „≈“ dafür steht, dass sich die Verteilungen der Zufallsvariablen einander in einem
gewissen Sinn annähern. In diesem Sinne wäre für große n
„Bin(n, p)
D
≈
N (np, np(1 − p)).“
Entsprechende „Approximationen“ werden häufig in Anwendungen benutzt, sollten aber
hinterfragt werden, da beim Übergang von (4.6.7) zu (4.6.8) mit dem divergierende Fak√
tor n multipliziert wird. Die mathematische Präzisierung entsprechender heuristischer
Argumentationen erfolgt üblicherweise über den Satz von de Moivre/Laplace.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
149
Beispiel (Faire Münzwürfe). Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit P [Xi = 0] =
P [Xi = 1] =
1
2
und sei Sn = X1 + . . . + Xn (z.B. Häufigkeit von „Zahl“ bei n fairen Münzwürp
fen). In diesem Fall ist also p = 12 und σ = p(1 − p) = 21 .
(1). 100 faire Münzwürfe:
P [S100 > 60]
Da
S100 −E[S100 ]
σ(S100 )
P [S100 − E[S100 ] > 10]
=
=
S100 − E[S100 ]
10
P
> √
σ(S100 )
σ 100
nach (4.6.7) näherungsweise N (0, 1)-verteilt ist, und
≈
P [S100 > 60]
P [Z > 2]
=
1 − Φ(2)
≈
√10
σ 100
0.0227
= 2, folgt
=
2.27%.
(2). 16 faire Münzwürfe:
Mit
0.5
√
σ 16
=
P [S16 = 8] = P [7.5 ≤ S16 ≤ 8.5] = P [|S16 − E[S16 ]| ≤ 0.5]
S16 − E[S16 ] 0.5
≤ √
= P σ(S16 ) σ 16
1
4
folgt:
P [S16 = 8]
≈
P [|Z| ≤ 1.4]
=
0.1974...
Der exakte Wert beträgt P [S16 = 8] = 0.1964.... Bei geschickter Anwendung ist die Normalapproximation oft schon für eine kleine Anzahl von Summanden relativ genau!
Approximative Konfidenzintervalle
Angenommen, wir wollen den Anteil p der Wähler einer Partei durch Befragung von n Wählern
schätzen. Seien X1 , . . . , Xn unter Pp unabhängige und Bernoulli(p)-verteilte Zufallsvariablen,
wobei Xi = 1 dafür steht, dass der i-te Wähler für die Partei A stimmen wird. Ein nahe liegender Schätzwert für p ist Xn :=
Sn
.
n
Wie viele Stichproben braucht man, damit der tatsächliche
Stimmenanteil mit 95% Wahrscheinlichkeit um höchstens ε = 1% von Schätzwert abweicht?
Definition. Sei α ∈ (0, 1). Das zufällige Intervall [Xn − ε, Xn + ε] heißt Konfidenzintervall zum
Konfidenzniveau 1 − α (bzw. zum Irrtumsniveau α) für den unbekannten Parameter p, falls
Pp [p 6∈ [Xn − ε, Xn + ε]]
≤
α
für alle möglichen Parameterwerte p ∈ [0, 1] gilt.
Universität Bonn
Wintersemester 2009/2010
150
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Im Prinzip lassen sich Konfidenzintervalle aus den Quantilen der zugrundeliegenden Verteilung
gewinnen. In der Situation von oben gilt beispielsweise:
p ∈ [Xn − ε, Xn + ε]
⇐⇒
|Xn − p| ≤ ε ⇐⇒ Xn ∈ [p − ε, p + ε]
⇐⇒
Sn ∈ [n(p − ε), n(p + ε)]
Diese Bedingung ist für p ∈ [0, 1] mit Wahrscheinlichkeit ≥ 1 − α erfüllt, falls z.B. n(p − ε)
oberhalb des α2 -Quantils und n(p + ε) unterhalb des (1 − α2 )-Quantils der Binomialverteilung
Bin(n, p) liegt.
Praktikablere Methoden, um in unserem Modell Konfidenzintervalle zu bestimmen, sind zum
Beispiel:
Abschätzung mithilfe der Čebyšev-Ungleichung:
Sn
p(1 − p)
Sn
1
=
·V ar
Pp − p ≥ ε
≤
2
n
ε
n
nε2
Dies ist erfüllt für n ≥
1
,
4ε2 α
1
2ε2
1
4nε2
!
≤
α
∀ p ∈ [0, 1]
also im Beispiel für n ≥ 50.000.
Abschätzung über die exponentielle Ungleichung:
Sn
2
≤ 2 · e−2ε n
Pp − p ≥ ε
n
ist erfüllt für n ≥
≤
≤
α
∀ p ∈ [0, 1],
log( α2 ), also im Beispiel für n ≥ 18445.
Die exponentielle Abschätzung ist genauer - sie zeigt, daß bereits weniger als 20.000 Stichproben genügen. Können wir mit noch weniger Stichproben auskommen ? Dazu berechnen wir die
Wahrscheinlichkeit, daß der Parameter im Intervall liegt, näherungsweise mithilfe des zentralen
Grenzwertsatzes:
Approximative Berechnung mithilfe der Normalapproximation:
"
#
S − np Sn
nε
n
=
Pp p
Pp − p ≤ ε
≤ p
np(1 − p) n
np(1 − p)
!
√
√
nε
nε
≈
N (0, 1) − p
, p
p(1 − p)
p(1 − p)
!
!
√
1
nε
−
=
2 Φ p
2
p(1 − p)
p(1−p)≤ 41
≥
√
2Φ(2 nε) − 1 ≥
Einführung in die Wahrscheinlichkeitstheorie
1−α
∀ p ∈ [0, 1],
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
falls
n
Im Beispiel gilt
≥
151
2
1
α
−1
·Φ
1−
.
2ε
2
α
Φ−1 1 −
≈ 1.96
2
und die Bedingung ist für n ≥ 9604 erfüllt. Also sollten bereits ca. 10.000 Stichproben ausrei-
chen! Exakte (also ohne Verwendung einer Näherung hergeleitete) Konfidenzintervalle sind in
vielen Fällen zu konservativ. In Anwendungen werden daher meistens approximative Konfidenzintervalle angegeben, die mithilfe einer Normalapproximation hergeleitet wurden. Dabei ist aber
folgendes zu beachten:
Warnung: Mithilfe der Normalapproximation hergeleitete approximative Konfidenzintervalle
erfüllen die Niveaubedingung im Allgemeinen nicht (bzw. nur näherungsweise). Da die Qualität
der Normalapproximation für p → 0 bzw. p → 1 degeneriert, ist die Niveaubedingung im All-
gemeinen selbst für n → ∞ nicht erfüllt. Beispielsweise beträgt das Niveau von approximativen
99% Konfidenzintervallen asymptotisch tatsächlich nur 96.8%!
Universität Bonn
Wintersemester 2009/2010
Kapitel 5
Unabhängigkeit und Produktmodelle
5.1
Unabhängigkeit in allgemeinen Modellen
Unabhängigkeit von Ereignissen
In Abschnitt 2.3 haben wir einen Unabhängigkeitsbegriff für Ereignisse eingeführt: Eine Kollektion Ai , i ∈ I, von Ereignissen aus derselben σ-Algebra A heißt unabhängig bzgl. einer
Wahrscheinlichkeitsverteilung P , falls
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ]
=
n
Y
P [Aik ]
(5.1.1)
k=1
für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt.
Beispiel. Ein Ereignis A ist genau dann unabhängig von sich selbst, wenn P [A] = P [A ∩ A] =
P [A]2 gilt, also wenn die Wahrscheinlichkeit von A gleich 0 oder 1 ist. Solche Ereignisse nennt
man auch deterministisch.
Wir wollen den obigen Unabhängigkeitsbegriff nun auf Ereignissysteme erweitern.
Definition. Eine Kollektion Ai (i ∈ I) von Mengensystemen Ai ⊆ A heißt unabhängig (bzgl.
P ), falls jede Kollektion Ai (i ∈ I) von Ereignissen Ai ∈ Ai unabhängig ist, d.h.
P [Ai1 ∩ . . . ∩ Ain ]
=
n
Y
P [Aik ]
k=1
für alle n ∈ N, i1 , . . . , in ∈ I paarweise verschieden, und Aik ∈ Aik (1 ≤ k ≤ n).
Sind zum Beispiel A und B unabhängige Ereignisse, dann sind σ(A) = {∅, A, AC , Ω} und
σ(B) = {∅, B, B C , Ω} unabhängige Mengensysteme. Allgemeiner:
152
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
153
Satz 5.1. Seien Ai (i ∈ I) unabhängige Mengensysteme. Jedes Ai sei durchschnittsstabil. Dann
gilt:
(1). Die σ-Algebren σ(Ai ) (i ∈ I) sind unabhängige Mengensysteme.
(2). Ist I =
S
Ik eine disjunkte Zerlegung von I, dann sind auch die σ-Algebren σ(
S
i∈Ik
k∈K
(k ∈ K) unabhängige Mengensysteme.
Ai )
Beispiel. Sind A1 , . . . , An unabhängige Ereignisse, dann sind die Mengensysteme
A1
{A1 },
=
, An
...
=
{An }
unabhängig und durchschnittsstabil, also sind auch die σ-Algebren
σ(Ai )
=
{∅, Ai , AC
i , Ω}
(i = 1, . . . , n)
unabhängige Mengensysteme, d.h es gilt
P [B1 ∩ . . . ∩ Bn ]
n
Y
=
P [Bi ]
i=1
∀Bi ∈ {∅, Ai , AC
i , Ω}.
Dies kann man auch direkt beweisen, siehe Lemma 2.5 oben.
Ein Beispiel zum zweiten Teil der Aussage von Satz 5.1 werden wir im Anschluss an den Beweis
des Satzes betrachten.
Beweis.
(1). Seien i1 , . . . , in ∈ I (n ∈ N) paarweise verschieden. Wir müssen zeigen, dass
P [Bi1 ∩ . . . ∩ Bin ]
=
P [Bi1 ] · . . . · P [Bin ]
(5.1.2)
für alle Bi1 ∈ σ(Ai1 ), . . . , Bin ∈ σ(Ain ) gilt. Dazu verfahren wir schrittweise:
(a) Die Aussage (5.1.2) gilt nach Voraussetzung für Bi1 ∈ Ai1 , . . . , Bin ∈ Ain .
(b) Für Bi2 ∈ Ai2 , . . . , Bin ∈ Ain betrachten wir das Mengensystem D aller Bi1 ∈
A, für die (5.1.2) gilt. D ist ein Dynkinsystem, das Ai1 nach (a) enthält. Da Ai1
durchschnittsstabil ist, folgt
D
⊇
D(Ai1 )
=
σ(Ai1 ).
Also gilt (5.1.2) für alle Bi1 ∈ σ(Ai1 ).
Universität Bonn
Wintersemester 2009/2010
154
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
(c) Für Bi1 ∈ σ(Ai1 ) und Bi3 ∈ σ(Ai3 ), . . . , Bin ∈ σ(Ain ) betrachten wir nun das
Mengensystem aller Bi2 ∈ A, für die (5.1.2) gilt. Wiederum ist D ein Dynkinsystem,
das Ai2 nach (b) enthält. Wie im letzten Schritt folgt daher
D
⊇
D(Ai2 )
=
σ(Ai2 ),
d.h. (5.1.2) ist für alle Bi2 ∈ σ(Ai2 ) erfüllt.
Anschließend verfahren wir auf entsprechende Weise weiter. Nach n-facher Anwendung eines analogen Arguments folgt die Behauptung.
(2). Für k ∈ K gilt: σ(
S
i∈Ik
Ck
:=
Ai ) = σ(Ck ) mit
{Bi1 ∩ . . . ∩ Bin |n ∈ N, i1 , . . . , in ∈ Ik paarw. verschieden , Bij ∈ Aij }.
Die Mengensysteme Ck , k ∈ K, sind durchschnittsstabil und unabhängig, da jede Kollektion von Ereignissen Bi ∈ Ai , i ∈ I, nach Voraussetzung unabhängig ist. Also sind nach
Teil (1) der Aussage auch die σ-Algebren σ(Ck ), k ∈ K, unabhängig.
Beispiel (Affe tippt Shakespeare). Wir betrachten unabhängige 0-1-Experimente mit Erfolgswahrscheinlichkeit p. Sei Xi (ω) ∈ {0, 1} der Ausgang des i-ten Experiments. Für ein binäres
Wort (a1 , . . . , an ) ∈ {0, 1}n , n ∈ N, gilt:
P [X1 = a1 , . . . , Xn = an ]
=
P
"
n
\
i=1
#
{Xi = ai }
unabh.
=
pk · (1 − p)n−k ,
wobei k = a1 + . . . + an die Anzahl der Einsen in dem Wort ist. Wir zeigen nun:
Behauptung: P [Wort kommt unendlich oft in der Folge X1 , X2 , . . . vor] = 1, falls p 6∈ {0, 1}.
Zum Beweis bemerken wir, dass die Ereignisse
Em = {Xmn+1 = a1 , Xmn+2 = a2 , . . . , Xmn+n = an },
m ∈ N,
„Text steht im m-ten Block“
unabhängig sind. Nach Satz 5.1 sind nämlich die σ-Algebren
σ({{Xmn+1 = 1}, {Xmn+2 = 1}, . . . , {Xmn+n = 1}}),
m ∈ N,
unabhängig, also auch die darin enthaltenen Ereignisse Em . Für p 6= 0 gilt:
P [Em ] = pk · (1 − p)n−k > 0,
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
also
∞
X
P [Em ]
∞.
=
m=1
Damit folgt nach Borel-Cantelli:
1
=
≤
P [Em unendlich oft]
155
P [Wort kommt unendlich oft vor].
Unabhängigkeit von Zufallsvariablen
Wir betrachten nun Zufallsvariablen mit Werten in einem messbaren Raum (S, S).
Definition. Seien X, Xi : Ω → S, i ∈ I, Abbildungen.
(1). Das Mengensystem
σ(X)
:=
{X −1 (B)|B ∈ S}
⊆
P(Ω)
heißt die von X erzeugte σ-Algebra auf Ω.
(2). Allgemeiner heißt
σ(Xi |i ∈ I)
:=
σ
[
!
σ(Xi )
i∈I
=
σ({Xi−1 (B)|B ∈ S, i ∈ I})
die von den Abbildungen Xi , i ∈ I, erzeugte σ-Algebra.
Bemerkung. (1). Man prüft leicht nach, dass σ(X) tatsächlich eine σ-Algebra ist.
(2). Eine Abbildung X : Ω → S ist messbar bzgl. A/S genau dann, wenn σ(X) ⊆ A gilt.
Somit ist σ(X) die kleinste σ-Algebra auf Ω, bzgl. der X messbar ist.
(3). Entsprechend ist σ(Xi , i ∈ I) die kleinste σ-Algebra auf Ω, bzgl. der alle Abbildungen Xi
messbar sind.
Beispiel (Produkt-σ-Algebra). Sei Ω = {0, 1}N = {ω = (x1 , x2 , . . .)|xi ∈ {0, 1}}, oder ein
allgemeiner Produktraum, und sei Xi (ω) = xi die Projektion auf die i-te Komponente. Dann ist
die Produkt-σ-Algebra A auf Ω gerade die von den Abbildungen Xi erzeugte σ-Algebra:
A = σ({X1 = a1 , . . . , Xn = an }|n ∈ N, a1 , . . . , an ∈ {0, 1})
= σ({Xi = 1}|i ∈ N)
= σ(X1 , X2 , . . .).
Universität Bonn
Wintersemester 2009/2010
156
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Messbare Abbildungen auf (Ω, A) sind z.B.
Sn (ω)
L(ω)
=
=
X1 (ω) + . . . + Xn (ω),
1
lim sup Sn (ω),
n→∞ n
L(ω)
=
lim inf
n→∞
1
Sn (ω),
n
etc.
Wir können nun einen Unabhängigkeitsbegriff für allgemeine Zufallsvariablen einführen, der
kompatibel mit dem oben definierten Unabhängigkeitsbegriff für Mengensysteme ist.
Definition. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
(1). Eine endliche Kollektion X1 , . . . , Xn : Ω → S von Zufallsvariablen auf (Ω, A, P ) heißt
unabhängig, falls
P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
n
Y
=
i=1
P [Xi ∈ Bi ]
∀Bi ∈ S
(1 ≤ i ≤ n). (5.1.3)
(2). Eine beliebige Kollektion Xi , i ∈ I, von Zufallsvariablen auf (Ω, A, P ) heißt unabhängig, falls jede endliche Teilkollektion Xi1 , . . . , Xin (i1 , . . . , in ∈ I paarweise verschieden)
unabhängig ist.
Bemerkung. (1). Die Definition ist konsistent: Jede endliche Teilkollektion einer unabhängigen endlichen Kollektion von Zufallsvariablen ist wieder unabhängig im Sinne von (5.1.3).
(2). Die Zufallsvariablen Xi , i ∈ I, sind genau dann unabhängig, wenn die σ-Algebren
σ(Xi )
{{Xi ∈ B}|B ∈ B(S)},
=
i ∈ I,
unabhängige Mengensysteme sind.
Sei (S̃, S̃) ein weiterer messbarer Raum. Eine sehr wichtige Konsequenz von Bemerkung (2) ist:
Satz 5.2 (Funktionen von unabhängigen Zufallsvariablen sind unabhängig). Sind Xi : Ω →
S, i ∈ I, unabhängige Zufallsvariablen auf (Ω, A, P ), und sind hi : S → S̃ messbare Abbildungen, dann sind auch die Zufallsvariablen Yi := hi (Xi ), i ∈ I, unabhängig bzgl. P .
Beweis.
σ(Yi )
=
{ Yi−1 (B) | B ∈ S̃}.
| {z }
Xi−1 (h−1
i (B))
Da die σ-Algebren σ(Xi ), i ∈ I, unabhängig sind, sind auch σ(Yi ), i ∈ I, unabhängige Mengensysteme.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
157
Aufgrund von Satz 5.1 kann man allgemeiner eine Kollektion Xi , i ∈ I, von unabhängigen
Ṡ
Zufallsvariablen in disjunkte Gruppen Xi , i ∈ Ik , I = Ik , einteilen, und messbare Funktionen
k
Yk
=
hk (Xi |i ∈ Ik ),
k∈K
von den Zufallsvariablen der verschiedenen Gruppen betrachten. Auch die Yk sind dann wieder
unabhängige Zufallsvariablen.
Für unabhängige reellwertige Zufallsvariablen Xi (i ∈ I) gilt insbesondere
P [Xi−1 ≤ c1 , . . . , Xin ≤ cn ]
für alle n ∈ N, i1 , . . . , in ∈ I
=
n
Y
k=1
paarweise verschieden, und
P [Xik ≤ ck ]
(5.1.4)
ci ∈ R.
Tatsächlich werden wir im nächsten Abschnitt zeigen, dass Bedingung (5.1.4) äquivalent zur
Unabhängigkeit der Xi ist. Als erste Anwendung betrachten wir Extrema von unabhängigen exponentialverteilten Zufallsvariablen.
Beispiel (Maxima von exponentialverteilten Zufallsvariablen). Seien T1 , T2 , . . . unabhängige
Exp(1)-verteilte Zufallsvariablen. Wir wollen uns überlegen, wie sich die Extremwerte (Rekorde)
Mn
=
max{T1 , . . . , Tn }
asymptotisch für n → ∞ verhalten. Dazu gehen wir in mehreren Schritten vor:
(1). Wir zeigen zunächst mithilfe des Borel-Cantelli-Lemmas:
lim sup
n→∞
Tn
=1
log n
P -fast sicher.
(5.1.5)
Zum Beweis berechnen wir für c ∈ R:
Tn
P
≥ c = P [Tn ≥ c · log n]
log n
= e−c log n = n−c .
Für c > 1 gilt
∞
P
n=1
n−c < ∞. Nach dem 1. Borel-Cantelli-Lemma folgt daher
Tn
>c
P lim sup
n→∞ log n
≤
Tn
P
≥c
log n
unendlich oft
Für c ց 1 erhalten wir dann wegen der monotonen Stetigkeit von P :
Tn
Tn
>1
= lim P lim sup
>c
=
P lim sup
cց1
n→∞ log n
n→∞ log n
Universität Bonn
=
0.
0.
(5.1.6)
Wintersemester 2009/2010
158
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Für c < 1 gilt
∞
P
n=1
n−c = ∞. Da die Ereignisse {Tn ≥ c log n}, n ∈ N, unabhängig sind,
folgt nach dem 2. Borel-Cantelli Lemma:
Tn
Tn
P lim sup
≥c
≥ P
≥c
log n
n→∞ log n
=
=
1
unendlich oft
Für c ր 1 erhalten wir mithilfe der monotonen Stetigkeit:
Tn
Tn
P lim sup
≥1
= lim P lim sup
≥c
cր1
n→∞ log n
n→∞ log n
1.
(5.1.7)
Aus (5.1.6) und (5.1.7) folgt die Behauptung (5.1.5).
(2). Als nächstes folgern wir:
Mn ∼ log n,
d.h. lim
n→∞
Mn
=1
log n
P -f.s.
(5.1.8)
Zum Beweis zeigen wir:
Mn
≤ 1 P -f.s., und
n→∞ log n
Mn
≥ 1 P -f.s.
(b) lim inf
n→∞ log n
(a) lim sup
Aussage (a) folgt aus (1), denn für c ∈ R gilt:
Mn
> c
n→∞ log n
⇒ max{T1 , . . . , Tn } = Mn
lim sup
⇒ Tk(n)
⇒ Tk
>
c · log n
c · log k
Tk
⇒ lim sup
≥c
log k
>
>
c · log n
unendlich oft
für k(n) ≤ n für ∞ viele n
unendlich oft
Nach (1) hat das letztere Ereignis für c > 1 Wahrscheinlichkeit 0, also gilt wegen der
monotonen Stetigkeit von P :
Mn
>1
P lim sup
n→∞ log n
=
Mn
lim P lim sup
>c
cց1
n→∞ log n
=
0.
Zum Beweis von (b) genügt es wegen der monotonen Stetigkeit zu zeigen, dass für c < 1
Mn
Mn
P
> c schließlich
= P
≤ c nur endlich oft
= 1
log n
log n
gilt. Nach Borel-Cantelli I ist dies der Fall, wenn
X Mn
P
≤c
log
n
n∈N
Einführung in die Wahrscheinlichkeitstheorie
<
∞
(5.1.9)
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
159
gilt. Für c ∈ R gilt aber wegen der Unabhängigkeit der Ti
Mn
≤ c = P [Ti ≤ c · log n
∀ 1 ≤ i ≤ n]
P
log n
= P [T1 ≤ c · log n]n = (1 − e−c log n )n
= (1 − n−c )n
≤
−c
e−n·n
=
1−c
e−n
,
und diese Folge ist für c < 1 summierbar. Also gilt (5.1.9) für alle c < 1, und damit (b).
(3). Abschließend untersuchen wir die Fluktuationen der Extremwerte Mn um log n noch genauer. Wir zeigen, dass die Zufallsvariable Mn − log n in Verteilung konvergiert:
n→∞
−c
P [Mn − log n ≤ c] −→ e−e
für alle c ∈ R.
(5.1.10)
Beweis. Wegen
P [Mn ≤ c]
=
i.i.d.
=
=
P [Ti ≤ c
P [T1 ≤ c]n
∀i = 1, . . . , n]
(1 − e−c )n
für alle c ∈ R
folgt
P [Mn − log n ≤ c]
=
P [Mn ≤ c + log n]
=
(1 −
1 −c n
·e )
n
n→∞
−c
−→ e−e
Aussage (5.1.10) besagt, dass Mn − log n in Verteilung gegen eine Gumbel-verteilte Zu−c
fallsvariable X, d.h. eine Zufallsvariable mit Verteilungsfunktion FX (c) = e−e
konver-
giert. Für große n gilt also näherungsweise
Mn
D
≈
log n + X,
X ∼ Gumbel,
wobei log n die Asymptotik und X die Fluktuationen beschreibt.
Konfidenzintervalle für Quantile
Sei (x1 , . . . , xn ) eine n-elementige Stichprobe von einer unbekannten Wahrscheinlichkeitsverteilung µ auf (R, B(R)). Wir nehmen an, dass x1 , . . . , xn Realisierungen von unabhängigen Zufallsvariablen mit stetiger Verteilung sind:
Universität Bonn
Wintersemester 2009/2010
160
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Annahme: X1 , . . . , Xn unabhängig unter Pµ mit stetiger Verteilung µ.
Wir wollen nun die Quantile (z.B. den Median) der zugrundeliegenden Verteilung auf der Basis der Stichprobe schätzen. Eine Funktion T (X1 , . . . , Xn ), T : Rn → R messbar, nennt man
in diesem Zusammenhang auch ein Statistik der Stichprobe (X1 , . . . , Xn ). Eine Statistik, deren
Wert als Schätzwert für eine Kenngröße q(µ) der unbekannten Verteilung verwendet wird, nennt
man auch einen (Punkt-) Schätzer für q. Nahe liegende Schätzer für die Quantile von µ sind die
entsprechenden Stichprobenquantile. Unser Ziel ist es nun, Konfidenzintervalle für die Quantile
anzugeben, d.h. von den Werten X1 , . . . , Xn abhängende Intervalle, in denen die Quantile unabhängig von der tatsächlichen Verteilung mit hoher Wahrscheinlichkeit enthalten sind. Seien
dazu
X(1)
≤
X(2)
≤
...
≤
X(n)
die der Größe nach geordneten Werte X1 , . . . , Xn – diese nennt man auch Ordnungsstatistiken
der Stichprobe. Die Verteilung der Ordnungsstatistiken können wir explizit berechnen:
Satz 5.3 (Verteilung der Ordnungsstatistiken). Ist µ eine absolutstetige Wahrscheinlichkeitsverteilung mit Verteilungsfunktion F , dann hat X(k) die Verteilungsfunktion
F(k) (c) = Bin(n, F (c))[{k, k + 1, . . . , n}]
n X
n
F (c)j · (1 − F (c))n−j .
=
j
j=k
(5.1.11)
Beweis. Da die Ereignisse {Xi ≤ c}, 1 ≤ i ≤ n, unabhängig sind mit Wahrscheinlichkeit F (c),
gilt
F(k) (c) = Pµ [X(k) ≤ c] = Pµ [Xi ≤ c
für mindestens k verschiedene i ∈ {1, . . . , n}]
= Bin(n, F (c))[{k, k + 1, . . . , n}]
n X
n
F (c)j · (1 − F (c))n−j .
=
j
j=k
Nach Satz 5.3 ist die Wahrscheinlichkeit, dass der Wert von X(k) unterhalb eines u-Quantils der
zugrundeliegenden Verteilung µ liegt, für alle stetigen Verteilungen gleich! Damit folgt unmittelbar:
Korollar 5.4 (Ordnungsintervalle). Sei u ∈ (0, 1) und 0 ≤ k < l ≤ n. Dann ist das zufällige
Intervall (X(k) , X(l) ) ein Konfidenzintervall für das u-Quantil der zugrundeliegenden Verteilung
µ zum Konfidenzniveau
β
:=
Bin(n, k)[{k, k + 1, . . . , l − 1}],
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
161
d.h. für jede absolutstetige Wahrscheinlichkeitsverteilung µ auf R, und für jedes u-Quantil qu (µ)
gilt:
Pµ [X(k) < qu (µ < X(l) )]
≥
β.
Beweis. Da die Verteilungen stetig sind, gilt Fµ (qu (µ)) = u für jedes u-Quantil, und damit nach
Satz 5.3:
Pµ [X(k) < qu (µ) < X(l)] = Bin(n, u)[{k, k + 1, . . . , n}] − Bin(n, u)[{l, l + 1, . . . , n}]
= Bin(n, u)[{k, k + 1, . . . , l − 1}].
Für große n kann man die Quantile der Binomialverteilung näherungsweise mithilfe der Normalapproximation berechnen, und erhält daraus entsprechende Konfidenzintervalle für die Quantile
von stetigen Verteilungen. Bemerkenswert ist, dass diese Konfidenzintervalle nicht nur für Verteilungen aus einer bestimmten Familie (z.B. der Familie der Normalverteilungen) gelten, sondern
für alle stetigen Wahrscheinlichkeitsverteilungen auf R (nichtparametrisches Modell).
5.2 Gemeinsame Verteilungen und endliche Produktmodelle
Um Aussagen über den Zusammenhang mehrerer Zufallsvariablen X1 , . . . , Xn zu treffen, benötigen wir Kenntnisse über deren gemeinsame Verteilung, d.h. über die Verteilung des Zufallsvektors X = (X1 , . . . , Xn ). Diese ist eine Wahrscheinlichkeitsverteilung auf dem Produkt der
Wertebereiche der einzelnen Zufallsvariablen.
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen
Seien (Si , Si ), 1 ≤ i ≤ n, messbare Räume. Die Produkt-σ-Algebra S1 ⊗. . .⊗Sn auf S1 ×. . .×Sn
wird von den endlichen Produkten von Mengen aus den σ-Algebren Si erzeugt:
S1 ⊗ . . . ⊗ Sn
=
σ({B1 × . . . × Bn |Bi ∈ Si
∀ 1 ≤ i ≤ n}).
Bezeichnen wir mit πi : S1 × . . . × Sn → Si , πi (x1 , . . . , xn ) := xi , die kanonische Projektion auf
die i-te Komponente, so gilt
S1 ⊗ . . . ⊗ Sn
Universität Bonn
=
σ(π1 , . . . , πn ).
Wintersemester 2009/2010
162
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Beispiel. Für die Borelsche σ-Algebra auf Rn gilt:
B(Rn )
=
B(R) ⊗ . . . ⊗ B(R)
{z
}
|
=
n
O
i=1
n mal
B(R),
denn B(Rn ) wird zum Beispiel von den offenen Quadern, also Produkten von offenen Intervallen,
erzeugt. Ein anderes Erzeugendensystem von B(Rn ) bilden die Produktmengen
(−∞, c1 ] × (−∞, c2 ] × . . . × (−∞, cn ],
c1 , . . . , cn ∈ R.
(5.2.1)
Ist µ eine Wahrscheinlichkeitsverteilung auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), dann heißen die
Wahrscheinlichkeitsverteilungen
µπi
:=
µ ◦ πi−1 ,
1 ≤ i ≤ n,
auf Si (eindimensionale) Randverteilungen (marginals) von µ. Wir werden in Kapitel 9 allgemeine Wahrscheinlichkeitsverteilungen auf Produkträumen konstruieren und systematisch untersuchen. Im Moment beschränken wir uns meist auf eine spezielle Klasse von solchen Verteilungen: die endlichen Produktmodelle.
Definition (Endliches Produktmaß). Seien (Si , Si , µi ) Wahrscheinlichkeitsräume, 1 ≤ i ≤ n.
Eine Wahrscheinlichkeitsverteilung µ auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ) heißt Produkt der µi ,
falls
µ[B1 × . . . × Bn ]
=
gilt.
n
Y
i=1
µi [Bi ]
∀ Bi ∈ Si , 1 ≤ i ≤ n,
(5.2.2)
Bemerkung. Das Produktmaß µ ist durch (5.2.2) eindeutig festgelegt, denn die Produktmengen
bilden einen durchschnittsstabilen Erzeuger der σ-Algebra S1 ⊗ . . . ⊗ Sn . Die Existenz von Produktmaßen folgt aus dem Satz von Fubini, den wir in Abschnitt 9.1 beweisen. Für Wahrscheinlichkeitsverteilungen auf R zeigen wir die Existenz von Produktmaßen im nächsten Abschnitt.
Das nach der Bemerkung eindeutige Produktmaß der Wahrscheinlichkeitsverteilungen µ1 , . . . , µn
bezeichnen wir mit µ1 ⊗ . . . ⊗ µn . Die eindimensionalen Randverteilungen eines Produktmaßes
sind gerade die Faktoren µi .
Lemma 5.5. Unter µ = µ1 ⊗ . . . ⊗ µn sind die Projektionen
πi : S1 × . . . × Sn −→ Si ,
πi (x1 , . . . , xn ) = xi ,
1 ≤ i ≤ n,
unabhängig mit Verteilung µi .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
163
Beweis. Für Bi ∈ Si , 1 ≤ i ≤ n, gilt:
µ[πi ∈ Bi ] = µ[S1 × . . . × Si−1 × Bi × Si+1 × . . . × Sn ]
Y
= µi [Bi ] ·
µj [Sj ] = µi [Bi ],
| {z }
j6=i
und
=1
µ[π1 ∈ B1 , . . . , πn ∈ Bn ] = µ[B1 × . . . × Bn ]
=
n
Y
µi [Bi ]
=
i=1
n
Y
i=1
µi [πi ∈ Bi ].
Sind die Mengen S1 , . . . , Sn abzählbar, dann gilt µ = µ1 ⊗ . . . ⊗ µn genau dann, wenn die
Massenfunktion von µ das Produkt der einzelnen Massenfunktionen ist, d.h.
µ(x1 , . . . , xn )
=
n
Y
für alle xi ∈ Si , 1 ≤ i ≤ n.
µi (xi )
i=1
Im Fall S1 = . . . = Sn = R mit Borelscher σ-Algebra bilden die Mengen aus (5.2.1) einen
durchschnittsstabilen Erzeuger der Produkt-σ-Algebra B(Rn ). Also ist µ = µ1 ⊗ . . . ⊗ µn genau
dann, wenn
µ[(−∞, c1 ] × . . . × (−∞, cn ]]
n
Y
=
µi [(−∞, ci ]]
i=1
für alle c1 , . . . , cn ∈ R
gilt. Die linke Seite ist die Verteilungsfunktion Fµ (c1 , . . . , cn ) der multivariaten Verteilung µ, die
rechte Seite das Produkt der Verteilungsfunktionen der µi .
Beispiel (Gleichverteilung auf n-dimensionalem Quader). Ist µi = U(ai ,bi ) die Gleichvertei-
lung auf einem endlichen Intervall (ai , bi ), −∞ < ai < bi < ∞, dann ist µ = µ1 ⊗ . . . ⊗ µn die
n
Q
Gleichverteilung auf dem Quader S = (ai , bi ), denn für c1 , . . . , cn ∈ S gilt:
i=1
#
n
n
Y
Y
(−∞, ci ] =
µ − i[(−∞, ci ]]
µ
"
i=1
i=1
=
n
Y
c i − ai
b i − ai
#,
" n
Y
= λn
(ai , ci ]
λn [S].
i=1
i=1
Universität Bonn
Wintersemester 2009/2010
164
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Absolutstetigkeit von multivariaten Verteilungen
Absolutstetigkeit von endlichen Produktmodellen
Der Satz von Fubini, den wir in Abschnitt 9.1 in größerer Allgemeinheit beweisen werden, besagt unter anderem, dass das n-dimensionale Lebesgueintegral einer beliebigen Borel-messbaren
nicht-negativen Funktion f : Rn → R existiert, und als Hintereinanderausführung von eindimen-
sionalen Integralen nach den Koordinaten x1 , . . . , xn berechnet werden kann:
Z
Z
Z
f (x) dx =
· · · f (x1 , . . . , xn ) dxn · · · dx1 .
Rn
Hierbei können die eindimensionalen Integrationen in beliebiger Reihenfolge ausgeführt werden.
Für den Beweis verweisen wir auf die Analysisvorlesung bzw. auf Abschnitt 9.1 unten.
In Analogie zum eindimensionalen Fall heißt eine Wahrscheinlichkeitsverteilung µ auf (Rn , B(Rn ))
stetig oder absolutstetig, falls eine B(Rn )-messbare Dichtefunktion f : Rn → [0, ∞) existiert mit
Z
Z
µ[B] =
f (x) dx :=
IB (x)f (x) dx
B
für jeden Quader, bzw. allgemeiner für jede Borelmenge B ⊆ Rn . Endliche Produkte von eindi-
mensionalen absolutstetigen Verteilungen sind wieder absolutstetig, und die Dichte ist das Produkt der einzelnen Dichten:
Lemma 5.6. Sind µ1 , . . . , µn absolutstetige Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit
Dichtefunktionen f1 , . . . , fn , dann ist das Produkt µ = µ1 ⊗ . . . ⊗ µn eine absolutstetige Wahr-
scheinlichkeitsverteilung auf (Rn , B(Rn )) mit Dichtefunktion
f (x1 , . . . , xn )
=
n
Y
fi (xi ).
i=1
Beweis. Für jede Produktmenge B = B1 × . . . × Bn , Bi ∈ B(R), gilt nach dem Satz von Fubini:
Z
Z
n
n Z
n
Y
Y
Y
µ[B] =
µi [Bi ] =
fi (xi )dxi =
· · · IB (x1 , . . . , xn )
fi (xi )dx1 · · · dxn .
i=1
i=1 B
i=1
i
Die Dichtefunktion der Gleichverteilung auf dem Quader S = (a1 , b1 ) × . . . × (an , bn ) ist bei-
spielsweise
f (x1 , . . . , xn )
=
n
Y
i=1
1
1
IS (x).
I(ai ,bi ) (xi ) =
b i − ai
Volumen[S]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
165
Ein anderes Produktmaß von fundamentaler Bedeutung für die Wahrscheinlichkeitstheorie ist die
mehrdimensionale Standardnormalverteilung:
Beispiel (Standardnormalverteilung im Rn ). Die Wahrscheinlichkeitsverteilung
µ
n
O
=
N (0, 1)
i=1
auf (Rn , B(Rn )) heißt n-dimensionale Standardnormalverteilung. Die mehrdimensionale Standardnormalverteilung ist absolutstetig mit Dichte
f (x1 , . . . , xn )
=
2
n
Y
1
x
2
√ · exp − i = (2π)−n/2 e−kxk /2 ,
2
2π
i=1
x ∈ Rn .
z
y
x
Abbildung 5.1: Dichte der Standardnormalverteilung in R2 .
Gemeinsame Verteilungen
Sind Xi : Ω → Si , 1 ≤ i ≤ n, beliebige Zufallsvariablen mit Werten in messbaren Räumen
(Si , Si ), welche auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind, dann
ist
(X1 , . . . , Xn ) :
Universität Bonn
Ω
−→
S1 × . . . × Sn
Wintersemester 2009/2010
166
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
eine Zufallsvariable mit Werten im Produktraum (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), denn für Bi ∈
Si , 1 ≤ i ≤ n, gilt:
{(X1 , . . . , Xn ) ∈ B1 × . . . × Bn }
=
n
\
i=1
{Xi ∈ B}
∈ A.
Wie zuvor im diskreten Fall (s. Abschnitt 2.4) definieren wir:
Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) auf (S1 × . . . × Sn , S1 ⊗
. . . ⊗ Sn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn .
Der folgende Satz gilt analog zum diskreten Fall:
Satz 5.7. Die folgenden Aussagen sind äquivalent:
(1). Die Zufallsvariablen X1 , . . . , Xn sind unabhängig.
(2). Die gemeinsame Verteilung µX1 ,...,Xn ist ein Produktmaß.
(3). µX1 ,...,Xn
=
µ X1 ⊗ . . . ⊗ µ Xn .
Beweis. „ (1) =⇒ (3) “: folgt direkt aus der Definition der Unabhängigkeit und der gemeinsamen
Verteilung: Sind X1 , . . . , Xn unabhängig, dann gilt
µX1 ,...,Xn [B1 × . . . × Bn ] = P [(X1 , . . . , Xn ) ∈ B1 × . . . × Bn ]
= P [Xi ∈ Bi , ∀1 ≤ i ≤ n]
n
Y
=
P [Xi ∈ Bi ]
i=1
n
Y
=
µXi [Bi ]
i=1
für alle Bi ∈ Si , 1 ≤ i ≤ n.
„ (3) =⇒ (2) “: Die Implikation ist offensichtlich, und „ (2) =⇒ (1) “ folgt aus Lemma 5.5: Ist
µX1 ,...,Xn ein Produktmaß, dann sind die kanonischen Projektionen π1 , . . . , πn unabhängig unter
µX1 , . . . , µXn . Also gilt für Bi ∈ Si :
P [X1 ∈ B1 , . . . , Xn ∈ Bn ] = µX1 ,...,Xn [B1 × . . . × Bn ]
= µX1 ,...,Xn [π1 ∈ B1 , . . . , πn ∈ Bn ]
n
Y
=
µX1 ,...,Xn [πi ∈ Bi ]
i=1
=
n
Y
i=1
Einführung in die Wahrscheinlichkeitstheorie
P [πi ∈ Bi ]
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
167
Wir wenden die Aussage von Satz 5.7 nun speziell auf diskrete und reellwertige Zufallsvariablen
an:
Diskrete Zufallsvariablen
Sind die Wertebereiche S1 , . . . , Sn der Zufallsvariablen X1 , . . . , Xn abzählbar, dann wird die
gemeinsame Verteilung vollständig durch die gemeinsame Massenfunktion
pX1 ,...,Xn (a1 , . . . , an )
=
(a1 , . . . , an ) ∈ S1 × . . . × Sn
P [X1 = a1 , . . . , Xn = an ],
beschrieben. Die Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn die gemeinsame Massenfunktion das Produkt der einzelnen Massenfunktionen ist, s. Satz 2.7. Als Konsequenz
aus Satz 5.7 ergibt sich zudem:
Korollar 5.8. Sind Xi : Ω → Si , 1 ≤ i ≤ n, diskrete Zufallsvariablen, und hat die gemeinsame
Massenfunktion eine Darstellung
pX1 ,...,Xn (a1 , . . . , an )
=
c·
n
Y
∀(a1 , . . . , an ) ∈ S1 × . . . × Sn
gi (ai )
i=1
in Produktform mit einer Konstanten c ∈ R, und Funktionen gi : Si → [0, ∞), dann sind
X1 , . . . , Xn unabhängig mit Massenfunktion
pXi (ai )
g (a )
Pi i
gi (a)
=
a∈Si
Beweis. Die Werte
g̃i (ai )
=
g (a )
Pi i ,
gi (a)
ai ∈ S i ,
a∈Si
sind die Gewichte eine Wahrscheinlichkeitsverteilung µi auf Si . Nach Voraussetzung gilt
µX1 ,...,Xn [{a1 } × . . . × {an }] = pX1 ,...,Xn (a1 , . . . , an )
n
Y
= c̃ ·
µ
eXi [{ai }]
∀ (a1 , . . . , an ) ∈ S1 × . . . × S(5.2.3)
n
i=1
mit einer reellen Konstante c̃. Da auf beiden Seiten von (5.2.3) bis auf den Faktor c̃ die Massenfunktionen von Wahrscheinlichkeitsverteilungen stehen, gilt c̃ = 1, und damit
µX1 ,...,Xn
=
n
O
µi .
i=1
Also sind die Xi unabhängig mit Verteilung µi , d.h. mit Massenfunktion g̃i .
Universität Bonn
Wintersemester 2009/2010
168
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Beispiel (Zwei Würfel). Seien X, Y : Ω → {1, 2, 3, 4, 5, 6} gleichverteilte Zufallsvariablen. Für
die Gewichte der gemeinsamen Verteilung von X und Y gibt es dann beispielsweise folgende
Möglichkeiten:
(1). X, Y unabhängig.
Y
6
5
4
3
2
1
1
2
3
4
5
6 X
Abbildung 5.2: X, Y unabhängig; µX,Y = µX ⊗ µY . Gewichte der Punkte sind jeweils
1
36
(2). X, Y deterministisch korreliert, z.B. Y = (X + 1) mod 6.
Y
6
5
4
3
2
1
1
2
3
4
5
6 X
Abbildung 5.3: Y = (X + 1) mod 6. Das Gewicht eines einzelnen Punktes ist 16 .
(3). Y = (X + Z) mod 6, Z unabhängig von X, Z = 0, ±1 mit Wahrscheinlichkeit 13 .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
169
Y
6
5
4
3
2
1
1
2
3
4
6 X
5
Abbildung 5.4: Y = (X +Z) mod 6; Z ∼ unif{−1, 0, 1}. Das Gewicht eines einzelnen Punktes
ist
1
18
Reelle Zufallsvariablen
Die gemeinsame Verteilung reellwertiger Zufallsvariablen X1 , . . . , Xn : Ω → R auf der Produktn
N
B(R) ist vollständig durch die Werte
σ-Algebra B(Rn ) =
i=1
FX1 ,...,Xn (c1 , . . . , cn ) := µX1 ,...,Xn [(−∞, c1 ] × . . . × (−∞, cn ]]
= P [X1 ≤ c1 , . . . , Xn ≤ cn ],
(c1 , . . . , cn ) ∈ Rn ,
beschrieben. Die Funktion FX1 ,...,Xn : Rn → [0, 1] heißt gemeinsame Verteilungsfunktion.
Insbesondere sind X1 , . . . , Xn genau dann unabhängig, wenn
FX1 ,...,Xn (c1 , . . . , cn )
=
n
Y
FXi (ci )
i=1
∀(c1 , . . . , cn ) ∈ Rn
gilt. In Analogie zu Korollar 5.8 erhalten wir zudem:
Korollar 5.9. Seien X1 , . . . , Xn : Ω → R reellwertige Zufallsvariablen.
(1). Sind X1 , . . . , Xn unabhängige Zufallsvariablen mit absolutstetigen Verteilungen mit Dichten fX1 , . . . , fXn , dann ist die gemeinsame Verteilung absolutstetig mit Dichte
fX1 ,...,Xn (x1 , . . . , xn )
=
n
Y
i=1
Universität Bonn
fXi (xi )
∀ x ∈ Rn .
Wintersemester 2009/2010
170
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
(2). Umgekehrt gilt: Ist die gemeinsame Verteilung absolutstetig, und hat die Dichte eine Darstellung
fX1 ,...,Xn (x1 , . . . , xn )
=
c·
n
Y
∀ x ∈ Rn
gi (xi )
i=1
in Produktform mit einer Konstante c ∈ R und integrierbaren Funktionen gi : R → [0, ∞),
dann sind X1 , . . . , Xn unabhängig, und die Verteilungen sind absolutstetig mit Dichten
fXi (xi )
=
R
gi (xi )
.
gi (t) dt
R
Der Beweis verläuft ähnlich wie der von Korollar 5.8, und wird dem Leser zur Übung überlassen.
Beispiel (Zufällige Punkte in der Ebene). Seien X und Y unabhängige Zufallsvariablen, N (0, σ 2 )verteilte auf (Ω, A, P ) mit σ > 0. Dann ist die gemeinsame Verteilung µX,Y absolutstetig mit
Dichte
fX,Y (x, y)
x2 + y 2
1
·
exp(−
),
2πσ 2
2σ 2
=
(x, y) ∈ R2 .
es gilt (X, Y ) 6= (0, 0) P -fast sicher. Wir definieren den Radial- und Polaranteil
R : Ω → (0, ∞),
Φ : Ω → [0, 2π)
durch
X
d.h. R =
√
=
R · cos Φ
und
Y
=
R · sin Φ,
X 2 + Y 2 und Φ = arg(X +iY ) falls (X, Y ) 6= (0, 0). Auf der Nullmenge {(X, Y ) =
(0, 0)} definieren wir (R, Φ) in beliebiger Weise, sodass sich messbare Funktionen ergeben. Wir
berechnen nun die gemeinsame Verteilung von R und Φ:
P [R ≤ r0 , Φ ≤ φ0 ] = P [(X, Y ) ∈ „Kuchenstück“ mit Winkel φ0 und Radius r0 ]
Z Z
fX,Y (x, y) dx dy
=
Kuchenstück
=
Zr0 Zφ0
0
=
0
Zr0 Z
0
0
fX,Y (r cos φ, r sin φ) |{z}
r dφ dr
φ0
Jacobideterminante
der Koordinatentrans. f
r −r2 /(2σ2 )
e
dφ dr.
2πσ 2
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
171
Hierbei haben wir im 3. Schritt den Transformationssatz (Substitutionsregel) für mehrdimensionale Integrale verwendet - der Faktor r ist die Jacobideterminante der Koordinatentransformation
(s. Analysis). Es folgt, dass die gemeinsame Verteilung µR,Φ absolutstetig ist mit Dichte
fR,Φ (r, φ)
1 r
2
2
· 2 · e−r /(2σ ) .
2π σ
=
Da die Dichte Produktform hat, sind R und Φ unabhängig. Die Randverteilung µΦ ist absolutstetig mit Dichte
1
(0 ≤ φ < 2π),
2π
d.h. Φ ist gleichverteilt auf [0, 2π). Somit ist µR absolutstetig mit Dichte
fΦ (φ)
=
φR (r)
const.
=
r
2
2
· e−r /(2σ )
2
σ
=
(r > 0).
Die Berechnung können wir verwenden, um Stichproben von der Standardnormalverteilung zu
simulieren:
Beispiel (Simulation von normalverteilten Zufallsvariablen). Die Verteilungsfunktion einer
N (0, 1)-verteilten Zufallsvariable X ist
1
FX (x) = √
2π
Z
x
2 /2
e−t
dt .
−∞
Das Integral ist nicht explizit lösbar und die Inverse FX−1 ist dementsprechend nur approximativ
berechenbar. Daher ist die Simulation einer Standardnormalverteilung durch Inversion der Verteilungsfunktion relativ aufwendig. Ein einfacheres Simulationsverfahren ergibt sich, wenn wir
eine zweidimensionale Standardnormalverteilung betrachten und auf Polarkoordinaten transformieren. Dann gilt für den Radialanteil:
Z
FR (x) =
x
e−r
2 /2
0
r dr = 1 − e−x
2 /2
.
Das Integral ist also explizit berechenbar, und
FR−1 (u) =
p
−2 log(1 − u) ,
u ∈ (0, 1).
Der Winkelanteil Φ ist unabhängig von R und gleichverteilt auf [0, 2π). Wir können Zufallsvariablen mit der entsprechenden gemeinsamen Verteilung erzeugen, indem wir
Universität Bonn
Φ := 2πU1 ,
p
R :=
−2 log(1 − U2 )
bzw. =
p
−2 log U2 ,
Wintersemester 2009/2010
172
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
setzen, wobei U1 und U2 unabhängige, auf (0, 1) gleichverteilte Zufallsvariablen sind. Stichproben von U1 und U2 können durch Pseudozufallszahlen simuliert werden. die Zufallsvariablen
X
:=
R cos Φ
und
Y
:=
R · sin Φ
sind dann unabhängig und N (0, 1)-verteilt. Für m ∈ R und σ > 0 sind σX + m und σY + m
unabhängige N (m, σ 2 )-verteilte Zufallsvariable.
Wir erhalten also den folgenden Algorithmus zur Simulation von Stichproben einer Normalverteilung:
Algorithmus 5.10 (Box-Muller-Verfahren). Input: m ∈ R, σ > 0
Output: unabhängige Stichproben x̃, ỹ von N (m, σ 2 ).
1. Erzeuge unabhängige Zufallszahlen u1 , u2 ∼ U(0,1)
2. x :=
√
−2 log u1 cos(2πu2 ), y :=
√
−2 log u1 sin(2πu2 )
3. x̃ := σx + m, ỹ = σy + m
Beispiel (Ordnungsstatistiken). Für die gesamte Verteilung der Ordnungsstatistiken X(1) ≤
. . . ≤ X(n) , unabhängiger, identisch verteilter, stetiger Zufallsvariablen X1 , . . . , Xn : Ω → R gilt
aus Symmetriegründen und wegen P [Xi = Xj ] = 0 für i 6= j:
X
P [X(1) ≤ c1 , . . . , X(n) ≤ cn ] =
P [Xπ(1) ≤ c1 , . . . , Xπ(n) ≤ cn , Xπ(1) < . . . < Xπ(n) ]
π∈Sn
= n! P [X1 ≤ c1 , . . . , Xn ≤ cn , X1 < X2 < . . . < Xn ]
Zc1
Zcn
···
= n!
I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) dy1 · · · dyn .
−∞
−∞
Also ist die gemeinsame Verteilung von X(1) , . . . , X(n) absolutstetig mit Dichte
fX(1) ,...,X(n) (y1 , . . . , yn )
=
n! · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ).
Durch Aufintegrieren erhält man daraus mithilfe des Satzes von Fubini und einer erneuten Symmetrieüberlegung die Dichten der Verteilungen der einzelnen Ordnungsstatistiken:
Z
Z
P [X(k) ≤ c] = n! · · · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) · IYk ≤c dy1 · · · dyn
R
=
Zc
R
f(k) (yk ) dyk
−∞
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
mit
f(k) (y)
=
173
n!
F (y)k−1 (1 − F (y))(n − k)f (y).
(k − 1)!(n − k)!
Dasselbe Resultat hätte man auch mit etwas Rechnen aus Satz 5.3 herleiten können.
Bemerkung (Beta-Verteilungen). Sind die Zufallsvariablen Xi auf (0, 1) gleichverteilt, dann
hat X(k) die Dichte
fX(k) (u)
=
B(k, n − k + 1)−1 · uk−1 · (1 − u)n−k · I(0,1) (u)
mit Normierungskonstante
Z 1
ua−1 (1 − u)b−1 du
B(a, b) =
0
für a, b ∈ N .
(a − 1)!(b − 1)!
=
(a + b − 1)!
Die entsprechende Verteilung heißt Beta-Verteilung mit Parametern a, b > 0, die Funktion B
ist die Euler’sche Beta-Funktion.
2
1
1
Abbildung 5.5: Abbildung der Dichtefunktionen der zugehörigen Verteilungen von
X(1) , . . . , X(5) bei n = 5 in (rot, gelb, grün, blau, magenta).
5.3 Unendliche Produktmodelle
Konstruktion von unabhängigen Zufallsvariablen
Seien µ1 , µ2 , . . . vorgegebene Wahrscheinlichkeitsverteilungen auf (R, B(R)). Wir werden nun
explizit unabhängige Zufallsvariablen Xk , k ∈ N, mit Verteilungen µk konstruieren. Als Konse∞
N
quenz ergibt sich die Existenz des unendlichen Produktmaßes
µk als gemeinsame Verteilung
k=1
der Zufallsvariablen Xk . Die Zufallsvariablen Xi können wir sogar auf den Raum Ω = (0, 1) mit
Gleichverteilung realisieren:
Universität Bonn
Wintersemester 2009/2010
174
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Satz 5.11. Auf dem Wahrscheinlichkeitsraum (Ω, B((0, 1)), U(0,1) ) existieren unabhängige Zufallsvariablen Xk : Ω → R, k ∈ N, mit Verteilungen
P ◦ Xk−1
=
für alle 1 ≤ i ≤ n.
µk
Beweis. Wir verfahren in drei Schritten:
(1). Wir konstruieren die Zufallsvariablen im Fall
1
µk = Bernoulli
2
U(0,1)
=
∀ k ∈ N,
d.h. im fairen Münzwurfmodell. Dazu verwenden wir die schon in Abschnitt 4.2 eingeführte Transformation X : (0, 1) → {0, 1}N , die einer reellen Zahl die Ziffernfolge ihrer
Binärdarstellung zuordnet, d.h. wir setzen
Xk (ω)
=
IDk (ω),
Dk
=
k−1
2[
i=1
[(2i − 1) · 2−k , 2i · 2−k ),
siehe Abbildung 4.4. Die Abbildungen Xk : (0, 1) → {0, 1} sind messbar, und es gilt
P [X1 = a1 , . . . , Xn = an ]
=
2n
∀n ∈ N, a1 , . . . , an ∈ {0, 1},
(5.3.1)
da die Menge {ω ∈ Ω : X1 (ω) = a1 , . . . , Xn (ω) = an } gerade aus den Zahlen in (0, 1)
besteht, deren Binärdarstellung mit den Ziffern a1 , . . . , an beginnt, und damit ein Inter-
vall der Länge 2−n ist. Nach (5.3.1) sind X1 , . . . , Xn für alle Xk , k ∈ N, unabhängig mit
Verteilung µk .
(2). Wir konstruieren die Zufallsvariablen im Fall
µk
=
U(0,1)
∀ k ∈ N.
Dazu zerlegen wir die gerade konstruierte Folge Xk (ω) ∈ {0, 1}, k ∈ N, in unendlich
viele Teilfolgen, und konstruieren aus jeder Teilfolge wieder eine Zahl aus [0, 1] mit den
entsprechenden Binärziffern. Genauer setzen wir in Binärdarstellung:
U1 := 0.X1 X3 X5 X7 · · · ,
U2 := 0.X2 X6 X10 X14 · · · ,
U3 := 0.X4 X12 X20 X28 · · · ,
also allgemein für k ∈ N:
Uk (ω)
:=
∞
X
i=1
Xk,i (ω) · 2−i
Einführung in die Wahrscheinlichkeitstheorie
mit
usw.,
Xk,i := X(2i−1)·2k−1 .
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
175
Da die Zufallsvariablen Xk,i , i, k ∈ N, unabhängig sind, sind nach dem Zerlegungssatz
auch die σ-Algebren
Ak
σ(Xk,i |i ∈ N),
=
k ∈ N,
unabhängig, und damit auch die Ak -messbaren Zufallsvariablen Uk , k ∈ N. Zudem gilt für
n ∈ N und
r=
n
X
i=1
ai · 2i−1
P [Uk ∈ (r · 2−n , (r + 1) · 2−n )]
{0, 1, . . . , 2n − 1} :
∈
=
P [Xk,1 = a1 , . . . , Xk,n = an ]
=
2−n .
Da die dyadischen Intervalle ein durchschnittsstabiles Erzeugendensystem der Borelschen
σ-Algebra bilden, folgt, dass die Zufallsvariablen Uk auf [0, 1] gleichverteilt sind.
(3). Im allgemeinen Fall konstruieren wir die Zufallsvariablen aus den gerade konstruierten unabhängigen gleichverteilten Zufallsvariablen Uk , k ∈ N, mithilfe des Inversionsverfahrens
aus Satz 4.19: Sind µk , k ∈ N, beliebige Wahrscheinlichkeitsverteilungen auf (R, B(R)),
und
Gk (u)
inf{x ∈ R : Fk (x) ≥ u}
=
die linksstetigen verallgemeinerten Inversen der Verteilungsfunktionen
Fk (c)
=
µk [(−∞, c]],
dann setzen wir
Yk (ω)
:=
Gk (Uk (ω)),
k ∈ N, ω ∈ Ω.
Da die Zufallsvariablen Uk , k ∈ N, unabhängig sind, sind nach Satz 5.2 auch die Yk , k ∈ N,
wieder unabhängig. Zudem gilt nach Satz 4.19:
P ◦ Yk−1
=
µk
für alle k ∈ N.
Bemerkung. (1). Der Beweis von Satz 5.11 ist konstruktiv. Für numerische Anwendungen ist
allerdings zumindest der erste Schritt des beschriebenen Konstruktionsverfahrens ungeeignet, da Defizite des verwendeten Zufallszahlengenerators und die Darstellungsungenauigkeit im Rechner durch die Transformation verstärkt werden.
(2). Mithilfe des Satzes kann man auch die Existenz einer Folge unabhängiger Zufallsvariablen
Xk , k ∈ N, mit Werten im Rd , oder allgemeiner in vollständigen, separablen, metrischen
Universität Bonn
Wintersemester 2009/2010
176
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Räumen Sk , k ∈ N, und vorgegebenen Verteilungen µk auf den Borelschen σ-Algebren
B(Sk ) zeigen. Sind beispielsweise φk : R → Sk Bijektionen, sodass φk und φ−1
k messbar
sind, und sind X̃k : Ω → R unabhängige reellwertige Zufallsvariablen mit Verteilungen
P [X̃k ∈ B] = µK [φk (B)], dann sind die transformierten Zufallsvariablen
Xk
=
φk (X̃k ) : Ω → Sk ,
∀k ∈ N,
unabhängig mit Verteilungen µk .
Beispiel (Random Walks im Rd ). Sei µ eine Wahrscheinlichkeitsverteilung auf (Rd , B(Rd )),
und seien Xi , i ∈ N, unabhängige Zufallsvariablen mit identischer Verteilung Xi ∼ µ. Der durch
Sn
=
a+
n
X
Xi ,
n = 0, 1, 2, . . . ,
i=1
definierte stochastische Prozess heißt Random Walk mit Startwert a ∈ Rd und Inkrementverteilung µ.
Im Fall d = 1 können wir Stichproben von den Zufallsvariablen Xi , und damit vom Random
Walk, beispielsweise mithilfe der Inversionsmethode, simulieren.
Abbildung 5.6: Grafiken von Trajektorien des Random Walks mit verschiedenen Inkrementverteilungen.
Abbildung 5.6 zeigt Grafiken von Trajektorien des Random Walks mit den Inkrementverteilungen
µ
=
µ
1
(δ1 + δ−1 )
2
=
N (0, 1)
(klassischer Random Walk (SSRW)),
(diskrete Brownsche Bewegung),
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
177
µ mit Dichte
f (x)
=
e−(x+1) I(−1,∞)(x)
(zentrierte Exp(1)-Verteilung)
und µ mit Dichte
f (x)
=
3
3
3·2−5/2 ·(x+ )−5/2 ·I( 1 ,∞) (x+ )
2
2
2
3
(zentrierte Pareto(α − 1, α)-Verteilung mit α = ).
2
3
2
1
−3
−2
−1
1
2
3
Abbildung 5.7: Dichten der drei stetigen Verteilungen aus Abbildung 5.6: fN (0,1) in Blau,
fExp(1)−1 in Magenta und fPareto(α−1,α) in Rot.
Im Gegensatz zu den anderen Verteilungen fällt die Dichte der Pareto-Verteilung für x → ∞
nur sehr langsam ab („heavy tails“). Insbesondere hat die Verteilung unendliche Varianz. Die
Trajektorien der Random Walks werden mit der folgenden Mathematica-Routine simuliert:
nmax = 1 0 0 0 0 ; )
x = RandomChoice [{ −1 , 1 } , nmax ] ;
z = RandomReal [ N o r m a l D i s t r i b u t i o n [ 0 , 1 ] , nmax ] ;
u = RandomReal [ { 0 , 1 } , nmax ] ; y = −Log [ u ] − 1 ;
$ \ a l p h a $ = 3 / 2 ; x0 = $ \ a l p h a $ − 1 ; p =
RandomReal [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] , nmax ] ;
m = Mean [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] ] ; q = p − m;
r w s i m p l e = A c c u m u l a t e [ x ] ; rwexp = A c c u m u l a t e [ y ] ;
rwnormal = Accumulate [ z ] ; r w p a r e t o = Accumulate [ q ] ;
L i s t L i n e P l o t [ { r w s i m p l e [ [ 1 ; ; 3 0 0 0 ] ] , rwexp [ [ 1 ; ; 3 0 0 0 ] ] ,
rwnormal [ [ 1 ; ; 3 0 0 0 ] ] , r w p a r e t o [ [ 1 ; ; 3 0 0 0 ] ] } ]
Universität Bonn
Wintersemester 2009/2010
178
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Die Trajektorien des klassischen Random Walks, und der Random Walks mit exponential- und
normalverteilten Inkrementen sehen in größeren Zeiträumen ähnlich aus. Die Trajektorien des
Pareto-Random Walks (grün) verhalten sich dagegen anders, und werden auch in längeren Zeiträumen von einzelnen großen Sprüngen beeinflusst. Tatsächlich kann man zeigen, dass alle obigen
Random Walks mit Ausnahme des Pareto-Random Walks in einem geeigneten Skalierungslimes
mit Schrittweite gegen 0 in Verteilung gegen eine Brownsche Bewegung konvergieren (funktionaler zentraler Grenzwertsatz).
Unendliche Produktmaße
Als Konsequenz aus dem Satz können wir die Existenz von unendlichen Produktmaßen als gemeinsame Verteilung von unendlich vielen unabhängigen Zufallsvariablen zeigen. Dazu versehen
wir den Folgenraum
RN
=
{(x1 , x2 , . . .)|xk ∈ R, ∀ k ∈ N}
mit der Produkt-σ-Algebra
O
k∈N
B(R)
=
σ(C)
=
σ(πk |k ∈ N),
die von der Kollektion C aller Zylindermengen
{π1 ∈ B1 , . . . , πn ∈ Bn }
=
{x = (xk ) ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn },
n ∈ N, B1 , . . . , Bn ∈ B(R), von den Koordinatenabbildungen πk : RN → R, πk (x) = xk .
Korollar 5.12 (Existenz von unendlichen Produktmaßen). Zu beliebigen WahrscheinlichkeitsN
verteilungen µk auf (R, B(R)) existiert eine eindeutige Wahrscheinlichkeitsverteilung µ =
µk
k∈N
N
auf (RN ,
B(R)) mit
k∈N
µ[π1 ∈ B1 , . . . , πn ∈ Bn ]
=
µ[B1 ] · . . . · µn [Bn ]
(5.3.2)
für alle n ∈ N und B1 , . . . , Bn ∈ B(R).
Definition. Die Wahrscheinlichkeitsverteilung µ mit (5.3.2) heißt Produkt der Wahrscheinlichkeitsverteilungen µk , k ∈ N.
Beweis. Die Eindeutigkeit folgt, da die Zylindermengen aus C ein ∩-stabiles Erzeugendensystem
der Produkt-σ-Algebra bilden.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
179
Zum Beweis der Existenz: betrachten wir die Abbildung X : Ω → RN mit
X(ω)
=
(X1 (ω), X2 (ω), . . .),
wobei Xk unabhängige Zufallsvariablen mit Verteilung µk sind. X ist messbar bzgl.
N
k∈N
denn
X −1 [{x ∈ RN |(x1 , . . . , xn ) ∈ B}]
{ω ∈ Ω|(X1 (ω), . . . , Xn (ω)) ∈ B}
=
∈
B(R),
A
für alle n ∈ N und B ∈ B(Rn ). Sei µ = P ◦ X −1 die Verteilung von X auf RN . Dann gilt
µ[π1 ∈ B1 , . . . , πm ∈ Bn ] = µ[{x ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn }]
= P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
n
Y
=
µk [Bk ]
k=1
für alle n ∈ N und B1 , . . . , Bn ∈ B(R). Also ist µ das gesuchte Produktmaß.
Bemerkung. Auf analoge Weise folgt nach Bemerkung 2. von oben die Existenz des ProduktN
maßes
µk von beliebigen Wahrscheinlichkeitsverteilungen µk , k ∈ N, auf vollständigen, sek∈N
parablen, messbaren Räumen Sk mit Borelschen σ-Algebren Sk . Das Produktmaß sitzt auf dem
Produktraum
×S ,
k
k∈N
O
k∈N
Sk
!
.
Der Satz von Carathéodory impliziert sogar die Existenz von beliebigen (auch überabzählbaren)
Produkten von allgemeinen Wahrscheinlichkeitsräumen (Si , Si , µi ), i ∈ I.
Sind (Si , Si , µi ) beliebige Wahrscheinlichkeitsräume, dann sind die Koordinatenabbildungen πk :
N
×Si → Sk unter dem Produktmaß µi unabhängig und µk -verteilt. Man nennt den Produk-
i∈N
i∈I
traum
(Ω, A, P )
=
×S ,
i
O
Si ,
O
µi
daher auch das kanonische Modell für unabhängige µi -verteilte Zufallsvariablen.
5.4 Asymptotische Ereignisse
Sei Xi (i ∈ I) eine unendliche Kollektion von Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind.
Universität Bonn
Wintersemester 2009/2010
180
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Definition. Ein Ereignis A ∈ σ(Xi |i ∈ I) heißt asymptotisches Ereignis (tail event), falls
A ∈ σ(Xi | i ∈ I\I0 )
für jede endliche Teilmenge I0 ⊆ I gilt.
Die Menge
τ
\
=
I0 ⊆I endlich
σ(Xi | i ∈ I\I0 )
aller asymptotischen Ereignisse ist eine σ-Algebra. τ heißt asymptotische σ-Algebra (tail field).
Beispiel. (1). DYNAMISCH: Ist Xn , n ∈ N eine Folge von Zufallsvariablen (welche beispiels-
weise eine zufällige zeitliche Entwicklung beschreibt), dann gilt für ein Ereignis A ∈
σ(Xn , n ∈ N):
A asymptotisch
⇔
A ∈ σ(Xn+1 , Xn+2 , . . . )
|
{z
}
Zukunft ab n
für alle n.
Beispiele für asymptotische Ereignisse von reellwertigen Zufallsvariablen sind
{Xn > 5n
unendlich oft},
lim sup Xn < c ,
n→∞
{∃ lim Xn },
n→∞
1
∃ lim Sn = m ,
n
wobei Sn = X1 + . . . + Xn . Die Ereignisse
{sup Xn = 3}
und
n∈N
{lim Sn = 5}
sind dagegen nicht asymptotisch.
(2). S TATISCH: Eine Kollektion Xi , i ∈ Zd , von Zufallsvariablen auf einem Wahrscheinlich-
keitsraum (Ω, A, P ) heißt stochastisches Feld (random field). Beispielsweise basieren
verschiedene grundlegende Modelle der statistischen Mechanik auf stochastischen Feldern
Xi : Ω → {0, 1}, wobei Xi = 1 dafür steht, dass
• sich ein Teilchen am Gitterpunkt i befindet,
• ein Atom am Gitterpunkt i angeregt ist,
• der Gitterpunkt i durchlässig ist (Perkolationsmodell),
• etc.
Asymptotische Ereignisse beschreiben in diesem Fall „makroskopische“ Effekte.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
181
Das 0-1-Gesetz von Kolmogorov
Satz 5.13 ( 0-1-Gesetz von Kolmogorov ). Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf
(Ω, A, P ), dann gilt
P [A] ∈ {0, 1} für alle A ∈ τ .
„Asymptotische Ereignisse sind deterministisch.“
Beweis. Der Übersichtlichkeit halber führen wir den Beweis im Fall I = N - der Beweis im
allgemeinen Fall verläuft ähnlich. Es gilt: X1 , X2 , ... unabhängige Zufallsvariablen
=⇒ σ(X1 ), σ(X2 ), ..., σ(Xn ), σ(Xn+1 ), σ(Xn+2 ), ... unabhängige Mengensysteme
=⇒σ(X1 , ..., Xn ), σ(Xn+1 , Xn+2 , ...) sind unabhängig für alle n ∈ N
=⇒ σ(X1 , ..., Xn )
und
τ sind unabhängig für alle n ∈ N
=⇒τ unabhängig von σ(X1 , X2 , ...) ⊇ τ
=⇒ Ereignisse A ∈ τ sind unabhängig von sich selbst
=⇒ P [A] ∈ {0, 1}
∀A∈τ .
Hierbei gilt die zweite Implikation nach Satz 5.1 (2), und die vierte nach Satz 5.1 (1)
Anwendungen auf Random Walks und Perkolationsmodelle
Beispiel (Rückkehr zum Startpunkt von Random Walks, Rekurrenz). Wir betrachten einen
eindimensionalen klassischen Random Walk mit Startpunkt a ∈ Z und unabhängigen Inkrementen Xi mit Verteilung
P [Xi = 1]
=
p,
P [Xi = −1]
=
1 − p.
Für n ∈ N erhält man die Rückkehrwahrscheinlichkeiten
P [S2n
P [S2n+1 = a] = 0
(2n)! n
2n
· pn · (1 − p)n =
= a] =
· p · (1 − p)n .
n
(n!)2
Wir betrachten nun die Asymptotik für n → ∞ dieser Wahrscheinlichkeiten. Aus der Stirlings-
chen Formel
n!
∼
√
2πn ·
folgt
P [S2n = a]
Universität Bonn
∼
√
)2n
4πn ( 2n
· ne 2n · pn · (1 − p)n
2πn
(e)
n n
e
=
1
√ (4p(1 − p))n
πn
für n → ∞.
Wintersemester 2009/2010
182
Für p 6=
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
1
2
fallen die Wahrscheinlichkeiten also exponentiell schnell ab. Insbesondere gilt dann
∞
X
P [Sm = a]
=
m=0
∞
X
n=0
P [S2n = a] < ∞,
d.h. der asymmetrische Random Walk kehrt nach dem 1. Borel-Cantelli Lemma mit Wahrscheinlichkeit 1 nur endlich oft zum Startpunkt zurück (T RANSIENZ). Nach dem starken Gesetz großer
Zahl gilt sogar
(2p − 1)n
P -fast sicher.
√
= a] ∼ 1/ πn, und damit
Sn
Für p =
1
2
gilt dagegen P [S2n
∞
X
∼
P [Sm = a]
=
m=0
∞
X
P [S2n = a]
=
n=0
∞.
Dies legt nahe, dass der Startpunkt mit Wahrscheinlichkeit 1 unendlich oft besucht wird.
Ein Beweis dieser Aussage über das Borel-Cantelli-Lemma ist aber nicht direkt möglich, da die
Ereignisse {S2n = 0} nicht unabhängig sind. Wir beweisen nun eine stärkere Aussage mithilfe
des Kolmogorovschen 0-1-Gesetzes:
Satz 5.14 (Rekurrenz und unbeschränkte Oszillationen des symmetrischen Random Walks).
Für p =
1
2
gilt
P [lim Sn = +∞ und lim Sn = −∞]
=
1.
Insbesondere ist der eindimensionale Random Walk rekurrent, d.h.
P [Sn = a unendlich oft] = 1.
Tatsächlich wird nach dem Satz mit Wahrscheinlichkeit 1 sogar jeder Punkt λ ∈ Z unendlich oft
getroffen.
Beweis. Für alle k ∈ N gilt:
P [Sn+k − Sn = k unendlich oft] = 1,
denn nach dem Beispiel zu Satz 5.1 („Affe tippt Shakespeare“) gibt es P -fast sicher unendlich
viele Blöcke der Länge k mit Xn+1 = Xn+2 = ... = Xn+k = 1. Es folgt
#
"
\[
{Sn+k − Sn = k}
P [lim Sn − lim Sn = ∞] ≥ P
k
Einführung in die Wahrscheinlichkeitstheorie
=
1,
n
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
183
und damit
1
=
P [lim Sn = +∞ oder lim Sn = −∞]
≤
P [lim Sn = +∞] + P [lim Sn = −∞].
Also ist eine der beiden Wahrscheinlichkeiten auf der rechten Seite größer als 12 , und damit nach
dem Kolmogorovschen 0-1-Gesetz gleich 1. Aus Symmetriegründen folgt
P [lim Sn = −∞]
=
P [lim Sn = +∞]
=
1.
Das vorangehende Beispiel zeigt eine typische Anwendung des Kolmogorovschen 0-1-Gesetzes
auf stochastische Prozesse. Um die Anwendbarkeit in räumlichen Modellen zu demonstrieren,
betrachten wir ein einfaches Perkolationsmodell:
Beispiel (Perkolation im Zd ). Sei p ∈ (0, 1) fest, und seien Xi (i ∈ Zd ) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
P [Xi = 1] = p ,
P [Xi = 0] = 1 − p .
Ein Gitterpunkt i ∈ Zd heißt durchlässig, falls Xi = 1 gilt. Wir verbinden Gitterpunkte i, j ∈ Zd
mit |i − j| = 1 durch eine Kante. Sei A das Ereignis, daß bzgl. dieser Graphenstruktur ei-
ne unendliche Zusammenhangskomponente (Cluster) aus durchlässigen Gitterpunkten existiert
(Eine Flüssigkeit könnte in diesem Fall durch ein makroskopisches Modellstück, das aus mikroskopischen Gitterpunkten aufgebaut ist, durchsickern - daher der Name „Perkolation“). A ist
asymptotisch, also gilt nach dem Satz von Kolmogorov
P [A] ∈ {0, 1}.
Hingegen ist es im Allgemeinen nicht trivial, zu entscheiden, welcher der beiden Fälle eintritt.
Im Fall d = 1 zeigt man leicht (Übung):
P [A] = 0 für alle p < 1.
Für d = 2 gilt:
1
,
2
s. z.B. die Monografie „Percolation“ von Grimmett. Für d ≥ 3 ist nur bekannt, daß ein kritischer
P [A] = 1
Parameter pc ∈ (0, 1) existiert mit
⇐⇒
p>

1 für p > pc .
P [A] =
0 für p < p .
c
Universität Bonn
Wintersemester 2009/2010
184
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Man kann obere und untere Schranken für pc herleiten (z.B. gilt
1
2d−1
≤ pc ≤ 23 ), aber der genaue
Wert ist nicht bekannt. Man vermutet, daß P [A] = 0 für p = pc gilt, aber auch diese Aussage
konnte bisher nur in Dimension d ≥ 19 (sowie für d = 2) bewiesen werden, siehe das Buch von
Grimmett.
Definition. Eine Zufallsvariable Y : Ω → [−∞, ∞] heißt asymptotisch, wenn die bzgl. der
asymptotischen σ-Algebra τ messbar ist.
Das Perkolationsmodell ist ein Beispiel für ein sehr einfach formulierbares stochastisches Modell, das zu tiefgehenden mathematischen Problemstellungen führt. Es ist von großer Bedeutung, da ein enger Zusammenhang zu anderen Modellen der statistischen Mechanik und dabei
auftretenden Phasenübergängen besteht. Einige elementare Aussagen über Perkolationsmodelle
werden in den Wahrscheinlichkeitstheorie-Lehrbüchern von Y. Sinai und A. Klenke hergeleitet.
Korollar 5.15. Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeits-
raum (Ω, A, P ), dann ist jede asymptotische Zufallsvariable Y : Ω → [−∞, ∞] P - fast sicher
konstant, d.h.
∃ c0 ∈ [−∞, ∞] :
P [Y = c0 ] = 1 .
Beweis. Ist Y τ - messbar, dann sind die Ereignisse {Y ≤ c},
c ∈ R, in τ enthalten. Aus
dem Kolmogorovschen 0-1-Gesetz folgt:
FY (c)
=
P [Y ≤ c]
∈
{0, 1}
∀ c ∈ R.
Da die Verteilungsfunktion monoton wachsend ist, existiert ein c0 ∈ [−∞, ∞] mit

0 für c < c0
P [Y ≤ c] =
,
1 für c > c
0
und damit P [Y = c0 ]
=
lim(FY (c0 ) − FY (c0 − ε))
=
ε↓0
1. = 1.
Beispiele für asymptotische Zufallsvariablen im Fall I = N sind etwa
lim Xn ,
n→∞
lim Xn ,
n→∞
n
1X
Xi ,
lim
n→∞ n
i=1
n
sowie
1X
Xi .
lim
n→∞ n
i=1
Insbesondere sind für unabhängige Zufallsvariablen X1 , X2 , ... : Ω → R sowohl
n
1 X
lim
Xi
n i=1
n
1 X
als auch lim
Xi
n i=1
Einführung in die Wahrscheinlichkeitstheorie
P - f.s. konstant.
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
185
Hieraus ergibt sich die folgende Dichotomie: Sind Xi , i ∈ N, unabhängige reellwertige Zufalls-
variablen, dann gilt entweder ein Gesetz großer Zahlen, d.h.
n
1X
Xi
n i=1
konvergiert P - f.s., und der Limes ist P - f.s. konstant
(falls der Limes inferior und Limes superior P -fast sicher übereinstimmen), oder
"
#
n
X
1
P
Xi konvergiert = 0.
n i=1
Es ist bemerkenswert, dass für die Gültigkeit der Dichotomie keine Annahmen über die Verteilung der Xi benötigt werden. Insbesondere müssen die Xi nicht identisch verteilt sein!
Universität Bonn
Wintersemester 2009/2010
Kapitel 6
Erwartungswert und Varianz
In diesem Kapitel definieren wir den Erwartungswert, die Varianz und die Kovarianz allgemeiner
reellwertiger Zufallsvariablen, und beweisen grundlegende Eigenschaften und Abschätzungen.
Da wir auch Grenzübergänge durchführen wollen, erweist es sich als günstig, die Werte +∞
und −∞ zuzulassen. Wir setzen daher R = [−∞, ∞]. Der Raum R ist ein topologischer Raum
bzgl. des üblichen Konvergenzbegriffs. Die Borelsche σ-Algebra auf R wird u.a. erzeugt von
den Intervallen [−∞, c], c ∈ R. Die meisten Aussagen über reellwertige Zufallsvariablen aus
den vorangegangenen Abschnitten übertragen sich unmittelbar auf Zufallsvariablen X : Ω → R,
wenn wir die Verteilungsfunktion FX : R → [0, 1] definieren durch
FX (c)
6.1
=
µX [[−∞, c]]
=
P [X ≤ c].
Erwartungswert
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Wir wollen den
Erwartungswert (Mittelwert, Prognosewert) von X bezüglich der Wahrscheinlichkeitsverteilung
P in sinnvoller Weise definieren. Dazu gehen wir schrittweise vor:
Definition des Erwartungswerts
Elementare Zufallsvariablen
Nimmt X nur endlich viele Werte c1 , ..., cn ∈ R an, dann soll gelten:
E[X]
=
n
X
i=1
ci · P [X = ci ],
186
6.1. ERWARTUNGSWERT
187
d.h. der Erwartungswert ist das Mittel der Werte ci gewichtet mit den Wahrscheinlichkeiten der
Ereignisse Ai := {X = ci }.
Definition. Eine Zufallsvariable von der Form
X=
n
X
c i I Ai
i=1
(n ∈ N, ci ∈ R, Ai ∈ A)
heißt elementar. Ihr Erwartungswert bzgl. P ist
E[X] :=
n
X
i=1
ci · P [Ai ].
Diese Definition ist ein Spezialfall der Definition des Erwartungswerts diskreter Zufallsvariablen
aus Kapitel 1. Insbesondere ist der Erwartungswert E[X] wohldefiniert, d.h. unabhängig von der
gewählten Darstellung der Zufallsvariable X als Linearkombination von Indikatorfunktionen,
und die Abbildung X 7→ E[X] ist linear und monoton:
E[aX + bY ]
=
a · E[X] + b · E[Y ]
X≤Y
=⇒
für alle a, b ∈ R,
E[X] ≤ E[Y ].
Die Definition des Erwartungswerts einer elementaren Zufallsvariable stimmt genau mit der des
Lebesgueintegrals der Elementarfunktion X bzgl. des Maßes P überein:
Z
Z
E[X] =
X dP =
X(ω) P (dω)
Für allgemeine Zufallsvariablen liegt es nahe, den Erwartungswert ebenfalls als Lebesgueintegral
bzgl. des Maßes P zu definieren. Wir skizzieren hier die weiteren Schritte zur Konstruktion des
Lebesgueintegrals bzw. des Erwartungswerts einer allgemeinen Zufallsvariable, siehe auch die
Analysisvorlesung.
Nichtnegative Zufallsvariablen
Die Definition des Erwartungswerts einer nichtnegativen Zufallsvariable beruht auf der monotonen Approximation durch elementare Zufallsvariablen:
Lemma 6.1. Sei X : Ω → [0, ∞] eine nichtnegative Zufallsvariable auf (Ω, A, P ). Dann existiert
eine monoton wachsende Folge elementarer Zufallsvariablen 0 ≤ X1 ≤ X2 ≤ . . . mit
X
Universität Bonn
=
lim Xn
n→∞
=
sup Xn .
n∈N
Wintersemester 2009/2010
188
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis. Für n ∈ N sei
Xn (ω)
:=

k · 2−n
(n + 1) · 2−n
falls
falls
k · 2−n ≤ X(ω) < (k + 1) · 2−n für ein k = 0, 1, . . . , n · 2−n
−n
X(ω) ≥ (n + 1) · 2
5
4
3
2
1
5
4
3
2
1
Abbildung 6.1: Approximation durch Elementarfunktionen. Hier ist die Annäherung in rot in
zwei verschiedenen Feinheiten dargestellt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
.
6.1. ERWARTUNGSWERT
189
Dann ist Xn eine elementare Zufallsvariable, denn es gilt
Xn
=
n −1
n2
X
k=0
k
+ nI{X≥n} .
I k
k+1
2n { 2n ≤X< 2n }
Die Folge Xn (ω) ist für jedes ω monoton wachsend, da die Unterteilung immer feiner wird, und
sup Xn (ω)
=
n∈N
lim Xn (ω)
=
n→∞
für alle ω ∈ Ω.
X(ω)
Definition. Sei X : Ω → [0, ∞] eine nicht-negative Zufallsvariable.
Der Erwartungswert (bzw. das Lebesgueintegral) von X bzgl. P ist definiert als
E[X] := lim E[Xn ] = sup E[Xn ] ∈ [0, ∞],
n→∞
(6.1.1)
n→∞
wobei Xn eine monoton wachsende Folge von nichtnegativen elementaren Zufallsvariablen mit
X = sup Xn ist.
Auch in diesem Fall ist der Erwartungswert wohldefiniert (in [0, ∞]):
Lemma 6.2. Die Definition ist unabhängig von der Wahl einer monoton wachsenden Folge Xn
von nichtnegativen Zufallsvariablen mit X = sup Xn .
n∈N
Für den Beweis verweisen wir auf die Analysisvorlesung oder auf die Literatur, siehe z.B. Appendix 5 in W ILLIAMS „Probability with martingales.“
Bemerkung. Sind Xn = IAn und X = IA Indikatorfunktionen, dann folgt (6.1.1) aus der monotonen Stetigkeit von P . In diesem Fall gilt nämlich:
Xn ր X
⇐⇒
An ր A
(d.h. An monoton wachsend und A =
Aus der monotonen Stetigkeit von P folgt dann
E[X]
=
P [A]
=
lim P [An ]
=
[
An ).
lim E[Xn ].
Aus der Definition des Erwartungswerts folgt unmittelbar:
Lemma 6.3. Für nichtnegative Zufallsvariablen X, Y mit X ≤ Y gilt E[X] ≤ E[Y ].
Beweis. Ist X ≤ Y , dann gilt auch Xn ≤ Yn für die approximierenden elementaren Zufallsvariablen aus Lemma 6.1, also
E[X]
=
sup E[Xn ]
n∈N
Universität Bonn
≤
sup E[Yn ]
=
E[Y ].
n∈N
Wintersemester 2009/2010
190
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Allgemeine Zufallsvariablen
Eine allgemeine Zufallsvariable X : Ω → R können wir in ihren positiven und negativen Anteil
zerlegen:
X
=
X+ − X−
mit
X+
:=
max(X, 0),
X−
:=
− min(X, 0).
X + und X − sind nichtnegative Zufallsvariablen. Ist mindestens einer der beiden Erwartungswerte E[X + ] bzw. E[X − ] endlich, dann können wir (ähnlich wie in Kapitel 1 für diskrete Zufallsvariablen) definieren:
Definition. Der Erwartungswert einer Zufallsvariable X : Ω → R mit E[X + ] < ∞ oder
E[X − ] < ∞ ist
Notation:
E[X]
:=
E[X + ] − E[X − ]
∈
[−∞, ∞].
Der Erwartungswert E[X] ist das Lebesgueintegral der messbaren Funktion X :
Ω → R bzgl. des Maßes P . Daher verwenden wir auch folgende Notation:
Z
Z
E[X] =
X dP =
X(ω) P (dω).
Eigenschaften des Erwartungswerts
Nachdem wir den Erwartungswert einer allgemeinen Zufallsvariable X : Ω → R definiert ha-
ben, fassen wir nun einige grundlegende Eigenschaften des Erwartungswerts zusammen. Dazu
bezeichnen wir mit
L1 = L1 (P ) = L1 (Ω, A, P ) := {X : Ω → R Zufallsvariable
| E[|X|] < ∞}
die Menge aller bzgl. P integrierbaren Zufallsvariablen. Für Zufallsvariablen X ∈ L1 (Ω, A, P )
ist nach Lemma 6.3 sowohl E[X + ] als auch E[X − ] endlich. Also ist der Erwartungswert E[X]
definiert und endlich.
Satz 6.4. Für Zufallsvariablen X, Y ∈ L1 (Ω, A, P ) und a, b ∈ R gilt:
(1). X ≥ 0 P -fast sicher =⇒ E[X] ≥ 0
(2). Die Zufallsvariable aX + bY ist bzgl. P integrierbar, und
E[aX + bY ]
Einführung in die Wahrscheinlichkeitstheorie
=
a · E[X] + b · E[Y ].
Prof. Andreas Eberle
6.1. ERWARTUNGSWERT
191
Insbesondere ist der Erwartungswert monoton:
(3). X ≤ Y P -fast sicher =⇒ E[X] ≤ E[Y ].
Zum Beweis der Eigenschaften (1) und (2) verweisen wir auf die Analysisvorlesung oder die
Literatur. Eigenschaft (3) folgt unmittelbar aus (1) und (2).
Nach Aussage (2) des Satzes ist L1 (Ω, A, P ) ein Vektorraum. Durch
X∼Y
: ⇐⇒
P [X = Y ] = 1
wird eine Äquivalenzrelation auf diesem Raum definiert. Eine Konsequenz von Aussage (3) des
Satzes ist, dass zwei äquivalente (also P -fast sicher identische= Zufallsvariablen denselben Erwartungswert haben:
X∼Y
=⇒
E[X] = E[Y ].
Daher ist der Erwartungswert einer Äquivalenzklasse von P -fast sicher gleichen Zufallsvariablen
eindeutig definiert. In Zukunft verwenden wir häufig dieselbe Notation für die Äquivalenzklassen
und Repräsentanten aus den Äquivalenzklassen. Satz 6.4 besagt, dass der Erwartungswert ein
positives lineares Funktional auf dem Raum
L1 (Ω, A, P )
:=
L1 (Ω, A, P )/ ∼
aller Äquivalenzklassen von integrierbaren Zufallsvariablen definiert. Aus dem Satz folgt zudem:
Korollar 6.5. Durch
kXkL1 (Ω,A,P )
=
E[|X|]
wird eine Norm auf L1 (Ω, A, P ) definiert. Insbesondere gilt für Zufallsvariablen X : Ω → R :
E[|X|] = 0
=⇒
X=0
P -fast sicher.
Beweis. Für eine Zufallsvariable X : Ω → R mit E[|X|] = 0 und ε > 0 gilt wegen der Monoto-
nie und Linearität des Erwartungswerts:
P [|X| ≥ ε] = E[I{|X|≥ε} ]
Für ε ց 0 folgt
≤
|X|
E
ε
=
1
E[|X|] = 0.
ε
P [|X| > 0] = lim P [|X| ≥ ε] = 0,
εց0
also X = 0 P -fast sicher.
Zudem folgt aus der Monotonie und Linearität des Erwartungswerts die Dreiecksungleichung:
E[|X + Y |]
Universität Bonn
≤
E[|X| + |Y |]
=
E[|X|] + E[|Y |].
Wintersemester 2009/2010
192
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
In der Analysis wird gezeigt, dass der Raum L1 (Ω, A, P ) bzgl. der im Korollar definierten Norm
ein Banachraum ist.
Konvergenzsätze
Ein Vorteil des Lebesgueintegrals gegenüber anderen Integrationsbegriffen ist die Gültigkeit von
sehr allgemeinen Konvergenzsätzen. Diese lassen sich zurückführen auf den folgenden fundamentalen Konvergenzsatz, der sich aus der oben skizzierten Konstruktion des Lebesgueintegrals
ergibt:
Satz 6.6 (Satz von der monotonen Konvergenz, B. Levi). Ist Xn , n ∈ N, eine monoton wachsende Folge von Zufallsvariablen mit E[X1− ] < ∞ (z.B. X1 ≥ 0), dann gilt:
E[sup Xn ]
=
E[ lim Xn ]
=
n→∞
n∈N
lim E[Xn ]
n→∞
=
sup E[Xn ].
n∈N
Der Beweis findet sich in zahlreichen Lehrbüchern der Integrations- oder Warscheinlichkeitstheorie, siehe z.B. W ILLIAMS : P ROBABILITY WITH MARTINGALES , A PPENDIX 5.
Eine erste wichtige Konsequenz des Satzes von der monotonen Konvergenz ist:
Korollar 6.7. Für nichtnegative Zufallsvariablen Xi , i ∈ N, gilt:
#
"∞
∞
X
X
=
E[Xi ].
E
Xi
i=1
i=1
Beweis.
E
"
∞
X
i=1
Xi
#
= E
=
=
=
"
lim
n→∞
lim E
n→∞
lim
n→∞
∞
X
n
X
" i=1
n
X
Xi
Xi
i=1
n
X
#
#
E[Xi ]
(wegen monotoner Konvergenz)
(wegen Linearität)
i=1
E[Xi ].
i=1
Bemerkung (Abzählbare Wahrscheinlichkeitsräume, Summation als Spezialfall von Integration). Falls Ω abzählbar ist, können wir jede Zufallsvariable X : Ω → R auf die folgende
Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X
X =
X(ω) · I{ω} .
ω∈Ω
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.1. ERWARTUNGSWERT
193
Ist X ≥ 0, dann gilt nach Korollar 6.7:
E[X]
X
=
ω∈Ω
X(ω) · P [{ω}].
Dieselbe Darstellung des Erwartungswerts gilt auch für allgemeine reellwertige Zufallsvariablen
auf Ω, falls der Erwartungswert definiert ist, d.h. E[X + ] oder E[X − ] endlich ist.
Insbesondere sehen wir, dass Summation ein Spezialfall von Integration ist: Ist Ω abzählbar und
p(ω) ≥ 0 für alle ω ∈ Ω, dann gilt
X
ω∈Ω
X(ω) · p(ω)
=
Z
X dP,
wobei P das Maß mit Massenfunktion p ist. Beispielsweise gilt also
Z
X
X(ω) =
X dν,
ω∈Ω
wobei ν das durch ν[A] = |A|, A ⊆ Ω, definierte Zählmaß ist.
Konvergenzsätze wie der Satz von der monotonen Konvergenz lassen sich also auch auf Summen
anwenden!
Beispiel. Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann ist
E[X]
=
1 X
X(ω)
|Ω| ω∈Ω
das arithmetische Mittel von X.
Wir beweisen nun noch zwei wichtige Konvergenzsätze, die sich aus dem Satz von der monotonen Konvergenz ergeben:
Korollar 6.8 (Lemma von Fatou). Seien X1 , X2 , · · · : Ω → R Zufallsvariablen auf einem
Wahrscheinlichkeitsraum (Ω, A, P ) und sei Y ∈ L1 (Ω, A, P ) (z.B. Y ≡ 0).
(1). Gilt Xn ≥ Y für alle n ∈ N, dann folgt
E[lim inf Xn ] ≤ lim inf E[Xn ].
(2). Gilt Xn ≤ Y für alle n ∈ N, dann folgt
E[lim sup Xn ] ≥ lim sup E[Xn ].
Universität Bonn
Wintersemester 2009/2010
194
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis. Die Aussagen folgen aus dem Satz über monotone Konvergenz. Beispielsweise gilt:
E [lim inf Xn ] = E lim inf Xk = lim E inf Xk
n→∞ k≥n
≤
n→∞
k≥n
lim inf E[Xk ] = lim inf E[Xn ],
n→∞ k≥n
n→∞
da die Folge der Infima monoton wachsend ist und durch die integrierbare Zufallsvariable Y nach
unten beschränkt ist. Die zweite Aussage zeigt man analog.
Korollar 6.9 (Satz von der majorisierten Konvergenz, Lebesgue). Sei Xn : Ω → R, n ∈
N, eine P -fast sicher konvergente Folge von Zufallsvariablen. Existiert eine Majorante Y ∈
L1 (Ω, A, P ) mit |Xn | ≤ Y für alle n ∈ N, dann gilt
E[lim Xn ]
=
lim E[Xn ].
(6.1.2)
Beweis. Nach dem Lemma von Fatou gilt:
E[lim inf Xn ] ≤ lim inf E[Xn ] ≤ lim sup E[Xn ] ≤ E[lim sup Xn ],
da Xn ≥ −Y ∈ L1 und Xn ≤ Y ∈ L1 für alle n ∈ N gilt. Konvergiert Xn P -fast sicher, dann
stimmen die linke und rechte Seite der obigen Ungleichungskette überein.
Beispiel. Wir betrachten Setzen mit Verdoppeln auf »Null« für eine Folge von fairen Münzwürfen. Bei Anfangseinsatz 1 beträgt das Kapital des Spielers nach n Münzwürfen
Xn
=
2n · I{n<T } ,
wobei T die Wartezeit auf die erste »Eins« ist. Es folgt
E[Xn ] = 2n P [T > n] = 2n · 2−n = 1 für alle n ∈ N,
das Spiel ist also fair. Andererseits fällt aber P -fast sicher irgendwann eine »Eins«, d.h. es gilt:
lim Xn = 0 P -fast sicher.
n→∞
Die Aussage (6.1.2) des Satzes von Lebesgue ist in dieser Situation nicht erfüllt!
6.2
Berechnung von Erwartungswerten; Dichten
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. In diesem Abschnitt zeigen wir, wie man in verschiedenen Fällen den Erwartungswert einer Zufallsvariable X : Ω → [0, ∞] aus der Verteilung von
X berechnen kann.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
195
Diskrete Zufallsvariablen
Falls X nur abzählbar viele Werte annimmt, können wir die Zufallsvariable X auf folgende Weise
als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X
X=
a · I{X=a} .
a∈X(Ω)
Es folgt:
E[X] =
X
a∈X(Ω)
E[a · I{X=a} ] =
X
a∈X(Ω)
a · P [X = a].
Dieselbe Aussage gilt allgemeiner für diskrete reellwertige Zufallsvariablen X mit
E[X + ] < ∞ oder
E[X − ] < ∞.
Für Zufallsvariablen X : Ω → S, mit Werten in einer beliebigen abzählbaren Menge S, und eine
Borel-messbare Funktion h : S → R erhalten wir entsprechend
X
E[h(X)] =
h(a) · P [X = a],
(6.2.1)
a∈X(Ω)
falls E[h(X)] definiert ist, also z.B. falls h ≥ 0 oder h(X) ∈ L1 (Ω, A, P ) gilt.
Die allgemeine Definition des Erwartungswerts als Lebesgueintegral stimmt also für diskrete
Zufallsvariablen mit der in Kapitel 1 gegebenen Definition überein.
Allgemeine Zufallsvariablen
Die Berechnungsmethode (6.2.1) für den Erwartungswert diskreter Zufallsvariablen läßt sich auf
Zufallsvariablen mit beliebigen Verteilungen erweitern. Sei dazu (Ω, A, P ) ein Wahrscheinlichkeitsraum, (S, S) ein messbarer Raum, X : Ω → S eine Zufallsvariable, und h : S → [0, ∞]
eine messbare Abbildung.
Satz 6.10 (Transformationssatz). Unter den obigen Voraussetzungen gilt:
Z
Z
EP [h(X)] =
h(X(ω))P (dω) =
h(x) µ(dx) = Eµ [h],
wobei µ = P ◦ X −1 die Verteilung von X unter P ist, und EP bzw. Eµ den Erwartungswert unter
P bzw. µ bezeichnet.
Die Erwartungswerte hängen somit nur von der Verteilung von X ab!
Beweis. Der Beweis erfolgt in drei Schritten:
Universität Bonn
Wintersemester 2009/2010
196
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
(1). Ist h = IB die Indikatorfunktion einer meßbaren Menge B ∈ S, dann gilt:
Z
Z
−1
E[h(X)] =
IB (X(ω))P (dω) = P [X (B)] = µ[B] =
IB dµ,
da IB (X(ω)) = IX −1 (B) (ω) gilt.
(2). Für Linearkombinationen h =
Pn
i=1
ai IBi von Indikatorfunktionen mit n ∈ N, ai ∈ R, und
Bi ∈ S gilt die Aussage auch, da das Lebesgueintegral linear vom Integranden abhängt.
(3). Für eine allgemeine messbare Funktion h ≥ 0 existiert schließlich eine monoton wachsende Folge hn von Elementarfunktionen mit hn (x) ր h(x) für alle x ∈ S. Durch zweimalige
Anwendung des Satzes von der monotonen Konvergenz erhalten wir erneut:
Z
Z
E[h(X)] = E[lim hn (X)] = lim E[hn (X)] = lim hn dµ = h dµ.
Das hier verwendete Beweisverfahren der »maßtheoretischen Induktion« wird noch sehr häufig
auftreten: Wir zeigen eine Aussage
(1). für Indikatorfunktionen,
(2). für Elementarfunktionen,
(3). für nichtnegative messbare Funktionen,
(4). für allgemeine integrierbare Funktionen.
Mit maßtheoretischer Induktion zeigt man auch:
Übung: Jede σ(X)-messbare Zufallsvariable Y : Ω → R ist vom Typ Y = h(X) mit einer
meßbaren Funktion h : S → R.
Nach Satz 6.10 ist der Erwartungswert E[T ] einer reellwertigen Zufallsvariable T : Ω → [0, ∞]
eindeutig bestimmt durch die Verteilung µT = P ◦ T −1 :
Z
E[T ] =
t µT (dt) ,
also auch durch die Verteilungsfunktion
FT (t) = P [T ≤ t] = µT [[0, t]],
t ∈ R.
Der folgende Satz zeigt, wie man den Erwartungswert konkret aus FT berechnet:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
197
Satz 6.11. Für eine Zufallsvariable T : Ω → [0, ∞] gilt
Z ∞
Z ∞
E[T ] =
P [T > t] dt =
(1 − FT (t)) dt.
0
0
Beweis. Wegen
T (ω) =
Z
T (ω)
dt =
Z
∞
0
0
I{T >t} (ω)dt
erhalten wir
E[T ] = E
Z
∞
0
Z
I{T >t} dt =
∞
0
E I{T >t} dt =
Z
∞
P [T > t] dt.
0
Hierbei haben wir im Vorgriff auf Kapitel 9 den Satz von Fubini benutzt, der gewährleistet, dass
man zwei Lebesgueintegrale (das Integral über t und den Erwartungswert) unter geeigneten Voraussetzungen (Produktmessbarkeit) vertauschen kann, siehe Satz 9.1.
Bemerkung (Stieltjesintegral). Das Lebesgue-Stieltjes-Integral
R
h dF einer messbaren Funkti-
on h : R → [0, ∞] bzgl. der Verteilungsfunktion F einer Wahrscheinlichkeitsverteilung µ auf R
ist definiert als das Lebesgueintegral
Z
h(t) dF (t)
:=
Z
h(t) µ(dt).
Ist h stetig, dann läßt sich das Integral als Limes von Riemannsummen darstellen. Nach dem
Transformationssatz gilt für eine Zufallsvariable T : Ω → [0, ∞]:
Z
Z
E[T ] =
t µT (dt) =
t dFT (t).
Die Aussage von Satz 6.11 folgt hieraus formal durch partielle Integration.
Beispiel (Exponentialverteilung). Für eine exponentialverteilte Zufallsvariable T mit Parameter
λ > 0 erhalten wir:
E[T ]
=
Z∞
P [T > t] dt
0
=
Z∞
e−λt dt
=
1
.
λ
0
Es gilt also
Mittlere Wartezeit
=
1
Mittlere relative Häufigkeit pro Zeiteinheit
.
Universität Bonn
Wintersemester 2009/2010
198
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beispiel (Heavy tails). Sei α > 0. Für eine Zufallsvariable T : Ω → [0, ∞) mit
gilt
E[T ]
t−α
∼
P [T > t]
Z∞
=
für t → ∞
P [T > t] dt
<
∞
0
genau dann, wenn α > 1. Allgemeiner ist das p-te Moment
E[T p ]
=
Z∞
P [T p > t] dt
=
Z∞
0
0
nur für p < α endlich.
P [T > t1/p ] dt
| {z }
∼tα/p
Zufallsvariablen mit Dichten
Die Verteilungen vieler Zufallsvariablen haben eine Dichte bzgl. des Lebesguemaßes, oder bzgl.
eines anderen geeigneten Referenzmaßes. Wir wollen uns nun überlegen, wie man in diesem Fall
den Erwartungswert berechnet.
Sei (S, S) ein messbarer Raum und ν ein Maß auf (S, S) (z.B. das Lebesguemaß oder eine
Wahrscheinlichkeitsverteilung).
Definition. Eine Wahrscheinlichkeitsdichte auf (S, S, ν) ist eine messbare Funktion ̺ : S →
[0, ∞] mit
Z
̺(x) ν(dx) = 1.
S
Satz 6.12. (1). Ist ̺ eine Wahrscheinlichkeitsdichte auf (S, S, ν), dann wird durch
Z
Z
µ[B] :=
̺(x) ν(dx) =
IB (x)̺(x) ν(dx)
(6.2.2)
B
eine Wahrscheinlichkeitsverteilung µ auf (S, S) definiert.
(2). Für eine messbare Funktion h : S → [0, ∞] gilt
Z
Z
h(x) µ(dx) =
h(x)̺(x) ν(dx).
(6.2.3)
Insbesondere folgt nach dem Transformationssatz:
Z
E[h(X)] =
h(x)̺(x) ν(dx)
für jede Zufallsvariable X mit Verteilung µ.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
199
Beweis. Wir zeigen zunächst, dass µ eine Wahrscheinlichkeitsverteilung ist: Sind B1 , B2 , ... ∈ S
disjunkt, so folgt
"∞ #
Z
[
(x) · ̺(x) ν(dx)
IS ∞
µ
Bi =
i=1 Bi
i=1
=
=
=
Z
IS ni=1 Bi (x) · ̺(x) ν(dx) (wegen ̺ ≥ 0 und monotoner Konvergenz)
n
n Z
X
X
µ[Bi ]
̺(x) ν(dx) =
lim
lim
lim
n→∞
n→∞
∞
X
n→∞
Bi
i=1
i=1
µ[Bi ].
i=1
Zudem gilt:
µ[S]
Z
=
̺ dν
=
1.
Die Aussage (6.2.3) über den Erwartungswert beweisen wir durch maßtheoretische Induktion:
(1). Die Aussage folgt unmittelbar, wenn h = IB für B ∈ S gilt.
(2). Für Linearkombinationen h =
ten von (6.2.3) in h.
Pn
i=1 ci IBi
folgt die Aussage aus der Linearität beider Sei-
(3). Für allgemeine h ≥ 0 existiert eine Teilfolge hn aus Elementarfunktionen mit hn ր h. Mit
monotoner Konvergenz folgt
Z
Z
h dµ = lim hn dµ
=
lim
Z
hn ̺ dν
=
Z
h̺ dν.
Bemerkung. Durch (6.2.2) wird die Dichte ̺(x) der Wahrscheinlichkeitsverteilung µ bzgl. des
Maßes ν für ν-fast alle x eindeutig festgelegt: Existiert ̺˜ ∈ L1 (S, S, ν) mit
Z
Z
̺ dν = µ[B] =
̺˜ dν
für alle B ∈ S,
B
dann folgt:
Z
B
{̺>˜
̺}
Somit erhalten wir:
Z
(̺ − ̺˜) dν =
+
(̺ − ̺˜) dν =
Z
{̺<˜
̺}
Z
(̺ − ̺˜) dν
=
0,
also
(̺ − ̺˜)− dν = 0.
(̺ − ̺˜)+ = (̺ − ̺˜)− = 0 ν-fast überall,
und damit ̺ = ̺˜
Universität Bonn
ν-fast überall.
Wintersemester 2009/2010
200
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Notation:
Die Aussage (6.2.3) rechtfertigt die folgende Notation für eine Wahrscheinlichkeits-
verteilung µ mit Dichte ̺ bzgl. ν:
µ(dx)
=
̺(x) ν(dx)
dµ
bzw.
=
̺ dν
µ
bzw.
=
̺ · ν.
Für die nach der Bemerkung ν-fast überall eindeutig bestimmte Dichte von µ bzgl. ν verwenden
wir dementsprechend auch die folgende Notation:
̺(x)
dµ
(x).
dν
=
Wichtige Spezialfälle:
(1). M ASSENFUNKTION ALS D ICHTE BZGL . DES Z ÄHLMASSES .
Das Zählmaß auf einer abzählbaren Menge S ist das durch
ν[B]
|B|,
=
B ⊆ S,
definierte Maß auf S. Die Gewichtsfunktion x 7→ µ[{x}] einer Wahrscheinlichkeitsvertei-
lung µ auf S ist die Dichte von µ bzgl. des Zählmaßes ν. Insbesondere ist die Massenfunktion einer diskreten Zufallsvariable X : Ω → S die Dichte der Verteilung von X bzgl.
ν:
µX [B]
=
P [X ∈ B]
=
X
pX (a)
Z
=
a∈B
pX (a)ν(da),
für alle B ⊆ S.
B
Die Berechnungsformel für den Erwartungswert diskreter Zufallsvariablen ergibt sich damit als Spezialfall von Satz 6.12:
Z
6.12
E[h(X)] =
h(a)pX (a) ν(da)
=
X
h(a)pX (a)
a∈S
für alle h : S → [0, ∞].
(2). D ICHTEN BZGL . DES L EBESGUEMASSES
Eine Wahrscheinlichkeitsverteilung µ auf Rd mit Borelscher σ-Algebra hat genau dann
eine Dichte ̺ bzgl. des Lebesguemaßes λ, wenn
µ[(−∞, c1 ] × . . . × (−∞, cd ]]
=
Zc1
···
−∞
Zcd
̺(x1 , . . . , xd ) dxd · · · dx1
−∞
für alle (c1 , . . . , cd ) ∈ Rd gilt. Insbesondere hat die Verteilung einer reellwertigen Zufalls-
variable X genau dann die Dichte fX bzgl. λ, wenn
FX (c)
=
µX [(−∞, c]]
=
Zc
fX (x) dx
für alle c ∈ R
−∞
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
201
gilt. Die Verteilungsfunktion ist in diesem Fall eine Stammfunktion der Dichte, und damit
λ-fast überall differenzierbar mit Ableitung
FX′ (x)
=
für fast alle x ∈ R.
fX (x)
Für den Erwartungswert ergibt sich:
E[h(X)]
Z
=
h(x)fX (x) dx
R
für alle messbaren Funktionen h : R → R mit h ≥ 0 oder h ∈ L1 (R, B(R), µ).
Beispiel (Normalverteilungen). Die Dichte der Standardnormalverteilung bzgl. des Lebesguemaßes ist ̺(x) = (2π)−1/2 · e−x
2 /2
. Damit ergibt sich für den Erwartungswert und die Varianz
einer Zufallsvariable Z ∼ N (0, 1):
E[Z] =
Z∞
x · (2π)−1/2 · e−x
2 /2
dx
=
0,
und
−∞
Var[Z] = E[(Z − E[Z])2 ] = E[Z 2 ]
Z∞
2
x2 · (2π)−1/2 · e−x /2 dx
=
=
−∞
Z∞
1 · (2π)−1/2 · e−x
2 /2
dx
=
1.
−∞
Hierbei haben wir im letzten Schritt partielle Integration benutzt.
Ist X eine N (m, σ 2 )-verteilte Zufallsvariable, dann ist Z =
X−m
σ
standardnormalverteilt, und es
gilt X = m + σZ, also
E[X]
=
m + σE[Z]
=
m,
und
Var[X]
=
Var[σZ]
=
σ 2 Var[Z]
=
σ2.
Die Parameter m und σ geben also den Erwartungswert und die Standardabweichung der Normalverteilung an.
(3). R ELATIVE D ICHTEN : Seien µ und ν zwei Wahrscheinlichkeitsverteilungen auf einem
messbaren Raum (S, S) mit Dichten f bzw. g bezüglich eines Referenzmaßes λ (z.B. Zähl-
maß oder Lebesguemaß). Gilt g > 0 λ-fast überall, dann hat µ bzgl. ν die Dichte
dµ
dν
Universität Bonn
=
f
g
=
dµ/dλ
,
dν/dλ
Wintersemester 2009/2010
202
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
denn nach Satz 6.12 gilt:
Z
µ[B] =
f dλ
=
B
Z
=
Z
f
g dλ
g
B
f
dν
g
für alle B ∈ S.
B
In der Statistik treten relative Dichten als „Likelihoodquotienten“ auf, wobei f (x) bzw.
g(x) die „Likelihood“ eines Beobachtungswertes x bzgl. verschiedener möglicher zugrundeliegender Wahrscheinlichkeitsverteilungen beschreibt, s. Abschnitt ??.
Existenz von Dichten
Wir geben abschließend ohne Beweis den Satz von Radon-Nikodym an. Dieser Satz besagt, dass
eine Wahrscheinlichkeitsverteilung (oder allgemeiner ein σ-endliches Maß) µ genau dann eine Dichte bzgl. eines anderen (σ-endlichen) Maßes ν hat, wenn alle ν-Nullmengan auch µNullmengen sind. Ein Maß µ auf einem messbaren Raum (S, S) heißt σ-endlich, wenn eine
S
Bn existiert.
Folge von messbaren Mengen Bn ∈ S mit µ[Bn ] < ∞ und S =
n∈N
Definition. (1). Ein Maß µ auf (S, S) heißt absolutstetig bzgl. eines anderen Maßes ν auf
demselben messbaren Raum (µ ≪ ν) falls für alle B ∈ S gilt:
ν[B] = 0
=⇒
µ[B] = 0
(2). Die Maße µ und ν heißen äquivalent (µ ∼ ν), falls µ ≪ ν und ν ≪ µ.
Beispiel. Ein Diracmaß δx , x ∈ R, ist nicht absolutstetig bzgl. das Lebesguemaßes λ auf R, denn
es gilt λ[{x}] = 0, aber δx [{x}] > 0. Umgekehrt ist auch das Lebesguemaß nicht absolutstetig
bzgl. des Diracmaßes.
Satz 6.13 (Radon-Nikodym). Für σ-endliche Maße µ und ν gilt µ ≪ ν genau dann, wenn eine
Dichte ̺ ∈ L1 (S, S, ν) existiert mit
µ[B]
=
Z
für alle B ∈ S.
̺ dν
B
Die eine Richtung des Satzes zeigt man leicht: Hat µ eine Dichte bzgl. ν, und gilt ν[B] = 0, so
folgt
µ[B]
=
Z
̺ dν
B
Einführung in die Wahrscheinlichkeitstheorie
=
Z
̺ · IB dν
=
0,
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
203
da ̺ · IB = 0 ν-fast überall. Der Beweis der Umkehrung ist nicht so einfach, und kann funk-
tionalanalytisch erfolgen, siehe z.B. Klenke: „Wahrscheinlichkeitstheorie“. Einen stochastischen
Beweis über Martingaltheorie werden wir in der Vorlesung „Stochastische Prozesse“ führen.
Beispiel (Absolutstetigkeit von diskreten Wahrscheinlichkeitsverteilungen). Sind µ und ν
Wahrscheinlichkeitsverteilungen (oder σ-endliche Maße) auf einer abzählbaren Menge S, dann
gilt µ ≪ ν genau dann, wenn µ(x) = 0 für alle x ∈ S mit ν(x) = 0 gilt. In diesem Fall ist die
Dichte von µ bzgl. ν durch
dµ
(x)
dν
=


 µ(x)
ν(x)

beliebig
falls ν(x) 6= 0
sonst
gegeben. Man beachte, dass die Dichte nur für ν-fast alle x, also für alle x mit ν(x) 6= 0, eindeutig
bestimmt ist.
6.3 Varianz, Kovarianz und lineare Regression
Varianz und Standardabweichung
Sei X : Ω → R eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Wie zuvor für diskrete Zufallsvariablen (s. Abschnitt 3.1) definieren wir auch im allgemeinen Fall
die Varianz Var[X] und die Standardabweichung σ[X] durch
Var[X]
:=
E[(X − E[X])2 ],
σ[X]
:=
p
Var[X].
Auch in diesem Fall folgen aus der Linearität des Erwartungswerts die Rechenregeln
Var[X] = E[X 2 ] − E[X]2 ,
Var[aX + b] = Var[aX]
=
und
a2 · Var[X]
(6.3.1)
für alle a, b ∈ R.
(6.3.2)
Insbesondere ist die Varianz genau dann endlich, wenn E[X 2 ] endlich ist. Nach Korollar 6.5
gilt zudem genau dann Var[X] = 0, wenn X P -f.s. konstant gleich E[X] ist. Aufgrund des
Transformationssatzes für den Erwartungswert können wir die Varianz auch allgemein aus der
Verteilung µX = P ◦ X −1 berechnen:
Korollar 6.14. Die Varianz Var[X] hängt nur von der Verteilung µX = P ◦ X −1 ab:
Z
Z
2
mit
x = E[X] =
x µ(dx).
Var[X] =
(x − x) µX (dx)
Universität Bonn
Wintersemester 2009/2010
204
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis. Nach Satz 6.12 gilt
Var[X]
mit E[X] =
R
2
E[(X − E[X]) ]
=
Z
=
(x − E[X])2 µX (dx)
xµX (dx).
Beispiel (Empirisches Mittel und empirische Varianz). Ist die zugrundeliegende Wahrscheinlichkeitsverteilung auf Ω eine empirische Verteilung
n
P
1X
δω
n i=1 i
=
von n Elementen ω1 , . . . , ωn aus einer Grundgesamtheit (z.B. alle Einwohner von Bonn, oder eine
Stichprobe daraus), dann ist die Verteilung einer Abbildung X : Ω → S (statistisches Merkmal,
z.B. Alter der Einwohner von Bonn) gerade die empirische Verteilung der auftretenden Werte
xi = X(ωi ):
n
µX
1X
δx .
n i=1 i
=
Die Gewichte der empirischen Verteilung sind die relativen Häufigkeiten
µX (a)
h(a)
,
n
=
h(a)
|{1 ≤ i ≤ n : xi = a}|.
=
Für den Erwartungswert einer Funktion g(X), g : S → R, ergibt sich
E[g(X)]
X
=
a∈{x1 ,...,xn }
h(a)
g(a) ·
n
n
1X
g(xi ),
n i=1
=
d.h. der Erwartungswert bzgl. der empirischen Verteilung ist das arithmetische Mittel der Werte
g(xi ).
Ist X reellwertig, so erhalten wir als Erwartungswert und Varianz das empirische Mittel
E[X]
X
=
a∈{x1 ,...,xn }
a·
h(a)
n
n
=
1X
xi
n i=1
=:
xn ,
und die empirische Varianz
Var[X] = E[(X − E[X])2 ]
=
1
n
n
X
i=1
(xi − xn )2
Einführung in die Wahrscheinlichkeitstheorie
=
X
(a − xn )2 ·
a∈{x1 ,...,xn }
= (x2 )n − (xn )2
=:
h(a)
n
σn2 .
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
205
Sind die xi selbst unabhängige Stichproben von einer Wahrscheinlichkeitsverteilung µ, dann ist
n
P
δxi nach dem Gesetz der großen Zahlen eine Approximation
die empirische Verteilung n−1
i=1
von µ, siehe Abschnitt 7.2 unten. Daher verwendet man das Stichprobenmittel xn und die Stich-
probenvarianz σn2 bzw. die renormierte Stichprobenvarianz
n
s2n
1 X
(xi − xn )2
=
n − 1 i=1
in der Statistik, um den Erwartungswert und die Varianz einer zugrundeliegenden (unbekannten)
Verteilung zu schätzen.
Beispiel (Exponentialverteilung). Für eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable T gilt E[T ] = λ1 . Mit partieller Integration folgt zudem:
E[T 2 ] =
Z∞
t2 fT (t) dt
=
Z∞
−λt
=
2te
2
λ
dt
=
=
2
,
λ2
0
p
Var[T ]
=
Z∞
tfT (t) dt
0
2
E[T ]
=
λ
σ(T )
t2 λe−λt dt
0
0
also
Z∞
=
(E[T 2 ] − E[T ]2 )1/2
=
1
.
λ
Die Standardabweichung ist also genauso groß wie der Erwartungswert!
Beispiel (Heavy Tails). Eine Zufallsvariable X : Ω → R mit Verteilungsdichte
fX (x)
∼
|x|−p
für |x| → ∞
ist integrierbar für p > 2. Für p ∈ (2, 3] gilt jedoch
Var[X]
=
Z∞
(x − E[X])2 fX (x) dx
=
∞.
−∞
Quadratintegrierbare Zufallsvariablen
Für einen gegebenen Wahrscheinlichkeitsraum (Ω, A, P ) bezeichnen wir mit L2 (Ω, A, P ) den
Raum aller bezüglich P quadratintegrierbaren Zufallsvariablen:
L2 (Ω, A, P )
Universität Bonn
=
{X : Ω → R messbar | E[X 2 ] < ∞}.
Wintersemester 2009/2010
206
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Der Raum ist ein Unterraum des Vektorraums aller A/B(R) messbaren Abbildungen, denn für
X, Y ∈ L2 (Ω, A, P ) und a ∈ R gilt:
E[(aX + Y )2 ]
≤
E[2(aX)2 + 2Y 2 ]
=
2a2 E[X 2 ] + 2E[Y 2 ]
L2 (Ω, A, P )
L1 (Ω, A, P ),
<
∞.
Zudem gilt
⊆
denn aus |X| ≤ (X 2 + 1)/2 folgt
1 2
E[|X|] ≤ E (X + 1)
2
=
1
(E[X 2 ] + 1)
2
∞
<
für alle X ∈ L2 (Ω, A, P ). Hierbei haben wir wesentlich benutzt, dass P ein endliches Maß ist
- für unendliche Maße ist der Raum L2 nicht in L1 enthalten! Nach (6.3.1) ist umgekehrt eine
Zufallsvariable aus L1 genau dann in L2 enthalten, wenn sie endliche Varianz hat.
Auf dem Vektorraum
L2 (Ω, A, P )
L2 (Ω, A, P )/ ∼
=
der Äquivalenzklassen von P -fast sicher gleichen quadratintegrierbaren Zufallsvariablen wird
durch
:=
(X, Y )L2
E[XY ]
und
kXkL2
:=
1/2
(X, X)L2
ein Skalarprodukt und eine Norm definiert. Hierbei ist der Erwartungswert E[XY ] wegen |XY | ≤
(X 2 + Y 2 )/2 definiert. Insbesondere gilt die Cauchy-Schwarz-Ungleichung
|E[XY ]|
≤
E[X 2 ]1/2 · E[Y 2 ]1/2
für alle X, Y ∈ L2 (Ω, A, P ).
In der Analysis wird gezeigt, dass L2 (Ω, A, P ) bzgl. des L2 -Skalarprodukts ein Hilbertraum, also
vollständig bzgl. der L2 -Norm ist.
Beste Prognosen
Angenommen wir wollen den Ausgang eines Zufallsexperiments vorhersagen, dass durch eine
reellwertige Zufallsvariable X : Ω → R beschrieben wird. Welches ist der beste Prognosewert a
für X(ω), wenn uns keine weiteren Informationen zur Verfügung stehen?
Die Antwort hängt offensichtlich davon ab, wie wir den Prognosefehler messen. Häufig verwendet man den mittleren quadratischen Fehler (mean square error)
MSE
=
Einführung in die Wahrscheinlichkeitstheorie
E[(X − a)2 ]
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
207
bzw. die Wurzel (root mean square error)
RMSE
=
MSE1/2
kX − akL2 (Ω,A,P ) .
=
Satz 6.15 (Erwartungswert als bester L2 -Prognosewert). Ist X ∈ L2 (Ω, A, P ), dann gilt für
alle a ∈ R:
E[(X − a)2 ]
=
Var[X] + (a − E[X])2
≥
E[(X − E[X])2 ]
Der mittlere quadratische Fehler des Prognosewertes a ist also die Summe der Varianz von X
und des Quadrats des Bias (systematischer bzw. mittlerer Prognosefehler) a − E[X]:
Varianz + Bias2 .
=
MSE
Insbesondere ist der mittlere quadratische Fehler genau für a = E[X] minimal.
Beweis. Für a ∈ R gilt wegen der Linearität des Erwartungswertes:
E[(X − a)2 ] = E[(X − E[X] + E[X] − a)2 ]
= E[(X − E[X])2 ] + 2E[(X − E[X]) · (E[X] − a)] + E[(E[X] − a)2 ]
{z
}
|
=(E[X] − E[X]) ·(E[X]−a)
{z
}
|
=0
2
= Var[X] + (E[X] − a) .
Verwendet man eine andere Norm, um den Prognosefehler zu messen, dann ergeben sich im
Allgemeinen andere beste Prognosewerte. Beispielsweise gilt:
Satz 6.16 (Median als bester L1 -Prognosewert). Ist X ∈ L1 (Ω, A, P ) und m ein Median der
Verteilung von X, dann gilt für alle a ∈ R:
E[|X − a|]
≥
E[|X − m|]
.
Beweis. Für m ≥ a folgt die Behauptung aus der Identität
|X − m| − |X − a|
≤
(m − a)(I(−∞,m) (X) − I[m,∞) (X))
durch Bilden des Erwartungswertes. Der Beweis für m ≤ a verläuft analog.
Insbesondere minimieren Stichprobenmittel und Stichprobenmedian einer Stichprobe x1 , . . . , xn ∈
P
P
R also die Summe der quadratischen bzw. absoluten Abweichungen (xi − a)2 bzw. |xi − a|.
Universität Bonn
Wintersemester 2009/2010
208
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Kovarianz und Korrelation
Seien X und Y quadratintegrierbare reellwertige Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Wie schon für diskrete Zufallsvariablen definieren wir wieder die Kovarianz
Cov[X, Y ]
:=
E[(X − E[X])(Y − E[Y ])]
=
E[XY ] − E[X] · E[Y ]
und den Korrelationskoeffizienten
̺[X, Y ]
:=
Cov[X, Y ]
,
σ[X]σ[Y ]
falls σ[X] · σ[Y ] 6= 0. Die Zufallsvariablen X und Y heißen unkorreliert, falls Cov[X, Y ] = 0
gilt, d.h. falls
E[XY ]
=
E[X] · E[Y ].
Um die Kovarianz zu berechnen, benötigen wir die gemeinsame Verteilung der Zufallsvariablen
X und Y . Aus dem Transformationssatz für den Erwartungswert folgt:
Korollar 6.17. Die Kovarianz Cov[X, Y ] hängt nur von der gemeinsamen Verteilung
µX,Y
=
P ◦ (X, Y )−1
der Zufallsvariablen X und Y ab:
Z
Z
Z x − z µX (dz)
y − z µY (dz) µX,Y (dx dy).
Cov[X, Y ] =
Beweis. Nach dem Transformationssatz gilt
Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]
Z
Z
Z x − z µX (dz)
y − z µY (dz) µX,Y (dx dy).
=
Aus der Linearität des Erwartungswertes folgt, dass die Abbildung Cov : L2 × L2 → R symmetrisch und bilinear ist. Die Varianz Var[X] = Cov[X, X] ist die zugehörige quadratische Form.
Insbesondere gilt wie im diskreten Fall:
#
" n
n
n
X
X
X
=
Var[Xi ] + 2 ·
Var
Cov[Xi , Xj ].
Xi
i=1
i=1
Einführung in die Wahrscheinlichkeitstheorie
i,j=1
i<j
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
209
Sind die Zufallsvariablen X1 , . . . , Xn unkorreliert, dann folgt:
Var[X1 + . . . + Xn ]
n
X
=
Var[Xi ].
i=1
Die folgende Aussage ist ein Spezialfall der Cauchy-Schwarz-Ungleichung. Wir geben trotzdem
einen vollständigen Beweis, da dieser auch in Zusammenhang mit linearer Regression von Interesse ist.
Satz 6.18 (Cauchy-Schwarz). (1). Für X, Y ∈ L2 gilt:
| Cov[X, Y ]|
≤
Var[X]1/2 · Var[Y ]1/2
=
σ[X] · σ[Y ].
(6.3.3)
(2). Im Fall σ[X] · σ[Y ] 6= 0 gilt für den Korrelationskoeffizienten
|̺[X, Y ]|
≤
1.
(6.3.4)
Gleichheit in (6.3.3) bzw. (6.3.4) gilt genau dann, wenn ein a 6= 0 und ein b ∈ R existieren,
sodass Y = aX + b P -fast sicher gilt. Hierbei ist ̺[X, Y ] = 1 im Falle a > 0 und
̺[X, Y ] = −1 für a < 0.
Beweis. Im Fall σ[X] = 0 gilt X = E[X] P -fast sicher, und die Ungleichung (6.3.3) ist trivialerweise erfüllt. Wir nehmen nun an, dass σ[X] 6= 0 gilt.
(1). Für a ∈ R gilt:
0 ≤ Var[Y − aX] = Var[Y ] − 2a Cov[X, Y ] + a2 Var[X]
2
Cov[X, Y ]
Cov[X, Y ]2
=
a · σ[X] −
+ Var[Y ].
−
σ[X]
Var[X]
Da der erste Term für a :=
Cov[X,Y ]
σ[X]2
(6.3.5)
verschwindet, folgt:
Var[Y ] −
Cov[X, Y ]2
Var[X]
≥
0.
(2). Die Ungleichung |̺[X, Y ]| ≤ 1 folgt unmittelbar aus (6.3.3). Zudem gilt genau dann
Gleichheit in (6.3.5) bzw. (6.3.3), wenn Var[Y − aX] = 0 gilt, also Y − aX P -fast sicher konstant ist. In diesem Fall folgt
Cov[X, Y ]
=
Cov[X, aX]
=
a Var[X],
also hat ̺[X, Y ] dasselbe Vorzeichen wie a.
Universität Bonn
Wintersemester 2009/2010
210
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beispiel (Empirischer Korrelationskoeffizent). Ist die zugrundeliegende Wahrscheinlichkeitsn
P
δωi , und sind X, Y : Ω → R reellwertige
verteilung eine empirische Verteilung P = n1
i=1
Abbildungen (statistische Merkmale), dann gilt
n
1X
µX,Y =
δ(x ,y )
mit
n i=1 i i
xi = X(ωi ) und yi = Y (ωi ).
Als Kovarianz ergibt sich
n
Cov[X, Y ]
1X
(xi − xn )(yi − y n )
n i=1
=
n
X
1
n
=
xi yi
i=1
!
− xn y n .
Der entsprechende empirische Korrelationskoeffizient der Daten (xi , yi ), 1 ≤ i ≤ n, ist
n
P
(xi − xn )(yi − y n )
Cov[X, Y ]
i=1
= ̺[X, Y ] =
1/2 n
1/2 =: rn .
n
σ[X]σ[Y ]
P
P
(yi − y n )2
(xi − xn )2
i=1
i=1
Den empirischen Korrelationskoeffizienten verwendet man als Schätzer für die Korrelation von
Zufallsgrößen mit unbekannten Verteilungen.
Die Grafiken 6.3 und 6.3 zeigen Stichproben mit verschiedenen Korrelationskoeffizienten ̺.
b
Y
2
b
1
−2
b
b
b
bb
b
b
b
bb
b
bb
bb b
b
bb
bb b
b bb
b
bb b
bbb b
bb b
b
bb b
b
bb
b bb
b
bbb
b
bb b
b
b
b
bb
b
bb
1
b
b
b
b
b
2 X
1
−2
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
2 X −2
b
b
−1
−1
Y
2
̺=1
b
b
b
−2
b
b
b
b
b
b
b
b
1
b
b
b
b
b
b
b
bb
b b
b
b
b
b
b
−1
−1
b
b
b
b
b
b
b
b
b
bb
b
b
b b
bb b
b
bb
b
b
b
b
b
b
b
1
b
b
b
b
b
b
b
b
b
b
bbb b
bbbb
bb b
b
b
b
b b
b
b
b
1
b
b
b
2 X
b
b
b
b
b
b
bb
b
b
b
b
b
b
̺=0
1
bb
bb
b bbb
b bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
bb
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
bb
b
b
b
b
−2
Y
2
1
2
b
b
b
b
b
b
b
b
b
b
b
b
−2
̺=
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b b
b
bb b
b
b
b
bb b
b b
b
b
b
b
b
b
b b
b
b
b
b
1
b
b
bb b
b
1
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b b
b
b
b
b
b b b
b
b
b
b
bb b b
b b b
b
−1
−1
b
bb
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
−2
b
b
b
b
Y
2
b
b
b
b
b
−1
−1
bb
bb
bb
b b
bb
Y
2
2 X −2
b
b
−2
−1
−1
−2
bb
bbb
bb
b
bb b
b b
b
bb
bb
bb
b
bbb
bb
b
2 X
1
b
bbb
bb b
b
b
b
b
b
b
̺ = −1
̺=
Abbildung 6.2: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen
− 12
Einführung in die Wahrscheinlichkeitstheorie
b
Prof. Andreas Eberle
b
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
Y
2
b
b
b
b
211
b b
bb
b
b
−2
bbb b
bbbb
bb b
1
bb
bb
b bbb
b bb
bb
bb
bb b
b
bb b
b b
−1
−1
b
bb
bb
bb
b
bbb
bb
b
2 X
1
b
bbb
bb b
b
−2
b
b
b
b
b
̺=1
Abbildung 6.3: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen
b
Anwendung auf lineare Prognose (Regression)
Seien X, Y ∈ L2 (Ω, A, P ) Zufallsvariablen mit σ[X] 6= 0. Angenommen, wir kennen den Wert
X(ω) in einem Zufallsexperiment und suchen die beste lineare Vorhersage
Ŷ (ω)
=
aX(ω) + b,
(a, b ∈ R)
(6.3.6)
für Y (ω) im quadratischen Mittel, d.h. den Minimierer des mittleren quadratischen Fehlers,
:=
MSE
E[(Ŷ − Y )2 ],
unter alle Zufallsvariablen Ŷ , die affine Funktionen von X sind.
Korollar 6.19. Der mittlere quadratische Fehler ist minimal unter allen Zufallsvariablen Ŷ =
aX + b (a, b ∈ R) für
Ŷ (ω)
=
E[Y ] +
Cov[X, Y ]
· (X(ω) − E[X]).
Var[X]
Beweis. Es gilt
MSE = Var[Y − Ŷ ] + E[Y − Ŷ ]2
= Var[Y − aX] + (E[Y ] − aE[X] − b)2 .
Der zweite Term ist minimal für
b
E[Y ] − aE[X],
=
und der erste Term für
a
Universität Bonn
=
Cov[X, Y ]
,
σ[X]2
Wintersemester 2009/2010
212
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
siehe den Beweis der Cauchy-Schwarz-Ungleichung, Satz 6.18. Die bzgl. des mittleren quadratischen Fehlers optimale Prognose für Y gestützt auf X ist also
Ŷopt
=
aX + b
=
E[Y ] + a(X − E[X]).
Beispiel (Regressionsgerade, Methode der kleinsten Quadrate). Im Beispiel der empirischen
Verteilung von oben erhalten wir die Regressionsgerade y = ax + b, die die Quadratsumme
n
X
i=1
(axi + b − yi )2
n · MSE
=
der Abweichungen minimiert. Es gilt
a
Cov[X, Y ]
σ[X]2
=
n
P
i=1
=
(xi − xn )(yi − y n )
n
P
i=1
und
b
=
E[Y ] − a · E[X]
=
(xi − xn )2
y n − a · xn .
Die Regressionsgeraden sind in Grafik 6.3 eingezeichnet.
Beispiel (Zweidimensionale Normalverteilung ). Die zweidimensionale Normalverteilung N (m, C)
ist die Verteilung im R2 mit Dichte
1
1
−1
√
fm,C (x) =
x ∈ R2 .
· exp − (x − m) · C (x − m) ,
2
2π · det C
!
v
c
1
Hierbei ist m ∈ R2 und C =
eine symmetrische positiv-definite Matrix mit Koeffizic v2
√
enten c ∈ R und v1 , v2 > 0. Mit σi := vi , i = 1, 2, und ̺ := σ1cσ2 gilt:
det C = v1 v2 − c2
C −1 =
1
det C
σ12 σ22 · (1 − ̺2 ),


!
̺
1
− σ1 σ2
v2 −c
2
1
,
·  σ1̺
=
2
1
1−̺
−c v1
− σ1 σ2
2
σ
=
und
2
also
exp
1
− 2(1−̺
2)
x1 −m1
σ1
2
−
1
2̺ x1 −m
σ1
p
·
x2 −m2
σ2
+
x2 −m2
σ2
2 .
2πσ1 σ2 1 − ̺2
Die folgende Aussage zeigt, dass die Koeffizienten mi , σi und ̺ tatsächlich der Mittelwert, die
fm,C (x) =
Standardabweichung und die Korrelation der Koordinaten x1 und x2 sind:
Behauptung:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
213
(1). fm,C ist eine Wahrscheinlichkeitsdichte bzgl. des Lebesguemaßes im R2 .
(2). Für reellwertige Zufallsvariablen X1 , X2 mit gemeinsamer Verteilung µX1 ,X2 = N (m, C)
und i = 1, 2 gilt
E[Xi ] = mi ,
Var[Xi ] = vi ,
Cov[X1 , X2 ] = c,
und
(6.3.7)
d.h. m ist der Mittelwertvektor und C = (Cov[Xi , Xj ])i,j die Kovarianzmatrix der Normalverteilung N (m, C).
Der Beweis der Behauptung wird der Leserin/dem Leser als Übung überlassen - wir zeigen nur
exemplarisch die Berechnung der Kovarianz im Fall m = 0. Mit quadratischer Ergänzung können
wir den Exponenten in der Dichte f0,C (x) schreiben als
1
−
2(1 − ̺2 )
Mit m̃(x2 ) =
Z
x2
x1
−̺
σ1
σ2
2
1
−
2
x2
σ2
2
.
x2 ̺σ1
erhalten wir dann nach dem Satz von Fubini:
σ2
x1 x2 f0,C (x) dx
R2
Z Z
1
x22
1
2
p
=
(x1 − m̃(x2 )) ] dx1 exp − 2 dx2
x1 x2 exp[−
2(1 − ̺2 )σ12
2σ2
2πσ1 σ2 1 − ̺2
Z
x22
1
dx2 = ̺σ1 σ2 = c,
x
= p
2 · m̃(x2 ) · exp −
2σ22
2πσ22 | {z }
x22 ̺σ1 /σ2
wobei wir im zweiten und dritten Schritt die Formeln für den Erwartungswert und die Varianz von
eindimensionalen Normalverteilungen verwendet haben. Nach dem Transformationssatz ergibt
sich:
E[X1 X2 ]
=
Z
x1 x2 µX1 ,X2 (dx)
=
c.
Da auf ähnliche Weise E[X1 ] = E[X2 ] = 0 folgt, ist c die Kovarianz von X1 und X2 .
Bemerkung.
Ist X = (X1 , X2 ) ein N (m, C)-verteilter Zufallsvektor, dann ist jede Linear-
kombination Y = α1 X1 + α2 X2 , α ∈ R2 , normalverteilt mit Mittelwert α · m und Varianz
α · Cα. Auch dies kann man durch eine explizite Berechnung der Verteilungsfunktion aus der
gemeinsamen Dichte von X1 und X2 zeigen. Wir werden multivariate Normalverteilungen systematischer in Abschnitt 9.3 untersuchen, und dort auch einen eleganteren Beweis der letzten
Aussage mithilfe von charakteristischen Funktionen geben.
Universität Bonn
Wintersemester 2009/2010
214
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beispiel (Autoregressiver Prozess). Seien X0 und Zn , n ∈ N, unabhängige reellwertige Zufallsvariablen mit Zn ∼ N (0, 1) für alle n. Der durch das „stochastische Bewegungsgesetz“
Xn
=
αXn−1
| {z }
+
lineares
Bewegungsgesetz
εZn
|{z}
,
zufällige Störung,
Rauschen
n ∈ N,
(6.3.8)
definierte stochastische Prozess (Xn )n=0,1,2,... heißt autoregressiver Prozess AR(1) mit Parametern ε, α ∈ R. Autoregressive Prozesse werden zur Modellierung von Zeitreihen eingesetzt. Im
allgemeineren autoregressiven Modell AR(p), p ∈ N, mit Parametern ε, α1 , . . . , αp ∈ R lautet
das Bewegungsgesetz
Xn
p
X
=
αi Xn−i + εZn ,
i=1
n ≥ p.
Grafik 6.3 zeigt simulierte Trajektorien von AR(1)- und AR(2)-Prozessen:
Das folgende Lemma fasst einige grundlegende Eigenschaften des AR(1) Modells zusammen.
Lemma 6.20. Für den AR(1)-Prozess mit Parametern ε, α und m ∈ R, σ > 0 gilt:
(1). Xn−1 ∼ N (m, σ 2 )
=⇒
Xn ∼ N (αm, α2 σ 2 + ε2 ).
2
ε
(2). Für |α| < 1 ist die Verteilung µ = N (0, 1−α
2 ) ein Gleichgewicht, d.h.
X0 ∼ µ
=⇒
Xn ∼ µ
∀n ∈ N.
ε2
1 − α2
für alle 0 ≤ k ≤ n.
Bei Startverteilung P ◦ X0−1 = µ gilt:
Cov[Xn , Xn−k ]
=
αk ·
Exponentieller Abfall der Korrelationen
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
215
Beweis. Gilt Xn−1 ∼ N (m, σ 2 ), dann ist (Xn−1 , Zn ) bivariat normalverteilt, also ist auch die
Linearkombination Xn = aXn−1 + εZn normalverteilt. Der Erwartungswert und die Varianz von
Xn ergeben sich aus (6.3.7). Der Beweis der übrigen AussageN wird dem Leser als Übungsaufgabe überlassen.
Bemerkung. (1). Der AR(1)-Prozess ist eine Markovkette mit Übergangswahrscheinlichkeiten
p(x, ·) = N (αx, ε2 ), s. Abschnitt 9.1 unten.
(2). Ist die gemeinsame Verteilung der Startwerte X0 , X1 , . . . , Xp−1 eine multivariate Normalverteilung, dann ist der AR(p)-Prozess ein Gaussprozess, d.h. die gemeinsame Verteilung
von X0 , X1 , . . . , Xn ist für jedes n ∈ N eine multivariate Normalverteilung.
Unabhängigkeit und Unkorreliertheit
Wir zeigen abschließend, dass auch für allgemeine Zufallsvariablen X und Y aus Unabhängigkeit
die Unkorreliertheit von beliebigen Funktionen f (X) und g(Y ) folgt. Seien X : Ω → S und
Y : Ω → T Zufallsvariablen mit Werten in messbaren Räumen (S, S) und (T, T ).
Satz 6.21. Es sind äquivalent:
(1). Die Zufallsvariablen X und Y sind unabhängig, d.h.
P [X ∈ A, Y ∈ B]
=
P [X ∈ A] · P [Y ∈ B]
für alle A ∈ S und B ∈ T
(2). Die Zufallsvariablenf (X) und g(Y ) sind unkorreliert für alle messbaren Funktionen f, g
mit f, g ≥ 0 bzw. f (X), g(Y ) ∈ L2 (Ω, A, P ), d.h.
E[f (X) · g(Y )]
=
E[f (X)] · E[g(Y )].
(6.3.9)
Beweis. Offensichtlich folgt (1) aus (2) durch Wahl von f = IA und g = IB . Die umgekehrte Implikation folgt durch maßtheoretische Induktion: Gilt (1), dann ist (6.3.9) für Indikatorfunktionen
f und g erfüllt. Wegen der Linearität beider Seiten dieser Gleichung in f und g gilt (6.3.9) auch
für beliebige Elementarfunktionen. Für messbare f, g ≥ 0 betrachten wir Folgen von Elementar-
funktionen fn , gn mit fn ր f, gn ր g. Die Aussage (6.3.9) folgt durch monotone Konvergenz.
Allgemeine Funktionen zerlegen wir in ihren Positiv- und Negativanteil, und wenden die Aussage auf diese an. Also gilt Cov[f (X), g(Y )] = 0 für alle messbaren f, g mit f, g ≥ 0 bzw.
f (X), g(Y ) ∈ L2 (Ω, A, P ).
Universität Bonn
Wintersemester 2009/2010
216
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Korollar 6.22. Sind X, Y ∈ L1 (Ω, A, P ) unabhängig, so gilt:
X ·Y
∈
L1 (Ω, A, P )
und
E[XY ]
=
E[X] · E[Y ].
Beweis. Nach Satz 6.21 gilt:
E[|XY |]
=
E[|X|] · E[|Y |]
<
∞.
Die Formel für E[XY ] folgt durch die Zerlegungen X = X + − X − und Y = Y + − Y − .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 7
Gesetze der großen Zahlen
In diesem Kapitel beweisen wir verschiedene Gesetze der großen Zahlen, d.h. wir leiten Bedinn
P
Xi einer Folge (Xi )i∈N von reellwertigen Zufallsgungen her, unter denen die Mittelwerte n1
i=1
variablen gegen ihren Erwartungswert konvergieren. Dabei unterscheiden wir verschiedene Arten
der Konvergenz, die wir zunächst genauer untersuchen wollen.
7.1 Grundlegende Ungleichungen und Konvergenz von Zufallsvariablen
Konvergenzbegriffe für Zufallsvariablen
Seien Yn , n ∈ N, und Y reellwertige Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Wir betrachten die folgenden Konvergenzbegriffe für die
Folge (Yn )n∈N :
Definition. (1). Fast sichere Konvergenz:
Die Folge (Yn )n∈N konvergiert P -fast sicher gegen Y , falls gilt:
P
h
lim Yn = Y
n→∞
i
=
P [{ω ∈ Ω|Yn (ω) → Y (ω)}]
=
1.
(2). Stochastische Konvergenz (Convergence in probability):
P
Die Folge (Yn )n∈N konvergiert P -stochastisch gegen Y (Notation Yn → Y ), falls
lim P [|Yn − Y | > ε]
n→∞
=
217
0
für alle ε > 0 gilt.
218
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(3). Lp -Konvergenz (1 ≤ p < ∞):
Die Folge (Yn )n∈N konvergiert in Lp (Ω, A, P ) gegen Y , falls
lim E[|Yn − Y |p ]
=
n→∞
0.
Ein Gesetz der großen Zahlen bezüglich fast sicherer Konvergenz heißt starkes Gesetz der
großen Zahlen, ein G.d.g.Z. bezüglich stochastischer Konvergenz heißt schwaches Gesetz der
großen Zahlen. Wir wollen nun die Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen untersuchen.
Satz 7.1. (1). Fast sichere Konvergenz impliziert stochastische Konvergenz.
(2). Die umgekehrte Implikation gilt im Allgemeinen nicht.
Beweis.
(1). Konvergiert Yn P -fast sicher gegen Y , dann gilt für ε > 0:
1 = P [|Yn − Y | < ε schließlich]
#
"
[ \
{|Yn − Y | < ε}
= P
m n≥m
=
≤
lim P
m→∞
"
\
#
{|Yn − Y | < ε}
n≥m
lim inf P [|Yn − Y | < ε]
m→∞ n≥m
= lim inf P [|Yn − Y | < ε].
n→∞
Es folgt lim P [|Yn − Y | < ε] = 1 für alle ε > 0, d.h. Yn konvergiert auch P -stochastisch
n→∞
gegen Y .
(2). Sei andererseits P das Lebesguemaß auf Ω = (0, 1] mit Borelscher σ-Algebra. Wir betrachten die Zufallsvariablen
Y1 = I(0,1] , Y2 = I(0, 1 ] , Y3 = I( 1 ,1] , Y4 = I(0, 1 ] , Y5 = I( 1 , 1 ] , Y6 = I( 1 , 3 ] , Y6 = I( 3 ,1] , . . .
2
2
4
4 2
2 4
4
Dann gilt
P [|Yn | > ε]
=
P [Yn = 1]
→
0
für alle ε > 0,
also konvergiert Yn stochastisch gegen 0, obwohl
lim sup Yn (ω)
=
Einführung in die Wahrscheinlichkeitstheorie
1
für alle ω ∈ Ω gilt.
Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
219
Hier ist ein weiteres Beispiel, das den Unterschied zwischen stochastischer und fast sicherer
Konvergenz zeigt:
Beispiel. Sind T1 , T2 , . . . unter P unabhängige Exp(1)-verteilte Zufallsvariablen, dann konvergiert Tn / log n P -stochastisch gegen 0, denn
Tn ≥ε
= P [Tn ≥ ε · log n]
P log n =
n→∞
n−ε
→
0
für alle ε > 0. Andererseits gilt nach (5.1.6) aber
Tn
log n
lim sup
n→∞
=
1
P -fast sicher,
also konvergiert Tn / log n nicht P -fast sicher.
Obwohl die stochastische Konvergenz selbst nicht fast sichere Konvergenz impliziert, kann man
aus einer Verschärfung von stochastischer Konvergenz die fast sichere Konvergenz schließen.
Wir sagen, dass eine Folge Yn , n ∈ N, von Zufallsvariablen auf (Ω, A, P ) schnell stochastisch
gegen Y konvergiert, falls
∞
X
n=1
P [|Yn − Y | ≥ ε]
<
∞
für alle ε > 0.
Lemma 7.2. Aus schneller stochastischer Konvergenz folgt fast sichere Konvergenz.
Beweis. Wir können o.B.d.A. Y = 0 annehmen. Konvergiert Yn schnell stochastisch gegen 0,
dann gilt:
P [lim sup |Yn | ≤ ε]
≥
Es folgt
P [lim sup |Yn | =
6 0]
=
P [|Yn | ≥ ε nur endlich oft]

P
[
ε∈Q+

{lim sup |Yn | > ε}
=
=
1.
0.
Ähnlich zeigt man:
Lemma 7.3. Konvergiert Yn P -stochastisch gegen Y , dann existiert eine Teilfolge Ynk , die P -fast
sicher gegen Y konvergiert.
Beweis. Wieder können wir o.B.d.A. Y = 0 annehmen. Konvergiert Yn stochastisch gegen 0,
dann existiert eine Teilfolge Ynk mit
1
P |Ynk | ≥
k
Universität Bonn
≤
1
.
k2
Wintersemester 2009/2010
220
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Nach dem Lemma von Borel-Cantelli folgt
1
P |Ynk | ≥ nur endlich oft
k
=
1,
also Ynk → 0 P -fast sicher.
Als nächstes beweisen wir eine Erweiterung der Čebyšev-Ungleichung, die wir an vielen Stellen
verwenden werden. Insbesondere impliziert sie, dass stochastische Konvergenz schwächer ist als
Lp -Konvergenz.
Die Markov-Čebyšev-Ungleichung
Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wir verwenden die folgende Notation:
Notation:
E[X ; A] := E[X · IA ] =
R
A
XdP .
Satz 7.4 (Allgemeine Markov-Ungleichung). Sei h : [0, ∞] → [0, ∞] monoton wachsend und
Borel-messbar. Dann gilt
P [|X| ≥ c] ≤
E[h(|X|)]
E[h(|X|) ; |X| ≥ c]
≤
h(c)
h(c)
für alle c > 0 mit h(c) 6= 0.
Beweis. Da h nichtnegativ und monoton wachsend ist, gilt
h(|X|) ≥ h(|X|) · I{|X|≥c} ≥ h(c) · I{|X|≥c} ,
also auch
E[h(|X|)] ≥ E[h(|X|) ; |X| ≥ c] ≥ h(c) · P [|X| ≥ c].
Wichtige Spezialfälle:
(1). Markov - Ungleichung: Für h(x) = x erhalten wir:
P [|X| ≥ c] ≤
E[|X|]
c
für alle c > 0.
Insbesondere gilt für eine Zufallsvariable X mit E[|X|] = 0:
P [|X| ≥ c] = 0
für alle c > 0,
also auch P [|X| > 0] = 0, d.h. X = 0 P -fast sicher.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
221
(2). Čebyšev - Ungleichung: Für h(x) = x2 und X = Y − E[Y ] mit Y ∈ L1 (Ω, A, P )
erhalten wir:
P [|Y − E[Y ]| ≥ c] ≤
E[(Y − E[Y ])2 ]
Var[Y ]
=
2
c
c2
für alle c > 0.
Diese Ungleichung haben wir bereits in Abschnitt 3.2 im Beweis des schwachen Gesetzes
der großen Zahlen verwendet.
(3). Exponentielle Abschätzung: Für h(x) = exp(tx) mit t > 0 erhalten wir wegen
I{X≥c} ≤ e−tc etX :
P [X ≥ c] = E[I{X≥c} ] ≤ e−tc · E[etX ].
Die Abbildung t 7→ E[etX ] heißt momentenerzeugende Funktion der Zufallsvariablen
X. Exponentielle Ungleichungen werden wir in Abschnitt 8.2 zur Kontrolle der Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen verwenden.
Als erste Anwendung der allgemeinen Markovungleichung zeigen wir für reellwertige Zufallsvariablen X, Xn (n ∈ N):
Korollar 7.5 (Lp -Konvergenz impliziert stochastische Konvergenz). Für 1 ≤ p < ∞ gilt:
E[|Xn − X|p ] → 0
⇒
P [|Xn − X| > ε] → 0 für alle ε > 0.
Beweis. Nach der Markovungleichung mit h(x) = xp gilt:
P [|Xn − X| ≥ ε]
≤
1
E[|Xn − X|p ].
p
ε
Bemerkung. Aus stochastischer Konvergenz folgt im Allgemeinen nicht Lp -Konvergenz (Übung).
Es gilt aber: Konvergiert Xn → X stochastisch, und ist die Folge der Zufallsvariablen |Xn |p
(n ∈ N) gleichmäßig integrierbar, d.h.
sup E[|Xn |p ; |Xn | ≥ c] → 0 für c → ∞,
n∈N
dann konvergiert Xn gegen X in Lp (Verallgemeinerter Satz von Lebesgue). Wir benötigen diese
Aussage im Moment nicht, und werden sie daher erst in der Vorlesung »Stochastische Prozesse«
beweisen.
Als nächstes wollen wir den Zusammenhang zwischen Lp -Konvergenz für verschiedene Werte
von p ≥ 1 untersuchen. Dazu verwenden wir eine weitere fundamentale Ungleichung:
Universität Bonn
Wintersemester 2009/2010
222
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Die Jensensche Ungleichung
Ist ℓ(x) = ax + b eine affine Funktion auf R, und X ∈ L1 eine integrierbare Zufallsvariable,
dann folgt aus der Linearität des Lebesgueintegrals:
E[ℓ(X)]
=
E[aX + b]
=
aE[X] + b
=
ℓ(E[X])
(7.1.1)
Da konvexe Funktionen Suprema einer Familie von affinen Funktionen (nämlich der Tangenten
an den Funktionsgraphen der konvexen Funktion) sind, ergibt sich für konvexe Funktionen eine
entsprechende Ungleichung:
Satz 7.6 (Jensensche Ungleichung). Ist P eine Wahrscheinlichkeitsverteilung, X ∈ L1 (Ω, A, P )
eine reellwertige Zufallsvariable, und h : R → R eine konvexe Abbildung, dann ist E[h(X)− ] <
∞, und es gilt
h(E[X]) ≤ E[h(X)].
Warnung: Diese Aussage gilt (wie auch (7.1.1)) nur für die Integration bzgl. eines Wahrscheinlichkeitsmaßes!
Bevor wir die Jensensche Ungleichung beweisen, erinnern wir kurz an die Definition und elementare Eigenschaften von konvexen Funktionen:
Bemerkung. Eine Funktion h : R → R ist genau dann konvex, wenn
h(λx + (1 − λ)y)
≤
λh(x) + (1 − λ)h(y) für alle λ ∈ [0, 1] und x, y ∈ R
gilt, d.h. wenn alle Sekanten oberhalb des Funktionsgraphen liegen.
3
2
1
−4
−3
−2
x
−1
1
2
3
y
4
Abbildung 7.1: Sekante an konvexer Funktion
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
223
Hieraus folgt, daß jede konvexe Funktion stetig ist: Für a < b < x < y < c < d gilt nämlich
h(b) − h(a)
b−a
h(y) − h(x)
y−x
≤
Also sind die Differenzenquotienten
h(y)−h(x)
y−x
≤
h(d) − h(c)
.
d−c
gleichmäßig beschränkt auf (b, c), und somit ist
h gleichmäßig stetig auf (b, c). Da konvexe Funktionen stetig sind, sind sie auch messbar. Die
Existenz des Erwartungswertes E[h(X)] in (−∞, ∞] folgt dann aus E[h(X)− ] < ∞.
Wir beweisen nun die Jensensche Ungleichung:
Beweis. Ist h konvex, dann existiert zu jedem x0 ∈ R eine affine Funktion ℓ (Stützgerade) mit
ℓ(x0 ) = h(x0 ) und ℓ ≤ h, siehe die Analysis Vorlesung oder [A. K LENKE : „WAHRSCHEIN LICHKEITSTHEORIE “,
Abschnitt 7.2].
1.5
1.0
0.5
x0
2
4
Abbildung 7.2: Darstellung von ℓ(x) und h(x)
Wählen wir x0 := E[X], dann folgt
h(E[X]) = ℓ(E[X]) = E(ℓ[X]) ≤ E[h(X)].
Der Erwartungswert auf der rechten Seite ist definiert, da h(X) durch die integrierbare Zufallsvariable ℓ(X) nach unten beschränkt ist. Insbesondere gilt E[h(X)− ] ≤ E[ℓ(X)− ] < ∞.
Korollar 7.7 (Lq -Konvergenz impliziert Lp -Konvergenz). Für 1 < p ≤ q gilt:
kXkp
:=
1
E[|X|p ] p
≤
kXkq .
Insbesondere folgt Lp -Konvergenz aus Lq -Konvergenz.
Universität Bonn
Wintersemester 2009/2010
224
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis. Nach der Jensenschen Ungleichung gilt
q
E[|X|p ] p
E[|X|q ],
≤
da die Funktion h(x) = |x|q/p für q ≥ p konvex ist.
Nach dem Korollar gilt für p ≤ q:
Lp (Ω, A, P )
Lq (Ω, A, P ),
⊇
und
Xn → X in Lq
Xn → X in Lp .
⇒
Man beachte, daß diese Aussage nur für endliche Maße wahr ist, da im Beweis die Jensensche
Ungleichung verwendet wird.
Mithilfe der Jensenschen Ungleichung beweist man auch die Hölderungleichung:
1 1
+
=
E[|XY |] ≤ kXkp · kY kq
für p, q ∈ [1, ∞] mit
p q
7.2
1.
Starke Gesetze der großen Zahlen
Wir werden nun Gesetze der großen Zahlen unter verschiedenen Voraussetzungen an die zugrundeliegenden Zufallsvariablen beweisen. Zunächst nehmen wir an, dass X1 , X2 , . . . ∈ L2 (Ω, A, P )
quadratintegrierbare Zufallsvariablen sind, deren Varianzen gleichmäßig beschränkt sind, und deren Korrelationen hinreichend schnell abklingen:
Annahme: „Schnelles Abklingen der positiven Korrelation“
(A) Es existiert eine Folge cn ∈ R+ (n ∈ N) mit
∞
X
n=0
und
Cov[Xi , Xj ]
≤
cn < ∞
für alle i, j ∈ N.
c|i−j|
(7.2.1)
Die Bedingung (A) ist insbesondere erfüllt, wenn die Korrrelationen exponentiell abfallen, d.h.
wenn
| Cov[Xi , Xj ]|
≤
c · α|i−j|
für ein α ∈ (0, 1) und c ∈ R+ gilt. Sind etwa die Zufallsvariablen Xi unkorreliert, und ist die
Folge der Varianzen beschränkt, d.h. gilt
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
(A1) Cov[Xi , Xj ] = 0 für alle i, j ∈ N,
225
und
(A2) v := sup Var[Xi ] < ∞,
i
dann ist die Annahme (A) mit c0 = v und cn = 0 für n > 0 erfüllt. In diesem Fall haben wir
bereits in Abschnitt 3.2 ein schwaches Gesetz der großen Zahlen bewiesen.
Wichtig: Es wird keine Unabhängigkeit vorausgesetzt!
Sei nun
Sn
=
X1 + . . . + Xn
die Summe der ersten n Zufallsvariablen.
Das schwache Gesetz der großen Zahlen
Den Beweis des schwachen Gesetzes der großen Zahlen aus Abschnitt 3.2 können wir auf den
hier betrachteten allgemeinen Fall erweitern:
Satz 7.8 (Schwaches Gesetz der großen Zahlen, L2 -Version). Unter der Voraussetzung (A) gilt
für alle n ∈ N und ε > 0:
∞
P
n=1
2 #
Sn E[Sn ]
v
−
≤
,
n
n
n
Sn E[Sn ] ≥ε ≤ v
P −
n
n ε2 n
E
mit v := c0 + 2 ·
"
und
(7.2.2)
(7.2.3)
cn < ∞. Gilt insbesondere E[Xi ] = m für alle i ∈ N, dann folgt
Sn
n
→
m
in L2 (Ω, A, P ) und P -stochastisch.
Beweis. Unter Verwendung der Vorraussetzung an die Kovarianzen erhalten wir
"
2 #
Sn E[Sn ]
1
Sn
E
=
−
= Var
Var[Sn ]
n
n
n
n2
n
1 X
Cov[Xi , Xj ]
=
n2 i,j=1
n
∞
1 X X
c|k|
≤
n2 i=1 k=−∞
=
≤
v
n
n
n
1 XX
c|i−j|
n2 i=1 j=1
Die zweite Behauptung folgt daraus durch Anwenden der Čebyšev-Ungleichung.
Universität Bonn
Wintersemester 2009/2010
226
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Bemerkung. (1). Im Fall unkorrelierter Zufallsvariablen Xi (Annahmen (A1) und (A2)) ist die
Aussage ein Spezialfall einer allgemeinen funktionalanalytischen Sachverhalts:
Das Mittel von beschränkten orthogonalen Vektoren im Hilbertraum
L2 (Ω, A, P ) = L2 (Ω, A, P )/ ∼
konvergiert gegen 0.
Unkorreliertheit der Xi bedeutet gerade, dass die Zufallsvariablen
Yi
:=
Xi − E[Xi ]
orthogonal in L2 sind - beschränkte Varianzen der Xi ist gleichbedeutend mit der Beschränktheit der L2 Normen der Yi . Es gilt
Sn − E[Sn ]
n
X
=
Yi ,
i=1
also
E
"
Sn E[Sn ]
−
n
n
2 #
n
1 X 2
Yi = 2
n
i=1
=
L
n
1 X
kYi k2L2
=
n2 i=1
≤
n
n
1 XX
hYi , Yj iL2
n2 i=1 j=1
1
sup kYi k2L2 .
n i
(2). Die L2 -Konvergenz und stochastische Konvergenz von (Sn − E[Sn ])/n gegen 0 gilt auch,
falls die Korrelationen „langsam“ abklingen, d.h. falls (7.2.1) für eine nicht summierbare
Nullfolge cn erfüllt ist. In diesem Fall erhält man allerdings im Allgemeinen keine Abschätzung der Ordnung O( n1 ) für den Fehler in (7.2.2) bzw. (7.2.3).
(3). Eine für große n deutlich bessere Abschätzung des Fehlers in (7.2.3) (mit exponentiellem
Abfall in n) erhält man bei Unabhängigkeit und exponentieller Integrierbarkeit der Xi mithilfe der exponentiellen Ungleichung, siehe Satz 8.3 unten.
Das starke Gesetz für quadratintegrierbare Zufallsvariablen
Unter derselben Voraussetzung wie in Satz 7.8 gilt sogar P -fast sichere Konvergenz:
Satz 7.9 (Starkes Gesetz großer Zahlen, L2 -Version). Unter der Voraussetzung (A) konvergiert
Sn (ω) E[Sn ]
−
n
n
Einführung in die Wahrscheinlichkeitstheorie
−→
0
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
227
für P -fast alle ω ∈ Ω. Insbesondere gilt
Sn
n
−→
m
P -fast sicher,
falls E[Xi ] = m für alle i.
Der Übersichtlichkeit halber führen wir den Beweis zunächst unter den stärkeren Voraussetzungen (A1) und (A2). Der allgemeine Fall ist eine Übungsaufgabe, die sich gut zum Wiederholen
der Beweisschritte eignet:
Beweis unter den Annahmen (A1) und (A2). Wir können o.B.d.A. E[Xi ] = 0 für alle i voraussetzen – andernfalls betrachten wir die zentrierten Zufallsvariablen X̃i := Xi − E[Xi ]; diese sind
wieder unkorreliert mit beschränkten Varianzen. Zu zeigen ist dann:
Sn
→ 0
n
P -fast sicher.
Wir unterteilen den Beweis in mehrere Schritte:
(1). Schnelle stochastische Konvergenz gegen 0 entlang der Teilfolge nk = k 2 : Aus der ČebyševUngleichung folgt:
Sk 2 2
1
1
S
k
≤
sup Var[Xi ].
P 2 ≥ ε ≤ 2 Var
k
ε
k2
ε2 k 2 i
Da die Varianzen beschränkt sind, ist der gesamte Ausdruck durch die Summanden einer
summierbaren Reihe beschränkt. Somit ergibt sich nach Borel-Cantelli:
Sk2 (ω)
k2
→
0
für alle ω außerhalb einer Nullmenge N1 .
(2). Wir untersuchen nun die Fluktuationen der Folge Sn zwischen den Werten der Teilfolge
nk = k 2 . Sei
Dk
:=
max
k2 ≤l<(k+1)2
|Sl − Sk2 |.
Wir zeigen schnelle stochastische Konvergenz gegen 0 für Dk /k 2 . Für ε > 0 haben wir


[
Dk
{ |Sl − Sk2 | > εk 2 }
≥ε = P
P
k2
2
2
k ≤l<(k+1)
k2 +2k
≤
Universität Bonn
X
l=k2
P [|Sl − Sk2 | > εk 2 ] ≤
const.
,
k2
Wintersemester 2009/2010
228
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
denn nach der Čebyšev-Ungleichung gilt für k 2 ≤ l ≤ k 2 + 2k:
P [|Sl − Sk2 | > εk 2 ] ≤
≤
1
Var[Sl − Sk2 ] ≤
ε2 k 4
1
ε2 k 4
Var
"
l − k2
k
sup Var[Xi ] ≤ const · 4 .
2
4
εk
k
i
l
X
i=k2 +1
Xi
#
Nach Lemma 7.2 folgt daher
Dk (ω)
→ 0
k2
für alle ω außerhalb einer Nullmenge N2 .
(3). Zu gegebenem n wählen wir nun k = k(n) mit k 2 ≤ n < (k + 1)2 . Durch Kombination
der ersten beiden Schritte erhalten wir:
Sn (ω) |Sk2 (ω)| + Dk (ω)
≤
n ≤
n
Sk2 (ω) Dk (ω)
−→ 0
k2 + k2
für n → ∞
für alle ω außerhalb der Nullmenge N1 ∪ N2 . Also konvergiert Sn /n P -fast sicher gegen 0.
Beispiel (Random Walk im Rd ). Sei Sn = X1 + ... + Xn ein Random Walk im Rd mit unabhängigen identisch verteilten Inkrementen Xi mit Verteilung µ. Gilt
Z
2
kxk2 µ(dx) < ∞,
E[kXi k ] =
Rd
dann folgt nach dem schwachen Gesetz der großen Zahlen (angewandt auf die Komponenten
n
P
(k)
(k)
Xi des Vektors Sn ):
Sn =
i=1
Sn (ω)
n
wobei m =
R
Rd
−→
m
für P -fast alle ω,
xµ(dx) der Schwerpunkt der Inkrementverteilung ist. Insbesondere gilt für m 6= 0:
Sn
∼
m·n
für n → ∞ P -fast sicher,
d.h. Sn wächst linear mit Geschwindigkeit m. Im Fall m = 0 gilt dagegen
Sn (ω)
→ 0 P -fast sicher,
n
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
229
d.h. der Random Walk wächst sublinear. Eine viel präzisere Beschreibung der pfadweisen Asymptotik des Random Walk im Fall m = 0 liefert der Satz vom iterierten Logarithmus:
Sn (ω)
= +1
n log log n
n→∞
Sn (ω)
lim inf √
= −1
n→∞
n log log n
lim sup √
P -fast sicher,
P -fast sicher,
siehe z.B. [BAUER : „WAHRSCHEINLICHKEITSTHEORIE “].
Beispiel (Wachstum in zufälligen Medien). Um ein zufälliges Populationswachstum zu beschreiben, definieren wir Zufallsvariablen Xn (n ∈ N) durch
Xn = Yn · Xn−1 ,
X0 = 1,
d.h. Xn =
Qn
i=1
Yi . Hierbei nehmen wir an, dass die Wachstumsraten Yi unabhängige identisch
verteilte Zufallsvariablen mit Yi > 0 P -f.s. sind. Sei m = E[Yi ].
(1). A SYMPTOTIK DER E RWARTUNGSWERTE : Da die Yi unabhängig sind, gilt:
E[Xn ] =
n
Y
E[Yi ] = mn .
i=1
Die mittlere Populationsgröße wächst also im superkritischen Fall m > 1 exponentiell und
fällt im subkritischen Fall m < 1 exponentiell ab.
Konkretes Beispiel: In einem Glücksspiel setzt der Spieler in jeder Runde die Hälfte seines
Kapitals. Mit Wahrscheinlichkeit
Wahrscheinlichkeit
1
2
1
2
erhält er das c-fache des Einsatzes zurück, und mit
erhält er nichts zurück. Hier gilt:

 1 (1 + c) mit p =
2
Yi =
1
mit p =
2
also
1
2
1
2
,
1
1
2+c
m = E[Yi ] = (1 + c) + =
.
4
4
4
Das Spiel ist also „fair“ für c = 2 und „superfair“ für c > 2.
(2). A SYMPTOTIK VON Xn (ω): Wir nehmen nun an, daß log Y1 ∈ L2 gilt. Nach dem starken
Gesetz der großen Zahlen folgt dann:
n
1X
1
log Xn =
log Yi → E[log Y1 ] =: α
n
n i=1
Universität Bonn
P -f.s.
Wintersemester 2009/2010
230
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Also existiert für ε > 0 ein N (ω) mit N (ω) < ∞ P -fast sicher,
Xn (ω) ≤ e(α+ε)n
und
Xn (ω) ≥ e(α−ε)n
für alle n ≥ N (ω).
Für α < 0 fällt Xn also P -fast sicher exponentiell ab, während Xn für α > 0 P -fast sicher
exponentiell wächst.
(3). Z USAMMENHANG VON α UND m: Nach der Jensenschen Ungleichung gilt:
α = E[log Y1 ] ≤ log E[Y1 ] = log m.
Hierbei haben wir benutzt, dass der Logarithmus eine konkave, bzw. − log eine konvexe
Funktion ist. Im subkritischen Fall m < 1 ist also auch α strikt negativ, d.h. Xn fällt auch
P -f.s. exponentiell ab. Im superkritischen Fall m > 1 kann es aber passieren, dass trotzdem
α < 0 gilt, d.h. obwohl die Erwartungswerte exponentiell wachsen, fällt Xn P -fast sicher
exponentiell! Im Beispiel

 1 (1 + c) mit p =
Yi = 2
1
mit p =
2
1
2
1
2
von oben wachsen die Erwartungswerte exponentiell für c > 2, aber es gilt
1+c
1
1
1+c
1
log
= log
+ log
≥ 0 ⇔ c ≥ 3.
α = E[log Yi ] =
2
2
2
2
4
Für c ∈ (2, 3) ist das Spiel also superfair mit fast sicherem exponentiellem Bankrott!
Die Voraussetzungen des Satzes von Lebesgue sind in dieser Situation nicht erfüllt, denn
es gilt:
E[Xn ] ր ∞,
obwohl Xn → 0
P -fast sicher.
Von L2 nach L1 mit Unabhängigkeit
Sind Zufallsvariablen X, Y : Ω → S unabhängig, so sind f (X) und g(Y ) für beliebige beschränkte oder nichtnegative Funktionen f, g : S → R unkorreliert. Bisher konnten wir zeigen,
dass das starke Gesetz der großen Zahlen für unkorrelierte (bzw. schwach korrelierte) Zufallsvariablen Xn ∈ L2 mit gleichmäßig beschränkten Varianzen gilt. Die Unabhängigkeit der Xn
ermöglicht es, diese Aussage auf integrierbare Zufallsvariablen (d.h. L1 statt L2 ) zu erweitern:
Satz 7.10 (Kolmogorovs Gesetz der großen Zahlen). Seien X1 , X2 , ... ∈ L1 (Ω, A, P ) paarweise unabhängig und identisch verteilt mit E[Xi ] = m. Dann gilt:
n
1 X
Xi = m
lim
n→∞ n
i=1
Einführung in die Wahrscheinlichkeitstheorie
P -fast sicher.
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
231
Kolmogorov hatte eine entsprechende Aussage unter der Annahme von Unabhängigkeit (statt
paarweiser Unabhängigkeit) bewiesen. Der Beweis unter der schwächeren Voraussetzung stammt
von Etemadi (1981).
Bemerkung (Dynamische Systeme, Ergodensatz). In einer dynamischen Interpretation bedeutet die Aussage
Z
n
1 X
Xi (ω) −→ m = x µXi (dx)
n i=1
P -fast sicher,
des starken Gesetzes der großen Zahlen, dass die „zeitlichen Mittelwerte“ der Zufallsvariablen
Xi gegen den „räumlichen Mittelwert“ m konvergieren. Dies ist ein Spezialfall eines viel allgemeineren Ergodensatzes, der eine entsprechende Aussage für ergodische dynamische Systeme
liefert, siehe z.B. B REIMAN : P ROBABILITY oder D URRETT: P ROBABILITY: T HEORY AND E X AMPLES .
von Satz 7.10. Wir führen den Beweis in mehreren Schritten.
(1). Reduktion auf nichtnegative Zufallsvariablen.
Wir können o.B.d.A. Xi ≥ 0 für alle i ∈ N voraussetzen. Andernfalls zerlegen wir Xi =
Xi+ − Xi− . Die Zufallsvariablen Xi+ , i ∈ N, bzw. Xi− , i ∈ N, sind jeweils Funktionen der
Xi , und daher wieder paarweise unabhängig. Aus dem Gesetz der großen Zahlen für Xi+
und Xi− folgt das Gesetz der großen Zahlen für die Zufallsvariablen Xi .
(2). Reduktion auf Gesetz der großen Zahlen für Yi := Xi · I{Xi ≤i} .
Nach dem Lemma von Borel-Cantelli gilt
P [Yi 6= Xi unendlich oft] = 0,
denn
∞
X
i=1
P [Yi 6= Xi ] =
=
≤
∞
X
i=1
∞
X
P [Xi > i]
P [X1 > i]
Zi=1∞
P [X1 > x] dx
Universität Bonn
1
n
Pn
i=1
(P [X1 > x] monoton fallend)
0
= E[X1 ]
Also konvergiert
(Xi identisch verteilt)
<
∞.
Xi P -fast sicher gegen m, falls dasselbe für
1
n
Pn
i=1
Yi gilt.
Wintersemester 2009/2010
232
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Sei nun
Sn =
n
X
Yi .
i=1
Die Zufallsvariablen Yi sind wieder paarweise unabhängig, und es gilt 0 ≤ Yi ≤ i.
(3). Konvergenz der Erwartungswerte.
Da die Zufallsvariablen Yi nicht mehr identisch verteilt sind, bestimmen wir zunächst den
Grenzwert der Erwartungswerte der Mittelwerte Sn /n. Nach dem Satz von der monotonen
Konvergenz gilt
E[Yi ] = E[Xi ; Xi ≤ i] = E[X1 · I{X1 ≤i} ]−→E[X1 ] = m,
also auch
n
Sn
1 X
E
E[Yi ] −→ m
=
n
n i=1
(4). P -fast sichere Konvergenz von
Sn
n
für i → ∞,
für n → ∞.
entlang der Teilfolgen kn = ⌊αn ⌋ , α > 1.
Vorbemerkung: Es gilt
X 1
1
1
const.
const.
=
2 +
2 + ... ≤
2 =
2
2
m
m+1
m
k
km
⌊α ⌋
⌊α
⌋
⌊α ⌋
n≥m n
mit einer von m unabhängigen Konstanten.
Behauptung:
S kn
Skn
=m
−→ lim E
n→∞
kn
kn
P -fast sicher.
Beweis der Behauptung: Nach dem Lemma von Borel-Cantelli genügt es,
Skn − E[Skn ] P ≥ε < ∞
kn
n=1
∞
X
zu zeigen. Dies ist der Fall, wenn
∞
X
S kn
Var
kn
n=1
<∞
gilt. Wegen
Var[Yi ] ≤ E[Yi2 ] = E[Xi2 ; Xi ≤ i] = E[X12 ; X1 ≤ i]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
233
erhalten wir mithilfe der Vorbemerkung
∞
X
S kn
Var
kn
n=1
∞
kn
X
1 X
=
·
Var[Yi ]
k 2 i=1
n=1 n
∞
X
≤
i=1
E[X12 ; X1 ≤ i] ·
≤ const. ·
≤ const. ·
= const. ·
≤ const. ·
∞
X
i=1
i=1 j=1
∞
X
2
j=1
= const. · E
"
n
1
E X12 ; X1 ≤ i · 2
i
∞ X
i
X
j=1
∞
X
X 1
k2
n:k ≥i n
j 2 · P [X1 ∈ (j − 1, j]] ·
j · P [X1 ∈ (j − 1, j]] ·
1
i2
∞
X
1
i2
i=j
j · P [X1 ∈ (j − 1, j]]
∞
X
j=1
j · I{X1 ∈(j−1,j]}
#
≤ const. · E[X1 + 1] < ∞.
(5). P -fast sichere Konvergenz von
Sn
.
n
Für l ∈ N mit kn ≤ l ≤ kn+1 gilt wegen Yi ≥ 0:
Skn ≤ Sl ≤ Skn+1 .
Es folgt
Sk
Skn
Sl
kn+1 Skn+1
kn Skn
≤ n+1 =
·
=
≤
·
.
kn+1 kn
kn+1
l
kn
kn
kn+1
Für n → ∞ erhalten wir wegen
m
α
≤
kn+1
kn
lim inf
→ α und
Sl (ω)
l
≤
Skn (ω)
kn
→ m:
lim sup
Sl (ω)
l
≤
αm
für alle ω außerhalb einer von α abhängenden Nullmenge Nα . Für ω außerhalb der NullS
menge α>1 Nα folgt somit:
α∈Q
Sl (ω)
= m.
l→∞
l
lim
Universität Bonn
Wintersemester 2009/2010
234
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Korollar 7.11 (Gesetz der großen Zahlen ohne Integrierbarkeit). Seien X1 , X2 ... paarweise
unabhängige, identisch verteilte, nicht-negative Zufallsvariablen. Dann gilt:
n
1 X
lim ·
Xi (ω) = E[X1 ] ∈ [0, ∞]
n→∞ n
i=1
P -fast sicher.
Beweis. Nach Satz 7.10 gilt die Aussage im Fall E[X1 ] < ∞. Für E[X1 ] = ∞ erhalten wir für
k ∈ N:
n
1X
lim inf
Xi
n→∞ n
i=1
n
≥
1X
lim inf
(Xi ∧ k)
n→∞ n
i=1
=
E[X1 ∧ k]
P -fast sicher.
Für k → ∞ folgt dann mit monotoner Konvergenz
n
1X
Xi
lim inf
n→∞ n
i=1
≥
E[X1 ]
=
∞,
und damit die Behauptung.
7.3
Empirische Verteilungen
Schätzen von Kenngrößen einer unbekannten Verteilung
Angenommen, wir haben eine Stichprobe aus reellen Beobachtungswerten X1 , X2 , . . . , Xn gegeben, und möchten die zugrundeliegende Wahrscheinlichkeitsverteilung µ auf (R, B(R)) mög-
lichst weitgehend rekonstruieren. Im einfachsten Modell interpretieren wir die Beobachtungswerte als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . mit Verteilung µ.
R
(1). S CHÄTZEN DES E RWARTUNGSWERTES: Sei |x| µ(dx) < ∞. Um den Erwartungswert
Z
m =
x µ(dx)
zu schätzen, verwenden wir das empirische Mittel
n
Xn
:=
1X
Xi .
n i=1
Das empirische Mittel ist ein erwartungstreuer Schätzer für m, d.h. X n ist eine Funktion von den Beobachtungswerten X1 , . . . , Xn mit E[X n ] = m. Obere Schranken für den
Schätzfehler P [|X n − m| > ε], ε > 0, erhält man z.B. mithilfe der Čebyšev- oder der
exponentiellen Markov-Ungleichung. Für n → ∞ gilt nach dem Gesetz der großen Zahlen
Xn
−→
m
P -fast sicher,
d.h. X n ist eine konsistente Folge von Schätzern für m.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN
235
(2). S CHÄTZEN DER VARIANZ: Um die Varianz
Z
v =
(x − m)2 µ(dx)
der zugrundeliegenden Verteilung zu schätzen, verwendet man meistens die renormierte
Stichprobenvarianz
n
Der Vorfaktor
1
n−1
(statt
Ven
1
)
n
Schätzer für v ist, denn aus
1 X
(Xi − X n )2 .
n − 1 i=1
=
gewährleistet unter anderem, dass Ven ein erwartungstreuer
n
n
1X
1X
(Xi − X n )2 =
(Xi − m)2 − (X n − m)2
n i=1
n i=1
Stichprobenvarianz =
MSE
−
(7.3.1)
Stichprobenbias2
folgt
"
n
1X
(Xi − X n )2
E
n i=1
#
n
=
1X
Var[Xi ] − Var[X n ]
n i=1
n−1
v,
n
=
also E[Ven ] = v.
Um zu zeigen, dass Ven eine konsistente Folge von Schätzern für v ist, können wir erneut
das Gesetz der großen Zahlen anwenden. Da die Zufallsvariablen Xi − X n , 1 ≤ i ≤ n,
selbst nicht unabhängig sind, verwenden wir dazu die Zerlegung (7.3.1). Nach dem starken
Gesetz der großen Zahlen für nichtnegative Zufallsvariablen erhalten wir
n−1e
Vn
n
n
=
1X
(Xi − m)2 − (X n − m)2
n i=1
−→
v
P -fast sicher,
also auch Ven → v P -fast sicher.
(3). S CHÄTZEN VON I NTEGRALEN: Allgemeiner können wir für jede Funktion f ∈ L1 (S, S, µ)
das Integral
θ
=
Z
f dµ
erwartungstreu durch die empirischen Mittelwerte
n
Universität Bonn
θbn
=
1X
f (Xi )
n i=1
Wintersemester 2009/2010
236
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
schätzen. Dies haben wir schon in Kapitel 3 für Monte Carlo Verfahren verwendet. Da die
Zufallsvariablen f (Xi ) wieder unabhängig und identisch verteilt sind mit Erwartungswert
θ, gilt nach dem starken Gesetz der großen Zahlen:
θbn
−→
θ
P -fast sicher.
(7.3.2)
(4). S CHÄTZEN DER V ERTEILUNG: Die gesamte Verteilung µ können wir durch die empirische Verteilung
n
µ
bn (ω)
1X
δX (ω)
n i=1 i
=
der Zufallsstichprobe schätzen. µ
bn ist eine „zufällige Wahrscheinlichkeitsverteilung,“ d.h.
eine Zufallsvariable mit Werten im Raum W V (R) der Wahrscheinlichkeitsverteilungen
auf (R, B(R)). Aus (7.3.2) ergibt sich die folgende Approximationseigenschaft der empirischen Verteilungen:
Z
n
1X
f db
µn =
f (Xi )
n i=1
n→∞
−→
Z
f dµ
(7.3.3)
P -fast sicher für alle f ∈ L1 (S, S, µ).
Konvergenz der empirischen Verteilungsfunktionen
Für die empirischen Verteilungsfunktionen
Fn (c)
=
µ
bn [(−∞, c]]
1
|{1 ≤ i ≤ n : Xi ≤ c}|
n
=
von unabhängigen, identisch verteilten, reellwertigen Zufallsvariablen X1 , X2 , . . . mit VerteiR
lungsfunktion F ergibt sich wegen Fn (c) = I(−∞,c] db
µn :
lim Fn (c)
n→∞
=
F (c)
P -fast sicher für alle c ∈ R.
(7.3.4)
Diese Aussage kann man noch etwas verschärfen:
Satz 7.12 (Glivenko-Cantelli). Sind X1 , X2 , . . . unabhängig und identisch verteilt mit Verteilungsfunktion F , dann gilt für die empirischen Verteilungsfunktionen Fn :
sup |Fn (c) − F (c)|
c∈R
Einführung in die Wahrscheinlichkeitstheorie
−→
0
P -fast sicher.
(7.3.5)
Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN
237
Beweis. Wir führen den Beweis unter der zusätzlichen Annahme, dass F stetig ist – für den
allgemeinen Fall siehe z.B. Klenke: Wahrscheinlichkeitstheorie. Sie ε > 0 gegeben. Ist F stetig,
dann existieren k ∈ N und Konstanten
−∞
=
c0
<
c1
<
c2
<
...
<
ck
=
∞
mit F (ci ) − F (ci−1 ) ≤
für alle 1 ≤ i ≤ k. Da Fn nach 7.3.4 mit Wahrscheinlichkeit 1 punktweise gegen F konvergiert,
existiert zudem ein n0 ∈ N mit
max |Fn (ci ) − F (ci )|
0≤i≤n
ε
2
<
für alle n ≥ n0 .
Wegen der Monotonie der Verteilungsfunktionen folgt dann
Fn (c) − F (c)
≤
Fn (ci ) − F (ci−1 )
≤
ε
+ Fn (ci ) − F (ci )
2
<
ε,
≤
F (ci ) − Fn (ci−1 )
≤
ε
+ F (ci ) − Fn (ci )
2
<
ε,
und entsprechend
F (c) − Fn (c)
für alle n ≥ n0 , c ∈ R, und 1 ≤ i ≤ k mit ci−1 ≤ c ≤ ci . Also gilt auch
sup |Fn (c) − F (c)|
<
für alle n ≥ n0 .
ε
c∈R
Bemerkung (QQ-Plot). In parametrischen statistischen Modellen nimmt man von vornherein
an, dass die beobachteten Daten Realisierungen von Zufallsvariablen sind, deren Verteilung aus
einer bestimmten Familie von Wahrscheinlichkeitsverteilungen stammt, z.B. der Familie aller
Normalverteilungen. Um zu entscheiden, ob eine solche Annahme für gegebene reellwertige Daten x1 , . . . , xn gerechtfertigt ist, kann man die empirische Verteilungsfunktion mit der tatsächlichen Verteilungsfunktion vergleichen. Ein praktikables graphisches Verfahren ist der QuantilQuantil-Plot, bei dem die Quantile der empirischen und der theoretischen Verteilung gegeneinander aufgetragen werden. Um auf Normalverteilung zu testen, plottet man beispielsweise die
Punkte
−1
Φ
k−
n
1
2
, x(k) ,
k = 1, 2, . . . , n,
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist, und
x(1)
Universität Bonn
≤
x(2)
≤
...
≤
x(n)
Wintersemester 2009/2010
ε
2
238
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
die Ordnungsstatistiken von x1 , . . . , xn , also die (k − 12 )/n-Quantile der empirischen Verteilung
sind. Ist die zugrundeliegende Verteilung eine Normalverteilung mit Mittel m und Standardabweichung σ, dann liegen die Punkte für große n näherungsweise auf einer Geraden mit Steigung
σ und Achsenabschnitt m, da für die Verteilungsfunktion und die Quantile der theoretischen Verteilung dann
F (c)
=
P [X ≤ c]
=
P [σZ + m ≤ c]
=
c−m
P Z≤
σ
=
Φ
c−m
σ
,
bzw.
F −1 (u)
=
m + σΦ−1 (u)
gilt. Die folgende Grafik zeigt QQ-Plots bzgl. der Normalverteilung für verschiedene Datensätze.
Histogramme und Multinomialverteilung
Die empirische Verteilung µ
bn (ω) =
1
n
n
P
i=1
δXi (ω) von Zufallsvariablen X1 , . . . , Xn ist selbst ei-
ne Zufallsvariable mit Werten im Raum der Wahrscheinlichkeitsverteilungen. Wir wollen nun
die Verteilung dieser Zufallsvariablen explizit berechnen, falls die Xi unabhängig und identisch
verteilt mit endlichem Wertebereich S sind. Haben die Zufallsvariablen keinen endlichen Wertebereich, dann kann man die Aussagen trotzdem anwenden, indem man den Wertebereich in
endlich viele Teilmengen (Klassen) zerlegt.
Das Histogramm von n Beobachtungswerten x1 , . . . , xn , die in einer endlichen Menge S liegen,
ist der Vektor
~h = (ha )a∈S ,
ha = |{1 ≤ i ≤ n|xi = a}|,
der Häufigkeiten der möglichen Werte a ∈ S unter x1 , . . . , xn . Graphisch stellt man ein Histogramm durch ein Balkendiagramm dar:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN
239
hc
ha
hd
hb
a
c
b
d
Abbildung 7.3: Histogramm der Klassen a, b, c und d mit den jeweiligen Häufigkeiten ha , hb , hc
und hd
Der Raum Hist(n) aller möglichen Histogramme von n Beobachtungswerten ist eine Teilmenge
von {0, 1, . . . , n}S :
Hist(n)
=
{~h = (ha )a∈S |ha ∈ Z+ ,
X
a∈S
ha = n}
{0, 1, . . . , n}S .
⊆
Sie nun µ eine Wahrscheinlichkeitsverteilung auf der endlichen Menge S. Wir wollen die Verteilung des Histogrammvektors bestimmen, wenn die Beobachtungswerte unabhängige Stichproben
von der Verteilung µ sind. Wir betrachten also unabhängige Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A , P ) mit Verteilung µ und die Häufigkeiten
Ha (ω)
:=
|{1 ≤ i ≤ n : Xi (ω) = a}|
der möglichen Werte a ∈ S. Die Zufallsvariable Ha ist Bin(n, p)-verteilt mit p = µ[{a}]. Wir
berechnen nun die gemeinsame Verteilung aller dieser Häufigkeiten, d.h. die Verteilung µH des
Zufallsvektors
H
Universität Bonn
=
(Ha )a∈S
:
Ω −→ Hist(n)
Wintersemester 2009/2010
240
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
mit Werten im Raum der Histogramme. Dazu verwenden wir die Unabhängigkeit der Xi . Mit
I = {1, . . . , n} erhalten wir:
µH (~k) = P [Ha = ka
∀a ∈ S]
= P [Xi = a genau ka -mal für alle a ∈ S]
X
=
P [Xi = a ∀ i ∈ Ia ∀ a ∈ S]
I=
Ṡ
Ia
a∈S
|Ia |=ka
=
X Y
I=
Ṡ
µ[{a}]ka
Ia a∈S
a∈S
|Ia |=ka
Y
n
=
µ[{a}]ka .
~k
a∈S
Hierbei laufen die Summen über alle disjunkten Zerlegungen von I = {0, 1, . . . , n} in Teilmen-
gen ia , a ∈ S, mit jeweils ka Elementen, und der Multinomialkoeffizient
n
~k
:=
n!
Q
,
ka !
ka ∈ {0, 1, . . . , n} mit
a∈S
X
ka = n,
a∈S
gibt die Anzahl der Partitionen von n Elementen in Teilmengen von jeweils ka Elementen an.
Definition. Die Verteilung des Histogrammvektors H heißt Multinomialverteilung für n Stichproben mit Ergebniswahrscheinlichkeiten µ(a), a ∈ S.
Bemerkung. Im Fall |S| = 2 ist H(ω) eindeutig festgelegt durch H1 (ω), und die Zufallsvariable H1 ist binomialverteilt mit Parametern n und p = µ[{1}]. In diesem Sinn ergibt sich die
Binomialverteilung als Spezialfall der Multinomialverteilung.
7.4
Entropie
Wir definieren nun die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Mithilfe des Gesetzes der großen Zahlen können wir eine statistische Interpretation dieser Größe geben, aus der
sich insbesondere der Quellenkodierungssatz von Shannon ergibt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.4. ENTROPIE
241
Definition und Eigenschaften
Wir bemerken zunächst, dass die auf [0, ∞) definierte Funktion

x log x für x > 0
u(x) :=
0
für x = 0
stetig und strikt konvex ist mit
u(x) ≤ 0
für alle x ∈ [0, 1],
(7.4.1)
u(x) ≥ x − 1
für alle x ≥ 0,
(7.4.2)
und absolutem Minimum u(1/e) = −1/e.
0.4
0.2
1
e
0.5
1.0
−0.2
−0.4
−0.6
−0.8
−1.0
−1.2
−1.4
Abbildung 7.4: Graph der Funktion u(x) (blau) und ihrer unteren Schranke x − 1 (rot)
Sei nun S eine abzählbare Menge, und µ = (µ(x))x∈S eine Wahrscheinlichkeitsverteilung auf S.
Definition. Die Größe
H(µ)
:=
−
X
µ(x) log µ(x)
x∈S
µ(x)6=0
=
−
X
x∈S
u(µ(x))
∈ [0, ∞]
heißt Entropie der Wahrscheinlichkeitsverteilung µ.
Universität Bonn
Wintersemester 2009/2010
242
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Anschaulich können wir − log µ(x) interpretieren als Maß für die »Überraschung« bzw. den
»Informationsgewinn«, falls eine Stichprobe von der Verteilung µ den Wert x hat. Die »Überraschung« ist umso größer, je unwahrscheinlicher x ist. Die Entropie H(µ) ist dann die »mittlere
Überraschung« bzw. der »mittlere Informationsgewinn« beim Ziehen einer Stichprobe von µ.
Eine wichtige Eigenschaft der Entropie, die auch die Wahl des Logarithmus erklärt, ist:
Satz 7.13 (Faktorisierungseigenschaft). Für beliebige diskrete Wahrscheinlichkeitsverteilungen µ und ν gilt:
H(µ ⊗ ν) = H(µ) + H(ν).
Der mittlere Informationszuwachs in einem aus zwei unabhängigen Experimenten zusammengesetzten Zufallsexperiment ist also die Summe der einzelnen mittleren Informationszuwächse.
Beweis. Nach Definition der Entropie gilt:
H(µ ⊗ ν) =
X
µ(x)ν(y) log(µ(x)ν(y))
x,y
µ(x)ν(y)6=0
= −
X
x:µ(x)6=0
µ(x) log(µ(x)) −
= H(µ) + H(ν).
X
ν(y) log(ν(y))
y:ν(y)6=0
Wir bestimmen nun auf einer gegebenen abzählbaren Menge S die Wahrscheinlichkeitsverteilungen mit minimaler bzw. maximaler Entropie.
Extrema der Entropie:
(1). Entropieminima: Nach (7.4.1) ist die Entropie stets nicht-negativ, und es gilt:
H(µ) = 0
⇐⇒
µ(x) ∈ {0, 1}
∀x ∈ S
⇐⇒
µ ist ein Diracmaß.
Die Diracmaße sind also die Entropieminima. Ist das Zufallsexperiment deterministisch,
d.h. µ ein Diracmaß, dann tritt bei Ziehen einer Stichprobe von µ keine Überraschung bzw.
kein Informationszuwachs auf.
(2). Entropiemaximum: Ist S endlich, dann gilt für alle Wahrscheinlichkeitsverteilungen µ
auf S:
H(µ) ≤ − log
Einführung in die Wahrscheinlichkeitstheorie
1
|S|
= H(US ),
Prof. Andreas Eberle
7.4. ENTROPIE
243
wobei US die Gleichverteilung auf S ist. Nach der Jensenschen Ungleichung gilt nämlich
−
X
x∈S
u(µ(x)) = −|S| ·
Z
u(µ(x)) US (dx)
Z
≤ −|S| · u
µ(x) US (dx)
1
1
= − log
= −|S| · u
|S|
|S|
mit Gleichheit genau dann, wenn µ die Gleichverteilung ist.
Die Gleichverteilung maximiert also die Entropie auf einem endlichen Zustandsraum. Anschaulich können wir die Gleichverteilung als eine »völlig zufällige« Verteilung auffassen
– d.h. wir verwenden die Gleichverteilung als Modell, wenn wir keinen Grund haben, einen
der Zustände zu bevorzugen. Die Entropie ist in diesem Sinne ein Maß für die »Zufälligkeit« (bzw. »Unordnung«) der Wahrscheinlichkeitsverteilung µ.
Auf einer abzählbar unendlichen Menge existiert keine Wahrscheinlichkeitsverteilung mit
maximaler Entropie.
Beispiel (Entropie von Markovketten). Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf
einer endlichen Menge S, die die Gleichverteilung US als Gleichgewicht hat, d.h. für alle y ∈ S
gilt:
X
p(x, y)
x∈S
=
|S| ·
X
x∈S
US (x) p(x, y)
=
|S| · US (y)
=
1.
(7.4.3)
Beispielsweise ist p die Übergangsmatrix eines Random Walks auf dem diskreten Kreis Zk =
Z/(kZ), der symmetrischen Gruppe Sn („Mischen eines Kartenspiels“), oder dem diskreten Hyperwürfel {0, 1}n („Ehrenfestmodell“).
Der folgende Satz zeigt, dass die Entropie H(µpn ) der Verteilung zur Zeit n einer Markovkette
mit Startverteilung µ und Übergangsmatrix p monoton wächst:
Satz 7.14 (Zunahme der Entropie). Ist p eine stochastische Matrix auf S mit (7.4.3), dann gilt:
H(µp)
≥
H(µ)
für jede Wahrscheinlichkeitsverteilung µ auf S. Insbesondere ist n 7→ H(µpn ) monoton wachsend.
Universität Bonn
Wintersemester 2009/2010
244
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis. Aus der Jensenschen Ungleichung folgt:
−H(µp) =
≤
=
X
u
y∈S
XX
X
!
µ(x)p(x, y)
x∈S
u(µ(x))p(x, y)
y∈S x∈S
X
u(µ(x))
=
x∈S
−H(µ).
Hierbei haben wir im zweiten Schritt benutzt, dass die Funktion u konvex ist, und dass x 7→
p(x, y) nach (7.4.3) für jedes y ∈ S die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung
ist.
In der Interpretation der statistischen Physik geht die zeitliche Enticklung auf makroskopischer
Ebene (Thermodynamik) von einem geordneten hin zu einem ungeordneten Zustand maximaler Entropie (»thermodynamische Irreversibilität«). Trotzdem ist auf mikroskopischer Ebene die
Dynamik rekurrent, d.h. jeder Zustand x ∈ S wird von der Markovkette mit Wahrscheinlichkeit
1 unendlich oft besucht – dies dauert nur eventuell astronomisch lange. Die Einführung eines
Markovmodells durch die österreichischen Physiker Tatjana und Paul Ehrenfest konnte eine entsprechende Kontroverse von Zermelo („Dynamik kehrt immer wieder zurück“) und Boltzmann
(„soll solange warten“) lösen.
Statistische Interpretation der Entropie
Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S. Die Wahrscheinlichkeit einer Folge von Ausgängen x1 , . . . , xn bei Entnehmen einer Stichprobe aus n unabhängigen
Zufallsgrößen mit Verteilung µ beträgt
pn (x1 , ..., xn ) =
n
Y
µ(xi ).
i=1
Der gemittelte Informationszuwachs durch Auswertung der Werte x1 , . . . , xn ist also
1
− log pn (x1 , ..., xn ).
n
Mithilfe des Gesetzes der großen Zahlen können wir die Asymptotik dieser Größen für n → ∞
untersuchen:
Satz 7.15 (Shannon - Mc Millan). Seien X1 , X2 , . . . : Ω → S unter P unabhängige Zufallsva-
riablen mit Verteilung µ. Dann gilt P -fast sicher
1
− log pn (X1 , . . . , Xn ) −→
n
Einführung in die Wahrscheinlichkeitstheorie
H(µ)
für n → ∞.
Prof. Andreas Eberle
7.4. ENTROPIE
245
Beweis. Mit Wahrscheinlichkeit 1 gilt µ(Xi ) > 0 für alle i, also nach Korollar 7.11:
Z
n
1
1X
n→∞
− log pn (X1 , . . . , Xn ) = −
log µ(Xi ) −→ − log µ dµ =
n
n i=1
H(µ).
Bemerkung (Exponentielle Skala). Die Aussage des Satzes besagt, dass auf der „exponentiellen
Skala“ fast sicher
pn (X1 , . . . , Xn )
≃
e−nH(µ)
gilt, d.h. beide Ausdrücke sind asymptotisch äquivalent bis auf subexponentielle (also z.B. polynomiell) wachsende Faktoren. Eine asymptotische Beschreibung von Wahrscheinlichkeiten auf
der exponentiellen Skala ist Gegenstand der Theorie großer Abweichungen, siehe Abschnitt Satz
8.3 und Kapitel ?? unten.
Entropie und Kodierung
Wir betrachten nun eine Anwendung der Entropie auf die möglichst effiziente Beschreibung/Kodierung einer Zufallsfolge. Eine unbekannte Signalfolge mit Werten in einer endlichen Menge S
(dem zugrundeliegenden „Alphabet“) beschreibt man im einfachsten A-Priori-Modell durch unabhängige Zufallsvariablen X1 , X2 , ... mit Verteilung µ, wobei µ(x) die relative Häufigkeit des
Buchstabens x in der verwendeten Sprache ist. Eine „perfekte“ Kodierung ordnet jedem Wort mit
einer vorgegebenen Anzahl n von Buchstaben, also jedem Element des Produktraums S n , eine
Binärfolge zu. Will man alle Wörter mit n Buchstaben perfekt kodieren, werden n · log |S| Bits
benötigt. Wir betrachten stattdessen „effiziente“ Kodierungen, die nur den „meisten“ Wörtern mit
n Buchstaben eindeutig eine Binärfolge zuordnen.
Definition. Eine Folge von Mengen Bn ⊆ S n (n ∈ N) heißt wesentlich bzgl. µ, falls
P [(X1 , ..., Xn ) ∈ Bn ]
=
µn [Bn ]
→
1
für n → ∞.
Sn
1−1
{0, 1}k
Abbildung 7.5: Perfekte Kodierung
Universität Bonn
Wintersemester 2009/2010
246
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Sn
irgendwie
1−1
Bn
{0, 1}k
Abbildung 7.6: Effiziente Kodierung bzgl. einer Folge von wesentlichen Mengen Bn .
Korollar 7.16 (Maßkonzentrationssatz von McMillan). Für jedes ε > 0 ist die Folge
Bn := (x1 , ...xn ) ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε) ,
n ∈ N,
wesentlich bzgl. µ, und es gilt
|Bn | ≤ en(H(µ)+ε)
Beweis. Es gilt
Bn =
(x1 , ...xn ) ∈ S n
für alle n ∈ N.
H(µ) − ε ≤ − 1 log pn (x1 , ..., xn ) ≤ H(µ) + ε .
n
(7.4.4)
Da aus der fast sicheren Konvergenz von − n1 log pn (X1 , ..., Xn ) gegen die Entropie H(µ) die
stochastische Konvergenz folgt, ist die Folge Bn (n ∈ N) nach Satz 7.15 wesentlich bzgl. µ.
Zudem gilt wegen pn (x1 , ..., xn ) ≥ e−n(H(µ)+ε) für (x1 , . . . , xn ) ∈ Bn :
X
1 ≥ P [(X1 , ..., Xn ) ∈ Bn ] =
pn (x1 , ..., xn ) ≥ |Bn | · e−n(H(µ)+ε) ,
x∈Bn
also |Bn | ≤ en(H(µ)+ε)
Der Maßkonzentrationssatz zeigt, dass Folgen von wesentlichen Mengen existieren, die auf der
exponentiellen Skala nicht viel schneller als exp(n · H(µ)) wachsen.
Wie groß sind wesentliche Mengen mindestens? Für p ∈ (0, 1) sei
K(n, p) = inf {|An | |An ⊆ S n mit P [(X1 , ..., Xn ) ∈ An ] ≥ p}
die mindestens benötigte Anzahl von Wörtern, um den Text (X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p korrekt zu erfassen. Dann ist log2 K(n, p) die für eine korrekte binäre Kodierung von
(X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p mindestens benötigte Anzahl von Bits.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.4. ENTROPIE
247
Satz 7.17 (Quellenkodierungssatz von Shannon). Für alle p ∈ (0, 1) gilt:
1
log K(n, p) = H(µ), bzw.
n→∞ n
X
1
lim
log2 K(n, p) = H2 (µ) := −
µ(x) log2 µ(x).
n→∞ n
lim
x:µ(x)6=0
Insbesondere gilt: Ist An (n ∈ N) wesentlich bzgl. µ, so ist
1
log |An | ≥ H(µ).
n
Bemerkung. (1). Die Größe n1 log2 K(n, p) kann als die für eine mit Wahrscheinlichkeit ≥
lim inf
n→∞
p korrekte Kodierung benötigte Zahl von Bits pro gesendetem Buchstaben interpretiert
werden.
(2). Der Quellenkodierungssatz zeigt, dass es keine Folge von wesentlichen Mengen gibt, die
auf der exponentiellen Skala deutlich langsamer wächst als die im Maßkonzentrationssatz
konstruierten Folgen.
Beweis. Wir zeigen separat eine obere und eine untere Schranke für
1
n
log K(n, p):
Obere Schranke: lim sup n1 log K(n, p) ≤ H(µ):
n→∞
Zum Beweis sei ε > 0 gegeben. Nach Korollar 7.16 ist die Folge
Bn = x ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε)
wesentlich bzgl. µ, und
1
n
log |Bn | ≤ H(µ) + ε. Wegen
lim P [(X1 , ..., Xn ) ∈ Bn ]
=
n→∞
folgt
1
log K(n, p) ≤
n
n→∞
Die Behauptung ergibt sich für ε → 0.
lim sup
Untere Schranke: lim inf
n→∞
n
1
n
lim sup
n→∞
1
1
log |Bn |
n
>
p,
≤
(7.4.5)
H(µ) + ε.
log K(n, p) ≥ H(µ):
Seien An ⊆ S mit P [(X1 , ..., Xn ) ∈ An ] ≥ p. Dann gilt wegen (7.4.5) und (7.4.4) auch
p
≤
lim inf P [(X1 , ..., Xn ) ∈ An ∩ Bn ]
n→∞
≤
also für alle ε > 0
lim inf
n→∞
Für ε → 0 folgt
1
log |An |
n
≥
lim inf
n→∞
Universität Bonn
lim inf
n→∞
lim inf |An ∩ Bn | · e−n(H(µ)−ε) ,
n→∞
1
log |An ∩ Bn |
n
1
log |An |
n
≥
≥
H(µ) − ε.
H(µ).
Wintersemester 2009/2010
Kapitel 8
Grenzwertsätze
Sind Xi : Ω → R, i ∈ N, unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit Erwartungsn
P
Xi nach dem Gesetz der
wert m, dann konvergieren die Mittelwerte Snn der Summen Sn =
i=1
großen Zahlen für n → ∞ fast sicher gegen m. Wir wollen nun die Verteilung von Sn für große
n genauer untersuchen. Dabei unterscheidet man zwei unterschiedliche Arten von Aussagen:
• Zentrale Grenzwertsätze beschreiben „typische“ Fluktuationen um den Grenzwert aus dem
Gesetz der großen Zahlen, d.h. die asymptotische Form der Verteilung von Sn /n in Berei√
chen der Größenordnung O(1/ n) um den Erwartungswert m, siehe Abschnitt 8.4.
• Aussagen über große Abweichungen beschreiben asymptotisch die Wahrscheinlichkeiten
der seltenen Abweichungen der Größenordnung O(1) von Sn /n vom Erwartungswert m.
Diese Wahrscheinlichkeiten fallen unter geeigneten Voraussetzungen exponentiell ab, siehe
Abschnitt 8.2.
Mit dem Satz von de Moivre/Laplace bzw. der Bernsteinungleichung haben wir bereits entsprechende Aussagen kennengelernt, falls die Xi Bernoulli-verteilte Zufallsvariablen sind. In diesem Kapitel werden wir sehen, dass keine spezifische Form der Verteilung vorausgesetzt werden
muss, sondern die Aussagen ganz allgemein unter geeigneten Integrierbarkeitsbedingungen gelten.
Ein wichtiges Hilfsmittel zum Beweis allgemeiner Grenzwertsätze sind momentenerzeugende
und charakteristische Funktionen:
248
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
249
8.1 Charakteristische und Momentenerzeugende Funktionen
In diesem Abschnitt führen wir charakteristische und momentenerzeugende Funktionen von reellen Zufallsvariablen ein und beweisen einige grundlegende Aussagen über diese Funktionen.
Insbesondere zeigen wir, dass sich die Verteilung einer rellen Zufallsvariable eindeutig aus ihrer
charakteristischen Funktion rekonstruieren lässt.
Definition und Eigenschaften
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine reellwertige Zufallsvariable mit
Verteilung µ.
Definition. (1). Die Funktion M : R → (0, ∞],
M (t)
tX
:=
E[e ]
=
Z
etx µ(dx),
R
heißt momentenerzeugende Funktionen der Zufallsvariable X bzw. der Verteilung µ.
(2). Die Funktion φ : R → C,
φ(t)
:=
itX
E[e
]
=
Z
eitx µ(dx),
R
heißt charakteristische Funktion von X bzw. µ.
Da die Funktionen t 7→ etx und t 7→ eitx für t ∈ R nichtnegativ bzw. beschränkt sind, sind die Erwartungswerte definiert. Dabei wird der Erwartungswert einer komplexwertigen Zufallsvariable
separat für Real- und Imaginärteil berechnet.
Rechenregeln Die folgenden Rechenregeln ergeben sich unmittelbar aus der Definition:
(1). Sind X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ), dann gilt
MX+Y (t)
MX (t) · MY (t)
=
und
φX+Y (t)
=
φX (t) · φY (t)
φaX+b (t)
=
eibt · φX (at)
für alle t ∈ R.
(2). Für a, b ∈ R gilt
MaX+b (t)
=
ebt · MX (at)
und
für alle t ∈ R.
Universität Bonn
Wintersemester 2009/2010
250
KAPITEL 8. GRENZWERTSÄTZE
(3). Für momentenerzeugende bzw. charakteristische Funktionen gilt stets
Die Funktion φ(−t) =
R
M (0)
=
φ(0)
φ(−t)
=
φ(t)
=
1,
und
für alle t ∈ R.
e−itx µ(dx) ist die Fouriertransformation des Maßes µ. Ist µ absolutste-
tig bzgl. des Lebesguemaßes mit Dichte f , dann ist φ(−t) die Fouriertransformation der Funktion
f:
φ(t)
Z
=
e−itx f (x) dx
=
R
Entsprechend ist
M (−t)
=
Z
e−tx µ(dx)
fb(t).
(t > 0)
R
die Laplacetransformation des Maßes µ bzw. der Dichte f .
Bemerkung (Zusammenhang von M und φ). (1). Gilt M (s) < ∞ für ein s > 0 (bzw. ana-
log für ein s < 0), dann ist M auf dem Intervall [0, s] (bzw. [s, 0]) endlich, denn nach der
Jensenschen Ungleichung folgt:
M (t)
=
E[etX ]
≤
E[esX ]t/s
<
∞
für alle t ∈ [0, s] bzw. t ∈ [s, 0].
(2). Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist M analytisch fortsetzbar auf den Streifen
{z ∈ C : |Re(z)| < δ} in der komplexen Zahlenebene, und es gilt
φ(t)
=
für alle t ∈ R.
M (it)
Die letzte Bemerkung ermöglicht manchmal eine vereinfachte Berechnung der charakteristischen
Funktion.
Beispiel. (1). Für eine standardnormalverteilte Zufallsvariable Z gilt:
Z ∞
Z ∞
1
1
2
2
tx−x2 /2
t2 /2
√
MZ (t) = √
e
dx = e
e−(x−t) /2 dx = et /2 < ∞
2π −∞
2π −∞
für alle t ∈ R.
Also ist die charakteristische Funktion gegeben durch
φZ (t)
=
MZ (it)
Einführung in die Wahrscheinlichkeitstheorie
=
2 /2
e−t
für alle t ∈ R.
Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
251
(2). Eine normalverteilte Zufallsvariable X mit Mittel m und Varianz σ 2 können wir darstellen
als X = σZ + m mit Z ∼ N (0, 1). Also gilt:
σ 2 t2
MX (t) = e MZ (σt) = exp mt +
2
2 2
σ t
φX (t) = exp imt −
.
2
mt
,
Sind X1 , ..., Xn unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann erhalten wir:
n
Y
nσ 2 t2
φX1 +...+Xn (t) =
φXi (t) = exp inmt −
.
2
i=1
Da die rechte Seite die charakteristische Funktion von N (nm, nσ 2 ) ist, folgt nach dem
Fourierinversionssatz (s.u., Satz 8.2):
X1 + ... + Xn ∼ N (nm, nσ 2 ) .
(3). Die Binomialverteilung mit Parametern n und p ist die Verteilung der Summe
unabhängigen Bernoulli(p)-verteilten Zufallsvariablen Y1 , ..., Yn . Also sind
φ(t) =
n
Y
i=1
M (t) =
φYi (t) = 1 − p + peit
1 − p + pet
n
n
,
Pn
i=1
Yi von
und
die charakteristische und momentenerzeugende Funktion von Bin(n, p).
(4). Die Cauchyverteilung ist die absolutstetige Wahrscheinlichkeitsverteilung auf R mit
Dichte
f (x) =
1
π(1 + x2 )
(x ∈ R).
Für eine Cauchyverteilte Zufallsvariable X gilt MX (t) = ∞ für alle t 6= 0
(und sogar E[|X|n ] = ∞
∀n ∈ N).
Trotzdem existiert
φX (t) = e−|t|
für alle t ∈ R .
Die charakteristische Funktion ist allerdings bei 0 nicht differenzierbar.
Wir zeigen nun, daß sich die Momente E[X n ] einer Zufallsvariable X : Ω → R unter geeigne-
ten Voraussetzungen aus der momentenerzeugenden bzw. charakteristischen Funktion berechnen
lassen. Die nötigen Voraussetzungen sind allerdings im Fall der momentenerzeugenden Funktion
viel stärker:
Universität Bonn
Wintersemester 2009/2010
252
KAPITEL 8. GRENZWERTSÄTZE
Satz 8.1. (1). Ist M endlich auf (−δ, δ), δ > 0, dann gilt
zX
E[e
]
∞
X
zn
=
n=0
Insbesondere folgt
M (t)
n!
E[X n ]
∞
X
tn
=
n=0
und somit
n!
für alle z ∈ C mit |z| < δ.
E[X n ]
M (n) (0) = E[X n ]
für alle t ∈ (−δ, δ) ,
für alle n ≥ 0 .
(2). Ist E[|X|n ] < ∞ für ein n ∈ N, dann gilt φ ∈ C n (R) und
φ(n) (t)
Beweis.
in · E[X n eitX ]
=
für alle t ∈ R .
(8.1.1)
(1). Aus der Voraussetzung und dem Satz von der monotonen Konvergenz folgt für
s ∈ (0, δ):
∞
X
sn
n=0
n!
E[|X|n ]
=
E es|X|
≤
E esX + E e−sX
<
∞.
Insbesondere existieren alle Momente E[X n ], n ∈ N, sowie die exponentiellen Momente
E[ezX ] für z ∈ C mit |Re(z)| < δ. Nach dem Satz von Lebesgue erhalten wir für diese z
zudem
∞
X
zn
n=0
n!
E[X n ] = lim E
m→∞
"
m
X
(zX)n
n!
n=0
#
=E
"
lim
m→∞
da es|X| für s ≥ |z| eine Majorante der Partialsummen ist.
m
X
(zX)n
n=0
n!
#
= E[ezX ] ,
(2). Wir zeigen die Behauptung durch Induktion nach n. Für n = 0 gilt (8.1.1) nach Definition
von φ(t). Ist E[|X|n+1 ] < ∞, dann folgt nach Induktionsvoraussetzung und mit dem Satz
von Lebesgue:
1 φ(n) (t + h) − φ(n) (t)
=
E (iX)n ei(t+h)X − eitX
h
h
Z t+h
isX
n1
iXe ds
= E (iX)
h t
für h → 0, also
φn+1 (t)
=
→
E (iX)n+1 eitX
E[(iX)n+1 · eitX ].
Die Stetigkeit der rechten Seite in t folgt ebenfalls aus dem Satz von Lebesgue und der
Voraussetzung E[|X|n+1 ] < ∞.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
1/2
Beispiel. Für eine Zufallsvariable X mit Dichte fX (x) = const. · e−|x|
253
gilt E[|X|n ] < ∞ für
alle n ∈ N. Also ist die charakteristische Funktion beliebig oft differenzierbar. Die momentener-
zeugende Funktion M (t) = E[etX ] ist hingegen nur für t = 0 endlich.
Bemerkung (Satz von Bochner). Eine Funktion φ : R → C ist genau dann eine charakteristi-
sche Funktion einer Wahrscheinlichkeitsverteilung auf R, wenn gilt:
(1). φ(0) = 1 und |φ(t)| ≤ 1 für alle t ∈ R.
(2). φ ist gleichmäßig stetig.
(3). φ ist nicht negativ definit, d.h.
n
X
i,j=1
φ(ti − tj )zi zj ≥ 0 ∀n ∈ N, t1 , ..., tn ∈ R, z1 , ..., zn ∈ C.
Dass jede charakteristische Funktion einer Wahrscheinlichkeitsverteilung die Eigenschaften (1)(3) hat, prüft man leicht nach (Übung). Der Beweis der umgekehrten Aussage findet sich z.B. in
Vol. II des Lehrbuchs von Feller.
Inversion der Fouriertransformation
Die folgende zentrale Aussage zeigt, dass eine Wahrscheinlichkeitsverteilung eindeutig durch ihre charakteristische Funktion φ festgelegt ist, und liefert eine explizite Formel zur Rekonstruktion
der Verteilung aus φ:
Satz 8.2 (Lévys Inversionsformel). Sei φ die charakteristische Funktion einer Zufallsvariable
X mit Verteilung µ. Dann gilt:
(1).
Z T −ita
1
1
1
e
− e−itb
µ[{a}] + µ[(a, b)] + µ[{b}] =
lim
φ(t) dt
2
2
2π T →∞ −T
it
R∞
(2). Gilt −∞ |φ(t)| dt < ∞, dann ist µ absolutstetig mit stetiger Dichte
Z ∞
1
f (x) =
e−itx φ(t) dt.
2π −∞
∀a<b.
Bemerkung. (1). Die Verteilung µ ist durch (1) eindeutig festgelegt, denn für c, d ∈ R mit
c < d gilt:
1
1
µ[{a}] + µ[(a, b)] + µ[{b}]
2
2
für a ց c und b ր d.
Universität Bonn
=
i
h
i
1 h
µ [a, b] + µ (a, b)
2
→
µ[(c, d)] ,
Wintersemester 2009/2010
254
KAPITEL 8. GRENZWERTSÄTZE
(2). Ist die Verteilung µ absolutstetig mit quadratintegrierbarer Dichte f , dann ist auch die
entsprechende charakteristische Funktion
φ(t)
Z∞
=
eitx f (x) dx
−∞
quadratintegrierbar. Die Aussage (2) aus Satz 8.2 ist in diesem Fall die klassische Fourierinversionsformel der Analysis, siehe z.B. Forster „Analysis 3“.
Im Beweis der Inversionsformel verwenden wir den Satz von Fubini, der besagt, dass wir die
Integrationsreihenfolge in Doppelintegralen vertauschen dürfen, wenn der Integrand produktintegrierbar ist. Für den Beweis des Satzes von Fubini verweisen wir auf die Analysisvorlesung
oder Abschnitt 9.1.
von Satz 8.2.
(1). Sei T > 0 und a < b. Nach dem Satz von Fubini können wir die Integrati-
onsreihenfolge in dem folgendem Doppelintegral vertauschen, und erhalten:
Z T −ita
Z Z T it(x−a)
1
1
e
− e−itb
e
− eit(x−b)
φ(t) dt =
dt µ(dx) (8.1.2)
|{z}
2π −T
it
π
2it
−T
R
{z
}
|
= eitx µ(dx)
=: g(T,x)
Dabei haben wir benutzt, dass der Integrand produktintegrierbar ist, da aus der LipschitzStetigkeit der Abbildung y 7→ eiy mit Konstante L = 1 folgt, dass
it(x−a)
it(x−b) e
−
e
≤ |t · (x − a) − t · (x − b)| = |a − b|
it
|t|
gilt.
Weiterhin erhalten wir, wegen eit(x−a) = cos(t·(x−a))+i sin(t·(x−a)), cos(x) = cos(−x)
und sin(x) = − sin(−x):
Z
Z T
sin(t · (x − a))
sin(t · (x − b))
g(T, x) =
dt −
dt
t
t
0
0
Z T ·(x−b)
Z T ·(x−a)
sin u
sin u
du −
du
=
u
u
0
0
= S(T · (x − a)) − S(T · (x − b))
T
wobei
Z
t
sin u
du
u
0
der Integralsinus ist. Mithilfe des Residuensatzes (siehe Funktionentheorie) zeigt man:
S(t) :=
lim S(t)
t→∞
=
π
2
Einführung in die Wahrscheinlichkeitstheorie
,
lim S(t)
t→−∞
=
−
π
.
2
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
255
Damit erhalten wir:
π
π
π
sgn(x − a) − sgn(x − b) = π · I(a,b) (x) + · I{a,b} (x) ,
T →∞
2
2
2
wobei wir sgn(0) := 0 setzen. Da S beschränkt ist, ist auch g(T, x) beschränkt in T und x.
lim g(T, x) =
Nach dem Satz von Lebesgue folgt daher aus (8.1.2) für T → ∞
Z T −ita
Z
1
1
e
− e−itb
φ(t) dt =
g(T, x) µ(dx)
2π −T
it
π
T →∞
−→
µ[(a, b)] +
1
µ[{a, b}] .
2
(2). Ist φ integrierbar, dann ist die Funktion (t, x) 7→ e−itx φ(t) produktintegrierbar auf
[a, b] × R für alle −∞ < a < b < ∞. Also ist die Funktion
Z ∞
1
f (x) :=
e−itx φ(t) dt
2π −∞
integrierbar auf [a, b], und es gilt nach dem Satz von Fubini und (1):
Z ∞
Z b
Z b
1
1
(1) 1
µ[{a}] + µ[(a, b)] + µ[{b}] .
φ(t)
e−itx dx dt =
f (x) dx =
2π −∞
2
2
a
| a {z
}
=
Insbesondere folgt
Z
e−ita −e−itb
it
b−ε
a+ε
f (x) dx ≤ µ [(a, b)] ≤
also für ε ց 0:
µ[(a, b)] =
Z
Z
a
b
f (x) dx ∀ ε > 0,
b
f (x) dx .
a
8.2 Erste Anwendungen auf Grenzwertsätze
Charakteristische und momentenerzeugende Funktionen werden häufig beim Beweis von Grenzwertsätzen der Wahrscheinlichkeitstheorie vewendet. Wir skizzieren an dieser Stelle schon einmal die Anwendung charakteristischer Funktionen zum Beweis des zentralen Grenzwertsatzes
und zeigen anschließend, wie obere Schranken für die Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen mithilfe momentenerzeugender Funktionen hergeleitet werden können. Der detaillierte Beweis des zentralen Grenzwertsatzes wird dann nach weiteren Vorbereitungen in Abschnitt 8.3 ausgeführt. Die Analyse der Asymptotik der Wahrscheinlichkeiten
großer Abweichungen auf der exponentiellen Skala werden wir in Kapitel ?? durch den Beweis
einer unteren Schranke vervollständigen.
Universität Bonn
Wintersemester 2009/2010
256
KAPITEL 8. GRENZWERTSÄTZE
Zentraler Grenzwertsatz
Seien X1 , X2 , ... ∈ L 2 (Ω, A, P ) unabhängige und identisch verteilte Zufallsvariablen mit E[Xi ] =
0 für alle i, und sei Sn = X1 + ... + Xn . Nach dem Gesetz der großen Zahlen gilt:
Sn
n
→
0
P -fast sicher.
Wie sieht die Verteilung von Sn für große n aus?
Um eine asymptotische Darstellung zu erhalten, reskalieren wir zunächst so, dass die Varianz
konstant ist. Es gilt
Var[Sn ] = n · Var[X1 ],
also ist
Sn
1
Var √ = · Var[Sn ] = Var[X1 ] =: σ 2
n
n
unabhängig von n.
Um die Asymptotik der Verteilungen der entsprechend standardisierten Summen
Sn
√
n
zu bestim-
men, betrachten wir die charakteristischen Funktionen. Da die Summanden Xi unabhängig und
identisch verteilt sind, erhalten wir
φ √Sn (t) = φSn
n
t
√
n
n
t
= φX1 √
.
n
Xi iid
Wegen X1 ∈ L 2 (Ω, A, P ) ist φX1 zweimal stetig differenzierbar, und die Taylorentwicklung bei
t = 0 ist gegeben durch
φX1 (t)
=
1 + i · E[X1 ] · t −
1
E[X12 ] · t2 + o(t2 )
2
=
1
1 − σ 2 t2 + o(t2 ).
2
Damit folgt:
2 n
σ 2 t2
t
1−
φ √Sn (t) =
+o
n
2n
n
2 2
σ t
nր∞
= φN (0,σ2 ) (t)
−→ exp −
2
∀ t ∈ R.
Wir werden im nächsten Abschnitt zeigen, dass aus der Konvergenz der charakteristischen Funktionen unter geeigneten Voraussetzungen die schwache Konvergenz (Definition s.u.) der Verteilungen folgt. Somit ergibt sich:
Sn
konvergiert schwach
Zentraler Grenzwertsatz: Die Verteilung der standardisierten Summen √
n
gegen die Normalverteilung N (0, σ 2 ).
Den detaillierten Beweis werden wir in Abschnitt 8.3 führen. Der zentrale Grenzwertsatz erklärt,
warum die Normalverteilungen in der Stochastik von so großer Bedeutung sind:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
257
Bemerkung (Universalität der Normalverteilung). Die Limesverteilung im zentralen Grenzwertsatz ist unabhängig von der Verteilung von X1 , vorausgesetzt, es gilt X1 ∈ L 2 (Ω, A, P ).
Große Abweichungen vom Gesetz der großen Zahlen
Seien X1 , X2 , ... ∈ L 1 (Ω, A, P ) i.i.d. Zufallsvariablen mit Erwartungswert m und momentener-
zeugender Funktion
M (t) = E[etX1 ] ,
und sei Sn = X1 + ... + Xn .
Der folgende Satz verschärft die nicht-asymptotische obere Schranke für große Abweichungen
vom Gesetz der großen Zahlen aus der Bernstein-Ungleichung (Satz 2.6), und verallgemeinert
diese auf nicht Bernoulliverteilte Zufallsvariablen.
Satz 8.3 (Chernoff). Für alle n ∈ N und a ∈ R gilt:
Sn
P
≥ a ≤ e−nI(a)
n
Sn
P
≤ a ≤ e−nI(a)
n
falls a ≥ m, bzw.
falls a ≤ m,
wobei die exponentielle Abfallrate I(a) gegeben ist durch
I(a) = sup (at − log M (t)).
t∈R
Beweis. Wir zeigen diese Aussage im Fall a ≥ m – der Beweis für a ≤ m verläuft analog. Der
Beweis erfolt in drei Schritten:
(1). Zentrieren:Wir können o.B.d.A. m = 0 annehmen. Andernfalls betrachten wir die zentrierten Zufallsvariablen X̃i = Xi − E[Xi ], die wieder unabhängig und identisch verteilt sind.
Man überzeugt sich leicht, dass aus der Behauptung für X̃i die Behauptung für Xi folgt
(Übung).
(2). Exponentielle Markovungleichung: Für alle t ≥ 0 gilt:
Sn
≥a
P
n
=
Xi iid
=
Universität Bonn
P [Sn ≥ na]
e−tna E[etX1 ]n
e−tna E[etSn ]
≤
=
e−(at−log M (t))·n .
Wintersemester 2009/2010
258
KAPITEL 8. GRENZWERTSÄTZE
(3). Optimieren der Abschätzung: Bilden wir das Infimum der für verschiedene t ≥ 0 erhaltenen Abschätzungen, dann ergibt sich:
Sn
P
≥a
≤ inf e−(at−log M (t))·n
t≥0
n
=
e− supt≥0 (at−log M (t))·n .
Es bleibt zu zeigen, daß
sup (at − log M (t))
=
t≥0
sup (at − log M (t))
=
I(a).
t∈R
Dies ist in der Tat der Fall, denn für t < 0 und a ≥ 0 gilt nach der Jensenschen Ungleichung
und der Voraussetzung m = 0:
at − log M (t) ≤ − log E[etX1 ]
= −tm
=
0
≤
=
−E[log etX1 ]
a · 0 − log M (0).
Bemerkung (Kumulantenerzeugende Funktion, Legendretransformation). (1). Die Funktion Λ(t) := log M (t) heißt logarithmische momentenerzeugende oder kumulantenerzeugende Funktion von X1 . Diese Funktion hat u.a. folgende Eigenschaften:
(a) Λ ist konvex und unterhalbstetig, d.h. lim inf Λ(s) ≥ Λ(t)
s→t
für alle t ∈ R.
(b) Λ(0) = 0.
(c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist
M ′ (0)
= m, und
M (0)
M ′′ (0) M ′ (0)2
Λ′′ (0) =
−
=
M (0)
M (0)2
Λ′ (0) =
E[X12 ] − E[X1 ]2
=
Var[X1 ].
Die höheren Ableitungen von Λ heißen Kumulanten von X1 .
(2). Die Ratenfunktion I ist die Legendre-Transformation von Λ:
I(a) = sup fa (t)
t∈R
mit
fa (t) = at − Λ(t),
d.h. I(a) ist der negative Achsenabschnitt der (eindeutigen) Tangente an den Graphen von
Λ mit Steigung a (wobei I(a) = ∞, falls keine solche Tangente existiert).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
259
4
log M (t)
I(a)
3
2
1
−1
1
2
3
t
−1
−2
−I(a)
Abbildung 8.1: Geometrische Darstellung der Ratenfunktion I(a) als negativer Achsenabschnitt
der eindeutigen Tangente mit Steigung a (rot) an die Kumulantenerzeugende Funktion (blau)
Wichtige Eigenschaften der Ratenfunktion sind:
(a) I ist wieder konvex und unterhalbstetig.
(b) I(a) ≥ fa (0) = 0
∀a ∈ R.
(c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist fa ∈ C ∞ (−δ, δ) mit fa (0) = 0
und fa′ (0) = a − m. Also folgt:
I(a)
=
sup fa
>
0
∀ a 6= m.
Unter der Voraussetzung der letzten Bemerkung (c) ist die exponentielle Abfallrate strikt positiv, d.h. es ergibt sich ein exponentieller Abfall der Wahrscheinlichkeiten großer Abweichungen!
Sind die Zufallsvariablen Xi nicht exponentiell integrierbar, dann kann es auch passieren, daß
I(a) = 0 für a 6= m. Die Wahrscheinlichkeiten großer Abweichungen fallen in diesem Fall lang-
samer als exponentiell ab, denn es gilt auch eine asymptotische untere Schranke mit derselben
Ratenfunktion I, siehe Satz ?? unten.
Universität Bonn
Wintersemester 2009/2010
260
KAPITEL 8. GRENZWERTSÄTZE
Beispiel. Für konkrete Verteilungen der Zufallsvariablen Xi kann man die Kumulantenerzeugende Funktion Λ und die Ratenfunktion I häufig explizit berechnen:
(1). Für normalverteilte Zufallsvariablen Xi ∼ N (m, σ 2 ) gilt I(a) =
Sn
≥a
P
n
≤ e−
(a−m)2 n
2σ 2
(a−m)2
,
2σ 2
also
für alle a ≥ m.
Die Ratenfunktion hat eine Nullstelle beim Erwartungswert m, da die Mittelwert Sn /n
gegen diese konvergieren. Jenseits von m fallen die Wahrscheinlichkeiten exponentiell ab,
und zwar mit einer Rate die quadratisch wächst.
6
5
4
3
2
1
−2
−1
1
2
3
4
Abbildung 8.2: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einer N (1, 1)-verteilten Zufallsvariable
(2). Für Xi ∼ Exp(λ) gilt

λa − 1 − log(λa) für a > 0
I(a) =
.
∞
für a ≤ 0
In diesem Fall hat die Ratenfunktion eine Nullstelle beim Erwartungswert 1/λ. Da nicht
positive Werte mit Wahrscheinlichkeit 1 nicht auftreten, hat die Ratenfunktion auf dem
Intervall (−∞, 0] den Wert +∞.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
261
8
7
6
5
4
3
2
1
1
2
3
4
5
6
Abbildung 8.3: Legendre-Transformierte der logarithmischen momentenerzeugenden Funktion
einer Exp(2)-verteilten Zufallsvariable
(3). Für Xi ∼ Bernoulli(p) erhält man
a
1−a
I(a) = a log
+ (1 − a) log
p
1−p
für a ∈ (0, 1).
1
1
Abbildung 8.4: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einer Bernoulli(1/2)-verteilten Zufallsvariable
Wegen I(a) ≥ 2(a − p)2 verschärft die Abschätzung aus dem Satz von Chernoff in diesem
Fall die in Satz 2.6 hergeleitete obere Schranke
Sn
2
P
≥ a ≤ e−2(a−p) n
n
für a ≥ p.
Wir werden später sehen, daß I(a) sich als relative Entropie der Bernoulli(a)-Verteilung
bzgl. der Bernoulli (p)-Verteilung interpretieren läßt.
Universität Bonn
Wintersemester 2009/2010
262
KAPITEL 8. GRENZWERTSÄTZE
Beispiel (Ehrenfestmodell im Gleichgewicht). Es befinden sich n = 1023 Moleküle in einem
Gefäß. Jedes Molekül sei mit Wahrscheinlichkeit 12 in der linken bzw. rechten Hälfte. Seien Xi
(1 ≤ i ≤ n) Bernoulli 21 -verteilte unabhängige Zufallsvariablen, wobei Xi = 1 dafür steht,
daß sich das i-te Molekül in der linken Hälfte befindet. Der Anteil Sn /n der Moleküle in dieser
Hälfte konvergiert nach dem Gesetz der großen Zahlen fast sicher gegen 1/2.
Wie groß ist p := P Snn ≥ 21 + 10−10 ?
Eine Abschätzung mit der Čebyšev-Ungleichung liefert:
p
≤
Sn
10 · Var
n
20
=
1
· 10−3
4
=
1
.
4000
Durch Anwenden der exponentiellen Abschätzung erhält man dagegen die viel präzisere Aussage
≤
p
e−2n(10
−10 )2
=
e−2000 .
Eine Abweichung von der Größenordnung 10−10 vom Mittelwert ist also praktisch unmöglich !
Die makroskopische Größe Sn /n ist daher de facto deterministisch.
8.3
Verteilungskonvergenz
Sei S ein metrischer Raum mit Borelscher σ-Algebra B(S), zum Beispiel S = R oder S = Rd .
Wir wollen nun einen für den zentralen Grenzwertsatz angemessenen Konvergenzbegriff für die
Verteilungen µn einer Folge Yn von Zufallsvariablen mit Werten in S einführen. Naheliegend
wäre es zu definieren, dass eine Folge µn von Wahrscheinlichkeitsverteilungen auf (S, B(S))
gegen eine Wahrscheinlichkeitsverteilung µ konvergiert, wenn µ[A] = lim µn [A] für jede Menge
A ∈ B(S) gilt. Ein solcher Konvergenzbegriff erweist sich jedoch sofort als zu restriktiv, z.B.
würde eine Folge von diskreten Wahrscheinlichkeitsverteilungen in diesem Sinne niemals gegen
eine Normalverteilung konvergieren. Einen angemesseneren Grenzwertbegriff erhält man durch
Berücksichtigung der Topologie auf S:
Definition. (1). Schwache Konvergenz von Wahrscheinlichkeitsverteilungen: Eine Folge (µn )n∈N
von Wahrscheinlichkeitsverteilungen auf S (mit Borelscher σ-Algebra) konvergiert schwach
w
gegen eine Wahrscheinlichkeitsverteilung µ auf S (µn → µ), falls
Z
f dµn
−→
Z
f dµ
für alle stetigen, beschränkten f : S → R gilt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
263
(2). Konvergenz in Verteilung von Zufallsvariablen: Eine Folge (Yn )n∈N von Zufallsvariablen
mit Werten in S konvergiert in Verteilung gegen eine Zufallsvariable Y bzw. gegen die
Verteilung von Y , falls
Verteilung(Yn )
w
−→
Verteilung(Y ),
d.h. falls
E[f (Yn )]
−→
E[f (Y )]
für alle f ∈ Cb (S) gilt.
Konvergenz in Verteilung bezeichnet man auf Englisch als „convergence in distribution“ oder
D
L
„convergence in law.“ Entsprechend verwendet man die Kurzschreibweisen Yn → Y oder Yn →
Y , falls Yn in Verteilung gegen Y konvergiert.
Beachte: Die Zufallsvariablen Yn , n ∈ N, und Y können bei der Verteilungskonvergenz auf
verschiedenen Wahrscheinlichkeitsräumen definiert sein!
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen
Um den Begriff der schwachen Konvergenz besser zu erfassen, beginnen wir mit einigen Bemerkungen und Beispielen:
Bemerkung. (1). Die hier definierte Form der schwachen Konvergenz entspricht nicht der im
funktionalanalytischen Sinn definierten schwachen Konvergenz auf dem Vektorraum aller beschränkten signierten Maße auf (S, B(S)), sondern einer schwach∗-Konvergenz auf
diesem Raum, siehe z.B. A LT: L INEARE F UNKTIONALANALYSIS.
(2). Wir werden in Satz 8.5 zeigen, dass im Fall S = R die Folge µn genau dann schwach
gegen µ konvergiert, wenn für die Verteilungsfunktionen
Fµn (x)
−→
Fµ (x)
für alle Stetigkeitsstellen x von F ,
d.h. für alle x ∈ R mit µ[{x}] = 0, gilt.
Neben schwacher Konvergenz betrachtet man häufig u.a. auch die folgenden Konvergenzarten
auf positiven bzw. beschränkten signierten Maßen:
• Vage Konvergenz: µn konvergiert vage gegen µ, falls
Z
Z
f dµn −→
f dµ
für alle stetigen Funktionen f mit kompaktem Träger gilt.
Universität Bonn
Wintersemester 2009/2010
264
KAPITEL 8. GRENZWERTSÄTZE
• Konvergenz in Variationsdistanz: µn konvergiert µ in Variationsdistanz, falls
kµ − µn kTV
:=
Z
Z
1
f dµ − f dµn sup
2 f :S→R messbar
−→
0.
mit |f | ≤ 1
Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen läßt sich auch wie folgt darstellen:
kµ − νkTV
sup |µ[A] − ν[A]|.
=
A∈S
Im diskreten Fall gilt
kµ − νkTV
=
1X
|µ[{x}] − ν[{x}]| .
2 x∈S
Diesen Abstandsbegriff haben wir bereits in Abschnitt 3.5 bei der Konvergenz ins Gleichgewicht von Markovketten verwendet.
Offensichtlich folgt aus der Konvergenz in Variationsdistanz die schwache Konvergenz, aus der
wiederum die vage Konvergenz folgt:
kµn − µkTV → 0
w
µn → µ
=⇒
µn → µ
=⇒
vage.
Die folgenden Beispiele verdeutlichen die unterschiedlichen Konvergenzbegriffe:
w
Beispiel. (1). Diracmaße: Für x, xn ∈ S (n ∈ N) mit xn → x gilt δxn → δx .
Beweis:
Z
f dδxn
=
f (xn )
→
f (x)
=
Z
f dδx
für alle f ∈ Cb (R).
Alternativer Beweis im Fall S = R:
Fδxn (c)
=
I[xn ,∞) (c)
n→∞
→
I[x,∞) (c)
=
Fδx (c)
für alle c 6= x,
d.h. für alle Stetigkeitsstellen von Fδx .
In diesem Beispiel gilt i.A. keine Konvergenz in Variationsnorm, denn kδxn − δx kTV = 1
für xn 6= x.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
265
(2). Degeneration/Diracfolge: Auf S = R1 konvergiert die Folge µn := N (0, n1 ) von Normalverteilungen mit degenerierender Varianz schwach gegen das Diracmaß δ0 , denn mit dem
Satz von Lebesgue folgt für f ∈ Cb (R)
Z
Z
x2
1
f dµn
=
f (x) p
e− 2/n dx
2π/n
Z
√
y2
1
y
y= nx
√ e− 2 dy
=
f √
n
2π
Z
y2
1
Lebesgue
√ e− 2 dy
−→ f (0) ·
2π
|
{z
}
=1
Z
=
f dδ0 .
3
2
1
−3
−2
−1
1
2
3
Abbildung 8.5: Schwache Konvergenz der Normalverteilungen N (0, 1/n) gegen δ0 .
(3). Schwache vs. vage Konvergenz: Die Folge µn = N (0, n) konvergiert vage gegen das
Nullmaß µ mit µ[A] = 0 für alle A. In der Tat gilt für f ∈ C(R) mit f (x) = 0 für
x 6∈ [−K, K]:
Z
f dµn =
K
Z
1
2 /2n
−x
f (x) · √
e
dx
2πn
−K
Es gilt aber keine schwache Konvergenz, da
Z
1 dµn = µn [R]
Universität Bonn
≤
=
1
2K
√
· sup |f |
2πn
6→
n→∞
−→
0.
0.
Wintersemester 2009/2010
266
KAPITEL 8. GRENZWERTSÄTZE
Die Masse wandert in diesem Fall ins Unendliche ab.
−8
−7
−6
−5
−4
−3
−2
−1
1
2
3
4
5
6
7
Abbildung 8.6: Konvergenz der Dichten der Normalverteilungen N (0, n) gegen die Nullfunktion.
(4). Wartezeiten: Die Wartezeit Tp auf den ersten Erfolg bei unabhängigen Ereignissen mit
Erfolgswahrscheinlichkeit p ∈ (0, 1) ist geometrisch verteilt:
P [Tp > k]
=
(1 − p)k
für alle k ∈ N.
Sei nun eine Intensität λ > 0 gegeben. Um kontinuierliche Wartezeiten zu approximieren,
betrachten wir unabhängige Ereignisse, die zu den Zeitpunkten i/n, n ∈ N, mit Wahr-
scheinlichkeit λ/n stattfinden. Dann ist n1 Tλ/n die Wartezeit bis zum ersten Eintreten eines
Ereignisses. Für n → ∞ gilt:
⌊nx⌋
h
i
1
λ
P
T λ > x = P T λ > nx = 1 −
n
n n
n
nր∞
−→ e−λx
∀x ≥ 0.
Also konvergiert die Verteilung von n1 Tλ/n schwach gegen die Exponentialverteilung mit
Parameter λ. Konvergenz in Variationsdistanz gilt nicht, da die approximierenden Verteilungen diskret, und die Grenzverteilungen stetig sind.
(5). Diskrete Approximation von Wahrscheinlichkeitsverteilungen: Allgemeiner können wir
eine gegebene Wahrscheinlichkeitsverteilung auf verschiedene Arten durch diskrete Wahrscheinlichkeitsverteilungen, also Konvexkombinationen von Diracmaßen approximieren:
(a) Klassische numerische Approximation: Sei µ eine absolutstetige Wahrscheinlichkeitsverteilung auf [0, 1] mit Dichtefunktion proportional zu g(x), und sei
µn
:=
n
X
wn(i) δ i ,
n
i=1
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8
8.3. VERTEILUNGSKONVERGENZ
267
mit
wn(i)
=
g( ni )
.
n
P
j
g( n )
j=1
Dann konvergiert µn schwach gegen µ, denn
Pn
Z
n
1
i
i
X
g
f
i
i=1
(i)
= n 1 Pn n i n
f dµn =
wn f
n
i=1 g n
n
i=1
R1
Z
f g dx
nր∞
=
f dµ
∀ f ∈ C([0, 1]).
−→ R0 1
g dx
0
g(x)
1
1
n
2
n
...
n−1
n
1
Abbildung 8.7: Stützstellen und Gewichte einer deterministischen Approximation von µ.
(i)
Die Stützstellen i/n und die Gewichte wn können natürlich auch auf andere Art
gewählt werden, z.B. kann die hier verwendete naive Approximation des Integrals
durch eine andere deterministische Quadraturformel ersetzt werden.
(b) Monte-Carlo-Approximation: Sei (S, S, µ) ein beliebiger Wahrscheinlichkeitsraum.
Sind X1 , X2 , ... : Ω → S unabhängige Zufallsvariablen auf (Ω, A, P ) mit Verteilung
µ, dann konvergieren die empirischen Verteilungen
Universität Bonn
µ
bn (ω, •)
:=
n
1 X
δXi (ω)
n i=1
Wintersemester 2009/2010
268
KAPITEL 8. GRENZWERTSÄTZE
P -f.s. schwach gegen µ, denn für f ∈ Cb (S) gilt nach dem starken Gesetz großer
Zahlen für P -fast alle ω
Z
f db
µn (ω, •) =
n
1 X
f (Xi (ω))
n i=1 | {z }
GdgZ
−→
E[f (X1 )]
iid,
beschränkt
=
Z
f dµ.
Konvergenz der Verteilungen von Zufallsvariablen
Im Gegensatz zu anderen Konvergenzbegriffen für eine Folge (Yn )n∈N von Zufallsvariablen bezieht sich die Verteilungskonvergenz nur auf die Verteilungen der Yn . Insbesondere können die
Zufallsvariablen Yn und der Grenzwert Y alle auf unterschiedlichen Wahrscheinlichkeitsräumen
definiert sein. Wir untersuchen nun den Zusammenhang der schwachen Konvergenz der Verteilungen mit anderen Konvergenzarten in dem Fall, dass Yn (n ∈ N) und Y reellwertige Zufallsvariablen sind, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind.
Satz 8.4. Konvergiert Yn P -fast sicher oder P -stochastisch gegen Y , dann konvergiert Yn auch
in Verteilung gegen Y .
Beweis. Sei f ∈ Cb (R). Konvergiert Yn fast sicher gegen Y , dann konvergiert auch f (Yn ) fast
sicher gegen f (Y ). Nach dem Satz von Lebesgue folgt
E[f (Yn )]
−→
E[f (Y )].
Konvergiert Yn nur stochastisch gegen Y , dann hat jede Teilfolge (Ynk )k∈N von (Yn )n∈N eine fast
sicher gegen Y konvergente Teilfolge (Ynkl )l∈N . Wie zuvor folgt
E[f (Ynkl )]
−→
E[f (Y )].
Also hat jede Teilfolge der Folge (E[f (Yn )])n∈N der Erwartungswerte eine gegen E[f (Y )] konvergente Teilfolge, d.h. es gilt erneut
E[f (Yn )]
−→
E[f (Y )].
Wir beweisen nun eine partielle Umkehrung der Aussage aus Satz 8.4:
Satz 8.5 (Skorokhod - Darstellung und Charakterisierung der schwachen Konvergenz).
Seien µn , µ Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit Verteilungsfunktionen Fn bzw. F .
Dann sind äquivalent:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
269
(1). Die Folge (µn )n∈N konvergiert schwach gegen µ.
(2). Fn (c) → F (c) für alle Stetigkeitsstellen c von F .
(3). Es existieren Zufallsvariablen Gn , G auf
(Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) )
mit Verteilungen µn bzw. µ, sodass Gn → G P -fast sicher.
Beweis. „(3) ⇒ (1)“ folgt aus Satz 8.4.
„(1) ⇒ (2)“: Für c ∈ R gilt:
Z
Fn (c) =
I(−∞,c] dµn
und
F (c)
=
Z
I(−∞,c] dµ.
(8.3.1)
Sei ε > 0. Wir definieren stetige Approximationen der Indikatorfunktion I(−∞,c] durch




1
für
x
≤
c
−
ε
1
für x ≤ c






fε (x) =
, und
gε (x) =
.
0
für x ≥ c
0
für x ≥ c + ε






 c−x für x ∈ [(c − ε, c)
 c+ε−x für x ∈ (c, c + ε)
ε
ε
1
gε
fε
c
c−ε
c+ε
Abbildung 8.8: Stetige Approximationen von I(−∞,c] .
Es gilt
I(−∞,c−ε]
≤
fε
≤
I(−∞,c]
≤
gε
≤
I(−∞,c+ε] .
Konvergiert µn schwach gegen µ, dann folgt nach (8.3.1) und (8.3.2):
Z
Z
lim inf Fn (c) ≥ lim inf fε dµn =
fε dµ ≥ F (c − ε),
Z
Z
lim sup Fn (c) ≤ lim sup gε dµn =
gε dµ ≤ F (c + ε).
(8.3.2)
und
Für ε ց 0 erhalten wir
lim sup Fn (c)
Universität Bonn
≤
F (c)
=
lim F (c + ε),
εց0
Wintersemester 2009/2010
270
KAPITEL 8. GRENZWERTSÄTZE
und
≥
lim inf Fn (c)
F (c)
=
lim F (c − ε),
εց0
falls F bei c stetig ist.
„(2) ⇒ (3)“: Für u ∈ (0, 1) betrachten wir die minimalen und maximalen u-Quantile
G(u) := inf{x ∈ R | F (x) ≥ u},
G(u) := inf{x ∈ R | F (x) > u}
und
der Verteilung µ, siehe Abschnitt 4.4. Entsprechend seien Gn und Gn die minimalen und maximalen u-Quantile der Verteilung µn . Analog zum Beweis von Satz 4.20 zeigt man, dass G und
G bzw. Gn und Gn unter der Gleichverteilung P = U(0,1) Zufallsvariablen mit Verteilung µ bzw.
µn sind. Wir zeigen nun, dass aus (2) folgt:
Behauptung: Gn → G P -fast sicher und Gn → G P -fast sicher.
Damit ist dann die Implikation „(2) ⇒ (3)“ bewiesen. Den Beweis der Behauptung führen wir in
mehreren Schritten durch:
(a) Offensichtlich gilt G ≤ G, und Gn ≤ Gn für alle n ∈ N.
(b) G = G und Gn = Gn P -fast sicher, denn:
P [G 6= G]
≤
X
c∈Q
P [{G ≤ c} \ {G ≤ c}]
=
≤
=
c∈Q
G(u),
=
P
[
c∈Q
=F (c)
=
0.
=F (c)
lim inf Gn (u)
und
#
{G ≤ c < G}
X
(P [{G ≤ c}] − P [{G ≤ c}])
{z
} |
{z
}
|
(c) Wir zeigen nun:
lim sup Gn (u)
P [G < G]
"
≥
G(u).
(8.3.3)
Zum Beweis der ersten aussage genügt es zu zeigen, dass
lim sup Gn (u)
≤
c
für alle c > G(u)
mit µ[{c}] = 0
(8.3.4)
gilt, denn es existieren höchstens abzählbar viele c mit µ[{c}] 6= 0. Für c > G(u) mit
µ[{c}] = 0 gilt aber nach Definition von G und nach (2):
u
<
F (c)
=
lim Fn (c),
n→∞
also existiert ein n0 ∈ N mit
Fn (c)
>
Einführung in die Wahrscheinlichkeitstheorie
u
für alle n > n0 .
(8.3.5)
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
271
Aus (8.3.5) folgt
Gn (u) ≤ c
für n ≥ n0 ,
und somit
lim sup Gn (u)
≤
c.
Damit haben wir die erste Aussage in (8.3.3) bewiesen. Die zweite Aussage zeigt man auf
ähnliche Weise.
(d) Aus (a)-(c) folgt P -fast sicher:
(a)
(c)
(b)
lim Gn = G
und
(3)
(a)
lim sup Gn ≤ lim sup Gn ≤ G = G ≤ lim inf Gn ≤ lim inf Gn ,
also
lim Gn = G.
Ein wesentlicher Schritt, um den oben skizzierten Beweis des Zentralen Grenzwertsatzes zu vervollständigen, ist es, zu zeigen, dass die Verteilungen der standardisierten Summen von unabhängigen, identisch verteilten, quadratintegrierbaren Zufallsvariablen eine schwach konvergente
Teilfolge haben:
Existenz schwach konvergenter Teilfolgen
Eine Folge von Wahrscheinlichkeitsverteilungen auf einer endlichen Menge S = {x1 , . . . , xd }
können wir als beschränkte Folge in Rd auffassen. Daher existiert stets eine konvergente Teilfolge
– der Grenzwert ist wieder eine Wahrscheinlichkeitsverteilung auf S. Für unendliche Mengen S
gilt eine entsprechende Aussage im Allgemeinen nicht. Wir beweisen nun ein Kriterium für die
Existenz schwach konvergenter Teilfolgen für Folgen von Wahrscheinlichkeitsverteilungen auf
R1 . Dazu setzen wir voraus, dass die Masse nicht ins unendliche abwandert:
Definition. Eine Folge µn ∈ W V (R) heißt straff (engl. tight), falls zu jedem ε > 0 ein c ∈ (0, ∞)
existiert mit
µn ([−c, c]) ≥ 1 − ε
für alle n ∈ N.
Eine straffe Folge von Wahrscheinlichkeitsverteilungen ist also gleichmäßig auf Kompakta konzentriert. Die Masse kann daher für n → ∞ nicht ins Unendliche abwandern.
Beispiel. Die Folge µn = N (mn , σn2 ), mn ∈ R, σn > 0, ist genau dann straff, wenn die Folgen
mn und σn der Mittelwerte und Standardabweichungen beschränkt sind.
Universität Bonn
Wintersemester 2009/2010
272
KAPITEL 8. GRENZWERTSÄTZE
Satz 8.6 (Helly-Bray). Jede straffe Folge µn ∈ W V (R) hat eine schwach konvergente Teilfolge.
Bemerkung. (1). Das Kriterium lässt sich deutlich verallgemeinern: Eine entsprechende Aussage gilt für Folgen von Wahrscheinlichkeitsverteilungen auf beliebigen vollständigen separablen metrischen Räumen (Satz von Prohorov, siehe z.B. Billingsley: Convergence of
probability measures). Die endlichen Intervalle [−c, c] in der Definition von Straffheit ersetzt man in diesem Fall durch kompakte Mengen.
(2). Der Raum W V (R) aller Wahrscheinlichkeitsverteilungen auf [−∞, ∞] ist sogar kompakt
bezüglich der schwachen Topologie, d.h. jede Folge µn ∈ W V (R) hat eine schwach kon-
vergente Teilfolge. Der Beweis verläuft analog zu dem von Satz 8.6. Es folgt, dass jede
Folge µn ∈ W V (R) eine vag konvergente Teilfolge hat. Der Limes ist jedoch i.A. kein
Wahrscheinlichkeitsmaß auf R, da die Masse ins unendliche abwandern kann. Allgemeiner gilt: Ist S kompakt, dann ist W V (S) kompakt bzgl. der schwachen Konvergenz.
Wir beweisen nun den Satz von Helly-Bray:
Beweis. Sei µn (n ∈ N) eine straffe Folge von Wahrscheinlichkeitsverteilungen auf R. Um die
Existenz einer schwach konvergenten Teilfolge zu zeigen, betrachten wir die Folge der Verteilungsfunktionen Fn . Wir zeigen die Aussage in mehreren Schritten:
(1). Es existiert eine Teilfolge (Fnk )k∈N , sodass Fnk (x) für alle x ∈ Q konvergiert:
Zum Beweis verwenden wir ein Diagonalverfahren: Sei x1 , x2 , ... eine Abzählung von Q.
Wegen 0 ≤ Fn ≤ 1 existiert eine Teilfolge (Fn(1) )k∈N , für die Fn(1) (x1 ) konvergiert. Ebenso
k
k
existiert eine Teilfolge (Fn(2) )k∈N von (Fn(1) )k∈N , für die Fn(2) (x2 ) konvergiert, usw. Die
k
k
k
Diagonalfolge Fnk (x) := Fn(k) (x) konvergiert dann für alle x ∈ Q.
k
Für x ∈ Q setzen wir F (x) := limk→∞ Fnk (x). Nach (1) existiert der Grenzwert, außerdem
ist die Funktion F : Q → [0, 1]Der Limes existiert nach 1. für x ∈ Q und die Funktion
F : Q → [0, 1] monoton wachsend, da die Funktionen Fnk monoton wachsend sind.
(2). Stetige Fortsetzung von F auf [0, 1]: Für x ∈ R setzen wir
F (x) := inf{F (y) | y ∈ Q, y > x}.
Die folgenden Eigenschaften der Funktion F prüft man leicht nach:
(a) Die Funktion F ist rechtsstetig, monoton wachsend, und es gilt 0 ≤ F ≤ 1.
(b) Fnk (x) → F (x) für alle x ∈ R, an denen F stetig ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
273
(3). Aus (a)folgt, dass durch
µ[(a, b]] := F (b) − F (a),
−∞ < a ≤ b < ∞,
ein positives Maß auf R definiert wird mit
µ[R] = lim µ[(−c, c]] ∈ [0, 1].
c→∞
Wir zeigen nun, dass µ eine Wahrscheinlichkeitsverteilung auf R ist, falls die Folge (µn )n∈N
straff ist. Es gilt nämlich:
µ[(−c, c]] = F (c) − F (−c) = lim (Fnk (c) − Fnk (−c)) = lim µnk [(−c, c]] (8.3.6)
k→∞
k→∞
für fast alle c. Aus der Straffheit von (µn )n∈N folgt, dass zu jedem ε > 0 ein c(ε) ∈ R
existiert mit
µnk [(−c, c]] ≥ 1 − ε
für alle k.
Aus (8.3.6) folgt dann µ[(−c, c]] ≥ 1 − ε, falls c groß genug ist, und damit für ε ց 0:
µ[R] ≥ 1,
also µ(R) = 1.
(4). Aus (b) folgt nun nach Satz 8.5, dass die Folge (µnk )k∈N schwach gegen µ konvergiert.
Schwache Konvergenz über charakteristische Funktionen
Unter Verwendung der Existenz schwach konvergenter Teilfolgen einer straffen Folge von Wahrscheinlichkeitsverteilungen zeigen wir nun, dass eine Folge von Wahrscheinlichkeitsverteilungen auf R genau dann schwach konvergiert, wenn die charakterisitschen Funktionen gegen eine
Grenzfunktion konvergieren, die bei 0 stetig ist:
Satz 8.7 (Stetigkeitssatz, Konvergenzsatz von Lévy). Seien (µn )n∈N Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit charakteristischen Funktionen
Z
φn (t) =
eitx µn (dx).
Dann gilt:
(1). Konvergiert µn schwach gegen eine Wahrscheinlichkeitsverteilung µ, dann konvergieren
auch die charakteristischen Funktionen:
φn (t)
Universität Bonn
→
φ(t)
:=
Z
eitx µ(dx)
für alle t ∈ R.
Wintersemester 2009/2010
274
KAPITEL 8. GRENZWERTSÄTZE
(2). Konvergiert umgekehrt φn (t) für alle t ∈ R gegen einen Limes φ(t), und ist φ stetig bei
t = 0, dann ist φ die charakteristische Funktion einer Wahrscheinlichkeitsverteilung µ,
und µn konvergiert schwach gegen µ.
Bemerkung. (1). Die Stetigkeit von φ bei 0 ist wesentlich. Zum Beispiel ist die Folge µn =
N (0, n) nicht schwach konvergent, aber die charakteristischen Funktionen konvergieren
punktweise:
t2
− 2n
φn (t) = e

0 falls t 6= 0
n↑∞
→
.
1 falls t = 0
(2). Eine Aussage wie im Satz gilt auch für Wahrscheinlichkeitsverteilungen auf Rd . Hier definiert man die charakteristische Funktion φ : Rd → C durch
Z
eit·x µ(dx),
t ∈ Rd .
φ(t) =
Rd
Beweis. Der erste Teil der Aussage folgt unmittelbar aus eitx = cos(tx) + i sin(tx), denn
Kosinus und Sinus sind beschränkte stetige Funktionen.
Der Beweis des zweiten Teils der Aussage erfolgt nun in mehreren Schritten. wir nehmen an,
dass die charakteristischen Funktionen φn (t) punktweise gegen eine bei 0 stetige Grenzfunktion
φ(t) konvergieren.
(1). Relative Kompaktheit: Jede Teilfolge von (µn )n∈N hat eine schwach konvergente Teilfolge.
Dies ist der zentrale Schritt im Beweis. Nach dem Satz von Helly-Bray genügt es zu zeigen,
dass µn (n ∈ N) unter den Voraussetzungen straff ist. Dazu schätzen wir die Wahrschein-
lichkeiten µn (|x| ≥ c) mithilfe der charakteristischen Funktionen ab. Da die Funktion
f (u) = 1 −
sin u
u
für u 6= 0 strikt positiv ist mit lim f (u) = 1, existiert eine Konstante
|u|→∞
a > 0 mit f (u) ≥ a für alle |u| ≥ 1. Damit erhalten wir für ε > 0:
Z sin εx
1
1
1−
=
µn [{x ∈ R | |εx| ≥ 1}] ≤
µn (dx)
µn |x| ≥
ε
a
εx
|
{z
}
1
= 2ε
F ubini
=
1
2aε
Z
ε
−ε
nր∞
(1 − Re(φn (t)))dt −→
Lebesgue
Rε
1−cos(xt)dt
−ε
1
·
2aε
Z
(8.3.7)
ε
−ε
(1 − Re(φ(t)))dt.
Sei nun δ > 0 vorgegeben. Ist ε hinreichend klein, dann gilt wegen der vorausgesetzten
Steitigkeit von φ bei 0:
|1 − Re(φ(t))|
=
|Re(φ(0) − φ(t))|
Einführung in die Wahrscheinlichkeitstheorie
≤
δa
2
für alle t ∈ [−ε, ε].
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
275
Also können wir die rechte Seite von (8.3.7) durch δ/2 abschätzen, und somit existiert ein
n0 ∈ N mit
1
µn |x| ≥
ε
≤
δ
für alle n ≥ n0 .
(8.3.8)
Diese Aussage gilt natürlich auch, falls wir ε noch kleiner wählen. Zudem gilt (8.3.8) auch
für alle n < n0 , falls ε klein genug ist. Also ist µn (n ∈ N) straff.
(2). Der Grenzwert jeder schwach konvergenten Teilfolge von (µn )n∈N hat die charakteristische
Funktion φ.
Zum beweis sei (µnk )k∈N eine Teilfolge von (µn )n∈N und µ eine Wahrscheinlichkeitsverw
teilung mit µnk → µ. Dann gilt nach dem ersten Teil der Aussage des Satzes:
φµ (t)
=
lim φnk (t)
k→∞
=
φ(t)
für alle t ∈ R.
(3). Schwache Konvergenz von (φn )n∈N .
Nach dem Inversionssatz existiert höchstens eine Wahrscheinlichkeitsverteilung µ mit charakteristischer Funktion φ. Also konvergieren nach (2) alle schwach konvergenten Teilfolgen von (µn )n∈N gegen denselben Limes µ. Hieraus folgt aber, zusammen mit (1), dass
(µn )n∈N schwach gegen µ konvergiert. Für f ∈ Cb (S) hat nämlich jede Teilfolge von
R
R
R
R
f dµn eine gegen f dµ konvergente Teilfolge, also gilt f dµn → f dµ.
8.4 Der Zentrale Grenzwertsatz
Wir können nun den in Abschnitt 8.2 skizzierten Beweis des zentralen Grenzwertsatzes (engl.
Central Limit Theorem) vervollständigen. Wir zeigen zunächst, dass ein zentraler Grenzwertsatz
für Summen beliebiger, unabhängiger, identisch verteilter Zufallsvariablen mit endlicher Varianz gilt. Diese Aussage wurde zuerst 1900 von Lyapunov bewiesen, der damit den Satz von de
Moivre/Laplace (1733) deutlich verallgemeinern konnte. Am Ende dieses Abschnitts beweisen
wir eine noch allgemeinere Version des Zentralen Grenzwertsatzes, die auf Lindeberg und Feller
zurückgeht.
Universität Bonn
Wintersemester 2009/2010
276
KAPITEL 8. GRENZWERTSÄTZE
Zentraler Grenzwertsatz für Summen von i.i.d. Zufallsvariablen
Satz 8.8 (Zentraler Grenzwertsatz – 1. Version). Seien X1 , X2 , ... ∈ L2 (Ω, A, P ) unabhängige, identisch verteilte Zufallsvariablen mit Varianz σ 2 und sei
Sn = X1 + ... + Xn .
Dann konvergieren die Verteilungen der standardisierten Summen
Ŝn =
n
Sn − E[Sn ]
1 X
√
(Xi − E[Xi ])
= √
n
n i=1
schwach gegen N (0, σ 2 ).
Bemerkung. (1). Alternativ kann man die standardisierten Summen auf Varianz 1 normieren,
und erhält
Sn − E[Sn ]
√
σ· n
D
−→
Z,
wobei Z eine standardnormalverteilte Zufallsvariable ist.
(2). Die Voraussetzung Xi ∈ L2 (Ω, A, P ) ist wesentlich. Bei unendlicher Varianz der Xi können sich andere Grenzverteilungen für die geeignet renormierten Summen
Sn −an
bn
(an ∈
R, bn > 0) ergeben. Als Grenzverteilungen können i.A. die sogenannten stabilen Verteilungen auftreten, siehe dazu z.B. Satz 8.12 unten.
(3). Im Fall σ 2 = 0 gilt die Aussage auch. Hierbei interpretieren wir das Diracmaß δm als
degenerierte Normalverteilung N (m, 0).
Wir beweisen nun den Zentralen Grenzwertsatz in der obenstehenden Form:
ei :=
Beweis. O.B.d.A. sei E[Xi ] = 0, ansonsten betrachten wir die zentrierten Zufallsvariablen X
Xi −E[Xi ]. Nach dem Konvergenzsatz von Lévy genügt es zu zeigen, dass die charakteristischen
Funktionen der standardisierten Summen Sbn punktweise gegen die charakteristische Funktion der
Normalverteilung N (0, σ 2 ) konvergieren, d.h.
φŜn (t) → φN (0,σ2 ) (t) = e−
σ 2 t2
2
∀ t ∈ R.
(8.4.1)
Da die Zufallsvariablen Xi unabhängig, identisch verteilt und zentriert sind, gilt für t ∈ R:
n
t
t
E[Sn ]=0
Xi iid
=
φX1 √
.
φŜn (t)
=
φSn √
n
n
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
277
Aus X1 ∈ L2 folgt φX1 ∈ C 2 (R), und
φX1 (t)
=
E[eitX1 ]
=
1 + itE[X1 ] +
(it)2
E[X12 ] + o(t2 )
2
=
1−
t2 σ 2
+ o(t2 ),
2
wobei o für eine Funktion o : R+ → C mit limε↓0 |o(ε)|
= 0 steht. Damit erhalten wir:
ε
2 n
t
t2 σ 2
.
+o
φŜn (t) =
1−
2n
n
Wir vermuten, dass dieser Ausdruck für n → ∞ gegen e−
t2 σ 2
2
strebt.
Dies kann man beweisen, indem man den Logarthmus nimmt, und die Taylorapproximation
log(1 + w) = w + o(|w|) verwendet. Da die charakteristische Funktion komplexwertig ist, muss
dazu allerdings der Hauptzweig der komplexen Logarithmusfunktion verwendeet werden.
Wir zeigen stattdessen die Konvergenz ohne Verwendung von Aussagen aus der Funktionentheorie: Für komplexe Zahlen zi , wi ∈ C mit |zi |, |wi | ≤ 1 gilt nach der Dreiecksungleichung
n
n
Y
Y
wi = |(z1 − w1 )z2 z3 · · · zn + w1 (z2 − w2 )z3 z4 · · · zn + . . . + w1 · · · wn−1 (zn − wn )|
zi −
i=1
i=1
≤
n
X
i=1
|zi − wi |.
Damit erhalten wir:
2 2 2 n
2 2 n 2 2
tσ
φ b (t) − exp − t σ = 1 − t σ + o t
−
exp
−
Sn
2 2n
n
2n
t2 σ 2 t2
t2 σ 2
.
≤ n · 1 −
− exp −
+o
2n
n
2n Da die rechte Seite für n → ∞ gegen 0 konvergiert, folgt (8.4.1) und damit die Behauptung.
Beispiel. (1). Sind X1 , X2 , . . . unabhängig mit P [Xi = 1] = p und P [Xi = 0] = 1 − p,
P
Xi Binomialverteilt mit Parametern n und p. Die Aussage des Zentralen
dann ist Sn =
i
Grenzwertsatzes folgt in diesem Fall aus dem Satz von de Moivre/Laplace.
(2). Sind die Zufallsvariablen Xi unabhängig und Poissonverteilt mit Parameter λ > 0, dann ist
P
Xi Poissonverteilt mit Parameter nλ. Der Zentrale Grenzwertsatz liefert in diesem
Sn =
i
Fall eine Normalapproximation für Poissonverteilungen mit großer Intensität (Übung).
(3). Sind X1 , X2 , . . . unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann gilt
Sbn
=
X1 + X2 + . . . + Xn − nm
√
n
∼
N (0, σ 2 )
für alle n ∈ N (und nicht nur asymptotisch!).
Universität Bonn
Wintersemester 2009/2010
278
KAPITEL 8. GRENZWERTSÄTZE
Warum tritt die Normalverteilung im Limes auf?
Wie schon im letzten Beispiel bemerkt,
gilt
Xi ∼ N (0, σ 2 ) unabhängig
⇒
X1 + . . . + Xn
√
∼ N (0, σ 2 ).
n
die zentrierten Normalverteilungen sind also „invariant“ unter der Reskalierungstransformation
aus dem zentralen Grenzwertsatz. Man kann sich leicht plausibel machen, dass eine Grenzverteilung der standardisierten Summen unabhängiger quadratintegrierbarer Zufallsvariablen eine entsprechende Invarianzeigneschaft haben muss. Tatsächlich sind die zentrierten Normalverteilungen die einzigen nichtdegenerierten Wahrscheinlichkeitsverteilungen mit dieser Invarianz. Aus
dem Zentralen Grenzwertsatz folgt sogar:
Korollar 8.9. Sei µ eine Wahrscheinlichkeitsverteilung auf R mit
x2 µ(dx) < ∞. Gilt
X +Y
√
∼ µ,
2
⇒
X, >∼ µ unabhängig
R
(8.4.2)
dann ist µ eine zentrierte Normalverteilung.
Bemerkung. Die Aussage gilt auch ohne die Voraussetzung
aber aufwändiger, siehe z.B. B REIMAN : P ROBABILITY.
R
x2 µ(dx) < ∞ – der Beweis ist
Beweis. Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit Verteilung µ. Aus der VoraussetR
zung (8.4.2) folgt E[Xi ] = xµ(dx) = 0 für alle i ∈ N, und durch Induktion:
(X1 + . . . + Xn )
√
n
Wegen
R
∼
µ
für n = 2k , k ∈ N.
x2 µ(dx) < ∞ sind die Xi quadratintegrierbar. Durch Anwednen des zentralen Grenz-
wertsatzes auf die standardisierten Summen folgt, dass µ eine zentrierte Normalverteilung ist.
Normalapproximationen
Die Normalverteilungsasymptotik der standardisierten Summen wird häufig verwendet, um Wahrscheinlichkeiten näherungsweise zu berechnen. Wir betrachten zunächst ein typisches Beispiel:
Beispiel (Versicherungsgesellschaft mit n Verträgen). Eine Versicherungsgesellschaft habe
mit n Kunden Verträge abgeschlossen. Beim Eintreten des Schadenfalls für Vertrag i muss die
Leistung Xi ≥ 0 gezahlt werden. Wir nehmen an, dass gilt:
Xi ∈ L2 i.i.d.
mit
Einführung in die Wahrscheinlichkeitstheorie
E[Xi ] = m, Var[Xi ] = σ 2 .
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
279
Die Prämie pro Vertrag betrage Π = m + λσ 2 , wobei m die erwartete Leistung ist und λσ 2 mit
λ > 0 einem Risikozuschlag entspricht. Die Einnahmen nach einer Zeitperiode betragen dann
n · Π, die Ausgaben Sn = X1 + ... + Xn . Wir wollen die Wahrscheinlichkeit des Ruinereignisses
Sn > k + nΠ,
berechnen, wobei k das Anfangskapital bezeichnet. Hierbei nehmen wir implizit an, dass nicht
verzinst wird, und die Abrechnung nur am Schluß einer Zeitperiode erfolgt. Wenn die standardisierten Schadenssummen mithilfe der ZGS-Näherung approximiert werden, ergibt sich:
P [Ruin] = P [Sn > k + nΠ] = P [Sn − E[Sn ] > k + nλσ 2 ]
√
Sn − E[Sn ]
k
√
= P
> √ + λσ n
σ n
σ n
√
k
≈ P Z > √ + λσ n ,
σ n
wobei Z eine standardnormalverteilte Zufallsvariable ist. Der Ausdruck auf der rechten Seite
geht für n → ∞ gegen 0. Eine große Anzahl von Verträgen sollte also eine kleine Ruinwahrscheinlichkeit implizieren. Für n = 2000, σ = 60 und λ = 0, 05% ergibt sich beispielsweise:
k = 0 : P [Ruin] ≈ 9%,
k = 1500 : P [Ruin] ≈ 3%.
Nach einer solchen Überschlagsrechnung sollte man das verwendete Modell und die Approximationsschritte einer kritischen Analyse untersuchen. In unserem Fall stellen sich unmittelbar
mehrere Fragen:
(1). Wir haben die ZGS-Näherung verwendet, obwohl die auftretenden Schranken für die standardisierten Summen von n abhängen. Ist das in diesem Fall zulässig?
(2). Ist die Quadratintegrierbarkeit der Xi eine sinnvolle Modellannahme, und was ergibt sich
andernfalls?
(3). In einem realistischen Modell kann man nicht davon ausgehen, dass die Xi identisch verteilt sind. Gilt trotzdem ein Zentraler Grenzwertsatz?
(4). Ist die Unabhängigkeitsannahme gerechtfertigt?
Wir werden nun auf die ersten drei Fragen näher eingehen. Das folgende Beispiel zeigt, dass
man in der Tat vorsichtig sein sollte, wenn man von n abhängige Quantile von standardisierten
Summen durch entsprechende Quantile von Normalverteilungen ersetzt:
Universität Bonn
Wintersemester 2009/2010
280
KAPITEL 8. GRENZWERTSÄTZE
Beispiel (Eine zu naive ZGS-Approximation). Seien Xi , i ∈ N, unabhängige, identisch ver-
teilte Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = 1, und sei a > 0. Mit einer ZGSApproximation erhalten wir für große n
" n
#
#
"
n
√
1X
1 X
P
Xi ≥ a n
Xi ≥ a = P √
n i=1
n i=1
Z ∞
2
1
− x2
dx
≈ √
e
2π a√n
Z ∞
2
√
√
y2
1
− na
2
= e
e−a ny− 2 dy
·√
x=a n+y
2π 0Z
∞
2
√ na
z2
1
z = ny
= e− 2 · √
e−az− 2n dz
2πn 0
1
na2
∼ √
· exp −
2
2πa2 n
Dies ist aber nicht die korrekte Asymptotik für n → ∞. Auf der exponentiellen Skala gilt nämlich
"
n
1X
P
Xi ≥ a
n i=1
#
∼ exp (−nI(a)) ,
wobei I(a) die Ratenfunktion aus dem Satz von Chernoff ist. Diese ist im Allgemeinen von
√
na2 /2 verschieden. Die ZGS-Approximation ist hier nicht anwendbar, da a n von n abhängt!
Dass die Näherung aus dem Beispiel oben trotzdem recht gut funktioniert, wenn die Zufallsvariablen Xi dritte Momente haben garantiert die folgende Abschätzung der Konvergenzgeschwindigkeit im Zentralen Grenzwertsatz:
Satz 8.10 (Berry-Esséen). Seien Xi ∈ L3 i.i.d. Zufallsvariablen, Z ∼ N (0, 1), und seien
Sn − E[Sn ]
√
≤ x ,
Fn (x) := P
σ n
Φ(x) := P [Z ≤ x].
Dann gilt folgende Abschätzung:
3 · E[|X1 − E[X1 ]|3 ]
√
.
σ3 n
x∈R
Den Beweis dieser Aussage findet man etwa im Buch Probability Theory von R. Durrett (4.10).
sup |Fn (x) − Φ(x)|
≤
Für die Normalapproximation der Binomialverteilung Bin(n, p) ergibt sich beispielsweise
3 · E[|X1 − E[X1 ]|3 ]
3 · ((1 − p)2 + p2 )
√
p
=
.
σ3 n
np(1 − p)
Für p → 0 oder p → 1 divergiert die rechte Seite. Wir erhalten also möglicherweise einen
hohen Approximationsfehler für p nahe 0 oder 1. In diesen Fällen empfiehlt sich in der Tat die
Verwendung der Poisson-Approximation anstelle des zentralen Grenzwertsatzes.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
281
Heavy Tails, Konvergenz gegen α-stabile Verteilungen
Als nächstes betrachten wir ein Beispiel, welches zeigt, dass die Voraussetzung der Quadratintegrierbarkeit der Zufallsvariablen essentiell für den zentralen Grenzwertsatz ist:
Seien α ∈ (1, 2), r ∈ (0, ∞), und seien X1 , X2 , . . . : Ω → R unabhängige identisch verteilte
absolutstetige Zufallsvariablen, deren Dichtefunktion
fXi (x)
|x|−α−1
=
für alle |x| ≥ r
erfüllt. Da die Dichte für |x| → ∞ nur langsam abfällt, sind die Zufallsvariablen nicht quadra-
tintegrierbar; sie sind aber intergrierbar. Daher ergibt sich ein anderes asymptotisches Verhalten
der charakteristischen Funktionen für t → 0 :
Lemma 8.11. Für t → 0 gilt
φXi (t)
=
1 + imt − c|t|α + O(t2 )
R
mit m = E[Xi ] und c = (1 − cos u)|u|−α−1 du ∈ (0, ∞).
R
Beweis. Sei t 6= 0. Wegen eiu − 1 − iu = O(u2 ) und cos u − 1 = O(u2 ) erhalten wir
Z∞
φXi (t) − 1 − imt =
(eitx − 1 − itx)f (x) dx
=
−∞
Z∞
−∞
1
=
|t|
(eiu − 1 − iu)f
Ztr
iu
u 1
du
t |t|
(e − 1 − iu)f
−tr
u
t
α
du + |t |
Z
(cos u − 1)|u|−α−1 du
[−tr,tr]C
= −c|t|α + O(t2 ).
Für die zentrierten Summen Sn =
n
P
i=1
φSn (t)
(Xi − m) folgt
=
(1 − c|t|α + O(t2 ))n .
Um Konvergenz der charakteristischen Funktionen zu erhalten, müssen wir Xn nun mit n−1/α
statt n−1/2 reskalieren:
φn−1/α Sn (t) = φSn (n−1/α t)
→ exp(−c|t|α )
=
(1 − c|t|α n−1 + O(n−2/α ))n
für n → ∞.
Nach dem Konvergenzsatz von Lévy folgt:
Universität Bonn
Wintersemester 2009/2010
282
KAPITEL 8. GRENZWERTSÄTZE
Satz 8.12. Für n → ∞ gilt
D
n−1/α Sn
→
µc,α ,
wobei µc,α die Wahrscheinlichkeitsverteilung mit charakteristischer Funktion
φc,α (t)
=
exp(−c|t|α )
ist.
Definition. Seien α ∈ (0, 2] und m ∈ R. Die Wahrscheinlichkeitsverteilungen mit charakteristischer Funktion
φ(t)
=
exp(imt − c|t|α),
c ∈ (0, ∞) heißen symmetrische α-stabile Verteilungen mit Mittelwert m.
Die Dichten der α-stabilen Verteilungen sind für α 6= 1, 2 nicht explizit berechnbar, fallen aber
für |x| → ∞ wie |x|−α−1 ab. Für α = 1 erhält man die Cauchyverteilungen, für α = 2 die Nor-
malverteilungen. Satz 8.12 ist ein Spezialfall eines allgemeineren Grenzwertsatzes für Summen
von zufallsvariablen mit polynomiellen Tails, siehe z.B. B REIMAN , T HEOREM 9.34.
Der Satz von Lindeberg-Feller
Wir wollen nun die Annahme fallenlassen, dass die Summanden Xi identisch verteilt sind, und
zeigen, dass trotzdem ein zentraler Grenzwertsatz gilt. Sei
Sbn
=
Yn,1 + Yn,2 + ... + Yn,n
mit Yn,i ∈ L2 (Ω, A, P ).
Die Zufallsvariablen Yn,i können etwa kleine Störungen oder Meßfehler beschreiben. Setzen wir
Yn,i =
Xi − E[Xi ]
√
n
mit Xi ∈ L2 unabhängig,
(8.4.3)
so erhalten wir das Setup von oben.
Satz 8.13 (ZGS von Lindeberg-Feller). Sei σ ∈ (0, ∞). Es gelte:
(i) Yn,i (1 ≤ i ≤ n) sind unabhängig für jedes n ∈ N mit E[Yn,i ] = 0,
(ii) Var[Sbn ] =
(iii) γn,ε :=
Pn
Pn
i=1
i=1
n↑∞
Var[Yn,i ] −→ σ 2 ,
n↑∞
2
E[Yn,i
; |Yn,i | > ε] −→ 0 ∀ ε > 0.
Dann konvergiert die Verteilung von Sbn schwach gegen N (0, σ 2 ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
283
Der Satz ziegt, dass die Summe vieler kleiner unabhängiger Störungen unter geeigneten Voraussetzungen ungefähr normalverteilt ist. Dies rechtfertigt bis zu einem gewissen Grad, dass die
Zufallsgrößen mit unbekannter Verteilung, die durch Überlagerung vieler kleiner Effekte entstehen, häufig durch normalverteilte Zufallsvariablen modelliert werden.
Bemerkung. (1). Der Zentrale Grenzwertsatz von oben ist ein Spezialfall: Sind Xi ∈ L2 i.i.d.
Zufallsvariablen mit E[Xi ] = m und Var[Xi ] = σ 2 , und definieren wir Yn,i wie in (8.4.3),
dann gilt:
n
1 X
b
Var[Sn ] =
Var[Xi ]
n i=1
=
Var[X1 ]
=
σ2,
für alle n ∈ N,
und, für ε > 0
γn,ε
n
X
n
√ 1 X E |Xi − m|2 ; |Xi − m| > ε n
=
E
>ε
=
n i=1
i=1
√
→ 0
für n → ∞,
= E |X1 − m|2 ; |X1 − m| > ε n
2
Yn,i
; |Yn,i |
da X1 quadratintegrierbar ist.
(2). Die Bedingung (iii) ist insbesondere erfüllt, wenn
n
X
i=1
n→∞
E[|Yn,i |p ] −→ 0 für ein p > 2 gilt,
2
denn für ε > 0 ist E[Yn,i
; |Yn,i | ≥ ε] ≤ ε2−p E[|Yn,i |p ].
Wir beweisen nun den Satz von Lindeberg-Feller: Der Beweis basiert wieder auf einer Analyse
der Asymptotik der charakteristischen Funktionen. dazu zeigen wir zunächst einige asymptotische Abschätzungen:
Beweis.
(a) Vorüberlegungen: Sei t ∈ R fest.
(I) Taylorapproximation für φn,i (t) := E[eitYn,i ]:
Aus den verschiedenen Abschätzungen des Taylorrestglieds erhält man
3
|x|
x2
2
ix
+ R(x) mit |R(x)| ≤ min
, x .
e = 1 + ix −
2
6
(8.4.4)
Damit ergibt sich
φn,i (t) = 1 + itE[Yn,i ] −
Universität Bonn
t2
2
E[Yn,i
] + E[R(tYn,i )]
2
=
1−
2
t2 σn,i
+ Rn,i ,
2
Wintersemester 2009/2010
284
KAPITEL 8. GRENZWERTSÄTZE
wobei für Rn,i := E[R(tYn,i )] die Abschätzung
|Rn,i |
|tYn,i |3 2 2
E min
, t Yn,i
6
≤
(8.4.5)
gilt.
(II) Wir zeigen
Pn
i=1
|Rn,i | → 0 für n → ∞:
Für ε > 0 gilt nach (8.4.5):
|Rn,i | ≤
1
· E |tYn,i |3 ; |Yn,i | ≤ ε + E[|tYn,i |2 ; |Yn,i | > ε].
6
2
Mit E [|tYn,i |3 ; |Yn,i | ≤ ε] ≤ |t|3 ε · σn,i
erhalten wir
n
X
n
|t|3 ε X 2
σ + t2 γn,ε ,
6 i=1 n,i
|Rn,i | ≤
i=1
und somit nach Voraussetzung (ii) und (iii)
lim sup
n→∞
n
X
i=1
|Rn,i | ≤
σ 2 |t|3
ε.
6
Die Behauptung folgt für ε → 0.
2
(III) Wir zeigen sup1≤i≤n σn,i
→0
für n → ∞:
Für ε > 0 und 1 ≤ i ≤ n gilt
2
2
2
σn,i
= E[Yn,i
; |Yn,i | ≤ ε] + E[Yn,i
; |Yn,i | > ε]
≤
ε2 + γn,ε
Wegen γn,ε → 0 für n → ∞ ergibt sich
2
lim sup sup σn,i
≤ ε2 .
n→∞
1≤i≤n
Die Behauptung folgt wieder für ε → 0.
(b) Hauptteil des Beweises:
Zu zeigen ist
φŜn (t) =
n
Y
i=1
t2 σ 2
φn,i (t) −→ exp −
2
n→∞
,
(8.4.6)
die Aussage folgt dann aus dem Konvergenzsatz von Lévy.
Wir zeigen:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
285
n
n Y
2 Y
t2 σn,i
1−
φn,i (t) −
2
i=1
i=1
n
2
Y
t2 σn,i
1−
2
i=1
n→∞
−→
0,
n→∞
e−
−→
und
t2 σ 2
2
(8.4.7)
.
(8.4.8)
Daraus folgt (8.4.6), und damit die Behauptung.
Beweis von (8.4.7): Wie oben gezeigt, gilt für zi , wi ∈ C mit |zi |, |wi | ≤ 1:
n
n
n
Y
X
Y
zi −
wi ≤
|zi − wi |.
i=1
i=1
i=1
Zudem gilt |φn,i (t)| ≤ 1, und nach der 3. Vorüberlegung existiert ein n0 ∈ N mit
1−
2
t2 σn,i
∈ (0, 1)
2
für alle n ≥ n0 und 1 ≤ i ≤ n.
Damit erhalten wir für n ≥ n0 :
n n
n Y
2 2 X
Y
t2 σn,i
t2 σn,i
φn,i (t) −
1−
≤
φn,i (t) − 1 − 2
2
i=1
i=1
i=1
(8.4.9)
=
n
X
i=1
|Rn,i |
Die rechte Seite konvergiert nach der 2. Vorüberlegung gegen 0.
Beweis von (8.4.8): Wegen (8.4.9) erhalten wir
log
n Y
i=1
2
t2 σn,i
1−
2
!
=
n
X
i=1
= −
2
wobei |R̃n,i | ≤ C · t2 σn,i
2
2 t2 σn,i
log 1 −
2
n
n
2
X
X
t2 σn,i
+
R̃n,i ,
2
i=1
i=1
mit C̃ ∈ (0, ∞). Die rechte Seite konvergiert nach Vorausset2 2
zung (ii) für n → ∞ gegen − t 2σ , denn
n
X
i=1
|R̃n,i | ≤ Ct4 ·
n
X
i=1
4
σn,i
≤
Ct4 ·
n
X
i=1
2
2
σn,i
· sup σn,i
1≤i≤n
→
0
nach der 3. Vorüberlegung.
Universität Bonn
Wintersemester 2009/2010
286
KAPITEL 8. GRENZWERTSÄTZE
Bemerkung (Zentrale Grenzwertsätze für Summen abhängiger Zufallsvariablen). In allen
Fällen haben wir bisher angenommen, dass die Zufallsvariablen Xi unabhängig sind. Tatsächlich hat man zentrale Grenzwertsätze auch für viele große Modellklassen mit Abhängigkeit gezeigt, beispielsweise für Martingale, additive Funktionale von Markovketten, Skalierungslimiten
von Teilchensystemen, unterschiedliche Folgen von Parameterschätzern in der Statistik, usw. Wir
werden darauf in weiterführenden Vorlesungen zurückkommen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 9
Multivariate Verteilungen und statistische
Anwendungen
9.1 Mehrstufige Modelle
Seien (Si , Si ), 1 ≤ i ≤ n, meßbare Räume. Wir wollen allgemeine Wahrscheinlichkeitsvertei-
lungen auf dem Produktraum S1 × ... × Sn konstruieren und effektiv beschreiben. In Analogie zu
diskreten, mehrstufigen Modellen versuchen wir diese in der Form
P (dx1 ...dxn ) = µ(dx1 )p(x1 , dx2 )p((x1 , x2 ), dx3 ) · · · p((x1 , ..., xn−1 ), dxn )
darzustellen.
Stochastische Kerne und der Satz von Fubini
Wir betrachten zunächst den Fall n = 2, der allgemeine Fall ergibt sich dann durch Iteration der
Konstruktion. Seien also (S, S) und (T, T ) messbare Räume und sei
Ω := S × T
und
A := S ⊗ T
die produkt-σ-Algebra.
Unser Ziel ist die Konstruktion einer Wahrscheinlichkeitsverteilung auf (Ω, A) vom Typ
P (dxdy) = µ(dx)p(x, dy).
Definition. Eine Abbildung
p : S × T −→ [0, 1],
(x, C) 7→ p(x, C),
heißt stochastischer Kern (oder Übergangswahrscheinlichkeit), wenn gilt:
287
288
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
(i) p(x, •) ist für jedes x ∈ S eine Wahrscheinlichkeitsverteilung auf (T, T ),
(ii) p(•, C) ist für jedes C ∈ T eine meßbare Funktion auf (S, S).
Bemerkung (Diskreter Spezialfall). Sind S und T abzählbar mit S = P(S), T = P(T ),
dann ist p eindeutig festgelegt durch die Matrix mit Komponenten
p(x, y) := p(x, {y})
(x ∈ S , y ∈ T ).
Da p ein stochastischer Kern ist, ist p(x, y) (x ∈ S, y ∈ T ) eine stochastische Matrix.
Der folgende Satz zeigt im allgemeinen Fall die Existenz eines zweistufigen Modells mit µ als
Verteilung der ersten Komponente, und p(x, •) als bedingte Verteilung der zweiten Komponente
gegeben den Wert x der ersten Komponente. Der Satz zeigt zudem, dass Erwartungswerte im
mehrstufigen Modell durch Hintereinanderausführen von Integralen berechnet werden können.
Satz 9.1 (Fubini). Sei µ(dx) eine Wahrscheinlichkeitsverteilung auf (S, S) und p(x, dy) ein sto-
chastischer Kern von (S, S) nach (T, T ). Dann existiert eine eindeutige Wahrscheinlichkeitsverteilung µ ⊗ p auf (Ω, A) mit
(µ ⊗ p)[B × C] =
Z
µ(dx) p(x, C)
B
Für diese Wahrscheinlichkeitsverteilung gilt:
Z
Z Z
f d(µ ⊗ p) =
f (x, y) p(x, dy) µ(dx)
Beweis.
für alle B ∈ S, C ∈ T .
(9.1.1)
für alle A-messbaren f : Ω → R+ .
(9.1.2)
(1). Eindeutigkeit: Das Mengensystem {B × C | B ∈ S, C ∈ T } ist ein durch-
schnittsstabiler Erzeuger der Produkt-σ-Algebra A. Also ist die Wahrscheinlichkeitsverteilung µ ⊗ ν durch (9.1.1) eindeutig festgelegt.
(2). Existenz: Wir wollen die Wahrscheinlichkeitsverteilung µ⊗ν über (9.1.2) mit f = IA , A ∈
A, definieren. Dazu müssen wir überprüfen, ob die rechte Seite in diesem Fall definiert ist
(d.h. ob die Integranden messbar sind), und ob
Z Z
(µ ⊗ p)[A] :=
IA (x, y) p(x, dy) µ(dx)
eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert.
Für Produktmengen A = B × C (B ∈ S, C ∈ T ) ist die Funktion x 7→
R
IA (x, y)p(x, dy)
nach Definition des stochastischen Kerns messbar. Da die Mengen A ∈ A, für die diese
Funktion messbar ist, ein Dynkinsystem bilden, folgt die Messbarkeit für alle A ∈ A.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
289
µ ⊗ p ist eine Wahrscheinlichkeitsverteilung, denn einerseits folgt
Z Z
(µ ⊗ p)[Ω] = (µ ⊗ p)[S × T ] =
IS (x)IT (y)p(x, dy) µ(dx) = µ[S] = 1
aus
R
T
p(x, dy) = p(x, T ) = 1; andererseits gilt für disjunkte Mengen Ai (i ∈ N)
X
IAi ,
IS Ai =
woraus unter zweimaliger Anwendung des Satzes von der monotonen Konvergenz folgt:
!
#
"
Z Z X
[
IAi (x, y) p(x, dy) µ(dx)
(µ ⊗ p)
Ai =
i
=
i
X Z Z
i
IAi (x, y) p(x, dy) µ(dx)
X
=
(µ ⊗ p)[Ai ].
i
Durch maßtheoretische Induktion zeigt man nun, dass die Wahrscheinlichkeitsverteilung
µ ⊗ p auch (9.1.2) erfüllt.
Als nächstes wollen wir die Randverteilungen des gerade konstruierten zweistufigen Modells
berechnen. Sei also P := µ ⊗ p, und seien
X : S×T → S
, Y : S×T → T
(x, y) 7→ x
(x, y) 7→ y
,
die Projektionen auf die 1. bzw. 2. Komponente. Wegen p(x, T ) = 1 gilt:
Z
P [X ∈ B] = P [B × T ] =
µ(dx) p(x, T ) = µ[B]
∀ B ∈ S,
B
also ist die Verteilung P ◦ X −1 der ersten Komponente gleich µ. Für die Verteilung der zweiten
Komponente erhalten wir
P [Y ∈ C] = P [S × C] =
Z
µ(dx) p(x, C)
S
∀C ∈T.
Definition. Die durch
(µp)[C]
:=
Z
µ(dx) p(x, C),
C}inT ,
definierte Wahrscheinlichkeitsverteilung auf (T, T ) heißt Mischung der Wahrscheinlichkeitsverteilungen p(x, •) bezüglich µ.
Universität Bonn
Wintersemester 2009/2010
290
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Wie gerade gezeigt, ist µp = P ◦ Y −1 die Verteilung der zweiten Komponente im zweistufigen
Modell.
Bemerkung. Sind S und T abzählbar, dann sind µ ⊗ p und µp die schon in Abschnitt 2.3 be-
trachteten Wahrscheinlichkeitsverteilungen mit Gewichten
(µ ⊗ p)(x, y) = µ(x) p(x, y),
X
(µp)(y) =
µ(x) p(x, y).
x∈S
Die Massenfunktionen von µ ⊗ p und µp sind also das Tensor- bzw. Matrixprodukt des Zeilenvektors µ und der stochastischen Matrix p.
Wichtige Spezialfälle
Produktmaße: Ist p(x, •) ≡ ν eine feste (von x unabhängige) Wahrscheinlichkeitsverteilung
auf (T, T ), dann ist µ ⊗ p das Produkt µ ⊗ ν der Wahrscheinlichkeitsverteilungen µ und ν. Der
Satz von Fubini liefert also die Existenz des Produktmaßes, und die schon mehrfach verwendete
Berechnungsformel
Z
f d(µ ⊗ ν) =
Z Z
S
T
f (x, y) ν(dy) µ(dx)
(9.1.3)
für die Integrale nicht-negativer oder integrierbarer messbarer Funktionen bzgl. des Produktmaßes. Die Integrationsreihenfolge kann man in diesem Fall vertauschen, denn wegen
(µ ⊗ ν)[B × C] = µ[B]ν[C]
für alle B ∈ S, C ∈ T
(9.1.4)
gilt (ν ⊗ µ) ◦ R−1 = µ ⊗ ν, wobei R(x, y) = (y, x), und damit nach dem Transformationssatz:
Z Z
Z
F ub.
f (x, y) µ(dx) ν(dy) =
f ◦ R d(ν ⊗ µ)
Z
=
f d(µ ⊗ ν)
Z Z
F ub.
=
f (x, y) ν(dy) µ(dx).
Durch wiederholte Anwendung dieses Arguments erhalten wir zudem:
Korollar 9.2. Seien (Si , Si , µi ) Wahrscheinlichkeitsräume (1 ≤ i ≤ n). Dann existiert eine
eindeutige Wahrscheinlichkeitsverteilung µ1 ⊗ ... ⊗ µn auf (S1 × ... × Sn , S1 ⊗ ... ⊗ Sn ) mit:
(µ1 ⊗ ... ⊗ µn ) [B1 × ... × Bn ] =
n
Y
i=1
Einführung in die Wahrscheinlichkeitstheorie
µi [Bi ]
für alle Bi ∈ Si
(1 ≤ i ≤ n).
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
291
Für alle produktmessbaren Funktionen f : S1 × ... × Sn → [0, ∞) gilt:
Z
Z
Z
f d(µ1 ⊗ ... ⊗ µn ) = ...
f (x1 , ..., xn )µn (dxn ) ...µ1 (dx1 ),
wobei die Integration auch in beliebiger anderer Reihenfolge ausgeführt werden kann.
Beweis. Die Existenz folgt durch wiederholte Anwendung des Satzes von Fubini, die Eindeutigkeit aus dem Eindeutigkeitssatz. Dass die Integrationsreihenfolge vertauscht werden kann, zeigt
man ähnlich wie im oben betrachteten Fall n = 2.
Deterministische Kopplung: Gilt p(x, •) = δf (x) für eine messbare Funktion f : S → T , dann
folgt (µ ⊗ p)[{(x, y) | y = f (x)}] = 1. Die zweite Komponente ist also durch die erste Kompo-
nente mit Wahrscheinlichkeit 1 eindeutig festgelegt. Die Verteilung der zweiten Komponente ist
in diesem Fall das Bild von µ unter f :
µp = µ ◦ f −1 .
Übergangskerne von Markovschen Ketten:
Gilt S = T , dann können wir p(x, dy) als Über-
gangswahrscheinlichkeit (Bewegungsgesetz) einer Markovkette auf (S, S) auffassen. In Analogie
zum diskreten Fall definieren wir:
Definition. Eine Wahrscheinlichkeitsverteilung µ auf (S, S) heißt Gleichgewicht (stationäre
oder auch invariante Verteilung) von p, falls µp = µ gilt, d.h. falls
Z
µ(dx)p(x, B) = µ[B]
für alle B ∈ S.
Beispiel (Autoregressiver Prozess). Der AR(1)-Prozess mit Parametern ε, α ∈ R ist eine
Marε2
2
kovkette mit Übergangskern p(x, •) = N (αx, ε ). Die Normalverteilung N 0, 1−α2 ist für
α ∈ (0, 1) ein Gleichgewicht. Für α ≥ 1 existiert kein Gleichgewicht.
Bedingte Dichten und Bayessche Formel
Wir betrachten nun Situationen mit nichttrivialer Abhängigkeit zwischen den Komponenten im
kontinuierlichen Fall. Seien X : Ω → Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahr-
scheinlichkeitsraum (Ω, A, P ), deren gemeinsame Verteilung absolutstetig ist mit Dichte fX,Y ,
d.h.
P [x ∈ B, Y ∈ C]
=
Z Z
fX,Y (x, y) dy dx
für alle B ∈ B(Rn ), C ∈ B(Rm ).
B C
Universität Bonn
Wintersemester 2009/2010
292
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
2
1
500
1000
−1
−2
Abbildung 9.1: Simulation einer Trajektorie eines AR(1)-Prozesses mit Parametern α = 0.8 und
ε2 = 1.5.
Nach dem Satz von Fubini sind dann auch die Verteilungen von X und Y absolutstetig mit dichten
Z
fX (x) =
fX,Y (x, y) dy
Rm
und
fY (x)
=
Z
fX,Y (x, y) dx.
Rn
Obwohl bedingte Wahrscheinlichkeiten gegeben Y = y nicht im herkömmlichen Sinn definiert
werden können, da das Ereignis {Y = y} eine Nullmenge ist, können wir die bedingte Dichte
und die bedingte Verteilung von X gegeben Y in diesem Fall sinnvoll definieren. Anschaulich
beträgt die Wahrscheinlichkeit, dass der Wert X in einem infinitesimal kleinen Volumenelement
dx liegt, gegeben, dass der Wert von Y in einem entsprechenden infinitesimalen Volumenelement
dy liegt:
P [X ∈ dx, Y ∈ dy]
P [Y ∈ dy]
fX,Y (x, y)
=
dx
fY (y)
P [X ∈ dx|Y ∈ dy] =
=
fX,Y (x, y) dx dy
fY (y) dy
Diese heuristische Überlegung motiviert die folgende Definition:
Definition. Die Funktion fX|Y : Rn × Rm → [0, ∞] mit


 fX,Y (x, y) falls fY (y) 6= 0
fY (y)
fX|Y =

f (x)
falls fY (y) = 0
X
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
293
heißt bedingte Dichte von X gegeben Y , und die von y abhängende Wahrscheinlichkeitsverteilung
µX|Y (y, B)
:=
Z
für B ∈ B(Rn ),
fX|Y (x, y) dx,
B
heißt bedingte Verteilung von X gegeben Y .
Bemerkung. (1). Für festes y ist die bedingte Dichte eine Wahrscheinlichkeitsdichte auf Rn .
Da fX|Y produktmessbar ist, ist die bedingte Verteilung µX|Y nach dem Satz von Fubini
ein stochastischer Kern von Rm nach Rn .
(2). Auf der Nullmenge {y ∈ Rm |fY (y) = 0} sind fX|Y (x|y) und µX|Y (y, dx) nicht eindeutig
festgelegt - die oben getroffene Definition über die unbedingte Dichte ist relativ willkürlich.
Aus der Definition der bedingten Dichte ergibt sich unmittelbar eine Variante der Bayesschen
Formel für absolutstetige Zufallsvariablen:
Satz 9.3 (Bayessche Formel). Für (x, y) ∈ Rn × Rm mit fX (x) > 0 und fY (y) > 0 gilt
fX|Y (x|y)
=
R
Rn
Beweis. Aus der Definition folgt
fX|Y (x|y)
=
fX (x)fY |X (y|x)
.
fX (x)fY |X (y|x) dx
fX,Y (x, y)
fY (y)
=
R
fX,Y (x, y)
,
fX,Y (x, y) dx
Rn
und damit die Behauptung.
In Modellen der Bayesschen Statistik interpretiert man fX (x) als Dichte der a priori angenommenen Verteilung eines unbekannten Parameters X, und fY |X (y|x) als Maß für die Plausibilität
(„Likelihood“) des Parameterwertes x, wenn der Wert y der Zufallsgröße Y beobachtet wird. Die
Bayessche Formel besagt dann, dass die Verteilung von X, von der man a posteriori (d.h. nach
der Beobachtung von y) ausgeht, die Dichte
fX|Y (x|y)
= const.(y) · fX (x) · fY |X (y|x)
A posteriori Dichte ∝ A priori Dichte × Likelihood
hat. Trotz der einfachen Form der Bayesschen Formel ist es im Allgemeinen nicht trivial, Stichproben von der A-posteriori-Verteilung zu simulieren, und Erwartungswerte numerisch zu berechnen. Problematisch ist u.A., dass die Berechnung der normierungskonstanten die Auswertung
Universität Bonn
Wintersemester 2009/2010
294
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
eines (häufig hochdimensionalen) Integrals erfordert. Ein wichtiges Verfahren zur Simulation von
Stichproben in diesem Zusammenhang ist der Gibbs-Sampler.
Sind X und Y gemeinsam normalverteilt, dann kann man die wichtigsten Erwartungswerte bzgl.
der A-posteriori-Verteilung im Prinzip exakt berechnen. Wir demonstrieren dies nun in einem
grundlegenden Beispiel eines zweistufigen Modells. Ähnliche Modelle treten in zahlreichen Anwendungen auf.
Beispiel (Signalverarbeitung). Sei S = T = R1 , also
S × T = R2 = {(x, y) | x, y ∈ R}.
Wir interpretieren die erste Komponente x als Größe eines nicht direkt beobachtbaren Signals,
und die zweite Komponente y als verrauschte Beobachtung von x. In einem einfachen Bayesschen Modell nimmt man z.B. a priori an, dass Signal und Beobachtung normalverteilt sind:
Signal
x ∼ N (0, v) ,
v > 0,
Beobachtung
y ∼ N (x, ε) ,
ε > 0.
Die Verteilung der ersten Komponente und der Übergangskern zur zweiten Komponente sind
dann:
µ(dx) = fX (x) λ(dx)
p(x, dy) = fY |X (y|x) λ(dy)
mit den Dichten
x2
1
fX (x) := √
e− 2v
2πv
(y−x)2
1
e− 2ε
fY |X (y|x) := √
2πε
(Dichte der Verteilung der ersten Komponente X),
(bedingte Dichte der zweiten Komponente Y gegeben X = x).
Die gemeinsame Verteilung von Signal und Beobachtungswert ist
(µ ⊗ p)(dxdy) = µ(dx) p(x, dy)
(ε + v)x2 − 2vxy + vy 2
1
√ exp −
=
λ(dx)λ(dy)
2vε
2π vε
1 x
1
−1 x
√
exp −
·C
λ2 (dx dy).
=
2 y
y
2π det C
D.h. µ ⊗ p ist eine zweidimensionale Normalverteilung mit Kovarianzmatrix
!
v
v
C=
.
v v+ε
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG
295
Mit anderen Worten: Die gemeinsame Verteilung von X und Y ist absolutstetig bzgl. des zweidimensionalen Lebesguemaßes mit Dichte
fX,Y (x, y)
=
fX (x)fY |X (y|x)
=

x
1
1
√
exp −
2
2π det C
y
!⊤
· C −1
Als Dichte der Verteilung µp von Y ergibt sich:
Z
fY (y) = fX,Y (x, y) dx.
!
x
.
y
Nach der Bayesschen Formel erhalten wir für die A-posteriori dichte des Signals gegeben die
Beobachtung y:
fX,Y (x, y)
fY (y)
fX (x)fY |X (y|x)
= R
fX (x)fY |X (y|x) λ(dx)
ε+v
v
2
= const(y) · exp −
(x −
y) .
2vε
v+ε
fX|Y (x|y) :=
(9.1.5)
Die bedingte Verteilung des Signals gegeben die Beobachtung ist also N (x̂, u), wobei
v
x̂ =
y
der Prognosewert ist, und
v+ε
−1
vε
1 1
die Varianz der Prognose.
=
+
u =
v+ε
v ε
In einem Bayesschen Modell würden wir also nach der Beobachtung mit einer Standardabwei√
chung σ = u prognostizieren, dass der Signalwert gleich x̂ ist.
Ähnliche Modellierungsansätze werden auch in viel allgemeinerem Kontext verwendet. Beispielsweise wird in stochastischen Filterproblemen das Signal durch eine Markovkette (oder
einen zeitstetigen Markovprozess) beschrieben, und die Folge der Beobachtungen durch einen
von der Markovkette angetriebenen stochastischen Prozess. Sind alle gemeinsamen Verteilungen Gaußsch, dann kann man auch hier die a posteriori Verteilung im Prinzip exakt berechnen –
andernfalls muss man auf numerische Näherungsmethoden (z.B. Partikelfilter) zurückgreifen.
9.2 Summen unabhängiger Zufallsvariablen, Faltung
Seien X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ) mit Verteilungen µ bzw.
ν. Wir wollen die Verteilung von X + Y bestimmen. Für diskrete Zufallsvariablen ergibt sich:
X
X
P [X + Y = z] =
P [X = x, Y = z − x] =
µ(x)ν(z − x)
(9.2.1)
|
{z
}
x∈X(Ω)
Universität Bonn
=P [X=x]·P [Y =z−x]
x∈X(Ω)
Wintersemester 2009/2010
296
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Die Wahrscheinlichkeitsverteilung mit Massenfunktion
(µ ⋆ ν)(z)
X
=
x∈X(Ω)
µ(x)ν(z − x)
heißt Faltung von µ und ν. Eine entsprechende Aussage erhält man auch im allgemeinen Fall:
Verteilungen von Summen unabhängiger Zufallsvariablen
Satz 9.4. Seien X und Y unabhängige reellwertige Zufallsvariablen mit Verteilungen µ bzw. ν.
Dann ist die Verteilung von X + Y die durch
Z
(µ ⋆ ν)[B] :=
µ(dx) ν[B − x] ,
B ∈ B(R),
definierte Faltung der Wahrscheinlichkeitsverteilungen µ und ν.
Beweis. Sei B̃ := {(x, y) | x + y ∈ B}. Da X und Y unabhängig sind, erhalten wir mit dem
Satz von Fubini
P [X + Y ∈ B]
=
F ubini
=
P [(X, Y ) ∈ B̃] = (µ ⊗ ν)[B̃]
Z
Z
µ(dx) ν(dy)IB (x + y) =
| {z }
=IB−x (y)
Z
µ(dx) ν[B − x].
Bemerkung. Die Faltung µ⋆ν zweier Wahrscheinlichkeitsverteilungen µ und ν auf R1 ist wieder
eine Wahrscheinlichkeitsverteilung auf R1 . Da die Addition von Zufallsvariablen kommutativ
und assoziativ ist, hat die Faltung von Wahrscheinlichkeitsverteilungen nach Satz 9.4 dieselben
Eigenschaften:
µ⋆ν = ν⋆µ
(da X + Y = Y + X)
(µ ⋆ ν) ⋆ η = µ ⋆ (ν ⋆ η)
(9.2.2)
(da (X + Y ) + Z = X + (Y + Z) ).
(9.2.3)
Im diskreten Fall ist µ ⋆ ν nach (9.2.2) die Wahrscheinlichkeitsverteilung mit Gewichten
(µ ⋆ ν)(z)
=
X
x
µ(x)ν(z − x).
Eine entsprechende Berechnungsformel ergibt sich auch für absolutstetige Wahrscheinlichkeitsverteilungen:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG
297
Lemma 9.5. Ist ν absolutstetig mit Dichte g, dann ist auch µ ⋆ ν absolutstetig mit Dichte
̺(z) =
Z
µ(dx) g(z − x).
Ist zusätzlich auch µ absolutstetig mit Dichte f , dann gilt
̺(z) =
Z
R
f (x) g(z − x) dx =: (f ⋆ g)(z)
Beweis. Wegen der Translationsinvarianz des Lebesguemaßes gilt
(µ ⋆ ν)[B] =
Z
µ(dx)ν[B − x] =
Z
Z
Z Z
F ub.
µ(dx)
g(y)dy =
µ(dx)g(z − x) dz .
B−x
B
| R {z
}
=
B
g(z−x)dz
Also ist µ ⋆ ν absolutstetig mit Dichte ̺. Die zweite Behauptung folgt unmittelbar.
Beispiel. (1). Sind X und Y unabhängig, und Bin(n, p) bzw. Bin(m, p)-verteilt, dann ist X +Y
eine Bin(n + m, p)-verteilte Zufallsvariable. Zum Beweis bemerkt man, daß die gemeinsame Verteilung von X und Y mit der gemeinsamen Verteilung von Z1 + ... + Zn und
Zn+1 + ... + Zn+m übereinstimmt, wobei die Zufallsvariablen Zi (1 ≤ i ≤ n + m) unabhängig und Bernoulli(p)-verteilt sind. Also folgt:
µX+Y = µZ1 +...+Zn +Zn+1 +...+Zn+m = Bin(n + m, p) .
Als Konsequenz erhalten wir (ohne zu rechnen):
Bin(n, p) ⋆ Bin(m, p) = Bin(n + m, p) ,
d.h. die Binomialverteilungen bilden eine Faltungshalbgruppe. Explizit ergibt sich:
l
X
n+m l
m
n k
l−k
m−(l−k)
n−k
p (1 − p)n+m−l ,
p (1 − p)
=
p (1 − p)
l
l
−
k
k
k=0
d.h.
l
X
n
m
n+m
=
.
k
l−k
l
k=0
(9.2.4)
Die kombinatorische Formel (9.2.4) ist auch als Vandermonde-Identität bekannt.
Universität Bonn
Wintersemester 2009/2010
298
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
(2). Sind X und Y unabhängig und Poisson-verteilt mit Parametern λ bzw. λ̃, dann ist X + Y
Poisson-verteilt mit Parameter λ + λ̃, denn nach der Binomischen Formel gilt für n ≥ 0:
(µX ⋆ µY )(n) =
n
X
k=0
µX (k) · µY (n − k)
n
X
λk −λ
λ̃n−k
=
e ·
e−λ̃
k!
(n
−
k)!
k=0
−λ+λ̃
= e
n
X
λk λ̃n−k
·
k! (n − k)!
k=0
(λ + λ̃)n
.
n!
Also bilden auch die Poissonverteilungen eine Faltungshalbgruppe:
= e−λ+λ̃ ·
Poisson(λ) ⋆ Poisson(λ̃) = Poisson(λ + λ̃)
(3). Sind X und Y unabhängig und normalverteilt mit Parametern (m, σ 2 ) bzw. (m̃, σ̃ 2 ), dann
ist X + Y normalverteilt mit Parametern (m + m̃, σ 2 + σ̃ 2 ), siehe ??. Dies verifiziert man
leicht mithilfe der charakteristischen Funktionen. Die Normalverteilungen bilden also eine
zweiparametrige Faltungshalbgruppe.
Wartezeiten, Gamma-Verteilung
] Seien T1 , T2 , ... sukzessive Wartezeiten auf das Eintreten eines unvorhersehbaren Ereignisses.
In einem einfachen Modell nehmen wir an, daß die Ti (i ∈ N) unabhängige exponentialverteilte
Zufallsvariablen sind, d.h. die Verteilungen der Ti sind absolutstetig mit Dichte
f (t) = λ · e−λt · I(0,∞) (t) .
Die Verteilung der Gesamtwartezeit
Sn = T1 + ... + Tn
bis zum n-ten Ereignis ist dann
µSn = µT1 ⋆ µT2 ⋆ ... ⋆ µTn .
Insbesondere ist die Verteilung von S2 absolutstetig mit Dichte
Z
Z s
Z s
2 −λx −λ(s−x)
2 −λs
(f ⋆ f )(s) =
f (x) f (s − x) =
λe e
dx = λ e
dx = λ2 se−λs
|{z}
{z
}
|
R
0
0
=0
f ür x<0
=0
f ür x>s
für s ≥ 0, bzw. (f ⋆ f )(s) = 0 für s < 0. Durch Induktion ergibt sich allgemein:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG
299
Lemma 9.6. Die Verteilung von Sn ist absolutstetig mit Dichte
fλ,n (s) =
wobei
Γ(n) :=
Z
λn
· sn−1 · e−λs · I(0,∞) (s) ,
Γ(n)
∞
0
n∈N
tn−1 e−t dx = (n − 1)! .
Definition. Die Wahrscheinlichkeitsverteilung auf R+ mit Dichte fλ,n heißt Gammaverteilung
mit Parametern λ, n ∈ (0, ∞).
1
1
2
3
4
Abbildung 9.2: Dichtefunktionen der Gammaverteilung Γ1,n für verschiedene n.
Die Gammaverteilung ist auch für nicht-ganzzahlige n definiert, Γ ist dann die Eulersche Gammafunktion. Für n = 1 ergibt sich die Exponentialverteilung als Spezialfall der Gammaverteilung. Allgemein gilt:
Γ(λ, r) ⋆ Γ(λ, s)
=
Γ(λ, r + s) ,
d.h. die Gammaverteilungen mit festem Parameter λ bilden eine Faltungshalbgruppe.
Durch Anwenden des zentralen Grenzwertsatzes auf die Zufallsvariable Sn erhalten wir:
Korollar 9.7 (Normalapproximation der Gammaverteilungen). Sei λ > 0. Dann gilt für
Γ(λ, n) verteilte Zufallsvariablen Sn :
n−1/2 · Sn − nλ−1
Universität Bonn
D
→
N (0, λ−2 )
für n → ∞.
Wintersemester 2009/2010
300
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Bemerkung (Poissonprozess). Die Anzahl der bis zur Zeit t ≥ 0 eingetretenen Ereignisse im
obigen Modell ist
Nt = max{n ≥ 0 | Sn ≤ t} .
Die Zufallsvariablen Nt sind Poissonverteilt mit Parameter λ · t (Übung). Die Kollektion Nt (t ≥
0) der Zufallsvariablen heißt Poissonprozess mit Intensität λ. Der Poissonprozess ist ein mo-
noton wachsender stochastischer Prozess mit ganzzahligen Werten. Er ist selbst eine zeitstetige
Markovkette und ist von grundlegender Bedeutung für die Konstruktion allgemeiner Markovketten in kontinuierlicher Zeit. Wir werden den Poissonprozess in der Vorlesung „Stochastische
Prozesse“ genauer betrachten.
9.3
Transformationen, Gaußmodelle und Parameterschätzung
Der Dichtetransformationssatz
Allgemein gibt es zwei ganz verschiedene Arten, eine Wahrscheinlichkeitsverteilung µ(dx) zu
transformieren:
(1). Koordinatentransformation:
(2). Maßwechsel durch Dichte:
y = φ(x),
µ(dx) → µ ◦ φ−1 (dy)
µ(dx) → ̺(x)µ(dx).
In bestimmten regulären Fällen lassen sich beide Transformationen in Beziehung setzen: Ein
Koordinatenwechsel hat denselben Effekt wie eine absolutstetige Maßtransformation mit einer
geeigneten Dichte ̺. Wir demonstrieren dies hier im Fall absolutstetiger Verteilungen im Rd . Die
entsprechende Koordinatentransformationsformel verwenden wir dann, um multivariate Normalverteilungen, und verschiedene für die Statistik zentrale Verteilungen zu untersuchen.
Seien S, T ⊆ Rn offen, und sei X : Ω → S eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit absolutstetiger Verteilung µX mit Dichte fX .
Satz 9.8 (Mehrdimensionaler Dichtetransformationssatz). Ist φ : S → T ein Diffeomorphis-
mus (C 1 ) mit det Dφ(x) 6= 0 für alle x ∈ S, dann ist die Verteilung von φ(X) absolutstetig mit
Dichte
fφ(X) (y) = fX (φ−1 (y)) · | det Dφ−1 (y)|,
∂xi
wobei det Dφ−1 (y) = det( ∂y
) die Jacobideterminante der Koordinatentransformation ist.
j
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
301
Beweis. Die Behauptung folgt aus dem Transformationssatz der multivariaten Analysis:
P [φ(X) ∈ B] = P [X ∈ φ−1 (B)]
Z
Z
Subst.
=
fX (x) dx =
fX (φ−1 (y)) · | det Dφ−1 (y)| dy .
φ−1 (B)
B
Beispiel (Sukzessive Wartezeiten). Seien T und T̃ unabhängige, zum Parameter λ > 0 exponentialverteilte Zufallsvariablen (z.B. sukzessive Wartezeiten), und sei S = T + T̃ . Nach dem
Dichtetransformationssatz gilt dann
∂(t, s − t)
|
∂(t, s)
∝ e−λt · I(0,∞) (t) · e−λ(s−t) · I(0,∞) (s − t)
fT,S (t, s) = fT,T̃ (t, s − t) · | det
= e−λs · I(0,s) (t).
Somit ist die bedingte Dichte fS|T (s|t) für festes t > 0 proportional zu e−λs · I(t,∞) (s). Dies ist
auch anschaulich sofort plausibel, da s eine um die unabhängige Zufallsvariable T verschobene
exponentialverteilte Zufallsvariable ist.
Interessanter ist die Berechnung der bedingten Dichte von T gegeben S: Für festes s > 0 ist
fT |S (t|s) proportional zu I(0,s) (t), d.h.
fT |S (t|s)
=
1
· I(0,s) (t).
s
Gegeben die Summe S der beiden Wartezeiten ist die erste Wartezeit T also gleichverteilt auf
[0, S]!
Wir betrachten nun verschiedene weiterreichende Anwendungen des Dichtetransformationssatzes.
Multivariate Normalverteilungen und multivariater ZGS
Sei Z = (Z1 , Z2 , ..., Zd ) mit unabhängigen, N (0, 1)-verteilten Zufallsvariablen Zi . Die Verteilung des Zufallsvektors Z ist dann absolutstetig bzgl. des Lebesguemaßes im Rd mit Dichte
d
Y
x2
|x|2
d
1
i
√ e− 2 = (2π)− 2 e− 2
fZ (x) =
2π
i=1
(d-dimensionale Standardnormalverteilung).
Sei nun m ∈ Rd und σ ∈ Rd×d eine d × d-Matrix. Wir betrachten den Zufallsvektor
Y = σZ + m .
Universität Bonn
Wintersemester 2009/2010
302
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Wir zeigen zunächst, dass Y Erwartungswert m und Kovarianzmatrix C = σσ T hat, und berechP
nen die charakteristische Funktion: Erwartungswert: E[Yi ] = dk=1 σik E[Zk ] + mi = mi
.
Kovarianz:
P
P
Cov(Yi , Yj ) = Cov( k σik Zk + mi , l σjl Zl + mj )
P
P
= k,l σik σjl · Cov(Zk , Zl ) = k σik σjk = Cij .
Für einen Vektor p ∈ Rd gilt
h T
i
1 T 2
ϕY (p) := E eip·Y = E ei(σ p)·Z eip·m = e− 2 |σ p| +ip·m
Charakteristische Funktion:
1
= e− 2 p·Cp+ip·m .
(9.3.1)
Ist σ regulär, dann können wir die Dichte der Verteilung von Y sofort mithilfe des Transformationssatzes explizit berechnen:
fY (y) = fX (σ −1 (y − m)) · | det σ −1 |
1
1
−1
= p
exp − (y − m)C (y − m) .
2
(2π)d | det C|
Auch im Rd ist eine Wahrscheinlichkeitsverteilung durch ihre charakteristische Funktion eindeutig festgelegt, s. z.B. Bauer: Wahrscheinlichkeitstheorie. Allgemein (also auch für nicht reguläre
σ) können wir die Verteilung von Y auch über die Fourierinversionsformel berechnen.
Definition. Sei m ∈ Rd und C ∈ Rd×d eine symmetrische, nicht-negativ definite Matrix. Die
Verteilung N (m, C) im Rd mit charakteristischer Funktion φY = exp(− 12 pĊp + ipm) heißt
d-dimensionale Normalverteilung mit Mittel m und Kovarianzmatrix C.
Bemerkung/Übung. Mithilfe von charakteristischen Funktionen beweist man die folgenden
Transformationsformeln und Charakterisierungen für multivariate Normalverteilungen:
(1). Für a ∈ Rk und A ∈ Rk×d gilt
X ∼ N (m, C) ⇒ AX + a ∼ N (Am + a, ACAT ).
(2). Folgende Aussagen sind äquivalent:
• X ∼ N (0, C) ist multivariat normalverteilt mit Kovarianzmatrix C.
• p · X ∼ N (0, p · Cp)
∀ p ∈ Rd .
Auch im Rd gilt ein zentraler Grenzwertsatz :
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
303
Satz 9.9 (Multivariater zentraler Grenzwertsatz). Seien X1 , X2 , ... : Ω → Rd unabhängige,
identisch verteilte, quadratintegrierbare Zufallsvektoren auf (Ω, A, P ), und sei Sn = X1 + . . . +
Xn . Dann gilt
Sn − E[Sn ] D
√
−→ Z ∼ N (0, C),
n
wobei Cjk = Cov(X1,j , X1,k ) die Kovarianzmatrix der Zufallsvektoren Xi ist.
Der Beweis basiert auf folgender Charakterisierung der schwachen Konvergenz von Zufallsvektoren:
Lemma 9.10 (Cramér-Wold Device). Für Zufallsvariablen Y, Y1 , Y2 , ... : Ω → Rd gilt:
D
Yn −→ Y
⇔
D
∀ p ∈ Rd .
p · Yn −→ p · Y
Beweisskizze. Die Richtung „⇒“ ist klar, da Y 7→ p · Y stetig ist. Umgekehrt gilt:
D
p · Yn −→ p · Y ⇒ E[exp(ip · Yn )] → E[exp(ip · Y )] ∀ p ∈ Rd .
Mit einem ähnlichen Beweis wie im R1 folgt dann aus der Konvergenz der charakteristischen
D
Funktionen die schwache Konvergenz Yn −→ Y . Um die relative Kompaktheit zu zeigen (Satz
von Helly-Bray), verwendet man dabei im Rd die multivariaten Verteilungsfunktionen
(x1 , . . . , xd ) ∈ Rd .
Fn (x1 , ..., xd ) := P [Yn,1 ≤ x1 , ..., Yn,d ≤ xd ],
Wir beweisen nun den zentralen Grenzwertsatz:
Beweis. Für p ∈ Rd gilt nach dem eindimensionalen zentralen Grenzwertsatz:
n
1 X
Sn − E[Sn ]
√
= √
p·
(p · Xi − E[p · Xi ])
n
n i=1
D
−→ N (0, Var[p · X1 ]) = N (0, p · Cp),
da
Var[p · X1 ] = Cov
"
X
k
pk X1,k ,
X
#
pk X1,l =
l
X
k,l
pk pl Ckl = p · Cp.
Ist Y ein N (0, C)-verteilter Zufallsvektor, dann ist N (0, p · Cp) die Verteilung von p · Y . Mithilfe
der Cramér-Wold Device folgt also
√
(Sn − E[Sn ])/ n
Universität Bonn
D
→
Y.
Wintersemester 2009/2010
304
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Beispiel (Vom Random walk zur Brownschen Bewegung). Sei Sn = X1 + ... + Xn , wobei die
Xi unabhängige Zufallsvariablen mit
E[Xi ] = 0 und Var[Xi ] = 1
sind. Beispielsweise ist Sn ein klassischer Random Walk. Um einen stochastischen Prozeß in
kontinuierlicher Zeit zu erhalten, interpolieren wir n 7→ Sn linear. Anschließend reskalieren wir
in Raum und Zeit, und setzen
(n)
S̃t
1
:= √ Snt ,
n
t ∈ R+ .
GRAPHIK SKALIERTER RANDOM WALK
Aus dem Zentralen Grenzwertsatz folgt:
(n)
S̃t
=
√
1
D
t √ Snt −→ ∼ N (0, t)
nt
für jedes feste t ∈ R+ ,
(n)
d.h. die eindimensionalen Randverteilungen der Prozesse S̃ (n) = (S̃t )t≥0 konvergieren. Allgemeiner zeigt man mithilfe des multivariaten zentralen Grenzwertsatzes, dass auch endlich dimensionale Randverteilungen schwach konvergieren:
D
(n)
(n)
(n)
S̃t1 , S̃t2 , ..., S̃tk
−→ (Bt1 , ..., Btk ) ,
für alle 0 ≤ t1 < t2 < . . . < tk , k ∈ N,
wobei (Bt1 , ..., Btk ) multivariat normalverteilt ist mit
E[Btj ] = 0
und
Cov[Btj , Btk ] = min(tj , tk ).
Eine noch allgemeinere Aussage erhält man mithilfe eines funktionalen zentralen Grenzwertsatzes (Invarianzprinzip von Donsker, ZGS auf dem Banachraum C([0, 1], R)): Der gesamte
(n)
stochastische Prozess (S̃t )0≤t≤1 konvergiert in Verteilung gegen eine Brownsche Bewegung
(Bt )0≤t≤1 . Mehr dazu in den weiterführenden Vorlesungen »Stochastische Prozesse« und »Grundzüge der stochastischen Analysis«.
Wir betrachten noch eine weitere Anwendung des Dichtetransformationssatzes auf Normalverteilungen.
Beispiel (χ2 -Verteilungen). Wir berechnen nun die Verteilung vom Quadrat des Abstandes vom
Ursprung eines standardnormalverteilten Zufallsvektors im Rd :
Z = (Z1 , ..., Zd ) ∼ N (0, Id ),
Einführung in die Wahrscheinlichkeitstheorie
2
kZk =
d
X
Zi2 .
i=1
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
Wegen f|Zi | (x) =
√2
2π
2
mit Y = φ(x) := x :
305
x2
e− 2 · I(0,∞) (x) folgt durch Anwenden des Dichtetransformationssatzes
fZi2 (y) =
r
1
2 −y
e 2 · I(0,∞) (y) · √ ,
π
2 y
d.h. Zi2 ist Γ( 21 , 12 )-verteilt. Da die Zufallsvariablen Zi2 , 1 ≤ i ≤ d, unabhängig sind, folgt:
2
||Z|| =
d
X
Zi2
i=1
∼ Γ
Definition. Die Gamma-Verteilung mit Parametern
1
2
1 d
,
2 2
und
d
2
.
heißt auch Chiquadrat-Verteilung
2
χ (d) mit d Freiheitsgraden.
Parameterschätzung im Gaußmodell
Angenommen, wir beobachten reellwertige Meßwerte (Stichproben, Daten), die von einer unbekannten Wahrscheinlichkeitsverteilung µ auf R stammen. Ziel der Statistik ist es, Rückschlüsse
auf die zugrundeliegende Verteilung aus den Daten zu erhalten. Im einfachsten Modell (Gaußmodell) nimmt man an, daß die Daten unabhängige Stichproben von einer Normalverteilung mit
unbekanntem Mittelwert und/oder Varianz sind:
µ = N (m, v),
m, v unbekannt.
Eine partielle Rechtfertigung für die Normalverteilungsannahme liefert der zentrale Grenzwertsatz. Letztendlich muß man aber in jedem Fall überprüfen, ob eine solche Annahme gerechtfertigt ist.Ein erstes Ziel ist es nun, den Wert von m auf der Basis von n unabhängigen Stichproben
X1 (ω) = x1 , . . . , Xn (ω) = xn zu schätzen, und zu quantifizieren.
Problemstellung: Schätzung des Erwartungswerts
• Schätze m auf der Basis von n unabhängigen Stichproben X1 (ω), ..., Xn (ω) von µ.
• Herleitung von Konfidenzintervallen.
Im mathematischen Modell interpretieren wir die Beobachtungswerte als Realisierungen von unabhängigen Zufallsvariablen X1 , . . . , Xn . Da wir die tatsächliche Verteilung nicht kennen, untersuchen wir alle in Betracht gezogenen Verteilungen simultan:
X1 , . . . , Xn ∼ N (m, v)
Universität Bonn
unabhängig unter Pm,v .
(9.3.2)
Wintersemester 2009/2010
306
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Ein naheliegender Schätzer für m ist der empirische Mittelwert
X n (ω) :=
X1 (ω) + ... + Xn (ω)
.
n
Wir haben oben bereits gezeigt, dass dieser Schätzer erwartungstreu (unbiassed) und konsistent
ist, d.h. für alle m, v gilt:
Em,v [X n ] = m
und
X n → m Pm,v -stochastisch für n → ∞.
Wie wir den Schätzfehler quantifizieren hängt davon ab, ob wir die Varianz kennen.
Schätzung von m bei bekannter Varianz v.
Um den Schätzfehler zu kontrollieren, berechnen wir die Verteilung von X n :
Xi ∼ N (m, v) unabh. ⇒ X1 + ... + Xn ∼ N (nm, nv)
v
⇒ X n ∼ N (m, )
n
Xn − m
⇒ p
∼ N (0, 1)
v/n
Bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, dann erhalten wir
r 1
v
= N (0, 1)(−q, q) = 2 Φ(q) −
für alle m ∈ R.
Pm,v |X n − m| < q
n
2
Satz 9.11. Im Gaußmodell (9.3.2) mit bekannter Varianz v ist das zufällige Intervall
r
r v
v
X n − Φ−1 (α)
, X n + Φ−1 (α)
n
n
ein (2α − 1) · 100% Konfidenzintervall für m, d.h.
Pm,v [m ∈ Intervall] ≥ 2α − 1
für alle m ∈ R.
Man beachte, daß die Länge des Konfidenzintervalls in diesem Fall nicht von den beobachteten
Stichproben abhängt!
Schätzung von m bei unbekannter Varianz v. In Anwendungen ist meistens die Varianz unbekannt. In diesem Fall können wir das Intervall oben nicht verwenden, da es von der unbekannten Varianz v abhängt. Stattdessen schätzen wir m und v simultan, und konstruieren ein
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
307
Konfidenzintervall für m mithilfe beider Schätzwerte. Erwartungstreue Schätzer für m und v
sind
n
Xn
n
1X
=
Xi
n i=1
und
1 X
Vn =
(Xi − X n )2 .
n − 1 i=1
Um ein Konfidenzintervall für m zu erhalten, bestimmen wir mithilfe des Transformationssatzes
die gemeinsame Verteilung von X n und Vn :
Lemma 9.12. X n und Vn sind unabhängig unter Pm,v mit Verteilung
v
n−1
X n ∼ N m,
Vn ∼ χ2 (n − 1) .
,
n
v
Beweis. Wir führen eine lineare Koordinatentransformation Y = OX durch, wobei O eine orthogonale n × n-Matrix vom Typ
O=
√1 ... √1
n
n
beliebig
ist. Eine solche Matrix erhalten wir durch Ergänzen des normierten Vektors ( √1n , ..., √1n ) zu einer
Orthonormalbasis des Rn . In den neuen Koordinaten gilt:
n
Xn
=
(n − 1)Vn
=
1X
1
Xi = √ Y1 ,
n i=1
n
n
X
i=1
O orthogonal
=
(Xi − X n )2 =
||Y ||2Rn − Y12 =
und
n
X
i=1
n
X
2
2
Xi2 − nX n = ||X||2Rn − nX n
Yi2 .
i=2
Da die Zufallsvariablen Xi (1 ≤ i ≤ n) unabhängig und N (m, v)-verteilt sind, ist der Zufalls-
vektor X = (X1 , ..., Xn ) multivariat normalverteilt mit Mittel (m, . . . , m) und Kovarianzmatrix
v · In . Nach dem Transformationssatz folgt
 √ 

  

m n



m





 .
0



T



.
Y ∼ N O  .  , v · OIn O  = N  .  , v · In  .
.
 . 




m
0
Also sind Y1 , ..., Yn unabhängige Zufallsvariablen mit Verteilungen
√
Y1 ∼ N (m n, v) , Yi ∼ N (0, v) für i ≥ 2.
Es folgt, dass
Y1
Xn = √
n
n
und
X
n−1
Vn =
v
i=2
Y
√i
v
2
unabhängige Zufallsvariablen mit Verteilungen N (m, nv ) bzw. χ2 (n − 1) sind.
Universität Bonn
Wintersemester 2009/2010
308
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Bei bekannter Varianz v hatten wir Konfidenzintervalle für m vom Typ X n ±q ·
pv
n
erhalten, wo-
bei q ein geeignetes Quantil der Standardnormalverteilung ist. Daher
q liegt es nahe, zu versuchen,
bei unbekannter Varianz Konfidenzintervalle vom Typ X n ± q ·
"
Pm,v |X n − m| ≥ q
r
Tn−1 :=
Vn
n
√
#
Vn
n
herzuleiten. Es gilt:
= Pm,v [|Tn−1 | ≥ q]
mit
n · (X n − m)
√
.
Vn
Die Zufallsvariable Tn−1 heißt Studentsche t-Statistik mit n − 1 Freiheitsgraden.1 Unsere
Überlegungen zeigen, dass wir aus Quantilen der Studentschen t-Statistik Konfidenzintervalle
für das Gaußmodell herleiten können. Wir müssen nur noch die Verteilung von Tn berechnen:
Satz 9.13 (Student2 ). Die Verteilung von Tn ist absolutstetig mit Dichte
fTn (t)
=
B
1 n
,
2 2
−1
·n
−1/2
t2
· 1+
2
−n/2
(t ∈ R).
»Studentsche t-Verteilung mit n Freiheitsgraden«. Hierbei ist
Z ∞
n
1 n
1
B
=√
,
(1 + s2 )− 2 ds
2 2
n −∞
die Eulersche Beta-Funktion, die als Normierungsfaktor auftritt.
Insbesondere ist das zufällige Intervall
Xn ± q ·
r
Vn
n
ein 100 · (1 − 2α)% Konfidenzintervall für m, falls
(1 − α)
q = FT−1
n−1
ein (1 − α)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden ist.
Beweis. Direkt oder mithilfe des Transformationssatzes zeigt man: Sind
q Z und Y unabhängige
Zufallsvariablen mit Verteilungen N (0, 1) bzw. χ2 (n − 1), dann ist Z/
1
Y
n−1
absolutstetig mit
dichte fTn−1 .
1
In der Statistik bezeichnet man eine meßbare Funktion der Beobachtungsdaten als Statistik - ein (Punkt-) Schät-
zer ist eine Statistik, die zum Schätzen eines unbekannten Parameters verwendet wird, ein Konfidenzintervall nennt
man auch Intervallschätzer.
2
Synonym von W. S. Gosset, der als Angestellter der Guiness-Brauerei nicht publizieren durfte.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
309
Der Satz folgt dann nach Lemma 9.12 mit
Xn − m
Z := p
v/n
und
Y :=
n−1
Vn .
v
Bemerkung (Nichtparametrische und Verteilungsunabhängige Konfidenzintervalle). In Anwendungen ist es oft unklar, ob eine Normalverteilungsannahme an die Beobachtungswerte gerechtfertigt ist. Zudem können einzelne größere Ausreißer in den Daten (z.B. aufgrund von Messfehlern) das Stichprobenmittel relativ stark beeinflussen. Der Stichprobenmedian ist dagegen in
den meisten Fällen ein deutlich stabilerer Schätzwert für den Median der zugrundeliegenden
Verteilung, und die in Abschnitt 5.1 hergeleiteten, auf Ordnungsstatistiken basierenden, Konfidenzintervalle für den Median und andere Quantile werden ebenfalls in der Regel weniger stark
durch Ausreißer beeinflusst. Zudem gelten diese Konfidenzintervalle simultan für alle stetigen
Verteilungen. Ist man sich daher nicht sicher, ob eine Normalverteilungsannahme aufgrund der
Daten gerechtfertigt ist, empfiehlt es sich, auf die stabileren Ordnungsintervalle zurückzugreifen.
Beispiel. (NOCH EINZUFÜGEN)
Exkurs zu Hypothesentests
In Anwendungen werden statistische Aussagen häufig nicht über Konfidenzintervalle, sondern
als Hypothesentest formuliert. Mathematisch passiert dabei nichts wirklich Neues – es handelt
sich nur um eine durch praktische Erwägungen motivierte Umformulierung derselben Resultate:
Angenommen, wir haben n unabhängige reellwertige Stichproben X1 , ..., Xn von einer unbekannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus
einer Familie µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt, z.B. der Familie aller
Normalverteilungen µm,v , θ = (m, v) ∈ R × R+ . Die gemeinsame Verteilung von X1 , . . . , Xn
n
N
µθ . Sei nun Θ0 eine Teilmenge des Parameterbereichs. Wir
ist dann das Produktmaß µnθ =
i=1
wollen entscheiden zwischen der
Nullhypothese H0 :
»θ ∈ Θ0 «
und der
Alternative H1 :
Universität Bonn
»θ 6∈ Θ0 «
Wintersemester 2009/2010
310
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Ein Hypothesentest für ein solches Problem ist bestimmt durch eine meßbare Teilmenge C ⊆ Rn
(den Verwerfungsbereich) mit zugehöriger Entscheidungsregel:
Akzeptiere H0 ⇐⇒ (X1 , ..., Xn ) ∈
/ C.
Beispiel (t-Test). Seien X1 , X2 , . . . , Xn unabhängige Stichproben von einer Normalverteilung
mit unbekanntem Parameter (m, v) ∈ Θ = R × R+ . Wir wollen testen, ob der Mittelwert der
Verteilung einen bestimmten Wert m0 hat:
Nullhypothese H0 :
»m = m0 « ,
Θ0 = {m0 } × R+ .
Ein solches Problem tritt z.B. in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob
ein Sollwert m0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,
wobei Xi die Differenz der mit beiden Verfahren erhaltenen Meßwerte ist. Die Nullhypothese
mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.
Im t–Test für obiges Testproblem wird die Nullhypothese akzeptiert, falls der Betrag der Studentschen t-Statistik unterhalb einer angemessen zu wählenden Konstanten c liegt, bzw. verworfen,
falls
gilt.
√
n · (X n − m0 ) > c
√
|Tn−1 | = Vn
Seien nun allgemein X1 , X2 , . . . unter Pθ unabhängige Zufallsvariablen mit Verteilung µθ . Bei
einem Hypothesentest können zwei Arten von Fehlern auftreten:
Fehler 1. Art: H0 wird verworfen, obwohl wahr. Die Wahrscheinlichkeit dafür beträgt:
Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C] ,
θ ∈ Θ0 .
Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Die Wahrscheinlichkeit beträgt:
Pθ [(X1 , ..., Xn ) ∈
/ C] = µnθ [C C ] ,
θ ∈ Θ \ Θ0 .
Obwohl das allgemeine Testproblem im Prinzip symmetrisch in H0 und H1 ist, interpretiert man
beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die
Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeugen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht
vorhanden) unterhalb einer vorgegebenen (kleinen) Schranke α liegen. Die Wahrscheinlichkeit
µnθ [C] ,
θ ∈ Θ \ Θ0 ,
daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
311
Definition. Die Funktion
G(θ) = Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C]
heißt Gütefunktion des Tests. Der Test hat Niveau α, falls
G(θ) ≤ α
für alle θ ∈ Θ0
gilt. Die Funktion G(θ) mit θ ∈ Θ1 heißt Macht des Tests.
Aus Satz 9.13 und der Symmetrie der Studentschen t-Verteilung folgt unmittelbar:
Korollar 9.14. Der Studentsche t-Test hat Niveau α falls c ein (1 − α2 )-Quantil der Studentschen
t-Verteilung mit n − 1 Freiheitsgraden ist.
Allgemeiner gilt:
Satz 9.15 (Korrespondenz Konfidenzintervalle ↔ Hypothesentests). Für einen reellwertigen
Parameter γ = c(θ), ein Irrtumsniveau α ∈ (0, 1), und messbare Abbildungen (Statistiken)
γ̂, ε : Rn → R sind äquivalent:
(i) Das Intervall
[γ̂(X1 , . . . , Xn ) − ε(X1 , . . . , Xn ) , γ̂(X1 , . . . , Xn ) + ε(X1 , . . . , Xn )]
ist ein (1 − α) · 100 % Konfidenzintervall für γ.
(ii) Für jedes γ0 ∈ R ist
C = {(x1 , ..., xn ) : |γ̂(x1 , . . . , xn ) − γ0 | > ε(x1 , . . . , xn )}
der Verwerfungsbereich eines Test der Nullhypothese γ = γ0 zum Niveau α.
Beweis. Das Intervall ist genau dann ein Konfidenzintervall für γ zum Irrtumsniveau α, wenn
Pθ [|γ̂(X1 , . . . , Xn ) − c(θ)| > ε(X1 , ..., Xn )] ≤ α
∀θ∈Θ
gilt, also wenn der entsprechende Test der Nullhypothesen c(θ) = γ0 für jedes γ0 Niveau α
hat.
Universität Bonn
Wintersemester 2009/2010
Kapitel 10
Bedingte Erwartungen
10.1
Bedingen auf diskrete Zufallsvariablen
Zur Analyse von stochastischen Modellen mit Abhängigkeiten verwendet man in der Regel bedingte Wahrscheinlichkeiten und Erwartungswerte gegeben die Werte von Zufallsvariablen. Beispielsweise beschreibt man einen stochastischen Prozess Xn , n ∈ N, durch die bedingten Ver-
teilungen des nächsten Zustands Xn+1 gegeben den Verlauf X0:n = (X0 , X1 , . . . , Xn ) bis zur
Zeit n. Wir betrachten zunächst das Bedingen auf den Ausgang einer diskreten Zufallsvariable
Y : Ω → S, S abzählbar. In diesem Fall können wir die bedingte Wahrscheinlichkeitsverteilung
P [A | Y = z]
=
P [A ∩ {Y = z}]
,
P [Y = z]
A ∈ A,
und die bedingten Erwartungswerte
E[X | Y = z]
=
E[X; Y = z]
,
P [Y = z]
X ∈ L1 (ΩA, P ),
für alle z ∈ S mit P [Y = z] > 0 auf elementare Weise wie in Abschnitt 2.1 definieren. Für z ∈ S
mit P [Y = z] = 0 sind die bedingten Wahrscheinlichkeiten nicht definiert.
Bedingte Erwartungen als Zufallsvariablen
Es wird sich als praktisch erweisen, die bedingten Wahrscheinlichkeiten und Erwartungswerte
nicht als Funktion des Ausgangs z, sondern als Funktion der Zufallsvariable Y zu interpretieren.
Die bedingten Wahrscheinlichkeiten und Erwartungswerte sind dann selbst Zufallsvariablen:
312
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN
313
Definition. Sei X : Ω → R eine Zufallsvariable mit E[X − ] < ∞, und Y : Ω → S eine diskrete
Zufallsvariable. Die durch
E[X | Y ]
mit
g(z)
:=
:=
g(Y )
=
X
z∈S

E[X | Y = z]
beliebig
g(z) · I{Y =z}
falls P [Y = z] > 0
falls P [Y = z] = 0
P -fast sicher eindeutig definierte Zufallsvariable E[X | Y ] heißt (Version der) bedingte(n) Er-
wartung von X gegeben Y . Für ein Ereignis A ∈ A heißt die Zufallsvariable
P [A | Y ]
:=
E[IA | Y ]
(Version der) bedingte(n) Wahrscheinlichkeit von A gegeben Y .
Die bedingte Erwartung E[X | Y ] und die bedingte Wahrscheinlichkeit P [A | Y ] sind also Zufallsvariablen mit den Werten E[X | Y = z] bzw. P [A | Y = z] auf den Mengen {Y = z}, z ∈ S
mit P [Y = z] > 0. Auf jeder der Nullmengen {Y = z}, z ∈ S mit P [Y = z] = 0, wird der
bedingten Erwartung ein willkürlicher konstanter Wert zugewiesen, d.h. die Definition ist nur
P -fast überall eindeutig. Wir fassen zunächst einige elementare Eigenschaften der so definierten
bedingten Erwartung zusammen:
Lemma 10.1 (Eigenschaften der bedingten Erwartung).
(1). Die Abbildung X 7→ E[X | Y ] ist P -fast sicher linear und monoton.
(2). Sind X und Y unabhängig, dann gilt E[X | Y ] = E[X] P -fast sicher;
(3). Herausziehen, was bekannt ist:
Für alle f : S → R mit f (Y ) · X ≥ 0 bzw. f (Y ) · X ∈ L1 gilt
E[f (Y ) · X | Y ] = f (Y ) · E[X | Y ]
P -fast sicher.
Insbesondere gilt
E[f (Y ) | Y ] = f (Y )
Beweis.
P -fast sicher.
(2). Sind X und Y unabhängig, dann gilt
E[X | Y = z]
Universität Bonn
=
E[X · I{Y =z} ]
P [Y = z]
=
E[X]
Wintersemester 2009/2010
314
KAPITEL 10. BEDINGTE ERWARTUNGEN
für alle z ∈ S mit P [Y = z] > 0, also E[X | Y ] = E[X] P -fast sicher. Die ebenso
elementaren Beweise von (1) und (3) werden dem Leser als Übung überlassen.
Anschaulich können wir die zweite Aussage folgendermaßen interpretieren: Sind X und Y unabhängig, dann liefert die Kenntnis des Wertes Y (ω) keine zusätzlichen Informationen über X(ω).
Daher ist die beste L2 -Prognose für X(ω) wie im unbedingten Fall durch den Erwartungswert
E[X] gegeben.
Formel von der totalen Wahrscheinlichkeit
Die aus Satz 2.1 bekannte Formel von der totalen Wahrscheinlichkeit können wir mithilfe der
obigen Definition in kompakter Weise schreiben.
Satz 10.2 (Formel von der totalen Wahrscheinlichkeit). Sei Y : Ω → S eine diskrete Zufalls-
variable mit Verteilung µ(z) = P [Y = z]. Für alle messbaren X : Ω → R+ gilt:
X
E[X] =
E[X | Y = z] µ(z) = E[E[X | Y ]]
z: µ(z)6=0
Insbesondere gilt
Beweis. Wegen Ω =
Ṡ
z∈S
E[X] =
P [A] = E[P [A | Y ]]
für alle A ∈ A.
{Y = z} gilt nach dem Transformationssatz
X
E[X; Y = z]
=
z∈S
=
X
z: µ(z)6=0
X
E[X; Y = z]
z: µ(z)6=0
E[X | Y = z] · µ(z)
X
=
z: µ(z)6=0
= E[g(Y )],
g(z) · µ(z)
wobei g : S → R eine beliebige Funktion mit g(z) = E[X | Y = z] für alle z ∈ S mit µ(z) 6= 0
ist. Die Aussage folgt wegen g(Y ) = E[X | Y ] P -fast sicher.
Bemerkung. Für X ∈ L1 (Ω, A, P ) folgt aus der Monotonie der bedingten Erwartung
|E[X | Y ]| ≤ E[|X| Y ]
und damit die Ungleichung
E[|E[X | Y ]|]
≤
E E[|X| Y ]
=
E[|X|].
Die Abbildung X 7→ E[X | Y ] ist also eine Kontraktion auf L1 (Ω, A, P ). Die Aussage von Satz
10.2 gilt entsprechend auch für X ∈ L1 .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN
315
Bedingte Varianz
Sei nun X : Ω → R eine bzgl. P integrierbare Zufallsvariable
Definition.
Var[X | Y ]
:=
heißt bedingte Varianz von X gegeben Y .
E (X − E[X | Y ])2 | Y
Ist X quadratintegrierbar, dann gelten die folgenden Aussagen:
Lemma 10.3. Für X ∈ L2 (Ω, A, P ) gilt:
h
2 i
(1). L2 -Kontraktivität: E E[X Y ]
(2). Var[X | Y ]
=
≤
E[X 2 ].
E[X 2 | Y ] − E[X | Y ]2 P -fast sicher.
Insbesondere folgt für z ∈ S mit µ(z) 6= 0:
Var[X | Y ]
Beweis.
=
Var[X | Y = z]
auf {Y = z}.
(10.1.1)
(1). folgt aus Satz 10.2, da für alle z ∈ S mit P [Y = z] 6= 0 auf {Y = z} gilt:
|E[X | Y ]|2
=
|E[X | Y = z]|2
≤
E[X 2 | Y = z]
=
E[X 2 | Y ].
(2). Nach Lemma 10.1, (1) und (3), ergibt sich dann ähnlich wie für die unbedingte Varianz:
Var(X | Y ) = E[X 2 | Y ] − 2 · E[X · E[X | Y ] | Y ] + E[E[X | Y ]2 | Y ]
= E[X 2 | Y ] − E[X | Y ]2
P -fast sicher
Die folgende Zerlegungsformel kann häufig verwendet werden, um Varianzen zu berechnen oder
abzuschätzen:
Satz 10.4 (Formel von der bedingten Varianz). Für eine Zufallsvariable X ∈ L2 (Ω, A, P )
gilt:
Var[X] = E[Var[X | Y ]] + Var[E[X | Y ]]
X
X
=
Var[X | Y = z] · µ(z) +
(E[X | Y = z] − E[X])2 · µ(z).
z:µ(z)6=0
Universität Bonn
z:µ(z)6=0
Wintersemester 2009/2010
316
KAPITEL 10. BEDINGTE ERWARTUNGEN
Beweis. Es gilt
Var[X] = E[X 2 ] − E[X]2 = E[E[X 2 | Y ]] − E[E[X | Y ]]2
= E[E[X 2 | Y ]] − E[E[X | Y ]2 ] + E[E[X | Y ]2 ] − E[E[X | Y ]]2
= E[Var[X | Y ]] + Var[E[X | Y ]].
Der zweite Teil der Behauptung folgt nun aus (10.1.1) und der entsprechenden Eigenschaft für
die bedingte Erwartung.
Anwendung auf zufällige Summen
Als erste Anwendung betrachten wir eine Summe
N (ω)
SN (ω)
:=
X
Xi (ω)
i=1
von unabhängigen, identisch verteilten Zufallsvariablen Xi ∈ L1 (Ω, A, P ) mit zufälliger Anzahl
N von Summanden. Hierbei sei N : Ω → {0, 1, 2, . . .} eine von den Xi unabhängige Zufallsvariable. Seien m = E[Xi ] und σ 2 = Var[X1 ]. Wir berechnen nun die verschiedenen Kenngrößen
der Verteilung von SN .
Berechnung des Erwartungswertes: Da Sk und N unabhängig sind, erhalten wir
E[SN | N = k]
also E[SN | N ]
=
E[Sk | N = k]
=
E[Sk ]
=
k·m
für alle k ∈ N,
N · m und damit nach Satz 10.2:
=
E[SN ]
E[E[SN | N ]]
=
=
E[N ] · m.
Berechnung der Varianz: Erneut folgt wegen der Unabhängigkeit von Sk und N :
Var[SN | N = k]
also Var[SN | N ]
Var[SN ]
=
=
Var[Sk | N = k]
=
=
Var[Sk ]
=
k · σ2,
N · σ 2 , und damit nach Satz 10.4:
E[Var[SN | N ]] + Var[E[SN | N ]]
=
E[N ] · σ 2 + Var[N ] · m2 .
Berechnung der momentenerzeugenden Funktion: Für t ∈ R gilt
MSN (t) = E etSN = E E[etSN
tX1 N
= E E[e
]
Einführung in die Wahrscheinlichkeitstheorie
#
"N
Y
E[etXi ]
| N] = E
i=1
N
= E MX1 (t) = MN (log MX1 (t)) .
Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN
317
Mithilfe von MSN kann man die Momente der zufälligen Summe SN berechnen:
m
E[SN
]
=
(m)
MSN (0)
für alle m ∈ N.
Im Prinzip erhält man die Verteilung von SN durch Laplaceinversion, was aber nicht immer
praktikabel ist. Nehmen die Zufallsvariablen Xi nur nichtnegative ganzzahlige Werte an, kann
man statt der momentenerzeugenden Funktion die erzeugende Funktion verwenden, und daraus
die Verteilung berechnen. Wir gehen darauf im folgenden Abschnitt ein.
Charakterisierende Eigenschaften der bedingten Erwartung
Zum Abschluss dieses Abschnitts beweisen´wir eine alternative Charakterisierung der bedingten
Erwartung gegeben eine diskrete Zufallsvariable Y : Ω → S, S abzählbar. Diese Charakterisie-
rung werden wir in Abschnitt ?? verwenden, um bedingte Erwartungen für allgemeine Bedingungen zu definieren. Sei X : Ω → R+ eine nicht negative (bzw. integrierbare) Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Satz 10.5. Eine reellwertige Zufallsvariable X ≥ 0 (bzw. X ∈ L1 ) auf (Ω, A, P ) ist genau dann
eine Version der bedingten Erwartung E[X | Y ], wenn gilt:
(I) X = g(Y ) für eine Funktion g : S → R
(II) E X · f (Y ) = E[X · f (Y )] für alle nichtnegativen bzw. beschränkten Funktionen f :
S → R.
Beweis. Ist X eine Version von E[X | Y ], dann gilt (I). Außerdem folgt nach Lemma 10.1 (3)
und der Formel von der totalen Wahrscheinlichkeit:
E X · f (Y )
= E E X Y · f (Y )
= E E X · f (Y ) Y
=
E[X · f (Y )]
für jede nichtnegative, bzw. beschränkte, Funktion f : S → R.
Umgekehrt folgt aus (I), dass X = g(z) auf {Y = z} gilt. Ist außerdem (II) erfüllt, dann folgt
weiter
E X · I{z} (Y )
g(z) = E X | Y = z
=
P [Y = z]
E X · I{z} (Y )
= E[X | Y = z]
=
P [Y = z]
für alle z ∈ S mit P [Y = z] > 0, d.h. X = g(Y ) ist eine Version der bedingten Erwartung
E[X | Y ].
Universität Bonn
Wintersemester 2009/2010
318
KAPITEL 10. BEDINGTE ERWARTUNGEN
Eine Charakterisierung der bedingten Erwartung wie in Satz 10.5 werden wir in Abschnitt ??
verwenden, um bedingte Erwartungen für allgemeine Bedingungen zu definieren. In einigen Fällen können die charakterisierenden Eigenschaften auch direkt überprüft werden, um bedingte
Erwartungen zu identifizieren:
Beispiel (Summen austauschbarer Zufallsvariablen). Seien X1 , X2 , . . . , Xn ∈ L1 (Ω, A, P )
integrierbare Zufallsvariablen, deren gemeinsame Verteilung invariant unter Koordinatenpermu-
tationen ist, d.h. (Xπ(1) , Xπ(2) , . . . , Xπ(x) ) ∼ (X1 , X2 , . . . , Xn ) für alle π ∈ Sn . Zufallsvariablen
mit dieser Eigenschaft heißen austauschbar – beispielsweise sind unabhängige identisch verteilte Zufallsvariablen austauschbar. Wir zeigen:
E[Xi | Sn ]
1
Sn
n
=
P -fast sicher für alle i = 1, . . . , n,
wobei Sn = X1 +. . .+Xn . Zum Beweis überprüfen wir, dass X i := n1 Sn die Bedingungen (I) und
(II) aus Satz 10.5 für Y = Sn erfüllt. (I) ist offensichtlich. Zudem gilt wegen der Austauschbarkeit
für jede beschränkte messbare Funktion f : R → R:
E[Xi · f (Sn )]
also
1
E
Sn · f (Sn )
n
E[Xj · f (Sn )]
=
für alle i, j = 1, . . . , n,
n
=
1X
E[Xj · f (sn )]
n j=1
=
E[Xi · f (Sn )]
für alle i = 1, . . . , n, d.h. (II) ist auch erfüllt.
10.2
Erzeugende Funktionen, Verzweigungsprozesse und Erneuerungen
Wir wollen die Methoden aus dem letzten Abschnitt nun verwenden, um Verzweigungs- und
Erneuerungsprozesse zu untersuchen. Ein wichtiges Hilfsmittel sind in beiden Fällen erzeugende
Funktionen:
Erzeugende Funktionen von ganzzahligen Zufallsvariablen
Sei X : Ω → {0, 1, 2, . . .} eine auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierte Zufallsvariable mit nichtnegativen ganzzahligen Werten.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE UND
ERNEUERUNGEN
319
Definition. Die durch
G(s)
=
E[sX ]
=
∞
X
P [X = k]sk ,
k=0
s ∈ [−1, 1],
definierte Funktion heißt erzeugende Funktion der Zufallsvariable X bzw. der Folge µ(k) =
P [X = k] der Gewichte von X.
Durch Vergleich mit der geometrischen Reihe sieht man, dass der Konvergenzradius der Potenzreihe stets größer oder gleich 1 ist. Also ist die erzeugende Funktion analytisch auf (−1, 1), und
es gilt
P [X = k]
=
G(k) (0)
k!
für alle k = 0, 1, 2, . . . .
Kennen wir also die erzeugende Funktion explizit, dann können wir die Gewichte der Verteilung
berechnen.
Durch zweimaliges Ableiten zeigt man zudem, dass G monoton und konvex auf [0, 1] ist. Für
s ∈ (0, 1] gilt nach Definition G(s) = M (log s). Daher lassen sich aus der erzeugenden Funktion
die Momente von X berechnen – beispielsweise gilt E[X] = G′ (1−) (linksseitige Ableitung von
G(s) bei s = 1), falls der Erwartungswert endlich ist.
Für die erzeugende Funktion einer Summe X + Y von unabhängigen, nichtnegativen, ganzzah-
ligen Zufallsvariablen X und Y gilt offensichtlich
GX+Y (s)
GX (s) · GY (s)
=
für alle s ∈ [−1, 1].
Somit ist die erzeugende Funktion der Faltung
(µ ∗ ν)(k)
=
k
X
i=0
µ(i)ν(k − i)
(k = 0, 1, 2, . . .)
zweier Wahrscheinlichkeitsverteilungen µ und ν auf N ∪ {0} das Produkt der einzelnen erzeu-
genden Funktionen.
Erzeugende Funktionen können in verschiedenen Situationen für explizite Berechnungen verwendet werden. Wir demonstrieren die hier in einigen grundlegenden Beispielen. viele weitere entsprechende Anwendungen finden sich in den Wahrscheinlichkeitstheorie-Lehrbüchern von
Feller und Grimmett/Stirzacker.
Universität Bonn
Wintersemester 2009/2010
320
KAPITEL 10. BEDINGTE ERWARTUNGEN
Erzeugende Funktionen zufälliger Summen
Sind N, X1 , X2 , . . . : Ω → {0, 1, 2, . . .} unabhängige Zufallsvariablen, dann erhalten wir für die
N
P
Xi :
Summe SN =
i=1
GSN (s)
=
E[sSN ]
=
E[E[sSN | N ]]
=
E[G(s)N ]
=
GN (G(s)), (10.2.1)
wobei G die erzeugende Funktion der Summanden Xi ist. Für die Verteilung von SN ergibt sich
P [SN = k]
1
(GN ◦ G)(k) (0)
k!
=
für alle k ≥ 0.
Beispiel (Ausdünnungseigenschaft von Poissonverteilungen). Ein Huhn lege eine mit Parameter λ > 0 Poissonverteilte Anzahl N von Eiern, von denen aus jedem unabhängig voneinander
und von N mit Wahrscheinlichkeit p ein Küken schlüpfe. Die erzeugende Funktion der Poissonverteilung ist
GN (s)
=
N
E[s ]
=
∞
X
k=0
Die Anzahl der geschlüpften Küken ist SN =
N
P
sk ·
λk −λ
e
k!
=
eλ(s−1) .
Xi , wobei die Xi untereinander und von N
i=1
unabhängige, Bernoulli(p)-verteilte Zufallsvariablen sind. Wir erhalten also
GSN (s)
=
GN (GX1 (s))
=
GN (1 − p + p · s)
=
epλ·(s−1) ,
d.h. die Zahl der geschlüpften Küken ist wieder Poissonverteilt mit Parameter p · λ. eine ausgedünnte Poissonverteilung ist also wieder eine Poissonverteilung!
Galton-Watson-Verzweigungsprozesse
Wir betrachten das folgende Modell für ein zufälliges Populationswachstum: Alle Individuen
der Population erzeugen unabhängig voneinander eine zufällige Anzahl von Nachkommen in
der nächsten Generation mit Verteilung ν. Hierbei sei ν eine feste Wahrscheinlichkeitsverteilung
auf {0, 1, 2, . . .} mit ν[{2, 3, . . .}] 6= 0. Dieses Modell wurde 1889 von Galton und Watson ein-
geführt, um die Aussterbewahrscheinlichkeit englischer Adelstitel zu untersuchen. Ähnlich wie
beim Random Walk handelt es sich um ein fundamentales stochastisches Modell mit unzähligen
Erweiterungen und Anwendungen, z.B. auf das Wachstum von Zellpopulationen, die Ausbreitung
von Epidemien, die Zunahme der Neutronenzahl in einem Reaktor, oder auch die näherungsweise
Berechnung von genetischen Abständen oder der Anzahl von Zuständen in einem großen zufäl-
ligen Graphen (z.B. dem Internet), die man in einer bestimmten Anzahl von Schritten erreichen
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE UND
ERNEUERUNGEN
321
kann. Die Nachkommensstruktur eines einzelnen Individuums bestimmt einen zufälligen verwurzelten Baum, s. Grafik 10.2. Dementsprechend spielen Verzweigungsprozesse auch eine zentrale
Rolle bei der Analyse diverser stochastischer Modelle auf Bäumen, s. z.B. [Peres: Probablity on
trees].
..
.
n=3
n=2
..
.
b
b
b
b
n=1
b
b
b
Z2 = 3
b
Z1 = 3
b
b
b
n=0
Z3 = 6
b
Z0 = 1
b
Abbildung 10.1: Beispiel für einen Galton-Watson-Prozess.
Wir beschreiben die Nachkommenszahlen der einzelnen Individuen in der (n−1)-ten Generation
eines Verzweigungsprozesses durch unabhängige Zufallsvariablen
Nin : Ω → {0, 1, 2, . . .},
i = 1, 2, . . . ,
mit Verteilung ν. Für die Gesamtzahl der Individuen in der n-ten Generation erhalten wir die
folgende rekursive Darstellung:
Zn−1
ZN
=
X
Nin
i=1
für alle n ≥ 1.
Ohne wesentliche Einschränkungen nehmen wir Z0 = 1 an – enthält die Anfangspopulation
stattdessen mehrere Individuen, dann erzeugen diese voneinander unabhängige, identisch verteilte Unterpopulationen. Da Zn−1 nur von den Zufallsvariablen Nik für k ≤ n − 1 abhängt, sind
Zn−1 und Nin (i ∈ N) unabhängige Zufallsvariablen. durch Bedingen auf Zn−1 erhalten wir für
die mittleren Populationsgrößen die Rekursion
E[Zn ]
wobei m :=
∞
P
i=1
=
E[Zn−1 ] · m,
i · ν(i) die mittlere Nachkommenzahl eines Individuums ist. Wir unterscheiden
die folgenden Fälle:
m>1:
Exponentielles Wachstum der Erwartungswerte
(superkritisch)
m=1:
Erwartungswerte konstant
(kritisch)
m<1:
Exponentieller Abfall der Erwartungswerte
(subkritisch)
Universität Bonn
Wintersemester 2009/2010
322
KAPITEL 10. BEDINGTE ERWARTUNGEN
Wir wollen nun untersuchen, mit welcher Wahrscheinlichkeit die Population in den einzelnen
Fällen ausstirbt. Nach (10.2.1) gilt für die erzeugenden Funktionen der Populationsgrößen die
Rekursionsformel
h P Zn−1 n i
GZn (s) = E s i=1 Ni = GZn−1 (G(s)),
wobei G die erzeugende Funktion der Verteilung ν der Anzahl Nin der Kinder eines Individuums
ist. Per Induktion folgt wegen GZ1 (s) = G(s):
GZn (s)
=
=
G(G(. . . G(s) . . .))
|
{z
}
Gn (s)
für alle n ∈ N und s ∈ [0, 1].
n−mal
Für die Wahrscheinlichkeiten πn , dass der Prozess zur Zeit n ausgestorben ist, erhalten wir die
Rekursionsformel
πn = P [Zn = 0]
=
GZn (0)
=
Gn (0)
=
G(πn−1 )
(10.2.2)
Sei nun π die Wahrscheinlichkeit, dass die Population in endlicher Zeit ausstirbt. Da die Ereignisse {Zn = 0} monoton wachsend sind, gilt
π
=
P
"
[
n
#
{Zn = 0}
=
lim πn .
n→∞
Da G auf [0, 1] stetig ist, folgt aus (10.2.2)
π
=
G(π),
d.h. die Aussterbewahrscheinlichkeit π ist ein Fixpunkt der erzeugenden Funktion. Wie oben
bemerkt, ist die erzeugende Funktion G : [0, 1] → [0, 1] strikt konvex mit G(1) = 1 und
G′ (1−) = E[Nin ] = m. Hieraus folgt, dass 1 im Fall m ≤ 1 der einzige Fixpunkt von G in
[0, 1] ist, während im superkritischen Fall m > 1 ein weiterer Fixpunkt π ∗ ∈ [0, 1) existiert, sie-
he auch Grafik ??. Aus den Skizzen erkennt man zudem, dass die Aussterbewahrscheinlichkeit
π = lim πn der kleinste Fixpunkt von G auf [0, 1] ist. Also stirbt der Prozess im subkritischen
bzw. kritischen Fall mit Wahrscheinlichkeit 1 aus, während er im superkritischen Fall mit einer
strikt positiven Wahrscheinlichkeit überlebt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE UND
ERNEUERUNGEN
m≤1
323
m>1
1
5
π4 π
π3
π2
1
π1
π2
π1
π0
π0
π1 π2π3π5
π4 1
π1 π2
1
πn → π ∗ < 1
πn → 1
Abbildung 10.2: Erzeugendenfunktionen von Galton-Watson-Prozessen mit unterschiedlichen
Verteilungen für die Anzahl der Nachkommen. In Rot: Fixpunktiteration
Beispiel (Geometrische nachkommensverteilung). Ist die Verteilung
ν(k)
=
pk (1 − p)
(k = 0, 1, 2 . . .)
der Anzahl der Nachkommen eine geometrische Verteilung mit Parameter p ∈ (0, 1), dann ergibt
sich
G(s)
=
∞
X
k=0
sk pk (1 − p)
Fixpunkte dieser Funktion sind 1 und
1−p
.
p
=
1−p
1 − ps
für alle s ∈ [0, 1].
Für 1 − p ≥ p (subkritischer Fall) ist 1 der einzige
Fixpunkt in [0, 1], also stirbt die Population P -fast sicher aus. Im superkritischen Fall 1 − p < p
beträgt die Aussterbewahrscheinlichkeit π dagegen nur
1−p
.
p
Rekurrente Ereignisse und Erneuerungsgleichung
Als weitere Anwendung von erzeugenden Funktionen betrachten wir eine Folge von unvorhersehbaren Ereignissen, die zu diskreten Zeitpunkten n ∈ N eintreten. Die Ereignisse bezeichnen wir
auch als „Erneuerungen“ (engl. renewals), und denken dabei z.B. an den wiederholten Ausfall
und Austausch eines Verschleißteils in einer Maschine, oder das wiederholte Abarbeiten einer
Universität Bonn
Wintersemester 2009/2010
324
KAPITEL 10. BEDINGTE ERWARTUNGEN
Warteschlange. Wir beschreiben den Zeitpunkt, an dem die k-te Erneuerung stattfindet, durch
eine Zufallsvariable
Sk
=
T1 + T2 + . . . + Tk .
T1 ist also der Zeitpunkt der ersten Erneuerung, und für k ≥ 2 ist Tk der zeitliche Abstand
der (k − 1)-ten under der k-ten Erneuerung. In einem einfachen Modell nehmen wir an, dass
T1 , T2 , . . . : Ω → N unabhängige Zufallsvariablen sind, und, dass T2 , T3 , . . . identisch verteilt
sind (aber nicht T1 !). Wir wollen nun die Wahrscheinlichkeiten pn der Ereignisse
An = {∃k ∈ N : Sk = n}
„Erneuerung zur Zeit n“
aus den Verteilungen der Wartezeiten berechnen. Bedingen auf den Wert von T1 liefert für n ≥ m:
P [An | T1 = m] = P [∃k ∈ N : T1 + . . . + Tk = n | T1 = m]
= P [∃k ∈ N : T2 + . . . + Tk = n − m | T1 = m]
= P [∃k ∈ N : T2 + . . . + Tk = n − m],
und damit
P [An | T1 = m]
=
P [An−m+1 | T1 = 1]
=
P [An−m+1 | A1 ].
Nach der Formel von der totalen Wahrscheinlichkeit erhalten wir für n ∈ N:
pn
=
n
X
m=1
qn−m · P [T1 = m]
(10.2.3)
mit qn := P [An+1 | A1 ]. Um die bedingten Wahrscheinlichkeiten qn zu berechnen, bedingen wir
zusätzlich auf T2 . Da T2 , T3 , . . . unabhängig und identisch verteilt sind, gilt für n ≥ m:
P [An + 1 | A1 ∩ {T2 = m}] = P [∃k ∈ N : T1 + . . . + Tk = n + 1 | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . . + Tk = n − m | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . . + Tk = n − m]
= P [∃k ≥ 2 : T2 + . . . + Tk−1 = n − m]
= P [An−m+1 | A1 ]
=
qn−m .
Wegen
qn
=
P [An+1 | A1 ]
=
n
X
m=1
Einführung in die Wahrscheinlichkeitstheorie
P [An+1 | A1 ∩ {T2 = m}] · P [T2 = m]
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE UND
ERNEUERUNGEN
erhalten wir
qn
n
X
=
m=1
qn−m · P [T2 = m]
für alle n ≥ 1.
325
(10.2.4)
Die Gleichungen (10.2.3) und (10.2.4) heißen Erneuerungsgleichungen. Auf den rechten Seiten dieser Gleichugnen stehen (wegen T1 , T2 ≥ 1) die Faltungen der Folge qn , n ∈ N mit der
Folge der Gewichte der Wartezeiten T1 bzw. T2 . Daher ist es zweckmäßig, zu den erzeugenden
Funktionen
Gp (s)
∞
X
=
pn sn
n=1
und
Gq (s)
=
X
qn s n
n=0
überzugehen. Für |s| < 1 erhalten wir aus (10.2.3)
Gp (s)
=
Gq (s) · GT1 (s).
Aus (10.2.4) ergibt sich, da die rechte Seite für n = 0 verschwindet:
∞
X
Gq (s) − 1 =
qn sn = Gq (s) · GT2 (s).
n=1
−1
Es folgt Gq (s) = (1 − GT2 (s)) , und damit
GT1 (s)
.
(10.2.5)
1 − GT2 (s)
(10.2.5) liefert den gesuchten Zusammenhang zwischen der Verteilung der Wartezeiten, und den
Gp (s)
=
Wahrscheinlichkeiten pn , dass zur Zeit n eine Erneuerung stattfindet.
Sei nun die Verteilung der Lebensdauern T2 , T3 , . . . vorgegeben. Dann können wir untersuchen,
welche Verteilung die Anfangswartezeiten T1 haben muss, damit die Wahrscheinlichkeiten pn
nicht von n abhängen (Stationarität). Für α ∈ [0, 1] gilt pn = α für alle n ∈ N genau dann, wenn
∞
X
α
für alle s ∈ (−1, 1),
Gp (s) =
pn sn =
1+s
n=1
d.h. wenn
1 − GT2 (s)
für alle s ∈ (−1, 1).
(10.2.6)
1−s
erzeugende Funktionen von Wahrscheinlichkeitsverteilungen sind, muss dann
GT1 (s)
Da GT1 und GT2
=
α·
gelten:
1 = GT1 (1)
=
lim GT1 (s)
s↑1
GT2 (s) − 1
s↑1
s−1
= α · E[T2 ].
= α lim
Universität Bonn
=
αG′T2 (1−)
Wintersemester 2009/2010
326
KAPITEL 10. BEDINGTE ERWARTUNGEN
Also muss T2 endlichen Erwartungswert haben, und
α
=
1/E[T2 ]
(10.2.7)
gelten. Dies ist auch anschaulich plausibel: Im stationären Fall ist die Erneuerungswahrscheinlichkeit zu einem festen Zeitpunkt der Kehrwert des mittleren zeitlichen Abstandes zwischen
zwei Erneuerungen. Gilt (10.2.7), dann ergibt sich aus (10.2.6) durch Koeffizientenvergleich:
!
n
X
P [T2 > n]
P [T1 = n] = α · 1 −
P [T2 = k]
=
.
(10.2.8)
E[T2 ]
k=1
Die Folge pn der Erneuerungswahrscheinlichkeiten ist also genau dann konstant, wenn die Verteilung von T1 durch (10.2.8) gegeben ist („stationärer Erneuerungsprozess“). weiter kann man
ausgehend von (10.2.6) zeigen, dass für beliebige Verteilungen der ersten Erneuerungszeit die
Wahrscheinlichkeiten pn für n → ∞ gegen 1/E[T2 ] konvegieren („asymptotische Stationarität“),
falls der Erwartungswert endlich ist und keine Periodizität auftritt, d.h.
ggT({n|P [T2 = n] > 0})
=
1.
Den Beweis dieses Erneuerungssatzes über erzeugende Funktionen findet man im Klassiker von
W.Feller (An Introduction to Probability Theory and its Applications, Vol. 1).
10.3
Bedingen auf allgemeine Zufallsvariablen
Ist Y eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit stetiger
Verteilungsfunktion, dann gilt P [Y = z] = 0 für alle z ∈ R. Bedingte Wahrscheinlichkeiten
gegeen Y = z können daher nicht wie für diskrete Zufallsvariblen definiert werden. Alternativ
könnte man versuchen, bedingte Wahrscheinlichkeiten gegeben Y als Grenzwert zu definieren:
P [A | Y = z]
=
lim P [A | z − h ≤ Y ≤ z + h].
h→0
(10.3.1)
Dies ist in bestimmten Fällen möglich, aber im allgemeinen ist die Existenz des Grenzwertes
nicht gewährleistet.
Stattdessen definiert man bedingte Erwartungen gegeben allgemeine Zufallsvariablen Y mithilfe
der Charakterisierung aus Satz 10.5. Bedingte Wahrscheinlichkeiten gegeben Y erhält man als
Spezialfall bedingter Erwartungen:
P [A | Y ]
Einführung in die Wahrscheinlichkeitstheorie
:=
E[IA | Y ].
(10.3.2)
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
327
Bedingte Wahrscheinlichkeiten wie in (10.3.1) sind im Allgemeinen nicht im herkkömmlichen
Sinn definiert. Es ist allerdings ausgehend von (10eq10) allgemein möglich für ein festes Ereignis
A die Abbildung z 7→ P [A | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung
von Y zu definieren.
Das Faktorisierungslemma
Wir beweisen zunächst eine wichtige maßtheoretische Aussage. Diese wird es uns u.A. ermöglichen, die charakterisierenden Eigenschaften bedingter Erwartungen aus Satz 10.5 noch etwas
eleganter zu formulieren:
Satz 10.6 (Faktorisierungslemma). Sei (S, S) ein messbarer Raum und Y : Ω → S eine Abbildung. Eine Abbildung X : Ω → R ist genau dann σ(Y )-messbar, wenn
X = f (Y ) = f ◦ Y
für eine S-messbare Funktion f : S → R gilt.
X
(Ω, σ(Y ))
Beweis.
Y
(S, S)
(R, B(R))
(1). Sei X = f ◦ Y für eine messbare Funktion f , dann gilt
X −1 (B)
=
Y −1 (f −1 (B)) ∈ σ(Y )
für alle B ∈ B(R),
da f −1 (B) ∈ S. Daher ist X σ(Y )-messbar.
(2). Für die umgekehrte Richtung müssen wir zeigen, dass aus der σ(Y )-Messbarkeit von X
folgt, dass X eine messbare Funktion von Y ist. Dazu gehen wir schrittweise vor („maßtheoretische Induktion“):
(a) Ist X = IA eine Indikatorfunktion mit A ∈ σ(Y ), dann gilt A = Y −1 (B) mit B ∈ S,
und damit
X(ω)
(b) Für X =
Pn
=
i=1 ci IAi
IY −1 (B) (ω)
=
IB (Y (ω))
für alle ω ∈ Ω.
mit Ai ∈ σ(Y ) und ci ∈ R gilt entsprechend
X=
n
X
ci IBi (Y ),
i=1
wobei Bi Mengen aus S mit Ai = Y −1 (Bi ) sind.
Universität Bonn
Wintersemester 2009/2010
328
KAPITEL 10. BEDINGTE ERWARTUNGEN
(c) Für eine beliebige nichtnegative, σ(Y )-messbare Abbildung X : Ω → R existiert
eine Folge Xn von σ(Y )-messbaren Elementarfunktionen mit Xn ր X. nach (b) gilt
Xn = fn (Y ) mit S-messbaren Funktionen fn . Damit folgt:
X
=
sup Xn
=
sup fn (Y )
=
f (Y ),
wobei f = sup fn wieder S messbar ist.
(d) Für eine allgemeine σ(Y )-messbare Abbildung X : Ω → R sind sowohl X + als auch
X − messbare Funktionen von Y , also auch X selbst.
Mithilfe des Faktorisierungslemmas können wir die charakterisierenden Eigenschaften (I) und
(II) bedingter ERwartungen gegeben eine diskrete Zufallsvariable Y aus Satz 10.5 wie folgt umformulieren:
X ist genau dann eine Version von E[X | Y ], wenn gilt:
(i) X ist σ(Y )-messbar,
(ii) E[X ; A] = E[X ; A] für alle A ∈ σ(Y ).
Die Äquivalenz von (I) und (i) folgt aus dem Faktorisierungslemma, und die Äquivalenz von (II)
und (ii) ergibt sich durch maßtheoretische Induktion, denn (ii) besagt gerade, dass
E[X · IB (Y )]
=
E[X · IB (Y )]
füra alle B ∈ S gilt.
Definition allgemeiner bedingter Erwartung
Eine bemerkenswerte Konsequenz der Charakterisierung bedingter Erwartungen durch die Bedingungen (i) und (ii) ist, dass die bedingte ERwartung E[X | Y ] von der Zufallsvariablen Y
nur über die von Y erzeugte σ-Algebra σ(Y ) abhängt! Sind zwei Zufallsvariablen Y und Z
Funktionen voneinander, dann ist σ(Y ) = σ(Z), und damit stimmen auch die bedingten Erwartungen E[X | Y ] und E[X | Z] überein (mit Wahrscheinlichkeit 1). Daher liegt es nahe, gleich von
der bedingten Erwartung gegeben eine σ-Algebra zu sprechen. Die σ-Algebra (z.B. σ(Y ) oder
σ(Y1 , . . . , Yn )) beschreibt dann die zur Verfügung stehende „Information“, auf die bedingt wird.
Die Charakterisierung bedingter Erwartung durch (i) und (ii) können wir sofort auf den Fall allgemeiner bedingter Erwartungen gegeben eine σ-Algebra oder gegeben beliebige Zufallsvariablen
übertragen. Sei dazu X : Ω → R eine nichtnegative (oder integrierbare) Zufallsvariable auf
einem Wahrscheinlichkeitsraum (Ω, A, P ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
329
Definition (Bedingte Erwartung, allgemein). (1). Sei F ⊆ A eine σ-Algebra. Eine nicht-
negative (bzw. integrierbare) Zufallsvariable X : Ω → R heißt Version der bedingten
Erwartung E[X | F], falls gilt:
(a) X ist F-messbar,
und
(b) E[X ; A] = E[X ; A]
für alle A ∈ F.
(2). Für beliebige Zufallsvariablen Y, Y1 , Y2 , . . . , Yn auf (Ω, A, P ) definieren wir
E[X | Y ] := E[X | σ(Y )],
E[X | Y1 , . . . Yn ] := E[X | (Y1 , . . . , Yn )]
=
E[X | σ(Y1 , . . . , Yn )].
(3). Für ein Ereignis A ∈ A definieren wir
P [A | F]
:=
E[IA | F],
und entsprechend
P [A | Y ]
=
E[A | Y ].
Bemerkung. Durch maßtheoretische Induktion zeigt man, dass Bedingung (b) äquivalent ist zu:
(b’) E[X · Z]
Ω → R.
=
E[X · Z] für alle nichtnegativen (bzw. beschränkten) F-messbaren Z :
Satz 10.7 (Existenz und Eindeutigkeit der bedingten Erwartung). Sei X ≥ 0 oder X ∈ L1 ,
und F ⊆ A eine σ-Algebra.
(1). Es existiert eine Version der bedingten Erwartung E[X | F].
(2). Zwei Versionen stimmen P -fast sicher überein.
Beweis. Die Existenz kann man unmittelbar aus dem Satz von Radon-Nikodym folgern, s. z.B.
[A.Klenke, Wahrscheinlichkeitstheorie]. Wir geben stattdessen in Abschnitt ?? einen Existenzbeweis, der mit elementaren Methoden auskommt, siehe ??.
Zum Beweis der Eindeutigkeit seien X und X̃ zwei Versionen der bedingten Erwartung E[X |F].
Dann sind X und X̃ beide F-messbar, und
E[X ; A]
=
E[X̃ ; A]
für alle A ∈ F.
Hieraus folt X = X̃ P -fast sicher.
Bemerkung (Probleme mit Ausnahmemengen). Man beachte, dass die bedingte Erwartung
E[X | F] und damit auch die bedingte Wahrscheinlichkeit P [A | F] nur für jede feste Zufalls-
variable X bzw. jedes feste Ereignis A bis auf Modifikation auf Nullmengen eindeutig definiert
Universität Bonn
Wintersemester 2009/2010
330
KAPITEL 10. BEDINGTE ERWARTUNGEN
sind. Ein weiteres Problem ist, dass wir allgemein zwar bedingte Erwartungen gegeben eine Zufallsvariable Y definieren können, aber nicht solche gegeben das Ereignis Y = z für festes z. In
vielen Fällen kann man die beschriebenen Probleme durch Auswahl einer „regulären Version der
bedingten Verteilung gegeben Y “ umgehen. Wir kommen darauf in Korollar ??ff zurück.
Obwohl E[X|Y = z] für festes z i.A. nicht definiert ist, kann man die Funktion z 7→ E[X|Y = z]
bis auf Modifikation auf Nullmengen bzg. der Verteilung von Y sinnvoll definieren:
E[X | Y = z], Definition und Warnung:
Ist Y : Ω → S eine Zufallsvariable mit Werten in einem messbaren Raum (S; S), dann ist jede
Version der bedingten Erwartung E[X | Y ] nach Definition σ(Y )-messbar. Also gilt nach dem
Faktorisierungslemma:
E[X | Y ]
=
g(Y )
für eine messbare Funktion g : S → R.
(10.3.3)
Da die Versionen der bedingten Erwartung bis auf Modifikation auf P -Nullmengen eindeutig
festgelegt sind, ist die Funktion g bis auf Modifikaiton auf µY -Nullmengen eindeutig festgelegt.
In Anlehnung an den diskreten Fall setzt man manchmal:
E[X | Y = z]
:=
g(z).
(10.3.4)
Genauer definieren wir für eine nichtnegative Zufallsvariable X:
Definition. Eine messbare Funktion g : S → R+ heißt Version der bedingten Erwartung z 7→
E[X | Y = z] von X gegeben Y = z, wenn gilt:
Z
E[X ; Y ∈ B] =
δ(z)µY (dz)
für alle B ∈ S.
(10.3.5)
B
Die charakterisierende Bedingung (10.3.5) ist nichts anderes als eine allgemeine Variante der
Formel von der totalen Wahrscheinlichkeit. Mithilfe des Transformationssatzes sieht man,
dass g genau dann (10.2.3) erfüllt, wenn g(Y ) eine Versio von E[X | Y ] ist.
Warnung: Bei der Definition ist zu beachten, dass E[X | Y = z] für ein festes z im Allgemeinen
nicht definiert ist, sindern nur die Funktion z 7→ E[X | Y = z] modulo Modifikation auf
µY -Nullmengen! Das formale Rechnen mit bedingten Erwartungen wir in (10.3.4) ist daher
eine häufige Fehlerquelle.
Trotz dieser Gefahren ist die Notation E[X | Y = z] oft nützlich, um Argumentationen transparenter zu machen, oder um anschauliche Überlegungen in mathematische Formeln zu übersetzen.
Wir werden sie daher auch hier gelegentlich verwenden.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
331
Diskreter und absolutstetiger Fall
In einigen Fällen kann man die Definition direkt anwenden, um bedingte Erwartungswerte zu
berechnen. Wir betrachten zunächst noch einmal den Spezialfall eine diskreten Bedingung:
Ṡ
Hi in abzählbar viele messbare
Gilt F = σ({Hi |i ∈ N}) für eine disjunkte Zerlegung Ω =
i∈N
Teilmengen („Hypothesen“) Hi ∈ A, dann sind F-mssbare Zufallsvariablen konstant auf jeder
der Mengen Hi . aus der Definition der bedingten ERwartung folgt dann
E[X | F]
=
E[X | Hi ]
auf Hi
für alle i ∈ N mit P [Hi ] > 0.
Beispiel (Unbedingte Erwartungen). Die bedingte Erwartung einer Zufallsvariable X gegeben
die triviale σ-Algebra {∅, Ω} ist der Erwartungswert von X.
Beispiel (Bedingen auf eine Partition). Ist P = U[0,1) die Gleichverteilung auf [0, 1), und F =
σ({[ti−1 , ti )|i = 1, . . . , n}) die von einer Partition 0 = t0 < t1 < t2 < . . . < tn = 1 erzeugte
σ-Algebra, denn ist die bedingte Erwartung E[g | F] einer integrierbaren Funktion g : [0, 1) → R
dir durch
E[g | F]
=
1
ti − ti−1
Zti
g(u) du
auf [ti−1 , ti )
ti−1
definierte Funktion.
H1
H2
H3
H4
H5
1
Abbildung 10.3: Die Dichte von X(ω) ist hier blau dargestellt und E[X|F] in rot.
Ist die gemeinsame Verteilung aller relevanten Zufallsvariablen absolutstetig, dann kann man
bedingte Ewartungen mithilfe von bedingten Dichten berechnen:
Universität Bonn
Wintersemester 2009/2010
332
KAPITEL 10. BEDINGTE ERWARTUNGEN
Satz 10.8 (Berechnung bedingter Erwartungen im absolutstetigen Fall). Seien X : Ω →
Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), deren
gemeinsame Verteilung µX,Y absolutstetig ist, und sei h : Rn × Rm → [0, ∞] messbar. Dann ist
E[h(X, Y ) | Y ](ω)
Z
=
h(x, Y (ω))fX|Y (x|Y (ω)) dx
(10.3.6)
Rn
eine Version der bedingten Erwartung von h(X, Y ) gegeben Y .
Beweis. Nach dem Satz von Fubini ist die rechte Seite von (10.3.6) eine messbare Funktion von
Y (ω), und es gilt
E[g(Y ) ·
Z
h(x, Y )fX|Y (x|Y ) dx] =
Z Z
g(y)h(x, y)fX|Y (x|y)fY (y) dx dy
= E[g(Y )h(X, Y )]
für jede messbare Funktion g : Rm → [0, ∞].
Mit der Notation aus (10.3.4) lautet die Aussage des Satzes:
E[h(X, Y )|Y = z]
Z
=
h(x, z)fX|Y (x|z) dx
Rn
für µY -fast alle z ∈ S.
Um die bedingte Erwartung zu berechnen, müssen wir also den uns bekannten Wert von Y einsetzen, und die Funktion bzgl. der bedingten Dichte fX|Y nach x integrieren.
Beispiel (Bedingen auf eine Koordinate). Ist P = UΩ die Gleichverteilung auf einer beschränk-
ten, messbaren Menge Ω ⊆ R2 , und ist
Y : Ω → R,
Y (x, y) = y,
die Projektion auf die zweite Komponente, dann gilt
E[h|Y ](x, y)
=
1
λ(Ωy )
Z
h(x, y) dx
P -fast sicher
(10.3.7)
S−y
für jede integrierbare Funktion h : Ω → R. Hierbei ist Ωy = {x ∈ R|(x, y) ∈ R} der y-Schnitt
von Ω. Bedingen auf Y entspricht hier also dem normierten „Herausintegrieren“ der komplementären Koordinate x.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
333
Ω ⊆ R2
y
Ωy
Abbildung 10.4: In Rot: Der y-Schnitt der Menge Ω.
Reguläre bedingte Verteilungen
Beim Bedingen auf diskrete Zufallsvariablen konnten wir bedingte Wahrscheinlichkeitsverteilungen auf elementare Weise definieren. Für allgemeine Zufallsvariablen sind die bedingten Wahrscheinlichkeiten
P [X ∈ B | Y ]
E[IB | Y ]
=
für jede feste messbare Menge B nur bis auf Modifikation auf P -Nullmengen eindeutig definiert.
Dies ist ein Nachteil, da die Ausnahmemenge von B abhängen kann, und im Allgemeinen überabzählbar viele messbare Mengen existieren. Die bedingte Verteilung von X gegeben Y ist daher
zunächst nicht definiert. Im absolutstetigen Fall können wir das Problem umgehen, indem wir die
über die bedingte Dichte gegebene Version
µX|Y (y, dx)
:=
fX|Y (x|y)dx
der bedingten Verteilung verwenden. Aus Satz 10.8 folgt unmittlebar, dass wir bedingte Wahrscheinlichkeiten gegeben Y aus µX|Y berechnen können:
Korollar 10.9. Ist die gemeinsame Verteilung der Zufallsvariablen X : Ω → Rn und Y : Ω →
Rm absolutstetig, dann ist µX|Y eine reguläre Version der bedingten Verteilung von X gegeben
Y , d.h.
(1). µX|Y ist ein stochastischer Kern von Rm nach Rn .
(2). Für jedes B ∈ B(Rn ) ist
P [X ∈ B | Y ]
=
µX|Y (Y, B)
eine Version der bedingten Wahrscheinlichkeit von {X ∈ B} gegeben Y .
Universität Bonn
Wintersemester 2009/2010
334
KAPITEL 10. BEDINGTE ERWARTUNGEN
Bemerkung (Existenz von regulären Versionen bedingter Verteilungen). Die Existenz von
regulären Versionen von bedingten Verteilungen gegeben eine Zufallsvariable Y kann man allgemein beweisen, wenn Y Werte in einem vollständigen, seperablen, metrischen Raum (kurz:
polnischen Raum) annimmt, siehe z.B. [Breiman, Ch. 4.3.]. Eine explizite Berechnung über bedingte Dichten ist natürlich im Allgemeinen nicht möglich.
Wenn wir uns auf eine bestimmte reguläre Version µX|Y festlegen, dann können wir (10.3.2) als
Definition der bedingten Wahrscheinlichkeiten P [X ∈ B|Y = z] für alle z ∈ S verwenden. Die
FEstlegung auf eine bestimmte reguläre Version der bedingten Verteilung ist im Allgemeinen
willkürlich. Manchmal gibt es aber eine kanonishce Version, die sich auszeichnet. Dies ist zum
Beispiel der Fall, wenn die Dichte der gemeinsamen Verteilung von X und Y eine stetige Version
hat.
Beispiel (Bivariate Normalverteilung).
Ist (X, Y ) bivariat normalverteilt mit Mittel (0, 0) und
!
1 ̺
, ̺ ∈ (−1, 1), dann gilt
Kovarianzmatrix
̺ 1
fX,Y (x, y)
=
x2 − 2̺xy + y 2
p
· exp −
2(1 − ̺2 )
2π 1 − ̺2
1
.
Für ein festes x ∈ R folgt
fY |X (y|x)
∝
fX,Y (x, y)
∝
(y − ̺x)2
exp −
2(1 − ̺2 )
als Funktion von y. Also ist
µY |X (x, •)
=
N (̺x, 1 − ̺2 )
eine kanonische reguläre Version der bedingten Verteilung von Y gegeben X.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
335
z
x2
x0
x1
y
x
Abbildung 10.5: Die Dichte fX,Y (x, y) und in Blau, Grün und Magenta fY |X (y|xi ) für ein i ∈
{0, 1, 2}. Man beachte, dass fY |X (y|xi ) ∝ fX,Y (xi , y).
Beispiel (Grenzen naiven Bedingens). Sei (X, Y ) gleichverteilt auf dem Viertelkreis
S
=
{(x, y) ∈ R2 |x > 0, y > 0, x2 + y 2 < 1}.
Wir versuchen auf zwei Arten eine „bedingte Verteilung von X gegeben X = Y “ zu berechnen.
Dazubetrachten wir die Zufallsvariablen V = Y − X und W = Y /X. Wegen fX,Y ∝ IS erhalten
wir mithilfe des Dichtetransformationssatzes für fast jedes v:
fX|V (x|v) ∝ fX,V (x, v)
=
∝ IS (x, v + x),
∂(x, v + x) fX,Y (x, v + x) · det
∂(x, v) wobei „∝“ für „proportional als Funktion von x“ steht. Wählen wir die normierte rechte Seite als
kanonische Version der bedingten Dichte, so ergibt sich
fX|V (x|0)
∝
IS (x, x)
=
I(0,1/√2) (x).
√
Gegeben Y − X = 0 ist X also gleichverteilt auf (0, 1/ 2).
Andererseits erhalten wir für fast jedes w:
fX|W (x|w) ∝ fX,W (x, w)
∝ IS (x, wx) · x.
Universität Bonn
=
∂(x,
wx)
fX,W (x, wx) · det
∂(x, w) Wintersemester 2009/2010
336
KAPITEL 10. BEDINGTE ERWARTUNGEN
Wählen wir wieder die rechte Seite als kanonische Version, so ergibt sich
fX|W (x|1)
∝
IS (x, x)ẋ
=
x · I(0,1/√2) (x).
Die bedingte Verteilung von X gegben Y /X = 1 unterscheidet sich also von der bedingten Verteilung von X gegeben Y − X = 0. Bedingte Wahrscheinlichkeiten gegeben X = Y sind daher
nicht wohldefiniert!
Eine anschauliche Erklärung für das Phänomen ist, dass wir in den beiden Fällen oben auf unterschiedliche infinitesimale Umgebungen der Diagonale {(x, y) ∈ S|x = y} bedingen, wie die
folgende Grafik veranschaulicht:
x
(x, y) ∈ S : − 1 < δ
y
{(x, y) ∈ S : |y − x| < δ}
Abbildung 10.6: Zwei verschiedene Arten die Diagonale zu approximieren
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Stichwortverzeichnis
0-1 Gesetz von Kolmogorov, 181
bedingte Wahrscheinlichkeit, 43
0-1-Experimente
Benfordsches Gesetz, 20
abhängige, 40
Bernoulli-Verteilung, 40
n-dimensionale, 50
unabhängige, 40, 50
σ-Additivität, 12
Bernstein-Ungleichung, 58
σ-Algebra, 11
Bias, 207
a posteriori degree of belief, 46
a priori degree of belief, 46
Bildmaß, 121
Binomialverteilung, 25
Poissonapproximation, 26
abhängige 0-1-Experimente, 40
absolutstetig, 202
Acceptance-Rejection-Verfahren, 73
Additivität, endliche, 12
Akzeptanzwahrscheinlichkeit, 72
Akzeptanzzeit, 73
Algebra, 114
Varianz, 80
Brown’sche Bewegung, 304
Brownsche Bewegung, 112, 304
Cauchy-Schwarz-Ungleichung in L2 , 77
Čebyšev-Ungleichung, 82
Charakteristische Funktion
arithmetisches Mittel, 193
Ableitungen der -, 252
asymptotisch
Lévys Inversionsformel, 253
-e Zufallsvariable, 184
asymptotische Äquivalenz von Folgen, 67
Atome, 128
charakteristische Funktion, 249
Cramér-Wold Device, 303
degree of belief
Bayessche Regel, 46
a posteriori, 46
Bayessche Statistik, 46
a priori, 46
Bedingte Erwartung, 329
Definition
Detailed Balance-Bedingung, 89
Dichte
bedingte -, 293
Diskrete -, 313
Wahrscheinlichkeits-, 128, 198
bedingte Erwartung, 43
bedingte Verteilung, 43
diskrete Zufallsvariable, 22
337
338
STICHWORTVERZEICHNIS
gemeinsame Verteilung, 63
Erzeugende Funktion, 319
Unabhängigkeit, 63
Euler’sche Beta-Funktion, 308
diskretes Modell, 11
mehrstufiges, 47
durchschnittsstabil, 114, 115
Dynkinsystem, 117
das von J erzeugte -, 117
Ehrenfest-Modell, 53, 90
Einschluss-/Ausschlussprinzip, 14
Elementarereignis, 8
empirische Mittel, 204
empirische Varianz, 204
empirische Verteilung, 18, 236
empirische Verteilungsfunktion, 236
empirisches Mittel, 234
Entropie, 241
Ereignis, 8
Verteilungen für unabhängige Ereignisse, 57
asymptotisches -, 180
Elementar-, 8
Ereignisse und ihre Wahrscheinlichkeit, 10
Indikatorfunktion, 36
Unabhängigkeit, 55
Erfolgswahrscheinlichkeit, 24
Ergodensatz, 100
Erneuerungsgleichung, 325
Erneuerungsprozess
stationärer -, 326
Erwartung, bedingte, 43
Erwartungswert, 36
- elementarer ZVn, 187
Faltung von W’Verteilungen, 296
Faltungshalbgruppe, 297
Fehler
1. und 2. Art, 310
Fluss in Markovketten, 89
Fouriertransformation, 250
gemeinsame Verteilung, 63, 166
geometrische Verteilung, 57
Gesetz der großen Zahlen, 58
für Markov-Ketten, 100
schwaches, 82
starkes, 82
Gesetz großer Zahlen
- für Bernoulli-Experimente, 106
Starkes - ohne Integrierbarkeit, 234
Kolmogorovs -, 230
gewichtetes Mittel, 38
Gewichtung der möglichen Fälle, 14
Gibbs-Sampler, 93
Gleichgewichte von Markov-Ketten, 88
Gleichgewichtsverteilung, 89
Konvergenz, 97
Gleichverteilung, 17
reellwertiger Zufallsvariablen, 71
Simulation, 28
Häufigkeitsverteilung der Anfangsziffern von Zahlen, 21
der Poissonverteilung, 37
Histogramm, 238
Linearität, 39
hypergeometrische Verteilung, 28, 49
Monotonie, 39
Hypothese
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
339
Alternativ-, 309
Laplace-Modell, 17
Null-, 309
Laplacetransformation, 250
Hypothesen, 44
Legendre-Fenchel-Transformation, 258
Hypothesentest, 310
Lemma
Importance Sampling, 85
Indikatorfunktion, 120
Indikatorfunktion einer Ereignisses, 36
Inverse
linksstetige verallgemeinerte -, 136
irreduzible stochastische Matrix, 98
kanonisches Modell, 179
Kern, stochastischer, 51
Konfidenzintervall, 160, 306, 311
Konfidenzniveau, 160
Kongruenzgenerator, linearer, 29
konsistente Schätzfolge, 83
Konvergenz
- in Verteilung, 262
fast sicher -, 217
schnelle stochastische -, 219
schwache -, 262
stochastische -, 217
Konvergenz ins Gleichgewicht, 96, 97
Konvergenz, stochastische, 82
Konvergenzsatz für endliche Markov-Ketten, 100
Korrelationskoeffizient, 78
Korrelationskoeffizienten, 208
Kovarianz, 78, 208
Kumulantenerzeugende Funktion, 258
kumulative Verteilungsfunktion, 71
2
L -Raum von diskreten Zufallsvariablen, 77
L2 -Skalarprodukt, 77
Lévys Inversionsformel, 253
Universität Bonn
- von Borel-Cantelli
1.Teil, 104
2.Teil, 105
- von Fatou, 193
likelihood, 46
linearer Kongruenzgenerator, 29
Münzwurf, 9
abhängige Münzwürfe, 52
endlich viele faire Münzwürfe, 17
Markov-Kette, 90
zwei faire Münzwürfe, 56
Markov-Kette, 51
bei einem Münzwurf, 90
Bewegungsgesetz, 51
Fluss, 89
Gesetz der großen Zahlen, 100
Gleichgewicht, 88
Konstruktion mit vorgegebenen Gleichgewichtsverteilungen, 92
Konvergenzsatz für endliche Markov-Ketten,
100
Metropolis-Kette, 93
Monte Carlo-Verfahren, 100
Simulation mit vorgegebenem Gleichgewicht,
95
Stationarität, 89
zeitlich homogene, 88
Massenfunktion, 14, 122
einer diskreten Zufallsvariable, 22
eines mehrstufigen diskreten Modells, 47
Wintersemester 2009/2010
340
STICHWORTVERZEICHNIS
Matrix
eines mehrdimensionalen Integrals, 84
stochastische / Übergangs-, 88
erwartungstreuer, 75
irreduzible stochastische, 98
für Wahrscheinlichkeiten, 84
stochastische, 51
mittlere quadratische Fehler, 75
Stochastische -, 288
Median, 136
mehrstufiges diskretes Modell, 47
Markov-Kette, siehe Markov-Kette
Produktmodell, 50
Wahrscheinlichkeitsverteilung, 47
Monte Carlo-Verfahren, 75
für Markov-Ketten, 100
Monte-Carlo
-Approximation, 267
Multinomialkoeffizient, 240
Nullmenge, 101
Menge aller möglichen Fälle, 8
messbar
-e Abbildung, 119
messbarer Raum, 114
Messraum, 114
Metropolis-Algorithmus, 95
Metropolis-Kette, 93
Konvergenz, 100
Minorisierungsbedingung, 97
Mischung, 289
Mittel
arithmetisches, 38
Ordnungsstatistik, 160, 172
P -fast sicher, 101
Paradoxon
Sankt-Petersburg-, 38
Simpson-, 45
Periode eines Zustands, 98
Periodizität, 326
Perkolation, 183
Permutationen
zufällige, siehe Zufallspermutationen
Poissonapproximation der Binomialverteilung,
gewichtetes, 38
Modell
Bayes’sches -, 294
Ehrenfest-, 262
Moment
p-te -, 198
Momentenerzeugende Funktion
logarithmische -, 258
Reihenentwicklung der -, 252
momentenerzeugende Funktionen, 249
26
Poissonverteilung, 27
Erwartungswert, 37
Produkt
- von Wahrscheinlichkeitsverteilungen, 178
Produkt von Wahrscheinlichkeitsverteilungen, 50
Produktmaß
endliches -, 162
Produktmodell, 50
Prozess
Monte Carlo-Schätzer, 75, 83
Autoregressiver -, 291
Approximationsfehler, 75
autoregressiver -, 214
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
341
Ornstein-Uhlenbeck-, 291
- von Chernoff, 257
Poisson-, 300
- von Fubini, 288
Pseudo-Zufallszahlengenerator, 28
- von Helly-Bray, 272
- von Lebesgue, 194
QQ-Plot, 237
- von Prohorov, 272
Quantil, 135
- von de Moivre/Laplace, 144
Stichproben-, 136
- von der majorisierten Konvergenz, 194
Quantil-Quantil-Plot, 237
0-1 - von Kolmogorov, 181
Rückkehrzeit, 67
Eindeutigkeits-, 115
Random Walk, 67, 228, 304
Formel von der totalen Wahrscheinlichkeit,
auf den ganzen Zahlen, 64
44
auf einem Gitter, 52
Fortsetzungs- von Carathéodory, 115
auf Graphen, 91
Konvergenz- von Lévy, 273
Bewegungsverlauf, 67
Lévys Inversionsformel, 253
Rekurrenz, 182
Lemma von Fatou, 193
Rekurrenz von -s, 181
Quellenkodierungs- von Shannon, 247
symmetrischer, 67
Skorokhod - Darstellung, 268
Trefferzeit, 67
Stetigkeits-, 273
unbeschränkte Oszillation von -s, 182
Transformations-, 195
Verteilung der Positionen zur Zeit n, 66
Eindimensionaler Dichte-, 133
zyklischer, 90
Mehrdimensionaler Dichte-, 300
Randverteilung, 162
Zentraler Grenzwert-
reellwertige Zufallsvariable, 71
L2 -Version, 276
gleichverteilt, 71
- von Lindeberg-Feller, 282
Unabhängigkeit, 71
Reflektionsprinzip, 68
Multivariater -, 303
Schätzer, 160, 305
Relative Kompaktheit, 274
erwartungstreuer -, 306
renormierte Stichprobenvarianz, 235
Rucksackproblem, 94
konsistenter -, 306
Schätzfolge
konsistente, 83
Sankt-Petersburg-Paradoxon, 38
Satz
Schwaches Gesetz der großen Zahlen, 82
- vom iterierten Logarithmus, 229
Selbstbefruchtung von Pflanzen, 52
- von Berry-Esséen, 280
Shift-Register-Generatoren, 34
- von Bochner, 253
σ
Universität Bonn
Wintersemester 2009/2010
342
STICHWORTVERZEICHNIS
-Additivität, 103
stochastische Matrix, 51, 88
irreduzibel, 98
-Stetigkeit, 103
-Subadditivität, 104
Stochastischer Kern, 287
σ-Additivität von Wahrscheinlichkeitsverteilun- stochastischer Kern, 51
symmetrischer Random Walk, 67
gen, 12
σ-Algebra
Tail
asymptotische -, 180
event, 180
Borel’sche -, 113
field, 180
die von J erzeugte -, 113
Produkt-, 114
Test
Gütefunktion eines -s, 311
σ-endlich, 202
Hypothesen-, 311
Signalverarbeitung, 294
Macht eines -s, 311
Simpson-Paradoxon, 45
Niveau eines -s, 311
Simulated Annealing, 95
t-, 310
Algorithmus, 96
Simulation
- exponentialverteilter ZVn, 124
Simulation einer diskreten Verteilung
direkt, 72
Simulation einer Markov-Kette mit vorgegebenem Gleichgewicht, 95
Simulation von Gleichverteilungen, 28
Simulationsverfahren, 71
Acceptance-Rejection-Verfahren, 72
direktes Verfahren, 71
Transformationssatz, 37
Trefferzeit, 67
Verteilung, 68
Übergangsmatrix, 88
unabhängige 0-1-Experimente, 40, 50
Unabhängige Zufallsvariablen, 63
Unabhängigkeit, 43
- von Mengensystemen, 152
- von Zufallsvariablen, 155
Ereignis
Verteilung, 57
Standardabweichung, 76
reellwertiger Zufallsvariablen, 71
starkes Gesetz der großen Zahlen, 82
von Ereignissen, 55
Stationarität von Markov-Ketten, 89
Statistik, 160
Stichprobe
-nquantil, 136
empirische Verteilung der -, 136
Unabhängigkeit von diskreten Zufallsvariablen,
63, 64
Unabhängigkeit von Ereignissen, 25, 56
Ungleichung
Čebyšev-, 221
Stirlingsche Formel, 66, 143
Cauchy-Schwarz-, 206, 209
stochastische Konvergenz, 82
Čebyšev-, 82, 220
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
343
Exponentielle Čebyšev-Markov-, 221
stationäre -, 291
Jensen’sche -, 222
stetige -, 128
Markov-, 220
Students-t-, 308
Unkorreliertheit, 79
Vandermonde-Identität, 297
Varianz, 76
Definition, 203
der Binomialverteilung, 80
Reduktion durch Importance Sampling, 85
Stichproben-, 307
von Summen, 80
Variationsdistanz von Wahrscheinlichkeitsverteilungen, 96
Verteilung
α-stabile -, 282
- einer Zufallsvariablen, 121
-sfunktion, 122
bedingte, 43
bedingte -, 293
Uniforme -, 129
χ2 -, 305
Verteilungsfunktion, kumulative, 71
Verwerfungsbereich, 310
Würfelwurf, 23
Wahrscheinlichkeit, 8
Akzeptanz-„ 72
bedingte, 43
Erfolgs-, 24
Wahrscheinlichkeits
-maß
Faltung von -en, 296
straffe Folge von -en, 271
Wahrscheinlichkeitsraum, 12
Wahrscheinlichkeitsverteilung, 12, 14, 121
Beta-, 173
einer diskreten Zufallsvariable, 22
Cauchy-, 135
der Anfangsziffern von Zahlen, 21
direkte Simulation einer diskreten Vertei-
der Trefferzeiten, 68
lung, 72
des Maximums, 70
empirische -, 236, 267
diskrete, 14
Exponential-, 123, 129, 205
eines mehrstufigen diskreten Modells, 47
für unabhängige Ereignisse, 57
endliche Additivität, 12
Gamma-, 299
gemeinsame, 63
Gleich-, 129
geometrische, 57
invariante -, 291
Gleichverteilung / Laplace-Modell, 17
Multinomial-, 240
Produkt, 50
Normal-, 130
Variationsdistanz, 96
Rand-, 162
Warteschlange, 26
Standardnormal-
Wartezeit, 298
mehrdimensionale -, 165
Universität Bonn
wesentlich, 245
Wintersemester 2009/2010
344
STICHWORTVERZEICHNIS
Ziehen mit Zurücklegen, siehe Binomialverteilung
Ziehen ohne Zurücklegen, siehe hypergeometrische Verteilung
Zufallspermutationen, 35
Zufallsvariable, 9, 22, 119
asymptotische -, 184
austauschbare -n, 318
diskrete, 22
Elementare -n, 186
reellwertige, 37, 71
Standardabweichung, 76
unabhängige, 63
Varianz, 76
Zufallsvorgang, 8
diskreter, 10
Zufallszahlen aus [0,1), 35
Zufallszahlengenerator, 28, 71
Kombinationen, 35
zyklischer Random Walk, 90
Zylindermenge, 114
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Herunterladen