Skript - Universität Bonn

Werbung
Einführung in die Wahrscheinlichkeitstheorie
Prof. Dr. Andreas Eberle
28. September 2010
Inhaltsverzeichnis
Inhaltsverzeichnis
2
1
9
Diskrete Zufallsvariablen
1.1
2
Ereignisse und ihre Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . .
11
Ereignisse als Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . .
15
Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . .
18
1.2
Diskrete Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . .
23
1.3
Simulation von Gleichverteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
29
1.4
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Linearität und Monotonie des Erwartungswertes . . . . . . . . . . . . . . . . . .
40
Bedingte Wahrscheinlichkeiten und Unabhängigkeit
44
2.1
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung . . . . . . . . .
45
Bayessche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Mehrstufige diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Verteilungen für unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . .
58
Unabhängige Zufallsvariablen und Random Walk . . . . . . . . . . . . . . . . .
64
Unabhängigkeit von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . .
64
Der Random Walk auf Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
Simulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
2.2
2.3
2.4
2.5
2
INHALTSVERZEICHNIS
3
Das direkte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Acceptance-Rejection-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3 Konvergenzsätze und Monte Carlo Verfahren
76
3.1
Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
3.2
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
81
3.3
Monte Carlo-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
Varianzreduktion durch Importance Sampling . . . . . . . . . . . . . . . . . . .
86
Gleichgewichte von Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . .
89
Gleichgewichte und Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . .
89
Metropolis-Algorithmus und Gibbs-Sampler . . . . . . . . . . . . . . . . . . . .
93
Konvergenz ins Gleichgewicht . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
3.4
3.5
4 Stetige und Allgemeine Modelle
102
4.1
Unendliche Kombinationen von Ereignissen . . . . . . . . . . . . . . . . . . . . 102
4.2
Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . 110
Beispiele von Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . . . . . . . . 110
Konstruktion von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen . . . . . . . . . 115
4.3
Allgemeine Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . 119
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.4
Wahrscheinlichkeitsverteilungen auf R . . . . . . . . . . . . . . . . . . . . . . . 126
Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 126
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Transformation von absolutstetigen Zufallsvariablen . . . . . . . . . . . . . . . . 134
4.5
Quantile und Inversionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Konstruktion und Simulation reellwertiger Zufallsvariablen . . . . . . . . . . . . 139
4.6
Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . 143
Der Satz von De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 144
Approximative Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 150
Universität Bonn
Wintersemester 2009/2010
4
5
INHALTSVERZEICHNIS
Unabhängigkeit und Produktmodelle
5.1
153
Unabhängigkeit in allgemeinen Modellen . . . . . . . . . . . . . . . . . . . . . 153
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 156
Konfidenzintervalle für Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.2
Gemeinsame Verteilungen und endliche Produktmodelle . . . . . . . . . . . . . 162
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen . . . . . . . . . . 162
Absolutstetigkeit von multivariaten Verteilungen . . . . . . . . . . . . . . . . . . 165
Gemeinsame Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.3
Unendliche Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Konstruktion von unabhängigen Zufallsvariablen . . . . . . . . . . . . . . . . . 174
Unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.4
Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Das 0-1-Gesetz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Anwendungen auf Random Walks und Perkolationsmodelle . . . . . . . . . . . . 182
6
Erwartungswert und Varianz
6.1
187
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Definition des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . 191
Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.2
Berechnung von Erwartungswerten; Dichten . . . . . . . . . . . . . . . . . . . . 195
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Zufallsvariablen mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Existenz von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.3
Varianz, Kovarianz und lineare Regression . . . . . . . . . . . . . . . . . . . . . 204
Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 206
Beste Prognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
Unabhängigkeit und Unkorreliertheit . . . . . . . . . . . . . . . . . . . . . . . . 216
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
INHALTSVERZEICHNIS
7 Gesetze der großen Zahlen
7.1
5
218
Ungleichungen und Konvergenz von ZVn . . . . . . . . . . . . . . . . . . . . . 218
Konvergenzbegriffe für Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 218
Die Markov-Čebyšev-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 221
Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
7.2
Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 225
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 226
Das starke Gesetz für quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . 227
7.3
Von L2 nach L1 mit Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 231
Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Schätzen von Kenngrößen einer unbekannten Verteilung . . . . . . . . . . . . . 235
Konvergenz der empirischen Verteilungsfunktionen . . . . . . . . . . . . . . . . 237
Histogramme und Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . 239
7.4
Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Statistische Interpretation der Entropie . . . . . . . . . . . . . . . . . . . . . . . 245
Entropie und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
8 Grenzwertsätze
8.1
249
Charakteristische und Momentenerzeugende Funktionen . . . . . . . . . . . . . 250
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
Inversion der Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . 254
8.2
Erste Anwendungen auf Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . 256
Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Große Abweichungen vom Gesetz der großen Zahlen . . . . . . . . . . . . . . . 258
8.3
Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 264
Konvergenz der Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . 269
Existenz schwach konvergenter Teilfolgen . . . . . . . . . . . . . . . . . . . . . 272
Schwache Konvergenz über charakteristische Funktionen . . . . . . . . . . . . . 274
8.4
Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
ZGS für Summen von i.i.d. Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 277
Normalapproximationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
Heavy Tails, Konvergenz gegen α-stabile Verteilungen . . . . . . . . . . . . . . 282
Der Satz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Universität Bonn
Wintersemester 2009/2010
6
INHALTSVERZEICHNIS
8.5
9
Vom Random Walk zur Brownschen Bewegung . . . . . . . . . . . . . . . . . . 287
Multivariate Verteilungen und Statistik
9.1
288
Mehrstufige Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
Stochastische Kerne und der Satz von Fubini . . . . . . . . . . . . . . . . . . . 288
Wichtige Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Bedingte Dichten und Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . 292
9.2
Summen unabhängiger Zufallsvariablen, Faltung . . . . . . . . . . . . . . . . . 296
Verteilungen von Summen unabhängiger Zufallsvariablen . . . . . . . . . . . . . 297
Wartezeiten, Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 299
9.3
Transformationen, Gaußmodelle und Parameterschätzung . . . . . . . . . . . . . 301
Der Dichtetransformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
Multivariate Normalverteilungen und multivariater ZGS . . . . . . . . . . . . . . 302
Parameterschätzung im Gaußmodell . . . . . . . . . . . . . . . . . . . . . . . . 306
Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
10 Bedingte Erwartungen
313
10.1 Bedingen auf diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 313
Bedingte Erwartungen als Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 313
Formel von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 315
Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Anwendung auf zufällige Summen . . . . . . . . . . . . . . . . . . . . . . . . . 317
Charakterisierende Eigenschaften der bedingten Erwartung . . . . . . . . . . . . 318
10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen . . . . . . . 319
Erzeugende Funktionen von ganzzahligen Zufallsvariablen . . . . . . . . . . . . 319
Erzeugende Funktionen zufälliger Summen . . . . . . . . . . . . . . . . . . . . 320
Galton-Watson-Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . 321
Rekurrente Ereignisse und Erneuerungsgleichung . . . . . . . . . . . . . . . . . 324
10.3 Bedingen auf allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 327
Das Faktorisierungslemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
Definition allgemeiner bedingter Erwartungen . . . . . . . . . . . . . . . . . . . 329
Diskreter und absolutstetiger Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 332
Reguläre bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
10.4 Rechnen mit bedingten Erwartungen; Poissonprozess . . . . . . . . . . . . . . . 337
Eigenschaften der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . . 338
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
INHALTSVERZEICHNIS
7
Poissonprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Poissonscher Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
10.5 Bedingte Erwartung als beste L2 -Approximation . . . . . . . . . . . . . . . . . 348
Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Bedingte Erwartung als beste L2 -Prognose . . . . . . . . . . . . . . . . . . . . . 350
Existenz der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . 352
11 Markovketten
354
11.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
Zufällige dynamische Systeme als Markovketten, Beispiele . . . . . . . . . . . . 355
Endlichdimensionale Randverteilung eine Markovkette . . . . . . . . . . . . . . 360
Verteilung auf dem Pfadraum; kanonisches Modell . . . . . . . . . . . . . . . . 365
11.2 Markoveigenschaft und Differenzengleichungen . . . . . . . . . . . . . . . . . . 368
Die Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
Differenzengleichungen für Markovketten . . . . . . . . . . . . . . . . . . . . . 374
Dirichletproblem und Austrittsverteilung . . . . . . . . . . . . . . . . . . . . . . 378
Beispiele harmonischer Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 380
Mittlere Aufenthaltszeiten und Greenfunktion . . . . . . . . . . . . . . . . . . . 383
11.3 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
Rekurrenz und Transienz von einzelnen Zuständen . . . . . . . . . . . . . . . . 390
Kommunikationsklassen und globale Rekurrenz . . . . . . . . . . . . . . . . . . 393
11.4 Stationäre stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Stationarität und Reversibilität . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Rekurrenz von stationären Prozessen . . . . . . . . . . . . . . . . . . . . . . . . 399
Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
11.5 Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
Positive Rekurrenz und Gleichgewichte . . . . . . . . . . . . . . . . . . . . . . 403
Ein Gesetz der großen Zahlen für Markovketten . . . . . . . . . . . . . . . . . . 405
Allgemeinere Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
11.6 Zeitstetige Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Übergangskerne und Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . 411
Zeitstetige Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Vorwärts- und Rückwärtsgleichungen für Markovketten . . . . . . . . . . . . . . 418
Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung . . . . . . . . 422
Universität Bonn
Wintersemester 2009/2010
8
INHALTSVERZEICHNIS
12 Importance Sampling und große Abweichungen
425
12.1 Relative Dichten und Importance Sampling . . . . . . . . . . . . . . . . . . . . 425
Relative Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
Seltene Ereignisse und Importance Sampling . . . . . . . . . . . . . . . . . . . 430
12.2 Exponentielle Familien und große Abweichungen . . . . . . . . . . . . . . . . . 436
Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
Der Satz von Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
Asymptotische Effizienz von IS Schätzern . . . . . . . . . . . . . . . . . . . . . 444
12.3 Relative Entropie und statistische Unterscheidbarkeit . . . . . . . . . . . . . . . 446
Relative Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
Maßwechsel und untere Schranken für große Abweichungen . . . . . . . . . . . 449
Große Abweichungen für empirische Verteilungen . . . . . . . . . . . . . . . . 452
12.4 Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
Konsistenz von Maximum-Likelihood-Schätzern . . . . . . . . . . . . . . . . . 454
Asymptotische Macht von Likelihoodquotiententests . . . . . . . . . . . . . . . 457
12.5 Bayessche Modelle und MCMC Verfahren . . . . . . . . . . . . . . . . . . . . . 461
Stichwortverzeichnis
Einführung in die Wahrscheinlichkeitstheorie
462
Prof. Andreas Eberle
Kapitel 1
Diskrete Zufallsvariablen
Unser Ziel in diesem Kapitel ist die mathematische Modellierung von Zufallsvorgängen. Einfache Beispiele für Zufallsvorgänge sind das Werfen eines Würfels oder Münzwürfe. Anhand
dieser Beispiele wollen wir zunächst einige grundlegende Begriffe der Wahrscheinlichkeitstheorie veranschaulichen.
N OTATIONEN :
|A| bezeichnet die Anzahl der Elemente einer Menge A, AC bezeichnet das
Komplement der Menge A innerhalb einer bestimmten Menge B, die A enthält.
Beispiel (Werfen eines Würfels).
• Mögliche Fälle sind 1, 2, 3, 4, 5, 6. Mit Ω = {1, 2, 3, 4, 5, 6} wird die Menge aller mög-
lichen Fälle bezeichnet. Ein Elementarereignis ist ein möglicher Fall, also ein Element
ω ∈ Ω.
• Ereignisse sind die Objekte, denen man eine Wahrscheinlichkeit zuordnen kann, zum Beispiel:
{3}
»Augenzahl ist 3«
{2, 4, 6}
»Augenzahl ist gerade«
{1, 3, 5} = {2, 4, 6}C
»Augenzahl ist nicht gerade«
{4, 5, 6}
»Augenzahl ist größer als 3«
»Augenzahl ist gerade und größer als 3« {4, 6} = {2, 4, 6} ∩ {4, 5, 6}
»Augenzahl gerade oder größer als 3«
{2, 4, 5, 6} = {2, 4, 6} ∪ {4, 5, 6}
Jedes Ereignis kann durch eine Teilmenge A von Ω dargestellt werden!
9
10
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
• Wahrscheinlichkeiten werden mit P (für »probability«) bezeichnet. Zum Beispiel sollte
für einen »fairen« Würfel gelten:
1
P [»3«] = ,
6
Anzahl günstige Fälle
|{2, 4, 6}|
3
1
=
= = ,
Anzahl mögliche Fälle
|{1, 2, 3, 4, 5, 6}|
6
2
4
2
P [»Augenzahl gerade oder größer als 3«] = = .
6
3
P [»Augenzahl gerade«] =
• Zufallsvariablen sind Abbildungen X : Ω → S, wobei S eine beliebige Menge ist, zum
Beispiel:
X(ω) = ω,

1
X(ω) =
−5
Beispiel (Münzwürfe).
»Augenzahl des Wurfs«, oder
falls ω ∈ {1, 2, 3, 4, 5},
»Gewinn bei einem fairen Spiel«.
falls ω ∈ 6,
a) E IN M ÜNZWURF :
Die Menge der möglichen Fälle ist Ω = {0, 1}, wobei 0 für »Kopf« und 1 für »Zahl« steht.
Die Wahrscheinlichkeiten sind
P [{1}] = p
Für p =
1
2
und
P [{0}] = 1 − p
mit 0 ≤ p ≤ 1.
ist der Münzwurf fair.
b) E NDLICH VIELE FAIRE M ÜNZWÜRFE :
Die Menge der möglichen Fälle lautet
Ω = {ω = (x1 , . . . , xn ) | xi ∈ {0, 1}} =: {0, 1}n .
Alle Ausgänge sind genau dann gleich wahrscheinlich, wenn P [{ω}] = 2−n für alle ω ∈ Ω
gilt. Dies wird im folgenden angenommen. Zufallsvariablen von Interesse sind beispielsweise:
• Xi (ω) := xi , das Ergebnis des i-ten Wurfs. Das Ereignis »i-ter Wurf ist Kopf« wird
durch die Menge Ai = {ω ∈ Ω | Xi (ω) = 0} =: {Xi = 0} beschrieben, und hat die
Wahrscheinlichkeit P [Ai ] = 12 .
P
• Sn (ω) := ni=1 Xi (ω), die Anzahl der Einsen in n Münzwürfen. Das Ereignis »ge-
nau k-mal Zahl« wird durch die Menge A = {ω ∈ Ω | Sn (ω) = k} =: {Sn = k} be
schrieben und hat die Wahrscheinlichkeit P [A] = nk 2−n .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
11
c) U NENDLICH VIELE M ÜNZWÜRFE :
Die Menge der möglichen Fälle ist nun
Ω = {ω = (x1 , x2 , . . .) | xi ∈ {0, 1}} = {0, 1}N .
Diese Menge ist überabzählbar, da die Abbildung
Ω → [0, 1]
(x1 , x2 , . . .) 7→ 0.x1 x2 . . .
surjektiv ist, (wobei das Einheitsintervall binär dargestellt wird). Die Definition von Ereignissen und Wahrscheinlichkeiten ist daher in diesem Fall aufwändiger. Wahrscheinlichkeitsverteilungen auf überabzählbaren Mengen werden systematisch in der Vorlesung
»Einführung in die Wahrscheinlichkeitstheorie« betrachtet.
In dieser Vorlesung ist die Menge der möglichen Fälle Ω abzählbar. Solche Zufallsvorgänge werden diskret genannt.
1.1 Ereignisse und ihre Wahrscheinlichkeit
Ereignisse als Mengen
Sei Ω die Menge der möglichen Fälle und A ⊆ Ω ein Ereignis. Als Notationen für die Menge A
werden wir auch verwenden:
A = {ω ∈ Ω | ω ∈ A} = {ω ∈ A} = { »A tritt ein« }.
Wir wollen nun Kombinationen von Ereignissen betrachten.
Seien A, B, Ai , i ∈ I, Ereignisse. Was bedeuten Ereignisse wie AC , A ∪ B,
T
i∈I
Ai anschaulich?
Um dies herauszufinden, betrachten wir einen möglichen Fall ω und untersuchen, wann dieser
eintritt:
• A ∪ B:
ω ∈A∪B
»A ∪ B tritt ein«
•
S
i∈I
⇔
⇔
ω ∈ A oder ω ∈ B,
»A tritt ein oder B tritt ein«.
Ai :
Universität Bonn
Wintersemester 2009/2010
12
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
S
ω ∈ i∈I Ai
S
» i∈I Ai tritt ein«
⇔ es gibt ein i ∈ I mit ω ∈ Ai .
⇔ »mindestens eines der Ereignisse Ai tritt ein«.
• W EITERE B EISPIELE :
A∩B
T
i∈I Ai
⇔
»jedes der Ai tritt ein«,
A=∅
⇔
»unmögliches Ereignis« (tritt nie ein),
AC = Ω
A=Ω
⇔
»A und B treten ein«,
⇔
»A tritt nicht ein«,
⇔
»sicheres Ereignis« (tritt immer ein),
A = {ω} ⇔
»Elementarereignis« (tritt nur im Fall ω ein).
Sei A die Kollektion aller im Modell zugelassenen bzw. in Betracht gezogenen Ereignisse.
A besteht aus Teilmengen von Ω, d.h.
A ⊆ P(Ω),
wobei
P(Ω) := {A | A ⊆ Ω}
die Potenzmenge von Ω, d.h. die Menge aller Teilmengen von Ω bezeichnet. Die Kollektion A
sollte unter den obigen Mengenoperationen, also abzählbaren Vereinigungen, Durchschnitten und
Komplementbildung abgeschlossen sein. Wir fordern daher:
Axiom. A ⊆ P(Ω) ist eine σ-Algebra, d.h.
(i) Ω ∈ A,
(ii) Für alle A ∈ A gilt:
(iii) Für A1 , A2 , . . . ∈ A gilt:
AC ∈ A,
S∞
i=1
Ai ∈ A.
Bemerkung. Für σ-Algebren gilt auch:
a) Nach (i) und (ii) ist ∅ = ΩC ∈ A.
b) Sind A, B ∈ A, so gilt nach (iii) und a):
A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ . . . ∈ A.
c) Sind A1 , A2 , . . . ∈ A, so ist nach (ii) und (iii):
T∞
Beispiel. Die Potenzmenge A = P(Ω) ist eine σ-Algebra.
i=1
Ai = (
S∞
i=1
C
AC
i ) ∈ A.
Üblicherweise verwendet man A = P(Ω) bei diskreten Modellen, d.h. für abzählbare Ω. Bei
nichtdiskreten Modellen kann man nicht jede Wahrscheinlichkeitsverteilung P auf einer σ-Algebra
A ⊂ P(Ω) zu einer Wahrscheinlichkeitsverteilung auf P(Ω) erweitern (siehe »Einführung in die
Wahrscheinlichkeitstheorie«).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
13
Wahrscheinlichkeitsverteilungen
Sei Ω eine nichtleere Menge und A ⊆ P(Ω) eine σ-Algebra. Wir wollen nun Ereignissen A ∈ A
eine Wahrscheinlichkeit P [A] zuordnen. Für Ereignisse A, B ∈ A gilt:
A ∪ B tritt ein ⇔ A oder B tritt ein.
Angenommen, A und B treten nicht gleichzeitig ein, d.h.
A ∩ B = ∅,
(A und B sind »disjunkt«).
Dann sollte »endliche Additivität« gelten:
P [A ∪ B] = P [A] + P [B].
Axiom. Eine Abbildung
P : A → [0, ∞]
A 7→ P [A]
ist eine Wahrscheinlichkeitsverteilung auf (Ω, A), wenn gilt:
(i) P ist »σ-additiv«, d.h. für Ereignisse A1 , A2 , . . . ∈ A mit Ai ∩ Aj = ∅ für i 6= j gilt:
P
∞
[
i=1
Ai =
∞
X
P [Ai ].
i=1
(ii) P ist »normiert«, d.h.
P [Ω] = 1.
Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus einer Menge Ω, einer σ-Algebra A ⊆ P(Ω),
und einer Wahrscheinlichkeitsverteilung P auf (Ω, A).
Satz 1.1 (Elementare Rechenregeln). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
i) Es gilt P [∅] = 0,
ii) Für A, B ∈ A mit A ∩ B = ∅ gilt endliche Additivität:
P [A ∪ B] = P [A] + P [B].
Universität Bonn
Wintersemester 2009/2010
14
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
iii) Für A, B ∈ A mit A ⊆ B gilt:
P [B] = P [A] + P [B\A].
Insbesondere gilt:
P [A] ≤ P [B],
»Monotonie«,
P [AC ] = 1 − P [A],
»Gegenereignis«,
P [A] ≤ 1.
iv) Für A, B ∈ A gilt:
P [A ∪ B] = P [A] + P [B] − P [A ∩ B] ≤ P [A] + P [B].
Beweis.
i) Wegen der σ-Additivität von P gilt
1 = P [Ω] = P [Ω ∪ ∅ ∪ ∅ ∪ . . .] = P [Ω] + P [∅] + P [∅] + . . . ,
| {z } |{z} |{z}
=1
und damit
≥0
≥0
P [∅] = 0.
ii) Für disjunkte Ereignisse A, B folgt aus der σ-Additivität und mit i):
P [A ∪ B] = P [A ∪ B ∪ ∅ ∪ ∅ ∪ . . .]
= P [A] + P [B] + P [∅] + . . .
= P [A] + P [B].
iii) Falls A ⊆ B, ist B = A ∪ (B\A). Da diese Vereinigung disjunkt ist, folgt mit ii):
P [B] = P [A] + P [B\A] ≥ P [A].
Insbesondere ist 1 = P [Ω] = P [A] + P [AC ] und somit P [A] ≤ 1.
iv) Nach iii) gilt:
P [A ∪ B] = P [A] + P [(A ∪ B)\A]
= P [A] + P [B\(A ∩ B)]
= P [A] + P [B] − P [A ∩ B].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
15
Aussage iv) des Satzes lässt sich für endlich viele Ereignisse verallgemeinern. Nach iv) gilt für
die Vereinigung von drei Ereignissen:
P [A ∪ B ∪ C] = P [A ∪ B] + P [C] − P [(A ∪ B) ∩ C]
= P [A ∪ B] + P [C] − P [(A ∩ C) ∪ (B ∩ C)]
= P [A] + P [B] + P [C] − P [A ∩ B] − P [A ∩ C] − P [B ∩ C] + P [A ∩ B ∩ C].
Mit vollständiger Induktion folgt:
Korollar (Einschluss-/Ausschlussprinzip). Für n ∈ N mit Ereignissen A1 , . . . , An ∈ A gilt:
P [ A1 ∪ A2 ∪ . . . ∪ An ] =
|
{z
}
»eines der Ai tritt ein«
n
X
X
(−1)k−1
P[
1≤i1 <...<ik ≤n
k=1
].
Ai1 ∩ Ai2 ∩ . . . ∩ Aik
{z
}
|
»Ai1 , Ai2 , . . . und Aik treten ein«
Das Einschluss-/Ausschlussprinzip werden wir auf eine elegantere Weise am Ende dieses Kapitels beweisen (siehe Satz 1.9).
Diskrete Wahrscheinlichkeitsverteilungen
Als Beispiel für eine diskrete Wahrscheinlichkeitsverteilung haben wir den Münzwurf betrachtet:
Ω = {0, 1},
A = {{∅}, {0}, {1}, {0, 1}},
P [{1}] = p,
P [∅] = 0,
P [{0}] = 1 − p,
P [Ω] = 1.
A LLGEMEIN :
Ist die Menge der möglichen Fälle Ω endlich oder abzählbar unendlich, dann
setzen wir als zugehörige σ-Algebra A = P[Ω].
Satz 1.2.
i) Sei 0 ≤ p(ω) ≤ 1,
ist durch
P
ω∈Ω
p(ω) = 1 eine Gewichtung der möglichen Fälle. Dann
P [A] :=
X
p(ω),
ω∈A
(A ⊆ Ω),
eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert.
ii) Umgekehrt ist jede Wahrscheinlichkeitsverteilung P auf (Ω, A) von dieser Form mit
p(ω) = P [{ω}]
(ω ∈ Ω).
p : Ω → [0, 1] heißt Massenfunktion (»probability mass function«) der diskreten Wahr-
scheinlichkeitsverteilung P .
Universität Bonn
Wintersemester 2009/2010
16
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Für den Beweis des Satzes brauchen wir einige Vorbereitungen.
Bemerkung (Vorbemerkung zu Summen mit positiven Summanden). Sei A eine abzählbare
Menge, p(ω) ≥ 0 für alle ω ∈ A. Dann definieren wir
X
∞
X
p(ω) :=
p(ωi ),
i=1
ω∈A
wobei ω1 , ω2 , . . . eine beliebige Abzählung von A ist.
Lemma 1.3.
i)
P
lung). Es gilt:
ω∈A
p(ω) ∈ [0, ∞] und ist wohldefiniert (d.h. unabhängig von der AbzähX
X
p(ω) = sup
p(ω).
(1.1.1)
(A ⊆ B).
(1.1.2)
F ⊆A
ω∈F
|F |<∞
ω∈A
Insbesondere gilt Monotonie:
X
ω∈A
ii) Ist A =
S∞
i=1
p(ω) ≤
X
p(ω),
ω∈B
Ai eine disjunkte Zerlegung, dann gilt:
X
p(ω) =
∞ X
X
p(ω).
i=1 ω∈Ai
ω∈A
i) Sei ω1 , ω2 , . . . eine beliebige Abzählung von A. Aus p(ωi ) ≥ 0 für alle i ∈ N
P
folgt, dass die Partialsummen ni=1 p(ωi ) monoton wachsend sind. Daraus folgt:
Beweis.
∞
X
p(ωi ) = sup
n∈N
i=1
n
X
p(ωi ).
i=1
Falls die Menge der Partialsummen von oben beschränkt ist, existiert dieses Supremum
in [0, ∞). Andernfalls divergiert die Folge der Partialsummen bestimmt gegen +∞. Zu
zeigen bleibt:
sup
n∈N
n
X
i=1
p(ωi ) = sup
X
p(ω)
ist unabhängig von der Abzählung von A.
F ⊆A
ω∈F
|F |<∞
»≤«: Für alle n ∈ N gilt:
n
X
i=1
p(ωi ) ≤ sup
X
p(ω),
F ⊆A
ω∈F
|F |<∞
da das Supremum auch über F = {ω1 , . . . , ωn } gebildet wird. Damit folgt »≤«.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
17
»≥«: Da F ⊆ A endlich ist, gibt es ein n ∈ N, so dass F ⊆ {ω1 , . . . , ωn } . Also gilt:
X
ω∈F
n
X
p(ω) ≤
i=1
p(ωi ) ≤
∞
X
p(ωi ).
i=1
Damit folgt »≥«.
ii)
• Falls A endlich ist, gilt Ai 6= ∅ nur für endlich viele i ∈ N und alle Ai sind endlich.
Die Behauptung folgt dann aus dem Kommutativ- und dem Assoziativgesetz.
• Sei andernfalls A abzählbar unendlich.
S
»≤«: Da F ⊆ A endlich, ist F = ∞
i F ∩ Ai . Da diese Vereinigung disjunkt ist, folgt
mit σ-Additivität und Gleichung (1.1.2):
X
X
P [F ] =
P [F ∩ Ai ] ≤
P [Ai ].
i∈N
i∈N
Mit (i)) gilt auch:
P [A] = sup P [F ] ≤
F ⊆A
|F |<∞
X
P [Ai ].
i∈N
Damit folgt »≤«.
»≥«: Seien Fi ⊆ Ai endlich. Da die Fi disjunkt sind, folgt mit σ-Additivität und Gleichung (1.1.2) für alle n ∈ N:
n
X
P [Fi ] = P
i=1
Mit (1.1.1) folgt
"
n
[
i=1
Fi ≤ P
"∞
[
i=1
n
X
P [Ai ] ≤ P [A],
∞
X
P [Ai ] ≤ P [A].
i=1
und für n → ∞ schließlich
#
i=1
#
Ai = P [A].
Damit folgt »≥«.
i) Es ist P [Ω] =
Beweis von Satz 1.2.
P
Seien Ai , (i ∈ N) disjunkt und A :=
1.3.ii):
P
∞
[
i=1
Universität Bonn
Ai = P [A] =
ω∈Ω
S∞
X
ω∈A
p(ω) = 1 nach Voraussetzung.
i=1
Ai . Die σ-Additivität von P folgt aus Lemma
p(ω) =
∞ X
X
i=1 ω∈Ai
p(ω) =
∞
X
P [Ai ]
i=1
Wintersemester 2009/2010
18
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
ii) Aus der σ-Additivität von P folgt:
P [A] = P
[
ω∈A
X
P [{ω}].
{ω} =
| {z }
disjunkt
ω∈A
Spezielle Wahrscheinlichkeitsverteilungen
Gleichverteilungen / Laplace-Modelle
Sei Ω endlich und nichtleer, A = P(Ω) und p(ω) =
1
|Ω|
für alle ω ∈ Ω. Dann ist
|A|
Anzahl »günstiger« Fälle
=
,
(A ⊆ Ω),
|Ω|
Anzahl aller Fälle
die Wahrscheinlichkeitsverteilung zu p und wird Gleichverteilung genannt.
P [A] =
Beispiele.
a) n FAIRE M ÜNZWÜRFE :
Sei Ω = {0, 1}n und P die Gleichverteilung. Dann ist
1
p(ω) = n .
2
b) Z UFÄLLIGE P ERMUTATIONEN :
Sei Ω = Sn = {ω : {1, 2, . . . , n} → {1, 2, . . . , n} bijektive Abbildungen } und P die
Gleichverteilung. Dann ist
|A|
.
n!
Beispiele für zufällige Permutationen sind das Mischen eines Kartenspiels, Vertauschen
P [A] =
von Hüten oder Umzug in die LWK, wobei n Schlüssel zufällig vertauscht werden. Es gilt:
P [»der k-te Schlüssel passt auf Schloss i«] = P [{ω ∈ Sn | ω(i) = k}] =
(n − 1)!
1
= .
n!
n
Wie groß ist die Wahrscheinlichkeit, dass einer der Schlüssel sofort passt?
Das Ereignis »Schlüssel i passt« ist Ai = {ω | ω(i) = i} = {»i ist Fixpunkt« }. Die Wahr-
scheinlichkeit für das Ereignis »ein Schlüssel passt« ist nach dem Einschluss-/Ausschlussprinzip (Satz 1.9):
P [»es gibt mindestens einen Fixpunkt«] = P [A1 ∪ A2 ∪ . . . ∪ An ]
n
X
X
=
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ]
(−1)k+1
=
k=1
n
X
(−1)k+1
k=1
1≤i1 <i2 <...<ik ≤n
X
1≤i1 <i2 <...<ik
Einführung in die Wahrscheinlichkeitstheorie
(n − k)!
,
n!
≤n
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
19
wobei die innere Summe über alle k-elementigen Teilmengen läuft. Es folgt:
=
n
X
(−1)
k+1
k=1
=−
n (n − k)!
k
n!
n
X
(−1)k
k=1
k!
Für das Gegenereignis erhalten wir:
P [»kein Schlüssel passt«] = P [»kein Fixpunkt«] − P [»mindestens ein Fixpunkt«]
n
X
(−1)k
=1+
k!
k=1
=
n
X
(−1)k
k=0
k!
.
Die letzte Summe konvergiert für n → ∞ gegen e−1 . Der Grenzwert existiert also und ist
weder 0 noch 1! Die Wahrscheinlichkeit hängt für große n nur wenig von n ab.
Empirische Verteilungen
Seien x1 , x2 , . . . , xn ∈ Ω Beobachtungsdaten oder Merkmalsausprägungen, zum Beispiel das
Alter aller Einwohner von Bonn. Sei
N [A] := |{i ∈ {1, . . . , n} | xi ∈ A}|,
die Anzahl bzw. Häufigkeit der Werte in A, und
P [A] :=
die relative Häufigkeit der Werte in A.
N [A]
,
n
Dann ist P eine Wahrscheinlichkeitsverteilung auf (Ω, P(Ω)) mit Massenfunktion
p(ω) =
Beispiele.
N [{ω}]
,
n
der relativen Häufigkeit der Merkmalsausprägungen.
a) A BZÄHLUNG ALLER MÖGLICHEN FÄLLE:
Sei x1 , . . . , xn eine Abzählung der Elemente in Ω. Dann stimmt die empirische Verteilung
mit der Gleichverteilung überein.
b) E MPIRISCHE V ERTEILUNG VON n Z UFALLSZAHLEN AUS {1, 2, 3, 4, 5, 6}:
x=RandomChoice [ { 1 , 2 , 3 , 4 , 5 , 6 } , n ] ;
L i s t P l o t [ BinCounts [ x [ [ 1 ; ; n ] , {1 , 7 , 1 } ] / n ,
F i l l i n g −> Axis , PlotRange −> { 0 , 0 . 3 } ,
P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ] , {n , 1 , 1 0 0 , 1}
Universität Bonn
Wintersemester 2009/2010
20
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
0.30
0.25
0.20
0.15
0.10
0.05
• n = 100:
0
1
2
3
4
5
6
0.30
0.25
0.20
0.15
0.10
0.05
• n = 10000:
0
1
2
3
4
5
6
c) E MPIRISCHE V ERTEILUNG DER B UCHSTABEN » A « BIS » Z «:
• in dem Wort »Eisenbahnschrankenwaerterhaeuschen«:
f r e q = S t r i n g C o u n t [ " e i s e n b a h n s c h r a n k e n w a e r t e r h a e u s c h e n " , # ] & /@
CharacterRange [ " a " , " z " ] ;
r e l f r e q = f r e q / Total [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT
21
0.20
0.15
0.10
0.05
5
10
15
20
25
• in einem englischen Wörterbuch:
f r e q = Length [ D i c t i o n a r y L o o k u p [ # ~~ ___ ] ] & /@
CharacterRange [ " a " , " z " ] ;
r e l f r e q = f r e q / Total [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ]
0.12
0.10
0.08
0.06
0.04
0.02
5
10
15
20
25
d) B ENFORDSCHES G ESETZ :
Das Benfordsche Gesetz, auch Newcomb-Benford’s Law (NBL) beschreibt eine Gesetzmäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen,
zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzahlen von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz
gefasst besagt es:
Universität Bonn
Wintersemester 2009/2010
22
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
»Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter
Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist
ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum
Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,5-mal so häufig auf
wie solche mit der Anfangsziffer 9.«
1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und
im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer
deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden
seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit geraten, als der Physiker Frank Benford (1883−1948) diese Gesetzmäßigkeit wiederentdeckte
und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt,
in neuerer Zeit wird aber durch die Bezeichnung »Newcomb-Benford’s Law« (NBL) dem
eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Gesetzmäßigkeit nicht einmal allen Statistikern bekannt. Erst seit der US-amerikanische Mathematiker Theodore Hill versucht hat, die Benford-Verteilung zur Lösung praktischer Probleme nutzbar zu machen, ist ihr Bekanntheitsgrad gewachsen.(Quelle: »Wikipedia«)
H ÄUFIGKEITSVERTEILUNG DER A NFANGSZIFFERN VON Z AHLEN :
Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in
empirischen Datensätzen näherungsweise mit folgenden relativen Häufigkeiten p(d) auf:
p(d) = log10 1 +
1
= log10 d + 1 − log10 d.
d
In der Grafik unten (Quelle: »Wolfram Demonstrations Project«) werden die relativen
Häufigkeiten der Anfangsziffern 1 bis 9 in den Anzahlen der Telefonanschlüsse in allen
Ländern der Erde mit den nach dem Benfordschen Gesetz prognostizierten relativen HäuEinführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
23
figkeiten verglichen.
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1
2
3
4
5
6
7
8
9
1.2 Diskrete Zufallsvariablen und ihre Verteilung
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
Definition.
i) Eine diskrete Zufallsvariable (ZV) ist eine Abbildung
X : Ω → S,
S abzählbar,
so dass für alle a ∈ S gilt:
X −1 (a) := {ω ∈ Ω | X(ω) = a} ∈ A.
(1.2.1)
Für X −1 (a) (das Urbild von a unter X) schreiben wir im folgenden {X = a}.
ii) Die Verteilung von X ist die Wahrscheinlichkeitsverteilung µX auf S mit Gewichten
(a ∈ S).
pX (a) := P [{X = a}],
Für P [{X = a}] schreiben wir im folgenden P [X = a].
Bemerkung.
a) In der Tat ist pX Massenfunktion einer Wahrscheinlichkeitsverteilung (siehe
Satz 1.2):
i) Für alle a ∈ S gilt:
pX (a) ≥ 0
ii) Da die Ereignisse {X = a} disjunkt sind, folgt:
X
X
[
pX (a) =
P [X = a] = P
{X = a} = P [Ω] = 1.
a∈S
Universität Bonn
a∈S
a∈S
Wintersemester 2009/2010
24
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
b) Für B ⊆ S gilt:
{X ∈ B} := {ω ∈ Ω|X(ω) ∈ B} =
|
{z
}
P [X ∈ B] =
X
X −1 (B)
P [X = a] =
a∈B
X
[
a∈B
{X = a} ∈ A,
| {z }
sowie
∈A
pX (a) = µX (B).
a∈B
Die Verteilung µX gibt also an, mit welchen Wahrscheinlichkeiten die Zufallsvariable X
Werte in bestimmten Mengen annimmt.
Beispiele (Zweimal würfeln). Sei Ω = {ω = (ω1 , ω2 ) | ωi ∈ {1, . . . , 6}} und sei P die Gleich-
verteilung.
a)
Sei Xi : Ω → S := {1, 2, 3, 4, 5, 6},
X(ω) := ωi ,
die Augenzahl des i-ten Wurfs.
Xi ist eine diskrete Zufallsvariable mit Verteilung µXi . Die Gewichte von µXi sind
pXi (a) = P [Xi = a] =
1
6
=
36
6
für alle a ∈ S,
d.h. Xi ist gleichverteilt.
b)
Sei Y : Ω → Se := {2, 3, . . . , 12}
Y (ω) := X1 (ω) + X2 (ω),
die Summe der Augenzahlen.
Die Gewichte der Verteilung von Y sind
pY (a) = P [Y = a] =
d.h. Y ist nicht mehr gleichverteilt!

1



 36
2
36



. . .
falls a ∈ {2, 12},
falls a ∈ {3, 11}, .
Allgemeiner:
Beispiel. Sei Ω = {ω1 , . . . , ωn } endlich, P die Gleichverteilung, X : Ω → S eine Zufallsvariable
und xi := X(ωi ). Dann ist
P [X = a] =
|{1 ≤ i ≤ n | xi = a}|
|{ω ∈ Ω | X(ω) = a}|
=
,
|Ω|
n
also ist µx die empirische Verteilung von x1 , . . . , xn .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
25
Binomialverteilung
Beispiel (»Ziehen mit Zurücklegen«). Wir betrachten eine endliche Grundgesamtheit (Population, Zustandsraum) S, zum Beispiel Kugeln in einer Urne, Vögel im Wald, Einwohner in NRW.
Wir wollen nun die zufällige Entnahme von n Einzelstichproben mit Zurücklegen aus S beschreiben und setzen daher
Ω = S n = {ω = (x1 , . . . , xn ) | xi ∈ S}.
Wir nehmen an, dass alle kombinierten Stichproben gleich wahrscheinlich sind, d.h. P sei die
Gleichverteilung auf Ω.
R ELEVANTE Z UFALLSVARIABLEN UND E REIGNISSE :
• i-ter Stichprobenwert:
Xi (ω) = xi ,
P [Xi = a] =
|S|n−1
|S|n−1
1
=
=
,
n
|Ω|
|S|
|S|
für alle a ∈ S,
d.h. Xi ist gleichverteilt auf S.
Sei E ⊆ S eine bestimmte Merkmalsausprägung der Stichprobe, die wir im folgenden
als »Erfolg« bezeichnen (zum Beispiel schwarze Kugel, Beobachtung einer Amsel). Dann
können wir die Ereignisse
{Xi ∈ E},»Erfolg bei i-ter Stichprobe«,
betrachten. Es gilt:
P [Xi ∈ E] = µXi (E) =
|E|
.
|S|
Wir setzen
q :=
|E|
,
|S|
»Erfolgswahrscheinlichkeit«
• Häufigkeit von E / »Anzahl der Erfolge«:
Sei nun
N : Ω → {0, 1, 2, . . . , n},
N (ω) := |{1 ≤ i ≤ n | Xi (ω) ∈ E}|
die Anzahl der Einzelstichproben mit Merkmalsausprägung E.
Universität Bonn
Wintersemester 2009/2010
26
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Lemma 1.4. Für k ∈ {0, 1, . . . , n} gilt:
n k
p (1 − p)n−k .
P [N = k] =
k
Beweis. Es gilt
wobei
n
|{ω ∈ Ω | N (ω) = k}| =
|E|k |S\E|n−k ,
k
n
=Anzahl der Möglichkeiten k Indizes aus {1, . . . , n} auszuwählen,
k
für die ein Erfolg eintritt,
|E|k =Anzahl der Möglichkeiten für jeden Erfolg,
|S\E|n−k =Anzahl der Möglichkeiten für jeden Misserfolg.
Also gilt:
n
k
|E|k |S\E|n−k
P [N = k] =
=
|S|n
n k
p (1 − p)n−k .
=
k
k n−k
|E|
|S\E|
n
k
|S|
|S|
Definition. Sei n ∈ N und p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} mit
Massenfunktion
n k
pn,p (k) =
p (1 − p)n−k
k
heißt Binomialverteilung mit Parametern n und p (kurz: Bin(n, p)).
Bemerkung. Dass pn,p eine Massenfunktion einer Wahrscheinlichkeitsverteilung ist, folgt aus
Lemma 1.3!
Bemerkung. Ereignisse E1 , . . . , En heißen unabhängig, falls
P [Ei1 ∩ Ei2 ∩ . . . ∩ Eik ] = P [Ei1 ] · P [Ei2 ] · · · P [Eik ]
für alle k ≤ n und 1 ≤ i1 < i2 < . . . < ik ≤ n gilt.
Sind E1 , . . . , En unabhängig und P [Ei ] = p, dann ist
n k
P [»genau k der Ei treten ein«] =
p (1 − p)n−k ,
k
d.h. die Anzahl der Ereignisse, die eintreten, ist binomialverteilt. Der Beweis folgt weiter unten.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
27
Poissonverteilung
Beispiel (Warteschlange). Angenommen, die Kunden in einer Warteschlange kommen unabhängig voneinander zu zufälligen (gleichverteilten) Zeitpunkten. Wie viele Kunden kommen in
einer Zeitspanne der Länge t0 an? Sei N die Anzahl dieser Kunden und t0 = 1. Wir unterteilen
das Intervall [0, 1]:
Wir machen die folgende Annahme (die natürlich in zu modellierenden Anwendungsproblemen
zu überprüfen ist):
»Wenn n sehr groß ist, dann kommt in einer Zeitspanne der Länge
1
n
fast immer
höchstens ein Kunde«.
Ei stehe für das Ereignis, dass ein Kunde im Zeitintervall
i−1
n
, ni ankommt (1 ≤ i ≤ n).
Wir nehmen außerdem an, dass die Wahrscheinlichkeit unabhängig von i und näherungsweise
proportional zu
1
n
ist, also:
λ
,
λ ∈ (0, ∞).
n
Für das Ereignis, dass genau k Kunden im Zeitintervall [0, 1] ankommen, sollte dann gelten, dass
P [Ei ] ≈
P [N = k] ≈ P [»genau k der Ei treten ein«] ≈ pn, λ (k),
n
wobei pn, λ (k) das Gewicht von k unter der Binomialverteilung mit Parametern n und
n
λ
n
ist. Diese
Näherung sollte »für große n immer genauer werden«.
Satz 1.5 (Poissonapproximation der Binomialverteilung). Sei λ ∈ (0, ∞). Dann gilt:
lim pn, λ (k) =
n→∞
n
λk −λ
e ,
k!
k = 0, 1, 2, . . . .
Beweis. Es gilt:
n!
·
pn, λ (k) =
n
k!(n − k)!
n−k
k λ
λ
· 1−
n
n
n −k
λ
λ
λk n · (n − 1) · . . . · (n − k + 1)
· 1−
· 1−
·
=
k
k! |
n
n
{z
} | {zn } |
{z
}
→1
k
−→
Universität Bonn
λ −λ
e
k!
→e−λ
→1
für n → ∞.
Wintersemester 2009/2010
28
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Definition. Die Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Massenfunktion
p(k) =
λk −λ
e ,
k!
k = 0, 1, 2, . . . ,
heißt Poissonverteilung mit Parameter λ.
Aufgrund des Satzes verwendet man die Poissonverteilung zur näherungsweisen Modellierung
der Häufigkeit seltener Ereignisse (zum Beispiel Tippfehler in einem Buch, Schadensfälle bei
Versicherung, Zusammenbrüche des T-Mobile-Netzes, . . . ) und damit zur »Approximation« von
Binomialverteilungen mit kleiner Erfolgswahrscheinlichkeit p.
Für häufigere Ereignisse (zum Beispiel wenn Erfolgswahrscheinlichkeit p unabhängig von n ist)
verwendet man hingegen besser eine Normalverteilung zur näherungsweisen Modellierung der
(geeignet reskalierten) relativen Häufigkeit
k
n
des Ereignisses für große n. Definition und Eigen-
schaften von Normalverteilungen werden wir später kennenlernen.
Die folgenden (mit »Maple« erstellten) Graphiken zeigen die Poisson- und Normalapproximation (Poisson schwarz, Normalverteilung rot) der Binomialverteilung (blau) für unterschiedliche
Parameterwerte:
n = 100, p = 0, 35
n = 100, p = 0, 02
Hypergeometrische Verteilung
Beispiel (Ziehen ohne Zurücklegen). Wir betrachten m Kugeln in einer Urne (Wähler, Fische
im See, . . . ), davon r rote und m − r schwarze. Gezogen wird eine zufällige Stichprobe von n
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
29
Kugeln, n ≤ min(r, m − r). Sind alle Stichproben gleich wahrscheinlich, dann ist ein geeignetes
Modell gegeben durch:
Ω = P({1, . . . , m}) = alle Teilmengen von {1, . . . , m} der Kardinalität n,
P = Gleichverteilung auf Ω.
Wir definieren eine Zufallsvariable N : Ω → {1, . . . , m} durch
N (ω) := Anzahl der roten Kugeln in ω.
Für das Ereignis, dass genau k rote Kugeln in der Stichprobe sind, gilt:
m−r
r
· n−k
|{ω ∈ Ω | N (ω) = k}|
k
=
P [N = k] =
,
(k = 0, 1, . . . , n).
m
|Ω|
n
Diese Wahrscheinlichkeitsverteilung wird hypergeometrische Verteilung mit Parametern m,
r und n genannt.
Bemerkung. Untersucht man die Asymptotik der hypergeometrischen Verteilung für m → ∞,
r → ∞, p =
r
m
fest und n fest, so gilt:
n k
p (1 − p)k ,
P [N = k] −→
k
d.h. die hypergeometrische Verteilung nähert sich der Binomialverteilung an. Eine anschauliche
Erklärung dafür ist:
Befinden sich sehr viele Kugeln in der Urne, dann ist der Unterschied zwischen Ziehen mit und
ohne Zurücklegen vernachlässigbar, da nur sehr selten dieselbe Kugel zweimal gezogen wird.
1.3 Simulation von Gleichverteilungen
Ein (Pseudo-) Zufallszahlengenerator ist ein Algorithmus, der eine deterministische Folge
von ganzen Zahlen x1 , x2 , x3 , . . .mit Werten zwischen 0 und einem Maximalwert m − 1 erzeugt,
welche durch eine vorgegebene Klasse statistischer Tests nicht von einer Folge von Stichproben unabhängiger, auf {0, 1, 2, . . . , m − 1} gleichverteilter Zufallsgrößen unterscheidbar ist. Ein
Zufallszahlengenerator erzeugt also nicht wirklich zufällige Zahlen. Die von »guten« Zufalls-
zahlengeneratoren erzeugten Zahlen haben aber statistische Eigenschaften, die denen von echten
Zufallszahlen in vielerlei (aber nicht in jeder) Hinsicht sehr ähnlich sind.
Universität Bonn
Wintersemester 2009/2010
30
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Konkret werden die Pseudozufallszahlen üblicherweise über eine deterministische Rekurrenzrelation vom Typ
xn+1 = f (xn−k+1 , xn−k+2 , . . . , xn ) ,
n = k, k + 1, k + 2, . . . ,
aus Saatwerten x1 , x2 , . . . , xk erzeugt. In vielen Fällen hängt die Funktion f nur von der letzten
erzeugten Zufallszahl xn ab. Wir betrachten einige Beispiele:
Lineare Kongruenzgeneratoren (LCG)
Bei linearen Kongruenzgeneratoren ist die Rekurrenzrelation vom Typ
xn+1 = (axn + c) mod m,
n = 0, 1, 2, . . . .
Hierbei sind a, c und m geeignet zu wählende positive ganze Zahlen, zum Beispiel:
ZX81-Generator :
m = 216 + 1, a = 75,
c = 0.
RANDU, IBM 360/370 : m = 231 ,
a = 65539,
c = 0.
m = 232 ,
a = 69069,
c = 1.
Marsaglia-Generator :
Langlands-Generator :
48
m=2 ,
a = 142412240584757, c = 11.
Um einen ersten Eindruck zu erhalten, wie die Qualität der erzeugten Pseudozufallszahlen von a,
c und m abhängt, implementieren wir die Generatoren mit »Mathematica«:
f [ x_ ] : = Mod[ a x + c , m]
Beispiel. Wir beginnen zur Demonstration mit dem Beispiel eines ganz schlechten LCG:
a = 11; c = 0; m = 63;
pseudorandomdata = NestList [ f , 1 , 300];
L i s t P l o t [ pseudorandomdata ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
31
60
50
40
30
20
10
50
100
150
200
250
300
Die Folge von Zufallszahlen ist in diesem Fall periodisch mit einer Periode, die viel kleiner ist
als die maximal mögliche (63). Dies rechnet man auch leicht nach.
Periodizität mit Periode kleiner als m kann man leicht ausschließen. Es gilt nämlich:
Satz (Knuth). Die Periode eines LCG ist gleich m genau dann, wenn
i) c und m teilerfremd sind,
ii) jeder Primfaktor von m ein Teiler von a − 1 ist, und
iii) falls 4 ein Teiler von m ist, dann auch von a − 1.
Beweis. siehe D. Knuth: »The art of computer programming, Vol. 2.«
Beispiel (ZX 81-Generator). Hier ergibt sich ein besseres Bild, solange wir nur die Verteilung
der einzelnen Zufallszahlen betrachten:
a = 7 5 ; c = 0 ; m = 2^16 + 1 ;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
Universität Bonn
Wintersemester 2009/2010
32
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
60 000
50 000
40 000
30 000
20 000
10 000
5000
10 000
15 000
20 000
25 000
30 000
Fassen wir jedoch Paare (xi , xi+1 ) von aufeinanderfolgenden Pseudozufallszahlen als Koordinaten eines zweidimensionalen Pseudozufallsvektors auf, und betrachten die empirische Verteilung
dieser Vektoren, so ergibt sich keine besonders gute Approximation einer zweidimensionalen
Gleichverteilung:
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ]
60 000
50 000
40 000
30 000
20 000
10 000
10 000
20 000
30 000
40 000
50 000
60 000
Beispiel (RANDU). Hier scheinen sowohl die einzelnen Pseudozufallszahlen xi als auch die
Vektoren (xi , xi+1 ) näherungsweise gleichverteilt zu sein:
a = 65539; c = 0; m = 2^31;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
33
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
5000
10 000
15 000
20 000
25 000
30 000
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ]
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
5.0 ´ 10 8
1.0 ´ 10 9
1.5 ´ 10 9
2.0 ´ 10 9
Fassen wir aber jeweils drei aufeinanderfolgende Pseudozufallszahlen als Koordinaten eines Vektors
(xi , xi+1 , xi+2 ) im Z3 auf, dann ist die empirische Verteilung dieser Pseudozufallsvektoren keine
Gleichverteilung mehr, sondern konzentriert sich auf nur 15 zweidimensionalen Hyperebenen:
blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; L i s t P o i n t P l o t 3 D [ blocks3 ]
Universität Bonn
Wintersemester 2009/2010
34
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
2.0 ´ 10 9
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
0
2.0 ´ 10
1.5 ´ 10 9
1.0 ´ 10 9
5.0 ´ 10 8
1.5 ´ 10 9
2.0 ´ 10 9
0
1.0 ´ 10 9
5.0 ´ 10 8
0
Beispiel (Marsaglia-Generator). Der von Marsaglia 1972 vorgeschlagene LCG besteht dagegen
alle obigen Tests (und einige weitere):
a = 60069; c = 1; m = 2^32;
pseudorandomdata = NestList [ f , 1 , 30000];
L i s t P l o t [ pseudorandomdata ]
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10 9
5000
10 000
15 000
20 000
25 000
30 000
blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ;
ListPlot [ blocks ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN
35
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10 9
1 ´ 10 9
2 ´ 10 9
3 ´ 10 9
4 ´ 10 9
blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ;
ListPointPlot3D [ blocks3 ]
4 ´ 10 93 ´ 10 9
2 ´ 10 9
1 ´ 10 9
0
4 ´ 10 9
3 ´ 10 9
2 ´ 10 9
1 ´ 10
0
4 ´ 10 9
3 ´ 10
2 ´ 10
1 ´ 10
9
9
9
0
Dies bedeutet natürlich nicht, daß die vom Marsaglia-Generator erzeugte Folge eine für alle
Zwecke akzeptable Approximation einer Folge von unabhängigen Stichproben von der Gleichverteilung ist. Da die Folge in Wirklichkeit deterministisch ist, kann man einen Test konstruieren,
der sie von einer echten Zufallsfolge unterscheidet.
Shift-Register-Generatoren
Bei Shift-Register-Generatoren interpretiert man eine Zahl xn ∈ {0,1,. . . , 2k − 1 zunächst als
Binärzahl bzw. als Vektor aus {0, 1}k , und wendet dann eine gegebene Matrix T darauf an, um
xn+1 zu erhalten:
xn+1 = T xn ,
Universität Bonn
n = 0, 1, 2, . . . .
Wintersemester 2009/2010
36
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Kombination von Zufallszahlengeneratoren
Zufallszahlengeneratoren lassen sich kombinieren, zum Beispiel indem man die von mehreren
Zufallszahlengeneratoren erzeugten Folgen von Pseudozufallszahlen aus {0,1,. . . ,m − 1} mo-
dulo m addiert. Auf diese Weise erhält man sehr leistungsfähige Zufallszahlengeneratoren, zum
Beispiel den Kiss-Generator von Marsaglia, der einen LCG und zwei Shift-Register-Generatoren
kombiniert, Periode 295 hat, und umfangreiche statistische Tests besteht.
Zufallszahlen aus [0,1)
Ein Zufallszahlengenerator kann natürlich nicht wirklich reelle Pseudozufallszahlen erzeugen,
die die Gleichverteilung auf dem Intervall [0, 1) simulieren, denn dazu würden unendlich vie-
le »zufällige« Nachkommastellen benötigt. Stattdessen werden üblicherweise (pseudo-)zufällige
Dezimalzahlen vom Typ
un =
xn
,
m
xn ∈ {0, 1, . . . , m − 1},
erzeugt, wobei m vorgegeben ist (zum Beispiel Darstellungsgenauigkeit des Computers), und xn
eine Folge ganzzahliger Pseudozufallszahlen aus {0, 1, . . . , m - 1} ist. In »Mathematica« kann
man mit
h
i
RandomReal spec, WorkingPrecision → k
pseudozufällige Dezimalzahlen mit einer beliebigen vorgegebenen Anzahl k von Nachkommastellen erzeugen.
Zufallspermutationen
Der folgende Algorithmus erzeugt eine (pseudo-)zufällige Permutation aus Sn :
Algorithmus 1.6 (RPERM).
r p e r m [ n_ ] : =
Module [ { x = Range [ n ] , k , a } , Beginn mit Liste 1,2,...,n
Do [
k = RandomInteger [{ i , n } ] ;
a = x[[ i ]]; x[[ i ]] = x[[k ]]; x[[k]] = a ;
x
, {i , n − 1}];
(Vertausche x[[i]] und x[[k]])
(Schleife, i läuft von 1 bis n − 1)
(Ausgabe von x) ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
37
rperm [ 1 7 ]
{ 1 2 , 5 , 1 3 , 8 , 1 7 , 9 , 1 0 , 6 , 1 , 7 , 1 6 , 1 5 , 1 4 , 4 , 2 , 3 , 11}
Ü BUNG :
Sei Ωn = {1, 2, . . . , n} × {2, 3, . . . , n} × · · · × {n − 1, n}.
a) Zeigen Sie, daß die Abbildung X(ω) = τn−1,ωn−1 ◦ · · · ◦ τ2,ω2 ◦ τ1,ω1 eine Bijektion von Ωn
nach Sn ist (τi,j bezeichnet die Transposition von i und j).
b) Folgern Sie, daß der Algorithmus oben tatsächlich eine Stichprobe einer gleichverteilten
Zufallspermutation aus Sn simuliert.
1.4 Erwartungswert
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, S ⊆ R abzählbar und X : Ω → S eine Zufallsvariable auf (Ω, A, P ).
Definition. Der Erwartungswert von X bzgl. P ist definiert als
E[X] :=
X
a∈S
a · P [X = a] =
X
a∈S
a · pX (a),
sofern die Summe auf der rechten Seite wohldefiniert ist (d.h. unabhängig von der Abzählung von
S).
Bemerkung.
a) Falls X(ω) ≥ 0 für alle ω ∈ Ω gilt, sind alle Summanden der Reihe nichtne-
gativ und der Erwartungswert E[X] ∈ [0, ∞] wohldefiniert.
b) Falls die Reihe absolut konvergiert, d.h. falls
Erwartungswert E[X] ∈ R wohldefiniert.
P
a∈S
|a| · P [X = a] endlich ist, ist der
E[X] kann als der Prognosewert oder (gewichteter) Mittelwert für X(ω) interpretiert werden.
Beispiel (Indikatorfunktion eines Ereignisses A ∈ A). Sei

1 falls ω ∈ A,
X(ω) = IA (ω) :=
0 falls ω ∈ AC .
Dann ist der Erwartungswert
E[X] = 1 · P [X = 1] + 0 · P [X = 0] = P [A].
Universität Bonn
Wintersemester 2009/2010
38
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Ein Beispiel dafür ist ein elementarer Versicherungskontrakt mit Leistung

c falls ω ∈ A,
»Schadensfall«,
Y =
0 sonst.
Dann gilt:
Y = c · IA
und E[Y ] = c · P [A].
Beispiel (Poissonverteilung). Sei X Poisson-verteilt mit Parameter λ. Dann ist der Erwartungswert
∞
∞
X
X
λk−1 −λ
λk −λ
λk −λ
e =λ·
e = λ.
E[X] =
k · P [X = k] =
k· e =λ·
k!
(k − 1)!
(k)!
k=1
k=0
k=0
k=0
∞
X
∞
X
Wir können daher den Parameter λ als Erwartungswert oder die mittlere Häufigkeit des Ereignisses interpretieren.
Transformationssatz
Sei nun S eine beliebige abzählbare Menge, g : S → R eine Funktion und X : Ω → S eine
Zufallsvariable. Wir definieren
g(X) : Ω → R,
ω 7→ g(X(ω)).
g(X) ist eine reellwertige Zufallsvariable.
Satz 1.7 (Transformationssatz). Es gilt
E[g(X)] =
X
a∈S
g(a) · P [X = a],
falls die Summe wohldefiniert ist (zum Beispiel falls g nichtnegativ ist oder die Summe absolut
konvergiert).
Beweis. Es gilt mit Verwendung der σ-Additivität
X
X
E[g(X)] =
b · P [g(X) = b] =
b·P
b∈g(S)
=
X
b∈g(S)
=
X
b·
X
X
a∈S
{X = a}
a∈g −1 (b)
P [X = a]
a∈g −1 (b)
X
b∈g(S) a∈g −1 (b)
=
b∈g(S)
[
g(a) · P [X = a]
g(a) · P [X = a].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
Bemerkung.
39
a) Insbesondere gilt:
E[|X|] =
X
a∈S
|a| · P [X = a].
Ist E[|X|] endlich, dann konvergiert E[X] =
b) Ist Ω abzählbar, dann folgt für X : Ω → R:
E[X] = E[X ◦ idΩ ] =
X
ω∈Ω
P
a · P [X = a] absolut.
X(ω) · P [{ω}] =
X
X(ω) p(ω),
ω∈Ω
wobei idΩ die identische Abbildung auf Ω bezeichnet. Der Erwartungswert ist das gewichtete Mittel. Ist P die Gleichverteilung auf Ω, folgt weiter:
E[X] =
1 X
X(ω).
|Ω| ω∈Ω
Der Erwartungswert ist in diesem Spezialfall das arithmetische Mittel .
Beispiel (Sankt-Petersburg-Paradoxon). Wir betrachten ein Glücksspiel mit fairen Münzwürfen
X1 , X2 , . . ., wobei sich der Gewinn in jeder Runde verdoppelt bis zum ersten Mal »Kopf« fällt,
dann ist das Spiel beendet.Wie hoch wäre eine faire Teilnahmegebühr für dieses Spiel?
Der Gewinn ist
G(ω) = 2T (ω) ,
mit
T (ω) := min{n ∈ N | Xn (ω) = 1},
der Wartezeit auf »Kopf«.
Für den erwarteten Gewinn ergibt sich
E[G] =
∞
X
k=1
= ∞.
k
2 · P [T = k] =
∞
X
k=1
k
2 · P [X1 = · · · = Xk−1 = 1, Xk = 0] =
∞
X
2k 2−k
k=1
Das Spiel sollte also auf den ersten Blick bei beliebig hoher Teilnahmegebühr attraktiv sein –
dennoch wäre wohl kaum jemand bereit, einen sehr hohen Einsatz zu zahlen.
Eine angemessenere Beschreibung – vom Blickwinkel des Spielers aus betrachtet – erhält man,
wenn man eine (üblicherweise als monoton wachsend und konkav vorausgesetzte) Nutzenfunktion u(x) einführt, die den Nutzen beschreibt, den der Spieler vom Kapital x hat. Für kleine x
könnte etwa u(x) = x gelten, aber für große x wäre plausibler u(x) < x. Dann ist c ein fairer
Einsatz aus Sicht des Spielers, wenn u(c) = E[u(G)] gilt.
Universität Bonn
Wintersemester 2009/2010
40
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Linearität und Monotonie des Erwartungswertes
Satz 1.8 (Linearität des Erwartungswerts). Seien X : Ω → SX ⊆ R und Y : Ω → SY ⊆ R
diskrete reellwertige Zufallsvariablen auf (Ω, A, P ), für die E[|X|] und E[|Y |] endlich sind,
dann gilt:
für alle λ, µ ∈ R.
E[λ X + µ Y ] = λ E[X] + µ E[Y ]
Beweis. Wir definieren g : SX × SY → R,
(x, y) 7→ λ x + µ y. Dann ist g(X, Y ) = λ X + µ Y
eine Zufallsvariable mit Werten in SX × SY . Mit dem Transformationssatz folgt:
E[λ X + µ Y ] = E[g(X, Y )]
X X
=
g(a, b) P [X = a, Y = b]
(1.4.1)
a∈SX b∈SY
=
X X
a∈SX b∈SY
=λ
X
a∈SX
=λ
X
a
(λ a + µ b) P [X = a, Y = b]
X
P [X = a, Y = b] + µ
b∈SY
a P [X = a] + µ
a∈SX
X
X
b∈SY
b
X
P [X = a, Y = b]
a∈SX
b P [Y = b]
b∈SY
= λ E[X] + µ E[Y ].
Hierbei konvergiert die Reihe in (1.4.1) absolut, da
X X
a∈SX b∈SY
|λ a + µ b| P [X = a, Y = b] ≤ |λ|
X
a∈SX
|a| P [X = a] + |µ|
X
b∈SY
|b| P [Y = b]
= |λ| E[|X|] + |µ| E[|Y |]
nach Voraussetzung endlich ist.
Korollar (Monotonie des Erwartungswerts). Seien die Voraussetzungen von Satz 1.8 erfüllt. Sei
zusätzlich X(ω) ≤ Y (ω) für alle ω ∈ Ω, dann gilt:
E[X] ≤ E[Y ].
Beweis. Nach Voraussetzung gilt (Y − X)(ω) ≥ 0 für alle ω ∈ Ω, weshalb der Erwartungswert
E[Y − X] nichtnegativ ist. Aufgrund der Linearität des Erwartungswerts folgt:
0 ≤ E[Y − X] = E[Y ] − E[X].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
41
Beispiele (Unabhängige 0-1-Experimente). Seien A1 , A2 , . . . , An ∈ A unabhängige Ereignisse
mit Wahrscheinlichkeit p, und sei
Xi = I A i ,
die Indikatorfunktion des Ereignisses Ai , i = 0, . . . , n.
a) Die Zufallsvariablen Xi sind Bernoulli-verteilt mit Parameter p, d.h.

1 mit Wahrscheinlichkeit p,
Xi =
0 mit Wahrscheinlichkeit 1 − p.
Also gilt:
E[Xi ] = E[IAi ] = P [Ai ] = p,
analog zu Beispiel 1.4.
b) Die Anzahl
Sn = X1 + X2 + · · · + Xn
der Ereignisse, die eintreten, ist binomialverteilt mit Parametern n und p (siehe Übung),
d.h.
n k
p (1 − p)n−k .
P [Sn = k] =
k
Den Erwartungswert kann man daher wie folgt berechnen:
n
X
n k
E[Sn ] =
k · P [Sn = k] =
k
p (1 − p)n−k
k
k=0
k=0
n
X
= . . . = n p.
Einfacher benutzt man aber die Linearität des Erwartungswerts, und erhält
#
" n
n
X
X
Xi =
E[Sn ] = E
E[Xi ] = n p,
i=1
i=1
sogar ohne Verwendung der Unabhängigkeit!
Beispiel (Abhängige 0-1-Experimente). Wir betrachten eine Population aus m Objekten, davon
r rote, aus der eine Zufallsstichprobe aus n Objekten ohne Zurücklegen entnommen wird, n ≤
min(r, m − r). Sei Ai das Ereignis, dass das i-te Objekt in der Stichprobe rot ist, und Xi = IAi .
Die Anzahl
Sn = X1 + · · · + Xn
Universität Bonn
Wintersemester 2009/2010
42
KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
der roten Objekte in der Zufallsstichprobe ist dann hypergeometrisch verteilt mit Parametern m,
r und n. Als Erwartungswert dieser Verteilung erhalten wir analog zum letzten Beispiel:
E[Sn ] =
n
X
E[Xi ] =
i=1
n
X
P [Ai ] = n
i=1
r
.
m
Beispiel (Inversionen von Zufallspermutationen). Seien Ω = Sn die Menge aller Permutationen
ω : {1, . . . , n} → {1, . . . , n}, P die Gleichverteilung auf Ω, und
N (ω) = |{(i, j) | i < j und ω(i) > ω(j)}|,
die Anzahl der Inversionen einer Permutation ω ∈ Ω. Dann gilt
N=
X
IAi,j ,
wobei
1≤i<j≤n
Ai,j = {ω ∈ Sn | ω(i) > ω(j)}
das Ereignis ist, dass eine Inversion von i und j auftritt. Es folgt:
E[N ] =
X
i<j
A NWENDUNG :
E[IAi,j ] =
X
i<j
P [{ω ∈ Sn | ω(i) > ω(j)}] =
X1
i<j
1
=
2
2
n (n − 1)
n
=
.
2
4
Beim Sortieralgorithmus »Insertion Sort« wird der Wert ω(i) einer Liste
{ω(1), ω(2), . . . , ω(n)} beim Einfügen von ω(j) genau dann verschoben, wenn ω(j) < ω(i)
gilt. Ist die Anfangsanordnung eine Zufallspermutation der korrekten Anordnung, dann ist die
mittlere Anzahl der Verschiebungen, die der Algorithmus vornimmt, also gleich
n (n−1)
.
4
Satz 1.9 (Einschluss-/Ausschlussprinzip). Für n ∈ N und Ereignisse A1 , . . . , An ∈ A gilt:
P [A1 ∪ A2 ∪ . . . ∪ An ] =
n
X
(−1)k−1
k=1
Einführung in die Wahrscheinlichkeitstheorie
X
1≤i1 <...<ik ≤n
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
Prof. Andreas Eberle
1.4. ERWARTUNGSWERT
43
Beweis. Wir betrachten zunächst das Gegenereignis, und drücken die Wahrscheinlichkeiten als
Erwartungswerte von Indikatorfunktionen aus. Unter Ausnutzung der Linearität des Erwartungswerts erhalten wir:
C
P (A1 ∪ · · · ∪ An )C = P AC
C
1 ∩ · · · ∩ An = E IAC
1 ∩···∩An
n
n
Y
Y
=E
IACi = E
(1 − IAi )
i=1
=
=
=
n
X
k=0
n
X
k=0
n
X
k=0
(−1)k
i=1
X
1≤i1 <...<ik ≤n
(−1)k
X
1≤i1 <...<ik ≤n
(−1)k
X
1≤i1 <...<ik ≤n
E I A i1 · · · · · I A ik
E IAi1 ∩···∩Aik
P Ai1 ∩ · · · Aik .
Es folgt:
P [A1 ∪ · · · ∪ An ] = 1 − P (A1 ∪ · · · ∪ An )C
n
X
X
=
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
(−1)k−1
k=1
Universität Bonn
1≤i1 <...<ik ≤n
Wintersemester 2009/2010
Kapitel 2
Bedingte Wahrscheinlichkeiten und
Unabhängigkeit
2.1
Bedingte Wahrscheinlichkeiten
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und A, B ∈ A Ereignisse. Was ist die Wahrscheinlichkeit dafür, dass A eintritt, wenn wir schon wissen, dass B eintritt?
ω∈B
Relevante Fälle:
Davon günstige Fälle: ω ∈ A ∩ B
Definition. Sei P [B] 6= 0. Dann heißt
P [A|B] :=
P [A ∩ B]
P [B]
die bedingte Wahrscheinlichkeit von A gegeben B.
Bemerkung.
a) P [ • |B] : A 7→ P [A|B] ist eine Wahrscheinlichkeitsverteilung auf (Ω, A),
die bedingte Verteilung gegeben B . Der Erwartungswert
E[X|B] =
X
a∈S
a · P [X = a|B]
einer diskreten Zufallsvariable X : Ω → S bzgl. der bedingten Verteilung heißt bedingte
Erwartung von X gegeben B.
b) Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann gilt:
P [A|B] =
|A ∩ B|
|A ∩ B|/|Ω|
=
|B|/|Ω|
|B|
44
für alle A, B ⊆ Ω.
2.1. BEDINGTE WAHRSCHEINLICHKEITEN
Beispiele.
45
a) Wir betrachten eine Familie mit 2 Kindern, und stellen die Frage nach dem
Geschlecht der Kinder. Sei daher
Ω = {JJ, JM, M J, M M }.
Angenommen, alle Fälle wären gleich wahrscheinlich. Dann gilt:
P [»beide Mädchen« | »eines Mädchen«] =
|{M M }|
1
= ,
|{M M, JM, M J}|
3
P [»beide Mädchen« | »das erste ist Mädchen«] =
1
|{M M }|
= .
|{M M, M J}|
2
In Wirklichkeit sind die Kombinationen JJ und M M wahrscheinlicher.
b) Bei 20 fairen Münzwürfen fällt 15-mal »Zahl«. Wie groß ist die Wahrscheinlichkeit, dass
die ersten 5 Würfe »Zahl« ergeben haben? Sei
Ω = {ω = (x1 , . . . x20 ) | xi ∈ {0, 1}},
Xi (ω) = xi ,
und
der Ausgang des i-ten Wurfs.
Es gilt:
P X1 = . . . = X5 = 1 20
X
i=1
Xi = 15 =
=
Dagegen ist P [X1 = . . . = X5 = 1] =
1
.
32
20
P
P X1 = . . . = X5 = 1 und Xi = 10
i=6
2−5 · 2−15
2−20 20
15
P
15
20
P
i=1
10 =
Xi = 15
1
15 · 14 · · · · · 11
≈ .
20 · 19 · · · · · 16
5
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung
Sei Ω =
I.
S
Hi eine disjunkte Zerlegung von Ω in abzählbar viele Fälle (»Hypothesen«) Hi , i ∈
Satz 2.1 (Formel von der totalen Wahrscheinlichkeit). Für alle A ∈ A gilt:
P [A] =
X
i∈I
P [Hi ]6=0
Universität Bonn
P [A|Hi ] · P [Hi ]
Wintersemester 2009/2010
46
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beweis. Es ist A = A ∩ (
Additivität:
P [A] =
X
i∈I
S
Hi ) =
S
i∈I
i∈I
P [A ∩ Hi ] =
(A ∩ Hi ) eine disjunkte Vereinigung, also gilt nach σ-
X
i∈I
X
P [A ∩ Hi ] =
| {z }
i∈I,
P [Hi ]6=0
=0, falls P [Hi ]=0
P [A|Hi ] · P [Hi ].
Beispiel. Urne 1 enthalte 2 rote und 3 schwarze Kugeln, Urne 2 enthalte 3 rote und 4 schwarze
Kugeln. Wir legen eine Kugel K1 von Urne 1 in Urne 2 und ziehen eine Kugel K2 aus Urne 2.
Mit welcher Wahrscheinlichkeit ist K2 rot?
P [K2 rot] = P [K2 rot | K1 rot] · P [K1 rot] + P [K2 rot | K1 schwarz] · P [K1 schwarz]
4 2 3 3
17
= · + · = .
8 5 8 5
40
Beispiel (Simpson-Paradoxon). Bewerbungen in Berkeley:
B EWERBUNGEN IN B ERKELEY
Statistik 1:
Männer
angenommen (A)
2083
Empirische
Verteilung:
P [A|M ]
≈
Frauen
996
1067
0, 48
P [A|F ]
angenommen (A)
349
≈
0, 33
G ENAUERE A NALYSE DURCH U NTERTEILUNG IN 4 FACHBEREICHE
Statistik 2:
Männer
angenommen (A)
Frauen
angenommen (A)
Bereich 1
825
511
62%
108
89
82%
Bereich 2
560
353
63%
25
17
68%
Bereich 3
325
110
34%
593
219
37%
Bereich 4
373
22
6%
341
24
7%
Sei PM [A] := P [A|M ] die empirische Verteilung unter Männern und PF [A] := P [A|F ] die
empirische Verteilung unter Frauen, angenommen zu werden. Die Aufgliederung nach Fachbereichen ergibt folgende Zerlegung in Hypothesen:
PM [A] =
4
X
PM [A|Hi ] PM [Hi ],
i=1
PF [A] =
4
X
PF [A|Hi ] PF [Hi ].
i=1
Im Beispiel ist PF [A|Hi ] > PM [A|Hi ] für alle i, aber dennoch PF [A] < PM [A]. Die erste Statistik vermischt verschiedene Populationen und legt deshalb eventuell eine falsche Schlussfolgerung
nahe.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.1. BEDINGTE WAHRSCHEINLICHKEITEN
47
Bayessche Regel
Wie wahrscheinlich sind die Hypothesen Hi ? Ohne zusätzliche Information ist P [Hi ] die Wahrscheinlichkeit von Hi . In der Bayesschen Statistik interpretiert man P [Hi ] als unsere subjektive
Einschätzung (aufgrund von vorhandenem oder nicht vorhandenem Vorwissen) über die vorliegende Situation (»a priori degree of belief«).
Angenommen, wir wissen nun zusätzlich, dass ein Ereignis A ∈ A mit P [A] 6= 0 eintritt, und
wir kennen die bedingte Wahrscheinlichkeit (»likelihood«) P [A|Hi ] für das Eintreten von A unter
der Hypothese Hi für jedes i ∈ I mit P [Hi ] 6= 0. Wie sieht dann unsere neue Einschätzung der
Wahrscheinlichkeiten der Hi (»a posteriori degree of belief«) aus?
Korollar (Bayessche Regel). Für A ∈ A mit P [A] 6= 0 gilt:
P [Hi |A] =
P [A|Hi ] · P [Hi ]
P
P [A|Hj ] · P [Hj ]
für alle i ∈ I mit P [Hi ] 6= 0, d.h.
j∈I
P [Hj ]6=0
P [Hi |A] = c · P [Hi ] · P [A|Hi ],
wobei c eine von i unabhängige Konstante ist.
Beweis. Es gilt:
P [Hi |A] =
P [A ∩ Hi ]
=
P [A]
P [A|Hi ] · P [Hi ]
P
.
P [A|Hj ] · P [Hj ]
j∈I
P [Hj ]6=0
Beispiel. Von 10.000 Personen eines Alters habe einer die Krankheit K. Ein Test sei positiv (+)
bei 96% der Kranken und 0,1% der Gesunden.
A priori:
P [K]
Likelihood:
P [+|K]
1
.
10000
P [K C ]
= 0, 96.
P [+|K C ]
=
=
9999
.
10000
= 0, 001.
A posteriori:
P [+|K] · P [K]
P [+|K] · P [K] + P [+|K C ] · P [K C ]
0, 96 · 10−4
1
=
≈ .
−4
−3
0, 96 · 10 + 10 · 0, 9999
11
P [K|+] =
Daraus folgt insbesondere: P [K C |+] ≈
ausgehen, dass
10
11
Universität Bonn
10
,
11
d.h. ohne zusätzliche Informationen muss man davon
der positiv getesteten Personen in Wirklichkeit gesund sind!
Wintersemester 2009/2010
48
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
2.2
Mehrstufige diskrete Modelle
Wir betrachten ein n-stufiges Zufallsexperiment. Sind Ω1 , . . . , Ωn abzählbare Stichprobenräume
der Teilexperimente, dann können wir
Ω = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) | ωi ∈ Ωi }
als Stichprobenraum des Gesamtexperiments auffassen und setzen A = P(Ω). Für ω ∈ Ω und
k = 1, . . . , n sei
Xk (ω) = ωk ,
der Ausgang des k-ten Teilexperiments.
Angenommen, wir kennen
P [X1 = x1 ] = p1 (x1 ),
für alle x1 ∈ Ω1 ,
(2.2.1)
die Verteilung (Massenfunktion) von X1 , sowie
P [Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ] = pk (xk | x1 , . . . , xk−1 ),
(2.2.2)
die bedingte Verteilung von Xk gegeben X1 , . . . , Xk−1 für k = 2, . . . n, xi ∈ Ωi mit P [X1 =
x1 , . . . , Xk−1 = xk−1 ] 6= 0.
Wie sieht die gesamte Wahrscheinlichkeitsverteilung P auf Ω aus?
Satz 2.2. Seien p1 und pk ( • | x1 , . . . , xk−1 ) für jedes k = 2, . . . , n und x1 ∈ Ω1 , . . . , xk−1 ∈
Ωk−1 die Massenfunktion einer Wahrscheinlichkeitsverteilung auf Ωk . Dann existiert genau eine
Wahrscheinlichkeitsverteilung P auf (Ω, A) mit (2.2.1) und (2.2.2). Diese ist bestimmt durch die
Massenfunktion
p(x1 , . . . , xn ) = p1 (x1 ) p2 (x2 | x1 ) p3 (x3 | x1 , x2 ) · · · pn (xn | x1 , . . . , xn−1 ).
Beweis.
• E INDEUTIGKEIT:
Wir behaupten, dass für eine Verteilung P mit (2.2.1) und (2.2.2) gilt:
P [X1 = x1 , . . . , Xk = xk ] = p1 (x1 )·p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ),
Einführung in die Wahrscheinlichkeitstheorie
k = 1, . . . , n.
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
49
Der Induktionsanfang folgt aus Bedingung (2.2.1). Sei die Induktionsbehauptung für k − 1
wahr, dann folgt nach Induktionsannahme und (2.2.2):
P [X1 = x1 , . . . , Xk = xk ] =P [X1 = x1 , . . . , Xk−1 = xk−1 ]
· P [X1 = x1 , . . . , Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ]
=p1 (x1 ) · p2 (x2 | x1 ) · · · pk−1 (xk−1 | x1 , . . . , xk−2 )
· pk (xk | x1 , . . . , xk−1 ),
falls P [X1 = x1 , . . . , Xk−1 = xk−1 ] 6= 0. Andernfalls verschwinden beide Seiten und die
Behauptung folgt. Für k = n erhalten wir als Massenfunktion von P :
p(x1 , . . . , xn ) = P [X1 = x1 , . . . , Xn = xn ] = p1 (x1 ) · · · pn (xn | x1 , . . . , xn−1 ).
• E XISTENZ :
p ist Massenfunktion einer Wahrscheinlichkeitsverteilung P auf Ω1 × · · · × Ωn , denn:
X
x1 ∈Ω1
...
X
p(x1 , . . . , xn ) =
xn ∈Ωn
X
p1 (x1 )
x1 ∈Ω1
X
x2 ∈Ω2
p2 (x2 | x1 ) . . .
= 1.
X
xn ∈Ωn
pn (xn | x1 , . . . , xn )
|
{z
=1
}
Für P gilt:
P [X1 = x1 , . . . Xk = xk ] =
X
xk+1 ∈Ωk+1
...
X
p(x1 , . . . , xn )
xn ∈Ωn
= p1 (x1 ) p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ),
k = 1, . . . , n.
Damit folgen (2.2.1) und (2.2.2).
Beispiel. Wie groß ist die Wahrscheinlichkeit, dass beim Skat jeder Spieler genau einen der vier
Buben erhält? Sei
Ω = {(ω1 , ω2 , ω3 ) | ωi ∈ {0, 1, 2, 3, 4}},
Xi (ω) = ωi = Anzahl der Buben von Spieler i.
Universität Bonn
Wintersemester 2009/2010
50
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
p3 (a|aa)
p2 (a|a)
aa
p3 (b|aa)
p3 (a|ab)
a
p3 (b|ab)
p3 (a|ba)
p2 (a|b)
p1 (b)
aba
abb
baa
ba
p3 (b|ba)
p3 (a|bb)
b
bab
bba
bb
p2 (b|b)
p3 (b|bb)
p3 (a|ca)
p1 (c)
aab
ab
p2 (b|a)
p1 (a)
aaa
p2 (a|c)
bbb
caa
ca
p3 (b|ca)
p3 (a|cb)
c
cab
cba
cb
p2 (b|c)
p3 (b|cb)
cbb
Abbildung 2.1: Baumdarstellung der Fallunterscheidungen
Es gilt:
p1 (x1 ) =
p2 (x2 | x1 ) =
Damit folgt:
4
x1
28
10−x1
32
10
4−x1
x2
,
18+x1
10−x2
22
10
hypergeometrische Verteilung,
 4−x −x 18+x +x
1
2
1
2

10−x3 )
 ( x3 )(
12
(10)
p3 (x3 | x1 , x2 ) =

0
falls 2 ≤ x1 + x2 + x3 ≤ 4,
sonst.
p(1, 1, 1) = p1 (1) p2 (1 | 1) p3 (1 | 1, 1) ≈ 5, 56%.
Im folgenden betrachten wir zwei fundamentale Klassen von mehrstufigen Modellen, Produktmodelle und Markov-Ketten.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
51
Produktmodelle
Angenommen, der Ausgang des i-ten Experiments hängt nicht von x1 , . . . , xi−1 ab. Dann sollte
gelten:
pi (xi | x1 , . . . , xi−1 ) = pi (xi )
mit einer von x1 , . . . , xi−1 unabhängigen Massenfunktion pi einer Wahrscheinlichkeitsverteilung
Pi auf Ωi . Die Wahrscheinlichkeitsverteilung P auf Ω hat dann die Massenfunktion
p(x1 , . . . , xn ) =
n
Y
x ∈ Ω.
pi (xi ),
i=1
(2.2.3)
Definition. Die Wahrscheinlichkeitsverteilung P auf Ω = Ω1 × . . . × Ωn mit Massenfunktion
(2.2.3) heißt Produkt von P1 , . . . , Pn und wird mit P1 ⊗ . . . ⊗ Pn notiert.
Beispiel (n-dimensionale Bernoulli-Verteilung). Wir betrachten n unabhängige 0-1-Experimente
mit Erfolgswahrscheinlichkeit p:
Ω1 = . . . = Ωn = {0, 1},
Sei k =
Pn
i=1
pi (0) = 1 − p,
pi (1) = p,
i = 1, . . . , n.
xi die Anzahl der Einsen. Dann ist
p(x1 , . . . , xn ) =
n
Y
i=1
pi (xi ) = pk (1 − p)n−k
die n-dimensionale Bernoulli-Verteilung.
Bemerkung. Sind die Mengen Ωi , i = 1, . . . , n endlich, und ist Pi die Gleichverteilung auf Ωi ,
dann ist P1 ⊗ . . . ⊗ Pn die Gleichverteilung auf Ω1 × . . . × Ωn .
Die Multiplikativität im Produktmodell gilt nicht nur für die Massenfunktion, sondern allgemeiner für die Wahrscheinlichkeiten, dass in den Teilexperimenten bestimmte Ereignisse A1 , . . . ,
An eintreten:
Satz 2.3. Im Produktmodell gilt für beliebige Ereignisse Ai ⊆ Ωi , i = 1, . . . , n:
P [X1 ∈ A1 , . . . , Xn ∈ An ] =
||
P [A1 × . . . × An ]
n
Y
i=1
||
n
Y
P [Xi ∈ Ai ]
(2.2.4)
Pi [Ai ]
i=1
(d.h. X1 , . . . , Xn sind unabhängige Zufallsvariablen, siehe nächsten Abschnitt).
Universität Bonn
Wintersemester 2009/2010
52
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beweis. Es gilt:
P [X1 ∈ A1 , . . . , Xn ∈ An ] = P [(X1 , . . . , Xn ) ∈ A1 × · · · × An ] = P [A1 × · · · × An ]
n
X
X
X Y
=
p(x) =
...
pi (xi )
=
x∈A1 ×···×An
n X
Y
pi (xi ) =
i=1 xi ∈Ai
x1 ∈A1
n
Y
xn ∈An i=1
Pi [Ai ].
i=1
Insbesondere gilt:
P [Xi ∈ Ai ] = P [X1 ∈ Ω, . . . , Xi−1 ∈ Ω, Xi ∈ Ai , Xi+1 ∈ Ω, . . . , Xn ∈ Ω] = Pi [Ai ].
Markov-Ketten
Zur Modellierung einer zufälligen zeitlichen Entwicklung mit abzählbarem Zustandsraum S betrachten wir den Stichprobenraum
Ω = S n+1 = {(x0 , x1 , . . . , xn ) | xi ∈ S}.
Oft ist es naheliegend anzunehmen, dass die Weiterentwicklung des Systems nur vom gegenwärtigen Zustand, aber nicht vom vorherigen Verlauf abhängt (»kein Gedächtnis«), d.h. es sollte
gelten:
pk (xk | x0 , . . . , xk−1 ) = pk (xk−1 , xk ) ,
|
{z
}
(2.2.5)
»Bewegungsgesetz«
wobei pk : S × S → [0, 1] folgende Bedingungen erfüllt:
i) pk (x, y) ≥ 0
ii)
P
y∈S
für alle x, y ∈ S
pk (x, y) = 1
für alle x ∈ S
d.h. pk (x, •) ist für jedes x ∈ S die Massenfunktion einer Wahrscheinlichkeitsverteilung auf S.
Definition. Eine Matrix pk (x, y) (x, y ∈ S) mit i) und ii) heißt stochastische Matrix (oder
stochastischer Kern) auf S.
Im Mehrstufenmodell folgt aus Gleichung (2.2.5):
p(x0 , x1 , . . . , xn ) =
p (x )
| 0{z 0}
p1 (x0 , x1 ) p2 (x1 , x2 ) · · · pn (xn−1 , xn ),
für x0 , . . . , xn ∈ S.
»Startverteilung«
Den Fall, in dem der Übergangsmechanismus pk (x, y) = p(x, y) unabhängig von k ist, nennt
man zeitlich homogen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
Beispiele.
53
a) P RODUKTMODELL (siehe oben):
pk (x, y) = pk (y) ist unabhängig von x.
b) A BHÄNGIGE M ÜNZWÜRFE:
1 1
ε∈ − , .
2 2
S = {0, 1},
p=
1
2
1
2
+ε
−ε
1
2
1
2
−ε
+ε
!
.
c) S ELBSTBEFRUCHTUNG VON P FLANZEN:


1 0 0



p =  41 21 14 

0 0 1
d) R ANDOM WALK AUF S = Zd , (d ∈ N):
Universität Bonn
Wintersemester 2009/2010
54
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
p(x, y) =

1
2d
0
falls |x − y| = 1,
sonst.
e) U RNENMODELL VON P. UND T. E HRENFEST (Austausch von Gasmolekülen in zwei Behältern):
Es seien N Kugeln auf zwei Urnen verteilt. Zu jedem Zeitpunkt t ∈ N wechselt eine
zufällig ausgewählte Kugel die Urne.
M AKROSKOPISCHES M ODELL :
S = {0, 1, 2, . . . , n}.
x ∈ S beschreibt die Anzahl Kugeln in der ersten Urne.

x

falls y = x − 1,

n

p(x, y) = n−x
falls y = x + 1,
n



0
sonst.
M IKROSKOPISCHES M ODELL :
S = {0, 1}n = {(σ1 , . . . , σn ) | σi ∈ {0, 1}}.
Es ist σi = 1 genau dann, wenn sich die i-te Kugel in Urne 1 befindet.

 1 falls Pn |σi − σei | = 1,
i=1
p(σ, σ
e) = N
0 sonst.
Die resultierende Markov-Kette ist ein Random Walk auf dem Hyperwürfel {0, 1}n , d.h.
sie springt in jedem Schritt von einer Ecke des Hyperwürfels zu einer zufällig ausgewählten
benachbarten Ecke.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE
55
Berechnung von Wahrscheinlichkeiten
Satz 2.4 (Markov-Eigenschaft). Für alle 0 ≤ k < l ≤ n und x0 , . . . , xl ∈ S mit P [X0 =
x0 , . . . , Xk = xk ] 6= 0 gilt:
P [Xl = xl | X0 = x0 , . . . , Xk = xk ] = P [Xl = xl | Xk = xk ]
= (pk+1 pk+2 · · · pl )(xk , xl ),
wobei
(p q)(x, y) :=
X
p(x, z) q(z, y)
z∈S
das Produkt der Matrizen p und q ist.
Bemerkung.
a) M ARKOV-E IGENSCHAFT:
Die Weiterentwicklung hängt jeweils nur vom gegenwärtigen Zustand xk ab, und nicht vom
vorherigen Verlauf x0 , x1 , . . . , xk−1 .
b) n-S CHRITT-Ü BERGANGSWAHRSCHEINLICHKEITEN :
P [Xn = y | X0 = x] = (p1 p2 · · · pn )(x, y)
= pn (x, y)
falls zeitlich homogen, d.h. pi ≡ p.
Beweis.
P [Xl = xl | X0 = x0 , . . . , Xk = xk ] =
=
=
P [X0 = x0 , . . . , Xk = xk , Xl = xl ]
P [X0 = x0 , . . . , Xk = xk ]
P
xk+1 ,...,xl−1 p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl )
X
xk+1
p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk )
X
...
pk+1 (xk , xk+1 ) pk+2 (xk+1 , xk+2 ) · · · pl (xl−1 , xl )
xl−1
= (pk+1 pk+2 · · · pl )(xk , xl ).
P [Xl = xl | Xk = xk ] =
=
P [Xk = xk , Xl = xl ]
P [Xk = xk ]
P
P
x1 ,...,xk−1
P
xk+1 ,...,xl−1
x1 ,...,xk−1
p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl )
p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk )
= (pk+1 pk+2 · · · pl )(xk , xl ).
Universität Bonn
Wintersemester 2009/2010
56
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beispiel.
S = {0, 1},
0 < α, β ≤ 1.
Für alle n ∈ N gilt:
pn (0, 0) = pn−1 (0, 0) · p(0, 0) + pn−1 (0, 1) · p(1, 0)
= pn−1 (0, 0) · (1 − α) + (1 − pn−1 (0, 0)) · β
= (1 − α − β) · pn−1 (0, 0) + β.
Daraus folgt mit Induktion:
α
β
+
(1 − α − β)n ,
α+β α+β
pn (0, 1) = 1 − pn (0, 0).
pn (0, 0) =
und
Analoge Formeln erhält man für pn (1, 0) und pn (1, 1) durch Vertauschung von α und β. Für die
n-Schritt-Übergangsmatrix ergibt sich:
!
pn =
β
α+β
β
α+β
α
α+β
α
α+β
+
|
{z
}
Gleiche Zeilen
(1 − α − β)n
|
α
α+β
−β
α+β
−α
α+β
β
α+β
!
.
{z
}
−→ 0 exponentiell schnell,
falls α < 1 oder β < 1
Insbesondere gilt pn (0, ·) ≈ pn (1, ·) für große n ∈ N. Die Kette »vergisst« also ihren Startwert
exponentiell schnell (»Exponentieller Gedächtnisverlust«)!.
2.3
Unabhängigkeit von Ereignissen
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Hängen zwei Ereignisse A, B ∈ A nicht voneinan-
der ab, dann sollte gelten:
P [A|B] = P [A],
fallsP [B] 6= 0,
P [B|A] = P [B],
| {z }
fallsP [A] 6= 0,
sowie
P [B∩A]
P [A]
also insgesamt
P [A ∩ B] = P [A] · P [B].
Einführung in die Wahrscheinlichkeitstheorie
(2.3.1)
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
Definition.
57
i) Zwei Ereignisse A, B ∈ A heißen unabhängig (bzgl. P), falls (2.3.1) gilt.
ii) Eine beliebige Kollektion Ai , i ∈ I, von Ereignissen heißt unabhängig (bzgl. P), falls
n
Y
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =
P [Aik ]
k=1
für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt.
Beispiele.
a) Falls P [A] ∈ {0, 1} gilt, ist A unabhängig von B für alle B ∈ A.
b) Wir betrachten das Modell für ZWEI FAIRE M ÜNZWÜRFE, also Ω = {0, 1}2 und P sei die
Gleichverteilung. Die Ereignisse
A1 = {(1, 0), (1, 1)}, »erster Wurf Zahl«,
A2 = {(0, 1), (1, 1)}, »zweiter Wurf Zahl«,
A3 = {(0, 0), (1, 1)}, »beide Würfe gleich«,
sind paarweise unabhängig, denn es gilt:
1
P [Ai ∩ Aj ] = = P [Ai ] · P [Aj ]
für alle i 6= j.
4
Allerdings ist die Kollektion A1 , A2 , A3 nicht unabhängig, denn es gilt
1
P [A1 ∩ A2 ∩ A3 ] = 6= P [A1 ] · P [A2 ] · P [A3 ].
4
Lemma 2.5. Seien die Ereignisse A1 , . . . , An ∈ A unabhängig, Bj = Aj oder Bj = AC
j für alle
j = 1, . . . , n. Dann sind die Ereignisse B1 , . . . , Bn unabhängig.
Beweis. Sei ohne Beschränkung der Allgemeinheit:
B 1 = A1 ,
...,
Bk = Ak ,
Bk+1 = AC
k+1 ,
B n = AC
n
...,
. Dann gilt unter Verwendung der Linearität des Erwartungswerts und der Unabhängigkeit von
A1 , . . . , An :
C
P [B1 ∩ . . . ∩ Bn ] = P A1 ∩ . . . ∩ Ak ∩ AC
∩
.
.
.
A
k+1
n
= E IA1 · · · IAk · (1 − IAk+1 ) · · · (1 − IAn )
X
Y = E I A1 · · · I Ak ·
I Aj
(−1)|J|
=
X
J⊆{k+1,...,n}
=
X
J⊆{k+1,...,n}
J⊆{k+1,...,n}
j∈J
(−1)|J| P A1 ∩ . . . ∩ Ak ∩
(−1)|J| P [A1 ] · · · P [Ak ] ·
\
j∈J
Y
Aj
P [Aj ]
j∈J
= P [A1 ] · · · P [Ak ] · (1 − P [Ak+1 ]) . . . (1 − P [An ]) = P [B1 ] · · · P [Bn ].
Universität Bonn
Wintersemester 2009/2010
58
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Verteilungen für unabhängige Ereignisse
Seien A1 , A2 , . . . ∈ A unabhängige Ereignisse (bzgl. P ) mit P [Ai ] = p ∈ [0, 1]. Die Existenz
von unendlich vielen unabhängigen Ereignissen auf einem geeigneten Wahrscheinlichkeitsraum
setzen wir hier voraus – ein Beweis wird erst in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gegeben.
Geometrische Verteilung
Die Wartezeit auf das erste Eintreten eines der Ereignisse ist
T (ω) = inf{n ∈ N | ω ∈ An },
wobei min ∅ := ∞.
Mit Lemma 2.5 folgt:
C
C
P [T = n] = P [AC
1 ∩ A2 ∩ . . . ∩ An−1 ∩ An ]
= P [An ] ·
n−1
Y
P [AC
i ]
i=1
= p · (1 − p)n−1 .
Definition. Sei p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf N mit Massenfunktion
p(n) = p · (1 − p)n−1
heißt geometrische Verteilung zum Parameter p.
Bemerkung.
a) Für p 6= 0 gilt:
∞
X
n=1
p · (1 − p)n−1 = 1,
d.h. die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung auf den natürlichen
Zahlen, und
P [T = ∞] = 0.
b) Allgemein gilt:
c) Es gilt:
C
n
P [T > n] = P AC
1 ∩ . . . ∩ An = (1 − p) .
E[T ] =
∞
X
P [T > n] =
n=0
(siehe Übung).
Einführung in die Wahrscheinlichkeitstheorie
1
1
= ,
1 − (1 − p)
p
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
59
Binomialverteilung
Die Anzahl der Ereignisse unter A1 , . . . , An , die eintreten, ist
Sn (ω) = |{1 ≤ i ≤ n | ω ∈ Ai }| =
n
X
IAi (ω).
i=1
Es gilt:
P [Sn = k] =
X
P
X
Y
P [Ai ] ·
X
Y
p·
X
p|I| · (1 − p)|I
I⊆{1,...,n}
|I|=k
=
\
i∈I
I⊆{1,...,n} i∈I
|I|=k
=
I⊆{1,...,n} i∈I
|I|=k
=
I⊆{1,...,n}
|I|=k
Ai ∩
Y
i∈I C
\
AC
i
i∈{1,...,n}\I
Y
P [AC
i ]
i∈I C
(1 − p)
C|
n k
p (1 − p)n−k ,
=
k
d.h. Sn ist Binomialverteilt mit Parametern n und p.
Satz 2.6 (»Law of Averages«, Bernstein-Ungleichung). Für alle ε > 0 und n ∈ N gilt:
Sn
2
≥ p + ε ≤ e−2ε n ,
und
P
n
Sn
2
P
≤ p − ε ≤ e−2ε n .
n
Insbesondere gilt:
Sn
2
P − p > ε ≤ 2 e−2ε n ,
n
d.h. die Wahrscheinlichkeit für eine Abweichung des Mittelwerts
Sn
n
vom Erwartungswert p um
mehr als ε fällt exponentiell in n.
Bemerkung.
a) Satz 2.6 ist eine erste Version des »Gesetzes der großen Zahlen«.
b) Der Satz liefert eine nachträgliche Rechtfertigung der frequentistischen Interpretation der
Wahrscheinlichkeit als asymptotische relative Häufigkeit.
Universität Bonn
Wintersemester 2009/2010
60
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
c) Anwendung auf Schätzen von p:
p≈
Sn
= relative Häufigkeit des Ereignisses bei n unabhängigen Stichproben.
n
d) Anwendung auf näherungsweise Monte Carlo-Berechnung von p:
Simuliere n unabhängige Stichproben, p ∼ relative Häufigkeit.
Beweis. Sei q := 1 − p, Sn ∼ Bin(n, p). Dann gilt für λ > 0:
X n
pk q n−k
P [Sn ≥ n (p + ε)] =
k
k≥np+nε
X n
eλk pk q n−k e−λ(np+nε)
≤
k
k≥np+nε
n X
k
n
p eλ q n−k e−λnp e−λnε
≤
k
k=0
n
n
= p eλ + q e−λnp e−λnε ≤ p eλq + q e−λp e−λnε .
Wir behaupten:
λ2
p eλq + q e−λp ≤ e 8 .
Damit folgt:
P [Sn ≥ n (p + ε)] ≤ en (
λ2
−λε)
8
.
Der Exponent ist minimal für λ = 4ε. Für diese Wahl von λ folgt schließlich
2
P [Sn ≥ n (p + ε)] ≤ e−2nε .
Beweis der Behauptung:
f (λ) := log p eλq + q e−λp = log e−λ p (p eλ + q) = −λ p + log p eλ + q .
Zu zeigen ist nun
f (λ) ≤
λ2
8
für alle λ ≥ 0.
Es gilt:
f (0) = 0,
p eλ
p
= −p +
,
λ
pe + q
p + q e−λ
p q e−λ
1
f ′′ (λ) =
≤ .
−λ
2
(p + q e )
4
f ′ (λ) = −p +
Einführung in die Wahrscheinlichkeitstheorie
f ′ (0) = 0,
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
61
Die letzte Ungleichung folgt aus::
(a + b)2 = a2 + b2 + 2 a b ≥ 4 a b
Damit folgt
Z
λ
f ′ (x) dx
f (λ) = f (0) +
0
Z λZ x
Z
′′
=
f (y) dy dx ≤
0
0
λ
0
x
λ2
dx ≤
4
8
für alle λ ≥ 0.
Beispiel. Im letzten Satz wurde gezeigt:
Sn =
n
X
I Ai ,
i=1
Sn
Ai unabhängig mit P [Ai ] = p =⇒ P − p ≥ ε −→ 0
n
Zur Demonstration simulieren wir den Verlauf von Sn und
Sn
n
für n → ∞.
mehrfach (m-mal):
V ERLAUF VON Sn
m = 3 0 ; nmax = 1 0 0 0 ; p = 0 . 7 ;
(Wir erzeugen m × nmax Bernoulli-Stichproben mit Wahrscheinlichkeit p)
x = RandomChoice [ { 1 − p , p } −> { 0 , 1 } , {nmax , m} ] ; s = A c c u m u l a t e [ x ] ;
Das Feld s enthält m Verläufe von sn = x1 + . . . + xn , n = 1, . . . , nmax
M a n i p u l a t e [ Show [
L i s t L i n e P l o t [ Transpose [ s [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ p∗Range [ n ] , P l o t S t y l e −> { Black , T h i c k } ] ]
, {{ n , 5 0 } , 1 , nmax , 1 } ]
(Vergleich der m Verläufe von sn mit np)
• n = 50:
40
30
20
10
10
Universität Bonn
20
30
40
50
Wintersemester 2009/2010
62
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• n = 500:
350
300
250
200
150
100
50
100
V ERLAUF VON
200
300
400
500
Sn
n
mean = s / Range [ nmax ] ;
(Das Feld mean enthält m Verläufe der Werte von
sn
n )
M a n i p u l a t e [ Show [
L i s t L i n e P l o t [ Transpose [ mean [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ C o n s t a n t A r r a y [ p , n ] , P l o t S t y l e −> { Black , T h i c k } ] ] , {{ n ,
5 0 } , 1 , nmax , 1 } ]
• n = 50:
1.0
0.9
0.8
0.7
0.6
0.5
0.4
10
20
30
Einführung in die Wahrscheinlichkeitstheorie
40
50
Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN
63
• n = 500:
0.80
0.75
0.70
0.65
100
200
300
400
500
V ERTEILUNG VON Sn
Manipulate [
L i s t P l o t [ Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , p ] , k ] } , {k , 0 , n } ] ,
PlotRange −> A l l , F i l l i n g −> A x i s ]
, {{ n , 5 0 } , 1 , nmax , 1 } ]
• n = 50:
0.12
0.10
0.08
0.06
0.04
0.02
10
Universität Bonn
20
30
40
50
Wintersemester 2009/2010
64
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• n = 500:
0.04
0.03
0.02
0.01
100
2.4
200
300
400
500
Unabhängige Zufallsvariablen und Random Walk
Unabhängigkeit von diskreten Zufallsvariablen
Seien Xi : Ω → Si , i = 1, . . . , n, diskrete Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω, A, P ). Dann ist (X1 , . . . , Xn ) eine Zufallsvariable mit Werten im Produktraum S1 × · · · × Sn .
Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn . Die Massenfunktion der gemeinsamen Verteilung lautet
pX1 ,...,Xn (a1 , . . . , an ) = P [X1 = a1 , . . . , Xn = an ].
Definition. Die diskreten Zufallsvariablen X1 , . . . , Xn heißen unabhängig, falls gilt:
P [X1 = a1 , . . . , Xn = an ] =
n
Y
P [Xi = ai ]
i=1
für alle ai ∈ Si ,
i = 1, . . . , n.
Die gemeinsame Verteilung enthält Informationen über den Zusammenhang zwischen den Zufallsgrößen Xi .
Satz 2.7. Die folgenden Aussagen sind äquivalent:
(i) X1 , . . . , Xn sind unabhängig.
(ii) pX1 ,...,Xn (a1 , . . . , an ) =
(iii) µX1 ,...,Xn =
Nn
i=1
µX i .
Qn
i=1
pXi (ai ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
65
(iv) Die Ereignisse {X1 ∈ A1 }, . . . , {Xn ∈ An } sind unabhängig für alle Ai ⊆ Si , i =
1, . . . , n.
(v) Die Ereignisse {X1 = a1 }, . . . , {Xn = an } sind unabhängig für alle ai ∈ Si , i = 1, . . . , n.
Beweis.
• (i) ⇔ (ii) nach Definition von pX1 ,...,Xn .
• (ii) ⇔ (iii) nach Definition von
• (iii) ⇒ (iv):
Nn
i=1
µX i .
Seien 1 ≤ i1 < i2 < . . . < im ≤ n und Aik ⊆ Sik , (k = 1, . . . , m). Wir setzen Ai := Ω für
i∈
/ {i1 , . . . , im }. Mit (iii) folgt dann nach Satz 2.2:
P [Xi1 ∈ Ai1 , . . . , Xim ∈ Aim ] = P [X1 ∈ A1 , . . . , Xn ∈ An ]
= P [(X1 , . . . , Xn ) ∈ A1 × . . . × An ]
= µX1 ,...,Xn (A1 × . . . × An )
n
n
Y
Y
=
µXi (Ai ) =
P [Xi ∈ Ai ]
=
i=1
i=1
m
Y
P [Xik ∈ Aik ].
i=1
• (iv) ⇒ (v) ⇒ (i) ist klar.
Definition. Eine beliebige Kollektion Xi : Ω → Si , i ∈ I, von diskreten Zufallsvariablen heißt
unabhängig, falls die Ereignisse {Xi = ai }, i ∈ I, für alle ai ∈ Si unabhängig sind.
Der Random Walk auf Z
Seien X1 , X2 , . . . unabhängige identisch verteilte (»i.i.d.« – independent and identically distributed) Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P ) mit
P [Xi = +1] = p,
Universität Bonn
P [Xi = −1] = 1 − p,
p ∈ (0, 1).
Wintersemester 2009/2010
66
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Die Existenz von unendlich vielen unabhängigen identisch verteilten Zufallsvariablen auf einem
geeigneten Wahrscheinlichkeitsraum (unendliches Produktmodell) wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gezeigt. Sei a ∈ Z ein fester Startwert. Wir betrachten
die durch
S0 = a,
Sn+1 = Sn + Xn+1 ,
definierte zufällige Bewegung (»Irrfahrt« oder »Random Walk«) auf Z. Als Position zur Zeit n
ergibt sich:
Sn = a + X1 + X2 + · · · + Xn .
Irrfahrten werden unter anderem in primitiven Modellen für die Kapitalentwicklung beim Glücksspiel oder an der Börse (Aktienkurs), sowie die Brownsche Molekularbewegung (im Skalierungslimes Schrittweite → 0) eingesetzt.
Beispiel (Symmetrischer Random Walk, p = 12 ).
z u f a l l = RandomChoice [{ −1 , 1 } , 1 0 0 0 0 ] ;
randomwalk = F o l d L i s t [ Plus , 0 , z u f a l l ] ;
Manipulate [
L i s t L i n e P l o t [ randomwalk [ [ 1 ; ; nmax ] ] ] , {nmax , 1 0 , 1 0 0 0 0 , 1 0 } ]
• nmax = 50:
2
10
20
30
40
50
-2
-4
-6
-8
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
67
• nmax = 500:
30
20
10
100
200
300
400
500
2000
3000
4000
5000
• nmax = 5000:
100
80
60
40
20
1000
Lemma 2.8 (Verteilung von Sn ). Für k ∈ Z gilt

0
P [Sn = a + k] =
n+k
n−k
n
 n+k
p 2 (1 − p) 2
falls n + k ungerade oder |k| > n,
sonst.
2
Beweis. Es gilt:

 Xi = 1
Sn = a + k ⇔ X1 + · · · + Xn = k ⇔
X = −1
i
genau
n+k
-mal,
2
genau
n−k
-mal.
2
Beispiel (Rückkehrwahrscheinlichkeit zum Startpunkt). Mithilfe der Stirlingschen Formel
n n
√
n! ∼ 2πn
für n → ∞.
e
Universität Bonn
Wintersemester 2009/2010
68
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
folgt:
P [S2n+1 = a] = 0,
(2n)! n
2n n
p (1 − p)n
P [S2n = a] =
p (1 − p)n =
(n!)2
n
√
)2n n
1
4πn ( 2n
n
e
∼
(4p (1 − p))n
n 2n p (1 − p) = √
2πn ( e )
πn
für n → ∞,
wobei zwei Folgen an und bn asymptotisch äquivalent heißen (an ∼ bn ), falls limn→∞
an
bn
=1
gilt.
• Falls p 6=
1
2
gilt 4 p (1 − p) < 1 und P [S2n = a] konvergiert exponentiell schnell gegen 0.
• Falls p =
1
2
konvergiert P [S2n = a] ∼
√1
πn
nur langsam gegen 0.
Symmetrischer Random Walk
Ab jetzt betrachten wir den symmetrischen Random Walk, d.h. p = 12 .
Sei λ ∈ Z. Wir wollen die Verteilung der Zufallsvariable
Tλ (ω) := inf{n ∈ N | Sn (ω) = λ},
(min ∅ := ∞),
bestimmen. Für λ 6= a ist Tλ die erste Trefferzeit von λ, für λ = a ist es die erste Rückkehrzeit
nach a. Beschreibt der Random Walk beispielsweise die Kapitalentwicklung in einem Glücksspiel, dann kann man T0 als Ruinzeitpunkt interpretieren.
Sei n ∈ N. Wir wollen nun die Wahrscheinlichkeit
"n
#
[
P [Tλ ≤ n] = P
{Si = λ}
i=1
berechnen. Da das Ereignis {Tλ ≤ n} von mehreren Positionen des Random Walks abhängt
(S1 , S2 , . . . , Sn ), benötigen wir die gemeinsame Verteilung dieser Zufallsvariablen. Sei also
S(ω) := (S0 (ω), S1 (ω), . . . , Sn (ω))
der Bewegungsverlauf bis zur Zeit n . Dann ist S eine Zufallsvariable mit Werten im Raum
b (n)
Ω
a := {(s0 , s1 , . . . , sn ) | s0 = a, si ∈ Z, so dass: |si − si−1 | = 1 für alle i ∈ {1, . . . , n}}
der möglichen Pfade des Random Walk. Sei µa die gemeinsame Verteilung von S unter P .
b (n)
Lemma 2.9. µa ist die Gleichverteilung auf dem Pfadraum Ω
a .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
69
Beweis. Es gilt
µa ({(s0 , . . . , sn )}) = P [S0 = s0 , . . . , Sn = sn ]
= P [S0 = s0 , X1 = s1 − s0 , . . . , Xn = sn − sn−1 ]


0
falls s0 6= a oder |si − si−1 | 6= 1 für ein i ∈ {1, . . . , n},



b (n)
=
(d.h. (s0 , . . . , sn ) ∈
/Ω
a ),



2−n sonst, d.h. falls (s , . . . , s ) ∈ Ω
b (n)
a .
0
n
Satz 2.10 (Reflektionsprinzip). Seien λ, b ∈ Z. Es gelte entweder (a < λ und b ≤ λ), oder
(a > λ und b ≥ λ). Dann gilt:
P [Tλ ≤ n, Sn = b] = P [Sn = b⋆ ],
wobei b⋆ := λ + (λ − b) = 2λ − b die Spiegelung von b an λ ist.
Beweis. Es gilt:
=:A
}|
{
z
P [Tλ ≤ n, Sn = b] = µa [{(s0 , . . . , sn ) | sn = b, si = λ für ein i ∈ {1, . . . , n}}],
P [Sn = b⋆ ] = µa [{(s0 , . . . , sn ) | sn = b⋆ }].
|
{z
}
=:B
Die im Bild dargestellte Transformation (Reflektion des Pfades nach Treffen von λ) definiert eine
b (n)
Bijektion von A nach B. Also gilt |A| = |B|. Da µa die Gleichverteilung auf Ω
a ist, folgt:
|B|
|A|
=
= µa (B).
µa (A) = (n)
ba b (n)
Ω
Ω
a Korollar (Verteilung der Trefferzeiten). Es gilt:
i)
Universität Bonn

P [Sn ≥ λ] + P [Sn > λ],
P [Tλ ≤ n] =
P [S ≤ λ] + P [S < λ],
n
n
falls λ > a,
falls λ < a.
Wintersemester 2009/2010
70
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
4
λ
2
2
Tλ
4
6
8
10
12
14
−2
Abbildung 2.2: Spiegelung des Random Walks an λ = 3
ii)

 1 P [Sn−1 = λ − 1] − 1 P [Sn−1 = λ + 1],
2
P [Tλ = n] = 2
 1 P [S
1
n−1 = λ + 1] − 2 P [Sn−1 = λ − 1],
2

−n
n
 λ−a n+λ−a
2
falls λ > a,
n
2
=
−n
n
 a−λ n+λ−a
2
falls λ < a.
n
falls λ > a,
falls λ < a.
2
Beweis. Wir beweisen die Aussagen für λ > a, der andere Fall wird jeweils analog gezeigt.
i)
P [Tλ ≤ n] =
X
b∈Z
P [Tλ ≤ n, Sn = b]
{z
}
|
=
=
X
b≥λ
P [Sn = b] +
X
b<λ
|
=
(
P [Sn = b]
falls b ≥ λ,
P [Sn = b⋆ ] falls b < λ.
P [Sn = b⋆ ] = P [Sn ≥ λ] + P [Sn > λ].
P
b>λ
Einführung in die Wahrscheinlichkeitstheorie
{z
P [Sn =b]
}
Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK
71
ii)
P [Tλ = n] = P [Tλ ≤ n] − P [Tλ ≤ n − 1]
Mit i) folgt
=:I
=:A
Wegen
=:II
z
}|
{ z
}|
{
= P [Sn ≥ λ] − P [Sn−1 ≥ λ] + P [Sn ≥ λ + 1] − P [Sn−1 ≥ λ + 1]
| {z }
| {z }
=:B
P [A] − P [B] = P [A\B] + P [A ∩ B] − P [B\A] − P [B ∩ A] = P [A\B] − P [B\A]
erhalten wir für den ersten Term:
I = P [Sn ≥ λ, Sn−1 < λ] − P [Sn−1 ≥ λ, Sn < λ]
= P [Sn−1 = λ − 1, Sn = λ] − P [Sn−1 = λ, Sn = λ − 1]
1
1
P [Sn−1 = λ − 1] − P [Sn−1 = λ].
=
2
2
Hierbei haben wir benutzt, dass
b (n)
|{(s0 , . . . , sn ) ∈ Ω
a | sn−1 = λ − 1}|
= |{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ}|
+|{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ − 2}|
= 2 · |{(s0 , . . . , sn )|sn−1 = λ − 1, sn = λ}
gilt. Mit einer analogen Berechnung für den zweiten Term erhalten wir insgesamt:
P [Tλ = n] = I + II
1
=
(P [Sn−1 = λ − 1] − P [Sn−1 = λ]
2
+P [Sn−1 = (λ + 1) − 1] − P [Sn−1 = λ + 1])
1
=
(P [Sn−1 = λ − 1] − P [Sn−1 = λ + 1]).
2
Sei Mn := max(S0 , S1 , . . . , Sn ).
Korollar (Verteilung des Maximums). Für λ > a gilt:
P [Mn ≥ λ] = P [Tλ ≤ n] = P [Sn ≥ λ] + P [Sn > λ].
Universität Bonn
Wintersemester 2009/2010
72
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
2.5
Simulationsverfahren
Die Simulation von Stichproben verschiedener Wahrscheinlichkeitsverteilungen geht von auf
[0, 1] gleichverteilten Pseudo-Zufallszahlen aus. In Wirklichkeit simuliert ein Zufallszahlengenerator natürlich nur auf {k m−1 | k = 0, 1, . . . , m − 1} gleichverteilte Zufallszahlen, wobei m−1
die Darstellungsgenauigkeit des Computers ist. Dieser Aspekt wird im folgenden ignoriert. Um
Simulationsverfahren zu analysieren, benötigen wir noch den Begriff einer auf [0, 1] gleichverteilten reellwertigen Zufallsvariablen. Die Existenz solcher Zufallsvariablen auf einem geeigneten
Wahrscheinlichkeitsraum wird hier vorausgesetzt, und kann erst in der Vorlesung »Analysis III«
bzw. in der »Einführung in die Wahrscheinlichkeitstheorie« gezeigt werden.
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, und U : Ω → [0, 1] eine Abbildung.
Definition.
i) U ist eine reellwertige Zufallsvariable, falls gilt:
{ω ∈ Ω | U (ω) ≤ y} ∈ A
für alle y ∈ R.
ii) Eine reellwertige Zufallsvariable U : Ω → [0, 1] ist gleichverteilt auf [0, 1], falls
P [U ≤ y] = y
für alle y ∈ [0, 1].
Wir notieren dies im folgenden als (U ∼ Unif[0, 1]).
iii) Reellwertige Zufallsvariablen Ui : Ω → R, i ∈ I, heißen unabhängig, falls die Ereignisse
{Ui ≤ yi }, i ∈ I, für alle yi ∈ R unabhängig sind.
Ein Zufallszahlengenerator simuliert Stichproben u1 = U1 (ω), u2 = U2 (ω), . . . von auf [0, 1]
gleichverteilten unabhängigen Zufallsvariablen. Wie erzeugt man daraus Stichproben von diskreten Verteilungen?
Das direkte Verfahren
Sei S = {a1 , a2 , . . .} endlich oder abzählbar unendlich, und µ eine Wahrscheinlichkeitsverteilung
auf S mit Gewichten pi = p(ai ). Wir setzen
sn :=
n
X
i=1
pi ,
n ∈ N,
»kumulative Verteilungsfunktion«.
Sei U : Ω → [0, 1) eine gleichverteilte Zufallsvariable. Wir setzen
X(ω) := ai ,
falls si−1 < U (ω) ≤ si ,
Einführung in die Wahrscheinlichkeitstheorie
i ∈ N.
Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN
73
Lemma 2.11. Falls U ∼ Unif[0, 1), gilt X ∼ µ.
Beweis. Für alle i ∈ N gilt:
P [X = ai ] = P [si−1 < U ≤ si ] = P [U ≤ si ] − P [U ≤ si−1 ] = si − si−1 = pi .
Algorithmus 2.12 (Direkte Simulation einer diskreten Verteilung).
I NPUT:
Gewichte p1 , p2 , . . . ,
O UTPUT:
n := 1
Pseudozufallsstichprobe x von µ.
s := p1
erzeuge Zufallszahl u ∼ Unif[0, 1)
while u > s do
n := n + 1
s := s + pn
end while
return x := an
Bemerkung.
a) Die mittlere Anzahl von Schritten des Algorithmus ist
∞
X
n pn = Erwartungswert von Wahrscheinlichkeitsverteilung (pn ) auf N.
n=1
b) Für große Zustandsräume S ist das direkte Verfahren oft nicht praktikabel, siehe Übung.
Acceptance-Rejection-Verfahren
Sei S eine endliche oder abzählbare Menge, µ eine Wahrscheinlichkeitsverteilung auf S mit
Massenfunktion p(x), und ν eine Wahrscheinlichkeitsverteilung auf S mit Massenfunktion q(x).
Angenommen, wir können unabhängige Stichproben von ν erzeugen. Wie können wir daraus
Stichproben von µ erhalten? I DEE :
scheinlichkeit proportional zu
p(x)
,
q(x)
Erzeuge Stichprobe x von ν, akzeptiere diese mit Wahrsonst verwerfe die Stichprobe und wiederhole.
A NNAHME :
es gibt ein c ∈ [1, ∞) :
p(x) ≤ c q(x)
für alle x ∈ S.
Aus der Annahme folgt:
p(x)
≤1
c q(x)
d.h. wir können
p(x)
c q(x)
Universität Bonn
für alle x ∈ S,
als Akzeptanzwahrscheinlichkeit wählen.
Wintersemester 2009/2010
74
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Algorithmus 2.13 (Acceptance-Rejection-Verfahren).
I NPUT:
Gewichte p(y), q(y), c
(y ∈ S),
Stichprobe x von µ.
O UTPUT:
repeat
erzeuge Stichprobe x ∼ ν
erzeuge Stichprobe u ∼ Unif[0, 1]
until
p(x)
c q(x)
return x
≥ u {akzeptiere mit Wahrscheinlichkeit
p(x)
}
c q(x)
A NALYSE DES A LGORITHMUS
Für die verwendeten Zufallsvariablen gilt:
X1 , X2 , . . . ∼ ν,
(Vorschläge),
U1 , U2 , . . . ∼ Unif[0, 1].
Es gilt Unabhängigkeit, d.h.
P [X1 = a1 , . . . , Xn = an , U1 ≤ y1 , . . . , Un ≤ qn ] =
n
Y
i=1
P [Xi = ai ] ·
n
Y
i=1
P [Ui ≤ yi ]
für alle n ∈ N, ai ∈ S und yi ∈ R.
Seien
n
T = min n ∈ N p(Xn )
c q(Xn )
≥ Un
XT (ω) = XT (ω) (ω)
o
die »Akzeptanzzeit«, und
die ausgegebene Stichprobe.
des Acceptance-Rejection-Verfahrens. Wir erhalten:
Satz 2.14.
i) T ist geometrisch verteilt mit Parameter 1/c,
ii) XT ∼ µ.
Bemerkung. Insbesondere ist die mittlere Anzahl von Schritten bis Akzeptanz:
E[T ] = c.
Beweis.
i) Sei
An :=
Einführung in die Wahrscheinlichkeitstheorie
p(Xn )
≥ Un .
c q(Xn )
Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN
75
Aus der Unabhängigkeit der Zufallsvariablen X1 , U1 , X2 , U2 , . . . folgt, dass auch die Ereignisse A1 , A2 , . . . unabhängig sind. Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen. Zudem gilt wegen der Unabhängigkeit von Xn und Un :
X p(a)
P [An ] =
P
Un ≤
∩ {Xn = a}
c q(a)
a∈S
X p(a)
· P [Xn = a]
=
P
Un ≤
c q(a)
a∈S
X p(a)
1
=
· q(a) = .
c q(a)
c
a∈S
Also ist
T (ω) = min{n ∈ N | ω ∈ An }
geometrisch verteilt mit Parameter 1/c.
ii)
P [XT = a] =
=
∞
X
n=1
∞
X
n=1
∞
X
P [{XT = a} ∩ {T = n}]
C
P [{Xn = a} ∩ An ∩ AC
1 ∩ . . . An−1 ]
p(a)
≥ Un
=
P [{Xn = a} ∩
c
q(a)
n=1
n−1
∞
X
1
p(a)
1−
=
q(a)
c q(a)
c
n=1
∞
n−1
p(a) X
1
=
1−
c n=1
c
=
Universität Bonn
C
∩ AC
1 ∩ . . . An−1 ]
1
p(a)
= p(a).
c 1 − (1 − 1c )
Wintersemester 2009/2010
Kapitel 3
Konvergenzsätze und Monte Carlo
Verfahren
Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S, und f : S → R eine
reellwertige Zufallsvariable. Angenommen, wir wollen den Erwartungswert
θ := Eµ [f ] =
X
f (x) µ(x)
x∈S
berechnen, aber die Menge S ist zu groß, um die Summe direkt auszuführen. In einem Monte
Carlo-Verfahren simuliert man eine große Anzahl unabhängiger Stichproben X1 (ω), . . . , Xn (ω)
von µ, und approximiert den Erwartungswert θ durch den Monte Carlo-Schätzer
n
1X
θbn (ω) :=
f (Xi (ω)).
n i=1
Wir wollen nun Methoden entwickeln, mit denen der Approximationsfehler |θbn − θ| abgeschätzt
werden kann, und die Asymptotik des Approximationsfehlers für n → ∞ untersuchen. Nach
dem Transformationssatz (1.7) und der Linearität des Erwartungswerts (1.8) gilt:
n
n
1X
1 XX
E[θbn ] =
E[f (Xi )] =
f (x) µ({x}) = Eµ [f ] = θ,
n i=1
n i=1 x∈S
d.h. θbn ist ein erwartungstreuer Schätzer für θ. Der mittlere quadratische Fehler (»MSE« – mean
squared error) des Schätzers ist daher:
MSE = E[|θbn − θ|2 ] = E[|θbn − E[θbn ]|2 ].
76
3.1. VARIANZ UND KOVARIANZ
77
3.1 Varianz und Kovarianz
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → S eine Zufallsvariable auf (Ω, A, P ),
so dass E[|X|] endlich ist.
Definition.
Var(X) := E (X − E[X])2
heißt Varianz von X und liegt in [0, ∞].
σ(X) :=
heißt Standardabweichung von X.
p
Var(X)
Die Varianz bzw. Standardabweichung kann als Kennzahl für die Größe der Fluktuationen (Streuung) der Zufallsvariablen X um den Erwartungswert E[X] und damit als Maß für das Risiko bei
Prognose des Ausgangs X(ω) durch E[X] interpretiert werden.
(a) Die Varianz hängt nur von der Verteilung von X ab:
X
X
Var(X) =
(a − m)2 pX (a),
wobei
m
= E[X] =
a pX (a).
Bemerkung.
a∈S
a∈S
(b) Es gilt
Var(X) = 0
Bemerkung (Rechenregeln).
genau dann, wenn
P [X = E[X]] = 1.
i)
Var(X) = E X 2 − E[X]2 .
Insbesondere ist die Varianz von X genau dann endlich, wenn E[X 2 ] endlich ist.
ii)
Var(aX + b) = Var(aX) = a2 Var(X)
Beweis.
für alle a, b ∈ R.
i) Nach der Linearität des Erwartungswerts gilt
Var(X) = E X 2 − 2X · E[X] + E[X]2 = E X 2 − E[X]2 .
ii) Wiederholte Anwendung der Linearität des Erwartungswerts liefert
Var(aX + b) = E (aX + b − E[aX + b])2 = E (aX − E[aX])2 = a2 Var(X).
Universität Bonn
Wintersemester 2009/2010
78
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Beispiele.
a) Sei X = 1 mit Wahrscheinlichkeit p und X = 0 mit Wahrscheinlichkeit 1 − p.
Dann ist der Erwartungswert von X:
E X 2 = E[X] = p,
und die Varianz von X:
Var(X) = p − p2 = p (1 − p).
b) Sei T geometrisch verteilt (T ∼ Geom(p)) mit Parameter p ∈ (0, 1]. Der Erwartungswert
von T beträgt:
E[T ] =
∞
X
k (1 − p)
∞
X
k (k + 1) (1 − p)k−1 p
k=1
k−1
∞
p X
p 1
1
p = −p
(1 − p)k = −p
= .
dp k=0
dp p
p
Außerdem gilt:
E[T (T + 1)] =
k=1
=
∞
X
k=1
k (k − 1) (1 − p)
k−2
∞
2
d2 X
(1 − p)k = 2 .
p=p 2
dp k=0
p
Die Varianz von T ist somit:
Definition.
2
1
1
1−p
Var(T ) = E T 2 − E[T ]2 = 2 − − 2 =
.
p
p p
p2
L2 (Ω, A, P ) := {X : Ω → R | X ist diskrete Zufallsvariable mit E X 2 < ∞}
Lemma 3.1.
i) Für Zufallsvariablen X, Y ∈ L2 gilt:
p
p
E[|XY |] ≤ E [X 2 ] E [Y 2 ] < ∞.
ii) L2 ist ein Vektorraum, und
(X, Y )L2 := E[X Y ]
ist eine positiv semidefinite symmetrische Bilinearform (»Skalarprodukt«) auf L2 .
Bemerkung.
i) Insbesondere gilt die Cauchy-Schwarz-Ungleichung:
E[X Y ]2 ≤ E[|X Y |] ≤ E X 2 E Y 2
Einführung in die Wahrscheinlichkeitstheorie
für alle X, Y ∈ L2 .
Prof. Andreas Eberle
3.1. VARIANZ UND KOVARIANZ
79
ii) Für eine Zufallsvariable X ∈ L2 gilt
E[|X|] ≤
Beweis.
p
p
E [X 2 ] E [12 ] < ∞.
i) Nach der Cauchy-Schwarz-Ungleichung gilt:
X
E[|X Y |] =
|a b| P [X = a, Y = b]
a∈X(Ω)
b∈Y (Ω)
=
X
|a|
sX
a2
a∈X(Ω)
b∈Y (Ω)
≤
=
p
P [X = a, Y = b] |b|
P [X = a, Y = b]
a,b
s
X
a2 P [X = a]
a
sX
p
sX
P [X = a, Y = b]
b2 P [X = a, Y = b]
a,b
b2 P [Y = b]
b
p
p
= E [X 2 ] E [Y 2 ].
ii) Seien X, Y ∈ L2 , a ∈ R. Dann ist aX + Y eine diskrete Zufallsvariable, für die nach
Monotonie und der Linearität des Erwartungswerts gilt:
E (aX + Y )2 = E a2 X 2 + 2aX Y + Y 2 ≤ 2a2 E X 2 + 2E Y 2 < ∞.
(X, Y )L2 = E[X Y ] ist bilinear, da E[ • ] linear und symmetrisch ist, und positiv semidefinit, aufgrund von:
(X, X)L2 = E X 2 ≥ 0
für alle X ∈ L2 .
Definition. Seien X, Y ∈ L2 .
i)
Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])] = E[X Y ] − E[X] E[Y ]
heißt Kovarianz von X und Y .
ii) Gilt σ(X), σ(Y ) 6= 0, so heißt
̺(X, Y ) :=
Cov(X, Y )
σ(X) σ(Y )
Korrelationskoeffizient von X und Y .
Universität Bonn
Wintersemester 2009/2010
80
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
iii) X und Y heißen unkorreliert, falls Cov(X, Y ) = 0, d.h.
E[X Y ] = E[X] · E[Y ].
Bemerkung. Cov : L2 × L2 → R ist eine symmetrische Bilinearform mit:
Cov(X, X) = Var(X) ≥ 0
für alle X ∈ L2 .
Satz 3.2 (Zusammenhang von Unabhängigkeit und Unkorreliertheit). Seien X : Ω → S und
Y : Ω → T diskrete Zufallsvariablen auf (Ω, A, P ). Dann sind äquivalent:
(i) X und Y sind unabhängig, d.h.
P [X ∈ A, Y ∈ B] = P [X ∈ A] P [Y ∈ B]
für alle A, B ∈ A.
(ii) f (X) und g(Y ) sind unkorreliert für alle Funktionen f : S → R und g : T → R mit
f (X), g(Y ) ∈ L2 .
Beweis.
• (i)⇒ (ii): Seien X und Y unabhängig, dann gilt:
E[f (X)g(Y )] =
XX
f (a) g(b) P [X = a, Y = b]
a∈S b∈T
=
X
f (a) P [X = a]
a∈S
X
g(b) P [Y = b] = E[f (X)] E[g(Y )]
b∈T
Somit folgt:
Cov(f (X), g(Y )) = 0.
• (ii)⇒ (i): Aus (ii) folgt für alle a ∈ S, b ∈ T :
P [X = a, Y = b] = E[I{a} (X) I{b} (Y )]
= E[I{a} (X)] E[I{b} (Y )] = P [X = a] P [Y = b].
Beispiel. Sei X = +1, 0, −1 jeweils mit Wahrscheinlichkeit 31 , und Y = X 2 . Dann sind X und
Y nicht unabhängig, aber unkorreliert:
E[X Y ] = 0 = E[X] E[Y ].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.2. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
81
Satz 3.3 (Varianz von Summen). Für X1 , . . . , Xn ∈ L2 gilt:
Var(X1 + · · · + Xn ) =
n
X
Var(Xi ) + 2
i=1
n
X
Cov(Xi , Xj ).
i,j=1
i<j
Falls X1 , . . . , Xn unkorreliert sind, folgt insbesondere:
Var(X1 + · · · + Xn ) =
n
X
Var(Xi ).
i=1
Beweis. Nach Bilinearität der Kovarianz gilt:
Var(X1 + · · · + Xn ) = Cov(
=
n
X
n
X
Xi ,
i=1
n
X
Xj )
j=1
Cov(Xi , Xj ) =
i,j=1
n
X
Var(Xi ) + 2
i=1
n
X
Cov(Xi , Xj ).
i,j=1
i<j
Beispiel (Varianz der Binomialverteilung). Sei

n
1 mit Wahrscheinlichkeit p,
X
Sn =
Xi ,
Xi =
0 mit Wahrscheinlichkeit 1 − p,
i=1
mit unabhängigen Zufallsvariablen Xi . Mit Satz 3.2 folgt:
Var(Sn ) =
n
X
i=1
Var(Xi ) = n p (1 − p).
Analog gilt für den Random Walk:
√
σ(Sn ) = O( n).
3.2 Das schwache Gesetz der großen Zahlen
Seien X1 , X2 , . . . : Ω → R Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeits-
raum (Ω, A, P ) definiert sind (z.B. wiederholte Ausführungen desselben Zufallsexperiments),
und sei
Sn (ω)
Universität Bonn
=
X1 (ω) + · · · + Xn (ω).
Wintersemester 2009/2010
82
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Wir betrachten die empirischen Mittelwerte
Sn (ω)
n
=
X1 (ω) + . . . + Xn (ω)
,
n
d.h. die arithmetischen Mittel der ersten n Beobachtungswerte X1 (ω), . . . , Xn (ω). Gesetze der
großen Zahlen besagen, dass sich unter geeigneten Voraussetzungen die zufälligen „Fluktuationen“ der Xi für große n wegmitteln, d.h. in einem noch zu präzisierenden Sinn gilt
Sn (ω)
Sn
für große n,
≈ E
n
n
bzw.
Sn E[Sn ]
−
n
n
n→∞
−→
0.
Ist insbesondere E[Xi ] = m für alle i, dann sollten die empirischen Mittelwerte Sn /n gegen m
konvergieren. Das folgende einfache Beispiel zeigt, dass wir ohne weitere Voraussetzungen an
die Zufallsvariablen Xi kein Gesetz der großen Zahlen erwarten können.
Beispiel. Sind die Zufallsvariablen Xi alle gleich, d.h. X1 = X2 = . . ., so gilt
n. Es gibt also kein Wegmitteln des Zufalls, somit kein Gesetz großer Zahlen.
Sn
= X1 für alle
n
Andererseits erwartet man ein Wegmitteln des Zufalls bei unabhängigen Wiederholungen desselben Zufallsexperiments.
Wir werden nun zeigen, dass sogar Unkorreliertheit und beschränkte Varianzen der Zufallsvariablen Xi genügen, um ein Gesetz der großen Zahlen zu erhalten. Dazu nehmen wir an, dass
X1 , X2 , . . . diskrete Zufallsvariablen aus L2 (Ω, A, P ) sind, die folgende Voraussetzungen erfül-
len:
A NNAHMEN :
(i) Die Zufallsvariablen sind unkorreliert:
Cov(Xi , Xj ) = 0
für alle i 6= j.
(ii) Die Varianzen sind beschränkt:
v := sup Var(Xi ) < ∞.
i∈N
Es wird keine Unabhängigkeit vorausgesetzt!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
83
Satz 3.4 (Schwaches Gesetz der großen Zahlen). Unter den Voraussetzungen (i) und (ii) gilt für
alle ε > 0:
Sn E[Sn ] ≥ ε ≤ v −→0
P −
n
n ε2 n
Gilt außerdem E[Xi ] = m für alle i ∈ N, folgt
m.
E[Sn ]
n
= m und
für n → ∞.
Sn
n
konvergiert stochastisch gegen
Zum Beweis benötigen wir:
Lemma 3.5 (Čebyšev-Ungleichung). Für X ∈ L2 und c > 0 gilt:
P [|X − E[X]| ≥ c] ≤
1
Var(X).
c2
Beweis. Es gilt
1
(X − E[X])2
2
c
1
2
(X − E[X]) ist überall nichtnegativ und ≥ 1 auf {|X − E[X]| ≥ c}. Durch Bilden des
c2
I{|X−E[X]|≥c} ≤
Erwartungswerts folgt:
1 1
P [|X − E[X]| ≥ c] = E I{|X−E[X]|≥c} ≤ E[ 2 (X − E[X])2 ] = 2 E (X − E[X])2
c
c
Beweis von Satz 3.4. Nach der Čebyšev-Ungleichung und den Annahmen (i) und (ii) gilt für ε >
0:
n
n
X
Sn E[Sn ] v
1
Sn
1 X
1
Var(Xi ) ≤
.
= 2 2 Var(
Xi ) = 2 2
P −
≥ ε ≤ 2 Var
n
n
ε
n
n ε
n ε i=1
n ε2
i=1
Bemerkung (Starkes Gesetz der großen Zahlen).
Sn (ω)
−→ m
n
mit Wahrscheinlichkeit 1.
Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen.
3.3 Monte Carlo-Verfahren
Sei S eine abzählbare Menge und µ eine Wahrscheinlichkeitsverteilung auf S. Wir bezeichnen
im folgenden die Massenfunktion ebenfalls mit µ, d.h.
µ(x) := µ({x}).
Universität Bonn
Wintersemester 2009/2010
84
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Sei f : S → R eine reellwertige Funktion mit:
Eµ [f 2 ] =
X
x∈S
f (x)2 µ(x) < ∞.
Wir wollen den Erwartungswert
θ := Eµ [f ] =
X
f (x) µ(x)
x∈S
näherungsweise berechnen bzw. schätzen. Dazu approximieren wir θ durch die Monte CarloSchätzer
n
1X
θbn :=
f (Xi ),
n i=1
n ∈ N,
wobei X1 , X2 , . . . unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P )
mit Verteilung µ sind. Nach der Abschätzung aus dem Gesetz der großen Zahlen ergibt sich:
Korollar.
1
P [|θbn − θ| ≥ ε] ≤
Varµ [f ] −→ 0
n ε2
für n → ∞,
d.h. θbn ist eine konsistente Schätzfolge für θ.
Beweis. Da die Zufallsvariablen Xi unabhängig sind, sind f (Xi ), i ∈ N, unkorreliert. Zudem gilt
E[f (Xi )] =
X
f (x) µ(x) = Eµ [f ] = θ,
und
x∈S
Var[f (Xi )] =
X
x∈S
(f (x) − θ)2 µ(x) = Varµ [f ] < ∞
nach Voraussetzung. Die Behauptung folgt nun aus Satz 3.4.
Bemerkung.
a) θbn ist ein erwartungstreuer Schätzer für θ:
n
E[θbn ] =
1X
E[f (Xi )] = Eµ [f ] = θ.
n i=1
b) Für den mittleren quadratischen Fehler des Schätzers ergibt sich nach a):
h
i
1
E |θbn − θ|2 = Var(θbn ) = Varµ [f ].
n
Insbesondere gilt:
kθbn − θkL2 =
Einführung in die Wahrscheinlichkeitstheorie
q
√
E[|θbn − θ|2 ] = O(1/ n).
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
Beispiele.
85
a) M ONTE C ARLO -S CHÄTZUNG VON θ =
R
[0,1]d
f (x) dx:
Das mehrdimensionale Integral ist folgendermaßen definiert:
Z 1
Z 1
Z
f (x) dx :=
...
f (x1 , . . . , xd ) dx1 . . . dxd .
[0,1]d
0
0
Der Wert von θ kann mit dem folgenden Algorithmus geschätzt werden.
erzeuge Pseudozufallszahlen u1 , u2 , . . . , und ∈ (0, 1)
x(1) := (u1 , . . . , ud )
x(2) := (ud+1 , . . . , u2d )
...
x(n) := (u(n−1)d+1 , . . . , und )
Pn
(i)
θ̂n = n1
i=1 f (x ) ist Schätzwert für θ.
b) M ONTE C ARLO -S CHÄTZUNG VON WAHRSCHEINLICHKEITEN :
Sei S abzählbar, B ⊆ S. Wir suchen:
p = µ(B) = Eµ [IB ]
Ein Monte Carlo-Schätzer ist
n
1X
IB (Xi ),
pbn =
n i=1
Xi unabhängig mit Verteilung µ.
F EHLERKONTROLLE :
• Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|b
pn − p| ≥ ε] ≤
Gilt beispielsweise n ≥
1
1
p (1 − p)
1
Var(b
pn ) = 2 Varµ (IB ) =
≤
.
2
2
ε
nε
nε
4nε2
5
,
ε2
dann erhalten wir:
P [p ∈
/ (b
pn − ε, pbn + ε)] ≤ 5%,
unabhängig von p,
d.h. das zufällige Intervall (b
pn − ε, pbn + ε) ist ein 95%-Konfidenzintervall für den
gesuchten Wert p.
• Mithilfe der Bernstein-Ungleichung (Chernoff-Abschätzung) erhalten wir für δ > 0
P
und Sn := ni=1 IB (Xi ):
1
2
P [p ∈
/ (b
pn −ε, pbn +ε)] = P Sn −p ≥ ε ≤ 2e−2nε ≤ δ,
n
Universität Bonn
falls n ≥
log(2/δ)
.
2ε2
Wintersemester 2009/2010
86
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Für kleine δ ist die erhaltene Bedingung an n wesentlich schwächer als eine entsprechende Bedingung, die man durch Anwenden der Čebyšev-Ungleichung erhält. Für
den relativen Schätzfehler (b
pn − p)/p ergibt sich:
P [|b
pn − p| ≥ εp] ≤ 2e−2nε
2 p2
≤ δ,
falls n ≥
log(2/δ)
.
2ε2 p2
Die benötigte Anzahl von Stichproben für eine (ε, δ)-Approximation von p ist also polynomiell in ε, log(1/δ) und 1/p. Mit einer etwas modifizierten Abschätzung
kann man statt der Ordnung O( p12 ) sogar O( p1 ) erhalten, siehe Mitzenmacher und
Upfal: »Probability and Computing«.
Beispiel. Wie viele Stichproben sind nötig, damit der relative Fehler mit 95% Wahrscheinlichkeit unterhalb von 10% liegt? Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|b
pn − p| ≥ 0, 1 p] ≤
p (1 − p)
100 (1 − p)
=
≤ 0, 05,
n (0, 1 p)2
np
falls n ≥
2000 (1 − p)
.
p
So sind zum Beispiel für p = 10−5 ungefähr n ≈ 2 108 Stichproben ausreichend. Dies ist nur ei-
ne obere Schranke, aber man kann zeigen, dass die tatsächlich benötigte Stichprobenzahl immer
noch sehr groß ist. Für solch kleine Wahrscheinlichkeiten ist das einfache Monte Carlo-Verfahren
ineffektiv, da die meisten Summanden von θbn dann gleich 0 sind. Wir brauchen daher ein alter-
natives Schätzverfahren mit geringerer Varianz.
Varianzreduktion durch Importance Sampling
Sei ν eine weitere Wahrscheinlichkeitsverteilung auf S mit Massenfunktion ν(x) = ν({x}). Es
gelte ν(x) > 0 für alle x ∈ S. Dann können wir den gesuchten Wert θ auch als Erwartungswert
bzgl. ν ausdrücken:
θ = Eµ [f ] =
X
f (x) µ(x) =
x∈S
X
f (x)
x∈S
µ(x)
ν(x) = Eν [f ̺],
ν(x)
wobei
̺(x) =
µ(x)
ν(x)
der Quotient der beiden Massenfunktionen ist. Ein alternativer Monte Carlo-Schätzer für θ ist
daher
n
1X
f (Yi ) ̺(Yi ),
θen =
n i=1
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN
87
e1
v
e2
w
e3
Abbildung 3.1: kleiner Beispielgraph für Perkolation
wobei die Yi unabhängige Zufallsvariablen mit Verteilung ν sind. Auch θen ist erwartungstreu:
Für die Varianz erhalten wir:
Varν (θen ) =
Eν [θen ] = Eν [f ̺] = θ.
1
1 X
Varν (f ̺) =
f (x)2 ̺(x)2 ν(x) − θ2 .
n
n x∈S
Bei geeigneter Wahl von ν kann die Varianz von θen deutlich kleiner sein als die des Schätzers θbn .
Faustregel für eine gute Wahl von ν : ν(x) sollte groß sein, wenn |f (x)| groß ist.
»Importance Sampling«: Mehr Gewicht für die wichtigen x!
Beispiel (Zuverlässigkeit von Netzwerken; Perkolation). Gegeben sei ein endlicher Graph (V, E),
wobei V die Menge der Knoten und E die Menge der Kanten bezeichnet. Wir nehmen an, dass
die Kanten unabhängig voneinander mit Wahrscheinlichkeit ε ≪ 1 ausfallen. Seien v, w ∈ E
vorgegebene Knoten. Wir wollen die Wahrscheinlichkeit
p = P [»v nicht verbunden mit w durch intakte Kanten«]
approximativ berechnen. Sei
S = {0, 1}E = {(xe )e∈E | xe ∈ {0, 1}}
die Menge der Konfigurationen von intakten (xl = 0) bzw. defekten (xl = 1) Kanten und µ die
Wahrscheinlichkeitsverteilung auf S mit Massenfunktion
µ(x) = εk(x) (1 − ε)|E|−k(x) ,
Universität Bonn
k(x) =
X
xe .
e∈E
Wintersemester 2009/2010
88
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Sei
A = {x ∈ S | v, w nicht verbunden durch Kanten e mit xe = 0}.
Dann ist
p = µ(A) = Eµ [IA ].
Der »klassische Monte Carlo-Schätzer« für p ist
n
1X
pbn =
IA (Xi ),
n i=1
Fordern wir nun zum Beispiel
σ(b
pn ) =
Xi unabhängig mit Verteilung µ.
r
p(1 − p) ! p
≤ ,
n
10
dann benötigen wir eine Stichprobenanzahl
100 (1 − p)
,
p
um diese Bedingung zu erfüllen. Die Größenordnung von p für das in der obigen Graphik dargen≥
stellte Netzwerk mit ε = 1% lässt sich wie folgt abschätzen:
10−6 = µ(»e1 , e2 , e3 versagen«) ≤ p ≤ µ(»mindestens 3 Kanten versagen«)
22
· 10−6 ≈ 1, 5 · 10−3 .
=
3
Es sind also eventuell mehrere Millionen Stichproben nötig!
Um die benötigte Stichprobenanzahl zu reduzieren, wenden wir ein Importance Sampling-Verfahren
an. Sei
ν(x) = t−k(x) (1 − t)|E|−k(x) ,
die Verteilung bei Ausfallwahrscheinlichkeit t :=
3
.
22
k(x) =
X
xe ,
e∈E
Da unter ν im Schnitt 3 Kanten defekt sind,
ist der Ausfall der Verbindung bzgl. ν nicht mehr selten. Für den Schätzer
n
1 X
µ(Yi )
pen =
IA (Yi )
,
n i=1
ν(Yi )
Yi unabhängig mit Verteilung ν,
erhalten wir im Beispiel von oben:
2
1 X
2 µ(x)
IA (x)
− p2
Var(e
pn ) =
n x∈S
ν(x)
2 k |E|−k
22 ε
1 X |E|
(1 − ε)2
p
≤
≤ 0, 0053 .
n k=3 k
t
1−t
n
Diese Abschätzung ist etwa um den Faktor 200 besser als die für den einfachen Monte CarloSchätzer erhaltene Abschätzung der Varianz.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
89
3.4 Gleichgewichte von Markov-Ketten
Sei S eine abzählbare Menge, ν eine Wahrscheinlichkeitsverteilung auf S, und p(x, y), (x, y ∈
S), eine stochastische Matrix bzw. Übergangsmatrix, d.h. p(x, y) erfüllt die folgenden Bedingungen:
(i) p(x, y) ≥ 0
(ii)
P
y∈S
für alle x, y ∈ S,
für alle x ∈ S.
p(x, y) = 1
Hier und im folgenden bezeichnen wir diskrete Wahrscheinlichkeitsverteilungen und die entsprechenden Massenfunktionen mit demselben Buchstaben, d.h. ν(x) := ν({x}).
Definition. Eine Folge X0 , X1 , . . . : Ω → S von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißt zeitlich homogene Markov-Kette mit Startverteilung ν und Übergangsmatrix p, falls die folgenden Bedingungen erfüllt sind:
(i) Für alle x0 ∈ S gilt:
P [X0 = x0 ] = ν(x0 )
(ii) Für alle n ∈ N und x0 , . . . , xn+1 ∈ S mit P [X0 = x0 , . . . , Xn = xn ] 6= 0 gilt:
P [Xn+1 = xn+1 | X0 = x0 , . . . , Xn = xn ] = p(xn , xn+1 ).
Bemerkung. Die Bedingungen (i) und (ii) sind äquivalent zu:
P [X0 = x0 , . . . , Xn = xn ] = ν(x0 ) p(x0 , x1 ) · · · p(xn−1 , xn )
für alle n ∈ N, xi ∈ S.
Gleichgewichte und Stationarität
Für eine Wahrscheinlichkeitsverteilung µ mit Massenfunktion µ(x) = µ({x}) und eine stochastische Matrix p auf S setzen wir
(µ p)(y) :=
X
x∈S
µ(x) p(x, y),
(y ∈ S),
d.h. µ p ist der Zeilenvektor, den wir erhalten, wenn wir den Zeilenvektor (µ(x))x∈S von links an
die Matrix p multiplizieren.
Lemma 3.6.
i) Die Verteilung zur Zeit n einer Markov-Kette mit Startverteilung ν und Über-
gangsmatrix p ist ν pn .
Universität Bonn
Wintersemester 2009/2010
90
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
ii) Gilt ν p = ν, dann folgt Xn ∼ ν für alle n ∈ N. (»Stationarität«)
Beweis.
i) Wie im Beweis von Satz 2.4 erhalten wir
P [Xn = y | X0 = x] = pn (x, y)
für alle n ∈ N und x, y ∈ S mit P [X0 = x] 6= 0, und damit:
X
P [Xn = y] =
x∈S
P [X0 =x]6=0
=
X
P [Xn = y | X0 = x] P [X0 = x]
pn (x, y) ν(x) = (ν pn )(y).
x∈S
ν(x)6=0
ii) Aus ν p = ν folgt ν pn = ν für alle n ∈ N.
Definition.
i) Eine Wahrscheinlichkeitsverteilung µ auf S heißt Gleichgewichtsverteilung
(oder stationäre Verteilung) der Übergangsmatrix p, falls µ p = µ, d.h. falls:
X
µ(x) p(x, y) = µ(y)
x∈S
für alle y ∈ S.
ii) µ erfüllt die Detailed Balance-Bedingung bzgl. der Übergangsmatrix p, falls gilt:
µ(x) p(x, y) = µ(y) p(y, x)
für alle x, y ∈ S
(3.4.1)
Satz 3.7. Erfüllt µ die Detailed Balance-Bedingung (3.4.1), dann ist µ eine Gleichgewichtsverteilung von p.
Beweis. Aus der Detailed Balance-Bedingung folgt:
X
µ(x) p(x, y) =
x∈S
X
µ(y) p(y, x) = µ(y).
x∈S
Bemerkung. Bei Startverteilung µ gilt:
µ(x) p(x, y) = P [X0 = x, X1 = y],
Einführung in die Wahrscheinlichkeitstheorie
»Fluss von x nach y«.
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
µ(x) p(x, y)
=
µ(y) p(y, x)
»Fluss von x nach y«
P
x∈S µ(x) p(x, y)
=
»Fluss von y nach x«
P
x∈S µ(y) p(y, x)
D ETAILED BALANCE:
G LEICHGEWICHT:
91
=
»Gesamter Fluss nach y«
Beispiele.
»Gesamter Fluss von y«.
a) M ARKOV-K ETTE AUF S = {0, 1}:
Seien α, β ∈ [0, 1] und
p=
1−α
β
α
1−β
!
.
Dann ist die Gleichgewichtsbedingung µ p = µ äquivalent zu den folgenden Gleichungen:
µ(0) = µ(0) (1 − α) + µ(1) β,
µ(1) = µ(0) α + µ(1) (1 − β).
Da µ eine Wahrscheinlichkeitsverteilung ist, sind beide Gleichungen äquivalent zu
β (1 − µ(0)) = α µ(0).
Die letzte Gleichung
ist äquivalent zur Detailed Balance-Bedingung (3.4.1). Falls α+β > 0
gilt, ist µ =
β
, α
α+β α+β
die eindeutige Gleichgewichtsverteilung und erfüllt die Detailed
Balance-Bedingung. Falls α = β = 0 gilt, ist jede Wahrscheinlichkeitsverteilung µ eine
Gleichgewichtsverteilung mit Detailed Balance-Bedingung.
b) Z YKLISCHER R ANDOM WALK : Sei S = Z/nZ ein diskreter Kreis, und
p(k, k + 1) = p,
Die Gleichverteilung µ(x) =
1
n
p(k, k − 1) = 1 − p.
ist ein Gleichgewicht. Die Detailed Balance-Bedingung ist
dagegen nur für p = 12 , d.h. im symmetrischen Fall, erfüllt.
c) E HRENFEST-M ODELL:
Sei S = {0, 1, . . . , n},
p(k, k − 1) =
Universität Bonn
k
,
n
p(k, k + 1) =
n−k
.
n
Wintersemester 2009/2010
92
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Man kann erwarten, dass sich im Gleichgewicht jede Kugel mit Wahrscheinlichkeit 12 in
jeder der beiden Urnen befindet. Tatsächlich erfüllt die Binomialverteilung µ(k) = nk 2−n
mit Parameter p =
1
2
die Detailed Balance-Bedingung:
µ(k − 1) p(k − 1, k) = µ(k) p(k, k − 1)
k = 1, . . . , n
ist äquivalent zu
2−n
n!
n!
n − (k − 1)
k
= 2−n
(k − 1)!(n − (k − 1))!
n
k!(n − k)! n
k = 1, . . . , n
d) R ANDOM WALKS AUF G RAPHEN :
Sei (V, E) ein endlicher Graph, S = V die Menge der Knoten.
• Sei
p(x, y) =


1
deg(x)
falls {x, y} ∈ E,
0
sonst.
Die Detailed Balance-Bedingung lautet in diesem Fall:
µ(x) p(x, y) = µ(y) p(y, x).
Sie ist erfüllt, falls
µ(x) = c deg(x)
gilt, wobei c eine Konstante ist. Damit µ eine Wahrscheinlichkeitsverteilung ist, muss
c so gewählt werden, dass gilt:
X
x∈B
deg(x) = 2 |E|.
Somit ist die Gleichgewichtsverteilung:
µ(x) =
• Sei △ := maxx∈V deg(x),
p(x, y) =

1
△
1 −
deg(x)
.
2|E|
deg(x)
△
falls {x, y} ∈ E,
sonst.
Es gilt p(x, y) = p(y, x) und somit ist die Gleichverteilung auf V die stationäre Verteilung.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
93
Ist deg(x) konstant, dann stimmen die Random Walks in beiden Beispielen überein, und
die Gleichverteilung ist ein Gleichgewicht.
Im nächsten Abschnitt zeigen wir:
Satz (Konvergenzsatz für Markov-Ketten). Ist S endlich, und p eine irreduzible und aperiodische
stochastische Matrix mit Gleichgewicht µ, dann gilt für alle Wahrscheinlichkeitsverteilungen ν
auf S:
lim (ν pn )(x) = µ(x)
n→∞
für alle x ∈ S.
Aufgrund des Konvergenzsatzes können wir Stichproben von einer Wahrscheinlichkeitsverteilung µ näherungsweise erzeugen, indem wir eine Markov-Kette Xn mit Gleichgewicht µ simulieren, und für großes n auswerten. Wie findet man eine Markov-Kette mit einer vorgegebenen
stationären Verteilung?
Metropolis-Algorithmus und Gibbs-Sampler
Die Metropolis-Kette
Sei q(x, y) eine symmetrische stochastische Matrix, d.h. q(x, y) = q(y, x) für alle x, y ∈ S.
Dann erfüllt die Gleichverteilung die Detailed Balance-Bedingung (3.4.1). Sei nun µ eine beliebige Wahrscheinlichkeitsverteilung auf S mit µ(x) > 0 für alle x ∈ S. Wie können wir die
Übergangsmatrix q so modifizieren, dass die Detailed Balance-Bedingung bzgl. µ erfüllt ist?
Algorithmus 3.8 (Metropolis-Algorithmus (Update x → y)).
Wahrscheinlichkeit q(x, y) vor
schlage Übergang x → y mit
akzeptiere Übergang mit Wahrscheinlichkeit α(x, y) ∈ [0, 1]
sonst verwerfe Vorschlag und bleibe bei x
Ü BERGANGSMATRIX :

α(x, y) q(x, y)
p(x, y) :=
1 − P
y6=x α(x, y) q(x, y)
für y 6= x,
für y = x.
Die Detailed Balance-Bedingung lautet:
µ(x) α(x, y) = µ(y) α(y, x)
für alle x, y ∈ S.
Sie ist äquivalent dazu, dass
b(x, y) := µ(x) α(x, y)
Universität Bonn
Wintersemester 2009/2010
94
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
symmetrisch in x und y ist. Was ist die größtmögliche Wahl von b(x, y)?
Aus α(x, y) ≤ 1 folgen
b(x, y) ≤ µ(x),
b(x, y) = b(y, x) ≤ µ(y),
und somit
b(x, y) ≤ min(µ(x), µ(y)).
Der größtmögliche Wert b(x, y) = min(µ(x), µ(y)) entspricht gerade

falls µ(y) ≥ µ(x),
µ(y) 1
α(x, y) = min 1,
=
 µ(y) falls µ(x) ≥ µ(y).
µ(x)
µ(x)
Definition. Die Markov-Kette mit Übergangsmatrix
µ(y)
· q(x, y)
p(x, y) = min 1,
µ(x)
für y 6= x
heißt Metropolis-Kette mit Vorschlagsverteilung q(x, y) und Gleichgewicht µ.
Satz 3.9. µ erfüllt die Detailed Balance-Bedingung bzgl. p.
Beweis. siehe oben.
Der Gibbs-Sampler
Sei S = S1 × · · · × Sd ein endlicher Produktraum, µ(x1 , . . . , xd ) eine Wahrscheinlichkeitsverteilung auf S und
µi (xi | x1 , . . . , xi−1 , xi+1 , . . . , xd ) := P
µ(x1 , . . . , xd )
z∈Si µ(x1 , . . . , xi−1 , z, xi+1 , . . . , xd )
die bedingte Verteilung der i-ten Komponente gegeben die übrigen Komponenten.
Algorithmus 3.10 (Gibbs-Sampler (Update x → y)).
y := x
for i := 1, . . . d do
update yi ∼ µi ( • | y1 , . . . yi−1 , yi+1 , . . . , yd )
end for
return y
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN
95
Ü BERGANGSMATRIX :
p = pd pd−1 · · · p1 ,
wobei
pi (x, y) =
Satz 3.11.

µi (yi | y1 , . . . , yi−1 , yi+1 , . . . , yd )
0
falls yk = xk für alle k 6= i,
sonst.
i) µ erfüllt die Detailed Balance-Bedingung bzgl. pi für alle i = 1, . . . , d.
ii) µ ist ein Gleichgewicht von p.
Beweis.
i) Der Beweis der ersten Aussage ist eine Übungsaufgabe.
ii) Nach der ersten Aussage ist µ ein Gleichgewicht von pi für alle i. Also gilt auch
µ p = µ pd pd−1 · · · p1 = µ.
Bemerkung. Zur Simulation von Yn , n ≥ 0, genügt es, die Massenfunktion µ(x) bis auf eine
multiplikative Konstante zu kennen:
aus µ(x) = C f (X) folgt
α(x, y) = min 1,
f (y) f (x)
unabhängig von C.
Beispiel (Rucksackproblem). Gegeben:
ω1 , . . . , ωd ∈ R, »Gewichte«,
v1 , . . . , vd ∈ R, »Werte«.
Rucksack mit maximalem Gewicht b > 0, packe soviel Wert wie möglich ein.
S = {0, 1}d ,
Sb = {(z1 , . . . , zd ) ∈ S :
Pd
alle Konfigurationen,
i=1 zi
wi ≤ b}, zulässige Konfigurationen,
zi = 1 : i-ter Gegenstand im Rucksack.
RUCKSACKPROBLEM:
maximiere V (z) =
Universität Bonn
Pd
i=1 zi
vi unter Nebenbedingung z ∈ Sb .
Wintersemester 2009/2010
96
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Das Rucksackproblem ist NP-vollständig, insbesondere ist keine Lösung in O(dk ) Schritten für
ein k ∈ N bekannt.
S TOCHASTISCHER Z UGANG : S IMULATED A NNEALING
Für β > 0 betrachten wir die Wahrscheinlichkeitsverteilung

 1 eβ V (z) für z ∈ Sb ,
µβ (z) = Zβ
0
für z ∈ S\Sb ,
auf S, wobei Zβ =
P
z∈Sb
eβ V (z) eine Konstante ist, die µ zu einer Wahrscheinlichkeitsverteilung
normiert. Für β = 0 ist µβ die Gleichverteilung auf Sb . Für β → ∞ konvergiert µβ gegen die
Gleichverteilung auf der Menge der globalen Maxima von V , denn:

0
β V (z)
e
1
µβ (z) =
=P
−→
β (V (y)−V (z))

1
Zβ
y∈Sb e
|{y | V (y)=max V }|
I DEE :
falls V (z) 6= max V,
falls V (z) = max V.
Simuliere Stichprobe z von µβ für β groß (β → ∞). Dann ist V (z) wahrscheinlich
nahe dem Maximalwert.
M ETROPOLIS -A LGORITHMUS :
Sei x+ := max(x, 0) der Positivteil von x. Wir wählen als
Vorschlagsmatrix die Übergangsmatrix

 1 falls zi 6= wi für genau ein i ∈ {1, . . . , d},
q(z, w) := d
0 sonst,
des Random Walks auf {0, 1}d . Für die Akzeptanzwahrscheinlichkeit ergibt sich

 −β (V (z)−V (w))
e
für z, w ∈ Sb ,
µβ (w)
=
αβ (z, w) = min 1,
0
µβ (z)
für z ∈ Sb , w ∈
/ Sb .
Der Vorschlag w wir also mit Wahrscheinlichkeit 1 akzeptiert, wenn V (w) ≥ V (z) gilt – andernfalls wird der Vorschlag nur mit Wahrscheinlichkeit exp −β (V (z) − V (w)) akzeptiert.
Algorithmus 3.12 (Simulation einer Markov-Kette mit Gleichgewicht µβ ).
Sb
initialisiere z (0) ∈
for n = 1, 2, . . . do
z (n) := w := z (n−1)
erzeuge i ∼ Unif{1, . . . , d}
wi := 1 − wi
if w ∈ Sb then
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT
97
erzeuge u ∼ Unif(0, 1)
if u ≤ αβ (z, w) then
z (n) := w
end if
end if
end for
Algorithmus 3.13 (Simulated Annealing). Wie Algorithmus 3.12 aber mit β = β(n) → ∞ für
n → ∞.
Bemerkung.
a) P HYSIKALISCHE I NTERPRETATIONEN:
µβ ist die Verteilung im thermodynamischen Gleichgewicht für die Energiefunktion H(z) =
−V (z) bei der Temperatur T = 1/β. Der Grenzwert β → ∞ entspricht T → 0 (»simuliertes Abkühlen«).
b) Die beim Simulated Annealing-Verfahren simulierte zeitlich inhomogene Markov-Kette
findet im allgemeinen nicht das globale Maximum von V , sondern kann in lokalen Maxima »steckenbleiben«. Man kann zeigen, dass die Verteilung der Markov-Kette zur Zeit n
gegen die Gleichverteilung auf den Maximalstellen konvergiert, falls β(n) nur sehr langsam (logarithmisch) gegen +∞ geht. In praktischen Anwendungen wird der Algorithmus
aber in der Regel mit einem schnelleren »Cooling schedule« β(n) verwendet. Das Auffinden eines globalen Maximums ist dann nicht garantiert – trotzdem erhält man ein oft
nützliches heuristisches Verfahren.
3.5 Konvergenz ins Gleichgewicht
Sei S = {x1 , . . . , xm } eine endliche Menge, und
WV(S) := {µ = (µ(x1 ), . . . , µ(xm )) | µ(xi ) ≥ 0,
m
X
i=1
µ(xi ) = 1} ⊆ Rm
die Menge aller Wahrscheinlichkeitsverteilungen auf S. Geometrisch ist WV(S) ein Simplex im
Rm . Wir führen nun einen Abstandsbegriff auf WV(S) ein:
Definition. Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen µ, ν auf S ist:
1
1X
dT V (µ, ν) := kµ − νk1 =
|µ(x) − ν(x)|.
2
2 x∈S
Universität Bonn
Wintersemester 2009/2010
98
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Bemerkung.
a) Für alle µ, ν ∈ WV(S) gilt:
dT V (µ, ν) ≤
1X
(µ(x) + ν(x)) = 1.
2 x∈S
b) Seien µ, ν Wahrscheinlichkeitsverteilungen und A := {x ∈ S | µ(x) ≥ ν(x)}. Dann gilt:
dT V (µ, ν) =
X
(µ(x) − ν(x)) = max |µ(A) − ν(A)|.
x∈A
A⊆S
Der Beweis dieser Aussage ist eine Übungsaufgabe.
Wir betrachten im folgenden eine stochastische Matrix p(x, y), (x, y ∈ S), mit Gleichgewicht
µ. Die Verteilung einer Markov-Kette mit Startverteilung ν und Übergangsmatrix p zur Zeit n ist
ν pn . Um Konvergenz ins Gleichgewicht zu zeigen, verwenden wir die folgende Annahme:
Es gibt ein δ ∈ (0, 1] und ein r ∈ N, so dass für alle x, y ∈ S
M INORISIERUNGSBEDINGUNG :
gilt:
pr (x, y) ≥ δ · µ(y).
(3.5.1)
Satz 3.14. Gilt die Minorisierungsbedingung (3.5.1), dann konvergiert ν pn für jede Startverteilung ν exponentiell schnell gegen µ. Genauer gilt für alle n ∈ N und ν ∈ WV(S):
dT V (ν pn , µ) ≤ (1 − δ)⌊n/r⌋ .
Bemerkung. Insbesondere ist µ das eindeutige Gleichgewicht: Betrachte eine beliebige Wahrscheinlichkeitsverteilung ν mit ν p = ν. Dann folgt für n → ∞:
dT V (ν, µ) = dT V (ν pn , µ) −→ 0,
also dT V (µ, ν) = 0, und somit µ = ν.
Beweis.
1. Durch die Zerlegung
pr (x, y) = δ µ(y) + (1 − δ) q(x, y)
der r-Schritt-Übergangswahrscheinlichkeiten wird eine stochastische Matrix q definiert,
denn
(i) Aus der Minorisierungsbedingung (3.5.1) folgt q(x, y) ≥ 0 für alle x, y ∈ S.
P
P
P
(ii) Aus y∈S pr (x, y) = 1, y∈S µ(y) = 1 folgt y∈S q(x, y) = 1 für alle x ∈ S.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT
99
Wir setzen im folgenden λ := 1 − δ. Dann gilt für alle ν ∈ WV(S):
ν pr = (1 − λ) µ + λ ν q.
(3.5.2)
2. Wir wollen mit vollständiger Induktion zeigen:
ν pkr = (1 − λk ) µ + λk ν q k
für alle k ≥ 0,
ν ∈ WV(S).
(3.5.3)
Für k = 0 ist die Aussage offensichtlich wahr. Gilt (3.5.3) für ein k ≥ 0, dann erhalten wir
durch Anwenden von Gleichung (3.5.2) auf νe pr mit νe = ν q k :
ν p(k+1)r = ν pkr pr
= ((1 − λk ) µ + λk ν q k ) pr
|{z}
=e
ν
= (1 − λk ) µ pr +(1 − λ) λk µ + λk+1 ν q k q
|{z}
=µ
= (1 − λk+1 ) µ + λk+1 ν q k+1 .
3. Für n ∈ N, n = k r + i, (k ∈ N, 0 ≤ i < r), folgt:
ν pn = ν pkr pi = (1 − λk ) µ pi +λk ν q k pi ,
|{z}
=µ
also
ν pn − µ = λk (ν q k pi − µ)
und damit
dT V (ν pn , µ) =
für alle ν ∈ WV(S),
1
kν pn − µk1 = λk dT V (ν q k pi , µ) ≤ λk
2
nach der letzten Bemerkung.
Welche Übergangsmatrizen erfüllen die Minorisierungsbedingung?
Definition.
i) Die stochastische Matrix p heißt irreduzibel, falls es für alle x, y ∈ S ein
n ∈ N gibt, so dass pn (x, y) > 0 gilt.
ii) Die Periode von x ∈ S ist definiert als
Periode(x) := ggT({n ∈ N | pn (x, x) > 0}).
|
{z
}
=:R(x)
Universität Bonn
Wintersemester 2009/2010
100
KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Lemma 3.15.
i) Falls p irreduzibel ist, gilt Periode(x) = Periode(y) für alle x, y ∈ S.
ii) Falls p irreduzibel und aperiodisch (d.h. Periode(x) = 1 für alle x ∈ S) ist, gibt es ein
r > 0, so dass pr (x, y) > 0 für alle x, y ∈ S gilt.
Beweis. Seien x, y ∈ S.
i) Sei p irreduzibel. Dann gibt es ein s und ein t ∈ N, so dass gilt:
ps (x, y) > 0
und
pt (y, x) > 0.
Für a := s + t folgt:
• pa (x, x) ≥ ps (x, y) pt (y, x) > 0, also a ∈ R(x).
• pn+a (x, x) ≥ ps (x, y) pn (y, y) pt (y, x) > 0 für alle n ∈ R(y), also n + a ∈ R(x) für
alle n ∈ R(y).
Periode(x) ist ein gemeinsamer Teiler von R(x), somit Teiler von a und n + a, also auch
von n für alle n ∈ R(y). Daher ist Periode(x) ein gemeinsamer Teiler von R(y) und somit
gilt:
Periode(x) ≤ Periode(y).
»≥« wird analog gezeigt. Es folgt:
Periode(x) = Periode(y).
ii) R(x) ist abgeschlossen unter Addition, denn falls s, t ∈ R(x) ist, gilt:
ps+t (x, x) ≥ ps (x, x) pt (x, x) > 0,
und somit s + t ∈ R(x). Da p aperiodisch ist, folgt ggT(R(x)) = 1 für alle x ∈ S. Nach
einem Satz der Zahlentheorie gilt:
Da R(x) additiv abgeschlossen, gibt es für alle x ein r(x) ∈ N mit n ∈ R(x) für alle
n ≥ r(x).
n ∈ R(x) impliziert pn (x, x) > 0. Da p irreduzibel ist, folgt, dass es für alle x, y ein
r(x, y) ∈ N gibt, so dass gilt:
pn (x, y) > 0
für alle n ≥ r(x, y).
Für r ≥ maxx,y∈S r(x, y) folgt dann pr (x, y) > 0 für alle x, y ∈ S.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT
101
Satz 3.16 (Konvergenzsatz für endliche Markov-Ketten). Ist p irreduzibel und aperiodisch mit
Gleichgewicht µ, dann gilt:
lim dT V (ν pn , µ) = 0
für alle ν ∈ WV(S).
n→∞
Beweis. Da p irreduzibel und aperiodisch ist, gibt es ein r ∈ N mit:
pr (x, y) > 0
für alle x, y ∈ S.
Daher gibt es ein r ∈ N und ein δ > 0, so dass gilt:
pr (x, y) > δ µ(y)
für alle x, y ∈ S,
(z.B. δ := minx,y∈S pr (x, y)). Mit Satz 3.14 folgt die Behauptung.
Beispiel (Metropolis-Kette). Sei S endlich, µ(x) > 0 für alle x ∈ S, nicht konstant, und q(x, y)
irreduzibel. Dann ist p(x, y) irreduzibel und aperiodisch. Somit folgt die Konvergenz ins Gleichgewicht nach Satz 3.16, allerdings evtl. sehr langsam!
A NWENDUNG : M ARKOV-C HAIN -M ONTE C ARLO -V ERFAHREN
Sei µ ∈ WV(S), f : S → R.
G ESUCHT:
θ = Eµ [f ],
M ARKOV-C HAIN -M ONTE C ARLO -S CHÄTZER:
b+n
1 X
b
θn,b =
f (Xk ),
n k=b+1
wobei b ∈ N eine feste Konstante (»burn-in-Zeit«) und (Xk )k∈N irreduzible Markov-Ketten mit
Gleichgewicht µ sind.
Satz (Ergodensatz / Gesetz der großen Zahlen für Markov-Ketten). : Für alle b ∈ N gilt:
lim θbn,b = θ
n→∞
mit Wahrscheinlichkeit 1,
Beweis. siehe Vorlesung »Stochastische Prozesse«.
Die Analyse des Schätzfehler ist im Allgemeinen diffizil!
Universität Bonn
Wintersemester 2009/2010
Kapitel 4
Stetige und Allgemeine Modelle
4.1
Unendliche Kombinationen von Ereignissen
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Ist (An )n∈N eine Folge von bzgl. P unabhängigen
Ereignissen, An ∈ A mit fester Wahrscheinlichkeit
P [An ] = p ∈ [0, 1]
und
Sn (ω) =
n
X
i=1
IAi (ω) = |{1 ≤ i ≤ n : ω ∈ Ai }|
die Anzahl der Ereignisse unter den ersten n, die eintreten, dann ist Sn binomialverteilt mit den
Parametern n und p. Für die relative Häufigkeit
Ungleichung
d.h. die Verteilung von
Sn
n
Sn
n
der Ereignisse Ai gilt die Bernstein-Chernoff-
Sn
2
P − p ≥ ε ≤ 2 · e−2ε n ,
n
(4.1.1)
konzentriert sich für n → ∞ sehr rasch in der Nähe von p, siehe Ab-
schnitt 2.3. Insbesondere ergibt sich ein Spezialfall des schwachen Gesetzes der großen Zahlen:
die Folge der Zufallsvariablen
Sn
n
konvergiert P -stochastisch gegen p, d.h.
Sn
n→∞
P − p ≥ ε → 0 für alle ε > 0.
n
Definition. (1). Eine P -Nullmenge ist ein Ereignis A ∈ A mit P [A] = 0.
(2). Ein Ereignis A ∈ A tritt P -fast sicher bzw. für P -fast alle ω ∈ Ω ein, falls P [A] = 1 gilt,
d.h. falls AC eine P -Nullmenge ist.
102
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
103
Wir wollen nun Methoden entwickeln, die es uns ermöglichen, zu zeigen, dass aus (4.1.1) sogar
Sn (ω)
=p
n→∞
n
lim
für P -fast alle ω ∈ Ω
(4.1.2)
folgt. Das relevante Ereignis
Sn (ω)
L := ω ∈ Ω : lim
=p
n→∞
n
lässt sich offensichtlich nicht durch endlich viele der Ai beschreiben.
Seien nun allgemein A1 , A2 , . . . ∈ A beliebige Ereignisse. Uns interessieren zusammengesetzte
Ereignisse wie z.B.
∞
S
n=1
∞
T
n=1
∞
T
An
(„Eines der An tritt ein“)
An
(„Alle der An treten ein“)
∞
S
An = {ω ∈ Ω : ∀m
∞ T
∞
S
An = {ω ∈ Ω : ∃m
m=1 n=m
m=1 n=m
∃n ≥ m : ω ∈ An } („Unendlich viele der An treten ein“ oder
„An tritt immer mal wieder ein“)
∀n ≥ m : ω ∈ An } („An tritt schließlich ein“)
Aufgrund der Eigenschaften einer σ-Algebra liegen alle diese Mengen wieder in A. Das Ereignis
L lässt sich wie folgt als abzählbare Kombination der Ai ausdrücken:
ω∈L
⇐⇒
⇐⇒
⇐⇒
Somit gilt
Sn
=p
n→∞ n
Sn
∀ε ∈ Q+ : − p ≤ ε schließlich
n
Sn
∀ε ∈ Q+ ∃m ∈ N ∀n ≥ m : − p ≤ ε
n
lim
\ Sn
− p ≤ ε schließlich
L =
n
ε∈Q+
\ [ \ Sn
=
n − p ≤ ε .
ε∈Q m∈N n≥m
+
Um Wahrscheinlichkeiten von solchen Ereignissen berechnen zu können, ist es wesentlich, dass
eine Wahrscheinlichkeitsverteilung P nicht nur endlich additiv, sondern sogar σ-additiv ist. Der
folgende Satz gibt eine alternative Charakterisierung der σ-Additivität:
Universität Bonn
Wintersemester 2009/2010
104
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Satz 4.1 (σ-Additivität und monotone Stetigkeit). Sei A eine σ-Algebra und P : A → [0, ∞]
additiv, d.h.
A ∩ B = ∅ ⇒ P [A ∪ B] = P [A] + P [B].
(i) P ist σ-additiv genau dann, wenn:
A1 ⊆ A2 ⊆ . . . ⇒ P
"
∞
[
#
An = lim P [An ]
n=1
n→∞
(ii) Gilt P [Ω] = 1, dann ist dies auch äquivalent zu:
#
"∞
\
A1 ⊇ A2 ⊇ . . . ⇒ P
An = lim P [An ]
n→∞
n=1
Beweis.
(i) Sei P σ-additiv und A1 ⊆ A2 ⊆ . . . . Die Mengen B1 := A1 , B2 := A2 \A1 ,
B3 := A3 \A2 , . . . sind disjunkt mit
n
[
Bi =
i=1
n
[
Ai = An
∞
[
und
i=1
Bi =
i=1
∞
[
Ai .
i=1
Also gilt:
P
"∞
[
i=1
Ai
#
=
P
"∞
[
Bi
i=1
σ−add.
=
∞
X
#
P [Bi ]
i=1
=
=
=
lim
n→∞
n
X
lim P
n→∞
P [Bi ]
i=1
"
n
[
Bi
i=1
#
lim P [An ].
n→∞
Der Beweis der umgekehrten Implikation wird dem Leser als Übungsaufgabe überlassen.
(ii) Gilt P [Ω] = 1, dann folgt
" ∞ !c #
"∞ #
"∞ #
[
[
\
= 1−P
P
Aci
Aci .
Ai = P
i=1
i=1
i=1
Die Behauptung folgt nun aus (i).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
105
Ab jetzt setzen wir wieder voraus, dass P eine Wahrscheinlichkeitsverteilung ist. Eine weitere
Folgerung aus der σ-Additivität ist:
Satz 4.2 (σ-Subadditivität). Für beliebige Ereignisse A1 , A2 , . . . ∈ A gilt:
#
"∞
∞
X
[
P [An ]
P
An ≤
n=1
n=1
Abbildung 4.1: Darstellung von drei Mengen. Das Maß der Vereinigung von Mengen ist stets
kleiner gleich als die Summe der Maße der einzelnen Mengen.
Beweis. Die Mengen
sind disjunkt mit
∞
S
Bn =
n=1
P
∞
S
Bn = An \ (An−1 ∪ · · · ∪ A1 )
An . Also gilt:
n=1
"
∞
[
n=1
#
An = P
"
∞
[
#
Bn =
n=1
∞
X
n=1
P [B ] ≤
| {z n}
≤P [An ]
∞
X
P [An ].
n=1
Bemerkung. Insbesondere ist eine Vereinigung von abzählbar vielen Nullmengen wieder eine
Nullmenge.
Der folgende Satz spielt eine zentrale Rolle beim Beweis von Konvergenzaussagen für Zufallsvariablen:
Satz 4.3 (1. Borel - Cantelli - Lemma). Für Ereignisse A1 , A2 , . . . ∈ A mit
∞
X
n=1
Universität Bonn
P [An ] < ∞
Wintersemester 2009/2010
106
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
gilt:
"
P [„unendlich viele der An treten ein“] = P
Beweis. Da die Folge
S
n≥m
Satz 4.1 und 4.2:
\ [
"
\ [
m n≥m
An
#
= P
4.1
=
=
"
\
m n≥m
Bm
m
#
lim P [Bm ]
#
"
[
An
lim P
m→∞
m→∞
n≥m
|
{z
∞
4.2 P
≤
≤ lim inf
m→∞
∞
P
An = 0.
An =: Bm von Ereignissen aus A monoton fallend ist, ergibt sich nach
P
da die Summe
#
n=m
∞
X
n=m
|
}
P [An ]
P [An ] = 0,
{z
m→∞
P [An ] nach Voraussetzung konvergiert.
→ 0
}
n=1
Das erste Borel-Cantelli-Lemma besagt, dass mit Wahrscheinlichkeit 1 nur endlich viele der ErP
eignisse An , n ∈ N eintreten, falls
P [An ] < ∞ gilt. Die Unabhängigkeit der Ereignisse ermöglicht die Umkehrung dieser Aussage. Es gilt sogar:
Satz 4.4 (2. Borel - Cantelli - Lemma). Für unabhängige Ereignisse A1 , A2 , . . . ∈ A mit
∞
X
n=1
P [An ] = ∞
gilt:
P [An unendlich oft] = P
"
\ [
m n≥m
#
An = 1
Bemerkung. Insbesondere ergibt sich ein 0-1 Gesetz:
Sind A1 , A2 , . . . ∈ A unabhängige Ereignisse, dann beträgt die Wahrscheinlichkeit, dass unendP
lich viele der An , n ∈ N, eintreten, entweder 0 oder 1 - je nachdem ob die Summe
P [An ]
endlich oder unendlich ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
107
Wir zeigen nun das zweite Borel-Cantelli-Lemma:
Beweis. Sind die Ereignisse An , n ∈ N unabhängig, so auch die Ereignisse AC
n , siehe Lemma
2.5. Zu zeigen ist:
P [An nur endlich oft] = P
Nach Satz 4.1 gilt:
P
"
[ \
#
"
AC
=0
n
"
#
m n≥m
= lim P
AC
n
m n≥m
#
[ \
m→∞
\
AC
n
n≥m
(4.1.3)
Wegen der Unabhängigkeit der Ereignisse AC
n erhalten wir zudem
#
"
" k
#
\
\
mon.
Stetigkeit
P
AC
=
lim P
AC
n
n
k→∞
n≥m
unabh.
=
da lim
k
P
k→∞ n=m
P [An ] =
∞
P
n=m
lim
k→∞
n=m
k
Y
n=m
lim inf
=
lim inf e
k→∞
=1−P [An ]≤exp(−P [An ])
k
Y
≤
P [AC ]
| {zn}
e−P [An ]
n=m
k
P
P [An ]
−
n=m
k→∞
= 0,
(4.1.4)
P [An ] = ∞ nach Voraussetzung.
Aus 4.1.3 und 4.1.4 folgt die Behauptung.
Mithilfe des 1. Borel-Cantelli-Lemmas können wir nun eine erste Version eines starken Gesetzes
großer Zahlen beweisen. Sei p ∈ [0, 1].
Satz 4.5 (Starkes Gesetz großer Zahlen I, Borel 1909, Hausdorff 1914, Cantelli 1917). Sind
A1 , A2 , . . . ∈ A unabhängige Ereignisse mit Wahrscheinlichkeit P [An ] = p für alle n ∈ N, dann
n
P
I Ai :
gilt für Sn =
i=1
Sn (ω)
= p für P -fast alle ω ∈ Ω
lim
|{z}
n→∞
| {z n }
asymptotische
W’keit
relative Häufig-
keit des Ereignisses
Universität Bonn
Wintersemester 2009/2010
108
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis. Sei
1
L := ω ∈ Ω Sn (ω) → p für n → ∞
n
Zu zeigen ist, dass LC ∈ A mit P [LC ] = 0.
Wegen
ω∈L
C
Sn (ω)
⇐⇒
6→ p ⇐⇒ ∃ε ∈ Q+
n
gilt:
[ Sn (ω)
L =
n − p > ε
C
unendlich oft
ε∈Q+
Sn (ω)
:
− p > ε
n
unendlich oft
[ \ [ Sn (ω)
=
n − p > ε ∈ A.
ε∈Q+ m n≥m
Zudem folgt aus der Bernstein-Chernoff-Abschätzung:
X
∞
∞
X
Sn
2
P − p > ε ≤
2e−2nε < ∞
n
n=1
n=1
für alle ε > 0, also nach dem 1. Borel-Cantelli-Lemma:
Sn
P − p > ε unendlich oft = 0.
n
Also ist Lc eine Vereinigung von abzählbar vielen Nullmengen, und damit nach Satz 4.2 selbst
eine Nullmenge.
Das starke Gesetz großer Zahlen in obigem Sinn rechtfertigt nochmals im Nachhinein die empirische Interpretation der Wahrscheinlichkeit eines Ereignisses als asymptotische relative Häufigkeit
bei unabhängigen Wiederholungen.
Beispiel (Random Walk/Irrfahrt). Wir betrachten einen Random Walk
Zn = X 1 + X 2 + X 3 + . . . + X n
(n ∈ N)
mit unabhängigen identisch verteilten Inkrementen Xi , i ∈ N, mit
P [Xi = 1] = p
und
P [Xi = −1] = 1 − p,
p ∈ (0, 1) fest.
Die Ereignisse Ai := {Xi = 1} sind unabhängig mit P [Ai ] = p und es gilt:
Xi = IAi − IACi = 2IAi − 1,
also
Zn = 2Sn − n,
Einführung in die Wahrscheinlichkeitstheorie
wobei
Sn =
n
X
I Ai .
i=1
Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN
109
Nach Satz 4.5 folgt:
Zn
Sn
= 2 lim
− 1 = 2p − 1 P -fast sicher.
n→∞ n
n→∞ n
lim
Für p 6=
1
2
wächst (bzw. fällt) Zn also mit Wahrscheinlichkeit 1 asymptotisch linear (siehe Abbil-
dung 4.2):
Zn ∼ (2p − 1) · n
P -fast sicher
(2p − 1)n
50
40
30
20
10
100
200
300
400
Abbildung 4.2: Random Walk mit Drift: p = 0.55, n = 500
Zn
→ 0 P -fast sicher. In diesem
n
Fall liegt für hinreichend große n der Graph einer typischen Trajektorie Zn (ω) in einem beliebig
Für p =
1
2
dagegen wächst der Random Walk sublinear, d.h.
kleinen Sektor um die x-Achse (siehe Abbildung 4.3).
10
100
200
300
400
−10
−20
Abbildung 4.3: Random Walk ohne Drift: p = 0.5, n = 500
Eine viel präzisere Beschreibung der Asymptotik des Random Walk liefert der Satz vom iterierten Logarithmus:
lim sup √
n→∞
Universität Bonn
Sn (ω)
= +1 P -fast sicher,
n log log n
Wintersemester 2009/2010
110
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
lim inf √
n→∞
Sn (ω)
= −1 P -fast sicher
n log log n
Mehr dazu: siehe Vorlesung „Stochastische Prozesse.“
4.2
Allgemeine Wahrscheinlichkeitsräume
Bisher haben wir uns noch nicht mit der Frage befasst, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem unendlich viele unabhängige Ereignisse bzw. Zufallsvariablen realisiert
werden können. Auch die Realisierung einer auf einem endlichen reellen Intervall gleichverteilten Zufallsvariable auf einem geeigneten Wahrscheinlichkeitsraum haben wir noch nicht gezeigt.
Die Existenz solcher Räume wurde stillschweigend vorausgesetzt.
Tatsächlich ist es oft nicht notwendig, den zugrunde liegenden Wahrscheinlichkeitsraum explizit zu kennen - die Kenntnis der gemeinsamen Verteilungen aller relevanten Zufallsvariablen
genügt, um Wahrscheinlichkeiten und Erwartungswerte zu berechnen. Dennoch ist es an dieser
Stelle hilfreich, die grundlegenden Existenzfragen zu klären, und unsere Modelle auf ein sicheres
Fundament zu stellen. Die dabei entwickelten Begriffsbildungen werden sich beim Umgang mit
stetigen und allgemeinen Zufallsvariablen als unverzichtbar erweisen.
Beispiele von Wahrscheinlichkeitsräumen
Wir beginnen mit einer Auflistung von verschiedenen Wahrscheinlichkeitsräumen (Ω, A, P ), die
wir gerne konstruieren würden:
Dirac-Maß
Sei Ω beliebig, a ∈ Ω fest, A = P(Ω), P = δa , wobei
δa [A] :=

1
0
falls a ∈ A
sonst
Dies ist eine deterministische Verteilung mit:
P [{ω = a}] = 1
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
111
Diskrete Wahrscheinlichkeitsräume
Ist Ω eine abzählbare Menge und p : Ω → [0, 1] eine Gewichtsfunktion mit
P
p(ω) = 1,
ω∈Ω
dann haben wir bereits gezeigt, dass eine eindeutige Wahrscheinlichkeitsverteilung P auf der
Potenzmenge A = P(Ω) existiert mit
P [A] =
X
p(a) =
a∈A
X
p(a)δa [A]
a∈Ω
∀A ⊆ Ω.
Jede diskrete Wahrscheinlichkeitsverteilung ist eine Konvexkombination von Diracmaßen:
P =
X
p(a)δa
a∈Ω
Endliche Produktmodelle
Auch die Konstruktion mehrstufiger diskreter Modelle ist auf diese Weise möglich: Ist beispielsweise
Ω = {(ω1 , . . . , ωn ) : ωi ∈ Ωi } = Ω1 × . . . × Ωn
eine Produktmenge, und sind p1 , . . . , pn Gewichtsfunktionen von Wahrscheinlichkeitsverteilungen P1 , . . . , Pn auf Ω1 , . . . , Ωn , dann ist
p(ω) =
n
Y
pi (ωi )
i=1
die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung P = P1 ⊗ . . . ⊗ Pn auf Ω. Unter dieser
Wahrscheinlichkeitsverteilung sind die Zufallsvariablen Xi (ω) = ωi unabhängig.
Unendliches Produktmodell (z.B. Münzwurffolge)
Es stellt sich die Frage, ob wir auch unendlich viele unabhängige Zufallsvariablen auf einem ähnlichen Produktraum realisieren können. Im einfachsten Fall möchten wir eine Folge unabhängiger
fairer Münzwürfe (0-1-Experimente) auf dem Grundraum
Ω = {ω = (ω1 , ω2 , . . .) : ωi ∈ {0, 1}} = {0, 1}N
modellieren. Ω ist überabzählbar, denn die Abbildung X : (0, 1) → Ω, die einer reellen Zahl die
Ziffernfolge ihrer Binärdarstellung zuordnet, ist injektiv. Genauer ist eine injektive Abbildung
X : (0, 1) → Ω definiert durch
X(ω) = (X1 (ω), X2 (ω), X3 (ω), . . .),
Universität Bonn
(4.2.1)
Wintersemester 2009/2010
112
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
X1 (ω)
1
X2 (ω)
1
0.5
1.0
X3 (ω)
1
0.25 0.50 0.75 1.00
0.25
0.50
0.75
1.00
Abbildung 4.4: Darstellung der ersten drei Xi (ω).
wobei Xn (ω) = IDn (ω), Dn =
2n−1
S
i=1
[(2i − 1) · 2−n , 2i · 2−n ).
Wir suchen eine Wahrscheinlichkeitsverteilung P auf Ω mit
P [{ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an }] = 2−n
(4.2.2)
Gibt es eine σ-Algebra A, die alle diese Ereignisse enthält, und eine eindeutige Wahrscheinlich-
keitsverteilung P auf A mit (4.2.2)?
Wir werden in Abschnitt 5.3 zeigen, dass dies der Fall ist; wobei aber
(1). A 6= P(Ω)
(2). P [{ω}] = 0
und
für alle ω ∈ Ω
gelten muss. Das entsprechende Produktmodell unterscheidet sich in dieser Hinsicht grundlegend
von diskreten Modellen.
Kontinuierliche Gleichverteilung
Für die Gleichverteilung auf einem endlichen reellen Intervall Ω = [a, b], −∞ < a < b < ∞,
sollte gelten:
d−c
∀a ≤ c < d ≤ b.
(4.2.3)
b−a
Gibt es eine σ-Algebra B, die alle Teilintervalle von [a, b] enthält, und eine WahrscheinlichkeitsP [(c, d)] = P [[c, d]] =
verteilung P auf B mit (4.2.3)?
Wieder ist die Antwort positiv, aber erneut gilt notwendigerweise B 6= P(Ω) und P [{ω}] = 0
für alle ω ∈ Ω.
Tatsächlich sind die Probleme in den letzten beiden Abschnitten weitgehend äquivalent: die durch
die Binärdarstellung (4.2.1) definierte Abbildung X ist eine Bijektion von [0, 1) nach {0, 1}N \ A,
wobei A = {ω ∈ Ω : ωn = 1 schließlich} eine abzählbare Teilmenge ist. Eine Gleichverteilung
auf [0, 1) wird durch X auf eine Münzwurffolge auf {0, 1}N abgebildet, und umgekehrt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
113
Brownsche Bewegung
Simuliert man einen Random Walk, so ergibt sich in einem geeigneten Skalierungslimes mit
Schrittweite → 0 anscheinend eine irreguläre, aber stetige zufällige Bewegung in kontinuierlicher
Zeit. Der entsprechende, 1923 von N. Wiener konstruierte stochastische Prozess heißt Brown16
14
12
10
8
6
4
2
−2
−4
−6
−8
10
20
30
40
50
60
70
80
90
Abbildung 4.5: Graph einer Stichprobe der eindimensionalen Brownschen Bewegung
sche Bewegung, und kann durch eine Wahrscheinlichkeitsverteilung P (das Wienermaß) auf dem
Raum
Ω = C([0, 1], R) = {ω : [0, 1] → R|ω stetig}
beschrieben werden. Für diese, als Modell für Aktienkurse, zufällige Bewegungen, etc. in diversen Anwendungsbereichen fundamentale Wahrscheinlichkeitsverteilung gilt unter anderem:
1
P [{ω ∈ Ω : ω(t) ∈ [a, b)}] = √
2πt
Zb
x2
e− 2t dx
für alle t > 0,
a
siehe zum Beispiel die Vorlesung „Stochastische Prozesse“ im Sommersemester.
Um Wahrscheinlichkeitsverteilungen wie in den letzten beiden Beispielen zu konstruieren, benötigen wir zunächst geeignete σ-Algebren, die die relevanten Ereignisse bzw. Intervalle enthalten.
Dazu verwenden wir die folgende Konstruktion:
Konstruktion von σ-Algebren
Sei Ω eine beliebige Menge, und J ⊆ P(Ω) eine Kollektion von Ereignissen, die auf jeden Fall
in der zu konstruierenden σ-Algebra enthalten sein sollen (z.B. die Mengen aus den Beispielen
zu unendlichen Produktmodellen und kontinuierlichen Gleichverteilungen auf Seite 111f).
Universität Bonn
Wintersemester 2009/2010
114
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Definition. Die Kollektion
σ(J ) :=
\
F
F ⊇J
F σ-Algebra auf Ω
von Teilmengen von Ω heißt die von J -erzeugte σ-Algebra.
Bemerkung. Wie man leicht nachprüft (Übung), ist σ(J ) tatsächlich eine σ-Algebra, und damit
die kleinste σ-Algebra, die J enthält.
Beispiel (Borel’sche σ-Algebra auf R). Sei Ω = R und J = {(s, t)| − ∞ ≤ s ≤ t ≤ ∞} die
Kollektion aller offenen Intervalle. Die von J erzeugte σ-Algebra
B(R) := σ(J )
heißt Borel’sche σ-Algebra. Man prüft leicht nach, dass B(R) auch alle abgeschlossenen und
halboffenen Intervalle enthält. Die Borel’sche σ-Algebra wird auch erzeugt von der Kollektion
aller abgeschlossenen bzw. aller kompakten Intervall. Ebenso gilt:
B(R) = σ({(−∞, c]|c ∈ R})
Allgemeiner definieren wir:
Definition. Sei Ω ein topologischer Raum (also z.B. ein metrischer Raum wie Rn , C([0, 1], R)
etc.), und sei τ die Kollektion aller offenen Teilmengen von Ω (die Topologie). Die von τ erzeugte
σ-Algebra
B(Ω) := σ(τ )
heißt Borel’sche σ-Algebra auf Ω.
Wieder verifiziert man, dass B(Ω) auch von den abgeschlossenen Teilmengen erzeugt wird. Im
Fall Ω = R ergibt sich die oben definierte, von den Intervallen erzeugte, σ-Algebra.
Bemerkung. Nicht jede Teilmenge von R ist in der Borelschen σ-Algebra B(R) enthalten - ein
Beispiel wird in den Übungen gegeben.
Trotzdem enthält B(R) so gut wie alle Teilmengen von R, die in Anwendungsproblemen auftreten; z.B. alle offenen und abgeschlossenen Teilmengen von R, sowie alle Mengen, die durch
Bildung von abzählbar vielen Vereinigungen, Durchschnitten und Komplementbildungen daraus
entstehen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
115
Beispiel (Produkt σ-Algebra auf {0, 1}N ). Eine Zylindermenge auf dem Folgenraum
Ω = {0, 1}N = {(ω1 , ω2 , . . .) : ωi ∈ {0, 1}}
ist eine Teilmenge A von Ω von der Form
A = {ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an },
n ∈ N, a1 , . . . , an ∈ {0, 1}.
In Beispiel 4.2 von oben betrachten wir die von der Kollektion C aller Zylindermengen erzeugte
σ-Algebra A = σ(C ) auf {0, 1}N . A heißt Produkt-σ-Algebra auf Ω.
Allgemeiner sei I eine beliebige Menge, und Ω =
Q
Ωi eine Produktmenge (mit endlich, ab-
i∈I
zählbar, oder sogar überabzählbar vielen Faktoren Ωi , i ∈ I).
Definition. Sind Ai , i ∈ I σ-Algebren auf Ωi , dann heißt die von der Kollektion C aller Zylindermengen
{ω = (ωi )i∈I ∈ Ω : ωi1 ∈ Ai1 , ωi2 ∈ Ai2 , . . . , ωin ∈ Ain },
n ∈ N, i1 , . . . , in ∈ I, Ai1 ∈ Ai1 , . . . , Ain ∈ Ain , erzeugte σ-Algebra
O
A=
Ai := σ(C )
i∈I
Produkt σ-Algebra auf Ω.
Man kann nachprüfen, dass die etwas anders definierte Produkt-σ-Algebra aus Beispiel 4.2 ein
Spezialfall dieser allgemeinen Konstruktion ist.
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen
Sei (Ω, A) ein messbarer Raum, d.h. Ω ist eine nichtleere Menge und A ⊆ P(Ω) eine σ-
Algebra. In der Regel sind die Wahrscheinlichkeiten P [A] zunächst für Ereignisse A aus einer
Teilmenge J ⊆ A mit A = σ(J ) gegeben, z.B. für Intervalle bei Wahrscheinlichkeitsverteilun-
gen auf R. Es stellt sich die Frage, ob hierdurch bereits die Wahrscheinlichkeiten aller Ereignisse
in A eindeutig festgelegt sind, und ob sich P zu einer Wahrscheinlichkeitsverteilung auf A fort-
setzen lässt. Diese Fragen beantworten die folgenden beiden fundamentalen Sätze.
Definition. (1). Ein Mengensystem J ⊆ A heißt durchschnittsstabil, falls
A, B ∈ J
⇒
A∩B ∈ J.
(2). J heißt Algebra, falls
Universität Bonn
Wintersemester 2009/2010
116
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(a) Ω ∈ J
(b) A ∈ J
(c) A, B ∈ J
AC ∈ J
⇒
⇒
A∪B ∈ J.
Eine Algebra ist stabil unter endlichen Mengenoperationen (Bilden von endlichen Vereinigungen,
Durchschnitten und Komplementen). Insbesondere ist jede Algebra durchschnittsstabil.
Beispiel. (1). Die Kollektion aller offenen Intervalle ist eine durchschnittsstabile Teilmenge
von B(R), aber keine Algebra. Dasselbe gilt für das Mengensystem J = {(−∞, c]|c ∈ R}.
(2). Die Kollektion aller endlichen Vereinigungen von beliebigen Teilintervallen von R ist eine
Algebra.
Satz 4.6 (Eindeutigkeitssatz). Stimmen zwei Wahrscheinlichkeitsverteilungen P und Pe auf
(Ω, A) überein auf einem durchschnittsstabilen Mengensystem J ⊆ A, so auch auf σ(J ).
Den Satz werden wir am Ende dieses Abschnittes beweisen.
Beispiel. (1). Eine Wahrscheinlichkeitsverteilung P auf B(R) ist eindeutig festgelegt durch die
Wahrscheinlichkeiten P [(−∞, c]], c ∈ R.
(2). Die Wahrscheinlichkeitsverteilung P im Modell der unendlich vielen Münzwürfe ist eindeutig festgelegt durch die Wahrscheinlichkeiten der Ausgänge der ersten n Würfe für alle
n ∈ N.
Nach dem Eindeutigkeitssatz 4.6 ist eine Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Ereignisse aus einem durchschnittsstabilen Erzeugendensystem festgelegt. Umgekehrt zeigt der folgende Satz, dass sich eine auf einem Erzeugendensystem J gegebene σ-
additive Abbildung zu einem Maß auf der σ-Algebra fortsetzen lässt, falls J eine Algebra ist.
Satz 4.7 (Fortsetzungssatz von Carathéodory). Ist J eine Algebra, und P : J → [0, ∞] eine
σ-additive Abbildung, dann besitzt P eine Fortsetzung zu einem Maß auf σ(J ).
Den Beweis dieses klassischen Resultats findet man in vielen Maßtheorie-, Analysis- bzw. Wahrscheinlichkeitstheorie-Büchern (siehe z. B. Williams: „Probability with martingales“, Appendix
A1). Wir verweisen hier auf die Analysisvorlesung, da für die weitere Entwicklung der Wahrscheinlichkeitstheorie in dieser Vorlesung der Existenzsatz zwar fundamental ist, das Beweisverfahren aber keine Rolle mehr spielen wird.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME
117
Bemerkung. Ist P [Ω] = 1, bzw. allgemeiner P [Ω] < ∞, dann ist die Maßfortsetzung nach Satz
4.6 eindeutig, denn eine Algebra ist durchschnittsstabil.
Als Konsequenz aus dem Fortsetzungssatz erhält man:
Korollar 4.8 (Existenz und Eindeutigkeit der kontinuierlichen Gleichverteilung). Es existiert genau eine Wahrscheinlichkeitsverteilung U(0,1) auf B((0, 1)) mit
U(0,1) [(a, b)] = b − a
für alle 0 < a ≤ b < 1.
(4.2.4)
Zum Beweis ist noch zu zeigen, dass die durch (4.2.4) definierte Abbildung U(0,1) sich zu ei-
ner σ-additiven Abbildung auf die von den offenen Intervallen erzeugte Algebra A0 aller endli-
chen Vereinigungen von beliebigen (offenen, abgeschlossenen, halboffenen) Teilintervallen von
(0, 1) fortsetzen lässt. Wie die Fortsetzung auf A0 aussieht, ist offensichtlich - der Beweis der
σ-Additivität ist etwas aufwändiger. Wir verweisen dazu wieder auf die Analysisvorlesung, bzw.
den Appendix A1 in Williams: „Probability with martingales.“
Bemerkung. (1). Auf ähnliche Weise folgt die Existenz und Eindeutigkeit des durch
λ[(a1 , b1 ) × . . . × (ad , bd )] =
d
Y
i=1
(bi − ai )
für alle ai , bi ∈ R mit ai ≤ bi
eindeutig festgelegten Lebesguemaßes λ auf B(Rd ), siehe Analysis III. Man beachte, dass
wegen λ[Rd ] = ∞ eine Reihe von Aussagen, die wir für Wahrscheinlichkeitsverteilungen
beweisen werden, nicht für das Lebesguemaß auf Rd gelten!
(2). Auch die Existenz der Wahrscheinlichkeitsverteilungen im Modell für unendlich viele faire
Münzwürfe kann man mithilfe des Satzes von Carathéodory zeigen. Wir werden diese
Wahrscheinlichkeitsverteilung stattdessen unmittelbar aus der Gleichverteilung U(0,1) konstruieren.
Zum Abschluss dieses Abschnitts beweisen wir nun den Eindeutigkeitssatz. Dazu betrachten wir
das Mengensystem
Zu zeigen ist: D ⊇ σ(J ).
D := {A ∈ A | P [A] = Pe[A]} ⊇ J .
Dazu stellen wir fest, dass D folgende Eigenschaften hat:
(i) Ω ∈ D
Universität Bonn
Wintersemester 2009/2010
118
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(ii) A ∈ D ⇒ Ac ∈ D
(iii) A1 , A2 , . . . ∈ D paarweise disjunkt ⇒
S
Ai ∈ D
Definition. Ein Mengensystem D ⊆ P(Ω) mit (i) - (iii) heißt Dynkinsystem.
Bemerkung. Für ein Dynkinsystem D gilt:
C
C
A, B ∈ D , A ⊆ B ⇒ B\A = B ∩ AC = (B
| {z∪ A}) ∈ D
disjunkt
Lemma 4.9. Jedes ∩ - stabile Dynkinsystem D ist eine σ - Algebra.
Beweis. Für A, B ∈ D gilt:
∈D f alls ∩−stabil
A∪B = A
∪
↑
disjunkt
z }| {
(B\(A ∩ B))
| {z }
∈ D.
∈D nach Bem.
Hieraus folgt für A1 , A2 , . . . ∈ D durch Induktion
n
[
Bn :=
i=1
und damit
∞
[
Ai =
i=1
∞
[
n=1
Bn =
Ai ∈ D,
∞
[
(Bn \Bn−1 ) ∈ D.
| {z }
n=1
∈D nach Bem.
↑
disjunkt
Lemma 4.10. Ist J ein ∩ - stabiles Mengensystem , so stimmt das von J erzeugte Dynkinsystem
\
D
D(J ) :=
D Dynkinsystem
D⊇J
mit der von J erzeugten σ - Algebra σ(J ) überein.
Aus Lemma (4.10) folgt der Eindeutigkeitssatz, denn {A ∈ A |P [A] = Pe[A]} ist ein Dynkin-
system, das J enthält, und somit gilt nach dem Lemma
{A ∈ A |P [A] = Pe[A]} ⊇ D(J ) = σ(J ),
falls J durchschnittsstabil ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
119
Beweis. (von Lemma (4.10))
Jede σ - Algebra ist ein Dynkinsystem, also gilt D(J ) ⊆ σ(J ).
Es bleibt zu zeigen, dass D(J ) eine σ - Algebra ist (hieraus folgt dann D(J ) = σ(J )). Nach
dem ersten Lemma ist dies der Fall, wenn D(J ) durchschnittsstabil ist. Dies zeigen wir nun in
zwei Schritten:
Schritt 1: B ∈ J , A ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DB := { A ∈ A | A ∩ B ∈ D(J )} ⊇ J ist ein Dynkinsystem. Z.B. gilt
A ∈ DB ⇒ A ∩ B ∈ D(J )
Bem.
⇒ AC ∩ B = B \ (A
∩ B}) ∈ D(J )
| {z
↑
∈D(J )
∈D(J )
⇒ AC ∈ DB usw.
Also gilt DB ⊇ D(J ), und damit A ∩ B ∈ D(J ) für alle A ∈ D(J ).
Schritt 2:
A, B ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DA := { B ∈ A | A ∩ B ∈ D(J )} ⊇ J nach Schritt 1. Zudem ist DA ein
Dynkinsystem (Beweis analog zu Schritt 1), also gilt DA ⊇ D(J ).
4.3 Allgemeine Zufallsvariablen und ihre Verteilung
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Wir wollen nun Zufallsvariablen X : Ω → S mit
Werten in einem allgemeinen messbaren Raum (S, S) betrachten. Beispielsweise ist S = R oder
S = Rd und S ist die Borelsche σ-Algebra. Oft interessieren uns die Wahrscheinlichkeiten von
Ereignissen der Form
{X ∈ B} = {ω ∈ Ω|X(ω) ∈ B} = X −1 (B),
„Der Wert der Zufallsgröße X liegt in B“
wobei B ⊆ S eine Menge aus der σ-Algebra S auf dem Bildraum ist, also z.B. ein Intervall oder
eine allgemeinere Borelmenge, falls S = R gilt.
Wir erweitern dementsprechend die zuvor eingeführten Konzepte einer Zufallsvariablen und ihrer
Verteilung.
Universität Bonn
Wintersemester 2009/2010
120
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Allgemeine Zufallsvariablen
Definition. Eine Abbildung X : Ω → S heißt messbar bzgl. A/S, falls
(M )
X −1 (B) ∈ A
für alle B ∈ S.
Eine Zufallsvariable ist eine auf einem Wahrscheinlichkeitsraum definierte messbare Abbildung.
Bemerkung. (1). Ist Ω abzählbar und A = P(Ω), dann ist jede Abbildung X : Ω → S eine
Zufallsvariable.
(2). Ist S abzählbar und S = P(S), dann ist X genau dann eine Zufallsvariable, falls
{X = a} = X −1 ({a}) ∈ A
für alle a ∈ S
gilt. Dies ist gerade die Definition einer diskreten Zufallsvariable von oben.
Stimmt die σ-Algebra S nicht mit der Potenzmenge P(S) überein, dann ist es meist schwierig,
eine Bedingung (M ) für alle Mengen B ∈ S explizit zu zeigen. Die folgenden Aussagen liefern
handhabbare Kriterien, mit denen man in fast allen praktisch relevanten Fällen sehr leicht zeigen
kann, dass die zugrunde liegenden Abbildungen messbar sind. Wir bemerken zunächst, dass es
genügt die Bedingung (M ) für alle Mengen aus einem Erzeugendensystem J der σ-Algebra S
zu überprüfen:
Lemma 4.11. Sei J ⊆ P(S) mit S = σ(J ). Dann gilt (M ) bereits, falls
X −1 (B) ∈ A
für alle B ∈ J .
Beweis. Das Mengensystem {B ∈ S|X −1 (B) ∈ A} ist eine σ-Algebra, wie man leicht nach-
prüft. Diese enthält J nach Voraussetzung, also enthält sie auch die von J erzeugte σ-Algebra
S.
Korollar (Reellwertige Zufallsvariablen). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine
Abbildung X : Ω → R ist genau dann eine Zufallsvariable bzgl. der Borelschen σ-Algebra,
wenn
{X ≤ c} = {ω ∈ Ω | X(ω) ≤ c} ∈ A
∀ c ∈ R,
{X < c} = {ω ∈ Ω | X(ω) < c} ∈ A
∀ c ∈ R.
bzw. wenn
Beweis. Es gilt {X ≤ c} = X −1 ((−∞, c]). Die Intervalle (−∞, c], c ∈ R, erzeugen B(R), also
folgt die erste Aussage. Die zweite Aussage zeigt man analog.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
121
Beispiel (Indikatorfunktionen). Für eine Menge A ⊆ Ω gilt:
IA ist Zufallsvariable ⇔ A ∈ A,
denn


∅



{IA ≤ c} = Ω



AC
falls c < 0
falls c ≥ 1
,
falls 0 ≤ c < 1
und AC ist genau dann in A enthalten, wenn A in A enthalten ist.
Korollar (Stetige Abbildungen sind messbar). Seien Ω und S topologische Räume, und A, S
die Borelschen σ-Algebren. Dann gilt:
X : Ω → S stetig ⇒ X messbar.
Beweis. Sei J die Topologie von S, d.h. die Kollektion aller offenen Teilmengen von S. Nach
Definition der Borelschen σ-Algebra gilt S = σ(J ). Wegen
B∈J
X stetig
⇒ B offen =⇒ X −1 (B) offen =⇒ X −1 (B) ∈ A
folgt die Behauptung.
Kompositionen von messbaren Abbildungen sind wieder messbar:
Lemma 4.12. Sind (Ω1 , A1 ), (Ω2 , A2 ) und (Ω3 , A3 ) messbare Räume, und ist X1 : Ω1 → Ω2
messbar bzgl. A1 /A2 und X2 : Ω2 → Ω3 messbar bzgl. A2 /A3 , dann ist X2 ◦ X1 messbar bzgl.
A1 /A3 .
X
X
1
2
Ω1 −→
Ω2 −→
Ω3
A1
A2
A3
Beweis. Für B ∈ A3 gilt (X2 ◦ X1 )−1 (B) = X1−1 (X2−1 (B)) ∈ A1 .
| {z }
∈A2
Beispiel. (1). Ist X : Ω → R eine reellwertige Zufallsvariable und f : R → R eine messbare
(z.B. stetige) Funktion, dann ist auch
f (X) := f ◦ X : Ω → R
wieder eine reellwertige Zufallsvariable. Beispielsweise sind |X|, |X|p , eX usw. Zufallsva-
riablen.
Universität Bonn
Wintersemester 2009/2010
122
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(2). Sind X, Y : Ω → R reellwertige Zufallsvariablen, dann ist (X, Y ) : ω 7→ (X(ω), Y (ω))
eine messbare Abbildung in den R2 mit Borelscher σ-Algebra.
Da die Abbildung (x, y) 7→ x + y stetig ist, ist X + Y wieder eine reellwertige Zufallsva-
riable. Dies sieht man auch direkt wie folgt: Für c ∈ R gilt:
X + Y < c ⇐⇒ ∃ r, s ∈ Q : r + s < c, X < r und Y < s,
also
{X + Y < c} =
[
({X < r} ∩ {Y < s}) ∈ A
r,s∈Q
r+s<c
Verteilungen von Zufallsvariablen
Um Zufallsexperimente zu analysieren, müssen wir wissen, mit welchen Wahrscheinlichkeiten
die relevanten Zufallsvariablen Werte in bestimmten Bereichen annehmen. Dies wird durch die
Verteilung beschrieben. Seien (Ω, A) und (S, S) messbare Räume.
Satz 4.13 (Bild einer Wahrscheinlichkeitsverteilung unter einer ZV). Ist P eine Wahrscheinlichkeitsverteilung auf (Ω, A), und X : Ω → S messbar bzgl. A/S, dann ist durch
µX (B) := P [X ∈ B] = P [X −1 (B)]
(B ∈ S)
eine Wahrscheinlichkeitsverteilung auf (S, S) definiert.
Beweis.
(1). µX (S) = P [X −1 (S)] = P [Ω] = 1
(2). Sind Bn ∈ S, n ∈ N, paarweise disjunkte Mengen, dann sind auch die Urbilder X −1 (Bn ),
n ∈ N, paarweise disjunkt. Also gilt wegen der σ-Additivität von P :
#
"
#
"
!#
"
[
[
X
X
[
Bn = P X −1
µX
X −1 (Bn ) =
P [X −1 (Bn )] =
µX [Bn ].
Bn
=P
n
n
n
n
n
Definition. Die Wahrscheinlichkeitsverteilung µX auf (S, S) heißt Bild von P unter X oder
Verteilung (law) von X unter P .
Für µX werden häufig auch die folgenden Notationen verwendet:
µX = P ◦ X −1 = LX = PX = X(P )
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
123
Charakterisierung der Verteilung
• Diskrete Zufallsvariablen:
Die Verteilung µX einer diskreten Zufallsvariablen ist eindeutig durch die Massenfunktion
a ∈ S,
pX (a) = P [X = a] = µX [{a}],
festgelegt.
• Reelle Zufallsvariablen
Die Verteilung µX einer reellwertigen Zufallsvariablen X : Ω → R ist eine Wahrscheinlichkeitsverteilung auf B(R). Sie ist eindeutig festgelegt durch die Wahrscheinlichkeiten
µX [(−∞, c]] = P [X ≤ c],
c ∈ R,
da die Intervalle (−∞, c], c ∈ R, ein durchschnittsstabiles Erzeugendensystem der Borelschen σ-Algebra bilden.
Definition. Die Funktion FX : R → [0, 1],
FX (c) := P [X ≤ c] = µX [(−∞, c]]
heißt Verteilungsfunktion (distribution function) der Zufallsvariable X : Ω → R bzw. der
Wahrscheinlichkeitsverteilung µX auf (R, B(R)).
Beispiel (Kontinuierliche Gleichverteilung). Seien a, b ∈ R mit a < b. Eine Zufallsvariable
X : Ω → R ist gleichverteilt auf dem Intervall (a, b), falls
FX (c) = P [X ≤ c] = U(a,b) [(a, c)] =
c−a
b−a
für alle c ∈ (a, b)
gilt. Eine auf (0, 1) gleichverteilte Zufallsvariable ist zum Beispiel die Identität
U (ω) = ω
auf dem Wahrscheinlichkeitsraum (Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) ). Ist U gleichverteilt auf
(0, 1), dann ist die Zufallsvariable
X(ω) = a + (b − a)U (ω)
gleichverteilt auf (a, b).
Universität Bonn
Wintersemester 2009/2010
124
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel (Exponentialverteilung). Angenommen, wir wollen die Wartezeit auf das erste Eintreten
eines unvorhersehbaren Ereignisses (radioaktiver Zerfall, Erdbeben, . . . ) mithilfe einer Zufallsvariable T : Ω → (0, ∞) beschreiben. Wir überlegen uns zunächst, welche Verteilung zur Model-
lierung einer solchen Situation angemessen sein könnte. Um die Wahrscheinlichkeit P [T > t] zu
approximieren, unterteilen wir das Intervall (0, t] in eine große Anzahl n ∈ N von gleich großen
Intervallen ( (k−1)t
, kt
], 1 ≤ k ≤ n.
n
n
0
(k − 1)t
n
t
kt
n
Abbildung 4.6: Unterteilung des Intervalls (0, t] in n Teile.
Sei Ak das Ereignis, dass das unvorhersehbare Geschehen im Zeitraum ( (k−1)t
, kt
] eintritt. Ein
n
n
nahe liegender Modellierungsansatz ist anzunehmen, dass die Ereignisse Ak unabhängig sind mit
Wahrscheinlichkeit
t
P [Ak ] ≈ λ ,
n
wobei λ > 0 die „Intensität“, d.h. die mittlere Häufigkeit des Geschehens pro Zeiteinheit, be-
schreibt, und die Approximation für n → ∞ immer genauer wird. Damit erhalten wir:
n
λt
C
C
P [T > t] = P [A1 ∩ . . . ∩ An ] ≈ 1 −
für großes n.
n
Für n → ∞ konvergiert die rechte Seite gegen e−λt .
Daher liegt folgende Definition nahe:
Definition. Eine Zufallsvariable T : Ω → [0, ∞) heißt exponentialverteilt zum Parameter λ>0,
falls
P [T > t] = e−λt
für alle t ≥ 0 gilt.
Die Exponentialverteilung zum Parameter λ ist dementsprechend die Wahrscheinlichkeitsverteilung µ = Exp(λ) auf (R, B(R)) mit
µ[(t, ∞)] = e−λt
Einführung in die Wahrscheinlichkeitstheorie
für alle t ≥ 0,
Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG
125
bzw. mit Verteilungsfunktion
F (t) = µ[(−∞, t]] =

1 − e−λt
0
für t ≥ 0
(4.3.1)
für t < 0.
Nach dem Eindeutigkeitssatz ist die Exp(λ)-Verteilung durch (4.3.1) eindeutig festgelegt.
Wir konstruieren nun explizit eine exponentialverteilte Zufallsvariable. Dazu bemerken wir, dass
T : Ω → R genau dann exponentialverteilt mit Parameter λ ist, wenn
λ
1
−λT
P [e
< u] = P T > − log u = e λ log u = u
λ
für alle u ∈ (0, 1) gilt, d.h. wenn e−λT auf (0, 1) gleichverteilt ist. Also können wir eine expo-
nentialverteilte Zufallsvariable konstruieren, indem wir umgekehrt
1
T := − log U
λ
U ∼ U(0,1)
setzen. Insbesondere ergibt sich die folgende Methode zur Simulation einer exponentialverteilten
Zufallsvariable:
Algorithmus 4.14 (Simulation einer exponentialverteilten Stichprobe).
Input: Intensität λ > 0
Output: Stichprobe x von Exp(λ)
(1). Simuliere u ∼ U(0,1)
(2). Setze x := − λ1 log u
Wir werden in Abschnitt 4.5 zeigen, dass mit einem entsprechenden Verfahren beliebige reelle Zufallsvariablen konstruiert und simuliert werden können. Zum Abschluss dieses Abschnitts
zeigen wir noch eine bemerkenswerte Eigenschaft exponentialverteilter Zufallsvariablen:
Satz 4.15 (Gedächtnislosigkeit der Exponentialverteilung). Ist T exponentialverteilt, dann gilt
für alle s, t ≥ 0:
P [T − s > t|T > s] = P [T > t].
Hierbei ist T − s die verbleibende Wartezeit auf das erste Eintreten des Ereignisses. Also:
Auch wenn man schon sehr lange vergeblich gewartet hat,
liegt das nächste Ereignis nicht näher als am Anfang!
Universität Bonn
Wintersemester 2009/2010
126
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis.
P [T −s > t|T > s] =
P [T − s > t und T > s]
P [T > s + t]
e−λ(t+s)
=
=
= e−λt = P [T > t].
P [T > s]
T >s
e−λs
Wahrscheinlichkeitsverteilungen auf R
4.4
In diesem und im nächsten Abschnitt beschäftigen wir uns systematischer mit der Beschreibung,
Konstruktion und Simulation reellwertiger Zufallsvariablen. Wir notieren dazu zunächst einige
grundlegende Eigenschaften der Verteilungsfunktion
F (c)
=
P [X ≤ c]
einer auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten Zufallsvariable X : Ω → R.
Wir werden im nächsten Abschnitt sehen, dass umgekehrt jede Funktion mit den Eigenschaften
(1)-(3) aus Satz 4.16 die Verteilungsfunktion einer reellen Zufallsvariable ist.
Eigenschaften der Verteilungsfunktion
Satz 4.16. Für die Verteilungsfunktion F : R → [0, 1] einer reellwertigen Zufallsvariable X gilt:
(1). F ist monoton wachsend,
(2). lim F (c) = 0 und lim F (c) = 1,
c→−∞
c→∞
(3). F ist rechtsstetig, d.h. F (c) = lim F (y) für alle c ∈ R,
yցc
(4). F (c) = lim F (y) + µX [{c}].
yրc
Insbesondere ist F stetig bei c, falls µX [{c}] = 0 gilt.
Beweis. Die Aussagen folgen unmittelbar aus der monotonen Stetigkeit und Normiertheit der
zugrundeliegenden Wahrscheinlichkeitsverteilung P . Der Beweis der Eigenschaften (1)-(3) wird
dem Leser als Übung überlassen. Zum Beweis von (4) bemerken wir, dass für y < c gilt:
F (c) − F (y) = P [X ≤ c] − P [X ≤ y] = P [y < X ≤ c].
Für eine monoton wachsende Folge yn ր c erhalten wir daher aufgrund der monotonen Stetigkeit
von P :
F (c) − lim F (yn ) =
n→∞
lim P [yn < X ≤ c] = P
n→∞
= P [X = c] = µX [{c}].
Einführung in die Wahrscheinlichkeitstheorie
"
\
n
#
{yn < X ≤ c}
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
127
Da dies für alle Folgen yn ր c gilt, folgt die Behauptung.
Im Folgenden betrachten wir einige Beispiele von eindimensionalen Verteilungen und ihren Verteilungsfunktionen.
Diskrete Verteilungen
Die Verteilung µ einer reellen Zufallsvariable X heißt diskret, wenn µ[S] = 1 für eine abzählbare
Menge S gilt.
Beispiele. (1). B ERNOULLI -V ERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[{0}] = 1 − p.
µ[{1}] = p,
Als Verteilungsfunktion ergibt sich
µX


0



F (c) = 1 − p



1
1
für c < 0
für c ∈ [0, 1)
für c ≥ 1.
F
1
1−p
1−p
1
1
Abbildung 4.7: Massen- und Verteilungsfunktion einer Ber(p)-verteilten Zufallsvariablen.
(2). G EOMETRISCHE V ERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[{k}] = (1 − p)k−1 · p
für k ∈ N.
Für eine geometrisch verteilte Zufallsvariable T gilt:
F (c) = P [T ≤ c] = 1 − P [T > c] = 1 − (1 − p)⌊c⌋
| {z }
für c ≥ 0,
=P [T >⌊c⌋]
wobei ⌊c⌋ := max{n ∈ Z | n ≤ c} der ganzzahlige Anteil von c ist.
Universität Bonn
Wintersemester 2009/2010
128
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1
F
1
2
3
4
5
6
7
1
2
3
4
5
6
7
1
Abbildung 4.8: Massen- und Verteilungsfunktion einer Geom( 21 )-verteilten Zufallsvariablen.
(3). B INOMIALVERTEILUNG MIT PARAMETERN n UND p:
n k
p (1 − p)n−k
für k = 0, 1, . . . , n
µ[{k}] =
k
Somit ist die Verteilungsfunktion von Bin(n, p):
F (c) =
⌊c⌋ X
n
k=0
k
pk (1 − p)n−k
0.15
0.10
0.05
−0.05
10
20
30
40
50
−0.10
Abbildung 4.9: Massenfunktion einer Bin(55, 0.6)-verteilten Zufallsvariable.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
129
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
−0.1
10
20
30
40
50
Abbildung 4.10: Verteilungsfunktion von Bin(55, 0.6)
Allgemein sind die Unstetigkeitsstellen der Verteilungsfunktion F einer reellwertigen Zufallsvariable X nach Satz 4.16 (4) gerade die Atome der Verteilung, d.h. die c ∈ R mit µX [{c}] > 0.
Nimmt X nur endlich viele Werte in einem Intervall I an, dann ist F auf I stückweise konstant,
und springt nur bei diesen Werten.
Stetige Verteilungen
Die Verteilung µ einer reellen Zufallsvariable X heißt stetig, bzw. absolutstetig, falls eine integrierbare Funktion f : R → [0, ∞) existiert mit
F (c) = P [X ≤ c] = µ[(−∞, c]] =
Zc
f (x) dx
für alle c ∈ R.
(4.4.1)
−∞
Das Integral ist dabei im Allgemeinen als Lebesgueintegral zu interpretieren. Ist die Funktion f
stetig, dann stimmt dieses mit dem Riemannintegral überein. Da µ eine Wahrscheinlichkeitsverteilung ist, folgt, dass f eine Wahrscheinlichkeitsdichte ist, d.h. f ≥ 0 und
Z
f (x) = 1.
R
Definition. Eine Lebesgue-integrierbare Funktion f : R → [0, ∞) mit (4.4.1) heißt Dichtefunktion der Zufallsvariable X bzw. der Verteilung µ.
Bemerkung. (1). Nach dem Hauptsatz der Differential- und Integralrechnung gilt
F ′ (x) = f (x)
Universität Bonn
(4.4.2)
Wintersemester 2009/2010
130
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
für alle x ∈ R, falls f stetig ist. Im Allgemeinen gilt (4.4.2) für λ-fast alle x, wobei λ das
Lebesguemaß auf R ist.
(2). Aus (4.4.1) folgt aufgrund der Eigenschaften des Lebesgueintegrals (s. Kapitel 6 unten):
Z
P [X ∈ B] = µX [B] = f (x) dx,
(4.4.3)
B
für alle Mengen B ∈ B(R). Zum Beweis zeigt man, dass beide Seiten von (4.4.3) Wahr-
scheinlichkeitsverteilungen definieren, und wendet den Eindeutigkeitssatz an.
Beispiele. (1). G LEICHVERTEILUNG AUF (a, b) (−∞ < a < b < ∞).


0 für c ≤ a



1
f (x) =
I(a,b) (x),
F (c) = c−a
für a ≤ c ≤ b
b−a

b−a


1 für c ≥ b
.
1
1
2
3
Abbildung 4.11: Dichte f (x) = 1[1,3] (x) einer uniform auf [1, 3] verteilten Zufallsvariable (blau),
und deren Verteilungsfunktion F (c) (rot)
Affine Funktionen von gleichverteilten Zufallsvariablen sind wieder gleichverteilt.
(2). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0.
f (x) = λe−λx I(0,∞) (x),
F (c) = µ[(−∞, c]] = (1 − e
−λc +
) =
Z
∞
f (x)dx.
c
Ist T eine exponentialverteilte Zufallsvariable zum Parameter λ, und a > 0, dann ist aT
exponentialverteilt zum Parameter λa , denn
λ
c
P [aT > c] = P [T > ] = e− a c
a
Einführung in die Wahrscheinlichkeitstheorie
für alle c ≥ 0.
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
131
1
1
2
3
4
5
Abbildung 4.12: Dichte f (x) = 1[0,∞) (x) · e−x einer zum Parameter 1 exponentialverteilten
Zufallsvariable (blau) und deren Verteilungsfunktion F (c) (rot)
(3). N ORMALVERTEILUNGEN
√
R∞ −z2 /2
e
dz = 2π ist die „Gaußsche Glockenkurve“
Wegen
−∞
1
2
f (z) = √ e−z /2 ,
z ∈ R,
2π
eine Wahrscheinlichkeitsdichte. Eine stetige Zufallsvariable Z mit Dichtefunktion f heißt
standardnormalverteilt. Die Verteilungsfunktion
Zc
z2
1
√ e− 2 dz
Φ(c) =
2π
−∞
der Standardnormalverteilung ist i.A. nicht explizit berechenbar. Ist Z standardnormalverteilt, und
X(ω) = σZ(ω) + m
mit σ > 0, m ∈ R, dann ist X eine Zufallsvariable mit Verteilungsfunktion
c−m
c−m
=Φ
.
FX (c) = P [X ≤ c] = P Z ≤
σ
σ
Mithilfe der Substitution z =
x−m
σ
erhalten wir:
c−m
FX (c) =
Zσ
−∞
z2
1
√ e− 2 dz =
2π
Zc
−∞
√
1
2πσ 2
e− 2 (
1
x−m 2
σ
) dx
Definition. Die Wahrscheinlichkeitsverteilung N (m, σ 2 ) auf R mit Dichtefunktion
fm,σ (x) = √
1
2πσ 2
· e− 2 (
1
x−m 2
σ
)
heißt Normalverteilung mit Mittel m und Varianz σ 2 . Die Verteilung N (0, 1) heißt Standardnormalverteilung.
Universität Bonn
Wintersemester 2009/2010
132
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir werden im nächsten Abschnitt sehen, dass die Binomialverteilung (also die Verteilung
der Anzahl der Erfolge bei unabhängigen 0-1-Experimenten mit Erfolgswahrscheinlichkeit
p) für große n näherungsweise durch eine Normalverteilung beschrieben werden kann.
Entsprechendes gilt viel allgemeiner für die Verteilungen von Summen vieler kleiner unabhängiger Zufallsvariablen (Zentraler Grenzwertsatz, s.u.).
1
Abfall um Faktor e− 2
e−2
9
e− 2
m − 3σ
m − 2σ
m−σ
m
m+σ
m + 2σ
m + 3σ
Abbildung 4.13: Dichte einer normalverteilten Zufallsvariable mit Mittelwert m und Varianz σ 2 .
m − 3σ
m − 2σ
m−σ
m
m+σ
m + 2σ
m + 3σ
Abbildung 4.14: Verteilungsfunktion einer normalverteilten Zufallsvariable mit Mittelwert m und
Varianz σ 2 .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
133
Die Dichte der Normalverteilung ist an der Stelle m maximal, und klingt außerhalb einer
σ-Umgebung von m rasch ab. Beispielsweise gilt
fm,σ (m ± σ) =
fm,σ (m)
√
e
fm,σ (m)
e2
fm,σ (m)
fm,σ (m ± 3σ) =
e9/2
Für die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable Werte außerhalb der
fm,σ (m ± 2σ) =
σ-, 2σ- und 3σ-Umgebungen annimmt, erhält man:
X − m
>k
P [|X − m| > kσ] = P σ = P [|Z| > k] = 2P [Z > k] = 2(1 − Φ(k))


31.7% für k = 1



=
4.6%
für k = 2



0.26% für k = 3
Eine Abweichung der Größe σ vom Mittelwert m ist also für eine normalverteilte Zufallsvariable relativ typisch, eine Abweichung der Größe 3σ dagegen schon sehr selten.
Die folgenden expliziten Abschätzungen für die Wahrscheinlichkeiten großer Werte sind oft nützlich:
Lemma 4.17. Für eine standardnormalverteilte Zufallsvariable Z gilt:
1
1
1
2
2
−1/2
− 3 · e−y /2 ≤ P [Z ≥ y] ≤ (2π)−1/2 · · e−y /2
(2π)
·
y y
y
Beweis. Es gilt:
P [Z ≥ y] = (2π)
−1/2
Z∞
e−z
2 /2
∀y > 0
dz
y
Um das Integral abzuschätzen, versuchen wir approximative Stammfunktionen zu finden. Zunächst gilt:
d
dz
Universität Bonn
1 −z2 /2
1
2
2
− e
= 1 + 2 · e−z /2 ≥ e−z /2
z
z
∀z ≥ 0,
Wintersemester 2009/2010
134
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
also
1 −z2 /2
e
=
y
Z∞ y
Z∞
1 −z2 /2
2
dz ≥ e−z /2 dz,
e
y
y
woraus die obere Schranke für P [Z ≥ y] folgt.
Für die untere Schranke approximieren wir die Stammfunktion noch etwas genauer. Es gilt:
1
1
1
3
1
d
2
2
−z 2 /2
= 1 + 2 − 2 − 4 e−z /2 ≤ e−z /2 ,
− + 3 e
dz
z z
z
z
z
und damit
1
1
− 3
y y
e
−y 2 /2
≤
Z∞
e−z
2 /2
dz.
y
Für eine N (m, σ 2 )-verteilte Zufallsvariable X mit σ > 0 ist Z =
X−m
σ
standardnormalverteilt.
Also erhalten wir für y ≥ m:
(y−m)2
X −m
y−m
1
P [X ≥ y] = P
≥
≤
· (2πσ)−1/2 · e− 2σ2 ,
σ
σ
y−m
sowie eine entsprechende Abschätzung nach unten.
Transformation von absolutstetigen Zufallsvariablen
Wir haben in Beispielen bereits mehrfach die Verteilung von Funktionen von absolutstetigen
Zufallsvariablen berechnet. Sei nun allgemein I ⊆ R ein offenes Intervall, und X : Ω → I eine
Zufallsvariable mit stetiger Verteilung.
Satz 4.18 (Eindimensionaler Dichtetransformationssatz). Ist Φ : I → J einmal stetig diffe-
renzierbar mit Φ′ (x) 6= 0 für alle x ∈ I, dann ist die Verteilung von Φ(X) absolutstetig mit
Dichte
fΦ(X) (y)
=

fX (Φ−1 (y)) · |(Φ−1 )′ (y)|
0
für y ∈ Φ(I)
.
(4.4.4)
sonst
Beweis. Nach der Voraussetzung gilt entweder Φ′ > 0 auf I oder Φ′ < 0 auf I. Wir betrachten
nur den ersten Fall. Aus Φ′ > 0 folgt, dass Φ streng monoton wachsend ist, also eine Bijektion
von I nach Φ(I). Daher erhalten wir
FΦ(X) (c)
=
P [Φ(X) ≤ c]
=
Einführung in die Wahrscheinlichkeitstheorie
P [X ≤ Φ−1 (I)]
=
FX (Φ−1 (c))
Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R
135
für alle c ∈ Φ(I). Nach der Kettenregel ist dann FΦ(X) für fast alle c ∈ Φ(I) differenzierbar, und
es gilt
′
FΦ(X)
(c)
=
fX (Φ−1 (c)) · (Φ−1 )′ (c).
Die Behauptung folgt hieraus nach dem Hauptsatz der Differential- und Integralrechnung, da
P [Φ(x) 6∈ Φ(I)] = 0.
Beispiel (Geometrische Wahrscheinlichkeiten). Sei θ : Ω → [0, 2π) ein zufälliger, auf [0, 2π)
gleichverteilter, Winkel. Wir wollen die Verteilung von cos θ berechnen. Da die Kosinusfunktion
auf [0, 2π) nicht streng monoton ist, ist (4.4.4) nicht direkt anwendbar. Wir können aber das
Intervall [0, 2π) in die Teile [0, π) und [π, 2π) zerlegen, und dann die Verteilung ähnlich wie im
Beweis von Satz 4.18 berechnen. Wegen
P [cos θ > c] = P [cos θ > c
und
θ ∈ [0, π)] + P [cos θ > c
und
θ ∈ [π, 2π)]
= P [θ ∈ [0, arccos c)] + P [θ ∈ [π − arccos c, π)]
2
=
· arccos c
2π
erhalten wir, dass cos θ eine sogenannte „Halbkreisverteilung“ mit Dichte
fcos θ (x)
=
′
Fcos
θ (x)
1
1
;
·√
π
1 − x2
=
x ∈ [−1, 1)
hat.
1
−1
1
Abbildung 4.15: Abbildung der Dichtefunktion fcos θ
Universität Bonn
Wintersemester 2009/2010
136
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Anstelle von (4.4.4) gilt in diesem Fall
fcos θ (x)
=
fX (ψ1 (x)) · |ψ1′ (x)| + fX (ψ2 (x)) · |ψ2′ (x)|,
wobei ψ1 (x) = arccos x und ψ2 (x) = 2π − arccos x die Umkehrfunktionen auf den Teilinter-
vallen sind. Entsprechende Formeln erhält man auch allgemein, wenn die Transformation nur
stückweise bijektiv ist. Auf ähnliche Weise zeigt man für a > 0 (Übung):
fa tan θ (x)
=
1
1
·
,
πa 1 + (x/a)2
x ∈ R.
0.4
0.2
−2
−1
1
2
Abbildung 4.16: Abbildung der Dichtefunktion fa tan θ
Die Verteilung mit dieser Dichte heißt Cauchyverteilung zum Parameter a. Sie beschreibt unter
anderem die Intensitätsverteilung auf einer Geraden, die von einer in alle Richtungen gleichmäßig
strahlenden Lichtquelle im Abstand a bestrahlt wird.
⊗
θ
a
a · tan θ
4.5
Quantile und Inversionsverfahren
Quantile sind Stellen, an denen die Verteilungsfunktion einen bestimmten Wert überschreitet.
Mithilfe von Quantilen kann man daher verallgemeinerte Umkehrfunktionen der im Allgemeinen
nicht bijektiven Verteilungsfunktion definieren. Diese Umkehrabbildungen werden wir nutzen,
um reellwertige Zufallsvariablen mit einer gegebenen Verteilungsfunktion explizit zu konstruieren.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
137
Quantile
In praktischen Anwendungen (z.B. Qualitätskontrolle) müssen häufig Werte berechnet werden,
sodass ein vorgegebener Anteil der Gesamtmasse einer Wahrscheinlichkeitsverteilung auf R unterhalb dieses Wertes liegt. Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilungsfunktion F .
Definition. Sei u ∈ [0, 1]. Dann heißt q ∈ R ein u-Quantil der Verteilung von X, falls
P [X < q] ≤ u
P [X > q] ≤ 1 − u
und
gilt. Ein 21 -Quantil heißt Median.
Ist die Verteilungsfunktion nicht streng monoton wachsend, dann kann es mehrere u-Quantile zu
einem Wert u geben.
Beispiel (Stichprobenquantile). Wir betrachten eine Stichprobe, die aus n reellwertigen Daten
/ Messwerten x1 , . . . , xn mit x1 ≤ x2 ≤ . . . ≤ xn besteht. Die empirische Verteilung der
Stichprobe ist die Wahrscheinlichkeitsverteilung
n
1X
µ=
δx
n i=1 i
auf (R, P(R)), d.h. für B ⊆ R ist
µ[B] =
1
|{xi ∈ B, 1 ≤ i ≤ n}|
n
die relative Häufigkeit des Bereichs B unter den Messwerten xi . Die empirische Verteilung ergibt
sich, wenn wir zufällig ein i ∈ {1, . . . , n} wählen, und den entsprechenden Messwert betrachten.
Die Quantile der empirischen Verteilung bezeichnet man als Stichprobenquantile. Für u ∈ [0, 1]
sei
ku := 1 + (n − 1)u ∈ [1, n].
Ist ku ganzzahlig, dann ist xku das eindeutige u-Quantil der Stichprobe. Allgemein ist jedes q ∈
[x⌊ku ⌋ , x⌈ku ⌉ ] ein u-Quantil der Stichprobe, d.h. für ku 6∈ Z gibt es mehrere u-Quantile.
Wir definieren nun zwei verallgemeinerte Inverse einer Verteilungsfunktion F , die ja im Allgemeinen nicht bijektiv ist. Für u ∈ (0, 1) sei
G(u) := inf{x ∈ R|F (x) ≥ u} = sup{x ∈ R|F (x) < u}
Universität Bonn
Wintersemester 2009/2010
138
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
und
G(u) := inf{x ∈ R|F (x) > u} = sup{x ∈ R|F (x) ≤ u}.
Offensichtlich gilt G(u) ≤ G(u). Ist die Funktion F stetig und streng monoton wachsend, also
eine Bijektion von R nach (0, 1), dann gilt G(u) = G(u) = F −1 (u). Die Funktion G heißt daher
auch die linksstetige verallgemeinerte Inverse von F . Der folgende Satz zeigt, dass G(u) das
kleinste und G(u) das größte u-Quantil ist:
Satz 4.19. Für u ∈ (0, 1) und q ∈ R sind die folgenden Aussagen äquivalent:
(1). q ist ein u-Quantil.
(2). F (q−) ≤ u ≤ F (q).
(3). G(u) ≤ q ≤ G(u).
Hierbei ist F (q−) := lim F (y) der linksseitige Limes von F an der Stelle q.
yրq
Beweis. Nach Definition ist q genau dann ein u-Quantil, wenn
P [X < q] ≤ u ≤ 1 − P [X > q] = P [X ≤ q]
gilt. Hieraus folgt die Äquivalenz von (1) und (2).
Um zu beweisen, dass (3) äquivalent zu diesen Bedingungen ist, müssen wir zeigen, dass G(u)
das kleinste und G(u) das größte u-Quantil ist. Wir bemerken zunächst, dass G(u) ein u-Quantil
ist, da
F (x) ≤ u,
| {z }
F (G(u)−) = lim
xրG(u)
<u
für x<G(u)
und
F (G(u)) = lim
xցG(u)
F (x) ≥ u.
| {z }
≥u
für x>G(u)
Andererseits gilt für x < G(u):
F (x) < u,
d.h. x ist kein u-Quantil. Somit ist G(u) das kleinste u-Quantil. Auf ähnliche Weise folgt, dass
G(u) das größte u-Quantil ist (Übung!).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
139
Konstruktion und Simulation reellwertiger Zufallsvariablen
Wie erzeugt man ausgehend von auf (0, 1) gleichverteilten Zufallszahlen Stichproben von anderen Verteilungen µ auf R1 ?
Gilt µ(S) = 1 für eine endliche Teilmenge S ⊆ R, dann können wir die Frage
Endlicher Fall:
leicht beantworten: Sei S = {x1 , . . . , xn } ⊆ R mit n ∈ N und x1 < x2 < . . . < xn . Die
Verteilungsfunktion einer Wahrscheinlichkeitsverteilung µ auf S ist
F (c) = µ[(−∞, c]] =
X
i:xi ≤c
µ({xi }).
Ist U eine auf (0, 1) gleichverteilte Zufallsvariable, dann wird durch
falls F (xk−1 ) < U (ω) ≤ F (xk ),
X(ω) = xk
x0 := −∞
eine Zufallsvariable mit Verteilung µ definiert, denn
P [X = xk ] = F (xk ) − F (xk−1 ) = µ[{xk }].
F (x)
u
µ(x1 )
Generiere u ∼ Unif{[0, 1]}
1
x1 x2 x3
x4
x5
x6
x7
Abbildung 4.17: Wir generieren eine uniform auf (0, 1) verteilte Pseudozufallszahl u. Suche nun
k
P
µ(xi ) > u. Dann ist x = xk eine Pseudozufallsstichprobe von
das minimale k ∈ N, für das
der Verteilung µ.
Universität Bonn
i=1
Wintersemester 2009/2010
140
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Allgemeiner Fall:
Wir wollen das Vorgehen nun verallgemeinern. Sei F : R → [0, 1] eine
Funktion mit den Eigenschaften
(1). monoton wachsend:
(2). rechtsstetig:
(3). normiert:
F (x) ≤ F (y)
lim F (x) = F (c)
x↓c
lim F (x) = 0
xց−∞
,
∀x≤y
∀c∈R
lim F (x) = 1.
xր+∞
Das folgende Resultat liefert eine explizite Konstruktion einer Zufallsvariable mit Verteilungsfunktion F :
Satz 4.20. Ist F : R → [0, 1] eine Funktion mit (1)-(3), und
G(u) = inf{x ∈ R|F (x) ≥ c},
u ∈ (0, 1),
die linksstetige verallgemeinerte Inverse, dann ist das Bild
µ := U(0,1) ◦ G−1
der Gleichverteilung auf (0, 1) unter G eine Wahrscheinlichkeitsverteilung auf R mit Verteilungsfunktion F .
Insbesondere gilt: Ist U : Ω → (0, 1) eine unter P gleichverteilte Zufallsvariable, dann hat die
Zufallsvariable
X(ω) := G(U (ω))
unter P die Verteilungsfunktion F .
Beweis. Da G(u) ein u-Quantil ist, gilt F (G(u)) ≥ u, also
G(u) = min{x ∈ R|F (x) ≥ u},
und somit für c ∈ R :
G(u) ≤ c ⇐⇒ F (x) ≥ u für ein x ≤ c ⇐⇒ F (c) ≥ u.
Es folgt:
P [G(U ) ≤ c] = U(0,1) [{u ∈ (0, 1)| G(u) ≤ c }]
| {z }
⇐⇒ F (c)≥u
= U(0,1) [(0, F (c))] = F (c).
Also ist F die Verteilungsfunktion von G(U ) bzw. von µ.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN
141
Bemerkung. (1). Ist F eine Bijektion von R nach (0, 1) (also stetig und streng monoton wachsend), dann ist G = F −1 .
(2). Nimmt X nur endlich viele Werte x1 < x2 < . . . < xn an, dann ist F stückweise konstant,
und es gilt:
G(u) = xk für F (xk−1 ) < u ≤ F (xk ),
x0 := −∞,
d.h. G ist genau die oben im endlichen Fall verwendete Transformation.
Das Resultat liefert einen
Existenzsatz: Zu jeder Funktion F mit (1)-(3) existiert eine reelle Zufallsvariable X bzw. eine
Wahrscheinlichkeitsverteilung µ auf R mit Verteilungsfunktion F .
Zudem erhalten wir einen expliziten Algorithmus zur Simulation einer Stichprobe von µ:
Algorithmus 4.21 (Inversionsverfahren zur Simulation einer Stichprobe x von µ).
(1). Erzeuge (Pseudo)-Zufallszahl u ∈ (0, 1).
(2). Setze x := G(u).
Dieser Algorithmus funktioniert theoretisch immer. Er ist aber oft nicht praktikabel, da man G
nicht immer berechnen kann, oder da das Anwenden der Transformation G (zunächst unwesentliche) Schwachstellen des verwendeten Zufallsgenerators verstärkt. Man greift daher oft selbst
im eindimensionalen Fall auf andere Simulationsverfahren wie z.B. „Acceptance Rejection“ Methoden zurück.
Beispiel. (1). B ERNOULLI (p)-V ERTEILUNG AUF {0, 1}. Hier gilt:
F = (1 − p) · I[ 0, 1) + 1 · I[1,∞)
und G = 1(1−p,1) , siehe Abbildung 4.18.
Also ist die Zufallsvariable G(U ) = I{U <1−p} für U ∼ U(0,1) Bernoulli(p)-verteilt.
(2). G LEICHVERTEILUNG AUF (a, b):
F (c) =
c−a
b−a
für c ∈ [a, b],
G(u) = a + (b − a)u,
siehe Abbildung 4.19. Also ist a + (b − a)U für U ∼ U(0,1) gleichverteilt auf (a, b).
Universität Bonn
Wintersemester 2009/2010
142
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
F
1
G = I(1−p,1)
1
1−p
1
1
Abbildung 4.18: G(U ) = I{U >1−p} ist Bernoulli(p)-verteilt.
G = a + (b − a)u
b
F
a
1
a
b
0
1
Abbildung 4.19: G(u) = a + (b − a)u ist (für u ∼ unif{(0, 1)}) uniform auf (a, b) verteilt.
(3). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0:
F (x) = 1 − e−λx ,
1
G(u) = F −1 (u) = − log(1 − u).
λ
Anwenden des Logarithmus transformiert also die gleichverteilte Zufallsvariable 1 − u in
eine exponentialverteilte Zufallsvariable.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
143
4.6 Normalapproximation der Binomialverteilung
Die Binomialverteilung mit Parametern n und p beschreibt die Verteilung der Anzahl derjenigen
unter n unabhängigen Ereignissen mit Wahrscheinlichkeit p, die in einem Zufallsexperiment eintreten. Viele Anwendungsprobleme führen daher auf die Berechnung von Wahrscheinlichkeiten
bzgl. der Binomialverteilung. Für große n ist eine exakte Berechnung dieser Wahrscheinlichkeiten aber in der Regel nicht mehr möglich. Bei seltenen Ereignissen kann man die Poissonapproximation zur näherungsweisen Berechnung nutzen:
Konvergiert n → ∞, und konvergiert gleichzeitig der Erwartungswert n · pn gegen eine positive
reelle Zahl λ > 0, dann nähern sich die Gewichte bn,pn (k) der Binomialverteilung denen einer
Poissonverteilung mit Parameter λ an:
λk
n k
bn,pn (k) =
pn (1 − pn )n−k → e−λ
(k = 0, 1, 2, . . .),
k
k
siehe Satz 1.5. Geht die Wahrscheinlichkeit pn für n → ∞ nicht gegen 0, sondern hat zum Bei-
spiel einen festen Wert p ∈ (0, 1), dann kann die Poissonapproximation nicht verwendet werden.
Stattdessen scheinen sich die Gewichte der Binomialverteilung einer Gaußschen Glockenkurve
anzunähern, wie z.B. die folgende mit Mathematica erstellte Grafik zeigt:
Manipulate [
ListPlot [
Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , Min [ 1 , lambda / n ] ] , k ] } , {k , 0 ,
I n t e g e r P a r t [ 4 lambda ] } ] ,
F i l l i n g −> Axis , PlotRange −> A l l ,
P l o t M a r k e r s −> { Automatic , Medium } , Axes −> { True , F a l s e } ] , {{ n , 1 0 ,
"n" } , 3 , 300 ,1} ,
{{ lambda , 5 , " E r w a r t u n g s w e r t : np=Lambda " } , 2 , 2 0 } ]
Universität Bonn
Wintersemester 2009/2010
144
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir wollen diese Aussage nun mathematisch präzisieren und beweisen.
Der Satz von De Moivre - Laplace
Wir analysieren zunächst das asymptotische Verhalten von Binomialkoeffizienten mithilfe der
Stirlingschen Formel.
Definition. Zwei Folgen an , bn ∈ R+ , n ∈ N, heißen asymptotisch äquivalent (an ∼ bn ), falls
an
=1
n→∞ bn
lim
gilt.
Bemerkung.
(1). an ∼ bn
⇐⇒
∃εn → 0 : an = bn (1 + εn )
(2). an ∼ bn
⇐⇒
b n ∼ an
(3). an ∼ bn , cn ∼ dn
=⇒
1
an
⇐⇒
⇐⇒
log an − log bn → 0
1
bn
∼
an · c n ∼ b n · d n
Satz 4.22 (Stirlingsche Formel).
n! ∼
√
2πn ·
n n
e
Zum Beweis nimmt man den Logarithmus, und schätzt die sich ergebende Summe mithilfe eines
Integrals ab, siehe z.B. Forster: „Analysis I“.
Mithilfe der Stirlingschen Formel können wir die Gewichte
n k
bn,p (k) =
p (1 − p)n−k
k
der Binomialverteilung für große n und k approximieren. Sei dazu Sn eine Bin(n, p)-verteilte
Zufallsvariable auf (Ω, A, P ). Für den Erwartungswert und die Standardabweichung von Sn gilt:
E[Sn ] = np
und
σ(Sn ) =
p
V ar[Sn ] =
p
np(1 − p).
Dies deutet darauf hin, dass sich die Masse der Binomialverteilung für große n überwiegend in
√
einer Umgebung der Größenordnung O( n) um np konzentriert.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
np
145
√
O( n)
Abbildung 4.20: Die Gewichte der Binomialverteilung liegen für große n näherungsweise auf
p
einer Glockenkurve mit Mittel np und Standardabweichung np(1 − p).
Wir werden nun mithilfe der Stirlingschen Formel die Gewichte
n k
bn,p (k) = P [Sn = k] =
p (1 − p)n−k
k
√
der Binomialverteilung für große n und k in einer Umgebung der Größenordnung O( n) von
np ausgehend von der Stirlingschen Formel approximieren, und die vermutete asymptotische
Darstellung präzisieren und beweisen.
Dazu führen wir noch folgende Notation ein: Wir schreiben
an (k) ≈ bn (k)
falls
(„lokal gleichmäßig asymptotisch äquivalent“),
an (k)
− 1 → 0
sup k∈Un,r bn (k)
wobei
Un,r
=
für alle r ∈ R+ gilt,
{0 ≤ k ≤ n : |k − np| ≤ r ·
√
n}.
Die Aussagen aus der Bemerkung oben gelten analog für diese Art der lokal gleichmäßigen
asymptotischen Äquivalenz von an (k) und bn (k).
Satz 4.23 (de Moivre 1733, Laplace 1819). Sei p ∈ (0, 1) und σ 2 = p(1 − p). Dann gilt:
2 !
k − np
1
1
√
(1). P [Sn = k] = bn,p (k) ≈ √
exp − 2
=: ebn,p (k)
2σ
n
2πnσ 2
Sn − np
≤b
(2). P a ≤ √
n
Universität Bonn
nր∞
−→
Rb
a
x2
1
√
e− 2σ2 d x
2
}
| 2πσ{z
Gaußsche Glockenkurve
Wintersemester 2009/2010
146
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis.
(1). Wir beweisen die Aussage in zwei Schritten:
(a) Wir zeigen zunächst mithilfe der Stirlingschen Formel:
bn,p (k)
1
q
·
k
k
2πn n (1 − n )
≈
Es gilt
lim √
n→∞
Für k ∈ Un,r gilt
also folgt
p
≥
k
k
n
!k
np − A ·
k!
sup √
−
1
k
k∈Un,r 2πk k
k!
·
n!
n
2πn ne
√
≈
=
√
!n−k
=:
bn,p (k)
(4.6.1)
1.
n→∞
−→
n
−→
e
d.h.
1−p
1 − nk
∞,
für n → ∞,
0
k
k
2πk
.
e
Analog erhält man
(n − k)!
≈
p
2π(n − k)
n−k
e
n−k
,
und damit
n!
pk (1 − p)n−k
k! · (n − k)!
√
2πn · nn · pk · (1 − p)n−k
p
≈
2π k(n − k) · k k · (n − k)n−k
r
np k n(1 − p) n−k
n
=
2πk(n − k) k
n−k
bn,p (k) =
= bn,p (k).
(b) Wir zeigen nun mithilfe einer Taylorapproximation:
Für k ∈ Un,r gilt
bn,p (k)
≈
k
− p
n
ebn,p (k)
≤
r · n− 2 ,
Einführung in die Wahrscheinlichkeitstheorie
(4.6.2)
1
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
woraus folgt:
s
k
k
2π · n · · 1 −
n
n
p
2π · n · p · (1 − p)
≈
147
√
=
2π · n · σ 2 . (4.6.3)
Um die Asymptotik der übrigen Faktoren von bn,p (k) zu erhalten, verwenden wir eine
Taylorapproximation für den Logarithmus:
Wegen
x log
x
p
x−p+
=
1
(x − p)2 + O(|x − p|3 )
2p
gilt:

p
log 
k
n




= (−n) 



=
!k
!n−k 
1−p

1 − nk
k
n
k
log
n
p
| {z }
+
|
1−
k
n
log
{z
1 − nk
1−p
! 





} 
1
k 2
k
k
+ 2(1−p)
(p− n
) +O(| n
−p|3 )
=p− n
Taylor k
1 k
k
( n −p)2 +O(| n
−p|3 )
= n −p+ 2p
k
1
k
1 k
( − p)2 +
(p − )2 +O(| − p|3 )
2p n
2(1 − p)
n
n
{z
}
|
(p − nk )2 1
1
=
+
2
p 1−p
{z
}
|
=
=
!

1
p(1−p)
1
k
k
(p − )2 + O(| − p|3 )
2p(1 − p)
n
n
Für k ∈ Un,r gilt:
Also folgt:

p
log 
k
n
!k
3
k
− p
n
1−p
1 − nk
1
!n−k 

≤
=
3
r 3 · n− 2 .
1
− 2
2σ
k
−p
n
2
+ Rk,n ,
wobei |Rk,n | ≤ const. · r3 n− 2 für alle k ∈ Un,r , d.h.
!k
!n−k
2 !
p
k
1−p
1
.
−p
≈ exp − 2
k
2σ
n
1 − nk
n
(4.6.4)
Aussage (4.6.2) folgt dann aus (4.6.3) und (4.6.4).
Universität Bonn
Wintersemester 2009/2010
148
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(c) Aus (a) und (b) folgt nun Behauptung (1).
(2). Aufgrund von (1) erhalten wir für a, b ∈ R mit a < b:
X
Sn − np
P a≤ √
≤b =
P [S = k]
| n{z }
n
k∈{0,1,...,n}
√
a≤ k−np
≤b
n
X
=
=bn,p (k)≈e
bn,p (k)
ebn,p (k)(1 + εn,p (k)),
k∈{0,1,...,n}
√
≤b
a≤ k−np
n
wobei
εn,p
:=
sup
√
≤b
a≤ k−np
n
|εn,p (k)|
−→
0
für n → ∞.
(4.6.5)
(4.6.6)
Wir zeigen nun
lim
n→∞
X
ebn,p (k)
=
k∈{0,1,...,n}
√
≤b
a≤ k−np
n
Zb
a
x2
√
· exp − 2
2σ
2πσ 2
1
dx
Aus (4.6.5) und (4.6.6) folgt dann die Behauptung, da
X
X
ebn,p (k) · εn,p (k) ≤ εn,p ·
ebn,p (k) n→∞ −→
|{z}
k∈{0,1,...,n}
→0 k∈{0,1,...,n}
k−np
a≤ √n ≤b
√
≤b
a≤ k−np
n
|
{z
}
→
0
Rb
a ...dx<∞
Zum Beweis von (4.6.6) sei
Γn :=
k − np √ k = 0, 1, . . . , n ⊆ R.
n
Dann ist Γn ein äquidistantes Gitter mit Maschenweite ∆ =
X
ebn,p (k)
k∈{0,1,...,n}
√
a≤ k−np
≤b
n
=
X
x∈Γn
a≤x≤b
√
1
2πσ 2
√1 ,
n
−
x2
2σ 2
und es gilt
∆x.
Für n → ∞ folgt (4.6.6), da die rechte Seite eine Riemannsummenapproximation des
Integrals ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
149
Der Satz von de Moivre/Laplace besagt, dass die Verteilungen der Zufallsvariablen
Sn√−np
n
für
n → ∞ schwach gegen die Normalverteilung N (0, σ 2 ) mit Varianz σ 2 = p(1−p) konvergieren.
Die allgemeine Definition der schwachen Konvergenz einer Folge von Wahrscheinlichkeitsvertei-
lungen wird in Abschnitt 8.3 unten gegeben. Ist Z eine standardnormalverteilte Zufallsvariable,
dann gilt:
Sn − np
√
n
D
−→
σZ,
bzw.
Sn − E[Sn ]
σ(Sn )
Sn − np
√
σ n
=
D
−→
Z,
(4.6.7)
D
wobei „→“ für schwache Konvergenz der Verteilungen der Zufallsvariablen steht (Konvergenz
in Verteilung, s.u.).
Bemerkung. (1). Die Aussage (4.6.7) ist ein Spezialfall eines viel allgemeineren zentralen
Grenzwertsatzes:
Sind X1 , X2 , . . . unabhängige, identisch verteilte Zufallsvariablen mit endlicher Varianz,
und ist Sn = X1 + . . . + Xn , dann konvergieren die Verteilungen der standardisierten
Summen
Sn − E[Sn ]
σ(Sn )
schwach gegen eine Standardnormalverteilung, s.u.
Die Normalverteilung tritt also als universeller Skalierungslimes von Summen unabhängiger Zufallsvariablen auf.
(2). Heuristisch gilt für große n nach (4.6.7)
„ Sn
D
≈
np +
D
p
np(1 − p) · Z,
“
(4.6.8)
wobei „≈“ dafür steht, dass sich die Verteilungen der Zufallsvariablen einander in einem
gewissen Sinn annähern. In diesem Sinne wäre für große n
„Bin(n, p)
D
≈
N (np, np(1 − p)).“
Entsprechende „Approximationen“ werden häufig in Anwendungen benutzt, sollten aber
hinterfragt werden, da beim Übergang von (4.6.7) zu (4.6.8) mit dem divergierende Fak√
tor n multipliziert wird. Die mathematische Präzisierung entsprechender heuristischer
Argumentationen erfolgt üblicherweise über den Satz von de Moivre/Laplace.
Universität Bonn
Wintersemester 2009/2010
150
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel (Faire Münzwürfe). Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit P [Xi = 0] =
P [Xi = 1] =
1
2
und sei Sn = X1 + . . . + Xn (z.B. Häufigkeit von „Zahl“ bei n fairen Münzwürp
fen). In diesem Fall ist also p = 21 und σ = p(1 − p) = 12 .
(1). 100 faire Münzwürfe:
P [S100 > 60]
Da
S100 −E[S100 ]
σ(S100 )
P [S100 − E[S100 ] > 10]
=
=
S100 − E[S100 ]
10
P
> √
σ(S100 )
σ 100
nach (4.6.7) näherungsweise N (0, 1)-verteilt ist, und
≈
P [S100 > 60]
P [Z > 2]
=
1 − Φ(2)
≈
√10
σ 100
0.0227
= 2, folgt
=
2.27%.
(2). 16 faire Münzwürfe:
Mit
0.5
√
σ 16
=
P [S16 = 8] = P [7.5 ≤ S16 ≤ 8.5] = P [|S16 − E[S16 ]| ≤ 0.5]
S16 − E[S16 ] 0.5
≤ √
= P σ(S16 ) σ 16
1
4
folgt:
P [S16 = 8]
≈
P [|Z| ≤ 1.4]
=
0.1974...
Der exakte Wert beträgt P [S16 = 8] = 0.1964.... Bei geschickter Anwendung ist die Normalapproximation oft schon für eine kleine Anzahl von Summanden relativ genau!
Approximative Konfidenzintervalle
Angenommen, wir wollen den Anteil p der Wähler einer Partei durch Befragung von n Wählern
schätzen. Seien X1 , . . . , Xn unter Pp unabhängige und Bernoulli(p)-verteilte Zufallsvariablen,
wobei Xi = 1 dafür steht, dass der i-te Wähler für die Partei A stimmen wird. Ein nahe liegender Schätzwert für p ist Xn :=
Sn
.
n
Wie viele Stichproben braucht man, damit der tatsächliche
Stimmenanteil mit 95% Wahrscheinlichkeit um höchstens ε = 1% von Schätzwert abweicht?
Definition. Sei α ∈ (0, 1). Das zufällige Intervall [Xn − ε, Xn + ε] heißt Konfidenzintervall zum
Konfidenzniveau 1 − α (bzw. zum Irrtumsniveau α) für den unbekannten Parameter p, falls
Pp [p 6∈ [Xn − ε, Xn + ε]]
≤
α
für alle möglichen Parameterwerte p ∈ [0, 1] gilt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG
151
Im Prinzip lassen sich Konfidenzintervalle aus den Quantilen der zugrundeliegenden Verteilung
gewinnen. In der Situation von oben gilt beispielsweise:
p ∈ [Xn − ε, Xn + ε]
⇐⇒
|Xn − p| ≤ ε ⇐⇒ Xn ∈ [p − ε, p + ε]
⇐⇒
Sn ∈ [n(p − ε), n(p + ε)]
Diese Bedingung ist für p ∈ [0, 1] mit Wahrscheinlichkeit ≥ 1 − α erfüllt, falls z.B. n(p − ε)
oberhalb des α2 -Quantils und n(p + ε) unterhalb des (1 − α2 )-Quantils der Binomialverteilung
Bin(n, p) liegt.
Praktikablere Methoden, um in unserem Modell Konfidenzintervalle zu bestimmen, sind zum
Beispiel:
Abschätzung mithilfe der Čebyšev-Ungleichung:
Sn
p(1 − p)
Sn
1
=
·V ar
Pp − p ≥ ε
≤
2
n
ε
n
nε2
Dies ist erfüllt für n ≥
1
,
4ε2 α
1
2ε2
1
4nε2
!
≤
α
∀ p ∈ [0, 1]
also im Beispiel für n ≥ 50.000.
Abschätzung über die exponentielle Ungleichung:
Sn
2
≤ 2 · e−2ε n
Pp − p ≥ ε
n
ist erfüllt für n ≥
≤
≤
α
∀ p ∈ [0, 1],
log( α2 ), also im Beispiel für n ≥ 18445.
Die exponentielle Abschätzung ist genauer - sie zeigt, dass bereits weniger als 20.000 Stichproben genügen. Können wir mit noch weniger Stichproben auskommen ? Dazu berechnen wir die
Wahrscheinlichkeit, dass der Parameter im Intervall liegt, näherungsweise mithilfe des zentralen
Grenzwertsatzes:
Approximative Berechnung mithilfe der Normalapproximation:
"
#
S − np Sn
nε
n
=
Pp p
Pp − p ≤ ε
≤ p
np(1 − p) n
np(1 − p)
!
√
√
nε
nε
, p
≈
N (0, 1) − p
p(1 − p)
p(1 − p)
!
!
√
1
nε
=
2 Φ p
−
2
p(1 − p)
p(1−p)≤ 41
≥
Universität Bonn
√
2Φ(2 nε) − 1
≥
1−α
∀ p ∈ [0, 1],
Wintersemester 2009/2010
152
KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
falls
n
Im Beispiel gilt
≥
2
1
α
−1
·Φ
1−
.
2ε
2
α
Φ−1 1 −
≈ 1.96
2
und die Bedingung ist für n ≥ 9604 erfüllt. Also sollten bereits ca. 10.000 Stichproben ausrei-
chen! Exakte (also ohne Verwendung einer Näherung hergeleitete) Konfidenzintervalle sind in
vielen Fällen zu konservativ. In Anwendungen werden daher meistens approximative Konfidenzintervalle angegeben, die mithilfe einer Normalapproximation hergeleitet wurden. Dabei ist aber
folgendes zu beachten:
Warnung: Mithilfe der Normalapproximation hergeleitete approximative Konfidenzintervalle
erfüllen die Niveaubedingung im Allgemeinen nicht (bzw. nur näherungsweise). Da die Qualität
der Normalapproximation für p → 0 bzw. p → 1 degeneriert, ist die Niveaubedingung im All-
gemeinen selbst für n → ∞ nicht erfüllt. Beispielsweise beträgt das Niveau von approximativen
99% Konfidenzintervallen asymptotisch tatsächlich nur 96.8%!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 5
Unabhängigkeit und Produktmodelle
5.1 Unabhängigkeit in allgemeinen Modellen
Unabhängigkeit von Ereignissen
In Abschnitt 2.3 haben wir einen Unabhängigkeitsbegriff für Ereignisse eingeführt: Eine Kollektion Ai , i ∈ I, von Ereignissen aus derselben σ-Algebra A heißt unabhängig bzgl. einer
Wahrscheinlichkeitsverteilung P , falls
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ]
=
n
Y
P [Aik ]
(5.1.1)
k=1
für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt.
Beispiel. Ein Ereignis A ist genau dann unabhängig von sich selbst, wenn P [A] = P [A ∩ A] =
P [A]2 gilt, also wenn die Wahrscheinlichkeit von A gleich 0 oder 1 ist. Solche Ereignisse nennt
man auch deterministisch.
Wir wollen den obigen Unabhängigkeitsbegriff nun auf Ereignissysteme erweitern.
Definition. Eine Kollektion Ai (i ∈ I) von Mengensystemen Ai ⊆ A heißt unabhängig (bzgl.
P ), falls jede Kollektion Ai (i ∈ I) von Ereignissen Ai ∈ Ai unabhängig ist, d.h.
P [Ai1 ∩ . . . ∩ Ain ]
=
n
Y
P [Aik ]
k=1
für alle n ∈ N, i1 , . . . , in ∈ I paarweise verschieden, und Aik ∈ Aik (1 ≤ k ≤ n).
Sind zum Beispiel A und B unabhängige Ereignisse, dann sind σ(A) = {∅, A, AC , Ω} und
σ(B) = {∅, B, B C , Ω} unabhängige Mengensysteme. Allgemeiner:
153
154
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Satz 5.1. Seien Ai (i ∈ I) unabhängige Mengensysteme. Jedes Ai sei durchschnittsstabil. Dann
gilt:
(1). Die σ-Algebren σ(Ai ) (i ∈ I) sind unabhängige Mengensysteme.
(2). Ist I =
S
Ik eine disjunkte Zerlegung von I, dann sind auch die σ-Algebren σ(
S
i∈Ik
k∈K
(k ∈ K) unabhängige Mengensysteme.
Ai )
Beispiel. Sind A1 , . . . , An unabhängige Ereignisse, dann sind die Mengensysteme
A1
{A1 },
=
, An
...
=
{An }
unabhängig und durchschnittsstabil, also sind auch die σ-Algebren
σ(Ai )
=
{∅, Ai , AC
i , Ω}
(i = 1, . . . , n)
unabhängige Mengensysteme, d.h es gilt
P [B1 ∩ . . . ∩ Bn ]
n
Y
=
P [Bi ]
i=1
∀Bi ∈ {∅, Ai , AC
i , Ω}.
Dies kann man auch direkt beweisen, siehe Lemma 2.5 oben.
Ein Beispiel zum zweiten Teil der Aussage von Satz 5.1 werden wir im Anschluss an den Beweis
des Satzes betrachten.
Beweis.
(1). Seien i1 , . . . , in ∈ I (n ∈ N) paarweise verschieden. Wir müssen zeigen, dass
P [Bi1 ∩ . . . ∩ Bin ]
=
P [Bi1 ] · . . . · P [Bin ]
(5.1.2)
für alle Bi1 ∈ σ(Ai1 ), . . . , Bin ∈ σ(Ain ) gilt. Dazu verfahren wir schrittweise:
(a) Die Aussage (5.1.2) gilt nach Voraussetzung für Bi1 ∈ Ai1 , . . . , Bin ∈ Ain .
(b) Für Bi2 ∈ Ai2 , . . . , Bin ∈ Ain betrachten wir das Mengensystem D aller Bi1 ∈
A, für die (5.1.2) gilt. D ist ein Dynkinsystem, das Ai1 nach (a) enthält. Da Ai1
durchschnittsstabil ist, folgt
D
⊇
D(Ai1 )
=
σ(Ai1 ).
Also gilt (5.1.2) für alle Bi1 ∈ σ(Ai1 ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
155
(c) Für Bi1 ∈ σ(Ai1 ) und Bi3 ∈ σ(Ai3 ), . . . , Bin ∈ σ(Ain ) betrachten wir nun das
Mengensystem aller Bi2 ∈ A, für die (5.1.2) gilt. Wiederum ist D ein Dynkinsystem,
das Ai2 nach (b) enthält. Wie im letzten Schritt folgt daher
D
⊇
D(Ai2 )
=
σ(Ai2 ),
d.h. (5.1.2) ist für alle Bi2 ∈ σ(Ai2 ) erfüllt.
Anschließend verfahren wir auf entsprechende Weise weiter. Nach n-facher Anwendung eines analogen Arguments folgt die Behauptung.
(2). Für k ∈ K gilt: σ(
Ck
:=
S
i∈Ik
Ai ) = σ(Ck ) mit
{Bi1 ∩ . . . ∩ Bin |n ∈ N, i1 , . . . , in ∈ Ik paarw. verschieden , Bij ∈ Aij }.
Die Mengensysteme Ck , k ∈ K, sind durchschnittsstabil und unabhängig, da jede Kollek-
tion von Ereignissen Bi ∈ Ai , i ∈ I, nach Voraussetzung unabhängig ist. Also sind nach
Teil (1) der Aussage auch die σ-Algebren σ(Ck ), k ∈ K, unabhängig.
Beispiel (Affe tippt Shakespeare). Wir betrachten unabhängige 0-1-Experimente mit Erfolgswahrscheinlichkeit p. Sei Xi (ω) ∈ {0, 1} der Ausgang des i-ten Experiments. Für ein binäres
Wort (a1 , . . . , an ) ∈ {0, 1}n , n ∈ N, gilt:
P [X1 = a1 , . . . , Xn = an ]
=
P
"
n
\
#
{Xi = ai }
i=1
unabh.
pk · (1 − p)n−k ,
=
wobei k = a1 + . . . + an die Anzahl der Einsen in dem Wort ist. Wir zeigen nun:
Behauptung: P [Wort kommt unendlich oft in der Folge X1 , X2 , . . . vor] = 1, falls p 6∈ {0, 1}.
Zum Beweis bemerken wir, dass die Ereignisse
Em = {Xmn+1 = a1 , Xmn+2 = a2 , . . . , Xmn+n = an },
m ∈ N,
„Text steht im m-ten Block“
unabhängig sind. Nach Satz 5.1 sind nämlich die σ-Algebren
σ({{Xmn+1 = 1}, {Xmn+2 = 1}, . . . , {Xmn+n = 1}}),
m ∈ N,
unabhängig, also auch die darin enthaltenen Ereignisse Em . Für p 6= 0 gilt:
P [Em ] = pk · (1 − p)n−k > 0,
Universität Bonn
Wintersemester 2009/2010
156
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
also
∞
X
P [Em ]
∞.
=
m=1
Damit folgt nach Borel-Cantelli:
1
=
≤
P [Em unendlich oft]
P [Wort kommt unendlich oft vor].
Unabhängigkeit von Zufallsvariablen
Wir betrachten nun Zufallsvariablen mit Werten in einem messbaren Raum (S, S).
Definition. Seien X, Xi : Ω → S, i ∈ I, Abbildungen.
(1). Das Mengensystem
σ(X)
:=
{X −1 (B)|B ∈ S}
⊆
P(Ω)
heißt die von X erzeugte σ-Algebra auf Ω.
(2). Allgemeiner heißt
σ(Xi |i ∈ I)
:=
σ
[
σ(Xi )
i∈I
!
=
σ({Xi−1 (B)|B ∈ S, i ∈ I})
die von den Abbildungen Xi , i ∈ I, erzeugte σ-Algebra.
Bemerkung. (1). Man prüft leicht nach, dass σ(X) tatsächlich eine σ-Algebra ist.
(2). Eine Abbildung X : Ω → S ist messbar bzgl. A/S genau dann, wenn σ(X) ⊆ A gilt.
Somit ist σ(X) die kleinste σ-Algebra auf Ω, bzgl. der X messbar ist.
(3). Entsprechend ist σ(Xi , i ∈ I) die kleinste σ-Algebra auf Ω, bzgl. der alle Abbildungen Xi
messbar sind.
Beispiel (Produkt-σ-Algebra). Sei Ω = {0, 1}N = {ω = (x1 , x2 , . . .)|xi ∈ {0, 1}}, oder ein
allgemeiner Produktraum, und sei Xi (ω) = xi die Projektion auf die i-te Komponente. Dann ist
die Produkt-σ-Algebra A auf Ω gerade die von den Abbildungen Xi erzeugte σ-Algebra:
A = σ({X1 = a1 , . . . , Xn = an }|n ∈ N, a1 , . . . , an ∈ {0, 1})
= σ({Xi = 1}|i ∈ N)
= σ(X1 , X2 , . . .).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
157
Messbare Abbildungen auf (Ω, A) sind z.B.
Sn (ω)
L(ω)
=
=
X1 (ω) + . . . + Xn (ω),
1
lim sup Sn (ω),
n→∞ n
L(ω)
=
lim inf
n→∞
1
Sn (ω),
n
etc.
Wir können nun einen Unabhängigkeitsbegriff für allgemeine Zufallsvariablen einführen, der
kompatibel mit dem oben definierten Unabhängigkeitsbegriff für Mengensysteme ist.
Definition. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
(1). Eine endliche Kollektion X1 , . . . , Xn : Ω → S von Zufallsvariablen auf (Ω, A, P ) heißt
unabhängig, falls
P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
n
Y
=
i=1
P [Xi ∈ Bi ]
∀Bi ∈ S
(1 ≤ i ≤ n). (5.1.3)
(2). Eine beliebige Kollektion Xi , i ∈ I, von Zufallsvariablen auf (Ω, A, P ) heißt unabhängig, falls jede endliche Teilkollektion Xi1 , . . . , Xin (i1 , . . . , in ∈ I paarweise verschieden)
unabhängig ist.
Bemerkung. (1). Die Definition ist konsistent: Jede endliche Teilkollektion einer unabhängigen endlichen Kollektion von Zufallsvariablen ist wieder unabhängig im Sinne von (5.1.3).
(2). Die Zufallsvariablen Xi , i ∈ I, sind genau dann unabhängig, wenn die σ-Algebren
σ(Xi )
{{Xi ∈ B}|B ∈ B(S)},
=
i ∈ I,
unabhängige Mengensysteme sind.
e S)
e ein weiterer messbarer Raum. Eine sehr wichtige Konsequenz von Bemerkung (2) ist:
Sei (S,
Satz 5.2 (Funktionen von unabhängigen Zufallsvariablen sind unabhängig). Sind Xi : Ω →
S, i ∈ I, unabhängige Zufallsvariablen auf (Ω, A, P ), und sind hi : S → Se messbare Abbildungen, dann sind auch die Zufallsvariablen Yi := hi (Xi ), i ∈ I, unabhängig bzgl. P .
Beweis.
σ(Yi )
=
{ Yi−1 (B) |
| {z }
Xi−1 (h−1
i (B))
e
B ∈ S}.
Da die σ-Algebren σ(Xi ), i ∈ I, unabhängig sind, sind auch σ(Yi ), i ∈ I, unabhängige Mengensysteme.
Universität Bonn
Wintersemester 2009/2010
158
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Aufgrund von Satz 5.1 kann man allgemeiner eine Kollektion Xi , i ∈ I, von unabhängigen
Ṡ
Zufallsvariablen in disjunkte Gruppen Xi , i ∈ Ik , I = Ik , einteilen, und messbare Funktionen
k
Yk
=
hk (Xi |i ∈ Ik ),
k∈K
von den Zufallsvariablen der verschiedenen Gruppen betrachten. Auch die Yk sind dann wieder
unabhängige Zufallsvariablen.
Für unabhängige reellwertige Zufallsvariablen Xi (i ∈ I) gilt insbesondere
P [Xi−1 ≤ c1 , . . . , Xin ≤ cn ]
für alle n ∈ N, i1 , . . . , in ∈ I
=
n
Y
k=1
paarweise verschieden, und
P [Xik ≤ ck ]
(5.1.4)
ci ∈ R.
Tatsächlich werden wir im nächsten Abschnitt zeigen, dass Bedingung (5.1.4) äquivalent zur
Unabhängigkeit der Xi ist. Als erste Anwendung betrachten wir Extrema von unabhängigen exponentialverteilten Zufallsvariablen.
Beispiel (Maxima von exponentialverteilten Zufallsvariablen). Seien T1 , T2 , . . . unabhängige
Exp(1)-verteilte Zufallsvariablen. Wir wollen uns überlegen, wie sich die Extremwerte (Rekorde)
Mn
=
max{T1 , . . . , Tn }
asymptotisch für n → ∞ verhalten. Dazu gehen wir in mehreren Schritten vor:
(1). Wir zeigen zunächst mithilfe des Borel-Cantelli-Lemmas:
lim sup
n→∞
Tn
=1
log n
P -fast sicher.
(5.1.5)
Zum Beweis berechnen wir für c ∈ R:
Tn
P
≥ c = P [Tn ≥ c · log n]
log n
= e−c log n = n−c .
Für c > 1 gilt
∞
P
n=1
n−c < ∞. Nach dem 1. Borel-Cantelli-Lemma folgt daher
Tn
>c
P lim sup
n→∞ log n
≤
Tn
P
≥c
log n
unendlich oft
Für c ց 1 erhalten wir dann wegen der monotonen Stetigkeit von P :
Tn
Tn
>1
= lim P lim sup
>c
=
P lim sup
cց1
n→∞ log n
n→∞ log n
Einführung in die Wahrscheinlichkeitstheorie
=
0.
0.
(5.1.6)
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
Für c < 1 gilt
∞
P
n=1
159
n−c = ∞. Da die Ereignisse {Tn ≥ c log n}, n ∈ N, unabhängig sind,
folgt nach dem 2. Borel-Cantelli Lemma:
Tn
Tn
P lim sup
≥c
≥ P
≥c
log n
n→∞ log n
=
=
1
unendlich oft
Für c ր 1 erhalten wir mithilfe der monotonen Stetigkeit:
Tn
Tn
P lim sup
≥1
= lim P lim sup
≥c
cր1
n→∞ log n
n→∞ log n
1.
(5.1.7)
Aus (5.1.6) und (5.1.7) folgt die Behauptung (5.1.5).
(2). Als nächstes folgern wir:
Mn ∼ log n,
d.h. lim
n→∞
Mn
=1
log n
P -f.s.
(5.1.8)
Zum Beweis zeigen wir:
Mn
≤ 1 P -f.s., und
n→∞ log n
Mn
≥ 1 P -f.s.
(b) lim inf
n→∞ log n
(a) lim sup
Aussage (a) folgt aus (1), denn für c ∈ R gilt:
Mn
> c
n→∞ log n
⇒ max{T1 , . . . , Tn } = Mn
lim sup
⇒ Tk(n)
⇒ Tk
>
c · log n
c · log k
Tk
⇒ lim sup
≥c
log k
>
>
c · log n
unendlich oft
für k(n) ≤ n für ∞ viele n
unendlich oft
Nach (1) hat das letztere Ereignis für c > 1 Wahrscheinlichkeit 0, also gilt wegen der
monotonen Stetigkeit von P :
Mn
>1
P lim sup
n→∞ log n
=
Mn
lim P lim sup
>c
cց1
n→∞ log n
=
0.
Zum Beweis von (b) genügt es wegen der monotonen Stetigkeit zu zeigen, dass für c < 1
Mn
Mn
P
> c schließlich
= P
≤ c nur endlich oft
= 1
log n
log n
gilt. Nach Borel-Cantelli I ist dies der Fall, wenn
X Mn
P
≤c
log
n
n∈N
Universität Bonn
<
∞
(5.1.9)
Wintersemester 2009/2010
160
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
gilt. Für c ∈ R gilt aber wegen der Unabhängigkeit der Ti
Mn
≤ c = P [Ti ≤ c · log n
∀ 1 ≤ i ≤ n]
P
log n
= P [T1 ≤ c · log n]n = (1 − e−c log n )n
= (1 − n−c )n
≤
e−n·n
−c
=
e−n
1−c
,
und diese Folge ist für c < 1 summierbar. Also gilt (5.1.9) für alle c < 1, und damit (b).
(3). Abschließend untersuchen wir die Fluktuationen der Extremwerte Mn um log n noch genauer. Wir zeigen, dass die Zufallsvariable Mn − log n in Verteilung konvergiert:
n→∞
P [Mn − log n ≤ c] −→ e−e
−c
für alle c ∈ R.
(5.1.10)
Beweis. Wegen
P [Mn ≤ c]
=
i.i.d.
=
=
P [Ti ≤ c
P [T1 ≤ c]n
∀i = 1, . . . , n]
(1 − e−c )n
für alle c ∈ R
folgt
P [Mn − log n ≤ c]
=
P [Mn ≤ c + log n]
=
(1 −
1 −c n
·e )
n
n→∞
−→ e−e
−c
Aussage (5.1.10) besagt, dass Mn − log n in Verteilung gegen eine Gumbel-verteilte Zu-
fallsvariable X, d.h. eine Zufallsvariable mit Verteilungsfunktion FX (c) = e−e
−c
konver-
giert. Für große n gilt also näherungsweise
Mn
D
≈
log n + X,
X ∼ Gumbel,
wobei log n die Asymptotik und X die Fluktuationen beschreibt.
Konfidenzintervalle für Quantile
Sei (x1 , . . . , xn ) eine n-elementige Stichprobe von einer unbekannten Wahrscheinlichkeitsverteilung µ auf (R, B(R)). Wir nehmen an, dass x1 , . . . , xn Realisierungen von unabhängigen Zufallsvariablen mit stetiger Verteilung sind:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN
161
Annahme: X1 , . . . , Xn unabhängig unter Pµ mit stetiger Verteilung µ.
Wir wollen nun die Quantile (z.B. den Median) der zugrundeliegenden Verteilung auf der Basis der Stichprobe schätzen. Eine Funktion T (X1 , . . . , Xn ), T : Rn → R messbar, nennt man
in diesem Zusammenhang auch ein Statistik der Stichprobe (X1 , . . . , Xn ). Eine Statistik, deren
Wert als Schätzwert für eine Kenngröße q(µ) der unbekannten Verteilung verwendet wird, nennt
man auch einen (Punkt-) Schätzer für q. Nahe liegende Schätzer für die Quantile von µ sind die
entsprechenden Stichprobenquantile. Unser Ziel ist es nun, Konfidenzintervalle für die Quantile
anzugeben, d.h. von den Werten X1 , . . . , Xn abhängende Intervalle, in denen die Quantile unabhängig von der tatsächlichen Verteilung mit hoher Wahrscheinlichkeit enthalten sind. Seien
dazu
X(1)
≤
X(2)
≤
...
≤
X(n)
die der Größe nach geordneten Werte X1 , . . . , Xn – diese nennt man auch Ordnungsstatistiken
der Stichprobe. Die Verteilung der Ordnungsstatistiken können wir explizit berechnen:
Satz 5.3 (Verteilung der Ordnungsstatistiken). Ist µ eine absolutstetige Wahrscheinlichkeitsverteilung mit Verteilungsfunktion F , dann hat X(k) die Verteilungsfunktion
F(k) (c) = Bin(n, F (c))[{k, k + 1, . . . , n}]
n X
n
F (c)j · (1 − F (c))n−j .
=
j
j=k
(5.1.11)
Beweis. Da die Ereignisse {Xi ≤ c}, 1 ≤ i ≤ n, unabhängig sind mit Wahrscheinlichkeit F (c),
gilt
F(k) (c) = Pµ [X(k) ≤ c] = Pµ [Xi ≤ c
für mindestens k verschiedene i ∈ {1, . . . , n}]
= Bin(n, F (c))[{k, k + 1, . . . , n}]
n X
n
F (c)j · (1 − F (c))n−j .
=
j
j=k
Nach Satz 5.3 ist die Wahrscheinlichkeit, dass der Wert von X(k) unterhalb eines u-Quantils der
zugrundeliegenden Verteilung µ liegt, für alle stetigen Verteilungen gleich! Damit folgt unmittelbar:
Korollar 5.4 (Ordnungsintervalle). Sei u ∈ (0, 1) und 0 ≤ k < l ≤ n. Dann ist das zufällige
Intervall (X(k) , X(l) ) ein Konfidenzintervall für das u-Quantil der zugrundeliegenden Verteilung
µ zum Konfidenzniveau
β
Universität Bonn
:=
Bin(n, k)[{k, k + 1, . . . , l − 1}],
Wintersemester 2009/2010
162
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
d.h. für jede absolutstetige Wahrscheinlichkeitsverteilung µ auf R, und für jedes u-Quantil qu (µ)
gilt:
Pµ [X(k) < qu (µ < X(l) )]
≥
β.
Beweis. Da die Verteilungen stetig sind, gilt Fµ (qu (µ)) = u für jedes u-Quantil, und damit nach
Satz 5.3:
Pµ [X(k) < qu (µ) < X(l)] = Bin(n, u)[{k, k + 1, . . . , n}] − Bin(n, u)[{l, l + 1, . . . , n}]
= Bin(n, u)[{k, k + 1, . . . , l − 1}].
Für große n kann man die Quantile der Binomialverteilung näherungsweise mithilfe der Normalapproximation berechnen, und erhält daraus entsprechende Konfidenzintervalle für die Quantile
von stetigen Verteilungen. Bemerkenswert ist, dass diese Konfidenzintervalle nicht nur für Verteilungen aus einer bestimmten Familie (z.B. der Familie der Normalverteilungen) gelten, sondern
für alle stetigen Wahrscheinlichkeitsverteilungen auf R (nichtparametrisches Modell).
5.2
Gemeinsame Verteilungen und endliche Produktmodelle
Um Aussagen über den Zusammenhang mehrerer Zufallsvariablen X1 , . . . , Xn zu treffen, benötigen wir Kenntnisse über deren gemeinsame Verteilung, d.h. über die Verteilung des Zufallsvektors X = (X1 , . . . , Xn ). Diese ist eine Wahrscheinlichkeitsverteilung auf dem Produkt der
Wertebereiche der einzelnen Zufallsvariablen.
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen
Seien (Si , Si ), 1 ≤ i ≤ n, messbare Räume. Die Produkt-σ-Algebra S1 ⊗. . .⊗Sn auf S1 ×. . .×Sn
wird von den endlichen Produkten von Mengen aus den σ-Algebren Si erzeugt:
S1 ⊗ . . . ⊗ Sn
=
σ({B1 × . . . × Bn |Bi ∈ Si
∀ 1 ≤ i ≤ n}).
Bezeichnen wir mit πi : S1 × . . . × Sn → Si , πi (x1 , . . . , xn ) := xi , die kanonische Projektion auf
die i-te Komponente, so gilt
S1 ⊗ . . . ⊗ Sn
Einführung in die Wahrscheinlichkeitstheorie
=
σ(π1 , . . . , πn ).
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
163
Beispiel. Für die Borelsche σ-Algebra auf Rn gilt:
B(Rn )
=
B(R) ⊗ . . . ⊗ B(R)
{z
}
|
=
n
O
i=1
n mal
B(R),
denn B(Rn ) wird zum Beispiel von den offenen Quadern, also Produkten von offenen Intervallen,
erzeugt. Ein anderes Erzeugendensystem von B(Rn ) bilden die Produktmengen
(−∞, c1 ] × (−∞, c2 ] × . . . × (−∞, cn ],
c1 , . . . , cn ∈ R.
(5.2.1)
Ist µ eine Wahrscheinlichkeitsverteilung auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), dann heißen die
Wahrscheinlichkeitsverteilungen
µπi
:=
µ ◦ πi−1 ,
1 ≤ i ≤ n,
auf Si (eindimensionale) Randverteilungen (marginals) von µ. Wir werden in Kapitel 9 allgemeine Wahrscheinlichkeitsverteilungen auf Produkträumen konstruieren und systematisch untersuchen. Im Moment beschränken wir uns meist auf eine spezielle Klasse von solchen Verteilungen: die endlichen Produktmodelle.
Definition (Endliches Produktmaß). Seien (Si , Si , µi ) Wahrscheinlichkeitsräume, 1 ≤ i ≤ n.
Eine Wahrscheinlichkeitsverteilung µ auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ) heißt Produkt der µi ,
falls
µ[B1 × . . . × Bn ]
=
gilt.
n
Y
i=1
µi [Bi ]
∀ Bi ∈ Si , 1 ≤ i ≤ n,
(5.2.2)
Bemerkung. Das Produktmaß µ ist durch (5.2.2) eindeutig festgelegt, denn die Produktmengen
bilden einen durchschnittsstabilen Erzeuger der σ-Algebra S1 ⊗ . . . ⊗ Sn . Die Existenz von Produktmaßen folgt aus dem Satz von Fubini, den wir in Abschnitt 9.1 beweisen. Für Wahrscheinlichkeitsverteilungen auf R zeigen wir die Existenz von Produktmaßen im nächsten Abschnitt.
Das nach der Bemerkung eindeutige Produktmaß der Wahrscheinlichkeitsverteilungen µ1 , . . . , µn
bezeichnen wir mit µ1 ⊗ . . . ⊗ µn . Die eindimensionalen Randverteilungen eines Produktmaßes
sind gerade die Faktoren µi .
Lemma 5.5. Unter µ = µ1 ⊗ . . . ⊗ µn sind die Projektionen
πi : S1 × . . . × Sn −→ Si ,
πi (x1 , . . . , xn ) = xi ,
1 ≤ i ≤ n,
unabhängig mit Verteilung µi .
Universität Bonn
Wintersemester 2009/2010
164
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Beweis. Für Bi ∈ Si , 1 ≤ i ≤ n, gilt:
µ[πi ∈ Bi ] = µ[S1 × . . . × Si−1 × Bi × Si+1 × . . . × Sn ]
Y
= µi [Bi ] ·
µj [Sj ] = µi [Bi ],
| {z }
j6=i
und
=1
µ[π1 ∈ B1 , . . . , πn ∈ Bn ] = µ[B1 × . . . × Bn ]
=
n
Y
µi [Bi ]
n
Y
=
i=1
i=1
µi [πi ∈ Bi ].
Sind die Mengen S1 , . . . , Sn abzählbar, dann gilt µ = µ1 ⊗ . . . ⊗ µn genau dann, wenn die
Massenfunktion von µ das Produkt der einzelnen Massenfunktionen ist, d.h.
µ(x1 , . . . , xn )
=
n
Y
für alle xi ∈ Si , 1 ≤ i ≤ n.
µi (xi )
i=1
Im Fall S1 = . . . = Sn = R mit Borelscher σ-Algebra bilden die Mengen aus (5.2.1) einen
durchschnittsstabilen Erzeuger der Produkt-σ-Algebra B(Rn ). Also ist µ = µ1 ⊗ . . . ⊗ µn genau
dann, wenn
µ[(−∞, c1 ] × . . . × (−∞, cn ]]
n
Y
=
µi [(−∞, ci ]]
i=1
für alle c1 , . . . , cn ∈ R
gilt. Die linke Seite ist die Verteilungsfunktion Fµ (c1 , . . . , cn ) der multivariaten Verteilung µ, die
rechte Seite das Produkt der Verteilungsfunktionen der µi .
Beispiel (Gleichverteilung auf n-dimensionalem Quader). Ist µi = U(ai ,bi ) die Gleichvertei-
lung auf einem endlichen Intervall (ai , bi ), −∞ < ai < bi < ∞, dann ist µ = µ1 ⊗ . . . ⊗ µn die
n
Q
Gleichverteilung auf dem Quader S = (ai , bi ), denn für c1 , . . . , cn ∈ S gilt:
i=1
µ
"
n
Y
i=1
(−∞, ci ]
#
=
n
Y
i=1
=
µ − i[(−∞, ci ]]
n
Y
c i − ai
b i − ai
#,
" n
Y
= λn
(ai , ci ]
λn [S].
i=1
i=1
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
165
Absolutstetigkeit von multivariaten Verteilungen
Absolutstetigkeit von endlichen Produktmodellen
Der Satz von Fubini, den wir in Abschnitt 9.1 in größerer Allgemeinheit beweisen werden, besagt unter anderem, dass das n-dimensionale Lebesgueintegral einer beliebigen Borel-messbaren
nicht-negativen Funktion f : Rn → R existiert, und als Hintereinanderausführung von eindimensionalen Integralen nach den Koordinaten x1 , . . . , xn berechnet werden kann:
Z
Z
Z
f (x) dx =
· · · f (x1 , . . . , xn ) dxn · · · dx1 .
Rn
Hierbei können die eindimensionalen Integrationen in beliebiger Reihenfolge ausgeführt werden.
Für den Beweis verweisen wir auf die Analysisvorlesung bzw. auf Abschnitt 9.1 unten.
In Analogie zum eindimensionalen Fall heißt eine Wahrscheinlichkeitsverteilung µ auf (Rn , B(Rn ))
stetig oder absolutstetig, falls eine B(Rn )-messbare Dichtefunktion f : Rn → [0, ∞) existiert mit
Z
Z
µ[B] =
f (x) dx :=
IB (x)f (x) dx
B
für jeden Quader, bzw. allgemeiner für jede Borelmenge B ⊆ Rn . Endliche Produkte von eindimensionalen absolutstetigen Verteilungen sind wieder absolutstetig, und die Dichte ist das Produkt der einzelnen Dichten:
Lemma 5.6. Sind µ1 , . . . , µn absolutstetige Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit
Dichtefunktionen f1 , . . . , fn , dann ist das Produkt µ = µ1 ⊗ . . . ⊗ µn eine absolutstetige Wahr-
scheinlichkeitsverteilung auf (Rn , B(Rn )) mit Dichtefunktion
f (x1 , . . . , xn )
=
n
Y
fi (xi ).
i=1
Beweis. Für jede Produktmenge B = B1 × . . . × Bn , Bi ∈ B(R), gilt nach dem Satz von Fubini:
Z
Z
n
n Z
n
Y
Y
Y
µ[B] =
µi [Bi ] =
fi (xi )dxi =
· · · IB (x1 , . . . , xn )
fi (xi )dx1 · · · dxn .
i=1
i=1 B
i=1
i
Die Dichtefunktion der Gleichverteilung auf dem Quader S = (a1 , b1 ) × . . . × (an , bn ) ist beispielsweise
f (x1 , . . . , xn )
=
n
Y
i=1
Universität Bonn
1
1
IS (x).
I(ai ,bi ) (xi ) =
b i − ai
Volumen[S]
Wintersemester 2009/2010
166
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Ein anderes Produktmaß von fundamentaler Bedeutung für die Wahrscheinlichkeitstheorie ist die
mehrdimensionale Standardnormalverteilung:
Beispiel (Standardnormalverteilung im Rn ). Die Wahrscheinlichkeitsverteilung
µ
n
O
=
N (0, 1)
i=1
auf (Rn , B(Rn )) heißt n-dimensionale Standardnormalverteilung. Die mehrdimensionale Standardnormalverteilung ist absolutstetig mit Dichte
f (x1 , . . . , xn )
=
2
n
Y
1
x
2
√ · exp − i = (2π)−n/2 e−kxk /2 ,
2
2π
i=1
x ∈ Rn .
z
y
x
Abbildung 5.1: Dichte der Standardnormalverteilung in R2 .
Gemeinsame Verteilungen
Sind Xi : Ω → Si , 1 ≤ i ≤ n, beliebige Zufallsvariablen mit Werten in messbaren Räumen
(Si , Si ), welche auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind, dann
ist
(X1 , . . . , Xn ) :
Ω
Einführung in die Wahrscheinlichkeitstheorie
−→
S1 × . . . × Sn
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
167
eine Zufallsvariable mit Werten im Produktraum (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), denn für Bi ∈
Si , 1 ≤ i ≤ n, gilt:
{(X1 , . . . , Xn ) ∈ B1 × . . . × Bn }
=
n
\
i=1
{Xi ∈ B}
∈ A.
Wie zuvor im diskreten Fall (s. Abschnitt 2.4) definieren wir:
Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) auf (S1 × . . . × Sn , S1 ⊗
. . . ⊗ Sn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn .
Der folgende Satz gilt analog zum diskreten Fall:
Satz 5.7. Die folgenden Aussagen sind äquivalent:
(1). Die Zufallsvariablen X1 , . . . , Xn sind unabhängig.
(2). Die gemeinsame Verteilung µX1 ,...,Xn ist ein Produktmaß.
(3). µX1 ,...,Xn
=
µX 1 ⊗ . . . ⊗ µX n .
Beweis. „ (1) =⇒ (3) “: folgt direkt aus der Definition der Unabhängigkeit und der gemeinsamen
Verteilung: Sind X1 , . . . , Xn unabhängig, dann gilt
µX1 ,...,Xn [B1 × . . . × Bn ] = P [(X1 , . . . , Xn ) ∈ B1 × . . . × Bn ]
= P [Xi ∈ Bi , ∀1 ≤ i ≤ n]
n
Y
=
P [Xi ∈ Bi ]
i=1
n
Y
=
µXi [Bi ]
i=1
für alle Bi ∈ Si , 1 ≤ i ≤ n.
„ (3) =⇒ (2) “: Die Implikation ist offensichtlich, und „ (2) =⇒ (1) “ folgt aus Lemma 5.5: Ist
µX1 ,...,Xn ein Produktmaß, dann sind die kanonischen Projektionen π1 , . . . , πn unabhängig unter
µX1 , . . . , µXn . Also gilt für Bi ∈ Si :
P [X1 ∈ B1 , . . . , Xn ∈ Bn ] = µX1 ,...,Xn [B1 × . . . × Bn ]
= µX1 ,...,Xn [π1 ∈ B1 , . . . , πn ∈ Bn ]
n
Y
=
µX1 ,...,Xn [πi ∈ Bi ]
i=1
=
n
Y
i=1
Universität Bonn
P [πi ∈ Bi ]
Wintersemester 2009/2010
168
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Wir wenden die Aussage von Satz 5.7 nun speziell auf diskrete und reellwertige Zufallsvariablen
an:
Diskrete Zufallsvariablen
Sind die Wertebereiche S1 , . . . , Sn der Zufallsvariablen X1 , . . . , Xn abzählbar, dann wird die
gemeinsame Verteilung vollständig durch die gemeinsame Massenfunktion
pX1 ,...,Xn (a1 , . . . , an )
=
(a1 , . . . , an ) ∈ S1 × . . . × Sn
P [X1 = a1 , . . . , Xn = an ],
beschrieben. Die Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn die gemeinsame Massenfunktion das Produkt der einzelnen Massenfunktionen ist, s. Satz 2.7. Als Konsequenz
aus Satz 5.7 ergibt sich zudem:
Korollar 5.8. Sind Xi : Ω → Si , 1 ≤ i ≤ n, diskrete Zufallsvariablen, und hat die gemeinsame
Massenfunktion eine Darstellung
pX1 ,...,Xn (a1 , . . . , an )
=
c·
n
Y
∀(a1 , . . . , an ) ∈ S1 × . . . × Sn
gi (ai )
i=1
in Produktform mit einer Konstanten c ∈ R, und Funktionen gi : Si → [0, ∞), dann sind
X1 , . . . , Xn unabhängig mit Massenfunktion
pXi (ai )
g (a )
Pi i
gi (a)
=
a∈Si
Beweis. Die Werte
gei (ai )
=
g (a )
Pi i ,
gi (a)
ai ∈ S i ,
a∈Si
sind die Gewichte eine Wahrscheinlichkeitsverteilung µi auf Si . Nach Voraussetzung gilt
µX1 ,...,Xn [{a1 } × . . . × {an }] = pX1 ,...,Xn (a1 , . . . , an )
n
Y
= e
c·
µ
eXi [{ai }]
∀ (a1 , . . . , an ) ∈ S1 × . . . × S(5.2.3)
n
i=1
mit einer reellen Konstante e
c. Da auf beiden Seiten von (5.2.3) bis auf den Faktor e
c die Massen-
funktionen von Wahrscheinlichkeitsverteilungen stehen, gilt e
c = 1, und damit
µX1 ,...,Xn
=
n
O
µi .
i=1
Also sind die Xi unabhängig mit Verteilung µi , d.h. mit Massenfunktion gei .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
169
Beispiel (Zwei Würfel). Seien X, Y : Ω → {1, 2, 3, 4, 5, 6} gleichverteilte Zufallsvariablen. Für
die Gewichte der gemeinsamen Verteilung von X und Y gibt es dann beispielsweise folgende
Möglichkeiten:
(1). X, Y unabhängig.
Y
6
5
4
3
2
1
1
2
3
4
5
6 X
Abbildung 5.2: X, Y unabhängig; µX,Y = µX ⊗ µY . Gewichte der Punkte sind jeweils
1
36
(2). X, Y deterministisch korreliert, z.B. Y = (X + 1) mod 6.
Y
6
5
4
3
2
1
1
2
3
4
5
6 X
Abbildung 5.3: Y = (X + 1) mod 6. Das Gewicht eines einzelnen Punktes ist 61 .
(3). Y = (X + Z) mod 6, Z unabhängig von X, Z = 0, ±1 mit Wahrscheinlichkeit 31 .
Universität Bonn
Wintersemester 2009/2010
170
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Y
6
5
4
3
2
1
1
2
3
4
6 X
5
Abbildung 5.4: Y = (X +Z) mod 6; Z ∼ unif{−1, 0, 1}. Das Gewicht eines einzelnen Punktes
ist
1
18
Reelle Zufallsvariablen
Die gemeinsame Verteilung reellwertiger Zufallsvariablen X1 , . . . , Xn : Ω → R auf der Produktn
N
B(R) ist vollständig durch die Werte
σ-Algebra B(Rn ) =
i=1
FX1 ,...,Xn (c1 , . . . , cn ) := µX1 ,...,Xn [(−∞, c1 ] × . . . × (−∞, cn ]]
= P [X1 ≤ c1 , . . . , Xn ≤ cn ],
(c1 , . . . , cn ) ∈ Rn ,
beschrieben. Die Funktion FX1 ,...,Xn : Rn → [0, 1] heißt gemeinsame Verteilungsfunktion.
Insbesondere sind X1 , . . . , Xn genau dann unabhängig, wenn
FX1 ,...,Xn (c1 , . . . , cn )
=
n
Y
FXi (ci )
i=1
∀(c1 , . . . , cn ) ∈ Rn
gilt. In Analogie zu Korollar 5.8 erhalten wir zudem:
Korollar 5.9. Seien X1 , . . . , Xn : Ω → R reellwertige Zufallsvariablen.
(1). Sind X1 , . . . , Xn unabhängige Zufallsvariablen mit absolutstetigen Verteilungen mit Dichten fX1 , . . . , fXn , dann ist die gemeinsame Verteilung absolutstetig mit Dichte
fX1 ,...,Xn (x1 , . . . , xn )
=
n
Y
i=1
Einführung in die Wahrscheinlichkeitstheorie
fXi (xi )
∀ x ∈ Rn .
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
171
(2). Umgekehrt gilt: Ist die gemeinsame Verteilung absolutstetig, und hat die Dichte eine Darstellung
fX1 ,...,Xn (x1 , . . . , xn )
=
c·
n
Y
∀ x ∈ Rn
gi (xi )
i=1
in Produktform mit einer Konstante c ∈ R und integrierbaren Funktionen gi : R → [0, ∞),
dann sind X1 , . . . , Xn unabhängig, und die Verteilungen sind absolutstetig mit Dichten
fXi (xi )
=
R
gi (xi )
.
gi (t) dt
R
Der Beweis verläuft ähnlich wie der von Korollar 5.8, und wird dem Leser zur Übung überlassen.
Beispiel (Zufällige Punkte in der Ebene). Seien X und Y unabhängige Zufallsvariablen, N (0, σ 2 )verteilte auf (Ω, A, P ) mit σ > 0. Dann ist die gemeinsame Verteilung µX,Y absolutstetig mit
Dichte
fX,Y (x, y)
x2 + y 2
1
·
exp(−
),
2πσ 2
2σ 2
=
(x, y) ∈ R2 .
es gilt (X, Y ) 6= (0, 0) P -fast sicher. Wir definieren den Radial- und Polaranteil
R : Ω → (0, ∞),
Φ : Ω → [0, 2π)
durch
X
d.h. R =
√
=
R · cos Φ
und
Y
=
R · sin Φ,
X 2 + Y 2 und Φ = arg(X +iY ) falls (X, Y ) 6= (0, 0). Auf der Nullmenge {(X, Y ) =
(0, 0)} definieren wir (R, Φ) in beliebiger Weise, sodass sich messbare Funktionen ergeben. Wir
berechnen nun die gemeinsame Verteilung von R und Φ:
P [R ≤ r0 , Φ ≤ φ0 ] = P [(X, Y ) ∈ „Kuchenstück“ mit Winkel φ0 und Radius r0 ]
Z Z
fX,Y (x, y) dx dy
=
Kuchenstück
=
Zr0 Zφ0
0
=
Zr0 Z
0
Universität Bonn
0
fX,Y (r cos φ, r sin φ) |{z}
r dφ dr
φ0
0
Jacobideterminante
der Koordinatentrans. f
r −r2 /(2σ2 )
e
dφ dr.
2πσ 2
Wintersemester 2009/2010
172
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Hierbei haben wir im 3. Schritt den Transformationssatz (Substitutionsregel) für mehrdimensionale Integrale verwendet - der Faktor r ist die Jacobideterminante der Koordinatentransformation
(s. Analysis). Es folgt, dass die gemeinsame Verteilung µR,Φ absolutstetig ist mit Dichte
fR,Φ (r, φ)
1 r
2
2
· 2 · e−r /(2σ ) .
2π σ
=
Da die Dichte Produktform hat, sind R und Φ unabhängig. Die Randverteilung µΦ ist absolutstetig mit Dichte
1
(0 ≤ φ < 2π),
2π
d.h. Φ ist gleichverteilt auf [0, 2π). Somit ist µR absolutstetig mit Dichte
fΦ (φ)
=
φR (r)
const.
=
r
2
2
· e−r /(2σ )
2
σ
=
(r > 0).
Die Berechnung können wir verwenden, um Stichproben von der Standardnormalverteilung zu
simulieren:
Beispiel (Simulation von normalverteilten Zufallsvariablen). Die Verteilungsfunktion einer
N (0, 1)-verteilten Zufallsvariable X ist
1
FX (x) = √
2π
Z
x
e−t
2 /2
dt .
−∞
Das Integral ist nicht explizit lösbar und die Inverse FX−1 ist dementsprechend nur approximativ
berechenbar. Daher ist die Simulation einer Standardnormalverteilung durch Inversion der Verteilungsfunktion relativ aufwendig. Ein einfacheres Simulationsverfahren ergibt sich, wenn wir
eine zweidimensionale Standardnormalverteilung betrachten und auf Polarkoordinaten transformieren. Dann gilt für den Radialanteil:
Z
FR (x) =
x
e−r
2 /2
0
r dr = 1 − e−x
2 /2
.
Das Integral ist also explizit berechenbar, und
FR−1 (u) =
p
−2 log(1 − u) ,
u ∈ (0, 1).
Der Winkelanteil Φ ist unabhängig von R und gleichverteilt auf [0, 2π). Wir können Zufallsvariablen mit der entsprechenden gemeinsamen Verteilung erzeugen, indem wir
Φ := 2πU1 ,
p
R :=
−2 log(1 − U2 )
Einführung in die Wahrscheinlichkeitstheorie
p
bzw. = −2 log U2 ,
Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE
173
setzen, wobei U1 und U2 unabhängige, auf (0, 1) gleichverteilte Zufallsvariablen sind. Stichproben von U1 und U2 können durch Pseudozufallszahlen simuliert werden. die Zufallsvariablen
X
:=
R cos Φ
und
Y
:=
R · sin Φ
sind dann unabhängig und N (0, 1)-verteilt. Für m ∈ R und σ > 0 sind σX + m und σY + m
unabhängige N (m, σ 2 )-verteilte Zufallsvariable.
Wir erhalten also den folgenden Algorithmus zur Simulation von Stichproben einer Normalverteilung:
Algorithmus 5.10 (Box-Muller-Verfahren). Input: m ∈ R, σ > 0
Output: unabhängige Stichproben x
e, ye von N (m, σ 2 ).
1. Erzeuge unabhängige Zufallszahlen u1 , u2 ∼ U(0,1)
2. x :=
√
−2 log u1 cos(2πu2 ), y :=
√
−2 log u1 sin(2πu2 )
3. x
e := σx + m, ye = σy + m
Beispiel (Ordnungsstatistiken). Für die gesamte Verteilung der Ordnungsstatistiken X(1) ≤
. . . ≤ X(n) , unabhängiger, identisch verteilter, stetiger Zufallsvariablen X1 , . . . , Xn : Ω → R gilt
aus Symmetriegründen und wegen P [Xi = Xj ] = 0 für i 6= j:
X
P [X(1) ≤ c1 , . . . , X(n) ≤ cn ] =
P [Xπ(1) ≤ c1 , . . . , Xπ(n) ≤ cn , Xπ(1) < . . . < Xπ(n) ]
π∈Sn
= n! P [X1 ≤ c1 , . . . , Xn ≤ cn , X1 < X2 < . . . < Xn ]
Zc1
Zcn
···
= n!
I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) dy1 · · · dyn .
−∞
−∞
Also ist die gemeinsame Verteilung von X(1) , . . . , X(n) absolutstetig mit Dichte
fX(1) ,...,X(n) (y1 , . . . , yn )
=
n! · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ).
Durch Aufintegrieren erhält man daraus mithilfe des Satzes von Fubini und einer erneuten Symmetrieüberlegung die Dichten der Verteilungen der einzelnen Ordnungsstatistiken:
Z
Z
P [X(k) ≤ c] = n! · · · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) · IYk ≤c dy1 · · · dyn
R
=
Zc
R
f(k) (yk ) dyk
−∞
Universität Bonn
Wintersemester 2009/2010
174
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
mit
f(k) (y)
=
n!
F (y)k−1 (1 − F (y))(n − k)f (y).
(k − 1)!(n − k)!
Dasselbe Resultat hätte man auch mit etwas Rechnen aus Satz 5.3 herleiten können.
Bemerkung (Beta-Verteilungen). Sind die Zufallsvariablen Xi auf (0, 1) gleichverteilt, dann
hat X(k) die Dichte
fX(k) (u)
=
B(k, n − k + 1)−1 · uk−1 · (1 − u)n−k · I(0,1) (u)
mit Normierungskonstante
Z 1
ua−1 (1 − u)b−1 du
B(a, b) =
0
(a − 1)!(b − 1)!
=
(a + b − 1)!
für a, b ∈ N .
Die entsprechende Verteilung heißt Beta-Verteilung mit Parametern a, b > 0, die Funktion B
ist die Euler’sche Beta-Funktion.
2
1
1
Abbildung 5.5: Abbildung der Dichtefunktionen der zugehörigen Verteilungen von
X(1) , . . . , X(5) bei n = 5 in (rot, gelb, grün, blau, magenta).
5.3
Unendliche Produktmodelle
Konstruktion von unabhängigen Zufallsvariablen
Seien µ1 , µ2 , . . . vorgegebene Wahrscheinlichkeitsverteilungen auf (R, B(R)). Wir werden nun
explizit unabhängige Zufallsvariablen Xk , k ∈ N, mit Verteilungen µk konstruieren. Als Konse∞
N
quenz ergibt sich die Existenz des unendlichen Produktmaßes
µk als gemeinsame Verteilung
k=1
der Zufallsvariablen Xk . Die Zufallsvariablen Xi können wir sogar auf den Raum Ω = (0, 1) mit
Gleichverteilung realisieren:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
175
Satz 5.11. Auf dem Wahrscheinlichkeitsraum (Ω, B((0, 1)), U(0,1) ) existieren unabhängige Zufallsvariablen Xk : Ω → R, k ∈ N, mit Verteilungen
P ◦ Xk−1
=
für alle 1 ≤ i ≤ n.
µk
Beweis. Wir verfahren in drei Schritten:
(1). Wir konstruieren die Zufallsvariablen im Fall
1
µk = Bernoulli
2
U(0,1)
=
∀ k ∈ N,
d.h. im fairen Münzwurfmodell. Dazu verwenden wir die schon in Abschnitt 4.2 eingeführte Transformation X : (0, 1) → {0, 1}N , die einer reellen Zahl die Ziffernfolge ihrer
Binärdarstellung zuordnet, d.h. wir setzen
Xk (ω)
=
IDk (ω),
Dk
=
k−1
2[
i=1
[(2i − 1) · 2−k , 2i · 2−k ),
siehe Abbildung 4.4. Die Abbildungen Xk : (0, 1) → {0, 1} sind messbar, und es gilt
P [X1 = a1 , . . . , Xn = an ]
=
2n
∀n ∈ N, a1 , . . . , an ∈ {0, 1},
(5.3.1)
da die Menge {ω ∈ Ω : X1 (ω) = a1 , . . . , Xn (ω) = an } gerade aus den Zahlen in (0, 1)
besteht, deren Binärdarstellung mit den Ziffern a1 , . . . , an beginnt, und damit ein Intervall der Länge 2−n ist. Nach (5.3.1) sind X1 , . . . , Xn für alle Xk , k ∈ N, unabhängig mit
Verteilung µk .
(2). Wir konstruieren die Zufallsvariablen im Fall
µk
=
U(0,1)
∀ k ∈ N.
Dazu zerlegen wir die gerade konstruierte Folge Xk (ω) ∈ {0, 1}, k ∈ N, in unendlich
viele Teilfolgen, und konstruieren aus jeder Teilfolge wieder eine Zahl aus [0, 1] mit den
entsprechenden Binärziffern. Genauer setzen wir in Binärdarstellung:
U1 := 0.X1 X3 X5 X7 · · · ,
U2 := 0.X2 X6 X10 X14 · · · ,
U3 := 0.X4 X12 X20 X28 · · · ,
also allgemein für k ∈ N:
Uk (ω)
:=
∞
X
i=1
Universität Bonn
Xk,i (ω) · 2−i
mit
usw.,
Xk,i := X(2i−1)·2k−1 .
Wintersemester 2009/2010
176
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Da die Zufallsvariablen Xk,i , i, k ∈ N, unabhängig sind, sind nach dem Zerlegungssatz
auch die σ-Algebren
Ak
σ(Xk,i |i ∈ N),
=
k ∈ N,
unabhängig, und damit auch die Ak -messbaren Zufallsvariablen Uk , k ∈ N. Zudem gilt für
n ∈ N und
r=
n
X
i=1
ai · 2i−1
P [Uk ∈ (r · 2−n , (r + 1) · 2−n )]
{0, 1, . . . , 2n − 1} :
∈
=
P [Xk,1 = a1 , . . . , Xk,n = an ]
=
2−n .
Da die dyadischen Intervalle ein durchschnittsstabiles Erzeugendensystem der Borelschen
σ-Algebra bilden, folgt, dass die Zufallsvariablen Uk auf [0, 1] gleichverteilt sind.
(3). Im allgemeinen Fall konstruieren wir die Zufallsvariablen aus den gerade konstruierten unabhängigen gleichverteilten Zufallsvariablen Uk , k ∈ N, mithilfe des Inversionsverfahrens
aus Satz 4.19: Sind µk , k ∈ N, beliebige Wahrscheinlichkeitsverteilungen auf (R, B(R)),
und
Gk (u)
inf{x ∈ R : Fk (x) ≥ u}
=
die linksstetigen verallgemeinerten Inversen der Verteilungsfunktionen
Fk (c)
=
µk [(−∞, c]],
dann setzen wir
Yk (ω)
:=
Gk (Uk (ω)),
k ∈ N, ω ∈ Ω.
Da die Zufallsvariablen Uk , k ∈ N, unabhängig sind, sind nach Satz 5.2 auch die Yk , k ∈ N,
wieder unabhängig. Zudem gilt nach Satz 4.19:
P ◦ Yk−1
=
µk
für alle k ∈ N.
Bemerkung. (1). Der Beweis von Satz 5.11 ist konstruktiv. Für numerische Anwendungen ist
allerdings zumindest der erste Schritt des beschriebenen Konstruktionsverfahrens ungeeignet, da Defizite des verwendeten Zufallszahlengenerators und die Darstellungsungenauigkeit im Rechner durch die Transformation verstärkt werden.
(2). Mithilfe des Satzes kann man auch die Existenz einer Folge unabhängiger Zufallsvariablen
Xk , k ∈ N, mit Werten im Rd , oder allgemeiner in vollständigen, separablen, metrischen
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
177
Räumen Sk , k ∈ N, und vorgegebenen Verteilungen µk auf den Borelschen σ-Algebren
B(Sk ) zeigen. Sind beispielsweise φk : R → Sk Bijektionen, sodass φk und φ−1
k messbar
ek : Ω → R unabhängige reellwertige Zufallsvariablen mit Verteilungen
sind, und sind X
ek ∈ B] = µK [φk (B)], dann sind die transformierten Zufallsvariablen
P [X
Xk
=
unabhängig mit Verteilungen µk .
e k ) : Ω → Sk ,
φk ( X
∀k ∈ N,
Beispiel (Random Walks im Rd ). Sei µ eine Wahrscheinlichkeitsverteilung auf (Rd , B(Rd )),
und seien Xi , i ∈ N, unabhängige Zufallsvariablen mit identischer Verteilung Xi ∼ µ. Der durch
Sn
=
a+
n
X
Xi ,
n = 0, 1, 2, . . . ,
i=1
definierte stochastische Prozess heißt Random Walk mit Startwert a ∈ Rd und Inkrementvertei-
lung µ.
Im Fall d = 1 können wir Stichproben von den Zufallsvariablen Xi , und damit vom Random
Walk, beispielsweise mithilfe der Inversionsmethode, simulieren.
Abbildung 5.6: Grafiken von Trajektorien des Random Walks mit verschiedenen Inkrementverteilungen.
Abbildung 5.6 zeigt Grafiken von Trajektorien des Random Walks mit den Inkrementverteilungen
µ
=
µ
Universität Bonn
1
(δ1 + δ−1 )
2
=
N (0, 1)
(klassischer Random Walk (SSRW)),
(diskrete Brownsche Bewegung),
Wintersemester 2009/2010
178
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
µ mit Dichte
f (x)
=
e−(x+1) I(−1,∞)(x)
(zentrierte Exp(1)-Verteilung)
und µ mit Dichte
f (x)
=
3
3
3·2−5/2 ·(x+ )−5/2 ·I( 1 ,∞) (x+ )
2
2
2
3
(zentrierte Pareto(α − 1, α)-Verteilung mit α = ).
2
3
2
1
−3
−2
−1
1
2
3
Abbildung 5.7: Dichten der drei stetigen Verteilungen aus Abbildung 5.6: fN (0,1) in Blau,
fExp(1)−1 in Magenta und fPareto(α−1,α) in Rot.
Im Gegensatz zu den anderen Verteilungen fällt die Dichte der Pareto-Verteilung für x → ∞
nur sehr langsam ab („heavy tails“). Insbesondere hat die Verteilung unendliche Varianz. Die
Trajektorien der Random Walks werden mit der folgenden Mathematica-Routine simuliert:
nmax = 1 0 0 0 0 ; )
x = RandomChoice [{ −1 , 1 } , nmax ] ;
z = RandomReal [ N o r m a l D i s t r i b u t i o n [ 0 , 1 ] , nmax ] ;
u = RandomReal [ { 0 , 1 } , nmax ] ; y = −Log [ u ] − 1 ;
$ \ a l p h a $ = 3 / 2 ; x0 = $ \ a l p h a $ − 1 ; p =
RandomReal [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] , nmax ] ;
m = Mean [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] ] ; q = p − m;
r w s i m p l e = A c c u m u l a t e [ x ] ; rwexp = A c c u m u l a t e [ y ] ;
rwnormal = Accumulate [ z ] ; r w p a r e t o = Accumulate [ q ] ;
L i s t L i n e P l o t [ { r w s i m p l e [ [ 1 ; ; 3 0 0 0 ] ] , rwexp [ [ 1 ; ; 3 0 0 0 ] ] ,
rwnormal [ [ 1 ; ; 3 0 0 0 ] ] , r w p a r e t o [ [ 1 ; ; 3 0 0 0 ] ] } ]
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE
179
Die Trajektorien des klassischen Random Walks, und der Random Walks mit exponential- und
normalverteilten Inkrementen sehen in größeren Zeiträumen ähnlich aus. Die Trajektorien des
Pareto-Random Walks (grün) verhalten sich dagegen anders, und werden auch in längeren Zeiträumen von einzelnen großen Sprüngen beeinflusst. Tatsächlich kann man zeigen, dass alle obigen
Random Walks mit Ausnahme des Pareto-Random Walks in einem geeigneten Skalierungslimes
mit Schrittweite gegen 0 in Verteilung gegen eine Brownsche Bewegung konvergieren (funktionaler zentraler Grenzwertsatz).
Unendliche Produktmaße
Als Konsequenz aus dem Satz können wir die Existenz von unendlichen Produktmaßen als gemeinsame Verteilung von unendlich vielen unabhängigen Zufallsvariablen zeigen. Dazu versehen
wir den Folgenraum
RN
=
{(x1 , x2 , . . .)|xk ∈ R, ∀ k ∈ N}
mit der Produkt-σ-Algebra
O
k∈N
B(R)
=
σ(C)
=
σ(πk |k ∈ N),
die von der Kollektion C aller Zylindermengen
{π1 ∈ B1 , . . . , πn ∈ Bn }
=
{x = (xk ) ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn },
n ∈ N, B1 , . . . , Bn ∈ B(R), von den Koordinatenabbildungen πk : RN → R, πk (x) = xk .
Korollar 5.12 (Existenz von unendlichen Produktmaßen). Zu beliebigen WahrscheinlichkeitsN
verteilungen µk auf (R, B(R)) existiert eine eindeutige Wahrscheinlichkeitsverteilung µ =
µk
k∈N
N
auf (RN ,
B(R)) mit
k∈N
µ[π1 ∈ B1 , . . . , πn ∈ Bn ]
=
µ[B1 ] · . . . · µn [Bn ]
(5.3.2)
für alle n ∈ N und B1 , . . . , Bn ∈ B(R).
Definition. Die Wahrscheinlichkeitsverteilung µ mit (5.3.2) heißt Produkt der Wahrscheinlichkeitsverteilungen µk , k ∈ N.
Beweis. Die Eindeutigkeit folgt, da die Zylindermengen aus C ein ∩-stabiles Erzeugendensystem
der Produkt-σ-Algebra bilden.
Universität Bonn
Wintersemester 2009/2010
180
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Zum Beweis der Existenz: betrachten wir die Abbildung X : Ω → RN mit
X(ω)
=
(X1 (ω), X2 (ω), . . .),
wobei Xk unabhängige Zufallsvariablen mit Verteilung µk sind. X ist messbar bzgl.
N
k∈N
denn
X −1 [{x ∈ RN |(x1 , . . . , xn ) ∈ B}]
{ω ∈ Ω|(X1 (ω), . . . , Xn (ω)) ∈ B}
=
∈
B(R),
A
für alle n ∈ N und B ∈ B(Rn ). Sei µ = P ◦ X −1 die Verteilung von X auf RN . Dann gilt
µ[π1 ∈ B1 , . . . , πm ∈ Bn ] = µ[{x ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn }]
= P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
n
Y
=
µk [Bk ]
k=1
für alle n ∈ N und B1 , . . . , Bn ∈ B(R). Also ist µ das gesuchte Produktmaß.
Bemerkung. Auf analoge Weise folgt nach Bemerkung 2. von oben die Existenz des ProduktN
maßes
µk von beliebigen Wahrscheinlichkeitsverteilungen µk , k ∈ N, auf vollständigen, sek∈N
parablen, messbaren Räumen Sk mit Borelschen σ-Algebren Sk . Das Produktmaß sitzt auf dem
Produktraum
×S ,
k
k∈N
O
k∈N
Sk
!
.
Der Satz von Carathéodory impliziert sogar die Existenz von beliebigen (auch überabzählbaren)
Produkten von allgemeinen Wahrscheinlichkeitsräumen (Si , Si , µi ), i ∈ I.
Sind (Si , Si , µi ) beliebige Wahrscheinlichkeitsräume, dann sind die Koordinatenabbildungen πk :
N
×Si → Sk unter dem Produktmaß µi unabhängig und µk -verteilt. Man nennt den Produk-
i∈N
i∈I
traum
(Ω, A, P )
=
×S ,
i
O
Si ,
O
µi
daher auch das kanonische Modell für unabhängige µi -verteilte Zufallsvariablen.
5.4
Asymptotische Ereignisse
Sei Xi (i ∈ I) eine unendliche Kollektion von Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
181
Definition. Ein Ereignis A ∈ σ(Xi |i ∈ I) heißt asymptotisches Ereignis (tail event), falls
A ∈ σ(Xi | i ∈ I\I0 )
für jede endliche Teilmenge I0 ⊆ I gilt.
Die Menge
τ
\
=
I0 ⊆I endlich
σ(Xi | i ∈ I\I0 )
aller asymptotischen Ereignisse ist eine σ-Algebra. τ heißt asymptotische σ-Algebra (tail field).
Beispiel. (1). DYNAMISCH: Ist Xn , n ∈ N eine Folge von Zufallsvariablen (welche beispielsweise eine zufällige zeitliche Entwicklung beschreibt), dann gilt für ein Ereignis A ∈
σ(Xn , n ∈ N):
A asymptotisch
⇔
A ∈ σ(Xn+1 , Xn+2 , . . . )
|
{z
}
Zukunft ab n
für alle n.
Beispiele für asymptotische Ereignisse von reellwertigen Zufallsvariablen sind
{Xn > 5n
unendlich oft},
lim sup Xn < c ,
n→∞
{∃ lim Xn },
n→∞
1
∃ lim Sn = m ,
n
wobei Sn = X1 + . . . + Xn . Die Ereignisse
{sup Xn = 3}
und
n∈N
{lim Sn = 5}
sind dagegen nicht asymptotisch.
(2). S TATISCH: Eine Kollektion Xi , i ∈ Zd , von Zufallsvariablen auf einem Wahrscheinlich-
keitsraum (Ω, A, P ) heißt stochastisches Feld (random field). Beispielsweise basieren
verschiedene grundlegende Modelle der statistischen Mechanik auf stochastischen Feldern
Xi : Ω → {0, 1}, wobei Xi = 1 dafür steht, dass
• sich ein Teilchen am Gitterpunkt i befindet,
• ein Atom am Gitterpunkt i angeregt ist,
• der Gitterpunkt i durchlässig ist (Perkolationsmodell),
• etc.
Asymptotische Ereignisse beschreiben in diesem Fall „makroskopische“ Effekte.
Universität Bonn
Wintersemester 2009/2010
182
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Das 0-1-Gesetz von Kolmogorov
Satz 5.13 ( 0-1-Gesetz von Kolmogorov ). Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf
(Ω, A, P ), dann gilt
P [A] ∈ {0, 1} für alle A ∈ τ .
„Asymptotische Ereignisse sind deterministisch.“
Beweis. Der Übersichtlichkeit halber führen wir den Beweis im Fall I = N - der Beweis im
allgemeinen Fall verläuft ähnlich. Es gilt: X1 , X2 , ... unabhängige Zufallsvariablen
=⇒ σ(X1 ), σ(X2 ), ..., σ(Xn ), σ(Xn+1 ), σ(Xn+2 ), ... unabhängige Mengensysteme
=⇒σ(X1 , ..., Xn ), σ(Xn+1 , Xn+2 , ...) sind unabhängig für alle n ∈ N
=⇒ σ(X1 , ..., Xn )
und
τ sind unabhängig für alle n ∈ N
=⇒τ unabhängig von σ(X1 , X2 , ...) ⊇ τ
=⇒ Ereignisse A ∈ τ sind unabhängig von sich selbst
=⇒ P [A] ∈ {0, 1}
∀A∈τ .
Hierbei gilt die zweite Implikation nach Satz 5.1 (2), und die vierte nach Satz 5.1 (1)
Anwendungen auf Random Walks und Perkolationsmodelle
Beispiel (Rückkehr zum Startpunkt von Random Walks, Rekurrenz). Wir betrachten einen
eindimensionalen klassischen Random Walk mit Startpunkt a ∈ Z und unabhängigen Inkrementen Xi mit Verteilung
P [Xi = 1]
=
p,
P [Xi = −1]
=
1 − p.
Für n ∈ N erhält man die Rückkehrwahrscheinlichkeiten
P [S2n
P [S2n+1 = a] = 0
(2n)! n
2n
· pn · (1 − p)n =
= a] =
· p · (1 − p)n .
n
(n!)2
Wir betrachten nun die Asymptotik für n → ∞ dieser Wahrscheinlichkeiten. Aus der Stirlings-
chen Formel
n!
∼
√
2πn ·
folgt
P [S2n = a]
∼
√
)2n
4πn ( 2n
· ne 2n · pn · (1 − p)n
2πn
(e)
Einführung in die Wahrscheinlichkeitstheorie
n n
e
=
1
√ (4p(1 − p))n
πn
für n → ∞.
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
Für p 6=
1
2
183
fallen die Wahrscheinlichkeiten also exponentiell schnell ab. Insbesondere gilt dann
∞
X
P [Sm = a]
=
m=0
∞
X
n=0
P [S2n = a] < ∞,
d.h. der asymmetrische Random Walk kehrt nach dem 1. Borel-Cantelli Lemma mit Wahrscheinlichkeit 1 nur endlich oft zum Startpunkt zurück (T RANSIENZ). Nach dem starken Gesetz großer
Zahl gilt sogar
(2p − 1)n
P -fast sicher.
√
= a] ∼ 1/ πn, und damit
Sn
Für p =
1
2
gilt dagegen P [S2n
∞
X
∼
P [Sm = a]
m=0
=
∞
X
P [S2n = a]
=
n=0
∞.
Dies legt nahe, dass der Startpunkt mit Wahrscheinlichkeit 1 unendlich oft besucht wird.
Ein Beweis dieser Aussage über das Borel-Cantelli-Lemma ist aber nicht direkt möglich, da die
Ereignisse {S2n = 0} nicht unabhängig sind. Wir beweisen nun eine stärkere Aussage mithilfe
des Kolmogorovschen 0-1-Gesetzes:
Satz 5.14 (Rekurrenz und unbeschränkte Oszillationen des symmetrischen Random Walks).
Für p =
1
2
gilt
P [lim Sn = +∞ und lim Sn = −∞]
=
1.
Insbesondere ist der eindimensionale Random Walk rekurrent, d.h.
P [Sn = a unendlich oft] = 1.
Tatsächlich wird nach dem Satz mit Wahrscheinlichkeit 1 sogar jeder Punkt λ ∈ Z unendlich oft
getroffen.
Beweis. Für alle k ∈ N gilt:
P [Sn+k − Sn = k unendlich oft] = 1,
denn nach dem Beispiel zu Satz 5.1 („Affe tippt Shakespeare“) gibt es P -fast sicher unendlich
viele Blöcke der Länge k mit Xn+1 = Xn+2 = ... = Xn+k = 1. Es folgt
#
"
\[
{Sn+k − Sn = k}
P [lim Sn − lim Sn = ∞] ≥ P
k
Universität Bonn
=
1,
n
Wintersemester 2009/2010
184
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
und damit
1
=
P [lim Sn = +∞ oder lim Sn = −∞]
≤
P [lim Sn = +∞] + P [lim Sn = −∞].
Also ist eine der beiden Wahrscheinlichkeiten auf der rechten Seite größer als 12 , und damit nach
dem Kolmogorovschen 0-1-Gesetz gleich 1. Aus Symmetriegründen folgt
P [lim Sn = −∞]
=
P [lim Sn = +∞]
=
1.
Das vorangehende Beispiel zeigt eine typische Anwendung des Kolmogorovschen 0-1-Gesetzes
auf stochastische Prozesse. Um die Anwendbarkeit in räumlichen Modellen zu demonstrieren,
betrachten wir ein einfaches Perkolationsmodell:
Beispiel (Perkolation im Zd ). Sei p ∈ (0, 1) fest, und seien Xi (i ∈ Zd ) unabhängige Zufallsva-
riablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
P [Xi = 1] = p
,
P [Xi = 0] = 1 − p .
Ein Gitterpunkt i ∈ Zd heißt durchlässig, falls Xi = 1 gilt. Wir verbinden Gitterpunkte i, j ∈ Zd
mit |i − j| = 1 durch eine Kante. Sei A das Ereignis, dass bzgl. dieser Graphenstruktur ei-
ne unendliche Zusammenhangskomponente (Cluster) aus durchlässigen Gitterpunkten existiert
(Eine Flüssigkeit könnte in diesem Fall durch ein makroskopisches Modellstück, das aus mikroskopischen Gitterpunkten aufgebaut ist, durchsickern - daher der Name „Perkolation“). A ist
asymptotisch, also gilt nach dem Satz von Kolmogorov
P [A] ∈ {0, 1}.
Hingegen ist es im Allgemeinen nicht trivial, zu entscheiden, welcher der beiden Fälle eintritt.
Im Fall d = 1 zeigt man leicht (Übung):
P [A] = 0
für alle p < 1.
Für d = 2 gilt:
1
,
2
s. z.B. die Monografie „Percolation“ von Grimmett. Für d ≥ 3 ist nur bekannt, dass ein kritischer
P [A] = 1
Parameter pc ∈ (0, 1) existiert mit
P [A] =

1
0
Einführung in die Wahrscheinlichkeitstheorie
⇐⇒
p>
für p > pc .
für p < pc .
Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE
185
Man kann obere und untere Schranken für pc herleiten (z.B. gilt
1
2d−1
≤ pc ≤ 23 ), aber der genaue
Wert ist nicht bekannt. Man vermutet, dass P [A] = 0 für p = pc gilt, aber auch diese Aussage
konnte bisher nur in Dimension d ≥ 19 (sowie für d = 2) bewiesen werden, siehe das Buch von
Grimmett.
Definition. Eine Zufallsvariable Y : Ω → [−∞, ∞] heißt asymptotisch, wenn die bzgl. der
asymptotischen σ-Algebra τ messbar ist.
Das Perkolationsmodell ist ein Beispiel für ein sehr einfach formulierbares stochastisches Modell, das zu tiefgehenden mathematischen Problemstellungen führt. Es ist von großer Bedeutung, da ein enger Zusammenhang zu anderen Modellen der statistischen Mechanik und dabei
auftretenden Phasenübergängen besteht. Einige elementare Aussagen über Perkolationsmodelle
werden in den Wahrscheinlichkeitstheorie-Lehrbüchern von Y. Sinai und A. Klenke hergeleitet.
Korollar 5.15. Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), dann ist jede asymptotische Zufallsvariable Y : Ω → [−∞, ∞] P - fast sicher
konstant, d.h.
∃ c0 ∈ [−∞, ∞] :
P [Y = c0 ] = 1 .
Beweis. Ist Y τ - messbar, dann sind die Ereignisse {Y ≤ c},
c ∈ R, in τ enthalten. Aus
dem Kolmogorovschen 0-1-Gesetz folgt:
FY (c)
=
P [Y ≤ c]
∈
{0, 1}
∀ c ∈ R.
Da die Verteilungsfunktion monoton wachsend ist, existiert ein c0 ∈ [−∞, ∞] mit

0 für c < c0
P [Y ≤ c] =
,
1 für c > c
0
und damit P [Y = c0 ]
=
lim(FY (c0 ) − FY (c0 − ε))
=
ε↓0
1. = 1.
Beispiele für asymptotische Zufallsvariablen im Fall I = N sind etwa
lim Xn ,
n→∞
lim Xn ,
n→∞
n
1X
Xi ,
lim
n→∞ n
i=1
n
sowie
1X
Xi .
lim
n→∞ n
i=1
Insbesondere sind für unabhängige Zufallsvariablen X1 , X2 , ... : Ω → R sowohl
n
1 X
lim
Xi
n i=1
Universität Bonn
als auch
n
1 X
lim
Xi
n i=1
P - f.s. konstant.
Wintersemester 2009/2010
186
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Hieraus ergibt sich die folgende Dichotomie: Sind Xi , i ∈ N, unabhängige reellwertige Zufalls-
variablen, dann gilt entweder ein Gesetz großer Zahlen, d.h.
n
1X
Xi
n i=1
konvergiert P - f.s., und der Limes ist P - f.s. konstant
(falls der Limes inferior und Limes superior P -fast sicher übereinstimmen), oder
"
#
n
X
1
P
Xi konvergiert = 0.
n i=1
Es ist bemerkenswert, dass für die Gültigkeit der Dichotomie keine Annahmen über die Verteilung der Xi benötigt werden. Insbesondere müssen die Xi nicht identisch verteilt sein!
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 6
Erwartungswert und Varianz
In diesem Kapitel definieren wir den Erwartungswert, die Varianz und die Kovarianz allgemeiner
reellwertiger Zufallsvariablen, und beweisen grundlegende Eigenschaften und Abschätzungen.
Da wir auch Grenzübergänge durchführen wollen, erweist es sich als günstig, die Werte +∞
und −∞ zuzulassen. Wir setzen daher R = [−∞, ∞]. Der Raum R ist ein topologischer Raum
bzgl. des üblichen Konvergenzbegriffs. Die Borelsche σ-Algebra auf R wird u.a. erzeugt von
den Intervallen [−∞, c], c ∈ R. Die meisten Aussagen über reellwertige Zufallsvariablen aus
den vorangegangenen Abschnitten übertragen sich unmittelbar auf Zufallsvariablen X : Ω → R,
wenn wir die Verteilungsfunktion FX : R → [0, 1] definieren durch
FX (c)
=
µX [[−∞, c]]
=
P [X ≤ c].
6.1 Erwartungswert
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Wir wollen den
Erwartungswert (Mittelwert, Prognosewert) von X bezüglich der Wahrscheinlichkeitsverteilung
P in sinnvoller Weise definieren. Dazu gehen wir schrittweise vor:
Definition des Erwartungswerts
Elementare Zufallsvariablen
Nimmt X nur endlich viele Werte c1 , ..., cn ∈ R an, dann soll gelten:
E[X]
=
n
X
i=1
ci · P [X = ci ],
187
188
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
d.h. der Erwartungswert ist das Mittel der Werte ci gewichtet mit den Wahrscheinlichkeiten der
Ereignisse Ai := {X = ci }.
Definition. Eine Zufallsvariable von der Form
X=
n
X
ci I A i
i=1
(n ∈ N, ci ∈ R, Ai ∈ A)
heißt elementar. Ihr Erwartungswert bzgl. P ist
E[X] :=
n
X
i=1
ci · P [Ai ].
Diese Definition ist ein Spezialfall der Definition des Erwartungswerts diskreter Zufallsvariablen
aus Kapitel 1. Insbesondere ist der Erwartungswert E[X] wohldefiniert, d.h. unabhängig von der
gewählten Darstellung der Zufallsvariable X als Linearkombination von Indikatorfunktionen,
und die Abbildung X 7→ E[X] ist linear und monoton:
E[aX + bY ]
=
a · E[X] + b · E[Y ]
X≤Y
=⇒
für alle a, b ∈ R,
E[X] ≤ E[Y ].
Die Definition des Erwartungswerts einer elementaren Zufallsvariable stimmt genau mit der des
Lebesgueintegrals der Elementarfunktion X bzgl. des Maßes P überein:
Z
Z
E[X] =
X dP =
X(ω) P (dω)
Für allgemeine Zufallsvariablen liegt es nahe, den Erwartungswert ebenfalls als Lebesgueintegral
bzgl. des Maßes P zu definieren. Wir skizzieren hier die weiteren Schritte zur Konstruktion des
Lebesgueintegrals bzw. des Erwartungswerts einer allgemeinen Zufallsvariable, siehe auch die
Analysisvorlesung.
Nichtnegative Zufallsvariablen
Die Definition des Erwartungswerts einer nichtnegativen Zufallsvariable beruht auf der monotonen Approximation durch elementare Zufallsvariablen:
Lemma 6.1. Sei X : Ω → [0, ∞] eine nichtnegative Zufallsvariable auf (Ω, A, P ). Dann existiert
eine monoton wachsende Folge elementarer Zufallsvariablen 0 ≤ X1 ≤ X2 ≤ . . . mit
X
=
lim Xn
n→∞
Einführung in die Wahrscheinlichkeitstheorie
=
sup Xn .
n∈N
Prof. Andreas Eberle
6.1. ERWARTUNGSWERT
189
Beweis. Für n ∈ N sei
Xn (ω)
:=

(k − 1) · 2−n
n
falls (k − 1) · 2−n ≤ X(ω) < k · 2−n für ein k = 1, 2, . . . , n · 2n
falls X(ω) ≥ n
5
4
3
2
1
5
4
3
2
1
Abbildung 6.1: Approximation durch Elementarfunktionen. Hier ist die Annäherung in rot in
zwei verschiedenen Feinheiten dargestellt.
Universität Bonn
Wintersemester 2009/2010
.
190
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Dann ist Xn eine elementare Zufallsvariable, denn es gilt
Xn
=
n −1
n2
X
k=0
k
+ nI{X≥n} .
I k
k+1
2n { 2n ≤X< 2n }
Die Folge Xn (ω) ist für jedes ω monoton wachsend, da die Unterteilung immer feiner wird, und
sup Xn (ω)
=
n∈N
lim Xn (ω)
=
n→∞
für alle ω ∈ Ω.
X(ω)
Definition. Sei X : Ω → [0, ∞] eine nicht-negative Zufallsvariable.
Der Erwartungswert (bzw. das Lebesgueintegral) von X bzgl. P ist definiert als
E[X] := lim E[Xn ] = sup E[Xn ] ∈ [0, ∞],
n→∞
(6.1.1)
n→∞
wobei Xn eine monoton wachsende Folge von nichtnegativen elementaren Zufallsvariablen mit
X = sup Xn ist.
Auch in diesem Fall ist der Erwartungswert wohldefiniert (in [0, ∞]):
Lemma 6.2. Die Definition ist unabhängig von der Wahl einer monoton wachsenden Folge Xn
von nichtnegativen Zufallsvariablen mit X = sup Xn .
n∈N
Für den Beweis verweisen wir auf die Analysisvorlesung oder auf die Literatur, siehe z.B. Appendix 5 in W ILLIAMS „Probability with martingales.“
Bemerkung. Sind Xn = IAn und X = IA Indikatorfunktionen, dann folgt (6.1.1) aus der monotonen Stetigkeit von P . In diesem Fall gilt nämlich:
Xn ր X
⇐⇒
An ր A
(d.h. An monoton wachsend und A =
Aus der monotonen Stetigkeit von P folgt dann
E[X]
=
P [A]
=
lim P [An ]
=
[
An ).
lim E[Xn ].
Aus der Definition des Erwartungswerts folgt unmittelbar:
Lemma 6.3. Für nichtnegative Zufallsvariablen X, Y mit X ≤ Y gilt E[X] ≤ E[Y ].
Beweis. Ist X ≤ Y , dann gilt auch Xn ≤ Yn für die approximierenden elementaren Zufallsva-
riablen aus Lemma 6.1, also
E[X]
=
sup E[Xn ]
n∈N
Einführung in die Wahrscheinlichkeitstheorie
≤
sup E[Yn ]
=
E[Y ].
n∈N
Prof. Andreas Eberle
6.1. ERWARTUNGSWERT
191
Allgemeine Zufallsvariablen
Eine allgemeine Zufallsvariable X : Ω → R können wir in ihren positiven und negativen Anteil
zerlegen:
X
=
X+ − X−
mit
X+
:=
max(X, 0),
X−
:=
− min(X, 0).
X + und X − sind nichtnegative Zufallsvariablen. Ist mindestens einer der beiden Erwartungswerte E[X + ] bzw. E[X − ] endlich, dann können wir (ähnlich wie in Kapitel 1 für diskrete Zufallsvariablen) definieren:
Definition. Der Erwartungswert einer Zufallsvariable X : Ω → R mit E[X + ] < ∞ oder
E[X − ] < ∞ ist
Notation:
E[X]
:=
E[X + ] − E[X − ]
∈
[−∞, ∞].
Der Erwartungswert E[X] ist das Lebesgueintegral der messbaren Funktion X :
Ω → R bzgl. des Maßes P . Daher verwenden wir auch folgende Notation:
Z
Z
E[X] =
X dP =
X(ω) P (dω).
Eigenschaften des Erwartungswerts
Nachdem wir den Erwartungswert einer allgemeinen Zufallsvariable X : Ω → R definiert ha-
ben, fassen wir nun einige grundlegende Eigenschaften des Erwartungswerts zusammen. Dazu
bezeichnen wir mit
L1 = L1 (P ) = L1 (Ω, A, P ) := {X : Ω → R Zufallsvariable |
E[|X|] < ∞}
die Menge aller bzgl. P integrierbaren Zufallsvariablen. Für Zufallsvariablen X ∈ L1 (Ω, A, P )
ist nach Lemma 6.3 sowohl E[X + ] als auch E[X − ] endlich. Also ist der Erwartungswert E[X]
definiert und endlich.
Satz 6.4. Für Zufallsvariablen X, Y ∈ L1 (Ω, A, P ) und a, b ∈ R gilt:
(1). X ≥ 0 P -fast sicher =⇒ E[X] ≥ 0
(2). Die Zufallsvariable aX + bY ist bzgl. P integrierbar, und
E[aX + bY ]
Universität Bonn
=
a · E[X] + b · E[Y ].
Wintersemester 2009/2010
192
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Insbesondere ist der Erwartungswert monoton:
(3). X ≤ Y P -fast sicher =⇒ E[X] ≤ E[Y ].
Zum Beweis der Eigenschaften (1) und (2) verweisen wir auf die Analysisvorlesung oder die
Literatur. Eigenschaft (3) folgt unmittelbar aus (1) und (2).
Nach Aussage (2) des Satzes ist L1 (Ω, A, P ) ein Vektorraum. Durch
X∼Y
: ⇐⇒
P [X = Y ] = 1
wird eine Äquivalenzrelation auf diesem Raum definiert. Eine Konsequenz von Aussage (3) des
Satzes ist, dass zwei äquivalente (also P -fast sicher identische= Zufallsvariablen denselben Erwartungswert haben:
X∼Y
=⇒
E[X] = E[Y ].
Daher ist der Erwartungswert einer Äquivalenzklasse von P -fast sicher gleichen Zufallsvariablen
eindeutig definiert. In Zukunft verwenden wir häufig dieselbe Notation für die Äquivalenzklassen
und Repräsentanten aus den Äquivalenzklassen. Satz 6.4 besagt, dass der Erwartungswert ein
positives lineares Funktional auf dem Raum
L1 (Ω, A, P )
:=
L1 (Ω, A, P )/ ∼
aller Äquivalenzklassen von integrierbaren Zufallsvariablen definiert. Aus dem Satz folgt zudem:
Korollar 6.5. Durch
kXkL1 (Ω,A,P )
=
E[|X|]
wird eine Norm auf L1 (Ω, A, P ) definiert. Insbesondere gilt für Zufallsvariablen X : Ω → R :
E[|X|] = 0
=⇒
X=0
P -fast sicher.
Beweis. Für eine Zufallsvariable X : Ω → R mit E[|X|] = 0 und ε > 0 gilt wegen der Monotonie und Linearität des Erwartungswerts:
P [|X| ≥ ε] = E[I{|X|≥ε} ]
Für ε ց 0 folgt
≤
|X|
E
ε
=
1
E[|X|] = 0.
ε
P [|X| > 0] = lim P [|X| ≥ ε] = 0,
εց0
also X = 0 P -fast sicher.
Zudem folgt aus der Monotonie und Linearität des Erwartungswerts die Dreiecksungleichung:
E[|X + Y |]
≤
E[|X| + |Y |]
Einführung in die Wahrscheinlichkeitstheorie
=
E[|X|] + E[|Y |].
Prof. Andreas Eberle
6.1. ERWARTUNGSWERT
193
In der Analysis wird gezeigt, dass der Raum L1 (Ω, A, P ) bzgl. der im Korollar definierten Norm
ein Banachraum ist.
Konvergenzsätze
Ein Vorteil des Lebesgueintegrals gegenüber anderen Integrationsbegriffen ist die Gültigkeit von
sehr allgemeinen Konvergenzsätzen. Diese lassen sich zurückführen auf den folgenden fundamentalen Konvergenzsatz, der sich aus der oben skizzierten Konstruktion des Lebesgueintegrals
ergibt:
Satz 6.6 (Satz von der monotonen Konvergenz, B. Levi). Ist Xn , n ∈ N, eine monoton wach-
sende Folge von Zufallsvariablen mit E[X1− ] < ∞ (z.B. X1 ≥ 0), dann gilt:
E[sup Xn ]
=
E[ lim Xn ]
=
n→∞
n∈N
lim E[Xn ]
n→∞
=
sup E[Xn ].
n∈N
Der Beweis findet sich in zahlreichen Lehrbüchern der Integrations- oder Warscheinlichkeitstheorie, siehe z.B. W ILLIAMS : P ROBABILITY WITH MARTINGALES , A PPENDIX 5.
Eine erste wichtige Konsequenz des Satzes von der monotonen Konvergenz ist:
Korollar 6.7. Für nichtnegative Zufallsvariablen Xi , i ∈ N, gilt:
#
"∞
∞
X
X
=
E[Xi ].
E
Xi
i=1
i=1
Beweis.
E
"
∞
X
i=1
Xi
#
= E
=
=
=
"
lim
n→∞
lim E
n→∞
lim
n→∞
∞
X
n
X
" i=1
n
X
Xi
Xi
i=1
n
X
#
#
E[Xi ]
(wegen monotoner Konvergenz)
(wegen Linearität)
i=1
E[Xi ].
i=1
Bemerkung (Abzählbare Wahrscheinlichkeitsräume, Summation als Spezialfall von Integration). Falls Ω abzählbar ist, können wir jede Zufallsvariable X : Ω → R auf die folgende
Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X
X =
X(ω) · I{ω} .
ω∈Ω
Universität Bonn
Wintersemester 2009/2010
194
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Ist X ≥ 0, dann gilt nach Korollar 6.7:
E[X]
X
=
ω∈Ω
X(ω) · P [{ω}].
Dieselbe Darstellung des Erwartungswerts gilt auch für allgemeine reellwertige Zufallsvariablen
auf Ω, falls der Erwartungswert definiert ist, d.h. E[X + ] oder E[X − ] endlich ist.
Insbesondere sehen wir, dass Summation ein Spezialfall von Integration ist: Ist Ω abzählbar und
p(ω) ≥ 0 für alle ω ∈ Ω, dann gilt
X
ω∈Ω
X(ω) · p(ω)
=
Z
X dP,
wobei P das Maß mit Massenfunktion p ist. Beispielsweise gilt also
Z
X
X(ω) =
X dν,
ω∈Ω
wobei ν das durch ν[A] = |A|, A ⊆ Ω, definierte Zählmaß ist.
Konvergenzsätze wie der Satz von der monotonen Konvergenz lassen sich also auch auf Summen
anwenden!
Beispiel. Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann ist
E[X]
=
1 X
X(ω)
|Ω| ω∈Ω
das arithmetische Mittel von X.
Wir beweisen nun noch zwei wichtige Konvergenzsätze, die sich aus dem Satz von der monotonen Konvergenz ergeben:
Korollar 6.8 (Lemma von Fatou). Seien X1 , X2 , · · · : Ω → R Zufallsvariablen auf einem
Wahrscheinlichkeitsraum (Ω, A, P ) und sei Y ∈ L1 (Ω, A, P ) (z.B. Y ≡ 0).
(1). Gilt Xn ≥ Y für alle n ∈ N, dann folgt
E[lim inf Xn ] ≤ lim inf E[Xn ].
(2). Gilt Xn ≤ Y für alle n ∈ N, dann folgt
E[lim sup Xn ] ≥ lim sup E[Xn ].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
195
Beweis. Die Aussagen folgen aus dem Satz über monotone Konvergenz. Beispielsweise gilt:
E [lim inf Xn ] = E lim inf Xk = lim E inf Xk
n→∞ k≥n
≤
n→∞
k≥n
lim inf E[Xk ] = lim inf E[Xn ],
n→∞ k≥n
n→∞
da die Folge der Infima monoton wachsend ist und durch die integrierbare Zufallsvariable Y nach
unten beschränkt ist. Die zweite Aussage zeigt man analog.
Korollar 6.9 (Satz von der majorisierten Konvergenz, Lebesgue). Sei Xn : Ω → R, n ∈
N, eine P -fast sicher konvergente Folge von Zufallsvariablen. Existiert eine Majorante Y ∈
L1 (Ω, A, P ) mit |Xn | ≤ Y für alle n ∈ N, dann gilt
E[lim Xn ]
=
lim E[Xn ].
(6.1.2)
Beweis. Nach dem Lemma von Fatou gilt:
E[lim inf Xn ] ≤ lim inf E[Xn ] ≤ lim sup E[Xn ] ≤ E[lim sup Xn ],
da Xn ≥ −Y ∈ L1 und Xn ≤ Y ∈ L1 für alle n ∈ N gilt. Konvergiert Xn P -fast sicher, dann
stimmen die linke und rechte Seite der obigen Ungleichungskette überein.
Beispiel. Wir betrachten Setzen mit Verdoppeln auf »Null« für eine Folge von fairen Münzwürfen. Bei Anfangseinsatz 1 beträgt das Kapital des Spielers nach n Münzwürfen
Xn
=
2n · I{n<T } ,
wobei T die Wartezeit auf die erste »Eins« ist. Es folgt
E[Xn ] = 2n P [T > n] = 2n · 2−n = 1
für alle n ∈ N,
das Spiel ist also fair. Andererseits fällt aber P -fast sicher irgendwann eine »Eins«, d.h. es gilt:
lim Xn = 0
n→∞
P -fast sicher.
Die Aussage (6.1.2) des Satzes von Lebesgue ist in dieser Situation nicht erfüllt!
6.2 Berechnung von Erwartungswerten; Dichten
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. In diesem Abschnitt zeigen wir, wie man in verschiedenen Fällen den Erwartungswert einer Zufallsvariable X : Ω → [0, ∞] aus der Verteilung von
X berechnen kann.
Universität Bonn
Wintersemester 2009/2010
196
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Diskrete Zufallsvariablen
Falls X nur abzählbar viele Werte annimmt, können wir die Zufallsvariable X auf folgende Weise
als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X
X=
a · I{X=a} .
a∈X(Ω)
Es folgt:
E[X] =
X
a∈X(Ω)
E[a · I{X=a} ] =
X
a∈X(Ω)
a · P [X = a].
Dieselbe Aussage gilt allgemeiner für diskrete reellwertige Zufallsvariablen X mit
E[X + ] < ∞
oder
E[X − ] < ∞.
Für Zufallsvariablen X : Ω → S, mit Werten in einer beliebigen abzählbaren Menge S, und eine
Borel-messbare Funktion h : S → R erhalten wir entsprechend
X
E[h(X)] =
h(a) · P [X = a],
(6.2.1)
a∈X(Ω)
falls E[h(X)] definiert ist, also z.B. falls h ≥ 0 oder h(X) ∈ L1 (Ω, A, P ) gilt.
Die allgemeine Definition des Erwartungswerts als Lebesgueintegral stimmt also für diskrete
Zufallsvariablen mit der in Kapitel 1 gegebenen Definition überein.
Allgemeine Zufallsvariablen
Die Berechnungsmethode (6.2.1) für den Erwartungswert diskreter Zufallsvariablen lässt sich auf
Zufallsvariablen mit beliebigen Verteilungen erweitern. Sei dazu (Ω, A, P ) ein Wahrscheinlichkeitsraum, (S, S) ein messbarer Raum, X : Ω → S eine Zufallsvariable, und h : S → [0, ∞]
eine messbare Abbildung.
Satz 6.10 (Transformationssatz). Unter den obigen Voraussetzungen gilt:
Z
Z
EP [h(X)] =
h(X(ω))P (dω) =
h(x) µ(dx) = Eµ [h],
wobei µ = P ◦ X −1 die Verteilung von X unter P ist, und EP bzw. Eµ den Erwartungswert unter
P bzw. µ bezeichnet.
Die Erwartungswerte hängen somit nur von der Verteilung von X ab!
Beweis. Der Beweis erfolgt in drei Schritten:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
197
(1). Ist h = IB die Indikatorfunktion einer messbaren Menge B ∈ S, dann gilt:
Z
Z
−1
E[h(X)] =
IB (X(ω))P (dω) = P [X (B)] = µ[B] =
IB dµ,
da IB (X(ω)) = IX −1 (B) (ω) gilt.
(2). Für Linearkombinationen h =
Pn
i=1
ai IBi von Indikatorfunktionen mit n ∈ N, ai ∈ R, und
Bi ∈ S gilt die Aussage auch, da das Lebesgueintegral linear vom Integranden abhängt.
(3). Für eine allgemeine messbare Funktion h ≥ 0 existiert schließlich eine monoton wachsende Folge hn von Elementarfunktionen mit hn (x) ր h(x) für alle x ∈ S. Durch zweimalige
Anwendung des Satzes von der monotonen Konvergenz erhalten wir erneut:
Z
Z
E[h(X)] = E[lim hn (X)] = lim E[hn (X)] = lim hn dµ = h dµ.
Das hier verwendete Beweisverfahren der »maßtheoretischen Induktion« wird noch sehr häufig
auftreten: Wir zeigen eine Aussage
(1). für Indikatorfunktionen,
(2). für Elementarfunktionen,
(3). für nichtnegative messbare Funktionen,
(4). für allgemeine integrierbare Funktionen.
Mit maßtheoretischer Induktion zeigt man auch:
Übung: Jede σ(X)-messbare Zufallsvariable Y : Ω → R ist vom Typ Y = h(X) mit einer
messbaren Funktion h : S → R.
Nach Satz 6.10 ist der Erwartungswert E[T ] einer reellwertigen Zufallsvariable T : Ω → [0, ∞]
eindeutig bestimmt durch die Verteilung µT = P ◦ T −1 :
Z
E[T ] =
t µT (dt) ,
also auch durch die Verteilungsfunktion
FT (t) = P [T ≤ t] = µT [[0, t]],
t ∈ R.
Der folgende Satz zeigt, wie man den Erwartungswert konkret aus FT berechnet:
Universität Bonn
Wintersemester 2009/2010
198
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Satz 6.11. Für eine Zufallsvariable T : Ω → [0, ∞] gilt
Z ∞
Z ∞
E[T ] =
P [T > t] dt =
(1 − FT (t)) dt.
0
0
Beweis. Wegen
T (ω) =
Z
T (ω)
dt =
0
Z
∞
0
I{T >t} (ω)dt
erhalten wir
E[T ] = E
Z
∞
0
I{T >t} dt =
Z
∞
0
E I{T >t} dt =
Z
∞
P [T > t] dt.
0
Hierbei haben wir im Vorgriff auf Kapitel 9 den Satz von Fubini benutzt, der gewährleistet, dass
man zwei Lebesgueintegrale (das Integral über t und den Erwartungswert) unter geeigneten Voraussetzungen (Produktmessbarkeit) vertauschen kann, siehe Satz 9.1.
Bemerkung (Stieltjesintegral). Das Lebesgue-Stieltjes-Integral
R
h dF einer messbaren Funkti-
on h : R → [0, ∞] bzgl. der Verteilungsfunktion F einer Wahrscheinlichkeitsverteilung µ auf R
ist definiert als das Lebesgueintegral
Z
h(t) dF (t)
:=
Z
h(t) µ(dt).
Ist h stetig, dann lässt sich das Integral als Limes von Riemannsummen darstellen. Nach dem
Transformationssatz gilt für eine Zufallsvariable T : Ω → [0, ∞]:
Z
Z
E[T ] =
t µT (dt) =
t dFT (t).
Die Aussage von Satz 6.11 folgt hieraus formal durch partielle Integration.
Beispiel (Exponentialverteilung). Für eine exponentialverteilte Zufallsvariable T mit Parameter
λ > 0 erhalten wir:
E[T ]
=
Z∞
P [T > t] dt
=
Z∞
e−λt dt
=
1
.
λ
0
0
Es gilt also
Mittlere Wartezeit
=
1
Mittlere relative Häufigkeit pro Zeiteinheit
.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
199
Beispiel (Heavy tails). Sei α > 0. Für eine Zufallsvariable T : Ω → [0, ∞) mit
∼
P [T > t]
gilt
E[T ]
Z∞
=
t−α
für t → ∞
P [T > t] dt
<
∞
0
genau dann, wenn α > 1. Allgemeiner ist das p-te Moment
E[T p ]
=
Z∞
P [T p > t] dt
=
Z∞
0
0
nur für p < α endlich.
P [T > t1/p ] dt
| {z }
∼tα/p
Zufallsvariablen mit Dichten
Die Verteilungen vieler Zufallsvariablen haben eine Dichte bzgl. des Lebesguemaßes, oder bzgl.
eines anderen geeigneten Referenzmaßes. Wir wollen uns nun überlegen, wie man in diesem Fall
den Erwartungswert berechnet.
Sei (S, S) ein messbarer Raum und ν ein Maß auf (S, S) (z.B. das Lebesguemaß oder eine
Wahrscheinlichkeitsverteilung).
Definition. Eine Wahrscheinlichkeitsdichte auf (S, S, ν) ist eine messbare Funktion ̺ : S →
[0, ∞] mit
Z
̺(x) ν(dx) = 1.
S
Satz 6.12. (1). Ist ̺ eine Wahrscheinlichkeitsdichte auf (S, S, ν), dann wird durch
Z
Z
µ[B] :=
̺(x) ν(dx) =
IB (x)̺(x) ν(dx)
(6.2.2)
B
eine Wahrscheinlichkeitsverteilung µ auf (S, S) definiert.
(2). Für eine messbare Funktion h : S → [0, ∞] gilt
Z
Z
h(x) µ(dx) =
h(x)̺(x) ν(dx).
(6.2.3)
Insbesondere folgt nach dem Transformationssatz:
Z
E[h(X)] =
h(x)̺(x) ν(dx)
für jede Zufallsvariable X mit Verteilung µ.
Universität Bonn
Wintersemester 2009/2010
200
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis. Wir zeigen zunächst, dass µ eine Wahrscheinlichkeitsverteilung ist: Sind B1 , B2 , ... ∈ S
disjunkt, so folgt
"∞ #
Z
[
(x) · ̺(x) ν(dx)
IS∞
µ
Bi =
i=1 Bi
i=1
=
=
=
Z
ISni=1 Bi (x) · ̺(x) ν(dx) (wegen ̺ ≥ 0 und monotoner Konvergenz)
n
n Z
X
X
µ[Bi ]
̺(x) ν(dx) =
lim
lim
lim
n→∞
n→∞
∞
X
n→∞
Bi
i=1
i=1
µ[Bi ].
i=1
Zudem gilt:
µ[S]
Z
=
̺ dν
=
1.
Die Aussage (6.2.3) über den Erwartungswert beweisen wir durch maßtheoretische Induktion:
(1). Die Aussage folgt unmittelbar, wenn h = IB für B ∈ S gilt.
(2). Für Linearkombinationen h =
ten von (6.2.3) in h.
Pn
i=1 ci IBi
folgt die Aussage aus der Linearität beider Sei-
(3). Für allgemeine h ≥ 0 existiert eine Teilfolge hn aus Elementarfunktionen mit hn ր h. Mit
monotoner Konvergenz folgt
Z
Z
h dµ = lim hn dµ
=
lim
Z
hn ̺ dν
=
Z
h̺ dν.
Bemerkung. Durch (6.2.2) wird die Dichte ̺(x) der Wahrscheinlichkeitsverteilung µ bzgl. des
Maßes ν für ν-fast alle x eindeutig festgelegt: Existiert ̺e ∈ L1 (S, S, ν) mit
Z
Z
̺ dν = µ[B] =
̺e dν
für alle B ∈ S,
B
dann folgt:
Z
Somit erhalten wir:
und damit ̺ = ̺e
B
{̺>e
̺}
Z
(̺ − ̺e) dν =
+
(̺ − ̺e) dν =
Z
Z
{̺<e
̺}
(̺ − ̺e) dν
=
0,
also
(̺ − ̺e)− dν = 0.
(̺ − ̺e)+ = (̺ − ̺e)− = 0
ν-fast überall,
ν-fast überall.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
Notation:
201
Die Aussage (6.2.3) rechtfertigt die folgende Notation für eine Wahrscheinlichkeits-
verteilung µ mit Dichte ̺ bzgl. ν:
µ(dx)
=
̺(x) ν(dx)
dµ
bzw.
=
̺ dν
µ
bzw.
=
̺ · ν.
Für die nach der Bemerkung ν-fast überall eindeutig bestimmte Dichte von µ bzgl. ν verwenden
wir dementsprechend auch die folgende Notation:
̺(x)
dµ
(x).
dν
=
Wichtige Spezialfälle:
(1). M ASSENFUNKTION ALS D ICHTE BZGL . DES Z ÄHLMASSES .
Das Zählmaß auf einer abzählbaren Menge S ist das durch
ν[B]
|B|,
=
B ⊆ S,
definierte Maß auf S. Die Gewichtsfunktion x 7→ µ[{x}] einer Wahrscheinlichkeitsvertei-
lung µ auf S ist die Dichte von µ bzgl. des Zählmaßes ν. Insbesondere ist die Massenfunktion einer diskreten Zufallsvariable X : Ω → S die Dichte der Verteilung von X bzgl.
ν:
µX [B]
=
P [X ∈ B]
=
X
pX (a)
Z
=
a∈B
pX (a)ν(da),
für alle B ⊆ S.
B
Die Berechnungsformel für den Erwartungswert diskreter Zufallsvariablen ergibt sich damit als Spezialfall von Satz 6.12:
Z
6.12
E[h(X)] =
h(a)pX (a) ν(da)
=
X
h(a)pX (a)
a∈S
für alle h : S → [0, ∞].
(2). D ICHTEN BZGL . DES L EBESGUEMASSES
Eine Wahrscheinlichkeitsverteilung µ auf Rd mit Borelscher σ-Algebra hat genau dann
eine Dichte ̺ bzgl. des Lebesguemaßes λ, wenn
µ[(−∞, c1 ] × . . . × (−∞, cd ]]
=
Zc1
···
−∞
Zcd
̺(x1 , . . . , xd ) dxd · · · dx1
−∞
für alle (c1 , . . . , cd ) ∈ Rd gilt. Insbesondere hat die Verteilung einer reellwertigen Zufalls-
variable X genau dann die Dichte fX bzgl. λ, wenn
FX (c)
=
µX [(−∞, c]]
=
Zc
fX (x) dx
für alle c ∈ R
−∞
Universität Bonn
Wintersemester 2009/2010
202
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
gilt. Die Verteilungsfunktion ist in diesem Fall eine Stammfunktion der Dichte, und damit
λ-fast überall differenzierbar mit Ableitung
FX′ (x)
=
für fast alle x ∈ R.
fX (x)
Für den Erwartungswert ergibt sich:
E[h(X)]
Z
=
h(x)fX (x) dx
R
für alle messbaren Funktionen h : R → R mit h ≥ 0 oder h ∈ L1 (R, B(R), µ).
Beispiel (Normalverteilungen). Die Dichte der Standardnormalverteilung bzgl. des Lebesguemaßes ist ̺(x) = (2π)−1/2 · e−x
2 /2
. Damit ergibt sich für den Erwartungswert und die Varianz
einer Zufallsvariable Z ∼ N (0, 1):
E[Z] =
Z∞
x · (2π)−1/2 · e−x
2 /2
dx
=
0,
und
−∞
Var[Z] = E[(Z − E[Z])2 ] = E[Z 2 ]
Z∞
2
x2 · (2π)−1/2 · e−x /2 dx
=
=
−∞
Z∞
1 · (2π)−1/2 · e−x
2 /2
dx
=
1.
−∞
Hierbei haben wir im letzten Schritt partielle Integration benutzt.
Ist X eine N (m, σ 2 )-verteilte Zufallsvariable, dann ist Z =
X−m
σ
standardnormalverteilt, und es
gilt X = m + σZ, also
E[X]
=
m + σE[Z]
=
m,
und
Var[X]
=
Var[σZ]
=
σ 2 Var[Z]
=
σ2.
Die Parameter m und σ geben also den Erwartungswert und die Standardabweichung der Normalverteilung an.
(3). R ELATIVE D ICHTEN : Seien µ und ν zwei Wahrscheinlichkeitsverteilungen auf einem
messbaren Raum (S, S) mit Dichten f bzw. g bezüglich eines Referenzmaßes λ (z.B. Zählmaß oder Lebesguemaß). Gilt g > 0 λ-fast überall, dann hat µ bzgl. ν die Dichte
dµ
dν
=
Einführung in die Wahrscheinlichkeitstheorie
f
g
=
dµ/dλ
,
dν/dλ
Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN
203
denn nach Satz 6.12 gilt:
Z
µ[B] =
f dλ
=
B
Z
=
Z
f
g dλ
g
B
f
dν
g
für alle B ∈ S.
B
In der Statistik treten relative Dichten als „Likelihoodquotienten“ auf, wobei f (x) bzw.
g(x) die „Likelihood“ eines Beobachtungswertes x bzgl. verschiedener möglicher zugrundeliegender Wahrscheinlichkeitsverteilungen beschreibt, s. Abschnitt 9.1.
Existenz von Dichten
Wir geben abschließend ohne Beweis den Satz von Radon-Nikodym an. Dieser Satz besagt, dass
eine Wahrscheinlichkeitsverteilung (oder allgemeiner ein σ-endliches Maß) µ genau dann eine Dichte bzgl. eines anderen (σ-endlichen) Maßes ν hat, wenn alle ν-Nullmengen auch µNullmengen sind. Ein Maß µ auf einem messbaren Raum (S, S) heißt σ-endlich, wenn eine
S
Bn existiert.
Folge von messbaren Mengen Bn ∈ S mit µ[Bn ] < ∞ und S =
n∈N
Definition. (1). Ein Maß µ auf (S, S) heißt absolutstetig bzgl. eines anderen Maßes ν auf
demselben messbaren Raum (µ ≪ ν) falls für alle B ∈ S gilt:
ν[B] = 0
=⇒
µ[B] = 0
(2). Die Maße µ und ν heißen äquivalent (µ ∼ ν), falls µ ≪ ν und ν ≪ µ.
Beispiel. Ein Diracmaß δx , x ∈ R, ist nicht absolutstetig bzgl. das Lebesguemaßes λ auf R, denn
es gilt λ[{x}] = 0, aber δx [{x}] > 0. Umgekehrt ist auch das Lebesguemaß nicht absolutstetig
bzgl. des Diracmaßes.
Satz 6.13 (Radon-Nikodym). Für σ-endliche Maße µ und ν gilt µ ≪ ν genau dann, wenn eine
Dichte ̺ ∈ L1 (S, S, ν) existiert mit
µ[B]
=
Z
für alle B ∈ S.
̺ dν
B
Die eine Richtung des Satzes zeigt man leicht: Hat µ eine Dichte bzgl. ν, und gilt ν[B] = 0, so
folgt
µ[B]
=
Z
B
Universität Bonn
̺ dν
=
Z
̺ · IB dν
=
0,
Wintersemester 2009/2010
204
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
da ̺ · IB = 0 ν-fast überall. Der Beweis der Umkehrung ist nicht so einfach, und kann funk-
tionalanalytisch erfolgen, siehe z.B. Klenke: „Wahrscheinlichkeitstheorie“. Einen stochastischen
Beweis über Martingaltheorie werden wir in der Vorlesung „Stochastische Prozesse“ führen.
Beispiel (Absolutstetigkeit von diskreten Wahrscheinlichkeitsverteilungen). Sind µ und ν
Wahrscheinlichkeitsverteilungen (oder σ-endliche Maße) auf einer abzählbaren Menge S, dann
gilt µ ≪ ν genau dann, wenn µ(x) = 0 für alle x ∈ S mit ν(x) = 0 gilt. In diesem Fall ist die
Dichte von µ bzgl. ν durch
dµ
(x)
dν
=


 µ(x)
ν(x)

beliebig
falls ν(x) 6= 0
sonst
gegeben. Man beachte, dass die Dichte nur für ν-fast alle x, also für alle x mit ν(x) 6= 0, eindeutig
bestimmt ist.
6.3
Varianz, Kovarianz und lineare Regression
Varianz und Standardabweichung
Sei X : Ω → R eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Wie zuvor für diskrete Zufallsvariablen (s. Abschnitt 3.1) definieren wir auch im allgemeinen Fall
die Varianz Var[X] und die Standardabweichung σ[X] durch
Var[X]
:=
E[(X − E[X])2 ],
σ[X]
:=
p
Var[X].
Auch in diesem Fall folgen aus der Linearität des Erwartungswerts die Rechenregeln
Var[X] = E[X 2 ] − E[X]2 ,
Var[aX + b] = Var[aX]
=
und
a2 · Var[X]
(6.3.1)
für alle a, b ∈ R.
(6.3.2)
Insbesondere ist die Varianz genau dann endlich, wenn E[X 2 ] endlich ist. Nach Korollar 6.5
gilt zudem genau dann Var[X] = 0, wenn X P -f.s. konstant gleich E[X] ist. Aufgrund des
Transformationssatzes für den Erwartungswert können wir die Varianz auch allgemein aus der
Verteilung µX = P ◦ X −1 berechnen:
Korollar 6.14. Die Varianz Var[X] hängt nur von der Verteilung µX = P ◦ X −1 ab:
Z
Z
2
mit
x = E[X] =
x µ(dx).
Var[X] =
(x − x) µX (dx)
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
205
Beweis. Nach Satz 6.12 gilt
Var[X]
mit E[X] =
R
2
E[(X − E[X]) ]
=
Z
=
(x − E[X])2 µX (dx)
xµX (dx).
Beispiel (Empirisches Mittel und empirische Varianz). Ist die zugrundeliegende Wahrscheinlichkeitsverteilung auf Ω eine empirische Verteilung
n
P
1X
δω
n i=1 i
=
von n Elementen ω1 , . . . , ωn aus einer Grundgesamtheit (z.B. alle Einwohner von Bonn, oder eine
Stichprobe daraus), dann ist die Verteilung einer Abbildung X : Ω → S (statistisches Merkmal,
z.B. Alter der Einwohner von Bonn) gerade die empirische Verteilung der auftretenden Werte
xi = X(ωi ):
n
µX
1X
δx .
n i=1 i
=
Die Gewichte der empirischen Verteilung sind die relativen Häufigkeiten
µX (a)
h(a)
,
n
=
h(a)
|{1 ≤ i ≤ n : xi = a}|.
=
Für den Erwartungswert einer Funktion g(X), g : S → R, ergibt sich
E[g(X)]
X
=
a∈{x1 ,...,xn }
h(a)
g(a) ·
n
n
1X
g(xi ),
n i=1
=
d.h. der Erwartungswert bzgl. der empirischen Verteilung ist das arithmetische Mittel der Werte
g(xi ).
Ist X reellwertig, so erhalten wir als Erwartungswert und Varianz das empirische Mittel
E[X]
X
=
a∈{x1 ,...,xn }
a·
h(a)
n
n
=
1X
xi
n i=1
=:
xn ,
und die empirische Varianz
Var[X] = E[(X − E[X])2 ]
=
Universität Bonn
1
n
n
X
i=1
(xi − xn )2
=
X
a∈{x1 ,...,xn }
(a − xn )2 ·
= (x2 )n − (xn )2
=:
h(a)
n
σn2 .
Wintersemester 2009/2010
206
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Sind die xi selbst unabhängige Stichproben von einer Wahrscheinlichkeitsverteilung µ, dann ist
n
P
δxi nach dem Gesetz der großen Zahlen eine Approximation
die empirische Verteilung n−1
i=1
von µ, siehe Abschnitt 7.2 unten. Daher verwendet man das Stichprobenmittel xn und die Stichprobenvarianz σn2 bzw. die renormierte Stichprobenvarianz
n
s2n
1 X
(xi − xn )2
=
n − 1 i=1
in der Statistik, um den Erwartungswert und die Varianz einer zugrundeliegenden (unbekannten)
Verteilung zu schätzen.
Beispiel (Exponentialverteilung). Für eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable T gilt E[T ] = λ1 . Mit partieller Integration folgt zudem:
E[T 2 ] =
Z∞
t2 fT (t) dt
=
Z∞
−λt
=
2te
2
λ
dt
=
=
2
,
λ2
0
p
Var[T ]
=
Z∞
tfT (t) dt
0
2
E[T ]
=
λ
σ(T )
t2 λe−λt dt
0
0
also
Z∞
=
(E[T 2 ] − E[T ]2 )1/2
=
1
.
λ
Die Standardabweichung ist also genauso groß wie der Erwartungswert!
Beispiel (Heavy Tails). Eine Zufallsvariable X : Ω → R mit Verteilungsdichte
fX (x)
∼
|x|−p
für |x| → ∞
ist integrierbar für p > 2. Für p ∈ (2, 3] gilt jedoch
Var[X]
=
Z∞
(x − E[X])2 fX (x) dx
=
∞.
−∞
Quadratintegrierbare Zufallsvariablen
Für einen gegebenen Wahrscheinlichkeitsraum (Ω, A, P ) bezeichnen wir mit L2 (Ω, A, P ) den
Raum aller bezüglich P quadratintegrierbaren Zufallsvariablen:
L2 (Ω, A, P )
=
{X : Ω → R messbar |
Einführung in die Wahrscheinlichkeitstheorie
E[X 2 ] < ∞}.
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
207
Der Raum ist ein Unterraum des Vektorraums aller A/B(R) messbaren Abbildungen, denn für
X, Y ∈ L2 (Ω, A, P ) und a ∈ R gilt:
E[(aX + Y )2 ]
≤
E[2(aX)2 + 2Y 2 ]
=
2a2 E[X 2 ] + 2E[Y 2 ]
L2 (Ω, A, P )
L1 (Ω, A, P ),
<
∞.
Zudem gilt
⊆
denn aus |X| ≤ (X 2 + 1)/2 folgt
1 2
E[|X|] ≤ E (X + 1)
2
=
1
(E[X 2 ] + 1)
2
<
∞
für alle X ∈ L2 (Ω, A, P ). Hierbei haben wir wesentlich benutzt, dass P ein endliches Maß ist
- für unendliche Maße ist der Raum L2 nicht in L1 enthalten! Nach (6.3.1) ist umgekehrt eine
Zufallsvariable aus L1 genau dann in L2 enthalten, wenn sie endliche Varianz hat.
Auf dem Vektorraum
L2 (Ω, A, P )
L2 (Ω, A, P )/ ∼
=
der Äquivalenzklassen von P -fast sicher gleichen quadratintegrierbaren Zufallsvariablen wird
durch
:=
(X, Y )L2
E[XY ]
und
kXkL2
:=
1/2
(X, X)L2
ein Skalarprodukt und eine Norm definiert. Hierbei ist der Erwartungswert E[XY ] wegen |XY | ≤
(X 2 + Y 2 )/2 definiert. Insbesondere gilt die Cauchy-Schwarz-Ungleichung
|E[XY ]|
≤
E[X 2 ]1/2 · E[Y 2 ]1/2
für alle X, Y ∈ L2 (Ω, A, P ).
In der Analysis wird gezeigt, dass L2 (Ω, A, P ) bzgl. des L2 -Skalarprodukts ein Hilbertraum, also
vollständig bzgl. der L2 -Norm ist.
Beste Prognosen
Angenommen wir wollen den Ausgang eines Zufallsexperiments vorhersagen, dass durch eine
reellwertige Zufallsvariable X : Ω → R beschrieben wird. Welches ist der beste Prognosewert a
für X(ω), wenn uns keine weiteren Informationen zur Verfügung stehen?
Die Antwort hängt offensichtlich davon ab, wie wir den Prognosefehler messen. Häufig verwendet man den mittleren quadratischen Fehler (mean square error)
MSE
Universität Bonn
=
E[(X − a)2 ]
Wintersemester 2009/2010
208
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
bzw. die Wurzel (root mean square error)
RMSE
=
MSE1/2
kX − akL2 (Ω,A,P ) .
=
Satz 6.15 (Erwartungswert als bester L2 -Prognosewert). Ist X ∈ L2 (Ω, A, P ), dann gilt für
alle a ∈ R:
E[(X − a)2 ]
=
Var[X] + (a − E[X])2
≥
E[(X − E[X])2 ]
Der mittlere quadratische Fehler des Prognosewertes a ist also die Summe der Varianz von X
und des Quadrats des Bias (systematischer bzw. mittlerer Prognosefehler) a − E[X]:
Varianz + Bias2 .
=
MSE
Insbesondere ist der mittlere quadratische Fehler genau für a = E[X] minimal.
Beweis. Für a ∈ R gilt wegen der Linearität des Erwartungswertes:
E[(X − a)2 ] = E[(X − E[X] + E[X] − a)2 ]
= E[(X − E[X])2 ] + 2E[(X − E[X]) · (E[X] − a)] + E[(E[X] − a)2 ]
{z
}
|
=(E[X] − E[X]) ·(E[X]−a)
{z
}
|
=0
2
= Var[X] + (E[X] − a) .
Verwendet man eine andere Norm, um den Prognosefehler zu messen, dann ergeben sich im
Allgemeinen andere beste Prognosewerte. Beispielsweise gilt:
Satz 6.16 (Median als bester L1 -Prognosewert). Ist X ∈ L1 (Ω, A, P ) und m ein Median der
Verteilung von X, dann gilt für alle a ∈ R:
E[|X − a|]
≥
E[|X − m|]
.
Beweis. Für m ≥ a folgt die Behauptung aus der Identität
|X − m| − |X − a|
≤
(m − a)(I(−∞,m) (X) − I[m,∞) (X))
durch Bilden des Erwartungswertes. Der Beweis für m ≤ a verläuft analog.
Insbesondere minimieren Stichprobenmittel und Stichprobenmedian einer Stichprobe x1 , . . . , xn ∈
P
P
R also die Summe der quadratischen bzw. absoluten Abweichungen (xi − a)2 bzw. |xi − a|.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
209
Kovarianz und Korrelation
Seien X und Y quadratintegrierbare reellwertige Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Wie schon für diskrete Zufallsvariablen definieren wir wieder die Kovarianz
Cov[X, Y ]
:=
E[(X − E[X])(Y − E[Y ])]
=
E[XY ] − E[X] · E[Y ]
und den Korrelationskoeffizienten
̺[X, Y ]
:=
Cov[X, Y ]
,
σ[X]σ[Y ]
falls σ[X] · σ[Y ] 6= 0. Die Zufallsvariablen X und Y heißen unkorreliert, falls Cov[X, Y ] = 0
gilt, d.h. falls
E[XY ]
=
E[X] · E[Y ].
Um die Kovarianz zu berechnen, benötigen wir die gemeinsame Verteilung der Zufallsvariablen
X und Y . Aus dem Transformationssatz für den Erwartungswert folgt:
Korollar 6.17. Die Kovarianz Cov[X, Y ] hängt nur von der gemeinsamen Verteilung
µX,Y
=
P ◦ (X, Y )−1
der Zufallsvariablen X und Y ab:
Z
Z
Z x − z µX (dz)
y − z µY (dz) µX,Y (dx dy).
Cov[X, Y ] =
Beweis. Nach dem Transformationssatz gilt
Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]
Z
Z
Z x − z µX (dz)
y − z µY (dz) µX,Y (dx dy).
=
Aus der Linearität des Erwartungswertes folgt, dass die Abbildung Cov : L2 × L2 → R symmetrisch und bilinear ist. Die Varianz Var[X] = Cov[X, X] ist die zugehörige quadratische Form.
Insbesondere gilt wie im diskreten Fall:
#
" n
n
n
X
X
X
=
Var[Xi ] + 2 ·
Var
Cov[Xi , Xj ].
Xi
i=1
Universität Bonn
i=1
i,j=1
i<j
Wintersemester 2009/2010
210
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Sind die Zufallsvariablen X1 , . . . , Xn unkorreliert, dann folgt:
Var[X1 + . . . + Xn ]
n
X
=
Var[Xi ].
i=1
Die folgende Aussage ist ein Spezialfall der Cauchy-Schwarz-Ungleichung. Wir geben trotzdem
einen vollständigen Beweis, da dieser auch in Zusammenhang mit linearer Regression von Interesse ist.
Satz 6.18 (Cauchy-Schwarz). (1). Für X, Y ∈ L2 gilt:
| Cov[X, Y ]|
≤
Var[X]1/2 · Var[Y ]1/2
=
σ[X] · σ[Y ].
(6.3.3)
(2). Im Fall σ[X] · σ[Y ] 6= 0 gilt für den Korrelationskoeffizienten
|̺[X, Y ]|
≤
1.
(6.3.4)
Gleichheit in (6.3.3) bzw. (6.3.4) gilt genau dann, wenn ein a 6= 0 und ein b ∈ R existieren,
sodass Y = aX + b P -fast sicher gilt. Hierbei ist ̺[X, Y ] = 1 im Falle a > 0 und
̺[X, Y ] = −1 für a < 0.
Beweis. Im Fall σ[X] = 0 gilt X = E[X] P -fast sicher, und die Ungleichung (6.3.3) ist trivialerweise erfüllt. Wir nehmen nun an, dass σ[X] 6= 0 gilt.
(1). Für a ∈ R gilt:
0 ≤ Var[Y − aX] = Var[Y ] − 2a Cov[X, Y ] + a2 Var[X]
2
Cov[X, Y ]
Cov[X, Y ]2
=
a · σ[X] −
+ Var[Y ].
−
σ[X]
Var[X]
Da der erste Term für a :=
Cov[X,Y ]
σ[X]2
(6.3.5)
verschwindet, folgt:
Var[Y ] −
Cov[X, Y ]2
Var[X]
≥
0.
(2). Die Ungleichung |̺[X, Y ]| ≤ 1 folgt unmittelbar aus (6.3.3). Zudem gilt genau dann
Gleichheit in (6.3.5) bzw. (6.3.3), wenn Var[Y − aX] = 0 gilt, also Y − aX P -fast sicher konstant ist. In diesem Fall folgt
Cov[X, Y ]
=
Cov[X, aX]
=
a Var[X],
also hat ̺[X, Y ] dasselbe Vorzeichen wie a.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
211
Beispiel (Empirischer Korrelationskoeffizent). Ist die zugrundeliegende Wahrscheinlichkeitsn
P
δωi , und sind X, Y : Ω → R reellwertige
verteilung eine empirische Verteilung P = n1
i=1
Abbildungen (statistische Merkmale), dann gilt
n
1X
µX,Y =
δ(x ,y )
mit
n i=1 i i
xi = X(ωi ) und yi = Y (ωi ).
Als Kovarianz ergibt sich
n
Cov[X, Y ]
1X
(xi − xn )(yi − y n )
n i=1
=
n
X
1
n
=
xi yi
i=1
!
− xn y n .
Der entsprechende empirische Korrelationskoeffizient der Daten (xi , yi ), 1 ≤ i ≤ n, ist
n
P
(xi − xn )(yi − y n )
Cov[X, Y ]
i=1
= ̺[X, Y ] =
1/2 n
1/2 =: rn .
n
σ[X]σ[Y ]
P
P
(yi − y n )2
(xi − xn )2
i=1
i=1
Den empirischen Korrelationskoeffizienten verwendet man als Schätzer für die Korrelation von
Zufallsgrößen mit unbekannten Verteilungen.
Die Grafiken 6.3 und 6.3 zeigen Stichproben mit verschiedenen Korrelationskoeffizienten ̺.
b
Y
2
b
1
−2
b
b
b
bb
b
b
b
bb
b
bb
bb b
b
bb
bb b
b bb
b
bb b
bbb b
bb b
b
bb b
b
bb
b bb
b
bbb
b
bb b
b
b
b
bb
b
bb
1
b
b
b
b
b
2 X
1
−2
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
2 X −2
b
b
−1
−1
Y
2
̺=1
b
b
b
−2
b
b
b
b
b
b
b
b
1
b
b
b
b
b
b
b
bb
b b
b
b
b
b
b
−1
−1
b
b
b
b
b
b
b
b
b
bb
b
b
b b
bb b
b
bb
b
b
b
b
b
b
b
1
b
b
b
b
b
b
b
−2
b
b
b
b
bbb b
bbbb
bb b
b
b
b
b b
b
b
b
1
b
b
b
2 X
b
b
b
b
b
b
bb
b
b
b
b
b
b
̺=0
1
bb
bb
b bbb
b bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
bb
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
bb
b
b
b
b
−2
Y
2
1
2
b
b
b
b
b
b
b
b
b
b
b
b
−2
̺=
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b b
b
bb b
b
b
b
bb b
b b
b
b
b
b
b
b
b b
b
b
b
b
1
b
b
bb b
b
1
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b b
b
b
b
b
b b b
b
b
b
b
bb b b
b b b
b
−1
−1
b
bb
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
−2
b
b
b
b
Y
2
b
b
b
b
b
−1
−1
bb
bb
bb
b b
bb
Y
2
2 X −2
b
−1
−1
−2
bb
bbb
bb
b
bb b
b b
b
bb
bb
bb
b
bbb
bb
b
2 X
1
b
bbb
bb b
b
b
b
b
b
b
̺ = −1
̺=
Abbildung 6.2: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen
− 21
Universität Bonn
b
Wintersemester 2009/2010
b
212
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Y
2
b
b
b
b
b b
bb
b
b
−2
bbb b
bbbb
bb b
1
bb
bb
b bbb
b bb
bb
bb
bb b
b
bb b
b b
−1
−1
b
bb
bb
bb
b
bbb
bb
b
2 X
1
b
bbb
bb b
b
−2
b
b
b
b
b
̺=1
Abbildung 6.3: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen
b
Anwendung auf lineare Prognose (Regression)
Seien X, Y ∈ L2 (Ω, A, P ) Zufallsvariablen mit σ[X] 6= 0. Angenommen, wir kennen den Wert
X(ω) in einem Zufallsexperiment und suchen die beste lineare Vorhersage
Ŷ (ω)
=
aX(ω) + b,
(a, b ∈ R)
(6.3.6)
für Y (ω) im quadratischen Mittel, d.h. den Minimierer des mittleren quadratischen Fehlers,
:=
MSE
E[(Ŷ − Y )2 ],
unter alle Zufallsvariablen Ŷ , die affine Funktionen von X sind.
Korollar 6.19. Der mittlere quadratische Fehler ist minimal unter allen Zufallsvariablen Ŷ =
aX + b (a, b ∈ R) für
Ŷ (ω)
=
E[Y ] +
Cov[X, Y ]
· (X(ω) − E[X]).
Var[X]
Beweis. Es gilt
MSE = Var[Y − Ŷ ] + E[Y − Ŷ ]2
= Var[Y − aX] + (E[Y ] − aE[X] − b)2 .
Der zweite Term ist minimal für
b
E[Y ] − aE[X],
=
und der erste Term für
a
=
Einführung in die Wahrscheinlichkeitstheorie
Cov[X, Y ]
,
σ[X]2
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
213
siehe den Beweis der Cauchy-Schwarz-Ungleichung, Satz 6.18. Die bzgl. des mittleren quadratischen Fehlers optimale Prognose für Y gestützt auf X ist also
Ŷopt
=
aX + b
=
E[Y ] + a(X − E[X]).
Beispiel (Regressionsgerade, Methode der kleinsten Quadrate). Im Beispiel der empirischen
Verteilung von oben erhalten wir die Regressionsgerade y = ax + b, die die Quadratsumme
n
X
(axi + b − yi )2
n · MSE
=
i=1
der Abweichungen minimiert. Es gilt
a
Cov[X, Y ]
σ[X]2
=
=
n
P
i=1
(xi − xn )(yi − y n )
n
P
i=1
und
b
=
E[Y ] − a · E[X]
=
(xi − xn )2
y n − a · xn .
Die Regressionsgeraden sind in Grafik 6.3 eingezeichnet.
Beispiel (Zweidimensionale Normalverteilung ). Die zweidimensionale Normalverteilung N (m, C)
ist die Verteilung im R2 mit Dichte
1
1
−1
√
fm,C (x) =
x ∈ R2 .
· exp − (x − m) · C (x − m) ,
2
2π · det C
!
v
c
1
Hierbei ist m ∈ R2 und C =
eine symmetrische positiv-definite Matrix mit Koeffizic v2
√
enten c ∈ R und v1 , v2 > 0. Mit σi := vi , i = 1, 2, und ̺ := σ1cσ2 gilt:
det C = v1 v2 − c2
C −1 =
1
det C
σ12 σ22 · (1 − ̺2 ),


!
̺
1
− σ1 σ2
v2 −c
2
1
,
·  σ1̺
=
2
1
1−̺
−c v1
− σ1 σ2
2
σ
=
und
2
also
2
2 x1 −m1
x2 −m2
x1 −m1 x2 −m2
1
exp − 2(1−̺2 )
− 2̺ σ1 · σ2 +
σ1
σ2
p
.
fm,C (x) =
2πσ1 σ2 1 − ̺2
Die folgende Aussage zeigt, dass die Koeffizienten mi , σi und ̺ tatsächlich der Mittelwert, die
Standardabweichung und die Korrelation der Koordinaten x1 und x2 sind:
Behauptung:
Universität Bonn
Wintersemester 2009/2010
214
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
(1). fm,C ist eine Wahrscheinlichkeitsdichte bzgl. des Lebesguemaßes im R2 .
(2). Für reellwertige Zufallsvariablen X1 , X2 mit gemeinsamer Verteilung µX1 ,X2 = N (m, C)
und i = 1, 2 gilt
E[Xi ] = mi ,
Var[Xi ] = vi ,
Cov[X1 , X2 ] = c,
und
(6.3.7)
d.h. m ist der Mittelwertvektor und C = (Cov[Xi , Xj ])i,j die Kovarianzmatrix der Normalverteilung N (m, C).
Der Beweis der Behauptung wird der Leserin/dem Leser als Übung überlassen - wir zeigen nur
exemplarisch die Berechnung der Kovarianz im Fall m = 0. Mit quadratischer Ergänzung können
wir den Exponenten in der Dichte f0,C (x) schreiben als
1
−
2(1 − ̺2 )
Mit m(x
e 2) =
Z
x2
x1
−̺
σ1
σ2
2
1
−
2
x2
σ2
2
.
x2 ̺σ1
erhalten wir dann nach dem Satz von Fubini:
σ2
x1 x2 f0,C (x) dx
R2
x22
1
2
=
(x1 − m(x
e 2 )) ] dx1 exp − 2 dx2
x1 x2 exp[−
2(1 − ̺2 )σ12
2σ2
2πσ1 σ2 1 − ̺2
Z
x22
1
dx2 = ̺σ1 σ2 = c,
x
e
= p
2 · m(x
2 ) · exp −
2σ22
2πσ22 | {z }
1
p
Z Z
x22 ̺σ1 /σ2
wobei wir im zweiten und dritten Schritt die Formeln für den Erwartungswert und die Varianz von
eindimensionalen Normalverteilungen verwendet haben. Nach dem Transformationssatz ergibt
sich:
E[X1 X2 ]
=
Z
x1 x2 µX1 ,X2 (dx)
=
c.
Da auf ähnliche Weise E[X1 ] = E[X2 ] = 0 folgt, ist c die Kovarianz von X1 und X2 .
Bemerkung.
Ist X = (X1 , X2 ) ein N (m, C)-verteilter Zufallsvektor, dann ist jede Linear-
kombination Y = α1 X1 + α2 X2 , α ∈ R2 , normalverteilt mit Mittelwert α · m und Varianz
α · Cα. Auch dies kann man durch eine explizite Berechnung der Verteilungsfunktion aus der
gemeinsamen Dichte von X1 und X2 zeigen. Wir werden multivariate Normalverteilungen systematischer in Abschnitt 9.3 untersuchen, und dort auch einen eleganteren Beweis der letzten
Aussage mithilfe von charakteristischen Funktionen geben.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
215
Beispiel (Autoregressiver Prozess). Seien X0 und Zn , n ∈ N, unabhängige reellwertige Zufallsvariablen mit Zn ∼ N (0, 1) für alle n. Der durch das „stochastische Bewegungsgesetz“
Xn
=
αXn−1
| {z }
+
lineares
Bewegungsgesetz
εZn
|{z}
n ∈ N,
,
zufällige Störung,
Rauschen
(6.3.8)
definierte stochastische Prozess (Xn )n=0,1,2,... heißt autoregressiver Prozess AR(1) mit Parametern ε, α ∈ R. Autoregressive Prozesse werden zur Modellierung von Zeitreihen eingesetzt. Im
allgemeineren autoregressiven Modell AR(p), p ∈ N, mit Parametern ε, α1 , . . . , αp ∈ R lautet
das Bewegungsgesetz
Xn
p
X
=
αi Xn−i + εZn ,
i=1
n ≥ p.
Grafik 6.3 zeigt simulierte Trajektorien von AR(1)- und AR(2)-Prozessen:
Das folgende Lemma fasst einige grundlegende Eigenschaften des AR(1) Modells zusammen.
Lemma 6.20. Für den AR(1)-Prozess mit Parametern ε, α und m ∈ R, σ > 0 gilt:
(1). Xn−1 ∼ N (m, σ 2 )
=⇒
Xn ∼ N (αm, α2 σ 2 + ε2 ).
2
ε
(2). Für |α| < 1 ist die Verteilung µ = N (0, 1−α
2 ) ein Gleichgewicht, d.h.
X0 ∼ µ
=⇒
Xn ∼ µ
∀n ∈ N.
ε2
1 − α2
für alle 0 ≤ k ≤ n.
Bei Startverteilung P ◦ X0−1 = µ gilt:
Cov[Xn , Xn−k ]
=
αk ·
Exponentieller Abfall der Korrelationen
Universität Bonn
Wintersemester 2009/2010
216
KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis. Gilt Xn−1 ∼ N (m, σ 2 ), dann ist (Xn−1 , Zn ) bivariat normalverteilt, also ist auch die
Linearkombination Xn = aXn−1 + εZn normalverteilt. Der Erwartungswert und die Varianz von
Xn ergeben sich aus (6.3.7). Der Beweis der übrigen Aussagen wird dem Leser als Übungsaufgabe überlassen.
Bemerkung. (1). Der AR(1)-Prozess ist eine Markovkette mit Übergangswahrscheinlichkeiten
p(x, ·) = N (αx, ε2 ), s. Abschnitt 9.1 unten.
(2). Ist die gemeinsame Verteilung der Startwerte X0 , X1 , . . . , Xp−1 eine multivariate Normalverteilung, dann ist der AR(p)-Prozess ein Gaussprozess, d.h. die gemeinsame Verteilung
von X0 , X1 , . . . , Xn ist für jedes n ∈ N eine multivariate Normalverteilung.
Unabhängigkeit und Unkorreliertheit
Wir zeigen abschließend, dass auch für allgemeine Zufallsvariablen X und Y aus Unabhängigkeit
die Unkorreliertheit von beliebigen Funktionen f (X) und g(Y ) folgt. Seien X : Ω → S und
Y : Ω → T Zufallsvariablen mit Werten in messbaren Räumen (S, S) und (T, T ).
Satz 6.21. Es sind äquivalent:
(1). Die Zufallsvariablen X und Y sind unabhängig, d.h.
P [X ∈ A, Y ∈ B]
=
P [X ∈ A] · P [Y ∈ B]
für alle A ∈ S und B ∈ T
(2). Die Zufallsvariablenf (X) und g(Y ) sind unkorreliert für alle messbaren Funktionen f, g
mit f, g ≥ 0 bzw. f (X), g(Y ) ∈ L2 (Ω, A, P ), d.h.
E[f (X) · g(Y )]
=
E[f (X)] · E[g(Y )].
(6.3.9)
Beweis. Offensichtlich folgt (1) aus (2) durch Wahl von f = IA und g = IB . Die umgekehrte Implikation folgt durch maßtheoretische Induktion: Gilt (1), dann ist (6.3.9) für Indikatorfunktionen
f und g erfüllt. Wegen der Linearität beider Seiten dieser Gleichung in f und g gilt (6.3.9) auch
für beliebige Elementarfunktionen. Für messbare f, g ≥ 0 betrachten wir Folgen von Elementar-
funktionen fn , gn mit fn ր f, gn ր g. Die Aussage (6.3.9) folgt durch monotone Konvergenz.
Allgemeine Funktionen zerlegen wir in ihren Positiv- und Negativanteil, und wenden die Aussage auf diese an. Also gilt Cov[f (X), g(Y )] = 0 für alle messbaren f, g mit f, g ≥ 0 bzw.
f (X), g(Y ) ∈ L2 (Ω, A, P ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION
217
Korollar 6.22. Sind X, Y ∈ L1 (Ω, A, P ) unabhängig, so gilt:
X ·Y
∈
L1 (Ω, A, P )
und
E[XY ]
=
E[X] · E[Y ].
Beweis. Nach Satz 6.21 gilt:
E[|XY |]
=
E[|X|] · E[|Y |]
<
∞.
Die Formel für E[XY ] folgt durch die Zerlegungen X = X + − X − und Y = Y + − Y − .
Universität Bonn
Wintersemester 2009/2010
Kapitel 7
Gesetze der großen Zahlen
In diesem Kapitel beweisen wir verschiedene Gesetze der großen Zahlen, d.h. wir leiten Bedinn
P
Xi einer Folge (Xi )i∈N von reellwertigen Zufallsgungen her, unter denen die Mittelwerte n1
i=1
variablen gegen ihren Erwartungswert konvergieren. Dabei unterscheiden wir verschiedene Arten
der Konvergenz, die wir zunächst genauer untersuchen wollen.
7.1
Grundlegende Ungleichungen und Konvergenz von Zufallsvariablen
Konvergenzbegriffe für Zufallsvariablen
Seien Yn , n ∈ N, und Y reellwertige Zufallsvariablen, die auf einem gemeinsamen Wahrschein-
lichkeitsraum (Ω, A, P ) definiert sind. Wir betrachten die folgenden Konvergenzbegriffe für die
Folge (Yn )n∈N :
Definition. (1). Fast sichere Konvergenz:
Die Folge (Yn )n∈N konvergiert P -fast sicher gegen Y , falls gilt:
P
h
lim Yn = Y
n→∞
i
=
P [{ω ∈ Ω|Yn (ω) → Y (ω)}]
=
1.
(2). Stochastische Konvergenz (Convergence in probability):
P
Die Folge (Yn )n∈N konvergiert P -stochastisch gegen Y (Notation Yn → Y ), falls
lim P [|Yn − Y | > ε]
n→∞
=
218
0
für alle ε > 0 gilt.
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
219
(3). Lp -Konvergenz (1 ≤ p < ∞):
Die Folge (Yn )n∈N konvergiert in Lp (Ω, A, P ) gegen Y , falls
lim E[|Yn − Y |p ]
=
n→∞
0.
Ein Gesetz der großen Zahlen bezüglich fast sicherer Konvergenz heißt starkes Gesetz der
großen Zahlen, ein G.d.g.Z. bezüglich stochastischer Konvergenz heißt schwaches Gesetz der
großen Zahlen. Wir wollen nun die Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen untersuchen.
Satz 7.1. (1). Fast sichere Konvergenz impliziert stochastische Konvergenz.
(2). Die umgekehrte Implikation gilt im Allgemeinen nicht.
Beweis.
(1). Konvergiert Yn P -fast sicher gegen Y , dann gilt für ε > 0:
1 = P [|Yn − Y | < ε schließlich]
#
"
[ \
{|Yn − Y | < ε}
= P
m n≥m
=
≤
lim P
m→∞
"
\
n≥m
#
{|Yn − Y | < ε}
lim inf P [|Yn − Y | < ε]
m→∞ n≥m
= lim inf P [|Yn − Y | < ε].
n→∞
Es folgt lim P [|Yn − Y | < ε] = 1 für alle ε > 0, d.h. Yn konvergiert auch P -stochastisch
n→∞
gegen Y .
(2). Sei andererseits P das Lebesguemaß auf Ω = (0, 1] mit Borelscher σ-Algebra. Wir betrachten die Zufallsvariablen
Y1 = I(0,1] , Y2 = I(0, 1 ] , Y3 = I( 1 ,1] , Y4 = I(0, 1 ] , Y5 = I( 1 , 1 ] , Y6 = I( 1 , 3 ] , Y6 = I( 3 ,1] , . . .
2
2
4
4 2
2 4
4
Dann gilt
P [|Yn | > ε]
=
P [Yn = 1]
→
0
für alle ε > 0,
also konvergiert Yn stochastisch gegen 0, obwohl
lim sup Yn (ω)
Universität Bonn
=
1
für alle ω ∈ Ω gilt.
Wintersemester 2009/2010
220
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Hier ist ein weiteres Beispiel, das den Unterschied zwischen stochastischer und fast sicherer
Konvergenz zeigt:
Beispiel. Sind T1 , T2 , . . . unter P unabhängige Exp(1)-verteilte Zufallsvariablen, dann konvergiert Tn / log n P -stochastisch gegen 0, denn
Tn ≥ε
= P [Tn ≥ ε · log n]
P log n =
n→∞
n−ε
→
0
für alle ε > 0. Andererseits gilt nach (5.1.6) aber
Tn
log n
lim sup
n→∞
=
1
P -fast sicher,
also konvergiert Tn / log n nicht P -fast sicher.
Obwohl die stochastische Konvergenz selbst nicht fast sichere Konvergenz impliziert, kann man
aus einer Verschärfung von stochastischer Konvergenz die fast sichere Konvergenz schließen.
Wir sagen, dass eine Folge Yn , n ∈ N, von Zufallsvariablen auf (Ω, A, P ) schnell stochastisch
gegen Y konvergiert, falls
∞
X
n=1
P [|Yn − Y | ≥ ε]
∞
<
für alle ε > 0.
Lemma 7.2. Aus schneller stochastischer Konvergenz folgt fast sichere Konvergenz.
Beweis. Wir können o.B.d.A. Y = 0 annehmen. Konvergiert Yn schnell stochastisch gegen 0,
dann gilt:
P [lim sup |Yn | ≤ ε]
≥
Es folgt
P [lim sup |Yn | 6= 0]
=
P [|Yn | ≥ ε nur endlich oft]

P
[
ε∈Q+

{lim sup |Yn | > ε}
=
=
1.
0.
Ähnlich zeigt man:
Lemma 7.3. Konvergiert Yn P -stochastisch gegen Y , dann existiert eine Teilfolge Ynk , die P -fast
sicher gegen Y konvergiert.
Beweis. Wieder können wir o.B.d.A. Y = 0 annehmen. Konvergiert Yn stochastisch gegen 0,
dann existiert eine Teilfolge Ynk mit
1
P |Ynk | ≥
k
Einführung in die Wahrscheinlichkeitstheorie
≤
1
.
k2
Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
Nach dem Lemma von Borel-Cantelli folgt
1
P |Ynk | ≥ nur endlich oft
k
221
=
1,
also Ynk → 0 P -fast sicher.
Als nächstes beweisen wir eine Erweiterung der Čebyšev-Ungleichung, die wir an vielen Stellen
verwenden werden. Insbesondere impliziert sie, dass stochastische Konvergenz schwächer ist als
Lp -Konvergenz.
Die Markov-Čebyšev-Ungleichung
Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wir verwenden die folgende Notation:
Notation:
E[X ; A] := E[X · IA ] =
R
A
XdP .
Satz 7.4 (Allgemeine Markov-Ungleichung). Sei h : [0, ∞] → [0, ∞] monoton wachsend und
Borel-messbar. Dann gilt
P [|X| ≥ c] ≤
E[h(|X|)]
E[h(|X|) ; |X| ≥ c]
≤
h(c)
h(c)
für alle c > 0 mit h(c) 6= 0.
Beweis. Da h nichtnegativ und monoton wachsend ist, gilt
h(|X|) ≥ h(|X|) · I{|X|≥c} ≥ h(c) · I{|X|≥c} ,
also auch
E[h(|X|)] ≥ E[h(|X|) ; |X| ≥ c] ≥ h(c) · P [|X| ≥ c].
Wichtige Spezialfälle:
(1). Markov - Ungleichung: Für h(x) = x erhalten wir:
P [|X| ≥ c] ≤
E[|X|]
c
für alle c > 0.
Insbesondere gilt für eine Zufallsvariable X mit E[|X|] = 0:
P [|X| ≥ c] = 0
für alle c > 0,
also auch P [|X| > 0] = 0, d.h. X = 0 P -fast sicher.
Universität Bonn
Wintersemester 2009/2010
222
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(2). Čebyšev - Ungleichung: Für h(x) = x2 und X = Y − E[Y ] mit Y ∈ L1 (Ω, A, P )
erhalten wir:
P [|Y − E[Y ]| ≥ c] ≤
E[(Y − E[Y ])2 ]
Var[Y ]
=
2
c
c2
für alle c > 0.
Diese Ungleichung haben wir bereits in Abschnitt 3.2 im Beweis des schwachen Gesetzes
der großen Zahlen verwendet.
(3). Exponentielle Abschätzung: Für h(x) = exp(tx) mit t > 0 erhalten wir wegen
I{X≥c} ≤ e−tc etX :
P [X ≥ c] = E[I{X≥c} ] ≤ e−tc · E[etX ].
Die Abbildung t 7→ E[etX ] heißt momentenerzeugende Funktion der Zufallsvariablen
X. Exponentielle Ungleichungen werden wir in Abschnitt 8.2 zur Kontrolle der Wahr-
scheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen verwenden.
Als erste Anwendung der allgemeinen Markovungleichung zeigen wir für reellwertige Zufallsvariablen X, Xn (n ∈ N):
Korollar 7.5 (Lp -Konvergenz impliziert stochastische Konvergenz). Für 1 ≤ p < ∞ gilt:
E[|Xn − X|p ] → 0
⇒
P [|Xn − X| > ε] → 0
für alle ε > 0.
Beweis. Nach der Markovungleichung mit h(x) = xp gilt:
P [|Xn − X| ≥ ε]
≤
1
E[|Xn − X|p ].
p
ε
Bemerkung. Aus stochastischer Konvergenz folgt im Allgemeinen nicht Lp -Konvergenz (Übung).
Es gilt aber: Konvergiert Xn → X stochastisch, und ist die Folge der Zufallsvariablen |Xn |p
(n ∈ N) gleichmäßig integrierbar, d.h.
sup E[|Xn |p ; |Xn | ≥ c] → 0
n∈N
für c → ∞,
dann konvergiert Xn gegen X in Lp (Verallgemeinerter Satz von Lebesgue). Wir benötigen diese
Aussage im Moment nicht, und werden sie daher erst in der Vorlesung »Stochastische Prozesse«
beweisen.
Als nächstes wollen wir den Zusammenhang zwischen Lp -Konvergenz für verschiedene Werte
von p ≥ 1 untersuchen. Dazu verwenden wir eine weitere fundamentale Ungleichung:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN
223
Die Jensensche Ungleichung
Ist ℓ(x) = ax + b eine affine Funktion auf R, und X ∈ L1 eine integrierbare Zufallsvariable,
dann folgt aus der Linearität des Lebesgueintegrals:
E[ℓ(X)]
=
E[aX + b]
=
aE[X] + b
=
ℓ(E[X])
(7.1.1)
Da konvexe Funktionen Suprema einer Familie von affinen Funktionen (nämlich der Tangenten
an den Funktionsgraphen der konvexen Funktion) sind, ergibt sich für konvexe Funktionen eine
entsprechende Ungleichung:
Satz 7.6 (Jensensche Ungleichung). Ist P eine Wahrscheinlichkeitsverteilung, X ∈ L1 (Ω, A, P )
eine reellwertige Zufallsvariable, und h : R → R eine konvexe Abbildung, dann ist E[h(X)− ] <
∞, und es gilt
h(E[X]) ≤ E[h(X)].
Warnung: Diese Aussage gilt (wie auch (7.1.1)) nur für die Integration bzgl. eines Wahrscheinlichkeitsmaßes!
Bevor wir die Jensensche Ungleichung beweisen, erinnern wir kurz an die Definition und elementare Eigenschaften von konvexen Funktionen:
Bemerkung. Eine Funktion h : R → R ist genau dann konvex, wenn
h(λx + (1 − λ)y)
≤
λh(x) + (1 − λ)h(y) für alle λ ∈ [0, 1] und x, y ∈ R
gilt, d.h. wenn alle Sekanten oberhalb des Funktionsgraphen liegen.
3
2
1
−4
−3
−2
x
−1
1
2
3
y
4
Abbildung 7.1: Sekante an konvexer Funktion
Universität Bonn
Wintersemester 2009/2010
224
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Hieraus folgt, dass jede konvexe Funktion stetig ist: Für a < b < x < y < c < d gilt nämlich
h(b) − h(a)
b−a
h(y) − h(x)
y−x
≤
Also sind die Differenzenquotienten
h(y)−h(x)
y−x
≤
h(d) − h(c)
.
d−c
gleichmäßig beschränkt auf (b, c), und somit ist
h gleichmäßig stetig auf (b, c). Da konvexe Funktionen stetig sind, sind sie auch messbar. Die
Existenz des Erwartungswertes E[h(X)] in (−∞, ∞] folgt dann aus E[h(X)− ] < ∞.
Wir beweisen nun die Jensensche Ungleichung:
Beweis. Ist h konvex, dann existiert zu jedem x0 ∈ R eine affine Funktion ℓ (Stützgerade) mit
ℓ(x0 ) = h(x0 ) und ℓ ≤ h, siehe die Analysis Vorlesung oder [A. K LENKE : „WAHRSCHEIN LICHKEITSTHEORIE “,
Abschnitt 7.2].
1.5
1.0
0.5
x0
2
4
Abbildung 7.2: Darstellung von ℓ(x) und h(x)
Wählen wir x0 := E[X], dann folgt
h(E[X]) = ℓ(E[X]) = E(ℓ[X]) ≤ E[h(X)].
Der Erwartungswert auf der rechten Seite ist definiert, da h(X) durch die integrierbare Zufallsvariable ℓ(X) nach unten beschränkt ist. Insbesondere gilt E[h(X)− ] ≤ E[ℓ(X)− ] < ∞.
Korollar 7.7 (Lq -Konvergenz impliziert Lp -Konvergenz). Für 1 < p ≤ q gilt:
kXkp
:=
1
E[|X|p ] p
≤
kXkq .
Insbesondere folgt Lp -Konvergenz aus Lq -Konvergenz.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
225
Beweis. Nach der Jensenschen Ungleichung gilt
q
E[|X|p ] p
E[|X|q ],
≤
da die Funktion h(x) = |x|q/p für q ≥ p konvex ist.
Nach dem Korollar gilt für p ≤ q:
Lp (Ω, A, P )
Lq (Ω, A, P ),
⊇
und
Xn → X in Lq
Xn → X in Lp .
⇒
Man beachte, dass diese Aussage nur für endliche Maße wahr ist, da im Beweis die Jensensche
Ungleichung verwendet wird.
Mithilfe der Jensenschen Ungleichung beweist man auch die Hölderungleichung:
1 1
+
=
E[|XY |] ≤ kXkp · kY kq
für p, q ∈ [1, ∞] mit
p q
1.
7.2 Starke Gesetze der großen Zahlen
Wir werden nun Gesetze der großen Zahlen unter verschiedenen Voraussetzungen an die zugrundeliegenden Zufallsvariablen beweisen. Zunächst nehmen wir an, dass X1 , X2 , . . . ∈ L2 (Ω, A, P )
quadratintegrierbare Zufallsvariablen sind, deren Varianzen gleichmäßig beschränkt sind, und deren Korrelationen hinreichend schnell abklingen:
Annahme: „Schnelles Abklingen der positiven Korrelation“
(A) Es existiert eine Folge cn ∈ R+ (n ∈ N) mit
∞
X
n=0
und
Cov[Xi , Xj ]
≤
cn < ∞
für alle i, j ∈ N.
c|i−j|
(7.2.1)
Die Bedingung (A) ist insbesondere erfüllt, wenn die Korrelationen exponentiell abfallen, d.h.
wenn
| Cov[Xi , Xj ]|
≤
c · α|i−j|
für ein α ∈ (0, 1) und c ∈ R+ gilt. Sind etwa die Zufallsvariablen Xi unkorreliert, und ist die
Folge der Varianzen beschränkt, d.h. gilt
Universität Bonn
Wintersemester 2009/2010
226
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(A1) Cov[Xi , Xj ] = 0 für alle i, j ∈ N,
und
(A2) v := sup Var[Xi ] < ∞,
i
dann ist die Annahme (A) mit c0 = v und cn = 0 für n > 0 erfüllt. In diesem Fall haben wir
bereits in Abschnitt 3.2 ein schwaches Gesetz der großen Zahlen bewiesen.
Wichtig: Es wird keine Unabhängigkeit vorausgesetzt!
Sei nun
Sn
=
X1 + . . . + Xn
die Summe der ersten n Zufallsvariablen.
Das schwache Gesetz der großen Zahlen
Den Beweis des schwachen Gesetzes der großen Zahlen aus Abschnitt 3.2 können wir auf den
hier betrachteten allgemeinen Fall erweitern:
Satz 7.8 (Schwaches Gesetz der großen Zahlen, L2 -Version). Unter der Voraussetzung (A) gilt
für alle n ∈ N und ε > 0:
∞
P
n=1
2 #
Sn E[Sn ]
v
−
≤
,
n
n
n
Sn E[Sn ] ≥ε ≤ v
P −
n
n ε2 n
E
mit v := c0 + 2 ·
"
und
(7.2.2)
(7.2.3)
cn < ∞. Gilt insbesondere E[Xi ] = m für alle i ∈ N, dann folgt
Sn
n
→
m
in L2 (Ω, A, P ) und P -stochastisch.
Beweis. Unter Verwendung der Voraussetzung an die Kovarianzen erhalten wir
"
2 #
Sn E[Sn ]
1
Sn
E
=
−
= Var
Var[Sn ]
n
n
n
n2
n
1 X
Cov[Xi , Xj ]
=
n2 i,j=1
n
∞
1 X X
c|k|
≤
n2 i=1 k=−∞
=
≤
v
n
n
n
1 XX
c|i−j|
n2 i=1 j=1
Die zweite Behauptung folgt daraus durch Anwenden der Čebyšev-Ungleichung.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
227
Bemerkung. (1). Im Fall unkorrelierter Zufallsvariablen Xi (Annahmen (A1) und (A2)) ist die
Aussage ein Spezialfall einer allgemeinen funktionalanalytischen Sachverhalts:
Das Mittel von beschränkten orthogonalen Vektoren im Hilbertraum
L2 (Ω, A, P ) = L2 (Ω, A, P )/ ∼
konvergiert gegen 0.
Unkorreliertheit der Xi bedeutet gerade, dass die Zufallsvariablen
Yi
:=
Xi − E[Xi ]
orthogonal in L2 sind - beschränkte Varianzen der Xi ist gleichbedeutend mit der Beschränktheit der L2 Normen der Yi . Es gilt
Sn − E[Sn ]
n
X
=
Yi ,
i=1
also
E
"
Sn E[Sn ]
−
n
n
2 #
n
1 X 2
Yi = 2
n
i=1
=
L
n
1 X
kYi k2L2
=
n2 i=1
≤
n
n
1 XX
hYi , Yj iL2
n2 i=1 j=1
1
sup kYi k2L2 .
n i
(2). Die L2 -Konvergenz und stochastische Konvergenz von (Sn − E[Sn ])/n gegen 0 gilt auch,
falls die Korrelationen „langsam“ abklingen, d.h. falls (7.2.1) für eine nicht summierbare
Nullfolge cn erfüllt ist. In diesem Fall erhält man allerdings im Allgemeinen keine Abschätzung der Ordnung O( n1 ) für den Fehler in (7.2.2) bzw. (7.2.3).
(3). Eine für große n deutlich bessere Abschätzung des Fehlers in (7.2.3) (mit exponentiellem
Abfall in n) erhält man bei Unabhängigkeit und exponentieller Integrierbarkeit der Xi mithilfe der exponentiellen Ungleichung, siehe Satz 8.3 unten.
Das starke Gesetz für quadratintegrierbare Zufallsvariablen
Unter derselben Voraussetzung wie in Satz 7.8 gilt sogar P -fast sichere Konvergenz:
Satz 7.9 (Starkes Gesetz großer Zahlen, L2 -Version). Unter der Voraussetzung (A) konvergiert
Sn (ω) E[Sn ]
−
n
n
Universität Bonn
−→
0
Wintersemester 2009/2010
228
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
für P -fast alle ω ∈ Ω. Insbesondere gilt
Sn
n
−→
m
P -fast sicher,
falls E[Xi ] = m für alle i.
Der Übersichtlichkeit halber führen wir den Beweis zunächst unter den stärkeren Voraussetzungen (A1) und (A2). Der allgemeine Fall ist eine Übungsaufgabe, die sich gut zum Wiederholen
der Beweisschritte eignet:
Beweis unter den Annahmen (A1) und (A2). Wir können o.B.d.A. E[Xi ] = 0 für alle i vorausfi := Xi − E[Xi ]; diese sind
setzen – andernfalls betrachten wir die zentrierten Zufallsvariablen X
wieder unkorreliert mit beschränkten Varianzen. Zu zeigen ist dann:
Sn
→ 0
n
P -fast sicher.
Wir unterteilen den Beweis in mehrere Schritte:
(1). Schnelle stochastische Konvergenz gegen 0 entlang der Teilfolge nk = k 2 : Aus der ČebyševUngleichung folgt:
Sk 2 2
1
1
S
k
≤
sup Var[Xi ].
P 2 ≥ ε ≤ 2 Var
k
ε
k2
ε2 k 2 i
Da die Varianzen beschränkt sind, ist der gesamte Ausdruck durch die Summanden einer
summierbaren Reihe beschränkt. Somit ergibt sich nach Borel-Cantelli:
Sk2 (ω)
k2
→
0
für alle ω außerhalb einer Nullmenge N1 .
(2). Wir untersuchen nun die Fluktuationen der Folge Sn zwischen den Werten der Teilfolge
nk = k 2 . Sei
Dk
:=
max
k2 ≤l<(k+1)2
|Sl − Sk2 |.
Wir zeigen schnelle stochastische Konvergenz gegen 0 für Dk /k 2 . Für ε > 0 haben wir


[
Dk
{ |Sl − Sk2 | > εk 2 }
≥ε = P
P
k2
2
2
k ≤l<(k+1)
k2 +2k
≤
X
l=k2
Einführung in die Wahrscheinlichkeitstheorie
P [|Sl − Sk2 | > εk 2 ] ≤
const.
,
k2
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
229
denn nach der Čebyšev-Ungleichung gilt für k 2 ≤ l ≤ k 2 + 2k:
P [|Sl − Sk2 | > εk 2 ] ≤
≤
1
Var[Sl − Sk2 ] ≤
ε2 k 4
1
ε2 k 4
Var
"
l − k2
k
sup Var[Xi ] ≤ const · 4 .
2
4
εk
k
i
l
X
i=k2 +1
Xi
#
Nach Lemma 7.2 folgt daher
Dk (ω)
→ 0
k2
für alle ω außerhalb einer Nullmenge N2 .
(3). Zu gegebenem n wählen wir nun k = k(n) mit k 2 ≤ n < (k + 1)2 . Durch Kombination
der ersten beiden Schritte erhalten wir:
Sn (ω) |Sk2 (ω)| + Dk (ω)
≤
n ≤
n
Sk2 (ω) Dk (ω)
−→ 0
k2 + k2
für n → ∞
für alle ω außerhalb der Nullmenge N1 ∪ N2 . Also konvergiert Sn /n P -fast sicher gegen 0.
Beispiel (Random Walk im Rd ). Sei Sn = X1 + ... + Xn ein Random Walk im Rd mit unabhängigen identisch verteilten Inkrementen Xi mit Verteilung µ. Gilt
Z
2
kxk2 µ(dx) < ∞,
E[kXi k ] =
Rd
dann folgt nach dem schwachen Gesetz der großen Zahlen (angewandt auf die Komponenten
n
P
(k)
(k)
Xi des Vektors Sn ):
Sn =
i=1
Sn (ω)
n
wobei m =
R
Rd
−→
m
für P -fast alle ω,
xµ(dx) der Schwerpunkt der Inkrementverteilung ist. Insbesondere gilt für m 6= 0:
Sn
∼
m·n
für n → ∞
P -fast sicher,
d.h. Sn wächst linear mit Geschwindigkeit m. Im Fall m = 0 gilt dagegen
Sn (ω)
→ 0
n
Universität Bonn
P -fast sicher,
Wintersemester 2009/2010
230
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
d.h. der Random Walk wächst sublinear. Eine viel präzisere Beschreibung der pfadweisen Asymptotik des Random Walk im Fall m = 0 liefert der Satz vom iterierten Logarithmus:
Sn (ω)
= +1
n log log n
n→∞
Sn (ω)
lim inf √
= −1
n→∞
n log log n
lim sup √
P -fast sicher,
P -fast sicher,
siehe z.B. [BAUER : „WAHRSCHEINLICHKEITSTHEORIE “].
Beispiel (Wachstum in zufälligen Medien). Um ein zufälliges Populationswachstum zu beschreiben, definieren wir Zufallsvariablen Xn (n ∈ N) durch
Xn = Yn · Xn−1 ,
X0 = 1,
d.h. Xn =
Qn
i=1
Yi . Hierbei nehmen wir an, dass die Wachstumsraten Yi unabhängige identisch
verteilte Zufallsvariablen mit Yi > 0 P -f.s. sind. Sei m = E[Yi ].
(1). A SYMPTOTIK DER E RWARTUNGSWERTE : Da die Yi unabhängig sind, gilt:
E[Xn ] =
n
Y
E[Yi ] = mn .
i=1
Die mittlere Populationsgröße wächst also im superkritischen Fall m > 1 exponentiell und
fällt im subkritischen Fall m < 1 exponentiell ab.
Konkretes Beispiel: In einem Glücksspiel setzt der Spieler in jeder Runde die Hälfte seines
Kapitals. Mit Wahrscheinlichkeit
Wahrscheinlichkeit
1
2
1
2
erhält er das c-fache des Einsatzes zurück, und mit
erhält er nichts zurück. Hier gilt:

 1 (1 + c) mit p =
2
Yi =
1
mit p =
2
also
1
2
1
2
,
1
1
2+c
m = E[Yi ] = (1 + c) + =
.
4
4
4
Das Spiel ist also „fair“ für c = 2 und „superfair“ für c > 2.
(2). A SYMPTOTIK VON Xn (ω): Wir nehmen nun an, dass log Y1 ∈ L2 gilt. Nach dem starken
Gesetz der großen Zahlen folgt dann:
n
1X
1
log Xn =
log Yi → E[log Y1 ] =: α
n
n i=1
Einführung in die Wahrscheinlichkeitstheorie
P -f.s.
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
231
Also existiert für ε > 0 ein N (ω) mit N (ω) < ∞ P -fast sicher,
Xn (ω) ≤ e(α+ε)n
und
Xn (ω) ≥ e(α−ε)n
für alle n ≥ N (ω).
Für α < 0 fällt Xn also P -fast sicher exponentiell ab, während Xn für α > 0 P -fast sicher
exponentiell wächst.
(3). Z USAMMENHANG VON α UND m: Nach der Jensenschen Ungleichung gilt:
α = E[log Y1 ] ≤ log E[Y1 ] = log m.
Hierbei haben wir benutzt, dass der Logarithmus eine konkave, bzw. − log eine konvexe
Funktion ist. Im subkritischen Fall m < 1 ist also auch α strikt negativ, d.h. Xn fällt auch
P -f.s. exponentiell ab. Im superkritischen Fall m > 1 kann es aber passieren, dass trotzdem
α < 0 gilt, d.h. obwohl die Erwartungswerte exponentiell wachsen, fällt Xn P -fast sicher
exponentiell! Im Beispiel
Yi =

 1 (1 + c)
2
1
2
mit p =
1
2
mit p =
1
2
von oben wachsen die Erwartungswerte exponentiell für c > 2, aber es gilt
1+c
1
1
1+c
1
log
= log
+ log
≥ 0 ⇔ c ≥ 3.
α = E[log Yi ] =
2
2
2
2
4
Für c ∈ (2, 3) ist das Spiel also superfair mit fast sicherem exponentiellem Bankrott!
Die Voraussetzungen des Satzes von Lebesgue sind in dieser Situation nicht erfüllt, denn
es gilt:
E[Xn ] ր ∞,
obwohl Xn → 0
P -fast sicher.
Von L2 nach L1 mit Unabhängigkeit
Sind Zufallsvariablen X, Y : Ω → S unabhängig, so sind f (X) und g(Y ) für beliebige be-
schränkte oder nichtnegative Funktionen f, g : S → R unkorreliert. Bisher konnten wir zeigen,
dass das starke Gesetz der großen Zahlen für unkorrelierte (bzw. schwach korrelierte) Zufallsvariablen Xn ∈ L2 mit gleichmäßig beschränkten Varianzen gilt. Die Unabhängigkeit der Xn
ermöglicht es, diese Aussage auf integrierbare Zufallsvariablen (d.h. L1 statt L2 ) zu erweitern:
Satz 7.10 (Kolmogorovs Gesetz der großen Zahlen). Seien X1 , X2 , ... ∈ L1 (Ω, A, P ) paarweise unabhängig und identisch verteilt mit E[Xi ] = m. Dann gilt:
n
1 X
Xi = m
lim
n→∞ n
i=1
Universität Bonn
P -fast sicher.
Wintersemester 2009/2010
232
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Kolmogorov hatte eine entsprechende Aussage unter der Annahme von Unabhängigkeit (statt
paarweiser Unabhängigkeit) bewiesen. Der Beweis unter der schwächeren Voraussetzung stammt
von Etemadi (1981).
Bemerkung (Dynamische Systeme, Ergodensatz). In einer dynamischen Interpretation bedeutet die Aussage
Z
n
1 X
Xi (ω) −→ m = x µXi (dx)
n i=1
P -fast sicher,
des starken Gesetzes der großen Zahlen, dass die „zeitlichen Mittelwerte“ der Zufallsvariablen
Xi gegen den „räumlichen Mittelwert“ m konvergieren. Dies ist ein Spezialfall eines viel allgemeineren Ergodensatzes, der eine entsprechende Aussage für ergodische dynamische Systeme
liefert, siehe z.B. B REIMAN : P ROBABILITY oder D URRETT: P ROBABILITY: T HEORY AND E X AMPLES .
von Satz 7.10. Wir führen den Beweis in mehreren Schritten.
(1). Reduktion auf nichtnegative Zufallsvariablen.
Wir können o.B.d.A. Xi ≥ 0 für alle i ∈ N voraussetzen. Andernfalls zerlegen wir Xi =
Xi+ − Xi− . Die Zufallsvariablen Xi+ , i ∈ N, bzw. Xi− , i ∈ N, sind jeweils Funktionen der
Xi , und daher wieder paarweise unabhängig. Aus dem Gesetz der großen Zahlen für Xi+
und Xi− folgt das Gesetz der großen Zahlen für die Zufallsvariablen Xi .
(2). Reduktion auf Gesetz der großen Zahlen für Yi := Xi · I{Xi ≤i} .
Nach dem Lemma von Borel-Cantelli gilt
P [Yi 6= Xi unendlich oft] = 0,
denn
∞
X
i=1
P [Yi 6= Xi ] =
=
≤
∞
X
i=1
∞
X
P [Xi > i]
P [X1 > i]
Zi=1∞
P [X1 > x] dx
1
n
Pn
i=1
(P [X1 > x] monoton fallend)
0
= E[X1 ]
Also konvergiert
(Xi identisch verteilt)
<
∞.
Xi P -fast sicher gegen m, falls dasselbe für
Einführung in die Wahrscheinlichkeitstheorie
1
n
Pn
i=1
Yi gilt.
Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN
Sei nun
Sn =
233
n
X
Yi .
i=1
Die Zufallsvariablen Yi sind wieder paarweise unabhängig, und es gilt 0 ≤ Yi ≤ i.
(3). Konvergenz der Erwartungswerte.
Da die Zufallsvariablen Yi nicht mehr identisch verteilt sind, bestimmen wir zunächst den
Grenzwert der Erwartungswerte der Mittelwerte Sn /n. Nach dem Satz von der monotonen
Konvergenz gilt
E[Yi ] = E[Xi ; Xi ≤ i] = E[X1 · I{X1 ≤i} ]−→E[X1 ] = m,
also auch
n
Sn
1 X
E
E[Yi ] −→ m
=
n
n i=1
(4). P -fast sichere Konvergenz von
Sn
n
für i → ∞,
für n → ∞.
entlang der Teilfolgen kn = ⌊αn ⌋ , α > 1.
Vorbemerkung: Es gilt
X 1
1
1
const.
const.
=
2 +
2 + ... ≤
2 =
2
2
m
m+1
m
k
km
⌊α ⌋
⌊α
⌋
⌊α ⌋
n≥m n
mit einer von m unabhängigen Konstanten.
Behauptung:
Skn
S kn
=m
−→ lim E
n→∞
kn
kn
P -fast sicher.
Beweis der Behauptung: Nach dem Lemma von Borel-Cantelli genügt es,
Skn − E[Skn ] P ≥ε < ∞
kn
n=1
∞
X
zu zeigen. Dies ist der Fall, wenn
∞
X
Skn
Var
kn
n=1
<∞
gilt. Wegen
Var[Yi ] ≤ E[Yi2 ] = E[Xi2 ; Xi ≤ i] = E[X12 ; X1 ≤ i]
Universität Bonn
Wintersemester 2009/2010
234
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
erhalten wir mithilfe der Vorbemerkung
∞
X
Skn
Var
kn
n=1
∞
kn
X
1 X
=
·
Var[Yi ]
k 2 i=1
n=1 n
∞
X
≤
i=1
E[X12 ; X1 ≤ i] ·
≤ const. ·
≤ const. ·
= const. ·
≤ const. ·
∞
X
i=1
i=1 j=1
∞
X
2
j=1
= const. · E
"
n
1
E X12 ; X1 ≤ i · 2
i
∞ X
i
X
j=1
∞
X
X 1
k2
n:k ≥i n
j 2 · P [X1 ∈ (j − 1, j]] ·
j · P [X1 ∈ (j − 1, j]] ·
1
i2
∞
X
1
i2
i=j
j · P [X1 ∈ (j − 1, j]]
∞
X
j=1
j · I{X1 ∈(j−1,j]}
#
≤ const. · E[X1 + 1] < ∞.
(5). P -fast sichere Konvergenz von
Sn
.
n
Für l ∈ N mit kn ≤ l ≤ kn+1 gilt wegen Yi ≥ 0:
Skn ≤ Sl ≤ Skn+1 .
Es folgt
Sk
Skn
Sl
kn+1 Skn+1
kn Skn
≤ n+1 =
·
=
≤
·
.
kn+1 kn
kn+1
l
kn
kn
kn+1
Für n → ∞ erhalten wir wegen
m
α
≤
kn+1
kn
lim inf
→ α und
Sl (ω)
l
≤
Skn (ω)
kn
→ m:
lim sup
Sl (ω)
l
≤
αm
für alle ω außerhalb einer von α abhängenden Nullmenge Nα . Für ω außerhalb der NullS
menge α>1 Nα folgt somit:
α∈Q
Sl (ω)
= m.
l→∞
l
lim
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN
235
Korollar 7.11 (Gesetz der großen Zahlen ohne Integrierbarkeit). Seien X1 , X2 ... paarweise
unabhängige, identisch verteilte, nicht-negative Zufallsvariablen. Dann gilt:
n
1 X
lim ·
Xi (ω) = E[X1 ] ∈ [0, ∞]
n→∞ n
i=1
P -fast sicher.
Beweis. Nach Satz 7.10 gilt die Aussage im Fall E[X1 ] < ∞. Für E[X1 ] = ∞ erhalten wir für
k ∈ N:
n
1X
lim inf
Xi
n→∞ n
i=1
n
≥
1X
lim inf
(Xi ∧ k)
n→∞ n
i=1
=
E[X1 ∧ k]
P -fast sicher.
Für k → ∞ folgt dann mit monotoner Konvergenz
n
1X
Xi
lim inf
n→∞ n
i=1
≥
E[X1 ]
=
∞,
und damit die Behauptung.
7.3 Empirische Verteilungen
Schätzen von Kenngrößen einer unbekannten Verteilung
Angenommen, wir haben eine Stichprobe aus reellen Beobachtungswerten X1 , X2 , . . . , Xn gegeben, und möchten die zugrundeliegende Wahrscheinlichkeitsverteilung µ auf (R, B(R)) mög-
lichst weitgehend rekonstruieren. Im einfachsten Modell interpretieren wir die Beobachtungswerte als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . mit Verteilung µ.
R
(1). S CHÄTZEN DES E RWARTUNGSWERTES: Sei |x| µ(dx) < ∞. Um den Erwartungswert
Z
m =
x µ(dx)
zu schätzen, verwenden wir das empirische Mittel
n
Xn
:=
1X
Xi .
n i=1
Das empirische Mittel ist ein erwartungstreuer Schätzer für m, d.h. X n ist eine Funktion von den Beobachtungswerten X1 , . . . , Xn mit E[X n ] = m. Obere Schranken für den
Schätzfehler P [|X n − m| > ε], ε > 0, erhält man z.B. mithilfe der Čebyšev- oder der
exponentiellen Markov-Ungleichung. Für n → ∞ gilt nach dem Gesetz der großen Zahlen
Xn
−→
m
P -fast sicher,
d.h. X n ist eine konsistente Folge von Schätzern für m.
Universität Bonn
Wintersemester 2009/2010
236
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(2). S CHÄTZEN DER VARIANZ: Um die Varianz
Z
v =
(x − m)2 µ(dx)
der zugrundeliegenden Verteilung zu schätzen, verwendet man meistens die renormierte
Stichprobenvarianz
n
Der Vorfaktor
1
n−1
(statt
Ven
1
)
n
Schätzer für v ist, denn aus
1 X
(Xi − X n )2 .
n − 1 i=1
=
gewährleistet unter anderem, dass Ven ein erwartungstreuer
n
n
1X
1X
(Xi − X n )2 =
(Xi − m)2 − (X n − m)2
n i=1
n i=1
Stichprobenvarianz =
MSE
−
(7.3.1)
Stichprobenbias2
folgt
"
n
1X
(Xi − X n )2
E
n i=1
#
n
1X
Var[Xi ] − Var[X n ]
n i=1
=
n−1
v,
n
=
also E[Ven ] = v.
Um zu zeigen, dass Ven eine konsistente Folge von Schätzern für v ist, können wir erneut
das Gesetz der großen Zahlen anwenden. Da die Zufallsvariablen Xi − X n , 1 ≤ i ≤ n,
selbst nicht unabhängig sind, verwenden wir dazu die Zerlegung (7.3.1). Nach dem starken
Gesetz der großen Zahlen für nichtnegative Zufallsvariablen erhalten wir
n−1e
Vn
n
n
=
1X
(Xi − m)2 − (X n − m)2
n i=1
−→
v
P -fast sicher,
also auch Ven → v P -fast sicher.
(3). S CHÄTZEN VON I NTEGRALEN: Allgemeiner können wir für jede Funktion f ∈ L1 (S, S, µ)
das Integral
θ
=
Z
f dµ
erwartungstreu durch die empirischen Mittelwerte
n
θbn
=
Einführung in die Wahrscheinlichkeitstheorie
1X
f (Xi )
n i=1
Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN
237
schätzen. Dies haben wir schon in Kapitel 3 für Monte Carlo Verfahren verwendet. Da die
Zufallsvariablen f (Xi ) wieder unabhängig und identisch verteilt sind mit Erwartungswert
θ, gilt nach dem starken Gesetz der großen Zahlen:
θbn
−→
θ
P -fast sicher.
(7.3.2)
(4). S CHÄTZEN DER V ERTEILUNG: Die gesamte Verteilung µ können wir durch die empirische Verteilung
n
µ
bn (ω)
1X
δX (ω)
n i=1 i
=
der Zufallsstichprobe schätzen. µ
bn ist eine „zufällige Wahrscheinlichkeitsverteilung,“ d.h.
eine Zufallsvariable mit Werten im Raum W V (R) der Wahrscheinlichkeitsverteilungen
auf (R, B(R)). Aus (7.3.2) ergibt sich die folgende Approximationseigenschaft der empirischen Verteilungen:
Z
n
1X
f db
µn =
f (Xi )
n i=1
n→∞
−→
Z
f dµ
(7.3.3)
P -fast sicher für alle f ∈ L1 (S, S, µ).
Konvergenz der empirischen Verteilungsfunktionen
Für die empirischen Verteilungsfunktionen
Fn (c)
=
µ
bn [(−∞, c]]
1
|{1 ≤ i ≤ n : Xi ≤ c}|
n
=
von unabhängigen, identisch verteilten, reellwertigen Zufallsvariablen X1 , X2 , . . . mit VerteiR
lungsfunktion F ergibt sich wegen Fn (c) = I(−∞,c] db
µn :
lim Fn (c)
n→∞
=
F (c)
P -fast sicher für alle c ∈ R.
(7.3.4)
Diese Aussage kann man noch etwas verschärfen:
Satz 7.12 (Glivenko-Cantelli). Sind X1 , X2 , . . . unabhängig und identisch verteilt mit Verteilungsfunktion F , dann gilt für die empirischen Verteilungsfunktionen Fn :
sup |Fn (c) − F (c)|
c∈R
Universität Bonn
−→
0
P -fast sicher.
(7.3.5)
Wintersemester 2009/2010
238
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis. Wir führen den Beweis unter der zusätzlichen Annahme, dass F stetig ist – für den
allgemeinen Fall siehe z.B. Klenke: Wahrscheinlichkeitstheorie. Sie ε > 0 gegeben. Ist F stetig,
dann existieren k ∈ N und Konstanten
−∞
=
c0
<
c1
<
c2
<
...
<
ck
=
∞
mit F (ci ) − F (ci−1 ) ≤
für alle 1 ≤ i ≤ k. Da Fn nach 7.3.4 mit Wahrscheinlichkeit 1 punktweise gegen F konvergiert,
existiert zudem ein n0 ∈ N mit
max |Fn (ci ) − F (ci )|
0≤i≤n
ε
2
<
für alle n ≥ n0 .
Wegen der Monotonie der Verteilungsfunktionen folgt dann
Fn (c) − F (c)
≤
Fn (ci ) − F (ci−1 )
≤
ε
+ Fn (ci ) − F (ci )
2
<
ε,
≤
F (ci ) − Fn (ci−1 )
≤
ε
+ F (ci ) − Fn (ci )
2
<
ε,
und entsprechend
F (c) − Fn (c)
für alle n ≥ n0 , c ∈ R, und 1 ≤ i ≤ k mit ci−1 ≤ c ≤ ci . Also gilt auch
sup |Fn (c) − F (c)|
<
für alle n ≥ n0 .
ε
c∈R
Bemerkung (QQ-Plot). In parametrischen statistischen Modellen nimmt man von vornherein
an, dass die beobachteten Daten Realisierungen von Zufallsvariablen sind, deren Verteilung aus
einer bestimmten Familie von Wahrscheinlichkeitsverteilungen stammt, z.B. der Familie aller
Normalverteilungen. Um zu entscheiden, ob eine solche Annahme für gegebene reellwertige Daten x1 , . . . , xn gerechtfertigt ist, kann man die empirische Verteilungsfunktion mit der tatsächlichen Verteilungsfunktion vergleichen. Ein praktikables graphisches Verfahren ist der QuantilQuantil-Plot, bei dem die Quantile der empirischen und der theoretischen Verteilung gegeneinander aufgetragen werden. Um auf Normalverteilung zu testen, plottet man beispielsweise die
Punkte
k − 21
−1
Φ
, x(k) ,
n
k = 1, 2, . . . , n,
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist, und
x(1)
≤
x(2)
Einführung in die Wahrscheinlichkeitstheorie
≤
...
≤
x(n)
Prof. Andreas Eberle
ε
2
7.3. EMPIRISCHE VERTEILUNGEN
239
die Ordnungsstatistiken von x1 , . . . , xn , also die (k − 21 )/n-Quantile der empirischen Verteilung
sind. Ist die zugrundeliegende Verteilung eine Normalverteilung mit Mittel m und Standardab-
weichung σ, dann liegen die Punkte für große n näherungsweise auf einer Geraden mit Steigung
σ und Achsenabschnitt m, da für die Verteilungsfunktion und die Quantile der theoretischen Verteilung dann
F (c)
=
P [X ≤ c]
=
P [σZ + m ≤ c]
=
c−m
P Z≤
σ
=
Φ
c−m
σ
,
bzw.
F −1 (u)
=
m + σΦ−1 (u)
gilt. Die folgende Grafik zeigt QQ-Plots bzgl. der Normalverteilung für verschiedene Datensätze.
Histogramme und Multinomialverteilung
Die empirische Verteilung µ
bn (ω) =
1
n
n
P
i=1
δXi (ω) von Zufallsvariablen X1 , . . . , Xn ist selbst ei-
ne Zufallsvariable mit Werten im Raum der Wahrscheinlichkeitsverteilungen. Wir wollen nun
die Verteilung dieser Zufallsvariablen explizit berechnen, falls die Xi unabhängig und identisch
verteilt mit endlichem Wertebereich S sind. Haben die Zufallsvariablen keinen endlichen Wertebereich, dann kann man die Aussagen trotzdem anwenden, indem man den Wertebereich in
endlich viele Teilmengen (Klassen) zerlegt.
Das Histogramm von n Beobachtungswerten x1 , . . . , xn , die in einer endlichen Menge S liegen,
ist der Vektor
~h = (ha )a∈S ,
ha = |{1 ≤ i ≤ n|xi = a}|,
der Häufigkeiten der möglichen Werte a ∈ S unter x1 , . . . , xn . Graphisch stellt man ein Histogramm durch ein Balkendiagramm dar:
Universität Bonn
Wintersemester 2009/2010
240
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
hc
ha
hd
hb
a
c
b
d
Abbildung 7.3: Histogramm der Klassen a, b, c und d mit den jeweiligen Häufigkeiten ha , hb , hc
und hd
Der Raum Hist(n, S) aller möglichen Histogramme von n Beobachtungswerten ist eine Teilmenge von {0, 1, . . . , n}S :
Hist(n, S)
=
{~h = (ha )a∈S |ha ∈ Z+ ,
X
a∈S
ha = n}
⊆
{0, 1, . . . , n}S .
Sie nun µ eine Wahrscheinlichkeitsverteilung auf der endlichen Menge S. Wir wollen die Verteilung des Histogrammvektors bestimmen, wenn die Beobachtungswerte unabhängige Stichproben
von der Verteilung µ sind. Wir betrachten also unabhängige Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A , P ) mit Verteilung µ und die Häufigkeiten
Ha (ω)
:=
|{1 ≤ i ≤ n : Xi (ω) = a}|
der möglichen Werte a ∈ S. Die Zufallsvariable Ha ist Bin(n, p)-verteilt mit p = µ[{a}]. Wir
berechnen nun die gemeinsame Verteilung aller dieser Häufigkeiten, d.h. die Verteilung µH des
Zufallsvektors
H
=
(Ha )a∈S
Einführung in die Wahrscheinlichkeitstheorie
:
Ω −→ Hist(n, S)
Prof. Andreas Eberle
7.4. ENTROPIE
241
mit Werten im Raum der Histogramme. Dazu verwenden wir die Unabhängigkeit der Xi . Mit
I = {1, . . . , n} erhalten wir:
µH (~k) = P [Ha = ka
∀a ∈ S]
= P [Xi = a genau ka -mal für alle a ∈ S]
X
=
P [Xi = a ∀ i ∈ Ia ∀ a ∈ S]
I=
Ṡ
Ia
a∈S
|Ia |=ka
=
X Y
I=
Ṡ
µ[{a}]ka
Ia a∈S
a∈S
|Ia |=ka
Y
n
=
µ[{a}]ka .
~k
a∈S
Hierbei laufen die Summen über alle disjunkten Zerlegungen von I = {0, 1, . . . , n} in Teilmen-
gen ia , a ∈ S, mit jeweils ka Elementen, und der Multinomialkoeffizient
n
~k
:=
n!
Q
,
ka !
ka ∈ {0, 1, . . . , n} mit
a∈S
X
ka = n,
a∈S
gibt die Anzahl der Partitionen von n Elementen in Teilmengen von jeweils ka Elementen an.
Definition. Die Verteilung des Histogrammvektors H heißt Multinomialverteilung für n Stichproben mit Ergebniswahrscheinlichkeiten µ(a), a ∈ S.
Bemerkung. Im Fall |S| = 2 ist H(ω) eindeutig festgelegt durch H1 (ω), und die Zufallsvariable H1 ist binomialverteilt mit Parametern n und p = µ[{1}]. In diesem Sinn ergibt sich die
Binomialverteilung als Spezialfall der Multinomialverteilung.
7.4 Entropie
Wir definieren nun die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Mithilfe des Gesetzes der großen Zahlen können wir eine statistische Interpretation dieser Größe geben, aus der
sich insbesondere der Quellenkodierungssatz von Shannon ergibt.
Universität Bonn
Wintersemester 2009/2010
242
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Definition und Eigenschaften
Wir bemerken zunächst, dass die auf [0, ∞) definierte Funktion

x log x für x > 0
u(x) :=
0
für x = 0
stetig und strikt konvex ist mit
u(x) ≤ 0
für alle x ∈ [0, 1],
(7.4.1)
u(x) ≥ x − 1
für alle x ≥ 0,
(7.4.2)
und absolutem Minimum u(1/e) = −1/e.
0.4
0.2
1
e
0.5
1.0
−0.2
−0.4
−0.6
−0.8
−1.0
−1.2
−1.4
Abbildung 7.4: Graph der Funktion u(x) (blau) und ihrer unteren Schranke x − 1 (rot)
Sei nun S eine abzählbare Menge, und µ = (µ(x))x∈S eine Wahrscheinlichkeitsverteilung auf S.
Definition. Die Größe
H(µ)
:=
−
X
µ(x) log µ(x)
x∈S
µ(x)6=0
=
−
X
x∈S
u(µ(x))
∈ [0, ∞]
heißt Entropie der Wahrscheinlichkeitsverteilung µ.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.4. ENTROPIE
243
Anschaulich können wir − log µ(x) interpretieren als Maß für die »Überraschung« bzw. den
»Informationsgewinn«, falls eine Stichprobe von der Verteilung µ den Wert x hat. Die »Überraschung« ist umso größer, je unwahrscheinlicher x ist. Die Entropie H(µ) ist dann die »mittlere
Überraschung« bzw. der »mittlere Informationsgewinn« beim Ziehen einer Stichprobe von µ.
Eine wichtige Eigenschaft der Entropie, die auch die Wahl des Logarithmus erklärt, ist:
Satz 7.13 (Faktorisierungseigenschaft). Für beliebige diskrete Wahrscheinlichkeitsverteilungen µ und ν gilt:
H(µ ⊗ ν) = H(µ) + H(ν).
Der mittlere Informationszuwachs in einem aus zwei unabhängigen Experimenten zusammengesetzten Zufallsexperiment ist also die Summe der einzelnen mittleren Informationszuwächse.
Beweis. Nach Definition der Entropie gilt:
H(µ ⊗ ν) =
X
µ(x)ν(y) log(µ(x)ν(y))
x,y
µ(x)ν(y)6=0
= −
X
x:µ(x)6=0
µ(x) log(µ(x)) −
= H(µ) + H(ν).
X
ν(y) log(ν(y))
y:ν(y)6=0
Wir bestimmen nun auf einer gegebenen abzählbaren Menge S die Wahrscheinlichkeitsverteilungen mit minimaler bzw. maximaler Entropie.
Extrema der Entropie:
(1). Entropieminima: Nach (7.4.1) ist die Entropie stets nicht-negativ, und es gilt:
H(µ) = 0
⇐⇒
µ(x) ∈ {0, 1}
∀x ∈ S
⇐⇒
µ ist ein Diracmaß.
Die Diracmaße sind also die Entropieminima. Ist das Zufallsexperiment deterministisch,
d.h. µ ein Diracmaß, dann tritt bei Ziehen einer Stichprobe von µ keine Überraschung bzw.
kein Informationszuwachs auf.
(2). Entropiemaximum: Ist S endlich, dann gilt für alle Wahrscheinlichkeitsverteilungen µ
auf S:
H(µ) ≤ − log
Universität Bonn
1
|S|
= H(US ),
Wintersemester 2009/2010
244
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
wobei US die Gleichverteilung auf S ist. Nach der Jensenschen Ungleichung gilt nämlich
−
X
x∈S
u(µ(x)) = −|S| ·
Z
≤ −|S| · u
u(µ(x)) US (dx)
Z
µ(x) US (dx)
1
1
= − log
= −|S| · u
|S|
|S|
mit Gleichheit genau dann, wenn µ die Gleichverteilung ist.
Die Gleichverteilung maximiert also die Entropie auf einem endlichen Zustandsraum. Anschaulich können wir die Gleichverteilung als eine »völlig zufällige« Verteilung auffassen
– d.h. wir verwenden die Gleichverteilung als Modell, wenn wir keinen Grund haben, einen
der Zustände zu bevorzugen. Die Entropie ist in diesem Sinne ein Maß für die »Zufälligkeit« (bzw. »Unordnung«) der Wahrscheinlichkeitsverteilung µ.
Auf einer abzählbar unendlichen Menge existiert keine Wahrscheinlichkeitsverteilung mit
maximaler Entropie.
Beispiel (Entropie von Markovketten). Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf
einer endlichen Menge S, die die Gleichverteilung US als Gleichgewicht hat, d.h. für alle y ∈ S
gilt:
X
x∈S
p(x, y)
=
|S| ·
X
x∈S
US (x) p(x, y)
=
|S| · US (y)
=
1.
(7.4.3)
Beispielsweise ist p die Übergangsmatrix eines Random Walks auf dem diskreten Kreis Zk =
Z/(kZ), der symmetrischen Gruppe Sn („Mischen eines Kartenspiels“), oder dem diskreten Hyperwürfel {0, 1}n („Ehrenfestmodell“).
Der folgende Satz zeigt, dass die Entropie H(µpn ) der Verteilung zur Zeit n einer Markovkette
mit Startverteilung µ und Übergangsmatrix p monoton wächst:
Satz 7.14 (Zunahme der Entropie). Ist p eine stochastische Matrix auf S mit (7.4.3), dann gilt:
H(µp)
≥
H(µ)
für jede Wahrscheinlichkeitsverteilung µ auf S. Insbesondere ist n 7→ H(µpn ) monoton wachsend.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.4. ENTROPIE
245
Beweis. Aus der Jensenschen Ungleichung folgt:
−H(µp) =
≤
=
X
u
y∈S
XX
X
µ(x)p(x, y)
x∈S
!
u(µ(x))p(x, y)
y∈S x∈S
X
u(µ(x))
=
x∈S
−H(µ).
Hierbei haben wir im zweiten Schritt benutzt, dass die Funktion u konvex ist, und dass x 7→
p(x, y) nach (7.4.3) für jedes y ∈ S die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung
ist.
In der Interpretation der statistischen Physik geht die zeitliche Entwicklung auf makroskopischer
Ebene (Thermodynamik) von einem geordneten hin zu einem ungeordneten Zustand maximaler Entropie (»thermodynamische Irreversibilität«). Trotzdem ist auf mikroskopischer Ebene die
Dynamik rekurrent, d.h. jeder Zustand x ∈ S wird von der Markovkette mit Wahrscheinlichkeit
1 unendlich oft besucht – dies dauert nur eventuell astronomisch lange. Die Einführung eines
Markovmodells durch die österreichischen Physiker Tatjana und Paul Ehrenfest konnte eine entsprechende Kontroverse von Zermelo („Dynamik kehrt immer wieder zurück“) und Boltzmann
(„soll solange warten“) lösen.
Statistische Interpretation der Entropie
Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S. Die Wahrscheinlichkeit einer Folge von Ausgängen x1 , . . . , xn bei Entnehmen einer Stichprobe aus n unabhängigen
Zufallsgrößen mit Verteilung µ beträgt
pn (x1 , ..., xn ) =
n
Y
µ(xi ).
i=1
Der gemittelte Informationszuwachs durch Auswertung der Werte x1 , . . . , xn ist also
1
− log pn (x1 , ..., xn ).
n
Mithilfe des Gesetzes der großen Zahlen können wir die Asymptotik dieser Größen für n → ∞
untersuchen:
Satz 7.15 (Shannon - Mc Millan). Seien X1 , X2 , . . . : Ω → S unter P unabhängige Zufallsva-
riablen mit Verteilung µ. Dann gilt P -fast sicher
1
− log pn (X1 , . . . , Xn ) −→
n
Universität Bonn
H(µ)
für n → ∞.
Wintersemester 2009/2010
246
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis. Mit Wahrscheinlichkeit 1 gilt µ(Xi ) > 0 für alle i, also nach Korollar 7.11:
Z
n
1
1X
n→∞
− log pn (X1 , . . . , Xn ) = −
log µ(Xi ) −→ − log µ dµ =
n
n i=1
H(µ).
Bemerkung (Exponentielle Skala). Die Aussage des Satzes besagt, dass auf der „exponentiellen
Skala“ fast sicher
pn (X1 , . . . , Xn )
≃
e−nH(µ)
gilt, d.h. beide Ausdrücke sind asymptotisch äquivalent bis auf subexponentielle (also z.B. polynomiell) wachsende Faktoren. Eine asymptotische Beschreibung von Wahrscheinlichkeiten auf
der exponentiellen Skala ist Gegenstand der Theorie großer Abweichungen, siehe Abschnitt Satz
8.3 und Kapitel 11 unten.
Entropie und Kodierung
Wir betrachten nun eine Anwendung der Entropie auf die möglichst effiziente Beschreibung/Kodierung einer Zufallsfolge. Eine unbekannte Signalfolge mit Werten in einer endlichen Menge S
(dem zugrundeliegenden „Alphabet“) beschreibt man im einfachsten A-Priori-Modell durch unabhängige Zufallsvariablen X1 , X2 , ... mit Verteilung µ, wobei µ(x) die relative Häufigkeit des
Buchstabens x in der verwendeten Sprache ist. Eine „perfekte“ Kodierung ordnet jedem Wort mit
einer vorgegebenen Anzahl n von Buchstaben, also jedem Element des Produktraums S n , eine
Binärfolge zu. Will man alle Wörter mit n Buchstaben perfekt kodieren, werden n · log |S| Bits
benötigt. Wir betrachten stattdessen „effiziente“ Kodierungen, die nur den „meisten“ Wörtern mit
n Buchstaben eindeutig eine Binärfolge zuordnen.
Definition. Eine Folge von Mengen Bn ⊆ S n (n ∈ N) heißt wesentlich bzgl. µ, falls
P [(X1 , ..., Xn ) ∈ Bn ]
=
µn [Bn ]
→
1
für n → ∞.
Sn
1−1
{0, 1}k
Abbildung 7.5: Perfekte Kodierung
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
7.4. ENTROPIE
247
Sn
irgendwie
1−1
Bn
{0, 1}k
Abbildung 7.6: Effiziente Kodierung bzgl. einer Folge von wesentlichen Mengen Bn .
Korollar 7.16 (Maßkonzentrationssatz von McMillan). Für jedes ε > 0 ist die Folge
Bn := (x1 , ...xn ) ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε) ,
n ∈ N,
wesentlich bzgl. µ, und es gilt
|Bn | ≤ en(H(µ)+ε)
Beweis. Es gilt
Bn =
(x1 , ...xn ) ∈ S n
für alle n ∈ N.
H(µ) − ε ≤ − 1 log pn (x1 , ..., xn ) ≤ H(µ) + ε .
n
(7.4.4)
Da aus der fast sicheren Konvergenz von − n1 log pn (X1 , ..., Xn ) gegen die Entropie H(µ) die
stochastische Konvergenz folgt, ist die Folge Bn (n ∈ N) nach Satz 7.15 wesentlich bzgl. µ.
Zudem gilt wegen pn (x1 , ..., xn ) ≥ e−n(H(µ)+ε) für (x1 , . . . , xn ) ∈ Bn :
X
1 ≥ P [(X1 , ..., Xn ) ∈ Bn ] =
pn (x1 , ..., xn ) ≥ |Bn | · e−n(H(µ)+ε) ,
x∈Bn
also |Bn | ≤ en(H(µ)+ε)
Der Maßkonzentrationssatz zeigt, dass Folgen von wesentlichen Mengen existieren, die auf der
exponentiellen Skala nicht viel schneller als exp(n · H(µ)) wachsen.
Wie groß sind wesentliche Mengen mindestens? Für p ∈ (0, 1) sei
K(n, p) = inf {|An | |An ⊆ S n mit P [(X1 , ..., Xn ) ∈ An ] ≥ p }
die mindestens benötigte Anzahl von Wörtern, um den Text (X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p korrekt zu erfassen. Dann ist log2 K(n, p) die für eine korrekte binäre Kodierung von
(X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p mindestens benötigte Anzahl von Bits.
Universität Bonn
Wintersemester 2009/2010
248
KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Satz 7.17 (Quellenkodierungssatz von Shannon). Für alle p ∈ (0, 1) gilt:
1
log K(n, p) = H(µ), bzw.
n→∞ n
X
1
lim
log2 K(n, p) = H2 (µ) := −
µ(x) log2 µ(x).
n→∞ n
lim
x:µ(x)6=0
Insbesondere gilt: Ist An (n ∈ N) wesentlich bzgl. µ, so ist
1
log |An | ≥ H(µ).
n
Bemerkung. (1). Die Größe n1 log2 K(n, p) kann als die für eine mit Wahrscheinlichkeit ≥
lim inf
n→∞
p korrekte Kodierung benötigte Zahl von Bits pro gesendetem Buchstaben interpretiert
werden.
(2). Der Quellenkodierungssatz zeigt, dass es keine Folge von wesentlichen Mengen gibt, die
auf der exponentiellen Skala deutlich langsamer wächst als die im Maßkonzentrationssatz
konstruierten Folgen.
Beweis. Wir zeigen separat eine obere und eine untere Schranke für
1
n
log K(n, p):
Obere Schranke: lim sup n1 log K(n, p) ≤ H(µ):
n→∞
Zum Beweis sei ε > 0 gegeben. Nach Korollar 7.16 ist die Folge
Bn = x ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε)
wesentlich bzgl. µ, und
1
n
log |Bn | ≤ H(µ) + ε. Wegen
lim P [(X1 , ..., Xn ) ∈ Bn ]
=
n→∞
folgt
1
log K(n, p) ≤
n
n→∞
Die Behauptung ergibt sich für ε → 0.
lim sup
Untere Schranke: lim inf
n→∞
n
1
n
lim sup
n→∞
1
1
log |Bn |
n
>
p,
≤
(7.4.5)
H(µ) + ε.
log K(n, p) ≥ H(µ):
Seien An ⊆ S mit P [(X1 , ..., Xn ) ∈ An ] ≥ p. Dann gilt wegen (7.4.5) und (7.4.4) auch
p
≤
lim inf P [(X1 , ..., Xn ) ∈ An ∩ Bn ]
n→∞
≤
also für alle ε > 0
lim inf
n→∞
Für ε → 0 folgt
1
log |An |
n
≥
lim inf
n→∞
lim inf
n→∞
n→∞
1
log |An ∩ Bn |
n
1
log |An |
n
Einführung in die Wahrscheinlichkeitstheorie
lim inf |An ∩ Bn | · e−n(H(µ)−ε) ,
≥
≥
H(µ) − ε.
H(µ).
Prof. Andreas Eberle
Kapitel 8
Grenzwertsätze
Sind Xi : Ω → R, i ∈ N, unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit Erwartungsn
P
Xi nach dem Gesetz der
wert m, dann konvergieren die Mittelwerte Snn der Summen Sn =
i=1
großen Zahlen für n → ∞ fast sicher gegen m. Wir wollen nun die Verteilung von Sn für große
n genauer untersuchen. Dabei unterscheidet man zwei unterschiedliche Arten von Aussagen:
• Zentrale Grenzwertsätze beschreiben „typische“ Fluktuationen um den Grenzwert aus dem
Gesetz der großen Zahlen, d.h. die asymptotische Form der Verteilung von Sn /n in Berei√
chen der Größenordnung O(1/ n) um den Erwartungswert m, siehe Abschnitt 8.4.
• Aussagen über große Abweichungen beschreiben asymptotisch die Wahrscheinlichkeiten
der seltenen Abweichungen der Größenordnung O(1) von Sn /n vom Erwartungswert m.
Diese Wahrscheinlichkeiten fallen unter geeigneten Voraussetzungen exponentiell ab, siehe
Abschnitt 8.2.
Mit dem Satz von de Moivre/Laplace bzw. der Bernsteinungleichung haben wir bereits entsprechende Aussagen kennengelernt, falls die Xi Bernoulli-verteilte Zufallsvariablen sind. In diesem Kapitel werden wir sehen, dass keine spezifische Form der Verteilung vorausgesetzt werden
muss, sondern die Aussagen ganz allgemein unter geeigneten Integrierbarkeitsbedingungen gelten.
Ein wichtiges Hilfsmittel zum Beweis allgemeiner Grenzwertsätze sind momentenerzeugende
und charakteristische Funktionen:
249
250
KAPITEL 8. GRENZWERTSÄTZE
8.1
Charakteristische und Momentenerzeugende Funktionen
In diesem Abschnitt führen wir charakteristische und momentenerzeugende Funktionen von reellen Zufallsvariablen ein und beweisen einige grundlegende Aussagen über diese Funktionen.
Insbesondere zeigen wir, dass sich die Verteilung einer reellen Zufallsvariable eindeutig aus ihrer
charakteristischen Funktion rekonstruieren lässt.
Definition und Eigenschaften
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine reellwertige Zufallsvariable mit
Verteilung µ.
Definition. (1). Die Funktion M : R → (0, ∞],
M (t)
tX
:=
E[e ]
=
Z
etx µ(dx),
R
heißt momentenerzeugende Funktionen der Zufallsvariable X bzw. der Verteilung µ.
(2). Die Funktion φ : R → C,
φ(t)
:=
E[e
itX
]
=
Z
eitx µ(dx),
R
heißt charakteristische Funktion von X bzw. µ.
Da die Funktionen t 7→ etx und t 7→ eitx für t ∈ R nichtnegativ bzw. beschränkt sind, sind die Er-
wartungswerte definiert. Dabei wird der Erwartungswert einer komplexwertigen Zufallsvariable
separat für Real- und Imaginärteil berechnet.
Rechenregeln Die folgenden Rechenregeln ergeben sich unmittelbar aus der Definition:
(1). Sind X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ), dann gilt
MX+Y (t)
MX (t) · MY (t)
=
und
φX+Y (t)
=
φX (t) · φY (t)
φaX+b (t)
=
eibt · φX (at)
für alle t ∈ R.
(2). Für a, b ∈ R gilt
MaX+b (t)
=
ebt · MX (at)
und
für alle t ∈ R.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
251
(3). Für momentenerzeugende bzw. charakteristische Funktionen gilt stets
Die Funktion φ(−t) =
R
M (0)
=
φ(0)
φ(−t)
=
φ(t)
=
1,
und
für alle t ∈ R.
e−itx µ(dx) ist die Fouriertransformation des Maßes µ. Ist µ absolutste-
tig bzgl. des Lebesguemaßes mit Dichte f , dann ist φ(−t) die Fouriertransformation der Funktion
f:
φ(t)
Z
=
e−itx f (x) dx
=
R
Entsprechend ist
M (−t)
=
Z
e−tx µ(dx)
fb(t).
(t > 0)
R
die Laplacetransformation des Maßes µ bzw. der Dichte f .
Bemerkung (Zusammenhang von M und φ). (1). Gilt M (s) < ∞ für ein s > 0 (bzw. analog für ein s < 0), dann ist M auf dem Intervall [0, s] (bzw. [s, 0]) endlich, denn nach der
Jensenschen Ungleichung folgt:
M (t)
=
E[etX ]
≤
E[esX ]t/s
<
∞
für alle t ∈ [0, s] bzw. t ∈ [s, 0].
(2). Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist M analytisch fortsetzbar auf den Streifen
{z ∈ C : |Re(z)| < δ} in der komplexen Zahlenebene, und es gilt
φ(t)
=
für alle t ∈ R.
M (it)
Die letzte Bemerkung ermöglicht manchmal eine vereinfachte Berechnung der charakteristischen
Funktion.
Beispiel. (1). Für eine standardnormalverteilte Zufallsvariable Z gilt:
Z ∞
Z ∞
1
1
2
2
tx−x2 /2
t2 /2
√
MZ (t) = √
e
dx = e
e−(x−t) /2 dx = et /2 < ∞
2π −∞
2π −∞
für alle t ∈ R.
Also ist die charakteristische Funktion gegeben durch
φZ (t)
Universität Bonn
=
MZ (it)
=
e−t
2 /2
für alle t ∈ R.
Wintersemester 2009/2010
252
KAPITEL 8. GRENZWERTSÄTZE
(2). Eine normalverteilte Zufallsvariable X mit Mittel m und Varianz σ 2 können wir darstellen
als X = σZ + m mit Z ∼ N (0, 1). Also gilt:
σ 2 t2
MX (t) = e MZ (σt) = exp mt +
2
2 2
σ t
φX (t) = exp imt −
.
2
mt
,
Sind X1 , ..., Xn unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann erhalten wir:
n
Y
nσ 2 t2
φX1 +...+Xn (t) =
φXi (t) = exp inmt −
.
2
i=1
Da die rechte Seite die charakteristische Funktion von N (nm, nσ 2 ) ist, folgt nach dem
Fourierinversionssatz (s.u., Satz 8.2):
X1 + ... + Xn ∼ N (nm, nσ 2 ) .
(3). Die Binomialverteilung mit Parametern n und p ist die Verteilung der Summe
unabhängigen Bernoulli(p)-verteilten Zufallsvariablen Y1 , ..., Yn . Also sind
φ(t) =
n
Y
i=1
M (t) =
φYi (t) = 1 − p + peit
1 − p + pet
n
n
,
Pn
i=1
Yi von
und
die charakteristische und momentenerzeugende Funktion von Bin(n, p).
(4). Die Cauchyverteilung ist die absolutstetige Wahrscheinlichkeitsverteilung auf R mit
Dichte
f (x) =
1
π(1 + x2 )
(x ∈ R).
Für eine Cauchyverteilte Zufallsvariable X gilt MX (t) = ∞ für alle t 6= 0
(und sogar E[|X|n ] = ∞
∀n ∈ N).
Trotzdem existiert
φX (t) = e−|t|
für alle t ∈ R .
Die charakteristische Funktion ist allerdings bei 0 nicht differenzierbar.
Wir zeigen nun, dass sich die Momente E[X n ] einer Zufallsvariable X : Ω → R unter geeigneten Voraussetzungen aus der momentenerzeugenden bzw. charakteristischen Funktion berechnen
lassen. Die nötigen Voraussetzungen sind allerdings im Fall der momentenerzeugenden Funktion
viel stärker:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
253
Satz 8.1. (1). Ist M endlich auf (−δ, δ), δ > 0, dann gilt
E[e
zX
]
∞
X
zn
=
n=0
Insbesondere folgt
M (t)
n!
E[X n ]
∞
X
tn
=
n=0
und somit
n!
für alle z ∈ C mit |z| < δ.
E[X n ]
M (n) (0) = E[X n ]
für alle t ∈ (−δ, δ) ,
für alle n ≥ 0 .
(2). Ist E[|X|n ] < ∞ für ein n ∈ N, dann gilt φ ∈ C n (R) und
φ(n) (t)
Beweis.
=
in · E[X n eitX ]
für alle t ∈ R .
(8.1.1)
(1). Aus der Voraussetzung und dem Satz von der monotonen Konvergenz folgt für
s ∈ (0, δ):
∞
X
sn
n=0
n!
E[|X|n ]
=
E es|X|
≤
E esX + E e−sX
<
∞.
Insbesondere existieren alle Momente E[X n ], n ∈ N, sowie die exponentiellen Momente
E[ezX ] für z ∈ C mit |Re(z)| < δ. Nach dem Satz von Lebesgue erhalten wir für diese z
zudem
∞
X
zn
n=0
n!
E[X n ] = lim E
m→∞
" m
#
X (zX)n
n=0
n!
=E
"
lim
m→∞
da es|X| für s ≥ |z| eine Majorante der Partialsummen ist.
m
X
(zX)n
n=0
n!
#
= E[ezX ] ,
(2). Wir zeigen die Behauptung durch Induktion nach n. Für n = 0 gilt (8.1.1) nach Definition
von φ(t). Ist E[|X|n+1 ] < ∞, dann folgt nach Induktionsvoraussetzung und mit dem Satz
von Lebesgue:
1 φ(n) (t + h) − φ(n) (t)
=
E (iX)n ei(t+h)X − eitX
h
h
Z t+h
isX
n1
iXe ds
= E (iX)
h t
für h → 0, also
φn+1 (t)
=
→
E (iX)n+1 eitX
E[(iX)n+1 · eitX ].
Die Stetigkeit der rechten Seite in t folgt ebenfalls aus dem Satz von Lebesgue und der
Voraussetzung E[|X|n+1 ] < ∞.
Universität Bonn
Wintersemester 2009/2010
254
KAPITEL 8. GRENZWERTSÄTZE
1/2
Beispiel. Für eine Zufallsvariable X mit Dichte fX (x) = const. · e−|x|
gilt E[|X|n ] < ∞ für
alle n ∈ N. Also ist die charakteristische Funktion beliebig oft differenzierbar. Die momentener-
zeugende Funktion M (t) = E[etX ] ist hingegen nur für t = 0 endlich.
Bemerkung (Satz von Bochner). Eine Funktion φ : R → C ist genau dann eine charakteristi-
sche Funktion einer Wahrscheinlichkeitsverteilung auf R, wenn gilt:
(1). φ(0) = 1 und |φ(t)| ≤ 1 für alle t ∈ R.
(2). φ ist gleichmäßig stetig.
(3). φ ist nicht negativ definit, d.h.
n
X
i,j=1
φ(ti − tj )zi zj ≥ 0
∀n ∈ N, t1 , ..., tn ∈ R, z1 , ..., zn ∈ C.
Dass jede charakteristische Funktion einer Wahrscheinlichkeitsverteilung die Eigenschaften (1)(3) hat, prüft man leicht nach (Übung). Der Beweis der umgekehrten Aussage findet sich z.B. in
Vol. II des Lehrbuchs von Feller.
Inversion der Fouriertransformation
Die folgende zentrale Aussage zeigt, dass eine Wahrscheinlichkeitsverteilung eindeutig durch ihre charakteristische Funktion φ festgelegt ist, und liefert eine explizite Formel zur Rekonstruktion
der Verteilung aus φ:
Satz 8.2 (Lévys Inversionsformel). Sei φ die charakteristische Funktion einer Zufallsvariable
X mit Verteilung µ. Dann gilt:
(1).
Z T −ita
1
1
1
e
− e−itb
µ[{a}] + µ[(a, b)] + µ[{b}] =
lim
φ(t) dt
2
2
2π T →∞ −T
it
R∞
(2). Gilt −∞ |φ(t)| dt < ∞, dann ist µ absolutstetig mit stetiger Dichte
Z ∞
1
f (x) =
e−itx φ(t) dt.
2π −∞
∀a<b.
Bemerkung. (1). Die Verteilung µ ist durch (1) eindeutig festgelegt, denn für c, d ∈ R mit
c < d gilt:
1
1
µ[{a}] + µ[(a, b)] + µ[{b}]
2
2
für a ց c und b ր d.
=
Einführung in die Wahrscheinlichkeitstheorie
i
h
i
1 h
µ [a, b] + µ (a, b)
2
→
µ[(c, d)] ,
Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN
255
(2). Ist die Verteilung µ absolutstetig mit quadratintegrierbarer Dichte f , dann ist auch die
entsprechende charakteristische Funktion
φ(t)
Z∞
=
eitx f (x) dx
−∞
quadratintegrierbar. Die Aussage (2) aus Satz 8.2 ist in diesem Fall die klassische Fourierinversionsformel der Analysis, siehe z.B. Forster „Analysis 3“.
Im Beweis der Inversionsformel verwenden wir den Satz von Fubini, der besagt, dass wir die
Integrationsreihenfolge in Doppelintegralen vertauschen dürfen, wenn der Integrand produktintegrierbar ist. Für den Beweis des Satzes von Fubini verweisen wir auf die Analysisvorlesung
oder Abschnitt 9.1.
von Satz 8.2.
(1). Sei T > 0 und a < b. Nach dem Satz von Fubini können wir die Integrati-
onsreihenfolge in dem folgendem Doppelintegral vertauschen, und erhalten:
Z T −ita
Z Z T it(x−a)
1
1
e
− e−itb
e
− eit(x−b)
φ(t) dt =
dt µ(dx) (8.1.2)
|{z}
2π −T
it
π
2it
−T
R
{z
}
|
= eitx µ(dx)
=: g(T,x)
Dabei haben wir benutzt, dass der Integrand produktintegrierbar ist, da aus der LipschitzStetigkeit der Abbildung y 7→ eiy mit Konstante L = 1 folgt, dass
it(x−a)
it(x−b) e
−
e
≤ |t · (x − a) − t · (x − b)| = |a − b|
it
|t|
gilt.
Weiterhin erhalten wir, wegen eit(x−a) = cos(t·(x−a))+i sin(t·(x−a)), cos(x) = cos(−x)
und sin(x) = − sin(−x):
Z
Z T
sin(t · (x − a))
sin(t · (x − b))
g(T, x) =
dt −
dt
t
t
0
0
Z T ·(x−b)
Z T ·(x−a)
sin u
sin u
du −
du
=
u
u
0
0
= S(T · (x − a)) − S(T · (x − b))
T
wobei
Z
t
sin u
du
u
0
der Integralsinus ist. Mithilfe des Residuensatzes (siehe Funktionentheorie) zeigt man:
S(t) :=
lim S(t)
t→∞
Universität Bonn
=
π
2
,
lim S(t)
t→−∞
=
−
π
.
2
Wintersemester 2009/2010
256
KAPITEL 8. GRENZWERTSÄTZE
Damit erhalten wir:
π
π
π
sgn(x − a) − sgn(x − b) = π · I(a,b) (x) + · I{a,b} (x) ,
T →∞
2
2
2
wobei wir sgn(0) := 0 setzen. Da S beschränkt ist, ist auch g(T, x) beschränkt in T und x.
lim g(T, x) =
Nach dem Satz von Lebesgue folgt daher aus (8.1.2) für T → ∞
Z T −ita
Z
1
1
e
− e−itb
φ(t) dt =
g(T, x) µ(dx)
2π −T
it
π
T →∞
−→
µ[(a, b)] +
1
µ[{a, b}] .
2
(2). Ist φ integrierbar, dann ist die Funktion (t, x) 7→ e−itx φ(t) produktintegrierbar auf
[a, b] × R für alle −∞ < a < b < ∞. Also ist die Funktion
Z ∞
1
f (x) :=
e−itx φ(t) dt
2π −∞
integrierbar auf [a, b], und es gilt nach dem Satz von Fubini und (1):
Z ∞
Z b
Z b
1
1
(1) 1
µ[{a}] + µ[(a, b)] + µ[{b}] .
φ(t)
e−itx dx dt =
f (x) dx =
2π −∞
2
2
a
| a {z
}
=
Insbesondere folgt
Z
e−ita −e−itb
it
b−ε
a+ε
f (x) dx ≤ µ [(a, b)] ≤
also für ε ց 0:
µ[(a, b)] =
8.2
Z
Z
b
f (x) dx
a
∀ ε > 0,
b
f (x) dx .
a
Erste Anwendungen auf Grenzwertsätze
Charakteristische und momentenerzeugende Funktionen werden häufig beim Beweis von Grenzwertsätzen der Wahrscheinlichkeitstheorie vewendet. Wir skizzieren an dieser Stelle schon einmal die Anwendung charakteristischer Funktionen zum Beweis des zentralen Grenzwertsatzes
und zeigen anschließend, wie obere Schranken für die Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen mithilfe momentenerzeugender Funktionen hergeleitet werden können. Der detaillierte Beweis des zentralen Grenzwertsatzes wird dann nach weiteren Vorbereitungen in Abschnitt 8.3 ausgeführt. Die Analyse der Asymptotik der Wahrscheinlichkeiten
großer Abweichungen auf der exponentiellen Skala werden wir in Kapitel 11 durch den Beweis
einer unteren Schranke vervollständigen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
257
Zentraler Grenzwertsatz
Seien X1 , X2 , ... ∈ L 2 (Ω, A, P ) unabhängige und identisch verteilte Zufallsvariablen mit E[Xi ] =
0 für alle i, und sei Sn = X1 + ... + Xn . Nach dem Gesetz der großen Zahlen gilt:
Sn
n
→
0
P -fast sicher.
Wie sieht die Verteilung von Sn für große n aus?
Um eine asymptotische Darstellung zu erhalten, reskalieren wir zunächst so, dass die Varianz
konstant ist. Es gilt
Var[Sn ] = n · Var[X1 ],
also ist
Sn
1
Var √ = · Var[Sn ] = Var[X1 ] =: σ 2
n
n
unabhängig von n.
Um die Asymptotik der Verteilungen der entsprechend standardisierten Summen
Sn
√
n
zu bestim-
men, betrachten wir die charakteristischen Funktionen. Da die Summanden Xi unabhängig und
identisch verteilt sind, erhalten wir
φ √Sn (t) = φSn
n
t
√
n
Xi iid
=
φX1
t
√
n
n
.
Wegen X1 ∈ L 2 (Ω, A, P ) ist φX1 zweimal stetig differenzierbar, und die Taylorentwicklung bei
t = 0 ist gegeben durch
φX1 (t)
=
1 + i · E[X1 ] · t −
1
E[X12 ] · t2 + o(t2 )
2
=
1
1 − σ 2 t2 + o(t2 ).
2
Damit folgt:
2 n
σ 2 t2
t
1−
φ √Sn (t) =
+o
n
2n
n
2 2
σ t
nր∞
= φN (0,σ2 ) (t)
−→ exp −
2
∀ t ∈ R.
Wir werden im nächsten Abschnitt zeigen, dass aus der Konvergenz der charakteristischen Funktionen unter geeigneten Voraussetzungen die schwache Konvergenz (Definition s.u.) der Verteilungen folgt. Somit ergibt sich:
Zentraler Grenzwertsatz:
Sn
konvergiert schwach
Die Verteilung der standardisierten Summen √
n
gegen die Normalverteilung N (0, σ 2 ).
Den detaillierten Beweis werden wir in Abschnitt 8.3 führen. Der zentrale Grenzwertsatz erklärt,
warum die Normalverteilungen in der Stochastik von so großer Bedeutung sind:
Universität Bonn
Wintersemester 2009/2010
258
KAPITEL 8. GRENZWERTSÄTZE
Bemerkung (Universalität der Normalverteilung). Die Limesverteilung im zentralen Grenzwertsatz ist unabhängig von der Verteilung von X1 , vorausgesetzt, es gilt X1 ∈ L 2 (Ω, A, P ).
Große Abweichungen vom Gesetz der großen Zahlen
Seien X1 , X2 , ... ∈ L 1 (Ω, A, P ) i.i.d. Zufallsvariablen mit Erwartungswert m und momentener-
zeugender Funktion
M (t) = E[etX1 ] ,
und sei Sn = X1 + ... + Xn .
Der folgende Satz verschärft die nicht-asymptotische obere Schranke für große Abweichungen
vom Gesetz der großen Zahlen aus der Bernstein-Ungleichung (Satz 2.6), und verallgemeinert
diese auf nicht Bernoulliverteilte Zufallsvariablen.
Satz 8.3 (Chernoff). Für alle n ∈ N und a ∈ R gilt:
Sn
P
≥ a ≤ e−nI(a)
n
Sn
P
≤ a ≤ e−nI(a)
n
falls a ≥ m, bzw.
falls a ≤ m,
wobei die exponentielle Abfallrate I(a) gegeben ist durch
I(a) = sup (at − log M (t)).
t∈R
Beweis. Wir zeigen diese Aussage im Fall a ≥ m – der Beweis für a ≤ m verläuft analog. Der
Beweis erfolgt in drei Schritten:
(1). Zentrieren:Wir können o.B.d.A. m = 0 annehmen. Andernfalls betrachten wir die zentrierei = Xi − E[Xi ], die wieder unabhängig und identisch verteilt sind.
ten Zufallsvariablen X
fi die Behauptung für Xi folgt
Man überzeugt sich leicht, dass aus der Behauptung für X
(Übung).
(2). Exponentielle Markovungleichung: Für alle t ≥ 0 gilt:
Sn
≥a
P
n
=
Xi iid
=
P [Sn ≥ na]
e−tna E[etX1 ]n
Einführung in die Wahrscheinlichkeitstheorie
e−tna E[etSn ]
≤
=
e−(at−log M (t))·n .
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
259
(3). Optimieren der Abschätzung: Bilden wir das Infimum der für verschiedene t ≥ 0 erhaltenen Abschätzungen, dann ergibt sich:
Sn
P
≥a
≤ inf e−(at−log M (t))·n
t≥0
n
=
e− supt≥0 (at−log M (t))·n .
Es bleibt zu zeigen, dass
sup (at − log M (t))
=
t≥0
sup (at − log M (t))
=
I(a).
t∈R
Dies ist in der Tat der Fall, denn für t < 0 und a ≥ 0 gilt nach der Jensenschen Ungleichung
und der Voraussetzung m = 0:
at − log M (t) ≤ − log E[etX1 ]
= −tm
=
0
≤
=
−E[log etX1 ]
a · 0 − log M (0).
Bemerkung (Kumulantenerzeugende Funktion, Legendretransformation). (1). Die Funktion Λ(t) := log M (t) heißt logarithmische momentenerzeugende oder kumulantenerzeugende Funktion von X1 . Diese Funktion hat u.a. folgende Eigenschaften:
(a) Λ ist konvex und unterhalbstetig, d.h. lim inf Λ(s) ≥ Λ(t)
s→t
für alle t ∈ R.
(b) Λ(0) = 0.
(c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist
M ′ (0)
= m, und
M (0)
M ′′ (0) M ′ (0)2
Λ′′ (0) =
−
=
M (0)
M (0)2
Λ′ (0) =
E[X12 ] − E[X1 ]2
=
Var[X1 ].
Die höheren Ableitungen von Λ heißen Kumulanten von X1 .
(2). Die Ratenfunktion I ist die Legendre-Transformation von Λ:
I(a) = sup fa (t)
t∈R
mit
fa (t) = at − Λ(t),
d.h. I(a) ist der negative Achsenabschnitt der (eindeutigen) Tangente an den Graphen von
Λ mit Steigung a (wobei I(a) = ∞, falls keine solche Tangente existiert).
Universität Bonn
Wintersemester 2009/2010
260
KAPITEL 8. GRENZWERTSÄTZE
4
log M (t)
I(a)
3
2
1
−1
1
2
3
t
−1
−2
−I(a)
Abbildung 8.1: Geometrische Darstellung der Ratenfunktion I(a) als negativer Achsenabschnitt
der eindeutigen Tangente mit Steigung a (rot) an die Kumulantenerzeugende Funktion (blau)
Wichtige Eigenschaften der Ratenfunktion sind:
(a) I ist wieder konvex und unterhalbstetig.
(b) I(a) ≥ fa (0) = 0
∀a ∈ R.
(c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist fa ∈ C ∞ (−δ, δ) mit fa (0) = 0
und fa′ (0) = a − m. Also folgt:
I(a)
=
sup fa
>
0
∀ a 6= m.
Unter der Voraussetzung der letzten Bemerkung (c) ist die exponentielle Abfallrate strikt positiv, d.h. es ergibt sich ein exponentieller Abfall der Wahrscheinlichkeiten großer Abweichungen!
Sind die Zufallsvariablen Xi nicht exponentiell integrierbar, dann kann es auch passieren, dass
I(a) = 0 für a 6= m. Die Wahrscheinlichkeiten großer Abweichungen fallen in diesem Fall lang-
samer als exponentiell ab, denn es gilt auch eine asymptotische untere Schranke mit derselben
Ratenfunktion I, siehe Satz 12.7 unten.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE
261
Beispiel. Für konkrete Verteilungen der Zufallsvariablen Xi kann man die Kumulantenerzeugende Funktion Λ und die Ratenfunktion I häufig explizit berechnen:
(1). Für normalverteilte Zufallsvariablen Xi ∼ N (m, σ 2 ) gilt I(a) =
Sn
≥a
P
n
≤ e−
(a−m)2 n
2σ 2
(a−m)2
,
2σ 2
also
für alle a ≥ m.
Die Ratenfunktion hat eine Nullstelle beim Erwartungswert m, da die Mittelwert Sn /n
gegen diese konvergieren. Jenseits von m fallen die Wahrscheinlichkeiten exponentiell ab,
und zwar mit einer Rate die quadratisch wächst.
6
5
4
3
2
1
−2
−1
1
2
3
4
Abbildung 8.2: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einer N (1, 1)-verteilten Zufallsvariable
(2). Für Xi ∼ Exp(λ) gilt

λa − 1 − log(λa) für a > 0
I(a) =
.
∞
für a ≤ 0
In diesem Fall hat die Ratenfunktion eine Nullstelle beim Erwartungswert 1/λ. Da nicht
positive Werte mit Wahrscheinlichkeit 1 nicht auftreten, hat die Ratenfunktion auf dem
Intervall (−∞, 0] den Wert +∞.
Universität Bonn
Wintersemester 2009/2010
262
KAPITEL 8. GRENZWERTSÄTZE
8
7
6
5
4
3
2
1
1
2
3
4
5
6
Abbildung 8.3: Legendre-Transformierte der logarithmischen momentenerzeugenden Funktion
einer Exp(2)-verteilten Zufallsvariable
(3). Für Xi ∼ Bernoulli(p) erhält man
a
1−a
I(a) = a log
+ (1 − a) log
p
1−p
für a ∈ (0, 1).
1
1
Abbildung 8.4: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einer Bernoulli(1/2)-verteilten Zufallsvariable
Wegen I(a) ≥ 2(a − p)2 verschärft die Abschätzung aus dem Satz von Chernoff in diesem
Fall die in Satz 2.6 hergeleitete obere Schranke
Sn
2
P
≥ a ≤ e−2(a−p) n
n
für a ≥ p.
Wir werden später sehen, dass I(a) sich als relative Entropie der Bernoulli(a)-Verteilung
bzgl. der Bernoulli (p)-Verteilung interpretieren lässt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
263
Beispiel (Ehrenfestmodell im Gleichgewicht). Es befinden sich n = 1023 Moleküle in einem
Gefäß. Jedes Molekül sei mit Wahrscheinlichkeit 12 in der linken bzw. rechten Hälfte. Seien Xi
(1 ≤ i ≤ n) Bernoulli 21 -verteilte unabhängige Zufallsvariablen, wobei Xi = 1 dafür steht,
dass sich das i-te Molekül in der linken Hälfte befindet. Der Anteil Sn /n der Moleküle in dieser
Hälfte konvergiert nach dem Gesetz der großen Zahlen fast sicher gegen 1/2.
Wie groß ist p := P Snn ≥ 21 + 10−10 ?
Eine Abschätzung mit der Čebyšev-Ungleichung liefert:
p
≤
Sn
10 · Var
n
20
=
1
· 10−3
4
=
1
.
4000
Durch Anwenden der exponentiellen Abschätzung erhält man dagegen die viel präzisere Aussage
≤
p
−10 )2
e−2n(10
=
e−2000 .
Eine Abweichung von der Größenordnung 10−10 vom Mittelwert ist also praktisch unmöglich !
Die makroskopische Größe Sn /n ist daher de facto deterministisch.
8.3 Verteilungskonvergenz
Sei S ein metrischer Raum mit Borelscher σ-Algebra B(S), zum Beispiel S = R oder S = Rd .
Wir wollen nun einen für den zentralen Grenzwertsatz angemessenen Konvergenzbegriff für die
Verteilungen µn einer Folge Yn von Zufallsvariablen mit Werten in S einführen. Naheliegend
wäre es zu definieren, dass eine Folge µn von Wahrscheinlichkeitsverteilungen auf (S, B(S))
gegen eine Wahrscheinlichkeitsverteilung µ konvergiert, wenn µ[A] = lim µn [A] für jede Menge
A ∈ B(S) gilt. Ein solcher Konvergenzbegriff erweist sich jedoch sofort als zu restriktiv, z.B.
würde eine Folge von diskreten Wahrscheinlichkeitsverteilungen in diesem Sinne niemals gegen
eine Normalverteilung konvergieren. Einen angemesseneren Grenzwertbegriff erhält man durch
Berücksichtigung der Topologie auf S:
Definition. (1). Schwache Konvergenz von Wahrscheinlichkeitsverteilungen: Eine Folge (µn )n∈N
von Wahrscheinlichkeitsverteilungen auf S (mit Borelscher σ-Algebra) konvergiert schwach
w
gegen eine Wahrscheinlichkeitsverteilung µ auf S (µn → µ), falls
Z
f dµn
Universität Bonn
−→
Z
f dµ
für alle stetigen, beschränkten f : S → R gilt.
Wintersemester 2009/2010
264
KAPITEL 8. GRENZWERTSÄTZE
(2). Konvergenz in Verteilung von Zufallsvariablen: Eine Folge (Yn )n∈N von Zufallsvariablen
mit Werten in S konvergiert in Verteilung gegen eine Zufallsvariable Y bzw. gegen die
Verteilung von Y , falls
Verteilung(Yn )
w
−→
Verteilung(Y ),
d.h. falls
E[f (Yn )]
−→
E[f (Y )]
für alle f ∈ Cb (S) gilt.
Konvergenz in Verteilung bezeichnet man auf Englisch als „convergence in distribution“ oder
D
L
„convergence in law.“ Entsprechend verwendet man die Kurzschreibweisen Yn → Y oder Yn →
Y , falls Yn in Verteilung gegen Y konvergiert.
Beachte: Die Zufallsvariablen Yn , n ∈ N, und Y können bei der Verteilungskonvergenz auf
verschiedenen Wahrscheinlichkeitsräumen definiert sein!
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen
Um den Begriff der schwachen Konvergenz besser zu erfassen, beginnen wir mit einigen Bemerkungen und Beispielen:
Bemerkung. (1). Die hier definierte Form der schwachen Konvergenz entspricht nicht der im
funktionalanalytischen Sinn definierten schwachen Konvergenz auf dem Vektorraum aller beschränkten signierten Maße auf (S, B(S)), sondern einer schwach∗-Konvergenz auf
diesem Raum, siehe z.B. A LT: L INEARE F UNKTIONALANALYSIS.
(2). Wir werden in Satz 8.5 zeigen, dass im Fall S = R die Folge µn genau dann schwach
gegen µ konvergiert, wenn für die Verteilungsfunktionen
Fµn (x)
−→
Fµ (x)
für alle Stetigkeitsstellen x von F ,
d.h. für alle x ∈ R mit µ[{x}] = 0, gilt.
Neben schwacher Konvergenz betrachtet man häufig u.a. auch die folgenden Konvergenzarten
auf positiven bzw. beschränkten signierten Maßen:
• Vage Konvergenz: µn konvergiert vage gegen µ, falls
Z
Z
f dµn −→
f dµ
für alle stetigen Funktionen f mit kompaktem Träger gilt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
265
• Konvergenz in Variationsdistanz: µn konvergiert µ in Variationsdistanz, falls
kµ − µn kTV
:=
Z
Z
1
f dµ − f dµn sup
2 f :S→R messbar
−→
0.
mit |f | ≤ 1
Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen lässt sich auch wie folgt darstellen:
kµ − νkTV
sup |µ[A] − ν[A]|.
=
A∈S
Im diskreten Fall gilt
kµ − νkTV
=
1X
|µ[{x}] − ν[{x}]| .
2 x∈S
Diesen Abstandsbegriff haben wir bereits in Abschnitt 3.5 bei der Konvergenz ins Gleichgewicht von Markovketten verwendet.
Offensichtlich folgt aus der Konvergenz in Variationsdistanz die schwache Konvergenz, aus der
wiederum die vage Konvergenz folgt:
kµn − µkTV → 0
w
µn → µ
=⇒
µn → µ
=⇒
vage.
Die folgenden Beispiele verdeutlichen die unterschiedlichen Konvergenzbegriffe:
w
Beispiel. (1). Diracmaße: Für x, xn ∈ S (n ∈ N) mit xn → x gilt δxn → δx .
Beweis:
Z
f dδxn
=
f (xn )
→
f (x)
=
Z
für alle f ∈ Cb (R).
f dδx
Alternativer Beweis im Fall S = R:
Fδxn (c)
=
I[xn ,∞) (c)
n→∞
→
I[x,∞) (c)
=
Fδx (c)
für alle c 6= x,
d.h. für alle Stetigkeitsstellen von Fδx .
In diesem Beispiel gilt i.A. keine Konvergenz in Variationsnorm, denn kδxn − δx kTV = 1
für xn 6= x.
Universität Bonn
Wintersemester 2009/2010
266
KAPITEL 8. GRENZWERTSÄTZE
(2). Degeneration/Diracfolge: Auf S = R1 konvergiert die Folge µn := N (0, n1 ) von Normalverteilungen mit degenerierender Varianz schwach gegen das Diracmaß δ0 , denn mit dem
Satz von Lebesgue folgt für f ∈ Cb (R)
Z
Z
x2
1
f dµn
=
f (x) p
e− 2/n dx
2π/n
Z
√
y2
y
1
y= nx
√ e− 2 dy
=
f √
n
2π
Z
y2
1
Lebesgue
√ e− 2 dy
−→ f (0) ·
2π
|
{z
}
=1
Z
=
f dδ0 .
3
2
1
−3
−2
−1
1
2
3
Abbildung 8.5: Schwache Konvergenz der Normalverteilungen N (0, 1/n) gegen δ0 .
(3). Schwache vs. vage Konvergenz: Die Folge µn = N (0, n) konvergiert vage gegen das
Nullmaß µ mit µ[A] = 0 für alle A. In der Tat gilt für f ∈ C(R) mit f (x) = 0 für
x 6∈ [−K, K]:
Z
f dµn =
K
Z
1
2 /2n
−x
f (x) · √
e
dx
2πn
≤
−K
Es gilt aber keine schwache Konvergenz, da
Z
1 dµn = µn [R]
Einführung in die Wahrscheinlichkeitstheorie
=
1
2K
√
· sup |f |
2πn
6→
n→∞
−→
0.
0.
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
267
Die Masse wandert in diesem Fall ins Unendliche ab.
−8
−7
−6
−5
−4
−3
−2
−1
1
2
3
4
5
6
7
Abbildung 8.6: Konvergenz der Dichten der Normalverteilungen N (0, n) gegen die Nullfunktion.
(4). Wartezeiten: Die Wartezeit Tp auf den ersten Erfolg bei unabhängigen Ereignissen mit
Erfolgswahrscheinlichkeit p ∈ (0, 1) ist geometrisch verteilt:
P [Tp > k]
(1 − p)k
=
für alle k ∈ N.
Sei nun eine Intensität λ > 0 gegeben. Um kontinuierliche Wartezeiten zu approximieren,
betrachten wir unabhängige Ereignisse, die zu den Zeitpunkten i/n, n ∈ N, mit Wahr-
scheinlichkeit λ/n stattfinden. Dann ist n1 Tλ/n die Wartezeit bis zum ersten Eintreten eines
Ereignisses. Für n → ∞ gilt:
1
P
Tλ > x
n n
h
= P T λ > nx
n
i
=
λ
1−
n
⌊nx⌋
nր∞
−→ e−λx
∀x ≥ 0.
Also konvergiert die Verteilung von n1 Tλ/n schwach gegen die Exponentialverteilung mit
Parameter λ. Konvergenz in Variationsdistanz gilt nicht, da die approximierenden Verteilungen diskret, und die Grenzverteilungen stetig sind.
(5). Diskrete Approximation von Wahrscheinlichkeitsverteilungen: Allgemeiner können wir
eine gegebene Wahrscheinlichkeitsverteilung auf verschiedene Arten durch diskrete Wahrscheinlichkeitsverteilungen, also Konvexkombinationen von Diracmaßen approximieren:
(a) Klassische numerische Approximation: Sei µ eine absolutstetige Wahrscheinlichkeitsverteilung auf [0, 1] mit Dichtefunktion proportional zu g(x), und sei
µn
:=
n
X
wn(i) δ i ,
n
i=1
Universität Bonn
Wintersemester 2009/2010
8
268
KAPITEL 8. GRENZWERTSÄTZE
mit
wn(i)
=
g( ni )
.
n
P
j
g( n )
j=1
Dann konvergiert µn schwach gegen µ, denn
Pn
Z
n
1
i
i
X
g
f
i
i=1
(i)
= n 1 Pn n i n
f dµn =
wn f
n
i=1 g n
n
i=1
R1
Z
f g dx
nր∞
=
f dµ
∀ f ∈ C([0, 1]).
−→ R0 1
g dx
0
g(x)
1
1
n
2
n
...
n−1
n
1
Abbildung 8.7: Stützstellen und Gewichte einer deterministischen Approximation von µ.
(i)
Die Stützstellen i/n und die Gewichte wn können natürlich auch auf andere Art
gewählt werden, z.B. kann die hier verwendete naive Approximation des Integrals
durch eine andere deterministische Quadraturformel ersetzt werden.
(b) Monte-Carlo-Approximation: Sei (S, S, µ) ein beliebiger Wahrscheinlichkeitsraum.
Sind X1 , X2 , ... : Ω → S unabhängige Zufallsvariablen auf (Ω, A, P ) mit Verteilung
µ, dann konvergieren die empirischen Verteilungen
µ
bn (ω, •)
Einführung in die Wahrscheinlichkeitstheorie
:=
n
1 X
δXi (ω)
n i=1
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
269
P -f.s. schwach gegen µ, denn für f ∈ Cb (S) gilt nach dem starken Gesetz großer
Zahlen für P -fast alle ω
Z
f db
µn (ω, •) =
n
1 X
f (Xi (ω))
n i=1 | {z }
GdgZ
−→
E[f (X1 )]
iid,
beschränkt
=
Z
f dµ.
Konvergenz der Verteilungen von Zufallsvariablen
Im Gegensatz zu anderen Konvergenzbegriffen für eine Folge (Yn )n∈N von Zufallsvariablen bezieht sich die Verteilungskonvergenz nur auf die Verteilungen der Yn . Insbesondere können die
Zufallsvariablen Yn und der Grenzwert Y alle auf unterschiedlichen Wahrscheinlichkeitsräumen
definiert sein. Wir untersuchen nun den Zusammenhang der schwachen Konvergenz der Verteilungen mit anderen Konvergenzarten in dem Fall, dass Yn (n ∈ N) und Y reellwertige Zufallsva-
riablen sind, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind.
Satz 8.4. Konvergiert Yn P -fast sicher oder P -stochastisch gegen Y , dann konvergiert Yn auch
in Verteilung gegen Y .
Beweis. Sei f ∈ Cb (R). Konvergiert Yn fast sicher gegen Y , dann konvergiert auch f (Yn ) fast
sicher gegen f (Y ). Nach dem Satz von Lebesgue folgt
E[f (Yn )]
−→
E[f (Y )].
Konvergiert Yn nur stochastisch gegen Y , dann hat jede Teilfolge (Ynk )k∈N von (Yn )n∈N eine fast
sicher gegen Y konvergente Teilfolge (Ynkl )l∈N . Wie zuvor folgt
E[f (Ynkl )]
−→
E[f (Y )].
Also hat jede Teilfolge der Folge (E[f (Yn )])n∈N der Erwartungswerte eine gegen E[f (Y )] konvergente Teilfolge, d.h. es gilt erneut
E[f (Yn )]
−→
E[f (Y )].
Wir beweisen nun eine partielle Umkehrung der Aussage aus Satz 8.4:
Satz 8.5 (Skorokhod - Darstellung und Charakterisierung der schwachen Konvergenz).
Seien µn , µ Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit Verteilungsfunktionen Fn bzw. F .
Dann sind äquivalent:
Universität Bonn
Wintersemester 2009/2010
270
KAPITEL 8. GRENZWERTSÄTZE
(1). Die Folge (µn )n∈N konvergiert schwach gegen µ.
(2). Fn (c) → F (c) für alle Stetigkeitsstellen c von F .
(3). Es existieren Zufallsvariablen Gn , G auf
(Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) )
mit Verteilungen µn bzw. µ, sodass Gn → G P -fast sicher.
Beweis. „(3) ⇒ (1)“ folgt aus Satz 8.4.
„(1) ⇒ (2)“: Für c ∈ R gilt:
Z
Fn (c) =
I(−∞,c] dµn
und
F (c)
=
Z
I(−∞,c] dµ.
(8.3.1)
Sei ε > 0. Wir definieren stetige Approximationen der Indikatorfunktion I(−∞,c] durch




1
für
x
≤
c
−
ε
1
für x ≤ c






fε (x) =
, und
gε (x) =
.
0
für x ≥ c
0
für x ≥ c + ε






 c−x für x ∈ [(c − ε, c)
 c+ε−x für x ∈ (c, c + ε)
ε
ε
1
gε
fε
c
c−ε
c+ε
Abbildung 8.8: Stetige Approximationen von I(−∞,c] .
Es gilt
I(−∞,c−ε]
≤
fε
≤
I(−∞,c]
≤
gε
≤
I(−∞,c+ε] .
Konvergiert µn schwach gegen µ, dann folgt nach (8.3.1) und (8.3.2):
Z
Z
lim inf Fn (c) ≥ lim inf fε dµn =
fε dµ ≥ F (c − ε),
Z
Z
lim sup Fn (c) ≤ lim sup gε dµn =
gε dµ ≤ F (c + ε).
(8.3.2)
und
Für ε ց 0 erhalten wir
lim sup Fn (c)
≤
Einführung in die Wahrscheinlichkeitstheorie
F (c)
=
lim F (c + ε),
εց0
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
271
und
≥
lim inf Fn (c)
F (c)
=
lim F (c − ε),
εց0
falls F bei c stetig ist.
„(2) ⇒ (3)“: Für u ∈ (0, 1) betrachten wir die minimalen und maximalen u-Quantile
G(u) := inf{x ∈ R | F (x) ≥ u},
G(u) := inf{x ∈ R | F (x) > u}
und
der Verteilung µ, siehe Abschnitt 4.4. Entsprechend seien Gn und Gn die minimalen und maximalen u-Quantile der Verteilung µn . Analog zum Beweis von Satz 4.20 zeigt man, dass G und
G bzw. Gn und Gn unter der Gleichverteilung P = U(0,1) Zufallsvariablen mit Verteilung µ bzw.
µn sind. Wir zeigen nun, dass aus (2) folgt:
Behauptung: Gn → G P -fast sicher und Gn → G P -fast sicher.
Damit ist dann die Implikation „(2) ⇒ (3)“ bewiesen. Den Beweis der Behauptung führen wir in
mehreren Schritten durch:
(a) Offensichtlich gilt G ≤ G, und Gn ≤ Gn für alle n ∈ N.
(b) G = G und Gn = Gn P -fast sicher, denn:
P [G 6= G]
≤
X
c∈Q
P [{G ≤ c} \ {G ≤ c}]
=
P [G < G]
X
=
c∈Q
(c) Wir zeigen nun:
lim sup Gn (u)
≤
G(u),
=
P
"
[
#
{G ≤ c < G}
c∈Q
(P [{G ≤ c}] − P [{G ≤ c}])
{z
} |
{z
}
|
=F (c)
0.
=F (c)
lim inf Gn (u)
und
=
≥
G(u).
(8.3.3)
Zum Beweis der ersten aussage genügt es zu zeigen, dass
lim sup Gn (u)
≤
c
für alle c > G(u)
mit µ[{c}] = 0
(8.3.4)
gilt, denn es existieren höchstens abzählbar viele c mit µ[{c}] 6= 0. Für c > G(u) mit
µ[{c}] = 0 gilt aber nach Definition von G und nach (2):
u
<
F (c)
=
lim Fn (c),
n→∞
also existiert ein n0 ∈ N mit
Fn (c)
Universität Bonn
>
u
für alle n > n0 .
(8.3.5)
Wintersemester 2009/2010
272
KAPITEL 8. GRENZWERTSÄTZE
Aus (8.3.5) folgt
Gn (u) ≤ c
für n ≥ n0 ,
und somit
lim sup Gn (u)
≤
c.
Damit haben wir die erste Aussage in (8.3.3) bewiesen. Die zweite Aussage zeigt man auf
ähnliche Weise.
(d) Aus (a)-(c) folgt P -fast sicher:
(a)
(c)
(b)
lim Gn = G
und
(3)
(a)
lim sup Gn ≤ lim sup Gn ≤ G = G ≤ lim inf Gn ≤ lim inf Gn ,
also
lim Gn = G.
Ein wesentlicher Schritt, um den oben skizzierten Beweis des Zentralen Grenzwertsatzes zu vervollständigen, ist es, zu zeigen, dass die Verteilungen der standardisierten Summen von unabhängigen, identisch verteilten, quadratintegrierbaren Zufallsvariablen eine schwach konvergente
Teilfolge haben:
Existenz schwach konvergenter Teilfolgen
Eine Folge von Wahrscheinlichkeitsverteilungen auf einer endlichen Menge S = {x1 , . . . , xd }
können wir als beschränkte Folge in Rd auffassen. Daher existiert stets eine konvergente Teilfolge
– der Grenzwert ist wieder eine Wahrscheinlichkeitsverteilung auf S. Für unendliche Mengen S
gilt eine entsprechende Aussage im Allgemeinen nicht. Wir beweisen nun ein Kriterium für die
Existenz schwach konvergenter Teilfolgen für Folgen von Wahrscheinlichkeitsverteilungen auf
R1 . Dazu setzen wir voraus, dass die Masse nicht ins unendliche abwandert:
Definition. Eine Folge µn ∈ W V (R) heißt straff (engl. tight), falls zu jedem ε > 0 ein c ∈ (0, ∞)
existiert mit
µn ([−c, c]) ≥ 1 − ε
für alle n ∈ N.
Eine straffe Folge von Wahrscheinlichkeitsverteilungen ist also gleichmäßig auf Kompakta konzentriert. Die Masse kann daher für n → ∞ nicht ins Unendliche abwandern.
Beispiel. Die Folge µn = N (mn , σn2 ), mn ∈ R, σn > 0, ist genau dann straff, wenn die Folgen
mn und σn der Mittelwerte und Standardabweichungen beschränkt sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
273
Satz 8.6 (Helly-Bray). Jede straffe Folge µn ∈ W V (R) hat eine schwach konvergente Teilfolge.
Bemerkung. (1). Das Kriterium lässt sich deutlich verallgemeinern: Eine entsprechende Aussage gilt für Folgen von Wahrscheinlichkeitsverteilungen auf beliebigen vollständigen separablen metrischen Räumen (Satz von Prohorov, siehe z.B. Billingsley: Convergence of
probability measures). Die endlichen Intervalle [−c, c] in der Definition von Straffheit ersetzt man in diesem Fall durch kompakte Mengen.
(2). Der Raum W V (R) aller Wahrscheinlichkeitsverteilungen auf [−∞, ∞] ist sogar kompakt
bezüglich der schwachen Topologie, d.h. jede Folge µn ∈ W V (R) hat eine schwach kon-
vergente Teilfolge. Der Beweis verläuft analog zu dem von Satz 8.6. Es folgt, dass jede
Folge µn ∈ W V (R) eine vag konvergente Teilfolge hat. Der Limes ist jedoch i.A. kein
Wahrscheinlichkeitsmaß auf R, da die Masse ins unendliche abwandern kann. Allgemei-
ner gilt: Ist S kompakt, dann ist W V (S) kompakt bzgl. der schwachen Konvergenz.
Wir beweisen nun den Satz von Helly-Bray:
Beweis. Sei µn (n ∈ N) eine straffe Folge von Wahrscheinlichkeitsverteilungen auf R. Um die
Existenz einer schwach konvergenten Teilfolge zu zeigen, betrachten wir die Folge der Verteilungsfunktionen Fn . Wir zeigen die Aussage in mehreren Schritten:
(1). Es existiert eine Teilfolge (Fnk )k∈N , sodass Fnk (x) für alle x ∈ Q konvergiert:
Zum Beweis verwenden wir ein Diagonalverfahren: Sei x1 , x2 , ... eine Abzählung von Q.
Wegen 0 ≤ Fn ≤ 1 existiert eine Teilfolge (Fn(1) )k∈N , für die Fn(1) (x1 ) konvergiert. Ebenso
k
k
existiert eine Teilfolge (Fn(2) )k∈N von (Fn(1) )k∈N , für die Fn(2) (x2 ) konvergiert, usw. Die
k
k
k
Diagonalfolge Fnk (x) := Fn(k) (x) konvergiert dann für alle x ∈ Q.
k
Für x ∈ Q setzen wir F (x) := limk→∞ Fnk (x). Nach (1) existiert der Grenzwert, außerdem
ist die Funktion F : Q → [0, 1]Der Limes existiert nach 1. für x ∈ Q und die Funktion
F : Q → [0, 1] monoton wachsend, da die Funktionen Fnk monoton wachsend sind.
(2). Stetige Fortsetzung von F auf [0, 1]: Für x ∈ R setzen wir
F (x) := inf{F (y) | y ∈ Q, y > x}.
Die folgenden Eigenschaften der Funktion F prüft man leicht nach:
(a) Die Funktion F ist rechtsstetig, monoton wachsend, und es gilt 0 ≤ F ≤ 1.
(b) Fnk (x) → F (x) für alle x ∈ R, an denen F stetig ist.
Universität Bonn
Wintersemester 2009/2010
274
KAPITEL 8. GRENZWERTSÄTZE
(3). Aus (a)folgt, dass durch
µ[(a, b]] := F (b) − F (a),
−∞ < a ≤ b < ∞,
ein positives Maß auf R definiert wird mit
µ[R] = lim µ[(−c, c]] ∈ [0, 1].
c→∞
Wir zeigen nun, dass µ eine Wahrscheinlichkeitsverteilung auf R ist, falls die Folge (µn )n∈N
straff ist. Es gilt nämlich:
µ[(−c, c]] = F (c) − F (−c) = lim (Fnk (c) − Fnk (−c)) = lim µnk [(−c, c]] (8.3.6)
k→∞
k→∞
für fast alle c. Aus der Straffheit von (µn )n∈N folgt, dass zu jedem ε > 0 ein c(ε) ∈ R
existiert mit
µnk [(−c, c]] ≥ 1 − ε
für alle k.
Aus (8.3.6) folgt dann µ[(−c, c]] ≥ 1 − ε, falls c groß genug ist, und damit für ε ց 0:
µ[R] ≥ 1,
also µ(R) = 1.
(4). Aus (b) folgt nun nach Satz 8.5, dass die Folge (µnk )k∈N schwach gegen µ konvergiert.
Schwache Konvergenz über charakteristische Funktionen
Unter Verwendung der Existenz schwach konvergenter Teilfolgen einer straffen Folge von Wahrscheinlichkeitsverteilungen zeigen wir nun, dass eine Folge von Wahrscheinlichkeitsverteilungen auf R genau dann schwach konvergiert, wenn die charakteristischen Funktionen gegen eine
Grenzfunktion konvergieren, die bei 0 stetig ist:
Satz 8.7 (Stetigkeitssatz, Konvergenzsatz von Lévy). Seien (µn )n∈N Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit charakteristischen Funktionen
Z
φn (t) =
eitx µn (dx).
Dann gilt:
(1). Konvergiert µn schwach gegen eine Wahrscheinlichkeitsverteilung µ, dann konvergieren
auch die charakteristischen Funktionen:
φn (t)
→
φ(t)
:=
Einführung in die Wahrscheinlichkeitstheorie
Z
eitx µ(dx)
für alle t ∈ R.
Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ
275
(2). Konvergiert umgekehrt φn (t) für alle t ∈ R gegen einen Limes φ(t), und ist φ stetig bei
t = 0, dann ist φ die charakteristische Funktion einer Wahrscheinlichkeitsverteilung µ,
und µn konvergiert schwach gegen µ.
Bemerkung. (1). Die Stetigkeit von φ bei 0 ist wesentlich. Zum Beispiel ist die Folge µn =
N (0, n) nicht schwach konvergent, aber die charakteristischen Funktionen konvergieren
punktweise:
t2
n↑∞
φn (t) = e− 2n →

0
falls t 6= 0
1
.
falls t = 0
(2). Eine Aussage wie im Satz gilt auch für Wahrscheinlichkeitsverteilungen auf Rd . Hier definiert man die charakteristische Funktion φ : Rd → C durch
Z
eit·x µ(dx),
t ∈ Rd .
φ(t) =
Rd
Beweis. Der erste Teil der Aussage folgt unmittelbar aus eitx = cos(tx) + i sin(tx), denn
Kosinus und Sinus sind beschränkte stetige Funktionen.
Der Beweis des zweiten Teils der Aussage erfolgt nun in mehreren Schritten. Wir nehmen an,
dass die charakteristischen Funktionen φn (t) punktweise gegen eine bei 0 stetige Grenzfunktion
φ(t) konvergieren.
(1). Relative Kompaktheit: Jede Teilfolge von (µn )n∈N hat eine schwach konvergente Teilfolge.
Dies ist der zentrale Schritt im Beweis. Nach dem Satz von Helly-Bray genügt es zu zeigen, dass µn (n ∈ N) unter den Voraussetzungen straff ist. Dazu schätzen wir die Wahr-
scheinlichkeiten µn [|x| ≥ c] mithilfe der charakteristischen Funktionen ab. Da die Funktion
f (u) = 1 −
sin u
u
für u 6= 0 strikt positiv ist mit lim f (u) = 1, existiert eine Konstante
|u|→∞
a > 0 mit f (u) ≥ a für alle |u| ≥ 1. Damit erhalten wir für ε > 0:
µn
=
1
|x| ≥
ε
µn [{x ∈ R | |εx| ≥ 1}]
≤
1
a
Z sin εx
µn (dx)
1−
εx
{z
}
|
1
= 2ε
F ubini
=
Universität Bonn
1
2aε
Z
ε
−ε
nր∞
(1 − Re(φn (t)))dt −→
Lebesgue
Rε
(1−cos(xt))dt
−ε
1
·
2aε
Z
(8.3.7)
ε
−ε
(1 − Re(φ(t)))dt.
Wintersemester 2009/2010
276
KAPITEL 8. GRENZWERTSÄTZE
Sei nun δ > 0 vorgegeben. Ist ε hinreichend klein, dann gilt wegen der vorausgesetzten
Stetigkeit von φ bei 0:
|1 − Re(φ(t))|
=
|Re(φ(0) − φ(t))|
≤
δa
2
für alle t ∈ [−ε, ε].
Also können wir die rechte Seite von (8.3.7) durch δ/2 abschätzen, und somit existiert ein
n0 ∈ N mit
µn
1
|x| ≥
ε
≤
δ
für alle n ≥ n0 .
(8.3.8)
Diese Aussage gilt natürlich auch, falls wir ε noch kleiner wählen. Zudem gilt (8.3.8) auch
für alle n < n0 , falls ε klein genug ist. Also ist µn (n ∈ N) straff.
(2). Der Grenzwert jeder schwach konvergenten Teilfolge von (µn )n∈N hat die charakteristische
Funktion φ.
Zum Beweis sei (µnk )k∈N eine Teilfolge von (µn )n∈N und µ eine Wahrscheinlichkeitsverw
teilung mit µnk → µ. Dann gilt nach dem ersten Teil der Aussage des Satzes:
φµ (t)
=
lim φnk (t)
k→∞
=
φ(t)
für alle t ∈ R.
(3). Schwache Konvergenz von (φn )n∈N .
Nach dem Inversionssatz existiert höchstens eine Wahrscheinlichkeitsverteilung µ mit charakteristischer Funktion φ. Also konvergieren nach (2) alle schwach konvergenten Teilfolgen von (µn )n∈N gegen denselben Limes µ. Hieraus folgt aber, zusammen mit (1), dass
R
(µn )n∈N schwach gegen µ konvergiert, denn für f ∈ Cb (S) hat jede Teilfolge von f dµn
R
R
R
eine gegen f dµ konvergente Teilfolge, und somit gilt f dµn → f dµ.
8.4
Der Zentrale Grenzwertsatz
Wir können nun den in Abschnitt 8.2 skizzierten Beweis des Zentralen Grenzwertsatzes (engl.
Central Limit Theorem) vervollständigen. Wir zeigen zunächst, dass ein zentraler Grenzwertsatz
für Summen beliebiger unabhängiger, identisch verteilter Zufallsvariablen mit endlicher Varianz gilt. Diese Aussage wurde zuerst 1900 von Lyapunov bewiesen, der damit den Satz von de
Moivre/Laplace (1733) deutlich verallgemeinern konnte. Am Ende dieses Abschnitts beweisen
wir eine noch allgemeinere Version des Zentralen Grenzwertsatzes, die auf Lindeberg und Feller
zurückgeht.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
277
Zentraler Grenzwertsatz für Summen von i.i.d. Zufallsvariablen
Satz 8.8 (Zentraler Grenzwertsatz – 1. Version). Seien X1 , X2 , ... ∈ L2 (Ω, A, P ) unabhängige, identisch verteilte Zufallsvariablen mit Varianz σ 2 und sei
Sn = X1 + ... + Xn .
Dann konvergieren die Verteilungen der standardisierten Summen
Ŝn =
n
Sn − E[Sn ]
1 X
√
(Xi − E[Xi ])
= √
n
n i=1
schwach gegen N (0, σ 2 ).
Bemerkung. (1). Alternativ kann man die standardisierten Summen auf Varianz 1 normieren,
und erhält
Sn − E[Sn ]
√
σ· n
D
−→
Z,
wobei Z eine standardnormalverteilte Zufallsvariable ist.
(2). Die Voraussetzung Xi ∈ L2 (Ω, A, P ) ist wesentlich. Bei unendlicher Varianz der Xi können sich andere Grenzverteilungen für die geeignet renormierten Summen
Sn −an
bn
(an ∈
R, bn > 0) ergeben. Als Grenzverteilungen können i.A. die sogenannten stabilen Verteilungen auftreten, siehe dazu z.B. Satz 8.12 unten.
(3). Im Fall σ 2 = 0 gilt die Aussage auch. Hierbei interpretieren wir das Diracmaß δm als
degenerierte Normalverteilung N (m, 0).
Wir beweisen nun den Zentralen Grenzwertsatz in der oben stehenden Form:
ei :=
Beweis. O.B.d.A. sei E[Xi ] = 0, ansonsten betrachten wir die zentrierten Zufallsvariablen X
Xi −E[Xi ]. Nach dem Konvergenzsatz von Lévy genügt es zu zeigen, dass die charakteristischen
Funktionen der standardisierten Summen Sbn punktweise gegen die charakteristische Funktion der
Normalverteilung N (0, σ 2 ) konvergieren, d.h.
φŜn (t) → φN (0,σ2 ) (t) = e−
σ 2 t2
2
∀ t ∈ R.
(8.4.1)
Da die Zufallsvariablen Xi unabhängig, identisch verteilt und zentriert sind, gilt für t ∈ R:
n
t
t
E[Sn ]=0
Xi iid
=
φX1 √
.
φŜn (t)
=
φSn √
n
n
Universität Bonn
Wintersemester 2009/2010
278
KAPITEL 8. GRENZWERTSÄTZE
Aus X1 ∈ L2 folgt φX1 ∈ C 2 (R), und
φX1 (t)
=
E[eitX1 ]
=
1 + itE[X1 ] +
(it)2
E[X12 ] + o(t2 )
2
=
1−
t2 σ 2
+ o(t2 ),
2
= 0 steht. Damit erhalten wir:
wobei o für eine Funktion o : R+ → C mit limε↓0 |o(ε)|
ε
2 n
t
t2 σ 2
+o
.
1−
φŜn (t) =
2n
n
Wir vermuten, dass dieser Ausdruck für n → ∞ gegen e−
t2 σ 2
2
strebt. Dies kann man beweisen, in-
dem man den Logarithmus nimmt, und die Taylorapproximation log(1+w) = w+o(|w|) verwendet. Da die charakteristische Funktion komplexwertig ist, muss dazu allerdings der Hauptzweig
der komplexen Logarithmusfunktion verwendet werden.
Wir zeigen stattdessen die Konvergenz ohne Verwendung von Aussagen aus der Funktionentheo-
rie: Für komplexe Zahlen zi , wi ∈ C mit |zi |, |wi | ≤ 1 gilt nach der Dreiecksungleichung
n
n
Y
Y
wi = |(z1 − w1 )z2 z3 · · · zn + w1 (z2 − w2 )z3 z4 · · · zn + . . . + w1 · · · wn−1 (zn − wn )|
zi −
i=1
i=1
≤
n
X
i=1
|zi − wi |.
Damit erhalten wir:
2 n
2 2 n 2 2 2 2
t
σ
t
tσ
t
σ
= 1−
φ b (t) − exp −
+
o
−
exp
−
Sn
2 2n
n
2n
t2 σ 2
t2 σ 2 t2
+o
≤ n · 1 −
− exp −
.
2n
n
2n Da die rechte Seite für n → ∞ gegen 0 konvergiert, folgt (8.4.1) und damit die Behauptung.
Beispiel. (1). Sind X1 , X2 , . . . unabhängig mit P [Xi = 1] = p und P [Xi = 0] = 1 − p,
n
P
Xi binomialverteilt mit Parametern n und p. Die Aussage des Zentralen
dann ist Sn =
i=1
Grenzwertsatzes folgt in diesem Fall aus dem Satz von de Moivre/Laplace.
(2). Sind die Zufallsvariablen Xi unabhängig und Poissonverteilt mit Parameter λ > 0, dann ist
n
P
Xi Poissonverteilt mit Parameter nλ. Der Zentrale Grenzwertsatz liefert in diesem
Sn =
i=1
Fall eine Normalapproximation für Poissonverteilungen mit großer Intensität (Übung).
(3). Sind X1 , X2 , . . . unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann gilt
Sbn
=
X1 + X2 + . . . + Xn − nm
√
n
∼
N (0, σ 2 )
für alle n ∈ N (und nicht nur asymptotisch!).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
279
Warum tritt die Normalverteilung im Limes auf? Wie schon im letzten Beispiel bemerkt,
gilt
Xi ∼ N (0, σ 2 ) unabhängig
⇒
X1 + . . . + Xn
√
∼ N (0, σ 2 ).
n
Die zentrierten Normalverteilungen sind also „invariant“ unter der Reskalierungstransformation
aus dem zentralen Grenzwertsatz. Man kann sich leicht plausibel machen, dass eine Grenzverteilung der standardisierten Summen unabhängiger quadratintegrierbarer Zufallsvariablen eine entsprechende Invarianzeigenschaft haben muss. Tatsächlich sind die zentrierten Normalverteilungen die einzigen nichtdegenerierten Wahrscheinlichkeitsverteilungen mit dieser Invarianz. Aus
dem Zentralen Grenzwertsatz folgt sogar:
Korollar 8.9. Sei µ eine Wahrscheinlichkeitsverteilung auf R mit
X, Y ∼ µ unabhängig
R
x2 µ(dx) < ∞. Gilt
X +Y
√
∼ µ,
2
⇒
(8.4.2)
dann ist µ eine zentrierte Normalverteilung.
Bemerkung. Die Aussage gilt auch ohne die Voraussetzung
aber aufwändiger, siehe z.B. B REIMAN : P ROBABILITY.
R
x2 µ(dx) < ∞ ; der Beweis ist
Beweis. Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit Verteilung µ. Aus der VoraussetR
zung (8.4.2) folgt E[Xi ] = x µ(dx) = 0 für alle i ∈ N, und durch Induktion:
(X1 + . . . + Xn )
√
n
Wegen
R
∼
µ
für n = 2k , k ∈ N.
x2 µ(dx) < ∞ sind die Xi quadratintegrierbar. Durch Anwenden des zentralen Grenz-
wertsatzes auf die standardisierten Summen folgt, dass µ eine zentrierte Normalverteilung ist.
Normalapproximationen
Die Normalverteilungsasymptotik der standardisierten Summen wird häufig verwendet, um Wahrscheinlichkeiten näherungsweise zu berechnen. Wir betrachten zunächst ein typisches Beispiel:
Beispiel (Versicherungsgesellschaft mit n Verträgen). Eine Versicherungsgesellschaft habe
mit n Kunden Verträge abgeschlossen. Beim Eintreten des Schadenfalls für Vertrag i muss die
Leistung Xi ≥ 0 gezahlt werden. Wir nehmen an, dass gilt:
Xi ∈ L2 i.i.d.
Universität Bonn
mit
E[Xi ] = m, Var[Xi ] = σ 2 .
Wintersemester 2009/2010
280
KAPITEL 8. GRENZWERTSÄTZE
Die Prämie pro Vertrag betrage Π = m + λσ 2 , wobei m die erwartete Leistung ist und λσ 2 mit
λ > 0 einem Risikozuschlag entspricht. Die Einnahmen nach einer Zeitperiode betragen dann
n · Π, die Ausgaben Sn = X1 + ... + Xn . Wir wollen die Wahrscheinlichkeit des Ruinereignisses
Sn > k + nΠ,
berechnen, wobei k das Anfangskapital bezeichnet. Hierbei nehmen wir implizit an, dass nicht
verzinst wird, und die Abrechnung nur am Schluß einer Zeitperiode erfolgt. Wenn die standardisierten Schadenssummen mithilfe einer ZGS-Näherung approximiert werden, ergibt sich:
P [Ruin] = P [Sn > k + nΠ] = P [Sn − E[Sn ] > k + nλσ 2 ]
√
Sn − E[Sn ]
k
√
= P
> √ + λσ n
σ n
σ n
√
k
≈ P Z > √ + λσ n ,
σ n
wobei Z eine standardnormalverteilte Zufallsvariable ist. Der Ausdruck auf der rechten Seite
geht für n → ∞ gegen 0. Eine große Anzahl von Verträgen sollte also eine kleine Ruinwahrscheinlichkeit implizieren. Für n = 2000, σ = 60 und λ = 0, 05% ergibt sich beispielsweise:
k = 0 : P [Ruin] ≈ 9%,
k = 1500 : P [Ruin] ≈ 3%.
Nach einer solchen Überschlagsrechnung sollte man das verwendete Modell und die Approximationsschritte einer kritischen Analyse unterziehen. In unserem Fall stellen sich unmittelbar
mehrere Fragen:
(1). Wir haben die ZGS-Näherung verwendet, obwohl die auftretenden Schranken für die standardisierten Summen von n abhängen. Ist das in diesem Fall zulässig?
(2). Ist die Quadratintegrierbarkeit der Xi eine sinnvolle Modellannahme, und was ergibt sich
andernfalls?
(3). In einem realistischen Modell kann man nicht davon ausgehen, dass die Xi identisch verteilt sind. Gilt trotzdem ein Zentraler Grenzwertsatz?
(4). Ist die Unabhängigkeitsannahme gerechtfertigt?
Wir werden nun auf die ersten drei Fragen näher eingehen. Das folgende Beispiel zeigt, dass
man in der Tat vorsichtig sein sollte, wenn man von n abhängige Quantile von standardisierten
Summen durch entsprechende Quantile von Normalverteilungen ersetzt:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
281
Beispiel (Eine zu naive ZGS-Approximation). Seien Xi , i ∈ N, unabhängige, identisch ver-
teilte Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = 1, und sei a > 0. Mit einer ZGSApproximation erhalten wir für große n:
" n
#
#
"
n
X
X
√
1
1
P
Xi ≥ a = P √
Xi ≥ a n
n i=1
n i=1
Z ∞
2
1
− x2
dx
≈ √
e
2π a√n
Z ∞
2
√
y2
1
− na
2
= e
e−a ny− 2 dy
·√
2π 0Z
∞
2
z2
1
− na
2
·√
= e
e−az− 2n dz
2πn 0
na2
1
· exp −
∼ √
2
2πa2 n
√
x=a n+y
z=
√
ny
Dies ist aber nicht die korrekte Asymptotik für n → ∞. Auf der exponentiellen Skala gilt nämlich
"
n
1X
P
Xi ≥ a
n i=1
#
∼ exp (−nI(a)) ,
wobei I(a) die Ratenfunktion aus dem Satz von Chernoff ist. Diese ist im Allgemeinen von
√
na2 /2 verschieden. Die ZGS-Approximation ist hier nicht anwendbar, da a n von n abhängt!
Dass die Näherung aus dem Beispiel oben trotzdem recht gut funktioniert, wenn die Zufallsvariablen Xi dritte Momente haben, garantiert die folgende Abschätzung der Konvergenzgeschwindigkeit im Zentralen Grenzwertsatz:
Satz 8.10 (Berry-Esséen). Seien Xi ∈ L3 i.i.d. Zufallsvariablen, Z ∼ N (0, 1), und seien
Sn − E[Sn ]
√
Fn (x) := P
≤ x ,
σ n
Φ(x) := P [Z ≤ x].
Dann gilt folgende Abschätzung:
sup |Fn (x) − Φ(x)|
x∈R
≤
3 · E[|X1 − E[X1 ]|3 ]
√
.
σ3 n
Den Beweis dieser Aussage findet man etwa im Buch P ROBABILITY T HEORY von R. Durrett
(4.10).
Universität Bonn
Wintersemester 2009/2010
282
KAPITEL 8. GRENZWERTSÄTZE
Für die Normalapproximation der Binomialverteilung Bin(n, p) ergibt sich beispielsweise
3 · E[|X1 − E[X1 ]|3 ]
3 · ((1 − p)2 + p2 )
p
√
=
.
σ3 n
np(1 − p)
Für p → 0 oder p → 1 divergiert die rechte Seite. Wir erhalten also möglicherweise einen
hohen Approximationsfehler für p nahe 0 oder 1. In diesen Fällen empfiehlt sich in der Tat die
Verwendung der Poisson-Approximation anstelle des zentralen Grenzwertsatzes.
Heavy Tails, Konvergenz gegen α-stabile Verteilungen
Als nächstes betrachten wir ein Beispiel, welches zeigt, dass die Voraussetzung der Quadratintegrierbarkeit der Zufallsvariablen essentiell für den zentralen Grenzwertsatz ist:
Seien α ∈ (1, 2), r ∈ (0, ∞), und seien X1 , X2 , . . . : Ω → R unabhängige identisch verteilte
absolutstetige Zufallsvariablen, deren Dichtefunktion
fXi (x)
|x|−α−1
=
für alle |x| ≥ r
erfüllt. Da die Dichte für |x| → ∞ nur langsam abfällt, sind die Zufallsvariablen nicht quadratin-
tegrierbar; sie sind aber integrierbar. Daher ergibt sich ein anderes asymptotisches Verhalten der
charakteristischen Funktionen für t → 0 :
Lemma 8.11. Für t → 0 gilt
φXi (t)
=
1 + imt − c|t|α + O(t2 )
R
mit m = E[Xi ] und c = (1 − cos u)|u|−α−1 du ∈ (0, ∞).
R
Beweis. Sei t 6= 0. Wegen eiu − 1 − iu = O(u2 ) und cos u − 1 = O(u2 ) erhalten wir
φXi (t) − 1 − imt =
=
Z∞
−∞
Z∞
−∞
1
=
|t|
(eitx − 1 − itx)f (x) dx
u 1
du
(e − 1 − iu)f
t |t|
iu
Ztr
−tr
iu
(e − 1 − iu)f
α
u
t
α
du + |t |
Z
(cos u − 1)|u|−α−1 du
[−tr,tr]C
2
= −c|t| + O(t ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
Für die zentrierten Summen Sn =
n
P
283
(Xi − m) folgt nach dem Lemma:
i=1
φSn (t)
(1 − c|t|α + O(t2 ))n .
=
Um Konvergenz der charakteristischen Funktionen zu erhalten, müssen wir Xn nun mit n−1/α
statt n−1/2 reskalieren:
φn−1/α Sn (t) = φSn (n−1/α t)
(1 − c|t|α n−1 + O(n−2/α ))n
=
→ exp(−c|t|α )
für n → ∞.
Nach dem Konvergenzsatz von Lévy folgt:
Satz 8.12. Für n → ∞ gilt
D
n−1/α Sn
→
µc,α ,
wobei µc,α die Wahrscheinlichkeitsverteilung mit charakteristischer Funktion
φc,α (t)
=
exp(−c|t|α )
ist.
Definition. Seien α ∈ (0, 2] und m ∈ R. Die Wahrscheinlichkeitsverteilungen mit charakteristischer Funktion
φ(t)
=
exp(imt − c|t|α ),
c ∈ (0, ∞), heißen symmetrische α-stabile Verteilungen mit Mittelwert m.
Die Dichten der α-stabilen Verteilungen sind für α 6= 1, 2 nicht explizit berechenbar, fallen
aber für |x| → ∞ wie |x|−α−1 ab. Für α = 1 erhält man die Cauchyverteilungen, für α = 2
die Normalverteilungen. Satz 8.12 ist ein Spezialfall eines allgemeineren Grenzwertsatzes für
Summen von Zufallsvariablen mit polynomiellen Tails, siehe z.B. B REIMAN , T HEOREM 9.34.
Der Satz von Lindeberg-Feller
Wir wollen nun die Annahme fallen lassen, dass die Summanden Xi identisch verteilt sind, und
zeigen, dass trotzdem ein zentraler Grenzwertsatz gilt. Sei
Sbn
=
Yn,1 + Yn,2 + ... + Yn,n
mit Yn,i ∈ L2 (Ω, A, P ).
Die Zufallsvariablen Yn,i können etwa kleine Störungen oder Messfehler beschreiben. Setzen wir
Yn,i =
Xi − E[Xi ]
√
n
mit Xi ∈ L2 unabhängig,
(8.4.3)
so erhalten wir das Setup von oben.
Universität Bonn
Wintersemester 2009/2010
284
KAPITEL 8. GRENZWERTSÄTZE
Satz 8.13 (ZGS von Lindeberg-Feller). Sei σ ∈ (0, ∞). Es gelte:
(i) Yn,i (1 ≤ i ≤ n) sind unabhängig für jedes n ∈ N mit E[Yn,i ] = 0,
(ii) Var[Sbn ] =
(iii) γn,ε :=
Pn
i=1
Pn
i=1
n↑∞
Var[Yn,i ] −→ σ 2 ,
n↑∞
2
E[Yn,i
; |Yn,i | > ε] −→ 0
∀ ε > 0.
Dann konvergiert die Verteilung von Sbn schwach gegen N (0, σ 2 ).
Der Satz zeigt, dass die Summe vieler kleiner unabhängiger Störungen unter geeigneten Voraussetzungen ungefähr normalverteilt ist. Dies rechtfertigt bis zu einem gewissen Grad, dass Zufallsgrößen mit unbekannter Verteilung, die durch Überlagerung vieler kleiner Effekte entstehen,
häufig durch normalverteilte Zufallsvariablen modelliert werden.
Bemerkung. (1). Der Zentrale Grenzwertsatz von oben ist ein Spezialfall des Satzes von LindebergFeller: Sind Xi ∈ L2 i.i.d. Zufallsvariablen mit E[Xi ] = m und Var[Xi ] = σ 2 , und definieren wir Yn,i wie in (8.4.3), dann gilt:
n
1 X
b
Var[Sn ] =
Var[Xi ]
n i=1
=
Var[X1 ]
=
σ2,
für alle n ∈ N,
und, für ε > 0
γn,ε
n
X
n
√ 1 X E |Xi − m|2 ; |Xi − m| > ε n
=
E
>ε
=
n i=1
i=1
√
= E |X1 − m|2 ; |X1 − m| > ε n
→ 0
für n → ∞,
2
Yn,i
; |Yn,i |
da X1 quadratintegrierbar ist.
(2). Die Bedingung (iii) ist insbesondere erfüllt, wenn die Lyapunovbedingung
n
X
i=1
n→∞
E[|Yn,i |p ] −→ 0
für ein p > 2 gilt,
2
denn für ε > 0 ist E[Yn,i
; |Yn,i | ≥ ε] ≤ E[|Yn,i |p ]/εp−2 .
Wir beweisen nun den Satz von Lindeberg-Feller: Der Beweis basiert wieder auf einer Analyse
der Asymptotik der charakteristischen Funktionen. Dazu zeigen wir zunächst einige asymptotische Abschätzungen:
Beweis.
(a) Vorüberlegungen: Sei t ∈ R fest.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ
285
(I) Taylorapproximation für φn,i (t) := E[eitYn,i ]:
Aus den verschiedenen Abschätzungen des Taylorrestglieds erhält man
3
x2
|x|
ix
2
e = 1 + ix −
+ R(x) mit |R(x)| ≤ min
, x .
2
6
(8.4.4)
Damit ergibt sich
φn,i (t) = 1 + itE[Yn,i ] −
t2
2
E[Yn,i
] + E[R(tYn,i )]
2
=
1−
2
t2 σn,i
+ Rn,i ,
2
wobei für Rn,i := E[R(tYn,i )] die Abschätzung
|tYn,i |3 2 2
|Rn,i | ≤ E min
, t Yn,i
6
(8.4.5)
gilt.
(II) Wir zeigen
Pn
i=1
|Rn,i | → 0
für n → ∞:
Für ε > 0 gilt nach (8.4.5):
|Rn,i | ≤
1
· E |tYn,i |3 ; |Yn,i | ≤ ε + E[|tYn,i |2 ; |Yn,i | > ε].
6
2
Mit E [|tYn,i |3 ; |Yn,i | ≤ ε] ≤ |t|3 ε · σn,i
erhalten wir
n
X
i=1
n
|Rn,i |
|t|3 ε X 2
σ + t2 γn,ε ,
6 i=1 n,i
≤
und somit nach Voraussetzung (ii) und (iii)
lim sup
n→∞
n
X
i=1
|Rn,i |
≤
σ 2 |t|3
ε.
6
Die Behauptung folgt für ε → 0.
2
(III) Wir zeigen sup1≤i≤n σn,i
→0
für n → ∞:
Für ε > 0 und 1 ≤ i ≤ n gilt
2
2
2
σn,i
= E[Yn,i
; |Yn,i | ≤ ε] + E[Yn,i
; |Yn,i | > ε]
≤
ε2 + γn,ε .
Wegen γn,ε → 0 für n → ∞ ergibt sich
2
lim sup sup σn,i
≤ ε2 .
n→∞
1≤i≤n
Die Behauptung folgt wieder für ε → 0.
Universität Bonn
Wintersemester 2009/2010
286
KAPITEL 8. GRENZWERTSÄTZE
(b) Hauptteil des Beweises:
Zu zeigen ist
φŜn (t) =
n
Y
i=1
t2 σ 2
φn,i (t) −→ exp −
2
n→∞
,
(8.4.6)
die Aussage folgt dann aus dem Konvergenzsatz von Lévy.
Wir zeigen:
n
n Y
2 2 Y
t
σ
n,i 1−
φn,i (t) −
2
i=1
i=1
n 2 Y
t2 σn,i
1−
2
i=1
n→∞
−→
0,
n→∞
e−
−→
und
t2 σ 2
2
(8.4.7)
.
(8.4.8)
Daraus folgt (8.4.6), und damit die Behauptung.
Beweis von (8.4.7): Wie oben gezeigt, gilt für zi , wi ∈ C mit |zi |, |wi | ≤ 1:
n
n
n
Y
X
Y
zi −
wi ≤
|zi − wi |.
i=1
i=1
i=1
Zudem gilt |φn,i (t)| ≤ 1, und nach der 3. Vorüberlegung existiert ein n0 ∈ N mit
2
t2 σn,i
∈ (0, 1)
für alle n ≥ n0 und 1 ≤ i ≤ n.
2
Damit erhalten wir für n ≥ n0 :
n
n n Y
2 2 Y
X
t2 σn,i
t2 σn,i
=
φn,i (t) −
1−
≤
φn,i (t) − 1 − 2
2
1−
i=1
i=1
i=1
Die rechte Seite konvergiert nach der 2. Vorüberlegung gegen 0.
(8.4.9)
n
X
i=1
|Rn,i |
Beweis von (8.4.8): Wegen (8.4.9) erhalten wir
!
n
n 2 2 X
Y
t2 σn,i
t2 σn,i
=
log 1 −
log
1−
2
2
i=1
i=1
= −
2
en,i | ≤ C · t2 σn,i
wobei |R
2
n
n
2
X
X
t2 σn,i
en,i ,
+
R
2
i=1
i=1
e ∈ (0, ∞). Die rechte Seite konvergiert nach Voraussetmit C
2 2
zung (ii) für n → ∞ gegen − t 2σ , denn
n
X
i=1
en,i | ≤ Ct4 ·
|R
nach der 3. Vorüberlegung.
n
X
4
σn,i
i=1
Einführung in die Wahrscheinlichkeitstheorie
≤
4
Ct ·
n
X
i=1
2
2
σn,i
· sup σn,i
1≤i≤n
→
0
Prof. Andreas Eberle
8.5. VOM RANDOM WALK ZUR BROWNSCHEN BEWEGUNG
287
Bemerkung (Zentrale Grenzwertsätze für Summen abhängiger Zufallsvariablen). In allen
Fällen haben wir bisher angenommen, dass die Zufallsvariablen Xi unabhängig sind. Tatsächlich hat man zentrale Grenzwertsätze auch für viele große Modellklassen mit Abhängigkeit gezeigt, beispielsweise für Martingale, additive Funktionale von Markovketten, Skalierungslimiten
von Teilchensystemen, unterschiedliche Folgen von Parameterschätzern in der Statistik, usw. Wir
werden darauf in weiterführenden Vorlesungen zurückkommen.
8.5 Vom Random Walk zur Brownschen Bewegung
Universität Bonn
Wintersemester 2009/2010
Kapitel 9
Multivariate Verteilungen und statistische
Anwendungen
9.1
Mehrstufige Modelle
Seien (Si , Si ), 1 ≤ i ≤ n, messbare Räume. Wir wollen allgemeine Wahrscheinlichkeitsvertei-
lungen auf dem Produktraum S1 × ... × Sn konstruieren und effektiv beschreiben. In Analogie zu
diskreten, mehrstufigen Modellen versuchen wir diese in der Form
P (dx1 ...dxn ) = µ(dx1 )p(x1 , dx2 )p((x1 , x2 ), dx3 ) · · · p((x1 , ..., xn−1 ), dxn )
darzustellen.
Stochastische Kerne und der Satz von Fubini
Wir betrachten zunächst den Fall n = 2, der allgemeine Fall ergibt sich dann durch Iteration der
Konstruktion. Seien also (S, S) und (T, T ) messbare Räume, und sei
Ω := S × T
und
A := S ⊗ T
die Produkt-σ-Algebra.
Unser Ziel ist die Konstruktion einer Wahrscheinlichkeitsverteilung auf (Ω, A) vom Typ
P (dxdy) = µ(dx)p(x, dy).
Definition. Eine Abbildung
p : S × T −→ [0, 1],
(x, C) 7→ p(x, C),
heißt stochastischer Kern (oder Übergangswahrscheinlichkeit), wenn gilt:
288
9.1. MEHRSTUFIGE MODELLE
289
(i) p(x, •) ist für jedes x ∈ S eine Wahrscheinlichkeitsverteilung auf (T, T ),
(ii) p(•, C) ist für jedes C ∈ T eine messbare Funktion auf (S, S).
Bemerkung (Diskreter Spezialfall). Sind S und T abzählbar mit S = P(S), T = P(T ),
dann ist p eindeutig festgelegt durch die Matrix mit Komponenten
p(x, y) := p(x, {y})
(x ∈ S , y ∈ T ).
Da p ein stochastischer Kern ist, ist p(x, y) (x ∈ S, y ∈ T ) eine stochastische Matrix.
Der folgende Satz zeigt im allgemeinen Fall die Existenz eines zweistufigen Modells mit µ als
Verteilung der ersten Komponente, und p(x, •) als bedingte Verteilung der zweiten Komponente
gegeben den Wert x der ersten Komponente. Der Satz zeigt zudem, dass Erwartungswerte im
mehrstufigen Modell durch Hintereinanderausführen von Integralen berechnet werden können.
Satz 9.1 (Fubini). Sei µ(dx) eine Wahrscheinlichkeitsverteilung auf (S, S) und p(x, dy) ein sto-
chastischer Kern von (S, S) nach (T, T ). Dann existiert eine eindeutige Wahrscheinlichkeitsverteilung µ ⊗ p auf (Ω, A) mit
(µ ⊗ p)[B × C] =
Z
µ(dx) p(x, C)
B
Für diese Wahrscheinlichkeitsverteilung gilt:
Z
Z Z
f d(µ ⊗ p) =
f (x, y) p(x, dy) µ(dx)
Beweis.
für alle B ∈ S, C ∈ T .
(9.1.1)
für alle A-messbaren f : Ω → R+ .
(9.1.2)
(1). Eindeutigkeit: Das Mengensystem {B × C | B ∈ S, C ∈ T } ist ein durch-
schnittsstabiler Erzeuger der Produkt-σ-Algebra A. Also ist die Wahrscheinlichkeitsverteilung µ ⊗ ν durch (9.1.1) eindeutig festgelegt.
(2). Existenz: Wir wollen die Wahrscheinlichkeitsverteilung µ⊗ν über (9.1.2) mit f = IA , A ∈
A, definieren. Dazu müssen wir überprüfen, ob die rechte Seite in diesem Fall definiert ist
(d.h. ob die Integranden messbar sind), und ob
Z Z
(µ ⊗ p)[A] :=
IA (x, y) p(x, dy) µ(dx)
eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert.
Für Produktmengen A = B × C (B ∈ S, C ∈ T ) ist die Funktion x 7→
R
IA (x, y)p(x, dy)
nach Definition des stochastischen Kerns messbar. Da die Mengen A ∈ A, für die diese
Funktion messbar ist, ein Dynkinsystem bilden, folgt die Messbarkeit für alle A ∈ A.
Universität Bonn
Wintersemester 2009/2010
290
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
µ ⊗ p ist eine Wahrscheinlichkeitsverteilung, denn einerseits folgt
Z Z
(µ ⊗ p)[Ω] = (µ ⊗ p)[S × T ] =
IS (x)IT (y)p(x, dy) µ(dx) = µ[S] = 1
aus
R
T
p(x, dy) = p(x, T ) = 1; andererseits gilt für disjunkte Mengen Ai (i ∈ N)
X
I Ai ,
I S Ai =
woraus unter zweimaliger Anwendung des Satzes von der monotonen Konvergenz folgt:
!
#
"
Z Z X
[
IAi (x, y) p(x, dy) µ(dx)
(µ ⊗ p)
Ai =
i
=
i
X Z Z
IAi (x, y) p(x, dy) µ(dx)
i
=
X
i
(µ ⊗ p)[Ai ].
Durch maßtheoretische Induktion zeigt man nun, dass die Wahrscheinlichkeitsverteilung
µ ⊗ p auch (9.1.2) erfüllt.
Als nächstes wollen wir die Randverteilungen des gerade konstruierten zweistufigen Modells
berechnen. Sei also P := µ ⊗ p, und seien
X : S×T → S
, Y : S×T → T
(x, y) 7→ x
(x, y) 7→ y
,
die Projektionen auf die 1. bzw. 2. Komponente. Wegen p(x, T ) = 1 gilt:
Z
P [X ∈ B] = P [B × T ] =
µ(dx) p(x, T ) = µ[B]
∀ B ∈ S,
B
also ist die Verteilung P ◦ X −1 der ersten Komponente gleich µ. Für die Verteilung der zweiten
Komponente erhalten wir
P [Y ∈ C] = P [S × C] =
Z
µ(dx) p(x, C)
S
∀C ∈T.
Definition. Die durch
(µp)[C]
:=
Z
µ(dx) p(x, C),
C}inT ,
definierte Wahrscheinlichkeitsverteilung auf (T, T ) heißt Mischung der Wahrscheinlichkeitsverteilungen p(x, •) bezüglich µ.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
291
Wie gerade gezeigt, ist µp = P ◦ Y −1 die Verteilung der zweiten Komponente im zweistufigen
Modell.
Bemerkung. Sind S und T abzählbar, dann sind µ ⊗ p und µp die schon in Abschnitt 2.3 be-
trachteten Wahrscheinlichkeitsverteilungen mit Gewichten
(µ ⊗ p)(x, y) = µ(x) p(x, y),
X
(µp)(y) =
µ(x) p(x, y).
x∈S
Die Massenfunktionen von µ ⊗ p und µp sind also das Tensor- bzw. Matrixprodukt des Zeilenvektors µ und der stochastischen Matrix p.
Wichtige Spezialfälle
Produktmaße: Ist p(x, •) ≡ ν eine feste (von x unabhängige) Wahrscheinlichkeitsverteilung
auf (T, T ), dann ist µ ⊗ p das Produkt µ ⊗ ν der Wahrscheinlichkeitsverteilungen µ und ν. Der
Satz von Fubini liefert also die Existenz des Produktmaßes, und die schon mehrfach verwendete
Berechnungsformel
Z
f d(µ ⊗ ν) =
Z Z
S
f (x, y) ν(dy) µ(dx)
T
(9.1.3)
für die Integrale nicht-negativer oder integrierbarer messbarer Funktionen bzgl. des Produktmaßes. Die Integrationsreihenfolge kann man in diesem Fall vertauschen, denn wegen
(µ ⊗ ν)[B × C] = µ[B]ν[C]
für alle B ∈ S, C ∈ T
(9.1.4)
gilt (ν ⊗ µ) ◦ R−1 = µ ⊗ ν, wobei R(x, y) = (y, x), und damit nach dem Transformationssatz:
Z Z
Z
F ub.
f (x, y) µ(dx) ν(dy) =
f ◦ R d(ν ⊗ µ)
Z
=
f d(µ ⊗ ν)
Z Z
F ub.
=
f (x, y) ν(dy) µ(dx).
Durch wiederholte Anwendung dieses Arguments erhalten wir zudem:
Korollar 9.2. Seien (Si , Si , µi ) Wahrscheinlichkeitsräume (1 ≤ i ≤ n). Dann existiert eine
eindeutige Wahrscheinlichkeitsverteilung µ1 ⊗ ... ⊗ µn auf (S1 × ... × Sn , S1 ⊗ ... ⊗ Sn ) mit:
(µ1 ⊗ ... ⊗ µn ) [B1 × ... × Bn ] =
Universität Bonn
n
Y
i=1
µi [Bi ]
für alle Bi ∈ Si
(1 ≤ i ≤ n).
Wintersemester 2009/2010
292
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Für alle produktmessbaren Funktionen f : S1 × ... × Sn → [0, ∞) gilt:
Z
Z
Z
f d(µ1 ⊗ ... ⊗ µn ) = ...
f (x1 , ..., xn )µn (dxn ) ...µ1 (dx1 ),
wobei die Integration auch in beliebiger anderer Reihenfolge ausgeführt werden kann.
Beweis. Die Existenz folgt durch wiederholte Anwendung des Satzes von Fubini, die Eindeutigkeit aus dem Eindeutigkeitssatz. Dass die Integrationsreihenfolge vertauscht werden kann, zeigt
man ähnlich wie im oben betrachteten Fall n = 2.
Deterministische Kopplung: Gilt p(x, •) = δf (x) für eine messbare Funktion f : S → T , dann
folgt (µ ⊗ p)[{(x, y) | y = f (x)}] = 1. Die zweite Komponente ist also durch die erste Kompo-
nente mit Wahrscheinlichkeit 1 eindeutig festgelegt. Die Verteilung der zweiten Komponente ist
in diesem Fall das Bild von µ unter f :
µp = µ ◦ f −1 .
Übergangskerne von Markovschen Ketten: Gilt S = T , dann können wir p(x, dy) als Übergangswahrscheinlichkeit (Bewegungsgesetz) einer Markovkette auf (S, S) auffassen. In Analogie
zum diskreten Fall definieren wir:
Definition. Eine Wahrscheinlichkeitsverteilung µ auf (S, S) heißt Gleichgewicht (stationäre
oder auch invariante Verteilung) von p, falls µp = µ gilt, d.h. falls
Z
µ(dx)p(x, B) = µ[B]
für alle B ∈ S.
Beispiel (Autoregressiver Prozess). Der AR(1)-Prozess mit Parametern ε, α ∈ R ist eine
Marε2
2
kovkette mit Übergangskern p(x, •) = N (αx, ε ). Die Normalverteilung N 0, 1−α2 ist für
α ∈ (0, 1) ein Gleichgewicht. Für α ≥ 1 existiert kein Gleichgewicht.
Bedingte Dichten und Bayessche Formel
Wir betrachten nun Situationen mit nichttrivialer Abhängigkeit zwischen den Komponenten im
kontinuierlichen Fall. Seien X : Ω → Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahr-
scheinlichkeitsraum (Ω, A, P ), deren gemeinsame Verteilung absolutstetig ist mit Dichte fX,Y ,
d.h.
P [x ∈ B, Y ∈ C]
=
Z Z
fX,Y (x, y) dy dx
für alle B ∈ B(Rn ), C ∈ B(Rm ).
B C
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
293
2
1
500
1000
−1
−2
Abbildung 9.1: Simulation einer Trajektorie eines AR(1)-Prozesses mit Parametern α = 0.8 und
ε2 = 1.5.
Nach dem Satz von Fubini sind dann auch die Verteilungen von X und Y absolutstetig mit dichten
Z
fX (x) =
fX,Y (x, y) dy
Rm
und
fY (x)
=
Z
fX,Y (x, y) dx.
Rn
Obwohl bedingte Wahrscheinlichkeiten gegeben Y = y nicht im herkömmlichen Sinn definiert
werden können, da das Ereignis {Y = y} eine Nullmenge ist, können wir die bedingte Dichte
und die bedingte Verteilung von X gegeben Y in diesem Fall sinnvoll definieren. Anschaulich
beträgt die Wahrscheinlichkeit, dass der Wert X in einem infinitesimal kleinen Volumenelement
dx liegt, gegeben, dass der Wert von Y in einem entsprechenden infinitesimalen Volumenelement
dy liegt:
P [X ∈ dx, Y ∈ dy]
P [Y ∈ dy]
fX,Y (x, y)
=
dx
fY (y)
P [X ∈ dx|Y ∈ dy] =
=
fX,Y (x, y) dx dy
fY (y) dy
Diese heuristische Überlegung motiviert die folgende Definition:
Definition. Die Funktion fX|Y : Rn × Rm → [0, ∞] mit


 fX,Y (x, y) falls fY (y) 6= 0
fY (y)
fX|Y =

f (x)
falls fY (y) = 0
X
Universität Bonn
Wintersemester 2009/2010
294
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
heißt bedingte Dichte von X gegeben Y , und die von y abhängende Wahrscheinlichkeitsverteilung
µX|Y (y, B)
:=
Z
für B ∈ B(Rn ),
fX|Y (x, y) dx,
B
heißt bedingte Verteilung von X gegeben Y .
Bemerkung. (1). Für festes y ist die bedingte Dichte eine Wahrscheinlichkeitsdichte auf Rn .
Da fX|Y produktmessbar ist, ist die bedingte Verteilung µX|Y nach dem Satz von Fubini
ein stochastischer Kern von Rm nach Rn .
(2). Auf der Nullmenge {y ∈ Rm |fY (y) = 0} sind fX|Y (x|y) und µX|Y (y, dx) nicht eindeutig
festgelegt - die oben getroffene Definition über die unbedingte Dichte ist relativ willkürlich.
Aus der Definition der bedingten Dichte ergibt sich unmittelbar eine Variante der Bayesschen
Formel für absolutstetige Zufallsvariablen:
Satz 9.3 (Bayessche Formel). Für (x, y) ∈ Rn × Rm mit fX (x) > 0 und fY (y) > 0 gilt
fX|Y (x|y)
=
R
Rn
Beweis. Aus der Definition folgt
fX|Y (x|y)
=
fX (x)fY |X (y|x)
.
fX (x)fY |X (y|x) dx
fX,Y (x, y)
fY (y)
=
R
fX,Y (x, y)
,
fX,Y (x, y) dx
Rn
und damit die Behauptung.
In Modellen der Bayesschen Statistik interpretiert man fX (x) als Dichte der a priori angenommenen Verteilung eines unbekannten Parameters X, und fY |X (y|x) als Maß für die Plausibilität
(„Likelihood“) des Parameterwertes x, wenn der Wert y der Zufallsgröße Y beobachtet wird. Die
Bayessche Formel besagt dann, dass die Verteilung von X, von der man a posteriori (d.h. nach
der Beobachtung von y) ausgeht, die Dichte
fX|Y (x|y)
= const.(y) · fX (x) · fY |X (y|x)
A posteriori Dichte ∝ A priori Dichte × Likelihood
hat. Trotz der einfachen Form der Bayesschen Formel ist es im Allgemeinen nicht trivial, Stichproben von der A-posteriori-Verteilung zu simulieren, und Erwartungswerte numerisch zu berechnen. Problematisch ist u.A., dass die Berechnung der Normierungskonstanten die Auswertung eines (häufig hochdimensionalen) Integrals erfordert. Ein wichtiges Verfahren zur Simulation von Stichproben in diesem Zusammenhang ist der Gibbs-Sampler.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE
295
Sind X und Y gemeinsam normalverteilt, dann kann man die wichtigsten Erwartungswerte bzgl.
der A-posteriori-Verteilung im Prinzip exakt berechnen. Wir demonstrieren dies nun in einem
grundlegenden Beispiel eines zweistufigen Modells. Ähnliche Modelle treten in zahlreichen Anwendungen auf.
Beispiel (Signalverarbeitung). Sei S = T = R1 , also
S × T = R2 = {(x, y) | x, y ∈ R}.
Wir interpretieren die erste Komponente x als Größe eines nicht direkt beobachtbaren Signals,
und die zweite Komponente y als verrauschte Beobachtung von x. In einem einfachen Bayesschen Modell nimmt man z.B. a priori an, dass Signal und Beobachtung normalverteilt sind:
Signal
x ∼ N (0, v) ,
v > 0,
Beobachtung
y ∼ N (x, ε) ,
ε > 0.
Die Verteilung der ersten Komponente und der Übergangskern zur zweiten Komponente sind
dann:
µ(dx) = fX (x) λ(dx)
p(x, dy) = fY |X (y|x) λ(dy)
mit den Dichten
x2
1
e− 2v
2πv
(y−x)2
1
fY |X (y|x) := √
e− 2ε
2πε
fX (x) := √
(Dichte der Verteilung der ersten Komponente X),
(bedingte Dichte der zweiten Komponente Y gegeben X = x).
Die gemeinsame Verteilung von Signal und Beobachtungswert ist
(µ ⊗ p)(dxdy) = µ(dx) p(x, dy)
1
(ε + v)x2 − 2vxy + vy 2
√ exp −
λ(dx)λ(dy)
=
2vε
2π vε
1
1 x
−1 x
√
λ2 (dx dy).
=
·C
exp −
y
2 y
2π det C
D.h. µ ⊗ p ist eine zweidimensionale Normalverteilung mit Kovarianzmatrix
!
v
v
C=
.
v v+ε
Universität Bonn
Wintersemester 2009/2010
296
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Mit anderen Worten: Die gemeinsame Verteilung von X und Y ist absolutstetig bzgl. des zweidimensionalen Lebesguemaßes mit Dichte
fX,Y (x, y)
=
fX (x)fY |X (y|x)
=

1
1
√
exp −
2
2π det C
x
y
!⊤
· C −1
Als Dichte der Verteilung µp von Y ergibt sich:
Z
fY (y) = fX,Y (x, y) dx.
!
x
.
y
Nach der Bayesschen Formel erhalten wir für die A-posteriori dichte des Signals gegeben die
Beobachtung y:
fX,Y (x, y)
fY (y)
fX (x)fY |X (y|x)
= R
fX (x)fY |X (y|x) λ(dx)
ε+v
v
2
= const(y) · exp −
(x −
y) .
2vε
v+ε
fX|Y (x|y) :=
(9.1.5)
Die bedingte Verteilung des Signals gegeben die Beobachtung ist also N (x̂, u), wobei
v
x̂ =
y
der Prognosewert ist, und
v+ε
−1
vε
1 1
die Varianz der Prognose.
=
+
u =
v+ε
v ε
In einem Bayesschen Modell würden wir also nach der Beobachtung mit einer Standardabwei√
chung σ = u prognostizieren, dass der Signalwert gleich x̂ ist.
Ähnliche Modellierungsansätze werden auch in viel allgemeinerem Kontext verwendet. Beispielsweise wird in stochastischen Filterproblemen das Signal durch eine Markovkette (oder
einen zeitstetigen Markovprozess) beschrieben, und die Folge der Beobachtungen durch einen
von der Markovkette angetriebenen stochastischen Prozess. Sind alle gemeinsamen Verteilungen Gaußsch, dann kann man auch hier die a posteriori Verteilung im Prinzip exakt berechnen –
andernfalls muss man auf numerische Näherungsmethoden (z.B. Partikelfilter) zurückgreifen.
9.2
Summen unabhängiger Zufallsvariablen, Faltung
Seien X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ) mit Verteilungen µ bzw.
ν. Wir wollen die Verteilung von X + Y bestimmen. Für diskrete Zufallsvariablen ergibt sich:
X
X
P [X + Y = z] =
P [X = x, Y = z − x] =
µ(x)ν(z − x)
(9.2.1)
|
{z
}
x∈X(Ω)
=P [X=x]·P [Y =z−x]
Einführung in die Wahrscheinlichkeitstheorie
x∈X(Ω)
Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG
297
Die Wahrscheinlichkeitsverteilung mit Massenfunktion
(µ ⋆ ν)(z)
X
=
x∈X(Ω)
µ(x)ν(z − x)
heißt Faltung von µ und ν. Eine entsprechende Aussage erhält man auch im allgemeinen Fall:
Verteilungen von Summen unabhängiger Zufallsvariablen
Satz 9.4. Seien X und Y unabhängige reellwertige Zufallsvariablen mit Verteilungen µ bzw. ν.
Dann ist die Verteilung von X + Y die durch
Z
(µ ⋆ ν)[B] :=
µ(dx) ν[B − x] ,
B ∈ B(R),
definierte Faltung der Wahrscheinlichkeitsverteilungen µ und ν.
e := {(x, y) | x + y ∈ B}. Da X und Y unabhängig sind, erhalten wir mit dem
Beweis. Sei B
Satz von Fubini
P [X + Y ∈ B]
=
F ubini
=
e = (µ ⊗ ν)[B]
e
P [(X, Y ) ∈ B]
Z
Z
µ(dx) ν(dy)IB (x + y) =
| {z }
=IB−x (y)
Z
µ(dx) ν[B − x].
Bemerkung. Die Faltung µ⋆ν zweier Wahrscheinlichkeitsverteilungen µ und ν auf R1 ist wieder
eine Wahrscheinlichkeitsverteilung auf R1 . Da die Addition von Zufallsvariablen kommutativ
und assoziativ ist, hat die Faltung von Wahrscheinlichkeitsverteilungen nach Satz 9.4 dieselben
Eigenschaften:
µ⋆ν = ν⋆µ
(da X + Y = Y + X)
(µ ⋆ ν) ⋆ η = µ ⋆ (ν ⋆ η)
(9.2.2)
(da (X + Y ) + Z = X + (Y + Z) ).
(9.2.3)
Im diskreten Fall ist µ ⋆ ν nach (9.2.2) die Wahrscheinlichkeitsverteilung mit Gewichten
(µ ⋆ ν)(z)
=
X
x
µ(x)ν(z − x).
Eine entsprechende Berechnungsformel ergibt sich auch für absolutstetige Wahrscheinlichkeitsverteilungen:
Universität Bonn
Wintersemester 2009/2010
298
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Lemma 9.5. Ist ν absolutstetig mit Dichte g, dann ist auch µ ⋆ ν absolutstetig mit Dichte
̺(z) =
Z
µ(dx) g(z − x).
Ist zusätzlich auch µ absolutstetig mit Dichte f , dann gilt
̺(z) =
Z
R
f (x) g(z − x) dx =: (f ⋆ g)(z)
Beweis. Wegen der Translationsinvarianz des Lebesguemaßes gilt
(µ ⋆ ν)[B] =
Z
µ(dx)ν[B − x] =
Z
µ(dx)
Z
F ub.
g(y)dy =
| B−x
{z
}
R
= B g(z−x)dz
Z Z
B
µ(dx)g(z − x) dz .
Also ist µ ⋆ ν absolutstetig mit Dichte ̺. Die zweite Behauptung folgt unmittelbar.
Beispiel. (1). Sind X und Y unabhängig, und Bin(n, p) bzw. Bin(m, p)-verteilt, dann ist X +Y
eine Bin(n + m, p)-verteilte Zufallsvariable. Zum Beweis bemerkt man, dass die gemeinsame Verteilung von X und Y mit der gemeinsamen Verteilung von Z1 + ... + Zn und
Zn+1 + ... + Zn+m übereinstimmt, wobei die Zufallsvariablen Zi (1 ≤ i ≤ n + m) unabhängig und Bernoulli(p)-verteilt sind. Also folgt:
µX+Y = µZ1 +...+Zn +Zn+1 +...+Zn+m = Bin(n + m, p) .
Als Konsequenz erhalten wir (ohne zu rechnen):
Bin(n, p) ⋆ Bin(m, p) = Bin(n + m, p) ,
d.h. die Binomialverteilungen bilden eine Faltungshalbgruppe. Explizit ergibt sich:
l
X
n+m l
m
n k
l−k
m−(l−k)
n−k
p (1 − p)n+m−l ,
p (1 − p)
=
p (1 − p)
l
l
−
k
k
k=0
d.h.
l
X
n
m
n+m
=
.
k
l−k
l
k=0
(9.2.4)
Die kombinatorische Formel (9.2.4) ist auch als Vandermonde-Identität bekannt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG
299
e dann ist X + Y
(2). Sind X und Y unabhängig und Poisson-verteilt mit Parametern λ bzw. λ,
e denn nach der Binomischen Formel gilt für n ≥ 0:
Poisson-verteilt mit Parameter λ + λ,
(µX ⋆ µY )(n) =
n
X
k=0
µX (k) · µY (n − k)
n
X
en−k
λk −λ
λ
e
=
e ·
e −λ
k!
(n − k)!
k=0
= e
e
−λ+λ
n
X
en−k
λk λ
·
k! (n − k)!
k=0
en
(λ + λ)
.
= e
·
n!
Also bilden auch die Poissonverteilungen eine Faltungshalbgruppe:
e
−λ+λ
e = Poisson(λ + λ)
e
Poisson(λ) ⋆ Poisson(λ)
(3). Sind X und Y unabhängig und normalverteilt mit Parametern (m, σ 2 ) bzw. (m,
e σ
e2 ), dann
ist X + Y normalverteilt mit Parametern (m + m,
e σ2 + σ
e2 ), siehe ??. Dies verifiziert man
leicht mithilfe der charakteristischen Funktionen. Die Normalverteilungen bilden also eine
zweiparametrige Faltungshalbgruppe.
Wartezeiten, Gamma-Verteilung
Seien T1 , T2 , ... sukzessive Wartezeiten auf das Eintreten eines unvorhersehbaren Ereignisses. In
einem einfachen Modell nehmen wir an, dass die Ti (i ∈ N) unabhängige exponentialverteilte
Zufallsvariablen sind, d.h. die Verteilungen der Ti sind absolutstetig mit Dichte
f (t) = λ · e−λt · I(0,∞) (t) .
Die Verteilung der Gesamtwartezeit
Sn = T1 + ... + Tn
bis zum n-ten Ereignis ist dann
µSn = µT1 ⋆ µT2 ⋆ ... ⋆ µTn .
Insbesondere ist die Verteilung von S2 absolutstetig mit Dichte
Z
Z s
Z s
2 −λx −λ(s−x)
2 −λs
(f ⋆ f )(s) =
f (x) f (s − x) =
λe e
dx = λ e
dx = λ2 se−λs
|{z}
{z
}
|
R
0
0
=0
f ür x<0
=0
f ür x>s
für s ≥ 0, bzw. (f ⋆ f )(s) = 0 für s < 0. Durch Induktion ergibt sich allgemein:
Universität Bonn
Wintersemester 2009/2010
300
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Lemma 9.6. Die Verteilung von Sn ist absolutstetig mit Dichte
fλ,n (s) =
wobei
Γ(n) :=
Z
λn
· sn−1 · e−λs · I(0,∞) (s) ,
Γ(n)
∞
0
n∈N
tn−1 e−t dx = (n − 1)!
.
Definition. Die Wahrscheinlichkeitsverteilung auf R+ mit Dichte fλ,n heißt Gammaverteilung
mit Parametern λ, n ∈ (0, ∞).
1
1
2
3
4
Abbildung 9.2: Dichtefunktionen der Gammaverteilung Γ1,n für verschiedene n.
Die Gammaverteilung ist auch für nicht-ganzzahlige n definiert, Γ ist dann die Eulersche Gammafunktion. Für n = 1 ergibt sich die Exponentialverteilung als Spezialfall der Gammaverteilung. Allgemein gilt:
Γ(λ, r) ⋆ Γ(λ, s)
=
Γ(λ, r + s) ,
d.h. die Gammaverteilungen mit festem Parameter λ bilden eine Faltungshalbgruppe.
Durch Anwenden des zentralen Grenzwertsatzes auf die Zufallsvariable Sn erhalten wir:
Korollar 9.7 (Normalapproximation der Gammaverteilungen). Sei λ > 0. Dann gilt für
Γ(λ, n) verteilte Zufallsvariablen Sn :
n−1/2 · Sn − nλ−1
D
→
Einführung in die Wahrscheinlichkeitstheorie
N (0, λ−2 )
für n → ∞.
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
301
Bemerkung (Poissonprozess). Die Anzahl der bis zur Zeit t ≥ 0 eingetretenen Ereignisse im
obigen Modell ist
Nt = max{n ≥ 0 | Sn ≤ t} .
Die Zufallsvariablen Nt sind Poissonverteilt mit Parameter λ · t (Übung). Die Kollektion Nt (t ≥
0) der Zufallsvariablen heißt Poissonprozess mit Intensität λ. Der Poissonprozess ist ein mo-
noton wachsender stochastischer Prozess mit ganzzahligen Werten. Er ist selbst eine zeitstetige
Markovkette und ist von grundlegender Bedeutung für die Konstruktion allgemeiner Markovketten in kontinuierlicher Zeit. Wir werden den Poissonprozess in der Vorlesung „Stochastische
Prozesse“ genauer betrachten.
9.3 Transformationen, Gaußmodelle und Parameterschätzung
Der Dichtetransformationssatz
Allgemein gibt es zwei ganz verschiedene Arten, eine Wahrscheinlichkeitsverteilung µ(dx) zu
transformieren:
(1). Koordinatentransformation:
(2). Maßwechsel durch Dichte:
y = φ(x),
µ(dx) → µ ◦ φ−1 (dy)
µ(dx) → ̺(x)µ(dx).
In bestimmten regulären Fällen lassen sich beide Transformationen in Beziehung setzen: Ein
Koordinatenwechsel hat denselben Effekt wie eine absolutstetige Maßtransformation mit einer
geeigneten Dichte ̺. Wir demonstrieren dies hier im Fall absolutstetiger Verteilungen im Rd . Die
entsprechende Koordinatentransformationsformel verwenden wir dann, um multivariate Normalverteilungen, und verschiedene für die Statistik zentrale Verteilungen zu untersuchen.
Seien S, T ⊆ Rn offen, und sei X : Ω → S eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit absolutstetiger Verteilung µX mit Dichte fX .
Satz 9.8 (Mehrdimensionaler Dichtetransformationssatz). Ist φ : S → T ein Diffeomorphis-
mus (C 1 ) mit det Dφ(x) 6= 0 für alle x ∈ S, dann ist die Verteilung von φ(X) absolutstetig mit
Dichte
fφ(X) (y) = fX (φ−1 (y)) · | det Dφ−1 (y)|,
∂xi
wobei det Dφ−1 (y) = det( ∂y
) die Jacobideterminante der Koordinatentransformation ist.
j
Universität Bonn
Wintersemester 2009/2010
302
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Beweis. Die Behauptung folgt aus dem Transformationssatz der multivariaten Analysis:
P [φ(X) ∈ B] = P [X ∈ φ−1 (B)]
Z
Z
Subst.
=
fX (x) dx =
fX (φ−1 (y)) · | det Dφ−1 (y)| dy .
φ−1 (B)
B
Beispiel (Sukzessive Wartezeiten). Seien T und Te unabhängige, zum Parameter λ > 0 exponentialverteilte Zufallsvariablen (z.B. sukzessive Wartezeiten), und sei S = T + Te. Nach dem
Dichtetransformationssatz gilt dann
∂(t, s − t)
|
∂(t, s)
∝ e−λt · I(0,∞) (t) · e−λ(s−t) · I(0,∞) (s − t)
fT,S (t, s) = fT,Te (t, s − t) · | det
= e−λs · I(0,s) (t).
Somit ist die bedingte Dichte fS|T (s|t) für festes t > 0 proportional zu e−λs · I(t,∞) (s). Dies ist
auch anschaulich sofort plausibel, da s eine um die unabhängige Zufallsvariable T verschobene
exponentialverteilte Zufallsvariable ist.
Interessanter ist die Berechnung der bedingten Dichte von T gegeben S: Für festes s > 0 ist
fT |S (t|s) proportional zu I(0,s) (t), d.h.
fT |S (t|s)
=
1
· I(0,s) (t).
s
Gegeben die Summe S der beiden Wartezeiten ist die erste Wartezeit T also gleichverteilt auf
[0, S]!
Wir betrachten nun verschiedene weiterreichende Anwendungen des Dichtetransformationssatzes.
Multivariate Normalverteilungen und multivariater ZGS
Sei Z = (Z1 , Z2 , ..., Zd ) mit unabhängigen, N (0, 1)-verteilten Zufallsvariablen Zi . Die Verteilung des Zufallsvektors Z ist dann absolutstetig bzgl. des Lebesguemaßes im Rd mit Dichte
d
Y
x2
|x|2
d
1
i
√ e− 2 = (2π)− 2 e− 2
fZ (x) =
2π
i=1
(d-dimensionale Standardnormalverteilung).
Sei nun m ∈ Rd und σ ∈ Rd×d eine d × d-Matrix. Wir betrachten den Zufallsvektor
Y = σZ + m .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
303
Wir zeigen zunächst, dass Y Erwartungswert m und Kovarianzmatrix C = σσ T hat, und berechP
nen die charakteristische Funktion: Erwartungswert: E[Yi ] = dk=1 σik E[Zk ] + mi = mi
.
Kovarianz:
P
P
Cov(Yi , Yj ) = Cov( k σik Zk + mi , l σjl Zl + mj )
P
P
= k,l σik σjl · Cov(Zk , Zl ) = k σik σjk = Cij .
Für einen Vektor p ∈ Rd gilt
h T
i
1 T 2
ϕY (p) := E eip·Y = E ei(σ p)·Z eip·m = e− 2 |σ p| +ip·m
Charakteristische Funktion:
1
= e− 2 p·Cp+ip·m .
(9.3.1)
Ist σ regulär, dann können wir die Dichte der Verteilung von Y sofort mithilfe des Transformationssatzes explizit berechnen:
fY (y) = fX (σ −1 (y − m)) · | det σ −1 |
1
1
−1
= p
exp − (y − m)C (y − m) .
2
(2π)d | det C|
Auch im Rd ist eine Wahrscheinlichkeitsverteilung durch ihre charakteristische Funktion eindeutig festgelegt, s. z.B. Bauer: Wahrscheinlichkeitstheorie. Allgemein (also auch für nicht reguläre
σ) können wir die Verteilung von Y auch über die Fourierinversionsformel berechnen.
Definition. Sei m ∈ Rd und C ∈ Rd×d eine symmetrische, nicht-negativ definite Matrix. Die
Verteilung N (m, C) im Rd mit charakteristischer Funktion φY = exp(− 21 pĊp + ipm) heißt
d-dimensionale Normalverteilung mit Mittel m und Kovarianzmatrix C.
Bemerkung/Übung. Mithilfe von charakteristischen Funktionen beweist man die folgenden
Transformationsformeln und Charakterisierungen für multivariate Normalverteilungen:
(1). Für a ∈ Rk und A ∈ Rk×d gilt
X ∼ N (m, C) ⇒ AX + a ∼ N (Am + a, ACAT ).
(2). Folgende Aussagen sind äquivalent:
• X ∼ N (0, C) ist multivariat normalverteilt mit Kovarianzmatrix C.
• p · X ∼ N (0, p · Cp)
∀ p ∈ Rd .
Auch im Rd gilt ein zentraler Grenzwertsatz :
Universität Bonn
Wintersemester 2009/2010
304
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Satz 9.9 (Multivariater zentraler Grenzwertsatz). Seien X1 , X2 , ... : Ω → Rd unabhängige,
identisch verteilte, quadratintegrierbare Zufallsvektoren auf (Ω, A, P ), und sei Sn = X1 + . . . +
Xn . Dann gilt
Sn − E[Sn ] D
√
−→ Z ∼ N (0, C),
n
wobei Cjk = Cov(X1,j , X1,k ) die Kovarianzmatrix der Zufallsvektoren Xi ist.
Der Beweis basiert auf folgender Charakterisierung der schwachen Konvergenz von Zufallsvektoren:
Lemma 9.10 (Cramér-Wold Device). Für Zufallsvariablen Y, Y1 , Y2 , ... : Ω → Rd gilt:
D
Yn −→ Y
⇔
D
∀ p ∈ Rd .
p · Yn −→ p · Y
Beweisskizze. Die Richtung „⇒“ ist klar, da Y 7→ p · Y stetig ist. Umgekehrt gilt:
D
p · Yn −→ p · Y ⇒ E[exp(ip · Yn )] → E[exp(ip · Y )]
∀ p ∈ Rd .
Mit einem ähnlichen Beweis wie im R1 folgt dann aus der Konvergenz der charakteristischen
D
Funktionen die schwache Konvergenz Yn −→ Y . Um die relative Kompaktheit zu zeigen (Satz
von Helly-Bray), verwendet man dabei im Rd die multivariaten Verteilungsfunktionen
(x1 , . . . , xd ) ∈ Rd .
Fn (x1 , ..., xd ) := P [Yn,1 ≤ x1 , ..., Yn,d ≤ xd ],
Wir beweisen nun den zentralen Grenzwertsatz:
Beweis. Für p ∈ Rd gilt nach dem eindimensionalen zentralen Grenzwertsatz:
n
Sn − E[Sn ]
1 X
√
p·
= √
(p · Xi − E[p · Xi ])
n
n i=1
D
−→ N (0, Var[p · X1 ]) = N (0, p · Cp),
da
Var[p · X1 ] = Cov
"
X
pk X1,k ,
k
X
#
pk X1,l =
l
X
k,l
pk pl Ckl = p · Cp.
Ist Y ein N (0, C)-verteilter Zufallsvektor, dann ist N (0, p · Cp) die Verteilung von p · Y . Mithilfe
der Cramér-Wold Device folgt also
(Sn − E[Sn ])/
Einführung in die Wahrscheinlichkeitstheorie
√
n
D
→
Y.
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
305
Beispiel (Vom Random Walk zur Brownschen Bewegung). Sei Sn = X1 + ... + Xn , wobei
die Xi unabhängige Zufallsvariablen mit
E[Xi ] = 0 und Var[Xi ] = 1
sind. Beispielsweise ist Sn ein klassischer Random Walk. Um einen stochastischen Prozess in
kontinuierlicher Zeit zu erhalten, interpolieren wir n 7→ Sn linear. Anschließend reskalieren wir
in Raum und Zeit, und setzen
1
(n)
Set := √ Snt ,
n
t ∈ R+ .
GRAPHIK SKALIERTER RANDOM WALK
Aus dem Zentralen Grenzwertsatz folgt:
(n)
Set =
√
1
D
t √ Snt −→
nt
∼ N (0, t)
für jedes feste t ∈ R+ ,
(n)
d.h. die eindimensionalen Randverteilungen der Prozesse Se(n) = (Set )t≥0 konvergieren. Allge-
meiner zeigt man mithilfe des multivariaten zentralen Grenzwertsatzes, dass auch endlich dimensionale Randverteilungen schwach konvergieren:
D
(n)
(n)
(n)
Set1 , Set2 , ..., Setk
−→ (Bt1 , ..., Btk ) ,
für alle 0 ≤ t1 < t2 < . . . < tk , k ∈ N,
wobei (Bt1 , ..., Btk ) multivariat normalverteilt ist mit
E[Btj ] = 0
und
Cov[Btj , Btk ] = min(tj , tk ).
Eine noch allgemeinere Aussage erhält man mithilfe eines funktionalen zentralen Grenzwertsatzes (Invarianzprinzip von Donsker, ZGS auf dem Banachraum C([0, 1], R)): Der gesamte
(n)
stochastische Prozess (Set )0≤t≤1 konvergiert in Verteilung gegen eine Brownsche Bewegung
(Bt )0≤t≤1 . Mehr dazu in den weiterführenden Vorlesungen »Stochastische Prozesse« und »Grund-
züge der stochastischen Analysis«.
Wir betrachten noch eine weitere Anwendung des Dichtetransformationssatzes auf Normalverteilungen.
Beispiel (χ2 -Verteilungen). Wir berechnen nun die Verteilung vom Quadrat des Abstandes vom
Ursprung eines standardnormalverteilten Zufallsvektors im Rd :
Z = (Z1 , ..., Zd ) ∼ N (0, Id ),
Universität Bonn
2
kZk =
d
X
Zi2 .
i=1
Wintersemester 2009/2010
306
Wegen f|Zi | (x) =
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
√2
2π
2
mit Y = φ(x) := x :
x2
e− 2 · I(0,∞) (x) folgt durch Anwenden des Dichtetransformationssatzes
fZi2 (y) =
r
1
2 −y
e 2 · I(0,∞) (y) · √ ,
π
2 y
d.h. Zi2 ist Γ( 12 , 21 )-verteilt. Da die Zufallsvariablen Zi2 , 1 ≤ i ≤ d, unabhängig sind, folgt:
2
||Z|| =
d
X
Zi2
i=1
∼ Γ
Definition. Die Gamma-Verteilung mit Parametern
1
2
1 d
,
2 2
und
d
2
.
heißt auch Chiquadrat-Verteilung
2
χ (d) mit d Freiheitsgraden.
Parameterschätzung im Gaußmodell
Angenommen, wir beobachten reellwertige Messwerte (Stichproben, Daten), die von einer unbekannten Wahrscheinlichkeitsverteilung µ auf R stammen. Ziel der Statistik ist es, Rückschlüsse
auf die zugrundeliegende Verteilung aus den Daten zu erhalten. Im einfachsten Modell (Gaußmodell) nimmt man an, dass die Daten unabhängige Stichproben von einer Normalverteilung mit
unbekanntem Mittelwert und/oder Varianz sind:
µ = N (m, v),
m, v unbekannt.
Eine partielle Rechtfertigung für die Normalverteilungsannahme liefert der zentrale Grenzwertsatz. Letztendlich muss man aber in jedem Fall überprüfen, ob eine solche Annahme gerechtfertigt ist.Ein erstes Ziel ist es nun, den Wert von m auf der Basis von n unabhängigen Stichproben
X1 (ω) = x1 , . . . , Xn (ω) = xn zu schätzen, und zu quantifizieren.
Problemstellung: Schätzung des Erwartungswerts
• Schätze m auf der Basis von n unabhängigen Stichproben X1 (ω), ..., Xn (ω) von µ.
• Herleitung von Konfidenzintervallen.
Im mathematischen Modell interpretieren wir die Beobachtungswerte als Realisierungen von unabhängigen Zufallsvariablen X1 , . . . , Xn . Da wir die tatsächliche Verteilung nicht kennen, untersuchen wir alle in Betracht gezogenen Verteilungen simultan:
X1 , . . . , Xn ∼ N (m, v)
Einführung in die Wahrscheinlichkeitstheorie
unabhängig unter Pm,v .
(9.3.2)
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
307
Ein naheliegender Schätzer für m ist der empirische Mittelwert
X n (ω) :=
X1 (ω) + ... + Xn (ω)
.
n
Wir haben oben bereits gezeigt, dass dieser Schätzer erwartungstreu (unbiassed) und konsistent
ist, d.h. für alle m, v gilt:
Em,v [X n ] = m
und
Xn → m
Pm,v -stochastisch für n → ∞.
Wie wir den Schätzfehler quantifizieren hängt davon ab, ob wir die Varianz kennen.
Schätzung von m bei bekannter Varianz v.
Um den Schätzfehler zu kontrollieren, berechnen wir die Verteilung von X n :
Xi ∼ N (m, v) unabh. ⇒ X1 + ... + Xn ∼ N (nm, nv)
v
⇒ X n ∼ N (m, )
n
Xn − m
⇒ p
∼ N (0, 1)
v/n
Bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, dann erhalten wir
r 1
v
= N (0, 1)(−q, q) = 2 Φ(q) −
für alle m ∈ R.
Pm,v |X n − m| < q
n
2
Satz 9.11. Im Gaußmodell (9.3.2) mit bekannter Varianz v ist das zufällige Intervall
r
r v
v
X n − Φ−1 (α)
, X n + Φ−1 (α)
n
n
ein (2α − 1) · 100% Konfidenzintervall für m, d.h.
Pm,v [m ∈ Intervall] ≥ 2α − 1
für alle m ∈ R.
Man beachte, dass die Länge des Konfidenzintervalls in diesem Fall nicht von den beobachteten
Stichproben abhängt!
Schätzung von m bei unbekannter Varianz v. In Anwendungen ist meistens die Varianz unbekannt. In diesem Fall können wir das Intervall oben nicht verwenden, da es von der unbekannten Varianz v abhängt. Stattdessen schätzen wir m und v simultan, und konstruieren ein
Universität Bonn
Wintersemester 2009/2010
308
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Konfidenzintervall für m mithilfe beider Schätzwerte. Erwartungstreue Schätzer für m und v
sind
n
Xn
n
1X
=
Xi
n i=1
1 X
Vn =
(Xi − X n )2 .
n − 1 i=1
und
Um ein Konfidenzintervall für m zu erhalten, bestimmen wir mithilfe des Transformationssatzes
die gemeinsame Verteilung von X n und Vn :
Lemma 9.12. X n und Vn sind unabhängig unter Pm,v mit Verteilung
v
n−1
X n ∼ N m,
Vn ∼ χ2 (n − 1) .
,
n
v
Beweis. Wir führen eine lineare Koordinatentransformation Y = OX durch, wobei O eine orthogonale n × n-Matrix vom Typ
O=
√1 ... √1
n
n
beliebig
ist. Eine solche Matrix erhalten wir durch Ergänzen des normierten Vektors ( √1n , ..., √1n ) zu einer
Orthonormalbasis des Rn . In den neuen Koordinaten gilt:
n
Xn
=
(n − 1)Vn
=
1X
1
Xi = √ Y 1 ,
n i=1
n
n
X
i=1
O orthogonal
=
(Xi − X n )2 =
||Y ||2Rn − Y12 =
und
n
X
i=1
n
X
2
2
Xi2 − nX n = ||X||2Rn − nX n
Yi2 .
i=2
Da die Zufallsvariablen Xi (1 ≤ i ≤ n) unabhängig und N (m, v)-verteilt sind, ist der Zufallsvektor X = (X1 , ..., Xn ) multivariat normalverteilt mit Mittel (m, . . . , m) und Kovarianzmatrix
v · In . Nach dem Transformationssatz folgt
 √ 

  

m n



m





 .
0



T



.
Y ∼ N O  .  , v · OIn O  = N  .  , v · In  .
.
 . 




m
0
Also sind Y1 , ..., Yn unabhängige Zufallsvariablen mit Verteilungen
√
Y1 ∼ N (m n, v) , Yi ∼ N (0, v) für i ≥ 2.
Es folgt, dass
Y1
Xn = √
n
n
und
X
n−1
Vn =
v
i=2
Y
√i
v
2
unabhängige Zufallsvariablen mit Verteilungen N (m, nv ) bzw. χ2 (n − 1) sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
Bei bekannter Varianz v hatten wir Konfidenzintervalle für m vom Typ X n ±q ·
pv
n
309
erhalten, wo-
bei q ein geeignetes Quantil der Standardnormalverteilung ist. Daher
q liegt es nahe, zu versuchen,
bei unbekannter Varianz Konfidenzintervalle vom Typ X n ± q ·
"
Pm,v |X n − m| ≥ q
r
Tn−1 :=
Vn
n
√
#
Vn
n
herzuleiten. Es gilt:
= Pm,v [|Tn−1 | ≥ q]
mit
n · (X n − m)
√
.
Vn
Die Zufallsvariable Tn−1 heißt Studentsche t-Statistik mit n − 1 Freiheitsgraden.1 Unsere
Überlegungen zeigen, dass wir aus Quantilen der Studentschen t-Statistik Konfidenzintervalle
für das Gaußmodell herleiten können. Wir müssen nur noch die Verteilung von Tn berechnen:
Satz 9.13 (Student2 ). Die Verteilung von Tn ist absolutstetig mit Dichte
fTn (t)
=
B
1 n
,
2 2
−1
·n
−1/2
−n/2
t2
· 1+
2
(t ∈ R).
»Studentsche t-Verteilung mit n Freiheitsgraden«. Hierbei ist
Z ∞
n
1 n
1
B
=√
,
(1 + s2 )− 2 ds
2 2
n −∞
die Eulersche Beta-Funktion, die als Normierungsfaktor auftritt.
Insbesondere ist das zufällige Intervall
Xn ± q ·
r
Vn
n
ein 100 · (1 − 2α)% Konfidenzintervall für m, falls
(1 − α)
q = FT−1
n−1
ein (1 − α)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden ist.
Beweis. Direkt oder mithilfe des Transformationssatzes zeigt man: Sind
q Z und Y unabhängige
Zufallsvariablen mit Verteilungen N (0, 1) bzw. χ2 (n − 1), dann ist Z/
1
Y
n−1
absolutstetig mit
dichte fTn−1 .
1
In der Statistik bezeichnet man eine messbare Funktion der Beobachtungsdaten als Statistik - ein (Punkt-) Schät-
zer ist eine Statistik, die zum Schätzen eines unbekannten Parameters verwendet wird, ein Konfidenzintervall nennt
man auch Intervallschätzer.
2
Synonym von W. S. Gosset, der als Angestellter der Guiness-Brauerei nicht publizieren durfte.
Universität Bonn
Wintersemester 2009/2010
310
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Der Satz folgt dann nach Lemma 9.12 mit
Xn − m
Z := p
v/n
und
Y :=
n−1
Vn .
v
Bemerkung (Nichtparametrische und Verteilungsunabhängige Konfidenzintervalle). In Anwendungen ist es oft unklar, ob eine Normalverteilungsannahme an die Beobachtungswerte gerechtfertigt ist. Zudem können einzelne größere Ausreißer in den Daten (z.B. aufgrund von Messfehlern) das Stichprobenmittel relativ stark beeinflussen. Der Stichprobenmedian ist dagegen in
den meisten Fällen ein deutlich stabilerer Schätzwert für den Median der zugrundeliegenden
Verteilung, und die in Abschnitt 5.1 hergeleiteten, auf Ordnungsstatistiken basierenden, Konfidenzintervalle für den Median und andere Quantile werden ebenfalls in der Regel weniger stark
durch Ausreißer beeinflusst. Zudem gelten diese Konfidenzintervalle simultan für alle stetigen
Verteilungen. Ist man sich daher nicht sicher, ob eine Normalverteilungsannahme aufgrund der
Daten gerechtfertigt ist, empfiehlt es sich, auf die stabileren Ordnungsintervalle zurückzugreifen.
Beispiel. (NOCH EINZUFÜGEN)
Hypothesentests
In Anwendungen werden statistische Aussagen häufig nicht über Konfidenzintervalle, sondern
als Hypothesentest formuliert. Mathematisch passiert dabei nichts wirklich Neues – es handelt
sich nur um eine durch praktische Erwägungen motivierte Umformulierung derselben Resultate:
Angenommen, wir haben n unabhängige reellwertige Stichproben X1 , ..., Xn von einer unbekannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus
einer Familie µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt, z.B. der Familie aller
Normalverteilungen µm,v , θ = (m, v) ∈ R × R+ . Die gemeinsame Verteilung von X1 , . . . , Xn
n
N
µθ . Sei nun Θ0 eine Teilmenge des Parameterbereichs. Wir
ist dann das Produktmaß µnθ =
i=1
wollen entscheiden zwischen der
Nullhypothese H0 :
»θ ∈ Θ0 «
und der
Alternative H1 :
Einführung in die Wahrscheinlichkeitstheorie
»θ 6∈ Θ0 «
Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG
311
Ein Hypothesentest für ein solches Problem ist bestimmt durch eine messbare Teilmenge C ⊆
Rn (den Verwerfungsbereich) mit zugehöriger Entscheidungsregel:
Akzeptiere H0 ⇐⇒ (X1 , ..., Xn ) ∈
/ C.
Beispiel (t-Test). Seien X1 , X2 , . . . , Xn unabhängige Stichproben von einer Normalverteilung
mit unbekanntem Parameter (m, v) ∈ Θ = R × R+ . Wir wollen testen, ob der Mittelwert der
Verteilung einen bestimmten Wert m0 hat:
Nullhypothese H0 :
»m = m0 « ,
Θ0 = {m0 } × R+ .
Ein solches Problem tritt z.B. in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob
ein Sollwert m0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,
wobei Xi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese
mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.
Im t–Test für obiges Testproblem wird die Nullhypothese akzeptiert, falls der Betrag der Studentschen t-Statistik unterhalb einer angemessen zu wählenden Konstanten c liegt, bzw. verworfen,
falls
gilt.
√
n · (X n − m0 ) > c
√
|Tn−1 | = Vn
Seien nun allgemein X1 , X2 , . . . unter Pθ unabhängige Zufallsvariablen mit Verteilung µθ . Bei
einem Hypothesentest können zwei Arten von Fehlern auftreten:
Fehler 1. Art: H0 wird verworfen, obwohl wahr. Die Wahrscheinlichkeit dafür beträgt:
Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C] ,
θ ∈ Θ0 .
Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Die Wahrscheinlichkeit beträgt:
Pθ [(X1 , ..., Xn ) ∈
/ C] = µnθ [C C ] ,
θ ∈ Θ \ Θ0 .
Obwohl das allgemeine Testproblem im Prinzip symmetrisch in H0 und H1 ist, interpretiert man
beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die
Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeugen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht
vorhanden) unterhalb einer vorgegebenen (kleinen) Schranke α liegen. Die Wahrscheinlichkeit
µnθ [C] ,
θ ∈ Θ \ Θ0 ,
daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.
Universität Bonn
Wintersemester 2009/2010
312
KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Definition. Die Funktion
G(θ) = Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C]
heißt Gütefunktion des Tests. Der Test hat Niveau α, falls
G(θ) ≤ α
für alle θ ∈ Θ0
gilt. Die Funktion G(θ) mit θ ∈ Θ1 heißt Macht des Tests.
Aus Satz 9.13 und der Symmetrie der Studentschen t-Verteilung folgt unmittelbar:
Korollar 9.14. Der Studentsche t-Test hat Niveau α falls c ein (1 − α2 )-Quantil der Studentschen
t-Verteilung mit n − 1 Freiheitsgraden ist.
Allgemeiner gilt:
Satz 9.15 (Korrespondenz Konfidenzintervalle ↔ Hypothesentests). Für einen reellwertigen
Parameter γ = c(θ), ein Irrtumsniveau α ∈ (0, 1), und messbare Abbildungen (Statistiken)
γ̂, ε : Rn → R sind äquivalent:
(i) Das Intervall
[γ̂(X1 , . . . , Xn ) − ε(X1 , . . . , Xn ) , γ̂(X1 , . . . , Xn ) + ε(X1 , . . . , Xn )]
ist ein (1 − α) · 100 % Konfidenzintervall für γ.
(ii) Für jedes γ0 ∈ R ist
C = {(x1 , ..., xn ) : |γ̂(x1 , . . . , xn ) − γ0 | > ε(x1 , . . . , xn )}
der Verwerfungsbereich eines Test der Nullhypothese γ = γ0 zum Niveau α.
Beweis. Das Intervall ist genau dann ein Konfidenzintervall für γ zum Irrtumsniveau α, wenn
Pθ [|γ̂(X1 , . . . , Xn ) − c(θ)| > ε(X1 , ..., Xn )] ≤ α
∀θ∈Θ
gilt, also wenn der entsprechende Test der Nullhypothesen c(θ) = γ0 für jedes γ0 Niveau α
hat.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 10
Bedingte Erwartungen
Zur Analyse von stochastischen Modellen mit Abhängigkeiten verwendet man in der Regel bedingte Wahrscheinlichkeiten und Erwartungswerte gegeben die Werte von Zufallsvariablen. Beispielsweise beschreibt man einen stochastischen Prozess Xn , n ∈ N, durch die bedingten Vertei-
lungen des nächsten Zustands Xn+1 gegeben den Verlauf X0:n = (X0 , X1 , . . . , Xn ) bis zur Zeit
n.
10.1
Bedingen auf diskrete Zufallsvariablen
Wir betrachten zunächst das Bedingen auf den Ausgang einer diskreten Zufallsvariable Y : Ω →
S, S abzählbar. In diesem Fall können wir die bedingte Wahrscheinlichkeitsverteilung
P [A | Y = z]
=
P [A ∩ {Y = z}]
,
P [Y = z]
A ∈ A,
und die bedingten Erwartungswerte
E[X | Y = z]
=
E[X; Y = z]
,
P [Y = z]
X ∈ L1 (Ω, A, P ),
für alle z ∈ S mit P [Y = z] > 0 auf elementare Weise wie in Abschnitt 2.1 definieren. Für z ∈ S
mit P [Y = z] = 0 sind die bedingten Wahrscheinlichkeiten nicht definiert.
Bedingte Erwartungen als Zufallsvariablen
Es wird sich als praktisch erweisen, die bedingten Wahrscheinlichkeiten und Erwartungswerte
nicht als Funktion des Ausgangs z, sondern als Funktion der Zufallsvariable Y zu interpretieren.
Die bedingten Wahrscheinlichkeiten und Erwartungswerte sind dann selbst Zufallsvariablen:
313
314
KAPITEL 10. BEDINGTE ERWARTUNGEN
Definition. Sei X : Ω → R eine Zufallsvariable mit E[X − ] < ∞, und Y : Ω → S eine diskrete
Zufallsvariable. Die durch
E[X | Y ]
mit
g(z)
:=
:=
g(Y )
=
X
z∈S

E[X | Y = z]
beliebig
g(z) · I{Y =z}
falls P [Y = z] > 0
falls P [Y = z] = 0
P -fast sicher eindeutig definierte Zufallsvariable E[X | Y ] heißt (Version der) bedingte(n) Er-
wartung von X gegeben Y . Für ein Ereignis A ∈ A heißt die Zufallsvariable
P [A | Y ]
:=
E[IA | Y ]
(Version der) bedingte(n) Wahrscheinlichkeit von A gegeben Y .
Die bedingte Erwartung E[X | Y ] und die bedingte Wahrscheinlichkeit P [A | Y ] sind also Zufallsvariablen mit den Werten E[X | Y = z] bzw. P [A | Y = z] auf den Mengen {Y = z}, z ∈ S
mit P [Y = z] > 0. Auf jeder der Nullmengen {Y = z}, z ∈ S mit P [Y = z] = 0, wird der
bedingten Erwartung ein willkürlicher konstanter Wert zugewiesen, d.h. die Definition ist nur
P -fast überall eindeutig. Wir fassen zunächst einige elementare Eigenschaften der so definierten
bedingten Erwartung zusammen:
Lemma 10.1 (Eigenschaften der bedingten Erwartung).
(1). Die Abbildung X 7→ E[X | Y ] ist P -fast sicher linear und monoton.
(2). Sind X und Y unabhängig, dann gilt E[X | Y ] = E[X] P -fast sicher.
(3). Herausziehen, was bekannt ist:
Für alle f : S → R mit f (Y ) · X ≥ 0 bzw. f (Y ) · X ∈ L1 gilt
E[f (Y ) · X | Y ] = f (Y ) · E[X | Y ]
P -fast sicher.
Insbesondere gilt
E[f (Y ) | Y ] = f (Y )
Beweis.
P -fast sicher.
(2). Sind X und Y unabhängig, dann gilt
E[X | Y = z]
=
E[X · I{Y =z} ]
P [Y = z]
=
E[X]
für alle z ∈ S mit P [Y = z] > 0, also E[X | Y ] = E[X] P -fast sicher. Die ebenso
elementaren Beweise von (1) und (3) werden dem Leser als Übung überlassen.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN
315
Anschaulich können wir die zweite Aussage folgendermaßen interpretieren: Sind X und Y unabhängig, dann liefert die Kenntnis des Wertes Y (ω) keine zusätzlichen Informationen über X(ω).
Daher ist die beste L2 -Prognose für X(ω) wie im unbedingten Fall durch den Erwartungswert
E[X] gegeben.
Formel von der totalen Wahrscheinlichkeit
Die aus Satz 2.1 bekannte Formel von der totalen Wahrscheinlichkeit können wir mithilfe der
obigen Definition in kompakter Weise schreiben.
Satz 10.2 (Formel von der totalen Wahrscheinlichkeit). Sei Y : Ω → S eine diskrete Zufalls-
variable mit Verteilung µ(z) = P [Y = z]. Für alle messbaren X : Ω → R+ gilt:
X
E[X] =
z: µ(z)6=0
E[X | Y = z] µ(z) = E[E[X | Y ]]
Insbesondere gilt
Beweis. Wegen Ω =
Ṡ
z∈S
E[X] =
P [A] = E[P [A | Y ]]
für alle A ∈ A.
{Y = z} gilt nach dem Transformationssatz
X
E[X; Y = z]
=
z∈S
=
X
X
E[X; Y = z]
z: µ(z)6=0
z: µ(z)6=0
E[X | Y = z] · µ(z)
X
=
z: µ(z)6=0
= E[g(Y )],
g(z) · µ(z)
wobei g : S → R eine beliebige Funktion mit g(z) = E[X | Y = z] für alle z ∈ S mit µ(z) 6= 0
ist. Die Aussage folgt wegen g(Y ) = E[X | Y ] P -fast sicher.
Bemerkung. Für X ∈ L1 (Ω, A, P ) folgt aus der Monotonie der bedingten Erwartung
|E[X | Y ]|
und damit die Ungleichung
E[|E[X | Y ]|]
≤
≤
E[|X| Y ]
E E[|X| Y ]
=
E[|X|].
Die Abbildung X 7→ E[X | Y ] ist also eine Kontraktion auf L1 (Ω, A, P ). Die Aussage von Satz
10.2 gilt entsprechend auch für X ∈ L1 .
Universität Bonn
Wintersemester 2009/2010
316
KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Varianz
Sei nun X : Ω → R eine bzgl. P integrierbare Zufallsvariable
Definition.
Var[X | Y ]
:=
heißt bedingte Varianz von X gegeben Y .
E (X − E[X | Y ])2 | Y
Ist X quadratintegrierbar, dann gelten die folgenden Aussagen:
Lemma 10.3. Für X ∈ L2 (Ω, A, P ) gilt:
h
2 i
(1). L2 -Kontraktivität: E E[X Y ] ≤ E[X 2 ].
(2). Var[X | Y ] = E[X 2 | Y ] − E[X | Y ]2
P -fast sicher.
Insbesondere folgt für z ∈ S mit µ(z) 6= 0:
Var[X | Y ]
Beweis.
=
Var[X | Y = z]
auf {Y = z}.
(10.1.1)
(1). folgt aus Satz 10.2, da für alle z ∈ S mit P [Y = z] 6= 0 auf {Y = z} gilt:
|E[X | Y ]|2
=
|E[X | Y = z]|2
≤
E[X 2 | Y = z]
=
E[X 2 | Y ].
(2). Nach Lemma 10.1, (1) und (3), ergibt sich dann ähnlich wie für die unbedingte Varianz:
Var[X | Y ] = E[X 2 | Y ] − 2 · E[X · E[X | Y ] | Y ] + E[E[X | Y ]2 | Y ]
= E[X 2 | Y ] − E[X | Y ]2
P -fast sicher.
Die folgende Zerlegungsformel kann häufig verwendet werden, um Varianzen zu berechnen oder
abzuschätzen:
Satz 10.4 (Formel von der bedingten Varianz). Für eine Zufallsvariable X ∈ L2 (Ω, A, P )
gilt:
Var[X] = E[Var[X | Y ]] + Var[E[X | Y ]]
X
X
=
Var[X | Y = z] · µ(z) +
(E[X | Y = z] − E[X])2 · µ(z).
z:µ(z)6=0
Einführung in die Wahrscheinlichkeitstheorie
z:µ(z)6=0
Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN
317
Beweis. Es gilt
Var[X] = E[X 2 ] − E[X]2 = E[E[X 2 | Y ]] − E[E[X | Y ]]2
= E[E[X 2 | Y ]] − E[E[X | Y ]2 ] + E[E[X | Y ]2 ] − E[E[X | Y ]]2
= E[Var[X | Y ]] + Var[E[X | Y ]].
Der zweite Teil der Behauptung folgt nun aus (10.1.1) und der entsprechenden Eigenschaft für
die bedingte Erwartung.
Anwendung auf zufällige Summen
Als erste Anwendung betrachten wir eine Summe
N (ω)
SN (ω)
:=
X
Xi (ω)
i=1
von unabhängigen, identisch verteilten Zufallsvariablen Xi ∈ L1 (Ω, A, P ) mit zufälliger Anzahl
N von Summanden. Hierbei sei N : Ω → {0, 1, 2, . . .} eine von den Xi unabhängige Zufallsvariable. Seien m = E[X1 ] und σ 2 = Var[X1 ]. Wir berechnen nun die verschiedenen Kenngrößen
der Verteilung von SN .
Berechnung des Erwartungswertes: Da Sk und N unabhängig sind, erhalten wir
E[SN | N = k]
=
E[Sk | N = k]
=
E[Sk ]
k·m
=
für alle k ∈ N,
also E[SN | N ] = N · m, und damit nach Satz 10.2:
E[SN ]
E[E[SN | N ]]
=
E[N ] · m.
=
Berechnung der Varianz: Erneut folgt wegen der Unabhängigkeit von Sk und N :
Var[SN | N = k]
=
Var[Sk | N = k]
=
Var[Sk ]
k · σ2,
=
also Var[SN | N ] = N · σ 2 , und damit nach Satz 10.4:
Var[SN ]
=
E[Var[SN | N ]] + Var[E[SN | N ]]
Berechnung der momentenerzeugenden Funktion: Für t ∈ R gilt
MSN (t) = E etSN = E E[etSN | N ] = E
= E E[e
Universität Bonn
tX1 N
]
= E MX1 (t)
E[N ] · σ 2 + Var[N ] · m2 .
=
N
"
N
Y
i=1
E[etXi ]
#
= MN (log MX1 (t)) .
Wintersemester 2009/2010
318
KAPITEL 10. BEDINGTE ERWARTUNGEN
Mithilfe von MSN kann man die Momente der zufälligen Summe SN berechnen:
m
E[SN
]
=
(m)
MSN (0)
für alle m ∈ N.
Im Prinzip erhält man die Verteilung von SN durch Laplace-Inversion, was aber nicht immer
praktikabel ist. Nehmen die Zufallsvariablen Xi nur nichtnegative ganzzahlige Werte an, kann
man statt der momentenerzeugenden Funktion die erzeugende Funktion verwenden, und daraus
die Verteilung berechnen. Wir gehen darauf im folgenden Abschnitt ein.
Charakterisierende Eigenschaften der bedingten Erwartung
Zum Abschluss dieses Abschnitts beweisen´wir eine alternative Charakterisierung der bedingten
Erwartung gegeben eine diskrete Zufallsvariable Y : Ω → S, S abzählbar. Diese Charakterisie-
rung werden wir in Abschnitt 10.3 verwenden, um bedingte Erwartungen für allgemeine Bedin-
gungen zu definieren. Sei X : Ω → R+ eine nichtnegative (bzw. integrierbare) Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Satz 10.5. Eine reellwertige Zufallsvariable X ≥ 0 (bzw. X ∈ L1 ) auf (Ω, A, P ) ist genau dann
eine Version der bedingten Erwartung E[X | Y ], wenn gilt:
(I) X = g(Y )
für eine Funktion g : S → R, und
(II) E X · f (Y ) = E[X · f (Y )]
für alle nichtnegativen bzw. beschränkten Funktionen
f : S → R.
Beweis. Ist X eine Version von E[X | Y ], dann gilt (I). Außerdem folgt nach Lemma 10.1 (3)
und der Formel von der totalen Wahrscheinlichkeit:
E X · f (Y )
= E E X Y · f (Y )
= E E X · f (Y ) Y
=
E[X · f (Y )]
für jede nichtnegative bzw. beschränkte Funktion f : S → R.
Umgekehrt folgt aus (I), dass X = g(z) auf {Y = z} gilt. Ist außerdem (II) erfüllt, dann folgt
weiter
g(z) = E X | Y = z
=
E X · I{z} (Y )
=
=
P [Y = z]
E X · I{z} (Y )
P [Y = z]
E[X | Y = z]
für alle z ∈ S mit P [Y = z] > 0, d.h. X = g(Y ) ist eine Version der bedingten Erwartung
E[X | Y ].
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND
ERNEUERUNGEN
319
In einigen Fällen können die charakterisierenden Eigenschaften direkt überprüft werden, um bedingte Erwartungen zu identifizieren:
Beispiel (Summen austauschbarer Zufallsvariablen). Seien X1 , X2 , . . . , Xn ∈ L1 (Ω, A, P )
integrierbare Zufallsvariablen, deren gemeinsame Verteilung invariant unter Koordinatenpermutationen ist, d.h. (Xπ(1) , Xπ(2) , . . . , Xπ(n) ) ∼ (X1 , X2 , . . . , Xn ) für alle π ∈ Sn . Zufallsvariablen
mit dieser Eigenschaft heißen austauschbar – beispielsweise sind unabhängige identisch verteilte Zufallsvariablen austauschbar. Wir zeigen:
E[Xi | Sn ]
1
Sn
n
=
P -fast sicher für alle i = 1, . . . , n,
wobei Sn = X1 +. . .+Xn . Zum Beweis überprüfen wir, dass X i := n1 Sn die Bedingungen (I) und
(II) aus Satz 10.5 für Y = Sn erfüllt. (I) ist offensichtlich. Zudem gilt wegen der Austauschbarkeit
für jede beschränkte messbare Funktion f : R → R:
E[Xi · f (Sn )]
also
1
E
Sn · f (Sn )
n
=
E[Xj · f (Sn )]
für alle i, j = 1, . . . , n,
n
=
1X
E[Xj · f (Sn )]
n j=1
=
E[Xi · f (Sn )]
für alle i = 1, . . . , n, d.h. (II) ist auch erfüllt.
10.2
Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen
Wir wollen die Methoden aus dem letzten Abschnitt nun verwenden, um Verzweigungs- und
Erneuerungsprozesse zu untersuchen. Ein wichtiges Hilfsmittel sind in beiden Fällen erzeugende
Funktionen:
Erzeugende Funktionen von ganzzahligen Zufallsvariablen
Sei X : Ω → {0, 1, 2, . . .} eine auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierte Zufallsvariable mit nichtnegativen ganzzahligen Werten.
Definition. Die durch
G(s)
=
X
E[s ]
=
∞
X
k=0
Universität Bonn
P [X = k]sk ,
s ∈ [−1, 1],
Wintersemester 2009/2010
320
KAPITEL 10. BEDINGTE ERWARTUNGEN
definierte Funktion heißt erzeugende Funktion der Zufallsvariable X bzw. der Folge µ(k) =
P [X = k] der Gewichte von X.
Durch Vergleich mit der geometrischen Reihe sieht man, dass der Konvergenzradius der Potenzreihe stets größer oder gleich 1 ist. Also ist die erzeugende Funktion analytisch auf (−1, 1), und
es gilt
G(k) (0)
für alle k = 0, 1, 2, . . . .
k!
Kennen wir also die erzeugende Funktion explizit, dann können wir die Gewichte der Verteilung
P [X = k]
=
berechnen.
Durch zweimaliges Ableiten zeigt man zudem, dass G monoton und konvex auf [0, 1] ist. Für
s ∈ (0, 1] gilt nach Definition G(s) = M (log s). Daher lassen sich aus der erzeugenden Funktion
die Momente von X berechnen – beispielsweise gilt E[X] = G′ (1−) (linksseitige Ableitung von
G(s) bei s = 1), falls der Erwartungswert endlich ist.
Für die erzeugende Funktion einer Summe X + Y von unabhängigen, nichtnegativen, ganzzahligen Zufallsvariablen X und Y gilt offensichtlich
GX+Y (s)
GX (s) · GY (s)
=
für alle s ∈ [−1, 1].
Somit ist die erzeugende Funktion der Faltung
(µ ∗ ν)(k)
=
k
X
i=0
µ(i)ν(k − i)
(k = 0, 1, 2, . . .)
zweier Wahrscheinlichkeitsverteilungen µ und ν auf N ∪ {0} das Produkt der einzelnen erzeu-
genden Funktionen.
Erzeugende Funktionen können in verschiedenen Situationen für explizite Berechnungen verwendet werden. Wir demonstrieren dies hier in einigen grundlegenden Beispielen. Viele weitere entsprechende Anwendungen finden sich in den Wahrscheinlichkeitstheorie-Lehrbüchern von
Feller und Grimmett/Stirzacker.
Erzeugende Funktionen zufälliger Summen
Sind N, X1 , X2 , . . . : Ω → {0, 1, 2, . . .} unabhängige Zufallsvariablen, dann erhalten wir für die
N
P
Xi :
Summe SN =
i=1
GSN (s)
=
E[sSN ]
=
E[E[sSN | N ]]
Einführung in die Wahrscheinlichkeitstheorie
=
E[G(s)N ]
=
GN (G(s)), (10.2.1)
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND
ERNEUERUNGEN
321
wobei G die erzeugende Funktion der Summanden Xi ist. Für die Verteilung von SN ergibt sich
P [SN = k]
1
(GN ◦ G)(k) (0)
k!
=
für alle k ≥ 0.
Beispiel (Ausdünnungseigenschaft von Poissonverteilungen). Ein Huhn lege eine mit Parameter λ > 0 Poissonverteilte Anzahl N von Eiern, von denen aus jedem unabhängig voneinander
und von N mit Wahrscheinlichkeit p ein Küken schlüpfe. Die erzeugende Funktion der Poissonverteilung ist
GN (s)
=
N
E[s ]
=
∞
X
k=0
Die Anzahl der geschlüpften Küken ist SN =
N
P
sk ·
λk −λ
e
k!
=
eλ(s−1) .
Xi , wobei die Xi untereinander und von N
i=1
unabhängige, Bernoulli(p)-verteilte Zufallsvariablen sind. Wir erhalten also
GSN (s)
=
GN (GX1 (s))
=
GN (1 − p + p · s)
=
epλ·(s−1) ,
d.h. die Zahl der geschlüpften Küken ist wieder Poissonverteilt mit Parameter p · λ. Eine ausge-
dünnte Poissonverteilung ist also wieder eine Poissonverteilung!
Galton-Watson-Verzweigungsprozesse
Wir betrachten das folgende Modell für ein zufälliges Populationswachstum: Alle Individuen
der Population erzeugen unabhängig voneinander eine zufällige Anzahl von Nachkommen in
der nächsten Generation mit Verteilung ν. Hierbei sei ν eine feste Wahrscheinlichkeitsverteilung
auf {0, 1, 2, . . .} mit ν[{2, 3, . . .}] 6= 0. Dieses Modell wurde 1889 von Galton und Watson ein-
geführt, um die Aussterbewahrscheinlichkeit englischer Adelstitel zu untersuchen. Ähnlich wie
beim Random Walk handelt es sich um ein fundamentales stochastisches Modell mit unzähligen
Erweiterungen und Anwendungen, z.B. auf das Wachstum von Zellpopulationen, die Ausbreitung
von Epidemien, die Zunahme der Neutronenzahl in einem Reaktor, oder auch die näherungsweise
Berechnung von genetischen Abständen oder der Anzahl von Zuständen in einem großen zufälligen Graphen (z.B. dem Internet), die man in einer bestimmten Anzahl von Schritten erreichen
kann. Die Nachkommensstruktur eines einzelnen Individuums bestimmt einen zufälligen verwurzelten Baum, s. Grafik 10.1. Dementsprechend spielen Verzweigungsprozesse auch eine zentrale
Rolle bei der Analyse diverser stochastischer Modelle auf Bäumen, s. z.B. [Peres: Probablity on
trees].
Universität Bonn
Wintersemester 2009/2010
322
KAPITEL 10. BEDINGTE ERWARTUNGEN
..
.
n=3
n=2
..
.
b
b
b
b
n=1
b
b
Z3 = 6
b
b
Z2 = 3
b
Z1 = 3
b
b
n=0
b
Z0 = 1
b
Abbildung 10.1: Beispiel für eine Realisierung eines Galton-Watson-Prozesses.
Wir beschreiben die Nachkommenszahlen der einzelnen Individuen in der (n−1)-ten Generation
eines Verzweigungsprozesses durch unabhängige Zufallsvariablen
Nin : Ω → {0, 1, 2, . . .},
i, n = 1, 2, . . . ,
mit Verteilung ν. Für die Gesamtzahl der Individuen in der n-ten Generation erhalten wir die
folgende rekursive Darstellung:
Zn−1
ZN
=
X
Nin
i=1
für alle n ≥ 1.
Ohne wesentliche Einschränkungen nehmen wir Z0 = 1 an. Enthält die Anfangspopulation stattdessen mehrere Individuen, dann erzeugen diese voneinander unabhängige, identisch verteilte
Unterpopulationen. Da Zn−1 nur von den Zufallsvariablen Nik für k ≤ n − 1 abhängt, sind Zn−1
und Nin (i ∈ N) unabhängige Zufallsvariablen. Durch Bedingen auf Zn−1 erhalten wir für die
mittleren Populationsgrößen die Rekursion
E[Zn ]
wobei m :=
∞
P
i=1
=
E[Zn−1 ] · m,
i · ν(i) die mittlere Nachkommenszahl eines Individuums ist. Wir unterscheiden
die folgenden Fälle:
m>1:
Exponentielles Wachstum der Erwartungswerte
(superkritisch)
m=1:
Erwartungswerte konstant
(kritisch)
m<1:
Exponentieller Abfall der Erwartungswerte
(subkritisch)
Wir wollen nun untersuchen, mit welcher Wahrscheinlichkeit die Population in den einzelnen
Fällen ausstirbt. Nach (10.2.1) gilt für die erzeugenden Funktionen der Populationsgrößen die
Rekursionsformel
h PZn−1 n i
GZn (s) = E s i=1 Ni = GZn−1 (G(s)),
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND
ERNEUERUNGEN
323
wobei G die erzeugende Funktion der Verteilung ν der Anzahl Nin der Kinder eines Individuums
ist. Per Induktion folgt wegen GZ1 (s) = G(s):
GZn (s)
=
G(G(. . . G(s) . . .))
|
{z
}
=
Gn (s)
für alle n ∈ N und s ∈ [0, 1].
n−mal
Für die Wahrscheinlichkeiten πn , dass der Prozess zur Zeit n ausgestorben ist, erhalten wir die
Rekursionsformel
πn = P [Zn = 0]
=
GZn (0)
Gn (0)
=
=
G(πn−1 ).
(10.2.2)
Sei nun π die Wahrscheinlichkeit, dass die Population in endlicher Zeit ausstirbt. Da die Ereignisse {Zn = 0} monoton wachsend sind, gilt
π
=
P
"
[
n
#
{Zn = 0}
=
lim πn .
n→∞
Da G auf [0, 1] stetig ist, folgt aus (10.2.2)
π
=
G(π),
d.h. die Aussterbewahrscheinlichkeit π ist ein Fixpunkt der erzeugenden Funktion. Wie oben
bemerkt, ist die erzeugende Funktion G : [0, 1] → [0, 1] strikt konvex mit G(1) = 1 und
G′ (1−) = E[Nin ] = m. Hieraus folgt, dass 1 im Fall m ≤ 1 der einzige Fixpunkt von G in
[0, 1] ist, während im superkritischen Fall m > 1 ein weiterer Fixpunkt π ∗ ∈ [0, 1) existiert, siehe
auch Grafik 10.2. Aus den Skizzen erkennt man zudem, dass die Aussterbewahrscheinlichkeit
π = lim πn der kleinste Fixpunkt von G auf [0, 1] ist. Also stirbt der Prozess im subkritischen
bzw. kritischen Fall mit Wahrscheinlichkeit 1 aus, während er im superkritischen Fall mit einer
strikt positiven Wahrscheinlichkeit überlebt.
Universität Bonn
Wintersemester 2009/2010
324
KAPITEL 10. BEDINGTE ERWARTUNGEN
m≤1
m>1
1
5
π4 π
π3
π2
1
π1
π2
π1
π0
π0
π1 π2π3π5
π4 1
π1 π2
1
πn → π ∗ < 1
πn → 1
Abbildung 10.2: Erzeugendenfunktionen von Galton-Watson-Prozessen mit unterschiedlichen
Verteilungen für die Anzahl der Nachkommen. In Rot: Fixpunktiteration
Beispiel (Geometrische Nachkommensverteilung). Ist die Verteilung
ν(k)
=
pk (1 − p)
(k = 0, 1, 2 . . .)
der Anzahl der Nachkommen eine geometrische Verteilung mit Parameter p ∈ (0, 1), dann ergibt
sich
G(s)
=
∞
X
k=0
sk pk (1 − p)
Fixpunkte dieser Funktion sind 1 und
1−p
.
p
=
1−p
1 − ps
für alle s ∈ [0, 1].
Für 1 − p ≥ p (subkritischer Fall) ist 1 der einzige
Fixpunkt in [0, 1], also stirbt die Population P -fast sicher aus. Im superkritischen Fall 1 − p < p
beträgt die Aussterbewahrscheinlichkeit π dagegen nur
1−p
.
p
Rekurrente Ereignisse und Erneuerungsgleichung
Als weitere Anwendung von erzeugenden Funktionen betrachten wir eine Folge von unvorhersehbaren Ereignissen, die zu diskreten Zeitpunkten n ∈ N eintreten. Die Ereignisse bezeichnen wir
auch als „Erneuerungen“ (engl. renewals), und denken dabei z.B. an den wiederholten Ausfall
und Austausch eines Verschleißteils in einer Maschine, oder das wiederholte Abarbeiten einer
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND
ERNEUERUNGEN
325
Warteschlange. Wir beschreiben den Zeitpunkt, an dem die k-te Erneuerung stattfindet, durch
eine Zufallsvariable
Sk
=
T1 + T2 + . . . + Tk .
T1 ist also der Zeitpunkt der ersten Erneuerung, und für k ≥ 2 ist Tk der zeitliche Abstand der
(k−1)-ten und der k-ten Erneuerung. In einem einfachen Modell nehmen wir an, dass T1 , T2 , . . . :
Ω → N unabhängige Zufallsvariablen sind, und, dass T2 , T3 , . . . identisch verteilt sind (aber nicht
T1 !). Wir wollen nun die Wahrscheinlichkeiten pn der Ereignisse
An = {∃k ∈ N : Sk = n}
„Erneuerung zur Zeit n“
aus den Verteilungen der Wartezeiten berechnen. Bedingen auf den Wert von T1 liefert für n ≥ m:
P [An | T1 = m] = P [∃k ∈ N : T1 + . . . + Tk = n | T1 = m]
= P [∃k ∈ N : T2 + . . . + Tk = n − m | T1 = m]
= P [∃k ∈ N : T2 + . . . + Tk = n − m],
und damit
P [An | T1 = m]
=
P [An−m+1 | T1 = 1]
=
P [An−m+1 | A1 ].
Nach der Formel von der totalen Wahrscheinlichkeit erhalten wir für n ∈ N:
pn
=
n
X
m=1
qn−m · P [T1 = m]
(10.2.3)
mit qn := P [An+1 | A1 ]. Um die bedingten Wahrscheinlichkeiten qn zu berechnen, bedingen wir
zusätzlich auf T2 . Da T2 , T3 , . . . unabhängig und identisch verteilt sind, gilt für n ≥ m:
P [An+1 | A1 ∩ {T2 = m}] = P [∃k ∈ N : T1 + . . . + Tk = n + 1 | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . . + Tk = n − m | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . . + Tk = n − m]
= P [∃k ≥ 2 : T2 + . . . + Tk−1 = n − m]
= P [An−m+1 | A1 ]
=
qn−m .
Wegen
qn
=
Universität Bonn
P [An+1 | A1 ]
=
n
X
m=1
P [An+1 | A1 ∩ {T2 = m}] · P [T2 = m]
Wintersemester 2009/2010
326
KAPITEL 10. BEDINGTE ERWARTUNGEN
erhalten wir
qn
n
X
=
m=1
qn−m · P [T2 = m]
für alle n ≥ 1.
(10.2.4)
Die Gleichungen (10.2.3) und (10.2.4) heißen Erneuerungsgleichungen. Auf den rechten Seiten dieser Gleichungen stehen (wegen T1 , T2 ≥ 1) die Faltungen der Folge qn , n ∈ N, mit der
Folge der Gewichte der Wartezeiten T1 bzw. T2 . Daher ist es zweckmäßig, zu den erzeugenden
Funktionen
Gp (s)
∞
X
=
pn sn
n=1
und
Gq (s)
=
∞
X
qn sn
n=0
überzugehen. Für |s| < 1 erhalten wir aus (10.2.3)
Gp (s)
=
Gq (s) · GT1 (s).
Aus (10.2.4) ergibt sich, da die rechte Seite für n = 0 verschwindet:
∞
X
Gq (s) − 1 =
qn sn = Gq (s) · GT2 (s).
n=1
−1
Es folgt Gq (s) = (1 − GT2 (s)) , und damit
GT1 (s)
.
(10.2.5)
1 − GT2 (s)
(10.2.5) liefert den gesuchten Zusammenhang zwischen der Verteilung der Wartezeiten, und den
Gp (s)
=
Wahrscheinlichkeiten pn , dass zur Zeit n eine Erneuerung stattfindet.
Sei nun die Verteilung der Lebensdauern T2 , T3 , . . . vorgegeben. Dann können wir untersuchen,
welche Verteilung die Anfangswartezeit T1 haben muss, damit die Wahrscheinlichkeiten pn nicht
von n abhängen (Stationarität). Für α ∈ [0, 1] gilt pn = α für alle n ∈ N genau dann, wenn
∞
X
α
für alle s ∈ (−1, 1),
Gp (s) =
pn sn =
1−s
n=1
d.h. wenn
1 − GT2 (s)
für alle s ∈ (−1, 1).
(10.2.6)
1−s
erzeugende Funktionen von Wahrscheinlichkeitsverteilungen sind, muss dann
GT1 (s)
Da GT1 und GT2
=
α·
gelten:
1 = GT1 (1)
=
lim GT1 (s)
s↑1
GT2 (s) − 1
s↑1
s−1
= α · E[T2 ].
= α lim
Einführung in die Wahrscheinlichkeitstheorie
=
αG′T2 (1−)
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
327
Also muss T2 endlichen Erwartungswert haben, und
α
=
1/E[T2 ]
(10.2.7)
gelten. Dies ist auch anschaulich plausibel: Im stationären Fall ist die Erneuerungswahrscheinlichkeit zu einem festen Zeitpunkt der Kehrwert des mittleren zeitlichen Abstandes zwischen
zwei Erneuerungen. Gilt (10.2.7), dann ergibt sich aus (10.2.6) durch Koeffizientenvergleich:
!
n
X
P [T2 > n]
P [T1 = n] = α · 1 −
P [T2 = k]
=
.
(10.2.8)
E[T2 ]
k=1
Die Folge pn der Erneuerungswahrscheinlichkeiten ist also genau dann konstant, wenn die Verteilung von T1 durch (10.2.8) gegeben ist („stationärer Erneuerungsprozess“). Weiter kann man
ausgehend von (10.2.6) zeigen, dass für beliebige Verteilungen der ersten Erneuerungszeit die
Wahrscheinlichkeiten pn für n → ∞ gegen 1/E[T2 ] konvergieren („asymptotische Stationarität“), falls der Erwartungswert endlich ist und keine Periodizität auftritt, d.h.
ggT({n|P [T2 = n] > 0})
=
1.
Den Beweis dieses Erneuerungssatzes über erzeugende Funktionen findet man im Klassiker von
W.Feller (An Introduction to Probability Theory and its Applications, Vol. 1).
10.3
Bedingen auf allgemeine Zufallsvariablen
Ist Y eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit stetiger
Verteilungsfunktion, dann gilt P [Y = z] = 0 für alle z ∈ R. Bedingte Wahrscheinlichkeiten
gegeben Y = z können daher nicht wie für diskrete Zufallsvariablen definiert werden. Alternativ
könnte man versuchen, bedingte Wahrscheinlichkeiten gegeben Y als Grenzwert zu definieren:
P [A | Y = z]
=
lim P [A | z − h ≤ Y ≤ z + h].
hց0
(10.3.1)
Dies ist in bestimmten Fällen möglich, aber im allgemeinen ist die Existenz des Grenzwertes
nicht gewährleistet.
Stattdessen definiert man bedingte Erwartungen gegeben allgemeine Zufallsvariablen Y mithilfe
der Charakterisierung aus Satz 10.5. Bedingte Wahrscheinlichkeiten gegeben Y erhält man als
Spezialfall bedingter Erwartungen:
P [A | Y ]
Universität Bonn
:=
E[IA | Y ].
(10.3.2)
Wintersemester 2009/2010
328
KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Wahrscheinlichkeiten wie in (10.3.1) sind im Allgemeinen nicht im herkömmlichen
Sinn definiert. Es ist allerdings ausgehend von (10.3.1) allgemein möglich, für ein festes Ereignis
A die Abbildung z 7→ P [A | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung
von Y zu definieren.
Das Faktorisierungslemma
Wir beweisen zunächst eine wichtige maßtheoretische Aussage. Diese wird es uns unter Anderem
ermöglichen, die charakterisierenden Eigenschaften bedingter Erwartungen aus Satz 10.5 noch
etwas eleganter zu formulieren:
Satz 10.6 (Faktorisierungslemma). Sei (S, S) ein messbarer Raum und Y : Ω → S eine Abbil-
dung. Eine Abbildung X : Ω → R ist genau dann σ(Y )-messbar, wenn
X = f (Y ) = f ◦ Y
für eine S-messbare Funktion f : S → R gilt.
X
(Ω, σ(Y ))
Beweis.
Y
(S, S)
(R, B(R))
(1). Ist X = f ◦ Y für eine messbare Funktion f , dann gilt
X −1 (B)
=
Y −1 (f −1 (B)) ∈ σ(Y )
für alle B ∈ B(R),
da f −1 (B) ∈ S. Daher ist X σ(Y )-messbar.
(2). Für die umgekehrte Richtung müssen wir zeigen, dass aus der σ(Y )-Messbarkeit von X
folgt, dass X eine messbare Funktion von Y ist. Dazu gehen wir schrittweise vor („maßtheoretische Induktion“):
(a) Ist X = IA eine Indikatorfunktion mit A ∈ σ(Y ), dann gilt A = Y −1 (B) mit B ∈ S,
und damit
X(ω)
(b) Für X =
Pn
=
i=1 ci IAi
IY −1 (B) (ω)
=
IB (Y (ω))
für alle ω ∈ Ω.
mit Ai ∈ σ(Y ) und ci ∈ R gilt entsprechend
X=
n
X
ci IBi (Y ),
i=1
wobei Bi Mengen aus S mit Ai = Y −1 (Bi ) sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
329
(c) Für eine beliebige nichtnegative, σ(Y )-messbare Abbildung X : Ω → R existiert
eine Folge (Xn ) von σ(Y )-messbaren Elementarfunktionen mit Xn ր X. Nach (b)
gilt Xn = fn (Y ) mit S-messbaren Funktionen fn . Damit folgt:
X
=
sup Xn
=
sup fn (Y )
=
f (Y ),
wobei f = sup fn wieder S-messbar ist.
(d) Für eine allgemeine σ(Y )-messbare Abbildung X : Ω → R sind sowohl X + als auch
X − messbare Funktionen von Y , also auch X selbst.
Mithilfe des Faktorisierungslemmas können wir die charakterisierenden Eigenschaften (I) und
(II) bedingter Erwartungen gegeben eine diskrete Zufallsvariable Y aus Satz 10.5 wie folgt umformulieren:
X ist genau dann eine Version von E[X | Y ], wenn gilt:
(i) X ist σ(Y )-messbar,
(ii) E[X ; A] = E[X ; A]
für alle A ∈ σ(Y ).
Die Äquivalenz von (I) und (i) folgt aus dem Faktorisierungslemma, und die Äquivalenz von (II)
und (ii) ergibt sich durch maßtheoretische Induktion, denn (ii) besagt gerade, dass
E[X · IB (Y )]
=
E[X · IB (Y )]
für alle B ∈ S gilt.
Definition allgemeiner bedingter Erwartungen
Eine bemerkenswerte Konsequenz der Charakterisierung bedingter Erwartungen durch die Bedingungen (i) und (ii) ist, dass die bedingte Erwartung E[X | Y ] von der Zufallsvariablen Y nur
über die von Y erzeugte σ-Algebra σ(Y ) abhängt! Sind zwei Zufallsvariablen Y und Z Funk-
tionen voneinander, dann ist σ(Y ) = σ(Z), und damit stimmen auch die bedingten Erwartungen
E[X | Y ] und E[X | Z] überein (mit Wahrscheinlichkeit 1). Daher liegt es nahe, gleich von
der bedingten Erwartung gegeben eine σ-Algebra zu sprechen. Die σ-Algebra (z.B. σ(Y ) oder
σ(Y1 , . . . , Yn )) beschreibt dann die zur Verfügung stehende „Information“, auf die bedingt wird.
Die Charakterisierung bedingter Erwartungen durch (i) und (ii) können wir sofort auf den Fall
allgemeiner bedingter Erwartungen gegeben eine σ-Algebra oder gegeben beliebige Zufallsvariablen übertragen. Sei dazu X : Ω → R eine nichtnegative (oder integrierbare) Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Universität Bonn
Wintersemester 2009/2010
330
KAPITEL 10. BEDINGTE ERWARTUNGEN
Definition (Bedingte Erwartung, allgemein). (1). Sei F ⊆ A eine σ-Algebra. Eine nicht-
negative (bzw. integrierbare) Zufallsvariable X : Ω → R heißt Version der bedingten
Erwartung E[X | F], falls gilt:
(a) X ist F-messbar,
und
(b) E[X ; A] = E[X ; A]
für alle A ∈ F.
(2). Für beliebige Zufallsvariablen Y, Y1 , Y2 , . . . , Yn auf (Ω, A, P ) definieren wir
E[X | Y ] := E[X | σ(Y )],
E[X | Y1 , . . . Yn ] := E[X | (Y1 , . . . , Yn )]
=
E[X | σ(Y1 , . . . , Yn )].
(3). Für ein Ereignis A ∈ A definieren wir
P [A | F]
:=
E[IA | F],
und entsprechend
P [A | Y ]
=
E[A | Y ].
Bemerkung. Durch maßtheoretische Induktion zeigt man, dass Bedingung (b) äquivalent ist zu:
(b’) E[X · Z] = E[X · Z]
Ω → R.
für alle nichtnegativen (bzw. beschränkten) F-messbaren Z :
Satz 10.7 (Existenz und Eindeutigkeit der bedingten Erwartung). Sei X ≥ 0 oder X ∈ L1 ,
und F ⊆ A eine σ-Algebra. Dann gilt
(1). Es existiert eine Version der bedingten Erwartung E[X | F].
(2). Zwei Versionen stimmen P -fast sicher überein.
Beweis. Die Existenz kann man unmittelbar aus dem Satz von Radon-Nikodym folgern, s. z.B.
[A.Klenke, Wahrscheinlichkeitstheorie]. Wir geben stattdessen am Ende von Abschnitt 10.4 einen
Existenzbeweis, der mit elementaren Methoden auskommt.
e zwei Versionen der bedingten Erwartung E[X |F].
Zum Beweis der Eindeutigkeit seien X und X
e beide F-messbar, und
Dann sind X und X
E[X ; A]
e P -fast sicher.
Hieraus folgt X = X
=
e ; A]
E[X
Einführung in die Wahrscheinlichkeitstheorie
für alle A ∈ F.
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
331
Bemerkung (Probleme mit Ausnahmemengen). Man beachte, dass die bedingte Erwartung
E[X | F] und damit auch die bedingte Wahrscheinlichkeit P [A | F] nur für jede feste Zufalls-
variable X bzw. jedes feste Ereignis A bis auf Modifikation auf Nullmengen eindeutig definiert
sind. Ein weiteres Problem ist, dass wir allgemein zwar bedingte Erwartungen gegeben eine Zufallsvariable Y definieren können, aber nicht solche gegeben das Ereignis Y = z für festes z. In
vielen Fällen kann man die beschriebenen Probleme durch Auswahl einer „regulären Version der
bedingten Verteilung gegeben Y “ umgehen. Wir kommen darauf in Korollar 10.9 zurück.
Bemerkung (E[X | Y = z]). Obwohl E[X | Y = z] für ein festes z im Allgemeinen nicht definiert ist, kann man die Funktion z 7→ E[X | Y = z] bis auf Modifikation auf Nullmengen bzgl.
der Verteilung von Y sinnvoll definieren: Ist Y : Ω → S eine Zufallsvariable mit Werten in einem
messbaren Raum (S, S), dann ist jede Version der bedingten Erwartung E[X | Y ] nach Definition
σ(Y )-messbar. Also gilt nach dem Faktorisierungslemma:
E[X | Y ]
=
g(Y )
für eine messbare Funktion g : S → R.
(10.3.3)
Da die Versionen der bedingten Erwartung bis auf Modifikation auf P -Nullmengen eindeutig
festgelegt sind, ist die Funktion g bis auf Modifikation auf µY -Nullmengen eindeutig festgelegt.
In Anlehnung an den diskreten Fall setzt man manchmal:
E[X | Y = z]
:=
g(z).
(10.3.4)
Genauer definieren wir für eine nichtnegative Zufallsvariable X:
Definition. Eine messbare Funktion g : S → R+ heißt Version der bedingten Erwartung z 7→
E[X | Y = z] von X gegeben Y = z, wenn gilt:
Z
E[X ; Y ∈ B] =
g(z)µY (dz)
für alle B ∈ S.
(10.3.5)
B
Die charakterisierende Bedingung (10.3.5) ist nichts anderes als eine allgemeine Variante der
Formel von der totalen Wahrscheinlichkeit. Mithilfe des Transformationssatzes sieht man, dass g
genau dann (10.2.3) erfüllt, wenn g(Y ) eine Version von E[X | Y ] ist.
WARNUNG : Bei der Definition ist zu beachten, dass E[X | Y = z] für ein festes z im Allgemei-
nen nicht definiert ist, sondern nur die Funktion z 7→ E[X | Y = z] modulo Modifikation auf
µY -Nullmengen! Das formale Rechnen mit bedingten Erwartungen wir in (10.3.4) ist daher eine
häufige Fehlerquelle.
Universität Bonn
Wintersemester 2009/2010
332
KAPITEL 10. BEDINGTE ERWARTUNGEN
Trotz dieser Gefahren ist die Notation E[X | Y = z] oft nützlich, um Argumentationen transparenter zu machen, oder um anschauliche Überlegungen in mathematische Formeln zu übersetzen.
Wir werden sie daher auch hier gelegentlich verwenden.
Diskreter und absolutstetiger Fall
In einigen Fällen kann man die Definition direkt anwenden, um bedingte Erwartungswerte zu
berechnen. Wir betrachten zunächst noch einmal den Spezialfall eine diskreten Bedingung:
Ṡ
Hi in abzählbar viele messbare
Gilt F = σ({Hi |i ∈ N}) für eine disjunkte Zerlegung Ω =
i∈N
Teilmengen („Hypothesen“) Hi ∈ A, dann sind F-messbare Zufallsvariablen konstant auf jeder
der Mengen Hi . Aus der Definition der bedingten Erwartung folgt dann
E[X | F]
=
E[X | Hi ]
auf Hi
für alle i ∈ N mit P [Hi ] > 0.
Beispiel (Unbedingte Erwartungen). Die bedingte Erwartung einer Zufallsvariable X gegeben
die triviale σ-Algebra {∅, Ω} ist der Erwartungswert von X.
Beispiel (Bedingen auf eine Partition). Ist P = U[0,1) die Gleichverteilung auf [0, 1), und F =
σ({[ti−1 , ti )|i = 1, . . . , n}) die von einer Partition 0 = t0 < t1 < t2 < . . . < tn = 1 erzeugte
σ-Algebra, denn ist die bedingte Erwartung E[g | F] einer integrierbaren Funktion g : [0, 1) → R
die durch
E[g | F]
=
1
ti − ti−1
Zti
g(u) du
auf [ti−1 , ti )
ti−1
definierte Funktion.
H1
H2
H3
H4
H5
1
Abbildung 10.3: Die Funktion g(ω) ist hier blau dargestellt und E[g|F] in rot.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
333
Ist die gemeinsame Verteilung aller relevanten Zufallsvariablen absolutstetig, dann kann man
bedingte Erwartungen mithilfe von bedingten Dichten berechnen:
Satz 10.8 (Berechnung bedingter Erwartungen im absolutstetigen Fall). Seien X : Ω →
Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), deren
gemeinsame Verteilung µX,Y absolutstetig ist, und sei h : Rn × Rm → [0, ∞] messbar. Dann ist
Z
E[h(X, Y ) | Y ](ω) =
h(x, Y (ω))fX|Y (x|Y (ω)) dx
(10.3.6)
Rn
eine Version der bedingten Erwartung von h(X, Y ) gegeben Y .
Beweis. Nach dem Satz von Fubini ist die rechte Seite von (10.3.6) eine messbare Funktion von
Y (ω), und es gilt
Z
Z Z
E g(Y ) · h(x, Y )fX|Y (x|Y ) dx =
g(y)h(x, y)fX|Y (x|y)fY (y) dx dy
= E[g(Y )h(X, Y )]
für jede messbare Funktion g : Rm → [0, ∞].
Mit der Notation aus (10.3.4) lautet die Aussage des Satzes:
Z
E[h(X, Y )|Y = z] =
h(x, z)fX|Y (x|z) dx
Rn
für µY -fast alle z ∈ S.
Um die bedingte Erwartung zu berechnen, müssen wir also den uns bekannten Wert von Y einsetzen, und die Funktion bzgl. der bedingten Dichte fX|Y nach x integrieren.
Beispiel (Bedingen auf eine Koordinate). Ist P = UΩ die Gleichverteilung auf einer beschränkten, messbaren Menge Ω ⊆ R2 , und ist
Y : Ω → R,
Y (x, y) = y,
die Projektion auf die zweite Komponente, dann gilt
Z
1
E[h|Y ](x, y) =
h(x, y) dx
λ(Ωy )
P -fast sicher
(10.3.7)
Ωy
für jede integrierbare Funktion h : Ω → R. Hierbei ist Ωy = {x ∈ R|(x, y) ∈ R} der y-Schnitt
von Ω. Bedingen auf Y entspricht hier also dem normierten „Herausintegrieren“ der komplementären Koordinate x.
Universität Bonn
Wintersemester 2009/2010
334
KAPITEL 10. BEDINGTE ERWARTUNGEN
Ω ⊆ R2
y
Ωy
Abbildung 10.4: In Rot: Der y-Schnitt der Menge Ω.
Reguläre bedingte Verteilungen
Beim Bedingen auf diskrete Zufallsvariablen konnten wir bedingte Wahrscheinlichkeitsverteilungen auf elementare Weise definieren. Für allgemeine Zufallsvariablen sind die bedingten Wahrscheinlichkeiten
P [X ∈ B | Y ]
=
E[IB (X) | Y ]
für jede feste messbare Menge B nur bis auf Modifikation auf P -Nullmengen eindeutig definiert.
Dies ist ein Nachteil, da die Ausnahmemenge von B abhängen kann, und im Allgemeinen überabzählbar viele messbare Mengen existieren. Die bedingte Verteilung von X gegeben Y ist daher
zunächst nicht definiert. Im absolutstetigen Fall können wir das Problem umgehen, indem wir die
über die bedingte Dichte gegebene Version
µX|Y (y, dx)
:=
fX|Y (x|y)dx
der bedingten Verteilung verwenden. Aus Satz 10.8 folgt unmittelbar, dass wir bedingte Wahrscheinlichkeiten gegeben Y aus µX|Y berechnen können:
Korollar 10.9. Ist die gemeinsame Verteilung der Zufallsvariablen X : Ω → Rn und Y : Ω →
Rm absolutstetig, dann ist µX|Y eine reguläre Version der bedingten Verteilung von X gegeben
Y , d.h.
(1). µX|Y ist ein stochastischer Kern von Rm nach Rn .
(2). Für jedes B ∈ B(Rn ) ist
P [X ∈ B | Y ]
=
µX|Y (Y, B)
eine Version der bedingten Wahrscheinlichkeit von {X ∈ B} gegeben Y .
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN
335
Bemerkung (Existenz von regulären Versionen bedingter Verteilungen). Die Existenz von
regulären Versionen von bedingten Verteilungen gegeben eine Zufallsvariable Y kann man allgemein beweisen, wenn Y Werte in einem vollständigen, separablen, metrischen Raum (kurz:
polnischen Raum) annimmt, siehe z.B. [Breiman, Ch. 4.3.]. Eine explizite Berechnung über bedingte Dichten ist natürlich im Allgemeinen nicht möglich.
Wenn wir uns auf eine bestimmte reguläre Version µX|Y festlegen, dann können wir die bedingten
Wahrscheinlichkeiten P [X ∈ B|Y = z] durch
P [X ∈ B | Y = z] = µX|Y (z, B)
für alle z ∈ S definieren. Die Festlegung auf eine bestimmte reguläre Version der bedingten
Verteilung ist im Allgemeinen willkürlich. Manchmal gibt es aber eine kanonische Version, die
sich auszeichnet. Dies ist zum Beispiel der Fall, wenn die Dichte der gemeinsamen Verteilung
von X und Y eine stetige Version hat.
Beispiel (Bivariate Normalverteilung).
Ist (X, Y ) bivariat normalverteilt mit Mittel (0, 0) und
!
1 ̺
Kovarianzmatrix
, ̺ ∈ (−1, 1), dann gilt
̺ 1
fX,Y (x, y)
=
x2 − 2̺xy + y 2
p
· exp −
2(1 − ̺2 )
2π 1 − ̺2
1
.
Für ein festes x ∈ R folgt
fY |X (y|x)
∝
fX,Y (x, y)
∝
(y − ̺x)2
exp −
2(1 − ̺2 )
als Funktion von y. Also ist
µY |X (x, •)
=
N (̺x, 1 − ̺2 )
eine kanonische reguläre Version der bedingten Verteilung von Y gegeben X.
Universität Bonn
Wintersemester 2009/2010
336
KAPITEL 10. BEDINGTE ERWARTUNGEN
z
x2
x0
x1
y
x
Abbildung 10.5: Die Dichte fX,Y (x, y) und in Blau, Grün und Magenta fY |X (y|xi ) für i ∈
{0, 1, 2}. Man beachte, dass fY |X (y|xi ) ∝ fX,Y (xi , y) als Funktion von y.
Beispiel (Grenzen naiven Bedingens). Sei (X, Y ) gleichverteilt auf dem Viertelkreis
S
=
{(x, y) ∈ R2 |x > 0, y > 0, x2 + y 2 < 1}.
Wir versuchen auf zwei Arten eine „bedingte Verteilung von X gegeben X = Y “ zu berechnen.
Dazu betrachten wir die Zufallsvariablen V = Y −X und W = Y /X. Wegen fX,Y ∝ IS erhalten
wir mithilfe des Dichtetransformationssatzes für fast jedes v:
fX|V (x|v) ∝ fX,V (x, v)
=
∝ IS (x, v + x),
∂(x, v + x) fX,Y (x, v + x) · det
∂(x, v) wobei „∝“ für „proportional als Funktion von x“ steht. Wählen wir die normierte rechte Seite als
kanonische Version der bedingten Dichte, so ergibt sich
fX|V (x|0)
∝
IS (x, x)
=
I(0,1/√2) (x).
√
Gegeben Y − X = 0 ist X also gleichverteilt auf (0, 1/ 2).
Andererseits erhalten wir für fast jedes w:
fX|W (x|w) ∝ fX,W (x, w)
∝ IS (x, wx) · x.
Einführung in die Wahrscheinlichkeitstheorie
=
∂(x,
wx)
fX,W (x, wx) · det
∂(x, w) Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
337
Wählen wir wieder die rechte Seite als kanonische Version, so ergibt sich
fX|W (x|1)
∝
x · IS (x, x)
=
x · I(0,1/√2) (x).
Die bedingte Verteilung von X gegeben Y /X = 1 unterscheidet sich also von der bedingten
Verteilung von X gegeben Y − X = 0. Bedingte Wahrscheinlichkeiten gegeben X = Y sind
daher nicht wohldefiniert!
Eine anschauliche Erklärung für das Phänomen ist, dass wir in den beiden Fällen oben auf unterschiedliche infinitesimale Umgebungen der Diagonale {(x, y) ∈ S|x = y} bedingen, wie die
folgende Grafik veranschaulicht:
x
(x, y) ∈ S : − 1 < δ
y
{(x, y) ∈ S : |y − x| < δ}
Abbildung 10.6: Zwei verschiedene Arten die Diagonale zu approximieren.
10.4
Rechnen mit bedingten Erwartungen; Poissonprozess
In vielen Fällen tritt eine Kombination bedingter Erwartungen bezüglich verschiedener Zufallsvariablen und/oder σ-Algebren auf. Die bedingten Erwartungswerte können dann meist nicht
unmittelbar berechnet werden, lassen sich aber mithilfe grundlegender Eigenschaften und Rechenregeln schrittweise umformen und ggf. vereinfachen. Wir leiten nun aus der Definition einige fundamentale Eigenschaften bedingter Erwartungen her, die wir in diesem Zusammenhang
häufig verwenden werden.
Als eine erste Anwendung untersuchen wir zeitliche und räumliche Poissonprozesse. Zeitliche
Poissonprozesse sind die einfachsten Beispiele von zeitstetigen stochastischen Prozessen mit
stationären unabhängigen Inkrementen, bzw. von zeitstetigen Markovketten. Räumliche Poissonprozesse (Poissonsche Punktprozesse) sind grundlegende Modelle für zufällige Punktmengen. Beide Arten von Prozessen spielen in etlichen Anwendungsbereichen eine wichtige Rolle
Universität Bonn
Wintersemester 2009/2010
338
KAPITEL 10. BEDINGTE ERWARTUNGEN
(z.B. Warteschlangen, Versicherungsmathematik, Materialwissenschaften, stochastische Geometrie etc.), und bilden die Basis für die Konstruktion vieler komplexerer stochastischer Modelle.
Eigenschaften der bedingten Erwartung
Wir leiten zunächst aus der Definition einige fundamentale Eigenschaften der bedingten Erwartung her, die wir häufig bei der Berechnung bedingter Erwartungswerte verwenden werden:
Satz 10.10. Seien X, Y und Xn (n ∈ N) nichtnegative oder integrierbare Zufallsvariablen auf
(Ω, A, P ), und seien F, G ⊆ A σ-Algebren.
Es gelten folgende Aussagen:
(1). Linearität: E[λX + µY | F] = λ E[X | F] + µ E[Y | F]
P -fast sicher für alle λ, µ ∈ R.
(2). Monotonie: Aus X ≥ 0 P -fast sicher folgt E[X | F] ≥ 0 P -fast sicher.
(3). Aus X = Y P -fast sicher folgt E[X | F] = E[Y | F] P -fast sicher.
(4). Monotone Konvergenz: Ist (Xn ) monoton wachsend mit X1 ≥ 0, dann gilt
E[sup Xn | F]
sup E[Xn | F]
=
P -fast sicher.
(5). Projektivität / Tower Property: Ist G ⊆ F, dann gilt
E[E[X | F] | G]
=
E[X | G]
P -fast sicher.
Insbesondere:
E[E[X | Y, Z] | Y ]
=
E[X|Y ]
P -fast sicher.
(6). Herausziehen, was bekannt ist: Sei Y F-messbar mit Y · X ∈ L1 bzw. ≥ 0. Dann gilt
E[Y · X | F]
=
Y · E[X | F]
P -fast sicher.
(7). Unabhängigkeit: Ist X unabhängig von F, dann gilt E[X | F] = E[X] P -fast sicher.
(8). Seien (S, S) und (T, T ) messbare Räume. Ist Y : Ω → S F-messbar, und X : Ω → T
unabhängig von F, und f : S × T → [0, ∞) eine produktmessbare Abbildung, dann gilt
E[f (X, Y ) | F](ω)
=
Einführung in die Wahrscheinlichkeitstheorie
E[f (X, Y (ω))]
für P -fast alle ω.
Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
Beweis.
339
(1). Aus der Linearität des Erwartungswertes folgt, dass λE[X | F] + µE[Y | F] eine
Version der bedingten Erwartung E[λX + µY | F] ist.
(2). Sei X eine Version von E[X | F]. Aus X ≥ 0 P -fast sicher folgt wegen {X < 0} ∈ F:
E[X ; X < 0]
=
E[X ; X < 0]
≥
0,
und damit X ≥ 0 P -fast sicher.
(3). Dies folgt unmittelbar aus (1) und (2).
(4). Ist Xn ≥ 0 und monoton wachsend, dann ist sup E[Xn | F] eine nichtnegative F-messbare
Zufallsvariable (mit Werten in [0, ∞]), und nach dem „klassischen “ Satz von der monoto-
nen Konvergenz (siehe Satz 6.6) gilt:
E[sup E[Xn | F] · Z] = sup E[E[Xn | F] · Z] = sup E[Xn · Z] = E[sup Xn · Z]
für jede nichtnegative F-messbare Zufallsvariable Z. Also ist sup E[Xn | F] eine Version
der bedingten Erwartung von sup Xn gegeben F.
(5). Wir zeigen, dass jede Version von E[X | G] auch eine Version von E[E[X | F] | G] ist, also
die Eigenschaften (i) und (ii) aus der Definition der bedingten Erwartung erfüllt:
(i) E[X | G] ist nach Definition G-messbar.
(ii) Für A ∈ G gilt auch A ∈ F, und somit E[E[X |G]; A] = E[X ; A] = E[E[X |F]; A].
(6) und (7). Auf ähnliche Weise verifiziert man, dass die Zufallsvariablen, die auf der rechten Seite der
Gleichungen in (6) und (7) stehen, die definierenden Eigenschaften der bedingten Erwartungen auf der linken Seite erfüllen (Übung).
(8). Dies folgt aus (6) und (7) in drei Schritten:
(a) Gilt f (x, y) = g(x) · h(y) mit messbaren Funktionen g, h ≥ 0, dann folgt nach (6)
und (7) P -fast sicher:
E[f (X, Y ) | F] = E[g(X) · h(Y ) | F]
=
h(Y ) · E[g(X)|F]
= h(Y ) · E[g(X)],
und somit
E[f (X, Y ) | F](ω) = E[g(X) · h(Y (ω))] = E[f (X, Y (ω))]
Universität Bonn
für P -fast alle ω.
Wintersemester 2009/2010
340
KAPITEL 10. BEDINGTE ERWARTUNGEN
(b) Um die Behauptung für Indikatorfunktionen f (x, y) = IB (x, y) von produktmessbaren Mengen B zu zeigen, betrachten wir das Mengensystem
D
{B ∈ S ⊗ T | Behauptung gilt für f = IB }.
=
D ist ein Dynkinsystem, das nach (a) alle Produkte B = B1 × B2 mit B1 ∈ S und
B2 ∈ T enthält. Also gilt auch
D
⊇
σ({B1 × B2 | B1 ∈ S, B2 ∈ T })
S ⊗T.
=
(c) Für beliebige produktmessbare Funktionen f : S × T → R+ folgt die Behauptung
nun durch maßtheoretische Induktion.
Bemerkung (Konvergenzsätze für bedingte Erwartungen). Aus dem Satz von der monotonen Konvergenz (Eigenschaft (4)) folgen auch Versionen des Lemmas von Fatou und des Satzes
von der dominierten Konvergenz für bedingte Erwartungen. Der Beweis verläuft ähnlich wie im
unbedingten Fall (Übung).
Die letzte Eigenschaft aus Satz 10.10 ist oft sehr nützlich. Für unabhängige Zufallsvariablen X
und Y ergibt sich insbesondere
E[f (X, Y ) | Y ](ω)
=
E[f (X, Y (ω))]
für P -fast alle ω,
(10.4.1)
d.h.
E[f (X, Y ) | Y = z]
=
E[f (X, z)]
für µY -fast alle z.
(10.4.2)
Die Unabhängigkeit von X und Y ist wesentlich für (10.4.1) bzw. (10.4.2):
Beispiel. Ist Y = X, dann gilt offensichtlich
E[X · Y | Y = z] = E[Y 2 | Y = z]
E[X · z] = z · E[X]
=
=
z2
für µY -fast alle z,
aber
z · E[Y ].
Das Anwenden der Formeln (10.4.1) und (10.4.2) ohne dass Unabhängigkeit vorliegt ist ein sehr
häufiger Fehler beim Rechnen mit bedingten Erwartungen!
Beispiel (Summen von Wartezeiten). Für eine exponential-verteilte Zufallsvariable gilt
P [T > t + h|T > t]
=
P [T > h]
für alle t ≥ 0 und h ∈ R.
Durch Bedingen können wir diese Aussage deutlich verallgemeinern:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
341
Lemma 10.11 (Erweiterte Gedächtnislosigkeit). Sind T und R unabhängige nichtnegative Zufallsvariablen, und ist T exponentialverteilt, dann gilt
P [T + R > t + h | T > t]
=
P [T + R > h]
für alle t ≥ 0 und h ∈ R.
Beweis. Durch Bedingen auf R erhalten wir nach (10.4.2) für t ≥ 0:
(∗)
P [T + R > t + h und T > t | R = r] = P [T + r > t + h und T > t]
= P [T > t + h − r | T > t] · P [T > t]
= P [T > h − r] · P [T > t]
für fast alle r > 0, also
P [T + R > t + h und T > t]
=
=
(∗∗)
=
Z
Z
P [T + R > t + h, T > t | R = r] µR (dr)
P [T > h − r] µR (dr) · P [T > t]
P [T + R > h] · P [T > t].
Hierbei haben wir in (∗) und (∗∗) wesentlich benutzt, dass T und R unabhängig sind.
Das Lemma zeigt, dass für Summen von unabhängigen Wartezeiten eine Gedächtnislosigkeitseigenschaft gilt, sofern der erste Summand exponentialverteilt ist. Diese Tatsache ist von grundlegender Bedeutung um nachzuweisen, dass die zukünftige Weiterentwicklung von zeitstetigen
Markovketten nicht vom Verlauf in der Vergangenheit, sondern nur vom gegenwärtigen Zustand
abhängt. Wir betrachten zunächst exemplarisch den einfachsten Fall einer solchen zeitstetigen
Markovkette - den Poissonprozess.
Poissonprozesse
Ein Poissonprozess mit Intensität λ > 0 ist ein zeitstetiger stochastischer Prozess, d.h. eine Kollektion Nt , t ∈ [0, ∞), von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), mit
nichtnegativen ganzzahligen Werten. Der Prozess wartet jeweils eine Exp(λ)-verteilte Zeit ab,
und springt dann um eine Einheit nach oben. Naheliegende Anwendungen sind z.B. die Modellierung einer Warteschlange, oder der Anzahl der bei einer Versicherung auflaufenden Schadensfälle.
Um einen Poissonprozess zu konstruieren, wählen wir unabhängige exponentialverteilte Zufallsvariablen T1 , T2 , . . . ≥ 0 mit festem Parameter λ > 0 auf einem Wahrscheinlichkeitsraum
(Ω, A, P ), und setzen
Sn = T 1 + T 2 + . . . + T n ,
Universität Bonn
n ∈ N,
und
Wintersemester 2009/2010
342
KAPITEL 10. BEDINGTE ERWARTUNGEN
Nt = #{n ∈ N | Sn ≤ t},
t ∈ [0, ∞).
Nt
4
3
2
1
S1
S2
S3
S4
t
Abbildung 10.7: Darstellung von Nt (ω).
Dann ist t 7→ Nt (ω) für alle ω monoton wachsend mit ganzzahligen Werten und N0 (ω) = 0. Die
Wartezeit Sn bis zum n-ten Sprung ist Γ(λ, n)-verteilt, s. Lemma 9.5. Durch Bedingen können
wir die Verteilungen des Prozesses (Nt )t≥0 auf elegante Weise berechnen. Beispielsweise folgt
aus der erweiterten Gedächtnislosigkeit (Lemma 10.11) für t, h ≥ 0 unmittelbar
P [Nt+h < k | Nt = 0] = P [Sk > t + h | S1 > t]
= P [T1 + T2 + . . . + Tk > t + h | T1 > t]
= P [T1 + T2 + . . . + Tk > h]
= P [Nh < k]
für alle k ∈ N,
d.h. die bedingte Verteilung von Nt+h gegeben Nt = 0 stimmt mit der Verteilung von Nh überein.
Allgemeiner erhalten wir:
Satz 10.12. Für t, h ≥ 0 gilt:
(1). Nt ∼ Poisson(λt)
(3). Unabhängige Inkremente: Nt+h − Nt
|=
(2). Stationarität: Nt+h − Nt ∼ Nh
Einführung in die Wahrscheinlichkeitstheorie
σ(Ns | 0 ≤ s ≤ t).
Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
Beweis.
343
(1). Verteilung von Nt : Da Sk = T1 + . . . + Tk unabhängig von Tk+1 und Γ(λ, k)-
verteilt ist, erhalten wir für k ∈ N nach (10.4.2):
P [Nt = k] = P [Sk ≤ t < Sk+1 ]
Z
=
P [Sk ≤ t < Sk + Tk+1 | Sk = u] : µSk (du)
Z
=
I(0,t] (u) · P [t < u + Tk+1 ] µSk (du)
=
Zt
e−λ(t−u) ·
0
1
λk uk−1 e−λu du
(k − 1)!
(λt)k −λt
=
e .
k!
Also ist Nt Poisson-verteilt zum Parameter λt.
(2). Gemeinsame Verteilung von Nt und Nt+h : Seien k, l ≥ 0. Wegen Sk = T1 + . . . + Tk und
Sk+l = Sk + Tk+1 + . . . + Tk+l erhalten wir nach (10.4.1) aufgrund der Unabhängigkeit der
Ti :
P [Nt+h < k + l, Nt = k | T1 , . . . , Tk ](ω)
= P [Sk+l > t + h, Sk ≤ t < Sk+1 | T1 , . . . , Tk ](ω)
= P [Sk (ω) + Tk+1 + . . . + Tk+l > t + h, Sk (ω) ≤ t < Sk (ω) + Tk+1 ] (10.4.3)
= P [Tk+1 + . . . + Tk+l > h] · P [Tk+1 > t − Sk (ω)] · I{Sk ≤t} (ω)
= P [Nh < l] · P [Nt = k | T1 , . . . , Tk ](ω)
für P -fast alle ω. Hierbei haben wir im vorletzten Schritt Lemma 10.11 verwendet. Aus (a)
folgt:
P [Nt+h − Nt < l, Nt = k] = E[P [Nt+h < k + l, Nt = k | T1 , . . . , Tk ]]
= P [Nh < l] · P [Nt = k],
(10.4.4)
d.h.
P [Nt+h − Nt < l | Nt = k]
=
P [Nh < l]
für alle k, l ≥ 0.
Also ist das Inkrement Nt+h − Nt unabhängig von Nt mit Verteilung
P ◦ (Nt−h − Nt )−1
Universität Bonn
=
P ◦ Nh−1
=
Poisson(λh).
Wintersemester 2009/2010
344
KAPITEL 10. BEDINGTE ERWARTUNGEN
(3). Unabhängigkeit von Nt+h − Nt und σ(Ns | 0 ≤ s ≤ t): Wir bemerken zunächst, dass für
jedes Ereignis A ∈ σ(Ns | 0 ≤ s ≤ t) und k ≥ 0 ein Ereignis Ak ∈ σ(T1 , . . . , Tk ) existiert
mit
A ∩ {Nt = k}
=
Ak ∩ {Nt = k}.
(10.4.5)
Zum Beweis kann man sich auf Ereignisse der Form A = {Ns = l} mit s ∈ [0, t] und l ≥ 0
beschränken, da diese die σ-Algebra σ(Ns | 0 ≤ s ≤ t) erzeugen. Für solche Ereignisse A
gilt in der Tat
A∩{Nt = k} = {Ns = l, Nt = k} = {Sl ≤ s < Sl+1 , Sk ≤ t < Sk+1 } = Ak ∩{Nt = k}
wobei
Ak
:=


∅



{Sl ≤ s}



{S ≤ s < S }
l
l+1
falls l > k,
falls l = k,
falls l < k,
ein Ereignis ist, dass nur von T1 , . . . , Tk abhängt.
Nach (10.4.5) erhalten wir für A ∈ σ(Ns | 0 ≤ s ≤ t) und k, l ≥ 0 analog zu (10.4.4):
P [{Nt+h − Nt < l} ∩ A ∩ {Nt = k}]
= E[P [Nt+h − Nt < l, Nt = k | T1 , . . . , Tk ]; Ak ]
= P [Nh < l] · P [Ak ∩ {Nt = k}]
= P [Nt+h − Nt < l] · P [A ∩ {Nt = k}].
Durch Summieren über k folgt die Unabhängigkeit von Nt+h − Nt und A.
Aus Satz 10.12 folgt, dass für jede Partition t0 < t1 < . . . < tk die Inkremente Nt1 − Nt0 , Nt2 −
Nt1 , . . . , Ntk − Ntk−1 unabhängige Zufallsvariablen mit Verteilung
Nt − Ns
∼
Poisson(λ · (t − s)),
0 ≤ s ≤ t,
(10.4.6)
sind. Insbesondere sind die Inkremente stationär, d.h. die Verteilung von Nt − Ns hängt nur von
t − s ab.
Definition. (1). Ein stochastischer Prozess (Nt )t≥0 auf einem Wahrscheinlichkeitsraum (Ω, A, P )
heißt Lévy-Prozess, falls
(a) die Inkremente Nt − Ns , 0 ≤ s ≤ t, stationär sind,
Einführung in die Wahrscheinlichkeitstheorie
und
Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
345
(b) Inkremente über disjunkten Intervallen unabhängig sind.
(2). Ein Lévy-Prozess heißt Poissonprozess mit Intensität λ > 0, falls (10.4.6) gilt.
Weitere wichtige Beispiele von Lévy-Prozessen sind Brownsche Bewegungen und α-stabile Prozesse. Eine Brownsche Bewegung (Bt )t≥0 ist ein Lévy-Prozess mit normalverteilten Inkrementen
Bt − Bs ∼ N (0, t − s), 0 ≤ s ≤ t, dessen Pfade t 7→ Bt (ω) für P -fast alle ω stetig sind.
Prozesse in diskreter Zeit mit unabhängigen stationären Inkrementen sind Random Walks. LévyProzesse kann man aus Random Walks durch Grenzübergänge mit unterschiedlichen Skalierungen erhalten (Poissonapproximation, zentraler Grenzwertsatz, Grenzwertsatz für Inkremente mit
heavy tails etc.). Den Poissonprozess erhält man beispielsweise als Grenzwert für k → ∞ der
(k)
reskalierten Random Walks Nt
Sn(k)
=
n
X
(k)
= S⌊kt⌋ ,
(k)
(k)
Xi ,
Xi
i=1
unabhängig, ∼ Bernoulli(λ/k).
Die Simulation in Abbildung 5.6 deutet an, wie andere Lévyprozesse als Skalierungslimiten von
Random Walks auftreten.
Ein weiteres Beispiel für Lévy-Prozesse sind zusammengesetzte (compound) Poissonprozesse:
Beispiel (Compound Poisson-Prozess). Sei µ eine Wahrscheinlichkeitsverteilung auf Rd und
λ > 0. Dann heißt der stochastische Prozess
St
=
Nt
X
i=1
Xi ,
t ≥ 0,
mit unabhängigen Zufallsvariablen Xi mit Verteilung µ und einem von den Xi unabhängigen
Poissonprozess (Nt )t≥0 mit Intensität λ, Compound-Poisson-Prozess mit Sprungverteilung
µ und Intensität λ. Der Compound-Poisson-Prozess ist eine zeitstetige Version des Random
Walks mit Inkrementen Xi . Er wartet jeweils eine Exp(λ)-verteilte Zeit ab, und macht dann
einen Sprung gemäß der Verteilung µ. Entsprechende Prozesse werden u. A. in der Versicherungsmathematik zur Modellierung der akkumulierten Schadenshöhe bis zur Zeit t verwendet.
Die Verteilung St für ein festes t ≥ 0 kann man mit den oben eingeführten Methoden für zu-
fällige Summen berechnen. Zudem kann man beweisen, dass (St )t≥0 in der Tat ein Prozess mit
stationären unabhängigen Inkrementen ist.
Poissonscher Punktprozess
Die Sprungzeitpunkte eines Poissonprozesses in einem endlichen Zeitintervall (s, t] kann man
auch auf andere Weise konstruieren: Ist Z eine Poisson-verteilte Zufallsvariable mit ParameUniversität Bonn
Wintersemester 2009/2010
346
KAPITEL 10. BEDINGTE ERWARTUNGEN
ter λ · (t − s), und sind U1 , U2 , . . . unabhängig voneinander und von Z, und gleichverteilt auf
(s, t], dann sind U1 , . . . , UZ die Sprungzeiten eines Poissonprozesses mit Parameter λ (s. Korollar
10.14). Allgemeiner sei nun ν ein endliches Maß auf einem messbaren Raum (S, S). Wir wollen
eine zufällige „Punktwolke“ in S mit Intensität ν konstruieren. Dazu wählen wir unabhängige
Zufallsvariablen X1 , X2 , . . . : Ω → S mit Verteilung µ =
N (A)
=
Z
X
δXi [A]
=
i=1
ν
,
ν(S)
und setzen für A ⊆ S:
#{1 ≤ i ≤ Z|Xi ∈ A},
(10.4.7)
wobei Z (Gesamtzahl der Punkte) unabhängig von den Xi und Poisson-verteilt mit Parameter
ν(S) ist. Die Abbildung A 7→ N (A) ist die Häufigkeitsverteilung der Punkte X1 , . . . , XZ , und
damit ein zufälliges Maß. Hat das Intensitätsmaß ν keine Atome (d.h. gilt ν[{x}] = 0 für alle
x ∈ S), dann sind die Punkte Xi mit Wahrscheinlichkeit 1 alle verschieden, und wir können N
P -fast sicher mit der zufälligen Punktmenge {X1 , X2 , . . . , XZ } ⊆ S identifizieren.
Satz 10.13 (Konstruktion von Poissonschen Punktprozessen). Das durch (10.4.7) definierte
zufällige Maß N ist ein Poissonscher Punktprozess mit Intensitätsmaß ν, d.h. für beliebige
k ∈ N und disjunkte Teilmenge A1 , . . . , Ak ⊆ S, sind die Zufallsvariablen N (A1 ), . . . , N (Ak )
unabhängig mit Verteilung
∼
N (Ai )
Poisson(ν(Ai )).
Zum Beweis benötigen wir die erzeugende Funktion der gemeinsamen Verteilung mehrerer Zufallsvariablen:
Definition (Erzeugende Funktion und gemeinsame Verteilung). Seien N1 , . . . , Nk : Ω →
{0, 1, 2, . . .} nichtnegative ganzzahlige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ),
und sei
ν(n1 , . . . , nk )
=
P [N1 = n1 , . . . , Nk = nk ].
Die erzeugende Funktion des Zufallsvektors (N1 , . . . , Nn ) bzw. der Wahrscheinlichkeitsverteilung ν auf {0, 1, 2, . . .}k ist die durch
G(s1 , . . . , sk )
=
1 N2
E[sN
1 s2
· ... ·
k
sN
k ]
=
∞
X
n1 ,...,nk =0
ν(n1 , . . . , nk ) · sn1 1 sn2 2 · . . . · snk k
definierte Funktion G : [0, 1]k → [0, 1].
Die gemeinsame Verteilung ν ist ähnlich wie im eindimensionalen Fall eindeutig durch die erzeugende Funktion festgelegt, denn für n1 , . . . , nk ∈ {0, 1, 2, . . .} gilt:
ν(n1 , . . . , nk )
=
1
∂ n1 +n2 +...+nk
· n1
(0, . . . , 0).
n1 ! · . . . · nk ! ∂s1 · . . . · ∂snkk
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS
Beweis. O.B.d.A. können wir S =
k
S
347
Ai annehmen. Wir berechnen für diesen Fall die erzeu-
i=1
gende Funktion der gemeinsamen Verteilung von N (A1 ), . . . , N (Ak ). Für s1 , . . . , sk ∈ [0, 1)
gilt
k
Y
N (A )
sj j
Z Y
k
Y
=
j=1
IAj (Xi )
sj
also wegen der Unabhängigkeit von Z und den Xi :
#
" k
" k
#
Z
Y
Y N (A ) Y IA (Xi )
E
=
E
sj j Z
sj j
i=1
j=1
,
i=1 j=1
=
j=1
k
X
j=1
sj · µ[Aj ]
!Z
.
Hierbei haben wir im letzten Schritt verwendet, dass das Produkt über j gleich sj ist, falls Xi in
der Menge Aj liegt. Da Z Poisson-verteilt ist mit Parameter ν(S), erhalten wir
!
#
" k
k
Y N (A )
X
sj j
sj · µ[Aj ]
= GZ
E
j=1
j=1
= exp ν(S) ·
=
k
Y
j=1
k
X
j=1
sj · µ[Aj ] − 1
!!
exp (ν(Aj ) · (sj − 1)) ,
d.h. die erzeugende Funktion von (N (A1 ), . . . , N (Ak )) ist das Produkt der erzeugenden Funktionen von Poissonverteilungen mit Parametern ν(Aj ). Hieraus folgt, dass die gemeinsame Verteilung der Zufallsvariablen N (A1 ), . . . , N (Ak ) das Produkt dieser Poissonverteilungen ist.
Poissonsche Punktprozesse bezeichnet man auch synonym als räumliche Poissonprozesse, Poissonsche Zufallsmaße, oder Poissonsche Felder. Sie spielen eine wichtige Rolle bei der Modellierung zufälliger räumlicher Strukturen, z.B. in der stochastischen Geometrie. Satz 10.13 liefert
uns einen einfachen Algorithmus zur Simulation Poissonscher Punktprozesse. Graphik ?? wurde
mit diesem Algorithmus erzeugt. Als eindimensionalen Spezialfall von Satz 10.13 erhalten wir
eine alternative Konstruktion von zeitlichen Poissonprozessen:
Korollar 10.14. Seien λ, a ∈ (0, ∞). Sind Z, U1 , U2 , . . . unabhängige Zufallsvariablen mit Ver-
teilungen Z ∼ Poisson(λ · a) und U1 , U2 , . . . ∼ Unif (0,a) , dann ist
Nt
:=
Z
X
i=1
I[0,t] (Ui ),
0 ≤ t ≤ a,
ein Poissonprozess mit Intensität λ.
Universität Bonn
Wintersemester 2009/2010
348
KAPITEL 10. BEDINGTE ERWARTUNGEN
Beweis. Es gilt Nt = N ([0, t]), wobei N der wie in (10.4.7) definierte Poissonsche Punktprozess
auf S = [0, a] mit homogenem Intensitätsmaß λ · dt ist. Nach Satz 10.13 folgt, dass für jede
Partition 0 ≤ t0 < t1 < . . . < tk ≤ a die Inkremente
Ntj − Ntj−1
=
1 ≤ j ≤ k,
N ((tj−1 , tj ]),
unabhängig und Poisson(λ · (tj − tj−1 ))-verteilt sind.
Poissonsche Punktprozesse lassen sich durch verschiedene Transformationen wieder in Poissonsche Punktprozesse überführen. Bildet man beispielsweise die Punkte Xi , 1 ≤ i ≤ Z, eines
Poissonschen Punktprozesses N mit Intensitätsmaß ν mit einer (messbaren) Abbildung φ ab,
dann erhält man einen Poissonschen Punktprozess
e (A)
N
:=
Z
X
δφ(Xi ) [A]
Z
X
=
i=1
IA (φ(Xi ))
i=1
=
Z
X
Iφ−1 (A) (Xi )
i=1
mit Intensitätsmaß νe = ν ◦ φ−1 . Zudem gilt eine Ausdünnungseigenschaft:
Seien Z, X1 , X2 , . . . , U1 , U2 , . . . unabhängige Zufallsvariablen mit Verteilungen
Z ∼ Poisson(ν(S)),
Xi ∼
ν
,
ν(S)
Ui ∼ Unif (0,1) ,
und sei α : S → [0, 1] eine messbare Funktion (Akzeptanzwahrscheinlichkeit). Wir konstruieren
einen ausgedünnten Punktprozess Nα , indem wir einen Punkt Xi nur mit Wahrscheinlichkeit
α(Xi ) berücksichtigen:
Nα
:=
Z
X
i=1
I{Ui ≤α(Xi )} δXi .
Satz 10.15 (Färbungssatz, Ausdünnungseigenschaft). Nα ist ein Poissonscher Punktprozess
mit Intensitätsmaß α(x)ν(dx).
Der Beweis wird dem Leser als Übung überlassen. Bemerkenswert ist unter Anderem, dass die
beschriebene Konstruktion eine Kopplung von Poissonprozessen mit verschiedenen Intensitätsmaßen, d.h. eine simultane Konstruktion dieser Prozesse auf einem gemeinsamen Wahrscheinlichkeitsraum ermöglicht.
10.5
Bedingte Erwartung als beste L2-Approximation
In diesem Abschnitt zeigen wir, dass sich die bedingte Erwartung einer quadratintegrierbaren
Zufallsvariable X gegeben eine σ-Algebra F charakterisieren lässt als beste Approximation von
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION
349
X im Unterraum der F-messbaren quadratintegrierbaren Zufallsvariablen, bzw. als orthogonale
Projektion von X auf diesen Unterraum. Neben naheliegenden Anwendungen auf nichtlineare
Prognosen liefert uns dies auch einen einfachen Existenzbeweis für die bedingte Erwartung.
Jensensche Ungleichung
Die Jensensche Ungleichung gilt auch für bedingte Erwartungen.
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X ∈ L1 (Ω, A, P ) eine integrierbare Zufallsvariable
und F ⊆ A eine σ-Algebra.
Satz 10.16 (Jensen). Ist u : R → R eine konvexe Funktion mit u(X) ∈ L1 oder u ≥ 0, dann gilt
E[u(X) | F]
≥
u(E[X | F])
P -fast sicher.
Beweis. Jede konvexe Funktion u lässt sich als Supremum von abzählbar vielen affinen Funktionen darstellen, d.h. es gibt an , bn ∈ R mit
u(x)
=
für alle x ∈ R.
sup (an x + bn )
n∈N
Zum Beweis betrachtet man die Stützgeraden an allen Stellen einer abzählbaren dichten Teilmenge von R, siehe z.B. [Williams: Probability with martingales, 6.6]. Wegen der Monotonie
und Linearität der bedingten Erwartung folgt
E[u(X) | F]
≥
E[an X + bn | F]
=
an · E[X | F] + bn
P -fast sicher für alle n ∈ N, also auch
E[u(X) | F]
≥
sup (an · E[X | F] + bn )
P -fast sicher.
n∈N
Korollar 10.17 (Lp -Kontraktivität). Die Abbildung X 7→ E[X | F] ist eine Kontraktion auf
Lp (Ω, A, P ) für alle p ≥ 1, d.h.
E [|E[X | F]|p ]
E[|X|p ]
≤
für alle X ∈ L1 (Ω, A, P ).
Beweis. Nach der Jensenschen Ungleichung gilt:
|E[X | F]|p
≤
E[|X|p | F]
P -fast sicher.
Die Behauptung folgt durch Bilden des Erwartungswertes.
Im Beweis des Korollars haben wir insbesondere gezeigt, dass für eine Zufallsvariable X ∈ Lp
auch die bedingte Erwartung E[X | F] in Lp enthalten ist. Wir beschränken uns nun auf den Fall
p = 2.
Universität Bonn
Wintersemester 2009/2010
350
KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Erwartung als beste L2 -Prognose
Der Raum L2 (Ω, A, P ) = L2 (Ω, A, P )/ ∼ der Äquivalenzklassen von quadratintegrierbaren
Zufallsvariablen ist ein Hilbertraum mit Skalarprodukt (X, Y )L2 = E[XY ]. Ist F ⊆ A eine Unter-σ-Algebra, dann ist L2 (Ω, F, P ) ein abgeschlossener Unterraum von L2 (Ω, A, P ),
denn Grenzwerte von F-messbaren Zufallsvariablen sind wieder F-messbar. Nach der Jensenschen Ungleichung ist für X ∈ L2 (Ω, A, P ) jede Version der bedingten Erwartung E[X | F]
im Unterraum L2 (Ω, F, P ) der F-messbaren quadratintegrierbaren Zufallsvariablen enthalten.
Außerdem respektiert die bedingte Erwartung Äquivalenzklassen, s. Satz 10.7. Die Zuordnung
X 7→ E[X | F] definiert also eine lineare Abbildung vom Hilbertraum L2 (Ω, A, P ) der Äquivalenzklassen auf den Unterraum L2 (Ω, F, P ).
Satz 10.18. Für Y ∈ L2 (Ω, F, P ) sind äquivalent:
(1). Y ist eine Version der bedingten Erwartung E[X | F].
(2). Y ist eine „beste Approximation“ von X im Unterraum L2 (Ω, F, P ), d.h.
E[(X − Y )2 ]
≤
E[(X − Z)2 ]
für alle Z ∈ L2 (Ω, F, P ).
(3). Y ist eine Version der orthogonalen Projektion von X auf den Unterraum L2 (Ω, F, P ) ⊆
L2 (Ω, A, P ), d.h.
E[(X − Y ) · Z]
=
0
für alle Z ∈ L2 (Ω, F, P ).
X
L2 (Ω, A, P )
E[X | F]
0
L2 (Ω, F, P )
Abbildung 10.8: Darstellung von X 7→ E[X | F] als orthogonale Projektion auf den Unterraum
L2 (Ω, F, P ).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION
351
Beweis. (1) ⇐⇒ (3): Für Y ∈ L2 (Ω, F, P ) gilt:
Y ist eine Version von E[X | F]
⇐⇒
E[Y · IA ] = E[X · IA ]
⇐⇒
E[Y · Z] = E[X · Z]
⇐⇒
E[(X − Y ) · Z] = 0
für alle A ∈ F
für alle Z ∈ L2 (Ω, F, P )
für alle Z ∈ L2 (Ω, F, P )
Hierbei zeigt man die zweite Äquivalenz mit den üblichen Fortsetzungsverfahren (maßtheoretische Induktion).
(3) ⇒ (2): Sei Y eine Version der orthogonalen Projektion von X auf L2 (Ω, F, P ). Dann gilt
für alle Z ∈ L2 (Ω, F, P ):
E[(X − Z)2 ] = E[((X − Y ) + (Y − Z))2 ]
= E[(X − Y )2 ] + E[(Y − Z)2 ] + 2E[(X − Y ) (Y − Z) ]
| {z }
≥ E[(X − Y )2 ]
∈L2 (Ω,F ,P )
Hierbei haben wir im letzten Schritt verwendet, dass Y − Z im Unterraum L2 (Ω, F, P )
enthalten, also orthogonal zu X − Y ist.
(2) ⇒ (3): Ist umgekehrt Y eine beste Approximation von X in L2 (Ω, F, P ) und Z ∈ L2 (Ω, F, P ),
dann gilt
E[(X − Y )2 ] ≤ E[(X − Y + tZ)2 ]
= E[(X − Y )2 ] + 2tE[(X − Y )Z] + t2 E[Z 2 ]
für alle t ∈ R, also E[(X − Y ) · Z] = 0.
Die Äquivalenz von (2) und (3) ist eine bekannte funktionalanalytische Aussage: die beste Approximation eines Vektors in einem abgeschlossenen Unterraum eines Hilbertraums ist die orthogonale Projektion des Vektors auf diesen Unterraum. Die dahinterstehende geometrische Intuition
verdeutlicht man sich leicht anhand von Abbildung 10.8.
Satz 10.18 rechtfertigt die Verwendung der bedingten Erwartung als Prognoseverfahren. Beispielsweise ist E[X | Y ] nach dem Faktorisierungslemma die beste L2 -Prognose für X unter
allen Funktionen vom Typ g(Y ), g : R → R messbar.
Universität Bonn
Wintersemester 2009/2010
352
KAPITEL 10. BEDINGTE ERWARTUNGEN
Beispiel (Nichtlineare Prognose). Seien S, T : Ω → R+ unabhängige Zufallsvariablen, die zum
Beispiel die Ausfallzeiten zweier Komponenten eines Systems beschreiben. S sei exponentialverteilt mit Parameter λ > 0 - die Verteilung von T ist beliebig. Angenommen, wir können nur
den Ausfall der einen Komponente (mit Ausfallzeit T ) beobachten, und wir möchten den Wert
der ersten Ausfallzeit
X
=
min(T, S)
aufgrund des beobachteten Wertes T (ω) prognostizieren. Nach Satz 10.18 ist der beste Prognosewert für X bzgl. des mittleren quadratischen Fehlers durch
X̂(ω)
=
E[X | T ](ω)
gegeben. Explizit erhalten wir wegen der Unabhängigkeit von T und S:
E[X | T ](ω) = E[min(T (ω), S)]
Z∞
min(T (ω), s)λe−λs ds
=
0
=
T
Z(ω)
sλe
0
−λs
ds +
Z∞
T (ω)λe−λs ds
T (ω)
1
=
(1 − e−λT (ω) )
für P -fast alle ω.
λ
Die beste Prognose im quadratischen Mittel hängt also in diesem Fall nichtlinear von T ab.
Sie unterscheidet sich damit von der besten linearen Prognose (Regressionsgerade), die wie in
Abschnitt 6.3 gezeigt durch
X̂lin = aT + b
mit
a =
Cov[X, T ]
,
Var[T ]
b = E[X] − aE[T ]
gegeben ist. Dass sich X̂ und X̂lin unterscheiden ist die Regel. Eine wichtige Ausnahme ergibt
sich, wenn die gemeinsame Verteilung von X und T eine Gaußverteilung ist - in diesem Fall ist
die beste L2 Prognose E[X | T ] stets eine affine Funktion von T .
Existenz der bedingten Erwartung
Durch die Charakterisierung der bedingten Erwartung als beste L2 -Approximation ergibt sich die
Existenz der bedingten Erwartung einer quadratintegrierbaren Zufallsvariable unmittelbar aus der
Existenz der Bestapproximation eines Vektors in einem abgeschlossenen Unterraum eines Hilbertraums. Durch monotone Approximation folgt hieraus die Existenz der bedingten Erwartung
auch für beliebige nichtnegative bzw. integrierbare Zufallsvariablen:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION
353
Satz 10.19. Für jede Zufallsvariable X ≥ 0 bzw. X ∈ L1 (Ω, A, P ) und jede σ-Algebra F ⊆ A
existiert eine Version der bedingten Erwartung E[X | F].
Beweis.
(1). Wir betrachten zunächst den Fall X ∈ L2 (Ω, A, P ). Wie eben bemerkt, ist der
Raum L2 (Ω, F, P ) ein abgeschlossener Unterraum des Hilbertraums L2 (Ω, A, P ). Sei d =
inf{kZ − XkL2 | Z ∈ L2 (Ω, F, P )} der Abstand von X zu diesem Unterraum. Um zu
zeigen, dass eine beste Approximation von X in L2 (Ω, F, P ) existiert, wählen wir eine
Folge (Xn ) aus diesem Unterraum mit kXn − XkL2 → d. Mithilfe der ParallelogrammIdentität folgt für n, m ∈ N:
kXn − Xm k2L2 = k(Xn − X) − (Xm − X)k2L2
= 2 · kXn − Xk2L2 + 2 · kXm − Xk2L2 − k(Xn − X) + (Xm − X)k2L2
2
Xn + Xm
2
2
= 2 · kXn − XkL2 +2 · kXm − XkL2 −4 − X
2,
|
|
{z
}
{z
}
2
L
|
{z
}
→d2
→d2
≤d2
und damit
lim sup kXn − Xm k2L2
n,m→∞
≤
0.
Also ist die Minimalfolge (Xn ) eine CauchyLfolge in dem vollständigen Raum L2 (Ω, F, P ),
d.h. es existiert ein Y ∈ L2 (Ω, F, P ) mit
kXn − Y kL2
→
0.
Für Y gilt
kY − XkL2
=
k lim Xn − XkL2
n→∞
≤
lim inf kXn − XkL2
n→∞
≤
d,
d.h. Y ist die gesuchte Bestapproximation, und damit eine Version der bedingten Erwartung
E[X | F].
(2). Für eine beliebige nichtnegative Zufallsvariable X auf (Ω, A, P ) existiert eine monoton
wachsende Folge (Xn ) nichtnegativer quadratintegrierbarer Zufallsvariablen mit X = sup Xn .
Man verifiziert leicht, dass sup E[Xn | F] eine Version von E[X | F] ist.
n
(3). Entsprechend verifiziert man, dass für allgemeine X ∈ L1 (Ω, A, P ) durch E[X | F] =
E[X + | F] − E[X − | F] eine Version der bedingten Erwartung gegeben ist.
Universität Bonn
Wintersemester 2009/2010
Kapitel 11
Markovketten
In diesem Kapitel werden wir Markovketten genauer untersuchen. Ein wichtiges Hilfsmittel dabei
ist der Zusammenhang von Markovketten und Differenzengleichungen.
11.1
Grundlagen
Sei (S, S) ein messbarer Raum. Eine Folge X0 , X1 , . . . von auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) definierten Zufallsvariablen Xn : Ω → S heißt (zeitdiskreter) stochastischer Prozess
mit Zustandsraum S. Den Index „n“ interpretieren wir entsprechend als „Zeit.“ Für m ≤ n
setzen wir:
Xm:n
:=
(Xm , Xm+1 , . . . , Xn ).
Seien nun pn (x, dy), n = 1, 2, 3, . . . , stochastische Kerne auf (S, S). Wir verwenden die Notation
Z
(pn f )(x) :=
pn (x, dy)f (y)
für den Erwartungswert einer messbaren Funktion f : S → R bzgl. der Wahrscheinlichkeitsver-
teilung pn (x, •). Insbesondere gilt
(pn IA )(x)
=
pn (x, A)
für alle A ∈ S.
Definition. Ein stochastischer Prozess (Xn ) mit Zustandsraum S heißt Markovkette mit Übergangswahrscheinlichkeiten pn (x, dy), falls gilt:
P [Xn+1 ∈ A | X0:n ] = pn+1 (Xn , A)
P -f.s.
für alle A ∈ S und n ≥ 0,
(11.1.1)
bzw. dazu äquivalent
E[f (Xn+1 ) | X0:n ] = (pn+1 f )(Xn )
P -f.s.
für alle S-messbaren f : S → R+ und n ≥ 0.
(11.1.2)
354
11.1. GRUNDLAGEN
355
Die Markovkette heißt zeitlich homogen, falls pn nicht von n abhängt. Die Verteilung von X0
heißt Startverteilung der Markovkette. Gilt P ◦ X0−1 = δx , dann sagen wir, die Markovkette
startet in x.
Die Äquivalenz von (11.1.1) und (11.1.2) ergibt sich durch maßtheoretische Induktion. Die definierende Eigenschaft (11.1.1) besagt, dass bedingt auf Xn der nächste Zustand Xn+1 unabhängig
von X0 , . . . , Xn−1 mit Verteilung pn+1 (Xn , •) ist. Eine Markovkette „vergisst“ also den vorherigen Verlauf bis zur Zeit n − 1, und startet in jedem Schritt neu im gegenwärtigen Zustand Xn .
Bemerkung. Allgemeiner heißt ein stochastischer Prozess (Xn ) Markovkette, falls
P [Xn+1 ∈ A | X0:n ] = P [Xn+1 ∈ A | Xn ]
P -f.s. für alle A ∈ S und n ≥ 0
(11.1.3)
gilt. Die Existenz eines Übergangskerns folgt aus (11.1.3) unter Regularitätsvoraussetzungen an
(S, S), z.B. falls S ein polnischer (d.h. vollständiger separabler metrischer) Raum ist mit Borel-
scher σ-Algebra S = B(S).
Beispiel (Diskreter Zustandsraum). Ist S abzählbar, dann können wir einen stochastischen
Kern pn auf S mit der stochastischen Matrix pn (x, y) = pn (x, {y}) identifizieren. Ein stochastischer Prozess (Xn ) ist genau dann eine Markovkette mit Übergangsmatrizen pn (x, y), wenn
P [Xn+1 = xn+1 | X0:n = x0:n ]
=
pn+1 (xn , xn+1 )
für alle x0 , . . . , xn+1 ∈ S mit P [X0:n = x0:n ] 6= 0 gilt.
Zufällige dynamische Systeme als Markovketten, Beispiele
Markovketten erhält man insbesondere als zufällige Störungen dynamischer Systeme.
Sei (T, T ) ein messbarer Raum. Wir betrachten einen stochastischen Prozess (Xn ) mit Zustandsraum S, der rekursiv durch
Xn+1
=
Φn+1 (Xn , Wn+1 ),
n = 0, 1, 2, . . . ,
definiert ist, wobei X0 : Ω → S und W1 , W2 , . . . ; Ω → T unabhängige Zufallsvariablen auf
einem Wahrscheinlichkeitsraum (Ω, A, P ), und Φ : S × T → S, n ∈ N, messbare Abbildungen
sind. Die Abbildungen Φn beschreiben das Bewegungsgesetz des dynamischen Systems, und die
Zufallsvariablen Wn die zufälligen Einflussfaktoren (Rauschen, noise).
Satz 11.1. (1). (Xn ) ist eine Markovkette mit Übergangswahrscheinlichkeiten
pn (x, A)
Universität Bonn
=
P [Φn (x, Wn ) ∈ A],
x ∈ S, A ∈ S.
Wintersemester 2009/2010
356
KAPITEL 11. MARKOVKETTEN
(2). Hängen die Abbildungen Φn nicht von n ab, und sind die Zufallsvariablen Wn identisch
verteilt, dann ist die Markovkette (Xn ) zeitlich homogen.
Beweis.
(1). Für n ≥ 0 ist X0:n eine Funktion von X0 , W1 , W2 , . . . , Wn . Also ist Wn+1 unab-
hängig von X0:n , und für A ∈ S folgt
P [Xn+1 ∈ A | X0:n ](ω) = P [Φn+1 (Xn , Wn+1 ) ∈ A | X0:n ](ω)
= P [Φn+1 (Xn (ω), Wn+1 ) ∈ A]
=
pn+1 (Xn (ω), A)
für P -fast alle ω ∈ Ω.
(2). Hängen Φn und die Verteilung von Wn nicht von n ab, dann hängt auch pn nicht von n ab,
d.h. die Markovkette ist zeitlich homogen.
Beispiel. (1). Random Walks auf Zd bzw. Rd : Sind die Zufallsvariablen Wn unabhängig und
identisch verteilt mit Werten in Zd oder Rd , dann wird durch
Xn+1
=
Xn + Wn+1 ,
X0 = x,
ein d-dimensionaler Random Walk definiert. (Xn )n ist eine zeitlich homogene Markovkette
mit Start in x und Übergangskern p(x, •) = µ ◦ τx−1 , wobei µ die Verteilung von Wn und
τx (y) = y + x die Translation um x ist.
(2). Random Walk auf {0, 1, 2, . . .} mit Reflexion bzw. Absorption bei 0: Durch
Xn+1
=

Xn + Wn+1
1 bzw. 0
falls Xn > 0
falls Xn = 0
mit unabhängigen, identisch verteilten Zufallsvariablen Wn mit P [Wn = 1] = p und
P [Wn = −1] = 1 − p, p ∈ [0, 1], wird ein Random Walk auf {0, 1, 2, . . .} definiert,
der bei 0 reflektiert bzw. absorbiert wird. (Xn ) ist eine zeitlich homogene Markovkette mit
Übergangswahrscheinlichkeiten wie in Graphik 11.1 dargestellt.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.1. GRUNDLAGEN
357
Random Walk mit Reflexion bei 0.
1−p
1−p
1−p
1−p
1−p
1−p
1−p
1
p
p
p
p
p
p
0
Random Walk mit Absorption bei 0.
1−p
1
1−p
1−p
1−p
1−p
1−p
1−p
p
p
p
p
p
p
0
Abbildung 11.1: Darstellung der Übergangswahrscheinlichkeiten von Random Walks auf
{0, 1, 2, . . .} mit Reflexion bzw. Absorption in 0.
(3). Warteschlange mit einem Server: In einer einfachen Warteschlange wird pro Zeiteinheit ein
Kunde bedient, während An neue Kunden ankommen. Die Anzahlen An der Ankünfte in
einer Bedienzeit sind unabhängige Zufallsvariablen mit Werten in {0, 1, 2, . . .}. Die Zahl
Xn der wartenden Kunden ist dann eine Markovkette mit Übergangsmechanismus
Xn+1
=
(Xn − 1 + An+1 )+ .
(4). Autoregressive Prozesse: Ein AR(p)-Prozess mit Parametern ε, α1 , . . . , αp ∈ R ist durch
die Rekursionsformel
Xn =
p
X
i=1
αi Xn−i + ε · Wn ,
n ≥ p,
mit unabhängigen, standardnormalverteilten Zufallsvariablen Wn gegeben. Für p = 1 ergibt sich eine zeithomogene Markovkette mit Übergangskern
p(x, ·)
Universität Bonn
=
N (α1 x, ε2 ).
Wintersemester 2009/2010
358
KAPITEL 11. MARKOVKETTEN
Für p ≥ 2 und αp , ε 6= 0 ist der AR(p)-Prozess dagegen keine Markovkette, da der nächs-
te Zustand nicht nur vom gegenwärtigen Zustand, sondern auch vom vorherigen Verlauf
abhängt. Wir können jedoch eine Markovkette erhalten, indem wir statt Xn die aus den
letzten p Zuständen gebildeten Vektoren
Xn
=
n = p − 1, p, p + 1, . . . ,
(Xn , Xn−1 , . . . , Xn−p+1 ),
betrachten. (X n ) ist eine zeithomogene Markovkette mit Zustandsraum S p , denn für n ≥ p
gilt
Xn
=


 
α1 α2 α3 · · · αp
W


 n
 1 0 0 ··· 0 
 0 


 


0
1
0
·
·
·
0

 X n−1 + ε ·  .  .
 .. 
.

.. 
...
 ..
 
.

0
0 ··· 0 1 0
(5). Galton-Watson-Verzweigungsprozesse: Der Galton-Watson-Prozess ist eine zeithomogene
Markovkette auf S = {0, 1, 2, . . .}, denn für n ≥ 0 gilt
Zn−1
Zn =
X
Nin
i=1
mit unabhängigen, identisch verteilten Zufallsvariablen Nin (i, n ∈ N). Als Übergangskern
ergibt sich
p(k, •)
=
P◦
k
X
Nin
i=1
!−1
=
ν ∗k ,
wobei ν ∗k die k-fache Faltung der Nachkommensverteilung ν = P ◦ (Nin )−1 ist.
(6). Wrightsches Evolutionsmodell: In diesem Modell besteht die Population zu jedem Zeitpunkt n auf seiner festen Anzahl m von Individuen, von denen jedes genau eines der
Merkmale aus einer endlichen Menge T besitzt. Die Merkmale werden gemäß folgendem
Mechanismus von einer Generation zur nächsten vererbt:
Algorithmus 11.2 (Multinomiales Resampling).
for i := 1, . . . , m do
erzeuge w ∼ Unif{1, . . . , m}
(i)
(w)
xn+1 := xn
end for
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.1. GRUNDLAGEN
359
Jedes Individuum der Nachkommensgeneration sucht sich also zufällig und unabhängig
voneinander einen Vorfahren in der Elterngeneration, und nimmt dessen Merkmalsausprägungen an. Durch den Algorithmus wird eine Markovkette (Xn ) mit Zustandsraum T m
und Übergangskern
p(x, •)
m
O
=
µ̂(x)
i=1
m
1 P
δ (i) die empirische Verteilung der Merkmalsausprägungen
m i=1 x
x = (x(1) , . . . , x(m) ) in der vorherigen Population ist.
definiert, wobei µ̂(x) =
(i)
Anstatt die Merkmalsausprägungen Xn aller Individuen einer Generation zu betrachten
(„mikroskopische Beschreibung“), genügt es die Häufigkeiten
Hn (a)
=
i ∈ {1, . . . , m} : Xn(i) = a ,
a ∈ T,
aller möglichen Merkmalsausprägungen a zu notieren („makroskopische Beschreibung“).
Die Histogrammvektoren Hn = (Hn (a))a∈T bilden eine zeithomogene Markovkette mit
Werten im Raum Hist(m, T ) der Histogramme von m Beobachtungswerten aus T . Der
Übergangskern ist durch
p(h, •)
=
Mult h
,
X
h(a)
a∈S
!
,
h ∈ Hist(m, T ),
gegeben, d.h. der Histogrammvektor im nächsten Schritt ist multinomialverteilt mit Ergebniswahrscheinlichkeiten der Merkmalsausprägungen a ∈ T proportional zu den Häufigkeiten h(a) im letzten Schritt. Dies erklärt auch die Bezeichnung „Multinomiales Resamp-
ling.“ Multinomiale Resamplingschritte werden u.a. in genetischen Algorithmen und sequentiellen Monte-Carlo Verfahren eingesetzt.
Aus der Darstellung von Markovketten als zufällige dynamische Systeme ergibt sich unmittelbar
ein explizites Konstruktionsverfahren für Markovketten mit Zustandsraum R:
Seien µ eine Wahrscheinlichkeitsverteilung und pn , n ∈ N, stochastische Kerne auf (R, B(R)).
Wir betrachten die linksstetigen Inversen
G0 (u) = inf{c ∈ R : F0 (c) ≥ u}
und
Gn (x, u) = inf{c ∈ R : Fn (x, c) ≥ u}
der Verteilungsfunktionen F0 (c) = µ[(−∞, c)] und Fn (x, c) = pn (x , (−∞, c]) der Wahrscheinlichkeitsverteilungen µ und pn (x, •). Aus Satz 11.1 und Satz 4.20 folgt unmittelbar:
Universität Bonn
Wintersemester 2009/2010
360
KAPITEL 11. MARKOVKETTEN
Korollar 11.3 (Existenzsatz und Konstruktionsverfahren für Markovketten). Sei U0 , U1 , U2 , . . .
eine Folge von unabhängigen, auf (0, 1) gleichverteilten Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist der durch
X0 = G0 (U0 ),
Xn+1 = Gn+1 (Xn , Un+1 )
definierte stochastische Prozess eine Markovkette mit Startverteilung µ und Übergangskernen pn .
Bemerkung. Auch auf anderen Zustandsräumen kann man Markovketten oft auf ähnliche Weise explizit konstruieren, siehe z.B. die Übung für den diskreten Fall. Die Konstruktion liefert
unmittelbar einen Algorithmus zur Simulation der Markovkette:
Algorithmus 11.4 (Simulation einer reellwertigen Markovkette).
erzeuge U0 ∼ Unif(0, 1); y0 := G0 (u0 )
for n := 1, 2, . . . do
erzeuge un ∼ Unif(0, 1); yn := Gn (yn−1 , un )
end for
Endlichdimensionale Randverteilung eine Markovkette
Wir wollen nun Verteilungen von Markovketten berechnen. Sei (Xn ) ein auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierter stochastischer Prozess mit Zustandsraum (S, S).
Satz 11.5. Es sind äquivalent:
(1). (Xn ) ist eine Markovkette mit Übergangswahrscheinlichkeiten pn und Startverteilung µ.
(2). Für jedes n ≥ 0 hat (X0 , X1 , . . . , Xn ) die Verteilung
µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . . · pn (xn−1 , dxn ),
d.h. für alle messbaren Funktionen f : S n+1 → R+ gilt
Z
Z
Z
E[f (X0 , . . . , Xn )] =
µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn )f (x0 , . . . , xn ).
(11.1.4)
Beweis. „(1) ⇒ (2)“ : Ist (Xn ) eine Markovkette mit Startverteilung µ und Übergangskernen
pn , dann gilt für n ∈ N und B0 , . . . , Bn ∈ S:
P [X0:n ∈ B0 × . . . × Bn ] = E [P [Xn ∈ Bn | X0:n−1 ] ; X0:n−1 ∈ B0 × . . . × Bn−1 ]
Z
p(xn−1 , Bn ) µX0:n−1 (dx0:n−1 ).
=
B0 ×...×Bn−1
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.1. GRUNDLAGEN
361
Durch Induktion nach n folgt
P [X0:n ∈ B0 × . . . × Bn ] =
Z
···
Bn
Z Z
µ(dx0 )p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )
B1 B0
für alle n ≥ 0 und Bi ∈ S. Also gilt X0:n ∼ µ ⊗ p1 ⊗ . . . ⊗ pn , und damit (11.1.4).
„(2) ⇒ (1)“ : Gilt (11.1.4), dann hat X0 die Verteilung µ, und (pn+1 f )(Xn ) ist für alle messbaren
Funktionen f : S → [0, ∞) eine Version der bedingten Erwartung E[f (Xn+1 ) | X0:n ].
Zum Beweis überprüfen wir die definierenden Eigenschaften der bedingten Erwartung:
(pn+1 f )(Xn ) ist eine Funktion von X0:n , und es gilt
E[f (Xn+1 ) · g(X0:n )]
Z
Z
Z
Z
=
µ(dx0 ) p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )g(x0:n ) pn+1 (xn , dxn+1 )f (xn+1 )
Z
Z
Z
=
µ(dx0 ) p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )g(x0:n )(pn+1 f )(xn )
= E[(pn+1 f )(Xn ) · g(X0:n )]
für alle messbaren Funktionen g : S n+1 → [0, ∞).
Seien µ eine Wahrscheinlichkeitsverteilung, p, q, r stochastische Kerne, und f eine messbare
nicht-negative Funktion auf (S, S). Wir bezeichnen mit
Z
(µp)(dy) =
µ(dx)p(x, dy)
die Verteilung der 2. Komponente unter dem Maß µ ⊗ p, und mit
Z
(pq)(x, dz) =
p(x, dy)q(y, dz)
den stochastischen Kern, der durch Hintereinanderausführen von p und q entsteht. Aus dem Satz
von Fubini ergeben sich die folgenden Rechenregeln für stochastische Kerne:
Z
Z Z
Z
f d(µp) =
µ(dx)p(x, dy)f (y) =
(pf ) dµ
(11.1.5)
p(qf ) = (pq)f
(11.1.6)
(µp)q = µ(pq)
(11.1.7)
p(qr) = (pq)r
(11.1.8)
Als Verteilung der Markovkette zur Zeit n erhalten wir dementsprechend
P ◦ Xn−1
Universität Bonn
=
µp1 p2 · . . . · pn ,
(11.1.9)
Wintersemester 2009/2010
362
KAPITEL 11. MARKOVKETTEN
wobei das Produkt wegen (11.1.7) und (11.1.8) nicht von der Klammerung abhängt.
Ist der Zustandsraum S abzählbar, dann gelten die folgenden Identifikationen:
µ
f
p
(µp)(y)
↔
(µ(x)|x ∈ S)
Zeilenvektor
↔
(p(x, y)|x, y ∈ S)
P
µ(x)p(x, y)
x
P
p(x, y)f (y)
y
P
p(x, y)q(y, z)
stochastische Matrix
↔
=
(pf )(x)
=
(pq)(x, z)
=
(f (x)|x ∈ S)
Spaltenvektor
Multiplikation mit Zeilenvektor von links
Multiplikation mit Spaltenvektor von rechts
Matrizenprodukt.
y
Beispiel (Zeithomogene Markovkette mit endlichem Zustandsraum). Wir betrachten einen
endlichen Zustandsraum S mit k Elementen, und eine stochastische Matrix p, die nicht von n
abhängt. Die Verteilung zur Zeit n einer zeithomogenen Markovkette mit Startverteilung µ und
Übergangsmatrix p ist dann
P ◦ Xn−1
=
µpn .
Um die Verteilung und deren Asymptotik zu berechnen, können wir die Spektraldarstellung der
Übergangsmatrix verwenden. Seien λ1 , . . . , λk ∈ C die Eigenwerte von p, d.h. die Nullstellen
des charakteristischen Polynoms χ(λ) = det(p − λI). Da p eine stochastische Matrix ist, gilt
Folgendes:
(1). |λj | ≤ 1 für alle j,
(dies folgt wegen kpf k∞
P
= max p(x, y)f (y) ≤ kf k∞ für alle f ).
x
y
(2). λ1 = 1 ist Eigenwert mit Rechtseigenvektor f1 = (1, . . . , 1)T .
(3). Nichtreelle Eigenwerte treten in Paaren λ, λ auf.
Wir nehmen nun der Einfachheit halber an, dass alle Eigenwerte einfach sind, d.h. λi 6= λj für
i 6= j. In diesem Fall existieren Rechts- und Linkseigenvektoren fj , νj (1 ≤ j ≤ k) mit
X
pfj = λj fj ,
ν j p = λj ν j ,
und
hνi , fj i =
νi (x)fj (x) = δij .
x∈S
Mithilfe der aus den Rechts- und Linkseigenvektoren gebildeten Matrizen
 
ν
 1
 ν2 
 
V · U = I,
U = (f1 , . . . , fk ),
V =  . ,
 .. 
 
νk
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.1. GRUNDLAGEN
363
erhalten wir die Spektraldarstellung
p
=
k
X
j=1
λj f j ⊗ ν j
=
für die Übergangsmatrix p, und damit auch für pn :
pn
=
k
X
j=1
λnj fj ⊗ νj
=


λ1 0 · · · 0


 0 λ . . . ... 
2


U . .
 V,
.
 ..
.. .. 0 


0 · · · 0 λk


λn1 0 · · · 0


 0 λn . . . ... 


U . .2 .
 V.
 ..
.. .. 0 


n
0 · · · 0 λk
Für die Verteilung der Markovkette zur Zeit n ergibt sich
P◦
Xn−1
n
X
=
j=1
λnj hµ, fj iνj .
(11.1.10)
Insbesondere folgt:
Satz 11.6 (Exponentielle Konvergenz ins Gleichgewicht). Sind die Eigenwerte einer stochastischen Matrix p ∈ Rk×k einfach, und gilt |λj | < 1 für alle j 6= 1, dann existiert eine Gleichgewichtsverteilung ν von p, und für jede Startverteilung µ gilt
n
n
für n → ∞.
µp
= ν + O max |λj |
j6=1
Beweis. Nach (11.1.10) gilt
µp
n
=
hµ, f1 iν1 +
Aus hµ, f1 i = hµ, (1, . . . , 1)T i =
µpn
P
k
X
j=2
λnj hµ, fj iνj
für alle n ≥ 0.
µ(x) = 1 folgt
n
= ν1 + O max |λj |
j6=1
Insbesondere ist ν1 = lim µpn eine Wahrscheinlichkeitsverteilung mit ν1 p = ν1 , also ein Gleichgewicht von p. Ist umgekehrt µ ein beliebiges Gleichgewicht von p, dann gilt µpn = µ für alle
n ≥ 0, und damit
Universität Bonn
µ
=
lim µpn
n→∞
=
ν1 .
Wintersemester 2009/2010
364
KAPITEL 11. MARKOVKETTEN
Bemerkung. (1). Sind die Eigenwerte nicht einfach, dann folgt eine ähnliche Aussage über die
Jordansche Normalformdarstellung der Übergangsmatrix p. Als Konvergenzgeschwindigkeit ergibt sich in diesem Fall O(nm−1 max |λi |n ), wobei m die größte Multiplizität des
i6=1
betragsmäßig zweitgrößten Eigenwertes ist (Satz von Perron-Frobenius).
(2). Entscheidend für die exponentielle Konvergenzrate ist die Lücke zwischen dem Eigenwert
1 und dem Rest des Spektrums. Eine entsprechende Aussage kann man auch auf allgemeinen Zustandsräumen mithilfe des Spektralsatzes für selbstadjungierte Operatoren zeigen,
falls die Gleichgewichtsverteilung die Detailed Balance Bedingung erfüllt.
Beispiel. (1). Die Übergangsmatrix der Markovkette aus Abbildung 11.2 ist


0 1 0


1
1 .
p=
0
 2 2
1
0 12
2
1/2
1/2
1/2
x1
1
1/2
Abbildung 11.2: Markovkette mit zugehöriger Übergangsmatrix p.
Eigenwerte sind λ1 = 1, λ2 = i/2 und λ3 = −i/2. Es folgt:
n
n
i
i
n
+C · −
p
= A+B·
2
2
mit Matrizen A, B, C ∈ C3×3 . Wegen p0 (x1 , x1 ) = 1 und p1 (x1 , x1 ) = p2 (x1 , x1 ) = 0
folgt
n
p (x1 , x1 )
=
1
+
5
n nπ 2
nπ
4
1
·
cos
− sin
2
5
2
5
2
Einführung in die Wahrscheinlichkeitstheorie
für alle n ≥ 0.
Prof. Andreas Eberle
11.1. GRUNDLAGEN
365
Der Wert 1/5 ist die erste Komponente des Gleichgewichtsvektors ν1 = (1/5, 2/5, 2/5).
Für n → ∞ konvergieren die Übergangswahrscheinlichkeiten mit Rate O(2−n ) gegen ν1 .
(2). Die Übergangsmatrix einer deterministischen Rotation auf dem diskreten Kreis Z/kZ, k ∈
N ist

0

0

 ..
.
p=

0

0

1
··· 0 0
1
0
0
1 ···
... ...
0
0
0
0
0
0


0

.. 
.
.

· · · 1 0

· · · 0 1

··· 0 0
0
..
.
Das charakteristische Polynom ist χ(λ) = (−1)k · (λk − 1), und die Eigenwerte von p sind
dementsprechend die k-ten Einheitswurzeln λj = exp(2πi · (j − 1)/k), j = 1, . . . , k. Da
alle Eigenwerte Betrag 1 haben, gilt keine exponentielle Konvergenz ins Gleichgewicht.
Tatsächlich ist die Markovkette mit Übergangsmatrix p periodisch: Xn+mk = Xn P -fast
sicher für alle n, m ≥ 0.
1
2
1
1
1
1
1
1
3
4
1
1
5
Abbildung 11.3: Darstellung eines gerichteten Graphen einer Markovkette auf Z/mZ.
Verteilung auf dem Pfadraum; kanonisches Modell
In Satz 11.5 haben wir die endlich-dimensionalen Verteilungen P ◦ (X0 , X1 , . . . , Xn )−1 einer
Markovkette (Xn )n≥0 berechnet. Viele relevante Ereignisse hängen aber von unendlich vielen
Universität Bonn
Wintersemester 2009/2010
366
KAPITEL 11. MARKOVKETTEN
der Zufallsvariablen Xn ab. Die gemeinsame Verteilung aller dieser Zufallsvariablen ist eine
Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum
Ŝ
S {0,1,2,...}
:=
{x = (x0 , x1 , x2 , . . .) | xi ∈ S}
=
aller diskreten Pfade (Folgen) mit Werten in S. Wir versehen die Menge Ŝ wie üblich mit der von
den Koordinatenabbildungen
πk :
Ŝ → S,
πk (x) = xk ,
erzeugten Produkt-σ-Algebra
F
=
σ(πk |k ≥ 0)
=
O
k≥0
S.
Einen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten stochastischen Prozess (Xn )n≥0
können wir auch als Abbildung
X = (Xn ) : Ω → Ŝ
auffassen. Die Abbildung X ist eine Ŝ-wertige Zufallsvariable, also messbar bzgl. der σ-Algebren
A/F, denn F wird von den Koordinatenabbildungen πk erzeugt, und πk (X) = Xk ist für alle
k ≥ 0 messbar. Wir können daher die Verteilung
µX [A] = P [(Xn ) ∈ A],
A ∈ F,
des stochastischen Prozesses (Xn ) auf dem Pfadraum (Ŝ, F) betrachten.
Wir beschränken uns nun wieder auf Markovketten. Seien p1 , p2 , . . . stochastische Kerne, und µ
eine Wahrscheinlichkeitsverteilung auf (S, S).
Satz 11.7 (Existenz und Eindeutigkeit in Verteilung von Markovketten). (1). Es existiert genau eine Wahrscheinlichkeitsverteilung Pµ auf dem unendlichen Produktraum (Ŝ, F), bzgl.
der die Folge (πn )n≥0 der Koordinatenabbildungen eine Markovkette mit Startverteilung
µ(dx) und Übergangskern pn (x, dy) ist.
(2). Ist (Xn )n≥0 auf (Ω, A, P ) eine beliebige Markovkette mit Startverteilung µ und Übergangswahrscheinlichkeiten pn , dann gilt
P [(Xn ) ∈ A]
=
Pµ [A]
für alle A ∈ F,
d.h. Pµ ist die Verteilung von (Xn ) auf (Ŝ, F).
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.1. GRUNDLAGEN
367
Bemerkung (Unendliches mehrstufiges Modell). Die Verteilung Pµ der Markovkette entspricht
einem mehrstufigen Modell auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} :
Pµ (dx)
=
µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . . .
Beweis. Nach Satz 11.5 ist ein stochastischer Prozess (Xn ) genau dann eine Markovkette zu µ
und pn , wenn (X0 , . . . , Xn ) für jedes n ≥ 0 die Verteilung
µ0:n (dx0:n ) := µ(dx0 )p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )
hat. Zu zeigen ist, dass zu der Familie µ0:n , n ≥ 0, von Wahrscheinlichkeitsverteilungen auf den
endlichdimensionalen Produkträumen S {0,1,...,n} eine eindeutige Wahrscheinlichkeitsverteilung
Pµ auf den unendlichen Produktraum Ŝ existiert, bzgl. der die ersten n+1 Koordinaten x0 , . . . , xn
für jedes n die Verteilung µ0:n haben. Die Folge πn (x) = xn der Koordinatenabbildungen ist dann
unter Pµ eine Markovkette mit den vorgegebenen Übergangswahrscheinlichkeiten.
Existenz: Die Wahrscheinlichkeitsverteilungen µ0:n auf den endlichdimensionalen Produkträumen S {0,1,...,n} sind konsistent, d.h. für m ≤ n stimmt die Verteilung der ersten m+1 Koordinaten unter µ0:n mit µ0:m überein. Aus dem Fortsetzungssatz von Carathéodory folgt nun
allgemein, dass zu einer Familie von konsistenten endlichdimensionalen Verteilungen eine
Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum mit den entsprechenden
Randverteilungen existiert (Fortsetzungssatz von Kolmogorov). Wir verzichten hier auf den
Beweis dieser maßtheoretischen Aussage, der sich in vielen Lehrbüchern zur Wahrscheinlichkeitstheorie findet, s. z.B. [Bauer], [Klenke], oder den Anhang in [Durrett: Probability
- Theory and Examples].
Eindeutigkeit: Ein stochastischer Prozess (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, A, P )
ist genau dann eine Markovkette mit Parametern µ und pn , wenn
Z
Z
Z
µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn ) = P [X0 ∈ B0 , . . . , Xn ∈ Bn ] = P [X ∈ A]
B0
B1
Bn
(11.1.11)
für jede Zylindermenge der Form
A = B0 × B1 × . . . × Bn × S × S × . . .
=
{π0 ∈ B0 , . . . , πn ∈ Bn },
mit n ∈ N und B0 , . . . , Bn ∈ S gilt. Da die Zylindermengen ein durchschnittsstabiles
Erzeugendensystem der Produkt-σ-Algebra F bilden, ist die Verteilung von X auf (Ŝ, F)
durch (11.1.11) eindeutig festgelegt.
Universität Bonn
Wintersemester 2009/2010
368
KAPITEL 11. MARKOVKETTEN
Ist Xn = πn der Koordinatenprozess auf dem Produktraum (Ω, A) = (Ŝ, F), dann stimmt
die Verteilung von X mit dem zugrundeliegenden Wahrscheinlichkeitsmaß P überein, d.h.
P ist durch (11.1.11) eindeutig festgelegt.
Bemerkung (Konstruktive Existenzbeweise). Im Fall S = R erhalten wir die Wahrscheinlichkeitsverteilung Pµ auch direkt als Verteilung der im letzten Abschnitt explizit konstruierten
Markovkette (Xn ) mit Startverteilung µ und Übergangswahrscheinlichkeiten pn . Auch auf allgemeineren Zustandsräumen kann man die Existenz von Pµ auf ähnliche Weise aus der Existenz
einer Folge von auf (0, 1) gleichverteilten, unabhängigen Zufallsvariablen herleiten (z.B. durch
eine messbare Transformation des Zustandsraums nach R).
Nach Satz 11.7 können wir eine Markovkette mit beliebigen Übergangswahrscheinlichkeiten
durch die Koordinatenabbildungen auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} realisieren.
Definition. Der durch die Koordinatenabbildungen πn (x) = xn gegebene stochastische Prozess auf dem Wahrscheinlichkeitsraum (Ŝ, F, Pµ ) heißt kanonisches Modell der Markovkette
mit Startverteilung µ und Übergangswahrscheinlichkeiten pn .
Allgemein kann man jeden stochastischen Prozess im kanonischen Modell realisieren, indem
man zur Verteilung des Prozesses auf dem Pfadraum übergeht.
11.2
Markoveigenschaft und Differenzengleichungen
In diesem Abschnitt werden wir die wichtige Verbindung von Markovketten und Differenzengleichungen betrachten. Dazu beweisen wir zunächst eine weitergehende Form der definierenden
Eigenschaft einer Markovkette.
Sei (Xn )n≥0 auf (Ω, A, P ) eine Markovkette mit Startverteilung µ und Übergangskernen pn . Ist
(S, S) der Zustandsraum, dann hat (Xn ) nach Satz 11.7 die Verteilung
Pµ (dx)
=
µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . .
auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} . Wir bezeichnen im Folgenden die Verteilung
(n)
Pδx der Markovkette bei Startwert x kurz mit Px . Entsprechend sei Px
die Verteilung der Mar-
kovkette mit Start in x und Übergangskernen pn+1 , pn+2 , . . ..
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
369
Die Markoveigenschaft
In Erweiterung der definierenden Eigenschaft einer Markovkette können wir sogar die bedingte
Verteilung der um n Schritte verschobenen Kette gegeben den Verlauf bis zur Zeit n identifizieren:
Satz 11.8 (Markoveigenschaft). Für alle n ≥ 0 und alle F-messbaren Funktionen F : Ŝ →
[0, ∞) gilt:
E[F (Xn , Xn+1 , . . .) | X0:n ]
=
(n)
EXn [F ]
P -fast sicher.
(n)
Bemerkung. (1). Für zeitlich homogene Markovketten gilt Px
(11.2.1)
= Px für alle n.
(2). Für diskrete Zustandsräume ergibt sich, dass (Xn , Xn+1 , . . .) unter der bedingten Verteilung gegebene X0:n = x0:n für jedes n ≥ 0 und x0:n ∈ S n+1 mit P [X0:n = x0:n ] 6= 0 eine
Markovkette mit Start in xn und Übergangskernen pn+1 , pn+2 , . . . ist.
Beweis. Der Beweis erfolgt in mehreren Schritten:
(1). Wir nehmen zunächst an, dass die Funktion F nur von endlich vielen Variablen abhängt,
d.h.
F (x0 , x1 , . . .) = f (x0:k )
für ein k ≥ 0 und eine messbare Funktion f : S k+1 → R+ .
(11.2.2)
(n)
In diesem Fall können wir direkt verifizieren, dass EXn [F ] eine Version der bedingten
Erwartung in (11.2.1) ist:
(n)
(a) Es gilt EXn [F ] = g(Xn ) mit
g(z)
=
Ez(n) [F ]
=
Z
p1 (z, dx1 )
Z
p2 (x1 , dx2 ) · · ·
Z
pk (xk−1 , dxk )f (x0:k ).
Da f : S k+1 → R+ produktmessbar ist, ist g : S → R+ messbar.
(b) Für n ≥ 0 und eine messbare Funktion h : S n+1 → R+ gilt
E[F (Xn , Xn+1 , . . .)h(X0:n )] = E[f (Xn:n+k )h(X(0:n) )]
Z
Z
Z
=
µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn )h(x0:n ) ×
Z
Z
× pn+1 (xn , dxn+1 ) · · · pn+k (xn+k−1 , dxn+k )f (xn:n+k )
|
{z
}
(n)
i
h
(n)
= E EXn [F ] · h(X0:n ) .
Universität Bonn
EXn [F ]
Wintersemester 2009/2010
370
KAPITEL 11. MARKOVKETTEN
(2). Nach (1) gilt (11.2.1) für Indikatorfunktionen F = IA von Zylindermengen der Form
A = {x ∈ Ŝ : x0 ∈ B0 , . . . , xn ∈ Bn } mit n ∈ N und B0 , . . . , Bn ∈ S. Wir zeigen nun,
dass die Aussage dann auch für Indikatorfunktionen von beliebigen Mengen A aus der
Produkt-σ-Algebra F gilt. Dazu bemerken wir, dass das System D aller Mengen A ∈ F,
für die (11.2.1) mit F = IA gilt, ein Dynkinsystem ist. Sind beispielsweise A1 , A2 , . . . ∈ D
S
disjunkt, dann ist auch k Ak in D enthalten, denn
X
E[IS Ak (Xn , Xn+1 , . . .) | X0:n ] =
E[IAk (Xn , Xn+1 , . . .) | X0:n ]
k
=
X
(n)
EXn [IAk ]
=
(n)
EXn [IS Ak ]
P -fast sicher.
k
Da die Zylindermengen ein durchschnittsstabiles Erzeugendensystem der Produkt-σ-Algebra
bilden, folgt D = F, d.h. (11.2.1) gilt für alle F = IA mit A ∈ F.
(3). Die Aussage (11.2.1) für beliebige nicht-negative F-messbare Funktionen F folgt nun wie
üblich durch maßtheoretische Induktion.
Bemerkung (Markoveigenschaft im kanonischen Modell). Im kanonischen Modell können
wir die Markoveigenschaft noch etwas kompakter formulieren. Sei θ : Ŝ → Ŝ die durch
θ(x0 , x1 , . . .)
=
(x1 , x2 . . .)
definierte Shiftabbildung auf dem Pfadraum Ŝ, und seien Xn : Ŝ → S,
Xn (x0 , x1 , . . .)
=
xn ,
die Koordinatenabbildungen. Dann gilt:
Eµ [F ◦ θn | X0:n ]
=
(n)
EXn [F ]
P -fast sicher
(11.2.3)
für alle Wahrscheinlichkeitsverteilungen µ auf (S, S) und alle messbaren Funktionen F : Ŝ →
R+ .
Das folgende Korollar liefert eine weitere äquivalente Formulierung der Markoveigenschaft.
Korollar 11.9 (Markoveigenschaft, 2. Version). Ist (Xn ) unter P eine Markovkette mit Parametern µ und pn , dann ist (Xn , Xn+1 , . . .) bedingt unabhängig von (X0 , . . . , Xn ) gegeben Xn
(n)
mit bedingter Verteilung PXn , d.h.
E[F (Xn , Xn+1 , . . .)g(X0 , . . . , Xn ) | Xn ]
(n)
= EXn [F ] · E[g(X0 , . . . , Xn ) | Xn ]
= E[F (Xn , Xn+1 , . . .) | Xn ] · E[g(X0 , . . . , Xn ) | Xn ]
Einführung in die Wahrscheinlichkeitstheorie
P -fast sicher
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
371
für alle messbaren F : Ŝ → [0, ∞) und g : S n+1 → [0, ∞).
Beweis. Wegen der Projektivität der bedingten Erwartung gilt nach Satz 11.8:
E[F (Xn:∞ )g(X0:n ) | Xn ] = E[E[F (Xn:∞ )g(X0:n ) | X0:n ] | Xn ]
i
h
(n)
(n)
= EXn [F ] · E[g(X0:n ) | Xn ].
= E EXn [F ]g(X0:n ) Xn
Das Korollar besagt anschaulich, dass, gegeben den gegenwärtigen Zustand Xn , die zukünftige
Entwicklung einer Markovkette bedingt unabhängig von der vorherigen Entwicklung ist:
„Die Zukunft ist bedingt unabhängig von der Vergangenheit gegeben die Gegenwart.“
Beispiel (Das klassische Ruinproblem). Wir wollen nun den Zusammenhang von Markovketten
und Differenzengleichungen zunächst in einem einfachen Beispiel betrachten. In jeder Runde
eines Glücksspiels trete einer der folgenden Fälle ein:
• Mit Wahrscheinlichkeit p ∈ (0, 1) gewinnt der Spieler 1 Euro dazu.
• Mit Wahrscheinlichkeit q = 1 − p verliert der Spieler 1 Euro.
Die Entwicklung des Kapitals Xn des Spielers kann dann durch einen Random Walk auf Z mit
Übergangswahrscheinlichkeiten p(x, x + 1) = p, p(x, x − 1) = q beschrieben werden. Sei x ∈ Z
das Startkapital, und seien a, b ∈ Z mit a ≤ x ≤ b. Wir können den Random Walk ohne Be-
schränkung der Allgemeinheit im kanonischen Modell betrachten, d.h. Px ist die Verteilung bei
Startwert x auf dem Produktraum Ω = Z{0,1,2,...} und Xn (ω) = ωn ist die n-te Koordinatenabbildung.
Das Glücksspiel soll folgende mögliche Ausgänge haben:
• Im Fall Xn ≤ a ist der Spieler bankrott.
• Im Fall Xn ≥ b ist der Gegenspieler (bzw. die Spielbank) bankrott.
Die Zeit, zu der eines dieser beiden Ereignisse zum ersten Mal eintritt, wird durch die Zufallsvariable
T (ω)
:=
min{n ≥ 0 | Xn (ω) ≤ a oder
Xn (ω) ≥ b}
beschrieben, wobei wir min ∅ = ∞ setzen. Wegen lim sup |Xn | = +∞ gilt T < ∞ PX -fast
sicher für alle x. Also ist der Austrittspunkt
XT (ω)
Universität Bonn
:=
XT (ω) (ω)
Wintersemester 2009/2010
372
KAPITEL 11. MARKOVKETTEN
des Random Walks (Xn ) aus dem Intervall (a, b) Px -fast sicher definiert, und mit Wahrscheinlichkeit 1 gilt XT = a (Spieler bankrott) oder XT = b (Spielbank bankrott). Wegen
XT
∞
X
=
n=0
Xn · I{T =n}
ist auch XT eine Zufallsvariable. Uns interessiert die Ruinwahrscheinlichkeit
h(x)
:=
Px [XT = a]
des Spielers bei Startkapital x. Um diese zu berechnen, bedingen wir auf den ersten Schritt des
Random Walks („first step analysis“). Sei dazu
en (ω)
X
:=
Xn+1 (ω)
=
Xn (θ(ω))
der um einen Schritt verschobene Prozess, und sei
Te
=
XT (ω)
=
Für a < x < b gilt T ≥ 1, also
en ≤ a oder
min{n ≥ 0 | X
en ≥ b}.
X
e e (ω)
X
T
für alle ω ∈ Ω.
=
XT (θ(ω))
Daher folgt mit der Markoveigenschaft:
h(x)
Px [XT = a]
=
Px [XT ◦ θ = a | X1 = x + 1] · Px [X1 = x + 1] +
(11.2.1)
=
Px [XT ◦ θ = a]
=
+Px [XT ◦ θ = a | X1 = x − 1] · Px [X1 = x − 1]
=
Px+1 [XT = a] · p + Px−1 [XT = a] · q
=
p · h(x + 1) + q · h(x − 1).
Die Funktion h hat also die gewichtete Mittelwerteigenschaft
h(x)
=
p · h(x + 1) + q · h(x − 1),
für alle a < x < b.
Diese Eigenschaft ist äquivalent zu den Differenzengleichungen
0 = p · (h(x + 1) − h(x)) − q · (h(x) − h(x − 1))
bzw.
(11.2.4)
0 = q((h(x + 1) − h(x)) − (h(x) − h(x − 1))) + (p − q) (h(x + 1) − h(x)) .(11.2.5)
|
{z
}
{z
}
|
diskrete 2. Ableitung
Einführung in die Wahrscheinlichkeitstheorie
diskrete 1. Ableitung
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
373
Die gesuchte Ruinwahrscheinlichkeit h(x) löst (11.2.3) bzw. (11.2.4) bzw. (11.2.5) mit den Randbedingungen
h(a) = Pa [XT = a] = 1,
h(b) = Pb [XT = a] = 0.
Die Lösung der Differenzengleichung können wir leicht berechnen. Dazu verfahren wir ähnlich
wir bei linearen gewöhnlichen Differentialgleichungen. Nach (11.2.4) gilt für die erste Differenz
v(x) := h(x + 1) − h(x):
v(x)
q
· v(x − 1)
p
=
für alle a < x < b,
d.h. v(x) = c · (q/p)x für ein c ∈ R. Wir unterscheiden folgende Fälle:
(1). Faire Münzwürfe (p = q = 12 ): In diesem Fall ist
h(x)
=
mit c, d ∈ R
cx + d
die allgemeine Lösung von (11.2.4) bzw. (11.2.5). Aus den Randbedingungen folgt:
h(x)
=
(2). p 6= 12 : In diesem Fall erhalten wir
h(x)
=
b−x
b−a
(a ≤ x ≤ b).
x
q
c·
+d
p
mit c, d ∈ R
als allgemeine Lösung. Aus den Randbedingungen folgt:
h(x)
=
b
q
p
b
q
p
−
−
x
q
p
a
=
q
p
1−
1−
b−x
p
q
b−a .
p
q
Wir haben damit die Ruinwahrscheinlichkeit in allen Fällen berechnet. Ist die Erfolgswahrscheinlichkeit p kleiner als 1/2, dann gilt
p
q
< 1 und somit h(x) ≥ 1 − (p/q)b−x . Der letzte Ausdruck
hängt nicht von dem Betrag a ab, bei dem der Spieler ruiniert ist. Beispielsweise gilt bei Roulette
mit Höchsteinsatz 1 stets:
h(x) ≥ 1 −
18
19
b−x
.
Bei genügend kleinem Höchsteinsatz geht also mit an Sicherheit grenzender Wahrscheinlichkeit
der Spieler zuerst bankrott - selbst wenn das Kapital, das er mobilisieren kann, über dem der
Bank liegt!
Universität Bonn
Wintersemester 2009/2010
374
KAPITEL 11. MARKOVKETTEN
Differenzengleichungen für Markovketten
Die beim Ruinproblem verwendete Methode, die Berechnung von Wahrscheinlichkeiten und Erwartungswerten von Markovketten durch Konditionieren auf den ersten Schritt auf eine Differenzengleichung zurückzuführen, ist viel allgemeiner anwendbar. Wir betrachten im Folgenden eine
beliebige zeithomogene Markovkette (Xn ) mit Zustandsraum (S, S) und Übergangskern p(x, dy)
im kanonischen Modell. Sei D ∈ S eine messbare Teilmenge des Zustandsraums, und sei
T (ω)
min{n ≥ 0 : Xn (ω) ∈ DC }
:=
die erste Trefferzeit von DC = S \ D, d.h. die erste Austrittszeit der Markovkette aus dem
Gebiet D. Hierbei setzen wir wieder min ∅ = ∞. Wir wollen Erwartungswerte von Typ
"T −1
#
X
c(Xn ) + Ex [f (XT ) ; T < ∞]
(11.2.6)
u(x) = Ex
n=0
berechnen, wobei c : D → R und f : DC → R gegebene nichtnegative, messbare Funktio-
nen sind. Interpretieren wir beispielsweise c(x) als Kosten, wenn die Markovkette den Punkt
x durchläuft, und f (x) als Zusatzkosten, wenn die Markovkette im Punkt x aus der Menge D
austritt, dann gibt u(x) die mittleren Gesamtkosten an, die beim Start in x bis zum Austritt aus
der Menge D anfallen. Man beachte, dass sich eine Reihe wichtiger Wahrscheinlichkeiten und
Erwartungswerte von Markovketten in der Form (11.2.6) darstellen lassen.
Beispiel. (1). c ≡ 0, f ≡ 1: Austrittswahrscheinlichkeit aus D bzw. Trefferwahrscheinlichkeit
von DC :
u(x)
Px [T < ∞].
=
(2). c ≡ 0, f = IB : Verteilung des Austrittspunktes XT :
u(x)
=
Px [XT ∈ B ; T < ∞].
(3). c ≡ 1, f ≡ 0: Mittlere Austrittszeit aus D:
u(x)
=
Ex [T ].
(4). c = IB , f ≡ 0: Mittlere Anzahl der Besuche in B vor Austritt aus D:
#
"T −1
∞
X
X
IB (Xn )
=
u(x) = Ex
Px [Xn ∈ B , n < T ].
n=0
Einführung in die Wahrscheinlichkeitstheorie
n=0
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
375
Satz 11.10 (Poissongleichung). u ist die minimale nichtnegative Lösung des Randwertproblems
u(x) − (pu)(x) = c(x)
für x ∈ D,
(11.2.7)
für x ∈ DC .
u(x) = f (x)
(1). Wir zeigen zunächst durch Bedingen auf den ersten Schritt, dass u das Randwerten = Xn+1
problem löst. Dazu betrachten wir – wie oben – die verschobene Markovkette X
Beweis.
en ∈ DC }. Für x ∈ D gilt Px -fast
und die entsprechende Austrittszeit Te = min{n ≥ 0 : X
sicher T ≥ 1, also
XT
=
ee
X
T
T −1
X
und
c(Xn )
=
c(X0 ) +
Te−1
X
n=0
n=0
en ).
c(X
Damit erhalten wir unter Verwendung der Markoveigenschaft:
#
"T −1
X
c(Xn ) + f (XT ) · I{T <∞} X1
Ex

 n=0
Te−1
X
e n ) + f (X
e e) · I e

c(X
= Ex  c(x) +
T
{T <∞} X1
n=0
#
"T −1
X
c(Xn ) + f (XT ) · I{T <∞}
= c(x) + EX1
n=0
= c(x) + u(X1 )
P -fast sicher,
wobei wir f (XT ) · I{T <∞} := 0 auf {T = ∞} setzen. Durch Bilden des Erwartungswertes
bzgl. Px ergibt sich:
u(x)
=
c(x) + Ex [u(X1 )]
=
für alle x ∈ D.
c(x) + (pu)(x)
Für x ∈ DC gilt T = 0 Px -fast sicher, und damit
u(x)
=
Ex [f (X0 )]
=
f (x)
für alle x ∈ DC .
Also löst u das Randwertproblem (11.2.7).
(2). Sei nun v ≥ 0 eine beliebige Lösung des Randwertproblems. Wir wollen zeigen, dass
v ≥ u gilt. Dazu betrachten wir für m ∈ N die Funktion


(T ∧m)−1
X
c(Xn ) + f (XT ) · I{T ≤m}  ,
um (x) := Ex 
n=0
Universität Bonn
x ∈ S.
Wintersemester 2009/2010
376
KAPITEL 11. MARKOVKETTEN
Nach dem Satz über monotone Konvergenz gilt u(x) = sup um (x). Durch Konditionieren
m≥1
auf den ersten Schritt erhalten wir ähnlich wie oben:
um+1 (x) = c(x) + (p um )(x)
für x ∈ DC .
um+1 (x) = f (x)
für x ∈ D,
und
(11.2.8)
Wir zeigen nun durch Induktion nach m:
v ≥ um
für alle m ≥ 0.
(11.2.9)
Für m = 0 ist (11.2.9) erfüllt, denn nach Voraussetzung gilt
v(x) ≥ 0 = u0 (x)
für alle x ∈ D, und
v(x) = f (x) = u0 (x)
für alle x ∈ DC .
Gilt (11.2.9) für ein m ≥ 0, dann folgt zudem
v = pv + c
≥
v = f
um+1
=
pum + c
(11.2.8)
=
um+1
auf D, und
auf DC ,
d.h. (11.2.9) gilt auch für m + 1. Also ist (11.2.9) für alle m ≥ 0 erfüllt. Damit folgt aber
auch
≥
v
sup um
=
u,
d.h. u ist tatsächlich die minimale nichtnegative Lösung von (11.2.7).
Wir wollen uns nun das erhaltene Randwertproblem genauer ansehen. In kompakter Notation
können wir (11.2.7) schreiben als
−Lu = c
auf D,
auf DC
u = f
mit
(L u)(x)
:=
(pu)(x) − u(x)
(11.2.10)
=
Z
p(x, dy)(u(y) − u(x)).
Der lineare Operator L = p − I heißt Generator der Markovkette. Auf diskreten Zustandsräu-
men ist L ein Differenzenoperator:
(L u)(x)
=
X
y∈S
Einführung in die Wahrscheinlichkeitstheorie
p(x, y)(u(y) − u(x)).
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
377
Beispiel (Random Walk auf Zd , Poissongleichung und Dirichletproblem). Für den klassischen d-dimensionalen Random Walk gilt
p(x, y)
=
Damit ergibt sich

1
falls |y − x| = 1,
2d
0
sonst.
d
(L u)(x) =
1 X
(u(x + ei ) − u(x) + u(x − ei ) − u(x))
2d i=1
d
1 X
((u(x + ei ) − u(x)) − (u(x) − u(x − ei ))) .
=
2d i=1
Also ist
L
1
∆ d
2d Z
=
der diskrete Laplace-Operator multipliziert mit der Übergangswahrscheinlichkeit. (11.2.10) ist
also ein Randwertproblem für die diskrete Poissongleichung
(∆Zd u)(x)
=
−2dc(x).
Beispielsweise ist die mittlere Austrittszeit u(x) des Random Walks mit Start in x aus einer
Menge D durch die minimale nichtnegative Lösung des Randwertproblems
∆Zd u = −2d
u = 0
auf D,
auf DC ,
gegeben. Wollen wir die Verteilung des Austrittspunktes XT berechnen (wie z.B. beim Ruinproblem), dann müssen wir c ≡ 0 setzen. In diesem Fall ist (11.2.10) ein diskretes Dirichletproblem:
Gesucht ist eine Funktion u : Zd → R mit
∆ Zd u = 0
u = f
Universität Bonn
auf D,
auf DC .
Wintersemester 2009/2010
378
KAPITEL 11. MARKOVKETTEN
DC
D
Abbildung 11.4: Diskretes Dirichletproblem auf einer Menge D ⊂ Z2 .
Dirichletproblem und Austrittsverteilung
Allgemein nennen wir Funktionen h : S → R mit L h = 0 harmonisch.
Definition. Eine nach unten beschränkte, messbare Funktion h : S → R heißt harmonisch auf
der Menge D bzgl. des stochastischen Kerns p, falls
(L h)(x)
=
(ph)(x) − h(x)
=
für alle x ∈ D
0
gilt, d.h. falls h die verallgemeinerte Mittelwerteigenschaft
Z
p(x, dy)h(y) = h(x)
für alle x ∈ D
(11.2.11)
besitzt.
Als Spezialfall von Satz 11.10 erhalten wir:
Korollar 11.11 (Stochastische Lösung des Dirichletproblems). Die Funktion
u(x) = Ex [f (XT ) ; T < ∞]
ist die minimale nichtnegative Lösung des Dirichletproblems
u harmonisch auf D,
u = f
auf DC .
(11.2.12)
Bemerkung (Lokalität). Ist S abzählbar, dann sind für die Lösung des Dirichletproblems nur
die Werte von f auf dem äußeren Rand
∂ext D
=
{y ∈ DC | p(x, y) > 0
Einführung in die Wahrscheinlichkeitstheorie
für ein x ∈ D}
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
relevant. In der Tat gilt für u : S → R und x ∈ D:
(pu)(x)
=
X
p(x, y)u(y)
=
y∈S
X
p(x, y)u(y) +
y∈D
X
379
p(x, y)u(y),
y∈∂D
d.h. (L u)(x) hängt nicht von den Werten von u auf DC \ ∂D ab.
Bemerkung (Eindeutigkeit des Dirichletproblems). (1). Im Allgemeinen können mehrere Lösungen des Dirichletproblems (11.2.12) existieren. Ist beispielsweise p der Übergangskern
eines klassischen Random Walks auf {0, 1, 2, . . .} und D = {1, 2, . . .}, dann sind die Funk-
tionen ha (x) = ax, a ∈ R, alle harmonisch mit Randwerten ha (0) = 0. Ebenso ist die
Lösung nicht eindeutig, falls ein z ∈ S mit Pz [T = ∞] 6= 0 existiert, denn in diesem Fall
ist h(x) = Px [T = ∞] eine nichttriviale harmonische Funktion mit Nullrandwerten.
(2). Ist die Funktion f beschränkt, und ist die Austrittszeit T für alle x ∈ S Px -fast sicher
endlich, dann ist u die eindeutige beschränkte Lösung von (11.2.12). Dies kann man z.B.
mit dem Stoppsatz für Martingale beweisen.
Satz 11.10 und Korollar 11.11 sind erste Aspekte weitreichender Beziehungen zwischen Wahrscheinlichkeitstheorie und Analysis (Potentialtheorie) mit fundamentalen Konsequenzen auch für
andere Gebiete der Mathematik wie z.B. Diskrete Mathematik, Differentialgeometrie, Numerik
und mathematische Physik. Wir erwähnen hier einige wichtige Gesichtspunkte und Konsequenzen des gefundenen Zusammenhangs. Dazu setzen wir T < ∞ Px -fast sicher für alle x ∈ S
voraus. Unter dieser Annahme ist
u(x)
=
Ex [f (XT )]
(11.2.13)
für eine nichtnegative bzw. beschränkte Funktion f auf DC die minimale nichtnegative, bzw. die
eindeutige beschränkte Lösung des Dirichletproblems.
Monte-Carlo- Methode zur Berechnung harmonischer Funktionen: Nach dem Gesetz der großen
Zahlen gilt
k
u(x)
≈
1X
(i)
f (XT (i) )
k i=1
für große k,
wobei X (1) , X (2) , . . . unabhängige Markovketten mit Start in x und Übergangskern p sind,
und T (i) die Austrittszeit von X (i) aus der Menge D bezeichnet. Die Simulation von Markovketten kann daher in sehr allgemeinem Rahmen zur näherungsweisen Berechnung harmonischer Funktionen verwendet werden.
Universität Bonn
Wintersemester 2009/2010
380
KAPITEL 11. MARKOVKETTEN
Stochastische Darstellung der Lösung des Dirichletproblems als Pfadintegral: Nach (11.2.13)
können wir die harmonische Funktion u schreiben als Integral
Z
f (XT (ω)) P (dω)
u(x) =
S {0,1,2,...}
über den Raum aller diskreten Pfade auf S. Ähnliche Pfadintegraldarstellungen spielen in
der Quantenphysik eine wichtige Rolle, siehe z.B. die Lecture Notes von R. Feynman.
Integralformel für harmonische Funktionen: Sei µx := Px ◦ XT−1 die Austrittsverteilung der
Markovkette mit Start in x. Dann gilt:
u(x)
=
Z
f (y) µx (dy).
DC
Die Austrittsverteilung µx ist also das harmonische Maß der Potentialtheorie, das eine
Berechnung harmonischer Funktionen aus den Randwerten ermöglicht.
Beispiele harmonischer Funktionen
Diskrete Zustandsräume
Ist S abzählbar, dann ist
hy (x)
:=
Px [T < ∞ und XT = y]
für jedes y ∈ DC eine nichtnegative, beschränkte, harmonische Funktion auf D mit Randwerten
hy (x)
=
I{y} (x)
für alle x ∈ DC .
Eine Lösung u des Dirichletproblems zu beliebigen Randwerten f : DC → R+ erhält man als
Linearkombination der Funktionen hy : Gilt Px [T = ∞] = 0 für alle x ∈ S, dann gibt es genau
eine beschränkte Lösung des Dirichlet-Problems. Damit folgt, dass die Funktionen hy , y ∈ DC ,
eine Basis des Vektorraums aller beschränkten, harmonischen Funktionen bilden. Wir erhalten
also einen Zusammenhang zwischen beschränkten harmonischen Funktionen und den möglichen
Austrittspunkten y ∈ DC der Markovkette.
Beispiel. (1). Ruinproblem: Für den Random Walk auf {a, a + 1, . . . , b} ⊂ Z mit Übergangskern p(x, x + 1) = p, p(x, x − 1) = q = 1 − p, gilt
ha (x)
=
Px [XT = a]
Einführung in die Wahrscheinlichkeitstheorie
=
h(b) − h(x)
h(b) − h(a)
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
und
hb (x)
=
Px [XT = b]
mit
h(x)
:=
h(x) − h(a)
h(b) − h(a)
=

x
für p = q
(q/p)x
381
.
für p 6= q
Die Funktionen ha und hb bilden eine Basis des Vektorraums {c · h + d | c, d ∈ R} aller
harmonischer Funktionen.
(2). Eine transiente Markovkette auf Z: Sei p ∈ ( 21 , 1) und q = 1 − p. Wir betrachten die
Markovkette (Xn , Px ) auf Z mit den folgenden Übergangswahrscheinlichkeiten:
q
q
q
q
q
q
q
q
q
p
p
p
1/2
1/2
p
p
p
p
-3
-2
-1
0
1
3
2
4
Abbildung 11.5: Übergangswahrscheinlichkeiten der transienten Markovkette (Xn , Px )
Für x > 0 gilt
p(x, x + 1)
=
p
>
q
=
p(x, x − 1),
=
q
<
p
=
p(x, x − 1).
für x < 0 dagegen umgekehrt
p(x, x + 1)
Daher haben die Ereignisse {lim Xn = ∞} und {lim Xn = −∞} beide positive Wahr-
scheinlichkeit. Die Funktion
h+ (x)
:=

x
1 − 1 q
2 p
−x
1 q
2
ist harmonisch mit Randbedingungen
für x > 0
für x ≤ 0
p
lim h+ (x)
=
1
lim h+ (x)
=
0.
x→∞
und
x→−∞
Universität Bonn
Wintersemester 2009/2010
382
KAPITEL 11. MARKOVKETTEN
Entsprechend ist h− (x) = h+ (−x) harmonisch mit
lim h− (x)
x→−∞
=
1
und
lim h− (x)
x→∞
=
0,
und jede harmonische Funktion ist eine Linearkombination von h+ und h− . Durch Bedingen auf den ersten Schritt der Markovkette zeigt man
h+ (x)
=
Px [lim Xn = ∞]
und
h− (x)
=
Px [lim Xn = −∞].
Die harmonischen Funktionen h+ und h− beschreiben in diesem Fall die möglichen Asymptotiken der Markovkette.
Rotationssymmetrischer Fall
Wir betrachten eine Markovkette auf S = Rd , deren Übergangsverteilungen p(x, dy) für jedes x
rotationssymmetrisch mit Zentrum x sind.
n
P
Yi ein Random Walk, dessen Inkremente Yi unabhängig mit
Beispielsweise sei Xn = x +
i=1
identischer rotationssymmetrischer Verteilung sind. Dann ist jede Funktion u ∈ C 2 (Rd ) mit
∆u
=
d
X
∂ 2u
i=1
∂x2i
=
0
(also jede harmonische Funktion des Laplaceoperators) auch eine harmonische Funktion des
Übergangskerns p, falls u für alle x ∈ Rd bzgl. p(x, dy) integrierbar ist. Aus der Greenschen
Formel folgt nämlich die Mittelwerteigenschaft
u(x)
=
Mittelwert von u auf ∂Br (x)
für alle Sphären ∂Br (x) = {y ∈ Rd : |y − x| = r}, r > 0, siehe z.B. [Forster, Analysis III]. Da
p(x, dy) rotationssymmetrisch ist, erhalten wir durch Integration über den Radius:
Z
u(x) =
p(x, dy)u(y),
d.h. u ist in der Tat harmonisch bzgl. p.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN
383
Mittlere Aufenthaltszeiten und Greenfunktion
Die mittlere Aufenthaltszeit
u(x)
=
Ex
"T −1
X
IB (Xn )
n=0
#
∞
X
=
n=0
Px [Xn ∈ B , n < T ],
einer Markovkette mit Übergangskern p in einer Menge B ∈ S vor Austritt aus D löst das
Randwertproblem
u − pu = IA
u = 0
auf D
auf DC .
Wir betrachten nun den diskreten Fall: Sei S abzählbar, D ⊂ S, und sei
ByD
:=
T −1
X
n=0
y ∈ S,
I{y} (Xn ),
die Anzahl der Besuche der Markovkette in y vor Austritt aus D. Für die mittlere Anzahl der
Besuche in y bei Start in x gilt
Ex [ByD ]
=
Ex
"
∞
X
n=0
I{Xn ∈B , n<T }
#
=
∞
X
pD
n (x, y),
n=0
wobei
pD
n (x, y)
=
Px [Xn = y , n < T ]
die n-Schritt-Übergangswahrscheinlichkeit der Markovkette mit Absorption bei Austritt aus D
bezeichnet.
Definition. Die durch
D
G (x, y)
:=
∞
X
pD
n (x, y)
n=0
definierte Funktion GD : S × S → [0, ∞] heißt Greensche Funktion der Markovkette im Gebiet
D.
Korollar 11.12. (1). GD (•, y) ist die minimale Lösung des Randwertproblems
(I − p)GD (•, y) = I{y}
GD (•, y) = 0
Universität Bonn
auf D,
auf DC .
Wintersemester 2009/2010
384
KAPITEL 11. MARKOVKETTEN
(2). Für alle Funktionen f : S → [0, ∞] gilt
"T −1
#
X
f (Xn )
Ex
=
(GD f )(y).
n=0
Beweis. Die erste Aussage folgt unmittelbar aus Satz 11.10. Für eine Funktion f ≥ 0 gilt:
#
#
"T −1
"T −1
XX
X
X
f (y) · I{y} (Xn ) =
GD (x, y)f (y) = (GD f )(y).
f (Xn ) = Ex
Ex
n=0
n=0 y∈S
y∈S
Beispiel (Random Walk auf Zd ). Die Greensche Funktion des klassischen Random Walks auf
Zd ist die minimale nichtnegative Lösung des Randwertproblems
∆Zd GD (•, y) = −2dI{y}
GD (•, y) = 0
auf D,
auf DC .
Sie ist damit ein diskretes Analogon zur Greenschen Funktion der Analysis, die als Fundamentallösung der Poissongleichung definiert ist. Beispielsweise erhält man für den klassischen eindimensionalen Random Walk als Greensche Funktion eines Intervalls D = {a, a+, . . . , b} ⊂ Z :

(b − y)(x − a)

2
für a ≤ x < y
D
b−a
G (x, y) =
.

2 (y − a)(b − x) für y ≤ x ≤ b
b−a
GD (•, y)
a
y
b
Abbildung 11.6: Darstellung des Graphen der Funktion GD (•, y).
11.3
Rekurrenz und Transienz
Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf einer abzählbaren Menge S. Wir betrachten
eine zeithomogene Markovkette (Xn , Px ) mit Übergangsmatrix p im kanonischen Modell, d.h.
Ω = S {0,1,2,...} ,
Xn (ω) = ωn ,
Einführung in die Wahrscheinlichkeitstheorie
A = σ(Xn | n ≥ 0),
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
385
und Px ist die Verteilung der Markovkette bei Start in x. Für y ∈ S sei
By (ω)
=
∞
X
n=0
I{y} (Xn (ω))
die Anzahl der Besuche (Aufenthaltszeit) der Markovkette im Punkt y. Wir wollen untersuchen,
ob die Markovkette immer wieder zu ihrem Startpunkt zurückkehrt.
Definition. Ein Punkt x ∈ S heißt transient, falls Px [Bx = ∞] = 0 gilt, und rekurrent, falls
Px [Bx = ∞] = 1.
Sei nun
G(x, y)
=
Ex [By ]
=
∞
X
pn (x, y)
n=0
die mittlere Anzahl der Besuche der Markovkette im Punkt y bei Start in x. Offensichtlich ist x
transient, wenn
G(x, x)
=
Ex [Bx ]
<
∞
gilt. Wir werden in Korollar 11.15 zeigen, dass umgekehrt x rekurrent ist, wenn G(x, x) = ∞
gilt. Insbesondere ergibt sich ein 0-1-Gesetz: Jeder Punkt ist entweder transient oder rekurrent.
Allgemeiner werden wir sehen, dass bei irreduziblen Markovketten sogar entweder alle Punkte
transient oder alle Punkte rekurrent sind – wir nennen die Markovkette in diesem Fall transient
bzw. rekurrent.
Intuitiv können wir diese Dichotomie folgendermaßen erklären: Jedes Mal, wenn die Markovkette zum Startpunkt x zurückkehrt, startet sie aufgrund der Markoveigenschaft wieder neu in
diesem Punkt – unabhängig vom vorherigen Verlauf. Kehrt die Kette also mit Wahrscheinlichkeit
1 wieder zum Startpunkt zurück, dann kehrt sie auch mit Wahrscheinlichkeit 1 immer wieder,
also unendlich oft nach x zurück. Ist die Markovkette zudem irreduzibel, dann erreicht sie jeden
festen Punkt y auf jeder Exkursion mit einer konstanten strikt positiven Wahrscheinlichkeit –
trifft also insgesamt den Punkt y mit Wahrscheinlichkeit 1 unendlich oft.
Kehrt die Kette dagegen mit einer strikt positiven Wahrscheinlichkeit ε > 0 nicht zum Startpunkt
x zurück, dann wird sie auch bei jedem weiteren Erreichen von x mit derselben Wahrscheinlichkeit ε nicht wieder zurückkehren – unabhängig vom vorherigen Verlauf. Also wird sie mit
Wahrscheinlichkeit 1 schließlich nicht mehr nach x zurückkehren – sie durchläuft also jeden
Punkt nur endlich oft.
Um diese Dichotomie von Rekurrenz und Transienz rigoros zu beweisen, benötigen wir eine
Markoveigenschaft für die zufälligen (!) Rückkehrzeiten zum Startpunkt. Bevor wir eine entsprechende „starke Markoveigenschaft“ beweisen, betrachten wir schon mal eine Anwendung auf
mehrdimensionale Random Walks.
Universität Bonn
Wintersemester 2009/2010
386
KAPITEL 11. MARKOVKETTEN
Beispiel (Rekurrenz und Transienz von Random Walks in Zd ). Sei (Xn , Px ) der klassische
Random Walk auf Zd mit Übergangswahrscheinlichkeiten p(x, y) =
1
2d
falls |x − y| = 1,
p(x, y) = 0 sonst. Wir untersuchen Rekurrenz und Transienz in Abhängigkeit von der Dimension
d:
d = 1: Im eindimensionalen Fall erhalten wir für die Rückkehrwahrscheinlichkeiten zum Ausgangspunkt x mithilfe der Stirling-Approximation:
(2n)! −2n
2n
p (x, x) =
· 2−2n =
2
n
(n!)2
√
1
4πn (2n)2n −2n
·2
= √ .
∼
2n
2πn n
πn
2n
Also gilt G(x, x) =
∞
P
n=0
pn (x, x) = ∞, d.h. jeder Punkt x ∈ Z ist rekurrent.
(1)
(2)
(1)
d = 2: Beim klassischen Random Walk Xn = (Xn , Xn ) auf Z2 sind die Komponenten Xn
(2)
und Xn nicht unabhängig.
1/4
1/4
1/4
1/4
Abbildung 11.7: Übergangswahrscheinlichkeiten des klassischen Random Walks.
Durch eine 45◦ Drehung des Koordinatensystems, können wir den Prozess aber in einen
zweidimensionalen Random Walk
Yn = (Xn(1) + Xn(2) , Xn(1) − Xn(2) )
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
387
1/4
1/4
1/4
1/4
Abbildung 11.8: Übergangswahrscheinlichkeiten des um 45◦ gedrehten Random Walks.
(1)
überführen, dessen Komponenten Yn
(2)
und Yn
unabhängige eindimensionale Random
Walks sind. Offensichtlich gilt:
Xn rekurrent ⇐⇒ Yn transient.
Die Übergangswahrscheinlichkeiten für Yn sind
(2)
(1)
p2n (x, x) = Px [Y2n = x1 , Y2n = x2 ] =
2
1
2n
−2n
=
·2
∼
.
n
πn
(2)
(1)
Px1 [Y2n = x1 ] · Px2 [Y2n = x2 ]
Also gilt erneut G(x, x) = ∞, d.h. jedes x ∈ Z2 ist rekurrent.
d = 3: Betrachten wir einen dreidimensionalen Random Walk
Yn
=
(Xn(1) , Xn(2) , Xn(3) ),
(i)
dessen Komponenten Xn unabhängige klassische Random Walks auf Z1 sind, dann gilt
entsprechend
2n
p (x, x)
=
und damit
G(x, x)
=
3
2n
−2n
·2
n
∞
X
n=0
Universität Bonn
p2n (x, x)
∼
1
,
(πn)3/2
<
∞
Wintersemester 2009/2010
388
KAPITEL 11. MARKOVKETTEN
Der Prozess ist also transient. Auch der klassische Random Walk auf Z3 ist transient – der
Beweis erfordert allerdings etwas mehr Kombinatorik, da sich der Prozess in Dimension
3 nicht durch eine Drehung in einen Prozess mit unabhängigen Komponenten überführen
lässt. Die Details werden in einer Übungsaufgabe ausgeführt. Analog folgt Transienz in
höheren Dimensionen. Zwischen Dimension 2 und 3 gibt es also einen Übergang von rekurrentem zu transientem Verhalten. Anschaulich steht in Dimension d > 2 soviel Raum
zur Verfügung, dass der Random Walk der Startpunkt schließlich nicht mehr trifft.
Starke Markoveigenschaft
Wir beweisen nun die angekündigte Erweiterung der Markoveigenschaft auf zufällige Zeiten
(Stoppzeiten). Die Information, die über einen stochastischen Prozess (Xn )n≥0 bis zur Zeit n
vorliegt, wird beschrieben durch die σ-Algebra
Fn
=
σ(X0 , X1 , . . . , Xn ).
Sei T : Ω → {0, 1, 2, . . .} ∪ {∞} eine nichtnegative ganzzahlige Zufallsvariable. T heißt eine
Stoppzeit (bzgl. der σ-Algebren Fn ), falls
{T = n} ∈ Fn
für alle n ≥ 0 gilt.
Nach dem Faktorisierungslemma ist T genau dann eine Stoppzeit bzgl. (Fn )n , wenn I{T =n} für
jedes n eine Funktion von X0 , . . . , Xn ist. Anschaulich bedeutet dies, dass aufgrund der Information, die bis zur Zeit n vorliegt, entscheidbar ist, ob T den Wert n annimmt.
Beispiel (Trefferzeiten). (1). Die erste Treffer- bzw. Rückkehrzeit
TB
=
min{n ≥ 1 | Xn ∈ B}
(min ∅ := ∞)
einer messbaren Teilmenge B des Zustandsraumes S ist eine Stoppzeit, denn es gilt
{TB = n}
=
{X1 ∈ B C , . . . , Xn−1 ∈ B C , Xn ∈ B}
∈
Fn
für alle n ≥ 0.
Hat man beispielsweise beschlossen, eine Aktie zu verkaufen, sobald ihr Kurs Xn den Wert
λ überschreitet, dann ist der Verkaufszeitpunkt gleich T(λ,∞) , also eine Stoppzeit.
(2). Die letzte Besuchszeit
LB
:=
sup{n ≥ 0 | Xn ∈ B}
(sup ∅ := 0)
ist dagegen in der Regel keine Stoppzeit (Übung). Um zu entscheiden, ob LB = n gilt,
benötigt man nämlich Informationen über die zukünftige Entwicklung des Prozesses.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
389
Die Information, die bis zu einer Stoppzeit vorliegt, wird beschrieben durch die σ-Algebra
FT
=
{A ∈ A | A ∩ {T = n} ∈ Fn
für alle n ≥ 0 } ,
der „bis zur Zeit T beobachtbaren“ Ereignisse. Durch maßtheoretische Induktion zeigt man,
dass eine Abbildung Y : Ω → R genau dann bzgl. FT messbar ist, wenn Y · I{T =n} für jedes
n ≥ 0 Fn -messbar, also eine Funktion von X0 , . . . , Xn ist. Insbesondere ist die Position XT des
Prozesses (Xn ) zur Stoppzeit T eine FT -messbare Zufallsvariable, denn für n ≥ 0 ist
XT · I{T =n}
=
Xn · I{T =n}
Fn -messbar.
Wir setzen nun wieder voraus, dass (Xn , Px ) eine zeithomogene Markovkette im kanonischen
Modell ist.
Satz 11.13 (Starke Markoveigenschaft). Ist T : Ω → {0, 1, 2, . . .} ∪ {∞} eine Stoppzeit bzgl.
der σ-Algebren Fn = σ(X0 , X1 , . . . , Xn ), dann gilt
Eν [F (XT , XT +1 , . . .) | FT ]
=
EXT [F (X0 , X1 , . . .)]
Pν -fast sicher auf {T < ∞}
für alle Wahrscheinlichkeitsverteilungen ν auf (S, S) und alle messbaren Funktionen F : S {0,1,2,...} →
R+ , wobei F (XT , XT +1 , . . .) auf {T = ∞} willkürlich definiert ist.
Beweis. Sei θ(x0 , x1 , . . .) = (x1 , x2 , . . .) der Shiftoperator auf S {0,1,2,...} . Wir müssen zeigen,
dass
Eν [F ◦ θT | FT ] · I{T <∞}
=
EXT [F ] · I{T <∞}
Pν -fast sicher
(11.3.1)
gilt, wobei wir die rechte Seite für T = ∞ gleich 0 setzen. Für A ∈ FT und n ≥ 0 gilt A ∩ {T =
n} ∈ Fn , also nach der Markoveigenschaft:
Eν [F ◦ θT ; A ∩ {T = n}] = Eν [F ◦ θn ; A ∩ {T = n}]
= Eν [EXn [F ] ; A ∩ {T = n}]
= Eν [EXT [F ] ; A ∩ {T = n}]
Durch Summieren über n erhalten wir:
Eν [F ◦ θT ; A ∩ {T < ∞}]
=
Eν [EXT [F ] ; A ∩ {T < ∞}] .
Also stimmen die Integrale beider Seiten von (11.3.1) über eine beliebige Menge A ∈ FT über-
ein. Da beide Seiten in (11.3.1) FT -messbar sind, folgt, dass diese Pν -fast sicher übereinstimmen.
Universität Bonn
Wintersemester 2009/2010
390
KAPITEL 11. MARKOVKETTEN
Anschaulich startet eine zeithomogene Markovkette also auch zu einer Stoppzeit T neu im Zustand XT , d.h. der weitere Verlauf ist unabhängig vom vorherigen Verlauf gegeben den gegenwärtigen Zustand XT .
Rekurrenz und Transienz von einzelnen Zuständen
Mithilfe der starken Markoveigenschaft können wir die Verteilung der Aufenthaltszeit By der
Markovkette in einem Punkt y ∈ S aus den Trefferwahrscheinlichkeiten
fx,y
:=
Px [Ty < ∞]
berechnen. Hierbei bezeichnen wir mit
Ty
min{n ≥ 1 : Xn = y}
=
die erste Trefferzeit des Zustandes y, bzw. die erste Rückkehrzeit nach y, falls die Markovkette
in y startet.
Satz 11.14. Für alle x, y ∈ S gilt
Px [By ≥ n]
=

fx,y · f n−1
y,y
f n−1
y,y
falls x 6= y
.
falls x = y
Insbesondere ist jedes y ∈ S entweder rekurrent oder transient, und es gilt:
y rekurrent
⇐⇒
fy,y = 1,
y transient
⇐⇒
fy,y < 1.
Beweis. Sei T (0) := 0, und sei
T (n)
:=
T (n−1) + Ty ◦ θT
(n−1)
die n-te Besuchszeit (bei Start außerhalb von y) bzw. Rückkehrzeit (bei Start in y) des Zustands
y.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
391
y
T (1)
T (2)
T (3) T (4) T (5)
Es folgt
Px [T (n) < ∞] = Px [T (n−1) < ∞ und Ty ◦ θT
= Ex [Px [Ty ◦ θT
(n−1)
(n−1)
< ∞]
< ∞ | FT (n−1) ] ; T (n−1) < ∞]
= Ex [PXT (n−1) [Ty < ∞] ; T (n−1) < ∞]
= Py [Ty < ∞] · Px [T (n−1) < ∞],
also durch Induktion nach n:
Px [T (n) < ∞]
=
Px [Ty < ∞] · Py [Ty < ∞]n−1
=
n−1
fx,y · fy,y
.
Die Aussage folgt wegen
Px [By ≥ n]

Px [T (n) < ∞]
P [T (n−1) < ∞]
=
x
falls x 6= y,
falls x = y.
Bemerkung. Die Wahrscheinlichkeiten fx,y (und damit die Verteilungen der Aufenthaltszeiten)
kann man im Prinzip durch Lösen eines Dirichletproblems berechnen: Nach Korollar 11.11 bilden die Trefferwahrscheinlichkeiten
h(x)
=
Px [Tey < ∞],
die minimale nichtnegative Lösung von
ph
=
Tey := min{n ≥ 0 | Xn = y},
auf S \ {y};
h
h(y) = 1.
Wegen Tey = Ty Px -fast sicher für alle x 6= y folgt fx,y = h(x) für x 6= y, und
X
fy,y =
p(y, x)fx,y = (ph)(y).
x∈S
Universität Bonn
Wintersemester 2009/2010
392
KAPITEL 11. MARKOVKETTEN
Beispiel (Kartenhaus, Maschinenerneuerung). Wir betrachten eine Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangswahrscheinlichkeiten
p(x, x + 1)
1 − ̺x ,
̺x
=
p(x, 0)
=
̺x ∈ (0, 1).
̺x ,
1 − ̺x
0
1
···
2
x
x+1
Abbildung 11.9: Übergangswahrscheinlichkeiten der durch p gegebenen Markovkette.
Hier gilt
P0 [T0 > n]
n−1
Y
=
x=0
also:
0 rekurrent
⇐⇒ P0 [T0 = ∞] =
∞
Y
(1 − ̺x ),
(1 − ̺x ) = 0 ⇐⇒
x=0
∞
X
x=0
̺x = ∞
Aus Satz 11.14 folgt unmittelbar die schon oben erwähnte Charakterisierung rekurrenter Zustände über die Greensche Funktion:
Korollar 11.15 (Rekurrenzkriterium). Für alle x ∈ S gilt
1
1
G(x, x) =
falls Px [Tx = ∞] > 0,
=
1 − fx,x
Px [Tx = ∞]
bzw. G(x, x) = ∞ falls Px [Tx = ∞] = 0. Insbesondere ist x genau dann rekurrent, wenn G(x, x)
unendlich ist.
Beweis. Für x ∈ S gilt nach Satz 11.14:
G(x, x) = Ex [Bx ]
=
∞
X
n−1
fx,x
n=1
Einführung in die Wahrscheinlichkeitstheorie
=
=
∞
X
Px [Bx ≥ n]
n=1
∞
X
n
fx,x
.
n=0
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
393
Leider ist das Kriterium zwar für die Theorie wichtig, aber praktisch nur selten einsetzbar. Leichter verifizierbare hinreichende Bedingungen für Rekurrenz und Transienz basieren auf stochastischen Lyapunovfunktionen und dem Martingalkonvergenzsatz, s. [Stochastische Analysis].
Kommunikationsklassen und globale Rekurrenz
Wir wollen nun untersuchen, wie die Rekurrenz verschiedener Zustände x, y ∈ S miteinander
zusammenhängt.
Definition. Der Zustand y heißt erreichbar von x für die Markovkette (Xn , Px ), falls
Px [Ty < ∞] > 0
gilt.
Bemerkung. (1). Ein Zustand y ist genau dann erreichbar von x, wenn ein n ∈ N mit pn (x, y) >
0 existiert. Insbesondere gilt für y 6= x:
⇐⇒
y ist erreichbar von x
G(x, y) > 0.
(2). Ist y erreichbar von x und z erreichbar von y, dann ist z erreichbar von x.
(3). Ist die Übergangsmatrix irreduzibel, dann ist jeder Zustand von jedem anderen Zustand aus
erreichbar.
Wir wollen zeigen, dass mit einem Zustand x ∈ S auch jeder von x aus erreichbare Zustand y
rekurrent ist. Dazu bemerken wir zunächst:
Lemma 11.16. Für x, y ∈ S mit y 6= x gilt
G(x, y)
=
Px [Ty < ∞] · G(y, y).
Beweis. Für y 6= x gilt Px -fast sicher X0 6= y, also
By
=
B y ◦ θ Ty
auf {Ty < ∞}.
Mit der starken Markoveigenschaft folgt
Ex [By ] = Ex [By ; Ty < ∞]
=
Ex [By ◦ θTy ; Ty < ∞]
= Ey [By ] · Px [Ty < ∞].
Universität Bonn
Wintersemester 2009/2010
394
KAPITEL 11. MARKOVKETTEN
Satz 11.17. Ist x rekurrent, und y von x aus erreichbar, dann ist auch x von y aus erreichbar, y
ist rekurrent, und es gilt
By = ∞
Px -fast sicher
Bx = ∞
und
Py -fast sicher.
Insbesondere gilt also
G(x, y)
Beweis.
=
G(y, x)
=
G(y, y)
∞.
=
(1). y ist rekurrent: Da y von x aus erreichbar ist, existiert m ≥ 0 mit pm (x, y) > 0.
Nach dem Lemma folgt:
G(y, y) ≥ G(x, y)
≥
∞
X
≥
∞
X
pn+m (x, y)
n=0
pn (x, x)pm (x, y)
n=0
= G(x, x) · pm (x, y)
| {z } | {z }
=∞
=
∞.
>0
(2). Wir zeigen Py [Bx = ∞] = 1: Da y von x aus erreichbar und x rekurrent ist, gilt nach der
starken Markoveigenschaft
0
<
Px [Ty < ∞]
x rek.
=
SME
=
Px [Ty < ∞, Tx ◦ θTy < ∞]
Px [Ty < ∞] · Py [Tx < ∞],
also fy,x = Py [Tx < ∞] = 1. Da x rekurrent ist, gilt zudem fx,x = 1, also nach Satz 11.14
Py [Bx = ∞]
=
n−1
lim (fy,x · fx,x
)
n→∞
=
1.
Insbesondere ist x von y aus erreichbar.
(3). Analog erhalten wir Px [By = ∞] = 1 durch Vertauschen der Rolle von x und y.
Der Satz zeigt, dass für eine Markovkette mit irreduzibler Übergangsmatrix und einem rekurrenten Zustand alle Zustände rekurrent sind, und jeder Zustand bei beliebiger Startverteilung mit
Wahrscheinlichkeit 1 unendlich oft durchlaufen wird:
Korollar 11.18 (Dichotomie von Rekurrenz und Transienz). Für eine zeithomogene Markovkette mit irreduzibler Übergangsmatrix gilt entweder
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ
395
(1). Alle x ∈ S sind rekurrent, und Px [By = ∞] = 1 für alle x, y ∈ S, oder
(2). Alle x ∈ S sind transient, und Ex [By ] < ∞ für alle x, y ∈ S.
Ist S endlich, dann kann nur der erste Fall eintreten.
Beweis. Existiert ein rekurrenter Zustand, dann sind nach Satz 11.17 alle Zustände rekurrent,
und Px [By = ∞] = 1 für alle x, y ∈ S. Andernfalls sind nach Satz 11.14 alle x ∈ S transient,
und nach Korollar 11.15 gilt G(x, x) < ∞. Nach Lemma 11.16 folgt dann Ex [By ] < ∞ für alle
x, y ∈ S. Ist S endlich, dann kann der zweite Fall wegen
X
Ex [By ]
y∈S
=
Ex
"
X
By
y∈S
#
=
∞
nicht eintreten.
Was können wir aussagen, wenn die Übergangsmatrix nicht irreduzibel ist?
Allgemein ist die Relation
x
y
„y ist von x aus erreichbar“
eine Äquivalenzrelation auf der Menge Srek der rekurrenten Zustände in S. Die zugehörigen
Äquivalenzklassen Si , i ∈ I, heißen Rekurrenzklassen. Wir erhalten also eine disjunkte Zerlegung
S = Strans ∪˙
[
˙
Si
i∈I
des Zustandsraums in die Menge Strans der transienten Zustände, und die verschiedenen Rekurrenzklassen
Universität Bonn
Wintersemester 2009/2010
396
KAPITEL 11. MARKOVKETTEN
Strans
Si1
Si2
Abbildung 11.10: Zerlegung der Menge S in die transienten Zustände und die einzelnen Rekurrenzklassen
Gelangt die Markovkette in eine Rekurrenzklasse, dann bleibt sie dort mit Wahrscheinlichkeit 1
und durchläuft alle Zustände der Rekurrenzklasse unendlich oft. Startet die Markovkette in einem
transienten Zustand, dann läuft sie entweder in eine Rekurrenzklasse, oder sie verbleibt im transienten Bereich, verlässt aber jede endliche Teilmenge von Strans schließlich mit Wahrscheinlichkeit
1.
Beispiel. (1). Ehrenfestmodell: Die Markovkette aus dem Ehrenfestmodell (s. Abschnitt 2.2)
ist rekurrent, da der Zustandsraum S = {0, 1, . . . , N } endlich, und die Übergangsmatrix
p(k, k − 1) = k/N
p(k, k + 1) = (N − k)/N
irreduzibel ist.
k Moleküle
N − k Moleküle
Jeder Zustand wird also unendlich oft durchlaufen, was der thermodynamischen Irreversibilität zunächst zu widersprechen scheint (Einwand von Zermelo, vgl. die Bemerkung
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE
397
unter Satz 7.17). Tatsächlich kann man zeigen, dass die mittlere Zeit E0 [TN/2 ] für den
Übergang vom geordneten Zustand k = 0 in den ungeordneten Zustand k = N/2 von
der Größenordnung N log N ist, die mittlere Zeit EN/2 [T0 ] für den umgekehrten Übergang
dagegen von der Größenordnung
1 2N
2 .
2N
Da N zum Beispiel gleich 1023 ist, ist die Rekur-
renz jenseits des ungeordneten Zustandes de facto nicht beobachtbar – im makroskopischen
Skalierungslimes N → ∞ ergibt sich bei geeigneter Zeitreskalierung eine irreversible Dynamik.
(2). Kartenhaus/Maschinenerneuerung: Im Fall
∞
P
x=0
̺x = ∞ sind alle Zustände der Markovket-
te aus dem Beispiel von oben rekurrent, da 0 rekurrent und die Übergangsmatrix irreduzibel
ist. Andernfalls sind alle Zustände transient.
(3). Galton-Watson-Prozess: Für den Galton-Watson-Verzweigungsprozess mit Nachkommensverteilung ν ist 0 ein absorbierender Zustand, d.h. kein anderer Zustand ist von 0 aus erreichbar. Insbesondere ist {0} eine Rekurrenzklasse. Gilt ν(0) 6= 0, dann ist umgekehrt 0
von jedem Zustand x ∈ N aus erreichbar, also sind alle x 6= 0 transient. Es folgt dann:
Px [Zn = 0 schließlich oder Zn → ∞]
11.4
=
1
für alle x ≥ 0.
Stationäre stochastische Prozesse
In vielen Fällen nähert sich die Verteilung eines zeitlich verschobenen stochastischen Prozesses
(Yn , Yn+1 , . . .) mit Zustandsraum (S, S) für n → ∞ einer Grenzverteilung P auf dem Produk-
traum Ω = S {0,1,2,...} mit Produkt-σ-Algebra A an („asymptotische Stationarität“). Die Grenzver-
teilung P sollte dann selbst invariant unter Verschiebungen sein, d.h. für den Koordinatenprozess
Xn (ω) = ωn sollte gelten:
(Xn , Xn+1 , . . .) ∼ (X0 , X1 , . . .)
unter P für alle n ≥ 0.
(11.4.1)
Wir wollen stochastische Prozesse mit der Eigenschaft (11.4.1) nun genauer untersuchen.
Stationarität und Reversibilität
Definition. (1). Eine Wahrscheinlichkeitsverteilung P auf (Ω, A) bzw. ein stochastischer Prozess ((Xn ), P ) heißt stationär, falls (11.4.1) gilt.
Universität Bonn
Wintersemester 2009/2010
398
KAPITEL 11. MARKOVKETTEN
(2). Der Prozess ((Xn ), P ) heißt reversibel, falls die endlichdimensionalen Verteilungen invariant unter Zeitumkehr sind, d.h. falls
(X0 , X1 , . . . , Xn )
∼
(Xn , Xn−1 , . . . , X0 )
unter P für alle n ≥ 0.
(11.4.2)
Bemerkung. Eine Wahrscheinlichkeitsverteilung P auf (Ω, A) ist genau dann stationär, wenn
die Shiftabbildung θ : Ω → Ω eine maßerhaltende Abbildung auf dem Wahrscheinlichkeitsraum
(Ω, A, P ) ist, d.h. wenn P = P ◦ θ−1 gilt.
Beispiel. (1). IID Folgen: Eine Folge (Xn )n≥0 unabhängiger, identisch verteilter Zufallsvariablen ist ein stationärer und reversibler stochastischer Prozess.
(2). Gaußprozesse: Ein Gaußprozess ist ein reellwertiger stochastischer Prozess (Xn ), dessen Randverteilungen Normalverteilungen sind. Beispielsweise ist ein AR(p)-Prozess ein
Gaußprozess, wenn die Startwerte normalverteilt sind. Gaußprozesse sind eindeutig durch
die Mittelwerte E[Xn ] und die Kovarianzen Cov[Xn , Xm ] festgelegt. Stationarität gilt genau dann, wenn E[Xn ] = α nicht von n abhängt, und Cov[Xn , Xm ] = cn−m nur von der
Differenz n − m abhängt.
(3). Deterministische Rotationen: Ist X0 gleichverteilt auf dem Einheitskreis S 1 , und Xn+1 =
eiφ · Xn mit φ ∈ [0, 2π), dann ist (Xn )n≥0 stets ein stationärer Prozess. Reversibilität gilt
für φ 6= 0 nicht.
Satz 11.19. Ein reversibler Prozess ist stationär.
Beweis. Aus der Reversibilität folgt durch Zeitumkehr auf {0, 1, . . . , n + 1} und {0, 1, . . . , n}:
P ◦ (X1 , X2 , . . . , Xn+1 )−1
=
P ◦ (Xn , Xn−1 , . . . , X0 )−1
=
P ◦ (X0 , . . . , Xn )−1
für alle n ≥ 0. Also gilt
P [(X1 , X2 , . . .) ∈ A]
=
P [(X0 , X1 , . . .) ∈ A]
für alle Zylindermengen A ∈ A, und damit für alle A ∈ A.
Stationarität bzw. Reversibilität zeithomogener Markovketten ist durch die Startverteilung und
den Übergangskern charakterisierbar:
Satz 11.20 (Stationarität und Reversibilität von Markovketten). Für eine zeithomogene Markovkette (Xn , Pµ ) im kanonischen Modell gilt:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE
399
(1). Pµ ◦ (Xn , Xn+1 , . . .)−1 = Pµpn für alle n ≥ 0.
(2). Pµ ist genau dann stationär, wenn µ ein Gleichgewicht des Übergangskerns p ist.
(3). Pµ ist genau dann reversibel, wenn µ die Detailed-Balance-Bedingung
µ(dx)p(x, dy)
=
µ(dy)p(y, dx)
(11.4.3)
erfüllt, d.h. wenn die Wahrscheinlichkeitsverteilung µ ⊗ p auf S × S invariant unter der
Abbildung (x, y) 7→ (y, x) ist.
Beweis.
(1). Für A ∈ A und n ≥ 0 gilt nach der Markoveigenschaft
Pµ [(Xn , Xn+1 , . . .) ∈ A] = Eµ [IA ◦ θn ]
= Eµ [PXn [A]]
Z
=
Px [A](µpn )(dx)
= Pµpn [A].
(2). folgt unmittelbar aus (1).
(3). Aus der Reversibilität von (Xn , Pµ ) folgt, dass
µ⊗p
=
Pµ ◦ (X0 , X1 )−1
invariant unter Koordinatentausch ist.
Umgekehrt folgt aus der Detailed-Balance-Bedingung durch Induktion
µ(dx0 )p(x0 , dx1 ) · · · p(xn−1 , dxn ) = µ(dx1 )p(x1 , dx2 ) · · · p(xn−1 , dxn )p(x1 , dx0 )
= ...
=
µ(dxn )p(xn , dxn−1 ) · . . . · p(x1 , dx0 )
für alle n ≥ 0; also
Pµ ◦ (X0 , . . . , Xn )−1
=
Pµ ◦ (Xn , . . . , X0 )−1 .
Rekurrenz von stationären Prozessen
Stationäre stochastische Prozesse haben starke Rekurrenzeigenschaften. Die folgende Aussage
zeigt unter Anderem, dass die mittlere Rückkehrzeit in eine Menge B endlichen Erwartungswert
hat, wenn der Prozess mit positiver Wahrscheinlichkeit in B startet:
Universität Bonn
Wintersemester 2009/2010
400
KAPITEL 11. MARKOVKETTEN
Satz 11.21 (Wiederkehrsatz von Kac). Sei (Xn , P ) ein stationärer stochastischer Prozess mit
Zustandsraum (S, S), und sei
TB
=
min{n ≥ 1 : Xn ∈ B}
die erste Eintritts- bzw. Rückkehrzeit in eine Menge B ∈ S. Dann gilt
E[TB ; X0 ∈ B]
=
P [TB < ∞],
(11.4.4)
also mit anderen Worten
E[TB | X0 ∈ B]
=
P [TB < ∞]
µ[B]
P [TB < ∞]
=
falls µ[B] > 0,
0
und
falls µ[B] = 0,
(11.4.5)
(11.4.6)
wobei µ = P ◦ X0−1 die Startverteilung des Prozesses ist.
Bemerkung. (1). Nach (11.4.5) ist die mittlere Rückkehrzeit in die Menge B der Kehrwert des
Quotienten
P [X0 ∈B]
,
P [TB <∞]
also des Anteils von {X0 ∈ B} an allen Pfaden, die B treffen.
(2). Allgemeiner gilt für jede messbare Teilmenge A ∈ A des Pfadraumes:
E[τA ; A]
=
P [τA < ∞],
wobei τA = min{n ≥ 1 : (Xn , Xn+1 , . . .) ∈ A} die erste Zeit ist, zu der der verschobene
Pfad in A liegt.
Beweis. Für n ∈ N gilt wegen der Stationarität des Prozesses:
E[min(TB , n) ; X0 ∈ B] =
=
=
n−1
X
k=0
n−1
X
k=0
n−1
X
k=0
P [TB > k und X0 ∈ B]
P [X0 ∈ B, X1 6∈ B, . . . , Xk 6∈ B]
P [Xn−k ∈ B, Xn−k+1 6∈ B, . . . , Xn 6∈ B]
= P [TB ≤ n].
Hierbei haben wir verwendet, dass TB ≤ n genau dann gilt, wenn zu einer der Zeiten n −
k, k = 0, 1, . . . , n − 1, ein letzter Besuch in B vor der Zeit n stattfindet. Die Aussage folgt für
n → ∞.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE
401
Nach dem Wiederkehrsatz von Kac kehrt der Prozess (Xn ) auf der Menge {X0 ∈ B} P -fast
sicher nach B zurück. Durch Anwenden dieser Aussage auf die Teilfolgen (Xnk )n≥0 , k ∈ N, die
alle wieder stationäre Prozesse unter P sind, erhalten wir sogar:
Korollar 11.22. Jeder stationäre Prozess (Xn , P ) ist rekurrent in folgendem Sinne: Für alle
B ∈ S gilt Xn ∈ B unendlich oft P -fast sicher auf {X0 ∈ B}.
Bemerkung (Wiederkehrsatz von Poincaré). Allgemeiner gilt für A ∈ A:
(Xn (ω), Xn+1 (ω), . . .) ∈ A
unendlich oft für P -fast alle ω ∈ A.
Anwendung auf Markovketten
Wir betrachten nun eine zeithomogene Markovkette (Xn , Px ) mit abzählbarem Zustandsraum S
im kanonischen Modell.
Definition. Ein Zustand x ∈ S heißt positiv rekurrent, falls die mittlere Rückkehrzeit Ex [Tx ]
endlich ist.
Aus dem Wiederkehrsatz von Kac folgt unmittelbar:
Korollar 11.23 (Gleichgewichte und mittlere Rückkehrzeiten). (1). Ist µ ein Gleichgewicht
der Markovkette, dann gilt
µ(x) · Ex [Tx ]
=
Pµ [Tx < ∞]
für alle x ∈ S.
Insbesondere sind alle Zustände x mit µ(x) > 0 positiv rekurrent.
(2). Ist zudem die Übergangsmatrix irreduzibel, dann sind sogar alle x ∈ S positiv rekurrent
mit
1
.
Ex [Tx ]
Insbesondere ist das Gleichgewicht in diesem Fall eindeutig.
µ(x)
Beweis.
=
(11.4.7)
(1). Da die Markovkette mit Startverteilung µ stationär ist, gilt nach dem Satz von
Kac:
µ(x) · Ex [Tx ]
=
Eµ [Tx ; X0 = x]
=
Pµ [Tx < ∞]
für alle x ∈ S.
(2). Bei Irreduzibilität folgt globale Rekurrenz, also Py [Tx < ∞] = 1 für alle x, y ∈ S, und
damit µ(x) · Ex [Tx ] = 1 für alle x.
Universität Bonn
Wintersemester 2009/2010
402
KAPITEL 11. MARKOVKETTEN
Beispiel (Eindimensionale Markovkette, Birth-Death-Process). Wir betrachten eine zeithomogene Markovkette auf S = {0, 1, 2, . . .} mit Übergangswahrscheinlichkeiten
p(x, x + 1) = px ,
p(x, x − 1) = qx ,
p(x, x) = rx ,
px , qx , rx > 0 mit px + qx + rx = 1, q0 = 0, und px , qx > 0 für alle x ≥ 1.
rx
qx
0
1
px
x
x−1
2
x+1
Offensichtlich gilt Irreduzibilität. Das Gleichungssystem für eine Gleichgewichtsverteilung µ
lautet
µ(0) · r0 + µ(1) · q1 = µ(0),
µ(x − 1) · px−1 + µ(x) · rx + µ(x + 1) · qx+1 = µ(x)
für x ∈ N.
Da die Lösung sich rekursiv aus µ(0) berechnen lässt, ist der Lösungsvektorraum des linearen
Gleichungssystems eindimensional. Aus der hinreichenden Detailed-Balance-Bedingung
µ(x − 1) · px−1
µ(x) · qx
=
für alle x ∈ N
(11.4.8)
erhalten wir daher in diesem Fall bereits die allgemeine Lösung
µ(x)
=
Sei
Z=
µ(0) ·
p0 · p1 · . . . · px−1
.
q1 · q2 · . . . · qx
∞
X
p0 · p1 · . . . · px−1
x=0
q1 · q2 · . . . · qx
(11.4.9)
.
Gilt Z < ∞, dann ist durch (11.4.9) mit µ(0) = 1/Z das eindeutige Gleichgewicht der Markov-
kette gegeben, und für die mittleren Rückkehrzeiten folgt
Ex [Tx ]
=
1/µ(x)
für alle x ≥ 0.
Die Bedingung Z < ∞ bedeutet, dass die Wachstumswahrscheinlichkeiten p(x − 1, x) nicht zu
groß im Vergleich zu den Abfallwahrscheinlichkeiten p(x, x − 1) sind. Gilt dagegen Z = ∞,
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.5. ERGODIZITÄT
403
dann existiert keine Gleichgewichtsverteilung. Wir werden in 11.25 sehen, dass in diesem Fall
auch keiner der Zustände x ∈ S positiv rekurrent ist. Durch Lösen des Dirichletproblems kann
man zudem zeigen, dass die Markovkette genau dann rekurrent ist, wenn
∞
X
q1 q2 · · · qx
p p · · · px
x=0 1 2
=
∞
gilt (s. Übung).
11.5
Ergodizität
In diesem Abschnitt werden wir ein Gesetz der großen Zahlen für positiv rekurrente Markovketten beweisen. Dabei verwenden wir, dass die Verläufe der Markovkette während verschiedener
Exkursionen von einem Punkt aus unabhängig voneinander und identisch verteilt sind. Langzeitmittelwerte verhalten sich daher asymptotisch wie der Erwartungswert des zeitlichen Mittelwerts
über eine Exkursion. Als Vorbereitung überlegen wir uns, dass der Anteil der mittleren Exkursionszeit, den die Markovkette in bestimmten Bereichen verbringt, eine Gleichgewichtsverteilung
definiert.
Wie zuvor sei (Xn , Px ) eine zeithomogene Markovkette mit abzählbarem Zustandsraum S und
Übergangsmatrix p(x, y) im kanonischen Modell. Ferner sei
Tx
=
min{n ≥ 1 : Xn = x}
die erste Treffer- bzw. Rückkehrzeit zum Punkt x.
Positive Rekurrenz und Gleichgewichte
Für einen Zustand x ∈ S sei
µx [B]
:=
Ex
"T −1
x
X
IB (Xn )
n=0
#
=
∞
X
n=0
P [Xn ∈ B ; n < Tx ]
(11.5.1)
die mittlere Anzahl der Besuche in einer Menge B ⊂ S während einer Exkursion von x. Ein
positives Maß ν auf S heißt invariant bzgl. der Übergangsmatrix p, falls
X
x∈S
ν(x)p(x, y)
=
ν(y)
für alle y ∈ S
gilt. Ein Gleichgewicht ist also eine invariante Wahrscheinlichkeitsverteilung.
Universität Bonn
Wintersemester 2009/2010
404
KAPITEL 11. MARKOVKETTEN
Satz 11.24. (1). Ist x ∈ S ein rekurrenter Zustand der Markovkette, dann ist µx ein invariantes
Maß mit Gesamtmasse µx [S] = Ex [Tx ].
(2). Ist x positiv rekurrent, dann ist das normierte Maß
µx [B]
mittlere Aufenthaltszeit in B
µx [B] =
=
Ex [Tx ]
mittlere Exkursionsdauer
ein Gleichgewicht der Markovkette.
Bei positiver Rekurrenz existiert also stets ein Gleichgewicht. Umgekehrt haben wir in Korollar 11.22 bereits gezeigt, dass Gleichgewichtsverteilungen nur positiv rekurrenten Zuständen eine strikt positive Gesamtmasse zuordnen. Ist die Markovkette zudem irreduzibel, dann ist die
Gleichgewichtsverteilung nach Korollar 11.22 eindeutig, d.h. die Verteilung µx hängt nicht vom
Startpunkt x ab.
Beweis.
(1). Ist x rekurrent, dann gilt Px -fast sicher Tx < ∞, und damit XTx = x = X0 . Für
B ⊆ S folgt
TX
x −1
IB (Xn )
=
n=0
TX
x −1
IB (Xn+1 ).
n=0
Mit der Markoveigenschaft erhalten wir damit
#
"T −1
x
X
IB (Xn+1 )
µx [B] = Ex
n=0
=
∞
X
n=0
ME
=
∞
X
n=0
=
Px [Xn+1 ∈ B ; n < Tx ]
Ex [PXn [X1 ∈ B ]; n < Tx ]
∞
XX
z∈S n=0
=
X
z∈S
Px [Xn = z ; n < Tx ] · p(z, B)
µx [{z}] · p(z, B)
d.h. µx ist ein invariantes Maß. Die Gesamtmasse ist
#
"T −1
x
X
IS (Xn )
µx [S] = Ex
=
(µx p)[B],
=
Ex [Tx ].
n=0
(2). Ist x positiv rekurrent, dann hat µx endliche Gesamtmasse, also erhält man durch Normieren ein Gleichgewicht.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.5. ERGODIZITÄT
405
Ein Gesetz der großen Zahlen für Markovketten
Wir können nun das Hauptresultat dieses Abschnitts formulieren. Für n ∈ N und y ∈ S sei
By (n)
:=
n−1
X
i=0
I{Xi =y}
die Anzahl der Besuche der Markovkette im Zustand y vor der Zeit n.
Satz 11.25 (Ergodensatz für Markovketten, 1. Version). Sei (Xn , P ) eine irreduzible homogene Markovkette mit abzählbarem Zustandsraum S.
(1). Ist die Markovkette rekurrent, dann gilt
n−1
1 X
f (Xi )
lim
n→∞ By (n)
i=0
=
Ey
"Ty −1
X
f (Xi )
i=0
#
=
Z
f dµy
P -fast sicher für jede Funktion f : S → R+ und alle y ∈ S. Hierbei ist µy das durch
(11.5.1) definierte invariante Maß.
(2). Existiert eine Gleichgewichtsverteilung µ, dann folgt µy = µ für alle y ∈ S und
n−1
1X
lim
f (Xi )
n→∞ n
i=0
=
Z
f dµ
P -fast sicher.
Die letzte Aussage ist ein Gesetz der großen Zahlen für irreduzible, positiv rekurrente Markovketten, und eine erste Version eines Ergodensatzes für Markovketten: Die „zeitlichen“ Mittelwerte
n−1
R
P
1
f
(X
)
konvergieren
fast
sicher
gegen
den
„räumlichen“
Mittelwert
f dµ der Funktion f
i
n
i=0
bzgl. der Gleichgewichtsverteilung. Insbesondere ergibt sich
n−1
µ(x)
=
1X
I{x} (Xi )
lim
n→∞ n
i=0
P -fast sicher für alle x ∈ S,
d.h. die Gewichte der Gleichgewichtsverteilung sind die asymptotischen relativen Häufigkeiten
der Zustände x ∈ S. Dieser Zusammenhang kann in beide Richtungen verwendet werden:
(1). Berechnung der asymptotischen relativen Häufigkeiten durch Lösen des linearen Gleichungssystems µ = µp.
(2). Schätzen der Gleichgewichtsverteilung:
n−1
µ
Universität Bonn
≈
1X
δX
n i=0 i
für große n.
Wintersemester 2009/2010
406
KAPITEL 11. MARKOVKETTEN
Beweis von Satz 11.25. Da die Zufallsvariablen Xi nicht unabhängig sind, können wir nicht wie
im Beweis des klassischen GdgZ verfahren. Stattdessen nutzen wir aus, dass die Markovkette
jedes mal, wenn sie den Punkt x trifft, neu startet – unabhängig vom vorherigen Verlauf. Durch
Zerlegen der Summe in Teilsummen über diese verschiedenen Zykel erhalten wir eine Summe
von unabhängigen Zufallsvariablen, auf die sich das klassische GdgZ anwenden lässt:
(1). Wir betrachten die Markovkette o.B.d.A. im kanonischen Modell. Sei T (k) die k-te Besuchszeit bzw. Rückkehrzeit zu einem festen Zustand y ∈ S, d.h. T (0) = 0, und
T (k+1)
T (k) + Ty ◦ θT
=
(k)
für alle k ≥ 0.
Da die Kette irreduzibel und rekurrent ist, gilt T (k) < ∞ P -fast sicher für alle k, und damit
(l)
T
X
f (Xi )
=
i=1
l−1
X
Yk
Yk :=
mit
k=0
(k+1)
TX
f (Xi ).
i=T (k) +1
y
T (1) T (2)
T (3)
T (4)
T (5) T (6)
Abbildung 11.11: Regenerative Zyklen.
Wir zeigen nun, dass aufgrund der starken Markoveigenschaft die Zufallsvariablen Yk (k ≥
1) unter P unabhängig und identisch verteilt sind. Es gilt nämlich
Yk
=
T (k) +Ty ◦θ T
X
(k)
f (Xi )
i=T (k) +1
Einführung in die Wahrscheinlichkeitstheorie
=
Ty
X
j=1
f (Xj ◦ θT
(k)
)
=
Y0 ◦ θ T
(k)
,
Prof. Andreas Eberle
11.5. ERGODIZITÄT
407
also
SME
P [Yk ∈ B | FT (k) ]
Py [Y0 ∈ B]
=
für alle B ⊂ S,
d.h. Yk ist unabhängig von FT (k) mit Verteilung Py ◦Y0−1 . Da die Zufallsvariablen Y0 , . . . , Yk−1
FT (k) -messbar sind, folgt die Unabhängigkeit der Yk , k ≥ 0, unter P . Zudem erhalten wir
für k ≥ 1 :
E[Yk ]
=
Ey [Y0 ]
=
Ey
"
Ty
X
f (Xi )
i=1
#
Z
=
f dµy .
Nach dem Gesetz der großen Zahlen folgt dann:
T (l)
1X
lim
f (Xi )
l→∞ l
i=1
Z
l−1
1X
lim
Yk
l→∞ l
k=1
=
=
f dµy
P -fast sicher.
(11.5.2)
Ist die Anzahl By (n) der Besuche in y vor der Zeit n gleich l, dann gilt
T (l−1)
also
(l−1)
T
1 X
f (Xi )
l i=1
<
n
≤
T (l+1) ,
(l+1)
n
≤
1 X
f (Xi )
By (n) i=1
T
1 X
f (Xi ).
l i=1
≤
(11.5.3)
Für n → ∞ konvergiert auch l = By (n) gegen unendlich, da die Markovkette rekurrent
R
ist. Da die linke und rechte Seite von (11.5.3) nach (11.5.2) für l → ∞ gegen f dµy
konvergieren, folgt
n−1
1 X
lim
f (Xi )
n→∞ By (n)
i=0
n
=
1 X
lim
f (Xi )
n→∞ By (n)
i=1
=
Z
f dµy
P -fast sicher.
(2). Anwenden von Aussage (1) mit der konstanten Funktion f ≡ 1 liefert
n
By (n)
n→∞
−→
µy [S]
P -fast sicher.
Da eine invariante Verteilung existiert, ist die Kette positiv rekurrent, d.h. µy [S] < ∞.
Daher folgt für f ≥ 0:
n−1
1X
f (Xi )
n i=0
n−1
=
1 X
By (n)
·
f (Xi )
n
By (n) i=0
n→∞
−→
R
f dµy
µy [S]
=
Z
f dµy
P -fast sicher für n → ∞. Da die Markovkette nach Voraussetzung irreduzibel ist, ist die
Gleichgewichtsverteilung nach Korollar 11.22 eindeutig. Also gilt µy = µ für alle y ∈ S.
Universität Bonn
Wintersemester 2009/2010
408
KAPITEL 11. MARKOVKETTEN
Beispiel (Kartenhaus / Maschinenerneuerung). Wir betrachten die Markovkette aus dem Beispiel von oben.
q0
q1
q2
q3
q4
q5
p0
0
p1
p12
2
p3
3
p4
4
5
p5
Abbildung 11.12: Übergangswahrscheinlichkeiten der durch p gegeben Markovkette.
Für Übergangswahrscheinlichkeiten p(i, 0) = pi ∈ (0, 1) und p(i, i + 1) = qi = 1 − pi erhalten
wir
P0 [T0 > n]
=
q0 · q1 · . . . · qn−1 ,
E0 [T0 ]
=
∞ n−1
X
Y
und damit
qi .
n=0 i=0
Gilt E0 [T0 ] < ∞, dann ist die Kette irreduzibel und positiv rekurrent. Für die asymptotische rela-
tive Häufigkeit des Zusammenfallens des Kartenhauses folgt dann nach Satz 11.25 und Korollar
11.22:
n−1
1X
I{0} (Xi )
n→∞ n
i=0
lim
=
µ(0)
=
1
E0 [T0 ]
Px -fast sicher für alle x ∈ S.
Beispiel (Markov Chain Monte Carlo Verfahren (MCMC)). Sei µ eine Wahrscheinlichkeitsverteilung auf eine abzählbaren Menge S, deren Gewichte wir bis auf eine Normierungskonstante kennen bzw. berechnen können. Um Erwartungswerte von Funktionen f : S → R+ bzgl
µ approximativ zu berechnen, können wir dann wie in Kapitel 3 beschrieben eine irreduzible
Übergangsmatrix p mit Gleichgewicht µ bestimmen, und eine Markovkette (Xn , P ) mit dieser
Übergangsmatrix simulieren. Nach Satz 11.26 liefern die empirischen Mittelwerte
n
θ̂n
=
1X
f (Xi )
n i=1
dann eine konsistente Folge von Schätzern für den gesuchten Erwartungswert
Z
θ =
f dµ.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.5. ERGODIZITÄT
409
Für praktische Anwendungen ist es wichtig, den Schätzfehler zu quantifizieren. Eine erste Aussage in diese Richtung liefert ein zentraler Grenzwertsatz für Markovketten, siehe z.B. [T. Komorowski, C. Landim, S. Olla: Fluctuations in Markov Processes].
Allgemeinere Ergodensätze
Die Aussage von Satz 11.25 lässt sich wesentlich allgemeiner formulieren. Wir notieren zunächst
eine elementare, aber wichtige Erweiterung:
Satz 11.26 (Ergodensatz für Markovketten, 2. Version). Ist (Xn , P ) eine irreduzible homogene Markovkette, und µ ein Gleichgewicht des Übergangskerns p, dann gilt
Z
Z
n−1
1X
lim
f (Xi , Xi+1 , . . . , Xi+r ) =
· · · f (x0 , x1 , . . . , xr )µ(dx0 )p(x0 , dx1 ) · · · p(xr−1 , dxr )
n→∞ n
i=0
P -fast sicher für alle r ≥ 0 und f : S r+1 → R+ .
Wir geben nur die Beweisidee an, und überlassen die Ausführung der Details dem Leser als
Übung:
Beweis-Skizze. Der Prozess
ei
X
:=
(Xi , Xi+1 , . . . , Xi+r )
ist eine Markovkette mit Zustandsraum
Se
=
{(x0 , . . . , xr ) ∈ S r+1 | p(xi , xi+1 ) > 0
∀0 ≤ i < r},
Übergangsmatrix
pe((x0 , . . . , xr ), (y0 , . . . , yr ))
=
δx1 (y0 )δx2 (y1 ) · · · δxr (yr−1 )p(xr , yr ),
und Gleichgewichtsverteilung
µ
e(x0 , . . . , xr )
=
µ(x0 ) · p(x0 , x1 ) · . . . · p(xr−1 , xr ).
en ). Die Behauptung folgt daher aus Satz 11.25.
Ist (Xn ) irreduzibel, so auch (X
Eine wichtige Anwendung von Satz 11.26 ist das Schätzen der Übergangsmatrix einer Markovkette: Für x, y ∈ S gilt
p(x, y)
n−1
=
1X
lim
I{Xi =x,Xi+1 =y}
n→∞ n
i=0
P -fast sicher,
d.h. die Übergangswahrscheinlichkeiten sind die asymptotischen relativen Häufigkeiten der Übergänge.
Universität Bonn
Wintersemester 2009/2010
410
KAPITEL 11. MARKOVKETTEN
Beispiel (Neues im I.I.D. Fall). Auch im i.i.d. Fall liefert Satz 11.26 eine neue Aussage: Ist
X0 , X1 , . . . eine Folge unabhängiger, identisch verteilter Zufallsvariablen („Buchstaben“) mit
Werten in einer endlichen oder abzählbaren Menge S („Alphabet“), dann ergibt sich für die asymptotische relative Häufigkeit eines Wortes (a0 , a1 , . . . , ak ) ∈ S k+1 :
n−1
1X
lim
I{Xi =a0 ,Xi+1 =a1 ,...,Xi+k =ak }
n→∞ n
i=0
k
Y
=
µ(aj )
P -fast sicher,
j=0
wobei µ(a) = P [Xi = a] die Wahrscheinlichkeit des Buchstabens a ist.
Mit abstrakteren Argumenten kann man Ergodensätze im allgemeinen Rahmen dynamischer Systeme beweisen. Zum Abschluss dieses Abschnittes geben wir kurz ein entsprechendes zentrales
Resultat ohne Beweis wieder. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und θ : Ω → Ω eine
maßerhaltende Abbildung, d.h. P ◦ θ−1 = P . Den Raum (Ω, A, P ) zusammen mit der maßerhaltenden Abbildung θ nennt man auch ein dynamisches System. Beispielsweise ist der Shiftoperator
θ auf dem Pfadraum maßerhaltend bzgl. der Verteilung P eines stationären stochastischen Prozesses. Die σ-Algebra J der θ-invarianten Ereignisse ist definiert als
J
=
{A ∈ A | θ−1 (A) = A}.
Beispielsweise sind die Zufallsvariablen lim inf
1
n
n−1
P
i=0
F ◦ θi und lim sup n1
n−1
P
i=0
F ◦ θi für jede A-
messbare Abbildung F : Ω → R messbar bzgl. J . Allgemein sind alle θ-invarianten Ereignisse
asymptotisch. Das Maß P heißt ergodisch, falls P [A] ∈ {0, 1} für alle A ∈ J gilt. In dieser
allgemeinen Situation kann man zeigen:
Satz 11.27 (Birkhoffs individueller Ergodensatz). Für jede Funktion F ∈ L1 (Ω, A, P ) gilt
n−1
1X
lim
F (θi (ω))
n→∞ n
i=0
=
E[F | J ](ω)
für P -fast alle ω ∈ Ω.
Ist P ergodisch, dann folgt
n−1
1X
F ◦ θi
lim
n→∞ n
i=0
=
E[F ]
P -fast sicher.
Der Beweis findet sich z.B. in den Wahrscheinlichkeitstheorie-Büchern von Breiman oder Durrett. Die L2 -Konvergenz lässt sich mit wesentlich einfacheren funktionalanalytischen Methoden
zeigen (Ergodensatz von Neumann, siehe z.B. [Varadhan: Probability Theory])
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
11.6
411
Zeitstetige Markovprozesse
Für viele Anwendungsprobleme sind Modelle, die auf Markovprozessen in kontinuierlicher Zeit
basieren, natürlicher. Ändert der Prozess nur an abzählbar vielen zufälligen Zeitpunkten seinen
Zustand, dann nennt man ihn eine zeitstetige Markovkette. Ein Markovprozess mit stetigen Pfaden heißt dagegen Diffusionsprozess.
Klassische Anwendungsbereiche zeitstetiger Markovketten sind die Modellierung von Warteschlangen und chemischen Reaktionen. Wir zeigen hier, wie man zeitstetige aus zeitdiskreten
Markovketten konstruiert und beschreibt. Viele der Aussagen aus den letzten Abschnitten haben
Entsprechungen im zeitstetigen Fall – wir verweisen dazu auf das einführende Lehrbuch [J. Norris: Markov Chains].
Der wichtigste Diffusionsprozess ist die Brownsche Bewegung, die sich ausgehend vom zentralen
Grenzwertsatz als universeller zeitstetiger Skalierungslimes von Random Walks mit quadratintegrierbaren Inkrementen ergibt. In der stochastischen Analysis konstruiert man andere Diffusionsprozesse über stochastische Differentialgleichungen aus der Brownschen Bewegung – mit
zahlreichen Anwendungen z.B. in der Finanzmathematik, Physik und mathematischen Biologie,
aber auch mit weitreichenden Konsequenzen für viele Bereiche der Mathematik.
Übergangskerne und Markovprozesse
Seien ps,t (x, dy), 0 ≤ s ≤ t < ∞, stochastische Kerne auf einem messbaren Raum (S, S).
Definition (Markovprozess).
(1). Ein auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierter zeitstetiger stochastischer
Prozess Xt : Ω → S, t ∈ [0, ∞), heißt Markovprozess mit Übergangswahrscheinlichkeiten ps,t (x, dy), falls
P [Xt+h ∈ B | FtX ]
=
pt,t+h (Xt , B)
P -fast sicher
für alle B ∈ S und t, h ≥ 0 gilt, wobei
FtX
=
σ(Xs | 0 ≤ s ≤ t)
die vom Prozess erzeugten σ-Algebren sind.
(2). Der Markovprozess heißt zeitlich homogen, falls die Übergangswahrscheinlichkeiten pt,t+h
nur von h abhängen:
pt,t+h (x, dy)
Universität Bonn
=
ph (x, dy)
für alle t, h ≥ 0.
Wintersemester 2009/2010
412
KAPITEL 11. MARKOVKETTEN
Bemerkung. Einen Markovprozess mit stetigen Pfaden t 7→ Xt (ω) nennt man einen Diffusionsprozess. Eine zeitstetige Markovkette ist ein Markovprozess, dessen Pfade stückweise konstant
sind, und nur an abzählbar vielen (von ω abhängigen) Zeitpunkten springen. Allgemeine Markovprozesse können sowohl stetige als auch Sprunganteile haben – es ist auch möglich, das sich
die Sprünge häufen.
Die zeithomogenen reellwertigen Markovprozesse mit räumlich homogenen Übergangswahrscheinlichkeiten sind gerade die Lévy-Prozesse:
Satz 11.28 (Lévy-Prozesse als Markovprozesse). Ein Rd -wertiger stochastischer Prozess (Xt , P )
mit stationären unabhängigen Inkrementen Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1
(0 ≤ t0 < t1 <
. . . < tn ) ist ein zeithomogener Markovprozess mit translationsinvarianten Übergangswahrscheinlichkeiten
ph (x, B)
=
P [Xt+h − Xt ∈ B − x],
B ∈ B(Rd ).
t, h ≥ 0,
Beweis. Für jede Partition 0 = t0 < t1 < . . . < tn = t eines Intervalls [0, t] sind die Inkremente
Xt+h − Xt für h ≥ 0 unabhängig von σ(Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 ). Wegen
Xt k
=
Xt 0 +
k
X
i=1
(Xti − Xti−1 )
erzeugen die Zufallsvariablen Xt0 , Xt1 , . . . , Xtn dieselbe σ-Algebra. Also ist Xt+h − Xt auch
unabhängig von der σ-Algebra
FtX
=
σ(Xs | 0 ≤ s ≤ t)
=
σ
[
!
σ(Xt0 , Xt1 , . . . , Xtn ) .
0=t0 <t1 <...<tn
Damit folgt
P [Xt+h ∈ B | FtX ](ω) = P [Xt + (Xt+h − Xt ) ∈ B | FtX ](ω)
= P [Xt+h − Xt ∈ B − Xt (ω)]
=
ph (Xt (ω), B)
für P -fast alle ω.
Beispiel. (1). Poissonprozess: Ein Poissonprozess mit Parameter λ > 0 ist eine zeitstetige Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangswahrscheinlichkeiten
pt (x, y) = e−λt
(λt)y−x
(y − x)!
für y ≥ x,
Einführung in die Wahrscheinlichkeitstheorie
bzw. pt (x, y) = 0
für y < x.
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
413
(2). Brownsche Bewegung: Eine d-dimensionale Brownsche Bewegung ist ein zeitlich homogener Diffusionsprozess mit Zustandsraum S = Rd und absolutstetigen Übergangswahrscheinlichkeiten pt (x, dy) mit Dichte
pt (x, y)
=
(2πt)
−d/2
kx − yk2
· exp −
2t
,
x, y ∈ Rd .
t > 0,
Damit die Übergangswahrscheinlichkeiten eines Markovprozesses für verschiedene Zeitintervalle konsistent sind, muss
ps,u
=
ps,t pt,u
für alle 0 ≤ s ≤ t ≤ u,
(11.6.1)
bzw., im zeithomogenen Fall,
ps+t
=
ps pt
=
für alle s, t ≥ 0
pt ps
(11.6.2)
gelten. (11.6.1) und (11.6.2) werden auch als Chapman-Kolmogorov-Gleichungen bezeichnet.
Im zeithomogenen Fall besagt die Chapman-Kolmogorov-Gleichung (11.6.2), dass die Übergangskerne pt , t ≥ 0, eine Halbgruppe bilden.
Ist (Xt )t∈[0,∞) bzgl. P ein zeitstetiger Markovprozess und (tn ) eine aufsteigende Folge in R+ ,
dann ist (Xtn ) eine zeitdiskrete Markovkette mit Übergangskernen ptn−1 ,tn . Insbesondere erhalten wir mit Satz 11.5:
Korollar 11.29 (Endlichdimensionale Randverteilungen). Für jedes n ≥ 0 und 0 = t0 < t1 <
. . . < tn hat (Xt0 , Xt1 , . . . , Xtn ) die Verteilung
µ(dx0 )pt0 ,t1 (x0 , dx1 )pt1 ,t2 (x1 , dx2 ) · · · ptn−1 ,tn (xn−1 , dxn ),
wobei µ = P ◦ X0−1 die Startverteilung des Markovprozesses ist.
Beispiel (Brownsche Bewegung). Für eine d-dimensionale Brownsche Bewegung (Bt ) mit Start
in x0 sind die Verteilungen von (Bt1 , . . . , Btn ) für 0 = t0 < t1 < . . . < tn absolutstetig mit
Dichten
fBt1 ,...,Btn (x1 , . . . , xn ) =
n
Y
i=1
pti −ti−1 (xi−1 , xi ) =
n
Y
i=1
(2π(ti −ti−1 ))
−d/2
kxi − xi−1 k2
exp −
2(ti − ti−1 )
.
Insbesondere ist eine Brownsche Bewegung ein Gaußprozess, d.h. alle endlichdimensionalen
Randverteilungen sind multivariate Normalverteilungen.
Universität Bonn
Wintersemester 2009/2010
414
KAPITEL 11. MARKOVKETTEN
Bemerkung (Eindeutigkeit in Verteilung, Modifikationen). Nach dem Korollar ist die Verteilung eines Markovprozesses ((Xt )t≥0 , P ) auf dem Produktraum S [0,∞) mit Produkt-σ-Algebra
eindeutig durch die Startverteilung und die Übergangswahrscheinlichkeiten festgelegt. Da es
überabzählbar viele Zeitpunkte t ∈ R+ gibt, ist die Situation allerdings etwas subtiler als im
zeitdiskreten Fall. Beispielsweise ist das Ereignis, dass die Pfade t 7→ Xt (ω) des Prozesses ste-
tig bzw. rechtsstetig sind, nicht messbar bzgl. der Produkt-σ-Algebra. Tatsächlich kann man zu
einem Markovprozess (Xt ) mit (rechts-)stetigen Pfaden in der Regel einen modifizierten Prozess
et ) mit
(X
e t = Xt ]
P [X
=
1
für jedes t ∈ R+
et ) hat dann dieselben endlichdimenfinden, der keine (rechts-)stetigen Pfade hat. Der Prozess (X
sionalen Randverteilungen wie (Xt ), und ist daher ein Markovprozess mit derselben Startverteilung und denselben Übergangswahrscheinlichkeiten!
Zeitstetige Markovketten
Wir wollen nun (umgekehrt wie oben) aus einer zeitdiskreten Markovkette einen zeitstetigen
Markovprozess konstruieren, der dieselben Zustände durchläuft, aber zu zufälligen kontinuierlichen Zeitpunkten von einem Zustand zum nächsten springt. Dazu betrachten wir der Übersichtlichkeit halber nur den Fall eines abzählbaren Zustandsraumes S. Einen zeitstetigen Markovprozess auf S charakterisieren wir dann durch die infinitesimalen Übergangsraten
Lt (x, y)
=
lim
hց0
pt,t+h (x, y) − δ(x, y)
,
h
t ≥ 0.
(11.6.3)
Wir beschränken uns im Folgenden auf den zeithomogenen Fall. Hier hängen die Übergangswahrscheinlichkeiten nicht von t ab, und es gilt
Lt (x, y)
=
L (x, y)
=
ph (x, y) − δ(x, y)
hց0
h
lim
für alle t ≥ 0.
(11.6.4)
Wegen
ph (x, y) = h · L (x, y) + o(h)
für x 6= y, und
ph (x, x) = 1 + h · L (x, x) + o(h),
ist L (x, y) für x 6= y die Sprungrate von x nach y, und L (x, x) ist die negative Wegsprungrate
von x. Erfüllen die Übergangswahrscheinlichkeiten eines zeithomogenen Markovprozesses auf
S die Bedingung (11.6.4) bzgl. eines zu spezifizierenden Konvergenzbegriffes, dann heißt die
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
415
Matrix L (x, y) (x, y ∈ S) infinitesimaler Generator des Markovprozesses. Da ph (x, •) für
alle h ≥ 0 eine Wahrscheinlichkeitsverteilung ist, sollte in diesem Fall gelten:
L (x, x)
=
−
X
für alle x ∈ S.
L (x, y)
y∈S
(11.6.5)
Sei nun L (x, y) (x, y ∈ S) eine gegebene Matrix mit L (x, y) ≥ 0 für alle x, y ∈ S und (11.6.5).
Wir setzen zudem voraus, dass die Wegsprungraten L (x, x) beschränkt sind:
Annahme: Es existiert λ > 0 mit
X
L (x, y)
=
y∈S
−L (x, x)
≤
λ
für alle x ∈ S.
(11.6.6)
Um einen Markovprozess mit Sprungraten L (x, y) zu konstruieren, betrachten wir unabhängige, Exp(λ)-verteilte Zufallsvariablen T1 , T2 , . . . auf einem Wahrscheinlichkeitsraum (Ω, A, P ),
die die zeitlichen Abstände zwischen möglichen Sprüngen des Prozesses beschreiben. Sei fer-
ner (Yn )n=0,1,2,... eine von σ(T1 , T2 , . . .) unabhängige Markovkette auf (Ω, A, P ) mit Übergangs-
wahrscheinlichkeiten
1
L (x, y)
für y 6= x,
λ X
π(x, x) = 1 −
π(x, y).
π(x, y) =
y6=x
Die Kette (Yn ) beschreibt die Zustände, die der zu konstruierende zeitstetige Sprungprozess
durchläuft. Mit
Nt
=
#{n ∈ N|T1 + T2 + . . . + Tn ≤ t}
erhalten wir:
Satz 11.30 (Konstruktion von zeitstetigen Markovketten). Der Prozess Xt := YNt ist ein
zeitstetiger Markovprozess mit Zustandsraum S, Übergangswahrscheinlichkeiten
pt (x, y)
=
e−λt
∞
X
(λt)n
n=0
n!
π n (x, y),
und Generator L (x, y). Genauer gilt
X ph (x, y) − δ(x, y)
−
L
(x,
y)
lim sup
hց0 x∈S
h
y∈S
Universität Bonn
x, y ∈ S,
=
0.
(11.6.7)
(11.6.8)
Wintersemester 2009/2010
416
KAPITEL 11. MARKOVKETTEN
Bemerkung. (1). Matrixexponentialfunktion: Die Übergangswahrscheinlichkeiten haben die
Form
pt
e−λt eλtπ
=
=
eλt(π−I) ,
(11.6.9)
wobei
q
(e )(x, y)
=
∞
X
1 n
q (x, y)
n!
n=0
die Matrixexponentialfunktion ist. Hierbei ist eλtπ auch im abzählbar unendlichen Fall definiert, da die Matrizen (λtπ)n für alle n ≥ 0 nichtnegativ sind. Die Reihe eλt(π−I) konvergiert bzgl. der multiplikativen Matrixnorm
kqk
:=
sup
x∈S
X
y∈S
|q(x, y)|,
(11.6.10)
da kλn tn (π − I)n k ≤ (2λt)n für alle n ≥ 0 gilt, und die Identität (11.6.9) folgt wegen
eλt(π−I) = e−λtI eλtπ = e−λt eλtπ .
(2). Konvergenzbegriff: Die Aussage (11.6.8) besagt, dass
ph − I
hց0
h
lim
=
L
bzgl. der durch (11.6.10) definierten Matrixnorm gilt. Die Voraussetzung (11.6.6) gewährleistet gerade, dass die Norm von L endlich ist. In anderer Form ausgedrückt bedeutet
(11.6.8), dass die signierten Maße h1 (ph (x, •) − δ(x, •)) für h ց 0 gleichmäßig in Variationsnorm (ℓ1 -Norm) gegen L (x, •) konvergieren. Eine entsprechende Aussage gilt auch
(mit analogem Beweis), wenn der Zustandsraum S nicht abzählbar ist.
Beweis. Seien t, h ≥ 0 und y ∈ S. Um die Markoveigenschaft
P [Xt+h = y | FtX ]
=
ph (Xt , Y )
P -fast sicher
(11.6.11)
zu zeigen, verfahren wir ähnlich wie für Poisson-Prozesse in Satz 10.12. Seien zunächst k, l ∈
{0, 1, 2, . . .} fest, und sei
Gk
=
σ(T1 , . . . , Tk , Y0 , Y1 , . . . , Yk )
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
417
die σ-Algebra, die den Verlauf des Prozesses bis zum k-ten Sprung beschreibt. Da die Wartezeiten Ti (i ∈ N) und die Markovkette (Yn ) unabhängig voneinander sind, und Nt messbar bzgl.
σ(Ti | i ∈ N) ist, erhalten wir nach (10.4.3):
P [Nt = k, Nt+h = k + l, Yk+l = y | Gk ]
=
(10.4.3)
=
=
P [Nt = k, Nt+h = k + l | T1 , . . . , Tk ] · P [Yk+l = y | Y0 , Y1 , . . . , Yk ]
P [Nt = k | T1 , . . . , Tk ] · P [Nh = l] · π l (Yk , y)
(λh)l l
P [Nt = k | Gk ] · e−λh
π (Yk , y)
P -fast sicher.
l!
Durch Summieren über l folgt:
P [Nt = k, Xt+h = y | Gk ] = P [Nt = k | Gk ] · e
−λh
∞
X
(λh)l
l=0
l!
π l (Yk , y)
P -f.s.
(11.6.12)
Sei nun A ∈ FtX . Ähnlich wie im Beweis von Satz 10.12 (3) zeigt man, dass dann ein Ereignis
Ak ∈ Gk existiert mit
A ∩ {Nt = k}
=
Ak ∩ {Nt = k},
d.h. für Nt = k hängt der Verlauf von Xs für 0 ≤ s ≤ t nur von den Zufallsvariablen T1 , . . . , Tk
und Y0 , . . . , Yk ab. Nach (11.6.12) folgt dann
P [{Nt = k} ∩ {Xt+h = y} ∩ A]
= E[P [Nt = k, Xt+h = y | Gk ] ; Ak ]
= E[P [Nt = k | Gk ] · ph (Yk , y) ; Ak ]
= E[ph (Xt , y) ; A ∩ {Nt = k}],
wobei ph wie in (11.6.7) definiert ist. Hierbei haben wir im letzten Schritt benutzt, dass Xt = Yk
auf {Nt = k} gilt. Durch Summieren über k erhalten wir schließlich
P [{Xt+h = y} ∩ A]
=
E[ph (Xt , y) ; A]
für alle A ∈ FtX ,
und damit (11.6.11).
Um den Generator zu identifizieren, bemerken wir, dass für y 6= x aus (11.6.7) wegen L (x, y) =
λπ(x, y) folgt:
ph (x, y) − hL (x, y)
Universität Bonn
=
(e
−λh
− 1)λhπ(x, y) + e
λh
∞
X
(λh)n
n=2
n!
π n (x, y).
Wintersemester 2009/2010
418
Wegen
KAPITEL 11. MARKOVKETTEN
P
y∈S
π n (x, y) = 1 für alle n ≥ 0 erhalten wir dann die Abschätzung
sup
x∈S
X
y6=x
|ph (x, y) − hL (x, y)|
=
O(h2 ).
Die Aussage (11.6.8) folgt hieraus, da
ph (x, x) − δ(x, x) − hL (x, x)
=
−
X
y6=x
(ph (x, y) − hL (x, y))
für alle x ∈ S gilt.
Vorwärts- und Rückwärtsgleichungen für Markovketten
Wir leiten nun Gleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten von
Markovketten her.
Für die n-Schritt Übergangswahrscheinlichkeiten einer zeitdiskreten Mar-
Zeitdiskreter Fall.
kovkette mit Übergangskern π gilt
π n+1 − π n
=
(π − I)π n
=
π n (π − I)
für alle n ≥ 0.
(11.6.13)
Hierbei ist π − I der Generator der Markovkette.
Zeitstetiger Fall.
Im zeitstetigen Fall erhalten wir als infinitesimale Versionen von (11.6.13)
Differentialgleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten. Aus (11.6.8)
und der Chapman-Kolmogorov-Gleichung (11.6.1) folgt:
Satz 11.31 (Kolmogorovsche Vorwärts- und Rückwärtsgleichung). Für die Übergangsmatrizen pt (x, y) des in Satz 11.30 konstruierten Markovprozesses gilt
pt+h − pt
h→0
h
lim
=
pt L
=
L pt
für alle t ≥ 0
mit Konvergenz bzgl. der in 11.6.10 definierten Matrixnorm k • k. Insbesondere erfüllen die
Übergangswahrscheinlichkeiten die Kolmogorovsche Vorwärtsgleichung (Mastergleichung)
d
pt (x, y)
dt
=
X
pt (x, z)L (z, y),
z∈S
t ≥ 0,
(11.6.14)
t ≥ 0.
(11.6.15)
sowie die Kolmogorovsche Rückwärtsgleichung
d
pt (x, y)
dt
=
X
z∈S
Einführung in die Wahrscheinlichkeitstheorie
L (x, z)pt (z, y),
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
419
Beweis. Nach (11.6.8) gilt lim h−1 (ph − I) = L bzgl. der Matrixnorm k • k. Da die Norm
hց0
multiplikativ mit kpt k ≤ 1 ist, folgt für t, h > 0 nach der Chapman-Kolmogorov-Gleichung
pt+h − pt
ph − I
ph − I
− pt L = pt
− L ≤ kpt k · −L
h
h
h
hց0
ph − I
≤ h − L −→ 0.
Entsprechend konvergiert auch
pt−h − pt
ph − I
p
−
I
h
= pt−h
≤ kpt−h k · −
p
L
−
p
L
−
p
L
t
h
h
−h
h
h
ph − I
+ kI − ph k · kL k
−
L
≤ h
für h ց 0 gegen 0. Damit haben wir die Vorwärtsgleichung
lim h−1 (pt+h − pt )
h→0
=
pt L
für t > 0 gezeigt. Der Beweis der Rückwärtsgleichung verläuft ähnlich.
Anschaulich können wir die Vorwärtsgleichung folgendermaßen interpretieren: Sei x ∈ S ein
fester Zustand. Dann beschreibt die Funktion
u(t, y)
=
pt (x, y)
=
P [Xt = y | X0 = x],
t ≥ 0,
y ∈ S,
die Zeitentwicklung der Aufenthaltswahrscheinlichkeiten der Markovkette in Zuständen y ∈ S.
Die Vorwärtsgleichung besagt, dass u das Anfangswertproblem
X
∂u
(t, y) =
u(t, z)L (z, y)
∂t
z∈S
für t ≥ 0,
u(0, y) = δx (y)
löst. Die Wahrscheinlichkeitsmasse im Punkt y ändert sich also dadurch, dass Übergänge von
anderen Zuständen z nach y mit den Raten L (z, y), bzw. Übergänge von y in andere Zustände
mit der negativen Rate L (y, y) stattfinden. Bei der Analyse chemischer Reaktionen spielt die
Vorwärtsgleichung eine wichtige Rolle – sie wird in den Naturwissenschaften meist als Mastergleichung bezeichnet.
Für die Rückwärtsgleichung ergibt sich eine ähnliche, aber andere Interpretation: Seien hier
y ∈ S und t ≥ 0 fest, und
v(s, x)
Universität Bonn
=
pt−s (x, y)
=
P [Xt = y | Xs = x],
s ∈ [0, t],
x ∈ S.
Wintersemester 2009/2010
420
KAPITEL 11. MARKOVKETTEN
Die Funktion v beschreibt die Abhängigkeit der Aufenthaltswahrscheinlichkeiten von dem zurückliegenden Startzeitpunkt und Anfangszustand des Markovprozesses. Die Rückwärtsgleichung
besagt dann, dass v das „Endwertproblem“
X
∂v
(s, x) =
L (x, z)v(s, z),
∂s
z∈S
s ∈ [0, t],
v(t, x) = δy (x)
löst.
Allgemeiner ergeben sich aus der Vorwärtsgleichung Zeitentwicklungsgleichungen für die Verteilungen µpt des Markovprozesses mit beliebiger Startverteilung µ, und aus der Rückwärtsgleichung Zeitentwicklungsgleichungen für die Erwartungswerte E[f (Xt ) | Xs = x] von Funktionen
f : S → R. Die Rückwärtsgleichung liefert auch eine infinitesimale Charakterisierung von
Gleichgewichtsverteilungen zeitstetiger Markovketten:
Korollar 11.32 (Gleichgewichte zeitstetiger Markovketten). Ist die Annahme (11.6.6) erfüllt,
dann sind für eine Wahrscheinlichkeitsverteilung µ auf S die folgenden Aussagen äquivalent:
(1). µ ist ein Gleichgewicht der Übergangshalbgruppe (pt )t≥0 aus (11.6.7), d.h.
µpt
(2). µL = 0, d.h.
X
=
für alle t ≥ 0.
µ
µ(x)L (x, y)
=
0
x∈S
für alle y ∈ S.
Hierbei gewährleistet die Annahme (11.6.6) unter anderem, dass µL auch im abzählbar unendlichen Fall definiert ist.
Beweis. Anschaulich folgt aus der Rückwärtsgleichung
d
µpt
dt
=
für t ≥ 0,
µL pt
µp0 = µ,
(11.6.16)
und damit die Aussage. Um dies auch im abzählbar unendlichen Fall zu rechtfertigen, verwenden
P
|ν(x)| von signierten Maßen. Für eine Matrix
wir die Variationsnorm (ℓ1 -Norm) kνkT V =
x∈S
q(x, y) (x, y ∈ S) und eine Wahrscheinlichkeitsverteilung µ gilt:
kµqkT V
Nach Satz 11.30 erhalten wir
µpt+h − µpt
− µL pt lim hց0
h
≤
TV
kµkT V · kqk
≤
Einführung in die Wahrscheinlichkeitstheorie
kµkT V
=
kqk.
pt+h − pt
− L pt · lim hց0
h
=
0,
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
421
und somit (11.6.16), wobei die Ableitung als Grenzwert der Differenzenquotienten in Variationsnorm definiert ist.
Aufbauend auf den obigen Resultaten kann man nun, ähnlich wie im zeitdiskreten Fall, die Rekurrenz und Transienz von zeitstetigen Markovketten untersuchen, mittlere Rückkehrzeiten und
Trefferwahrscheinlichkeiten berechnen, und einen Ergodensatz beweisen. Unter der Annahme
(11.6.6) können Rekurrenz und Transienz vollständig auf den zeitdiskreten Fall zurückgeführt
werden, da der zeitstetige Prozess Xt = YNt dieselben Zustände durchläuft wie die zeitdiskrete
Markovkette (Yn )n=0,1,2,... . Für die Herleitung von Differenzengleichungen für mittlere Rückkehrzeiten, Trefferwahrscheinlichkeiten usw., sowie den Beweis des Gesetzes der großen Zahlen
im zeitstetigen Fall verweisen wir aus das Buch ’Markov Chains’ von J. R. Norris. Wir sehen uns
hier noch ein Beispiel an, das einen wichtigen Anwendungsbereich zeitstetiger Markovketten
kurz anreißt:
Beispiel (M/M/1-Warteschlangenmodell). Im einfachsten Modell einer Warteschlange gibt es
nur einen Server. Die Aufträge kommen jeweils nach unabhängigen, mit einem Parameter λ > 0
exponentialverteilten Wartezeiten beim Server an, und die Abstände zwischen den Bearbeitungszeiten zweier Aufträge sind ebenfalls unabhängig, und mit einem Parameter ν exponentialverteilt.
Die beiden „M“s in M/M/1 stehen für gedächtnislose (engl. memoryless) Ankunfts- und Bearbeitungszeiten, die „1“ für die Anzahl der Server.
Unter diesen (sehr restriktiven) Annahmen wird die Warteschlange durch eine zeitstetige Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangsraten
L (x, x + 1)
=
λ,
L (x, x − 1)
=
ν,
beschrieben, d.h. durch einen zeitstetigen Birth-Death-Process.
ν
0
ν
1
λ
ν
3
2
λ
ν
λ
4
λ
Abbildung 11.13: Übergangsraten einer M/M/1-Warteschlange.
Universität Bonn
Wintersemester 2009/2010
422
KAPITEL 11. MARKOVKETTEN
Die Wegsprungraten −L (x, x) sind durch λ + ν beschränkt, und die Sprungkette (Yn ) hat die
Übergangswahrscheinlichkeiten
π(x, x + 1)
=
λ
,
λ+ν
π(x, x − 1)
=
ν
λ+ν
für x > 0,
ν
. Insbesondere sind die Sprungkette, und damit auch die zeitstetige Markovλ+ν
kette, genau dann rekurrent, wenn λ ≤ ν gilt. Die Gleichgewichtsbedingung µL = 0 für den
und π(0, 0) =
zeitstetigen Prozess lautet
−µ(0) · λ + µ(1) · ν = 0,
µ(x − 1) · λ − µ(x)(λ + ν) + µ(x + 1) · ν = 0
für x ∈ N.
Für λ ≥ ν existiert keine Gleichgewichsverteilung, für λ < ν ist die geometrische Verteilung
x
λ
λ
µ(x) =
1−
·
,
x = 0, 1, 2, . . . ,
ν
ν
das eindeutige Gleichgewicht. Aus dem Ergodensatz folgt dann beispielsweise, dass die mittRt
λ
lere Länge 1t Xs ds der Warteschlange sich asymptotisch wie der Erwartungswert
der
ν−λ
0
Gleichgewichtsverteilung verhält.
Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung
Für allgemeine Markovprozesse ist die Herleitung von Vorwärts- und Rückwärtsgleichungen
technisch häufig deutlich aufwändiger, da der infinitesimale Generator L im Allgemeinen ein
unbeschränkter linearer Operator ist. Dies ist bereits bei zeitstetigen Markovketten der Fall, wenn
die Wegsprungraten nicht beschränkt sind. Für die Brownsche Bewegung erhalten wir die Kolmogorovschen Gleichungen unmittelbar aus der expliziten Form der Übergangsdichten
kx − yk2
−d/2
.
pt (x, y) = (2πt)
· exp −
2t
Als infinitesimaler Generator ergibt sich der Laplaceoperator:
Satz 11.33 (Brownsche Bewegung und Wärmeleitungsgleichung). Die Übergangsdichten pt (x, y)
der Brownschen Bewegung bilden die Fundamentallösung der Wärmeleitungsgleichung, d.h. es
gilt
1
1
∂
pt (x, y) =
∆x pt (x, y) =
∆y pt (x, y)
∂t
2
2
mit Anfangsbedingung
Z
lim pt (x, y)f (y) dy = f (x)
für alle f ∈ Cb (Rd ) und x ∈ Rd ,
tց0
Einführung in die Wahrscheinlichkeitstheorie
(11.6.17)
(11.6.18)
Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE
423
bzw.
lim
tց0
Z
g(x)pt (x, y) dy
Hierbei ist ∆x =
d
P
i=1
∂2
∂x2i
=
für alle g ∈ Cb (Rd ) und y ∈ Rd .
g(y)
(11.6.19)
der Laplace-Operator in der x-Variable.
Beweis. Die Gleichung (11.6.17) verifiziert man durch Nachrechnen. Für x ∈ Rd ist pt (x, y)dy
eine Normalverteilung mit Mittelwertvektor x und Kovarianzmatrix t·Id . Hieraus folgt (11.6.18),
da diese Wahrscheinlichkeitsverteilung für t ց 0 analog zu Beispiel 2 in Abschnitt 8.3 schwach
gegen das Diracmaß δx konvergiert. Die Identität (11.6.19) folgt aus (11.6.18) wegen pt (x, y) =
pt (y, x).
Die Gleichung
∂
pt (x, y) =
∂t
ist die Vorwärtsgleichung, und die Gleichung
∂
pt (x, y)
∂t
=
1
∆y pt (x, y)
2
1
∆x pt (x, y)
2
die Rückwärtsgleichung der Brownschen Bewegung. Anschaulich können wir die Vorwärtsgleichung auch folgendermaßen interpretieren: Für jedes Gebiet D ⊂ Rd mit glattem Rand gilt:
Z
∂
∂
pt (x, D) =
pt (x, y)dy
∂t
∂t
D
Z
1
=
∆y pt (x, y)dy
2
D
Z
1
=
n(y) · ∇y pt (x, y)ν(dy),
2
∂D
wobei n der äußere Normalenvektor und ν das Oberflächenmaß auf ∂D ist.
D
y
n(y)
Abbildung 11.14: Äußerer Normalenvektor der Menge D im Punkt y.
Universität Bonn
Wintersemester 2009/2010
424
KAPITEL 11. MARKOVKETTEN
Also beschreibt 21 n · ∇y pt (x, y) den Nettozufluss von Wahrscheinlichkeitsmasse pro Flächeneinheit durch ein infinitesimales Flächenstück mit Ausrichtung n am Punkt y.
Für Funktionen f ∈ Cb2 (Rd ) ergeben sich aus (11.6.17) die Zeitentwicklungsgleichungen
∂
pt f
∂t
=
1
∆pt f
2
=
1
pt ∆f
2
für die Erwartungswerte
(pt f )(x)
Z
=
pt (x, y)f (y) dy
=
Ex [f (Bt )].
Rd
pt (x, y)
D
x
y
1 ∂
pt (x, y).
Abbildung 11.15: Nettoabfluss 2 ∂y
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Kapitel 12
Importance Sampling und große
Abweichungen
Um Wahrscheinlichkeiten seltener Ereignisse zu untersuchen, geht man häufig zu einer neuen
absolutstetigen Wahrscheinlichkeitsverteilung über, bzgl. der das relevante Ereignis nicht mehr
selten ist. Der Maßwechsel geschieht dabei typischerweise mit einer exponentiellen Dichte. Auf
diese Weise erhält man unter Anderem asymptotische Aussagen über die Wahrscheinlichkeiten
großer Abweichungen. Eine zentrale Rolle spielt dabei der Begriff der relativen Entropie, die
die statistische Unterscheidbarkeit zweier Wahrscheinlichkeitsverteilungen misst. Anwendungen
liegen in der Asymptotik von Likelihood basierten Schätz und Testverfahren, und der asymptotischen Effizienz von Importance Sampling Schätzern.
12.1
Relative Dichten und Importance Sampling
Oft ist es günstig, Wahrscheinlichkeitsverteilungen mit einer relativen Dichte bzgl. leichter handhabbarer Verteilungen darzustellen. Die relative Dichte ist dabei häufig nur bis auf eine multiplikative Konstante explizit bekannt. Wir stellen hier zunächst einige Grundlagen über relative
Dichten zusammen, und betrachten dann Monte-Carlo Verfahren in diesem Kontext.
Relative Dichten
Seien µ und ν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S). Das Maß µ
heißt absolutstetig bzgl. ν (µ ≪ ν), falls jede ν-Nullmenge auch eine µ-Nullmenge ist. Der
425
426
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Satz von Radon-Nikodym besagt, dass µ genau dann absolutstetig bzgl. ν ist, wenn eine relative
R
Dichte dµ/dν ∈ L1 (S, S, ν) existiert mit µ[B] = dµ
(x)ν(dx) für alle B ∈ S, bzw.
dν
Z
f dµ
=
Z
B
f·
dµ
dν
dν
für alle messbaren f : S → R+ .
(12.1.1)
Die relative Dichte ist ν-fast sicher eindeutig festgelegt. Ein stochastischer Beweis des Satzes von Radon-Nikodym basierend auf dem Martingal-Konvergenzsatz findet sich z.B. in [Williams: Prob. with martingales]. Die folgenden elementaren Aussagen ergeben sich unmittelbar
aus (12.1.1):
Satz 12.1. (1). Ist µ absolutstetig bzgl. ν mit ν-fast überall strikt positiver relativer Dichte,
dann ist auch ν absolutstetig bzgl. µ und
−1
dν
dµ
(x) =
(x)
dµ
dν
für µ-fast alle x ∈ S.
(2). Sind µ und ν beide absolutstetig bzgl. eines Referenzmaßes λ mit Dichten f und g, und gilt
g > 0 λ-fast überall, dann ist µ absolutstetig bzgl. ν mit relativer Dichte
dµ
(x)
dν
=
f (x)
g(x)
für ν-fast alle x ∈ S.
(3). Sind µ1 , . . . , µn und ν1 , . . . , νn Wahrscheinlichkeitsverteilungen auf messbaren Räumen
(S1 , S1 ), . . . , (Sn , Sn ) mit µi ≪ νi für alle 1 ≤ i ≤ n, dann ist auch µ1 ⊗ µ2 ⊗ . . . ⊗ µn
absolutstetig bzgl. ν1 ⊗ ν2 ⊗ . . . ⊗ νn mit relativer Dichte
d(µ1 ⊗ . . . µn )
(x1 , . . . , xn )
d(ν1 ⊗ . . . ⊗ νn )
Die letzte Aussage gilt nicht für unendliche Produkte.
=
n
Y
dµi
i=1
dνi
(xi ).
Beispiel (Singularität von unendlichen Produktmaßen). Sind µ und ν zwei unterschiedliche
Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S), dann ist das unendliche ProN
N
ν. In der Tat gilt nämlich nach dem Gesetz
µ nicht absolutstetig bzgl. ν ∞ :=
dukt µ∞ :=
i∈N
i∈N
der großen Zahlen:
"(
µ∞
ν∞
n
(x1 , x2 , . . .) ∈ S ∞
"(
1X
IB (xi ) = µ[B]
: lim
n→∞ n
i=1
n
(x1 , x2 , . . .) ∈ S ∞
1X
: lim
IB (xi ) = ν[B]
n→∞ n
i=1
)#
)#
= 1
= 1
für alle B ∈ S. Ist µ 6= ν, dann existiert eine Menge B ∈ S mit µ[B] 6= ν[B]. Also sind die
Wahrscheinlichkeitsverteilungen µ∞ und ν ∞ in diesem Fall singulär.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING
427
In Satz 12.10 werden wir sehen, dass die relativen Dichten dµn /dν n der endlichen Produktmaße
für µ 6= ν und n → ∞ exponentiell schnell anwachsen.
Sind µ und ν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S) mit beschränkter relativer Dichte, dann können wir ein Acceptance-Rejection Verfahren verwenden, um Stichproben von der Verteilung µ aus Stichproben der Verteilung ν zu erzeugen.
In vielen praktischen Anwendungen ist die Dichte nur bis auf eine Normierungskonstante explizit
bekannt. Wir nehmen daher an, dass eine beschränkte Funktion ̺ : S → R+ und Konstanten
Z, C ∈ (0, ∞) gegeben sind mit
dµ
(x)
dν
=
1
· ̺(x),
Z
≤
̺(x)
für alle x ∈ S.
C
(12.1.2)
Dies ist beispielsweise der Fall, wenn µ und ν absolutstetige Verteilungen auf Rd mit Dichten
proportional zu f (x) bzw. g(x) sind, und
f (x)
≤
für alle x ∈ Rd
C · g(x)
gilt. In diesem Fall können wir ̺ = f /g wählen. Die Konstante C sollte explizit bekannt sein
R
– die Normierungskonstante Z = ̺ dν kennt man dagegen meistens nicht. Gilt (12.1.2), dann
können wir µ folgendermaßen als bedingte Verteilung darstellen:
Lemma 12.2. Sei X eine Zufallsvariable mit Verteilung ν, und sei U eine unabhängige, auf (0, 1)
gleichverteilte Zufallsvariable. Dann gilt:
µ[B] = P X ∈ B
U ≤ ̺(X)
C
für alle B ∈ S.
Beweis. Die gemeinsame Verteilung von X und U ist ν ⊗ U(0,1) . Also gilt nach dem Satz von
Fubini:
̺(X)
P X ∈ B, U ≤
C
=
Z
Z
λ(du)ν(dx)
B (0, ̺(x) )
C
1
·
=
C
Z
̺(x)ν(dx)
B
Z
=
· µ[B],
C
und insbesondere
̺(X)
P U≤
C
=
Z
· µ[S]
C
=
Z
.
C
Die bedingte Wahrscheinlichkeit ist der Quotient der beiden Ausdrücke.
Universität Bonn
Wintersemester 2009/2010
428
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Das Lemma motiviert das folgende Verwerfungsverfahren zur Simulation von Stichproben von
der Wahrscheinlichkeitsverteilung µ:
Algorithmus 12.3 (Acceptance-Rejection-Verfahren).
repeat
erzeuge unabhängige Stichproben x ∼ ν und u ∼ U(0,1)
until u ≤
̺(x)
C
return x
Der folgende Satz zeigt, dass der Algorithmus im Mittel nach C/Z Schritten eine Stichprobe von
µ liefert:
Satz 12.4. Seien X1 , X2 , . . . : Ω → S und U1 , U2 , . . . : Ω → (0, 1) unter P unabhängige
Zufallsvariablen mit Verteilungen ν bzw. U(0,1) . Dann ist die erste Akzeptanzzeit
̺(X
(ω))
k
T (ω) := min k ∈ N Uk (ω) ≤
C
geometrisch verteilt mit Parameter Z/C, und die (fast überall definierte) Zufallsvariable
Y (ω)
:=
XT (ω) (ω)
hat die Verteilung µ.
Beweis. Da die Ereignisse Ek := {Uk ≤
̺(Xk )
}
C
unabhängig sind, ist die Zufallsvariable T (ω) =
min{k ∈ N | ω ∈ Ek } geometrisch verteilt mit Parameter
̺(Xk )
p = P [Ek ] = P Uk ≤
C
Lemma 12.2
=
Z
.
C
Weiterhin folgt nach Lemma 12.2:
P [Y ∈ B] =
=
∞
X
k=1
∞
X
k=1
P [XT ∈ B, T = k]
P [{Xk ∈ B} ∩ Ek ]
= µ[B].
=
∞
X
k=1
k−1
Y
P [EiC ]
i=1
C
P [{Xk ∈ B} ∩ E1C ∩ . . . ∩ Ek−1
∩ Ek ]
=
∞
X
k=1
P [Xk ∈ B | Ek ] · p · (1 − p)k−1
Bemerkung. (1). Im Algorithmus kommt nur das Verhältnis ̺(x)/C vor, und die Konstante C kann frei gewählt werden, solange C ≥ sup ̺ gilt. Um das Acceptance-Rejection-
Verfahren einzusetzen, benötigen wir daher lediglich eine obere Schranke für die unnormierte Dichte ̺.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING
429
(2). Die mittlere Anzahl von Versuchen bis zur Akzeptanz beträgt E[T ] = C/Z. Der Algorithmus ist also umso effizienter, je kleiner C gewählt wird.
Die letzte Bemerkung zeigt auch eine Schwäche des AR-Verfahrens: Damit die Methode praktikabel ist, muss die relative Dichte gleichmäßig durch eine Konstante beschränkt sein, die nicht zu
groß ist. Dies ist besonders in hohen Dimensionen häufig nicht der Fall. Ist man nur an Schätzern
von Erwartungswerten, und nicht an der Simulation einzelner Stichproben interessiert, dann bietet es sich an, Importance Sampling anstelle eines AR-Verfahrens zu verwenden. In diesem Fall
wird zumindest keine gleichmäßige Schranke für die relative Dichte benötigt, s.u. Alternative
Verfahren, um Stichproben zu generieren sind Markov Chain Monte Carlo (MCMC) Methoden.
Beispiel (Abgeschnittene Normalverteilungen). Für a > 0 sei
µ
N (0, 1)[ • | (a, ∞) ]
:=
die auf Werte größer als a konditionierte Standardnormalverteilung. Die Dichte ist proportional
zu
f (x)
e−x
=
2 /2
I(a,∞) (x).
Eine naive Methode zur Simulation einer Stichprobe von µ ist, solange Stichproben von N (0, 1)
zu erzeugen, bis ein Wert größer als a auftritt. Für große a ist dieses Verfahren jedoch extrem
ineffizient, da die Akzeptanzwahrscheinlichkeit N (0, 1)[(a, ∞)] sehr klein ist. Besser geht man
wie folgt vor: Für x > a gilt
f (x)
=
e−(a+(x−a))
2 /2
=
e−a
2 /2
· e−a(x−a)−(x−a)
2 /2
.
Wir schätzen diese Dichte durch die Dichte
gλ (x)
=
λ · e−λ(x−a) · I(a,∞) (x)
einer verschobenen Exponentialverteilung mit Parameter λ ≥ a ab.
Universität Bonn
Wintersemester 2009/2010
430
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
νλ
µ(0, 1)
a
Abbildung 12.1: Dichten der Normalverteilung und der Sampling-Verteilung für die abgeschnittene Normalverteilung (hier die Dichte der Exponentialverteilung).
Maximieren von ̺λ = f /gλ liefert:
C(λ)
:=
sup ̺λ (x)
=
x≥a
1
exp((λ − a)2 /2).
λ
√
Diese Funktion ist für λ = (a+ a2 + 1)/2 minimal. Damit bietet sich der folgende Algorithmus
zum Simulieren einer Stichprobe von µ an:
√
Setze λ := (a + a2 + 1)/2
repeat
erzeuge unabhängige Stichproben u1 , u2 von U(0,1)
1
setze x := a − log u1 (simuliert Stichprobe von νλ )
λ f (x)
̺λ (x)
= gλ (x)·C(λ)
until u2 ≤ C(λ)
return x
Seltene Ereignisse und Importance Sampling
Sei µ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S, S). Angenommen, wir
wollen die Wahrscheinlichkeit
θ
=
µ[A]
Einführung in die Wahrscheinlichkeitstheorie
=
Z
IA dµ
Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING
431
eines Ereignisses A ∈ S mit einem Monte-Carlo-Verfahren näherungsweise berechnen. Der klassische Monte-Carlo-Schätzer
k
θ̂k
1X
IA (Yi ),
k i=1
=
Yi unabhängig mit Verteilung µ,
ist erwartungstreu mit Varianz
Var[θ̂k ]
=
1
Varµ [IA ]
k
θ · (1 − θ)
k
=
und relativem Fehler
2 1/2
E[|θ̂k − θ| ]
/θ
=
σ(θ̂k )/θ
=
1−θ
k·θ
1/2
.
Für seltene Ereignisse ist der relative Fehler hoch, und das Schätzverfahren ineffizient. Ist ν eine
andere Wahrscheinlichkeitsverteilung mit µ ≪ ν, dann können wir alternativ den Importance
Sampling Schätzer
k
θek
=
dµ
1X
IA (Xi ) (Xi ),
k i=1
dν
verwenden. Auch θek ist erwartungstreu, denn
θ
=
µ[A]
=
Zudem gilt
Var[θek ]
=
Xi unabhängig mit Verteilung ν,
Z
IA
dµ
dν
dν
=
1
dµ
Varν IA ·
.
k
dν
E[θek ].
(12.1.3)
Es stellt sich die Frage, wie wir eine Wahrscheinlichkeitsverteilung ν finden, von der wir Stichproben simulieren können, und für die die Varianz in (12.1.3) möglichst klein ist. Wir betrachten
zunächst ein Beispiel:
Beispiel (Berechnung Gaußscher Wahrscheinlichkeiten). Sei C eine strikt positiv definite
symmetrische d × d-Matrix, und sei µ = N (0, C) die multivariate Normalverteilung im Rd
mit Dichte
f (x)
=
1
−1
p
exp − x · C x .
2
(2π)d (det C)
1
Angenommen, wir wollen die Wahrscheinlichkeit θ = µ[A] einer offenen Menge A ⊆ Rd mit
einem Monte-Carlo Verfahren berechnen. Ist der Nullpunkt in der Menge A enthalten, dann ist
A ein „typisches“ Ereignis bzgl. µ, und wir können in der Regel den klassischen Monte-Carlo
Universität Bonn
Wintersemester 2009/2010
432
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Schätzer θ̂k verwenden.
Hier interessiert uns der Fall 0 6∈ A. In diesem Fall ist die Wahrscheinlichkeit θ evtl. sehr klein –
wir wenden daher ein Importance Sampling Verfahren an. Um eine geeignete Referenzverteilung
ν zu erhalten, wählen wir einen Punkt x∗ aus dem Abschluss A mit
f (x∗ )
=
sup f (x),
x∗ · C −1 x∗ = inf x · C −1 x,
d.h.
x∈A
x∈A
(12.1.4)
und setzen
ν
:=
N (x∗ , C).
Wir verschieben die Verteilung also so, dass sie in der Umgebung des „wahrscheinlichsten“ Punktes x∗ ∈ A bzgl. µ, d.h. des Punktes mit maximaler Dichte, konzentriert ist. Die Verteilung ν ist
absolutstetig mit Dichte
g(x)
=
Damit erhalten wir
dµ
(x)
dν
=
1
∗
−1
∗
p
exp − (x − x ) · C (x − x ) .
2
(2π)d det C
1
f (x)
g(x)
=
1 ∗
∗
−1
−1 ∗
exp −x · C x + x · C x .
2
Ist die Menge A konvex, dann gilt
x∗ · C −1 (x − x∗ )
≥
0
für alle x ∈ A,
da x∗ der Minimierer der quadratischen Form x 7→ x · C −1 x in A ist. Damit erhalten wir
1 ∗
dµ
−1 ∗
sup (x) = exp − x · C x ,
2
x∈A dν
und somit nach (12.1.3)
Z 2
Z
dµ
dµ
1
dµ
dν =
dν
k
dν
A
A
1
θ
· exp − x∗ · C −1 x∗ .
≤
k
2
1
Var[θek ] ≤
k
Offensichtlich ist dieser Wert in vielen Fällen deutlich kleiner als die Varianz θ(1 − θ)/k des
klassischen Monte-Carlo Schätzers.
Wir wollen nun Importance Sampling Schätzer systematischer untersuchen. Sei allgemein
Z
θ =
φ dµ
mit φ ∈ L1 (µ),
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING
433
und sei ν eine zu µ absolutstetige Verteilung mit relativer Dichte
w
dν
dµ
=
>
0
µ-fast überall.
Dann ist auch µ absolutstetig bzgl. ν mit relativer Dichte 1/w, und es gilt φ/w ∈ L1 (ν). Wegen
θ
=
Z
φ dµ
Z
=
φ
dν
w
ist der Importance Sampling Schätzer
k
θek
=
1X
φ(Xi )/w(Xi ),
k i=1
Xi unabhängig mit Verteilung ν,
erwartungstreu, und nach dem Gesetz der großen Zahlen konsistent, d.h. θek → θ P -fast sicher
für k → ∞. Für den mittleren quadratischen Fehler ergibt sich:
Satz 12.5 (MSE von Importance Sampling). (1). Es gilt E[|θek − θ|2 ] = σν2 /k mit
σν2
=
φ
Varν
w
Z
=
φ2 (x)
µ(dx) − θ2 .
w(x)
(2). Der mittlere quadratische Fehler ist minimal, falls w proportional zu |φ| ist.
Beweis.
(1). Die Aussage folgt, da θek erwartungstreu ist mit
k · Var[θek ]
=
Varν [φ/w]
=
Z φ(x)
−θ
w(x)
2
w(x)µ(dx).
(2). Aus der Cauchy-Schwarz Ungleichung ergibt sich
Z
|φ| dµ
2
=
Z
|φ| √
√
w dµ
w
2
≤
Z
φ2
dµ ·
w
Z
w dµ = σν2 + θ2
Dies liefert eine untere Schranke für den mittleren quadratischen Fehler. Zudem gilt Gleich√
√
heit in der Cauchy-Schwarz Ungleichung genau dann, wenn w proportional zu |φ|/ w
ist, also, wenn w ∝ |φ| ist.
Das Optimalitätsresultat aus Satz 12.5 ist eher von theoretischer als von praktischer Bedeutung,
wie das folgende Beispiel zeigt:
Universität Bonn
Wintersemester 2009/2010
434
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Beispiel (Seltene Ereignisse). Ist θ = µ[A] für eine Menge A ∈ S, also φ = IA , dann ist
w
=
IA
,
µ[A]
d.h. ν = µ[• | A],
die Importance Sampling Verteilung mit minimalem quadratischen Fehler. Die Simulation von
Stichproben von der bedingten Verteilung ist jedoch für Ereignisse A mit kleiner Wahrscheinlichkeit oft nicht praktikabel. Das AR-Verfahren ist in diesem Fall ineffizient, da die mittlere
Akzeptanzzeit mindestens 1/µ[A] beträgt.
Zumindest liefert Satz 12.5 eine gewisse Rechtfertigung für die Faustregel, dass man bei der Auswahl einer IS Verteilung ν darauf achten sollte, die relative Dichte w von ν bzgl. µ dort groß zu
wählen, wo auch der Integrand φ betragsmäßig große Werte annimmt.
Da die optimale Importance Sampling Verteilung gewöhnlich nicht realisierbar ist, betrachtet
man stattdessen üblicherweise nur Verteilungen aus einer ein- oder mehrparametrigen Familie
(νt )t∈Θ von Wahrscheinlichkeitsverteilungen, und versucht σν2 innerhalb dieser Familie zu minimieren. Am wichtigsten sind dabei die im nächsten Abschnitt betrachteten exponentiellen Familien, da diese eine Minimierungseigenschaft bzgl. der relativen Entropie besitzen, s. Satz 12.13
unten.
Bemerkung. (1). Asymptotische Normalität: Ist φ/w ∈ L2 (ν), dann folgt aus dem zentralen
Grenzwertsatz die asymptotische Normalität des Importance Sampling Schätzers:
√
k(θek − θ)
D
−→
N (0, σν2 )
für k → ∞.
Für praktische Anwendungen ist der nicht-asymptotische mittlere quadratische Fehler allerdings wichtiger.
(2). Importance Sampling mit unnormierten Dichten: In Anwendungen ist die relative Dichte
oft nur bis auf eine Normierungskonstante bekannt, d.h. es gilt
dµ
(x)
dν
=
1
w(x)
∝
̺(x)
mit einer explizit bekannten Funktion ̺(x), aber einem unbekannten Proportionalitätsfaktor. In diesem Fall können wir die Darstellung
θ
=
Z
φ dµ
=
Einführung in die Wahrscheinlichkeitstheorie
Z
dµ
φ dν
dν
=
R
φ̺ dν
R
̺ dν
Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING
435
nutzen, und θ durch den Schätzer
1
k
θk
=
k
P
i=1
1
k
k
P
φ(Xi )̺(Xi )
k
P
=
φ(Xi )̺(Xi )
i=1
̺(Xi )
k
P
Xi i.i.d. ∼ ν,
,
̺(Xi )
(12.1.5)
i=1
i=1
approximieren. Nach dem Gesetz der großen Zahlen ist θk konsistent, d.h. θk → θ fast
sicher für k → ∞. Ein zentraler Grenzwertsatz gilt ebenfalls. Allerdings ist θk i. A. nicht
erwartungstreu, und der nicht-asymptotische mittlere quadratische Fehler ist nicht so leicht
zu kontrollieren, da der Nenner in (12.1.5) degenerieren kann.
(3). Schätzen der Varianz: Ein weiteres zentrales Problem in Anwendungen ist, dass die Varianz
σν2 in der Regel nicht bekannt ist, und häufig auch keine guten Abschätzungen für σν2 vorliegen. Daher behilft man sich in der Praxis oft damit, die Varianz empirisch zu schätzen,
z.B. durch
k
s2k
1 X
k − 1 i=1
=
φ(Xi ) e
− θk
w(Xi )
2
.
Die empirische Schätzung kann jedoch irreführend sein, wie das folgende warnende Beispiel zeigt:
Beispiel. Sei µ das Lebesguemaß auf R,
φ(x)
=
(2π)−1/2 exp(−|x − m|2 /2)
die Dichte der Normalverteilung mit Varianz 1 und Mittelwert m ∈ R, und ν die Standardnor-
malverteilung. In diesem Fall gilt
θ
=
Z
φ dµ
=
1.
Obwohl µ keine Wahrscheinlichkeitsverteilung ist, können wir wie oben Importance Sampling
mit Referenzverteilung ν durchführen. Es gilt dann w(x) = (2π)−1/2 exp(−x2 /2) und
σν2
=
Z
φ(x)2
dx − 1 = (2π)−1/2
w(x)
Z
em
2 −(x−2m)2 /2
2
dx − 1 = em − 1.
Hieraus folgt, dass schon für m = 5 mindestens k ≥ 6.5 · 1015 Stichproben benötigt werden,
damit für den mittleren quadratischen Fehler
Universität Bonn
E[|θek − θ|2 ]1/2
=
σν · k −1/2
<
1
3
Wintersemester 2009/2010
436
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
gilt. Empirisches Schätzen der Varianz in Simulationsläufen liefert ganz andere Ergebnisse. Beispielsweise erhielten wir für k = 106 Stichproben in einem typischen Simulationslauf
s2k = 6816,
d.h. sk · k −1/2 ≈ 0.08 < 1/3.
Die empirische Varianzschätzung suggeriert hier also die falsche Aussage, dass der Schätzwert
bereits für k = 106 genau genug ist!
Die Ursache ist in diesem Fall, dass praktisch keine Stichproben im relevanten Bereich x ≈ m
landen. Daher ist nicht nur der Schätzwert für θ, sondern auch die empirische Varianz sehr klein.
Tatsächlich rechnet man in dem Beispiel leicht nach, dass
Var[s2k ]
1
Varν [φ/w]
k−1
=
≤
1
2
(e6m − 1)
k−1
gilt – der Schätzer s2k für die Varianz ist also völlig unbrauchbar. Das Problem ist, dass in vielen
Anwendungen ähnliche Effekte auftreten können, aber nicht so leicht zu erkennen sind.
12.2
Exponentielle Familien und große Abweichungen
In diesem Abschnitt wollen wir uns überlegen, wie die Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen sowohl asymptotisch als auch numerisch berechnet werden
können. In beiden Fällen hilft uns dasselbe Prinzip weiter: Ein Maßwechsel zu einer Verteilung
aus einer exponentiellen Familie.
Exponentielle Familien
Sei µ ein positives Maß auf (S, S), U : S → Rd eine messbare Funktion, und
Z
Z(t) =
et·U dµ,
t ∈ Rd ,
die momentenerzeugende Funktion von U mit Definitionsbereich
Θ
=
Für t ∈ Θ sei
Λ(t)
{t ∈ Rd | Z(t) < ∞}.
=
log Z(t)
die kumulantenerzeugende Funktion.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN
437
Definition. Die Familie der Wahrscheinlichkeitsverteilungen
νt (dx)
:=
1 t·U (x)
e
µ(dx)
Z(t)
et·U (x)−Λ(t) µ(dx),
=
t ∈ Θ,
heißt exponentielle Familie zu µ und U .
Bemerkung (Boltzmannverteilung). In der statistischen Physik treten exponentielle Familien als Gleichgewichsverteilungen auf. Beispielsweise ist die Verteilung im thermodynamischen
Gleichgewicht in einem abgeschlossenen System bei inverser Temperatur β = 1/T gleich νβ ,
wobei µ die Gleichverteilung bzw. das Lebesguemaß auf dem Zustandsraum und U (x) = −H(x)
die negative Energie des Zustandes x ist. Die Normierungskonstante Z(β) heißt in der statistischen Physik Partitionsfunktion.
Wir betrachten nun einige elementare Beispiele von exponentiellen Familien:
Beispiel. (1). Exponential und Gammaverteilungen. Ist µ die Exponentialverteilung mit Parameter λ > 0, und U (x) = −x, dann ist M (t) für t > −λ endlich, und es gilt
νt
=
für alle t > −λ.
Exp(λ + t)
Die exponentielle Familie besteht also aus allen Exponentialverteilungen.
Ist µ = Γ(α, λ) eine Gammaverteilung, dann gilt entsprechend νt = Γ(α, λ + t).
(2). Bernoulli-, Binomial- und Poissonverteilungen Ist µ die Bernoulliverteilung mit Parameter p und U (k) = k, dann gilt νt (1) = pt mit
pt
=
et p
et p + 1 − p
=
p
,
p + (1 − p)e−t
d.h. νt ist die Bernoulliverteilung mit Parameter pt . Entsprechend gilt für U (k) = k:
µ = Bin(n, p)
µ = Poisson(λ)
⇒
⇒
νt = Bin(n, pt ),
und
νt = Poisson(λet ).
Die exponentielle Familie besteht also jeweils aus allen Bernoulliverteilungen, Binomialverteilungen mit festem n, bzw. Poissonverteilungen.
(3). Normalverteilungen. Ist µ = N (m, C) eine d-dimensionale Normalverteilung, und U (x) =
x, dann gilt νt = N (m + Ct, C) für t ∈ Rd . Im nichtdegenerierten Fall enthält die
exponentielle Familie also alle Normalverteilungen mit fester Kovarianzmatrix C. Für
d = 1, µ = N (m, σ 2 ), und
U (x)
Universität Bonn
=
−
(x − m)2
2
Wintersemester 2009/2010
438
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
erhält man
νt
=
N
m,
1
1
+
σ2
t
−1 !
für t > 0,
d.h. die exponentielle Familie besteht aus Normalverteilungen mit festem Mittelwert m.
Entsprechend kann man die Familie der eindimensionalen Normalverteilungen als zweiparametrige exponentielle Familie bzgl. einer Referenz-Normalverteilung interpretieren.
Wir beschränken uns nun auf den Fall d = 1. Sei (νt )t∈Θ eine einparametrige exponentielle
◦
Familie zu µ und U , und sei Θ = Θ \ ∂Θ der offene Kern des Definitionsbereichs.
Lemma 12.6 (Eigenschaften exponentieller Familien).
◦
◦
(1). Es gilt Z ∈ C ∞ (Θ). Für t ∈ Θ existieren die Erwartungswerte und Varianzen
Z
m(t) =
U dνt
bzw.
v(t) = Varνt [U ],
und es gilt
m(t)
Λ′ (t)
=
und
v(t)
=
Λ′′ (t).
◦
(2). Die Funktion m ist auf Θ beliebig oft differenzierbar und monoton wachsend. Ist U nicht
ν-fast überall konstant, dann ist m sogar strikt monoton wachsend. Im Fall Θ = R gilt
zudem
lim m(t) = esssup U
=
inf{a ∈ R : µ[U > a] = 0},
und (12.2.1)
lim m(t) = essinf U
=
sup{a ∈ R : µ[U < a] = 0},
(12.2.2)
t→∞
t→−∞
d.h. m : R → (essinf U, esssup U ) ist bijektiv.
Beweis.
◦
(1). Sei t ∈ Θ. Wir betrachten die momentenerzeugende Funktion
Z
M (s) =
esU dνt
◦
der Verteilung νt . Wegen t ∈ Θ gilt
Z
1 (s+t)U
M (s) =
e
dµ
Z(t)
=
Z(s + t)/Z(t)
<
∞
(12.2.3)
für alle s in einer Umgebung (−ε, ε) der 0, also M ∈ C ∞ (−ε, ε). Wegen (12.2.3) folgt
Z ∈ C ∞ (t − ε, t + ε),
Z
U dνt = M ′ (0)
=
Varνt [U ] = (log M )′′ (0)
Einführung in die Wahrscheinlichkeitstheorie
Z ′ (t)
= Λ′ (t),
Z(t)
= Λ′′ (t).
und
Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN
439
◦
(2). Aus (1) folgt m = Λ′ ∈ C ∞ (Θ) und m′ = v. Also ist m monoton wachsend, und strikt
monoton wachsend, falls Varνt [U ] > 0. Für a ∈ (essinf U, esssup U ) folgt mit monotoner
Konvergenz
νt [U ≤ a]
νt [U > a]
R tU
e · I{U ≤a} dµ
R
etU · I{U >a} dµ
=
=
für t → ∞, also lim νt [U > a] = 1. Hieraus folgt
t→∞
lim inf m(t)
t→∞
≥
a · lim inf νt [U > a]
t→∞
R t(U −a)
e
· I{U ≤a} dµ
R
et(U −a) · I{U >a} dµ
=
a
→
0
für alle a < esssup U,
also (12.2.1). Die Aussage (12.2.2) zeigt man analog.
Beispiel (Isingmodell). Das Isingmodell wurde 1925 in der Dissertation von Ernst Ising mit der
Absicht eingeführt, Phasenübergänge von ferromagnetischen Materialien in einem vereinfachten
mathematischen Modell nachzuweisen. Heute spielt das Isingmodell eine wichtige Rolle als einfach zu formulierendes, aber schwer zu analysierendes grundlegendes mathematisches Modell,
das auch in unterschiedlichen Anwendungsbereichen wie z.B. der Bildverarbeitung eingesetzt
wird.
Sei S = {−1, 1}V , wobei V die Knotenmenge eines endlichen Graphen (V, E) ist, z.B.
V
=
{−k, −k + 1, . . . , k − 1, k}d ⊆ Zd ,
d, k ∈ N.
Ein Element σ = (σi |i ∈ V ) aus S interpretieren wir physikalisch als Konfiguration von Spins
σi ∈ {−1, 1} an dem Knoten i ∈ V , wobei σi = +1 für einen Spin in Aufwärtsrichtung und
σi = −1 für einen Spin in Abwärtsrichtung steht. Da benachbarte Spins sich vorzugsweise gleich
ausrichten, ist die Energie einer Konfiguration σ durch
X
X
H(σ) =
|σi − σj |2 + h ·
σi
(i,j)∈E
i∈V
gegeben, wobei die erste Summe über alle Kanten des Graphen läuft, und der zweite Term die
Wechselwirkung mit einem äußeren Magnetfeld mit Stärke h ∈ R beschreibt. Als Gleichge-
wichtsverteilung bei inverser Temperatur β = 1/T ergibt sich die Verteilung µβ,h auf S mit
Gewichten
µβ,h (σ)
∝
exp(−β
X
(i,j)∈E
|σi − σj |2 − βh ·
X
σi ).
i∈V
Die folgende Grafik zeigt Stichproben von der Verteilung µβ,h auf einem ?×? Gitter V für verschiedene Werte von β und h. Für β = 0 (d.h. bei unendlicher Temperatur) ergibt sich eine
Universität Bonn
Wintersemester 2009/2010
440
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Gleichverteilung. Für β → ∞ (Temperatur → 0) konzentriert sich die Verteilung dagegen auf
den energieminimierenden Konfigurationen. Dieses sind für h = 0 die beiden konstanten Konfigurationen σi ≡ +1 und σi ≡ −1, für h 6= 0 hat dagegen nur eine dieser Konfigurationen
minimale Energie.
Der Satz von Cramér
Sei µ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S, S), U : S → R eine
messbare Funktion, und sei (Xi )i∈N eine Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilung µ. Wir setzen voraus:
Annahmen:
(1). Alle exponentiellen Momente der Zufallsvariablen U (Xi ) existieren, d.h.
Z
Λ(t) = log etU dµ < ∞
für alle t ∈ R.
(2). U ist nicht µ-fast sicher konstant.
Sei a ∈ R fest. Wir möchten nun die Asymptotik der Wahrscheinlichkeiten
θn
=
P [Sn ≥ an],
Sn =
n
X
U (Xi ),
i=1
für n → ∞ genauer untersuchen. Nach dem Gesetz der großen Zahlen gilt:
Z
Sn /n −→ m =
U dµ
P -fast sicher.
Für a > m ist das Ereignis {Sn ≥ an} also eine große Abweichung vom typischen Verhalten. Der
Satz von Chernoff liefert eine obere Schranke der Wahrscheinlichkeiten θn . Um die Asymptotik
genauer zu verstehen, führen wir eine Maßtransformation durch. Es gilt
(
)
n
X
θn = µn [An ] mit An = x ∈ S n :
U (xi ) ≥ an .
(12.2.4)
i=1
Wir wollen zu einer Verteilung übergehen, bzgl. der das Ereignis An nicht mehr selten, sondern
typisch ist. Dazu betrachten wir die Produktmaße νtn , t ∈ R, wobei νt absolutstetig bzgl. µ ist mit
Dichte
dνt
(x)
dµ
=
Einführung in die Wahrscheinlichkeitstheorie
exp (tU (x) − Λ(t)) .
Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN
441
Die relative Dichte von νtn bzgl. µn ist dann
wtn (x1 , . . . , xn )
=
n
Y
dνt
i=1
dµ
(xi )
=
exp t
n
X
i=1
!
U (xi ) − nΛ(t) .
(12.2.5)
Man beachte, dass (νtn )t∈R wieder eine exponentielle Familie ist. Es gilt
wtn (X1 , . . . , Xn )
exp(tSn − nΛ(t)).
=
Bemerkung. Der stochastische Prozess Mn = exp(tSn − nΛ(t)), n = 0, 1, 2, . . . , ist ein expo-
nentielles Martingal. Exponentielle Martingale spielen in der stochastischen Analysis eine wichtige Rolle, s. [Introduction to Stochastical Analysis].
Wir wollen uns nun überlegen, wie wirden Parameter t in angemessener Weise wählen können.
Wenn wir t zu klein wählen, dann hat das Ereignis An für große n nur eine geringe Wahrscheinlichkeit bzgl. νtn . Wählen wir umgekehrt t sehr groß, dann liegt die Wahrscheinlichkeit νtn [An ]
für große n nahe bei 1. In beiden Fällen sind Abschätzungen für νtn [An ] daher nur bedingt aussagekräftig. Um eine präzisere Aussage zu erhalten, sollten wir t so groß wählen, dass das Ereignis
An „gerade typisch wird.“ Der Erwartungswert
Z
m(t) =
U dνt ,
t ∈ R,
ist nach Lemma 12.6 strikt monoton wachsend. Wählen wir t∗ mit
m(t∗ )
=
a,
dann gilt nach dem Gesetz der großen Zahlen
)#
"(
n
X
1
U (xi ) ∈ (a − ε, a + ε)
lim νtn∗
x ∈ Sn :
n→∞
n i=1
und nach dem zentralen Grenzwertsatz
"(
lim νtn∗
n→∞
n
1X
U (xi ) ≥ a
x ∈ Rn :
n i=1
)#
=
1
=
für alle ε > 0,
1
,
2
d.h. t∗ ist gerade der gesuchte „Schwellenwert.“
Die Umsetzung unserer Überlegungen führt zu einer ersten Aussage über die Asymptotik der
Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen auf der exponentiellen Skala:
Universität Bonn
Wintersemester 2009/2010
442
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Satz 12.7 (Cramér). Unter den Annahmen von oben gilt
1
Sn
lim log P
≥a
= −I(a)
für alle a ∈ (m, esssup U ),
n→∞ n
n
wobei die Ratenfunktion
I(a)
sup(ta − Λ(t))
=
t∈R
die Legendretransformation von Λ ist.
Bemerkung. Der Satz von Cramér besagt, dass sich die Wahrscheinlichkeiten θn = P [Sn /n ≥
a] asymptotisch wie exp(−n · I(a)) verhalten, wenn man subexponentiell wachsende Faktoren
vernachlässigt. Er besagt nicht, dass die Folgen (θn ) und (exp(−n·I(a))) asymptotisch äquivalent
sind!
Beweis. Der Beweis setzt sich zusammen aus einer nicht-asymptotischen Abschätzung der Wahrscheinlichkeiten
θn
=
P [Sn ≥ an]
=
n
An = {x ∈ S
µ [An ],
n
:
n
X
i=1
U (xi ) ≥ an},
nach oben, und einer asymptotischen Abschätzung der Wahrscheinlichkeit nach unten.
(1). Obere Schranke. Die nicht-asymptotische obere Schranke
1
log θn ≤ −I(a)
n
für alle n ∈ N
liefert der Satz von Chernoff (Satz 8.3). Zur Illustration schreiben wir das Hauptargument
aus dem Beweis von oben noch einmal so auf, dass der Zusammenhang mit einer Maßtransformation verdeutlicht wird: Für t > 0 gilt nach (12.2.5):
Z
1
n
θn = µ [An ] =
dν n
wtn t
An
=
Z
exp −t
An
n
X
U (xi ) + Λ(t)n
i=1
!
dνtn
≤ e−(ta−Λ(t))n · νtn [An ]
≤ e−(ta−Λ(t))n .
Hieraus folgt die Behauptung wie im Beweis von Satz 8.3 durch Optimieren der Abschätzung in t.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN
443
(2). Untere Schranke. Wir zeigen nun die asymptotische untere Schranke
lim inf
n→∞
1
log µn [An ]
n
≥
−I(a).
(12.2.6)
Zusammen mit der oberen Schranke folgt dann
1
log µn [An ]
n→∞ n
lim
=
−I(a),
d.h. die obere Schranke ist asymptotisch „scharf“. Zum Beweis von (12.2.6) gehen wir zu
der Verteilung νtn∗ zum Schwellenwert t∗ = m−1 (a) über. Nach Lemma 12.6 ist m : R →
(essinf U, esssup U ) bijektiv, also existiert m−1 (a) > 0 für a ∈ (m, esssup U ). Für ε > 0
sei
An,ε
=
(
x ∈ Sn
)
n
1X
: a≤
U (xi ) ≤ a + ε .
n i=1
Ähnlich wie bei der oberen Schranke erhalten wir
!
Z
n
X
∗
n
n
exp −t
U (xi ) + Λ(t)n dνtn∗
µ [An ] ≥ µ [An,ε ] =
i=1
An,ε
≥ e−(t
∗ (a+ε)−Λ(t∗ ))n
≥ e−I(a)·n e−t
Wegen
R
∗ εn
νtn∗ [An,ε ]
· νtn∗ [An,ε ]
(12.2.7)
U dνt∗ = m(t∗ ) = a gilt nach dem zentralen Grenzwertsatz:
#
"
n
X
√
1
νtn∗ [An,ε ] = νtn∗ 0 ≤ √
(U (xi ) − a) ≤ ε n
n i=1
n→∞
−→ N (0, Var[U ])[[0, ∞)]
1
,
2
=
(12.2.8)
d.h. die große Abweichung ist typisch unter νtn∗ .
Für die Wahrscheinlichkeiten bzgl. µn ergibt sich dann nach (12.2.7):
lim inf
1
log µn [An ] ≥ −I(a) − t∗ ε.
n
Die Behauptung folgt für ε ց 0.
Bemerkung. Ähnliche Aussagen über die Asymptotik von Wahrscheinlichkeiten großer Abweichungen wurden auch in vielen Modellen mit Abhängigkeit bewiesen. Sie spielen unter anderem
in der mathematischen statistischen Mechanik eine wichtige Rolle.
Universität Bonn
Wintersemester 2009/2010
444
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Asymptotische Effizienz von IS Schätzern
Der beschriebene Maßwechsel ermöglicht nicht nur die asymptotische Berechnung der Wahrscheinlichkeiten
θn
P [Sn ≥ an]
=
µn [An ].
=
Wir können den Maßwechsel auch praktisch verwenden, um die Wahrscheinlichkeiten θn numerisch mithilfe von Importance Sampling zu berechnen. Wählen wir νtn als Referenzmaß, dann
erhalten wir nach (12.2.5) die Importance Sampling Schätzer
k X
I
1
A
(j)
n
(k)
(X1 , . . . , Xn(j) )
θen =
k j=1 wtn
k
1X
=
I{Sn(j) ≥an} · exp −tSn(j) + Λ(t) · n
k j=1
(j)
mit unabhängigen Zufallsvariablen Xi
(j)
mit Verteilung νt und Sn =
n
P
i=1
(j)
Xi . Wir können ver-
muten, dass auch diese Schätzer für große n nur für t nahe t∗ effizient sind, da ansonsten das
Ereignis An eine Wahrscheinlichkeit nahe 0 oder 1 bzgl. νtn hat, und daher die überwiegende
(j)
Mehrheit der Stichproben Sn außerhalb bzw. in An liegt. Diese Vermutung lässt sich bestätigen.
Auf ähnliche Weise wie beim Beweis des Satzes von Cramér erhalten wir:
(k)
Lemma 12.8. Der Schätzer θen ist für jedes t ∈ R und k, n ∈ N erwartungstreu. Für die Varianz
gelten folgende Abschätzungen:
Var[θen(k) ]
1 −2n·(at−Λ(t))
e
,
k
≤
(k)
log Var[θen ]
lim inf
n→∞
log θn2
≥
(12.2.9)
at − Λ(t)
.
I(a)
(12.2.10)
Bemerkung. Die zweite Aussage sieht auf den ersten Blick wie eine untere Schranke aus. Tatsächlich handelt es sich aber um eine Abschätzung der Varianz nach oben, da der Nenner log θn2
negativ ist.
Beweis. Für die Varianz erhalten wir ähnlich wie beim Beweis der oberen Schranke im Satz von
Cramér:
k·
Var[θen(k) ]
=
Varνn [IAn /wtn ]
=
Z
≤
Z
(wtn )−2 dνtn
An
exp −2t
An
n
X
i=1
U (xi ) + 2Λ(t) · n
!
νtn (dx)
≤ exp(−2 · (ta − Λ(t))n),
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN
445
wobei wtn = dνtn /dµn die relative Dichte ist. In Kombination mit der unteren Schranke aus dem
Satz von Cramér folgt
lim inf
n→∞
(k)
(k)
log Var[θen ]
1
−n−1 log Var[θen ]
=
lim
inf
log θn2
2 n→∞
−n−1 log θn
(k)
1 − lim sup n−1 log Var[θen ]
·
≥
2
− lim inf n−1 log θn
at − Λ(t)
≥
.
I(a)
Hierbei haben wir die Vorzeichen eingefügt, da log θn negativ ist.
Aus dem Lemma ergibt sich:
(k)
Satz 12.9 (Logarithmische Effizienz). Gilt t = t∗ , dann ist die Folge (θen )n∈N von Schätzern
für die Wahrscheinlichkeiten θn für jedes k ∈ N logarithmisch effizient, d.h. für jedes ε > 0 gilt
E[|θen − θn |2 ]
θn2−ε
(k)
lim sup
n→∞
∞.
<
Beweis. Die Funktion f (t) = ta − Λ(t) hat ein globales Maximum bei t∗ = m−1 (a), denn es gilt
f ′ (t) = a − Λ′ (t)
f ′′ (t) = −Λ′′ (t)
a − m(t)
=
0
für t = t∗ , und
− Varνt [U ]
<
0
für alle t ∈ R.
sup(ta − Λ(t))
=
t∗ a − Λ(t∗ ).
≤
−1,
=
=
Also gilt
I(a)
=
t∈R
∗
Für t = t folgt dann aus Lemma 12.8
(n)
log Var[θek ]
lim sup
− log θk2
k→∞
d.h. zu jedem ε > 0 existiert ein n0 ∈ N mit
bzw.
log Var[θen(k) ]
Var[θen(k) ]
≤
≤
θn2+2ε
−(−1 + ε) log θn2 ,
für alle n ≥ n0 .
Umgekehrt kann man zeigen, dass bei anderer Wahl von t keine logarithmische Effizienz vorliegt.
Dies rechtfertigt die zunächst anschaulich motivierte Wahl von t als Schwellenwert t∗ = m−1 (a).
Universität Bonn
Wintersemester 2009/2010
446
12.3
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Relative Entropie und statistische Unterscheidbarkeit
In diesem Abschnitt werden wir den Wechsel des zugrundeliegenden Wahrscheinlichkeitsmaßes
systematischer untersuchen. Dabei spielt der Begriff der relativen Entropie eine zentrale Rolle.
Relative Entropie
Seien µ und ν Wahrscheinlichkeitsverteilungen auf S = Rd oder einem diskreten Raums mit
Dichten (bzw. Massenfunktionen) f, g > 0. Die relative Dichte w von ν bzgl. µ ist
w(x)
dν
(x)
dµ
:=
g(x)
f (x)
=
für µ-fast alle x ∈ S.
Die Dichte bzw. Massenfunktion
Ln (µ; x1 , . . . , xn )
n
Y
=
f (xi )
i=1
der Verteilung n unabhängiger Stichproben X1 , . . . , Xn von µ bezeichnet man auch als Likelihood der Verteilung µ bzgl. der Daten (x1 , . . . , xn ).
Wie kann man anhand von unabhängigen Stichproben erkennen, welche der beiden Verteilungen
µ und ν in einem Zufallsexperiment vorliegt? Dazu betrachten wir den Likelihoodquotienten
wn (x1 , . . . , xn )
:=
Ln (ν; x1 , . . . , xn )
Ln (µ; x1 , . . . , xn )
=
n
Q
i=1
n
Q
i=1
Definition. Die durch
H(ν | µ) =
Z
H(ν | µ) = ∞
log w dν =
sonst,
Z
w log w dµ
g(xi )
=
f (xi )
n
Y
w(xi ).
i=1
falls ν ≪ µ mit Dichte w,
definierte Größe H(ν | µ) ∈ [0, ∞] heißt relative Entropie (oder Kullback-Leibler Information)
von ν bzgl. µ.
Um eine anschauliche Interpretation der relativen Entropie zu geben, bemerken wie, dass
Z
Z
g
(− log f (x) − (− log g(x))) ν(dx)
H(ν | µ) =
log dν =
f
gilt. Wir können − log f (x) und − log g(x) als Maß für die Überraschung (den Informationsge-
winn) bei Eintreten von x interpretieren, falls µ bzw. ν das zugrundeliegende Modell ist. Wenn
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT
447
wir also µ als Modell annehmen, aber tatsächlich ν die zugrundeliegende Verteilung ist, dann erhöht sich die Überraschung (der Informationszuwachs) bei Ziehen einer Stichprobe im Vergleich
zum korrekten Modell im Mittel um H(ν | µ).
Satz 12.10 (Shannon-Mac Millan). Seien X1 , X2 , . . . : Ω → S unabhängige Zufallsvariablen
unter Pµ bzw. Pν mit Verteilung µ bzw. ν. Dann gilt für n → ∞:
(1).
1
log wn (X1 , . . . , Xn )
n
(2).
1
log wn (X1 , . . . , Xn )
n
Beweis.
−→
−→
H(ν | µ)
Pν -fast sicher.
−H(µ | ν)
Pµ -fast sicher.
(1). Für n → ∞ gilt nach dem Gesetz der großen Zahlen
1
log wn (X1 , . . . , Xn )
n
n
1X
log w(Xi )
n i=1
=
−→
Das Gesetz der großen Zahlen ist anwendbar, da
Z
Z
−
(log w) dν =
(w log w)− dµ
Z
≤
log w dν
1
e
Pν -fast sicher.
∞.
<
(2). Da µ absolutstetig bzgl. ν mit Dichte 1/w ist, gilt entsprechend
1
log wn (X1 , . . . , Xn )
n
n
1
1X
log
n i=1
w(Xi )
Z
1
GdgZ
−→ − log dµ =
w
=
−
−H(µ | ν)
Pµ -fast sicher.
Der Satz zeigt, dass sich die Produktdichte (der Likelihoodquotient) asymptotisch auf der exponentiellen Skala (d.h. unter Vernachlässigung subexponentiell wachsender Faktoren) folgendermaßen verhält:
wn (X1 , . . . , Xn )
≃

enH(ν | µ)
e−nH(µ | ν)
Pν -fast sicher
.
Pµ -fast sicher
Das folgende Lemma fasst einige elementare Eigenschaften der relativen Entropie zusammen:
Lemma 12.11 (Eigenschaften der relativen Entropie).
Universität Bonn
Wintersemester 2009/2010
448
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
(1). Es gilt H(ν | µ) ≥ 0 mit Gleichheit genau dann, wenn ν = µ.
(2). Ist µ die Gleichverteilung auf einer endlichen Menge S, dann gilt
H(ν | µ)
(3). H(ν1 ⊗ . . . ⊗ νn | µ1 ⊗ . . . ⊗ µn )
Beweis.
=
=
n
P
i=1
log |S| − H(ν).
(12.3.1)
H(νi | µi ).
(1). Aus der Jensenschen Ungleichung folgt
Z
Z
Z
H(ν | µ) =
w log w dµ ≥
w dµ · log w dµ
=
0.
Gleichheit gilt genau dann, wenn w µ-fast sicher konstant, also ν = µ ist.
(2). In diesem Fall gilt w(x) = ν(x) · |S|, also
H(ν | µ)
=
X
x∈S
ν(x) log(ν(x) · |S|)
=
log |S| − H(ν).
(3). Übung.
Nach (12.3.1) liefern Aussagen über die relative Entropie als Spezialfall entsprechende Aussagen
für die Entropie.
Beispiel. (1). Bernoulliverteilungen: Für die Bernoulliverteilungen µp mit µp (1) = p und µp (0) =
1 − p gilt:
H(µa | µp )
=
1−a
a
+ (1 − a) log
a log
p
1−p
für alle a, p ∈ (0, 1).
(2). Normalverteilungen: Für m, m
e ∈ R und v, ve > 0 gilt:
1
v
(m
e − m)2
ve
log
,
H(N (m,
e ve) | N (m, v)) =
+ −1+
2
ve
v
v
(m
e − m)2
H(N (m,
e v) | N (m, v)) =
.
2v
also insbesondere
Die relative Entropie ist ein im Allgemeinen nichtsymmetrischer Abstandsbegriff für Wahrscheinlichkeitsverteilungen. Ihre statistische Interpretation werden wir im nächsten Abschnitt noch weiter präzisieren. Zuvor bemerken wir, dass die relative Entropie Aussagen über die Größe wesentlicher Mengen bei Wechsel der zugrundeliegenden Wahrscheinlichkeitsverteilung ermöglicht:
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT
449
Maßwechsel und untere Schranken für große Abweichungen
Seien X1 , X2 , . . . unter Pµ bzw. Pν unabhängige Zufallsvariablen mit Verteilung µ bzw. ν. Wie
in Abschnitt 7.4 nennen wir eine Folge Bn von messbaren Teilmengen der Produkträume S n
wesentlich bzgl. ν, falls
Pν [(X1 , . . . , Xn ) ∈ Bn ]
=
ν n [Bn ]
−→
1
für n → ∞.
Die folgende Aussage verallgemeinert den Maßkonzentrationssatz von MacMillan und den Quellenkodierungssatz von Shannon aus Abschnitt 7.4.
Korollar 12.12. (1). Für jedes ε > 0 ist die Folge
Bn,ε := {(x1 , . . . , xn ) | en(H(ν | µ)−ε) ≤ wn (x1 , . . . , xn ) ≤ en(H(ν | µ)+ε) } ⊆ S n
wesentlich bzgl. ν, und
µn [Bn,ε ]
e−n(H(ν | µ)−ε)
≤
für alle n ∈ N.
(12.3.2)
(2). Für beliebige messbare Mengen An ⊆ S n mit
gilt
lim inf
lim inf ν n [An ] > 0
(12.3.3)
1
log µn [An ] ≥ −H(ν | µ).
n
(12.3.4)
Bemerkung. Der Maßkonzentrationssatz von MacMillan und der Quellenkodierungssatz von
Shannon ergeben sich als Spezialfall von (1) bzw. (2), wenn S endlich und ν die Gleichverteilung
ist.
Wir beweisen nun das Korollar.
Beweis.
(1). Die Mengen Bn,ε , n ∈ N, sind wesentlich bzgl. ν nach Satz 12.10. Zudem gilt:
Z
n
wn dµn ≥ µn [Bn,ε ] · en(H(ν | µ)−ε) .
1 ≥ ν [Bn,ε ] =
Bn,ε
(2). beweist man analog zum Quellenkodierungssatz (Satz 7.17): Aus
Z
1
n
µ [An ] =
dνn ≥ e−n(H(ν | µ)+ε) ν n [An ∩ Bn,ε ]
wn
An
Universität Bonn
Wintersemester 2009/2010
450
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
folgt
1
1
log µn [An ] ≥ −(H(ν | µ) + ε) + lim inf log ν n [An ∩ Bn,ε ]
n
n
= −(H(ν | µ) + ε),
lim inf
da lim inf ν n [An ∩ Bn,ε ] = lim inf ν n [An ] > 0 nach (1) gilt. Die Behauptung folgt für
ε → 0.
Die zweite Aussage der Korollars können wir als eine allgemeine untere Schranke für große
Abweichungen interpretieren: Ist An ⊆ S n eine Folge von Ereignissen, deren Wahrscheinlichkeit
bzgl. µn gegen 0 geht, dann liefert uns (12.3.4) für jede Wahrscheinlichkeitsverteilung ν mit
(12.3.3) eine asymptotische Schranke für die Wahrscheinlichkeiten
Pµ [(X1 , . . . , Xn ) ∈ An ]
µn [An ]
=
auf der exponentiellen Skala.
Als erste Anwendung betrachten wir nochmal die Situation aus dem Satz von Cramér: Sei U :
R
S → R eine messbare Funktion mit etU dµ < ∞ für alle t ∈ R, und sei
Z
a > m =
U dµ.
Um aus (12.3.4) eine bestmögliche asymptotische untere Schranke für die Wahrscheinlichkeiten
µn [An ] der großen Abweichungen
(
An
=
n
(x1 , . . . , xn ) ∈ S n
1X
U (xi ) ≥ a
:
n i=1
)
zu erhalten, müssen wir eine Wahrscheinlichkeitsverteilung ν finden, die die relative Entropie
H(ν | µ) unter allen Wahrscheinlichkeitsverteilungen ν mit (12.3.3) minimiert. Die Bedingung
R
(12.3.3) ist aber genau dann erfüllt, wenn U dν ≥ a gilt, denn aus dem Gesetz der großen
Zahlen und dem zentralen Grenzwertsatz folgt:
lim ν n
n→∞
"
n
1X
U (xi ) ≥ a
n i=1
Das sich ergebende Variationsproblem
H(ν | µ)
=
#
Z
=



1

1/2



0
für a <
für a =
für a >
R
R
U dν
U dν .
(12.3.5)
U dν
!
w log w dµ = min
Z
Z
unter der Nebenbedingung
U dν =
U w dµ
Einführung in die Wahrscheinlichkeitstheorie
R
≥
a
Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT
451
kann man formal durch Variationsrechnung lösen. Als eindeutige Lösung erhält man gerade die
Verteilung νt∗ aus der exponentiellen Familie
νt (dx)
1
exp (tU (x)) µ(dx),
Z(t)
=
zum eindeutigen Schwellenwert t∗ mit
R
Z
Z(t) =
etU dµ,
U dνt∗ = a:
Satz 12.13 (Variationsprinzip für die relative Entropie). Sei t ≥ 0 und m(t) =
R
U dνt . Dann
minimiert das Maß νt die relative Entropie bzgl. µ unter allen Wahrscheinlichkeitsverteilungen ν
R
mit U dν ≥ m(t):
H(νt | µ) = t · m(t) − log Z(t)
= min{H(ν | µ) : ν Wahrscheinlichkeitsmaß mit
Z
Beweis. Sei ν eine Wahrscheinlichkeitsverteilung mit H(ν | µ) < ∞ und
gilt ν ≪ µ und
Z
U dν ≥ m(t)}.(12.3.6)
R
U dν ≥ m(t). Dann
Z
Z
dν
dνt
=
log
dν
H(ν | µ) =
dν + log
dνt
dµ
Z
= H(ν | νt ) + t U dν − log Z(t)
dν
log dν
dµ
≥ tm(t) − log Z(t).
Für ν = νt ergibt sich Gleichheit.
Wir beweisen nun die untere Schranke aus dem Satz von Cramér zur Illustration noch einmal
mithilfe von Korollar 12.12:
R
Für ν = νt∗ gilt U dν = m(t∗ ) = a, also nach 12.3.5 lim ν n [An ] = 21 . Damit erhalten wir nach
Korollar 12.12(2) und (12.3.6) die untere Schranke
lim inf
1
log µn [An ]
n
≥
−H(ν | µ)
=
t∗ · m(t∗ ) − log Z(t∗ )
≥
−I(a),
wobei I die Ratenfunktion aus Satz 12.7 ist.
Das beschriebene Vorgehen ergibt nicht nur die untere Schranke. Es demonstriert auch, dass der
Maßwechsel über die exponentielle Familie sinnvoll ist, da er asymptotisch die bestmöglichen
Abschätzungen liefert.
Universität Bonn
Wintersemester 2009/2010
452
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Große Abweichungen für empirische Verteilungen
Mithilfe von Korollar 12.12 können wir noch eine stärkere Form der unteren Schranke für große
Abweichungen vom Gesetz der großen Zahlen herleiten. Seien dazu
n
Ln (ω)
=
1X
δX (ω) ,
n i=1 i
n ∈ N,
die empirischen Verteilungen einer Folge (Xi )i∈N unabhängiger Zufallsvariablen mit Verteilung
µ bzgl. Pµ . Aus dem Gesetz der großen Zahlen folgt die fast sichere schwache Konvergenz der
empirischen Verteilungen
ω
−→
Ln (ω)
µ
für Pµ -fast alle ω.
(12.3.7)
Insbesondere konvergiert die Wahrscheinlichkeit Pµ [Ln 6∈ U] für jede Umgebung U der Wahr-
scheinlichkeitsverteilung µ bzgl. der Topologie der schwachen Konvergenz gegen 0. Die Konvergenzgeschwindigkeit auf der exponentiellen Skala lässt sich durch ein Prinzip der großen
Abweichungen auf dem Raum WV(S) der Wahrscheinlichkeitsverteilungen auf (S, S) mit der
Topologie der schwachen Konvergenz beschreiben:
Satz 12.14 (Sanov). Die empirischen Verteilungen Ln =
1
n
der großen Abweichungen:
n
P
i=1
δXi erfüllen das folgende Prinzip
(1). Obere Schranke: Für jede abgeschlossene Menge A ⊆WV(S) gilt:
lim sup
n→∞
1
log Pµ [Ln ∈ A]
n
≤
− inf H(ν | µ).
ν∈A
(2). Untere Schranke: Für jede offene Menge O ⊆WV(S) gilt:
lim inf
n→∞
Beweis.
1
log Pµ [Ln ∈ O]
n
≥
− inf H(ν | µ).
ν∈O
(2). Zum Beweis der unteren Schranke wechseln wir wieder das zugrundeliegende
Maß, und wenden Korollar 12.12 an. Sei O ⊆ WV(S) offen und ν ∈ O. Nach (12.3.7) ist
dann die Folge
n
An
wesentlich bzgl. ν, denn
=
1X
{(x1 , . . . , xn ) ∈ S |
δx ∈ O}
n i=1 i
ν n [An ]
n
=
Einführung in die Wahrscheinlichkeitstheorie
Pν [Ln ∈ O]
−→
1
Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT
für n → ∞. Daher folgt nach Korollar 12.12(2):
1
1
lim inf log Pµ [Ln ∈ O] = lim inf log µn [An ]
n→∞ n
n→∞ n
Die Behauptung ergibt sich, da dies für alle ν ∈ O gilt.
≥
453
−H(ν | µ).
(1). Die obere Schranke beweisen wir hier nur für endliche Zustandsräume S, s. z.B. [Dembo
und Zeitouni: Large Deviations] für den Beweis im allgemeinen Fall. Ist S endlich, und ν
eine bzgl. µ absolutstetige Wahrscheinlichkeitsverteilung mit Dichte w = dν/dµ, dann gilt
n
P
δxi = ν:
für alle (x1 , . . . , xn ) ∈ S n mit empirischer Verteilung n1
i=1
n
Y
n
X
dν
(xi ) = exp
log
dµ
i=1
Z
i=1
dν
dν
=
= exp n log
dµ
dν n
(x1 , . . . , xn ) =
dµn
Damit folgt
dν
(xi )
dµ
!
exp(n · H(ν | µ)).
)#
n
1X
Pµ [Ln = ν] = µn
(x1 , . . . , xn ) δ xi = ν
n
i=1
)#
"(
n
1X
δ xi = ν
= e−nH(ν | µ) · ν n
(x1 , . . . , xn ) n
i=1
"(
(12.3.8)
≤ e−nH(ν | µ) .
Jeder empirischen Verteilung von n Elementen x1 , . . . , xn ∈ S entspricht ein Histogramm
~h = (ha )a∈S ∈ {0, 1, . . . , n}S . Für die Anzahl der möglichen empirischen Verteilungen
gilt daher
(
n
1X
δ xi
n
i=1
)
n (x
,
.
.
.
,
x
)
∈
S
1
n
≤
(n + 1)|S| .
Nach (12.3.8) erhalten wir nun für eine beliebige Menge A ⊆ WV(S) die (nicht-asymptotische) Abschätzung
Pµ [Ln ∈ A]
=
X
ν∈A
Pµ [Ln = ν]
≤
(n + 1)|S| · e
−n inf H(ν | µ)
ν∈A
,
aus der die asymptotische obere Schranke wegen |S| < ∞ folgt.
Bemerkung. Wie der Beweis schon andeutet, gilt auch die obere Schranke in diesem Fall nur
noch asymptotisch und modulo subexponentiell wachsender Faktoren. Der Übergang von endlichen zu allgemeinen Zustandsräumen ist bei der oberen Schranke nicht trivial, s. [Dembo/Zeitouni].
Universität Bonn
Wintersemester 2009/2010
454
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Den Satz von Sanov bezeichnet man gelegentlich auch als ein „Prinzip der großen Abweichungen
auf Level II“, d.h. für die empirischen Verteilungen. Wir bemerken abschließend, dass sich eine
Version des Satzes von Cramér, d.h. ein „Prinzip der großen Abweichungen auf Level I“ als
Spezialfall ergibt:
Für U : S → R und eine offene Menge B ⊆ R gilt nach dem Satz von Sanov:
#
" n
1
1
1X
lim inf log Pµ
U (Xi ) ∈ B
= lim inf log Pµ [Ln ∈ O] ≥ − inf H(ν | µ)
n→∞ n
n→∞ n
ν∈O
n i=1
mit O = {ν ∈ WV(S) |
falls B abgeschlossen ist.
12.4
R
U dν ∈ B}. Entsprechend ergibt sich eine analoge obere Schranke,
Likelihood
Praktisch unterscheidet man Wahrscheinlichkeitsverteilungen in der Schätz- und Testtheorie durch
Likelihood-basierte statistische Verfahren. Der Zusammenhang von relativer Entropie und statistischer Unterscheidbarkeit kann genutzt werden, um die Qualität dieser Verfahren asymptotisch
zu beurteilen.
Konsistenz von Maximum-Likelihood-Schätzern
Sei (µθ )θ∈Θ eine Familie von Wahrscheinlichkeitsverteilungen auf S = Rd (oder einem diskreten
Raum) mit Dichten (bzw. Massenfunktionen) fθ wobei θ ein unbekannter Parameter ist. Ferner
sei
Ln (θ; x1 , ..., xn ) =
n
Y
fθ (xi ),
i=1
θ ∈ Θ,
die Likelihoodfunktion zu n unabhängigen Stichproben x1 , ..., xn von µθ . Ein wichtiges Ad-hocVerfahren zur Konstruktion eines Schätzers für θ ist das
Maximum-Likelihood-Prinzip: Wähle θ̂(x1 , ..., xn ) als den Parameterwert θ, für den die Likelihood der beobachteten Werte x1 , . . . , xn maximal ist.
Definition. (1). Eine Zufallsvariable vom Typ θ̂(X1 , . . . , Xn ), θ̂ : S n → Θ messbar, heißt
Statistik der Daten X1 , . . . , Xn .
(2). Die Statistik heißt Maximum-Likelihood-Schätzer (MLE) für den Parameter θ, falls
Ln (θ̂(x1 , ..., xn ); x1 , ..., xn )
=
max Ln (θ; x1 , ..., xn )
θ∈Θ
Einführung in die Wahrscheinlichkeitstheorie
für alle x1 , . . . , xn ∈ S gilt.
Prof. Andreas Eberle
12.4. LIKELIHOOD
455
Um einen Maximum-Likelihood-Schätzer zu berechnen, ist es oft günstig, die log-Likelihood
θ 7→ log Ln (θ; x1 , ..., xn ) =
n
X
log fθ (xi )
zu maximieren.
i=1
Beispiel. (1). Gaußmodell: Θ = {(m, v) | m ∈ R, v > 0}, µm,v = N (m, v).
Ln (m, v; X1 , ..., Xn ) =
n
Y
i=1
ist maximal für m̂(X) = X n , v̂(X) =
1
n
Pn
i=1
√
(Xi −m)2
1
e− 2v
2πv
(Xi − X n )2 . Dieser Maximum-Likelihood-
Schätzer ist nicht erwartungstreu, da die Stichprobenvarianz mit dem Faktor
1
n
statt
1
n−1
gebildet wird.
(2). Doppelexponentialverteilung: Θ = R, fθ (Xi ) =
1
2
e−|Xi −θ| .
log Ln (θ; X1 , ..., Xn ) = −n log 2 −
n
X
i=1
|Xi − θ|
ist maximal, falls θ̂ ein Median von X1 , ..., Xn ist.
(3). Zufallszahlen aus [0, θ], θ > 0 unbekannt.
1
I[0,θ] (Xi ),
θ
1
Ln (θ; X1 , ..., Xn ) = n I[0,θ] ( max Xi ).
1≤i≤n
θ
fθ (Xi ) =
Der Maximum-Likelihood-Schätzer ist θ̂(X1 , ..., Xn ) = max1≤i≤n Xi . Dieser Schätzer ist
sicher nicht optimal, da mit Wahrscheinlichkeit 1 θ > θ̂(X1 , . . . , Xn ) gilt !
Wie das letzte Beispiel zeigt, sind Maximum-Likelihood-Schätzer für ein festes n nicht immer
optimal. Unter bestimmten Voraussetzungen haben sie aber gute asymptotische Eigenschaften
für n → ∞. Sei etwa µθ (θ ∈ Θ) eine einparametrige (d.h. Θ ⊆ R) Familie von Wahrscheinlich-
keitsverteilungen mit Dichten bzw. Massenfunktionen fθ . Es gelte:
Annahme (Unimodalität): Für alle n ∈ N und x ∈ S n existiert ein θ̂n (x1 , ..., xn ), sodass

ist monoton wachsend für θ ≤ θ̂n (x1 , ..., xn ).
θ 7→ Ln (θ; x1 , ..., xn )
ist monoton fallend für θ ≥ θ̂ (x , ..., x ).
n
1
n
Bemerkung. (1). Die Annahme ist z.B. erfüllt, falls θ 7→ log fθ (x) für jedes x konkav ist P
denn dann ist auch log Ln (θ, x1 , ..., xn ) = ni=1 log fθ (xi ) konkav in θ.
Universität Bonn
Wintersemester 2009/2010
456
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
(2). θ̂n (X1 , ..., Xn ) ist im unimodalen Fall eindeutiger Maximum-Likelihood-Schätzer für θ.
e Dann ist θ̂n (X1 , . . . , Xn ) (n ∈ N)
Satz 12.15. Es gelte die Annahme, sowie µθ 6= µθe für θ 6= θ.
eine konsistente Folge von Schätzern für θ, d.h. für jedes ε > 0 gilt:
Pθ [|θ̂n (X1 , ..., Xn ) − θ| < ε] → 1
für n → ∞.
Beweis. Wegen der Unimodalität gilt θ̂n (x1 , ..., xn ) ∈ (θ − ε, θ + ε) falls
Ln (θ; x1 , ..., xn ) > Ln (θ ± ε; x1 , ..., xn ).
Also:
Pθ [|θ̂n (X1 , ..., Xn ) − θ| < ε] ≥ Pθ
Ln (θ; X1 , ..., Xn )
>1 .
Ln (θ ± ε; X1 , ..., Xn )
Die rechte Seite konvergiert aber für n → ∞ nach Satz 12.10 für jedes θ gegen 1.
Bemerkung (Asymptotische Normalität von Maximum-Likelihood-Schätzern). Unter geeigneten Regularitätsvoraussetzungen an die Dichten fθ gilt für die Maximum-Likelihood-Schätzer
neben der Konsistenz (also dem Gesetz der großen Zahlen) auch ein zentraler Grenzwertsatz:
Satz (Fisher, Wilkes, Wold).
√
wobei
Unter geeigneten Voraussetzungen gilt:
1
n(θ̂n (X1 , ..., Xn ) − θ) −→ N 0,
,
I(θ)
D
2
Z ∂
µθ (dx) = lim 2 H(µθ+ε | µθ )
I(θ) =
log
f
(x)
θ
∂θ
ε→0 ε2
die Fisher-Information des statistischen Modells ist.
Da man andererseits unter geeigneten Regularitätsbedingungen zeigen kann, daß die Varianz
eines erwartungstreuen Schätzers für θ basierend auf n unabhängigen Stichproben stets größer als
1
nI(θ)
ist (Informationsungleichung von Cramér-Rao), folgt, daß Maximum-Likelihood-Schätzer
in gewisser Hinsicht asymptotisch optimal sind.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.4. LIKELIHOOD
457
Asymptotische Macht von Likelihoodquotiententests
Angenommen, wir haben n unabhängige Stichproben X1 , ..., Xn von einer unbekannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus einer Familie
µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt. Sei Θ0 eine Teilmenge des Parameterbereichs. Wir wollen entscheiden zwischen der
»θ ∈ Θ0 «
Nullhypothese H0 :
und der
Alternative H1 :
»θ 6∈ Θ0 «
Ein Hypothesentest für ein solches Problem ist bestimmt durch eine messbare Teilmenge C ⊆
S n (den Verwerfungsbereich) mit zugehöriger Entscheidungsregel:
akzeptiere H0 ⇐⇒ (X1 , ..., Xn ) ∈
/ C.
Beispiel (t-Test). Seien X1 , X2 , . . . , Xn unabhängige Stichproben von einer Normalverteilung
mit unbekanntem Parameter (m, v) ∈ Θ = R × R+ . Wir wollen testen, ob der Mittelwert der
Verteilung einen bestimmten Wert m0 hat:
Nullhypothese H0 :
»m = m0 « ,
Θ0 = {m0 } × R+ .
Ein solches Problem tritt z.B.in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob
ein Sollwert m0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,
wobei Xi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese
mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.
Im t–Test für obiges Testproblem wird die Nullhypothese akzeptiert, falls der Betrag der Studentschen t-Statistik unterhalb einer angemessen zu wählenden Konstanten c liegt, bzw. verworfen,
falls
gilt.
√
n · (X n − m0 ) > c
√
|Tn−1 | = Vn
Seien nun allgemein X1 , X2 , . . . unter Pθ unabhängige Zufallsvariablen mit Verteilung µθ . Bei
einem Hypothesentest können zwei Arten von Fehlern auftreten:
Fehler 1. Art: H0 wird verworfen, obwohl wahr. Wahrscheinlichkeit:
Pθ [(X1 , ..., Xn ) ∈ C] = νθn (C) ,
Universität Bonn
θ ∈ Θ0 .
Wintersemester 2009/2010
458
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Wahrscheinlichkeit:
Pθ [(X1 , ..., Xn ) ∈
/ C] = µnθ (C C ) ,
θ ∈ Θ \ Θ0 .
Obwohl das allgemeine Testproblem im Prinzip symmetrisch in H0 und H1 ist, interpretiert man
beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die
Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeugen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht
vorhanden) unterhalb einer vorgegebenen (kleinen) Schranke α liegen. Die Wahrscheinlichkeit
µnθ (C) ,
θ ∈ Θ \ Θ0 ,
daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.
Definition. Die Funktion
G(θ) = Pθ [(X1 , ..., Xn ) ∈ C] = µnθ (C)
heißt Gütefunktion des Tests. Der Test hat Niveau α, falls
G(θ) ≤ α
für alle θ ∈ Θ0
gilt. Die Funktion G(θ) mit θ ∈ Θ1 heißt Macht des Tests.
Beispiel. Der Studentsche t-Test hat Niveau α falls c ein (1 − α2 )-Quantil der Studentschen tVerteilung mit n − 1 Freiheitsgraden ist.
Ein Ziel bei der Konstruktion eines Testverfahrens sollte es sein, die Machtfunktion bei vorgegebenem Niveau zu maximieren. Dies ist im Allgemeinen nicht simultan für alle Parameter
θ ∈ Θ \ Θ0 möglich. Eine Ausnahme bildet der Fall einer einfachen Hypothese und Alternative,
in dem ein optimaler Test existiert:
a) Einfache Hypothese und Alternative
Angenommen, wir wissen, daß die Stichproben von einer der beiden Verteilungen µ0 := ν und
µ1 := µ stammen und wir wollen entscheiden zwischen der
Nullhypothese H0 :
»Xi ∼ ν«
und der
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.4. LIKELIHOOD
459
»Xi ∼ µ«.
Alternative H1 :
Ein solches Problem tritt in Anwendungen zwar selten auf, bildet aber einen ersten Schritt zum
Verständnis allgemeinerer Testprobleme. Sei
n
Y
Ln (µ; x1 , ..., xn )
f (xi )
̺n (x1 , . . . , xn ) =
=
Ln (ν; x1 , ..., xn )
g(xi )
i=1
der Quotient der Likelihoods der Stichproben x1 , . . . , xn im Produktmodell. Hierbei sind f und
g die Dichte bzw. Massenfunktion der Verteilungen µ und ν.
Definition. Ein Test mit Entscheidungsregel
Akzeptiere H0 ⇐⇒ ̺n (X1 , ..., Xn ) ≤ c,
c ∈ (0, ∞), heißt Likelihoodquotiententest.
Der Verwerfungsbereich eines Likelihoodquotiententests ist also C = {̺n > c}, die Wahrscheinlichkeit für den Fehler 1. Art beträgt
α := ν n (̺n > c).
Satz 12.16 (Neyman-Pearson-Lemma). Der Likelihoodquotiententest mit Parameter c ist der
beste Test zum Niveau α, d.h. jeder Test mit
Wahrscheinlichkeit (Fehler 1.Art) ≤ α
hat eine kleinere Macht (d.h. eine höhere Wahrscheinlichkeit für den Fehler 2. Art).
Beweis. Sei A ⊆ S n der Verwerfungsbereich eines Tests mit ν n (A) ≤ α, und sei
χ = I C − I A = I AC − I C C .
Zu zeigen ist:
n
C
n
C
0 ≤ µ (A ) − µ (C ) =
Z
χ dµn .
Offensichtlich gilt χ ≥ 0 auf C = {̺n > c} und χ ≤ 0 auf C C = {̺n ≤ c}, also χ · (̺n − c) ≥ 0.
Durch Integration erhalten wir:
Z
Z
Z
Z
n
n
n
0 ≤ χ · (̺n − c) dν = χ dµ − c · χ dν ≤ χ dµn ,
da
R
χ dν n = ν n (C) − ν n (A) ≥ 0.
Universität Bonn
Wintersemester 2009/2010
460
KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Wie gut ist der Likelihoodquotiententest (also der beste Test zur Unterscheidung von ν und
µ) asymptotisch für große n? Wir betrachten ein festes Niveau α ∈ (0, 1), und wählen cn ∈
(0, ∞) (n ∈ N) mit
ν n (̺n > cn ) ≤ α ≤ ν n (̺n ≥ cn )
(12.4.1)
Satz 12.17 (Asymptotische Macht des Likelihoodquotiententests). Es gilt:
(i)
1
log cn −→ −H(ν|µ)
n
(ii)
für n → ∞.
1
log µn (̺n ≤ cn ) −→ −H(ν|µ)
n
für n → ∞,
d.h. die Wahrscheinlichkeit für den Fehler 2. Art fällt exponentiell mit Rate H(ν|µ).
Beweis.
(i) Sei ε > 0. Für große n gilt nach dem Satz von Shannon-McMillan:
12.4.1
ν n ̺n > e−n(H(ν|µ)+ε) > α ≥ ν n (̺n > cn ).
Es folgt e−n(H(ν|µ)+ε) < cn . Analog zeigt man e−n(H(ν|µ)−ε) > cn . Die Behauptung folgt
dann für ε → 0.
(ii) a) Untere Schranke: Wegen
ν n (̺n ≤ cn ) ≥ 1 − α > 0
∀n∈N
folgt nach Korollar 12.12:
lim
1
log µn (̺n ≤ cn ) ≥ −H(ν|µ).
n
Obere Schranke: Wegen
n
µ (̺n ≤ cn ) =
Z
̺n ≤cn
̺n dν n ≤ cn
folgt nach (i)
lim
1
1
log µn (̺n ≤ cn ) ≤ lim log cn = −H(ν|µ).
n
n
Der Satz demonstriert erneut, daß die relative Entropie ein gutes Maß für die Unterscheidbarkeit
zweier Wahrscheinlichkeitsverteilungen ist.
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
12.5. BAYESSCHE MODELLE UND MCMC VERFAHREN
461
b) Zusammengesetzte Hypothesen und/oder Alternativen
Wenn Θ0 und/oder Θ1 aus mehr als einem Element bestehen, kann man den verallgemeinerten
Likelihoodquotienten
̺¯n (x1 , . . . , xn ) =
supθ∈Θ1 Ln (θ; x1 , ..., xn )
max. Lik. von x, falls H1 wahr
=
supθ∈Θ0 Ln (θ; x1 , ..., xn )
max. Lik. von x, falls H0 wahr
betrachten. Der entsprechende Likelihoodquotiententest ist ähnlich wie der Maximum-LikelihoodSchätzer ein häufig verwendetes ad hoc Verfahren. Im Gegensatz zum Fall einer einfachen Hypothese und Alternative ist der verallgemeinerte Likelihoodquotiententest allerdings nicht immer
optimal.
Beispiel. Im Beispiel von oben ist der t-Test der Likelihoodquotiententest. Mit einem NeymanPearson-Argument kann man zeigen, daß er im Gaußschen Produktmodell der beste unverfälschte
Test zu einem vorgegebenen Niveau α ist, d.h. der mächtigste Test mit
G(θ) ≤ α
∀ θ ∈ Θ0
und
G(θ) ≥ α
∀ θ ∈ Θ1 .
Auch in nicht-Gaußschen Modellen wird häufig der t-Test eingesetzt – eine partielle Rechtfertigung dafür liefert der zentrale Grenzwertsatz.
12.5
Bayessche Modelle und MCMC Verfahren
Universität Bonn
Wintersemester 2009/2010
Stichwortverzeichnis
0-1 Gesetz von Kolmogorov, 182
bedingte Wahrscheinlichkeit, 44
0-1-Experimente
Benfordsches Gesetz, 21
abhängige, 41
Bernoulli-Verteilung, 41
n-dimensionale, 51
unabhängige, 41, 51
σ-Additivität, 13
Bernstein-Ungleichung, 59
σ-Algebra, 12
Bias, 208
a posteriori degree of belief, 47
a priori degree of belief, 47
Bildmaß, 122
Binomialverteilung, 26
Poissonapproximation, 27
abhängige 0-1-Experimente, 41
absolutstetig, 203
Acceptance-Rejection-Verfahren, 74, 428
Additivität, endliche, 13
Akzeptanzwahrscheinlichkeit, 73
Akzeptanzzeit, 74
Algebra, 115
arithmetisches Mittel, 194
asymptotisch
-e Zufallsvariable, 185
asymptotische Äquivalenz von Folgen, 68
Varianz, 81
Birth-Death-Process, 421
Brown’sche Bewegung, 305
Brownsche
- Bewegung, 345
Brownsche Bewegung, 113, 305
Cauchy-Schwarz-Ungleichung in L2 , 78
Čebyšev-Ungleichung, 83
Chapman-Kolmogorov-Gleichungen, 413
Charakteristische Funktion
Ableitungen der -, 253
Atome, 129
Bayessche Regel, 47
Bayessche Statistik, 47
Bedingte Erwartung, 330
Definition
Lévys Inversionsformel, 254
charakteristische Funktion, 250
Cramér-Wold Device, 304
degree of belief
a posteriori, 47
Diskrete -, 314
a priori, 47
bedingte Erwartung, 44
bedingte Verteilung, 44
Detailed Balance-Bedingung, 90
462
STICHWORTVERZEICHNIS
Dichte
463
stationärer -, 327
bedingte -, 294
Erwartung, bedingte, 44
Wahrscheinlichkeits-, 129, 199
Erwartungswert, 37
Diffusionsprozess, 412
- elementarer ZVn, 188
diskrete Zufallsvariable, 23
der Poissonverteilung, 38
gemeinsame Verteilung, 64
Linearität, 40
Unabhängigkeit, 64
Monotonie, 40
diskretes Modell, 12
Erzeugende Funktion, 320
mehrstufiges, 48
erzeugende Funktion, 346
durchschnittsstabil, 115, 116
Euler’sche Beta-Funktion, 309
Dynkinsystem, 118
Exponentielle Familie, 437
das von J erzeugte -, 118
Faltung von W’Verteilungen, 297
Ehrenfest-Modell, 54, 91
Faltungshalbgruppe, 298
Ehrenfestmodell, 396
Fehler
Einschluss-/Ausschlussprinzip, 15
1. und 2. Art, 311, 457
Elementarereignis, 9
Fisher-Information, 456
empirische Mittel, 205
Fluss in Markovketten, 90
empirische Varianz, 205
Fouriertransformation, 251
empirische Verteilung, 19, 237
gemeinsame Verteilung, 64, 167
empirische Verteilungsfunktion, 237
Generator, 415
empirisches Mittel, 235
Entropie, 242
relative -, 446
Ereignis, 9
- einer Markovkette, 376
geometrische Verteilung, 58
Gesetz der großen Zahlen, 59
für Markov-Ketten, 101
Verteilungen für unabhängige Ereignisse, 58
schwaches, 83
asymptotisches -, 181
starkes, 83
Elementar-, 9
Gesetz großer Zahlen
Ereignisse und ihre Wahrscheinlichkeit, 11
- für Bernoulli-Experimente, 107
Indikatorfunktion, 37
Starkes -
Unabhängigkeit, 56
Erfolgswahrscheinlichkeit, 25
- ohne Integrierbarkeit, 235
Kolmogorovs -, 231
Ergodensatz, 101
gewichtetes Mittel, 39
Erneuerungsgleichung, 326
Gewichtung der möglichen Fälle, 15
Erneuerungsprozess
Gibbs-Sampler, 94
Universität Bonn
Wintersemester 2009/2010
464
STICHWORTVERZEICHNIS
Gleichgewichte von Markov-Ketten, 89
Gleichgewichtsverteilung, 90
Konvergenz, 98
Gleichverteilung, 18
Konvergenz
- in Verteilung, 263
fast sicher -, 218
schnelle stochastische -, 220
reellwertiger Zufallsvariablen, 72
schwache -, 263
Simulation, 29
stochastische -, 218
Greensche Funktion, 383
Konvergenz ins Gleichgewicht, 97, 98
Konvergenz, stochastische, 83
Häufigkeitsverteilung der Anfangsziffern von ZahKonvergenzsatz für endliche Markov-Ketten, 101
len, 22
Korrelationskoeffizient, 79
harmonische Funktion, 378
Korrelationskoeffizienten, 209
harmonisches Maß, 380
Kovarianz, 79, 209
Histogramm, 239
Kullback-Leibler Information, 446
hypergeometrische Verteilung, 29, 50
Kumulantenerzeugende Funktion, 259
Hypothese
kumulative Verteilungsfunktion, 72
Alternativ-, 310, 457
Null-, 310, 457
Hypothesen, 45
Hypothesentest, 311, 457
Importance Sampling, 86
Indikatorfunktion, 121
Indikatorfunktion einer Ereignisses, 37
Inverse
linksstetige verallgemeinerte -, 138
irreduzible stochastische Matrix, 99
L2 -Raum von diskreten Zufallsvariablen, 78
L2 -Skalarprodukt, 78
Lévy
-Prozess, 344
Lévys Inversionsformel, 254
Laplace-Modell, 18
Laplacetransformation, 251
Legendre-Fenchel-Transformation, 259
Lemma
- von Borel-Cantelli
kanonisches Modell, 180, 368
1.Teil, 105
Kern, stochastischer, 52
2.Teil, 106
Kolmogorov
-sche Rückwärtsgleichung, 418
-sche Vorwärtsgleichung, 418
Konfidenzintervall, 161, 307, 312
- von Fatou, 194
Neyman-Pearson-, 459
Likelihood
Maximum-L.-Schätzer, 454
Konfidenzniveau, 161
likelihood, 47
Kongruenzgenerator, linearer, 30
linearer Kongruenzgenerator, 30
konsistente Schätzfolge, 84
Lyapunovbedingung, 284
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
465
Münzwurf, 10
irreduzible stochastische, 99
abhängige Münzwürfe, 53
stochastische, 52
endlich viele faire Münzwürfe, 18
Stochastische -, 289
Markov-Kette, 91
Median, 137
zwei faire Münzwürfe, 57
mehrstufiges diskretes Modell, 48
Markov-Kette, siehe Markov-Kette
Maß
harmonisches -, 380
Produktmodell, 51
invariantes -, 403
Wahrscheinlichkeitsverteilung, 48
Menge aller möglichen Fälle, 9
Markov
-prozess, 411
messbar
-e Abbildung, 120
Markov-Kette, 52
bei einem Münzwurf, 91
messbarer Raum, 115
Bewegungsgesetz, 52
Messraum, 115
Fluss, 90
Metropolis-Algorithmus, 96
Gesetz der großen Zahlen, 101
Metropolis-Kette, 94
Konvergenz, 101
Gleichgewicht, 89
Konstruktion mit vorgegebenen Gleichge- Minorisierungsbedingung, 98
wichtsverteilungen, 93
Mischung, 290
Konvergenzsatz für endliche Markov-Ketten, Mittel
101
arithmetisches, 39
Metropolis-Kette, 94
Monte Carlo-Verfahren, 101
gewichtetes, 39
Mittelwerteigenschaft
Simulation mit vorgegebenem Gleichgewicht,
96
verallgemeinerte -, 378
Modell
Stationarität, 90
Bayes’sches -, 295
zeitlich homogene, 89
Ehrenfest-, 263
Markovprozess
Generator e. -, 415
Massenfunktion, 15, 123
einer diskreten Zufallsvariable, 23
eines mehrstufigen diskreten Modells, 48
Mastergleichung, 418
Matrix
stochastische / Übergangs-, 89
Universität Bonn
kanonisches -, 368
Moment
p-te -, 199
Momentenerzeugende Funktion
logarithmische -, 259
Reihenentwicklung der -, 253
momentenerzeugende Funktionen, 250
Monte Carlo-Schätzer, 76, 84
Wintersemester 2009/2010
466
STICHWORTVERZEICHNIS
Approximationsfehler, 76
Prozess
eines mehrdimensionalen Integrals, 85
Autoregressiver -, 292
erwartungstreuer, 76
autoregressiver -, 215
für Wahrscheinlichkeiten, 85
Compound-Poisson-, 345
mittlere quadratische Fehler, 76
Diffusions-, 412
Monte Carlo-Verfahren, 76
für Markov-Ketten, 101
Monte-Carlo
Lévy-, 344
Ornstein-Uhlenbeck-, 292
Poisson-, 301
-Approximation, 268
Punkt-, 345
Multinomialkoeffizient, 241
reversibler -, 398
stationärer -, 397
Nullmenge, 102
Ordnungsstatistik, 161, 173
P -fast sicher, 102
Paradoxon
Sankt-Petersburg-, 39
Simpson-, 46
Pseudo-Zufallszahlengenerator, 29
QQ-Plot, 238
Quantil, 137
Stichproben-, 137
Quantil-Quantil-Plot, 238
Rückkehrzeit, 68
Periode eines Zustands, 99
Rückwärtsgleichung, 418
Periodizität, 327
Random Walk, 68, 229, 305
Perkolation, 184
auf den ganzen Zahlen, 65
Permutationen
auf einem Gitter, 53
zufällige, siehe Zufallspermutationen
Poisson
auf Graphen, 92
Bewegungsverlauf, 68
-prozess, 345
Poissonapproximation der Binomialverteilung,
27
Poissonverteilung, 28
Erwartungswert, 38
Produkt
- von Wahrscheinlichkeitsverteilungen, 179
Rekurrenz, 183
Rekurrenz von -s, 182
symmetrischer, 68
Trefferzeit, 68
unbeschränkte Oszillation von -s, 183
Verteilung der Positionen zur Zeit n, 67
zyklischer, 91
Produkt von Wahrscheinlichkeitsverteilungen, 51 Randverteilung, 163
Produktmaß
endliches -, 163
Produktmodell, 51
Einführung in die Wahrscheinlichkeitstheorie
reellwertige Zufallsvariable, 72
gleichverteilt, 72
Unabhängigkeit, 72
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
467
Reflektionsprinzip, 69
Transformations-, 196
Rekurrenz
Eindimensionaler Dichte-, 134
- eines Punktes, 385
Mehrdimensionaler Dichte-, 301
Rekurrenzklassen, 395
Zentraler Grenzwert-
relative Entropie, 446
L2 -Version, 277
Relative Kompaktheit, 275
- von Lindeberg-Feller, 284
renormierte Stichprobenvarianz, 236
Rucksackproblem, 95
Multivariater -, 304
Schätzer, 161, 306
erwartungstreuer -, 307
Sankt-Petersburg-Paradoxon, 39
konsistenter -, 307, 456
Satz
Maximum-Likelihood-, 454
- vom iterierten Logarithmus, 230
- von Berry-Esséen, 281
Schätzfolge
konsistente, 84
- von Bochner, 254
- von Chernoff, 258
- von Fisher, Wilkes, Wold, 456
- von Fubini, 289
- von Helly-Bray, 273
Schwaches Gesetz der großen Zahlen, 83
Selbstbefruchtung von Pflanzen, 53
Shift-Register-Generatoren, 35
σ
- von Lebesgue, 195
-Additivität, 104
- von Prohorov, 273
-Stetigkeit, 104
- von de Moivre/Laplace, 145
-Subadditivität, 105
- von der majorisierten Konvergenz, 195
- von der monotonen Konvergenz, 193
0-1 - von Kolmogorov, 182
σ-Additivität von Wahrscheinlichkeitsverteilungen, 13
σ-Algebra
Eindeutigkeits-, 116
asymptotische -, 181
Formel von der totalen Wahrscheinlichkeit,
Borel’sche -, 114
45
Fortsetzungs- von Carathéodory, 116
die von J erzeugte -, 114
Produkt-, 115
Konvergenz- von Lévy, 274
σ-endlich, 203
Lévys Inversionsformel, 254
Signalverarbeitung, 295
Lemma von Fatou, 194
Simpson-Paradoxon, 46
Neyman-Pearson-Lemma, 459
Simulated Annealing, 96
Quellenkodierungs- von Shannon, 248
Skorokhod - Darstellung, 269
Stetigkeits-, 274
Universität Bonn
Algorithmus, 97
Simulation
- exponentialverteilter ZVn, 125
Wintersemester 2009/2010
468
STICHWORTVERZEICHNIS
Simulation einer diskreten Verteilung
direkt, 73
Transienz
- eines Punktes, 385
Simulation einer Markov-Kette mit vorgegebe- Trefferzeit, 68, 388
nem Gleichgewicht, 96
Verteilung, 69
Simulation von Gleichverteilungen, 29
Simulationsverfahren, 72
Übergangsmatrix, 89
Acceptance-Rejection-Verfahren, 73
unabhängige 0-1-Experimente, 41, 51
direktes Verfahren, 72
Unabhängige Zufallsvariablen, 64
Standardabweichung, 77
Unabhängigkeit, 44
starkes Gesetz der großen Zahlen, 83
- von Mengensystemen, 153
Stationarität von Markov-Ketten, 90
- von Zufallsvariablen, 156
Statistik, 161, 454
Ereignis
Stichprobe
Verteilung, 58
-nquantil, 137
reellwertiger Zufallsvariablen, 72
empirische Verteilung der -, 137
von Ereignissen, 56
Stirlingsche Formel, 67, 144
stochastische Konvergenz, 83
stochastische Matrix, 52, 89
irreduzibel, 99
Unabhängigkeit von diskreten Zufallsvariablen,
64, 65
Unabhängigkeit von Ereignissen, 26, 57
Ungleichung
Stochastischer Kern, 288
Čebyšev-, 222
stochastischer Kern, 52
Cauchy-Schwarz-, 207, 210
Stoppzeit, 388
Čebyšev-, 83, 221
symmetrischer Random Walk, 68
Exponentielle Čebyšev-Markov-, 222
Jensen’sche -, 223
Tail
Markov-, 221
event, 181
Unimodalität, 455
field, 181
Unkorreliertheit, 80
Gütefunktion eines -s, 312, 458
Vandermonde-Identität, 298
Hypothesen-, 312
Varianz, 77
Test
Likelihood-Quotienten-, 459, 460
Definition, 204
Macht eines -s, 312, 458
der Binomialverteilung, 81
Niveau eines -s, 312, 458
Reduktion durch Importance Sampling, 86
t-, 311, 457
Stichproben-, 308
Transformationssatz, 38
Einführung in die Wahrscheinlichkeitstheorie
von Summen, 81
Prof. Andreas Eberle
STICHWORTVERZEICHNIS
Variationsdistanz von Wahrscheinlichkeitsverteilungen, 97
Verteilung
α-stabile -, 283
469
bedingte, 44
Erfolgs-, 25
Wahrscheinlichkeits
-maß
- einer Zufallsvariablen, 122
Faltung von -en, 297
-sfunktion, 123
straffe Folge von -en, 272
bedingte, 44
Wahrscheinlichkeitsraum, 13
bedingte -, 294
Wahrscheinlichkeitsverteilung, 13, 15, 122
Beta-, 174
einer diskreten Zufallsvariable, 23
Cauchy-, 136
der Anfangsziffern von Zahlen, 22
direkte Simulation einer diskreten Vertei-
der Trefferzeiten, 69
lung, 73
des Maximums, 71
empirische -, 237, 268
diskrete, 15
Exponential-, 124, 130, 206
eines mehrstufigen diskreten Modells, 48
für unabhängige Ereignisse, 58
endliche Additivität, 13
Gamma-, 300
gemeinsame, 64
Gleich-, 130
geometrische, 58
invariante -, 292
Gleichverteilung / Laplace-Modell, 18
Multinomial-, 241
Produkt, 51
Normal-, 131
Variationsdistanz, 97
Rand-, 163
Warteschlange, 27
Standardnormal-
Wartezeit, 299
mehrdimensionale -, 166
wesentlich, 246
stationäre -, 292
stetige -, 129
Students-t-, 309
Uniforme -, 130
χ2 -, 306
Verteilungsfunktion, kumulative, 72
Verwerfungsbereich, 311, 457
Vorwärtsgleichung, 418
Ziehen mit Zurücklegen, siehe Binomialverteilung
Ziehen ohne Zurücklegen, siehe hypergeometrische Verteilung
Zufallspermutationen, 36
Zufallsvariable, 10, 23, 120
asymptotische -, 185
austauschbare -n, 319
Würfelwurf, 24
diskrete, 23
Wahrscheinlichkeit, 9
Elementare -n, 187
Akzeptanz-„ 73
Universität Bonn
reellwertige, 38, 72
Wintersemester 2009/2010
470
STICHWORTVERZEICHNIS
Standardabweichung, 77
unabhängige, 64
Varianz, 77
Zufallsvorgang, 9
diskreter, 11
Zufallszahlen aus [0,1), 36
Zufallszahlengenerator, 29, 72
Kombinationen, 36
zyklischer Random Walk, 91
Zylindermenge, 115
Einführung in die Wahrscheinlichkeitstheorie
Prof. Andreas Eberle
Herunterladen