Einführung in die Wahrscheinlichkeitstheorie Prof. Dr. Andreas Eberle 28. September 2010 Inhaltsverzeichnis Inhaltsverzeichnis 2 1 9 Diskrete Zufallsvariablen 1.1 2 Ereignisse und ihre Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . 11 Ereignisse als Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . 15 Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . 18 1.2 Diskrete Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . . 23 1.3 Simulation von Gleichverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.4 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Linearität und Monotonie des Erwartungswertes . . . . . . . . . . . . . . . . . . 40 Bedingte Wahrscheinlichkeiten und Unabhängigkeit 44 2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung . . . . . . . . . 45 Bayessche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Mehrstufige diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Verteilungen für unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . . 58 Unabhängige Zufallsvariablen und Random Walk . . . . . . . . . . . . . . . . . 64 Unabhängigkeit von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . . 64 Der Random Walk auf Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Simulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.2 2.3 2.4 2.5 2 INHALTSVERZEICHNIS 3 Das direkte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Acceptance-Rejection-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3 Konvergenzsätze und Monte Carlo Verfahren 76 3.1 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.2 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 81 3.3 Monte Carlo-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Varianzreduktion durch Importance Sampling . . . . . . . . . . . . . . . . . . . 86 Gleichgewichte von Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . 89 Gleichgewichte und Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Metropolis-Algorithmus und Gibbs-Sampler . . . . . . . . . . . . . . . . . . . . 93 Konvergenz ins Gleichgewicht . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.4 3.5 4 Stetige und Allgemeine Modelle 102 4.1 Unendliche Kombinationen von Ereignissen . . . . . . . . . . . . . . . . . . . . 102 4.2 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . 110 Beispiele von Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . . . . . . . . 110 Konstruktion von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen . . . . . . . . . 115 4.3 Allgemeine Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . 119 Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.4 Wahrscheinlichkeitsverteilungen auf R . . . . . . . . . . . . . . . . . . . . . . . 126 Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 126 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Transformation von absolutstetigen Zufallsvariablen . . . . . . . . . . . . . . . . 134 4.5 Quantile und Inversionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Konstruktion und Simulation reellwertiger Zufallsvariablen . . . . . . . . . . . . 139 4.6 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . 143 Der Satz von De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . . . . . 144 Approximative Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 150 Universität Bonn Wintersemester 2009/2010 4 5 INHALTSVERZEICHNIS Unabhängigkeit und Produktmodelle 5.1 153 Unabhängigkeit in allgemeinen Modellen . . . . . . . . . . . . . . . . . . . . . 153 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 156 Konfidenzintervalle für Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2 Gemeinsame Verteilungen und endliche Produktmodelle . . . . . . . . . . . . . 162 Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen . . . . . . . . . . 162 Absolutstetigkeit von multivariaten Verteilungen . . . . . . . . . . . . . . . . . . 165 Gemeinsame Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.3 Unendliche Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Konstruktion von unabhängigen Zufallsvariablen . . . . . . . . . . . . . . . . . 174 Unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.4 Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 Das 0-1-Gesetz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Anwendungen auf Random Walks und Perkolationsmodelle . . . . . . . . . . . . 182 6 Erwartungswert und Varianz 6.1 187 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Definition des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . . 191 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.2 Berechnung von Erwartungswerten; Dichten . . . . . . . . . . . . . . . . . . . . 195 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Zufallsvariablen mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Existenz von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.3 Varianz, Kovarianz und lineare Regression . . . . . . . . . . . . . . . . . . . . . 204 Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 206 Beste Prognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 Unabhängigkeit und Unkorreliertheit . . . . . . . . . . . . . . . . . . . . . . . . 216 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle INHALTSVERZEICHNIS 7 Gesetze der großen Zahlen 7.1 5 218 Ungleichungen und Konvergenz von ZVn . . . . . . . . . . . . . . . . . . . . . 218 Konvergenzbegriffe für Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 218 Die Markov-Čebyšev-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 221 Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.2 Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 225 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 226 Das starke Gesetz für quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . 227 7.3 Von L2 nach L1 mit Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 231 Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Schätzen von Kenngrößen einer unbekannten Verteilung . . . . . . . . . . . . . 235 Konvergenz der empirischen Verteilungsfunktionen . . . . . . . . . . . . . . . . 237 Histogramme und Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . 239 7.4 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 Statistische Interpretation der Entropie . . . . . . . . . . . . . . . . . . . . . . . 245 Entropie und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 8 Grenzwertsätze 8.1 249 Charakteristische und Momentenerzeugende Funktionen . . . . . . . . . . . . . 250 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 Inversion der Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . 254 8.2 Erste Anwendungen auf Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . 256 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Große Abweichungen vom Gesetz der großen Zahlen . . . . . . . . . . . . . . . 258 8.3 Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Schwache Konvergenz von Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 264 Konvergenz der Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . 269 Existenz schwach konvergenter Teilfolgen . . . . . . . . . . . . . . . . . . . . . 272 Schwache Konvergenz über charakteristische Funktionen . . . . . . . . . . . . . 274 8.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 ZGS für Summen von i.i.d. Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 277 Normalapproximationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Heavy Tails, Konvergenz gegen α-stabile Verteilungen . . . . . . . . . . . . . . 282 Der Satz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 Universität Bonn Wintersemester 2009/2010 6 INHALTSVERZEICHNIS 8.5 9 Vom Random Walk zur Brownschen Bewegung . . . . . . . . . . . . . . . . . . 287 Multivariate Verteilungen und Statistik 9.1 288 Mehrstufige Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 Stochastische Kerne und der Satz von Fubini . . . . . . . . . . . . . . . . . . . 288 Wichtige Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Bedingte Dichten und Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . 292 9.2 Summen unabhängiger Zufallsvariablen, Faltung . . . . . . . . . . . . . . . . . 296 Verteilungen von Summen unabhängiger Zufallsvariablen . . . . . . . . . . . . . 297 Wartezeiten, Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 299 9.3 Transformationen, Gaußmodelle und Parameterschätzung . . . . . . . . . . . . . 301 Der Dichtetransformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 Multivariate Normalverteilungen und multivariater ZGS . . . . . . . . . . . . . . 302 Parameterschätzung im Gaußmodell . . . . . . . . . . . . . . . . . . . . . . . . 306 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 10 Bedingte Erwartungen 313 10.1 Bedingen auf diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 313 Bedingte Erwartungen als Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 313 Formel von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 315 Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 Anwendung auf zufällige Summen . . . . . . . . . . . . . . . . . . . . . . . . . 317 Charakterisierende Eigenschaften der bedingten Erwartung . . . . . . . . . . . . 318 10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen . . . . . . . 319 Erzeugende Funktionen von ganzzahligen Zufallsvariablen . . . . . . . . . . . . 319 Erzeugende Funktionen zufälliger Summen . . . . . . . . . . . . . . . . . . . . 320 Galton-Watson-Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . 321 Rekurrente Ereignisse und Erneuerungsgleichung . . . . . . . . . . . . . . . . . 324 10.3 Bedingen auf allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 327 Das Faktorisierungslemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 Definition allgemeiner bedingter Erwartungen . . . . . . . . . . . . . . . . . . . 329 Diskreter und absolutstetiger Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 332 Reguläre bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 10.4 Rechnen mit bedingten Erwartungen; Poissonprozess . . . . . . . . . . . . . . . 337 Eigenschaften der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . . 338 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle INHALTSVERZEICHNIS 7 Poissonprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 Poissonscher Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 10.5 Bedingte Erwartung als beste L2 -Approximation . . . . . . . . . . . . . . . . . 348 Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Bedingte Erwartung als beste L2 -Prognose . . . . . . . . . . . . . . . . . . . . . 350 Existenz der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . 352 11 Markovketten 354 11.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 Zufällige dynamische Systeme als Markovketten, Beispiele . . . . . . . . . . . . 355 Endlichdimensionale Randverteilung eine Markovkette . . . . . . . . . . . . . . 360 Verteilung auf dem Pfadraum; kanonisches Modell . . . . . . . . . . . . . . . . 365 11.2 Markoveigenschaft und Differenzengleichungen . . . . . . . . . . . . . . . . . . 368 Die Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 Differenzengleichungen für Markovketten . . . . . . . . . . . . . . . . . . . . . 374 Dirichletproblem und Austrittsverteilung . . . . . . . . . . . . . . . . . . . . . . 378 Beispiele harmonischer Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 380 Mittlere Aufenthaltszeiten und Greenfunktion . . . . . . . . . . . . . . . . . . . 383 11.3 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 Rekurrenz und Transienz von einzelnen Zuständen . . . . . . . . . . . . . . . . 390 Kommunikationsklassen und globale Rekurrenz . . . . . . . . . . . . . . . . . . 393 11.4 Stationäre stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 397 Stationarität und Reversibilität . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 Rekurrenz von stationären Prozessen . . . . . . . . . . . . . . . . . . . . . . . . 399 Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 11.5 Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403 Positive Rekurrenz und Gleichgewichte . . . . . . . . . . . . . . . . . . . . . . 403 Ein Gesetz der großen Zahlen für Markovketten . . . . . . . . . . . . . . . . . . 405 Allgemeinere Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 11.6 Zeitstetige Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411 Übergangskerne und Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . 411 Zeitstetige Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 Vorwärts- und Rückwärtsgleichungen für Markovketten . . . . . . . . . . . . . . 418 Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung . . . . . . . . 422 Universität Bonn Wintersemester 2009/2010 8 INHALTSVERZEICHNIS 12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . . . . . . . . . . . . . . . . . 425 Relative Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 Seltene Ereignisse und Importance Sampling . . . . . . . . . . . . . . . . . . . 430 12.2 Exponentielle Familien und große Abweichungen . . . . . . . . . . . . . . . . . 436 Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 Der Satz von Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 Asymptotische Effizienz von IS Schätzern . . . . . . . . . . . . . . . . . . . . . 444 12.3 Relative Entropie und statistische Unterscheidbarkeit . . . . . . . . . . . . . . . 446 Relative Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 Maßwechsel und untere Schranken für große Abweichungen . . . . . . . . . . . 449 Große Abweichungen für empirische Verteilungen . . . . . . . . . . . . . . . . 452 12.4 Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 Konsistenz von Maximum-Likelihood-Schätzern . . . . . . . . . . . . . . . . . 454 Asymptotische Macht von Likelihoodquotiententests . . . . . . . . . . . . . . . 457 12.5 Bayessche Modelle und MCMC Verfahren . . . . . . . . . . . . . . . . . . . . . 461 Stichwortverzeichnis Einführung in die Wahrscheinlichkeitstheorie 462 Prof. Andreas Eberle Kapitel 1 Diskrete Zufallsvariablen Unser Ziel in diesem Kapitel ist die mathematische Modellierung von Zufallsvorgängen. Einfache Beispiele für Zufallsvorgänge sind das Werfen eines Würfels oder Münzwürfe. Anhand dieser Beispiele wollen wir zunächst einige grundlegende Begriffe der Wahrscheinlichkeitstheorie veranschaulichen. N OTATIONEN : |A| bezeichnet die Anzahl der Elemente einer Menge A, AC bezeichnet das Komplement der Menge A innerhalb einer bestimmten Menge B, die A enthält. Beispiel (Werfen eines Würfels). • Mögliche Fälle sind 1, 2, 3, 4, 5, 6. Mit Ω = {1, 2, 3, 4, 5, 6} wird die Menge aller mög- lichen Fälle bezeichnet. Ein Elementarereignis ist ein möglicher Fall, also ein Element ω ∈ Ω. • Ereignisse sind die Objekte, denen man eine Wahrscheinlichkeit zuordnen kann, zum Beispiel: {3} »Augenzahl ist 3« {2, 4, 6} »Augenzahl ist gerade« {1, 3, 5} = {2, 4, 6}C »Augenzahl ist nicht gerade« {4, 5, 6} »Augenzahl ist größer als 3« »Augenzahl ist gerade und größer als 3« {4, 6} = {2, 4, 6} ∩ {4, 5, 6} »Augenzahl gerade oder größer als 3« {2, 4, 5, 6} = {2, 4, 6} ∪ {4, 5, 6} Jedes Ereignis kann durch eine Teilmenge A von Ω dargestellt werden! 9 10 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN • Wahrscheinlichkeiten werden mit P (für »probability«) bezeichnet. Zum Beispiel sollte für einen »fairen« Würfel gelten: 1 P [»3«] = , 6 Anzahl günstige Fälle |{2, 4, 6}| 3 1 = = = , Anzahl mögliche Fälle |{1, 2, 3, 4, 5, 6}| 6 2 4 2 P [»Augenzahl gerade oder größer als 3«] = = . 6 3 P [»Augenzahl gerade«] = • Zufallsvariablen sind Abbildungen X : Ω → S, wobei S eine beliebige Menge ist, zum Beispiel: X(ω) = ω, 1 X(ω) = −5 Beispiel (Münzwürfe). »Augenzahl des Wurfs«, oder falls ω ∈ {1, 2, 3, 4, 5}, »Gewinn bei einem fairen Spiel«. falls ω ∈ 6, a) E IN M ÜNZWURF : Die Menge der möglichen Fälle ist Ω = {0, 1}, wobei 0 für »Kopf« und 1 für »Zahl« steht. Die Wahrscheinlichkeiten sind P [{1}] = p Für p = 1 2 und P [{0}] = 1 − p mit 0 ≤ p ≤ 1. ist der Münzwurf fair. b) E NDLICH VIELE FAIRE M ÜNZWÜRFE : Die Menge der möglichen Fälle lautet Ω = {ω = (x1 , . . . , xn ) | xi ∈ {0, 1}} =: {0, 1}n . Alle Ausgänge sind genau dann gleich wahrscheinlich, wenn P [{ω}] = 2−n für alle ω ∈ Ω gilt. Dies wird im folgenden angenommen. Zufallsvariablen von Interesse sind beispielsweise: • Xi (ω) := xi , das Ergebnis des i-ten Wurfs. Das Ereignis »i-ter Wurf ist Kopf« wird durch die Menge Ai = {ω ∈ Ω | Xi (ω) = 0} =: {Xi = 0} beschrieben, und hat die Wahrscheinlichkeit P [Ai ] = 12 . P • Sn (ω) := ni=1 Xi (ω), die Anzahl der Einsen in n Münzwürfen. Das Ereignis »ge- nau k-mal Zahl« wird durch die Menge A = {ω ∈ Ω | Sn (ω) = k} =: {Sn = k} be schrieben und hat die Wahrscheinlichkeit P [A] = nk 2−n . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 11 c) U NENDLICH VIELE M ÜNZWÜRFE : Die Menge der möglichen Fälle ist nun Ω = {ω = (x1 , x2 , . . .) | xi ∈ {0, 1}} = {0, 1}N . Diese Menge ist überabzählbar, da die Abbildung Ω → [0, 1] (x1 , x2 , . . .) 7→ 0.x1 x2 . . . surjektiv ist, (wobei das Einheitsintervall binär dargestellt wird). Die Definition von Ereignissen und Wahrscheinlichkeiten ist daher in diesem Fall aufwändiger. Wahrscheinlichkeitsverteilungen auf überabzählbaren Mengen werden systematisch in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« betrachtet. In dieser Vorlesung ist die Menge der möglichen Fälle Ω abzählbar. Solche Zufallsvorgänge werden diskret genannt. 1.1 Ereignisse und ihre Wahrscheinlichkeit Ereignisse als Mengen Sei Ω die Menge der möglichen Fälle und A ⊆ Ω ein Ereignis. Als Notationen für die Menge A werden wir auch verwenden: A = {ω ∈ Ω | ω ∈ A} = {ω ∈ A} = { »A tritt ein« }. Wir wollen nun Kombinationen von Ereignissen betrachten. Seien A, B, Ai , i ∈ I, Ereignisse. Was bedeuten Ereignisse wie AC , A ∪ B, T i∈I Ai anschaulich? Um dies herauszufinden, betrachten wir einen möglichen Fall ω und untersuchen, wann dieser eintritt: • A ∪ B: ω ∈A∪B »A ∪ B tritt ein« • S i∈I ⇔ ⇔ ω ∈ A oder ω ∈ B, »A tritt ein oder B tritt ein«. Ai : Universität Bonn Wintersemester 2009/2010 12 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN S ω ∈ i∈I Ai S » i∈I Ai tritt ein« ⇔ es gibt ein i ∈ I mit ω ∈ Ai . ⇔ »mindestens eines der Ereignisse Ai tritt ein«. • W EITERE B EISPIELE : A∩B T i∈I Ai ⇔ »jedes der Ai tritt ein«, A=∅ ⇔ »unmögliches Ereignis« (tritt nie ein), AC = Ω A=Ω ⇔ »A und B treten ein«, ⇔ »A tritt nicht ein«, ⇔ »sicheres Ereignis« (tritt immer ein), A = {ω} ⇔ »Elementarereignis« (tritt nur im Fall ω ein). Sei A die Kollektion aller im Modell zugelassenen bzw. in Betracht gezogenen Ereignisse. A besteht aus Teilmengen von Ω, d.h. A ⊆ P(Ω), wobei P(Ω) := {A | A ⊆ Ω} die Potenzmenge von Ω, d.h. die Menge aller Teilmengen von Ω bezeichnet. Die Kollektion A sollte unter den obigen Mengenoperationen, also abzählbaren Vereinigungen, Durchschnitten und Komplementbildung abgeschlossen sein. Wir fordern daher: Axiom. A ⊆ P(Ω) ist eine σ-Algebra, d.h. (i) Ω ∈ A, (ii) Für alle A ∈ A gilt: (iii) Für A1 , A2 , . . . ∈ A gilt: AC ∈ A, S∞ i=1 Ai ∈ A. Bemerkung. Für σ-Algebren gilt auch: a) Nach (i) und (ii) ist ∅ = ΩC ∈ A. b) Sind A, B ∈ A, so gilt nach (iii) und a): A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ . . . ∈ A. c) Sind A1 , A2 , . . . ∈ A, so ist nach (ii) und (iii): T∞ Beispiel. Die Potenzmenge A = P(Ω) ist eine σ-Algebra. i=1 Ai = ( S∞ i=1 C AC i ) ∈ A. Üblicherweise verwendet man A = P(Ω) bei diskreten Modellen, d.h. für abzählbare Ω. Bei nichtdiskreten Modellen kann man nicht jede Wahrscheinlichkeitsverteilung P auf einer σ-Algebra A ⊂ P(Ω) zu einer Wahrscheinlichkeitsverteilung auf P(Ω) erweitern (siehe »Einführung in die Wahrscheinlichkeitstheorie«). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 13 Wahrscheinlichkeitsverteilungen Sei Ω eine nichtleere Menge und A ⊆ P(Ω) eine σ-Algebra. Wir wollen nun Ereignissen A ∈ A eine Wahrscheinlichkeit P [A] zuordnen. Für Ereignisse A, B ∈ A gilt: A ∪ B tritt ein ⇔ A oder B tritt ein. Angenommen, A und B treten nicht gleichzeitig ein, d.h. A ∩ B = ∅, (A und B sind »disjunkt«). Dann sollte »endliche Additivität« gelten: P [A ∪ B] = P [A] + P [B]. Axiom. Eine Abbildung P : A → [0, ∞] A 7→ P [A] ist eine Wahrscheinlichkeitsverteilung auf (Ω, A), wenn gilt: (i) P ist »σ-additiv«, d.h. für Ereignisse A1 , A2 , . . . ∈ A mit Ai ∩ Aj = ∅ für i 6= j gilt: P ∞ [ i=1 Ai = ∞ X P [Ai ]. i=1 (ii) P ist »normiert«, d.h. P [Ω] = 1. Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus einer Menge Ω, einer σ-Algebra A ⊆ P(Ω), und einer Wahrscheinlichkeitsverteilung P auf (Ω, A). Satz 1.1 (Elementare Rechenregeln). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. i) Es gilt P [∅] = 0, ii) Für A, B ∈ A mit A ∩ B = ∅ gilt endliche Additivität: P [A ∪ B] = P [A] + P [B]. Universität Bonn Wintersemester 2009/2010 14 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN iii) Für A, B ∈ A mit A ⊆ B gilt: P [B] = P [A] + P [B\A]. Insbesondere gilt: P [A] ≤ P [B], »Monotonie«, P [AC ] = 1 − P [A], »Gegenereignis«, P [A] ≤ 1. iv) Für A, B ∈ A gilt: P [A ∪ B] = P [A] + P [B] − P [A ∩ B] ≤ P [A] + P [B]. Beweis. i) Wegen der σ-Additivität von P gilt 1 = P [Ω] = P [Ω ∪ ∅ ∪ ∅ ∪ . . .] = P [Ω] + P [∅] + P [∅] + . . . , | {z } |{z} |{z} =1 und damit ≥0 ≥0 P [∅] = 0. ii) Für disjunkte Ereignisse A, B folgt aus der σ-Additivität und mit i): P [A ∪ B] = P [A ∪ B ∪ ∅ ∪ ∅ ∪ . . .] = P [A] + P [B] + P [∅] + . . . = P [A] + P [B]. iii) Falls A ⊆ B, ist B = A ∪ (B\A). Da diese Vereinigung disjunkt ist, folgt mit ii): P [B] = P [A] + P [B\A] ≥ P [A]. Insbesondere ist 1 = P [Ω] = P [A] + P [AC ] und somit P [A] ≤ 1. iv) Nach iii) gilt: P [A ∪ B] = P [A] + P [(A ∪ B)\A] = P [A] + P [B\(A ∩ B)] = P [A] + P [B] − P [A ∩ B]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 15 Aussage iv) des Satzes lässt sich für endlich viele Ereignisse verallgemeinern. Nach iv) gilt für die Vereinigung von drei Ereignissen: P [A ∪ B ∪ C] = P [A ∪ B] + P [C] − P [(A ∪ B) ∩ C] = P [A ∪ B] + P [C] − P [(A ∩ C) ∪ (B ∩ C)] = P [A] + P [B] + P [C] − P [A ∩ B] − P [A ∩ C] − P [B ∩ C] + P [A ∩ B ∩ C]. Mit vollständiger Induktion folgt: Korollar (Einschluss-/Ausschlussprinzip). Für n ∈ N mit Ereignissen A1 , . . . , An ∈ A gilt: P [ A1 ∪ A2 ∪ . . . ∪ An ] = | {z } »eines der Ai tritt ein« n X X (−1)k−1 P[ 1≤i1 <...<ik ≤n k=1 ]. Ai1 ∩ Ai2 ∩ . . . ∩ Aik {z } | »Ai1 , Ai2 , . . . und Aik treten ein« Das Einschluss-/Ausschlussprinzip werden wir auf eine elegantere Weise am Ende dieses Kapitels beweisen (siehe Satz 1.9). Diskrete Wahrscheinlichkeitsverteilungen Als Beispiel für eine diskrete Wahrscheinlichkeitsverteilung haben wir den Münzwurf betrachtet: Ω = {0, 1}, A = {{∅}, {0}, {1}, {0, 1}}, P [{1}] = p, P [∅] = 0, P [{0}] = 1 − p, P [Ω] = 1. A LLGEMEIN : Ist die Menge der möglichen Fälle Ω endlich oder abzählbar unendlich, dann setzen wir als zugehörige σ-Algebra A = P[Ω]. Satz 1.2. i) Sei 0 ≤ p(ω) ≤ 1, ist durch P ω∈Ω p(ω) = 1 eine Gewichtung der möglichen Fälle. Dann P [A] := X p(ω), ω∈A (A ⊆ Ω), eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert. ii) Umgekehrt ist jede Wahrscheinlichkeitsverteilung P auf (Ω, A) von dieser Form mit p(ω) = P [{ω}] (ω ∈ Ω). p : Ω → [0, 1] heißt Massenfunktion (»probability mass function«) der diskreten Wahr- scheinlichkeitsverteilung P . Universität Bonn Wintersemester 2009/2010 16 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Für den Beweis des Satzes brauchen wir einige Vorbereitungen. Bemerkung (Vorbemerkung zu Summen mit positiven Summanden). Sei A eine abzählbare Menge, p(ω) ≥ 0 für alle ω ∈ A. Dann definieren wir X ∞ X p(ω) := p(ωi ), i=1 ω∈A wobei ω1 , ω2 , . . . eine beliebige Abzählung von A ist. Lemma 1.3. i) P lung). Es gilt: ω∈A p(ω) ∈ [0, ∞] und ist wohldefiniert (d.h. unabhängig von der AbzähX X p(ω) = sup p(ω). (1.1.1) (A ⊆ B). (1.1.2) F ⊆A ω∈F |F |<∞ ω∈A Insbesondere gilt Monotonie: X ω∈A ii) Ist A = S∞ i=1 p(ω) ≤ X p(ω), ω∈B Ai eine disjunkte Zerlegung, dann gilt: X p(ω) = ∞ X X p(ω). i=1 ω∈Ai ω∈A i) Sei ω1 , ω2 , . . . eine beliebige Abzählung von A. Aus p(ωi ) ≥ 0 für alle i ∈ N P folgt, dass die Partialsummen ni=1 p(ωi ) monoton wachsend sind. Daraus folgt: Beweis. ∞ X p(ωi ) = sup n∈N i=1 n X p(ωi ). i=1 Falls die Menge der Partialsummen von oben beschränkt ist, existiert dieses Supremum in [0, ∞). Andernfalls divergiert die Folge der Partialsummen bestimmt gegen +∞. Zu zeigen bleibt: sup n∈N n X i=1 p(ωi ) = sup X p(ω) ist unabhängig von der Abzählung von A. F ⊆A ω∈F |F |<∞ »≤«: Für alle n ∈ N gilt: n X i=1 p(ωi ) ≤ sup X p(ω), F ⊆A ω∈F |F |<∞ da das Supremum auch über F = {ω1 , . . . , ωn } gebildet wird. Damit folgt »≤«. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 17 »≥«: Da F ⊆ A endlich ist, gibt es ein n ∈ N, so dass F ⊆ {ω1 , . . . , ωn } . Also gilt: X ω∈F n X p(ω) ≤ i=1 p(ωi ) ≤ ∞ X p(ωi ). i=1 Damit folgt »≥«. ii) • Falls A endlich ist, gilt Ai 6= ∅ nur für endlich viele i ∈ N und alle Ai sind endlich. Die Behauptung folgt dann aus dem Kommutativ- und dem Assoziativgesetz. • Sei andernfalls A abzählbar unendlich. S »≤«: Da F ⊆ A endlich, ist F = ∞ i F ∩ Ai . Da diese Vereinigung disjunkt ist, folgt mit σ-Additivität und Gleichung (1.1.2): X X P [F ] = P [F ∩ Ai ] ≤ P [Ai ]. i∈N i∈N Mit (i)) gilt auch: P [A] = sup P [F ] ≤ F ⊆A |F |<∞ X P [Ai ]. i∈N Damit folgt »≤«. »≥«: Seien Fi ⊆ Ai endlich. Da die Fi disjunkt sind, folgt mit σ-Additivität und Gleichung (1.1.2) für alle n ∈ N: n X P [Fi ] = P i=1 Mit (1.1.1) folgt " n [ i=1 Fi ≤ P "∞ [ i=1 n X P [Ai ] ≤ P [A], ∞ X P [Ai ] ≤ P [A]. i=1 und für n → ∞ schließlich # i=1 # Ai = P [A]. Damit folgt »≥«. i) Es ist P [Ω] = Beweis von Satz 1.2. P Seien Ai , (i ∈ N) disjunkt und A := 1.3.ii): P ∞ [ i=1 Universität Bonn Ai = P [A] = ω∈Ω S∞ X ω∈A p(ω) = 1 nach Voraussetzung. i=1 Ai . Die σ-Additivität von P folgt aus Lemma p(ω) = ∞ X X i=1 ω∈Ai p(ω) = ∞ X P [Ai ] i=1 Wintersemester 2009/2010 18 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN ii) Aus der σ-Additivität von P folgt: P [A] = P [ ω∈A X P [{ω}]. {ω} = | {z } disjunkt ω∈A Spezielle Wahrscheinlichkeitsverteilungen Gleichverteilungen / Laplace-Modelle Sei Ω endlich und nichtleer, A = P(Ω) und p(ω) = 1 |Ω| für alle ω ∈ Ω. Dann ist |A| Anzahl »günstiger« Fälle = , (A ⊆ Ω), |Ω| Anzahl aller Fälle die Wahrscheinlichkeitsverteilung zu p und wird Gleichverteilung genannt. P [A] = Beispiele. a) n FAIRE M ÜNZWÜRFE : Sei Ω = {0, 1}n und P die Gleichverteilung. Dann ist 1 p(ω) = n . 2 b) Z UFÄLLIGE P ERMUTATIONEN : Sei Ω = Sn = {ω : {1, 2, . . . , n} → {1, 2, . . . , n} bijektive Abbildungen } und P die Gleichverteilung. Dann ist |A| . n! Beispiele für zufällige Permutationen sind das Mischen eines Kartenspiels, Vertauschen P [A] = von Hüten oder Umzug in die LWK, wobei n Schlüssel zufällig vertauscht werden. Es gilt: P [»der k-te Schlüssel passt auf Schloss i«] = P [{ω ∈ Sn | ω(i) = k}] = (n − 1)! 1 = . n! n Wie groß ist die Wahrscheinlichkeit, dass einer der Schlüssel sofort passt? Das Ereignis »Schlüssel i passt« ist Ai = {ω | ω(i) = i} = {»i ist Fixpunkt« }. Die Wahr- scheinlichkeit für das Ereignis »ein Schlüssel passt« ist nach dem Einschluss-/Ausschlussprinzip (Satz 1.9): P [»es gibt mindestens einen Fixpunkt«] = P [A1 ∪ A2 ∪ . . . ∪ An ] n X X = P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] (−1)k+1 = k=1 n X (−1)k+1 k=1 1≤i1 <i2 <...<ik ≤n X 1≤i1 <i2 <...<ik Einführung in die Wahrscheinlichkeitstheorie (n − k)! , n! ≤n Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 19 wobei die innere Summe über alle k-elementigen Teilmengen läuft. Es folgt: = n X (−1) k+1 k=1 =− n (n − k)! k n! n X (−1)k k=1 k! Für das Gegenereignis erhalten wir: P [»kein Schlüssel passt«] = P [»kein Fixpunkt«] − P [»mindestens ein Fixpunkt«] n X (−1)k =1+ k! k=1 = n X (−1)k k=0 k! . Die letzte Summe konvergiert für n → ∞ gegen e−1 . Der Grenzwert existiert also und ist weder 0 noch 1! Die Wahrscheinlichkeit hängt für große n nur wenig von n ab. Empirische Verteilungen Seien x1 , x2 , . . . , xn ∈ Ω Beobachtungsdaten oder Merkmalsausprägungen, zum Beispiel das Alter aller Einwohner von Bonn. Sei N [A] := |{i ∈ {1, . . . , n} | xi ∈ A}|, die Anzahl bzw. Häufigkeit der Werte in A, und P [A] := die relative Häufigkeit der Werte in A. N [A] , n Dann ist P eine Wahrscheinlichkeitsverteilung auf (Ω, P(Ω)) mit Massenfunktion p(ω) = Beispiele. N [{ω}] , n der relativen Häufigkeit der Merkmalsausprägungen. a) A BZÄHLUNG ALLER MÖGLICHEN FÄLLE: Sei x1 , . . . , xn eine Abzählung der Elemente in Ω. Dann stimmt die empirische Verteilung mit der Gleichverteilung überein. b) E MPIRISCHE V ERTEILUNG VON n Z UFALLSZAHLEN AUS {1, 2, 3, 4, 5, 6}: x=RandomChoice [ { 1 , 2 , 3 , 4 , 5 , 6 } , n ] ; L i s t P l o t [ BinCounts [ x [ [ 1 ; ; n ] , {1 , 7 , 1 } ] / n , F i l l i n g −> Axis , PlotRange −> { 0 , 0 . 3 } , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ] , {n , 1 , 1 0 0 , 1} Universität Bonn Wintersemester 2009/2010 20 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN 0.30 0.25 0.20 0.15 0.10 0.05 • n = 100: 0 1 2 3 4 5 6 0.30 0.25 0.20 0.15 0.10 0.05 • n = 10000: 0 1 2 3 4 5 6 c) E MPIRISCHE V ERTEILUNG DER B UCHSTABEN » A « BIS » Z «: • in dem Wort »Eisenbahnschrankenwaerterhaeuschen«: f r e q = S t r i n g C o u n t [ " e i s e n b a h n s c h r a n k e n w a e r t e r h a e u s c h e n " , # ] & /@ CharacterRange [ " a " , " z " ] ; r e l f r e q = f r e q / Total [ f r e q ] ; L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 21 0.20 0.15 0.10 0.05 5 10 15 20 25 • in einem englischen Wörterbuch: f r e q = Length [ D i c t i o n a r y L o o k u p [ # ~~ ___ ] ] & /@ CharacterRange [ " a " , " z " ] ; r e l f r e q = f r e q / Total [ f r e q ] ; L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e [ L a r g e ] ] 0.12 0.10 0.08 0.06 0.04 0.02 5 10 15 20 25 d) B ENFORDSCHES G ESETZ : Das Benfordsche Gesetz, auch Newcomb-Benford’s Law (NBL) beschreibt eine Gesetzmäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen, zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzahlen von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz gefasst besagt es: Universität Bonn Wintersemester 2009/2010 22 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN »Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,5-mal so häufig auf wie solche mit der Anfangsziffer 9.« 1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den benutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer deutlich schmutziger waren als die anderen Seiten, weil sie offenbar öfter benutzt worden seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit geraten, als der Physiker Frank Benford (1883−1948) diese Gesetzmäßigkeit wiederentdeckte und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt, in neuerer Zeit wird aber durch die Bezeichnung »Newcomb-Benford’s Law« (NBL) dem eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Gesetzmäßigkeit nicht einmal allen Statistikern bekannt. Erst seit der US-amerikanische Mathematiker Theodore Hill versucht hat, die Benford-Verteilung zur Lösung praktischer Probleme nutzbar zu machen, ist ihr Bekanntheitsgrad gewachsen.(Quelle: »Wikipedia«) H ÄUFIGKEITSVERTEILUNG DER A NFANGSZIFFERN VON Z AHLEN : Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in empirischen Datensätzen näherungsweise mit folgenden relativen Häufigkeiten p(d) auf: p(d) = log10 1 + 1 = log10 d + 1 − log10 d. d In der Grafik unten (Quelle: »Wolfram Demonstrations Project«) werden die relativen Häufigkeiten der Anfangsziffern 1 bis 9 in den Anzahlen der Telefonanschlüsse in allen Ländern der Erde mit den nach dem Benfordschen Gesetz prognostizierten relativen HäuEinführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 23 figkeiten verglichen. 0.30 0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 9 1.2 Diskrete Zufallsvariablen und ihre Verteilung Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Definition. i) Eine diskrete Zufallsvariable (ZV) ist eine Abbildung X : Ω → S, S abzählbar, so dass für alle a ∈ S gilt: X −1 (a) := {ω ∈ Ω | X(ω) = a} ∈ A. (1.2.1) Für X −1 (a) (das Urbild von a unter X) schreiben wir im folgenden {X = a}. ii) Die Verteilung von X ist die Wahrscheinlichkeitsverteilung µX auf S mit Gewichten (a ∈ S). pX (a) := P [{X = a}], Für P [{X = a}] schreiben wir im folgenden P [X = a]. Bemerkung. a) In der Tat ist pX Massenfunktion einer Wahrscheinlichkeitsverteilung (siehe Satz 1.2): i) Für alle a ∈ S gilt: pX (a) ≥ 0 ii) Da die Ereignisse {X = a} disjunkt sind, folgt: X X [ pX (a) = P [X = a] = P {X = a} = P [Ω] = 1. a∈S Universität Bonn a∈S a∈S Wintersemester 2009/2010 24 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN b) Für B ⊆ S gilt: {X ∈ B} := {ω ∈ Ω|X(ω) ∈ B} = | {z } P [X ∈ B] = X X −1 (B) P [X = a] = a∈B X [ a∈B {X = a} ∈ A, | {z } sowie ∈A pX (a) = µX (B). a∈B Die Verteilung µX gibt also an, mit welchen Wahrscheinlichkeiten die Zufallsvariable X Werte in bestimmten Mengen annimmt. Beispiele (Zweimal würfeln). Sei Ω = {ω = (ω1 , ω2 ) | ωi ∈ {1, . . . , 6}} und sei P die Gleich- verteilung. a) Sei Xi : Ω → S := {1, 2, 3, 4, 5, 6}, X(ω) := ωi , die Augenzahl des i-ten Wurfs. Xi ist eine diskrete Zufallsvariable mit Verteilung µXi . Die Gewichte von µXi sind pXi (a) = P [Xi = a] = 1 6 = 36 6 für alle a ∈ S, d.h. Xi ist gleichverteilt. b) Sei Y : Ω → Se := {2, 3, . . . , 12} Y (ω) := X1 (ω) + X2 (ω), die Summe der Augenzahlen. Die Gewichte der Verteilung von Y sind pY (a) = P [Y = a] = d.h. Y ist nicht mehr gleichverteilt! 1 36 2 36 . . . falls a ∈ {2, 12}, falls a ∈ {3, 11}, . Allgemeiner: Beispiel. Sei Ω = {ω1 , . . . , ωn } endlich, P die Gleichverteilung, X : Ω → S eine Zufallsvariable und xi := X(ωi ). Dann ist P [X = a] = |{1 ≤ i ≤ n | xi = a}| |{ω ∈ Ω | X(ω) = a}| = , |Ω| n also ist µx die empirische Verteilung von x1 , . . . , xn . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 25 Binomialverteilung Beispiel (»Ziehen mit Zurücklegen«). Wir betrachten eine endliche Grundgesamtheit (Population, Zustandsraum) S, zum Beispiel Kugeln in einer Urne, Vögel im Wald, Einwohner in NRW. Wir wollen nun die zufällige Entnahme von n Einzelstichproben mit Zurücklegen aus S beschreiben und setzen daher Ω = S n = {ω = (x1 , . . . , xn ) | xi ∈ S}. Wir nehmen an, dass alle kombinierten Stichproben gleich wahrscheinlich sind, d.h. P sei die Gleichverteilung auf Ω. R ELEVANTE Z UFALLSVARIABLEN UND E REIGNISSE : • i-ter Stichprobenwert: Xi (ω) = xi , P [Xi = a] = |S|n−1 |S|n−1 1 = = , n |Ω| |S| |S| für alle a ∈ S, d.h. Xi ist gleichverteilt auf S. Sei E ⊆ S eine bestimmte Merkmalsausprägung der Stichprobe, die wir im folgenden als »Erfolg« bezeichnen (zum Beispiel schwarze Kugel, Beobachtung einer Amsel). Dann können wir die Ereignisse {Xi ∈ E},»Erfolg bei i-ter Stichprobe«, betrachten. Es gilt: P [Xi ∈ E] = µXi (E) = |E| . |S| Wir setzen q := |E| , |S| »Erfolgswahrscheinlichkeit« • Häufigkeit von E / »Anzahl der Erfolge«: Sei nun N : Ω → {0, 1, 2, . . . , n}, N (ω) := |{1 ≤ i ≤ n | Xi (ω) ∈ E}| die Anzahl der Einzelstichproben mit Merkmalsausprägung E. Universität Bonn Wintersemester 2009/2010 26 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Lemma 1.4. Für k ∈ {0, 1, . . . , n} gilt: n k p (1 − p)n−k . P [N = k] = k Beweis. Es gilt wobei n |{ω ∈ Ω | N (ω) = k}| = |E|k |S\E|n−k , k n =Anzahl der Möglichkeiten k Indizes aus {1, . . . , n} auszuwählen, k für die ein Erfolg eintritt, |E|k =Anzahl der Möglichkeiten für jeden Erfolg, |S\E|n−k =Anzahl der Möglichkeiten für jeden Misserfolg. Also gilt: n k |E|k |S\E|n−k P [N = k] = = |S|n n k p (1 − p)n−k . = k k n−k |E| |S\E| n k |S| |S| Definition. Sei n ∈ N und p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} mit Massenfunktion n k pn,p (k) = p (1 − p)n−k k heißt Binomialverteilung mit Parametern n und p (kurz: Bin(n, p)). Bemerkung. Dass pn,p eine Massenfunktion einer Wahrscheinlichkeitsverteilung ist, folgt aus Lemma 1.3! Bemerkung. Ereignisse E1 , . . . , En heißen unabhängig, falls P [Ei1 ∩ Ei2 ∩ . . . ∩ Eik ] = P [Ei1 ] · P [Ei2 ] · · · P [Eik ] für alle k ≤ n und 1 ≤ i1 < i2 < . . . < ik ≤ n gilt. Sind E1 , . . . , En unabhängig und P [Ei ] = p, dann ist n k P [»genau k der Ei treten ein«] = p (1 − p)n−k , k d.h. die Anzahl der Ereignisse, die eintreten, ist binomialverteilt. Der Beweis folgt weiter unten. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 27 Poissonverteilung Beispiel (Warteschlange). Angenommen, die Kunden in einer Warteschlange kommen unabhängig voneinander zu zufälligen (gleichverteilten) Zeitpunkten. Wie viele Kunden kommen in einer Zeitspanne der Länge t0 an? Sei N die Anzahl dieser Kunden und t0 = 1. Wir unterteilen das Intervall [0, 1]: Wir machen die folgende Annahme (die natürlich in zu modellierenden Anwendungsproblemen zu überprüfen ist): »Wenn n sehr groß ist, dann kommt in einer Zeitspanne der Länge 1 n fast immer höchstens ein Kunde«. Ei stehe für das Ereignis, dass ein Kunde im Zeitintervall i−1 n , ni ankommt (1 ≤ i ≤ n). Wir nehmen außerdem an, dass die Wahrscheinlichkeit unabhängig von i und näherungsweise proportional zu 1 n ist, also: λ , λ ∈ (0, ∞). n Für das Ereignis, dass genau k Kunden im Zeitintervall [0, 1] ankommen, sollte dann gelten, dass P [Ei ] ≈ P [N = k] ≈ P [»genau k der Ei treten ein«] ≈ pn, λ (k), n wobei pn, λ (k) das Gewicht von k unter der Binomialverteilung mit Parametern n und n λ n ist. Diese Näherung sollte »für große n immer genauer werden«. Satz 1.5 (Poissonapproximation der Binomialverteilung). Sei λ ∈ (0, ∞). Dann gilt: lim pn, λ (k) = n→∞ n λk −λ e , k! k = 0, 1, 2, . . . . Beweis. Es gilt: n! · pn, λ (k) = n k!(n − k)! n−k k λ λ · 1− n n n −k λ λ λk n · (n − 1) · . . . · (n − k + 1) · 1− · 1− · = k k! | n n {z } | {zn } | {z } →1 k −→ Universität Bonn λ −λ e k! →e−λ →1 für n → ∞. Wintersemester 2009/2010 28 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Definition. Die Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Massenfunktion p(k) = λk −λ e , k! k = 0, 1, 2, . . . , heißt Poissonverteilung mit Parameter λ. Aufgrund des Satzes verwendet man die Poissonverteilung zur näherungsweisen Modellierung der Häufigkeit seltener Ereignisse (zum Beispiel Tippfehler in einem Buch, Schadensfälle bei Versicherung, Zusammenbrüche des T-Mobile-Netzes, . . . ) und damit zur »Approximation« von Binomialverteilungen mit kleiner Erfolgswahrscheinlichkeit p. Für häufigere Ereignisse (zum Beispiel wenn Erfolgswahrscheinlichkeit p unabhängig von n ist) verwendet man hingegen besser eine Normalverteilung zur näherungsweisen Modellierung der (geeignet reskalierten) relativen Häufigkeit k n des Ereignisses für große n. Definition und Eigen- schaften von Normalverteilungen werden wir später kennenlernen. Die folgenden (mit »Maple« erstellten) Graphiken zeigen die Poisson- und Normalapproximation (Poisson schwarz, Normalverteilung rot) der Binomialverteilung (blau) für unterschiedliche Parameterwerte: n = 100, p = 0, 35 n = 100, p = 0, 02 Hypergeometrische Verteilung Beispiel (Ziehen ohne Zurücklegen). Wir betrachten m Kugeln in einer Urne (Wähler, Fische im See, . . . ), davon r rote und m − r schwarze. Gezogen wird eine zufällige Stichprobe von n Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.3. SIMULATION VON GLEICHVERTEILUNGEN 29 Kugeln, n ≤ min(r, m − r). Sind alle Stichproben gleich wahrscheinlich, dann ist ein geeignetes Modell gegeben durch: Ω = P({1, . . . , m}) = alle Teilmengen von {1, . . . , m} der Kardinalität n, P = Gleichverteilung auf Ω. Wir definieren eine Zufallsvariable N : Ω → {1, . . . , m} durch N (ω) := Anzahl der roten Kugeln in ω. Für das Ereignis, dass genau k rote Kugeln in der Stichprobe sind, gilt: m−r r · n−k |{ω ∈ Ω | N (ω) = k}| k = P [N = k] = , (k = 0, 1, . . . , n). m |Ω| n Diese Wahrscheinlichkeitsverteilung wird hypergeometrische Verteilung mit Parametern m, r und n genannt. Bemerkung. Untersucht man die Asymptotik der hypergeometrischen Verteilung für m → ∞, r → ∞, p = r m fest und n fest, so gilt: n k p (1 − p)k , P [N = k] −→ k d.h. die hypergeometrische Verteilung nähert sich der Binomialverteilung an. Eine anschauliche Erklärung dafür ist: Befinden sich sehr viele Kugeln in der Urne, dann ist der Unterschied zwischen Ziehen mit und ohne Zurücklegen vernachlässigbar, da nur sehr selten dieselbe Kugel zweimal gezogen wird. 1.3 Simulation von Gleichverteilungen Ein (Pseudo-) Zufallszahlengenerator ist ein Algorithmus, der eine deterministische Folge von ganzen Zahlen x1 , x2 , x3 , . . .mit Werten zwischen 0 und einem Maximalwert m − 1 erzeugt, welche durch eine vorgegebene Klasse statistischer Tests nicht von einer Folge von Stichproben unabhängiger, auf {0, 1, 2, . . . , m − 1} gleichverteilter Zufallsgrößen unterscheidbar ist. Ein Zufallszahlengenerator erzeugt also nicht wirklich zufällige Zahlen. Die von »guten« Zufalls- zahlengeneratoren erzeugten Zahlen haben aber statistische Eigenschaften, die denen von echten Zufallszahlen in vielerlei (aber nicht in jeder) Hinsicht sehr ähnlich sind. Universität Bonn Wintersemester 2009/2010 30 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Konkret werden die Pseudozufallszahlen üblicherweise über eine deterministische Rekurrenzrelation vom Typ xn+1 = f (xn−k+1 , xn−k+2 , . . . , xn ) , n = k, k + 1, k + 2, . . . , aus Saatwerten x1 , x2 , . . . , xk erzeugt. In vielen Fällen hängt die Funktion f nur von der letzten erzeugten Zufallszahl xn ab. Wir betrachten einige Beispiele: Lineare Kongruenzgeneratoren (LCG) Bei linearen Kongruenzgeneratoren ist die Rekurrenzrelation vom Typ xn+1 = (axn + c) mod m, n = 0, 1, 2, . . . . Hierbei sind a, c und m geeignet zu wählende positive ganze Zahlen, zum Beispiel: ZX81-Generator : m = 216 + 1, a = 75, c = 0. RANDU, IBM 360/370 : m = 231 , a = 65539, c = 0. m = 232 , a = 69069, c = 1. Marsaglia-Generator : Langlands-Generator : 48 m=2 , a = 142412240584757, c = 11. Um einen ersten Eindruck zu erhalten, wie die Qualität der erzeugten Pseudozufallszahlen von a, c und m abhängt, implementieren wir die Generatoren mit »Mathematica«: f [ x_ ] : = Mod[ a x + c , m] Beispiel. Wir beginnen zur Demonstration mit dem Beispiel eines ganz schlechten LCG: a = 11; c = 0; m = 63; pseudorandomdata = NestList [ f , 1 , 300]; L i s t P l o t [ pseudorandomdata ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.3. SIMULATION VON GLEICHVERTEILUNGEN 31 60 50 40 30 20 10 50 100 150 200 250 300 Die Folge von Zufallszahlen ist in diesem Fall periodisch mit einer Periode, die viel kleiner ist als die maximal mögliche (63). Dies rechnet man auch leicht nach. Periodizität mit Periode kleiner als m kann man leicht ausschließen. Es gilt nämlich: Satz (Knuth). Die Periode eines LCG ist gleich m genau dann, wenn i) c und m teilerfremd sind, ii) jeder Primfaktor von m ein Teiler von a − 1 ist, und iii) falls 4 ein Teiler von m ist, dann auch von a − 1. Beweis. siehe D. Knuth: »The art of computer programming, Vol. 2.« Beispiel (ZX 81-Generator). Hier ergibt sich ein besseres Bild, solange wir nur die Verteilung der einzelnen Zufallszahlen betrachten: a = 7 5 ; c = 0 ; m = 2^16 + 1 ; pseudorandomdata = NestList [ f , 1 , 30000]; L i s t P l o t [ pseudorandomdata ] Universität Bonn Wintersemester 2009/2010 32 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN 60 000 50 000 40 000 30 000 20 000 10 000 5000 10 000 15 000 20 000 25 000 30 000 Fassen wir jedoch Paare (xi , xi+1 ) von aufeinanderfolgenden Pseudozufallszahlen als Koordinaten eines zweidimensionalen Pseudozufallsvektors auf, und betrachten die empirische Verteilung dieser Vektoren, so ergibt sich keine besonders gute Approximation einer zweidimensionalen Gleichverteilung: blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ] 60 000 50 000 40 000 30 000 20 000 10 000 10 000 20 000 30 000 40 000 50 000 60 000 Beispiel (RANDU). Hier scheinen sowohl die einzelnen Pseudozufallszahlen xi als auch die Vektoren (xi , xi+1 ) näherungsweise gleichverteilt zu sein: a = 65539; c = 0; m = 2^31; pseudorandomdata = NestList [ f , 1 , 30000]; L i s t P l o t [ pseudorandomdata ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.3. SIMULATION VON GLEICHVERTEILUNGEN 33 2.0 ´ 10 9 1.5 ´ 10 9 1.0 ´ 10 9 5.0 ´ 10 8 5000 10 000 15 000 20 000 25 000 30 000 blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; L i s t P l o t [ blocks ] 2.0 ´ 10 9 1.5 ´ 10 9 1.0 ´ 10 9 5.0 ´ 10 8 5.0 ´ 10 8 1.0 ´ 10 9 1.5 ´ 10 9 2.0 ´ 10 9 Fassen wir aber jeweils drei aufeinanderfolgende Pseudozufallszahlen als Koordinaten eines Vektors (xi , xi+1 , xi+2 ) im Z3 auf, dann ist die empirische Verteilung dieser Pseudozufallsvektoren keine Gleichverteilung mehr, sondern konzentriert sich auf nur 15 zweidimensionalen Hyperebenen: blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; L i s t P o i n t P l o t 3 D [ blocks3 ] Universität Bonn Wintersemester 2009/2010 34 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN 2.0 ´ 10 9 1.5 ´ 10 9 1.0 ´ 10 9 5.0 ´ 10 8 0 2.0 ´ 10 1.5 ´ 10 9 1.0 ´ 10 9 5.0 ´ 10 8 1.5 ´ 10 9 2.0 ´ 10 9 0 1.0 ´ 10 9 5.0 ´ 10 8 0 Beispiel (Marsaglia-Generator). Der von Marsaglia 1972 vorgeschlagene LCG besteht dagegen alle obigen Tests (und einige weitere): a = 60069; c = 1; m = 2^32; pseudorandomdata = NestList [ f , 1 , 30000]; L i s t P l o t [ pseudorandomdata ] 4 ´ 10 9 3 ´ 10 9 2 ´ 10 9 1 ´ 10 9 5000 10 000 15 000 20 000 25 000 30 000 blocks = P a r t i t i o n [ pseudorandomdata , 2 ] ; ListPlot [ blocks ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.3. SIMULATION VON GLEICHVERTEILUNGEN 35 4 ´ 10 9 3 ´ 10 9 2 ´ 10 9 1 ´ 10 9 1 ´ 10 9 2 ´ 10 9 3 ´ 10 9 4 ´ 10 9 blocks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; ListPointPlot3D [ blocks3 ] 4 ´ 10 93 ´ 10 9 2 ´ 10 9 1 ´ 10 9 0 4 ´ 10 9 3 ´ 10 9 2 ´ 10 9 1 ´ 10 0 4 ´ 10 9 3 ´ 10 2 ´ 10 1 ´ 10 9 9 9 0 Dies bedeutet natürlich nicht, daß die vom Marsaglia-Generator erzeugte Folge eine für alle Zwecke akzeptable Approximation einer Folge von unabhängigen Stichproben von der Gleichverteilung ist. Da die Folge in Wirklichkeit deterministisch ist, kann man einen Test konstruieren, der sie von einer echten Zufallsfolge unterscheidet. Shift-Register-Generatoren Bei Shift-Register-Generatoren interpretiert man eine Zahl xn ∈ {0,1,. . . , 2k − 1 zunächst als Binärzahl bzw. als Vektor aus {0, 1}k , und wendet dann eine gegebene Matrix T darauf an, um xn+1 zu erhalten: xn+1 = T xn , Universität Bonn n = 0, 1, 2, . . . . Wintersemester 2009/2010 36 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Kombination von Zufallszahlengeneratoren Zufallszahlengeneratoren lassen sich kombinieren, zum Beispiel indem man die von mehreren Zufallszahlengeneratoren erzeugten Folgen von Pseudozufallszahlen aus {0,1,. . . ,m − 1} mo- dulo m addiert. Auf diese Weise erhält man sehr leistungsfähige Zufallszahlengeneratoren, zum Beispiel den Kiss-Generator von Marsaglia, der einen LCG und zwei Shift-Register-Generatoren kombiniert, Periode 295 hat, und umfangreiche statistische Tests besteht. Zufallszahlen aus [0,1) Ein Zufallszahlengenerator kann natürlich nicht wirklich reelle Pseudozufallszahlen erzeugen, die die Gleichverteilung auf dem Intervall [0, 1) simulieren, denn dazu würden unendlich vie- le »zufällige« Nachkommastellen benötigt. Stattdessen werden üblicherweise (pseudo-)zufällige Dezimalzahlen vom Typ un = xn , m xn ∈ {0, 1, . . . , m − 1}, erzeugt, wobei m vorgegeben ist (zum Beispiel Darstellungsgenauigkeit des Computers), und xn eine Folge ganzzahliger Pseudozufallszahlen aus {0, 1, . . . , m - 1} ist. In »Mathematica« kann man mit h i RandomReal spec, WorkingPrecision → k pseudozufällige Dezimalzahlen mit einer beliebigen vorgegebenen Anzahl k von Nachkommastellen erzeugen. Zufallspermutationen Der folgende Algorithmus erzeugt eine (pseudo-)zufällige Permutation aus Sn : Algorithmus 1.6 (RPERM). r p e r m [ n_ ] : = Module [ { x = Range [ n ] , k , a } , Beginn mit Liste 1,2,...,n Do [ k = RandomInteger [{ i , n } ] ; a = x[[ i ]]; x[[ i ]] = x[[k ]]; x[[k]] = a ; x , {i , n − 1}]; (Vertausche x[[i]] und x[[k]]) (Schleife, i läuft von 1 bis n − 1) (Ausgabe von x) ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.4. ERWARTUNGSWERT 37 rperm [ 1 7 ] { 1 2 , 5 , 1 3 , 8 , 1 7 , 9 , 1 0 , 6 , 1 , 7 , 1 6 , 1 5 , 1 4 , 4 , 2 , 3 , 11} Ü BUNG : Sei Ωn = {1, 2, . . . , n} × {2, 3, . . . , n} × · · · × {n − 1, n}. a) Zeigen Sie, daß die Abbildung X(ω) = τn−1,ωn−1 ◦ · · · ◦ τ2,ω2 ◦ τ1,ω1 eine Bijektion von Ωn nach Sn ist (τi,j bezeichnet die Transposition von i und j). b) Folgern Sie, daß der Algorithmus oben tatsächlich eine Stichprobe einer gleichverteilten Zufallspermutation aus Sn simuliert. 1.4 Erwartungswert Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, S ⊆ R abzählbar und X : Ω → S eine Zufallsvariable auf (Ω, A, P ). Definition. Der Erwartungswert von X bzgl. P ist definiert als E[X] := X a∈S a · P [X = a] = X a∈S a · pX (a), sofern die Summe auf der rechten Seite wohldefiniert ist (d.h. unabhängig von der Abzählung von S). Bemerkung. a) Falls X(ω) ≥ 0 für alle ω ∈ Ω gilt, sind alle Summanden der Reihe nichtne- gativ und der Erwartungswert E[X] ∈ [0, ∞] wohldefiniert. b) Falls die Reihe absolut konvergiert, d.h. falls Erwartungswert E[X] ∈ R wohldefiniert. P a∈S |a| · P [X = a] endlich ist, ist der E[X] kann als der Prognosewert oder (gewichteter) Mittelwert für X(ω) interpretiert werden. Beispiel (Indikatorfunktion eines Ereignisses A ∈ A). Sei 1 falls ω ∈ A, X(ω) = IA (ω) := 0 falls ω ∈ AC . Dann ist der Erwartungswert E[X] = 1 · P [X = 1] + 0 · P [X = 0] = P [A]. Universität Bonn Wintersemester 2009/2010 38 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Ein Beispiel dafür ist ein elementarer Versicherungskontrakt mit Leistung c falls ω ∈ A, »Schadensfall«, Y = 0 sonst. Dann gilt: Y = c · IA und E[Y ] = c · P [A]. Beispiel (Poissonverteilung). Sei X Poisson-verteilt mit Parameter λ. Dann ist der Erwartungswert ∞ ∞ X X λk−1 −λ λk −λ λk −λ e =λ· e = λ. E[X] = k · P [X = k] = k· e =λ· k! (k − 1)! (k)! k=1 k=0 k=0 k=0 ∞ X ∞ X Wir können daher den Parameter λ als Erwartungswert oder die mittlere Häufigkeit des Ereignisses interpretieren. Transformationssatz Sei nun S eine beliebige abzählbare Menge, g : S → R eine Funktion und X : Ω → S eine Zufallsvariable. Wir definieren g(X) : Ω → R, ω 7→ g(X(ω)). g(X) ist eine reellwertige Zufallsvariable. Satz 1.7 (Transformationssatz). Es gilt E[g(X)] = X a∈S g(a) · P [X = a], falls die Summe wohldefiniert ist (zum Beispiel falls g nichtnegativ ist oder die Summe absolut konvergiert). Beweis. Es gilt mit Verwendung der σ-Additivität X X E[g(X)] = b · P [g(X) = b] = b·P b∈g(S) = X b∈g(S) = X b· X X a∈S {X = a} a∈g −1 (b) P [X = a] a∈g −1 (b) X b∈g(S) a∈g −1 (b) = b∈g(S) [ g(a) · P [X = a] g(a) · P [X = a]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.4. ERWARTUNGSWERT Bemerkung. 39 a) Insbesondere gilt: E[|X|] = X a∈S |a| · P [X = a]. Ist E[|X|] endlich, dann konvergiert E[X] = b) Ist Ω abzählbar, dann folgt für X : Ω → R: E[X] = E[X ◦ idΩ ] = X ω∈Ω P a · P [X = a] absolut. X(ω) · P [{ω}] = X X(ω) p(ω), ω∈Ω wobei idΩ die identische Abbildung auf Ω bezeichnet. Der Erwartungswert ist das gewichtete Mittel. Ist P die Gleichverteilung auf Ω, folgt weiter: E[X] = 1 X X(ω). |Ω| ω∈Ω Der Erwartungswert ist in diesem Spezialfall das arithmetische Mittel . Beispiel (Sankt-Petersburg-Paradoxon). Wir betrachten ein Glücksspiel mit fairen Münzwürfen X1 , X2 , . . ., wobei sich der Gewinn in jeder Runde verdoppelt bis zum ersten Mal »Kopf« fällt, dann ist das Spiel beendet.Wie hoch wäre eine faire Teilnahmegebühr für dieses Spiel? Der Gewinn ist G(ω) = 2T (ω) , mit T (ω) := min{n ∈ N | Xn (ω) = 1}, der Wartezeit auf »Kopf«. Für den erwarteten Gewinn ergibt sich E[G] = ∞ X k=1 = ∞. k 2 · P [T = k] = ∞ X k=1 k 2 · P [X1 = · · · = Xk−1 = 1, Xk = 0] = ∞ X 2k 2−k k=1 Das Spiel sollte also auf den ersten Blick bei beliebig hoher Teilnahmegebühr attraktiv sein – dennoch wäre wohl kaum jemand bereit, einen sehr hohen Einsatz zu zahlen. Eine angemessenere Beschreibung – vom Blickwinkel des Spielers aus betrachtet – erhält man, wenn man eine (üblicherweise als monoton wachsend und konkav vorausgesetzte) Nutzenfunktion u(x) einführt, die den Nutzen beschreibt, den der Spieler vom Kapital x hat. Für kleine x könnte etwa u(x) = x gelten, aber für große x wäre plausibler u(x) < x. Dann ist c ein fairer Einsatz aus Sicht des Spielers, wenn u(c) = E[u(G)] gilt. Universität Bonn Wintersemester 2009/2010 40 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN Linearität und Monotonie des Erwartungswertes Satz 1.8 (Linearität des Erwartungswerts). Seien X : Ω → SX ⊆ R und Y : Ω → SY ⊆ R diskrete reellwertige Zufallsvariablen auf (Ω, A, P ), für die E[|X|] und E[|Y |] endlich sind, dann gilt: für alle λ, µ ∈ R. E[λ X + µ Y ] = λ E[X] + µ E[Y ] Beweis. Wir definieren g : SX × SY → R, (x, y) 7→ λ x + µ y. Dann ist g(X, Y ) = λ X + µ Y eine Zufallsvariable mit Werten in SX × SY . Mit dem Transformationssatz folgt: E[λ X + µ Y ] = E[g(X, Y )] X X = g(a, b) P [X = a, Y = b] (1.4.1) a∈SX b∈SY = X X a∈SX b∈SY =λ X a∈SX =λ X a (λ a + µ b) P [X = a, Y = b] X P [X = a, Y = b] + µ b∈SY a P [X = a] + µ a∈SX X X b∈SY b X P [X = a, Y = b] a∈SX b P [Y = b] b∈SY = λ E[X] + µ E[Y ]. Hierbei konvergiert die Reihe in (1.4.1) absolut, da X X a∈SX b∈SY |λ a + µ b| P [X = a, Y = b] ≤ |λ| X a∈SX |a| P [X = a] + |µ| X b∈SY |b| P [Y = b] = |λ| E[|X|] + |µ| E[|Y |] nach Voraussetzung endlich ist. Korollar (Monotonie des Erwartungswerts). Seien die Voraussetzungen von Satz 1.8 erfüllt. Sei zusätzlich X(ω) ≤ Y (ω) für alle ω ∈ Ω, dann gilt: E[X] ≤ E[Y ]. Beweis. Nach Voraussetzung gilt (Y − X)(ω) ≥ 0 für alle ω ∈ Ω, weshalb der Erwartungswert E[Y − X] nichtnegativ ist. Aufgrund der Linearität des Erwartungswerts folgt: 0 ≤ E[Y − X] = E[Y ] − E[X]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 1.4. ERWARTUNGSWERT 41 Beispiele (Unabhängige 0-1-Experimente). Seien A1 , A2 , . . . , An ∈ A unabhängige Ereignisse mit Wahrscheinlichkeit p, und sei Xi = I A i , die Indikatorfunktion des Ereignisses Ai , i = 0, . . . , n. a) Die Zufallsvariablen Xi sind Bernoulli-verteilt mit Parameter p, d.h. 1 mit Wahrscheinlichkeit p, Xi = 0 mit Wahrscheinlichkeit 1 − p. Also gilt: E[Xi ] = E[IAi ] = P [Ai ] = p, analog zu Beispiel 1.4. b) Die Anzahl Sn = X1 + X2 + · · · + Xn der Ereignisse, die eintreten, ist binomialverteilt mit Parametern n und p (siehe Übung), d.h. n k p (1 − p)n−k . P [Sn = k] = k Den Erwartungswert kann man daher wie folgt berechnen: n X n k E[Sn ] = k · P [Sn = k] = k p (1 − p)n−k k k=0 k=0 n X = . . . = n p. Einfacher benutzt man aber die Linearität des Erwartungswerts, und erhält # " n n X X Xi = E[Sn ] = E E[Xi ] = n p, i=1 i=1 sogar ohne Verwendung der Unabhängigkeit! Beispiel (Abhängige 0-1-Experimente). Wir betrachten eine Population aus m Objekten, davon r rote, aus der eine Zufallsstichprobe aus n Objekten ohne Zurücklegen entnommen wird, n ≤ min(r, m − r). Sei Ai das Ereignis, dass das i-te Objekt in der Stichprobe rot ist, und Xi = IAi . Die Anzahl Sn = X1 + · · · + Xn Universität Bonn Wintersemester 2009/2010 42 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN der roten Objekte in der Zufallsstichprobe ist dann hypergeometrisch verteilt mit Parametern m, r und n. Als Erwartungswert dieser Verteilung erhalten wir analog zum letzten Beispiel: E[Sn ] = n X E[Xi ] = i=1 n X P [Ai ] = n i=1 r . m Beispiel (Inversionen von Zufallspermutationen). Seien Ω = Sn die Menge aller Permutationen ω : {1, . . . , n} → {1, . . . , n}, P die Gleichverteilung auf Ω, und N (ω) = |{(i, j) | i < j und ω(i) > ω(j)}|, die Anzahl der Inversionen einer Permutation ω ∈ Ω. Dann gilt N= X IAi,j , wobei 1≤i<j≤n Ai,j = {ω ∈ Sn | ω(i) > ω(j)} das Ereignis ist, dass eine Inversion von i und j auftritt. Es folgt: E[N ] = X i<j A NWENDUNG : E[IAi,j ] = X i<j P [{ω ∈ Sn | ω(i) > ω(j)}] = X1 i<j 1 = 2 2 n (n − 1) n = . 2 4 Beim Sortieralgorithmus »Insertion Sort« wird der Wert ω(i) einer Liste {ω(1), ω(2), . . . , ω(n)} beim Einfügen von ω(j) genau dann verschoben, wenn ω(j) < ω(i) gilt. Ist die Anfangsanordnung eine Zufallspermutation der korrekten Anordnung, dann ist die mittlere Anzahl der Verschiebungen, die der Algorithmus vornimmt, also gleich n (n−1) . 4 Satz 1.9 (Einschluss-/Ausschlussprinzip). Für n ∈ N und Ereignisse A1 , . . . , An ∈ A gilt: P [A1 ∪ A2 ∪ . . . ∪ An ] = n X (−1)k−1 k=1 Einführung in die Wahrscheinlichkeitstheorie X 1≤i1 <...<ik ≤n P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] . Prof. Andreas Eberle 1.4. ERWARTUNGSWERT 43 Beweis. Wir betrachten zunächst das Gegenereignis, und drücken die Wahrscheinlichkeiten als Erwartungswerte von Indikatorfunktionen aus. Unter Ausnutzung der Linearität des Erwartungswerts erhalten wir: C P (A1 ∪ · · · ∪ An )C = P AC C 1 ∩ · · · ∩ An = E IAC 1 ∩···∩An n n Y Y =E IACi = E (1 − IAi ) i=1 = = = n X k=0 n X k=0 n X k=0 (−1)k i=1 X 1≤i1 <...<ik ≤n (−1)k X 1≤i1 <...<ik ≤n (−1)k X 1≤i1 <...<ik ≤n E I A i1 · · · · · I A ik E IAi1 ∩···∩Aik P Ai1 ∩ · · · Aik . Es folgt: P [A1 ∪ · · · ∪ An ] = 1 − P (A1 ∪ · · · ∪ An )C n X X = P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] . (−1)k−1 k=1 Universität Bonn 1≤i1 <...<ik ≤n Wintersemester 2009/2010 Kapitel 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit 2.1 Bedingte Wahrscheinlichkeiten Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und A, B ∈ A Ereignisse. Was ist die Wahrscheinlichkeit dafür, dass A eintritt, wenn wir schon wissen, dass B eintritt? ω∈B Relevante Fälle: Davon günstige Fälle: ω ∈ A ∩ B Definition. Sei P [B] 6= 0. Dann heißt P [A|B] := P [A ∩ B] P [B] die bedingte Wahrscheinlichkeit von A gegeben B. Bemerkung. a) P [ • |B] : A 7→ P [A|B] ist eine Wahrscheinlichkeitsverteilung auf (Ω, A), die bedingte Verteilung gegeben B . Der Erwartungswert E[X|B] = X a∈S a · P [X = a|B] einer diskreten Zufallsvariable X : Ω → S bzgl. der bedingten Verteilung heißt bedingte Erwartung von X gegeben B. b) Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann gilt: P [A|B] = |A ∩ B| |A ∩ B|/|Ω| = |B|/|Ω| |B| 44 für alle A, B ⊆ Ω. 2.1. BEDINGTE WAHRSCHEINLICHKEITEN Beispiele. 45 a) Wir betrachten eine Familie mit 2 Kindern, und stellen die Frage nach dem Geschlecht der Kinder. Sei daher Ω = {JJ, JM, M J, M M }. Angenommen, alle Fälle wären gleich wahrscheinlich. Dann gilt: P [»beide Mädchen« | »eines Mädchen«] = |{M M }| 1 = , |{M M, JM, M J}| 3 P [»beide Mädchen« | »das erste ist Mädchen«] = 1 |{M M }| = . |{M M, M J}| 2 In Wirklichkeit sind die Kombinationen JJ und M M wahrscheinlicher. b) Bei 20 fairen Münzwürfen fällt 15-mal »Zahl«. Wie groß ist die Wahrscheinlichkeit, dass die ersten 5 Würfe »Zahl« ergeben haben? Sei Ω = {ω = (x1 , . . . x20 ) | xi ∈ {0, 1}}, Xi (ω) = xi , und der Ausgang des i-ten Wurfs. Es gilt: P X1 = . . . = X5 = 1 20 X i=1 Xi = 15 = = Dagegen ist P [X1 = . . . = X5 = 1] = 1 . 32 20 P P X1 = . . . = X5 = 1 und Xi = 10 i=6 2−5 · 2−15 2−20 20 15 P 15 20 P i=1 10 = Xi = 15 1 15 · 14 · · · · · 11 ≈ . 20 · 19 · · · · · 16 5 Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung Sei Ω = I. S Hi eine disjunkte Zerlegung von Ω in abzählbar viele Fälle (»Hypothesen«) Hi , i ∈ Satz 2.1 (Formel von der totalen Wahrscheinlichkeit). Für alle A ∈ A gilt: P [A] = X i∈I P [Hi ]6=0 Universität Bonn P [A|Hi ] · P [Hi ] Wintersemester 2009/2010 46 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Beweis. Es ist A = A ∩ ( Additivität: P [A] = X i∈I S Hi ) = S i∈I i∈I P [A ∩ Hi ] = (A ∩ Hi ) eine disjunkte Vereinigung, also gilt nach σ- X i∈I X P [A ∩ Hi ] = | {z } i∈I, P [Hi ]6=0 =0, falls P [Hi ]=0 P [A|Hi ] · P [Hi ]. Beispiel. Urne 1 enthalte 2 rote und 3 schwarze Kugeln, Urne 2 enthalte 3 rote und 4 schwarze Kugeln. Wir legen eine Kugel K1 von Urne 1 in Urne 2 und ziehen eine Kugel K2 aus Urne 2. Mit welcher Wahrscheinlichkeit ist K2 rot? P [K2 rot] = P [K2 rot | K1 rot] · P [K1 rot] + P [K2 rot | K1 schwarz] · P [K1 schwarz] 4 2 3 3 17 = · + · = . 8 5 8 5 40 Beispiel (Simpson-Paradoxon). Bewerbungen in Berkeley: B EWERBUNGEN IN B ERKELEY Statistik 1: Männer angenommen (A) 2083 Empirische Verteilung: P [A|M ] ≈ Frauen 996 1067 0, 48 P [A|F ] angenommen (A) 349 ≈ 0, 33 G ENAUERE A NALYSE DURCH U NTERTEILUNG IN 4 FACHBEREICHE Statistik 2: Männer angenommen (A) Frauen angenommen (A) Bereich 1 825 511 62% 108 89 82% Bereich 2 560 353 63% 25 17 68% Bereich 3 325 110 34% 593 219 37% Bereich 4 373 22 6% 341 24 7% Sei PM [A] := P [A|M ] die empirische Verteilung unter Männern und PF [A] := P [A|F ] die empirische Verteilung unter Frauen, angenommen zu werden. Die Aufgliederung nach Fachbereichen ergibt folgende Zerlegung in Hypothesen: PM [A] = 4 X PM [A|Hi ] PM [Hi ], i=1 PF [A] = 4 X PF [A|Hi ] PF [Hi ]. i=1 Im Beispiel ist PF [A|Hi ] > PM [A|Hi ] für alle i, aber dennoch PF [A] < PM [A]. Die erste Statistik vermischt verschiedene Populationen und legt deshalb eventuell eine falsche Schlussfolgerung nahe. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.1. BEDINGTE WAHRSCHEINLICHKEITEN 47 Bayessche Regel Wie wahrscheinlich sind die Hypothesen Hi ? Ohne zusätzliche Information ist P [Hi ] die Wahrscheinlichkeit von Hi . In der Bayesschen Statistik interpretiert man P [Hi ] als unsere subjektive Einschätzung (aufgrund von vorhandenem oder nicht vorhandenem Vorwissen) über die vorliegende Situation (»a priori degree of belief«). Angenommen, wir wissen nun zusätzlich, dass ein Ereignis A ∈ A mit P [A] 6= 0 eintritt, und wir kennen die bedingte Wahrscheinlichkeit (»likelihood«) P [A|Hi ] für das Eintreten von A unter der Hypothese Hi für jedes i ∈ I mit P [Hi ] 6= 0. Wie sieht dann unsere neue Einschätzung der Wahrscheinlichkeiten der Hi (»a posteriori degree of belief«) aus? Korollar (Bayessche Regel). Für A ∈ A mit P [A] 6= 0 gilt: P [Hi |A] = P [A|Hi ] · P [Hi ] P P [A|Hj ] · P [Hj ] für alle i ∈ I mit P [Hi ] 6= 0, d.h. j∈I P [Hj ]6=0 P [Hi |A] = c · P [Hi ] · P [A|Hi ], wobei c eine von i unabhängige Konstante ist. Beweis. Es gilt: P [Hi |A] = P [A ∩ Hi ] = P [A] P [A|Hi ] · P [Hi ] P . P [A|Hj ] · P [Hj ] j∈I P [Hj ]6=0 Beispiel. Von 10.000 Personen eines Alters habe einer die Krankheit K. Ein Test sei positiv (+) bei 96% der Kranken und 0,1% der Gesunden. A priori: P [K] Likelihood: P [+|K] 1 . 10000 P [K C ] = 0, 96. P [+|K C ] = = 9999 . 10000 = 0, 001. A posteriori: P [+|K] · P [K] P [+|K] · P [K] + P [+|K C ] · P [K C ] 0, 96 · 10−4 1 = ≈ . −4 −3 0, 96 · 10 + 10 · 0, 9999 11 P [K|+] = Daraus folgt insbesondere: P [K C |+] ≈ ausgehen, dass 10 11 Universität Bonn 10 , 11 d.h. ohne zusätzliche Informationen muss man davon der positiv getesteten Personen in Wirklichkeit gesund sind! Wintersemester 2009/2010 48 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT 2.2 Mehrstufige diskrete Modelle Wir betrachten ein n-stufiges Zufallsexperiment. Sind Ω1 , . . . , Ωn abzählbare Stichprobenräume der Teilexperimente, dann können wir Ω = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) | ωi ∈ Ωi } als Stichprobenraum des Gesamtexperiments auffassen und setzen A = P(Ω). Für ω ∈ Ω und k = 1, . . . , n sei Xk (ω) = ωk , der Ausgang des k-ten Teilexperiments. Angenommen, wir kennen P [X1 = x1 ] = p1 (x1 ), für alle x1 ∈ Ω1 , (2.2.1) die Verteilung (Massenfunktion) von X1 , sowie P [Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ] = pk (xk | x1 , . . . , xk−1 ), (2.2.2) die bedingte Verteilung von Xk gegeben X1 , . . . , Xk−1 für k = 2, . . . n, xi ∈ Ωi mit P [X1 = x1 , . . . , Xk−1 = xk−1 ] 6= 0. Wie sieht die gesamte Wahrscheinlichkeitsverteilung P auf Ω aus? Satz 2.2. Seien p1 und pk ( • | x1 , . . . , xk−1 ) für jedes k = 2, . . . , n und x1 ∈ Ω1 , . . . , xk−1 ∈ Ωk−1 die Massenfunktion einer Wahrscheinlichkeitsverteilung auf Ωk . Dann existiert genau eine Wahrscheinlichkeitsverteilung P auf (Ω, A) mit (2.2.1) und (2.2.2). Diese ist bestimmt durch die Massenfunktion p(x1 , . . . , xn ) = p1 (x1 ) p2 (x2 | x1 ) p3 (x3 | x1 , x2 ) · · · pn (xn | x1 , . . . , xn−1 ). Beweis. • E INDEUTIGKEIT: Wir behaupten, dass für eine Verteilung P mit (2.2.1) und (2.2.2) gilt: P [X1 = x1 , . . . , Xk = xk ] = p1 (x1 )·p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ), Einführung in die Wahrscheinlichkeitstheorie k = 1, . . . , n. Prof. Andreas Eberle 2.2. MEHRSTUFIGE DISKRETE MODELLE 49 Der Induktionsanfang folgt aus Bedingung (2.2.1). Sei die Induktionsbehauptung für k − 1 wahr, dann folgt nach Induktionsannahme und (2.2.2): P [X1 = x1 , . . . , Xk = xk ] =P [X1 = x1 , . . . , Xk−1 = xk−1 ] · P [X1 = x1 , . . . , Xk = xk | X1 = x1 , . . . , Xk−1 = xk−1 ] =p1 (x1 ) · p2 (x2 | x1 ) · · · pk−1 (xk−1 | x1 , . . . , xk−2 ) · pk (xk | x1 , . . . , xk−1 ), falls P [X1 = x1 , . . . , Xk−1 = xk−1 ] 6= 0. Andernfalls verschwinden beide Seiten und die Behauptung folgt. Für k = n erhalten wir als Massenfunktion von P : p(x1 , . . . , xn ) = P [X1 = x1 , . . . , Xn = xn ] = p1 (x1 ) · · · pn (xn | x1 , . . . , xn−1 ). • E XISTENZ : p ist Massenfunktion einer Wahrscheinlichkeitsverteilung P auf Ω1 × · · · × Ωn , denn: X x1 ∈Ω1 ... X p(x1 , . . . , xn ) = xn ∈Ωn X p1 (x1 ) x1 ∈Ω1 X x2 ∈Ω2 p2 (x2 | x1 ) . . . = 1. X xn ∈Ωn pn (xn | x1 , . . . , xn ) | {z =1 } Für P gilt: P [X1 = x1 , . . . Xk = xk ] = X xk+1 ∈Ωk+1 ... X p(x1 , . . . , xn ) xn ∈Ωn = p1 (x1 ) p2 (x2 | x1 ) · · · pk (xk | x1 , . . . , xk−1 ), k = 1, . . . , n. Damit folgen (2.2.1) und (2.2.2). Beispiel. Wie groß ist die Wahrscheinlichkeit, dass beim Skat jeder Spieler genau einen der vier Buben erhält? Sei Ω = {(ω1 , ω2 , ω3 ) | ωi ∈ {0, 1, 2, 3, 4}}, Xi (ω) = ωi = Anzahl der Buben von Spieler i. Universität Bonn Wintersemester 2009/2010 50 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT p3 (a|aa) p2 (a|a) aa p3 (b|aa) p3 (a|ab) a p3 (b|ab) p3 (a|ba) p2 (a|b) p1 (b) aba abb baa ba p3 (b|ba) p3 (a|bb) b bab bba bb p2 (b|b) p3 (b|bb) p3 (a|ca) p1 (c) aab ab p2 (b|a) p1 (a) aaa p2 (a|c) bbb caa ca p3 (b|ca) p3 (a|cb) c cab cba cb p2 (b|c) p3 (b|cb) cbb Abbildung 2.1: Baumdarstellung der Fallunterscheidungen Es gilt: p1 (x1 ) = p2 (x2 | x1 ) = Damit folgt: 4 x1 28 10−x1 32 10 4−x1 x2 , 18+x1 10−x2 22 10 hypergeometrische Verteilung, 4−x −x 18+x +x 1 2 1 2 10−x3 ) ( x3 )( 12 (10) p3 (x3 | x1 , x2 ) = 0 falls 2 ≤ x1 + x2 + x3 ≤ 4, sonst. p(1, 1, 1) = p1 (1) p2 (1 | 1) p3 (1 | 1, 1) ≈ 5, 56%. Im folgenden betrachten wir zwei fundamentale Klassen von mehrstufigen Modellen, Produktmodelle und Markov-Ketten. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.2. MEHRSTUFIGE DISKRETE MODELLE 51 Produktmodelle Angenommen, der Ausgang des i-ten Experiments hängt nicht von x1 , . . . , xi−1 ab. Dann sollte gelten: pi (xi | x1 , . . . , xi−1 ) = pi (xi ) mit einer von x1 , . . . , xi−1 unabhängigen Massenfunktion pi einer Wahrscheinlichkeitsverteilung Pi auf Ωi . Die Wahrscheinlichkeitsverteilung P auf Ω hat dann die Massenfunktion p(x1 , . . . , xn ) = n Y x ∈ Ω. pi (xi ), i=1 (2.2.3) Definition. Die Wahrscheinlichkeitsverteilung P auf Ω = Ω1 × . . . × Ωn mit Massenfunktion (2.2.3) heißt Produkt von P1 , . . . , Pn und wird mit P1 ⊗ . . . ⊗ Pn notiert. Beispiel (n-dimensionale Bernoulli-Verteilung). Wir betrachten n unabhängige 0-1-Experimente mit Erfolgswahrscheinlichkeit p: Ω1 = . . . = Ωn = {0, 1}, Sei k = Pn i=1 pi (0) = 1 − p, pi (1) = p, i = 1, . . . , n. xi die Anzahl der Einsen. Dann ist p(x1 , . . . , xn ) = n Y i=1 pi (xi ) = pk (1 − p)n−k die n-dimensionale Bernoulli-Verteilung. Bemerkung. Sind die Mengen Ωi , i = 1, . . . , n endlich, und ist Pi die Gleichverteilung auf Ωi , dann ist P1 ⊗ . . . ⊗ Pn die Gleichverteilung auf Ω1 × . . . × Ωn . Die Multiplikativität im Produktmodell gilt nicht nur für die Massenfunktion, sondern allgemeiner für die Wahrscheinlichkeiten, dass in den Teilexperimenten bestimmte Ereignisse A1 , . . . , An eintreten: Satz 2.3. Im Produktmodell gilt für beliebige Ereignisse Ai ⊆ Ωi , i = 1, . . . , n: P [X1 ∈ A1 , . . . , Xn ∈ An ] = || P [A1 × . . . × An ] n Y i=1 || n Y P [Xi ∈ Ai ] (2.2.4) Pi [Ai ] i=1 (d.h. X1 , . . . , Xn sind unabhängige Zufallsvariablen, siehe nächsten Abschnitt). Universität Bonn Wintersemester 2009/2010 52 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Beweis. Es gilt: P [X1 ∈ A1 , . . . , Xn ∈ An ] = P [(X1 , . . . , Xn ) ∈ A1 × · · · × An ] = P [A1 × · · · × An ] n X X X Y = p(x) = ... pi (xi ) = x∈A1 ×···×An n X Y pi (xi ) = i=1 xi ∈Ai x1 ∈A1 n Y xn ∈An i=1 Pi [Ai ]. i=1 Insbesondere gilt: P [Xi ∈ Ai ] = P [X1 ∈ Ω, . . . , Xi−1 ∈ Ω, Xi ∈ Ai , Xi+1 ∈ Ω, . . . , Xn ∈ Ω] = Pi [Ai ]. Markov-Ketten Zur Modellierung einer zufälligen zeitlichen Entwicklung mit abzählbarem Zustandsraum S betrachten wir den Stichprobenraum Ω = S n+1 = {(x0 , x1 , . . . , xn ) | xi ∈ S}. Oft ist es naheliegend anzunehmen, dass die Weiterentwicklung des Systems nur vom gegenwärtigen Zustand, aber nicht vom vorherigen Verlauf abhängt (»kein Gedächtnis«), d.h. es sollte gelten: pk (xk | x0 , . . . , xk−1 ) = pk (xk−1 , xk ) , | {z } (2.2.5) »Bewegungsgesetz« wobei pk : S × S → [0, 1] folgende Bedingungen erfüllt: i) pk (x, y) ≥ 0 ii) P y∈S für alle x, y ∈ S pk (x, y) = 1 für alle x ∈ S d.h. pk (x, •) ist für jedes x ∈ S die Massenfunktion einer Wahrscheinlichkeitsverteilung auf S. Definition. Eine Matrix pk (x, y) (x, y ∈ S) mit i) und ii) heißt stochastische Matrix (oder stochastischer Kern) auf S. Im Mehrstufenmodell folgt aus Gleichung (2.2.5): p(x0 , x1 , . . . , xn ) = p (x ) | 0{z 0} p1 (x0 , x1 ) p2 (x1 , x2 ) · · · pn (xn−1 , xn ), für x0 , . . . , xn ∈ S. »Startverteilung« Den Fall, in dem der Übergangsmechanismus pk (x, y) = p(x, y) unabhängig von k ist, nennt man zeitlich homogen. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.2. MEHRSTUFIGE DISKRETE MODELLE Beispiele. 53 a) P RODUKTMODELL (siehe oben): pk (x, y) = pk (y) ist unabhängig von x. b) A BHÄNGIGE M ÜNZWÜRFE: 1 1 ε∈ − , . 2 2 S = {0, 1}, p= 1 2 1 2 +ε −ε 1 2 1 2 −ε +ε ! . c) S ELBSTBEFRUCHTUNG VON P FLANZEN: 1 0 0 p = 41 21 14 0 0 1 d) R ANDOM WALK AUF S = Zd , (d ∈ N): Universität Bonn Wintersemester 2009/2010 54 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT p(x, y) = 1 2d 0 falls |x − y| = 1, sonst. e) U RNENMODELL VON P. UND T. E HRENFEST (Austausch von Gasmolekülen in zwei Behältern): Es seien N Kugeln auf zwei Urnen verteilt. Zu jedem Zeitpunkt t ∈ N wechselt eine zufällig ausgewählte Kugel die Urne. M AKROSKOPISCHES M ODELL : S = {0, 1, 2, . . . , n}. x ∈ S beschreibt die Anzahl Kugeln in der ersten Urne. x falls y = x − 1, n p(x, y) = n−x falls y = x + 1, n 0 sonst. M IKROSKOPISCHES M ODELL : S = {0, 1}n = {(σ1 , . . . , σn ) | σi ∈ {0, 1}}. Es ist σi = 1 genau dann, wenn sich die i-te Kugel in Urne 1 befindet. 1 falls Pn |σi − σei | = 1, i=1 p(σ, σ e) = N 0 sonst. Die resultierende Markov-Kette ist ein Random Walk auf dem Hyperwürfel {0, 1}n , d.h. sie springt in jedem Schritt von einer Ecke des Hyperwürfels zu einer zufällig ausgewählten benachbarten Ecke. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.2. MEHRSTUFIGE DISKRETE MODELLE 55 Berechnung von Wahrscheinlichkeiten Satz 2.4 (Markov-Eigenschaft). Für alle 0 ≤ k < l ≤ n und x0 , . . . , xl ∈ S mit P [X0 = x0 , . . . , Xk = xk ] 6= 0 gilt: P [Xl = xl | X0 = x0 , . . . , Xk = xk ] = P [Xl = xl | Xk = xk ] = (pk+1 pk+2 · · · pl )(xk , xl ), wobei (p q)(x, y) := X p(x, z) q(z, y) z∈S das Produkt der Matrizen p und q ist. Bemerkung. a) M ARKOV-E IGENSCHAFT: Die Weiterentwicklung hängt jeweils nur vom gegenwärtigen Zustand xk ab, und nicht vom vorherigen Verlauf x0 , x1 , . . . , xk−1 . b) n-S CHRITT-Ü BERGANGSWAHRSCHEINLICHKEITEN : P [Xn = y | X0 = x] = (p1 p2 · · · pn )(x, y) = pn (x, y) falls zeitlich homogen, d.h. pi ≡ p. Beweis. P [Xl = xl | X0 = x0 , . . . , Xk = xk ] = = = P [X0 = x0 , . . . , Xk = xk , Xl = xl ] P [X0 = x0 , . . . , Xk = xk ] P xk+1 ,...,xl−1 p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl ) X xk+1 p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk ) X ... pk+1 (xk , xk+1 ) pk+2 (xk+1 , xk+2 ) · · · pl (xl−1 , xl ) xl−1 = (pk+1 pk+2 · · · pl )(xk , xl ). P [Xl = xl | Xk = xk ] = = P [Xk = xk , Xl = xl ] P [Xk = xk ] P P x1 ,...,xk−1 P xk+1 ,...,xl−1 x1 ,...,xk−1 p0 (x0 ) p1 (x0 , x1 ) · · · pl (xl−1 , xl ) p0 (x0 ) p1 (x0 , x1 ) · · · pk (xk−1 , xk ) = (pk+1 pk+2 · · · pl )(xk , xl ). Universität Bonn Wintersemester 2009/2010 56 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Beispiel. S = {0, 1}, 0 < α, β ≤ 1. Für alle n ∈ N gilt: pn (0, 0) = pn−1 (0, 0) · p(0, 0) + pn−1 (0, 1) · p(1, 0) = pn−1 (0, 0) · (1 − α) + (1 − pn−1 (0, 0)) · β = (1 − α − β) · pn−1 (0, 0) + β. Daraus folgt mit Induktion: α β + (1 − α − β)n , α+β α+β pn (0, 1) = 1 − pn (0, 0). pn (0, 0) = und Analoge Formeln erhält man für pn (1, 0) und pn (1, 1) durch Vertauschung von α und β. Für die n-Schritt-Übergangsmatrix ergibt sich: ! pn = β α+β β α+β α α+β α α+β + | {z } Gleiche Zeilen (1 − α − β)n | α α+β −β α+β −α α+β β α+β ! . {z } −→ 0 exponentiell schnell, falls α < 1 oder β < 1 Insbesondere gilt pn (0, ·) ≈ pn (1, ·) für große n ∈ N. Die Kette »vergisst« also ihren Startwert exponentiell schnell (»Exponentieller Gedächtnisverlust«)!. 2.3 Unabhängigkeit von Ereignissen Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Hängen zwei Ereignisse A, B ∈ A nicht voneinan- der ab, dann sollte gelten: P [A|B] = P [A], fallsP [B] 6= 0, P [B|A] = P [B], | {z } fallsP [A] 6= 0, sowie P [B∩A] P [A] also insgesamt P [A ∩ B] = P [A] · P [B]. Einführung in die Wahrscheinlichkeitstheorie (2.3.1) Prof. Andreas Eberle 2.3. UNABHÄNGIGKEIT VON EREIGNISSEN Definition. 57 i) Zwei Ereignisse A, B ∈ A heißen unabhängig (bzgl. P), falls (2.3.1) gilt. ii) Eine beliebige Kollektion Ai , i ∈ I, von Ereignissen heißt unabhängig (bzgl. P), falls n Y P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] = P [Aik ] k=1 für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt. Beispiele. a) Falls P [A] ∈ {0, 1} gilt, ist A unabhängig von B für alle B ∈ A. b) Wir betrachten das Modell für ZWEI FAIRE M ÜNZWÜRFE, also Ω = {0, 1}2 und P sei die Gleichverteilung. Die Ereignisse A1 = {(1, 0), (1, 1)}, »erster Wurf Zahl«, A2 = {(0, 1), (1, 1)}, »zweiter Wurf Zahl«, A3 = {(0, 0), (1, 1)}, »beide Würfe gleich«, sind paarweise unabhängig, denn es gilt: 1 P [Ai ∩ Aj ] = = P [Ai ] · P [Aj ] für alle i 6= j. 4 Allerdings ist die Kollektion A1 , A2 , A3 nicht unabhängig, denn es gilt 1 P [A1 ∩ A2 ∩ A3 ] = 6= P [A1 ] · P [A2 ] · P [A3 ]. 4 Lemma 2.5. Seien die Ereignisse A1 , . . . , An ∈ A unabhängig, Bj = Aj oder Bj = AC j für alle j = 1, . . . , n. Dann sind die Ereignisse B1 , . . . , Bn unabhängig. Beweis. Sei ohne Beschränkung der Allgemeinheit: B 1 = A1 , ..., Bk = Ak , Bk+1 = AC k+1 , B n = AC n ..., . Dann gilt unter Verwendung der Linearität des Erwartungswerts und der Unabhängigkeit von A1 , . . . , An : C P [B1 ∩ . . . ∩ Bn ] = P A1 ∩ . . . ∩ Ak ∩ AC ∩ . . . A k+1 n = E IA1 · · · IAk · (1 − IAk+1 ) · · · (1 − IAn ) X Y = E I A1 · · · I Ak · I Aj (−1)|J| = X J⊆{k+1,...,n} = X J⊆{k+1,...,n} J⊆{k+1,...,n} j∈J (−1)|J| P A1 ∩ . . . ∩ Ak ∩ (−1)|J| P [A1 ] · · · P [Ak ] · \ j∈J Y Aj P [Aj ] j∈J = P [A1 ] · · · P [Ak ] · (1 − P [Ak+1 ]) . . . (1 − P [An ]) = P [B1 ] · · · P [Bn ]. Universität Bonn Wintersemester 2009/2010 58 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Verteilungen für unabhängige Ereignisse Seien A1 , A2 , . . . ∈ A unabhängige Ereignisse (bzgl. P ) mit P [Ai ] = p ∈ [0, 1]. Die Existenz von unendlich vielen unabhängigen Ereignissen auf einem geeigneten Wahrscheinlichkeitsraum setzen wir hier voraus – ein Beweis wird erst in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gegeben. Geometrische Verteilung Die Wartezeit auf das erste Eintreten eines der Ereignisse ist T (ω) = inf{n ∈ N | ω ∈ An }, wobei min ∅ := ∞. Mit Lemma 2.5 folgt: C C P [T = n] = P [AC 1 ∩ A2 ∩ . . . ∩ An−1 ∩ An ] = P [An ] · n−1 Y P [AC i ] i=1 = p · (1 − p)n−1 . Definition. Sei p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf N mit Massenfunktion p(n) = p · (1 − p)n−1 heißt geometrische Verteilung zum Parameter p. Bemerkung. a) Für p 6= 0 gilt: ∞ X n=1 p · (1 − p)n−1 = 1, d.h. die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung auf den natürlichen Zahlen, und P [T = ∞] = 0. b) Allgemein gilt: c) Es gilt: C n P [T > n] = P AC 1 ∩ . . . ∩ An = (1 − p) . E[T ] = ∞ X P [T > n] = n=0 (siehe Übung). Einführung in die Wahrscheinlichkeitstheorie 1 1 = , 1 − (1 − p) p Prof. Andreas Eberle 2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 59 Binomialverteilung Die Anzahl der Ereignisse unter A1 , . . . , An , die eintreten, ist Sn (ω) = |{1 ≤ i ≤ n | ω ∈ Ai }| = n X IAi (ω). i=1 Es gilt: P [Sn = k] = X P X Y P [Ai ] · X Y p· X p|I| · (1 − p)|I I⊆{1,...,n} |I|=k = \ i∈I I⊆{1,...,n} i∈I |I|=k = I⊆{1,...,n} i∈I |I|=k = I⊆{1,...,n} |I|=k Ai ∩ Y i∈I C \ AC i i∈{1,...,n}\I Y P [AC i ] i∈I C (1 − p) C| n k p (1 − p)n−k , = k d.h. Sn ist Binomialverteilt mit Parametern n und p. Satz 2.6 (»Law of Averages«, Bernstein-Ungleichung). Für alle ε > 0 und n ∈ N gilt: Sn 2 ≥ p + ε ≤ e−2ε n , und P n Sn 2 P ≤ p − ε ≤ e−2ε n . n Insbesondere gilt: Sn 2 P − p > ε ≤ 2 e−2ε n , n d.h. die Wahrscheinlichkeit für eine Abweichung des Mittelwerts Sn n vom Erwartungswert p um mehr als ε fällt exponentiell in n. Bemerkung. a) Satz 2.6 ist eine erste Version des »Gesetzes der großen Zahlen«. b) Der Satz liefert eine nachträgliche Rechtfertigung der frequentistischen Interpretation der Wahrscheinlichkeit als asymptotische relative Häufigkeit. Universität Bonn Wintersemester 2009/2010 60 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT c) Anwendung auf Schätzen von p: p≈ Sn = relative Häufigkeit des Ereignisses bei n unabhängigen Stichproben. n d) Anwendung auf näherungsweise Monte Carlo-Berechnung von p: Simuliere n unabhängige Stichproben, p ∼ relative Häufigkeit. Beweis. Sei q := 1 − p, Sn ∼ Bin(n, p). Dann gilt für λ > 0: X n pk q n−k P [Sn ≥ n (p + ε)] = k k≥np+nε X n eλk pk q n−k e−λ(np+nε) ≤ k k≥np+nε n X k n p eλ q n−k e−λnp e−λnε ≤ k k=0 n n = p eλ + q e−λnp e−λnε ≤ p eλq + q e−λp e−λnε . Wir behaupten: λ2 p eλq + q e−λp ≤ e 8 . Damit folgt: P [Sn ≥ n (p + ε)] ≤ en ( λ2 −λε) 8 . Der Exponent ist minimal für λ = 4ε. Für diese Wahl von λ folgt schließlich 2 P [Sn ≥ n (p + ε)] ≤ e−2nε . Beweis der Behauptung: f (λ) := log p eλq + q e−λp = log e−λ p (p eλ + q) = −λ p + log p eλ + q . Zu zeigen ist nun f (λ) ≤ λ2 8 für alle λ ≥ 0. Es gilt: f (0) = 0, p eλ p = −p + , λ pe + q p + q e−λ p q e−λ 1 f ′′ (λ) = ≤ . −λ 2 (p + q e ) 4 f ′ (λ) = −p + Einführung in die Wahrscheinlichkeitstheorie f ′ (0) = 0, Prof. Andreas Eberle 2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 61 Die letzte Ungleichung folgt aus:: (a + b)2 = a2 + b2 + 2 a b ≥ 4 a b Damit folgt Z λ f ′ (x) dx f (λ) = f (0) + 0 Z λZ x Z ′′ = f (y) dy dx ≤ 0 0 λ 0 x λ2 dx ≤ 4 8 für alle λ ≥ 0. Beispiel. Im letzten Satz wurde gezeigt: Sn = n X I Ai , i=1 Sn Ai unabhängig mit P [Ai ] = p =⇒ P − p ≥ ε −→ 0 n Zur Demonstration simulieren wir den Verlauf von Sn und Sn n für n → ∞. mehrfach (m-mal): V ERLAUF VON Sn m = 3 0 ; nmax = 1 0 0 0 ; p = 0 . 7 ; (Wir erzeugen m × nmax Bernoulli-Stichproben mit Wahrscheinlichkeit p) x = RandomChoice [ { 1 − p , p } −> { 0 , 1 } , {nmax , m} ] ; s = A c c u m u l a t e [ x ] ; Das Feld s enthält m Verläufe von sn = x1 + . . . + xn , n = 1, . . . , nmax M a n i p u l a t e [ Show [ L i s t L i n e P l o t [ Transpose [ s [ [ 1 ; ; n ] ] ] ] , L i s t L i n e P l o t [ p∗Range [ n ] , P l o t S t y l e −> { Black , T h i c k } ] ] , {{ n , 5 0 } , 1 , nmax , 1 } ] (Vergleich der m Verläufe von sn mit np) • n = 50: 40 30 20 10 10 Universität Bonn 20 30 40 50 Wintersemester 2009/2010 62 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT • n = 500: 350 300 250 200 150 100 50 100 V ERLAUF VON 200 300 400 500 Sn n mean = s / Range [ nmax ] ; (Das Feld mean enthält m Verläufe der Werte von sn n ) M a n i p u l a t e [ Show [ L i s t L i n e P l o t [ Transpose [ mean [ [ 1 ; ; n ] ] ] ] , L i s t L i n e P l o t [ C o n s t a n t A r r a y [ p , n ] , P l o t S t y l e −> { Black , T h i c k } ] ] , {{ n , 5 0 } , 1 , nmax , 1 } ] • n = 50: 1.0 0.9 0.8 0.7 0.6 0.5 0.4 10 20 30 Einführung in die Wahrscheinlichkeitstheorie 40 50 Prof. Andreas Eberle 2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 63 • n = 500: 0.80 0.75 0.70 0.65 100 200 300 400 500 V ERTEILUNG VON Sn Manipulate [ L i s t P l o t [ Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , p ] , k ] } , {k , 0 , n } ] , PlotRange −> A l l , F i l l i n g −> A x i s ] , {{ n , 5 0 } , 1 , nmax , 1 } ] • n = 50: 0.12 0.10 0.08 0.06 0.04 0.02 10 Universität Bonn 20 30 40 50 Wintersemester 2009/2010 64 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT • n = 500: 0.04 0.03 0.02 0.01 100 2.4 200 300 400 500 Unabhängige Zufallsvariablen und Random Walk Unabhängigkeit von diskreten Zufallsvariablen Seien Xi : Ω → Si , i = 1, . . . , n, diskrete Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist (X1 , . . . , Xn ) eine Zufallsvariable mit Werten im Produktraum S1 × · · · × Sn . Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn . Die Massenfunktion der gemeinsamen Verteilung lautet pX1 ,...,Xn (a1 , . . . , an ) = P [X1 = a1 , . . . , Xn = an ]. Definition. Die diskreten Zufallsvariablen X1 , . . . , Xn heißen unabhängig, falls gilt: P [X1 = a1 , . . . , Xn = an ] = n Y P [Xi = ai ] i=1 für alle ai ∈ Si , i = 1, . . . , n. Die gemeinsame Verteilung enthält Informationen über den Zusammenhang zwischen den Zufallsgrößen Xi . Satz 2.7. Die folgenden Aussagen sind äquivalent: (i) X1 , . . . , Xn sind unabhängig. (ii) pX1 ,...,Xn (a1 , . . . , an ) = (iii) µX1 ,...,Xn = Nn i=1 µX i . Qn i=1 pXi (ai ). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 65 (iv) Die Ereignisse {X1 ∈ A1 }, . . . , {Xn ∈ An } sind unabhängig für alle Ai ⊆ Si , i = 1, . . . , n. (v) Die Ereignisse {X1 = a1 }, . . . , {Xn = an } sind unabhängig für alle ai ∈ Si , i = 1, . . . , n. Beweis. • (i) ⇔ (ii) nach Definition von pX1 ,...,Xn . • (ii) ⇔ (iii) nach Definition von • (iii) ⇒ (iv): Nn i=1 µX i . Seien 1 ≤ i1 < i2 < . . . < im ≤ n und Aik ⊆ Sik , (k = 1, . . . , m). Wir setzen Ai := Ω für i∈ / {i1 , . . . , im }. Mit (iii) folgt dann nach Satz 2.2: P [Xi1 ∈ Ai1 , . . . , Xim ∈ Aim ] = P [X1 ∈ A1 , . . . , Xn ∈ An ] = P [(X1 , . . . , Xn ) ∈ A1 × . . . × An ] = µX1 ,...,Xn (A1 × . . . × An ) n n Y Y = µXi (Ai ) = P [Xi ∈ Ai ] = i=1 i=1 m Y P [Xik ∈ Aik ]. i=1 • (iv) ⇒ (v) ⇒ (i) ist klar. Definition. Eine beliebige Kollektion Xi : Ω → Si , i ∈ I, von diskreten Zufallsvariablen heißt unabhängig, falls die Ereignisse {Xi = ai }, i ∈ I, für alle ai ∈ Si unabhängig sind. Der Random Walk auf Z Seien X1 , X2 , . . . unabhängige identisch verteilte (»i.i.d.« – independent and identically distributed) Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P ) mit P [Xi = +1] = p, Universität Bonn P [Xi = −1] = 1 − p, p ∈ (0, 1). Wintersemester 2009/2010 66 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Die Existenz von unendlich vielen unabhängigen identisch verteilten Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum (unendliches Produktmodell) wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« gezeigt. Sei a ∈ Z ein fester Startwert. Wir betrachten die durch S0 = a, Sn+1 = Sn + Xn+1 , definierte zufällige Bewegung (»Irrfahrt« oder »Random Walk«) auf Z. Als Position zur Zeit n ergibt sich: Sn = a + X1 + X2 + · · · + Xn . Irrfahrten werden unter anderem in primitiven Modellen für die Kapitalentwicklung beim Glücksspiel oder an der Börse (Aktienkurs), sowie die Brownsche Molekularbewegung (im Skalierungslimes Schrittweite → 0) eingesetzt. Beispiel (Symmetrischer Random Walk, p = 12 ). z u f a l l = RandomChoice [{ −1 , 1 } , 1 0 0 0 0 ] ; randomwalk = F o l d L i s t [ Plus , 0 , z u f a l l ] ; Manipulate [ L i s t L i n e P l o t [ randomwalk [ [ 1 ; ; nmax ] ] ] , {nmax , 1 0 , 1 0 0 0 0 , 1 0 } ] • nmax = 50: 2 10 20 30 40 50 -2 -4 -6 -8 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 67 • nmax = 500: 30 20 10 100 200 300 400 500 2000 3000 4000 5000 • nmax = 5000: 100 80 60 40 20 1000 Lemma 2.8 (Verteilung von Sn ). Für k ∈ Z gilt 0 P [Sn = a + k] = n+k n−k n n+k p 2 (1 − p) 2 falls n + k ungerade oder |k| > n, sonst. 2 Beweis. Es gilt: Xi = 1 Sn = a + k ⇔ X1 + · · · + Xn = k ⇔ X = −1 i genau n+k -mal, 2 genau n−k -mal. 2 Beispiel (Rückkehrwahrscheinlichkeit zum Startpunkt). Mithilfe der Stirlingschen Formel n n √ n! ∼ 2πn für n → ∞. e Universität Bonn Wintersemester 2009/2010 68 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT folgt: P [S2n+1 = a] = 0, (2n)! n 2n n p (1 − p)n P [S2n = a] = p (1 − p)n = (n!)2 n √ )2n n 1 4πn ( 2n n e ∼ (4p (1 − p))n n 2n p (1 − p) = √ 2πn ( e ) πn für n → ∞, wobei zwei Folgen an und bn asymptotisch äquivalent heißen (an ∼ bn ), falls limn→∞ an bn =1 gilt. • Falls p 6= 1 2 gilt 4 p (1 − p) < 1 und P [S2n = a] konvergiert exponentiell schnell gegen 0. • Falls p = 1 2 konvergiert P [S2n = a] ∼ √1 πn nur langsam gegen 0. Symmetrischer Random Walk Ab jetzt betrachten wir den symmetrischen Random Walk, d.h. p = 12 . Sei λ ∈ Z. Wir wollen die Verteilung der Zufallsvariable Tλ (ω) := inf{n ∈ N | Sn (ω) = λ}, (min ∅ := ∞), bestimmen. Für λ 6= a ist Tλ die erste Trefferzeit von λ, für λ = a ist es die erste Rückkehrzeit nach a. Beschreibt der Random Walk beispielsweise die Kapitalentwicklung in einem Glücksspiel, dann kann man T0 als Ruinzeitpunkt interpretieren. Sei n ∈ N. Wir wollen nun die Wahrscheinlichkeit "n # [ P [Tλ ≤ n] = P {Si = λ} i=1 berechnen. Da das Ereignis {Tλ ≤ n} von mehreren Positionen des Random Walks abhängt (S1 , S2 , . . . , Sn ), benötigen wir die gemeinsame Verteilung dieser Zufallsvariablen. Sei also S(ω) := (S0 (ω), S1 (ω), . . . , Sn (ω)) der Bewegungsverlauf bis zur Zeit n . Dann ist S eine Zufallsvariable mit Werten im Raum b (n) Ω a := {(s0 , s1 , . . . , sn ) | s0 = a, si ∈ Z, so dass: |si − si−1 | = 1 für alle i ∈ {1, . . . , n}} der möglichen Pfade des Random Walk. Sei µa die gemeinsame Verteilung von S unter P . b (n) Lemma 2.9. µa ist die Gleichverteilung auf dem Pfadraum Ω a . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 69 Beweis. Es gilt µa ({(s0 , . . . , sn )}) = P [S0 = s0 , . . . , Sn = sn ] = P [S0 = s0 , X1 = s1 − s0 , . . . , Xn = sn − sn−1 ] 0 falls s0 6= a oder |si − si−1 | 6= 1 für ein i ∈ {1, . . . , n}, b (n) = (d.h. (s0 , . . . , sn ) ∈ /Ω a ), 2−n sonst, d.h. falls (s , . . . , s ) ∈ Ω b (n) a . 0 n Satz 2.10 (Reflektionsprinzip). Seien λ, b ∈ Z. Es gelte entweder (a < λ und b ≤ λ), oder (a > λ und b ≥ λ). Dann gilt: P [Tλ ≤ n, Sn = b] = P [Sn = b⋆ ], wobei b⋆ := λ + (λ − b) = 2λ − b die Spiegelung von b an λ ist. Beweis. Es gilt: =:A }| { z P [Tλ ≤ n, Sn = b] = µa [{(s0 , . . . , sn ) | sn = b, si = λ für ein i ∈ {1, . . . , n}}], P [Sn = b⋆ ] = µa [{(s0 , . . . , sn ) | sn = b⋆ }]. | {z } =:B Die im Bild dargestellte Transformation (Reflektion des Pfades nach Treffen von λ) definiert eine b (n) Bijektion von A nach B. Also gilt |A| = |B|. Da µa die Gleichverteilung auf Ω a ist, folgt: |B| |A| = = µa (B). µa (A) = (n) ba b (n) Ω Ω a Korollar (Verteilung der Trefferzeiten). Es gilt: i) Universität Bonn P [Sn ≥ λ] + P [Sn > λ], P [Tλ ≤ n] = P [S ≤ λ] + P [S < λ], n n falls λ > a, falls λ < a. Wintersemester 2009/2010 70 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT 4 λ 2 2 Tλ 4 6 8 10 12 14 −2 Abbildung 2.2: Spiegelung des Random Walks an λ = 3 ii) 1 P [Sn−1 = λ − 1] − 1 P [Sn−1 = λ + 1], 2 P [Tλ = n] = 2 1 P [S 1 n−1 = λ + 1] − 2 P [Sn−1 = λ − 1], 2 −n n λ−a n+λ−a 2 falls λ > a, n 2 = −n n a−λ n+λ−a 2 falls λ < a. n falls λ > a, falls λ < a. 2 Beweis. Wir beweisen die Aussagen für λ > a, der andere Fall wird jeweils analog gezeigt. i) P [Tλ ≤ n] = X b∈Z P [Tλ ≤ n, Sn = b] {z } | = = X b≥λ P [Sn = b] + X b<λ | = ( P [Sn = b] falls b ≥ λ, P [Sn = b⋆ ] falls b < λ. P [Sn = b⋆ ] = P [Sn ≥ λ] + P [Sn > λ]. P b>λ Einführung in die Wahrscheinlichkeitstheorie {z P [Sn =b] } Prof. Andreas Eberle 2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 71 ii) P [Tλ = n] = P [Tλ ≤ n] − P [Tλ ≤ n − 1] Mit i) folgt =:I =:A Wegen =:II z }| { z }| { = P [Sn ≥ λ] − P [Sn−1 ≥ λ] + P [Sn ≥ λ + 1] − P [Sn−1 ≥ λ + 1] | {z } | {z } =:B P [A] − P [B] = P [A\B] + P [A ∩ B] − P [B\A] − P [B ∩ A] = P [A\B] − P [B\A] erhalten wir für den ersten Term: I = P [Sn ≥ λ, Sn−1 < λ] − P [Sn−1 ≥ λ, Sn < λ] = P [Sn−1 = λ − 1, Sn = λ] − P [Sn−1 = λ, Sn = λ − 1] 1 1 P [Sn−1 = λ − 1] − P [Sn−1 = λ]. = 2 2 Hierbei haben wir benutzt, dass b (n) |{(s0 , . . . , sn ) ∈ Ω a | sn−1 = λ − 1}| = |{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ}| +|{(s0 , . . . , sn ) | sn−1 = λ − 1 und sn = λ − 2}| = 2 · |{(s0 , . . . , sn )|sn−1 = λ − 1, sn = λ} gilt. Mit einer analogen Berechnung für den zweiten Term erhalten wir insgesamt: P [Tλ = n] = I + II 1 = (P [Sn−1 = λ − 1] − P [Sn−1 = λ] 2 +P [Sn−1 = (λ + 1) − 1] − P [Sn−1 = λ + 1]) 1 = (P [Sn−1 = λ − 1] − P [Sn−1 = λ + 1]). 2 Sei Mn := max(S0 , S1 , . . . , Sn ). Korollar (Verteilung des Maximums). Für λ > a gilt: P [Mn ≥ λ] = P [Tλ ≤ n] = P [Sn ≥ λ] + P [Sn > λ]. Universität Bonn Wintersemester 2009/2010 72 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT 2.5 Simulationsverfahren Die Simulation von Stichproben verschiedener Wahrscheinlichkeitsverteilungen geht von auf [0, 1] gleichverteilten Pseudo-Zufallszahlen aus. In Wirklichkeit simuliert ein Zufallszahlengenerator natürlich nur auf {k m−1 | k = 0, 1, . . . , m − 1} gleichverteilte Zufallszahlen, wobei m−1 die Darstellungsgenauigkeit des Computers ist. Dieser Aspekt wird im folgenden ignoriert. Um Simulationsverfahren zu analysieren, benötigen wir noch den Begriff einer auf [0, 1] gleichverteilten reellwertigen Zufallsvariablen. Die Existenz solcher Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum wird hier vorausgesetzt, und kann erst in der Vorlesung »Analysis III« bzw. in der »Einführung in die Wahrscheinlichkeitstheorie« gezeigt werden. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, und U : Ω → [0, 1] eine Abbildung. Definition. i) U ist eine reellwertige Zufallsvariable, falls gilt: {ω ∈ Ω | U (ω) ≤ y} ∈ A für alle y ∈ R. ii) Eine reellwertige Zufallsvariable U : Ω → [0, 1] ist gleichverteilt auf [0, 1], falls P [U ≤ y] = y für alle y ∈ [0, 1]. Wir notieren dies im folgenden als (U ∼ Unif[0, 1]). iii) Reellwertige Zufallsvariablen Ui : Ω → R, i ∈ I, heißen unabhängig, falls die Ereignisse {Ui ≤ yi }, i ∈ I, für alle yi ∈ R unabhängig sind. Ein Zufallszahlengenerator simuliert Stichproben u1 = U1 (ω), u2 = U2 (ω), . . . von auf [0, 1] gleichverteilten unabhängigen Zufallsvariablen. Wie erzeugt man daraus Stichproben von diskreten Verteilungen? Das direkte Verfahren Sei S = {a1 , a2 , . . .} endlich oder abzählbar unendlich, und µ eine Wahrscheinlichkeitsverteilung auf S mit Gewichten pi = p(ai ). Wir setzen sn := n X i=1 pi , n ∈ N, »kumulative Verteilungsfunktion«. Sei U : Ω → [0, 1) eine gleichverteilte Zufallsvariable. Wir setzen X(ω) := ai , falls si−1 < U (ω) ≤ si , Einführung in die Wahrscheinlichkeitstheorie i ∈ N. Prof. Andreas Eberle 2.5. SIMULATIONSVERFAHREN 73 Lemma 2.11. Falls U ∼ Unif[0, 1), gilt X ∼ µ. Beweis. Für alle i ∈ N gilt: P [X = ai ] = P [si−1 < U ≤ si ] = P [U ≤ si ] − P [U ≤ si−1 ] = si − si−1 = pi . Algorithmus 2.12 (Direkte Simulation einer diskreten Verteilung). I NPUT: Gewichte p1 , p2 , . . . , O UTPUT: n := 1 Pseudozufallsstichprobe x von µ. s := p1 erzeuge Zufallszahl u ∼ Unif[0, 1) while u > s do n := n + 1 s := s + pn end while return x := an Bemerkung. a) Die mittlere Anzahl von Schritten des Algorithmus ist ∞ X n pn = Erwartungswert von Wahrscheinlichkeitsverteilung (pn ) auf N. n=1 b) Für große Zustandsräume S ist das direkte Verfahren oft nicht praktikabel, siehe Übung. Acceptance-Rejection-Verfahren Sei S eine endliche oder abzählbare Menge, µ eine Wahrscheinlichkeitsverteilung auf S mit Massenfunktion p(x), und ν eine Wahrscheinlichkeitsverteilung auf S mit Massenfunktion q(x). Angenommen, wir können unabhängige Stichproben von ν erzeugen. Wie können wir daraus Stichproben von µ erhalten? I DEE : scheinlichkeit proportional zu p(x) , q(x) Erzeuge Stichprobe x von ν, akzeptiere diese mit Wahrsonst verwerfe die Stichprobe und wiederhole. A NNAHME : es gibt ein c ∈ [1, ∞) : p(x) ≤ c q(x) für alle x ∈ S. Aus der Annahme folgt: p(x) ≤1 c q(x) d.h. wir können p(x) c q(x) Universität Bonn für alle x ∈ S, als Akzeptanzwahrscheinlichkeit wählen. Wintersemester 2009/2010 74 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT Algorithmus 2.13 (Acceptance-Rejection-Verfahren). I NPUT: Gewichte p(y), q(y), c (y ∈ S), Stichprobe x von µ. O UTPUT: repeat erzeuge Stichprobe x ∼ ν erzeuge Stichprobe u ∼ Unif[0, 1] until p(x) c q(x) return x ≥ u {akzeptiere mit Wahrscheinlichkeit p(x) } c q(x) A NALYSE DES A LGORITHMUS Für die verwendeten Zufallsvariablen gilt: X1 , X2 , . . . ∼ ν, (Vorschläge), U1 , U2 , . . . ∼ Unif[0, 1]. Es gilt Unabhängigkeit, d.h. P [X1 = a1 , . . . , Xn = an , U1 ≤ y1 , . . . , Un ≤ qn ] = n Y i=1 P [Xi = ai ] · n Y i=1 P [Ui ≤ yi ] für alle n ∈ N, ai ∈ S und yi ∈ R. Seien n T = min n ∈ N p(Xn ) c q(Xn ) ≥ Un XT (ω) = XT (ω) (ω) o die »Akzeptanzzeit«, und die ausgegebene Stichprobe. des Acceptance-Rejection-Verfahrens. Wir erhalten: Satz 2.14. i) T ist geometrisch verteilt mit Parameter 1/c, ii) XT ∼ µ. Bemerkung. Insbesondere ist die mittlere Anzahl von Schritten bis Akzeptanz: E[T ] = c. Beweis. i) Sei An := Einführung in die Wahrscheinlichkeitstheorie p(Xn ) ≥ Un . c q(Xn ) Prof. Andreas Eberle 2.5. SIMULATIONSVERFAHREN 75 Aus der Unabhängigkeit der Zufallsvariablen X1 , U1 , X2 , U2 , . . . folgt, dass auch die Ereignisse A1 , A2 , . . . unabhängig sind. Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen. Zudem gilt wegen der Unabhängigkeit von Xn und Un : X p(a) P [An ] = P Un ≤ ∩ {Xn = a} c q(a) a∈S X p(a) · P [Xn = a] = P Un ≤ c q(a) a∈S X p(a) 1 = · q(a) = . c q(a) c a∈S Also ist T (ω) = min{n ∈ N | ω ∈ An } geometrisch verteilt mit Parameter 1/c. ii) P [XT = a] = = ∞ X n=1 ∞ X n=1 ∞ X P [{XT = a} ∩ {T = n}] C P [{Xn = a} ∩ An ∩ AC 1 ∩ . . . An−1 ] p(a) ≥ Un = P [{Xn = a} ∩ c q(a) n=1 n−1 ∞ X 1 p(a) 1− = q(a) c q(a) c n=1 ∞ n−1 p(a) X 1 = 1− c n=1 c = Universität Bonn C ∩ AC 1 ∩ . . . An−1 ] 1 p(a) = p(a). c 1 − (1 − 1c ) Wintersemester 2009/2010 Kapitel 3 Konvergenzsätze und Monte Carlo Verfahren Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S, und f : S → R eine reellwertige Zufallsvariable. Angenommen, wir wollen den Erwartungswert θ := Eµ [f ] = X f (x) µ(x) x∈S berechnen, aber die Menge S ist zu groß, um die Summe direkt auszuführen. In einem Monte Carlo-Verfahren simuliert man eine große Anzahl unabhängiger Stichproben X1 (ω), . . . , Xn (ω) von µ, und approximiert den Erwartungswert θ durch den Monte Carlo-Schätzer n 1X θbn (ω) := f (Xi (ω)). n i=1 Wir wollen nun Methoden entwickeln, mit denen der Approximationsfehler |θbn − θ| abgeschätzt werden kann, und die Asymptotik des Approximationsfehlers für n → ∞ untersuchen. Nach dem Transformationssatz (1.7) und der Linearität des Erwartungswerts (1.8) gilt: n n 1X 1 XX E[θbn ] = E[f (Xi )] = f (x) µ({x}) = Eµ [f ] = θ, n i=1 n i=1 x∈S d.h. θbn ist ein erwartungstreuer Schätzer für θ. Der mittlere quadratische Fehler (»MSE« – mean squared error) des Schätzers ist daher: MSE = E[|θbn − θ|2 ] = E[|θbn − E[θbn ]|2 ]. 76 3.1. VARIANZ UND KOVARIANZ 77 3.1 Varianz und Kovarianz Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → S eine Zufallsvariable auf (Ω, A, P ), so dass E[|X|] endlich ist. Definition. Var(X) := E (X − E[X])2 heißt Varianz von X und liegt in [0, ∞]. σ(X) := heißt Standardabweichung von X. p Var(X) Die Varianz bzw. Standardabweichung kann als Kennzahl für die Größe der Fluktuationen (Streuung) der Zufallsvariablen X um den Erwartungswert E[X] und damit als Maß für das Risiko bei Prognose des Ausgangs X(ω) durch E[X] interpretiert werden. (a) Die Varianz hängt nur von der Verteilung von X ab: X X Var(X) = (a − m)2 pX (a), wobei m = E[X] = a pX (a). Bemerkung. a∈S a∈S (b) Es gilt Var(X) = 0 Bemerkung (Rechenregeln). genau dann, wenn P [X = E[X]] = 1. i) Var(X) = E X 2 − E[X]2 . Insbesondere ist die Varianz von X genau dann endlich, wenn E[X 2 ] endlich ist. ii) Var(aX + b) = Var(aX) = a2 Var(X) Beweis. für alle a, b ∈ R. i) Nach der Linearität des Erwartungswerts gilt Var(X) = E X 2 − 2X · E[X] + E[X]2 = E X 2 − E[X]2 . ii) Wiederholte Anwendung der Linearität des Erwartungswerts liefert Var(aX + b) = E (aX + b − E[aX + b])2 = E (aX − E[aX])2 = a2 Var(X). Universität Bonn Wintersemester 2009/2010 78 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Beispiele. a) Sei X = 1 mit Wahrscheinlichkeit p und X = 0 mit Wahrscheinlichkeit 1 − p. Dann ist der Erwartungswert von X: E X 2 = E[X] = p, und die Varianz von X: Var(X) = p − p2 = p (1 − p). b) Sei T geometrisch verteilt (T ∼ Geom(p)) mit Parameter p ∈ (0, 1]. Der Erwartungswert von T beträgt: E[T ] = ∞ X k (1 − p) ∞ X k (k + 1) (1 − p)k−1 p k=1 k−1 ∞ p X p 1 1 p = −p (1 − p)k = −p = . dp k=0 dp p p Außerdem gilt: E[T (T + 1)] = k=1 = ∞ X k=1 k (k − 1) (1 − p) k−2 ∞ 2 d2 X (1 − p)k = 2 . p=p 2 dp k=0 p Die Varianz von T ist somit: Definition. 2 1 1 1−p Var(T ) = E T 2 − E[T ]2 = 2 − − 2 = . p p p p2 L2 (Ω, A, P ) := {X : Ω → R | X ist diskrete Zufallsvariable mit E X 2 < ∞} Lemma 3.1. i) Für Zufallsvariablen X, Y ∈ L2 gilt: p p E[|XY |] ≤ E [X 2 ] E [Y 2 ] < ∞. ii) L2 ist ein Vektorraum, und (X, Y )L2 := E[X Y ] ist eine positiv semidefinite symmetrische Bilinearform (»Skalarprodukt«) auf L2 . Bemerkung. i) Insbesondere gilt die Cauchy-Schwarz-Ungleichung: E[X Y ]2 ≤ E[|X Y |] ≤ E X 2 E Y 2 Einführung in die Wahrscheinlichkeitstheorie für alle X, Y ∈ L2 . Prof. Andreas Eberle 3.1. VARIANZ UND KOVARIANZ 79 ii) Für eine Zufallsvariable X ∈ L2 gilt E[|X|] ≤ Beweis. p p E [X 2 ] E [12 ] < ∞. i) Nach der Cauchy-Schwarz-Ungleichung gilt: X E[|X Y |] = |a b| P [X = a, Y = b] a∈X(Ω) b∈Y (Ω) = X |a| sX a2 a∈X(Ω) b∈Y (Ω) ≤ = p P [X = a, Y = b] |b| P [X = a, Y = b] a,b s X a2 P [X = a] a sX p sX P [X = a, Y = b] b2 P [X = a, Y = b] a,b b2 P [Y = b] b p p = E [X 2 ] E [Y 2 ]. ii) Seien X, Y ∈ L2 , a ∈ R. Dann ist aX + Y eine diskrete Zufallsvariable, für die nach Monotonie und der Linearität des Erwartungswerts gilt: E (aX + Y )2 = E a2 X 2 + 2aX Y + Y 2 ≤ 2a2 E X 2 + 2E Y 2 < ∞. (X, Y )L2 = E[X Y ] ist bilinear, da E[ • ] linear und symmetrisch ist, und positiv semidefinit, aufgrund von: (X, X)L2 = E X 2 ≥ 0 für alle X ∈ L2 . Definition. Seien X, Y ∈ L2 . i) Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])] = E[X Y ] − E[X] E[Y ] heißt Kovarianz von X und Y . ii) Gilt σ(X), σ(Y ) 6= 0, so heißt ̺(X, Y ) := Cov(X, Y ) σ(X) σ(Y ) Korrelationskoeffizient von X und Y . Universität Bonn Wintersemester 2009/2010 80 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN iii) X und Y heißen unkorreliert, falls Cov(X, Y ) = 0, d.h. E[X Y ] = E[X] · E[Y ]. Bemerkung. Cov : L2 × L2 → R ist eine symmetrische Bilinearform mit: Cov(X, X) = Var(X) ≥ 0 für alle X ∈ L2 . Satz 3.2 (Zusammenhang von Unabhängigkeit und Unkorreliertheit). Seien X : Ω → S und Y : Ω → T diskrete Zufallsvariablen auf (Ω, A, P ). Dann sind äquivalent: (i) X und Y sind unabhängig, d.h. P [X ∈ A, Y ∈ B] = P [X ∈ A] P [Y ∈ B] für alle A, B ∈ A. (ii) f (X) und g(Y ) sind unkorreliert für alle Funktionen f : S → R und g : T → R mit f (X), g(Y ) ∈ L2 . Beweis. • (i)⇒ (ii): Seien X und Y unabhängig, dann gilt: E[f (X)g(Y )] = XX f (a) g(b) P [X = a, Y = b] a∈S b∈T = X f (a) P [X = a] a∈S X g(b) P [Y = b] = E[f (X)] E[g(Y )] b∈T Somit folgt: Cov(f (X), g(Y )) = 0. • (ii)⇒ (i): Aus (ii) folgt für alle a ∈ S, b ∈ T : P [X = a, Y = b] = E[I{a} (X) I{b} (Y )] = E[I{a} (X)] E[I{b} (Y )] = P [X = a] P [Y = b]. Beispiel. Sei X = +1, 0, −1 jeweils mit Wahrscheinlichkeit 31 , und Y = X 2 . Dann sind X und Y nicht unabhängig, aber unkorreliert: E[X Y ] = 0 = E[X] E[Y ]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.2. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN 81 Satz 3.3 (Varianz von Summen). Für X1 , . . . , Xn ∈ L2 gilt: Var(X1 + · · · + Xn ) = n X Var(Xi ) + 2 i=1 n X Cov(Xi , Xj ). i,j=1 i<j Falls X1 , . . . , Xn unkorreliert sind, folgt insbesondere: Var(X1 + · · · + Xn ) = n X Var(Xi ). i=1 Beweis. Nach Bilinearität der Kovarianz gilt: Var(X1 + · · · + Xn ) = Cov( = n X n X Xi , i=1 n X Xj ) j=1 Cov(Xi , Xj ) = i,j=1 n X Var(Xi ) + 2 i=1 n X Cov(Xi , Xj ). i,j=1 i<j Beispiel (Varianz der Binomialverteilung). Sei n 1 mit Wahrscheinlichkeit p, X Sn = Xi , Xi = 0 mit Wahrscheinlichkeit 1 − p, i=1 mit unabhängigen Zufallsvariablen Xi . Mit Satz 3.2 folgt: Var(Sn ) = n X i=1 Var(Xi ) = n p (1 − p). Analog gilt für den Random Walk: √ σ(Sn ) = O( n). 3.2 Das schwache Gesetz der großen Zahlen Seien X1 , X2 , . . . : Ω → R Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeits- raum (Ω, A, P ) definiert sind (z.B. wiederholte Ausführungen desselben Zufallsexperiments), und sei Sn (ω) Universität Bonn = X1 (ω) + · · · + Xn (ω). Wintersemester 2009/2010 82 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Wir betrachten die empirischen Mittelwerte Sn (ω) n = X1 (ω) + . . . + Xn (ω) , n d.h. die arithmetischen Mittel der ersten n Beobachtungswerte X1 (ω), . . . , Xn (ω). Gesetze der großen Zahlen besagen, dass sich unter geeigneten Voraussetzungen die zufälligen „Fluktuationen“ der Xi für große n wegmitteln, d.h. in einem noch zu präzisierenden Sinn gilt Sn (ω) Sn für große n, ≈ E n n bzw. Sn E[Sn ] − n n n→∞ −→ 0. Ist insbesondere E[Xi ] = m für alle i, dann sollten die empirischen Mittelwerte Sn /n gegen m konvergieren. Das folgende einfache Beispiel zeigt, dass wir ohne weitere Voraussetzungen an die Zufallsvariablen Xi kein Gesetz der großen Zahlen erwarten können. Beispiel. Sind die Zufallsvariablen Xi alle gleich, d.h. X1 = X2 = . . ., so gilt n. Es gibt also kein Wegmitteln des Zufalls, somit kein Gesetz großer Zahlen. Sn = X1 für alle n Andererseits erwartet man ein Wegmitteln des Zufalls bei unabhängigen Wiederholungen desselben Zufallsexperiments. Wir werden nun zeigen, dass sogar Unkorreliertheit und beschränkte Varianzen der Zufallsvariablen Xi genügen, um ein Gesetz der großen Zahlen zu erhalten. Dazu nehmen wir an, dass X1 , X2 , . . . diskrete Zufallsvariablen aus L2 (Ω, A, P ) sind, die folgende Voraussetzungen erfül- len: A NNAHMEN : (i) Die Zufallsvariablen sind unkorreliert: Cov(Xi , Xj ) = 0 für alle i 6= j. (ii) Die Varianzen sind beschränkt: v := sup Var(Xi ) < ∞. i∈N Es wird keine Unabhängigkeit vorausgesetzt! Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.3. MONTE CARLO-VERFAHREN 83 Satz 3.4 (Schwaches Gesetz der großen Zahlen). Unter den Voraussetzungen (i) und (ii) gilt für alle ε > 0: Sn E[Sn ] ≥ ε ≤ v −→0 P − n n ε2 n Gilt außerdem E[Xi ] = m für alle i ∈ N, folgt m. E[Sn ] n = m und für n → ∞. Sn n konvergiert stochastisch gegen Zum Beweis benötigen wir: Lemma 3.5 (Čebyšev-Ungleichung). Für X ∈ L2 und c > 0 gilt: P [|X − E[X]| ≥ c] ≤ 1 Var(X). c2 Beweis. Es gilt 1 (X − E[X])2 2 c 1 2 (X − E[X]) ist überall nichtnegativ und ≥ 1 auf {|X − E[X]| ≥ c}. Durch Bilden des c2 I{|X−E[X]|≥c} ≤ Erwartungswerts folgt: 1 1 P [|X − E[X]| ≥ c] = E I{|X−E[X]|≥c} ≤ E[ 2 (X − E[X])2 ] = 2 E (X − E[X])2 c c Beweis von Satz 3.4. Nach der Čebyšev-Ungleichung und den Annahmen (i) und (ii) gilt für ε > 0: n n X Sn E[Sn ] v 1 Sn 1 X 1 Var(Xi ) ≤ . = 2 2 Var( Xi ) = 2 2 P − ≥ ε ≤ 2 Var n n ε n n ε n ε i=1 n ε2 i=1 Bemerkung (Starkes Gesetz der großen Zahlen). Sn (ω) −→ m n mit Wahrscheinlichkeit 1. Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen. 3.3 Monte Carlo-Verfahren Sei S eine abzählbare Menge und µ eine Wahrscheinlichkeitsverteilung auf S. Wir bezeichnen im folgenden die Massenfunktion ebenfalls mit µ, d.h. µ(x) := µ({x}). Universität Bonn Wintersemester 2009/2010 84 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Sei f : S → R eine reellwertige Funktion mit: Eµ [f 2 ] = X x∈S f (x)2 µ(x) < ∞. Wir wollen den Erwartungswert θ := Eµ [f ] = X f (x) µ(x) x∈S näherungsweise berechnen bzw. schätzen. Dazu approximieren wir θ durch die Monte CarloSchätzer n 1X θbn := f (Xi ), n i=1 n ∈ N, wobei X1 , X2 , . . . unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilung µ sind. Nach der Abschätzung aus dem Gesetz der großen Zahlen ergibt sich: Korollar. 1 P [|θbn − θ| ≥ ε] ≤ Varµ [f ] −→ 0 n ε2 für n → ∞, d.h. θbn ist eine konsistente Schätzfolge für θ. Beweis. Da die Zufallsvariablen Xi unabhängig sind, sind f (Xi ), i ∈ N, unkorreliert. Zudem gilt E[f (Xi )] = X f (x) µ(x) = Eµ [f ] = θ, und x∈S Var[f (Xi )] = X x∈S (f (x) − θ)2 µ(x) = Varµ [f ] < ∞ nach Voraussetzung. Die Behauptung folgt nun aus Satz 3.4. Bemerkung. a) θbn ist ein erwartungstreuer Schätzer für θ: n E[θbn ] = 1X E[f (Xi )] = Eµ [f ] = θ. n i=1 b) Für den mittleren quadratischen Fehler des Schätzers ergibt sich nach a): h i 1 E |θbn − θ|2 = Var(θbn ) = Varµ [f ]. n Insbesondere gilt: kθbn − θkL2 = Einführung in die Wahrscheinlichkeitstheorie q √ E[|θbn − θ|2 ] = O(1/ n). Prof. Andreas Eberle 3.3. MONTE CARLO-VERFAHREN Beispiele. 85 a) M ONTE C ARLO -S CHÄTZUNG VON θ = R [0,1]d f (x) dx: Das mehrdimensionale Integral ist folgendermaßen definiert: Z 1 Z 1 Z f (x) dx := ... f (x1 , . . . , xd ) dx1 . . . dxd . [0,1]d 0 0 Der Wert von θ kann mit dem folgenden Algorithmus geschätzt werden. erzeuge Pseudozufallszahlen u1 , u2 , . . . , und ∈ (0, 1) x(1) := (u1 , . . . , ud ) x(2) := (ud+1 , . . . , u2d ) ... x(n) := (u(n−1)d+1 , . . . , und ) Pn (i) θ̂n = n1 i=1 f (x ) ist Schätzwert für θ. b) M ONTE C ARLO -S CHÄTZUNG VON WAHRSCHEINLICHKEITEN : Sei S abzählbar, B ⊆ S. Wir suchen: p = µ(B) = Eµ [IB ] Ein Monte Carlo-Schätzer ist n 1X IB (Xi ), pbn = n i=1 Xi unabhängig mit Verteilung µ. F EHLERKONTROLLE : • Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich: P [|b pn − p| ≥ ε] ≤ Gilt beispielsweise n ≥ 1 1 p (1 − p) 1 Var(b pn ) = 2 Varµ (IB ) = ≤ . 2 2 ε nε nε 4nε2 5 , ε2 dann erhalten wir: P [p ∈ / (b pn − ε, pbn + ε)] ≤ 5%, unabhängig von p, d.h. das zufällige Intervall (b pn − ε, pbn + ε) ist ein 95%-Konfidenzintervall für den gesuchten Wert p. • Mithilfe der Bernstein-Ungleichung (Chernoff-Abschätzung) erhalten wir für δ > 0 P und Sn := ni=1 IB (Xi ): 1 2 P [p ∈ / (b pn −ε, pbn +ε)] = P Sn −p ≥ ε ≤ 2e−2nε ≤ δ, n Universität Bonn falls n ≥ log(2/δ) . 2ε2 Wintersemester 2009/2010 86 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Für kleine δ ist die erhaltene Bedingung an n wesentlich schwächer als eine entsprechende Bedingung, die man durch Anwenden der Čebyšev-Ungleichung erhält. Für den relativen Schätzfehler (b pn − p)/p ergibt sich: P [|b pn − p| ≥ εp] ≤ 2e−2nε 2 p2 ≤ δ, falls n ≥ log(2/δ) . 2ε2 p2 Die benötigte Anzahl von Stichproben für eine (ε, δ)-Approximation von p ist also polynomiell in ε, log(1/δ) und 1/p. Mit einer etwas modifizierten Abschätzung kann man statt der Ordnung O( p12 ) sogar O( p1 ) erhalten, siehe Mitzenmacher und Upfal: »Probability and Computing«. Beispiel. Wie viele Stichproben sind nötig, damit der relative Fehler mit 95% Wahrscheinlichkeit unterhalb von 10% liegt? Mithilfe der Čebyšev-Ungleichung (Lemma 3.5) ergibt sich: P [|b pn − p| ≥ 0, 1 p] ≤ p (1 − p) 100 (1 − p) = ≤ 0, 05, n (0, 1 p)2 np falls n ≥ 2000 (1 − p) . p So sind zum Beispiel für p = 10−5 ungefähr n ≈ 2 108 Stichproben ausreichend. Dies ist nur ei- ne obere Schranke, aber man kann zeigen, dass die tatsächlich benötigte Stichprobenzahl immer noch sehr groß ist. Für solch kleine Wahrscheinlichkeiten ist das einfache Monte Carlo-Verfahren ineffektiv, da die meisten Summanden von θbn dann gleich 0 sind. Wir brauchen daher ein alter- natives Schätzverfahren mit geringerer Varianz. Varianzreduktion durch Importance Sampling Sei ν eine weitere Wahrscheinlichkeitsverteilung auf S mit Massenfunktion ν(x) = ν({x}). Es gelte ν(x) > 0 für alle x ∈ S. Dann können wir den gesuchten Wert θ auch als Erwartungswert bzgl. ν ausdrücken: θ = Eµ [f ] = X f (x) µ(x) = x∈S X f (x) x∈S µ(x) ν(x) = Eν [f ̺], ν(x) wobei ̺(x) = µ(x) ν(x) der Quotient der beiden Massenfunktionen ist. Ein alternativer Monte Carlo-Schätzer für θ ist daher n 1X f (Yi ) ̺(Yi ), θen = n i=1 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.3. MONTE CARLO-VERFAHREN 87 e1 v e2 w e3 Abbildung 3.1: kleiner Beispielgraph für Perkolation wobei die Yi unabhängige Zufallsvariablen mit Verteilung ν sind. Auch θen ist erwartungstreu: Für die Varianz erhalten wir: Varν (θen ) = Eν [θen ] = Eν [f ̺] = θ. 1 1 X Varν (f ̺) = f (x)2 ̺(x)2 ν(x) − θ2 . n n x∈S Bei geeigneter Wahl von ν kann die Varianz von θen deutlich kleiner sein als die des Schätzers θbn . Faustregel für eine gute Wahl von ν : ν(x) sollte groß sein, wenn |f (x)| groß ist. »Importance Sampling«: Mehr Gewicht für die wichtigen x! Beispiel (Zuverlässigkeit von Netzwerken; Perkolation). Gegeben sei ein endlicher Graph (V, E), wobei V die Menge der Knoten und E die Menge der Kanten bezeichnet. Wir nehmen an, dass die Kanten unabhängig voneinander mit Wahrscheinlichkeit ε ≪ 1 ausfallen. Seien v, w ∈ E vorgegebene Knoten. Wir wollen die Wahrscheinlichkeit p = P [»v nicht verbunden mit w durch intakte Kanten«] approximativ berechnen. Sei S = {0, 1}E = {(xe )e∈E | xe ∈ {0, 1}} die Menge der Konfigurationen von intakten (xl = 0) bzw. defekten (xl = 1) Kanten und µ die Wahrscheinlichkeitsverteilung auf S mit Massenfunktion µ(x) = εk(x) (1 − ε)|E|−k(x) , Universität Bonn k(x) = X xe . e∈E Wintersemester 2009/2010 88 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Sei A = {x ∈ S | v, w nicht verbunden durch Kanten e mit xe = 0}. Dann ist p = µ(A) = Eµ [IA ]. Der »klassische Monte Carlo-Schätzer« für p ist n 1X pbn = IA (Xi ), n i=1 Fordern wir nun zum Beispiel σ(b pn ) = Xi unabhängig mit Verteilung µ. r p(1 − p) ! p ≤ , n 10 dann benötigen wir eine Stichprobenanzahl 100 (1 − p) , p um diese Bedingung zu erfüllen. Die Größenordnung von p für das in der obigen Graphik dargen≥ stellte Netzwerk mit ε = 1% lässt sich wie folgt abschätzen: 10−6 = µ(»e1 , e2 , e3 versagen«) ≤ p ≤ µ(»mindestens 3 Kanten versagen«) 22 · 10−6 ≈ 1, 5 · 10−3 . = 3 Es sind also eventuell mehrere Millionen Stichproben nötig! Um die benötigte Stichprobenanzahl zu reduzieren, wenden wir ein Importance Sampling-Verfahren an. Sei ν(x) = t−k(x) (1 − t)|E|−k(x) , die Verteilung bei Ausfallwahrscheinlichkeit t := 3 . 22 k(x) = X xe , e∈E Da unter ν im Schnitt 3 Kanten defekt sind, ist der Ausfall der Verbindung bzgl. ν nicht mehr selten. Für den Schätzer n 1 X µ(Yi ) pen = IA (Yi ) , n i=1 ν(Yi ) Yi unabhängig mit Verteilung ν, erhalten wir im Beispiel von oben: 2 1 X 2 µ(x) IA (x) − p2 Var(e pn ) = n x∈S ν(x) 2 k |E|−k 22 ε 1 X |E| (1 − ε)2 p ≤ ≤ 0, 0053 . n k=3 k t 1−t n Diese Abschätzung ist etwa um den Faktor 200 besser als die für den einfachen Monte CarloSchätzer erhaltene Abschätzung der Varianz. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 89 3.4 Gleichgewichte von Markov-Ketten Sei S eine abzählbare Menge, ν eine Wahrscheinlichkeitsverteilung auf S, und p(x, y), (x, y ∈ S), eine stochastische Matrix bzw. Übergangsmatrix, d.h. p(x, y) erfüllt die folgenden Bedingungen: (i) p(x, y) ≥ 0 (ii) P y∈S für alle x, y ∈ S, für alle x ∈ S. p(x, y) = 1 Hier und im folgenden bezeichnen wir diskrete Wahrscheinlichkeitsverteilungen und die entsprechenden Massenfunktionen mit demselben Buchstaben, d.h. ν(x) := ν({x}). Definition. Eine Folge X0 , X1 , . . . : Ω → S von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißt zeitlich homogene Markov-Kette mit Startverteilung ν und Übergangsmatrix p, falls die folgenden Bedingungen erfüllt sind: (i) Für alle x0 ∈ S gilt: P [X0 = x0 ] = ν(x0 ) (ii) Für alle n ∈ N und x0 , . . . , xn+1 ∈ S mit P [X0 = x0 , . . . , Xn = xn ] 6= 0 gilt: P [Xn+1 = xn+1 | X0 = x0 , . . . , Xn = xn ] = p(xn , xn+1 ). Bemerkung. Die Bedingungen (i) und (ii) sind äquivalent zu: P [X0 = x0 , . . . , Xn = xn ] = ν(x0 ) p(x0 , x1 ) · · · p(xn−1 , xn ) für alle n ∈ N, xi ∈ S. Gleichgewichte und Stationarität Für eine Wahrscheinlichkeitsverteilung µ mit Massenfunktion µ(x) = µ({x}) und eine stochastische Matrix p auf S setzen wir (µ p)(y) := X x∈S µ(x) p(x, y), (y ∈ S), d.h. µ p ist der Zeilenvektor, den wir erhalten, wenn wir den Zeilenvektor (µ(x))x∈S von links an die Matrix p multiplizieren. Lemma 3.6. i) Die Verteilung zur Zeit n einer Markov-Kette mit Startverteilung ν und Über- gangsmatrix p ist ν pn . Universität Bonn Wintersemester 2009/2010 90 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN ii) Gilt ν p = ν, dann folgt Xn ∼ ν für alle n ∈ N. (»Stationarität«) Beweis. i) Wie im Beweis von Satz 2.4 erhalten wir P [Xn = y | X0 = x] = pn (x, y) für alle n ∈ N und x, y ∈ S mit P [X0 = x] 6= 0, und damit: X P [Xn = y] = x∈S P [X0 =x]6=0 = X P [Xn = y | X0 = x] P [X0 = x] pn (x, y) ν(x) = (ν pn )(y). x∈S ν(x)6=0 ii) Aus ν p = ν folgt ν pn = ν für alle n ∈ N. Definition. i) Eine Wahrscheinlichkeitsverteilung µ auf S heißt Gleichgewichtsverteilung (oder stationäre Verteilung) der Übergangsmatrix p, falls µ p = µ, d.h. falls: X µ(x) p(x, y) = µ(y) x∈S für alle y ∈ S. ii) µ erfüllt die Detailed Balance-Bedingung bzgl. der Übergangsmatrix p, falls gilt: µ(x) p(x, y) = µ(y) p(y, x) für alle x, y ∈ S (3.4.1) Satz 3.7. Erfüllt µ die Detailed Balance-Bedingung (3.4.1), dann ist µ eine Gleichgewichtsverteilung von p. Beweis. Aus der Detailed Balance-Bedingung folgt: X µ(x) p(x, y) = x∈S X µ(y) p(y, x) = µ(y). x∈S Bemerkung. Bei Startverteilung µ gilt: µ(x) p(x, y) = P [X0 = x, X1 = y], Einführung in die Wahrscheinlichkeitstheorie »Fluss von x nach y«. Prof. Andreas Eberle 3.4. GLEICHGEWICHTE VON MARKOV-KETTEN µ(x) p(x, y) = µ(y) p(y, x) »Fluss von x nach y« P x∈S µ(x) p(x, y) = »Fluss von y nach x« P x∈S µ(y) p(y, x) D ETAILED BALANCE: G LEICHGEWICHT: 91 = »Gesamter Fluss nach y« Beispiele. »Gesamter Fluss von y«. a) M ARKOV-K ETTE AUF S = {0, 1}: Seien α, β ∈ [0, 1] und p= 1−α β α 1−β ! . Dann ist die Gleichgewichtsbedingung µ p = µ äquivalent zu den folgenden Gleichungen: µ(0) = µ(0) (1 − α) + µ(1) β, µ(1) = µ(0) α + µ(1) (1 − β). Da µ eine Wahrscheinlichkeitsverteilung ist, sind beide Gleichungen äquivalent zu β (1 − µ(0)) = α µ(0). Die letzte Gleichung ist äquivalent zur Detailed Balance-Bedingung (3.4.1). Falls α+β > 0 gilt, ist µ = β , α α+β α+β die eindeutige Gleichgewichtsverteilung und erfüllt die Detailed Balance-Bedingung. Falls α = β = 0 gilt, ist jede Wahrscheinlichkeitsverteilung µ eine Gleichgewichtsverteilung mit Detailed Balance-Bedingung. b) Z YKLISCHER R ANDOM WALK : Sei S = Z/nZ ein diskreter Kreis, und p(k, k + 1) = p, Die Gleichverteilung µ(x) = 1 n p(k, k − 1) = 1 − p. ist ein Gleichgewicht. Die Detailed Balance-Bedingung ist dagegen nur für p = 12 , d.h. im symmetrischen Fall, erfüllt. c) E HRENFEST-M ODELL: Sei S = {0, 1, . . . , n}, p(k, k − 1) = Universität Bonn k , n p(k, k + 1) = n−k . n Wintersemester 2009/2010 92 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Man kann erwarten, dass sich im Gleichgewicht jede Kugel mit Wahrscheinlichkeit 12 in jeder der beiden Urnen befindet. Tatsächlich erfüllt die Binomialverteilung µ(k) = nk 2−n mit Parameter p = 1 2 die Detailed Balance-Bedingung: µ(k − 1) p(k − 1, k) = µ(k) p(k, k − 1) k = 1, . . . , n ist äquivalent zu 2−n n! n! n − (k − 1) k = 2−n (k − 1)!(n − (k − 1))! n k!(n − k)! n k = 1, . . . , n d) R ANDOM WALKS AUF G RAPHEN : Sei (V, E) ein endlicher Graph, S = V die Menge der Knoten. • Sei p(x, y) = 1 deg(x) falls {x, y} ∈ E, 0 sonst. Die Detailed Balance-Bedingung lautet in diesem Fall: µ(x) p(x, y) = µ(y) p(y, x). Sie ist erfüllt, falls µ(x) = c deg(x) gilt, wobei c eine Konstante ist. Damit µ eine Wahrscheinlichkeitsverteilung ist, muss c so gewählt werden, dass gilt: X x∈B deg(x) = 2 |E|. Somit ist die Gleichgewichtsverteilung: µ(x) = • Sei △ := maxx∈V deg(x), p(x, y) = 1 △ 1 − deg(x) . 2|E| deg(x) △ falls {x, y} ∈ E, sonst. Es gilt p(x, y) = p(y, x) und somit ist die Gleichverteilung auf V die stationäre Verteilung. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 93 Ist deg(x) konstant, dann stimmen die Random Walks in beiden Beispielen überein, und die Gleichverteilung ist ein Gleichgewicht. Im nächsten Abschnitt zeigen wir: Satz (Konvergenzsatz für Markov-Ketten). Ist S endlich, und p eine irreduzible und aperiodische stochastische Matrix mit Gleichgewicht µ, dann gilt für alle Wahrscheinlichkeitsverteilungen ν auf S: lim (ν pn )(x) = µ(x) n→∞ für alle x ∈ S. Aufgrund des Konvergenzsatzes können wir Stichproben von einer Wahrscheinlichkeitsverteilung µ näherungsweise erzeugen, indem wir eine Markov-Kette Xn mit Gleichgewicht µ simulieren, und für großes n auswerten. Wie findet man eine Markov-Kette mit einer vorgegebenen stationären Verteilung? Metropolis-Algorithmus und Gibbs-Sampler Die Metropolis-Kette Sei q(x, y) eine symmetrische stochastische Matrix, d.h. q(x, y) = q(y, x) für alle x, y ∈ S. Dann erfüllt die Gleichverteilung die Detailed Balance-Bedingung (3.4.1). Sei nun µ eine beliebige Wahrscheinlichkeitsverteilung auf S mit µ(x) > 0 für alle x ∈ S. Wie können wir die Übergangsmatrix q so modifizieren, dass die Detailed Balance-Bedingung bzgl. µ erfüllt ist? Algorithmus 3.8 (Metropolis-Algorithmus (Update x → y)). Wahrscheinlichkeit q(x, y) vor schlage Übergang x → y mit akzeptiere Übergang mit Wahrscheinlichkeit α(x, y) ∈ [0, 1] sonst verwerfe Vorschlag und bleibe bei x Ü BERGANGSMATRIX : α(x, y) q(x, y) p(x, y) := 1 − P y6=x α(x, y) q(x, y) für y 6= x, für y = x. Die Detailed Balance-Bedingung lautet: µ(x) α(x, y) = µ(y) α(y, x) für alle x, y ∈ S. Sie ist äquivalent dazu, dass b(x, y) := µ(x) α(x, y) Universität Bonn Wintersemester 2009/2010 94 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN symmetrisch in x und y ist. Was ist die größtmögliche Wahl von b(x, y)? Aus α(x, y) ≤ 1 folgen b(x, y) ≤ µ(x), b(x, y) = b(y, x) ≤ µ(y), und somit b(x, y) ≤ min(µ(x), µ(y)). Der größtmögliche Wert b(x, y) = min(µ(x), µ(y)) entspricht gerade falls µ(y) ≥ µ(x), µ(y) 1 α(x, y) = min 1, = µ(y) falls µ(x) ≥ µ(y). µ(x) µ(x) Definition. Die Markov-Kette mit Übergangsmatrix µ(y) · q(x, y) p(x, y) = min 1, µ(x) für y 6= x heißt Metropolis-Kette mit Vorschlagsverteilung q(x, y) und Gleichgewicht µ. Satz 3.9. µ erfüllt die Detailed Balance-Bedingung bzgl. p. Beweis. siehe oben. Der Gibbs-Sampler Sei S = S1 × · · · × Sd ein endlicher Produktraum, µ(x1 , . . . , xd ) eine Wahrscheinlichkeitsverteilung auf S und µi (xi | x1 , . . . , xi−1 , xi+1 , . . . , xd ) := P µ(x1 , . . . , xd ) z∈Si µ(x1 , . . . , xi−1 , z, xi+1 , . . . , xd ) die bedingte Verteilung der i-ten Komponente gegeben die übrigen Komponenten. Algorithmus 3.10 (Gibbs-Sampler (Update x → y)). y := x for i := 1, . . . d do update yi ∼ µi ( • | y1 , . . . yi−1 , yi+1 , . . . , yd ) end for return y Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 95 Ü BERGANGSMATRIX : p = pd pd−1 · · · p1 , wobei pi (x, y) = Satz 3.11. µi (yi | y1 , . . . , yi−1 , yi+1 , . . . , yd ) 0 falls yk = xk für alle k 6= i, sonst. i) µ erfüllt die Detailed Balance-Bedingung bzgl. pi für alle i = 1, . . . , d. ii) µ ist ein Gleichgewicht von p. Beweis. i) Der Beweis der ersten Aussage ist eine Übungsaufgabe. ii) Nach der ersten Aussage ist µ ein Gleichgewicht von pi für alle i. Also gilt auch µ p = µ pd pd−1 · · · p1 = µ. Bemerkung. Zur Simulation von Yn , n ≥ 0, genügt es, die Massenfunktion µ(x) bis auf eine multiplikative Konstante zu kennen: aus µ(x) = C f (X) folgt α(x, y) = min 1, f (y) f (x) unabhängig von C. Beispiel (Rucksackproblem). Gegeben: ω1 , . . . , ωd ∈ R, »Gewichte«, v1 , . . . , vd ∈ R, »Werte«. Rucksack mit maximalem Gewicht b > 0, packe soviel Wert wie möglich ein. S = {0, 1}d , Sb = {(z1 , . . . , zd ) ∈ S : Pd alle Konfigurationen, i=1 zi wi ≤ b}, zulässige Konfigurationen, zi = 1 : i-ter Gegenstand im Rucksack. RUCKSACKPROBLEM: maximiere V (z) = Universität Bonn Pd i=1 zi vi unter Nebenbedingung z ∈ Sb . Wintersemester 2009/2010 96 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Das Rucksackproblem ist NP-vollständig, insbesondere ist keine Lösung in O(dk ) Schritten für ein k ∈ N bekannt. S TOCHASTISCHER Z UGANG : S IMULATED A NNEALING Für β > 0 betrachten wir die Wahrscheinlichkeitsverteilung 1 eβ V (z) für z ∈ Sb , µβ (z) = Zβ 0 für z ∈ S\Sb , auf S, wobei Zβ = P z∈Sb eβ V (z) eine Konstante ist, die µ zu einer Wahrscheinlichkeitsverteilung normiert. Für β = 0 ist µβ die Gleichverteilung auf Sb . Für β → ∞ konvergiert µβ gegen die Gleichverteilung auf der Menge der globalen Maxima von V , denn: 0 β V (z) e 1 µβ (z) = =P −→ β (V (y)−V (z)) 1 Zβ y∈Sb e |{y | V (y)=max V }| I DEE : falls V (z) 6= max V, falls V (z) = max V. Simuliere Stichprobe z von µβ für β groß (β → ∞). Dann ist V (z) wahrscheinlich nahe dem Maximalwert. M ETROPOLIS -A LGORITHMUS : Sei x+ := max(x, 0) der Positivteil von x. Wir wählen als Vorschlagsmatrix die Übergangsmatrix 1 falls zi 6= wi für genau ein i ∈ {1, . . . , d}, q(z, w) := d 0 sonst, des Random Walks auf {0, 1}d . Für die Akzeptanzwahrscheinlichkeit ergibt sich −β (V (z)−V (w)) e für z, w ∈ Sb , µβ (w) = αβ (z, w) = min 1, 0 µβ (z) für z ∈ Sb , w ∈ / Sb . Der Vorschlag w wir also mit Wahrscheinlichkeit 1 akzeptiert, wenn V (w) ≥ V (z) gilt – andernfalls wird der Vorschlag nur mit Wahrscheinlichkeit exp −β (V (z) − V (w)) akzeptiert. Algorithmus 3.12 (Simulation einer Markov-Kette mit Gleichgewicht µβ ). Sb initialisiere z (0) ∈ for n = 1, 2, . . . do z (n) := w := z (n−1) erzeuge i ∼ Unif{1, . . . , d} wi := 1 − wi if w ∈ Sb then Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.5. KONVERGENZ INS GLEICHGEWICHT 97 erzeuge u ∼ Unif(0, 1) if u ≤ αβ (z, w) then z (n) := w end if end if end for Algorithmus 3.13 (Simulated Annealing). Wie Algorithmus 3.12 aber mit β = β(n) → ∞ für n → ∞. Bemerkung. a) P HYSIKALISCHE I NTERPRETATIONEN: µβ ist die Verteilung im thermodynamischen Gleichgewicht für die Energiefunktion H(z) = −V (z) bei der Temperatur T = 1/β. Der Grenzwert β → ∞ entspricht T → 0 (»simuliertes Abkühlen«). b) Die beim Simulated Annealing-Verfahren simulierte zeitlich inhomogene Markov-Kette findet im allgemeinen nicht das globale Maximum von V , sondern kann in lokalen Maxima »steckenbleiben«. Man kann zeigen, dass die Verteilung der Markov-Kette zur Zeit n gegen die Gleichverteilung auf den Maximalstellen konvergiert, falls β(n) nur sehr langsam (logarithmisch) gegen +∞ geht. In praktischen Anwendungen wird der Algorithmus aber in der Regel mit einem schnelleren »Cooling schedule« β(n) verwendet. Das Auffinden eines globalen Maximums ist dann nicht garantiert – trotzdem erhält man ein oft nützliches heuristisches Verfahren. 3.5 Konvergenz ins Gleichgewicht Sei S = {x1 , . . . , xm } eine endliche Menge, und WV(S) := {µ = (µ(x1 ), . . . , µ(xm )) | µ(xi ) ≥ 0, m X i=1 µ(xi ) = 1} ⊆ Rm die Menge aller Wahrscheinlichkeitsverteilungen auf S. Geometrisch ist WV(S) ein Simplex im Rm . Wir führen nun einen Abstandsbegriff auf WV(S) ein: Definition. Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen µ, ν auf S ist: 1 1X dT V (µ, ν) := kµ − νk1 = |µ(x) − ν(x)|. 2 2 x∈S Universität Bonn Wintersemester 2009/2010 98 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Bemerkung. a) Für alle µ, ν ∈ WV(S) gilt: dT V (µ, ν) ≤ 1X (µ(x) + ν(x)) = 1. 2 x∈S b) Seien µ, ν Wahrscheinlichkeitsverteilungen und A := {x ∈ S | µ(x) ≥ ν(x)}. Dann gilt: dT V (µ, ν) = X (µ(x) − ν(x)) = max |µ(A) − ν(A)|. x∈A A⊆S Der Beweis dieser Aussage ist eine Übungsaufgabe. Wir betrachten im folgenden eine stochastische Matrix p(x, y), (x, y ∈ S), mit Gleichgewicht µ. Die Verteilung einer Markov-Kette mit Startverteilung ν und Übergangsmatrix p zur Zeit n ist ν pn . Um Konvergenz ins Gleichgewicht zu zeigen, verwenden wir die folgende Annahme: Es gibt ein δ ∈ (0, 1] und ein r ∈ N, so dass für alle x, y ∈ S M INORISIERUNGSBEDINGUNG : gilt: pr (x, y) ≥ δ · µ(y). (3.5.1) Satz 3.14. Gilt die Minorisierungsbedingung (3.5.1), dann konvergiert ν pn für jede Startverteilung ν exponentiell schnell gegen µ. Genauer gilt für alle n ∈ N und ν ∈ WV(S): dT V (ν pn , µ) ≤ (1 − δ)⌊n/r⌋ . Bemerkung. Insbesondere ist µ das eindeutige Gleichgewicht: Betrachte eine beliebige Wahrscheinlichkeitsverteilung ν mit ν p = ν. Dann folgt für n → ∞: dT V (ν, µ) = dT V (ν pn , µ) −→ 0, also dT V (µ, ν) = 0, und somit µ = ν. Beweis. 1. Durch die Zerlegung pr (x, y) = δ µ(y) + (1 − δ) q(x, y) der r-Schritt-Übergangswahrscheinlichkeiten wird eine stochastische Matrix q definiert, denn (i) Aus der Minorisierungsbedingung (3.5.1) folgt q(x, y) ≥ 0 für alle x, y ∈ S. P P P (ii) Aus y∈S pr (x, y) = 1, y∈S µ(y) = 1 folgt y∈S q(x, y) = 1 für alle x ∈ S. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.5. KONVERGENZ INS GLEICHGEWICHT 99 Wir setzen im folgenden λ := 1 − δ. Dann gilt für alle ν ∈ WV(S): ν pr = (1 − λ) µ + λ ν q. (3.5.2) 2. Wir wollen mit vollständiger Induktion zeigen: ν pkr = (1 − λk ) µ + λk ν q k für alle k ≥ 0, ν ∈ WV(S). (3.5.3) Für k = 0 ist die Aussage offensichtlich wahr. Gilt (3.5.3) für ein k ≥ 0, dann erhalten wir durch Anwenden von Gleichung (3.5.2) auf νe pr mit νe = ν q k : ν p(k+1)r = ν pkr pr = ((1 − λk ) µ + λk ν q k ) pr |{z} =e ν = (1 − λk ) µ pr +(1 − λ) λk µ + λk+1 ν q k q |{z} =µ = (1 − λk+1 ) µ + λk+1 ν q k+1 . 3. Für n ∈ N, n = k r + i, (k ∈ N, 0 ≤ i < r), folgt: ν pn = ν pkr pi = (1 − λk ) µ pi +λk ν q k pi , |{z} =µ also ν pn − µ = λk (ν q k pi − µ) und damit dT V (ν pn , µ) = für alle ν ∈ WV(S), 1 kν pn − µk1 = λk dT V (ν q k pi , µ) ≤ λk 2 nach der letzten Bemerkung. Welche Übergangsmatrizen erfüllen die Minorisierungsbedingung? Definition. i) Die stochastische Matrix p heißt irreduzibel, falls es für alle x, y ∈ S ein n ∈ N gibt, so dass pn (x, y) > 0 gilt. ii) Die Periode von x ∈ S ist definiert als Periode(x) := ggT({n ∈ N | pn (x, x) > 0}). | {z } =:R(x) Universität Bonn Wintersemester 2009/2010 100 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN Lemma 3.15. i) Falls p irreduzibel ist, gilt Periode(x) = Periode(y) für alle x, y ∈ S. ii) Falls p irreduzibel und aperiodisch (d.h. Periode(x) = 1 für alle x ∈ S) ist, gibt es ein r > 0, so dass pr (x, y) > 0 für alle x, y ∈ S gilt. Beweis. Seien x, y ∈ S. i) Sei p irreduzibel. Dann gibt es ein s und ein t ∈ N, so dass gilt: ps (x, y) > 0 und pt (y, x) > 0. Für a := s + t folgt: • pa (x, x) ≥ ps (x, y) pt (y, x) > 0, also a ∈ R(x). • pn+a (x, x) ≥ ps (x, y) pn (y, y) pt (y, x) > 0 für alle n ∈ R(y), also n + a ∈ R(x) für alle n ∈ R(y). Periode(x) ist ein gemeinsamer Teiler von R(x), somit Teiler von a und n + a, also auch von n für alle n ∈ R(y). Daher ist Periode(x) ein gemeinsamer Teiler von R(y) und somit gilt: Periode(x) ≤ Periode(y). »≥« wird analog gezeigt. Es folgt: Periode(x) = Periode(y). ii) R(x) ist abgeschlossen unter Addition, denn falls s, t ∈ R(x) ist, gilt: ps+t (x, x) ≥ ps (x, x) pt (x, x) > 0, und somit s + t ∈ R(x). Da p aperiodisch ist, folgt ggT(R(x)) = 1 für alle x ∈ S. Nach einem Satz der Zahlentheorie gilt: Da R(x) additiv abgeschlossen, gibt es für alle x ein r(x) ∈ N mit n ∈ R(x) für alle n ≥ r(x). n ∈ R(x) impliziert pn (x, x) > 0. Da p irreduzibel ist, folgt, dass es für alle x, y ein r(x, y) ∈ N gibt, so dass gilt: pn (x, y) > 0 für alle n ≥ r(x, y). Für r ≥ maxx,y∈S r(x, y) folgt dann pr (x, y) > 0 für alle x, y ∈ S. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 3.5. KONVERGENZ INS GLEICHGEWICHT 101 Satz 3.16 (Konvergenzsatz für endliche Markov-Ketten). Ist p irreduzibel und aperiodisch mit Gleichgewicht µ, dann gilt: lim dT V (ν pn , µ) = 0 für alle ν ∈ WV(S). n→∞ Beweis. Da p irreduzibel und aperiodisch ist, gibt es ein r ∈ N mit: pr (x, y) > 0 für alle x, y ∈ S. Daher gibt es ein r ∈ N und ein δ > 0, so dass gilt: pr (x, y) > δ µ(y) für alle x, y ∈ S, (z.B. δ := minx,y∈S pr (x, y)). Mit Satz 3.14 folgt die Behauptung. Beispiel (Metropolis-Kette). Sei S endlich, µ(x) > 0 für alle x ∈ S, nicht konstant, und q(x, y) irreduzibel. Dann ist p(x, y) irreduzibel und aperiodisch. Somit folgt die Konvergenz ins Gleichgewicht nach Satz 3.16, allerdings evtl. sehr langsam! A NWENDUNG : M ARKOV-C HAIN -M ONTE C ARLO -V ERFAHREN Sei µ ∈ WV(S), f : S → R. G ESUCHT: θ = Eµ [f ], M ARKOV-C HAIN -M ONTE C ARLO -S CHÄTZER: b+n 1 X b θn,b = f (Xk ), n k=b+1 wobei b ∈ N eine feste Konstante (»burn-in-Zeit«) und (Xk )k∈N irreduzible Markov-Ketten mit Gleichgewicht µ sind. Satz (Ergodensatz / Gesetz der großen Zahlen für Markov-Ketten). : Für alle b ∈ N gilt: lim θbn,b = θ n→∞ mit Wahrscheinlichkeit 1, Beweis. siehe Vorlesung »Stochastische Prozesse«. Die Analyse des Schätzfehler ist im Allgemeinen diffizil! Universität Bonn Wintersemester 2009/2010 Kapitel 4 Stetige und Allgemeine Modelle 4.1 Unendliche Kombinationen von Ereignissen Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Ist (An )n∈N eine Folge von bzgl. P unabhängigen Ereignissen, An ∈ A mit fester Wahrscheinlichkeit P [An ] = p ∈ [0, 1] und Sn (ω) = n X i=1 IAi (ω) = |{1 ≤ i ≤ n : ω ∈ Ai }| die Anzahl der Ereignisse unter den ersten n, die eintreten, dann ist Sn binomialverteilt mit den Parametern n und p. Für die relative Häufigkeit Ungleichung d.h. die Verteilung von Sn n Sn n der Ereignisse Ai gilt die Bernstein-Chernoff- Sn 2 P − p ≥ ε ≤ 2 · e−2ε n , n (4.1.1) konzentriert sich für n → ∞ sehr rasch in der Nähe von p, siehe Ab- schnitt 2.3. Insbesondere ergibt sich ein Spezialfall des schwachen Gesetzes der großen Zahlen: die Folge der Zufallsvariablen Sn n konvergiert P -stochastisch gegen p, d.h. Sn n→∞ P − p ≥ ε → 0 für alle ε > 0. n Definition. (1). Eine P -Nullmenge ist ein Ereignis A ∈ A mit P [A] = 0. (2). Ein Ereignis A ∈ A tritt P -fast sicher bzw. für P -fast alle ω ∈ Ω ein, falls P [A] = 1 gilt, d.h. falls AC eine P -Nullmenge ist. 102 4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 103 Wir wollen nun Methoden entwickeln, die es uns ermöglichen, zu zeigen, dass aus (4.1.1) sogar Sn (ω) =p n→∞ n lim für P -fast alle ω ∈ Ω (4.1.2) folgt. Das relevante Ereignis Sn (ω) L := ω ∈ Ω : lim =p n→∞ n lässt sich offensichtlich nicht durch endlich viele der Ai beschreiben. Seien nun allgemein A1 , A2 , . . . ∈ A beliebige Ereignisse. Uns interessieren zusammengesetzte Ereignisse wie z.B. ∞ S n=1 ∞ T n=1 ∞ T An („Eines der An tritt ein“) An („Alle der An treten ein“) ∞ S An = {ω ∈ Ω : ∀m ∞ T ∞ S An = {ω ∈ Ω : ∃m m=1 n=m m=1 n=m ∃n ≥ m : ω ∈ An } („Unendlich viele der An treten ein“ oder „An tritt immer mal wieder ein“) ∀n ≥ m : ω ∈ An } („An tritt schließlich ein“) Aufgrund der Eigenschaften einer σ-Algebra liegen alle diese Mengen wieder in A. Das Ereignis L lässt sich wie folgt als abzählbare Kombination der Ai ausdrücken: ω∈L ⇐⇒ ⇐⇒ ⇐⇒ Somit gilt Sn =p n→∞ n Sn ∀ε ∈ Q+ : − p ≤ ε schließlich n Sn ∀ε ∈ Q+ ∃m ∈ N ∀n ≥ m : − p ≤ ε n lim \ Sn − p ≤ ε schließlich L = n ε∈Q+ \ [ \ Sn = n − p ≤ ε . ε∈Q m∈N n≥m + Um Wahrscheinlichkeiten von solchen Ereignissen berechnen zu können, ist es wesentlich, dass eine Wahrscheinlichkeitsverteilung P nicht nur endlich additiv, sondern sogar σ-additiv ist. Der folgende Satz gibt eine alternative Charakterisierung der σ-Additivität: Universität Bonn Wintersemester 2009/2010 104 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Satz 4.1 (σ-Additivität und monotone Stetigkeit). Sei A eine σ-Algebra und P : A → [0, ∞] additiv, d.h. A ∩ B = ∅ ⇒ P [A ∪ B] = P [A] + P [B]. (i) P ist σ-additiv genau dann, wenn: A1 ⊆ A2 ⊆ . . . ⇒ P " ∞ [ # An = lim P [An ] n=1 n→∞ (ii) Gilt P [Ω] = 1, dann ist dies auch äquivalent zu: # "∞ \ A1 ⊇ A2 ⊇ . . . ⇒ P An = lim P [An ] n→∞ n=1 Beweis. (i) Sei P σ-additiv und A1 ⊆ A2 ⊆ . . . . Die Mengen B1 := A1 , B2 := A2 \A1 , B3 := A3 \A2 , . . . sind disjunkt mit n [ Bi = i=1 n [ Ai = An ∞ [ und i=1 Bi = i=1 ∞ [ Ai . i=1 Also gilt: P "∞ [ i=1 Ai # = P "∞ [ Bi i=1 σ−add. = ∞ X # P [Bi ] i=1 = = = lim n→∞ n X lim P n→∞ P [Bi ] i=1 " n [ Bi i=1 # lim P [An ]. n→∞ Der Beweis der umgekehrten Implikation wird dem Leser als Übungsaufgabe überlassen. (ii) Gilt P [Ω] = 1, dann folgt " ∞ !c # "∞ # "∞ # [ [ \ = 1−P P Aci Aci . Ai = P i=1 i=1 i=1 Die Behauptung folgt nun aus (i). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 105 Ab jetzt setzen wir wieder voraus, dass P eine Wahrscheinlichkeitsverteilung ist. Eine weitere Folgerung aus der σ-Additivität ist: Satz 4.2 (σ-Subadditivität). Für beliebige Ereignisse A1 , A2 , . . . ∈ A gilt: # "∞ ∞ X [ P [An ] P An ≤ n=1 n=1 Abbildung 4.1: Darstellung von drei Mengen. Das Maß der Vereinigung von Mengen ist stets kleiner gleich als die Summe der Maße der einzelnen Mengen. Beweis. Die Mengen sind disjunkt mit ∞ S Bn = n=1 P ∞ S Bn = An \ (An−1 ∪ · · · ∪ A1 ) An . Also gilt: n=1 " ∞ [ n=1 # An = P " ∞ [ # Bn = n=1 ∞ X n=1 P [B ] ≤ | {z n} ≤P [An ] ∞ X P [An ]. n=1 Bemerkung. Insbesondere ist eine Vereinigung von abzählbar vielen Nullmengen wieder eine Nullmenge. Der folgende Satz spielt eine zentrale Rolle beim Beweis von Konvergenzaussagen für Zufallsvariablen: Satz 4.3 (1. Borel - Cantelli - Lemma). Für Ereignisse A1 , A2 , . . . ∈ A mit ∞ X n=1 Universität Bonn P [An ] < ∞ Wintersemester 2009/2010 106 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE gilt: " P [„unendlich viele der An treten ein“] = P Beweis. Da die Folge S n≥m Satz 4.1 und 4.2: \ [ " \ [ m n≥m An # = P 4.1 = = " \ m n≥m Bm m # lim P [Bm ] # " [ An lim P m→∞ m→∞ n≥m | {z ∞ 4.2 P ≤ ≤ lim inf m→∞ ∞ P An = 0. An =: Bm von Ereignissen aus A monoton fallend ist, ergibt sich nach P da die Summe # n=m ∞ X n=m | } P [An ] P [An ] = 0, {z m→∞ P [An ] nach Voraussetzung konvergiert. → 0 } n=1 Das erste Borel-Cantelli-Lemma besagt, dass mit Wahrscheinlichkeit 1 nur endlich viele der ErP eignisse An , n ∈ N eintreten, falls P [An ] < ∞ gilt. Die Unabhängigkeit der Ereignisse ermöglicht die Umkehrung dieser Aussage. Es gilt sogar: Satz 4.4 (2. Borel - Cantelli - Lemma). Für unabhängige Ereignisse A1 , A2 , . . . ∈ A mit ∞ X n=1 P [An ] = ∞ gilt: P [An unendlich oft] = P " \ [ m n≥m # An = 1 Bemerkung. Insbesondere ergibt sich ein 0-1 Gesetz: Sind A1 , A2 , . . . ∈ A unabhängige Ereignisse, dann beträgt die Wahrscheinlichkeit, dass unendP lich viele der An , n ∈ N, eintreten, entweder 0 oder 1 - je nachdem ob die Summe P [An ] endlich oder unendlich ist. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 107 Wir zeigen nun das zweite Borel-Cantelli-Lemma: Beweis. Sind die Ereignisse An , n ∈ N unabhängig, so auch die Ereignisse AC n , siehe Lemma 2.5. Zu zeigen ist: P [An nur endlich oft] = P Nach Satz 4.1 gilt: P " [ \ # " AC =0 n " # m n≥m = lim P AC n m n≥m # [ \ m→∞ \ AC n n≥m (4.1.3) Wegen der Unabhängigkeit der Ereignisse AC n erhalten wir zudem # " " k # \ \ mon. Stetigkeit P AC = lim P AC n n k→∞ n≥m unabh. = da lim k P k→∞ n=m P [An ] = ∞ P n=m lim k→∞ n=m k Y n=m lim inf = lim inf e k→∞ =1−P [An ]≤exp(−P [An ]) k Y ≤ P [AC ] | {zn} e−P [An ] n=m k P P [An ] − n=m k→∞ = 0, (4.1.4) P [An ] = ∞ nach Voraussetzung. Aus 4.1.3 und 4.1.4 folgt die Behauptung. Mithilfe des 1. Borel-Cantelli-Lemmas können wir nun eine erste Version eines starken Gesetzes großer Zahlen beweisen. Sei p ∈ [0, 1]. Satz 4.5 (Starkes Gesetz großer Zahlen I, Borel 1909, Hausdorff 1914, Cantelli 1917). Sind A1 , A2 , . . . ∈ A unabhängige Ereignisse mit Wahrscheinlichkeit P [An ] = p für alle n ∈ N, dann n P I Ai : gilt für Sn = i=1 Sn (ω) = p für P -fast alle ω ∈ Ω lim |{z} n→∞ | {z n } asymptotische W’keit relative Häufig- keit des Ereignisses Universität Bonn Wintersemester 2009/2010 108 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Beweis. Sei 1 L := ω ∈ Ω Sn (ω) → p für n → ∞ n Zu zeigen ist, dass LC ∈ A mit P [LC ] = 0. Wegen ω∈L C Sn (ω) ⇐⇒ 6→ p ⇐⇒ ∃ε ∈ Q+ n gilt: [ Sn (ω) L = n − p > ε C unendlich oft ε∈Q+ Sn (ω) : − p > ε n unendlich oft [ \ [ Sn (ω) = n − p > ε ∈ A. ε∈Q+ m n≥m Zudem folgt aus der Bernstein-Chernoff-Abschätzung: X ∞ ∞ X Sn 2 P − p > ε ≤ 2e−2nε < ∞ n n=1 n=1 für alle ε > 0, also nach dem 1. Borel-Cantelli-Lemma: Sn P − p > ε unendlich oft = 0. n Also ist Lc eine Vereinigung von abzählbar vielen Nullmengen, und damit nach Satz 4.2 selbst eine Nullmenge. Das starke Gesetz großer Zahlen in obigem Sinn rechtfertigt nochmals im Nachhinein die empirische Interpretation der Wahrscheinlichkeit eines Ereignisses als asymptotische relative Häufigkeit bei unabhängigen Wiederholungen. Beispiel (Random Walk/Irrfahrt). Wir betrachten einen Random Walk Zn = X 1 + X 2 + X 3 + . . . + X n (n ∈ N) mit unabhängigen identisch verteilten Inkrementen Xi , i ∈ N, mit P [Xi = 1] = p und P [Xi = −1] = 1 − p, p ∈ (0, 1) fest. Die Ereignisse Ai := {Xi = 1} sind unabhängig mit P [Ai ] = p und es gilt: Xi = IAi − IACi = 2IAi − 1, also Zn = 2Sn − n, Einführung in die Wahrscheinlichkeitstheorie wobei Sn = n X I Ai . i=1 Prof. Andreas Eberle 4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 109 Nach Satz 4.5 folgt: Zn Sn = 2 lim − 1 = 2p − 1 P -fast sicher. n→∞ n n→∞ n lim Für p 6= 1 2 wächst (bzw. fällt) Zn also mit Wahrscheinlichkeit 1 asymptotisch linear (siehe Abbil- dung 4.2): Zn ∼ (2p − 1) · n P -fast sicher (2p − 1)n 50 40 30 20 10 100 200 300 400 Abbildung 4.2: Random Walk mit Drift: p = 0.55, n = 500 Zn → 0 P -fast sicher. In diesem n Fall liegt für hinreichend große n der Graph einer typischen Trajektorie Zn (ω) in einem beliebig Für p = 1 2 dagegen wächst der Random Walk sublinear, d.h. kleinen Sektor um die x-Achse (siehe Abbildung 4.3). 10 100 200 300 400 −10 −20 Abbildung 4.3: Random Walk ohne Drift: p = 0.5, n = 500 Eine viel präzisere Beschreibung der Asymptotik des Random Walk liefert der Satz vom iterierten Logarithmus: lim sup √ n→∞ Universität Bonn Sn (ω) = +1 P -fast sicher, n log log n Wintersemester 2009/2010 110 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE lim inf √ n→∞ Sn (ω) = −1 P -fast sicher n log log n Mehr dazu: siehe Vorlesung „Stochastische Prozesse.“ 4.2 Allgemeine Wahrscheinlichkeitsräume Bisher haben wir uns noch nicht mit der Frage befasst, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem unendlich viele unabhängige Ereignisse bzw. Zufallsvariablen realisiert werden können. Auch die Realisierung einer auf einem endlichen reellen Intervall gleichverteilten Zufallsvariable auf einem geeigneten Wahrscheinlichkeitsraum haben wir noch nicht gezeigt. Die Existenz solcher Räume wurde stillschweigend vorausgesetzt. Tatsächlich ist es oft nicht notwendig, den zugrunde liegenden Wahrscheinlichkeitsraum explizit zu kennen - die Kenntnis der gemeinsamen Verteilungen aller relevanten Zufallsvariablen genügt, um Wahrscheinlichkeiten und Erwartungswerte zu berechnen. Dennoch ist es an dieser Stelle hilfreich, die grundlegenden Existenzfragen zu klären, und unsere Modelle auf ein sicheres Fundament zu stellen. Die dabei entwickelten Begriffsbildungen werden sich beim Umgang mit stetigen und allgemeinen Zufallsvariablen als unverzichtbar erweisen. Beispiele von Wahrscheinlichkeitsräumen Wir beginnen mit einer Auflistung von verschiedenen Wahrscheinlichkeitsräumen (Ω, A, P ), die wir gerne konstruieren würden: Dirac-Maß Sei Ω beliebig, a ∈ Ω fest, A = P(Ω), P = δa , wobei δa [A] := 1 0 falls a ∈ A sonst Dies ist eine deterministische Verteilung mit: P [{ω = a}] = 1 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 111 Diskrete Wahrscheinlichkeitsräume Ist Ω eine abzählbare Menge und p : Ω → [0, 1] eine Gewichtsfunktion mit P p(ω) = 1, ω∈Ω dann haben wir bereits gezeigt, dass eine eindeutige Wahrscheinlichkeitsverteilung P auf der Potenzmenge A = P(Ω) existiert mit P [A] = X p(a) = a∈A X p(a)δa [A] a∈Ω ∀A ⊆ Ω. Jede diskrete Wahrscheinlichkeitsverteilung ist eine Konvexkombination von Diracmaßen: P = X p(a)δa a∈Ω Endliche Produktmodelle Auch die Konstruktion mehrstufiger diskreter Modelle ist auf diese Weise möglich: Ist beispielsweise Ω = {(ω1 , . . . , ωn ) : ωi ∈ Ωi } = Ω1 × . . . × Ωn eine Produktmenge, und sind p1 , . . . , pn Gewichtsfunktionen von Wahrscheinlichkeitsverteilungen P1 , . . . , Pn auf Ω1 , . . . , Ωn , dann ist p(ω) = n Y pi (ωi ) i=1 die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung P = P1 ⊗ . . . ⊗ Pn auf Ω. Unter dieser Wahrscheinlichkeitsverteilung sind die Zufallsvariablen Xi (ω) = ωi unabhängig. Unendliches Produktmodell (z.B. Münzwurffolge) Es stellt sich die Frage, ob wir auch unendlich viele unabhängige Zufallsvariablen auf einem ähnlichen Produktraum realisieren können. Im einfachsten Fall möchten wir eine Folge unabhängiger fairer Münzwürfe (0-1-Experimente) auf dem Grundraum Ω = {ω = (ω1 , ω2 , . . .) : ωi ∈ {0, 1}} = {0, 1}N modellieren. Ω ist überabzählbar, denn die Abbildung X : (0, 1) → Ω, die einer reellen Zahl die Ziffernfolge ihrer Binärdarstellung zuordnet, ist injektiv. Genauer ist eine injektive Abbildung X : (0, 1) → Ω definiert durch X(ω) = (X1 (ω), X2 (ω), X3 (ω), . . .), Universität Bonn (4.2.1) Wintersemester 2009/2010 112 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE X1 (ω) 1 X2 (ω) 1 0.5 1.0 X3 (ω) 1 0.25 0.50 0.75 1.00 0.25 0.50 0.75 1.00 Abbildung 4.4: Darstellung der ersten drei Xi (ω). wobei Xn (ω) = IDn (ω), Dn = 2n−1 S i=1 [(2i − 1) · 2−n , 2i · 2−n ). Wir suchen eine Wahrscheinlichkeitsverteilung P auf Ω mit P [{ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an }] = 2−n (4.2.2) Gibt es eine σ-Algebra A, die alle diese Ereignisse enthält, und eine eindeutige Wahrscheinlich- keitsverteilung P auf A mit (4.2.2)? Wir werden in Abschnitt 5.3 zeigen, dass dies der Fall ist; wobei aber (1). A 6= P(Ω) (2). P [{ω}] = 0 und für alle ω ∈ Ω gelten muss. Das entsprechende Produktmodell unterscheidet sich in dieser Hinsicht grundlegend von diskreten Modellen. Kontinuierliche Gleichverteilung Für die Gleichverteilung auf einem endlichen reellen Intervall Ω = [a, b], −∞ < a < b < ∞, sollte gelten: d−c ∀a ≤ c < d ≤ b. (4.2.3) b−a Gibt es eine σ-Algebra B, die alle Teilintervalle von [a, b] enthält, und eine WahrscheinlichkeitsP [(c, d)] = P [[c, d]] = verteilung P auf B mit (4.2.3)? Wieder ist die Antwort positiv, aber erneut gilt notwendigerweise B 6= P(Ω) und P [{ω}] = 0 für alle ω ∈ Ω. Tatsächlich sind die Probleme in den letzten beiden Abschnitten weitgehend äquivalent: die durch die Binärdarstellung (4.2.1) definierte Abbildung X ist eine Bijektion von [0, 1) nach {0, 1}N \ A, wobei A = {ω ∈ Ω : ωn = 1 schließlich} eine abzählbare Teilmenge ist. Eine Gleichverteilung auf [0, 1) wird durch X auf eine Münzwurffolge auf {0, 1}N abgebildet, und umgekehrt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 113 Brownsche Bewegung Simuliert man einen Random Walk, so ergibt sich in einem geeigneten Skalierungslimes mit Schrittweite → 0 anscheinend eine irreguläre, aber stetige zufällige Bewegung in kontinuierlicher Zeit. Der entsprechende, 1923 von N. Wiener konstruierte stochastische Prozess heißt Brown16 14 12 10 8 6 4 2 −2 −4 −6 −8 10 20 30 40 50 60 70 80 90 Abbildung 4.5: Graph einer Stichprobe der eindimensionalen Brownschen Bewegung sche Bewegung, und kann durch eine Wahrscheinlichkeitsverteilung P (das Wienermaß) auf dem Raum Ω = C([0, 1], R) = {ω : [0, 1] → R|ω stetig} beschrieben werden. Für diese, als Modell für Aktienkurse, zufällige Bewegungen, etc. in diversen Anwendungsbereichen fundamentale Wahrscheinlichkeitsverteilung gilt unter anderem: 1 P [{ω ∈ Ω : ω(t) ∈ [a, b)}] = √ 2πt Zb x2 e− 2t dx für alle t > 0, a siehe zum Beispiel die Vorlesung „Stochastische Prozesse“ im Sommersemester. Um Wahrscheinlichkeitsverteilungen wie in den letzten beiden Beispielen zu konstruieren, benötigen wir zunächst geeignete σ-Algebren, die die relevanten Ereignisse bzw. Intervalle enthalten. Dazu verwenden wir die folgende Konstruktion: Konstruktion von σ-Algebren Sei Ω eine beliebige Menge, und J ⊆ P(Ω) eine Kollektion von Ereignissen, die auf jeden Fall in der zu konstruierenden σ-Algebra enthalten sein sollen (z.B. die Mengen aus den Beispielen zu unendlichen Produktmodellen und kontinuierlichen Gleichverteilungen auf Seite 111f). Universität Bonn Wintersemester 2009/2010 114 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Definition. Die Kollektion σ(J ) := \ F F ⊇J F σ-Algebra auf Ω von Teilmengen von Ω heißt die von J -erzeugte σ-Algebra. Bemerkung. Wie man leicht nachprüft (Übung), ist σ(J ) tatsächlich eine σ-Algebra, und damit die kleinste σ-Algebra, die J enthält. Beispiel (Borel’sche σ-Algebra auf R). Sei Ω = R und J = {(s, t)| − ∞ ≤ s ≤ t ≤ ∞} die Kollektion aller offenen Intervalle. Die von J erzeugte σ-Algebra B(R) := σ(J ) heißt Borel’sche σ-Algebra. Man prüft leicht nach, dass B(R) auch alle abgeschlossenen und halboffenen Intervalle enthält. Die Borel’sche σ-Algebra wird auch erzeugt von der Kollektion aller abgeschlossenen bzw. aller kompakten Intervall. Ebenso gilt: B(R) = σ({(−∞, c]|c ∈ R}) Allgemeiner definieren wir: Definition. Sei Ω ein topologischer Raum (also z.B. ein metrischer Raum wie Rn , C([0, 1], R) etc.), und sei τ die Kollektion aller offenen Teilmengen von Ω (die Topologie). Die von τ erzeugte σ-Algebra B(Ω) := σ(τ ) heißt Borel’sche σ-Algebra auf Ω. Wieder verifiziert man, dass B(Ω) auch von den abgeschlossenen Teilmengen erzeugt wird. Im Fall Ω = R ergibt sich die oben definierte, von den Intervallen erzeugte, σ-Algebra. Bemerkung. Nicht jede Teilmenge von R ist in der Borelschen σ-Algebra B(R) enthalten - ein Beispiel wird in den Übungen gegeben. Trotzdem enthält B(R) so gut wie alle Teilmengen von R, die in Anwendungsproblemen auftreten; z.B. alle offenen und abgeschlossenen Teilmengen von R, sowie alle Mengen, die durch Bildung von abzählbar vielen Vereinigungen, Durchschnitten und Komplementbildungen daraus entstehen. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 115 Beispiel (Produkt σ-Algebra auf {0, 1}N ). Eine Zylindermenge auf dem Folgenraum Ω = {0, 1}N = {(ω1 , ω2 , . . .) : ωi ∈ {0, 1}} ist eine Teilmenge A von Ω von der Form A = {ω ∈ Ω : ω1 = a1 , ω2 = a2 , . . . , ωn = an }, n ∈ N, a1 , . . . , an ∈ {0, 1}. In Beispiel 4.2 von oben betrachten wir die von der Kollektion C aller Zylindermengen erzeugte σ-Algebra A = σ(C ) auf {0, 1}N . A heißt Produkt-σ-Algebra auf Ω. Allgemeiner sei I eine beliebige Menge, und Ω = Q Ωi eine Produktmenge (mit endlich, ab- i∈I zählbar, oder sogar überabzählbar vielen Faktoren Ωi , i ∈ I). Definition. Sind Ai , i ∈ I σ-Algebren auf Ωi , dann heißt die von der Kollektion C aller Zylindermengen {ω = (ωi )i∈I ∈ Ω : ωi1 ∈ Ai1 , ωi2 ∈ Ai2 , . . . , ωin ∈ Ain }, n ∈ N, i1 , . . . , in ∈ I, Ai1 ∈ Ai1 , . . . , Ain ∈ Ain , erzeugte σ-Algebra O A= Ai := σ(C ) i∈I Produkt σ-Algebra auf Ω. Man kann nachprüfen, dass die etwas anders definierte Produkt-σ-Algebra aus Beispiel 4.2 ein Spezialfall dieser allgemeinen Konstruktion ist. Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen Sei (Ω, A) ein messbarer Raum, d.h. Ω ist eine nichtleere Menge und A ⊆ P(Ω) eine σ- Algebra. In der Regel sind die Wahrscheinlichkeiten P [A] zunächst für Ereignisse A aus einer Teilmenge J ⊆ A mit A = σ(J ) gegeben, z.B. für Intervalle bei Wahrscheinlichkeitsverteilun- gen auf R. Es stellt sich die Frage, ob hierdurch bereits die Wahrscheinlichkeiten aller Ereignisse in A eindeutig festgelegt sind, und ob sich P zu einer Wahrscheinlichkeitsverteilung auf A fort- setzen lässt. Diese Fragen beantworten die folgenden beiden fundamentalen Sätze. Definition. (1). Ein Mengensystem J ⊆ A heißt durchschnittsstabil, falls A, B ∈ J ⇒ A∩B ∈ J. (2). J heißt Algebra, falls Universität Bonn Wintersemester 2009/2010 116 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE (a) Ω ∈ J (b) A ∈ J (c) A, B ∈ J AC ∈ J ⇒ ⇒ A∪B ∈ J. Eine Algebra ist stabil unter endlichen Mengenoperationen (Bilden von endlichen Vereinigungen, Durchschnitten und Komplementen). Insbesondere ist jede Algebra durchschnittsstabil. Beispiel. (1). Die Kollektion aller offenen Intervalle ist eine durchschnittsstabile Teilmenge von B(R), aber keine Algebra. Dasselbe gilt für das Mengensystem J = {(−∞, c]|c ∈ R}. (2). Die Kollektion aller endlichen Vereinigungen von beliebigen Teilintervallen von R ist eine Algebra. Satz 4.6 (Eindeutigkeitssatz). Stimmen zwei Wahrscheinlichkeitsverteilungen P und Pe auf (Ω, A) überein auf einem durchschnittsstabilen Mengensystem J ⊆ A, so auch auf σ(J ). Den Satz werden wir am Ende dieses Abschnittes beweisen. Beispiel. (1). Eine Wahrscheinlichkeitsverteilung P auf B(R) ist eindeutig festgelegt durch die Wahrscheinlichkeiten P [(−∞, c]], c ∈ R. (2). Die Wahrscheinlichkeitsverteilung P im Modell der unendlich vielen Münzwürfe ist eindeutig festgelegt durch die Wahrscheinlichkeiten der Ausgänge der ersten n Würfe für alle n ∈ N. Nach dem Eindeutigkeitssatz 4.6 ist eine Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Ereignisse aus einem durchschnittsstabilen Erzeugendensystem festgelegt. Umgekehrt zeigt der folgende Satz, dass sich eine auf einem Erzeugendensystem J gegebene σ- additive Abbildung zu einem Maß auf der σ-Algebra fortsetzen lässt, falls J eine Algebra ist. Satz 4.7 (Fortsetzungssatz von Carathéodory). Ist J eine Algebra, und P : J → [0, ∞] eine σ-additive Abbildung, dann besitzt P eine Fortsetzung zu einem Maß auf σ(J ). Den Beweis dieses klassischen Resultats findet man in vielen Maßtheorie-, Analysis- bzw. Wahrscheinlichkeitstheorie-Büchern (siehe z. B. Williams: „Probability with martingales“, Appendix A1). Wir verweisen hier auf die Analysisvorlesung, da für die weitere Entwicklung der Wahrscheinlichkeitstheorie in dieser Vorlesung der Existenzsatz zwar fundamental ist, das Beweisverfahren aber keine Rolle mehr spielen wird. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 117 Bemerkung. Ist P [Ω] = 1, bzw. allgemeiner P [Ω] < ∞, dann ist die Maßfortsetzung nach Satz 4.6 eindeutig, denn eine Algebra ist durchschnittsstabil. Als Konsequenz aus dem Fortsetzungssatz erhält man: Korollar 4.8 (Existenz und Eindeutigkeit der kontinuierlichen Gleichverteilung). Es existiert genau eine Wahrscheinlichkeitsverteilung U(0,1) auf B((0, 1)) mit U(0,1) [(a, b)] = b − a für alle 0 < a ≤ b < 1. (4.2.4) Zum Beweis ist noch zu zeigen, dass die durch (4.2.4) definierte Abbildung U(0,1) sich zu ei- ner σ-additiven Abbildung auf die von den offenen Intervallen erzeugte Algebra A0 aller endli- chen Vereinigungen von beliebigen (offenen, abgeschlossenen, halboffenen) Teilintervallen von (0, 1) fortsetzen lässt. Wie die Fortsetzung auf A0 aussieht, ist offensichtlich - der Beweis der σ-Additivität ist etwas aufwändiger. Wir verweisen dazu wieder auf die Analysisvorlesung, bzw. den Appendix A1 in Williams: „Probability with martingales.“ Bemerkung. (1). Auf ähnliche Weise folgt die Existenz und Eindeutigkeit des durch λ[(a1 , b1 ) × . . . × (ad , bd )] = d Y i=1 (bi − ai ) für alle ai , bi ∈ R mit ai ≤ bi eindeutig festgelegten Lebesguemaßes λ auf B(Rd ), siehe Analysis III. Man beachte, dass wegen λ[Rd ] = ∞ eine Reihe von Aussagen, die wir für Wahrscheinlichkeitsverteilungen beweisen werden, nicht für das Lebesguemaß auf Rd gelten! (2). Auch die Existenz der Wahrscheinlichkeitsverteilungen im Modell für unendlich viele faire Münzwürfe kann man mithilfe des Satzes von Carathéodory zeigen. Wir werden diese Wahrscheinlichkeitsverteilung stattdessen unmittelbar aus der Gleichverteilung U(0,1) konstruieren. Zum Abschluss dieses Abschnitts beweisen wir nun den Eindeutigkeitssatz. Dazu betrachten wir das Mengensystem Zu zeigen ist: D ⊇ σ(J ). D := {A ∈ A | P [A] = Pe[A]} ⊇ J . Dazu stellen wir fest, dass D folgende Eigenschaften hat: (i) Ω ∈ D Universität Bonn Wintersemester 2009/2010 118 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE (ii) A ∈ D ⇒ Ac ∈ D (iii) A1 , A2 , . . . ∈ D paarweise disjunkt ⇒ S Ai ∈ D Definition. Ein Mengensystem D ⊆ P(Ω) mit (i) - (iii) heißt Dynkinsystem. Bemerkung. Für ein Dynkinsystem D gilt: C C A, B ∈ D , A ⊆ B ⇒ B\A = B ∩ AC = (B | {z∪ A}) ∈ D disjunkt Lemma 4.9. Jedes ∩ - stabile Dynkinsystem D ist eine σ - Algebra. Beweis. Für A, B ∈ D gilt: ∈D f alls ∩−stabil A∪B = A ∪ ↑ disjunkt z }| { (B\(A ∩ B)) | {z } ∈ D. ∈D nach Bem. Hieraus folgt für A1 , A2 , . . . ∈ D durch Induktion n [ Bn := i=1 und damit ∞ [ Ai = i=1 ∞ [ n=1 Bn = Ai ∈ D, ∞ [ (Bn \Bn−1 ) ∈ D. | {z } n=1 ∈D nach Bem. ↑ disjunkt Lemma 4.10. Ist J ein ∩ - stabiles Mengensystem , so stimmt das von J erzeugte Dynkinsystem \ D D(J ) := D Dynkinsystem D⊇J mit der von J erzeugten σ - Algebra σ(J ) überein. Aus Lemma (4.10) folgt der Eindeutigkeitssatz, denn {A ∈ A |P [A] = Pe[A]} ist ein Dynkin- system, das J enthält, und somit gilt nach dem Lemma {A ∈ A |P [A] = Pe[A]} ⊇ D(J ) = σ(J ), falls J durchschnittsstabil ist. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 119 Beweis. (von Lemma (4.10)) Jede σ - Algebra ist ein Dynkinsystem, also gilt D(J ) ⊆ σ(J ). Es bleibt zu zeigen, dass D(J ) eine σ - Algebra ist (hieraus folgt dann D(J ) = σ(J )). Nach dem ersten Lemma ist dies der Fall, wenn D(J ) durchschnittsstabil ist. Dies zeigen wir nun in zwei Schritten: Schritt 1: B ∈ J , A ∈ D(J ) ⇒ A ∩ B ∈ D(J ) Beweis: DB := { A ∈ A | A ∩ B ∈ D(J )} ⊇ J ist ein Dynkinsystem. Z.B. gilt A ∈ DB ⇒ A ∩ B ∈ D(J ) Bem. ⇒ AC ∩ B = B \ (A ∩ B}) ∈ D(J ) | {z ↑ ∈D(J ) ∈D(J ) ⇒ AC ∈ DB usw. Also gilt DB ⊇ D(J ), und damit A ∩ B ∈ D(J ) für alle A ∈ D(J ). Schritt 2: A, B ∈ D(J ) ⇒ A ∩ B ∈ D(J ) Beweis: DA := { B ∈ A | A ∩ B ∈ D(J )} ⊇ J nach Schritt 1. Zudem ist DA ein Dynkinsystem (Beweis analog zu Schritt 1), also gilt DA ⊇ D(J ). 4.3 Allgemeine Zufallsvariablen und ihre Verteilung Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Wir wollen nun Zufallsvariablen X : Ω → S mit Werten in einem allgemeinen messbaren Raum (S, S) betrachten. Beispielsweise ist S = R oder S = Rd und S ist die Borelsche σ-Algebra. Oft interessieren uns die Wahrscheinlichkeiten von Ereignissen der Form {X ∈ B} = {ω ∈ Ω|X(ω) ∈ B} = X −1 (B), „Der Wert der Zufallsgröße X liegt in B“ wobei B ⊆ S eine Menge aus der σ-Algebra S auf dem Bildraum ist, also z.B. ein Intervall oder eine allgemeinere Borelmenge, falls S = R gilt. Wir erweitern dementsprechend die zuvor eingeführten Konzepte einer Zufallsvariablen und ihrer Verteilung. Universität Bonn Wintersemester 2009/2010 120 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Allgemeine Zufallsvariablen Definition. Eine Abbildung X : Ω → S heißt messbar bzgl. A/S, falls (M ) X −1 (B) ∈ A für alle B ∈ S. Eine Zufallsvariable ist eine auf einem Wahrscheinlichkeitsraum definierte messbare Abbildung. Bemerkung. (1). Ist Ω abzählbar und A = P(Ω), dann ist jede Abbildung X : Ω → S eine Zufallsvariable. (2). Ist S abzählbar und S = P(S), dann ist X genau dann eine Zufallsvariable, falls {X = a} = X −1 ({a}) ∈ A für alle a ∈ S gilt. Dies ist gerade die Definition einer diskreten Zufallsvariable von oben. Stimmt die σ-Algebra S nicht mit der Potenzmenge P(S) überein, dann ist es meist schwierig, eine Bedingung (M ) für alle Mengen B ∈ S explizit zu zeigen. Die folgenden Aussagen liefern handhabbare Kriterien, mit denen man in fast allen praktisch relevanten Fällen sehr leicht zeigen kann, dass die zugrunde liegenden Abbildungen messbar sind. Wir bemerken zunächst, dass es genügt die Bedingung (M ) für alle Mengen aus einem Erzeugendensystem J der σ-Algebra S zu überprüfen: Lemma 4.11. Sei J ⊆ P(S) mit S = σ(J ). Dann gilt (M ) bereits, falls X −1 (B) ∈ A für alle B ∈ J . Beweis. Das Mengensystem {B ∈ S|X −1 (B) ∈ A} ist eine σ-Algebra, wie man leicht nach- prüft. Diese enthält J nach Voraussetzung, also enthält sie auch die von J erzeugte σ-Algebra S. Korollar (Reellwertige Zufallsvariablen). Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Abbildung X : Ω → R ist genau dann eine Zufallsvariable bzgl. der Borelschen σ-Algebra, wenn {X ≤ c} = {ω ∈ Ω | X(ω) ≤ c} ∈ A ∀ c ∈ R, {X < c} = {ω ∈ Ω | X(ω) < c} ∈ A ∀ c ∈ R. bzw. wenn Beweis. Es gilt {X ≤ c} = X −1 ((−∞, c]). Die Intervalle (−∞, c], c ∈ R, erzeugen B(R), also folgt die erste Aussage. Die zweite Aussage zeigt man analog. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 121 Beispiel (Indikatorfunktionen). Für eine Menge A ⊆ Ω gilt: IA ist Zufallsvariable ⇔ A ∈ A, denn ∅ {IA ≤ c} = Ω AC falls c < 0 falls c ≥ 1 , falls 0 ≤ c < 1 und AC ist genau dann in A enthalten, wenn A in A enthalten ist. Korollar (Stetige Abbildungen sind messbar). Seien Ω und S topologische Räume, und A, S die Borelschen σ-Algebren. Dann gilt: X : Ω → S stetig ⇒ X messbar. Beweis. Sei J die Topologie von S, d.h. die Kollektion aller offenen Teilmengen von S. Nach Definition der Borelschen σ-Algebra gilt S = σ(J ). Wegen B∈J X stetig ⇒ B offen =⇒ X −1 (B) offen =⇒ X −1 (B) ∈ A folgt die Behauptung. Kompositionen von messbaren Abbildungen sind wieder messbar: Lemma 4.12. Sind (Ω1 , A1 ), (Ω2 , A2 ) und (Ω3 , A3 ) messbare Räume, und ist X1 : Ω1 → Ω2 messbar bzgl. A1 /A2 und X2 : Ω2 → Ω3 messbar bzgl. A2 /A3 , dann ist X2 ◦ X1 messbar bzgl. A1 /A3 . X X 1 2 Ω1 −→ Ω2 −→ Ω3 A1 A2 A3 Beweis. Für B ∈ A3 gilt (X2 ◦ X1 )−1 (B) = X1−1 (X2−1 (B)) ∈ A1 . | {z } ∈A2 Beispiel. (1). Ist X : Ω → R eine reellwertige Zufallsvariable und f : R → R eine messbare (z.B. stetige) Funktion, dann ist auch f (X) := f ◦ X : Ω → R wieder eine reellwertige Zufallsvariable. Beispielsweise sind |X|, |X|p , eX usw. Zufallsva- riablen. Universität Bonn Wintersemester 2009/2010 122 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE (2). Sind X, Y : Ω → R reellwertige Zufallsvariablen, dann ist (X, Y ) : ω 7→ (X(ω), Y (ω)) eine messbare Abbildung in den R2 mit Borelscher σ-Algebra. Da die Abbildung (x, y) 7→ x + y stetig ist, ist X + Y wieder eine reellwertige Zufallsva- riable. Dies sieht man auch direkt wie folgt: Für c ∈ R gilt: X + Y < c ⇐⇒ ∃ r, s ∈ Q : r + s < c, X < r und Y < s, also {X + Y < c} = [ ({X < r} ∩ {Y < s}) ∈ A r,s∈Q r+s<c Verteilungen von Zufallsvariablen Um Zufallsexperimente zu analysieren, müssen wir wissen, mit welchen Wahrscheinlichkeiten die relevanten Zufallsvariablen Werte in bestimmten Bereichen annehmen. Dies wird durch die Verteilung beschrieben. Seien (Ω, A) und (S, S) messbare Räume. Satz 4.13 (Bild einer Wahrscheinlichkeitsverteilung unter einer ZV). Ist P eine Wahrscheinlichkeitsverteilung auf (Ω, A), und X : Ω → S messbar bzgl. A/S, dann ist durch µX (B) := P [X ∈ B] = P [X −1 (B)] (B ∈ S) eine Wahrscheinlichkeitsverteilung auf (S, S) definiert. Beweis. (1). µX (S) = P [X −1 (S)] = P [Ω] = 1 (2). Sind Bn ∈ S, n ∈ N, paarweise disjunkte Mengen, dann sind auch die Urbilder X −1 (Bn ), n ∈ N, paarweise disjunkt. Also gilt wegen der σ-Additivität von P : # " # " !# " [ [ X X [ Bn = P X −1 µX X −1 (Bn ) = P [X −1 (Bn )] = µX [Bn ]. Bn =P n n n n n Definition. Die Wahrscheinlichkeitsverteilung µX auf (S, S) heißt Bild von P unter X oder Verteilung (law) von X unter P . Für µX werden häufig auch die folgenden Notationen verwendet: µX = P ◦ X −1 = LX = PX = X(P ) Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 123 Charakterisierung der Verteilung • Diskrete Zufallsvariablen: Die Verteilung µX einer diskreten Zufallsvariablen ist eindeutig durch die Massenfunktion a ∈ S, pX (a) = P [X = a] = µX [{a}], festgelegt. • Reelle Zufallsvariablen Die Verteilung µX einer reellwertigen Zufallsvariablen X : Ω → R ist eine Wahrscheinlichkeitsverteilung auf B(R). Sie ist eindeutig festgelegt durch die Wahrscheinlichkeiten µX [(−∞, c]] = P [X ≤ c], c ∈ R, da die Intervalle (−∞, c], c ∈ R, ein durchschnittsstabiles Erzeugendensystem der Borelschen σ-Algebra bilden. Definition. Die Funktion FX : R → [0, 1], FX (c) := P [X ≤ c] = µX [(−∞, c]] heißt Verteilungsfunktion (distribution function) der Zufallsvariable X : Ω → R bzw. der Wahrscheinlichkeitsverteilung µX auf (R, B(R)). Beispiel (Kontinuierliche Gleichverteilung). Seien a, b ∈ R mit a < b. Eine Zufallsvariable X : Ω → R ist gleichverteilt auf dem Intervall (a, b), falls FX (c) = P [X ≤ c] = U(a,b) [(a, c)] = c−a b−a für alle c ∈ (a, b) gilt. Eine auf (0, 1) gleichverteilte Zufallsvariable ist zum Beispiel die Identität U (ω) = ω auf dem Wahrscheinlichkeitsraum (Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) ). Ist U gleichverteilt auf (0, 1), dann ist die Zufallsvariable X(ω) = a + (b − a)U (ω) gleichverteilt auf (a, b). Universität Bonn Wintersemester 2009/2010 124 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Beispiel (Exponentialverteilung). Angenommen, wir wollen die Wartezeit auf das erste Eintreten eines unvorhersehbaren Ereignisses (radioaktiver Zerfall, Erdbeben, . . . ) mithilfe einer Zufallsvariable T : Ω → (0, ∞) beschreiben. Wir überlegen uns zunächst, welche Verteilung zur Model- lierung einer solchen Situation angemessen sein könnte. Um die Wahrscheinlichkeit P [T > t] zu approximieren, unterteilen wir das Intervall (0, t] in eine große Anzahl n ∈ N von gleich großen Intervallen ( (k−1)t , kt ], 1 ≤ k ≤ n. n n 0 (k − 1)t n t kt n Abbildung 4.6: Unterteilung des Intervalls (0, t] in n Teile. Sei Ak das Ereignis, dass das unvorhersehbare Geschehen im Zeitraum ( (k−1)t , kt ] eintritt. Ein n n nahe liegender Modellierungsansatz ist anzunehmen, dass die Ereignisse Ak unabhängig sind mit Wahrscheinlichkeit t P [Ak ] ≈ λ , n wobei λ > 0 die „Intensität“, d.h. die mittlere Häufigkeit des Geschehens pro Zeiteinheit, be- schreibt, und die Approximation für n → ∞ immer genauer wird. Damit erhalten wir: n λt C C P [T > t] = P [A1 ∩ . . . ∩ An ] ≈ 1 − für großes n. n Für n → ∞ konvergiert die rechte Seite gegen e−λt . Daher liegt folgende Definition nahe: Definition. Eine Zufallsvariable T : Ω → [0, ∞) heißt exponentialverteilt zum Parameter λ>0, falls P [T > t] = e−λt für alle t ≥ 0 gilt. Die Exponentialverteilung zum Parameter λ ist dementsprechend die Wahrscheinlichkeitsverteilung µ = Exp(λ) auf (R, B(R)) mit µ[(t, ∞)] = e−λt Einführung in die Wahrscheinlichkeitstheorie für alle t ≥ 0, Prof. Andreas Eberle 4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 125 bzw. mit Verteilungsfunktion F (t) = µ[(−∞, t]] = 1 − e−λt 0 für t ≥ 0 (4.3.1) für t < 0. Nach dem Eindeutigkeitssatz ist die Exp(λ)-Verteilung durch (4.3.1) eindeutig festgelegt. Wir konstruieren nun explizit eine exponentialverteilte Zufallsvariable. Dazu bemerken wir, dass T : Ω → R genau dann exponentialverteilt mit Parameter λ ist, wenn λ 1 −λT P [e < u] = P T > − log u = e λ log u = u λ für alle u ∈ (0, 1) gilt, d.h. wenn e−λT auf (0, 1) gleichverteilt ist. Also können wir eine expo- nentialverteilte Zufallsvariable konstruieren, indem wir umgekehrt 1 T := − log U λ U ∼ U(0,1) setzen. Insbesondere ergibt sich die folgende Methode zur Simulation einer exponentialverteilten Zufallsvariable: Algorithmus 4.14 (Simulation einer exponentialverteilten Stichprobe). Input: Intensität λ > 0 Output: Stichprobe x von Exp(λ) (1). Simuliere u ∼ U(0,1) (2). Setze x := − λ1 log u Wir werden in Abschnitt 4.5 zeigen, dass mit einem entsprechenden Verfahren beliebige reelle Zufallsvariablen konstruiert und simuliert werden können. Zum Abschluss dieses Abschnitts zeigen wir noch eine bemerkenswerte Eigenschaft exponentialverteilter Zufallsvariablen: Satz 4.15 (Gedächtnislosigkeit der Exponentialverteilung). Ist T exponentialverteilt, dann gilt für alle s, t ≥ 0: P [T − s > t|T > s] = P [T > t]. Hierbei ist T − s die verbleibende Wartezeit auf das erste Eintreten des Ereignisses. Also: Auch wenn man schon sehr lange vergeblich gewartet hat, liegt das nächste Ereignis nicht näher als am Anfang! Universität Bonn Wintersemester 2009/2010 126 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Beweis. P [T −s > t|T > s] = P [T − s > t und T > s] P [T > s + t] e−λ(t+s) = = = e−λt = P [T > t]. P [T > s] T >s e−λs Wahrscheinlichkeitsverteilungen auf R 4.4 In diesem und im nächsten Abschnitt beschäftigen wir uns systematischer mit der Beschreibung, Konstruktion und Simulation reellwertiger Zufallsvariablen. Wir notieren dazu zunächst einige grundlegende Eigenschaften der Verteilungsfunktion F (c) = P [X ≤ c] einer auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten Zufallsvariable X : Ω → R. Wir werden im nächsten Abschnitt sehen, dass umgekehrt jede Funktion mit den Eigenschaften (1)-(3) aus Satz 4.16 die Verteilungsfunktion einer reellen Zufallsvariable ist. Eigenschaften der Verteilungsfunktion Satz 4.16. Für die Verteilungsfunktion F : R → [0, 1] einer reellwertigen Zufallsvariable X gilt: (1). F ist monoton wachsend, (2). lim F (c) = 0 und lim F (c) = 1, c→−∞ c→∞ (3). F ist rechtsstetig, d.h. F (c) = lim F (y) für alle c ∈ R, yցc (4). F (c) = lim F (y) + µX [{c}]. yրc Insbesondere ist F stetig bei c, falls µX [{c}] = 0 gilt. Beweis. Die Aussagen folgen unmittelbar aus der monotonen Stetigkeit und Normiertheit der zugrundeliegenden Wahrscheinlichkeitsverteilung P . Der Beweis der Eigenschaften (1)-(3) wird dem Leser als Übung überlassen. Zum Beweis von (4) bemerken wir, dass für y < c gilt: F (c) − F (y) = P [X ≤ c] − P [X ≤ y] = P [y < X ≤ c]. Für eine monoton wachsende Folge yn ր c erhalten wir daher aufgrund der monotonen Stetigkeit von P : F (c) − lim F (yn ) = n→∞ lim P [yn < X ≤ c] = P n→∞ = P [X = c] = µX [{c}]. Einführung in die Wahrscheinlichkeitstheorie " \ n # {yn < X ≤ c} Prof. Andreas Eberle 4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R 127 Da dies für alle Folgen yn ր c gilt, folgt die Behauptung. Im Folgenden betrachten wir einige Beispiele von eindimensionalen Verteilungen und ihren Verteilungsfunktionen. Diskrete Verteilungen Die Verteilung µ einer reellen Zufallsvariable X heißt diskret, wenn µ[S] = 1 für eine abzählbare Menge S gilt. Beispiele. (1). B ERNOULLI -V ERTEILUNG MIT PARAMETER p ∈ [0, 1]: µ[{0}] = 1 − p. µ[{1}] = p, Als Verteilungsfunktion ergibt sich µX 0 F (c) = 1 − p 1 1 für c < 0 für c ∈ [0, 1) für c ≥ 1. F 1 1−p 1−p 1 1 Abbildung 4.7: Massen- und Verteilungsfunktion einer Ber(p)-verteilten Zufallsvariablen. (2). G EOMETRISCHE V ERTEILUNG MIT PARAMETER p ∈ [0, 1]: µ[{k}] = (1 − p)k−1 · p für k ∈ N. Für eine geometrisch verteilte Zufallsvariable T gilt: F (c) = P [T ≤ c] = 1 − P [T > c] = 1 − (1 − p)⌊c⌋ | {z } für c ≥ 0, =P [T >⌊c⌋] wobei ⌊c⌋ := max{n ∈ Z | n ≤ c} der ganzzahlige Anteil von c ist. Universität Bonn Wintersemester 2009/2010 128 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE 1 F 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 Abbildung 4.8: Massen- und Verteilungsfunktion einer Geom( 21 )-verteilten Zufallsvariablen. (3). B INOMIALVERTEILUNG MIT PARAMETERN n UND p: n k p (1 − p)n−k für k = 0, 1, . . . , n µ[{k}] = k Somit ist die Verteilungsfunktion von Bin(n, p): F (c) = ⌊c⌋ X n k=0 k pk (1 − p)n−k 0.15 0.10 0.05 −0.05 10 20 30 40 50 −0.10 Abbildung 4.9: Massenfunktion einer Bin(55, 0.6)-verteilten Zufallsvariable. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R 129 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 −0.1 10 20 30 40 50 Abbildung 4.10: Verteilungsfunktion von Bin(55, 0.6) Allgemein sind die Unstetigkeitsstellen der Verteilungsfunktion F einer reellwertigen Zufallsvariable X nach Satz 4.16 (4) gerade die Atome der Verteilung, d.h. die c ∈ R mit µX [{c}] > 0. Nimmt X nur endlich viele Werte in einem Intervall I an, dann ist F auf I stückweise konstant, und springt nur bei diesen Werten. Stetige Verteilungen Die Verteilung µ einer reellen Zufallsvariable X heißt stetig, bzw. absolutstetig, falls eine integrierbare Funktion f : R → [0, ∞) existiert mit F (c) = P [X ≤ c] = µ[(−∞, c]] = Zc f (x) dx für alle c ∈ R. (4.4.1) −∞ Das Integral ist dabei im Allgemeinen als Lebesgueintegral zu interpretieren. Ist die Funktion f stetig, dann stimmt dieses mit dem Riemannintegral überein. Da µ eine Wahrscheinlichkeitsverteilung ist, folgt, dass f eine Wahrscheinlichkeitsdichte ist, d.h. f ≥ 0 und Z f (x) = 1. R Definition. Eine Lebesgue-integrierbare Funktion f : R → [0, ∞) mit (4.4.1) heißt Dichtefunktion der Zufallsvariable X bzw. der Verteilung µ. Bemerkung. (1). Nach dem Hauptsatz der Differential- und Integralrechnung gilt F ′ (x) = f (x) Universität Bonn (4.4.2) Wintersemester 2009/2010 130 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE für alle x ∈ R, falls f stetig ist. Im Allgemeinen gilt (4.4.2) für λ-fast alle x, wobei λ das Lebesguemaß auf R ist. (2). Aus (4.4.1) folgt aufgrund der Eigenschaften des Lebesgueintegrals (s. Kapitel 6 unten): Z P [X ∈ B] = µX [B] = f (x) dx, (4.4.3) B für alle Mengen B ∈ B(R). Zum Beweis zeigt man, dass beide Seiten von (4.4.3) Wahr- scheinlichkeitsverteilungen definieren, und wendet den Eindeutigkeitssatz an. Beispiele. (1). G LEICHVERTEILUNG AUF (a, b) (−∞ < a < b < ∞). 0 für c ≤ a 1 f (x) = I(a,b) (x), F (c) = c−a für a ≤ c ≤ b b−a b−a 1 für c ≥ b . 1 1 2 3 Abbildung 4.11: Dichte f (x) = 1[1,3] (x) einer uniform auf [1, 3] verteilten Zufallsvariable (blau), und deren Verteilungsfunktion F (c) (rot) Affine Funktionen von gleichverteilten Zufallsvariablen sind wieder gleichverteilt. (2). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0. f (x) = λe−λx I(0,∞) (x), F (c) = µ[(−∞, c]] = (1 − e −λc + ) = Z ∞ f (x)dx. c Ist T eine exponentialverteilte Zufallsvariable zum Parameter λ, und a > 0, dann ist aT exponentialverteilt zum Parameter λa , denn λ c P [aT > c] = P [T > ] = e− a c a Einführung in die Wahrscheinlichkeitstheorie für alle c ≥ 0. Prof. Andreas Eberle 4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R 131 1 1 2 3 4 5 Abbildung 4.12: Dichte f (x) = 1[0,∞) (x) · e−x einer zum Parameter 1 exponentialverteilten Zufallsvariable (blau) und deren Verteilungsfunktion F (c) (rot) (3). N ORMALVERTEILUNGEN √ R∞ −z2 /2 e dz = 2π ist die „Gaußsche Glockenkurve“ Wegen −∞ 1 2 f (z) = √ e−z /2 , z ∈ R, 2π eine Wahrscheinlichkeitsdichte. Eine stetige Zufallsvariable Z mit Dichtefunktion f heißt standardnormalverteilt. Die Verteilungsfunktion Zc z2 1 √ e− 2 dz Φ(c) = 2π −∞ der Standardnormalverteilung ist i.A. nicht explizit berechenbar. Ist Z standardnormalverteilt, und X(ω) = σZ(ω) + m mit σ > 0, m ∈ R, dann ist X eine Zufallsvariable mit Verteilungsfunktion c−m c−m =Φ . FX (c) = P [X ≤ c] = P Z ≤ σ σ Mithilfe der Substitution z = x−m σ erhalten wir: c−m FX (c) = Zσ −∞ z2 1 √ e− 2 dz = 2π Zc −∞ √ 1 2πσ 2 e− 2 ( 1 x−m 2 σ ) dx Definition. Die Wahrscheinlichkeitsverteilung N (m, σ 2 ) auf R mit Dichtefunktion fm,σ (x) = √ 1 2πσ 2 · e− 2 ( 1 x−m 2 σ ) heißt Normalverteilung mit Mittel m und Varianz σ 2 . Die Verteilung N (0, 1) heißt Standardnormalverteilung. Universität Bonn Wintersemester 2009/2010 132 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Wir werden im nächsten Abschnitt sehen, dass die Binomialverteilung (also die Verteilung der Anzahl der Erfolge bei unabhängigen 0-1-Experimenten mit Erfolgswahrscheinlichkeit p) für große n näherungsweise durch eine Normalverteilung beschrieben werden kann. Entsprechendes gilt viel allgemeiner für die Verteilungen von Summen vieler kleiner unabhängiger Zufallsvariablen (Zentraler Grenzwertsatz, s.u.). 1 Abfall um Faktor e− 2 e−2 9 e− 2 m − 3σ m − 2σ m−σ m m+σ m + 2σ m + 3σ Abbildung 4.13: Dichte einer normalverteilten Zufallsvariable mit Mittelwert m und Varianz σ 2 . m − 3σ m − 2σ m−σ m m+σ m + 2σ m + 3σ Abbildung 4.14: Verteilungsfunktion einer normalverteilten Zufallsvariable mit Mittelwert m und Varianz σ 2 . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R 133 Die Dichte der Normalverteilung ist an der Stelle m maximal, und klingt außerhalb einer σ-Umgebung von m rasch ab. Beispielsweise gilt fm,σ (m ± σ) = fm,σ (m) √ e fm,σ (m) e2 fm,σ (m) fm,σ (m ± 3σ) = e9/2 Für die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable Werte außerhalb der fm,σ (m ± 2σ) = σ-, 2σ- und 3σ-Umgebungen annimmt, erhält man: X − m >k P [|X − m| > kσ] = P σ = P [|Z| > k] = 2P [Z > k] = 2(1 − Φ(k)) 31.7% für k = 1 = 4.6% für k = 2 0.26% für k = 3 Eine Abweichung der Größe σ vom Mittelwert m ist also für eine normalverteilte Zufallsvariable relativ typisch, eine Abweichung der Größe 3σ dagegen schon sehr selten. Die folgenden expliziten Abschätzungen für die Wahrscheinlichkeiten großer Werte sind oft nützlich: Lemma 4.17. Für eine standardnormalverteilte Zufallsvariable Z gilt: 1 1 1 2 2 −1/2 − 3 · e−y /2 ≤ P [Z ≥ y] ≤ (2π)−1/2 · · e−y /2 (2π) · y y y Beweis. Es gilt: P [Z ≥ y] = (2π) −1/2 Z∞ e−z 2 /2 ∀y > 0 dz y Um das Integral abzuschätzen, versuchen wir approximative Stammfunktionen zu finden. Zunächst gilt: d dz Universität Bonn 1 −z2 /2 1 2 2 − e = 1 + 2 · e−z /2 ≥ e−z /2 z z ∀z ≥ 0, Wintersemester 2009/2010 134 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE also 1 −z2 /2 e = y Z∞ y Z∞ 1 −z2 /2 2 dz ≥ e−z /2 dz, e y y woraus die obere Schranke für P [Z ≥ y] folgt. Für die untere Schranke approximieren wir die Stammfunktion noch etwas genauer. Es gilt: 1 1 1 3 1 d 2 2 −z 2 /2 = 1 + 2 − 2 − 4 e−z /2 ≤ e−z /2 , − + 3 e dz z z z z z und damit 1 1 − 3 y y e −y 2 /2 ≤ Z∞ e−z 2 /2 dz. y Für eine N (m, σ 2 )-verteilte Zufallsvariable X mit σ > 0 ist Z = X−m σ standardnormalverteilt. Also erhalten wir für y ≥ m: (y−m)2 X −m y−m 1 P [X ≥ y] = P ≥ ≤ · (2πσ)−1/2 · e− 2σ2 , σ σ y−m sowie eine entsprechende Abschätzung nach unten. Transformation von absolutstetigen Zufallsvariablen Wir haben in Beispielen bereits mehrfach die Verteilung von Funktionen von absolutstetigen Zufallsvariablen berechnet. Sei nun allgemein I ⊆ R ein offenes Intervall, und X : Ω → I eine Zufallsvariable mit stetiger Verteilung. Satz 4.18 (Eindimensionaler Dichtetransformationssatz). Ist Φ : I → J einmal stetig diffe- renzierbar mit Φ′ (x) 6= 0 für alle x ∈ I, dann ist die Verteilung von Φ(X) absolutstetig mit Dichte fΦ(X) (y) = fX (Φ−1 (y)) · |(Φ−1 )′ (y)| 0 für y ∈ Φ(I) . (4.4.4) sonst Beweis. Nach der Voraussetzung gilt entweder Φ′ > 0 auf I oder Φ′ < 0 auf I. Wir betrachten nur den ersten Fall. Aus Φ′ > 0 folgt, dass Φ streng monoton wachsend ist, also eine Bijektion von I nach Φ(I). Daher erhalten wir FΦ(X) (c) = P [Φ(X) ≤ c] = Einführung in die Wahrscheinlichkeitstheorie P [X ≤ Φ−1 (I)] = FX (Φ−1 (c)) Prof. Andreas Eberle 4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF R 135 für alle c ∈ Φ(I). Nach der Kettenregel ist dann FΦ(X) für fast alle c ∈ Φ(I) differenzierbar, und es gilt ′ FΦ(X) (c) = fX (Φ−1 (c)) · (Φ−1 )′ (c). Die Behauptung folgt hieraus nach dem Hauptsatz der Differential- und Integralrechnung, da P [Φ(x) 6∈ Φ(I)] = 0. Beispiel (Geometrische Wahrscheinlichkeiten). Sei θ : Ω → [0, 2π) ein zufälliger, auf [0, 2π) gleichverteilter, Winkel. Wir wollen die Verteilung von cos θ berechnen. Da die Kosinusfunktion auf [0, 2π) nicht streng monoton ist, ist (4.4.4) nicht direkt anwendbar. Wir können aber das Intervall [0, 2π) in die Teile [0, π) und [π, 2π) zerlegen, und dann die Verteilung ähnlich wie im Beweis von Satz 4.18 berechnen. Wegen P [cos θ > c] = P [cos θ > c und θ ∈ [0, π)] + P [cos θ > c und θ ∈ [π, 2π)] = P [θ ∈ [0, arccos c)] + P [θ ∈ [π − arccos c, π)] 2 = · arccos c 2π erhalten wir, dass cos θ eine sogenannte „Halbkreisverteilung“ mit Dichte fcos θ (x) = ′ Fcos θ (x) 1 1 ; ·√ π 1 − x2 = x ∈ [−1, 1) hat. 1 −1 1 Abbildung 4.15: Abbildung der Dichtefunktion fcos θ Universität Bonn Wintersemester 2009/2010 136 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Anstelle von (4.4.4) gilt in diesem Fall fcos θ (x) = fX (ψ1 (x)) · |ψ1′ (x)| + fX (ψ2 (x)) · |ψ2′ (x)|, wobei ψ1 (x) = arccos x und ψ2 (x) = 2π − arccos x die Umkehrfunktionen auf den Teilinter- vallen sind. Entsprechende Formeln erhält man auch allgemein, wenn die Transformation nur stückweise bijektiv ist. Auf ähnliche Weise zeigt man für a > 0 (Übung): fa tan θ (x) = 1 1 · , πa 1 + (x/a)2 x ∈ R. 0.4 0.2 −2 −1 1 2 Abbildung 4.16: Abbildung der Dichtefunktion fa tan θ Die Verteilung mit dieser Dichte heißt Cauchyverteilung zum Parameter a. Sie beschreibt unter anderem die Intensitätsverteilung auf einer Geraden, die von einer in alle Richtungen gleichmäßig strahlenden Lichtquelle im Abstand a bestrahlt wird. ⊗ θ a a · tan θ 4.5 Quantile und Inversionsverfahren Quantile sind Stellen, an denen die Verteilungsfunktion einen bestimmten Wert überschreitet. Mithilfe von Quantilen kann man daher verallgemeinerte Umkehrfunktionen der im Allgemeinen nicht bijektiven Verteilungsfunktion definieren. Diese Umkehrabbildungen werden wir nutzen, um reellwertige Zufallsvariablen mit einer gegebenen Verteilungsfunktion explizit zu konstruieren. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.5. QUANTILE UND INVERSIONSVERFAHREN 137 Quantile In praktischen Anwendungen (z.B. Qualitätskontrolle) müssen häufig Werte berechnet werden, sodass ein vorgegebener Anteil der Gesamtmasse einer Wahrscheinlichkeitsverteilung auf R unterhalb dieses Wertes liegt. Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilungsfunktion F . Definition. Sei u ∈ [0, 1]. Dann heißt q ∈ R ein u-Quantil der Verteilung von X, falls P [X < q] ≤ u P [X > q] ≤ 1 − u und gilt. Ein 21 -Quantil heißt Median. Ist die Verteilungsfunktion nicht streng monoton wachsend, dann kann es mehrere u-Quantile zu einem Wert u geben. Beispiel (Stichprobenquantile). Wir betrachten eine Stichprobe, die aus n reellwertigen Daten / Messwerten x1 , . . . , xn mit x1 ≤ x2 ≤ . . . ≤ xn besteht. Die empirische Verteilung der Stichprobe ist die Wahrscheinlichkeitsverteilung n 1X µ= δx n i=1 i auf (R, P(R)), d.h. für B ⊆ R ist µ[B] = 1 |{xi ∈ B, 1 ≤ i ≤ n}| n die relative Häufigkeit des Bereichs B unter den Messwerten xi . Die empirische Verteilung ergibt sich, wenn wir zufällig ein i ∈ {1, . . . , n} wählen, und den entsprechenden Messwert betrachten. Die Quantile der empirischen Verteilung bezeichnet man als Stichprobenquantile. Für u ∈ [0, 1] sei ku := 1 + (n − 1)u ∈ [1, n]. Ist ku ganzzahlig, dann ist xku das eindeutige u-Quantil der Stichprobe. Allgemein ist jedes q ∈ [x⌊ku ⌋ , x⌈ku ⌉ ] ein u-Quantil der Stichprobe, d.h. für ku 6∈ Z gibt es mehrere u-Quantile. Wir definieren nun zwei verallgemeinerte Inverse einer Verteilungsfunktion F , die ja im Allgemeinen nicht bijektiv ist. Für u ∈ (0, 1) sei G(u) := inf{x ∈ R|F (x) ≥ u} = sup{x ∈ R|F (x) < u} Universität Bonn Wintersemester 2009/2010 138 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE und G(u) := inf{x ∈ R|F (x) > u} = sup{x ∈ R|F (x) ≤ u}. Offensichtlich gilt G(u) ≤ G(u). Ist die Funktion F stetig und streng monoton wachsend, also eine Bijektion von R nach (0, 1), dann gilt G(u) = G(u) = F −1 (u). Die Funktion G heißt daher auch die linksstetige verallgemeinerte Inverse von F . Der folgende Satz zeigt, dass G(u) das kleinste und G(u) das größte u-Quantil ist: Satz 4.19. Für u ∈ (0, 1) und q ∈ R sind die folgenden Aussagen äquivalent: (1). q ist ein u-Quantil. (2). F (q−) ≤ u ≤ F (q). (3). G(u) ≤ q ≤ G(u). Hierbei ist F (q−) := lim F (y) der linksseitige Limes von F an der Stelle q. yրq Beweis. Nach Definition ist q genau dann ein u-Quantil, wenn P [X < q] ≤ u ≤ 1 − P [X > q] = P [X ≤ q] gilt. Hieraus folgt die Äquivalenz von (1) und (2). Um zu beweisen, dass (3) äquivalent zu diesen Bedingungen ist, müssen wir zeigen, dass G(u) das kleinste und G(u) das größte u-Quantil ist. Wir bemerken zunächst, dass G(u) ein u-Quantil ist, da F (x) ≤ u, | {z } F (G(u)−) = lim xրG(u) <u für x<G(u) und F (G(u)) = lim xցG(u) F (x) ≥ u. | {z } ≥u für x>G(u) Andererseits gilt für x < G(u): F (x) < u, d.h. x ist kein u-Quantil. Somit ist G(u) das kleinste u-Quantil. Auf ähnliche Weise folgt, dass G(u) das größte u-Quantil ist (Übung!). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.5. QUANTILE UND INVERSIONSVERFAHREN 139 Konstruktion und Simulation reellwertiger Zufallsvariablen Wie erzeugt man ausgehend von auf (0, 1) gleichverteilten Zufallszahlen Stichproben von anderen Verteilungen µ auf R1 ? Gilt µ(S) = 1 für eine endliche Teilmenge S ⊆ R, dann können wir die Frage Endlicher Fall: leicht beantworten: Sei S = {x1 , . . . , xn } ⊆ R mit n ∈ N und x1 < x2 < . . . < xn . Die Verteilungsfunktion einer Wahrscheinlichkeitsverteilung µ auf S ist F (c) = µ[(−∞, c]] = X i:xi ≤c µ({xi }). Ist U eine auf (0, 1) gleichverteilte Zufallsvariable, dann wird durch falls F (xk−1 ) < U (ω) ≤ F (xk ), X(ω) = xk x0 := −∞ eine Zufallsvariable mit Verteilung µ definiert, denn P [X = xk ] = F (xk ) − F (xk−1 ) = µ[{xk }]. F (x) u µ(x1 ) Generiere u ∼ Unif{[0, 1]} 1 x1 x2 x3 x4 x5 x6 x7 Abbildung 4.17: Wir generieren eine uniform auf (0, 1) verteilte Pseudozufallszahl u. Suche nun k P µ(xi ) > u. Dann ist x = xk eine Pseudozufallsstichprobe von das minimale k ∈ N, für das der Verteilung µ. Universität Bonn i=1 Wintersemester 2009/2010 140 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Allgemeiner Fall: Wir wollen das Vorgehen nun verallgemeinern. Sei F : R → [0, 1] eine Funktion mit den Eigenschaften (1). monoton wachsend: (2). rechtsstetig: (3). normiert: F (x) ≤ F (y) lim F (x) = F (c) x↓c lim F (x) = 0 xց−∞ , ∀x≤y ∀c∈R lim F (x) = 1. xր+∞ Das folgende Resultat liefert eine explizite Konstruktion einer Zufallsvariable mit Verteilungsfunktion F : Satz 4.20. Ist F : R → [0, 1] eine Funktion mit (1)-(3), und G(u) = inf{x ∈ R|F (x) ≥ c}, u ∈ (0, 1), die linksstetige verallgemeinerte Inverse, dann ist das Bild µ := U(0,1) ◦ G−1 der Gleichverteilung auf (0, 1) unter G eine Wahrscheinlichkeitsverteilung auf R mit Verteilungsfunktion F . Insbesondere gilt: Ist U : Ω → (0, 1) eine unter P gleichverteilte Zufallsvariable, dann hat die Zufallsvariable X(ω) := G(U (ω)) unter P die Verteilungsfunktion F . Beweis. Da G(u) ein u-Quantil ist, gilt F (G(u)) ≥ u, also G(u) = min{x ∈ R|F (x) ≥ u}, und somit für c ∈ R : G(u) ≤ c ⇐⇒ F (x) ≥ u für ein x ≤ c ⇐⇒ F (c) ≥ u. Es folgt: P [G(U ) ≤ c] = U(0,1) [{u ∈ (0, 1)| G(u) ≤ c }] | {z } ⇐⇒ F (c)≥u = U(0,1) [(0, F (c))] = F (c). Also ist F die Verteilungsfunktion von G(U ) bzw. von µ. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.5. QUANTILE UND INVERSIONSVERFAHREN 141 Bemerkung. (1). Ist F eine Bijektion von R nach (0, 1) (also stetig und streng monoton wachsend), dann ist G = F −1 . (2). Nimmt X nur endlich viele Werte x1 < x2 < . . . < xn an, dann ist F stückweise konstant, und es gilt: G(u) = xk für F (xk−1 ) < u ≤ F (xk ), x0 := −∞, d.h. G ist genau die oben im endlichen Fall verwendete Transformation. Das Resultat liefert einen Existenzsatz: Zu jeder Funktion F mit (1)-(3) existiert eine reelle Zufallsvariable X bzw. eine Wahrscheinlichkeitsverteilung µ auf R mit Verteilungsfunktion F . Zudem erhalten wir einen expliziten Algorithmus zur Simulation einer Stichprobe von µ: Algorithmus 4.21 (Inversionsverfahren zur Simulation einer Stichprobe x von µ). (1). Erzeuge (Pseudo)-Zufallszahl u ∈ (0, 1). (2). Setze x := G(u). Dieser Algorithmus funktioniert theoretisch immer. Er ist aber oft nicht praktikabel, da man G nicht immer berechnen kann, oder da das Anwenden der Transformation G (zunächst unwesentliche) Schwachstellen des verwendeten Zufallsgenerators verstärkt. Man greift daher oft selbst im eindimensionalen Fall auf andere Simulationsverfahren wie z.B. „Acceptance Rejection“ Methoden zurück. Beispiel. (1). B ERNOULLI (p)-V ERTEILUNG AUF {0, 1}. Hier gilt: F = (1 − p) · I[ 0, 1) + 1 · I[1,∞) und G = 1(1−p,1) , siehe Abbildung 4.18. Also ist die Zufallsvariable G(U ) = I{U <1−p} für U ∼ U(0,1) Bernoulli(p)-verteilt. (2). G LEICHVERTEILUNG AUF (a, b): F (c) = c−a b−a für c ∈ [a, b], G(u) = a + (b − a)u, siehe Abbildung 4.19. Also ist a + (b − a)U für U ∼ U(0,1) gleichverteilt auf (a, b). Universität Bonn Wintersemester 2009/2010 142 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE F 1 G = I(1−p,1) 1 1−p 1 1 Abbildung 4.18: G(U ) = I{U >1−p} ist Bernoulli(p)-verteilt. G = a + (b − a)u b F a 1 a b 0 1 Abbildung 4.19: G(u) = a + (b − a)u ist (für u ∼ unif{(0, 1)}) uniform auf (a, b) verteilt. (3). E XPONENTIALVERTEILUNG MIT PARAMETER λ > 0: F (x) = 1 − e−λx , 1 G(u) = F −1 (u) = − log(1 − u). λ Anwenden des Logarithmus transformiert also die gleichverteilte Zufallsvariable 1 − u in eine exponentialverteilte Zufallsvariable. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 143 4.6 Normalapproximation der Binomialverteilung Die Binomialverteilung mit Parametern n und p beschreibt die Verteilung der Anzahl derjenigen unter n unabhängigen Ereignissen mit Wahrscheinlichkeit p, die in einem Zufallsexperiment eintreten. Viele Anwendungsprobleme führen daher auf die Berechnung von Wahrscheinlichkeiten bzgl. der Binomialverteilung. Für große n ist eine exakte Berechnung dieser Wahrscheinlichkeiten aber in der Regel nicht mehr möglich. Bei seltenen Ereignissen kann man die Poissonapproximation zur näherungsweisen Berechnung nutzen: Konvergiert n → ∞, und konvergiert gleichzeitig der Erwartungswert n · pn gegen eine positive reelle Zahl λ > 0, dann nähern sich die Gewichte bn,pn (k) der Binomialverteilung denen einer Poissonverteilung mit Parameter λ an: λk n k bn,pn (k) = pn (1 − pn )n−k → e−λ (k = 0, 1, 2, . . .), k k siehe Satz 1.5. Geht die Wahrscheinlichkeit pn für n → ∞ nicht gegen 0, sondern hat zum Bei- spiel einen festen Wert p ∈ (0, 1), dann kann die Poissonapproximation nicht verwendet werden. Stattdessen scheinen sich die Gewichte der Binomialverteilung einer Gaußschen Glockenkurve anzunähern, wie z.B. die folgende mit Mathematica erstellte Grafik zeigt: Manipulate [ ListPlot [ Table [ { k , PDF [ B i n o m i a l D i s t r i b u t i o n [ n , Min [ 1 , lambda / n ] ] , k ] } , {k , 0 , I n t e g e r P a r t [ 4 lambda ] } ] , F i l l i n g −> Axis , PlotRange −> A l l , P l o t M a r k e r s −> { Automatic , Medium } , Axes −> { True , F a l s e } ] , {{ n , 1 0 , "n" } , 3 , 300 ,1} , {{ lambda , 5 , " E r w a r t u n g s w e r t : np=Lambda " } , 2 , 2 0 } ] Universität Bonn Wintersemester 2009/2010 144 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Wir wollen diese Aussage nun mathematisch präzisieren und beweisen. Der Satz von De Moivre - Laplace Wir analysieren zunächst das asymptotische Verhalten von Binomialkoeffizienten mithilfe der Stirlingschen Formel. Definition. Zwei Folgen an , bn ∈ R+ , n ∈ N, heißen asymptotisch äquivalent (an ∼ bn ), falls an =1 n→∞ bn lim gilt. Bemerkung. (1). an ∼ bn ⇐⇒ ∃εn → 0 : an = bn (1 + εn ) (2). an ∼ bn ⇐⇒ b n ∼ an (3). an ∼ bn , cn ∼ dn =⇒ 1 an ⇐⇒ ⇐⇒ log an − log bn → 0 1 bn ∼ an · c n ∼ b n · d n Satz 4.22 (Stirlingsche Formel). n! ∼ √ 2πn · n n e Zum Beweis nimmt man den Logarithmus, und schätzt die sich ergebende Summe mithilfe eines Integrals ab, siehe z.B. Forster: „Analysis I“. Mithilfe der Stirlingschen Formel können wir die Gewichte n k bn,p (k) = p (1 − p)n−k k der Binomialverteilung für große n und k approximieren. Sei dazu Sn eine Bin(n, p)-verteilte Zufallsvariable auf (Ω, A, P ). Für den Erwartungswert und die Standardabweichung von Sn gilt: E[Sn ] = np und σ(Sn ) = p V ar[Sn ] = p np(1 − p). Dies deutet darauf hin, dass sich die Masse der Binomialverteilung für große n überwiegend in √ einer Umgebung der Größenordnung O( n) um np konzentriert. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG np 145 √ O( n) Abbildung 4.20: Die Gewichte der Binomialverteilung liegen für große n näherungsweise auf p einer Glockenkurve mit Mittel np und Standardabweichung np(1 − p). Wir werden nun mithilfe der Stirlingschen Formel die Gewichte n k bn,p (k) = P [Sn = k] = p (1 − p)n−k k √ der Binomialverteilung für große n und k in einer Umgebung der Größenordnung O( n) von np ausgehend von der Stirlingschen Formel approximieren, und die vermutete asymptotische Darstellung präzisieren und beweisen. Dazu führen wir noch folgende Notation ein: Wir schreiben an (k) ≈ bn (k) falls („lokal gleichmäßig asymptotisch äquivalent“), an (k) − 1 → 0 sup k∈Un,r bn (k) wobei Un,r = für alle r ∈ R+ gilt, {0 ≤ k ≤ n : |k − np| ≤ r · √ n}. Die Aussagen aus der Bemerkung oben gelten analog für diese Art der lokal gleichmäßigen asymptotischen Äquivalenz von an (k) und bn (k). Satz 4.23 (de Moivre 1733, Laplace 1819). Sei p ∈ (0, 1) und σ 2 = p(1 − p). Dann gilt: 2 ! k − np 1 1 √ (1). P [Sn = k] = bn,p (k) ≈ √ exp − 2 =: ebn,p (k) 2σ n 2πnσ 2 Sn − np ≤b (2). P a ≤ √ n Universität Bonn nր∞ −→ Rb a x2 1 √ e− 2σ2 d x 2 } | 2πσ{z Gaußsche Glockenkurve Wintersemester 2009/2010 146 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Beweis. (1). Wir beweisen die Aussage in zwei Schritten: (a) Wir zeigen zunächst mithilfe der Stirlingschen Formel: bn,p (k) 1 q · k k 2πn n (1 − n ) ≈ Es gilt lim √ n→∞ Für k ∈ Un,r gilt also folgt p ≥ k k n !k np − A · k! sup √ − 1 k k∈Un,r 2πk k k! · n! n 2πn ne √ ≈ = √ !n−k =: bn,p (k) (4.6.1) 1. n→∞ −→ n −→ e d.h. 1−p 1 − nk ∞, für n → ∞, 0 k k 2πk . e Analog erhält man (n − k)! ≈ p 2π(n − k) n−k e n−k , und damit n! pk (1 − p)n−k k! · (n − k)! √ 2πn · nn · pk · (1 − p)n−k p ≈ 2π k(n − k) · k k · (n − k)n−k r np k n(1 − p) n−k n = 2πk(n − k) k n−k bn,p (k) = = bn,p (k). (b) Wir zeigen nun mithilfe einer Taylorapproximation: Für k ∈ Un,r gilt bn,p (k) ≈ k − p n ebn,p (k) ≤ r · n− 2 , Einführung in die Wahrscheinlichkeitstheorie (4.6.2) 1 Prof. Andreas Eberle 4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG woraus folgt: s k k 2π · n · · 1 − n n p 2π · n · p · (1 − p) ≈ 147 √ = 2π · n · σ 2 . (4.6.3) Um die Asymptotik der übrigen Faktoren von bn,p (k) zu erhalten, verwenden wir eine Taylorapproximation für den Logarithmus: Wegen x log x p x−p+ = 1 (x − p)2 + O(|x − p|3 ) 2p gilt: p log k n = (−n) = !k !n−k 1−p 1 − nk k n k log n p | {z } + | 1− k n log {z 1 − nk 1−p ! } 1 k 2 k k + 2(1−p) (p− n ) +O(| n −p|3 ) =p− n Taylor k 1 k k ( n −p)2 +O(| n −p|3 ) = n −p+ 2p k 1 k 1 k ( − p)2 + (p − )2 +O(| − p|3 ) 2p n 2(1 − p) n n {z } | (p − nk )2 1 1 = + 2 p 1−p {z } | = = ! 1 p(1−p) 1 k k (p − )2 + O(| − p|3 ) 2p(1 − p) n n Für k ∈ Un,r gilt: Also folgt: p log k n !k 3 k − p n 1−p 1 − nk 1 !n−k ≤ = 3 r 3 · n− 2 . 1 − 2 2σ k −p n 2 + Rk,n , wobei |Rk,n | ≤ const. · r3 n− 2 für alle k ∈ Un,r , d.h. !k !n−k 2 ! p k 1−p 1 . −p ≈ exp − 2 k 2σ n 1 − nk n (4.6.4) Aussage (4.6.2) folgt dann aus (4.6.3) und (4.6.4). Universität Bonn Wintersemester 2009/2010 148 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE (c) Aus (a) und (b) folgt nun Behauptung (1). (2). Aufgrund von (1) erhalten wir für a, b ∈ R mit a < b: X Sn − np P a≤ √ ≤b = P [S = k] | n{z } n k∈{0,1,...,n} √ a≤ k−np ≤b n X = =bn,p (k)≈e bn,p (k) ebn,p (k)(1 + εn,p (k)), k∈{0,1,...,n} √ ≤b a≤ k−np n wobei εn,p := sup √ ≤b a≤ k−np n |εn,p (k)| −→ 0 für n → ∞. (4.6.5) (4.6.6) Wir zeigen nun lim n→∞ X ebn,p (k) = k∈{0,1,...,n} √ ≤b a≤ k−np n Zb a x2 √ · exp − 2 2σ 2πσ 2 1 dx Aus (4.6.5) und (4.6.6) folgt dann die Behauptung, da X X ebn,p (k) · εn,p (k) ≤ εn,p · ebn,p (k) n→∞ −→ |{z} k∈{0,1,...,n} →0 k∈{0,1,...,n} k−np a≤ √n ≤b √ ≤b a≤ k−np n | {z } → 0 Rb a ...dx<∞ Zum Beweis von (4.6.6) sei Γn := k − np √ k = 0, 1, . . . , n ⊆ R. n Dann ist Γn ein äquidistantes Gitter mit Maschenweite ∆ = X ebn,p (k) k∈{0,1,...,n} √ a≤ k−np ≤b n = X x∈Γn a≤x≤b √ 1 2πσ 2 √1 , n − x2 2σ 2 und es gilt ∆x. Für n → ∞ folgt (4.6.6), da die rechte Seite eine Riemannsummenapproximation des Integrals ist. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 149 Der Satz von de Moivre/Laplace besagt, dass die Verteilungen der Zufallsvariablen Sn√−np n für n → ∞ schwach gegen die Normalverteilung N (0, σ 2 ) mit Varianz σ 2 = p(1−p) konvergieren. Die allgemeine Definition der schwachen Konvergenz einer Folge von Wahrscheinlichkeitsvertei- lungen wird in Abschnitt 8.3 unten gegeben. Ist Z eine standardnormalverteilte Zufallsvariable, dann gilt: Sn − np √ n D −→ σZ, bzw. Sn − E[Sn ] σ(Sn ) Sn − np √ σ n = D −→ Z, (4.6.7) D wobei „→“ für schwache Konvergenz der Verteilungen der Zufallsvariablen steht (Konvergenz in Verteilung, s.u.). Bemerkung. (1). Die Aussage (4.6.7) ist ein Spezialfall eines viel allgemeineren zentralen Grenzwertsatzes: Sind X1 , X2 , . . . unabhängige, identisch verteilte Zufallsvariablen mit endlicher Varianz, und ist Sn = X1 + . . . + Xn , dann konvergieren die Verteilungen der standardisierten Summen Sn − E[Sn ] σ(Sn ) schwach gegen eine Standardnormalverteilung, s.u. Die Normalverteilung tritt also als universeller Skalierungslimes von Summen unabhängiger Zufallsvariablen auf. (2). Heuristisch gilt für große n nach (4.6.7) „ Sn D ≈ np + D p np(1 − p) · Z, “ (4.6.8) wobei „≈“ dafür steht, dass sich die Verteilungen der Zufallsvariablen einander in einem gewissen Sinn annähern. In diesem Sinne wäre für große n „Bin(n, p) D ≈ N (np, np(1 − p)).“ Entsprechende „Approximationen“ werden häufig in Anwendungen benutzt, sollten aber hinterfragt werden, da beim Übergang von (4.6.7) zu (4.6.8) mit dem divergierende Fak√ tor n multipliziert wird. Die mathematische Präzisierung entsprechender heuristischer Argumentationen erfolgt üblicherweise über den Satz von de Moivre/Laplace. Universität Bonn Wintersemester 2009/2010 150 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE Beispiel (Faire Münzwürfe). Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit P [Xi = 0] = P [Xi = 1] = 1 2 und sei Sn = X1 + . . . + Xn (z.B. Häufigkeit von „Zahl“ bei n fairen Münzwürp fen). In diesem Fall ist also p = 21 und σ = p(1 − p) = 12 . (1). 100 faire Münzwürfe: P [S100 > 60] Da S100 −E[S100 ] σ(S100 ) P [S100 − E[S100 ] > 10] = = S100 − E[S100 ] 10 P > √ σ(S100 ) σ 100 nach (4.6.7) näherungsweise N (0, 1)-verteilt ist, und ≈ P [S100 > 60] P [Z > 2] = 1 − Φ(2) ≈ √10 σ 100 0.0227 = 2, folgt = 2.27%. (2). 16 faire Münzwürfe: Mit 0.5 √ σ 16 = P [S16 = 8] = P [7.5 ≤ S16 ≤ 8.5] = P [|S16 − E[S16 ]| ≤ 0.5] S16 − E[S16 ] 0.5 ≤ √ = P σ(S16 ) σ 16 1 4 folgt: P [S16 = 8] ≈ P [|Z| ≤ 1.4] = 0.1974... Der exakte Wert beträgt P [S16 = 8] = 0.1964.... Bei geschickter Anwendung ist die Normalapproximation oft schon für eine kleine Anzahl von Summanden relativ genau! Approximative Konfidenzintervalle Angenommen, wir wollen den Anteil p der Wähler einer Partei durch Befragung von n Wählern schätzen. Seien X1 , . . . , Xn unter Pp unabhängige und Bernoulli(p)-verteilte Zufallsvariablen, wobei Xi = 1 dafür steht, dass der i-te Wähler für die Partei A stimmen wird. Ein nahe liegender Schätzwert für p ist Xn := Sn . n Wie viele Stichproben braucht man, damit der tatsächliche Stimmenanteil mit 95% Wahrscheinlichkeit um höchstens ε = 1% von Schätzwert abweicht? Definition. Sei α ∈ (0, 1). Das zufällige Intervall [Xn − ε, Xn + ε] heißt Konfidenzintervall zum Konfidenzniveau 1 − α (bzw. zum Irrtumsniveau α) für den unbekannten Parameter p, falls Pp [p 6∈ [Xn − ε, Xn + ε]] ≤ α für alle möglichen Parameterwerte p ∈ [0, 1] gilt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 151 Im Prinzip lassen sich Konfidenzintervalle aus den Quantilen der zugrundeliegenden Verteilung gewinnen. In der Situation von oben gilt beispielsweise: p ∈ [Xn − ε, Xn + ε] ⇐⇒ |Xn − p| ≤ ε ⇐⇒ Xn ∈ [p − ε, p + ε] ⇐⇒ Sn ∈ [n(p − ε), n(p + ε)] Diese Bedingung ist für p ∈ [0, 1] mit Wahrscheinlichkeit ≥ 1 − α erfüllt, falls z.B. n(p − ε) oberhalb des α2 -Quantils und n(p + ε) unterhalb des (1 − α2 )-Quantils der Binomialverteilung Bin(n, p) liegt. Praktikablere Methoden, um in unserem Modell Konfidenzintervalle zu bestimmen, sind zum Beispiel: Abschätzung mithilfe der Čebyšev-Ungleichung: Sn p(1 − p) Sn 1 = ·V ar Pp − p ≥ ε ≤ 2 n ε n nε2 Dies ist erfüllt für n ≥ 1 , 4ε2 α 1 2ε2 1 4nε2 ! ≤ α ∀ p ∈ [0, 1] also im Beispiel für n ≥ 50.000. Abschätzung über die exponentielle Ungleichung: Sn 2 ≤ 2 · e−2ε n Pp − p ≥ ε n ist erfüllt für n ≥ ≤ ≤ α ∀ p ∈ [0, 1], log( α2 ), also im Beispiel für n ≥ 18445. Die exponentielle Abschätzung ist genauer - sie zeigt, dass bereits weniger als 20.000 Stichproben genügen. Können wir mit noch weniger Stichproben auskommen ? Dazu berechnen wir die Wahrscheinlichkeit, dass der Parameter im Intervall liegt, näherungsweise mithilfe des zentralen Grenzwertsatzes: Approximative Berechnung mithilfe der Normalapproximation: " # S − np Sn nε n = Pp p Pp − p ≤ ε ≤ p np(1 − p) n np(1 − p) ! √ √ nε nε , p ≈ N (0, 1) − p p(1 − p) p(1 − p) ! ! √ 1 nε = 2 Φ p − 2 p(1 − p) p(1−p)≤ 41 ≥ Universität Bonn √ 2Φ(2 nε) − 1 ≥ 1−α ∀ p ∈ [0, 1], Wintersemester 2009/2010 152 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE falls n Im Beispiel gilt ≥ 2 1 α −1 ·Φ 1− . 2ε 2 α Φ−1 1 − ≈ 1.96 2 und die Bedingung ist für n ≥ 9604 erfüllt. Also sollten bereits ca. 10.000 Stichproben ausrei- chen! Exakte (also ohne Verwendung einer Näherung hergeleitete) Konfidenzintervalle sind in vielen Fällen zu konservativ. In Anwendungen werden daher meistens approximative Konfidenzintervalle angegeben, die mithilfe einer Normalapproximation hergeleitet wurden. Dabei ist aber folgendes zu beachten: Warnung: Mithilfe der Normalapproximation hergeleitete approximative Konfidenzintervalle erfüllen die Niveaubedingung im Allgemeinen nicht (bzw. nur näherungsweise). Da die Qualität der Normalapproximation für p → 0 bzw. p → 1 degeneriert, ist die Niveaubedingung im All- gemeinen selbst für n → ∞ nicht erfüllt. Beispielsweise beträgt das Niveau von approximativen 99% Konfidenzintervallen asymptotisch tatsächlich nur 96.8%! Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle Kapitel 5 Unabhängigkeit und Produktmodelle 5.1 Unabhängigkeit in allgemeinen Modellen Unabhängigkeit von Ereignissen In Abschnitt 2.3 haben wir einen Unabhängigkeitsbegriff für Ereignisse eingeführt: Eine Kollektion Ai , i ∈ I, von Ereignissen aus derselben σ-Algebra A heißt unabhängig bzgl. einer Wahrscheinlichkeitsverteilung P , falls P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] = n Y P [Aik ] (5.1.1) k=1 für alle n ∈ N und alle paarweise verschiedenen i1 , . . . , in ∈ I gilt. Beispiel. Ein Ereignis A ist genau dann unabhängig von sich selbst, wenn P [A] = P [A ∩ A] = P [A]2 gilt, also wenn die Wahrscheinlichkeit von A gleich 0 oder 1 ist. Solche Ereignisse nennt man auch deterministisch. Wir wollen den obigen Unabhängigkeitsbegriff nun auf Ereignissysteme erweitern. Definition. Eine Kollektion Ai (i ∈ I) von Mengensystemen Ai ⊆ A heißt unabhängig (bzgl. P ), falls jede Kollektion Ai (i ∈ I) von Ereignissen Ai ∈ Ai unabhängig ist, d.h. P [Ai1 ∩ . . . ∩ Ain ] = n Y P [Aik ] k=1 für alle n ∈ N, i1 , . . . , in ∈ I paarweise verschieden, und Aik ∈ Aik (1 ≤ k ≤ n). Sind zum Beispiel A und B unabhängige Ereignisse, dann sind σ(A) = {∅, A, AC , Ω} und σ(B) = {∅, B, B C , Ω} unabhängige Mengensysteme. Allgemeiner: 153 154 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Satz 5.1. Seien Ai (i ∈ I) unabhängige Mengensysteme. Jedes Ai sei durchschnittsstabil. Dann gilt: (1). Die σ-Algebren σ(Ai ) (i ∈ I) sind unabhängige Mengensysteme. (2). Ist I = S Ik eine disjunkte Zerlegung von I, dann sind auch die σ-Algebren σ( S i∈Ik k∈K (k ∈ K) unabhängige Mengensysteme. Ai ) Beispiel. Sind A1 , . . . , An unabhängige Ereignisse, dann sind die Mengensysteme A1 {A1 }, = , An ... = {An } unabhängig und durchschnittsstabil, also sind auch die σ-Algebren σ(Ai ) = {∅, Ai , AC i , Ω} (i = 1, . . . , n) unabhängige Mengensysteme, d.h es gilt P [B1 ∩ . . . ∩ Bn ] n Y = P [Bi ] i=1 ∀Bi ∈ {∅, Ai , AC i , Ω}. Dies kann man auch direkt beweisen, siehe Lemma 2.5 oben. Ein Beispiel zum zweiten Teil der Aussage von Satz 5.1 werden wir im Anschluss an den Beweis des Satzes betrachten. Beweis. (1). Seien i1 , . . . , in ∈ I (n ∈ N) paarweise verschieden. Wir müssen zeigen, dass P [Bi1 ∩ . . . ∩ Bin ] = P [Bi1 ] · . . . · P [Bin ] (5.1.2) für alle Bi1 ∈ σ(Ai1 ), . . . , Bin ∈ σ(Ain ) gilt. Dazu verfahren wir schrittweise: (a) Die Aussage (5.1.2) gilt nach Voraussetzung für Bi1 ∈ Ai1 , . . . , Bin ∈ Ain . (b) Für Bi2 ∈ Ai2 , . . . , Bin ∈ Ain betrachten wir das Mengensystem D aller Bi1 ∈ A, für die (5.1.2) gilt. D ist ein Dynkinsystem, das Ai1 nach (a) enthält. Da Ai1 durchschnittsstabil ist, folgt D ⊇ D(Ai1 ) = σ(Ai1 ). Also gilt (5.1.2) für alle Bi1 ∈ σ(Ai1 ). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 155 (c) Für Bi1 ∈ σ(Ai1 ) und Bi3 ∈ σ(Ai3 ), . . . , Bin ∈ σ(Ain ) betrachten wir nun das Mengensystem aller Bi2 ∈ A, für die (5.1.2) gilt. Wiederum ist D ein Dynkinsystem, das Ai2 nach (b) enthält. Wie im letzten Schritt folgt daher D ⊇ D(Ai2 ) = σ(Ai2 ), d.h. (5.1.2) ist für alle Bi2 ∈ σ(Ai2 ) erfüllt. Anschließend verfahren wir auf entsprechende Weise weiter. Nach n-facher Anwendung eines analogen Arguments folgt die Behauptung. (2). Für k ∈ K gilt: σ( Ck := S i∈Ik Ai ) = σ(Ck ) mit {Bi1 ∩ . . . ∩ Bin |n ∈ N, i1 , . . . , in ∈ Ik paarw. verschieden , Bij ∈ Aij }. Die Mengensysteme Ck , k ∈ K, sind durchschnittsstabil und unabhängig, da jede Kollek- tion von Ereignissen Bi ∈ Ai , i ∈ I, nach Voraussetzung unabhängig ist. Also sind nach Teil (1) der Aussage auch die σ-Algebren σ(Ck ), k ∈ K, unabhängig. Beispiel (Affe tippt Shakespeare). Wir betrachten unabhängige 0-1-Experimente mit Erfolgswahrscheinlichkeit p. Sei Xi (ω) ∈ {0, 1} der Ausgang des i-ten Experiments. Für ein binäres Wort (a1 , . . . , an ) ∈ {0, 1}n , n ∈ N, gilt: P [X1 = a1 , . . . , Xn = an ] = P " n \ # {Xi = ai } i=1 unabh. pk · (1 − p)n−k , = wobei k = a1 + . . . + an die Anzahl der Einsen in dem Wort ist. Wir zeigen nun: Behauptung: P [Wort kommt unendlich oft in der Folge X1 , X2 , . . . vor] = 1, falls p 6∈ {0, 1}. Zum Beweis bemerken wir, dass die Ereignisse Em = {Xmn+1 = a1 , Xmn+2 = a2 , . . . , Xmn+n = an }, m ∈ N, „Text steht im m-ten Block“ unabhängig sind. Nach Satz 5.1 sind nämlich die σ-Algebren σ({{Xmn+1 = 1}, {Xmn+2 = 1}, . . . , {Xmn+n = 1}}), m ∈ N, unabhängig, also auch die darin enthaltenen Ereignisse Em . Für p 6= 0 gilt: P [Em ] = pk · (1 − p)n−k > 0, Universität Bonn Wintersemester 2009/2010 156 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE also ∞ X P [Em ] ∞. = m=1 Damit folgt nach Borel-Cantelli: 1 = ≤ P [Em unendlich oft] P [Wort kommt unendlich oft vor]. Unabhängigkeit von Zufallsvariablen Wir betrachten nun Zufallsvariablen mit Werten in einem messbaren Raum (S, S). Definition. Seien X, Xi : Ω → S, i ∈ I, Abbildungen. (1). Das Mengensystem σ(X) := {X −1 (B)|B ∈ S} ⊆ P(Ω) heißt die von X erzeugte σ-Algebra auf Ω. (2). Allgemeiner heißt σ(Xi |i ∈ I) := σ [ σ(Xi ) i∈I ! = σ({Xi−1 (B)|B ∈ S, i ∈ I}) die von den Abbildungen Xi , i ∈ I, erzeugte σ-Algebra. Bemerkung. (1). Man prüft leicht nach, dass σ(X) tatsächlich eine σ-Algebra ist. (2). Eine Abbildung X : Ω → S ist messbar bzgl. A/S genau dann, wenn σ(X) ⊆ A gilt. Somit ist σ(X) die kleinste σ-Algebra auf Ω, bzgl. der X messbar ist. (3). Entsprechend ist σ(Xi , i ∈ I) die kleinste σ-Algebra auf Ω, bzgl. der alle Abbildungen Xi messbar sind. Beispiel (Produkt-σ-Algebra). Sei Ω = {0, 1}N = {ω = (x1 , x2 , . . .)|xi ∈ {0, 1}}, oder ein allgemeiner Produktraum, und sei Xi (ω) = xi die Projektion auf die i-te Komponente. Dann ist die Produkt-σ-Algebra A auf Ω gerade die von den Abbildungen Xi erzeugte σ-Algebra: A = σ({X1 = a1 , . . . , Xn = an }|n ∈ N, a1 , . . . , an ∈ {0, 1}) = σ({Xi = 1}|i ∈ N) = σ(X1 , X2 , . . .). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 157 Messbare Abbildungen auf (Ω, A) sind z.B. Sn (ω) L(ω) = = X1 (ω) + . . . + Xn (ω), 1 lim sup Sn (ω), n→∞ n L(ω) = lim inf n→∞ 1 Sn (ω), n etc. Wir können nun einen Unabhängigkeitsbegriff für allgemeine Zufallsvariablen einführen, der kompatibel mit dem oben definierten Unabhängigkeitsbegriff für Mengensysteme ist. Definition. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. (1). Eine endliche Kollektion X1 , . . . , Xn : Ω → S von Zufallsvariablen auf (Ω, A, P ) heißt unabhängig, falls P [X1 ∈ B1 , . . . , Xn ∈ Bn ] n Y = i=1 P [Xi ∈ Bi ] ∀Bi ∈ S (1 ≤ i ≤ n). (5.1.3) (2). Eine beliebige Kollektion Xi , i ∈ I, von Zufallsvariablen auf (Ω, A, P ) heißt unabhängig, falls jede endliche Teilkollektion Xi1 , . . . , Xin (i1 , . . . , in ∈ I paarweise verschieden) unabhängig ist. Bemerkung. (1). Die Definition ist konsistent: Jede endliche Teilkollektion einer unabhängigen endlichen Kollektion von Zufallsvariablen ist wieder unabhängig im Sinne von (5.1.3). (2). Die Zufallsvariablen Xi , i ∈ I, sind genau dann unabhängig, wenn die σ-Algebren σ(Xi ) {{Xi ∈ B}|B ∈ B(S)}, = i ∈ I, unabhängige Mengensysteme sind. e S) e ein weiterer messbarer Raum. Eine sehr wichtige Konsequenz von Bemerkung (2) ist: Sei (S, Satz 5.2 (Funktionen von unabhängigen Zufallsvariablen sind unabhängig). Sind Xi : Ω → S, i ∈ I, unabhängige Zufallsvariablen auf (Ω, A, P ), und sind hi : S → Se messbare Abbildungen, dann sind auch die Zufallsvariablen Yi := hi (Xi ), i ∈ I, unabhängig bzgl. P . Beweis. σ(Yi ) = { Yi−1 (B) | | {z } Xi−1 (h−1 i (B)) e B ∈ S}. Da die σ-Algebren σ(Xi ), i ∈ I, unabhängig sind, sind auch σ(Yi ), i ∈ I, unabhängige Mengensysteme. Universität Bonn Wintersemester 2009/2010 158 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Aufgrund von Satz 5.1 kann man allgemeiner eine Kollektion Xi , i ∈ I, von unabhängigen Ṡ Zufallsvariablen in disjunkte Gruppen Xi , i ∈ Ik , I = Ik , einteilen, und messbare Funktionen k Yk = hk (Xi |i ∈ Ik ), k∈K von den Zufallsvariablen der verschiedenen Gruppen betrachten. Auch die Yk sind dann wieder unabhängige Zufallsvariablen. Für unabhängige reellwertige Zufallsvariablen Xi (i ∈ I) gilt insbesondere P [Xi−1 ≤ c1 , . . . , Xin ≤ cn ] für alle n ∈ N, i1 , . . . , in ∈ I = n Y k=1 paarweise verschieden, und P [Xik ≤ ck ] (5.1.4) ci ∈ R. Tatsächlich werden wir im nächsten Abschnitt zeigen, dass Bedingung (5.1.4) äquivalent zur Unabhängigkeit der Xi ist. Als erste Anwendung betrachten wir Extrema von unabhängigen exponentialverteilten Zufallsvariablen. Beispiel (Maxima von exponentialverteilten Zufallsvariablen). Seien T1 , T2 , . . . unabhängige Exp(1)-verteilte Zufallsvariablen. Wir wollen uns überlegen, wie sich die Extremwerte (Rekorde) Mn = max{T1 , . . . , Tn } asymptotisch für n → ∞ verhalten. Dazu gehen wir in mehreren Schritten vor: (1). Wir zeigen zunächst mithilfe des Borel-Cantelli-Lemmas: lim sup n→∞ Tn =1 log n P -fast sicher. (5.1.5) Zum Beweis berechnen wir für c ∈ R: Tn P ≥ c = P [Tn ≥ c · log n] log n = e−c log n = n−c . Für c > 1 gilt ∞ P n=1 n−c < ∞. Nach dem 1. Borel-Cantelli-Lemma folgt daher Tn >c P lim sup n→∞ log n ≤ Tn P ≥c log n unendlich oft Für c ց 1 erhalten wir dann wegen der monotonen Stetigkeit von P : Tn Tn >1 = lim P lim sup >c = P lim sup cց1 n→∞ log n n→∞ log n Einführung in die Wahrscheinlichkeitstheorie = 0. 0. (5.1.6) Prof. Andreas Eberle 5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN Für c < 1 gilt ∞ P n=1 159 n−c = ∞. Da die Ereignisse {Tn ≥ c log n}, n ∈ N, unabhängig sind, folgt nach dem 2. Borel-Cantelli Lemma: Tn Tn P lim sup ≥c ≥ P ≥c log n n→∞ log n = = 1 unendlich oft Für c ր 1 erhalten wir mithilfe der monotonen Stetigkeit: Tn Tn P lim sup ≥1 = lim P lim sup ≥c cր1 n→∞ log n n→∞ log n 1. (5.1.7) Aus (5.1.6) und (5.1.7) folgt die Behauptung (5.1.5). (2). Als nächstes folgern wir: Mn ∼ log n, d.h. lim n→∞ Mn =1 log n P -f.s. (5.1.8) Zum Beweis zeigen wir: Mn ≤ 1 P -f.s., und n→∞ log n Mn ≥ 1 P -f.s. (b) lim inf n→∞ log n (a) lim sup Aussage (a) folgt aus (1), denn für c ∈ R gilt: Mn > c n→∞ log n ⇒ max{T1 , . . . , Tn } = Mn lim sup ⇒ Tk(n) ⇒ Tk > c · log n c · log k Tk ⇒ lim sup ≥c log k > > c · log n unendlich oft für k(n) ≤ n für ∞ viele n unendlich oft Nach (1) hat das letztere Ereignis für c > 1 Wahrscheinlichkeit 0, also gilt wegen der monotonen Stetigkeit von P : Mn >1 P lim sup n→∞ log n = Mn lim P lim sup >c cց1 n→∞ log n = 0. Zum Beweis von (b) genügt es wegen der monotonen Stetigkeit zu zeigen, dass für c < 1 Mn Mn P > c schließlich = P ≤ c nur endlich oft = 1 log n log n gilt. Nach Borel-Cantelli I ist dies der Fall, wenn X Mn P ≤c log n n∈N Universität Bonn < ∞ (5.1.9) Wintersemester 2009/2010 160 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE gilt. Für c ∈ R gilt aber wegen der Unabhängigkeit der Ti Mn ≤ c = P [Ti ≤ c · log n ∀ 1 ≤ i ≤ n] P log n = P [T1 ≤ c · log n]n = (1 − e−c log n )n = (1 − n−c )n ≤ e−n·n −c = e−n 1−c , und diese Folge ist für c < 1 summierbar. Also gilt (5.1.9) für alle c < 1, und damit (b). (3). Abschließend untersuchen wir die Fluktuationen der Extremwerte Mn um log n noch genauer. Wir zeigen, dass die Zufallsvariable Mn − log n in Verteilung konvergiert: n→∞ P [Mn − log n ≤ c] −→ e−e −c für alle c ∈ R. (5.1.10) Beweis. Wegen P [Mn ≤ c] = i.i.d. = = P [Ti ≤ c P [T1 ≤ c]n ∀i = 1, . . . , n] (1 − e−c )n für alle c ∈ R folgt P [Mn − log n ≤ c] = P [Mn ≤ c + log n] = (1 − 1 −c n ·e ) n n→∞ −→ e−e −c Aussage (5.1.10) besagt, dass Mn − log n in Verteilung gegen eine Gumbel-verteilte Zu- fallsvariable X, d.h. eine Zufallsvariable mit Verteilungsfunktion FX (c) = e−e −c konver- giert. Für große n gilt also näherungsweise Mn D ≈ log n + X, X ∼ Gumbel, wobei log n die Asymptotik und X die Fluktuationen beschreibt. Konfidenzintervalle für Quantile Sei (x1 , . . . , xn ) eine n-elementige Stichprobe von einer unbekannten Wahrscheinlichkeitsverteilung µ auf (R, B(R)). Wir nehmen an, dass x1 , . . . , xn Realisierungen von unabhängigen Zufallsvariablen mit stetiger Verteilung sind: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 161 Annahme: X1 , . . . , Xn unabhängig unter Pµ mit stetiger Verteilung µ. Wir wollen nun die Quantile (z.B. den Median) der zugrundeliegenden Verteilung auf der Basis der Stichprobe schätzen. Eine Funktion T (X1 , . . . , Xn ), T : Rn → R messbar, nennt man in diesem Zusammenhang auch ein Statistik der Stichprobe (X1 , . . . , Xn ). Eine Statistik, deren Wert als Schätzwert für eine Kenngröße q(µ) der unbekannten Verteilung verwendet wird, nennt man auch einen (Punkt-) Schätzer für q. Nahe liegende Schätzer für die Quantile von µ sind die entsprechenden Stichprobenquantile. Unser Ziel ist es nun, Konfidenzintervalle für die Quantile anzugeben, d.h. von den Werten X1 , . . . , Xn abhängende Intervalle, in denen die Quantile unabhängig von der tatsächlichen Verteilung mit hoher Wahrscheinlichkeit enthalten sind. Seien dazu X(1) ≤ X(2) ≤ ... ≤ X(n) die der Größe nach geordneten Werte X1 , . . . , Xn – diese nennt man auch Ordnungsstatistiken der Stichprobe. Die Verteilung der Ordnungsstatistiken können wir explizit berechnen: Satz 5.3 (Verteilung der Ordnungsstatistiken). Ist µ eine absolutstetige Wahrscheinlichkeitsverteilung mit Verteilungsfunktion F , dann hat X(k) die Verteilungsfunktion F(k) (c) = Bin(n, F (c))[{k, k + 1, . . . , n}] n X n F (c)j · (1 − F (c))n−j . = j j=k (5.1.11) Beweis. Da die Ereignisse {Xi ≤ c}, 1 ≤ i ≤ n, unabhängig sind mit Wahrscheinlichkeit F (c), gilt F(k) (c) = Pµ [X(k) ≤ c] = Pµ [Xi ≤ c für mindestens k verschiedene i ∈ {1, . . . , n}] = Bin(n, F (c))[{k, k + 1, . . . , n}] n X n F (c)j · (1 − F (c))n−j . = j j=k Nach Satz 5.3 ist die Wahrscheinlichkeit, dass der Wert von X(k) unterhalb eines u-Quantils der zugrundeliegenden Verteilung µ liegt, für alle stetigen Verteilungen gleich! Damit folgt unmittelbar: Korollar 5.4 (Ordnungsintervalle). Sei u ∈ (0, 1) und 0 ≤ k < l ≤ n. Dann ist das zufällige Intervall (X(k) , X(l) ) ein Konfidenzintervall für das u-Quantil der zugrundeliegenden Verteilung µ zum Konfidenzniveau β Universität Bonn := Bin(n, k)[{k, k + 1, . . . , l − 1}], Wintersemester 2009/2010 162 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE d.h. für jede absolutstetige Wahrscheinlichkeitsverteilung µ auf R, und für jedes u-Quantil qu (µ) gilt: Pµ [X(k) < qu (µ < X(l) )] ≥ β. Beweis. Da die Verteilungen stetig sind, gilt Fµ (qu (µ)) = u für jedes u-Quantil, und damit nach Satz 5.3: Pµ [X(k) < qu (µ) < X(l)] = Bin(n, u)[{k, k + 1, . . . , n}] − Bin(n, u)[{l, l + 1, . . . , n}] = Bin(n, u)[{k, k + 1, . . . , l − 1}]. Für große n kann man die Quantile der Binomialverteilung näherungsweise mithilfe der Normalapproximation berechnen, und erhält daraus entsprechende Konfidenzintervalle für die Quantile von stetigen Verteilungen. Bemerkenswert ist, dass diese Konfidenzintervalle nicht nur für Verteilungen aus einer bestimmten Familie (z.B. der Familie der Normalverteilungen) gelten, sondern für alle stetigen Wahrscheinlichkeitsverteilungen auf R (nichtparametrisches Modell). 5.2 Gemeinsame Verteilungen und endliche Produktmodelle Um Aussagen über den Zusammenhang mehrerer Zufallsvariablen X1 , . . . , Xn zu treffen, benötigen wir Kenntnisse über deren gemeinsame Verteilung, d.h. über die Verteilung des Zufallsvektors X = (X1 , . . . , Xn ). Diese ist eine Wahrscheinlichkeitsverteilung auf dem Produkt der Wertebereiche der einzelnen Zufallsvariablen. Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen Seien (Si , Si ), 1 ≤ i ≤ n, messbare Räume. Die Produkt-σ-Algebra S1 ⊗. . .⊗Sn auf S1 ×. . .×Sn wird von den endlichen Produkten von Mengen aus den σ-Algebren Si erzeugt: S1 ⊗ . . . ⊗ Sn = σ({B1 × . . . × Bn |Bi ∈ Si ∀ 1 ≤ i ≤ n}). Bezeichnen wir mit πi : S1 × . . . × Sn → Si , πi (x1 , . . . , xn ) := xi , die kanonische Projektion auf die i-te Komponente, so gilt S1 ⊗ . . . ⊗ Sn Einführung in die Wahrscheinlichkeitstheorie = σ(π1 , . . . , πn ). Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 163 Beispiel. Für die Borelsche σ-Algebra auf Rn gilt: B(Rn ) = B(R) ⊗ . . . ⊗ B(R) {z } | = n O i=1 n mal B(R), denn B(Rn ) wird zum Beispiel von den offenen Quadern, also Produkten von offenen Intervallen, erzeugt. Ein anderes Erzeugendensystem von B(Rn ) bilden die Produktmengen (−∞, c1 ] × (−∞, c2 ] × . . . × (−∞, cn ], c1 , . . . , cn ∈ R. (5.2.1) Ist µ eine Wahrscheinlichkeitsverteilung auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), dann heißen die Wahrscheinlichkeitsverteilungen µπi := µ ◦ πi−1 , 1 ≤ i ≤ n, auf Si (eindimensionale) Randverteilungen (marginals) von µ. Wir werden in Kapitel 9 allgemeine Wahrscheinlichkeitsverteilungen auf Produkträumen konstruieren und systematisch untersuchen. Im Moment beschränken wir uns meist auf eine spezielle Klasse von solchen Verteilungen: die endlichen Produktmodelle. Definition (Endliches Produktmaß). Seien (Si , Si , µi ) Wahrscheinlichkeitsräume, 1 ≤ i ≤ n. Eine Wahrscheinlichkeitsverteilung µ auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ) heißt Produkt der µi , falls µ[B1 × . . . × Bn ] = gilt. n Y i=1 µi [Bi ] ∀ Bi ∈ Si , 1 ≤ i ≤ n, (5.2.2) Bemerkung. Das Produktmaß µ ist durch (5.2.2) eindeutig festgelegt, denn die Produktmengen bilden einen durchschnittsstabilen Erzeuger der σ-Algebra S1 ⊗ . . . ⊗ Sn . Die Existenz von Produktmaßen folgt aus dem Satz von Fubini, den wir in Abschnitt 9.1 beweisen. Für Wahrscheinlichkeitsverteilungen auf R zeigen wir die Existenz von Produktmaßen im nächsten Abschnitt. Das nach der Bemerkung eindeutige Produktmaß der Wahrscheinlichkeitsverteilungen µ1 , . . . , µn bezeichnen wir mit µ1 ⊗ . . . ⊗ µn . Die eindimensionalen Randverteilungen eines Produktmaßes sind gerade die Faktoren µi . Lemma 5.5. Unter µ = µ1 ⊗ . . . ⊗ µn sind die Projektionen πi : S1 × . . . × Sn −→ Si , πi (x1 , . . . , xn ) = xi , 1 ≤ i ≤ n, unabhängig mit Verteilung µi . Universität Bonn Wintersemester 2009/2010 164 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Beweis. Für Bi ∈ Si , 1 ≤ i ≤ n, gilt: µ[πi ∈ Bi ] = µ[S1 × . . . × Si−1 × Bi × Si+1 × . . . × Sn ] Y = µi [Bi ] · µj [Sj ] = µi [Bi ], | {z } j6=i und =1 µ[π1 ∈ B1 , . . . , πn ∈ Bn ] = µ[B1 × . . . × Bn ] = n Y µi [Bi ] n Y = i=1 i=1 µi [πi ∈ Bi ]. Sind die Mengen S1 , . . . , Sn abzählbar, dann gilt µ = µ1 ⊗ . . . ⊗ µn genau dann, wenn die Massenfunktion von µ das Produkt der einzelnen Massenfunktionen ist, d.h. µ(x1 , . . . , xn ) = n Y für alle xi ∈ Si , 1 ≤ i ≤ n. µi (xi ) i=1 Im Fall S1 = . . . = Sn = R mit Borelscher σ-Algebra bilden die Mengen aus (5.2.1) einen durchschnittsstabilen Erzeuger der Produkt-σ-Algebra B(Rn ). Also ist µ = µ1 ⊗ . . . ⊗ µn genau dann, wenn µ[(−∞, c1 ] × . . . × (−∞, cn ]] n Y = µi [(−∞, ci ]] i=1 für alle c1 , . . . , cn ∈ R gilt. Die linke Seite ist die Verteilungsfunktion Fµ (c1 , . . . , cn ) der multivariaten Verteilung µ, die rechte Seite das Produkt der Verteilungsfunktionen der µi . Beispiel (Gleichverteilung auf n-dimensionalem Quader). Ist µi = U(ai ,bi ) die Gleichvertei- lung auf einem endlichen Intervall (ai , bi ), −∞ < ai < bi < ∞, dann ist µ = µ1 ⊗ . . . ⊗ µn die n Q Gleichverteilung auf dem Quader S = (ai , bi ), denn für c1 , . . . , cn ∈ S gilt: i=1 µ " n Y i=1 (−∞, ci ] # = n Y i=1 = µ − i[(−∞, ci ]] n Y c i − ai b i − ai #, " n Y = λn (ai , ci ] λn [S]. i=1 i=1 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 165 Absolutstetigkeit von multivariaten Verteilungen Absolutstetigkeit von endlichen Produktmodellen Der Satz von Fubini, den wir in Abschnitt 9.1 in größerer Allgemeinheit beweisen werden, besagt unter anderem, dass das n-dimensionale Lebesgueintegral einer beliebigen Borel-messbaren nicht-negativen Funktion f : Rn → R existiert, und als Hintereinanderausführung von eindimensionalen Integralen nach den Koordinaten x1 , . . . , xn berechnet werden kann: Z Z Z f (x) dx = · · · f (x1 , . . . , xn ) dxn · · · dx1 . Rn Hierbei können die eindimensionalen Integrationen in beliebiger Reihenfolge ausgeführt werden. Für den Beweis verweisen wir auf die Analysisvorlesung bzw. auf Abschnitt 9.1 unten. In Analogie zum eindimensionalen Fall heißt eine Wahrscheinlichkeitsverteilung µ auf (Rn , B(Rn )) stetig oder absolutstetig, falls eine B(Rn )-messbare Dichtefunktion f : Rn → [0, ∞) existiert mit Z Z µ[B] = f (x) dx := IB (x)f (x) dx B für jeden Quader, bzw. allgemeiner für jede Borelmenge B ⊆ Rn . Endliche Produkte von eindimensionalen absolutstetigen Verteilungen sind wieder absolutstetig, und die Dichte ist das Produkt der einzelnen Dichten: Lemma 5.6. Sind µ1 , . . . , µn absolutstetige Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit Dichtefunktionen f1 , . . . , fn , dann ist das Produkt µ = µ1 ⊗ . . . ⊗ µn eine absolutstetige Wahr- scheinlichkeitsverteilung auf (Rn , B(Rn )) mit Dichtefunktion f (x1 , . . . , xn ) = n Y fi (xi ). i=1 Beweis. Für jede Produktmenge B = B1 × . . . × Bn , Bi ∈ B(R), gilt nach dem Satz von Fubini: Z Z n n Z n Y Y Y µ[B] = µi [Bi ] = fi (xi )dxi = · · · IB (x1 , . . . , xn ) fi (xi )dx1 · · · dxn . i=1 i=1 B i=1 i Die Dichtefunktion der Gleichverteilung auf dem Quader S = (a1 , b1 ) × . . . × (an , bn ) ist beispielsweise f (x1 , . . . , xn ) = n Y i=1 Universität Bonn 1 1 IS (x). I(ai ,bi ) (xi ) = b i − ai Volumen[S] Wintersemester 2009/2010 166 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Ein anderes Produktmaß von fundamentaler Bedeutung für die Wahrscheinlichkeitstheorie ist die mehrdimensionale Standardnormalverteilung: Beispiel (Standardnormalverteilung im Rn ). Die Wahrscheinlichkeitsverteilung µ n O = N (0, 1) i=1 auf (Rn , B(Rn )) heißt n-dimensionale Standardnormalverteilung. Die mehrdimensionale Standardnormalverteilung ist absolutstetig mit Dichte f (x1 , . . . , xn ) = 2 n Y 1 x 2 √ · exp − i = (2π)−n/2 e−kxk /2 , 2 2π i=1 x ∈ Rn . z y x Abbildung 5.1: Dichte der Standardnormalverteilung in R2 . Gemeinsame Verteilungen Sind Xi : Ω → Si , 1 ≤ i ≤ n, beliebige Zufallsvariablen mit Werten in messbaren Räumen (Si , Si ), welche auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind, dann ist (X1 , . . . , Xn ) : Ω Einführung in die Wahrscheinlichkeitstheorie −→ S1 × . . . × Sn Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 167 eine Zufallsvariable mit Werten im Produktraum (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ), denn für Bi ∈ Si , 1 ≤ i ≤ n, gilt: {(X1 , . . . , Xn ) ∈ B1 × . . . × Bn } = n \ i=1 {Xi ∈ B} ∈ A. Wie zuvor im diskreten Fall (s. Abschnitt 2.4) definieren wir: Definition. Die Verteilung µX1 ,...,Xn des Zufallsvektors (X1 , . . . , Xn ) auf (S1 × . . . × Sn , S1 ⊗ . . . ⊗ Sn ) heißt gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn . Der folgende Satz gilt analog zum diskreten Fall: Satz 5.7. Die folgenden Aussagen sind äquivalent: (1). Die Zufallsvariablen X1 , . . . , Xn sind unabhängig. (2). Die gemeinsame Verteilung µX1 ,...,Xn ist ein Produktmaß. (3). µX1 ,...,Xn = µX 1 ⊗ . . . ⊗ µX n . Beweis. „ (1) =⇒ (3) “: folgt direkt aus der Definition der Unabhängigkeit und der gemeinsamen Verteilung: Sind X1 , . . . , Xn unabhängig, dann gilt µX1 ,...,Xn [B1 × . . . × Bn ] = P [(X1 , . . . , Xn ) ∈ B1 × . . . × Bn ] = P [Xi ∈ Bi , ∀1 ≤ i ≤ n] n Y = P [Xi ∈ Bi ] i=1 n Y = µXi [Bi ] i=1 für alle Bi ∈ Si , 1 ≤ i ≤ n. „ (3) =⇒ (2) “: Die Implikation ist offensichtlich, und „ (2) =⇒ (1) “ folgt aus Lemma 5.5: Ist µX1 ,...,Xn ein Produktmaß, dann sind die kanonischen Projektionen π1 , . . . , πn unabhängig unter µX1 , . . . , µXn . Also gilt für Bi ∈ Si : P [X1 ∈ B1 , . . . , Xn ∈ Bn ] = µX1 ,...,Xn [B1 × . . . × Bn ] = µX1 ,...,Xn [π1 ∈ B1 , . . . , πn ∈ Bn ] n Y = µX1 ,...,Xn [πi ∈ Bi ] i=1 = n Y i=1 Universität Bonn P [πi ∈ Bi ] Wintersemester 2009/2010 168 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Wir wenden die Aussage von Satz 5.7 nun speziell auf diskrete und reellwertige Zufallsvariablen an: Diskrete Zufallsvariablen Sind die Wertebereiche S1 , . . . , Sn der Zufallsvariablen X1 , . . . , Xn abzählbar, dann wird die gemeinsame Verteilung vollständig durch die gemeinsame Massenfunktion pX1 ,...,Xn (a1 , . . . , an ) = (a1 , . . . , an ) ∈ S1 × . . . × Sn P [X1 = a1 , . . . , Xn = an ], beschrieben. Die Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn die gemeinsame Massenfunktion das Produkt der einzelnen Massenfunktionen ist, s. Satz 2.7. Als Konsequenz aus Satz 5.7 ergibt sich zudem: Korollar 5.8. Sind Xi : Ω → Si , 1 ≤ i ≤ n, diskrete Zufallsvariablen, und hat die gemeinsame Massenfunktion eine Darstellung pX1 ,...,Xn (a1 , . . . , an ) = c· n Y ∀(a1 , . . . , an ) ∈ S1 × . . . × Sn gi (ai ) i=1 in Produktform mit einer Konstanten c ∈ R, und Funktionen gi : Si → [0, ∞), dann sind X1 , . . . , Xn unabhängig mit Massenfunktion pXi (ai ) g (a ) Pi i gi (a) = a∈Si Beweis. Die Werte gei (ai ) = g (a ) Pi i , gi (a) ai ∈ S i , a∈Si sind die Gewichte eine Wahrscheinlichkeitsverteilung µi auf Si . Nach Voraussetzung gilt µX1 ,...,Xn [{a1 } × . . . × {an }] = pX1 ,...,Xn (a1 , . . . , an ) n Y = e c· µ eXi [{ai }] ∀ (a1 , . . . , an ) ∈ S1 × . . . × S(5.2.3) n i=1 mit einer reellen Konstante e c. Da auf beiden Seiten von (5.2.3) bis auf den Faktor e c die Massen- funktionen von Wahrscheinlichkeitsverteilungen stehen, gilt e c = 1, und damit µX1 ,...,Xn = n O µi . i=1 Also sind die Xi unabhängig mit Verteilung µi , d.h. mit Massenfunktion gei . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 169 Beispiel (Zwei Würfel). Seien X, Y : Ω → {1, 2, 3, 4, 5, 6} gleichverteilte Zufallsvariablen. Für die Gewichte der gemeinsamen Verteilung von X und Y gibt es dann beispielsweise folgende Möglichkeiten: (1). X, Y unabhängig. Y 6 5 4 3 2 1 1 2 3 4 5 6 X Abbildung 5.2: X, Y unabhängig; µX,Y = µX ⊗ µY . Gewichte der Punkte sind jeweils 1 36 (2). X, Y deterministisch korreliert, z.B. Y = (X + 1) mod 6. Y 6 5 4 3 2 1 1 2 3 4 5 6 X Abbildung 5.3: Y = (X + 1) mod 6. Das Gewicht eines einzelnen Punktes ist 61 . (3). Y = (X + Z) mod 6, Z unabhängig von X, Z = 0, ±1 mit Wahrscheinlichkeit 31 . Universität Bonn Wintersemester 2009/2010 170 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Y 6 5 4 3 2 1 1 2 3 4 6 X 5 Abbildung 5.4: Y = (X +Z) mod 6; Z ∼ unif{−1, 0, 1}. Das Gewicht eines einzelnen Punktes ist 1 18 Reelle Zufallsvariablen Die gemeinsame Verteilung reellwertiger Zufallsvariablen X1 , . . . , Xn : Ω → R auf der Produktn N B(R) ist vollständig durch die Werte σ-Algebra B(Rn ) = i=1 FX1 ,...,Xn (c1 , . . . , cn ) := µX1 ,...,Xn [(−∞, c1 ] × . . . × (−∞, cn ]] = P [X1 ≤ c1 , . . . , Xn ≤ cn ], (c1 , . . . , cn ) ∈ Rn , beschrieben. Die Funktion FX1 ,...,Xn : Rn → [0, 1] heißt gemeinsame Verteilungsfunktion. Insbesondere sind X1 , . . . , Xn genau dann unabhängig, wenn FX1 ,...,Xn (c1 , . . . , cn ) = n Y FXi (ci ) i=1 ∀(c1 , . . . , cn ) ∈ Rn gilt. In Analogie zu Korollar 5.8 erhalten wir zudem: Korollar 5.9. Seien X1 , . . . , Xn : Ω → R reellwertige Zufallsvariablen. (1). Sind X1 , . . . , Xn unabhängige Zufallsvariablen mit absolutstetigen Verteilungen mit Dichten fX1 , . . . , fXn , dann ist die gemeinsame Verteilung absolutstetig mit Dichte fX1 ,...,Xn (x1 , . . . , xn ) = n Y i=1 Einführung in die Wahrscheinlichkeitstheorie fXi (xi ) ∀ x ∈ Rn . Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 171 (2). Umgekehrt gilt: Ist die gemeinsame Verteilung absolutstetig, und hat die Dichte eine Darstellung fX1 ,...,Xn (x1 , . . . , xn ) = c· n Y ∀ x ∈ Rn gi (xi ) i=1 in Produktform mit einer Konstante c ∈ R und integrierbaren Funktionen gi : R → [0, ∞), dann sind X1 , . . . , Xn unabhängig, und die Verteilungen sind absolutstetig mit Dichten fXi (xi ) = R gi (xi ) . gi (t) dt R Der Beweis verläuft ähnlich wie der von Korollar 5.8, und wird dem Leser zur Übung überlassen. Beispiel (Zufällige Punkte in der Ebene). Seien X und Y unabhängige Zufallsvariablen, N (0, σ 2 )verteilte auf (Ω, A, P ) mit σ > 0. Dann ist die gemeinsame Verteilung µX,Y absolutstetig mit Dichte fX,Y (x, y) x2 + y 2 1 · exp(− ), 2πσ 2 2σ 2 = (x, y) ∈ R2 . es gilt (X, Y ) 6= (0, 0) P -fast sicher. Wir definieren den Radial- und Polaranteil R : Ω → (0, ∞), Φ : Ω → [0, 2π) durch X d.h. R = √ = R · cos Φ und Y = R · sin Φ, X 2 + Y 2 und Φ = arg(X +iY ) falls (X, Y ) 6= (0, 0). Auf der Nullmenge {(X, Y ) = (0, 0)} definieren wir (R, Φ) in beliebiger Weise, sodass sich messbare Funktionen ergeben. Wir berechnen nun die gemeinsame Verteilung von R und Φ: P [R ≤ r0 , Φ ≤ φ0 ] = P [(X, Y ) ∈ „Kuchenstück“ mit Winkel φ0 und Radius r0 ] Z Z fX,Y (x, y) dx dy = Kuchenstück = Zr0 Zφ0 0 = Zr0 Z 0 Universität Bonn 0 fX,Y (r cos φ, r sin φ) |{z} r dφ dr φ0 0 Jacobideterminante der Koordinatentrans. f r −r2 /(2σ2 ) e dφ dr. 2πσ 2 Wintersemester 2009/2010 172 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Hierbei haben wir im 3. Schritt den Transformationssatz (Substitutionsregel) für mehrdimensionale Integrale verwendet - der Faktor r ist die Jacobideterminante der Koordinatentransformation (s. Analysis). Es folgt, dass die gemeinsame Verteilung µR,Φ absolutstetig ist mit Dichte fR,Φ (r, φ) 1 r 2 2 · 2 · e−r /(2σ ) . 2π σ = Da die Dichte Produktform hat, sind R und Φ unabhängig. Die Randverteilung µΦ ist absolutstetig mit Dichte 1 (0 ≤ φ < 2π), 2π d.h. Φ ist gleichverteilt auf [0, 2π). Somit ist µR absolutstetig mit Dichte fΦ (φ) = φR (r) const. = r 2 2 · e−r /(2σ ) 2 σ = (r > 0). Die Berechnung können wir verwenden, um Stichproben von der Standardnormalverteilung zu simulieren: Beispiel (Simulation von normalverteilten Zufallsvariablen). Die Verteilungsfunktion einer N (0, 1)-verteilten Zufallsvariable X ist 1 FX (x) = √ 2π Z x e−t 2 /2 dt . −∞ Das Integral ist nicht explizit lösbar und die Inverse FX−1 ist dementsprechend nur approximativ berechenbar. Daher ist die Simulation einer Standardnormalverteilung durch Inversion der Verteilungsfunktion relativ aufwendig. Ein einfacheres Simulationsverfahren ergibt sich, wenn wir eine zweidimensionale Standardnormalverteilung betrachten und auf Polarkoordinaten transformieren. Dann gilt für den Radialanteil: Z FR (x) = x e−r 2 /2 0 r dr = 1 − e−x 2 /2 . Das Integral ist also explizit berechenbar, und FR−1 (u) = p −2 log(1 − u) , u ∈ (0, 1). Der Winkelanteil Φ ist unabhängig von R und gleichverteilt auf [0, 2π). Wir können Zufallsvariablen mit der entsprechenden gemeinsamen Verteilung erzeugen, indem wir Φ := 2πU1 , p R := −2 log(1 − U2 ) Einführung in die Wahrscheinlichkeitstheorie p bzw. = −2 log U2 , Prof. Andreas Eberle 5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 173 setzen, wobei U1 und U2 unabhängige, auf (0, 1) gleichverteilte Zufallsvariablen sind. Stichproben von U1 und U2 können durch Pseudozufallszahlen simuliert werden. die Zufallsvariablen X := R cos Φ und Y := R · sin Φ sind dann unabhängig und N (0, 1)-verteilt. Für m ∈ R und σ > 0 sind σX + m und σY + m unabhängige N (m, σ 2 )-verteilte Zufallsvariable. Wir erhalten also den folgenden Algorithmus zur Simulation von Stichproben einer Normalverteilung: Algorithmus 5.10 (Box-Muller-Verfahren). Input: m ∈ R, σ > 0 Output: unabhängige Stichproben x e, ye von N (m, σ 2 ). 1. Erzeuge unabhängige Zufallszahlen u1 , u2 ∼ U(0,1) 2. x := √ −2 log u1 cos(2πu2 ), y := √ −2 log u1 sin(2πu2 ) 3. x e := σx + m, ye = σy + m Beispiel (Ordnungsstatistiken). Für die gesamte Verteilung der Ordnungsstatistiken X(1) ≤ . . . ≤ X(n) , unabhängiger, identisch verteilter, stetiger Zufallsvariablen X1 , . . . , Xn : Ω → R gilt aus Symmetriegründen und wegen P [Xi = Xj ] = 0 für i 6= j: X P [X(1) ≤ c1 , . . . , X(n) ≤ cn ] = P [Xπ(1) ≤ c1 , . . . , Xπ(n) ≤ cn , Xπ(1) < . . . < Xπ(n) ] π∈Sn = n! P [X1 ≤ c1 , . . . , Xn ≤ cn , X1 < X2 < . . . < Xn ] Zc1 Zcn ··· = n! I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) dy1 · · · dyn . −∞ −∞ Also ist die gemeinsame Verteilung von X(1) , . . . , X(n) absolutstetig mit Dichte fX(1) ,...,X(n) (y1 , . . . , yn ) = n! · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ). Durch Aufintegrieren erhält man daraus mithilfe des Satzes von Fubini und einer erneuten Symmetrieüberlegung die Dichten der Verteilungen der einzelnen Ordnungsstatistiken: Z Z P [X(k) ≤ c] = n! · · · I{y1 <y2 <...<yn } f (y1 ) · · · f (yn ) · IYk ≤c dy1 · · · dyn R = Zc R f(k) (yk ) dyk −∞ Universität Bonn Wintersemester 2009/2010 174 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE mit f(k) (y) = n! F (y)k−1 (1 − F (y))(n − k)f (y). (k − 1)!(n − k)! Dasselbe Resultat hätte man auch mit etwas Rechnen aus Satz 5.3 herleiten können. Bemerkung (Beta-Verteilungen). Sind die Zufallsvariablen Xi auf (0, 1) gleichverteilt, dann hat X(k) die Dichte fX(k) (u) = B(k, n − k + 1)−1 · uk−1 · (1 − u)n−k · I(0,1) (u) mit Normierungskonstante Z 1 ua−1 (1 − u)b−1 du B(a, b) = 0 (a − 1)!(b − 1)! = (a + b − 1)! für a, b ∈ N . Die entsprechende Verteilung heißt Beta-Verteilung mit Parametern a, b > 0, die Funktion B ist die Euler’sche Beta-Funktion. 2 1 1 Abbildung 5.5: Abbildung der Dichtefunktionen der zugehörigen Verteilungen von X(1) , . . . , X(5) bei n = 5 in (rot, gelb, grün, blau, magenta). 5.3 Unendliche Produktmodelle Konstruktion von unabhängigen Zufallsvariablen Seien µ1 , µ2 , . . . vorgegebene Wahrscheinlichkeitsverteilungen auf (R, B(R)). Wir werden nun explizit unabhängige Zufallsvariablen Xk , k ∈ N, mit Verteilungen µk konstruieren. Als Konse∞ N quenz ergibt sich die Existenz des unendlichen Produktmaßes µk als gemeinsame Verteilung k=1 der Zufallsvariablen Xk . Die Zufallsvariablen Xi können wir sogar auf den Raum Ω = (0, 1) mit Gleichverteilung realisieren: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.3. UNENDLICHE PRODUKTMODELLE 175 Satz 5.11. Auf dem Wahrscheinlichkeitsraum (Ω, B((0, 1)), U(0,1) ) existieren unabhängige Zufallsvariablen Xk : Ω → R, k ∈ N, mit Verteilungen P ◦ Xk−1 = für alle 1 ≤ i ≤ n. µk Beweis. Wir verfahren in drei Schritten: (1). Wir konstruieren die Zufallsvariablen im Fall 1 µk = Bernoulli 2 U(0,1) = ∀ k ∈ N, d.h. im fairen Münzwurfmodell. Dazu verwenden wir die schon in Abschnitt 4.2 eingeführte Transformation X : (0, 1) → {0, 1}N , die einer reellen Zahl die Ziffernfolge ihrer Binärdarstellung zuordnet, d.h. wir setzen Xk (ω) = IDk (ω), Dk = k−1 2[ i=1 [(2i − 1) · 2−k , 2i · 2−k ), siehe Abbildung 4.4. Die Abbildungen Xk : (0, 1) → {0, 1} sind messbar, und es gilt P [X1 = a1 , . . . , Xn = an ] = 2n ∀n ∈ N, a1 , . . . , an ∈ {0, 1}, (5.3.1) da die Menge {ω ∈ Ω : X1 (ω) = a1 , . . . , Xn (ω) = an } gerade aus den Zahlen in (0, 1) besteht, deren Binärdarstellung mit den Ziffern a1 , . . . , an beginnt, und damit ein Intervall der Länge 2−n ist. Nach (5.3.1) sind X1 , . . . , Xn für alle Xk , k ∈ N, unabhängig mit Verteilung µk . (2). Wir konstruieren die Zufallsvariablen im Fall µk = U(0,1) ∀ k ∈ N. Dazu zerlegen wir die gerade konstruierte Folge Xk (ω) ∈ {0, 1}, k ∈ N, in unendlich viele Teilfolgen, und konstruieren aus jeder Teilfolge wieder eine Zahl aus [0, 1] mit den entsprechenden Binärziffern. Genauer setzen wir in Binärdarstellung: U1 := 0.X1 X3 X5 X7 · · · , U2 := 0.X2 X6 X10 X14 · · · , U3 := 0.X4 X12 X20 X28 · · · , also allgemein für k ∈ N: Uk (ω) := ∞ X i=1 Universität Bonn Xk,i (ω) · 2−i mit usw., Xk,i := X(2i−1)·2k−1 . Wintersemester 2009/2010 176 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Da die Zufallsvariablen Xk,i , i, k ∈ N, unabhängig sind, sind nach dem Zerlegungssatz auch die σ-Algebren Ak σ(Xk,i |i ∈ N), = k ∈ N, unabhängig, und damit auch die Ak -messbaren Zufallsvariablen Uk , k ∈ N. Zudem gilt für n ∈ N und r= n X i=1 ai · 2i−1 P [Uk ∈ (r · 2−n , (r + 1) · 2−n )] {0, 1, . . . , 2n − 1} : ∈ = P [Xk,1 = a1 , . . . , Xk,n = an ] = 2−n . Da die dyadischen Intervalle ein durchschnittsstabiles Erzeugendensystem der Borelschen σ-Algebra bilden, folgt, dass die Zufallsvariablen Uk auf [0, 1] gleichverteilt sind. (3). Im allgemeinen Fall konstruieren wir die Zufallsvariablen aus den gerade konstruierten unabhängigen gleichverteilten Zufallsvariablen Uk , k ∈ N, mithilfe des Inversionsverfahrens aus Satz 4.19: Sind µk , k ∈ N, beliebige Wahrscheinlichkeitsverteilungen auf (R, B(R)), und Gk (u) inf{x ∈ R : Fk (x) ≥ u} = die linksstetigen verallgemeinerten Inversen der Verteilungsfunktionen Fk (c) = µk [(−∞, c]], dann setzen wir Yk (ω) := Gk (Uk (ω)), k ∈ N, ω ∈ Ω. Da die Zufallsvariablen Uk , k ∈ N, unabhängig sind, sind nach Satz 5.2 auch die Yk , k ∈ N, wieder unabhängig. Zudem gilt nach Satz 4.19: P ◦ Yk−1 = µk für alle k ∈ N. Bemerkung. (1). Der Beweis von Satz 5.11 ist konstruktiv. Für numerische Anwendungen ist allerdings zumindest der erste Schritt des beschriebenen Konstruktionsverfahrens ungeeignet, da Defizite des verwendeten Zufallszahlengenerators und die Darstellungsungenauigkeit im Rechner durch die Transformation verstärkt werden. (2). Mithilfe des Satzes kann man auch die Existenz einer Folge unabhängiger Zufallsvariablen Xk , k ∈ N, mit Werten im Rd , oder allgemeiner in vollständigen, separablen, metrischen Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.3. UNENDLICHE PRODUKTMODELLE 177 Räumen Sk , k ∈ N, und vorgegebenen Verteilungen µk auf den Borelschen σ-Algebren B(Sk ) zeigen. Sind beispielsweise φk : R → Sk Bijektionen, sodass φk und φ−1 k messbar ek : Ω → R unabhängige reellwertige Zufallsvariablen mit Verteilungen sind, und sind X ek ∈ B] = µK [φk (B)], dann sind die transformierten Zufallsvariablen P [X Xk = unabhängig mit Verteilungen µk . e k ) : Ω → Sk , φk ( X ∀k ∈ N, Beispiel (Random Walks im Rd ). Sei µ eine Wahrscheinlichkeitsverteilung auf (Rd , B(Rd )), und seien Xi , i ∈ N, unabhängige Zufallsvariablen mit identischer Verteilung Xi ∼ µ. Der durch Sn = a+ n X Xi , n = 0, 1, 2, . . . , i=1 definierte stochastische Prozess heißt Random Walk mit Startwert a ∈ Rd und Inkrementvertei- lung µ. Im Fall d = 1 können wir Stichproben von den Zufallsvariablen Xi , und damit vom Random Walk, beispielsweise mithilfe der Inversionsmethode, simulieren. Abbildung 5.6: Grafiken von Trajektorien des Random Walks mit verschiedenen Inkrementverteilungen. Abbildung 5.6 zeigt Grafiken von Trajektorien des Random Walks mit den Inkrementverteilungen µ = µ Universität Bonn 1 (δ1 + δ−1 ) 2 = N (0, 1) (klassischer Random Walk (SSRW)), (diskrete Brownsche Bewegung), Wintersemester 2009/2010 178 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE µ mit Dichte f (x) = e−(x+1) I(−1,∞)(x) (zentrierte Exp(1)-Verteilung) und µ mit Dichte f (x) = 3 3 3·2−5/2 ·(x+ )−5/2 ·I( 1 ,∞) (x+ ) 2 2 2 3 (zentrierte Pareto(α − 1, α)-Verteilung mit α = ). 2 3 2 1 −3 −2 −1 1 2 3 Abbildung 5.7: Dichten der drei stetigen Verteilungen aus Abbildung 5.6: fN (0,1) in Blau, fExp(1)−1 in Magenta und fPareto(α−1,α) in Rot. Im Gegensatz zu den anderen Verteilungen fällt die Dichte der Pareto-Verteilung für x → ∞ nur sehr langsam ab („heavy tails“). Insbesondere hat die Verteilung unendliche Varianz. Die Trajektorien der Random Walks werden mit der folgenden Mathematica-Routine simuliert: nmax = 1 0 0 0 0 ; ) x = RandomChoice [{ −1 , 1 } , nmax ] ; z = RandomReal [ N o r m a l D i s t r i b u t i o n [ 0 , 1 ] , nmax ] ; u = RandomReal [ { 0 , 1 } , nmax ] ; y = −Log [ u ] − 1 ; $ \ a l p h a $ = 3 / 2 ; x0 = $ \ a l p h a $ − 1 ; p = RandomReal [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] , nmax ] ; m = Mean [ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l p h a $ ] ] ; q = p − m; r w s i m p l e = A c c u m u l a t e [ x ] ; rwexp = A c c u m u l a t e [ y ] ; rwnormal = Accumulate [ z ] ; r w p a r e t o = Accumulate [ q ] ; L i s t L i n e P l o t [ { r w s i m p l e [ [ 1 ; ; 3 0 0 0 ] ] , rwexp [ [ 1 ; ; 3 0 0 0 ] ] , rwnormal [ [ 1 ; ; 3 0 0 0 ] ] , r w p a r e t o [ [ 1 ; ; 3 0 0 0 ] ] } ] Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.3. UNENDLICHE PRODUKTMODELLE 179 Die Trajektorien des klassischen Random Walks, und der Random Walks mit exponential- und normalverteilten Inkrementen sehen in größeren Zeiträumen ähnlich aus. Die Trajektorien des Pareto-Random Walks (grün) verhalten sich dagegen anders, und werden auch in längeren Zeiträumen von einzelnen großen Sprüngen beeinflusst. Tatsächlich kann man zeigen, dass alle obigen Random Walks mit Ausnahme des Pareto-Random Walks in einem geeigneten Skalierungslimes mit Schrittweite gegen 0 in Verteilung gegen eine Brownsche Bewegung konvergieren (funktionaler zentraler Grenzwertsatz). Unendliche Produktmaße Als Konsequenz aus dem Satz können wir die Existenz von unendlichen Produktmaßen als gemeinsame Verteilung von unendlich vielen unabhängigen Zufallsvariablen zeigen. Dazu versehen wir den Folgenraum RN = {(x1 , x2 , . . .)|xk ∈ R, ∀ k ∈ N} mit der Produkt-σ-Algebra O k∈N B(R) = σ(C) = σ(πk |k ∈ N), die von der Kollektion C aller Zylindermengen {π1 ∈ B1 , . . . , πn ∈ Bn } = {x = (xk ) ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn }, n ∈ N, B1 , . . . , Bn ∈ B(R), von den Koordinatenabbildungen πk : RN → R, πk (x) = xk . Korollar 5.12 (Existenz von unendlichen Produktmaßen). Zu beliebigen WahrscheinlichkeitsN verteilungen µk auf (R, B(R)) existiert eine eindeutige Wahrscheinlichkeitsverteilung µ = µk k∈N N auf (RN , B(R)) mit k∈N µ[π1 ∈ B1 , . . . , πn ∈ Bn ] = µ[B1 ] · . . . · µn [Bn ] (5.3.2) für alle n ∈ N und B1 , . . . , Bn ∈ B(R). Definition. Die Wahrscheinlichkeitsverteilung µ mit (5.3.2) heißt Produkt der Wahrscheinlichkeitsverteilungen µk , k ∈ N. Beweis. Die Eindeutigkeit folgt, da die Zylindermengen aus C ein ∩-stabiles Erzeugendensystem der Produkt-σ-Algebra bilden. Universität Bonn Wintersemester 2009/2010 180 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Zum Beweis der Existenz: betrachten wir die Abbildung X : Ω → RN mit X(ω) = (X1 (ω), X2 (ω), . . .), wobei Xk unabhängige Zufallsvariablen mit Verteilung µk sind. X ist messbar bzgl. N k∈N denn X −1 [{x ∈ RN |(x1 , . . . , xn ) ∈ B}] {ω ∈ Ω|(X1 (ω), . . . , Xn (ω)) ∈ B} = ∈ B(R), A für alle n ∈ N und B ∈ B(Rn ). Sei µ = P ◦ X −1 die Verteilung von X auf RN . Dann gilt µ[π1 ∈ B1 , . . . , πm ∈ Bn ] = µ[{x ∈ RN |x1 ∈ B1 , . . . , xn ∈ Bn }] = P [X1 ∈ B1 , . . . , Xn ∈ Bn ] n Y = µk [Bk ] k=1 für alle n ∈ N und B1 , . . . , Bn ∈ B(R). Also ist µ das gesuchte Produktmaß. Bemerkung. Auf analoge Weise folgt nach Bemerkung 2. von oben die Existenz des ProduktN maßes µk von beliebigen Wahrscheinlichkeitsverteilungen µk , k ∈ N, auf vollständigen, sek∈N parablen, messbaren Räumen Sk mit Borelschen σ-Algebren Sk . Das Produktmaß sitzt auf dem Produktraum ×S , k k∈N O k∈N Sk ! . Der Satz von Carathéodory impliziert sogar die Existenz von beliebigen (auch überabzählbaren) Produkten von allgemeinen Wahrscheinlichkeitsräumen (Si , Si , µi ), i ∈ I. Sind (Si , Si , µi ) beliebige Wahrscheinlichkeitsräume, dann sind die Koordinatenabbildungen πk : N ×Si → Sk unter dem Produktmaß µi unabhängig und µk -verteilt. Man nennt den Produk- i∈N i∈I traum (Ω, A, P ) = ×S , i O Si , O µi daher auch das kanonische Modell für unabhängige µi -verteilte Zufallsvariablen. 5.4 Asymptotische Ereignisse Sei Xi (i ∈ I) eine unendliche Kollektion von Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 5.4. ASYMPTOTISCHE EREIGNISSE 181 Definition. Ein Ereignis A ∈ σ(Xi |i ∈ I) heißt asymptotisches Ereignis (tail event), falls A ∈ σ(Xi | i ∈ I\I0 ) für jede endliche Teilmenge I0 ⊆ I gilt. Die Menge τ \ = I0 ⊆I endlich σ(Xi | i ∈ I\I0 ) aller asymptotischen Ereignisse ist eine σ-Algebra. τ heißt asymptotische σ-Algebra (tail field). Beispiel. (1). DYNAMISCH: Ist Xn , n ∈ N eine Folge von Zufallsvariablen (welche beispielsweise eine zufällige zeitliche Entwicklung beschreibt), dann gilt für ein Ereignis A ∈ σ(Xn , n ∈ N): A asymptotisch ⇔ A ∈ σ(Xn+1 , Xn+2 , . . . ) | {z } Zukunft ab n für alle n. Beispiele für asymptotische Ereignisse von reellwertigen Zufallsvariablen sind {Xn > 5n unendlich oft}, lim sup Xn < c , n→∞ {∃ lim Xn }, n→∞ 1 ∃ lim Sn = m , n wobei Sn = X1 + . . . + Xn . Die Ereignisse {sup Xn = 3} und n∈N {lim Sn = 5} sind dagegen nicht asymptotisch. (2). S TATISCH: Eine Kollektion Xi , i ∈ Zd , von Zufallsvariablen auf einem Wahrscheinlich- keitsraum (Ω, A, P ) heißt stochastisches Feld (random field). Beispielsweise basieren verschiedene grundlegende Modelle der statistischen Mechanik auf stochastischen Feldern Xi : Ω → {0, 1}, wobei Xi = 1 dafür steht, dass • sich ein Teilchen am Gitterpunkt i befindet, • ein Atom am Gitterpunkt i angeregt ist, • der Gitterpunkt i durchlässig ist (Perkolationsmodell), • etc. Asymptotische Ereignisse beschreiben in diesem Fall „makroskopische“ Effekte. Universität Bonn Wintersemester 2009/2010 182 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Das 0-1-Gesetz von Kolmogorov Satz 5.13 ( 0-1-Gesetz von Kolmogorov ). Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf (Ω, A, P ), dann gilt P [A] ∈ {0, 1} für alle A ∈ τ . „Asymptotische Ereignisse sind deterministisch.“ Beweis. Der Übersichtlichkeit halber führen wir den Beweis im Fall I = N - der Beweis im allgemeinen Fall verläuft ähnlich. Es gilt: X1 , X2 , ... unabhängige Zufallsvariablen =⇒ σ(X1 ), σ(X2 ), ..., σ(Xn ), σ(Xn+1 ), σ(Xn+2 ), ... unabhängige Mengensysteme =⇒σ(X1 , ..., Xn ), σ(Xn+1 , Xn+2 , ...) sind unabhängig für alle n ∈ N =⇒ σ(X1 , ..., Xn ) und τ sind unabhängig für alle n ∈ N =⇒τ unabhängig von σ(X1 , X2 , ...) ⊇ τ =⇒ Ereignisse A ∈ τ sind unabhängig von sich selbst =⇒ P [A] ∈ {0, 1} ∀A∈τ . Hierbei gilt die zweite Implikation nach Satz 5.1 (2), und die vierte nach Satz 5.1 (1) Anwendungen auf Random Walks und Perkolationsmodelle Beispiel (Rückkehr zum Startpunkt von Random Walks, Rekurrenz). Wir betrachten einen eindimensionalen klassischen Random Walk mit Startpunkt a ∈ Z und unabhängigen Inkrementen Xi mit Verteilung P [Xi = 1] = p, P [Xi = −1] = 1 − p. Für n ∈ N erhält man die Rückkehrwahrscheinlichkeiten P [S2n P [S2n+1 = a] = 0 (2n)! n 2n · pn · (1 − p)n = = a] = · p · (1 − p)n . n (n!)2 Wir betrachten nun die Asymptotik für n → ∞ dieser Wahrscheinlichkeiten. Aus der Stirlings- chen Formel n! ∼ √ 2πn · folgt P [S2n = a] ∼ √ )2n 4πn ( 2n · ne 2n · pn · (1 − p)n 2πn (e) Einführung in die Wahrscheinlichkeitstheorie n n e = 1 √ (4p(1 − p))n πn für n → ∞. Prof. Andreas Eberle 5.4. ASYMPTOTISCHE EREIGNISSE Für p 6= 1 2 183 fallen die Wahrscheinlichkeiten also exponentiell schnell ab. Insbesondere gilt dann ∞ X P [Sm = a] = m=0 ∞ X n=0 P [S2n = a] < ∞, d.h. der asymmetrische Random Walk kehrt nach dem 1. Borel-Cantelli Lemma mit Wahrscheinlichkeit 1 nur endlich oft zum Startpunkt zurück (T RANSIENZ). Nach dem starken Gesetz großer Zahl gilt sogar (2p − 1)n P -fast sicher. √ = a] ∼ 1/ πn, und damit Sn Für p = 1 2 gilt dagegen P [S2n ∞ X ∼ P [Sm = a] m=0 = ∞ X P [S2n = a] = n=0 ∞. Dies legt nahe, dass der Startpunkt mit Wahrscheinlichkeit 1 unendlich oft besucht wird. Ein Beweis dieser Aussage über das Borel-Cantelli-Lemma ist aber nicht direkt möglich, da die Ereignisse {S2n = 0} nicht unabhängig sind. Wir beweisen nun eine stärkere Aussage mithilfe des Kolmogorovschen 0-1-Gesetzes: Satz 5.14 (Rekurrenz und unbeschränkte Oszillationen des symmetrischen Random Walks). Für p = 1 2 gilt P [lim Sn = +∞ und lim Sn = −∞] = 1. Insbesondere ist der eindimensionale Random Walk rekurrent, d.h. P [Sn = a unendlich oft] = 1. Tatsächlich wird nach dem Satz mit Wahrscheinlichkeit 1 sogar jeder Punkt λ ∈ Z unendlich oft getroffen. Beweis. Für alle k ∈ N gilt: P [Sn+k − Sn = k unendlich oft] = 1, denn nach dem Beispiel zu Satz 5.1 („Affe tippt Shakespeare“) gibt es P -fast sicher unendlich viele Blöcke der Länge k mit Xn+1 = Xn+2 = ... = Xn+k = 1. Es folgt # " \[ {Sn+k − Sn = k} P [lim Sn − lim Sn = ∞] ≥ P k Universität Bonn = 1, n Wintersemester 2009/2010 184 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE und damit 1 = P [lim Sn = +∞ oder lim Sn = −∞] ≤ P [lim Sn = +∞] + P [lim Sn = −∞]. Also ist eine der beiden Wahrscheinlichkeiten auf der rechten Seite größer als 12 , und damit nach dem Kolmogorovschen 0-1-Gesetz gleich 1. Aus Symmetriegründen folgt P [lim Sn = −∞] = P [lim Sn = +∞] = 1. Das vorangehende Beispiel zeigt eine typische Anwendung des Kolmogorovschen 0-1-Gesetzes auf stochastische Prozesse. Um die Anwendbarkeit in räumlichen Modellen zu demonstrieren, betrachten wir ein einfaches Perkolationsmodell: Beispiel (Perkolation im Zd ). Sei p ∈ (0, 1) fest, und seien Xi (i ∈ Zd ) unabhängige Zufallsva- riablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit P [Xi = 1] = p , P [Xi = 0] = 1 − p . Ein Gitterpunkt i ∈ Zd heißt durchlässig, falls Xi = 1 gilt. Wir verbinden Gitterpunkte i, j ∈ Zd mit |i − j| = 1 durch eine Kante. Sei A das Ereignis, dass bzgl. dieser Graphenstruktur ei- ne unendliche Zusammenhangskomponente (Cluster) aus durchlässigen Gitterpunkten existiert (Eine Flüssigkeit könnte in diesem Fall durch ein makroskopisches Modellstück, das aus mikroskopischen Gitterpunkten aufgebaut ist, durchsickern - daher der Name „Perkolation“). A ist asymptotisch, also gilt nach dem Satz von Kolmogorov P [A] ∈ {0, 1}. Hingegen ist es im Allgemeinen nicht trivial, zu entscheiden, welcher der beiden Fälle eintritt. Im Fall d = 1 zeigt man leicht (Übung): P [A] = 0 für alle p < 1. Für d = 2 gilt: 1 , 2 s. z.B. die Monografie „Percolation“ von Grimmett. Für d ≥ 3 ist nur bekannt, dass ein kritischer P [A] = 1 Parameter pc ∈ (0, 1) existiert mit P [A] = 1 0 Einführung in die Wahrscheinlichkeitstheorie ⇐⇒ p> für p > pc . für p < pc . Prof. Andreas Eberle 5.4. ASYMPTOTISCHE EREIGNISSE 185 Man kann obere und untere Schranken für pc herleiten (z.B. gilt 1 2d−1 ≤ pc ≤ 23 ), aber der genaue Wert ist nicht bekannt. Man vermutet, dass P [A] = 0 für p = pc gilt, aber auch diese Aussage konnte bisher nur in Dimension d ≥ 19 (sowie für d = 2) bewiesen werden, siehe das Buch von Grimmett. Definition. Eine Zufallsvariable Y : Ω → [−∞, ∞] heißt asymptotisch, wenn die bzgl. der asymptotischen σ-Algebra τ messbar ist. Das Perkolationsmodell ist ein Beispiel für ein sehr einfach formulierbares stochastisches Modell, das zu tiefgehenden mathematischen Problemstellungen führt. Es ist von großer Bedeutung, da ein enger Zusammenhang zu anderen Modellen der statistischen Mechanik und dabei auftretenden Phasenübergängen besteht. Einige elementare Aussagen über Perkolationsmodelle werden in den Wahrscheinlichkeitstheorie-Lehrbüchern von Y. Sinai und A. Klenke hergeleitet. Korollar 5.15. Sind Xi (i ∈ I) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), dann ist jede asymptotische Zufallsvariable Y : Ω → [−∞, ∞] P - fast sicher konstant, d.h. ∃ c0 ∈ [−∞, ∞] : P [Y = c0 ] = 1 . Beweis. Ist Y τ - messbar, dann sind die Ereignisse {Y ≤ c}, c ∈ R, in τ enthalten. Aus dem Kolmogorovschen 0-1-Gesetz folgt: FY (c) = P [Y ≤ c] ∈ {0, 1} ∀ c ∈ R. Da die Verteilungsfunktion monoton wachsend ist, existiert ein c0 ∈ [−∞, ∞] mit 0 für c < c0 P [Y ≤ c] = , 1 für c > c 0 und damit P [Y = c0 ] = lim(FY (c0 ) − FY (c0 − ε)) = ε↓0 1. = 1. Beispiele für asymptotische Zufallsvariablen im Fall I = N sind etwa lim Xn , n→∞ lim Xn , n→∞ n 1X Xi , lim n→∞ n i=1 n sowie 1X Xi . lim n→∞ n i=1 Insbesondere sind für unabhängige Zufallsvariablen X1 , X2 , ... : Ω → R sowohl n 1 X lim Xi n i=1 Universität Bonn als auch n 1 X lim Xi n i=1 P - f.s. konstant. Wintersemester 2009/2010 186 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE Hieraus ergibt sich die folgende Dichotomie: Sind Xi , i ∈ N, unabhängige reellwertige Zufalls- variablen, dann gilt entweder ein Gesetz großer Zahlen, d.h. n 1X Xi n i=1 konvergiert P - f.s., und der Limes ist P - f.s. konstant (falls der Limes inferior und Limes superior P -fast sicher übereinstimmen), oder " # n X 1 P Xi konvergiert = 0. n i=1 Es ist bemerkenswert, dass für die Gültigkeit der Dichotomie keine Annahmen über die Verteilung der Xi benötigt werden. Insbesondere müssen die Xi nicht identisch verteilt sein! Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle Kapitel 6 Erwartungswert und Varianz In diesem Kapitel definieren wir den Erwartungswert, die Varianz und die Kovarianz allgemeiner reellwertiger Zufallsvariablen, und beweisen grundlegende Eigenschaften und Abschätzungen. Da wir auch Grenzübergänge durchführen wollen, erweist es sich als günstig, die Werte +∞ und −∞ zuzulassen. Wir setzen daher R = [−∞, ∞]. Der Raum R ist ein topologischer Raum bzgl. des üblichen Konvergenzbegriffs. Die Borelsche σ-Algebra auf R wird u.a. erzeugt von den Intervallen [−∞, c], c ∈ R. Die meisten Aussagen über reellwertige Zufallsvariablen aus den vorangegangenen Abschnitten übertragen sich unmittelbar auf Zufallsvariablen X : Ω → R, wenn wir die Verteilungsfunktion FX : R → [0, 1] definieren durch FX (c) = µX [[−∞, c]] = P [X ≤ c]. 6.1 Erwartungswert Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Wir wollen den Erwartungswert (Mittelwert, Prognosewert) von X bezüglich der Wahrscheinlichkeitsverteilung P in sinnvoller Weise definieren. Dazu gehen wir schrittweise vor: Definition des Erwartungswerts Elementare Zufallsvariablen Nimmt X nur endlich viele Werte c1 , ..., cn ∈ R an, dann soll gelten: E[X] = n X i=1 ci · P [X = ci ], 187 188 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ d.h. der Erwartungswert ist das Mittel der Werte ci gewichtet mit den Wahrscheinlichkeiten der Ereignisse Ai := {X = ci }. Definition. Eine Zufallsvariable von der Form X= n X ci I A i i=1 (n ∈ N, ci ∈ R, Ai ∈ A) heißt elementar. Ihr Erwartungswert bzgl. P ist E[X] := n X i=1 ci · P [Ai ]. Diese Definition ist ein Spezialfall der Definition des Erwartungswerts diskreter Zufallsvariablen aus Kapitel 1. Insbesondere ist der Erwartungswert E[X] wohldefiniert, d.h. unabhängig von der gewählten Darstellung der Zufallsvariable X als Linearkombination von Indikatorfunktionen, und die Abbildung X 7→ E[X] ist linear und monoton: E[aX + bY ] = a · E[X] + b · E[Y ] X≤Y =⇒ für alle a, b ∈ R, E[X] ≤ E[Y ]. Die Definition des Erwartungswerts einer elementaren Zufallsvariable stimmt genau mit der des Lebesgueintegrals der Elementarfunktion X bzgl. des Maßes P überein: Z Z E[X] = X dP = X(ω) P (dω) Für allgemeine Zufallsvariablen liegt es nahe, den Erwartungswert ebenfalls als Lebesgueintegral bzgl. des Maßes P zu definieren. Wir skizzieren hier die weiteren Schritte zur Konstruktion des Lebesgueintegrals bzw. des Erwartungswerts einer allgemeinen Zufallsvariable, siehe auch die Analysisvorlesung. Nichtnegative Zufallsvariablen Die Definition des Erwartungswerts einer nichtnegativen Zufallsvariable beruht auf der monotonen Approximation durch elementare Zufallsvariablen: Lemma 6.1. Sei X : Ω → [0, ∞] eine nichtnegative Zufallsvariable auf (Ω, A, P ). Dann existiert eine monoton wachsende Folge elementarer Zufallsvariablen 0 ≤ X1 ≤ X2 ≤ . . . mit X = lim Xn n→∞ Einführung in die Wahrscheinlichkeitstheorie = sup Xn . n∈N Prof. Andreas Eberle 6.1. ERWARTUNGSWERT 189 Beweis. Für n ∈ N sei Xn (ω) := (k − 1) · 2−n n falls (k − 1) · 2−n ≤ X(ω) < k · 2−n für ein k = 1, 2, . . . , n · 2n falls X(ω) ≥ n 5 4 3 2 1 5 4 3 2 1 Abbildung 6.1: Approximation durch Elementarfunktionen. Hier ist die Annäherung in rot in zwei verschiedenen Feinheiten dargestellt. Universität Bonn Wintersemester 2009/2010 . 190 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Dann ist Xn eine elementare Zufallsvariable, denn es gilt Xn = n −1 n2 X k=0 k + nI{X≥n} . I k k+1 2n { 2n ≤X< 2n } Die Folge Xn (ω) ist für jedes ω monoton wachsend, da die Unterteilung immer feiner wird, und sup Xn (ω) = n∈N lim Xn (ω) = n→∞ für alle ω ∈ Ω. X(ω) Definition. Sei X : Ω → [0, ∞] eine nicht-negative Zufallsvariable. Der Erwartungswert (bzw. das Lebesgueintegral) von X bzgl. P ist definiert als E[X] := lim E[Xn ] = sup E[Xn ] ∈ [0, ∞], n→∞ (6.1.1) n→∞ wobei Xn eine monoton wachsende Folge von nichtnegativen elementaren Zufallsvariablen mit X = sup Xn ist. Auch in diesem Fall ist der Erwartungswert wohldefiniert (in [0, ∞]): Lemma 6.2. Die Definition ist unabhängig von der Wahl einer monoton wachsenden Folge Xn von nichtnegativen Zufallsvariablen mit X = sup Xn . n∈N Für den Beweis verweisen wir auf die Analysisvorlesung oder auf die Literatur, siehe z.B. Appendix 5 in W ILLIAMS „Probability with martingales.“ Bemerkung. Sind Xn = IAn und X = IA Indikatorfunktionen, dann folgt (6.1.1) aus der monotonen Stetigkeit von P . In diesem Fall gilt nämlich: Xn ր X ⇐⇒ An ր A (d.h. An monoton wachsend und A = Aus der monotonen Stetigkeit von P folgt dann E[X] = P [A] = lim P [An ] = [ An ). lim E[Xn ]. Aus der Definition des Erwartungswerts folgt unmittelbar: Lemma 6.3. Für nichtnegative Zufallsvariablen X, Y mit X ≤ Y gilt E[X] ≤ E[Y ]. Beweis. Ist X ≤ Y , dann gilt auch Xn ≤ Yn für die approximierenden elementaren Zufallsva- riablen aus Lemma 6.1, also E[X] = sup E[Xn ] n∈N Einführung in die Wahrscheinlichkeitstheorie ≤ sup E[Yn ] = E[Y ]. n∈N Prof. Andreas Eberle 6.1. ERWARTUNGSWERT 191 Allgemeine Zufallsvariablen Eine allgemeine Zufallsvariable X : Ω → R können wir in ihren positiven und negativen Anteil zerlegen: X = X+ − X− mit X+ := max(X, 0), X− := − min(X, 0). X + und X − sind nichtnegative Zufallsvariablen. Ist mindestens einer der beiden Erwartungswerte E[X + ] bzw. E[X − ] endlich, dann können wir (ähnlich wie in Kapitel 1 für diskrete Zufallsvariablen) definieren: Definition. Der Erwartungswert einer Zufallsvariable X : Ω → R mit E[X + ] < ∞ oder E[X − ] < ∞ ist Notation: E[X] := E[X + ] − E[X − ] ∈ [−∞, ∞]. Der Erwartungswert E[X] ist das Lebesgueintegral der messbaren Funktion X : Ω → R bzgl. des Maßes P . Daher verwenden wir auch folgende Notation: Z Z E[X] = X dP = X(ω) P (dω). Eigenschaften des Erwartungswerts Nachdem wir den Erwartungswert einer allgemeinen Zufallsvariable X : Ω → R definiert ha- ben, fassen wir nun einige grundlegende Eigenschaften des Erwartungswerts zusammen. Dazu bezeichnen wir mit L1 = L1 (P ) = L1 (Ω, A, P ) := {X : Ω → R Zufallsvariable | E[|X|] < ∞} die Menge aller bzgl. P integrierbaren Zufallsvariablen. Für Zufallsvariablen X ∈ L1 (Ω, A, P ) ist nach Lemma 6.3 sowohl E[X + ] als auch E[X − ] endlich. Also ist der Erwartungswert E[X] definiert und endlich. Satz 6.4. Für Zufallsvariablen X, Y ∈ L1 (Ω, A, P ) und a, b ∈ R gilt: (1). X ≥ 0 P -fast sicher =⇒ E[X] ≥ 0 (2). Die Zufallsvariable aX + bY ist bzgl. P integrierbar, und E[aX + bY ] Universität Bonn = a · E[X] + b · E[Y ]. Wintersemester 2009/2010 192 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Insbesondere ist der Erwartungswert monoton: (3). X ≤ Y P -fast sicher =⇒ E[X] ≤ E[Y ]. Zum Beweis der Eigenschaften (1) und (2) verweisen wir auf die Analysisvorlesung oder die Literatur. Eigenschaft (3) folgt unmittelbar aus (1) und (2). Nach Aussage (2) des Satzes ist L1 (Ω, A, P ) ein Vektorraum. Durch X∼Y : ⇐⇒ P [X = Y ] = 1 wird eine Äquivalenzrelation auf diesem Raum definiert. Eine Konsequenz von Aussage (3) des Satzes ist, dass zwei äquivalente (also P -fast sicher identische= Zufallsvariablen denselben Erwartungswert haben: X∼Y =⇒ E[X] = E[Y ]. Daher ist der Erwartungswert einer Äquivalenzklasse von P -fast sicher gleichen Zufallsvariablen eindeutig definiert. In Zukunft verwenden wir häufig dieselbe Notation für die Äquivalenzklassen und Repräsentanten aus den Äquivalenzklassen. Satz 6.4 besagt, dass der Erwartungswert ein positives lineares Funktional auf dem Raum L1 (Ω, A, P ) := L1 (Ω, A, P )/ ∼ aller Äquivalenzklassen von integrierbaren Zufallsvariablen definiert. Aus dem Satz folgt zudem: Korollar 6.5. Durch kXkL1 (Ω,A,P ) = E[|X|] wird eine Norm auf L1 (Ω, A, P ) definiert. Insbesondere gilt für Zufallsvariablen X : Ω → R : E[|X|] = 0 =⇒ X=0 P -fast sicher. Beweis. Für eine Zufallsvariable X : Ω → R mit E[|X|] = 0 und ε > 0 gilt wegen der Monotonie und Linearität des Erwartungswerts: P [|X| ≥ ε] = E[I{|X|≥ε} ] Für ε ց 0 folgt ≤ |X| E ε = 1 E[|X|] = 0. ε P [|X| > 0] = lim P [|X| ≥ ε] = 0, εց0 also X = 0 P -fast sicher. Zudem folgt aus der Monotonie und Linearität des Erwartungswerts die Dreiecksungleichung: E[|X + Y |] ≤ E[|X| + |Y |] Einführung in die Wahrscheinlichkeitstheorie = E[|X|] + E[|Y |]. Prof. Andreas Eberle 6.1. ERWARTUNGSWERT 193 In der Analysis wird gezeigt, dass der Raum L1 (Ω, A, P ) bzgl. der im Korollar definierten Norm ein Banachraum ist. Konvergenzsätze Ein Vorteil des Lebesgueintegrals gegenüber anderen Integrationsbegriffen ist die Gültigkeit von sehr allgemeinen Konvergenzsätzen. Diese lassen sich zurückführen auf den folgenden fundamentalen Konvergenzsatz, der sich aus der oben skizzierten Konstruktion des Lebesgueintegrals ergibt: Satz 6.6 (Satz von der monotonen Konvergenz, B. Levi). Ist Xn , n ∈ N, eine monoton wach- sende Folge von Zufallsvariablen mit E[X1− ] < ∞ (z.B. X1 ≥ 0), dann gilt: E[sup Xn ] = E[ lim Xn ] = n→∞ n∈N lim E[Xn ] n→∞ = sup E[Xn ]. n∈N Der Beweis findet sich in zahlreichen Lehrbüchern der Integrations- oder Warscheinlichkeitstheorie, siehe z.B. W ILLIAMS : P ROBABILITY WITH MARTINGALES , A PPENDIX 5. Eine erste wichtige Konsequenz des Satzes von der monotonen Konvergenz ist: Korollar 6.7. Für nichtnegative Zufallsvariablen Xi , i ∈ N, gilt: # "∞ ∞ X X = E[Xi ]. E Xi i=1 i=1 Beweis. E " ∞ X i=1 Xi # = E = = = " lim n→∞ lim E n→∞ lim n→∞ ∞ X n X " i=1 n X Xi Xi i=1 n X # # E[Xi ] (wegen monotoner Konvergenz) (wegen Linearität) i=1 E[Xi ]. i=1 Bemerkung (Abzählbare Wahrscheinlichkeitsräume, Summation als Spezialfall von Integration). Falls Ω abzählbar ist, können wir jede Zufallsvariable X : Ω → R auf die folgende Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen: X X = X(ω) · I{ω} . ω∈Ω Universität Bonn Wintersemester 2009/2010 194 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Ist X ≥ 0, dann gilt nach Korollar 6.7: E[X] X = ω∈Ω X(ω) · P [{ω}]. Dieselbe Darstellung des Erwartungswerts gilt auch für allgemeine reellwertige Zufallsvariablen auf Ω, falls der Erwartungswert definiert ist, d.h. E[X + ] oder E[X − ] endlich ist. Insbesondere sehen wir, dass Summation ein Spezialfall von Integration ist: Ist Ω abzählbar und p(ω) ≥ 0 für alle ω ∈ Ω, dann gilt X ω∈Ω X(ω) · p(ω) = Z X dP, wobei P das Maß mit Massenfunktion p ist. Beispielsweise gilt also Z X X(ω) = X dν, ω∈Ω wobei ν das durch ν[A] = |A|, A ⊆ Ω, definierte Zählmaß ist. Konvergenzsätze wie der Satz von der monotonen Konvergenz lassen sich also auch auf Summen anwenden! Beispiel. Ist P die Gleichverteilung auf einer endlichen Menge Ω, dann ist E[X] = 1 X X(ω) |Ω| ω∈Ω das arithmetische Mittel von X. Wir beweisen nun noch zwei wichtige Konvergenzsätze, die sich aus dem Satz von der monotonen Konvergenz ergeben: Korollar 6.8 (Lemma von Fatou). Seien X1 , X2 , · · · : Ω → R Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und sei Y ∈ L1 (Ω, A, P ) (z.B. Y ≡ 0). (1). Gilt Xn ≥ Y für alle n ∈ N, dann folgt E[lim inf Xn ] ≤ lim inf E[Xn ]. (2). Gilt Xn ≤ Y für alle n ∈ N, dann folgt E[lim sup Xn ] ≥ lim sup E[Xn ]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 195 Beweis. Die Aussagen folgen aus dem Satz über monotone Konvergenz. Beispielsweise gilt: E [lim inf Xn ] = E lim inf Xk = lim E inf Xk n→∞ k≥n ≤ n→∞ k≥n lim inf E[Xk ] = lim inf E[Xn ], n→∞ k≥n n→∞ da die Folge der Infima monoton wachsend ist und durch die integrierbare Zufallsvariable Y nach unten beschränkt ist. Die zweite Aussage zeigt man analog. Korollar 6.9 (Satz von der majorisierten Konvergenz, Lebesgue). Sei Xn : Ω → R, n ∈ N, eine P -fast sicher konvergente Folge von Zufallsvariablen. Existiert eine Majorante Y ∈ L1 (Ω, A, P ) mit |Xn | ≤ Y für alle n ∈ N, dann gilt E[lim Xn ] = lim E[Xn ]. (6.1.2) Beweis. Nach dem Lemma von Fatou gilt: E[lim inf Xn ] ≤ lim inf E[Xn ] ≤ lim sup E[Xn ] ≤ E[lim sup Xn ], da Xn ≥ −Y ∈ L1 und Xn ≤ Y ∈ L1 für alle n ∈ N gilt. Konvergiert Xn P -fast sicher, dann stimmen die linke und rechte Seite der obigen Ungleichungskette überein. Beispiel. Wir betrachten Setzen mit Verdoppeln auf »Null« für eine Folge von fairen Münzwürfen. Bei Anfangseinsatz 1 beträgt das Kapital des Spielers nach n Münzwürfen Xn = 2n · I{n<T } , wobei T die Wartezeit auf die erste »Eins« ist. Es folgt E[Xn ] = 2n P [T > n] = 2n · 2−n = 1 für alle n ∈ N, das Spiel ist also fair. Andererseits fällt aber P -fast sicher irgendwann eine »Eins«, d.h. es gilt: lim Xn = 0 n→∞ P -fast sicher. Die Aussage (6.1.2) des Satzes von Lebesgue ist in dieser Situation nicht erfüllt! 6.2 Berechnung von Erwartungswerten; Dichten Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. In diesem Abschnitt zeigen wir, wie man in verschiedenen Fällen den Erwartungswert einer Zufallsvariable X : Ω → [0, ∞] aus der Verteilung von X berechnen kann. Universität Bonn Wintersemester 2009/2010 196 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Diskrete Zufallsvariablen Falls X nur abzählbar viele Werte annimmt, können wir die Zufallsvariable X auf folgende Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen: X X= a · I{X=a} . a∈X(Ω) Es folgt: E[X] = X a∈X(Ω) E[a · I{X=a} ] = X a∈X(Ω) a · P [X = a]. Dieselbe Aussage gilt allgemeiner für diskrete reellwertige Zufallsvariablen X mit E[X + ] < ∞ oder E[X − ] < ∞. Für Zufallsvariablen X : Ω → S, mit Werten in einer beliebigen abzählbaren Menge S, und eine Borel-messbare Funktion h : S → R erhalten wir entsprechend X E[h(X)] = h(a) · P [X = a], (6.2.1) a∈X(Ω) falls E[h(X)] definiert ist, also z.B. falls h ≥ 0 oder h(X) ∈ L1 (Ω, A, P ) gilt. Die allgemeine Definition des Erwartungswerts als Lebesgueintegral stimmt also für diskrete Zufallsvariablen mit der in Kapitel 1 gegebenen Definition überein. Allgemeine Zufallsvariablen Die Berechnungsmethode (6.2.1) für den Erwartungswert diskreter Zufallsvariablen lässt sich auf Zufallsvariablen mit beliebigen Verteilungen erweitern. Sei dazu (Ω, A, P ) ein Wahrscheinlichkeitsraum, (S, S) ein messbarer Raum, X : Ω → S eine Zufallsvariable, und h : S → [0, ∞] eine messbare Abbildung. Satz 6.10 (Transformationssatz). Unter den obigen Voraussetzungen gilt: Z Z EP [h(X)] = h(X(ω))P (dω) = h(x) µ(dx) = Eµ [h], wobei µ = P ◦ X −1 die Verteilung von X unter P ist, und EP bzw. Eµ den Erwartungswert unter P bzw. µ bezeichnet. Die Erwartungswerte hängen somit nur von der Verteilung von X ab! Beweis. Der Beweis erfolgt in drei Schritten: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 197 (1). Ist h = IB die Indikatorfunktion einer messbaren Menge B ∈ S, dann gilt: Z Z −1 E[h(X)] = IB (X(ω))P (dω) = P [X (B)] = µ[B] = IB dµ, da IB (X(ω)) = IX −1 (B) (ω) gilt. (2). Für Linearkombinationen h = Pn i=1 ai IBi von Indikatorfunktionen mit n ∈ N, ai ∈ R, und Bi ∈ S gilt die Aussage auch, da das Lebesgueintegral linear vom Integranden abhängt. (3). Für eine allgemeine messbare Funktion h ≥ 0 existiert schließlich eine monoton wachsende Folge hn von Elementarfunktionen mit hn (x) ր h(x) für alle x ∈ S. Durch zweimalige Anwendung des Satzes von der monotonen Konvergenz erhalten wir erneut: Z Z E[h(X)] = E[lim hn (X)] = lim E[hn (X)] = lim hn dµ = h dµ. Das hier verwendete Beweisverfahren der »maßtheoretischen Induktion« wird noch sehr häufig auftreten: Wir zeigen eine Aussage (1). für Indikatorfunktionen, (2). für Elementarfunktionen, (3). für nichtnegative messbare Funktionen, (4). für allgemeine integrierbare Funktionen. Mit maßtheoretischer Induktion zeigt man auch: Übung: Jede σ(X)-messbare Zufallsvariable Y : Ω → R ist vom Typ Y = h(X) mit einer messbaren Funktion h : S → R. Nach Satz 6.10 ist der Erwartungswert E[T ] einer reellwertigen Zufallsvariable T : Ω → [0, ∞] eindeutig bestimmt durch die Verteilung µT = P ◦ T −1 : Z E[T ] = t µT (dt) , also auch durch die Verteilungsfunktion FT (t) = P [T ≤ t] = µT [[0, t]], t ∈ R. Der folgende Satz zeigt, wie man den Erwartungswert konkret aus FT berechnet: Universität Bonn Wintersemester 2009/2010 198 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Satz 6.11. Für eine Zufallsvariable T : Ω → [0, ∞] gilt Z ∞ Z ∞ E[T ] = P [T > t] dt = (1 − FT (t)) dt. 0 0 Beweis. Wegen T (ω) = Z T (ω) dt = 0 Z ∞ 0 I{T >t} (ω)dt erhalten wir E[T ] = E Z ∞ 0 I{T >t} dt = Z ∞ 0 E I{T >t} dt = Z ∞ P [T > t] dt. 0 Hierbei haben wir im Vorgriff auf Kapitel 9 den Satz von Fubini benutzt, der gewährleistet, dass man zwei Lebesgueintegrale (das Integral über t und den Erwartungswert) unter geeigneten Voraussetzungen (Produktmessbarkeit) vertauschen kann, siehe Satz 9.1. Bemerkung (Stieltjesintegral). Das Lebesgue-Stieltjes-Integral R h dF einer messbaren Funkti- on h : R → [0, ∞] bzgl. der Verteilungsfunktion F einer Wahrscheinlichkeitsverteilung µ auf R ist definiert als das Lebesgueintegral Z h(t) dF (t) := Z h(t) µ(dt). Ist h stetig, dann lässt sich das Integral als Limes von Riemannsummen darstellen. Nach dem Transformationssatz gilt für eine Zufallsvariable T : Ω → [0, ∞]: Z Z E[T ] = t µT (dt) = t dFT (t). Die Aussage von Satz 6.11 folgt hieraus formal durch partielle Integration. Beispiel (Exponentialverteilung). Für eine exponentialverteilte Zufallsvariable T mit Parameter λ > 0 erhalten wir: E[T ] = Z∞ P [T > t] dt = Z∞ e−λt dt = 1 . λ 0 0 Es gilt also Mittlere Wartezeit = 1 Mittlere relative Häufigkeit pro Zeiteinheit . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 199 Beispiel (Heavy tails). Sei α > 0. Für eine Zufallsvariable T : Ω → [0, ∞) mit ∼ P [T > t] gilt E[T ] Z∞ = t−α für t → ∞ P [T > t] dt < ∞ 0 genau dann, wenn α > 1. Allgemeiner ist das p-te Moment E[T p ] = Z∞ P [T p > t] dt = Z∞ 0 0 nur für p < α endlich. P [T > t1/p ] dt | {z } ∼tα/p Zufallsvariablen mit Dichten Die Verteilungen vieler Zufallsvariablen haben eine Dichte bzgl. des Lebesguemaßes, oder bzgl. eines anderen geeigneten Referenzmaßes. Wir wollen uns nun überlegen, wie man in diesem Fall den Erwartungswert berechnet. Sei (S, S) ein messbarer Raum und ν ein Maß auf (S, S) (z.B. das Lebesguemaß oder eine Wahrscheinlichkeitsverteilung). Definition. Eine Wahrscheinlichkeitsdichte auf (S, S, ν) ist eine messbare Funktion ̺ : S → [0, ∞] mit Z ̺(x) ν(dx) = 1. S Satz 6.12. (1). Ist ̺ eine Wahrscheinlichkeitsdichte auf (S, S, ν), dann wird durch Z Z µ[B] := ̺(x) ν(dx) = IB (x)̺(x) ν(dx) (6.2.2) B eine Wahrscheinlichkeitsverteilung µ auf (S, S) definiert. (2). Für eine messbare Funktion h : S → [0, ∞] gilt Z Z h(x) µ(dx) = h(x)̺(x) ν(dx). (6.2.3) Insbesondere folgt nach dem Transformationssatz: Z E[h(X)] = h(x)̺(x) ν(dx) für jede Zufallsvariable X mit Verteilung µ. Universität Bonn Wintersemester 2009/2010 200 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Beweis. Wir zeigen zunächst, dass µ eine Wahrscheinlichkeitsverteilung ist: Sind B1 , B2 , ... ∈ S disjunkt, so folgt "∞ # Z [ (x) · ̺(x) ν(dx) IS∞ µ Bi = i=1 Bi i=1 = = = Z ISni=1 Bi (x) · ̺(x) ν(dx) (wegen ̺ ≥ 0 und monotoner Konvergenz) n n Z X X µ[Bi ] ̺(x) ν(dx) = lim lim lim n→∞ n→∞ ∞ X n→∞ Bi i=1 i=1 µ[Bi ]. i=1 Zudem gilt: µ[S] Z = ̺ dν = 1. Die Aussage (6.2.3) über den Erwartungswert beweisen wir durch maßtheoretische Induktion: (1). Die Aussage folgt unmittelbar, wenn h = IB für B ∈ S gilt. (2). Für Linearkombinationen h = ten von (6.2.3) in h. Pn i=1 ci IBi folgt die Aussage aus der Linearität beider Sei- (3). Für allgemeine h ≥ 0 existiert eine Teilfolge hn aus Elementarfunktionen mit hn ր h. Mit monotoner Konvergenz folgt Z Z h dµ = lim hn dµ = lim Z hn ̺ dν = Z h̺ dν. Bemerkung. Durch (6.2.2) wird die Dichte ̺(x) der Wahrscheinlichkeitsverteilung µ bzgl. des Maßes ν für ν-fast alle x eindeutig festgelegt: Existiert ̺e ∈ L1 (S, S, ν) mit Z Z ̺ dν = µ[B] = ̺e dν für alle B ∈ S, B dann folgt: Z Somit erhalten wir: und damit ̺ = ̺e B {̺>e ̺} Z (̺ − ̺e) dν = + (̺ − ̺e) dν = Z Z {̺<e ̺} (̺ − ̺e) dν = 0, also (̺ − ̺e)− dν = 0. (̺ − ̺e)+ = (̺ − ̺e)− = 0 ν-fast überall, ν-fast überall. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN Notation: 201 Die Aussage (6.2.3) rechtfertigt die folgende Notation für eine Wahrscheinlichkeits- verteilung µ mit Dichte ̺ bzgl. ν: µ(dx) = ̺(x) ν(dx) dµ bzw. = ̺ dν µ bzw. = ̺ · ν. Für die nach der Bemerkung ν-fast überall eindeutig bestimmte Dichte von µ bzgl. ν verwenden wir dementsprechend auch die folgende Notation: ̺(x) dµ (x). dν = Wichtige Spezialfälle: (1). M ASSENFUNKTION ALS D ICHTE BZGL . DES Z ÄHLMASSES . Das Zählmaß auf einer abzählbaren Menge S ist das durch ν[B] |B|, = B ⊆ S, definierte Maß auf S. Die Gewichtsfunktion x 7→ µ[{x}] einer Wahrscheinlichkeitsvertei- lung µ auf S ist die Dichte von µ bzgl. des Zählmaßes ν. Insbesondere ist die Massenfunktion einer diskreten Zufallsvariable X : Ω → S die Dichte der Verteilung von X bzgl. ν: µX [B] = P [X ∈ B] = X pX (a) Z = a∈B pX (a)ν(da), für alle B ⊆ S. B Die Berechnungsformel für den Erwartungswert diskreter Zufallsvariablen ergibt sich damit als Spezialfall von Satz 6.12: Z 6.12 E[h(X)] = h(a)pX (a) ν(da) = X h(a)pX (a) a∈S für alle h : S → [0, ∞]. (2). D ICHTEN BZGL . DES L EBESGUEMASSES Eine Wahrscheinlichkeitsverteilung µ auf Rd mit Borelscher σ-Algebra hat genau dann eine Dichte ̺ bzgl. des Lebesguemaßes λ, wenn µ[(−∞, c1 ] × . . . × (−∞, cd ]] = Zc1 ··· −∞ Zcd ̺(x1 , . . . , xd ) dxd · · · dx1 −∞ für alle (c1 , . . . , cd ) ∈ Rd gilt. Insbesondere hat die Verteilung einer reellwertigen Zufalls- variable X genau dann die Dichte fX bzgl. λ, wenn FX (c) = µX [(−∞, c]] = Zc fX (x) dx für alle c ∈ R −∞ Universität Bonn Wintersemester 2009/2010 202 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ gilt. Die Verteilungsfunktion ist in diesem Fall eine Stammfunktion der Dichte, und damit λ-fast überall differenzierbar mit Ableitung FX′ (x) = für fast alle x ∈ R. fX (x) Für den Erwartungswert ergibt sich: E[h(X)] Z = h(x)fX (x) dx R für alle messbaren Funktionen h : R → R mit h ≥ 0 oder h ∈ L1 (R, B(R), µ). Beispiel (Normalverteilungen). Die Dichte der Standardnormalverteilung bzgl. des Lebesguemaßes ist ̺(x) = (2π)−1/2 · e−x 2 /2 . Damit ergibt sich für den Erwartungswert und die Varianz einer Zufallsvariable Z ∼ N (0, 1): E[Z] = Z∞ x · (2π)−1/2 · e−x 2 /2 dx = 0, und −∞ Var[Z] = E[(Z − E[Z])2 ] = E[Z 2 ] Z∞ 2 x2 · (2π)−1/2 · e−x /2 dx = = −∞ Z∞ 1 · (2π)−1/2 · e−x 2 /2 dx = 1. −∞ Hierbei haben wir im letzten Schritt partielle Integration benutzt. Ist X eine N (m, σ 2 )-verteilte Zufallsvariable, dann ist Z = X−m σ standardnormalverteilt, und es gilt X = m + σZ, also E[X] = m + σE[Z] = m, und Var[X] = Var[σZ] = σ 2 Var[Z] = σ2. Die Parameter m und σ geben also den Erwartungswert und die Standardabweichung der Normalverteilung an. (3). R ELATIVE D ICHTEN : Seien µ und ν zwei Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S) mit Dichten f bzw. g bezüglich eines Referenzmaßes λ (z.B. Zählmaß oder Lebesguemaß). Gilt g > 0 λ-fast überall, dann hat µ bzgl. ν die Dichte dµ dν = Einführung in die Wahrscheinlichkeitstheorie f g = dµ/dλ , dν/dλ Prof. Andreas Eberle 6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 203 denn nach Satz 6.12 gilt: Z µ[B] = f dλ = B Z = Z f g dλ g B f dν g für alle B ∈ S. B In der Statistik treten relative Dichten als „Likelihoodquotienten“ auf, wobei f (x) bzw. g(x) die „Likelihood“ eines Beobachtungswertes x bzgl. verschiedener möglicher zugrundeliegender Wahrscheinlichkeitsverteilungen beschreibt, s. Abschnitt 9.1. Existenz von Dichten Wir geben abschließend ohne Beweis den Satz von Radon-Nikodym an. Dieser Satz besagt, dass eine Wahrscheinlichkeitsverteilung (oder allgemeiner ein σ-endliches Maß) µ genau dann eine Dichte bzgl. eines anderen (σ-endlichen) Maßes ν hat, wenn alle ν-Nullmengen auch µNullmengen sind. Ein Maß µ auf einem messbaren Raum (S, S) heißt σ-endlich, wenn eine S Bn existiert. Folge von messbaren Mengen Bn ∈ S mit µ[Bn ] < ∞ und S = n∈N Definition. (1). Ein Maß µ auf (S, S) heißt absolutstetig bzgl. eines anderen Maßes ν auf demselben messbaren Raum (µ ≪ ν) falls für alle B ∈ S gilt: ν[B] = 0 =⇒ µ[B] = 0 (2). Die Maße µ und ν heißen äquivalent (µ ∼ ν), falls µ ≪ ν und ν ≪ µ. Beispiel. Ein Diracmaß δx , x ∈ R, ist nicht absolutstetig bzgl. das Lebesguemaßes λ auf R, denn es gilt λ[{x}] = 0, aber δx [{x}] > 0. Umgekehrt ist auch das Lebesguemaß nicht absolutstetig bzgl. des Diracmaßes. Satz 6.13 (Radon-Nikodym). Für σ-endliche Maße µ und ν gilt µ ≪ ν genau dann, wenn eine Dichte ̺ ∈ L1 (S, S, ν) existiert mit µ[B] = Z für alle B ∈ S. ̺ dν B Die eine Richtung des Satzes zeigt man leicht: Hat µ eine Dichte bzgl. ν, und gilt ν[B] = 0, so folgt µ[B] = Z B Universität Bonn ̺ dν = Z ̺ · IB dν = 0, Wintersemester 2009/2010 204 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ da ̺ · IB = 0 ν-fast überall. Der Beweis der Umkehrung ist nicht so einfach, und kann funk- tionalanalytisch erfolgen, siehe z.B. Klenke: „Wahrscheinlichkeitstheorie“. Einen stochastischen Beweis über Martingaltheorie werden wir in der Vorlesung „Stochastische Prozesse“ führen. Beispiel (Absolutstetigkeit von diskreten Wahrscheinlichkeitsverteilungen). Sind µ und ν Wahrscheinlichkeitsverteilungen (oder σ-endliche Maße) auf einer abzählbaren Menge S, dann gilt µ ≪ ν genau dann, wenn µ(x) = 0 für alle x ∈ S mit ν(x) = 0 gilt. In diesem Fall ist die Dichte von µ bzgl. ν durch dµ (x) dν = µ(x) ν(x) beliebig falls ν(x) 6= 0 sonst gegeben. Man beachte, dass die Dichte nur für ν-fast alle x, also für alle x mit ν(x) 6= 0, eindeutig bestimmt ist. 6.3 Varianz, Kovarianz und lineare Regression Varianz und Standardabweichung Sei X : Ω → R eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wie zuvor für diskrete Zufallsvariablen (s. Abschnitt 3.1) definieren wir auch im allgemeinen Fall die Varianz Var[X] und die Standardabweichung σ[X] durch Var[X] := E[(X − E[X])2 ], σ[X] := p Var[X]. Auch in diesem Fall folgen aus der Linearität des Erwartungswerts die Rechenregeln Var[X] = E[X 2 ] − E[X]2 , Var[aX + b] = Var[aX] = und a2 · Var[X] (6.3.1) für alle a, b ∈ R. (6.3.2) Insbesondere ist die Varianz genau dann endlich, wenn E[X 2 ] endlich ist. Nach Korollar 6.5 gilt zudem genau dann Var[X] = 0, wenn X P -f.s. konstant gleich E[X] ist. Aufgrund des Transformationssatzes für den Erwartungswert können wir die Varianz auch allgemein aus der Verteilung µX = P ◦ X −1 berechnen: Korollar 6.14. Die Varianz Var[X] hängt nur von der Verteilung µX = P ◦ X −1 ab: Z Z 2 mit x = E[X] = x µ(dx). Var[X] = (x − x) µX (dx) Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 205 Beweis. Nach Satz 6.12 gilt Var[X] mit E[X] = R 2 E[(X − E[X]) ] = Z = (x − E[X])2 µX (dx) xµX (dx). Beispiel (Empirisches Mittel und empirische Varianz). Ist die zugrundeliegende Wahrscheinlichkeitsverteilung auf Ω eine empirische Verteilung n P 1X δω n i=1 i = von n Elementen ω1 , . . . , ωn aus einer Grundgesamtheit (z.B. alle Einwohner von Bonn, oder eine Stichprobe daraus), dann ist die Verteilung einer Abbildung X : Ω → S (statistisches Merkmal, z.B. Alter der Einwohner von Bonn) gerade die empirische Verteilung der auftretenden Werte xi = X(ωi ): n µX 1X δx . n i=1 i = Die Gewichte der empirischen Verteilung sind die relativen Häufigkeiten µX (a) h(a) , n = h(a) |{1 ≤ i ≤ n : xi = a}|. = Für den Erwartungswert einer Funktion g(X), g : S → R, ergibt sich E[g(X)] X = a∈{x1 ,...,xn } h(a) g(a) · n n 1X g(xi ), n i=1 = d.h. der Erwartungswert bzgl. der empirischen Verteilung ist das arithmetische Mittel der Werte g(xi ). Ist X reellwertig, so erhalten wir als Erwartungswert und Varianz das empirische Mittel E[X] X = a∈{x1 ,...,xn } a· h(a) n n = 1X xi n i=1 =: xn , und die empirische Varianz Var[X] = E[(X − E[X])2 ] = Universität Bonn 1 n n X i=1 (xi − xn )2 = X a∈{x1 ,...,xn } (a − xn )2 · = (x2 )n − (xn )2 =: h(a) n σn2 . Wintersemester 2009/2010 206 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Sind die xi selbst unabhängige Stichproben von einer Wahrscheinlichkeitsverteilung µ, dann ist n P δxi nach dem Gesetz der großen Zahlen eine Approximation die empirische Verteilung n−1 i=1 von µ, siehe Abschnitt 7.2 unten. Daher verwendet man das Stichprobenmittel xn und die Stichprobenvarianz σn2 bzw. die renormierte Stichprobenvarianz n s2n 1 X (xi − xn )2 = n − 1 i=1 in der Statistik, um den Erwartungswert und die Varianz einer zugrundeliegenden (unbekannten) Verteilung zu schätzen. Beispiel (Exponentialverteilung). Für eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable T gilt E[T ] = λ1 . Mit partieller Integration folgt zudem: E[T 2 ] = Z∞ t2 fT (t) dt = Z∞ −λt = 2te 2 λ dt = = 2 , λ2 0 p Var[T ] = Z∞ tfT (t) dt 0 2 E[T ] = λ σ(T ) t2 λe−λt dt 0 0 also Z∞ = (E[T 2 ] − E[T ]2 )1/2 = 1 . λ Die Standardabweichung ist also genauso groß wie der Erwartungswert! Beispiel (Heavy Tails). Eine Zufallsvariable X : Ω → R mit Verteilungsdichte fX (x) ∼ |x|−p für |x| → ∞ ist integrierbar für p > 2. Für p ∈ (2, 3] gilt jedoch Var[X] = Z∞ (x − E[X])2 fX (x) dx = ∞. −∞ Quadratintegrierbare Zufallsvariablen Für einen gegebenen Wahrscheinlichkeitsraum (Ω, A, P ) bezeichnen wir mit L2 (Ω, A, P ) den Raum aller bezüglich P quadratintegrierbaren Zufallsvariablen: L2 (Ω, A, P ) = {X : Ω → R messbar | Einführung in die Wahrscheinlichkeitstheorie E[X 2 ] < ∞}. Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 207 Der Raum ist ein Unterraum des Vektorraums aller A/B(R) messbaren Abbildungen, denn für X, Y ∈ L2 (Ω, A, P ) und a ∈ R gilt: E[(aX + Y )2 ] ≤ E[2(aX)2 + 2Y 2 ] = 2a2 E[X 2 ] + 2E[Y 2 ] L2 (Ω, A, P ) L1 (Ω, A, P ), < ∞. Zudem gilt ⊆ denn aus |X| ≤ (X 2 + 1)/2 folgt 1 2 E[|X|] ≤ E (X + 1) 2 = 1 (E[X 2 ] + 1) 2 < ∞ für alle X ∈ L2 (Ω, A, P ). Hierbei haben wir wesentlich benutzt, dass P ein endliches Maß ist - für unendliche Maße ist der Raum L2 nicht in L1 enthalten! Nach (6.3.1) ist umgekehrt eine Zufallsvariable aus L1 genau dann in L2 enthalten, wenn sie endliche Varianz hat. Auf dem Vektorraum L2 (Ω, A, P ) L2 (Ω, A, P )/ ∼ = der Äquivalenzklassen von P -fast sicher gleichen quadratintegrierbaren Zufallsvariablen wird durch := (X, Y )L2 E[XY ] und kXkL2 := 1/2 (X, X)L2 ein Skalarprodukt und eine Norm definiert. Hierbei ist der Erwartungswert E[XY ] wegen |XY | ≤ (X 2 + Y 2 )/2 definiert. Insbesondere gilt die Cauchy-Schwarz-Ungleichung |E[XY ]| ≤ E[X 2 ]1/2 · E[Y 2 ]1/2 für alle X, Y ∈ L2 (Ω, A, P ). In der Analysis wird gezeigt, dass L2 (Ω, A, P ) bzgl. des L2 -Skalarprodukts ein Hilbertraum, also vollständig bzgl. der L2 -Norm ist. Beste Prognosen Angenommen wir wollen den Ausgang eines Zufallsexperiments vorhersagen, dass durch eine reellwertige Zufallsvariable X : Ω → R beschrieben wird. Welches ist der beste Prognosewert a für X(ω), wenn uns keine weiteren Informationen zur Verfügung stehen? Die Antwort hängt offensichtlich davon ab, wie wir den Prognosefehler messen. Häufig verwendet man den mittleren quadratischen Fehler (mean square error) MSE Universität Bonn = E[(X − a)2 ] Wintersemester 2009/2010 208 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ bzw. die Wurzel (root mean square error) RMSE = MSE1/2 kX − akL2 (Ω,A,P ) . = Satz 6.15 (Erwartungswert als bester L2 -Prognosewert). Ist X ∈ L2 (Ω, A, P ), dann gilt für alle a ∈ R: E[(X − a)2 ] = Var[X] + (a − E[X])2 ≥ E[(X − E[X])2 ] Der mittlere quadratische Fehler des Prognosewertes a ist also die Summe der Varianz von X und des Quadrats des Bias (systematischer bzw. mittlerer Prognosefehler) a − E[X]: Varianz + Bias2 . = MSE Insbesondere ist der mittlere quadratische Fehler genau für a = E[X] minimal. Beweis. Für a ∈ R gilt wegen der Linearität des Erwartungswertes: E[(X − a)2 ] = E[(X − E[X] + E[X] − a)2 ] = E[(X − E[X])2 ] + 2E[(X − E[X]) · (E[X] − a)] + E[(E[X] − a)2 ] {z } | =(E[X] − E[X]) ·(E[X]−a) {z } | =0 2 = Var[X] + (E[X] − a) . Verwendet man eine andere Norm, um den Prognosefehler zu messen, dann ergeben sich im Allgemeinen andere beste Prognosewerte. Beispielsweise gilt: Satz 6.16 (Median als bester L1 -Prognosewert). Ist X ∈ L1 (Ω, A, P ) und m ein Median der Verteilung von X, dann gilt für alle a ∈ R: E[|X − a|] ≥ E[|X − m|] . Beweis. Für m ≥ a folgt die Behauptung aus der Identität |X − m| − |X − a| ≤ (m − a)(I(−∞,m) (X) − I[m,∞) (X)) durch Bilden des Erwartungswertes. Der Beweis für m ≤ a verläuft analog. Insbesondere minimieren Stichprobenmittel und Stichprobenmedian einer Stichprobe x1 , . . . , xn ∈ P P R also die Summe der quadratischen bzw. absoluten Abweichungen (xi − a)2 bzw. |xi − a|. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 209 Kovarianz und Korrelation Seien X und Y quadratintegrierbare reellwertige Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Wie schon für diskrete Zufallsvariablen definieren wir wieder die Kovarianz Cov[X, Y ] := E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] · E[Y ] und den Korrelationskoeffizienten ̺[X, Y ] := Cov[X, Y ] , σ[X]σ[Y ] falls σ[X] · σ[Y ] 6= 0. Die Zufallsvariablen X und Y heißen unkorreliert, falls Cov[X, Y ] = 0 gilt, d.h. falls E[XY ] = E[X] · E[Y ]. Um die Kovarianz zu berechnen, benötigen wir die gemeinsame Verteilung der Zufallsvariablen X und Y . Aus dem Transformationssatz für den Erwartungswert folgt: Korollar 6.17. Die Kovarianz Cov[X, Y ] hängt nur von der gemeinsamen Verteilung µX,Y = P ◦ (X, Y )−1 der Zufallsvariablen X und Y ab: Z Z Z x − z µX (dz) y − z µY (dz) µX,Y (dx dy). Cov[X, Y ] = Beweis. Nach dem Transformationssatz gilt Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])] Z Z Z x − z µX (dz) y − z µY (dz) µX,Y (dx dy). = Aus der Linearität des Erwartungswertes folgt, dass die Abbildung Cov : L2 × L2 → R symmetrisch und bilinear ist. Die Varianz Var[X] = Cov[X, X] ist die zugehörige quadratische Form. Insbesondere gilt wie im diskreten Fall: # " n n n X X X = Var[Xi ] + 2 · Var Cov[Xi , Xj ]. Xi i=1 Universität Bonn i=1 i,j=1 i<j Wintersemester 2009/2010 210 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Sind die Zufallsvariablen X1 , . . . , Xn unkorreliert, dann folgt: Var[X1 + . . . + Xn ] n X = Var[Xi ]. i=1 Die folgende Aussage ist ein Spezialfall der Cauchy-Schwarz-Ungleichung. Wir geben trotzdem einen vollständigen Beweis, da dieser auch in Zusammenhang mit linearer Regression von Interesse ist. Satz 6.18 (Cauchy-Schwarz). (1). Für X, Y ∈ L2 gilt: | Cov[X, Y ]| ≤ Var[X]1/2 · Var[Y ]1/2 = σ[X] · σ[Y ]. (6.3.3) (2). Im Fall σ[X] · σ[Y ] 6= 0 gilt für den Korrelationskoeffizienten |̺[X, Y ]| ≤ 1. (6.3.4) Gleichheit in (6.3.3) bzw. (6.3.4) gilt genau dann, wenn ein a 6= 0 und ein b ∈ R existieren, sodass Y = aX + b P -fast sicher gilt. Hierbei ist ̺[X, Y ] = 1 im Falle a > 0 und ̺[X, Y ] = −1 für a < 0. Beweis. Im Fall σ[X] = 0 gilt X = E[X] P -fast sicher, und die Ungleichung (6.3.3) ist trivialerweise erfüllt. Wir nehmen nun an, dass σ[X] 6= 0 gilt. (1). Für a ∈ R gilt: 0 ≤ Var[Y − aX] = Var[Y ] − 2a Cov[X, Y ] + a2 Var[X] 2 Cov[X, Y ] Cov[X, Y ]2 = a · σ[X] − + Var[Y ]. − σ[X] Var[X] Da der erste Term für a := Cov[X,Y ] σ[X]2 (6.3.5) verschwindet, folgt: Var[Y ] − Cov[X, Y ]2 Var[X] ≥ 0. (2). Die Ungleichung |̺[X, Y ]| ≤ 1 folgt unmittelbar aus (6.3.3). Zudem gilt genau dann Gleichheit in (6.3.5) bzw. (6.3.3), wenn Var[Y − aX] = 0 gilt, also Y − aX P -fast sicher konstant ist. In diesem Fall folgt Cov[X, Y ] = Cov[X, aX] = a Var[X], also hat ̺[X, Y ] dasselbe Vorzeichen wie a. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 211 Beispiel (Empirischer Korrelationskoeffizent). Ist die zugrundeliegende Wahrscheinlichkeitsn P δωi , und sind X, Y : Ω → R reellwertige verteilung eine empirische Verteilung P = n1 i=1 Abbildungen (statistische Merkmale), dann gilt n 1X µX,Y = δ(x ,y ) mit n i=1 i i xi = X(ωi ) und yi = Y (ωi ). Als Kovarianz ergibt sich n Cov[X, Y ] 1X (xi − xn )(yi − y n ) n i=1 = n X 1 n = xi yi i=1 ! − xn y n . Der entsprechende empirische Korrelationskoeffizient der Daten (xi , yi ), 1 ≤ i ≤ n, ist n P (xi − xn )(yi − y n ) Cov[X, Y ] i=1 = ̺[X, Y ] = 1/2 n 1/2 =: rn . n σ[X]σ[Y ] P P (yi − y n )2 (xi − xn )2 i=1 i=1 Den empirischen Korrelationskoeffizienten verwendet man als Schätzer für die Korrelation von Zufallsgrößen mit unbekannten Verteilungen. Die Grafiken 6.3 und 6.3 zeigen Stichproben mit verschiedenen Korrelationskoeffizienten ̺. b Y 2 b 1 −2 b b b bb b b b bb b bb bb b b bb bb b b bb b bb b bbb b bb b b bb b b bb b bb b bbb b bb b b b b bb b bb 1 b b b b b 2 X 1 −2 b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b 2 X −2 b b −1 −1 Y 2 ̺=1 b b b −2 b b b b b b b b 1 b b b b b b b bb b b b b b b b −1 −1 b b b b b b b b b bb b b b b bb b b bb b b b b b b b 1 b b b b b b b −2 b b b b bbb b bbbb bb b b b b b b b b b 1 b b b 2 X b b b b b b bb b b b b b b ̺=0 1 bb bb b bbb b bb b b b b b b b b b b b b b b b bb b bb b b b b b b b b b b b b b b b bb b b b b −2 Y 2 1 2 b b b b b b b b b b b b −2 ̺= b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b bb b b b b b b b b b b b b b b b 1 b b bb b b 1 b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b bb b b b b b b −1 −1 b bb b b b b b b b b b b b bb b b b −2 b b b b Y 2 b b b b b −1 −1 bb bb bb b b bb Y 2 2 X −2 b −1 −1 −2 bb bbb bb b bb b b b b bb bb bb b bbb bb b 2 X 1 b bbb bb b b b b b b b ̺ = −1 ̺= Abbildung 6.2: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen − 21 Universität Bonn b Wintersemester 2009/2010 b 212 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Y 2 b b b b b b bb b b −2 bbb b bbbb bb b 1 bb bb b bbb b bb bb bb bb b b bb b b b −1 −1 b bb bb bb b bbb bb b 2 X 1 b bbb bb b b −2 b b b b b ̺=1 Abbildung 6.3: Stichprobe von 100 Punkten von korrelierten Standardnormalverteilungen b Anwendung auf lineare Prognose (Regression) Seien X, Y ∈ L2 (Ω, A, P ) Zufallsvariablen mit σ[X] 6= 0. Angenommen, wir kennen den Wert X(ω) in einem Zufallsexperiment und suchen die beste lineare Vorhersage Ŷ (ω) = aX(ω) + b, (a, b ∈ R) (6.3.6) für Y (ω) im quadratischen Mittel, d.h. den Minimierer des mittleren quadratischen Fehlers, := MSE E[(Ŷ − Y )2 ], unter alle Zufallsvariablen Ŷ , die affine Funktionen von X sind. Korollar 6.19. Der mittlere quadratische Fehler ist minimal unter allen Zufallsvariablen Ŷ = aX + b (a, b ∈ R) für Ŷ (ω) = E[Y ] + Cov[X, Y ] · (X(ω) − E[X]). Var[X] Beweis. Es gilt MSE = Var[Y − Ŷ ] + E[Y − Ŷ ]2 = Var[Y − aX] + (E[Y ] − aE[X] − b)2 . Der zweite Term ist minimal für b E[Y ] − aE[X], = und der erste Term für a = Einführung in die Wahrscheinlichkeitstheorie Cov[X, Y ] , σ[X]2 Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 213 siehe den Beweis der Cauchy-Schwarz-Ungleichung, Satz 6.18. Die bzgl. des mittleren quadratischen Fehlers optimale Prognose für Y gestützt auf X ist also Ŷopt = aX + b = E[Y ] + a(X − E[X]). Beispiel (Regressionsgerade, Methode der kleinsten Quadrate). Im Beispiel der empirischen Verteilung von oben erhalten wir die Regressionsgerade y = ax + b, die die Quadratsumme n X (axi + b − yi )2 n · MSE = i=1 der Abweichungen minimiert. Es gilt a Cov[X, Y ] σ[X]2 = = n P i=1 (xi − xn )(yi − y n ) n P i=1 und b = E[Y ] − a · E[X] = (xi − xn )2 y n − a · xn . Die Regressionsgeraden sind in Grafik 6.3 eingezeichnet. Beispiel (Zweidimensionale Normalverteilung ). Die zweidimensionale Normalverteilung N (m, C) ist die Verteilung im R2 mit Dichte 1 1 −1 √ fm,C (x) = x ∈ R2 . · exp − (x − m) · C (x − m) , 2 2π · det C ! v c 1 Hierbei ist m ∈ R2 und C = eine symmetrische positiv-definite Matrix mit Koeffizic v2 √ enten c ∈ R und v1 , v2 > 0. Mit σi := vi , i = 1, 2, und ̺ := σ1cσ2 gilt: det C = v1 v2 − c2 C −1 = 1 det C σ12 σ22 · (1 − ̺2 ), ! ̺ 1 − σ1 σ2 v2 −c 2 1 , · σ1̺ = 2 1 1−̺ −c v1 − σ1 σ2 2 σ = und 2 also 2 2 x1 −m1 x2 −m2 x1 −m1 x2 −m2 1 exp − 2(1−̺2 ) − 2̺ σ1 · σ2 + σ1 σ2 p . fm,C (x) = 2πσ1 σ2 1 − ̺2 Die folgende Aussage zeigt, dass die Koeffizienten mi , σi und ̺ tatsächlich der Mittelwert, die Standardabweichung und die Korrelation der Koordinaten x1 und x2 sind: Behauptung: Universität Bonn Wintersemester 2009/2010 214 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ (1). fm,C ist eine Wahrscheinlichkeitsdichte bzgl. des Lebesguemaßes im R2 . (2). Für reellwertige Zufallsvariablen X1 , X2 mit gemeinsamer Verteilung µX1 ,X2 = N (m, C) und i = 1, 2 gilt E[Xi ] = mi , Var[Xi ] = vi , Cov[X1 , X2 ] = c, und (6.3.7) d.h. m ist der Mittelwertvektor und C = (Cov[Xi , Xj ])i,j die Kovarianzmatrix der Normalverteilung N (m, C). Der Beweis der Behauptung wird der Leserin/dem Leser als Übung überlassen - wir zeigen nur exemplarisch die Berechnung der Kovarianz im Fall m = 0. Mit quadratischer Ergänzung können wir den Exponenten in der Dichte f0,C (x) schreiben als 1 − 2(1 − ̺2 ) Mit m(x e 2) = Z x2 x1 −̺ σ1 σ2 2 1 − 2 x2 σ2 2 . x2 ̺σ1 erhalten wir dann nach dem Satz von Fubini: σ2 x1 x2 f0,C (x) dx R2 x22 1 2 = (x1 − m(x e 2 )) ] dx1 exp − 2 dx2 x1 x2 exp[− 2(1 − ̺2 )σ12 2σ2 2πσ1 σ2 1 − ̺2 Z x22 1 dx2 = ̺σ1 σ2 = c, x e = p 2 · m(x 2 ) · exp − 2σ22 2πσ22 | {z } 1 p Z Z x22 ̺σ1 /σ2 wobei wir im zweiten und dritten Schritt die Formeln für den Erwartungswert und die Varianz von eindimensionalen Normalverteilungen verwendet haben. Nach dem Transformationssatz ergibt sich: E[X1 X2 ] = Z x1 x2 µX1 ,X2 (dx) = c. Da auf ähnliche Weise E[X1 ] = E[X2 ] = 0 folgt, ist c die Kovarianz von X1 und X2 . Bemerkung. Ist X = (X1 , X2 ) ein N (m, C)-verteilter Zufallsvektor, dann ist jede Linear- kombination Y = α1 X1 + α2 X2 , α ∈ R2 , normalverteilt mit Mittelwert α · m und Varianz α · Cα. Auch dies kann man durch eine explizite Berechnung der Verteilungsfunktion aus der gemeinsamen Dichte von X1 und X2 zeigen. Wir werden multivariate Normalverteilungen systematischer in Abschnitt 9.3 untersuchen, und dort auch einen eleganteren Beweis der letzten Aussage mithilfe von charakteristischen Funktionen geben. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 215 Beispiel (Autoregressiver Prozess). Seien X0 und Zn , n ∈ N, unabhängige reellwertige Zufallsvariablen mit Zn ∼ N (0, 1) für alle n. Der durch das „stochastische Bewegungsgesetz“ Xn = αXn−1 | {z } + lineares Bewegungsgesetz εZn |{z} n ∈ N, , zufällige Störung, Rauschen (6.3.8) definierte stochastische Prozess (Xn )n=0,1,2,... heißt autoregressiver Prozess AR(1) mit Parametern ε, α ∈ R. Autoregressive Prozesse werden zur Modellierung von Zeitreihen eingesetzt. Im allgemeineren autoregressiven Modell AR(p), p ∈ N, mit Parametern ε, α1 , . . . , αp ∈ R lautet das Bewegungsgesetz Xn p X = αi Xn−i + εZn , i=1 n ≥ p. Grafik 6.3 zeigt simulierte Trajektorien von AR(1)- und AR(2)-Prozessen: Das folgende Lemma fasst einige grundlegende Eigenschaften des AR(1) Modells zusammen. Lemma 6.20. Für den AR(1)-Prozess mit Parametern ε, α und m ∈ R, σ > 0 gilt: (1). Xn−1 ∼ N (m, σ 2 ) =⇒ Xn ∼ N (αm, α2 σ 2 + ε2 ). 2 ε (2). Für |α| < 1 ist die Verteilung µ = N (0, 1−α 2 ) ein Gleichgewicht, d.h. X0 ∼ µ =⇒ Xn ∼ µ ∀n ∈ N. ε2 1 − α2 für alle 0 ≤ k ≤ n. Bei Startverteilung P ◦ X0−1 = µ gilt: Cov[Xn , Xn−k ] = αk · Exponentieller Abfall der Korrelationen Universität Bonn Wintersemester 2009/2010 216 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ Beweis. Gilt Xn−1 ∼ N (m, σ 2 ), dann ist (Xn−1 , Zn ) bivariat normalverteilt, also ist auch die Linearkombination Xn = aXn−1 + εZn normalverteilt. Der Erwartungswert und die Varianz von Xn ergeben sich aus (6.3.7). Der Beweis der übrigen Aussagen wird dem Leser als Übungsaufgabe überlassen. Bemerkung. (1). Der AR(1)-Prozess ist eine Markovkette mit Übergangswahrscheinlichkeiten p(x, ·) = N (αx, ε2 ), s. Abschnitt 9.1 unten. (2). Ist die gemeinsame Verteilung der Startwerte X0 , X1 , . . . , Xp−1 eine multivariate Normalverteilung, dann ist der AR(p)-Prozess ein Gaussprozess, d.h. die gemeinsame Verteilung von X0 , X1 , . . . , Xn ist für jedes n ∈ N eine multivariate Normalverteilung. Unabhängigkeit und Unkorreliertheit Wir zeigen abschließend, dass auch für allgemeine Zufallsvariablen X und Y aus Unabhängigkeit die Unkorreliertheit von beliebigen Funktionen f (X) und g(Y ) folgt. Seien X : Ω → S und Y : Ω → T Zufallsvariablen mit Werten in messbaren Räumen (S, S) und (T, T ). Satz 6.21. Es sind äquivalent: (1). Die Zufallsvariablen X und Y sind unabhängig, d.h. P [X ∈ A, Y ∈ B] = P [X ∈ A] · P [Y ∈ B] für alle A ∈ S und B ∈ T (2). Die Zufallsvariablenf (X) und g(Y ) sind unkorreliert für alle messbaren Funktionen f, g mit f, g ≥ 0 bzw. f (X), g(Y ) ∈ L2 (Ω, A, P ), d.h. E[f (X) · g(Y )] = E[f (X)] · E[g(Y )]. (6.3.9) Beweis. Offensichtlich folgt (1) aus (2) durch Wahl von f = IA und g = IB . Die umgekehrte Implikation folgt durch maßtheoretische Induktion: Gilt (1), dann ist (6.3.9) für Indikatorfunktionen f und g erfüllt. Wegen der Linearität beider Seiten dieser Gleichung in f und g gilt (6.3.9) auch für beliebige Elementarfunktionen. Für messbare f, g ≥ 0 betrachten wir Folgen von Elementar- funktionen fn , gn mit fn ր f, gn ր g. Die Aussage (6.3.9) folgt durch monotone Konvergenz. Allgemeine Funktionen zerlegen wir in ihren Positiv- und Negativanteil, und wenden die Aussage auf diese an. Also gilt Cov[f (X), g(Y )] = 0 für alle messbaren f, g mit f, g ≥ 0 bzw. f (X), g(Y ) ∈ L2 (Ω, A, P ). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 217 Korollar 6.22. Sind X, Y ∈ L1 (Ω, A, P ) unabhängig, so gilt: X ·Y ∈ L1 (Ω, A, P ) und E[XY ] = E[X] · E[Y ]. Beweis. Nach Satz 6.21 gilt: E[|XY |] = E[|X|] · E[|Y |] < ∞. Die Formel für E[XY ] folgt durch die Zerlegungen X = X + − X − und Y = Y + − Y − . Universität Bonn Wintersemester 2009/2010 Kapitel 7 Gesetze der großen Zahlen In diesem Kapitel beweisen wir verschiedene Gesetze der großen Zahlen, d.h. wir leiten Bedinn P Xi einer Folge (Xi )i∈N von reellwertigen Zufallsgungen her, unter denen die Mittelwerte n1 i=1 variablen gegen ihren Erwartungswert konvergieren. Dabei unterscheiden wir verschiedene Arten der Konvergenz, die wir zunächst genauer untersuchen wollen. 7.1 Grundlegende Ungleichungen und Konvergenz von Zufallsvariablen Konvergenzbegriffe für Zufallsvariablen Seien Yn , n ∈ N, und Y reellwertige Zufallsvariablen, die auf einem gemeinsamen Wahrschein- lichkeitsraum (Ω, A, P ) definiert sind. Wir betrachten die folgenden Konvergenzbegriffe für die Folge (Yn )n∈N : Definition. (1). Fast sichere Konvergenz: Die Folge (Yn )n∈N konvergiert P -fast sicher gegen Y , falls gilt: P h lim Yn = Y n→∞ i = P [{ω ∈ Ω|Yn (ω) → Y (ω)}] = 1. (2). Stochastische Konvergenz (Convergence in probability): P Die Folge (Yn )n∈N konvergiert P -stochastisch gegen Y (Notation Yn → Y ), falls lim P [|Yn − Y | > ε] n→∞ = 218 0 für alle ε > 0 gilt. 7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 219 (3). Lp -Konvergenz (1 ≤ p < ∞): Die Folge (Yn )n∈N konvergiert in Lp (Ω, A, P ) gegen Y , falls lim E[|Yn − Y |p ] = n→∞ 0. Ein Gesetz der großen Zahlen bezüglich fast sicherer Konvergenz heißt starkes Gesetz der großen Zahlen, ein G.d.g.Z. bezüglich stochastischer Konvergenz heißt schwaches Gesetz der großen Zahlen. Wir wollen nun die Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen untersuchen. Satz 7.1. (1). Fast sichere Konvergenz impliziert stochastische Konvergenz. (2). Die umgekehrte Implikation gilt im Allgemeinen nicht. Beweis. (1). Konvergiert Yn P -fast sicher gegen Y , dann gilt für ε > 0: 1 = P [|Yn − Y | < ε schließlich] # " [ \ {|Yn − Y | < ε} = P m n≥m = ≤ lim P m→∞ " \ n≥m # {|Yn − Y | < ε} lim inf P [|Yn − Y | < ε] m→∞ n≥m = lim inf P [|Yn − Y | < ε]. n→∞ Es folgt lim P [|Yn − Y | < ε] = 1 für alle ε > 0, d.h. Yn konvergiert auch P -stochastisch n→∞ gegen Y . (2). Sei andererseits P das Lebesguemaß auf Ω = (0, 1] mit Borelscher σ-Algebra. Wir betrachten die Zufallsvariablen Y1 = I(0,1] , Y2 = I(0, 1 ] , Y3 = I( 1 ,1] , Y4 = I(0, 1 ] , Y5 = I( 1 , 1 ] , Y6 = I( 1 , 3 ] , Y6 = I( 3 ,1] , . . . 2 2 4 4 2 2 4 4 Dann gilt P [|Yn | > ε] = P [Yn = 1] → 0 für alle ε > 0, also konvergiert Yn stochastisch gegen 0, obwohl lim sup Yn (ω) Universität Bonn = 1 für alle ω ∈ Ω gilt. Wintersemester 2009/2010 220 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Hier ist ein weiteres Beispiel, das den Unterschied zwischen stochastischer und fast sicherer Konvergenz zeigt: Beispiel. Sind T1 , T2 , . . . unter P unabhängige Exp(1)-verteilte Zufallsvariablen, dann konvergiert Tn / log n P -stochastisch gegen 0, denn Tn ≥ε = P [Tn ≥ ε · log n] P log n = n→∞ n−ε → 0 für alle ε > 0. Andererseits gilt nach (5.1.6) aber Tn log n lim sup n→∞ = 1 P -fast sicher, also konvergiert Tn / log n nicht P -fast sicher. Obwohl die stochastische Konvergenz selbst nicht fast sichere Konvergenz impliziert, kann man aus einer Verschärfung von stochastischer Konvergenz die fast sichere Konvergenz schließen. Wir sagen, dass eine Folge Yn , n ∈ N, von Zufallsvariablen auf (Ω, A, P ) schnell stochastisch gegen Y konvergiert, falls ∞ X n=1 P [|Yn − Y | ≥ ε] ∞ < für alle ε > 0. Lemma 7.2. Aus schneller stochastischer Konvergenz folgt fast sichere Konvergenz. Beweis. Wir können o.B.d.A. Y = 0 annehmen. Konvergiert Yn schnell stochastisch gegen 0, dann gilt: P [lim sup |Yn | ≤ ε] ≥ Es folgt P [lim sup |Yn | 6= 0] = P [|Yn | ≥ ε nur endlich oft] P [ ε∈Q+ {lim sup |Yn | > ε} = = 1. 0. Ähnlich zeigt man: Lemma 7.3. Konvergiert Yn P -stochastisch gegen Y , dann existiert eine Teilfolge Ynk , die P -fast sicher gegen Y konvergiert. Beweis. Wieder können wir o.B.d.A. Y = 0 annehmen. Konvergiert Yn stochastisch gegen 0, dann existiert eine Teilfolge Ynk mit 1 P |Ynk | ≥ k Einführung in die Wahrscheinlichkeitstheorie ≤ 1 . k2 Prof. Andreas Eberle 7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN Nach dem Lemma von Borel-Cantelli folgt 1 P |Ynk | ≥ nur endlich oft k 221 = 1, also Ynk → 0 P -fast sicher. Als nächstes beweisen wir eine Erweiterung der Čebyšev-Ungleichung, die wir an vielen Stellen verwenden werden. Insbesondere impliziert sie, dass stochastische Konvergenz schwächer ist als Lp -Konvergenz. Die Markov-Čebyšev-Ungleichung Sei X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wir verwenden die folgende Notation: Notation: E[X ; A] := E[X · IA ] = R A XdP . Satz 7.4 (Allgemeine Markov-Ungleichung). Sei h : [0, ∞] → [0, ∞] monoton wachsend und Borel-messbar. Dann gilt P [|X| ≥ c] ≤ E[h(|X|)] E[h(|X|) ; |X| ≥ c] ≤ h(c) h(c) für alle c > 0 mit h(c) 6= 0. Beweis. Da h nichtnegativ und monoton wachsend ist, gilt h(|X|) ≥ h(|X|) · I{|X|≥c} ≥ h(c) · I{|X|≥c} , also auch E[h(|X|)] ≥ E[h(|X|) ; |X| ≥ c] ≥ h(c) · P [|X| ≥ c]. Wichtige Spezialfälle: (1). Markov - Ungleichung: Für h(x) = x erhalten wir: P [|X| ≥ c] ≤ E[|X|] c für alle c > 0. Insbesondere gilt für eine Zufallsvariable X mit E[|X|] = 0: P [|X| ≥ c] = 0 für alle c > 0, also auch P [|X| > 0] = 0, d.h. X = 0 P -fast sicher. Universität Bonn Wintersemester 2009/2010 222 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN (2). Čebyšev - Ungleichung: Für h(x) = x2 und X = Y − E[Y ] mit Y ∈ L1 (Ω, A, P ) erhalten wir: P [|Y − E[Y ]| ≥ c] ≤ E[(Y − E[Y ])2 ] Var[Y ] = 2 c c2 für alle c > 0. Diese Ungleichung haben wir bereits in Abschnitt 3.2 im Beweis des schwachen Gesetzes der großen Zahlen verwendet. (3). Exponentielle Abschätzung: Für h(x) = exp(tx) mit t > 0 erhalten wir wegen I{X≥c} ≤ e−tc etX : P [X ≥ c] = E[I{X≥c} ] ≤ e−tc · E[etX ]. Die Abbildung t 7→ E[etX ] heißt momentenerzeugende Funktion der Zufallsvariablen X. Exponentielle Ungleichungen werden wir in Abschnitt 8.2 zur Kontrolle der Wahr- scheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen verwenden. Als erste Anwendung der allgemeinen Markovungleichung zeigen wir für reellwertige Zufallsvariablen X, Xn (n ∈ N): Korollar 7.5 (Lp -Konvergenz impliziert stochastische Konvergenz). Für 1 ≤ p < ∞ gilt: E[|Xn − X|p ] → 0 ⇒ P [|Xn − X| > ε] → 0 für alle ε > 0. Beweis. Nach der Markovungleichung mit h(x) = xp gilt: P [|Xn − X| ≥ ε] ≤ 1 E[|Xn − X|p ]. p ε Bemerkung. Aus stochastischer Konvergenz folgt im Allgemeinen nicht Lp -Konvergenz (Übung). Es gilt aber: Konvergiert Xn → X stochastisch, und ist die Folge der Zufallsvariablen |Xn |p (n ∈ N) gleichmäßig integrierbar, d.h. sup E[|Xn |p ; |Xn | ≥ c] → 0 n∈N für c → ∞, dann konvergiert Xn gegen X in Lp (Verallgemeinerter Satz von Lebesgue). Wir benötigen diese Aussage im Moment nicht, und werden sie daher erst in der Vorlesung »Stochastische Prozesse« beweisen. Als nächstes wollen wir den Zusammenhang zwischen Lp -Konvergenz für verschiedene Werte von p ≥ 1 untersuchen. Dazu verwenden wir eine weitere fundamentale Ungleichung: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 223 Die Jensensche Ungleichung Ist ℓ(x) = ax + b eine affine Funktion auf R, und X ∈ L1 eine integrierbare Zufallsvariable, dann folgt aus der Linearität des Lebesgueintegrals: E[ℓ(X)] = E[aX + b] = aE[X] + b = ℓ(E[X]) (7.1.1) Da konvexe Funktionen Suprema einer Familie von affinen Funktionen (nämlich der Tangenten an den Funktionsgraphen der konvexen Funktion) sind, ergibt sich für konvexe Funktionen eine entsprechende Ungleichung: Satz 7.6 (Jensensche Ungleichung). Ist P eine Wahrscheinlichkeitsverteilung, X ∈ L1 (Ω, A, P ) eine reellwertige Zufallsvariable, und h : R → R eine konvexe Abbildung, dann ist E[h(X)− ] < ∞, und es gilt h(E[X]) ≤ E[h(X)]. Warnung: Diese Aussage gilt (wie auch (7.1.1)) nur für die Integration bzgl. eines Wahrscheinlichkeitsmaßes! Bevor wir die Jensensche Ungleichung beweisen, erinnern wir kurz an die Definition und elementare Eigenschaften von konvexen Funktionen: Bemerkung. Eine Funktion h : R → R ist genau dann konvex, wenn h(λx + (1 − λ)y) ≤ λh(x) + (1 − λ)h(y) für alle λ ∈ [0, 1] und x, y ∈ R gilt, d.h. wenn alle Sekanten oberhalb des Funktionsgraphen liegen. 3 2 1 −4 −3 −2 x −1 1 2 3 y 4 Abbildung 7.1: Sekante an konvexer Funktion Universität Bonn Wintersemester 2009/2010 224 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Hieraus folgt, dass jede konvexe Funktion stetig ist: Für a < b < x < y < c < d gilt nämlich h(b) − h(a) b−a h(y) − h(x) y−x ≤ Also sind die Differenzenquotienten h(y)−h(x) y−x ≤ h(d) − h(c) . d−c gleichmäßig beschränkt auf (b, c), und somit ist h gleichmäßig stetig auf (b, c). Da konvexe Funktionen stetig sind, sind sie auch messbar. Die Existenz des Erwartungswertes E[h(X)] in (−∞, ∞] folgt dann aus E[h(X)− ] < ∞. Wir beweisen nun die Jensensche Ungleichung: Beweis. Ist h konvex, dann existiert zu jedem x0 ∈ R eine affine Funktion ℓ (Stützgerade) mit ℓ(x0 ) = h(x0 ) und ℓ ≤ h, siehe die Analysis Vorlesung oder [A. K LENKE : „WAHRSCHEIN LICHKEITSTHEORIE “, Abschnitt 7.2]. 1.5 1.0 0.5 x0 2 4 Abbildung 7.2: Darstellung von ℓ(x) und h(x) Wählen wir x0 := E[X], dann folgt h(E[X]) = ℓ(E[X]) = E(ℓ[X]) ≤ E[h(X)]. Der Erwartungswert auf der rechten Seite ist definiert, da h(X) durch die integrierbare Zufallsvariable ℓ(X) nach unten beschränkt ist. Insbesondere gilt E[h(X)− ] ≤ E[ℓ(X)− ] < ∞. Korollar 7.7 (Lq -Konvergenz impliziert Lp -Konvergenz). Für 1 < p ≤ q gilt: kXkp := 1 E[|X|p ] p ≤ kXkq . Insbesondere folgt Lp -Konvergenz aus Lq -Konvergenz. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.2. STARKE GESETZE DER GROSSEN ZAHLEN 225 Beweis. Nach der Jensenschen Ungleichung gilt q E[|X|p ] p E[|X|q ], ≤ da die Funktion h(x) = |x|q/p für q ≥ p konvex ist. Nach dem Korollar gilt für p ≤ q: Lp (Ω, A, P ) Lq (Ω, A, P ), ⊇ und Xn → X in Lq Xn → X in Lp . ⇒ Man beachte, dass diese Aussage nur für endliche Maße wahr ist, da im Beweis die Jensensche Ungleichung verwendet wird. Mithilfe der Jensenschen Ungleichung beweist man auch die Hölderungleichung: 1 1 + = E[|XY |] ≤ kXkp · kY kq für p, q ∈ [1, ∞] mit p q 1. 7.2 Starke Gesetze der großen Zahlen Wir werden nun Gesetze der großen Zahlen unter verschiedenen Voraussetzungen an die zugrundeliegenden Zufallsvariablen beweisen. Zunächst nehmen wir an, dass X1 , X2 , . . . ∈ L2 (Ω, A, P ) quadratintegrierbare Zufallsvariablen sind, deren Varianzen gleichmäßig beschränkt sind, und deren Korrelationen hinreichend schnell abklingen: Annahme: „Schnelles Abklingen der positiven Korrelation“ (A) Es existiert eine Folge cn ∈ R+ (n ∈ N) mit ∞ X n=0 und Cov[Xi , Xj ] ≤ cn < ∞ für alle i, j ∈ N. c|i−j| (7.2.1) Die Bedingung (A) ist insbesondere erfüllt, wenn die Korrelationen exponentiell abfallen, d.h. wenn | Cov[Xi , Xj ]| ≤ c · α|i−j| für ein α ∈ (0, 1) und c ∈ R+ gilt. Sind etwa die Zufallsvariablen Xi unkorreliert, und ist die Folge der Varianzen beschränkt, d.h. gilt Universität Bonn Wintersemester 2009/2010 226 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN (A1) Cov[Xi , Xj ] = 0 für alle i, j ∈ N, und (A2) v := sup Var[Xi ] < ∞, i dann ist die Annahme (A) mit c0 = v und cn = 0 für n > 0 erfüllt. In diesem Fall haben wir bereits in Abschnitt 3.2 ein schwaches Gesetz der großen Zahlen bewiesen. Wichtig: Es wird keine Unabhängigkeit vorausgesetzt! Sei nun Sn = X1 + . . . + Xn die Summe der ersten n Zufallsvariablen. Das schwache Gesetz der großen Zahlen Den Beweis des schwachen Gesetzes der großen Zahlen aus Abschnitt 3.2 können wir auf den hier betrachteten allgemeinen Fall erweitern: Satz 7.8 (Schwaches Gesetz der großen Zahlen, L2 -Version). Unter der Voraussetzung (A) gilt für alle n ∈ N und ε > 0: ∞ P n=1 2 # Sn E[Sn ] v − ≤ , n n n Sn E[Sn ] ≥ε ≤ v P − n n ε2 n E mit v := c0 + 2 · " und (7.2.2) (7.2.3) cn < ∞. Gilt insbesondere E[Xi ] = m für alle i ∈ N, dann folgt Sn n → m in L2 (Ω, A, P ) und P -stochastisch. Beweis. Unter Verwendung der Voraussetzung an die Kovarianzen erhalten wir " 2 # Sn E[Sn ] 1 Sn E = − = Var Var[Sn ] n n n n2 n 1 X Cov[Xi , Xj ] = n2 i,j=1 n ∞ 1 X X c|k| ≤ n2 i=1 k=−∞ = ≤ v n n n 1 XX c|i−j| n2 i=1 j=1 Die zweite Behauptung folgt daraus durch Anwenden der Čebyšev-Ungleichung. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.2. STARKE GESETZE DER GROSSEN ZAHLEN 227 Bemerkung. (1). Im Fall unkorrelierter Zufallsvariablen Xi (Annahmen (A1) und (A2)) ist die Aussage ein Spezialfall einer allgemeinen funktionalanalytischen Sachverhalts: Das Mittel von beschränkten orthogonalen Vektoren im Hilbertraum L2 (Ω, A, P ) = L2 (Ω, A, P )/ ∼ konvergiert gegen 0. Unkorreliertheit der Xi bedeutet gerade, dass die Zufallsvariablen Yi := Xi − E[Xi ] orthogonal in L2 sind - beschränkte Varianzen der Xi ist gleichbedeutend mit der Beschränktheit der L2 Normen der Yi . Es gilt Sn − E[Sn ] n X = Yi , i=1 also E " Sn E[Sn ] − n n 2 # n 1 X 2 Yi = 2 n i=1 = L n 1 X kYi k2L2 = n2 i=1 ≤ n n 1 XX hYi , Yj iL2 n2 i=1 j=1 1 sup kYi k2L2 . n i (2). Die L2 -Konvergenz und stochastische Konvergenz von (Sn − E[Sn ])/n gegen 0 gilt auch, falls die Korrelationen „langsam“ abklingen, d.h. falls (7.2.1) für eine nicht summierbare Nullfolge cn erfüllt ist. In diesem Fall erhält man allerdings im Allgemeinen keine Abschätzung der Ordnung O( n1 ) für den Fehler in (7.2.2) bzw. (7.2.3). (3). Eine für große n deutlich bessere Abschätzung des Fehlers in (7.2.3) (mit exponentiellem Abfall in n) erhält man bei Unabhängigkeit und exponentieller Integrierbarkeit der Xi mithilfe der exponentiellen Ungleichung, siehe Satz 8.3 unten. Das starke Gesetz für quadratintegrierbare Zufallsvariablen Unter derselben Voraussetzung wie in Satz 7.8 gilt sogar P -fast sichere Konvergenz: Satz 7.9 (Starkes Gesetz großer Zahlen, L2 -Version). Unter der Voraussetzung (A) konvergiert Sn (ω) E[Sn ] − n n Universität Bonn −→ 0 Wintersemester 2009/2010 228 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN für P -fast alle ω ∈ Ω. Insbesondere gilt Sn n −→ m P -fast sicher, falls E[Xi ] = m für alle i. Der Übersichtlichkeit halber führen wir den Beweis zunächst unter den stärkeren Voraussetzungen (A1) und (A2). Der allgemeine Fall ist eine Übungsaufgabe, die sich gut zum Wiederholen der Beweisschritte eignet: Beweis unter den Annahmen (A1) und (A2). Wir können o.B.d.A. E[Xi ] = 0 für alle i vorausfi := Xi − E[Xi ]; diese sind setzen – andernfalls betrachten wir die zentrierten Zufallsvariablen X wieder unkorreliert mit beschränkten Varianzen. Zu zeigen ist dann: Sn → 0 n P -fast sicher. Wir unterteilen den Beweis in mehrere Schritte: (1). Schnelle stochastische Konvergenz gegen 0 entlang der Teilfolge nk = k 2 : Aus der ČebyševUngleichung folgt: Sk 2 2 1 1 S k ≤ sup Var[Xi ]. P 2 ≥ ε ≤ 2 Var k ε k2 ε2 k 2 i Da die Varianzen beschränkt sind, ist der gesamte Ausdruck durch die Summanden einer summierbaren Reihe beschränkt. Somit ergibt sich nach Borel-Cantelli: Sk2 (ω) k2 → 0 für alle ω außerhalb einer Nullmenge N1 . (2). Wir untersuchen nun die Fluktuationen der Folge Sn zwischen den Werten der Teilfolge nk = k 2 . Sei Dk := max k2 ≤l<(k+1)2 |Sl − Sk2 |. Wir zeigen schnelle stochastische Konvergenz gegen 0 für Dk /k 2 . Für ε > 0 haben wir [ Dk { |Sl − Sk2 | > εk 2 } ≥ε = P P k2 2 2 k ≤l<(k+1) k2 +2k ≤ X l=k2 Einführung in die Wahrscheinlichkeitstheorie P [|Sl − Sk2 | > εk 2 ] ≤ const. , k2 Prof. Andreas Eberle 7.2. STARKE GESETZE DER GROSSEN ZAHLEN 229 denn nach der Čebyšev-Ungleichung gilt für k 2 ≤ l ≤ k 2 + 2k: P [|Sl − Sk2 | > εk 2 ] ≤ ≤ 1 Var[Sl − Sk2 ] ≤ ε2 k 4 1 ε2 k 4 Var " l − k2 k sup Var[Xi ] ≤ const · 4 . 2 4 εk k i l X i=k2 +1 Xi # Nach Lemma 7.2 folgt daher Dk (ω) → 0 k2 für alle ω außerhalb einer Nullmenge N2 . (3). Zu gegebenem n wählen wir nun k = k(n) mit k 2 ≤ n < (k + 1)2 . Durch Kombination der ersten beiden Schritte erhalten wir: Sn (ω) |Sk2 (ω)| + Dk (ω) ≤ n ≤ n Sk2 (ω) Dk (ω) −→ 0 k2 + k2 für n → ∞ für alle ω außerhalb der Nullmenge N1 ∪ N2 . Also konvergiert Sn /n P -fast sicher gegen 0. Beispiel (Random Walk im Rd ). Sei Sn = X1 + ... + Xn ein Random Walk im Rd mit unabhängigen identisch verteilten Inkrementen Xi mit Verteilung µ. Gilt Z 2 kxk2 µ(dx) < ∞, E[kXi k ] = Rd dann folgt nach dem schwachen Gesetz der großen Zahlen (angewandt auf die Komponenten n P (k) (k) Xi des Vektors Sn ): Sn = i=1 Sn (ω) n wobei m = R Rd −→ m für P -fast alle ω, xµ(dx) der Schwerpunkt der Inkrementverteilung ist. Insbesondere gilt für m 6= 0: Sn ∼ m·n für n → ∞ P -fast sicher, d.h. Sn wächst linear mit Geschwindigkeit m. Im Fall m = 0 gilt dagegen Sn (ω) → 0 n Universität Bonn P -fast sicher, Wintersemester 2009/2010 230 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN d.h. der Random Walk wächst sublinear. Eine viel präzisere Beschreibung der pfadweisen Asymptotik des Random Walk im Fall m = 0 liefert der Satz vom iterierten Logarithmus: Sn (ω) = +1 n log log n n→∞ Sn (ω) lim inf √ = −1 n→∞ n log log n lim sup √ P -fast sicher, P -fast sicher, siehe z.B. [BAUER : „WAHRSCHEINLICHKEITSTHEORIE “]. Beispiel (Wachstum in zufälligen Medien). Um ein zufälliges Populationswachstum zu beschreiben, definieren wir Zufallsvariablen Xn (n ∈ N) durch Xn = Yn · Xn−1 , X0 = 1, d.h. Xn = Qn i=1 Yi . Hierbei nehmen wir an, dass die Wachstumsraten Yi unabhängige identisch verteilte Zufallsvariablen mit Yi > 0 P -f.s. sind. Sei m = E[Yi ]. (1). A SYMPTOTIK DER E RWARTUNGSWERTE : Da die Yi unabhängig sind, gilt: E[Xn ] = n Y E[Yi ] = mn . i=1 Die mittlere Populationsgröße wächst also im superkritischen Fall m > 1 exponentiell und fällt im subkritischen Fall m < 1 exponentiell ab. Konkretes Beispiel: In einem Glücksspiel setzt der Spieler in jeder Runde die Hälfte seines Kapitals. Mit Wahrscheinlichkeit Wahrscheinlichkeit 1 2 1 2 erhält er das c-fache des Einsatzes zurück, und mit erhält er nichts zurück. Hier gilt: 1 (1 + c) mit p = 2 Yi = 1 mit p = 2 also 1 2 1 2 , 1 1 2+c m = E[Yi ] = (1 + c) + = . 4 4 4 Das Spiel ist also „fair“ für c = 2 und „superfair“ für c > 2. (2). A SYMPTOTIK VON Xn (ω): Wir nehmen nun an, dass log Y1 ∈ L2 gilt. Nach dem starken Gesetz der großen Zahlen folgt dann: n 1X 1 log Xn = log Yi → E[log Y1 ] =: α n n i=1 Einführung in die Wahrscheinlichkeitstheorie P -f.s. Prof. Andreas Eberle 7.2. STARKE GESETZE DER GROSSEN ZAHLEN 231 Also existiert für ε > 0 ein N (ω) mit N (ω) < ∞ P -fast sicher, Xn (ω) ≤ e(α+ε)n und Xn (ω) ≥ e(α−ε)n für alle n ≥ N (ω). Für α < 0 fällt Xn also P -fast sicher exponentiell ab, während Xn für α > 0 P -fast sicher exponentiell wächst. (3). Z USAMMENHANG VON α UND m: Nach der Jensenschen Ungleichung gilt: α = E[log Y1 ] ≤ log E[Y1 ] = log m. Hierbei haben wir benutzt, dass der Logarithmus eine konkave, bzw. − log eine konvexe Funktion ist. Im subkritischen Fall m < 1 ist also auch α strikt negativ, d.h. Xn fällt auch P -f.s. exponentiell ab. Im superkritischen Fall m > 1 kann es aber passieren, dass trotzdem α < 0 gilt, d.h. obwohl die Erwartungswerte exponentiell wachsen, fällt Xn P -fast sicher exponentiell! Im Beispiel Yi = 1 (1 + c) 2 1 2 mit p = 1 2 mit p = 1 2 von oben wachsen die Erwartungswerte exponentiell für c > 2, aber es gilt 1+c 1 1 1+c 1 log = log + log ≥ 0 ⇔ c ≥ 3. α = E[log Yi ] = 2 2 2 2 4 Für c ∈ (2, 3) ist das Spiel also superfair mit fast sicherem exponentiellem Bankrott! Die Voraussetzungen des Satzes von Lebesgue sind in dieser Situation nicht erfüllt, denn es gilt: E[Xn ] ր ∞, obwohl Xn → 0 P -fast sicher. Von L2 nach L1 mit Unabhängigkeit Sind Zufallsvariablen X, Y : Ω → S unabhängig, so sind f (X) und g(Y ) für beliebige be- schränkte oder nichtnegative Funktionen f, g : S → R unkorreliert. Bisher konnten wir zeigen, dass das starke Gesetz der großen Zahlen für unkorrelierte (bzw. schwach korrelierte) Zufallsvariablen Xn ∈ L2 mit gleichmäßig beschränkten Varianzen gilt. Die Unabhängigkeit der Xn ermöglicht es, diese Aussage auf integrierbare Zufallsvariablen (d.h. L1 statt L2 ) zu erweitern: Satz 7.10 (Kolmogorovs Gesetz der großen Zahlen). Seien X1 , X2 , ... ∈ L1 (Ω, A, P ) paarweise unabhängig und identisch verteilt mit E[Xi ] = m. Dann gilt: n 1 X Xi = m lim n→∞ n i=1 Universität Bonn P -fast sicher. Wintersemester 2009/2010 232 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Kolmogorov hatte eine entsprechende Aussage unter der Annahme von Unabhängigkeit (statt paarweiser Unabhängigkeit) bewiesen. Der Beweis unter der schwächeren Voraussetzung stammt von Etemadi (1981). Bemerkung (Dynamische Systeme, Ergodensatz). In einer dynamischen Interpretation bedeutet die Aussage Z n 1 X Xi (ω) −→ m = x µXi (dx) n i=1 P -fast sicher, des starken Gesetzes der großen Zahlen, dass die „zeitlichen Mittelwerte“ der Zufallsvariablen Xi gegen den „räumlichen Mittelwert“ m konvergieren. Dies ist ein Spezialfall eines viel allgemeineren Ergodensatzes, der eine entsprechende Aussage für ergodische dynamische Systeme liefert, siehe z.B. B REIMAN : P ROBABILITY oder D URRETT: P ROBABILITY: T HEORY AND E X AMPLES . von Satz 7.10. Wir führen den Beweis in mehreren Schritten. (1). Reduktion auf nichtnegative Zufallsvariablen. Wir können o.B.d.A. Xi ≥ 0 für alle i ∈ N voraussetzen. Andernfalls zerlegen wir Xi = Xi+ − Xi− . Die Zufallsvariablen Xi+ , i ∈ N, bzw. Xi− , i ∈ N, sind jeweils Funktionen der Xi , und daher wieder paarweise unabhängig. Aus dem Gesetz der großen Zahlen für Xi+ und Xi− folgt das Gesetz der großen Zahlen für die Zufallsvariablen Xi . (2). Reduktion auf Gesetz der großen Zahlen für Yi := Xi · I{Xi ≤i} . Nach dem Lemma von Borel-Cantelli gilt P [Yi 6= Xi unendlich oft] = 0, denn ∞ X i=1 P [Yi 6= Xi ] = = ≤ ∞ X i=1 ∞ X P [Xi > i] P [X1 > i] Zi=1∞ P [X1 > x] dx 1 n Pn i=1 (P [X1 > x] monoton fallend) 0 = E[X1 ] Also konvergiert (Xi identisch verteilt) < ∞. Xi P -fast sicher gegen m, falls dasselbe für Einführung in die Wahrscheinlichkeitstheorie 1 n Pn i=1 Yi gilt. Prof. Andreas Eberle 7.2. STARKE GESETZE DER GROSSEN ZAHLEN Sei nun Sn = 233 n X Yi . i=1 Die Zufallsvariablen Yi sind wieder paarweise unabhängig, und es gilt 0 ≤ Yi ≤ i. (3). Konvergenz der Erwartungswerte. Da die Zufallsvariablen Yi nicht mehr identisch verteilt sind, bestimmen wir zunächst den Grenzwert der Erwartungswerte der Mittelwerte Sn /n. Nach dem Satz von der monotonen Konvergenz gilt E[Yi ] = E[Xi ; Xi ≤ i] = E[X1 · I{X1 ≤i} ]−→E[X1 ] = m, also auch n Sn 1 X E E[Yi ] −→ m = n n i=1 (4). P -fast sichere Konvergenz von Sn n für i → ∞, für n → ∞. entlang der Teilfolgen kn = ⌊αn ⌋ , α > 1. Vorbemerkung: Es gilt X 1 1 1 const. const. = 2 + 2 + ... ≤ 2 = 2 2 m m+1 m k km ⌊α ⌋ ⌊α ⌋ ⌊α ⌋ n≥m n mit einer von m unabhängigen Konstanten. Behauptung: Skn S kn =m −→ lim E n→∞ kn kn P -fast sicher. Beweis der Behauptung: Nach dem Lemma von Borel-Cantelli genügt es, Skn − E[Skn ] P ≥ε < ∞ kn n=1 ∞ X zu zeigen. Dies ist der Fall, wenn ∞ X Skn Var kn n=1 <∞ gilt. Wegen Var[Yi ] ≤ E[Yi2 ] = E[Xi2 ; Xi ≤ i] = E[X12 ; X1 ≤ i] Universität Bonn Wintersemester 2009/2010 234 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN erhalten wir mithilfe der Vorbemerkung ∞ X Skn Var kn n=1 ∞ kn X 1 X = · Var[Yi ] k 2 i=1 n=1 n ∞ X ≤ i=1 E[X12 ; X1 ≤ i] · ≤ const. · ≤ const. · = const. · ≤ const. · ∞ X i=1 i=1 j=1 ∞ X 2 j=1 = const. · E " n 1 E X12 ; X1 ≤ i · 2 i ∞ X i X j=1 ∞ X X 1 k2 n:k ≥i n j 2 · P [X1 ∈ (j − 1, j]] · j · P [X1 ∈ (j − 1, j]] · 1 i2 ∞ X 1 i2 i=j j · P [X1 ∈ (j − 1, j]] ∞ X j=1 j · I{X1 ∈(j−1,j]} # ≤ const. · E[X1 + 1] < ∞. (5). P -fast sichere Konvergenz von Sn . n Für l ∈ N mit kn ≤ l ≤ kn+1 gilt wegen Yi ≥ 0: Skn ≤ Sl ≤ Skn+1 . Es folgt Sk Skn Sl kn+1 Skn+1 kn Skn ≤ n+1 = · = ≤ · . kn+1 kn kn+1 l kn kn kn+1 Für n → ∞ erhalten wir wegen m α ≤ kn+1 kn lim inf → α und Sl (ω) l ≤ Skn (ω) kn → m: lim sup Sl (ω) l ≤ αm für alle ω außerhalb einer von α abhängenden Nullmenge Nα . Für ω außerhalb der NullS menge α>1 Nα folgt somit: α∈Q Sl (ω) = m. l→∞ l lim Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.3. EMPIRISCHE VERTEILUNGEN 235 Korollar 7.11 (Gesetz der großen Zahlen ohne Integrierbarkeit). Seien X1 , X2 ... paarweise unabhängige, identisch verteilte, nicht-negative Zufallsvariablen. Dann gilt: n 1 X lim · Xi (ω) = E[X1 ] ∈ [0, ∞] n→∞ n i=1 P -fast sicher. Beweis. Nach Satz 7.10 gilt die Aussage im Fall E[X1 ] < ∞. Für E[X1 ] = ∞ erhalten wir für k ∈ N: n 1X lim inf Xi n→∞ n i=1 n ≥ 1X lim inf (Xi ∧ k) n→∞ n i=1 = E[X1 ∧ k] P -fast sicher. Für k → ∞ folgt dann mit monotoner Konvergenz n 1X Xi lim inf n→∞ n i=1 ≥ E[X1 ] = ∞, und damit die Behauptung. 7.3 Empirische Verteilungen Schätzen von Kenngrößen einer unbekannten Verteilung Angenommen, wir haben eine Stichprobe aus reellen Beobachtungswerten X1 , X2 , . . . , Xn gegeben, und möchten die zugrundeliegende Wahrscheinlichkeitsverteilung µ auf (R, B(R)) mög- lichst weitgehend rekonstruieren. Im einfachsten Modell interpretieren wir die Beobachtungswerte als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . mit Verteilung µ. R (1). S CHÄTZEN DES E RWARTUNGSWERTES: Sei |x| µ(dx) < ∞. Um den Erwartungswert Z m = x µ(dx) zu schätzen, verwenden wir das empirische Mittel n Xn := 1X Xi . n i=1 Das empirische Mittel ist ein erwartungstreuer Schätzer für m, d.h. X n ist eine Funktion von den Beobachtungswerten X1 , . . . , Xn mit E[X n ] = m. Obere Schranken für den Schätzfehler P [|X n − m| > ε], ε > 0, erhält man z.B. mithilfe der Čebyšev- oder der exponentiellen Markov-Ungleichung. Für n → ∞ gilt nach dem Gesetz der großen Zahlen Xn −→ m P -fast sicher, d.h. X n ist eine konsistente Folge von Schätzern für m. Universität Bonn Wintersemester 2009/2010 236 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN (2). S CHÄTZEN DER VARIANZ: Um die Varianz Z v = (x − m)2 µ(dx) der zugrundeliegenden Verteilung zu schätzen, verwendet man meistens die renormierte Stichprobenvarianz n Der Vorfaktor 1 n−1 (statt Ven 1 ) n Schätzer für v ist, denn aus 1 X (Xi − X n )2 . n − 1 i=1 = gewährleistet unter anderem, dass Ven ein erwartungstreuer n n 1X 1X (Xi − X n )2 = (Xi − m)2 − (X n − m)2 n i=1 n i=1 Stichprobenvarianz = MSE − (7.3.1) Stichprobenbias2 folgt " n 1X (Xi − X n )2 E n i=1 # n 1X Var[Xi ] − Var[X n ] n i=1 = n−1 v, n = also E[Ven ] = v. Um zu zeigen, dass Ven eine konsistente Folge von Schätzern für v ist, können wir erneut das Gesetz der großen Zahlen anwenden. Da die Zufallsvariablen Xi − X n , 1 ≤ i ≤ n, selbst nicht unabhängig sind, verwenden wir dazu die Zerlegung (7.3.1). Nach dem starken Gesetz der großen Zahlen für nichtnegative Zufallsvariablen erhalten wir n−1e Vn n n = 1X (Xi − m)2 − (X n − m)2 n i=1 −→ v P -fast sicher, also auch Ven → v P -fast sicher. (3). S CHÄTZEN VON I NTEGRALEN: Allgemeiner können wir für jede Funktion f ∈ L1 (S, S, µ) das Integral θ = Z f dµ erwartungstreu durch die empirischen Mittelwerte n θbn = Einführung in die Wahrscheinlichkeitstheorie 1X f (Xi ) n i=1 Prof. Andreas Eberle 7.3. EMPIRISCHE VERTEILUNGEN 237 schätzen. Dies haben wir schon in Kapitel 3 für Monte Carlo Verfahren verwendet. Da die Zufallsvariablen f (Xi ) wieder unabhängig und identisch verteilt sind mit Erwartungswert θ, gilt nach dem starken Gesetz der großen Zahlen: θbn −→ θ P -fast sicher. (7.3.2) (4). S CHÄTZEN DER V ERTEILUNG: Die gesamte Verteilung µ können wir durch die empirische Verteilung n µ bn (ω) 1X δX (ω) n i=1 i = der Zufallsstichprobe schätzen. µ bn ist eine „zufällige Wahrscheinlichkeitsverteilung,“ d.h. eine Zufallsvariable mit Werten im Raum W V (R) der Wahrscheinlichkeitsverteilungen auf (R, B(R)). Aus (7.3.2) ergibt sich die folgende Approximationseigenschaft der empirischen Verteilungen: Z n 1X f db µn = f (Xi ) n i=1 n→∞ −→ Z f dµ (7.3.3) P -fast sicher für alle f ∈ L1 (S, S, µ). Konvergenz der empirischen Verteilungsfunktionen Für die empirischen Verteilungsfunktionen Fn (c) = µ bn [(−∞, c]] 1 |{1 ≤ i ≤ n : Xi ≤ c}| n = von unabhängigen, identisch verteilten, reellwertigen Zufallsvariablen X1 , X2 , . . . mit VerteiR lungsfunktion F ergibt sich wegen Fn (c) = I(−∞,c] db µn : lim Fn (c) n→∞ = F (c) P -fast sicher für alle c ∈ R. (7.3.4) Diese Aussage kann man noch etwas verschärfen: Satz 7.12 (Glivenko-Cantelli). Sind X1 , X2 , . . . unabhängig und identisch verteilt mit Verteilungsfunktion F , dann gilt für die empirischen Verteilungsfunktionen Fn : sup |Fn (c) − F (c)| c∈R Universität Bonn −→ 0 P -fast sicher. (7.3.5) Wintersemester 2009/2010 238 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Beweis. Wir führen den Beweis unter der zusätzlichen Annahme, dass F stetig ist – für den allgemeinen Fall siehe z.B. Klenke: Wahrscheinlichkeitstheorie. Sie ε > 0 gegeben. Ist F stetig, dann existieren k ∈ N und Konstanten −∞ = c0 < c1 < c2 < ... < ck = ∞ mit F (ci ) − F (ci−1 ) ≤ für alle 1 ≤ i ≤ k. Da Fn nach 7.3.4 mit Wahrscheinlichkeit 1 punktweise gegen F konvergiert, existiert zudem ein n0 ∈ N mit max |Fn (ci ) − F (ci )| 0≤i≤n ε 2 < für alle n ≥ n0 . Wegen der Monotonie der Verteilungsfunktionen folgt dann Fn (c) − F (c) ≤ Fn (ci ) − F (ci−1 ) ≤ ε + Fn (ci ) − F (ci ) 2 < ε, ≤ F (ci ) − Fn (ci−1 ) ≤ ε + F (ci ) − Fn (ci ) 2 < ε, und entsprechend F (c) − Fn (c) für alle n ≥ n0 , c ∈ R, und 1 ≤ i ≤ k mit ci−1 ≤ c ≤ ci . Also gilt auch sup |Fn (c) − F (c)| < für alle n ≥ n0 . ε c∈R Bemerkung (QQ-Plot). In parametrischen statistischen Modellen nimmt man von vornherein an, dass die beobachteten Daten Realisierungen von Zufallsvariablen sind, deren Verteilung aus einer bestimmten Familie von Wahrscheinlichkeitsverteilungen stammt, z.B. der Familie aller Normalverteilungen. Um zu entscheiden, ob eine solche Annahme für gegebene reellwertige Daten x1 , . . . , xn gerechtfertigt ist, kann man die empirische Verteilungsfunktion mit der tatsächlichen Verteilungsfunktion vergleichen. Ein praktikables graphisches Verfahren ist der QuantilQuantil-Plot, bei dem die Quantile der empirischen und der theoretischen Verteilung gegeneinander aufgetragen werden. Um auf Normalverteilung zu testen, plottet man beispielsweise die Punkte k − 21 −1 Φ , x(k) , n k = 1, 2, . . . , n, wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist, und x(1) ≤ x(2) Einführung in die Wahrscheinlichkeitstheorie ≤ ... ≤ x(n) Prof. Andreas Eberle ε 2 7.3. EMPIRISCHE VERTEILUNGEN 239 die Ordnungsstatistiken von x1 , . . . , xn , also die (k − 21 )/n-Quantile der empirischen Verteilung sind. Ist die zugrundeliegende Verteilung eine Normalverteilung mit Mittel m und Standardab- weichung σ, dann liegen die Punkte für große n näherungsweise auf einer Geraden mit Steigung σ und Achsenabschnitt m, da für die Verteilungsfunktion und die Quantile der theoretischen Verteilung dann F (c) = P [X ≤ c] = P [σZ + m ≤ c] = c−m P Z≤ σ = Φ c−m σ , bzw. F −1 (u) = m + σΦ−1 (u) gilt. Die folgende Grafik zeigt QQ-Plots bzgl. der Normalverteilung für verschiedene Datensätze. Histogramme und Multinomialverteilung Die empirische Verteilung µ bn (ω) = 1 n n P i=1 δXi (ω) von Zufallsvariablen X1 , . . . , Xn ist selbst ei- ne Zufallsvariable mit Werten im Raum der Wahrscheinlichkeitsverteilungen. Wir wollen nun die Verteilung dieser Zufallsvariablen explizit berechnen, falls die Xi unabhängig und identisch verteilt mit endlichem Wertebereich S sind. Haben die Zufallsvariablen keinen endlichen Wertebereich, dann kann man die Aussagen trotzdem anwenden, indem man den Wertebereich in endlich viele Teilmengen (Klassen) zerlegt. Das Histogramm von n Beobachtungswerten x1 , . . . , xn , die in einer endlichen Menge S liegen, ist der Vektor ~h = (ha )a∈S , ha = |{1 ≤ i ≤ n|xi = a}|, der Häufigkeiten der möglichen Werte a ∈ S unter x1 , . . . , xn . Graphisch stellt man ein Histogramm durch ein Balkendiagramm dar: Universität Bonn Wintersemester 2009/2010 240 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN hc ha hd hb a c b d Abbildung 7.3: Histogramm der Klassen a, b, c und d mit den jeweiligen Häufigkeiten ha , hb , hc und hd Der Raum Hist(n, S) aller möglichen Histogramme von n Beobachtungswerten ist eine Teilmenge von {0, 1, . . . , n}S : Hist(n, S) = {~h = (ha )a∈S |ha ∈ Z+ , X a∈S ha = n} ⊆ {0, 1, . . . , n}S . Sie nun µ eine Wahrscheinlichkeitsverteilung auf der endlichen Menge S. Wir wollen die Verteilung des Histogrammvektors bestimmen, wenn die Beobachtungswerte unabhängige Stichproben von der Verteilung µ sind. Wir betrachten also unabhängige Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A , P ) mit Verteilung µ und die Häufigkeiten Ha (ω) := |{1 ≤ i ≤ n : Xi (ω) = a}| der möglichen Werte a ∈ S. Die Zufallsvariable Ha ist Bin(n, p)-verteilt mit p = µ[{a}]. Wir berechnen nun die gemeinsame Verteilung aller dieser Häufigkeiten, d.h. die Verteilung µH des Zufallsvektors H = (Ha )a∈S Einführung in die Wahrscheinlichkeitstheorie : Ω −→ Hist(n, S) Prof. Andreas Eberle 7.4. ENTROPIE 241 mit Werten im Raum der Histogramme. Dazu verwenden wir die Unabhängigkeit der Xi . Mit I = {1, . . . , n} erhalten wir: µH (~k) = P [Ha = ka ∀a ∈ S] = P [Xi = a genau ka -mal für alle a ∈ S] X = P [Xi = a ∀ i ∈ Ia ∀ a ∈ S] I= Ṡ Ia a∈S |Ia |=ka = X Y I= Ṡ µ[{a}]ka Ia a∈S a∈S |Ia |=ka Y n = µ[{a}]ka . ~k a∈S Hierbei laufen die Summen über alle disjunkten Zerlegungen von I = {0, 1, . . . , n} in Teilmen- gen ia , a ∈ S, mit jeweils ka Elementen, und der Multinomialkoeffizient n ~k := n! Q , ka ! ka ∈ {0, 1, . . . , n} mit a∈S X ka = n, a∈S gibt die Anzahl der Partitionen von n Elementen in Teilmengen von jeweils ka Elementen an. Definition. Die Verteilung des Histogrammvektors H heißt Multinomialverteilung für n Stichproben mit Ergebniswahrscheinlichkeiten µ(a), a ∈ S. Bemerkung. Im Fall |S| = 2 ist H(ω) eindeutig festgelegt durch H1 (ω), und die Zufallsvariable H1 ist binomialverteilt mit Parametern n und p = µ[{1}]. In diesem Sinn ergibt sich die Binomialverteilung als Spezialfall der Multinomialverteilung. 7.4 Entropie Wir definieren nun die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Mithilfe des Gesetzes der großen Zahlen können wir eine statistische Interpretation dieser Größe geben, aus der sich insbesondere der Quellenkodierungssatz von Shannon ergibt. Universität Bonn Wintersemester 2009/2010 242 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Definition und Eigenschaften Wir bemerken zunächst, dass die auf [0, ∞) definierte Funktion x log x für x > 0 u(x) := 0 für x = 0 stetig und strikt konvex ist mit u(x) ≤ 0 für alle x ∈ [0, 1], (7.4.1) u(x) ≥ x − 1 für alle x ≥ 0, (7.4.2) und absolutem Minimum u(1/e) = −1/e. 0.4 0.2 1 e 0.5 1.0 −0.2 −0.4 −0.6 −0.8 −1.0 −1.2 −1.4 Abbildung 7.4: Graph der Funktion u(x) (blau) und ihrer unteren Schranke x − 1 (rot) Sei nun S eine abzählbare Menge, und µ = (µ(x))x∈S eine Wahrscheinlichkeitsverteilung auf S. Definition. Die Größe H(µ) := − X µ(x) log µ(x) x∈S µ(x)6=0 = − X x∈S u(µ(x)) ∈ [0, ∞] heißt Entropie der Wahrscheinlichkeitsverteilung µ. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.4. ENTROPIE 243 Anschaulich können wir − log µ(x) interpretieren als Maß für die »Überraschung« bzw. den »Informationsgewinn«, falls eine Stichprobe von der Verteilung µ den Wert x hat. Die »Überraschung« ist umso größer, je unwahrscheinlicher x ist. Die Entropie H(µ) ist dann die »mittlere Überraschung« bzw. der »mittlere Informationsgewinn« beim Ziehen einer Stichprobe von µ. Eine wichtige Eigenschaft der Entropie, die auch die Wahl des Logarithmus erklärt, ist: Satz 7.13 (Faktorisierungseigenschaft). Für beliebige diskrete Wahrscheinlichkeitsverteilungen µ und ν gilt: H(µ ⊗ ν) = H(µ) + H(ν). Der mittlere Informationszuwachs in einem aus zwei unabhängigen Experimenten zusammengesetzten Zufallsexperiment ist also die Summe der einzelnen mittleren Informationszuwächse. Beweis. Nach Definition der Entropie gilt: H(µ ⊗ ν) = X µ(x)ν(y) log(µ(x)ν(y)) x,y µ(x)ν(y)6=0 = − X x:µ(x)6=0 µ(x) log(µ(x)) − = H(µ) + H(ν). X ν(y) log(ν(y)) y:ν(y)6=0 Wir bestimmen nun auf einer gegebenen abzählbaren Menge S die Wahrscheinlichkeitsverteilungen mit minimaler bzw. maximaler Entropie. Extrema der Entropie: (1). Entropieminima: Nach (7.4.1) ist die Entropie stets nicht-negativ, und es gilt: H(µ) = 0 ⇐⇒ µ(x) ∈ {0, 1} ∀x ∈ S ⇐⇒ µ ist ein Diracmaß. Die Diracmaße sind also die Entropieminima. Ist das Zufallsexperiment deterministisch, d.h. µ ein Diracmaß, dann tritt bei Ziehen einer Stichprobe von µ keine Überraschung bzw. kein Informationszuwachs auf. (2). Entropiemaximum: Ist S endlich, dann gilt für alle Wahrscheinlichkeitsverteilungen µ auf S: H(µ) ≤ − log Universität Bonn 1 |S| = H(US ), Wintersemester 2009/2010 244 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN wobei US die Gleichverteilung auf S ist. Nach der Jensenschen Ungleichung gilt nämlich − X x∈S u(µ(x)) = −|S| · Z ≤ −|S| · u u(µ(x)) US (dx) Z µ(x) US (dx) 1 1 = − log = −|S| · u |S| |S| mit Gleichheit genau dann, wenn µ die Gleichverteilung ist. Die Gleichverteilung maximiert also die Entropie auf einem endlichen Zustandsraum. Anschaulich können wir die Gleichverteilung als eine »völlig zufällige« Verteilung auffassen – d.h. wir verwenden die Gleichverteilung als Modell, wenn wir keinen Grund haben, einen der Zustände zu bevorzugen. Die Entropie ist in diesem Sinne ein Maß für die »Zufälligkeit« (bzw. »Unordnung«) der Wahrscheinlichkeitsverteilung µ. Auf einer abzählbar unendlichen Menge existiert keine Wahrscheinlichkeitsverteilung mit maximaler Entropie. Beispiel (Entropie von Markovketten). Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf einer endlichen Menge S, die die Gleichverteilung US als Gleichgewicht hat, d.h. für alle y ∈ S gilt: X x∈S p(x, y) = |S| · X x∈S US (x) p(x, y) = |S| · US (y) = 1. (7.4.3) Beispielsweise ist p die Übergangsmatrix eines Random Walks auf dem diskreten Kreis Zk = Z/(kZ), der symmetrischen Gruppe Sn („Mischen eines Kartenspiels“), oder dem diskreten Hyperwürfel {0, 1}n („Ehrenfestmodell“). Der folgende Satz zeigt, dass die Entropie H(µpn ) der Verteilung zur Zeit n einer Markovkette mit Startverteilung µ und Übergangsmatrix p monoton wächst: Satz 7.14 (Zunahme der Entropie). Ist p eine stochastische Matrix auf S mit (7.4.3), dann gilt: H(µp) ≥ H(µ) für jede Wahrscheinlichkeitsverteilung µ auf S. Insbesondere ist n 7→ H(µpn ) monoton wachsend. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.4. ENTROPIE 245 Beweis. Aus der Jensenschen Ungleichung folgt: −H(µp) = ≤ = X u y∈S XX X µ(x)p(x, y) x∈S ! u(µ(x))p(x, y) y∈S x∈S X u(µ(x)) = x∈S −H(µ). Hierbei haben wir im zweiten Schritt benutzt, dass die Funktion u konvex ist, und dass x 7→ p(x, y) nach (7.4.3) für jedes y ∈ S die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung ist. In der Interpretation der statistischen Physik geht die zeitliche Entwicklung auf makroskopischer Ebene (Thermodynamik) von einem geordneten hin zu einem ungeordneten Zustand maximaler Entropie (»thermodynamische Irreversibilität«). Trotzdem ist auf mikroskopischer Ebene die Dynamik rekurrent, d.h. jeder Zustand x ∈ S wird von der Markovkette mit Wahrscheinlichkeit 1 unendlich oft besucht – dies dauert nur eventuell astronomisch lange. Die Einführung eines Markovmodells durch die österreichischen Physiker Tatjana und Paul Ehrenfest konnte eine entsprechende Kontroverse von Zermelo („Dynamik kehrt immer wieder zurück“) und Boltzmann („soll solange warten“) lösen. Statistische Interpretation der Entropie Sei µ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge S. Die Wahrscheinlichkeit einer Folge von Ausgängen x1 , . . . , xn bei Entnehmen einer Stichprobe aus n unabhängigen Zufallsgrößen mit Verteilung µ beträgt pn (x1 , ..., xn ) = n Y µ(xi ). i=1 Der gemittelte Informationszuwachs durch Auswertung der Werte x1 , . . . , xn ist also 1 − log pn (x1 , ..., xn ). n Mithilfe des Gesetzes der großen Zahlen können wir die Asymptotik dieser Größen für n → ∞ untersuchen: Satz 7.15 (Shannon - Mc Millan). Seien X1 , X2 , . . . : Ω → S unter P unabhängige Zufallsva- riablen mit Verteilung µ. Dann gilt P -fast sicher 1 − log pn (X1 , . . . , Xn ) −→ n Universität Bonn H(µ) für n → ∞. Wintersemester 2009/2010 246 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Beweis. Mit Wahrscheinlichkeit 1 gilt µ(Xi ) > 0 für alle i, also nach Korollar 7.11: Z n 1 1X n→∞ − log pn (X1 , . . . , Xn ) = − log µ(Xi ) −→ − log µ dµ = n n i=1 H(µ). Bemerkung (Exponentielle Skala). Die Aussage des Satzes besagt, dass auf der „exponentiellen Skala“ fast sicher pn (X1 , . . . , Xn ) ≃ e−nH(µ) gilt, d.h. beide Ausdrücke sind asymptotisch äquivalent bis auf subexponentielle (also z.B. polynomiell) wachsende Faktoren. Eine asymptotische Beschreibung von Wahrscheinlichkeiten auf der exponentiellen Skala ist Gegenstand der Theorie großer Abweichungen, siehe Abschnitt Satz 8.3 und Kapitel 11 unten. Entropie und Kodierung Wir betrachten nun eine Anwendung der Entropie auf die möglichst effiziente Beschreibung/Kodierung einer Zufallsfolge. Eine unbekannte Signalfolge mit Werten in einer endlichen Menge S (dem zugrundeliegenden „Alphabet“) beschreibt man im einfachsten A-Priori-Modell durch unabhängige Zufallsvariablen X1 , X2 , ... mit Verteilung µ, wobei µ(x) die relative Häufigkeit des Buchstabens x in der verwendeten Sprache ist. Eine „perfekte“ Kodierung ordnet jedem Wort mit einer vorgegebenen Anzahl n von Buchstaben, also jedem Element des Produktraums S n , eine Binärfolge zu. Will man alle Wörter mit n Buchstaben perfekt kodieren, werden n · log |S| Bits benötigt. Wir betrachten stattdessen „effiziente“ Kodierungen, die nur den „meisten“ Wörtern mit n Buchstaben eindeutig eine Binärfolge zuordnen. Definition. Eine Folge von Mengen Bn ⊆ S n (n ∈ N) heißt wesentlich bzgl. µ, falls P [(X1 , ..., Xn ) ∈ Bn ] = µn [Bn ] → 1 für n → ∞. Sn 1−1 {0, 1}k Abbildung 7.5: Perfekte Kodierung Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 7.4. ENTROPIE 247 Sn irgendwie 1−1 Bn {0, 1}k Abbildung 7.6: Effiziente Kodierung bzgl. einer Folge von wesentlichen Mengen Bn . Korollar 7.16 (Maßkonzentrationssatz von McMillan). Für jedes ε > 0 ist die Folge Bn := (x1 , ...xn ) ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε) , n ∈ N, wesentlich bzgl. µ, und es gilt |Bn | ≤ en(H(µ)+ε) Beweis. Es gilt Bn = (x1 , ...xn ) ∈ S n für alle n ∈ N. H(µ) − ε ≤ − 1 log pn (x1 , ..., xn ) ≤ H(µ) + ε . n (7.4.4) Da aus der fast sicheren Konvergenz von − n1 log pn (X1 , ..., Xn ) gegen die Entropie H(µ) die stochastische Konvergenz folgt, ist die Folge Bn (n ∈ N) nach Satz 7.15 wesentlich bzgl. µ. Zudem gilt wegen pn (x1 , ..., xn ) ≥ e−n(H(µ)+ε) für (x1 , . . . , xn ) ∈ Bn : X 1 ≥ P [(X1 , ..., Xn ) ∈ Bn ] = pn (x1 , ..., xn ) ≥ |Bn | · e−n(H(µ)+ε) , x∈Bn also |Bn | ≤ en(H(µ)+ε) Der Maßkonzentrationssatz zeigt, dass Folgen von wesentlichen Mengen existieren, die auf der exponentiellen Skala nicht viel schneller als exp(n · H(µ)) wachsen. Wie groß sind wesentliche Mengen mindestens? Für p ∈ (0, 1) sei K(n, p) = inf {|An | |An ⊆ S n mit P [(X1 , ..., Xn ) ∈ An ] ≥ p } die mindestens benötigte Anzahl von Wörtern, um den Text (X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p korrekt zu erfassen. Dann ist log2 K(n, p) die für eine korrekte binäre Kodierung von (X1 , ..., Xn ) mit Wahrscheinlichkeit ≥ p mindestens benötigte Anzahl von Bits. Universität Bonn Wintersemester 2009/2010 248 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN Satz 7.17 (Quellenkodierungssatz von Shannon). Für alle p ∈ (0, 1) gilt: 1 log K(n, p) = H(µ), bzw. n→∞ n X 1 lim log2 K(n, p) = H2 (µ) := − µ(x) log2 µ(x). n→∞ n lim x:µ(x)6=0 Insbesondere gilt: Ist An (n ∈ N) wesentlich bzgl. µ, so ist 1 log |An | ≥ H(µ). n Bemerkung. (1). Die Größe n1 log2 K(n, p) kann als die für eine mit Wahrscheinlichkeit ≥ lim inf n→∞ p korrekte Kodierung benötigte Zahl von Bits pro gesendetem Buchstaben interpretiert werden. (2). Der Quellenkodierungssatz zeigt, dass es keine Folge von wesentlichen Mengen gibt, die auf der exponentiellen Skala deutlich langsamer wächst als die im Maßkonzentrationssatz konstruierten Folgen. Beweis. Wir zeigen separat eine obere und eine untere Schranke für 1 n log K(n, p): Obere Schranke: lim sup n1 log K(n, p) ≤ H(µ): n→∞ Zum Beweis sei ε > 0 gegeben. Nach Korollar 7.16 ist die Folge Bn = x ∈ S n e−n(H(µ)+ε) ≤ pn (x1 , ..., xn ) ≤ e−n(H(µ)−ε) wesentlich bzgl. µ, und 1 n log |Bn | ≤ H(µ) + ε. Wegen lim P [(X1 , ..., Xn ) ∈ Bn ] = n→∞ folgt 1 log K(n, p) ≤ n n→∞ Die Behauptung ergibt sich für ε → 0. lim sup Untere Schranke: lim inf n→∞ n 1 n lim sup n→∞ 1 1 log |Bn | n > p, ≤ (7.4.5) H(µ) + ε. log K(n, p) ≥ H(µ): Seien An ⊆ S mit P [(X1 , ..., Xn ) ∈ An ] ≥ p. Dann gilt wegen (7.4.5) und (7.4.4) auch p ≤ lim inf P [(X1 , ..., Xn ) ∈ An ∩ Bn ] n→∞ ≤ also für alle ε > 0 lim inf n→∞ Für ε → 0 folgt 1 log |An | n ≥ lim inf n→∞ lim inf n→∞ n→∞ 1 log |An ∩ Bn | n 1 log |An | n Einführung in die Wahrscheinlichkeitstheorie lim inf |An ∩ Bn | · e−n(H(µ)−ε) , ≥ ≥ H(µ) − ε. H(µ). Prof. Andreas Eberle Kapitel 8 Grenzwertsätze Sind Xi : Ω → R, i ∈ N, unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit Erwartungsn P Xi nach dem Gesetz der wert m, dann konvergieren die Mittelwerte Snn der Summen Sn = i=1 großen Zahlen für n → ∞ fast sicher gegen m. Wir wollen nun die Verteilung von Sn für große n genauer untersuchen. Dabei unterscheidet man zwei unterschiedliche Arten von Aussagen: • Zentrale Grenzwertsätze beschreiben „typische“ Fluktuationen um den Grenzwert aus dem Gesetz der großen Zahlen, d.h. die asymptotische Form der Verteilung von Sn /n in Berei√ chen der Größenordnung O(1/ n) um den Erwartungswert m, siehe Abschnitt 8.4. • Aussagen über große Abweichungen beschreiben asymptotisch die Wahrscheinlichkeiten der seltenen Abweichungen der Größenordnung O(1) von Sn /n vom Erwartungswert m. Diese Wahrscheinlichkeiten fallen unter geeigneten Voraussetzungen exponentiell ab, siehe Abschnitt 8.2. Mit dem Satz von de Moivre/Laplace bzw. der Bernsteinungleichung haben wir bereits entsprechende Aussagen kennengelernt, falls die Xi Bernoulli-verteilte Zufallsvariablen sind. In diesem Kapitel werden wir sehen, dass keine spezifische Form der Verteilung vorausgesetzt werden muss, sondern die Aussagen ganz allgemein unter geeigneten Integrierbarkeitsbedingungen gelten. Ein wichtiges Hilfsmittel zum Beweis allgemeiner Grenzwertsätze sind momentenerzeugende und charakteristische Funktionen: 249 250 KAPITEL 8. GRENZWERTSÄTZE 8.1 Charakteristische und Momentenerzeugende Funktionen In diesem Abschnitt führen wir charakteristische und momentenerzeugende Funktionen von reellen Zufallsvariablen ein und beweisen einige grundlegende Aussagen über diese Funktionen. Insbesondere zeigen wir, dass sich die Verteilung einer reellen Zufallsvariable eindeutig aus ihrer charakteristischen Funktion rekonstruieren lässt. Definition und Eigenschaften Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine reellwertige Zufallsvariable mit Verteilung µ. Definition. (1). Die Funktion M : R → (0, ∞], M (t) tX := E[e ] = Z etx µ(dx), R heißt momentenerzeugende Funktionen der Zufallsvariable X bzw. der Verteilung µ. (2). Die Funktion φ : R → C, φ(t) := E[e itX ] = Z eitx µ(dx), R heißt charakteristische Funktion von X bzw. µ. Da die Funktionen t 7→ etx und t 7→ eitx für t ∈ R nichtnegativ bzw. beschränkt sind, sind die Er- wartungswerte definiert. Dabei wird der Erwartungswert einer komplexwertigen Zufallsvariable separat für Real- und Imaginärteil berechnet. Rechenregeln Die folgenden Rechenregeln ergeben sich unmittelbar aus der Definition: (1). Sind X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ), dann gilt MX+Y (t) MX (t) · MY (t) = und φX+Y (t) = φX (t) · φY (t) φaX+b (t) = eibt · φX (at) für alle t ∈ R. (2). Für a, b ∈ R gilt MaX+b (t) = ebt · MX (at) und für alle t ∈ R. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 251 (3). Für momentenerzeugende bzw. charakteristische Funktionen gilt stets Die Funktion φ(−t) = R M (0) = φ(0) φ(−t) = φ(t) = 1, und für alle t ∈ R. e−itx µ(dx) ist die Fouriertransformation des Maßes µ. Ist µ absolutste- tig bzgl. des Lebesguemaßes mit Dichte f , dann ist φ(−t) die Fouriertransformation der Funktion f: φ(t) Z = e−itx f (x) dx = R Entsprechend ist M (−t) = Z e−tx µ(dx) fb(t). (t > 0) R die Laplacetransformation des Maßes µ bzw. der Dichte f . Bemerkung (Zusammenhang von M und φ). (1). Gilt M (s) < ∞ für ein s > 0 (bzw. analog für ein s < 0), dann ist M auf dem Intervall [0, s] (bzw. [s, 0]) endlich, denn nach der Jensenschen Ungleichung folgt: M (t) = E[etX ] ≤ E[esX ]t/s < ∞ für alle t ∈ [0, s] bzw. t ∈ [s, 0]. (2). Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist M analytisch fortsetzbar auf den Streifen {z ∈ C : |Re(z)| < δ} in der komplexen Zahlenebene, und es gilt φ(t) = für alle t ∈ R. M (it) Die letzte Bemerkung ermöglicht manchmal eine vereinfachte Berechnung der charakteristischen Funktion. Beispiel. (1). Für eine standardnormalverteilte Zufallsvariable Z gilt: Z ∞ Z ∞ 1 1 2 2 tx−x2 /2 t2 /2 √ MZ (t) = √ e dx = e e−(x−t) /2 dx = et /2 < ∞ 2π −∞ 2π −∞ für alle t ∈ R. Also ist die charakteristische Funktion gegeben durch φZ (t) Universität Bonn = MZ (it) = e−t 2 /2 für alle t ∈ R. Wintersemester 2009/2010 252 KAPITEL 8. GRENZWERTSÄTZE (2). Eine normalverteilte Zufallsvariable X mit Mittel m und Varianz σ 2 können wir darstellen als X = σZ + m mit Z ∼ N (0, 1). Also gilt: σ 2 t2 MX (t) = e MZ (σt) = exp mt + 2 2 2 σ t φX (t) = exp imt − . 2 mt , Sind X1 , ..., Xn unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann erhalten wir: n Y nσ 2 t2 φX1 +...+Xn (t) = φXi (t) = exp inmt − . 2 i=1 Da die rechte Seite die charakteristische Funktion von N (nm, nσ 2 ) ist, folgt nach dem Fourierinversionssatz (s.u., Satz 8.2): X1 + ... + Xn ∼ N (nm, nσ 2 ) . (3). Die Binomialverteilung mit Parametern n und p ist die Verteilung der Summe unabhängigen Bernoulli(p)-verteilten Zufallsvariablen Y1 , ..., Yn . Also sind φ(t) = n Y i=1 M (t) = φYi (t) = 1 − p + peit 1 − p + pet n n , Pn i=1 Yi von und die charakteristische und momentenerzeugende Funktion von Bin(n, p). (4). Die Cauchyverteilung ist die absolutstetige Wahrscheinlichkeitsverteilung auf R mit Dichte f (x) = 1 π(1 + x2 ) (x ∈ R). Für eine Cauchyverteilte Zufallsvariable X gilt MX (t) = ∞ für alle t 6= 0 (und sogar E[|X|n ] = ∞ ∀n ∈ N). Trotzdem existiert φX (t) = e−|t| für alle t ∈ R . Die charakteristische Funktion ist allerdings bei 0 nicht differenzierbar. Wir zeigen nun, dass sich die Momente E[X n ] einer Zufallsvariable X : Ω → R unter geeigneten Voraussetzungen aus der momentenerzeugenden bzw. charakteristischen Funktion berechnen lassen. Die nötigen Voraussetzungen sind allerdings im Fall der momentenerzeugenden Funktion viel stärker: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 253 Satz 8.1. (1). Ist M endlich auf (−δ, δ), δ > 0, dann gilt E[e zX ] ∞ X zn = n=0 Insbesondere folgt M (t) n! E[X n ] ∞ X tn = n=0 und somit n! für alle z ∈ C mit |z| < δ. E[X n ] M (n) (0) = E[X n ] für alle t ∈ (−δ, δ) , für alle n ≥ 0 . (2). Ist E[|X|n ] < ∞ für ein n ∈ N, dann gilt φ ∈ C n (R) und φ(n) (t) Beweis. = in · E[X n eitX ] für alle t ∈ R . (8.1.1) (1). Aus der Voraussetzung und dem Satz von der monotonen Konvergenz folgt für s ∈ (0, δ): ∞ X sn n=0 n! E[|X|n ] = E es|X| ≤ E esX + E e−sX < ∞. Insbesondere existieren alle Momente E[X n ], n ∈ N, sowie die exponentiellen Momente E[ezX ] für z ∈ C mit |Re(z)| < δ. Nach dem Satz von Lebesgue erhalten wir für diese z zudem ∞ X zn n=0 n! E[X n ] = lim E m→∞ " m # X (zX)n n=0 n! =E " lim m→∞ da es|X| für s ≥ |z| eine Majorante der Partialsummen ist. m X (zX)n n=0 n! # = E[ezX ] , (2). Wir zeigen die Behauptung durch Induktion nach n. Für n = 0 gilt (8.1.1) nach Definition von φ(t). Ist E[|X|n+1 ] < ∞, dann folgt nach Induktionsvoraussetzung und mit dem Satz von Lebesgue: 1 φ(n) (t + h) − φ(n) (t) = E (iX)n ei(t+h)X − eitX h h Z t+h isX n1 iXe ds = E (iX) h t für h → 0, also φn+1 (t) = → E (iX)n+1 eitX E[(iX)n+1 · eitX ]. Die Stetigkeit der rechten Seite in t folgt ebenfalls aus dem Satz von Lebesgue und der Voraussetzung E[|X|n+1 ] < ∞. Universität Bonn Wintersemester 2009/2010 254 KAPITEL 8. GRENZWERTSÄTZE 1/2 Beispiel. Für eine Zufallsvariable X mit Dichte fX (x) = const. · e−|x| gilt E[|X|n ] < ∞ für alle n ∈ N. Also ist die charakteristische Funktion beliebig oft differenzierbar. Die momentener- zeugende Funktion M (t) = E[etX ] ist hingegen nur für t = 0 endlich. Bemerkung (Satz von Bochner). Eine Funktion φ : R → C ist genau dann eine charakteristi- sche Funktion einer Wahrscheinlichkeitsverteilung auf R, wenn gilt: (1). φ(0) = 1 und |φ(t)| ≤ 1 für alle t ∈ R. (2). φ ist gleichmäßig stetig. (3). φ ist nicht negativ definit, d.h. n X i,j=1 φ(ti − tj )zi zj ≥ 0 ∀n ∈ N, t1 , ..., tn ∈ R, z1 , ..., zn ∈ C. Dass jede charakteristische Funktion einer Wahrscheinlichkeitsverteilung die Eigenschaften (1)(3) hat, prüft man leicht nach (Übung). Der Beweis der umgekehrten Aussage findet sich z.B. in Vol. II des Lehrbuchs von Feller. Inversion der Fouriertransformation Die folgende zentrale Aussage zeigt, dass eine Wahrscheinlichkeitsverteilung eindeutig durch ihre charakteristische Funktion φ festgelegt ist, und liefert eine explizite Formel zur Rekonstruktion der Verteilung aus φ: Satz 8.2 (Lévys Inversionsformel). Sei φ die charakteristische Funktion einer Zufallsvariable X mit Verteilung µ. Dann gilt: (1). Z T −ita 1 1 1 e − e−itb µ[{a}] + µ[(a, b)] + µ[{b}] = lim φ(t) dt 2 2 2π T →∞ −T it R∞ (2). Gilt −∞ |φ(t)| dt < ∞, dann ist µ absolutstetig mit stetiger Dichte Z ∞ 1 f (x) = e−itx φ(t) dt. 2π −∞ ∀a<b. Bemerkung. (1). Die Verteilung µ ist durch (1) eindeutig festgelegt, denn für c, d ∈ R mit c < d gilt: 1 1 µ[{a}] + µ[(a, b)] + µ[{b}] 2 2 für a ց c und b ր d. = Einführung in die Wahrscheinlichkeitstheorie i h i 1 h µ [a, b] + µ (a, b) 2 → µ[(c, d)] , Prof. Andreas Eberle 8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 255 (2). Ist die Verteilung µ absolutstetig mit quadratintegrierbarer Dichte f , dann ist auch die entsprechende charakteristische Funktion φ(t) Z∞ = eitx f (x) dx −∞ quadratintegrierbar. Die Aussage (2) aus Satz 8.2 ist in diesem Fall die klassische Fourierinversionsformel der Analysis, siehe z.B. Forster „Analysis 3“. Im Beweis der Inversionsformel verwenden wir den Satz von Fubini, der besagt, dass wir die Integrationsreihenfolge in Doppelintegralen vertauschen dürfen, wenn der Integrand produktintegrierbar ist. Für den Beweis des Satzes von Fubini verweisen wir auf die Analysisvorlesung oder Abschnitt 9.1. von Satz 8.2. (1). Sei T > 0 und a < b. Nach dem Satz von Fubini können wir die Integrati- onsreihenfolge in dem folgendem Doppelintegral vertauschen, und erhalten: Z T −ita Z Z T it(x−a) 1 1 e − e−itb e − eit(x−b) φ(t) dt = dt µ(dx) (8.1.2) |{z} 2π −T it π 2it −T R {z } | = eitx µ(dx) =: g(T,x) Dabei haben wir benutzt, dass der Integrand produktintegrierbar ist, da aus der LipschitzStetigkeit der Abbildung y 7→ eiy mit Konstante L = 1 folgt, dass it(x−a) it(x−b) e − e ≤ |t · (x − a) − t · (x − b)| = |a − b| it |t| gilt. Weiterhin erhalten wir, wegen eit(x−a) = cos(t·(x−a))+i sin(t·(x−a)), cos(x) = cos(−x) und sin(x) = − sin(−x): Z Z T sin(t · (x − a)) sin(t · (x − b)) g(T, x) = dt − dt t t 0 0 Z T ·(x−b) Z T ·(x−a) sin u sin u du − du = u u 0 0 = S(T · (x − a)) − S(T · (x − b)) T wobei Z t sin u du u 0 der Integralsinus ist. Mithilfe des Residuensatzes (siehe Funktionentheorie) zeigt man: S(t) := lim S(t) t→∞ Universität Bonn = π 2 , lim S(t) t→−∞ = − π . 2 Wintersemester 2009/2010 256 KAPITEL 8. GRENZWERTSÄTZE Damit erhalten wir: π π π sgn(x − a) − sgn(x − b) = π · I(a,b) (x) + · I{a,b} (x) , T →∞ 2 2 2 wobei wir sgn(0) := 0 setzen. Da S beschränkt ist, ist auch g(T, x) beschränkt in T und x. lim g(T, x) = Nach dem Satz von Lebesgue folgt daher aus (8.1.2) für T → ∞ Z T −ita Z 1 1 e − e−itb φ(t) dt = g(T, x) µ(dx) 2π −T it π T →∞ −→ µ[(a, b)] + 1 µ[{a, b}] . 2 (2). Ist φ integrierbar, dann ist die Funktion (t, x) 7→ e−itx φ(t) produktintegrierbar auf [a, b] × R für alle −∞ < a < b < ∞. Also ist die Funktion Z ∞ 1 f (x) := e−itx φ(t) dt 2π −∞ integrierbar auf [a, b], und es gilt nach dem Satz von Fubini und (1): Z ∞ Z b Z b 1 1 (1) 1 µ[{a}] + µ[(a, b)] + µ[{b}] . φ(t) e−itx dx dt = f (x) dx = 2π −∞ 2 2 a | a {z } = Insbesondere folgt Z e−ita −e−itb it b−ε a+ε f (x) dx ≤ µ [(a, b)] ≤ also für ε ց 0: µ[(a, b)] = 8.2 Z Z b f (x) dx a ∀ ε > 0, b f (x) dx . a Erste Anwendungen auf Grenzwertsätze Charakteristische und momentenerzeugende Funktionen werden häufig beim Beweis von Grenzwertsätzen der Wahrscheinlichkeitstheorie vewendet. Wir skizzieren an dieser Stelle schon einmal die Anwendung charakteristischer Funktionen zum Beweis des zentralen Grenzwertsatzes und zeigen anschließend, wie obere Schranken für die Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen mithilfe momentenerzeugender Funktionen hergeleitet werden können. Der detaillierte Beweis des zentralen Grenzwertsatzes wird dann nach weiteren Vorbereitungen in Abschnitt 8.3 ausgeführt. Die Analyse der Asymptotik der Wahrscheinlichkeiten großer Abweichungen auf der exponentiellen Skala werden wir in Kapitel 11 durch den Beweis einer unteren Schranke vervollständigen. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 257 Zentraler Grenzwertsatz Seien X1 , X2 , ... ∈ L 2 (Ω, A, P ) unabhängige und identisch verteilte Zufallsvariablen mit E[Xi ] = 0 für alle i, und sei Sn = X1 + ... + Xn . Nach dem Gesetz der großen Zahlen gilt: Sn n → 0 P -fast sicher. Wie sieht die Verteilung von Sn für große n aus? Um eine asymptotische Darstellung zu erhalten, reskalieren wir zunächst so, dass die Varianz konstant ist. Es gilt Var[Sn ] = n · Var[X1 ], also ist Sn 1 Var √ = · Var[Sn ] = Var[X1 ] =: σ 2 n n unabhängig von n. Um die Asymptotik der Verteilungen der entsprechend standardisierten Summen Sn √ n zu bestim- men, betrachten wir die charakteristischen Funktionen. Da die Summanden Xi unabhängig und identisch verteilt sind, erhalten wir φ √Sn (t) = φSn n t √ n Xi iid = φX1 t √ n n . Wegen X1 ∈ L 2 (Ω, A, P ) ist φX1 zweimal stetig differenzierbar, und die Taylorentwicklung bei t = 0 ist gegeben durch φX1 (t) = 1 + i · E[X1 ] · t − 1 E[X12 ] · t2 + o(t2 ) 2 = 1 1 − σ 2 t2 + o(t2 ). 2 Damit folgt: 2 n σ 2 t2 t 1− φ √Sn (t) = +o n 2n n 2 2 σ t nր∞ = φN (0,σ2 ) (t) −→ exp − 2 ∀ t ∈ R. Wir werden im nächsten Abschnitt zeigen, dass aus der Konvergenz der charakteristischen Funktionen unter geeigneten Voraussetzungen die schwache Konvergenz (Definition s.u.) der Verteilungen folgt. Somit ergibt sich: Zentraler Grenzwertsatz: Sn konvergiert schwach Die Verteilung der standardisierten Summen √ n gegen die Normalverteilung N (0, σ 2 ). Den detaillierten Beweis werden wir in Abschnitt 8.3 führen. Der zentrale Grenzwertsatz erklärt, warum die Normalverteilungen in der Stochastik von so großer Bedeutung sind: Universität Bonn Wintersemester 2009/2010 258 KAPITEL 8. GRENZWERTSÄTZE Bemerkung (Universalität der Normalverteilung). Die Limesverteilung im zentralen Grenzwertsatz ist unabhängig von der Verteilung von X1 , vorausgesetzt, es gilt X1 ∈ L 2 (Ω, A, P ). Große Abweichungen vom Gesetz der großen Zahlen Seien X1 , X2 , ... ∈ L 1 (Ω, A, P ) i.i.d. Zufallsvariablen mit Erwartungswert m und momentener- zeugender Funktion M (t) = E[etX1 ] , und sei Sn = X1 + ... + Xn . Der folgende Satz verschärft die nicht-asymptotische obere Schranke für große Abweichungen vom Gesetz der großen Zahlen aus der Bernstein-Ungleichung (Satz 2.6), und verallgemeinert diese auf nicht Bernoulliverteilte Zufallsvariablen. Satz 8.3 (Chernoff). Für alle n ∈ N und a ∈ R gilt: Sn P ≥ a ≤ e−nI(a) n Sn P ≤ a ≤ e−nI(a) n falls a ≥ m, bzw. falls a ≤ m, wobei die exponentielle Abfallrate I(a) gegeben ist durch I(a) = sup (at − log M (t)). t∈R Beweis. Wir zeigen diese Aussage im Fall a ≥ m – der Beweis für a ≤ m verläuft analog. Der Beweis erfolgt in drei Schritten: (1). Zentrieren:Wir können o.B.d.A. m = 0 annehmen. Andernfalls betrachten wir die zentrierei = Xi − E[Xi ], die wieder unabhängig und identisch verteilt sind. ten Zufallsvariablen X fi die Behauptung für Xi folgt Man überzeugt sich leicht, dass aus der Behauptung für X (Übung). (2). Exponentielle Markovungleichung: Für alle t ≥ 0 gilt: Sn ≥a P n = Xi iid = P [Sn ≥ na] e−tna E[etX1 ]n Einführung in die Wahrscheinlichkeitstheorie e−tna E[etSn ] ≤ = e−(at−log M (t))·n . Prof. Andreas Eberle 8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 259 (3). Optimieren der Abschätzung: Bilden wir das Infimum der für verschiedene t ≥ 0 erhaltenen Abschätzungen, dann ergibt sich: Sn P ≥a ≤ inf e−(at−log M (t))·n t≥0 n = e− supt≥0 (at−log M (t))·n . Es bleibt zu zeigen, dass sup (at − log M (t)) = t≥0 sup (at − log M (t)) = I(a). t∈R Dies ist in der Tat der Fall, denn für t < 0 und a ≥ 0 gilt nach der Jensenschen Ungleichung und der Voraussetzung m = 0: at − log M (t) ≤ − log E[etX1 ] = −tm = 0 ≤ = −E[log etX1 ] a · 0 − log M (0). Bemerkung (Kumulantenerzeugende Funktion, Legendretransformation). (1). Die Funktion Λ(t) := log M (t) heißt logarithmische momentenerzeugende oder kumulantenerzeugende Funktion von X1 . Diese Funktion hat u.a. folgende Eigenschaften: (a) Λ ist konvex und unterhalbstetig, d.h. lim inf Λ(s) ≥ Λ(t) s→t für alle t ∈ R. (b) Λ(0) = 0. (c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist M ′ (0) = m, und M (0) M ′′ (0) M ′ (0)2 Λ′′ (0) = − = M (0) M (0)2 Λ′ (0) = E[X12 ] − E[X1 ]2 = Var[X1 ]. Die höheren Ableitungen von Λ heißen Kumulanten von X1 . (2). Die Ratenfunktion I ist die Legendre-Transformation von Λ: I(a) = sup fa (t) t∈R mit fa (t) = at − Λ(t), d.h. I(a) ist der negative Achsenabschnitt der (eindeutigen) Tangente an den Graphen von Λ mit Steigung a (wobei I(a) = ∞, falls keine solche Tangente existiert). Universität Bonn Wintersemester 2009/2010 260 KAPITEL 8. GRENZWERTSÄTZE 4 log M (t) I(a) 3 2 1 −1 1 2 3 t −1 −2 −I(a) Abbildung 8.1: Geometrische Darstellung der Ratenfunktion I(a) als negativer Achsenabschnitt der eindeutigen Tangente mit Steigung a (rot) an die Kumulantenerzeugende Funktion (blau) Wichtige Eigenschaften der Ratenfunktion sind: (a) I ist wieder konvex und unterhalbstetig. (b) I(a) ≥ fa (0) = 0 ∀a ∈ R. (c) Gilt M (t) < ∞ auf (−δ, δ) für ein δ > 0, dann ist fa ∈ C ∞ (−δ, δ) mit fa (0) = 0 und fa′ (0) = a − m. Also folgt: I(a) = sup fa > 0 ∀ a 6= m. Unter der Voraussetzung der letzten Bemerkung (c) ist die exponentielle Abfallrate strikt positiv, d.h. es ergibt sich ein exponentieller Abfall der Wahrscheinlichkeiten großer Abweichungen! Sind die Zufallsvariablen Xi nicht exponentiell integrierbar, dann kann es auch passieren, dass I(a) = 0 für a 6= m. Die Wahrscheinlichkeiten großer Abweichungen fallen in diesem Fall lang- samer als exponentiell ab, denn es gilt auch eine asymptotische untere Schranke mit derselben Ratenfunktion I, siehe Satz 12.7 unten. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 261 Beispiel. Für konkrete Verteilungen der Zufallsvariablen Xi kann man die Kumulantenerzeugende Funktion Λ und die Ratenfunktion I häufig explizit berechnen: (1). Für normalverteilte Zufallsvariablen Xi ∼ N (m, σ 2 ) gilt I(a) = Sn ≥a P n ≤ e− (a−m)2 n 2σ 2 (a−m)2 , 2σ 2 also für alle a ≥ m. Die Ratenfunktion hat eine Nullstelle beim Erwartungswert m, da die Mittelwert Sn /n gegen diese konvergieren. Jenseits von m fallen die Wahrscheinlichkeiten exponentiell ab, und zwar mit einer Rate die quadratisch wächst. 6 5 4 3 2 1 −2 −1 1 2 3 4 Abbildung 8.2: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion einer N (1, 1)-verteilten Zufallsvariable (2). Für Xi ∼ Exp(λ) gilt λa − 1 − log(λa) für a > 0 I(a) = . ∞ für a ≤ 0 In diesem Fall hat die Ratenfunktion eine Nullstelle beim Erwartungswert 1/λ. Da nicht positive Werte mit Wahrscheinlichkeit 1 nicht auftreten, hat die Ratenfunktion auf dem Intervall (−∞, 0] den Wert +∞. Universität Bonn Wintersemester 2009/2010 262 KAPITEL 8. GRENZWERTSÄTZE 8 7 6 5 4 3 2 1 1 2 3 4 5 6 Abbildung 8.3: Legendre-Transformierte der logarithmischen momentenerzeugenden Funktion einer Exp(2)-verteilten Zufallsvariable (3). Für Xi ∼ Bernoulli(p) erhält man a 1−a I(a) = a log + (1 − a) log p 1−p für a ∈ (0, 1). 1 1 Abbildung 8.4: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion einer Bernoulli(1/2)-verteilten Zufallsvariable Wegen I(a) ≥ 2(a − p)2 verschärft die Abschätzung aus dem Satz von Chernoff in diesem Fall die in Satz 2.6 hergeleitete obere Schranke Sn 2 P ≥ a ≤ e−2(a−p) n n für a ≥ p. Wir werden später sehen, dass I(a) sich als relative Entropie der Bernoulli(a)-Verteilung bzgl. der Bernoulli (p)-Verteilung interpretieren lässt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 263 Beispiel (Ehrenfestmodell im Gleichgewicht). Es befinden sich n = 1023 Moleküle in einem Gefäß. Jedes Molekül sei mit Wahrscheinlichkeit 12 in der linken bzw. rechten Hälfte. Seien Xi (1 ≤ i ≤ n) Bernoulli 21 -verteilte unabhängige Zufallsvariablen, wobei Xi = 1 dafür steht, dass sich das i-te Molekül in der linken Hälfte befindet. Der Anteil Sn /n der Moleküle in dieser Hälfte konvergiert nach dem Gesetz der großen Zahlen fast sicher gegen 1/2. Wie groß ist p := P Snn ≥ 21 + 10−10 ? Eine Abschätzung mit der Čebyšev-Ungleichung liefert: p ≤ Sn 10 · Var n 20 = 1 · 10−3 4 = 1 . 4000 Durch Anwenden der exponentiellen Abschätzung erhält man dagegen die viel präzisere Aussage ≤ p −10 )2 e−2n(10 = e−2000 . Eine Abweichung von der Größenordnung 10−10 vom Mittelwert ist also praktisch unmöglich ! Die makroskopische Größe Sn /n ist daher de facto deterministisch. 8.3 Verteilungskonvergenz Sei S ein metrischer Raum mit Borelscher σ-Algebra B(S), zum Beispiel S = R oder S = Rd . Wir wollen nun einen für den zentralen Grenzwertsatz angemessenen Konvergenzbegriff für die Verteilungen µn einer Folge Yn von Zufallsvariablen mit Werten in S einführen. Naheliegend wäre es zu definieren, dass eine Folge µn von Wahrscheinlichkeitsverteilungen auf (S, B(S)) gegen eine Wahrscheinlichkeitsverteilung µ konvergiert, wenn µ[A] = lim µn [A] für jede Menge A ∈ B(S) gilt. Ein solcher Konvergenzbegriff erweist sich jedoch sofort als zu restriktiv, z.B. würde eine Folge von diskreten Wahrscheinlichkeitsverteilungen in diesem Sinne niemals gegen eine Normalverteilung konvergieren. Einen angemesseneren Grenzwertbegriff erhält man durch Berücksichtigung der Topologie auf S: Definition. (1). Schwache Konvergenz von Wahrscheinlichkeitsverteilungen: Eine Folge (µn )n∈N von Wahrscheinlichkeitsverteilungen auf S (mit Borelscher σ-Algebra) konvergiert schwach w gegen eine Wahrscheinlichkeitsverteilung µ auf S (µn → µ), falls Z f dµn Universität Bonn −→ Z f dµ für alle stetigen, beschränkten f : S → R gilt. Wintersemester 2009/2010 264 KAPITEL 8. GRENZWERTSÄTZE (2). Konvergenz in Verteilung von Zufallsvariablen: Eine Folge (Yn )n∈N von Zufallsvariablen mit Werten in S konvergiert in Verteilung gegen eine Zufallsvariable Y bzw. gegen die Verteilung von Y , falls Verteilung(Yn ) w −→ Verteilung(Y ), d.h. falls E[f (Yn )] −→ E[f (Y )] für alle f ∈ Cb (S) gilt. Konvergenz in Verteilung bezeichnet man auf Englisch als „convergence in distribution“ oder D L „convergence in law.“ Entsprechend verwendet man die Kurzschreibweisen Yn → Y oder Yn → Y , falls Yn in Verteilung gegen Y konvergiert. Beachte: Die Zufallsvariablen Yn , n ∈ N, und Y können bei der Verteilungskonvergenz auf verschiedenen Wahrscheinlichkeitsräumen definiert sein! Schwache Konvergenz von Wahrscheinlichkeitsverteilungen Um den Begriff der schwachen Konvergenz besser zu erfassen, beginnen wir mit einigen Bemerkungen und Beispielen: Bemerkung. (1). Die hier definierte Form der schwachen Konvergenz entspricht nicht der im funktionalanalytischen Sinn definierten schwachen Konvergenz auf dem Vektorraum aller beschränkten signierten Maße auf (S, B(S)), sondern einer schwach∗-Konvergenz auf diesem Raum, siehe z.B. A LT: L INEARE F UNKTIONALANALYSIS. (2). Wir werden in Satz 8.5 zeigen, dass im Fall S = R die Folge µn genau dann schwach gegen µ konvergiert, wenn für die Verteilungsfunktionen Fµn (x) −→ Fµ (x) für alle Stetigkeitsstellen x von F , d.h. für alle x ∈ R mit µ[{x}] = 0, gilt. Neben schwacher Konvergenz betrachtet man häufig u.a. auch die folgenden Konvergenzarten auf positiven bzw. beschränkten signierten Maßen: • Vage Konvergenz: µn konvergiert vage gegen µ, falls Z Z f dµn −→ f dµ für alle stetigen Funktionen f mit kompaktem Träger gilt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 265 • Konvergenz in Variationsdistanz: µn konvergiert µ in Variationsdistanz, falls kµ − µn kTV := Z Z 1 f dµ − f dµn sup 2 f :S→R messbar −→ 0. mit |f | ≤ 1 Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen lässt sich auch wie folgt darstellen: kµ − νkTV sup |µ[A] − ν[A]|. = A∈S Im diskreten Fall gilt kµ − νkTV = 1X |µ[{x}] − ν[{x}]| . 2 x∈S Diesen Abstandsbegriff haben wir bereits in Abschnitt 3.5 bei der Konvergenz ins Gleichgewicht von Markovketten verwendet. Offensichtlich folgt aus der Konvergenz in Variationsdistanz die schwache Konvergenz, aus der wiederum die vage Konvergenz folgt: kµn − µkTV → 0 w µn → µ =⇒ µn → µ =⇒ vage. Die folgenden Beispiele verdeutlichen die unterschiedlichen Konvergenzbegriffe: w Beispiel. (1). Diracmaße: Für x, xn ∈ S (n ∈ N) mit xn → x gilt δxn → δx . Beweis: Z f dδxn = f (xn ) → f (x) = Z für alle f ∈ Cb (R). f dδx Alternativer Beweis im Fall S = R: Fδxn (c) = I[xn ,∞) (c) n→∞ → I[x,∞) (c) = Fδx (c) für alle c 6= x, d.h. für alle Stetigkeitsstellen von Fδx . In diesem Beispiel gilt i.A. keine Konvergenz in Variationsnorm, denn kδxn − δx kTV = 1 für xn 6= x. Universität Bonn Wintersemester 2009/2010 266 KAPITEL 8. GRENZWERTSÄTZE (2). Degeneration/Diracfolge: Auf S = R1 konvergiert die Folge µn := N (0, n1 ) von Normalverteilungen mit degenerierender Varianz schwach gegen das Diracmaß δ0 , denn mit dem Satz von Lebesgue folgt für f ∈ Cb (R) Z Z x2 1 f dµn = f (x) p e− 2/n dx 2π/n Z √ y2 y 1 y= nx √ e− 2 dy = f √ n 2π Z y2 1 Lebesgue √ e− 2 dy −→ f (0) · 2π | {z } =1 Z = f dδ0 . 3 2 1 −3 −2 −1 1 2 3 Abbildung 8.5: Schwache Konvergenz der Normalverteilungen N (0, 1/n) gegen δ0 . (3). Schwache vs. vage Konvergenz: Die Folge µn = N (0, n) konvergiert vage gegen das Nullmaß µ mit µ[A] = 0 für alle A. In der Tat gilt für f ∈ C(R) mit f (x) = 0 für x 6∈ [−K, K]: Z f dµn = K Z 1 2 /2n −x f (x) · √ e dx 2πn ≤ −K Es gilt aber keine schwache Konvergenz, da Z 1 dµn = µn [R] Einführung in die Wahrscheinlichkeitstheorie = 1 2K √ · sup |f | 2πn 6→ n→∞ −→ 0. 0. Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 267 Die Masse wandert in diesem Fall ins Unendliche ab. −8 −7 −6 −5 −4 −3 −2 −1 1 2 3 4 5 6 7 Abbildung 8.6: Konvergenz der Dichten der Normalverteilungen N (0, n) gegen die Nullfunktion. (4). Wartezeiten: Die Wartezeit Tp auf den ersten Erfolg bei unabhängigen Ereignissen mit Erfolgswahrscheinlichkeit p ∈ (0, 1) ist geometrisch verteilt: P [Tp > k] (1 − p)k = für alle k ∈ N. Sei nun eine Intensität λ > 0 gegeben. Um kontinuierliche Wartezeiten zu approximieren, betrachten wir unabhängige Ereignisse, die zu den Zeitpunkten i/n, n ∈ N, mit Wahr- scheinlichkeit λ/n stattfinden. Dann ist n1 Tλ/n die Wartezeit bis zum ersten Eintreten eines Ereignisses. Für n → ∞ gilt: 1 P Tλ > x n n h = P T λ > nx n i = λ 1− n ⌊nx⌋ nր∞ −→ e−λx ∀x ≥ 0. Also konvergiert die Verteilung von n1 Tλ/n schwach gegen die Exponentialverteilung mit Parameter λ. Konvergenz in Variationsdistanz gilt nicht, da die approximierenden Verteilungen diskret, und die Grenzverteilungen stetig sind. (5). Diskrete Approximation von Wahrscheinlichkeitsverteilungen: Allgemeiner können wir eine gegebene Wahrscheinlichkeitsverteilung auf verschiedene Arten durch diskrete Wahrscheinlichkeitsverteilungen, also Konvexkombinationen von Diracmaßen approximieren: (a) Klassische numerische Approximation: Sei µ eine absolutstetige Wahrscheinlichkeitsverteilung auf [0, 1] mit Dichtefunktion proportional zu g(x), und sei µn := n X wn(i) δ i , n i=1 Universität Bonn Wintersemester 2009/2010 8 268 KAPITEL 8. GRENZWERTSÄTZE mit wn(i) = g( ni ) . n P j g( n ) j=1 Dann konvergiert µn schwach gegen µ, denn Pn Z n 1 i i X g f i i=1 (i) = n 1 Pn n i n f dµn = wn f n i=1 g n n i=1 R1 Z f g dx nր∞ = f dµ ∀ f ∈ C([0, 1]). −→ R0 1 g dx 0 g(x) 1 1 n 2 n ... n−1 n 1 Abbildung 8.7: Stützstellen und Gewichte einer deterministischen Approximation von µ. (i) Die Stützstellen i/n und die Gewichte wn können natürlich auch auf andere Art gewählt werden, z.B. kann die hier verwendete naive Approximation des Integrals durch eine andere deterministische Quadraturformel ersetzt werden. (b) Monte-Carlo-Approximation: Sei (S, S, µ) ein beliebiger Wahrscheinlichkeitsraum. Sind X1 , X2 , ... : Ω → S unabhängige Zufallsvariablen auf (Ω, A, P ) mit Verteilung µ, dann konvergieren die empirischen Verteilungen µ bn (ω, •) Einführung in die Wahrscheinlichkeitstheorie := n 1 X δXi (ω) n i=1 Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 269 P -f.s. schwach gegen µ, denn für f ∈ Cb (S) gilt nach dem starken Gesetz großer Zahlen für P -fast alle ω Z f db µn (ω, •) = n 1 X f (Xi (ω)) n i=1 | {z } GdgZ −→ E[f (X1 )] iid, beschränkt = Z f dµ. Konvergenz der Verteilungen von Zufallsvariablen Im Gegensatz zu anderen Konvergenzbegriffen für eine Folge (Yn )n∈N von Zufallsvariablen bezieht sich die Verteilungskonvergenz nur auf die Verteilungen der Yn . Insbesondere können die Zufallsvariablen Yn und der Grenzwert Y alle auf unterschiedlichen Wahrscheinlichkeitsräumen definiert sein. Wir untersuchen nun den Zusammenhang der schwachen Konvergenz der Verteilungen mit anderen Konvergenzarten in dem Fall, dass Yn (n ∈ N) und Y reellwertige Zufallsva- riablen sind, die auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Satz 8.4. Konvergiert Yn P -fast sicher oder P -stochastisch gegen Y , dann konvergiert Yn auch in Verteilung gegen Y . Beweis. Sei f ∈ Cb (R). Konvergiert Yn fast sicher gegen Y , dann konvergiert auch f (Yn ) fast sicher gegen f (Y ). Nach dem Satz von Lebesgue folgt E[f (Yn )] −→ E[f (Y )]. Konvergiert Yn nur stochastisch gegen Y , dann hat jede Teilfolge (Ynk )k∈N von (Yn )n∈N eine fast sicher gegen Y konvergente Teilfolge (Ynkl )l∈N . Wie zuvor folgt E[f (Ynkl )] −→ E[f (Y )]. Also hat jede Teilfolge der Folge (E[f (Yn )])n∈N der Erwartungswerte eine gegen E[f (Y )] konvergente Teilfolge, d.h. es gilt erneut E[f (Yn )] −→ E[f (Y )]. Wir beweisen nun eine partielle Umkehrung der Aussage aus Satz 8.4: Satz 8.5 (Skorokhod - Darstellung und Charakterisierung der schwachen Konvergenz). Seien µn , µ Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit Verteilungsfunktionen Fn bzw. F . Dann sind äquivalent: Universität Bonn Wintersemester 2009/2010 270 KAPITEL 8. GRENZWERTSÄTZE (1). Die Folge (µn )n∈N konvergiert schwach gegen µ. (2). Fn (c) → F (c) für alle Stetigkeitsstellen c von F . (3). Es existieren Zufallsvariablen Gn , G auf (Ω, A, P ) = ((0, 1), B((0, 1)), U(0,1) ) mit Verteilungen µn bzw. µ, sodass Gn → G P -fast sicher. Beweis. „(3) ⇒ (1)“ folgt aus Satz 8.4. „(1) ⇒ (2)“: Für c ∈ R gilt: Z Fn (c) = I(−∞,c] dµn und F (c) = Z I(−∞,c] dµ. (8.3.1) Sei ε > 0. Wir definieren stetige Approximationen der Indikatorfunktion I(−∞,c] durch 1 für x ≤ c − ε 1 für x ≤ c fε (x) = , und gε (x) = . 0 für x ≥ c 0 für x ≥ c + ε c−x für x ∈ [(c − ε, c) c+ε−x für x ∈ (c, c + ε) ε ε 1 gε fε c c−ε c+ε Abbildung 8.8: Stetige Approximationen von I(−∞,c] . Es gilt I(−∞,c−ε] ≤ fε ≤ I(−∞,c] ≤ gε ≤ I(−∞,c+ε] . Konvergiert µn schwach gegen µ, dann folgt nach (8.3.1) und (8.3.2): Z Z lim inf Fn (c) ≥ lim inf fε dµn = fε dµ ≥ F (c − ε), Z Z lim sup Fn (c) ≤ lim sup gε dµn = gε dµ ≤ F (c + ε). (8.3.2) und Für ε ց 0 erhalten wir lim sup Fn (c) ≤ Einführung in die Wahrscheinlichkeitstheorie F (c) = lim F (c + ε), εց0 Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 271 und ≥ lim inf Fn (c) F (c) = lim F (c − ε), εց0 falls F bei c stetig ist. „(2) ⇒ (3)“: Für u ∈ (0, 1) betrachten wir die minimalen und maximalen u-Quantile G(u) := inf{x ∈ R | F (x) ≥ u}, G(u) := inf{x ∈ R | F (x) > u} und der Verteilung µ, siehe Abschnitt 4.4. Entsprechend seien Gn und Gn die minimalen und maximalen u-Quantile der Verteilung µn . Analog zum Beweis von Satz 4.20 zeigt man, dass G und G bzw. Gn und Gn unter der Gleichverteilung P = U(0,1) Zufallsvariablen mit Verteilung µ bzw. µn sind. Wir zeigen nun, dass aus (2) folgt: Behauptung: Gn → G P -fast sicher und Gn → G P -fast sicher. Damit ist dann die Implikation „(2) ⇒ (3)“ bewiesen. Den Beweis der Behauptung führen wir in mehreren Schritten durch: (a) Offensichtlich gilt G ≤ G, und Gn ≤ Gn für alle n ∈ N. (b) G = G und Gn = Gn P -fast sicher, denn: P [G 6= G] ≤ X c∈Q P [{G ≤ c} \ {G ≤ c}] = P [G < G] X = c∈Q (c) Wir zeigen nun: lim sup Gn (u) ≤ G(u), = P " [ # {G ≤ c < G} c∈Q (P [{G ≤ c}] − P [{G ≤ c}]) {z } | {z } | =F (c) 0. =F (c) lim inf Gn (u) und = ≥ G(u). (8.3.3) Zum Beweis der ersten aussage genügt es zu zeigen, dass lim sup Gn (u) ≤ c für alle c > G(u) mit µ[{c}] = 0 (8.3.4) gilt, denn es existieren höchstens abzählbar viele c mit µ[{c}] 6= 0. Für c > G(u) mit µ[{c}] = 0 gilt aber nach Definition von G und nach (2): u < F (c) = lim Fn (c), n→∞ also existiert ein n0 ∈ N mit Fn (c) Universität Bonn > u für alle n > n0 . (8.3.5) Wintersemester 2009/2010 272 KAPITEL 8. GRENZWERTSÄTZE Aus (8.3.5) folgt Gn (u) ≤ c für n ≥ n0 , und somit lim sup Gn (u) ≤ c. Damit haben wir die erste Aussage in (8.3.3) bewiesen. Die zweite Aussage zeigt man auf ähnliche Weise. (d) Aus (a)-(c) folgt P -fast sicher: (a) (c) (b) lim Gn = G und (3) (a) lim sup Gn ≤ lim sup Gn ≤ G = G ≤ lim inf Gn ≤ lim inf Gn , also lim Gn = G. Ein wesentlicher Schritt, um den oben skizzierten Beweis des Zentralen Grenzwertsatzes zu vervollständigen, ist es, zu zeigen, dass die Verteilungen der standardisierten Summen von unabhängigen, identisch verteilten, quadratintegrierbaren Zufallsvariablen eine schwach konvergente Teilfolge haben: Existenz schwach konvergenter Teilfolgen Eine Folge von Wahrscheinlichkeitsverteilungen auf einer endlichen Menge S = {x1 , . . . , xd } können wir als beschränkte Folge in Rd auffassen. Daher existiert stets eine konvergente Teilfolge – der Grenzwert ist wieder eine Wahrscheinlichkeitsverteilung auf S. Für unendliche Mengen S gilt eine entsprechende Aussage im Allgemeinen nicht. Wir beweisen nun ein Kriterium für die Existenz schwach konvergenter Teilfolgen für Folgen von Wahrscheinlichkeitsverteilungen auf R1 . Dazu setzen wir voraus, dass die Masse nicht ins unendliche abwandert: Definition. Eine Folge µn ∈ W V (R) heißt straff (engl. tight), falls zu jedem ε > 0 ein c ∈ (0, ∞) existiert mit µn ([−c, c]) ≥ 1 − ε für alle n ∈ N. Eine straffe Folge von Wahrscheinlichkeitsverteilungen ist also gleichmäßig auf Kompakta konzentriert. Die Masse kann daher für n → ∞ nicht ins Unendliche abwandern. Beispiel. Die Folge µn = N (mn , σn2 ), mn ∈ R, σn > 0, ist genau dann straff, wenn die Folgen mn und σn der Mittelwerte und Standardabweichungen beschränkt sind. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 273 Satz 8.6 (Helly-Bray). Jede straffe Folge µn ∈ W V (R) hat eine schwach konvergente Teilfolge. Bemerkung. (1). Das Kriterium lässt sich deutlich verallgemeinern: Eine entsprechende Aussage gilt für Folgen von Wahrscheinlichkeitsverteilungen auf beliebigen vollständigen separablen metrischen Räumen (Satz von Prohorov, siehe z.B. Billingsley: Convergence of probability measures). Die endlichen Intervalle [−c, c] in der Definition von Straffheit ersetzt man in diesem Fall durch kompakte Mengen. (2). Der Raum W V (R) aller Wahrscheinlichkeitsverteilungen auf [−∞, ∞] ist sogar kompakt bezüglich der schwachen Topologie, d.h. jede Folge µn ∈ W V (R) hat eine schwach kon- vergente Teilfolge. Der Beweis verläuft analog zu dem von Satz 8.6. Es folgt, dass jede Folge µn ∈ W V (R) eine vag konvergente Teilfolge hat. Der Limes ist jedoch i.A. kein Wahrscheinlichkeitsmaß auf R, da die Masse ins unendliche abwandern kann. Allgemei- ner gilt: Ist S kompakt, dann ist W V (S) kompakt bzgl. der schwachen Konvergenz. Wir beweisen nun den Satz von Helly-Bray: Beweis. Sei µn (n ∈ N) eine straffe Folge von Wahrscheinlichkeitsverteilungen auf R. Um die Existenz einer schwach konvergenten Teilfolge zu zeigen, betrachten wir die Folge der Verteilungsfunktionen Fn . Wir zeigen die Aussage in mehreren Schritten: (1). Es existiert eine Teilfolge (Fnk )k∈N , sodass Fnk (x) für alle x ∈ Q konvergiert: Zum Beweis verwenden wir ein Diagonalverfahren: Sei x1 , x2 , ... eine Abzählung von Q. Wegen 0 ≤ Fn ≤ 1 existiert eine Teilfolge (Fn(1) )k∈N , für die Fn(1) (x1 ) konvergiert. Ebenso k k existiert eine Teilfolge (Fn(2) )k∈N von (Fn(1) )k∈N , für die Fn(2) (x2 ) konvergiert, usw. Die k k k Diagonalfolge Fnk (x) := Fn(k) (x) konvergiert dann für alle x ∈ Q. k Für x ∈ Q setzen wir F (x) := limk→∞ Fnk (x). Nach (1) existiert der Grenzwert, außerdem ist die Funktion F : Q → [0, 1]Der Limes existiert nach 1. für x ∈ Q und die Funktion F : Q → [0, 1] monoton wachsend, da die Funktionen Fnk monoton wachsend sind. (2). Stetige Fortsetzung von F auf [0, 1]: Für x ∈ R setzen wir F (x) := inf{F (y) | y ∈ Q, y > x}. Die folgenden Eigenschaften der Funktion F prüft man leicht nach: (a) Die Funktion F ist rechtsstetig, monoton wachsend, und es gilt 0 ≤ F ≤ 1. (b) Fnk (x) → F (x) für alle x ∈ R, an denen F stetig ist. Universität Bonn Wintersemester 2009/2010 274 KAPITEL 8. GRENZWERTSÄTZE (3). Aus (a)folgt, dass durch µ[(a, b]] := F (b) − F (a), −∞ < a ≤ b < ∞, ein positives Maß auf R definiert wird mit µ[R] = lim µ[(−c, c]] ∈ [0, 1]. c→∞ Wir zeigen nun, dass µ eine Wahrscheinlichkeitsverteilung auf R ist, falls die Folge (µn )n∈N straff ist. Es gilt nämlich: µ[(−c, c]] = F (c) − F (−c) = lim (Fnk (c) − Fnk (−c)) = lim µnk [(−c, c]] (8.3.6) k→∞ k→∞ für fast alle c. Aus der Straffheit von (µn )n∈N folgt, dass zu jedem ε > 0 ein c(ε) ∈ R existiert mit µnk [(−c, c]] ≥ 1 − ε für alle k. Aus (8.3.6) folgt dann µ[(−c, c]] ≥ 1 − ε, falls c groß genug ist, und damit für ε ց 0: µ[R] ≥ 1, also µ(R) = 1. (4). Aus (b) folgt nun nach Satz 8.5, dass die Folge (µnk )k∈N schwach gegen µ konvergiert. Schwache Konvergenz über charakteristische Funktionen Unter Verwendung der Existenz schwach konvergenter Teilfolgen einer straffen Folge von Wahrscheinlichkeitsverteilungen zeigen wir nun, dass eine Folge von Wahrscheinlichkeitsverteilungen auf R genau dann schwach konvergiert, wenn die charakteristischen Funktionen gegen eine Grenzfunktion konvergieren, die bei 0 stetig ist: Satz 8.7 (Stetigkeitssatz, Konvergenzsatz von Lévy). Seien (µn )n∈N Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit charakteristischen Funktionen Z φn (t) = eitx µn (dx). Dann gilt: (1). Konvergiert µn schwach gegen eine Wahrscheinlichkeitsverteilung µ, dann konvergieren auch die charakteristischen Funktionen: φn (t) → φ(t) := Einführung in die Wahrscheinlichkeitstheorie Z eitx µ(dx) für alle t ∈ R. Prof. Andreas Eberle 8.3. VERTEILUNGSKONVERGENZ 275 (2). Konvergiert umgekehrt φn (t) für alle t ∈ R gegen einen Limes φ(t), und ist φ stetig bei t = 0, dann ist φ die charakteristische Funktion einer Wahrscheinlichkeitsverteilung µ, und µn konvergiert schwach gegen µ. Bemerkung. (1). Die Stetigkeit von φ bei 0 ist wesentlich. Zum Beispiel ist die Folge µn = N (0, n) nicht schwach konvergent, aber die charakteristischen Funktionen konvergieren punktweise: t2 n↑∞ φn (t) = e− 2n → 0 falls t 6= 0 1 . falls t = 0 (2). Eine Aussage wie im Satz gilt auch für Wahrscheinlichkeitsverteilungen auf Rd . Hier definiert man die charakteristische Funktion φ : Rd → C durch Z eit·x µ(dx), t ∈ Rd . φ(t) = Rd Beweis. Der erste Teil der Aussage folgt unmittelbar aus eitx = cos(tx) + i sin(tx), denn Kosinus und Sinus sind beschränkte stetige Funktionen. Der Beweis des zweiten Teils der Aussage erfolgt nun in mehreren Schritten. Wir nehmen an, dass die charakteristischen Funktionen φn (t) punktweise gegen eine bei 0 stetige Grenzfunktion φ(t) konvergieren. (1). Relative Kompaktheit: Jede Teilfolge von (µn )n∈N hat eine schwach konvergente Teilfolge. Dies ist der zentrale Schritt im Beweis. Nach dem Satz von Helly-Bray genügt es zu zeigen, dass µn (n ∈ N) unter den Voraussetzungen straff ist. Dazu schätzen wir die Wahr- scheinlichkeiten µn [|x| ≥ c] mithilfe der charakteristischen Funktionen ab. Da die Funktion f (u) = 1 − sin u u für u 6= 0 strikt positiv ist mit lim f (u) = 1, existiert eine Konstante |u|→∞ a > 0 mit f (u) ≥ a für alle |u| ≥ 1. Damit erhalten wir für ε > 0: µn = 1 |x| ≥ ε µn [{x ∈ R | |εx| ≥ 1}] ≤ 1 a Z sin εx µn (dx) 1− εx {z } | 1 = 2ε F ubini = Universität Bonn 1 2aε Z ε −ε nր∞ (1 − Re(φn (t)))dt −→ Lebesgue Rε (1−cos(xt))dt −ε 1 · 2aε Z (8.3.7) ε −ε (1 − Re(φ(t)))dt. Wintersemester 2009/2010 276 KAPITEL 8. GRENZWERTSÄTZE Sei nun δ > 0 vorgegeben. Ist ε hinreichend klein, dann gilt wegen der vorausgesetzten Stetigkeit von φ bei 0: |1 − Re(φ(t))| = |Re(φ(0) − φ(t))| ≤ δa 2 für alle t ∈ [−ε, ε]. Also können wir die rechte Seite von (8.3.7) durch δ/2 abschätzen, und somit existiert ein n0 ∈ N mit µn 1 |x| ≥ ε ≤ δ für alle n ≥ n0 . (8.3.8) Diese Aussage gilt natürlich auch, falls wir ε noch kleiner wählen. Zudem gilt (8.3.8) auch für alle n < n0 , falls ε klein genug ist. Also ist µn (n ∈ N) straff. (2). Der Grenzwert jeder schwach konvergenten Teilfolge von (µn )n∈N hat die charakteristische Funktion φ. Zum Beweis sei (µnk )k∈N eine Teilfolge von (µn )n∈N und µ eine Wahrscheinlichkeitsverw teilung mit µnk → µ. Dann gilt nach dem ersten Teil der Aussage des Satzes: φµ (t) = lim φnk (t) k→∞ = φ(t) für alle t ∈ R. (3). Schwache Konvergenz von (φn )n∈N . Nach dem Inversionssatz existiert höchstens eine Wahrscheinlichkeitsverteilung µ mit charakteristischer Funktion φ. Also konvergieren nach (2) alle schwach konvergenten Teilfolgen von (µn )n∈N gegen denselben Limes µ. Hieraus folgt aber, zusammen mit (1), dass R (µn )n∈N schwach gegen µ konvergiert, denn für f ∈ Cb (S) hat jede Teilfolge von f dµn R R R eine gegen f dµ konvergente Teilfolge, und somit gilt f dµn → f dµ. 8.4 Der Zentrale Grenzwertsatz Wir können nun den in Abschnitt 8.2 skizzierten Beweis des Zentralen Grenzwertsatzes (engl. Central Limit Theorem) vervollständigen. Wir zeigen zunächst, dass ein zentraler Grenzwertsatz für Summen beliebiger unabhängiger, identisch verteilter Zufallsvariablen mit endlicher Varianz gilt. Diese Aussage wurde zuerst 1900 von Lyapunov bewiesen, der damit den Satz von de Moivre/Laplace (1733) deutlich verallgemeinern konnte. Am Ende dieses Abschnitts beweisen wir eine noch allgemeinere Version des Zentralen Grenzwertsatzes, die auf Lindeberg und Feller zurückgeht. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.4. DER ZENTRALE GRENZWERTSATZ 277 Zentraler Grenzwertsatz für Summen von i.i.d. Zufallsvariablen Satz 8.8 (Zentraler Grenzwertsatz – 1. Version). Seien X1 , X2 , ... ∈ L2 (Ω, A, P ) unabhängige, identisch verteilte Zufallsvariablen mit Varianz σ 2 und sei Sn = X1 + ... + Xn . Dann konvergieren die Verteilungen der standardisierten Summen Ŝn = n Sn − E[Sn ] 1 X √ (Xi − E[Xi ]) = √ n n i=1 schwach gegen N (0, σ 2 ). Bemerkung. (1). Alternativ kann man die standardisierten Summen auf Varianz 1 normieren, und erhält Sn − E[Sn ] √ σ· n D −→ Z, wobei Z eine standardnormalverteilte Zufallsvariable ist. (2). Die Voraussetzung Xi ∈ L2 (Ω, A, P ) ist wesentlich. Bei unendlicher Varianz der Xi können sich andere Grenzverteilungen für die geeignet renormierten Summen Sn −an bn (an ∈ R, bn > 0) ergeben. Als Grenzverteilungen können i.A. die sogenannten stabilen Verteilungen auftreten, siehe dazu z.B. Satz 8.12 unten. (3). Im Fall σ 2 = 0 gilt die Aussage auch. Hierbei interpretieren wir das Diracmaß δm als degenerierte Normalverteilung N (m, 0). Wir beweisen nun den Zentralen Grenzwertsatz in der oben stehenden Form: ei := Beweis. O.B.d.A. sei E[Xi ] = 0, ansonsten betrachten wir die zentrierten Zufallsvariablen X Xi −E[Xi ]. Nach dem Konvergenzsatz von Lévy genügt es zu zeigen, dass die charakteristischen Funktionen der standardisierten Summen Sbn punktweise gegen die charakteristische Funktion der Normalverteilung N (0, σ 2 ) konvergieren, d.h. φŜn (t) → φN (0,σ2 ) (t) = e− σ 2 t2 2 ∀ t ∈ R. (8.4.1) Da die Zufallsvariablen Xi unabhängig, identisch verteilt und zentriert sind, gilt für t ∈ R: n t t E[Sn ]=0 Xi iid = φX1 √ . φŜn (t) = φSn √ n n Universität Bonn Wintersemester 2009/2010 278 KAPITEL 8. GRENZWERTSÄTZE Aus X1 ∈ L2 folgt φX1 ∈ C 2 (R), und φX1 (t) = E[eitX1 ] = 1 + itE[X1 ] + (it)2 E[X12 ] + o(t2 ) 2 = 1− t2 σ 2 + o(t2 ), 2 = 0 steht. Damit erhalten wir: wobei o für eine Funktion o : R+ → C mit limε↓0 |o(ε)| ε 2 n t t2 σ 2 +o . 1− φŜn (t) = 2n n Wir vermuten, dass dieser Ausdruck für n → ∞ gegen e− t2 σ 2 2 strebt. Dies kann man beweisen, in- dem man den Logarithmus nimmt, und die Taylorapproximation log(1+w) = w+o(|w|) verwendet. Da die charakteristische Funktion komplexwertig ist, muss dazu allerdings der Hauptzweig der komplexen Logarithmusfunktion verwendet werden. Wir zeigen stattdessen die Konvergenz ohne Verwendung von Aussagen aus der Funktionentheo- rie: Für komplexe Zahlen zi , wi ∈ C mit |zi |, |wi | ≤ 1 gilt nach der Dreiecksungleichung n n Y Y wi = |(z1 − w1 )z2 z3 · · · zn + w1 (z2 − w2 )z3 z4 · · · zn + . . . + w1 · · · wn−1 (zn − wn )| zi − i=1 i=1 ≤ n X i=1 |zi − wi |. Damit erhalten wir: 2 n 2 2 n 2 2 2 2 t σ t tσ t σ = 1− φ b (t) − exp − + o − exp − Sn 2 2n n 2n t2 σ 2 t2 σ 2 t2 +o ≤ n · 1 − − exp − . 2n n 2n Da die rechte Seite für n → ∞ gegen 0 konvergiert, folgt (8.4.1) und damit die Behauptung. Beispiel. (1). Sind X1 , X2 , . . . unabhängig mit P [Xi = 1] = p und P [Xi = 0] = 1 − p, n P Xi binomialverteilt mit Parametern n und p. Die Aussage des Zentralen dann ist Sn = i=1 Grenzwertsatzes folgt in diesem Fall aus dem Satz von de Moivre/Laplace. (2). Sind die Zufallsvariablen Xi unabhängig und Poissonverteilt mit Parameter λ > 0, dann ist n P Xi Poissonverteilt mit Parameter nλ. Der Zentrale Grenzwertsatz liefert in diesem Sn = i=1 Fall eine Normalapproximation für Poissonverteilungen mit großer Intensität (Übung). (3). Sind X1 , X2 , . . . unabhängige, N (m, σ 2 )-verteilte Zufallsvariablen, dann gilt Sbn = X1 + X2 + . . . + Xn − nm √ n ∼ N (0, σ 2 ) für alle n ∈ N (und nicht nur asymptotisch!). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.4. DER ZENTRALE GRENZWERTSATZ 279 Warum tritt die Normalverteilung im Limes auf? Wie schon im letzten Beispiel bemerkt, gilt Xi ∼ N (0, σ 2 ) unabhängig ⇒ X1 + . . . + Xn √ ∼ N (0, σ 2 ). n Die zentrierten Normalverteilungen sind also „invariant“ unter der Reskalierungstransformation aus dem zentralen Grenzwertsatz. Man kann sich leicht plausibel machen, dass eine Grenzverteilung der standardisierten Summen unabhängiger quadratintegrierbarer Zufallsvariablen eine entsprechende Invarianzeigenschaft haben muss. Tatsächlich sind die zentrierten Normalverteilungen die einzigen nichtdegenerierten Wahrscheinlichkeitsverteilungen mit dieser Invarianz. Aus dem Zentralen Grenzwertsatz folgt sogar: Korollar 8.9. Sei µ eine Wahrscheinlichkeitsverteilung auf R mit X, Y ∼ µ unabhängig R x2 µ(dx) < ∞. Gilt X +Y √ ∼ µ, 2 ⇒ (8.4.2) dann ist µ eine zentrierte Normalverteilung. Bemerkung. Die Aussage gilt auch ohne die Voraussetzung aber aufwändiger, siehe z.B. B REIMAN : P ROBABILITY. R x2 µ(dx) < ∞ ; der Beweis ist Beweis. Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit Verteilung µ. Aus der VoraussetR zung (8.4.2) folgt E[Xi ] = x µ(dx) = 0 für alle i ∈ N, und durch Induktion: (X1 + . . . + Xn ) √ n Wegen R ∼ µ für n = 2k , k ∈ N. x2 µ(dx) < ∞ sind die Xi quadratintegrierbar. Durch Anwenden des zentralen Grenz- wertsatzes auf die standardisierten Summen folgt, dass µ eine zentrierte Normalverteilung ist. Normalapproximationen Die Normalverteilungsasymptotik der standardisierten Summen wird häufig verwendet, um Wahrscheinlichkeiten näherungsweise zu berechnen. Wir betrachten zunächst ein typisches Beispiel: Beispiel (Versicherungsgesellschaft mit n Verträgen). Eine Versicherungsgesellschaft habe mit n Kunden Verträge abgeschlossen. Beim Eintreten des Schadenfalls für Vertrag i muss die Leistung Xi ≥ 0 gezahlt werden. Wir nehmen an, dass gilt: Xi ∈ L2 i.i.d. Universität Bonn mit E[Xi ] = m, Var[Xi ] = σ 2 . Wintersemester 2009/2010 280 KAPITEL 8. GRENZWERTSÄTZE Die Prämie pro Vertrag betrage Π = m + λσ 2 , wobei m die erwartete Leistung ist und λσ 2 mit λ > 0 einem Risikozuschlag entspricht. Die Einnahmen nach einer Zeitperiode betragen dann n · Π, die Ausgaben Sn = X1 + ... + Xn . Wir wollen die Wahrscheinlichkeit des Ruinereignisses Sn > k + nΠ, berechnen, wobei k das Anfangskapital bezeichnet. Hierbei nehmen wir implizit an, dass nicht verzinst wird, und die Abrechnung nur am Schluß einer Zeitperiode erfolgt. Wenn die standardisierten Schadenssummen mithilfe einer ZGS-Näherung approximiert werden, ergibt sich: P [Ruin] = P [Sn > k + nΠ] = P [Sn − E[Sn ] > k + nλσ 2 ] √ Sn − E[Sn ] k √ = P > √ + λσ n σ n σ n √ k ≈ P Z > √ + λσ n , σ n wobei Z eine standardnormalverteilte Zufallsvariable ist. Der Ausdruck auf der rechten Seite geht für n → ∞ gegen 0. Eine große Anzahl von Verträgen sollte also eine kleine Ruinwahrscheinlichkeit implizieren. Für n = 2000, σ = 60 und λ = 0, 05% ergibt sich beispielsweise: k = 0 : P [Ruin] ≈ 9%, k = 1500 : P [Ruin] ≈ 3%. Nach einer solchen Überschlagsrechnung sollte man das verwendete Modell und die Approximationsschritte einer kritischen Analyse unterziehen. In unserem Fall stellen sich unmittelbar mehrere Fragen: (1). Wir haben die ZGS-Näherung verwendet, obwohl die auftretenden Schranken für die standardisierten Summen von n abhängen. Ist das in diesem Fall zulässig? (2). Ist die Quadratintegrierbarkeit der Xi eine sinnvolle Modellannahme, und was ergibt sich andernfalls? (3). In einem realistischen Modell kann man nicht davon ausgehen, dass die Xi identisch verteilt sind. Gilt trotzdem ein Zentraler Grenzwertsatz? (4). Ist die Unabhängigkeitsannahme gerechtfertigt? Wir werden nun auf die ersten drei Fragen näher eingehen. Das folgende Beispiel zeigt, dass man in der Tat vorsichtig sein sollte, wenn man von n abhängige Quantile von standardisierten Summen durch entsprechende Quantile von Normalverteilungen ersetzt: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.4. DER ZENTRALE GRENZWERTSATZ 281 Beispiel (Eine zu naive ZGS-Approximation). Seien Xi , i ∈ N, unabhängige, identisch ver- teilte Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = 1, und sei a > 0. Mit einer ZGSApproximation erhalten wir für große n: " n # # " n X X √ 1 1 P Xi ≥ a = P √ Xi ≥ a n n i=1 n i=1 Z ∞ 2 1 − x2 dx ≈ √ e 2π a√n Z ∞ 2 √ y2 1 − na 2 = e e−a ny− 2 dy ·√ 2π 0Z ∞ 2 z2 1 − na 2 ·√ = e e−az− 2n dz 2πn 0 na2 1 · exp − ∼ √ 2 2πa2 n √ x=a n+y z= √ ny Dies ist aber nicht die korrekte Asymptotik für n → ∞. Auf der exponentiellen Skala gilt nämlich " n 1X P Xi ≥ a n i=1 # ∼ exp (−nI(a)) , wobei I(a) die Ratenfunktion aus dem Satz von Chernoff ist. Diese ist im Allgemeinen von √ na2 /2 verschieden. Die ZGS-Approximation ist hier nicht anwendbar, da a n von n abhängt! Dass die Näherung aus dem Beispiel oben trotzdem recht gut funktioniert, wenn die Zufallsvariablen Xi dritte Momente haben, garantiert die folgende Abschätzung der Konvergenzgeschwindigkeit im Zentralen Grenzwertsatz: Satz 8.10 (Berry-Esséen). Seien Xi ∈ L3 i.i.d. Zufallsvariablen, Z ∼ N (0, 1), und seien Sn − E[Sn ] √ Fn (x) := P ≤ x , σ n Φ(x) := P [Z ≤ x]. Dann gilt folgende Abschätzung: sup |Fn (x) − Φ(x)| x∈R ≤ 3 · E[|X1 − E[X1 ]|3 ] √ . σ3 n Den Beweis dieser Aussage findet man etwa im Buch P ROBABILITY T HEORY von R. Durrett (4.10). Universität Bonn Wintersemester 2009/2010 282 KAPITEL 8. GRENZWERTSÄTZE Für die Normalapproximation der Binomialverteilung Bin(n, p) ergibt sich beispielsweise 3 · E[|X1 − E[X1 ]|3 ] 3 · ((1 − p)2 + p2 ) p √ = . σ3 n np(1 − p) Für p → 0 oder p → 1 divergiert die rechte Seite. Wir erhalten also möglicherweise einen hohen Approximationsfehler für p nahe 0 oder 1. In diesen Fällen empfiehlt sich in der Tat die Verwendung der Poisson-Approximation anstelle des zentralen Grenzwertsatzes. Heavy Tails, Konvergenz gegen α-stabile Verteilungen Als nächstes betrachten wir ein Beispiel, welches zeigt, dass die Voraussetzung der Quadratintegrierbarkeit der Zufallsvariablen essentiell für den zentralen Grenzwertsatz ist: Seien α ∈ (1, 2), r ∈ (0, ∞), und seien X1 , X2 , . . . : Ω → R unabhängige identisch verteilte absolutstetige Zufallsvariablen, deren Dichtefunktion fXi (x) |x|−α−1 = für alle |x| ≥ r erfüllt. Da die Dichte für |x| → ∞ nur langsam abfällt, sind die Zufallsvariablen nicht quadratin- tegrierbar; sie sind aber integrierbar. Daher ergibt sich ein anderes asymptotisches Verhalten der charakteristischen Funktionen für t → 0 : Lemma 8.11. Für t → 0 gilt φXi (t) = 1 + imt − c|t|α + O(t2 ) R mit m = E[Xi ] und c = (1 − cos u)|u|−α−1 du ∈ (0, ∞). R Beweis. Sei t 6= 0. Wegen eiu − 1 − iu = O(u2 ) und cos u − 1 = O(u2 ) erhalten wir φXi (t) − 1 − imt = = Z∞ −∞ Z∞ −∞ 1 = |t| (eitx − 1 − itx)f (x) dx u 1 du (e − 1 − iu)f t |t| iu Ztr −tr iu (e − 1 − iu)f α u t α du + |t | Z (cos u − 1)|u|−α−1 du [−tr,tr]C 2 = −c|t| + O(t ). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.4. DER ZENTRALE GRENZWERTSATZ Für die zentrierten Summen Sn = n P 283 (Xi − m) folgt nach dem Lemma: i=1 φSn (t) (1 − c|t|α + O(t2 ))n . = Um Konvergenz der charakteristischen Funktionen zu erhalten, müssen wir Xn nun mit n−1/α statt n−1/2 reskalieren: φn−1/α Sn (t) = φSn (n−1/α t) (1 − c|t|α n−1 + O(n−2/α ))n = → exp(−c|t|α ) für n → ∞. Nach dem Konvergenzsatz von Lévy folgt: Satz 8.12. Für n → ∞ gilt D n−1/α Sn → µc,α , wobei µc,α die Wahrscheinlichkeitsverteilung mit charakteristischer Funktion φc,α (t) = exp(−c|t|α ) ist. Definition. Seien α ∈ (0, 2] und m ∈ R. Die Wahrscheinlichkeitsverteilungen mit charakteristischer Funktion φ(t) = exp(imt − c|t|α ), c ∈ (0, ∞), heißen symmetrische α-stabile Verteilungen mit Mittelwert m. Die Dichten der α-stabilen Verteilungen sind für α 6= 1, 2 nicht explizit berechenbar, fallen aber für |x| → ∞ wie |x|−α−1 ab. Für α = 1 erhält man die Cauchyverteilungen, für α = 2 die Normalverteilungen. Satz 8.12 ist ein Spezialfall eines allgemeineren Grenzwertsatzes für Summen von Zufallsvariablen mit polynomiellen Tails, siehe z.B. B REIMAN , T HEOREM 9.34. Der Satz von Lindeberg-Feller Wir wollen nun die Annahme fallen lassen, dass die Summanden Xi identisch verteilt sind, und zeigen, dass trotzdem ein zentraler Grenzwertsatz gilt. Sei Sbn = Yn,1 + Yn,2 + ... + Yn,n mit Yn,i ∈ L2 (Ω, A, P ). Die Zufallsvariablen Yn,i können etwa kleine Störungen oder Messfehler beschreiben. Setzen wir Yn,i = Xi − E[Xi ] √ n mit Xi ∈ L2 unabhängig, (8.4.3) so erhalten wir das Setup von oben. Universität Bonn Wintersemester 2009/2010 284 KAPITEL 8. GRENZWERTSÄTZE Satz 8.13 (ZGS von Lindeberg-Feller). Sei σ ∈ (0, ∞). Es gelte: (i) Yn,i (1 ≤ i ≤ n) sind unabhängig für jedes n ∈ N mit E[Yn,i ] = 0, (ii) Var[Sbn ] = (iii) γn,ε := Pn i=1 Pn i=1 n↑∞ Var[Yn,i ] −→ σ 2 , n↑∞ 2 E[Yn,i ; |Yn,i | > ε] −→ 0 ∀ ε > 0. Dann konvergiert die Verteilung von Sbn schwach gegen N (0, σ 2 ). Der Satz zeigt, dass die Summe vieler kleiner unabhängiger Störungen unter geeigneten Voraussetzungen ungefähr normalverteilt ist. Dies rechtfertigt bis zu einem gewissen Grad, dass Zufallsgrößen mit unbekannter Verteilung, die durch Überlagerung vieler kleiner Effekte entstehen, häufig durch normalverteilte Zufallsvariablen modelliert werden. Bemerkung. (1). Der Zentrale Grenzwertsatz von oben ist ein Spezialfall des Satzes von LindebergFeller: Sind Xi ∈ L2 i.i.d. Zufallsvariablen mit E[Xi ] = m und Var[Xi ] = σ 2 , und definieren wir Yn,i wie in (8.4.3), dann gilt: n 1 X b Var[Sn ] = Var[Xi ] n i=1 = Var[X1 ] = σ2, für alle n ∈ N, und, für ε > 0 γn,ε n X n √ 1 X E |Xi − m|2 ; |Xi − m| > ε n = E >ε = n i=1 i=1 √ = E |X1 − m|2 ; |X1 − m| > ε n → 0 für n → ∞, 2 Yn,i ; |Yn,i | da X1 quadratintegrierbar ist. (2). Die Bedingung (iii) ist insbesondere erfüllt, wenn die Lyapunovbedingung n X i=1 n→∞ E[|Yn,i |p ] −→ 0 für ein p > 2 gilt, 2 denn für ε > 0 ist E[Yn,i ; |Yn,i | ≥ ε] ≤ E[|Yn,i |p ]/εp−2 . Wir beweisen nun den Satz von Lindeberg-Feller: Der Beweis basiert wieder auf einer Analyse der Asymptotik der charakteristischen Funktionen. Dazu zeigen wir zunächst einige asymptotische Abschätzungen: Beweis. (a) Vorüberlegungen: Sei t ∈ R fest. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 8.4. DER ZENTRALE GRENZWERTSATZ 285 (I) Taylorapproximation für φn,i (t) := E[eitYn,i ]: Aus den verschiedenen Abschätzungen des Taylorrestglieds erhält man 3 x2 |x| ix 2 e = 1 + ix − + R(x) mit |R(x)| ≤ min , x . 2 6 (8.4.4) Damit ergibt sich φn,i (t) = 1 + itE[Yn,i ] − t2 2 E[Yn,i ] + E[R(tYn,i )] 2 = 1− 2 t2 σn,i + Rn,i , 2 wobei für Rn,i := E[R(tYn,i )] die Abschätzung |tYn,i |3 2 2 |Rn,i | ≤ E min , t Yn,i 6 (8.4.5) gilt. (II) Wir zeigen Pn i=1 |Rn,i | → 0 für n → ∞: Für ε > 0 gilt nach (8.4.5): |Rn,i | ≤ 1 · E |tYn,i |3 ; |Yn,i | ≤ ε + E[|tYn,i |2 ; |Yn,i | > ε]. 6 2 Mit E [|tYn,i |3 ; |Yn,i | ≤ ε] ≤ |t|3 ε · σn,i erhalten wir n X i=1 n |Rn,i | |t|3 ε X 2 σ + t2 γn,ε , 6 i=1 n,i ≤ und somit nach Voraussetzung (ii) und (iii) lim sup n→∞ n X i=1 |Rn,i | ≤ σ 2 |t|3 ε. 6 Die Behauptung folgt für ε → 0. 2 (III) Wir zeigen sup1≤i≤n σn,i →0 für n → ∞: Für ε > 0 und 1 ≤ i ≤ n gilt 2 2 2 σn,i = E[Yn,i ; |Yn,i | ≤ ε] + E[Yn,i ; |Yn,i | > ε] ≤ ε2 + γn,ε . Wegen γn,ε → 0 für n → ∞ ergibt sich 2 lim sup sup σn,i ≤ ε2 . n→∞ 1≤i≤n Die Behauptung folgt wieder für ε → 0. Universität Bonn Wintersemester 2009/2010 286 KAPITEL 8. GRENZWERTSÄTZE (b) Hauptteil des Beweises: Zu zeigen ist φŜn (t) = n Y i=1 t2 σ 2 φn,i (t) −→ exp − 2 n→∞ , (8.4.6) die Aussage folgt dann aus dem Konvergenzsatz von Lévy. Wir zeigen: n n Y 2 2 Y t σ n,i 1− φn,i (t) − 2 i=1 i=1 n 2 Y t2 σn,i 1− 2 i=1 n→∞ −→ 0, n→∞ e− −→ und t2 σ 2 2 (8.4.7) . (8.4.8) Daraus folgt (8.4.6), und damit die Behauptung. Beweis von (8.4.7): Wie oben gezeigt, gilt für zi , wi ∈ C mit |zi |, |wi | ≤ 1: n n n Y X Y zi − wi ≤ |zi − wi |. i=1 i=1 i=1 Zudem gilt |φn,i (t)| ≤ 1, und nach der 3. Vorüberlegung existiert ein n0 ∈ N mit 2 t2 σn,i ∈ (0, 1) für alle n ≥ n0 und 1 ≤ i ≤ n. 2 Damit erhalten wir für n ≥ n0 : n n n Y 2 2 Y X t2 σn,i t2 σn,i = φn,i (t) − 1− ≤ φn,i (t) − 1 − 2 2 1− i=1 i=1 i=1 Die rechte Seite konvergiert nach der 2. Vorüberlegung gegen 0. (8.4.9) n X i=1 |Rn,i | Beweis von (8.4.8): Wegen (8.4.9) erhalten wir ! n n 2 2 X Y t2 σn,i t2 σn,i = log 1 − log 1− 2 2 i=1 i=1 = − 2 en,i | ≤ C · t2 σn,i wobei |R 2 n n 2 X X t2 σn,i en,i , + R 2 i=1 i=1 e ∈ (0, ∞). Die rechte Seite konvergiert nach Voraussetmit C 2 2 zung (ii) für n → ∞ gegen − t 2σ , denn n X i=1 en,i | ≤ Ct4 · |R nach der 3. Vorüberlegung. n X 4 σn,i i=1 Einführung in die Wahrscheinlichkeitstheorie ≤ 4 Ct · n X i=1 2 2 σn,i · sup σn,i 1≤i≤n → 0 Prof. Andreas Eberle 8.5. VOM RANDOM WALK ZUR BROWNSCHEN BEWEGUNG 287 Bemerkung (Zentrale Grenzwertsätze für Summen abhängiger Zufallsvariablen). In allen Fällen haben wir bisher angenommen, dass die Zufallsvariablen Xi unabhängig sind. Tatsächlich hat man zentrale Grenzwertsätze auch für viele große Modellklassen mit Abhängigkeit gezeigt, beispielsweise für Martingale, additive Funktionale von Markovketten, Skalierungslimiten von Teilchensystemen, unterschiedliche Folgen von Parameterschätzern in der Statistik, usw. Wir werden darauf in weiterführenden Vorlesungen zurückkommen. 8.5 Vom Random Walk zur Brownschen Bewegung Universität Bonn Wintersemester 2009/2010 Kapitel 9 Multivariate Verteilungen und statistische Anwendungen 9.1 Mehrstufige Modelle Seien (Si , Si ), 1 ≤ i ≤ n, messbare Räume. Wir wollen allgemeine Wahrscheinlichkeitsvertei- lungen auf dem Produktraum S1 × ... × Sn konstruieren und effektiv beschreiben. In Analogie zu diskreten, mehrstufigen Modellen versuchen wir diese in der Form P (dx1 ...dxn ) = µ(dx1 )p(x1 , dx2 )p((x1 , x2 ), dx3 ) · · · p((x1 , ..., xn−1 ), dxn ) darzustellen. Stochastische Kerne und der Satz von Fubini Wir betrachten zunächst den Fall n = 2, der allgemeine Fall ergibt sich dann durch Iteration der Konstruktion. Seien also (S, S) und (T, T ) messbare Räume, und sei Ω := S × T und A := S ⊗ T die Produkt-σ-Algebra. Unser Ziel ist die Konstruktion einer Wahrscheinlichkeitsverteilung auf (Ω, A) vom Typ P (dxdy) = µ(dx)p(x, dy). Definition. Eine Abbildung p : S × T −→ [0, 1], (x, C) 7→ p(x, C), heißt stochastischer Kern (oder Übergangswahrscheinlichkeit), wenn gilt: 288 9.1. MEHRSTUFIGE MODELLE 289 (i) p(x, •) ist für jedes x ∈ S eine Wahrscheinlichkeitsverteilung auf (T, T ), (ii) p(•, C) ist für jedes C ∈ T eine messbare Funktion auf (S, S). Bemerkung (Diskreter Spezialfall). Sind S und T abzählbar mit S = P(S), T = P(T ), dann ist p eindeutig festgelegt durch die Matrix mit Komponenten p(x, y) := p(x, {y}) (x ∈ S , y ∈ T ). Da p ein stochastischer Kern ist, ist p(x, y) (x ∈ S, y ∈ T ) eine stochastische Matrix. Der folgende Satz zeigt im allgemeinen Fall die Existenz eines zweistufigen Modells mit µ als Verteilung der ersten Komponente, und p(x, •) als bedingte Verteilung der zweiten Komponente gegeben den Wert x der ersten Komponente. Der Satz zeigt zudem, dass Erwartungswerte im mehrstufigen Modell durch Hintereinanderausführen von Integralen berechnet werden können. Satz 9.1 (Fubini). Sei µ(dx) eine Wahrscheinlichkeitsverteilung auf (S, S) und p(x, dy) ein sto- chastischer Kern von (S, S) nach (T, T ). Dann existiert eine eindeutige Wahrscheinlichkeitsverteilung µ ⊗ p auf (Ω, A) mit (µ ⊗ p)[B × C] = Z µ(dx) p(x, C) B Für diese Wahrscheinlichkeitsverteilung gilt: Z Z Z f d(µ ⊗ p) = f (x, y) p(x, dy) µ(dx) Beweis. für alle B ∈ S, C ∈ T . (9.1.1) für alle A-messbaren f : Ω → R+ . (9.1.2) (1). Eindeutigkeit: Das Mengensystem {B × C | B ∈ S, C ∈ T } ist ein durch- schnittsstabiler Erzeuger der Produkt-σ-Algebra A. Also ist die Wahrscheinlichkeitsverteilung µ ⊗ ν durch (9.1.1) eindeutig festgelegt. (2). Existenz: Wir wollen die Wahrscheinlichkeitsverteilung µ⊗ν über (9.1.2) mit f = IA , A ∈ A, definieren. Dazu müssen wir überprüfen, ob die rechte Seite in diesem Fall definiert ist (d.h. ob die Integranden messbar sind), und ob Z Z (µ ⊗ p)[A] := IA (x, y) p(x, dy) µ(dx) eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert. Für Produktmengen A = B × C (B ∈ S, C ∈ T ) ist die Funktion x 7→ R IA (x, y)p(x, dy) nach Definition des stochastischen Kerns messbar. Da die Mengen A ∈ A, für die diese Funktion messbar ist, ein Dynkinsystem bilden, folgt die Messbarkeit für alle A ∈ A. Universität Bonn Wintersemester 2009/2010 290 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK µ ⊗ p ist eine Wahrscheinlichkeitsverteilung, denn einerseits folgt Z Z (µ ⊗ p)[Ω] = (µ ⊗ p)[S × T ] = IS (x)IT (y)p(x, dy) µ(dx) = µ[S] = 1 aus R T p(x, dy) = p(x, T ) = 1; andererseits gilt für disjunkte Mengen Ai (i ∈ N) X I Ai , I S Ai = woraus unter zweimaliger Anwendung des Satzes von der monotonen Konvergenz folgt: ! # " Z Z X [ IAi (x, y) p(x, dy) µ(dx) (µ ⊗ p) Ai = i = i X Z Z IAi (x, y) p(x, dy) µ(dx) i = X i (µ ⊗ p)[Ai ]. Durch maßtheoretische Induktion zeigt man nun, dass die Wahrscheinlichkeitsverteilung µ ⊗ p auch (9.1.2) erfüllt. Als nächstes wollen wir die Randverteilungen des gerade konstruierten zweistufigen Modells berechnen. Sei also P := µ ⊗ p, und seien X : S×T → S , Y : S×T → T (x, y) 7→ x (x, y) 7→ y , die Projektionen auf die 1. bzw. 2. Komponente. Wegen p(x, T ) = 1 gilt: Z P [X ∈ B] = P [B × T ] = µ(dx) p(x, T ) = µ[B] ∀ B ∈ S, B also ist die Verteilung P ◦ X −1 der ersten Komponente gleich µ. Für die Verteilung der zweiten Komponente erhalten wir P [Y ∈ C] = P [S × C] = Z µ(dx) p(x, C) S ∀C ∈T. Definition. Die durch (µp)[C] := Z µ(dx) p(x, C), C}inT , definierte Wahrscheinlichkeitsverteilung auf (T, T ) heißt Mischung der Wahrscheinlichkeitsverteilungen p(x, •) bezüglich µ. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.1. MEHRSTUFIGE MODELLE 291 Wie gerade gezeigt, ist µp = P ◦ Y −1 die Verteilung der zweiten Komponente im zweistufigen Modell. Bemerkung. Sind S und T abzählbar, dann sind µ ⊗ p und µp die schon in Abschnitt 2.3 be- trachteten Wahrscheinlichkeitsverteilungen mit Gewichten (µ ⊗ p)(x, y) = µ(x) p(x, y), X (µp)(y) = µ(x) p(x, y). x∈S Die Massenfunktionen von µ ⊗ p und µp sind also das Tensor- bzw. Matrixprodukt des Zeilenvektors µ und der stochastischen Matrix p. Wichtige Spezialfälle Produktmaße: Ist p(x, •) ≡ ν eine feste (von x unabhängige) Wahrscheinlichkeitsverteilung auf (T, T ), dann ist µ ⊗ p das Produkt µ ⊗ ν der Wahrscheinlichkeitsverteilungen µ und ν. Der Satz von Fubini liefert also die Existenz des Produktmaßes, und die schon mehrfach verwendete Berechnungsformel Z f d(µ ⊗ ν) = Z Z S f (x, y) ν(dy) µ(dx) T (9.1.3) für die Integrale nicht-negativer oder integrierbarer messbarer Funktionen bzgl. des Produktmaßes. Die Integrationsreihenfolge kann man in diesem Fall vertauschen, denn wegen (µ ⊗ ν)[B × C] = µ[B]ν[C] für alle B ∈ S, C ∈ T (9.1.4) gilt (ν ⊗ µ) ◦ R−1 = µ ⊗ ν, wobei R(x, y) = (y, x), und damit nach dem Transformationssatz: Z Z Z F ub. f (x, y) µ(dx) ν(dy) = f ◦ R d(ν ⊗ µ) Z = f d(µ ⊗ ν) Z Z F ub. = f (x, y) ν(dy) µ(dx). Durch wiederholte Anwendung dieses Arguments erhalten wir zudem: Korollar 9.2. Seien (Si , Si , µi ) Wahrscheinlichkeitsräume (1 ≤ i ≤ n). Dann existiert eine eindeutige Wahrscheinlichkeitsverteilung µ1 ⊗ ... ⊗ µn auf (S1 × ... × Sn , S1 ⊗ ... ⊗ Sn ) mit: (µ1 ⊗ ... ⊗ µn ) [B1 × ... × Bn ] = Universität Bonn n Y i=1 µi [Bi ] für alle Bi ∈ Si (1 ≤ i ≤ n). Wintersemester 2009/2010 292 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Für alle produktmessbaren Funktionen f : S1 × ... × Sn → [0, ∞) gilt: Z Z Z f d(µ1 ⊗ ... ⊗ µn ) = ... f (x1 , ..., xn )µn (dxn ) ...µ1 (dx1 ), wobei die Integration auch in beliebiger anderer Reihenfolge ausgeführt werden kann. Beweis. Die Existenz folgt durch wiederholte Anwendung des Satzes von Fubini, die Eindeutigkeit aus dem Eindeutigkeitssatz. Dass die Integrationsreihenfolge vertauscht werden kann, zeigt man ähnlich wie im oben betrachteten Fall n = 2. Deterministische Kopplung: Gilt p(x, •) = δf (x) für eine messbare Funktion f : S → T , dann folgt (µ ⊗ p)[{(x, y) | y = f (x)}] = 1. Die zweite Komponente ist also durch die erste Kompo- nente mit Wahrscheinlichkeit 1 eindeutig festgelegt. Die Verteilung der zweiten Komponente ist in diesem Fall das Bild von µ unter f : µp = µ ◦ f −1 . Übergangskerne von Markovschen Ketten: Gilt S = T , dann können wir p(x, dy) als Übergangswahrscheinlichkeit (Bewegungsgesetz) einer Markovkette auf (S, S) auffassen. In Analogie zum diskreten Fall definieren wir: Definition. Eine Wahrscheinlichkeitsverteilung µ auf (S, S) heißt Gleichgewicht (stationäre oder auch invariante Verteilung) von p, falls µp = µ gilt, d.h. falls Z µ(dx)p(x, B) = µ[B] für alle B ∈ S. Beispiel (Autoregressiver Prozess). Der AR(1)-Prozess mit Parametern ε, α ∈ R ist eine Marε2 2 kovkette mit Übergangskern p(x, •) = N (αx, ε ). Die Normalverteilung N 0, 1−α2 ist für α ∈ (0, 1) ein Gleichgewicht. Für α ≥ 1 existiert kein Gleichgewicht. Bedingte Dichten und Bayessche Formel Wir betrachten nun Situationen mit nichttrivialer Abhängigkeit zwischen den Komponenten im kontinuierlichen Fall. Seien X : Ω → Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahr- scheinlichkeitsraum (Ω, A, P ), deren gemeinsame Verteilung absolutstetig ist mit Dichte fX,Y , d.h. P [x ∈ B, Y ∈ C] = Z Z fX,Y (x, y) dy dx für alle B ∈ B(Rn ), C ∈ B(Rm ). B C Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.1. MEHRSTUFIGE MODELLE 293 2 1 500 1000 −1 −2 Abbildung 9.1: Simulation einer Trajektorie eines AR(1)-Prozesses mit Parametern α = 0.8 und ε2 = 1.5. Nach dem Satz von Fubini sind dann auch die Verteilungen von X und Y absolutstetig mit dichten Z fX (x) = fX,Y (x, y) dy Rm und fY (x) = Z fX,Y (x, y) dx. Rn Obwohl bedingte Wahrscheinlichkeiten gegeben Y = y nicht im herkömmlichen Sinn definiert werden können, da das Ereignis {Y = y} eine Nullmenge ist, können wir die bedingte Dichte und die bedingte Verteilung von X gegeben Y in diesem Fall sinnvoll definieren. Anschaulich beträgt die Wahrscheinlichkeit, dass der Wert X in einem infinitesimal kleinen Volumenelement dx liegt, gegeben, dass der Wert von Y in einem entsprechenden infinitesimalen Volumenelement dy liegt: P [X ∈ dx, Y ∈ dy] P [Y ∈ dy] fX,Y (x, y) = dx fY (y) P [X ∈ dx|Y ∈ dy] = = fX,Y (x, y) dx dy fY (y) dy Diese heuristische Überlegung motiviert die folgende Definition: Definition. Die Funktion fX|Y : Rn × Rm → [0, ∞] mit fX,Y (x, y) falls fY (y) 6= 0 fY (y) fX|Y = f (x) falls fY (y) = 0 X Universität Bonn Wintersemester 2009/2010 294 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK heißt bedingte Dichte von X gegeben Y , und die von y abhängende Wahrscheinlichkeitsverteilung µX|Y (y, B) := Z für B ∈ B(Rn ), fX|Y (x, y) dx, B heißt bedingte Verteilung von X gegeben Y . Bemerkung. (1). Für festes y ist die bedingte Dichte eine Wahrscheinlichkeitsdichte auf Rn . Da fX|Y produktmessbar ist, ist die bedingte Verteilung µX|Y nach dem Satz von Fubini ein stochastischer Kern von Rm nach Rn . (2). Auf der Nullmenge {y ∈ Rm |fY (y) = 0} sind fX|Y (x|y) und µX|Y (y, dx) nicht eindeutig festgelegt - die oben getroffene Definition über die unbedingte Dichte ist relativ willkürlich. Aus der Definition der bedingten Dichte ergibt sich unmittelbar eine Variante der Bayesschen Formel für absolutstetige Zufallsvariablen: Satz 9.3 (Bayessche Formel). Für (x, y) ∈ Rn × Rm mit fX (x) > 0 und fY (y) > 0 gilt fX|Y (x|y) = R Rn Beweis. Aus der Definition folgt fX|Y (x|y) = fX (x)fY |X (y|x) . fX (x)fY |X (y|x) dx fX,Y (x, y) fY (y) = R fX,Y (x, y) , fX,Y (x, y) dx Rn und damit die Behauptung. In Modellen der Bayesschen Statistik interpretiert man fX (x) als Dichte der a priori angenommenen Verteilung eines unbekannten Parameters X, und fY |X (y|x) als Maß für die Plausibilität („Likelihood“) des Parameterwertes x, wenn der Wert y der Zufallsgröße Y beobachtet wird. Die Bayessche Formel besagt dann, dass die Verteilung von X, von der man a posteriori (d.h. nach der Beobachtung von y) ausgeht, die Dichte fX|Y (x|y) = const.(y) · fX (x) · fY |X (y|x) A posteriori Dichte ∝ A priori Dichte × Likelihood hat. Trotz der einfachen Form der Bayesschen Formel ist es im Allgemeinen nicht trivial, Stichproben von der A-posteriori-Verteilung zu simulieren, und Erwartungswerte numerisch zu berechnen. Problematisch ist u.A., dass die Berechnung der Normierungskonstanten die Auswertung eines (häufig hochdimensionalen) Integrals erfordert. Ein wichtiges Verfahren zur Simulation von Stichproben in diesem Zusammenhang ist der Gibbs-Sampler. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.1. MEHRSTUFIGE MODELLE 295 Sind X und Y gemeinsam normalverteilt, dann kann man die wichtigsten Erwartungswerte bzgl. der A-posteriori-Verteilung im Prinzip exakt berechnen. Wir demonstrieren dies nun in einem grundlegenden Beispiel eines zweistufigen Modells. Ähnliche Modelle treten in zahlreichen Anwendungen auf. Beispiel (Signalverarbeitung). Sei S = T = R1 , also S × T = R2 = {(x, y) | x, y ∈ R}. Wir interpretieren die erste Komponente x als Größe eines nicht direkt beobachtbaren Signals, und die zweite Komponente y als verrauschte Beobachtung von x. In einem einfachen Bayesschen Modell nimmt man z.B. a priori an, dass Signal und Beobachtung normalverteilt sind: Signal x ∼ N (0, v) , v > 0, Beobachtung y ∼ N (x, ε) , ε > 0. Die Verteilung der ersten Komponente und der Übergangskern zur zweiten Komponente sind dann: µ(dx) = fX (x) λ(dx) p(x, dy) = fY |X (y|x) λ(dy) mit den Dichten x2 1 e− 2v 2πv (y−x)2 1 fY |X (y|x) := √ e− 2ε 2πε fX (x) := √ (Dichte der Verteilung der ersten Komponente X), (bedingte Dichte der zweiten Komponente Y gegeben X = x). Die gemeinsame Verteilung von Signal und Beobachtungswert ist (µ ⊗ p)(dxdy) = µ(dx) p(x, dy) 1 (ε + v)x2 − 2vxy + vy 2 √ exp − λ(dx)λ(dy) = 2vε 2π vε 1 1 x −1 x √ λ2 (dx dy). = ·C exp − y 2 y 2π det C D.h. µ ⊗ p ist eine zweidimensionale Normalverteilung mit Kovarianzmatrix ! v v C= . v v+ε Universität Bonn Wintersemester 2009/2010 296 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Mit anderen Worten: Die gemeinsame Verteilung von X und Y ist absolutstetig bzgl. des zweidimensionalen Lebesguemaßes mit Dichte fX,Y (x, y) = fX (x)fY |X (y|x) = 1 1 √ exp − 2 2π det C x y !⊤ · C −1 Als Dichte der Verteilung µp von Y ergibt sich: Z fY (y) = fX,Y (x, y) dx. ! x . y Nach der Bayesschen Formel erhalten wir für die A-posteriori dichte des Signals gegeben die Beobachtung y: fX,Y (x, y) fY (y) fX (x)fY |X (y|x) = R fX (x)fY |X (y|x) λ(dx) ε+v v 2 = const(y) · exp − (x − y) . 2vε v+ε fX|Y (x|y) := (9.1.5) Die bedingte Verteilung des Signals gegeben die Beobachtung ist also N (x̂, u), wobei v x̂ = y der Prognosewert ist, und v+ε −1 vε 1 1 die Varianz der Prognose. = + u = v+ε v ε In einem Bayesschen Modell würden wir also nach der Beobachtung mit einer Standardabwei√ chung σ = u prognostizieren, dass der Signalwert gleich x̂ ist. Ähnliche Modellierungsansätze werden auch in viel allgemeinerem Kontext verwendet. Beispielsweise wird in stochastischen Filterproblemen das Signal durch eine Markovkette (oder einen zeitstetigen Markovprozess) beschrieben, und die Folge der Beobachtungen durch einen von der Markovkette angetriebenen stochastischen Prozess. Sind alle gemeinsamen Verteilungen Gaußsch, dann kann man auch hier die a posteriori Verteilung im Prinzip exakt berechnen – andernfalls muss man auf numerische Näherungsmethoden (z.B. Partikelfilter) zurückgreifen. 9.2 Summen unabhängiger Zufallsvariablen, Faltung Seien X und Y unabhängige reellwertige Zufallsvariablen auf (Ω, A, P ) mit Verteilungen µ bzw. ν. Wir wollen die Verteilung von X + Y bestimmen. Für diskrete Zufallsvariablen ergibt sich: X X P [X + Y = z] = P [X = x, Y = z − x] = µ(x)ν(z − x) (9.2.1) | {z } x∈X(Ω) =P [X=x]·P [Y =z−x] Einführung in die Wahrscheinlichkeitstheorie x∈X(Ω) Prof. Andreas Eberle 9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 297 Die Wahrscheinlichkeitsverteilung mit Massenfunktion (µ ⋆ ν)(z) X = x∈X(Ω) µ(x)ν(z − x) heißt Faltung von µ und ν. Eine entsprechende Aussage erhält man auch im allgemeinen Fall: Verteilungen von Summen unabhängiger Zufallsvariablen Satz 9.4. Seien X und Y unabhängige reellwertige Zufallsvariablen mit Verteilungen µ bzw. ν. Dann ist die Verteilung von X + Y die durch Z (µ ⋆ ν)[B] := µ(dx) ν[B − x] , B ∈ B(R), definierte Faltung der Wahrscheinlichkeitsverteilungen µ und ν. e := {(x, y) | x + y ∈ B}. Da X und Y unabhängig sind, erhalten wir mit dem Beweis. Sei B Satz von Fubini P [X + Y ∈ B] = F ubini = e = (µ ⊗ ν)[B] e P [(X, Y ) ∈ B] Z Z µ(dx) ν(dy)IB (x + y) = | {z } =IB−x (y) Z µ(dx) ν[B − x]. Bemerkung. Die Faltung µ⋆ν zweier Wahrscheinlichkeitsverteilungen µ und ν auf R1 ist wieder eine Wahrscheinlichkeitsverteilung auf R1 . Da die Addition von Zufallsvariablen kommutativ und assoziativ ist, hat die Faltung von Wahrscheinlichkeitsverteilungen nach Satz 9.4 dieselben Eigenschaften: µ⋆ν = ν⋆µ (da X + Y = Y + X) (µ ⋆ ν) ⋆ η = µ ⋆ (ν ⋆ η) (9.2.2) (da (X + Y ) + Z = X + (Y + Z) ). (9.2.3) Im diskreten Fall ist µ ⋆ ν nach (9.2.2) die Wahrscheinlichkeitsverteilung mit Gewichten (µ ⋆ ν)(z) = X x µ(x)ν(z − x). Eine entsprechende Berechnungsformel ergibt sich auch für absolutstetige Wahrscheinlichkeitsverteilungen: Universität Bonn Wintersemester 2009/2010 298 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Lemma 9.5. Ist ν absolutstetig mit Dichte g, dann ist auch µ ⋆ ν absolutstetig mit Dichte ̺(z) = Z µ(dx) g(z − x). Ist zusätzlich auch µ absolutstetig mit Dichte f , dann gilt ̺(z) = Z R f (x) g(z − x) dx =: (f ⋆ g)(z) Beweis. Wegen der Translationsinvarianz des Lebesguemaßes gilt (µ ⋆ ν)[B] = Z µ(dx)ν[B − x] = Z µ(dx) Z F ub. g(y)dy = | B−x {z } R = B g(z−x)dz Z Z B µ(dx)g(z − x) dz . Also ist µ ⋆ ν absolutstetig mit Dichte ̺. Die zweite Behauptung folgt unmittelbar. Beispiel. (1). Sind X und Y unabhängig, und Bin(n, p) bzw. Bin(m, p)-verteilt, dann ist X +Y eine Bin(n + m, p)-verteilte Zufallsvariable. Zum Beweis bemerkt man, dass die gemeinsame Verteilung von X und Y mit der gemeinsamen Verteilung von Z1 + ... + Zn und Zn+1 + ... + Zn+m übereinstimmt, wobei die Zufallsvariablen Zi (1 ≤ i ≤ n + m) unabhängig und Bernoulli(p)-verteilt sind. Also folgt: µX+Y = µZ1 +...+Zn +Zn+1 +...+Zn+m = Bin(n + m, p) . Als Konsequenz erhalten wir (ohne zu rechnen): Bin(n, p) ⋆ Bin(m, p) = Bin(n + m, p) , d.h. die Binomialverteilungen bilden eine Faltungshalbgruppe. Explizit ergibt sich: l X n+m l m n k l−k m−(l−k) n−k p (1 − p)n+m−l , p (1 − p) = p (1 − p) l l − k k k=0 d.h. l X n m n+m = . k l−k l k=0 (9.2.4) Die kombinatorische Formel (9.2.4) ist auch als Vandermonde-Identität bekannt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 299 e dann ist X + Y (2). Sind X und Y unabhängig und Poisson-verteilt mit Parametern λ bzw. λ, e denn nach der Binomischen Formel gilt für n ≥ 0: Poisson-verteilt mit Parameter λ + λ, (µX ⋆ µY )(n) = n X k=0 µX (k) · µY (n − k) n X en−k λk −λ λ e = e · e −λ k! (n − k)! k=0 = e e −λ+λ n X en−k λk λ · k! (n − k)! k=0 en (λ + λ) . = e · n! Also bilden auch die Poissonverteilungen eine Faltungshalbgruppe: e −λ+λ e = Poisson(λ + λ) e Poisson(λ) ⋆ Poisson(λ) (3). Sind X und Y unabhängig und normalverteilt mit Parametern (m, σ 2 ) bzw. (m, e σ e2 ), dann ist X + Y normalverteilt mit Parametern (m + m, e σ2 + σ e2 ), siehe ??. Dies verifiziert man leicht mithilfe der charakteristischen Funktionen. Die Normalverteilungen bilden also eine zweiparametrige Faltungshalbgruppe. Wartezeiten, Gamma-Verteilung Seien T1 , T2 , ... sukzessive Wartezeiten auf das Eintreten eines unvorhersehbaren Ereignisses. In einem einfachen Modell nehmen wir an, dass die Ti (i ∈ N) unabhängige exponentialverteilte Zufallsvariablen sind, d.h. die Verteilungen der Ti sind absolutstetig mit Dichte f (t) = λ · e−λt · I(0,∞) (t) . Die Verteilung der Gesamtwartezeit Sn = T1 + ... + Tn bis zum n-ten Ereignis ist dann µSn = µT1 ⋆ µT2 ⋆ ... ⋆ µTn . Insbesondere ist die Verteilung von S2 absolutstetig mit Dichte Z Z s Z s 2 −λx −λ(s−x) 2 −λs (f ⋆ f )(s) = f (x) f (s − x) = λe e dx = λ e dx = λ2 se−λs |{z} {z } | R 0 0 =0 f ür x<0 =0 f ür x>s für s ≥ 0, bzw. (f ⋆ f )(s) = 0 für s < 0. Durch Induktion ergibt sich allgemein: Universität Bonn Wintersemester 2009/2010 300 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Lemma 9.6. Die Verteilung von Sn ist absolutstetig mit Dichte fλ,n (s) = wobei Γ(n) := Z λn · sn−1 · e−λs · I(0,∞) (s) , Γ(n) ∞ 0 n∈N tn−1 e−t dx = (n − 1)! . Definition. Die Wahrscheinlichkeitsverteilung auf R+ mit Dichte fλ,n heißt Gammaverteilung mit Parametern λ, n ∈ (0, ∞). 1 1 2 3 4 Abbildung 9.2: Dichtefunktionen der Gammaverteilung Γ1,n für verschiedene n. Die Gammaverteilung ist auch für nicht-ganzzahlige n definiert, Γ ist dann die Eulersche Gammafunktion. Für n = 1 ergibt sich die Exponentialverteilung als Spezialfall der Gammaverteilung. Allgemein gilt: Γ(λ, r) ⋆ Γ(λ, s) = Γ(λ, r + s) , d.h. die Gammaverteilungen mit festem Parameter λ bilden eine Faltungshalbgruppe. Durch Anwenden des zentralen Grenzwertsatzes auf die Zufallsvariable Sn erhalten wir: Korollar 9.7 (Normalapproximation der Gammaverteilungen). Sei λ > 0. Dann gilt für Γ(λ, n) verteilte Zufallsvariablen Sn : n−1/2 · Sn − nλ−1 D → Einführung in die Wahrscheinlichkeitstheorie N (0, λ−2 ) für n → ∞. Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 301 Bemerkung (Poissonprozess). Die Anzahl der bis zur Zeit t ≥ 0 eingetretenen Ereignisse im obigen Modell ist Nt = max{n ≥ 0 | Sn ≤ t} . Die Zufallsvariablen Nt sind Poissonverteilt mit Parameter λ · t (Übung). Die Kollektion Nt (t ≥ 0) der Zufallsvariablen heißt Poissonprozess mit Intensität λ. Der Poissonprozess ist ein mo- noton wachsender stochastischer Prozess mit ganzzahligen Werten. Er ist selbst eine zeitstetige Markovkette und ist von grundlegender Bedeutung für die Konstruktion allgemeiner Markovketten in kontinuierlicher Zeit. Wir werden den Poissonprozess in der Vorlesung „Stochastische Prozesse“ genauer betrachten. 9.3 Transformationen, Gaußmodelle und Parameterschätzung Der Dichtetransformationssatz Allgemein gibt es zwei ganz verschiedene Arten, eine Wahrscheinlichkeitsverteilung µ(dx) zu transformieren: (1). Koordinatentransformation: (2). Maßwechsel durch Dichte: y = φ(x), µ(dx) → µ ◦ φ−1 (dy) µ(dx) → ̺(x)µ(dx). In bestimmten regulären Fällen lassen sich beide Transformationen in Beziehung setzen: Ein Koordinatenwechsel hat denselben Effekt wie eine absolutstetige Maßtransformation mit einer geeigneten Dichte ̺. Wir demonstrieren dies hier im Fall absolutstetiger Verteilungen im Rd . Die entsprechende Koordinatentransformationsformel verwenden wir dann, um multivariate Normalverteilungen, und verschiedene für die Statistik zentrale Verteilungen zu untersuchen. Seien S, T ⊆ Rn offen, und sei X : Ω → S eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit absolutstetiger Verteilung µX mit Dichte fX . Satz 9.8 (Mehrdimensionaler Dichtetransformationssatz). Ist φ : S → T ein Diffeomorphis- mus (C 1 ) mit det Dφ(x) 6= 0 für alle x ∈ S, dann ist die Verteilung von φ(X) absolutstetig mit Dichte fφ(X) (y) = fX (φ−1 (y)) · | det Dφ−1 (y)|, ∂xi wobei det Dφ−1 (y) = det( ∂y ) die Jacobideterminante der Koordinatentransformation ist. j Universität Bonn Wintersemester 2009/2010 302 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Beweis. Die Behauptung folgt aus dem Transformationssatz der multivariaten Analysis: P [φ(X) ∈ B] = P [X ∈ φ−1 (B)] Z Z Subst. = fX (x) dx = fX (φ−1 (y)) · | det Dφ−1 (y)| dy . φ−1 (B) B Beispiel (Sukzessive Wartezeiten). Seien T und Te unabhängige, zum Parameter λ > 0 exponentialverteilte Zufallsvariablen (z.B. sukzessive Wartezeiten), und sei S = T + Te. Nach dem Dichtetransformationssatz gilt dann ∂(t, s − t) | ∂(t, s) ∝ e−λt · I(0,∞) (t) · e−λ(s−t) · I(0,∞) (s − t) fT,S (t, s) = fT,Te (t, s − t) · | det = e−λs · I(0,s) (t). Somit ist die bedingte Dichte fS|T (s|t) für festes t > 0 proportional zu e−λs · I(t,∞) (s). Dies ist auch anschaulich sofort plausibel, da s eine um die unabhängige Zufallsvariable T verschobene exponentialverteilte Zufallsvariable ist. Interessanter ist die Berechnung der bedingten Dichte von T gegeben S: Für festes s > 0 ist fT |S (t|s) proportional zu I(0,s) (t), d.h. fT |S (t|s) = 1 · I(0,s) (t). s Gegeben die Summe S der beiden Wartezeiten ist die erste Wartezeit T also gleichverteilt auf [0, S]! Wir betrachten nun verschiedene weiterreichende Anwendungen des Dichtetransformationssatzes. Multivariate Normalverteilungen und multivariater ZGS Sei Z = (Z1 , Z2 , ..., Zd ) mit unabhängigen, N (0, 1)-verteilten Zufallsvariablen Zi . Die Verteilung des Zufallsvektors Z ist dann absolutstetig bzgl. des Lebesguemaßes im Rd mit Dichte d Y x2 |x|2 d 1 i √ e− 2 = (2π)− 2 e− 2 fZ (x) = 2π i=1 (d-dimensionale Standardnormalverteilung). Sei nun m ∈ Rd und σ ∈ Rd×d eine d × d-Matrix. Wir betrachten den Zufallsvektor Y = σZ + m . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 303 Wir zeigen zunächst, dass Y Erwartungswert m und Kovarianzmatrix C = σσ T hat, und berechP nen die charakteristische Funktion: Erwartungswert: E[Yi ] = dk=1 σik E[Zk ] + mi = mi . Kovarianz: P P Cov(Yi , Yj ) = Cov( k σik Zk + mi , l σjl Zl + mj ) P P = k,l σik σjl · Cov(Zk , Zl ) = k σik σjk = Cij . Für einen Vektor p ∈ Rd gilt h T i 1 T 2 ϕY (p) := E eip·Y = E ei(σ p)·Z eip·m = e− 2 |σ p| +ip·m Charakteristische Funktion: 1 = e− 2 p·Cp+ip·m . (9.3.1) Ist σ regulär, dann können wir die Dichte der Verteilung von Y sofort mithilfe des Transformationssatzes explizit berechnen: fY (y) = fX (σ −1 (y − m)) · | det σ −1 | 1 1 −1 = p exp − (y − m)C (y − m) . 2 (2π)d | det C| Auch im Rd ist eine Wahrscheinlichkeitsverteilung durch ihre charakteristische Funktion eindeutig festgelegt, s. z.B. Bauer: Wahrscheinlichkeitstheorie. Allgemein (also auch für nicht reguläre σ) können wir die Verteilung von Y auch über die Fourierinversionsformel berechnen. Definition. Sei m ∈ Rd und C ∈ Rd×d eine symmetrische, nicht-negativ definite Matrix. Die Verteilung N (m, C) im Rd mit charakteristischer Funktion φY = exp(− 21 pĊp + ipm) heißt d-dimensionale Normalverteilung mit Mittel m und Kovarianzmatrix C. Bemerkung/Übung. Mithilfe von charakteristischen Funktionen beweist man die folgenden Transformationsformeln und Charakterisierungen für multivariate Normalverteilungen: (1). Für a ∈ Rk und A ∈ Rk×d gilt X ∼ N (m, C) ⇒ AX + a ∼ N (Am + a, ACAT ). (2). Folgende Aussagen sind äquivalent: • X ∼ N (0, C) ist multivariat normalverteilt mit Kovarianzmatrix C. • p · X ∼ N (0, p · Cp) ∀ p ∈ Rd . Auch im Rd gilt ein zentraler Grenzwertsatz : Universität Bonn Wintersemester 2009/2010 304 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Satz 9.9 (Multivariater zentraler Grenzwertsatz). Seien X1 , X2 , ... : Ω → Rd unabhängige, identisch verteilte, quadratintegrierbare Zufallsvektoren auf (Ω, A, P ), und sei Sn = X1 + . . . + Xn . Dann gilt Sn − E[Sn ] D √ −→ Z ∼ N (0, C), n wobei Cjk = Cov(X1,j , X1,k ) die Kovarianzmatrix der Zufallsvektoren Xi ist. Der Beweis basiert auf folgender Charakterisierung der schwachen Konvergenz von Zufallsvektoren: Lemma 9.10 (Cramér-Wold Device). Für Zufallsvariablen Y, Y1 , Y2 , ... : Ω → Rd gilt: D Yn −→ Y ⇔ D ∀ p ∈ Rd . p · Yn −→ p · Y Beweisskizze. Die Richtung „⇒“ ist klar, da Y 7→ p · Y stetig ist. Umgekehrt gilt: D p · Yn −→ p · Y ⇒ E[exp(ip · Yn )] → E[exp(ip · Y )] ∀ p ∈ Rd . Mit einem ähnlichen Beweis wie im R1 folgt dann aus der Konvergenz der charakteristischen D Funktionen die schwache Konvergenz Yn −→ Y . Um die relative Kompaktheit zu zeigen (Satz von Helly-Bray), verwendet man dabei im Rd die multivariaten Verteilungsfunktionen (x1 , . . . , xd ) ∈ Rd . Fn (x1 , ..., xd ) := P [Yn,1 ≤ x1 , ..., Yn,d ≤ xd ], Wir beweisen nun den zentralen Grenzwertsatz: Beweis. Für p ∈ Rd gilt nach dem eindimensionalen zentralen Grenzwertsatz: n Sn − E[Sn ] 1 X √ p· = √ (p · Xi − E[p · Xi ]) n n i=1 D −→ N (0, Var[p · X1 ]) = N (0, p · Cp), da Var[p · X1 ] = Cov " X pk X1,k , k X # pk X1,l = l X k,l pk pl Ckl = p · Cp. Ist Y ein N (0, C)-verteilter Zufallsvektor, dann ist N (0, p · Cp) die Verteilung von p · Y . Mithilfe der Cramér-Wold Device folgt also (Sn − E[Sn ])/ Einführung in die Wahrscheinlichkeitstheorie √ n D → Y. Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 305 Beispiel (Vom Random Walk zur Brownschen Bewegung). Sei Sn = X1 + ... + Xn , wobei die Xi unabhängige Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = 1 sind. Beispielsweise ist Sn ein klassischer Random Walk. Um einen stochastischen Prozess in kontinuierlicher Zeit zu erhalten, interpolieren wir n 7→ Sn linear. Anschließend reskalieren wir in Raum und Zeit, und setzen 1 (n) Set := √ Snt , n t ∈ R+ . GRAPHIK SKALIERTER RANDOM WALK Aus dem Zentralen Grenzwertsatz folgt: (n) Set = √ 1 D t √ Snt −→ nt ∼ N (0, t) für jedes feste t ∈ R+ , (n) d.h. die eindimensionalen Randverteilungen der Prozesse Se(n) = (Set )t≥0 konvergieren. Allge- meiner zeigt man mithilfe des multivariaten zentralen Grenzwertsatzes, dass auch endlich dimensionale Randverteilungen schwach konvergieren: D (n) (n) (n) Set1 , Set2 , ..., Setk −→ (Bt1 , ..., Btk ) , für alle 0 ≤ t1 < t2 < . . . < tk , k ∈ N, wobei (Bt1 , ..., Btk ) multivariat normalverteilt ist mit E[Btj ] = 0 und Cov[Btj , Btk ] = min(tj , tk ). Eine noch allgemeinere Aussage erhält man mithilfe eines funktionalen zentralen Grenzwertsatzes (Invarianzprinzip von Donsker, ZGS auf dem Banachraum C([0, 1], R)): Der gesamte (n) stochastische Prozess (Set )0≤t≤1 konvergiert in Verteilung gegen eine Brownsche Bewegung (Bt )0≤t≤1 . Mehr dazu in den weiterführenden Vorlesungen »Stochastische Prozesse« und »Grund- züge der stochastischen Analysis«. Wir betrachten noch eine weitere Anwendung des Dichtetransformationssatzes auf Normalverteilungen. Beispiel (χ2 -Verteilungen). Wir berechnen nun die Verteilung vom Quadrat des Abstandes vom Ursprung eines standardnormalverteilten Zufallsvektors im Rd : Z = (Z1 , ..., Zd ) ∼ N (0, Id ), Universität Bonn 2 kZk = d X Zi2 . i=1 Wintersemester 2009/2010 306 Wegen f|Zi | (x) = KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK √2 2π 2 mit Y = φ(x) := x : x2 e− 2 · I(0,∞) (x) folgt durch Anwenden des Dichtetransformationssatzes fZi2 (y) = r 1 2 −y e 2 · I(0,∞) (y) · √ , π 2 y d.h. Zi2 ist Γ( 12 , 21 )-verteilt. Da die Zufallsvariablen Zi2 , 1 ≤ i ≤ d, unabhängig sind, folgt: 2 ||Z|| = d X Zi2 i=1 ∼ Γ Definition. Die Gamma-Verteilung mit Parametern 1 2 1 d , 2 2 und d 2 . heißt auch Chiquadrat-Verteilung 2 χ (d) mit d Freiheitsgraden. Parameterschätzung im Gaußmodell Angenommen, wir beobachten reellwertige Messwerte (Stichproben, Daten), die von einer unbekannten Wahrscheinlichkeitsverteilung µ auf R stammen. Ziel der Statistik ist es, Rückschlüsse auf die zugrundeliegende Verteilung aus den Daten zu erhalten. Im einfachsten Modell (Gaußmodell) nimmt man an, dass die Daten unabhängige Stichproben von einer Normalverteilung mit unbekanntem Mittelwert und/oder Varianz sind: µ = N (m, v), m, v unbekannt. Eine partielle Rechtfertigung für die Normalverteilungsannahme liefert der zentrale Grenzwertsatz. Letztendlich muss man aber in jedem Fall überprüfen, ob eine solche Annahme gerechtfertigt ist.Ein erstes Ziel ist es nun, den Wert von m auf der Basis von n unabhängigen Stichproben X1 (ω) = x1 , . . . , Xn (ω) = xn zu schätzen, und zu quantifizieren. Problemstellung: Schätzung des Erwartungswerts • Schätze m auf der Basis von n unabhängigen Stichproben X1 (ω), ..., Xn (ω) von µ. • Herleitung von Konfidenzintervallen. Im mathematischen Modell interpretieren wir die Beobachtungswerte als Realisierungen von unabhängigen Zufallsvariablen X1 , . . . , Xn . Da wir die tatsächliche Verteilung nicht kennen, untersuchen wir alle in Betracht gezogenen Verteilungen simultan: X1 , . . . , Xn ∼ N (m, v) Einführung in die Wahrscheinlichkeitstheorie unabhängig unter Pm,v . (9.3.2) Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 307 Ein naheliegender Schätzer für m ist der empirische Mittelwert X n (ω) := X1 (ω) + ... + Xn (ω) . n Wir haben oben bereits gezeigt, dass dieser Schätzer erwartungstreu (unbiassed) und konsistent ist, d.h. für alle m, v gilt: Em,v [X n ] = m und Xn → m Pm,v -stochastisch für n → ∞. Wie wir den Schätzfehler quantifizieren hängt davon ab, ob wir die Varianz kennen. Schätzung von m bei bekannter Varianz v. Um den Schätzfehler zu kontrollieren, berechnen wir die Verteilung von X n : Xi ∼ N (m, v) unabh. ⇒ X1 + ... + Xn ∼ N (nm, nv) v ⇒ X n ∼ N (m, ) n Xn − m ⇒ p ∼ N (0, 1) v/n Bezeichnet Φ die Verteilungsfunktion der Standardnormalverteilung, dann erhalten wir r 1 v = N (0, 1)(−q, q) = 2 Φ(q) − für alle m ∈ R. Pm,v |X n − m| < q n 2 Satz 9.11. Im Gaußmodell (9.3.2) mit bekannter Varianz v ist das zufällige Intervall r r v v X n − Φ−1 (α) , X n + Φ−1 (α) n n ein (2α − 1) · 100% Konfidenzintervall für m, d.h. Pm,v [m ∈ Intervall] ≥ 2α − 1 für alle m ∈ R. Man beachte, dass die Länge des Konfidenzintervalls in diesem Fall nicht von den beobachteten Stichproben abhängt! Schätzung von m bei unbekannter Varianz v. In Anwendungen ist meistens die Varianz unbekannt. In diesem Fall können wir das Intervall oben nicht verwenden, da es von der unbekannten Varianz v abhängt. Stattdessen schätzen wir m und v simultan, und konstruieren ein Universität Bonn Wintersemester 2009/2010 308 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Konfidenzintervall für m mithilfe beider Schätzwerte. Erwartungstreue Schätzer für m und v sind n Xn n 1X = Xi n i=1 1 X Vn = (Xi − X n )2 . n − 1 i=1 und Um ein Konfidenzintervall für m zu erhalten, bestimmen wir mithilfe des Transformationssatzes die gemeinsame Verteilung von X n und Vn : Lemma 9.12. X n und Vn sind unabhängig unter Pm,v mit Verteilung v n−1 X n ∼ N m, Vn ∼ χ2 (n − 1) . , n v Beweis. Wir führen eine lineare Koordinatentransformation Y = OX durch, wobei O eine orthogonale n × n-Matrix vom Typ O= √1 ... √1 n n beliebig ist. Eine solche Matrix erhalten wir durch Ergänzen des normierten Vektors ( √1n , ..., √1n ) zu einer Orthonormalbasis des Rn . In den neuen Koordinaten gilt: n Xn = (n − 1)Vn = 1X 1 Xi = √ Y 1 , n i=1 n n X i=1 O orthogonal = (Xi − X n )2 = ||Y ||2Rn − Y12 = und n X i=1 n X 2 2 Xi2 − nX n = ||X||2Rn − nX n Yi2 . i=2 Da die Zufallsvariablen Xi (1 ≤ i ≤ n) unabhängig und N (m, v)-verteilt sind, ist der Zufallsvektor X = (X1 , ..., Xn ) multivariat normalverteilt mit Mittel (m, . . . , m) und Kovarianzmatrix v · In . Nach dem Transformationssatz folgt √ m n m . 0 T . Y ∼ N O . , v · OIn O = N . , v · In . . . m 0 Also sind Y1 , ..., Yn unabhängige Zufallsvariablen mit Verteilungen √ Y1 ∼ N (m n, v) , Yi ∼ N (0, v) für i ≥ 2. Es folgt, dass Y1 Xn = √ n n und X n−1 Vn = v i=2 Y √i v 2 unabhängige Zufallsvariablen mit Verteilungen N (m, nv ) bzw. χ2 (n − 1) sind. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG Bei bekannter Varianz v hatten wir Konfidenzintervalle für m vom Typ X n ±q · pv n 309 erhalten, wo- bei q ein geeignetes Quantil der Standardnormalverteilung ist. Daher q liegt es nahe, zu versuchen, bei unbekannter Varianz Konfidenzintervalle vom Typ X n ± q · " Pm,v |X n − m| ≥ q r Tn−1 := Vn n √ # Vn n herzuleiten. Es gilt: = Pm,v [|Tn−1 | ≥ q] mit n · (X n − m) √ . Vn Die Zufallsvariable Tn−1 heißt Studentsche t-Statistik mit n − 1 Freiheitsgraden.1 Unsere Überlegungen zeigen, dass wir aus Quantilen der Studentschen t-Statistik Konfidenzintervalle für das Gaußmodell herleiten können. Wir müssen nur noch die Verteilung von Tn berechnen: Satz 9.13 (Student2 ). Die Verteilung von Tn ist absolutstetig mit Dichte fTn (t) = B 1 n , 2 2 −1 ·n −1/2 −n/2 t2 · 1+ 2 (t ∈ R). »Studentsche t-Verteilung mit n Freiheitsgraden«. Hierbei ist Z ∞ n 1 n 1 B =√ , (1 + s2 )− 2 ds 2 2 n −∞ die Eulersche Beta-Funktion, die als Normierungsfaktor auftritt. Insbesondere ist das zufällige Intervall Xn ± q · r Vn n ein 100 · (1 − 2α)% Konfidenzintervall für m, falls (1 − α) q = FT−1 n−1 ein (1 − α)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden ist. Beweis. Direkt oder mithilfe des Transformationssatzes zeigt man: Sind q Z und Y unabhängige Zufallsvariablen mit Verteilungen N (0, 1) bzw. χ2 (n − 1), dann ist Z/ 1 Y n−1 absolutstetig mit dichte fTn−1 . 1 In der Statistik bezeichnet man eine messbare Funktion der Beobachtungsdaten als Statistik - ein (Punkt-) Schät- zer ist eine Statistik, die zum Schätzen eines unbekannten Parameters verwendet wird, ein Konfidenzintervall nennt man auch Intervallschätzer. 2 Synonym von W. S. Gosset, der als Angestellter der Guiness-Brauerei nicht publizieren durfte. Universität Bonn Wintersemester 2009/2010 310 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Der Satz folgt dann nach Lemma 9.12 mit Xn − m Z := p v/n und Y := n−1 Vn . v Bemerkung (Nichtparametrische und Verteilungsunabhängige Konfidenzintervalle). In Anwendungen ist es oft unklar, ob eine Normalverteilungsannahme an die Beobachtungswerte gerechtfertigt ist. Zudem können einzelne größere Ausreißer in den Daten (z.B. aufgrund von Messfehlern) das Stichprobenmittel relativ stark beeinflussen. Der Stichprobenmedian ist dagegen in den meisten Fällen ein deutlich stabilerer Schätzwert für den Median der zugrundeliegenden Verteilung, und die in Abschnitt 5.1 hergeleiteten, auf Ordnungsstatistiken basierenden, Konfidenzintervalle für den Median und andere Quantile werden ebenfalls in der Regel weniger stark durch Ausreißer beeinflusst. Zudem gelten diese Konfidenzintervalle simultan für alle stetigen Verteilungen. Ist man sich daher nicht sicher, ob eine Normalverteilungsannahme aufgrund der Daten gerechtfertigt ist, empfiehlt es sich, auf die stabileren Ordnungsintervalle zurückzugreifen. Beispiel. (NOCH EINZUFÜGEN) Hypothesentests In Anwendungen werden statistische Aussagen häufig nicht über Konfidenzintervalle, sondern als Hypothesentest formuliert. Mathematisch passiert dabei nichts wirklich Neues – es handelt sich nur um eine durch praktische Erwägungen motivierte Umformulierung derselben Resultate: Angenommen, wir haben n unabhängige reellwertige Stichproben X1 , ..., Xn von einer unbekannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus einer Familie µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt, z.B. der Familie aller Normalverteilungen µm,v , θ = (m, v) ∈ R × R+ . Die gemeinsame Verteilung von X1 , . . . , Xn n N µθ . Sei nun Θ0 eine Teilmenge des Parameterbereichs. Wir ist dann das Produktmaß µnθ = i=1 wollen entscheiden zwischen der Nullhypothese H0 : »θ ∈ Θ0 « und der Alternative H1 : Einführung in die Wahrscheinlichkeitstheorie »θ 6∈ Θ0 « Prof. Andreas Eberle 9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 311 Ein Hypothesentest für ein solches Problem ist bestimmt durch eine messbare Teilmenge C ⊆ Rn (den Verwerfungsbereich) mit zugehöriger Entscheidungsregel: Akzeptiere H0 ⇐⇒ (X1 , ..., Xn ) ∈ / C. Beispiel (t-Test). Seien X1 , X2 , . . . , Xn unabhängige Stichproben von einer Normalverteilung mit unbekanntem Parameter (m, v) ∈ Θ = R × R+ . Wir wollen testen, ob der Mittelwert der Verteilung einen bestimmten Wert m0 hat: Nullhypothese H0 : »m = m0 « , Θ0 = {m0 } × R+ . Ein solches Problem tritt z.B. in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob ein Sollwert m0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren, wobei Xi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht. Im t–Test für obiges Testproblem wird die Nullhypothese akzeptiert, falls der Betrag der Studentschen t-Statistik unterhalb einer angemessen zu wählenden Konstanten c liegt, bzw. verworfen, falls gilt. √ n · (X n − m0 ) > c √ |Tn−1 | = Vn Seien nun allgemein X1 , X2 , . . . unter Pθ unabhängige Zufallsvariablen mit Verteilung µθ . Bei einem Hypothesentest können zwei Arten von Fehlern auftreten: Fehler 1. Art: H0 wird verworfen, obwohl wahr. Die Wahrscheinlichkeit dafür beträgt: Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C] , θ ∈ Θ0 . Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Die Wahrscheinlichkeit beträgt: Pθ [(X1 , ..., Xn ) ∈ / C] = µnθ [C C ] , θ ∈ Θ \ Θ0 . Obwohl das allgemeine Testproblem im Prinzip symmetrisch in H0 und H1 ist, interpretiert man beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeugen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht vorhanden) unterhalb einer vorgegebenen (kleinen) Schranke α liegen. Die Wahrscheinlichkeit µnθ [C] , θ ∈ Θ \ Θ0 , daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein. Universität Bonn Wintersemester 2009/2010 312 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK Definition. Die Funktion G(θ) = Pθ [(X1 , ..., Xn ) ∈ C] = µnθ [C] heißt Gütefunktion des Tests. Der Test hat Niveau α, falls G(θ) ≤ α für alle θ ∈ Θ0 gilt. Die Funktion G(θ) mit θ ∈ Θ1 heißt Macht des Tests. Aus Satz 9.13 und der Symmetrie der Studentschen t-Verteilung folgt unmittelbar: Korollar 9.14. Der Studentsche t-Test hat Niveau α falls c ein (1 − α2 )-Quantil der Studentschen t-Verteilung mit n − 1 Freiheitsgraden ist. Allgemeiner gilt: Satz 9.15 (Korrespondenz Konfidenzintervalle ↔ Hypothesentests). Für einen reellwertigen Parameter γ = c(θ), ein Irrtumsniveau α ∈ (0, 1), und messbare Abbildungen (Statistiken) γ̂, ε : Rn → R sind äquivalent: (i) Das Intervall [γ̂(X1 , . . . , Xn ) − ε(X1 , . . . , Xn ) , γ̂(X1 , . . . , Xn ) + ε(X1 , . . . , Xn )] ist ein (1 − α) · 100 % Konfidenzintervall für γ. (ii) Für jedes γ0 ∈ R ist C = {(x1 , ..., xn ) : |γ̂(x1 , . . . , xn ) − γ0 | > ε(x1 , . . . , xn )} der Verwerfungsbereich eines Test der Nullhypothese γ = γ0 zum Niveau α. Beweis. Das Intervall ist genau dann ein Konfidenzintervall für γ zum Irrtumsniveau α, wenn Pθ [|γ̂(X1 , . . . , Xn ) − c(θ)| > ε(X1 , ..., Xn )] ≤ α ∀θ∈Θ gilt, also wenn der entsprechende Test der Nullhypothesen c(θ) = γ0 für jedes γ0 Niveau α hat. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle Kapitel 10 Bedingte Erwartungen Zur Analyse von stochastischen Modellen mit Abhängigkeiten verwendet man in der Regel bedingte Wahrscheinlichkeiten und Erwartungswerte gegeben die Werte von Zufallsvariablen. Beispielsweise beschreibt man einen stochastischen Prozess Xn , n ∈ N, durch die bedingten Vertei- lungen des nächsten Zustands Xn+1 gegeben den Verlauf X0:n = (X0 , X1 , . . . , Xn ) bis zur Zeit n. 10.1 Bedingen auf diskrete Zufallsvariablen Wir betrachten zunächst das Bedingen auf den Ausgang einer diskreten Zufallsvariable Y : Ω → S, S abzählbar. In diesem Fall können wir die bedingte Wahrscheinlichkeitsverteilung P [A | Y = z] = P [A ∩ {Y = z}] , P [Y = z] A ∈ A, und die bedingten Erwartungswerte E[X | Y = z] = E[X; Y = z] , P [Y = z] X ∈ L1 (Ω, A, P ), für alle z ∈ S mit P [Y = z] > 0 auf elementare Weise wie in Abschnitt 2.1 definieren. Für z ∈ S mit P [Y = z] = 0 sind die bedingten Wahrscheinlichkeiten nicht definiert. Bedingte Erwartungen als Zufallsvariablen Es wird sich als praktisch erweisen, die bedingten Wahrscheinlichkeiten und Erwartungswerte nicht als Funktion des Ausgangs z, sondern als Funktion der Zufallsvariable Y zu interpretieren. Die bedingten Wahrscheinlichkeiten und Erwartungswerte sind dann selbst Zufallsvariablen: 313 314 KAPITEL 10. BEDINGTE ERWARTUNGEN Definition. Sei X : Ω → R eine Zufallsvariable mit E[X − ] < ∞, und Y : Ω → S eine diskrete Zufallsvariable. Die durch E[X | Y ] mit g(z) := := g(Y ) = X z∈S E[X | Y = z] beliebig g(z) · I{Y =z} falls P [Y = z] > 0 falls P [Y = z] = 0 P -fast sicher eindeutig definierte Zufallsvariable E[X | Y ] heißt (Version der) bedingte(n) Er- wartung von X gegeben Y . Für ein Ereignis A ∈ A heißt die Zufallsvariable P [A | Y ] := E[IA | Y ] (Version der) bedingte(n) Wahrscheinlichkeit von A gegeben Y . Die bedingte Erwartung E[X | Y ] und die bedingte Wahrscheinlichkeit P [A | Y ] sind also Zufallsvariablen mit den Werten E[X | Y = z] bzw. P [A | Y = z] auf den Mengen {Y = z}, z ∈ S mit P [Y = z] > 0. Auf jeder der Nullmengen {Y = z}, z ∈ S mit P [Y = z] = 0, wird der bedingten Erwartung ein willkürlicher konstanter Wert zugewiesen, d.h. die Definition ist nur P -fast überall eindeutig. Wir fassen zunächst einige elementare Eigenschaften der so definierten bedingten Erwartung zusammen: Lemma 10.1 (Eigenschaften der bedingten Erwartung). (1). Die Abbildung X 7→ E[X | Y ] ist P -fast sicher linear und monoton. (2). Sind X und Y unabhängig, dann gilt E[X | Y ] = E[X] P -fast sicher. (3). Herausziehen, was bekannt ist: Für alle f : S → R mit f (Y ) · X ≥ 0 bzw. f (Y ) · X ∈ L1 gilt E[f (Y ) · X | Y ] = f (Y ) · E[X | Y ] P -fast sicher. Insbesondere gilt E[f (Y ) | Y ] = f (Y ) Beweis. P -fast sicher. (2). Sind X und Y unabhängig, dann gilt E[X | Y = z] = E[X · I{Y =z} ] P [Y = z] = E[X] für alle z ∈ S mit P [Y = z] > 0, also E[X | Y ] = E[X] P -fast sicher. Die ebenso elementaren Beweise von (1) und (3) werden dem Leser als Übung überlassen. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 315 Anschaulich können wir die zweite Aussage folgendermaßen interpretieren: Sind X und Y unabhängig, dann liefert die Kenntnis des Wertes Y (ω) keine zusätzlichen Informationen über X(ω). Daher ist die beste L2 -Prognose für X(ω) wie im unbedingten Fall durch den Erwartungswert E[X] gegeben. Formel von der totalen Wahrscheinlichkeit Die aus Satz 2.1 bekannte Formel von der totalen Wahrscheinlichkeit können wir mithilfe der obigen Definition in kompakter Weise schreiben. Satz 10.2 (Formel von der totalen Wahrscheinlichkeit). Sei Y : Ω → S eine diskrete Zufalls- variable mit Verteilung µ(z) = P [Y = z]. Für alle messbaren X : Ω → R+ gilt: X E[X] = z: µ(z)6=0 E[X | Y = z] µ(z) = E[E[X | Y ]] Insbesondere gilt Beweis. Wegen Ω = Ṡ z∈S E[X] = P [A] = E[P [A | Y ]] für alle A ∈ A. {Y = z} gilt nach dem Transformationssatz X E[X; Y = z] = z∈S = X X E[X; Y = z] z: µ(z)6=0 z: µ(z)6=0 E[X | Y = z] · µ(z) X = z: µ(z)6=0 = E[g(Y )], g(z) · µ(z) wobei g : S → R eine beliebige Funktion mit g(z) = E[X | Y = z] für alle z ∈ S mit µ(z) 6= 0 ist. Die Aussage folgt wegen g(Y ) = E[X | Y ] P -fast sicher. Bemerkung. Für X ∈ L1 (Ω, A, P ) folgt aus der Monotonie der bedingten Erwartung |E[X | Y ]| und damit die Ungleichung E[|E[X | Y ]|] ≤ ≤ E[|X| Y ] E E[|X| Y ] = E[|X|]. Die Abbildung X 7→ E[X | Y ] ist also eine Kontraktion auf L1 (Ω, A, P ). Die Aussage von Satz 10.2 gilt entsprechend auch für X ∈ L1 . Universität Bonn Wintersemester 2009/2010 316 KAPITEL 10. BEDINGTE ERWARTUNGEN Bedingte Varianz Sei nun X : Ω → R eine bzgl. P integrierbare Zufallsvariable Definition. Var[X | Y ] := heißt bedingte Varianz von X gegeben Y . E (X − E[X | Y ])2 | Y Ist X quadratintegrierbar, dann gelten die folgenden Aussagen: Lemma 10.3. Für X ∈ L2 (Ω, A, P ) gilt: h 2 i (1). L2 -Kontraktivität: E E[X Y ] ≤ E[X 2 ]. (2). Var[X | Y ] = E[X 2 | Y ] − E[X | Y ]2 P -fast sicher. Insbesondere folgt für z ∈ S mit µ(z) 6= 0: Var[X | Y ] Beweis. = Var[X | Y = z] auf {Y = z}. (10.1.1) (1). folgt aus Satz 10.2, da für alle z ∈ S mit P [Y = z] 6= 0 auf {Y = z} gilt: |E[X | Y ]|2 = |E[X | Y = z]|2 ≤ E[X 2 | Y = z] = E[X 2 | Y ]. (2). Nach Lemma 10.1, (1) und (3), ergibt sich dann ähnlich wie für die unbedingte Varianz: Var[X | Y ] = E[X 2 | Y ] − 2 · E[X · E[X | Y ] | Y ] + E[E[X | Y ]2 | Y ] = E[X 2 | Y ] − E[X | Y ]2 P -fast sicher. Die folgende Zerlegungsformel kann häufig verwendet werden, um Varianzen zu berechnen oder abzuschätzen: Satz 10.4 (Formel von der bedingten Varianz). Für eine Zufallsvariable X ∈ L2 (Ω, A, P ) gilt: Var[X] = E[Var[X | Y ]] + Var[E[X | Y ]] X X = Var[X | Y = z] · µ(z) + (E[X | Y = z] − E[X])2 · µ(z). z:µ(z)6=0 Einführung in die Wahrscheinlichkeitstheorie z:µ(z)6=0 Prof. Andreas Eberle 10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 317 Beweis. Es gilt Var[X] = E[X 2 ] − E[X]2 = E[E[X 2 | Y ]] − E[E[X | Y ]]2 = E[E[X 2 | Y ]] − E[E[X | Y ]2 ] + E[E[X | Y ]2 ] − E[E[X | Y ]]2 = E[Var[X | Y ]] + Var[E[X | Y ]]. Der zweite Teil der Behauptung folgt nun aus (10.1.1) und der entsprechenden Eigenschaft für die bedingte Erwartung. Anwendung auf zufällige Summen Als erste Anwendung betrachten wir eine Summe N (ω) SN (ω) := X Xi (ω) i=1 von unabhängigen, identisch verteilten Zufallsvariablen Xi ∈ L1 (Ω, A, P ) mit zufälliger Anzahl N von Summanden. Hierbei sei N : Ω → {0, 1, 2, . . .} eine von den Xi unabhängige Zufallsvariable. Seien m = E[X1 ] und σ 2 = Var[X1 ]. Wir berechnen nun die verschiedenen Kenngrößen der Verteilung von SN . Berechnung des Erwartungswertes: Da Sk und N unabhängig sind, erhalten wir E[SN | N = k] = E[Sk | N = k] = E[Sk ] k·m = für alle k ∈ N, also E[SN | N ] = N · m, und damit nach Satz 10.2: E[SN ] E[E[SN | N ]] = E[N ] · m. = Berechnung der Varianz: Erneut folgt wegen der Unabhängigkeit von Sk und N : Var[SN | N = k] = Var[Sk | N = k] = Var[Sk ] k · σ2, = also Var[SN | N ] = N · σ 2 , und damit nach Satz 10.4: Var[SN ] = E[Var[SN | N ]] + Var[E[SN | N ]] Berechnung der momentenerzeugenden Funktion: Für t ∈ R gilt MSN (t) = E etSN = E E[etSN | N ] = E = E E[e Universität Bonn tX1 N ] = E MX1 (t) E[N ] · σ 2 + Var[N ] · m2 . = N " N Y i=1 E[etXi ] # = MN (log MX1 (t)) . Wintersemester 2009/2010 318 KAPITEL 10. BEDINGTE ERWARTUNGEN Mithilfe von MSN kann man die Momente der zufälligen Summe SN berechnen: m E[SN ] = (m) MSN (0) für alle m ∈ N. Im Prinzip erhält man die Verteilung von SN durch Laplace-Inversion, was aber nicht immer praktikabel ist. Nehmen die Zufallsvariablen Xi nur nichtnegative ganzzahlige Werte an, kann man statt der momentenerzeugenden Funktion die erzeugende Funktion verwenden, und daraus die Verteilung berechnen. Wir gehen darauf im folgenden Abschnitt ein. Charakterisierende Eigenschaften der bedingten Erwartung Zum Abschluss dieses Abschnitts beweisen´wir eine alternative Charakterisierung der bedingten Erwartung gegeben eine diskrete Zufallsvariable Y : Ω → S, S abzählbar. Diese Charakterisie- rung werden wir in Abschnitt 10.3 verwenden, um bedingte Erwartungen für allgemeine Bedin- gungen zu definieren. Sei X : Ω → R+ eine nichtnegative (bzw. integrierbare) Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Satz 10.5. Eine reellwertige Zufallsvariable X ≥ 0 (bzw. X ∈ L1 ) auf (Ω, A, P ) ist genau dann eine Version der bedingten Erwartung E[X | Y ], wenn gilt: (I) X = g(Y ) für eine Funktion g : S → R, und (II) E X · f (Y ) = E[X · f (Y )] für alle nichtnegativen bzw. beschränkten Funktionen f : S → R. Beweis. Ist X eine Version von E[X | Y ], dann gilt (I). Außerdem folgt nach Lemma 10.1 (3) und der Formel von der totalen Wahrscheinlichkeit: E X · f (Y ) = E E X Y · f (Y ) = E E X · f (Y ) Y = E[X · f (Y )] für jede nichtnegative bzw. beschränkte Funktion f : S → R. Umgekehrt folgt aus (I), dass X = g(z) auf {Y = z} gilt. Ist außerdem (II) erfüllt, dann folgt weiter g(z) = E X | Y = z = E X · I{z} (Y ) = = P [Y = z] E X · I{z} (Y ) P [Y = z] E[X | Y = z] für alle z ∈ S mit P [Y = z] > 0, d.h. X = g(Y ) ist eine Version der bedingten Erwartung E[X | Y ]. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND ERNEUERUNGEN 319 In einigen Fällen können die charakterisierenden Eigenschaften direkt überprüft werden, um bedingte Erwartungen zu identifizieren: Beispiel (Summen austauschbarer Zufallsvariablen). Seien X1 , X2 , . . . , Xn ∈ L1 (Ω, A, P ) integrierbare Zufallsvariablen, deren gemeinsame Verteilung invariant unter Koordinatenpermutationen ist, d.h. (Xπ(1) , Xπ(2) , . . . , Xπ(n) ) ∼ (X1 , X2 , . . . , Xn ) für alle π ∈ Sn . Zufallsvariablen mit dieser Eigenschaft heißen austauschbar – beispielsweise sind unabhängige identisch verteilte Zufallsvariablen austauschbar. Wir zeigen: E[Xi | Sn ] 1 Sn n = P -fast sicher für alle i = 1, . . . , n, wobei Sn = X1 +. . .+Xn . Zum Beweis überprüfen wir, dass X i := n1 Sn die Bedingungen (I) und (II) aus Satz 10.5 für Y = Sn erfüllt. (I) ist offensichtlich. Zudem gilt wegen der Austauschbarkeit für jede beschränkte messbare Funktion f : R → R: E[Xi · f (Sn )] also 1 E Sn · f (Sn ) n = E[Xj · f (Sn )] für alle i, j = 1, . . . , n, n = 1X E[Xj · f (Sn )] n j=1 = E[Xi · f (Sn )] für alle i = 1, . . . , n, d.h. (II) ist auch erfüllt. 10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen Wir wollen die Methoden aus dem letzten Abschnitt nun verwenden, um Verzweigungs- und Erneuerungsprozesse zu untersuchen. Ein wichtiges Hilfsmittel sind in beiden Fällen erzeugende Funktionen: Erzeugende Funktionen von ganzzahligen Zufallsvariablen Sei X : Ω → {0, 1, 2, . . .} eine auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierte Zufallsvariable mit nichtnegativen ganzzahligen Werten. Definition. Die durch G(s) = X E[s ] = ∞ X k=0 Universität Bonn P [X = k]sk , s ∈ [−1, 1], Wintersemester 2009/2010 320 KAPITEL 10. BEDINGTE ERWARTUNGEN definierte Funktion heißt erzeugende Funktion der Zufallsvariable X bzw. der Folge µ(k) = P [X = k] der Gewichte von X. Durch Vergleich mit der geometrischen Reihe sieht man, dass der Konvergenzradius der Potenzreihe stets größer oder gleich 1 ist. Also ist die erzeugende Funktion analytisch auf (−1, 1), und es gilt G(k) (0) für alle k = 0, 1, 2, . . . . k! Kennen wir also die erzeugende Funktion explizit, dann können wir die Gewichte der Verteilung P [X = k] = berechnen. Durch zweimaliges Ableiten zeigt man zudem, dass G monoton und konvex auf [0, 1] ist. Für s ∈ (0, 1] gilt nach Definition G(s) = M (log s). Daher lassen sich aus der erzeugenden Funktion die Momente von X berechnen – beispielsweise gilt E[X] = G′ (1−) (linksseitige Ableitung von G(s) bei s = 1), falls der Erwartungswert endlich ist. Für die erzeugende Funktion einer Summe X + Y von unabhängigen, nichtnegativen, ganzzahligen Zufallsvariablen X und Y gilt offensichtlich GX+Y (s) GX (s) · GY (s) = für alle s ∈ [−1, 1]. Somit ist die erzeugende Funktion der Faltung (µ ∗ ν)(k) = k X i=0 µ(i)ν(k − i) (k = 0, 1, 2, . . .) zweier Wahrscheinlichkeitsverteilungen µ und ν auf N ∪ {0} das Produkt der einzelnen erzeu- genden Funktionen. Erzeugende Funktionen können in verschiedenen Situationen für explizite Berechnungen verwendet werden. Wir demonstrieren dies hier in einigen grundlegenden Beispielen. Viele weitere entsprechende Anwendungen finden sich in den Wahrscheinlichkeitstheorie-Lehrbüchern von Feller und Grimmett/Stirzacker. Erzeugende Funktionen zufälliger Summen Sind N, X1 , X2 , . . . : Ω → {0, 1, 2, . . .} unabhängige Zufallsvariablen, dann erhalten wir für die N P Xi : Summe SN = i=1 GSN (s) = E[sSN ] = E[E[sSN | N ]] Einführung in die Wahrscheinlichkeitstheorie = E[G(s)N ] = GN (G(s)), (10.2.1) Prof. Andreas Eberle 10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND ERNEUERUNGEN 321 wobei G die erzeugende Funktion der Summanden Xi ist. Für die Verteilung von SN ergibt sich P [SN = k] 1 (GN ◦ G)(k) (0) k! = für alle k ≥ 0. Beispiel (Ausdünnungseigenschaft von Poissonverteilungen). Ein Huhn lege eine mit Parameter λ > 0 Poissonverteilte Anzahl N von Eiern, von denen aus jedem unabhängig voneinander und von N mit Wahrscheinlichkeit p ein Küken schlüpfe. Die erzeugende Funktion der Poissonverteilung ist GN (s) = N E[s ] = ∞ X k=0 Die Anzahl der geschlüpften Küken ist SN = N P sk · λk −λ e k! = eλ(s−1) . Xi , wobei die Xi untereinander und von N i=1 unabhängige, Bernoulli(p)-verteilte Zufallsvariablen sind. Wir erhalten also GSN (s) = GN (GX1 (s)) = GN (1 − p + p · s) = epλ·(s−1) , d.h. die Zahl der geschlüpften Küken ist wieder Poissonverteilt mit Parameter p · λ. Eine ausge- dünnte Poissonverteilung ist also wieder eine Poissonverteilung! Galton-Watson-Verzweigungsprozesse Wir betrachten das folgende Modell für ein zufälliges Populationswachstum: Alle Individuen der Population erzeugen unabhängig voneinander eine zufällige Anzahl von Nachkommen in der nächsten Generation mit Verteilung ν. Hierbei sei ν eine feste Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit ν[{2, 3, . . .}] 6= 0. Dieses Modell wurde 1889 von Galton und Watson ein- geführt, um die Aussterbewahrscheinlichkeit englischer Adelstitel zu untersuchen. Ähnlich wie beim Random Walk handelt es sich um ein fundamentales stochastisches Modell mit unzähligen Erweiterungen und Anwendungen, z.B. auf das Wachstum von Zellpopulationen, die Ausbreitung von Epidemien, die Zunahme der Neutronenzahl in einem Reaktor, oder auch die näherungsweise Berechnung von genetischen Abständen oder der Anzahl von Zuständen in einem großen zufälligen Graphen (z.B. dem Internet), die man in einer bestimmten Anzahl von Schritten erreichen kann. Die Nachkommensstruktur eines einzelnen Individuums bestimmt einen zufälligen verwurzelten Baum, s. Grafik 10.1. Dementsprechend spielen Verzweigungsprozesse auch eine zentrale Rolle bei der Analyse diverser stochastischer Modelle auf Bäumen, s. z.B. [Peres: Probablity on trees]. Universität Bonn Wintersemester 2009/2010 322 KAPITEL 10. BEDINGTE ERWARTUNGEN .. . n=3 n=2 .. . b b b b n=1 b b Z3 = 6 b b Z2 = 3 b Z1 = 3 b b n=0 b Z0 = 1 b Abbildung 10.1: Beispiel für eine Realisierung eines Galton-Watson-Prozesses. Wir beschreiben die Nachkommenszahlen der einzelnen Individuen in der (n−1)-ten Generation eines Verzweigungsprozesses durch unabhängige Zufallsvariablen Nin : Ω → {0, 1, 2, . . .}, i, n = 1, 2, . . . , mit Verteilung ν. Für die Gesamtzahl der Individuen in der n-ten Generation erhalten wir die folgende rekursive Darstellung: Zn−1 ZN = X Nin i=1 für alle n ≥ 1. Ohne wesentliche Einschränkungen nehmen wir Z0 = 1 an. Enthält die Anfangspopulation stattdessen mehrere Individuen, dann erzeugen diese voneinander unabhängige, identisch verteilte Unterpopulationen. Da Zn−1 nur von den Zufallsvariablen Nik für k ≤ n − 1 abhängt, sind Zn−1 und Nin (i ∈ N) unabhängige Zufallsvariablen. Durch Bedingen auf Zn−1 erhalten wir für die mittleren Populationsgrößen die Rekursion E[Zn ] wobei m := ∞ P i=1 = E[Zn−1 ] · m, i · ν(i) die mittlere Nachkommenszahl eines Individuums ist. Wir unterscheiden die folgenden Fälle: m>1: Exponentielles Wachstum der Erwartungswerte (superkritisch) m=1: Erwartungswerte konstant (kritisch) m<1: Exponentieller Abfall der Erwartungswerte (subkritisch) Wir wollen nun untersuchen, mit welcher Wahrscheinlichkeit die Population in den einzelnen Fällen ausstirbt. Nach (10.2.1) gilt für die erzeugenden Funktionen der Populationsgrößen die Rekursionsformel h PZn−1 n i GZn (s) = E s i=1 Ni = GZn−1 (G(s)), Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND ERNEUERUNGEN 323 wobei G die erzeugende Funktion der Verteilung ν der Anzahl Nin der Kinder eines Individuums ist. Per Induktion folgt wegen GZ1 (s) = G(s): GZn (s) = G(G(. . . G(s) . . .)) | {z } = Gn (s) für alle n ∈ N und s ∈ [0, 1]. n−mal Für die Wahrscheinlichkeiten πn , dass der Prozess zur Zeit n ausgestorben ist, erhalten wir die Rekursionsformel πn = P [Zn = 0] = GZn (0) Gn (0) = = G(πn−1 ). (10.2.2) Sei nun π die Wahrscheinlichkeit, dass die Population in endlicher Zeit ausstirbt. Da die Ereignisse {Zn = 0} monoton wachsend sind, gilt π = P " [ n # {Zn = 0} = lim πn . n→∞ Da G auf [0, 1] stetig ist, folgt aus (10.2.2) π = G(π), d.h. die Aussterbewahrscheinlichkeit π ist ein Fixpunkt der erzeugenden Funktion. Wie oben bemerkt, ist die erzeugende Funktion G : [0, 1] → [0, 1] strikt konvex mit G(1) = 1 und G′ (1−) = E[Nin ] = m. Hieraus folgt, dass 1 im Fall m ≤ 1 der einzige Fixpunkt von G in [0, 1] ist, während im superkritischen Fall m > 1 ein weiterer Fixpunkt π ∗ ∈ [0, 1) existiert, siehe auch Grafik 10.2. Aus den Skizzen erkennt man zudem, dass die Aussterbewahrscheinlichkeit π = lim πn der kleinste Fixpunkt von G auf [0, 1] ist. Also stirbt der Prozess im subkritischen bzw. kritischen Fall mit Wahrscheinlichkeit 1 aus, während er im superkritischen Fall mit einer strikt positiven Wahrscheinlichkeit überlebt. Universität Bonn Wintersemester 2009/2010 324 KAPITEL 10. BEDINGTE ERWARTUNGEN m≤1 m>1 1 5 π4 π π3 π2 1 π1 π2 π1 π0 π0 π1 π2π3π5 π4 1 π1 π2 1 πn → π ∗ < 1 πn → 1 Abbildung 10.2: Erzeugendenfunktionen von Galton-Watson-Prozessen mit unterschiedlichen Verteilungen für die Anzahl der Nachkommen. In Rot: Fixpunktiteration Beispiel (Geometrische Nachkommensverteilung). Ist die Verteilung ν(k) = pk (1 − p) (k = 0, 1, 2 . . .) der Anzahl der Nachkommen eine geometrische Verteilung mit Parameter p ∈ (0, 1), dann ergibt sich G(s) = ∞ X k=0 sk pk (1 − p) Fixpunkte dieser Funktion sind 1 und 1−p . p = 1−p 1 − ps für alle s ∈ [0, 1]. Für 1 − p ≥ p (subkritischer Fall) ist 1 der einzige Fixpunkt in [0, 1], also stirbt die Population P -fast sicher aus. Im superkritischen Fall 1 − p < p beträgt die Aussterbewahrscheinlichkeit π dagegen nur 1−p . p Rekurrente Ereignisse und Erneuerungsgleichung Als weitere Anwendung von erzeugenden Funktionen betrachten wir eine Folge von unvorhersehbaren Ereignissen, die zu diskreten Zeitpunkten n ∈ N eintreten. Die Ereignisse bezeichnen wir auch als „Erneuerungen“ (engl. renewals), und denken dabei z.B. an den wiederholten Ausfall und Austausch eines Verschleißteils in einer Maschine, oder das wiederholte Abarbeiten einer Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UND ERNEUERUNGEN 325 Warteschlange. Wir beschreiben den Zeitpunkt, an dem die k-te Erneuerung stattfindet, durch eine Zufallsvariable Sk = T1 + T2 + . . . + Tk . T1 ist also der Zeitpunkt der ersten Erneuerung, und für k ≥ 2 ist Tk der zeitliche Abstand der (k−1)-ten und der k-ten Erneuerung. In einem einfachen Modell nehmen wir an, dass T1 , T2 , . . . : Ω → N unabhängige Zufallsvariablen sind, und, dass T2 , T3 , . . . identisch verteilt sind (aber nicht T1 !). Wir wollen nun die Wahrscheinlichkeiten pn der Ereignisse An = {∃k ∈ N : Sk = n} „Erneuerung zur Zeit n“ aus den Verteilungen der Wartezeiten berechnen. Bedingen auf den Wert von T1 liefert für n ≥ m: P [An | T1 = m] = P [∃k ∈ N : T1 + . . . + Tk = n | T1 = m] = P [∃k ∈ N : T2 + . . . + Tk = n − m | T1 = m] = P [∃k ∈ N : T2 + . . . + Tk = n − m], und damit P [An | T1 = m] = P [An−m+1 | T1 = 1] = P [An−m+1 | A1 ]. Nach der Formel von der totalen Wahrscheinlichkeit erhalten wir für n ∈ N: pn = n X m=1 qn−m · P [T1 = m] (10.2.3) mit qn := P [An+1 | A1 ]. Um die bedingten Wahrscheinlichkeiten qn zu berechnen, bedingen wir zusätzlich auf T2 . Da T2 , T3 , . . . unabhängig und identisch verteilt sind, gilt für n ≥ m: P [An+1 | A1 ∩ {T2 = m}] = P [∃k ∈ N : T1 + . . . + Tk = n + 1 | T1 = 1, T2 = m] = P [∃k ≥ 2 : T3 + . . . + Tk = n − m | T1 = 1, T2 = m] = P [∃k ≥ 2 : T3 + . . . + Tk = n − m] = P [∃k ≥ 2 : T2 + . . . + Tk−1 = n − m] = P [An−m+1 | A1 ] = qn−m . Wegen qn = Universität Bonn P [An+1 | A1 ] = n X m=1 P [An+1 | A1 ∩ {T2 = m}] · P [T2 = m] Wintersemester 2009/2010 326 KAPITEL 10. BEDINGTE ERWARTUNGEN erhalten wir qn n X = m=1 qn−m · P [T2 = m] für alle n ≥ 1. (10.2.4) Die Gleichungen (10.2.3) und (10.2.4) heißen Erneuerungsgleichungen. Auf den rechten Seiten dieser Gleichungen stehen (wegen T1 , T2 ≥ 1) die Faltungen der Folge qn , n ∈ N, mit der Folge der Gewichte der Wartezeiten T1 bzw. T2 . Daher ist es zweckmäßig, zu den erzeugenden Funktionen Gp (s) ∞ X = pn sn n=1 und Gq (s) = ∞ X qn sn n=0 überzugehen. Für |s| < 1 erhalten wir aus (10.2.3) Gp (s) = Gq (s) · GT1 (s). Aus (10.2.4) ergibt sich, da die rechte Seite für n = 0 verschwindet: ∞ X Gq (s) − 1 = qn sn = Gq (s) · GT2 (s). n=1 −1 Es folgt Gq (s) = (1 − GT2 (s)) , und damit GT1 (s) . (10.2.5) 1 − GT2 (s) (10.2.5) liefert den gesuchten Zusammenhang zwischen der Verteilung der Wartezeiten, und den Gp (s) = Wahrscheinlichkeiten pn , dass zur Zeit n eine Erneuerung stattfindet. Sei nun die Verteilung der Lebensdauern T2 , T3 , . . . vorgegeben. Dann können wir untersuchen, welche Verteilung die Anfangswartezeit T1 haben muss, damit die Wahrscheinlichkeiten pn nicht von n abhängen (Stationarität). Für α ∈ [0, 1] gilt pn = α für alle n ∈ N genau dann, wenn ∞ X α für alle s ∈ (−1, 1), Gp (s) = pn sn = 1−s n=1 d.h. wenn 1 − GT2 (s) für alle s ∈ (−1, 1). (10.2.6) 1−s erzeugende Funktionen von Wahrscheinlichkeitsverteilungen sind, muss dann GT1 (s) Da GT1 und GT2 = α· gelten: 1 = GT1 (1) = lim GT1 (s) s↑1 GT2 (s) − 1 s↑1 s−1 = α · E[T2 ]. = α lim Einführung in die Wahrscheinlichkeitstheorie = αG′T2 (1−) Prof. Andreas Eberle 10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 327 Also muss T2 endlichen Erwartungswert haben, und α = 1/E[T2 ] (10.2.7) gelten. Dies ist auch anschaulich plausibel: Im stationären Fall ist die Erneuerungswahrscheinlichkeit zu einem festen Zeitpunkt der Kehrwert des mittleren zeitlichen Abstandes zwischen zwei Erneuerungen. Gilt (10.2.7), dann ergibt sich aus (10.2.6) durch Koeffizientenvergleich: ! n X P [T2 > n] P [T1 = n] = α · 1 − P [T2 = k] = . (10.2.8) E[T2 ] k=1 Die Folge pn der Erneuerungswahrscheinlichkeiten ist also genau dann konstant, wenn die Verteilung von T1 durch (10.2.8) gegeben ist („stationärer Erneuerungsprozess“). Weiter kann man ausgehend von (10.2.6) zeigen, dass für beliebige Verteilungen der ersten Erneuerungszeit die Wahrscheinlichkeiten pn für n → ∞ gegen 1/E[T2 ] konvergieren („asymptotische Stationarität“), falls der Erwartungswert endlich ist und keine Periodizität auftritt, d.h. ggT({n|P [T2 = n] > 0}) = 1. Den Beweis dieses Erneuerungssatzes über erzeugende Funktionen findet man im Klassiker von W.Feller (An Introduction to Probability Theory and its Applications, Vol. 1). 10.3 Bedingen auf allgemeine Zufallsvariablen Ist Y eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit stetiger Verteilungsfunktion, dann gilt P [Y = z] = 0 für alle z ∈ R. Bedingte Wahrscheinlichkeiten gegeben Y = z können daher nicht wie für diskrete Zufallsvariablen definiert werden. Alternativ könnte man versuchen, bedingte Wahrscheinlichkeiten gegeben Y als Grenzwert zu definieren: P [A | Y = z] = lim P [A | z − h ≤ Y ≤ z + h]. hց0 (10.3.1) Dies ist in bestimmten Fällen möglich, aber im allgemeinen ist die Existenz des Grenzwertes nicht gewährleistet. Stattdessen definiert man bedingte Erwartungen gegeben allgemeine Zufallsvariablen Y mithilfe der Charakterisierung aus Satz 10.5. Bedingte Wahrscheinlichkeiten gegeben Y erhält man als Spezialfall bedingter Erwartungen: P [A | Y ] Universität Bonn := E[IA | Y ]. (10.3.2) Wintersemester 2009/2010 328 KAPITEL 10. BEDINGTE ERWARTUNGEN Bedingte Wahrscheinlichkeiten wie in (10.3.1) sind im Allgemeinen nicht im herkömmlichen Sinn definiert. Es ist allerdings ausgehend von (10.3.1) allgemein möglich, für ein festes Ereignis A die Abbildung z 7→ P [A | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung von Y zu definieren. Das Faktorisierungslemma Wir beweisen zunächst eine wichtige maßtheoretische Aussage. Diese wird es uns unter Anderem ermöglichen, die charakterisierenden Eigenschaften bedingter Erwartungen aus Satz 10.5 noch etwas eleganter zu formulieren: Satz 10.6 (Faktorisierungslemma). Sei (S, S) ein messbarer Raum und Y : Ω → S eine Abbil- dung. Eine Abbildung X : Ω → R ist genau dann σ(Y )-messbar, wenn X = f (Y ) = f ◦ Y für eine S-messbare Funktion f : S → R gilt. X (Ω, σ(Y )) Beweis. Y (S, S) (R, B(R)) (1). Ist X = f ◦ Y für eine messbare Funktion f , dann gilt X −1 (B) = Y −1 (f −1 (B)) ∈ σ(Y ) für alle B ∈ B(R), da f −1 (B) ∈ S. Daher ist X σ(Y )-messbar. (2). Für die umgekehrte Richtung müssen wir zeigen, dass aus der σ(Y )-Messbarkeit von X folgt, dass X eine messbare Funktion von Y ist. Dazu gehen wir schrittweise vor („maßtheoretische Induktion“): (a) Ist X = IA eine Indikatorfunktion mit A ∈ σ(Y ), dann gilt A = Y −1 (B) mit B ∈ S, und damit X(ω) (b) Für X = Pn = i=1 ci IAi IY −1 (B) (ω) = IB (Y (ω)) für alle ω ∈ Ω. mit Ai ∈ σ(Y ) und ci ∈ R gilt entsprechend X= n X ci IBi (Y ), i=1 wobei Bi Mengen aus S mit Ai = Y −1 (Bi ) sind. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 329 (c) Für eine beliebige nichtnegative, σ(Y )-messbare Abbildung X : Ω → R existiert eine Folge (Xn ) von σ(Y )-messbaren Elementarfunktionen mit Xn ր X. Nach (b) gilt Xn = fn (Y ) mit S-messbaren Funktionen fn . Damit folgt: X = sup Xn = sup fn (Y ) = f (Y ), wobei f = sup fn wieder S-messbar ist. (d) Für eine allgemeine σ(Y )-messbare Abbildung X : Ω → R sind sowohl X + als auch X − messbare Funktionen von Y , also auch X selbst. Mithilfe des Faktorisierungslemmas können wir die charakterisierenden Eigenschaften (I) und (II) bedingter Erwartungen gegeben eine diskrete Zufallsvariable Y aus Satz 10.5 wie folgt umformulieren: X ist genau dann eine Version von E[X | Y ], wenn gilt: (i) X ist σ(Y )-messbar, (ii) E[X ; A] = E[X ; A] für alle A ∈ σ(Y ). Die Äquivalenz von (I) und (i) folgt aus dem Faktorisierungslemma, und die Äquivalenz von (II) und (ii) ergibt sich durch maßtheoretische Induktion, denn (ii) besagt gerade, dass E[X · IB (Y )] = E[X · IB (Y )] für alle B ∈ S gilt. Definition allgemeiner bedingter Erwartungen Eine bemerkenswerte Konsequenz der Charakterisierung bedingter Erwartungen durch die Bedingungen (i) und (ii) ist, dass die bedingte Erwartung E[X | Y ] von der Zufallsvariablen Y nur über die von Y erzeugte σ-Algebra σ(Y ) abhängt! Sind zwei Zufallsvariablen Y und Z Funk- tionen voneinander, dann ist σ(Y ) = σ(Z), und damit stimmen auch die bedingten Erwartungen E[X | Y ] und E[X | Z] überein (mit Wahrscheinlichkeit 1). Daher liegt es nahe, gleich von der bedingten Erwartung gegeben eine σ-Algebra zu sprechen. Die σ-Algebra (z.B. σ(Y ) oder σ(Y1 , . . . , Yn )) beschreibt dann die zur Verfügung stehende „Information“, auf die bedingt wird. Die Charakterisierung bedingter Erwartungen durch (i) und (ii) können wir sofort auf den Fall allgemeiner bedingter Erwartungen gegeben eine σ-Algebra oder gegeben beliebige Zufallsvariablen übertragen. Sei dazu X : Ω → R eine nichtnegative (oder integrierbare) Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Universität Bonn Wintersemester 2009/2010 330 KAPITEL 10. BEDINGTE ERWARTUNGEN Definition (Bedingte Erwartung, allgemein). (1). Sei F ⊆ A eine σ-Algebra. Eine nicht- negative (bzw. integrierbare) Zufallsvariable X : Ω → R heißt Version der bedingten Erwartung E[X | F], falls gilt: (a) X ist F-messbar, und (b) E[X ; A] = E[X ; A] für alle A ∈ F. (2). Für beliebige Zufallsvariablen Y, Y1 , Y2 , . . . , Yn auf (Ω, A, P ) definieren wir E[X | Y ] := E[X | σ(Y )], E[X | Y1 , . . . Yn ] := E[X | (Y1 , . . . , Yn )] = E[X | σ(Y1 , . . . , Yn )]. (3). Für ein Ereignis A ∈ A definieren wir P [A | F] := E[IA | F], und entsprechend P [A | Y ] = E[A | Y ]. Bemerkung. Durch maßtheoretische Induktion zeigt man, dass Bedingung (b) äquivalent ist zu: (b’) E[X · Z] = E[X · Z] Ω → R. für alle nichtnegativen (bzw. beschränkten) F-messbaren Z : Satz 10.7 (Existenz und Eindeutigkeit der bedingten Erwartung). Sei X ≥ 0 oder X ∈ L1 , und F ⊆ A eine σ-Algebra. Dann gilt (1). Es existiert eine Version der bedingten Erwartung E[X | F]. (2). Zwei Versionen stimmen P -fast sicher überein. Beweis. Die Existenz kann man unmittelbar aus dem Satz von Radon-Nikodym folgern, s. z.B. [A.Klenke, Wahrscheinlichkeitstheorie]. Wir geben stattdessen am Ende von Abschnitt 10.4 einen Existenzbeweis, der mit elementaren Methoden auskommt. e zwei Versionen der bedingten Erwartung E[X |F]. Zum Beweis der Eindeutigkeit seien X und X e beide F-messbar, und Dann sind X und X E[X ; A] e P -fast sicher. Hieraus folgt X = X = e ; A] E[X Einführung in die Wahrscheinlichkeitstheorie für alle A ∈ F. Prof. Andreas Eberle 10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 331 Bemerkung (Probleme mit Ausnahmemengen). Man beachte, dass die bedingte Erwartung E[X | F] und damit auch die bedingte Wahrscheinlichkeit P [A | F] nur für jede feste Zufalls- variable X bzw. jedes feste Ereignis A bis auf Modifikation auf Nullmengen eindeutig definiert sind. Ein weiteres Problem ist, dass wir allgemein zwar bedingte Erwartungen gegeben eine Zufallsvariable Y definieren können, aber nicht solche gegeben das Ereignis Y = z für festes z. In vielen Fällen kann man die beschriebenen Probleme durch Auswahl einer „regulären Version der bedingten Verteilung gegeben Y “ umgehen. Wir kommen darauf in Korollar 10.9 zurück. Bemerkung (E[X | Y = z]). Obwohl E[X | Y = z] für ein festes z im Allgemeinen nicht definiert ist, kann man die Funktion z 7→ E[X | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung von Y sinnvoll definieren: Ist Y : Ω → S eine Zufallsvariable mit Werten in einem messbaren Raum (S, S), dann ist jede Version der bedingten Erwartung E[X | Y ] nach Definition σ(Y )-messbar. Also gilt nach dem Faktorisierungslemma: E[X | Y ] = g(Y ) für eine messbare Funktion g : S → R. (10.3.3) Da die Versionen der bedingten Erwartung bis auf Modifikation auf P -Nullmengen eindeutig festgelegt sind, ist die Funktion g bis auf Modifikation auf µY -Nullmengen eindeutig festgelegt. In Anlehnung an den diskreten Fall setzt man manchmal: E[X | Y = z] := g(z). (10.3.4) Genauer definieren wir für eine nichtnegative Zufallsvariable X: Definition. Eine messbare Funktion g : S → R+ heißt Version der bedingten Erwartung z 7→ E[X | Y = z] von X gegeben Y = z, wenn gilt: Z E[X ; Y ∈ B] = g(z)µY (dz) für alle B ∈ S. (10.3.5) B Die charakterisierende Bedingung (10.3.5) ist nichts anderes als eine allgemeine Variante der Formel von der totalen Wahrscheinlichkeit. Mithilfe des Transformationssatzes sieht man, dass g genau dann (10.2.3) erfüllt, wenn g(Y ) eine Version von E[X | Y ] ist. WARNUNG : Bei der Definition ist zu beachten, dass E[X | Y = z] für ein festes z im Allgemei- nen nicht definiert ist, sondern nur die Funktion z 7→ E[X | Y = z] modulo Modifikation auf µY -Nullmengen! Das formale Rechnen mit bedingten Erwartungen wir in (10.3.4) ist daher eine häufige Fehlerquelle. Universität Bonn Wintersemester 2009/2010 332 KAPITEL 10. BEDINGTE ERWARTUNGEN Trotz dieser Gefahren ist die Notation E[X | Y = z] oft nützlich, um Argumentationen transparenter zu machen, oder um anschauliche Überlegungen in mathematische Formeln zu übersetzen. Wir werden sie daher auch hier gelegentlich verwenden. Diskreter und absolutstetiger Fall In einigen Fällen kann man die Definition direkt anwenden, um bedingte Erwartungswerte zu berechnen. Wir betrachten zunächst noch einmal den Spezialfall eine diskreten Bedingung: Ṡ Hi in abzählbar viele messbare Gilt F = σ({Hi |i ∈ N}) für eine disjunkte Zerlegung Ω = i∈N Teilmengen („Hypothesen“) Hi ∈ A, dann sind F-messbare Zufallsvariablen konstant auf jeder der Mengen Hi . Aus der Definition der bedingten Erwartung folgt dann E[X | F] = E[X | Hi ] auf Hi für alle i ∈ N mit P [Hi ] > 0. Beispiel (Unbedingte Erwartungen). Die bedingte Erwartung einer Zufallsvariable X gegeben die triviale σ-Algebra {∅, Ω} ist der Erwartungswert von X. Beispiel (Bedingen auf eine Partition). Ist P = U[0,1) die Gleichverteilung auf [0, 1), und F = σ({[ti−1 , ti )|i = 1, . . . , n}) die von einer Partition 0 = t0 < t1 < t2 < . . . < tn = 1 erzeugte σ-Algebra, denn ist die bedingte Erwartung E[g | F] einer integrierbaren Funktion g : [0, 1) → R die durch E[g | F] = 1 ti − ti−1 Zti g(u) du auf [ti−1 , ti ) ti−1 definierte Funktion. H1 H2 H3 H4 H5 1 Abbildung 10.3: Die Funktion g(ω) ist hier blau dargestellt und E[g|F] in rot. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 333 Ist die gemeinsame Verteilung aller relevanten Zufallsvariablen absolutstetig, dann kann man bedingte Erwartungen mithilfe von bedingten Dichten berechnen: Satz 10.8 (Berechnung bedingter Erwartungen im absolutstetigen Fall). Seien X : Ω → Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), deren gemeinsame Verteilung µX,Y absolutstetig ist, und sei h : Rn × Rm → [0, ∞] messbar. Dann ist Z E[h(X, Y ) | Y ](ω) = h(x, Y (ω))fX|Y (x|Y (ω)) dx (10.3.6) Rn eine Version der bedingten Erwartung von h(X, Y ) gegeben Y . Beweis. Nach dem Satz von Fubini ist die rechte Seite von (10.3.6) eine messbare Funktion von Y (ω), und es gilt Z Z Z E g(Y ) · h(x, Y )fX|Y (x|Y ) dx = g(y)h(x, y)fX|Y (x|y)fY (y) dx dy = E[g(Y )h(X, Y )] für jede messbare Funktion g : Rm → [0, ∞]. Mit der Notation aus (10.3.4) lautet die Aussage des Satzes: Z E[h(X, Y )|Y = z] = h(x, z)fX|Y (x|z) dx Rn für µY -fast alle z ∈ S. Um die bedingte Erwartung zu berechnen, müssen wir also den uns bekannten Wert von Y einsetzen, und die Funktion bzgl. der bedingten Dichte fX|Y nach x integrieren. Beispiel (Bedingen auf eine Koordinate). Ist P = UΩ die Gleichverteilung auf einer beschränkten, messbaren Menge Ω ⊆ R2 , und ist Y : Ω → R, Y (x, y) = y, die Projektion auf die zweite Komponente, dann gilt Z 1 E[h|Y ](x, y) = h(x, y) dx λ(Ωy ) P -fast sicher (10.3.7) Ωy für jede integrierbare Funktion h : Ω → R. Hierbei ist Ωy = {x ∈ R|(x, y) ∈ R} der y-Schnitt von Ω. Bedingen auf Y entspricht hier also dem normierten „Herausintegrieren“ der komplementären Koordinate x. Universität Bonn Wintersemester 2009/2010 334 KAPITEL 10. BEDINGTE ERWARTUNGEN Ω ⊆ R2 y Ωy Abbildung 10.4: In Rot: Der y-Schnitt der Menge Ω. Reguläre bedingte Verteilungen Beim Bedingen auf diskrete Zufallsvariablen konnten wir bedingte Wahrscheinlichkeitsverteilungen auf elementare Weise definieren. Für allgemeine Zufallsvariablen sind die bedingten Wahrscheinlichkeiten P [X ∈ B | Y ] = E[IB (X) | Y ] für jede feste messbare Menge B nur bis auf Modifikation auf P -Nullmengen eindeutig definiert. Dies ist ein Nachteil, da die Ausnahmemenge von B abhängen kann, und im Allgemeinen überabzählbar viele messbare Mengen existieren. Die bedingte Verteilung von X gegeben Y ist daher zunächst nicht definiert. Im absolutstetigen Fall können wir das Problem umgehen, indem wir die über die bedingte Dichte gegebene Version µX|Y (y, dx) := fX|Y (x|y)dx der bedingten Verteilung verwenden. Aus Satz 10.8 folgt unmittelbar, dass wir bedingte Wahrscheinlichkeiten gegeben Y aus µX|Y berechnen können: Korollar 10.9. Ist die gemeinsame Verteilung der Zufallsvariablen X : Ω → Rn und Y : Ω → Rm absolutstetig, dann ist µX|Y eine reguläre Version der bedingten Verteilung von X gegeben Y , d.h. (1). µX|Y ist ein stochastischer Kern von Rm nach Rn . (2). Für jedes B ∈ B(Rn ) ist P [X ∈ B | Y ] = µX|Y (Y, B) eine Version der bedingten Wahrscheinlichkeit von {X ∈ B} gegeben Y . Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 335 Bemerkung (Existenz von regulären Versionen bedingter Verteilungen). Die Existenz von regulären Versionen von bedingten Verteilungen gegeben eine Zufallsvariable Y kann man allgemein beweisen, wenn Y Werte in einem vollständigen, separablen, metrischen Raum (kurz: polnischen Raum) annimmt, siehe z.B. [Breiman, Ch. 4.3.]. Eine explizite Berechnung über bedingte Dichten ist natürlich im Allgemeinen nicht möglich. Wenn wir uns auf eine bestimmte reguläre Version µX|Y festlegen, dann können wir die bedingten Wahrscheinlichkeiten P [X ∈ B|Y = z] durch P [X ∈ B | Y = z] = µX|Y (z, B) für alle z ∈ S definieren. Die Festlegung auf eine bestimmte reguläre Version der bedingten Verteilung ist im Allgemeinen willkürlich. Manchmal gibt es aber eine kanonische Version, die sich auszeichnet. Dies ist zum Beispiel der Fall, wenn die Dichte der gemeinsamen Verteilung von X und Y eine stetige Version hat. Beispiel (Bivariate Normalverteilung). Ist (X, Y ) bivariat normalverteilt mit Mittel (0, 0) und ! 1 ̺ Kovarianzmatrix , ̺ ∈ (−1, 1), dann gilt ̺ 1 fX,Y (x, y) = x2 − 2̺xy + y 2 p · exp − 2(1 − ̺2 ) 2π 1 − ̺2 1 . Für ein festes x ∈ R folgt fY |X (y|x) ∝ fX,Y (x, y) ∝ (y − ̺x)2 exp − 2(1 − ̺2 ) als Funktion von y. Also ist µY |X (x, •) = N (̺x, 1 − ̺2 ) eine kanonische reguläre Version der bedingten Verteilung von Y gegeben X. Universität Bonn Wintersemester 2009/2010 336 KAPITEL 10. BEDINGTE ERWARTUNGEN z x2 x0 x1 y x Abbildung 10.5: Die Dichte fX,Y (x, y) und in Blau, Grün und Magenta fY |X (y|xi ) für i ∈ {0, 1, 2}. Man beachte, dass fY |X (y|xi ) ∝ fX,Y (xi , y) als Funktion von y. Beispiel (Grenzen naiven Bedingens). Sei (X, Y ) gleichverteilt auf dem Viertelkreis S = {(x, y) ∈ R2 |x > 0, y > 0, x2 + y 2 < 1}. Wir versuchen auf zwei Arten eine „bedingte Verteilung von X gegeben X = Y “ zu berechnen. Dazu betrachten wir die Zufallsvariablen V = Y −X und W = Y /X. Wegen fX,Y ∝ IS erhalten wir mithilfe des Dichtetransformationssatzes für fast jedes v: fX|V (x|v) ∝ fX,V (x, v) = ∝ IS (x, v + x), ∂(x, v + x) fX,Y (x, v + x) · det ∂(x, v) wobei „∝“ für „proportional als Funktion von x“ steht. Wählen wir die normierte rechte Seite als kanonische Version der bedingten Dichte, so ergibt sich fX|V (x|0) ∝ IS (x, x) = I(0,1/√2) (x). √ Gegeben Y − X = 0 ist X also gleichverteilt auf (0, 1/ 2). Andererseits erhalten wir für fast jedes w: fX|W (x|w) ∝ fX,W (x, w) ∝ IS (x, wx) · x. Einführung in die Wahrscheinlichkeitstheorie = ∂(x, wx) fX,W (x, wx) · det ∂(x, w) Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 337 Wählen wir wieder die rechte Seite als kanonische Version, so ergibt sich fX|W (x|1) ∝ x · IS (x, x) = x · I(0,1/√2) (x). Die bedingte Verteilung von X gegeben Y /X = 1 unterscheidet sich also von der bedingten Verteilung von X gegeben Y − X = 0. Bedingte Wahrscheinlichkeiten gegeben X = Y sind daher nicht wohldefiniert! Eine anschauliche Erklärung für das Phänomen ist, dass wir in den beiden Fällen oben auf unterschiedliche infinitesimale Umgebungen der Diagonale {(x, y) ∈ S|x = y} bedingen, wie die folgende Grafik veranschaulicht: x (x, y) ∈ S : − 1 < δ y {(x, y) ∈ S : |y − x| < δ} Abbildung 10.6: Zwei verschiedene Arten die Diagonale zu approximieren. 10.4 Rechnen mit bedingten Erwartungen; Poissonprozess In vielen Fällen tritt eine Kombination bedingter Erwartungen bezüglich verschiedener Zufallsvariablen und/oder σ-Algebren auf. Die bedingten Erwartungswerte können dann meist nicht unmittelbar berechnet werden, lassen sich aber mithilfe grundlegender Eigenschaften und Rechenregeln schrittweise umformen und ggf. vereinfachen. Wir leiten nun aus der Definition einige fundamentale Eigenschaften bedingter Erwartungen her, die wir in diesem Zusammenhang häufig verwenden werden. Als eine erste Anwendung untersuchen wir zeitliche und räumliche Poissonprozesse. Zeitliche Poissonprozesse sind die einfachsten Beispiele von zeitstetigen stochastischen Prozessen mit stationären unabhängigen Inkrementen, bzw. von zeitstetigen Markovketten. Räumliche Poissonprozesse (Poissonsche Punktprozesse) sind grundlegende Modelle für zufällige Punktmengen. Beide Arten von Prozessen spielen in etlichen Anwendungsbereichen eine wichtige Rolle Universität Bonn Wintersemester 2009/2010 338 KAPITEL 10. BEDINGTE ERWARTUNGEN (z.B. Warteschlangen, Versicherungsmathematik, Materialwissenschaften, stochastische Geometrie etc.), und bilden die Basis für die Konstruktion vieler komplexerer stochastischer Modelle. Eigenschaften der bedingten Erwartung Wir leiten zunächst aus der Definition einige fundamentale Eigenschaften der bedingten Erwartung her, die wir häufig bei der Berechnung bedingter Erwartungswerte verwenden werden: Satz 10.10. Seien X, Y und Xn (n ∈ N) nichtnegative oder integrierbare Zufallsvariablen auf (Ω, A, P ), und seien F, G ⊆ A σ-Algebren. Es gelten folgende Aussagen: (1). Linearität: E[λX + µY | F] = λ E[X | F] + µ E[Y | F] P -fast sicher für alle λ, µ ∈ R. (2). Monotonie: Aus X ≥ 0 P -fast sicher folgt E[X | F] ≥ 0 P -fast sicher. (3). Aus X = Y P -fast sicher folgt E[X | F] = E[Y | F] P -fast sicher. (4). Monotone Konvergenz: Ist (Xn ) monoton wachsend mit X1 ≥ 0, dann gilt E[sup Xn | F] sup E[Xn | F] = P -fast sicher. (5). Projektivität / Tower Property: Ist G ⊆ F, dann gilt E[E[X | F] | G] = E[X | G] P -fast sicher. Insbesondere: E[E[X | Y, Z] | Y ] = E[X|Y ] P -fast sicher. (6). Herausziehen, was bekannt ist: Sei Y F-messbar mit Y · X ∈ L1 bzw. ≥ 0. Dann gilt E[Y · X | F] = Y · E[X | F] P -fast sicher. (7). Unabhängigkeit: Ist X unabhängig von F, dann gilt E[X | F] = E[X] P -fast sicher. (8). Seien (S, S) und (T, T ) messbare Räume. Ist Y : Ω → S F-messbar, und X : Ω → T unabhängig von F, und f : S × T → [0, ∞) eine produktmessbare Abbildung, dann gilt E[f (X, Y ) | F](ω) = Einführung in die Wahrscheinlichkeitstheorie E[f (X, Y (ω))] für P -fast alle ω. Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS Beweis. 339 (1). Aus der Linearität des Erwartungswertes folgt, dass λE[X | F] + µE[Y | F] eine Version der bedingten Erwartung E[λX + µY | F] ist. (2). Sei X eine Version von E[X | F]. Aus X ≥ 0 P -fast sicher folgt wegen {X < 0} ∈ F: E[X ; X < 0] = E[X ; X < 0] ≥ 0, und damit X ≥ 0 P -fast sicher. (3). Dies folgt unmittelbar aus (1) und (2). (4). Ist Xn ≥ 0 und monoton wachsend, dann ist sup E[Xn | F] eine nichtnegative F-messbare Zufallsvariable (mit Werten in [0, ∞]), und nach dem „klassischen “ Satz von der monoto- nen Konvergenz (siehe Satz 6.6) gilt: E[sup E[Xn | F] · Z] = sup E[E[Xn | F] · Z] = sup E[Xn · Z] = E[sup Xn · Z] für jede nichtnegative F-messbare Zufallsvariable Z. Also ist sup E[Xn | F] eine Version der bedingten Erwartung von sup Xn gegeben F. (5). Wir zeigen, dass jede Version von E[X | G] auch eine Version von E[E[X | F] | G] ist, also die Eigenschaften (i) und (ii) aus der Definition der bedingten Erwartung erfüllt: (i) E[X | G] ist nach Definition G-messbar. (ii) Für A ∈ G gilt auch A ∈ F, und somit E[E[X |G]; A] = E[X ; A] = E[E[X |F]; A]. (6) und (7). Auf ähnliche Weise verifiziert man, dass die Zufallsvariablen, die auf der rechten Seite der Gleichungen in (6) und (7) stehen, die definierenden Eigenschaften der bedingten Erwartungen auf der linken Seite erfüllen (Übung). (8). Dies folgt aus (6) und (7) in drei Schritten: (a) Gilt f (x, y) = g(x) · h(y) mit messbaren Funktionen g, h ≥ 0, dann folgt nach (6) und (7) P -fast sicher: E[f (X, Y ) | F] = E[g(X) · h(Y ) | F] = h(Y ) · E[g(X)|F] = h(Y ) · E[g(X)], und somit E[f (X, Y ) | F](ω) = E[g(X) · h(Y (ω))] = E[f (X, Y (ω))] Universität Bonn für P -fast alle ω. Wintersemester 2009/2010 340 KAPITEL 10. BEDINGTE ERWARTUNGEN (b) Um die Behauptung für Indikatorfunktionen f (x, y) = IB (x, y) von produktmessbaren Mengen B zu zeigen, betrachten wir das Mengensystem D {B ∈ S ⊗ T | Behauptung gilt für f = IB }. = D ist ein Dynkinsystem, das nach (a) alle Produkte B = B1 × B2 mit B1 ∈ S und B2 ∈ T enthält. Also gilt auch D ⊇ σ({B1 × B2 | B1 ∈ S, B2 ∈ T }) S ⊗T. = (c) Für beliebige produktmessbare Funktionen f : S × T → R+ folgt die Behauptung nun durch maßtheoretische Induktion. Bemerkung (Konvergenzsätze für bedingte Erwartungen). Aus dem Satz von der monotonen Konvergenz (Eigenschaft (4)) folgen auch Versionen des Lemmas von Fatou und des Satzes von der dominierten Konvergenz für bedingte Erwartungen. Der Beweis verläuft ähnlich wie im unbedingten Fall (Übung). Die letzte Eigenschaft aus Satz 10.10 ist oft sehr nützlich. Für unabhängige Zufallsvariablen X und Y ergibt sich insbesondere E[f (X, Y ) | Y ](ω) = E[f (X, Y (ω))] für P -fast alle ω, (10.4.1) d.h. E[f (X, Y ) | Y = z] = E[f (X, z)] für µY -fast alle z. (10.4.2) Die Unabhängigkeit von X und Y ist wesentlich für (10.4.1) bzw. (10.4.2): Beispiel. Ist Y = X, dann gilt offensichtlich E[X · Y | Y = z] = E[Y 2 | Y = z] E[X · z] = z · E[X] = = z2 für µY -fast alle z, aber z · E[Y ]. Das Anwenden der Formeln (10.4.1) und (10.4.2) ohne dass Unabhängigkeit vorliegt ist ein sehr häufiger Fehler beim Rechnen mit bedingten Erwartungen! Beispiel (Summen von Wartezeiten). Für eine exponential-verteilte Zufallsvariable gilt P [T > t + h|T > t] = P [T > h] für alle t ≥ 0 und h ∈ R. Durch Bedingen können wir diese Aussage deutlich verallgemeinern: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 341 Lemma 10.11 (Erweiterte Gedächtnislosigkeit). Sind T und R unabhängige nichtnegative Zufallsvariablen, und ist T exponentialverteilt, dann gilt P [T + R > t + h | T > t] = P [T + R > h] für alle t ≥ 0 und h ∈ R. Beweis. Durch Bedingen auf R erhalten wir nach (10.4.2) für t ≥ 0: (∗) P [T + R > t + h und T > t | R = r] = P [T + r > t + h und T > t] = P [T > t + h − r | T > t] · P [T > t] = P [T > h − r] · P [T > t] für fast alle r > 0, also P [T + R > t + h und T > t] = = (∗∗) = Z Z P [T + R > t + h, T > t | R = r] µR (dr) P [T > h − r] µR (dr) · P [T > t] P [T + R > h] · P [T > t]. Hierbei haben wir in (∗) und (∗∗) wesentlich benutzt, dass T und R unabhängig sind. Das Lemma zeigt, dass für Summen von unabhängigen Wartezeiten eine Gedächtnislosigkeitseigenschaft gilt, sofern der erste Summand exponentialverteilt ist. Diese Tatsache ist von grundlegender Bedeutung um nachzuweisen, dass die zukünftige Weiterentwicklung von zeitstetigen Markovketten nicht vom Verlauf in der Vergangenheit, sondern nur vom gegenwärtigen Zustand abhängt. Wir betrachten zunächst exemplarisch den einfachsten Fall einer solchen zeitstetigen Markovkette - den Poissonprozess. Poissonprozesse Ein Poissonprozess mit Intensität λ > 0 ist ein zeitstetiger stochastischer Prozess, d.h. eine Kollektion Nt , t ∈ [0, ∞), von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), mit nichtnegativen ganzzahligen Werten. Der Prozess wartet jeweils eine Exp(λ)-verteilte Zeit ab, und springt dann um eine Einheit nach oben. Naheliegende Anwendungen sind z.B. die Modellierung einer Warteschlange, oder der Anzahl der bei einer Versicherung auflaufenden Schadensfälle. Um einen Poissonprozess zu konstruieren, wählen wir unabhängige exponentialverteilte Zufallsvariablen T1 , T2 , . . . ≥ 0 mit festem Parameter λ > 0 auf einem Wahrscheinlichkeitsraum (Ω, A, P ), und setzen Sn = T 1 + T 2 + . . . + T n , Universität Bonn n ∈ N, und Wintersemester 2009/2010 342 KAPITEL 10. BEDINGTE ERWARTUNGEN Nt = #{n ∈ N | Sn ≤ t}, t ∈ [0, ∞). Nt 4 3 2 1 S1 S2 S3 S4 t Abbildung 10.7: Darstellung von Nt (ω). Dann ist t 7→ Nt (ω) für alle ω monoton wachsend mit ganzzahligen Werten und N0 (ω) = 0. Die Wartezeit Sn bis zum n-ten Sprung ist Γ(λ, n)-verteilt, s. Lemma 9.5. Durch Bedingen können wir die Verteilungen des Prozesses (Nt )t≥0 auf elegante Weise berechnen. Beispielsweise folgt aus der erweiterten Gedächtnislosigkeit (Lemma 10.11) für t, h ≥ 0 unmittelbar P [Nt+h < k | Nt = 0] = P [Sk > t + h | S1 > t] = P [T1 + T2 + . . . + Tk > t + h | T1 > t] = P [T1 + T2 + . . . + Tk > h] = P [Nh < k] für alle k ∈ N, d.h. die bedingte Verteilung von Nt+h gegeben Nt = 0 stimmt mit der Verteilung von Nh überein. Allgemeiner erhalten wir: Satz 10.12. Für t, h ≥ 0 gilt: (1). Nt ∼ Poisson(λt) (3). Unabhängige Inkremente: Nt+h − Nt |= (2). Stationarität: Nt+h − Nt ∼ Nh Einführung in die Wahrscheinlichkeitstheorie σ(Ns | 0 ≤ s ≤ t). Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS Beweis. 343 (1). Verteilung von Nt : Da Sk = T1 + . . . + Tk unabhängig von Tk+1 und Γ(λ, k)- verteilt ist, erhalten wir für k ∈ N nach (10.4.2): P [Nt = k] = P [Sk ≤ t < Sk+1 ] Z = P [Sk ≤ t < Sk + Tk+1 | Sk = u] : µSk (du) Z = I(0,t] (u) · P [t < u + Tk+1 ] µSk (du) = Zt e−λ(t−u) · 0 1 λk uk−1 e−λu du (k − 1)! (λt)k −λt = e . k! Also ist Nt Poisson-verteilt zum Parameter λt. (2). Gemeinsame Verteilung von Nt und Nt+h : Seien k, l ≥ 0. Wegen Sk = T1 + . . . + Tk und Sk+l = Sk + Tk+1 + . . . + Tk+l erhalten wir nach (10.4.1) aufgrund der Unabhängigkeit der Ti : P [Nt+h < k + l, Nt = k | T1 , . . . , Tk ](ω) = P [Sk+l > t + h, Sk ≤ t < Sk+1 | T1 , . . . , Tk ](ω) = P [Sk (ω) + Tk+1 + . . . + Tk+l > t + h, Sk (ω) ≤ t < Sk (ω) + Tk+1 ] (10.4.3) = P [Tk+1 + . . . + Tk+l > h] · P [Tk+1 > t − Sk (ω)] · I{Sk ≤t} (ω) = P [Nh < l] · P [Nt = k | T1 , . . . , Tk ](ω) für P -fast alle ω. Hierbei haben wir im vorletzten Schritt Lemma 10.11 verwendet. Aus (a) folgt: P [Nt+h − Nt < l, Nt = k] = E[P [Nt+h < k + l, Nt = k | T1 , . . . , Tk ]] = P [Nh < l] · P [Nt = k], (10.4.4) d.h. P [Nt+h − Nt < l | Nt = k] = P [Nh < l] für alle k, l ≥ 0. Also ist das Inkrement Nt+h − Nt unabhängig von Nt mit Verteilung P ◦ (Nt−h − Nt )−1 Universität Bonn = P ◦ Nh−1 = Poisson(λh). Wintersemester 2009/2010 344 KAPITEL 10. BEDINGTE ERWARTUNGEN (3). Unabhängigkeit von Nt+h − Nt und σ(Ns | 0 ≤ s ≤ t): Wir bemerken zunächst, dass für jedes Ereignis A ∈ σ(Ns | 0 ≤ s ≤ t) und k ≥ 0 ein Ereignis Ak ∈ σ(T1 , . . . , Tk ) existiert mit A ∩ {Nt = k} = Ak ∩ {Nt = k}. (10.4.5) Zum Beweis kann man sich auf Ereignisse der Form A = {Ns = l} mit s ∈ [0, t] und l ≥ 0 beschränken, da diese die σ-Algebra σ(Ns | 0 ≤ s ≤ t) erzeugen. Für solche Ereignisse A gilt in der Tat A∩{Nt = k} = {Ns = l, Nt = k} = {Sl ≤ s < Sl+1 , Sk ≤ t < Sk+1 } = Ak ∩{Nt = k} wobei Ak := ∅ {Sl ≤ s} {S ≤ s < S } l l+1 falls l > k, falls l = k, falls l < k, ein Ereignis ist, dass nur von T1 , . . . , Tk abhängt. Nach (10.4.5) erhalten wir für A ∈ σ(Ns | 0 ≤ s ≤ t) und k, l ≥ 0 analog zu (10.4.4): P [{Nt+h − Nt < l} ∩ A ∩ {Nt = k}] = E[P [Nt+h − Nt < l, Nt = k | T1 , . . . , Tk ]; Ak ] = P [Nh < l] · P [Ak ∩ {Nt = k}] = P [Nt+h − Nt < l] · P [A ∩ {Nt = k}]. Durch Summieren über k folgt die Unabhängigkeit von Nt+h − Nt und A. Aus Satz 10.12 folgt, dass für jede Partition t0 < t1 < . . . < tk die Inkremente Nt1 − Nt0 , Nt2 − Nt1 , . . . , Ntk − Ntk−1 unabhängige Zufallsvariablen mit Verteilung Nt − Ns ∼ Poisson(λ · (t − s)), 0 ≤ s ≤ t, (10.4.6) sind. Insbesondere sind die Inkremente stationär, d.h. die Verteilung von Nt − Ns hängt nur von t − s ab. Definition. (1). Ein stochastischer Prozess (Nt )t≥0 auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißt Lévy-Prozess, falls (a) die Inkremente Nt − Ns , 0 ≤ s ≤ t, stationär sind, Einführung in die Wahrscheinlichkeitstheorie und Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 345 (b) Inkremente über disjunkten Intervallen unabhängig sind. (2). Ein Lévy-Prozess heißt Poissonprozess mit Intensität λ > 0, falls (10.4.6) gilt. Weitere wichtige Beispiele von Lévy-Prozessen sind Brownsche Bewegungen und α-stabile Prozesse. Eine Brownsche Bewegung (Bt )t≥0 ist ein Lévy-Prozess mit normalverteilten Inkrementen Bt − Bs ∼ N (0, t − s), 0 ≤ s ≤ t, dessen Pfade t 7→ Bt (ω) für P -fast alle ω stetig sind. Prozesse in diskreter Zeit mit unabhängigen stationären Inkrementen sind Random Walks. LévyProzesse kann man aus Random Walks durch Grenzübergänge mit unterschiedlichen Skalierungen erhalten (Poissonapproximation, zentraler Grenzwertsatz, Grenzwertsatz für Inkremente mit heavy tails etc.). Den Poissonprozess erhält man beispielsweise als Grenzwert für k → ∞ der (k) reskalierten Random Walks Nt Sn(k) = n X (k) = S⌊kt⌋ , (k) (k) Xi , Xi i=1 unabhängig, ∼ Bernoulli(λ/k). Die Simulation in Abbildung 5.6 deutet an, wie andere Lévyprozesse als Skalierungslimiten von Random Walks auftreten. Ein weiteres Beispiel für Lévy-Prozesse sind zusammengesetzte (compound) Poissonprozesse: Beispiel (Compound Poisson-Prozess). Sei µ eine Wahrscheinlichkeitsverteilung auf Rd und λ > 0. Dann heißt der stochastische Prozess St = Nt X i=1 Xi , t ≥ 0, mit unabhängigen Zufallsvariablen Xi mit Verteilung µ und einem von den Xi unabhängigen Poissonprozess (Nt )t≥0 mit Intensität λ, Compound-Poisson-Prozess mit Sprungverteilung µ und Intensität λ. Der Compound-Poisson-Prozess ist eine zeitstetige Version des Random Walks mit Inkrementen Xi . Er wartet jeweils eine Exp(λ)-verteilte Zeit ab, und macht dann einen Sprung gemäß der Verteilung µ. Entsprechende Prozesse werden u. A. in der Versicherungsmathematik zur Modellierung der akkumulierten Schadenshöhe bis zur Zeit t verwendet. Die Verteilung St für ein festes t ≥ 0 kann man mit den oben eingeführten Methoden für zu- fällige Summen berechnen. Zudem kann man beweisen, dass (St )t≥0 in der Tat ein Prozess mit stationären unabhängigen Inkrementen ist. Poissonscher Punktprozess Die Sprungzeitpunkte eines Poissonprozesses in einem endlichen Zeitintervall (s, t] kann man auch auf andere Weise konstruieren: Ist Z eine Poisson-verteilte Zufallsvariable mit ParameUniversität Bonn Wintersemester 2009/2010 346 KAPITEL 10. BEDINGTE ERWARTUNGEN ter λ · (t − s), und sind U1 , U2 , . . . unabhängig voneinander und von Z, und gleichverteilt auf (s, t], dann sind U1 , . . . , UZ die Sprungzeiten eines Poissonprozesses mit Parameter λ (s. Korollar 10.14). Allgemeiner sei nun ν ein endliches Maß auf einem messbaren Raum (S, S). Wir wollen eine zufällige „Punktwolke“ in S mit Intensität ν konstruieren. Dazu wählen wir unabhängige Zufallsvariablen X1 , X2 , . . . : Ω → S mit Verteilung µ = N (A) = Z X δXi [A] = i=1 ν , ν(S) und setzen für A ⊆ S: #{1 ≤ i ≤ Z|Xi ∈ A}, (10.4.7) wobei Z (Gesamtzahl der Punkte) unabhängig von den Xi und Poisson-verteilt mit Parameter ν(S) ist. Die Abbildung A 7→ N (A) ist die Häufigkeitsverteilung der Punkte X1 , . . . , XZ , und damit ein zufälliges Maß. Hat das Intensitätsmaß ν keine Atome (d.h. gilt ν[{x}] = 0 für alle x ∈ S), dann sind die Punkte Xi mit Wahrscheinlichkeit 1 alle verschieden, und wir können N P -fast sicher mit der zufälligen Punktmenge {X1 , X2 , . . . , XZ } ⊆ S identifizieren. Satz 10.13 (Konstruktion von Poissonschen Punktprozessen). Das durch (10.4.7) definierte zufällige Maß N ist ein Poissonscher Punktprozess mit Intensitätsmaß ν, d.h. für beliebige k ∈ N und disjunkte Teilmenge A1 , . . . , Ak ⊆ S, sind die Zufallsvariablen N (A1 ), . . . , N (Ak ) unabhängig mit Verteilung ∼ N (Ai ) Poisson(ν(Ai )). Zum Beweis benötigen wir die erzeugende Funktion der gemeinsamen Verteilung mehrerer Zufallsvariablen: Definition (Erzeugende Funktion und gemeinsame Verteilung). Seien N1 , . . . , Nk : Ω → {0, 1, 2, . . .} nichtnegative ganzzahlige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), und sei ν(n1 , . . . , nk ) = P [N1 = n1 , . . . , Nk = nk ]. Die erzeugende Funktion des Zufallsvektors (N1 , . . . , Nn ) bzw. der Wahrscheinlichkeitsverteilung ν auf {0, 1, 2, . . .}k ist die durch G(s1 , . . . , sk ) = 1 N2 E[sN 1 s2 · ... · k sN k ] = ∞ X n1 ,...,nk =0 ν(n1 , . . . , nk ) · sn1 1 sn2 2 · . . . · snk k definierte Funktion G : [0, 1]k → [0, 1]. Die gemeinsame Verteilung ν ist ähnlich wie im eindimensionalen Fall eindeutig durch die erzeugende Funktion festgelegt, denn für n1 , . . . , nk ∈ {0, 1, 2, . . .} gilt: ν(n1 , . . . , nk ) = 1 ∂ n1 +n2 +...+nk · n1 (0, . . . , 0). n1 ! · . . . · nk ! ∂s1 · . . . · ∂snkk Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS Beweis. O.B.d.A. können wir S = k S 347 Ai annehmen. Wir berechnen für diesen Fall die erzeu- i=1 gende Funktion der gemeinsamen Verteilung von N (A1 ), . . . , N (Ak ). Für s1 , . . . , sk ∈ [0, 1) gilt k Y N (A ) sj j Z Y k Y = j=1 IAj (Xi ) sj also wegen der Unabhängigkeit von Z und den Xi : # " k " k # Z Y Y N (A ) Y IA (Xi ) E = E sj j Z sj j i=1 j=1 , i=1 j=1 = j=1 k X j=1 sj · µ[Aj ] !Z . Hierbei haben wir im letzten Schritt verwendet, dass das Produkt über j gleich sj ist, falls Xi in der Menge Aj liegt. Da Z Poisson-verteilt ist mit Parameter ν(S), erhalten wir ! # " k k Y N (A ) X sj j sj · µ[Aj ] = GZ E j=1 j=1 = exp ν(S) · = k Y j=1 k X j=1 sj · µ[Aj ] − 1 !! exp (ν(Aj ) · (sj − 1)) , d.h. die erzeugende Funktion von (N (A1 ), . . . , N (Ak )) ist das Produkt der erzeugenden Funktionen von Poissonverteilungen mit Parametern ν(Aj ). Hieraus folgt, dass die gemeinsame Verteilung der Zufallsvariablen N (A1 ), . . . , N (Ak ) das Produkt dieser Poissonverteilungen ist. Poissonsche Punktprozesse bezeichnet man auch synonym als räumliche Poissonprozesse, Poissonsche Zufallsmaße, oder Poissonsche Felder. Sie spielen eine wichtige Rolle bei der Modellierung zufälliger räumlicher Strukturen, z.B. in der stochastischen Geometrie. Satz 10.13 liefert uns einen einfachen Algorithmus zur Simulation Poissonscher Punktprozesse. Graphik ?? wurde mit diesem Algorithmus erzeugt. Als eindimensionalen Spezialfall von Satz 10.13 erhalten wir eine alternative Konstruktion von zeitlichen Poissonprozessen: Korollar 10.14. Seien λ, a ∈ (0, ∞). Sind Z, U1 , U2 , . . . unabhängige Zufallsvariablen mit Ver- teilungen Z ∼ Poisson(λ · a) und U1 , U2 , . . . ∼ Unif (0,a) , dann ist Nt := Z X i=1 I[0,t] (Ui ), 0 ≤ t ≤ a, ein Poissonprozess mit Intensität λ. Universität Bonn Wintersemester 2009/2010 348 KAPITEL 10. BEDINGTE ERWARTUNGEN Beweis. Es gilt Nt = N ([0, t]), wobei N der wie in (10.4.7) definierte Poissonsche Punktprozess auf S = [0, a] mit homogenem Intensitätsmaß λ · dt ist. Nach Satz 10.13 folgt, dass für jede Partition 0 ≤ t0 < t1 < . . . < tk ≤ a die Inkremente Ntj − Ntj−1 = 1 ≤ j ≤ k, N ((tj−1 , tj ]), unabhängig und Poisson(λ · (tj − tj−1 ))-verteilt sind. Poissonsche Punktprozesse lassen sich durch verschiedene Transformationen wieder in Poissonsche Punktprozesse überführen. Bildet man beispielsweise die Punkte Xi , 1 ≤ i ≤ Z, eines Poissonschen Punktprozesses N mit Intensitätsmaß ν mit einer (messbaren) Abbildung φ ab, dann erhält man einen Poissonschen Punktprozess e (A) N := Z X δφ(Xi ) [A] Z X = i=1 IA (φ(Xi )) i=1 = Z X Iφ−1 (A) (Xi ) i=1 mit Intensitätsmaß νe = ν ◦ φ−1 . Zudem gilt eine Ausdünnungseigenschaft: Seien Z, X1 , X2 , . . . , U1 , U2 , . . . unabhängige Zufallsvariablen mit Verteilungen Z ∼ Poisson(ν(S)), Xi ∼ ν , ν(S) Ui ∼ Unif (0,1) , und sei α : S → [0, 1] eine messbare Funktion (Akzeptanzwahrscheinlichkeit). Wir konstruieren einen ausgedünnten Punktprozess Nα , indem wir einen Punkt Xi nur mit Wahrscheinlichkeit α(Xi ) berücksichtigen: Nα := Z X i=1 I{Ui ≤α(Xi )} δXi . Satz 10.15 (Färbungssatz, Ausdünnungseigenschaft). Nα ist ein Poissonscher Punktprozess mit Intensitätsmaß α(x)ν(dx). Der Beweis wird dem Leser als Übung überlassen. Bemerkenswert ist unter Anderem, dass die beschriebene Konstruktion eine Kopplung von Poissonprozessen mit verschiedenen Intensitätsmaßen, d.h. eine simultane Konstruktion dieser Prozesse auf einem gemeinsamen Wahrscheinlichkeitsraum ermöglicht. 10.5 Bedingte Erwartung als beste L2-Approximation In diesem Abschnitt zeigen wir, dass sich die bedingte Erwartung einer quadratintegrierbaren Zufallsvariable X gegeben eine σ-Algebra F charakterisieren lässt als beste Approximation von Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION 349 X im Unterraum der F-messbaren quadratintegrierbaren Zufallsvariablen, bzw. als orthogonale Projektion von X auf diesen Unterraum. Neben naheliegenden Anwendungen auf nichtlineare Prognosen liefert uns dies auch einen einfachen Existenzbeweis für die bedingte Erwartung. Jensensche Ungleichung Die Jensensche Ungleichung gilt auch für bedingte Erwartungen. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X ∈ L1 (Ω, A, P ) eine integrierbare Zufallsvariable und F ⊆ A eine σ-Algebra. Satz 10.16 (Jensen). Ist u : R → R eine konvexe Funktion mit u(X) ∈ L1 oder u ≥ 0, dann gilt E[u(X) | F] ≥ u(E[X | F]) P -fast sicher. Beweis. Jede konvexe Funktion u lässt sich als Supremum von abzählbar vielen affinen Funktionen darstellen, d.h. es gibt an , bn ∈ R mit u(x) = für alle x ∈ R. sup (an x + bn ) n∈N Zum Beweis betrachtet man die Stützgeraden an allen Stellen einer abzählbaren dichten Teilmenge von R, siehe z.B. [Williams: Probability with martingales, 6.6]. Wegen der Monotonie und Linearität der bedingten Erwartung folgt E[u(X) | F] ≥ E[an X + bn | F] = an · E[X | F] + bn P -fast sicher für alle n ∈ N, also auch E[u(X) | F] ≥ sup (an · E[X | F] + bn ) P -fast sicher. n∈N Korollar 10.17 (Lp -Kontraktivität). Die Abbildung X 7→ E[X | F] ist eine Kontraktion auf Lp (Ω, A, P ) für alle p ≥ 1, d.h. E [|E[X | F]|p ] E[|X|p ] ≤ für alle X ∈ L1 (Ω, A, P ). Beweis. Nach der Jensenschen Ungleichung gilt: |E[X | F]|p ≤ E[|X|p | F] P -fast sicher. Die Behauptung folgt durch Bilden des Erwartungswertes. Im Beweis des Korollars haben wir insbesondere gezeigt, dass für eine Zufallsvariable X ∈ Lp auch die bedingte Erwartung E[X | F] in Lp enthalten ist. Wir beschränken uns nun auf den Fall p = 2. Universität Bonn Wintersemester 2009/2010 350 KAPITEL 10. BEDINGTE ERWARTUNGEN Bedingte Erwartung als beste L2 -Prognose Der Raum L2 (Ω, A, P ) = L2 (Ω, A, P )/ ∼ der Äquivalenzklassen von quadratintegrierbaren Zufallsvariablen ist ein Hilbertraum mit Skalarprodukt (X, Y )L2 = E[XY ]. Ist F ⊆ A eine Unter-σ-Algebra, dann ist L2 (Ω, F, P ) ein abgeschlossener Unterraum von L2 (Ω, A, P ), denn Grenzwerte von F-messbaren Zufallsvariablen sind wieder F-messbar. Nach der Jensenschen Ungleichung ist für X ∈ L2 (Ω, A, P ) jede Version der bedingten Erwartung E[X | F] im Unterraum L2 (Ω, F, P ) der F-messbaren quadratintegrierbaren Zufallsvariablen enthalten. Außerdem respektiert die bedingte Erwartung Äquivalenzklassen, s. Satz 10.7. Die Zuordnung X 7→ E[X | F] definiert also eine lineare Abbildung vom Hilbertraum L2 (Ω, A, P ) der Äquivalenzklassen auf den Unterraum L2 (Ω, F, P ). Satz 10.18. Für Y ∈ L2 (Ω, F, P ) sind äquivalent: (1). Y ist eine Version der bedingten Erwartung E[X | F]. (2). Y ist eine „beste Approximation“ von X im Unterraum L2 (Ω, F, P ), d.h. E[(X − Y )2 ] ≤ E[(X − Z)2 ] für alle Z ∈ L2 (Ω, F, P ). (3). Y ist eine Version der orthogonalen Projektion von X auf den Unterraum L2 (Ω, F, P ) ⊆ L2 (Ω, A, P ), d.h. E[(X − Y ) · Z] = 0 für alle Z ∈ L2 (Ω, F, P ). X L2 (Ω, A, P ) E[X | F] 0 L2 (Ω, F, P ) Abbildung 10.8: Darstellung von X 7→ E[X | F] als orthogonale Projektion auf den Unterraum L2 (Ω, F, P ). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION 351 Beweis. (1) ⇐⇒ (3): Für Y ∈ L2 (Ω, F, P ) gilt: Y ist eine Version von E[X | F] ⇐⇒ E[Y · IA ] = E[X · IA ] ⇐⇒ E[Y · Z] = E[X · Z] ⇐⇒ E[(X − Y ) · Z] = 0 für alle A ∈ F für alle Z ∈ L2 (Ω, F, P ) für alle Z ∈ L2 (Ω, F, P ) Hierbei zeigt man die zweite Äquivalenz mit den üblichen Fortsetzungsverfahren (maßtheoretische Induktion). (3) ⇒ (2): Sei Y eine Version der orthogonalen Projektion von X auf L2 (Ω, F, P ). Dann gilt für alle Z ∈ L2 (Ω, F, P ): E[(X − Z)2 ] = E[((X − Y ) + (Y − Z))2 ] = E[(X − Y )2 ] + E[(Y − Z)2 ] + 2E[(X − Y ) (Y − Z) ] | {z } ≥ E[(X − Y )2 ] ∈L2 (Ω,F ,P ) Hierbei haben wir im letzten Schritt verwendet, dass Y − Z im Unterraum L2 (Ω, F, P ) enthalten, also orthogonal zu X − Y ist. (2) ⇒ (3): Ist umgekehrt Y eine beste Approximation von X in L2 (Ω, F, P ) und Z ∈ L2 (Ω, F, P ), dann gilt E[(X − Y )2 ] ≤ E[(X − Y + tZ)2 ] = E[(X − Y )2 ] + 2tE[(X − Y )Z] + t2 E[Z 2 ] für alle t ∈ R, also E[(X − Y ) · Z] = 0. Die Äquivalenz von (2) und (3) ist eine bekannte funktionalanalytische Aussage: die beste Approximation eines Vektors in einem abgeschlossenen Unterraum eines Hilbertraums ist die orthogonale Projektion des Vektors auf diesen Unterraum. Die dahinterstehende geometrische Intuition verdeutlicht man sich leicht anhand von Abbildung 10.8. Satz 10.18 rechtfertigt die Verwendung der bedingten Erwartung als Prognoseverfahren. Beispielsweise ist E[X | Y ] nach dem Faktorisierungslemma die beste L2 -Prognose für X unter allen Funktionen vom Typ g(Y ), g : R → R messbar. Universität Bonn Wintersemester 2009/2010 352 KAPITEL 10. BEDINGTE ERWARTUNGEN Beispiel (Nichtlineare Prognose). Seien S, T : Ω → R+ unabhängige Zufallsvariablen, die zum Beispiel die Ausfallzeiten zweier Komponenten eines Systems beschreiben. S sei exponentialverteilt mit Parameter λ > 0 - die Verteilung von T ist beliebig. Angenommen, wir können nur den Ausfall der einen Komponente (mit Ausfallzeit T ) beobachten, und wir möchten den Wert der ersten Ausfallzeit X = min(T, S) aufgrund des beobachteten Wertes T (ω) prognostizieren. Nach Satz 10.18 ist der beste Prognosewert für X bzgl. des mittleren quadratischen Fehlers durch X̂(ω) = E[X | T ](ω) gegeben. Explizit erhalten wir wegen der Unabhängigkeit von T und S: E[X | T ](ω) = E[min(T (ω), S)] Z∞ min(T (ω), s)λe−λs ds = 0 = T Z(ω) sλe 0 −λs ds + Z∞ T (ω)λe−λs ds T (ω) 1 = (1 − e−λT (ω) ) für P -fast alle ω. λ Die beste Prognose im quadratischen Mittel hängt also in diesem Fall nichtlinear von T ab. Sie unterscheidet sich damit von der besten linearen Prognose (Regressionsgerade), die wie in Abschnitt 6.3 gezeigt durch X̂lin = aT + b mit a = Cov[X, T ] , Var[T ] b = E[X] − aE[T ] gegeben ist. Dass sich X̂ und X̂lin unterscheiden ist die Regel. Eine wichtige Ausnahme ergibt sich, wenn die gemeinsame Verteilung von X und T eine Gaußverteilung ist - in diesem Fall ist die beste L2 Prognose E[X | T ] stets eine affine Funktion von T . Existenz der bedingten Erwartung Durch die Charakterisierung der bedingten Erwartung als beste L2 -Approximation ergibt sich die Existenz der bedingten Erwartung einer quadratintegrierbaren Zufallsvariable unmittelbar aus der Existenz der Bestapproximation eines Vektors in einem abgeschlossenen Unterraum eines Hilbertraums. Durch monotone Approximation folgt hieraus die Existenz der bedingten Erwartung auch für beliebige nichtnegative bzw. integrierbare Zufallsvariablen: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 10.5. BEDINGTE ERWARTUNG ALS BESTE L2 -APPROXIMATION 353 Satz 10.19. Für jede Zufallsvariable X ≥ 0 bzw. X ∈ L1 (Ω, A, P ) und jede σ-Algebra F ⊆ A existiert eine Version der bedingten Erwartung E[X | F]. Beweis. (1). Wir betrachten zunächst den Fall X ∈ L2 (Ω, A, P ). Wie eben bemerkt, ist der Raum L2 (Ω, F, P ) ein abgeschlossener Unterraum des Hilbertraums L2 (Ω, A, P ). Sei d = inf{kZ − XkL2 | Z ∈ L2 (Ω, F, P )} der Abstand von X zu diesem Unterraum. Um zu zeigen, dass eine beste Approximation von X in L2 (Ω, F, P ) existiert, wählen wir eine Folge (Xn ) aus diesem Unterraum mit kXn − XkL2 → d. Mithilfe der ParallelogrammIdentität folgt für n, m ∈ N: kXn − Xm k2L2 = k(Xn − X) − (Xm − X)k2L2 = 2 · kXn − Xk2L2 + 2 · kXm − Xk2L2 − k(Xn − X) + (Xm − X)k2L2 2 Xn + Xm 2 2 = 2 · kXn − XkL2 +2 · kXm − XkL2 −4 − X 2, | | {z } {z } 2 L | {z } →d2 →d2 ≤d2 und damit lim sup kXn − Xm k2L2 n,m→∞ ≤ 0. Also ist die Minimalfolge (Xn ) eine CauchyLfolge in dem vollständigen Raum L2 (Ω, F, P ), d.h. es existiert ein Y ∈ L2 (Ω, F, P ) mit kXn − Y kL2 → 0. Für Y gilt kY − XkL2 = k lim Xn − XkL2 n→∞ ≤ lim inf kXn − XkL2 n→∞ ≤ d, d.h. Y ist die gesuchte Bestapproximation, und damit eine Version der bedingten Erwartung E[X | F]. (2). Für eine beliebige nichtnegative Zufallsvariable X auf (Ω, A, P ) existiert eine monoton wachsende Folge (Xn ) nichtnegativer quadratintegrierbarer Zufallsvariablen mit X = sup Xn . Man verifiziert leicht, dass sup E[Xn | F] eine Version von E[X | F] ist. n (3). Entsprechend verifiziert man, dass für allgemeine X ∈ L1 (Ω, A, P ) durch E[X | F] = E[X + | F] − E[X − | F] eine Version der bedingten Erwartung gegeben ist. Universität Bonn Wintersemester 2009/2010 Kapitel 11 Markovketten In diesem Kapitel werden wir Markovketten genauer untersuchen. Ein wichtiges Hilfsmittel dabei ist der Zusammenhang von Markovketten und Differenzengleichungen. 11.1 Grundlagen Sei (S, S) ein messbarer Raum. Eine Folge X0 , X1 , . . . von auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten Zufallsvariablen Xn : Ω → S heißt (zeitdiskreter) stochastischer Prozess mit Zustandsraum S. Den Index „n“ interpretieren wir entsprechend als „Zeit.“ Für m ≤ n setzen wir: Xm:n := (Xm , Xm+1 , . . . , Xn ). Seien nun pn (x, dy), n = 1, 2, 3, . . . , stochastische Kerne auf (S, S). Wir verwenden die Notation Z (pn f )(x) := pn (x, dy)f (y) für den Erwartungswert einer messbaren Funktion f : S → R bzgl. der Wahrscheinlichkeitsver- teilung pn (x, •). Insbesondere gilt (pn IA )(x) = pn (x, A) für alle A ∈ S. Definition. Ein stochastischer Prozess (Xn ) mit Zustandsraum S heißt Markovkette mit Übergangswahrscheinlichkeiten pn (x, dy), falls gilt: P [Xn+1 ∈ A | X0:n ] = pn+1 (Xn , A) P -f.s. für alle A ∈ S und n ≥ 0, (11.1.1) bzw. dazu äquivalent E[f (Xn+1 ) | X0:n ] = (pn+1 f )(Xn ) P -f.s. für alle S-messbaren f : S → R+ und n ≥ 0. (11.1.2) 354 11.1. GRUNDLAGEN 355 Die Markovkette heißt zeitlich homogen, falls pn nicht von n abhängt. Die Verteilung von X0 heißt Startverteilung der Markovkette. Gilt P ◦ X0−1 = δx , dann sagen wir, die Markovkette startet in x. Die Äquivalenz von (11.1.1) und (11.1.2) ergibt sich durch maßtheoretische Induktion. Die definierende Eigenschaft (11.1.1) besagt, dass bedingt auf Xn der nächste Zustand Xn+1 unabhängig von X0 , . . . , Xn−1 mit Verteilung pn+1 (Xn , •) ist. Eine Markovkette „vergisst“ also den vorherigen Verlauf bis zur Zeit n − 1, und startet in jedem Schritt neu im gegenwärtigen Zustand Xn . Bemerkung. Allgemeiner heißt ein stochastischer Prozess (Xn ) Markovkette, falls P [Xn+1 ∈ A | X0:n ] = P [Xn+1 ∈ A | Xn ] P -f.s. für alle A ∈ S und n ≥ 0 (11.1.3) gilt. Die Existenz eines Übergangskerns folgt aus (11.1.3) unter Regularitätsvoraussetzungen an (S, S), z.B. falls S ein polnischer (d.h. vollständiger separabler metrischer) Raum ist mit Borel- scher σ-Algebra S = B(S). Beispiel (Diskreter Zustandsraum). Ist S abzählbar, dann können wir einen stochastischen Kern pn auf S mit der stochastischen Matrix pn (x, y) = pn (x, {y}) identifizieren. Ein stochastischer Prozess (Xn ) ist genau dann eine Markovkette mit Übergangsmatrizen pn (x, y), wenn P [Xn+1 = xn+1 | X0:n = x0:n ] = pn+1 (xn , xn+1 ) für alle x0 , . . . , xn+1 ∈ S mit P [X0:n = x0:n ] 6= 0 gilt. Zufällige dynamische Systeme als Markovketten, Beispiele Markovketten erhält man insbesondere als zufällige Störungen dynamischer Systeme. Sei (T, T ) ein messbarer Raum. Wir betrachten einen stochastischen Prozess (Xn ) mit Zustandsraum S, der rekursiv durch Xn+1 = Φn+1 (Xn , Wn+1 ), n = 0, 1, 2, . . . , definiert ist, wobei X0 : Ω → S und W1 , W2 , . . . ; Ω → T unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), und Φ : S × T → S, n ∈ N, messbare Abbildungen sind. Die Abbildungen Φn beschreiben das Bewegungsgesetz des dynamischen Systems, und die Zufallsvariablen Wn die zufälligen Einflussfaktoren (Rauschen, noise). Satz 11.1. (1). (Xn ) ist eine Markovkette mit Übergangswahrscheinlichkeiten pn (x, A) Universität Bonn = P [Φn (x, Wn ) ∈ A], x ∈ S, A ∈ S. Wintersemester 2009/2010 356 KAPITEL 11. MARKOVKETTEN (2). Hängen die Abbildungen Φn nicht von n ab, und sind die Zufallsvariablen Wn identisch verteilt, dann ist die Markovkette (Xn ) zeitlich homogen. Beweis. (1). Für n ≥ 0 ist X0:n eine Funktion von X0 , W1 , W2 , . . . , Wn . Also ist Wn+1 unab- hängig von X0:n , und für A ∈ S folgt P [Xn+1 ∈ A | X0:n ](ω) = P [Φn+1 (Xn , Wn+1 ) ∈ A | X0:n ](ω) = P [Φn+1 (Xn (ω), Wn+1 ) ∈ A] = pn+1 (Xn (ω), A) für P -fast alle ω ∈ Ω. (2). Hängen Φn und die Verteilung von Wn nicht von n ab, dann hängt auch pn nicht von n ab, d.h. die Markovkette ist zeitlich homogen. Beispiel. (1). Random Walks auf Zd bzw. Rd : Sind die Zufallsvariablen Wn unabhängig und identisch verteilt mit Werten in Zd oder Rd , dann wird durch Xn+1 = Xn + Wn+1 , X0 = x, ein d-dimensionaler Random Walk definiert. (Xn )n ist eine zeitlich homogene Markovkette mit Start in x und Übergangskern p(x, •) = µ ◦ τx−1 , wobei µ die Verteilung von Wn und τx (y) = y + x die Translation um x ist. (2). Random Walk auf {0, 1, 2, . . .} mit Reflexion bzw. Absorption bei 0: Durch Xn+1 = Xn + Wn+1 1 bzw. 0 falls Xn > 0 falls Xn = 0 mit unabhängigen, identisch verteilten Zufallsvariablen Wn mit P [Wn = 1] = p und P [Wn = −1] = 1 − p, p ∈ [0, 1], wird ein Random Walk auf {0, 1, 2, . . .} definiert, der bei 0 reflektiert bzw. absorbiert wird. (Xn ) ist eine zeitlich homogene Markovkette mit Übergangswahrscheinlichkeiten wie in Graphik 11.1 dargestellt. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.1. GRUNDLAGEN 357 Random Walk mit Reflexion bei 0. 1−p 1−p 1−p 1−p 1−p 1−p 1−p 1 p p p p p p 0 Random Walk mit Absorption bei 0. 1−p 1 1−p 1−p 1−p 1−p 1−p 1−p p p p p p p 0 Abbildung 11.1: Darstellung der Übergangswahrscheinlichkeiten von Random Walks auf {0, 1, 2, . . .} mit Reflexion bzw. Absorption in 0. (3). Warteschlange mit einem Server: In einer einfachen Warteschlange wird pro Zeiteinheit ein Kunde bedient, während An neue Kunden ankommen. Die Anzahlen An der Ankünfte in einer Bedienzeit sind unabhängige Zufallsvariablen mit Werten in {0, 1, 2, . . .}. Die Zahl Xn der wartenden Kunden ist dann eine Markovkette mit Übergangsmechanismus Xn+1 = (Xn − 1 + An+1 )+ . (4). Autoregressive Prozesse: Ein AR(p)-Prozess mit Parametern ε, α1 , . . . , αp ∈ R ist durch die Rekursionsformel Xn = p X i=1 αi Xn−i + ε · Wn , n ≥ p, mit unabhängigen, standardnormalverteilten Zufallsvariablen Wn gegeben. Für p = 1 ergibt sich eine zeithomogene Markovkette mit Übergangskern p(x, ·) Universität Bonn = N (α1 x, ε2 ). Wintersemester 2009/2010 358 KAPITEL 11. MARKOVKETTEN Für p ≥ 2 und αp , ε 6= 0 ist der AR(p)-Prozess dagegen keine Markovkette, da der nächs- te Zustand nicht nur vom gegenwärtigen Zustand, sondern auch vom vorherigen Verlauf abhängt. Wir können jedoch eine Markovkette erhalten, indem wir statt Xn die aus den letzten p Zuständen gebildeten Vektoren Xn = n = p − 1, p, p + 1, . . . , (Xn , Xn−1 , . . . , Xn−p+1 ), betrachten. (X n ) ist eine zeithomogene Markovkette mit Zustandsraum S p , denn für n ≥ p gilt Xn = α1 α2 α3 · · · αp W n 1 0 0 ··· 0 0 0 1 0 · · · 0 X n−1 + ε · . . .. . .. ... .. . 0 0 ··· 0 1 0 (5). Galton-Watson-Verzweigungsprozesse: Der Galton-Watson-Prozess ist eine zeithomogene Markovkette auf S = {0, 1, 2, . . .}, denn für n ≥ 0 gilt Zn−1 Zn = X Nin i=1 mit unabhängigen, identisch verteilten Zufallsvariablen Nin (i, n ∈ N). Als Übergangskern ergibt sich p(k, •) = P◦ k X Nin i=1 !−1 = ν ∗k , wobei ν ∗k die k-fache Faltung der Nachkommensverteilung ν = P ◦ (Nin )−1 ist. (6). Wrightsches Evolutionsmodell: In diesem Modell besteht die Population zu jedem Zeitpunkt n auf seiner festen Anzahl m von Individuen, von denen jedes genau eines der Merkmale aus einer endlichen Menge T besitzt. Die Merkmale werden gemäß folgendem Mechanismus von einer Generation zur nächsten vererbt: Algorithmus 11.2 (Multinomiales Resampling). for i := 1, . . . , m do erzeuge w ∼ Unif{1, . . . , m} (i) (w) xn+1 := xn end for Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.1. GRUNDLAGEN 359 Jedes Individuum der Nachkommensgeneration sucht sich also zufällig und unabhängig voneinander einen Vorfahren in der Elterngeneration, und nimmt dessen Merkmalsausprägungen an. Durch den Algorithmus wird eine Markovkette (Xn ) mit Zustandsraum T m und Übergangskern p(x, •) m O = µ̂(x) i=1 m 1 P δ (i) die empirische Verteilung der Merkmalsausprägungen m i=1 x x = (x(1) , . . . , x(m) ) in der vorherigen Population ist. definiert, wobei µ̂(x) = (i) Anstatt die Merkmalsausprägungen Xn aller Individuen einer Generation zu betrachten („mikroskopische Beschreibung“), genügt es die Häufigkeiten Hn (a) = i ∈ {1, . . . , m} : Xn(i) = a , a ∈ T, aller möglichen Merkmalsausprägungen a zu notieren („makroskopische Beschreibung“). Die Histogrammvektoren Hn = (Hn (a))a∈T bilden eine zeithomogene Markovkette mit Werten im Raum Hist(m, T ) der Histogramme von m Beobachtungswerten aus T . Der Übergangskern ist durch p(h, •) = Mult h , X h(a) a∈S ! , h ∈ Hist(m, T ), gegeben, d.h. der Histogrammvektor im nächsten Schritt ist multinomialverteilt mit Ergebniswahrscheinlichkeiten der Merkmalsausprägungen a ∈ T proportional zu den Häufigkeiten h(a) im letzten Schritt. Dies erklärt auch die Bezeichnung „Multinomiales Resamp- ling.“ Multinomiale Resamplingschritte werden u.a. in genetischen Algorithmen und sequentiellen Monte-Carlo Verfahren eingesetzt. Aus der Darstellung von Markovketten als zufällige dynamische Systeme ergibt sich unmittelbar ein explizites Konstruktionsverfahren für Markovketten mit Zustandsraum R: Seien µ eine Wahrscheinlichkeitsverteilung und pn , n ∈ N, stochastische Kerne auf (R, B(R)). Wir betrachten die linksstetigen Inversen G0 (u) = inf{c ∈ R : F0 (c) ≥ u} und Gn (x, u) = inf{c ∈ R : Fn (x, c) ≥ u} der Verteilungsfunktionen F0 (c) = µ[(−∞, c)] und Fn (x, c) = pn (x , (−∞, c]) der Wahrscheinlichkeitsverteilungen µ und pn (x, •). Aus Satz 11.1 und Satz 4.20 folgt unmittelbar: Universität Bonn Wintersemester 2009/2010 360 KAPITEL 11. MARKOVKETTEN Korollar 11.3 (Existenzsatz und Konstruktionsverfahren für Markovketten). Sei U0 , U1 , U2 , . . . eine Folge von unabhängigen, auf (0, 1) gleichverteilten Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist der durch X0 = G0 (U0 ), Xn+1 = Gn+1 (Xn , Un+1 ) definierte stochastische Prozess eine Markovkette mit Startverteilung µ und Übergangskernen pn . Bemerkung. Auch auf anderen Zustandsräumen kann man Markovketten oft auf ähnliche Weise explizit konstruieren, siehe z.B. die Übung für den diskreten Fall. Die Konstruktion liefert unmittelbar einen Algorithmus zur Simulation der Markovkette: Algorithmus 11.4 (Simulation einer reellwertigen Markovkette). erzeuge U0 ∼ Unif(0, 1); y0 := G0 (u0 ) for n := 1, 2, . . . do erzeuge un ∼ Unif(0, 1); yn := Gn (yn−1 , un ) end for Endlichdimensionale Randverteilung eine Markovkette Wir wollen nun Verteilungen von Markovketten berechnen. Sei (Xn ) ein auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierter stochastischer Prozess mit Zustandsraum (S, S). Satz 11.5. Es sind äquivalent: (1). (Xn ) ist eine Markovkette mit Übergangswahrscheinlichkeiten pn und Startverteilung µ. (2). Für jedes n ≥ 0 hat (X0 , X1 , . . . , Xn ) die Verteilung µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . . · pn (xn−1 , dxn ), d.h. für alle messbaren Funktionen f : S n+1 → R+ gilt Z Z Z E[f (X0 , . . . , Xn )] = µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn )f (x0 , . . . , xn ). (11.1.4) Beweis. „(1) ⇒ (2)“ : Ist (Xn ) eine Markovkette mit Startverteilung µ und Übergangskernen pn , dann gilt für n ∈ N und B0 , . . . , Bn ∈ S: P [X0:n ∈ B0 × . . . × Bn ] = E [P [Xn ∈ Bn | X0:n−1 ] ; X0:n−1 ∈ B0 × . . . × Bn−1 ] Z p(xn−1 , Bn ) µX0:n−1 (dx0:n−1 ). = B0 ×...×Bn−1 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.1. GRUNDLAGEN 361 Durch Induktion nach n folgt P [X0:n ∈ B0 × . . . × Bn ] = Z ··· Bn Z Z µ(dx0 )p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn ) B1 B0 für alle n ≥ 0 und Bi ∈ S. Also gilt X0:n ∼ µ ⊗ p1 ⊗ . . . ⊗ pn , und damit (11.1.4). „(2) ⇒ (1)“ : Gilt (11.1.4), dann hat X0 die Verteilung µ, und (pn+1 f )(Xn ) ist für alle messbaren Funktionen f : S → [0, ∞) eine Version der bedingten Erwartung E[f (Xn+1 ) | X0:n ]. Zum Beweis überprüfen wir die definierenden Eigenschaften der bedingten Erwartung: (pn+1 f )(Xn ) ist eine Funktion von X0:n , und es gilt E[f (Xn+1 ) · g(X0:n )] Z Z Z Z = µ(dx0 ) p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )g(x0:n ) pn+1 (xn , dxn+1 )f (xn+1 ) Z Z Z = µ(dx0 ) p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn )g(x0:n )(pn+1 f )(xn ) = E[(pn+1 f )(Xn ) · g(X0:n )] für alle messbaren Funktionen g : S n+1 → [0, ∞). Seien µ eine Wahrscheinlichkeitsverteilung, p, q, r stochastische Kerne, und f eine messbare nicht-negative Funktion auf (S, S). Wir bezeichnen mit Z (µp)(dy) = µ(dx)p(x, dy) die Verteilung der 2. Komponente unter dem Maß µ ⊗ p, und mit Z (pq)(x, dz) = p(x, dy)q(y, dz) den stochastischen Kern, der durch Hintereinanderausführen von p und q entsteht. Aus dem Satz von Fubini ergeben sich die folgenden Rechenregeln für stochastische Kerne: Z Z Z Z f d(µp) = µ(dx)p(x, dy)f (y) = (pf ) dµ (11.1.5) p(qf ) = (pq)f (11.1.6) (µp)q = µ(pq) (11.1.7) p(qr) = (pq)r (11.1.8) Als Verteilung der Markovkette zur Zeit n erhalten wir dementsprechend P ◦ Xn−1 Universität Bonn = µp1 p2 · . . . · pn , (11.1.9) Wintersemester 2009/2010 362 KAPITEL 11. MARKOVKETTEN wobei das Produkt wegen (11.1.7) und (11.1.8) nicht von der Klammerung abhängt. Ist der Zustandsraum S abzählbar, dann gelten die folgenden Identifikationen: µ f p (µp)(y) ↔ (µ(x)|x ∈ S) Zeilenvektor ↔ (p(x, y)|x, y ∈ S) P µ(x)p(x, y) x P p(x, y)f (y) y P p(x, y)q(y, z) stochastische Matrix ↔ = (pf )(x) = (pq)(x, z) = (f (x)|x ∈ S) Spaltenvektor Multiplikation mit Zeilenvektor von links Multiplikation mit Spaltenvektor von rechts Matrizenprodukt. y Beispiel (Zeithomogene Markovkette mit endlichem Zustandsraum). Wir betrachten einen endlichen Zustandsraum S mit k Elementen, und eine stochastische Matrix p, die nicht von n abhängt. Die Verteilung zur Zeit n einer zeithomogenen Markovkette mit Startverteilung µ und Übergangsmatrix p ist dann P ◦ Xn−1 = µpn . Um die Verteilung und deren Asymptotik zu berechnen, können wir die Spektraldarstellung der Übergangsmatrix verwenden. Seien λ1 , . . . , λk ∈ C die Eigenwerte von p, d.h. die Nullstellen des charakteristischen Polynoms χ(λ) = det(p − λI). Da p eine stochastische Matrix ist, gilt Folgendes: (1). |λj | ≤ 1 für alle j, (dies folgt wegen kpf k∞ P = max p(x, y)f (y) ≤ kf k∞ für alle f ). x y (2). λ1 = 1 ist Eigenwert mit Rechtseigenvektor f1 = (1, . . . , 1)T . (3). Nichtreelle Eigenwerte treten in Paaren λ, λ auf. Wir nehmen nun der Einfachheit halber an, dass alle Eigenwerte einfach sind, d.h. λi 6= λj für i 6= j. In diesem Fall existieren Rechts- und Linkseigenvektoren fj , νj (1 ≤ j ≤ k) mit X pfj = λj fj , ν j p = λj ν j , und hνi , fj i = νi (x)fj (x) = δij . x∈S Mithilfe der aus den Rechts- und Linkseigenvektoren gebildeten Matrizen ν 1 ν2 V · U = I, U = (f1 , . . . , fk ), V = . , .. νk Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.1. GRUNDLAGEN 363 erhalten wir die Spektraldarstellung p = k X j=1 λj f j ⊗ ν j = für die Übergangsmatrix p, und damit auch für pn : pn = k X j=1 λnj fj ⊗ νj = λ1 0 · · · 0 0 λ . . . ... 2 U . . V, . .. .. .. 0 0 · · · 0 λk λn1 0 · · · 0 0 λn . . . ... U . .2 . V. .. .. .. 0 n 0 · · · 0 λk Für die Verteilung der Markovkette zur Zeit n ergibt sich P◦ Xn−1 n X = j=1 λnj hµ, fj iνj . (11.1.10) Insbesondere folgt: Satz 11.6 (Exponentielle Konvergenz ins Gleichgewicht). Sind die Eigenwerte einer stochastischen Matrix p ∈ Rk×k einfach, und gilt |λj | < 1 für alle j 6= 1, dann existiert eine Gleichgewichtsverteilung ν von p, und für jede Startverteilung µ gilt n n für n → ∞. µp = ν + O max |λj | j6=1 Beweis. Nach (11.1.10) gilt µp n = hµ, f1 iν1 + Aus hµ, f1 i = hµ, (1, . . . , 1)T i = µpn P k X j=2 λnj hµ, fj iνj für alle n ≥ 0. µ(x) = 1 folgt n = ν1 + O max |λj | j6=1 Insbesondere ist ν1 = lim µpn eine Wahrscheinlichkeitsverteilung mit ν1 p = ν1 , also ein Gleichgewicht von p. Ist umgekehrt µ ein beliebiges Gleichgewicht von p, dann gilt µpn = µ für alle n ≥ 0, und damit Universität Bonn µ = lim µpn n→∞ = ν1 . Wintersemester 2009/2010 364 KAPITEL 11. MARKOVKETTEN Bemerkung. (1). Sind die Eigenwerte nicht einfach, dann folgt eine ähnliche Aussage über die Jordansche Normalformdarstellung der Übergangsmatrix p. Als Konvergenzgeschwindigkeit ergibt sich in diesem Fall O(nm−1 max |λi |n ), wobei m die größte Multiplizität des i6=1 betragsmäßig zweitgrößten Eigenwertes ist (Satz von Perron-Frobenius). (2). Entscheidend für die exponentielle Konvergenzrate ist die Lücke zwischen dem Eigenwert 1 und dem Rest des Spektrums. Eine entsprechende Aussage kann man auch auf allgemeinen Zustandsräumen mithilfe des Spektralsatzes für selbstadjungierte Operatoren zeigen, falls die Gleichgewichtsverteilung die Detailed Balance Bedingung erfüllt. Beispiel. (1). Die Übergangsmatrix der Markovkette aus Abbildung 11.2 ist 0 1 0 1 1 . p= 0 2 2 1 0 12 2 1/2 1/2 1/2 x1 1 1/2 Abbildung 11.2: Markovkette mit zugehöriger Übergangsmatrix p. Eigenwerte sind λ1 = 1, λ2 = i/2 und λ3 = −i/2. Es folgt: n n i i n +C · − p = A+B· 2 2 mit Matrizen A, B, C ∈ C3×3 . Wegen p0 (x1 , x1 ) = 1 und p1 (x1 , x1 ) = p2 (x1 , x1 ) = 0 folgt n p (x1 , x1 ) = 1 + 5 n nπ 2 nπ 4 1 · cos − sin 2 5 2 5 2 Einführung in die Wahrscheinlichkeitstheorie für alle n ≥ 0. Prof. Andreas Eberle 11.1. GRUNDLAGEN 365 Der Wert 1/5 ist die erste Komponente des Gleichgewichtsvektors ν1 = (1/5, 2/5, 2/5). Für n → ∞ konvergieren die Übergangswahrscheinlichkeiten mit Rate O(2−n ) gegen ν1 . (2). Die Übergangsmatrix einer deterministischen Rotation auf dem diskreten Kreis Z/kZ, k ∈ N ist 0 0 .. . p= 0 0 1 ··· 0 0 1 0 0 1 ··· ... ... 0 0 0 0 0 0 0 .. . . · · · 1 0 · · · 0 1 ··· 0 0 0 .. . Das charakteristische Polynom ist χ(λ) = (−1)k · (λk − 1), und die Eigenwerte von p sind dementsprechend die k-ten Einheitswurzeln λj = exp(2πi · (j − 1)/k), j = 1, . . . , k. Da alle Eigenwerte Betrag 1 haben, gilt keine exponentielle Konvergenz ins Gleichgewicht. Tatsächlich ist die Markovkette mit Übergangsmatrix p periodisch: Xn+mk = Xn P -fast sicher für alle n, m ≥ 0. 1 2 1 1 1 1 1 1 3 4 1 1 5 Abbildung 11.3: Darstellung eines gerichteten Graphen einer Markovkette auf Z/mZ. Verteilung auf dem Pfadraum; kanonisches Modell In Satz 11.5 haben wir die endlich-dimensionalen Verteilungen P ◦ (X0 , X1 , . . . , Xn )−1 einer Markovkette (Xn )n≥0 berechnet. Viele relevante Ereignisse hängen aber von unendlich vielen Universität Bonn Wintersemester 2009/2010 366 KAPITEL 11. MARKOVKETTEN der Zufallsvariablen Xn ab. Die gemeinsame Verteilung aller dieser Zufallsvariablen ist eine Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum Ŝ S {0,1,2,...} := {x = (x0 , x1 , x2 , . . .) | xi ∈ S} = aller diskreten Pfade (Folgen) mit Werten in S. Wir versehen die Menge Ŝ wie üblich mit der von den Koordinatenabbildungen πk : Ŝ → S, πk (x) = xk , erzeugten Produkt-σ-Algebra F = σ(πk |k ≥ 0) = O k≥0 S. Einen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierten stochastischen Prozess (Xn )n≥0 können wir auch als Abbildung X = (Xn ) : Ω → Ŝ auffassen. Die Abbildung X ist eine Ŝ-wertige Zufallsvariable, also messbar bzgl. der σ-Algebren A/F, denn F wird von den Koordinatenabbildungen πk erzeugt, und πk (X) = Xk ist für alle k ≥ 0 messbar. Wir können daher die Verteilung µX [A] = P [(Xn ) ∈ A], A ∈ F, des stochastischen Prozesses (Xn ) auf dem Pfadraum (Ŝ, F) betrachten. Wir beschränken uns nun wieder auf Markovketten. Seien p1 , p2 , . . . stochastische Kerne, und µ eine Wahrscheinlichkeitsverteilung auf (S, S). Satz 11.7 (Existenz und Eindeutigkeit in Verteilung von Markovketten). (1). Es existiert genau eine Wahrscheinlichkeitsverteilung Pµ auf dem unendlichen Produktraum (Ŝ, F), bzgl. der die Folge (πn )n≥0 der Koordinatenabbildungen eine Markovkette mit Startverteilung µ(dx) und Übergangskern pn (x, dy) ist. (2). Ist (Xn )n≥0 auf (Ω, A, P ) eine beliebige Markovkette mit Startverteilung µ und Übergangswahrscheinlichkeiten pn , dann gilt P [(Xn ) ∈ A] = Pµ [A] für alle A ∈ F, d.h. Pµ ist die Verteilung von (Xn ) auf (Ŝ, F). Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.1. GRUNDLAGEN 367 Bemerkung (Unendliches mehrstufiges Modell). Die Verteilung Pµ der Markovkette entspricht einem mehrstufigen Modell auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} : Pµ (dx) = µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . . . Beweis. Nach Satz 11.5 ist ein stochastischer Prozess (Xn ) genau dann eine Markovkette zu µ und pn , wenn (X0 , . . . , Xn ) für jedes n ≥ 0 die Verteilung µ0:n (dx0:n ) := µ(dx0 )p1 (x0 , dx1 ) · . . . · pn (xn−1 , dxn ) hat. Zu zeigen ist, dass zu der Familie µ0:n , n ≥ 0, von Wahrscheinlichkeitsverteilungen auf den endlichdimensionalen Produkträumen S {0,1,...,n} eine eindeutige Wahrscheinlichkeitsverteilung Pµ auf den unendlichen Produktraum Ŝ existiert, bzgl. der die ersten n+1 Koordinaten x0 , . . . , xn für jedes n die Verteilung µ0:n haben. Die Folge πn (x) = xn der Koordinatenabbildungen ist dann unter Pµ eine Markovkette mit den vorgegebenen Übergangswahrscheinlichkeiten. Existenz: Die Wahrscheinlichkeitsverteilungen µ0:n auf den endlichdimensionalen Produkträumen S {0,1,...,n} sind konsistent, d.h. für m ≤ n stimmt die Verteilung der ersten m+1 Koordinaten unter µ0:n mit µ0:m überein. Aus dem Fortsetzungssatz von Carathéodory folgt nun allgemein, dass zu einer Familie von konsistenten endlichdimensionalen Verteilungen eine Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum mit den entsprechenden Randverteilungen existiert (Fortsetzungssatz von Kolmogorov). Wir verzichten hier auf den Beweis dieser maßtheoretischen Aussage, der sich in vielen Lehrbüchern zur Wahrscheinlichkeitstheorie findet, s. z.B. [Bauer], [Klenke], oder den Anhang in [Durrett: Probability - Theory and Examples]. Eindeutigkeit: Ein stochastischer Prozess (Xn ) auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist genau dann eine Markovkette mit Parametern µ und pn , wenn Z Z Z µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn ) = P [X0 ∈ B0 , . . . , Xn ∈ Bn ] = P [X ∈ A] B0 B1 Bn (11.1.11) für jede Zylindermenge der Form A = B0 × B1 × . . . × Bn × S × S × . . . = {π0 ∈ B0 , . . . , πn ∈ Bn }, mit n ∈ N und B0 , . . . , Bn ∈ S gilt. Da die Zylindermengen ein durchschnittsstabiles Erzeugendensystem der Produkt-σ-Algebra F bilden, ist die Verteilung von X auf (Ŝ, F) durch (11.1.11) eindeutig festgelegt. Universität Bonn Wintersemester 2009/2010 368 KAPITEL 11. MARKOVKETTEN Ist Xn = πn der Koordinatenprozess auf dem Produktraum (Ω, A) = (Ŝ, F), dann stimmt die Verteilung von X mit dem zugrundeliegenden Wahrscheinlichkeitsmaß P überein, d.h. P ist durch (11.1.11) eindeutig festgelegt. Bemerkung (Konstruktive Existenzbeweise). Im Fall S = R erhalten wir die Wahrscheinlichkeitsverteilung Pµ auch direkt als Verteilung der im letzten Abschnitt explizit konstruierten Markovkette (Xn ) mit Startverteilung µ und Übergangswahrscheinlichkeiten pn . Auch auf allgemeineren Zustandsräumen kann man die Existenz von Pµ auf ähnliche Weise aus der Existenz einer Folge von auf (0, 1) gleichverteilten, unabhängigen Zufallsvariablen herleiten (z.B. durch eine messbare Transformation des Zustandsraums nach R). Nach Satz 11.7 können wir eine Markovkette mit beliebigen Übergangswahrscheinlichkeiten durch die Koordinatenabbildungen auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} realisieren. Definition. Der durch die Koordinatenabbildungen πn (x) = xn gegebene stochastische Prozess auf dem Wahrscheinlichkeitsraum (Ŝ, F, Pµ ) heißt kanonisches Modell der Markovkette mit Startverteilung µ und Übergangswahrscheinlichkeiten pn . Allgemein kann man jeden stochastischen Prozess im kanonischen Modell realisieren, indem man zur Verteilung des Prozesses auf dem Pfadraum übergeht. 11.2 Markoveigenschaft und Differenzengleichungen In diesem Abschnitt werden wir die wichtige Verbindung von Markovketten und Differenzengleichungen betrachten. Dazu beweisen wir zunächst eine weitergehende Form der definierenden Eigenschaft einer Markovkette. Sei (Xn )n≥0 auf (Ω, A, P ) eine Markovkette mit Startverteilung µ und Übergangskernen pn . Ist (S, S) der Zustandsraum, dann hat (Xn ) nach Satz 11.7 die Verteilung Pµ (dx) = µ(dx0 )p1 (x0 , dx1 )p2 (x1 , dx2 ) · . . . auf dem unendlichen Produktraum Ŝ = S {0,1,2,...} . Wir bezeichnen im Folgenden die Verteilung (n) Pδx der Markovkette bei Startwert x kurz mit Px . Entsprechend sei Px die Verteilung der Mar- kovkette mit Start in x und Übergangskernen pn+1 , pn+2 , . . .. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 369 Die Markoveigenschaft In Erweiterung der definierenden Eigenschaft einer Markovkette können wir sogar die bedingte Verteilung der um n Schritte verschobenen Kette gegeben den Verlauf bis zur Zeit n identifizieren: Satz 11.8 (Markoveigenschaft). Für alle n ≥ 0 und alle F-messbaren Funktionen F : Ŝ → [0, ∞) gilt: E[F (Xn , Xn+1 , . . .) | X0:n ] = (n) EXn [F ] P -fast sicher. (n) Bemerkung. (1). Für zeitlich homogene Markovketten gilt Px (11.2.1) = Px für alle n. (2). Für diskrete Zustandsräume ergibt sich, dass (Xn , Xn+1 , . . .) unter der bedingten Verteilung gegebene X0:n = x0:n für jedes n ≥ 0 und x0:n ∈ S n+1 mit P [X0:n = x0:n ] 6= 0 eine Markovkette mit Start in xn und Übergangskernen pn+1 , pn+2 , . . . ist. Beweis. Der Beweis erfolgt in mehreren Schritten: (1). Wir nehmen zunächst an, dass die Funktion F nur von endlich vielen Variablen abhängt, d.h. F (x0 , x1 , . . .) = f (x0:k ) für ein k ≥ 0 und eine messbare Funktion f : S k+1 → R+ . (11.2.2) (n) In diesem Fall können wir direkt verifizieren, dass EXn [F ] eine Version der bedingten Erwartung in (11.2.1) ist: (n) (a) Es gilt EXn [F ] = g(Xn ) mit g(z) = Ez(n) [F ] = Z p1 (z, dx1 ) Z p2 (x1 , dx2 ) · · · Z pk (xk−1 , dxk )f (x0:k ). Da f : S k+1 → R+ produktmessbar ist, ist g : S → R+ messbar. (b) Für n ≥ 0 und eine messbare Funktion h : S n+1 → R+ gilt E[F (Xn , Xn+1 , . . .)h(X0:n )] = E[f (Xn:n+k )h(X(0:n) )] Z Z Z = µ(dx0 ) p1 (x0 , dx1 ) · · · pn (xn−1 , dxn )h(x0:n ) × Z Z × pn+1 (xn , dxn+1 ) · · · pn+k (xn+k−1 , dxn+k )f (xn:n+k ) | {z } (n) i h (n) = E EXn [F ] · h(X0:n ) . Universität Bonn EXn [F ] Wintersemester 2009/2010 370 KAPITEL 11. MARKOVKETTEN (2). Nach (1) gilt (11.2.1) für Indikatorfunktionen F = IA von Zylindermengen der Form A = {x ∈ Ŝ : x0 ∈ B0 , . . . , xn ∈ Bn } mit n ∈ N und B0 , . . . , Bn ∈ S. Wir zeigen nun, dass die Aussage dann auch für Indikatorfunktionen von beliebigen Mengen A aus der Produkt-σ-Algebra F gilt. Dazu bemerken wir, dass das System D aller Mengen A ∈ F, für die (11.2.1) mit F = IA gilt, ein Dynkinsystem ist. Sind beispielsweise A1 , A2 , . . . ∈ D S disjunkt, dann ist auch k Ak in D enthalten, denn X E[IS Ak (Xn , Xn+1 , . . .) | X0:n ] = E[IAk (Xn , Xn+1 , . . .) | X0:n ] k = X (n) EXn [IAk ] = (n) EXn [IS Ak ] P -fast sicher. k Da die Zylindermengen ein durchschnittsstabiles Erzeugendensystem der Produkt-σ-Algebra bilden, folgt D = F, d.h. (11.2.1) gilt für alle F = IA mit A ∈ F. (3). Die Aussage (11.2.1) für beliebige nicht-negative F-messbare Funktionen F folgt nun wie üblich durch maßtheoretische Induktion. Bemerkung (Markoveigenschaft im kanonischen Modell). Im kanonischen Modell können wir die Markoveigenschaft noch etwas kompakter formulieren. Sei θ : Ŝ → Ŝ die durch θ(x0 , x1 , . . .) = (x1 , x2 . . .) definierte Shiftabbildung auf dem Pfadraum Ŝ, und seien Xn : Ŝ → S, Xn (x0 , x1 , . . .) = xn , die Koordinatenabbildungen. Dann gilt: Eµ [F ◦ θn | X0:n ] = (n) EXn [F ] P -fast sicher (11.2.3) für alle Wahrscheinlichkeitsverteilungen µ auf (S, S) und alle messbaren Funktionen F : Ŝ → R+ . Das folgende Korollar liefert eine weitere äquivalente Formulierung der Markoveigenschaft. Korollar 11.9 (Markoveigenschaft, 2. Version). Ist (Xn ) unter P eine Markovkette mit Parametern µ und pn , dann ist (Xn , Xn+1 , . . .) bedingt unabhängig von (X0 , . . . , Xn ) gegeben Xn (n) mit bedingter Verteilung PXn , d.h. E[F (Xn , Xn+1 , . . .)g(X0 , . . . , Xn ) | Xn ] (n) = EXn [F ] · E[g(X0 , . . . , Xn ) | Xn ] = E[F (Xn , Xn+1 , . . .) | Xn ] · E[g(X0 , . . . , Xn ) | Xn ] Einführung in die Wahrscheinlichkeitstheorie P -fast sicher Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 371 für alle messbaren F : Ŝ → [0, ∞) und g : S n+1 → [0, ∞). Beweis. Wegen der Projektivität der bedingten Erwartung gilt nach Satz 11.8: E[F (Xn:∞ )g(X0:n ) | Xn ] = E[E[F (Xn:∞ )g(X0:n ) | X0:n ] | Xn ] i h (n) (n) = EXn [F ] · E[g(X0:n ) | Xn ]. = E EXn [F ]g(X0:n ) Xn Das Korollar besagt anschaulich, dass, gegeben den gegenwärtigen Zustand Xn , die zukünftige Entwicklung einer Markovkette bedingt unabhängig von der vorherigen Entwicklung ist: „Die Zukunft ist bedingt unabhängig von der Vergangenheit gegeben die Gegenwart.“ Beispiel (Das klassische Ruinproblem). Wir wollen nun den Zusammenhang von Markovketten und Differenzengleichungen zunächst in einem einfachen Beispiel betrachten. In jeder Runde eines Glücksspiels trete einer der folgenden Fälle ein: • Mit Wahrscheinlichkeit p ∈ (0, 1) gewinnt der Spieler 1 Euro dazu. • Mit Wahrscheinlichkeit q = 1 − p verliert der Spieler 1 Euro. Die Entwicklung des Kapitals Xn des Spielers kann dann durch einen Random Walk auf Z mit Übergangswahrscheinlichkeiten p(x, x + 1) = p, p(x, x − 1) = q beschrieben werden. Sei x ∈ Z das Startkapital, und seien a, b ∈ Z mit a ≤ x ≤ b. Wir können den Random Walk ohne Be- schränkung der Allgemeinheit im kanonischen Modell betrachten, d.h. Px ist die Verteilung bei Startwert x auf dem Produktraum Ω = Z{0,1,2,...} und Xn (ω) = ωn ist die n-te Koordinatenabbildung. Das Glücksspiel soll folgende mögliche Ausgänge haben: • Im Fall Xn ≤ a ist der Spieler bankrott. • Im Fall Xn ≥ b ist der Gegenspieler (bzw. die Spielbank) bankrott. Die Zeit, zu der eines dieser beiden Ereignisse zum ersten Mal eintritt, wird durch die Zufallsvariable T (ω) := min{n ≥ 0 | Xn (ω) ≤ a oder Xn (ω) ≥ b} beschrieben, wobei wir min ∅ = ∞ setzen. Wegen lim sup |Xn | = +∞ gilt T < ∞ PX -fast sicher für alle x. Also ist der Austrittspunkt XT (ω) Universität Bonn := XT (ω) (ω) Wintersemester 2009/2010 372 KAPITEL 11. MARKOVKETTEN des Random Walks (Xn ) aus dem Intervall (a, b) Px -fast sicher definiert, und mit Wahrscheinlichkeit 1 gilt XT = a (Spieler bankrott) oder XT = b (Spielbank bankrott). Wegen XT ∞ X = n=0 Xn · I{T =n} ist auch XT eine Zufallsvariable. Uns interessiert die Ruinwahrscheinlichkeit h(x) := Px [XT = a] des Spielers bei Startkapital x. Um diese zu berechnen, bedingen wir auf den ersten Schritt des Random Walks („first step analysis“). Sei dazu en (ω) X := Xn+1 (ω) = Xn (θ(ω)) der um einen Schritt verschobene Prozess, und sei Te = XT (ω) = Für a < x < b gilt T ≥ 1, also en ≤ a oder min{n ≥ 0 | X en ≥ b}. X e e (ω) X T für alle ω ∈ Ω. = XT (θ(ω)) Daher folgt mit der Markoveigenschaft: h(x) Px [XT = a] = Px [XT ◦ θ = a | X1 = x + 1] · Px [X1 = x + 1] + (11.2.1) = Px [XT ◦ θ = a] = +Px [XT ◦ θ = a | X1 = x − 1] · Px [X1 = x − 1] = Px+1 [XT = a] · p + Px−1 [XT = a] · q = p · h(x + 1) + q · h(x − 1). Die Funktion h hat also die gewichtete Mittelwerteigenschaft h(x) = p · h(x + 1) + q · h(x − 1), für alle a < x < b. Diese Eigenschaft ist äquivalent zu den Differenzengleichungen 0 = p · (h(x + 1) − h(x)) − q · (h(x) − h(x − 1)) bzw. (11.2.4) 0 = q((h(x + 1) − h(x)) − (h(x) − h(x − 1))) + (p − q) (h(x + 1) − h(x)) .(11.2.5) | {z } {z } | diskrete 2. Ableitung Einführung in die Wahrscheinlichkeitstheorie diskrete 1. Ableitung Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 373 Die gesuchte Ruinwahrscheinlichkeit h(x) löst (11.2.3) bzw. (11.2.4) bzw. (11.2.5) mit den Randbedingungen h(a) = Pa [XT = a] = 1, h(b) = Pb [XT = a] = 0. Die Lösung der Differenzengleichung können wir leicht berechnen. Dazu verfahren wir ähnlich wir bei linearen gewöhnlichen Differentialgleichungen. Nach (11.2.4) gilt für die erste Differenz v(x) := h(x + 1) − h(x): v(x) q · v(x − 1) p = für alle a < x < b, d.h. v(x) = c · (q/p)x für ein c ∈ R. Wir unterscheiden folgende Fälle: (1). Faire Münzwürfe (p = q = 12 ): In diesem Fall ist h(x) = mit c, d ∈ R cx + d die allgemeine Lösung von (11.2.4) bzw. (11.2.5). Aus den Randbedingungen folgt: h(x) = (2). p 6= 12 : In diesem Fall erhalten wir h(x) = b−x b−a (a ≤ x ≤ b). x q c· +d p mit c, d ∈ R als allgemeine Lösung. Aus den Randbedingungen folgt: h(x) = b q p b q p − − x q p a = q p 1− 1− b−x p q b−a . p q Wir haben damit die Ruinwahrscheinlichkeit in allen Fällen berechnet. Ist die Erfolgswahrscheinlichkeit p kleiner als 1/2, dann gilt p q < 1 und somit h(x) ≥ 1 − (p/q)b−x . Der letzte Ausdruck hängt nicht von dem Betrag a ab, bei dem der Spieler ruiniert ist. Beispielsweise gilt bei Roulette mit Höchsteinsatz 1 stets: h(x) ≥ 1 − 18 19 b−x . Bei genügend kleinem Höchsteinsatz geht also mit an Sicherheit grenzender Wahrscheinlichkeit der Spieler zuerst bankrott - selbst wenn das Kapital, das er mobilisieren kann, über dem der Bank liegt! Universität Bonn Wintersemester 2009/2010 374 KAPITEL 11. MARKOVKETTEN Differenzengleichungen für Markovketten Die beim Ruinproblem verwendete Methode, die Berechnung von Wahrscheinlichkeiten und Erwartungswerten von Markovketten durch Konditionieren auf den ersten Schritt auf eine Differenzengleichung zurückzuführen, ist viel allgemeiner anwendbar. Wir betrachten im Folgenden eine beliebige zeithomogene Markovkette (Xn ) mit Zustandsraum (S, S) und Übergangskern p(x, dy) im kanonischen Modell. Sei D ∈ S eine messbare Teilmenge des Zustandsraums, und sei T (ω) min{n ≥ 0 : Xn (ω) ∈ DC } := die erste Trefferzeit von DC = S \ D, d.h. die erste Austrittszeit der Markovkette aus dem Gebiet D. Hierbei setzen wir wieder min ∅ = ∞. Wir wollen Erwartungswerte von Typ "T −1 # X c(Xn ) + Ex [f (XT ) ; T < ∞] (11.2.6) u(x) = Ex n=0 berechnen, wobei c : D → R und f : DC → R gegebene nichtnegative, messbare Funktio- nen sind. Interpretieren wir beispielsweise c(x) als Kosten, wenn die Markovkette den Punkt x durchläuft, und f (x) als Zusatzkosten, wenn die Markovkette im Punkt x aus der Menge D austritt, dann gibt u(x) die mittleren Gesamtkosten an, die beim Start in x bis zum Austritt aus der Menge D anfallen. Man beachte, dass sich eine Reihe wichtiger Wahrscheinlichkeiten und Erwartungswerte von Markovketten in der Form (11.2.6) darstellen lassen. Beispiel. (1). c ≡ 0, f ≡ 1: Austrittswahrscheinlichkeit aus D bzw. Trefferwahrscheinlichkeit von DC : u(x) Px [T < ∞]. = (2). c ≡ 0, f = IB : Verteilung des Austrittspunktes XT : u(x) = Px [XT ∈ B ; T < ∞]. (3). c ≡ 1, f ≡ 0: Mittlere Austrittszeit aus D: u(x) = Ex [T ]. (4). c = IB , f ≡ 0: Mittlere Anzahl der Besuche in B vor Austritt aus D: # "T −1 ∞ X X IB (Xn ) = u(x) = Ex Px [Xn ∈ B , n < T ]. n=0 Einführung in die Wahrscheinlichkeitstheorie n=0 Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 375 Satz 11.10 (Poissongleichung). u ist die minimale nichtnegative Lösung des Randwertproblems u(x) − (pu)(x) = c(x) für x ∈ D, (11.2.7) für x ∈ DC . u(x) = f (x) (1). Wir zeigen zunächst durch Bedingen auf den ersten Schritt, dass u das Randwerten = Xn+1 problem löst. Dazu betrachten wir – wie oben – die verschobene Markovkette X Beweis. en ∈ DC }. Für x ∈ D gilt Px -fast und die entsprechende Austrittszeit Te = min{n ≥ 0 : X sicher T ≥ 1, also XT = ee X T T −1 X und c(Xn ) = c(X0 ) + Te−1 X n=0 n=0 en ). c(X Damit erhalten wir unter Verwendung der Markoveigenschaft: # "T −1 X c(Xn ) + f (XT ) · I{T <∞} X1 Ex n=0 Te−1 X e n ) + f (X e e) · I e c(X = Ex c(x) + T {T <∞} X1 n=0 # "T −1 X c(Xn ) + f (XT ) · I{T <∞} = c(x) + EX1 n=0 = c(x) + u(X1 ) P -fast sicher, wobei wir f (XT ) · I{T <∞} := 0 auf {T = ∞} setzen. Durch Bilden des Erwartungswertes bzgl. Px ergibt sich: u(x) = c(x) + Ex [u(X1 )] = für alle x ∈ D. c(x) + (pu)(x) Für x ∈ DC gilt T = 0 Px -fast sicher, und damit u(x) = Ex [f (X0 )] = f (x) für alle x ∈ DC . Also löst u das Randwertproblem (11.2.7). (2). Sei nun v ≥ 0 eine beliebige Lösung des Randwertproblems. Wir wollen zeigen, dass v ≥ u gilt. Dazu betrachten wir für m ∈ N die Funktion (T ∧m)−1 X c(Xn ) + f (XT ) · I{T ≤m} , um (x) := Ex n=0 Universität Bonn x ∈ S. Wintersemester 2009/2010 376 KAPITEL 11. MARKOVKETTEN Nach dem Satz über monotone Konvergenz gilt u(x) = sup um (x). Durch Konditionieren m≥1 auf den ersten Schritt erhalten wir ähnlich wie oben: um+1 (x) = c(x) + (p um )(x) für x ∈ DC . um+1 (x) = f (x) für x ∈ D, und (11.2.8) Wir zeigen nun durch Induktion nach m: v ≥ um für alle m ≥ 0. (11.2.9) Für m = 0 ist (11.2.9) erfüllt, denn nach Voraussetzung gilt v(x) ≥ 0 = u0 (x) für alle x ∈ D, und v(x) = f (x) = u0 (x) für alle x ∈ DC . Gilt (11.2.9) für ein m ≥ 0, dann folgt zudem v = pv + c ≥ v = f um+1 = pum + c (11.2.8) = um+1 auf D, und auf DC , d.h. (11.2.9) gilt auch für m + 1. Also ist (11.2.9) für alle m ≥ 0 erfüllt. Damit folgt aber auch ≥ v sup um = u, d.h. u ist tatsächlich die minimale nichtnegative Lösung von (11.2.7). Wir wollen uns nun das erhaltene Randwertproblem genauer ansehen. In kompakter Notation können wir (11.2.7) schreiben als −Lu = c auf D, auf DC u = f mit (L u)(x) := (pu)(x) − u(x) (11.2.10) = Z p(x, dy)(u(y) − u(x)). Der lineare Operator L = p − I heißt Generator der Markovkette. Auf diskreten Zustandsräu- men ist L ein Differenzenoperator: (L u)(x) = X y∈S Einführung in die Wahrscheinlichkeitstheorie p(x, y)(u(y) − u(x)). Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 377 Beispiel (Random Walk auf Zd , Poissongleichung und Dirichletproblem). Für den klassischen d-dimensionalen Random Walk gilt p(x, y) = Damit ergibt sich 1 falls |y − x| = 1, 2d 0 sonst. d (L u)(x) = 1 X (u(x + ei ) − u(x) + u(x − ei ) − u(x)) 2d i=1 d 1 X ((u(x + ei ) − u(x)) − (u(x) − u(x − ei ))) . = 2d i=1 Also ist L 1 ∆ d 2d Z = der diskrete Laplace-Operator multipliziert mit der Übergangswahrscheinlichkeit. (11.2.10) ist also ein Randwertproblem für die diskrete Poissongleichung (∆Zd u)(x) = −2dc(x). Beispielsweise ist die mittlere Austrittszeit u(x) des Random Walks mit Start in x aus einer Menge D durch die minimale nichtnegative Lösung des Randwertproblems ∆Zd u = −2d u = 0 auf D, auf DC , gegeben. Wollen wir die Verteilung des Austrittspunktes XT berechnen (wie z.B. beim Ruinproblem), dann müssen wir c ≡ 0 setzen. In diesem Fall ist (11.2.10) ein diskretes Dirichletproblem: Gesucht ist eine Funktion u : Zd → R mit ∆ Zd u = 0 u = f Universität Bonn auf D, auf DC . Wintersemester 2009/2010 378 KAPITEL 11. MARKOVKETTEN DC D Abbildung 11.4: Diskretes Dirichletproblem auf einer Menge D ⊂ Z2 . Dirichletproblem und Austrittsverteilung Allgemein nennen wir Funktionen h : S → R mit L h = 0 harmonisch. Definition. Eine nach unten beschränkte, messbare Funktion h : S → R heißt harmonisch auf der Menge D bzgl. des stochastischen Kerns p, falls (L h)(x) = (ph)(x) − h(x) = für alle x ∈ D 0 gilt, d.h. falls h die verallgemeinerte Mittelwerteigenschaft Z p(x, dy)h(y) = h(x) für alle x ∈ D (11.2.11) besitzt. Als Spezialfall von Satz 11.10 erhalten wir: Korollar 11.11 (Stochastische Lösung des Dirichletproblems). Die Funktion u(x) = Ex [f (XT ) ; T < ∞] ist die minimale nichtnegative Lösung des Dirichletproblems u harmonisch auf D, u = f auf DC . (11.2.12) Bemerkung (Lokalität). Ist S abzählbar, dann sind für die Lösung des Dirichletproblems nur die Werte von f auf dem äußeren Rand ∂ext D = {y ∈ DC | p(x, y) > 0 Einführung in die Wahrscheinlichkeitstheorie für ein x ∈ D} Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN relevant. In der Tat gilt für u : S → R und x ∈ D: (pu)(x) = X p(x, y)u(y) = y∈S X p(x, y)u(y) + y∈D X 379 p(x, y)u(y), y∈∂D d.h. (L u)(x) hängt nicht von den Werten von u auf DC \ ∂D ab. Bemerkung (Eindeutigkeit des Dirichletproblems). (1). Im Allgemeinen können mehrere Lösungen des Dirichletproblems (11.2.12) existieren. Ist beispielsweise p der Übergangskern eines klassischen Random Walks auf {0, 1, 2, . . .} und D = {1, 2, . . .}, dann sind die Funk- tionen ha (x) = ax, a ∈ R, alle harmonisch mit Randwerten ha (0) = 0. Ebenso ist die Lösung nicht eindeutig, falls ein z ∈ S mit Pz [T = ∞] 6= 0 existiert, denn in diesem Fall ist h(x) = Px [T = ∞] eine nichttriviale harmonische Funktion mit Nullrandwerten. (2). Ist die Funktion f beschränkt, und ist die Austrittszeit T für alle x ∈ S Px -fast sicher endlich, dann ist u die eindeutige beschränkte Lösung von (11.2.12). Dies kann man z.B. mit dem Stoppsatz für Martingale beweisen. Satz 11.10 und Korollar 11.11 sind erste Aspekte weitreichender Beziehungen zwischen Wahrscheinlichkeitstheorie und Analysis (Potentialtheorie) mit fundamentalen Konsequenzen auch für andere Gebiete der Mathematik wie z.B. Diskrete Mathematik, Differentialgeometrie, Numerik und mathematische Physik. Wir erwähnen hier einige wichtige Gesichtspunkte und Konsequenzen des gefundenen Zusammenhangs. Dazu setzen wir T < ∞ Px -fast sicher für alle x ∈ S voraus. Unter dieser Annahme ist u(x) = Ex [f (XT )] (11.2.13) für eine nichtnegative bzw. beschränkte Funktion f auf DC die minimale nichtnegative, bzw. die eindeutige beschränkte Lösung des Dirichletproblems. Monte-Carlo- Methode zur Berechnung harmonischer Funktionen: Nach dem Gesetz der großen Zahlen gilt k u(x) ≈ 1X (i) f (XT (i) ) k i=1 für große k, wobei X (1) , X (2) , . . . unabhängige Markovketten mit Start in x und Übergangskern p sind, und T (i) die Austrittszeit von X (i) aus der Menge D bezeichnet. Die Simulation von Markovketten kann daher in sehr allgemeinem Rahmen zur näherungsweisen Berechnung harmonischer Funktionen verwendet werden. Universität Bonn Wintersemester 2009/2010 380 KAPITEL 11. MARKOVKETTEN Stochastische Darstellung der Lösung des Dirichletproblems als Pfadintegral: Nach (11.2.13) können wir die harmonische Funktion u schreiben als Integral Z f (XT (ω)) P (dω) u(x) = S {0,1,2,...} über den Raum aller diskreten Pfade auf S. Ähnliche Pfadintegraldarstellungen spielen in der Quantenphysik eine wichtige Rolle, siehe z.B. die Lecture Notes von R. Feynman. Integralformel für harmonische Funktionen: Sei µx := Px ◦ XT−1 die Austrittsverteilung der Markovkette mit Start in x. Dann gilt: u(x) = Z f (y) µx (dy). DC Die Austrittsverteilung µx ist also das harmonische Maß der Potentialtheorie, das eine Berechnung harmonischer Funktionen aus den Randwerten ermöglicht. Beispiele harmonischer Funktionen Diskrete Zustandsräume Ist S abzählbar, dann ist hy (x) := Px [T < ∞ und XT = y] für jedes y ∈ DC eine nichtnegative, beschränkte, harmonische Funktion auf D mit Randwerten hy (x) = I{y} (x) für alle x ∈ DC . Eine Lösung u des Dirichletproblems zu beliebigen Randwerten f : DC → R+ erhält man als Linearkombination der Funktionen hy : Gilt Px [T = ∞] = 0 für alle x ∈ S, dann gibt es genau eine beschränkte Lösung des Dirichlet-Problems. Damit folgt, dass die Funktionen hy , y ∈ DC , eine Basis des Vektorraums aller beschränkten, harmonischen Funktionen bilden. Wir erhalten also einen Zusammenhang zwischen beschränkten harmonischen Funktionen und den möglichen Austrittspunkten y ∈ DC der Markovkette. Beispiel. (1). Ruinproblem: Für den Random Walk auf {a, a + 1, . . . , b} ⊂ Z mit Übergangskern p(x, x + 1) = p, p(x, x − 1) = q = 1 − p, gilt ha (x) = Px [XT = a] Einführung in die Wahrscheinlichkeitstheorie = h(b) − h(x) h(b) − h(a) Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN und hb (x) = Px [XT = b] mit h(x) := h(x) − h(a) h(b) − h(a) = x für p = q (q/p)x 381 . für p 6= q Die Funktionen ha und hb bilden eine Basis des Vektorraums {c · h + d | c, d ∈ R} aller harmonischer Funktionen. (2). Eine transiente Markovkette auf Z: Sei p ∈ ( 21 , 1) und q = 1 − p. Wir betrachten die Markovkette (Xn , Px ) auf Z mit den folgenden Übergangswahrscheinlichkeiten: q q q q q q q q q p p p 1/2 1/2 p p p p -3 -2 -1 0 1 3 2 4 Abbildung 11.5: Übergangswahrscheinlichkeiten der transienten Markovkette (Xn , Px ) Für x > 0 gilt p(x, x + 1) = p > q = p(x, x − 1), = q < p = p(x, x − 1). für x < 0 dagegen umgekehrt p(x, x + 1) Daher haben die Ereignisse {lim Xn = ∞} und {lim Xn = −∞} beide positive Wahr- scheinlichkeit. Die Funktion h+ (x) := x 1 − 1 q 2 p −x 1 q 2 ist harmonisch mit Randbedingungen für x > 0 für x ≤ 0 p lim h+ (x) = 1 lim h+ (x) = 0. x→∞ und x→−∞ Universität Bonn Wintersemester 2009/2010 382 KAPITEL 11. MARKOVKETTEN Entsprechend ist h− (x) = h+ (−x) harmonisch mit lim h− (x) x→−∞ = 1 und lim h− (x) x→∞ = 0, und jede harmonische Funktion ist eine Linearkombination von h+ und h− . Durch Bedingen auf den ersten Schritt der Markovkette zeigt man h+ (x) = Px [lim Xn = ∞] und h− (x) = Px [lim Xn = −∞]. Die harmonischen Funktionen h+ und h− beschreiben in diesem Fall die möglichen Asymptotiken der Markovkette. Rotationssymmetrischer Fall Wir betrachten eine Markovkette auf S = Rd , deren Übergangsverteilungen p(x, dy) für jedes x rotationssymmetrisch mit Zentrum x sind. n P Yi ein Random Walk, dessen Inkremente Yi unabhängig mit Beispielsweise sei Xn = x + i=1 identischer rotationssymmetrischer Verteilung sind. Dann ist jede Funktion u ∈ C 2 (Rd ) mit ∆u = d X ∂ 2u i=1 ∂x2i = 0 (also jede harmonische Funktion des Laplaceoperators) auch eine harmonische Funktion des Übergangskerns p, falls u für alle x ∈ Rd bzgl. p(x, dy) integrierbar ist. Aus der Greenschen Formel folgt nämlich die Mittelwerteigenschaft u(x) = Mittelwert von u auf ∂Br (x) für alle Sphären ∂Br (x) = {y ∈ Rd : |y − x| = r}, r > 0, siehe z.B. [Forster, Analysis III]. Da p(x, dy) rotationssymmetrisch ist, erhalten wir durch Integration über den Radius: Z u(x) = p(x, dy)u(y), d.h. u ist in der Tat harmonisch bzgl. p. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 383 Mittlere Aufenthaltszeiten und Greenfunktion Die mittlere Aufenthaltszeit u(x) = Ex "T −1 X IB (Xn ) n=0 # ∞ X = n=0 Px [Xn ∈ B , n < T ], einer Markovkette mit Übergangskern p in einer Menge B ∈ S vor Austritt aus D löst das Randwertproblem u − pu = IA u = 0 auf D auf DC . Wir betrachten nun den diskreten Fall: Sei S abzählbar, D ⊂ S, und sei ByD := T −1 X n=0 y ∈ S, I{y} (Xn ), die Anzahl der Besuche der Markovkette in y vor Austritt aus D. Für die mittlere Anzahl der Besuche in y bei Start in x gilt Ex [ByD ] = Ex " ∞ X n=0 I{Xn ∈B , n<T } # = ∞ X pD n (x, y), n=0 wobei pD n (x, y) = Px [Xn = y , n < T ] die n-Schritt-Übergangswahrscheinlichkeit der Markovkette mit Absorption bei Austritt aus D bezeichnet. Definition. Die durch D G (x, y) := ∞ X pD n (x, y) n=0 definierte Funktion GD : S × S → [0, ∞] heißt Greensche Funktion der Markovkette im Gebiet D. Korollar 11.12. (1). GD (•, y) ist die minimale Lösung des Randwertproblems (I − p)GD (•, y) = I{y} GD (•, y) = 0 Universität Bonn auf D, auf DC . Wintersemester 2009/2010 384 KAPITEL 11. MARKOVKETTEN (2). Für alle Funktionen f : S → [0, ∞] gilt "T −1 # X f (Xn ) Ex = (GD f )(y). n=0 Beweis. Die erste Aussage folgt unmittelbar aus Satz 11.10. Für eine Funktion f ≥ 0 gilt: # # "T −1 "T −1 XX X X f (y) · I{y} (Xn ) = GD (x, y)f (y) = (GD f )(y). f (Xn ) = Ex Ex n=0 n=0 y∈S y∈S Beispiel (Random Walk auf Zd ). Die Greensche Funktion des klassischen Random Walks auf Zd ist die minimale nichtnegative Lösung des Randwertproblems ∆Zd GD (•, y) = −2dI{y} GD (•, y) = 0 auf D, auf DC . Sie ist damit ein diskretes Analogon zur Greenschen Funktion der Analysis, die als Fundamentallösung der Poissongleichung definiert ist. Beispielsweise erhält man für den klassischen eindimensionalen Random Walk als Greensche Funktion eines Intervalls D = {a, a+, . . . , b} ⊂ Z : (b − y)(x − a) 2 für a ≤ x < y D b−a G (x, y) = . 2 (y − a)(b − x) für y ≤ x ≤ b b−a GD (•, y) a y b Abbildung 11.6: Darstellung des Graphen der Funktion GD (•, y). 11.3 Rekurrenz und Transienz Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf einer abzählbaren Menge S. Wir betrachten eine zeithomogene Markovkette (Xn , Px ) mit Übergangsmatrix p im kanonischen Modell, d.h. Ω = S {0,1,2,...} , Xn (ω) = ωn , Einführung in die Wahrscheinlichkeitstheorie A = σ(Xn | n ≥ 0), Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 385 und Px ist die Verteilung der Markovkette bei Start in x. Für y ∈ S sei By (ω) = ∞ X n=0 I{y} (Xn (ω)) die Anzahl der Besuche (Aufenthaltszeit) der Markovkette im Punkt y. Wir wollen untersuchen, ob die Markovkette immer wieder zu ihrem Startpunkt zurückkehrt. Definition. Ein Punkt x ∈ S heißt transient, falls Px [Bx = ∞] = 0 gilt, und rekurrent, falls Px [Bx = ∞] = 1. Sei nun G(x, y) = Ex [By ] = ∞ X pn (x, y) n=0 die mittlere Anzahl der Besuche der Markovkette im Punkt y bei Start in x. Offensichtlich ist x transient, wenn G(x, x) = Ex [Bx ] < ∞ gilt. Wir werden in Korollar 11.15 zeigen, dass umgekehrt x rekurrent ist, wenn G(x, x) = ∞ gilt. Insbesondere ergibt sich ein 0-1-Gesetz: Jeder Punkt ist entweder transient oder rekurrent. Allgemeiner werden wir sehen, dass bei irreduziblen Markovketten sogar entweder alle Punkte transient oder alle Punkte rekurrent sind – wir nennen die Markovkette in diesem Fall transient bzw. rekurrent. Intuitiv können wir diese Dichotomie folgendermaßen erklären: Jedes Mal, wenn die Markovkette zum Startpunkt x zurückkehrt, startet sie aufgrund der Markoveigenschaft wieder neu in diesem Punkt – unabhängig vom vorherigen Verlauf. Kehrt die Kette also mit Wahrscheinlichkeit 1 wieder zum Startpunkt zurück, dann kehrt sie auch mit Wahrscheinlichkeit 1 immer wieder, also unendlich oft nach x zurück. Ist die Markovkette zudem irreduzibel, dann erreicht sie jeden festen Punkt y auf jeder Exkursion mit einer konstanten strikt positiven Wahrscheinlichkeit – trifft also insgesamt den Punkt y mit Wahrscheinlichkeit 1 unendlich oft. Kehrt die Kette dagegen mit einer strikt positiven Wahrscheinlichkeit ε > 0 nicht zum Startpunkt x zurück, dann wird sie auch bei jedem weiteren Erreichen von x mit derselben Wahrscheinlichkeit ε nicht wieder zurückkehren – unabhängig vom vorherigen Verlauf. Also wird sie mit Wahrscheinlichkeit 1 schließlich nicht mehr nach x zurückkehren – sie durchläuft also jeden Punkt nur endlich oft. Um diese Dichotomie von Rekurrenz und Transienz rigoros zu beweisen, benötigen wir eine Markoveigenschaft für die zufälligen (!) Rückkehrzeiten zum Startpunkt. Bevor wir eine entsprechende „starke Markoveigenschaft“ beweisen, betrachten wir schon mal eine Anwendung auf mehrdimensionale Random Walks. Universität Bonn Wintersemester 2009/2010 386 KAPITEL 11. MARKOVKETTEN Beispiel (Rekurrenz und Transienz von Random Walks in Zd ). Sei (Xn , Px ) der klassische Random Walk auf Zd mit Übergangswahrscheinlichkeiten p(x, y) = 1 2d falls |x − y| = 1, p(x, y) = 0 sonst. Wir untersuchen Rekurrenz und Transienz in Abhängigkeit von der Dimension d: d = 1: Im eindimensionalen Fall erhalten wir für die Rückkehrwahrscheinlichkeiten zum Ausgangspunkt x mithilfe der Stirling-Approximation: (2n)! −2n 2n p (x, x) = · 2−2n = 2 n (n!)2 √ 1 4πn (2n)2n −2n ·2 = √ . ∼ 2n 2πn n πn 2n Also gilt G(x, x) = ∞ P n=0 pn (x, x) = ∞, d.h. jeder Punkt x ∈ Z ist rekurrent. (1) (2) (1) d = 2: Beim klassischen Random Walk Xn = (Xn , Xn ) auf Z2 sind die Komponenten Xn (2) und Xn nicht unabhängig. 1/4 1/4 1/4 1/4 Abbildung 11.7: Übergangswahrscheinlichkeiten des klassischen Random Walks. Durch eine 45◦ Drehung des Koordinatensystems, können wir den Prozess aber in einen zweidimensionalen Random Walk Yn = (Xn(1) + Xn(2) , Xn(1) − Xn(2) ) Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 387 1/4 1/4 1/4 1/4 Abbildung 11.8: Übergangswahrscheinlichkeiten des um 45◦ gedrehten Random Walks. (1) überführen, dessen Komponenten Yn (2) und Yn unabhängige eindimensionale Random Walks sind. Offensichtlich gilt: Xn rekurrent ⇐⇒ Yn transient. Die Übergangswahrscheinlichkeiten für Yn sind (2) (1) p2n (x, x) = Px [Y2n = x1 , Y2n = x2 ] = 2 1 2n −2n = ·2 ∼ . n πn (2) (1) Px1 [Y2n = x1 ] · Px2 [Y2n = x2 ] Also gilt erneut G(x, x) = ∞, d.h. jedes x ∈ Z2 ist rekurrent. d = 3: Betrachten wir einen dreidimensionalen Random Walk Yn = (Xn(1) , Xn(2) , Xn(3) ), (i) dessen Komponenten Xn unabhängige klassische Random Walks auf Z1 sind, dann gilt entsprechend 2n p (x, x) = und damit G(x, x) = 3 2n −2n ·2 n ∞ X n=0 Universität Bonn p2n (x, x) ∼ 1 , (πn)3/2 < ∞ Wintersemester 2009/2010 388 KAPITEL 11. MARKOVKETTEN Der Prozess ist also transient. Auch der klassische Random Walk auf Z3 ist transient – der Beweis erfordert allerdings etwas mehr Kombinatorik, da sich der Prozess in Dimension 3 nicht durch eine Drehung in einen Prozess mit unabhängigen Komponenten überführen lässt. Die Details werden in einer Übungsaufgabe ausgeführt. Analog folgt Transienz in höheren Dimensionen. Zwischen Dimension 2 und 3 gibt es also einen Übergang von rekurrentem zu transientem Verhalten. Anschaulich steht in Dimension d > 2 soviel Raum zur Verfügung, dass der Random Walk der Startpunkt schließlich nicht mehr trifft. Starke Markoveigenschaft Wir beweisen nun die angekündigte Erweiterung der Markoveigenschaft auf zufällige Zeiten (Stoppzeiten). Die Information, die über einen stochastischen Prozess (Xn )n≥0 bis zur Zeit n vorliegt, wird beschrieben durch die σ-Algebra Fn = σ(X0 , X1 , . . . , Xn ). Sei T : Ω → {0, 1, 2, . . .} ∪ {∞} eine nichtnegative ganzzahlige Zufallsvariable. T heißt eine Stoppzeit (bzgl. der σ-Algebren Fn ), falls {T = n} ∈ Fn für alle n ≥ 0 gilt. Nach dem Faktorisierungslemma ist T genau dann eine Stoppzeit bzgl. (Fn )n , wenn I{T =n} für jedes n eine Funktion von X0 , . . . , Xn ist. Anschaulich bedeutet dies, dass aufgrund der Information, die bis zur Zeit n vorliegt, entscheidbar ist, ob T den Wert n annimmt. Beispiel (Trefferzeiten). (1). Die erste Treffer- bzw. Rückkehrzeit TB = min{n ≥ 1 | Xn ∈ B} (min ∅ := ∞) einer messbaren Teilmenge B des Zustandsraumes S ist eine Stoppzeit, denn es gilt {TB = n} = {X1 ∈ B C , . . . , Xn−1 ∈ B C , Xn ∈ B} ∈ Fn für alle n ≥ 0. Hat man beispielsweise beschlossen, eine Aktie zu verkaufen, sobald ihr Kurs Xn den Wert λ überschreitet, dann ist der Verkaufszeitpunkt gleich T(λ,∞) , also eine Stoppzeit. (2). Die letzte Besuchszeit LB := sup{n ≥ 0 | Xn ∈ B} (sup ∅ := 0) ist dagegen in der Regel keine Stoppzeit (Übung). Um zu entscheiden, ob LB = n gilt, benötigt man nämlich Informationen über die zukünftige Entwicklung des Prozesses. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 389 Die Information, die bis zu einer Stoppzeit vorliegt, wird beschrieben durch die σ-Algebra FT = {A ∈ A | A ∩ {T = n} ∈ Fn für alle n ≥ 0 } , der „bis zur Zeit T beobachtbaren“ Ereignisse. Durch maßtheoretische Induktion zeigt man, dass eine Abbildung Y : Ω → R genau dann bzgl. FT messbar ist, wenn Y · I{T =n} für jedes n ≥ 0 Fn -messbar, also eine Funktion von X0 , . . . , Xn ist. Insbesondere ist die Position XT des Prozesses (Xn ) zur Stoppzeit T eine FT -messbare Zufallsvariable, denn für n ≥ 0 ist XT · I{T =n} = Xn · I{T =n} Fn -messbar. Wir setzen nun wieder voraus, dass (Xn , Px ) eine zeithomogene Markovkette im kanonischen Modell ist. Satz 11.13 (Starke Markoveigenschaft). Ist T : Ω → {0, 1, 2, . . .} ∪ {∞} eine Stoppzeit bzgl. der σ-Algebren Fn = σ(X0 , X1 , . . . , Xn ), dann gilt Eν [F (XT , XT +1 , . . .) | FT ] = EXT [F (X0 , X1 , . . .)] Pν -fast sicher auf {T < ∞} für alle Wahrscheinlichkeitsverteilungen ν auf (S, S) und alle messbaren Funktionen F : S {0,1,2,...} → R+ , wobei F (XT , XT +1 , . . .) auf {T = ∞} willkürlich definiert ist. Beweis. Sei θ(x0 , x1 , . . .) = (x1 , x2 , . . .) der Shiftoperator auf S {0,1,2,...} . Wir müssen zeigen, dass Eν [F ◦ θT | FT ] · I{T <∞} = EXT [F ] · I{T <∞} Pν -fast sicher (11.3.1) gilt, wobei wir die rechte Seite für T = ∞ gleich 0 setzen. Für A ∈ FT und n ≥ 0 gilt A ∩ {T = n} ∈ Fn , also nach der Markoveigenschaft: Eν [F ◦ θT ; A ∩ {T = n}] = Eν [F ◦ θn ; A ∩ {T = n}] = Eν [EXn [F ] ; A ∩ {T = n}] = Eν [EXT [F ] ; A ∩ {T = n}] Durch Summieren über n erhalten wir: Eν [F ◦ θT ; A ∩ {T < ∞}] = Eν [EXT [F ] ; A ∩ {T < ∞}] . Also stimmen die Integrale beider Seiten von (11.3.1) über eine beliebige Menge A ∈ FT über- ein. Da beide Seiten in (11.3.1) FT -messbar sind, folgt, dass diese Pν -fast sicher übereinstimmen. Universität Bonn Wintersemester 2009/2010 390 KAPITEL 11. MARKOVKETTEN Anschaulich startet eine zeithomogene Markovkette also auch zu einer Stoppzeit T neu im Zustand XT , d.h. der weitere Verlauf ist unabhängig vom vorherigen Verlauf gegeben den gegenwärtigen Zustand XT . Rekurrenz und Transienz von einzelnen Zuständen Mithilfe der starken Markoveigenschaft können wir die Verteilung der Aufenthaltszeit By der Markovkette in einem Punkt y ∈ S aus den Trefferwahrscheinlichkeiten fx,y := Px [Ty < ∞] berechnen. Hierbei bezeichnen wir mit Ty min{n ≥ 1 : Xn = y} = die erste Trefferzeit des Zustandes y, bzw. die erste Rückkehrzeit nach y, falls die Markovkette in y startet. Satz 11.14. Für alle x, y ∈ S gilt Px [By ≥ n] = fx,y · f n−1 y,y f n−1 y,y falls x 6= y . falls x = y Insbesondere ist jedes y ∈ S entweder rekurrent oder transient, und es gilt: y rekurrent ⇐⇒ fy,y = 1, y transient ⇐⇒ fy,y < 1. Beweis. Sei T (0) := 0, und sei T (n) := T (n−1) + Ty ◦ θT (n−1) die n-te Besuchszeit (bei Start außerhalb von y) bzw. Rückkehrzeit (bei Start in y) des Zustands y. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 391 y T (1) T (2) T (3) T (4) T (5) Es folgt Px [T (n) < ∞] = Px [T (n−1) < ∞ und Ty ◦ θT = Ex [Px [Ty ◦ θT (n−1) (n−1) < ∞] < ∞ | FT (n−1) ] ; T (n−1) < ∞] = Ex [PXT (n−1) [Ty < ∞] ; T (n−1) < ∞] = Py [Ty < ∞] · Px [T (n−1) < ∞], also durch Induktion nach n: Px [T (n) < ∞] = Px [Ty < ∞] · Py [Ty < ∞]n−1 = n−1 fx,y · fy,y . Die Aussage folgt wegen Px [By ≥ n] Px [T (n) < ∞] P [T (n−1) < ∞] = x falls x 6= y, falls x = y. Bemerkung. Die Wahrscheinlichkeiten fx,y (und damit die Verteilungen der Aufenthaltszeiten) kann man im Prinzip durch Lösen eines Dirichletproblems berechnen: Nach Korollar 11.11 bilden die Trefferwahrscheinlichkeiten h(x) = Px [Tey < ∞], die minimale nichtnegative Lösung von ph = Tey := min{n ≥ 0 | Xn = y}, auf S \ {y}; h h(y) = 1. Wegen Tey = Ty Px -fast sicher für alle x 6= y folgt fx,y = h(x) für x 6= y, und X fy,y = p(y, x)fx,y = (ph)(y). x∈S Universität Bonn Wintersemester 2009/2010 392 KAPITEL 11. MARKOVKETTEN Beispiel (Kartenhaus, Maschinenerneuerung). Wir betrachten eine Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangswahrscheinlichkeiten p(x, x + 1) 1 − ̺x , ̺x = p(x, 0) = ̺x ∈ (0, 1). ̺x , 1 − ̺x 0 1 ··· 2 x x+1 Abbildung 11.9: Übergangswahrscheinlichkeiten der durch p gegebenen Markovkette. Hier gilt P0 [T0 > n] n−1 Y = x=0 also: 0 rekurrent ⇐⇒ P0 [T0 = ∞] = ∞ Y (1 − ̺x ), (1 − ̺x ) = 0 ⇐⇒ x=0 ∞ X x=0 ̺x = ∞ Aus Satz 11.14 folgt unmittelbar die schon oben erwähnte Charakterisierung rekurrenter Zustände über die Greensche Funktion: Korollar 11.15 (Rekurrenzkriterium). Für alle x ∈ S gilt 1 1 G(x, x) = falls Px [Tx = ∞] > 0, = 1 − fx,x Px [Tx = ∞] bzw. G(x, x) = ∞ falls Px [Tx = ∞] = 0. Insbesondere ist x genau dann rekurrent, wenn G(x, x) unendlich ist. Beweis. Für x ∈ S gilt nach Satz 11.14: G(x, x) = Ex [Bx ] = ∞ X n−1 fx,x n=1 Einführung in die Wahrscheinlichkeitstheorie = = ∞ X Px [Bx ≥ n] n=1 ∞ X n fx,x . n=0 Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 393 Leider ist das Kriterium zwar für die Theorie wichtig, aber praktisch nur selten einsetzbar. Leichter verifizierbare hinreichende Bedingungen für Rekurrenz und Transienz basieren auf stochastischen Lyapunovfunktionen und dem Martingalkonvergenzsatz, s. [Stochastische Analysis]. Kommunikationsklassen und globale Rekurrenz Wir wollen nun untersuchen, wie die Rekurrenz verschiedener Zustände x, y ∈ S miteinander zusammenhängt. Definition. Der Zustand y heißt erreichbar von x für die Markovkette (Xn , Px ), falls Px [Ty < ∞] > 0 gilt. Bemerkung. (1). Ein Zustand y ist genau dann erreichbar von x, wenn ein n ∈ N mit pn (x, y) > 0 existiert. Insbesondere gilt für y 6= x: ⇐⇒ y ist erreichbar von x G(x, y) > 0. (2). Ist y erreichbar von x und z erreichbar von y, dann ist z erreichbar von x. (3). Ist die Übergangsmatrix irreduzibel, dann ist jeder Zustand von jedem anderen Zustand aus erreichbar. Wir wollen zeigen, dass mit einem Zustand x ∈ S auch jeder von x aus erreichbare Zustand y rekurrent ist. Dazu bemerken wir zunächst: Lemma 11.16. Für x, y ∈ S mit y 6= x gilt G(x, y) = Px [Ty < ∞] · G(y, y). Beweis. Für y 6= x gilt Px -fast sicher X0 6= y, also By = B y ◦ θ Ty auf {Ty < ∞}. Mit der starken Markoveigenschaft folgt Ex [By ] = Ex [By ; Ty < ∞] = Ex [By ◦ θTy ; Ty < ∞] = Ey [By ] · Px [Ty < ∞]. Universität Bonn Wintersemester 2009/2010 394 KAPITEL 11. MARKOVKETTEN Satz 11.17. Ist x rekurrent, und y von x aus erreichbar, dann ist auch x von y aus erreichbar, y ist rekurrent, und es gilt By = ∞ Px -fast sicher Bx = ∞ und Py -fast sicher. Insbesondere gilt also G(x, y) Beweis. = G(y, x) = G(y, y) ∞. = (1). y ist rekurrent: Da y von x aus erreichbar ist, existiert m ≥ 0 mit pm (x, y) > 0. Nach dem Lemma folgt: G(y, y) ≥ G(x, y) ≥ ∞ X ≥ ∞ X pn+m (x, y) n=0 pn (x, x)pm (x, y) n=0 = G(x, x) · pm (x, y) | {z } | {z } =∞ = ∞. >0 (2). Wir zeigen Py [Bx = ∞] = 1: Da y von x aus erreichbar und x rekurrent ist, gilt nach der starken Markoveigenschaft 0 < Px [Ty < ∞] x rek. = SME = Px [Ty < ∞, Tx ◦ θTy < ∞] Px [Ty < ∞] · Py [Tx < ∞], also fy,x = Py [Tx < ∞] = 1. Da x rekurrent ist, gilt zudem fx,x = 1, also nach Satz 11.14 Py [Bx = ∞] = n−1 lim (fy,x · fx,x ) n→∞ = 1. Insbesondere ist x von y aus erreichbar. (3). Analog erhalten wir Px [By = ∞] = 1 durch Vertauschen der Rolle von x und y. Der Satz zeigt, dass für eine Markovkette mit irreduzibler Übergangsmatrix und einem rekurrenten Zustand alle Zustände rekurrent sind, und jeder Zustand bei beliebiger Startverteilung mit Wahrscheinlichkeit 1 unendlich oft durchlaufen wird: Korollar 11.18 (Dichotomie von Rekurrenz und Transienz). Für eine zeithomogene Markovkette mit irreduzibler Übergangsmatrix gilt entweder Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.3. REKURRENZ UND TRANSIENZ 395 (1). Alle x ∈ S sind rekurrent, und Px [By = ∞] = 1 für alle x, y ∈ S, oder (2). Alle x ∈ S sind transient, und Ex [By ] < ∞ für alle x, y ∈ S. Ist S endlich, dann kann nur der erste Fall eintreten. Beweis. Existiert ein rekurrenter Zustand, dann sind nach Satz 11.17 alle Zustände rekurrent, und Px [By = ∞] = 1 für alle x, y ∈ S. Andernfalls sind nach Satz 11.14 alle x ∈ S transient, und nach Korollar 11.15 gilt G(x, x) < ∞. Nach Lemma 11.16 folgt dann Ex [By ] < ∞ für alle x, y ∈ S. Ist S endlich, dann kann der zweite Fall wegen X Ex [By ] y∈S = Ex " X By y∈S # = ∞ nicht eintreten. Was können wir aussagen, wenn die Übergangsmatrix nicht irreduzibel ist? Allgemein ist die Relation x y „y ist von x aus erreichbar“ eine Äquivalenzrelation auf der Menge Srek der rekurrenten Zustände in S. Die zugehörigen Äquivalenzklassen Si , i ∈ I, heißen Rekurrenzklassen. Wir erhalten also eine disjunkte Zerlegung S = Strans ∪˙ [ ˙ Si i∈I des Zustandsraums in die Menge Strans der transienten Zustände, und die verschiedenen Rekurrenzklassen Universität Bonn Wintersemester 2009/2010 396 KAPITEL 11. MARKOVKETTEN Strans Si1 Si2 Abbildung 11.10: Zerlegung der Menge S in die transienten Zustände und die einzelnen Rekurrenzklassen Gelangt die Markovkette in eine Rekurrenzklasse, dann bleibt sie dort mit Wahrscheinlichkeit 1 und durchläuft alle Zustände der Rekurrenzklasse unendlich oft. Startet die Markovkette in einem transienten Zustand, dann läuft sie entweder in eine Rekurrenzklasse, oder sie verbleibt im transienten Bereich, verlässt aber jede endliche Teilmenge von Strans schließlich mit Wahrscheinlichkeit 1. Beispiel. (1). Ehrenfestmodell: Die Markovkette aus dem Ehrenfestmodell (s. Abschnitt 2.2) ist rekurrent, da der Zustandsraum S = {0, 1, . . . , N } endlich, und die Übergangsmatrix p(k, k − 1) = k/N p(k, k + 1) = (N − k)/N irreduzibel ist. k Moleküle N − k Moleküle Jeder Zustand wird also unendlich oft durchlaufen, was der thermodynamischen Irreversibilität zunächst zu widersprechen scheint (Einwand von Zermelo, vgl. die Bemerkung Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.4. STATIONÄRE STOCHASTISCHE PROZESSE 397 unter Satz 7.17). Tatsächlich kann man zeigen, dass die mittlere Zeit E0 [TN/2 ] für den Übergang vom geordneten Zustand k = 0 in den ungeordneten Zustand k = N/2 von der Größenordnung N log N ist, die mittlere Zeit EN/2 [T0 ] für den umgekehrten Übergang dagegen von der Größenordnung 1 2N 2 . 2N Da N zum Beispiel gleich 1023 ist, ist die Rekur- renz jenseits des ungeordneten Zustandes de facto nicht beobachtbar – im makroskopischen Skalierungslimes N → ∞ ergibt sich bei geeigneter Zeitreskalierung eine irreversible Dynamik. (2). Kartenhaus/Maschinenerneuerung: Im Fall ∞ P x=0 ̺x = ∞ sind alle Zustände der Markovket- te aus dem Beispiel von oben rekurrent, da 0 rekurrent und die Übergangsmatrix irreduzibel ist. Andernfalls sind alle Zustände transient. (3). Galton-Watson-Prozess: Für den Galton-Watson-Verzweigungsprozess mit Nachkommensverteilung ν ist 0 ein absorbierender Zustand, d.h. kein anderer Zustand ist von 0 aus erreichbar. Insbesondere ist {0} eine Rekurrenzklasse. Gilt ν(0) 6= 0, dann ist umgekehrt 0 von jedem Zustand x ∈ N aus erreichbar, also sind alle x 6= 0 transient. Es folgt dann: Px [Zn = 0 schließlich oder Zn → ∞] 11.4 = 1 für alle x ≥ 0. Stationäre stochastische Prozesse In vielen Fällen nähert sich die Verteilung eines zeitlich verschobenen stochastischen Prozesses (Yn , Yn+1 , . . .) mit Zustandsraum (S, S) für n → ∞ einer Grenzverteilung P auf dem Produk- traum Ω = S {0,1,2,...} mit Produkt-σ-Algebra A an („asymptotische Stationarität“). Die Grenzver- teilung P sollte dann selbst invariant unter Verschiebungen sein, d.h. für den Koordinatenprozess Xn (ω) = ωn sollte gelten: (Xn , Xn+1 , . . .) ∼ (X0 , X1 , . . .) unter P für alle n ≥ 0. (11.4.1) Wir wollen stochastische Prozesse mit der Eigenschaft (11.4.1) nun genauer untersuchen. Stationarität und Reversibilität Definition. (1). Eine Wahrscheinlichkeitsverteilung P auf (Ω, A) bzw. ein stochastischer Prozess ((Xn ), P ) heißt stationär, falls (11.4.1) gilt. Universität Bonn Wintersemester 2009/2010 398 KAPITEL 11. MARKOVKETTEN (2). Der Prozess ((Xn ), P ) heißt reversibel, falls die endlichdimensionalen Verteilungen invariant unter Zeitumkehr sind, d.h. falls (X0 , X1 , . . . , Xn ) ∼ (Xn , Xn−1 , . . . , X0 ) unter P für alle n ≥ 0. (11.4.2) Bemerkung. Eine Wahrscheinlichkeitsverteilung P auf (Ω, A) ist genau dann stationär, wenn die Shiftabbildung θ : Ω → Ω eine maßerhaltende Abbildung auf dem Wahrscheinlichkeitsraum (Ω, A, P ) ist, d.h. wenn P = P ◦ θ−1 gilt. Beispiel. (1). IID Folgen: Eine Folge (Xn )n≥0 unabhängiger, identisch verteilter Zufallsvariablen ist ein stationärer und reversibler stochastischer Prozess. (2). Gaußprozesse: Ein Gaußprozess ist ein reellwertiger stochastischer Prozess (Xn ), dessen Randverteilungen Normalverteilungen sind. Beispielsweise ist ein AR(p)-Prozess ein Gaußprozess, wenn die Startwerte normalverteilt sind. Gaußprozesse sind eindeutig durch die Mittelwerte E[Xn ] und die Kovarianzen Cov[Xn , Xm ] festgelegt. Stationarität gilt genau dann, wenn E[Xn ] = α nicht von n abhängt, und Cov[Xn , Xm ] = cn−m nur von der Differenz n − m abhängt. (3). Deterministische Rotationen: Ist X0 gleichverteilt auf dem Einheitskreis S 1 , und Xn+1 = eiφ · Xn mit φ ∈ [0, 2π), dann ist (Xn )n≥0 stets ein stationärer Prozess. Reversibilität gilt für φ 6= 0 nicht. Satz 11.19. Ein reversibler Prozess ist stationär. Beweis. Aus der Reversibilität folgt durch Zeitumkehr auf {0, 1, . . . , n + 1} und {0, 1, . . . , n}: P ◦ (X1 , X2 , . . . , Xn+1 )−1 = P ◦ (Xn , Xn−1 , . . . , X0 )−1 = P ◦ (X0 , . . . , Xn )−1 für alle n ≥ 0. Also gilt P [(X1 , X2 , . . .) ∈ A] = P [(X0 , X1 , . . .) ∈ A] für alle Zylindermengen A ∈ A, und damit für alle A ∈ A. Stationarität bzw. Reversibilität zeithomogener Markovketten ist durch die Startverteilung und den Übergangskern charakterisierbar: Satz 11.20 (Stationarität und Reversibilität von Markovketten). Für eine zeithomogene Markovkette (Xn , Pµ ) im kanonischen Modell gilt: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.4. STATIONÄRE STOCHASTISCHE PROZESSE 399 (1). Pµ ◦ (Xn , Xn+1 , . . .)−1 = Pµpn für alle n ≥ 0. (2). Pµ ist genau dann stationär, wenn µ ein Gleichgewicht des Übergangskerns p ist. (3). Pµ ist genau dann reversibel, wenn µ die Detailed-Balance-Bedingung µ(dx)p(x, dy) = µ(dy)p(y, dx) (11.4.3) erfüllt, d.h. wenn die Wahrscheinlichkeitsverteilung µ ⊗ p auf S × S invariant unter der Abbildung (x, y) 7→ (y, x) ist. Beweis. (1). Für A ∈ A und n ≥ 0 gilt nach der Markoveigenschaft Pµ [(Xn , Xn+1 , . . .) ∈ A] = Eµ [IA ◦ θn ] = Eµ [PXn [A]] Z = Px [A](µpn )(dx) = Pµpn [A]. (2). folgt unmittelbar aus (1). (3). Aus der Reversibilität von (Xn , Pµ ) folgt, dass µ⊗p = Pµ ◦ (X0 , X1 )−1 invariant unter Koordinatentausch ist. Umgekehrt folgt aus der Detailed-Balance-Bedingung durch Induktion µ(dx0 )p(x0 , dx1 ) · · · p(xn−1 , dxn ) = µ(dx1 )p(x1 , dx2 ) · · · p(xn−1 , dxn )p(x1 , dx0 ) = ... = µ(dxn )p(xn , dxn−1 ) · . . . · p(x1 , dx0 ) für alle n ≥ 0; also Pµ ◦ (X0 , . . . , Xn )−1 = Pµ ◦ (Xn , . . . , X0 )−1 . Rekurrenz von stationären Prozessen Stationäre stochastische Prozesse haben starke Rekurrenzeigenschaften. Die folgende Aussage zeigt unter Anderem, dass die mittlere Rückkehrzeit in eine Menge B endlichen Erwartungswert hat, wenn der Prozess mit positiver Wahrscheinlichkeit in B startet: Universität Bonn Wintersemester 2009/2010 400 KAPITEL 11. MARKOVKETTEN Satz 11.21 (Wiederkehrsatz von Kac). Sei (Xn , P ) ein stationärer stochastischer Prozess mit Zustandsraum (S, S), und sei TB = min{n ≥ 1 : Xn ∈ B} die erste Eintritts- bzw. Rückkehrzeit in eine Menge B ∈ S. Dann gilt E[TB ; X0 ∈ B] = P [TB < ∞], (11.4.4) also mit anderen Worten E[TB | X0 ∈ B] = P [TB < ∞] µ[B] P [TB < ∞] = falls µ[B] > 0, 0 und falls µ[B] = 0, (11.4.5) (11.4.6) wobei µ = P ◦ X0−1 die Startverteilung des Prozesses ist. Bemerkung. (1). Nach (11.4.5) ist die mittlere Rückkehrzeit in die Menge B der Kehrwert des Quotienten P [X0 ∈B] , P [TB <∞] also des Anteils von {X0 ∈ B} an allen Pfaden, die B treffen. (2). Allgemeiner gilt für jede messbare Teilmenge A ∈ A des Pfadraumes: E[τA ; A] = P [τA < ∞], wobei τA = min{n ≥ 1 : (Xn , Xn+1 , . . .) ∈ A} die erste Zeit ist, zu der der verschobene Pfad in A liegt. Beweis. Für n ∈ N gilt wegen der Stationarität des Prozesses: E[min(TB , n) ; X0 ∈ B] = = = n−1 X k=0 n−1 X k=0 n−1 X k=0 P [TB > k und X0 ∈ B] P [X0 ∈ B, X1 6∈ B, . . . , Xk 6∈ B] P [Xn−k ∈ B, Xn−k+1 6∈ B, . . . , Xn 6∈ B] = P [TB ≤ n]. Hierbei haben wir verwendet, dass TB ≤ n genau dann gilt, wenn zu einer der Zeiten n − k, k = 0, 1, . . . , n − 1, ein letzter Besuch in B vor der Zeit n stattfindet. Die Aussage folgt für n → ∞. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.4. STATIONÄRE STOCHASTISCHE PROZESSE 401 Nach dem Wiederkehrsatz von Kac kehrt der Prozess (Xn ) auf der Menge {X0 ∈ B} P -fast sicher nach B zurück. Durch Anwenden dieser Aussage auf die Teilfolgen (Xnk )n≥0 , k ∈ N, die alle wieder stationäre Prozesse unter P sind, erhalten wir sogar: Korollar 11.22. Jeder stationäre Prozess (Xn , P ) ist rekurrent in folgendem Sinne: Für alle B ∈ S gilt Xn ∈ B unendlich oft P -fast sicher auf {X0 ∈ B}. Bemerkung (Wiederkehrsatz von Poincaré). Allgemeiner gilt für A ∈ A: (Xn (ω), Xn+1 (ω), . . .) ∈ A unendlich oft für P -fast alle ω ∈ A. Anwendung auf Markovketten Wir betrachten nun eine zeithomogene Markovkette (Xn , Px ) mit abzählbarem Zustandsraum S im kanonischen Modell. Definition. Ein Zustand x ∈ S heißt positiv rekurrent, falls die mittlere Rückkehrzeit Ex [Tx ] endlich ist. Aus dem Wiederkehrsatz von Kac folgt unmittelbar: Korollar 11.23 (Gleichgewichte und mittlere Rückkehrzeiten). (1). Ist µ ein Gleichgewicht der Markovkette, dann gilt µ(x) · Ex [Tx ] = Pµ [Tx < ∞] für alle x ∈ S. Insbesondere sind alle Zustände x mit µ(x) > 0 positiv rekurrent. (2). Ist zudem die Übergangsmatrix irreduzibel, dann sind sogar alle x ∈ S positiv rekurrent mit 1 . Ex [Tx ] Insbesondere ist das Gleichgewicht in diesem Fall eindeutig. µ(x) Beweis. = (11.4.7) (1). Da die Markovkette mit Startverteilung µ stationär ist, gilt nach dem Satz von Kac: µ(x) · Ex [Tx ] = Eµ [Tx ; X0 = x] = Pµ [Tx < ∞] für alle x ∈ S. (2). Bei Irreduzibilität folgt globale Rekurrenz, also Py [Tx < ∞] = 1 für alle x, y ∈ S, und damit µ(x) · Ex [Tx ] = 1 für alle x. Universität Bonn Wintersemester 2009/2010 402 KAPITEL 11. MARKOVKETTEN Beispiel (Eindimensionale Markovkette, Birth-Death-Process). Wir betrachten eine zeithomogene Markovkette auf S = {0, 1, 2, . . .} mit Übergangswahrscheinlichkeiten p(x, x + 1) = px , p(x, x − 1) = qx , p(x, x) = rx , px , qx , rx > 0 mit px + qx + rx = 1, q0 = 0, und px , qx > 0 für alle x ≥ 1. rx qx 0 1 px x x−1 2 x+1 Offensichtlich gilt Irreduzibilität. Das Gleichungssystem für eine Gleichgewichtsverteilung µ lautet µ(0) · r0 + µ(1) · q1 = µ(0), µ(x − 1) · px−1 + µ(x) · rx + µ(x + 1) · qx+1 = µ(x) für x ∈ N. Da die Lösung sich rekursiv aus µ(0) berechnen lässt, ist der Lösungsvektorraum des linearen Gleichungssystems eindimensional. Aus der hinreichenden Detailed-Balance-Bedingung µ(x − 1) · px−1 µ(x) · qx = für alle x ∈ N (11.4.8) erhalten wir daher in diesem Fall bereits die allgemeine Lösung µ(x) = Sei Z= µ(0) · p0 · p1 · . . . · px−1 . q1 · q2 · . . . · qx ∞ X p0 · p1 · . . . · px−1 x=0 q1 · q2 · . . . · qx (11.4.9) . Gilt Z < ∞, dann ist durch (11.4.9) mit µ(0) = 1/Z das eindeutige Gleichgewicht der Markov- kette gegeben, und für die mittleren Rückkehrzeiten folgt Ex [Tx ] = 1/µ(x) für alle x ≥ 0. Die Bedingung Z < ∞ bedeutet, dass die Wachstumswahrscheinlichkeiten p(x − 1, x) nicht zu groß im Vergleich zu den Abfallwahrscheinlichkeiten p(x, x − 1) sind. Gilt dagegen Z = ∞, Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.5. ERGODIZITÄT 403 dann existiert keine Gleichgewichtsverteilung. Wir werden in 11.25 sehen, dass in diesem Fall auch keiner der Zustände x ∈ S positiv rekurrent ist. Durch Lösen des Dirichletproblems kann man zudem zeigen, dass die Markovkette genau dann rekurrent ist, wenn ∞ X q1 q2 · · · qx p p · · · px x=0 1 2 = ∞ gilt (s. Übung). 11.5 Ergodizität In diesem Abschnitt werden wir ein Gesetz der großen Zahlen für positiv rekurrente Markovketten beweisen. Dabei verwenden wir, dass die Verläufe der Markovkette während verschiedener Exkursionen von einem Punkt aus unabhängig voneinander und identisch verteilt sind. Langzeitmittelwerte verhalten sich daher asymptotisch wie der Erwartungswert des zeitlichen Mittelwerts über eine Exkursion. Als Vorbereitung überlegen wir uns, dass der Anteil der mittleren Exkursionszeit, den die Markovkette in bestimmten Bereichen verbringt, eine Gleichgewichtsverteilung definiert. Wie zuvor sei (Xn , Px ) eine zeithomogene Markovkette mit abzählbarem Zustandsraum S und Übergangsmatrix p(x, y) im kanonischen Modell. Ferner sei Tx = min{n ≥ 1 : Xn = x} die erste Treffer- bzw. Rückkehrzeit zum Punkt x. Positive Rekurrenz und Gleichgewichte Für einen Zustand x ∈ S sei µx [B] := Ex "T −1 x X IB (Xn ) n=0 # = ∞ X n=0 P [Xn ∈ B ; n < Tx ] (11.5.1) die mittlere Anzahl der Besuche in einer Menge B ⊂ S während einer Exkursion von x. Ein positives Maß ν auf S heißt invariant bzgl. der Übergangsmatrix p, falls X x∈S ν(x)p(x, y) = ν(y) für alle y ∈ S gilt. Ein Gleichgewicht ist also eine invariante Wahrscheinlichkeitsverteilung. Universität Bonn Wintersemester 2009/2010 404 KAPITEL 11. MARKOVKETTEN Satz 11.24. (1). Ist x ∈ S ein rekurrenter Zustand der Markovkette, dann ist µx ein invariantes Maß mit Gesamtmasse µx [S] = Ex [Tx ]. (2). Ist x positiv rekurrent, dann ist das normierte Maß µx [B] mittlere Aufenthaltszeit in B µx [B] = = Ex [Tx ] mittlere Exkursionsdauer ein Gleichgewicht der Markovkette. Bei positiver Rekurrenz existiert also stets ein Gleichgewicht. Umgekehrt haben wir in Korollar 11.22 bereits gezeigt, dass Gleichgewichtsverteilungen nur positiv rekurrenten Zuständen eine strikt positive Gesamtmasse zuordnen. Ist die Markovkette zudem irreduzibel, dann ist die Gleichgewichtsverteilung nach Korollar 11.22 eindeutig, d.h. die Verteilung µx hängt nicht vom Startpunkt x ab. Beweis. (1). Ist x rekurrent, dann gilt Px -fast sicher Tx < ∞, und damit XTx = x = X0 . Für B ⊆ S folgt TX x −1 IB (Xn ) = n=0 TX x −1 IB (Xn+1 ). n=0 Mit der Markoveigenschaft erhalten wir damit # "T −1 x X IB (Xn+1 ) µx [B] = Ex n=0 = ∞ X n=0 ME = ∞ X n=0 = Px [Xn+1 ∈ B ; n < Tx ] Ex [PXn [X1 ∈ B ]; n < Tx ] ∞ XX z∈S n=0 = X z∈S Px [Xn = z ; n < Tx ] · p(z, B) µx [{z}] · p(z, B) d.h. µx ist ein invariantes Maß. Die Gesamtmasse ist # "T −1 x X IS (Xn ) µx [S] = Ex = (µx p)[B], = Ex [Tx ]. n=0 (2). Ist x positiv rekurrent, dann hat µx endliche Gesamtmasse, also erhält man durch Normieren ein Gleichgewicht. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.5. ERGODIZITÄT 405 Ein Gesetz der großen Zahlen für Markovketten Wir können nun das Hauptresultat dieses Abschnitts formulieren. Für n ∈ N und y ∈ S sei By (n) := n−1 X i=0 I{Xi =y} die Anzahl der Besuche der Markovkette im Zustand y vor der Zeit n. Satz 11.25 (Ergodensatz für Markovketten, 1. Version). Sei (Xn , P ) eine irreduzible homogene Markovkette mit abzählbarem Zustandsraum S. (1). Ist die Markovkette rekurrent, dann gilt n−1 1 X f (Xi ) lim n→∞ By (n) i=0 = Ey "Ty −1 X f (Xi ) i=0 # = Z f dµy P -fast sicher für jede Funktion f : S → R+ und alle y ∈ S. Hierbei ist µy das durch (11.5.1) definierte invariante Maß. (2). Existiert eine Gleichgewichtsverteilung µ, dann folgt µy = µ für alle y ∈ S und n−1 1X lim f (Xi ) n→∞ n i=0 = Z f dµ P -fast sicher. Die letzte Aussage ist ein Gesetz der großen Zahlen für irreduzible, positiv rekurrente Markovketten, und eine erste Version eines Ergodensatzes für Markovketten: Die „zeitlichen“ Mittelwerte n−1 R P 1 f (X ) konvergieren fast sicher gegen den „räumlichen“ Mittelwert f dµ der Funktion f i n i=0 bzgl. der Gleichgewichtsverteilung. Insbesondere ergibt sich n−1 µ(x) = 1X I{x} (Xi ) lim n→∞ n i=0 P -fast sicher für alle x ∈ S, d.h. die Gewichte der Gleichgewichtsverteilung sind die asymptotischen relativen Häufigkeiten der Zustände x ∈ S. Dieser Zusammenhang kann in beide Richtungen verwendet werden: (1). Berechnung der asymptotischen relativen Häufigkeiten durch Lösen des linearen Gleichungssystems µ = µp. (2). Schätzen der Gleichgewichtsverteilung: n−1 µ Universität Bonn ≈ 1X δX n i=0 i für große n. Wintersemester 2009/2010 406 KAPITEL 11. MARKOVKETTEN Beweis von Satz 11.25. Da die Zufallsvariablen Xi nicht unabhängig sind, können wir nicht wie im Beweis des klassischen GdgZ verfahren. Stattdessen nutzen wir aus, dass die Markovkette jedes mal, wenn sie den Punkt x trifft, neu startet – unabhängig vom vorherigen Verlauf. Durch Zerlegen der Summe in Teilsummen über diese verschiedenen Zykel erhalten wir eine Summe von unabhängigen Zufallsvariablen, auf die sich das klassische GdgZ anwenden lässt: (1). Wir betrachten die Markovkette o.B.d.A. im kanonischen Modell. Sei T (k) die k-te Besuchszeit bzw. Rückkehrzeit zu einem festen Zustand y ∈ S, d.h. T (0) = 0, und T (k+1) T (k) + Ty ◦ θT = (k) für alle k ≥ 0. Da die Kette irreduzibel und rekurrent ist, gilt T (k) < ∞ P -fast sicher für alle k, und damit (l) T X f (Xi ) = i=1 l−1 X Yk Yk := mit k=0 (k+1) TX f (Xi ). i=T (k) +1 y T (1) T (2) T (3) T (4) T (5) T (6) Abbildung 11.11: Regenerative Zyklen. Wir zeigen nun, dass aufgrund der starken Markoveigenschaft die Zufallsvariablen Yk (k ≥ 1) unter P unabhängig und identisch verteilt sind. Es gilt nämlich Yk = T (k) +Ty ◦θ T X (k) f (Xi ) i=T (k) +1 Einführung in die Wahrscheinlichkeitstheorie = Ty X j=1 f (Xj ◦ θT (k) ) = Y0 ◦ θ T (k) , Prof. Andreas Eberle 11.5. ERGODIZITÄT 407 also SME P [Yk ∈ B | FT (k) ] Py [Y0 ∈ B] = für alle B ⊂ S, d.h. Yk ist unabhängig von FT (k) mit Verteilung Py ◦Y0−1 . Da die Zufallsvariablen Y0 , . . . , Yk−1 FT (k) -messbar sind, folgt die Unabhängigkeit der Yk , k ≥ 0, unter P . Zudem erhalten wir für k ≥ 1 : E[Yk ] = Ey [Y0 ] = Ey " Ty X f (Xi ) i=1 # Z = f dµy . Nach dem Gesetz der großen Zahlen folgt dann: T (l) 1X lim f (Xi ) l→∞ l i=1 Z l−1 1X lim Yk l→∞ l k=1 = = f dµy P -fast sicher. (11.5.2) Ist die Anzahl By (n) der Besuche in y vor der Zeit n gleich l, dann gilt T (l−1) also (l−1) T 1 X f (Xi ) l i=1 < n ≤ T (l+1) , (l+1) n ≤ 1 X f (Xi ) By (n) i=1 T 1 X f (Xi ). l i=1 ≤ (11.5.3) Für n → ∞ konvergiert auch l = By (n) gegen unendlich, da die Markovkette rekurrent R ist. Da die linke und rechte Seite von (11.5.3) nach (11.5.2) für l → ∞ gegen f dµy konvergieren, folgt n−1 1 X lim f (Xi ) n→∞ By (n) i=0 n = 1 X lim f (Xi ) n→∞ By (n) i=1 = Z f dµy P -fast sicher. (2). Anwenden von Aussage (1) mit der konstanten Funktion f ≡ 1 liefert n By (n) n→∞ −→ µy [S] P -fast sicher. Da eine invariante Verteilung existiert, ist die Kette positiv rekurrent, d.h. µy [S] < ∞. Daher folgt für f ≥ 0: n−1 1X f (Xi ) n i=0 n−1 = 1 X By (n) · f (Xi ) n By (n) i=0 n→∞ −→ R f dµy µy [S] = Z f dµy P -fast sicher für n → ∞. Da die Markovkette nach Voraussetzung irreduzibel ist, ist die Gleichgewichtsverteilung nach Korollar 11.22 eindeutig. Also gilt µy = µ für alle y ∈ S. Universität Bonn Wintersemester 2009/2010 408 KAPITEL 11. MARKOVKETTEN Beispiel (Kartenhaus / Maschinenerneuerung). Wir betrachten die Markovkette aus dem Beispiel von oben. q0 q1 q2 q3 q4 q5 p0 0 p1 p12 2 p3 3 p4 4 5 p5 Abbildung 11.12: Übergangswahrscheinlichkeiten der durch p gegeben Markovkette. Für Übergangswahrscheinlichkeiten p(i, 0) = pi ∈ (0, 1) und p(i, i + 1) = qi = 1 − pi erhalten wir P0 [T0 > n] = q0 · q1 · . . . · qn−1 , E0 [T0 ] = ∞ n−1 X Y und damit qi . n=0 i=0 Gilt E0 [T0 ] < ∞, dann ist die Kette irreduzibel und positiv rekurrent. Für die asymptotische rela- tive Häufigkeit des Zusammenfallens des Kartenhauses folgt dann nach Satz 11.25 und Korollar 11.22: n−1 1X I{0} (Xi ) n→∞ n i=0 lim = µ(0) = 1 E0 [T0 ] Px -fast sicher für alle x ∈ S. Beispiel (Markov Chain Monte Carlo Verfahren (MCMC)). Sei µ eine Wahrscheinlichkeitsverteilung auf eine abzählbaren Menge S, deren Gewichte wir bis auf eine Normierungskonstante kennen bzw. berechnen können. Um Erwartungswerte von Funktionen f : S → R+ bzgl µ approximativ zu berechnen, können wir dann wie in Kapitel 3 beschrieben eine irreduzible Übergangsmatrix p mit Gleichgewicht µ bestimmen, und eine Markovkette (Xn , P ) mit dieser Übergangsmatrix simulieren. Nach Satz 11.26 liefern die empirischen Mittelwerte n θ̂n = 1X f (Xi ) n i=1 dann eine konsistente Folge von Schätzern für den gesuchten Erwartungswert Z θ = f dµ. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.5. ERGODIZITÄT 409 Für praktische Anwendungen ist es wichtig, den Schätzfehler zu quantifizieren. Eine erste Aussage in diese Richtung liefert ein zentraler Grenzwertsatz für Markovketten, siehe z.B. [T. Komorowski, C. Landim, S. Olla: Fluctuations in Markov Processes]. Allgemeinere Ergodensätze Die Aussage von Satz 11.25 lässt sich wesentlich allgemeiner formulieren. Wir notieren zunächst eine elementare, aber wichtige Erweiterung: Satz 11.26 (Ergodensatz für Markovketten, 2. Version). Ist (Xn , P ) eine irreduzible homogene Markovkette, und µ ein Gleichgewicht des Übergangskerns p, dann gilt Z Z n−1 1X lim f (Xi , Xi+1 , . . . , Xi+r ) = · · · f (x0 , x1 , . . . , xr )µ(dx0 )p(x0 , dx1 ) · · · p(xr−1 , dxr ) n→∞ n i=0 P -fast sicher für alle r ≥ 0 und f : S r+1 → R+ . Wir geben nur die Beweisidee an, und überlassen die Ausführung der Details dem Leser als Übung: Beweis-Skizze. Der Prozess ei X := (Xi , Xi+1 , . . . , Xi+r ) ist eine Markovkette mit Zustandsraum Se = {(x0 , . . . , xr ) ∈ S r+1 | p(xi , xi+1 ) > 0 ∀0 ≤ i < r}, Übergangsmatrix pe((x0 , . . . , xr ), (y0 , . . . , yr )) = δx1 (y0 )δx2 (y1 ) · · · δxr (yr−1 )p(xr , yr ), und Gleichgewichtsverteilung µ e(x0 , . . . , xr ) = µ(x0 ) · p(x0 , x1 ) · . . . · p(xr−1 , xr ). en ). Die Behauptung folgt daher aus Satz 11.25. Ist (Xn ) irreduzibel, so auch (X Eine wichtige Anwendung von Satz 11.26 ist das Schätzen der Übergangsmatrix einer Markovkette: Für x, y ∈ S gilt p(x, y) n−1 = 1X lim I{Xi =x,Xi+1 =y} n→∞ n i=0 P -fast sicher, d.h. die Übergangswahrscheinlichkeiten sind die asymptotischen relativen Häufigkeiten der Übergänge. Universität Bonn Wintersemester 2009/2010 410 KAPITEL 11. MARKOVKETTEN Beispiel (Neues im I.I.D. Fall). Auch im i.i.d. Fall liefert Satz 11.26 eine neue Aussage: Ist X0 , X1 , . . . eine Folge unabhängiger, identisch verteilter Zufallsvariablen („Buchstaben“) mit Werten in einer endlichen oder abzählbaren Menge S („Alphabet“), dann ergibt sich für die asymptotische relative Häufigkeit eines Wortes (a0 , a1 , . . . , ak ) ∈ S k+1 : n−1 1X lim I{Xi =a0 ,Xi+1 =a1 ,...,Xi+k =ak } n→∞ n i=0 k Y = µ(aj ) P -fast sicher, j=0 wobei µ(a) = P [Xi = a] die Wahrscheinlichkeit des Buchstabens a ist. Mit abstrakteren Argumenten kann man Ergodensätze im allgemeinen Rahmen dynamischer Systeme beweisen. Zum Abschluss dieses Abschnittes geben wir kurz ein entsprechendes zentrales Resultat ohne Beweis wieder. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und θ : Ω → Ω eine maßerhaltende Abbildung, d.h. P ◦ θ−1 = P . Den Raum (Ω, A, P ) zusammen mit der maßerhaltenden Abbildung θ nennt man auch ein dynamisches System. Beispielsweise ist der Shiftoperator θ auf dem Pfadraum maßerhaltend bzgl. der Verteilung P eines stationären stochastischen Prozesses. Die σ-Algebra J der θ-invarianten Ereignisse ist definiert als J = {A ∈ A | θ−1 (A) = A}. Beispielsweise sind die Zufallsvariablen lim inf 1 n n−1 P i=0 F ◦ θi und lim sup n1 n−1 P i=0 F ◦ θi für jede A- messbare Abbildung F : Ω → R messbar bzgl. J . Allgemein sind alle θ-invarianten Ereignisse asymptotisch. Das Maß P heißt ergodisch, falls P [A] ∈ {0, 1} für alle A ∈ J gilt. In dieser allgemeinen Situation kann man zeigen: Satz 11.27 (Birkhoffs individueller Ergodensatz). Für jede Funktion F ∈ L1 (Ω, A, P ) gilt n−1 1X lim F (θi (ω)) n→∞ n i=0 = E[F | J ](ω) für P -fast alle ω ∈ Ω. Ist P ergodisch, dann folgt n−1 1X F ◦ θi lim n→∞ n i=0 = E[F ] P -fast sicher. Der Beweis findet sich z.B. in den Wahrscheinlichkeitstheorie-Büchern von Breiman oder Durrett. Die L2 -Konvergenz lässt sich mit wesentlich einfacheren funktionalanalytischen Methoden zeigen (Ergodensatz von Neumann, siehe z.B. [Varadhan: Probability Theory]) Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 11.6 411 Zeitstetige Markovprozesse Für viele Anwendungsprobleme sind Modelle, die auf Markovprozessen in kontinuierlicher Zeit basieren, natürlicher. Ändert der Prozess nur an abzählbar vielen zufälligen Zeitpunkten seinen Zustand, dann nennt man ihn eine zeitstetige Markovkette. Ein Markovprozess mit stetigen Pfaden heißt dagegen Diffusionsprozess. Klassische Anwendungsbereiche zeitstetiger Markovketten sind die Modellierung von Warteschlangen und chemischen Reaktionen. Wir zeigen hier, wie man zeitstetige aus zeitdiskreten Markovketten konstruiert und beschreibt. Viele der Aussagen aus den letzten Abschnitten haben Entsprechungen im zeitstetigen Fall – wir verweisen dazu auf das einführende Lehrbuch [J. Norris: Markov Chains]. Der wichtigste Diffusionsprozess ist die Brownsche Bewegung, die sich ausgehend vom zentralen Grenzwertsatz als universeller zeitstetiger Skalierungslimes von Random Walks mit quadratintegrierbaren Inkrementen ergibt. In der stochastischen Analysis konstruiert man andere Diffusionsprozesse über stochastische Differentialgleichungen aus der Brownschen Bewegung – mit zahlreichen Anwendungen z.B. in der Finanzmathematik, Physik und mathematischen Biologie, aber auch mit weitreichenden Konsequenzen für viele Bereiche der Mathematik. Übergangskerne und Markovprozesse Seien ps,t (x, dy), 0 ≤ s ≤ t < ∞, stochastische Kerne auf einem messbaren Raum (S, S). Definition (Markovprozess). (1). Ein auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definierter zeitstetiger stochastischer Prozess Xt : Ω → S, t ∈ [0, ∞), heißt Markovprozess mit Übergangswahrscheinlichkeiten ps,t (x, dy), falls P [Xt+h ∈ B | FtX ] = pt,t+h (Xt , B) P -fast sicher für alle B ∈ S und t, h ≥ 0 gilt, wobei FtX = σ(Xs | 0 ≤ s ≤ t) die vom Prozess erzeugten σ-Algebren sind. (2). Der Markovprozess heißt zeitlich homogen, falls die Übergangswahrscheinlichkeiten pt,t+h nur von h abhängen: pt,t+h (x, dy) Universität Bonn = ph (x, dy) für alle t, h ≥ 0. Wintersemester 2009/2010 412 KAPITEL 11. MARKOVKETTEN Bemerkung. Einen Markovprozess mit stetigen Pfaden t 7→ Xt (ω) nennt man einen Diffusionsprozess. Eine zeitstetige Markovkette ist ein Markovprozess, dessen Pfade stückweise konstant sind, und nur an abzählbar vielen (von ω abhängigen) Zeitpunkten springen. Allgemeine Markovprozesse können sowohl stetige als auch Sprunganteile haben – es ist auch möglich, das sich die Sprünge häufen. Die zeithomogenen reellwertigen Markovprozesse mit räumlich homogenen Übergangswahrscheinlichkeiten sind gerade die Lévy-Prozesse: Satz 11.28 (Lévy-Prozesse als Markovprozesse). Ein Rd -wertiger stochastischer Prozess (Xt , P ) mit stationären unabhängigen Inkrementen Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 (0 ≤ t0 < t1 < . . . < tn ) ist ein zeithomogener Markovprozess mit translationsinvarianten Übergangswahrscheinlichkeiten ph (x, B) = P [Xt+h − Xt ∈ B − x], B ∈ B(Rd ). t, h ≥ 0, Beweis. Für jede Partition 0 = t0 < t1 < . . . < tn = t eines Intervalls [0, t] sind die Inkremente Xt+h − Xt für h ≥ 0 unabhängig von σ(Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 ). Wegen Xt k = Xt 0 + k X i=1 (Xti − Xti−1 ) erzeugen die Zufallsvariablen Xt0 , Xt1 , . . . , Xtn dieselbe σ-Algebra. Also ist Xt+h − Xt auch unabhängig von der σ-Algebra FtX = σ(Xs | 0 ≤ s ≤ t) = σ [ ! σ(Xt0 , Xt1 , . . . , Xtn ) . 0=t0 <t1 <...<tn Damit folgt P [Xt+h ∈ B | FtX ](ω) = P [Xt + (Xt+h − Xt ) ∈ B | FtX ](ω) = P [Xt+h − Xt ∈ B − Xt (ω)] = ph (Xt (ω), B) für P -fast alle ω. Beispiel. (1). Poissonprozess: Ein Poissonprozess mit Parameter λ > 0 ist eine zeitstetige Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangswahrscheinlichkeiten pt (x, y) = e−λt (λt)y−x (y − x)! für y ≥ x, Einführung in die Wahrscheinlichkeitstheorie bzw. pt (x, y) = 0 für y < x. Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 413 (2). Brownsche Bewegung: Eine d-dimensionale Brownsche Bewegung ist ein zeitlich homogener Diffusionsprozess mit Zustandsraum S = Rd und absolutstetigen Übergangswahrscheinlichkeiten pt (x, dy) mit Dichte pt (x, y) = (2πt) −d/2 kx − yk2 · exp − 2t , x, y ∈ Rd . t > 0, Damit die Übergangswahrscheinlichkeiten eines Markovprozesses für verschiedene Zeitintervalle konsistent sind, muss ps,u = ps,t pt,u für alle 0 ≤ s ≤ t ≤ u, (11.6.1) bzw., im zeithomogenen Fall, ps+t = ps pt = für alle s, t ≥ 0 pt ps (11.6.2) gelten. (11.6.1) und (11.6.2) werden auch als Chapman-Kolmogorov-Gleichungen bezeichnet. Im zeithomogenen Fall besagt die Chapman-Kolmogorov-Gleichung (11.6.2), dass die Übergangskerne pt , t ≥ 0, eine Halbgruppe bilden. Ist (Xt )t∈[0,∞) bzgl. P ein zeitstetiger Markovprozess und (tn ) eine aufsteigende Folge in R+ , dann ist (Xtn ) eine zeitdiskrete Markovkette mit Übergangskernen ptn−1 ,tn . Insbesondere erhalten wir mit Satz 11.5: Korollar 11.29 (Endlichdimensionale Randverteilungen). Für jedes n ≥ 0 und 0 = t0 < t1 < . . . < tn hat (Xt0 , Xt1 , . . . , Xtn ) die Verteilung µ(dx0 )pt0 ,t1 (x0 , dx1 )pt1 ,t2 (x1 , dx2 ) · · · ptn−1 ,tn (xn−1 , dxn ), wobei µ = P ◦ X0−1 die Startverteilung des Markovprozesses ist. Beispiel (Brownsche Bewegung). Für eine d-dimensionale Brownsche Bewegung (Bt ) mit Start in x0 sind die Verteilungen von (Bt1 , . . . , Btn ) für 0 = t0 < t1 < . . . < tn absolutstetig mit Dichten fBt1 ,...,Btn (x1 , . . . , xn ) = n Y i=1 pti −ti−1 (xi−1 , xi ) = n Y i=1 (2π(ti −ti−1 )) −d/2 kxi − xi−1 k2 exp − 2(ti − ti−1 ) . Insbesondere ist eine Brownsche Bewegung ein Gaußprozess, d.h. alle endlichdimensionalen Randverteilungen sind multivariate Normalverteilungen. Universität Bonn Wintersemester 2009/2010 414 KAPITEL 11. MARKOVKETTEN Bemerkung (Eindeutigkeit in Verteilung, Modifikationen). Nach dem Korollar ist die Verteilung eines Markovprozesses ((Xt )t≥0 , P ) auf dem Produktraum S [0,∞) mit Produkt-σ-Algebra eindeutig durch die Startverteilung und die Übergangswahrscheinlichkeiten festgelegt. Da es überabzählbar viele Zeitpunkte t ∈ R+ gibt, ist die Situation allerdings etwas subtiler als im zeitdiskreten Fall. Beispielsweise ist das Ereignis, dass die Pfade t 7→ Xt (ω) des Prozesses ste- tig bzw. rechtsstetig sind, nicht messbar bzgl. der Produkt-σ-Algebra. Tatsächlich kann man zu einem Markovprozess (Xt ) mit (rechts-)stetigen Pfaden in der Regel einen modifizierten Prozess et ) mit (X e t = Xt ] P [X = 1 für jedes t ∈ R+ et ) hat dann dieselben endlichdimenfinden, der keine (rechts-)stetigen Pfade hat. Der Prozess (X sionalen Randverteilungen wie (Xt ), und ist daher ein Markovprozess mit derselben Startverteilung und denselben Übergangswahrscheinlichkeiten! Zeitstetige Markovketten Wir wollen nun (umgekehrt wie oben) aus einer zeitdiskreten Markovkette einen zeitstetigen Markovprozess konstruieren, der dieselben Zustände durchläuft, aber zu zufälligen kontinuierlichen Zeitpunkten von einem Zustand zum nächsten springt. Dazu betrachten wir der Übersichtlichkeit halber nur den Fall eines abzählbaren Zustandsraumes S. Einen zeitstetigen Markovprozess auf S charakterisieren wir dann durch die infinitesimalen Übergangsraten Lt (x, y) = lim hց0 pt,t+h (x, y) − δ(x, y) , h t ≥ 0. (11.6.3) Wir beschränken uns im Folgenden auf den zeithomogenen Fall. Hier hängen die Übergangswahrscheinlichkeiten nicht von t ab, und es gilt Lt (x, y) = L (x, y) = ph (x, y) − δ(x, y) hց0 h lim für alle t ≥ 0. (11.6.4) Wegen ph (x, y) = h · L (x, y) + o(h) für x 6= y, und ph (x, x) = 1 + h · L (x, x) + o(h), ist L (x, y) für x 6= y die Sprungrate von x nach y, und L (x, x) ist die negative Wegsprungrate von x. Erfüllen die Übergangswahrscheinlichkeiten eines zeithomogenen Markovprozesses auf S die Bedingung (11.6.4) bzgl. eines zu spezifizierenden Konvergenzbegriffes, dann heißt die Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 415 Matrix L (x, y) (x, y ∈ S) infinitesimaler Generator des Markovprozesses. Da ph (x, •) für alle h ≥ 0 eine Wahrscheinlichkeitsverteilung ist, sollte in diesem Fall gelten: L (x, x) = − X für alle x ∈ S. L (x, y) y∈S (11.6.5) Sei nun L (x, y) (x, y ∈ S) eine gegebene Matrix mit L (x, y) ≥ 0 für alle x, y ∈ S und (11.6.5). Wir setzen zudem voraus, dass die Wegsprungraten L (x, x) beschränkt sind: Annahme: Es existiert λ > 0 mit X L (x, y) = y∈S −L (x, x) ≤ λ für alle x ∈ S. (11.6.6) Um einen Markovprozess mit Sprungraten L (x, y) zu konstruieren, betrachten wir unabhängige, Exp(λ)-verteilte Zufallsvariablen T1 , T2 , . . . auf einem Wahrscheinlichkeitsraum (Ω, A, P ), die die zeitlichen Abstände zwischen möglichen Sprüngen des Prozesses beschreiben. Sei fer- ner (Yn )n=0,1,2,... eine von σ(T1 , T2 , . . .) unabhängige Markovkette auf (Ω, A, P ) mit Übergangs- wahrscheinlichkeiten 1 L (x, y) für y 6= x, λ X π(x, x) = 1 − π(x, y). π(x, y) = y6=x Die Kette (Yn ) beschreibt die Zustände, die der zu konstruierende zeitstetige Sprungprozess durchläuft. Mit Nt = #{n ∈ N|T1 + T2 + . . . + Tn ≤ t} erhalten wir: Satz 11.30 (Konstruktion von zeitstetigen Markovketten). Der Prozess Xt := YNt ist ein zeitstetiger Markovprozess mit Zustandsraum S, Übergangswahrscheinlichkeiten pt (x, y) = e−λt ∞ X (λt)n n=0 n! π n (x, y), und Generator L (x, y). Genauer gilt X ph (x, y) − δ(x, y) − L (x, y) lim sup hց0 x∈S h y∈S Universität Bonn x, y ∈ S, = 0. (11.6.7) (11.6.8) Wintersemester 2009/2010 416 KAPITEL 11. MARKOVKETTEN Bemerkung. (1). Matrixexponentialfunktion: Die Übergangswahrscheinlichkeiten haben die Form pt e−λt eλtπ = = eλt(π−I) , (11.6.9) wobei q (e )(x, y) = ∞ X 1 n q (x, y) n! n=0 die Matrixexponentialfunktion ist. Hierbei ist eλtπ auch im abzählbar unendlichen Fall definiert, da die Matrizen (λtπ)n für alle n ≥ 0 nichtnegativ sind. Die Reihe eλt(π−I) konvergiert bzgl. der multiplikativen Matrixnorm kqk := sup x∈S X y∈S |q(x, y)|, (11.6.10) da kλn tn (π − I)n k ≤ (2λt)n für alle n ≥ 0 gilt, und die Identität (11.6.9) folgt wegen eλt(π−I) = e−λtI eλtπ = e−λt eλtπ . (2). Konvergenzbegriff: Die Aussage (11.6.8) besagt, dass ph − I hց0 h lim = L bzgl. der durch (11.6.10) definierten Matrixnorm gilt. Die Voraussetzung (11.6.6) gewährleistet gerade, dass die Norm von L endlich ist. In anderer Form ausgedrückt bedeutet (11.6.8), dass die signierten Maße h1 (ph (x, •) − δ(x, •)) für h ց 0 gleichmäßig in Variationsnorm (ℓ1 -Norm) gegen L (x, •) konvergieren. Eine entsprechende Aussage gilt auch (mit analogem Beweis), wenn der Zustandsraum S nicht abzählbar ist. Beweis. Seien t, h ≥ 0 und y ∈ S. Um die Markoveigenschaft P [Xt+h = y | FtX ] = ph (Xt , Y ) P -fast sicher (11.6.11) zu zeigen, verfahren wir ähnlich wie für Poisson-Prozesse in Satz 10.12. Seien zunächst k, l ∈ {0, 1, 2, . . .} fest, und sei Gk = σ(T1 , . . . , Tk , Y0 , Y1 , . . . , Yk ) Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 417 die σ-Algebra, die den Verlauf des Prozesses bis zum k-ten Sprung beschreibt. Da die Wartezeiten Ti (i ∈ N) und die Markovkette (Yn ) unabhängig voneinander sind, und Nt messbar bzgl. σ(Ti | i ∈ N) ist, erhalten wir nach (10.4.3): P [Nt = k, Nt+h = k + l, Yk+l = y | Gk ] = (10.4.3) = = P [Nt = k, Nt+h = k + l | T1 , . . . , Tk ] · P [Yk+l = y | Y0 , Y1 , . . . , Yk ] P [Nt = k | T1 , . . . , Tk ] · P [Nh = l] · π l (Yk , y) (λh)l l P [Nt = k | Gk ] · e−λh π (Yk , y) P -fast sicher. l! Durch Summieren über l folgt: P [Nt = k, Xt+h = y | Gk ] = P [Nt = k | Gk ] · e −λh ∞ X (λh)l l=0 l! π l (Yk , y) P -f.s. (11.6.12) Sei nun A ∈ FtX . Ähnlich wie im Beweis von Satz 10.12 (3) zeigt man, dass dann ein Ereignis Ak ∈ Gk existiert mit A ∩ {Nt = k} = Ak ∩ {Nt = k}, d.h. für Nt = k hängt der Verlauf von Xs für 0 ≤ s ≤ t nur von den Zufallsvariablen T1 , . . . , Tk und Y0 , . . . , Yk ab. Nach (11.6.12) folgt dann P [{Nt = k} ∩ {Xt+h = y} ∩ A] = E[P [Nt = k, Xt+h = y | Gk ] ; Ak ] = E[P [Nt = k | Gk ] · ph (Yk , y) ; Ak ] = E[ph (Xt , y) ; A ∩ {Nt = k}], wobei ph wie in (11.6.7) definiert ist. Hierbei haben wir im letzten Schritt benutzt, dass Xt = Yk auf {Nt = k} gilt. Durch Summieren über k erhalten wir schließlich P [{Xt+h = y} ∩ A] = E[ph (Xt , y) ; A] für alle A ∈ FtX , und damit (11.6.11). Um den Generator zu identifizieren, bemerken wir, dass für y 6= x aus (11.6.7) wegen L (x, y) = λπ(x, y) folgt: ph (x, y) − hL (x, y) Universität Bonn = (e −λh − 1)λhπ(x, y) + e λh ∞ X (λh)n n=2 n! π n (x, y). Wintersemester 2009/2010 418 Wegen KAPITEL 11. MARKOVKETTEN P y∈S π n (x, y) = 1 für alle n ≥ 0 erhalten wir dann die Abschätzung sup x∈S X y6=x |ph (x, y) − hL (x, y)| = O(h2 ). Die Aussage (11.6.8) folgt hieraus, da ph (x, x) − δ(x, x) − hL (x, x) = − X y6=x (ph (x, y) − hL (x, y)) für alle x ∈ S gilt. Vorwärts- und Rückwärtsgleichungen für Markovketten Wir leiten nun Gleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten von Markovketten her. Für die n-Schritt Übergangswahrscheinlichkeiten einer zeitdiskreten Mar- Zeitdiskreter Fall. kovkette mit Übergangskern π gilt π n+1 − π n = (π − I)π n = π n (π − I) für alle n ≥ 0. (11.6.13) Hierbei ist π − I der Generator der Markovkette. Zeitstetiger Fall. Im zeitstetigen Fall erhalten wir als infinitesimale Versionen von (11.6.13) Differentialgleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten. Aus (11.6.8) und der Chapman-Kolmogorov-Gleichung (11.6.1) folgt: Satz 11.31 (Kolmogorovsche Vorwärts- und Rückwärtsgleichung). Für die Übergangsmatrizen pt (x, y) des in Satz 11.30 konstruierten Markovprozesses gilt pt+h − pt h→0 h lim = pt L = L pt für alle t ≥ 0 mit Konvergenz bzgl. der in 11.6.10 definierten Matrixnorm k • k. Insbesondere erfüllen die Übergangswahrscheinlichkeiten die Kolmogorovsche Vorwärtsgleichung (Mastergleichung) d pt (x, y) dt = X pt (x, z)L (z, y), z∈S t ≥ 0, (11.6.14) t ≥ 0. (11.6.15) sowie die Kolmogorovsche Rückwärtsgleichung d pt (x, y) dt = X z∈S Einführung in die Wahrscheinlichkeitstheorie L (x, z)pt (z, y), Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 419 Beweis. Nach (11.6.8) gilt lim h−1 (ph − I) = L bzgl. der Matrixnorm k • k. Da die Norm hց0 multiplikativ mit kpt k ≤ 1 ist, folgt für t, h > 0 nach der Chapman-Kolmogorov-Gleichung pt+h − pt ph − I ph − I − pt L = pt − L ≤ kpt k · −L h h h hց0 ph − I ≤ h − L −→ 0. Entsprechend konvergiert auch pt−h − pt ph − I p − I h = pt−h ≤ kpt−h k · − p L − p L − p L t h h −h h h ph − I + kI − ph k · kL k − L ≤ h für h ց 0 gegen 0. Damit haben wir die Vorwärtsgleichung lim h−1 (pt+h − pt ) h→0 = pt L für t > 0 gezeigt. Der Beweis der Rückwärtsgleichung verläuft ähnlich. Anschaulich können wir die Vorwärtsgleichung folgendermaßen interpretieren: Sei x ∈ S ein fester Zustand. Dann beschreibt die Funktion u(t, y) = pt (x, y) = P [Xt = y | X0 = x], t ≥ 0, y ∈ S, die Zeitentwicklung der Aufenthaltswahrscheinlichkeiten der Markovkette in Zuständen y ∈ S. Die Vorwärtsgleichung besagt, dass u das Anfangswertproblem X ∂u (t, y) = u(t, z)L (z, y) ∂t z∈S für t ≥ 0, u(0, y) = δx (y) löst. Die Wahrscheinlichkeitsmasse im Punkt y ändert sich also dadurch, dass Übergänge von anderen Zuständen z nach y mit den Raten L (z, y), bzw. Übergänge von y in andere Zustände mit der negativen Rate L (y, y) stattfinden. Bei der Analyse chemischer Reaktionen spielt die Vorwärtsgleichung eine wichtige Rolle – sie wird in den Naturwissenschaften meist als Mastergleichung bezeichnet. Für die Rückwärtsgleichung ergibt sich eine ähnliche, aber andere Interpretation: Seien hier y ∈ S und t ≥ 0 fest, und v(s, x) Universität Bonn = pt−s (x, y) = P [Xt = y | Xs = x], s ∈ [0, t], x ∈ S. Wintersemester 2009/2010 420 KAPITEL 11. MARKOVKETTEN Die Funktion v beschreibt die Abhängigkeit der Aufenthaltswahrscheinlichkeiten von dem zurückliegenden Startzeitpunkt und Anfangszustand des Markovprozesses. Die Rückwärtsgleichung besagt dann, dass v das „Endwertproblem“ X ∂v (s, x) = L (x, z)v(s, z), ∂s z∈S s ∈ [0, t], v(t, x) = δy (x) löst. Allgemeiner ergeben sich aus der Vorwärtsgleichung Zeitentwicklungsgleichungen für die Verteilungen µpt des Markovprozesses mit beliebiger Startverteilung µ, und aus der Rückwärtsgleichung Zeitentwicklungsgleichungen für die Erwartungswerte E[f (Xt ) | Xs = x] von Funktionen f : S → R. Die Rückwärtsgleichung liefert auch eine infinitesimale Charakterisierung von Gleichgewichtsverteilungen zeitstetiger Markovketten: Korollar 11.32 (Gleichgewichte zeitstetiger Markovketten). Ist die Annahme (11.6.6) erfüllt, dann sind für eine Wahrscheinlichkeitsverteilung µ auf S die folgenden Aussagen äquivalent: (1). µ ist ein Gleichgewicht der Übergangshalbgruppe (pt )t≥0 aus (11.6.7), d.h. µpt (2). µL = 0, d.h. X = für alle t ≥ 0. µ µ(x)L (x, y) = 0 x∈S für alle y ∈ S. Hierbei gewährleistet die Annahme (11.6.6) unter anderem, dass µL auch im abzählbar unendlichen Fall definiert ist. Beweis. Anschaulich folgt aus der Rückwärtsgleichung d µpt dt = für t ≥ 0, µL pt µp0 = µ, (11.6.16) und damit die Aussage. Um dies auch im abzählbar unendlichen Fall zu rechtfertigen, verwenden P |ν(x)| von signierten Maßen. Für eine Matrix wir die Variationsnorm (ℓ1 -Norm) kνkT V = x∈S q(x, y) (x, y ∈ S) und eine Wahrscheinlichkeitsverteilung µ gilt: kµqkT V Nach Satz 11.30 erhalten wir µpt+h − µpt − µL pt lim hց0 h ≤ TV kµkT V · kqk ≤ Einführung in die Wahrscheinlichkeitstheorie kµkT V = kqk. pt+h − pt − L pt · lim hց0 h = 0, Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 421 und somit (11.6.16), wobei die Ableitung als Grenzwert der Differenzenquotienten in Variationsnorm definiert ist. Aufbauend auf den obigen Resultaten kann man nun, ähnlich wie im zeitdiskreten Fall, die Rekurrenz und Transienz von zeitstetigen Markovketten untersuchen, mittlere Rückkehrzeiten und Trefferwahrscheinlichkeiten berechnen, und einen Ergodensatz beweisen. Unter der Annahme (11.6.6) können Rekurrenz und Transienz vollständig auf den zeitdiskreten Fall zurückgeführt werden, da der zeitstetige Prozess Xt = YNt dieselben Zustände durchläuft wie die zeitdiskrete Markovkette (Yn )n=0,1,2,... . Für die Herleitung von Differenzengleichungen für mittlere Rückkehrzeiten, Trefferwahrscheinlichkeiten usw., sowie den Beweis des Gesetzes der großen Zahlen im zeitstetigen Fall verweisen wir aus das Buch ’Markov Chains’ von J. R. Norris. Wir sehen uns hier noch ein Beispiel an, das einen wichtigen Anwendungsbereich zeitstetiger Markovketten kurz anreißt: Beispiel (M/M/1-Warteschlangenmodell). Im einfachsten Modell einer Warteschlange gibt es nur einen Server. Die Aufträge kommen jeweils nach unabhängigen, mit einem Parameter λ > 0 exponentialverteilten Wartezeiten beim Server an, und die Abstände zwischen den Bearbeitungszeiten zweier Aufträge sind ebenfalls unabhängig, und mit einem Parameter ν exponentialverteilt. Die beiden „M“s in M/M/1 stehen für gedächtnislose (engl. memoryless) Ankunfts- und Bearbeitungszeiten, die „1“ für die Anzahl der Server. Unter diesen (sehr restriktiven) Annahmen wird die Warteschlange durch eine zeitstetige Markovkette mit Zustandsraum S = {0, 1, 2, . . .} und Übergangsraten L (x, x + 1) = λ, L (x, x − 1) = ν, beschrieben, d.h. durch einen zeitstetigen Birth-Death-Process. ν 0 ν 1 λ ν 3 2 λ ν λ 4 λ Abbildung 11.13: Übergangsraten einer M/M/1-Warteschlange. Universität Bonn Wintersemester 2009/2010 422 KAPITEL 11. MARKOVKETTEN Die Wegsprungraten −L (x, x) sind durch λ + ν beschränkt, und die Sprungkette (Yn ) hat die Übergangswahrscheinlichkeiten π(x, x + 1) = λ , λ+ν π(x, x − 1) = ν λ+ν für x > 0, ν . Insbesondere sind die Sprungkette, und damit auch die zeitstetige Markovλ+ν kette, genau dann rekurrent, wenn λ ≤ ν gilt. Die Gleichgewichtsbedingung µL = 0 für den und π(0, 0) = zeitstetigen Prozess lautet −µ(0) · λ + µ(1) · ν = 0, µ(x − 1) · λ − µ(x)(λ + ν) + µ(x + 1) · ν = 0 für x ∈ N. Für λ ≥ ν existiert keine Gleichgewichsverteilung, für λ < ν ist die geometrische Verteilung x λ λ µ(x) = 1− · , x = 0, 1, 2, . . . , ν ν das eindeutige Gleichgewicht. Aus dem Ergodensatz folgt dann beispielsweise, dass die mittRt λ lere Länge 1t Xs ds der Warteschlange sich asymptotisch wie der Erwartungswert der ν−λ 0 Gleichgewichtsverteilung verhält. Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung Für allgemeine Markovprozesse ist die Herleitung von Vorwärts- und Rückwärtsgleichungen technisch häufig deutlich aufwändiger, da der infinitesimale Generator L im Allgemeinen ein unbeschränkter linearer Operator ist. Dies ist bereits bei zeitstetigen Markovketten der Fall, wenn die Wegsprungraten nicht beschränkt sind. Für die Brownsche Bewegung erhalten wir die Kolmogorovschen Gleichungen unmittelbar aus der expliziten Form der Übergangsdichten kx − yk2 −d/2 . pt (x, y) = (2πt) · exp − 2t Als infinitesimaler Generator ergibt sich der Laplaceoperator: Satz 11.33 (Brownsche Bewegung und Wärmeleitungsgleichung). Die Übergangsdichten pt (x, y) der Brownschen Bewegung bilden die Fundamentallösung der Wärmeleitungsgleichung, d.h. es gilt 1 1 ∂ pt (x, y) = ∆x pt (x, y) = ∆y pt (x, y) ∂t 2 2 mit Anfangsbedingung Z lim pt (x, y)f (y) dy = f (x) für alle f ∈ Cb (Rd ) und x ∈ Rd , tց0 Einführung in die Wahrscheinlichkeitstheorie (11.6.17) (11.6.18) Prof. Andreas Eberle 11.6. ZEITSTETIGE MARKOVPROZESSE 423 bzw. lim tց0 Z g(x)pt (x, y) dy Hierbei ist ∆x = d P i=1 ∂2 ∂x2i = für alle g ∈ Cb (Rd ) und y ∈ Rd . g(y) (11.6.19) der Laplace-Operator in der x-Variable. Beweis. Die Gleichung (11.6.17) verifiziert man durch Nachrechnen. Für x ∈ Rd ist pt (x, y)dy eine Normalverteilung mit Mittelwertvektor x und Kovarianzmatrix t·Id . Hieraus folgt (11.6.18), da diese Wahrscheinlichkeitsverteilung für t ց 0 analog zu Beispiel 2 in Abschnitt 8.3 schwach gegen das Diracmaß δx konvergiert. Die Identität (11.6.19) folgt aus (11.6.18) wegen pt (x, y) = pt (y, x). Die Gleichung ∂ pt (x, y) = ∂t ist die Vorwärtsgleichung, und die Gleichung ∂ pt (x, y) ∂t = 1 ∆y pt (x, y) 2 1 ∆x pt (x, y) 2 die Rückwärtsgleichung der Brownschen Bewegung. Anschaulich können wir die Vorwärtsgleichung auch folgendermaßen interpretieren: Für jedes Gebiet D ⊂ Rd mit glattem Rand gilt: Z ∂ ∂ pt (x, D) = pt (x, y)dy ∂t ∂t D Z 1 = ∆y pt (x, y)dy 2 D Z 1 = n(y) · ∇y pt (x, y)ν(dy), 2 ∂D wobei n der äußere Normalenvektor und ν das Oberflächenmaß auf ∂D ist. D y n(y) Abbildung 11.14: Äußerer Normalenvektor der Menge D im Punkt y. Universität Bonn Wintersemester 2009/2010 424 KAPITEL 11. MARKOVKETTEN Also beschreibt 21 n · ∇y pt (x, y) den Nettozufluss von Wahrscheinlichkeitsmasse pro Flächeneinheit durch ein infinitesimales Flächenstück mit Ausrichtung n am Punkt y. Für Funktionen f ∈ Cb2 (Rd ) ergeben sich aus (11.6.17) die Zeitentwicklungsgleichungen ∂ pt f ∂t = 1 ∆pt f 2 = 1 pt ∆f 2 für die Erwartungswerte (pt f )(x) Z = pt (x, y)f (y) dy = Ex [f (Bt )]. Rd pt (x, y) D x y 1 ∂ pt (x, y). Abbildung 11.15: Nettoabfluss 2 ∂y Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle Kapitel 12 Importance Sampling und große Abweichungen Um Wahrscheinlichkeiten seltener Ereignisse zu untersuchen, geht man häufig zu einer neuen absolutstetigen Wahrscheinlichkeitsverteilung über, bzgl. der das relevante Ereignis nicht mehr selten ist. Der Maßwechsel geschieht dabei typischerweise mit einer exponentiellen Dichte. Auf diese Weise erhält man unter Anderem asymptotische Aussagen über die Wahrscheinlichkeiten großer Abweichungen. Eine zentrale Rolle spielt dabei der Begriff der relativen Entropie, die die statistische Unterscheidbarkeit zweier Wahrscheinlichkeitsverteilungen misst. Anwendungen liegen in der Asymptotik von Likelihood basierten Schätz und Testverfahren, und der asymptotischen Effizienz von Importance Sampling Schätzern. 12.1 Relative Dichten und Importance Sampling Oft ist es günstig, Wahrscheinlichkeitsverteilungen mit einer relativen Dichte bzgl. leichter handhabbarer Verteilungen darzustellen. Die relative Dichte ist dabei häufig nur bis auf eine multiplikative Konstante explizit bekannt. Wir stellen hier zunächst einige Grundlagen über relative Dichten zusammen, und betrachten dann Monte-Carlo Verfahren in diesem Kontext. Relative Dichten Seien µ und ν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S). Das Maß µ heißt absolutstetig bzgl. ν (µ ≪ ν), falls jede ν-Nullmenge auch eine µ-Nullmenge ist. Der 425 426 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Satz von Radon-Nikodym besagt, dass µ genau dann absolutstetig bzgl. ν ist, wenn eine relative R Dichte dµ/dν ∈ L1 (S, S, ν) existiert mit µ[B] = dµ (x)ν(dx) für alle B ∈ S, bzw. dν Z f dµ = Z B f· dµ dν dν für alle messbaren f : S → R+ . (12.1.1) Die relative Dichte ist ν-fast sicher eindeutig festgelegt. Ein stochastischer Beweis des Satzes von Radon-Nikodym basierend auf dem Martingal-Konvergenzsatz findet sich z.B. in [Williams: Prob. with martingales]. Die folgenden elementaren Aussagen ergeben sich unmittelbar aus (12.1.1): Satz 12.1. (1). Ist µ absolutstetig bzgl. ν mit ν-fast überall strikt positiver relativer Dichte, dann ist auch ν absolutstetig bzgl. µ und −1 dν dµ (x) = (x) dµ dν für µ-fast alle x ∈ S. (2). Sind µ und ν beide absolutstetig bzgl. eines Referenzmaßes λ mit Dichten f und g, und gilt g > 0 λ-fast überall, dann ist µ absolutstetig bzgl. ν mit relativer Dichte dµ (x) dν = f (x) g(x) für ν-fast alle x ∈ S. (3). Sind µ1 , . . . , µn und ν1 , . . . , νn Wahrscheinlichkeitsverteilungen auf messbaren Räumen (S1 , S1 ), . . . , (Sn , Sn ) mit µi ≪ νi für alle 1 ≤ i ≤ n, dann ist auch µ1 ⊗ µ2 ⊗ . . . ⊗ µn absolutstetig bzgl. ν1 ⊗ ν2 ⊗ . . . ⊗ νn mit relativer Dichte d(µ1 ⊗ . . . µn ) (x1 , . . . , xn ) d(ν1 ⊗ . . . ⊗ νn ) Die letzte Aussage gilt nicht für unendliche Produkte. = n Y dµi i=1 dνi (xi ). Beispiel (Singularität von unendlichen Produktmaßen). Sind µ und ν zwei unterschiedliche Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S), dann ist das unendliche ProN N ν. In der Tat gilt nämlich nach dem Gesetz µ nicht absolutstetig bzgl. ν ∞ := dukt µ∞ := i∈N i∈N der großen Zahlen: "( µ∞ ν∞ n (x1 , x2 , . . .) ∈ S ∞ "( 1X IB (xi ) = µ[B] : lim n→∞ n i=1 n (x1 , x2 , . . .) ∈ S ∞ 1X : lim IB (xi ) = ν[B] n→∞ n i=1 )# )# = 1 = 1 für alle B ∈ S. Ist µ 6= ν, dann existiert eine Menge B ∈ S mit µ[B] 6= ν[B]. Also sind die Wahrscheinlichkeitsverteilungen µ∞ und ν ∞ in diesem Fall singulär. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 427 In Satz 12.10 werden wir sehen, dass die relativen Dichten dµn /dν n der endlichen Produktmaße für µ 6= ν und n → ∞ exponentiell schnell anwachsen. Sind µ und ν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum (S, S) mit beschränkter relativer Dichte, dann können wir ein Acceptance-Rejection Verfahren verwenden, um Stichproben von der Verteilung µ aus Stichproben der Verteilung ν zu erzeugen. In vielen praktischen Anwendungen ist die Dichte nur bis auf eine Normierungskonstante explizit bekannt. Wir nehmen daher an, dass eine beschränkte Funktion ̺ : S → R+ und Konstanten Z, C ∈ (0, ∞) gegeben sind mit dµ (x) dν = 1 · ̺(x), Z ≤ ̺(x) für alle x ∈ S. C (12.1.2) Dies ist beispielsweise der Fall, wenn µ und ν absolutstetige Verteilungen auf Rd mit Dichten proportional zu f (x) bzw. g(x) sind, und f (x) ≤ für alle x ∈ Rd C · g(x) gilt. In diesem Fall können wir ̺ = f /g wählen. Die Konstante C sollte explizit bekannt sein R – die Normierungskonstante Z = ̺ dν kennt man dagegen meistens nicht. Gilt (12.1.2), dann können wir µ folgendermaßen als bedingte Verteilung darstellen: Lemma 12.2. Sei X eine Zufallsvariable mit Verteilung ν, und sei U eine unabhängige, auf (0, 1) gleichverteilte Zufallsvariable. Dann gilt: µ[B] = P X ∈ B U ≤ ̺(X) C für alle B ∈ S. Beweis. Die gemeinsame Verteilung von X und U ist ν ⊗ U(0,1) . Also gilt nach dem Satz von Fubini: ̺(X) P X ∈ B, U ≤ C = Z Z λ(du)ν(dx) B (0, ̺(x) ) C 1 · = C Z ̺(x)ν(dx) B Z = · µ[B], C und insbesondere ̺(X) P U≤ C = Z · µ[S] C = Z . C Die bedingte Wahrscheinlichkeit ist der Quotient der beiden Ausdrücke. Universität Bonn Wintersemester 2009/2010 428 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Das Lemma motiviert das folgende Verwerfungsverfahren zur Simulation von Stichproben von der Wahrscheinlichkeitsverteilung µ: Algorithmus 12.3 (Acceptance-Rejection-Verfahren). repeat erzeuge unabhängige Stichproben x ∼ ν und u ∼ U(0,1) until u ≤ ̺(x) C return x Der folgende Satz zeigt, dass der Algorithmus im Mittel nach C/Z Schritten eine Stichprobe von µ liefert: Satz 12.4. Seien X1 , X2 , . . . : Ω → S und U1 , U2 , . . . : Ω → (0, 1) unter P unabhängige Zufallsvariablen mit Verteilungen ν bzw. U(0,1) . Dann ist die erste Akzeptanzzeit ̺(X (ω)) k T (ω) := min k ∈ N Uk (ω) ≤ C geometrisch verteilt mit Parameter Z/C, und die (fast überall definierte) Zufallsvariable Y (ω) := XT (ω) (ω) hat die Verteilung µ. Beweis. Da die Ereignisse Ek := {Uk ≤ ̺(Xk ) } C unabhängig sind, ist die Zufallsvariable T (ω) = min{k ∈ N | ω ∈ Ek } geometrisch verteilt mit Parameter ̺(Xk ) p = P [Ek ] = P Uk ≤ C Lemma 12.2 = Z . C Weiterhin folgt nach Lemma 12.2: P [Y ∈ B] = = ∞ X k=1 ∞ X k=1 P [XT ∈ B, T = k] P [{Xk ∈ B} ∩ Ek ] = µ[B]. = ∞ X k=1 k−1 Y P [EiC ] i=1 C P [{Xk ∈ B} ∩ E1C ∩ . . . ∩ Ek−1 ∩ Ek ] = ∞ X k=1 P [Xk ∈ B | Ek ] · p · (1 − p)k−1 Bemerkung. (1). Im Algorithmus kommt nur das Verhältnis ̺(x)/C vor, und die Konstante C kann frei gewählt werden, solange C ≥ sup ̺ gilt. Um das Acceptance-Rejection- Verfahren einzusetzen, benötigen wir daher lediglich eine obere Schranke für die unnormierte Dichte ̺. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 429 (2). Die mittlere Anzahl von Versuchen bis zur Akzeptanz beträgt E[T ] = C/Z. Der Algorithmus ist also umso effizienter, je kleiner C gewählt wird. Die letzte Bemerkung zeigt auch eine Schwäche des AR-Verfahrens: Damit die Methode praktikabel ist, muss die relative Dichte gleichmäßig durch eine Konstante beschränkt sein, die nicht zu groß ist. Dies ist besonders in hohen Dimensionen häufig nicht der Fall. Ist man nur an Schätzern von Erwartungswerten, und nicht an der Simulation einzelner Stichproben interessiert, dann bietet es sich an, Importance Sampling anstelle eines AR-Verfahrens zu verwenden. In diesem Fall wird zumindest keine gleichmäßige Schranke für die relative Dichte benötigt, s.u. Alternative Verfahren, um Stichproben zu generieren sind Markov Chain Monte Carlo (MCMC) Methoden. Beispiel (Abgeschnittene Normalverteilungen). Für a > 0 sei µ N (0, 1)[ • | (a, ∞) ] := die auf Werte größer als a konditionierte Standardnormalverteilung. Die Dichte ist proportional zu f (x) e−x = 2 /2 I(a,∞) (x). Eine naive Methode zur Simulation einer Stichprobe von µ ist, solange Stichproben von N (0, 1) zu erzeugen, bis ein Wert größer als a auftritt. Für große a ist dieses Verfahren jedoch extrem ineffizient, da die Akzeptanzwahrscheinlichkeit N (0, 1)[(a, ∞)] sehr klein ist. Besser geht man wie folgt vor: Für x > a gilt f (x) = e−(a+(x−a)) 2 /2 = e−a 2 /2 · e−a(x−a)−(x−a) 2 /2 . Wir schätzen diese Dichte durch die Dichte gλ (x) = λ · e−λ(x−a) · I(a,∞) (x) einer verschobenen Exponentialverteilung mit Parameter λ ≥ a ab. Universität Bonn Wintersemester 2009/2010 430 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN νλ µ(0, 1) a Abbildung 12.1: Dichten der Normalverteilung und der Sampling-Verteilung für die abgeschnittene Normalverteilung (hier die Dichte der Exponentialverteilung). Maximieren von ̺λ = f /gλ liefert: C(λ) := sup ̺λ (x) = x≥a 1 exp((λ − a)2 /2). λ √ Diese Funktion ist für λ = (a+ a2 + 1)/2 minimal. Damit bietet sich der folgende Algorithmus zum Simulieren einer Stichprobe von µ an: √ Setze λ := (a + a2 + 1)/2 repeat erzeuge unabhängige Stichproben u1 , u2 von U(0,1) 1 setze x := a − log u1 (simuliert Stichprobe von νλ ) λ f (x) ̺λ (x) = gλ (x)·C(λ) until u2 ≤ C(λ) return x Seltene Ereignisse und Importance Sampling Sei µ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S, S). Angenommen, wir wollen die Wahrscheinlichkeit θ = µ[A] Einführung in die Wahrscheinlichkeitstheorie = Z IA dµ Prof. Andreas Eberle 12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 431 eines Ereignisses A ∈ S mit einem Monte-Carlo-Verfahren näherungsweise berechnen. Der klassische Monte-Carlo-Schätzer k θ̂k 1X IA (Yi ), k i=1 = Yi unabhängig mit Verteilung µ, ist erwartungstreu mit Varianz Var[θ̂k ] = 1 Varµ [IA ] k θ · (1 − θ) k = und relativem Fehler 2 1/2 E[|θ̂k − θ| ] /θ = σ(θ̂k )/θ = 1−θ k·θ 1/2 . Für seltene Ereignisse ist der relative Fehler hoch, und das Schätzverfahren ineffizient. Ist ν eine andere Wahrscheinlichkeitsverteilung mit µ ≪ ν, dann können wir alternativ den Importance Sampling Schätzer k θek = dµ 1X IA (Xi ) (Xi ), k i=1 dν verwenden. Auch θek ist erwartungstreu, denn θ = µ[A] = Zudem gilt Var[θek ] = Xi unabhängig mit Verteilung ν, Z IA dµ dν dν = 1 dµ Varν IA · . k dν E[θek ]. (12.1.3) Es stellt sich die Frage, wie wir eine Wahrscheinlichkeitsverteilung ν finden, von der wir Stichproben simulieren können, und für die die Varianz in (12.1.3) möglichst klein ist. Wir betrachten zunächst ein Beispiel: Beispiel (Berechnung Gaußscher Wahrscheinlichkeiten). Sei C eine strikt positiv definite symmetrische d × d-Matrix, und sei µ = N (0, C) die multivariate Normalverteilung im Rd mit Dichte f (x) = 1 −1 p exp − x · C x . 2 (2π)d (det C) 1 Angenommen, wir wollen die Wahrscheinlichkeit θ = µ[A] einer offenen Menge A ⊆ Rd mit einem Monte-Carlo Verfahren berechnen. Ist der Nullpunkt in der Menge A enthalten, dann ist A ein „typisches“ Ereignis bzgl. µ, und wir können in der Regel den klassischen Monte-Carlo Universität Bonn Wintersemester 2009/2010 432 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Schätzer θ̂k verwenden. Hier interessiert uns der Fall 0 6∈ A. In diesem Fall ist die Wahrscheinlichkeit θ evtl. sehr klein – wir wenden daher ein Importance Sampling Verfahren an. Um eine geeignete Referenzverteilung ν zu erhalten, wählen wir einen Punkt x∗ aus dem Abschluss A mit f (x∗ ) = sup f (x), x∗ · C −1 x∗ = inf x · C −1 x, d.h. x∈A x∈A (12.1.4) und setzen ν := N (x∗ , C). Wir verschieben die Verteilung also so, dass sie in der Umgebung des „wahrscheinlichsten“ Punktes x∗ ∈ A bzgl. µ, d.h. des Punktes mit maximaler Dichte, konzentriert ist. Die Verteilung ν ist absolutstetig mit Dichte g(x) = Damit erhalten wir dµ (x) dν = 1 ∗ −1 ∗ p exp − (x − x ) · C (x − x ) . 2 (2π)d det C 1 f (x) g(x) = 1 ∗ ∗ −1 −1 ∗ exp −x · C x + x · C x . 2 Ist die Menge A konvex, dann gilt x∗ · C −1 (x − x∗ ) ≥ 0 für alle x ∈ A, da x∗ der Minimierer der quadratischen Form x 7→ x · C −1 x in A ist. Damit erhalten wir 1 ∗ dµ −1 ∗ sup (x) = exp − x · C x , 2 x∈A dν und somit nach (12.1.3) Z 2 Z dµ dµ 1 dµ dν = dν k dν A A 1 θ · exp − x∗ · C −1 x∗ . ≤ k 2 1 Var[θek ] ≤ k Offensichtlich ist dieser Wert in vielen Fällen deutlich kleiner als die Varianz θ(1 − θ)/k des klassischen Monte-Carlo Schätzers. Wir wollen nun Importance Sampling Schätzer systematischer untersuchen. Sei allgemein Z θ = φ dµ mit φ ∈ L1 (µ), Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 433 und sei ν eine zu µ absolutstetige Verteilung mit relativer Dichte w dν dµ = > 0 µ-fast überall. Dann ist auch µ absolutstetig bzgl. ν mit relativer Dichte 1/w, und es gilt φ/w ∈ L1 (ν). Wegen θ = Z φ dµ Z = φ dν w ist der Importance Sampling Schätzer k θek = 1X φ(Xi )/w(Xi ), k i=1 Xi unabhängig mit Verteilung ν, erwartungstreu, und nach dem Gesetz der großen Zahlen konsistent, d.h. θek → θ P -fast sicher für k → ∞. Für den mittleren quadratischen Fehler ergibt sich: Satz 12.5 (MSE von Importance Sampling). (1). Es gilt E[|θek − θ|2 ] = σν2 /k mit σν2 = φ Varν w Z = φ2 (x) µ(dx) − θ2 . w(x) (2). Der mittlere quadratische Fehler ist minimal, falls w proportional zu |φ| ist. Beweis. (1). Die Aussage folgt, da θek erwartungstreu ist mit k · Var[θek ] = Varν [φ/w] = Z φ(x) −θ w(x) 2 w(x)µ(dx). (2). Aus der Cauchy-Schwarz Ungleichung ergibt sich Z |φ| dµ 2 = Z |φ| √ √ w dµ w 2 ≤ Z φ2 dµ · w Z w dµ = σν2 + θ2 Dies liefert eine untere Schranke für den mittleren quadratischen Fehler. Zudem gilt Gleich√ √ heit in der Cauchy-Schwarz Ungleichung genau dann, wenn w proportional zu |φ|/ w ist, also, wenn w ∝ |φ| ist. Das Optimalitätsresultat aus Satz 12.5 ist eher von theoretischer als von praktischer Bedeutung, wie das folgende Beispiel zeigt: Universität Bonn Wintersemester 2009/2010 434 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Beispiel (Seltene Ereignisse). Ist θ = µ[A] für eine Menge A ∈ S, also φ = IA , dann ist w = IA , µ[A] d.h. ν = µ[• | A], die Importance Sampling Verteilung mit minimalem quadratischen Fehler. Die Simulation von Stichproben von der bedingten Verteilung ist jedoch für Ereignisse A mit kleiner Wahrscheinlichkeit oft nicht praktikabel. Das AR-Verfahren ist in diesem Fall ineffizient, da die mittlere Akzeptanzzeit mindestens 1/µ[A] beträgt. Zumindest liefert Satz 12.5 eine gewisse Rechtfertigung für die Faustregel, dass man bei der Auswahl einer IS Verteilung ν darauf achten sollte, die relative Dichte w von ν bzgl. µ dort groß zu wählen, wo auch der Integrand φ betragsmäßig große Werte annimmt. Da die optimale Importance Sampling Verteilung gewöhnlich nicht realisierbar ist, betrachtet man stattdessen üblicherweise nur Verteilungen aus einer ein- oder mehrparametrigen Familie (νt )t∈Θ von Wahrscheinlichkeitsverteilungen, und versucht σν2 innerhalb dieser Familie zu minimieren. Am wichtigsten sind dabei die im nächsten Abschnitt betrachteten exponentiellen Familien, da diese eine Minimierungseigenschaft bzgl. der relativen Entropie besitzen, s. Satz 12.13 unten. Bemerkung. (1). Asymptotische Normalität: Ist φ/w ∈ L2 (ν), dann folgt aus dem zentralen Grenzwertsatz die asymptotische Normalität des Importance Sampling Schätzers: √ k(θek − θ) D −→ N (0, σν2 ) für k → ∞. Für praktische Anwendungen ist der nicht-asymptotische mittlere quadratische Fehler allerdings wichtiger. (2). Importance Sampling mit unnormierten Dichten: In Anwendungen ist die relative Dichte oft nur bis auf eine Normierungskonstante bekannt, d.h. es gilt dµ (x) dν = 1 w(x) ∝ ̺(x) mit einer explizit bekannten Funktion ̺(x), aber einem unbekannten Proportionalitätsfaktor. In diesem Fall können wir die Darstellung θ = Z φ dµ = Einführung in die Wahrscheinlichkeitstheorie Z dµ φ dν dν = R φ̺ dν R ̺ dν Prof. Andreas Eberle 12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 435 nutzen, und θ durch den Schätzer 1 k θk = k P i=1 1 k k P φ(Xi )̺(Xi ) k P = φ(Xi )̺(Xi ) i=1 ̺(Xi ) k P Xi i.i.d. ∼ ν, , ̺(Xi ) (12.1.5) i=1 i=1 approximieren. Nach dem Gesetz der großen Zahlen ist θk konsistent, d.h. θk → θ fast sicher für k → ∞. Ein zentraler Grenzwertsatz gilt ebenfalls. Allerdings ist θk i. A. nicht erwartungstreu, und der nicht-asymptotische mittlere quadratische Fehler ist nicht so leicht zu kontrollieren, da der Nenner in (12.1.5) degenerieren kann. (3). Schätzen der Varianz: Ein weiteres zentrales Problem in Anwendungen ist, dass die Varianz σν2 in der Regel nicht bekannt ist, und häufig auch keine guten Abschätzungen für σν2 vorliegen. Daher behilft man sich in der Praxis oft damit, die Varianz empirisch zu schätzen, z.B. durch k s2k 1 X k − 1 i=1 = φ(Xi ) e − θk w(Xi ) 2 . Die empirische Schätzung kann jedoch irreführend sein, wie das folgende warnende Beispiel zeigt: Beispiel. Sei µ das Lebesguemaß auf R, φ(x) = (2π)−1/2 exp(−|x − m|2 /2) die Dichte der Normalverteilung mit Varianz 1 und Mittelwert m ∈ R, und ν die Standardnor- malverteilung. In diesem Fall gilt θ = Z φ dµ = 1. Obwohl µ keine Wahrscheinlichkeitsverteilung ist, können wir wie oben Importance Sampling mit Referenzverteilung ν durchführen. Es gilt dann w(x) = (2π)−1/2 exp(−x2 /2) und σν2 = Z φ(x)2 dx − 1 = (2π)−1/2 w(x) Z em 2 −(x−2m)2 /2 2 dx − 1 = em − 1. Hieraus folgt, dass schon für m = 5 mindestens k ≥ 6.5 · 1015 Stichproben benötigt werden, damit für den mittleren quadratischen Fehler Universität Bonn E[|θek − θ|2 ]1/2 = σν · k −1/2 < 1 3 Wintersemester 2009/2010 436 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN gilt. Empirisches Schätzen der Varianz in Simulationsläufen liefert ganz andere Ergebnisse. Beispielsweise erhielten wir für k = 106 Stichproben in einem typischen Simulationslauf s2k = 6816, d.h. sk · k −1/2 ≈ 0.08 < 1/3. Die empirische Varianzschätzung suggeriert hier also die falsche Aussage, dass der Schätzwert bereits für k = 106 genau genug ist! Die Ursache ist in diesem Fall, dass praktisch keine Stichproben im relevanten Bereich x ≈ m landen. Daher ist nicht nur der Schätzwert für θ, sondern auch die empirische Varianz sehr klein. Tatsächlich rechnet man in dem Beispiel leicht nach, dass Var[s2k ] 1 Varν [φ/w] k−1 = ≤ 1 2 (e6m − 1) k−1 gilt – der Schätzer s2k für die Varianz ist also völlig unbrauchbar. Das Problem ist, dass in vielen Anwendungen ähnliche Effekte auftreten können, aber nicht so leicht zu erkennen sind. 12.2 Exponentielle Familien und große Abweichungen In diesem Abschnitt wollen wir uns überlegen, wie die Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen sowohl asymptotisch als auch numerisch berechnet werden können. In beiden Fällen hilft uns dasselbe Prinzip weiter: Ein Maßwechsel zu einer Verteilung aus einer exponentiellen Familie. Exponentielle Familien Sei µ ein positives Maß auf (S, S), U : S → Rd eine messbare Funktion, und Z Z(t) = et·U dµ, t ∈ Rd , die momentenerzeugende Funktion von U mit Definitionsbereich Θ = Für t ∈ Θ sei Λ(t) {t ∈ Rd | Z(t) < ∞}. = log Z(t) die kumulantenerzeugende Funktion. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 437 Definition. Die Familie der Wahrscheinlichkeitsverteilungen νt (dx) := 1 t·U (x) e µ(dx) Z(t) et·U (x)−Λ(t) µ(dx), = t ∈ Θ, heißt exponentielle Familie zu µ und U . Bemerkung (Boltzmannverteilung). In der statistischen Physik treten exponentielle Familien als Gleichgewichsverteilungen auf. Beispielsweise ist die Verteilung im thermodynamischen Gleichgewicht in einem abgeschlossenen System bei inverser Temperatur β = 1/T gleich νβ , wobei µ die Gleichverteilung bzw. das Lebesguemaß auf dem Zustandsraum und U (x) = −H(x) die negative Energie des Zustandes x ist. Die Normierungskonstante Z(β) heißt in der statistischen Physik Partitionsfunktion. Wir betrachten nun einige elementare Beispiele von exponentiellen Familien: Beispiel. (1). Exponential und Gammaverteilungen. Ist µ die Exponentialverteilung mit Parameter λ > 0, und U (x) = −x, dann ist M (t) für t > −λ endlich, und es gilt νt = für alle t > −λ. Exp(λ + t) Die exponentielle Familie besteht also aus allen Exponentialverteilungen. Ist µ = Γ(α, λ) eine Gammaverteilung, dann gilt entsprechend νt = Γ(α, λ + t). (2). Bernoulli-, Binomial- und Poissonverteilungen Ist µ die Bernoulliverteilung mit Parameter p und U (k) = k, dann gilt νt (1) = pt mit pt = et p et p + 1 − p = p , p + (1 − p)e−t d.h. νt ist die Bernoulliverteilung mit Parameter pt . Entsprechend gilt für U (k) = k: µ = Bin(n, p) µ = Poisson(λ) ⇒ ⇒ νt = Bin(n, pt ), und νt = Poisson(λet ). Die exponentielle Familie besteht also jeweils aus allen Bernoulliverteilungen, Binomialverteilungen mit festem n, bzw. Poissonverteilungen. (3). Normalverteilungen. Ist µ = N (m, C) eine d-dimensionale Normalverteilung, und U (x) = x, dann gilt νt = N (m + Ct, C) für t ∈ Rd . Im nichtdegenerierten Fall enthält die exponentielle Familie also alle Normalverteilungen mit fester Kovarianzmatrix C. Für d = 1, µ = N (m, σ 2 ), und U (x) Universität Bonn = − (x − m)2 2 Wintersemester 2009/2010 438 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN erhält man νt = N m, 1 1 + σ2 t −1 ! für t > 0, d.h. die exponentielle Familie besteht aus Normalverteilungen mit festem Mittelwert m. Entsprechend kann man die Familie der eindimensionalen Normalverteilungen als zweiparametrige exponentielle Familie bzgl. einer Referenz-Normalverteilung interpretieren. Wir beschränken uns nun auf den Fall d = 1. Sei (νt )t∈Θ eine einparametrige exponentielle ◦ Familie zu µ und U , und sei Θ = Θ \ ∂Θ der offene Kern des Definitionsbereichs. Lemma 12.6 (Eigenschaften exponentieller Familien). ◦ ◦ (1). Es gilt Z ∈ C ∞ (Θ). Für t ∈ Θ existieren die Erwartungswerte und Varianzen Z m(t) = U dνt bzw. v(t) = Varνt [U ], und es gilt m(t) Λ′ (t) = und v(t) = Λ′′ (t). ◦ (2). Die Funktion m ist auf Θ beliebig oft differenzierbar und monoton wachsend. Ist U nicht ν-fast überall konstant, dann ist m sogar strikt monoton wachsend. Im Fall Θ = R gilt zudem lim m(t) = esssup U = inf{a ∈ R : µ[U > a] = 0}, und (12.2.1) lim m(t) = essinf U = sup{a ∈ R : µ[U < a] = 0}, (12.2.2) t→∞ t→−∞ d.h. m : R → (essinf U, esssup U ) ist bijektiv. Beweis. ◦ (1). Sei t ∈ Θ. Wir betrachten die momentenerzeugende Funktion Z M (s) = esU dνt ◦ der Verteilung νt . Wegen t ∈ Θ gilt Z 1 (s+t)U M (s) = e dµ Z(t) = Z(s + t)/Z(t) < ∞ (12.2.3) für alle s in einer Umgebung (−ε, ε) der 0, also M ∈ C ∞ (−ε, ε). Wegen (12.2.3) folgt Z ∈ C ∞ (t − ε, t + ε), Z U dνt = M ′ (0) = Varνt [U ] = (log M )′′ (0) Einführung in die Wahrscheinlichkeitstheorie Z ′ (t) = Λ′ (t), Z(t) = Λ′′ (t). und Prof. Andreas Eberle 12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 439 ◦ (2). Aus (1) folgt m = Λ′ ∈ C ∞ (Θ) und m′ = v. Also ist m monoton wachsend, und strikt monoton wachsend, falls Varνt [U ] > 0. Für a ∈ (essinf U, esssup U ) folgt mit monotoner Konvergenz νt [U ≤ a] νt [U > a] R tU e · I{U ≤a} dµ R etU · I{U >a} dµ = = für t → ∞, also lim νt [U > a] = 1. Hieraus folgt t→∞ lim inf m(t) t→∞ ≥ a · lim inf νt [U > a] t→∞ R t(U −a) e · I{U ≤a} dµ R et(U −a) · I{U >a} dµ = a → 0 für alle a < esssup U, also (12.2.1). Die Aussage (12.2.2) zeigt man analog. Beispiel (Isingmodell). Das Isingmodell wurde 1925 in der Dissertation von Ernst Ising mit der Absicht eingeführt, Phasenübergänge von ferromagnetischen Materialien in einem vereinfachten mathematischen Modell nachzuweisen. Heute spielt das Isingmodell eine wichtige Rolle als einfach zu formulierendes, aber schwer zu analysierendes grundlegendes mathematisches Modell, das auch in unterschiedlichen Anwendungsbereichen wie z.B. der Bildverarbeitung eingesetzt wird. Sei S = {−1, 1}V , wobei V die Knotenmenge eines endlichen Graphen (V, E) ist, z.B. V = {−k, −k + 1, . . . , k − 1, k}d ⊆ Zd , d, k ∈ N. Ein Element σ = (σi |i ∈ V ) aus S interpretieren wir physikalisch als Konfiguration von Spins σi ∈ {−1, 1} an dem Knoten i ∈ V , wobei σi = +1 für einen Spin in Aufwärtsrichtung und σi = −1 für einen Spin in Abwärtsrichtung steht. Da benachbarte Spins sich vorzugsweise gleich ausrichten, ist die Energie einer Konfiguration σ durch X X H(σ) = |σi − σj |2 + h · σi (i,j)∈E i∈V gegeben, wobei die erste Summe über alle Kanten des Graphen läuft, und der zweite Term die Wechselwirkung mit einem äußeren Magnetfeld mit Stärke h ∈ R beschreibt. Als Gleichge- wichtsverteilung bei inverser Temperatur β = 1/T ergibt sich die Verteilung µβ,h auf S mit Gewichten µβ,h (σ) ∝ exp(−β X (i,j)∈E |σi − σj |2 − βh · X σi ). i∈V Die folgende Grafik zeigt Stichproben von der Verteilung µβ,h auf einem ?×? Gitter V für verschiedene Werte von β und h. Für β = 0 (d.h. bei unendlicher Temperatur) ergibt sich eine Universität Bonn Wintersemester 2009/2010 440 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Gleichverteilung. Für β → ∞ (Temperatur → 0) konzentriert sich die Verteilung dagegen auf den energieminimierenden Konfigurationen. Dieses sind für h = 0 die beiden konstanten Konfigurationen σi ≡ +1 und σi ≡ −1, für h 6= 0 hat dagegen nur eine dieser Konfigurationen minimale Energie. Der Satz von Cramér Sei µ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S, S), U : S → R eine messbare Funktion, und sei (Xi )i∈N eine Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilung µ. Wir setzen voraus: Annahmen: (1). Alle exponentiellen Momente der Zufallsvariablen U (Xi ) existieren, d.h. Z Λ(t) = log etU dµ < ∞ für alle t ∈ R. (2). U ist nicht µ-fast sicher konstant. Sei a ∈ R fest. Wir möchten nun die Asymptotik der Wahrscheinlichkeiten θn = P [Sn ≥ an], Sn = n X U (Xi ), i=1 für n → ∞ genauer untersuchen. Nach dem Gesetz der großen Zahlen gilt: Z Sn /n −→ m = U dµ P -fast sicher. Für a > m ist das Ereignis {Sn ≥ an} also eine große Abweichung vom typischen Verhalten. Der Satz von Chernoff liefert eine obere Schranke der Wahrscheinlichkeiten θn . Um die Asymptotik genauer zu verstehen, führen wir eine Maßtransformation durch. Es gilt ( ) n X θn = µn [An ] mit An = x ∈ S n : U (xi ) ≥ an . (12.2.4) i=1 Wir wollen zu einer Verteilung übergehen, bzgl. der das Ereignis An nicht mehr selten, sondern typisch ist. Dazu betrachten wir die Produktmaße νtn , t ∈ R, wobei νt absolutstetig bzgl. µ ist mit Dichte dνt (x) dµ = Einführung in die Wahrscheinlichkeitstheorie exp (tU (x) − Λ(t)) . Prof. Andreas Eberle 12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 441 Die relative Dichte von νtn bzgl. µn ist dann wtn (x1 , . . . , xn ) = n Y dνt i=1 dµ (xi ) = exp t n X i=1 ! U (xi ) − nΛ(t) . (12.2.5) Man beachte, dass (νtn )t∈R wieder eine exponentielle Familie ist. Es gilt wtn (X1 , . . . , Xn ) exp(tSn − nΛ(t)). = Bemerkung. Der stochastische Prozess Mn = exp(tSn − nΛ(t)), n = 0, 1, 2, . . . , ist ein expo- nentielles Martingal. Exponentielle Martingale spielen in der stochastischen Analysis eine wichtige Rolle, s. [Introduction to Stochastical Analysis]. Wir wollen uns nun überlegen, wie wirden Parameter t in angemessener Weise wählen können. Wenn wir t zu klein wählen, dann hat das Ereignis An für große n nur eine geringe Wahrscheinlichkeit bzgl. νtn . Wählen wir umgekehrt t sehr groß, dann liegt die Wahrscheinlichkeit νtn [An ] für große n nahe bei 1. In beiden Fällen sind Abschätzungen für νtn [An ] daher nur bedingt aussagekräftig. Um eine präzisere Aussage zu erhalten, sollten wir t so groß wählen, dass das Ereignis An „gerade typisch wird.“ Der Erwartungswert Z m(t) = U dνt , t ∈ R, ist nach Lemma 12.6 strikt monoton wachsend. Wählen wir t∗ mit m(t∗ ) = a, dann gilt nach dem Gesetz der großen Zahlen )# "( n X 1 U (xi ) ∈ (a − ε, a + ε) lim νtn∗ x ∈ Sn : n→∞ n i=1 und nach dem zentralen Grenzwertsatz "( lim νtn∗ n→∞ n 1X U (xi ) ≥ a x ∈ Rn : n i=1 )# = 1 = für alle ε > 0, 1 , 2 d.h. t∗ ist gerade der gesuchte „Schwellenwert.“ Die Umsetzung unserer Überlegungen führt zu einer ersten Aussage über die Asymptotik der Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen auf der exponentiellen Skala: Universität Bonn Wintersemester 2009/2010 442 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Satz 12.7 (Cramér). Unter den Annahmen von oben gilt 1 Sn lim log P ≥a = −I(a) für alle a ∈ (m, esssup U ), n→∞ n n wobei die Ratenfunktion I(a) sup(ta − Λ(t)) = t∈R die Legendretransformation von Λ ist. Bemerkung. Der Satz von Cramér besagt, dass sich die Wahrscheinlichkeiten θn = P [Sn /n ≥ a] asymptotisch wie exp(−n · I(a)) verhalten, wenn man subexponentiell wachsende Faktoren vernachlässigt. Er besagt nicht, dass die Folgen (θn ) und (exp(−n·I(a))) asymptotisch äquivalent sind! Beweis. Der Beweis setzt sich zusammen aus einer nicht-asymptotischen Abschätzung der Wahrscheinlichkeiten θn = P [Sn ≥ an] = n An = {x ∈ S µ [An ], n : n X i=1 U (xi ) ≥ an}, nach oben, und einer asymptotischen Abschätzung der Wahrscheinlichkeit nach unten. (1). Obere Schranke. Die nicht-asymptotische obere Schranke 1 log θn ≤ −I(a) n für alle n ∈ N liefert der Satz von Chernoff (Satz 8.3). Zur Illustration schreiben wir das Hauptargument aus dem Beweis von oben noch einmal so auf, dass der Zusammenhang mit einer Maßtransformation verdeutlicht wird: Für t > 0 gilt nach (12.2.5): Z 1 n θn = µ [An ] = dν n wtn t An = Z exp −t An n X U (xi ) + Λ(t)n i=1 ! dνtn ≤ e−(ta−Λ(t))n · νtn [An ] ≤ e−(ta−Λ(t))n . Hieraus folgt die Behauptung wie im Beweis von Satz 8.3 durch Optimieren der Abschätzung in t. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 443 (2). Untere Schranke. Wir zeigen nun die asymptotische untere Schranke lim inf n→∞ 1 log µn [An ] n ≥ −I(a). (12.2.6) Zusammen mit der oberen Schranke folgt dann 1 log µn [An ] n→∞ n lim = −I(a), d.h. die obere Schranke ist asymptotisch „scharf“. Zum Beweis von (12.2.6) gehen wir zu der Verteilung νtn∗ zum Schwellenwert t∗ = m−1 (a) über. Nach Lemma 12.6 ist m : R → (essinf U, esssup U ) bijektiv, also existiert m−1 (a) > 0 für a ∈ (m, esssup U ). Für ε > 0 sei An,ε = ( x ∈ Sn ) n 1X : a≤ U (xi ) ≤ a + ε . n i=1 Ähnlich wie bei der oberen Schranke erhalten wir ! Z n X ∗ n n exp −t U (xi ) + Λ(t)n dνtn∗ µ [An ] ≥ µ [An,ε ] = i=1 An,ε ≥ e−(t ∗ (a+ε)−Λ(t∗ ))n ≥ e−I(a)·n e−t Wegen R ∗ εn νtn∗ [An,ε ] · νtn∗ [An,ε ] (12.2.7) U dνt∗ = m(t∗ ) = a gilt nach dem zentralen Grenzwertsatz: # " n X √ 1 νtn∗ [An,ε ] = νtn∗ 0 ≤ √ (U (xi ) − a) ≤ ε n n i=1 n→∞ −→ N (0, Var[U ])[[0, ∞)] 1 , 2 = (12.2.8) d.h. die große Abweichung ist typisch unter νtn∗ . Für die Wahrscheinlichkeiten bzgl. µn ergibt sich dann nach (12.2.7): lim inf 1 log µn [An ] ≥ −I(a) − t∗ ε. n Die Behauptung folgt für ε ց 0. Bemerkung. Ähnliche Aussagen über die Asymptotik von Wahrscheinlichkeiten großer Abweichungen wurden auch in vielen Modellen mit Abhängigkeit bewiesen. Sie spielen unter anderem in der mathematischen statistischen Mechanik eine wichtige Rolle. Universität Bonn Wintersemester 2009/2010 444 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Asymptotische Effizienz von IS Schätzern Der beschriebene Maßwechsel ermöglicht nicht nur die asymptotische Berechnung der Wahrscheinlichkeiten θn P [Sn ≥ an] = µn [An ]. = Wir können den Maßwechsel auch praktisch verwenden, um die Wahrscheinlichkeiten θn numerisch mithilfe von Importance Sampling zu berechnen. Wählen wir νtn als Referenzmaß, dann erhalten wir nach (12.2.5) die Importance Sampling Schätzer k X I 1 A (j) n (k) (X1 , . . . , Xn(j) ) θen = k j=1 wtn k 1X = I{Sn(j) ≥an} · exp −tSn(j) + Λ(t) · n k j=1 (j) mit unabhängigen Zufallsvariablen Xi (j) mit Verteilung νt und Sn = n P i=1 (j) Xi . Wir können ver- muten, dass auch diese Schätzer für große n nur für t nahe t∗ effizient sind, da ansonsten das Ereignis An eine Wahrscheinlichkeit nahe 0 oder 1 bzgl. νtn hat, und daher die überwiegende (j) Mehrheit der Stichproben Sn außerhalb bzw. in An liegt. Diese Vermutung lässt sich bestätigen. Auf ähnliche Weise wie beim Beweis des Satzes von Cramér erhalten wir: (k) Lemma 12.8. Der Schätzer θen ist für jedes t ∈ R und k, n ∈ N erwartungstreu. Für die Varianz gelten folgende Abschätzungen: Var[θen(k) ] 1 −2n·(at−Λ(t)) e , k ≤ (k) log Var[θen ] lim inf n→∞ log θn2 ≥ (12.2.9) at − Λ(t) . I(a) (12.2.10) Bemerkung. Die zweite Aussage sieht auf den ersten Blick wie eine untere Schranke aus. Tatsächlich handelt es sich aber um eine Abschätzung der Varianz nach oben, da der Nenner log θn2 negativ ist. Beweis. Für die Varianz erhalten wir ähnlich wie beim Beweis der oberen Schranke im Satz von Cramér: k· Var[θen(k) ] = Varνn [IAn /wtn ] = Z ≤ Z (wtn )−2 dνtn An exp −2t An n X i=1 U (xi ) + 2Λ(t) · n ! νtn (dx) ≤ exp(−2 · (ta − Λ(t))n), Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 445 wobei wtn = dνtn /dµn die relative Dichte ist. In Kombination mit der unteren Schranke aus dem Satz von Cramér folgt lim inf n→∞ (k) (k) log Var[θen ] 1 −n−1 log Var[θen ] = lim inf log θn2 2 n→∞ −n−1 log θn (k) 1 − lim sup n−1 log Var[θen ] · ≥ 2 − lim inf n−1 log θn at − Λ(t) ≥ . I(a) Hierbei haben wir die Vorzeichen eingefügt, da log θn negativ ist. Aus dem Lemma ergibt sich: (k) Satz 12.9 (Logarithmische Effizienz). Gilt t = t∗ , dann ist die Folge (θen )n∈N von Schätzern für die Wahrscheinlichkeiten θn für jedes k ∈ N logarithmisch effizient, d.h. für jedes ε > 0 gilt E[|θen − θn |2 ] θn2−ε (k) lim sup n→∞ ∞. < Beweis. Die Funktion f (t) = ta − Λ(t) hat ein globales Maximum bei t∗ = m−1 (a), denn es gilt f ′ (t) = a − Λ′ (t) f ′′ (t) = −Λ′′ (t) a − m(t) = 0 für t = t∗ , und − Varνt [U ] < 0 für alle t ∈ R. sup(ta − Λ(t)) = t∗ a − Λ(t∗ ). ≤ −1, = = Also gilt I(a) = t∈R ∗ Für t = t folgt dann aus Lemma 12.8 (n) log Var[θek ] lim sup − log θk2 k→∞ d.h. zu jedem ε > 0 existiert ein n0 ∈ N mit bzw. log Var[θen(k) ] Var[θen(k) ] ≤ ≤ θn2+2ε −(−1 + ε) log θn2 , für alle n ≥ n0 . Umgekehrt kann man zeigen, dass bei anderer Wahl von t keine logarithmische Effizienz vorliegt. Dies rechtfertigt die zunächst anschaulich motivierte Wahl von t als Schwellenwert t∗ = m−1 (a). Universität Bonn Wintersemester 2009/2010 446 12.3 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Relative Entropie und statistische Unterscheidbarkeit In diesem Abschnitt werden wir den Wechsel des zugrundeliegenden Wahrscheinlichkeitsmaßes systematischer untersuchen. Dabei spielt der Begriff der relativen Entropie eine zentrale Rolle. Relative Entropie Seien µ und ν Wahrscheinlichkeitsverteilungen auf S = Rd oder einem diskreten Raums mit Dichten (bzw. Massenfunktionen) f, g > 0. Die relative Dichte w von ν bzgl. µ ist w(x) dν (x) dµ := g(x) f (x) = für µ-fast alle x ∈ S. Die Dichte bzw. Massenfunktion Ln (µ; x1 , . . . , xn ) n Y = f (xi ) i=1 der Verteilung n unabhängiger Stichproben X1 , . . . , Xn von µ bezeichnet man auch als Likelihood der Verteilung µ bzgl. der Daten (x1 , . . . , xn ). Wie kann man anhand von unabhängigen Stichproben erkennen, welche der beiden Verteilungen µ und ν in einem Zufallsexperiment vorliegt? Dazu betrachten wir den Likelihoodquotienten wn (x1 , . . . , xn ) := Ln (ν; x1 , . . . , xn ) Ln (µ; x1 , . . . , xn ) = n Q i=1 n Q i=1 Definition. Die durch H(ν | µ) = Z H(ν | µ) = ∞ log w dν = sonst, Z w log w dµ g(xi ) = f (xi ) n Y w(xi ). i=1 falls ν ≪ µ mit Dichte w, definierte Größe H(ν | µ) ∈ [0, ∞] heißt relative Entropie (oder Kullback-Leibler Information) von ν bzgl. µ. Um eine anschauliche Interpretation der relativen Entropie zu geben, bemerken wie, dass Z Z g (− log f (x) − (− log g(x))) ν(dx) H(ν | µ) = log dν = f gilt. Wir können − log f (x) und − log g(x) als Maß für die Überraschung (den Informationsge- winn) bei Eintreten von x interpretieren, falls µ bzw. ν das zugrundeliegende Modell ist. Wenn Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 447 wir also µ als Modell annehmen, aber tatsächlich ν die zugrundeliegende Verteilung ist, dann erhöht sich die Überraschung (der Informationszuwachs) bei Ziehen einer Stichprobe im Vergleich zum korrekten Modell im Mittel um H(ν | µ). Satz 12.10 (Shannon-Mac Millan). Seien X1 , X2 , . . . : Ω → S unabhängige Zufallsvariablen unter Pµ bzw. Pν mit Verteilung µ bzw. ν. Dann gilt für n → ∞: (1). 1 log wn (X1 , . . . , Xn ) n (2). 1 log wn (X1 , . . . , Xn ) n Beweis. −→ −→ H(ν | µ) Pν -fast sicher. −H(µ | ν) Pµ -fast sicher. (1). Für n → ∞ gilt nach dem Gesetz der großen Zahlen 1 log wn (X1 , . . . , Xn ) n n 1X log w(Xi ) n i=1 = −→ Das Gesetz der großen Zahlen ist anwendbar, da Z Z − (log w) dν = (w log w)− dµ Z ≤ log w dν 1 e Pν -fast sicher. ∞. < (2). Da µ absolutstetig bzgl. ν mit Dichte 1/w ist, gilt entsprechend 1 log wn (X1 , . . . , Xn ) n n 1 1X log n i=1 w(Xi ) Z 1 GdgZ −→ − log dµ = w = − −H(µ | ν) Pµ -fast sicher. Der Satz zeigt, dass sich die Produktdichte (der Likelihoodquotient) asymptotisch auf der exponentiellen Skala (d.h. unter Vernachlässigung subexponentiell wachsender Faktoren) folgendermaßen verhält: wn (X1 , . . . , Xn ) ≃ enH(ν | µ) e−nH(µ | ν) Pν -fast sicher . Pµ -fast sicher Das folgende Lemma fasst einige elementare Eigenschaften der relativen Entropie zusammen: Lemma 12.11 (Eigenschaften der relativen Entropie). Universität Bonn Wintersemester 2009/2010 448 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN (1). Es gilt H(ν | µ) ≥ 0 mit Gleichheit genau dann, wenn ν = µ. (2). Ist µ die Gleichverteilung auf einer endlichen Menge S, dann gilt H(ν | µ) (3). H(ν1 ⊗ . . . ⊗ νn | µ1 ⊗ . . . ⊗ µn ) Beweis. = = n P i=1 log |S| − H(ν). (12.3.1) H(νi | µi ). (1). Aus der Jensenschen Ungleichung folgt Z Z Z H(ν | µ) = w log w dµ ≥ w dµ · log w dµ = 0. Gleichheit gilt genau dann, wenn w µ-fast sicher konstant, also ν = µ ist. (2). In diesem Fall gilt w(x) = ν(x) · |S|, also H(ν | µ) = X x∈S ν(x) log(ν(x) · |S|) = log |S| − H(ν). (3). Übung. Nach (12.3.1) liefern Aussagen über die relative Entropie als Spezialfall entsprechende Aussagen für die Entropie. Beispiel. (1). Bernoulliverteilungen: Für die Bernoulliverteilungen µp mit µp (1) = p und µp (0) = 1 − p gilt: H(µa | µp ) = 1−a a + (1 − a) log a log p 1−p für alle a, p ∈ (0, 1). (2). Normalverteilungen: Für m, m e ∈ R und v, ve > 0 gilt: 1 v (m e − m)2 ve log , H(N (m, e ve) | N (m, v)) = + −1+ 2 ve v v (m e − m)2 H(N (m, e v) | N (m, v)) = . 2v also insbesondere Die relative Entropie ist ein im Allgemeinen nichtsymmetrischer Abstandsbegriff für Wahrscheinlichkeitsverteilungen. Ihre statistische Interpretation werden wir im nächsten Abschnitt noch weiter präzisieren. Zuvor bemerken wir, dass die relative Entropie Aussagen über die Größe wesentlicher Mengen bei Wechsel der zugrundeliegenden Wahrscheinlichkeitsverteilung ermöglicht: Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 449 Maßwechsel und untere Schranken für große Abweichungen Seien X1 , X2 , . . . unter Pµ bzw. Pν unabhängige Zufallsvariablen mit Verteilung µ bzw. ν. Wie in Abschnitt 7.4 nennen wir eine Folge Bn von messbaren Teilmengen der Produkträume S n wesentlich bzgl. ν, falls Pν [(X1 , . . . , Xn ) ∈ Bn ] = ν n [Bn ] −→ 1 für n → ∞. Die folgende Aussage verallgemeinert den Maßkonzentrationssatz von MacMillan und den Quellenkodierungssatz von Shannon aus Abschnitt 7.4. Korollar 12.12. (1). Für jedes ε > 0 ist die Folge Bn,ε := {(x1 , . . . , xn ) | en(H(ν | µ)−ε) ≤ wn (x1 , . . . , xn ) ≤ en(H(ν | µ)+ε) } ⊆ S n wesentlich bzgl. ν, und µn [Bn,ε ] e−n(H(ν | µ)−ε) ≤ für alle n ∈ N. (12.3.2) (2). Für beliebige messbare Mengen An ⊆ S n mit gilt lim inf lim inf ν n [An ] > 0 (12.3.3) 1 log µn [An ] ≥ −H(ν | µ). n (12.3.4) Bemerkung. Der Maßkonzentrationssatz von MacMillan und der Quellenkodierungssatz von Shannon ergeben sich als Spezialfall von (1) bzw. (2), wenn S endlich und ν die Gleichverteilung ist. Wir beweisen nun das Korollar. Beweis. (1). Die Mengen Bn,ε , n ∈ N, sind wesentlich bzgl. ν nach Satz 12.10. Zudem gilt: Z n wn dµn ≥ µn [Bn,ε ] · en(H(ν | µ)−ε) . 1 ≥ ν [Bn,ε ] = Bn,ε (2). beweist man analog zum Quellenkodierungssatz (Satz 7.17): Aus Z 1 n µ [An ] = dνn ≥ e−n(H(ν | µ)+ε) ν n [An ∩ Bn,ε ] wn An Universität Bonn Wintersemester 2009/2010 450 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN folgt 1 1 log µn [An ] ≥ −(H(ν | µ) + ε) + lim inf log ν n [An ∩ Bn,ε ] n n = −(H(ν | µ) + ε), lim inf da lim inf ν n [An ∩ Bn,ε ] = lim inf ν n [An ] > 0 nach (1) gilt. Die Behauptung folgt für ε → 0. Die zweite Aussage der Korollars können wir als eine allgemeine untere Schranke für große Abweichungen interpretieren: Ist An ⊆ S n eine Folge von Ereignissen, deren Wahrscheinlichkeit bzgl. µn gegen 0 geht, dann liefert uns (12.3.4) für jede Wahrscheinlichkeitsverteilung ν mit (12.3.3) eine asymptotische Schranke für die Wahrscheinlichkeiten Pµ [(X1 , . . . , Xn ) ∈ An ] µn [An ] = auf der exponentiellen Skala. Als erste Anwendung betrachten wir nochmal die Situation aus dem Satz von Cramér: Sei U : R S → R eine messbare Funktion mit etU dµ < ∞ für alle t ∈ R, und sei Z a > m = U dµ. Um aus (12.3.4) eine bestmögliche asymptotische untere Schranke für die Wahrscheinlichkeiten µn [An ] der großen Abweichungen ( An = n (x1 , . . . , xn ) ∈ S n 1X U (xi ) ≥ a : n i=1 ) zu erhalten, müssen wir eine Wahrscheinlichkeitsverteilung ν finden, die die relative Entropie H(ν | µ) unter allen Wahrscheinlichkeitsverteilungen ν mit (12.3.3) minimiert. Die Bedingung R (12.3.3) ist aber genau dann erfüllt, wenn U dν ≥ a gilt, denn aus dem Gesetz der großen Zahlen und dem zentralen Grenzwertsatz folgt: lim ν n n→∞ " n 1X U (xi ) ≥ a n i=1 Das sich ergebende Variationsproblem H(ν | µ) = # Z = 1 1/2 0 für a < für a = für a > R R U dν U dν . (12.3.5) U dν ! w log w dµ = min Z Z unter der Nebenbedingung U dν = U w dµ Einführung in die Wahrscheinlichkeitstheorie R ≥ a Prof. Andreas Eberle 12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 451 kann man formal durch Variationsrechnung lösen. Als eindeutige Lösung erhält man gerade die Verteilung νt∗ aus der exponentiellen Familie νt (dx) 1 exp (tU (x)) µ(dx), Z(t) = zum eindeutigen Schwellenwert t∗ mit R Z Z(t) = etU dµ, U dνt∗ = a: Satz 12.13 (Variationsprinzip für die relative Entropie). Sei t ≥ 0 und m(t) = R U dνt . Dann minimiert das Maß νt die relative Entropie bzgl. µ unter allen Wahrscheinlichkeitsverteilungen ν R mit U dν ≥ m(t): H(νt | µ) = t · m(t) − log Z(t) = min{H(ν | µ) : ν Wahrscheinlichkeitsmaß mit Z Beweis. Sei ν eine Wahrscheinlichkeitsverteilung mit H(ν | µ) < ∞ und gilt ν ≪ µ und Z U dν ≥ m(t)}.(12.3.6) R U dν ≥ m(t). Dann Z Z dν dνt = log dν H(ν | µ) = dν + log dνt dµ Z = H(ν | νt ) + t U dν − log Z(t) dν log dν dµ ≥ tm(t) − log Z(t). Für ν = νt ergibt sich Gleichheit. Wir beweisen nun die untere Schranke aus dem Satz von Cramér zur Illustration noch einmal mithilfe von Korollar 12.12: R Für ν = νt∗ gilt U dν = m(t∗ ) = a, also nach 12.3.5 lim ν n [An ] = 21 . Damit erhalten wir nach Korollar 12.12(2) und (12.3.6) die untere Schranke lim inf 1 log µn [An ] n ≥ −H(ν | µ) = t∗ · m(t∗ ) − log Z(t∗ ) ≥ −I(a), wobei I die Ratenfunktion aus Satz 12.7 ist. Das beschriebene Vorgehen ergibt nicht nur die untere Schranke. Es demonstriert auch, dass der Maßwechsel über die exponentielle Familie sinnvoll ist, da er asymptotisch die bestmöglichen Abschätzungen liefert. Universität Bonn Wintersemester 2009/2010 452 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Große Abweichungen für empirische Verteilungen Mithilfe von Korollar 12.12 können wir noch eine stärkere Form der unteren Schranke für große Abweichungen vom Gesetz der großen Zahlen herleiten. Seien dazu n Ln (ω) = 1X δX (ω) , n i=1 i n ∈ N, die empirischen Verteilungen einer Folge (Xi )i∈N unabhängiger Zufallsvariablen mit Verteilung µ bzgl. Pµ . Aus dem Gesetz der großen Zahlen folgt die fast sichere schwache Konvergenz der empirischen Verteilungen ω −→ Ln (ω) µ für Pµ -fast alle ω. (12.3.7) Insbesondere konvergiert die Wahrscheinlichkeit Pµ [Ln 6∈ U] für jede Umgebung U der Wahr- scheinlichkeitsverteilung µ bzgl. der Topologie der schwachen Konvergenz gegen 0. Die Konvergenzgeschwindigkeit auf der exponentiellen Skala lässt sich durch ein Prinzip der großen Abweichungen auf dem Raum WV(S) der Wahrscheinlichkeitsverteilungen auf (S, S) mit der Topologie der schwachen Konvergenz beschreiben: Satz 12.14 (Sanov). Die empirischen Verteilungen Ln = 1 n der großen Abweichungen: n P i=1 δXi erfüllen das folgende Prinzip (1). Obere Schranke: Für jede abgeschlossene Menge A ⊆WV(S) gilt: lim sup n→∞ 1 log Pµ [Ln ∈ A] n ≤ − inf H(ν | µ). ν∈A (2). Untere Schranke: Für jede offene Menge O ⊆WV(S) gilt: lim inf n→∞ Beweis. 1 log Pµ [Ln ∈ O] n ≥ − inf H(ν | µ). ν∈O (2). Zum Beweis der unteren Schranke wechseln wir wieder das zugrundeliegende Maß, und wenden Korollar 12.12 an. Sei O ⊆ WV(S) offen und ν ∈ O. Nach (12.3.7) ist dann die Folge n An wesentlich bzgl. ν, denn = 1X {(x1 , . . . , xn ) ∈ S | δx ∈ O} n i=1 i ν n [An ] n = Einführung in die Wahrscheinlichkeitstheorie Pν [Ln ∈ O] −→ 1 Prof. Andreas Eberle 12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT für n → ∞. Daher folgt nach Korollar 12.12(2): 1 1 lim inf log Pµ [Ln ∈ O] = lim inf log µn [An ] n→∞ n n→∞ n Die Behauptung ergibt sich, da dies für alle ν ∈ O gilt. ≥ 453 −H(ν | µ). (1). Die obere Schranke beweisen wir hier nur für endliche Zustandsräume S, s. z.B. [Dembo und Zeitouni: Large Deviations] für den Beweis im allgemeinen Fall. Ist S endlich, und ν eine bzgl. µ absolutstetige Wahrscheinlichkeitsverteilung mit Dichte w = dν/dµ, dann gilt n P δxi = ν: für alle (x1 , . . . , xn ) ∈ S n mit empirischer Verteilung n1 i=1 n Y n X dν (xi ) = exp log dµ i=1 Z i=1 dν dν = = exp n log dµ dν n (x1 , . . . , xn ) = dµn Damit folgt dν (xi ) dµ ! exp(n · H(ν | µ)). )# n 1X Pµ [Ln = ν] = µn (x1 , . . . , xn ) δ xi = ν n i=1 )# "( n 1X δ xi = ν = e−nH(ν | µ) · ν n (x1 , . . . , xn ) n i=1 "( (12.3.8) ≤ e−nH(ν | µ) . Jeder empirischen Verteilung von n Elementen x1 , . . . , xn ∈ S entspricht ein Histogramm ~h = (ha )a∈S ∈ {0, 1, . . . , n}S . Für die Anzahl der möglichen empirischen Verteilungen gilt daher ( n 1X δ xi n i=1 ) n (x , . . . , x ) ∈ S 1 n ≤ (n + 1)|S| . Nach (12.3.8) erhalten wir nun für eine beliebige Menge A ⊆ WV(S) die (nicht-asymptotische) Abschätzung Pµ [Ln ∈ A] = X ν∈A Pµ [Ln = ν] ≤ (n + 1)|S| · e −n inf H(ν | µ) ν∈A , aus der die asymptotische obere Schranke wegen |S| < ∞ folgt. Bemerkung. Wie der Beweis schon andeutet, gilt auch die obere Schranke in diesem Fall nur noch asymptotisch und modulo subexponentiell wachsender Faktoren. Der Übergang von endlichen zu allgemeinen Zustandsräumen ist bei der oberen Schranke nicht trivial, s. [Dembo/Zeitouni]. Universität Bonn Wintersemester 2009/2010 454 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Den Satz von Sanov bezeichnet man gelegentlich auch als ein „Prinzip der großen Abweichungen auf Level II“, d.h. für die empirischen Verteilungen. Wir bemerken abschließend, dass sich eine Version des Satzes von Cramér, d.h. ein „Prinzip der großen Abweichungen auf Level I“ als Spezialfall ergibt: Für U : S → R und eine offene Menge B ⊆ R gilt nach dem Satz von Sanov: # " n 1 1 1X lim inf log Pµ U (Xi ) ∈ B = lim inf log Pµ [Ln ∈ O] ≥ − inf H(ν | µ) n→∞ n n→∞ n ν∈O n i=1 mit O = {ν ∈ WV(S) | falls B abgeschlossen ist. 12.4 R U dν ∈ B}. Entsprechend ergibt sich eine analoge obere Schranke, Likelihood Praktisch unterscheidet man Wahrscheinlichkeitsverteilungen in der Schätz- und Testtheorie durch Likelihood-basierte statistische Verfahren. Der Zusammenhang von relativer Entropie und statistischer Unterscheidbarkeit kann genutzt werden, um die Qualität dieser Verfahren asymptotisch zu beurteilen. Konsistenz von Maximum-Likelihood-Schätzern Sei (µθ )θ∈Θ eine Familie von Wahrscheinlichkeitsverteilungen auf S = Rd (oder einem diskreten Raum) mit Dichten (bzw. Massenfunktionen) fθ wobei θ ein unbekannter Parameter ist. Ferner sei Ln (θ; x1 , ..., xn ) = n Y fθ (xi ), i=1 θ ∈ Θ, die Likelihoodfunktion zu n unabhängigen Stichproben x1 , ..., xn von µθ . Ein wichtiges Ad-hocVerfahren zur Konstruktion eines Schätzers für θ ist das Maximum-Likelihood-Prinzip: Wähle θ̂(x1 , ..., xn ) als den Parameterwert θ, für den die Likelihood der beobachteten Werte x1 , . . . , xn maximal ist. Definition. (1). Eine Zufallsvariable vom Typ θ̂(X1 , . . . , Xn ), θ̂ : S n → Θ messbar, heißt Statistik der Daten X1 , . . . , Xn . (2). Die Statistik heißt Maximum-Likelihood-Schätzer (MLE) für den Parameter θ, falls Ln (θ̂(x1 , ..., xn ); x1 , ..., xn ) = max Ln (θ; x1 , ..., xn ) θ∈Θ Einführung in die Wahrscheinlichkeitstheorie für alle x1 , . . . , xn ∈ S gilt. Prof. Andreas Eberle 12.4. LIKELIHOOD 455 Um einen Maximum-Likelihood-Schätzer zu berechnen, ist es oft günstig, die log-Likelihood θ 7→ log Ln (θ; x1 , ..., xn ) = n X log fθ (xi ) zu maximieren. i=1 Beispiel. (1). Gaußmodell: Θ = {(m, v) | m ∈ R, v > 0}, µm,v = N (m, v). Ln (m, v; X1 , ..., Xn ) = n Y i=1 ist maximal für m̂(X) = X n , v̂(X) = 1 n Pn i=1 √ (Xi −m)2 1 e− 2v 2πv (Xi − X n )2 . Dieser Maximum-Likelihood- Schätzer ist nicht erwartungstreu, da die Stichprobenvarianz mit dem Faktor 1 n statt 1 n−1 gebildet wird. (2). Doppelexponentialverteilung: Θ = R, fθ (Xi ) = 1 2 e−|Xi −θ| . log Ln (θ; X1 , ..., Xn ) = −n log 2 − n X i=1 |Xi − θ| ist maximal, falls θ̂ ein Median von X1 , ..., Xn ist. (3). Zufallszahlen aus [0, θ], θ > 0 unbekannt. 1 I[0,θ] (Xi ), θ 1 Ln (θ; X1 , ..., Xn ) = n I[0,θ] ( max Xi ). 1≤i≤n θ fθ (Xi ) = Der Maximum-Likelihood-Schätzer ist θ̂(X1 , ..., Xn ) = max1≤i≤n Xi . Dieser Schätzer ist sicher nicht optimal, da mit Wahrscheinlichkeit 1 θ > θ̂(X1 , . . . , Xn ) gilt ! Wie das letzte Beispiel zeigt, sind Maximum-Likelihood-Schätzer für ein festes n nicht immer optimal. Unter bestimmten Voraussetzungen haben sie aber gute asymptotische Eigenschaften für n → ∞. Sei etwa µθ (θ ∈ Θ) eine einparametrige (d.h. Θ ⊆ R) Familie von Wahrscheinlich- keitsverteilungen mit Dichten bzw. Massenfunktionen fθ . Es gelte: Annahme (Unimodalität): Für alle n ∈ N und x ∈ S n existiert ein θ̂n (x1 , ..., xn ), sodass ist monoton wachsend für θ ≤ θ̂n (x1 , ..., xn ). θ 7→ Ln (θ; x1 , ..., xn ) ist monoton fallend für θ ≥ θ̂ (x , ..., x ). n 1 n Bemerkung. (1). Die Annahme ist z.B. erfüllt, falls θ 7→ log fθ (x) für jedes x konkav ist P denn dann ist auch log Ln (θ, x1 , ..., xn ) = ni=1 log fθ (xi ) konkav in θ. Universität Bonn Wintersemester 2009/2010 456 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN (2). θ̂n (X1 , ..., Xn ) ist im unimodalen Fall eindeutiger Maximum-Likelihood-Schätzer für θ. e Dann ist θ̂n (X1 , . . . , Xn ) (n ∈ N) Satz 12.15. Es gelte die Annahme, sowie µθ 6= µθe für θ 6= θ. eine konsistente Folge von Schätzern für θ, d.h. für jedes ε > 0 gilt: Pθ [|θ̂n (X1 , ..., Xn ) − θ| < ε] → 1 für n → ∞. Beweis. Wegen der Unimodalität gilt θ̂n (x1 , ..., xn ) ∈ (θ − ε, θ + ε) falls Ln (θ; x1 , ..., xn ) > Ln (θ ± ε; x1 , ..., xn ). Also: Pθ [|θ̂n (X1 , ..., Xn ) − θ| < ε] ≥ Pθ Ln (θ; X1 , ..., Xn ) >1 . Ln (θ ± ε; X1 , ..., Xn ) Die rechte Seite konvergiert aber für n → ∞ nach Satz 12.10 für jedes θ gegen 1. Bemerkung (Asymptotische Normalität von Maximum-Likelihood-Schätzern). Unter geeigneten Regularitätsvoraussetzungen an die Dichten fθ gilt für die Maximum-Likelihood-Schätzer neben der Konsistenz (also dem Gesetz der großen Zahlen) auch ein zentraler Grenzwertsatz: Satz (Fisher, Wilkes, Wold). √ wobei Unter geeigneten Voraussetzungen gilt: 1 n(θ̂n (X1 , ..., Xn ) − θ) −→ N 0, , I(θ) D 2 Z ∂ µθ (dx) = lim 2 H(µθ+ε | µθ ) I(θ) = log f (x) θ ∂θ ε→0 ε2 die Fisher-Information des statistischen Modells ist. Da man andererseits unter geeigneten Regularitätsbedingungen zeigen kann, daß die Varianz eines erwartungstreuen Schätzers für θ basierend auf n unabhängigen Stichproben stets größer als 1 nI(θ) ist (Informationsungleichung von Cramér-Rao), folgt, daß Maximum-Likelihood-Schätzer in gewisser Hinsicht asymptotisch optimal sind. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.4. LIKELIHOOD 457 Asymptotische Macht von Likelihoodquotiententests Angenommen, wir haben n unabhängige Stichproben X1 , ..., Xn von einer unbekannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus einer Familie µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt. Sei Θ0 eine Teilmenge des Parameterbereichs. Wir wollen entscheiden zwischen der »θ ∈ Θ0 « Nullhypothese H0 : und der Alternative H1 : »θ 6∈ Θ0 « Ein Hypothesentest für ein solches Problem ist bestimmt durch eine messbare Teilmenge C ⊆ S n (den Verwerfungsbereich) mit zugehöriger Entscheidungsregel: akzeptiere H0 ⇐⇒ (X1 , ..., Xn ) ∈ / C. Beispiel (t-Test). Seien X1 , X2 , . . . , Xn unabhängige Stichproben von einer Normalverteilung mit unbekanntem Parameter (m, v) ∈ Θ = R × R+ . Wir wollen testen, ob der Mittelwert der Verteilung einen bestimmten Wert m0 hat: Nullhypothese H0 : »m = m0 « , Θ0 = {m0 } × R+ . Ein solches Problem tritt z.B.in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob ein Sollwert m0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren, wobei Xi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht. Im t–Test für obiges Testproblem wird die Nullhypothese akzeptiert, falls der Betrag der Studentschen t-Statistik unterhalb einer angemessen zu wählenden Konstanten c liegt, bzw. verworfen, falls gilt. √ n · (X n − m0 ) > c √ |Tn−1 | = Vn Seien nun allgemein X1 , X2 , . . . unter Pθ unabhängige Zufallsvariablen mit Verteilung µθ . Bei einem Hypothesentest können zwei Arten von Fehlern auftreten: Fehler 1. Art: H0 wird verworfen, obwohl wahr. Wahrscheinlichkeit: Pθ [(X1 , ..., Xn ) ∈ C] = νθn (C) , Universität Bonn θ ∈ Θ0 . Wintersemester 2009/2010 458 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Wahrscheinlichkeit: Pθ [(X1 , ..., Xn ) ∈ / C] = µnθ (C C ) , θ ∈ Θ \ Θ0 . Obwohl das allgemeine Testproblem im Prinzip symmetrisch in H0 und H1 ist, interpretiert man beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeugen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht vorhanden) unterhalb einer vorgegebenen (kleinen) Schranke α liegen. Die Wahrscheinlichkeit µnθ (C) , θ ∈ Θ \ Θ0 , daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein. Definition. Die Funktion G(θ) = Pθ [(X1 , ..., Xn ) ∈ C] = µnθ (C) heißt Gütefunktion des Tests. Der Test hat Niveau α, falls G(θ) ≤ α für alle θ ∈ Θ0 gilt. Die Funktion G(θ) mit θ ∈ Θ1 heißt Macht des Tests. Beispiel. Der Studentsche t-Test hat Niveau α falls c ein (1 − α2 )-Quantil der Studentschen tVerteilung mit n − 1 Freiheitsgraden ist. Ein Ziel bei der Konstruktion eines Testverfahrens sollte es sein, die Machtfunktion bei vorgegebenem Niveau zu maximieren. Dies ist im Allgemeinen nicht simultan für alle Parameter θ ∈ Θ \ Θ0 möglich. Eine Ausnahme bildet der Fall einer einfachen Hypothese und Alternative, in dem ein optimaler Test existiert: a) Einfache Hypothese und Alternative Angenommen, wir wissen, daß die Stichproben von einer der beiden Verteilungen µ0 := ν und µ1 := µ stammen und wir wollen entscheiden zwischen der Nullhypothese H0 : »Xi ∼ ν« und der Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.4. LIKELIHOOD 459 »Xi ∼ µ«. Alternative H1 : Ein solches Problem tritt in Anwendungen zwar selten auf, bildet aber einen ersten Schritt zum Verständnis allgemeinerer Testprobleme. Sei n Y Ln (µ; x1 , ..., xn ) f (xi ) ̺n (x1 , . . . , xn ) = = Ln (ν; x1 , ..., xn ) g(xi ) i=1 der Quotient der Likelihoods der Stichproben x1 , . . . , xn im Produktmodell. Hierbei sind f und g die Dichte bzw. Massenfunktion der Verteilungen µ und ν. Definition. Ein Test mit Entscheidungsregel Akzeptiere H0 ⇐⇒ ̺n (X1 , ..., Xn ) ≤ c, c ∈ (0, ∞), heißt Likelihoodquotiententest. Der Verwerfungsbereich eines Likelihoodquotiententests ist also C = {̺n > c}, die Wahrscheinlichkeit für den Fehler 1. Art beträgt α := ν n (̺n > c). Satz 12.16 (Neyman-Pearson-Lemma). Der Likelihoodquotiententest mit Parameter c ist der beste Test zum Niveau α, d.h. jeder Test mit Wahrscheinlichkeit (Fehler 1.Art) ≤ α hat eine kleinere Macht (d.h. eine höhere Wahrscheinlichkeit für den Fehler 2. Art). Beweis. Sei A ⊆ S n der Verwerfungsbereich eines Tests mit ν n (A) ≤ α, und sei χ = I C − I A = I AC − I C C . Zu zeigen ist: n C n C 0 ≤ µ (A ) − µ (C ) = Z χ dµn . Offensichtlich gilt χ ≥ 0 auf C = {̺n > c} und χ ≤ 0 auf C C = {̺n ≤ c}, also χ · (̺n − c) ≥ 0. Durch Integration erhalten wir: Z Z Z Z n n n 0 ≤ χ · (̺n − c) dν = χ dµ − c · χ dν ≤ χ dµn , da R χ dν n = ν n (C) − ν n (A) ≥ 0. Universität Bonn Wintersemester 2009/2010 460 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN Wie gut ist der Likelihoodquotiententest (also der beste Test zur Unterscheidung von ν und µ) asymptotisch für große n? Wir betrachten ein festes Niveau α ∈ (0, 1), und wählen cn ∈ (0, ∞) (n ∈ N) mit ν n (̺n > cn ) ≤ α ≤ ν n (̺n ≥ cn ) (12.4.1) Satz 12.17 (Asymptotische Macht des Likelihoodquotiententests). Es gilt: (i) 1 log cn −→ −H(ν|µ) n (ii) für n → ∞. 1 log µn (̺n ≤ cn ) −→ −H(ν|µ) n für n → ∞, d.h. die Wahrscheinlichkeit für den Fehler 2. Art fällt exponentiell mit Rate H(ν|µ). Beweis. (i) Sei ε > 0. Für große n gilt nach dem Satz von Shannon-McMillan: 12.4.1 ν n ̺n > e−n(H(ν|µ)+ε) > α ≥ ν n (̺n > cn ). Es folgt e−n(H(ν|µ)+ε) < cn . Analog zeigt man e−n(H(ν|µ)−ε) > cn . Die Behauptung folgt dann für ε → 0. (ii) a) Untere Schranke: Wegen ν n (̺n ≤ cn ) ≥ 1 − α > 0 ∀n∈N folgt nach Korollar 12.12: lim 1 log µn (̺n ≤ cn ) ≥ −H(ν|µ). n Obere Schranke: Wegen n µ (̺n ≤ cn ) = Z ̺n ≤cn ̺n dν n ≤ cn folgt nach (i) lim 1 1 log µn (̺n ≤ cn ) ≤ lim log cn = −H(ν|µ). n n Der Satz demonstriert erneut, daß die relative Entropie ein gutes Maß für die Unterscheidbarkeit zweier Wahrscheinlichkeitsverteilungen ist. Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle 12.5. BAYESSCHE MODELLE UND MCMC VERFAHREN 461 b) Zusammengesetzte Hypothesen und/oder Alternativen Wenn Θ0 und/oder Θ1 aus mehr als einem Element bestehen, kann man den verallgemeinerten Likelihoodquotienten ̺¯n (x1 , . . . , xn ) = supθ∈Θ1 Ln (θ; x1 , ..., xn ) max. Lik. von x, falls H1 wahr = supθ∈Θ0 Ln (θ; x1 , ..., xn ) max. Lik. von x, falls H0 wahr betrachten. Der entsprechende Likelihoodquotiententest ist ähnlich wie der Maximum-LikelihoodSchätzer ein häufig verwendetes ad hoc Verfahren. Im Gegensatz zum Fall einer einfachen Hypothese und Alternative ist der verallgemeinerte Likelihoodquotiententest allerdings nicht immer optimal. Beispiel. Im Beispiel von oben ist der t-Test der Likelihoodquotiententest. Mit einem NeymanPearson-Argument kann man zeigen, daß er im Gaußschen Produktmodell der beste unverfälschte Test zu einem vorgegebenen Niveau α ist, d.h. der mächtigste Test mit G(θ) ≤ α ∀ θ ∈ Θ0 und G(θ) ≥ α ∀ θ ∈ Θ1 . Auch in nicht-Gaußschen Modellen wird häufig der t-Test eingesetzt – eine partielle Rechtfertigung dafür liefert der zentrale Grenzwertsatz. 12.5 Bayessche Modelle und MCMC Verfahren Universität Bonn Wintersemester 2009/2010 Stichwortverzeichnis 0-1 Gesetz von Kolmogorov, 182 bedingte Wahrscheinlichkeit, 44 0-1-Experimente Benfordsches Gesetz, 21 abhängige, 41 Bernoulli-Verteilung, 41 n-dimensionale, 51 unabhängige, 41, 51 σ-Additivität, 13 Bernstein-Ungleichung, 59 σ-Algebra, 12 Bias, 208 a posteriori degree of belief, 47 a priori degree of belief, 47 Bildmaß, 122 Binomialverteilung, 26 Poissonapproximation, 27 abhängige 0-1-Experimente, 41 absolutstetig, 203 Acceptance-Rejection-Verfahren, 74, 428 Additivität, endliche, 13 Akzeptanzwahrscheinlichkeit, 73 Akzeptanzzeit, 74 Algebra, 115 arithmetisches Mittel, 194 asymptotisch -e Zufallsvariable, 185 asymptotische Äquivalenz von Folgen, 68 Varianz, 81 Birth-Death-Process, 421 Brown’sche Bewegung, 305 Brownsche - Bewegung, 345 Brownsche Bewegung, 113, 305 Cauchy-Schwarz-Ungleichung in L2 , 78 Čebyšev-Ungleichung, 83 Chapman-Kolmogorov-Gleichungen, 413 Charakteristische Funktion Ableitungen der -, 253 Atome, 129 Bayessche Regel, 47 Bayessche Statistik, 47 Bedingte Erwartung, 330 Definition Lévys Inversionsformel, 254 charakteristische Funktion, 250 Cramér-Wold Device, 304 degree of belief a posteriori, 47 Diskrete -, 314 a priori, 47 bedingte Erwartung, 44 bedingte Verteilung, 44 Detailed Balance-Bedingung, 90 462 STICHWORTVERZEICHNIS Dichte 463 stationärer -, 327 bedingte -, 294 Erwartung, bedingte, 44 Wahrscheinlichkeits-, 129, 199 Erwartungswert, 37 Diffusionsprozess, 412 - elementarer ZVn, 188 diskrete Zufallsvariable, 23 der Poissonverteilung, 38 gemeinsame Verteilung, 64 Linearität, 40 Unabhängigkeit, 64 Monotonie, 40 diskretes Modell, 12 Erzeugende Funktion, 320 mehrstufiges, 48 erzeugende Funktion, 346 durchschnittsstabil, 115, 116 Euler’sche Beta-Funktion, 309 Dynkinsystem, 118 Exponentielle Familie, 437 das von J erzeugte -, 118 Faltung von W’Verteilungen, 297 Ehrenfest-Modell, 54, 91 Faltungshalbgruppe, 298 Ehrenfestmodell, 396 Fehler Einschluss-/Ausschlussprinzip, 15 1. und 2. Art, 311, 457 Elementarereignis, 9 Fisher-Information, 456 empirische Mittel, 205 Fluss in Markovketten, 90 empirische Varianz, 205 Fouriertransformation, 251 empirische Verteilung, 19, 237 gemeinsame Verteilung, 64, 167 empirische Verteilungsfunktion, 237 Generator, 415 empirisches Mittel, 235 Entropie, 242 relative -, 446 Ereignis, 9 - einer Markovkette, 376 geometrische Verteilung, 58 Gesetz der großen Zahlen, 59 für Markov-Ketten, 101 Verteilungen für unabhängige Ereignisse, 58 schwaches, 83 asymptotisches -, 181 starkes, 83 Elementar-, 9 Gesetz großer Zahlen Ereignisse und ihre Wahrscheinlichkeit, 11 - für Bernoulli-Experimente, 107 Indikatorfunktion, 37 Starkes - Unabhängigkeit, 56 Erfolgswahrscheinlichkeit, 25 - ohne Integrierbarkeit, 235 Kolmogorovs -, 231 Ergodensatz, 101 gewichtetes Mittel, 39 Erneuerungsgleichung, 326 Gewichtung der möglichen Fälle, 15 Erneuerungsprozess Gibbs-Sampler, 94 Universität Bonn Wintersemester 2009/2010 464 STICHWORTVERZEICHNIS Gleichgewichte von Markov-Ketten, 89 Gleichgewichtsverteilung, 90 Konvergenz, 98 Gleichverteilung, 18 Konvergenz - in Verteilung, 263 fast sicher -, 218 schnelle stochastische -, 220 reellwertiger Zufallsvariablen, 72 schwache -, 263 Simulation, 29 stochastische -, 218 Greensche Funktion, 383 Konvergenz ins Gleichgewicht, 97, 98 Konvergenz, stochastische, 83 Häufigkeitsverteilung der Anfangsziffern von ZahKonvergenzsatz für endliche Markov-Ketten, 101 len, 22 Korrelationskoeffizient, 79 harmonische Funktion, 378 Korrelationskoeffizienten, 209 harmonisches Maß, 380 Kovarianz, 79, 209 Histogramm, 239 Kullback-Leibler Information, 446 hypergeometrische Verteilung, 29, 50 Kumulantenerzeugende Funktion, 259 Hypothese kumulative Verteilungsfunktion, 72 Alternativ-, 310, 457 Null-, 310, 457 Hypothesen, 45 Hypothesentest, 311, 457 Importance Sampling, 86 Indikatorfunktion, 121 Indikatorfunktion einer Ereignisses, 37 Inverse linksstetige verallgemeinerte -, 138 irreduzible stochastische Matrix, 99 L2 -Raum von diskreten Zufallsvariablen, 78 L2 -Skalarprodukt, 78 Lévy -Prozess, 344 Lévys Inversionsformel, 254 Laplace-Modell, 18 Laplacetransformation, 251 Legendre-Fenchel-Transformation, 259 Lemma - von Borel-Cantelli kanonisches Modell, 180, 368 1.Teil, 105 Kern, stochastischer, 52 2.Teil, 106 Kolmogorov -sche Rückwärtsgleichung, 418 -sche Vorwärtsgleichung, 418 Konfidenzintervall, 161, 307, 312 - von Fatou, 194 Neyman-Pearson-, 459 Likelihood Maximum-L.-Schätzer, 454 Konfidenzniveau, 161 likelihood, 47 Kongruenzgenerator, linearer, 30 linearer Kongruenzgenerator, 30 konsistente Schätzfolge, 84 Lyapunovbedingung, 284 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle STICHWORTVERZEICHNIS 465 Münzwurf, 10 irreduzible stochastische, 99 abhängige Münzwürfe, 53 stochastische, 52 endlich viele faire Münzwürfe, 18 Stochastische -, 289 Markov-Kette, 91 Median, 137 zwei faire Münzwürfe, 57 mehrstufiges diskretes Modell, 48 Markov-Kette, siehe Markov-Kette Maß harmonisches -, 380 Produktmodell, 51 invariantes -, 403 Wahrscheinlichkeitsverteilung, 48 Menge aller möglichen Fälle, 9 Markov -prozess, 411 messbar -e Abbildung, 120 Markov-Kette, 52 bei einem Münzwurf, 91 messbarer Raum, 115 Bewegungsgesetz, 52 Messraum, 115 Fluss, 90 Metropolis-Algorithmus, 96 Gesetz der großen Zahlen, 101 Metropolis-Kette, 94 Konvergenz, 101 Gleichgewicht, 89 Konstruktion mit vorgegebenen Gleichge- Minorisierungsbedingung, 98 wichtsverteilungen, 93 Mischung, 290 Konvergenzsatz für endliche Markov-Ketten, Mittel 101 arithmetisches, 39 Metropolis-Kette, 94 Monte Carlo-Verfahren, 101 gewichtetes, 39 Mittelwerteigenschaft Simulation mit vorgegebenem Gleichgewicht, 96 verallgemeinerte -, 378 Modell Stationarität, 90 Bayes’sches -, 295 zeitlich homogene, 89 Ehrenfest-, 263 Markovprozess Generator e. -, 415 Massenfunktion, 15, 123 einer diskreten Zufallsvariable, 23 eines mehrstufigen diskreten Modells, 48 Mastergleichung, 418 Matrix stochastische / Übergangs-, 89 Universität Bonn kanonisches -, 368 Moment p-te -, 199 Momentenerzeugende Funktion logarithmische -, 259 Reihenentwicklung der -, 253 momentenerzeugende Funktionen, 250 Monte Carlo-Schätzer, 76, 84 Wintersemester 2009/2010 466 STICHWORTVERZEICHNIS Approximationsfehler, 76 Prozess eines mehrdimensionalen Integrals, 85 Autoregressiver -, 292 erwartungstreuer, 76 autoregressiver -, 215 für Wahrscheinlichkeiten, 85 Compound-Poisson-, 345 mittlere quadratische Fehler, 76 Diffusions-, 412 Monte Carlo-Verfahren, 76 für Markov-Ketten, 101 Monte-Carlo Lévy-, 344 Ornstein-Uhlenbeck-, 292 Poisson-, 301 -Approximation, 268 Punkt-, 345 Multinomialkoeffizient, 241 reversibler -, 398 stationärer -, 397 Nullmenge, 102 Ordnungsstatistik, 161, 173 P -fast sicher, 102 Paradoxon Sankt-Petersburg-, 39 Simpson-, 46 Pseudo-Zufallszahlengenerator, 29 QQ-Plot, 238 Quantil, 137 Stichproben-, 137 Quantil-Quantil-Plot, 238 Rückkehrzeit, 68 Periode eines Zustands, 99 Rückwärtsgleichung, 418 Periodizität, 327 Random Walk, 68, 229, 305 Perkolation, 184 auf den ganzen Zahlen, 65 Permutationen auf einem Gitter, 53 zufällige, siehe Zufallspermutationen Poisson auf Graphen, 92 Bewegungsverlauf, 68 -prozess, 345 Poissonapproximation der Binomialverteilung, 27 Poissonverteilung, 28 Erwartungswert, 38 Produkt - von Wahrscheinlichkeitsverteilungen, 179 Rekurrenz, 183 Rekurrenz von -s, 182 symmetrischer, 68 Trefferzeit, 68 unbeschränkte Oszillation von -s, 183 Verteilung der Positionen zur Zeit n, 67 zyklischer, 91 Produkt von Wahrscheinlichkeitsverteilungen, 51 Randverteilung, 163 Produktmaß endliches -, 163 Produktmodell, 51 Einführung in die Wahrscheinlichkeitstheorie reellwertige Zufallsvariable, 72 gleichverteilt, 72 Unabhängigkeit, 72 Prof. Andreas Eberle STICHWORTVERZEICHNIS 467 Reflektionsprinzip, 69 Transformations-, 196 Rekurrenz Eindimensionaler Dichte-, 134 - eines Punktes, 385 Mehrdimensionaler Dichte-, 301 Rekurrenzklassen, 395 Zentraler Grenzwert- relative Entropie, 446 L2 -Version, 277 Relative Kompaktheit, 275 - von Lindeberg-Feller, 284 renormierte Stichprobenvarianz, 236 Rucksackproblem, 95 Multivariater -, 304 Schätzer, 161, 306 erwartungstreuer -, 307 Sankt-Petersburg-Paradoxon, 39 konsistenter -, 307, 456 Satz Maximum-Likelihood-, 454 - vom iterierten Logarithmus, 230 - von Berry-Esséen, 281 Schätzfolge konsistente, 84 - von Bochner, 254 - von Chernoff, 258 - von Fisher, Wilkes, Wold, 456 - von Fubini, 289 - von Helly-Bray, 273 Schwaches Gesetz der großen Zahlen, 83 Selbstbefruchtung von Pflanzen, 53 Shift-Register-Generatoren, 35 σ - von Lebesgue, 195 -Additivität, 104 - von Prohorov, 273 -Stetigkeit, 104 - von de Moivre/Laplace, 145 -Subadditivität, 105 - von der majorisierten Konvergenz, 195 - von der monotonen Konvergenz, 193 0-1 - von Kolmogorov, 182 σ-Additivität von Wahrscheinlichkeitsverteilungen, 13 σ-Algebra Eindeutigkeits-, 116 asymptotische -, 181 Formel von der totalen Wahrscheinlichkeit, Borel’sche -, 114 45 Fortsetzungs- von Carathéodory, 116 die von J erzeugte -, 114 Produkt-, 115 Konvergenz- von Lévy, 274 σ-endlich, 203 Lévys Inversionsformel, 254 Signalverarbeitung, 295 Lemma von Fatou, 194 Simpson-Paradoxon, 46 Neyman-Pearson-Lemma, 459 Simulated Annealing, 96 Quellenkodierungs- von Shannon, 248 Skorokhod - Darstellung, 269 Stetigkeits-, 274 Universität Bonn Algorithmus, 97 Simulation - exponentialverteilter ZVn, 125 Wintersemester 2009/2010 468 STICHWORTVERZEICHNIS Simulation einer diskreten Verteilung direkt, 73 Transienz - eines Punktes, 385 Simulation einer Markov-Kette mit vorgegebe- Trefferzeit, 68, 388 nem Gleichgewicht, 96 Verteilung, 69 Simulation von Gleichverteilungen, 29 Simulationsverfahren, 72 Übergangsmatrix, 89 Acceptance-Rejection-Verfahren, 73 unabhängige 0-1-Experimente, 41, 51 direktes Verfahren, 72 Unabhängige Zufallsvariablen, 64 Standardabweichung, 77 Unabhängigkeit, 44 starkes Gesetz der großen Zahlen, 83 - von Mengensystemen, 153 Stationarität von Markov-Ketten, 90 - von Zufallsvariablen, 156 Statistik, 161, 454 Ereignis Stichprobe Verteilung, 58 -nquantil, 137 reellwertiger Zufallsvariablen, 72 empirische Verteilung der -, 137 von Ereignissen, 56 Stirlingsche Formel, 67, 144 stochastische Konvergenz, 83 stochastische Matrix, 52, 89 irreduzibel, 99 Unabhängigkeit von diskreten Zufallsvariablen, 64, 65 Unabhängigkeit von Ereignissen, 26, 57 Ungleichung Stochastischer Kern, 288 Čebyšev-, 222 stochastischer Kern, 52 Cauchy-Schwarz-, 207, 210 Stoppzeit, 388 Čebyšev-, 83, 221 symmetrischer Random Walk, 68 Exponentielle Čebyšev-Markov-, 222 Jensen’sche -, 223 Tail Markov-, 221 event, 181 Unimodalität, 455 field, 181 Unkorreliertheit, 80 Gütefunktion eines -s, 312, 458 Vandermonde-Identität, 298 Hypothesen-, 312 Varianz, 77 Test Likelihood-Quotienten-, 459, 460 Definition, 204 Macht eines -s, 312, 458 der Binomialverteilung, 81 Niveau eines -s, 312, 458 Reduktion durch Importance Sampling, 86 t-, 311, 457 Stichproben-, 308 Transformationssatz, 38 Einführung in die Wahrscheinlichkeitstheorie von Summen, 81 Prof. Andreas Eberle STICHWORTVERZEICHNIS Variationsdistanz von Wahrscheinlichkeitsverteilungen, 97 Verteilung α-stabile -, 283 469 bedingte, 44 Erfolgs-, 25 Wahrscheinlichkeits -maß - einer Zufallsvariablen, 122 Faltung von -en, 297 -sfunktion, 123 straffe Folge von -en, 272 bedingte, 44 Wahrscheinlichkeitsraum, 13 bedingte -, 294 Wahrscheinlichkeitsverteilung, 13, 15, 122 Beta-, 174 einer diskreten Zufallsvariable, 23 Cauchy-, 136 der Anfangsziffern von Zahlen, 22 direkte Simulation einer diskreten Vertei- der Trefferzeiten, 69 lung, 73 des Maximums, 71 empirische -, 237, 268 diskrete, 15 Exponential-, 124, 130, 206 eines mehrstufigen diskreten Modells, 48 für unabhängige Ereignisse, 58 endliche Additivität, 13 Gamma-, 300 gemeinsame, 64 Gleich-, 130 geometrische, 58 invariante -, 292 Gleichverteilung / Laplace-Modell, 18 Multinomial-, 241 Produkt, 51 Normal-, 131 Variationsdistanz, 97 Rand-, 163 Warteschlange, 27 Standardnormal- Wartezeit, 299 mehrdimensionale -, 166 wesentlich, 246 stationäre -, 292 stetige -, 129 Students-t-, 309 Uniforme -, 130 χ2 -, 306 Verteilungsfunktion, kumulative, 72 Verwerfungsbereich, 311, 457 Vorwärtsgleichung, 418 Ziehen mit Zurücklegen, siehe Binomialverteilung Ziehen ohne Zurücklegen, siehe hypergeometrische Verteilung Zufallspermutationen, 36 Zufallsvariable, 10, 23, 120 asymptotische -, 185 austauschbare -n, 319 Würfelwurf, 24 diskrete, 23 Wahrscheinlichkeit, 9 Elementare -n, 187 Akzeptanz-„ 73 Universität Bonn reellwertige, 38, 72 Wintersemester 2009/2010 470 STICHWORTVERZEICHNIS Standardabweichung, 77 unabhängige, 64 Varianz, 77 Zufallsvorgang, 9 diskreter, 11 Zufallszahlen aus [0,1), 36 Zufallszahlengenerator, 29, 72 Kombinationen, 36 zyklischer Random Walk, 91 Zylindermenge, 115 Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle