Stochastik Prof. Reiß Sommersemester 2012 Vorlesungsmitschriften1 Paul Boeck2 Zuletzt geändert am 14. Oktober 2012 Fehler bitte an [email protected] Inhaltsverzeichnis I. Wahrscheinlichkeitsräume I.1. Ereignisse, Wahrscheinlichkeiten und Zufallsvariablen I.2. Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . I.3. Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . I.4. Maßtheorie und W-Maße in Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . 2 . 6 . 7 . 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit II.1. Bedingte Wahrscheinlichkeit und Bayesformel . II.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . II.3. Unabhängige Zufallsvariablen . . . . . . . . . . . Zur Existenz unabhängiger Zufallsvariablen . . II.4. Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 16 . . . . . . . . . . . . . . . . . . . . . . . . . 16 18 20 23 26 III. Erwartungswert, Varianz und Kovarianz 29 III.1. Der Erwartungswert und Momente . . . . . . . . . . . . . . . . . . . . . . . . . . 29 III.2. Varianz, Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 34 III.3. Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 37 IV. Statistische Tests 40 IV.1. Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 IV.2. Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 V. Grenzwertsätze V.1. V.2. V.3. V.4. Gesetze der großen Zahlen . . Konvergenz in Verteilung . . . Charakteristische Funktionen Zentraler Grenzwertsatz . . . Interpretation des ZGWS . . . 43 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 50 54 58 59 VI. Einführung in die Schätztheorie 60 VI.1. Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 VI.2. Cramér-Rao-Ungleichung und Maximum-Likelihood-Prinzip . . . . . . . . . . 62 VI.3. Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Index 68 Literatur 70 1 Nicht 2 mit von Prof. Reiß korrigiert Hilfe von Stephanie Brandl, Jane Knöchel und Sorin Pascu Stochastik 1 I. Wahrscheinlichkeitsräume I. Wahrscheinlichkeitsräume I.1. Ereignisse, Wahrscheinlichkeiten und Zufallsvariablen Wir widmen uns zunächst der mathematischen Modellierung des Zufalls und werden erst später kurz auf Interpretationen eingehen. Beispiel I.1 a) Das Würfeln mit zwei unterscheidbaren Würfeln. Jeder Würfel wird eine der Zahlen {1, 2, 3, 4, 5, 6} zeigen. Als Ergebnis nach dem Würfeln erhalten wir so ein Tupel (n1 , n2 ) mit n1 , n2 ∈ {1, 2, 3, 4, 5, 6}. Interpretation: n1 ist die Augenzahl von Würfel 1 und n2 entsprechend von Würfel 2. Vor dem Würfelexperiment werden wir unter der Annahme zweier fairer Würfel, die sich nicht gegenseitig beeinflussen, sagen, dass jeder Versuchsausgang mit gleicher Wahrscheinlichkeit (W-keit) eintritt. Weitere Fragen sind dann beispielsweise Wahrscheinlichkeiten für folgende Ereignisse A1 ∶ Es wird ein Pasch gewürfelt. A2 ∶ Die Augensumme ist 7. A3 ∶ Es tritt keine 1 auf. Mathematisch werden Ereignisse als Teilmengen der Menge Ω = {1, 2, 3, 4, 5, 6}2 aller Versuchsausgänge modelliert, also hier: A1 = {(n1 , n2 ) ∈ Ω ∣ n1 = n2 } = {(1, 1), . . . , (6, 6)} A2 = {(n1 , n2 ) ∈ Ω ∣ n1 + n2 = 7} = {(1, 6), (2, 5), . . . , (6, 1)} A3 = {(n1 , n2 ) ∈ Ω ∣ (n1 ≠ 1) ∧ (n2 ≠ 1)} Sind alle Versuchsausgänge gleich wahrscheinlich, erhalten wir die Wahrscheinlichkeit für ein Ereignis A, indem wir die Zahl aller für A günstigen Ausgänge durch die Zahl aller möglichen Ausgänge teilen, also hier P(A1 ) = 6 1 ∣A1 ∣ = = ∣Ω∣ 36 6 P(A2 ) = ∣A2 ∣ 6 = ∣Ω∣ 36 P(A3 ) = ∣A3 ∣ 25 = ∣Ω∣ 36 b) n-facher Münzwurf. Wir werfen eine Münze n-mal hintereinander. Den Versuchsausgang codieren wir mit einem n-Tupel (b1 , . . . , bn ) ∈ {0, 1}n mit der Interpretation: bk = 1 heißt, „k-ter Wurf ist Kopf“ und bk = 0 heißt „k-ter Wurf ist Zahl“. Unter fairen Bedingungen werden wir jeden Versuchsausgang wieder dieselbe Wahrscheinlichkeit zuweisen (= 2−n ). Betrachten zu Ω = {0, 1}n . A1 ∶ „n-mal Kopf“ = {(b1 , . . . , bn ) = b = Ω ∣ b1 = b2 = ⋯ = bn = 1} Ô⇒ P(A1 ) = 2 ∣A1 ∣ 1 = n = 2−n ∣Ω∣ 2 Stochastik 1 I. Wahrscheinlichkeitsräume A2 ∶ „(n − 1)-mal Kopf“ = {(0, 1, 1, . . . , 1), (1, 0, 1, 1, . . . , 1), . . . , (1, 1, . . . , 1, 0)} Ô⇒ P(A2 ) = ∣A2 ∣ n = ∣Ω∣ 2n A3 ∶ „mindestens einmal Zahl“ = {b ∈ Ω ∣ b ≠ (1, 1, . . . , 1)} = A1C Ô⇒ P(A3 ) = ∣A3 ∣ 2n − 1 = = 1 − 2−n = 1 − P(A3C ) ∣Ω∣ 2n c) beliebig häufiger Münzwurf. Es ist natürlich zu fragen, was passiert, wenn eine faire Münze beliebig häufig („∞ oft“) geworfen wird. Dann erhalten wir Ω = „Menge aller 0-1-Folgen“ = {0, 1}N Also b ∈ Ω ist eine Folge b = (b1 , b2 , . . . ) = (bn )n∈N mit Werten in {0, 1}. Betrachte nun die Ereignisse A1 ∶ „immer nur Kopf“ = {b ∈ Ω ∣ ∀k ≥ 1 ∶ bk = 1} = ⋂k≥1 {b ∈ Ω ∣ bk = 1} = {(1, 1, 1, . . . )}. Aufgrund von Beispiel b) würden wir aus „Stetigkeitsgründen“ A1 die Wahrscheinlichkeit limn→∞ 2−n = 0 zuordnen. Formal können wir hier nicht mit einer Gleichverteilung argumentieren, weil ∣Ω∣ = ∞. Bereits intuitiv sind Wahrscheinlichkeiten für andere Ereignisse sehr unklar. A2 : „für jedes M ∈ N gibt es einen „Kopfrun“ der Länge M = {b ∈ {0, 1}N ∣ ∀M ∈ N∃k ∈ N ∶ bk = bk+1 = ⋯ = bk+M−1 = 1} ´¹¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¶ Ω Beachte, dass hier Ω = {0, 1}N die Kardinalität ℵ1 , d.h. die Kardinalität der reellen Zahlen besitzt, die P(Ω) = {A ∣ A ⊂ Ω} sogar noch größere Kardinalität besitzt und es daher nicht einfach ist, eine Wahrscheinlichkeit jeder Teilmenge (jedem Ereignis) zuzuordnen. Dies ist aber meist auch gar nicht beabsichtigt und wir beschränken uns auf „interessierende“ Ereignisse. (siehe unten Satz von Vitali I.14). Definition I.2 Mit Ω werde die (nichtleere) Menge der möglichen Versuchsausgänge bezeichnet. Ein Teilmengensystem F ⊆ P(Ω) heißt σ-Algebra oder Menge der interessierenden Ereignisse, falls gilt (A1 ) Ω ∈ F (A2 ) A ∈ F Ô⇒ AC = Ω ∖ A ∈ F (A3 ) An ∈ F, n ∈ N Ô⇒ ⋃n∈N An ∈ F Jedes Element von F nennen wir Ereignis. Ein Wahrscheinlichkeitsmaß (W-Maß) ist eine Abbildung P ∶ F → [0, 1] mit (B1 ) P(Ω) = 1 (B2 ) Für An ∈ F, n ∈ N, die paarweise disjunkt sind (∀i ≠ j ∶ Ai ∩ A j = ∅) gilt P(⋃n∈N An ) = ∑n∈N P(An ) σ-Additivität. 3 Stochastik 1 I. Wahrscheinlichkeitsräume Ein W-Raum ist ein Tripel (Ω, F, P) mit Ω nichtleere Menge, F σ-Algebra über Ω und P W-Maß auf F. Bemerkung Axiome (B1 ), (B2 ) heißen Kolmogorovsche Axiome (Kolmogorov, 1933). Lemma I.3 Für jede σ-Algebra F gilt: (a) ∅ ∈ F (b) A1 , A2 ∈ F Ô⇒ A1 ∪ A2 , A1 ∩ A2 ∈ F (c) An ∈ F, n ∈ N Ô⇒ ⋃n∈N An ∈ F Beweis: klar (beachte A1 ∩ A2 = (A1C ∪ A2C )C ) Beispiel I.4 Die trivialen σ-Algebren sind {∅, Ω} und P(Ω). Lemma I.5 Für jedes W-Maß P auf F gilt (a) P(∅) = 0 (b) A, B ∈ F, A ⊂ B Ô⇒ P(A) ≤ P(B) (c) A, B ∈ F ∶ P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (d) An ∈ F, n ≥ 1 beliebig Ô⇒ P(⋃n≥1 An ) ≤ ∑∞ n=1 P(An ) (Subadditivität, BonferroniUngleichung) (e) An ∈ F, n ≥ 1 mit An ↑ A ∈ F (d.h. An ⊆ An+1 ∀n und ⋃n≥1 An = A): P(A) = lim P(An ) n→∞ σ-Stetigkeit Beweis: (a)-(d) und die Umkehrung von (e) als Übung. (e) Setze B1 ∶= A1 , B2 ∶= A2 ∖ A1 , B3 = A3 ∖ A2 , . . . Bn = An ∖ An−1 . Dann sind die (Bn )n≥1 paarweise disjunkt mit ⋃n≥1 Bn = ⋃n≥1 An . Daher gilt P(A) = P( ⋃ An ) = P( ⋃ Bn ) n≥1 = σ-Add. n≥1 N = lim ∑ P(Bn ) N ⋃n=1 Bn =A N N→∞ n=1 ∑ P(Bn ) n≥1 = lim P(A N ) N→∞ ◻ Häufig interessieren uns nicht die Versuchsausgänge selbst, sondern begleitete Größen, z.B. nur die Augensumme beim Würfeln mit zwei Würfeln. In dem Beispiel würde man also modellieren: Ω = {1, . . . , 6}2 , F = P(Ω), P(A) = ∣A∣ ∀A ∈ F, A ⊆ Ω 36 und Augensumme S(ω) = S(ω1 , ω2 ) = ω1 + ω2 , ω ∈ Ω. 4 (das ist ein W-Raum!) Stochastik 1 I. Wahrscheinlichkeitsräume Wie groß ist die Wahrscheinlichkeit dafür, dass die Augensumme gleich k ist für k aus der Menge {2, 3, . . . , 12}? S(ω) = k ⇐⇒ ω ∈ S−1 ({k}). Also 1 ⎧ ⎪ 36 ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎪ 36 ⎪ ⎪ ⎪ 3 ⎪ ⎪ ⎪ 36 ⎪ ⎪ ⎪ ⎪ ⎪4 P({ω ∈ Ω ∣ S(ω) = k}) = P(S−1 ({k})) = ⎨ 36 5 ⎪ ⎪ 36 ⎪ ⎪ ⎪ 6 ⎪ ⎪ ⎪ 36 ⎪ ⎪ ⎪ 5 ⎪ ⎪ ⎪ 36 ⎪ ⎪ ⎪ ⎪⋮ ⎩ k=2 k=3 k=4 k=5 k=6 k=7 k=8 Wir haben mittels S einen neuen W-Raum konstruiert! Ω̃ = {2, . . . , 12}, F̃ ∶= P(Ω̃) und PS (A) ∶= P(S−1 (A)), A ⊂ Ω̃. In der Maßtheorie heißt P X Bildmaß von X unter P. Definition I.6 Es sei (Ω, F, P) ein W-Raum und (S, S) ein Messraum. Dann heißt eine Abbildung X ∶ Ω → S S-wertige Zufallsvariable, falls X messbar bezüglich (F, S) ist ( d.h. ∀A ∈ S ∶ X −1 (A) ∈ F). Im Fall (S, S) = (R, B) (Borel-σ-Algebra) spricht man bloß von reellwertigen Zufallsvariable oder Zufallsgröße, im Fall (S, S) = (Rd , BRd ) von einem Zufallsvektor. Das W-Maß (check!) P X (A) ∶= P(X −1 (A)), A ∈ S heißt Verteilung der Zufallsvariablen X. Man schreibt statt P X auch L(X) („law of X“) sowie {X ∈ A} = {ω ∈ Ω ∣ X(ω) ∈ A} = X −1 (A), {X = x} = {ω ∈ Ω ∣ X(ω) = x} = X −1 ({x}) P(X ∈ A) = P({X ∈ A}) = P(X −1 (A)) = P X (A); P(X = x) = P({X = x}) = P X ({x}). Beispiel I.7 (a) Ist F = P(Ω), so ist jede Abbildung X ∶ Ω → S messbar, also eine Zufallsvariable. Das gilt insbesondere also für die Augensumme S von oben sowie diskrete W-Räume (siehe unten). ⎧ ⎪ ⎪1, falls ω ∈ A (b) Für ein Ereignis A ∈ F ist 1 A (ω) = ⎨ (Indikatorfunktion) eine Zufallsva⎪ 0, falls ω ∉ A ⎪ ⎩ riable auf (Ω, F, P) mit Werten in ({0, 1}, P({0, 1})) oder auch in (R, BR ). Insbesondere ist jede konstante Funktion X(ω) = c für c ∈ Rd eine Zufallsvariable. Beispiel I.8 (Geburtstagsproblem) Wie groß ist die Wahrscheinlichkeit, dass n (n ≤ 365) Personen an n verschiedenen Tagen Geburtstag haben? Wir gehen davon aus, dass das Jahr genau 365 Tage hat und jeder Tag mit gleicher Wahrscheinlichkeit Geburtstag einer Person ist (und diese Geburtstage unabhängig für alle Personen gewählt werden). Die Menge aller Geburtstagskombinationen kann als Ziehen von n Kugeln einer Urne mit 365 Kugeln mit Zurücklegen und mit Beachtung der Reihenfolge modelliert werden. Es ergeben sich 365n Kombinationen. Die „günstigen“ Ereignisse (an verschiedenen Tagen Geburtstag) entsprechen dem Ziehen ohne Zurücklegen. Dafür ergeben sich 365 ⋅ 364⋯(365 − n + 1) Kombinationen. Die gesuchte Wahrscheinlichkeit ist also 365! 365n (365−n)! 365−n+1 1 = 1 364 = 1 ⋅ (1 − 365 )⋯(1 − 365 ⋯ 365 5 n−1 365 ) n−1 k )) = exp( ∑ log (1 − 365 k=1 Stochastik 1 I. Wahrscheinlichkeitsräume k ) = exp(−n(n − 1)/2 ⋅ Für kleine x gilt log(1 + x) ≈ x, stets gilt log(1 + x) ≤ x ⪅ exp(∑nk=1 − 365 365) I.2. Diskrete Verteilungen Definition I.9 Ist Ω eine endliche oder abzählbar unendliche Menge F = P(Ω) und ein W-Maß auf F, so heißt (Ω, F, P) diskreter W-Raum. Eine S-wertige Zufallsvariable heißt diskret verteilt, falls (S, S = P(S), PS ) ein diskreter W-Raum ist. Beispiel I.10 n-facher Münzwurf, Würfelwurf, Geburtstagsproblem, aber nicht der beliebig häufige Münzwurf. Lemma I.11 (a) Ist (Ω, F, P) diskreter W-Raum, so ist P eindeutig durch seine Zähldichte p(ω) ∶= P({ω}), ω ∈ Ω festgelegt. Ebenso legt bei einer diskret verteilten Zufallsvariable X (mit Werten in S) p X (s) = P X ({s}) = P(X = s) die Verteilung P X von X eindeutig fest. (b) Ist Ω andererseits endlich oder abzählbar unendlich und p ∶ Ω → [0, 1], so dass ∑ω∈Ω p(ω) = 1 gilt, dann wird durch P(A) ∶= ∑ω∈A p(ω), A ⊂ Ω ein W-Maß P auf (Ω, P(Ω)) definiert, dessen Zähldichte p ist. Beweis: (a) Seien P, Q W-Maße auf (Ω, F) mit p(ω) = P({ω}) = Q({ω}) für alle ω ∈ Ω. Wegen σ-Additivität gilt dann für alle A ⊆ Ω: P(A) = P( ⋃ {ω}) = σ-Add. ω∈A ∑ P({ω}) = ∑ p(ω) = ∑ Q({ω}) ω∈A ω∈A ω∈A = Q( ⋃ {ω}) = Q(A) Ô⇒ P = Q ω∈A Genauso für Zufallsvariablen. Vor. Def (b) Es gilt P(Ω) = ∑ω∈Ω p(ω) = 1 sowie für An ⊆ Ω paarweise disjunkt Def P( ⋃ An ) = n≥1 ∑ ω∈⋃n≥1 An Def p(ω) = ∑ ∑ p(ω) n≥1 ω∈An = ∑ P(An ) Ô⇒ P ist σ-additiv n≥1 Also ist P ein W-Maß. Natürlich gilt P({ω}) = p(ω) nach Definition. 6 ◻ Stochastik 1 I. Wahrscheinlichkeitsräume I.3. Wichtige diskrete Verteilungen Gleichverteilung/Laplaceverteilung Ist Ω endlich, so beschreibt die Zähldichte p(ω) = 1 ,ω ∣Ω∣ ∈ Ω, die Gleichverteilung auf Ω. Es gilt also P(A) = ∑ p(ω) = ω∈A ∣A∣ ,A⊆Ω ∣Ω∣ Das hatten wir bereits bei Münzwurf und Würfelwurf verwendet. Hypergeometrische Verteilung Bernoulli-Schema/Bernoulli-Kette : Wir spielen ein Spiel n-mal hintereinander, bei dem jeweils mit Wahrscheinlichkeit p Erfolg eintritt und die einzelnen Spielausgänge nicht voneinander abhängen. („Münzwurf“). Setze „1“ für Erfolg und „0“ für Misserfolg und modelliere Ω = {0, 1}n mit Zähldichte n n p̄(ω) = p̄(ω1 , . . . , ωn ) = p∑i=1 ωi (1 − p)∑i=1 (1−ωi ) Man spricht von einem Bernoulli-Schema der Länge n mit Erfolgswahrscheinlichkeit p. Binomialverteilung: Es bezeichne N die Anzahl der Erfolge in einem Bernoulli-Schema der Länge n mit Erfolgswahrscheinlichkeit p. N ist also die Zufallsvariable N ∶ ΩBernoulli → {0, 1, . . . , n} n mit N(ω) = N(ω1 , . . . , ωn ) = ∑ ωi i=1 N N Was ist die Verteilung P von N? Betrachte die Zähldichte p . n p N (k) = P(N = k) = ( ) ⋅ pk (1 − p)n−k =∶ Binn,p (k) k Die durch Binn,p (⋅) beschriebene Verteilung heißt Binomialverteilung der Länge n mit Wahrscheinlichkeit p. Beispiele sind „Anzahl Kopf“ beim Münzwurf, Gewinne beim regelmäßigen Lotto, Heilungserfolg eines Medikaments bei Patienten etc. Binn,p kann durch ein sogenanntes Stabdiagramm visualisiert werden. Geometrische Verteilung Es bezeichne K den Zeitpunkt des ersten Erfolgs in einem Ber- noulli-Schema. Für k ≤ n gilt P(K = k) = (1 − p)k−1 p =∶ Geo p (k) Man kann die Zähldichte Geo p (⋅) der geometrischen Verteilung mit Wahrscheinlichkeit p auf N = {1, 2, . . . } als Zähldichte der Zufallsvariablen K bei einem beliebig langen Bernoulli-Schema (n = ∞) auffassen. Beachte ∞ ∞ k=1 k=1 ∑ Geo p (k) = ∑ (1 − p) k−1 ⋅p = p⋅ 1 =1 1 − (1 − p) für p ∈ (0, 1] Beispielanwendung ist z.B. die Anzahl von Tagen bis zum Ausfall eines technischen Geräts („Glühbirne“). 7 Stochastik 1 I. Wahrscheinlichkeitsräume Multinomialverteilung : Oft gibt es nicht nur zwei Versuchsausgänge (Erfolg, Misserfolg), sondern r > 2. In der Genetik werden z.B. weiß-, rosa- und rotblühende Ausprägungen einer Pflanze modelliert und gezählt. Auf der Menge Ω = {k ∈ {0, . . . , n}r ∣ r ∑i=1 k i ∶= n}, wobei k = (k1 , . . . , kr ) ist und k i die Anzahl der Versuchsausgänge mit Merkmal i ∈ {1, . . . , r} (oder in Klasse i) bezeichnet, betrachte die Zähldichte Multn,p1 ,...,pr (k) = r n! k p 1 ⋅ p2k2 ⋯prkr k1 !k2 !⋯kr ! 1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ pi ≥ 0, ∑ pi = 1 für i=1 Multinomialkoeffizient pi gibt dabei die Wahrscheinlichkeit für Merkmal/Klasse i an. Bei zwei Klassen, d.h. r = 2, ergibt sich Multn,p1 ,p2 (k) = n! k1 k2 n! k p1 p2 = p 1 ⋅ (1 − p1 )n−k1 k1 !k2 ! k1 !(n − k1 )! 1 dann in der ersten Koordinate Binn,p1 (k1 ) Poissonverteilung Auf Ω = N0 definiert für λ > 0 Poissλ (k) = e−λ λk , k! k≥0 die Zähldichte der Poissonverteilung. Die Wichtigkeit ergibt sich aus dem Poissonschen Grenzwertsatz: Satz I.12 (Poissonscher Grenzwertsatz) Es seien pn ∈ [0, 1] mit limn→∞ npn = λ > 0. Dann gilt für alle k ∈ N0 lim Binn,pn (k) = Poissλ (k) n→∞ Beweis: Schreibe An ∼ Bn falls limn→∞ An Bn = 1. Dann gilt n n(n − 1)⋯(n − k + 1) nk nk ⋅ ( )= ∼ k! k! k nk k n n k Ô⇒ Binn,pn (k) = ( )pkn (1 − pn )n−k ∼ p (1 − pn )n−k k! n k 1 ⋅npn nk k (1 − pn ) pn = p ⋅ k! n (1 − pn )k ∼ Analysis ∼ (npn )k −npn e k! λk −λ e k! ◻ Bemerkung Später werden wir mit stoch. Methoden folgende Konvergenzgeschwindigkeit erhalten: n 2 ∑ ∣ Binn,p (k) − Poissλ (k)∣ ≤ 2np = 2λp für λ = np k=0 Auf Grund dieses Grenzwertsatzes heißt die Poissonverteilung auch „Verteilung der seltenen Ereignisse“ 8 Stochastik 1 I. Wahrscheinlichkeitsräume Beispiel I.13 (a) In einem Land gibt es 730 Geburten pro 100.000 Einwohnern im Jahr. Wie ist die Anzahl X der Geburten pro Tag in einer Stadt mit 280.000 Einwohnern verteilt? (wichtig z.B. für Geburtsstation im Krankenhaus.) Approximative Modellierung p: „Wahrscheinlichkeit, dass ein Einwohner an einem festen Tag ein Kind be730 kommt.“ p = 100 000⋅365 = 1002000 n = 280 000 unabhängige Wiederholungen dieses „Experiments“ n groß, p klein, das heißt Poisson-Approximation mit λ = n ⋅ p = 5.6. Die Zufallsvariable X ist also approximativ Poiss(5, 6) verteilt, d.h. P(X = k) = Poiss5,6 (k) mit k ∈ N0 . (b) Radioaktiver Zerfall: Anzahl N der Zerfälle in einer festen Zeiteinheit wird kanonisch mit der Poissonverteilung modelliert (Atomzahl n groß, Wkeit für Zerfall eines Atoms sehr klein). Folgendes Beispiel zeigt nun, dass wir bei überabzählbaren Mengen Ω nicht mehr vernünftig definieren können, weshalb wir uns dann auf σ-Algebren (wie Borel-σ-Algebra) beschränken werden. Satz I.14 (Vitali, 1905) Sei Ω = {0, 1}N die Ergebnismenge des beliebig langen Münzwurfs. Dann gibt es keine Abbildung P ∶ P(Ω) → [0, 1], die den Kolmogorovschen Axiomen (eines W-Maßes) genügt und folgende Invarianzeigenschaften besitzt: ∀A ⊂ Ω, n ≥ 1 ∶ P(Tn (A)) = P(A) wobei Tn (ω) = Tn ((ω1 , ω2 , . . . , ωn , . . . )) = (ω1 , ω2 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . ) das Ergebnis des n-ten Wurfes umkehrt. Beweis: Definiere Äquivalenzrelation ∼ auf Ω: ω ∼ ω ′ ⇐⇒ ∃N ≥ 1∀n ≥ N ∶ ωn = ωn′ (ω und ω ′ unterscheiden sich nur in endlich vielen Gliedern). Nach dem Auswahlaxiom existiert eine Menge A ⊆ Ω, die aus jeder Äquivalenzklasse genau einen Repräsentanten enthält. Nun sei S = {S ⊆ N ∣ ∣S∣ endlich} = ⋃ {S ⊂ N ∣ max S = m} m≥1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ endliche Kardinalität so dass S abzählbar ist. Setze TS ∶= ∏n∈S Tn = Tn1 ○ Tn2 ○ ⋯ ○ Tnk für S = {n1 , n2 , . . . , nk } ( TS diskret, dreht also die Ergebnisse an allen Indizes in S um). Dann gilt: (a) Ω = ⋃S∈S TS (A) (zu jedem ω ∈ Ω existiert ω ′ ∈ A mit ω ′ ∼ ω, also auch ein S ⊆ N, ∣S∣ < ∞ mit TS (ω ′ ) = ω) (b) Die Mengen (TS (A))S∈S sind paarweise disjunkt, da sonst für ω, ω ′ ∈ A und S, S′ ∈ S TS (ω) = TS′ (ω ′ ) Ô⇒ ω ∼ TS (ω) = TS′ (ω ′ ) ∼ ω ′ aber ω, ω ′ ∈ A Ô⇒ ω = ω ′ σ-Additivität zeigt: 1 = P(Ω) = P(⋃S∈S TS (A)) = ∑S∈S P(TS (A)) {0, ∞} E Also kann ein solches P nicht existieren. 9 Ann. = ∑S∈S P(A) ∈ ◻ Stochastik 1 I. Wahrscheinlichkeitsräume I.4. Maßtheorie und W-Maße in Rd Zunächst rekapitulieren wir die Grundlagen der Maßtheorie. • Für jedes E ⊂ P(Ω) gibt es eine kleinste σ-Algebra σ(E), die E enthält. • Ist (S, d) ein metrischer Raum (wie (Rd , ∣ ⋅ ∣)), so heißt BS = σ({O ⊆ S ∣ O offen}) Borel-σ-Algebra von S. • BR wird z.B. erzeugt von E = {(a, b] ∣ a, b ∈ R} oder F = {(−∞, b] ∣ b ∈ R}. BRd analog durch E = {(a1 , b1 ] + . . . + (ad , bd ] ∣ a1 , . . . , ad , b1 , . . . bd ∈ R} (Quader, Rechtecke) • g ∶ Ω → S ist (F ⊆ P(Ω), S ⊆ P(S))-messbar, wenn für einen Erzeuger E von S gilt: ∀A ∈ E ∶ g−1 (A) ∈ F • jede stetige Funktion zwischen metrischen Räumen ist Borel-messbar (d.h. messbar bzgl. der jeweiligen Borel-σ-Algebren). • Jede Funktion g ∶ Ω → R mit {g ≤ y} ∈ F für alle y ∈ R ist (F, BR )-messbar. • Falls gn ∶ Ω → R (F, BR )-messbar sind, so auch inf gn , sup gn , lim inf gn , lim sup gn , lim gn n n n→∞ n→∞ n→∞ (sofern existent) • g1 , . . . , gd ∶ Ω → R, (F, BR )-messbar, dann ist ω ↦ (h(g1 (ω), . . . , gd (ω)) mit h ∶ Rd → Rk Borelmessbar ist (F, BRk )-messbar. Insbesondere gilt: (g1 , . . . , gd ), g1 + g2 , g1 − g2 , g1 ⋅ g2 , g1 /g2 , max(g1 , . . . , gd ), min(g1 , . . . , gd ) sind dann messbar. 3 • g ∶ Ω → S, (F, S)-messbar, h ∶ S → T (S, T )-messbar Ô⇒ h ○ g ∶ Ω → T ist (F, T )messbar. Definition I.15 Sei Ω nichtleere Menge. Dann heißt A ⊆ P(Ω) Algebra über Ω, falls • Ω∈A • A ∈ A Ô⇒ AC ∈ A • A, B ∈ A Ô⇒ A ∪ B ∈ A. µ ∶ A → [0, +∞] heißt Prämaß über A, falls • µ(∅) = 0 • ∀An ∈ A paarweise disjunkt mit ⋃n≥1 An ∈ A ∶ µ(⋃n≥1 An ) = ∑n≥1 µ(An ). µ heißt Maß, falls A bereits eine σ-Algebra ist. Ein Maß µ heißt σ-endlich, falls es An ∈ A gibt mit µ(An ) < ∞ und ⋃n An = Ω. Ein Maß µ mit µ(Ω) = 1 ist ein W-Maß (s.o.). 3g 1 /g2 nur falls sie wohldefiniert ist. 10 Stochastik 1 I. Wahrscheinlichkeitsräume Beispiel I.16 Auf Ω = R ist A ∶= {⋃nk=1 (ak , bk ] ∣ n ≥ 1, ak ∈ R ∪ {−∞}, bk ∈ R ∪ {∞}} eine Algebra (wobei (ak , ∞] = (ak , ∞). Setze λ((a, b]) ∶= b − a für b ≥ a. Für paarweise disjunkte (ak , bk ] ∶ λ(⋃nk=1 (ak , bk ]) = ∑nk=1 (bk − ak ). Unten werden wir zeigen, dass dieses λ ein Prämaß auf A definiert. Mit Hilfe des folgenden Satzes wird dies zu einem Maß auf BR fortgesetzt, dem Lebesguemaß: Satz I.17 (von Caratheodory, 1917) Jedes Prämaß µ auf A kann zu einem Maß µ̃ auf σ(A) fortgesetzt werden, d.h. µ̃(A) = µ(A) für alle A ∈ A. Eindeutigkeitssatz: Es seien µ, ν σ-endliche Maße auf (Ω, F) mit ∃(An ) ∈ F ∶ ⋃ An = Ω, µ(An ) = ν(An ) < ∞. Ist dann E ein Erzeuger von F, der ∩-stabil (d.h. A, B ∈ E Ô⇒ A ∩ B ∈ E) und gilt µ(A) = ν(A) für alle E, so folgt µ = ν auf F. (Insbesondere gilt Eindeutigkeit der Maßerweiterung bei W-Maßen). Definition I.18 Für ein W-Maß P auf (R, BR ) ist seine Verteilungsfunktion F ∶ R → [0, 1] gegeben durch F(x) ∶= P((−∞, x]). Für reellwertige Zufallsvariablen X setzt man entsprechend F X (x) = P X ((−∞, x]) = P(X ≤ x), x ∈ R. Lemma I.19 Jede Verteilungsfunktion F ist monoton wachsend, rechtsstetig und erfüllt limx→−∞ F(x) = 0 und limx→∞ F(x) = 1. Beweis: Monotonie für x < y gilt F(y) − F(x) = P((−∞, y]) − P((−∞, x]) Add. v. P = P((x, y]) ≥ 0 s.o. Rechtsstetigkeit Es gelte xn ↓ x (xn → x, xn ≥ x, xn monoton fallend) F(xn ) − F(x) = P((x, xn ]). Nun gilt (x, xn ] ⊇ (x, xn+1 ] ⊇ ⋯∀n ≥ 1 mit ⋂(x, xn ] = ∅ und lim (x, xn ] = ∅ n→∞ σ-Stetigkeit Ô⇒ lim P((x, xn ]) = P( lim (x, xn ]) = P(∅) = 0 n→∞ n→∞ Ô⇒ lim F(xn ) = F(x) n→∞ (F ist rechtsstetig) s.o. σ-Stetigkeit: An = (x, xn ]C , An ⊆ An+1 ∀n, ⋃n≥1 An = R Ô⇒ P(An ) → P(R) = 1 n→∞ Dann ist P((x, xn ]) = P(AC n ) = 1 − P(An ) ÐÐÐ→ 0. lim F(x) = lim P((−∞, x]) x→−∞ x↓−∞ = σ−Stet. P( lim (−∞, x]) = P(∅) = 0 x↓−∞ lim F(x) = lim P((−∞, x]) = P(R) = 1 x→∞ x↑∞ ◻ Satz I.20 Es sei F ∶ R → R eine monoton wachsende, rechtsstetige Funktion. Dann existiert ein Maß µ auf (R, BR ) mit µ((a, b]) = F(b) − F(a) für alle a < b ∈ R µ ist eindeutig durch F definiert und heißt Lebesgue-Stieltjes-Maß zu F. 11 Stochastik 1 I. Wahrscheinlichkeitsräume Korollar I.21 Es gibt genau ein Maß λ auf (R, BR ) mit λ((a, b]) = b − a (∀a < b ∈ R). λ heißt Lebesguemaß (wähle F(x) = x) Korollar I.22 Zu jedem F ∶ R → [0, 1] monoton wachsend, rechtsstetig und limx→−∞ F(x) = 0, limx→∞ F(x) = 1 gibt es genau ein W-Maß P, dessen Verteilungsfunktion F ist. Beispiel I.23 Für alle Intervalle berechnet man dann leicht P((a, b]) = F(b) − F(a). Beweis: (des Satzes) Eindeutigkeit folgt, weil die Menge {(a, b] ∣ a < b ∈ R} ein ∩stabiler Erzeuger von BR ist und ⋃n≥1 [−n, n] = R gilt, aus dem Eindeutigkeitssatz. Auf K der Algebra (s.o) A = {⋃k=1 (ak , bk ] ∣ K ≥ 1, −∞ ≤ a1 < b1 ≤ ⋯ ≤ ak < bk ≤ ∞} definiere K K k=1 k=1 µ( ⋃ (ak , bk ]) ∶= ∑ (F(bk ) − F(ak )) Dann ist µ offensichtlich additiv mit µ(∅) = 0. Kn Zu zeigen ist σ-Additivität für µ Prämaß: An = ⋃k=1 (ank , bkn ] mit An paarweise disjunkt und ⋃n≥1 An ∈ A, d.h. K∞ ∞ ∞ ⋃ An = ⋃ (ak , bk ], n≥1 K∞ ∈ N, k=1 Kn ∞ ∞ ∞ −∞ ≤ a∞ 1 ≤ b1 ≤ . . . ≤ aK∞ ≤ bK∞ ≤ ∞ K∞ Ô⇒ ∑ ∑ (F(bkn ) − F(ank )) = ∑ (F(bk∞ ) − F(a∞ k )) ! K≥1 k=1 k=1 Dafür reicht es, für ein Intervall zu zeigen: (a∞ , b∞ ] = ⋃ (al , bl ] Ô⇒ µ((a∞ , b∞ ]) = ∑ µ((al , bl ]) l≥1 l>1 L L Natürlich gilt µ(⋃l=1 (al , bl ]) ≤ µ((a∞ , b∞ ]), also Subadditivität von µ, da ⋃l=1 (al , bl ] ⊆ ∞ ∞ (a , b ]) L ∀L ≥ 1 ∑ µ((al , bl ]) ≤ µ((a∞ , b∞ ]) l=1 ∞ Ô⇒ ∑ µ((al , bl ]) ≤ µ((a∞ , b∞ ]) l=1 Für „≥“ betrachte Ol = (al , bl + δl ) ⊃ (al , bl ] mit µ((al , bl + δl ]) ≤ µ((al , bl ]) + ε ⋅ 2−l , was wegen Rechtsstetigkeit von F immer möglich ist. Dann ist (Ol )l≥1 eine offene Überdeckung von [a∞ + δ∞ , b∞ ], wobei µ((a∞ , a∞ + δ∞ ]) ≤ ε gelte (F rechtsstetig!). Nach dem Satz von Heine-Borel gilt wegen Kompaktheit von [a∞ + δ∞ , b∞ ], dass es L ein L ≥ 1 existiert mit [a∞ + δ∞ , b∞ ] ⊆ ⋃l=1 (al , bl + δl ]. L Ô⇒ µ((a∞ , b∞ ]) = µ((a∞ + δ∞ , b∞ ]) + µ((a∞ , a∞ + δ∞ ]) ≤ ∑(µ((al , bl ]) + ε ⋅ 2−l ) + ε l=1 ≤ ∑ µ((al , bl ]) + 2ε l≥1 Dies gilt für beliebiges ε > 0. Mit ε → 0 folgt ∑l≥1 µ((al , bl ]) ≥ µ((a∞ , b∞ ]). 12 ◻ Stochastik 1 I. Wahrscheinlichkeitsräume Definition I.24 Ist f ∶ Rd → [0, ∞) eine (Lebesgue)-integrierbare Funktion mit ∫Rd f (x) dx = 1, so heißt f Lebesgue-Dichte oder auch (Wahrscheinlichkeits)-Dichte auf Rd . Lemma I.25 b Jede W-Dichte f auf R erzeugt mittels Pf ((a, b]) ∶= ∫a f (x) dx ein W-Maß Pf auf (R, BR ). x Beweis: Betrachte F(x) = ∫−∞ f (y) dy. Dann ist F monoton wachsend, stetig und erfüllt ∞ f (x) dx = 1 lim F(x) = 0, lim F(x) = ∫ x→−∞ −∞ x→∞ Der Satz/Korollar liefert, dass F die Verteilungsfunktion eines W-Maßes Pf ist, so dass b gilt Pf ((a, b]) = F(b) − F(a) = ∫a f (x) dx. ◻ Bemerkung (a) Aus der Integrationstheorie folgt dann für jede Borelmenge B, dass Pf (B) = ∫ f (x) dx B (b) Man kann Dichten auch bezüglich beliebiger σ-endlicher Maße definieren, nicht nur bzgl. des Lebesguemaßes. Lemma I.26 (a) Ist f die Dichte eines W-Maßes P auf (R, BR ) mit Verteilungsfunktion F, so gilt ∀x ∈ R ∶ x F(x) = ∫−∞ f (s) ds (b) Ist die Verteilungsfunktion F auf R (schwach) differenzierbar, so ist f (x) = F′ (x), x ∈ R, die zugehörige W-Dichte. Bemerkung F heißt schwach differenzierbar (oder absolut stetig), falls es eine Funktion F gibt b mit der Eigenschaft F(b) − F(a) = ∫a F′ (y) dy für alle a < b. Beispiel I.27 F(x) = ∣x∣ ist schwach differenzierbar mit F′ (x) = 1(0,∞) (x) − 1(−∞,0) (x). 1 Beispiel I.28 (a) W-Dichte f (x) = b−a 1[a,b] (x), x ∈ R für a < b. Dann ist Pf ([a, b]) = 1 1 und Pf = b−a ⋅ λ∣[a,b] (das Lebesguemaß auf [a, b]). Pf heißt gleichmäßige Verteilung auf [a, b], Notation U([a, b]) für „uniform“. (b) Exponentialverteilung für λ > 0 setze f λ (x) = λe−λx 1[0,∞) (x), x ∈ R ist W-Dichte. Das zugehörige W-Maß Pλ heißt Exponentialverteilung mit Parameter λ, Notation Exp(λ). Die Verteilung Exp(λ) wird häufig zur Modellierung von Wartezeiten (Bedienzeiten, Atomzerfall etc) verwendet. λ entspricht z.B. Stärke der Radioaktivität (siehe Übung) (c) Normalverteilung Parameter µ ∈ R, σ > 0. W-Dichte ϕµ,σ2 (x) = √ 1 2π ⋅ σ 13 e − (x−µ)2 2σ2 , x∈R Stochastik 1 I. Wahrscheinlichkeitsräume Das zugehörige W-Maß heißt Normalverteilung, Notation N (µ, σ2 ). Zeige ∫ ∫ ∞ −∞ ∞ −∞ ! ϕµ,σ2 (x) dx = 1 (x−µ) 1 − √ e 2σ2 2πσ 2 x−µ z= σ = ∫ subst. ∞ −∞ z2 1 √ e− 2 ⋅ σ dz 2π σ Ô⇒ ∫ ϕµ,σ2 = ∫ ϕ0,1 (∫ ∞ −∞ z2 2 e− 2 dz) Fubini = ∫ ∞ −∞ Reduktion auf Fall µ = 0, σ = 1 ∫ ∞ −∞ z2 e− 2 ⋅ e− y2 2 dz dy = ∫ e− R2 ² y2 +z2 2 dy dz = dλR2 Polar =∫ R+ ×[0,2π] = 2π ∫ ∞ 0 e 2 − r2 r dr dϕ r2 r2 re− 2 dr = 2π (−e− 2 ) ∣ ∞ r=0 = 2π Ô⇒ ∫ ϕ0,1 = 1 (d) Produktdichte im Rd . Sind f 1 , . . . , f d ∶ R → [0, ∞) W-Dichten in R, so ist d (x1 , . . . , xd ) ∈ Rd f (x1 , . . . , xd ) = ∏ f i (xi ) i=1 eine W-Dichte in Rd die Produktdichte von f 1 , . . . , f d . Beachte ∫ Rd f (x) dx Fubini = ∫ ∞ −∞ (⋯ ∫ ∞ −∞ f 1 (x1 )⋯ f d (xd ) dx1 . . . ) dxd ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ∞ d-mal ∞ =∫ ⋯∫ f 2 (x2 )⋯ f d (xd ) dx2 . . . dxd = ⋯ = 1 −∞ −∞ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ (d−1)-mal d ∣x∣2 (e) Mehrdimensionale Standard-Normalverteilung: f (x) = (2π)− 2 e− 2 , x ∈ Rd mit ∣x∣2 = x12 + ⋯ + xd2 ist Produktdichte der eindimensionalen Standard-Normalverteilungen f i (xi ) = √1 e− 2π x2 i 2 . Notation: N (O, Ed ) mit Ed = ( ant. 1 0 ⋱ 0 1 ) ∈ Rd×d . Beachte: f ist rotationsinvari- Bemerkung (Resultate für W-Maße in (Rd , BRd )) Betrachte die d-dim. Verteilungsfunktion F(x) = F(x1 , . . . , xd ) = P((−∞, x1 ] × ⋯ × (−∞, xd ]) F hat wiederum Eigenschaften wie im Eindimensionalen, nur die Monotonie wird ersetzt durch die Nichtnegativität eines komplexeren Ausdrucks. Im R2 z.B. gilt F(x1 , x2 ) − F(x1 , y2 ) − F(y1 , x2 ) + F(y1 , y2 ) ≥ 0, ∀y1 ≤ x1 , y2 ≤ x2 . Dann kann man umgekehrt zeigen, dass eine d-dim. Verteilungsfunktion (d.h. Funktion mit diesen 14 Stochastik 1 I. Wahrscheinlichkeitsräume Eigenschaften) eindeutig ein W-Maß auf (Rd , BRd ) bestimmt. Ist f ∶ Rd → [0, ∞) eine Wx1 xd f (z) dz1 . . . dzd eine Verteilungsfunktion, so dass es ⋯ ∫−∞ Dichte, so ist F(x1 , . . . , xd ) = ∫−∞ ein entsprechendes W-Maß Pf gibt mit Pf (B) = ∫B f (x) dx für alle B ∈ B. Satz I.29 (Dichtetransformation) Es sei X eine reellwertige Zufallsvariable mit stetiger Dichte f X (d.h. f X ist W-Dichte von P X ) sowie Y = ϕ(X) mit ϕ ∶ R → R monoton wachsend, so dass die Linksinverse ϕ−1 stetig differenzierbar ist. Dann hat Y ebenfalls eine Dichte und zwar f Y (y) = f X (ϕ−1 (y)) ⋅ (ϕ−1 )′ (y), y ∈ R. Beachte: Für beliebiges ϕ muss Y keine Dichte besitzen, z.B. falls ϕ(x) ≡const. Beweis: Es gilt FY (y) = PY ((−∞, y]) = P(Y ≤ y) = P(ϕ(X) ≤ y) = P(ϕ−1 ϕ(X) ≤ ϕ−1 (y)) = P(X ≤ ϕ−1 (y)) = F X (ϕ−1 (y)) Ô⇒ f Y (y) = (FY )′ (y) = f X (ϕ−1 (Y)) ⋅ (ϕ−1 )′ (y) ◻ Korollar I.30 Im vorangegangen Satz gilt für Y = aX + b mit a ≠ 0, b ∈ R f Y (y) = f X ( Beweis: klar wegen ϕ−1 (y) = Beispiel I.31 y−b 1 ) a a y−b a (a) X ∼ N (0, 1) d.h. (P X = N(0, 1)) Ô⇒ Y = σX + µ ∼ N (µ, σ2 ). f Y (y) = ϕ0,1 ( y−µ σ )⋅ 1 − 1 ( y−µ )2 1 1 = √ e 2 σ ⋅ = ϕµ,σ2 (y) σ σ 2π (b) X ∼ Exp(1) Ô⇒ X = λ−1 ⋅ X ∼ Exp(λ). λ>0 f Y (y) = f X (λy) ⋅ λ = λ ⋅ e−λy 1R+ (y) (gilt trotz Sprungs von f X bei Null) (c) X ∼ N (0, 1) Ô⇒ Y = X 2 ∼ χ2 (1) (chi-quadrat-Verteilung mit einem Freiheitsgrad) Problem: ϕ(x) = x2 nicht monoton. Argument über Verteilungsfunktion y ≥ 0 √ √ P(Y ≤ y) = P(X 2 ≤ y) = P(X ∈ [− y, + y]) = ∫ Ô⇒ f Y (y) = √ y √ − y ϕ0,1 (z) dz √ y √ y d d 1 1 P(Y ≤ y) = e− 2 ∫ √ ϕ0,1 (z) dz = 2 ϕ0,1 ( 2) ⋅ √ = √ dy dy − y 2 y 2πy y≥0 Der Dichtetransformationssatz lässt sich entsprechend im Mehrdimensionalen formulieren (s. Krengel), insbesondere gilt für eine affine Abbildung ϕ ∶ Rd → Rd , ϕ(x) = Ax + b mit 15 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit A ∈ Rd×d invertierbar, b ∈ Rd und einem d-dim. Zufallsvektor X mit Dichte f X , dass Y = ϕ(X) = AX + b die Dichte f Y (y) = f X (A−1 (y − b)) ⋅ ∣ det(A−1 )∣ besitzt. Anwendung: X ∼ N (0, Ed ), Y = AX + b: d f Y (y) = f X (A−1 (y − b))∣ det(A−1 )∣ = (2π)− 2 ⋅ exp (− ∣A−1 ∣(y − b)2 1 )⋅ 2 ∣ det(A)∣ ⎛ ⟨(A−1 )∗ A−1 (y − b), (y − b)⟩ ⎞ d 1 = (2π)− 2 exp − ⋅ 2 ⎝ ⎠ ∣ det(AA∗ )∣ 12 ⎛ ⟨Σ−1 (y − b), y − b⟩ ⎞ exp − mit 1 d 2 ⎝ ⎠ (2π) 2 det(Σ) 2 Ô⇒ Y ist N (b, Σ)-verteilt mit Σ = AA∗ (siehe III.3) = 1 Σ = AA∗ II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit II.1. Bedingte Wahrscheinlichkeit und Bayesformel Beispiel II.1 (Motivation) Ein neu entwickelter Test auf eine Krankheit ergibt bei 1000 Versuchspersonen, davon 900 gesund und 100 krank, folgende Ergebnisse: gesund krank Summe Test positiv Test negativ 15 885 92 8 107 893 Kontingenztafel Summe 900 100 1000 92 Was würde der Arzt einem Patienten sagen, dessen Test positiv ausfällt. Antwort: 107 Wkeit für „krank“, d.h. ca 80% der Fälle ist der Patient wirklich krank. Andererseits liegt bei 8 einem negativem Testergebnis in nur 893 ≈ 0.9% der Fälle doch eine Krankheit vor. ∣K ∩ P∣ 92 = , 107 ∣P∣ 8 ∣K ∩ N∣ = 893 ∣N∣ Dieser Ansatz führt auf den Begriff der bedingten Wahrscheinlichkeit; hier würde dies – im Sinne relativer Häufigkeiten – der bedingten Wahrscheinlichkeiten für „krank“ unter der Bedingung „Test positiv“ bzw. „Test negativ“ entsprechen. Definition II.2 Es seien A und B Ereignisse mit P(B) > 0. Dann bezeichnet P(A∣B) ∶= Wahrscheinlichkeit von A unter B (oder A gegeben B). P(A∩B) P(B) die bedingte Beispiel II.3 (Wurf zweier fairer Würfel) A =„Pasch“, B =„beide Augenzahlen ungerade“ P(A∣B) = P(A ∩ B) = P(B) 16 3 36 9 36 = 1 1 > = P(A) 3 6 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Satz II.4 Es sei B ein Ereignis mit P(B) > 0. Dann gilt (a) A ↦ Q(A) ∶= P(A∣B) ist ein W-Maß. N (b) Formel von der totalen Wahrscheinlichkeit: Für B = ⊍i=1 Bi die Vereinigung paarweise disjunkter Ereignisse Bi mit P(Bi ) > 0 und Ereignis A gilt N P(A ∩ B) = ∑ P(Bi )P(A∣Bi ) i=1 (c) Bayesformel Für Ereignisse A mit P(A) > 0 und paarweise disjunkte Ereignisse B1 , . . . , BN N mit P(Bi ) > 0∀i und ⊍i=1 Bi = Ω gilt P(Bi ∣A) = P(Bi ) ⋅ P(A∣Bi ) N ∑ j=1 P(Bj ) ⋅ P(A∣Bj ) In (b) und (c) kann N = ∞ gesetzt werden. B Beweis: ­ P( Ω ∩ B) (a) Q(Ω) = P(Ω∣B) = = 1, Ai paarweise disjunkt: P(B) Q( ⊍ Ai ) = i≥1 P(Ai ∩ B) P((⊍i Ai ) ∩ Bi ) P(⊍(Ai ∩ B)) = =∑ = ∑ Q(Ai ) P(B) P(B) P(B) i i N N N i=1 i=1 i=1 (b) P(A ∩ B) = P( ⊍ (A ∩ Bi )) = ∑(A ∩ Bi ) = ∑ P(A∣Bi ) ⋅ P(Bi ) (c) Nach (b) folgt P(Bi ) ⋅ P(A∣Bi ) N ∑ j=1 P(Bj )P(A∣Bj ) = P(A ∩ Bi ) = P(Bi ∣A) P(A) ◻ Bemerkung (a) Beachte den Unterschied zwischen P(A∣B) und P(A ∩ B). Es gilt stets P(A∣B) ≥ P(A ∩ B). (b) Interpretation: a) frequentistisch: Bei häufiger Wiederholung ist P(A∣B) der Anteil der Fälle, in denen A eintritt, in der Gesamtheit der Fälle, in denen B eintritt. b) subjektiv: Ist P meine Einschätzung der Lage vor Beginn des Experiments, so ist P(⋅∣B) meine Einschätzung, nachdem ich vom Eintreten von B erfahren habe. Beispiel II.5 (Test auf eine seltene Krankheit) Eine Krankheit komm bei ca 0.5% der Bevölkerung vor. Ein Test führt bei 99% der Kranken zu einer Reaktion, aber auch bei 2% der Gesunden. Wie groß ist die Wahrscheinlichkeit, dass bei positiver Reaktion eine Person wirklich krank ist. A = „Reaktion positiv“, B = „krank“ Bayes P(B∣A) = P(B) ⋅ P(A∣B) 0.005 ⋅ 0.99 495 = = ≈ 0.2 P(B)P(A∣B) + P(BC )P(A∣BC ) 0.005 ⋅ 0.99 + 0.995 ⋅ 0.02 2485 Diese Wahrscheinlichkeit beträgt also nur ca. 20%! 17 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Lemma II.6 (Multiplikationsformel) Für Ereignisse A1 , . . . An mit P(A1 ∩ . . . ∩ An ) > 0 gilt P(A1 ∩ . . . ∩ An ) = P(A1 ) ⋅ P(A2 ∣A1 )P(A3 ∣A1 ∩ A2 )⋯P(An ∣A1 ∩ A2 ∩ ⋯ ∩ An−1 ) P(A 1∩ A2 ) P(A1 ∩ A2 ∩ . . . ∩ An ) ⋯ Beweis: rechte Seite: P(A ) ⋅ ( = P(A1 ∩ . . . ∩ An ) ◻ 1 (A(( ( P(A ( P(A ∩ . . . ∩ ) 1) ( 1 n−1 ( ( Dies führt auf die sogenannte Pfadregel. Betrachte z.B. ein Urnenmodell mit Ziehen ohne Zurücklegen und Beachtung der Reihenfolge sowie W weißen und S schwarzen Kugeln, N = S+W II.2. Unabhängigkeit Falls Kenntnis über das Ereignis B die Wahrscheinlichkeit des Ereignisses A nicht beeinflusst (und umgekehrt), so bezeichnet man A und B als (stochastisch) unabhängig P(A∣B) = P(A) P(B∣A) = P(B) ⇐⇒ und P(A ∩ B) P(A ∩ B) = P(A) ⇐⇒ = P(B) P(B) P(A) Allgemeiner definiert man auch im Fall von P(A) = 0 oder P(B) = 0 Definition II.7 (a) Zwei Ereignisse A und B sind (stochastisch) unabhängig, falls P(A ∩ B) = P(A) ⋅ P(B) gilt. (b) Eine Familie (Ai )i∈I , I beliebige Indexmenge von Ereignissen heißt unabhängig, falls für jede endliche Teilmenge J ⊆ I gilt P(⋂ j∈J A j ) = ∏ j∈J P(A j ). Satz II.8 (Lemma von Borel-Cantelli) Sei (An )n≥1 eine Folge von Ereignissen in (Ω, F, P) sowie A ∶= lim sup An ∶= ⋂ ⋃ An = {ω ∈ Ω ∣ ω ∈ An gilt für unendlich vielen n ≥ 1} n→∞ m≥1 n≥m Dann gilt (a) Aus ∑n≥1 P(An ) < ∞ folgt P(A) = 0. (b) Gilt ∑n≥1 P(An ) = ∞ und ist (An )n≥1 unabhängig, so folgt P(A) = 1. Beweis: (a) Es gilt A ⊆ ⋃n≥m An für alle m ≥ 1, weshalb P(A) ≤ inf P( ⋃ An ) ≤ inf ∑ P(An ) = lim ∑ P(An ) m≥1 n≥m m≥1 n≥m 18 m→∞ n≥m ∑n≥1 P(An )<∞ = 0 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit (b) Betrachte AC ∶= ⋃ ⋂ AC n: m≥1 n≥m P(AC ) ≤ ∑ P( ⋂ AC n) = σ-stet. n≥m m≥1 N C ∑ lim P( ⋂ An ) m≥1 N→∞ n=m N UE 1 − x ≤ e−x , x ≥ 0 = ∑ lim ∏ P(AC n) m≥1 N→∞ n=m ´¹¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¶ 1−P(An ) N ≤ ∑ lim ∏ exp(−P(An )) m≥1 N→∞ n=m N = ∑ exp(− lim ∑ P(An )) = ∑ 0 = 0 N→∞ n=m m≥1 ◻ m≥1 Beispiel II.9 (a) In Teil (b) kann nicht auf die Unabhängigkeit verzichtet werden: Betrachte z.B. ein Ereignis A1 mit P(A1 ) ∈ (0, 1) und setze An ∶= A1 , n ≥ 2. Dann ist lim supn→∞ An = A1 und somit P(lim supn→∞ An ) < 1, obwohl ∑n≥1 P(An ) = +∞ ist. (b) Runs im beliebig langen Münzwurf: Es sei AnM das Ereignis „Kopf in den Würfen (M) n, n + 1, . . . , n + M − 1“ (M-Run ab n-ten Münzwurf). Frage: P(lim supn→∞ An ) =?. (M) (M) Da (An )n≥1 nicht unabhängig ist, betrachten wir die Teilfolge (AkM+1 )k≥1 . Diese ist unabhängig, weil für k1 < k2 < ⋯ < k n gilt (k n +1)⋅M (M) P (Ak M+1 ∩ . . . ∩ 1 (M) Akn M+1 ) = ∑ (M) (M) ∩...∩Ak M+1 n 1 M+1 ω∈Ak 1 ∑i=1 ( ) 2 (1−ωi ) = 2−M⋅n (M) (M) = P (Ak M+1 ) ⋯ P (Akn M+1 ) 1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ 2−M 2−M Borel-Cantelli (b) Ô⇒ (M) ∑k≥1 P(AkM+1 )=∞ (M) P (lim sup An n→∞ (M) B-C ) ≥ lim P (lim sup AkM+1 ) = 1 k→∞ k→∞ Es gilt sogar noch mehr: (M) P(“für jedes M ≥ 1 gibt es ∞-viele M-Runs“) = P ( ⋂ lim sup An M≥1 n→∞ )=1 weil der Schnitt von 1-Mengen wieder eine 1-Menge ist, d.h.: P(En ) = 1, n ≥ 1 Ô⇒ P( ⋂ En ) = 1 − P( ⋃ EnC ) ≥ 1 − ∑ P(EnC ) = 1 n≥1 n≥1 n≥1 Definition II.10 Seien Mi ⊂ Fi , i ∈ I Mengen von Ereignissen. Dann heißt (Mi )i∈I unabhängig, falls für jede beliebige Auswahl von Ai ∈ Mi , die Familie (Ai )i∈I unabhängig ist. 19 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit II.3. Unabhängige Zufallsvariablen Definition II.11 Eine Familie (Xi )i∈I von (Si , Si )-wertige Zufallsvariablen heißt unabhängig, falls für beliebige Ereignisse Ai ∈ Si die Ereignisse ({Xi ∈ Ai })i∈I unabhängig sind. Äquivalent ist (Xi )i∈I unabhängig genau dann, wenn die von den Xi erzeugten σ-Algebren F Xi ∶= {Xi−1 (A) ∣ A ∈ Si }, i ∈ I unabhängig sind. Satz II.12 Es seien (Xi , i ∈ I) Zufallsvariablen auf (Ω, F, P) mit Werten in (Si , Si ) und Ei seien ∩-stabile Erzeuger der Si . Damit ist (Xi )i∈I bereits unabhängig, falls ({Xi ∈ Ai })i∈I unabhängig sind für beliebige Wahlen von Ai in Ei . Beweis: Es reicht, diesen Satz für beliebige endliche Indexmengen J ⊆ I zu beweisen. Wegen ∣J∣ < ∞ gibt es dann ein n mit n ≥ ∣{j ∈ J ∣ A j ∉ E j }∣ bei einer beliebigen Wahl von A i ∈ Si . (∗) Induktionsbehauptung: Es gilt P (⋂ j∈J {X j ∈ A j }) = ∏ j∈J P ({X j ∈ A j }) für beliebige A j ∈ S j , sofern ∣{j ∈ J ∣ A j ∉ E j }∣ ≤ n. Induktionsanfang (n = 0): Das ist gerade die Annahme. Induktionsschritt (n → n + 1): Sei o.B.d.A. ∣J∣ ≥ 2 und seien die A j so, dass ∣{j ∈ J ∣ A j ∉ E j }∣ = n + 1 gilt. Setze J ′ = J ∖ {j} für ein j mit A j ∉ E j . Nach Annahme gilt (∗) für J ′ . O.B.d.A. sei dabei P (⋂ j∈J ′ {X j ∈ A j }) > 0 (sonst gilt (∗) trivialerweise auch für J ∶ 0 = 0). Betrachte nun auf S j die W-Maße (!!) ⎞ ⎛ A ↦ P {X j ∈ A} ∣ ⋂ {Xi ∈ Ai } =∶ Q1 (A) ⎠ ⎝ i∈J ′ A ↦ P(X j ∈ A) =∶ Q2 Für A ∈ E j gilt nach Induktionsannahme Q1 (A) = Eindeutig- Ô⇒ keitssatz P ({X j ∈ A} ∩ ⋂i∈J ′ {Xi ∈ Ai }) P (⋂i∈J ′ {Xi ∈ Ai }) Q1 = Q2 Ô⇒ (∗) (( (( P(X P(X j ∈ A) ⋅ ( ∏i∈J i ∈ Ai ) (′( = Q2 = (( (( P(X ∏i∈J i ∈ Ai ) (′( ( I.A. gilt für J ◻ Korollar II.13 Es seien X1 , . . . , Xn Zufallsvariablen auf (Ω, F, P). (a) Sind alle Xk diskret verteilt, so sind X1 , . . . , Xn genau dann unabhängig, wenn gilt ! P(X1 = s1 , . . . , Xn = sn ) = p X (s1 , . . . , sn ) = p X1 (s1 )⋯p Xn (sn ) = P(X1 = s1 )⋯P(Xn = sn ) falls alle si ∈ Si , i = 1 . . . , n (b) Sind die Xk reellwertig, so sind X1 , . . . , Xn genau dann unabhängig, wenn gilt P(X1 ≤ x1 , . . . , Xn ≤ xn ) = F X (x1 , . . . , xn ) = F x1 (x1 )⋯F xn (xn ) = P(X1 ≤ x1 )⋯P(Xn ≤ xn ) 20 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Beweis: (a) Die Richtung „⇒“ ist klar (wähle Ai = {si } in der Definition). Andererseits ist Ek = {{s j } ∣ sk ∈ Sk } ∪ {∅} ein ∩-stabiler Erzeuger von Sk = P(Sk ). Die trivialen Ereignisse {Xk ∈ ∅} = ∅ erfüllen stets die Unabhängigkeitsbedingung P(∅) = 0). Nach Voraussetzung gilt nun n P(X1 ∈ A1 , . . . Xn ∈ An ) = ∏ P(Xk ∈ Ak ) k=1 Satz 2.12 für die ∩-stabilen Erzeuger Ek und alle Ak ∈ Ek Ô⇒ X1 , . . . , Xn sind unabhängig. (b) Wir schließen wie in (a) mit den ∩-stabilen Erzeugen Ek = {(−∞, x] ∣ x ∈ R}. ◻ Satz II.14 Es sei X = (X1 , . . . , Xn ) ein Zufallsvektor auf (Ω, F, P) mit W-Dichte f X ∶ Rn → [0, ∞). Dann gilt: (a) Jedes Xk besitzt eine Dichte, die sogenannte Randdichte ∞ ∞ f X (x1 , . . . , xn ) dx1 . . . dxk−1 dxk+1 . . . dxn ⋯∫ f Xk (xk ) = ∫ −∞ −∞ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ n−1 (b) Die Zufallsvariablen X1 , . . . , Xn sind unabhängig genau dann, wenn f X (x1 , . . . , xn ) = f X1 (x1 )⋯ f Xn (xn ) für Lebesgue-fast alle x1 , . . . , xn ∈ R. Beweis: (a) Es gilt P(Xk ≤ bk ) = ∫ {(ξ 1 ...,ξ n )∈Rn ∣ξ k ≤bk } P(dx) Fubini = ∫ bk −∞ f Xk (ξ k ) dξ k für alle bk ∈ R und daher f Xk ist Dichte von Xk . (b) Es bleibt zu zeigen (wegen Satzes): n P(X1 ≤ b1 , . . . , Xn ≤ bn ) = ∏ P(Xk ≤ bk ) ∀b1 , . . . , bn k=1 n ⇐⇒ f X (x1 , . . . , xn ) = ∏ f Xk (xk ) λ-f.ü. k=1 „⇐“ folgt durch Integration P(X1 ≤ b1 , . . . , Xn ≤ bn ) = ∫ b1 −∞ Fubini = 21 ⋯∫ bn n −∞ bk k=1 −∞ ∏∫ f X (x1 , . . . , xn ) dxn . . . dx1 n f Xk (xk ) dxk = ∏ P(Xk ≤ bk ) k=1 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit „⇒“: Die selbe Rechnung zeigt hier ∫ b1 −∞ ⋯∫ bn −∞ n f X (x1 , . . . , xn ) dxn . . . dx1 = ∏ ∫ Maßtheorie Ô⇒ Hauptsatz der Diff/Int-Rechnung k=1 bk ∞ f Xk (xk ) dxk ∀b1 , . . . , bn ∈ R n f X (x1 , . . . , xn ) = ∏ f Xk (xk ) ◻ λ-f.ü. k=1 Beispiel II.15 (a) Besitzt X = (X1 , . . . , Xn ) eine Produktdichte f X ∶ Rn → [0, ∞) (d.h. n f i (xi )), so sind X1 , . . . , Xn , unabhängig mit den Randdichten f X (x1 , . . . , xn ) = ∏i=1 Xi f (x) = f i (x): f Xi (xi ) = ∫ ⋯ ∫ f X (x1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn = 1 ⋅ f i (xi ) ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¶ (´¹∏¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹f¹ ¹ ¹ ¹ (x ))⋅ f (x ) (n−1)-mal j≠i j j i i und obiger Satz zur Unabhängigkeit findet Anwendung. Bei der n-dimensionalen n Standardnormalverteilung X ∼ N (O, En ) mit Dichte f X (x) = (2π)− 2 e− eindimensionale Randverteilungen n f X (x) = ∏ N (0, 1) ∶ i=1 ∣x∣2 2 , x ∈ Rn hat 2 1 − xi e 2 2π Außerdem sind die Koordinaten X1 , . . . Xn unabhängig. (b) Es sei X = (X1 , X2 ) gleichverteilt auf G = {(x1 , x2 ) ∈ R2 ∣ x12 + x22 ≤ 1}, d.h. f X (x) = √ 1 2 2 X12 + X22 , Φ = arctan( X 1 (x), x ∈ R . Schreibe nun X in Polarkoordinaten R = G X1 ) ∈ ∣G∣ [0, 2π). Es gilt für beliebige r ∈ [0, 1], ϕ ∈ [0, 2π] ∶ P(R ≤ r, Φ ≤ ϕ) = ϕ r2 1 ⋅ = P(R ≤ r) P(Φ ≤ ϕ) Ô⇒ 2 π ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ r2 R, Φ unabhängig. ϕ 2π Also ist f R (r) = 2r ⋅ 1[0,1] (r) und f Φ (ϕ) = gemeinsame Dichte als Produktdichte: f (R,Φ) (r, ϕ) = 1 2π 1[0,2π) (ϕ). Mit dem Satz ergibt sich die r 1 (R)1[0,2π) (ϕ) π [0,1] Alternative Herleitung: Dichtetransformation im R2 (X1 , X2 ) ↦ (R, Φ). (c) Falls X1 , . . . , Xn Dichten f Xi ∶ R → [0, ∞) besitzen, so braucht der Zufallsvektor X = (X1 , . . . Xn ) keine Dichte zu besitzen. Einfachstes Beispiel ist der Fall X1 (ω) = X2 (ω) = . . . = Xn (ω)∀ω ∈ Ω. Dann gilt für die Diagonale D = {(x1 , . . . , xn ) ∈ Rn ∣ x1 = x2 = . . . = xn }, dass P(X ∈ D) = P(X1 = X2 = ⋯ = Xn ) = 1 und andererseits besitzt D Lebesguemaß Null im Rn , n ≥ 2. Hätte X eine Dichte f X , so wäre P(X ∈ D) = ∫D f X (x) dx = 0 ≠ 1. Also gibt es keine Dichte f X . Dies heißt insbesondere, dass für X1 , . . . , Xn N (0, 1)-verteilt nicht notwendigerweise X = (X1 , . . . , Xn ) als Vektor normalverteilt ist (P = N (0, En ) gilt nur bei Unabhängigkeit). 22 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Zur Existenz unabhängiger Zufallsvariablen Frage: Gegeben Verteilungen Pi auf (Si , Si ), gibt es unabhängige Zufallsvariablen (Xi )i∈I mit P Xi = Pi ? Gesucht ist also ein W-Raum (Ω, F, P) und messbare Abbildungen Xi ∶ Ω → Si . Definition II.16 Es seien (Ωi , Fi , Pi )1≤i≤n W-Räume. Setze Ω = Ω1 × ⋯ × Ωn , F = F1 ⊗ F2 ⋯ ⊗ Fn = σ ({A1 × A2 × ⋯ × An ∣ A1 ∈ F1 , . . . , An ∈ Fn }) Dann heißt F Produkt σ-Algebra auf Ω der F1 , . . . Fn . Gilt für ein W-Maß P auf F P(A1 × ⋯ × An ) = P(A1 )⋯P(An ) für alle A1 ∈ F1 , . . . , An ∈ Fn , s heißt P Produktmaß der P1 , . . . , Pn Notation P = P1 ⊗ P2 ⊗ ⋯ ⊗ Pn . Bemerkung Da die Rechteckmengen A1 × A2 × ⋯An ein ∩-stabiler Erzeuger von F sind, ist das Produktmaß auf jeden Fall eindeutig bestimmt. In der Maßtheorie wird gezeigt, dass ein solches Produktmaß stets existiert („Prinzip von Cavalieri“). Beispiel II.17 Sind f 1 , . . . , f d ∶ R → [0, ∞) W-Dichten von W-Maßen P1 , . . . , Pd , auf BR , so hat das Produktmaß P = P1 ⊗ ⋯ ⊗ Pd die Produktdichte f (x1 , . . . , xd ) = f 1 (x1 )⋯ f d (xd ) denn: P(A1 × ⋯ × Ad ) = ∫ f (x) dx Fubini = A1 ×⋯×Ad d ∫ ∫ ⋯ ∫ f 1 (x1 )⋯ f d (xd ) dxd ⋯ dx2 dx1 = ∏ ∫ f k (x) dx k=1 Ak A1 A2 Ad ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ Pk (Ak ) d = ∏ Pk (Ak ) k=1 Ein anderes Beispiel ist das Bernoulli-Schema, wofür für die Zähldichte gilt n p( ω1 , . . . ωn ) = p∑ ωi (1 − p)∑(1−ωi ) = ∏ pωi (1 − p)1−ωi ¯ i=1 ∈{0,1} Wir erhalten also ein Produktmaß auf dem Produktraum {0, 1}n , F = P(Ω) = P({0, 1})⊗n . ! Lemma II.18 Ist (Ω1 × ⋯ × Ωn , F1 ⊗ ⋯ ⊗ Fn , P1 ⊗ ⋯ ⊗ Pn ) ein Produkt-W-Raum, so sind die Koordinatenabbildung Xi (ω1 , . . . , ωn ) ∶= ωi von Ω1 × ⋯ × Ωn auf Ωi unabhängige (Ωi , Fi )-wertige Zufallsvariablen mit Verteilung Pi . Beweis: Xi ist (F1 ⊗ ⋯ ⊗ Fn , Fi )-messbar wegen (∗) Xi−1 (A) = Ω1 × ⋯ × Ωi−1 × A × Ωi+1 × ⋯ × Ωn ∈ F1 ⊗ ⋯ ⊗ Fn für alle A ∈ Fi . Außerdem gilt (P1 ⊗ ⋯Pn )Xi (A) = P1 ⊗ ⋯ ⊗ Pn (Xi−1 (A)) Produktmaß = und (∗) P1 (Ω1 ) ⋯Pi−1 (Ωi−1 ) ⋅ Pi (A) ⋅ Pi+1 (Ωi+1 )⋯Pn (Ωn ) = Pi (A) ´¹¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¶ =1 Also besitzt Xi die Verteilung Pi . 23 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Unabhängigkeit folgt aus (P1 ⊗ ⋯ ⊗ Pn )(X1 ∈ A1 , . . . , Xn ∈ An ) = P1 ⊗ ⋯ ⊗ Pn (A1 × ⋯ × An ) s.o. = P1 (A1 )⋯Pn (An ) = (P1 ⊗ ⋯ ⊗ Pn )(X1 ∈ A1 )⋯(P1 ⊗ ⋯ ⊗ Pn )(Xn ∈ An ) ◻ Für unendliche Produkträume gelten bei W-Maßen analoge Resultate, für deren Beweis wir auf Stochastik II verweisen (dort allg. für stochastische Prozesse). Definition II.19 Es seien (Ωi , Fi , Pi )i∈I , I ≠ ∅ beliebige Indexmenge, eine Familie von W-Räumen. Setze Ω ∶= ∏i∈I Ωi = ⨉i∈I Ωi (kartesisches Produkt), π j ((ωi )i∈I ) = ω j (j-te Koordiantenprojektion), F = ⊗i∈I Fi ∶= σ({πi−1 (Ai ) ∣ i ∈ I, Ai ∈ Fi }). (Produkt-σ-Algebra) Dann heißt P Produktmaß der (Pi )i∈I auf F, falls ⎛ ⎞ P ⋂ πi−1 (Ai ) = ∏ Pi (Ai ) ⎝i∈J ⎠ i∈J gilt für alle J ⊆ I endlich und Ai ∈ Fi . Beachte: Ist I = {1, . . . , n} so ist die Produkt-σ-Algebra gerade gleich σ({A1 × ⋯ × An ∣ A1 ∈ F1 , . . . , An ∈ Fn }), weil A1 × ⋯ × An = π1−1 (An ) ∩ . . . ∩ πn−1 (An ) gilt und σ-Algebren ∩-stabil sind. Die Definition des Produktmaßes ist ebenso wie vorher. Satz II.20 Es solches Produktmaß existiert stets und ist eindeutig. Korollar II.21 Zu gegebenen W-Maßen Pi auf (Ωi , Fi ), i ∈ I, existiert stets eine Familie unabhängiger Zufallsvariablen Xi mit P Xi = Pi , i ∈ I, nämlich Ω = ∏ Ωi , F = ⊗ Fi , i∈I i∈I P = ⊗ Pi und Xi (ω) = πi (ω) = ωi i∈I Beweis: wie oben Beispiel II.22 Man kann ein unendlich langes Münzwurfexperiment auf Ω = {0, 1}N , F = P({0, 1})⊗N ⊊ P({0, 1}N ) konstruieren (Siehe Vitali). Satz II.23 (0-1-Gesetz von Kolmogorov) Seien (Xk )k≥1 unabhängige Zufallsvariablen auf (Ω, F, P). Dann gilt für jedes bezüglich (Xk )k≥1 asymptotische Ereignis A: P(A) = 0 oder P(A) = 1 Definition II.24 Ein Ereignis A heißt asymptotisch bezüglich (Xk )k≥1 , falls es für alle n ∈ N nur von (Xk , k ≥ n) abhängt, genauer falls A ist der asymptotischen σ-Algebra AX = ⋂n≥1 σ(⋃k≥n F Xk ) (mit F Xk = {Xk−1 (B) ∣ B ∈ S}) liegt. 24 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Lemma II.25 Sind (Xi )i∈I (Si , Si )-wertige unabhängige Zufallsvariablen und ϕi ∶ Si → Ti (Si , Ti )-messbar, so sind auch die (Ti , Ti )-wertige Zufallsvariablen (ϕi (Xi ))i∈I unabhängig. Beweis: Zu zeigen ist, dass für ∀Ai ∈ Ti die ({ϕi (Xi ) ∈ Ai })i∈I unabhängig sind. Wegen {ϕi (Xi ) ∈ Ai } = {ω ∈ Ω ∣ ϕi (Xi (ω)) ∈ Ai } = {ω ∈ Ω ∣ Xi (ω) ∈ ϕ−1 (Ai )} = {Xi ∈ ϕ−1 i (Ai )} ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ =∶Bi und Bi ∈ Si (da ϕi messbar) sind die Ereignisse {ϕi (Xi ) ∈ Ai } = {Xi ∈ Bi } unabhängig auf Grund der Unabhängigkeit der (Xi )i∈I . ◻ Beispiel II.26 In obigen Beispiel der Gleichverteilung auf dem Einheitskreis waren R, Φ unabhängig. Dann sind zum Beispiel auch (R2 , Φ) oder (R, cos Φ) unabhängig, aber nicht (R cos Φ, R sin Φ). 1 Frage: Betrachte die harmonische Reihe ∑∞ k=1 k , wähle aber die Vorzeichen jedes Summan- den rein zufällig. Wie groß ist die Wahrscheinlichkeit, dass diese zufällige Reihe konvergiert? Wir wissen: ∞ 1 1 1 = 1 + + + ⋯ = +∞ k 2 3 k=1 ∑ ∞ (−1)k+1 = log 2 < +∞ k k=1 ∑ 1 Nun betrachte ∑∞ k=1 Xk k mit P(Xk = 1) = P(Xk = −1) und (Xk )k≥1 unabhängig. Zur Erinnerung: A ist asymptotisches Ereignis bzgl. (Xk )k≥1 falls A ∈ AX = ⋂ σ( ⋃ F Xk ) n≥1 k≥n ∞ Hier: m X Xk konvergiert} = ⋂ ⋃ ⋂ {∣ ∑ k ∣ < ε} ε>0 N∈N m,n≥N k=n k k=1 k ε∈Q ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ A ∶= { ∑ X X ∈σ(⋃m F k )=F Xn ,...,Xm ⊆σ(⋃k≥N F k ) k=n ∈σ(⋃k≥N F Xk ) ³¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ · ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ µ C m X Xk Ô⇒ ( ⋃ ⋂ {∣ ∑ ∣ < ε}) = ⋂ ⋃ {∣ ∑ k ∣ ≥ ε} ∈ AX N∈N m,n≥N k=n k N≥1 m,n≥N k=n k ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ m ∈σ(⋃k≥N F Xk ) AC ∈ AX Ô⇒ A ∈ AX , also ist A asymptotisches Ereignis. Das 0-1-Gesetz von Kolmogorov impliziert daher P(A) ∈ {0, 1} d.h. mit Wahrscheinlichkeit 1 konvergiert diese zufällige Reihe oder divergiert. Es kann also nicht sein, dass z.B. beides mit Wahrscheinlichkeit 0.5 eintritt. Zum Beweis des 0-1-Gesetzes benötigen wir Lemma II.27 Es seien (Xi )i∈I eine Familie unabhängiger Zufallsvariablen mit Werten in (Si , Si ) und I = I1 ⊍ I2 eine Zerlegung der Indexmenge I. Dann sind die σ-Algebren F1 = σ (⋃i∈I1 F Xi ) und F2 = σ (⋃i∈I2 F Xi ) unabhängig. 25 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Beweis: Man betrachte die Zufallsvariablen Y1 = (Xi )i∈I1 , Y2 = (Xi )i∈I2 mit Werten in (∏i∈I1 Si , ⊗i∈I1 Si ) beziehungsweise (∏i∈I2 Si , ⊗i∈I2 Si ). [Messbarkeit folgt, weil ⊗i∈I1 Si von {πi−1 (A) ∣ i ∈ I1 , A ∈ Si } erzeugt wird.] Wegen dieses Erzeugers ist die Unabhängigkeit der σ-Algebren F1 , F2 auch äquivalent zur Unabhängigkeit der Zufallsvariablen Y1 , Y2 (d.h. F1 = F Y1 , F2 = F Y2 ). Nach obigem Satz reicht es, für die ∩-stabilen Erzeuger E j = {⋃i∈J πi−1 (Ai ) ∣ J ⊆ Ij , endlich, Ai ∈ Si } für j = 1, 2 zu zeigen. ∀B1 ∈ E1 , B2 ∈ E2 ∶ P(Y1 ∈ B1 , Y2 ∈ B2 ) = P(Y1 ∈ B2 ) ⋅ P(Y2 ∈ B2 ) Dies folgt nun aus der Unabhängigkeit der (Xi )i∈I ∶ Betrachte B1 = ⋂i∈J1 πi−1 (Ai ), B2 = ⋂i∈J2 πi−1 (Ai ) mit J1 , J2 ⊆ I endlich, J1 ∩ J2 = ∅, Ai ∈ Si . Dann gilt P(Y1 ∈ B1 , Y2 ∈ B2 ) = P(∀i ∈ J1 , Xi ∈ Ai und ∀i ∈ J2 ∶ Xi ∈ Ai ) Unabh. = ∏ P(Xi ∈ Ai ) der Xi i∈J ∪J 1 2 = ( ∏ P(Xi ∈ Ai ))( ∏ P(Xi ∈ Ai )) i∈J1 i∈J2 Xi = P(∀i ∈ J1 ∶ Xi ∈ Ai )P(∀i ∈ J2 ∶ Xi ∈ Ai ) unabh. = P(Y1 ∈ B1 ) ⋅ P(Y2 ∈ B2 ) ◻ ∞ = Beweis: (des 0-1-Gesetzes) Betrachte die σ-Algebren F1n = σ (⋃nk=1 F Xk ) sowie Fn+1 ∞ n n X k σ (⋃k=n+1 F ). Nach dem Lemma sind F1 , Fn+1 unabhängig. Für die Zufallsvariable X = (Xk )k≥1 mit Werten in (∏k≥1 Sk , ⊗k≥1 Sk ) und für 1 A (ω) gilt wegen n n ∀n ≥ 1, Bi ∈ Si ∶P( X ∈ ⋂ πi−1 (Bi ) , 1 A = 1) = P(X ∈ ⋂ πi−1 (Bi ))P(1 A = 1) ´¹¹ ¹ ¹¸¹ ¹ ¹ ¶ i=1 i=1 n ∈Fn+1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ={X1 ∈B1 ,...,Xn ∈Bn }∈F1n n πi−1 (Bi ) ∣ n ∈ N, Bi ∈ Si } ein σ-stabiler Erzeuger von ⊗i≥1 Si . Also folgt Nun ist {⋂i=1 nach obigem Satz, dass X und 1 A unabhängige Zufallsvariablen sind [beachte F 1 A = {A, AC , Ω, ∅} + Übung]. Andererseits gilt AX ⊆ σ (⋃k≥1 F Xk ) = F X . Also gibt es für A ∈ AX ein B ∈ ⊗k≥1 Sk mit A = X −1 (B). Sind 1 A und X unabhängig, so sind auch 1 B (X) und 1 A nach obigem Lemma unabhängig und daher ist 1 A von sich selbst unabhängig. Ô⇒ P(A) = P(1 A = 1) Ô⇒ P({1 A = 1} ∩ {1 A = 1}) = P(1 A = 1)P(1 A = 1) = P(A)2 Ô⇒ P(A) ∈ {0, 1} ◻ II.4. Faltung Definition II.28 Sind P und Q W-Maße auf (R, BR ), so definiere die Faltung P ∗ Q von P und Q als das W-Maß auf (R, BR ) mit (P ∗ Q)(B) = ∫ P(B − {x})Q( dx), 26 B ∈ BR Stochastik 1 Bemerkung II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit (a) Dabei ist B − {x} = {b − x ∣ b ∈ B}, z.B. [0, 1] − {x} = [−x, 1 − x]. (b) ∫R f (x)Q( dx) bezeichnet das Maß-Integral (Lebesgue-Integral) von f bzgl. dem Maß Q. Insbesondere ist im Fall, dass Q eine W-Dichte q auf R besitzt, ∫ f (x)Q( dx) = ∫ f (x)q(x) dx R R Alternative Schreibweisen sind ∫ f (x)Q( dx) = ∫ f (x) dQ(x) = ∫ f dQ (c) Dass P ∗ Q in der Tat ein W-Maß ist (und dass x ↦ P(B − {x}) messbar ist), wird sich aus dem folgenden Lemma ergeben: Lemma II.29 Es seien X und Y unabhängige reellwertige Zufallsvariablen. Dann besitzt X + Y die Verteilung P X+Y = P X ∗ PY . Beweis: Wir zeigen, dass die Verteilungsfunktionen übereinstimmen, d.h. ∀b ∈ R ∶ P(X + Y ≤ b) = P X ∗ PY ((−∞, b]) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ P X+Y ((−∞,b]) P(X + Y ≤ b) = ∫ P(X,Y) ( dx, dy) = ∫ (P X ⊕ PY )( dx, dy) {(x,y)∣x+y≤b} {(x,y)∣x+y≤b} Fubini = ∫ (∫ 1(x + y ≤ b)P X ( dx))PY ( dy) = ∫ P X ((−∞, b − y])PY ( dy) = ∫ P X ((−∞, b] − {y})PY ( dy) = P X ∗ PY ((−∞, b]) ◻ Korollar II.30 Die Faltung ist kommutativ, also P ∗ Q = Q ∗ P und assoziativ P ∗ (Q ∗ R) = (P ∗ Q) ∗ R. Beweis: Das folgt sofort aus den Eigenschaften der Zufallsvariablen: X+Y = Y+X bzw. (X + Y) + Z = X + (Y + Z) für unabhängige Zufallsvariablen mit P X = P, PY = Q, P Z = R. ◻ Bemerkung Die Faltung ist allgemein auch für (signierte) Maße definiert, womit man sogar eine Faltungs-Algebra im Sinne der Algebra erhält. Lemma II.31 Es seien X und Y unabhängige reellwertige Zufallsvariablen und X besitze eine W-Dichte f X . Dann besitzt X + Y die Dichte f X+Y (z) = ∫R f X (z − y)PY ( dy). Falls auch Y eine Dichte f Y besitzt, so gilt f X+Y = f X ∗ f Y , wobei die Faltung zweier integrierbarer Funktionen f , g definiert ist als ( f ∗ g)(y) = ∫R f (y − x)g(x) dx. 27 Stochastik 1 II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Beweis: b−y X Def. Y ∀b ∈ R ∶ (P ∗ P )((−∞, b]) = Fubini = X Y ∫ P ((−∞, b − y])P ( dy) = ∫ ( ∫ f (x) dx)P ( dy) X Y R R X −∞ Y ∫ ∫ 1(x ≤ b − y) f (x)P ( dy) dx RR Substitution = z=x+y X Y ∫ ∫ 1(z ≤ b) f (z − y)P ( dy) dz RR b = ∫ (∫ f X (z − y)PY ( dy)) dz −∞ R Wegen P X+Y = P X ∗ PY besitzt X + Y also die Verteilungsfunktion F X+Y (b) = ∫ b −∞ (∫ f X (z − y)P X ( dy)) dz R und somit Dichte f X+Y (z) = ∫R f X (z − y)PY ( dy). Im Fall, dass Y die Dichte f Y besitzt, gilt nach Integrationstheorie „PY ( dy) = f Y (y) dy“ d.h. f X+Y (z) = ∫ f X (z − y) f Y (y) dy = f X ∗ f Y (z) ◻ Beispiel II.32 Es seien X und Y unabhängig mit X ∼ N (µ x , σx2 ), Y ∼ N (µy , σy2 ). Wie ist X + Y verteilt? Es ist nun klar, dass X + Y wieder eine Dichte hat, nämlich f X+Y = f X ∗ f Y . f X ∗ f Y (z) =∫ √ 1 2πσx2 exp (− ⎛ (y − µy )2 ⎞ (z − y − µ x )2 1 ) ⋅ dy exp − √ ⎝ 2σx2 2σy2 ⎠ 2πσ2 y ⎛ ((z − µ x ) − y)2 (y − µy ) ⎞ = c1 ∫ exp − dy − konst. ⎝ 2σx2 2σy2 ⎠ 2 ci >0 2 2 ⎛ (z − µ x − µy ) = c1 exp − ⎝ 2σx2 2 2 2 ⎛ (z − µ x − µy ) σy ⎞ ⎞ ⋅ exp ∫ ⎠ ⎝ (σx2 + σy2 ) ⋅ σx2 ⎠ ⎛ ⎛y− σy (z−µx −µy )⎞ ⎠ ⎜ ⎝ σx2 +σy2 exp ⎜− σx2 σy2 ⎜ 2 2 2 ⎝ σx +σy ⎞ ⎟ ⎟ dy ⎟ ⎠ σy2 ⎛ 1 ⎛1 ⎞⎞ ⎛ 1 (z − µ x − µy )2 ⎞ = c2 ⋅ exp − (z − µ x − µy )2 ⋅ 2 − 2 2 = c exp − 2 ⎝ 2 ⎝ σx σx (σx + σy2 ) ⎠⎠ ⎝ 2 ⎠ σx2 + σy2 Da f X ∗ f Y wieder eine W-Dichte sein muss, ist die Normierungskonstante c2 = und es gilt X + Y ∼ N (µ x + µy , σx2 + σy2 ). 28 √ 1 2π(σx2 +σy2 ) Stochastik 1 III. Erwartungswert, Varianz und Kovarianz III. Erwartungswert, Varianz und Kovarianz III.1. Der Erwartungswert und Momente Wir wollen für reellwertige Zufallsvariablen einen Mittelwert als Kenngröße angeben. Dafür gibt es mehrere Möglichkeiten, aber wie bei deterministischen Größen ist das Analogon des arithmetischen Mittels, nämlich der Erwartungswert, die gängigste Wahl. Beispiel III.1 Beim Würfeln von zwei Würfeln erwarten wir als Augensumme X im Mittel E[X] = P(X = 2) ⋅ 2 + P(X = 3) ⋅ 3 + ⋯ + P(X = 12) ⋅ 12 = 7 gewichtetes Mittel der möglichen Werte von X. Definition III.2 Eine reellwertige Zufallsvariable X heißt einfach, falls sie nur endlich viele Werte annimmt, d.h. m X ist von der Form X(ω) = ∑i=1 αi 1 Ai (ω) mit m ∈ N, αi ∈ R, Ai ∈ F geeignet. Für eine solche Zufallsvariable definieren wir ihren Erwartungswert m E[X] ∶= EX ∶= ∑ αi P(Ai ) i=1 Lemma III.3 Für einfache Zufallsvariablen X auf (Ω, F, P) gilt: (a) E[X] = ∑ xP(X = x); insbesondere hängt der Erwartungswert nur von der Verteilung P X x∈X(Ω) von X ab. (b) Der Erwartungswert ist linear und monoton: Ist Y eine weitere einfache Zufallsvariable und sind α, β ∈ R, so gilt E[αX + βY] = αE[X] + βE[Y] und aus X ≤ Y (d.h. ∀ω ∈ Ω ∶ X(w) ≤ Y(ω)) folgt E[X] ≤ E[Y]. (c) Falls X und Y unabhängige einfache Zufallsvariablen sind, so gilt E[XY] = E[X]E[Y]. (d) ∀A ∈ F ∶ P(A) = E[1 A ] Beweis: (a) o.B.d.A. Ai paarweise disjunkt Def. m m i=1 i=1 E[X] = ∑ αi P(Ai ) = ∑ αi P(Ai ∩ X = αi ) = ∑ x∈X(Ω) m x ∑ 1{x=αi } P(Ai ∩ X = αi ) i=1 X = ∑ xP(X = x) = P (x) x∈X(Ω) hängt dies nur von der Verteilung P X ab. m (b) Zu X = ∑i=1 αi 1 Ai , Y = ∑nj=1 β j 1 Bj wähle eine gemeinsame Verteilung (Ck )1≤k≤r der (Ai ), (Bi ), sodass X = ∑rk=1 α̃k 1Ck , Y = ∑rk=1 β̃ k 1Ck . Da nach a) der Erwartungs- 29 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz wert nicht von der Darstellung von X abhängt, gilt: ⎡ r ⎤ r ⎢ ⎥ E[αX + βY] =E ⎢ ∑ (αα̃k + β β̃ k )1Ck ⎥ = ∑ (αα̃k + β β̃ k )P(Ck ) ⎢ ⎥ ⎣k=1 ⎦ k=1 r r k=1 k=1 =α ∑ α̃k P(Ck ) + β ∑ β̃ k P(Ck ) = αE[X] + βE[Y] r r k=1 k=1 Genauso folgt E[X] = ∑ α̃k P(Ck ) ≤ ∑ β˜k P(Ck ) = E[Y] für X ≤ Y und o.B.d.A (Ck ) paarweise disjunkt Ô⇒ α̃k ≤ β̃ k (a) (c) E[XY] = zP(XY = z) = ∑ z∈(XY)(Ω) Unabhängig = ∑ x∈X(Ω) z≠0 x≠0 zP(X = x)P(Y = ∑ x∈X(Ω) z∈(XY)(Ω) x≠0 = ∑ z ∑ P(XY = z, X = x) ∑ z∈(XY)(Ω) z x) z≠0 ∑ xyP(X = x)P(Y = y) x∈X(Ω) y∈Y(Ω) x≠0 y≠0 = ∑ xP(X = x) ∑ yP(Y = y) = E[X]E[Y] x∈X(Ω) y∈Y(Ω) x≠0 y≠0 ◻ (d) klar nach Def. Beispiel III.4 Sei X eine Bin(n, p)-verteilte Zufallsvariable n n n n n! Def. E[X] = ∑ kP(X = k) = ∑ k( )pk (1 − p)n−k = ∑ pk (1 − p)n−k k (n − k)!(k − 1)!) k=0 k=0 k=1 n =n ∑ ( k=1 n−1 n − 1 n−1 k )p (1 − p)n−k =l=k−1 n ∑ ( )pl+1 (1 − p)n−1−l k−1 l l=0 n−1 =np ∑ ( l=0 n−1 l )p (1 − p)(n−1)−l = np l n Zweite Möglichkeit: es gilt ja X = ∑i=1 Zi mit unabhängigen Zi ∼ Bin(1, p). Linearität liefert n n n 1p = np E[X] = E[∑i=1 Zi ] = ∑i=1 E[Zi ] = ∑ ∑1k=0 kP(Zi = k) = ∑i=1 Definition III.5 Für eine nicht negative Zufallsvariable X setze mittels approximierender Folge (Xn ) einfacher Zufallsvariablen mit Xn ↑ X E[X] ∶= lim E[Xn ] ∈ [0, ∞] n→∞ Betrachte für einen Wahrscheinlichkeitsraum (Ω, F, P) die Menge L1 = L1 (Ω, F, P) = {X ∶ ω → R messbar, E[∣X∣] < ∞} 30 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Definiere für X ∈ L1 mit X + (ω) = max(X(ω), 0) und X − (ω) = max(−X(ω), 0) den Erwartungswert E[X] = E[X + ] − E[X − ] ∈ R Wegen E[X + ] ≤ E[∣X∣] < ∞ und E[X − ] ≤ E[∣X∣] < ∞ gilt für X ∈ L1 stets ∣E[X]∣ < ∞. Man schreibt auch E[X] = ∫ XdP = ∫ X(ω)P(dω) = ∫ X(ω)dP(ω) Ω Ω Ω und setzt ∫ A XdP = ∫Ω X(1 A )dP für A ∈ F. Satz III.6 Für X ∈ L1 (Ω, F, P) gilt (a) E[X] = ∫Ω xP X (dx) und E[X] hängt nur von der Verteilung von X ab. (b) Der Erwartungswert ist linear und monoton auf L1 . (c) Falls X, Y ∈ L1 unabhängig sind, so gilt XY ∈ L1 und E[XY] = E[X]E[Y] Beweis: (a),(b) folgen aus der Maßtheorie (Lemma + Approximation). Für (c) betrachte (a) E[∣XY∣] = ∫ ∣xy∣P(XY) (dx, dy) = ∫ XY R2 R2 ∣x∣∣y∣(P X ⊗ PY )(dx, dy) Tonelli = ∫ ∫ ∣x∣∣y∣P X (dx)PY (dy) = (∫ ∣x∣P X (dx)) (∫ ∣y∣PY (dy)) R R R =E[∣X∣]E[∣Y∣] X,Y∈L1 < R ∞ Ô⇒ XY ∈ L1 Dieselbe Rechnung ohne Betrag zeigt dann E[XY] = E[X]E[Y] (Fubini!) Korollar III.7 (a) Ist X eine Zufallsvariable mit Wahrscheinlichkeitsdichte f X ∶ R → [0, ∞), so gilt X ∈ L1 ⇐⇒ ∫ ∞ −∞ ∣x∣ f X dx < ∞ und in diesem Fall E[X] = ∫ ∞ −∞ x f X dx (b) Ist X eine Zufallsvariable mit Zähldichte p X , so gilt X ∈ L1 ⇐⇒ ∑ ∣x∣p X (x) < ∞ und in diesem Fall E[X] = ∑ xp X (x) x∈X(Ω) Beweis: x∈X(Ω) (a) Sei X ≥ 0, d.h. f X (x) = 0 für x < 0. Dann gilt für ⎧ ⎪ ⎪k2−n , Xn = ⎨ ⎪ n, ⎪ ⎩ falls k2−n ≤ X < (k + 1)2−n , 0 ≤ k ≤ n2n − 1 falls X ≥ n 31 ◻ Stochastik 1 III. Erwartungswert, Varianz und Kovarianz mit Xn ↑ X, Xn einfach und n2n −1 E[Xn ] = ∑ k2−n P(k2−n ≤ X ≤ (k + 1)2−n ) + nP(X ≥ n) k=0 n2n −1 = ∑ ∫ k=0 =∫ mon. Konv. Ô⇒ Beppo-Levi E[X] = ∫ (k+1)2−n k2−n k2−n f X (x)dx + ∫ ∞ n n f X (x)dx n ∞ ⎛n2 −1 ⎝ 0 ∞ 0 ⎞ X −n ∑ k2 1[k2−n ,(k+1)2−n ) (x) + n1[n,∞) (x) f (x)dx ⎠ k=0 x f X (x)dx ∞ ∞ Dies zeigt insbesondere E[∣X∣] = ∫0 x f ∣X∣ (x)dx = ∫0 x( f X (x) + f X (−x))dx und ∞ dies ist endlich genau dann, wenn ∫−∞ ∣x∣ f X (x)dx < ∞. 1 Ist nun X ∈ L , so folgt E[X + ] = ∫ E[X − ] = ∫ ∞ 0 ∞ 0 − x f X (x)dx = ∫ Ô⇒ E[X] =E[X + ] − E[X − ] = ∫ (b) Setze ⎧ k2−n ⎪ ⎪ ⎪ ⎪ Xn = ⎨n ⎪ ⎪ ⎪ ⎪ ⎩0 ∞ + x f X (x)dx = ∫ 0 ∞ 0 ∞ −∞ x f X (x)dx x f X (−x)dx = − ∫ 0 −∞ x f X (x)dx x f X (x)dx , k2−n ≤ X < (k + 1)2−n , k = 0, . . . , n2n − 1 ,X ≥ n ,X < 0 also eine einfache Zufallsvariable. Dann ist n E[Xn+ ] = ⎛n2 −1 −n −n −n ⎞ ∑ k2 P(X ∈ [k2 , (k + 1)2 )) + nP(X ≥ n) + 0 ⎝ k=0 ⎠ n ⎛n2 −1 ⎞ = ∑ k2−n ⋅ p X (x) + n p X (x) ∑ ∑ ⎝ k=0 ⎠ x∈[n,∞)∩X(Ω) x∈[k2−n ,(k+1)2−n )∩X(Ω) n ⎛n2 −1 ⎞ = ∑ p (x)[ ∑ k2−n 1(k2−n ≤ x < (k + 1)2−n ) + n1(x ≥ n)] ⎝ ⎠ k=0 x∈X(Ω) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ X monoton wachsend in n mit Limes max{x, 0} n→∞ ÐÐÐ→ ∑ max{x, 0} ⋅ p X (x) x∈X(Ω) Also gilt E[Xn+ ] → ∑x∈X(Ω) max(x, 0)p X (x) und wegen Xn+ ↑ max{X, 0} = X + 32 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz nach Definition E[X + ] = (analog E[X − ] = ∑ max{−x, 0}p X (x)) max{x, 0}p X (x) ∑ x∈X(Ω) Ô⇒ E[∣X∣] = E[X + + X − ] = ∣x∣p X (x) ∑ x∈X(Ω) und es gilt E[∣X∣] < ∞ ⇐⇒ ∑x∈X(Ω) ∣x∣p X (x) < ∞. In dem Fall sind auch E[X + ], E[X − ] endlich und somit E[X] = E[X + ] − E[X − ] = X ∑ (max{x, 0} − max{−x, 0})p (x) = x∈X(Ω) ∑ xp X (x) x∈X(Ω) ◻ Satz III.8 Es seien X ein Zufallsvektor mit Dichte f X ∶ Rd → [0, ∞) sowie h ∶ Rd → R Borel-messbar. Dann gilt h(X) ∈ L1 ⇐⇒ ∫ Rd ∣h(x)∣ f X (x) dx < ∞ In dem Fall gilt E[h(X)] = ∫Rd h(x) f X (x) dx. Beweis: (maßtheoretische Induktion) m m αi 1 X−1 (Ai ) αi 1 Ai Ô⇒ h ○ X = ∑i=1 (a) h einfache Funktion: h = ∑i=1 E[h(X)] linear = m m m i=1 i=1 i=1 ∑ αi E[1 X−1 (Ai ) ] = ∑ αi P(X ∈ Ai ) = ∑ αi ∫ =∫ Rd Rd 1 Ai (x) f X (x) dx h(x) f X (x) dx (b) h ≥ 0 messbar: Dann gibt es einfache hn mit hn ↑ h: (a) E[hn (X)] = ∫ hn (x) f X (x) dx mon. Def ↑ ∫ h(X) f X (x) dx = E[h(X)] ∈ [0, ∞] Konv. Wir schließen daraus, dass E[∣h(X)∣] < ∞ ⇐⇒ ∫ ∣h(x)∣ f X (x) dx < ∞ für beliebige messbare h. (c) h beliebig messbar mit ∫ ∣h∣ f X (x) dx < ∞: (b) E[h(X)] = E[h+ (X)] − E[h− (X)] = ∫ h+ (x) f X (x) dx − ∫ h− (x) f X (x) dx Def = ∫ h(x) f X (x) dx Beispiel III.9 1 k∈N (a) X ∼ U[0, 1] Ô⇒ E[X k ] = ∫ x k ⋅ f X (x) d x = ∫ insbesondere E[X] = ◻ R 1 2 0 xk d x = 1 , k+1 (b) Zufallsvariable X mit Zähldichte auf Z ∶ p X (m) = π32 ⋅ m12 für m ∈ Z ∖ {0} und p X (0) = 3 1 0. Was ist E[X]? Existiert nicht, weil E[∣X∣] = ∑m∈Z ∣m∣ ⋅ p X (x) = 2 ∑∞ m=1 m π 2 ⋅ m2 = ∞. 33 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Definition III.10 Eine Zufallsvariable X liegt im L p = L p (Ω, F, P), für p > 0, falls ∣X∣ p ∈ L1 , also E[∣X∣ p ] < ∞ ist. Für X ∈ L p und p ∈ N heißt E[X p ] p-tes Moment von X; für X ∈ L p und p > 0 heißt E[∣X∣ p ] p-tes absolutes Moment. Lemma III.11 Für 0 < p ≤ q gilt Lq ⊆ L p . Beweis: E[∣X∣ p ] Lq , p ≤ q. Mon. ≤ E[max{1, ∣X∣q }] Mon. ≤ Lin. E[1 + ∣X∣q ] = 1 + E[∣X∣q ] < ∞ für X ∈ ◻ Lemma III.12 Für eine Zufallsvariable X ∈ L2 nimmt die Funktion ϕ ∶ R → R mit ϕ(x) = E[(X − x)2 ] ihr Minimum bei x = E[X] an. Beweis: Wegen L2 ⊂ L1 ist E[X] wohldefiniert und E[(X − x)2 ] = E[X 2 − 2xX + x2 ] = E[X 2 ] − 2xE[X] + x2 endlich. Wir erhalten ϕ(x) = E[((X − E[X]) + (E[X] − x))2 ] ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ deterministisch = E[(X − E[X])2 ] + 2(E[X] − x) E[X − E[X]] +(E[X] − x)2 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ =0 2 = ϕ(E[X]) + (E[X] − x]) ≥ ϕ(E[X]) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ ◻ ≥0 Bemerkung (a) Das Minimum ist sogar eindeutig. (b) Man versteht E[(X − x)2 ] als den mittleren quadratischen Fehler beider Vorhersagen von X durch den reellen Wert x. Dieser Fehler ist minimal für den Erwartungswert. (c) In der Statistik heißt die Identität ϕ(x) = (x − E[X])2 + E[(X − E[X])2 ] ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ Bias2 Varianz Bias-Varianz-Zerlegung. III.2. Varianz, Kovarianz und Korrelation Das Minimum von ϕ im vorigen Lemma misst gerade die Streuung der Zufallsvariablen X um den (besten) deterministischen Wert E[X]. Definition III.13 Für eine Zufallsvariable X ∈ L2 bezeichnet Var(X) ∶= E[(X − E[X])2 ] die Varianz und σ(X) = √ Var(X) die Standardabweichung von X. 34 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Satz III.14 (Eigenschaften) Für X, Y ∈ L2 gilt (a) Var(X) = 0 ⇐⇒ P(X = c) = 1 für ein c ∈ R. (b) ∀α, β ∈ R ∶ Var(αX + β) = α2 ⋅ Var(X) (c) Var(X) = E[X 2 ] − E[X]2 (d) Var(X + Y) ≤ 2(Var(X) + Var(Y)) (e) Falls X, Y unabhängig sind, gilt Var(X + Y) = Var(X) + Var(Y). Beweis: (a) Var(X) = 0 ⇐⇒ E[(X − E[X])2 ] = 0 ⇐⇒ P(X − E[X] = 0) = 1 ⇐⇒ P(X = E[X]) = 1 und damit E[X] = c. (b) Var(αX + β) = E[(αX + β − (αE[X] + β))2 ] = α2 E[(X − E[X])2 ] = α2 Var(X) 2 (c) Var(X) = E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X]2 + E[X] = E[X 2 ] − E[X]2 . (d) Var(X + Y) = E[(X − E[X] + Y − E[Y])]2 ] ≤ E[2(X − E[X])2 + 2(Y − E[Y])2 ] = 2(Var(X) + Var(Y). (e) Var(X + Y) = E[(X − E[X])2 + 2(X − E[X])(Y − E[Y]) + (Y − E[Y])2 ] X,Y unabh. ◻ = E[(X − EX])2 ] + 2 E[X − E[X]] ⋅E[Y − E[Y]] + E[(Y − E[Y])2 ] ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ =0 = Var(X) + Var(Y) Gegeben seien nun zwei Zufallsvariablen X, Y ∈ L2 . Wir fragen nach der besten in X linearen Vorhersage von Y. Satz III.15 Für X, Y ∈ L2 sei L X ∶= {aX + b ∣ a, b ∈ R} ⊆ L2 die Menge der linearen affinen Funktionen in X. Dann nimmt der mittlere quadratische Fehler ϕ ∶ L X → [0, ∞) mit ϕ(Z) = E[(Y − Z)2 ] sein Minimum an bei Z = a∗ X + b∗ mit a∗ = bzw. beliebig falls Var(X) = 0 E[(X − E[X])(Y − E[Y])] Var(X) b∗ = E[Y − a∗ E[X]] an. Für Var(X) > 0 gilt ϕ(a∗ X + b∗ ) = Var(Y) − (E[(X − E[X])(Y − E[Y])])2 . Var(X) Beweis: Setze X̃ = X − E[X], Ỹ = Y − E[Y]. Dann gilt für jedes Z = aX + b, ϕ(Z) = E[((Ỹ − a X̃) + E[Y] − aE[X] − b)2 ] = E[(Ỹ − a X̃)2 ] + (E[Y] − aE[X] − b)2 + 2 ⋅ 0 Ô⇒ b∗ = E[Y] − a∗ E[X]. Damit ist ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] + (a∗ )2 E[X̃ 2 ] − 2a∗ E[X̃Ỹ] Ô⇒ Minimieren in a∗ gibt a∗ = E[X̃Ỹ] E[(X − E[X])(Y − E[Y])] = falls Var(X) > 0. Var(X) E[X̃ 2 ] Im Fall das Var(X) = 0 gilt ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] für alle a∗ . 35 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Als Minimum erhalten wir ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] − E[X̃Ỹ] wie behauptet. E[X̃ 2 ] ◻ Definition III.16 Für Zufallsvariablen X, Y ∈ L2 definiert Cov(X, Y) ∶= E[(X − E[X])(Y − E[Y])] die Kovarianz von X und Y. Falls außerdem σ(X) > 0, σ(Y) > 0 gilt, so heißt $(X, Y) = Cov(X, Y) σ(X)σ(Y) die Korrelation von X und Y. Im Fall Cov(X, Y) = 0 heißen X und Y unkorreliert. Bemerkung Im Satz gilt also a∗ = Cov(X,Y) Var(X) und das Minimum ist Var(Y)(1 − $2 (X, Y)). Satz III.17 (Eigenschaften der Kovarianz) Für X, Y, Z ∈ L2 gilt (a) Cov(X, Y) = Cov(Y, X) = E[XY] − E[X]E[Y]; Cov(X, X) = Var(X). (b) Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y) (c) ∀a, b ∈ R ∶ Cov(aX + b, Y) = a Cov(X, Y) (d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) (e) Falls X, Y unabhängig sind, so sind X, Y unkorreliert (f) ∣ Cov(X, Y)∣ ≤ σ(X)σ(Y) und ∣$(X, Y)∣ ≤ 1 (d.h. $(X, Y) ∈ [−1, 1]) Beweis: (a) Cov(X, Y) = Cov(Y, X) und Cov(X, X) = Var(X) klar nach Definition Cov(X, Y) = E[(X − E[X])(Y − E[Y])] = E[XY] − E[XE[Y]] − E[E[X]Y] + E[X]E[Y] = E[XY] − E[X]E[Y] (b) Var(X + Y) = E[(X − E[X] + Y − E[Y])2 ] = Var(X) + Var(Y) + 2 Cov(X, Y) (c) Cov(aX + b, Y) = E[(aX + b − (aE[X] + b))(Y − E[Y])] = a Cov(X, Y) (d) Cov(X + Y, Z) = E[((X − E[X]) + (Y − E[Y]))(Z − E[Z])] = Cov(X, Z) + Cov(Y, Z) (b) s.o. (e) X, Y unabhängig Ô⇒ Var(X + Y) = Var(X) + Var(Y) Ô⇒ Cov(X, Y) = 0 (f) Im Satz haben wir ϕ(a∗ X + b∗ ) = Var(Y)(1 − $2 (X, Y)) gezeigt, was wegen ϕ(Z) > 0 für alle Z impliziert $2 (X, Y) ≤ 1, d.h. $ ∈ [−1, 1] und ∣ Cov(X, Y)∣ ≤ σ(X)σ(Y). Beachte nur, dass im Fall Var(X) = 0 oder Var(Y) = 0 gilt P(X = E(X)) = 1 bzw. P(Y = E(Y)) = 1, sodass P((X − E[X])(Y − E[Y]) = 0) = 1 gilt und somit Cov(X, Y) = 0 folgt. ◻ 36 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Bemerkung Teil f) ist äquivalent zur Cauchy-Schwarz-Ungleichung für X, Y ∈ L2 1 1 ∣E[XY]∣ ≤ E[X 2 ] 2 E[Y 2 ] 2 Beispiel III.18 Es seien X1 , X2 ∈ L2 unabhängig mit Var(X1 ) = Var(X2 ). Setze S = X1 + X2 , D = X1 − X2 . Dann gilt Cov(S, D) = Cov(X1 + X2 , X1 − X2 ) = Cov(X1 , X1 ) + Cov(X2 , X1 ) − Cov(X1 , X2 ) − Cov(X2 , X2 ) = Var(X1 ) − Var(X2 ) = 0 Ô⇒ S und D sind unkorreliert. Beim Würfelwurf sind aber S und D nicht unabhängig: Xi Augensumme des i-ten Würfels. Beste Vorhersage von D, im Fall das S = s bekannt ist gerade Null (= E[D])( Ô⇒ a∗ = 0, b∗ = 0). S und D sind aber abhängig, z.B. gilt S ungerade ⇐⇒ D ungerade oder aber S = 2 Ô⇒ D = 0 1 1 ≠ P(S = 2)P(D = 0) < ) (P(S = 2, D = 0) = P(S = 2) = 36 36 III.3. Mehrdimensionale Normalverteilung Zur Erinnerung: Eine Matrix M ∈ Rd×d ist positiv semi-definit, falls ∀v ∈ Rd ∶ ⟨Mv, v⟩ ≥ 0. Die 1 Wurzel M 2 aus M ist diejenige positiv semi-definite Matrix N mit M = N 2 . Die Existenz 1 wird via Diagonalisierung gezeigt: M = ODO⊺ , O orthogonal, D diagonal Ô⇒ M 2 = √ √ 1 1 OD 2 O⊺ mit D = diag(λ1 , . . . , λd ), D 2 = diag( λ1 , . . . , λd ). Definition III.19 Es seien µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv semi-definit. Ein Zufallsvektor X ∈ Rd 1 heißt N (µ, Σ)-verteilt, falls X = µ + Σ 2 Y gilt mit einem Standard-normalverteilten Zufallsvektor Y ∼ N (0, Eλ ). N (µ, Σ) heißt d-dimensionale Normalverteilung mit Mittelwert µ und Kovarianzmatrix Σ. Bemerkung Für d = 1 und Σ = σ2 > 0 liefert die Dichtetransformation , dass X die Dichte − (x−µ)2 f X (x) = √ 1 e 2σ2 besitzt. Im Fall Σ = σ2 = 0 gilt X = µ und N (µ, 0) = δµ (Einpunktmaß 2π⋅σ in µ). Lemma III.20 Für X ∼ N (µ, Σ) und 1 ≤ l, k ≤ d gilt: (µ = (µk )1≤k≤d , Σ = (Σkl )1≤l,k≤d ) E[Xk ] = µk , Cov(Xk , Xl ) = Σkl Beweis: d 1 Def 1 E[Xk ] = E[(µk + (Σ 2 Y)k )] = µk + ∑(Σkl2 )E[Yl ] = µk l=1 1 Def 1 Cov(Xk , Xl ) = E[(Xk − µk )(Xl − µl )] = E[(Σ 2 Y)k ∗ (Σ 2 Y)l ] d 1 d 1 1 1 1 1 2 2 2 2 = ∑ Σk,i Σl,j E[Yi Yj ] = ∑ Σk,i Σl,i = (Σ 2 Σ 2 )k,l i,j=1 i=1 = Σk,l ◻ 37 Stochastik 1 III. Erwartungswert, Varianz und Kovarianz Lemma III.21 Ist Σ ∈ Rd×d symmetrisch und strikt positiv definit, so besitzt die N (µ, Σ)-Verteilung eine Dichte, nämlich d ϕµ,Σ (x) = (2π)− 2 ⋅ det(Σ)− 2 ⋅ exp (− 12 ⟨Σ−1 (x − µ), (x − µ)⟩) , 1 x ∈ Rd 1 Beweis: Dichtetransformation für X = ϕ(Y), Y ∼ N (0, Ed ), ψ(y) = ∑ 2 y + µ, ψ−1 (x) = 1 Σ− 2 (x − µ) Ô⇒ ϕµ,Σ (x) = ϕ0,Ed (ψ−1 (x))(det Dψ−1 (x)) d = ∣ det(Σ− 2 )∣ ⋅ (2π)− 2 exp(− 12 ∣Σ− 2 (x − µ)∣2 ) 1 1 ◻ Lemma III.22 (Rotationsinvarianz der Normalverteilung) Ist O ∈ Rd×d orthogonal, d.h. O⊺ O = Ed , so gilt für X ∼ N (0, Ed ), dass auch OX ∼ N (0, Ed ) gilt. Beweis: Dichtetransformation: Y = OX: d f Y (y) = f X (O−1 y)∣ det(O−1 )∣ = (2π)− 2 exp (− ∣O−1 y∣2 ) ⋅ 1 = ϕ0,Ed (y) 2 ◻ Satz III.23 Ist X ein N (µ, Σ)-verteilter Zufallsvektor im Rd und A ∈ Rm×d eine deterministische Matrix, so ist Y = A ⋅ X ein N (A ⋅ µ, AΣA⊺ )-verteilter Zufallsvektor im Rm . 1 Beweis: Wir müssen zeigen, dass sich Y darstellen lässt als Y = Aµ + (AΣA⊺ ) 2 Z mit 1 einer geeigneten Zufallsvariablen Z ∼ N (0, Em ). Aus der Darstellung X = µ + Σ 2 W mit W ∼ N (0, Ed ) ergibt sich die zu erfüllende Bedingung als A(µ + Σ 2 W) = Aµ + (AΣA⊺ ) 2 Z 1 1 d.h. AΣ 2 W = (AΣA⊺ ) 2 Z 1 1 Der Satz III.24 (über orthogonale Transformationen) zeigt, dass es orthogonale Matrizen T1 ∈ Rm×m , T2 ∈ Rd×d und eine Diagonalmatrix D ∈ Rr×r , r ≤ min{m, d} mit strikt positiven Diagonaleinträgen gibt, so dass in Blockmatrixno1 tation (beachte jeweils die Dimension!) AΣ 2 = T1 ( D0 00 ) T2 gilt. Für einen Beweis, siehe [5], Seite 199. Dies impliziert 1 2 ⊺ (AΣA⊺ ) 2 = (AΣ 2 (AΣ 2 ) ) = (T1 ( D0 00 ) T2 T2⊺ ( D0 1 1 1 2 = (T1 ( D0 1 0 ) T⊺ ) 2 1 0 ⊺ 1 0 ) T⊺ ) 2 1 0 = T1 ( D0 00 ) T1⊺ Wir müssen also Z ∼ N (0, Em ) finden mit ( D0 00 ) T1⊺ Z = ( D0 00 ) T2 W. Setze Z ∶= T1 (( E0r 00 ) T2 W + W ′ ) 38 0 )) mit W ′ ∼ N (0, ( 00 Em−r Stochastik 1 III. Erwartungswert, Varianz und Kovarianz unabhängig von W, ggf. definiert auf einem größeren Wahrscheinlichkeitsraum (bzw. W ′ = 0 falls m = r). Aus dem Lemma 3.22 folgt T2 W ∼ N (0, Ed ), weil T2 eine orthogonale Matrix ist, und weiter, dass ( E0r 00 ) T2 W ein N (0, ( E0r 00 ))-verteilter Vektor im Rm ist (Projektion auf die ersten r Koordinaten). Daher gilt ( E0r 00 ) T2 W + W ′ ∼ N (0, Em ) und es folgt wieder nach Lemma 3.22 Z ∼ N (0, Em ). 1 Schließlich ergibt sich für (AΣA⊺ ) 2 Z T1 ( D0 00 ) (( E0r 00 ) T2 W + W ′ ) = T1 ( D0 00 ) T2 W = AΣ 2 W 1 ◻ was zu zeigen war. Korollar III.25 Ist X N (µ x , σx2 )-verteilt und Y N (µy , σy2 )-verteilt mit µ x , µy ∈ R und σx , σy ≥ 0, so ist – falls X und Y unabhängig sind – X + Y N (µ x + µY , σx2 + σy2 )-verteilt. Bemerkung vergl. obiges Beispiel zur Faltung. Beweis: Da X, Y unabhängig sind, besitzt der Zufallsvektor (X, Y) die Produktdichte f (X,Y) (x, y) = f X (x) ⋅ f Y (y) = ⎛ 1 ⎛ (x − µ x )2 (y − µy )2 ⎞⎞ 1 1 + ⋅ exp 2π σx σy ⎠⎠ ⎝2 ⎝ σx2 σy2 d.h. (X, Y) ist ein normalverteilter Zufallsvektor mit Parametern µ = ( µyx ), Σ = ( µ σx2 0 ). 0 σy2 Wende nun die lineare Abbildung (x, y) ↦ x + y auf (X, Y) an und erhalte aus obigem Satz (d.h. A = ( 1 1 ) ∈ R1×2 ): X + Y ∼ N (µ x + µy , ( 1 1 ) ( σx2 0 ) ( 11 )) 0 σy2 = N (µ x + µy , σx2 + σy2 ) ◻ Lemma III.26 Sind X1 , . . . , Xn gemeinsam normalverteilt, d.h. (X1 , . . . , Xn ) ∼ N (µ, Σ) und sind alle Xi paarweise unkorreliert, d.h. Σij = 0 für i ≠ j, so sind X1 , . . . , Xd sogar unabhängig und es gilt Xi ∼ N (µi , Σii ). Beweis: Wegen Σ = diag(Σ11 , . . . , Σdd ) mit Σii = Var(Xi ) folgt, dass X = ( mit Y ∼ N (0, Ed ), also √ ⎛ Σ11 X=⎜ ⎝ 0 ⋱ x1 ⋮ ) xn 1 = Σ2Y+µ √ 0 ⎞ ⎛ Σ11 Y1 + µ1 ⎞ ⋮ ⎟ Y + µ = ⎜√ ⎟ √ ⎝ Σdd Yd + µd ⎠ Σdd ⎠ √ Da Y1 , . . . , Yd unabhängig sind und Xi = Σii Yi + µi gilt, sind auch X1 , . . . , Xd unabhängig (s.o. Lemma). Außerdem impliziert Yi ∼ N (0, 1), dass Xi ∼ N (µi , Σii ) gilt. ◻ Bemerkung Im großen Ausnahmefall der gemeinsamen Normalverteilung sind also die Koordinaten genau dann unabhängig, wenn sie unkorreliert sind. 39 Stochastik 1 IV. Statistische Tests IV. Statistische Tests IV.1. Hypothesentests Beispiel IV.1 Wir wollen testen, ob die 1-Euro-Münze fair ist. Selbst wenn sie fair ist, ist bei 300 Würfen die Wahrscheinlichkeit, 150 mal Kopf und 150 mal Zahl zu bekommen Bin300,0.5 (150) ≈ 0.065. Man wird also die Annahme einer fairen Münze verwerfen, wenn die Anzahl Kopf außerhalb eines Intervalls [150 − r, 150 + r] liegt. Definition IV.2 Ein statistisches Modell ist ein Tupel (X , F, (Pϑ )ϑ∈Θ ) bestehend aus einer Menge X mit einer σAlgebra F (dem Stichprobenraum) und einer Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen auf F. Die mindestens zweielementige Menge Θ heißt Parametermenge und jedes ϑ ∈ Θ Parameter. Aufbau eines Testverfahrens: 1. Schritt Wahl eines statistischen Modells Beispiel X = {K, Z}300 , F = P(X ), Θ = [0, 1], Pϑ ({x}) = ϑ#K (1 − ϑ)#Z , x ∈ X . 2. Schritt Formulierung von Hypothese und Alternative: Θ = Θ0 ⊍ Θ1 disjunkte Zerlegung mit ϑ ∈ Θ0 ∶ ϑ entspricht der Hypothese ϑ ∈ Θ1 ∶ ϑ entspricht der Alternative Beispiel Θ0 = { 21 }, Θ1 = [0, 1] ∖ { 21 } Man sagt, dass die (Null)-Hypothese H0 ∶ ϑ ∈ Θ0 gegen die Alternative H1 ∶ ϑ ∈ Θ1 getestet werden soll. 3. Schritt Wahl des Irrtumsniveaus: Wähle α ∈ (0, 1) und fordern, dass die Wahrscheinlich- keit einer Entscheidung für die Alternative obwohl die Hypothese vorliegt (Fehler 1. Art) maximal α beträgt. 4. Schritt Wahl der Entscheidungsregel. Man wählt eine Zufallsvariable (messbare Funkti- on), Teststatistik genannt, ϕ ∶ X → [0, 1] mit folgender Bedeutung: Tritt x ∈ X ein, so impliziert ϕ(x) = 0 ∶ Entscheidung für H0 („akzeptieren der Hypothese“) ϕ(x) = 1 ∶ Entscheidung für H1 („ablehnen der Hypothese“) ϕ(x) ∈ (0, 1) ∶ Die Entscheidung wird mittels eines zusätzlichen unabhängigen Zufallsexperiments bestimmt, wobei mit Wahrscheinlichkeit ϕ(x) die Wahl auf H1 fällt. Die letzte Möglichkeit (randomisierter Test) ist in der Anwendung oft nicht gewollt, aber erlaubt eine klarere mathematische Formulierung. Forderung: ∀ϑ ∈ Θ0 ∶ Eϑ [ϕ] ≤ α, dann heißt ϕ Test zum Niveau α (bei nicht randomisierten Test Pϑ (ϕ = 1) ≤ α). 40 Stochastik 1 IV. Statistische Tests 5. Schritt Durchführung des Experiments: Das passiert zum Schluss, weil sonst Täuschung und Selbsttäuschung fast unvermeidbar sind. Definition IV.3 Für ϑ1 ∈ Θ1 und einen Test ϕ gibt 1 − Eϑ1 [ϕ] die Wahrscheinlichkeit für den Fehler 2. Art, der Entscheidung für H0 obwohl ϑ1 ∈ Θ1 vorliegt, an. (ϕ nicht randomisiert. 1 − Eϑ1 [ϕ] = 1 − Pϑ1 (ϕ = 1) = Pϑ1 (ϕ = 0)) Definition IV.4 Ein Test ϕ von H0 ∶ ϑ ∈ Θ1 heißt gleichmäßig bester Test zum Niveau α (UMP = uniformly most powerful), falls (a) mit ϕ ist Test zum Niveau α gilt, dass sup Eϑ0 [ϕ] ≤ α und ϑ0 ∈Θ0 (b) Für jeden anderen Test ψ zum Niveau α gilt ∀ϑ1 ∈ Θ1 ∶ Eϑ1 [ϕ] ≥ Eϑ1 [ψ]. („Fehlerwahrscheinlichkeit 2. Art ist minimal unter allen Niveau-α-Test und zwar gleichmäßig ∀ϑ1 ∈ Θ1 “) Ziel der Testtheorie ist es, beste Tests zu konstruieren. IV.2. Neyman-Pearson-Lemma Definition IV.5 Für Wahrscheinlichkeitsmaße P0 , P1 auf einem diskreten Raum (X , P(X )) mit Zähldichten p0 , p1 heißt ⎧ p1 (x) ⎪ , falls p0 (x) > 0 ⎪ ⎪ ⎪ ⎪ p0 (x) x∈X R(x) = ⎨+∞ , falls p0 (x) = 0, p1 (x) > 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎩beliebig , falls p0 (x) = p1 (x) = 0 Likelihood-Quotient (oder Dichtequotient von p1 bzgl. p0 .) Für Wahrscheinlichkeitsmaße p0 , p1 mit (Rd , BRd ) mit Dichten f 0 , f 1 definieren wir ⎧ f 1 (x) ⎪ ⎪ ⎪ ⎪ ⎪ f0 (x) R(x) = ⎨+∞ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩beliebig , falls f 0 (x) > 0 , falls f 0 (x) = 0, f 1 (x) > 0 , sonst mit x ∈ Rd Jeder Test ϕ ∶ X → [0, 1] der Form ⎧ 1 ⎪ ⎪ ⎪ ⎪ ϕ(x) = ⎨0 ⎪ ⎪ ⎪ ⎪ ⎩γ , falls R(x) > c , falls R(x) < c , falls R(x) = c mit beliebigen c ≥ 0, γ ∈ [0, 1] heißt Neyman-Pearson-Test. Bemerkung Mit dem Satz von Radon-Nykodym kann die Definition von R(x) verallgemeinert werden. Satz IV.6 (Neyman-Pearson-Lemma, 1932) Für das Testen von H0 ∶ ϑ = 0 gegen H1 ∶ ϑ = 1 gilt 41 Stochastik 1 IV. Statistische Tests (a) Ist ϕ∗ ein Neyman-Pearson-Test, so gilt E1 [ϕ∗ ] ≥ E1 [ϕ] für jeden beliebigen Test ϕ mit E0 [ϕ] ≤ E0 [ϕ∗ ]. (b) Für jedes Niveau α ∈ (0, 1) existiert ein Neyman-Pearson-Test ϕ∗ mit exakt E0 [ϕ∗ ] = α. (c) Ein gleichmäßig bester Test zum Niveau α ist gegeben durch einen Neyman-Pearson-Test ϕ∗ mit E0 [ϕ∗ ] = α. Beweis: (nur für Zähldichten, Dichten analog) (a) Für x ∈ A = {x ∈ X ∣ ϕ∗ (x) > ϕ(x)} gilt p1 (x) ≥ cp0 (x) wegen ϕ∗ (x) > 0. Für x ∈ B = {x ∈ X ∣ ϕ∗ (x) < ϕ(x)} gilt p1 (x) ≤ cp0 (x) wegen ϕ∗ (x) < 1. Daher erhalten wir E1 [ϕ∗ ] − E1 [ϕ] = E1 [ϕ∗ − ϕ] = ∑ (ϕ∗ (x) − ϕ(x))p1 (x) x∈X ∗ ∗ ≥ ∑ (ϕ (x) − ϕ(x)) cp0 + ∑ (ϕ (x) − ϕ(x)) cp0 (x) + ∑ 0 x∈B ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ x∈A ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ x∈(A∪B)C >0 <0 = c ∑ (ϕ∗ (X) − ϕ(x))p0 (x) = c(E0 [ϕ∗ ] − E0 [ϕ]) ≥ 0 x∈X (b) Behauptung: Es gibt ein c ≥ 0 mit P0 (R ≥ c) ≥ α und P0 (R > c) ≤ α. Setze c ∶= inf{k ≥ 0 ∣ P0 (R > k) ≤ α}. Wegen P0 (R = ∞) = 0 ist c ∈ [0, ∞) wohldefiniert. Setze $(k) = P0 (R > k). Dann ist $ auf [0, ∞) monoton fallend und rechtsstetig (beachte $(k) = 1 − P0 (R ≤ k)). Daher erfüllt c sowohl $(c) ≤ α als auch $(k) > α für k < c. Außerdem erfüllt P0 (R ≥ c) σ-Stetigkeit = 1 − lim P 0 (R ≤ k) ≥ α k↑c ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¶ <1−α Setze nun ⎧ ⎪ ⎪0 γ = ⎨ α−P0 (R>c) ⎪ ⎪ ⎩ P0 (R=c) , falls P0 (R = c) = 0 , sonst sowie ⎧ 1 ⎪ ⎪ ⎪ ⎪ ϕ (x) = ⎨0 ⎪ ⎪ ⎪ ⎪ ⎩γ ∗ , falls R(x) > c , falls R(x) < c , falls R(x) = c Dann gilt γ ⊂ [0, 1] und E0 [ϕ∗ ] = 1P0 (R(x) > c) + γP0 (R(x) = c) = α. ◻ (c) folgt direkt aus (a) und (b). Beispiel IV.7 (Einfacher Gaußtest) Gegeben sei das statistisches Modell (R, BR , (Pϑ )ϑ∈[0,1] ) mit Pϑ ∼ N (ϑ, 1) Teste H0 ∶ ϑ = 0 gegen H1 ∶ ϑ = 1 zum Niveau α = 0.025 Likelihood-Quotient: R(x) = f 1 (x) = exp (− 12 ((x − 1)2 − x2 )) = exp (x − 21 ) f 0 (x) 42 Stochastik 1 V. Grenzwertsätze Wähle c ≥ 0 so dass 1 ! α = P0 (R(x) ≥ c) = P0 (e x− 2 ≥ c) = P0 (x ≥ log c + 12 ) 1 ≈ 1.96 Ô⇒ c ≈ 4.3 2 ⎧ ⎪1 , falls e x− 12 ≥ 4.3 ⎪ Ô⇒ ϕ x (x) = ⎨ ⎪0 sonst ⎪ ⎩ Ô⇒ log c + ist gleichmäßig bester Test. V. Grenzwertsätze Wirft man einen Würfel unendlich oft, und zählt die „6“-Würfe, so wird bei fairem Würfel mit zunehmender Zahl der Versuche die Proportion der „6“-Würfe zur Anzahl der Versuche, d.h. die relative Häufigkeit der „6“ gegen deren Wahrscheinlichkeit 16 konvergieren. In welchem Sinne ist diese heuristische Feststellung wichtig? V.1. Gesetze der großen Zahlen Satz V.1 (Markov-Ungleichung) Sei Y eine reelle Zufallsvariable und f ∶ [0, ∞) → [0, ∞) monoton wachsend. Dann gilt für jedes ε > 0: E[ f (∣Y∣)] P(∣Y∣ ≥ ε) ≤ falls f (ε) > 0 f (ε) Beweis: ∣Y∣ ist Zufallsvariable, also auch f (∣Y∣) (da f monoton wachsend Ô⇒ messbar, denn f −1 ((c, ∞)) ist Intervall). Sei ε > 0 mit f (ε) > 0: 1{∣Y∣≥ε} ≤ f (∣Y∣) f (∣Y∣) Ô⇒ E[1{∣Y∣≥ε} ] ≤ E[ ] f (ε) f (ε) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ f ◻ P(∣Y∣≥ε) Beispiel V.2 Hat die Zufallsvariable X ein endliches p-tes Moment (d.h. E[∣X∣ p ] < ∞) mit p > 0, so gilt P(∣X∣ ≥ k) ≤ k−p . E[∣X∣ p ] kp , d.h. für große k ist P(∣X∣ > k) maximal von der Ordnung Korollar V.3 (Tschebyscheff4 ) Var(Y) . Sei Y ∈ L2 (P), ε > 0. Dann gilt P(∣Y − E[Y]∣ ≥ ε) ≤ ε2 Beweis: X ∶= Y − E[Y], f (x) ∶= x2 für alle x ≥ 0. Dann gilt P(∣X∣ ≥ ε) ≤ 4 Weitere E[∣X∣2 ] Var(Y) = ε2 ε2 Umschriften für P. L. Qebyxv sind Čebyšev oder Tschebyschow. 43 ◻ Stochastik 1 V. Grenzwertsätze Satz V.4 (schwaches Gesetz der großen Zahlen) Es seien (Xi )i≥1 unkorrelierte Zufallsvariablen in L2 (P) mit demselben Erwartungswert µ ∈ R so dass supi≥1 Var(Xi ) < ∞ mit supi≥1 Var(Xi ) = c. Dann erfüllt das arithmetische Mittel An ∶= 1 n n ∑i=1 Xi für jedes ε > 0 gerade lim P(∣An − µ∣ > ε) = 0 n→∞ Beweis: 1 n E[An ] = n ∑ E[Xi ] = µ i=1 n Var(An ) = Var( n1 ∑ Xi ) = i=1 n 1 Var( Xi ) ∑ n2 i=1 n n 1 (∑ Var(Xi ) + ∑ Cov(Xi , X j )) 2 n i=1 i,j=1 = i≠j n c 1 1 ∑ Var(Xi ) ≤ 2 ⋅ n ⋅ c = n2 i=1 n n = c n→∞ Var(An ) ≤ 2 ÐÐÐ→ 0 2 ε nε Ô⇒ P(∣An − E[An ]∣ > ε) ≤ ◻ Beispiel V.5 Bernoulli-Experiment mit P(Xi = 1) = p, P(Xi = 0) = 1 − p. Dann gilt P(∣An − p∣ > ε) ≤ p(1 − p) n→∞ ÐÐÐ→ 0 nε2 Man sagt, „der Mittelwert An stabilisiert sich um den Erwartungswert p mit wachsender Zahl von Wiederholungen des Versuchs“. Man beachte hier, dass die Abweichungen für p nahe 0 oder 1 viel kleiner sind als für p nahe 12 . Bemerkung Das schwache Gesetz gilt auch für unabhängige, identisch verteilte Zufallsvariablen in L1 . (Siehe [3]) Korollar V.6 (Weierstraßscher Approximationssatz) Für f ∶ [0, 1] → R stetig definiere das zugehörige Bernstein-Polynom f n ∶ [0, 1] → R n k n f n (p) ∶= ∑ f ( ) ( )pk (1 − p)n−k n k k=0 p ∈ [0, 1) n→∞ Dann gilt ∥ f − f n ∥∞ ÐÐÐ→ 0 Beweis: Seien X1 , . . . , Xn unabhängig, Bernoulli-verteilte (zum Parameter p) Zufallsvariablen. n k 1 n Ô⇒ E p [ f ( ∑ Xi )] = ∑ f ( ) Bn,p ({k}) n i=1 n k=0 n 1 n = ∑ f ( ) ( )pk (1 − p)n−k = f n (p) n k k=0 44 Stochastik 1 V. Grenzwertsätze f ist gleichmäßig stetig auf [0, 1]. Sei ε > 0 beliebig, dann existiert ein δ > 0, so dass ∀x, y ∈ [0, 1] mit ∣x − y∣ ≤ δ gilt: ∣ f (x) − f (y)∣ ≤ ε. 1 n ∣ f n (p) − f (p)∣ = ∣E [ f ( ∑ Xi )] − f (p)∣ n i=1 1 n ≤ E [∣ f ( ∑ Xi ) − f (p)∣ 1{∣ 1 ∑n X −p∣≤δ} ] n i=1 i n i=1 1 n + E [∣ f ( ∑ Xi ) − f (p)∣ 1{∣ 1 ∑n X −p∣>δ} ] n i=1 i n i=1 ≤ ε + 2∥ f ∥∞ E [1{∣ 1 ∑n n i=1 Xi −p∣>δ} ] ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ n X −p∣>δ) P(∣ n1 ∑i=1 i p(1 − p) 1 ≤ ε + 2∥ f ∥∞ 2 2 nδ nδ Ô⇒ lim sup ∥ f n − f ∥∞ ≤ ε ∀ε > 0 ≤ ε + 2∥ f ∥∞ n→∞ Ô⇒ lim ∥ f n − f ∥∞ = 0 ◻ n→∞ Definition V.7 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Y und (Yn )n∈N seien Zufallsvariablen mit Werten in R. (Yn )n∈N konvergiert stochastisch gegen Y, wenn ∀ε > 0 ∶ n→∞ P(∣Yn − Y∣ ≤ ε) ÐÐÐ→ 1 oder auch ∀ε > 0 n→∞ P(∣Yn − Y∣ > ε) ÐÐÐ→ 0 P Man schreibt Yn ÐÐÐ→ Y. Man sagt auch „Yn konvergiert nach Maß“ oder „in Wahrscheinlichn→∞ keit“. Definition V.8 Seien (Ω, F, P), Y, Yn wie oben. (Yn )n∈N konvergiert P-fast sicher, falls n→∞ P({ω ∈ Ω ∣ Yn (ω) ÐÐÐ→ Y(ω)}) = 1 Bemerkung n→∞ Man schreibt Yn ÐÐÐ→ Y. P-f.s P • Im schwachen Gesetz gilt also An Ð →µ • {Yn → Y} = ⋂n∈N ⋃k∈N ⋂l≥k {∣Yl − Y∣ ≤ n1 } ∈ F (= ⋂ε>0 ⋃k∈N ⋂l≥k {∣Yl − Y∣ ≤ ε}). • Fast sichere Konvergenz impliziert stochastische Konvergenz (siehe Übung). • Die Umkehrung gilt nicht: Sei Ω = R, F = BR , P gleichmäßige Verteilung auf [0, 1), X j,k = 1[k2−j ,(k+1)2−j ) , j ∈ N, k = 0, . . . , 2 j − 1 Setze Yn ∶= X j,k für n = 2 j + k, k = 0, . . . , 2 j − 1. Dann gilt für ε > 0, dass n→∞ P(∣Yn ∣ > ε) = P(Yn = 1) = 2−j ÐÐÐ→ 0 Andererseits ∀ω ∈ [0, 1)∃ unendlich viele n mit Yn (ω) = 1 Ô⇒ P({ω ∣ Yn (ω) → Y(ω)}) = 0 45 Stochastik 1 V. Grenzwertsätze Satz V.9 (Starkes Gesetz der großen Zahlen) Es seien (Xi )i≥1 unkorrelierte Zufallsvariablen in L2 mit dem selben Erwartungswert µ, so dass n Xi : supi≥1 Var(Xi ) < ∞. Dann gilt für An = n1 ∑i=1 n→∞ An ÐÐÐ→ µ P-f.s. Bemerkung Die von Etemadi (1981) angegebene Version des starken Gesetzes der großen Zahlen (GdgZ) benötigt nur die Voraussetzung Xi ∈ L1 , fordert dafür aber, dass die (Xi )i≥1 paarweise unabhängig und identisch verteilt (i.i.d.) sind. Beweis: Setze v ∶= supi Var(Xi ) (a) Zeige An2 → µ P-f.s.: Tschebyscheff-Ungleichung V.3 liefert für ε > 0 P(∣An2 − µ∣ > ε) ≤ Var(An2 ) v = 2 2 ε2 n ε Damit sind diese Wahrscheinlichkeiten summierbar: ∑ P(∣An2 − µ∣ > ε) ≤ n≥1 1 v ∑ 2 <∞ 2 ε n≥1 n 1. Teil von Borel-Cantelli II.8 gibt daher P(∣An2 − µ∣ > ε für unendlich viele n) = 0. Ô⇒ P( ⋃ {∣An2 − µ∣ > ε für ∞-viele n}) = 0 ε∈Q ε>0 Ô⇒ P({An2 → µ}C ) = 0 ⇐⇒ An2 → µ P-f.s. (b) Betrachte Abweichungen von Am zu An2 (m) mit n(m) ∈ N so, dass n2 (m) ≤ m < (n(m) + 1)2 . Tschebyscheff: m n(m)2 i=1 i=1 2 P(∣∑ Xi − ∑ Xi ∣ ≥ εn(m) ) ≤ m n(m)2 i=1 i=1 m Var(∑i=n(m) 2 +1 Xi ) ε2 n(m)4 Ô⇒ ∑ P(∣∑ Xi − ∑ Xi ∣ ≥ εn(m)2 ) ≤ m≥1 = 2 ∞ (n+1) −1 v ∑ ε2 n=1 ∑ m=n2 ≤ (m − n(m)2 ) ⋅ v ε2 n(m)4 m − n(m)2 v ∑ 2 ε m≥1 n(m)4 m − n2 v ∞ 2n ⋅ (2n + 1) ≤ 2 ∑ <∞ ε n=1 n4 n4 n(m)2 m Borel-Cantelli liefert P(∣ ∑i=1 Xi − ∑i=1 + gung über ε ∈ Q liefert wie oben Xi ∣ > εn(m)2 für ∞-viele m) = 0. Vereini- n 1 ∣ Xi − ∑ n(m)2 Xi ∣ → 0 ∑ n(m)2 i=1 i=1 46 P-f.s. Stochastik 1 V. Grenzwertsätze Wegen auch n(m)2 1 n(m)2 ∑i=1 P-f.s. P-f.s. m 1 Xi ÐÐÐ→ µ aus (a) folgt ∣ n(m) ÐÐ→ 0 und daher 2 ∑i=1 Xi − µ∣ Ð m n(m)2 1 n(m)2 1 m P-f.s. ⋅∣ X − µ∣ ÐÐÐ→ 0 X − µ∣ = ∣ ∑ ∑ i i 2 m n(m) i=1 m i=1 m ´¹¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¶ →1 →1 und daher Am → µ P-f.s. ◻ Definition V.10 Identifiziert man X, Y ∈ L p (Ω, F, P), falls X = Y P-f.s. (d.h. P({ω ∶ X(ω) = Y(ω)}) = 1) gilt, so erhält man die Menge L p (Ω, F, P) (der Äquivalenzklassen). In der Analysis zeigt man, dass 1 1 L p (Ω, F, P) mit der Norm ∥X∥ L p = E[∣X∣ p ] p = (∫ ∣X(ω)∣ p P( dω)) p für p ≥ 1 einen Banachraum (d.h. vollständigen normierten Raum) bilden. L2 (Ω, F, P) mit dem Skalarprodukt ⟨X, Y⟩ L2 = E[X ⋅ Y] ist sogar ein Hilbertraum. Für eine Folge (Xn ) von Zufallsvariablen in L p , p ≥ 1 und ein X ∈ L p sagen wir, dass Xn gegen X 1 n→∞ in L p konvergiert, falls ∥Xn − X∥ L p = E[∣Xn − X∣ p ] p ÐÐÐ→ 0 gilt. Lemma V.11 L p -Konvergenz impliziert stochastische Konvergenz. Beweis: Die Markov-Ungleichung V.1 liefert ∀ε > 0 P(∣Xn − X∣ > ε) ≤ E[∣Xn − X∣ p ] n→∞ p = ε−p ∥Xn − X∥ L p ÐÐÐÐ→ 0 Vorauss. εp P Ô⇒ Xn → X stochastisch ◻ Beispiel V.12 Betrachte wiederum Sn ∶= ∑nk=1 ε k ⋅ 1k mit P(ε k = 1) = P(ε k = −1) = unabhängig. Wir berechnen 1 2 und (ε k ) n E[Sn ] = ∑ E[ε k ] ⋅ 1k = 0 k=1 m>n m Var(Sm − Sn ) = Var( ∑ ε k ⋅ 1k ) Unabh. = k=n+1 m m 1 1 ⋅ Var(ε k ) = ∑ 2 2 k k k=n+1 k=n+1 ∑ ∞ 1 n→∞ 1 < ÐÐÐ→ 0 ∑ 2 2 k=n+1 k k=n+1 k m Ô⇒ ∥Sm − Sn ∥2L2 = Var(Sm − Sn ) = ∑ Ô⇒ (Sn ) 2 L vollst- (m > n) ist Cauchy-Folge. L2 P Ô⇒ ∃S∞ ∈ L2 ∶ Sn ÐÐÐ→ S∞ Ô⇒ Sn Ð → S∞ n→∞ stochastisch Offene Frage: Gilt auch Sn → S∞ P-f.s.? Satz V.13 (Lévys Äquivalenzsatz) Es sei (Xk )k≥1 eine Folge unabhängiger Zufallsvariablen und Sn = ∑nk=1 Xk . Dann sind äquivalent: (i) Sn konvergiert P-f.s. 47 Stochastik 1 V. Grenzwertsätze (ii) Sn konvergiert P-stochastisch. Bemerkung (a) Konvergenz ist im Sinne des Cauchy-Kriteriums gemeint, d.h. in (i) ist P((Sn ist Cauchyfolge)) = 1 und in (ii) gilt ∀ε > 0 lim sup P(∣Sm − S N ∣ > ε) = 0 N→∞ m≥N (b) Falls (i) bzw. (ii) nicht gelten, so divergiert (Sn ) P-f.s. wegen des 0-1-Gesetzes von Kolmogorov II.23. Beweis: (i)⇒(ii) folgt wie die Implikation f.s. Konvergenz Ô⇒ stoch. Konvergenz (ii)⇒(i) benötigt eine sogenannte Maximal-Ungleichung: Lemma V.14 (Ottaviani-Ungleichung) P(∣Sn ∣ ≥ α) Für α > 0 gilt P(max ∣S j ∣ ≥ 2α) ≤ sofern der Nenner 1 − max1≤j≤n P(∣Sn − S j ∣ ≥ α) 1≤j≤n nicht 0 ist. Beweis: Setze τ(w) ∶= inf ({1 ≤ j ≤ n ∣ ∣S j (w)∣ ≥ 2α} ∪ {n + 1}) („Stoppzeit“). Dann gilt n P(∣Sn ∣ ≥ α) ≥ P(∣Sn ∣ ≥ α, max ∣S j ∣ ≥ 2α) = ∑ P(∣Sn ∣ ≥ α, τ = j) 1≤j≤n j=1 n ≥ ∑ P(∣Sn − S j ∣ ≤ α, τ = j) j=1 Da Sn − S j = ∑nk=j+1 Xk gilt und {τ = j} nur von S1 , . . . , S j , d.h. X1 , . . . , X j abhängt, gilt wegen Unabhängigkeit weiter n n (. . . ) = ∑ P(∣Sn − S j ∣ ≤ α) ⋅ P(τ = j) ≥ min P(∣Sn − S j ∣ ≤ α) ⋅ ∑ P(τ = j) 1≤j≤n j=1 j=1 = (1 − max P(∣Sn − S j ∣ > α)) ⋅ P(max ∣S j ∣ ≥ 2α) 1≤j≤n ◻ 1≤j≤n n Wende Ottaviani auf die Summen Sn − Sk = ∑i=k+1 Xi mit α = ε 2 an und verwende α α oder ∣S j − Sk ∣ ≥ ) 2 2 ε ε ε 1 ≤ P (∣Sn − Sk ∣ ≥ ) + P (∣S j − Sk ∣ ≥ ) ≤ ≤ 4 4 2 2 ε Ô⇒ ∀n ≥ k ∶ P(max ∣S j − Sk ∣ ≥ ε) ≤ 2 k≤j≤n P(∣Sn − S j ∣ ≥ α) ≤ P (∣Sn − Sk ∣ ≥ σ-Stetigkeit des Wahrscheinlichkeitsmaßes liefert für n → ∞ P(max ∣S j − Sk ∣ ≥ ε) ≤ j≥k 48 ε 2 Stochastik 1 V. Grenzwertsätze Zu zeigen: P((Sn ) Cauchyfolge) = 1. Die linke Seite ist gleich P( ⋂ {∃k ≥ 1∀m, n ≥ k ∶ ∣Sm − Sn ∣ < ε}) ε>0 ε∈Q Zeige also, dass für alle ε > 0 P(∀k ≥ 1∃m, n ≥ k ∶ ∣Sm − Sn ∣ ≥ ε) = 0. Dies folgt aus ∀ε > 0 ∶ P(∀k ≥ 1 sup ∣S j − Sk ∣ ≥ 2ε ) = 0 j≥k Dies folgt wiederum aus ∀ε > 0 ∶ limk→∞ P(sup j≥k ∣S j − Sk ∣ ≥ 2ε ) = 0 (σ-Stetigkeit). Oben haben wir nun gesehen, dass für k = k(ε) gilt P( sup ∣S j − Sk(ε) ∣ ≥ ε) ≤ j≥k(ε) ε 2 Halte nun das erste ε fest und lasse k → ∞ gehen, so dass limk→∞ P(sup j≥k ∣S j − Sk ∣ ≥ ε) = 0. ◻ n Anwendung (a) Sn = ∑ ε k ⋅ 1k , k=1 s.o. Ô⇒ (Sn )n≥1 Äq-Satz Ô⇒ (Sn )n≥1 P(ε k = ±1) = 12 , (ε k ) unabhängig konvergiert in L2 , also stochastisch konvergiert fast sicher. (b) Man kann mit dem Äquivalenzsatz auch unsere Variante des starken GdgZ aus dem schwachen GdgZ folgern. Dafür braucht man aus der Analysis ein Reihenkriterium: n α 1 n k →0 ∑ αk → 0 ⇐⇒ ∑ n k=1 k k=1 Details siehe [1] Aus [4] ohne Beweis folgendes einfaches Kriterium für Konvergenz einer Reihe unabhängiger Zufallsvariablen: Satz V.15 (Drei-Reihen-Satz) Für unabhängige Zufallsvariablen (Xk )k≥1 konvergiert Sn = ∑nk=1 Xk f.s. (bzw. stochastisch) genau dann, wenn folgende drei Reihen konvergieren: (i) ∑ P(∣Xk ∣ > 1) k=1 ∞ (ii) ∑ E[Xk ⋅ 1[−1,1] (Xk )] k=1 ∞ (iii) ∑ Var(Xk ⋅ 1[−1,1] (Xk )) k=1 Anwendung Beispiel von oben (a), aber mit P(ε k = 1) = p, P(ε k − 1) = 1 − p. Dann konvergiert (Sn ) genau dann, wenn p = 21 gilt (sonst divergiert die Reihe in (ii)). 49 Stochastik 1 V. Grenzwertsätze V.2. Konvergenz in Verteilung n→∞ Im schwachen Gesetz der großen Zahlen wurde An ÐÐÐ→ µ stochastisch gezeigt. Wie schnell ist diese Konvergenz eigentlich? Tschebyscheff 1 ⋅ v n→∞ 1 n n P(∣ ∑(Xi − µ)∣ > n−α ) ÐÐÐ→ 0 ≤ n i=1 n−2α 2α für alle α < 1 2 n→∞ Für α > 12 gilt Var(nα ⋅ An ) ≅ nn ÐÐÐ→ ∞ und es ist keine Konvergenz von (An ) zu erwarten. Kritischer Wert ist α = 12 , wo im Fall Xi ∈ L2 identisch verteilt und unkorreliert gilt Sn∗ ∶= n 2 ⋅ ( 1 An − µ 1 n X −µ )= √ ∑ i σ(X1 ) n i=1 σ(Xi ) Var(X ) n i besitzt die Varianz Var(Sn∗ ) = n1 ∑i=1 = 1 sowie E[Sn∗ ] = 0. Man nennt Sn∗ standarσ2 (Xi ) disierte Summe der (Xi ). Wir erwarten nicht, dass Sn∗ → 0 (stochastisch) konvergiert, weil Var(Sn∗ ) = 1 > 0 gilt, andererseits könnte die Verteilung von (Sn∗ )n≥1 sich stabilisieren und in geeignetem Sinne konvergieren. Beispiel V.16 (a) Xi ∼ N (µ, σ2 ) Ô⇒ Sn∗ ∼ N (0, 1), d.h. PSn = N (0, 1) für alle n ≥ 1. ∗ Übung ∗ (b) Xi ∼ U[−1, 1] Ô⇒ f Sn nähert sich der Gaußschen Glockenkurve an. (c) „Stabdiagramm“ der Binomialverteilung nähert sich auch der Gaußschen Glockenkurve an (Schule oder später in Vorlesung). Definition V.17 Es seien (Xn )n≥1 und X Rd -wertige Zufallsvariablen (nicht notwendigerweise auf dem selben Wahrscheinlichkeitsraum). Man sagt, dass (Xn ) gegen X in Verteilung konvergiert, Notation d Xn → X, falls für alle stetigen und beschränkten Funktionen ϕ ∶ Rd → R gilt: n→∞ E[ϕ(Xn )] ÐÐÐ→ E[ϕ(X)] Allgemein definiert man für Wahrscheinlichkeitsmaße (µn ) und µ auf BRd die schwache Konverw genz µn → µ, falls ∫ Rd ϕ(x)µn ( dx) → ∫ Rd ϕ(x)µ( dx) gilt für alle stetigen und beschränkten ϕ ∶ Rd → R. Bemerkung d w (a) Konvergenz in Verteilung Xn → X bedeutet also gerade P Xn → P X , weil E[ϕ(Xn )] = ∫ ϕ(x)P Xn ( dx) → ∫ ϕ(x)P X ( dx) = E[ϕ(X)] d Man kann daher z.B. auch schreiben Xn → N (0, 1) ohne eine Zufallsvariable X ∼ N (0, 1) hinzuschreiben. 50 Stochastik 1 V. Grenzwertsätze w (b) Schwache Konvergenz Pn → P bedeutet nicht Pn (A) → P(A) für alle Ereignisse A. Einfaches Gegenbeispiel ist für eine Folge reeller Zahlen (xn )n≥1 mit xn → x ∈ R die Folge (δxn )n≥1 der Punktmaße in (xn ) zu betrachten, dann gilt ϕ stetig ∫ ϕ(ξ)δxn ( dξ) = ϕ(xn ) ÐÐÐÐ→ ϕ(x) = ∫ ϕ(ξ)δx ( dξ) w d.h. δxn → δx , aber i.A. gilt δxn ({x}) = 0 ≠ 1 = δx ({x}), d.h. δxn ({x}) → / δx ({x}). Analog sieht man z.B. für eine Zufallsvariable X und an → a, bn → b (reeller Zahlen), dass d an X + bn → aX + b. Satz V.18 P d Konvergiert Xn gegen X stochastisch, so auch in Verteilung Xn → X Ô⇒ Xn → X. P Beweis: Nach Übungsaufgabe folgt aus Xn → X, dass für eine Teilfolge gilt Xnl → X P-f.s. f.s. →X(ω) ³¹¹ ¹ ¹ ¹ ¹ · ¹ ¹ ¹ ¹ ¹ µ dominierte Ô⇒ E[ϕ(Xnk )] = ∫ ϕ(Xnk (ω)) P( dω) ÐÐÐÐÐÐ→ ∫ ϕ(X(ω))P( dω) = E[ϕ(X)] Konvergenz ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ f.s. ϕ stetig → ϕ(X(ω)) und ≤∥ϕ∥∞ <∞∈L1 d Ô⇒ Xnk ÐÐÐ→ X k→∞ d Daraus folgt auch allgemein Xn → X, wegen Widerspruchsarguments: Sonst gäbe es eine Teilfolge (Xnl ), ein ϕ und ein ε > 0 mit ∀l ∈ N ∶ ∣E[ϕ(Xnl ) − E[ϕ(X)]∣ > ε ◻ Dies wäre dann auch für jede Teilteilfolge (Xnl ) wahr. Nach obigem Argument gibt es k jedoch eine f.s.-konvergierende Teilfolge (Xnl ) mit E[ϕ(Xnl )] → E[ϕ(X)]. E k k Beispiel V.19 (Die Umkehrung gilt nicht) Es sei X N (0, 1)-verteilt sowie Xn = X, n ≥ 1 w und Y = −X. Dann gilt P Xn = P X = N (0, 1), PY = N (0, 1). Offenbar gilt daher P Xn → PY , P d d.h. Xn → Y. Andererseits ist P(∣Xn − Y∣ > ε) = P(∣2X∣ > ε) ≡ c > 0, so dass Xn → / Y. Beachte auch, dass für Konvergenz in Verteilung die Zufallsvariablen nicht auf demselben Wahrscheinlichkeitsraum definiert sein muss. Satz V.20 Für reellwertige Zufallsvariablen (Xn )n≥1 und X sind äquivalent: d (a) Xn ÐÐÐ→ X n→∞ n→∞ (b) F Xn (x) ÐÐÐ→ F X (x) für alle x ∈ R, wo F X stetig ist („Stetigkeitspunkte von F X “). 51 Stochastik 1 V. Grenzwertsätze Beispiel V.21 xn → x reelle Zahlen, ⎧ ⎪ ⎪1, Xn ≡ xn , X ≡ x Ô⇒ F Xn (ξ) = P(Xn ≤ ξ) = ⎨ ⎪ 0, ⎪ ⎩ ξ ≥ xn = 1[xn ,∞) (ξ) ξ < xn Analog ist F X (ξ) = 1[x,∞) (ξ). w ∀ξ < x ∶ F Xn (ξ) → 0 = F X (ξ) ∀ξ > xF Xn (ξ) → 1 = F X (ξ) F Xn (x) kann 0 oder 1 sein, d.h. „F Xn (ξ) → F X (ξ)“ gilt i.A. nicht für ξ = x. Beweis: (a)⇒(b): Wähle ϕ stetig und beschränkt mit 1(−∞,x] ≤ ϕ ≤ 1(−∞,x+δ] für x ∈ R, δ > 0. Dann gilt F Xn (x) = E[1(−∞,x] (Xn )] ≤ E[ϕ(Xn )] ≤ E[1(−∞,x+δ] (Xn )] = F Xn (x + δ) n→∞ F X (x) ≤ E[ϕ(X)] ≤ F X (x + δ) mit E[ϕ(Xn )] ÐÐÐ→ E[ϕ(X)] Also folgt lim sup F Xn (x) ≤ lim sup E[ϕ(Xn )] = E[ϕ(X)] ≤ F X (x + δ) n→∞ n→∞ lim inf F Xn (x + δ) ≥ lim inf E[ϕ(Xn )] = E[ϕ(X)] ≥ F X (x) n→∞ ∀x ∈ R, δ > 0 n→∞ Ist F stetig bei x, so gilt limδ→0 F X (x ± δ) = F X (x) und somit X lim sup F Xn (x) = lim inf F Xn (x) = F X (x) n→∞ n→∞ (b)⇒(a): Zu ϕ stetig, beschränkt und δ > 0 wähle Stetigkeitspunkte x1 < . . . < xK von F X mit F X (x1 ) < δ, F X (xk ) > 1 − δ und ∀x ∈ [xk−1 , xk ] ∶ ∣ϕ(x) − ϕ(xk )∣ < δ, k = 2, . . . , K X Diese Wahl ist möglich, weil F als monotone Funktion nur abzählbar viele Unstetigkeitsstellen hat sowie ϕ auf einem kompakten Intervall gleichmäßig stetig ist. Es folgt E[ϕ(Xn )] = E[ϕ(Xn )1(−∞,x1 ] (Xn )] + E[ϕ(Xn )1(xK ,∞) (Xn )] K + ∑ E[ϕ(Xn )1(xk−1 ,xk ) (Xn )] k=2 K n ≤ ∥ϕ∥∞ ⋅ (F X (x1 ) + 1 − F Xn (xK )) + ∑ (ϕ(xk ) + δ)(F Xn (xk ) − F Xn (xk−1 )) k=2 und somit (b) lim sup E[ϕ(Xn )] ≤ ∥ϕ∥∞ (F X (x1 ) + 1 − F X (xK )) n→∞ K + ∑ (ϕ(xk ) + δ)(F X (xk ) − F X (xk−1 )) k=2 52 Stochastik 1 V. Grenzwertsätze Andererseits gilt K E[ϕ(X)] ≥ −∥ϕ∥∞ {F X (x1 ) + 1 − F X (xK )} + ∑ (ϕ(xk ) − δ)(F X (xk ) − F X (xk−1 )) ´¹¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ k=2 <δ <δ K Ô⇒ lim sup E[ϕ(Xn )] ≤ 4δ∥ϕ∥∞ + E[ϕ(X)] + 2δ ∑ (F X (xk ) − F X (xk−1 )) n→∞ k=2 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ≤1 Mit δ ↓ 0 folgt also lim supn→∞ E[ϕ(Xn )] ≤ E[ϕ(X)]. Vollkommen analog erhält man (ersetze ϕ durch −ϕ) lim infn→∞ E[ϕ(Xn )] ≥ E[ϕ(X)]. Daher gilt lim E[ϕ(Xn )] = E[ϕ(X)] ◻ n→∞ Bemerkung Im Beweis (a)⇒(b) reicht es aus, E[ϕ(Xn )] → E[ϕ(X)] nur für ϕ ∈ C ∞ (R) mit Ableitung ϕ(m) zu wissen, deren Träger kompakt ist. Zum Nachweis der Konvergenz in Verteilung reicht es also, nur solche ϕ zu betrachten. d Beispiel V.22 (a) Xn ∼ N (0, σn2 ) mit σn → 0. Dann gilt Xn → δ0 , denn F Xn (x) → 1[0,∞) (x) für alle x ≠ 0 (beachte: F Xn (0) = 21 .) (b) U1 , . . . , Un ∼ U([0, 1]) unabhängig, Xn ∶= n ⋅ min(U1 , . . . , Un ). x≥0∶ n→∞ F Xn (x) = P(min{U1 , . . . , Un } ≤ nx ) = 1 − (1 − nx )+n ÐÐÐ→ 1 − e−x Verteilungsfunktion von Exp(1)-Verteilung. d Ô⇒ Xn → Exp(1) Später werden wir folgendes zentrale Resultat der Stochastik beweisen Satz V.23 (Zentraler Grenzwertsatz) Es sei (Xk )k≥1 eine Folge unabhängiger, identisch verteilter Zufallsvariablen in L2 mit E[Xk ] = µ, Var(Xk ) = σ2 > 0. Dann gilt für die standardisierte Summe 1 n x −µ ∶ Sn∗ = √ ∑ k n k=1 σ also P(Sn∗ ≤ x) → Φ(x) = ∫ x −∞ d Sn∗ ÐÐÐ→ N (0, 1) n→∞ y2 1 √ e− 2 dy ∀x ∈ R. 2π Satz V.24 (Auswahlsatz von Helly) Ist (Pn )n≥1 eine Folge von W-Maßen auf (R, BR ) mit Verteilungsfunktionen (Fn )n≥1 , so existiert k→∞ eine Teilfolge (nk )k≥1 und monoton wachsende, rechtsstetige Funktion F ∶ R → [0, 1] mit Fnk ÐÐÐ→ F(x) für alle Stetigkeitspunkte x von F. Beweis: Es sei (qn )n≥1 eine Abzählung von Q, d.h. Q = {qn ∣ n ≥ 1}. Da (Fn (q1 ))n≥1 bek→∞ schränkt ist, gibt es eine Teilfolge (n1 (k))k≥1 mit Fn1 (k) (q1 ) ÐÐÐ→ H(q1 ) für eine reelle 53 Stochastik 1 V. Grenzwertsätze Zahl H(q1 ). Ebenso gibt es eine Teilfolge (n2 (k))k≥1 von (n1 (k))k≥1 von Fn2 (k) (q2 ) → H(q2 ) für H(q2 ) ∈ R geeignet. k→∞ Rekursiv erhalten wir Teilfolgen (nl (k))k≥1 mit Fnl (k) (ql ) ÐÐÐ→ H(ql ). Die Diagonalk→∞ folge (nk (k))k≥1 erfüllt daher Fnk (k) (ql ) ÐÐÐ→ H(ql )∀l ∈ N. Mit n(k) ∶= nk (k) gilt also Fnk (q) → H(q) für alle q ∈ Q. Offensichtlich ist H ∶ Q → [0, 1] monoton wachsend. Setze F(x) ∶= lim q↓x H(q) = inf q>x H(q), x ∈ R. Dann ist F rechtsstetig per Konstrukq∈Q q∈Q tion. Zeige nun: F stetig in x Ô⇒ Fnk (x) → F(x). Wähle dazu r1 , r2 , s ∈ Q mit r1 < r2 < x < s und F(x) − ε ≤ F(r1 ) ≤ F(s) ≤ F(x) + ε (möglich, wenn F stetig bei x). Mon. Ô⇒ lim sup Fnk (x) ≤ lim sup Fnk (s) k→∞ k→∞ Mon. lim inf Fnk (x) ≥ lim inf Fnk (r2 ) k→∞ k→∞ Def = von H Def = von H H(s) ≤ F(s) ≤ F(x) + ε H(r2 ) ≥ F(r1 ) ≥ F(x) − ε ε↓0 Ô⇒ lim Fnk (x) = F(x) ◻ k→∞ Beispiel V.25 Ist Pn = U([n, n + 1]), so gilt für die Verteilungsfunktionen Fn (x) → 0 für alle x ∈ R, d.h. F(x) = 0 im obigen Satz. Um sicherzustellen, dass im Grenzwert wieder ein Wahrscheinlichkeitsmaß erscheint, muss man verhindern, dass „Masse“ von den (Pn )n≥1 nach ±∞ läuft. Definition V.26 Eine Folge (Pn )n≥1 von Wahrscheinlichkeitsmaßen auf (R, BR ) heißt (gleichartig) straff falls für jedes ε > 0 ein Kε > 0 existiert mit supn≥1 Pn ([−Kε , Kε ]C ) < ε. Korollar V.27 Ist (Pn )n≥1 eine straffe Folge von Wahrscheinlichkeitsmaßen auf (R, BR ), so gibt es eine Teilfolge k→∞ (nk ) und ein Wahrscheinlichkeitsmaß P auf (R, BR ) mit Pnk ÐÐÐ→ P. (Kompaktheitskriterium) Beweis: Nach Konstruktion des Lebesgue-Stieltjes-Maßes gibt es ein Maß P mit P((a, b]) = F(b) − F(a) für a<b und F aus dem Satz. Es bleibt zu zeigen, dass P ein Wahrscheinlichkeitsmaß ist, d.h. limx→−∞ F(x) = 0, limx→∞ F(x) = 1. Sei dazu Kε > 0 mit supn≥1 Pn ([−Kε , Kε ]C ) < ε und x > Kε so, dass ±x Stetigkeitspunkt von F ist. Dann folgt 1 − F(x) + F(−x) = lim (1 − Fnk (x) + Fnk (−x)) ≤ sup(1 − Fn (x) + Fn (−x) ) ≤ ε k→∞ n≥1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¶ Pn ((x,∞)) Pn ((−∞,−x] und ε ↓ 0 liefert die Behauptung. ◻ V.3. Charakteristische Funktionen Definition V.28 Für eine reellwertige Zufallsvariable X bezeichnet ϕ X (u) ∶= E[eiu⋅X ] = E[cos(u ⋅ X)] + iE[sin(u ⋅ X)], 54 u∈R Stochastik 1 V. Grenzwertsätze die charakteristische Funktion von X. Analog ist für ein Wahrscheinlichkeitsmaß P auf (R, BR ) ϕ P (u) ∶= ∫ eiux P( dx) = ∫ cos(ux)P( dx) + i ∫ sin(ux)P( dx), R R R u∈R die char. Funktion von P. Lemma V.29 Die charakteristische Funktion erfüllt ϕ(0) = 1, ∣ϕ(u)∣ ≤ 1∀u ∈ R und ϕ ist gleichmäßig stetig. Beweis: ϕ(0) = ∫ ei0x P( dx) = ∫ 1P( dx) = 1 ∣ϕ(u)∣ = ∣∫ eiux P( dx)∣ ∆-Ungl. ≤ iux ∫ ∣e ∣ P( dx) = 1 ± =1 ∣ϕ(u) − ϕ(v)∣ = ∣∫ (e iux −e ivx )P( dx)∣ ≤ ∫ ∣eiux − eivx ∣P( dx) DCT = ∫ ∣ei(u−v)x − 1∣ P( dx) ÐÐÐÐ→ 0 ∣u−v∣→0 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ∣u−v∣→0 →0 ◻ und damit ist ϕ gleichmäßig stetig. Beispiel V.30 n n (a) P = Bin(n, p) ∶ ϕ P (u) = ∫ eiux P( dx) = ∑ ( )pk (1 − p)n−k ⋅ eiku R k=0 k n n = ∑ ( )(p ⋅ eiu )k (1 − p)n−k = (p ⋅ eiu + 1 − p)n k=0 k (b) P = Exp(λ) ∶ ϕ p (u) = ∫ eiux P( dx) = ∫ R = λ∫ ∞ 0 e (iu−λ)x ∞ 0 eiux ⋅ λe−λx dx +∞ 1 iu −1 e(iu−λ)x ∣ = −λ = (1 − ) dx = λ iu − λ x=0 iu − λ λ x2 1 (c) P = N (0, 1) ∶ ϕ P (u) = ∫ eiux √ e− 2 dx R 2π 2 u u2 1 (x − iu)2 (∗) = e− 2 ∫ √ exp (− ) dx = e− 2 2 2π ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ G(u) Nun ist G ∶ C → C holomorph mit G(ir) = 1 für alle r ∈ R. Daraus folgt G(u) = 1 für alle u ∈ C und x → ∞ (Eindeutigkeitssatz). Damit folgt (∗). Lemma V.31 (a) Sind X, Y unabhängige Zufallsvariablen, so gilt ϕ X+Y (u) = ϕ X (u) ⋅ ϕY (u), u ∈ R. (b) Für X ∈ L p (Ω, F, P) mit p ∈ N ist ϕ X ∈ C p (R) und es gilt (ϕ X )(k) (0) = ik E[X k ], k = 0, 1, . . . , p Beweis: Übungsaufgabe. Satz V.32 (Eindeutigkeit der char. Funktion) Zwei Wahrscheinlichkeitsmaße auf (R, BR ) mit derselben charakteristischen Funktion sind identisch. 55 Stochastik 1 V. Grenzwertsätze Beweis: Zeige die Inversionsformel für a < b u e−iua − e−iub 1 ϕ P (u) du ∫ u→∞ 2π −u iu P((a, b)) + 12 P({a, b}) = lim u sin x x wobei der Integrand bei u = 0 stetig ergänzt sei. Wir verwenden limu→∞ ∫−u aus der Analysis. Setze u I(u) = ∫ −u e−iũa − e−iũb P ϕ (ũ) dũ i ũ ∞ −i ũa u Def = Char.Fkt. e ∫ (∫ −u −∞ ∞ u Fubini = ∫ ∫ beschr. Integrand −∞ −u ∞ Symmetrie = in ũ dx = π u ∫ ∫ −∞ −u ∞ − e−iũb iũx e P( dx)) dũ i ũ e−iũ(a−x) − e−iũ(b−x) dũP( dx) i ũ sin(ũ(x − a)) − sin(ũ(x − b)) dũP( dx) ũ u∣x−a∣ u∣x−b∣ sin v sin v = ∫ (sgn(x − a) ∫ dv − sgn(x − b) ∫ dv)P( dx) v=∣ũ(x−a)∣ v v subst. −∞ −u∣x−a∣ −u∣x−b∣ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ⎧ ⎪ ⎪ x≠a u→∞ ⎪ ⎪π, ÐÐÐ→⎪⎨⎪ ⎪ ⎪ ⎪ 0, x = a ⎪ ⎩ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ⎧ ⎪ ⎪ ⎪π, x ≠ b ⎨ ⎪ ⎪ x=b ⎪ ⎩0, ⎧ x < a oder x > b⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ x = a oder x = b⎬ P( dx) ÐÐÐÐÐÐ→ ∫ ⎨ π ± 0, u→∞ ⎪ ⎪ ⎪ ⎪ ⎪ −∞ ⎪ ⎪ ⎪ ⎩ π − (−π), a < x < b ⎭ = 2πP((a, b)) + πP({a, b}) dominierte Konvergenz ∞⎪ ⎪ π − π, Da es nur abzählbar viele a, b ∈ R gibt mit P({a, b}) > 0 erhalten wir u e−iua − e−iub 1 ϕ P (u) du ∫ u→∞ 2π −u iu F(b) − F(a) = P((a, b]) = lim für alle bis auf abzählbar viele a < b. Wegen Rechtsstetigkeit ist die Verteilungsfunktion F daher eindeutig festgelegt. ◻ Beispiel V.33 n Xi , Xi ∼ Bin(1, p) unabh.). (a) Sn sei Bin(n, p)-verteilt (d.h. Sn = ∑i=1 Sn − np Sn∗ = √ , npq ∗ ∗ q ∶= 1 − p Ô⇒ E[Sn∗ ] = 0, ϕSn = E [eiuSn ] = E [e = (p ⋅ e u i √npq iu Sn −np √ npq n + q ⋅ 1) e ] = ϕ Sn ( √ Var(Sn∗ ) = 1 −iunp √ u ) e npq npq up −iu √npq 56 Üb. = Lemma n (ϕ X1 ( √ iunp u −√ )) e npq npq Stochastik 1 V. Grenzwertsätze 2 2 ⎛ ⎛ ⎞⎞ ⎛ ⎞ iuq iuq iup 1 1 iup p 1+ √ + (√ ) + o( n1 ) + q 1 − √ + (√ ) + o( n1 ) npq 2 npq npq 2 npq ⎝ ⎝ ⎠⎠ ⎝ ⎠ Taylor = n n ⎛ ⎞ u2 u2 1 ⎛ u2 pq2 u2 p2 q ⎞ n→∞ = 1− + + o( n1 ) = (1 − + o( n1 )) ÐÐÐ→ e− 2 2 ⎝ n pq n pq ⎠ 2n ⎝ ⎠ Beachte dazu (1 + n ∀u ∈ R n + o ( n1 )) → ez weil z n n log (1 + z n + o( n1 )) Taylor = 2 n→∞ n( nz + o( n1 ) + O (( nz + o( n1 )) )) ÐÐÐ→ z ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ 1 o( n ) Die char. Funktionen von Sn∗ konvergieren also für n → ∞ gegen die char. Funktion u2 ϕN (0,1) (u) = e− 2 . Für ein Bild siehe [3], S. 132. (b) (vgl. Übung) Es seien X j ∼ U([−1, 1]), j ≥ 1 unabhängig Sn∗ √ n 3 = √ ∑ X j Ô⇒ E[Sn∗ ] = 0, n j=1 ∗ ϕSn (u) = E [e Taylor = √ iu √ 3 n n ∑ j=1 Xj ] = (E [e Var(Sn∗ ) = 1 √ iu √ 3 X1 n n √ 1 iu √ 3 ⋅x 1 ]) = ( ∫ e 2 −1 n √ n ⎛ sin ( 3 u) ⎞ n ⎜ ⎟ ⎟ dx) = ⎜ √ ⎜ ⎟ 3 n ⋅u ⎠ ⎝ n n √ 2 ⎛ ⎞ n ( n3 u) u2 u2 ⎜ ⎟ ⎜1 − + o( n1 )⎟ = (1 − + o( n1 )) → e− 2 = ϕN (0,1) (u) ⎜ ⎟ 3! 2n ⎝ ⎠ d Gilt Xn → X, so folgt aus der Definition sofort ϕ Xn (u) → ϕ X (u) punktweise für alle u ∈ R (beachte sin(ux), cos(ux) sind stetig, beschränkt). Überraschenderweise gilt auch die Umkehrung unter schwachen Voraussetzungen: Satz V.34 (Stetigkeitssatz von Lévy) n→∞ Sind (Pn )n≥1 Wahrscheinlichkeitsmaße auf (R, BR ) mit char. Funktionen ϕn und gilt ϕn (u) ÐÐÐ→ ψ(u), u ∈ R, mit einer bei u = 0 stetigen Funktion ψ ∶ R → C, so ist ψ = ϕ P , die char. Funktion w eines Wahrscheinlichkeitsmaßes P und es gilt Pn → P. Beweis: (a) Zeige die Ungleichung P([− n2 , n2 ]C ) ≤ 1 u 4 ∫−u (1 − ϕ P (v)) dv, u > 0. Es gilt u u 1 sin(ux) 1 ivx ∫ (1 − e ) dv = (2u − ∫ cos(vx) dv) = 2 − 2 u −u u ux −u Fubini Ô⇒ u 1 sin(ux) (∗) P ) P( dx) ∫ (1 − ϕ (v)) dv = 2 ∫ (1 − u −u ux R 57 (∗) Stochastik 1 V. Grenzwertsätze ≤ 21 ≥ 2⋅ ∫ ∣x∣≥ u2 ¬ 1 ) P( dx) ≥ P([− u2 , u2 ]C ) (1 − ∣ux∣ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ≥ 21 (b) Zeige: (Pn )n≥1 ist straff. Zu ε > 0 wähle aufgrund der Stetigkeit von ψ bei Null u ein u > 0 mit u1 ∫−u (1 − ψ(v)) dv < ε. Dominierte Konvergenz impliziert ∃N ≥ 1∀n ∶ Für ein R ≥ 2 n u (a) 1 2 2 C ∫ (1 − ϕn )(v)) dv ≤ 2ε Ô⇒ ∀n ≥ N ∶ Pn ([− n , n ] ) ≤ 2ε u −u gilt daher ∀n ≥ 1 ∶ Pn ([−R, R]C ) ≤ 2ε Ô⇒ (Pn )n≥1 ist straff. (c) Schluss: Nach dem Satz von Helly (Satz 5.24) existiert eine Teilfolge nk und ein w Wahrscheinlichkeitsmaß P mit Pnk ÐÐÐ→ P. Dann gilt auch (s.o.) ϕnk (u) → ϕ P (u) k→∞ für alle u ∈ R, d.h. ψ(u) = ϕ P (u)∀u ∈ R. Also besitzt jede Teilfolge von (Pn ) eine w gegen P schwach konvergierende Teilteilfolge. Damit folgt Pn → P. ◻ V.4. Zentraler Grenzwertsatz Wir haben in obigen Beispielen für Binomial- und gleichmäßiger Verteilung gesehen, dass n→∞ d ϕSn (u) ÐÐÐ→ ϕN (0,1) (u). Nach dem Stetigkeitssatz von Lévy folgt also Sn∗ → N (0, 1). Dies gilt in größter Allgemeinheit für standardisierte Summen unabhängiger Zufallsvariablen: ∗ Satz V.35 (Zentraler Grenzwertsatz) Es sei (X j ) j≥1 eine Folge unabhängiger, identisch verteilter Zufallsvariablen in L2 und µ = E[X j ] sowie σ2 = Var(X j ) > 0. Dann gilt 1 n Xj − µ d Sn∗ ∶= √ ∑ ÐÐÐ→ N (0, 1) n→∞ n j=1 σ u2 Beweis: Es reicht nach Lévy zu zeigen: ϕSn (u) → ϕN (0,1) (u) = e− 2 . Es gilt mit X̃ j = ∗ X j −µ σ : ∗ ϕSn (u) = E [e iu √ n n ∑i=1 X̃ j ] = (E[e i √u X̃1 n ]) 2 Übung = Taylor n 2 n iu iu u (1 + √ E[X̃1 ] + 12 ( √ ) E[X̃12 ] + o ( √ ) ) n ´¹¹ ¹ ¹¸ ¹ ¹ ¹ ¶ n n =0 2 n u2 1u n→∞ = (1 − + o( n1 )) ÐÐÐÐÐÐ→ e− 2 = ϕN (0,1) (u) 2 n s.o. Beispiel 58 ◻ Stochastik 1 V. Grenzwertsätze Interpretation des ZGWS Der ZGWS besagt, dass bei vielen unabhängigen und identisch verteilten stochastischen Fehlern (Störgrößen) die standardisierte Summe gerade approximativ N (0, 1)-verteilt ist. Bei physikalischen Messungen z.B. wird daher gerne von normalverteilten Fehlern ausgegangen. Die allgemeine ZGWS von Lindeberg – Fehler gibt eine hinreichende und notwendige Bedingung für Sn∗ → N (0, 1), wenn die Xi unabhängig, aber nicht unbedingt identisch verteilt sind. Ebenso gibt es Verallgemeinerungen für abhängige Zufallsvariablen („Mischungskoeffizienten“) Wann gilt für die Binomialverteilung die Normal- und wann die Poisson-Approximation? (ZGWS vs. Poissonscher GWS (I.12). Sei dazu Sn ∼ Bin(n, p), 0 < p < 1, dann gilt einerseits (ZGWS) Sn∗ = √ Sn − np d → N (0, 1) np(1 − p) √ √ Ô⇒ P(a < Sn∗ ≤ b) = P (np + a np(1 − p) < Sn ≤ np + b np(1 − p)) → ϕ(b) − ϕ(a) und andererseits (Poiss. GWS) d Sn → Poiss(λ) falls npn → λ (insbesondere pn → 0) Grundsätzlicher Unterschied: Beim Poiss. GWS müssen die Einzelwahrscheinlichkeiten pn klein sein und Sn nimmt Werte asymptotisch in N0 an. Beim ZGWS ist pn = p =const. (beliebig), die Werte von Sn∗ sind zwar diskret, aber verteilen sich asymptotisch auf der reellen Achse. Genauer muss man den Approximationsfehler in beiden GWS genauer untersuchen. Im Poissonschen GWS gilt: Satz V.36 Für p ∈ (0, 1) und n ∈ N gilt ∑ ∣ Binn,p (k) − Poissn⋅p (k)∣ ≤ 2np 2 k≥0 Beweis: („coupling“-Argument) Seien die Zufallsvariablen Xi ∼ Bin(1, p) unabhänn gig („Bernoulli-Folge“), 1 ≤ i ≤ n und Sn = ∑i=1 Xi ∼ Bin(n, p) sowie Yi ∼ Poiss(p) unabn hängig, 1 ≤ i ≤ n und Tn = ∑i=1 Yi ∼ Poiss(np). Wir werden nun die Familien (Xi )1≤i≤n nicht unabhängig voneinander wählen, sondern geschickt auf denselben Wahrscheinlichkeitsraum miteinander koppeln. Konstruiere dazu unabhängige Zufallsvariablen Z1 , . . . , Zn mit Werten in N0 ∪ {−1}, so dass ⎧ Poiss p (k) ⎪ ⎪ ⎪ ⎪ P(Zi = k) = ⎨1 − p ⎪ ⎪ −p ⎪ ⎪ ⎩e − (1 − p) für k ≥ 1 für k = 0 für k = −1 gilt (beachte e−p ≥ 1 − p). Setze Xi = 1{Zi ≠0} , Yi ∶= max(Zi , 0). Dann gilt Xi ∼ Bin(1, p) sowie Yi ∼ Poiss(p), und (Xi )1≤i≤n und (Yi )1≤i≤n sind jeweils unabhängige Familien 59 Stochastik 1 VI. Einführung in die Schätztheorie von Zufallsvariablen, da (Zi )1≤i≤n unabhängig ist. Damit erhalten wir ∑ ∣ Binn,p (k) − Poissnp (k)∣ k≥0 = ∑ ∣P(Sn = k) − P(Tn = k)∣ k≥0 = ∑ ∣P({Sn = k} ∩ ⋃ {Xi ≠ Yi }) − P({Tn = k} ∩ ⋃ {Xi ≠ Yi })∣ 1≤i≤n k≥0 1≤i≤n + P({Sn = k} ∩ ∩ ⋂ {X = Yi }) − P({Tn = k} ⋂ {Xi = Yi }) 1≤i≤n i 1≤i≤n ≤ 2P( ⋃ {Xi ≠ Yi }) = 2P( ⋃ {Zi ∉ {0, 1}}) 1≤i≤n −p ≤ 2n(1 − e 1≤i≤n −e −p p+e −p − (1 − p)) = 2n(1 − e−p )p ≤ 2np2 ◻ Bemerkung Im ZGWS gilt unter der Bedingung Xi ∈ L3 folgende Fehlerabschätzung (Satz von Berry-Esséen, siehe z.B. [2]) ∗ ∥F Sn − ϕ∥∞ ≤ 0.8 ⋅ E[∣Xi − µ∣3 ] σ 3 2 1 1 ⋅ √ = O(n− 2 ) n Man kann sogar eine asymptotische Entwicklung (Edgeworth-Entwicklung) der Form ∗ k 1 1 1 F Sn (x) = ϕ(x) + √ ⋅ H1 (x) + H2 (x) + ⋯ + k Hk (x) + o(n− 2 ) n n n2 herleiten mit Koeffizienten Hk (x), die auf Hermite-Polynomen beruhen. VI. Einführung in die Schätztheorie VI.1. Grundbegriffe Definition VI.1 Es sei (X = Ω, F, (Pϑ )ϑ∈Θ ) ein statistisches Modell sowie g ∶ Θ → Rd eine Funktion. Für jeden Parameter ϑ heißt g(ϑ) abgeleiteter Parameter . Jede messbare Funktion ĝ ∶ X → (Rd , BRd ) heißt Schätzer von g(ϑ). Für eine Realisierung (Daten) x ∈ X heißt ĝ(x) Schätzung oder Schätzwert. In der Statistik wird das Verhalten des Schätzers ĝ als Zufallsvariable bezüglich der wahren, aber unbekannten Wahrscheinlichkeitsverteilung Pϑ untersucht. Ein häufig angewandtes Gütekriterium ist der MSE (mean squared error): Definition VI.2 (Mittlerer quadratischer Fehler, MSE) Der mittlere quadratische Fehler eines Schätzers ĝ von g(ϑ) ist gegeben durch R( ĝ, ϑ) ∶= Eϑ [∣ ĝ − g(ϑ)∣2 ] 60 (Risikofunktion) Stochastik 1 VI. Einführung in die Schätztheorie wobei ∣ ⋅ ∣ die Euklidische Norm bezeichne. Die Differenz B( ĝ, ϑ) ∶= Eϑ [ ĝ] − g(ϑ) heißt Verzerrung oder Bias von ĝ bei ϑ. Gilt B( ĝ, ϑ) = 0 für alle ϑ ∈ Θ, so heißt ĝ erwartungstreu oder unbiased. ∞ Beispiel VI.3 X = R, F = BR , Θ = {W-Maße P auf BR ∣ ∫−∞ x2 P( dx) < ∞}, Pϑ ∶= ϑ bzw. stat. Modell (R, BR , {W-Maße P⊗n auf BR ∣ ∫ x2 P( dx) < ∞}). g ∶ Θ → R Erwartungswert, ∞ also g(P) = ∫−∞ xP( dx). Stichprobenraum X = Rn , d.h. Beobachtungen x1 , . . . , xn ∈ R, jedes xi ∼ P und x1 , . . . , xn unabhängig. ĝ(x) = 1 n n ∑ xi Arithmetisches Mittel i=1 n ∫ x dP = g(P), d.h. ĝ ist ist erwartungstreuer Schätzer von g(P). MSE: Es gilt E p [ ĝ] = n1 ∑i=1 R R(P, ĝ) = EP [( ĝ − g(P))2 ] = VarP ( ĝ) = Unabh. = 1 2 ∫ (x − g(P)) P( dx) n R ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ n 2 ∑ ∫ (x − g(P)) P( dx) R n2 i=1 1 „Varianz von P“ P-f.s. Außerdem gilt (starkes Gesetz der großen Zahlen) mit der Notation ĝn = ĝ ∶ ĝn ÐÐÐ→ g(P)∀P ∈ Θ (in der Statistik sagt man, dass ĝn ein (start) konsistenter Schätzer ist für n → ∞). Lemma VI.4 (Bias-Varianz-Zerlegung) Für jeden Schätzer ĝ ∈ L2 (X , F, Pϑ ) gilt R( ĝ, ϑ) = B( ĝ, ϑ)2 + Varϑ ( ĝ) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¶ Bias2 Varianz Beweis: R( ĝ, ϑ) = Eϑ [( ĝ − Eϑ [ ĝ] + Eϑ [ ĝ] − g(ϑ))2 ] =0 ³¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ·¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ µ = Eϑ [( ĝ − Eϑ [ ĝ]) ] + 2E[ ĝ − Eϑ [ ĝ]](Eϑ [ ĝ] − g(ϑ)) + (Eϑ [ ĝ] − g(ϑ))2 2 = Varϑ ( ĝ) + B( ĝ, ϑ)2 Beispiel VI.5 ◻ (a) Bernoulli-Experiment X = {0, 1}n , F = P(X ), Pϑ habe Zähldichte n n pϑ (x1 , . . . , xn ) = ϑ∑i=1 xi ⋅ (1 − ϑ)∑i=1 (1−xi ) n ϑ ∈ Θ = [0, 1]. Betrachte Identität g(ϑ) = ϑ und den Schätzer ϑ̂(x) ∶= n1 ∑i=1 xi (rel. Häufigkeit). Wie oben im Beispiel ist ϑ̂ erwartungstreu, konsistent für n → ∞ und es ϑ(1−ϑ) 1 gilt R(ϑ̂, ϑ) = n . Stets gilt R(ϑ̂, ϑ) ≤ 4n , aber z.B. R(ϑ̂, 0) = 0. Ein anderer Schätzer ist ϑ̃(x) = π1 ∶ R(ϑ, ϑ̃) = ( π1 − ϑ)2 . Man wird bei der Suche nach einem besten Schätzer im Allgemeinen die Klasse der Schätzer einschränken (z.B. Erwartungstreue) und/oder den in ϑ maximalen MSE bzw. gemittelten MSE betrachten. 61 Stochastik 1 VI. Einführung in die Schätztheorie (b) Taxiproblem: In einer Stadt werden alle N Taxis mit einer gut sichtbaren Lizenznummer zwischen 1 und N verstehen. Ein Tourist sieht Taxis mit den Nummern X1 , . . . , Xn (ohne Doppelte). Welche sinnvolle Schätzung von N könnte ihm einfallen. a) Er nimmt den Mittelwert und multipliziert ihn mit 2: N̂1 = 2 n n ∑i=1 Xi . b) Er nimmt das Maximum N̂2 = max(X1 , . . . , Xn ) c) Er addiert den mittleren Abstand zwischen Beobachtungen zu Maximum hinn−1 1 n die geordneten zu N̂3 = max(X1 , . . . , Xn ) + n−1 ∑i=1 (X(i) − X(i+1) ) mit (X(i) )i=1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ X(1) −X(n) Zufallsvariablen. d) betrachte beim letzten Beispiel auch den Abstand X(n) zu 0: N̂4 = X(1) + 1 n+1 X(1) = max{X1 , . . . , Xn }. n n Alle Vorschläge haben gewisse Meriten, aber wir wollen den bzgl. MSE optimalen Schätzer finden. Zur leichten Analyse (sonst siehe [6]) nehmen wir hier ein stetiges Modell an, nämlich X1 , . . . , Xn ∼ U([0, ϑ]) unabhängig mit ϑ ∈ Θ = (0, ∞) unbekannt (Approx. für N groß). Zufallszahlen glm. in [0, ϑ], ϑ zu schätzen). a) ϑ̂1 = 2 n s.o. n ∑i=1 Xi Ô⇒ R(ϑ̂1 , ϑ) = 4 n Varϑ (X1 ) = ϑ2 3n b) ϑ̂2 = max(X1 , . . . , Xn ) Ô⇒ R(ϑ̂2 , ϑ) = B(ϑ̂2 , ϑ)2 , Varϑ (ϑ̂2 ) = c) ϑ̂3 = n+1 n 1 ϑ2 n n2 2 2 ϑ + ( − ϑ2 ) = ϑ2 ⋅ (n + 1)2 n + 2 (n + 1)2 (n + 1)(n + 2) 2 2 ⋅ ϑ̂2 Ô⇒ R(ϑ̂3 , ϑ) = B(ϑ̂3 , ϑ)2 + Varϑ (ϑ̂3 ) = ( n+1 n ) Varϑ (ϑ̂2 ) = ϑ ⋅ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ 1 n(n+2) =0 Wir stellen fest, dass ϑ̂3 für alle ϑ > 0 und (zumindest) große n den kleinsten MSE besitzt. Darüber hinaus ist ϑ̂3 erwartungstreu. Man kann zeigen, dass ϑ̂3 in der Tat bzgl. MSE optimaler Schätzer ist. VI.2. Cramér-Rao-Ungleichung und Maximum-Likelihood-Prinzip Satz VI.6 (Cramér-Rao-Schranke, 1943) Es sei (X , F, (Pϑ )ϑ∈Θ ) ein statistisches Modell mit Θ ⊆ R offen und ĝ ein erwartungstreuer Schätzer von g(ϑ) mit g ∶ Θ → R differenzierbar. Weiterhin besitze Pϑ eine Dichte f ϑ ∶ R → [0, ∞), so ∂ dass ∂ϑ f ϑ existiere für λ-f.a. x ∈ X und Vertauschungen seien erlaubt: ∂ ∂ ∫ h(x) f ϑ (x) dx = ∫ h(x) f ϑ (x) dx ∂ϑ ∂ϑ 62 Stochastik 1 VI. Einführung in die Schätztheorie für h(x) = 1 und h(x) = ĝ(x). Dann gilt ∀ϑ ∈ Θ ∶ Eϑ [∣ ĝ − g(ϑ)∣2 ] ≥ ∂ g′ (ϑ)2 I(ϑ) 2 f sofern die Fisher-Information I(ϑ) = Eϑ [( ∂ϑf ϑ ) ] endlich ist. ϑ Beweis: Da ĝ erwartungstreu ist, gilt die Bias-Varianzzerlegung (VI.4) E[( ĝ − g(ϑ))2 ] = Var( ĝ) Für Y = ∂ f (x) ∂ϑ ϑ f ϑ (x) gilt nun Eϑ [Y] = ∫ ∂ ∂ f ϑ (x) dx = ∫ f ϑ (x) dx = 0 ∂ϑ ∂ϑ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ 1 2 Eϑ [Y ] = I(ϑ) 2 ( Ô⇒ Y ∈ L ) Wir erhalten Covϑ ( ĝ, Y)2 ≤ Varϑ ( ĝ) Var(Y) = E[( ĝ − g(ϑ))2 ]I(ϑ) und Covϑ ( ĝ, Y) = E[( ĝ − E[ ĝ])(Y − E[Y])] = E[ ĝY] − E[ ĝ]E[Y] = ∫ ĝ(x) ∂ ∂ ′ f ϑ (x) dx = ∫ ĝ(x) f ϑ (x) dx = g (ϑ) ∂ϑ ∂ϑ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ◻ =g(ϑ) Bemerkung (a) Im Fall von Zähldichten pϑ anstatt von Dichten f ϑ gilt exakt die selbe Aussage (allg. für Radon-Nikodym-Ableitung von Pϑ bzgl. eines dominierenden Maßes). (b) Im Fall g′ (ϑ) = 0 wird die rechte Seite als 0 interpretiert. Ist I(ϑ) = 0 und g′ (ϑ) = 0 folgt Eϑ [( ĝ − g(ϑ))2 ] = ∞. (c) Die Bedingungen an f ϑ sind die, die an ein reguläres stat. Modell gestellt werden. Sie ∂ sind für bzgl. ϑ stetig differenzierbares f ϑ mit ∫ supϑ∈Θ ∣ ∂ϑ f ϑ (x)∣ dx < ∞ stets erfüllt. ∂ f (d) Gleichheit in der Cramér-Rao-Schranke gilt genau dann, wenn Y = ∂ϑf ϑ und ĝ linear ϑ unabhängig sind. In diesem Fall nennt man ĝ effizient . Die lineare Unabhängigkeit führt auf die Exponentialfamilien als stat. Modell. Lemma VI.7 Im Produktmodell (X n , F ⊗n , (Pϑ⊗n )ϑ∈Θ ) mit Pϑ wie oben gilt für die Fisher-Information In (ϑ) = nI1 (ϑ) (n unabhängige und identisch verteilte Beobachtungen Ô⇒ n-fache Information.) 63 Stochastik 1 VI. Einführung in die Schätztheorie n Beweis: Pϑ⊗n hat die Dichte ∏i=1 f ϑ (xi ), x ∈ X n und daher ⎤ ⎡ ⎢⎛ n ∂ f ϑ (Xi ) ⎞2 ⎥ ⎥ ⎢ ∂ϑ ⎥ In (ϑ) = Eϑ ⎢ ∑ ⎥ ⎢⎝ f (X ) ⎠ ⎥ ⎢ i=1 ϑ i ⎣ ⎦ ∂ n f ϑ (Xi ) ⎞ unabh. n ⎛ ∂ f ϑ (Xi ) ⎞ ⎛ = ∑ Varϑ ∂ϑ = Varϑ ∑ ∂ϑ ⎝ f ϑ (Xi ) ⎠ ⎝i=1 f ϑ (Xi ) ⎠ i=1 = nI1 (ϑ) Insbesondere ist die Rate 1 n ◻ für den MSE optimal. (a) Bernoulli-Experimet X1 , . . . , Xn Beispiel VI.8 n Pϑ (x1 , . . . , xn ) = ∏ ϑ xi (1 − ϑ)1−xi Unabh. ∼ Bin(1, ϑ), ϑ ∈ (0, 1). x ∈ {0, 1}n i=1 2⎤ ⎡ ⎢ X ϑ X1 −1 (1 − ϑ)1−X1 − (1 − X1 )ϑ X1 (1 − ϑ)−X1 ⎥ ⎥ ) Ô⇒ I1 (ϑ) = E ⎢⎢( 1 ⎥ ϑ X1 (1 − ϑ)1−X1 ⎢ ⎥ ⎦ ⎣ 2 1 − X1 X ) ] = E [( 1 − ϑ 1−ϑ 1 1 1 2 = P(X1 = 1) 2 + p(X1 = 0) −2 E[X 1 − X1 ] 2 ϑ (1 − ϑ) ϑ(1 − ϑ) ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ =ϑ =(1−ϑ) 1 1 1 n = + = Ô⇒ In (ϑ) = ϑ 1 − ϑ ϑ(1 − ϑ) ϑ(1 − ϑ) g(ϑ) = ϑ und Modell ist regulär. Daher ist die Cramér-Rao-Schranke: also ist ϑ̂ = 1 n 1 I(ϑ) = ϑ(1−ϑ) n n ∑i=1 Xi effizient. n (b) Taxiproblem. Vereinfachtes Modell Pϑ = U⊗n [0,ϑ] auf R . Daher ist n 1 f ϑ (x) = ∏ 1[0,ϑ] (xi ) i=1 ϑ ist nicht differenzierbar bzgl. ϑ (nicht stetig bei x1 ). Also ist das statistische Modell nicht regulär. Wir erhalten die schnellere Konvergenzrate n12 . Man kann zeigen, dass diese optimal ist. Idee des Maximum-Likelihood-Prinzips: Ist (X , F, (Pϑ )ϑ∈Θ ) ein diskretes stat. Modell, so wollen wir bei Vorliegen der Stichprobe x ∈ X einen Schätzwert ϑ̂(x) für ϑ bestimmen. Das Maximum-Likelihood-Prinzip ϑ besagt, dass man als ϑ̂(x) denjenigen Parameter ϑ nehmen soll, für den pϑ (x) maximal ist, d.h. so dass der Versuchsausgang x bei Vorliegen der Verteilung Pϑ am wahrscheinlichsten ist. Im stetigen Fall benutzt man analog Dichten fϑ . 64 Stochastik 1 VI. Einführung in die Schätztheorie Definition VI.9 (a) Ist (X , F, (Pϑ )ϑ∈Θ ) ein diskretes stat. Modell mit Zähldichten pϑ (⋅), so heißt L(ϑ, x) ∶= pϑ (x) sowie Likelihood-Funktion l(ϑ, x) ∶= log L(ϑ, x) Log-Likelihood Entsprechend in einem stat. Modell (X , F, (Pϑ )ϑ∈Θ ) mit Dichten L(ϑ, x) = f ϑ (x) und l(ϑ, x) = log L(ϑ, x). (b) Gilt für einen Schätzer ϑ̂ L(ϑ̂(x), x) = sup L(ϑ, x) bzw. äquivalent l(ϑ̂(x), x) = sup l(ϑ, x) ϑ∈Θ ϑ∈Θ so heißt ϑ̂ Maximum-Likelihood-Schätzer (MLE) . Lemma VI.10 (Plugin-Prinzip) Ist g ∶ Θ → Θ′ bijektiv, so ist g(ϑ̂ML ) der Maximum-Likelihood-Schätzer von ϑ′ = g(ϑ), wobei ϑ̂ML der ML-Schätzer von ϑ ∈ Θ. Beweis: sup L′ (ϑ′ , x) = sup f g−1 (ϑ′ ) (x) = sup f ϑ (x) = sup L(ϑ, x) ϑ′ ∈Θ′ ϑ′ ∈Θ′ ϑ∈Θ ◻ ϑ∈Θ (a) Binomialverteilung mit unbekannter Erfolgswahrscheinlichkeit ϑ ∈ Beispiel VI.11 (0, 1). n L(ϑ, x) = ( )ϑ x (1 − ϑ)n−x x ∈ {0, . . . , n} x n Log-Likelihood l(ϑ, x) = log ( ) + x log ϑ + (n − x) log(1 − ϑ) x x n−x ∂ ! l(ϑ̂, x) = − Maximum bestimmen: 0 = ∂ϑ ϑ̂ 1 − ϑ̂ Likelihood-Funktion ⇐⇒ 0 = (1 − ϑ̂)x − ϑ̂(n − x) = x − ϑ̂n ⇐⇒ ϑ̂(x) = x n ist ML-Schätzer und nach obigen Beispiel optimal. (b) Schätzung eines Fischbestandes. X = {0, . . . , n} (n =„Anzahl der Fische beim 2. Fangen“), Θ = {w, w + 1, . . . } (w = „Anzahl der markierten Fische“), x ∈ X = “Anzahl markierter Fische beim 2. Fang“. Pϑ = Hypn,w,ϑ−w L(ϑ, x) = (wx)(ϑ−w n−x ) (nϑ) ϑ L(ϑ,x) Ô⇒ L(⋅, x) ist monoton wachsend L(ϑ−1,x) nw ϑ ∈ {⌊ x ⌋ + 1, . . . } Ô⇒ ϑ̂ML (x) = ⌊ nw x ⌋. Betrachte lend auf → max auf ϑ ∈ {w, . . . , ⌊ nw x ⌋} und fal- Bemerkung (a) Das ML-Prinzip liefert in komplexen Modellen gute Ideen, wie Schätzer konstruiert werden können, aber jenseits von asymptotischen Untersuchungen existieren kaum allgemeine Sätze über deren Eigenschaften. Ob der ML-Schätzer eine gute Wahl ist, muss im Einzelfall geprüft werden. 65 Stochastik 1 VI. Einführung in die Schätztheorie (b) Unter Regularitätsannahmen an das Modell kann man zeigen √ d n(ϑ̂ML − ϑ) → N (0, I −1 (ϑ0 )) VI.3. Likelihood-Quotienten-Tests Motivation: Mendels Erbse (1865). Beobachtung bei Erbsen: Ausprägung „rund“ (A) oder „kantig“ (a) sowie „gelb“ (B) oder „grün“ (b). Das Merkmal „rund“ ist dominant, d.h. die Genotypen AA, Aa, aA führen zum Phänotypen „rund“, bei aa ergibt sich „kantig“. Ebenso ist „gelb“ dominant. Betrachtet man nun Nachkommen des heterozygoten Genotypen AaBb, dann sollten die vier Phänotypen („rund, gelb“, „rund, grün“, „kantig, gelb“, „kantig, grün“) im Verhältnis 9:3:3:1 auftauchen. Mendel erhob folgende Daten (n = 556 Erbsen): gelb grün rund 315 108 kantig 101 32 Dies führt auf die Multinomialverteilung mit r = 4 Klassen und (theor.) Wahrscheinlichkei3 1 9 , p2 = 16 = p3 , p4 = 16 für die verschiedenen Klassen. Statistisches Modell ten p1 = 16 X = {k ∈ {0, 1, . . . , n}r ∣ k1 + ⋯ + kr = n} , F = P(X ) Parametermenge Θ = {ϑ ∈ (0, 1)r ∣ ϑ1 + ϑ2 + ⋯ + ϑr = 1} (entsprechen den (pi )1≤i≤r ). pϑ (k) = Pϑ ({k}) = n! k ϑ 1 ⋅ ϑ2k2 ⋯ϑrkr k1 !⋯kr ! 1 9 Teste H0 ∶ ϑ = ϑ0 gegen H1 ∶ ϑ ≠ ϑ0 mit ϑ0 = ( 16 3 16 3 16 1 )⊺ . 16 1 n Weitere Anwendung: Zufallszahlen auf {1, . . . , n} und Hypothese H0 ∶ ϑ = ( ⋮ ). Inspiriert 1 n von Neyman-Pearson-Test verwendet man für diese Probleme folgende Testkonstruktion: Definition VI.12 In einem statistischen Modell mit Likelihood-Funktion L(ϑ, x) betrachte das Testproblem H0 ∶ ϑ ∈ Θ0 gegen H1 ∶ ϑ ∈ Θ1 mit Θ = Θ0 ⊍ Θ1 . Dann heißt ein Test der Form ϕ(x) = 1 ⎛ supϑ∈Θ1 L(ϑ, x) ⎞ > cα ⎝ supϑ∈Θ0 L(ϑ, x) ⎠ mit cα > 0 geeignet heißt Likelihood-Quotienten-Test. Mit ϑ̂0 , ϑ̂1 , Maximum-Likelihood-Schätzern in der Parametermenge Θ0 bzw. Θ1 , gilt entsprechend ϕ(x) = 1 ( L(ϑ̂1 (x), x) > cα ) L(ϑ̂0 , x) 66 Stochastik 1 VI. Einführung in die Schätztheorie In unserem Multinomialmodell ergibt sich supϑ∈Θ1 L(ϑ, x) Stetigkeit supϑ∈Θ0 L(ϑ, x) in ϑ = x supϑ∈Θ L(ϑ, x) supϑ∈Θ pϑ (x) supϑ∈Θ ϑ1 1 ⋯ϑrxr = = x1 xr L(ϑ0 , x) pϑ0 (x) ⋯ϑ0,r ϑ0,1 Lagrange- = ( xn1 )x1 ⋯( xnr )xr x xr 1 ϑ0,1 ⋯ϑ0,1 Multiplikatoren Wir erhalten weiter log ⎛ supϑ∈Θ1 L(ϑ, x) ⎞ r x = ∑ xi log ( i ) nϑ0,i ⎝ supϑ∈Θ0 L(ϑx) ⎠ i=1 und der Likelihood-Quotienten-Test hat die Form r ϕ(x) = 1 (∑ xi log ( i=1 xi ) > log cα ) nϑ0,i Taylor-Entwicklung liefert x log( xx ) = (x − x0 ) + 0 2 ϕ(x) ≈ 1(V (x) > vα ) mit (x−x0 )2 2x0 + o((x − x0 )2 ) und somit 2 ⎛ x ( xni − ϑ0,i ) ⎞ i ⎟ V (x) = 2n ∑ ⎜( − ϑ0,i ) + 2ϑ0,i ⎠ i=1 ⎝ n r 2 (xi − nϑ0,i )2 (B − Ei )2 =∑ i nϑ0,i Ei ∑ ϑ0,i =1 i=1 i ∑ xi n = =1 r ∑ symbolisch mit Bi : beobachtete Anzahl in Klasse i und Ei erwartete Anzahl in Klasse i. ϕ̃(x) = 1(V 2 (x) > vα ) heißt χ2 -Test Zur Bestimmung des kritischen Wertes vα für ein vorgegebenes Niveau α bedient man sich der asymptotischen Näherung ∀v > 0 ∶ lim Pϑ0 (V 2 ≤ v) = ∫ n→∞ 0 v f χ2 (r−1) (x) dx mit f χ2 (r−1) (x) = 1 r−1 2 Γ( r+1 2 )2 x r−1 −1 2 x e− 2 (der Dichte der χ2 (r − 1)-Verteilung). Das heißt, man wählt vα als das (1 − α)-Quantil der χ2 (r − 1)-Verteilung. Bei Mendels Daten ergibt sich eine klare Annahme der Hypothese zum Niveau α = 0.05 (oder sogar größer). In der Tat ist die Wahrscheinlichkeit, dass V 2 den Wert entsprechend diesen Daten oder kleiner annimmt, ca. 10%. (Manipulationsverdacht) Eine weitere Anwendung des Likelihood-Quotienten-Tests ist der sogenannte t-Test für X1 , . . . , Xn ∼ N (µ, σ2 ) unabhängig und H0 ∶ µ = µ0 vs H1 ∶ µ ≠ µ0 (σ > 0 beliebig, unbekannt). 67 Stochastik 1 Index Index χ2 -Test, 67 σ-Additivität, 3 σ-Algebra, 3 σ-Stetigkeit, 4 σ-endlich, 10 σ-Algebra Produkt-, 23 Faltung, 26 Fehler 1. Art, 40 Fisher-Information, 63 absolut stetig, 13 Algebra, 10 Hermite-Polynome, 60 gleichmäßig bester Test, 41 gleichmäßige Verteilung, 13 Gleichverteilung, 7 Indikatorfunktion, 5 Irrtumsniveau, 40 Bayesformel, 17 bedingte Wahrscheinlichkeit, 16 Bernoulli-Schema, 7 Bernstein-Polynom, 44 Berry-Esséen Satz von, 60 Bias, 61 Bias-Varianz-Zerlegung, 34, 61 Binomialverteilung, 7 Bonferroni-Ungleichung, 4 Borel-σ-Algebra, 10 Borel-Cantelli Lemma von, 18 Kontingenztafel, 16 Konvergenz fast sicher, 45 in Verteilung, 50 schwache, 50 stochastische, 45 Korrelation, 36 Kovarianz, 36 Laplaceverteilung, 7 Lebesgue-Stieltjes-Maß, 11 Lebesguemaß, 11, 12 Likelihood-Funktion, 65 Likelihood-Quotient, 41 Likelihood-Quotienten-Test, 66 Caratheodory Satz von, 11 charakteristische Funktion, 55 chi2 -Test, 67 Maß, 10 Produkt-, 23 Maß-Integral, 27 Markov-Ungleichung, 43 Maximum-Likelihood-Schätzer, 65 mittlerer quadratischer Fehler, 60 Moment, 34 MSE, 60 Multinomialverteilung, 8 Multiplikationsformel, 18 Dichte Lebesgue-, 13 Wahrscheinlichkeits-, 13 Zähl-, 6 Dichtequotient, 41 Dichtetransformation, 15 diskret verteilt, 6 Edgeworth-Entwicklung, 60 Entscheidungsregel, 40 Ereignis, 3 asymptotisch, 24 unabhängig, 18 erwartungstreu, 61 Erwartungswert, 29 Exponentialverteilung, 13 Neyman-Pearson-Test, 41 Normalverteilung, 13 d-dimensional, 37 Parameter, 40 abgeleiteter, 60 Parametermenge, 40 68 Stochastik 1 Index Pfadregel, 18 Poissonscher Grenzwertsatz, 8 Poissonverteilung, 8 Prämaß, 10 Produktdichte, 14 Produktmaß, 23, 24 Subadditivität, 4 Taxiproblem, 62, 64 Teststatistik, 40 totalen Wahrscheinlichkeit, 17 UMP, 41 unbiased, 61 unkorreliert, 36 Randdichte, 21 randomisierter Test, 40 Realisierung, 60 Risikofunktion, 60 Varianz, 34 Verteilung, 5 Verteilungsfunktion, 11 Verzerrung, 61 Vitali Satz von, 9 Schätzer, 60 effizienter, 63 konsistenter, 61 Maximum-Likelihood, 65 Schätzung, 60 schwach differenzierbar, 13 schwache Konvergenz, 50 Standardabweichung, 34 standardisierte Summe, 50 Statistik Test-, 40 statistisches Modell, 40 Stichprobenraum, 40 stochastische Konvergenz, 45 straff, 54 Streuung, 34 Wahrscheinlichkeitsmaß, 3 Wahrscheinlichkeitsraum, 4 diskreter, 6 Produkt-, 23 Zähldichte, 6 Zentraler Grenzwertsatz, 53, 58 Zufallsvariable, 5 einfach, 29 unabhängig, 20 Zufallsvektor, 5 69 Stochastik 1 Literatur Literatur [1] Heinz Bauer. Wahrscheinlichkeitstheorie. De Gruyter, 1991. [2] Kai Lai Chung. A Course in Probability Theory. Academic Press, 1994. [3] Hans-Otto Georgii. Stochastik. De Gruyter, 2007. [4] Achim Klenke. Wahrscheinlichkeitstheorie. Springer, 2006. [5] Max Koecher. Lineare Algebra und analytische Geometrie. Springer, 1997. [6] Ulrich Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, 2005. 70