Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin ii Inhaltsverzeichnis 1 Grundbegriffe 1 Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . 2 Diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Transformation von Wahrscheinlichkeitsräumen . . . . . . . . . . . 4 Zufallsvariable, Erwartungswert . . . . . . . . . . . . . . . . . . . . 5 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . 7 Schwaches und starkes Gesetz der großen Zahlen . . . . . . . . . . 8 Vergleich von Konvergenzbegriffen, gleichmäßige Integrierbarkeit . 9 Verteilung einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . 10 Schwache Konvergenz von Wahrscheinlichkeitsmaßen . . . . . . . . 11 Dynkin-Systeme, Eindeutigkeitssatz, Sätze über monotone Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 5 6 9 9 11 12 13 15 16 2 Unhabhängigkeit 1 Unabhängige Ereignisse . . . . . 2 Unabhängige Zufallsvariablen . . 3 Starkes Gesetz der großen Zahlen 4 Gemeinsame Verteilung, Faltung 4.1 Fouriertransformation . . 5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 20 20 21 23 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapitel 1 Grundbegriffe 1 Wahrscheinlichkeitsräume a) Was kann alles passieren? b) Mit welchen Wahrscheinlichkeiten treten diese oder jene Ereignisse auf? a) → Menge Ω 6= ∅ der möglichen Ereignisse Beispiel 1.1. a) Ein Münzwurf: Ω = {0, 1}. b) n Münzwürfe: Ω = {(X1 , . . . , Xn ) : Xi ∈ {0, 1}}. c) unendlich viele Münzwürfe: Ω = (Xi )i∈N : Xi ∈ {0, 1} . d) Zufallszahl zwischen 0 und 1: Ω = [0, 1]. e) Stetige stochastische Prozesse, z.B. Brownsche Bewegung auf R: Ω = C ([0, 1]) oder Ω = C ( [0, ∞) ). Ereignis A ⊂ Ω: A tritt ein“, falls auftretendes ω in A liegt. ” Elementares Ereignis: A = {ω}, ω ∈ Ω, unmögliches Ereignis: A = ∅, sicheres Ereignis: A = Ω, A tritt nicht ein“: Ac . ” Kombination von Ereignissen S A1 ∪ A2 , i Ai mindestens eins der Ai tritt ein“, T ” A1 ∩ A2 , i Ai jedes der Ai tritt ein“, T S ” A unendlich viele der Ai treten ein“, ” Sn Tm≥n m A bis auf endlich viele treten alle Ai auf“, m n m≥n ” T S S T lim sup An = n m≥n Am , lim inf An = n m≥n Am . Beispiel 1.2. zu a) ” 1 tritt ein“: A = {1}. zu b) Genau k Einsen treten auf: A = {(X1 , . . . , Xn ) ∈ Ω : 1 Pn i=1 Xi = k}. 2 KAPITEL 1. GRUNDBEGRIFFE Pn zu c) Relative Häufigkeit von 1 ist p: A = (X1 , . . . , Xn ) ∈ Ω : lim n1 i=1 Xi = p . zu d) Zahl zwischen a und b: A = [a, b]. zu e) Niveau c wird überschritten (bis zur Zeit 1): A = {ω ∈ C ([0, 1]) : max0≤t≤1 ω (t) ≥ c}. Kollektion A der im Modell zugelassenen Ereignisse soll abgeschlossen sein unter abzählbaren Mengenoperationen. Definition 1.3. A ⊆ P (Ω) heißt σ-Algebra, falls 1. Ω ∈ A, 2. A ∈ A impliziert Ac ∈ A, 3. A1 , A2 , . . . ∈ A impliziert Bemerkung 1.4. S∞ n=1 An ∈ A. 1. Sei A eine σ-Algebra. Dann gilt: • ∅ ∈ A, • A1 , A2 , . . . ∈ A impliziert T∞ n=1 S∞ c An = ( n=1 An ) ∈ A. 2. P (Ω) ist eine σ-Algebra. 3. Seien Ai σ-Algebren, i ∈ I, dann ist T i∈I Ai wieder eine σ-Algebra. 4. Typische Konstruktion einer σ-Algebra A: Sei A0 Klasse von Ereignissen, die jedenfalls dazugehören sollen. Definiere: \ A= B B σ-Algebra A0 ⊂B = die kleinste σ-Algebra, die A0 enthält =: σ (A0 ) , σ (A0 ) heißt die von A0 erzeugt σ-Algebra. Beispiel 1.5. Sei Ω ein topologischer Raum und A0 die Familie der offenen Teilmengen auf Ω. B (Ω) = σ (A0 ) heißt Borelsche σ-Algebra auf Ω oder σ-Algebra der Borelschen Teilmengen von Ω. B (Ω) enthält im Allgemeinen nicht alle Mengen. Definition 1.6. Sei Ω 6= ∅ und A eine σ-Algebra auf Ω. Eine Abbildung P : A → [0, ∞] heißt Maß auf S∞ P∞ (Ω, A), falls P (∅) = 0 und P ( i=1 Ai ) = i=1 P (Ai ) für A1 , A2 , . . . ∈ A, die paarweise disjunkt sind (σ-Additivität). P heißt Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß, falls P (Ω) = 1, (Ω, A, P) heißt dann Wahrscheinlichkeitsraum. (Axiome von Kolmogorov) Beispiel 1.7. zu a) Ω = {0, 1}, A = {∅, {0} , {1} , {0, 1}} = P (Ω), faire Münze: P (0) = P (1) = 21 . zu c) X̄1 , . . . , X̄n ∈ {0, 1}, P (Xi )i ∈ Ω : X1 = X̄1 , X2 = X̄2 , . . . , Xn = X̄n = 2−n . A0 = {B ⊂ Ω : B hängt nur von endlich vielen Würfen ab} n = {A × {0, 1} × {0, 1} × . . . : A ⊂ P ({0, 1} ) , n = 1, 2, . . .} . P ist fortsetzbar auf σ (A0 ). 2. DISKRETE MODELLE 3 √1 2πt zu e) A = B (R), P ({ω ∈ C ([ 0, ∞) ) : ω (t) ∈ [a, b]}) = Rb a e− x2 2 dx. Einfache Rechenregeln 1.8. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und seien A1 , . . . , An paarSn Pn weise disjunkt. Dann gilt: P ( i=1 Ai ) = i=1 P (Ai ). Insbesondere gilt: P (Ac ) = 1 − P (A). Sind A, B ∈ A mit A ⊂ B, so folgt: P (B) = P (A) + P (B\A). A, B ∈ A impliziert P (A ∪ B) = P (A) + P (B\A ∩ B) = P (A) +P (B) − P(A ∩ B). P S T |J|+1 Mit vollständiger Induktion: P i∈I Ai = ∅6=J⊂I (−1) P j∈J Aj mit J endliche Menge. T Pn S k+1 P k Für I = {1, . . . , n} gilt: P i∈I Ai = k=1 (−1) 1≤i1 ≤...≤ik ≤n P j=1 Aij . Satz 1.9. Sei A eine σ-Algebra auf Ω und P : A → R eine Abbildung mit P (Ω) = 1. Dann sind die folgenden Aussagen äquivalent: 1) P ist eine Wahrscheinlichkeitsverteilung. 2) P ist additiv (d.h. A∩B = ∅ impliziert P (A ∪ B) = P (A)+P (B)) und isoton stetig, d.h. An ∈ A, An % A impliziert P (An ) → P (A). 3) P ist additiv und antiton stetig. Korollar 1.10. Seien A1 , A2 , . . . ∈ A. Dann gilt: P ( S i Ai ) ≤ P∞ n=1 P (An ). Lemma 1.11. [Borel-Cantelli] Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und seien A1 , A2 , . . . ∈ A P∞ mit i=1 P (Ai ) < ∞. Dann gilt: P lim sup An = 0. n Beispiel 1.12. 1. Ω = [0, 1], A Borelsche σ-Algebra = σ ({[a, b] : 0 ≤ a ≤ b ≤ 1}), P = Lebesgue Maß[0,1] , P ([a, b]) = b − a (Existenz und Eindeutigkeit vorausgesetzt) Gleichverteilung auf [a, b]. 2. Ω 6= ∅, ω ∈ Ω, δω (A) = εω (A) = 3. Ω 6= ∅, I abzählbar, αi ∈ R, 2 P∞ ( 1, ω∈A 0, ω∈ /A i=1 = 1A (ω) Dirac Maß. αi = 1, ωi ∈ Ω, P = P αi δωi . Diskrete Modelle Sei Ω 6= ∅ eine (höchstens) abzählbare Menge und A = P (Ω). P P Satz 2.1. Sei p : Ω → [0, 1], ω∈Ω p (ω) = 1 (p Gewichtung der Fälle). P (A) := ω∈A p (ω), A ⊂ Ω definiert ein Wahrscheinlichkeitsmaß auf Ω. Jedes Maß auf Ω ist von dieser Form. Beispiel 2.2. 1. 0 < |Ω| < ∞, p (ω) = const. = 1 |Ω| . Laplace Modell: Für A ⊂ Ω dann P (A) = |A| |Ω| . P ist Gleichverteilung auf Ω. Zufällige Permutationen: M = {1, . . . , n}, Ω Menge aller Permutationen von M , d.h. aller Bijektionen ω : M → M . 4 KAPITEL 1. GRUNDBEGRIFFE Dann |Ω| = n!. P sei Gleichverteilung auf Ω. Frage z.B.: P ( mindestens ein Fixpunkt“), Ai = {ω : ω (i) = i} ” ! n [ P ( mindestens ein Fixpunkt“) =P Ai ” i=1 = n X (−1) P n [ (n−k)! n! , ! Ai = i=1 n X gegeben k+1 (−1) P ( genau k Fixpunkte“) = ” Pn k=0 Summanden, gilt: n X n (n − k)! k 1 =− . (−1) n! k! k k=1 k=1 Es folgt: P ( kein Fixpunkt“) = ” n k P (Ai1 ∩ . . . ∩ Aik ) . 1≤i1 ≤...≤n k=1 Mit P (Ai1 ∩ Ai2 . . . ∩ An ) = X k+1 k 1 k! (−1) 1 n! |{z} · → e−1 . n k | {z } · (n − k)! · mögliche Fälle Fixpunkte werden festgelegt n−k X j (−1) j=0 | {z 1 j! } obige Forml für n−k n−k 1 1 X j (−1) j!−1 → e−1 . = k! j=0 k! Poisson-Verteilung mit Parameter λ = 1. 2. n Experimente mit Zustandsraum S: n 0 < |S| < ∞, Ω = {(X1 , . . . , Xn ) : Xi ∈ S}, |Ω| = |S| , S0 ⊂ S Erfolg, falls S0 auftritt. 0| p := |S |S| , Ak := genau k Erfolge, |Ak | |Ω| k n−k n |S0 | |S\S0 | = k n |S| n k n−k = p (1 − p) . k p (Ak ) = Binomialverteilung mit Parametern n, p. 1 Für p = nλ konvergiert die Binomialverteilung für festes k gegen die Poisson-Verteilung λk e−k · k! . 3. Meinungsumfragen, ... N Kugeln, K rote, N − K schwarze, Stichprobe von n Kugeln (ohne Zurücklegen), davon k rote Modell: •) Ω Gesamtheit aller Teilmengen von {1, . . . , N } mit genau n Elementen, d.h. Ω = {ω ∈ P ({1, . . . , N }) : |ω| = n} , |Ω| = N n . 3. TRANSFORMATION VON WAHRSCHEINLICHKEITSRÄUMEN •) P Gleichverteilung auf Ω, Ak := genau k rote ⇒ P (Ak ) = |Ak | |Ω| = 5 −K (Kk )(Nn−k ) hypergeometrische Verteilung N (n) Für K konvergiert die hypergeometrische Verteilung für N → ∞ gegen die BinomialN =: p fest n−k verteilung nk pk (1 − p) . 3 Transformation von Wahrscheinlichkeitsräumen (Ω, A), Ω̃, à seien messbare Räume (jeweils Menge mit σ-Algebra). Definition 3.1. Eine Abbildung T : Ω → Ω̃ heißt messbar (A − Ã-messbar), falls n o T −1 à ∈ A =: T ∈ à für alle à ∈ Ã. Bemerkung 3.2. 0. Wenn A = P (Ω), dann ist T messbar für alle Ã. 1. Sei à = σ Ã0 mit Ã0 ⊂ P (Ω). T : Ω → Ω̃ ist messbar genau dann, wenn T −1 à ∈ A für alle à ∈ Ã0 . Definition 3.3. Seien Ω, Ω̃ Mengen, à eine σ-Algebra auf Ω̃ und T : Ω → Ω̃ gegeben. Dann heißt n o σ (T ) := T −1 à : à ∈ à die von T erzeugte σ-Algebra (es ist eine!). Satz 3.4. Sei P eine Wahrscheinlichkeitsverteilung auf (Ω, A), Ω̃, à ein messbarer Raum und h i T : Ω → Ω̃ messbar. Dann ist durch P̃ à := P T −1 à = P T ∈ à , à ∈ à eine Wahrschein lichkeitsverteilung auf Ω̃, à definiert, genannt das Bildmaß von P unter der Abbildung T , oder Verteilung von T unter P. Schreibweise: T (P), PT . Bemerkung 3.5. 1. Nimmt T nur abzählbar viele Werte ω̃1 , ω̃n , . . . an, so ist P̃ = T (P) = P P [T = ω̃ ] δ i ω̃i . i 2. Satz 3.4 löst manche Existenzprobleme: Beispiel 3.6. Existenz des Lebesgue-Maßes auf [0, 1] vorausgesetzt, existiert exaktes Modell für unendlich viele faire Münzwürfe: Ω = [0, 1], A = B ([0, 1]), P = Lebesgue-Maß[0,1] , Ω̃ = n o X̃1 , X̃2 , . . . : X̃i ∈ {0, 1} , Xi : Ω̃ → {0, 1} , Projektion auf i-te Koordinate, à := σ ({{Xi = 1} : i = 1, 2, . . .}) . Xi X̃n n∈N := X̃i . 6 KAPITEL 1. GRUNDBEGRIFFE Die binäre Darstellung von ω ∈ [0, 1] liefert Abbildung T : Ω → Ω̃, ω 7→ (T1 ω1 , T2 ω2 , . . .) , Xi ◦ T = Ti . Bei Zahlen, deren Darstellung nicht eindeutig ist, z.B. 0, 5, allgemein 2−i , wählen wir die unendliche Reihe, d.h. X 0, 5 = 2−i . i≥2 −1 T ist messbar: T ({Xi = 1}) = {Ti = 1} ist Vereinigung von 2i Intervallen. Sei P̃ das Bild von P unter T . Dann für x1 , . . . , xn ∈ {0, 1}: P̃ [X1 = x1 , . . . , Xn = xn ] =P [T1 = x1 , . . . , Tn = xn ] =P T −1 (X1 = x1 , . . . , Xn = xn ) =P T −1 X1−1 (x1 ) , . . . , Xn−1 (xn ) h i −1 −1 =P (X1 ◦ T ) ({x1 }) , . . . , (Xn ◦ T ) ({xn }) =P Intervall der Länge 2−n =2−n , da T1 = x1 , . . . , Tn = xn Intervall der Länge 2−n . 4 Zufallsvariable, Erwartungswert Sei (Ω, A, P) Wahrscheinlichkeitsraum. Definition 4.1. X : Ω → R (oder R) heißt Zufallsvariable, falls X messbar ist, d.h. X −1 (B) ∈ A für alle Borelschen B ⊂ R. Bemerkung 4.2. 1. X : Ω → R ist eine Zufallsvariable genau dann, wenn {X ≤ c} ∈ A für alle c ∈ R, da σ ({[ −∞, c ) : c ∈ R}) = B (R). 2. Wenn A = P (Ω), dann ist jedes X : Ω → R eine Zufallsvariable. 3. X sei eine Zufallsvariable und h : R → R messbar. Dann ist h ◦ X = h (X) eine Zufallsvariable. p Insbesondere ist |X|, X 2 , |X| und eX eine Zufallsvariable. 4. Die Menge der Zufallsvariablen ist abgeschlossen unter abzählbaren Operationen. D.h. für ZuP fallsvariablen X1 , X2 , . . . ist auch αi Xi Zufallsvariable (soweit sinnvoll) oder sup Xi , inf Xi , lim inf Xi , lim sup Xi . Wichtige Spezialfälle 4.3. 1) Indikator (charakteristische) Funktion von A ∈ A: 1A für c < 0 ∅, {1A ≤ c} = Ac , Ω, für 0 ≤ c ≤ 1 ∈ A. 1≤c Pn 2) Elementare Zufallsvariable: X = i=1 αi 1Ai , αi ∈ R. P Sei X eine Zufallsvariable mit X (Ω) endlich. Dann gilt X = α∈X(Ω) α1{X=α} . 4. ZUFALLSVARIABLE, ERWARTUNGSWERT Satz 4.4. 7 1. Jede Zufallsvariable ist von der Form X = X + − X − mit X + = max (X, 0) , X − = max (−X, 0) = − min (X, 0) . Insbesondere sind X + , X − Zufallsvariablen. 2. Zu jeder Zufallsvariable X ≥ 0 existiert eine isotone Folge (Xn ) von positiven Zufallsvariablen mit sup Xn = X. Pn Definition 4.5. [Normaldarstellung einer elementaren Zufallsvariablen]Sei X ≥ 0, X = i=1 αi 1Ai S mit αi ∈ R, Ai ∈ A, Ai ∩ Aj = ∅ für alle i 6= j und Ai = Ω. Diese Darstellung ist nicht eindeutig, P jede elementare Zufallsvariable besitzt eine solche Darstellung, z.B. X = α∈X(Ω) α1{X=α} . Pm Pn Lemma 4.6. Sei X = i=1 αi 1Ai = j=1 βj 1Bj eine Normaldarstellung für eine elementare ZuPm Pn fallsvariable ≥ 0. Dann gilt: i=1 αi P (Ai ) = j=1 βj P (Bj ). P Definition 4.7. Ist αi 1Ai Normaldarstellung für elementare Zufallsvariable X ≥ 0, so definieren wir Z n X E (X) := XdP := αi P (Ai ) . i=1 Dies ist unabhängig von der Darstellung. Eigenschaften 4.8. 0) E (1A ) = P (A). 1) E (αX) = αE (X), α ∈ R+ . 2) E (X + Y ) = E (X) + E (Y ). 3) Aus X ≤ Y folgt E (X) ≤ E (Y ). P Pn + 4) E (X) = [X = α]. Für X = α∈X(Ω) α · PP i=1 αi 1Ai , αi ∈ R , Ai ∈ A nicht notwendig Partition folgt: E (X) = αi P (Ai ). Lemma 4.9. Seien Xn , X ≥ 0 elementare Zufallsvariablen, Xn ≤ Xn+1 und X ≤ sup Xn . Dann gilt: E (X) ≤ sup E (Xn ). Korollar 4.10. Seien Xn , Yn elementare Zufallsvariablen ≥ 0, Xn ≤ Xn+1 , Yn ≤ Yn+1 und sup Xn = sup Yn . Dann gilt: sup E (Xn ) = sup E (Yn ). Definition 4.11. Sei X ≥ 0 eine Zufallsvariable auf Ω und Xn ≥ 0 elementare Zufallsvariablen mit Xn % X. Dann heißt E (X) = sup E (Xn ) Erwartungswert von X, unabhängig von der Folge (Xn )n wegen 4.10. Eigenschaften 4.12. 0) X = 0 P-f.s. (d.h. P [X = 0] = 1) impliziert E (X) = 0. 1) E (αX) = αE (X), α ∈ R+ . 2) E (X + Y ) = E (X) + E (Y ). 3) X ≤ Y impliziert E (X) ≤ E (Y ). 4) Ist X (Ω) abzählbar, so ist E (X) = P α∈X(Ω) αP [X = α]. 8 KAPITEL 1. GRUNDBEGRIFFE Beispiel 4.13. Fairer Münzwurf T (ω) := min {k : ω (k) = 1}, Zeitpunkt des ersten Auftretens von 1“. T ({0, 0, 0, . . .}) = ∞. ” P [T = k] = P [X1 = 0, X2 = 0, . . . , Xk−1 = 0, Xk = 1] = 2−k . Aus P [T = ∞] ≤ 2−k für alle k ∈ N folgt P [T = ∞] = 0. Also, da X (Ω) abzählbar: E (T ) = ∞ X k=1 kP [T = k] = n X k2−k = 2. k=1 Satz 4.14. [von der monotonen Konvergenz] Seien Xn ≥ 0 Zufallsvariablen und Xn % X. Dann gilt: E (Xn ) % E (X). P∞ P∞ Korollar 4.15. Seien Xn Zufallsvariablen und Xn ≥ 0. Dann gilt: E ( n=1 Xn ) = n=1 E (Xn ). Definition 4.16. Für eine Zufallsvariable X auf Ω definieren wir den Erwartungswert durch E (X) := E X + − E X − , falls min (E (X + ) , E (X − )) < ∞. Es sei L1 (Ω, A, P) = L1 = {X : X reelle Zufallsvariable auf Ω mit E (|X|) < ∞} . Für alle X ∈ L1 : kXk1 = E (|X|). X heißt integrierbar, falls E (|X|) < ∞. Satz 4.17. L1 (Ω, A, P) ist ein Vektorraum, k·k1 ist eine Halbnorm. Lemma 4.18. [Lemma von Fatou] Seien Xn Zufallsvariablen ≥ 0. Dann gilt: E (lim inf Xn ) ≤ lim inf E (Xn ) , es reicht auch Xn ≥ Y ∈ L1 . Bemerkung 4.19. E (lim inf Xn ) < lim inf E (Xn ) ist möglich, auch wenn Limiten existieren: z.B. auf [0, 1] mit Gleichverteilung R1 E (Xn ) = 0 Xn dλ = 1 ∀n, Xn → 0 und E (lim Xn ) = 0, lim E (Xn ) = 1. 2n Xn 1 n Oder: Fairer Münzwurf: Einsatz verdoppeln, bis 1 auftritt. Einsatz in der n-ten Runde: Xn = 2n−1 1{T >n−1} mit T Wartezeit auf die erste 1. 1 = 1, Wir berechnen E (Xn ) = 2n−1 P [T > n − 1] = 2n−1 2n−1 Xn → 0 P-fast sicher. Es folgt E (lim Xn ) = 0. Xn (ω) → 0 für alle ω 6= (0, . . .), also Satz 4.20. [Konvergenzsatz von Lebesgue] Seien Xn Zufallsvariablen mit |Xn | ≤ Y ∈ L1 P-fast sicher und Xn → X (punktweise). Dann gilt E (Xn ) → E (X) und kXn − Xk1 → 0, d.h. E (|Xn − X|) = 0. 5. UNGLEICHUNGEN 5 9 Ungleichungen Satz 5.1. [Jensen’sche Ungleichung] Sei h eine reelle konvexe Funktion auf einem Intervall I, X ∈ L1 mit X (Ω) ⊂ I. Dann gilt: h (E (X)) ≤ E (h (X)) , insbesondere ist E (X) ⊂ I. q 2 Beispiel 5.2. Mit h (t) = t2 folgt (E (X)) ≤ E X 2 . Allgemeiner: Sei 0 < p < q und h (t) = t p . p 1 q 1 q p Dann gilt für alle Zufallsvariablen X: E (|X| ) p ≤ (E (|X| )) q , p p q > 1, I = R+ und für alle n ∈ N: q (E (min {|X| , n})) ≤ E ((min {|X| , n}) ) . q Definition 5.3. Wir definieren Lq := {X : X reelle Zufallsvariable, E (|X| ) < ∞} , und für alle q 1 X ∈ Lq kXkq := E (|X| ) q . Bemerkung 5.4. 1. Für 0 < p < q folgt Lp ⊃ Lq und für alle X ∈ Lq gilt: kXkp ≤ kXkq . p 2. Für alle p ≥ 1 ist L ∼ ein Banachraum, z.B. folgt aus X, Y ∈ Lp auch X + Y ∈ Lp und p p p |X + Y | ≤ 2p (|X| + |Y | ) . Satz 5.5. Sei X eine Zufallsvariable und h eine isotone Funktion auf R (es reicht isoton auf X (Ω), dann aber isoton auf R fortsetzbar). Dann gilt für alle c ∈ X (Ω) h (c) · P [X ≥ c] ≤ E (h (X)) . für alle c > 0. Insbesondere: Es gilt E (|X|) = 0 Spezialfälle 5.6. 1. Es gilt P [|X| ≥ c] ≤ E(|X|) c genau dann, wenn X = 0 P-fast sicher. Weiter folgt aus E (|X|) < ∞ auch |X| < ∞ P-fast sicher. 2. Tschebyscheff ’sche Ungleichung: Sei X eine integrierbare Zufallsvariable und c > 0. Dann gilt: P [|X − E (X)| ≥ c] ≤ 6 2 E (X − E (X)) c2 = var (X) . c2 Varianz und Kovarianz Erinnerung: E (X) Mittelwert“ von X. ” Definition 6.1.Für eine Zufallsvariable X ∈ L1 wird der mittlere quadratische Prognosefehler“ ” 2 E (X − E (X)) als Varianz von X bezeichnet, h i 2 var (X) := E (X − E (X)) . σ (X) := p 2 var (X) heißt Streuung von X. Es gilt: var (X) = E X 2 − E (X) . Bemerkung 6.2. Folgende Aussagen sind äquivalent: 1) var (X) = 0, 2) X = E (X) P-fast sicher, 3) X P-fast sicher konstant. 10 KAPITEL 1. GRUNDBEGRIFFE Es ist var (X) < ∞ genau dann, wenn X ∈ L2 . n Beispiel 6.3. n-facher Münzwurf mit Parameter p: p ∈ [0, 1], Ω = {0, 1} , A = P (Ω), Xi (ω) = ωi , Pn n−Sn (ω) Sn = i=1 Xi (Häufigkeit für das Auftreten von 1). αω := pSn (ω) (1 − p) für ω ∈ Ω. P Pp := αω δω ist ein Wahrscheinlichkeitsmaß, da: n X X n k n−k αω = p (1 − p) k α∈Ω k=0 n = (p + 1 − p) = 1. Weiter gilt: P [Xi = 1] = p. Also: Ep (Sn ) = n X (?) kPp [Sn = k] k=0 n X n k n−k = k p (1 − p) k k=0 n X n − 1 k−1 n−1−(k−1) = np p (1 − p) k−1 k=1 n−1 X n − 1 n−1−k =np pk (1 − p) k k=0 =np. Mit (?) folgt E (Sn ) = bestimmen wir: Pn i=1 2 E (Xi ) = np. Wir wollen var (Sn ) = E Sn2 − E (Sn ) berechnen. Dazu n X Ep Sn2 = k 2 P [Sn = k] k=0 n X n k n−k p (1 − p) k k=0 n n X X n k n k n−k n−k p (1 − p) + k p (1 − p) = k (k − 1) k k = k2 k=0 k=0 =n (n − 1) p2 + np. Wir erhalten var (Sn ) = np (1 − p). Satz 6.4. [Cauchy-Schwarz] Seien X, Y ∈ L2 . Dann ist X · Y ∈ L1 und es gilt: p |E (X · Y )| ≤ E (X 2 ) · E (Y 2 ). Definition 6.5. Für X, Y ∈ L2 heißt E ((X − EX) (Y − EY )) =: cov (X, Y ) die Kovarianz von X und Y . ρ (X, Y ) := cov (X, Y ) σ (X) · σ (Y ) 7. SCHWACHES UND STARKES GESETZ DER GROSSEN ZAHLEN 11 heißt Korellationskoeffizient (falls σ (X) , σ (Y ) > 0). X, Y heißen unkorelliert, falls cov (X, Y ) = 0. Es gilt: cov (X, Y ) = E (X · Y ) − E (X) · E (Y ) . Rechenregeln 6.6. 1) var (aX + b) = a2 var (X) für alle a, b ∈ R. 2) var (X + Y ) = var (X) + var (Y ) + 2cov (X, Y ). 3) |cov (X, Y )| ≤ σ (X) · σ (Y ) nach Satz 6.4. 4) |ρ (X, Y )| ≤ 1. 7 Schwaches und starkes Gesetz der großen Zahlen Es seien X1 , X2 , . . . ∈ L2 (Ω, A, P). Annahmen: 1) Unkorelliertheit: cov (Xi , Xj ) = 0 für alle i 6= j. Pn 2) Konvergierende Varianzen: limn→∞ n12 i=1 var(Xi ) = 0. Sn := X1 + . . . + Xn Ziel: Zufall mittelt sich aus: Snn(ω) ∼ E(Snn ) . 2 E(Sn ) Sn Satz 7.1. Es gilt: E → 0. n − n Bemerkung 7.2. Rein funktionalanalytisch: Im Hilbertraum konvergiert das Mittel von orthogonalen Pn normbeschränkten Vektoren gegen 0: Seien X1 , X2 , . . . ∈ H, hXi , Xj i = 0. Dann folgt: n1 i=1 Xi → 0. 2 Hier H = L ∼, hX, Y i = E (X · Y ). Satz 7.3. [Schwaches Gesetz der großen Zahlen] Sei E (Xi ) = m für alle i = 1, . . .. Dann gilt für alle ε > 0: Sn lim P − m ≥ ε = 0 n→∞ n (stochastische Konvergenz gegen m). Beispiel 7.4. 0 − 1 Experimente mit Parameter p ∈ [0, 1]: Sei Xi (ω) = ωi , also E (Xi ) = pi und var (Xi ) = pi (1 − pi ) ≤ 41 . Für pi = p gilt dann: Sn P − p ≥ ε → 0. n Von stochastischer zu fast sicherer Konvergenz: Lemma 7.5. Seien Z1 , Z2 , . . . Zufallsvariablen auf (Ω, A, P) und es gelte für alle ε > 0: ∞ X n=1 Dann gilt lim Zn = 0 P-fast sicher. P [|Zn | ≥ ε] < ∞. 12 KAPITEL 1. GRUNDBEGRIFFE Satz 7.6. [Starkes Gesetz der großen Zahlen] Seien X1 , X2 , . . . ∈ L2 unkorelliert mit supi∈N var (Xi ) < ∞. Dann gilt: Sn E (Sn ) − → 0 P − fast sicher. n n Beispiel 7.7. Münzwurf mit Parameter 21 . Yi = 2Xi − 1, E (Yi ) = 0, Sn := Y1 + . . . + Yn führt zu einem random walk auf Z. Nach Satz 7.6 gilt Snn → 0 P-fast sicher, d.h. die Fluktuation wächst langsamer als linear. Präzisierung: Satz vom iterierten Logarithmus: Sn =+1 n log log n Sn =−1 lim inf √ n log log n lim sup √ 8 P − fast sicher, P − fast sicher. Vergleich von Konvergenzbegriffen, gleichmäßige Integrierbarkeit Definition 8.1. Seien X1 , X2 , . . . Zufallsvariablen auf (Ω, A, P). p 1) Lp -Konvergenz (p ≥ 1): E (|Xn − X| ) → 0. 2) Stochastische Konvergenz für alle ε > 0: P [|Xn − X| ≥ ε] → 0. 3) P-fast sichere Konvergenz: Xn → X P-fast sicher. Satz 8.2. 1) A9 +3 2) ]e falls sup |Xn | ∈ Lp 3) y für Teilfolgen Satz 8.3. Sei Xn ∈ L1 und X eine Zufallsvariable. Dann sind äquivalent: 1. Xn → X in L1 (Daraus folgt E (Xn ) → E (X).) 2. Xn → X stochastisch und (Xn )n ist gleichmäßig integrierbar. Korollar 8.4. Sei Xn ∈ L1 , Xn → X P-fast sicher und Xn gleichmäßig integrierbar. Dann gilt: E (Xn ) → E (X) . Definition 8.5. (Xi )i∈I ⊂ L1 heißt gleichmäßig integrierbar, falls limc→∞ supi∈I M = {|Xi | ≥ c}. R M |Xi | dP = 0 mit Satz 8.6. Seien (Xi )i∈I Zufallsvariablen auf (Ω, A, P). Dann sind äquivalent: 1. (Xi )i∈I ist gleichmäßig integrierbar. 2. supi E (|Xi |) < ∞ und für alle ε > 0 existiert ein δ > 0, so dass für alle i ∈ I und A ∈ A aus R P (A) < δ folgt, dass A |Xi | dP < ε. Bemerkung 8.7. 1) Wenn Y ∈ L1 und |Xi | ≤ Y für alle i ∈ I, dann ist (Xi )i∈I gleichmäßig integrierbar. Insbesondere ist jede integrierbare Zufallsvariable auch gleichmäßig integrierbar. 9. VERTEILUNG EINER ZUFALLSVARIABLEN 13 2) Seien (Xi )i∈I und (Yi )i∈I gleichmäßig integrierbar. Dann ist auch (αXi + βYi ) gleichmäßig integrierbar für alle α, β ∈ R. Nach 1) ist insbesondere jede endliche Teilmenge von L1 gleichmäßig integrierbar. Satz 8.8. Sei g : R+ → R+ mit limx→∞ (Xi )i∈I gleichmäßig integrierbar ist. Folgerung 8.9. ist. g(x) x = ∞. Dann folgt aus supi E (g (|Xi |)) < ∞, dass p 1. Aus p > 1 und sup E (|Xi | ) < ∞ folgt, dass (Xi )i∈I gleichmäßig integrierbar 2. Aus sup E |Xi | log+ |Xi | < ∞ folgt, dass (Xi )i∈I gleichmäßig integrierbar ist. Anwendung 8.10. [Anwendung vom Gesetz der großen Zahlen] Annahme: X1 , X2 , . . . ∈ L1 (Ω, A, P), Pn E (Xn ) = m für alle n, Sn = i=1 Xn , n1 Sn → m P-fast sicher. L1 Frage: Wann gilt n1 Sn → m? Antwort: Z.B. wenn sup E |Xi | log+ |Xi | < ∞, denn: g (t) = t log+ t, t ≥ 0 konvex und es folgt: Sn 1X E g ≤ E (g (Xi )) < ∞. n n Bemerkung 8.11. [Bemerkung zu Lebesgue] Sei Xn ∈ L1 (Ω, A, P), Xn → X P-fast sicher und L1 Xn ≥ 0. Dann gilt Xn → X genau dann, wenn E (Xn ) → E (X). R Satz 8.12. [Riesz-Fischer] Sei Xn ∈ L1 mit |Xn − Xm | dP → 0 für n, m → ∞ (d.h. (Xn )n ist L1 Cauchy in L1 ). Dann existiert ein X ∈ L1 mit Xn → X und Xnk → X P-fast sicher für eine 1 geeignete Teilfolge, d.h. insbesondere L1 ist vollständig, also L ∼ ist Banachraum. 9 Verteilung einer Zufallsvariablen Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Sei µ die Verteilung von X: µ (A) := P [X ∈ A], A ∈ B R . µ ist ein Wahrscheinlichkeitsmaß auf R, B R . Annahme: P [X ∈ R] = 1, d.h. µ (R) = 1. Definition 9.1. Die durch F (b) = µ (( −∞, b] ) = P [X ≤ b], b ∈ R auf R definierte Funktion heißt Verteilungsfunktion von X bzw. µ. Satz 9.2. 1. F ist isoton, rechtsseitig stetig und limx→−∞ F (x) = 0, sowie limx→+∞ F (x) = 1. 2. Zu jedem solchen F existiert genau ein Wahrscheinlichkeitsmaß µ auf (R, B (R)) mit F (b) = µ (( −∞, b] ). Bemerkung: Sei Y eine Zufallsvariable auf Ω mit Gleichverteilung auf (0, 1), z.B. (Ω, A, P) = ((0, 1) , B, λ), Y (x) = x. Dann hat Y (x) die Verteilung µ. Bemerkung 9.3. Für alle x ∈ R ist Sprunghöhe von F in x =F (x) − F (−x) 1 = lim µ x − ,x n→∞ n =µ (x) . 14 KAPITEL 1. GRUNDBEGRIFFE Insbesondere ist F genau dann stetig, wenn µ ({x}) = 0. µ heißt dann stetig. Wenn µ σ-additiv ist, dann existiert eine höchstens abzählbare Menge S ⊂ R mit µ ({x}) = 0 für alle x ∈ S c , da es höchstens n Punkte geben kann mit µ ({xi }) > n1 . Definition 9.4. F bzw. µ heißt diskret, falls es eine abzählbare Menge S ⊂ R gibt mit µ (S) = 1. P P P Dann ist µ = x∈S µ ({x}) δx , F (b) = x≤b µ ({x}). µ ({x}) ist beliebig wählbar mit µ ({x}) = 1. P P P Beispiel 9.5. S = Q, αx ∈ (0, 1) mit x∈Q αx = 1, µ = x∈Q αx δx , F (b) = x≤b αx , F streng isoton. Definition 9.6. µ bzw. F heißt absolut stetig, falls es eine Dichtefunktion f ≥ 0 gibt mit F (b) = R∞ Rb R R f (t) dt, bzw. µ (A) = A f (t) dt = R (1A f ) (t) dt. Insbesondere: −∞ f (t) dt = 1. −∞ R∞ Bemerkung 9.7. Jedes f ≥ 0 mit −∞ f (t) dt = 1 definiert ein Wahrscheinlichkeitsmaß µ auf R R Rb durch µ (A) := A f (t) dt. Zugehöriges F : F (b) = −∞ f (t) dt. Beispiel 9.8. 1. Gleichverteilung auf [a, b] F 1 1 (b−a) a f b a b 2. Exponentialverteilung: ( f (x) = ( F (x) = α αe−αx , α≥0 0, sonst 1 − e−αx , x≥0 0, sonst. 1 F f 3. Normalverteilung: N m, σ 2 , m ∈ R, σ 2 > 0, fm,σ2 (x) = Rx R x−m t2 1 σ 2 (t) dt = √ e− 2 dt = F0,1 x−m f . m,σ σ −∞ 2π −∞ √ 1 e− 2πσ (x−m)2 2σ 2 und Fm,σ2 (x) = Berechnung von E (X) bzw. allgemeiner E (h (X)) mit Hilfe der Verteilung µ von X: R Satz 9.9. Sei h ≥ 0 messbar auf R. Dann gilt: E (h (X)) = R h (x) µ (dx). R∞ Bemerkung: Es gilt: E (h (X)) = −∞ h (x) · f (x) dx, falls µ absolut stetig mit Dichte f ist. Weiter P gilt: E (h (X)) = S h (x) µ ({x}), falls µ diskret mit µ (S) = 1. 10. SCHWACHE KONVERGENZ VON WAHRSCHEINLICHKEITSMASSEN m-Σ 15 m+Σ R∞ R∞ Sei nun X N m, σ 2 verteilt: E (X) = −∞ x · fm,σ2 (x) dx = m + −∞ (x − m) f (x) dx, wegen Symmetrie. p-tes zentrales Element: Z ∞ p p |x − m| fm,σ2 (x) dx E (|X − m| ) = −∞ Z ∞ p = |x| f0,σ2 (x) dx −∞ Z ∞ p =2 |x| f0,σ2 (x) dx 0 Z 1 p p ∞ p+1 −1 −y =√ 22 σ y 2 e dy. π 0 R∞ Erinnerung: Γ (q) = 0 y q−1 e−y dy, Γ (q + 1) = qΓ (q), Γ (1) = 1, Γ p p p Es folgt: E (|X − m| ) = √1π 2 2 Γ p+1 σ und 2 p = 1: E (|X − m|) = 1 √1 2 2 Γ (1) σ π 2 p = 2: E |X − m| = √1 2Γ π 3 p = 3: E |X − m| = 22 3 √ σ π 3 2 3 = = q σ2 = q 1 2 = √ π. 2 π σ, √1 2 π · 21 Γ 1 2 σ2 = σ2 , 8 3 πσ , 4 p = 4: E |X − m| = 3σ 4 . 10 Schwache Konvergenz von Wahrscheinlichkeitsmaßen Sei (S, S) ein Messraum mit S topologischer Raum, S = B (S) und (µn )n eine Folge von Wahrscheinlichkeitsmaßen auf (S, S). Suchen Konvergenzbegriff µn → µ. Für alle A ∈ S: µn (A) → µ (A)? Für viele Zwecke, z.B. zentralen Grenzwertsatz zuviel verlangt. Definition 10.1. Seien µn , µ Wahrscheinlichkeitsmaße auf (S, S). Dann µn → µ schwach, falls R R f dµn → f dµ für alle stetigen, beschränkten reellen Funktionen f auf S. Beispiel 10.2. 1) Xn , X ∈ S, Xn → X, dann folgt: δXn → δX schwach, denn: Aus f stetig folgt R R f (xn ) → f (x), f (xn ) = f dδxn → f (x) = f dδx . Dies hätte man oben nicht: A = {x}. Dann 1A (xn ) = 0 für xn 6= x. Daraus folgt: µn (A) = 0 6→ µ (A). 16 KAPITEL 1. GRUNDBEGRIFFE 2) N 0, n1 → δ0 schwach: µn := N 0, n1 . Es gilt: Z ∞ Z f dµn = −∞ Mit f f (0) = √y n R∞ −∞ f (x) q 1 e − 2π n1 → f (0) folgt mit Lebesgue: R x2 1 2n 1 dx = √ 2π f dµn → √1 2π R Z ∞ f −∞ f (0) e− y2 2 y √ n e− y2 2 dy. dµ = f (0) √12π R e− y2 2 dy = f (x) dδ0 . Satz 10.3. Sei S ein metrischer Raum mit (µn )n , µ Wahrscheinlichkeitsmaße auf (S, S). Dann sind äquivalent: 1. µn → µ schwach. R R 2. f dµn → f dµ für alle gleichmäßig stetigen f ∈ Cb (S). 3. lim sup µn (F ) ≤ µ (F ) für alle F ⊂ S abgeschlossen. 4. lim inf µn (G) ≥ µ (G) für alle G ⊂ S offen. 5. lim µn (A) = µ (A) für alle µ-randlosen A ∈ S, d.h. für alle A ∈ S mit µ (∂A) = 0. Korollar 10.4. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Xn , X messbare Abbildungen von Ω nach S mit Verteilungen µn , µ. Es konvergiere (Xn ) stochastisch gegen X, d.h. für alle ε > 0 gilt: P [d (Xn , X) ≥ ε] → 0. Dann konvergiert (µn ) schwach gegen µ. Korollar 10.5. Für Wahrscheinlichkeitsmaße µn , µ auf (R, B (R)) mit Verteilungsfunktionen Fn , F sind äquivalent: R R 1) f dµn → f dµ für alle f ∈ C (R) mit kompaktem Träger. 2) µn → µ schwach. 3) Fn (x) → F (x) für alle Stetigkeitsstellen x von F . (Dass dies für Unstetigkeitsstellen nicht klappt, mache man sich für die Verteilungsfunktion von Diracmaßen klar.) 4) µn (( a, b ]) → µ (( a, b ]) für alle µ-randlosen ( a, b] . 11 Dynkin-Systeme, Eindeutigkeitssatz, Sätze über monotone Klassen Definition 11.1. Sei Ω 6= ∅. D ⊂ P (Ω) heißt Dynkin-System, falls i) Ω ∈ D, ii) A ∈ D impliziert Ac ∈ D, iii) für A1 , A2 , . . . paarweise disjunkt aus D ist auch S∞ i=1 Ai ∈ D. Beispiel 11.2. Wenn P1 , P2 Wahrscheinlichkeitsmaße auf (Ω, A) sind, ist {A ∈ A : P1 (A) = P2 (A)} ein Dynkin-System. 11. DYNKIN-SYSTEME, EINDEUTIGKEITSSATZ, SÄTZE ÜBER MONOTONE KLASSEN 17 Bemerkung 11.3. 1. Wenn A, B ∈ D Elemente eines Dynkin-Systems mit A ⊂ B sind, so folgt ˙ c )c ∈ D. B\A = (A∪B 2. Jedes durchschnittsstabile Dynkin-System ist eine σ-Algebra. Satz 11.4. Ist M ⊂ P (Ω) durchschnittsstabil, so stimmt das von M erzeugt Dynkin-System D (M ) = T D Dynkin-System D mit der von M erzeugten σ-Algebra σ (D) überein. D⊃M Satz 11.5. Stimmen zwei Wahrscheinlichkeitsmaße auf einem durchschnittsstabilen Erzeuger E der σ-Algebra A überein, so sind sie gleich. Beispiel 11.6. 1. Ein Wahrscheinlichkeitsmaß µ auf R ist durch seine Verteilungsfunktion F eindeutig bestimmt: µ (( −∞, b ]) = F (b), {( −∞, b ] : b ∈ R} durchschnittsstabiler Erzeuger von B (R). 2. Pp auf Ω = {(X1 , X2 , . . .) : Xi ∈ {0, 1}} ist eindeutig festgelegt durch Pp [ X1 = x1 , . . . , Xn = xn | {z } ] = pk (1 − p) n−k durchschnittsstabiler Erzeuger der σ−Algebra auf Ω Pn für k = i=1 Xi . Im Fall p = diese später. 1 2 haben wir die Existenz bereits bewiesen, falls p 6= 1 2 zeigen wir Sätze über monotone Klassen Ein Vektorraum H reeller Funktionen auf Ω heißt monotoner Vektorraum, falls aus 1 ∈ H, fn ∈ H und fn % f beschränkt folgt, dass f ∈ H. Lemma 11.7. Jeder monotone Vektorraum H ist abgeschlossen gegenüber gleichmäßiger Konvergenz. Satz 11.8. [über monotone Klassen, Algebraform“] Sei A eine Menge von beschränkten Funktionen ” auf Ω, die abgeschlossen bzgl. Multiplikationen ist und H ein monotoner Vektorraum mit A ⊂ H. Dann ist jede beschränkte, σ (A)-messbare Funktion in H enthalten. σ (A) = kleinste Mengensystem (σ-Algebra) bzgl. derer alle Funktionen aus A messbar sind = σ ({f > α} : f ∈ A, α ∈ R). Beispiel: Ω topologischer Raum, A = {1U : U offen in Ω}. Satz 11.9. [über monotone Klassen, Verbandsform“] Sei K ein min-stabiler konvexer Kegel positiv ” beschränkter Funktionen mit 1 ∈ K. Es sei H ein monotoner Vektorraum mit K ⊂ H. Dann ist jede beschränkte σ (K)-messbare Funktion in H enthalten. R Korollar 11.10. Seien µ1 , µ2 Wahrscheinlichkeitsmaße auf (S, S). Für alle f ∈ Cb (S) mit f dµ1 = R f dµ2 gilt: µ1 = µ2 . 18 KAPITEL 1. GRUNDBEGRIFFE Kapitel 2 Unhabhängigkeit 1 Unabhängige Ereignisse Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Definition 1.1. Eine Kollektion Ai , i ∈ I von Ereignissen heißt unabhängig, falls für alle J ⊂ I T Q endlich P i∈J Ai = i∈J P (Ai ). Eine Kollektion Bi , i ∈ I von Ereignissystemen Bi ⊂ A heißt Q T unabhängig, falls für alle J ⊂ I endlich und für alle Ai ∈ Bi gilt P i∈J Ai = i∈J P (Ai ). Satz 1.2. Seien Bi , i ∈ I durchschnittsstabil und unabhängig. Dann gilt: 1. σ (Bi ), i ∈ I sind unabhängig. 2. Allgemeiner: Sind Jk , k ∈ K disjunkte Teilmengen von I, so sind σ abhängig. S i∈Jk Bi , k ∈ K un- Beispiel 1.3. Seien Ai , i ∈ I unabhängig, Bi := Ai oder Aci . Dann sind Bi , i ∈ I unabhängig. Bemerkung 1.4. Paarweise Unabhängigkeit reicht nicht: Wir betrachten zwei Würfe eines Würfels mit Gleichverteilung und definieren A := 1. Wurf 3“, B := 2. Wurf 5“, sowie C := Summe = 7“. ” ” ” 1 aber P (A ∩ B ∩ C) = Es gilt: P (A) = P (B) = P (C) = 16 , P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 36 0 6= P (A) · P (B) · P (C). Beispiel 1.5. Unabhängige 0-1-Experimente mit Erfolgsparameter p ∈ [0, 1] Ω = {(X1 , X2 , . . .) : Xi ∈ {0, 1}}, Xi (ω) = ωi . Gesucht ist eine Wahrscheinlichkeitsverteilung Pp mit a) Pp [Xi = 1] = p, b) {Xi = 1}, i ∈ N unabhängig Pp [X1 = x1 , . . . , Xn = xn ] = Pp [X1 = x1 ] · P n−k . . . · Pp [Xn = xn ] = pk (1 − p) für k = xi . Wir wissen, dass Pp durch diese Gleichverteilung eindeutig bestimmt ist. Satz 1.6. [0-1-Gesetz von Kolmogorov] Sei Bi , i ∈ I eine unabhängige Kollektion von σ-Algebren. T∞ S∞ Wir definieren B∞ := n=1 σ ( m=n Bm ). Dann ist P (A) ∈ {0, 1} für alle A ∈ B∞ . Vorstellung zu B∞ : Bi = zum Zeitpunkt i eintretende Ereignisse, B∞ = unendlich ferne Zukunft, Pn fail field, z.B. beim Münzwurf: A = 1 kommt unendlich oft vor“, A = Der Grenzwert lim n1 i=1 Xi ” ” existiert.“ Lemma 1.7. Aus B, B unabhängig, folgt P (A) ∈ {0, 1} für alle A ∈ B. 19 20 KAPITEL 2. UNHABHÄNGIGKEIT Speziell: Sind A1 , A2 , . . . ∈ A unabhängig und A∞ := lim sup An = unendlich oft ein“, dann folgt P (A∞ ) ∈ {0, 1}. T∞ S∞ n=1 m=n Am = An tritt ” Lemma 1.8. [Borel-Cantelli] P∞ 1. Aus A1 , A2 , . . . ∈ A, i=1 P (Ai ) < ∞ folgt: P (lim sup An ) = 0. 2. Wenn A1 , A2 , . . . ∈ A unabhängig sind und genügt, dies für eine Teilfolge zu haben.) P P (Ai ) = ∞, dann gilt: P (lim sup An ) = 1. (Es Beispiel 1.9. 0-1-Experimente mit Parameter p ∈ (0, 1), binärer Text“ der Länge N : x1 , . . . , xN , ” Pp [ Text kommt irgendwann vor“ = 1] ” ω = y1 , . . . , yN , yN +1 , . . . , y2N , . . . | {z } | {z } Block 1 Block 2 N −k Ai = i-ter Block ist der Text“. Dann folgt: A1 , . . . sind unabhängig, P (Ai ) = pk (1 − p) =: α, P ” k = xi . P (A∞ ) kommt unendlich oft vor. Sogar nach starkem Gesetz der großen Zahlen: Aus Pn 1A1 , . . . paarweise unabhängig folgt n1 i=1 1Ai → E (1Ai ) = α. 2 Unabhängige Zufallsvariablen Definition 2.1. Eine Kollektion Xi , i ∈ I von Zufallsvariablen auf (Ω, A, P) heißt unabhängig, falls die σ-Algebren σ (Xi ), i ∈ I unabhängig sind, σ (Xi ) = Xi−1 B R̄ d.h. für alle J ⊂ I endlich und T Q Ai ∈ B R̄ gilt P ( J [Xi ∈ Ai ]) = J P [Xi ∈ Ai ]. Bemerkung 2.2. Seien Xi , i ∈ I unabhängig und hi : R̄ → R̄ messbar. Dann gilt: hi (Xi ), i ∈ I sind unabhängig, da σ (h ◦ Xi ) ⊂ σ (Xi ) für alle i ∈ I. Q Q Satz 2.3. Seien Xi , i ∈ J unabhängig, J endlich und Xi ≥ 0. Dann gilt: E i∈J Xi = J E (Xi ). Korollar 2.4. Seien X, Y ∈ L1 und X, Y unabhängig. Dann folgt X · Y ∈ L1 und E (X · Y ) = E (X) · E (Y ). Insbesondere: Seien X, Y ∈ L2 unabhängig, so sind X, Y unkorelliert. 3 Starkes Gesetz der großen Zahlen Satz 3.1. [Kolmogorov, 1930] Seien X1 , X2 , . . . ∈ L1 , X1 , X2 , . . . unabhängig, identisch verteilt, Pn E (Xi ) = m. Dann gilt: n1 i=1 Xi (ω) → m für P-fast alle ω ∈ Ω. (Erinnerung: In § 7 brauchten wir X1 , X2 , . . . ∈ L2 .) Satz 3.2. [Etemadi, 1983] Seien X1 , X2 , . . . ∈ L1 , X1 , X2 paarweise unabhängig und identisch verteilt, Pn E (Xi ) = m. Dann gilt n1 i=1 Xi (ω) → m für P-fast alle ω ∈ Ω. Korollar 3.3. Seien X1 , X2 , . . . identisch verteilt, paarweise unabhängig mit Xi ≥ 0. Dann gilt: Pn 1 i=1 Xi → m P-fast sicher. n Beispiel 3.4. Seien X0 = 1, Xn = Xn−1 · Yn , wobei Y1 , Y2 , . . . > 0 unabhängig, identisch verteilt sind Qn und m = E (Y1 ). Dann folgt: E (Xn ) = i=1 E (Yi ) = mn . Was tut Xn (ω)? 4. GEMEINSAME VERTEILUNG, FALTUNG 21 Z.B. Spiel: Setze Hälfte des vorhandenen Kapitals, mit Wahrscheinlichkeit 21 verloren, mit Wahrscheinlichkeit 12 erhalte man das c-fache des Einsatzes zurück (fair: c = 12 , superfair c > 2). Xn ( 1+c 2 1 2 einmal setzen → 1 Xn + 2 ( c · 12 Xn mit Wahrscheinlichkeit 0 mit Wahrscheinlichkeit mit Wahrscheinlichkeit 1 2 1 2 = Xn · Yn+1 , 1 2 1 2 (Existenz von Modell später). E (Yn ) = 2+c 4 . mit Wahrscheinlichkeit Pn Annahme: log Y1 ∈ L1 (im Spiel erfüllt), dann folgt n1 log Xn (ω) = n1 i=1 log Yi → E (log Y1 ) =: α P- fast sicher. wobei Yn = •) α < 0: Es existiert ein ε > 0 mit α + ε < 0 und damit folgt: für P-fast alle ω ∈ Ω und für alle n ≥ n0 : Xn (ω) ≥ en(α+) , d.h. Xn (ω) → 0 exponentiell schnell. •) α > 0: Xn (ω) ≥ en(α−) , d.h. Xn (ω) → ∞ exponentiell schnell. α < 0: Exponentieller Bankrott α > 0: Exponentieller Gewinn Es ist α = E (log Y1 ) ≤ log E (Y1 ) = log m (Jensen) (< falls Y1 nicht deterministisch). Beim Spiel: 1 1+c 1 1 E (log Y1 ) = log + log 2 2 2 2 1 1+c = log <0 2 4 falls c < 3. Für 2 < c < 3 ist das Spiel superfair, trotzdem exponentiell schneller Bankrott! Unter den Voraussetzungen von 3.1: Wie ist es mit der Verteilung µ von Xi ? Pn Dazu sei ρn (ω, A) := n1 i=1 1A (Xi (ω)), ω ∈ Ω, A ∈ B (R), Häufigkeit des Besuches in A, d.h. P n ρn (ω, ·) = n1 i=1 δXi (ω) , empirische Verteilung der ersten n Beobachtungen.“ ” Satz 3.5. Mit Voraussetzungen von 3.1 gilt P-fast sicher ρn (ω, ·) → µ schwach, mit µ Verteilung von R Pn Xi , d.h. für f ∈ Cb gilt n1 i=1 f (Xi (ω)) → f dµ. 4 Gemeinsame Verteilung, Faltung Vorbemerkung: Annahme wie in 3.2, Sn = Pn i=1 Xi , es folgt var √1 Sn n = 1 n var (Sn ) = var (X1 ). √1 n Später: Verteilung von (Sn − ESn ) → Normalverteilung. Bisher: Verteilung einer Zufallsvariablen X, µ (A) = P (X ∈ A), A ∈ B (R). Definition 4.1. Die gemeinsame Verteilung µ̄ von Zufallsvariablen X1 , . . . , Xn auf (Ω, A, P) ist definiert als die Verteilung von ω 7→ (X1 (ω) , . . . , Xn (ω)), ist also ein Wahrscheinlichkeitsmaß auf Rn : µ̄ Ā = P X̄ ∈ Ā , Ā ∈ B (Rn ). Bemerkung 4.2. X̄ ist messbar bezüglich B (Rn ) = σ ({A1 × . . . × An : Ai ∈ B (R)}) bzw. Ai = (−∞, ai ] . Satz 4.3. Seien X1 , . . . , Xn Zufallsvariablen mit Verteilungen µ1 , . . . , µn . Dann gilt: X1 , . . . , Xn unNn Qn abhängig genau dann, wenn µ̄ = i=1 µi , d.h. µ̄ (A1 × . . . × An ) = i=1 µi (Ai ) für alle A1 , . . . , An ∈ B (R). 22 KAPITEL 2. UNHABHÄNGIGKEIT Bemerkung: 1. µ̄ ist festgelegt durch µ1 , . . . , µn . 2. Sei ϕ : Rn → R B (Rn )-messbar und entweder nichtnegativ oder µ̄-integrierbar. Dann gilt nach R R R Fubini: ϕ (x1 , . . . , xn ) dµ̄ (x1 , . . . , xn ) = . . . ϕ (x1 , . . . , xn ) µ1 (dx1 ) . . . µn (dxn ). 3. Wenn alle µi absolut stetig mit zugehöriger Dichte fi sind, dann ist µ̄ absolut stetig mit Dichte Nn f¯ = i=1 fi (Tensor-Produkt), f¯ : (x1 , . . . , xn ) → f1 (x1 ) · . . . · fn (xn ) (Tensor). Beispiel 4.4. 1. Seien X, Y gleichverteilt auf [0, 1] und X, Y unabhängig. Dann ist die gemeinsame Verteilung von X, Y auf [0, 1] die Gleichverteilung auf [0, 1] × [0, 1]. Für X = Y bekommt man die Gleichverteilung auf der Diagonalen in [0, 1]. 2. Seien X, Y normalverteilt mit Parametern m, σ 2 und unabhängig. Dann hat X, Y die Verteilung mit Dichte f (x, y) = R= √ − 1 2πσ 2 e (x−m)2 +(y−m)2 2σ 2 X 2 + Y 2 hat die Dichte . ( 2 r r σ12 e− 2σ2 für r > 0 0 falls r ≤ 0 für m = 0 und Φ := ϕ (X, Y ) (Winkel), ist also gleichverteilt auf [0, 2π]. Für x ∈ R definiere Tx (y) = x + y (Translation). Satz 4.5. Seien X1 , X2 unabhängige Zufallsvariablen mit Verteilung µ1 , µ2 . Dann gilt: R 1. Die Verteilung von X1 + X2 ist gegeben durch die Faltung µ1 ∗ µ2 := µ1 (dx1 ) µ2 ◦ Tx−1 , d.h. R (µ1 ∗ µ2 ) (A) = µ1 (dx1 ) µ2 (A − x1 ). R 2. Hat µ2 Dichte f2 , so gilt: (µ1 ∗ µ2 ) (·) = µ1 (dx1 ) f2 (x − x1 ). Hat µ1 zusätzlich Dichte f1 , so R gilt: (µ1 ∗ µ2 ) (·) = f1 (x1 ) f2 (x − x1 ) dx. Beispiel 4.6. X1 , X2 : Ω → R seien unabhängige Zufallsvariablen. 1. Seien X1 , X2 Poisson verteilt mit Parametern λ1 , λ2 , d.h. P [Xi = k] = e−λi Poisson verteilt mit Parameter λ1 + λ2 . λk i k! . Dann ist X1 +X2 2. Seien X1 , X2 normalverteilt mit Mittelwerten m1 , m2 und Varianzen σ12 , σ22 . Dann ist X1 + X2 normalverteilt N m1 + m2 , σ12 + σ22 (mit Fourier-Transformation). ( pi α xpi −1 e−αx , x ≥ 0 Dann ist 3. Seien X1 , X2 Γ-verteilt mit pi , α, d.h. mit Dichten fi (x) = Γ(pi ) 0, sonst. X1 + X2 Γ-verteilt mit p1 + p2 , α (auch mit Fouriertransformation). Speziell (p = 1):Summen von n unabhängigen α-exponentialverteilten Zufallsvariablen T1 , . . . , Tn αn n−1 −αx sind Γ-verteilt mit n, α, d.h. mit Dichte fn,α (x) = Γ(n) x e (x ≥ 0). Anwendung 4.7. Das Wartezeitenproblem: Seien T1 , . . . , Tn unabhängige, α-exponentialverteilte ZuR∞ R∞ fallsvariablen, also insbesondere E (T1 ) = 0 xαe−αx dx = α1 0 te−t dt = α1 . Sei t ∈ R+ . Frage: E (Y ) =?, E (X) =? Behauptung: E (Y ) = α1 , E (X) = α1 (1 − e−αt ) ≈ α1 für große t. Genauer: Sind X, Y unabhängig, so ist Y α-exponentialverteilt und X α-exponentialverteilt gestaucht auf [0, t], d.h. P [X ≥ s] = e−αs Rt für 0 ≤ s ≤ t, P [X = t] = e−αt . Dann insbesondere E (X) = 0 sαe−αs ds+te−αt = . . . = α1 (1 − e−αt ). 5. DER ZENTRALE GRENZWERTSATZ 23 X 0 4.1 T1 T2 Y Ti t Ti+1 Fouriertransformation 1 1 Sei M+ (Rn ) die Menge aller Wahrscheinlichkeitsmaße auf (Rn , B (Rn )). Für µ ∈ M+ definiert man µ̂ : R ihx,yi R n R → C durch µ̂ (x) = e µ (dy) = cos hx, yi µ (dy). µ̂ heißt dann Fourier-Transformierte von µ. 1 Satz 4.8. Für jedes µ ∈ M+ (Rn ) gilt: 1. µ̂ (0) = 1. 2. |µ̂| ≤ 1. 3. µ̂ ist gleichmäßig stetig. 4. µ̂ (−x) = µ̂ (x). 5. µ̂ ist positiv definit, d.h. für alle c1 , . . . , cn ∈ C und x1 , . . . , xm ∈ Rn gilt 0. P j,k cj ck µ̂ (xj − xk ) ≥ 1 (Rn ), µ̂1 = µ̂2 . Dann folgt: µ1 = µ2 . Satz 4.9. [Eindeutigkeitssatz] Seien µ1 , µ2 ∈ M+ 1 (Rn ) Satz 4.10. Ist ϕ : Rn → C stetig, positiv-definit, ϕ (0) = 1, so existiert (genau) ein µ ∈ M+ mit µ̂ = ϕ. 1 1 Satz 4.11. i) Konvergiert eine Folge (µn ) in M+ (Rn ) schwach gegen µ ∈ M+ (Rn ), so konvergiert (µ̂n ) lokal gleichmäßig, d.h. gleichmäßig auf jeder kompakten Menge, gegen µ̂. 1 (Rn ) die Folge (µ̂n ) punktweise gegen eine in 0 stetige Funktion ϕ, so ii) Konvergiert für µn ∈ M+ n 1 existiert µ ∈ M+ (R ) mit µ̂ = ϕ und die Folge (µn ) konvergiert schwach gegen µ. Sei jetzt (Ω, A, P) ein Wahrscheinlichkeitsraum, X : Ω → Rn Zufallsvariable, PX die Verteilung von X, d.h. PX (A) = P [X ∈ A], A ∈ B (Rn ). Dann heißt ϕX := P̂X die charakteristische Funktion von R R X. Es ist ϕX (u) = eihu,yi PX (dy) = eihu,Xi dP = E (exp (i hu, Xi)) nach Variablentransformation. Bemerkung: Seien X1 , . . . , Xn reelle Zufallsvariablen. Dann gilt: X1 , . . . , Xn unabhängig genau dann, Q N wenn P̂(X1 ,...,Xn ) (u) = P̂Xj (uj ), d.h. P̂(X1 ,...,Xn ) = P̂Xj . Pn Satz 4.12. Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen, α ∈ R, S := α i=1 Xi . Dann gilt Qn ϕS (u) = j=1 ϕXj (αu). n R ihx,yi − 1 kyk2 2 1 1 2 Satz 4.13. Für alle x ∈ Rn gilt: 2π e e 2 dy = e− 2 kxk . Für n = 1 bedeutet dies: 2 1 N\ (0, 1) (x) = e− 2 kxk . 5 Der zentrale Grenzwertsatz Definition 5.1. Seien X1 , X2 , . . . ∈ L2 (Ω, A, P) unabhängig, Sn = Pn j=1 Xj und Sn∗ = S√n −E(Sn ) var(Sn ) (Standardisierung). Dann ist E (Sn∗ ) = 0, var (Sn∗ ) = 1. Man sagt, dass X1 , X2 , . . . die zentrale Grenzwerteigenschaft besitzen, falls die Verteilung von Sn∗ für n → ∞ gegen N (0, 1) konvergiert (schwach), Rb y2 d.h. falls für alle b ∈ R lim P [Sn∗ ≤ b] = √12π −∞ e− 2 dy =: Φ (b). 24 KAPITEL 2. UNHABHÄNGIGKEIT Satz 5.2. [Zentraler Grenzwertsatz] Seien X1 , X2 , . . . ∈ L2 , unabhängig. Dann hat (Xn ) die zentrale Grenzwerteigenschaft, falls Pn a) lim E[|Xj −E(Xj )|3 ] 3 Pn ( j=1 var(Xj )) 2 j=1 = 0 oder b) X1 , X2 , . . . identisch verteilt. (Für Dirac-Maße o.ä. mit var = 0 macht die Aussage keinen Sinn.) Bemerkung 5.3. 1. Bald Verallgemeinerung von 5.1 mit Fourier-Transformation. Pn 3 2. a) folgt z.B. aus i) supj E |Xj − E (Xj )| < ∞ und ii) lim inf n1 j=1 var (Xj ) > 0 Notiz: Ynk = X√k −E(Xk ) , Ynk Zufallsvariable, 1 ≤ k ≤ n, für alle n sind Yn1 , . . . , Ynn unabhängig, var(Sn ) Pn P 3 ∗ ∗ Sn := E |Ynk | . Dies führt zu den allgemeinen k=1 Ynk , E (Ynk ) = 0, var (Sn ) = 1, γn := Bedingungen a’) lim γn = 0 b’) Es existiert ein Y ∈ L2 so, dass Ynk dieselbe Verteilung haben wie Y √ . n Satz 5.4. (Ynk ) Dreiecksschema wie oben. Es gelte a’) oder b’). Dann gilt PSn∗ → N (0, 1) schwach. Bemerkung: Damit ist auch 5.3 bewiesen. Bemerkung 5.5. Seien ν1 , . . . , νm Wahrscheinlichkeitsmaße auf R, Ω = Rm , A = B (Rm ), P = ν1 ⊗ . . . ⊗ νm (Existenz später). Da P auf einem durchschnittsstabilen Erzeuger definiert ist, ist dies somit eindeutig. Für ω = (X1 , . . . , Xm ) sei Xk (ω) Projektion auf die k-te Koordinate. Dann sind X1 , . . . , Xn unabhängig und jedes Xk hat die Verteilung νk . Anwendung 5.6. 1. Ruin-Wahrscheinlichkeit für Versicherungsgesellschaft: n Verträge, bei Schaden jeweils Leistung Xi ≥ 0. Annahme: Xi ∈ L2 unabhängig, identisch verteilt, E (Xi ) = m, var (Xi ) = σ 2 . Pro Vertrag Prämie π = m + λσ 2 = erwartete Leistung + Risikozuschlag. Einnahmen sind also Pn nπ, Ausgaben hSn = i=1 Xi . Für K und i ein Anfangskapital h den Ruin R := [Sn > K + nπ] berechnen wir P [R] = P Sn∗ > K+nπ−n·m √ nσ ≈ N (0, 1) 2 K+nλσ √ ,∞ nσ = 1 − Φ (. . .) → 0. Für σ = 60, λ = 0, 5 ‰, n = 2000 a) K = 0: P (R) ≈ 1 − Φ (1, 343) ≈ 9% b) K = 1500: 3 . P (R) ≈ 100 √ 2. Stirlingsche Formel: n! ∼ 2πe−n nn+0,5 Seien X1 , X2 , . . . ∈ L2 unabhängig, σn2 := var (Xn ) > 0, sn := 2 h i Pn R Ln (ε) := k=1 M Xksn−E dP, M := Xksn−E ≥ ε . Pn k=1 σk2 12 . Zu ε > 0 definiere Lindeberg-Bedingung: lim Ln (ε) = 0 für alle ε > 0. Ziel: Satz 5.7. (Xn ) erfüllt die Lindeberg-Bedingung genau dann, wenn (Xn ) die zentrale Grenzwerteigenschaft hat. Bemerkung 5.8. 1. Wenn Xn identisch verteilt sind, so erfüllen sie die Lindeberg-Bedingung. 5. DER ZENTRALE GRENZWERTSATZ 2. Aus a) folgt die Lyapunov-Bedingung: Es existiert ein δ > 0, so dass lim Aus dieser folgt wiederum die Lindeberg-Bedingung. 25 PR |Xk −EXk |2+δ dP s2+δ n = 0. 3. Wenn (Xn ) gleichmäßig beschränkt ist und Sn → ∞, dann gilt die Lyapunov-Bedingung für alle δ > 0. Lemma 5.9. Aus der Lindeberg-Bedingung folgt die Feller-Bedingung: limn→∞ max1≤k≤n σk sk = 0. Bemerkung 5.10. Aus der Lindeberg-Bedingung folgt die zentrale Grenzwerteigenschaft und die Feller-Bedingung. Tatsächlich gilt auch die Umkehrung. n−1 |t|n Lemma 5.11. Für alle t ∈ R und n ∈ N gilt: eit − 1 − it − . . . − (it) (n−1)! ≤ n! . R Satz 5.12. Sei X ∈ L0 . Dann existieren die Ableitungen ϕ0X , ϕ00X und ϕ0X = i XeiuX dP, sowie R ϕ00X (u) = − X 2 eiuX dP. Insbesondere sind ϕ0X , ϕ00X stetig, ϕ0X (0) = iE (X), ϕ00X (0) = −E X 2 und |ϕ00X | ≤ E X 2 . Schließlich gilt: ϕX (u) = 1 + iuE (X) + 21 θ (u) u2 E X 2 mit |θ (u)| ≤ 1. i Pn h Satz 5.13. (Xn )n erfülle die Feller-Bedingung. Ist dann limn→∞ k=1 ϕXk sun − 1 = − 21 u2 für alle u ∈ R, so hat (Xn ) die zentrale Grenzwerteigenschaft (und umgekehrt). Folgerung: (Xn ) erfülle die Lindeberg-Bedingung. Dann hat (Xn ) die zentrale Grenzwerteigenschaft (5.7).