Stochastik I Sommersemester 2004 Prof.Dr. L. Baringhaus Überarbeitet von Alexander Seifert. Anregungen und Fehler schickt bitte an [email protected]. Inhaltsverzeichnis 1. Maß und Wahrscheinlichkeit 3 Grundregeln der Kombinatorik 3 Grundlagen der Maßtheorie 8 2. Bedingte Wahrscheinlichkeiten 16 3. Messbare Funktionen und Bildmaße, Zufallsvariablen und ihre Verteilungen 18 Messbare Funktionen und Bildmaße 18 4. Maßintegrale, Erwartungswerte von Zufallsvariablen 22 Das µ -Integral 22 Eigenschaften von µ -Integralen und Beispiele zur Berechnung von µ -Integralen 26 Ungleichungen der mathematischen Stochastik 32 5. Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume 35 Produktmaße 36 Produkträume 38 Ein Transformationssatz für Dichten 38 Eigenschaften von Erwartungswertvektoren und Kovarianzmatrizen 41 Unendliche Produkte von Wahrscheinlichkeitsräumen 43 6. Gesetze der Großen Zahlen 46 7. Nichtnegative, ganzzahlige Zufallsvariablen und erzeugende Funktionen 50 Verallgemeinerung auf den Fall Nm 0 -wertiger Zufallsvektoren 8. Zentrale Grenzwertsätze 54 56 Tabelle der Verteilungsfunktion 58 Verteilungen von nichtnegativen ganzzahligen Zufallsvariablen 59 Verteilungen von reellen Zufallsvariablen mit Dichten 59 Verteilungen von Zufallsvektoren 60 2 3 Kapitel 1 Maß und Wahrscheinlichkeit Definition 1.1 Wir definieren eine nichtleere Menge Ω als die Menge der möglichen Ereignisse eines Zufallsexperiments und A ⊂ P ( Ω ) sei ein System von Teilmengen von Ω mit folgenden Eigenschaften: (i) Ω ∈ A , (ii) aus A ∈ A folgt stets Ac ∈ A , ∞ (iii) für jede Folge A1, A2 ,... ∈ A folgt ∪n =1 An ∈ A . Dann heißt A die σ -Algebra der interessierenden Ereignisse. Des Weiteren definieren wir eine Abbildung P : A → [ 0,1 ] mit folgenden Eigenschaften: (i) P ( Ω ) = 1 (Normiertheit von P ), (ii) Für jede Folge ( An )n∞=1 von paarweise disjunkten Mengen An ∈ A gilt: ∞ ∞ P ( ∪n =1 An ) = ∑ n =1 P ( An ) ( σ -Additivität von P ). Die Abbildung P heißt Wahrscheinlichkeitsmaß. Das Tripel ( Ω, A, P ) heißt Wahrscheinlichkeitsraum. Für A ∈ A ist P ( A ) die Wahrscheinlichkeit für das Eintreten des Ereignisses A . Beispiel 1.2 Würfelwurf: Sei Ω = {1,..., 6 } , A = { 2, 4, 6 } . Möglicher Ansatz für P : A P (A) = , Ω mit ⋅ definiert durch die Anzahl der Elemente einer Menge. Eigenschaften einer σ -Algebra Das unmögliche Ereignis ∅ = Ωc ∈ A liegt in jeder σ -Algebra. Somit gilt: (i) Aus A, B ∈ A folgt A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ ... ∈ A , (ii) Aus A, B ∈ A folgt A ∩ B = ( Ac ∪ B c )c ∈ A , c ∞ ∞ (iii) Für jede Folge A1, A2 ,... ∈ A folgt ∩n =1 An = ( ∪n =1 Anc ) ∈ A . Logische Beschreibung von Ereignissen Für A ∈ A bezeichnen wir Ac mit „nicht A “ oder „ A tritt nicht ein“. Für A, B ∈ A bezeichnen wir: (i) A ∪ B mit „ A oder B tritt ein“, (ii) A ∩ B mit „ A und B treten ein“, (iii) A ⊂ B mit „das Ereignis A hat das Ereignis B zur Folge“, (iv) A B := ( A ∪ B ) ∩ ( A ∩ B )c = ( A ∩ Bc ) ∪ ( B ∩ Ac ) mit „entweder A oder B tritt ein“. Allgemein: Ist ω ∈ Ω ein Ereignis, so bedeutet ω ∈ A , dass A eintritt. Beispiel 1.3 Sei Ω ≠ ∅ eine endliche Menge, A = P ( Ω ) , A ∈ A , A Anzahl der für das Eintreten von A günstigen Ergebnisse . P (A) = = Ω Anzahl der möglichen Ergebnisse Dann heißt ( Ω, A, P ) ein diskreter Laplacescher Wahrscheinlichkeitsraum. Grundregeln der Kombinatorik Für M = {1,..., n } , n ∈ N , definieren wir: (i) Pnr = {( x1,..., x r ) ∈ Rr | x1,..., x r ∈ M } = M r = M × ... × M , r -mal (ii) Pnr = {( x1,..., x r ) ∈ Pnr | x1,..., x r paarweise verschieden } , r ≤ n , (iii) Knr = {( x1,..., x r ) ∈ Pnr | x1 < ... < x r } , r ≤ n , (iv) Krn = {( x1,..., x r ) ∈ Pnr | x1 ≤ ... ≤ x r } . ( ( ) ) Kapitel 1 Maß und Wahrscheinlichkeit Satz 1.4 (i) Pnr = n r , (ii) Pn r (iii) Knr (iv) Krn ( ( ) ) = n ( n − 1 ) ⋅ ... ⋅ ( n − r + 1 ) , insbesondere: Pn n n = , r n +r −1 = . r ( ) = n!, ( ) ( Beweis (i) klar! (ii) klar! (iii) Aus Pn r ( ) ) = Knr r ! folgt ( ) n ( n − 1 ) ⋅ ... ⋅ ( n − r + 1 ) n = . r! r ( x1,..., x r ) ↔ ( x 1, x 2 + 1, x 3 + 2,..., x r + r − 1 ) ∈ Knr+r −1 . Somit erhalten wir: n +r −1 Krn = Knr+r −1 = . r Knr ( (iv) Es gibt eine Bijektion Krn ) ( ) = ( ( ( ) ) ) Definition 1.5 Jedes ( x1,..., x r ) ∈ Krn ist eindeutig bestimmt durch seinen Besetzungszahlvektor ( ∑rj =1 δ1,x ,..., ∑rj =1 δn,x ) ∈ {( k1,..., kn ) ∈ Nn0 | k1 + ... + kn = r } , j j wobei δi,x j das Kronecker-Symbol „Kronecker delta“ ist und ist definiert durch ⎧ ⎪1, x j = i, δi,x j := ⎪ ⎨ 0, sonst. ⎪ ⎪ ⎩ Beispiel 1.6 Sei n = 6 , r = 7 . Dann haben wir zu ( 2, 2, 2, 3, 3, 5, 5 ) ∈ K76 den Besetzungszahlvektor ( 0, 3, 2, 0, 2, 0 ) . Folgerung 1.7 {( k1,..., kn ) ∈ Nn0 | k1 + ... + kn = r } = ( n + rr − 1 ) . Bemerkung 1.8 (i) Sei M = {1,..., n } , r ≤ n . Dann gilt: Pr ( M ) = { A ⊂ M | A = r } = Knr ( ) = ( nr ) (Stimmt auch für r = 0 ) und damit n n P(M ) = ∪ Pr ( M ) r =0 = ∑ Pr ( M ) r =0 n = n n n ∑ ( r ) = ∑ ( r ) ⋅ 1r ⋅ 1n −r r =0 = ( 1 + 1 )n = 2n . r =0 (ii) Aus Folgerung 1.7 folgt: {( l1,..., ln ) ∈ Nn | l1 + ... + ln = r } = {( k1,..., kn ) ∈ Nn0 | k1 + ... + kn = r − n } = ( rr −− n1 ) = ( nr −− 11 ) für n ≤ r . Folgerung 1.9 Es sollen r nicht unterscheidbare Kugeln auf n unterscheidbare Urnen verteilt werden: (i) Es gibt ( n +rr −1 ) verschiedene Aufteilungen. (ii) Es gibt ( r −1 ) verschiedene Aufteilungen, so dass keine Urne leer bleibt. Es gibt n r Möglichkeiten, r n −1 unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen. Es gibt n r Möglichkeiten, r unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen. Satz 1.10 Es sei k1,..., kn ∈ N 0 , k1 + ... + kn = r , r , n ∈ N . Dann gilt: 4 Kapitel 1 Maß und Wahrscheinlichkeit {( x1,..., x r ) ∈ Pnr | { j | x j = i } = ki , i = 1,..., n } = Beweis ( k )( r! . k1 ! ⋅ ... ⋅ kn ! )( ) ( ) r − k1 r − k1 − k2 r − k1 − ... − kn −1 ⋅ ... ⋅ k k kn 1 2 3 ( r − k1 ) ! ( r − k1 − ... − kn −1 ) ! r! ⋅ ... ⋅ = kn ! ( r − k1 − ... − kn ) ! k1 ! ( r − k1 ) ! k2 ! ( r − k1 − k2 ) ! {( x1,..., x r ) ∈ Pnr | { j | x j = i } = ki , i = 1,..., n } = r = 0! r! = . k1 ! ⋅ ... ⋅ kn ! Genau ki der Komponenten von ( x1,..., x r ) sind gleich i . Beispiel 1.11 Sei A = {1,..., r } und B = {1,..., n } . Dann gilt: (i) { f | f : A → B } = n r , r , n ∈ N , (ii) { f | f : A → B ist injektiv } = n ( n − 1 ) ⋅ ... ⋅ ( n − r + 1 ) , r ≤ n , (iii) Sei Ω = { f | f : A → B ist surjektiv } . Dann ist Ω = a ( r , n ) für r , n ∈ N mit: a ( r, n ) = ∪ { f ∈ Ω | f −1 ( { i } ) = ki , i = 1,..., n } ( k1 ,...,kn )∈ Nn k1 +...+kn =r ∑ = ( k1 ,...,kn )∈ Nn { f ∈ Ω | f −1 ( { i } ) = ki , i = 1,..., n } k1 +...+kn =r = r! . k ! ⋅ ... ⋅ kn ! ( k1 ,...,kn )∈ Nn 1 ∑ k1 +...+kn =r Durch einen Potenzreihenansatz erhalten wir ∞ ∞ a ( r, n ) r 1 ⎛ ⎞ x = ∑ r! ∑ ⎜⎜⎜⎝ ∑(kk11+,...,...k+nk)n∈=Nrn k1 ! ⋅ ... ⋅ kn ! ⎠⎟⎟⎟ x r r =n r =n (∑ n ) n ( )k x ( n −k ) 1 l n x = (e x − 1 )n = ∑ −1 e l =1 l ! k =0 k n r n ( )k ∞ (n − k ) xr =∑ −1 ∑ r = 0 r! k =0 k ∞ 1 n = ∑ ( ∑ k = 0 ( n )( −1 )k ( n − k )r )x r . k ! r r =0 = ∞ ( ) ( ) Da für r < n gilt a ( r, n ) = n ∑ k =0 ( k )( −1 )k ( n − k )r n = 0, liefert der Koeffizientenvergleich: a ( r, n ) = n ∑ k =0 ( k )( −1 )k ( n − k )r n für r , n ∈ N . Außerdem gilt: a ( n, n ) = n ! = n ∑ k =0 ( k )( −1 )k ( n − k )n . n Folgerung 1.12 (i) Die Anzahl der Möglichkeiten, r unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen, so dass keine Urne leer bleibt, ist n n ( )k ( −1 n − k )r . a ( r, n ) = ∑ k =0 k ( ) (ii) Die Anzahl der Möglichkeiten, r unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen, so dass genau m Urnen leer bleiben, ist n −m n n n − m ( )k ( a ( r, n − m ) = −1 n − m − k )r . ∑ m m k =0 k ( ) ( ) ( 5 ) Kapitel 1 Maß und Wahrscheinlichkeit (iii) Sei A, B wie im vorigen Beispiel. Betrachten wir Ω := { f | f : A → B } , A = P ( Ω ) , P das diskrete Laplacesche Wahrscheinlichkeitsmaß auf Ω . Identifiziere jedes f ∈ Ω mit einer Aufteilung r unterscheidbarer Kugeln auf n unterscheidbare Urnen. Sei Am,n = { genau m Urnen bleiben leer } . Dann gilt für die Wahrscheinlichkeit: Am,n ( n )a ( r, n − m ) n = m = P ( Am,n ) = Ω nr m n −m ( )∑ ( −1 )k k =0 (1 − m n+ k ) r . Beispiel 1.13 Sei Ωn = { π | π : { 1,..., n } → { 1,..., n } bijektiv } . Dann heißt i ∈ {1,..., n } ein Fixpunkt von π ∈ Ωn , wenn π ( i ) = i . Wir definieren: an ( k ) := { π ∈ Ωn | π hat genau k Fixpunkte } für 0 ≤ k ≤ n , a 0 :≡ 1 . Es gilt n ! = Ωn = n n ∪k =0 { π ∈ Ωn | π hat genau k Fixpunkte } = ∑ an ( k ) = k =0 n n ∑ ( k )an −k ( 0 ) k =0 und damit erhalten wir n 1= 1 a (0) ∑ k ! ( nn −−k k ) ! . k =0 Nun gilt für x < 1 ∞ 1 = ∑ xn ⋅ 1 = 1−x n =0 ∞ ∑ (∑ n =0 ) 1 an −k ( 0 ) n x k =0 k ! ( n − k ) ! n Es folgt: ∞ = (∑ (∑ l ∞ ( −1 ) l :=n −k a (0) 1 ∞ ∑ nn ! x n = 1 − x e−x = ( ∑ k =0 1 ⋅ x k ) n =0 1 k x k =0 k ! ∞ l! l =0 xl ) )( ∑ l =n −k = ∞ ) al ( 0 ) l a ( 0) l x = ex ∑ l x . l =0 l ! l =0 l ! ∞ ∑ (∑ ∞ n =0 n k =0 ( −1 )k k! )x n . Koeffizientenvergleich liefert n an ( 0 ) = n ! ∑ Also folgt aus an ( k ) = ( n )an −k ( 0 ) k an ( k ) = ( −1 )k k =0 n k ( ) n −k (n − k )! ∑ k! ( −1 )j j! j =0 . n −k = ( −1 )j n! . ∑ k ! j =0 j ! Sei A = P ( Ωn ) , P das diskrete Wahrscheinlichkeitsmaß, An,k = { π ∈ Ωn | π hat genau k Fixpunkte } . Dann erhalten wir für die Wahrscheinlichkeit: n −k ( −1 )j An,k 1 a (k ) = n = . P ( An,k ) = Ωn n! k!∑ j! j =0 Spezielle Fälle sind: n P ( An,0 ) = ∑ j =0 ( −1 )j j! ≈ e −1 , n ( −1 )j Ωn \ An,0 P ( Anc ,0 ) = = 1 − P ( An,0 ) = 1 − ∑ = Ωn j! j =0 n ∑ j =1 ( −1 )j −1 j! ≈ 1 − e −1 ≈ 0, 63 . P ( Anc ,0 ) ist die Wahrscheinlichkeit für mindestens einen Fixpunkt. Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt: ∞ P ( ∅ ) = P ( ∅ ∪ ∅ ∪ ... ) = ∑P ( ∅) ⇒ P (∅) = 0 . k =1 Sei A, B ∈ A mit A ∩ B = ∅ . Dann folgt: P ( A ∪ B ) = P ( A ∪ B ∪ ∅ ∪ ∅ ∪ ... ) = P ( A ) + P ( B ) + P ( ∅ ) + P ( ∅ ) + ... =0 = P ( A ) + P ( B ). Sei A, B ∈ A mit A ⊂ B . Dann ist B = A ∪ ( B ∩ Ac ) , wobei A und B ∩ Ac disjunkt sind. Es gilt: 6 Kapitel 1 Maß und Wahrscheinlichkeit P ( B ) = P ( A ∪ ( B ∩ Ac ) ) = P ( A ) + P ( B ∩ Ac ) Also erhalten wir P ( B ∩ Ac ) = P ( B ) − P ( A ) (Subtraktivität des Wahrscheinlichkeitsmaßes). Ferner gilt wegen P ( B ∩ Ac ) ≥ 0 : P ( A ) ≤ P ( B ) (Isotonie des Wahrscheinlichkeitsmaßes). Definition 1.14 Sind A, B ∈ A mit A σ -Algebra und A ∩ B = ∅ , so sei A + B := A ∪ B . ∞ ∞ Sind A1, A2 ,... ∈ A paarweise disjunkt, so sei ∑ n =1 An := ∪n =1 An . Aus der σ -Additivität des Wahrscheinlichkeitsmaßes folgt: ∞ P ( ∑ n =1 An ) = ∞ ∑ P ( An ) für A1, A2 ,... ∈ A paarweise disjunkt. n =1 Für paarweise disjunkte A1,..., An ∈ A gilt: P ( A1 + ... + An ) = P ( A1 ) + ... + P ( An ) (endliche σ -Additivität). Seien A1, A2 ,... ∈ A (nicht notwendig disjunkt). Dann gilt: ∞ P ( ∪n =1 An ) ≤ ∞ ∑ P ( An ) (Sub- σ -Additivität). n =1 Denn es gilt ∞ ∞ ∪ An = A1 + n =1 ∑ (An ∩ ( A1c ∩ ... ∩ Anc −1 )) n =2 =( A1 ∪...∪An −1 )c und damit ∞ P ( ∪n =1 An ) = P ( A1 ) + ⊂An ∞ ∑ P ( An ∩ ( A1c ∩ ... ∩ Anc −1 ) ) . n =2 ≤P ( An ) Ebenso gilt P ( A1 ∪ ... ∪ An ) ≤ P ( A1 ) + ... + P ( An ) (Subadditivität von P ). Definition 1.15 Sei A1, A2 ,... ∈ A mit A1 ⊂ A2 ⊂ ... . Dann schreiben wir An ↑ A , wenn A = Sei A1, A2 ,... ∈ A mit A1 ⊃ A2 ⊃ ... . Dann schreiben wir An ↓ A , wenn A = ∞ ∪n∞=1 An ∩n =1 An (Isotonie). (Antitonie). Satz 1.16 (i) Gilt für eine Folge von Ereignissen An , n ∈ N , mit An ↑ A , so ist P ( A ) = lim P ( An ) , n →∞ (ii) Gilt für eine Folge von Ereignissen An , n ∈ N , mit An ↓ A , so ist P ( A ) = lim P ( An ) . n →∞ Beweis (i) Es gilt ∞ A= ∪ An = A1 + n =1 Also folgt: ∞ ∑ ( An ∩ Anc −1 ) . n =2 ∞ P ( A ) = P ( A1 ) + ∞ ∑ P ( An ∩ Anc −1 ) = P ( A1 ) + ∑ ( P ( An ) − P ( An −1 ) ) n =2 = P ( A1 ) + lim m →∞ = lim P ( Am ). n =2 m ∑ ( P ( An ) − P ( An −1 ) ) n =2 =P ( Am )−P ( A1 ) (Teleskopsumme) = P ( A1 ) + lim ( P ( Am ) − P ( A1 ) ) m →∞ m →∞ (ii) An ↓ A ist äquivalent zu Anc ↑ Ac . Also folgt aus (i): P (Ac ) = P ( Ω ) − P ( A ) = 1 − P ( A ) (Subtraktivität von P ) =Ω∩Ac = lim P ( Anc ) = lim ( 1 − P ( An ) ) = 1 − lim P ( An ). n →∞ n →∞ n →∞ Also folgt: P ( A ) = lim P ( An ) . n →∞ 7 Kapitel 1 Maß und Wahrscheinlichkeit Grundlagen der Maßtheorie Definition 1.17 Sei Ω eine nichtleere Mange. Ein Mengensystem D ⊂ P ( Ω ) heißt Dynkin-System auf Ω , wenn (i) Ω ∈ D , (ii) aus A ∈ D folgt Ac ∈ D , ∞ (iii) für paarweise disjunkte Mengen An ∈ D , n ∈ N , folgt ∑ n =1 An ∈ D . Ein Mengensystem E ⊂ P ( Ω ) heißt ∩ -stabil, wenn aus A, B ∈ E stets A ∩ B ∈ E folgt. Lemma 1.18 Ein ∩ -stabiles Dynkin-System ist eine σ -Algebra. Beweis Für An ∈ D , n ∈ N , ist wegen der ∩ -Stabilität ∞ ∞ ∪ An n =1 = A1 + ∑ ( An ∩ ( Anc −1 ∩ ... ∩ A1c ) ) ∈ D . n =2 ∈D Definition 1.19 Für ein Mengensystem E ⊂ P ( Ω ) ist ∩ σ (E ) = A A ist σ -Algebra auf Ω E ⊂A die kleinste vom Mengensystem E erzeugte σ -Algebra auf Ω , D( E ) = ∩ D D ist Dynkin-System auf Ω E ⊂D das kleinste vom Mengensystem E erzeugte Dynkin-System auf Ω . Lemma 1.20 Ist E ⊂ P ( Ω ) ∩ -stabil, so ist σ ( E ) = D ( E ) . Beweis Da jede σ -Algebra ein Dynkin-System ist, ist D ( E ) ⊂ σ ( E ) . Zum Nachweis von σ ( E ) ⊂ D ( E ) genügt es zu zeigen, dass D ( E ) ∩ -stabil ist. Dazu betrachten wir für E ∈ D ( E ) das Mengensystem DE := { B ∈ D ( E ) | B ∩ E ∈ D ( E )} . DE ist ein Dynkin-System auf Ω . Die Eigenschaft B c ∈ DE , falls B ∈ DE , folgt dabei beispielsweise aus ( B c ∩ E )c = E c ∪ B = E c + B ∩ E ∈ D ( E ) , da dann nämlich auch B c ∩ E ∈ D ( E ) ist. Ist speziell E ∈ E , so ist E ⊂ DE wegen der ∩ -Stabilität von E , also auch D ( E ) ⊂ DE . Für jedes E ∈ E gilt also E ∩ B ∈ D ( E ) für jedes B ∈ D ( E ) . Für beliebiges E ∈ D ( E ) folgt jetzt auch E ⊂ DE , also auch D ( E ) ⊂ DE und damit die ∩ -Stabilität von D ( E ) . Definition 1.21 Ein Mengensystem R ⊂ P ( Ω ) heißt Ring auf Ω , wenn (i) ∅ ∈ R , (ii) aus A, B ∈ R folgt A ∪ B ∈ R , (iii) aus A, B ∈ R folgt A ∩ B c ∈ R . Sind A, B Elemente eines Rings R , so ist auch A ∩ B = A ∩ ( A ∩ B c )c ∈ R . Definition 1.22 Ein Mengensystem S ⊂ P ( Ω ) heißt Semi-Ring auf Ω , wenn (i) ∅ ∈ S , (ii) aus A, B ∈ S folgt A ∩ B ∈ S , (iii) aus A, B ∈ S die Existenz von endlich vielen paarweise disjunkten Mengen E1,..., En ∈ S mit 8 Kapitel 1 Maß und Wahrscheinlichkeit n A ∩ Bc = ∑ Ej j =1 folgt. Beispiel 1.23 (i) Es ist E = {( a, b ] | −∞ < a ≤ b < ∞ } ein Semi-Ring auf R . Es gilt B := σ ( E ) = σ ( R ( E ) ) = σ ( {U | U ⊂ R offen } ) = σ ( { A | A ⊂ R abgeschlossen } ) = σ ( { K | K ⊂ R kompakt } ) . B heißt die Borelsche σ -Algebra auf R . (ii) Es ist E = {( a1, b1 ] × ... × ( ad , bd ] | −∞ < ai ≤ bi < ∞, i = 1,..., d } ein Semi-Ring auf Rd . Es gilt Bd := σ ( E ) = σ ( R ( E ) ) = σ ( {U | U ⊂ Rd offen } ) = σ ( { A | A ⊂ Rd abgeschlossen } ) = σ ( { K | K ⊂ Rd kompakt } ) . Bd heißt die Borelsche σ -Algebra auf Rd . Definition 1.24 Für ein Mengensystem E ⊂ P ( Ω ) ist ∩ R (E ) = R R ist Ring auf Ω E ⊂R der vom Mengensystem E erzeugte Ring auf Ω . Lemma 1.25 Ist E ⊂ P ( Ω ) ein Semi-Ring, so ist n R ( E ) = { ∑ j =1 E j | E1,..., En ∈ E paarweise disjunkt, n ∈ N } . Beweis Übungsaufgabe! Definition 1.26 Eine Abbildung µ : E → [ 0, ∞ ] auf einem Mengensystem E ⊂ P ( Ω ) mit ∅ ∈ E heißt Mengenfunktion. Eine Mengenfunktion µ heißt σ -additiv, wenn µ ( ∅ ) = 0 ist und für jede Folge von paarweise disjunkten ∞ Mengen En ∈ E , n ∈ N , mit ∑ n =1 En ∈ E gilt ∞ ∞ µ ( ∑ n =1 En ) = ∑ n =1 µ ( En ) . Eine Mengenfunktion µ heißt endlich additiv, wenn µ ( ∅ ) = 0 und für je endlich viele paarweise disjunkte n Mengen E1,..., En ∈ E , n ∈ N , mit ∑ j =1 E j ∈ E gilt n n µ ( ∑ j =1 E j ) = ∑ j =1 µ ( E j ) . Ist E eine σ -Algebra, so heißt µ ein Maß. Mit ∞ soll in der üblichen Weise gerechnet werden. Nicht generell üblich ist hier die zweckmäßige Fortsetzung 0 ⋅ ∞ = ∞ ⋅ 0 = 0 . Eine Mengenfunktion µ heißt σ -endlich, wenn es eine Folge von Mengen En ∈ E , n ∈ N , gibt mit µ ( En ) < ∞ für jedes n ∈ N und Ω = ∪n ∈N En . Für eine endlich additive bzw. σ -additive Mengenfunktion µ auf einem Ring R gelten die folgenden, wie für Wahrscheinlichkeitsmaße leicht zu beweisenden Eigenschaften: (i) Aus A, B ∈ R , A ⊂ B folgt µ ( A ) ≤ µ ( B ) (Isotonie), (ii) Aus A, B ∈ R , A ⊂ B , µ ( B ) < ∞ folgt µ ( B ∩ Ac ) = µ ( B ) − µ ( A ) (Subtraktivität), n n (iii) Aus A1,..., An ∈ R folgt µ ( ∪ j =1 Aj ) ≤ ∑ j =1 µ ( Aj ) (Subadditivität), (iv) Aus µ σ -additiv, An ∈ R , n ∈ N , Additivität), ∞ ∪n =1 An 9 ∞ ∈ R folgt µ ( ∪n =1 An ) ≤ ∞ ∑n =1 µ ( An ) (Sub- σ - Kapitel 1 Maß und Wahrscheinlichkeit (v) Aus µ σ -additiv, An ∈ R , n ∈ N , An ↑ A ∈ R folgt lim µ ( An ) = µ ( A ) (Stetigkeit von unten), n →∞ (vi) Aus µ σ -additiv, An ∈ R , n ∈ N , µ ( A1 ) < ∞ , An ↓ A ∈ R folgt lim µ ( An ) = µ ( A ) (Stetigkeit n →∞ von oben). Für eine endlich additive Mengenfunktion µ auf einem Ring R gilt darüber hinaus: ∞ ∞ ∞ (vii) Aus An ∈ R , n ∈ N , paarweise disjunkt, ∑ n =1 An ∈ R folgt µ ( ∑ n =1 An ) ≥ ∑ n =1 µ ( An ) . Dies folgt aus ∞ m µ ( ∑ n =1 An ) ≥ µ ( ∑ n =1 An ) = m ∑ µ ( An ) für jedes m ∈ N . n =1 Lemma 1.27 Ist S ⊂ P ( Ω ) ein Semi-Ring und α : S → [ 0, ∞ ] σ -additiv (endlich additiv), so lässt sich α auf genau eine Weise, nämlich durch die Festsetzung n µ(E ) = ∑ α (Ej ) n mit E = j =1 ∑ Ej , E1,..., En ∈ S paarweise disjunkt, j =1 zu einer σ -additiven (endlich additiven) Mengenfunktion auf n R ( S ) = { ∑ j =1 E j | E1,..., En ∈ S paarweise disjunkt, n ∈ N } fortsetzen. Beweis m Die Mengenfunktion µ ist sinnvoll definiert. Aus E = ∑ i =1 Di = D1,..., Dm ∈ S und paarweise disjunkten E1,..., En ∈ S folgt nämlich m ∑ α ( Di ) = i =1 m n n ∑ ∑ α ( Di ∩ E j ) = i =1 j =1 n ∑ j =1 E j m ∑ ∑ α ( E j ∩ Di ) = j =1 i =1 ∈S mit paarweise disjunkten n ∑ α (Ej ) . j =1 mn Für paarweise disjunkte An = ∑ j =1 Enj mit für jedes n ∈ N paarweise disjunkten En 1,..., Enmn ∈ S , ∞ k mn ∈ N , und A = ∑ n =1 An = ∑ i =1 Di mit paarweise disjunkten D1,..., Dk ∈ S ist Di = ∞ mn ∑ ∑ ( Di ∩ Enj ) , n =1 j =1 i = 1,..., k , ∈S und k Enj = ∑ ( Enj ∩ Di ) , j = 1,..., mn , n ∈ N , i =1 und daher ∞ ∑ µ ( An ) = n =1 = ∞ mn ∑ ∑ α ( Enj ) = n =1 j =1 k ∞ mn k ∑ ∑ ∑ α ( Enj ∩ Di ) = n =1 j =1 i =1 k ∞ mn ∑ ∑ ∑ α ( Di ∩ Enj ) i =1 n =1 j =1 ∑ α ( Di ) = µ ( A ). i =1 Im Falle von endlich additiven Mengenfunktionen verläuft die Argumentation analog. Satz 1.28 (Eindeutigkeitssatz für Maße) Es sei E ⊂ P ( Ω ) ein ∩ -stabiles Mengensystem auf der nichtleeren Menge Ω . Es seien µ1, µ2 Maße auf σ ( E ) mit der Eigenschaft µ1 ( E ) = µ2 ( E ) für jedes E ∈ E . Es gebe eine Folge von Mengen En ∈ E , n ∈ N , mit Ω = ∪n ∈N En und µ1 ( En ) = µ2 ( En ) < ∞ für jedes n ∈ N . Dann ist µ1 = µ2 . Beweis Für E ∈ E mit µ1 ( E ), µ2 ( E ) < ∞ sei DE = { A ∈ σ ( E ) | µ1 ( A ∩ E ) = µ2 ( A ∩ E )} . DE ist ein Dynkin-System, welches E enthält. Also ist σ ( E ) ⊂ DE , d.h. es ist µ1 ( A ∩ E ) = µ2 ( A ∩ E ) für jedes A ∈ σ ( E ) . Angewendet auf die Mengen En , n ∈ N , impliziert dies für jedes A ∈ σ ( E ) 10 Kapitel 1 Maß und Wahrscheinlichkeit ∞ ∞ µ1 ( A ) = µ1 ( A ∩ ∪n =1 En ) = µ1 ( A ∩ ( E1 + ∑ n =2 ( En ∩ Enc −1 ∩ ... ∩ E1c ) ) ) ∞ = µ1 ( A ∩ E1 + ∑ n =2 ( A ∩ En ∩ Enc −1 ∩ ... ∩ E1c ) ) ∞ ∑ µ1 ( A ∩ En ∩ Enc −1 ∩ ... ∩ E1c ) = µ1 ( A ∩ E1 ) + n =2 ∞ ∑ µ2 ( A ∩ En ∩ Enc −1 ∩ ... ∩ E1c ) = µ2 ( A ∩ E1 + ∑ n =2 ( A ∩ En ∩ Enc −1 ∩ ... ∩ E1c ) ) ∞ = µ2 ( A ∩ ∪n =1 En ) = µ2 ( A ). = µ2 ( A ∩ E1 ) + n =2 ∞ Satz 1.29 (Maßerweiterungssatz, C. Caratheodory) Es sei R ein Ring über der Menge Ω und µ : R → [ 0, ∞ ] eine σ -additive Mengenfunktion. Dann gibt es ein Maß µ auf σ ( R ) mit der Eigenschaft, dass µ|R = µ ist. µ ist eindeutig bestimmt, wenn µ σ -endlich ist. Beweis Wir führen den Beweis in sechs Schritten. (i) Es sei µ : P ( Ω ) → R definiert durch ∞ ∞ µ (T ) = inf { ∑ n =1 µ ( An ) | T ⊂ ∪n =1 An , An ∈ R, n ∈ N } , T ⊂ Ω , wobei inf ∅ := ∞ ist. Dann hat µ die Eigenschaften (1) 0 ≤ µ (T ) ≤ ∞ für alle T ⊂ Ω , (2) µ ( ∅ ) = 0 , (3) µ (T1 ) ≤ µ (T2 ) für T1 ⊂ T2 ⊂ Ω , ∞ ∞ (4) µ ( ∪n =1Tn ) ≤ ∑ n =1 µ (Tn ) für alle Folgen (Tn )n ∈N von Teilmengen von Ω . (Diese Eigenschaften besagen, dass µ ein äußeres Maß ist.) Die Eigenschaften (1)-(3) sind klar. Die Eigenschaft (4) ergibt sich so: Wegen der Eigenschaft (3) nehmen wir o.B.d.A. µ (Tn ) < ∞ für alle n ∈ N an. Dann gibt es zu einem ∞ beliebigen ε > 0 für jedes n ∈ N eine Folge ( Anm )m =1 von Mengen Anm ∈ R mit der Eigenschaft, dass ∞ Tn ⊂ ∪m =1 Anm und µ (Tn ) ≥ ∞ ∑ µ ( Anm ) − ε2−n m =1 ist. Dies impliziert ∞ ∪ Tn n =1 ∞ ⊂ ∞ ∪ ∪ Anm n =1 m =1 ∞ und µ ( ∪n =1Tn ) ≤ ∞ ∞ ∞ ∞ ∞ ∑ ∑ µ ( Anm ) ≤ ∑ µ (Tn ) + ε . n =1 m =1 n =1 Da ε > 0 beliebig war, folgt µ ( ∪n =1Tn ) ≤ ∑ n =1 (ii) Es ist µ|R = µ . Denn: ∞ Sei A ∈ R . Offenbar ist µ ( A ) ≤ µ ( A ) . Andererseits folgt aus A ⊂ ∪n =1 An mit Mengen An ∈ R be∞ kanntlich µ ( A ) ≤ ∑ n =1 µ ( An ) und damit µ ( A ) ≤ µ ( A ) . (iii) Es ist M := { A ∈ P ( Ω ) | Für alle T ⊂ Ω gilt µ (T ) = µ (T ∩ A ) + µ (T ∩ Ac ) } µ (Tn ) . eine σ -Algebra über Ω und µ|M ein Maß. Offenbar ist Ω ∈ M und mit A ∈ M auch Ac ∈ M . Mit A, B ∈ M ist auch A ∩ B ∈ M , denn für T ⊂ Ω ist µ (T ) = µ (T ∩ B ) + µ (T ∩ B c ), da B ∈ M, = µ (T ∩ B ∩ A ) + µ (T ∩ B ∩ Ac ) + µ (T ∩ B c ) , da A ∈ M, = µ (T ∩ ( B ∩ A ) ) + µ (T ∩ ( B ∩ A )c ), da B ∈ M. Also ist M eine σ -Algebra. Sind A, B ∈ M disjunkt, so gilt für T ⊂ Ω , dass µ (T ∩ ( A ∪ B ) ) = µ (T ∩ A ∩ ( A ∪ B ) ) + µ (T ∩ Ac ∩ ( A ∪ B ) ) = µ (T ∩ A ) + µ (T ∩ B ) ist. Mittels vollständiger Induktion ergibt sich für disjunkte Mengen A1,..., Am ∈ M : m µ (T ∩ ∪n =1 An ) = m ∑ µ (T ∩ An ) n =1 11 für alle T ⊂ Ω Kapitel 1 Maß und Wahrscheinlichkeit und damit insbesondere, dass µ|M endlich additiv ist. Ist ( An )n ∈N eine Folge von paarweise disjunkten ∞ ∞ Mengen in M und A = ∪n =1 An , so ist µ ( A ) ≥ ∑ n =1 µ ( An ) und damit wegen der Eigenschaft (i)(4) ∞ auch µ ( A ) = ∑ n =1 µ ( An ) . Folglich ist µ|M σ -additiv. Es bleibt nur noch zu zeigen, dass auch m c für jedes m ∈ N , so dass für jedes T ⊂ Ω A ∈ M zutrifft. Es ist Bm = ∪n =1 An ∈ M und Ac ⊂ Bm m c ) ≥ µ (T ∩ Ac ) + ∑ µ (T ∩ An ) für m ∈ N µ (T ) = µ (T ∩ Bm ) + µ (T ∩ Bm n =1 und damit ∞ µ (T ) ≥ ∑ µ (T ∩ An ) + µ (T ∩ Ac ) ≥ µ (T ∩ A ) + µ (T ∩ Ac ) n =1 gilt. Da wegen der Eigenschaft (i)(4) µ (T ) ≤ µ (T ∩ A ) + µ (T ∩ Ac ) zutrifft, ist µ (T ) = µ (T ∩ A ) + µ (T ∩ Ac ) , also A ∈ M . (iv) Es ist R ⊂ M . Denn: Seien A ∈ R und T ⊂ Ω . Wegen der Gültigkeit der Ungleichung ist nur die Ungleichung µ (T ) ≥ µ (T ∩ A ) + µ (T ∩ Ac ) ∞ zu zeigen. Ist ( An )n ∈N eine Folge von Mengen in R mit T ⊂ ∪n =1 An , so gilt ∞ ∞ ∞ n =1 ∞ n =1 n =1 ∞ ∑ µ ( An ) = ∑ µ ( An ∩ A ) + ∑ µ ( An ∩ Ac ) und daher wegen T ∩ Ac ⊂ ∪n =1 ( An ∩ Ac ) und T ∩ A ⊂ ∪n =1 ( An ∩ A ) die Ungleichung ∞ ∑ µ ( An ) ≥ µ (T ∩ A ) + µ (T ∩ Ac ) . n =1 ∞ Da die Folge ( An )n ∈N mit An ∈ R und T ⊂ ∪n =1 An beliebig wählbar ist, folgt die gesuchte Aussage µ (T ) ≥ µ (T ∩ A ) + µ (T ∩ Ac ) . (v) Es ist R ⊂ σ ( R ) ⊂ M und µ := µ|σ( R ) eine Fortsetzung von µ zu einem Maß auf σ ( R ) . (vi) Die Eindeutigkeit der Fortsetzung bei σ -endlichem µ folgt aus dem Eindeutigkeitssatz für Maße. Satz 1.30 Es sei F : R → R monoton wachsend und rechtsseitig stetig. Dann gibt es genau ein Maß µF : B → [ 0, ∞ ] mit der Eigenschaft, dass µF ( ( a, b ]) = F (b ) − F (a ) für alle −∞ < a ≤ b < ∞ ist. Beweis Auf dem Semi-Ring S = {( a, b ] | −∞ < a ≤ b < ∞ } wird durch µF ( ( a, b ]) = F (b ) − F (a ) , −∞ < a ≤ b < ∞ offenbar eine additive Mengenfunktion definiert. Diese Mengenfunktion lässt sich zu einer endlich additiven – auch wieder mit µF bezeichneten – Mengenfunktion auf dem von S erzeugten Ring fortsetzen. Es genügt zu zeigen, dass µF auf S σ -additiv ist. Dazu ∞ sei ( a, b ] = ∑ j =1 ( a j , bj ] mit −∞ < a < b < ∞ , −∞ < a j ≤ bj < ∞ , j ∈ N . Wegen der rechtsseitigen Stetigkeit von F gibt es zu jedem ε > 0 ein 0 < δ < b − a und ein δj > 0 , j ∈ N , mit 0 ≤ F ( a + δ ) − F (a ) ≤ 2ε und 0 ≤ F (bj + δj ) − F (bj ) ≤ ε2−( j +1 ) , j ∈ N . Also gilt ε µF ( ( a, b ] ) ≤ µF ( (a + δ, b ] ) + 2 und µF ( ( a j , bj + δj ]) ≤ µF ( ( a j , bj ]) + ε2−( j +1 ) , j ∈ N . Wegen ∞ [ a + δ, b ] ⊂ ∪ ( a j , bj + δj ) j =1 und der Kompaktheit von [ a + δ, b ] existieren endlich viele Intervalle ( a jk , bjk + δjk ) , k = 1,..., n , mit n [ a + δ, b ] ⊂ ∪ ( a j , bj k =1 Da µF isoton und subadditiv ist, folgt 12 k k + δjk ) . Kapitel 1 Maß und Wahrscheinlichkeit n n µ ( ( a + δ, b ] ) ≤ µF ( ∪k =1 ( a jk , bjk + δjk ) ) ≤ ∑ µF ( (a jk ,bjk + δjk ]) ≤ k =1 n ∑ µF ( (a j ,bj k =1 k k ε 2 ]) + . Damit haben wir µF ( ( a, b ] ) ≤ µF ( ( a + δ, b ] ) + also µF ( ( a, b ] ) ≤ additiv ist. ε ≤ 2 ∞ ∑ j =1 µF ( (a j ,bj ]) . Die Ungleichung ∞ ∑ µF ( (a j ,bj ]) + ε j =1 µF ( ( a, b ] ) ≥ für jedes ε > 0 , ∞ ∑ j =1 µF ( (a j ,bj ]) trifft zu, da µF endlich Beispiel 1.31 Sei F ( x ) = x . Das zu diesem F gehörige Maß µF ist das Lebesgue-Borelsche Maß auf der Borelschen σ Algebra B von R . Also: µF ( (a, b ] ) = b − a . Wir schreiben λ für das Lebesgue-Borelsche Maß auf B . Sei F : R → R mit folgenden Eigenschaften: (P1) F ist monoton wachsend und rechtsseitig stetig, (P2) lim F ( x ) = 1 und lim F ( x ) = 0 . x →∞ x →−∞ Dann gibt es nach Satz 1.30 genau ein Wahrscheinlichkeitsmaß PF mit PF ( (a, b ] ) = F (b ) − F ( a ) für alle −∞ < a ≤ b < ∞ . Für a → −∞ folgt: PF ( ( −∞, b ] ) = F (b ) für alle b ∈ R . b → ∞ liefert PF (( −∞, ∞ )) = lim PF ( ( −∞, b ] ) = lim F (b ) = 1 . b →∞ =R b →∞ Beispiel 1.32 Sei ∞ x F (x ) = ∫ f ( t )dt mit ∫ f ( t )dt = 1 . −∞ −∞ Ist umgekehrt P ein Wahrscheinlichkeitsmaß auf B , so hat die durch F ( x ) = P ( ( −∞, x ] ) , x ∈ R , definierte Funktion F : R → R die Eigenschaften (P1) und (P2). Beispiel 1.33 ∞ Sei f : R → R , f ≥ 0 und (uneigentlich) Riemann-integrierbar mit ∫ f ( t ) dt = 1 . Dann hat die Funktion −∞ x F : R → R , F ( x ) = ∫ f ( t )dt , x ∈ R , genau die oben genannten Eigenschaften (i) und (ii). −∞ Das zu diesem F gehörige Wahrscheinlichkeitsmaß auf B heißt Wahrscheinlichkeitsmaß mit der Wahrscheinlichkeitsdichte oder Dichte f . Spezialfälle sind: 2 (i) f ( t ) = 12π exp ( − t2 ) , t ∈ R . Das zu diesem f gehörige Wahrscheinlichkeitsmaß auf B heißt Standardnormalverteilung. Es sei Φ ( x ) = x ∫−∞ 1 2π exp ( − t2 )dt , x ∈ R . Es ist Φ ( x ) = 1 − Φ ( −x ) für x ∈ R . 2 (ii) Sei für −∞ < a < b < ∞ ⎧ b −1a , ⎪ f (t ) = ⎪ ⎨ 0, ⎪ ⎪ ⎩ t ∈ [ a, b ], sonst. Dann gilt: −a , ⎧⎪ xb − ⎪⎪ a F ( x ) = ∫ f ( t ) dt = ⎨ 0, ⎪⎪ −∞ ⎪⎪⎩1, Das zu diesem F gehörige Wahrscheinlichkeitsmaß P auf B teilung auf [ a, b ] . Für a ≤ α ≤ β ≤ b gilt: x P ( ( α, β ] ) = P ( ( −∞, β ] ) − P ( ( −∞, α ] ) = 13 a ≤ x ≤ b, x < a, x > b. heißt Rechteckverteilung oder Gleichverβ −a α −a β −α − = . b −a b −a b −a Kapitel 1 Maß und Wahrscheinlichkeit Im Fall a = 0 , b = 1 ist P ( ( α, β ] ) = β − α . (iii) Sei t < 0, ⎧⎪ 0, f ( t ) = ⎪⎨ ⎪⎪⎩ λ exp ( −λt ), t ≥ 0, wobei λ > 0 ein gegebener Parameter ist. Dann ist x x < 0, ⎧ 0, ⎪ F ( x ) = ∫ λ exp ( −λt )dt = ⎪ ⎨1 − exp ( −λx ), x ≥ 0. ⎪ ⎪ ⎩ −∞ Das zu F gehörige Wahrscheinlichkeitsmaß P auf B heißt Exponentialverteilung mit dem Parameter λ > 0: P ( ( t, ∞ ) ) = 1 − P ( ( −∞, t ]) = 1 − F ( t ) = exp ( −λt ) . Beispiel 1.34 (Weitere Beispiele für Maße und Wahrscheinlichkeitsräume) (i) Sei Ω ≠ ∅ , A σ -Algebra auf Ω , a ∈ Ω . Dann ist δa : A → [ 0,1 ] definiert durch ⎧⎪1, a ∈ A, δa ( A ) = ⎪ ⎨ 0, a ∉ A, für A ∈ A ⎪⎪⎩ ein Wahrscheinlichkeitsmaß auf A . δa heißt Einpunktmaß oder Dirac-Maß im Punkt a ∈ Ω . (ii) Sei µn , n ∈ N , eine Folge von Maßen auf einer σ -Algebra A auf Ω . Sei αn , n ∈ N , eine Folge von nichtnegativen Zahlen auf R . Dann ist µ = ∑ n ∈N αn µn ein Maß auf A . Denn es gilt: µ ( A ) = ∑ αn µn ( A ) ≥ 0 für jedes A ∈ A und µ ( ∅ ) = ∑ αn µn ( ∅ ) = 0 . n ∈N n ∈N ≥0 =0 (iii) Sei Aj , j ∈ N , eine Folge von paarweise disjunkten Mengen mit Aj ∈ A . Dann gilt: µ ( ∑ j ∈N Aj ) = ∑ αn µn ( ∑ j ∈N Aj ) = ∑ n ∈ N αn ∑ j ∈N µn ( Aj ) n ∈N = ∑ ∑ αn µn ( Aj ) n ∈N j ∈N = ≥0 ∑ ∑ αn µn ( Aj ) (für nichtnegative Zahlen kann man die Summen vertauschen) j ∈N n ∈N = ∑ µ ( Aj ). j ∈N Sei speziell µn = δan , n ∈ N , mit an ∈ Ω . Dann ist µ = ∑ n ∈ N αn δan ein Maß. Sei ∑ n ∈N αn = 1 . Dann ist µ = ∑ n ∈N αn δan ein Wahrscheinlichkeitsmaß. Sei { ω } ∈ A für jedes ω ∈ Ω und sei A = {an ∈ Ω | n ∈ N } mit paarweise verschiedenen an . Dann gilt: µ ( A ) = ∑ αn δan ( A ) = 1 , µ ( Ac ) = 1 − µ ( A ) = 0 . n ∈N =1 Damit gilt für jedes B ∈ A : 0 ≤ µ ( Ac ∩ B ) ≤ µ ( Ac ) = 0 . Also ist µ ( Ac ∩ B ) = 0 . Es folgt: µ ( B ) = µ ( A ∩ B ) + µ ( Ac ∩ B ) = µ ( A ∩ B ) . =0 Ferner gilt: 0, ⎧ ⎪ ⎪ µ ({ ω }) = µ (A ∩ { ω }) = ⎪ ⎨∑ α δ n ∈ N n an ⎪ ⎪ = αn0 ⎪ ⎩ ω ∉ A, ({ Also ist µ ( { ω } ) = αn0 , falls ω = an0 ist. Es gilt: µ ( B ) = µ ( A ∩ B ) = µ ∑ n ∈N, {an } = ( an ∈A,an ∈B ) ω } ), ∑ ω ∈ A, etwa ω = an0 . n ∈ N, an ∈A,an ∈B µ ( { an } ) = = αn ∑ n ∈ N, an ∈A,an ∈B αn . Ein solches Maß µ heißt diskretes Wahrscheinlichkeitsmaß. Ist also A eine σ -Algebra auf Ω mit { ω } ∈ A für jedes ω ∈ Ω , so heißt ein Wahrscheinlichkeitsmaß µ auf A diskret, wenn es eine abzählbare Menge A ⊂ Ω gibt, so dass µ = ∑a ∈A µ ( {a } ) δa ist. Ist etwa Ω = R , A = B (insbesondere ist { x } ∈ B für x ∈ R ) und A = {a1, a2 ,... } mit paarweise verschiedenen an ∈ N , so gilt für das Wahrscheinlichkeitsmaß einer Folge pn , n ∈ N , pn ≥ 0 , ∑ n ∈ N pn = 1 : P = ∑ pn δan , F ( x ) = P ( ( −∞, x ] ) = ∑ pn δan ( ( −∞, x ] ) . n ∈N n ∈N 14 { 1, an ≤x , = 0, sonst Kapitel 1 Maß und Wahrscheinlichkeit Sei Bd die Borelsche σ -Algebra auf Rd mit µF ( ( a, b ] ) = F (b ) − F ( a ) und sei µ ein endliches Maß auf Bd , d.h. µ ( Rd ) < ∞ . Sei F : Rd → R definiert durch F ( x1,..., xd ) = µ ( ( −∞, x1 ] × ... × ( −∞, xd ] ) für ( x1,..., xd ) ∈ Rd mit folgenden Eigenschaften: (B1) lim F ( x1 + ε1,..., xd + εd ) = F ( x1,..., xd ) für jedes ( x1,..., xd ) ∈ Rd ( F stetig von oben), εi ↓ 0,i =1,...,d (B2) Für alle −∞ < ai < bi < ∞ , i = 1,..., d , mit S = ( a1, b1 ] × ... × ( ad , bd ] gilt ∆S F := ∑ ( −1 )ε1 +...+εd F ( ε1a1 + ( 1 − ε1 )b1,..., εdad + ( 1 − εd )bd ) ≥ 0 . d ( ε1 ,...,εd )∈{ 0,1 } Analog zum eindimensionalen Fall zeigt man: Satz 1.35 Ist F : Rd → R mit den Eigenschaften (B1) und (B2), so existiert genau ein Maß µF auf Bd mit der Eigenschaft, dass µF ( S ) = ∆S F für jedes S = ( a1, b1 ] × ... × ( ad , bd ] mit −∞ < ai < bi < ∞ , i = 1,..., d , gilt. Das zu F : Rd → R mit F ( x1,..., xd ) = x1 ⋅ ... ⋅ xd , ( x1,..., xd ) ∈ Rd , gehörige Maß µF auf Bd heißt das Lebesgue-Borelsche Maß auf Bd . Es wird mit λd bezeichnet. Es gilt: d λd ( ( a1, b1 ] × ... × ( ad , bd ]) = ∏ (bi − ai ) (Volumen des Quaders ( a1, b1 ] × ... × ( ad , bd ] ). i =1 d Ist F : R → R mit den Eigenschaften (B1) und (B2) und gilt (B3) lim F ( x1,..., x i0 ,..., xd ) = 0 für jedes i0 ∈ {1,..., d } , x1,..., xd ∈ R , x i0 →−∞ (B4) lim F ( x1,..., xd ) = 1 , x1 →∞ xd →∞ so existiert genau ein Wahrscheinlichkeitsmaß PF auf Bd mit F ( x1,..., xd ) = PF ( ( −∞, x1 ] × ... × ( −∞, xd ] ) für alle ( x1,..., xd ) ∈ Rd . Umgekehrt hat für jedes Wahrscheinlichkeitsmaß P auf Bd die durch F ( x1,..., xd ) = P ( ( −∞, x1 ] × ... × ( −∞, xd ] ) , ( x1,..., xd ) ∈ Rd , definierte Funktion F : Rd → R die Eigenschaften (B1)-(B4). Beispiel 1.36 Sei f : Rd → R , f ≥ 0 , integrierbar mit ∞ ∞ ∫−∞ ...∫−∞ f ( t1,..., td )dt1 ...dtd = 1. Dann hat F : Rd → R mit F ( x1,..., xd ) = xd x1 ∫−∞ ...∫−∞ f ( t1,..., td )dt1 ...dtd , ( x1,..., xd ) ∈ Rd , die Eigenschaften (B1)-(B4). Das zu F gehörige Wahrscheinlichkeitsmaß heißt Wahrscheinlichkeitsmaß mit der Dichte f : d f ( t1,..., td ) = ∏ f ( tk ) . k =1 15 16 Kapitel 2 Bedingte Wahrscheinlichkeiten Sei Ω ≠ ∅ endlich, ( Ω, A, P ) ein diskreter Laplacescher Wahrscheinlichkeitsraum mit A = P ( Ω ) . Sei A, B ⊂ Ω mit P ( B ) = BΩ > 0 . Dann ist A∩B P (A ∩ B ) = B P (B ) die bedingte Wahrscheinlichkeit für das Eintreten von A unter der Bedingung, dass B eintritt. Definition 2.1 Sei ( Ω, A, P ) ein diskreter Laplacescher Wahrscheinlichkeitsraum, A, B ⊂ Ω , P ( B ) > 0 . Dann heißt P (A ∩ B ) P ( A | B ) := P (B ) die bedingte Wahrscheinlichkeit für das Eintreten von A unter der Bedingung, dass B eintritt. Satz 2.2 Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum und I eine abzählbare Indexmenge. Sei weiter A, Ai ∈ A , i ∈ I . Die Ai seien paarweise disjunkt und es sei P ( Ai ) > 0 für alle i ∈ I . Ferner sei A ⊂ ∑ i ∈I Ai . Dann gilt: (i) P ( A ) = ∑ i ∈I P ( A | Ai ) P ( Ai ) („Formel von der totalen Wahrscheinlichkeit“), (ii) Ist P ( A ) > 0 , j ∈ I , so gilt: P ( A | Aj ) P ( Aj ) („Formel von Bayes“). P ( Aj | A ) = ∑ i ∈I P ( A | Ai ) P ( Ai ) Beweis (i) Aus A = ∑ i ∈I ( Ai ∩ A ) folgt P (A) = ∑ P ( Ai ∩ A ) = ∑ P ( A | Ai ) P ( Ai ) . i ∈I i ∈I (ii) Nach (i) gilt: P ( Aj | A ) = P ( Aj ∩ A ) = P (A) P ( A | Aj ) P ( Aj ) . ∑ i ∈I P ( A | Ai ) P ( Ai ) Beispiel 2.3 Spieler und Losverkäufer vereinbaren folgendes Spiel: Lostrommel enthält a Gewinne und b Nieten mit a + b ≥ 3 . Spieler darf zwischen zwei Strategien wählen: (i) Spieler zieht Los. Das Los ist ein Gewinn oder eine Niete. Das Spiel ist beendet. (ii) Spieler zieht ein Los und wirft es unbesehen weg. Daraufhin entfernt der Losverkäufer eine Niete aus der Trommel. Spieler zieht erneut ein Los. Das Los ist ein Gewinn oder eine Niete. Das Spiel ist beendet. Sei A das Ereignis, dass der Spieler beim ersten Zug ein Gewinnlos zieht und B sei das Ereignis, dass der Spieler beim zweiten Zug eine Niete zieht. a (i) P ( A ) = , a +b (ii) Da B = B ∩ A + B ∩ Ac , erhalten wir: a −1 a a b + P ( B ) = P ( B | A ) P ( A ) + P ( B | Ac ) P ( Ac ) = a +b −2a +b a +b −2a +b a a +b −1 ) ( = >P A . a +b a +b −2 Satz 2.4 Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, seien A0 ,..., An ∈ A , n ≥ 1 , P ( A0 ∩ ... ∩ An −1 ) > 0 . Dann gilt: P ( A0 ∩ ... ∩ An ) = P ( A0 ) P ( A1 | A0 ) ⋅ ... ⋅ P ( An | A0 ∩ ... ∩ An −1 ) („Multiplikationsformel“). Beweis Es gilt: Kapitel 2 Bedingte Wahrscheinlichkeiten P ( A1 ∩ A0 ) P ( A2 ∩ A0 ∩ A1 ) P ( A0 ∩ ... ∩ An ) ⋅ ... ⋅ P ( A0 ) P ( A0 ∩ A1 ) P ( A0 ∩ ... ∩ An −1 ) = P ( A0 ∩ ... ∩ An ). P ( A0 ) ⋅ ... ⋅ P ( An | A0 ∩ ... ∩ An −1 ) = P ( A0 ) Beispiel 2.5 Eine Urne enthält r rote und s schwarze Kugeln ( a := r + s ). Es wird n -mal je eine Kugel gezogen. Diese Kugel wird zusammen mit c Kugeln derselben Farbe in die Urne zurückgelegt. Gesucht wird die Wahrscheinlichkeit, in diesen n Ziehungen genau k rote Kugeln zu ziehen. Seien: 0 schwarze Kugel , 1 rote Kugel , Aj 0 ( ) im j -ten Zug wird eine schwarze Kugel gezogen , Aj 1 ( ) im j -ten Zug wird eine rote Kugel gezogen . Dann gilt wegen der Unabhängigkeit der einzelnen Ziehungen für ωi ∈ { 0,1} P ( A1( ω1 ) ∩ ... ∩ An( ωn ) ) = P ( A1( ω1 ) ) P ( A2( ω2 ) | A1( ω1 ) ) ⋅ ... ⋅ P ( An( ωn ) | A1( ω1 ) ∩ ... ∩ An( ω−n1−1 ) ) , { s / a , ω = 0, = r / a , ω1 =1 1 wobei ω P ( Aj 0 | A1( ω1 ) ∩ ... ∩ Aj(−1j −1 ) ) = ( ) s + ( ( j − 1 ) − ( ω1 + ... + ω j −1 ) )c a + ( j − 1 )c und r + ( ω1 + ... + ω j −1 )c a + ( j − 1 )c für 2 ≤ j ≤ n ist. Nach ( j − 1 ) Ziehungen haben wir dann a + ( j − 1 )c Kugeln und r + ( ω1 + ... + ω j −1 )c ω rote Kugeln in der Urne beim Eintreten des Ereignisses A1( ω1 ) ∩ ... ∩ A(j −1j −1 ) . Folglich haben wir dann a + ( j − 1 )c − ( r + ( ω1 + ... + ω j −1 )c ) = s + ( ( j − 1 ) − ( ω1 + ... + ω j −1 ) )c ω P ( Aj 1 | A1( ω1 ) ∩ ... ∩ Aj( −1j −1 ) ) = ( ) schwarze Kugeln in der Urne. Also gilt für ω1 + ... + ω j −1 = k , 0 ≤ k ≤ j − 1 : s + ( ( j − 1 ) − k )c ω ( ) , P ( Aj 0 | A1( ω1 ) ∩ ... ∩ A(j −1j −1 ) ) = a + ( j − 1 )c r + kc ω ( ) . P ( Aj 1 | A1( ω1 ) ∩ ... ∩ A(j −1j −1 ) ) = a + ( j − 1 )c Daraus folgt für ω1 + ... + ωn = k , 0 ≤ k ≤ n : n −k k ( ω1 ) P ( A1 ( ωn ) ∩ ... ∩ An ∏ j =1 ( r + ( j − 1)c )∏ j =1 ( s + ( j − 1)c ) =: p . )= k n ∏ j =1 (a + ( j − 1)c ) Sei A das Ereignis, genau k rote Kugeln in n Ziehungen zu erhalten, dann gilt: P ( A ) = P ∑ ( ω1 ,...,ωn )∈{ 0,1}n , A1( ω1 ) ∩ ... ∩ An( ωn ) ( ) ω1 +...+ ωn =k n = ∑ n pk = k pk (Polyarchisches Urnenmodell). ( ω1 ,...,ωn )∈{ 0,1 } , ( ) ω1 +...+ ωn =k 17 18 Kapitel 3 Messbare Funktionen und Bildmaße, Zufallsvariablen und ihre Verteilungen Messbare Funktionen und Bildmaße Definition 3.1 Sei Ω eine nichtleere Menge, A eine σ -Algebra über Ω . Das Paar ( Ω, A ) heißt Messraum. Seien ( Ω, A ) und ( R, S ) Messräume. Eine Abbildung f : Ω → R heißt ( A, S ) -messbar, wenn f −1 ( B ) ∈ A für jedes B ∈ S zutrifft. Wir schreiben in diesem Fall f : ( Ω, A ) → ( R, S ) . Ist S = σ ( E ) für ein Mengensystem E ⊂ P ( R ) , so ist eine Abbildung f : Ω → R genau dann ( A, S ) messbar, wenn f −1 ( E ) ∈ A für jedes E ∈ E zutrifft. Es ist nämlich { B ∈ S | f −1 ( B ) ∈ A } eine σ -Algebra auf R , die das Mengensystem E enthält. Hieraus folgt, dass jede stetige Funktion f : Rd → R p ( Bd , B p ) -messbar ist. Im Folgenden betrachten wir Funktionen mit Werten in R . Mit B = B ∪ { B ∪ { ∞ } | B ∈ B } ∪ { B ∪ { −∞ } | B ∈ B } ∪ { B ∪ { ±∞ } | B ∈ B } liegt eine σ -Algebra auf R mit B R := { B ∩ R | B ∈ B } = B vor. Ferner ist B = σ ( {(a, ∞ ] | a ∈ R } ) = σ ( {[ a, ∞ ] | a ∈ R } ) = σ ( {[ −∞, b ) | b ∈ R } ) = σ ( {[ −∞, b ] | b ∈ R } ) , woraus unmittelbar folgt, dass eine Funktion f : Ω → R genau dann ( A, B ) -messbar ist, wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: { f > a } := { ω ∈ Ω | f ( ω ) > a } = f −1 ( ( a, ∞ ] ) ∈ A für jedes a ∈ R , { f ≥ a } := { ω ∈ Ω | f ( ω ) ≥ a } = f −1 ( [ a, ∞ ] ) ∈ A für jedes a ∈ R , { f < b } := { ω ∈ Ω | f ( ω ) < b } = f −1 ( [ −∞, b ) ) ∈ A für jedes b ∈ R , { f ≤ b } := { ω ∈ Ω | f ( ω ) ≤ b } = f −1 ( [ −∞, b ] ) ∈ A für jedes b ∈ R . Schreibweisen wie { f > a } oder { f ∈ B } ( = { ω ∈ Ω | f ( ω ) ∈ B } ) für das Urbild einer Menge B ⊂ R unter einer Abbildung f : Ω → R sind in der Maß- und Wahrscheinlichkeitstheorie üblich und werden in der Folge häufig benutzt. Funktionen f : ( Ω, A ) → ( R, B ) nennen wir ab jetzt kurz messbar. Lemma 3.2 Seien fn , n ∈ N , messbare Funktionen auf Ω . Dann sind auch die Funktionen supn ∈N fn und infn ∈N fn messbar. Beweis Es ist { supn ∈ N fn ≤ a } = ∩ { fn ≤ a } für jedes a ∈ R n ∈N und { infn ∈N fn ≥ a } = ∩ { fn ≥ a } für jedes a ∈ R . n ∈N Als Folgerung erhalten wir, dass mit messbaren Funktionen fn , n ∈ N , auch lim infn →∞ fn = supn ∈N infk ≥n fk und lim supn →∞ fn = infn ∈N supk ≥n fk messbar sind. Ist f messbar und α ∈ R , so ist auch α f messbar. Ferner ist f = f + − f − mit den nicht negativen messbaren Funktionen f + := max { f , 0 } und f − := max { −f , 0 } . Beispiel 3.3 (i) Für eine Menge A ⊂ Ω heißt die Funktion I A : Ω → R mit ⎧⎪1, ω ∈ A, I A ( ω ) = ⎪⎨ ⎪⎪⎩ 0, ω ∉ A Kapitel 3 Messbare Funktionen und Bildmaße, Zufallsvariablen und ihre Verteilungen der Indikator von A oder auch die Indikatorfunktion von A . Anstelle von I A schreiben wir auch I ( A ) , im Falle A = { f ∈ B } für eine Funktion f : Ω → R und eine Menge B ⊂ R auch I ( f ∈ B ) . Eine Indikatorfunktion I A ist genau dann messbar, wenn A ∈ A ist. (ii) Eine reelle Funktion f : Ω → R , die nur endlich viele Werte, etwa die paarweise verschiedenen Werte n α1,..., αn annimmt, hat die Darstellung f = ∑ i =1 αi I ( Ai ) mit den paarweise disjunkten Mengen Ai = { f = αi } , i = 1,..., n , deren Vereinigung Ω ist. Eine solche Funktion ist genau dann messbar, wenn Ai ∈ A für jedes i = 1,..., n gilt. Reelle nichtnegative messbare Funktionen, die nur endlich viele m Werte annehmen, nennen wir primitive Funktionen. Jede Funktion f = ∑ i =1 βi I ( Bi ) mit beliebigen nichtnegativen reellen Zahlen βi ∈ R und Mengen Bi ∈ A , i = 1,..., m , ist eine primitive Funktion. n Eine primitive Funktion hat stets eine Normaldarstellung der Form f = ∑ i =1 αi I ( Ai ) mit nichtnegativen reellen Zahlen αi und paarweise disjunkten Mengen Ai ∈ A , i = 1,..., n , deren Vereinigung Ω ist. Wir bezeichnen die primitiven Funktionen mit P . Wir nennen eine Folge von nichtnegativen Funktionen auf fn : Ω → R , n ∈ N , isoton konvergent gegen die nichtnegative Funktion f : Ω → R , wenn fn ≤ fn +1 für jedes n ∈ N und f = supn ∈N fn ist. Wir drücken dies durch die Schreibweise fn ↑ f aus. Satz 3.4 Sei f ≥ 0 messbar. Dann gibt es eine Folge von Funktionen fn ∈ P , n ∈ N , mit fn ↑ f . Beweis Für n ∈ N sind −n −n i = 0,..., n 2n − 1, ⎧ ⎪ {i 2 ≤ f < ( i + 1 ) 2 }, Ain = ⎪ ⎨ { f ≥ n }, i = n 2n , ⎪ ⎪ ⎩ n 2n paarweise disjunkte Mengen aus A . Die Folge der Funktionen fn = ∑ i = 0 i 2−n I Ain , n ∈ N , leisten das Verlangte. Korollar 3.5 Sind f , g messbar, so sind auch f + g , f − g , f ⋅ g und f / g (sofern definiert in dem Sinne, dass f ( ω ) ± g ( ω ) niemals von der Form ∞ − ∞ oder −∞ + ∞ und f ( ω ) / g ( ω ) niemals von der Form ±∞ /± ∞ oder a / 0 ist) messbar. Beweis Übungsaufgabe. Definition 3.6 Ist µ ein Maß auf der σ -Algebra A auf Ω , ( R, S ) ein Messraum und f : ( Ω, A ) → ( R, S ) , so wird durch µ f ( B ) := µ ( f −1 ( B ) ) , B ∈ S , ein Maß auf S definiert. µ f heißt Bildmaß von µ unter f . Sei ( Ω, A ) ein Messraum, d.h. Ω ≠ ∅ , A σ -Algebra über Ω . Sei weiter ( R, S ) ein Messraum. Ist µ ein ∞ Maß auf A und ist f : Ω → R messbar, so gilt für paarweise disjunkte B1, B2 ,... ∈ S mit ∑ n =1 Bn ∈ S : µf ∞ ∞ ∞ ∞ ∞ n =1 n =1 ( ∑ n =1 Bn ) = µ ( f −1 ( ∑ n =1 Bn ) ) = µ ( ∑ n =1 f −1 ( Bn )) = ∑ µ ( f −1 ( Bn )) = ∑ µ f ( Bn ) . Definition 3.7 Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( R, S ) ein Messraum. Dann heißt X : ( Ω, A ) → ( R, S ) eine Zufallsvariable. Das Bildmaß P X ist ein Wahrscheinlichkeitsmaß auf ( R, S ) und heißt die Verteilung von X . Es sei E ⊂ P ( R ) , S = σ ( E ) (die von f auf R erzeugte σ -Algebra). Sei f : Ω → R , f −1 ( E ) ∈ A für jedes E ∈ E . Dann ist f : ( Ω, A ) → ( R, S ) . Sei f : Rd → R p stetig. Dann ist f −1 (U ) ⊂ Rd offen für jedes offene U ⊂ R p . Also ist f : ( Rd , Bd ) → ( R p , B p ) . Beispiel 3.8 (i) Sei B die Borelsche σ -Algebra auf R . Dann ist I A : ( Ω, A ) → ( R, B ) genau dann, wenn A ∈ A ist. (ii) Sei f : Ω → R , f nehme genau die endlich vielen Werte a1,..., am an. Dann gilt: m f = ∑ ai I { f =a } . j =1 19 i Kapitel 3 Messbare Funktionen und Bildmaße, Zufallsvariablen und ihre Verteilungen m Es gilt zudem Ω = ∑ i =1 { f = ai } = { f = ai } ∈ A für alle i = 1,..., m . m ∑ i =1 f −1 ( {ai } ) und es ist f : ( Ω, A ) → ( R, B ) genau dann, wenn Beispiel 3.9 (Zufallsvariablen und ihre Verteilungen) Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( R, S ) ein Messraum, X : ( Ω, A ) → ( R, S ) ( X −1 ( B ) ∈ A für alle B ∈ S ). Es sei { x } ∈ S für jedes x ∈ R und es gebe eine abzählbare Menge A ⊂ R mit P ( X ∈ A ) = P ( X −1 ( A ) ) = P ( { X ∈ A } ) = 1 . Wir schreiben auch P X ( A ) . Dann gilt P X ( Ac ) = 1 − P X ( A ) = 0 . Damit erhalten wir P X = ∑ P ( X = a ) δa , a ∈A wobei P (X = PX (B ) = P ( X −1 ( { a } ) ) = P X ( { a } ) ist. Für jede Menge B ∈ S gilt dann: = = X ( X c X = P A ∩ B ) + P ( A ∩ B ) = P ( A ∩ B ) = P X ( ∑a ∈A∩B {a } ) = ∑ P X ( {a } ) a) P ({X = ∑ a }) =0 P (X = a ) = a ∈A∩B a ∈A∩B ∑ P ( X = a ) δa ( B ) = ( ∑a ∈A P ( X = a ) δa )( B ). a ∈A X In diesem Fall ist die Verteilung P eindeutig festgelegt durch die Zähldichte x P (X = x ) , x ∈ R . X Die Zufallsvariable X heißt in diesem Fall diskret verteilt. P ist die diskrete Verteilung von X . Eine Urne enthält r rote und s schwarze Kugeln, a := r + s . Es wird n -mal ohne Zurücklegen je eine Kugel gezogen, n ≤ a . Wie groß ist die Wahrscheinlichkeit, dass in den n Ziehungen genau k rote Kugeln gezogen werden? Wir nummerieren die roten Kugeln mit den Zahlen 1,...,r und die schwarzen mit r + 1,..., a . Sei Ω = {( ω1,..., ωn ) ∈ { 1,..., a }n | ωi paarweise verschieden } und A = P ( Ω ) . Wir nehmen an, P ist die diskrete Laplace-Verteilung auf Ω : A für A ⊂ Ω P (A) = Ω und X : Ω → R mit X ( ω1,..., ωn ) = { j ∈ { 1,..., n } | ω j ∈ { 1,..., r } } für ( ω1,..., ωn ) ∈ Ω . P ( X = k ) , k ∈ { 0,..., n } ). Es gilt: Wir suchen P ( X = k ) (Zähldichte hier: k { X = k } = { ( ω ,..., ω ) ∈ Ω | X ( ω ,..., ω ) = k } 1 n 1 n = {( ω1,..., ωn ) ∈ Ω | { j ∈ { 1,..., n } | ω j ∈ { 1,..., r } } = k } n ( = r r − 1 ) ⋅ ... ⋅ ( r − k + 1 ) s ( s − 1 ) ⋅ ... ⋅ ( s − ( n − k ) + 1 ) . k Es folgt für die Wahrscheinlichkeit, in den n Ziehungen genau k rote Kugeln zu erhalten: {X = k } n r ( r − 1 ) ⋅ ... ⋅ ( r − k + 1 ) s ( s − 1 ) ⋅ ... ⋅ ( s − ( n − k ) + 1 ) = P (X = k ) = Ω k a ( a − 1 ) ⋅ ... ⋅ ( a − n + 1 ) r r r s ( k )( na − n ( k )( n −k ) k ! ( n − k ) ! − k) = = a) a) k n! (n (n ( ) ( ) ( ) mit k ∈ N 0 , max{0, n + r − a } ≤ k ≤ min { r , n } . =n −s Definition 3.10 Die Verteilung einer reellen Zufallsvariable X mit der Zähldichte ( r )( a −r ) P ( X = k ) = k an −k mit k ∈ N0 , max { 0, n + r − a } ≤ k ≤ min { r , n } , (n ) heißt hypergeometrische Verteilung mit den Parametern a, r, n ∈ N , r , n ≤ a . Schreibweise: X ∼ H (a, r , n ) . Eine Anwendung dieser Verteilung ist das Zahlenlotto „6 aus 49“ mit a = 49 , r = 6 , n = 6 . Ist X die Anzahl der richtig getippten Zahlen auf einem Tippschein, so gilt: k 0 1 2 3 4 5 6 P (X = k ) 0,43596 0,41302 0, 13238 0, 1765 ⋅ 10−1 0, 9686 ⋅ 10−3 0, 1845 ⋅ 10−4 0, 7151 ⋅ 10−7 20 Kapitel 3 Messbare Funktionen und Bildmaße, Zufallsvariablen und ihre Verteilungen Eine Urne enthalte r rote und s schwarze Kugeln, a := r + s . Seien die Kugeln nummeriert wie oben. Es wird n -mal mit Zurücklegen je eine Kugel aus der Urne gezogen. Wie groß ist die Wahrscheinlichkeit, genau k rote Kugeln zu ziehen? Offensichtlich gilt: k ∈ { 0,..., n } , Ω = { 1,..., a }n . Wir nehmen an, P ist das diskrete Laplacesche Wahrscheinlichkeitsmaß auf Ω , X : Ω → R die Anzahl der gezogenen roten Kugeln mit X ( ω1,..., ωn ) = { j ∈ { 1,..., n } | ω j ∈ { 1,..., r } } , ( ω1,..., ωn ) ∈ Ω . Dann gilt: P (X = k ) = {X = k} n r k (a − r )n −k n = = Ω k an k ( )( ar ) (1 − ar ) ( ) k Definition 3.11 Die Verteilung einer reellen Zufallsvariable X mit der Zähldichte n r k r n −k P (X = k ) = 1− mit k ∈ { 0,..., n } , k a a heißt Binomialverteilung mit den Parametern n ∈ N und r p = ∈ [ 0,1 ] mit r , a ∈ N 0 , 0 ≤ r ≤ a ≠ 0 . a Schreibweise: X ∼ B ( n, p ) . ( )( ) ( ) 21 n −k . 22 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Das µ -Integral Sei ( Ω, A ) ein Messraum, µ ein Maß auf A . Für eine Funktion f ∈ P , der Menge der reellen nichtnegativen n primitiven Funktionen in Normaldarstellung f = ∑ j =1 α j I Aj mit reellen nichtnegativen Zahlen α1,..., αn und n paarweise disjunkten A1,..., An ∈ A mit ∑ j =1 Aj = Ω , definieren wir das µ -Integral von f durch ∫ n ∑ αj µ ( Aj ) . f dµ = j =1 m Die Definition ist sinnvoll, denn für eine andere Normaldarstellung von f , etwa f = ∑ i =1 βi I Bi mit reellen, m nichtnegativen Zahlen β1,..., βm und paarweise disjunkten Mengen B1,..., Bm ∈ A mit ∑ i =1 Bi = Ω ist α j = βi , falls Aj ∩ Bi ≠ ∅ ist, also n n n m m ∑ αj µ ( Aj ) = ∑ αj µ ( ∑ i =1 ( Aj ∩ Bi ) ) = ∑ ∑ αj µ ( Aj ∩ Bi ) j =1 j =1 m n = m j =1 i =1 ∑ βi µ ( ∑ j =1 ( Bi ∩ Aj ) ) = ∑ ∑ βi µ ( Bi ∩ Aj ) = i =1 j =1 n i =1 m ∑ βi µ ( Bi ). i =1 Einige elementare Eigenschaften des µ -Integrals sind unmittelbar klar: ∫ I A d µ = µ ( A ) für jedes A ∈ A , ∫ α f d µ = α ∫ f d µ für f ∈ P und α ∈ R+ , ∫ ( f + g )d µ = ∫ f d µ + ∫ g d µ für f , g ∈ P , ∫ f d µ ≤ ∫ g d µ für f , g ∈ P , f ≤ g . n Aus den Eigenschaften (4.1)-(4.3) ergibt sich, dass im Falle f = ∑ j =1 α j I A ∈ P n Zahlen α1,..., αn und beliebigen A1,..., An ∈ A gilt ∫ f d µ = ∑ j =1 αj µ ( Aj ) . j (4.1) (4.2) (4.3) (4.4) mit reellen nichtnegativen Lemma 4.1 Seien f , fn ∈ P , n ∈ N , mit fn ≤ fn +1 für jedes n ∈ N und f ≤ supn ∈N fn . Dann gilt: ∫ f d µ ≤ nsup ∫ fn d µ . ∈N Beweis Für α ∈ ( 0,1 ) und Bn = { fn ≥ α f } ist Bn ↑ Ω und fn ≥ α fI Bn für jedes n ∈ N , so dass für n f = ∑ αj I A j j =1 folgt: ∫ n fn d µ ≥ α ∑ α j µ ( Bn ∩ Aj ) . j =1 Der Grenzübergang n → ∞ liefert n sup ∫ fn d µ ≥ α ∑ α j µ ( Aj ) = α ∫ f d µ , n ∈N j =1 so dass mit dem anschließenden Grenzübergang α ↑ 1 die Behauptung folgt. Lemma 4.2 Seien fn , gn ∈ P , n ∈ N , mit fn ↑ supn ∈N fn , gn ↑ supn ∈N gn und supn ∈ N fn = supn ∈N gn . Dann gilt: sup ∫ fn d µ = sup ∫ gn d µ . n ∈N n ∈N Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Beweis Aus fn ≤ supn ∈N gn folgt ∫ fn d µ ≤ supn ∈N ∫ gn d µ mit Lemma 4.1. Also ist supn ∈ N Genauso ergibt sich supn ∈ N ∫ gn d µ ≤ supn ∈ N ∫ fn d µ . ∫ fn d µ ≤ supn ∈N ∫ gn d µ . Es sei M := M ( Ω, A ) := { f | f : ( Ω, A ) → ( R, B ) } die Menge der messbaren Funktionen auf Ω , M+ := M+ ( Ω, A ) := { f | f : ( Ω, A ) → ( R, B ), f ≥ 0 } die Menge der nichtnegativen messbaren Funktionen auf Ω . Aufgrund von Lemma 4.2 ist die folgende Definition sinnvoll: Definition 4.3 (i) Es sei f ∈ M+ und fn ∈ P für jedes n ∈ N mit fn ↑ f . Dann heißt ∫ f d µ = nsup ∫ fn d µ ∈N das µ -Integral von f . (ii) Es sei f ∈ M mit der Eigenschaft, dass Funktion mit existierendem µ -Integral ∫ f + dµ < ∞ oder ∫ f − dµ < ∞ ∫ f dµ = ∫ f + dµ − ∫ f − dµ . Eigenschaft, dass ∫ f + dµ < ∞ und ∫ f − dµ < ∞ (iii) Es sei f ∈ M mit der integrierbar und die reelle Zahl ist. Dann heißt f eine ist. Dann heißt f µ- ∫ f dµ = ∫ f + dµ − ∫ f − dµ ist das µ -Integral von f . Einige elementare Eigenschaften des µ -Integrals sind klar: ∫ α f d µ = α ∫ f d µ für f ∈ M+ und α ∈ R , α ≥ 0 , ∫ ( f + g )d µ = ∫ f d µ + ∫ g d µ für f , g ∈ M+ , ∫ f d µ ≤ ∫ g d µ für f , g ∈ M+ , f ≤ g . (4.5) (4.6) (4.7) Aus den Eigenschaften (4.6) und (4.7) folgt wegen f = f + + f − für eine Funktion f ∈ M , dass f genau dann µ -integrierbar ist, wenn f µ -integrierbar ist. Allgemeiner gilt für jedes f ∈ M mit existierendem µ -Integral: ∫ f dµ ≤ ∫ f dµ . Im Falle f , g ∈ M mit f ≤ g folgt aus der µ -Integrierbarkeit von g die µ -Integrierbarkeit von f . Ferner folgt, dass für reellwertige µ -integrierbare Funktionen f , g ∈ M und reelle Zahlen α, β ∈ R auch die reellwertige Funktion α f + β g ∈ M µ -integrierbar ist, wobei ∫ ( α f + β g )d µ = α ∫ f d µ + β ∫ g d µ (4.8) ist. Darüber hinaus folgt für reellwertige µ -integrierbare Funktionen f , g ∈ M mit f ≤ g : ∫ f dµ ≤ ∫ g dµ . (4.9) Die Menge L := L ( Ω, A, µ ) := { f ∈ M ( Ω, A ) | f reellwertig und µ -integrierbar } ist daher ein reeller Vektorraum. Das µ -Integral ist ein positives lineares Funktional auf L ( Ω, A, µ ) . Satz 4.4 (Satz von der monotonen Konvergenz) Seien f , fn ∈ M+ , n ∈ N , mit fn ↑ f . Dann gilt: supn ∈N ∫ fn d µ = ∫ f d µ . Beweis Für jedes n ∈ N sei die Folge der reellen nichtnegativen primitiven Funktionen unk , k ∈ N , isoton konvergent gegen fn . Für jedes k ∈ N ist vk := max1≤n ≤k unk ∈ P und vk ≤ vk +1 . Aus 0 ≤ unk ≤ vk ≤ fk für n ≤ k 23 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen folgt 0 ≤ fn ≤ sup vk ≤ f für jedes n ∈ N k ∈N und damit vk ↑ f . Hieraus resultiert wegen ∫ f d µ = sup ∫ vk d µ ≤ sup ∫ fk d µ ≤ ∫ f d µ k ∈N k ∈N die Behauptung. Lemma 4.5 (Lemma von Fatou) Seien fn ∈ M+ , n ∈ N . Dann ist inf fn d µ ≤ lim inf ∫ fn d µ . ∫ lim n →∞ n →∞ Beweis Mit gn := infk ≥n fk für n ∈ N ist gn ↑ f = lim infn →∞ fn , also inf gn d µ ≤ lim inf ∫ fn d µ . ∫ f d µ = nsup ∫ gn d µ = lim n →∞ ∫ n →∞ ∈N Satz 4.6 (Satz von der majorisierten Konvergenz) Seien g, fn ∈ M reellwertig, n ∈ N . Sei fn ≤ g für jedes n ∈ N . Sei f := limn →∞ fn und g µ -integrierbar. Dann sind f , fn , n ∈ N , µ -integrierbar und lim n →∞ ∫ fn − f dµ = 0 . Beweis Die µ -Integrierbarkeit von f und fn ist klar. Es ist 0 ≤ 2g − fn − f Lemma von Fatou 0≤ inf ( 2g − fn − f )d µ ∫ 2g d µ = ∫ lim n →∞ ≤ lim inf ∫ ( 2g − fn − f )d µ n →∞ = ∫ 2g d µ − lim sup ∫ fn − f n →∞ für jedes n ∈ N , so dass mit dem d µ, also lim supn →∞ ∫ fn − f dµ = 0 folgt. Bemerkung 4.7 (i) Sei ( Ω, A ) ein Messraum, µ ein Maß auf A , A ∈ A . Dann ist AA := { A ∩ B | B ∈ A } eine σ Algebra auf A . AA heißt Spur- σ -Algebra von A auf A . Sei 0 < µ ( A ) < ∞ . Durch µA : AA → [ 0, ∞ ) mit µA ( B ) = µ ( B ) , B ∈ AA , wird ein Maß auf AA definiert. Dann ist 1 µ µ(A) A ein Wahrscheinlichkeitsmaß auf AA . Ist ν : AA → [ 0, ∞ ] ein weiteres Maß, so wird durch µ : A → [ 0, ∞ ] mit µ ( B ) = ν ( A ∩ B ) , B ∈ A , ein Maß auf A definiert mit der Eigenschaft µ|AA = ν . Sei speziell ( Ω, A ) = ( Rd , Bd ) , µ = λd und sei A ∈ Bd mit 0 < λd ( A ) < ∞ . Das Wahrscheinlichkeitsmaß 1 λd λd ( A ) A heißt Gleichverteilung auf A . Ist A = ( 0,1 ) für d = 1 , so ist λ( 0,1 ) := λ(10,1 ) ein Wahrscheinlichkeitsmaß auf B( 0,1 ) := {( 0,1 ) ∩ B | B ∈ B } . Beachte: Es ist λ( 0,1 ) ( { x } ) = 0 für jedes x ∈ R , denn: ∞ { x} = ∩ ( x − n1 , x ] . n =1 Also folgt λ( 0,1 ) ( { x } ) = lim λ( 0,1 ) ( ( x − n1 , x ] ) = 0 . n →∞ 24 =1/ n Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen λ( 0,1 ) ist die Gleichverteilung auf ( 0,1 ) . Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( Rd , Bd ) . Dann heißt X auf A gleichverteilt, wenn gilt PAX = 1 λd d( ) A λ A . Die Zufallsvariable X : ( Ω, A ) → ( A, BA ) heißt ebenfalls auf A gleichverteilt, wenn gilt: 1 PX = d λd . λ (A) A Speziell ist X : ( Ω, A ) → ( R, B ) auf ( 0,1 ) gleichverteilt, wenn P(X0,1 ) = λ( 0,1 ) ist. (ii) Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( R, B ) . Dann ist die Verteilung von X eindeutig festgelegt durch ihre Verteilungsfunktion F ( x ) = P X ( ( −∞, x ] ) = P ( X −1 ( ( −∞, x ] ) ) = P ( X ∈ ( −∞, x ] ) = P ( X ≤ x ) , x ∈ R . Ist X : ( Ω, A ) → ( Rd , Bd ) , X = ( X1,..., Xd ) , so ist die Verteilung von X eindeutig festgelegt durch ihre Verteilungsfunktion F ( x1,..., xd ) = P X ( ( −∞, x1 ] × ... × ( −∞, xd ] ) = P ( { X1 ≤ x1 } ∩ ... ∩ { Xd ≤ xd } ) = P ( X1 ≤ x1,..., Xd ≤ xd ) für ( x1,..., xd ) ∈ Rd . Definition 4.8 ∫ X + dP < ∞ E ( X ) = ∫ X dP = ∫ X + dP − ∫ X − dP ist integrierbar, wenn ∫ X dP < ∞ gilt. Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( R, B ) . Ist der Erwartungswert von X . X oder ∫ X − dP < ∞ , so heißt Beispiel 4.9 Sei A σ -Algebra. Dann gilt: (i) Sei A ∈ A , X = I A . Dann ist E ( X ) = P ( A ) . n (ii) Seien A1,..., An ∈ A , X = ∑ i =1 I Ai . Dann gilt: E ( X ) = E ( ∑ i =1 I Ai ) = n n n ∑ E ( I A ) = ∑ P ( Ai ) . i =1 i i =1 Beispiel 4.10 Eine Urne enthält r rote und s schwarze Kugeln, a := r + s . Wir nummerieren die roten Kugeln mit 1,...,r und die schwarzen mit r + 1,..., a . Es wird n -mal (1) mit Zurücklegen, (2) ohne Zurücklegen je eine Kugel gezogen. Die Zufallsvariable X beschreibe die Anzahl der gezogenen roten Kugeln in n Ziehungen. Gesucht wird der Erwartungswert von X . Sei Bi das Ereignis, dass bei der i -ten Ziehung eine rote Kugel gezogen wird. Dann ist n X = ∑ i =1 I Bi und es gilt: (1) Offensichtlich ist Ω1 = { 1,..., a }n . Sei A = P ( Ω1 ) . Für die Bi gilt: Bi = {( ω1,..., ωn ) ∈ Ω1 | ωi ∈ { 1,..., r } } , i = 1,..., n . P ist hier das diskrete Laplacesche Wahrscheinlichkeitsmaß und es gilt: n n n ra n −1 r r n = np . E ( X ) = E ( ∑ i =1 I Bi ) = ∑ P ( Bi ) = ∑ n = ∑ = n a a a i =1 i =1 i =1 ( ) =: p Bekanntlich ist X ∼ B ( n, p ) . Also gilt für den Erwartungswert binomialverteilter Zufallsvariablen: E ( X ) = np . (2) Es ist Ω2 = {( ω1,..., ωn ) ∈ Ω1 | ωi paarweise verschieden,i = 1,..., n } und n ≤ a . Sei A = P ( Ω2 ) . P ist hier wieder das diskrete Laplacesche Wahrscheinlichkeitsmaß und für die Bi gilt: Bi = {( ω1,..., ωn ) ∈ Ω2 | ωi ∈ { 1,..., r } } , i = 1,..., n . Also folgt: 25 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen n E (X ) = ∑ P ( Bi ) = i =1 n r ( a − 1 ) ⋅ ... ⋅ ( a − n + 1 ) ∑ a (a − 1 ) ⋅ ... ⋅ (a − n + 1 ) = i =1 n r r ∑a = n a . i =1 Bekanntlich ist X ∼ H (a, r , n ) . Also gilt für den Erwartungswert hypergeometrisch verteilter Zufallsvariablen: r E (X ) = n . a Eigenschaften von µ -Integralen und Beispiele zur Berechnung von µ -Integralen Definition 4.11 Es sei ( Ω, A ) ein Messraum, µ ein Maß auf A . Mengen N ∈ A mit µ ( N ) = 0 heißen µ -Nullmengen. Ist E eine Eigenschaft derart, dass für jedes ω ∈ Ω definiert ist, ob ω diese Eigenschaft hat oder nicht, so sagt man: „ E gilt µ -fast überall ( µ -f.ü.)“, wenn es eine µ -Nullmenge N ∈ A gibt, so dass E für jedes ω ∈ N c gilt. Satz 4.12 Es sei f ∈ M+ . Genau dann ist f = 0 µ -f.ü., wenn ∫ f d µ = 0 ist. Beweis Ist f = 0 µ -f.ü., so ist µ ( f ≠ 0 ) = 0 . Aus f ≤ supn ∈N nI ( f ≠ 0 ) folgt 0≤ Wegen folgt umgekehrt aus n∫ I ( f ∫ f d µ ≤ nsup ∈N ∫ f d µ = ∫ fI ( f > 0 )d µ = sup ∫ fI ( f n ∈N 0 = ∫ f d µ auch µ ( f > 0 ) = 0 . ≠ 0 )d µ = 0 . > ) ( 1 1 1 d µ ≥ sup µ f > n n n ∈N n ) Korollar 4.13 Ist f : ( Ω, A ) → ( R, A ) und ist N ∈ A eine µ -Nullmenge, so gilt ∫ fI N d µ = 0 . Beweis Für eine Funktion f : ( Ω, A ) → ( R, A ) mit existierendem µ -Integral und Mengen A ∈ A schreiben wir ∫A f d µ für ∫ fI A d µ . Satz 4.14 Sei f ∈ M+ . Durch ν (A) = ∫A f d µ , A∈A, wird ein Maß ν auf ( Ω, A ) definiert. Dann ist jede µ -Nullmenge ist eine ν -Nullmenge. Beweis Natürlich ist ν ( ∅ ) = 0 . Die σ -Additivität von ν folgt aus dem Satz (4.4) von der monotonen Konvergenz. Ist A ∈ A und µ ( A ) = 0 , so ist nach Korollar 4.13 auch ν ( A ) = 0 . Definition 4.15 Ein Maß ν mit der in Satz 4.14 gegebenen Darstellung heißt Maß mit der µ -Dichte f . Wir drücken diesen Sachverhalt durch die Schreibweise d ν = f d µ aus. Diese Schreibweise liegt vor allem auf Grund des folgenden Satzes nahe. Satz 4.16 Sei f ∈ M+ , d ν = f d µ . Für jede Funktion g ∈ M+ ist ∫ g d ν = ∫ gf d µ . 26 (4.1) Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Für eine Funktion g ∈ M existiert das ν -Integral von g genau dann, wenn das µ -Integral von gf existiert. In diesem Fall gilt die Identität (4.1). Beweis Wir verwenden das Prinzip der algebraischen Induktion: der Beweis der behaupteten Aussage erfolgt sukzessive für eine Indikatorfunktion g , eine nichtnegative primitive Funktion g , eine nichtnegative ( A, B ) messbare Funktion g und schließlich über die Zerlegung g = g + − g − für eine beliebige ( A, B ) -messbare Funktion g . Für eine Indikatorfunktion g ist die Aussage unmittelbare Konsequenz aus der Definition von ν . Wegen der Linearitätseigenschaften der µ - und ν -Integrale ist sie damit auch für primitive Funktionen klar. Für un ∈ P mit un ↑ g ∈ M+ folgt aus dem Satz (4.4) von der monotonen Konvergenz ∫ g d ν = sup ∫ uk f d µ = ∫ gf d µ . k ∈N Für g ∈ M liefert dieses Resultat bei Anwendung auf g + und g − die behauptete Aussage. Satz 4.17 (Transformationssatz für Integrale) Sei T : ( Ω, A ) → ( R, S ) , µ ein Maß auf ( Ω, A ) . Für jede Funktion g ∈ M+ ( R, S ) gilt ∫g T dµ = ∫ g d µT . (4.2) Für eine Funktion g : ( R, S ) → ( R, B ) existiert das µ -Integral von g T genau dann, wenn das µT -Integral von g existiert. In diesem Fall gilt die Identität (4.2). Beweis Ergibt sich sehr einfach wieder durch Anwendung des Prinzips der algebraischen Induktion. Beispiel 4.18 (i) Es sei µ = δa das Einpunktmaß in a ∈ Ω und f : ( Ω, A ) → ( R, B ) . Mit Hilfe des Prinzips der algebraischen Induktion macht man sich sofort klar, dass ∫ f d δa = f (a ) ist. ∞ (ii) Es sei ( Ω, A ) = ( N, P ( N ) ) und τ = ∑ n =1 δn das Zählmaß auf ( Ω, A ) . Für jede nichtnegative Funktion f : N → R folgt aus dem Satz (4.4) von der monotonen Konvergenz: ∫ f dτ = ∫ ∞ ∞ ∑ n =1 fI { n } dτ = ∑∫ ∞ fI { n } dτ = n =1 ∑ f ( n ) τ ( {n } ) = n =1 ∞ ∑f ( n). n =1 ∞ Damit ist klar, dass eine Funktion f : N → R genau dann τ -integrierbar ist, wenn ∑ n =1 f ( n ) < ∞ ∞ ist. Das τ -Integral von f ist in diesem Fall ∫ f d τ = ∑ n =1 f ( n ) . (iii) Es sei ( µn )n ∈N eine Folge von Maßen µn auf ( Ω, A ) , ( αn )n ∈N eine Folge von Zahlen αn ∈ [ 0, ∞ ] und µ = ∑ n ∈N αn µn . Für eine nichtnegative Funktion f : ( Ω, A ) → ( R, B ) ist αn ∫ f d µn ∫ f d µ = n∑ ∈N (4.3) Dies zeigt man wieder mit Hilfe des Prinzips der algebraischen Induktion: Für eine Indikatorfunktion f ist die Aussage unmittelbare Konsequenz aus der Definition von µ . Wegen der Linearitätseigenschaften der µ - und µn -Integrale ist sie damit auch für nichtnegative primitive Funktionen klar. Ist ( uk )k∞=1 eine monoton wachsende Folge von nichtnegativen primitiven Funktion uk mit supk ∈ N uk = f , so haben wir ∫ ∞ f d µ = sup ∫ uk d µ = sup ∑ αn ∫ uk d µn = sup ∫ hk d τ , k ∈N k ∈ N n =1 k ∈N (4.4) wobei τ das Maß aus (ii) auf ( N, P ( N ) ) und hk : N → [ 0, ∞ ] die durch hk ( n ) = αn ∫ uk d µn , n ∈ N , definierte Funktion ist. Es folgt aus der Definition und der Isotonie-Eigenschaft des µn -Integrals, dass ( hk )k ∈N eine monoton wachsende Folge von Funktionen mit supk ∈ N hk = h ist. Die Anwendung des Satzes (4.4) von der monotonen Konvergenz führt auf sup ∫ hk d τ = k ∈N h ∫ h d τ = n∑ ∈N ( n) = ∑ αn ∫ f d µn n ∈N und daher wegen (4.4) auf die behauptete Aussage (4.3). Ist speziell ( µn )n ∈N eine Folge von Einpunktmaßen µn = δan , an ∈ Ω , so erhalten wir αn f ( an ) . ∫ f d µ = n∑ ∈N In diesem Fall ist eine Funktion f : ( Ω, A ) → ( R, B ) offenbar genau dann µ -integrierbar, wenn ∞ ∑ n =1 αn f (an ) < ∞ ist. Es gilt dann 27 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen ∫ ∞ f dµ = ∑ αn f (an ) . n =1 Sei λd das Lebesgue-Borelsche Maß auf der Borelschen σ -Algebra Bd von Rd . Für jedes a ∈ R und alle −∞ < a j < bj < ∞ für j = 2,..., d ist 1 ⎤ ∞ λd ( {a } × ( a2 , b2 ] × ... × ( ad , bd ]) = lim λd ∩n =1 a − , a ⎥ × ( a2 , b2 ] × ... × ( ad , bd ] n →∞ n ⎦ d 1 = lim ∏ (bj − a j ) = 0. n →∞ n j =2 ( ) ( Für a j → −∞ , bj → ∞ , j = 2,..., d , folgt hieraus λd ( {a } × Rd −1 ) = 0 . Mit analoger Argumentation ergibt sich allgemeiner λd ( R j −1 × {a } × Rd − j ) = 0 für j = 2,..., d . Achsenparallele Hyperebenen haben somit das λd -Maß 0. Im Fall d = 1 schreiben wir λ für λ1 . Es ist λ ( { x } ) = 0 . Daher ist für jedes Intervall I , gleichgültig ob offen, halboffen oder abgeschlossen, λ ( I ) gleich der Länge von I . Für eine Menge A ∈ Bd heißt λAd = λBd d das Lebesgue-Borelsche Maß auf der Spur- σ -Algebra A BAd = { A ∩ B | B ∈ Bd } . Satz 4.19 (i) Sei −∞ < a < b < ∞ , f : ( [ a, b ], B[ a,b ] ) → ( R, B ) Riemann-integrierbar. Dann ist f λ[ a,b ] -integrierbar und b ∫a f ( x )dx = ∫ f d λ[a,b ] . (ii) Sei f : ( R, B ) → ( R, B ) nichtnegativ und uneigentlich Riemann-integrierbar. Dann ist f λ -integrierbar und ∞ ∫−∞ f ( x )dx = ∫ f dλ . Beweis (i) Für jede Zerlegung a = a 0 < a1 < ... < am −1 < am = b von [ a, b ] gilt m m ∑ inf { f ( x ) | an −1 ≤ x ≤ an } (an − an −1 ) ≤ ∑ ∫a n =1 n =1 m [ n −1 ,an ] ∑ sup { f ≤ ( f d λ[ a,b ] x ) | an −1 ≤ x ≤ an } ( an − an −1 ) n =1 und darüber hinaus m ∑ ∫a n =1 [ n −1 ,an ] f d λ[a,b ] = ∫ f d λ[a,b ] , so dass die Behauptung aus der Definition des Riemann-Integrals folgt. (ii) Dies folgt aus der Definition des uneigentlichen Riemann-Integrals, dem Satz (4.4) von der monotonen Konvergenz und der Tatsache, dass für alle −∞ < a < b < ∞ gilt: ∫ fI[a,b ] d λ = ∫ f |[a,b ] d λ[a,b ] . Anstelle von ∫ f d λ[a,b ] bzw. ∫ f dλ schreiben wir auch b ∫a f ( x )dx bzw. ∞ ∫−∞ f ( x )dx . Treten solche Integrale in der Folge auf, wollen wir sie als λ[a,b ] - bzw. λ -Integrale auffassen. Ist ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( R, B ) eine Zufallsvariable, f : ( R, B ) → ( R, B ) eine λ -Dichte (oder spezieller sogar eine Riemannsche Wahrscheinlichkeitsdichte) von X (genauer: von P X ), so gilt für jede nichtnegative Funktion g : ( R, B ) → ( R, B ) E (g X)= ∫g X dP = ∫ g dP X = ∫ gf d λ . (4.5) Für eine beliebige Funktion g : ( R, B ) → ( R, B ) sind die P -Integrierbarkeit von g X , die P X Integrierbarkeit von g und die λ -Integrierbarkeit von gf äquivalent, und es gilt (4.5) für die entsprechenden endlichen Erwartungswerte und Integrale. 28 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Definition 4.20 Ist ( R, S ) ein Messraum mit der Eigenschaft, dass { x } ∈ S für jedes x ∈ R ist, so heißt eine Zufallsvariable X : ( Ω, A ) → ( R, S ) diskret verteilt, wenn es eine abzählbare Menge S ⊂ R mit P X ( S ) = P ( X ∈ S ) = 1 gibt. In diesem Fall ist P ( X = a ) = 0 für jedes a ∉ S und P X = ∑ P ( X = a ) δa = ∑ P ( X = a ) δa . a ∈S a ∈R Für jede nichtnegative Funktion g : ( R, S ) → ( R, B ) ist der Erwartungswert der Zufallsvariable g stellbar in der Form E (g X)= ∫ g dP X = ∑g ( a )P ( X = a ) = ∑g ( a )P (X = a ) . X dar(4.6) a ∈R a ∈S Für eine beliebige Funktion g : ( R, S ) → ( R, B ) ist die Integrierbarkeit von g ∑ g (a ) P ( X = a ) < ∞ X äquivalent mit a ∈S und es gilt die Darstellung (4.6). Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( R, B ) . X habe eine λ -Dichte f , d.h. dP X = f d λ , also P (X ∈ B ) = PX (B ) = ∫ fI B d λ = ∫B f d λ für B ∈ B . Ist f uneigentlich Riemann-integrierbar, so gilt P ( X ∈ [ a, b ] ) = P X ( [ a, b ] ) = b ∫[a,b ] f d λ = ∫ f d λ[a,b ] = ∫a f ( x )dx für a, b ∈ [ −∞, ∞ ] , als Riemann-Integral aufgefasst. Es gilt: E (X ) = Sind die Funktionen x so gilt ∞ ∫−∞ max { xf ( x )d λ ( x ) . − min ( xf ( x ), 0 ) , x ∈ R , uneigentlich Riemann-integrierbar, max { xf ( x ), 0 } und x E (X ) = ∫ xf ( x ), 0 }dx + ∫ ∞ −∞ und damit E (X ) = ∞ ∫−∞ xf ( min { xf ( x ), 0 }dx x )dx . Gilt dP X = f d λ , so heißt die Zufallsvariable X absolut-stetig verteilt mit der λ -Dichte f . Beispiel 4.21 (i) Sei X eine reelle Zufallsvariable. X (genauer: P X ) habe die λ -Dichte 1 1 ( x − a )2 , x ∈R. f (x ) = exp − 2 2 σ2 2πσ Dann heißt X gleichverteilt mit den Parametern a ∈ R und σ 2 > 0 . Schreibweise: X ∼ N ( a, σ 2 ) . Für den Erwartungswert gilt: ∞ ( x − a )2 1 E (X ) = ∫ x exp − dx 2 −∞ 2σ 2 2πσ ∞ ∞ ( x − a )2 ( x − a )2 1 1 = ∫ (x − a ) exp − dx + a ∫ exp − dx 2 2 2 −∞ −∞ 2πσ 2σ 2σ 2 =:y 2πσ ( ( ) ) ( ) ⎛ y2 ⎞ =∫ y exp ⎜⎝⎜ − 2 ⎠⎟⎟dy + a = a. 2 −∞ 2σ 2πσ ∞ 1 =0 (ii) X (genauer: P X ) habe die Dichte ⎧ ⎪ b −1a , f (x ) = ⎪ ⎨ 0, ⎪ ⎪ ⎩ Dann gilt: 29 a ≤ x ≤ b, sonst. ( =1 ) Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen P (X =x = ) x ∫−∞ f ( t ) dt 0, ⎧ ⎪ ⎪ ⎪ = ⎨ xb −−aa , ⎪ ⎪ 1, ⎪ ⎪ ⎩ x ≤ a, a < x < b, x ≥ b. Dann heißt X rechteckverteilt auf [ a, b ] . Schreibweise: X ∼ R ( a, b ) . Für den Erwartungswert gilt: E (X ) = ∞ ∫−∞ xf ( x )dx = b 1 ∫a x b − a dx = a +b . 2 (iii) X habe die Dichte x < 0, x ≥ 0. ⎧ ⎪ 0, f (x ) = ⎪ ⎨ λ exp ( −λx ), ⎪ ⎪ ⎩ Dann gilt: P (X ≤ x ) = 0, ⎧ ⎪ ⎪ x ∫−∞ f ( t )dt = ⎪⎨⎪⎪ ∫ x λ exp ( −λt )dt, ⎪ ⎩ 0 ⎧ ⎪ 0, =⎪ ⎨1 − exp ( −λx ), ⎪ ⎪ ⎩ Dann heißt X exponentialverteilt mit dem Parameter λ > 0 . Schreibweise: X ∼ Exp ( λ ) . Für den Erwartungswert gilt: E (X ) = ∞ ∫−∞ xf (iv) X habe die Dichte f (x ) = ( x )dx = ∞ ∫0 x < 0, x ≥0 x < 0, x ≥ 0. x λ exp ( −λx )dx = 1 . λ σ 1 , x ∈R. π σ 2 + ( x − µ )2 Dann gilt: x −µ für x ∈ R . σ Dann heißt X Cauchy-verteilt mit den Parametern µ ∈ R und σ 2 > 0 . Schreibweise: X ∼ C ( µ, σ ) . Aus ∞ ∞ σ 1 ∫0 xf ( x )dx = ∫0 x π σ2 + ( x − µ )2 dx = ∞ und P (X ≤ x ) = 1 1 ∫−∞ f ( t )dt = 2 + π arctan ( x 0 ∫−∞ xf ( ) x )dx = ... = 0 folgt, dass der Erwartungswert von X nicht existiert. Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( R, S ) ein Messraum, { x } ∈ S für alle x ∈ R . Sei des Weiteren X : ( Ω, A ) → ( R, S ) . X habe eine diskrete Verteilung, d.h. es gibt eine abzählbare Teilmenge A ⊂ R mit P ( X ∈ A ) = 1 . Dann gilt: P X = ∑ P ( X = a ) δa . a ∈A Sei g : ( R, S ) → ( R, B ) . Dann ist g (i) g ≥ 0 : E (g (ii) g = g + − g − . Ist E ( g + X : ( Ω, A ) → ( R, B ) und es gibt zwei Fälle für den Erwartungswert: X)= ∫g X dP = ∫ g dP X ∑g ( a )P (X = a ) . a ∈A X ) < ∞ oder E ( g − X ) < ∞ , so gilt E ( g X ) = ∑ g + (a ) P ( X = a ) − ∑ g − (a ) P ( X = a ) . a ∈A Es ist E ( g = a ∈A X ) < ∞ genau dann, wenn ∑ g (a ) P ( X = a ) < ∞ . a ∈A Es gilt dann 30 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen X)= E (g ∑g ( a )P (X = a ) . a ∈A Sei speziell ( R, S ) = ( R, B ) , g ( x ) = x . Dann ist E ( X ) < ∞ genau dann, wenn ∑ a P (X = a ) < ∞ . a ∈A Es ist dann ∑ aP ( X = a ) = ∑ xP ( X E (X ) = = x). x ∈R a ∈A Es gilt E (X ) = ∑ xP ( X = x ) („ X diskret“), x ∈R E (X ) = ∞ ∫−∞ xf ( x )dx = ∫ xf ( x )d λ ( x ) („ X absolut stetig verteilt mit λ -Dichte f “). Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X : ( Ω, A ) → ( R, B ) eine reelle Zufallsvariable mit E ( X für ein s ≥ 2 . Dann gilt für 0 < r < s , dass E ( X r ) < ∞ wegen X r ≤ X s + 1 ist. s) <∞ Definition 4.22 Sei E ( X 2 ) < ∞ . Dann ist auch E ( X < ∞ und Var ( X ) := E ([ X − E ( X ) ]2 ) heißt die Varianz von X . ) Es gilt für a ∈ R : E ( [ X − a ]2 ) = E ( [ ( X − E ( X ) ) − ( a − E ( X ) ) ]2 ) = Var ( X ) + [ a − E ( X ) ]2 − 2 E ( [ X − E ( X ) ][ a − E ( X ) ]) =0 = Var ( X ) + [ a − E ( X ) ]2 . Somit erhalten wir: min E ([ X − a ]2 ) = Var ( X ) . a ∈R Beispiel 4.23 (a) Sei X ∼ N ( a, σ 2 ) . Dann folgt: Var ( X ) = ∫ (x − E ( X ))2 dP = ∫ ( x − a )2 dP X ( x ) = ∞ ∫−∞ ( x − a )2 1 2πσ 2 ( exp − ) 1 ( x − a )2 dx 2 σ2 ⎛ 1y ⎞ exp ⎜⎜⎝ − 2 ⎠⎟⎟dy = σ 2 . 2σ 2πσ (b) Sei X ∼ R ( a, b ) . Dann gilt: b ( b − a )2 1 a +b 2 . Var ( X ) = ∫ x− dx = a b −a 2 12 (c) Sei X ∼ Exp ( λ ) . Dann ist ∞ 1 2 1 λ exp ( −λx )dx = 2 . Var ( X ) = ∫ x− 0 λ λ = ∞ ∫−∞ y 2 2 1 2 ( ( ) ) Definition 4.24 Seien X ,Y reelle Zufallsvariablen, E ( X 2 ) < ∞ , E (Y 2 ) < ∞ . Dann heißt Cov ( X ,Y ) := E ( [ X − E ( X ) ][Y − E (Y ) ]) = E ( XY ) − E ( X ) E (Y ) die Kovarianz von X und Y . Beispiel 4.25 (diskreter Fall) Sei X ∼ H ( a, r, n ) . Dann folgt für s := max { n + r − a, 0 } und t := min { n, r } : r a −r r 2 r 2 ( k )( n −k ) Var ( X ) = E ⎢⎡ X − n ⎥⎤ = ∑ k − n . a) ⎣ a⎦ a (n k ∈N0 , ( ) ( ) s ≤k ≤t Alternativ gilt für die Ereignisse Bi , dass beim n -fachen Ziehen je einer Kugel ohne Zurücklegen aus einer Urne mit r roten und s schwarzen Kugeln ( a := r + s ), wobei in der i -ten Ziehung eine rote Kugel gezogen wird: n X = ∑ i =1 I Bi . 31 Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Dazu seien X ,Y reelle Zufallsvariablen mit E ( X 2 ) < ∞ und E (Y 2 ) < ∞ . Dann gilt für ( X − Y 1 XY ≤ ( X 2 + Y 2 ) , 2 also E ( XY ) < ∞ und damit E ( X + Y 2 ) < ∞ . Dann gilt: Var ( X + Y ) = E ( [ X + Y − E ( X + Y ) ]2 ) = E ( ( [ X − E ( X ) ] + [Y − E (Y ) ])2 ) = Var ( X ) + Var (Y ) + 2 E ( [ X − E ( X ) ][Y − E (Y ) ]) . )2 ≥0 =Cov( X ,Y ) Also gilt: Var ( X + Y ) = Var ( X ) + Var (Y ) + 2 Cov ( X ,Y ) . Mittels vollständiger Induktion zeigt man: Sind X1,..., Xn Zufallsvariablen mit E ( X i2 ) < ∞ , i = 1,..., n , so gilt Var ( X1 + ... + Xn ) = Var ( X1 ) + ... + Var ( Xn ) + 2 ∑ Cov ( Xi , X j ) . 1≤i < j ≤n Dann erhalten wir n Var ( X ) = Var ( ∑ i =1 I Bi ) = Var ( I B1 ) + ... + Var ( I Bn ) + 2 ∑ 1≤i < j ≤n Cov ( I Bi , I Bj ) . Allgemein gilt für Indikatorfunktionen: Var ( I A ) = E ( [ I A − P ( A ) ]2 ) = E ( I A − 2I AP ( A ) + P ( A )2 ) = P ( A ) − P ( A )2 = P ( A )( 1 − P ( A )) . Also gilt: r r für i = 1,..., n Var ( I Bi ) = P ( Bi )( 1 − P ( Bi ) ) = 1 − a a und somit Cov ( I Bi , I B j ) = Cov ( I B1 , I B2 ) = E ( I B1 I B2 ) − E ( I B1 ) E ( I B2 ) r (r − 1) r 2 = P ( B1 ∩ B2 ) − P ( B1 ) P ( B2 ) = − ( ) a a −1 a für alle 1 ≤ i < j ≤ n . Daraus folgt r r r (r − 1) r 2 r r a −n Var ( X ) = n 1 − + n (n − 1) ( − = n 1− . a a a a − 1) a a a a −1 ( ) ( ) ( ( ) ( )) ( )( ) Ungleichungen der mathematischen Stochastik Satz 4.26 Sei X eine reelle Zufallsvariable mit E ( X 2 ) < ∞ . Dann gilt für alle ε > 0 : ( ) ) 1 P ( X − E (X ) > − ε ≤ ε2 Var X (Chebyshevsche Ungleichung) Beweis Es gilt: ( ) > ) ( 2 ( )) Var ( X ) = E ( [ X − E ( X ) ]2 ) ≥ E ([ X − E ( X ) ]2 I ( X − E ( X ) > − ε )≥ E ε I X −E X − ε ( ) ( ≥ε2I ( X −E ( X ) ) = ε 2P ( X − E ( X ) > − ε . ( ( ) ( > ε) −) ) Satz 4.27 Sei X eine reelle Zufallsvariable, f : [ 0, ∞ ) → [ 0, ∞ ) monoton wachsend. Dann gilt für alle ε > 0 : 1 P ( X > ε) ≤ E ( f ⋅ X ) (Markovsche Ungleichung). f (ε) Beweis Es gilt: E ( f ⋅ X ) ≥ E ( f ⋅ X I ( X > ε ) ) ≥ f ( ε ) E ( I ( X > ε )) = f ( ε ) P ( X > ε ) . Für den Spezialfall f ( x ) = x k für x ≥ 0 , k ∈ N , gilt: 32 ) Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen 1 ( k) . E X εk Es sei E ( X k ) < ∞ . Dann ist auch E ( X ) < ∞ und es gilt 1 P ( X − E (X ) ≥ ε ) ≤ k E ( X − E (X ) k ) . ε P ( X ≥ ε) ≤ Satz 4.28 Es seien X ,Y reelle Zufallsvariablen mit E ( X 2 ) < ∞ und E (Y 2 ) < ∞ . Dann gilt: E ( XY ) ≤ E ( X 2 ) E (Y 2 ) (Cauchy-Schwarzsche Ungleichung). Beweis 1. Fall: E (Y 2 ) = 0 : Aus P ( Y = 0 ) = 1 folgt P ( XY = 0 ) = 1 und damit E ( XY ) = 0 . 2. Fall: E (Y 2 ) > 0 : Für alle t ∈ R gilt 0 ≤ E ( [ X − t Y ]2 ) = E ( X 2 ) − 2tE ( XY ) + t 2E ( Y 2 ) =: f ( t ) , also folgt ! 0 = f ′ ( t ) = 2tE ( Y 2 ) − 2E ( XY ). Somit erhalten wir t0 = E ( XY ) E(Y 2) und damit ( )2 E ( XY )2 E ( XY )2 ( X 2 ) − E XY 0 ≤ f ( t0 ) = E ( X 2 ) − 2 + = E . E(Y 2) E(Y 2) E(Y 2) Also gilt E ( XY )2 ≤ E ( X 2 )E ( Y 2 ) . Korollar 4.29 Für die Kovarianz gilt: Cov ( X ,Y ) ≤ Var ( X ) Var (Y ) . Beweis Es gilt: Cov ( X ,Y ) = E ( [ X − E ( X ) ][Y − E (Y ) ]) ≤ E ( [ X − E ( X ) ][Y − E (Y ) ] ) ≤ Var ( X ) Var (Y ). Definition 4.30 Seien X ,Y reelle Zufallsvariablen mit E ( X 2 ) < ∞ und E (Y 2 ) < ∞ . Dann heißt Cov ( X ,Y ) ρ ( X ,Y ) := Var ( X ) Var (Y ) der Korrelationskoeffizient von X und Y . Dabei ist ρ ( X ,Y ) := 0 , falls Var ( X ) = 0 oder Var (Y ) = 0 . Es gilt: −1 ≤ ρ ( X ,Y ) ≤ 1 . Interpretation des Korrelationskoeffizienten Seien X ,Y reelle Zufallsvariablen mit E ( X 2 ) = 1 , E (Y 2 ) = 1 , E ( X ) = 0 und E (Y ) = 0 . Sei f ( a, b ) := E ( [ X − ( aY + b ) ]2 ) . Gesucht wird mina ,b ∈R f ( a, b ) . Es gilt: f ( a, b ) = E ( X 2 ) + E ( [ aY + b ]2 ) − 2E ( X [ aY + b ]) = E ( X 2 ) + a 2E (Y 2 ) + b 2 − 2aE ( XY ) Daraus folgt für f ( a, b ) → mina,b ∈R f ( a, b ) , dass b = 0 . Also ist f ( a, b ) = 1 + a 2 − 2aE ( XY ) minimal für a = E ( XY ) . 33 . Kapitel 4 Maßintegrale, Erwartungswerte von Zufallsvariablen Es folgt: min E ( [ X − ( aY + b ) ]2 ) = 1 + E ( XY )2 − 2E ( XY )2 = 1 − E ( XY )2 = 1 − ρ ( X ,Y )2 . a ,b ∈ R Seien X ,Y beliebige reelle Zufallsvariablen mit E ( X 2 ) < ∞ , E (Y 2 ) < ∞ , Var ( X ) > 0 und Var (Y ) > 0 . Aus der Standardisierung X − E (X ) Y − E (Y ) , Y* = X* = ( ) Var X Var (Y ) *) *) ( ( folgt E X = E Y = 0 und somit 2 2 Var ( X * ) = E ( ( X * ) ) = 1 = Var (Y * ) = E ( (Y * ) ) und 2 min E ( [ X − ( aY + b ) ]2 ) = E ([ Var ( X )X * + E ( X ) − (aY * Var (Y ) + E (Y ) + b ) ] ) a ,b ∈ R 2⎞ ⎛⎡ ⎛ aY * Var (Y ) + E (Y ) − E ( X ) ⎞⎤ ⎟ = min Var ( X ) E ⎜⎜⎝⎜ ⎢ X * − ⎝⎜⎜ ⎟⎠⎟⎟ ⎥ ⎠⎟⎟ a ,b ∈ R ⎣⎢ ⎦⎥ Var ( X ) 2 = min Var ( X ) E ( [ X * − aY * ] ) a ,b ∈ R = Var ( X ) ( 1 − ρ ( X *,Y * ) 2 = Var ( X ) ) ( 1 − ρ ( X ,Y ) ) . 2 Der Korrelationskoeffizient ist also ein Maß für den (affin-)linearen Zusammenhang zwischen X und Y . 34 35 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume Definition 5.1 Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( Ri , Si ) , i ∈ I , seien Messräume, Xi : ( Ω, A ) → ( Ri , Si ) , i ∈ I , Zufallsvariablen. Dann heißen die Zufallsvariablen Xi , i ∈ I , heißen (stochastisch) unabhängig, wenn für jede endliche Teilmenge K ⊂ I gilt: P ( ∩i ∈K { Xi ∈ Bi } ) = ∏ P ( { Xi ∈ Bi } ) für jede Auswahl B j ∈ Sj , j ∈ I . i ∈K Konvention: ∩i ∈∅ { Xi ∈ B j } := Ω , ∏i ∈∅ P ( { Xi ∈ B j } ) := 1 . Definition 5.2 Seien ( Ω, A, P ) ein Wahrscheinlichkeitsraum und Ai , i ∈ I , eine Familie von Ereignissen, Ai ∈ A , i ∈ I . Die Ai , i ∈ I , heißen stochastisch unabhängig, wenn die Zufallsvariablen I Ai , i ∈ I , (stochastisch) unabhängig sind. Beispiel 5.3 Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, A1,..., An ∈ A seien unabhängig. Sei p = P ( Ai ) , i = 1,..., n , und n X = ∑ i =1 I Ai . Dann gilt für J = { 1,..., n } : P (X = k ) = P = (∪ H ⊂J , H =k ( ∩l ∈H Al ∩ ∩ j ∈J \H Acj ) ) = ∑ P ( ∩l ∈H Al ∩ ∩ j ∈J \H Acj ) H ⊂J H =k ∑ P ( ∑l ∈H { I A l H ⊂J H =k = ∑ ∏ P (IA H ⊂J l ∈H H =k = ∑ l = 1} ∩ ∩ j ∈J \H { I Aj = 0 } ) = 1) ∏ j ∈J \ H pk ( 1 − p )n −k = H ⊂J H =k P ( I Aj = 0 ) ( nk ) p k ( 1 − p )n −k für k ∈ { 0,..., n } . Definition 5.4 Eine reelle Zufallsvariable X , deren Verteilung festgelegt ist durch n k P (X = k ) = p ( 1 − p )n −k für k ∈ { 0,..., n } , k heißt binomialverteilt mit den Parametern n ∈ N und p ∈ [ 0,1 ] und heißt Binomialverteilung. Schreibweise: X ∼ B ( n, p ) . ( ) Bemerkung 5.5 Seien ( Ω, A, P ) , ( Ri , Si ) , i = 1,..., n , Messräume. Die Zufallsvariablen Xi : ( Ω, A ) → ( Ri , Si ) , i = 1,..., n , sind genau dann unabhängig, wenn gilt P ( X1 ∈ B1 ∩ ... ∩ Xn ∈ Bn ) = P ( X1 ∈ B1 ) ⋅ ... ⋅ P ( Xn ∈ Bn ) für jede Auswahl von Mengen Bi ∈ Si , i = 1,..., n . Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume Produktmaße Für zwei Messräume ( Ωi , Ai ) , i = 1, 2 , sei Ω1 × Ω2 das kartesische Produkt von Ω1 und Ω2 und E = { A1 × A2 | A1 ∈ A1, A2 ∈ A2 } das System der Rechteck-Mengen auf Ω1 × Ω2 . E ist ein Semi-Ring auf Ω := Ω1 × Ω2 . Die von diesem SemiRing erzeugte σ -Algebra A1 ⊗ A2 := σ ( E ) heißt Produkt- σ -Algebra von A1 und A2 auf Ω1 × Ω2 . Für ω1 ∈ Ω1 und A ⊂ Ω heißt Aω1 = { ω2 ∈ Ω2 | ( ω1, ω2 ) ∈ A } der ω1 -Schnitt von A und analog für ω2 ∈ Ω2 Aω2 = { ω1 ∈ Ω1 | ( ω1, ω2 ) ∈ A } der ω2 -Schnitt von A . Für jedes ω1 ∈ Ω1 ist { A ∈ A1 ⊗ A2 | Aω1 ∈ A2 } eine σ -Algebra, die den Semi-Ring E enthält. Also ist (5.1) Aω1 ∈ A2 für jedes A ∈ A1 × A2 und jedes ω1 ∈ Ω1 . Analog ist auch Aω2 ∈ A1 für jedes A ∈ A1 × A2 und jedes ω2 ∈ Ω2 . Für einen Messraum ( R, S ) und eine Funktion f : ( Ω1 × Ω2 , A1 ⊗ A2 ) → ( R, S ) ist die für jedes ω1 ∈ Ω1 durch fω1 ( ω2 ) = f ( ω1, ω2 ) , ω2 ∈ Ω2 , definierte Funktion fω1 : Ω2 → R ( A2 , S ) -messbar. Dies folgt aus der für jedes B ⊂ R gültigen Identität fω−1 1 ( B ) = ( f −1 ( B ) )ω1 , der ( A1 ⊗ A2 , S ) -Messbarkeit von f und der Eigenschaft (5.1) für ω1 -Schnittmengen. Analog ist die für jedes ω2 ∈ Ω2 durch fω2 ( ω1 ) = f ( ω1, ω2 ) , ω1 ∈ Ω1 , definierte Funktion fω2 : Ω1 → R ( A1, S ) -messbar. Ist µ1 ein Maß auf A1 und µ2 ein Maß auf A2 , so wird durch µ ( A × B ) = µ1 ( A ) µ2 ( B ) , A ∈ A1 , B ∈ A2 , eine σ -additive Mengenfunktion µ auf dem Semi-Ring E definiert. Es ist nämlich µ ( ∅ ) = 0 und im Falle ∞ A×B = ∑ An × Bn n =1 mit A × B ∈ E und paarweise disjunkten An × Bn ∈ E , n ∈ N , ∞ I A ( ω1 ) I B ( ω2 ) = ∑ IA n =1 n ( ω1 ) I Bn ( ω2 ) , ( ω1, ω2 ) ∈ Ω1 × Ω2 . (5.2) Die Integration der bei festem ω2 ∈ Ω2 ( A1, B ) -messbaren nichtnegativen R -wertigen Funktionen auf der rechten und der linken Seite in (5.2) bezüglich µ1 führt unter Anwendung des Satzes (4.4) von der monotonen Konvergenz auf die Identität ∞ µ1 ( A ) I B ( ω2 ) = ∑ µ1 ( An ) I B n =1 n ( ω2 ) . (5.3) Die Integration der ( A2 , B ) -messbaren nichtnegativen R -wertigen Funktionen auf der rechten und der linken Seite in (5.3) bezüglich µ2 liefert ∞ µ(A × B ) = ∑ µ ( An × Bn ) . n =1 Aus dem Maßerweiterungssatz (1.29) folgt die Existenz eines Maßes µ1 ⊗ µ2 auf A1 ⊗ A2 mit der Eigenschaft µ1 ⊗ µ2 ( A × B ) = µ1 ( A ) µ2 ( B ) für jedes A ∈ A1 und jedes B ∈ A2 . Im Falle σ -endlicher Maße µ1 und µ2 ist µ1 ⊗ µ2 eindeutig bestimmt und heißt Produktmaß von µ1 und µ2 . Der nachfolgende Satz zeigt, wie unter dieser Voraussetzung µ1 ⊗ µ2 (C ) für beliebige Mengen C ∈ A1 ⊗ A2 berechnet werden kann. Zur Verdeutlichung vereinbaren wir für existierende µ -Integrale R -wertiger messbarer Funktionen f noch die alternative Schreibweise ∫ f dµ = ∫ f 36 ( ω )d µ ( ω ) . Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume Satz 5.6 Es seien µ1 und µ2 σ -endliche Maße auf A1 und A2 . Für das durch µ1 ⊗ µ2 ( A1 × A2 ) = µ1 ( A1 ) µ2 ( A2 ) für A1 ∈ A1 , A2 ∈ A2 , eindeutig festgelegte Produktmaß µ1 ⊗ µ2 auf A1 ⊗ A2 gilt µ1 ⊗ µ2 (C ) = ∫ µ2 (C ω 1 ∫ µ1 (C ω )d µ1 ( ω1 ) = 2 )d µ2 ( ω2 ) für jedes C ∈ A1 ⊗ A2 . (5.4) Beweis Für E ∈ A2 mit µ2 ( E ) < ∞ sei DE = {C ∈ A1 ⊗ A2 | ω1 → µ2 ( E ∩ C ω1 ), ω1 ∈ Ω1, ist ( A1, B ) -messbar } . Es ist DE ein Dynkin-System auf Ω1 × Ω2 , welches den Semi-Ring E enthält. Also ist DE = A1 ⊗ A2 . Wegen der σ -Endlichkeit von µ2 gibt es eine Folge von Mengen En ∈ A2 mit En ↑ Ω2 und µ2 ( En ) < ∞ für jedes n ∈ N . Aus µ2 ( En ∩ C ω1 ) ↑ µ2 (C ω1 ) für jedes ω1 ∈ Ω1 folgt die ( A1, B ) -Messbarkeit von ω1 → µ2 (C ω1 ) , ω1 ∈ Ω1 . Das linke Integral in (5.4) ist daher sinnvoll. Durch µ (C ) = ∫ µ2 (C ω 1 )d µ1 ( ω1 ) , C ∈ A1 ⊗ A2 , wird ein Maß µ auf A1 ⊗ A2 mit der Eigenschaft µ ( A1 × A2 ) = µ1 ( A1 ) µ2 ( A2 ) , A1 ∈ A1 , A2 ∈ A2 , definiert. Wegen µ1 ⊗ µ2 |E = µ|E ist µ = µ1 ⊗ µ2 und damit die erste Identität in (5.4) bewiesen. Der Beweis der zweiten Identität erfolgt analog. Satz 5.7 (Satz von Fubini) Sei f : ( Ω1 × Ω2 , A1 ⊗ A2 ) → ( R, B ) . (i) Ist f ≥ 0 , so ist ω1 → ∫ fω d µ2 , ω1 ∈ Ω1 , ω2 → ∫ fω d µ1 , ω2 ∈ Ω2 , 1 ( A1, B ) -messbar bzw. ( A2 , B ) -messbar und es gilt ∫ f d µ1 ⊗ µ2 = ∫ ( ∫ fω 1 2 ) d µ2 d µ1 ( ω1 ) = ∫ ( ∫ fω 2 ) d µ1 d µ2 ( ω2 ) . (5.5) (ii) Ist f µ1 ⊗ µ2 -integrierbar, so ist fω1 für µ1 -f.a. ω1 µ2 -integrierbar und fω2 für µ2 -f.a. ω2 µ1 integrierbar. Die µ1 -f.ü. bzw. µ2 -f.ü. definierte Funktion ω1 → ∫ fω 1 d µ2 bzw. ω2 → ∫ fω 2 d µ1 ist µ1 - bzw. µ2 -integrierbar und es gilt die Identität (5.5). Beweis Den Beweis führt man leicht mittels algebraischer Induktion. Man hat für den Nachweis der Aussagen von Teil (ii) lediglich noch die f.ü.-Eigenschaft der angegebenen Funktionen nachzuweisen. Diese ergibt sich unter Beachtung von f ωi = fωi , ( f + )ωi = ( fωi )+ und ( f − )ωi = ( fωi )− für ωi ∈ Ωi , i = 1, 2 , und ∫ (∫ ) fω2 d µ1 d µ2 ( ω2 ) = ∫ (∫ ) fω1 d µ2 d µ1 ( ω1 ) = ∫ f d µ1 ⊗ µ2 < ∞ aus der folgenden Hilfsüberlegung. Lemma 5.8 Sei µ ein Maß auf der σ -Algebra A auf Ω , f : ( Ω, A ) → ( R, B ) µ -integrierbar. Dann ist f µ -f.ü. endlich. Beweis Es ist ∞ > a := ∫{ f =∞ } f d µ ≥ n µ ( f = ∞ ) für jedes n ∈ N , also µ ( f = ∞ ) = 0 . Sind µi σ -endliche Maße auf den σ -Algebren Ai auf Ωi , i = 1,..., n , so lassen sich die Produkte Ω1 × ... × Ωn , A1 ⊗ ... ⊗ An , µ1 ⊗ ... ⊗ µn induktiv definieren, wobei sich herausstellt, dass die Produktbildung assoziativ ist. Insbesondere ist 37 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume ( Rn , B n ) = ( R × ... × R, B ⊗ ... ⊗ B ) . n Das n -fache Produktmaß λ = λ ⊗ ... ⊗ λ des Lebesgue-Borelschen Maßes λ ist das n -dimensionale Lebesgue-Borelsche Maß auf B n . Sind ( Ωi , Ai , Pi ) , i = 1,..., n , Wahrscheinlichkeitsräume, so heißt ( Ω1 × ... × Ωn , A1 ⊗ ... ⊗ An , P1 ⊗ ... ⊗ Pn ) Produktraum der ( Ωi , Ai , Pi ) , i = 1,..., n . Ist für i = 1,..., n πi : Ω1 × ... × Ωn → Ωi die Projektion auf Ωi , also πi ( ω1,..., ωn ) = ωi für ( ω1,..., ωn ) ∈ Ω1 × ... × Ωn , so ist ( P1 ⊗ ... ⊗ Pn )πi = Pi für jedes i = 1,..., n . Produkträume Für nur endlich viele ( Ωi , Ai , µi ) , i = 1,..., n , lässt sich der Produktraum ( Ω1 × ... × Ωn , A1 ⊗ ... ⊗ An , µ1 ⊗ ... ⊗ µn ) induktiv definieren. Sei im Folgenden ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( Ri , Si ) , i = 1,..., n , Messräume, Xi : ( Ω, A ) → ( Ri , Si ) . Sei πi : R1 × ... × Rn → Ri mit πi ( x1,..., x n ) = x i für ( x1,..., x n ) ∈ R1 × ... × Rn , i = 1,..., n . Dann ist X : ( Ω, A ) → ( R1 × ... × Rn , S1 ⊗ ... ⊗ Sn ) , wobei X = ( X1,..., Xn )T . Denn es gilt: X −1 ( B1 × ... × Bn ) = n ∩ { Xi ∈ Bi } ∈ A für Bi ∈ Si , i = 1,..., n . i =1 Ist umgekehrt X = ( X1,..., Xn )T , so gilt, dass Xi : Ω → Ri ( A, Si ) -messbar ist für jedes i = 1,..., n . Denn: Xi = πi X und πi−1 ( Bi ) = R1 × ... × Bi × ... × Rn ∈ S1 ⊗ ... ⊗ Sn für Bi ∈ Si , i = 1,..., n . Ist ( Ri , Si ) = ( R, B ) , dann ist jede Zufallsvariable X : ( Ω, A ) → ( Rn , B n ) mit X = ( X1,..., Xn ) ein n dimensionaler Zufallsvektor – in der Regel ein Spaltenvektor. Es ist ( R × ... × R, B ⊗ ... ⊗ B, λ ⊗ ... ⊗ λ ) = ( Rn , B n , λn ) . Der n -dimensionale Zufallsvektor X habe die λn -Dichte f . D.h. P (X ∈ B ) = ∫B f d λn = ∫ fI B d λn = ∫B f ( x1,..., xn )d λ ⊗ ... ⊗ λ ( x1,..., xn ) , B ∈ Bn . Sei T : Rn → Rn bijektiv und stetig differenzierbar mit Nichtverschwindender Funktionaldeterminante ∆ : Rn → R . Dann hat Y = T X die λn -Dichte 1 f ∆ T −1 ( y ) T −1 ( y ) für y ∈ Rn . Ein Transformationssatz für Dichten Sei X ein n -dimensionaler Zufallsvektor mit der λn -Dichte f , welche außerhalb der Vereinigung von abzählbar vielen paarweise disjunkten offenen Mengen M i ⊂ Rn , i ∈ I , verschwinde. Die Abbildung T : ( Rn , B n ) → ( Rn , B n ) besitze folgende Eigenschaften: (i) die Restriktion Ti von T auf M i ist stetig differenzierbar, (ii) die Funktionaldeterminante ∆i von Ti ist auf M i von 0 verschieden, (iii) Ti ist injektiv. Es sei Si : Ti ( M i ) → M i die Inverse von Ti . Dann ist Ti ( M i ) offen, Si ( BTni ( Mi ), BMn i ) -messbar, und f S ∑ ∆i Si i I (Ti ( Mi ) ) i ∈I ist λn -Dichte des n -dimensionalen Zufallsvektors Y = T X. Folgerung 5.9 (i) Hat die reelle Zufallsvariable X die λ -Dichte f ( x ) , x ∈ R , so hat die Zufallsvariable Y = aX + b , ( a ≠ 0 , b ∈ R ) die λ -Dichte a1 f ( x a−b ) , x ∈ R . 38 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume (ii) Hat der Zufallsvektor ( X ,Y ) die λ2 -Dichte f ( x , y ) , so hat die Zufallsvariable (1) X ± Y die λ -Dichte h ( z ) = ∞ ∫0 (2) XY die λ -Dichte h ( z ) = (3) X Y die λ -Dichte h ( z ) = ∞ ∫−∞ f ( z ∓ y, y )dy , ∞ ∫0 z ∈ R, ( f ( yz , y ) + f ( − yz , −y ) ) y1 dy , z ∈ R , ( f ( zy, y ) + f ( −zy, −y ) ) y dy , z ∈ R . Die Aussage (ii)(2) oben beweist man z.B. so: Sei T : R × ( R \ { 0 } ) → R2 , T ( x , y ) = ( xy, y ) für ( x , y ) ∈ R × ( R \ { 0 } ) . Sei weiter Ti = T |Mi , i = 1, 2 , mit M 1 = R × ( 0, ∞ ) , M 2 = R × ( −∞, 0 ) . Es ist ∆i ( x , y ) = y für ( x , y ) ∈ M i , i = 1, 2 , Si ( u, v ) = ( uv , v ) für ( u, v ) ∈ M i , i = 1, 2 , also 1 u u f , v I ( R × ( 0, ∞ ) )( u, v ) + f , v I ( R × ( −∞, 0 ) )( u, v ) , ( u, v ) ∈ R2 , v v v die λ2 -Dichte von ( XY ,Y ) . Damit ist ∞ ∞ u u 1 u u 1 ∫−∞ f v , v I ( R × ( 0, ∞ ) )( u, v ) + f v , v I ( R × ( −∞, 0 ) )( u, v ) v dv = ∫0 f v , v + f − v , −v v dv für u ∈ R die λ -Dichte von XY . Sind die Zufallsvariablen X und Y in (ii) darüber hinaus unabhängig mit den λ -Dichten f und g , so hat ( ( ( ( ) ( ) ( (1) X ± Y die λ -Dichte h ( z ) = (2) XY die λ -Dichte h ( z ) = (3) X Y die λ -Dichte h ( z ) = ∫0 ∞ ∫0 ) ) ∞ ∫−∞ f ( z ∓ y ) g ( y )dy , ∞ ) ) ( ( ) ( )) z ∈ R, ( f ( yz ) g ( y ) + f ( − yz ) g ( −y ) ) y1 dy , z ∈ R , ( f ( zy ) g ( y ) + f ( −zy ) g ( −y ) ) y dy , z ∈ R . Sei ( Ωi , Ai , Pi ) ein Modell für ein Zufallsexperiment i , i = 1,..., n . Dann ist ( Ω1 × ... × Ωn , A1 ⊗ ... ⊗ An , P1 ⊗ ... ⊗ Pn ) ein mathematisches Modell für das Gesamtexperiment, das aus der „unabhängigen“ Ausführung der Zufallsexperimente i , i = 1,..., n , besteht. Wichtiger Spezialfall ( Ωi , Ai , Pi ) = ( Ω0 , A0 , P0 ) , i = 1,..., n . Dann ist das Gesamtexperiment die n -fache „unabhängige“ Wiederholung des Einzelexperiments. Beispiel 5.10 Sei ( Ω, A, P ) = (Ωn0 , A0 ⊗ ... ⊗ A0 , P0 ⊗ ... ⊗ P0 ) . Im Einzelexperiment ( Ω0 , A0 , P0 ) seien A1,..., As ⊂ Ω0 Ereignisse mit Ai ∩ Aj = ∅ für i ≠ j , Ω0 = X = ( X1,..., Xs ) . Sei weiter n Xi = ∑ IB j =1 (j) i s ∑ i =1 Ai , mit Bi( j ) = Ω0 × ... × Ω0 × Ai × Ω0 × ... × Ω0 j −1-mal n − j -mal (beschreibt im Gesamtexperiment das Ereignis, dass bei der j -ten Wiederholung Ai eintritt). Xi ist die Anzahl der Wiederholungen, bei denen Ai eintritt. Wir suchen P ( X = ( k1,..., ks ) ) = P ( X1 = k1,..., Xs = ks ) , ( k1,..., ks ) ∈ Ns0 , k1 + ... + ks = n . Es gilt: ∑ n! k1 ! ⋅...⋅ks ! n ( l1 ,...,ln )∈{1,...,s } { j |l j =i } =ki ,i =1,...,s P ( Al1 × ... × Aln ) = =P0 ( Al1 )⋅...⋅P0 ( Aln ) ∑ i =1 p1k1 ⋅ ... ⋅ psks = n! pk1 ⋅ ... ⋅ psks . k1 ! ⋅ ... ⋅ ks ! 1 Definition 5.11 Ein s -dimensionaler Zufallsvektor X heißt multinomialverteilt mit den Parametern n ∈ N und p1,..., ps ∈ ( 0,1 ) mit p1 + ... + ps = 1 , wenn gilt: n! P ( X1 = k1,..., Xs = ks ) = pk1 ⋅ ... ⋅ psks mit ( k1,..., ks ) ∈ Ns0 , k1 + ... + ks = n . k1 ! ⋅ ... ⋅ ks ! 1 Schreibweise: X ∼ M ( n; p1,..., ps ) . 39 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( Ri , Si ) , i = 1,..., n , Messräume, Xi : ( Ω, A ) → ( Ri , Si ) , i = 1,..., n , Zufallsvariablen. Sei weiter X = ( X1,..., Xn ) mit X : ( Ω, A ) → ( R1 × ... × Rn , S1 ⊗ ... ⊗ Sn ) und P X = P X1 ⊗ ... ⊗ P Xn . Es gilt P X ( B1 × ... × Bn ) = P X1 ( B1 ) ⋅ ... ⋅ P Xn ( Bn ) genau dann, wenn P ( X1 ∈ B1,..., Xn ∈ Bn ) = P ( X1 ∈ B1 ) ⋅ ... ⋅ P ( Xn ∈ Bn ) für jede Wahl Bi ∈ Si , i = 1,..., n . Also sind X1,..., Xn unabhängig. Definition 5.12 Die Verteilung von X heißt die gemeinsame Verteilung von X1,..., Xn . Für 1 ≤ i1,..., ik ≤ n , 1 ≤ k ≤ n , heißt die Verteilung von ( Xi1 ,..., Xik ) die Randverteilung von ( X1,..., Xn ) . Die Verteilung der Xi , i = 1,..., n , heißt die 1-dim-Randverteilung von ( X1,..., Xn ) . Die X1,..., Xn sind genau dann unabhängig, wenn die gemeinsame Verteilung von X1,..., Xn das Produkt ihrer 1-dim-Randverteilung ist. Für jedes i = 1,..., n sei Ei ein ∩ -stabiles Erzeugendensystem von Si . Es gilt also Si = σ ( Ei ) und E ∩ F ∈ Ei für jedes E , F ∈ Ei . Ferner gebe es für jedes i = 1,..., n eine Folge von Mengen Eik ∈ Ei , k ∈ N , mit ∪k ∈ N Eik = Ri . Dann sind X1,..., Xn genau dann unabhängig, wenn für alle Ei ∈ Ei , i = 1,..., n , gilt: P ( X1 ∈ E1,..., Xn ∈ En ) = P ( X1 ∈ E1 ) ⋅ ... ⋅ P ( Xn ∈ En ) . Betrachten wir den Spezialfall ( Ri , Si ) = ( R, B ) für i = 1,..., n , X = ( X1,..., Xn ) n -dimensionaler Zufallsvektor, Si = B = σ ( E ) mit E = {( −∞, a ] | a ∈ R } . Dann sind X1,..., Xn genau dann stochastisch unabhängig, wenn P ( X1 ≤ x1,..., Xn ≤ x n ) = P ( X1 ≤ x1 ) ⋅ ... ⋅ P ( Xn ≤ x n ) = F ( x1,..., x n ) = F1 ( x1 ) ⋅ ... ⋅ Fn ( x n ) für alle ( x1,..., x n ) ∈ Rn mit F als Verteilungsfunktion von Xi , i = 1,..., n . Satz 5.13 Sei µi ein σ -endliches Maß auf dem Messraum ( Ri , Si ) , i = 1,..., n , und sei fi : ( Ri , Si ) → ( R, B ) mit f ≥ 0 und ∫ fi d µi = 1 für i = 1,..., n . Dann ist f : R1 × ... × Rn → R definiert durch n f ( x1,..., x n ) = ∏ fi ( x i ) für ( x1,..., x n ) ∈ R1 × ... × Rn i =1 und ist ( S1 ⊗ ... ⊗ Sn ) -messbar. Ferner gilt: (i) Hat Xi die µi -Dichte fi , d.h. gilt ∫B P ( Xi ∈ Bi ) = fi d µi für alle Bi ∈ Si , i = 1,..., n , i so hat X = ( X1,..., Xn ) im Fall der Unabhängigkeit der X1,..., Xn die µ1 ⊗ ... ⊗ µn -Dichte f , d.h. es gilt P (X ∈ B ) = ∫B f d µ1 ⊗ ... ⊗ µn für alle B ∈ S1 ⊗ ... ⊗ Sn ). (ii) Hat X = ( X1,..., Xn ) die µ1 ⊗ ... ⊗ µn -Dichte f , so sind X1,..., Xn unabhängig. Beweis Die Messbarkeit von f ist klar. Unter den Voraussetzungen in (i) oder (ii) gilt: P ( X1 ∈ B1,..., Xn ∈ Bn ) = P ( X1 ∈ B1 ) ⋅ ... ⋅ P ( Xn ∈ Bn ) = ∫B n f1 d µ1 ⋅ ... ⋅ ∫ Bn 1 fn d µn = ∏ ∫ fi I Bi d µi i =1 n = fi ( x i ) I B ( x i )d µ1 ⊗ ... ⊗ µn ( x1,..., x n ) ∫∏ i =1 = ∫B ×...×B i 1 für jede Wahl Bi ∈ Si , i = 1,..., n . Ferner gilt ∫ f d µ1 ⊗ ... ⊗ µn = f d µ1 ⊗ ... ⊗ d µn n n ∫ ∏ fi d µ1 ⊗ ... ⊗ µn i =1 n = ∏ ∫ fi d µi = 1 . i =1 Also sind die X1,..., Xn genau dann unabhängig, wenn die µ1 ⊗ ... ⊗ µn -Dichte der gemeinsamen Verteilung das Produkt der Dichten ihrer 1-dim-Randverteilung ist. 40 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume Seien ( Ri , Si ) = ( R, B ) , i = 1,..., n , X = ( X1,..., Xn ) ein n -dimensionaler Zufallsvektor und sei Xi ∼ N ( 0,1 ) , i = 1,..., n . Die X1,..., Xn seien unabhängig. Dann hat X die λn = λ ⊗ ... ⊗ λ -Dichte: n 1 1 1 n 1 n 1 n 1 exp − x i2 = exp − ∑ i =1 x i2 = exp − x 2 f ( x1,..., x n ) = ∏ 2 2 2 2 2 2 π π π i =1 ) ( ( ) ) ( ( ) ( ) n mit x = ∑ i =1 x i2 als euklidische Norm von x = ( x1,..., x n ) ∈ Rn . Sei A ∈ Rn×n eine reguläre n × n -Matrix, b ∈ Rn , Y = AX + b . Die Anwendung der Transformationsformel liefert, dass Y die λn -Dichte g hat mit 1 g (y ) = f ( A−1 ( y − b ) ) det A 1 1 n 1 T exp − ( y − b )T ( A−1 ) A−1 ( y − b ) = det A 2 2π 1 n 1 1 exp − ( y − b )T Σ−1 ( y − b ) = 2 2π det Σ mit Σ := AAT , X 2 = X T X , y ∈ Rn . ( ( ) ( ( ) ) ) Definition 5.14 ( λn -Dichte von Y ) Ein n -dimensionaler Zufallsvektor Y 1 n 2π heißt n -dimensional normalverteilt positiv definit. Schreibweise: Y ∼ N n (b, Σ ) . ( ) mit der λn -Dichte 1 1 exp − ( y − b )T Σ−1 ( y − b ) , y ∈ Rn , 2 det Σ mit den Parametern b ∈ Rn und Σ ∈ Rn×n . Σ ist symmetrisch und ( ) Definition 5.15 Sei X = ( X1,..., Xn ) ein n -dimensionaler Zufallsvektor. (i) Gilt E ( Xi ) < ∞ , i = 1,..., n , so heißt ⎛ E ( X1 ) ⎞⎟ ⎜⎜ ⎟⎟⎟ E ( X ) = ⎜⎜ ⎟⎟ ⎜⎜ ⎟ ⎝⎜ E ( Xn ) ⎠⎟ der Erwartungswertvektor von X . (ii) Gilt E ( X i2 ) < ∞ , i = 1,..., n , so heißt ⎛ Cov ( X1, X1 ) ⎜⎜ Cov ( X ) := ⎜⎜ ⎜⎜ ⎜⎝ Cov ( Xn , X1 ) Cov ( X1, Xn ) ⎞ ⎟⎟ ⎟⎟⎟ ⎟ Cov ( Xn , Xn ) ⎠⎟⎟ die Kovarianzmatrix von X . Eigenschaften von Erwartungswertvektoren und Kovarianzmatrizen (1) Sei X = ( X1,..., Xn ) , B ∈ Rm×n , b ∈ Rm . Dann gilt: E ( BX + b ) = BE ( X ) + b , Cov ( BX + b ) = Cov ( BX ) = B Cov ( X ) B T . (2) Für B = ( z1,..., z n ) ∈ R1×n ergibt sich 0 ≤ Var ( zX ) = z Cov ( X ) z T . Also ist die Kovarianz von X positiv semidefinit. Folgerung 5.16 Sei X = ( X1,..., X n ) ∼ N n ( 0, I n ) mit I n als n × n -Einheitsmatrix. Dann sind X1,..., Xn unabhängig und es gilt E ( X ) = 0 und Cov ( X ) = I n . Aus Y = AX + b folgt Y ∼ N n (b, Σ ) mit b = E (Y ) und Σ = Cov (Y ) . Satz 5.17 Seien X ,Y unabhängige reelle Zufallsvariablen mit E ( X 41 ) < ∞ und E ( Y ) < ∞ . Dann gilt: Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume E ( XY ) = E ( X ) E (Y ) . Die Gleichung gilt auch ohne Voraussetzung E ( X Beweis Seien X ,Y ≥ 0 . Dann gilt: ∫ xy dP = ∫ x dP X ( X ,Y ) E ( XY ) = Es seien E ( X ) < ∞ und E ( Y ) ( ) < ∞ und E ( Y ( x, y ) = ∫ xy dP X ) < ∞ , falls X ,Y ≥ 0 . ⊗ PY ( x , y ) (5.6) x )∫ y dPY ( y ) = E ( X ) E (Y ) . < ∞ . Dann wende man (5.6) auf X und Y an. Folgerung 5.18 Seien X ,Y reelle unabhängige Zufallsvariablen mit E ( X 2 ) < ∞ und E (Y 2 ) < ∞ . Dann gilt: Cov ( X ,Y ) = E ( XY ) − E ( X ) E (Y ) = 0 . Damit folgt: Var ( X + Y ) = Var ( X ) + Var (Y ) . Beispiel 5.19 Sei X ∼ B ( n, p ) . Dann gilt: Var ( X ) = E ( [ X − E ( X ) ]2 ) = E ( [ X − np ]2 ) = Sei dazu X = n ∑i =1 I A i n n ∑ ( k − np )2 ( k ) pk ( 1 − p )n −k . k =0 mit unabhängigen Ereignissen A1,..., An und p = P ( Ai ) . Dann erhalten wir: Var ( X ) = n ∑ Var ( I Aν ) = ν =1 n n i =1 i =1 ∑ ( E ( I Ai ) − ( E ( I Ai ) )2 ) = ∑ p ( 1 − p ) = np ( 1 − p ) . Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, ( Ri , Si ) , i = 1,..., n , Messräume. Seien Xi : ( Ω, A ) → ( Ri , Si ) , i = 1,..., n , ( R, S ) = ( R1 × ... × Rn , S1 ⊗ ... ⊗ Sn ) , X = ( X1,..., Xn ) , X : ( Ω, A ) → ( R, S ) . Seien { x } ∈ Si für jedes x ∈ Ri und i = 1,..., n . Die Xi seien in Si diskret verteilt, d.h. zu jedem i = 1,..., n existiert eine abzählbare Teilmenge Ai ⊂ Ri mit der Eigenschaft P ( Xi ∈ Ai ) = 1 . Sei µi = ∑a ∈A δa . Dann ist µi σ -endliches Maß auf ( Ri , Si ) . Dann hat P Xi die µi -Dichte i x ∈ Ai , ⎧⎪ P ( Xi = x ), fi ( x ) = ⎪⎨ sonst. ⎪⎪⎩ 0, Denn für B ∈ Si gilt: P Xi ( B ) = P ( Xi ∈ B ∩ Ai ) + P ( Xi ∈ B ∩ Aic ) = ∑ P ( Xi = x ) = x ∈B ∩Ai ∫B fi ( x )d µi . Damit sind die X1,..., Xn genau dann unabhängig, wenn die µ1 ⊗ ... ⊗ µn -Dichte von X , also die Funktion f ( x1,..., x n ) = P ( X1 = x1,..., Xn = x n ) , von der Form n f ( x1,..., x n ) = ∏ fi ( x i ) für jedes ( x1,..., x n ) ∈ R1 × ... × Rn i =1 ist. Also sind die X1,..., Xn genau dann unabhängig, wenn für alle ( x1,..., x n ) ∈ R1 × ... × Rn gilt: P ( X1 = x1,..., Xn = x n ) = P ( X1 = x1 ) ⋅ ... ⋅ P ( Xn = x n ) . Bemerkung 5.20 (i) Sind ( Ωi , Ai , Pi ) , i = 1,..., n , Modelle für n Einzelexperimente. So ist ( Ω1 × ... × Ωn , A1 ⊗ ... ⊗ An , P1 ⊗ ... ⊗ Pn ) ein Modell für das Gesamtexperiment, das aus der unabhängigen Durchführung der Einzelexperimente besteht. (ii) Seien ( Ri , Si , Pi ) , i = 1,..., n , Wahrscheinlichkeitsräume. Dann gibt es einen Wahrscheinlichkeitsraum ( Ω, A, P ) und unabhängige Zufallsvariablen Xi : ( Ω, A ) → ( Ri , Si ) mit P Xi = Pi , i = 1,..., n . Der Raum ( Ω, A, P ) = ( R1 × ... × Rn , S1 ⊗ ... ⊗ Sn , P1 ⊗ ... ⊗ Pn ) und die Projektionen Xi : R1 × ... × Rn → Ri , Xi ( x1,..., x n ) = x i für ( x1,..., x n ) ∈ R1 × ... × Rn , i = 1,..., n , leisten das Verlangte. (iii) Die Aussage in (ii) lässt sich verallgemeinern auf den Fall beliebig vieler Wahrscheinlichkeitsräume ( Ri , Si , Pi ) , i ∈ I . 42 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume (iv) Wegen P X1 ⊗ ... ⊗ P Xn = ( P X1 ⊗ ... ⊗ P Xm ) ⊗ ( P Xm +1 ⊗ ... ⊗ P Xn ) , 1 ≤ m < n , folgt aus der Unabhängigkeit von X1,..., Xn die Unabhängigkeit von ( X1,..., X m ) und ( Xm +1,..., Xn ) . Also sind damit g ( X1,..., Xm ) und h ( Xm +1,..., Xn ) unabhängig mit g : ( R1 × ... × Rm , S1 ⊗ ... ⊗ Sm ) → ( S1, Z1 ) und h : ( Rm +1 × ... × Rn , Sm +1 ⊗ ... ⊗ Sn ) → ( S2 , Z2 ) . Allgemein gilt: Sind die Xi , i ∈ I , unabhängige Zufallsvariablen und I = disjunkten I i ⊂ I , i ∈ K . Dann sind ( X j )j ∈I , i ∈ K , unabhängig. ∑i ∈K I i mit paarweise i Unendliche Produkte von Wahrscheinlichkeitsräumen Zum Beweis der Existenz von unendlich dimensionalen Produktmaßen benötigen wir die folgende Hilfsaussage. Lemma 5.21 Es sei µ : R → [ 0, ∞ ) eine endlich additive Mengenfunktion auf dem Ring R auf Ω . Ist µ ∅ -stetig in dem Sinne, dass für jede Folge An ∈ A , n ∈ N , An ↓ ∅ gilt limn →∞ µ ( An ) = 0 , so ist µ σ -additiv. Beweis c n ∞ Für paarweise disjunkte Mengen Aj ∈ R , j ∈ N , mit A = ∑ j =1 Aj ∈ R ist A ∩ ( ∑ j =1 Aj ) ↓ ∅ für n → ∞ , also ( c 0 = lim µ A ∩ ( ∑ j =1 Aj ) n →∞ n n µ ( ∑ j =1 Aj ) = µ ( A ) − lim ∑ µ ( Aj ) ) = µ ( A ) − nlim n →∞ →∞ n j =1 ∞ = µ ( A ) − ∑ µ ( Aj ). j =1 Es seien ( Ωi , Ai , Pi ) , i ∈ N , Wahrscheinlichkeitsräume. Es sei Ω = ×i∞=1Ωi das kartesische Produkt der Mengen Ωi . Die Elemente von Ω schreiben wir in der Form ( ω1, ω2 ,... ) mit ωi ∈ Ωi . Für jedes i ∈ N sei πi : Ω → Ωi die natürliche Projektion von Ω auf Ωi . Für jedes n ∈ N sei π1−n : Ω → ×ni =1Ωi die natürliche Projektion von Ω auf ×ni =1Ωi . Offenbar ist ∞ A0 = ∪ π1−−1n ( ⊗ni =1Ai ) n =1 eine Algebra auf Ω . Das ist ein Ring auf Ω mit der Eigenschaft, dass auch Ω ∈ A0 ist. Die von dieser Algebra erzeugte σ -Algebra, ∞ ⊗Ai i =1 ∞ = σ ( A0 ) = σ ( ∪i =1 πi−1 ( Ai ) ) heißt Produkt- σ -Algebra auf Ω . n Sind m, n ∈ N , m < n , und gilt für zwei Mengen B ∈ ⊗m i =1Ai und C ∈ ⊗i =1Ai die Identität π1−−1m ( B ) = π1−−1n (C ) , n m ( ) ( ) ( ) ( ) für A ∈ A so ist C = B × Ωm +1 × ... × Ωn und daher ⊗m 0 i =1Pi B = ⊗i =1Pi C . Durch P A = ⊗i =1Pi B m −1 ( ) mit A = π1−m B , B ∈ ⊗i =1Ai , ist somit eine Mengenfunktion P auf A0 wohldefiniert. Aufgrund dieser Definition ist aber auch klar, dass P endlich additiv auf A0 ist. Wir zeigen jetzt, dass P ∅ -stetig, also auch σ -additiv auf A0 ist. Sei dazu An ↓ ∅ , An = π1−−1n ( Bn ) mit Bn ∈ ⊗ni =1Ai , n ∈ N . Den Darstellungen An = Bn × Ωn +1 × ... , An +1 = Bn +1 × Ωn +2 × ... und der Beziehung An +1 ⊂ An entnehmen wir, dass Bn +1 ⊂ Bn × Ωn +1 ist. Angenommen, es ist α = inf P ( An ) = inf n ∈N Mit n ∈N { ⊗ni =1Pi ( Bn ) > 0 . Qn1 = ω1 ∈ Ω1 | ⊗ni =2Pi ( Bn,ω1 ) ≥ ist 43 (5.7) α , n ≥ 2, 2 } (5.8) Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume α ≤ ⊗ni =1Pi ( Bn ) ≤ n Pi ( Bn,ω ∫Q i⊗ =2 1 1 n also P1 (Qn1 ) ≥ )dP1 ( ω1 ) + α α ≤ P1 (Qn1 ) + , 2 2 α für jedes n ≥ 2 . 2 Aus der Inklusion (5.7) folgt Bn +1,ω1 ⊂ Bn,ω1 × Ωn +1 , was n +1 ⊗Pi ( Bn +1,ω i =2 1 ∞ also Qn1 ↓ ∩n =2 Qn1 und damit )≤ n ⊗Pi ( Bn,ω i =2 1 ∞ P1 ( ∩n =2 Qn1 ) ≥ ∞ zur Folge hat. Also gibt es ein ω1 ∈ ∩n =2 Qn1 mit n ⊗Pi ( Bn,ω n ∈ N,n ≥2 i =2 inf 1 α 2 )≥ Insbesondere ist ω1 ∈ B1 . Definieren wir { ), Qn2 = ω2 ∈ Ω2 | ⊗ni = 3Pi ( ( Bn,ω1 )ω 2 α . 2 (5.9) α ) ≥ 4 }, n ≥ 3, ∞ so erhalten wir aus (5.9) mit denselben Überlegungen wie zuvor aus (5.8), dass ein ω2 ∈ ∩n = 3 Qn2 mit n α inf ⊗Pi ( ( Bn,ω1 )ω ) ≥ , 2 n ∈ N,n ≥3 i = 3 4 also insbesondere ( ω1, ω2 ) ∈ B2 existiert. Mittels vollständiger Induktion erhalten wir auf diese Weise eine ∞ Folge von Elementen ωi ∈ Ωi , i ∈ N , mit ( ω1,..., ωn ) ∈ Bn für jedes n ∈ N . Also ist ∩n =1 An ≠ ∅ , im Widerspruch zur Voraussetzung. Mit dem Maßerweiterungssatz folgt die Existenz und Eindeutigkeit des Produktmaßes auf ⊗i∞=1Ai . Satz 5.22 Es gibt genau ein Wahrscheinlichkeitsmaß P auf (×i∞=1Ωi , ⊗i∞=1Ai ) mit der Eigenschaft, dass für jedes n ∈ N gilt P π1−n = n ⊕Pi . i =1 Wir schreiben P = ⊗i∞=1Pi und nennen P das Produktmaß der Pi , i ∈ N . Korollar 5.23 Ist für jedes n ∈ N ein Wahrscheinlichkeitsmaß Qn auf einem Messraum ( Rn , Sn ) gegeben, so existieren ein Wahrscheinlichkeitsraum ( Ω, A, P ) und unabhängige Zufallsvariablen Xn : ( Ω, A ) → ( Rn , Sn ) , n ∈ N , mit der Eigenschaft, dass P Xn = Qn für jedes n ∈ N ist. Beweis Ω = ×n∞=1Rn , A = ⊗n∞=1Sn , P = ⊗n∞=1Pn und Xn = πn , die natürliche Projektion von ×n∞=1Rn auf Rn , n ∈ N , leisten das Verlangte. Ist I ≠ ∅ eine beliebige nicht abzählbare Indexmenge und ist ( Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum für jedes i ∈ I , so erhalten wir mit Ω = ×Ωi = { ω | ω : I → ∪i ∈I Ωi mit ω ( i ) ∈ Ωi für alle i ∈ I } i ∈I und A = σ ( ∪i ∈I πi−1 ( Ai ) ) mit πi : Ω → Ωi , πi ( ω ) = ω ( i ) , ω ∈ Ω , als natürliche Projektion von Ω auf Ωi , i ∈ I , einen neuen Messraum ( Ω, A ) . Wir bezeichnen für eine beliebige nichtleere Teilmenge K ⊂ I mit πK die natürliche ProjektiJ on von ×i ∈IΩi auf ×i ∈KΩi und für beliebige nichtleere Teilmengen K ⊂ J ⊂ I mit πK die natürliche Projektion von ×i ∈JΩi auf ×i ∈KΩi . Aus A= ∪ πJ−1 ( ⊗i ∈J Ai ) ∅≠J ⊂I , J abzählbar 44 Kapitel 5 Stochastische Unabhängigkeit von Zufallsvariablen und Ereignissen, Produkträume (Übungsaufgabe!) folgt für jedes A ∈ A die Existenz einer nichtleeren abzählbaren Menge J ⊂ I und die einer Menge AJ ∈ ⊗i ∈J Ai mit A = πJ−1 ( AJ ) . Nach Satz 5.22 haben wir ein Produktmaß ⊗i ∈JPi auf dem Messraum (×i ∈JΩi , ⊗i ∈J Ai ) . Mit der durch P ( A ) = ⊗i ∈JPi ( AJ ) Wohldefinierten Mengenfunktion auf A (Übungsaufgabe!) liegt ein Wahrscheinlichkeitsmaß auf ( Ω, A ) vor. Da für abzählbares J ⊂ I das Maß ⊗i ∈JPi eindeutig festgelegt ist durch seine Werte auf der Algebra ∪ ∅≠H ⊂J , H endlich ( πHJ )−1 ( ⊕i ∈H Ai ) , ist insbesondere auch P festgelegt durch seine Werte auf der Algebra ∪ πH−1 ( ⊗i ∈H Ai ) . ∅≠H ⊂J , H endlich Damit haben wir die folgenden Verallgemeinerungen von Satz 5.22 und Korollar 5.23. Satz 5.24 Es gibt genau ein Wahrscheinlichkeitsmaß P auf (×i ∈IΩi , ⊗i ∈IPi ) mit der Eigenschaft, dass für jede nichtleere endliche Menge H ⊂ I gilt P πH = ⊗i ∈HPi . Korollar 5.25 Ist für jedes i ∈ I ein Maß Qi auf einem Messraum ( Ri , Si ) gegeben, so existieren ein Wahrscheinlichkeitsraum ( Ω, A, P ) und unabhängige Zufallsvariablen Xi : ( Ω, A ) → ( Ri , Si ) , i ∈ I , mit der Eigenschaft, dass P Xi = Qi für jedes i ∈ N ist. 45 46 Kapitel 6 Gesetze der Großen Zahlen Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum. Lemma 6.1 (Borel-Cantelli) Es seien An ∈ A , n ∈ N , Ereignisse: ∞ (i) Aus ∑ i =1 P ( Ai ) < ∞ folgt P ( lim supn →∞ An ) = 0 , wobei ∞ lim sup An = n →∞ ∞ ∩ ∪ Ak n =1 k =n bedeutet: „Unendlich viele der An , n ∈ N , treten ein“. ∞ (ii) Sind die An , n ∈ N , unabhängig und ist ∑ i =1 P ( Ai ) = ∞ , so ist P ( lim supn →∞ An ) = 1 . Beweis (i) Es gilt: ∞ ∞ ∞ ∞ P ( ∩n =1 ∪k =n Ak ) = lim P ( ∪k =n Ak ) ≤ lim n →∞ n →∞ ∑ P ( Ak ) = 0 . k =n (ii) Es gilt: ∞ ∞ ∞ P ( lim supn →∞ An ) = 1 − P ( ∪n =1 ∩k =n Akc ) = 1 − lim P ( ∩k =n Akc ) n →∞ m = 1 − lim lim n →∞ m →∞ ∏ k =n P ( Akc m ) = 1 − lim lim n →∞ m →∞ m ∏ ( 1 − P ( Ak ) ) k =n ∏ exp ( −P ( Ak ) ) n →∞ m →∞ k =n m = 1 − lim inf lim inf exp ( −∑ k =n P ( Ak ) ) = 1, n →∞ m →∞ ≥ 1 − lim inf lim inf da 1 − x ≤ e −x für x ≥ 0 . Man beachte: ∞ ∞ ∪ ∩ Akc n =1 k =n bedeutet: „Fast alle Anc = lim inf Anc n →∞ , n ∈ N , treten ein“. Definition 6.2 (i) Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, X , Xn , n ∈ N , seien d -dimensionale Zufallsvektoren. Dann konvergiert die Folge ( Xn )n ∈N P -f.s. gegen X , wenn gilt: P ( limn →∞ Xn = X ) = 1 . Schreibweise: Xn → X [ P ] oder Xn → X P -f.s. ( P -f.ü.). (ii) Die Folge ( Xn )n ∈N konvergiert stochastisch gegen X , wenn für alle ε > 0 gilt: lim P ( Xn − X > ε ) = 0 . P n →∞ Schreibweise: Xn → X . Bemerkung 6.3 (i) Es gilt: ∞ { ω ∈ Ω | limn →∞ Xn ( ω ) = X ( ω ) } = = ∩ ∪ ∩ { Xm − X < ∩ ∪ ∩ { Xm − X < ε} k ∈ N n ∈ N m =n ∞ 1 k } ε > 0 n ∈ N m =n ∞ = ∩ ∪ ∩ {ω ∈ Ω | ε > 0 n ∈ N m =n X m ( ω ) − X ( ω ) < ε } ∈ A. (ii) Sei M := { limn →∞ Xn = X } . Dann gilt: ∞ 0 = P ( M c ) = P ( ∪ ε > 0 ∩ n ∈ N ∪ m =n { X m − X ≥ ε } ) . Für alle ε > 0 folgt: Kapitel 6 Gesetze der Großen Zahlen ∞ ∞ 0 = P ( ∩n ∈ N ∪m =n { Xm − X ≥ ε } ) = lim P ( ∪m =n { X m − X ≥ ε } ) n →∞ ≥ lim sup P ( { Xn − X ≥ ε } ) . n →∞ P Also gilt Xn → X [ P ] und somit folgt Xn → X . Satz 6.4 (Ungleichung von Kolmogorov) Sei ( Ω, A, P ) ein Wahrscheinlichkeitsraum, Xi : ( Ω, A ) → ( R, B ) seien unabhängig mit E ( Xi 2 ) < ∞ , k E ( Xi ) = 0 , i = 1,..., n . Sei weiter Sk = ∑ i =1 Xi und S 0 = 0 . Dann gilt für alle ε > 0 : n 1 P ( max1≤k ≤n Sk ≥ ε ) ≤ 2 ∑ Var ( Xi ) . ε i =1 Beweis Sei A = { max1≤k ≤n Sk ≥ ε } , Ak = { Sk ≥ ε | Si < ε für i = 1,..., k − 1} . Dann gilt A = n ∑ Var ( Xi ) = Var ( Sn ) = i =1 E ( Sn2 ) n ≥ ∑ (E ( k =1 Sk2I Ak ≥ E ( Sn2I A ) n = ∑E ( k =1 n Sn2I Ak ) + 2E ( ( Sn − Sk ) Sk I Ak ) ) = n k =1 und ) = ∑ E ([ Sk + ( Sn − Sk ) ] I Ak ) ∑E ( 2 n ∑k =1 Ak 2 k =1 Sk2I Ak n ) ≥ ε2 ∑ P ( Ak ) = ε2P ( A ) k =1 ≥ε2I Ak = ε P ( max1≤k ≤n Sk ≥ ε ), wobei wegen der Unabhängigkeit von Sn − Sk und Sk I Ak gilt: E (( Sn − Sk ) Sk I Ak ) = E ( Sn − Sk ) E ( Sk I Ak ) . Satz 6.5 ∞ Seien Xi : ( Ω, A ) → ( R, B ) unabhängig, E ( Xi ) = 0 , i ∈ N . Es gelte ∑ i =1 Var ( Xi ) < ∞ . Dann konvern P -f.s. gegen eine reelle Zufallsvariable. giert die Folge ( ∑ i =1 X i ) n ∈N Beweis m Für r ∈ N , n ∈ N ist mit Sm := ∑ i =1 Xi , m ∈ N , n +r 1 P ( max1≤k ≤r Sn +k − Sn > ε ) ≤ 2 ∑ Var ( Xi ) (Kolmogorovsche Ungleichung). ε i =n +1 r ↑ ∞ liefert ∞ P ( supk ∈N Sn +k − Sn > ε ) ≤ 1 ∑ Var ( Xi ) , ε2 i =n +1 und daraus folgt P ( infn ∈N supk ∈ N Sn +k − Sn > ε ) = 0 für jedes ε > 0 . Also ist die Folge ( Sn )n ∈N mit Wahrscheinlichkeit 1 eine Cauchy-Folge und daraus folgt die Behauptung. Lemma 6.6 (Kronecker) ∞ Sei an , n ∈ N , eine Folge von reellen Zahlen mit der Eigenschaft, dass ∑ k =1 k1 ak konvergiert, d.h. die Folge n bn , n ∈ N , mit bn = ∑ k =1 k1 ak konvergiert gegen eine reelle Zahl. Dann gilt: n 1 a → 0. ∑ n k =1 k Beweis Seien b0 := 0 , an = bn − bn −1 , n ∈ N . Dann gilt: n n n −1 n n −1 1 1 1 1 1 ak = ∑ k (bk − bk −1 ) = ∑ ( kbk − ( k − 1 )bk −1 ) − ∑ bk = bn − ∑ bk → 0 , n k∑ n n n n =1 k =1 k =1 k =1 k =1 da bn → b ∈ R und auch n −1 1 bk → b . n k∑ =1 Satz 6.7 (Kolmogorovsches Kriterium) Seien Xn , n ∈ N , unabhängige reelle Zufallsvariablen mit E ( Xn ) = 0 für alle n ∈ N . Des Weiteren sei ∞ 1 ∑ k 2 Var ( Xk ) < ∞ . k =1 Dann gilt: 47 Kapitel 6 Gesetze der Großen Zahlen n 1 Xi → 0 P -f.s. n∑ i =1 Beweis Sei Yn = 1 n Xn , n ∈ N . Dann sind die Yn unabhängig, E (Yn ) = 0 und ∞ ∑ Var (Yn ) = Hieraus folgt, dass ∞ ∑n =1Yn n =1 ∞ ∑ n1 Var ( Xn ) < ∞ . 2 n =1 P -f.s. konvergiert und somit gilt nach dem Lemma von Kronecker: n 1 X i → 0 P -f.s. n∑ i =1 Satz 6.8 (Kolmogorov – Das starke Gesetz der großen Zahlen, 1933) Seien Xn , n ∈ N , unabhängige reelle Zufallsvariablen, je mit derselben identischen Verteilung und sei E ( X1 ) < ∞ , µ = E ( X1 ) . Dann gilt: n 1 Xi → µ P -f.s. n∑ i =1 Beweis O.B.d.A. sei µ = 0 (betrachte sonst Xi′ = Xi − µ ). Betrachte Yn = Xn I ( Xi ≤ n ) . Die Yn , n ∈ N , sind unabhängig und es gilt: ∞ ∑ P ( Xn ≠ Yn ) = n =1 ∞ ∑ P ( X1 > n ) ≤ E ( X1 ) < ∞ . n =1 Aus dem Lemma von Borel-Cantelli (6.1) folgt P ( lim supn →∞ { Xn ≠ Yn } ) = 0 . 1 n n ∑ i =1Yi → 0 P -f.s. ist. Es gilt: ∞ ∞ 1 1 1 2) ( ( ) Var Y ≤ E Y = n ∑ n2 ∑ n 2 n ∑ n 2 E ( X1 2 I ( X1 ≤ n ) ) n =1 n =1 n =1 ∞ 1 n 2 = ∑ 2 E ( X1 ∑ k =1 I ( k − 1 < X1 ≤ k ) ) n n =1 ∞ n 1 = ∑ 2 ∑ E ( X1 X1 I ( k − 1 < X1 ≤ k )) n =1 n k =1 <k Es genügt zu zeigen, dass ∞ ∞ < ∑ ( kE ( X1 I ( k − 1 < k =1 ∞ X 1 ≤ k ) ) ∑ n =k 1 n2 ) ≤ 2E ( X1 ) < ∞. Aus dem Kolmogorovschen Kriterium (6.7) folgt: n 1 (Yi − E (Yi ) ) → 0 P -f.s. n∑ i =1 Noch zu zeigen bleibt: n 1 E (Yi ) → 0 . n∑ i =1 Sei ( an )n ∈N eine Folge reeller Zahlen mit an → a ∈ R . Dann gilt: n 1 ai → a . n∑ i =1 Dazu genügt es zu zeigen, dass E (Yi ) → 0 . Dies folgt aus dem Satz (4.6) von der majorisierten Konvergenz: E (Yi ) = E ( X1I ( X1 ≤ k ) ) = E ( X1I ( X1 ≤ k ) ) → E ( X1 ) = 0 . Bemerkung 6.9 (i) Sind Xn , n ∈ N , unabhängige und identisch verteilte d -dimensionale Zufallsvektoren, je mit dem Erwartungswertvektor µ ∈ Rd , so gilt n 1 X → µ P -f.s. ∑ n k =1 k (ii) Aus dem starken Gesetz der großen Zahlen (6.8) folgt das schwache Gesetz der großen Zahlen: 48 Kapitel 6 Gesetze der Großen Zahlen n P 1 Xk → µ . ∑ n k =1 Wird zudem E ( Xn2 ) < ∞ vorausgesetzt, so folgt das schwache Gesetz der großen Zahlen aus der Chebyshevschen Ungleichung: Für alle ε > 0 gilt 1 1 1 1 n n P Xk − µ > ε ≤ 2 Var ∑ k =1 X k = 2 Var ( X1 ) → 0 . ∑ = k 1 n n ε nε (iii) Seien Xn ∼ B ( 1, p ) , n ∈ N , unabhängig. Dann gilt: n 1 Xi → E ( X1 ) = p P -f.s. n∑ i =1 ( ) ( ) Anwendung: An , n ∈ N , eine Folge von unabhängigen Ereignissen, p = P ( An ) . Dann gilt: n 1 I Ai → p P -f.s. n∑ i =1 (iv) Monte-Carlo-Interpretation: Seien U n , n ∈ N , unabhängige und identisch verteilte reelle Zufallsvariablen U ν ∼ P ( 0,1 ) . Sei f : ( [ 0,1 ], B[ 0,1 ] ) → ( R, B ) mit 1 ∫0 f ( x ) d λ[ 0,1 ] ( x ) < ∞ . Dann sind Xn = f ⋅ U n unabhängige reelle Zufallsvariablen mit E ( Xn ) = 1 ∫0 f ( x )d λ ( x ) . Es gilt n 1 Xi → n∑ i =1 1 ∫0 f ( x )d λ ( x ) P -f.s. Man verschaffe sich Beobachtungen u1,..., un aus U 1,...,U n und bilde Xi = f ( ui ) , i = 1,..., n . Verwende n n 1 1 X = f ( ui ) i n∑ n∑ i =1 i =1 dann als Approximation für 1 ∫0 f ( x )d λ ( x ) . 49 50 Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen Definition 7.1 Sei X eine N 0 -wertige Zufallsvariable. Dann heißt ∞ fX ( t ) = ∑ P ( X = k )t k mit t ≤ 1 , k =0 erzeugende Funktion von X . Es ist ∞ ∑ kP ( X = k ) t k −1 fX′ ( t ) = für t ∈ ( −1,1 ) . k =1 Damit folgt aus dem Satz von der monotonen Konvergenz (4.4) ∞ fX′ ( 1 − ) = lim fX ( 1 − ε ) = lim ∑ kP ( X = k ) ( 1 − ε )k −1 ε ↓0 ∞ = ε ↓0 k =1 ∑ kP ( X = k )( limε↓0 ( 1 − ε ))k = k =1 Wir betrachten nun ∞ gX ( t ) = ∑ P ( X > n )t n = n =0 ∞ ∞ ∑ ∞ ∑ kP ( X = k ). k =1 ∞ (1 − P ( X ≤ n ) )t n = n =0 1 − P ( X ≤ n )t n 1 − t n∑ =0 1 1 n ∞ ∞ − ∑ ( ∑k =0 P ( X = k ) )t n = − ( ∑ k =0 t k ) ( ∑l =0 P ( X = l ) t l ) 1 − t n =0 1−t (t ) − 1 (t ) − f f 1 1 1 X X = − fX ( t ) = = t −1 1−t 1−t 1−t für t ∈ ( −1,1 ) . Es gilt = ∞ g X ( 1 − ) = lim ε ↓0 g X ( 1 − ε ) = n =0 ∞ = ∑ kP ( X ∞ ∞ ∑ P (X > n ) = ∑ ∑ ∞ P (X = k ) = n = 0 k =n +1 ∑ P (X k =1 k −1 = k)∑1 n =0 = k ) = E ( X ). k =1 Dies ist äquivalent zur Existenz von fX′ ( 1 ) . Es gilt dann E ( X ) = g X ( 1 − ) = fX′ ( 1 − ) = fX′ ( 1 ) < ∞ . Weiter gilt z.B. ∞ fX′′ ( 1 − ) = lim fX′′ ( 1 − ε ) = lim ∑ k ( k − 1 ) P ( X = k ) ( 1 − ε )k −2 = ε ↓0 ε ↓0 k =2 ∞ ∑ k ( k − 1) P ( X = k ) . k =2 Es ist ∞ E ( X ( X − 1)) = ∑ k ( k − 1) P ( X = k). k =2 Ist E ( X 2 ) < ∞ , so gilt für die Varianz 2 Var ( X ) = f ′′ ( X ) ( 1 − ) + fX′ ( 1 − ) − ( fX′ ( 1 − ) ) . Satz 7.2 (Eindeutigkeitssatz für erzeugende Funktionen) Seien X ,Y N0 -wertige Zufallsvariablen mit erzeugenden Funktionen fX und fY . Dann gilt fX ( t ) = fY ( t ) für t ≤ 1 , was äquivalent zu P X = PY ist. Beweis Identitätssatz für Potenzreihen. Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen Satz 7.3 Seien X ,Y Dann gilt: N0 -wertige Zufallsvariablen mit erzeugenden Funktionen fX und fY . Seien X ,Y unabhängig. fX +Y ( t ) = fX ( t ) fY ( t ) für t ≤ 1 . Beweis Es gilt: fX +Y ( t ) = E ( t X +Y ) = E ( t X tY ) = E ( t X ) E ( tY ) = fX ( t ) fY ( t ) mit t ≤ 1 . Beispiel 7.4 Seien Xn , n ∈ N , unabhängige Zufallsvariablen mit je derselben Verteilung B ( 1, p ) , p ∈ ( 0,1 ) . Sei T1 = inf { n ∈ N | Xn = 1} . Sei T1 := ∞ , falls Xn = 0 für jedes n ∈ N . Dann gilt: P (T1 = k ) = P ( X1 = 0,..., Xk −1 = 0, X k = 1 ) = P ( X1 = 0 )k −1 P ( X1 = 1 ) = ( 1 − p )k −1 p für k ∈ N . Weiterhin gilt: ∞ ∞ ∞ ∑ P (T1 = k ) = ∑ ( 1 − p )k −1 p = p ∑ ( 1 − p )k k =1 k =1 = k =0 1 p = 1. 1 − (1 − p ) Es folgt: P (T1 = ∞ ) = 0 . Definition 7.5 Eine Zufallsvariable W heißt geometrisch verteilt mit den Parametern p ∈ ( 0,1 ) auf N , wenn gilt P (W = k ) = ( 1 − p )k −1 p für k ∈ N . Für die erzeugende Funktion von W gilt: fW ( t ) = E ( tW ) = ∞ ∑ P (W ∞ = k )t k = k =1 pt 1 = für t < . 1 − (1 − p )t 1− p ∑ ( 1 − p )k −1 pt k k =1 ∞ ∞ k =1 k =0 = tp ∑ ( ( 1 − p ) t )k −1 = tp ∑ ( ( 1 − p ) t )k Außerdem gilt fW′ ( 1 ) = E (W ) = 1 . p Sei r ∈ N . Definiere Tj induktiv wie folgt, wobei T0 := 0 ist: Tj +1 := inf { n ∈ N | n > Tj , Xn = 1 } für j ∈ N und D j induktiv wie folgt: D j := Tj − Tj −1 , j ∈ N . Dann gilt: P ( D1 = j1,..., Dr = jr ) = P (T1 = j1,T2 = j1 + j2 ,...,Tr = j1 + ... + jr ) = P ( X1 = 0,..., X j1 −1 = 0, X j1 = 1, X j1 +1 = 0,..., X j1 + j2 −1 = 0, X j1 + j2 = 1,..., X j1 +...+ jr = 1 ) = ( 1 − p )j1 +...+ jr −r p r für j1,..., jr ∈ N . Es folgt r −1 ∞ P ( Dk = jk ) = ( 1 − p )jk −1 p ( ∑ j =1 ( 1 − p )j −1 p ) = ( 1 − p )jk −1 p für jk ∈ N , k ∈ { 1,..., r } . Also gilt P ( D1 = j1,..., Dr = jr ) = P ( D1 = j1 ) ⋅ ... ⋅ P ( Dr = jr ) für alle r ∈ N mit j1,..., jr ∈ N . Es folgt, dass D j , j ∈ N , stochastisch unabhängig und identisch verteilt sind (und zwar je geometrisch mit dem Parameter p ). Man kann Tr = D1 + ... + Dr als „Wartezeit“ bis zum r -ten Erfolg interpretieren. Es gilt: k −1 P (Tr = k ) = ∑ r P ( D1 = j1,..., Dr = jr ) = ∑ r ( 1 − p )k −r pr = k − r ( 1 − p )k −r pr ( j1 ,..., jr )∈ N ( j1 ,..., jr )∈ N ( j1 +...+ jr =k j1 +...+ jr =k mit k ∈ { r , r + 1,... } . 51 ) Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen Definition 7.6 Eine Zufallsvariable V mit der Verteilung k −1 ( 1 − p )k −r p r für k ∈ { r , r + 1,... } , P (V = k ) = k −r heißt negativ binomialverteilt mit den Parametern r ∈ N und p ∈ ( 0,1 ) auf der Menge { r , r + 1,...} . Schreibweise: V ∼ Nb ( r, p ) auf { r , r + 1,... } . ( ) Sei C j = D j − 1 , j ∈ N , die Anzahl der Misserfolge zwischen dem j − 1 -ten und dem j -ten Erfolg, sei weiter S j = Tj − j = C 1 + ... + C j die Anzahl aller Misserfolge bis zum j -ten Erfolg. Dann gilt: P (C j = k ) = P ( D j = k + 1 ) = ( 1 − p )k p für k ∈ N0 und P ( Sr = k ) = P (Tr = k + r ) = ( k + kr − 1 )(1 − p ) k pr für k ∈ N 0 . Definition 7.7 Eine Zufallsvariable U mit der Verteilung P (U = k ) = ( k + kr − 1 )(1 − p ) k pr für k ∈ N0 heißt negativ binomialverteilt mit den Parametern r ∈ N und p ∈ ( 0,1 ) auf N 0 . Schreibweise: U ∼ Nb ( r , p ) auf N0 . Sei U ∼ Nb ( r , p ) auf N 0 , V ∼ Nb ( r, p ) auf { r , r + 1,...} . Dann gilt r pt 1 für t < , fU ( t ) = ( fU1 ( 1 ) )r = 1− p 1 − (1 − p )t mit U 1 ∼ Nb ( 1, p ) und E (U ) = r / p . Es ist 1 pt p 1 für t < fV ( t ) = ( fV1 ( t ) )r = E ( tV1 ) = = 1 − (1 − p )t 1− p t 1 − (1 − p )t die erzeugende Funktion von V1 ∼ Nb ( 1, p ) . Dann gilt: 1 1− p 1− p und Var (U ) = Var (V ) = r 2 . E (V ) = rE (V1 ) = r −1 = r p p p ( ( ) ) Satz 7.8 (Poissonscher Grenzwertsatz) Sei Xn ∼ B ( n, pn ) für n ∈ N , pn ∈ ( 0,1 ) . Es gelte limn →∞ npn = λ ∈ ( 0, ∞ ) . Dann gilt für n → ∞ : λk P ( Xn = k ) → e −λ für jedes k ∈ N 0 . k! Beweis Es gilt: n k 1 np n −k für k ∈ N 0 . P ( Xn = k ) = pn ( 1 − pn )n −k = n ( n − 1 ) ⋅ ... ⋅ ( n − k + 1 ) pnk 1 − n k k! n k ( ) ( →λ ) →e−λ Außerdem gilt: ∞ λk ∞ λk ∑ e−λ k ! = e−λ ∑ k ! = e−λeλ k =0 = 1. k =0 Definition 7.9 Eine Zufallsvariable X mit der Verteilung P ( X = k ) = e −λ λk für k ∈ N0 k! heißt Poisson-verteilt mit dem Parameter λ > 0 . Also: Bei Xn ∼ B ( n, pn ) mit limn →∞ npn = λ ∈ ( 0, ∞ ) ist X Poisson-verteilt mit dem Parameter λ > 0 . Schreibweise: X ∼ P ( λ ) . Es gilt: lim P ( Xn = k ) = P ( X = k ) für alle k ∈ N0 . n →∞ 52 Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen Approximation für P ( X = k ) bei X ∼ B ( n, p ) liefert: n k ( np )k für k ∈ { 0,..., n } . P (X = k ) = p ( 1 − p )n −k ≈ e −np k k! Für die erzeugende Funktion von Xn ∼ B ( n, pn ) gilt: n n k fXn ( t ) = E ( tVn ) = ∑ pn ( 1 − pn )n −k t k , t ∈ R . k =0 k ( ) ( ) Für die erzeugende Funktion von X ∼ P ( λ ) gilt: fX ( t ) = E ( t X ) = ∞ λk ∑ e−λ k ! t k = e −λe λt = e λ ( t −1 ) , t ∈R. k =0 Außerdem gilt: fX′ ( 1 ) = λ = E ( X ) und fX′′ ( 1 ) + fX′ ( 1 ) − fX′ ( 1 )2 = λ2 + λ − λ2 = λ = Var X . Für npn → λ ∈ ( 0, ∞ ) gilt ( npn ( t − 1 ) n fXn ( t ) = ( 1 − pn + pn t )n = 1 + ) n → eλ ( t −1 ) = fX ( t ) , t ∈ R . Satz 7.10 (Stetigkeitssatz) Seien ak ,n ≥ 0 für n ∈ N , k ∈ N 0 und es gelte ∞ ∑ ak,n = 1 für jedes n ∈ N . k =0 Sei ∞ An ( t ) = ∑ ak,nt k für t < 1 , n ∈ N . k =0 Dann gilt: (i) Aus der Existenz von limn →∞ ak ,n = ak für jedes k ∈ N0 folgt die Existenz von lim An ( t ) = A ( t ) für t < 1 . n →∞ (ii) Aus der Existenz von limn →∞ An ( t ) = A ( t ) für jedes t ∈ ( 0,1 ) folgt die Existenz von lim ak ,n = ak für jedes k ∈ N0 . n →∞ Beweis (i) Sei t ∈ ( −1,1 ) . Dann gilt: ∞ An ( t ) − A ( t ) = ∑ ∞ l ( ak ,n − ak ) t k ≤ k =0 ∑ ak ,n − ak t k + k =0 ∑ l t k k =l +1 = ∑ ak,n − ak k =0 Somit gilt: lim sup An ( t ) − A ( t ) ≤ 0 + n →∞ l → ∞ liefert limn →∞ An ( t ) − A ( t ) = 0 . (ii) Vollständige Induktion nach k ∈ N0 liefert: k = 0 : Sei a 0 = limt ↓0 A ( t ) . Dann gilt: a 0,n ≤ An ( t ) ≤ a 0,n + t l +1 für alle l ∈ N . 1− t t für t ∈ ( 0,1 ) und alle n ∈ N . 1−t Daraus folgt An ( t ) − t ≤ a 0,n ≤ An ( t ) 1−t und somit A(t ) − t ≤ lim inf a 0,n ≤ lim sup a 0,n ≤ A ( t ) . n →∞ 1−t n →∞ t ↓ 0 liefert a 0 ≤ lim inf a 0,n ≤ lim sup a 0,n ≤ a 0 . n →∞ n →∞ Also folgt a 0 = limn →∞ a 0,n . k → k + 1 : Es sei Bn ( t ) = 1 t k +1 ( k ) An ( t ) − ∑ j = 0 a j ,nt j = 53 ∞ ∑ j =k +1 a j ,nt j −( k +1 ) . t k + t l +1 . 1− t Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen Sei B ( t ) = limn →∞ Bn ( t ) für t ∈ ( 0,1 ) , ak +1 := limt ↓0 B ( t ) . Dann gilt: t ak +1,n ≤ Bn ( t ) ≤ ak +1,n + 1−t und somit t ≤ ak +1,n ≤ Bn ( t ) , Bn ( t ) − 1−t also t ≤ lim inf ak +1,n ≤ lim sup ak +1,n ≤ B ( t ) . B (t ) − n →∞ 1−t n →∞ Für t ↓ 0 gilt: ak +1 ≤ lim inf ak +1,n ≤ lim sup ak +1,n ≤ ak +1 n →∞ n →∞ und damit ak +1 = lim ak +1,n . n →∞ Korollar 7.11 Seien X und Xn , n ∈ N , N 0 -wertige Zufallsvariablen mit den erzeugenden Funktionen fX und fXn , n ∈ N . Genau dann gilt lim P ( X n = k ) = P ( X = k ) für jedes k ∈ N 0 , n →∞ wenn lim fXn ( t ) = fX ( t ) für jedes t ∈ ( −1,1 ) . n →∞ Beispiel 7.12 Sei Xr ∼ Nb ( r , pr ) auf N 0 , r ∈ N , pr ∈ ( 0,1 ) , und gelte r ( 1 − pr ) → λ ∈ ( 0, ∞ ) für r → ∞ . Sei zudem X ∼ P ( λ ) . Dann gilt: r ( 1 − pr ) r 1 − r pr e −λ λ( t −1 ) r = = fX ( t ) für t < 1 . fXr ( t ) = r → −λt = e r ( 1 − pr ) t 1 − ( 1 − pr ) t e 1− r ( ) ( ( ) ) Verallgemeinerung auf den Fall Nm 0 -wertiger Zufallsvektoren Definition 7.13 Sei X = ( X1,..., Xm ) ein Nm 0 -wertiger Zufallsvektor. Dann heißt fX ( t1,..., tm ) = E ( t1X1 ⋅ ... ⋅ tmXm ) = ∑ P ( X1 = k1,..., Xm = km )t1k1 ⋅ ... ⋅ tmkm ( k1 ,...,km )∈ Nm 0 für ti ≤ 1 , i = 1,..., m , erzeugende Funktion von X . Satz 7.14 (Eindeutigkeitssatz) Seien X = ( X1,..., X m ) und Y = (Y1,...,Ym ) Nm 0 -wertig mit den erzeugenden Funktionen fX und fY . Dann gilt: fX ( t1,..., tm ) = fY ( t1,..., tm ) für alle ( t1,..., tm ) ∈ [ −1,1 ]m , was äquivalent zu P X = PY ist. Beweis Eindeutigkeitssatz für Potenzreihen. Sei X = ( X1,..., Xm ) eine Nm 0 -wertiger Zufallsvektor mit erzeugender Funktion fX . (i) Dann gilt für die erzeugenden Funktionen von Xi : fXi ( t ) = fX ( 1,...,1, t,1,...,1 ) mit t als i -te Komponente und t ≤ 1 . (ii) Die Unabhängigkeit von X1,..., Xm ist äquivalent zu m fX ( t1,..., tm ) = ∏ fXi ( ti ) für alle ti ≤ 1 , i = 1,..., m . i =1 54 Kapitel 7 Nichtnegative ganzzahlige Zufallsvariablen und erzeugende Funktionen (iii) Die erzeugende Funktion von S = X1 + ... + Xm ist fS ( t ) = E ( t S ) = fX ( t,..., t ) für t ≤ 1 . (iv) Für die erzeugende Funktion von Xi + X j für 1 ≤ i ≤ j ≤ m gilt fXi +X j ( 1,...,1, t,1,...,1, t,1,...,1 ) mit t als i -te und j -te Komponente und t ≤ 1 . Beispiel 7.15 Sei X = ( X1,..., Xs ) ∼ M ( n; p1,..., ps ) mit n ∈ N , pi ∈ ( 0,1 ) , p1 + ... + ps = 1 , s ∈ N . Dann gilt n! P ( X1 = k1,..., Xs = ks ) = p k1 ⋅ ... ⋅ psks für ( k1,..., ks ) ∈ Ns0 . k1 ! ⋅ ... ⋅ ks ! 1 Für die erzeugende Funktion folgt nach dem polynomischen Lehrsatz: n! fX ( t1,..., ts ) = E ( t1X1 ⋅ ... ⋅ tsXs ) = ∑ s k1 ! ⋅ ... ⋅ ks ! p1k1 ⋅ ... ⋅ psks t1k1 ⋅ ... ⋅ tsks = ( p1t1 + ... + psts )n . ( k1 ,...,ks )∈ N 0 k1 +...+ks =n Denn es gilt ( x1 + ... + xs )n = n! x k1 ⋅ ... ⋅ xsks . ⋅ k ! ... ⋅ ks ! 1 ( k1 ,...,ks )∈ Ns0 1 ∑ k1 +...+ks =n Beispiel 7.16 Betrachten wir das Einzelexperiment, bei dem die sich paarweise ausschließenden Ereignisse A0 ,..., As auftreten können, wobei genau eines dieser Ereignisse auftritt. Dieses Einzelexperiment wird unbeschränkt oft wiederholt. Es sei X j die Anzahl der Versuchswiederholungen, bei denen Aj auftritt bis zum r -ten Auftreten von A0 , j = 1,..., s . Wir suchen die Verteilung von ( X1,..., Xs ) . Es gilt: k +r −1 k! P ( X1 = k1,..., Xs = ks ) = pk1 ⋅ ... ⋅ psks p0r k k1 ! ⋅ ... ⋅ ks ! 1 ( ) für k, k1,..., ks ∈ N 0 , k = k1 + ... + ks , p0 ,..., ps ∈ ( 0,1 ) , r ∈ N . Definition 7.17 Ein Ns0 -wertiger Zufallsvektor X = ( X1,..., Xs ) mit der Verteilung k +r −1 k! P ( X1 = k1,..., Xs = ks ) = pk1 ⋅ ... ⋅ psks p0r k k1 ! ⋅ ... ⋅ ks ! 1 ( ) heißt mehrdimensional negativ binomialverteilt mit den Parametern k, k1,..., ks ∈ N0 mit k1 + ... + ks = k , r ∈ N und p0 ,..., ps ∈ ( 0,1 ) . Schreibweise: X ∼ MNb ( r ; p0 ; p1,..., ps ) . Die zugehörige erzeugende Funktion lautet: k + ... + k + r − 1 ( k1 + ... + ks ) ! k1 fX ( t1,..., ts ) = p1 ⋅ ... ⋅ psks p0r t1k1 ⋅ ... ⋅ tsks ∑ s 1 k1 + ...s+ ks k k ! ⋅ ... ⋅ ! s 1 ( k1 +...+ks )∈ N 0 ( ∞ = ⎛ k! ∑ ⎜⎜⎝⎜ ∑(kk +,...,...k+k)∈=Nk k1 ! ⋅ ... ⋅ ks ! ( p1t1 )k k =0 ∞ = ) ∑( k =0 1 1 s 0 s 1 s ) ( ) ⎞ k +r −1 r p0 ⋅ ... ⋅ ( ps ts )ks ⎟⎟ k ⎠⎟ p0 k +r −1 r p0 ( p1t1 + ... + psts )k = 1 − ( p1t1 + ... + psts ) k ( für ti ≤ 1 , i = 1,..., s . 55 ) r 56 Kapitel 8 Zentrale Grenzwertsätze Sei Xλ ∼ P ( λ ) . Dann ist E ( Xλ ) = λ = Var ( Xλ ) und es gilt für großes λ X −λ P a< λ ≤b = P ( Xλ = k ) = ∑ ∑ λ λ +a λ <k ≤λ +b λ λ +a λ <k ≤λ +b ( ) e −λ λ λk . k! Sei a > 0 , C λ a = { k ∈ N 0 | k − λ ≤ a λ } , Z λ a = { z > 0 | z − k = λ für k ∈ C λ ( a ) } . Sei k 0 = [ λ ] definiert durch die größte ganze Zahl, die kleiner oder gleich λ ist. Es sei gλ ( k ) = log P ( X λ = k ) für k ∈ N 0 . Dann gilt für k = z + λ , z ∈ Zλ ( a ) : k +1 −λ P ( Xλ = k + 1 ) e ( kλ+1 )! λ λ 1 . = −λ λk = = = z P ( Xλ = k ) k +1 1+λ +z 1 + λ + λ1 e ( ) ( ) k! Es folgt: ( gλ ( k + 1 ) − gλ ( k ) = − log 1 + r1λ ( z ) = 0 bzw. 1 und sup mit supz ∈Zλ a k ∈C λ Sei k > k0 mit k ∈ C λ ( a ) . Dann gilt: ) ( ( a) ) z 1 z rλ (z ) k − k 0 r2λ ( k ) + =− + 1 =− + λ λ λ λ λ λ r2λ ( k ) = 0 bzw. 1 , für λ → ∞ . k −1 gλ ( k ) − gλ ( k 0 ) = k −1 ∑ ( gλ ( j + 1 ) − gλ ( j ) ) = − ∑ j =k 0 mit supk ∈C λ a r3λ ( k ) λ → ∞ . Es folgt: ) ( j =k 0 j − k0 r3λ ( k ) 1 + =− λ λ λ 1 r λ (k ) 1 r λ (k ) = − ( k − k0 )2 + 4 = − ( k − λ )2 + 5 2λ 2λ λ λ = 0 bzw. 1 , supk ∈C λ a r4λ ( k ) = 0 bzw. 1 und supk ∈C λ ( ) ( k −k0 −1 a) ∑ j+ j =1 r3λ ( k ) λ r5λ ( k ) = 0 bzw. 1 , für λ ( )⎞ λ ( )⎞ ⎛ 2 ⎛ ⎜ 1 + s k ⎟⎟ = c ( λ )e −21λ ( k −λ ) ⎜ 1 + s k ⎟⎟ ⎜ ⎝⎜ ⎠ ⎝ λ λ ⎠ ( ) g k = 0 bzw. 1 und c ( λ ) = e λ 0 = P ( Xλ = k0 ) . Weiterhin gilt mit der Chebyshevschen 1 ( k −λ )2 P ( Xλ = k ) = e gλ ( k0 )e −2λ mit supk ∈C λ a s λ ( k ) Ungleichung: ( ) 1 ≥ P ( Xλ ∈ C λ ( a ) ) = P (X λ ) ( ) −λ Xλ − λ 1 ≤a = 1−P > a ≥ 1 − 2 für a > 0 . λ λ a Zudem gilt: P ( Xλ ∈ C λ (a ) ) = ∑ ∑ λc ( λ ) P ( Xλ = k ) = λ −a λ ≤k ≤λ +a λ λ −a λ ≤k ≤λ +a λ 1 −21λ ( k −λ )2 ⎛⎜ s λ ( k ) ⎞⎟ + , 1 e ⎜ ⎝ λ λ ⎠⎟ →I ( a ) wobei I ( a ) := a ∫−a e 2 −x2 Es folgt: dx . ( ) dx = 2π . 1 1 1 ≥ lim sup λc ( λ ) ≥ lim inf λc ( λ ) ≥ 1 − 2 für alle a > 0 . ( λ →∞ I (a ) I a) a λ →∞ Für a → ∞ gilt lim I ( a ) = a →∞ ∞ ∫−∞ e 2 −x2 Damit gilt: lim λ →∞ λc ( λ ) = 1 . 2π Satz 8.1 (Zentraler Grenzwertsatz für die Poisson-Verteilung, lokale Form) Es gilt sup k ∈C λ ( k ) P ( Xλ = k ) −1 → 0. 1 1 exp − ( k − λ )2 2λ 2πλ ( ) Kapitel 8 Zentrale Grenzwertsätze Schreibweise: ( 1 1 exp − ( k − λ )2 2λ 2πλ P ( Xλ = k ) ∼ ) für λ → ∞ gleichmäßig in k 0 ∈ N0 mit k − λ ≤ c λ für c > 0 . Spezialfall: k = λ ∈ N . Hierfür gilt: P ( X λ = λ ) = e −k kk ∼ k! 1 für k → ∞ . 2πk Es folgt: ( ke ) k 2πk k! ∼ für k → ∞ (Stirlingsche Formel). Satz 8.2 (Zentraler Grenzwertsatz für die Poisson-Verteilung, kumulative Form) Für −∞ < a < b < ∞ gilt ( ) Xλ − λ < lim P a < b = − λ →∞ λ − Beweis Es gilt: ( ) Xλ − λ < ⎡ P a < b =⎢ − λ − ⎢⎣ λ +a für λ → ∞ . ) ( ( ) ) ( λ ∑ ( ) ( < k < λ +b −) ( −) λ 1 2π 1( 1 )2 e −2λ k −λ 2πλ b ∫a x2 e − 2 dx . ⎤( ⎥ 1 + 0 bzw. 1 ) → ⎥⎦ 1 2π b ∫a x2 e − 2 dx Definition 8.3 Wir nennen 1 2π Φ(x ) = x ∫−∞ t2 e − 2 dt für x ∈ R die Verteilungsfunktion der ( 0,1 ) -Verteilung. Es gilt dann: ( ) < X λ − λ < b = Φ (b ) − Φ ( a ) . lim P a − λ − λ →∞ ) ( ( ) Korollar 8.4 Es gilt: lim P λ →∞ Beweis Es gilt: (X (X λ ) ) −λ ≤ x = Φ ( x ) für alle x ∈ R . λ ( ) −λ X −λ ≤ x ≥ lim P a < λ ≤ x = Φ ( x ) − Φ (a ) für alle a ∈ R . λ →∞ λ λ Für a → −∞ gilt Φ ( a ) → 0 . Es folgt: X −λ X −λ X −λ lim inf P λ ≤ x = lim sup 1 − P λ > x ≥ lim sup 1 − P x < λ ≤b λ →∞ λ λ λ λ →∞ λ →∞ = 1 − ( Φ (b ) − Φ ( x ) ) für alle b > x . Für b → ∞ gilt Φ (b ) → 1 . Also folgt: X −λ lim sup P λ ≤ x ≥ Φ(x ) . λ λ →∞ lim P λ →∞ λ ( ) ( )) ( ( ( ( )) ) Beispiel 8.5 Sei X ∼ P ( λ ) . Dann gilt: P (a ≤ X ≤ b ) = P ( a −λλ ≤ X −λ λ ≤ b −λλ ) ≈ Φ ( b −λλ ) − Φ ( a −λλ ) . Sei X ∼ Nb ( r, p ) auf N 0 , Y ∼ Nb ( r, p ) auf { r , r + 1,... } . Dann gilt für die erzeugenden Funktionen: r r 1 p pt , fY ( t ) = für t < . fX ( t ) = 1− p 1 − (1 − p )t 1 − (1 − p )t ( ( ) 57 ) Kapitel 8 Zentrale Grenzwertsätze 1 2π Tabelle der Verteilungsfunktion Φ ( x ) = x 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 x ∫−∞ 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 t2 e − 2 dt , x ≥ 0 , der N ( 0,1 ) -Verteilung 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 Ablesebeispiele: Φ ( 1, 96 ) = 0, 9750 Φ ( −0, 75 ) = 1 − Φ ( 0, 75 ) = 1 − 0, 7734 = 0,2266 Tabelle der Werte uα α= α uα 0,9 1,2816 1 2π uα ∫−∞ e 0,95 1,6449 2 −t2 dt , α ∈ ( 0,1 ) 0,975 1,9600 Es ist u1−α = −uα . 58 0,99 2,3264 0,995 2,5758 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 Kapitel 8 Zentrale Grenzwertsätze Verteilungen von nichtnegativen ganzzahligen Zufallsvariablen Binomialverteilung: B ( n, p ), n ∈ N, p ∈ ( 0,1 ) n k Zähldichte: P ( X = k ) = p ( 1 − p )n −k für k ∈ { 0,..., n } k Erwartungswert: E ( X ) = np Varianz: Var ( X ) = np ( 1 − p ) ( ) Erzeugende Funktion: fX ( t ) = ( 1 − p + pt )n für t ∈ R Poisson-Verteilung: P ( λ ), λ > 0 Zähldichte: P ( X = k ) = e −λ Erwartungswert: E ( X ) = λ Varianz: Var ( X ) = λ Erzeugende Funktion: fX ( t ) = e λ ( t −1 ) λk für k ∈ N 0 k! für t ∈ R Hypergeometrische Verteilung: H ( a, r , n ), a, r, n ∈ N, n ≤ a, r ≤ a ( r )( a −r ) Zähldichte: P ( X = k ) = k an −k für max { 0, n + r − a } ≤ k ≤ min { r , n } (n ) r ( ) Erwartungswert: E X = n a r r a −n ( ) Varianz: Var X = n 1 − a a a −1 ( ) Negative Binomialverteilung: Nb ( r , p ) auf N 0 , r ∈ N, p ∈ ( 0,1 ) k +r −1 r Zähldichte: P ( X = k ) = p ( 1 − p )k für k ∈ N 0 k 1− p Erwartungswert: E ( X ) = r p 1− p Varianz: Var ( X ) = r 2 p r 1 p Erzeugende Funktion: fX ( t ) = für t < 1 − ( 1 − p )t 1− p ( ) ( ) Negative Binomialverteilung: Nb ( r , p ) auf { r , r + 1,...} , r ∈ N, p ∈ ( 0,1 ) k −1 r Zähldichte: P ( X = k ) = p ( 1 − p )k −r für k ∈ { r, r + 1,... } k −r 1 Erwartungswert: E ( X ) = r p 1− p Varianz: Var ( X ) = r 2 p r pt 1 Erzeugende Funktion: fX ( t ) = für t < 1 − (1 − p )t 1− p ( ) ( ) Verteilungen von reellen Zufallsvariablen mit Dichten Normalverteilung: N ( µ, σ 2 ), µ ∈ R, σ 2 > 0 Dichte: 1 2 e 2 −( x −µ2 ) 2σ 2πσ Erwartungswert: E ( X ) = µ Varianz: Var ( X ) = σ 2 59 für x ∈ R Kapitel 8 Zentrale Grenzwertsätze Exponentialverteilung: Exp ( λ ), λ > 0 Dichte: λe −λx für x ≥ 0 1 Erwartungswert: E ( X ) = λ 1 Varianz: Var ( X ) = 2 λ Rechteckverteilung: R ( a, b ), − ∞ < a < b < ∞ 1 Dichte: für x ∈ [ a, b ] b −a a +b Erwartungswert: E ( X ) = 2 1 ( ) Varianz: Var X = (b − a )2 12 Gammaverteilung: G ( α, λ ), α > 0, λ > 0 λ α α −1 −λx Dichte: x e für x > 0 Γ(α ) α Erwartungswert: E ( X ) = λ α ( ) Varianz: Var X = 2 λ Cauchy-Verteilung: C ( µ, σ ), µ ∈ R, σ > 0 σ 1 Dichte: für x ∈ R π ( σ 2 + ( x − µ )2 ) Verteilungen von Zufallsvektoren Normalverteilung: Nd ( µ, Σ ), µ ∈ Rd , Σ ∈ Rd×d symmetrisch und positiv definit ( ) 1 1 d 1 T −1 e −2( x −µ ) Σ ( x −µ ) für x = ( x1,..., xd ) ∈ Rd 2π det Σ Erwartungswertvektor: E ( X ) = µ Kovarianzmatrix: Cov ( X ) = Σ Dichte: Multinomialverteilung: M ( n, p1,..., ps ), n ∈ N, p1,..., ps ∈ ( 0,1 ), p1 + ... + ps = 1 n! Zähldichte: P ( X1 = k1,..., Xs = ks ) = pk1 ⋅ ... ⋅ psks , ( k1,..., ks ) ∈ Ns0 , k1 + ... + ks = n k1 ! ⋅ ... ⋅ ks ! 1 Erwartungswertvektor: E ( X ) = np für p = ( p1,..., ps ) Kovarianzmatrix: Cov ( X ) = n [ diag ( p1,..., ps ) − pp T ] Erzeugende Funktion: fX ( t1,..., ts ) = ( p1t1 + ... + psts )n für ti ∈ R mit i = 1,..., s Mehrdimensionale negative Binomialverteilung: MNb ( r ; p0 ; p1,...ps ), r ∈ N, p0 ,..., ps ∈ ( 0,1 ), p1 + ... + ps = 1 k +r −1 k! Zähldichte: P ( X1 = k1,..., Xs = ks ) = pk1 ⋅ ... ⋅ psks p0r k k1 ! ⋅ ... ⋅ ks ! 1 ( ) für ( k1,..., ks ) ∈ Ns0 mit k1 + ... + ks = k r Erwartungswertvektor: E ( X ) = p, p = ( p1,..., ps ) p0 p p 1 ⎡ ⎤ Kovarianzmatrix: Cov ( X ) = r ⎢ diag 1 , ..., s + 2 pp T ⎥ p p p0 0 0 ⎣⎢ ⎦⎥ r p0 1 Erzeugende Funktion: fX ( t1,..., ts ) = für ti < mit i = 1,..., s 1 − ( p1t1 + ... + psts ) 1 − p0 ( ) ( ) 60 Kapitel 8 Zentrale Grenzwertsätze Satz 8.6 (Zentraler Grenzwertsatz für die Binomialverteilung) Sei Xn ∼ B ( n, pn ) für n ∈ N . Es gelte Var ( Xn ) = npn ( 1 − pn ) → ∞ , E ( Xn ) = npn . Dann folgt: e −npn n k P ( Xn = k ) = pn ( 1 − pn )n −k = k ( ) ( npn )k k! n −k pn ) ) e −n (1− pn ) ( n (1( − n −k ) ! n e −n nn ! 1 2 πnpn ∼ 2 1 ( k −npn ) npn e −2 2 1 ( ( n −k )−n ( 1− pn ) ) n ( 1− pn ) − 1 e 2 2 πn ( 1− pn ) 1 2 πn für n → ∞ . Also erhalten wir P ( Xn = k ) ∼ für n → ∞ gleichmäßig in k ∈ N 0 mit k − npn 1 e )2 n −21 npkn−(np 1− pn ) ( 2πnpn ( 1 − pn ) ≤ c npn ( 1 − pn ) , c > 0 . Satz 8.7 (Zentraler Grenzwertsatz von Laplace) Für k → ∞ gilt 1 P ( Xn = k ) ∼ 2πnpn ( 1 − pn ) e )2 n −21 npkn−(np 1− pn ) ( gleichmäßig in k ∈ N0 mit k − npn ≤ c npn ( 1 − pn ) , c > 0 . Satz 8.8 (Zentraler Grenzwertsatz von Moivre-Laplace, kumulative Form) Für alle −∞ < a < b < ∞ gilt: ⎛ < lim P ⎜ a − n →∞ ⎜ ⎝ ( ) b t2 Xn − npn < b ⎞⎟⎟ = Φ (b ) − Φ (a ) = 1 ∫ e − 2 dt . − ⎠ 2π a npn ( 1 − pn ) ( ) Korollar 8.9 Es gilt ⎛ Xn − npn ⎞ ≤ x ⎟⎟ = Φ ( x ) für alle x ∈ R . lim P ⎜⎜ ⎝ npn ( 1 − pn ) ⎠ n →∞ Sei X ∼ B ( n, p ) . Dann gilt: a − np < ) < P (a < − X − b = P np ( 1 − p ) − ( ) ( ) ( ( ) X − np < np ( 1 − p ) − ( ) ( b − np ≈Φ np ( 1 − p ) ) ) ( b − np −Φ np ( 1 − p ) a − np . np ( 1 − p ) ) Satz 8.10 (Zentraler Grenzwertsatz für die Multinomialverteilung) Sei X = ( X1,..., Xs ) ∼ M ( 1; p1,..., ps ) , Xs = 1 − ( X1 + ... + Xs −1 ) , pi ∈ ( 0,1 ) , p1 + ... + ps = 1 , i = 1,..., s und sei Y = ( X1,..., Xs −1 ) mit E (Y ) = ( p1,..., ps −1 ) = p , C := Cov ( X ,Y ) = diag ( p1,..., ps ) − pp T . Dann gilt: 1 1 1 ,..., C −1 = diag + 1( s −1 )×( s −1 ) , p1 ps −1 ps wobei 1( s −1 )×( s −1 ) eine Matrix, bestehend nur aus 1 -Einträgen ist. Nun seien X n = ( X1 n ,..., Xs n ) ∼ M ( n; p1,..., ps ) , Xs n = n − ( X1 n + ... + Xs −n 1 ) , Y n = ( X1 n ,..., Xs −n 1 ) . Dann gilt n! P ( X n = ( k1,..., ks ) ) = pk1 ⋅ ... ⋅ psks k1 ! ⋅ ... ⋅ ks ! 1 ( ( ) ( ( ) ( ) ) ) ( ( ) ) ( ⋅ ... ⋅ 1 2 πnps ( ) ( ) ) = e −np1 ( np1 )k1 k1 ! ⋅ ... ⋅ e −nps e −n ( nps )ks nn n! ks ! ∼ 1 2 πnp1 2 1 ( k1 −np1 ) np1 e −2 1 2 πn 2 1 ( ks −nps ) nps e −2 gleichmäßig in ( k1,..., ks ) ∈ Ns0 mit k1 + ... + ks = n und ki − npi ≤ c n für i = 1,..., s und c > 0 . Satz 8.11 (Zentraler Grenzwertsatz für die Multinomialverteilung, lokale Form) Es gilt für n → ∞ : ( ) s ( ki −npi )2 1 s −1 1 −1 e 2 ∑ i =1 npi p1 ⋅ ... ⋅ ps 2πn s gleichmäßig in ( k1,..., ks ) ∈ N 0 mit k1 + ... + ks = n , ki − npi ≤ c n für i = 1,..., s und c > 0 . P (X ( n) = ( k1,..., ks ) ) ∼ Satz 8.12 (Zentraler Grenzwertsatz für die Multinomialverteilung, kumulative Form) Sei Q = ( a1, b1 ] × ... × ( as −1, bs −1 ] , −∞ < ai < bi < ∞ , i = 1,..., s − 1 . Dann gilt: 61 ( ) Kapitel 8 Zentrale Grenzwertsätze ( P 1 (Y n ( n) ) ∑ P (Y − np ) ∈ Q = w ∈Qn ⎡ =⎢ ∑ ⎢ w ∈Q n ⎣ ⎡ =⎢ ∑ ⎢⎣ w ∈Qn mit ( ( {( k ( n) = np + nw )) ) 1 ) 2πn s −1 1 2πn s −1 s wi ⎤ 1 −1 e 2 ∑ i =1 pi ⎥ ( 1 + 0 bzw. 1 ) ⎥ pn ⋅ ... ⋅ ps ⎦ 1 −12 w TC −1w ⎤ ( ⎥ 1 + 0 bzw. 1 ) e ⎥⎦ detC 2 ) } − np1 k − nps −1 ,..., s −1 ∈ Q | ( k1,..., ks −1 ) ∈ Ns0−1, k1 + ... + ks −1 ≤ n n n und ks = n − ( k1 + ... + ks −1 ) , ws = − ( w1 + ... + ws −1 ) . Also erhalten wir: 1 1 s −1 1 −1 w TCw (Y n − np ) ∈ Q = lim P ∫Q detC e 2 dw . n →∞ n 2π Sei nun E = { w ∈ Rs −1 | w TC −1w ≤ z } , z > 0 , ein Ellipsoid. Analog gilt: 1 T −1 1 1 s −1 1 (Y n − np ) ∈ E = P ( (Y n − np )T C −1 (Y n − np ) ≤ nz ) = P e −2 w C w dw ∫ E detC n 2π 1 s −1 −∑ si =−11 zi2 = ∫ s −1 2 e dz1...dzs −1. ∑ i =1 zi ≤z 2π Qn = 1 ( ( ) ) ( ( ) ( ) ) ( ) ( ( ) ( ) ) Also gilt: Satz 8.13 Es gilt für n → ∞ : ⎛ s ( X n − npi )2 ⎞ P ⎜⎜ ∑ i ≤ z ⎟⎟⎟ → ⎜⎝ npi ⎠ i =1 ( ) ( 1 2π ) s −1 ∫∑ s −1 s −1 2 z ≤z i =1 i −1 z2 e 2 ∑ i =1 i dz1...dzs −1 für jedes z > 0 . Definition 8.14 Die von L. Euler eingeführte Gammafunktion ist für komplexe Zahlen definiert. Wir betrachten sie nur für reelle Zahlen x > 0 : Γ(x ) = ∞ ∫0 t x −1e −t dt . Es gilt Γ ( x + 1 ) = x Γ ( x ) für jedes x > 0 und Γ ( 1 ) = 1 . Also ist Γ ( n ) = ( n − 1 ) ! für n ∈ N . Satz 8.15 Sei X ( n) = ( X1 n ,..., Xs n ) ∼ M ( n; p1,..., ps ) , ( p1,..., ps ) ∈ ( 0,1 )s , p1 + ... + ps = 1 . Dann gilt: s −1 ⎛ s ( X n − npi )2 ⎞ z s −1 w 1 s −1 1 −12 ∑ i =1 wi2 P ⎜⎜ ∑ i dw1...dws −1 = s −1 w 2 −1e − 2 dw ≤ z ⎟⎟⎟ → s −1 2 e ∫ ∫ 1 − s 0 2 npi 2π ⎝⎜ ⎠ ∑ i =1 wi 2 Γ( ) ( ) ( ( ) ( ) i =1 ) 2 für z > 0 . Es gilt also ⎛ s ( x n − npi )2 ⎞ z s −1 w 1 ≤ z ⎟⎟⎟ = s −1 lim P ⎜⎜ ∑ i w 2 −1e − 2 dw ∫ s 1 − n →∞ ⎜ 0 2 np ⎝ i =1 ⎠ 2 Γ( 2 ) i ( ) für jedes z > 0 . Bemerkung 8.16 Sind X1,..., Xn unabhängige und identisch verteilte reelle Zufallsvariablen mit µ = E ( Xi ) ∈ R und 0 < σ 2 = Var ( X1 ) < ∞ , so gilt 1 n X − µ n ≤ z = Φ ( z ) für jedes z ∈ R . lim P n →∞ n ∑ i =1 i (( ) ) Satz 8.17 (Zentraler Grenzwertsatz von Lindberg-Levy) Seien X1,..., Xn unabhängige Zufallsvariablen mit derselben Verteilung B ( 1, p ) . Dann gilt mit µ = p , σ 2 = p ( 1 − p ) , und es gilt für n → ∞ ⎛ ∑ n Xi − np ⎞⎟ ⎜ P ⎜⎜ i =1 ≤ z ⎟⎟⎟ → Φ ( z ) für alle z ∈ R . ⎝ np ( 1 − p ) ⎠ 62 n ∑i =1 Xi ∼ B ( n, p ) Kapitel 8 Zentrale Grenzwertsätze Seien X1,..., Xn unabhängig, je mit derselben Verteilung P ( λ ) , λ > 0 . Dann gilt µ = λ = σ 2 und ⎛ ∑ n X i − nλ ⎞⎟ ⎜ P ⎜⎝⎜ i =1 ≤ z ⎠⎟⎟ → Φ ( z ) für alle z ∈ R und n → ∞ . nλ Außerdem gilt: n ∑ Xi ∼ P ( nλ ) . i =1 Allgemeiner gilt: Sind X ,Y unabhängige Zufallsvariablen mit X ∼ P ( λ1 ) , Y ∼ P ( λ2 ) . Dann folgt: X + Y ∼ P ( λ1 + λ2 ) . Denn: Für die erzeugenden Funktionen von X + Y gilt: ) ) ) ( ( ( fX +Y ( z ) = fX ( t ) fY ( t ) = e λ1 t −1 e λ2 t −1 = e( λ1 +λ2 ) t −1 für t ∈ R . Sind X ,Y unabhängig mit X ∼ B ( m, p ) , Y ∼ B ( n, p ) , so ist X + Y ∼ B ( m + n, p ) . Sind X ,Y unabhängig mit X ∼ Nb ( r, p ) auf N 0 , Y ∼ Nb ( s, p ) auf N 0 , so gilt dann: X + Y ∼ Nb ( r + s, p ) auf N 0 . Es sei z > 0 , s ∈ N , s ≥ 2 , E = { x ∈ Rs −1 | x TC −1x ≤ z } mit C ∈ R s −1 × s −1 eine symmetrische positiv definite Matrix und sei 1 T −1 1 s −1 1 I = e −2 x C x dx . ∫ 2π detC E ) ( ) ( Die Substitution x = C 1/2y , wobei C 1/2 ∈ R s −1 × s −1 symmetrisch und positiv definit mit C = C 1/ 2C 1/ 2 ist, führt auf die Darstellung 1 s −1 I = I0 , 2π wobei I 0 das Integral s −1 2 1 T −1 y I 0 = ∫ T e −2 y y dy = ∫ s −1 2 e 2 ∑ i =1 i dy1 ...dys −1 y y ≤z y ≤ z ∑ i =1 i ist. Im Fall s > 2 lässt sich dieses Integral durch Transformation auf Kugelkoordinaten r > 0 , 0 < ϕi ≤ π , i = 1,..., s − 3 , 0 < ϕs −2 ≤ 2π , y1 = r sin ϕ1 ⋅ ... ⋅ sin ϕs −4 sin ϕs −3 sin ϕs −2 y2 = r sin ϕ1 ⋅ ... ⋅ sin ϕs −4 sin ϕs −3 cos ϕs −2 y 3 = r sin ϕ1 ⋅ ... ⋅ sin ϕs −4 cos ϕs −3 ( ( ) ( ) ) ( ) ys −1 = r cos ϕ1, wobei der Betrag der Funktionaldeterminante dieser Transformation s −3 r s −2 ∏ ( sin ϕi )s −2−i i =1 ist, in der Form I 0 = 2π ∫ z 0 s −3 r2 π r s −2e − 2 dr ∏ ∫ ( sin ϕ )k d ϕ 0 k =1 bringen. Es ist π ∫0 ( sin ϕ )k d ϕ = 2 π /2 ∫0 ( sin ϕ )k d ϕ . Die Substitution ϕ = arcsin x liefert π ∫0 ( sin ϕ )k d ϕ = 1 ∫0 x k +1 2 −1 1 ( 1 − x )2 −1 dx = 1 1 Γ( k+ 2 )Γ( 2 ) = k +2 Γ( 2 ) Hieraus folgt s −3 π ∏ ∫0 k =1 s −3 π2 ( sin ϕ ) d ϕ = . Γ ( s −2 1 ) k 63 π 1 Γ( k+ 2 ) . k +2 Γ( 2 ) Kapitel 8 Zentrale Grenzwertsätze Wegen ∫0 z r2 r s −2e − 2 dr = 1 z s −2 1 −1 −w2 w e dw 2 ∫0 erhalten wir insgesamt I = 1 2 s −1 2 z Γ ( s −2 1 ) ∫0 w Diese Darstellung für I gilt auch im Fall s = 2 . 64 s −1 −1 2 w e − 2 dw .