Stochastik I Lehrstuhl für Mathematische Statistik Universität Würzburg Prof. Dr. Michael Falk Inhaltsverzeichnis 1 Das Kolmogoroffsche Axiomensystem 1 2 2 Erste Folgerungen aus dem Axiomensystem 3 Grundlagen der Kombinatorik 8 4 Vermischte Aufgaben 12 5 Bedingte Wahrscheinlichkeiten 14 6 Unabhängigkeit 19 7 Zufallsvariablen 29 8 Integrationstheorie 39 9 Verteilungen und ihre Charakterisierungen 54 10 Momente 65 11 Gesetze der großen Zahlen 72 12 Der Zentrale Grenzwertsatz 85 2 1 Das Kolmogoroffsche Axiomensystem [A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbau der Geometrie die Grundbegriffe Punkt“ und Gerade“ nicht ” ” explizit definiert, sondern axiomatisch eingeführt. 1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was mit den Grundbegriffen gemeint ist, um die Theorie später anwenden zu können ( Ein Punkt ist, was keinen Teil hat“, Eine Gerade ist ” ” eine Linie, die gleich liegt mit den Punkten auf ihr selbst“ (Euklid)). Die vage Vorstellung wird dann im Verlauf der Beschäftigung mit der Theorie zwangsläufig immer präziser. 2. Man beschreibt mittels Axiomen“, welche Beziehungen zwischen den ” Grundbegriffen bestehen. Analog gehen wir nun bei der Axiomatisierung der Stochastik vor. Im ersten Axiom fordern wir die Existenz von Wahrscheinlichkeiten. Axiom 1’ Ist Ω die Menge der möglichen Ergebnisse eines Experimentes (d.h. genau ein ω ∈ Ω tritt bei der Durchführung des Experimentes ein), so ist jeder Teilmenge A ⊂ Ω eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit angibt, mit dem A eintritt. Axiom 2 P (Ω) = 1. Axiom 3 (σ–Additivität von P ) S Für eine Folge P A1 , A2 , . . . paarweise disjunkter Teilmengen von Ω gilt: P ( n∈N An ) = n∈N P (An ). Das System 1’,2,3 ist zu einschränkend, wie der folgende Satz zeigt. Satz (G. Vitali 1905) Es existiert kein P zu Ω = [0, 1), welches die Axiome 1’,2 und 3 erfüllt und zusätzlich translationsinvariant ist, d.h. P (Ac ) = P (A) für Ac := {a + c (mod 1) : a ∈ A}, c ≥ 0. Beweis: Siehe Übungen. 2 Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten Potenzmenge P(Ω) = {A : A ⊂ Ω} definiert wird. Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so ist einigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt, eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit angibt, mit dem A eintritt. Ω ist ein Ereignis. Das Komplement Ac = Ω\A eines Ereignisses A ist ein Ereignis. Der Durchschnitt von zwei Ereignissen ist ein Ereignis. Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein Ereignis. Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmenge von Ω) σ–Algebra über Ω:⇔ 1. Ω ∈ A, 2. A ∈ A ⇒ Ac ∈ A, 3. A, B ∈ A ⇒ A ∩ B ∈ A 4. Ai ∈ A, i ∈ N, Ai ∩ Aj = ∅ für i 6= j ⇒ S i∈N Ai ∈ A. Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über nichtleerer Menge Ω. Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R+ = [0, ∞), die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das Tripel (Ω, A, P ) heißt in diesem Fall Wahrscheinlichkeitsraum. 2 Erste Folgerungen aus dem Axiomensystem Satz 2.1 (Ω, A) messbarer Raum, An ∈ A, n ∈ N. Dann gilt: S (i) n∈N An ∈ A, T (ii) n∈N An ∈ A, (iii) lim sup An := {ω ∈ Ω : ω liegt in ∞ vielen An } n∈N = ∞ [ \ An ∈ A, m=1 n≥m (iv) lim inf An := {ω ∈ Ω : ω liegt in fast allen An } n∈N = ∞ \ [ m=1 n≥m Beweis: 2 An ∈ A, (i) Setze B1 := A1 , Bn := An \(A1 ∪ . . . ∪ An−1S ) = An ∩ Ac1S∩ . . . ∩ Acn−1 ∈ A. Bn , n ∈ N, sind paarweise disjunkt mit n∈N An = n∈N Bn ∈ A. (ii) \ An = \ n∈N An c c = n∈N [ Acn c ∈ A. n∈N (iii) und (iv) folgen unmittelbar aus (i), (ii). 2 Korollar 2.2 Ω 6= ∅, A ⊂ P(Ω). Dann: A ist σ–Algebra ⇔ (i) Ω ∈ A, (ii) A ∈ A ⇒ Ac ∈ A, (iii) An ∈ A, n ∈ N ⇒ S n∈N An ∈ A. Satz 2.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum. Dann gilt: (i) P (∅) = 0, (ii) P (A1 ∪ . . . ∪ An ) = Pn i=1 P (Ai ), falls A1 , . . . , An paarweise disjunkt, (iii) 0 ≤ P (A) ≤ 1 stets, (iv) A ⊂ B (∈ A) ⇒ P (A) ≤ P (B) (Monotonie von P ), (v) P (Ac ) = 1 − P (A). Beweis: (i) ∅ = ∅ ∪ ∅ ∪ ... ⇒ P (∅) = P (∅) + P (∅) + . . . ⇒ P (∅) = 0. (ii) Wegen P (∅) = 0 gilt: P (A1 ∪ . . . ∪ An ) = P (A1 ∪ . . . ∪ An ∪ ∅ ∪ . . .) = P (A1 ) + . . . + P (An ) + 0 + . . . (v) Ω = A ∪ Ac ⇒ 1 = P (Ω) = P (A) + P (Ac ) ⇒ P (Ac ) = 1 − P (A). 3 (iii) Folgt unmittelbar aus (v): 0 ≤ P (A) = 1 − P (Ac ) ≤ 1. | {z } ≥0 (iv) ⇒(ii) B = A ∪ (B\A) = A ∪ (B ∩ Ac ) P (B) = P (A) + P (B\A) ≥ P (A). 2 Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A1 , . . . , An ∈ A. |M | bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M ). Satz 2.4 (Allgemeiner Additionssatz) ! X P (A1 ∪ . . . ∪ An ) = = (−1) ∅6=T ⊂{1,...,n} n X k−1 (−1) |T |−1 P \ Ai i∈T Sk k=1 mit X Sk := P Ai1 ∩ Ai2 ∩ · · · ∩ Aik . 1≤i1 <i2 <...<ik ≤n Beispiel: Im Fall n = 2 ergibt sich P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Im Fall n = 3 ergibt sich P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) −P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) +P (A1 ∩ A2 ∩ A3 ). Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen. Der Fall n = 2: A1 ∪ A2 = A1 + (A2 \A1 ), A2 = (A2 ∩ A1 ) + (A2 \A1 ) ⇒ P (A1 ∪ A2 ) = P (A1 ) + P (A2 \A1 ), P (A2 ) = P (A2 ∩ A1 ) + P (A2 \A1 ) ⇒ P (A1 ∪ A2 ) − P (A1 ) = P (A2 ) − P (A2 ∩ A1 ) ⇒ Behauptung für den Fall n = 2. 4 Der Induktionsschritt n → n + 1: P ((A1 ∪ . . . ∪ An ) ∪ An+1 ) = P ((A1 ∪ . . . ∪ An )) + P (An+1 ) −P ((A1 ∩ An+1 ) ∪ (A2 ∩ An+1 ) ∪ . . . ∪(An ∩ An+1 )) ! X \ = (−1)|T |−1 P Ai + P (An+1 ) i∈T ∅6=T ⊂{1,...,n} ! X − (−1)|T |−1 P \ Ai ∩ An+1 i∈T ∅6=T ⊂{1,...,n} ! X = \ (−1)|T |−1 P Ai + P (An+1 ) i∈T ∅6=T ⊂{1,...,n+1}, n+16∈T ! X + (−1)|T |−1 P \ Ai i∈T T ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}6=∅ ! = X (−1)|T |−1 P \ Ai . i∈T ∅6=T ⊂{1,...,n+1} 2 Satz 2.5 Sei Bk das Ereignis, dass genau k der Ereignisse A1 , . . . , An eintreten, d.h. ω ∈ Bk ⇔ ω ∈ Ai für genau k der Indizes i = 1, . . . , n. Dann gilt: ! X \ |U | P (Bk ) = (−1)|U |−k P Ai k i∈U U ⊂{1,...,n}, |U |≥k n X m = (−1)m−k Sm , k m=k Sm wie in Satz 2.4, S0 := 1. Bemerkung B0 = (A1 ∪ . . . ∪ An )c ⇒ P (B0 ) = 1 − P (∪1≤i≤n Ai ) =2.4 Pn m m=0 (−1) Sm . Beweis: ! Bk = X S⊂{1,...,n}, |S|=k \ i∈S 5 Ai !! ∩ \ i∈S c Aci , (disjunkte Zerlegung von Bk ). Es folgt: P (Bk ) ! X = \ P !! \ ∩ Ai i∈S c i∈S S⊂{1,...,n}, |S|=k !c ( X = \ 1−P !!) [ ∪ Ai ( X Ai i∈S c i∈S S⊂{1,...,n}, |S|=k =2.4 Aci !c ! " \ 1− P Ai i∈S S⊂{1,...,n}, |S|=k ! X + \ (−1)|T |−1 P ∅6=T ⊂S c Ai i∈T !c −P [ \ i∈S c j∈S !!#) ∩ Ai Aj ( X = ! \ P Ai i∈S S⊂{1,...,n}, |S|=k \ Ai i∈T | {z } =C X (−1)|T |−1 P − c ∅6=T ⊂S − X |T |−1 (−1) ∅6=T ⊂S c P | !c \ \ ; Aj ∩ Ai j∈S i∈T {z } | {z } =C =Dc c = wegen P (C) − P (D ∩ C) = P (C ∩ D) folgt ( ! X \ P Ai i∈S S⊂{1,...,n}, |S|=k − (−1)|T |−1 P ∅6=T ⊂S c | X ! ! \ \ Aj ∩ Ai j∈S i∈T {z } T = i∈S∪T Ai ! = X X (−1)|T | P S⊂{1,...,n}, |S|=k T ⊂S c \ Ai i∈S∪T ! = X X (−1)|U |−k P S⊂{1,...,n}, |S|=k U ⊃S, U ⊂{1,...,n} \ Ai . i∈U T Der Summand (−1)|U |−k P i tritt hierbei so oft auf, wie es k–elementige i∈U A Teilmengen S von U gibt, also |Uk | –mal. Hieraus folgt der erste Teil der Be6 hauptung sowie = n X m m=k k ! X m−k (−1) P U ⊂{1,...,n}, |U |=m | \ Ai . i∈U {z =Sm } 2 Satz 2.6 Sei Ck das Ereignis, dass mindestens k der Ereignisse A1 , . . . , An eintreten. Dann gilt: n X m−1 P (Ck ) = (−1)m−k Sm . k − 1 m=k Beweis: P (Ck ) = =2.5 = n X P (Bj ) j=k n X n X m (−1)m−j Sm j j=k m=j ! n m X X m (−1)m−j Sm . j m=k j=k Für die innere Summe folgt aus der Beziehung nk = n−1 + k m m m − + − ... m m−1 m−2 m−k m +(−1) k m−1 m−1 m−1 = + − m−1 m−1 m {z } | {z } | =0 =0 m−1 m−k m − 1 − + . . . + (−1) m−2 k | {z } =0 m−k m − 1 +(−1) k−1 m−k m − 1 = (−1) . k−1 n−1 k−1 : 2 Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1). Bemerkung Zur Geschichte der Stochastik: Briefwechsel (1654) zwischen P. Fermat und B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische Entwicklung (A.N. Kolmogoroff (1933)−→ . . .) 7 3 Grundlagen der Kombinatorik Definition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔ |Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse mit der gleichen Wahrscheinlichkeit. Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt: |A| |Ω| Anzahl der für A günstigen Ausgänge . = Anzahl aller möglichen Ausgänge P (A) = Satz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche Mengen A1 , A2 gilt: |A1 + A2 | = |A1 | + |A2 |. Korollar Für disjunkte endliche Mengen A1 , . . . , Ak gilt: |A1 ∪ . . . ∪ Ak | = |A1 | + . . . + |Ak |. Satz 3.4 (Multiplikationssatz der Kombinatorik) A1 sei eine Menge der Mächtigkeit n1 ∈ Z+ = N ∪ {0}, B2 eine beliebige Menge und n2 ∈ Z+ . Jedem a1 ∈ A1 sei genau eine n2 –elementige Teilmenge B(a1 ) ⊂ B2 zugeordnet, und es sei A2 := {(a1 , a2 ) : a1 ∈ A1 , a2 ∈ B(a1 )}. Dann gilt: |A2 | = n1 n2 . Beweis: Folgt aus 3.3. 2 Korollar 3.5 |A1 | = n1 ∈ Z+ , B1 , . . . , Bn seien beliebige Mengen und n2 , . . . , nk ∈ Z+ . Für i = 1, . . . , k − 1 sei jedem i–Tupel (a1 , . . . , ai ) ∈ Ai eine ni+1 – elementige Teilmenge B(a1 , . . . , ai ) ⊂ Bi+1 zugeordnet, und es sei Ai+1 := {(a1 , . . . , ai , ai+1 ) : (a1 , . . . , ai ) ∈ Ai , ai+1 ∈ B(a1 , . . . , ai )}, (Definition durch Induktion (Rekursion)). Dann gilt: |Ak | = n1 n2 . . . nk . 8 Korollar |A1 × A2 × . . . × Ak | = n1 n2 · · · nk , falls |Ai | = ni , i = 1, . . . , k. Obiges Korollar ergibt speziell für Ai = A, i = 1, . . . , k: | A . . × A} | = | × .{z k mal |Ak | = |A|k . Die Menge Ak aller k–Tupel von Elementen aus A heißt geordnete Probe zu A vom Umfang k mit Wiederholung. Satz 3.6 Es gibt nk geordnete Proben zu einer n–elementigen Menge vom Umfang k mit Wiederholung. Beispiel A, endliche Mengen, B A := Menge aller Abbildungen von A nach B B. Dann: B A = |B||A| . Korollar 3.7 Eine n–elementige Teilmenge besitzt 2n verschiedene Teilmengen. Beweis: A sei eine n–elementige Menge, dann: |{0, 1}A | = 2|A| ; |Menge aller Abbildungen von A → {0, 1}| = |P(A)|. 2 Ein k–Tupel (a1 , . . . , ak ) ∈ Ak mit ai 6= aj für j 6= i heißt geordnete Probe aus A vom Umfang k ohne Wiederholung. Satz 3.8 Zu einer n–elementigen Menge gibt es (n)k := n(n−1) · · · (n−k+1) geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung. Beweis: Für eine geordnete Probe (a1 , . . . , ak ) vom Umfang k ohne Wiederholung gilt: a1 ∈ A, a2 ∈ A\{a1 }, a3 ∈ A\{a1 , a2 }, . . . , ak ∈ A\{a1 , . . . , ak−1 }. Aus dem Multiplikationsprinzip, genauer 3.5, folgt nun die Behauptung. 2 Speziell für k = n erhalten wir Satz 3.9 n verschiedene Elemente können auf (n)n = n! verschiedene Arten angeordnet werden, d.h. es existieren n! Permutationen einer n–elementigen Menge. Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir, indem wir geordnete Proben, die sich nur in der Reihenfolge unterscheiden, identifizieren. Die ungeordneten Proben vom Umfang k ohne Wiederholung sind demnach einfach die k–elementigen Teilmengen von A. 9 Satz 3.10 Eine n–elementige Menge besitzt n! n (n)k = = k! k!(n − k)! k verschiedene k–elementige Teilmengen. Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht aus einer k–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeiten der Anordnung (3.9), also (3.8): (n)k = Anzahl der k–elementigen Teilmengen × k!. Hieraus folgt die Behauptung. 2 Korollar 3.11 (i) Es gibt nk Möglichkeiten, k unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen. (ii) Es gibt (n)k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält. (iii) Es gibt nk Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält. Satz 3.12 Es gibt k k1 , k2 , . . . , kn := k! k1 !k2 ! · · · kn ! Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass genau ki Kugeln in die Urne Nummer i kommen (ki ≥ 0, i = 1, . . . , n; k1 + k2 + . . . + kn = k). Beweis: Es gibt k Möglichkeiten der k1 k1 k − k1 Möglichkeiten der k2 k2 .. .. . . k − k1 − . . . − kn−2 kn−1 Kugeln für Urne 1 Kugeln für Urne 2 .. . Möglichkeiten der kn−1 Kugeln für Urne n − 1. 10 Ausmultiplikation liefert nun: Möglichkeiten insgesamt k k − k1 k − k1 − . . . − kn−2 = ··· k1 k2 kn−1 (k − k1 )! k! × × ... = k1 !(k − k1 )! k2 !(k − k1 − k2 )! (k − k1 − . . . − kn−2 )! × kn−1 !(k − k1 − . . . − kn−1 )! k! = . k1 ! · · · kn ! 2 k Bemerkung Die Größen k1 ,...,k heißen Polynomialkoeffizienten. Wegen n n n = k,n−k verallgemeinern sie die Binomialkoeffizienten nk . k Korollar 3.13 (a1 + . . . + an )k X = k1 ≥0,...,kn ≥0, k1 +...+kn =k Korollar 3.14 k ak1 ak2 · · · aknn . k1 , . . . , kn 1 2 (i) n X n k k=0 = 2n . (ii) r X n m m+n = . k r−k r k=0 (iii) n 2 X n k=0 k 2n = . n Beweis: (i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit der Teilmenge; 3.7 ⇒ Behauptung. (ii) m+n = Anzahl der r–elementigen Teilmengen von {1, . . . , n, n+1, . . . , r m+n}. Die Anzahl der Möglichkeiten, hierbei k Elemente aus {1, . .. , n} m . und somit r − k aus {n + 1, . . . , n + m} auszuwählen, ist nk r−k 2 n (iii) Folgt mit m = r = n aus (ii) wegen nk = nk n−k . 2 4 Vermischte Aufgaben Aufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang (5 Tage) jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass mindestens 1 Schüler mehrmals ausgewählt wird? Lösung: Laplace–Experiment mit Ω = {1, . . . , 20}5 , |Ω| = 205 ; ungünstige Fälle: alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20)5 . Also: gesuchte Wahrscheinlichkeit = 205 − (20)5 205 = 1− 20 × 19 × . . . × 16 = 0, 4186. 205 2 Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird eine Stichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s), dass in der Stichprobe genau s schlechte Nüsse sind, s = 0, 1, . . . , n? . Lösung: {1, . . . , S} = Menge der schlechten Nüsse von {1, .. . , N }. Laplace– Experiment mit Ω = {A ⊂ {1, . . . , N } : |A| = n}, |Ω| = Nn . Dann: p(s) = |A ∈ Ω mit |A ∩ {1, . . . , S}| = s| N n = S s N −S n−s N n =: HN,S,n (s). HN,S,n heißt Hypergeometrische Verteilung zu den Parametern N , S, n (Qualitätskontrolle). 2 Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; Skat“ mit 2 ” Karten. Es gibt vier Buben. (i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die Spieler B und C jeweils 1 Buben besitzen? 22 Lösung: Es gibt 10,10,2 mögliche Verteilungen der 22 Karten, die A nicht besitzt, auf B,C und den Skat. Diese sind gleich wahrscheinlich. 12 Die Anzahl der günstigen Möglichkeiten beträgt beträgt die gesuchte Wahrscheinlichkeit 20 2 × 100 9,9,2 1,1,0 . = 22 231 10,10,2 20 9,9,2 × 2 1,1,0 . Also 2 (ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben besitzt. Lösung: 2× 20 2 × 2,0,0 8,10,2 22 10,10,2 = 90 . 231 2 (iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen. Lösung: 20 10,10,0 2 0,0,2 × = 22 10,10,2 1 . 231 2 (iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt: Lösung: 2× 20 2 × 1,0,1 9,10,1 22 10,10,2 = 40 . 231 2 (v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In jeder Packung ist genau 1 von n möglichen Sammelmarken (etwa n = 11 Fußballspieler). Annahme: Laplace–Experiment, es gibt nk Möglichkeiten der Verteilung. Gesucht: Wahrscheinlichkeit pm , dass wenigstens m Sammelmarken fehlen. Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheid. . baren Kugeln (= Packungen) auf n unterscheidbare Urnen (= Sammelmarken). |Ω| = nk . Ai := Menge aller Verteilungen, bei denen die i–te Urne leer ist. Für 1 ≤ i1 < . . . < ir ≤ n gilt: (n − r)k . P Ai1 ∩ . . . ∩ Air = nk Es folgt mit der Bezeichnung von 2.4 X Sr = P Ai1 ∩ . . . ∩ Air 1≤i1 <...<ir ≤n n (n − r)k = nk r 13 und damit aus 2.6 pm = P (Cm ) n X n (n − r)k r−m r − 1 . = (−1) nk m−1 r r=m 2 5 Bedingte Wahrscheinlichkeiten (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Es sei bekannt, dass das Ereignis B eingetreten ist. Neues Experiment: Ergebnismenge Ω0 = B. Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist, dass B eingetreten ist, ist P (A ∩ B)/P (B). Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A mit P (B) > 0. Dann heißt P (A|B) := PB (A) := P (A ∩ B) P (B) bedingte Wahrscheinlichkeit von A unter (der Bedingung) B. Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 Geschlechtskombinationen J − J, M − M , J − M und M − J gleich wahrscheinlich. Von einer Familie sei bekannt, dass wenigstens eines der Kinder ein Junge ist. Wie groß ist die Wahrscheinlichkeit, dass diese Familie sogar zwei Jungen hat? . . Lösung: A1 := 1. Kind ist ein Junge, A2 := 2. Kind ist ein Junge. Damit: P (A1 ∩ A2 |A1 ∪ A2 ) T P ((A1 ∩ A2 ) (A1 ∪ A2 )) = P (A1 ∪ A2 ) P (A1 ∩ A2 ) = P (A1 ∪ A2 ) P (A1 ∩ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = = 1 2 1 4 1 2 + − 1 4 1 . 3 2 14 Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die bedingte Wahrscheinlichkeit PB : A → R+ ist eine Wahrscheinlichkeit, d.h. PB erfüllt die Axiome 1,2,3. Beweis: Trivial, Axiome nachprüfen. 2 Satz 5.4 A1 , . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1 ) > 0. Dann: P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) × . . . ×P (An |A1 ∩ . . . ∩ An−1 ). Beweis: n = 2 : P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ); n→n+1: P (A1 ∩ . . . ∩ An+1 ) = P (A1 ∩ . . . ∩ An )P (An+1 |A1 ∩ . . . ∩ An ) =Ind. V. P (A1 )P (A2 |A1 ) × · · · ×P (An+1 |A1 ∩ . . . ∩ An ). 2 Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werden zufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3 Figuren schwarz sind? Lösung: Ai sei das Ereignis, dass die i–te Figur schwarz ist. Dann: P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) ! 16 16 15 14 3 . × × = 32 = 32 31 30 3 2 Satz 5.6 (Totale Wahrscheinlichkeit) (Ω, PnA, P ) Wahrscheinlichkeitsraum, B1 , . . . , Bn seien disjunkte Ereignisse mit i=1 Bi = Ω, P (Bi ) > 0, i = 1, . . . , n. Dann: P (A) = n X P (Bi )P (A|Bi ), i=1 15 A ∈ A. Beweis: P (A) = P (Ω ∩ A) ! n X = P (Bi ∩ A) i=1 = = n X i=1 n X P (Bi ∩ A) P (Bi )P (A|Bi ) i=1 2 Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8 schwarze Kugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln. Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1, bei einer 1-4 wird aus Urne 2 gezogen. Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen? . Lösung: A = eine weiße Kugel wird gezogen, . B1 = 5 oder 6 beim Würfeln, . B2 = 1–4 beim Würfeln. Dann: P (A) = P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) 1 1 1 2 2 × + × = . = 3 5 3 5 3 2 Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz 5.6 gelte P (A) > 0. Dann gilt: P (Bi )P (A|Bi ) . P (Bi |A) = Pn j=1 P (Bj )P (A|Bj ) Beweis: P (A ∩ Bi ) P (A) P (Bi )P (A|Bi ) = Pn . j=1 P (Bj )P (A|Bj ) P (Bi |A) = 2 16 . Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A = Ziehen einer weißen Kugel, P (A) = 1/3. Wie groß ist die Wahrscheinlichkeit von Bi , i = 1, 2, wenn bekannt ist, dass eine weiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit, dass eine weisse Kugel aus Urne i stammt? Lösung: P (B1 )P (A|B1 ) P (B1 )P (A|B1 ) + P (B2 )P (A|B2 ) 1 1/3 × 1/5 = = 1/3 × 1/5 + 2/3 × 2/5 5 4 ⇒ P (B2 |A) = . 5 P (B1 |A) = P (Bi |A) heißt a posteriori Wahrscheinlichkeit von Bi , P (Bi ) heißt a priori Wahrscheinlichkeit von Bi . 2 . Beispiel 5.10 (Überprüfung, ob radikal) R := Kandidat ist radikal, . B := Kandidat wird für radikal erklärt. Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h. P (B|R) = 0, 95; P (B c |Rc ) = 0, 95. Es sei P (R) = 0, 005. Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat tatsächlich radikal ist? Lösung: Gesucht: P (R ∩ B) P (B) P (R)P (B|R) = P (R)P (B|R) + P (Rc )P (B|Rc ) 5/1000 × 95/100 = 5/1000 × 95/100 + 995/1000 × 5/100 95 = (!). 1090 P (R|B) = 2 Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 1 Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa 0,8% anzusiedeln. 1 Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck, München, S. 199ff. 17 Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie Brustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens). Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist, wenn die Patientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate). Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und der Befund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich Brustkrebs hat? . . Lösung: B := Brustkrebserkrankung, M := Mammogramm ist positiv. Dann: P (B) = 8 , 1000 P (M | B) = 90 , 100 P (M | B c ) = 7 . 100 Gesucht: P (B | M ) = = P (B)P (M | B) P (B)P (| B) + P (B c )P (M | B c ) 8 90 1000 100 8 90 992 7 + 1000 1000 100 100 720 7664 9 (!). ≈ 100 = 2 Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln, W weiße und N − W schwarze. W sei unbekannt; alle N + 1 möglichen Mischungsverhältnisse besitzen die gleiche Wahrscheinlichkeit 1/(N + 1). Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn die ersten n Kugeln weiß gewesen sind? . Lösung: Ai := nur weiße Kugeln unter den ersten i Ziehungen. Offenbar gilt A1 ⊃ A2 ⊃ . . . und gesucht ist P (An+1 |An ) = P (An+1 ) P (An+1 ∩ An ) = . P (An ) P (An ) 18 Wir erhalten: N X P (An ) = P {W = w}P (An |{W = w}) w=0 N X 1 × = N + 1 w=0 w n N n N X w 1 = (N + 1) N n 1 × N +1 1 = . n+1 = w=n N +1 n+1 N n n Behauptung: N X w w=n n = N +1 . n+1 N +1 n+1 Denn: ist die Anzahl der Möglichkeiten, aus der Menge {1, 2, . . . , N +1} eine n + 1–elementige Teilmenge auszuwählen. Dabei gibt es wn Möglichkeiten, die Auswahl so zu treffen, dass w + 1 das größte der ausgewählten Elemente ist, w = n, . . . , N . Insgesamt erhalten wir somit: P (An+1 |An ) = n+1 n+2 unabhängig von N ! 6 2 Unabhängigkeit Gegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2. P (A|B) = P (A ∩ B) 1/6 1 = = = P (A), P (B) 2/6 2 d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen Fall keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A. Definition 6.1 A, B Ereignisse mit P (B) > 0; dann: A unabhängig von B :⇔ P (A) = P (A|B). 19 Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann: A unabhängig von B ⇔ B unabhängig von A ⇔ P (A ∩ B) = P (A)P (B). Beweis: A unabhängig von B ⇔ P (A) = P (A ∩ B)/P (B) ⇔ P (B) = P (A ∩ B)/P (A) ⇔ P (A ∩ B) = P (A)P (B). 2 Definition 6.3 A, B beliebige Ereignisse, dann: A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B). Satz 6.4 A, B unabhängig, dann gilt: Ac , B sind unabhängig, A, B c sind unabhängig, Ac , B c sind unabhängig. Beweis: P (Ac ∩ B) = = = = P (B) − P (A ∩ B) P (B) − P (A)P (B) P (B)(1 − P (A)) P (B)P (Ac ). 2 Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann gilt: A, B ∪ C sind unabhängig. 20 Beweis: P (A ∩ (B ∪ C)) = = = = P ((A ∩ B) + (A ∩ C)) P (A ∩ B) + P (A ∩ C) P (A)P (B) + P (A)P (C) P (A)P (B ∪ C). 2 Bemerkung A, B, C paarweise unabhängig 6⇒ P (A∩B∩C) = P (A)P (B)P (C). Gegenbeispiele: Siehe Übungen. Definition 6.6 Ω 6= ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔ (i) Ω ∈ A, (ii) A ∈ A ⇒ Ac ∈ A, (iii) A, B ∈ A ⇒ A ∪ B ∈ A. Definition 6.7 ∅ = 6 S ⊂ P(Ω). Dann: \ D α(S) := P(Ω)⊃D⊃S, D Algebra =: kleinste Algebra, die S enthält, \ D σ(S) := P(Ω)⊃D⊃S, D σ –Algebra =: kleinste σ–Algebra, die S enthält. Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–) Algebra; P(Ω) ist eine (σ–) Algebra mit P(Ω) 6= ∅. Satz 6.8 ∅ 6= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten Vereinigungen von endlichen Durchschnitten von Mengen aus S oder deren Komplemente, d.h. S1 := {S ⊂ Ω : S ∈ S oder S c ∈ S}, S2 := {S1 ∩ . . . ∩ Sn : n ∈ N, Si ∈ S1 , i = 1, . . . , n} S3 := {T1 ∪ . . . ∪ Tn : Tj ∈ S2 , j = 1, . . . , n, paarweise disjunkt, n ∈ N} ⇒ α(S) = S3 . Beweis: 21 1. S3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement– stabil ist). 2. S3 6= ∅, da S3 ⊃ S2 ⊃ S1 ⊃ S 6= ∅. 3. T ∈ S2 ⇒ T c ∈ S3 . (Denn: T = S1 ∩ . . . ∩ Sn ∈ S2 mit Si ∈ S1 ⇒ T c = S1c ∪ . . . ∪ Snc = S1c ∪ (S2c \S1c ) ∪ S3c \(S1c ∪ S2c ) ∪ . . . c ∪Snc \(S1c ∪ . . . ∪ Sn−1 ) c c c = S1 + (S2 ∩ S1 ) + (S3 ∩ S1 ∩ S2 ) + . . . +(Snc ∩ S1 ∩ . . . ∩ Sn−1 ) ∈ S3 . 4. T1 , T2 ∈ S2 ⇒ T1 ∩ T2 ∈ S2 (trivial). 5. U1 , U2 ∈ S3 ⇒ U1 = T11 + . . . + T1n1 mit disjunkten T1j ∈ S2 , U2 = T21 + . . . + T2n2 mit disjunkten T2j ∈ S2 [ ⇒ U1 ∩ U2 = ( T1i ∩ T2j ) ∈ S3 . | {z } i,j ∈S2 wegen 4. | {z } disjunkte Vereinigung 6. U ∈ S3 ⇒ U = T1 + . . . + Tn , Ti ∈ S2 , i = 1, . . . , n, disjunkt ⇒ U c = T1c ∩ . . . ∩ Tnc ∈ S3 wegen 3. und 5. (Tjc ∈ S3 wegen 3.). Wegen 2., 5. und 6. ist S3 eine Algebra. Hieraus und aus 1. folgt, dass S3 = α(S). 2 Definition 6.9 A1 , . . . , An seien beliebige Ereignisse, dann: A1 , . . . , An (global) unabhängig :⇔ Ai , B unabhängig für 1 ≤ i ≤ n und B ∈ α({Aj : j 6= i}). Satz 6.10 A1 , . . . , An sind unabhängig ⇔ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik ) für 2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n. Beweis: 22 (1) ⇒“ ” Ai2 ∩ . . . ∩ Aik ∈ α({Aj : j 6= i1 }) ⇒ Ai1 , Ai2 ∩ . . . ∩ Aik unabhängig ⇒ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ∩ . . . ∩ Aik ) u.s.w. (Induktion) ⇐“ Es genügt zu zeigen: A1 ist unabhängig von jedem Ereignis aus α({A2 , . . . , An }). ” In (1) beliebige der Aij durch Acij ersetzbar (z.B. P (Ai1 ∩ Aci2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Aci2 ) · · · P (Aik ), siehe 6.4) ⇒ (c) (c) P (A1 ∩ Ai2 ∩ . . . ∩ Aik ) (c) (c) = P (A1 )P (Ai2 ) · · · P (Aik ) (c) mit Aij = Aij oder Acij , d.h. A1 unabhängig von allen Ereignissen aus S2 (A2 , . . . , An ) ⇒6.5 A1 unabhängig von allen Ereignissen aus S3 (A2 , . . . , An ) =6.8 α({A2 , . . . , An }). 2 Definition 6.11 Ai , i ∈ I, beliebige Ereignisse, dann: Ai , i ∈ I, unabhängig :⇔ Ai , G unabhängig für beliebiges i ∈ I und G ∈ α({Aj : j ∈ I, j 6= i}). Bemerkung 6.12 (i) Ai , i ∈ I, unabhängig ⇔ Ai , i ∈ I0 unabhängig für alle endlichen Teilmengen I0 von I. (ii) A1 , A2 , . . . sei eine Folge von Ereignissen, dann: A1 , A2 , . . . unabhängig ⇔ A1 , . . . , An unabhängig für alle n ∈ N. Beweis: (i) ⇒“ trivial. ” 23 ⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({Aj : j 6= i}) ein I0 ⊂ I ” mit |I0 | < ∞ und G ∈ α({Aj : j ∈ I0 }). 2 Definition 6.13 (i) Gi , i ∈ I, unabhängige Algebren von Ereignissen :⇔ Gi ist Ereignis–Algebra, i∈ I, und für jedes i ∈ I ist jedes G ∈ Gi S unabhängig von allen H ∈ α j6=i Gj . (ii) Ai , i ∈ I, unabhängige σ–Algebren von Ereignissen :⇔ Ai ist σ–Algebra von Ereignissen, i ∈ I, und für jedes i ∈ I ist S jedes A ∈ Ai unabhängig von allen B ∈ σ j6=i Aj . Satz 6.14 Ai , i ∈ I unabhängig ⇒ α({Ai }), i ∈ I, unabhängige Algebren. Beweis: α({Ai }) = {Ai , Aci , ∅, Ω}, d.h. ! α({Aj : j ∈ I, j 6= i}) = α [ α({Aj }) . j6=i ∅ und Ω sind von allen Ereignissen unabhängig. 2 Satz 6.15 (Borel–Cantelli Lemma) A1 , A2 , . . . seien Ereignisse; A := {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N} \ [ = Am . n∈N m≥n Dann gilt: (i) P (A) = 0, falls P P (An ) < ∞. (ii) P (A) = 1, falls P P (An ) = ∞ und A1 , A2 , . . . unabhängig. n∈N n∈N Beweis: Es gilt (siehe Übungen): (i)“ ” P (A) = P \ [ Am m≥n n∈N | {z } absteigende Folge ! [ = lim P Am , n∈N m≥n 24 wobei ! P [ Am = lim P ≤ s. Üb. X k [ k∈N m≥n ! Am m=n P (Am ) →n∈N 0 m≥n als Rest einer konvergenten Reihe. (ii)“ ” P (Ac ) = P [ \ Acm m≥n n∈N | {z } aufsteigende Folge \ = lim P Acm n∈N = lim P n∈N m≥n \ \ N ≥n Acm n≤m≤N | {z } absteigende Folge \ c = lim lim P ( Am |{z} n∈N N ∈N n≤m≤N unabhängig Y = lim lim ( 1 − P (Am ) ) , | {z } n∈N N ∈N n≤m≤N | ≤exp ≤exp(−P (Am )) {z } P − N m=n P (Am ) →N ∈N 0 denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung: x2 exp(−x) = 1 − x + exp(−ϑx) ≥ 1 − x. | {z 2} ≥0 2 Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q ein σ–additiver, S normierter Inhalt auf G (d.h. Q : G → [0, ∞) mit Q(Ω) = 1 und Q( n∈N Gn ) = P S Q(G ) für disjunkte G ∈ G, n ∈ N mit G ∈ G). n n n∈N n∈N n Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G) mit P/G = Q/G. Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\). 2 25 Satz 6.17 G1 , G2 seien unabhängige Ereignis–Algebren. Dann sind A1 := σ(G1 ), A2 := σ(G2 ) unabhängige σ–Algebren. Beweis: Zu zeigen: ∀A1 ∈ A1 , ∀A2 ∈ A2 : P (A1 ∩ A2 ) = P (A1 )P (A2 ). Sei G1 ∈ G1 gegeben. 1. Fall: P (G1 ) = 0. Dann gilt: 0 = P (G1 ∩ A2 ) | {z } ⊂G1 = P (G1 )P (A2 ) = 0 für alle A ∈ A2 . 2. Fall: P (G1 ) > 0. Setze Q(A2 ) := P (G1 ∩ A2 ) für A2 ∈ A2 . P (G1 ) Dann gilt 1. ∀G2 ∈ G2 : Q(G2 ) = P (G2 ) wegen der Unabhängigkeit von G1 , G2 . 2. Q ist Wahrscheinlichkeitsmaß auf A2 ; denn: (a) Q(Ω) = 1. (b) A12 , A22 , . . . sei Folge disjunkter Mengen aus A2 , dann: ! P X P G1 ∩ n∈N An2 n Q A2 = P (G1 ) n∈N P n (G ∩ A ) P 1 2 n∈N = P (G1 ) P n n∈N P (G1 ∩ A2 ) = P (G1 ) X = Q (An2 ) . n∈N Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A2 ) = P (A2 ) für alle A2 ∈ A2 , d.h. P (G1 ∩ A2 ) = P (G1 )P (A2 ) für alle A2 ∈ A2 . Analog schließt man: G1 ∈ G1 durch A1 ∈ A1 ersetzbar. 26 2 Satz 6.18 Gi , i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum (Ω, A, P ). Dann sind äquivalent: (i) Gi , i ∈ I, sind unabhängig. (ii) Ai := σ(Gi ), i ∈ I, sind unabhängig. (iii) Für je endlich viele verschiedene i1 , . . . , ik ∈ I und Gi1 ∈ Gi1 , . . . , Gik ∈ Gik gilt: P (Gi1 ∩ . . . ∩ Gik ) = P (Gi1 ) · · · P (Gik ) . Beweis: (ii)⇒(i)“ Trivial. ” (i)⇒(iii)“ Gi1 ist unabhängig von allen Ereignissen aus α ” ziell von Gi2 ∩ . . . ∩ Gik , d.h. S j6=i1 Gj , spe- P (Gi1 ∩ (Gi2 ∩ . . . ∩ Gik )) = . . . = P (Gi1 ) · · · P (Gik ) mittels Induktion. (iii)⇒(ii)“ Zu zeigen ist: Ai0 ∈ Ai0 ist unabhängig von allen A ∈ σ ” S Sei Gi0 ∈ Gi0 und H ∈ α G j6=i0 j ⇒6.8 ⇒6.10 S H ∈ α({Gi1 , . . . , Gir }) für geeignete Gi1 ∈ Gi1 , . . . , Gir ∈ Gir Gi0 und H sind unabhängig, d.h. ! [ Gi0 und α Gj sind unabhängig j6=i0 !! ⇒6.17 Ai0 = σ(Gi0 ), σ α [ Gj unabhängig . j6=i0 Die Behauptung folgt nun aus den Gleichungen: !! ! [ [ σ α Gj = σ Gj j6=i0 j6=i0 [ = σ σ(Gj ) . | {z } j6=i0 Zum zweiten =“: ” ⊂“: Trivial. ” 27 =Aj A j . j6=i0 ⊃“: Für i 6= i0 gilt: ” [ Gj ⊃ Gi j6=i0 ! ⇒ σ [ Gj ⊃ σ(Gi ) j6=i0 ! ⇒ σ [ Gj ⊃ j6=i0 ⇒ σ j6=i0 σ(Gi ) i6=i0 ! [ [ Gj ⊃ σ [ σ(Gi ) | {z } i6=i0 =A i 2 Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass sie sich gegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum (Ω, A, P ) zur mathematischen Beschreibung des Zufallsexperimentes, welches darin besteht, dass die beiden Experimente ohne wechselseitige Beeinflussung — also unabhängig — durchgeführt werden. Die einzelnen Experimente werden durch (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ) beschrieben. Nahe liegend: Ω := Ω1 × Ω2 := {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 }. Jedes A1 ∈ A1 kann identifiziert werden mit A1 × Ω2 , jedes A2 ∈ A2 kann identifiziert werden mit Ω1 × A2 , d.h. Forderung: A1 × Ω2 , Ω1 × A2 sind Ereignisse ⇒ (A1 × Ω2 ) ∩ (Ω1 × A2 ) = A1 × A2 Ereignis. Daher: A := σ ({A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }) . Ferner soll die Forderung P1 (A1 ) = P (A1 × Ω2 ), P2 (A2 ) = P (Ω1 × A2 ) erfüllt sein. Zur Unabhängigkeit: A1 × Ω2 und Ω1 × A2 sollen stets unabhängig sein für A1 ∈ A1 , A2 ∈ A2 , d.h. es soll gelten P (A1 × A2 ) = P ((A1 × Ω2 ) ∩ (Ω1 × A2 )) = P (A1 × Ω2 )P (Ω1 × A2 ) = P1 (A1 )P2 (A2 ). 28 Satz 6.19 (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ) seien Wahrscheinlichkeitsräume. Setze Ω := Ω1 × . . . × Ωn := {(ω1 , . . . , ωn ) : ωi ∈ Ωi , 1 ≤ i ≤ n} und A := σ({A1 × . . . × An : Ai ∈ Ai , 1 ≤ i ≤ n}. Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mit P (A1 × . . . × An ) = P1 (A1 ) · · · Pn (An ). Beweisskizze: Definiere P auf Mengensystem Z := {A1 × . . . × An : Ai ∈ Ai , 1 ≤ i ≤ n} durch P (A1 × . . . × An ) := n Y P (Ai ). i=1 Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) auf α(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16. 2 Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ) :⇔ (Ω, A, P ) wird definiert gemäß 6.19. Schreibweise: Ω = Ω1 × . . . × Ωn , A = A1 ⊗ . . . ⊗ An , P = P1 × . . . × Pn . Im Fall (Ω1 , A1 , P1 ) = . . . = (Ωn , An , Pn ) = (Ω, A, P ), d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz (Ωn , An , P n ). 7 Zufallsvariablen (Ω, A, P ) zufälliges Experiment, f : Ω → Ω0 eine Abbildung. Es sei ω ein Ergebnis; häufig interessiert weniger der exakte Ausgang ω sondern nur der Wert f (ω). Beispielsweise interessiert beim Schuss auf eine Zielscheibe weniger die genaue Lage des Einschusses sondern der Abstand zum Mittelpunkt. Daher wird man vor allem Ereignisse der Gestalt f −1 (A0 ) := {ω ∈ Ω : f (ω) ∈ A0 } betrachten, wobei A0 die im Bildraum von f interessierenden Ereignisse durchläuft. 29 Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω0 eine Abbildung. Setze A0 := {A0 ⊂ Ω0 : f −1 (A0 ) ∈ A} und P 0 (A0 ) := P (f −1 (A0 )) für alle A0 ∈ A0 . Dann ist (Ω0 , A0 , P 0 ) ein Wahrscheinlichkeitsraum. Beweis: 1. f −1 (Ω0 ) = Ω ∈ A, d.h. Ω0 ∈ A0 . 2. Sei A0 ∈ A0 ⇒ f −1 (A0 ) =: A ∈ A ⇒ f −1 (Ω0 \A0 ) = Ac ∈ A ⇒ A0c = Ω0 \A0 ∈ A0 . 3. Sei A0n ∈ A0 , n ∈ N ⇒ f −1 (A0n ) ∈ A, n ∈ N ! [ [ f −1 (A0n ) ∈ A ⇒ f −1 A0n = n∈N n∈N ⇒ [ A0n 0 ∈A. n∈N Also ist A0 eine σ–Algebra. Ferner ist P 0 ein Wahrscheinlichkeitsmaß auf (Ω0 , A0 ): 1. P 0 (Ω0 ) = P (f −1 (Ω0 )) = P (Ω) = 1. 2. Für paarweise disjunkte A0n , n ∈ N, gilt: ! !! X X P0 A0n = P f −1 A0n n∈N n∈N ! = P X f −1 (A0n ) n∈N = X = X P f −1 (A0n ) n∈N P 0 (A0n ) . n∈N 2 Bemerkung 7.2 A0 heißt finale σ–Algebra bezüglich f ; P 0 heißt das durch P und f auf A0 induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter f. 30 Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) ein messbarer Raum, dann: f : Ω → Ω0 heißt A, A0 –messbar oder Zufallsgröße, falls f −1 (A0 ) ⊂ A, d.h. falls für alle A0 ∈ A0 gilt: f −1 (A0 ) ∈ A, (d.h. A0 ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise: f : (Ω, A) → (Ω0 , A0 ). Satz 7.4 f : (Ω, A) → (Ω0 , A0 ). Dann: f −1 (A0 ) := {f −1 (A0 ) : A0 ∈ A0 } ist sub–σ–Algebra von A. (= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von A). Beweis: 1. Ω = f −1 (Ω0 ). 2. A ∈ f −1 (A0 ) ⇒ ∃A0 ∈ A0 : A = f −1 (A0 ) ⇒ Ac = f −1 (A0c ) ∈ f −1 (A0 ). 3. An ∈ f −1 (A0 ), n ∈ N ⇒ ∃A0n ∈ A0 : An = f −1 (A0n ), n ∈ N [ [ ⇒ An = f −1 (A0n ) n∈N n∈N ! = f −1 [ A0n ∈ f −1 (A0 ). n∈N 2 Satz 7.5 (Ω, A), (Ω0 , A0 ) messbare Räume, S ⊂ P(Ω0 ) mit σ(S) = A0 . Dann gilt: f : Ω → Ω0 ist A, A0 –messbar ⇔ f −1 (S) ∈ A für alle S ∈ S. Beweis: ⇒“ Trivial. ” 31 ⇐“ Setze ” F := {F ∈ P(Ω0 ) : f −1 (F ) ∈ A}. F ist (die finale) σ–Algebra mit F ⊃ S ⇒ F ⊃ σ(S) = A0 . 2 Satz 7.6 (Ω, A), (Ω0 , A0 ), (Ω00 , A00 ) messbare Räume, f : (Ω, A) → (Ω0 , A0 ),g : (Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt: g ◦ f : Ω → Ω00 ist A, A00 –messbar. Beweis: Sei A00 ∈ A00 , dann: (g ◦ f )−1 (A00 ) = f −1 (g −1 (A00 )) ∈ A. | {z } ∈A0 2 Definition 7.7 In sei die Menge aller n–dimensionalen Intervalle im Rn . Bn := σ(In ) ⊂ P(Rn ) ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra des Rn . Bemerkung 7.8 Setze In0 := {(a, b] : {x = (x1 , . . . , xn ) ∈ Rn : ai < xi ≤ bi , i = 1 . . . , n} für a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn }. dann gilt: Bn = σ(In0 ). Denn z.B.: \ 1 [a, b] = a − ,b m m∈N mit a − 1/m = (a1 − 1/m, . . . , an − 1/m); [ 1 (a, b) = a, b − m m∈N u.s.w. ⇒ Bn ⊃ σ(In0 ) ⊃ In ⇒ Bn ⊃ σ(In0 ) ⊃ σ(In ) = Bn ⇒ σ(In0 ) = Bn . 32 Satz 7.9 Bn enthält alle (bezüglich der euklidischen Topologie des Rn ) offenen und abgeschlossenen Mengen des Rn . Beweis: InQ := Menge aller n–dimensionalen Intervalle in In mit rationalen Endpunkten. InQ ist abzählbar (denn Q2n ist abzählbar). G ⊂ Rn sei offen [ ⇒ G= I ∈ Bn (als abzählb. Vereinigung); Q I⊂G, I∈In n F ⊂ R abgeschlossen ⇒ F c offen und damit in Bn ⇒ F ∈ Bn . 2 Satz 7.10 Bn = B · · ⊗ B} = Bn . | ⊗ ·{z n–mal Beweis: n = 2; B ⊗ B = σ({B1 × B2 : B1 , B2 ∈ B}. 1. B2 ⊂ B ⊗ B, da I2 ⊂ B ⊗ B. 2. Zu zeigen: B ⊗ B ⊂ B2 . Es genügt zu zeigen, dass B1 × B2 ∈ B2 , falls B1 , B2 ∈ B. (a) Setze für I ∈ I BI := {B ⊂ R : B × I ∈ B2 }; BI ist eine σ–Algebra(!) mit I ⊂ BI , d.h. B ⊂ BI . Also gilt B1 × I ∈ B2 , falls B1 ∈ B, I ∈ I. (b) Setze für B ∈ B BB := {A ⊂ R : B × A ∈ B2 }; BB ist eine σ–Algebra(!) mit I ⊂ BB nach (a), d.h. B ⊂ BB . Also gilt B1 × B2 ∈ B2 , falls B1 , B2 ∈ B. Analog schließt man damit von n auf n + 1. 2 Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum; f : Ω → R ist Zufallsvariable :⇔ f ist A, B–messbar. 33 Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann sind äquivalent: 1. f ist Zufallsvariable, d.h. f −1 (B) ∈ A für alle B ∈ B. 2. {f ≤ y} := {ω ∈ Ω : f (ω) ≤ y} ∈ A für alle y ∈ R. 3. {f < y} := {ω ∈ Ω : f (ω) < y} ∈ A für alle y ∈ R. 4. {f ∈ I} := {ω ∈ Ω : f (ω) ∈ I} ∈ A für alle Intervalle I in R. 5. {f ∈ G} := {ω ∈ Ω : f (ω) ∈ G} ∈ A für alle G ∈ G := Menge der offenen Teilmengen von R. 6. {f ∈ F } := {ω ∈ Ω : f (ω) ∈ F } ∈ A für alle F ∈ F := Menge der abgeschlossenen Teilmengen von R. Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), da {(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I1 , G, F Erzeuger der σ–Algebra B sind. 2 Beispiel 7.13 Beispiele für Zufallsvariablen: 1. f ∈ {0, 1}Ω ist Zufallsvariable ⇔ ∀y ∈ R : {ω ∈ Ω : f (ω) ≤ y} ∈ A wobei {ω ∈ Ω : f (ω) ≤ y} Ω, falls y ≥ 1, ∅, falls y < 0, = ∈A {ω ∈ Ω : f (ω) = 0}, falls 0 ≤ y < 1. ⇔ f = 1A für ein geeignetes A ∈ A. Dabei ist 1A (ω) = 1, falls ω ∈ A, 0 sonst, die Indikatorfunktion der Menge A. 2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen. 3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen. Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann: f : Ω → Rn ist n–dimensionaler Zufallsvektor :⇔ f ist A, Bn –messbar. 34 Satz 7.15 f = (f1 , . . . , fn ) : Ω → Rn ist n–dim. Zufallsvektor ⇔ fi : Ω → R ist Zufallsvariable, i = 1, . . . , n. Beweis: ⇒“ Sei B ∈ B, dann: ” i−te fi−1 (B) ⇐“ ” =f −1 (R | × ··· × Stelle z}|{ B {z ∈Bn × · · · × R}) ∈ A. 1. f −1 (B1 × · · · × Bn ) = \ 1≤i≤n fi−1 (Bi ) ∈ A, | {z } ∈A falls Bi ∈ B, i = 1, . . . , n. 2. {B ⊂ Rn : f −1 (B) ∈ A} ist (finale) σ–Algebra (7.1). Aus 1. und 2. folgt, dass {B ⊂ Rn : f −1 (B) ∈ A} ⊃ B ⊗ · · · ⊗ B =7.10 Bn , d.h. f ist Zufallsvektor. 2 Definition 7.16 g : Rn → R ist Bairesche Funktion :⇔ g ist Bn , B–messbar. Satz 7.17 fi : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : Rn → R Bairesche Funktion. Dann ist g ◦ (f1 , . . . , fn ) Zufallsvariable. Beweis: Folgt aus 7.15 und 7.6. 2 Satz 7.18 g : Rn → R stetig ⇒ g ist Bairesche Funktion. Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1 (O) ist offen im Rn , d.h. g −1 (O) ∈ Bn . Nach Satz 7.5 gilt damit g −1 (B) ∈ Bn für alle B ∈ B, da die offenen Mengen B erzeugen (7.9). 2 35 Satz 7.19 f1 , f2 seien Zufallsvariablen, a ∈ R. Dann gilt: af1 , f1 + f2 , f1 f2 , f1 /f2 (falls f2 (ω) 6= 0 für alle ω ∈ Ω), f1 ∨ f2 := max(f1 , f2 ), f1 ∧ f2 := min(f1 , f2 ) sind wieder Zufallsvariablen. Beweis: R 3 x 7→ ax, R2 3 (x1 , x2 ) 7→ x1 + x2 ∈ R u.s.w. sind stetige Abbildungen von R → R bzw. R → R2 , d.h. Satz 7.17 und 7.18 anwendbar. 2 Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer Raum. Satz 7.20 f1 , f2 , . . . seien Zufallsvariablen. 1. fn (ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt ⇒ sup fn ist Zufallsvariable. n∈N ((supn∈N fn )(ω) = supn∈N (fn (ω))). 2. fn (ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt ⇒ inf fn ist Zufallsvariable. n∈N 3. fn (ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt ⇒ lim inf fn , lim sup fn sind Zufallsvariablen. n∈N n∈N 4. fn (ω), n ∈ N, sei für jedes ω ∈ Ω konvergent ⇒ lim fn ist Zufallsvariable. n∈N Beweis: T 1. ∀y ∈ R : {ω ∈ Ω : supn∈N fn (ω) ≤ y} = n∈N {ω ∈ Ω : fn (ω) ≤ y} ∈ A. S 2. {ω ∈ Ω : inf n∈N fn (ω) < y} = n∈N {ω ∈ Ω : fn (ω) < y} ∈ A. 3. lim supn∈N fn (ω) = inf m∈N supn≥m fn (ω) , lim inf n∈N fn (ω) = supm∈N (inf n≥m fn (ω)), d.h. die Behauptung folgt aus 1. und 2. 36 4. limn∈N fn = lim supn∈N fn = lim inf n∈N fn , d.h. 3. anwendbar. 2 Definition 7.21 fi , i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), wobei fi : (Ω, A) → (Ωi , Ai ), i ∈ I. Die Familie fi , i ∈ I, heißt unabhängig :⇔ die Familie A(fi ) = fi−1 (Ai ), i ∈ I, der zugehörigen Vergröberungen ist unabhängig. Bemerkung 7.22 fi , i ∈ I, unabhängig ⇔ fi , i ∈ I0 , unabhängig für alle endlichen Teilmengen I0 von I (s. 6.18). Satz 7.23 fi : (Ω, A) → (Ω0i , A0i ), i = 1, . . . , n unabhängig ⇔ P ({f1 ∈ A01 , . . . , fn ∈ A0n } = P ({f1 ∈ A01 }) · · · P ({fn ∈ A0n }) für beliebige A0i ∈ A0i , i = 1, . . . , n. Beweis: f1 , . . . , fn unabhängig ⇔ A(f1 ), . . . , A(fn ) unabhängig ⇔6.18 für beliebige A0i ∈ A0i , i = 1, . . . , n, sind die Ereignisse {f1 ∈ A01 }, . . . , {fn ∈ A0n } unabhängig. 2 Satz 7.24 fi : (Ω, A) → (Ω0i , A0i ), i ∈ I, unabhängig, gi : (Ω0i , A0i ) → (Ω00i , A00i ), i ∈ I. Dann sind gi ◦ fi : (Ω, A) → (Ω00i , A00i ), i ∈ I, unabhängig. Beweis: 1. Nach Satz 7.6 ist gi ◦ fi A, Ai –messbar, i ∈ I. 2. Für endliches I0 ⊂ I und A00i ∈ A00i , i ∈ I0 , gilt: P {gi ◦ fi ∈ A00i , i ∈ I0 } = P {fi ∈ gi−1 (A00i ), i ∈ I0 } | {z } ∈A0i = Y P {fi ∈ gi−1 (A00i )} (da fi unabhängig) i∈I0 = Y P {gi ◦ fi ∈ A00i }. i∈I0 37 2 Definition 7.25 f1 , f2 , . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt terminales Ereignis bzgl. f1 , f2 , . . . :⇔ ! [ C∈σ A(fm ) für alle n ∈ N. m≥n T n∈N σ S m≥n A(fm ) heißt die zu f1 , f2 , . . . gehörende terminale σ–Algebra. Beispiel 7.26 1. {ω ∈ Ω : fn (ω) > 0 unendlich oft}, 2. {ω ∈ Ω : fn (ω), n ∈ N, ist konvergent}, P 3. ω ∈ Ω : n1 ni=1 fn (ω), n ∈ N, ist konvergent sind terminale Ereignisse. Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur Folge unabhängiger Zufallsvariablen f1 , f2 , . . . ⇒ P (C) = 0 oder 1; Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A1 , A2 , . . . unabhängige Ereignisse ⇒ 1A1 , 1A2 , . . . unabhängige Zufallsvariablen; ( ) X lim sup An = ω ∈ Ω : 1An (ω) = ∞ n∈N n∈N ist terminales Ereignis zu 1A1 , 1A2 , . . . mit P 0, falls Pn∈N P (An ) < ∞, P lim sup An = 1, falls n∈N n∈N P (An ) = ∞. Beweis: Annahme: P (C) >S 0. Wir zeigen: P (C) = 1. Für A ∈ A(fn , n ∈ N) := σ n∈N A(fn ) definieren wir P ∗ (A) := P (A|C) = P (A ∩ C) P (C) ⇒ P ∗ ist Wahrscheinlichkeitsmaß mit P ∗ (A) = P (A) für alle A ∈ A0 := [ n∈N 38 A(fm : m ≤ n), mit ! A(fm : m ≤ n) := σ [ A(fm ) , m≤n denn für A ∈ A0 gilt: A, C sind unabhängig. A0 ist eine Algebra(!) mit A(fn , n ∈ N) = σ(A0 ). Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(fn , n ∈ N), d.h. P (A ∩ C) = P (A) P (C) für alle A ∈ A(fn , n ∈ N) ⇒ P (A ∩ C) = P (A)P (C) insbesondere für A = C (C ∈ A(fn , n ∈ N)) ⇒ P (C) = P (C)2 ⇒ P (C) = 1. P ∗ (A) = 2 8 Integrationstheorie Es sei f eine Zufallsvariable, die nur die Werte a1 , . . . , am annimmt, pi := P {f = ai }, i = 1, . . . , m. Bei N –facher unabhängiger Wiederholung des Experimentes seien α1 , . . . , αN (∈ {a1 , . . . , am }) die beobachteten Werte von f . Die Erfahrung zeigt, dass sich das arithmetische Mittel N 1 X αi N i=1 offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl? Dazu anschaulich: Hi (Häufigkeit) bezeichne die Anzahl des Eintretens von ai unter den N Durchführungen des Experimentes, i = 1, . . . , m. Nach der Erfahrung wird gelten: Hi ≈ pi , d.h. Hi ≈ pi N. N Damit: α1 + · · · + αN N H1 a1 + · · · + Hm am N m X Hi = ai N i=1 = ≈ m X ai p i . i=1 Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen Mittels sein. Den Begriff des Erwartungswertes werden wir in diesem Kapitel untersuchen. Definition 8.1 1. e einfache Funktion :⇔ e= m X αi 1Ai i=1 mit geeignetem m ∈ N, αi ≥ 0, Ai ∈ A, i = 1, . . . , m. 2. E := Menge der einfachen Funktionen. Bemerkung 8.2 1. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die nur endlich viele Werte annehmen. 2. e1 , e2 ∈ E, α ∈ R+ ⇒ αe1 , e1 + e2 , e1 e2 , e1 ∨ e2 , e1 ∧ e2 ∈ E. P 3. e ∈ E ⇒ e = 1≤i≤m αi 1Ai S mit disjunkten Ai ∈ A und 1≤i≤m Ai = Ω. Satz 8.3 Es gelte e= X αi 1Ai = 1≤i≤m X βj 1Bj ∈ E 1≤j≤n mit disjunkten Ai ∈ A, i = 1, . . . , m, und disjunkten Bj ∈ A, j = 1, . . . , n. Dann folgt: X X αi P (Ai ) = βj P (Bj ). 1≤i≤m 1≤j≤n S S Beweis: O.B.d.A. annehmbar, dass 1≤i≤m Ai = 1≤j≤m Bj = Ω. X X 1Ai = 1Ai ∩Bj ; 1Bj = 1Ai ∩Bj 1≤j≤n ⇒e = X 1≤i≤n αi 1Ai 1≤i≤m = X αi 1Ai ∩Bj ; 1≤i≤m;1≤j≤n e = X βj 1Bj ∩Ai 1≤j≤n;1≤i≤m ⇒ ∀i, j mit Ai ∩ Bj 6= ∅ : αi = βj X ⇒ αi P (Ai ) 1≤i≤m = X αi P (Ai ∩ Bj ) 1≤i≤m;1≤j≤n = X βj P (Bj ∩ Ai ) 1≤i≤m;1≤j≤n = X βj P (Bj ). 1≤j≤n 40 2 P Definition 8.4 Für e = 1≤i≤m αi 1Ai ∈ E mit disjunkten Ai und αi ≥ 0 definieren wir Z Z X e dP := αi P (Ai ), e dP := Ω 1≤i≤m das Integral von e über Ω. Satz 8.5 Für e, e1 , e2 ∈ E gilt: 1. Z Z αe dP = α 2. α ≥ 0, e dP, Z Z e1 + e2 dP = Z e1 dP + e2 dP, P 3. e = 1≤i≤m αi 1Ai mit αi ≥ 0 und beliebigen Ai , d.h. nicht notwendig disjunkten Ai ⇒ Z X e dP = αi P (Ai ), 1≤i≤m 4. Z e1 ≤ e2 ⇒ Z e1 dP ≤ e2 dP. Beweis: P P αi 1Ai mit disjunkten Ai ⇒ αe = 1.“ e = 1≤i≤m (ααi )1Ai ⇒ 1≤i≤m ” Behauptung. P P mit disjunkten A , e = 2.“ e1 = i αi 1Ai S i 2 j βj 1Bj mit disjunkten Bj . S ” O.b.d.A. gelte i Ai = j Bj = Ω; X e1 = αi 1Ai ∩Bj , i,j e2 = X βj 1Ai ∩Bj i,j ⇒ e1 + e2 X = (αi + βj )1Ai ∩Bj i,j mit Ai ∩ Bj , (i, j), disjunkt Z ⇒ e1 + e2 dP X =Def. (αi + βj )P (Ai ∩ Bj ) i,j X X = αi P (Ai ∩ Bj ) + βj P (Ai ∩ Bj ) i,j i,j Z = Z e1 dP + 41 e2 dP. 3.“ Folgt aus 1. und 2.: ” Z X αi 1Ai dP = i X Z αi 1Ai dP. i 4.“ Nach Beweisteil 2. besitzen e1 und e2 die Darstellungen ” X X e1 = αi 1Ai , e2 = βi 1Ai 1≤i≤m 1≤i≤m mit disjunkten Ai 6= ∅ ⇒ α i ≤ βi , 1 ≤ i ≤ m, Z X ⇒ e1 dP = αi P (Ai ) i ≤ X βi P (Ai ) Zi = e2 dP. 2 Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren en ∈ E, n ∈ N, mit e1 ≤ e2 ≤ . . . und f = lim en . n∈N Beweis: Setze en := X 0≤i<n2n i 1A , 2n n,i mit An,i := {i/2n ≤ f < (i + 1)/2n }. 2 Satz 8.7 e, en ∈ E, n ∈ N, mit e ≤ limn∈N en , e1 ≤ e2 ≤ . . . Dann folgt: Z Z e dP ≤ lim en dP. n∈N P Beweis: Sei e = 1≤i≤m αi 1Ai . Wähle a ∈ [0, 1) und setze Kn := {ae ≤ en }, n ∈ N. Kn ∈ A,Pda ae − en A, B–messbar, e1Kn = 1≤i≤m αi 1Ai ∩Kn ∈ E, Kn ↑ Ω, also Ai ∩ Kn ↑ Ai und damit 42 limn∈N P (Ai ∩ Kn ) = P (Ai ), i = 1, . . . , m, ⇒ Z X a e dP = a αi P (Ai ) 1≤i≤m X = a lim n∈N αi P (Ai ∩ Kn ) 1≤i≤m Z ae1Kn dP | {z } = lim n∈N ≤en Z ≤ lim en dP. n∈N Für a ↑ 1 folgt nun die Behauptung. 2 Korollar 8.8 e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . . ∈ E mit limn∈N en = limn∈N e0n (≤ ∞). Dann gilt: Z Z lim en dP = lim e0n dP. n∈N n∈N Definition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir Z Z f dP := lim en dP n∈N (Integral von f über (Ω, A, P )), falls f = lim en , n∈N e1 ≤ e2 ≤ . . . ∈ E. Satz 8.10 Für nicht negative Zufallsvariablen f, f1 , f2 gilt: 1. Z Z αf dP = α 2. α ≥ 0, f dP, Z Z f1 + f2 dP = 3. Z f1 dP + Z f1 ≤ f2 ⇒ f2 dP, Z f1 dP ≤ f2 dP. Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . ., ẽ1 ≤ ẽ2 . . . mit limn∈N en = f , limn∈N e0n = f1 , limn∈N ẽn = f2 . 43 1.“ αen ∈ E, n ∈ N, αe1 ≤ αe2 ≤ . . . , limn∈N αen = αf . Damit: ” Z Z αf dP =Def. lim αen dP n∈N Z =8.5 lim α en dP n∈N Z = α lim en dP n∈N Z =Def. α f dP. 2.“ e0n + ẽn ∈ E, n ∈ N, e01 + ẽ1 ≤ e02 + ẽ2 ≤ · · · , limn∈N (e0n + ẽn ) = f1 + f2 . ” Damit: Z Z f1 + f2 dP =Def. lim e0n + ẽn dP n∈N Z Z 0 en dP + ẽn dP =8.5 lim n∈N Z Z = f1 dP + f2 dP. 3.“ ” e0n ≤ lim ẽn (= f2 ) Z 0 ⇒8.7 en dP ≤ lim ẽn dP n∈N Z =Def. f2 dP Z Z ⇒Def. f1 dP = lim e0n dP n∈N Z ≤ f2 dP. n∈N Z 2 Satz 8.11 f, f1 , f2 , . . . seien nicht negative Zufallsvariablen mit f1 ≤ f2 ≤ · · · und limn∈N fn = f . Dann gilt: Z Z f dP = lim fn dP. n∈N Beweis: Zu fn existiert eine monoton wachsende Folge en,m , m ∈ N, in E mit lim en,m = fn , m∈N 44 also: e1,1 ≤ e1,2 ≤ · · · ↑ f1 e2,1 ≤ e2,2 ≤ · · · ↑ f2 .. .. .. . . . en,1 ≤ en,2 ≤ · · · ↑ fn .. .. .. . . . ↑ f. Setze en := max(e1,n , . . . , en,n ). Dann gilt: 1. en ∈ E (8.2,3.), e1 ≤ e2 ≤ · · · 2. en ≤ max(f1 , . . . , fn ) = fn ≤ f. 3. ∀m ≤ n : en ⇒ lim en ≥ ≥ em,n lim em,n = fm ⇒ lim en ≥ f n∈N n∈N n∈N ⇒2. lim en = f Z n∈N Z ⇒ f dP =Def. lim en dP n∈N Z ≤2. lim fn dP ; n∈N Z Z f dP ≥8.10 fn dP Z Z ⇒ f dP = lim fn dP. n∈N 2 Definition 8.12 f sei beliebige Zufallsvariable. 1. f + := max(f, 0) ist der Positivteil von f , f − := max(−f, 0) ist der Negativteil von f ; f = f + − f − . R R 2. f ist integrierbar :⇔ f + dP < ∞ und f − dP < ∞. 3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )). R R 4. f ist quasiintegrierbar :⇔ f + dP < ∞ oder f − dP < ∞. R R R 5. f dP := f + dP − f − dP , falls f quasiintegrierbar ist. Satz 8.13 f, f1 , f2 beliebige Zufallsvariablen. Dann: 45 1. f ∈ L, α ∈ R ⇒ αf ∈ L und R αf dP = α R f dP . R R 2. f1 , f2 ∈ L ⇒ f1 + f2 ∈ L und f1 + f2 dP = f1 dP + f2 dP. R R 3. f1 ≤ f2 , f1 , f2 ∈ L ⇒ f1 dP ≤ f2 dP. R R 4. f ∈ L ⇔ |f | ∈ L und es gilt in diesem Fall | f dP | ≤ |f | dP. R 5. g A, B–messbar mit f1 ≤ g ≤ f2 , f1 , f2 ∈ L ⇒ g ∈ L. Beweis: Mittels 8.10. 2 Satz 8.14 (v. d. monotonen Konvergenz) 1. fRn ∈ L, n ∈ N, fn ↑ f < ∞ ⇒ f ist quasiintegrierbar und f dP . R fn dP ↑ 2. fRn ∈ L, n ∈ N, fn ↓ f > −∞ ⇒ f ist quasiintegrierbar und f dP . R fn dP ↓ Beweis: Genügt 1. zu beweisen (Übergang zu −fn , −f ). O.E. sei fn ≥ 0 (sonst Übergang zu fn0 := fn − f1 ). Dann folgt die Behauptung aber aus 8.11. 2 Satz 8.15 (Lemma von Fatou) 1. fn ∈ L, n ∈ N, fn ≤ h, h ∈ L, lim supn∈N fn > −∞ ⇒ lim supn∈N fn ist quasiintegrierbar und Z Z lim sup fn dP ≥ lim sup fn dP. n∈N n∈N 2. fn ∈ L, n ∈ N, fn ≥ g, g ∈ L, lim inf n∈N fn < ∞ ⇒ lim inf n∈N fn ist quasiintegrierbar und Z Z lim inf fn dP ≤ lim inf fn dP. n∈N n∈N Beweis: Genügt 1. zu beweisen (Übergang zu −fn ). Es gilt: lim sup fn = lim sup fm . n∈N n∈N m≥n supm≥n fm ∈ L, da fn ≤ supm≥n fm ≤ h (8.13); 46 supm≥n fm ↓ lim supn∈N fn ⇒8.14 lim supn∈N fn ist quasiintegrierbar und Z Z sup fm dP ↓ lim sup fn dP m≥n n∈N Z Z ⇒ lim sup fn dP = lim sup fm dP n∈N m≥n n∈N Z ≤ lim sup fm dP n∈N m≥n Z = lim sup fn dP. n∈N 2 Satz 8.16 (v. d. dominierten Konvergenz) fn , n ∈ N, Zufallsvariablen mit limn∈N fn = f , |fn | ≤ g, g ∈ L. Dann gilt: Z Z fn , f ∈ L und lim fn dP = f dP. n∈N Beweis: 8.13⇒ fn , f ∈ L. Das Lemma von Fatou liefert: Z Z lim sup fn dP ≤ lim sup fn dP n∈N Z n∈N = f dP Z = lim inf fn dP n∈N Z ≤ lim inf fn dP. n∈N 2 Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum, (Ω0 , A0 ) messbarer Raum, T : (Ω, A) → (Ω0 , A0 ). P 0 := P ∗T sei das durch P und T auf A0 induzierte Wahrscheinlichkeitsmaß (Bildmaß), d.h. P 0 (A0 ) = P (T −1 (A0 )), A0 ∈ A0 , s. Satz 7.1. f 0 : Ω0 → R sei Zufallsvariable. Dann: f 0 ∈ L(Ω0 , A0 , P 0 ) ⇔ f 0 ◦ T ∈ L(Ω, A, P ) und in diesem Fall gilt: Z 0 0 Z f dP = Ω0 Ω 47 f 0 ◦ T dP. Beweis: 1. Sei e0 ∈ E(Ω0 , A0 ), d.h. e0 = P 1≤i≤m αi 1A0i mit αi ≥ 0, A0i ∈ A0 , X ⇒ e := e0 ◦ T = αi 1A0i ◦ T 1≤i≤m X = αi 1Ai ∈ E(Ω, A) 1≤i≤m mit Ai := T −1 (A0i ) und Z e0 dP 0 = Ω0 X αi P 0 (A0i ) 1≤i≤m X = αi P (T −1 (A0i )) 1≤i≤m X = αi P (Ai ) 1≤i≤m Z e dP. = Ω 2. Sei f 0 : Ω0 → R+ Zufallsvariable. Dann existieren e0n ∈ E(Ω0 , A0 ) mit e0n ↑ f 0 ⇒ en := e0n ◦ T ↑ f 0 ◦ T , en ∈ E(Ω, A). Somit gilt nach 1.: Z 0 f dP 0 Ω0 Z =Def. lim n∈N Ω0 e0n dP 0 Z lim en dP Ω Z =Def. f 0 ◦ T dP. =1. n∈N Ω 3. Für beliebiges f mittels Zerlegung f = f + − f − . 2 Definition 8.18 1. Es sei A ∈ A, f Zufallsvariable und f 1A quasiintegrierbar. Dann: Z Z Z f dP := f (ω) P (dω) := f 1A dP. A A 2. f sei quasiintegrierbar. Die Abbildung Z A 3 A 7→ f dP A heißt unbestimmtes Integral von f . 48 Bemerkung Es Rseien A, BR∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann R gilt A∪B f dP = A f dP = B f dP . Satz 8.19 f ≥ 0 sei Zufallsvariable mit R f dP = 1. Dann: Z Q : A → R mit Q(A) := f dP A ist ein Wahrscheinlichkeitsmaß auf A. Beweis: 1. Q(A) ≥ 0 offensichtlich, 2. Q(Ω) = 1 trivial. 3. An ∈ A, n ∈ N, seien paarweise disjunkt. Dann: ! [ Q An n∈N Z = f dP S n∈N An Z =Def. = f 1Sn∈N An dP ZΩ X f 1An dP Ω n∈N Z = lim Ω n∈N =mon. Konv. lim n∈N = =Def. = = lim n∈N lim n∈N lim n∈N X n X Ω i=1 n XZ dP f 1Ai dP f 1Ai dP i=1 Ω n Z X i=1 f 1Ai i=1 Z X n n X ! f dP Ai Q(Ai ) i=1 Q(An ). n∈N 2 R Definition 8.20 f ≥ 0 sei Zufallsvariable mit f dP = 1. Q sei definiert wie in 8.19. Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P . Symbolisch: dQ Q = f P, f = , dQ = f dP. dP 49 Satz 8.21 f1 sei P –Dichte von Q, f2 ≥ 0 sei Zufallsvariable. Dann: f2 ist P –Dichte von Q ⇔ P ({f1 6= f2 }) = 0. Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒ R A |f | dP = 0. Beweis: Es gilt |f 1A | = |f |1A . Es existieren en ∈ E, n ∈ N, mit en ↑ |f | ⇒ en 1A ∈ E mit en 1A ↑ |f |1A ; Z Z |f |1A dP =Def. lim n∈N en 1A dP X αi P (Ai ∩ A) = 0, lim | {z } n∈N = 1≤i≤m wobei en = P 1≤i≤m =0 αi 1Ai , 1Ai 1A = 1Ai ∩A , Z Z ⇒8.13 | f dP | ≤ |f | dP = 0. A A 2 Beweis:[von 8.21] ⇐“ Sei A ∈ A; ” Z Q(A) = f1 1A dP Z = Z f1 1A∩{f1 =f2 } dP + f1 1A∩{f1 6=f2 } dP Z =8.22 f1 1A∩{f1 =f2 } dP Z = f2 1A∩{f1 =f2 } dP Z = Z f2 1A∩{f1 =f2 } dP + f2 1A∩{f1 6=f2 } dP Z = f2 1A dP. ⇒“ Aus den Voraussetzungen folgt: ” Z Z ∀A ∈ A : f1 dP = f2 dP A A Z Z ⇒ ∀A ∈ A : f1 dP − f2 dP A ZA f1 − f2 dP = 0. = A 50 Speziell für − A+ n := {f1 − f2 > 1/n}, An := {f1 − f2 < −1/n} gilt also: Z 0 = A+ n Z ≥8.13 A+ n f1 − f2 dP 1 dP n 1 P (A+ n ), n = d.h. P (A+ n ) = 0; Z 0 = A− n f1 − f2 dP Z 1 − dP n A− n 1 − P (A− n ), n ≤8.13 = d.h. P (A− n ) = 0. Es folgt: ! [ P {f1 6= f2 } = P − (A+ n ∪ An ) n∈N ≤ X − P (A+ n ∪ An ) = 0. n∈N 2 Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt: g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt: Z Z g dQ = gf dP. Beweis: 1. Es sei e = P 1≤i≤m αi 1Ai ∈ E Z m X ⇒ e dQ = αi Q(Ai ) i=1 = = m X i=1 m X Z αi f dP Ai Z αi f 1Ai dP i=1 Z = f m X αi 1Ai dP i=1 Z = 51 f e dP. 2. g ≥ 0 sei Zufallsvariable ⇒ g = limn∈N en mit geeigneten e1 ≤ e2 ≤ ... ∈ E Z Z ⇒ g dQ =Def. lim en dQ n∈N Z =1. lim en f dP n∈N Z =8.14 lim(en f ) dP n∈N Z = f g dP. 3. Allgemeiner Fall mittels Zerlegung g = g + − g − . 2 Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume (Ωi , Ai , Pi ), i = 1, 2, d.h. Ω = Ω1 × Ω2 , A = σ({A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }, P = P 1 × P2 . f : Ω → R sei integrierbar bzgl. P . Dann gilt: 1. f (ω1 , ·) : Ω2 3 ω2 7→ f (ω1 , ω2 ) ∈ R ist für P1 –fast alle ω1 ∈ Ω1 P2 –integrierbar, d.h. es existiert N1 ∈ A1 , P1 (N1 ) = 0 und ∀ω1 ∈ N1c ist f (ω1 , ·) eine P2 –integrierbare Funktion. 2. f (·, ω2 ) : Ω1 3 ω1 7→ f (ω1 , ω2 ) ∈ R ist für P2 –fast alle ω2 ∈ Ω2 P1 –integrierbar, d.h. es existiert N2 ∈ A2 , P2 (N2 ) = 0 und ∀ω2 ∈ N2c ist f (·, ω2 ) eine P1 –integrierbare Funktion. 3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen Z ω1 7→ f (ω1 , ·) dP2 Ω2 und Z ω2 7→ f (·, ω2 ) dP1 Ω1 52 sind P1 – bzw. P2 –integrierbar und es gilt: Z Z f dP = f d(P1 × P2 ) Ω Ω1 ×Ω2 Z Z = f (ω1 , ·) dP2 P1 (dω1 ) Ω1 Ω2 Z Z = f (·, ω2 ) dP1 P2 (dω2 ). Ω2 Ω1 Beweis: Siehe Maßtheorie. 2 Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige σ–finite Maße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig. µ : A → [0, ∞] ist Maß :⇔ P S 1. µ n∈N An = n∈N µ(An ) für disjunkte An ∈ A, 2. µ(∅) = 0. µ : A → [0,S∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren An ∈ A, n ∈ N, mit n∈N An = Ω und µ(An ) < ∞, n ∈ N. Definition 8.25 Definiere λ0n : In0 := {(a, b] = ×ni=1 (ai , bi ] : a, b ∈ Rn } → [0, ∞] durch Y λ0n ((a, b]) := (bi − ai ). 1≤i≤n λ0n In0 ist σ–additiv auf und kann eindeutig zu einem (σ–finiten) Maß auf Bn fortgesetzt werden. Dieses Maß ist das Lebesgue–Maß, i.Z. λn , vgl. 7.8. Satz 8.26 Es gilt: λn = λn1 , wobei λn1 das n–fache Produkt von λ1 bezeichnet. Beweis: Klar, da λn ((a, b]) = λ0n ((a, b]) Y = (bi − ai ) 1≤i≤n = = Y λ1 ((ai , bi ]) 1≤i≤n λn1 ((a, b]). 2 53 Definition 8.27 Es sei f ∈ L(Rn , Bn , λn ). Wir setzen: Z Z Z f (x) dx := f (x1 , . . . , xn ) dx1 · · · dxn := f dλn . Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B∩(0, 1], λ1 /(0, 1]), fn := n1(0,1/n] , n ∈ N. Dann gilt: fn (ω) →n→N 0, ω ∈ Ω, aber Z Z fn dλ1 = nλ1 ((0, 1/n]) = 1 6= 0 dλ1 = 0. Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen sind also wesentlich. 9 Verteilungen und ihre Charakterisierungen Definition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω0 , A0 ) messbarer Raum, f : (Ω, A, P ) → (Ω0 , A0 ). Das Wahrscheinlichkeitsmaß P ∗ f : A0 → [0, 1], definiert durch (P ∗ f )(A) := P (f −1 (A)), A ∈ A0 , heißt Verteilung von f , (s. 7.1). Bemerkung Jedes Wahrscheinlichkeitsmaß P 0 auf einem beliebigen messbaren Raum (Ω0 , A0 ) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze (Ω, A, P ) := (Ω0 , A0 , P 0 ), f (ω) := ω, ω ∈ Ω. Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B). Definiere F : R → [0, 1] durch F (x) := P ({f ≤ x}) = P ({ω ∈ Ω : f (ω) ≤ x}) = (P ∗ f )((−∞, x]), x ∈ R. F heißt Verteilungsfunktion von f bzw. von P ∗ f . Beispiel 9.3 1. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann gilt: für x < 1, 0 i/6 für i ≤ x < i + 1, i = 1, . . . , 5, F (x) = 1 für x ≥ 6. 54 2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ1 (B) für B ∈ B∩(0, 1). Dann gilt: P ({f ≤ x}) P ({f ∈ (−∞, x]}) P ({f ∈ (0, x]}) λ1 ((0, x]) = x für 0 ≤ x ≤ 1. F (x) = = = = Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f )((−∞, x]) einer Zufallsvariablen f hängt offenbar nur von der Verteilung P ∗ f von f ab, nicht von den konkreten Werten von f . Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f . Dann gilt: 1. F ist monoton wachsend. 2. F ist rechtsseitig stetig. 3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0. Beweis: 1.“ ” x<y ⇒ (−∞, x] ⊂ (−∞, y] ⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y). T 2.“ (−∞, x] = n∈N (−∞, xn ], falls xn ↓ x. Damit: ” F (x) = Q((−∞, x]) ! \ = Q (−∞, xn ] n∈N = lim Q((−∞, xn ]) n∈N = lim F (xn ). n∈N 3.“ ” xn ↑ ∞ ⇒ R= [ (−∞, xn ] n∈N ⇒ 1 = Q(R) = lim Q((−∞, xn ]) = lim F (xn ); n∈N n∈N xn ↓ −∞ ⇒ ∅= \ (−∞, xn ] n∈N ⇒ 0 = Q(∅) = lim Q((−∞, xn ]) = lim F (xn ). n∈N 55 n∈N 2 Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig bestimmt. Das bedeutet: Sind Q1 , Q2 Wahrscheinlichkeitsmaße auf (R, B) mit Q1 6= Q2 , so existiert x ∈ R mit FQ1 (x) = Q1 ((−∞, x]) 6= Q2 ((−∞, x]) = FQ2 (x). Beweis: 1. Es gilt: Q((x, y]) = F (y) − F (x) für x < y. 2. Q((x, y)) = lim Q((x, y − 1/n]) n∈N = lim(F (y − 1/n) − F (x)), n∈N denn (x, y − 1/n] ↑ (x, y). 3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten offenen Intervallen ⇒2. Q(G) ist für offene Mengen G durch F bestimmt ⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz). 2 Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle. Dann ist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f , d.h. es existiert ein Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable f auf (Ω, A, P ) mit F (x) = (P ∗ f )((−∞, x]), x ∈ R. Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ1 /Ω, f (ω) := inf{x ∈ R : F (x) ≥ ω} = min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann gilt: 1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f (ω1 ) ≤ f (ω2 ), ω1 ≤ ω2 , und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in B ∩ Ω. 56 2. ω ≤ F (y) ⇔ f (ω) ≤ y, y ∈ R, ⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f (ω) ≤ y} ⇒ P ({f ≤ y}) = λ1 ({ω ∈ Ω : ω ≤ F (y)}) = λ1 ((0, F (y)]) = F (y), y ∈ R. 2 Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von Satz 9.5. Definition 9.9 F sei Verteilungsfunktion; dann heißt F −1 (y) := inf{x ∈ R : F (x) ≥ y}, y ∈ (0, 1), verallgemeinerte Inverse von F oder Quantilfunktion. Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion. Dann besitzt die Zufallsvariable g := F −1 ◦ f die Verteilungsfunktion F . Beweis: Siehe Übungen. 2 Definition 9.11 f = (f1 , . . . , fn ) sei n–dimensionaler Zufallsvektor, dann: F : Rn → [0, 1] mit F (y1 , . . . , yn ) := P ({f1 ≤ y1 , . . . , fn ≤ yn }) ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion von f1 , . . . , fn . Bemerkung n = 1: P ({f ∈ (x, y]}) = F (y) − F (x), x < y. 57 n = 2: Es sei x = (x1 , x2 ), y = (y1 , y2 ), xi < yi , i = 1, 2. Dann: P ({(f1 , f2 ) ∈ (x, y])} = F (y1 , y2 ) − F (y1 , x2 ) − F (x1 , y2 ) + F (x1 , x2 ). Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern. Satz 9.12 Die Zufallsvariablen f1 , . . . , fn sind genau dann unabhängig, wenn für ihre gemeinsame Verteilungsfunktion F gilt: F (y1 , . . . , yn ) = F1 (y1 ) · · · Fn (yn ) für (y1 , . . . , yn ) ∈ Rn , wobei Fi die Verteilungsfunktion zu fi ist, i = 1, . . . , n. Beweis: ⇒“ ” ! \ F (y1 , . . . , yn ) = P {fi ≤ yi } 1≤i≤n = Y P ({fi ≤ yi }) 1≤i≤n = Y Fi (yi ). 1≤i≤n ⇐“ Es gilt für y = (y1 , . . . , yn ) ∈ Rn : ” ! F (y) = P \ {fi ≤ yi } 1≤i≤n = Y P ({fi ≤ yi }), 1≤i≤n d.h. (P ∗ (f1 , . . . , fn ))((−∞, y]) = ((P ∗ f1 ) × · · · × (P ∗ fn ))((−∞, y]) ⇒ (P ∗ (f1 , . . . , fn ))(B) = ((P ∗ f1 ) × · · · × (P ∗ fn ))(B) für B ∈ Bn (s. Maßtheorie) ⇒ (P ∗ (f1 , . . . , fn ))(B1 × · · · × Bn ) = ((P ∗ f1 ) × · · · × (P ∗ fn ))(B1 × · · · × Bn ) für Bi ∈ B, i = 1 . . . , n, ⇒ P ({fi ∈ Bi , i = 1, . . . , n}) n Y = P ({fi ∈ Bi }) i=1 für Bi ∈ B, i = 1, . . . , n, d.h. f1 , . . . , fn sind unabhängig (s. 7.23). 58 2 Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert eine abzählbare Menge B = {b1 , b2 , . . .} ⊂ R mit P ({f ∈ B}) = 1. Beispiele 9.14 Im folgenden sei f eine Zufallsvariable. 1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p), :⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p. 2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z. B(n, p), :⇔ P ({f = k}) = B(n, p)({k}) n k = p (1 − p)n−k , k = 0, 1, . . . , n. k 3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. Pλ , :⇔ P ({f = k}) = Pλ ({k}) λk = e−λ , k = 0, 1, . . . k! 4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1] :⇔ P ({f = k}) = p(1 − p)k−1 , k = 1, 2, . . . Bemerkung 9.15 f1 , f2 , . . . seien unabhängige, zum Parameter p ∈ [0, 1] Bernoulli–verteilte Zufallsvariablen. Dann gilt: 1. f1 + · · · + fn ist B(n, p)–verteilt. 2. f := inf{m ∈ N : fm = 1} ist geometrisch verteilt zum Parameter p. Beweis: Siehe Übungen. 2 Definition 9.16 1. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte bzgl. λ1 , d.h. es existiert eine Borel–messbare Funktion h : R → [0, ∞) mit Z Q(B) = h dλ1 , B ∈ B. B 59 2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig. Satz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und Verteilungsfunktion F . Dann gilt: h(x) = F 0 (x) = ∂F (x) , ∂x falls h an der Stelle x stetig ist. Beweis: Es gilt: F (x + ε) − F (x) ε P ({f ∈ (x, x + ε]}) = ε R h(y) dy (x,x+ε] = ε R R h(y) − h(x) dy h(x) dy (x,x+ε] (x,x+ε] = + ε ε =: I + II. Offenbar gilt: λ1 ((x, x + ε]) = h(x), ε II = h(x) sowie R |I| ≤ (x,x+ε] ε R ≤ = |h(y) − h(x)| dy (x,x+ε] supz∈(x,x+ε] |h(z) − h(x)| dy ε |h(z) − h(x)| →ε→0 0, sup z∈(x,x+ε] wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung. 2 Definition 9.18 Qa,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b < ∞ :⇔ Qa,b besitzt die Dichte ha,b (x) := 1 1(a,b) (x), b−a 60 x ∈ R. Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei bedeutet keine Alterung: P ({f > s + t|f > s}) = P ({f > t}), t, s ≥ 0. Es gilt also für t, s, ≥ 0: P ({f > s + t}) = P ({f > s})P ({f > t}), ⇒ für G(y) := P ({f > y}) gilt: G(s + t) = G(s)G(t) ⇒ ∃λ ≥ 0 : G(y) = exp(−λy) (als einzige nicht identisch verschwindende monoton fallende Lösung obiger Funktionalgleichung2 ) ⇒ F (y) := P ({f ≤ y}) = 1 − G(y) = 1 − exp(−λy), y ≥ 0. Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0 :⇔ P ∗ f besitzt die Dichte 0, x < 0, h(x) := λ exp(−λx), x ≥ 0. Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0. Definition 9.21 Der Zufallvektor f = (f1 , . . . , fn ) ist absolutstetig mit der Dichte h :⇔ Z P ({f ∈ B}) = h dλn ZB = h(x1 , . . . , xn ) dx1 · · · dxn , B ∈ Bn . B Satz 9.22 h : Rn → [0, ∞) sei integrierbar bzgl. λn und es gelte für den Zufallsvektor f : P ({f ≤ y}) Z Z = ··· (−∞,y1 ] h(x1 , . . . , xn ) dx1 · · · dxn (−∞,yn ] für y = (y1 , . . . , yn ) ∈ Rn . Dann ist h eine Dichte von f . 2 S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig. 61 Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für jedes y ∈ Rn : Z P ({f ∈ (−∞, y]}) = h dλn (−∞,y] und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ Bn : Z P ({f ∈ B}) = h dλn B 2 Satz 9.23 f1 , . . . , fn seien Zufallsvariablen mit Dichten h1 , . . . , hn . Dann gilt: f1 , . . . , fn sind unabhängig ⇔ f = (f1 , . . . , fn ) besitzt die Dichte h(x1 , . . . , xn ) = h1 (x1 ) · · · hn (xn ), (x1 , . . . , xn ) ∈ Rn . Beweis: ⇒“ Für y = (y1 , . . . , yn ) ∈ Rn gilt: ” P ({f ∈ (−∞, y]}) = P ({fi ≤ yi , i = 1, . . . , n}) n Y = P ({fi ≤ yi }) i=1 = n Z Y i=1 hi (xi ) dxi (−∞,yi ] Z Z ··· = (−∞,y1 ] h1 (x1 ) · · · hn (xn ) dxn · · · dx1 (−∞,yn ] Z Z ··· = (−∞,y1 ] h(x1 , . . . , xn ) dxn · · · dx1 (−∞,yn ] ⇒ Behauptung aus 9.22. ⇐“ Für y = (y1 , . . . , yn ) ∈ Rn gilt auf Grund des Satzes von Fubini: ” P ({f ∈ (−∞, y]}) Z = h dλn (−∞,y] Z Z = ··· h(x1 , . . . , xn ) dx1 · · · dxn (−∞,y1 ] (−∞,yn ] Z Z = ··· h1 (x1 ) · · · hn (xn ) dx1 · · · dxn = = (−∞,y1 ] n YZ i=1 n Y (−∞,yn ] hi (xi ) dxi (−∞,yi ] P ({fi ≤ yi }) i=1 ⇒ Behauptung aus 9.12. 62 2 Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird zufällig auf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß ist die Wahrscheinlichkeit, dass die Nadel eine der Geraden schneidet? Lösung: Annahmen: 1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt. 2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf (0, 1/2) gleichverteilt. 3. ϕ und d sind unabhängig. Dann gilt nach 9.23 h(x1 , x2 ) = 2 π für 0 < x1 < π, 0 < x2 < 12 , 0 sonst ist gemeinsame Dichte des Zufallsvektors (ϕ, d). Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h. 1 A = ω ∈ Ω : d(ω) ≤ sin ϕ(ω) . 2 Mit 1 1 A = (x1 , x2 ) ∈ (0, π) × 0, : x2 ≤ sin(x1 ) 2 2 0 folgt aus dem Satz von Fubini: P (A) = P ({(ϕ, d) ∈ A0 } Z = h dλ2 0 ZA 2 = dx1 dx2 {(x1 ,x2 )∈(0,π)×(0, 21 ) :x2 ≤ 12 sin(x1 )} π ! Z Z 2 = dx2 dx1 (0,π) (0, 12 sin(x1 )) π Z 1 π = sin(x1 ) dx1 π 0 2 = . π 2 63 Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂ R Intervall mit P ({f ∈ I}) = 1. g : I → R sei differenzierbar mit g 0 (x) > 0 für alle x ∈ I oder g 0 (x) < 0 für alle x ∈ I. Dann gilt: g ◦ f ist absolutstetig mit der Dichte h̃(y) = h(g −1 (y))|(g −1 )0 (y)| für alle y mit inf g(x) < y < sup g(x) x∈I x∈I und h̃(y) = 0 sonst. Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert (auf g(I)) und differenzierbar (mit (g −1 )0 (y) = 1/g 0 (g −1 (y))). 1. ∀x ∈ I gelte g 0 (x) > 0, d.h. g ist monoton wachsend ⇒ Fg◦f (y) = = = 0 ⇒ Fg◦f (y) = P ({g ◦ f ≤ y}) P ({f ≤ g −1 (y)}) Ff (g −1 (y)) h(g −1 (y))(g −1 )0 (y). 2. g 0 < 0 analog. 2 Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3 Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem Nullpunkt aus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ vom Nullpunkt sei ein Schirm aufgestellt, auf den das Teilchen trifft. Die Koordinaten dieses Punktes seien (λ, g) wobei g zufällig ist. Man bestimmt eine Dichte der Zufallsvariablen g. Lösung: ϕ besitzt die Dichte h(y) = 1 1 π π (y), π (− 2 , 2 ) da ϕ auf (−π/2, π/2) gleichverteilt ist. Ferner gilt: g = λ tan(ϕ), 3 S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig. 64 wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2). Nach 9.25, 9.26 besitzt g die Dichte y 1 ∂ arctan hg (y) = π ∂y λ 1 1 1 = π 1 + y22 λ λ λ 1 , = π λ2 + y 2 y ∈ R. 2 Definition 9.28 Die Verteilung auf R mit der Dichte hλ (y) := λ 1 , 2 π λ + y2 y ∈ R, heißt Cauchy–Verteilung mit Parameter λ > 0. Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar, so ist F 0 eine Dichte von F.4 10 Momente Definition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt Z E(f ) := f dP Erwartungswert von f (Mittelwert von P ∗ f ). Bemerkung 10.2 Es gilt Z E(f ) = Z x (P ∗ f )(dx), f dP =8.17 Ω R d.h. E(f ) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher auch häufig Z x F (dx) := E(f ), wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2). Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann: 4 Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage. Deutsch, Zürich. 65 1. E(αf ) = αE(f ), E(f + g) = E(f ) + E(g), falls f, g ∈ L(Ω, A, P ). 2. E(f ) existiert ⇔ E(|f |) existiert, und in diesem Fall gilt: |E(f )| ≤ E(|f |). 3. Falls E(f ) existiert und |g| ≤ |f | ⇒ E(g) existiert. Beweis: 8.13. 2 Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1 für eine abzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f ; dann: X E(g) = ϕ(x)P ({f = x}), x∈B falls diese Summe absolut konvergiert. Beweis: S. Übungen. 2 Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei Bairesche Funktion. Dann gilt für g := ϕ ◦ f : Z ϕ(x)h(x) dx E(g) = R falls R |ϕh| dλ1 < ∞. Beweis: Z E(g) ϕ ◦ f dP = ZΩ ϕ d(P ∗ f ) =8.17 ZR =8.23 ϕ(x)h(x) dx, R h = d(P ∗ f )/dλ1 . 2 Definition 10.6 f sei Zufallsvariable, n ∈ Z+ . Dann heißt, falls existent: µn := E(f n ) n–tes Moment von f , speziell µ := µ1 = E(f ); 66 mn := E((f − µ)n ) n–tes zentriertes Moment von f , speziell m2 := V (f ) := var(f ) =: σ 2 (f ) Varianz von f; E(|f |n ) := n–tes absolutes Moment; p σ 2 (f ) p = E((f − µ)2 ) = E((f − µ)2 )1/2 σ(f ) := Standardabweichung oder Streuung von f . Satz 10.7 E(f n ) existiere ⇒ E(f m ) existiert, 0 ≤ m ≤ n. Beweis: Es gilt: m |f (ω)| ≤ |f (ω)|n , falls |f (ω)| ≥ 1 =: g(ω); 1, falls |f (ω)| ≤ 1 E(g) ≤ 1 + E(|f |n ) < ∞ ⇒8.13 Behauptung. 2 Satz 10.8 m1 = 0, σ 2 = µ2 − µ21 (= E(f 2 ) − E(f )2 ), m3 = µ3 − 3µµ2 + 2µ3 . Beweis: m1 = E(f − µ) = E(f ) − E(µ) = µ − µ = 0; σ2 = = = = = m3 = = = = E((f − µ)2 ) E(f 2 − 2f µ + µ2 ) E(f 2 ) − 2µE(f ) + µ2 µ2 − 2µ2 + µ2 µ2 − µ2 ; E((f − µ)3 ) E(f 3 ) − E(3f 2 µ) + E(3f µ2 ) − µ3 µ3 − 3µµ2 + 3µ3 − µ3 µ3 − 3µµ2 + 2µ3 . 67 2 Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann gilt: E(|f |) P ({|f | ≥ ε}) ≤ . ε Beweis: Es gilt: Z |f (ω)| dP E(|f |) = ZΩ ≥ |f (ω)| P (dω) {ω∈Ω: |f (ω)|≥ε} Z ≥ ε P (dω) {ω∈Ω: |f (ω)|≥ε} = εP ({|f | ≥ ε}). 2 Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P ) und ε > 0 gilt: σ 2 (f ) . P ({|f − µ| ≥ ε}) ≤ ε2 Beweis: Es gilt: P ({|f − µ| ≥ ε}) = P ({(f − µ)2 ≥ ε2 }) ≤10.9 σ 2 (f ) . ε2 2 Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit E(f 2 ) < ∞, E(g 2 ) < ∞. Dann ist f g ∈ L(Ω, A, P ) und es gilt: E(f g)2 ≤ E(f 2 )E(g 2 ). Beweis: 1. (f ± g)2 ≥ 0 ⇒ |2f g| ≤ f 2 + g 2 ⇒8.13 f g ∈ L(Ω, A, P ) 68 2. Für alle x ∈ R gilt: ϕ(x) := E((xf − g)2 ) = x2 E(f 2 ) − 2xE(f g) + E(g 2 ) ≥ 0 ⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung ⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv sein, d.h. es gilt: 2 E(f g) E(g 2 ) ≤0 − E(f 2 ) E(f 2 ) ⇒ Behauptung. 2 Satz 10.12 f1 , . . . , fn Q seien unabhängige Zufallsvariablen, fi ∈ L(Ω, A, P ), i = 1, . . . , n. Dann ist 1≤i≤n fi ∈ L(Ω, A, P ) und es gilt: E n Y ! fi = i=1 n Y E(fi ). i=1 Beweis: O.E. sei n = 2. Dann gilt: E(|f1 f2 |) Z |f1 f2 | dP = ZΩ |xy| (P ∗ (f1 , f2 ))(d(x, y)) =8.17 2 ZR |xy| ((P ∗ f1 ) × (P ∗ f2 ))(d(x, y)) Z Z =Fubini |x||y| (P ∗ f1 )(dx) (P ∗ f2 )(dy) R R Z Z = |x| (P ∗ f1 )(dx) |y| (P ∗ f2 )(dy) = R2 R =8.17 R E(|f1 |)E(|f2 |). 2 Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen. cov(f, g) := E ((f − E(f ))(g − E(g))) = E(f g) − E(f )E(g) ist die Kovarianz von f und g. 69 Ist zusätzlich σ 2 (f ) > 0, σ 2 (g) > 0, so heißt %(f, g) := cov(f, g) σ(f )σ(g) ∈ [0, 1] Korrelationskoeffizient von f und g. f und g heißen positiv bzw. un– bzw. negativ korreliert, falls %(f, g) > 0 bzw. = 0 bzw. < 0. Bemerkung %(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f ) und g − E(g) die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu haben. Ferner kann %(f, g) als Maß für den Grad der linearen Abhängigkeit“ zwi” schen f und g angesehen werden (s. folgenden Satz). Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2 (f ), σ 2 (g) < ∞. Dann gilt: 1. Falls f, g unabhängig sind ⇒ %(f, g) = 0. 2. Falls %(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R : P ({g = af + b}) = 1. 3. Die mittlere quadratische Abweichung E((f − (af + b))2 ) der linearen Approximation von g durch af + b ist genau dann minimal, wenn a∗ = cov(f, g) und b∗ = E(g) − a∗ E(f ). 2 σ (f ) In diesem Fall gilt: E((g − (a∗ f + b∗ ))2 ) = 1 − %(f, g)2 σ 2 (g). Beweis: 1.“ Folgt aus 10.12. ” 3.“ Es gilt: ” E((g − af − b)2 ) = a2 E(f 2 ) + b2 + 2abE(f ) −2aE(f g) − 2bE(g) + E(g 2 ) =: p(a, b), a, b ∈ R. p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt genau ein Minimum für a∗ = cov(f, g) ∗ , b = E(g) − a∗ E(f ) σ 2 (f ) (elementar mittels partieller Ableitungen). 70 2.“ Im Fall %(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗ f + b∗ ))2 ) = 0, d.h. ” P ({|g − (a∗ f + b∗ )| = 6 0}) = 0, d.h. P ({g = a∗ f + b∗ }) = 1 (s. Übungen). 2 Bemerkung a∗ = cov(f, g)/σ 2 (f ) ist ein geeignetes Mittel zur Vorhersage von g aus f , sog. Regression von f auf g, da nach 10.14, 3., ĝ := E(g) + a∗ (f − E(f )) die beste lineare Approximation von g durch f darstellt. a∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Gerade m(t) := a∗ (t − E(f )) + E(g) heißt Regressionsgerade von g auf f . Der Fehler g − ĝ = g − m(f ) bei dieser Approximation heißt Residuum. Falls E(g) = E(f ) = 0 und var(f ) = var(g) = 1, so folgt a∗ = cov(f, g) = %(f, g) ∈ [−1, 1] und damit ĝ = a∗ f ⇒ |ĝ| = %(f, g)||f | ≤ |f |, daher die Bezeichnung Regression“ (Rückschritt). ” Satz 10.15 f1 , . . . , fn seien quadratintegrierbare, unkorrelierte Zufallsvariablen (also cov(fi , fj ) = 0, i 6= j. Dann gilt: σ 2 (f1 + · · · + fn ) = σ 2 (f1 ) + · · · + σ 2 (fn ). Beweis: σ 2 (f1 + · · · + fn ) = E ((f1 + · · · + fn ) − E(f1 + · · · + fn ))2 = E ((f1 − E(f1 )) + · · · + (fn − E(fn )))2 ! X = E (fi − E(fi ))(fj − E(fj )) 1≤i,j≤n = = = X cov(fi , fj ) 1≤i,j≤n n X cov(fi , fi ) i=1 n X σ 2 (fi ). i=1 2 71 Korollar 10.16 f1 , . . . , fn seien unabhängige, quadratintegrierbare Zufallsvariablen. Dann gilt: σ 2 (f1 + · · · + fn ) = σ 2 (f1 ) + · · · + σ 2 (fn ). 11 Gesetze der großen Zahlen Bemerkung f, f1 , f2 , . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt {limn∈N fn = f } ∈ A, denn: \ [ \ {lim fn = f } = {|fn − f | < 1/k} ∈ A. n∈N k∈N m∈N n≥m Definition 11.1 fn →n∈N f P –f.s. :⇔ P lim fn = f = 1, n∈N (fn konvergiert P –fast sicher gegen f ). Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte fn →n∈N f P – f.s., fn →n∈N f˜ P –f.s. ⇒ P ({f = f˜}) = 1, d.h. f = f˜ P –f.s. Beweis: ˜ lim fn = f ∩ lim fn = f n∈N n∈N ⇒ P ({f = 6 f˜}) ≤ P lim fn 6= f n∈N +P lim fn 6= f˜ = 0. {f = f˜} ⊃ n∈N 2 Satz 11.3 fi,n →n∈N fi P –f.s., i = 1, . . . , k, g : Rk → R stetig ⇒ g(f1,n , . . . , fk,n ) →n∈N g(f1 , . . . , fk ) P –f.s. Beweis: Nach Voraussetzung existieren P –Nullmengen N1 , . . . , Nk ∈ A mit fi,n (ω) →n∈N fi (ω) für alle ω ∈ Nic , i = 1, . . . , k. Für alle ω ∈ (N1 ∪ · · · ∪ Nk )c gilt also (f1,n (ω), . . . , fk,n (ω)) →n∈N (f1 (ω), . . . , fk (ω)) und damit g (f1,n (ω), . . . , fk,n (ω)) →n∈N g (f1 (ω), . . . , fk (ω)) . Da P ((N1 ∪ · · · ∪ Nk )c ) = 1, folgt die Behauptung. 72 2 Beispiel 11.4 fn →n∈N f P –f.s., gn →n∈N g P –f.s. ⇒ fn +gn →n∈N f +g P – f.s. Definition 11.5 P fn → f :⇔ ∀ε > 0 : lim P ({|fn − f | > ε}) = 0, n∈N (fn konvergiert in Wahrscheinlichkeit gegen f ). P P Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) fn → f , fn → f˜ ⇒ f = f˜ P –f.s. Beweis: Es gilt für n ∈ N und ε > 0 {|f − f˜| > ε} ⊂ {|fn − f | > ε/2} ∪ {|fn − f˜| > ε/2} und damit P ({|f − f˜| > ε}) ≤ P ({|fn − f | > ε/2}) + P ({|fn − f˜| > ε/2}) ⇒ P ({|f − f˜| > ε}) = 0 für beliebiges ε > 0 ! [ ⇒ P ({f 6= f˜}) = P {|f − f˜| > 1/k} k∈N ≤ X P ({|f − f˜| > 1/k}) = 0. k∈N 2 P Satz 11.7 fn →n∈N f P –f.s. ⇒ fn → f. Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst f˜n := fn − f ). Mit \ [ K := lim fn = 0 = sup |fn | ≤ 1/k ∈ A n∈N k∈N m∈N 73 n≥m gilt: fn → 0 P –f.s. ⇔ P (K c ) = 0 [ \ ⇔ P sup |fn | > 1/k = 0 n≥m k∈N m∈N {z } | ↑ in k \ = 0 für alle k ∈ N ⇔ P sup |f | > 1/k n n≥m m∈N | {z } ↓ in m ⇔ lim P m∈N sup |fn | > 1/k =0 n≥m ⇒ lim P ({|fm | > 1/k} = 0 für alle k ∈ N m∈N ⇒ Behauptung. 2 Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel zeigt. Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f1 := 1[0,1) , f2 := 1[0,1/2) , f3 := 1[1/2,1) , f4 := 1[0,1/3) , f5 := 1[1/3,2/3) , . . . Offenbar gilt P ({|fn | > ε}) →n∈N 0, ε > 0, aber fn (ω) konvergiert für kein ω ∈ Ω gegen 0. Satz 11.9 (Schw. Gesetz der großen Zahlen I) f1 , . . . , fn seien identisch verteilte, quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(fi , fj ) = 0 für i 6= j. Dann gilt mit µ := E(f1 ), σ 2 := σ 2 (f1 ) für ε > 0: ( n )! 1 X σ2 P f i − µ ≥ ε ≤ n nε2 i=1 → 0, falls n → ∞. 74 Beweis: Aus der Tschebyscheff–Ungleichung folgt: ( n )! 1 X P f i − µ ≥ ε n i=1 ( n )! X = P (fi − µ) ≥ nε i=1 ! n X 1 var (fi − µ) ≤ n 2 ε2 i=1 nσ 2 . n 2 ε2 =10.15 2 Korollar 11.10 (Schw. G. d. großen Zahlen II) fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt: n 1X P fi → E(f1 ). n i=1 Wie wir am Ende dieses Kapitels sehen werden, gilt sogar: n 1X fi →n∈N E(f1 ) P –f.s. n i=1 Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen decken sich völlig mit unserer Anschauung und unserer Erfahrung. Es wird im mathematischen Modell die Erfahrungstatsache bestätigt, dass bei einer großen Anzahl n von unabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeit n hn (A) = 1X 1A (fi ) n i=1 des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p := P ({f1 ∈ A}) liegt: f1 , f2 , . . . seien unabhängig und identisch verteilt. Dann sind 1A (f1 ), 1A (f2 ), . . . unabhängig und identisch verteilt mit E(1A (f1 )) = P ({f1 ∈ A}) = p sowie σ 2 (1A (f1 )) = p(1 − p) und es gilt P ({|hn (A) − p| ≥ ε}) ( n )! 1 X = P (1A (fi ) − p) ≥ ε n i=1 p(1 − p) ≤ nε2 1 →n∈N 0, ≤ 4nε2 unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1]. 75 Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f1 , . . . , fk mit E(fi ) = 0, i = 1, . . . , k, und ε > 0 gilt: j ( )! k X 1 X 2 P max σ (fi ). fi ≥ ε ≤ 2 1≤j≤k ε i=1 i=1 Beweis: O.E. sei σ 2 (fi ) < ∞, i = 1, . . . , k. Setze Sj := 1, . . . , k und Aj := {|S1 | < ε, . . . , |Sj−1 | < ε, |Sj | ≥ ε}. Pj i=1 fi für j = Die Ereignisse A1 , . . . , Ak sind disjunkt, und für jedes j sind die Zufallsvariablen 1Aj Sj und Sk − Sj unabhängig, da die erste nur von f1 , . . . , fj und die zweite nur von fj+1 , . . . , fk abhängt. Es folgt: k X σ 2 (fj ) j=1 =10.16 σ 2 (Sk ) = E(Sk2 ) k X ≥ E(1Aj Sk2 ) j=1 = k X E(1Aj (Sj + (Sk − Sj ))2 ) j=1 ≥10.12 = k X 2 E(1Aj Sj ) + 2E(1Aj Sj ) E(Sk − Sj ) | {z } j=1 =0 Z k X Sj2 dP j=1 ≥ k X Aj ε2 P (Aj ) j=1 = ε2 P k [ ! Aj j=1 j )! X max fi ≥ ε . 1≤j≤k ( = ε2 P i=1 2 Satz 11.12 fn , n ∈ N, P seien unabhängige, ZufallsvaP quadratintegrierbare 2 riablen. Falls die Reihen n∈N E(fn ) und n∈N σ (fn ) eigentlich konvergent sind, so existiert eine Zufallsvariable S mit Sn := n X fi →n∈N S i=1 76 P –f.s. Beweis: 1. O.E. sei E(f P n ) = 0, n ∈ N (sonst Übergang zu E(fi )) + ni=1 E(fi )). Pn i=1 fi = 2. Für ε > 0 und m ∈ N gilt; P sup |Sn − Sm | > ε n>m = = Pn i=1 (fi − [ P max |Sn − Sm | > ε k∈N | m<n≤m+k {z } ↑ in k lim P max |Sn − Sm | > ε k∈N m<n≤m+k m+k ≤11.11 = 1 X 2 lim sup 2 σ (fn ) ε n=m+1 k∈N 1 X 2 σ (fn ). ε2 n>m P Nach Voraussetzung gilt limm∈N n>m σ 2 (fn ) = 0, also P inf sup |Sn − Sm | > ε m∈N n>m ! \ ≤ P sup |Sn − Sm | > ε m∈N n>m sup |Sn − Sm | > ε ≤ lim inf P m∈N n>m = 0. Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun: P ({Sn , n ∈ N, ist eigentlich konvergent}) 1 = P ∀r ∈ N ∃m ∈ N : sup |Sn − Sm | < r n>m ! \ 1 = P inf sup |Sn − Sm | < m∈N n>m r r∈N ! [ 1 = 1−P inf sup |Sn − Sm | ≥ m∈N n>m r r∈N = 1. 2 77 Korollar 11.13 (St. G. d. gr. Z. v.PKolmogoroff ) Für jede Folge fn , n ∈ N, unabhängiger Zufallsvariablen mit n∈N σ 2 (fn )/n2 < ∞ gilt: n 1X (fi − E(fi )) →n∈N 0 n i=1 P –f.s. Beweis: O.E. gelte E(fn ) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable T mit n X fi Tn := →n∈N T P –f.s. i i=1 Beachte: var(fi /i) = var(fi )/i2 . Damit folgt (T0 := 0): n 1X fi n i=1 n = 1X i(Ti − Ti−1 ) n i=1 = 1 n = n X iTi − i=1 1 n+1 Tn − n n n X i=1 n X ! (i + 1)Ti + (n + 1)Tn Ti i=1 →n∈N T − T = 0 P –f.s. 2 Korollar 11.14 fn , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen. Falls dann E(f12 ) < ∞, so gilt: n 1X fi →n∈N E(f1 ) n i=1 Beweis: Es gilt X σ 2 (fn ) n∈N n2 = σ 2 (f1 ) P –f.s. X 1 < ∞. n2 n∈N Damit folgt die Behauptung aus 11.13. Beachte: ! n n 1X 1X (fi − E(fi )) = fi − E(f1 ). n i=1 n i=1 2 78 Satz 11.15 fn , n ∈ N, und fn0 , n ∈ N, seien Folgen von Zufallsvariablen mit P 0 n∈N P ({fn 6= fn }) < ∞; f sei eine Zufallsvariable. Dann gilt: n 1X fi →n∈N f n i=1 P –f.s. n 1X 0 ⇔ f →n∈N f n i=1 i P –f.s. Beweis: Nach dem Lemma von Borel–Cantelli gilt mit An := {fn 6= fn0 }: P (N1 ) := P ({fn 6= fn0 für unendlich viele n ∈ N}) = P (lim sup An ) = 0. n∈N Gilt nun n−1 Pn i=1 fi →n∈N f P –f.s., so existiert N2 ∈ A mit P (N2 ) = 0 und n 1X fi (ω) →n∈N f (ω) für alle ω ∈ N2c . n i=1 Damit gilt für alle ω ∈ N1c ∩ N2c : n n 1X 1X 0 fi (ω) = lim fi (ω) = f (ω). lim n∈N n n∈N n i=1 i=1 Da P (N1c ∩ N2c ) = 1, folgt die Behauptung. 2 Satz 11.16 (St. G. d. gr. Z. von Khinchine) fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen. 1. Falls f1 integrierbar ist, so ist E(fn ) = E(f1 ) =: µ ∈ R und es gilt: n 1X fi →n∈N µ n i=1 P –f.s. 2. Falls es ein c ∈ R gibt mit der Eigenschaft: n 1X fi →n∈N c n i=1 P –f.s., so ist f1 integrierbar, und es gilt c = E(f1 ). Beweis: 79 1.“ Die durch ” fn (ω), falls |fn (ω)| ≤ n 0 sonst = fn (ω)1[−n,n] (fn (ω)), n ∈ N, fn0 (ω) := definierten Zufallsvariablen sind unabhängig, und es gilt X σ 2 (f 0 ) n n∈N = n2 X E(f 02 ) − E(f 0 )2 n2 n∈N ≤ X E(f 02 ) n∈N ≤ n n n 2 n n X 1 X k 2 P ({k − 1 < |f1 | ≤ k}) 2 n n∈N k=1 X 1 = kP ({k − 1 < |f1 | ≤ k}) k n2 k∈N n≥k X ! , wobei X 1 X 1 ≤ 2 2 n n(n + 1) n≥k n≥k X 1 1 2 − = 2 = , n n+1 k n≥k d.h. insgesamt X σ 2 (f 0 ) n n∈N n2 ≤ 2 X kP ({k − 1 < |f1 | ≤ k}) k∈N ≤ 2(E(|f1 |) + 1) < ∞, s. Übungen. Anwendung von 11.13 liefert: n 1X 0 (f − E(fi0 )) →n∈N 0 P –f.s. n i=1 i Nach dem Satz von der dominierten Konvergenz gilt ferner: E(fn0 ) = E(fn 1[−n,n] (fn )) = E(f1 1[−n,n] (f1 )) →n∈N E(f1 ) = µ, P P also auch n−1 ni=1 E(fi0 ) →n∈N µ und somit n−1 ni=1 fi0 →n∈N µ P –f.s. Zusammen mit X X P ({|fn | > n}) P ({fn 6= fn0 }) = n∈N n∈N = X n∈N < ∞, 80 P ({|f1 | > n}) (da f1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15. P 2.“ Mit Sn := ni=1 fi gilt: ” Sn →n∈N c P –f.s. n fn Sn n − 1 Sn−1 ⇒ = − →n∈N 0 P –f.s. n n n n − 1 fn ⇒ P –f.s.: > 1 für höchstens endl. viele n ∈ N, n d.h. in diesem Fall existiert n0 ∈ N so, dass |fn /n| ≤ 1 für alle n ≥ n0 . Also gilt mit An := {|fn /n| > 1}: P lim sup An = 0. n∈N Da fn , n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die An , n ∈ N, unabhängige Ereignisse, und somit folgt aus dem Lemma von Borel–Cantelli: X X P ({|f1 | > n}) P (An ) = ∞> n∈N n∈N und damit, dass f1 integrierbar ist (s. Übungen). 2 Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen fP 1 , f2 , . . . ein −1 nes Experimentes konvergiert die relative Häufigkeit hn (A) = n i=1 1A (fi ) des Eintritts eines Ereignisses A fast sicher gegen die Wahrscheinlichkeit P ({f1 ∈ A}). Beispiel 11.18 fn , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen mit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oder Stichproben-Verteilungsfunktion zur Stichprobe f1 , . . . , fn : n 1X Fn (t) := 1(−∞,t] (fi ) →n∈N F (t) P –f.s., t ∈ R. n i=1 Beweis: Setze f˜n := 1(−∞,t] (fn ), n ∈ N. Dann sind f˜n , n ∈ N, unabhängig und identisch verteilt mit E(f˜n ) = E 1(−∞,t] (f1 ) = P ({f1 ≤ t}) = F (t). Damit folgt aus 11.16: n Fn (t) = 1X˜ fi →n∈N E(f˜1 ) = F (t) P –f.s. n i=1 81 2 Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die einen Hauptsatz der Stochastik darstellt. Satz 11.19 (Glivenko–Cantelli) fn , n ∈ N, seien unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . Dann gilt: sup |Fn (t) − F (t)| →n∈N 0 P –f.s., t∈R d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1 gleichmäßig über R gegen die zugrunde liegende Verteilungsfunktion. Beweis: Die A–Messbarkeit von supt∈R |Fn (t) − F (t)| folgt aus der rechtsseitigen Stetigkeit von Verteilungsfunktionen: sup |Fn (t) − F (t)| = sup |Fn (t) − F (t)|. t∈R t∈Q Setze nun tj,k := F −1 (j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt: Fn (tj,k ) →n∈N F (tj,k ) P –f.s., sowie n 1X 1(−∞,tj,k ) (fi ) →n∈N F (tj,k − 0) P –f.s., Fn (tj,k − 0) = n i=1 wobei F (tj,k − 0) = limε↓0 F (tj,k − ε) = P ({f1 < tj,k }). Damit gilt (mit F (tj,k + 0) := F (tj,k )): |Fn (tj,k ± 0) − F (tj,k ± 0)| →n∈N 0 P –f.s. sup j=1,...,k−1 Sei nun tj,k < t < tj+1,k . Dann gilt: F (tj,k ) ≤ F (t) ≤ F (tj+1,k − 0), Fn (tj,k ) ≤ Fn (t) ≤ Fn (tj+1,k − 0) sowie 1 0 ≤ F (tj+1,k − 0) − F (tj,k ) ≤ . {z } | {z } k | ≤ j+1 k ≥ kj Es folgt: Fn (t) − F (t) ≤ Fn (tj+1,k − 0) − F (tj,k ) ≤ Fn (tj+1,k − 0) − F (tj+1,k − 0) + und Fn (t) − F (t) ≥ Fn (tj,k ) − F (tj+1,k − 0) 1 ≥ Fn (tj,k ) − F (tj,k ) − . k 82 1 k Insgesamt erhalten wir: sup |Fn (t) − F (t)| t∈R ≤ 1 k 1≤j≤k + sup |Fn (t) − F (t)| + sup |Fn (t) − F (t)|. sup |Fn (tj,k ± 0) − F (tj,k ± 0)| + t>tk−1,k t<t1,k Ferner gilt: lim sup sup |Fn (t) − F (t)| n∈N t<t1,k ≤ lim sup(Fn (t1,k − 0) + F (t1,k − 0)) n∈N 2 ≤ k P –f.s. sowie lim sup sup |Fn (t) − F (t)| n∈N t>tk−1,k ! ≤ lim sup n∈N sup |Fn (t) − 1| + sup |1 − F (t)| t>tk−1,k t>tk−1,k ≤ lim sup (1 − Fn (tk−1,k ) + 1 − F (tk−1,k )) n∈N = 2 1 − F (tk−1,k ) | {z } P –f.s. ≥ k−1 k | {z } ≤ k1 Da k ∈ N beliebig war, folgt insgesamt die Behauptung. 2 Beispiel 11.20 fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt für das Stichprobenmittel: n 1X µ̂n := fi →n∈N E(f1 ) P –f.s. n i=1 sowie für die Stichprobenvarianz: n σ̂n2 := 1X (fi − µ̂n )2 n i=1 = 1X 2 f − n i=1 i n n 1X fi n i=1 !2 →n∈N E(f12 ) − E(f1 )2 = σ 2 (f1 ) P –f.s. 83 Ist ferner (fn , gn ), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvektoren und f1 , g1 quadratintegrierbar mit 0 < σ 2 (f1 ), σ 2 (g1 ), so gilt für die Stichprobenkovarianz ! ! n n n 1X 1X 1X cov cn := f i gi − fi gi n i=1 n i=1 n i=1 →n∈N E(f1 g1 ) − E(f1 )E(g1 ) P –f.s. = cov(f1 , g1 ). Damit gilt auch für den Stichprobenkorrelationskoeffizienten %̂n := = →n∈N = P n −1 cov cn σ̂n (f )σ̂n (g) 1 Pn Pn Pn 1 1 i=1 fi gi − n i=1 fi i=1 gi n n q P 1 Pn n 1 2 2 (f − µ̂ ) (g − ν̂ ) i n i n i=1 i=1 n n cov(f1 , g1 ) σ(f1 )σ(g1 ) %(f1 , g1 ) P –f.s. wobei ν̂n := n i=1 gi das Stichprobenmittel von g1 , . . . , gn ist. Somit gilt für den (einfachen) Stichprobenregressionskoeffizienten ân := = →n∈N cov cn σ̂n2 (f1 ) Pn 1 1 Pn Pn 1 f g f g − i i i i i=1 i=1 i=1 n n n 2 Pn Pn 1 1 2 i=1 fi − n i=1 fi n cov(f1 , g1 ) P –f.s. σ 2 (f1 ) Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1 gegen den jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente Schätzerfolgen. Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der Regressionsgeraden von g1 auf f1 definieren: m̂n (t) := ân (t − µ̂n ) + ν̂n =: ân t + b̂n →n∈N a∗ (t − E(f1 )) + E(g1 ) P –f.s., t ∈ R. Die Gerade m̂n (t) erhält man auch, wenn eine Gerade at + b so gewählt wird, dass die Summe der vertikalen Abstände der Datenpunkte (fi , gi ), i = 1, . . . , n, von der Geraden minimal wird, d.h.5 n X i=1 n X (gi − ân fi − b̂n ) = min (gi − afi − b)2 . 2 a,b i=1 Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und zunächst vorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand. 5 S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage. Vieweg, Braunschweig. 84 Bemerkung 11.21 Es gilt: n n X X 1 1 2 E(σ̂n ) = E fi − fj n i=1 n j=1 !2 n X 1 fj = E f1 − n j=1 !2 n−1 2 σ (f1 ), n d.h. σ̂n2 ist kein erwartungstreuer Schätzer, wohl aber = n n n 1 X 1X σ̃n2 := σ̂n2 = fi − fj n−1 n − 1 i=1 n j=1 !2 . Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen können auch zur approximativen Berechnung von Integralen eingesetzt werden: Problem: g : [0, 1] → R sei eine (λ1 –) integrierbare Funktion; bestimme R g(x) λ 1 (dx). [0,1] Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobe f1 , . . . , fn unabhängiger und auf dem Intervall [0, 1] gleichverteilter Zufallsvariablen (d.h. P ∗ fi = P ∗ f1 = λ1 /[0, 1]), so gilt: n 1X g(fi ) →n∈N E(g(f1 )) P –f.s. n i=1 Z =8.17 g(x) λ1 (dx). [0,1] Sind also x1 , . . . , xn beobachtete Werte von f1 , . . . , fn , d.h. xi = fi (ω), i = 1, . . . , n, so gilt: Z g(x1 ) + · · · + g(xn ) ≈ g(x) dx. n [0,1] x1 , . . . , xn heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweise vom Computer nach gewissen Algorithmen erzeugt. Da diese somit aber nicht wirklich“ zufällig sind, spricht man in diesem Fall von Pseudo” zufallszahlen. Sie sollten sich wie echte“ Zufallszahlen verhalten, tun das ” aber nicht immer. . . 6 12 Der Zentrale Grenzwertsatz fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Setze µ := E(f1 ). Wir hatten in Kapitel 11 gesehen, dass n 1X fi →n∈N µ P –f.s. n i=1 6 S. Bemerkung (3.43) in Georgii, H.-O. (2002). Stochastik. De Gruyter, Berlin. 85 bzw. P )! ( n 1 X f i − µ ≥ ε →n∈N 0 n i=1 für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge εn > 0, n ∈ N, mit εn →n∈N 0 ersetzen, wie schnell darf dann εn gegen 0 konvergieren, so dass ( n )! 1 X P f i − µ ≥ εn →n∈N c ∈ (0, 1)? n i=1 √ Wir werden sehen, dass dies für εn ∼ 1/ n der Fall ist; genauer wird für t > 0 gelten: )! ( n 1 X σt →n∈N 2(1 − Φ(t)), P f i − µ ≥ √ n n i=1 wobei 1 Φ(t) := √ 2π t 2 x exp − dx 2 −∞ Z und σ 2 := σ 2 (f1 ). Dies wird eine unmittelbare Folgerung aus dem Zentralen Grenzwertsatz sein, den wir in diesem Abschnitt beweisen werden. Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion F bzw. G. Dann besitzt f + g die Verteilungsfunktion Z (F ∗ G)(t) = G(t − s) (P ∗ f )(ds) Z = G(t − s) F (ds) Z = F (t − s) (P ∗ g)(ds) Z = F (t − s) G(ds) . F ∗ G heißt Faltung von F und G. 86 Beweis: Es gilt: (F ∗ G)(t) = P ({f + g ≤ t}) Z 1(−∞,t] (f + g) dP = Ω Z =8.17 1(−∞,t] (r + s) (P ∗ (f, g))(d(r, s)) 2 R Z 1(−∞,t] (r + s) ((P ∗ f ) × (P ∗ g))(d(r, s)) = 2 R Z Z =Fubini 1(−∞,t] (r + s)(P ∗ g)(ds)(P ∗ f )(dr) ZR ZR 1(−∞,t−r] (s)(P ∗ g)(ds)(P ∗ f )(dr) = R R Z = G(t − r) (P ∗ f )(dr). R 2 Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h1 bzw. h2 . Dann besitzt f + g die Dichte Z Z h2 (t − s)h1 (s) ds. h1 (t − s)h2 (s) ds = (h1 ∗ h2 )(t) := R R Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1 besitzt f + g die Verteilungsfunktion (F ∗ G)(t) Z G(t − s) F (ds) = Z G(t − s)h1 (s) ds Z Z = h2 (r) dr h1 (s) ds R (−∞,t−s] Z Z =Subst. h2 (r − s) dr h1 (s) ds R (−∞,t] Z Z =Fubini h2 (r − s)h1 (s) ds dr (−∞,t] R Z =Def. (h1 ∗ h2 )(r) dr. =8.23 R (−∞,t] Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung. 2 87 Definition 12.3 Das Wahrscheinlichkeitsmaß auf B1 mit der Dichte7 2 1 x , x ∈ R, ϕ(x) := √ exp − 2 2π heißt Standardnormalverteilung, i.Z. N (0,R1). Die Verteilungsfunktion von N (0, 1) bezeichnen wir mit Φ, d.h. Φ(x) = (−∞,x] ϕ(y) dy. Bemerkung 12.4 Die Zufallsvariable f sei nach N (0, 1) verteilt. Dann gilt: 1. E(f ) = 0, 2. σ 2 (f ) = 1. Beweis: 1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R. ” 2.“ Es gilt: ” Z ∞ x2 ϕ(x) dx −∞ 2 Z ∞ x 1 √ x x exp − = dx 2 2π −∞ 2 ∞ 1 x =part. Int. √ x − exp − 2 2π −∞ Z ∞ x2 1 1 − exp − dx −√ 2 2π −∞ Z ∞ ϕ(x) dx = −∞ = 1. 2 Satz 12.5 Die Zufallsvariable f sei N (0, 1)–verteilt; σ > 0, µ ∈ R. Dann besitzt die Zufallsvariable g := σf + µ die Dichte 1 x−µ ϕ(µ,σ2 ) (x) := ϕ σ σ 1 (x − µ)2 = √ , x ∈ R. exp − 2σ 2 2πσ Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz σ 2 , i.Z. N (µ, σ 2 ), (denn E(g) = E(σf + µ) = µ, σ 2 (g) = E((g − µ)2 ) = E((σf )2 ) = σ 2 E(f 2 ) = σ 2 ). 7 S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim. 88 Beweis: S. Übungen. 2 Satz 12.6 (Faltungsth. der Normalverteilung) f1 , . . . , fn seien unabhängige Zufallsvariablen mit P ∗ fi = N (µi , σi2 ), i = 1, . . . , n. Dann gilt: P ∗ (f1 + · · · + fn ) = N (µ1 + · · · + µn , σ12 + · · · + σn2 ). Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für x, a, b ∈ R und σ 2 , τ 2 > 0: (x − a)2 (x − b)2 + σ2 τ2 2 (a − b)2 (x − c) + = %2 σ2 + τ 2 (2) mit aτ 2 + bσ 2 σ2τ 2 2 , % := . σ2 + τ 2 σ2 + τ 2 Ferner besitzt f1 + f2 nach 12.2 die Dichte Z ∞ ϕ(µ1 ,σ12 ) (y − x)ϕ(µ2 ,σ22 ) (x) dx h(y) = −∞ Z ∞ (y − x − µ1 )2 1 exp − = 2πσ1 σ2 −∞ 2σ12 (x − µ2 )2 × exp − dx 2σ22 Z ∞ 1 (x − c)2 =(2) exp − 2πσ1 σ2 −∞ 2%2 (y − µ1 − µ2 )2 dx × exp − 2(σ12 + σ22 ) (y − µ1 − µ2 )2 = const exp − 2(σ12 + σ22 ) = ϕ(µ1 +µ2 ,σ12 +σ22 ) (y). c := 2 Definition 12.7 f, fn , n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit Verteilungsfunktionen F, Fn , n ∈ N. fn , n ∈ N, heißt in Verteilung oder schwach konvergent gegen f , falls Fn (t) →n∈N F (t) für alle Stetigkeitsstellen von F , d.h. P ({fn ≤ t}) →n∈N P ({f ≤ t}), falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z. fn →D f (in distribution). 89 Beispiel 12.8 Es gelte P ∗ fn = δ1/n , n ∈ N, wobei δx0 das Dirac–Maß (Ein– Punkt–Maß) im Punkt x0 bezeichne, d.h. δx0 (B) = 1B (x0 ) = 1, falls x0 ∈ B, und 0 sonst, B ∈ B. Offenbar gilt: 1, t ≥ 1/n Fn (t) = 0, t < 1/n. Dann gilt: fn →D f mit Verteilungsfunktion F (t) = 1[0,∞) (t) = Fδ0 , denn offenbar gilt Fn (t) →n∈N F (t), t 6= 0, aber 0 = Fn (0), F (0) = 1. Die Verteilungskonvergenz einer Folge fn , n ∈ N, ist eine Aussage über die Verteilungen von fn . Sie ist daher von anderem Charakter als die fast sichere Konvergenz oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischer Verteilung beliebig unterscheiden können. Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnung schwache Konvergenz“ rechtfertigt. ” P Satz 12.9 fn → f ⇒ fn →D f . Beweis: ∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : P ({|f − fn | > ε}) < ε. Wegen {f ≤ x − ε} ⊂ {fn ≤ x} ∪ {|fn − f | > ε}, {fn ≤ x} ⊂ {f ≤ x + ε} ∪ {|fn − f | > ε} gilt für alle n ≥ n0 Ff (x − ε) ≤ Ffn (x) + ε, Ffn (x) ≤ Ff (x + ε) + ε, also Ff (x − ε) − ε ≤ Ffn (x) ≤ Ff (x + ε) + ε, d.h. Ffn (x) →n∈N Ff (x) für alle Stetigkeitsstellen von Ff . 2 Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω, fn (ω) := ω(−1)n , n ∈ N, f (ω) := ω. Dann gilt: 1. fn →D f (denn P ∗ fn = P ∗ f für alle n ∈ N), P 2. fn → 6 f (denn P ({|fn − f | > 1}) = 1 für alle ungeraden n). 90 Definition 12.11 Setze K∞ := Menge der beliebig oft differenzierbaren Funktionen ψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß. Satz 12.12 Für Zufallsvariablen f, fn , n ∈ N, gilt: fn →D f ⇔ E(ψ(fn )) →n∈N E(ψ(f )) für alle ψ ∈ K∞ . Beweis: ⇒“ Sei ψ ∈ K∞ . Wähle a, b so, dass ” {x ∈ R : ψ(x) 6= 0} ⊂ I := (a, b] mit a, b 6∈ U := {x ∈ R : x Unstetigkeitsstelle von Ff }. U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen der gleichmäßigen Stetigkeit von ψ auf [a, b] existiert zu ε > 0 eine P a I Treppenfunktion e = m i=1 i (ti−1 ,ti ] mit a = t0 < t1 < · · · < tm = b, ti 6∈ U , i = 0, 1, . . . , m, so dass sup |ψ(x) − e(x)| < ε. x∈I Somit gilt: |E(ψ(fn )) − E(e(fn ))| ≤ E(|ψ(fn ) − e(fn )|) ≤ ε und ebenso |E(ψ(f )) − E(e(f ))| ≤ E(|ψ(f ) − e(f )|) ≤ ε. Für e gilt nun: E(e(fn )) = = m X i=1 m X ai P ({fn ∈ (ti−1 , ti ]}) ai (Ffn (ti ) − Ffn (ti−1 )) i=1 →n∈N m X ai (Ff (ti ) − Ff (ti−1 )) i=1 = E(e(f )). Wir erhalten also insgesamt: lim sup |E(ψ(fn )) − E(ψ(f ))| n∈N = lim sup |E(ψ(fn )) − E(e(fn )) n∈N +E(e(fn )) − E(e(f )) + E(e(f )) − E(ψ(f ))| ≤ 2ε. Hieraus folgt die Behauptung. 91 ⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstel” len von Ff sind, so existieren ein abgeschlossenes Intervall A und ein offenes Intervall O mit A ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ O und (P ∗ f )(O\A) < ε. Ferner existieren8 ψ, ξ ∈ K∞ mit 1A ≤ ψ ≤ 1I ≤ ξ ≤ 1O . Damit folgt: (P ∗ fn )(A) = ≤ ≤ ≤ ≤ E(1A (fn )) E(ψ(fn )) (P ∗ fn )(I) E(ξ(fn )) (P ∗ fn )(O) (P ∗ f )(A) = ≤ ≤ ≤ ≤ E(1A (f )) E(ψ(f )) (P ∗ f )(I) E(ξ(f )) (P ∗ f )(O). sowie Es folgt aus (P ∗ f )(O) − (P ∗ f )(A) < ε: lim sup |(P ∗ fn )(I) − (P ∗ f )(I)| < ε. n∈N Da ε > 0 beliebig war, folgt: (P ∗ fn )(I) →n∈N (P ∗ f )(I). Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion Ff von P ∗ f . Ferner seien x = x1 > x2 > . . . Stetigkeitsstellen von Ff mit [ (−∞, x] = (xk+1 , xk ]. k∈N Dann gilt mit Qn := P ∗ f , Q := P ∗ fn und Ik := (xk+1 , xk ]: X Qn ((−∞, x]) = Qn (Ik ) k∈N ≥ X Qn (Ik ) k≤K 8 S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin. 92 für ein beliebiges K ∈ N und damit lim inf Qn ((−∞, x]) ≥ n∈N X Q(Ik ), k≤K d.h. lim inf Qn ((−∞, x]) ≥ n∈N X Q(Ik ) = Q((−∞, x]). k∈N Andererseits folgt mit diesen Argumenten lim sup Qn ((−∞, x]) n∈N = lim sup Qn (1 − (x, ∞)) n∈N = 1 − lim inf Qn ((x, ∞)) n∈N ≤ 1 − Q((x, ∞)) = Q((−∞, x]) und somit insgesamt lim Qn ((−∞, x]) = Q((−∞, x]). n∈N 2 Lemma 12.13 f1 , f2 , f3 seien Zufallsvariablen, f3 sei von f1 und von f2 unabhängig. Dann gilt für alle stetigen und beschränkten Funktionen ψ : R → R: E (ψ(f1 + f3 ) − ψ(f2 + f3 )) ≤ sup |E(ψ(f1 + q) − ψ(f2 + q))|. q∈Q Beweis: Es gilt: E (ψ(f1 + f3 ) − ψ(f2 + f3 )) Z =Fubini E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3 )(dx) Z ≤ E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3 )(dx) ≤ sup |E(ψ(f1 + x) − ψ(f2 + x))| = sup |E(ψ(f1 + q) − ψ(f2 + q))|. x∈R q∈Q 2 93 Satz 12.14 (Zentraler Grenzwertsatz) fn , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt mit µ := E(f1 ), σ 2 := σ 2 (f1 ) für t ∈ R: ( )! n 1 X fi − µ √ P ≤t n i=1 σ 2 Z t x 1 exp − dx →n∈N Φ(t) := √ 2 2π −∞ ! n 1 X fi − µ √ →D f, P ∗ f = N (0, 1). n i=1 σ ⇔ Beweis: 1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu f˜n := (fn − µ)/σ, n ∈ N. 2. fn∗ , n ∈ N, sei eine Folge unabhängiger, N (0, 1)–verteilter Zufallsvariablen. Für diese Folge gilt bereits nach 12.6 ∗ f1 + · · · + fn∗ √ P∗ = N (0, 1), n d.h. ( P )! n 1 X ∗ √ f ≤t = Φ(t), n i=1 i t ∈ R, n ∈ N, und damit E(ψ(Tn∗ )) = E(ψ(f )) für alle ψ ∈ K∞ , wobei Tn∗ := f1∗ + · · · + fn∗ √ n und f eine nach N (0, 1)–verteilte Zufallsvariable ist. √ Zu zeigen ist nun nach 12.12 mit Tn := (f1 + · · · + fn )/ n: E(ψ(Tn )) →n∈N E(ψ(f )) für alle ψ ∈ K∞ , d.h. E(ψ(Tn ) − ψ(Tn∗ )) →n∈N 0 für alle ψ ∈ K∞ . 3. Da die Behauptung lediglich die Verteilung der fi , i ∈ N, betrifft, können wir annehmen, dass die fi und die fi∗ auf demselben Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind und sämtlich voneinander unabhängig sind. Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K∞ ψ(x + u) = ψ(u) + ψ 0 (u)x + ψ 00 (u + ϑx,u x) = ψ(u) + ψ 0 (u)x + ψ 00 (u) 94 x2 2 x2 + r(x, u)x2 , 2 wobei 0 < ϑx,u < 1 und r(x, u) := (ψ 00 (u + ϑx,u x) − ψ 00 (u))/2. Da die Funktion ψ 00 stetig ist und ψ 00 (x) = 0 für |x| hinreichend groß (d.h. ψ 00 besitzt einen kompakten Träger), ist ψ 00 beschränkt und gleichmäßig stetig, d.h. es gilt sup |r(x, u)| < ∞ und sup |r(x, u)| →x→0 0. x,u u 4. Es gilt: ψ(Tn ) − ψ(Tn∗ ) ∗ f1 + · · · + fn∗ f1 + · · · + fn √ √ −ψ = ψ n n n ∗ X f1 + · · · + fi + fi+1 + · · · + fn∗ √ = ψ n i=1 f1 + · · · + fi−1 + fi∗ + · · · + fn∗ √ −ψ n n X fi fi∗ = ψ √ + Ui − ψ √ + Ui , n n i=1 wobei ∗ f1 + · · · + fi−1 + fi+1 + · · · + fn∗ √ Ui := n √ √ ∗ von fi / n und fi / n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt daher |E(ψ(Tn ) − ψ(Tn∗ ))| ∗ n X f f i i E ψ √ + Ui − ψ √ + Ui ≤ n n i=1 ∗ n X fi fi ≤ sup E ψ √ + q − ψ √ + q n n q∈Q i=1 ∗ f1 f1 . = n sup E ψ √ + q − ψ √ + q n n q∈Q Nach 3. gilt f1 ψ √ +q n 2 f1 f12 f1 f1 00 = ψ(q) + ψ (q) √ + ψ (q) + r √ , q , 2n n n n ∗ f1 ψ √ +q n ∗ ∗2 f1∗ f1∗2 f f1 0 00 = ψ(q) + ψ (q) √ + ψ (q) + r √1 , q . 2n n n n 0 95 Wegen E(f1 ) = E(f1∗ ) = 0 und E(f12 ) = E(f1∗2 ) = 1 folgt damit: |E(ψ(Tn ) − ψ(Tn∗ ))| 2 ∗ f1 f1 f f1∗2 ≤ n sup E r √ ,q − r √1 , q n n n n q∈Q f1 2 ≤ E f1 sup r √ , q n q∈Q ∗ f ∗2 +E f1 sup r √1 , q n q∈Q →n∈N 0 nach 3. und dem Satz von der dominierten Konvergenz. 2 Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli führen zu der folgenden Verschärfung des obigen Satzes. Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt: )! ( n 1 X fi − µ √ ≤t − Φ(t) →n∈N 0. sup P n i=1 σ t∈R Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen fi , i ∈ N, seien unabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit Sn := P n i=1 fi für −∞ ≤ t1 ≤ t2 ≤ ∞ : ( )! Sn − np P t1 ≤ p ≤ t2 np(1 − p) 2 Z t2 1 x →n∈N √ exp − dx, 2 2π t1 bzw. max B(n, p)({k1 , k1 + 1, . . . , k2 }) k1 ,k2 ∈{0,...,n} np(1−p) 2 Z 1 x − √ exp − dx 2 2π √k1 −np np(1−p) √k2 −np →n∈N 0. 96 Beweis: Es gilt E(fi ) = p, σ 2 (fi ) = p − p2 = p(1 − p). Die erste Behauptung folgt nun unmittelbar aus dem Zentralen Grenzwertsatz. p p Ferner gilt mit t1 = (k1 − np)/( np(1 − p), t2 = (k2 − np)/( np(1 − p): ( )! Sn − np P t1 ≤ p ≤ t2 np(1 − p) = P ({k1 ≤ Sn ≤ k2 }) = B(n, p)({k1 , k1 + 1, . . . , k2 }), s. Übungen. Die zweite Behauptung folgt damit aus 12.15. 2 Es ist also nach dem Satz von Moivre–Laplace möglich, die Wahrscheinlichkeit B(n, p)({k1 , k1 +1, . . . , k2 }), deren exakte Berechnung auf die Summation unhandlicher Ausdrücke nk pk (1 − p)n−k hinausläuft, näherungsweise mittels der Verteilungsfunktion Φ zu berechnen, wenn n groß ist. Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen den beiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000 Wähler unterwerfen sich der Parteidisziplin und stimmen geschlossen für Kandidat A. Die übrigen 998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeit pA für einen Sieg von A? Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der 998000 unentschlossenen Wähler erhält. Die Anzahl f der A–Stimmen dieser Wähler ist B(998000, 1/2)–verteilt. Es folgt: pA = P ({f > 498000}) f − 998000 1 1 498000 − 998000 2 2 q > = P q 998000 1 1 11 998000 2 2 22 f − 998000 1 2 q ≈ P > −2, 002 998000 1 1 22 ≈ 1 − Φ(−2, 002) = Φ(2, 002) ≈ 0, 977. 97 (Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt: f − 998000 1 2 1 − pA ≈ P q ≤ −2, 002 998000 1 1 22 f − 998000 1 2 q ≥ 2, 002 ≤ P 998000 1 1 22 1 2, 0022 1 ≈ 4 3 ≥ ⇒ pA ∼ .) 4 ≤ 2 Beispiel 12.18 Es gilt: lim exp(−n) n∈N n X ni i=0 ! i! 1 = . 2 Beweis: f1 , f2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den Parametern λ1 bzw. λ2 > 0, d.h. es gilt für i = 1, 2: λki P ({fi = k}) = exp(−λi ) , k! k = 0, 1, . . . Dann ist f1 + f2 Poisson–verteilt zum Parameter λ1 + λ2 : P ({f1 + f2 = k}) ∞ X = P ({f1 + f2 = k, f1 = i}) = = i=0 k X i=0 k X i=0 k X P ({f2 = k − i, f1 = i}) P ({f2 = k − i})P ({f1 = i}) λk−i λi 2 exp(−λ1 ) 1 (k − i)! i! i=0 k 1 X k i k−i = exp(−(λ1 + λ2 )) λλ k! i=0 i 1 2 = exp(−λ2 ) = exp(−(λ1 + λ2 )) (λ1 + λ2 )k , k! Ferner gilt E(f1 ) = λ1 , σ 2 (f1 ) = λ1 . 98 k = 0, 1, . . . Es sei nun fi , i ∈ N, eine Folge unabhängiger, identisch zum Parameter 1 Poisson–verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz: )! ( n 1 1 X √ (fi − 1) ≤ 0 →n∈N Φ(0) = . P 2 n i=1 Andererseits gilt: )! n 1 X √ (fi − 1) ≤ 0 P n i=1 ( n )! X = P fi ≤ n ( i=1 = exp(−n) n X ni i=0 da Pn i=0 i! , fi Poisson–verteilt ist zum Parameter n. 2 Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit beim Zentralen Grenzwertsatz. Satz 12.19 (Berry–Esseen) Es seien f1 , f2 , . . . unabhängige und identisch verteilte Zufallsvariablen. Ist 0 < σ 2 :=Var(f1 ) < ∞, γ := E(|f1 − µ|3 ) < ∞ mit µ := E(f1 ), so gilt: ( )! n X 1 f − µ i √ sup P ≤x − Φ(x) σ n x∈R i=1 γ 1 ≤ 0, 8 3 √ . σ n Beweis: S. Gänssler, P. und Stute, W. (1977). 2 Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog. Konfidenzintervallen (Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, fn , n ∈ N, ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen mit bekannter Varianz σ 2 , aber unbekanntem Mittelwert µ, der geschätzt Pn werden soll. −1 Mit dem arithmetischen Mittel µ̂n := n i=1 fi erhalten wir eine Punktschätzung für µ. Allerdings wird µ̂n um den wahren Wert µ (zufällig) schwanken. Es erscheint daher vernünftig, zusätzlich zur Punktschätzung µ̂n ein Intervall In := [µ̂n − c, µ̂n + c] (mit dem Mittelpunkt µ̂n ) anzugeben, von dem man weiß, dass es den unbekannten Mittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine Bereichsschätzung von µ. Problem: Wie soll c > 0 gewählt werden? 99 Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für µ zu erhalten. Andererseits darf c nicht zu klein gewählt werden, da In den Wert µ mit hoher Wahrscheinlichkeit enthalten soll. Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt: Wir wissen, dass für t ≥ 0 gilt: )! ( n 1 X fi − µ ≤t P −t ≤ √ n i=1 σ →n∈N Φ(t) − Φ(−t) = 2Φ(t) − 1, wobei ( )! n 1 X fi − µ P −t ≤ √ ≤t n i=1 σ tσ tσ = P µ̂n − √ ≤ µ ≤ µ̂n + √ n n tσ tσ = P µ ∈ µ̂n − √ , µ̂n + √ . n n Wählen wir also tσ c := cn := √ n (→n∈N 0!), so erhalten wir P ({µ ∈ In }) →n∈N 2Φ(t) − 1. Dabei wählen wir nun t > 0 so, dass 2Φ(t)−1 gleich der (hohen) vorgegebenen Wahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in In liegen soll. Ein typischer Wert wäre 1 − α = 0, 95. Es soll also gelten: α −1 , 2Φ(t) − 1 = 1 − α ⇔ t = Φ 1− 2 d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. uα/2 . Damit erhalten wir uα/2 σ uα/2 σ P µ ∈ µ̂n − √ , µ̂n + √ →n∈N 1 − α n n und uα/2 σ uα/2 σ In (α) := µ̂n − √ , µ̂n + √ n n heißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α. Beachte, dass, wenn P ∗ fi = N (µ, σ 2 ), d.h. fi selbst normalverteilt, i = 1, 2, . . . , aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt: P (µ ∈ In (α)) = 1 − α. 100 Literatur [1] Georgii, H.–G. (2002). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. De Gruyter, Berlin. [2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer, Heidelberg. [3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik. 6. Auflage. Vieweg, Braunschweig. [4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg. 101