Stochastik I Lehrstuhl für Mathematische Statistik Universität Würzburg Prof. Dr. Michael Falk Inhaltsverzeichnis 1 Das Kolmogoroffsche Axiomensystem 1 2 5 Erste Folgerungen aus dem Axiomensystem 3 Grundlagen der Kombinatorik 22 4 Vermischte Aufgaben 33 5 Bedingte Wahrscheinlichkeiten 40 6 Unabhängigkeit 57 7 Zufallsvariablen 86 8 Integrationstheorie 114 9 Verteilungen und ihre Charakterisierungen 160 10 Momente 191 11 Gesetze der großen Zahlen 210 12 Der Zentrale Grenzwertsatz 253 2 1 Das Kolmogoroffsche Axiomensystem [A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbau der Geometrie die Grundbegriffe Punkt“ und Gerade“ nicht explizit definiert, sondern ” ” axiomatisch eingeführt. 1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was mit den Grundbegriffen gemeint ist, um die Theorie später anwenden zu können ( Ein Punkt ” ist, was keinen Teil hat“, Eine Gerade ist eine Linie, die gleich liegt mit den ” Punkten auf ihr selbst“ (Euklid)). Die vage Vorstellung wird dann im Verlauf der Beschäftigung mit der Theorie zwangsläufig immer präziser. 2. Man beschreibt mittels Axiomen“, welche Beziehungen zwischen den Grundbegrif” fen bestehen. Analog gehen wir nun bei der Axiomatisierung der Stochastik vor. Im ersten Axiom fordern wir die Existenz von Wahrscheinlichkeiten. Axiom 1’ Ist Ω die Menge der möglichen Ergebnisse eines Experimentes (d.h. genau ein ω ∈ Ω tritt bei der Durchführung des Experimentes ein), so ist jeder Teilmenge A ⊂ Ω eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit angibt, mit dem A eintritt. Axiom 2 P (Ω) = 1. Axiom 3 (σ–AdditivitätS von P ) FürPeine Folge A1, A2, . . . paarweise disjunkter Teilmengen von Ω gilt: P ( n∈N An) = n∈N P (An). Das System 1’,2,3 ist zu einschränkend, wie der folgende Satz zeigt. Satz (G. Vitali 1905) Es existiert kein P zu Ω = [0, 1), welches die Axiome 1’,2 und 3 erfüllt und zusätzlich translationsinvariant ist, d.h. P (Ac) = P (A) für Ac := {a + c (mod 1) : a ∈ A}, c ≥ 0. Beweis: Siehe Übungen. 2 2 Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten Potenzmenge P(Ω) = {A : A ⊂ Ω} definiert wird. Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so ist einigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt, eine reelle Zahl P (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheit angibt, mit dem A eintritt. Ω ist ein Ereignis. Das Komplement Ac = Ω\A eines Ereignisses A ist ein Ereignis. Der Durchschnitt von zwei Ereignissen ist ein Ereignis. Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein Ereignis. Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmenge von Ω) σ–Algebra über Ω:⇔ 3 1. Ω ∈ A, 2. A ∈ A ⇒ Ac ∈ A, 3. A, B ∈ A ⇒ A ∩ B ∈ A 4. Ai ∈ A, i ∈ N, Ai ∩ Aj = ∅ für i 6= j ⇒ S i∈N Ai ∈ A. Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über nichtleerer Menge Ω. Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R+ = [0, ∞), die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das Tripel (Ω, A, P ) heißt in diesem Fall Wahrscheinlichkeitsraum. 4 2 Erste Folgerungen aus dem Axiomensystem Satz 2.1 (Ω, A) messbarer Raum, An ∈ A, n ∈ N. Dann gilt: S (i) n∈N An ∈ A, T (ii) n∈N An ∈ A, (iii) lim sup An := {ω ∈ Ω : ω liegt in ∞ vielen An} n∈N = ∞ [ \ m=1 n≥m 5 An ∈ A, (iv) lim inf An := {ω ∈ Ω : ω liegt in fast allen An} n∈N = ∞ \ [ An ∈ A, m=1 n≥m Beweis: (i) Setze B1 := A1, Bn := An\(A1 ∪ . S . . ∪ An−1) =SAn ∩ Ac1 ∩ . . . ∩ Acn−1 ∈ A. Bn, n ∈ N, sind paarweise disjunkt mit n∈N An = n∈N Bn ∈ A. (ii) \ n∈N An = \ An c c = [ Acn c ∈ A. n∈N n∈N (iii) und (iv) folgen unmittelbar aus (i), (ii). 6 2 Korollar 2.2 Ω 6= ∅, A ⊂ P(Ω). Dann: A ist σ–Algebra ⇔ (i) Ω ∈ A, (ii) A ∈ A ⇒ Ac ∈ A, (iii) An ∈ A, n ∈ N ⇒ S n∈N An ∈ A. Satz 2.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum. Dann gilt: (i) P (∅) = 0, (ii) P (A1 ∪ . . . ∪ An) = Pn i=1 P (Ai ), falls A1, . . . , An paarweise disjunkt, (iii) 0 ≤ P (A) ≤ 1 stets, (iv) A ⊂ B (∈ A) ⇒ P (A) ≤ P (B) (Monotonie von P ), (v) P (Ac) = 1 − P (A). 7 Beweis: (i) ∅ = ∅ ∪ ∅ ∪ ... ⇒ P (∅) = P (∅) + P (∅) + . . . ⇒ P (∅) = 0. (ii) Wegen P (∅) = 0 gilt: P (A1 ∪ . . . ∪ An) = P (A1 ∪ . . . ∪ An ∪ ∅ ∪ . . .) = P (A1) + . . . + P (An) + 0 + . . . (v) Ω = A ∪ Ac ⇒ 1 = P (Ω) = P (A) + P (Ac) ⇒ P (Ac) = 1 − P (A). 8 (iii) Folgt unmittelbar aus (v): 0 ≤ P (A) = 1 − P (Ac) ≤ 1. | {z } ≥0 (iv) ⇒(ii) B = A ∪ (B\A) = A ∪ (B ∩ Ac) P (B) = P (A) + P (B\A) ≥ P (A). 2 Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A1, . . . , An ∈ A. |M | bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M ). 9 Satz 2.4 (Allgemeiner Additionssatz) ! X P (A1 ∪ . . . ∪ An) = = (−1)|T |−1P ∅6=T ⊂{1,...,n} n X k−1 (−1) \ Ai i∈T Sk k=1 mit Sk := X P A i1 ∩ A i2 ∩ · · · ∩ A ik . 1≤i1 <i2 <...<ik ≤n Beispiel: Im Fall n = 2 ergibt sich P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2). 10 Im Fall n = 3 ergibt sich P (A1 ∪ A2 ∪ A3) = P (A1) + P (A2) + P (A3) −P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3) +P (A1 ∩ A2 ∩ A3). Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen. 11 Der Fall n = 2: A1 ∪ A2 = A1 + (A2\A1), A2 = (A2 ∩ A1) + (A2\A1) ⇒ P (A1 ∪ A2) = P (A1) + P (A2\A1), P (A2) = P (A2 ∩ A1) + P (A2\A1) ⇒ P (A1 ∪ A2) − P (A1) = P (A2) − P (A2 ∩ A1) ⇒ Behauptung für den Fall n = 2. 12 Der Induktionsschritt n → n + 1: P ((A1 ∪ . . . ∪ An) ∪ An+1) = P ((A1 ∪ . . . ∪ An)) + P (An+1) −P ((A1 ∩ An+1) ∪ (A2 ∩ An+1) ∪ . . . ∪(An ∩ An+1)) ! X \ |T |−1 Ai + P (An+1) = (−1) P i∈T ∅6=T ⊂{1,...,n} ! − X (−1) |T |−1 \ P Ai ∩ An+1 i∈T ∅6=T ⊂{1,...,n} ! X = (−1) |T |−1 \ P Ai + P (An+1) i∈T ∅6=T ⊂{1,...,n+1}, n+16∈T ! X + (−1) 13 |T |−1 i∈T T ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}6=∅ ! = X (−1) |T |−1 P \ P \ Ai . Ai 2 Satz 2.5 Sei Bk das Ereignis, dass genau k der Ereignisse A1, . . . , An eintreten, d.h. ω ∈ Bk ⇔ ω ∈ Ai für genau k der Indizes i = 1, . . . , n. Dann gilt: ! X \ |U | |U |−k P (Bk ) = (−1) P Ai k i∈U U ⊂{1,...,n}, |U |≥k n X m = (−1)m−k Sm, k m=k Sm wie in Satz 2.4, S0 := 1. c Bemerkung B0 = (A1∪. . .∪An) ⇒ P (B0) = 1−P (∪1≤i≤nAi) =2.4 14 Pn m (−1) Sm . m=0 Beweis: ! Bk = X \ S⊂{1,...,n}, |S|=k i∈S 15 Ai !! ∩ \ i∈S c Aci , (disjunkte Zerlegung von Bk ). Es folgt: P (Bk ) ! X \ = P Ai ∩ !! \ i∈S c !c i∈S S⊂{1,...,n}, |S|=k ( X = \ 1−P Ai ∪ ( X !c! " 1− P \ Ai i∈S S⊂{1,...,n}, |S|=k ! + X (−1) |T |−1 ∅6=T ⊂S c P \ Ai i∈T c [ \ Aj 16 ∩ Ai −P c i∈S j∈S !!) [ i∈S c i∈S S⊂{1,...,n}, |S|=k =2.4 Aci Ai ( X = S⊂{1,...,n}, |S|=k P ! \ Ai i∈S X − (−1)|T |−1P c \ Ai i∈T ∅6=T ⊂S | {z } =C c \ X \ |T |−1 Aj ∩ Ai − (−1) P ; j∈S i∈T ∅6=T ⊂S c | {z } | {z } =Dc =C wegen P (C) − P (Dc ∩ C) = P (C ∩ D) folgt 17 ( = X P S⊂{1,...,n}, |S|=k ! \ Ai i∈S ! \ X \ Ai − (−1)|T |−1P Aj ∩ c i∈T j∈S ∅6=T ⊂S | {z } T = i∈S∪T Ai ! X X \ |T | = (−1) P Ai S⊂{1,...,n}, |S|=k T ⊂S c i∈S∪T ! = X X (−1) S⊂{1,...,n}, |S|=k U ⊃S, U ⊂{1,...,n} 18 |U |−k P \ i∈U Ai . |U |−k T Der Summand (−1) P i tritt hierbei so oft auf, wie es k–elementige i∈U A Teilmengen S von U gibt, also |Uk | –mal. Hieraus folgt der erste Teil der Behauptung sowie ! n X X m \ m−k = (−1) P Ai . k i∈U m=k U ⊂{1,...,n}, |U |=m | {z } =Sm 2 Satz 2.6 Sei Ck das Ereignis, dass mindestens k der Ereignisse A1, . . . , An eintreten. Dann gilt: n X m−1 P (Ck ) = (−1)m−k Sm. k−1 m=k 19 Beweis: P (Ck ) = n X P (Bj ) j=k n X n X m (−1)m−j Sm =2.5 j j=k m=j n m X X m = (−1)m−j Sm. j m=k j=k 20 n k n−1 k n−1 k−1 Für die innere Summe folgt aus der Beziehung = + m m m − + − ... m m −1 m − 2 m +(−1)m−k k m−1 m−1 m−1 = + − m m−1 m−1 | {z } | {z } =0 =0 m−1 m−k m − 1 + . . . + (−1) − m−2 k | {z } =0 m − 1 +(−1)m−k 1 k − m−1 . = (−1)m−k 21 k−1 : 2 Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1). Bemerkung Zur Geschichte der Stochastik: Briefwechsel (1654) zwischen P. Fermat und B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische Entwicklung (A.N. Kolmogoroff (1933)−→ . . .) 3 Grundlagen der Kombinatorik Definition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔ |Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse mit der gleichen Wahrscheinlichkeit. 22 Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt: |A| P (A) = |Ω| Anzahl der für A günstigen Ausgänge = . Anzahl aller möglichen Ausgänge Satz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche Mengen A1, A2 gilt: |A1 + A2| = |A1| + |A2|. Korollar Für disjunkte endliche Mengen A1, . . . , Ak gilt: |A1 ∪ . . . ∪ Ak | = |A1| + . . . + |Ak |. 23 Satz 3.4 (Multiplikationssatz der Kombinatorik) A1 sei eine Menge der Mächtigkeit n1 ∈ Z+ = N ∪ {0}, B2 eine beliebige Menge und n2 ∈ Z+. Jedem a1 ∈ A1 sei genau eine n2–elementige Teilmenge B(a1) ⊂ B2 zugeordnet, und es sei A2 := {(a1, a2) : a1 ∈ A1, a2 ∈ B(a1)}. Dann gilt: |A2| = n1n2. Beweis: Folgt aus 3.3. 2 Korollar 3.5 |A1| = n1 ∈ Z+, B1, . . . , Bn seien beliebige Mengen und n2, . . . , nk ∈ Z+. Für i = 1, . . . , k − 1 sei jedem i–Tupel (a1, . . . , ai) ∈ Ai eine ni+1–elementige Teilmenge B(a1, . . . , ai) ⊂ Bi+1 zugeordnet, und es sei Ai+1 := {(a1, . . . , ai, ai+1) : (a1, . . . , ai) ∈ Ai, ai+1 ∈ B(a1, . . . , ai)}, 24 (Definition durch Induktion (Rekursion)). Dann gilt: |Ak | = n1n2 . . . nk . Korollar |A1 × A2 × . . . × Ak | = n1n2 · · · nk , falls |Ai| = ni, i = 1, . . . , k. k | = |A |= Obiges Korollar ergibt speziell für Ai = A, i = 1, . . . , k: | A × . . . × A {z } | k mal k |A| . Die Menge Ak aller k–Tupel von Elementen aus A heißt geordnete Probe zu A vom Umfang k mit Wiederholung. Satz 3.6 Es gibt nk geordnete Proben zu einer n–elementigen Menge vom Umfang k mit Wiederholung. A Beispiel A, B endliche Mengen, B := Menge aller Abbildungen von A nach B. A Dann: B = |B||A|. 25 Korollar 3.7 Eine n–elementige Teilmenge besitzt 2n verschiedene Teilmengen. Beweis: A sei eine n–elementige Menge, dann: |{0, 1}A| = 2|A|; |Menge aller Abbildungen von A → {0, 1}| = |P(A)|. 2 Ein k–Tupel (a1, . . . , ak ) ∈ Ak mit ai 6= aj für j 6= i heißt geordnete Probe aus A vom Umfang k ohne Wiederholung. Satz 3.8 Zu einer n–elementigen Menge gibt es (n)k := n(n − 1) · · · (n − k + 1) geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung. Beweis: Für eine geordnete Probe (a1, . . . , ak ) vom Umfang k ohne Wiederholung gilt: a1 ∈ A, a2 ∈ A\{a1}, a3 ∈ A\{a1, a2}, . . . , ak ∈ A\{a1, . . . , ak−1}. Aus dem Multiplikationsprinzip, genauer 3.5, folgt nun die Behauptung. 2 26 Speziell für k = n erhalten wir Satz 3.9 n verschiedene Elemente können auf (n)n = n! verschiedene Arten angeordnet werden, d.h. es existieren n! Permutationen einer n–elementigen Menge. Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir, indem wir geordnete Proben, die sich nur in der Reihenfolge unterscheiden, identifizieren. Die ungeordneten Proben vom Umfang k ohne Wiederholung sind demnach einfach die k–elementigen Teilmengen von A. Satz 3.10 Eine n–elementige Menge besitzt n (n)k n! = = k k! k!(n − k)! verschiedene k–elementige Teilmengen. 27 Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht aus einer k–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeiten der Anordnung (3.9), also (3.8): (n)k = Anzahl der k–elementigen Teilmengen × k!. Hieraus folgt die Behauptung. 2 Korollar 3.11 (i) Es gibt nk Möglichkeiten, k unterscheidbare Kugeln auf n unterscheidbare Urnen zu verteilen. (ii) Es gibt (n)k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält. n (iii) Es gibt k Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass keine Urne mehr als eine Kugel enthält. 28 Satz 3.12 Es gibt k k! := k1, k2, . . . , kn k1!k2! · · · kn! Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen, dass genau ki Kugeln in die Urne Nummer i kommen (ki ≥ 0, i = 1, . . . , n; k1 + k2 + . . . + kn = k). Beweis: Es gibt k Möglichkeiten der k1 k1 k − k1 Möglichkeiten der k2 k2 .. .. 29 Kugeln für Urne 1 Kugeln für Urne 2 .. k − k1 − . . . − kn−2 kn−1 Möglichkeiten der kn−1 Kugeln für Urne n − 1. Ausmultiplikation liefert nun: Möglichkeiten insgesamt k k − k1 k − k1 − . . . − kn−2 = ··· k1 k2 kn−1 k! (k − k1)! = × × ... k1!(k − k1)! k2!(k − k1 − k2)! (k − k1 − . . . − kn−2)! × kn−1!(k − k1 − . . . − kn−1)! k! = . k1! · · · kn! 2 30 k k1 ,...,kn heißen Polynomialkoeffizienten. Wegen Bemerkung Die Größen n n k,n−k verallgemeinern sie die Binomialkoeffizienten k . Korollar 3.13 (a1 + . . . + an)k X = k1 ≥0,...,kn ≥0, k1 +...+kn =k k ak11 ak22 · · · aknn . k1, . . . , kn Korollar 3.14 (i) n X n k=0 k 31 = 2n. n k = (ii) r X n m m+n = . k r−k r k=0 (iii) n 2 X n k=0 k = 2n . n Beweis: (i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit der Teilmenge; 3.7 ⇒ Behauptung. m+n (ii) r = Anzahl der r–elementigen Teilmengen von {1, . . . , n, n + 1, . . . , m + n}. Die Anzahl der Möglichkeiten, hierbei k Elemente aus {1, . . . , n} und somit r − k m aus {n + 1, . . . , n + m} auszuwählen, ist nk r−k . 32 (iii) Folgt mit m = r = n aus (ii) wegen n 2 k = n k n n−k . 2 4 Vermischte Aufgaben Aufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang (5 Tage) jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass mindestens 1 Schüler mehrmals ausgewählt wird? Lösung: Laplace–Experiment mit Ω = {1, . . . , 20}5, |Ω| = 205; ungünstige Fälle: alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20)5. Also: gesuchte Wahrscheinlichkeit 205 − (20)5 = 205 20 × 19 × . . . × 16 = 1− = 0, 4186. 5 20 2 Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird eine Stichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s), dass in der Stichprobe genau s schlechte Nüsse sind, s = 0, 1, . . . , n? 34 . Lösung: {1, . . . , S} = Menge der schlechten Nüsse von {1, . . . , N }. Laplace–Experiment mit Ω = {A ⊂ {1, . . . , N } : |A| = n}, |Ω| = Nn . Dann: p(s) = = |A ∈ Ω mit |A ∩ {1, . . . , S}| = s| N n S N −S s n−s N n =: HN,S,n(s). HN,S,n heißt Hypergeometrische Verteilung zu den Parametern N , S, n (Qualitätskontrolle). 2 Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; Skat“ mit 2 Karten. Es ” 35 gibt vier Buben. (i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die Spieler B und C jeweils 1 Buben besitzen? 22 Lösung: Es gibt 10,10,2 mögliche Verteilungen der 22 Karten, die A nicht besitzt, auf B,C und den Skat. Diese sind gleich wahrscheinlich. Die Anzahl der günstigen 20 2 Möglichkeiten beträgt 9,9,2 × 1,1,0 . Also beträgt die gesuchte Wahrscheinlichkeit 20 2 100 9,9,2 × 1,1,0 . = 22 231 10,10,2 2 (ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben besitzt. 36 Lösung: 2× 2 20 × 2,0,0 8,10,2 22 10,10,2 90 = . 231 (iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen. Lösung: 2 20 1 10,10,0 × 0,0,2 = . 22 231 10,10,2 (iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt: Lösung: 20 2 2 × 9,10,1 × 1,0,1 40 = . 22 231 10,10,2 37 2 2 2 (v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In jeder Packung ist genau 1 von n möglichen Sammelmarken (etwa n = 11 Fußballspieler). Annahme: Laplace–Experiment, es gibt nk Möglichkeiten der Verteilung. Gesucht: Wahrscheinlichkeit pm, dass wenigstens m Sammelmarken fehlen. Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheidbaren Kugeln . . (= Packungen) auf n unterscheidbare Urnen (= Sammelmarken). |Ω| = nk . Ai := Menge aller Verteilungen, bei denen die i–te Urne leer ist. Für 1 ≤ i1 < . . . < ir ≤ n gilt: (n − r)k P Ai1 ∩ . . . ∩ Air = . k n 38 Es folgt mit der Bezeichnung von 2.4 X Sr = P A i1 ∩ . . . ∩ A ir 1≤i <...<i ≤n 1 r n (n − r)k = r nk und damit aus 2.6 pm = P (Cm) n X n (n − r)k r−m r − 1 . = (−1) k n m − 1 r r=m 2 39 5 Bedingte Wahrscheinlichkeiten (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Es sei bekannt, dass das Ereignis B eingetreten ist. Neues Experiment: Ergebnismenge Ω0 = B. Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist, dass B eingetreten ist, ist P (A ∩ B)/P (B). Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A mit P (B) > 0. Dann heißt P (A ∩ B) P (A|B) := PB (A) := P (B) bedingte Wahrscheinlichkeit von A unter (der Bedingung) B. 40 Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 Geschlechtskombinationen J − J, M − M , J − M und M − J gleich wahrscheinlich. Von einer Familie sei bekannt, dass wenigstens eines der Kinder ein Junge ist. Wie groß ist die Wahrscheinlichkeit, dass diese Familie sogar zwei Jungen hat? 41 . . Lösung: A1 := 1. Kind ist ein Junge, A2 := 2. Kind ist ein Junge. Damit: P (A1 ∩ A2|A1 ∪ A T2) P ((A1 ∩ A2) (A1 ∪ A2)) = P (A1 ∪ A2) P (A1 ∩ A2) = P (A1 ∪ A2) P (A1 ∩ A2) = P (A1) + P (A2) − P (A1 ∩ A2) = 1 2 1 4 1 2 + − 14 1 = . 3 2 42 Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die bedingte Wahrscheinlichkeit PB : A → R+ ist eine Wahrscheinlichkeit, d.h. PB erfüllt die Axiome 1,2,3. Beweis: Trivial, Axiome nachprüfen. 2 Satz 5.4 A1, . . . , An Ereignisse mit P (A1 ∩ . . . ∩ An−1) > 0. Dann: P (A1 ∩ . . . ∩ An) = P (A1)P (A2|A1)P (A3|A1 ∩ A2) × . . . ×P (An|A1 ∩ . . . ∩ An−1). Beweis: n = 2 : P (A1 ∩ A2) = P (A1)P (A2|A1); 43 n→n+1: P (A1 ∩ . . . ∩ An+1) = P (A1 ∩ . . . ∩ An)P (An+1|A1 ∩ . . . ∩ An) =Ind. V. P (A1)P (A2|A1) × · · · ×P (An+1|A1 ∩ . . . ∩ An). 2 Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werden zufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3 Figuren schwarz sind? 44 Lösung: Ai sei das Ereignis, dass die i–te Figur schwarz ist. Dann: P (A1 ∩ A2 ∩ A3) = P (A1)P (A2|A1)P (A3|A1 ∩ ! A2 ) 16 16 15 14 3 . × × = 32 = 32 31 30 3 2 Satz 5.6 (Totale Wahrscheinlichkeit) (Ω, A, P ) Wahrscheinlichkeitsraum, B1, . . . , Bn Pn seien disjunkte Ereignisse mit i=1 Bi = Ω, P (Bi) > 0, i = 1, . . . , n. Dann: P (A) = n X P (Bi)P (A|Bi), i=1 45 A ∈ A. Beweis: P (A) = P (Ω ∩ A) ! n X = P (Bi ∩ A) i=1 = = n X i=1 n X P (Bi ∩ A) P (Bi)P (A|Bi) i=1 2 Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8 schwarze Kugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln. 46 Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1, bei einer 1-4 wird aus Urne 2 gezogen. Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen? . Lösung: A = eine weiße Kugel wird gezogen, . B1 = 5 oder 6 beim Würfeln, . B2 = 1–4 beim Würfeln. Dann: P (A) = P (B1)P (A|B1) + P (B2)P (A|B2) 1 1 2 2 1 = × + × = . 3 5 3 5 3 2 Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz 5.6 gel47 te P (A) > 0. Dann gilt: P (Bi)P (A|Bi) P P (Bi|A) = n . P (B )P (A|B ) j j j=1 Beweis: P (A ∩ Bi) P (A) P (Bi)P (A|Bi) = Pn . j=1 P (Bj )P (A|Bj ) P (Bi|A) = 2 . Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A = Ziehen einer weißen Kugel, P (A) = 1/3. 48 Wie groß ist die Wahrscheinlichkeit von Bi, i = 1, 2, wenn bekannt ist, dass eine weiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit, dass eine weisse Kugel aus Urne i stammt? Lösung: P (B1)P (A|B1) P (B1|A) = P (B1)P (A|B1) + P (B2)P (A|B2) 1/3 × 1/5 1 = = 1/3 × 1/5 + 2/3 × 2/5 5 4 ⇒ P (B2|A) = . 5 P (Bi|A) heißt a posteriori Wahrscheinlichkeit von Bi, P (Bi) heißt a priori Wahrscheinlichkeit von Bi. 2 49 . Beispiel 5.10 (Überprüfung, ob radikal) R := Kandidat ist radikal, . B := Kandidat wird für radikal erklärt. Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h. P (B|R) = 0, 95; P (B c|Rc) = 0, 95. Es sei P (R) = 0, 005. Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat tatsächlich radikal ist? 50 Lösung: Gesucht: P (R ∩ B) P (B) P (R)P (B|R) = P (R)P (B|R) + P (Rc)P (B|Rc) 5/1000 × 95/100 = 5/1000 × 95/100 + 995/1000 × 5/100 95 = (!). 1090 P (R|B) = 2 Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 1 1 Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck, München, S. 199ff. 51 Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa 0,8% anzusiedeln. Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie Brustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens). Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist, wenn die Patientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate). Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und der Befund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich Brustkrebs hat? . . Lösung: B := Brustkrebserkrankung, M := Mammogramm ist positiv. Dann: 8 90 7 P (B) = , P (M | B) = , P (M | B c) = . 1000 100 100 52 Gesucht: P (B | M ) = = P (B)P (M | B) P (B)P (| B) + P (B c)P (M | B c) 8 90 1000 100 8 90 992 7 + 1000 100 1000 100 720 7664 9 ≈ (!). 100 = 2 Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln, W weiße und N − W schwarze. W sei unbekannt; alle N + 1 möglichen Mischungsverhältnisse besitzen die gleiche Wahrscheinlichkeit 1/(N + 1). 53 Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn die ersten n Kugeln weiß gewesen sind? . Lösung: Ai := nur weiße Kugeln unter den ersten i Ziehungen. Offenbar gilt A1 ⊃ A2 ⊃ . . . und gesucht ist P (An+1 ∩ An) P (An+1) P (An+1|An) = = . P (An) P (An) 54 Wir erhalten: P (An) = N X P {W = w}P (An|{W = w}) w=0 N X 1 = N +1 w=0 = 1 (N + 1) 1 × = N +1 1 . = n+1 w × Nn n N X N n w=n N +1 n+1 N n Behauptung: 55 w n N X w w=n n = N +1 n+1 N +1 . n+1 Denn: ist die Anzahl der Möglichkeiten, aus der Menge {1, 2, . . . , N + 1} eine n+1–elementige Teilmenge auszuwählen. Dabei gibt es wn Möglichkeiten, die Auswahl so zu treffen, dass w + 1 das größte der ausgewählten Elemente ist, w = n, . . . , N . Insgesamt erhalten wir somit: n+1 P (An+1|An) = n+2 unabhängig von N ! 2 56 6 Unabhängigkeit Gegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2. P (A|B) = P (A ∩ B) 1/6 1 = = = P (A), P (B) 2/6 2 d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen Fall keinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A. Definition 6.1 A, B Ereignisse mit P (B) > 0; dann: A unabhängig von B :⇔ P (A) = P (A|B). 57 Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann: A unabhängig von B ⇔ B unabhängig von A ⇔ P (A ∩ B) = P (A)P (B). Beweis: A unabhängig von B ⇔ P (A) = P (A ∩ B)/P (B) ⇔ P (B) = P (A ∩ B)/P (A) ⇔ P (A ∩ B) = P (A)P (B). 2 58 Definition 6.3 A, B beliebige Ereignisse, dann: A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B). Satz 6.4 A, B unabhängig, dann gilt: Ac, B sind unabhängig, A, B c sind unabhängig, Ac, B c sind unabhängig. Beweis: P (Ac ∩ B) = = = = P (B) − P (A ∩ B) P (B) − P (A)P (B) P (B)(1 − P (A)) P (B)P (Ac). 59 2 Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann gilt: A, B ∪ C sind unabhängig. Beweis: P (A ∩ (B ∪ C)) = = = = P ((A ∩ B) + (A ∩ C)) P (A ∩ B) + P (A ∩ C) P (A)P (B) + P (A)P (C) P (A)P (B ∪ C). 2 Bemerkung A, B, C paarweise unabhängig 6⇒ P (A ∩ B ∩ C) = P (A)P (B)P (C). Gegenbeispiele: Siehe Übungen. 60 Definition 6.6 Ω 6= ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔ (i) Ω ∈ A, (ii) A ∈ A ⇒ Ac ∈ A, (iii) A, B ∈ A ⇒ A ∪ B ∈ A. Definition 6.7 ∅ = 6 S ⊂ P(Ω). Dann: α(S) := \ P(Ω)⊃D⊃S, D D Algebra =: kleinste Algebra, die S enthält, \ σ(S) := D P(Ω)⊃D⊃S, D σ –Algebra =: kleinste σ–Algebra, die S enthält. 61 Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–) Algebra; P(Ω) ist eine (σ–) Algebra mit P(Ω) 6= ∅. Satz 6.8 ∅ 6= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten Vereinigungen von endlichen Durchschnitten von Mengen aus S oder deren Komplemente, d.h. S1 := {S ⊂ Ω : S ∈ S oder S c ∈ S}, S2 := {S1 ∩ . . . ∩ Sn : n ∈ N, Si ∈ S1, i = 1, . . . , n} S3 := {T1 ∪ . . . ∪ Tn : Tj ∈ S2, j = 1, . . . , n, paarweise disjunkt, n ∈ N} ⇒ α(S) = S3. Beweis: 62 1. S3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement–stabil ist). 2. S3 6= ∅, da S3 ⊃ S2 ⊃ S1 ⊃ S 6= ∅. 3. T ∈ S2 ⇒ T c ∈ S3. (Denn: T = S1 ∩ . . . ∩ Sn ∈ S2 mit Si ∈ S1 ⇒ T c = S1c ∪ . . . ∪ Snc = S1c ∪ (S2c\S1c) ∪ S3c\(S1c ∪ S2c) ∪ . . . c ∪Snc \(S1c ∪ . . . ∪ Sn−1 ) = S1c + (S2c ∩ S1) + (S3c ∩ S1 ∩ S2) + . . . +(Snc ∩ S1 ∩ . . . ∩ Sn−1) ∈ S3. 4. T1, T2 ∈ S2 ⇒ T1 ∩ T2 ∈ S2 (trivial). 5. U1, U2 ∈ S3 ⇒ U1 = T11 +. . .+T1n1 mit disjunkten T1j ∈ S2, U2 = T21 +. . .+T2n2 63 mit disjunkten T2j ∈ S2 [ ⇒ U1 ∩ U2 = ( T1i ∩ T2j ) ∈ S3. | {z } i,j ∈S wegen 4. 2 | {z } disjunkte Vereinigung 6. U ∈ S3 ⇒ U = T1 + . . . + Tn, Ti ∈ S2, i = 1, . . . , n, disjunkt ⇒ U c = T1c ∩ . . . ∩ Tnc ∈ S3 wegen 3. und 5. (Tjc ∈ S3 wegen 3.). Wegen 2., 5. und 6. ist S3 eine Algebra. Hieraus und aus 1. folgt, dass S3 = α(S). 2 Definition 6.9 A1, . . . , An seien beliebige Ereignisse, dann: A1, . . . , An (global) unabhängig :⇔ Ai, B unabhängig für 1 ≤ i ≤ n und B ∈ α({Aj : j 6= i}). 64 Satz 6.10 A1, . . . , An sind unabhängig ⇔ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · · · P (Aik ) (1) für 2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n. Beweis: ⇒“ ” Ai2 ∩ . . . ∩ Aik ∈ α({Aj : j 6= i1}) ⇒ Ai1 , Ai2 ∩ . . . ∩ Aik unabhängig ⇒ P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ∩ . . . ∩ Aik ) u.s.w. (Induktion) ⇐“ Es genügt zu zeigen: A1 ist unabhängig von jedem Ereignis aus α({A2, . . . , An}). ” 65 In (1) beliebige der Aij durch Acij ersetzbar (z.B. P (Ai1 ∩ Aci2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Aci2 ) · · · P (Aik ), siehe 6.4) ⇒ (c) (c) P (A1 ∩ Ai2 ∩ . . . ∩ Aik ) (c) (c) = P (A1)P (Ai2 ) · · · P (Aik ) (c) mit Aij = Aij oder Acij , d.h. A1 unabhängig von allen Ereignissen aus S2(A2, . . . , An) ⇒6.5 A1 unabhängig von allen Ereignissen aus S3(A2, . . . , An) =6.8 α({A2, . . . , An}). 2 66 Definition 6.11 Ai, i ∈ I, beliebige Ereignisse, dann: Ai, i ∈ I, unabhängig :⇔ Ai, G unabhängig für beliebiges i ∈ I und G ∈ α({Aj : j ∈ I, j 6= i}). Bemerkung 6.12 (i) Ai, i ∈ I, unabhängig ⇔ Ai, i ∈ I0 unabhängig für alle endlichen Teilmengen I0 von I. (ii) A1, A2, . . . sei eine Folge von Ereignissen, dann: A1, A2, . . . unabhängig ⇔ A1, . . . , An unabhängig für alle n ∈ N. 67 Beweis: (i) ⇒“ trivial. ” ⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({Aj : j 6= i}) ein I0 ⊂ I mit |I0| < ∞ ” und G ∈ α({Aj : j ∈ I0}). 2 Definition 6.13 (i) Gi, i ∈ I, unabhängige Algebren von Ereignissen :⇔ Gi ist Ereignis–Algebra, S i ∈ I, und für jedes i ∈ I ist jedes G ∈ Gi unabhängig von allen H ∈ α j6=i Gj . (ii) Ai, i ∈ I, unabhängige σ–Algebren von Ereignissen 68 :⇔ Ai ist σ–Algebra von Ereignissen, i∈ I, und für jedes i ∈ I ist jedes A ∈ Ai S unabhängig von allen B ∈ σ j6=i Aj . Satz 6.14 Ai, i ∈ I unabhängig ⇒ α({Ai}), i ∈ I, unabhängige Algebren. Beweis: α({Ai}) = {Ai, Aci, ∅, Ω}, d.h. α({Aj : j ∈ I, j 6= i}) = α [ α({Aj }) . j6=i ∅ und Ω sind von allen Ereignissen unabhängig. 69 2 Satz 6.15 (Borel–Cantelli Lemma) A1, A2, . . . seien Ereignisse; A := {ω ∈ Ω : ω ∈ An für unendlich viele n ∈ N} \ [ Am . = n∈N m≥n Dann gilt: (i) P (A) = 0, falls P < ∞. (ii) P (A) = 1, falls P = ∞ und A1, A2, . . . unabhängig. n∈N P (An ) n∈N P (An ) Beweis: Es gilt (siehe Übungen): 70 (i)“ ” P (A) = P \ [ Am m≥n n∈N | {z } absteigende Folge ! [ = lim P Am , n∈N m≥n wobei ! P [ = Am m≥n ≤ s. Üb. als Rest einer konvergenten Reihe. 71 lim P k∈N X m≥n k [ ! Am m=n P (Am) →n∈N 0 (ii)“ ” c P (A ) = P [ \ Acm m≥n n∈N | {z } aufsteigende Folge \ c = lim P Am n∈N = lim P n∈N m≥n \ \ Acm N ≥n |n≤m≤N {z } absteigende Folge \ = lim lim P ( Acm |{z} n∈N N ∈N n≤m≤N unabhängig Y = lim lim ( 1 − P (Am) ) , | {z } n∈N N ∈N n≤m≤N ≤exp(−P (Am )) {z 72| } ≤exp P − N m=n P (Am ) →N ∈N 0 denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung: x2 exp(−x) = 1 − x + exp(−ϑx) ≥ 1 − x. {z 2} | ≥0 2 Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q S ein σ–additiver, P normierter Inhalt auf G (d.h. Q : G → [0, ∞)Smit Q(Ω) = 1 und Q( n∈N Gn) = n∈N Q(Gn) für disjunkte Gn ∈ G, n ∈ N mit n∈N Gn ∈ G). Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G) mit P/G = Q/G. Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\). 2 73 Satz 6.17 G1, G2 seien unabhängige Ereignis–Algebren. Dann sind A1 := σ(G1), A2 := σ(G2) unabhängige σ–Algebren. Beweis: Zu zeigen: ∀A1 ∈ A1, ∀A2 ∈ A2 : P (A1 ∩ A2) = P (A1)P (A2). Sei G1 ∈ G1 gegeben. 1. Fall: P (G1) = 0. Dann gilt: 0 = P (G ∩ A}2) | 1 {z ⊂G1 = P (G1)P (A2) = 0 für alle A ∈ A2. 74 2. Fall: P (G1) > 0. Setze P (G1 ∩ A2) Q(A2) := für A2 ∈ A2. P (G1) Dann gilt 1. ∀G2 ∈ G2 : Q(G2) = P (G2) wegen der Unabhängigkeit von G1, G2. 2. Q ist Wahrscheinlichkeitsmaß auf A2; denn: (a) Q(Ω) = 1. 75 (b) A12, A22, . . . sei Folge disjunkter Mengen aus A2, dann: ! P n X P G1 ∩ n∈N A2 n Q A2 = P (G1) n∈N P n P n∈N (G1 ∩ A2 ) = P (G1) P n n∈N P (G1 ∩ A2 ) = P (G1) X Q (An2 ) . = n∈N Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A2) = P (A2) für alle A2 ∈ A2, d.h. P (G1 ∩ A2) = P (G1)P (A2) für alle A2 ∈ A2. Analog schließt man: G1 ∈ G1 durch A1 ∈ A1 ersetzbar. 2 76 Satz 6.18 Gi, i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum (Ω, A, P ). Dann sind äquivalent: (i) Gi, i ∈ I, sind unabhängig. (ii) Ai := σ(Gi), i ∈ I, sind unabhängig. (iii) Für je endlich viele verschiedene i1, . . . , ik ∈ I und Gi1 ∈ Gi1 , . . . , Gik ∈ Gik gilt: P Gi1 ∩ . . . ∩ Gik = P (Gi1 ) · · · P Gik . Beweis: (ii)⇒(i)“ Trivial. ” S (i)⇒(iii)“ Gi1 ist unabhängig von allen Ereignissen aus α j6=i1 Gj , speziell von ” 77 Gi2 ∩ . . . ∩ Gik , d.h. P Gi1 ∩ Gi2 ∩ . . . ∩ Gik = . . . = P (Gi1 ) · · · P Gik mittels Induktion. (iii)⇒(ii)“ Zu zeigen ist: Ai0 ∈ Ai0 ist unabhängig von allen A ∈ σ ” 78 S j6=i0 Aj . Sei Gi0 ∈ Gi0 und H ∈ α S j6=i0 Gj ⇒6.8 H ∈ α({Gi1 , . . . , Gir }) für geeignete Gi1 ∈ Gi1 , . . . , Gir ∈ Gir ⇒6.10 Gi0 und H sind unabhängig, d.h. [ Gj sind unabhängig Gi0 und α j6=i ⇒6.17 0 [ Ai0 = σ(Gi0 ), σ α Gj unabhängig . j6=i0 79 Die Behauptung folgt nun aus den Gleichungen: [ [ Gj Gj = σ σ α j6=i0 j6=i0 [ = σ σ(Gj ) . | {z } j6=i0 =Aj Zum zweiten =“: ” ⊂“: Trivial. ” 80 ⊃“: Für i 6= i0 gilt: ” [ Gj ⊃ Gi j6=i0 ⇒ σ [ Gj ⊃ σ(Gi) j6=i0 ⇒ σ [ Gj ⊃ j6=i0 ⇒ σ σ(Gi) i6=i0 [ [ Gj ⊃ σ j6=i0 [ σ(Gi) | {z } i6=i0 =Ai 2 81 Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass sie sich gegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum (Ω, A, P ) zur mathematischen Beschreibung des Zufallsexperimentes, welches darin besteht, dass die beiden Experimente ohne wechselseitige Beeinflussung — also unabhängig — durchgeführt werden. Die einzelnen Experimente werden durch (Ω1, A1, P1), (Ω2, A2, P2) beschrieben. Nahe liegend: Ω := Ω1 × Ω2 := {(ω1, ω2) : ω1 ∈ Ω1, ω2 ∈ Ω2}. Jedes A1 ∈ A1 kann identifiziert werden mit A1 × Ω2, jedes A2 ∈ A2 kann identifiziert werden mit Ω1 × A2, d.h. Forderung: A1 × Ω2, Ω1 × A2 sind Ereignisse ⇒ (A1 × Ω2) ∩ (Ω1 × A2) = A1 × A2 Ereignis. 82 Daher: A := σ ({A1 × A2 : A1 ∈ A1, A2 ∈ A2}) . Ferner soll die Forderung P1(A1) = P (A1 × Ω2), P2(A2) = P (Ω1 × A2) erfüllt sein. Zur Unabhängigkeit: A1 × Ω2 und Ω1 × A2 sollen stets unabhängig sein für A1 ∈ A1, A2 ∈ A2, d.h. es soll gelten P (A1 × A2) = P ((A1 × Ω2) ∩ (Ω1 × A2)) = P (A1 × Ω2)P (Ω1 × A2) = P1(A1)P2(A2). 83 Satz 6.19 (Ω1, A1, P1), . . . , (Ωn, An, Pn) seien Wahrscheinlichkeitsräume. Setze Ω := Ω1 × . . . × Ωn := {(ω1, . . . , ωn) : ωi ∈ Ωi, 1 ≤ i ≤ n} und A := σ({A1 × . . . × An : Ai ∈ Ai, 1 ≤ i ≤ n}. Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mit P (A1 × . . . × An) = P1(A1) · · · Pn(An). Beweisskizze: Definiere P auf Mengensystem Z := {A1 × . . . × An : Ai ∈ Ai, 1 ≤ i ≤ n} durch n Y P (A1 × . . . × An) := P (Ai). i=1 84 Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) auf α(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16. 2 Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume (Ω1, A1, P1), . . . , (Ωn, An, Pn) :⇔ (Ω, A, P ) wird definiert gemäß 6.19. Schreibweise: Ω = Ω1 × . . . × Ωn, A = A1 ⊗ . . . ⊗ An, P = P1 × . . . × Pn. Im Fall (Ω1, A1, P1) = . . . = (Ωn, An, Pn) = (Ω, A, P ), d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz (Ωn, An, P n). 85 7 Zufallsvariablen (Ω, A, P ) zufälliges Experiment, f : Ω → Ω0 eine Abbildung. Es sei ω ein Ergebnis; häufig interessiert weniger der exakte Ausgang ω sondern nur der Wert f (ω). Beispielsweise interessiert beim Schuss auf eine Zielscheibe weniger die genaue Lage des Einschusses sondern der Abstand zum Mittelpunkt. Daher wird man vor allem Ereignisse der Gestalt f −1(A0) := {ω ∈ Ω : f (ω) ∈ A0} betrachten, wobei A0 die im Bildraum von f interessierenden Ereignisse durchläuft. Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω0 eine Abbildung. Setze A0 := {A0 ⊂ Ω0 : f −1(A0) ∈ A} und P 0(A0) := P (f −1(A0)) für alle A0 ∈ A0. 86 Dann ist (Ω0, A0, P 0) ein Wahrscheinlichkeitsraum. Beweis: 1. f −1(Ω0) = Ω ∈ A, d.h. Ω0 ∈ A0. 2. Sei A0 ∈ A0 ⇒ f −1(A0) =: A ∈ A ⇒ f −1(Ω0\A0) = Ac ∈ A ⇒ A0c = Ω0\A0 ∈ A0. 87 3. Sei A0n ∈ A0, n ∈ N ⇒ f −1(A0n) ∈ A, !n ∈ N [ [ 0 −1 An = f −1(A0n) ∈ A ⇒ f ⇒ [ n∈N A0n ∈ A0. n∈N n∈N Also ist A0 eine σ–Algebra. Ferner ist P 0 ein Wahrscheinlichkeitsmaß auf (Ω0, A0): 1. P 0(Ω0) = P (f −1(Ω0)) = P (Ω) = 1. 88 2. Für paarweise disjunkte A0n, n ∈ N, gilt: ! X 0 A0n = P P !! f X −1 A0n n∈N n∈N ! = P X f −1 (A0n) n∈N = = X n∈N X P f −1 (A0n) P 0 (A0n) . n∈N 2 Bemerkung 7.2 A0 heißt finale σ–Algebra bezüglich f ; P 0 heißt das durch P und f auf A0 induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter f . 89 Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω0, A0) ein messbarer Raum, dann: f : Ω → Ω0 heißt A, A0–messbar oder Zufallsgröße, falls f −1(A0) ⊂ A, d.h. falls für alle A0 ∈ A0 gilt: f −1(A0) ∈ A, (d.h. A0 ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise: f : (Ω, A) → (Ω0, A0). Satz 7.4 f : (Ω, A) → (Ω0, A0). Dann: f −1(A0) := {f −1(A0) : A0 ∈ A0} ist sub–σ–Algebra von A. (= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von A). Beweis: 90 1. Ω = f −1(Ω0). 2. A ∈ f −1(A0) ⇒ ∃A0 ∈ A0 : A = f −1(A0) ⇒ Ac = f −1(A0c) ∈ f −1(A0). 3. An ∈ f −1(A0), n ∈ N ⇒ ∃A0n ∈ A0 : An = f −1(A0n), n ∈ N [ [ ⇒ An = f −1(A0n) n∈N n∈N ! =f [ −1 A0n ∈ f −1(A0). n∈N 2 91 Satz 7.5 (Ω, A), (Ω0, A0) messbare Räume, S ⊂ P(Ω0) mit σ(S) = A0. Dann gilt: f : Ω → Ω0 ist A, A0–messbar ⇔ f −1(S) ∈ A für alle S ∈ S. Beweis: ⇒“ Trivial. ” ⇐“ Setze ” F := {F ∈ P(Ω0) : f −1(F ) ∈ A}. F ist (die finale) σ–Algebra mit F ⊃ S ⇒ F ⊃ σ(S) = A0. 2 92 Satz 7.6 (Ω, A), (Ω0, A0), (Ω00, A00) messbare Räume, f : (Ω, A) → (Ω0, A0),g : (Ω0, A0) → (Ω00, A00). Dann gilt: g ◦ f : Ω → Ω00 ist A, A00–messbar. Beweis: Sei A00 ∈ A00, dann: (g ◦ f )−1(A00) = f −1(g −1(A00)) ∈ A. | {z } ∈A0 2 Definition 7.7 In sei die Menge aller n–dimensionalen Intervalle im Rn. Bn := σ(In) ⊂ P(Rn) ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra des Rn. 93 Bemerkung 7.8 Setze In0 := {(a, b] : {x = (x1, . . . , xn) ∈ Rn : ai < xi ≤ bi, i = 1 . . . , n} für a = (a1, . . . , an), b = (b1, . . . , bn) ∈ Rn}. dann gilt: Bn = σ(In0). Denn z.B.: [a, b] = \ m∈N 1 a − ,b m mit a − 1/m = (a1 − 1/m, . . . , an − 1/m); [ 1 (a, b) = a, b − m m∈N 94 u.s.w. ⇒ Bn ⊃ σ(In0) ⊃ In ⇒ Bn ⊃ σ(In0) ⊃ σ(In) = Bn ⇒ σ(In0) = Bn. Satz 7.9 Bn enthält alle (bezüglich der euklidischen Topologie des Rn) offenen und abgeschlossenen Mengen des Rn. Beweis: InQ := Menge aller n–dimensionalen Intervalle in In mit rationalen Endpunk- 95 ten. InQ ist abzählbar (denn Q2n ist abzählbar). G ⊂ Rn sei offen [ I ∈ Bn (als abzählb. Vereinigung); ⇒ G= I⊂G, I∈InQ F ⊂ Rn abgeschlossen ⇒ F c offen und damit in Bn ⇒ F ∈ Bn. 2 n Satz 7.10 Bn = B ⊗ · · · ⊗ B = B . {z } | n–mal Beweis: n = 2; B ⊗ B = σ({B1 × B2 : B1, B2 ∈ B}. 96 1. B2 ⊂ B ⊗ B, da I2 ⊂ B ⊗ B. 2. Zu zeigen: B ⊗ B ⊂ B2. Es genügt zu zeigen, dass B1 × B2 ∈ B2, falls B1, B2 ∈ B. (a) Setze für I ∈ I BI := {B ⊂ R : B × I ∈ B2}; BI ist eine σ–Algebra(!) mit I ⊂ BI , d.h. B ⊂ BI . Also gilt B1 × I ∈ B2, falls B1 ∈ B, I ∈ I. (b) Setze für B ∈ B BB := {A ⊂ R : B × A ∈ B2}; BB ist eine σ–Algebra(!) mit I ⊂ BB nach (a), d.h. B ⊂ BB . Also gilt B1 × B2 ∈ B2, falls B1, B2 ∈ B. Analog schließt man damit von n auf n + 1. 97 2 Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum; f : Ω → R ist Zufallsvariable :⇔ f ist A, B–messbar. Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann sind äquivalent: 1. f ist Zufallsvariable, d.h. f −1(B) ∈ A für alle B ∈ B. 2. {f ≤ y} := {ω ∈ Ω : f (ω) ≤ y} ∈ A für alle y ∈ R. 3. {f < y} := {ω ∈ Ω : f (ω) < y} ∈ A für alle y ∈ R. 4. {f ∈ I} := {ω ∈ Ω : f (ω) ∈ I} ∈ A für alle Intervalle I in R. 98 5. {f ∈ G} := {ω ∈ Ω : f (ω) ∈ G} ∈ A für alle G ∈ G := Menge der offenen Teilmengen von R. 6. {f ∈ F } := {ω ∈ Ω : f (ω) ∈ F } ∈ A für alle F ∈ F := Menge der abgeschlossenen Teilmengen von R. Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), da {(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I1, G, F Erzeuger der σ–Algebra B sind. 2 Beispiel 7.13 Beispiele für Zufallsvariablen: 1. f ∈ {0, 1}Ω ist Zufallsvariable ⇔ ∀y ∈ R : {ω ∈ Ω : f (ω) ≤ y} ∈ A 99 wobei {ω ∈Ω : f (ω) ≤ y} Ω, falls y ≥ 1, ∅, falls y < 0, = ∈A {ω ∈ Ω : f (ω) = 0}, falls 0 ≤ y < 1. ⇔ f = 1A für ein geeignetes A ∈ A. Dabei ist 1A(ω) = 1, falls ω ∈ A, 0 sonst, die Indikatorfunktion der Menge A. 2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen. 3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen. 100 Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann: f : Ω → Rn ist n–dimensionaler Zufallsvektor :⇔ f ist A, Bn–messbar. Satz 7.15 f = (f1, . . . , fn) : Ω → Rn ist n–dim. Zufallsvektor ⇔ fi : Ω → R ist Zufallsvariable, i = 1, . . . , n. Beweis: ⇒“ Sei B ∈ B, dann: ” i−te Stelle fi−1(B) =f −1 z}|{ (R B × · · · × R}) ∈ A. | × · · · × {z ∈Bn 101 ⇐“ 1. ” f −1 (B1 × · · · × Bn) = \ 1≤i≤n fi−1(Bi) ∈ A, | {z } ∈A falls Bi ∈ B, i = 1, . . . , n. 2. {B ⊂ Rn : f −1(B) ∈ A} ist (finale) σ–Algebra (7.1). Aus 1. und 2. folgt, dass {B ⊂ Rn : f −1(B) ∈ A} ⊃ B ⊗ · · · ⊗ B =7.10 Bn, d.h. f ist Zufallsvektor. 2 Definition 7.16 g : Rn → R ist Bairesche Funktion :⇔ g ist Bn, B–messbar. 102 Satz 7.17 fi : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : Rn → R Bairesche Funktion. Dann ist g ◦ (f1, . . . , fn) Zufallsvariable. Beweis: Folgt aus 7.15 und 7.6. 2 Satz 7.18 g : Rn → R stetig ⇒ g ist Bairesche Funktion. Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1(O) ist offen im Rn, d.h. g −1(O) ∈ Bn. Nach Satz 7.5 gilt damit g −1(B) ∈ Bn für alle B ∈ B, da die offenen Mengen B erzeugen (7.9). 2 103 Satz 7.19 f1, f2 seien Zufallsvariablen, a ∈ R. Dann gilt: af1, f1 + f2 , f1 f2 , f1/f2 (falls f2(ω) 6= 0 für alle ω ∈ Ω), f1 ∨ f2 := max(f1, f2), f1 ∧ f2 := min(f1, f2) sind wieder Zufallsvariablen. Beweis: R 3 x 7→ ax, R2 3 (x1, x2) 7→ x1 + x2 ∈ R u.s.w. sind stetige Abbildungen von R → R bzw. R → R2, d.h. Satz 7.17 und 7.18 anwendbar. 2 Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer Raum. 104 Satz 7.20 f1, f2, . . . seien Zufallsvariablen. 1. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt ⇒ sup fn ist Zufallsvariable. n∈N ((supn∈N fn)(ω) = supn∈N(fn(ω))). 2. fn(ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt ⇒ inf fn ist Zufallsvariable. n∈N 3. fn(ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt ⇒ lim inf fn, lim sup fn sind Zufallsvariablen. n∈N n∈N 4. fn(ω), n ∈ N, sei für jedes ω ∈ Ω konvergent ⇒ lim fn ist Zufallsvariable. n∈N 105 Beweis: T 1. ∀y ∈ R : {ω ∈ Ω : supn∈N fn(ω) ≤ y} = n∈N{ω ∈ Ω : fn(ω) ≤ y} ∈ A. S 2. {ω ∈ Ω : inf n∈N fn(ω) < y} = n∈N{ω ∈ Ω : fn(ω) < y} ∈ A. 3. lim supn∈N fn(ω) = inf m∈N supn≥m fn(ω) , lim inf n∈N fn(ω) = supm∈N (inf n≥m fn(ω)), d.h. die Behauptung folgt aus 1. und 2. 4. limn∈N fn = lim supn∈N fn = lim inf n∈N fn, d.h. 3. anwendbar. 2 Definition 7.21 fi, i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), wobei fi : (Ω, A) → (Ωi, Ai), i ∈ I. Die Familie fi, i ∈ I, heißt unabhängig :⇔ die Familie A(fi) = fi−1(Ai), i ∈ I, der zugehörigen Vergröberungen ist unabhängig. 106 Bemerkung 7.22 fi, i ∈ I, unabhängig ⇔ fi, i ∈ I0, unabhängig für alle endlichen Teilmengen I0 von I (s. 6.18). Satz 7.23 fi : (Ω, A) → (Ω0i, A0i), i = 1, . . . , n unabhängig ⇔ P ({f1 ∈ A01, . . . , fn ∈ A0n} = P ({f1 ∈ A01}) · · · P ({fn ∈ A0n}) für beliebige A0i ∈ A0i, i = 1, . . . , n. 107 Beweis: f1, . . . , fn unabhängig ⇔ A(f1), . . . , A(fn) unabhängig ⇔6.18 für beliebige A0i ∈ A0i, i = 1, . . . , n, sind die Ereignisse {f1 ∈ A01}, . . . , {fn ∈ A0n} unabhängig. 2 Satz 7.24 fi : (Ω, A) → (Ω0i, A0i), i ∈ I, unabhängig, gi : (Ω0i, A0i) → (Ω00i , A00i ), i ∈ I. Dann sind gi ◦ fi : (Ω, A) → (Ω00i , A00i ), i ∈ I, unabhängig. Beweis: 108 1. Nach Satz 7.6 ist gi ◦ fi A, Ai–messbar, i ∈ I. 2. Für endliches I0 ⊂ I und A00i ∈ A00i , i ∈ I0, gilt: P {gi ◦ fi ∈ A00i , i ∈ I0} = P {fi ∈ gi−1(A00i ), i ∈ I0} | {z } ∈A0i = Y P {fi ∈ gi−1(A00i )} (da fi unabhängig) i∈I0 = Y P {gi ◦ fi ∈ A00i }. i∈I0 2 Definition 7.25 f1, f2, . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt terminales 109 Ereignis bzgl. f1, f2, . . . :⇔ ! C∈σ [ A(fm) für alle n ∈ N. m≥n T n∈N σ S m≥n A(fm ) heißt die zu f1, f2, . . . gehörende terminale σ–Algebra. Beispiel 7.26 1. {ω ∈ Ω : fn(ω) > 0 unendlich oft}, 2. {ω ∈ Ω : fn(ω), n ∈ N, ist konvergent}, Pn 1 3. ω ∈ Ω : n i=1 fn(ω), n ∈ N, ist konvergent sind terminale Ereignisse. 110 Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur Folge unabhängiger Zufallsvariablen f1, f2, . . . ⇒ P (C) = 0 oder 1; Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A1, A2, . . . unabhängige Ereignisse ⇒ 1A1 , 1A2 , . . . unabhängige Zufallsvariablen; ( ) X lim sup An = ω ∈ Ω : 1An (ω) = ∞ n∈N n∈N ist terminales Ereignis zu 1A1 , 1A2 , . . . mit P 0, falls Pn∈N P (An) < ∞, P lim sup An = 1, falls n∈N n∈N P (An ) = ∞. Beweis: Annahme: P (C) > 0. Wir zeigen: P (C) = 1. 111 Für A ∈ A(fn, n ∈ N) := σ S n∈N A(fn ) definieren wir P (A ∩ C) P (A) := P (A|C) = P (C) ∗ ⇒ P ∗ ist Wahrscheinlichkeitsmaß mit ∗ P (A) = P (A) für alle A ∈ A0 := [ A(fm : m ≤ n), n∈N mit ! A(fm : m ≤ n) := σ [ A(fm) , m≤n denn für A ∈ A0 gilt: A, C sind unabhängig. A0 ist eine Algebra(!) mit A(fn, n ∈ N) = σ(A0). 112 Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(fn, n ∈ N), d.h. P (A ∩ C) = P (A) P (A) = P (C) für alle A ∈ A(fn, n ∈ N) ⇒ P (A ∩ C) = P (A)P (C) insbesondere für A = C (C ∈ A(fn, n ∈ N)) ⇒ P (C) = P (C)2 ⇒ P (C) = 1. ∗ 2 8 Integrationstheorie Es sei f eine Zufallsvariable, die nur die Werte a1, . . . , am annimmt, pi := P {f = ai}, i = 1, . . . , m. Bei N –facher unabhängiger Wiederholung des Experimentes seien α1, . . . , αN (∈ {a1, . . . , am}) die beobachteten Werte von f . Die Erfahrung zeigt, dass sich das arithmetische Mittel N 1 X αi N i=1 offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl? Dazu anschaulich: Hi (Häufigkeit) bezeichne die Anzahl des Eintretens von ai unter den N Durchführungen des Experimentes, i = 1, . . . , m. Nach der Erfahrung wird gelten: Hi ≈ pi, d.h. Hi ≈ piN. N 114 Damit: H1a1 + · · · + Hmam α1 + · · · + αN = N N m X Hi = ai N i=1 m X ≈ ai pi . i=1 Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen Mittels sein. Den Begriff des Erwartungswertes werden wir in diesem Kapitel untersuchen. Definition 8.1 115 1. e einfache Funktion :⇔ e= m X αi1Ai i=1 mit geeignetem m ∈ N, αi ≥ 0, Ai ∈ A, i = 1, . . . , m. 2. E := Menge der einfachen Funktionen. Bemerkung 8.2 1. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die nur endlich viele Werte annehmen. 2. e1, e2 ∈ E, α ∈ R+ ⇒ αe1, e1 + e2, e1e2, e1 ∨ e2, e1 ∧ e2 ∈ E. P 3. e ∈ E ⇒ e = 1≤i≤m αi1Ai 116 mit disjunkten Ai ∈ A und S 1≤i≤m Ai = Ω. Satz 8.3 Es gelte e= X αi1Ai = 1≤i≤m X βj 1Bj ∈ E 1≤j≤n mit disjunkten Ai ∈ A, i = 1, . . . , m, und disjunkten Bj ∈ A, j = 1, . . . , n. Dann folgt: X X αiP (Ai) = βj P (Bj ). 1≤i≤m 1≤j≤n 117 Beweis: O.B.d.A. annehmbar, dass 1A i = S 1≤i≤m Ai X = S 1≤j≤m Bj 1Ai∩Bj ; 1Bj = 1≤j≤n ⇒e = X X = Ω. 1Ai∩Bj 1≤i≤n αi1Ai 1≤i≤m X = αi1Ai∩Bj ; 1≤i≤m;1≤j≤n X e = βj 1Bj ∩Ai 1≤j≤n;1≤i≤m ⇒ ∀i, j mit Ai ∩ Bj 6= ∅ : αi = βj X ⇒ αiP (Ai) 1≤i≤m = X αiP (Ai ∩ Bj ) 1≤i≤m;1≤j≤n = X118 βj P (Bj ∩ Ai) 1≤i≤m;1≤j≤n = X βj P (Bj ). 2 Definition 8.4 Für e = wir Z P 1≤i≤m αi 1Ai ∈ E mit disjunkten Ai und αi ≥ 0 definieren Z e dP := e dP := Ω X αiP (Ai), 1≤i≤m das Integral von e über Ω. Satz 8.5 Für e, e1, e2 ∈ E gilt: 1. Z Z αe dP = α e dP, 2. Z Z e1 + e2 dP = 119 α ≥ 0, Z e1 dP + e2 dP, P 3. e = Ai ⇒ 1≤i≤m αi 1Ai mit αi ≥ 0 und beliebigen Ai, d.h. nicht notwendig disjunkten Z X e dP = αiP (Ai), 1≤i≤m 4. Z e1 ≤ e2 ⇒ Z e1 dP ≤ e2 dP. Beweis: 1.“ e = ” tung. P 2.“ e1 = ” P 1≤i≤m αi 1Ai i α i 1A i mit disjunkten Ai ⇒ αe = mit disjunkten Ai, e2 = 120 P j P 1≤i≤m (ααi )1Ai ⇒ Behaup- βj 1Bj mit disjunkten Bj . O.b.d.A. gelte S i Ai = S j Bj = Ω; e1 = X e2 = X αi1Ai∩Bj , i,j βj 1Ai∩Bj i,j ⇒ e1 + e2 = X (αi + βj )1Ai∩Bj i,j mit Ai ∩ Bj , (i, j), disjunkt 121 Z ⇒ e1 + e2 dP X =Def. (αi + βj )P (Ai ∩ Bj ) i,j X X = αiP (Ai ∩ Bj ) + βj P (Ai ∩ Bj ) Zi,j = i,j Z e1 dP + 3.“ Folgt aus 1. und 2.: ” Z X e2 dP. αi1Ai dP = X i i 122 Z αi 1Ai dP. 4.“ Nach Beweisteil 2. besitzen e1 und e2 die Darstellungen ” X X e1 = αi1Ai , e2 = βi1Ai 1≤i≤m 1≤i≤m mit disjunkten Ai 6= ∅ ⇒ Zαi ≤ βi, ⇒ 1 ≤ i ≤ m, X e1 dP = αiP (Ai) ≤ i X βiP (Ai) Zi = e2 dP. 2 123 Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren en ∈ E, n ∈ N, mit e1 ≤ e2 ≤ . . . und f = lim en. n∈N Beweis: Setze i en := 1 , n An,i 2 0≤i<n2n X mit An,i := {i/2n ≤ f < (i + 1)/2n}. 2 Satz 8.7 e, en ∈ E, n ∈ N, mit e ≤ limn∈N en, e1 ≤ e2 ≤ . . . Dann folgt: Z Z e dP ≤ lim en dP. n∈N Beweis: Sei e = P 1≤i≤m αi 1Ai . 124 Wähle a ∈ [0, 1) und setze Kn := {ae ≤ en}, n ∈ N. Kn ∈ A,Pda ae − en A, B–messbar, e1Kn = 1≤i≤m αi1Ai∩Kn ∈ E, Kn ↑ Ω, also Ai ∩ Kn ↑ Ai und damit limn∈N P (Ai ∩ Kn) = P (Ai), i = 1, . . . , m, ⇒ Z X a e dP = a αiP (Ai) 1≤i≤m = a lim X n∈N αiP (Ai ∩ Kn) Z 1≤i≤m = lim ae1Kn dP | {z } n∈N Z ≤en ≤ lim en dP. n∈N 125 Für a ↑ 1 folgt nun die Behauptung. 2 Korollar 8.8 e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . . ∈ E mit limn∈N en = limn∈N e0n (≤ ∞). Dann gilt: Z Z lim en dP = lim e0n dP. n∈N n∈N Definition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir Z Z f dP := lim en dP n∈N (Integral von f über (Ω, A, P )), falls f = lim en, n∈N e1 ≤ e2 ≤ . . . ∈ E. 126 Satz 8.10 Für nicht negative Zufallsvariablen f, f1, f2 gilt: 1. Z Z αf dP = α 2. Z α ≥ 0, f dP, Z f1 + f2 dP = 3. Z f1 dP + Z f 1 ≤ f2 ⇒ f2 dP, Z f1 dP ≤ f2 dP. Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e1 ≤ e2 ≤ . . . , e01 ≤ e02 ≤ . . ., ẽ1 ≤ ẽ2 . . . mit limn∈N en = f , limn∈N e0n = f1, limn∈N ẽn = f2. 127 1.“ αen ∈ E, n ∈ N, αe1 ≤ αe2 ≤ . . . , limn∈N αen = αf . Damit: ” Z Z αf dP =Def. lim αen dP n∈N Z =8.5 lim α en dP n∈N Z = α lim en dP n∈N Z =Def. α f dP. 128 2.“ e0n + ẽn ∈ E, n ∈ N, e01 + ẽ1 ≤ e02 + ẽ2 ≤ · · · , limn∈N(e0n + ẽn) = f1 + f2. Damit: ” Z Z f1 + f2 dP =Def. lim e0n + ẽn dP n∈N Z Z =8.5 lim e0n dP + ẽn dP n∈N Z Z = f1 dP + f2 dP. 129 3.“ ” Z ⇒8.7 e0n ≤ e0n dP ≤ lim ẽn n∈N Z (= f2) lim ẽn dP Z =Def. f2 dP Z Z ⇒Def. f1 dP = lim e0n dP n∈N Z f2 dP. ≤ n∈N 2 130 Satz 8.11 f, f1, f2, . . . seien nicht negative Zufallsvariablen mit f1 ≤ f2 ≤ · · · und limn∈N fn = f . Dann gilt: Z Z f dP = lim fn dP. n∈N Beweis: Zu fn existiert eine monoton wachsende Folge en,m, m ∈ N, in E mit lim en,m = fn, m∈N also: e1,1 ≤ e1,2 ≤ · · · e2,1 ≤ e2,2 ≤ · · · .. .. en,1 ≤ en,2 ≤ · · · .. .. 131 ↑ f1 ↑ f2 .. ↑ fn .. ↑ f. Setze en := max(e1,n, . . . , en,n). Dann gilt: 1. en ∈ E (8.2,3.), e1 ≤ e2 ≤ · · · 2. en ≤ max(f1, . . . , fn) = fn ≤ f. 132 3. ∀m ≤ n : en ⇒ lim en ≥ ≥ em,n lim em,n = fm ⇒ lim en ≥ f n∈N n∈N n∈N ⇒2. lim en = f Z n∈N Z ⇒ f dP =Def. lim en dP n∈N Z ≤2. lim fn dP ; n∈N Z Z f dP ≥8.10 fn dP Z Z ⇒ f dP = lim fn dP. n∈N 133 2 Definition 8.12 f sei beliebige Zufallsvariable. 1. f + := max(f, 0) ist der Positivteil von f , f − := max(−f, 0) ist der Negativteil von f ; f = f + − f −. R + R − 2. f ist integrierbar :⇔ f dP < ∞ und f dP < ∞. 3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )). R + R − 4. f ist quasiintegrierbar :⇔ f dP < ∞ oder f dP < ∞. R R + R − 5. f dP := f dP − f dP , falls f quasiintegrierbar ist. Satz 8.13 f, f1, f2 beliebige Zufallsvariablen. Dann: R R 1. f ∈ L, α ∈ R ⇒ αf ∈ L und αf dP = α f dP . 134 R R R 2. f1, f2 ∈ L ⇒ f1 + f2 ∈ L und f1 + f2 dP = f1 dP + f2 dP. R R 3. f1 ≤ f2, f1, f2 ∈ L ⇒ f1 dP ≤ f2 dP. R R 4. f ∈ L ⇔ |f | ∈ L und es gilt in diesem Fall | f dP | ≤ |f | dP. 5. g A, B–messbar mit f1 ≤ g ≤ f2, f1, f2 ∈ L ⇒ g ∈ L. Beweis: Mittels 8.10. 2 Satz 8.14 (v. d. monotonen Konvergenz) 1. fn ∈ L, n ∈ N, fn ↑ f < ∞ ⇒ f ist quasiintegrierbar und R R fn dP ↑ f dP . R R 2. fn ∈ L, n ∈ N, fn ↓ f > −∞ ⇒ f ist quasiintegrierbar und fn dP ↓ f dP . Beweis: Genügt 1. zu beweisen (Übergang zu −fn, −f ). O.E. sei fn ≥ 0 (sonst Übergang zu fn0 := fn − f1). Dann folgt die Behauptung aber aus 8.11. 2 135 Satz 8.15 (Lemma von Fatou) 1. fn ∈ L, n ∈ N, fn ≤ h, h ∈ L, lim supn∈N fn > −∞ ⇒ lim supn∈N fn ist quasiintegrierbar und Z Z lim sup fn dP ≥ lim sup fn dP. n∈N n∈N 2. fn ∈ L, n ∈ N, fn ≥ g, g ∈ L, lim inf n∈N fn < ∞ ⇒ lim inf n∈N fn ist quasiintegrierbar und Z Z lim inf fn dP ≤ lim inf fn dP. n∈N n∈N Beweis: Genügt 1. zu beweisen (Übergang zu −fn). Es gilt: lim sup fn = lim sup fm . n∈N n∈N 136 m≥n supm≥n fm ∈ L, da fn ≤ supm≥n fm ≤ h (8.13); supm≥n fm ↓ lim supn∈N fn ⇒8.14 lim supn∈N fn ist quasiintegrierbar und Z Z sup fm dP ↓ lim sup fn dP m≥n n∈N Z Z ⇒ lim sup fn dP = lim sup fm dP n∈N m≥n n∈N Z ≤ lim sup fm dP n∈N m≥n Z = lim sup fn dP. n∈N 2 Satz 8.16 (v. d. dominierten Konvergenz) fn, n ∈ N, Zufallsvariablen mit limn∈N fn 137 f , |fn| ≤ g, g ∈ L. Dann gilt: Z fn, f ∈ L und lim Z fn dP = n∈N f dP. Beweis: 8.13⇒ fn, f ∈ L. Das Lemma von Fatou liefert: Z Z lim sup fn dP lim sup fn dP ≤ n∈N Z n∈N = f dP Z lim inf fn dP = n∈N Z ≤ lim inf fn dP. n∈N 2 138 Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum, (Ω0, A0) messbarer Raum, T : (Ω, A) → (Ω0, A0). P 0 := P ∗ T sei das durch P und T auf A0 induzierte Wahrscheinlichkeitsmaß (Bildmaß), d.h. P 0(A0) = P (T −1(A0)), A0 ∈ A0, s. Satz 7.1. f 0 : Ω0 → R sei Zufallsvariable. Dann: f 0 ∈ L(Ω0, A0, P 0) ⇔ f 0 ◦ T ∈ L(Ω, A, P ) und in diesem Fall gilt: Z f 0 dP 0 = Z Ω0 Ω Beweis: 139 f 0 ◦ T dP. 0 0 0 0 mit αi ≥ 0, A0i ∈ A0, X 0 ⇒ e := e ◦ T = αi 1A0i ◦ T 1. Sei e ∈ E(Ω , A ), d.h. e = P 1≤i≤m αi 1A0i 1≤i≤m = X 1≤i≤m 140 αi1Ai ∈ E(Ω, A) mit Ai := T −1(A0i) und Z 0 0 e dP = Ω0 X αiP 0(A0i) 1≤i≤m = X αiP (T −1(A0i)) 1≤i≤m = X αiP (Ai) 1≤i≤m Z = e dP. Ω 2. Sei f 0 : Ω0 → R+ Zufallsvariable. Dann existieren e0n ∈ E(Ω0, A0) mit e0n ↑ f 0 ⇒ en := e0n ◦ T ↑ f 0 ◦ T , en ∈ E(Ω, A). 141 Somit gilt nach 1.: Z f 0 dP 0 =Def. lim n∈N 0 Ω Z ZΩ0 e0n dP 0 lim en dP Ω Z =Def. f 0 ◦ T dP. =1. n∈N Ω 3. Für beliebiges f mittels Zerlegung f = f + − f −. 2 Definition 8.18 1. Es sei A ∈ A, f Zufallsvariable und f 1A quasiintegrierbar. Dann: Z Z Z f dP := f (ω) P (dω) := f 1A dP. A A 142 2. f sei quasiintegrierbar. Die Abbildung Z A 3 A 7→ f dP A heißt unbestimmtes Integral von f . R Bemerkung R Es seien RA, B ∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann gilt A∪B f dP = A f dP = B f dP . R Satz 8.19 f ≥ 0 sei Zufallsvariable mit f dP = 1. Dann: Z Q : A → R mit Q(A) := f dP A ist ein Wahrscheinlichkeitsmaß auf A. Beweis: 143 1. Q(A) ≥ 0 offensichtlich, 2. Q(Ω) = 1 trivial. 144 145 3. An ∈ A, n ∈ N, seien paarweise disjunkt. Dann: ! [ Q An n∈N Z = f dP S n∈N An Z =Def. = f 1Sn∈N An dP ZΩ X f 1An dP Ω n∈N Z = lim Ω n∈N =mon. Konv. lim n∈N 146 = lim n∈N n X ! f 1A i i=1 Z X n Ω i=1 n Z X i=1 Ω n Z X f 1Ai dP f 1Ai dP dP 2 R Definition 8.20 f ≥ 0 sei Zufallsvariable mit f dP = 1. Q sei definiert wie in 8.19. Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P . Symbolisch: dQ Q = f P, f = , dQ = f dP. dP Satz 8.21 f1 sei P –Dichte von Q, f2 ≥ 0 sei Zufallsvariable. Dann: f2 ist P –Dichte von Q ⇔ P ({f1 6= f2}) = 0. Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒ 147 R A |f | dP = 0. Beweis: Es gilt |f 1A| = |f |1A. Es existieren en ∈ E, n ∈ N, mit en ↑ |f | ⇒ en1A ∈ E mit en1A ↑ |f |1A; Z Z |f |1A dP =Def. lim en1A dP n∈N X = lim αi P (Ai ∩ A) = 0, | {z } n∈N 1≤i≤m wobei en = P =0 1≤i≤m αi 1Ai , 1Ai 1A = 1Ai∩A, Z Z ⇒8.13 | f dP | ≤ |f | dP = 0. A A 2 Beweis:[von 8.21] 148 ⇐“ Sei A ∈ A; ” Z Q(A) = f11A dP Z = Z f11A∩{f1=f2} dP + f11A∩{f16=f2} dP Z =8.22 f11A∩{f1=f2} dP Z = f21A∩{f1=f2} dP Z = Z f21A∩{f1=f2} dP + Z = f21A dP. 149 f21A∩{f16=f2} dP ⇒“ Aus den Voraussetzungen folgt: ” Z Z ∀A ∈ A : f1 dP = f2 dP A ZA Z ⇒ ∀A ∈ A : f1 dP − f2 dP A ZA = f1 − f2 dP = 0. A Speziell für − A+ n := {f1 − f2 > 1/n}, An := {f1 − f2 < −1/n} 150 gilt also: Z 0 = A+ n f1 − f2 dP Z ≥8.13 = 1 dP n A+ n 1 P (A+ n ), n d.h. P (A+ n ) = 0; Z 0 = A− n Z ≤8.13 = f1 − f2 dP 1 − dP n A− n 1 − P (A− n ), n 151 d.h. P (A− n ) = 0. Es folgt: ! P {f1 6= f2} = P [ − (A+ ∪ A n n) X n∈N − ≤ P (A+ n ∪ An ) = 0. n∈N 2 Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt: g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt: Z Z g dQ = gf dP. Beweis: 152 1. Es sei e = P ∈E Z m X ⇒ e dQ = αiQ(Ai) 1≤i≤m αi 1Ai = = i=1 m X i=1 m X Z αi f dP Ai Z αi f 1Ai dP i=1 Z = f m X αi1Ai dP i=1 Z = 153 f e dP. 2. g ≥ 0 sei Zufallsvariable ⇒ g = limn∈N en mit geeigneten e1 ≤ e2 ≤ . . . ∈ E Z Z ⇒ g dQ =Def. lim en dQ n∈N Z =1. lim enf dP n∈N Z =8.14 lim (enf ) dP n∈N Z = f g dP. 3. Allgemeiner Fall mittels Zerlegung g = g + − g −. 2 Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume (Ωi, Ai, Pi), i = 1, 2, d.h. 154 Ω = Ω1 × Ω2, A = σ({A1 × A2 : A1 ∈ A1, A2 ∈ A2}, P = P1 × P2 . f : Ω → R sei integrierbar bzgl. P . Dann gilt: 1. f (ω1, ·) : Ω2 3 ω2 7→ f (ω1, ω2) ∈ R ist für P1–fast alle ω1 ∈ Ω1 P2–integrierbar, d.h. es existiert N1 ∈ A1, P1(N1) = 0 und ∀ω1 ∈ N1c ist f (ω1, ·) eine P2–integrierbare Funktion. 2. f (·, ω2) : Ω1 3 ω1 7→ f (ω1, ω2) ∈ R ist für P2–fast alle ω2 ∈ Ω2 P1–integrierbar, d.h. es existiert N2 ∈ A2, P2(N2) = 0 und ∀ω2 ∈ N2c ist f (·, ω2) eine P1–integrierbare Funktion. 155 3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen Z f (ω1, ·) dP2 ω1 7→ Ω2 und Z ω2 7→ f (·, ω2) dP1 Ω1 sind P1– bzw. P2–integrierbar und es gilt: Z Z f dP = f d(P1 × P2) Ω Z2 ZΩ1×Ω = f (ω1, ·) dP2 P1(dω1) ZΩ1 ZΩ2 = f (·, ω2) dP1 P2(dω2). Ω2 Ω1 156 Beweis: Siehe Maßtheorie. 2 Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige σ–finite Maße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig. µ : A → [0, ∞] ist Maß :⇔ P S 1. µ n∈N An = n∈N µ(An) für disjunkte An ∈ A, 2. µ(∅) = 0. µ:A S → [0, ∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren An ∈ A, n ∈ N, mit n∈N An = Ω und µ(An) < ∞, n ∈ N. Definition 8.25 Definiere λ0n : In0 := {(a, b] = ×ni=1(ai, bi] : a, b ∈ Rn} → [0, ∞] durch Y 0 λn((a, b]) := (bi − ai). 1≤i≤n 157 λ0n ist σ–additiv auf In0 und kann eindeutig zu einem (σ–finiten) Maß auf Bn fortgesetzt werden. Dieses Maß ist das Lebesgue–Maß, i.Z. λn, vgl. 7.8. Satz 8.26 Es gilt: λn = λn1 , wobei λn1 das n–fache Produkt von λ1 bezeichnet. Beweis: Klar, da λn((a, b]) = λ0n((a, b]) Y = (bi − ai) 1≤i≤n = = Y λ1((ai, bi]) 1≤i≤n λn1 ((a, b]). 158 2 Definition 8.27 Es sei f ∈ L(Rn, Bn, λn). Wir setzen: Z Z Z f (x) dx := f (x1, . . . , xn) dx1 · · · dxn := f dλn. Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B ∩ (0, 1], λ1/(0, 1]), fn := n1(0,1/n], n ∈ N. Dann gilt: fn(ω) →n→N 0, ω ∈ Ω, aber Z Z fn dλ1 = nλ1((0, 1/n]) = 1 6= 0 dλ1 = 0. Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen sind also wesentlich. 159 9 Verteilungen und ihre Charakterisierungen Definition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω0, A0) messbarer Raum, f : (Ω, A, P ) → (Ω0, A0). Das Wahrscheinlichkeitsmaß P ∗ f : A0 → [0, 1], definiert durch (P ∗ f )(A) := P (f −1(A)), A ∈ A0, heißt Verteilung von f , (s. 7.1). Bemerkung Jedes Wahrscheinlichkeitsmaß P 0 auf einem beliebigen messbaren Raum (Ω0, A0) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze (Ω, A, P ) := (Ω0, A0, P 0), f (ω) := ω, ω ∈ Ω. 160 Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B). Definiere F : R → [0, 1] durch F (x) := P ({f ≤ x}) = P ({ω ∈ Ω : f (ω) ≤ x}) = (P ∗ f )((−∞, x]), x ∈ R. F heißt Verteilungsfunktion von f bzw. von P ∗ f . Beispiel 9.3 1. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann gilt: 0 für x < 1, F (x) = i/6 für i ≤ x < i + 1, i = 1, . . . , 5, 1 für x ≥ 6. 161 2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ1(B) für B ∈ B ∩ (0, 1). Dann gilt: F (x) = = = = P ({f ≤ x}) P ({f ∈ (−∞, x]}) P ({f ∈ (0, x]}) λ1((0, x]) = x für 0 ≤ x ≤ 1. Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f )((−∞, x]) einer Zufallsvariablen f hängt offenbar nur von der Verteilung P ∗f von f ab, nicht von den konkreten Werten von f . Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f . Dann gilt: 1. F ist monoton wachsend. 162 2. F ist rechtsseitig stetig. 3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0. Beweis: 1.“ ” x<y ⇒ (−∞, x] ⊂ (−∞, y] ⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y). 163 2.“ (−∞, x] = ” T n∈N (−∞, xn ], falls xn ↓ x. Damit: F (x) = Q((−∞, x]) ! \ = Q (−∞, xn] n∈N = lim Q((−∞, xn]) n∈N = lim F (xn). n∈N 3.“ ” xn ↑ ∞ [ ⇒ R= (−∞, xn] n∈N ⇒ 1 = Q(R) = lim Q((−∞, xn]) = lim F (xn); n∈N n∈N 164 xn ↓ −∞ \ ⇒ ∅= (−∞, xn] n∈N ⇒ 0 = Q(∅) = lim Q((−∞, xn]) = lim F (xn). n∈N n∈N 2 Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig bestimmt. Das bedeutet: Sind Q1, Q2 Wahrscheinlichkeitsmaße auf (R, B) mit Q1 6= Q2, so existiert x ∈ R mit FQ1 (x) = Q1((−∞, x]) 6= Q2((−∞, x]) = FQ2 (x). Beweis: 1. Es gilt: Q((x, y]) = F (y) − F (x) für x < y. 165 2. Q((x, y)) = lim Q((x, y − 1/n]) n∈N = lim (F (y − 1/n) − F (x)), n∈N denn (x, y − 1/n] ↑ (x, y). 3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten offenen Intervallen ⇒2. Q(G) ist für offene Mengen G durch F bestimmt ⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz). 2 Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle. Dann ist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f , d.h. es existiert ein 166 Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable f auf (Ω, A, P ) mit F (x) = (P ∗ f )((−∞, x]), x ∈ R. Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ1/Ω, f (ω) := inf{x ∈ R : F (x) ≥ ω} = min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann gilt: 1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f (ω1) ≤ f (ω2), ω1 ≤ ω2, und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in B ∩ Ω. 2. ω ≤ F (y) ⇔ f (ω) ≤ y, 167 y ∈ R, ⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f (ω) ≤ y} ⇒ P ({f ≤ y}) = λ1({ω ∈ Ω : ω ≤ F (y)}) = λ1((0, F (y)]) = F (y), y ∈ R. 2 Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von Satz 9.5. Definition 9.9 F sei Verteilungsfunktion; dann heißt F −1(y) := inf{x ∈ R : F (x) ≥ y}, verallgemeinerte Inverse von F oder Quantilfunktion. 168 y ∈ (0, 1), Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion. Dann besitzt die Zufallsvariable g := F −1 ◦ f die Verteilungsfunktion F . Beweis: Siehe Übungen. 2 Definition 9.11 f = (f1, . . . , fn) sei n–dimensionaler Zufallsvektor, dann: F : Rn → [0, 1] mit F (y1, . . . , yn) := P ({f1 ≤ y1, . . . , fn ≤ yn}) ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion von f1 , . . . , f n . Bemerkung 169 n = 1: P ({f ∈ (x, y]}) = F (y) − F (x), x < y. n = 2: Es sei x = (x1, x2), y = (y1, y2), xi < yi, i = 1, 2. Dann: P ({(f1, f2) ∈ (x, y])} = F (y1, y2) − F (y1, x2) − F (x1, y2) + F (x1, x2). Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern. Satz 9.12 Die Zufallsvariablen f1, . . . , fn sind genau dann unabhängig, wenn für ihre gemeinsame Verteilungsfunktion F gilt: F (y1, . . . , yn) = F1(y1) · · · Fn(yn) für (y1, . . . , yn) ∈ Rn, wobei Fi die Verteilungsfunktion zu fi ist, i = 1, . . . , n. Beweis: 170 ⇒“ ” ! F (y1, . . . , yn) = P \ {fi ≤ yi} Y 1≤i≤n = P ({fi ≤ yi}) 1≤i≤n = Y Fi(yi). 1≤i≤n ⇐“ Es gilt für y = (y1, . . . , yn) ∈ Rn: ” ! \ Y F (y) = P {fi ≤ yi} = P ({fi ≤ yi}), 1≤i≤n 1≤i≤n 171 d.h. (P ∗ (f1, . . . , fn))((−∞, y]) = ((P ∗ f1) × · · · × (P ∗ fn))((−∞, y]) ⇒ (P ∗ (f1, . . . , fn))(B) = ((P ∗ f1) × · · · × (P ∗ fn))(B) für B ∈ Bn (s. Maßtheorie) ⇒ (P ∗ (f1, . . . , fn))(B1 × · · · × Bn) = ((P ∗ f1) × · · · × (P ∗ fn))(B1 × · · · × Bn) für Bi ∈ B, i = 1 . . . , n, ⇒ P ({fi ∈ Bi, i = 1, . . . , n}) n Y = P ({fi ∈ Bi}) i=1 172 für Bi ∈ B, i = 1, . . . , n, d.h. f1, . . . , fn sind unabhängig (s. 7.23). 2 Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert eine abzählbare Menge B = {b1, b2, . . .} ⊂ R mit P ({f ∈ B}) = 1. Beispiele 9.14 Im folgenden sei f eine Zufallsvariable. 1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p), :⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p. 2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z. B(n, p), :⇔ P ({f = k}) = B(n, p)({k}) n k = p (1 − p)n−k , k = 0, 1, . . . , n. k 173 3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. Pλ, :⇔ P ({f = k}) = Pλ({k}) k −λ λ , k = 0, 1, . . . = e k! 4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1] :⇔ P ({f = k}) = p(1 − p)k−1, k = 1, 2, . . . Bemerkung 9.15 f1, f2, . . . seien unabhängige, zum Parameter p ∈ [0, 1] Bernoulli– verteilte Zufallsvariablen. Dann gilt: 1. f1 + · · · + fn ist B(n, p)–verteilt. 2. f := inf{m ∈ N : fm = 1} ist geometrisch verteilt zum Parameter p. 174 Beweis: Siehe Übungen. 2 Definition 9.16 1. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte bzgl. λ1, d.h. es existiert eine Borel–messbare Funktion h : R → [0, ∞) mit Z Q(B) = h dλ1, B ∈ B. B 2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig. Satz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und Verteilungsfunktion F . Dann gilt: ∂F (x) , h(x) = F 0(x) = ∂x falls h an der Stelle x stetig ist. 175 Beweis: Es gilt: F (x + ε) − F (x) ε P ({f ∈ (x, x + ε]}) = ε R (x,x+ε] h(y) dy = ε R R (x,x+ε] h(y) − h(x) dy (x,x+ε] h(x) dy = + ε ε =: I + II. Offenbar gilt: λ1((x, x + ε]) II = h(x) = h(x), ε 176 sowie R |I| ≤ R ≤ = (x,x+ε] |h(y) − h(x)| dy ε (x,x+ε] supz∈(x,x+ε] |h(z) sup − h(x)| dy ε |h(z) − h(x)| →ε→0 0, z∈(x,x+ε] wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung. 2 Definition 9.18 Qa,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b < ∞ :⇔ Qa,b besitzt die Dichte 1 ha,b(x) := 1(a,b)(x), x ∈ R. b−a 177 Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei bedeutet keine Alterung: P ({f > s + t|f > s}) = P ({f > t}), t, s ≥ 0. Es gilt also für t, s, ≥ 0: P ({f > s + t}) = P ({f > s})P ({f > t}), ⇒ für G(y) := P ({f > y}) gilt: G(s + t) = G(s)G(t) ⇒ ∃λ ≥ 0 : G(y) = exp(−λy) (als einzige nicht identisch verschwindende monoton fallende Lösung obiger Funktio- 178 nalgleichung2) ⇒ F (y) := P ({f ≤ y}) = 1 − G(y) = 1 − exp(−λy), y ≥ 0. Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0 :⇔ P ∗ f besitzt die Dichte 0, x < 0, h(x) := λ exp(−λx), x ≥ 0. Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0. 2 S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig. 179 Definition 9.21 Der Zufallvektor f = (f1, . . . , fn) ist absolutstetig mit der Dichte h :⇔ Z P ({f ∈ B}) = h dλn ZB h(x1, . . . , xn) dx1 · · · dxn, B ∈ Bn. = B Satz 9.22 h : Rn → [0, ∞) sei integrierbar bzgl. λn und es gelte für den Zufallsvektor f: P ({fZ ≤ y}) Z ··· = (−∞,y1 ] h(x1, . . . , xn) dx1 · · · dxn (−∞,yn ] für y = (y1, . . . , yn) ∈ Rn. Dann ist h eine Dichte von f . 180 Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für jedes y ∈ Rn : Z P ({f ∈ (−∞, y]}) = h dλn (−∞,y] und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ Bn: Z P ({f ∈ B}) = h dλn B 2 Satz 9.23 f1, . . . , fn seien Zufallsvariablen mit Dichten h1, . . . , hn. Dann gilt: f1, . . . , fn sind unabhängig ⇔ f = (f1, . . . , fn) besitzt die Dichte h(x1, . . . , xn) = h1(x1) · · · hn(xn), Beweis: 181 (x1, . . . , xn) ∈ Rn. ⇒“ Für y = (y1, . . . , yn) ∈ Rn gilt: ” P ({f ∈ (−∞, y]}) = P ({fi ≤ yi, i = 1, . . . , n}) n Y = P ({fi ≤ yi}) = i=1 n Z Y hi(xi) dxi (−∞,yi ] Zi=1 Z = ··· h1(x1) · · · hn(xn) dxn · · · dx1 Z(−∞,y1] Z(−∞,yn] = ··· h(x1, . . . , xn) dxn · · · dx1 (−∞,y1 ] (−∞,yn ] ⇒ Behauptung aus 9.22. 182 ⇐“ Für y = (y1, . . . , yn) ∈ Rn gilt auf Grund des Satzes von Fubini: ” P ({fZ∈ (−∞, y]}) h dλn Z(−∞,y] Z = ··· h(x1, . . . , xn) dx1 · · · dxn Z(−∞,y1] Z(−∞,yn] = ··· h1(x1) · · · hn(xn) dx1 · · · dxn = = = (−∞,y1 ] n Z Y i=1 n Y (−∞,yn ] hi(xi) dxi (−∞,yi ] P ({fi ≤ yi}) i=1 ⇒ Behauptung aus 9.12. 183 2 Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird zufällig auf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß ist die Wahrscheinlichkeit, dass die Nadel eine der Geraden schneidet? Lösung: Annahmen: 1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt. 2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf (0, 1/2) gleichverteilt. 3. ϕ und d sind unabhängig. Dann gilt nach 9.23 h(x1, x2) = 2 π für 0 < x1 < π, 0 < x2 < 12 , 0 sonst 184 ist gemeinsame Dichte des Zufallsvektors (ϕ, d). Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h. 1 A = ω ∈ Ω : d(ω) ≤ sin ϕ(ω) . 2 Mit A0 = (x1, x2) ∈ (0, π) × 0, 185 1 2 : x2 ≤ 1 sin(x1) 2 folgt aus dem Satz von Fubini: 0 P (A) = P ({(ϕ, d) ∈ A } Z = h dλ2 ZA0 2 = dx1dx2 1 1 π {(x1,x2)∈(0,π)×(0, 2 ) :x2≤ 2 sin(x 1 )} ! Z Z 2 = dx2 dx1 1 (0,π) (0, 2 sin(x1 )) π Z 1 π sin(x1) dx1 = π 0 2 = . π 2 186 Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂ R Intervall mit P ({f ∈ I}) = 1. g : I → R sei differenzierbar mit g 0(x) > 0 für alle x ∈ I oder g 0(x) < 0 für alle x ∈ I. Dann gilt: g ◦ f ist absolutstetig mit der Dichte h̃(y) = h(g −1(y))|(g −1)0(y)| für alle y mit inf g(x) < y < sup g(x) x∈I x∈I und h̃(y) = 0 sonst. Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert (auf g(I)) und differenzierbar (mit (g −1)0(y) = 1/g 0(g −1(y))). 187 1. ∀x ∈ I gelte g 0(x) > 0, d.h. g ist monoton wachsend ⇒ Fg◦f (y) = = = 0 ⇒ Fg◦f (y) = P ({g ◦ f ≤ y}) P ({f ≤ g −1(y)}) Ff (g −1(y)) h(g −1(y))(g −1)0(y). 2. g 0 < 0 analog. 2 Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3 3 S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. Statistik, 6. Auflage. Vieweg, Braunschweig. 188 Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem Nullpunkt aus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ vom Nullpunkt sei ein Schirm aufgestellt, auf den das Teilchen trifft. Die Koordinaten dieses Punktes seien (λ, g) wobei g zufällig ist. Man bestimmt eine Dichte der Zufallsvariablen g. Lösung: ϕ besitzt die Dichte 1 h(y) = 1(− π , π )(y), 2 2 π da ϕ auf (−π/2, π/2) gleichverteilt ist. Ferner gilt: g = λ tan(ϕ), wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2). 189 Nach 9.25, 9.26 besitzt g die Dichte 1∂ y hg (y) = arctan π ∂y λ 1 1 1 = π 1 + y22 λ λ 1 λ = , y ∈ R. π λ2 + y 2 2 Definition 9.28 Die Verteilung auf R mit der Dichte hλ(y) := 1 λ , 2 2 π λ +y heißt Cauchy–Verteilung mit Parameter λ > 0. 190 y ∈ R, Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar, so ist F 0 eine Dichte von F.4 10 Momente Definition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt Z E(f ) := f dP Erwartungswert von f (Mittelwert von P ∗ f ). Bemerkung 10.2 Es gilt Z E(f ) = Z Ω 4 x (P ∗ f )(dx), f dP =8.17 R Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage. Deutsch, Zürich. 191 d.h. E(f ) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher auch häufig Z x F (dx) := E(f ), wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2). Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann: 1. E(αf ) = αE(f ), E(f + g) = E(f ) + E(g), falls f, g ∈ L(Ω, A, P ). 2. E(f ) existiert ⇔ E(|f |) existiert, und in diesem Fall gilt: |E(f )| ≤ E(|f |). 3. Falls E(f ) existiert und |g| ≤ |f | ⇒ E(g) existiert. Beweis: 8.13. 2 192 Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1 für eine abzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f ; dann: X ϕ(x)P ({f = x}), E(g) = x∈B falls diese Summe absolut konvergiert. Beweis: S. Übungen. 2 Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei Bairesche Funktion. Dann gilt für g := ϕ ◦ f : Z E(g) = ϕ(x)h(x) dx R R falls |ϕh| dλ1 < ∞. 193 Beweis: Z E(g) ϕ ◦ f dP = ZΩ ϕ d(P ∗ f ) =8.17 ZR =8.23 ϕ(x)h(x) dx, R h = d(P ∗ f )/dλ1. 2 Definition 10.6 f sei Zufallsvariable, n ∈ Z+. Dann heißt, falls existent: µn := E(f n) n–tes Moment von f , 194 speziell µ := µ1 = E(f ); mn := E((f − µ)n) n–tes zentriertes Moment von f , speziell m2 := V (f ) := var(f ) =: σ 2(f ) Varianz von f; E(|f |n) := n–tes absolutes Moment; 195 p σ(f ) := σ 2(f ) p = E((f − µ)2) = E((f − µ)2)1/2 Standardabweichung oder Streuung von f . Satz 10.7 E(f n) existiere ⇒ E(f m) existiert, 0 ≤ m ≤ n. Beweis: Es gilt: m |f (ω)| ≤ |f (ω)|n, falls |f (ω)| ≥ 1 =: g(ω); 1, falls |f (ω)| ≤ 1 E(g) ≤ 1 + E(|f |n) < ∞ ⇒8.13 Behauptung. 196 2 Satz 10.8 m1 = 0, σ 2 = µ2 − µ21 (= E(f 2) − E(f )2), m3 = µ3 − 3µµ2 + 2µ3. Beweis: m1 = E(f − µ) = E(f ) − E(µ) = µ − µ = 0; σ2 = = = = = E((f − µ)2) E(f 2 − 2f µ + µ2) E(f 2) − 2µE(f ) + µ2 µ2 − 2µ2 + µ2 µ2 − µ2; 197 m3 = = = = E((f − µ)3) E(f 3) − E(3f 2µ) + E(3f µ2) − µ3 µ3 − 3µµ2 + 3µ3 − µ3 µ3 − 3µµ2 + 2µ3. 2 Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann gilt: E(|f |) . P ({|f | ≥ ε}) ≤ ε 198 Beweis: Es gilt: Z E(|f |) = |f (ω)| dP ZΩ ≥ |f (ω)| P (dω) Z{ω∈Ω: |f (ω)|≥ε} ≥ ε P (dω) {ω∈Ω: |f (ω)|≥ε} = εP ({|f | ≥ ε}). 2 Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P ) und ε > 0 gilt: σ 2(f ) . P ({|f − µ| ≥ ε}) ≤ 2 ε 199 Beweis: Es gilt: 2 2 P ({|f − µ| ≥ ε}) = P ({(f − µ) ≥ ε }) ≤10.9 σ 2(f ) . 2 ε 2 Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit E(f 2) < ∞, E(g 2) < ∞. Dann ist f g ∈ L(Ω, A, P ) und es gilt: E(f g)2 ≤ E(f 2)E(g 2). Beweis: 1. (f ± g)2 ≥ 0 ⇒ |2f g| ≤ f 2 + g 2 ⇒8.13 f g ∈ L(Ω, A, P ) 200 2. Für alle x ∈ R gilt: ϕ(x) := E((xf − g)2) = x2E(f 2) − 2xE(f g) + E(g 2) ≥ 0 ⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung ⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv sein, d.h. es gilt: 2 E(g 2) E(f g) − ≤0 2 2 E(f ) E(f ) ⇒ Behauptung. 2 201 Satz 10.12 f1, . . .Q , fn seien unabhängige Zufallsvariablen, fi ∈ L(Ω, A, P ), i = 1, . . . , n. Dann ist 1≤i≤n fi ∈ L(Ω, A, P ) und es gilt: ! n n Y Y E fi = E(fi). i=1 i=1 202 Beweis: O.E. sei n = 2. Dann gilt: E(|f1f2|) Z |f1f2| dP = ZΩ |xy| (P ∗ (f1, f2))(d(x, y)) =8.17 ZR2 |xy| ((P ∗ f1) × (P ∗ f2))(d(x, y)) Z Z =Fubini |x||y| (P ∗ f1)(dx) (P ∗ f2)(dy) ZR R Z = |x| (P ∗ f1)(dx) |y| (P ∗ f2)(dy) = R2 R =8.17 E(|f1|)E(|f2|). R 2 203 Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen. cov(f, g) := E ((f − E(f ))(g − E(g))) = E(f g) − E(f )E(g) ist die Kovarianz von f und g. Ist zusätzlich σ 2(f ) > 0, σ 2(g) > 0, so heißt cov(f, g) %(f, g) := ∈ [0, 1] σ(f )σ(g) Korrelationskoeffizient von f und g. f und g heißen positiv bzw. un– bzw. negativ korreliert, falls %(f, g) > 0 bzw. = 0 bzw. < 0. Bemerkung %(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f ) und g − E(g) die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu haben. 204 Ferner kann %(f, g) als Maß für den Grad der linearen Abhängigkeit“ zwischen f ” und g angesehen werden (s. folgenden Satz). Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2(f ), σ 2(g) < ∞. Dann gilt: 1. Falls f, g unabhängig sind ⇒ %(f, g) = 0. 2. Falls %(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R : P ({g = af + b}) = 1. 3. Die mittlere quadratische Abweichung E((f −(af +b))2) der linearen Approximation von g durch af + b ist genau dann minimal, wenn cov(f, g) ∗ ∗ ∗ a = und b = E(g) − a E(f ). σ 2(f ) In diesem Fall gilt: 2 ∗ ∗ 2 2 E((g − (a f + b )) ) = 1 − %(f, g) σ (g). 205 Beweis: 1.“ Folgt aus 10.12. ” 3.“ Es gilt: ” E((g − af − b)2) = a2E(f 2) + b2 + 2abE(f ) −2aE(f g) − 2bE(g) + E(g 2) =: p(a, b), a, b ∈ R. p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt genau ein Minimum für cov(f, g) ∗ ∗ a∗ = , b = E(g) − a E(f ) 2 σ (f ) (elementar mittels partieller Ableitungen). 206 2.“ Im Fall %(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗f + b∗))2) = 0, d.h. ” P ({|g − (a∗f + b∗)| = 6 0}) = 0, d.h. P ({g = a∗f + b∗}) = 1 (s. Übungen). 2 Bemerkung a∗ = cov(f, g)/σ 2(f ) ist ein geeignetes Mittel zur Vorhersage von g aus f , sog. Regression von f auf g, da nach 10.14, 3., ĝ := E(g) + a∗(f − E(f )) die beste lineare Approximation von g durch f darstellt. a∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Gerade m(t) := a∗(t − E(f )) + E(g) 207 heißt Regressionsgerade von g auf f . Der Fehler g − ĝ = g − m(f ) bei dieser Approximation heißt Residuum. Falls E(g) = E(f ) = 0 und var(f ) = var(g) = 1, so folgt a∗ = cov(f, g) = %(f, g) ∈ [−1, 1] und damit ĝ = a∗f ⇒ |ĝ| = %(f, g)||f | ≤ |f |, daher die Bezeichnung Regression“ (Rückschritt). ” Satz 10.15 f1, . . . , fn seien quadratintegrierbare, unkorrelierte Zufallsvariablen (also cov(fi, fj ) = 0, i 6= j. Dann gilt: σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn). 208 Beweis: σ 2(f1 + · · · + fn) = E ((f1 + · · · + fn) − E(f1 + · · · + fn))2 2 = E ((f1 − E(f1)) + · · · + (fn − E(fn))) X = E (fi − E(fi))(fj − E(fj )) 1≤i,j≤n = = = X cov(fi, fj ) 1≤i,j≤n n X cov(fi, fi) i=1 n X i=1 σ 2(fi). 209 2 Korollar 10.16 f1, . . . , fn seien unabhängige, quadratintegrierbare Zufallsvariablen. Dann gilt: σ 2(f1 + · · · + fn) = σ 2(f1) + · · · + σ 2(fn). 11 Gesetze der großen Zahlen Bemerkung f, f1, f2, . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt {limn∈N fn = f } ∈ A, denn: \ [ \ {lim fn = f } = {|fn − f | < 1/k} ∈ A. n∈N k∈N m∈N n≥m 210 Definition 11.1 fn →n∈N f P –f.s. :⇔ P lim fn = f = 1, n∈N (fn konvergiert P –fast sicher gegen f ). Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte fn →n∈N f P –f.s., fn →n∈N f˜ P –f.s. ⇒ P ({f = f˜}) = 1, d.h. f = f˜ P –f.s. 211 Beweis: {f = f˜} ⊃ lim fn = f ∩ lim fn = f˜ n∈N n∈N ⇒ P ({f 6= f˜}) ≤ P lim fn 6= f n∈N +P lim fn 6= f˜ = 0. n∈N 2 Satz 11.3 fi,n →n∈N fi P –f.s., i = 1, . . . , k, g : Rk → R stetig ⇒ g(f1,n, . . . , fk,n) →n∈N g(f1, . . . , fk ) P –f.s. 212 Beweis: Nach Voraussetzung existieren P –Nullmengen N1, . . . , Nk ∈ A mit fi,n(ω) →n∈N fi(ω) für alle ω ∈ Nic, i = 1, . . . , k. Für alle ω ∈ (N1 ∪ · · · ∪ Nk )c gilt also (f1,n(ω), . . . , fk,n(ω)) →n∈N (f1(ω), . . . , fk (ω)) und damit g (f1,n(ω), . . . , fk,n(ω)) →n∈N g (f1(ω), . . . , fk (ω)) . Da P ((N1 ∪ · · · ∪ Nk )c) = 1, folgt die Behauptung. 2 Beispiel 11.4 fn →n∈N f P –f.s., gn →n∈N g P –f.s. ⇒ fn + gn →n∈N f + g P –f.s. Definition 11.5 P fn → f :⇔ ∀ε > 0 : lim P ({|fn − f | > ε}) = 0, n∈N (fn konvergiert in Wahrscheinlichkeit gegen f ). 213 P P Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) fn → f , fn → f˜ ⇒ f = f˜ P – f.s. Beweis: Es gilt für n ∈ N und ε > 0 {|f − f˜| > ε} ⊂ {|fn − f | > ε/2} ∪ {|fn − f˜| > ε/2} und damit P ({|f − f˜| > ε}) ≤ P ({|fn − f | > ε/2}) + P ({|fn − f˜| > ε/2}) ⇒ P ({|f − f˜| > ε}) = 0 für beliebiges ε > 0 ! [ ⇒ P ({f 6= f˜}) = P {|f − f˜| > 1/k} X k∈N ≤ P ({|f − f˜| > 1/k}) = 0. k∈N 214 2 P Satz 11.7 fn →n∈N f P –f.s. ⇒ fn → f. Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst f˜n := fn − f ). Mit \ [ K := lim fn = 0 = sup |fn| ≤ 1/k ∈ A n∈N k∈N m∈N 215 n≥m gilt: fn → 0 P –f.s. c ⇔ P (K )=0 [ \ ⇔ P sup |fn| > 1/k = 0 n≥m k∈N m∈N {z } | ↑ in k \ sup |fn| > 1/k = 0 für alle k ∈ N ⇔ P n≥m m∈N | {z } ↓ in m ⇔ lim P sup |fn| > 1/k =0 m∈N n≥m 216 ⇒ lim P ({|fm| > 1/k} = 0 für alle k ∈ N m∈N ⇒ Behauptung. 2 Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel zeigt. Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f1 := 1[0,1), f2 := 1[0,1/2), f3 := 1[1/2,1), f4 := 1[0,1/3), f5 := 1[1/3,2/3), . . . Offenbar gilt P ({|fn| > ε}) →n∈N 0, ε > 0, aber fn(ω) konvergiert für kein ω ∈ Ω gegen 0. Satz 11.9 (Schw. Gesetz der großen Zahlen I) f1, . . . , fn seien identisch verteilte, quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(fi, fj ) = 0 für i 6= j. Dann gilt mit µ := E(f1), σ 2 := σ 2(f1) für ε > 0: )! ( n 1 X σ2 ≤ f i − µ ≥ ε P 2 n nε i=1 → 0, falls n → ∞. 217 Beweis: Aus der Tschebyscheff–Ungleichung folgt: ( n )! 1 X P fi − µ ≥ ε n i=1 ( n )! X = P (fi − µ) ≥ nε i=1 ! n X 1 var (fi − µ) ≤ 2 2 nε i=1 =10.15 nσ 2 . 2 2 nε 2 Korollar 11.10 (Schw. G. d. großen Zahlen II) fn, n ∈ N, sei eine Folge un218 abhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt: n 1X P fi → E(f1). n i=1 Wie wir am Ende dieses Kapitels sehen werden, gilt sogar: n 1X fi →n∈N E(f1) P –f.s. n i=1 Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen decken sich völlig mit unserer Anschauung und unserer Erfahrung. Es wird im mathematischen Modell die Erfahrungstatsache bestätigt, dass bei einer großen Anzahl n von unabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeit n 1X 1A(fi) hn(A) = n i=1 219 des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p := P ({f1 ∈ A}) liegt: f1, f2, . . . seien unabhängig und identisch verteilt. Dann sind 1A(f1), 1A(f2), . . . unabhängig und identisch verteilt mit E(1A(f1)) = P ({f1 ∈ A}) = p sowie σ 2(1A(f1)) = p(1 − p) und es gilt P ({|hn(A) (− p|n ≥ ε}) )! 1 X (1A(fi) − p) ≥ ε = P n i=1 p(1 − p) ≤ nε2 1 →n∈N 0, ≤ 2 4nε unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1]. 220 Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f1, . . . , mit E(fi) = 0, i = 1, . . . , k, und ε > 0 gilt: j ( )! k X 1 X 2 max P fi ≥ ε σ (fi). ≤ 2 1≤j≤k ε i=1 i=1 Pj 2 Beweis: O.E. sei σ (fi) < ∞, i = 1, . . . , k. Setze Sj := i=1 fi für j = 1, . . . , k und Aj := {|S1| < ε, . . . , |Sj−1| < ε, |Sj | ≥ ε}. Die Ereignisse A1, . . . , Ak sind disjunkt, und für jedes j sind die Zufallsvariablen 1Aj Sj und Sk − Sj unabhängig, da die erste nur von f1, . . . , fj und die zweite nur von 221 fj+1, . . . , fk abhängt. Es folgt: k X σ 2(fj ) j=1 =10.16 σ 2(Sk ) = E(Sk2) k X ≥ E(1Aj Sk2) = j=1 k X E(1Aj (Sj + (Sk − Sj ))2) j=1 ≥10.12 = ≥ k X E(1A Sj2) + 2E(1A Sj ) E(Sk − Sj ) j j | {z } j=1 =0 k Z X Sj2 dP 222 j=1 k X j=1 Aj ε2P (Aj ) 2 Satz 11.12 unabhängige, quadratintegrierbare Zufallsvariablen. Falls Pfn, n ∈ N, seienP die Reihen n∈N E(fn) und n∈N σ 2(fn) eigentlich konvergent sind, so existiert eine Zufallsvariable S mit n X Sn := fi →n∈N S P –f.s. i=1 Beweis: 1. O.E. Pn sei E(fn) = 0, n ∈ N (sonst Übergang zu i=1 E(fi )). 223 Pn i=1 fi = Pn i=1 (fi − E(fi)) + 224 2. Für ε > 0 und m ∈ N gilt; P sup |Sn − Sm| > ε n>m = = ≤11.11 = [ P max |Sn − Sm| > ε m<n≤m+k k∈N | {z } ↑ in k lim P max |Sn − Sm| > ε k∈N m<n≤m+k m+k 1 X 2 σ (fn) lim sup 2 ε k∈N n=m+1 X 1 2 σ (fn). 2 ε n>m 225 Nach Voraussetzung gilt limm∈N n>m σ 2(fn) = 0, also P inf sup |Sn − Sm| > ε m∈N n>m ! \ ≤ P sup |Sn − Sm| > ε P m∈N n>m ≤ lim inf P m∈N sup |Sn − Sm| > ε n>m = 0. 226 Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun: P ({Sn , n ∈ N, ist eigentlich konvergent}) 1 = P ∀r ∈ N ∃m ∈ N : sup |Sn − Sm| < r n>m ! \ 1 = P inf sup |Sn − Sm| < m∈N n>m r r∈N ! [ 1 = 1−P inf sup |Sn − Sm| ≥ m∈N n>m r r∈N = 1. 2 227 Korollar 11.13 (St. G. d. gr.PZ. v. Kolmogoroff) Für jede Folge fn, n ∈ N, unabhängiger Zufallsvariablen mit n∈N σ 2(fn)/n2 < ∞ gilt: n 1X (fi − E(fi)) →n∈N 0 P –f.s. n i=1 Beweis: O.E. gelte E(fn) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable T mit n X fi Tn := →n∈N T P –f.s. i i=1 228 Beachte: var(fi/i) = var(fi)/i2. Damit folgt (T0 := 0): n 1X fi n i=1 n = = = →n∈N 1X i(Ti − Ti−1) n i=1 1 n n X i=1 iTi − n X ! (i + 1)Ti + (n + 1)Tn i=1 n X 1 n+1 Tn − Ti n n i=1 T − T = 0 P –f.s. 2 229 Korollar 11.14 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen. Falls dann E(f12) < ∞, so gilt: n 1X fi →n∈N E(f1) P –f.s. n i=1 Beweis: Es gilt X σ 2(fn) n∈N n2 X 1 = σ (f1) < ∞. 2 n 2 n∈N Damit folgt die Behauptung aus 11.13. Beachte: 1 n n X (fi − E(fi)) = i=1 1 n n X ! fi − E(f1). i=1 2 230 0 Satz 11.15 f , n ∈ N, und f , n ∈ N, seien Folgen von Zufallsvariablen mit n n P 0 P ({f = 6 f }) < ∞; f sei eine Zufallsvariable. Dann gilt: n n n∈N n 1X fi →n∈N f P –f.s. n i=1 n 1X 0 fi →n∈N f P –f.s. ⇔ n i=1 Beweis: Nach dem Lemma von Borel–Cantelli gilt mit An := {fn 6= fn0 }: P (N1) := P ({fn 6= fn0 für unendlich viele n ∈ N}) = P (lim sup An) = 0. n∈N 231 −1 Gilt nun n Pn i=1 fi →n∈N f P –f.s., so existiert N2 ∈ A mit P (N2) = 0 und n 1X fi(ω) →n∈N f (ω) für alle ω ∈ N2c. n i=1 Damit gilt für alle ω ∈ N1c ∩ N2c: n n 1X 1X 0 lim fi (ω) = lim fi(ω) = f (ω). n∈N n n∈N n i=1 i=1 Da P (N1c ∩ N2c) = 1, folgt die Behauptung. 2 Satz 11.16 (St. G. d. gr. Z. von Khinchine) fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen. 232 1. Falls f1 integrierbar ist, so ist E(fn) = E(f1) =: µ ∈ R und es gilt: n 1X fi →n∈N µ P –f.s. n i=1 2. Falls es ein c ∈ R gibt mit der Eigenschaft: n 1X fi →n∈N c P –f.s., n i=1 so ist f1 integrierbar, und es gilt c = E(f1). Beweis: 1.“ Die durch ” fn(ω), falls |fn(ω)| ≤ n 0 sonst = fn(ω)1[−n,n](fn(ω)), n ∈ N, fn0 (ω) := 233 definierten Zufallsvariablen sind unabhängig, und es gilt X σ 2(f 0 ) n n∈N = n2 X E(f 02) − E(f 0 )2 n n2 n∈N ≤ n X E(f 02) n∈N n n2 n X 1 X 2 ≤ k P ({k − 1 < |f1| ≤ k}) n2 n∈N k=1 X X 1 , = kP ({k − 1 < |f1| ≤ k}) k 2 n k∈N n≥k 234 wobei X 1 X 1 ≤ 2 n2 n(n + 1) n≥k n≥k X 1 1 2 = 2 − = , n n+1 k n≥k d.h. insgesamt X σ 2(f 0 ) n n∈N n2 ≤ 2 X kP ({k − 1 < |f1| ≤ k}) k∈N ≤ 2(E(|f1|) + 1) < ∞, s. Übungen. 235 Anwendung von 11.13 liefert: n 1X 0 (fi − E(fi0)) →n∈N 0 P –f.s. n i=1 Nach dem Satz von der dominierten Konvergenz gilt ferner: E(fn0 ) = E(fn1[−n,n](fn)) = E(f11[−n,n](f1)) →n∈N E(f1) = µ, Pn Pn 0 −1 0 −1 also auch n i=1 E(fi ) →n∈N µ und somit n i=1 fi →n∈N µ P –f.s. Zu- 236 sammen mit X P ({fn 6= fn0 }) = n∈N = X n∈N X P ({|fn| > n}) P ({|f1| > n}) n∈N < ∞, (da f1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15. Pn 2.“ Mit Sn := i=1 fi gilt: ” Sn →n∈N c P –f.s. n fn Sn n − 1 Sn−1 ⇒ = − →n∈N 0 P –f.s. n n n n − 1 fn ⇒ P –f.s.: > 1 für höchstens endl. viele n ∈ N, n 237 d.h. in diesem Fall existiert n0 ∈ N so, dass |fn/n| ≤ 1 für alle n ≥ n0. Also gilt mit An := {|fn/n| > 1}: P lim sup An = 0. n∈N Da fn, n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die An, n ∈ N, unabhängige Ereignisse, und somit folgt aus dem Lemma von Borel–Cantelli: X X P (An) = P ({|f1| > n}) ∞> n∈N n∈N und damit, dass f1 integrierbar ist (s. Übungen). 2 Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen f1, f2, . . . eines ExperiP mentes konvergiert die relative Häufigkeit hn(A) = n−1 ni=1 1A(fi) des Eintritts eines Ereignisses A fast sicher gegen die Wahrscheinlichkeit P ({f1 ∈ A}). 238 Beispiel 11.18 fn, n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen mit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oder Stichproben-Verteilungsfunktion zur Stichprobe f1, . . . , fn: n 1X Fn(t) := 1(−∞,t](fi) →n∈N F (t) P –f.s., t ∈ R. n i=1 Beweis: Setze f˜n := 1(−∞,t](fn), n ∈ N. Dann sind f˜n, n ∈ N, unabhängig und identisch verteilt mit ˜ E(fn) = E 1(−∞,t](f1) = P ({f1 ≤ t}) = F (t). Damit folgt aus 11.16: n 1X ˜ Fn(t) = fi →n∈N E(f˜1) = F (t) P –f.s. n i=1 239 2 Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die einen Hauptsatz der Stochastik darstellt. Satz 11.19 (Glivenko–Cantelli) fn, n ∈ N, seien unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . Dann gilt: sup |Fn(t) − F (t)| →n∈N 0 P –f.s., t∈R d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1 gleichmäßig über R gegen die zugrunde liegende Verteilungsfunktion. Beweis: Die A–Messbarkeit von supt∈R |Fn(t) − F (t)| folgt aus der rechtsseitigen Stetigkeit von Verteilungsfunktionen: sup |Fn(t) − F (t)| = sup |Fn(t) − F (t)|. t∈R t∈Q 240 Setze nun tj,k := F −1(j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt: Fn(tj,k ) →n∈N F (tj,k ) P –f.s., sowie n 1X Fn(tj,k − 0) = 1(−∞,tj,k )(fi) →n∈N F (tj,k − 0) P –f.s., n i=1 wobei F (tj,k − 0) = limε↓0 F (tj,k − ε) = P ({f1 < tj,k }). Damit gilt (mit F (tj,k + 0) := F (tj,k )): sup |Fn(tj,k ± 0) − F (tj,k ± 0)| →n∈N 0 P –f.s. j=1,...,k−1 Sei nun tj,k < t < tj+1,k . Dann gilt: F (tj,k ) ≤ F (t) ≤ F (tj+1,k − 0), Fn(tj,k ) ≤ Fn(t) ≤ Fn(tj+1,k − 0) 241 sowie 1 0 ≤ F (tj+1,k − 0) − F (tj,k ) ≤ . | {z } | {z } k ≤ j+1 k ≥ kj Es folgt: Fn(t) − F (t) ≤ Fn(tj+1,k − 0) − F (tj,k ) ≤ Fn(tj+1,k − 0) − F (tj+1,k − 0) + und Fn(t) − F (t) ≥ Fn(tj,k ) − F (tj+1,k − 0) 1 ≥ Fn(tj,k ) − F (tj,k ) − . k 242 1 k Insgesamt erhalten wir: sup |Fn(t) − F (t)| t∈R 1 ≤ sup |Fn(tj,k ± 0) − F (tj,k ± 0)| + k 1≤j≤k + sup |Fn(t) − F (t)| + sup |Fn(t) − F (t)|. t<t1,k t>tk−1,k Ferner gilt: lim sup sup |Fn(t) − F (t)| n∈N t<t1,k ≤ lim sup(Fn(t1,k − 0) + F (t1,k − 0)) n∈N 2 ≤ k P –f.s. 243 sowie lim sup sup |Fn(t) − F (t)| t>tk−1,k n∈N ! ≤ lim sup n∈N sup |Fn(t) − 1| + sup |1 − F (t)| t>tk−1,k t>tk−1,k ≤ lim sup (1 − Fn(tk−1,k ) + 1 − F (tk−1,k )) n∈N = 2 1 − F (tk−1,k ) | {z } P –f.s. ≥ k−1 k | {z ≤ k1 } Da k ∈ N beliebig war, folgt insgesamt die Behauptung. 244 2 Beispiel 11.20 fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt für das Stichprobenmittel: n 1X fi →n∈N E(f1) P –f.s. µ̂n := n i=1 sowie für die Stichprobenvarianz: n σ̂n2 := = 1X (fi − µ̂n)2 n i=1 1 n n X i=1 →n∈N E(f12) fi2 1 n − n X !2 fi i=1 − E(f1)2 = σ 2(f1) P –f.s. Ist ferner (fn, gn), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvekto245 ren und f1, g1 quadratintegrierbar mit 0 < σ 2(f1), σ 2(g1), so gilt für die Stichprobenkovarianz ! ! n n n 1X 1X 1X figi − fi gi cov c n := n i=1 n i=1 n i=1 →n∈N E(f1g1) − E(f1)E(g1) P –f.s. = cov(f1, g1). 246 Damit gilt auch für den Stichprobenkorrelationskoeffizienten %̂n := = →n∈N = −1 wobei ν̂n := n Pn i=1 gi cov cn σ̂n(f )σ̂n(g) 1 Pn Pn Pn 1 1 i=1 fi gi − n i=1 fi i=1 gi n qn P 1 Pn n 1 2 2 i=1 (fi − µ̂n ) i=1 (gi − ν̂n ) n n cov(f1, g1) P –f.s. σ(f1)σ(g1) %(f1, g1) das Stichprobenmittel von g1, . . . , gn ist. 247 Somit gilt für den (einfachen) Stichprobenregressionskoeffizienten ân := = →n∈N cov cn σ̂n2 (f1) Pn 1 n i=1 fi gi − Pn 2 1 i=1 fi n 1 n Pn − 1 n Pn i=1 fi i=1 gi 2 Pn 1 i=1 fi n cov(f1, g1) P –f.s. σ 2(f1) Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1 gegen den jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente Schätzerfolgen. 248 Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der Regressionsgeraden von g1 auf f1 definieren: m̂n(t) := ân(t − µ̂n) + ν̂n =: ânt + b̂n →n∈N a∗(t − E(f1)) + E(g1) P –f.s., t ∈ R. Die Gerade m̂n(t) erhält man auch, wenn eine Gerade at + b so gewählt wird, dass die Summe der vertikalen Abstände der Datenpunkte (fi, gi), i = 1, . . . , n, von der Geraden minimal wird, d.h.5 n n X X (gi − ânfi − b̂n)2 = min (gi − afi − b)2. a,b i=1 i=1 Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und zunächst vorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand. 5 S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage. Vieweg, Braunschweig. 249 Bemerkung 11.21 Es gilt: 2 n n X X 1 1 fi − E(σ̂n2 ) = E fj n i=1 n j=1 2 n 1X fj = E f1 − n j=1 n−1 2 σ (f1), = n d.h. σ̂n2 ist kein erwartungstreuer Schätzer, wohl aber 2 n n X X n 1 1 f i − σ̃n2 := σ̂n2 = fj . n−1 n − 1 i=1 n j=1 250 Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen können auch zur approximativen Berechnung von Integralen eingesetzt werden: R Problem: g : [0, 1] → R sei eine (λ1–) integrierbare Funktion; bestimme [0,1] g(x) λ1(dx). Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobe f1, . . . , fn unabhängiger und auf dem Intervall [0, 1] gleichverteilter Zufallsvariablen (d.h. P ∗ fi = P ∗ f1 = λ1/[0, 1]), so gilt: n 1X g(fi) →n∈N E(g(f1)) P –f.s. n i=1 Z =8.17 g(x) λ1(dx). [0,1] Sind also x1, . . . , xn beobachtete Werte von f1, . . . , fn, d.h. xi = fi(ω), i = 1, . . . , n, 251 so gilt: g(x1) + · · · + g(xn) ≈ g(x) dx. n [0,1] x1, . . . , xn heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweise vom Computer nach gewissen Algorithmen erzeugt. Da diese somit aber nicht wirklich“ ” zufällig sind, spricht man in diesem Fall von Pseudozufallszahlen. Sie sollten sich wie echte“ Zufallszahlen verhalten, tun das aber nicht immer. . . 6 ” S. Bemerkung (3.43) in Georgii, H.-O. (2002). Stochastik. De Gruyter, Berlin. Z 6 252 12 Der Zentrale Grenzwertsatz fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Setze µ := E(f1). Wir hatten in Kapitel 11 gesehen, dass n 1X fi →n∈N µ P –f.s. n i=1 bzw. P ( n )! 1 X fi − µ ≥ ε →n∈N 0 n i=1 für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge εn > 0, n ∈ N, mit εn →n∈N 0 ersetzen, wie schnell darf dann εn gegen 0 konvergieren, so 253 dass ( n )! 1 X P fi − µ ≥ ε n →n∈N c ∈ (0, 1)? n i=1 √ Wir werden sehen, dass dies für εn ∼ 1/ n der Fall ist; genauer wird für t > 0 gelten: ( n )! 1 X σt →n∈N 2(1 − Φ(t)), P fi − µ ≥ √ n n i=1 wobei Z t 2 1 x Φ(t) := √ exp − dx 2 2π −∞ und σ 2 := σ 2(f1). Dies wird eine unmittelbare Folgerung aus dem Zentralen Grenzwertsatz sein, den wir in diesem Abschnitt beweisen werden. 254 Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion F bzw. G. Dann besitzt f + g die Verteilungsfunktion Z (F ∗ G)(t) = G(t − s) (P ∗ f )(ds) Z = G(t − s) F (ds) Z = F (t − s) (P ∗ g)(ds) Z = F (t − s) G(ds) . F ∗ G heißt Faltung von F und G. 255 Beweis: Es gilt: (F ∗ G)(t) = P Z ({f + g ≤ t}) 1(−∞,t](f + g) dP = ZΩ =8.17 ZR2 1(−∞,t](r + s) (P ∗ (f, g))(d(r, s)) 1(−∞,t](r + s) ((P ∗ f ) × (P ∗ g))(d(r, s)) Z Z =Fubini 1(−∞,t](r + s)(P ∗ g)(ds)(P ∗ f )(dr) ZR ZR = 1(−∞,t−r](s)(P ∗ g)(ds)(P ∗ f )(dr) ZR R = G(t − r) (P ∗ f )(dr). = R2 R 256 2 Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h1 bzw. h2. Dann besitzt f + g die Dichte Z Z (h1 ∗ h2)(t) := h1(t − s)h2(s) ds = h2(t − s)h1(s) ds. R R 257 Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1 besitzt f + g die Verteilungsfunktion (F ∗ G)(t)Z G(t − s) F (ds) = Z G(t − s)h1(s) ds ZR Z = h2(r) dr h1(s) ds ZR Z(−∞,t−s] =Subst. h2(r − s) dr h1(s) ds Z ZR (−∞,t] =Fubini h2(r − s)h1(s) ds dr Z(−∞,t] R =Def. (h1 ∗ h2)(r) dr. 258 =8.23 (−∞,t] Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung. 2 Definition 12.3 Das Wahrscheinlichkeitsmaß auf B1 mit der Dichte7 2 1 x ϕ(x) := √ exp − , x ∈ R, 2 2π heißt Standardnormalverteilung, i.Z. R N (0, 1). Die Verteilungsfunktion von N (0, 1) bezeichnen wir mit Φ, d.h. Φ(x) = (−∞,x] ϕ(y) dy. Bemerkung 12.4 Die Zufallsvariable f sei nach N (0, 1) verteilt. Dann gilt: 1. E(f ) = 0, 2. σ 2(f ) = 1. 7 S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim. 259 Beweis: 1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R. ” 260 2.“ Es gilt: ” Z ∞ x2ϕ(x) dx −∞ Z ∞ 2 1 x √ dx x x exp − 2 2π −∞ 2 ∞ x 1 =part. Int. √ x − exp − 2 2π −∞2 Z ∞ 1 x dx −√ 1 − exp − 2 2π −∞ Z = ∞ = ϕ(x) dx −∞ = 1. 2 261 Satz 12.5 Die Zufallsvariable f sei N (0, 1)–verteilt; σ > 0, µ ∈ R. Dann besitzt die Zufallsvariable g := σf + µ die Dichte 1 x−µ ϕ(µ,σ2)(x) := ϕ σ σ 2 (x − µ) 1 , x ∈ R. = √ exp − 2 2σ 2πσ Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz σ 2, i.Z. N (µ, σ 2), (denn E(g) = E(σf + µ) = µ, σ 2(g) = E((g − µ)2) = E((σf )2) = σ 2E(f 2) = σ 2). Beweis: S. Übungen. 2 262 Satz 12.6 (Faltungsth. der Normalverteilung) f1, . . . , fn seien unabhängige Zufallsvariablen mit P ∗ fi = N (µi, σi2), i = 1, . . . , n. Dann gilt: P ∗ (f1 + · · · + fn) = N (µ1 + · · · + µn, σ12 + · · · + σn2 ). Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für x, a, b ∈ R und σ 2, τ 2 > 0: (x − a)2 (x − b)2 + σ2 τ2 (x − c)2 (a − b)2 = + 2 2 % σ + τ2 mit aτ 2 + bσ 2 c := 2 , 2 σ +τ 263 σ 2τ 2 % := 2 . 2 σ +τ 2 (2) Ferner besitzt f1 + f2 nach 12.2 die Dichte Z ∞ ϕ(µ1,σ2)(y − x)ϕ(µ2,σ2)(x) dx h(y) = 1 2 −∞ Z ∞ (y − x − µ1)2 1 exp − = 2πσ1σ2 −∞ 2σ12 2 (x − µ2) × exp − dx 2 2σ2 Z ∞ 2 1 (x − c) =(2) exp − 2πσ1σ2 −∞ 2%2 2 (y − µ1 − µ2) dx × exp − 2(σ12 + σ22) 2 (y − µ1 − µ2) = const exp − 2(σ12 + σ22) = ϕ(µ1+µ2,σ2+σ2)(y). 1 2 264 2 Definition 12.7 f, fn, n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit Verteilungsfunktionen F, Fn, n ∈ N. fn, n ∈ N, heißt in Verteilung oder schwach konvergent gegen f , falls Fn(t) →n∈N F (t) für alle Stetigkeitsstellen von F , d.h. P ({fn ≤ t}) →n∈N P ({f ≤ t}), falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z. fn →D f (in distribution). 265 Beispiel 12.8 Es gelte P ∗ fn = δ1/n, n ∈ N, wobei δx0 das Dirac–Maß (Ein–Punkt– Maß) im Punkt x0 bezeichne, d.h. δx0 (B) = 1B (x0) = 1, falls x0 ∈ B, und 0 sonst, B ∈ B. Offenbar gilt: 1, t ≥ 1/n Fn(t) = 0, t < 1/n. Dann gilt: fn →D f mit Verteilungsfunktion F (t) = 1[0,∞)(t) = Fδ0 , denn offenbar gilt Fn(t) →n∈N F (t), t 6= 0, aber 0 = Fn(0), F (0) = 1. Die Verteilungskonvergenz einer Folge fn, n ∈ N, ist eine Aussage über die Verteilungen von fn. Sie ist daher von anderem Charakter als die fast sichere Konvergenz 266 oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischer Verteilung beliebig unterscheiden können. Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnung schwache Konvergenz“ rechtfertigt. ” P Satz 12.9 fn → f ⇒ fn →D f . Beweis: ∀ε > 0 ∃n0 ∈ N ∀n ≥ n0 : P ({|f − fn| > ε}) < ε. Wegen {f ≤ x − ε} ⊂ {fn ≤ x} ∪ {|fn − f | > ε}, {fn ≤ x} ⊂ {f ≤ x + ε} ∪ {|fn − f | > ε} gilt für alle n ≥ n0 Ff (x − ε) ≤ Ffn (x) + ε, Ffn (x) ≤ Ff (x + ε) + ε, also Ff (x − ε) − ε ≤ Ffn (x) ≤ Ff (x + ε) + ε, 267 d.h. Ffn (x) →n∈N Ff (x) für alle Stetigkeitsstellen von Ff . 2 Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω, fn(ω) := ω(−1)n, n ∈ N, f (ω) := ω. Dann gilt: 1. fn →D f (denn P ∗ fn = P ∗ f für alle n ∈ N), P 2. fn → 6 f (denn P ({|fn − f | > 1}) = 1 für alle ungeraden n). Definition 12.11 Setze K∞ := Menge der beliebig oft differenzierbaren Funktionen ψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß. Satz 12.12 Für Zufallsvariablen f, fn, n ∈ N, gilt: fn →D f ⇔ E(ψ(fn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞. 268 Beweis: ⇒“ Sei ψ ∈ K∞. Wähle a, b so, dass ” {x ∈ R : ψ(x) 6= 0} ⊂ I := (a, b] mit a, b 6∈ U := {x ∈ R : x Unstetigkeitsstelle von Ff }. U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen der gleichmäßigen Pm Stetigkeit von ψ auf [a, b] existiert zu ε > 0 eine Treppenfunktion e = i=1 aiI(ti−1,ti] mit a = t0 < t1 < · · · < tm = b, ti 6∈ U , i = 0, 1, . . . , m, so dass sup |ψ(x) − e(x)| < ε. x∈I Somit gilt: |E(ψ(fn)) − E(e(fn))| ≤ E(|ψ(fn) − e(fn)|) ≤ ε 269 und ebenso |E(ψ(f )) − E(e(f ))| ≤ E(|ψ(f ) − e(f )|) ≤ ε. Für e gilt nun: E(e(fn)) = = →n∈N m X i=1 m X i=1 m X aiP ({fn ∈ (ti−1, ti]}) ai (Ffn (ti) − Ffn (ti−1)) ai (Ff (ti) − Ff (ti−1)) i=1 = E(e(f )). 270 Wir erhalten also insgesamt: lim sup |E(ψ(fn)) − E(ψ(f ))| n∈N = lim sup |E(ψ(fn)) − E(e(fn)) n∈N +E(e(fn)) − E(e(f )) + E(e(f )) − E(ψ(f ))| ≤ 2ε. Hieraus folgt die Behauptung. ⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstellen von Ff ” sind, so existieren ein abgeschlossenes Intervall A und ein offenes Intervall O mit A ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ O und (P ∗ f )(O\A) < ε. 271 Ferner existieren8 ψ, ξ ∈ K∞ mit 1 A ≤ ψ ≤ 1I ≤ ξ ≤ 1O . Damit folgt: (P ∗ fn)(A) = ≤ ≤ ≤ ≤ 8 S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin. 272 E(1A(fn)) E(ψ(fn)) (P ∗ fn)(I) E(ξ(fn)) (P ∗ fn)(O) sowie (P ∗ f )(A) = ≤ ≤ ≤ ≤ E(1A(f )) E(ψ(f )) (P ∗ f )(I) E(ξ(f )) (P ∗ f )(O). Es folgt aus (P ∗ f )(O) − (P ∗ f )(A) < ε: lim sup |(P ∗ fn)(I) − (P ∗ f )(I)| < ε. n∈N Da ε > 0 beliebig war, folgt: (P ∗ fn)(I) →n∈N (P ∗ f )(I). Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion Ff von P ∗ f . Ferner seien 273 x = x1 > x2 > . . . Stetigkeitsstellen von Ff mit [ (xk+1, xk ]. (−∞, x] = k∈N Dann gilt mit Qn := P ∗ f , Q := P ∗ fn und Ik := (xk+1, xk ]: X Qn((−∞, x]) = Qn(Ik ) ≥ k∈N X Qn(Ik ) k≤K für ein beliebiges K ∈ N und damit lim inf Qn((−∞, x]) ≥ n∈N X k≤K 274 Q(Ik ), d.h. lim inf Qn((−∞, x]) ≥ n∈N X Q(Ik ) = Q((−∞, x]). k∈N Andererseits folgt mit diesen Argumenten lim sup Qn((−∞, x]) n∈N = lim sup Qn(1 − (x, ∞)) n∈N = 1 − lim inf Qn((x, ∞)) n∈N ≤ 1 − Q((x, ∞)) = Q((−∞, x]) und somit insgesamt lim Qn((−∞, x]) = Q((−∞, x]). n∈N 275 2 Lemma 12.13 f1, f2, f3 seien Zufallsvariablen, f3 sei von f1 und von f2 unabhängig. Dann gilt für alle stetigen und beschränkten Funktionen ψ : R → R: E (ψ(f1 + f3) − ψ(f2 + f3)) ≤ sup |E(ψ(f1 + q) − ψ(f2 + q))|. q∈Q 276 Beweis: Es gilt: E (ψ(f1 + f3) − ψ(f2 + f3)) Z =Fubini E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx) Z ≤ E (ψ(f1 + x) − ψ(f2 + x)) (P ∗ f3)(dx) ≤ sup |E(ψ(f1 + x) − ψ(f2 + x))| x∈R = sup |E(ψ(f1 + q) − ψ(f2 + q))|. q∈Q 2 Satz 12.14 (Zentraler Grenzwertsatz) fn, n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt mit µ := 277 E(f1), σ 2 := σ 2(f1) für t ∈ R: )! ( n 1 X fi − µ √ ≤t P n i=1 σ 2 Z t 1 x →n∈N Φ(t) := √ exp − dx 2 2π −∞ ⇔ 1 √ n n X i=1 ! fi − µ →D f, P ∗ f = N (0, 1). σ Beweis: 1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu f˜n := (fn − µ)/σ, n ∈ N. 2. fn∗, n ∈ N, sei eine Folge unabhängiger, N (0, 1)–verteilter Zufallsvariablen. Für 278 diese Folge gilt bereits nach 12.6 ∗ ∗ f1 + · · · + fn √ P∗ = N (0, 1), n d.h. ( )! n 1 X ∗ √ = Φ(t), t ∈ R, n ∈ N, P fi ≤ t n i=1 und damit E(ψ(Tn∗)) = E(ψ(f )) für alle ψ ∈ K∞, wobei f1∗ + · · · + fn∗ √ := n und f eine nach N (0, 1)–verteilte Zufallsvariable ist. √ Zu zeigen ist nun nach 12.12 mit Tn := (f1 + · · · + fn)/ n: E(ψ(Tn)) →n∈N E(ψ(f )) für alle ψ ∈ K∞, Tn∗ 279 d.h. E(ψ(Tn) − ψ(Tn∗)) →n∈N 0 für alle ψ ∈ K∞. 3. Da die Behauptung lediglich die Verteilung der fi, i ∈ N, betrifft, können wir annehmen, dass die fi und die fi∗ auf demselben Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind und sämtlich voneinander unabhängig sind. Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K∞ ψ(x + u) x2 0 00 = ψ(u) + ψ (u)x + ψ (u + ϑx,ux) 2 2 x = ψ(u) + ψ 0(u)x + ψ 00(u) + r(x, u)x2, 2 00 wobei 0 < ϑx,u < 1 und r(x, u) := (ψ (u + ϑx,ux) − ψ 00(u))/2. Da die Funktion ψ 00 stetig ist und ψ 00(x) = 0 für |x| hinreichend groß (d.h. ψ 00 besitzt einen kompakten Träger), ist ψ 00 beschränkt und gleichmäßig stetig, d.h. es 280 gilt sup |r(x, u)| < ∞ und sup |r(x, u)| →x→0 0. x,u u 4. Es gilt: ψ(Tn) − ψ(Tn∗) ∗ ∗ f1 + · · · + f n f1 + · · · + fn √ √ = ψ −ψ n n n ∗ X f1 + · · · + fi + fi+1 + · · · + fn∗ √ = ψ n i=1 ∗ ∗ f1 + · · · + fi−1 + fi + · · · + fn √ −ψ n n ∗ X fi fi √ √ = + Ui − ψ + Ui , ψ n n i=1 281 wobei ∗ f1 + · · · + fi−1 + fi+1 + · · · + fn∗ √ Ui := n √ √ von fi/ n und fi∗/ n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt daher |E(ψ(Tn) − ψ(Tn∗))| ∗ n X fi fi √ √ ≤ + U − ψ + U E ψ i i n n i=1 ∗ n X f f i i ≤ sup E ψ √ + q − ψ √ + q n n q∈Q i=1 ∗ f1 f1 . = n sup E ψ √ + q − ψ √ + q n n q∈Q 282 Nach 3. gilt f1 ψ √ +q n 2 2 f f f1 f 1 1 1 0 00 = ψ(q) + ψ (q) √ + ψ (q) + r √ , q , 2n n n n ∗ f ψ √1 + q n ∗ ∗2 ∗2 ∗ f f1 f f1 1 1 00 0 = ψ(q) + ψ (q) √ + ψ (q) + r √ ,q . 2n n n n 283 Wegen E(f1) = E(f1∗) = 0 und E(f12) = E(f1∗2) = 1 folgt damit: ∗ |E(ψ(Tn) − ψ(T ))| n ∗ 2 ∗2 f1 f1 f1 f1 r √ ,q − r √ ,q ≤ n sup E n n n n q∈Q ! f1 2 ≤ E f1 sup r √ , q n q∈Q ∗ ! f1 ∗2 +E f1 sup r √ , q n q∈Q →n∈N 0 nach 3. und dem Satz von der dominierten Konvergenz. 2 284 Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli führen zu der folgenden Verschärfung des obigen Satzes. Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt: ( )! n 1 X fi − µ √ sup P ≤t − Φ(t) →n∈N 0. σ n t∈R i=1 Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen fi, iP ∈ N, seien n unabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit Sn := i=1 fi für −∞ ≤ t1 ≤ t2 ≤ ∞ : )! ( Sn − np ≤ t2 P t1 ≤ p np(1 − p) 2 Z t2 1 x →n∈N √ exp − dx, 2 2π t1 285 bzw. max B(n, p)({k1, k1 + 1, . . . , k2}) k1 ,k2 ∈{0,...,n} √k2 −np np(1−p) − 1 √ 2π Z √k1 −np np(1−p) 2 x exp − dx 2 →n∈N 0. Beweis: Es gilt E(fi) = p, σ 2(fi) = p − p2 = p(1 − p). Die erste Behauptung folgt nun unmittelbar aus dem Zentralen Grenzwertsatz. 286 p p Ferner gilt mit t1 = (k1 − np)/( np(1 − p), t2 = (k2 − np)/( np(1 − p): ( )! Sn − np t1 ≤ p P ≤ t2 np(1 − p) = P ({k1 ≤ Sn ≤ k2}) = B(n, p)({k1, k1 + 1, . . . , k2}), s. Übungen. Die zweite Behauptung folgt damit aus 12.15. 2 Es ist also nach dem Satz von Moivre–Laplace möglich, die Wahrscheinlichkeit B(n, p)({k1, k1 + 1, . . . , k2}), deren exakte Berechnung auf die Summation unhandli cher Ausdrücke nk pk (1 − p)n−k hinausläuft, näherungsweise mittels der Verteilungsfunktion Φ zu berechnen, wenn n groß ist. Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen den beiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000 Wähler unterwer287 fen sich der Parteidisziplin und stimmen geschlossen für Kandidat A. Die übrigen 998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeit pA für einen Sieg von A? Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der 998000 unentschlossenen Wähler erhält. Die Anzahl f der A–Stimmen dieser Wähler ist B(998000, 1/2) 288 verteilt. Es folgt: pA = P ({f > 498000}) f − 998000 1 498000 − 998000 1 2 2 q > = P q 1 1 1 1 998000 998000 2 2 22 f − 998000 1 2 > −2, 002 ≈ P q 998000 1 1 22 ≈ 1 − Φ(−2, 002) = Φ(2, 002) ≈ 0, 977. 289 (Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt: f − 998000 1 2 ≤ −2, 002 1 − pA ≈ P q 998000 1 1 22 f − 998000 1 2 ≤ P q ≥ 2, 002 998000 1 1 22 1 ≤ 2, 0022 1 ≈ 4 3 ≥ .) ⇒ pA ∼ 4 290 2 Beispiel 12.18 Es gilt: lim n∈N exp(−n) n X i=0 i n i! ! 1 = . 2 Beweis: f1, f2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den Parametern λ1 bzw. λ2 > 0, d.h. es gilt für i = 1, 2: λki P ({fi = k}) = exp(−λi) , k! 291 k = 0, 1, . . . Dann ist f1 + f2 Poisson–verteilt zum Parameter λ1 + λ2: P ({f1 + f2 = k}) ∞ X = P ({f1 + f2 = k, f1 = i}) = = i=0 k X i=0 k X P ({f2 = k − i, f1 = i}) P ({f2 = k − i})P ({f1 = i}) i=0 k X λi1 λk−i 2 exp(−λ1) = exp(−λ2) (k − i)! i! i=0 k 1 X k i k−i = exp(−(λ1 + λ2)) λλ k! i=0 i 1 2 292 (λ1 + λ2)k = exp(−(λ1 + λ2)) , k! k = 0, 1, . . . Ferner gilt E(f1) = λ1, σ 2(f1) = λ1. Es sei nun fi, i ∈ N, eine Folge unabhängiger, identisch zum Parameter 1 Poisson– verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz: ( )! n 1 1 X √ (fi − 1) ≤ 0 →n∈N Φ(0) = . P 2 n i=1 Andererseits gilt: ( n X 1 √ (fi − 1) ≤ 0 P n i=1 ( n )! X = P fi ≤ n i=1 = exp(−n) n X ni i=0 293 i! , )! da Pn i=0 fi Poisson–verteilt ist zum Parameter n. 2 Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit beim Zentralen Grenzwertsatz. Satz 12.19 (Berry–Esseen) Es seien f1, f2, . . . unabhängige und identisch verteilte Zufallsvariablen. Ist 0 < σ 2 :=Var(f1) < ∞, γ := E(|f1 − µ|3) < ∞ mit µ := E(f1), so gilt: ( )! n 1 X fi − µ √ sup P ≤x − Φ(x) n i=1 σ x∈R γ 1 ≤ 0, 8 3 √ . σ n Beweis: S. Gänssler, P. und Stute, W. (1977). 294 2 Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog. Konfidenzinte (Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, fn, n ∈ N, ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen mit bekannter Varianz σ 2, aber unbekanntem Mittelwert µ, der geschätzt werden soll. Pn −1 Mit dem arithmetischen Mittel µ̂n := n i=1 fi erhalten wir eine Punktschätzung für µ. Allerdings wird µ̂n um den wahren Wert µ (zufällig) schwanken. Es erscheint daher vernünftig, zusätzlich zur Punktschätzung µ̂n ein Intervall In := [µ̂n − c, µ̂n + c] (mit dem Mittelpunkt µ̂n) anzugeben, von dem man weiß, dass es den unbekannten Mittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine Bereichsschätzung von µ. Problem: Wie soll c > 0 gewählt werden? 295 Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für µ zu erhalten. Andererseits darf c nicht zu klein gewählt werden, da In den Wert µ mit hoher Wahrscheinlichkeit enthalten soll. Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt: Wir wissen, dass für t ≥ 0 gilt: ( )! n 1 X fi − µ −t ≤ √ P ≤t n i=1 σ →n∈N Φ(t) − Φ(−t) = 2Φ(t) − 1, 296 wobei ( )! n X 1 fi − µ −t ≤ √ P ≤t n i=1 σ tσ tσ µ̂n − √ ≤ µ ≤ µ̂n + √ = P n n tσ tσ . = P µ ∈ µ̂n − √ , µ̂n + √ n n Wählen wir also tσ c := cn := √ (→n∈N 0!), n so erhalten wir P ({µ ∈ In}) →n∈N 2Φ(t) − 1. Dabei wählen wir nun t > 0 so, dass 2Φ(t) − 1 gleich der (hohen) vorgegebenen Wahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in In liegen soll. Ein typischer 297 Wert wäre 1 − α = 0, 95. Es soll also gelten: α 2Φ(t) − 1 = 1 − α ⇔ t = Φ 1− , 2 d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. uα/2. Damit erhalten wir uα/2σ uα/2σ →n∈N 1 − α P µ ∈ µ̂n − √ , µ̂n + √ n n und uα/2σ uα/2σ In(α) := µ̂n − √ , µ̂n + √ n n heißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α. Beachte, dass, wenn P ∗ fi = N (µ, σ 2), d.h. fi selbst normalverteilt, i = 1, 2, . . . , aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt: −1 P (µ ∈ In(α)) = 1 − α. 298 Literatur [1] Georgii, H.–G. (2002). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. De Gruyter, Berlin. [2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer, Heidelberg. [3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und Statistik. 6. Auflage. Vieweg, Braunschweig. [4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg. 299