38 § 4 Grenzwertsätze Bevor wir uns mit den eigentlichen Grenzwertsätzen beschäftigen, stellen wir noch ein paar Begriffe zur Verfügung. Definition 4.1. a) Ist X eine Zufallsvariable mit dem Erwartungswert µ = E(X) und der Varianz σ 2 = V ar(X) > 0, so gilt für die Zufallsvariable Z := X −µ σ nach den Sätzen 2.11 und 2.14 E(Z) = 0 und V ar(Z) = 1 . Z heißt die zu X gehörende standardisierte Variable. b) Zwei Zufallsvariable X und Y auf demselben Wahrscheinlichkeitsraum (Ω, A, p) heissen gleichverteilt oder identisch verteilt, wenn ihre Verteilungsfunktionen übereinstimmen. c) Eine Folge (Xn )n≥1 von Zufallsvariablen konvergiert fast sicher gegen die Zufallsvariable X, wenn gilt p({ω ∈ Ω | lim Xn (ω) = X(ω)}) = 1 . n→∞ Beispiel 4.2. Wir betrachten einen einfachen Würfelwurf; dann ist Ω = {1, 2, 3, 4, 5, 6}, A = P(Ω) und 1 p(ω) = für alle ω ∈ Ω. Wird eine gerade Zahl gewürfelt, so wird ein Euro ausgezahlt; 6 sonst verliert der Spieler den Einsatz von einem Euro. Die Zufallsvariable X beschreibe dieses Spiel. Wird eine Primzahl gewürfelt, so gewinnt der Spieler einen Euro; sonst verliert er seinen Einsatz. Dieses Spiel wird durch Y beschrieben. Wir erhalten ω 1 2 3 X(ω) -1 1 -1 Y (ω) 1 -1 4 5 6 1 -1 1 1 -1 1 -1 und damit die Verteilungsfunktionen FX und FY mit FX (x) = FY (x) = 0 für x < −1 1 2 für − 1 ≤ x < 1 . 1 für 1 ≤ x Verschiedene Zufallsvariable können also dieselbe Verteilungsfunktion besitzen. Hier sind X und Y identisch verteilt. 39 4.1 Der Satz von de Moivre-Laplace Wir wollen nun motivieren, warum wir die Binomialverteilung für große n durch die Normalverteilung ersetzen dürfen. Es sei X B(n, p)−verteilt; dann besitzt die Verteilungsfunktion Sprungstellen in den Punkten 0, 1, . . . , n. Betrachten wir die zu X gehörende standardisierte Variable Z, so hat die zu Z gehörende Verteilungsfunktion Sprungstellen in den Punkten (n) uk = k−µ σ für k = 0, . . . , n . Z.B. hat die Verteilungsfunktion X für n = 12 und p = 0.25, d.h. µ = np = 3 und % 3 2 σ = np(1 − p) = die Sprungstellen 0, . . . , 12. Die zu Z = (X − 3) gehörende Vertei2 3 lungsfunktion hat die Sprungstellen 4 2 2 4 −2, − , − , 0, , , . . . , 6 . 3 3 3 3 Auf dem Intervall [k, k + 1[ gilt für die zu X gehörende Dichte fX : x ∈ [k, k + 1[ . fX (x) = Bn,p (k) , Für die zu Z gehörende Dichte fZ gilt fZ (z) = σBn,p (k) , (n) (n) für z ∈ [uk , uk+1 [ . Wir ersetzen nun die stückweise konstante Dichtefunktion fZ durch einen Polygonzug 1 1 (n) (n) (n) (n) mn . Dazu verbinden wir die Punkte (uk + , fZ (uk )) und (uk+1 + , fZ (uk+1 )). Wir 2σ 2σ nehmen nun an, dass dieser Polygonzug für n → ∞ gegen eine auf R differenzierbare Funktion ϕ konvergiert, und werden zeigen, dass sich als Grenzwert die Dichtefunktion der Normalverteilung ergibt. Wir berechnen bei fest vorgegebenem u ∈ R zunächst k in Abhängigkeit von n so, dass (n) (n) u ∈ [uk , uk+1 [ (n) gilt, vorausgesetzt u liegt zwischen u0 und u(n) n . Nun ist (n) uk = k+1−µ k−µ (n) ≤ u < uk+1 = σ σ genau dann, wenn d.h. wenn σu + µ − 1 < k ≤ σu + µ , % % u np(1 − p) + np − 1 < k ≤ u np(1 − p) + np gilt. Wir betrachten nun den Polygonzug mn an der Stelle u. Die Ableitung von mn an der Stelle u ergibt sich durch die Steigung des Polygonzuges, d.h. m$n (u) = σBn,p (k + 1) − σBn,p (k) 1 σ . 40 Aus der Rekursionsformel in Beispiel 3.3 folgt m$n (u) ' & np − k − (1 − p) (n − k)p − 1 = σ 2 Bn,p (k) . = σ Bn,p (k) (k + 1)(1 − p) (k + 1)(1 − p) 2 (n) (n) Ersetzen wir σBn,p (k) durch mn (uk ) und k durch σuk +µ, so erhalten wir wegen µ = np und µ(1 − p) = σ 2 : (n) m$n (u) = (n) σmn (uk ) = (n) mn (uk ) np − σuk − µ − (1 − p) (n) (σuk + µ + 1)(1 − p) (n) −(σ 2 uk + σ(1 − p)) (n) σuk (1 − p) + σ 2 + (1 − p) (n) (n) = mn (uk ) Wegen (n) |u − uk | = |u − (n) −(uk + 1−p ) σ (n) uk (1−p) σ +1+ 1−p σ . 1 1 k−µ (n) (n) | ≤ |uk+1 − uk | ≤ % σ σ np(1 − p) konvergiert uk für n → ∞ gegen u. Damit erhalten wir durch Grenzübergang für die Grenzfunktion ϕ die Beziehung ϕ$ (u) = −u · ϕ(u) . Dies ist eine homogene lineare Differentialgleichung 1. Ordnung für ϕ, deren Lösung sich zu ) ( 1 ϕ(u) = Cexp − u2 2 ergibt, wobei C so zu bestimmen ist, dass * ∞ ∞ ϕ(u) du = 1 1 gilt. Daraus folgt C = √ ; also ist ϕ die Dichtefunktion der Normalverteilung. 2π Satz 4.3. (Satz von de Moivre-Laplace) Es sei 0 < p < 1 und Xn B(n, p)-verteilt sowie Xn∗ die zu Xn gehörende standardisierte Zufallsvariable. Dann gilt für alle a < b: lim p(a ≤ Xn∗ ≤ b) = φ(b) − φ(a) . n→∞ Bemerkung 4.4. Numerische Experimente zeigen, dass eine ”gute” Näherung der Binomialverteilung durch die Normalverteilung vorliegt, wenn die Faustregel np(1 − p) > 9 41 erfüllt ist. Wir erhalten dann für die Bn,p −Verteilung und fZ ( k−µ ) 1 k−µ 1 1 σ ≈ ϕ( ) = √ exp − p(X = k) = Bn,p (k) = σ σ σ 2 σ 2π & k−µ σ '2 x − np p(X ≤ x) ≈ φ % np(1 − p) sowie die (durch eine sog. Stetigkeitskorrektur) verbesserten Näherungen x − np + 1 2 p(X ≤ x) ≈ φ % np(1 − p) und b − np + p(a ≤ X ≤ b) ≈ φ % 1 2 np(1 − p) −φ a − np − % 1 2 np(1 − p) . Wir wollen die letzten Überlegungen an einem Beispiel demonstrieren: Beispiel 4.5. Für viele Sportveranstaltungen in Stadien werden häufig Freikarten vergeben. Erfahrungsgemäß nutzen nur 85% der auf diese Weise geladenen Gäste ihre Freikarten. a) Es werden 200 Freikarten ausgegeben; wir berechnen die Wahrscheinlichkeit dafür, dass genau 170 Ehrenplätze belegt werden. b) Für eine Veranstaltung werden 200 Freikarten vergeben. Wie viele Ehrenplätze sind mindestens bereitzustellen, damit die Wahrscheinlichkeit, dass alle ins Stadion kommenden geladenen Ehrengäste jeweils noch einen freien Ehrenplatz vorfinden, mindestens 97.5% beträgt? Bezeichnen wir mit X die zufällige Anzahl der belegten Ehrenplätze, so ist X Bn,p −verteilt mit n = 200 und p = 0.85. Es ist µ = np = 170. Wegen np(1 − p) = 25.5 > 9 ist die Faustregel aus Bemerkung 4.4 erfüllt. % Um Teil a) zu beantworten, erhalten wir wegen σ = np(1 − p) ≈ 5.05 & ( 1 1 170 − 170 p(X = 170) ≈ √ exp − 2 σ σ 2π ( )2 ' 1 1 = √ exp(0) ≈ · 0.399 ≈ 0.079. 5.05 σ 2π ) 1 1 (Dabei können wir die Werte √ exp − x2 entweder mit einem Taschenrechner be2 2π rechnen oder aber einer Tabelle entnehmen.) Die Wahrscheinlichkeit, dass genau 170 Ehrenplätze belegt werden, beträgt also ungefähr 7.9 %. Um die zweite Frage zu beantworten, berechnen wir k so, dass p(X ≤ k) ≥ 0.975 42 gilt. Wir ersetzen die Wahrscheinlichkeit p(X ≤ k) durch k − np + φ % und erhalten die Bedingung 1 2 np(1 − p) & k − 170 + φ 5.05 1 2 ' ≥ 0.975 , woraus sich mit Hilfe der Tabelle für die Normalverteilung k − 170 + 5.05 1 2 ≥ 1.96 ergibt. Daraus erhalten wir k > 179.3 bzw. k ≥ 180. Also benötigt man mindestens 180 Ehrenplätze. 4.2 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz verallgemeinert das Ergebnis von Satz 4.3. Satz 4.6. Es seien X1 , . . . , Xn (stochastisch) unabhängige und identisch verteilte Zufallsvariable mit σ 2 = V ar(X1 ) > 0. Setzen wir µ := E(X1 ) und Sn := X1 + . . . + Xn , so gilt: & ' Sn − n · µ √ lim p a ≤ ≤ b = φ(b) − φ(a) . n→∞ σ· n Der Beweis ist mathematisch etwas anspruchsvoller, deshalb verzichten wir hier darauf. Folgerung 4.7. Betrachten wir in Satz 4.6 das symmetrische Intervall [−k, k], so erhalten wir wegen E(Sn ) = n · E(X1 ) = n · µ und V ar(Sn ) = n · V ar(X1 ) = nσ 2 die Beziehung Sn − E(Sn ) lim p −k ≤ % n→∞ d.h. ( V ar(Sn ) ≤ k = φ(k) − φ(−k) = 2 · φ(k) − 1 , % % ) lim p E(Sn ) − k V ar(Sn ) ≤ Sn ≤ E(Sn ) + k V ar(Sn ) = 2 · φ(k) − 1 . n→∞ Mit Bemerkung 3.26 erhalten wir also, dass die Summe von n unabhängigen und identisch verteilten Zufallsvariablen (als Faustregel) mit einer ungefähren Wahrscheinlichkeit von · 0.6826 in den Grenzen E(Sn ) ± 1 · · 0.9544 in den Grenzen E(Sn ) ± 2 · % % V ar(Sn ) V ar(Sn ) 43 · 0.9974 in den Grenzen E(Sn ) ± 3 · liegt. % V ar(Sn ) Beispiel 4.8. Wir betrachten einen fairen Würfel, der n-mal geworfen wird. Die Zufallsvariable Xi gebe das Ergebnis des i-ten Wurfs an. Wir können davon ausgehen, dass die Würfe unabhängig voneinander und unter gleichen Bedingungen stattfinden. Also können wir die Xi als unabhängig und identisch verteilt ansehen. In Abschnitt 2.2 haben wir den Erwartungswert E(X1 ) = 3, 5 berechnet. Für die Varianz erhalten wir V ar(X1 ) = 6 ( / i=1 7 i− 2 )2 · 1 35 = ≈ 2.917 . 6 12 Gehen wir einmal von 100 Würfen aus, so ergibt sich mit der obigen Faustregel wegen √ 291.7 ≈ 17.1, dass die Augensumme dann mit einer Wahrscheinlichkeit von · 0.6826 in den Grenzen 350 ± 1 · 17.1, also zwischen 332 und 368, · 0.9544 in den Grenzen 350 ± 2 · 17.1, also zwischen 315 und 385 · 0.9974 in den Grenzen 350 ± 3 · 17.1, also zwischen 298 und 402 liegt. 4.3 Starkes Gesetz der großen Zahlen Es gibt mehrere Versionen des in diesem Abschnitt aufgeführten Satzes. Wir begnügen uns mit einer ”mittleren” Variante, die das folgende Lemma verwendet Lemma 4.9. (Borel-Cantelli) Es sei A1 , A2 , . . . eine Folge von Ereignissen; wir definieren A∗ := {ω ∈ Ω | ω ∈ Ak für unendlich viele k} . a) Gilt ∞ / k=1 p(Ak ) < ∞, so ist p(A∗ ) = 0. b) Sind die Ak unabhängig und ist ∞ / k=1 p(Ak ) = ∞, so ist p(A∗ ) = 1. Beweis: Zu a) Es ist ω ∈ A∗ genau dann, wenn für jedes n ein (von ω abhhängiges) k ≥ n mit ω ∈ Ak existiert. Also ist A∗ = ∞ 1 0 Ak . n=1 k≥n Für jedes n ist nach Satz 1.6 ∗ p(A ) ≤ p &∞ 1 k=n ' Ak ≤ ∞ / k=n p(Ak ) , 44 und die rechte Seite strebt wegen der Konvergenz der unendlichen Reihe gegen 0. Zu b) Für 0 ≤ αi ≤ 1 gilt ln(1 − αi ) ≤ −αi . Damit folgt für N > n ln & N 2 ' N / (1 − αk ) ≤ − k=n αi . k=n Wegen der Unabhängigkeit der Ereignisse folgt p & N 0 k=n ' Ak = N 2 p(Ak ) = k=n N 2 & (1 − p(Ak )) ≤ exp − k=n N / ' p(Ak ) k=n Bei festem n strebt die rechte Seite für N → ∞ gegen 0. Also ist die Folge monoton fallend mit lim p N →∞ & N 0 ' . & N 0 k=n Ak ' N >n Ak = 0. Daraus folgt k=n p &∞ 0 k=n ' Ak = 0 und damit wegen der σ-Additivität p(A∗ ) = p &∞ ∞ 0 1 n=1 k=n ' Ak = p &∞ ∞ 1 0 n=1 k=n ' Ak ≤ ∞ / n=1 p &∞ 0 k=n ' Ak = 0 , also p(A∗ ) = 1. ! Satz 4.10. (Starkes Gesetz der großen Zahlen) Es sei X1 , X2 , . . . eine Folge von unkorrelierten Zufallsvariablen mit beschränkter Varianz, d.h. V ar(Xi ) ≤ M < ∞ für alle i . Dann konvergiert die Folge Zn := n 1/ (Xi − E(Xi )) n i=1 fast sicher gegen 0. Beweis: (1) Im ersten Beweisschritt zeigen wir, dass die Folge (Zn2 )n≥1 fast sicher gegen 0 konvergiert. O.B.d.A. können wir E(Xi ) = 0 annehmen. Da die Xi unkorreliert sind, gilt nach Übungsaufgabe 14 b) n2 n2 / / 1 1 M V ar(Zn2 ) = V ar 2 Xi = 4 V ar(Xi ) ≤ 2 . n i=1 n i=1 n Mit der Tschebyscheff-Ungleichung folgt daraus für jedes ε > 0 p(|Zn2 | ≥ ε) ≤ 1 M 2) ≤ V ar(Z . n ε2 ε2 n 2 45 Definieren wir nun die Ereignisse An,ε (für beliebiges, aber festes ε > 0) durch An,ε = {ω ∈ Ω | |Zn2 (ω)| ≥ ε}, so ist die Reihe ∞ / p(An,ε ) nach dem Majoranten-Kriterium konvergent. Nach dem Lemma n=1 von Borel-Cantelli ist also für die Menge A∗ε = ∞ 1 0 n=1 k≥n Ak,ε = {ω ∈ Ω | ω ∈ Ak,ε für unendlich viele k} die Wahrscheinlichkeit p(A∗ε ) = 0. Wir betrachten nun für k ∈ N die Mengen En,k = An,1/k und ∞ 1 0 1 Ek∗ = Em,k = {ω | |Zn2 (ω)| ≥ für unendlich viele n} . k n=1 m≥n Nach unseren Vorüberlegungen ist dann p(Ek∗ ) = 0. Betrachten wir E := ∞ 1 Ek∗ , k=1 so ist auch p(E) = 0, also p(E) = 1. Ist ω∈E= ∞ 0 Ek∗ , k=1 so existieren zu jedem k ∈ N nur endlich viele n ∈ N mit |Zn2 (ω)| ≥ Damit gilt für ω ∈ E 1 . k lim Zn2 (ω) = 0 . n→∞ (2) Zu m ∈ N gibt es genau ein n = n(m) ∈ N mit n2 ≤ m < (n + 1)2 . Wir vergleichen Zm mit Zn2 . Ist Sk = k / Xi , so gilt mit den Rechenregeln für die Varianz i=1 V ar(Sm − Sn2 ) = V ar( m / i=n2 +1 Xi ) = m / i=n2 +1 V ar(Xi ) ≤ M (m − n2 ) . Mit der Tschebyscheff-Ungleichung folgt für jedes ε > 0 p und damit ( ) 1 M 2 2| ≥ ε 2 | ≥ εn ) ≤ |S − S = p(|S − S (m − n2 ) m m n n n2 ε2 n 4 ∞ / & ' ∞ 1 M / m − n(m)2 2 p |S − S | ≥ ε ≤ m n(m) n(m)2 ε2 m=1 n(m)4 m=1 46 Nun ist n(m) = 1 für 1 ≤ m ≤ 3, n(m) = 2 für 4 ≤ m ≤ 8, n(m) = 3 für 9 ≤ m ≤ 15 usw., also n(m) = k für k 2 ≤ m ≤ (k + 1)2 − 1 . Damit gilt 2 ∞ (k+1) ∞ ∞ / / −1 m − k 2 / / m − n(m)2 1 k(2k + 1) = = (1 + 2 + . . . + 2k) = . 4 4 4 n(m) k k4 m=1 k=1 m=k2 k=1 k k=1 ∞ / Insgesamt ergibt sich somit wegen 2k + 1 ≤ 3k die Abschätzung ∞ / & ' ∞ 1 3M / 1 2 p |S − S | ≥ ε ≤ m n(m) n(m)2 ε2 k=1 k 2 m=1 und damit die Konvergenz der betrachteten Reihe. Das Lemma von Borel-Cantelli liefert dann 1 p(Bε∗ ) := p({ω ∈ Ω | |Sm (ω) − Sn(m)2 (ω)| ≥ ε für unendlich viele m}) = 0 . n(m)2 Für ω ∈ Ω \ Bε∗ existiert dann ein m1 (ε) ∈ N derart, dass für alle k ≥ m1 (ε) gilt: 1 |Sk (ω) − Sn(k)2 (ω)| < ε . n(k)2 Nach Teil (1) folgt für die Ereignisse Cm,ε = {ω ∈ Ω | und die Menge Cε∗ = 1 |Sn(m)2 (ω)| ≥ ε} n(m)2 ∞ 0 1 Ck,ε , m=1 k≥m dass p(Ω \ Cε∗ ) = 1 gilt; zu jedem ω ∈ Cε∗ existiert ein m2 (ε) ∈ N derart, dass für alle k ≥ m2 (ε) gilt: 1 |Sn(k)2 | < ε . n(k)2 Dann ist p(Bε∗ ∩ Cε∗ ) = p(Bε∗ ∪ Cε∗ ) = 1, und es gilt für alle ω ∈ Bε∗ ∩ Cε∗ und alle k ≥ max(m1 (ε), m2 (ε)): 1 1 1 |Sk (ω)| ≤ |Sk (ω) − Sn(k)2 (ω)| + |Sn(k)2 (ω)| < 2ε . 2 2 n(k) n(k) n(k)2 Wegen k ≥ n(k)2 folgt daraus auch für diese ω und hinreichend große k |Zk (ω)| = 1 |Sk (ω)| < 2ε . k 1 und erhalten für jedes k k 2 p({ω | |Zm (ω)| ≥ für unendlich viele m}) = 0 k und daraus, dass die Folge (Zm )m≥1 fast sicher gegen 0 konvergiert. Wie in Teil (1) setzen wir nun ε = ! 47 Bemerkungen 4.11. a) Émile Borel (* 7.1.1871 in Saint-Affrique, †3.2.1956 in Paris) hat 1909 eine etwas schwächere Version von Satz 4.10 für eine Bernoulli-Kette mit p = 12 bewiesen; Francesco Paolo Cantelli (*20.12.1875 in Palermo, †21.7.1966 in Rom) hat dies dann 1917 für 0 < p < 1 verallgemeinert. b) Betrachten wir eine unendliche Folge X1 , X2 , . . . von Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p, so kann Satz 4.10 folgendermaßen interpretiert werden: 1 Die Wahrscheinlichkeit, dass die relative Häufigkeit hn = (X1 + . . . + Xn ) gegen p n konvergiert, ist gleich 1. Ist etwa Xi = 1, wenn im i-ten Wurf eines Würfels eine 6 kommt und Xi = 0 sonst, 1 so ist Zn = hn − . Das schwache Gesetz der großen Zahlen besagt, dass für jedes 6 ε > 0 gilt 1 lim p(|hn − | ≥ ε) = 0 . n→∞ 6 Wäre nur dies richtig, so wäre es noch denkbar, dass für jedes ω beliebig große n existieren mit hn ≈ 1. 1 Das starke Gesetz der großen Zahlen besagt aber, dass hn fast sicher gegen kon6 vergiert. c) Satz 4.10 gilt auch unter schwächeren Voraussetzungen an die Zufallsvariablen. Beispiel 4.12. Für eine Primzahl p sei die Menge Ap definiert durch Ap := {n ∈ N | p teilt n} . Dann gibt es auf Ω := N kein Wahrscheinlichkeitsmaß q derart, dass die Ap unabhängig ∞ / 1 1 divergiert; man sind und q(Ap ) = gilt. Wir wissen, dass die harmonische Reihe p n=1 n kann sogar zeigen, dass die Reihe /1 p p∈P divergiert, wobei P die Menge der Primzahlen sei. Betrachten wir dann wie im Lemma von Borel-Cantelli die Menge A∗ := {n ∈ N | n ∈ Ap für unendlich viele p} , so müsste q(A∗ ) = 1 sein. Also müsste fast jede und damit mindestens eine natürliche Zahl durch unendlich viele Primzahlen teilbar sein.