Kapitel 12 Der zentrale Grenzwertsatz Dies ist fUr die Statistik vielleicht der wichtigste Satz uberhaupt. Er besagt in etwa: Kommt ein Zufallsgeschehen durch unabhangiges (additives) Zusammenwirken sehr vieler, sehr kleiner zufalliger Einfliisse zustande, so ist es normalverteilt. Dies ist eine gewisse Rechtfertigung vieler statistischer Verfahren, die auf die GauBverteilung grunden. In der statistischen Physik sind die Annahmen haufig in idealer Weise erflillt. In anderen Bereichen ist jedoch Vorsicht geboten. Etwas praziser lautet obige Feststellung: Sind ~i 'kleine unabhangige' Einftusse, so sind die Summen ''In = 6 + ... + ~n; ''In --t "l approximativ normalverteilt; genauer gesagt: ihre Verteilungen konvergieren gegen eine Normalverteilung in Verteilung. Unter anderem dazu wird die schwache Konvergenz benotigt. Wir werden in einem ersten Abschnitt den zentralen Grenzwertsatz formulieren und diskutieren. In einem zweiten Abschnitt beweisen wir ihn. Wir wahlen die elegante und somit kurze Version aus einem Vorlesungsskript von H.-G- Kellerer. Der Beweis ist analytisch und wir lernen wenig daraus uber die Wahrscheinlichkeit. 1m Rahmen dieser Vorlesung ist uns die Diskussion - welche das Verstandnis zum Ziel hat - wichtiger als der Beweis. :1-8 J.6 J.1 J ~;..- - j :J .::-J J.~ J .1..1 J.l :J.:JJ 1:J 12 - - '1 ~.l :J.:J8 ~-'.:'6 J. :J·1 J. :.:.: ::::' ~l. 8:J LJJ 8J:' lJJJ :101 :J.J~ :J.J:': J. :'1 :':JJ 1:J:J 6:JJ 1 Abbildung 12.1: Histogramme der Binomialverteilung zu p = 0,5 und n = 1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich zur Standardnormalverteilung (rechts). ~.8 ~6 :"..1 .1 :' . 8 1~ 1~. :.t.l :..1. :jB :) :.to ,t. :j.J :j :J~ 6~! 8~1 6~~ 8~~ 1:):) ~.~1 ~.~j :1. :1',;.' :' ~1 ~~~ 'l~~ 1:j~~ .\ Abbildung 12.2: Histogramme der Binomialverteilung zu p = 0,3 und n = 1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich zur Standardnormalverteilung (rechts). J. :1. J 6 8 1~, L': J.1 :!.J8 J.J6 J.J1 J.J:o 6J 8:, IJJ 6JJ I3JJ 1')~.I:J J. J·t J.J:J J. :)~. J. :.•1 ::.~ .J"j 1JJ Abbildung 12.3: Histogramme der Binomialverteilung zu p = 0, 1 und n = 1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich zur Standardnormalverteilung (rechts). Wenn wir das anschauliche Bild der sich einer Grenzdichte annahernden Dichten aus den Abbildungen 12.1, 12.2 und 12.3 vor Augen haben, ist klar, daB wir die Variablen standardisieren, d.h. auf einheitlichen Erwarungswert und einheitliche Varianz bringen mussen. Definition 12.1 Sei ~ eine quadratintegrierbare Zufallsvariable. Dann heiflt die Zufallsvariable = ~-lE(~), a wobei a = V(~)1/2 die zugehorige standardisierte Zufallsvariable. e Lemma 12.2 Seien 6, ... ,~n unabhiingige identisch verteilte quadratintegrierbare Zufallsvariablen. Ihr gemeinsamer Erwartungswert sei m und ihre gemeinsame VaTianz sei a2. Fiir die Summe Sn = 6 + ... + ~n ist dann S* = Sn - nm n v'na 2' Beweis Der Zahler hat Erwartungswert nm und deshalb ist S~ zentriert. Weil die ~i unabhangig sind, hat Sn die Varianz na2. Nach der Homogenitat der Varianz aus Lemma 6.1 gilt also V(S~) = (v'~aJna 2 2 = 1. Satz 12.1 (Zentraler Grenzwertsatz) Seien 6,6, ... unabhiingige Zufallsvariablen mit identischer Verteilung J-L, und den gemeinsamen ersten zwei Momenten lE(~i) men = m und 0 < V(~i) = a2 < 00. Die standardisierten Sum- S* = Sn - mn n Jna2 seien verteilt gemiip J-tn. Dann gilt: /Fn(x) - p(x)/ ~ ~~~. Satze dieses Typs findet man in P. GANSSLERand W. STUTE (1977). Wir formulieren den zentralen Grenzwertsatz nun in eine statistisch besser interpretierbare Form urn. Dazu bezeichnen wir die Verteilungsfunktion der Standardnormalverteilung N(O, 1) mit P. Damit gilt z.B. In vielen Anwendungen wie Biometrie und Medizinstatistik arbeitet man bevorzugt mit dem empirischen Mittel Man interessiert sich z.B. dafUr, ob {n eine gute Schatzung fUr lE(~i) = m ist. Dieselben Uberlegungen, die wir bei den Anwendungen des schwachen Gesetzes der groBen Zahlen angestellt haben, fiihren uns zum Problem, die \Vahrscheinlichkeit von Mengen des Typs zu bestimmen. Urn das in den Kontext des zentralen Grenzwertsatzes zu stellen, formulieren wir das urn: Der folgende Satz ist das klassische Beispiel, benannt nach De Moivre und Laplace (vergleiche die Portrait-Seite 18 folgende). In der folgenden Form wird der Satz z.B. in der Biometrie oder der Medizinstatistik haufig angewandt. Abbildung 12.4: Johann Carl Friedrich GauB: * 30. April 1777 in Brunswick, Duchy of Brunswick (jetzt Deutschland) t 23. Februar 1855 in Gottingen, Hannover Folgerung 12.1 (Zentraler Grenzwertsatz von De Moivre-Laplace) Seien ~i, i ~1, unabhiingige Bernoullivariablen mit Werten in {O,I} zur Erfolgswahrscheinlichkeit p = P( ~i = 1), mit 0 < p < 1, und mit Varianz (j2 = p(1 - p). Dann gilt Interessanterweise taucht hier die Normalverteilung auf. De Moivre lebte 1667- 1754, Laplace lebte 1749-1827und GauB 1777-1855.Also ist C.F. GauB sicher nicht der alleinige Vater der 'GauBverteilung'. Die Verteilungsfunktion if> kann nicht als geschlossener analytischer Ausdruck angegeben werden. Man kann sie aber approximieren und dann tabellieren. Wir geben ein Beispiel. Beispiel 12.1 1m Beispiel 6.6 hatten wir das Problem: Finde fiir unabhangige Bernoullivariablen t;,i mit lP'(t;,i = 1) = p = 1 - lP'(t;,i = 0), ein moglichst kleines n mit II' ( ~ ~ 6- P < 0, 01) 2 0, 95. Unter Verwendung des schwachen Gesetzes der groBen Zahlen fanden wir eine obere Schranke in der GroBenordnung 50.000. Wir konnen uns mit Hilfe des Satzes yon De Moivre-Laplace verbessern: Wegen p(1 - p) :c:; ~ gilt: lP'(IS~1 :c:; 0, OlJ p(l ~ p)) ~ lP' (IS:I :c:; 0,02vn) Da S~ fUr groBe n ungefahr standarnormalverteilt ist, konnen wir letzteres approximieren: durch Das heiBt, daB to,975 = 0, 02vn das O,975-Quantil der Standardnormalverteilung ist. Aus der Tabelle entnehmen wir fUr den rechten Wert die Zahl1,96: , also 98 und n ~ 9604. Gegeniiber ii = 50.000 haben wir uns also urn einen Faktor 5 verbessert. vn ~ 1m Sinne der statistisch orientierten Beispiele zum schwachen Gestez der groBen Zahlen schlagen wir eine Briicke zur Schatztheorie. Beispiel 12.2 Natiirlich kann man auch den allgemeinen zentralen Grenzwertsatz mit empirischen Mitteln formulieren. Einfache Um formulierung resultiert inl 1Wir schreiben am jetzt m fUr den Erwartungswert, weil m flir das signifikanzniveau vergeben ist. Asche auf das Dozelltenhaupt. (a E..;n ~ ~n- ~ lP m- m+ a) ~ E..;n cP(c) - cP(-E) = 2cP(E)-1. Wir stellen die Frage nach der Prazision bei vorgegebener Sicherheit, das heiBt wir wollen, daB z.B. die Prazision zu 95% gesichert ist. Dann brauchen wir 2cP(c:) - 1 = 0,95, d.h. cP(E) = 0,975, was fUr E ~ 1,96 stimmt. Den letzteren Wert entnehmen wir einer Tabelle. - lP ( ~n - E :::::: a a ) ..;n ~ m ~ ~n- + E ..;n - Jp> ( ~n - a 1,96 ..;n a ) ~ m ~ ~n- + 1,96..;n :::::: 0,95. Diese Vorgehensweise ist programmatisch fUr die elementare Schatztheorie. Man sagt, daB m im (zweiseitigen) Konfidenzintervall liegt mit Irrtumswahrscheinlichkeit 0,05=1-0,95. Das Intervall heiBt auch Konfidenzintervall zum Niveau a = 0,05. Man bemerke, daB dieses Intervall, bzw. seine Grenzen Zufallsvariablen sind. Fur die GauBverteilung gibt es ein paar Merkregeln fUr Konfidenzintervalle. Sie erklaren auch einige mysteriose Zahlen bei der Fehlerangabe bei Messungen. Beispiel 12.3 (a-Regeln) Ein Gefuhl fur die Verteilung vermitteln die folgenden 'a-Regeln', welche speziellen Intervallen, den Normal-, Referenzbereichen, ihre Wahrscheinlichkeit zuordnen. Die 1-, 2- und 3-Sigmaregel sind in der unteren Halfte der Tabellen 12.1 und 12.2 angegeben. Zeile 4 in Tabelle 12.1 bedeutet also von-bis m± 1· (T m± 2· (T m±3· (T m± 1,96·(T m± 2,58· (T m± 3,29· (T I Wahrscheinlichkeit % I I von-bis I Wahrscheinlichkeit 68,27 95,45 99,73 95 99 99,9 % I 68,27 95,45 99,73 95 99 99,9 ±1 ±2 ±3 ±1,96 ±2,58 ±3,29 Beispiel 12.4 (Simulation GauBischer Zufallsvariablen) Man findet haufig folgenden -zunachst anscheinend mysteri6sen - Algorithmus zur Erzeugung einer standardnormalverteilten Zufallsvariablen: Erzeuge unabhangige und in [0, 1] gleichverteilte Zufallsvariablen U1, Dann ist Die Erklarung beruht auf dem zentralen Grenzwertsatz: der UI, ... , Un gilt: ... , U12. Fur die Momente 2' V (Ui) - lE ( Ui2) - lE ()2 Ui - ~x31~- ~ Deswegen ist die standardisierte S* = ungefahr standardnormalverteilt. Jt0 X 2dx = ~- ~ = - "41 112, Zufallsvariable ",,12 LJi=l 12 = / 12 Ui - 12 2 = "'" Ui _ 6 J12/12 t:. Diese Simulation ist recht ungenau. Es gibt wesentlich bessere Methoden zur Simulation GauBischer ZufallsvariabIen, z.B. die exakte Methode yon Box-Muller, siehe etwa den Anhang yon G. WINKLER (2003b).