Kapitel 12 Der zentrale Grenzwertsatz

Werbung
Kapitel 12
Der zentrale Grenzwertsatz
Dies ist fUr die Statistik vielleicht der wichtigste Satz uberhaupt. Er besagt
in etwa: Kommt ein Zufallsgeschehen durch unabhangiges (additives) Zusammenwirken sehr vieler, sehr kleiner zufalliger Einfliisse zustande, so ist es
normalverteilt. Dies ist eine gewisse Rechtfertigung vieler statistischer Verfahren, die auf die GauBverteilung grunden. In der statistischen Physik sind
die Annahmen haufig in idealer Weise erflillt. In anderen Bereichen ist jedoch
Vorsicht geboten.
Etwas praziser lautet obige Feststellung: Sind ~i 'kleine unabhangige' Einftusse, so sind die Summen ''In = 6 + ... + ~n; ''In --t "l approximativ normalverteilt; genauer gesagt: ihre Verteilungen konvergieren gegen eine Normalverteilung in Verteilung. Unter anderem dazu wird die schwache Konvergenz
benotigt.
Wir werden in einem ersten Abschnitt den zentralen Grenzwertsatz formulieren und diskutieren. In einem zweiten Abschnitt beweisen wir ihn. Wir
wahlen die elegante und somit kurze Version aus einem Vorlesungsskript von
H.-G- Kellerer. Der Beweis ist analytisch und wir lernen wenig daraus uber
die Wahrscheinlichkeit. 1m Rahmen dieser Vorlesung ist uns die Diskussion
- welche das Verstandnis zum Ziel hat - wichtiger als der Beweis.
:1-8
J.6
J.1
J ~;..-
-
j
:J .::-J
J.~
J
.1..1
J.l
:J.:JJ
1:J
12
-
-
'1
~.l
:J.:J8
~-'.:'6
J. :J·1
J. :.:.:
::::'
~l.
8:J
LJJ
8J:'
lJJJ
:101
:J.J~
:J.J:':
J. :'1
:':JJ
1:J:J
6:JJ
1
Abbildung 12.1: Histogramme der Binomialverteilung zu p = 0,5 und n =
1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich
zur Standardnormalverteilung (rechts).
~.8
~6
:"..1
.1
:' .
8
1~
1~.
:.t.l
:..1. :jB
:)
:.to
,t.
:j.J
:j
:J~
6~!
8~1
6~~
8~~
1:):)
~.~1
~.~j
:1.
:1',;.'
:'
~1
~~~
'l~~
1:j~~
.\
Abbildung 12.2: Histogramme der Binomialverteilung zu p = 0,3 und n =
1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich
zur Standardnormalverteilung (rechts).
J.
:1.
J
6
8
1~,
L':
J.1
:!.J8
J.J6
J.J1
J.J:o
6J
8:,
IJJ
6JJ
I3JJ
1')~.I:J
J. J·t
J.J:J
J. :)~.
J. :.•1
::.~
.J"j
1JJ
Abbildung 12.3: Histogramme der Binomialverteilung zu p = 0, 1 und n =
1,10,100,1000 (jeweils links), die standardisierten Histogramme im Vergleich
zur Standardnormalverteilung (rechts).
Wenn wir das anschauliche Bild der sich einer Grenzdichte annahernden Dichten aus den Abbildungen 12.1, 12.2 und 12.3 vor Augen haben, ist klar, daB
wir die Variablen standardisieren, d.h. auf einheitlichen Erwarungswert und
einheitliche Varianz bringen mussen.
Definition 12.1 Sei ~ eine quadratintegrierbare Zufallsvariable. Dann heiflt
die Zufallsvariable
= ~-lE(~),
a
wobei a = V(~)1/2 die zugehorige standardisierte Zufallsvariable.
e
Lemma 12.2 Seien 6, ... ,~n unabhiingige identisch verteilte quadratintegrierbare Zufallsvariablen. Ihr gemeinsamer Erwartungswert sei m und ihre
gemeinsame VaTianz sei a2. Fiir die Summe Sn = 6 + ... + ~n ist dann
S* = Sn - nm
n
v'na
2'
Beweis Der Zahler hat Erwartungswert nm und deshalb ist S~ zentriert.
Weil die ~i unabhangig sind, hat Sn die Varianz na2. Nach der Homogenitat
der Varianz aus Lemma 6.1 gilt also
V(S~)
=
(v'~aJna
2
2
=
1.
Satz 12.1 (Zentraler Grenzwertsatz) Seien 6,6, ... unabhiingige Zufallsvariablen mit identischer Verteilung J-L, und den gemeinsamen ersten zwei
Momenten lE(~i)
men
=
m
und 0 < V(~i)
=
a2 <
00.
Die standardisierten Sum-
S* = Sn - mn
n
Jna2
seien verteilt gemiip J-tn. Dann gilt:
/Fn(x)
- p(x)/
~ ~~~.
Satze dieses Typs findet man in P. GANSSLERand W. STUTE (1977).
Wir formulieren den zentralen Grenzwertsatz nun in eine statistisch besser
interpretierbare Form urn. Dazu bezeichnen wir die Verteilungsfunktion der
Standardnormalverteilung N(O, 1) mit P. Damit gilt z.B.
In vielen Anwendungen wie Biometrie und Medizinstatistik arbeitet man
bevorzugt mit dem empirischen Mittel
Man interessiert sich z.B. dafUr, ob {n eine gute Schatzung fUr lE(~i) = m
ist. Dieselben Uberlegungen, die wir bei den Anwendungen des schwachen
Gesetzes der groBen Zahlen angestellt haben, fiihren uns zum Problem, die
\Vahrscheinlichkeit von Mengen des Typs
zu bestimmen. Urn das in den Kontext des zentralen Grenzwertsatzes zu
stellen, formulieren wir das urn:
Der folgende Satz ist das klassische Beispiel, benannt nach De Moivre und
Laplace (vergleiche die Portrait-Seite 18 folgende). In der folgenden Form
wird der Satz z.B. in der Biometrie oder der Medizinstatistik haufig angewandt.
Abbildung 12.4: Johann Carl Friedrich GauB: * 30. April 1777 in Brunswick,
Duchy of Brunswick (jetzt Deutschland) t 23. Februar 1855 in Gottingen,
Hannover
Folgerung 12.1 (Zentraler Grenzwertsatz von De Moivre-Laplace)
Seien ~i, i ~1, unabhiingige Bernoullivariablen mit Werten in {O,I} zur Erfolgswahrscheinlichkeit p = P( ~i = 1), mit 0 < p < 1, und mit Varianz
(j2 = p(1 - p). Dann gilt
Interessanterweise taucht hier die Normalverteilung auf. De Moivre lebte
1667- 1754, Laplace lebte 1749-1827und GauB 1777-1855.Also ist C.F. GauB
sicher nicht der alleinige Vater der 'GauBverteilung'.
Die Verteilungsfunktion if> kann nicht als geschlossener analytischer Ausdruck angegeben werden. Man kann sie aber approximieren und dann tabellieren. Wir geben ein Beispiel.
Beispiel 12.1 1m Beispiel 6.6 hatten wir das Problem: Finde fiir unabhangige Bernoullivariablen t;,i mit lP'(t;,i = 1) = p = 1 - lP'(t;,i = 0), ein moglichst
kleines n mit
II' ( ~ ~
6-
P < 0, 01) 2 0, 95.
Unter Verwendung des schwachen Gesetzes der groBen Zahlen fanden wir
eine obere Schranke in der GroBenordnung 50.000.
Wir konnen uns mit Hilfe des Satzes yon De Moivre-Laplace verbessern:
Wegen p(1 - p) :c:; ~ gilt:
lP'(IS~1 :c:; 0, OlJ
p(l ~
p)) ~ lP' (IS:I
:c:; 0,02vn)
Da S~ fUr groBe n ungefahr standarnormalverteilt ist, konnen wir letzteres
approximieren: durch
Das heiBt, daB to,975 = 0, 02vn das O,975-Quantil der Standardnormalverteilung ist. Aus der Tabelle entnehmen wir fUr den rechten Wert die Zahl1,96:
, also
98 und n ~ 9604. Gegeniiber ii = 50.000 haben wir uns also urn
einen Faktor 5 verbessert.
vn ~
1m Sinne der statistisch orientierten Beispiele zum schwachen Gestez der
groBen Zahlen schlagen wir eine Briicke zur Schatztheorie.
Beispiel 12.2 Natiirlich kann man auch den allgemeinen zentralen Grenzwertsatz mit empirischen Mitteln formulieren. Einfache Um formulierung resultiert inl
1Wir schreiben am jetzt m fUr den Erwartungswert, weil m flir das signifikanzniveau
vergeben ist. Asche auf das Dozelltenhaupt.
(a E..;n ~ ~n- ~
lP m-
m+
a) ~
E..;n
cP(c) - cP(-E)
= 2cP(E)-1.
Wir stellen die Frage nach der Prazision bei vorgegebener Sicherheit, das
heiBt wir wollen, daB z.B. die Prazision zu 95% gesichert ist. Dann brauchen
wir 2cP(c:) - 1 = 0,95, d.h. cP(E) = 0,975, was fUr E ~ 1,96 stimmt. Den
letzteren Wert entnehmen wir einer Tabelle.
-
lP ( ~n
- E
::::::
a
a )
..;n
~ m ~ ~n- + E ..;n
-
Jp> ( ~n -
a
1,96 ..;n
a )
~ m ~ ~n- + 1,96..;n
::::::
0,95.
Diese Vorgehensweise ist programmatisch fUr die elementare Schatztheorie.
Man sagt, daB m im (zweiseitigen) Konfidenzintervall
liegt mit Irrtumswahrscheinlichkeit 0,05=1-0,95. Das Intervall heiBt auch
Konfidenzintervall zum Niveau a = 0,05. Man bemerke, daB dieses Intervall, bzw. seine Grenzen Zufallsvariablen sind.
Fur die GauBverteilung gibt es ein paar Merkregeln fUr Konfidenzintervalle.
Sie erklaren auch einige mysteriose Zahlen bei der Fehlerangabe bei Messungen.
Beispiel 12.3 (a-Regeln) Ein Gefuhl fur die Verteilung vermitteln die folgenden 'a-Regeln', welche speziellen Intervallen, den Normal-, Referenzbereichen, ihre Wahrscheinlichkeit zuordnen. Die 1-, 2- und 3-Sigmaregel sind in
der unteren Halfte der Tabellen 12.1 und 12.2 angegeben. Zeile 4 in Tabelle
12.1 bedeutet also
von-bis
m± 1· (T
m± 2· (T
m±3· (T
m± 1,96·(T
m± 2,58· (T
m± 3,29· (T
I Wahrscheinlichkeit
%
I
I von-bis I Wahrscheinlichkeit
68,27
95,45
99,73
95
99
99,9
%
I
68,27
95,45
99,73
95
99
99,9
±1
±2
±3
±1,96
±2,58
±3,29
Beispiel 12.4 (Simulation GauBischer Zufallsvariablen) Man findet haufig
folgenden -zunachst anscheinend mysteri6sen - Algorithmus zur Erzeugung
einer standardnormalverteilten
Zufallsvariablen:
Erzeuge unabhangige und in [0, 1] gleichverteilte Zufallsvariablen U1,
Dann ist
Die Erklarung beruht auf dem zentralen Grenzwertsatz:
der UI, ... , Un gilt:
...
,
U12.
Fur die Momente
2'
V (Ui)
-
lE ( Ui2)
-
lE ()2
Ui
- ~x31~- ~
Deswegen ist die standardisierte
S* =
ungefahr standardnormalverteilt.
Jt0 X 2dx
= ~- ~ =
- "41
112,
Zufallsvariable
",,12
LJi=l
12
=
/
12
Ui - 12 2 = "'" Ui _ 6
J12/12
t:.
Diese Simulation ist recht ungenau.
Es gibt wesentlich bessere Methoden zur Simulation GauBischer ZufallsvariabIen, z.B. die exakte Methode yon Box-Muller, siehe etwa den Anhang yon
G. WINKLER (2003b).
Herunterladen