Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 19. April 2011 Statistik, Datenanalyse und Simulation 1. Statistik 1.1 Wahrscheinlichkeit (Wiederholung) Pragmatisch: p(E) = n(E) N für N sehr groß Kombination von Wahrscheinlichkeiten p(A oder B) = p(A) + p(B) − p(A und B) Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt p(A und B) = 0 Die Wahrscheinlichkeit, dass A und B zusammen auftreten, ist: p(A und B) = p(A) · p(B) falls die Ereignisse A und B unabhängig sind. Erwartungswerte und Momente Mittelwert: n X Ei · p(Ei ) Ē = hEi = i=1 Statistik, Datenanalyse und Simulation Wahrscheinlichkeitsdichte f (x) = dp dx Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1 normiert sein. Z ∞ f (x) ≥ 0 f (x)dx = 1 −∞ Erwartungswert der Funktion h(x) für kontinuierliche Zufallsgrößen: Z ∞ E[h(x)] = h(x) · f (x)dx −∞ Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall): Z ∞ E[x] = x̄ = x · f (x)dx −∞ Statistik, Datenanalyse und Simulation Definitionen 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 f(x) f(n) Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsdichte eines Messwertes (=Zufallsvariable) 0 5 10 15 20 25 30 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 5 10 15 n 20 25 30 x f (n) diskret Normierung: X f (n) ≥ 0 f (n) = 1 f (x) kontinuierlich Z ∞ f (x) ≥ 0 f (x) dx = 1 −∞ n Wahrscheinlichkeit: p(n1 ≤ n ≤ n2 ) = n2 X n1 Z f (n) x2 p(x1 ≤ x ≤ x2 ) = f (x) dx x1 Statistik, Datenanalyse und Simulation Varianz σ 2 : (σ = Standardabweichung) Z ∞ 2 σ = (x − x̄)2 · f (x)dx = x 2 − x̄ 2 −∞ Für diskrete Verteilungen: 1 σ = N 2 X 2 x − ( x)2 N P 1 N 1 wird oft durch N−1 ersetzt, um Fehler nicht zu unterschätzen. (Freiheitsgrade!) Statistik, Datenanalyse und Simulation Momente Momente: Die Erwartungswerte von x n und von (x − hxi)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. Die Schiefe v (x) einer Zufallsvariablen x ist das auf die dritte Potenz der Standardabweichung bezogene zentrale Moment 3. Ordnung µ03 (x): v= µ03 E[(x − E[x])3 ] = σ3 σ3 Das 4te zentrale Moment bezogen auf die vierte Potenz der Standardabweichung bezeichnet man als Wölbung (Kurtosis). Statistik, Datenanalyse und Simulation 1.2 Spezielle diskrete Verteilungen (Wiederholung) Kombinatorik: Für r verschiedene Objekte gibt es r ! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl von Möglichkeiten, r Objekte aus n verschiedenen Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist Pnr = n(n − 1)(n − 2) . . . (n − r + 1) = n! (n − r )! Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch r ! dividiert werden, und man erhält Pr n n! Cnr = n = = n! r r !(n − r )! Statistik, Datenanalyse und Simulation press any key Statistik, Datenanalyse und Simulation 1.2 Spezielle diskrete Verteilungen (Fortsetzung) Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r ) = np r =0 Die Varianz σ 2 ist V [r ] = E[(r − hr i)2 ] = n X (r − hr i)2 P(r ) = np(1 − p) r =0 Statistik, Datenanalyse und Simulation Beweis: Man geht aus von der Binomialentwicklung n X n r r n−r f (t) = (pt + q) = pt q r n r =0 und differenziert nach dem Parameter t n X n df n−1 = np(pt + q) = rpr t r −1 q n−r dt r r =0 Für t = 1 und mit p + q = 1 erhält man np = n X n r =0 r r n−r rp (1 − p) = n X rP(r ) = hr i r =0 Die Varianz erhält man in ähnlicher Weise und betrachtet d 2f dt 2 . Statistik, Datenanalyse und Simulation Beispiel: Wie groß ist die Wahrscheinlichkeit, mit n = 6 Würfen eines Würfels genau null mal die 6, genau zweimal die 6, und mindestens einmal die 6 zu erhalten? Für einen korrekten Würfel ist p = 1/6 und 0 6 5 6 1 · = 33,5% P(0) = 6 6 0 2 4 1 5 6 P(2) = · = 20,1% 6 6 2 P(≥ 1) = (1 − P(0)) = 66,5% Statistik, Datenanalyse und Simulation Numerische Berechnung von Stichprobenmittel und -varianz Bekannt sind die Formeln: n n 1 X 1X 2 xi s = (xi − x̄)2 , x̄ = n n−1 i=1 i=1 Die Berechnung erfordert zwei Schleifen über die Datenmenge. Sind große Datenmengen zu behandeln, kann dies auch in einer Schleife erledigt werden: !2 n n n X X X 1 1 1 s2 = xi2 − (xi − x̄)2 = xi , n−1 n−1 n i=1 i=1 Man bildet also die Summen: n X Sx = xi i=1 Sxx = n X i=1 xi2 i=1 und berechnet Mittelwert und Varianz gemäß: 1 1 1 x̄ = Sx s2 = Sxx − Sx2 , n n−1 n Statistik, Datenanalyse und Simulation Hierbei können Differenzen von großen Zahlen vorkommen. Dies kann wegen der endlichen Auflösung der Rechner zu numerischen Problemen führen. In diesem Fall ist es besser, eine erste grobe Näherung xe (etwa den ersten Messwert) zu benutzen: Tx = n X (xi − xe ) Txx = i=1 n X (xi − xe )2 i=1 und erhält 1 x̄ = xe + Tx n 1 s = n−1 2 Txx 1 2 − Tx , n Statistik, Datenanalyse und Simulation Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 Mittelwert? Varianz? Statistik, Datenanalyse und Simulation Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 hli = s2 = 1X ni li = 20,028 cm N X 1 1 X 2 2 ni li − ni li N −1 N = 0,2176 cm2 Statistik, Datenanalyse und Simulation Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 hli = s2 = 1X ni li = 20,028 cm N X 1 1 X 2 2 ni li − ni li N −1 N = 0,2176 cm2 s l̄ = hli ± √ N = (20,028 ± 0,047) cm s s = s± p 2(N − 1) = (0,466 ± 0,033) cm Statistik, Datenanalyse und Simulation Beispiel für eine Stichprobe 12 "length.dat" Gauß(µ=20.028,σ=0.466) Gauß(µ=20.0,σ=0.5) 10 Häufigkeit 8 6 4 2 0 18.5 19 19.5 20 Länge / cm 20.5 21 Statistik, Datenanalyse und Simulation 21.5 Beispiel für eine Stichprobe Wie wahrscheinlich ist es, dass die Daten einer Gauß-Verteilung mit den ermittelten Parametern (µ = 20,028 cm und σ = 0,466 cm) entstammen? Statistik, Datenanalyse und Simulation Beispiel für eine Stichprobe Wie wahrscheinlich ist es, dass die Daten einer Gauß-Verteilung mit den ermittelten Parametern (µ = 20,028 cm und σ = 0,466 cm) entstammen? −→ Übungen Statistik, Datenanalyse und Simulation Die Poisson-Verteilung gibt die Wahrscheinlichkeit an, genau r Ereignisse zu erhalten, wenn die Zahl n der Versuche sehr groß und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem einzigen Versuch sehr klein ist, mit einem endlichen Mittelwert hr i = µ = np. Die Poisson-Verteilung kann als Grenzwert der Binomialverteilung abgeleitet werden und hat nur einen Parameter, nämlich den Mittelwert µ. Die Poisson-Verteilung ist gegeben durch: P(r ) = µr e−µ r! Ausgehend von P(0) = e−µ können weitere Werte mit der Rekursionsformel P(r + 1) = P(r ) · µ/(r + 1) berechnet werden. Statistik, Datenanalyse und Simulation Es ist leicht zu sehen, dass die Poisson-Verteilung korrekt auf 1 normiert ist. Der Mittelwert der Poisson-Verteilung ist hr i = µ. Die Varianz ergibt sich aus V [r ] = np(1 − p) für die Binomialverteilung. Mit p → 0 wird daraus V [r ] = σ 2 = np = µ. Die Poisson-Verteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt, wie zum Beispiel die Zahl von Kernreaktionen oder von Teilchenzerfällen oder die Zahl der gefangenen Fische in einem Angelwettbewerb. Statistik, Datenanalyse und Simulation 0.6 0.6 0.5 0.5 0.4 mu: 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 0.5 0.607 0.303 0.076 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.000 1 0.368 0.368 0.184 0.061 0.015 0.003 0.001 0.000 0.000 0.000 0.000 2 0.135 0.271 0.271 0.180 0.090 0.036 0.012 0.003 0.001 0.000 0.000 4 0.018 0.073 0.147 0.195 0.195 0.156 0.104 0.060 0.030 0.013 0.005 µ = 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 µ=1 0 0 2 4 6 8 10 0.35 0 2 4 6 8 10 0.35 0.3 0.3 0.25 0.25 0.2 µ=2 0.2 0.15 µ=4 0.15 0.1 0.1 0.05 0.05 0 0 0 2 4 6 8 10 0 2 Statistik, Datenanalyse und Simulation 4 6 8 10 Tod durch Pferdetritte in der preußischen Armee Seit 1898 wird in vielen Lehrbüchern die Zahl der in einem Zeitraum von 20 Jahren jährlich durch Huftritt getöteten preußischen Kavalleristen angegeben. Todesfälle r Corps-Jahre mit r Todesfällen Erwartete Zahl 0 1 2 3 4 5 6 109 108,7 65 66,3 22 20,2 3 4,1 1 0,6 0 0,07 0 0,01 Die Gesamtzahl von Todesfällen ist 122, und die mittlere Zahl von Toten pro Corps und pro Jahr ist µ = 122/200 = 0,61. Die Übereinstimmung zwischen den erwarteten und den beobachteten Zahlen ist sehr gut - eigentlich zu gut. Weitere Beispiele: Radioaktiver Zerfall Druckfehler pro Seite in Büchern Gleichzeitig gemachte wissenschaftliche Entdeckungen Statistik, Datenanalyse und Simulation Σ 200 1.3 Spezielle Wahrscheinlichkeitsdichten Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant zwischen den Grenzen x = a und x = b: 1 b−a a ≤ x < b f (x) = 0 außerhalb Mittelwert und Varianz sind: hxi = E[x] = a+b 2 V [x] = σ 2 = (b − a)2 12 Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben. Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0 und 1, die eine Varianz 1/12 hat. Statistik, Datenanalyse und Simulation Normalverteilung (Gauß-Verteilung): Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in der Praxis. (x−µ)2 1 − e 2σ2 f (x) = √ 2πσ Die Normalverteilung wird von zwei Parametern bestimmt, dem Mittelwert µ und der Standardabweichung σ. Die Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung, abgekürzt N(0, 1). Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der Binomialverteilung für große Werte von n und r , und auf ähnliche Weise auch als Grenzfall der Poisson-Verteilung für große Werte von µ. Statistik, Datenanalyse und Simulation Z 1 dx N(0, 1) = 0,6827 = (1 − 0,3173) −1 Z 2 dx N(0, 1) = 0,9545 = (1 − 0,0455) −2 Z 3 dx N(0, 1) = 0,9973 = (1 − 0,0027) −3 FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise die Standardabweichung einer Gaußkurve zu schätzen. √ FWHM = 2σ 2ln2 = 2,355σ Statistik, Datenanalyse und Simulation 0.18 0.3 0.16 0.25 0.14 0.12 0.2 0.1 0.15 0.08 0.06 0.1 0.04 0.05 0.02 0 0 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 Binomialverteilung mit n = 10 Poisson-Verteilung mit µ = 6 √ und p = 0,6 im Vergleich mit und σ = 6 im Vergleich mit der Gauß-Verteilung mit µ = der Gauß-Verteilung. p np = 6 und σ = np(1 − p). Statistik, Datenanalyse und Simulation Beispiel zur Gauß-Verteilung: Vollmond und Verkehrsunfälle Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um das zu ergründen wird die Zahl der Unfälle in vielen deutschen Städten verglichen, und man findet, dass in Hamburg die mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer Standardabweichung von 1,0 ist, und an den anderen Tagen ist sie 7,0 mit vernachlässigbar kleinem Fehler. Ist dieser Effekt signifikant? Statistik, Datenanalyse und Simulation Beispiel zur Gauß-Verteilung: Vollmond und Verkehrsunfälle Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um das zu ergründen wird die Zahl der Unfälle in vielen deutschen Städten verglichen, und man findet, dass in Hamburg die mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer Standardabweichung von 1,0 ist, und an den anderen Tagen ist sie 7,0 mit vernachlässigbar kleinem Fehler. Ist dieser Effekt signifikant? Aber dies hat in Wirklichkeit nichts zu bedeuten. Falls man in 200 Städten diese Untersuchung durchführt, dann ist die Wahrscheinlichkeit, dass in einer Stadt die Unfallrate um mehr als 3 Standardabweichungen vom Mittelwert nach oben abweicht: 1 − 0,9987200 = 0,23 Und diese Wahrscheinlichkeit ist nicht klein. Statistik, Datenanalyse und Simulation Integrierte Gaußfunktion Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet, Z x (t−µ)2 1 − e 2σ2 dt. Φ(x) = √ 2πσ −∞ In vielen Formelsammlungen finden sich Tabellen der integrierten standardisierten Gauß-Verteilung, Z z x2 1 e− 2 . F (x) = √ 2π −∞ Die integrierte Verteilungsfunktion kann durch die Gauß’sche Fehlerfunktion erf(x) ausgedrückt werden, Z x 2 2 e−t dt. erf(x) = √ π 0 1 x −µ Φ(x) = 1 + erf √ . 2 2σ Statistik, Datenanalyse und Simulation Integrierte Gaußfunktion 1 0.5*(1+erf(x)) 0.4*exp(-x*x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 Statistik, Datenanalyse und Simulation 3 Gammaverteilung Ziel ist die Berechnung der Wahrscheinlichkeitsdichte f (t) für die Zeitdifferenz t zwischen zwei Ereignissen, wobei die Ereignisse zufällig mit einer mittleren Rate λ auftreten. Als Beispiel kann der radioaktive Zerfall mit einer mittleren Zerfallsrate λ dienen. Die Wahrscheinlichkeitsdichte der Gammaverteilung ist gegeben durch Z ∞ x k −1 e−x mit Γ(z) = t z−1 e−t dt; Γ(z +1) = z! f (x; k ) = Γ(k ) 0 und gibt die Verteilung der Wartezeit t = x vom ersten bis zum k -ten Ereignis in einem Poisson-verteilten Prozess mit Mittelwert µ = 1 an. Die Verallgemeinerung für andere Werte von µ ist x k −1 µk e−µx f (x; k , µ) = Γ(k ) Statistik, Datenanalyse und Simulation Gammaverteilung 1 1.0*exp(-1.0*x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 Statistik, Datenanalyse und Simulation 5 χ2 -Verteilung Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0 und Varianz 1, so folgt die Summe 2 u=χ = n X xi2 i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist: 1 u n/2−1 −u/2 e 2 2 fn (u) = Γ(n/2) Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei (n − 2). Der Mittelwert ist n und die Varianz 2n. Statistik, Datenanalyse und Simulation χ2 -Verteilung Statistik, Datenanalyse und Simulation Charakteristische Funktion Ist x eine reelle Zufallsvariable mit der Verteilungsfunktion F (x) und der Wahrscheinlichkeitsdichte f (x), so bezeichnet man als ihre charakteristische Funktion den Erwartungswert der Größe exp(ıtx): ϕ(t) = E[exp(ıtx)] also im Fall einer kontinuierlichen Variablen ein Fourier-Integral mit seinen bekannten Transformationseigenschaften: Z ∞ ϕ(t) = exp(ıtx) f (x)dx −∞ Insbesondere gilt für die zentralen Momente: Z ∞ n λn = E[x ] = x n f (x)dx −∞ Z ∞ d n ϕ(t) (n) = x n exp(ıtx) f (x)dx ϕ (t) = dt n −∞ ϕ(n) (0) = ın λn Statistik, Datenanalyse und Simulation 1.4 Theoreme Das Gesetz der großen Zahl Angenommen, dass in n statistisch unabhängigen Experimenten das Ereignis j insgesamt nj mal aufgetreten ist. Die Zahlen nj folgen einer Binomialverteilung, und das Verhältnis hj = nj /n ist die entsprechende Zufallsvariable. Der Erwartungswert E[hj ] ist die Wahrscheinlichkeit pj für das Ereignis j: pj = E[hj ] = E[nj /n] Für die Varianz gilt dann (Binomialverteilung!): V [hj ] = σ 2 (hj ) = σ 2 (nj /n) = 1 1 · σ 2 (nj ) = 2 · npj (1 − pj ) 2 n n Da das Produkt pj (1 − pj ) immer ≤ 1 4 ist, gilt die Ungleichung σ 2 (hj ) < 1/n bekannt als das Gesetz der großen Zahl. Statistik, Datenanalyse und Simulation Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Statistik, Datenanalyse und Simulation Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Mittelwert? Statistik, Datenanalyse und Simulation Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Mittelwert? Varianz? Statistik, Datenanalyse und Simulation Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Mittelwert? Varianz? Gauß-Verteilung? Statistik, Datenanalyse und Simulation Illustration: Zentraler Grenzwertsatz 0.5 0.5 N=1 N=2 Gauss 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -3 -2 -1 0 1 2 3 0.5 -3 -2 -1 0 1 2 3 0.5 N=3 N=10 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 Dargestellt ist die Summe uniform verteilter Zufallszahlen im Vergleich zur Standardnormalverteilung. Statistik, Datenanalyse und Simulation 3