Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 31. Oktober 2007 Statistik, Datenanalyse und Simulation 1.2 Spezielle diskrete Verteilungen (Wiederholung) Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r ) = np r =0 Die Varianz σ 2 ist 2 V [r ] = E[(r − hr i) ] = n X (r − hr i)2 P(r ) = np(1 − p) r =0 Statistik, Datenanalyse und Simulation Die Poisson-Verteilung gibt die Wahrscheinlichkeit an, genau r Ereignisse zu erhalten, wenn die Zahl n der Versuche sehr groß und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem einzigen Versuch sehr klein ist, mit einem endlichen Mittelwert hr i = µ = np. Die Poisson-Verteilung kann als Grenzwert der Binomialverteilung abgeleitet werden und hat nur einen Parameter, nämlich den Mittelwert µ. Die Poisson-Verteilung ist gegeben durch: P(r ) = µr e−µ r! Der Mittelwert der Poisson-Verteilung ist hr i = µ. Die Varianz ergibt sich aus V [r ] = np(1 − p) für die Binomialverteilung. Mit p → 0 wird daraus V [r ] = σ 2 = np = µ. Statistik, Datenanalyse und Simulation 0.6 0.6 0.5 0.5 0.4 mu: 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 0.5 0.607 0.303 0.076 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.000 1 0.368 0.368 0.184 0.061 0.015 0.003 0.001 0.000 0.000 0.000 0.000 2 0.135 0.271 0.271 0.180 0.090 0.036 0.012 0.003 0.001 0.000 0.000 4 0.018 0.073 0.147 0.195 0.195 0.156 0.104 0.060 0.030 0.013 0.005 µ = 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 µ=1 0 0 2 4 6 8 10 0.35 0 2 4 6 8 10 0.35 0.3 0.3 0.25 0.25 0.2 µ=2 0.2 0.15 µ=4 0.15 0.1 0.1 0.05 0.05 0 0 0 2 4 6 8 10 0 2 Statistik, Datenanalyse und Simulation 4 6 8 10 1.3 Spezielle Wahrscheinlichkeitsdichten Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant zwischen den Grenzen x = a und x = b: 1 b−a a ≤ x < b f (x) = 0 außerhalb Mittelwert und Varianz sind: hxi = E[x] = a+b 2 V [x] = σ 2 = (b − a)2 12 Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben. Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0 und 1, die eine Varianz 1/12 hat. Statistik, Datenanalyse und Simulation Normalverteilung (Gauß-Verteilung): Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in der Praxis. (x−µ)2 1 − f (x) = √ e 2σ2 2πσ Die Normalverteilung wird von zwei Parametern bestimmt, dem Mittelwert µ und der Standardabweichung σ. Die Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung, abgekürzt N(0, 1). Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der Binomialverteilung für große Werte von n und r , und auf ähnliche Weise auch als Grenzfall der Poisson-Verteilung für große Werte von µ. Statistik, Datenanalyse und Simulation Z 1 dx N(0, 1) = 0,6827 = (1 − 0,3173) −1 Z 2 dx N(0, 1) = 0,9545 = (1 − 0,0455) −2 Z 3 dx N(0, 1) = 0,9973 = (1 − 0,0027) −3 FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise die Standardabweichung einer Gaußkurve zu schätzen. √ FWHM = 2σ 2ln2 = 2,355σ Statistik, Datenanalyse und Simulation 0.3 0.18 0.16 0.25 0.14 0.2 0.12 0.1 0.15 0.08 0.1 0.06 0.04 0.05 0.02 0 0 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 Binomialverteilung mit n = 10 Poisson-Verteilung mit µ = 6 √ und p = 0,6 im Vergleich mit und σ = 6 im Vergleich mit der Gauß-Verteilung mit µ = der Gauß-Verteilung. p np = 6 und σ = np(1 − p). Statistik, Datenanalyse und Simulation press any key Statistik, Datenanalyse und Simulation Beispiel zur Gauß-Verteilung: Vollmond und Verkehrsunfälle Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um das zu ergründen wird die Zahl der Unfälle in vielen deutschen Städten verglichen, und man findet, dass in Hamburg die mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer Standardabweichung von 1,0 ist, und an den anderen Tagen ist sie 7,0 mit vernachlässigbar kleinem Fehler. Ist dieser Effekt signifikant? Statistik, Datenanalyse und Simulation Beispiel zur Gauß-Verteilung: Vollmond und Verkehrsunfälle Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um das zu ergründen wird die Zahl der Unfälle in vielen deutschen Städten verglichen, und man findet, dass in Hamburg die mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer Standardabweichung von 1,0 ist, und an den anderen Tagen ist sie 7,0 mit vernachlässigbar kleinem Fehler. Ist dieser Effekt signifikant? Aber dies hat in Wirklichkeit nichts zu bedeuten. Falls man in 200 Städten diese Untersuchung durchführt, dann ist die Wahrscheinlichkeit, dass in einer Stadt die Unfallrate um mehr als 3 Standardabweichungen vom Mittelwert nach oben abweicht: 1 − 0,9987200 = 0,23 Und diese Wahrscheinlichkeit ist nicht klein. Statistik, Datenanalyse und Simulation Integrierte Gaußfunktion Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet, Z x (t−µ)2 1 − e 2σ2 dt. Φ(x) = √ 2πσ −∞ In vielen Formelsammlungen finden sich Tabellen der integrierten standardisierten Gauß-Verteilung, Z z x2 1 F (x) = √ e− 2 . 2π −∞ Die integrierte Verteilungsfunktion kann durch die Gauß’sche Fehlerfunktion erf(x) ausgedrückt werden, Z x 2 2 erf(x) = √ e−t dt. π 0 1 x −µ Φ(x) = 1 + erf √ . 2 2σ Statistik, Datenanalyse und Simulation Integrierte Gaußfunktion 1 0.5*(1+erf(x)) 0.4*exp(-x*x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 Statistik, Datenanalyse und Simulation 3 Gammaverteilung Ziel ist die Berechnung der Wahrscheinlichkeitsdichte f (t) für die Zeitdifferenz t zwischen zwei Ereignissen, wobei die Ereignisse zufällig mit einer mittleren Rate λ auftreten. Als Beispiel kann der radioaktive Zerfall mit einer mittleren Zerfallsrate λ dienen. Die Wahrscheinlichkeitsdichte der Gammaverteilung ist gegeben durch Z ∞ x k −1 e−x f (x; k ) = t z−1 e−t dt; Γ(z +1) = z! mit Γ(z) = Γ(k ) 0 und gibt die Verteilung der Wartezeit t = x vom ersten bis zum k -ten Ereignis in einem Poisson-verteilten Prozess mit Mittelwert µ = 1 an. Die Verallgemeinerung für andere Werte von µ ist x k −1 µk e−µx f (x; k , µ) = Γ(k ) Statistik, Datenanalyse und Simulation Gammaverteilung 1 1.0*exp(-1.0*x) 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 Statistik, Datenanalyse und Simulation 5 χ2 -Verteilung Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0 und Varianz 1, so folgt die Summe 2 u=χ = n X xi2 i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist: 1 u n/2−1 −u/2 e 2 2 fn (u) = Γ(n/2) Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei (n − 2). Der Mittelwert ist n und die Varianz 2n. Statistik, Datenanalyse und Simulation χ2 -Verteilung Statistik, Datenanalyse und Simulation 1.4 Theoreme Das Gesetz der großen Zahl Angenommen, dass in n statistisch unabhängigen Experimenten das Ereignis j insgesamt nj mal aufgetreten ist. Die Zahlen nj folgen einer Binomialverteilung, und das Verhältnis hj = nj /n ist die entsprechende Zufallsvariable. Der Erwartungswert E[hj ] ist die Wahrscheinlichkeit pj für das Ereignis j: pj = E[hj ] = E[nj /n] Für die Varianz gilt dann (Binomialverteilung!): V [hj ] = σ 2 (hj ) = σ 2 (nj /n) = 1 1 · σ 2 (nj ) = 2 · npj (1 − pj ) 2 n n Da das Produkt pj (1 − pj ) immer ≤ 1 4 ist, gilt die Ungleichung σ 2 (hj ) < 1/n bekannt als das Gesetz der großen Zahl. Statistik, Datenanalyse und Simulation Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Statistik, Datenanalyse und Simulation