Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 29. Oktober 2007 Statistik, Datenanalyse und Simulation 1. Statistik 1.1 Wahrscheinlichkeit Pragmatisch: p(E) = n(E) N für N sehr groß Kombination von Wahrscheinlichkeiten p(A oder B) = p(A) + p(B) − p(A und B) Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt p(A und B) = 0 Die Wahrscheinlichkeit, dass A und B zusammen auftreten, ist: p(A und B) = p(A) · p(B) falls die Ereignisse A und B unabhängig sind. Erwartungswerte und Momente Mittelwert: n X Ei · p(Ei ) Ē = hEi = i=1 Statistik, Datenanalyse und Simulation Wahrscheinlichkeitsdichte f (x) = dp dx Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1 normiert sein. Z ∞ f (x) ≥ 0 f (x)dx = 1 −∞ Erwartungswert der Funktion h(x) für kontinuierliche Zufallsgrößen: Z ∞ E[h(x)] = h(x) · f (x)dx −∞ Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall): Z ∞ E[x] = x̄ = x · f (x)dx −∞ Statistik, Datenanalyse und Simulation Varianz σ 2 : (σ = Standardabweichung) Z ∞ 2 (x − x̄)2 · f (x)dx = x 2 − x̄ 2 σ = −∞ Für diskrete Verteilungen: 1 σ = N 2 X P ( x)2 x − N 2 1 N 1 wird oft durch N−1 ersetzt, um Fehler nicht zu unterschätzen. (Freiheitsgrade!) Momente: Die Erwartungswerte von x n und von (x − hxi)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. Statistik, Datenanalyse und Simulation 1.2 Spezielle diskrete Verteilungen Kombinatorik: Für r verschiedene Objekte gibt es r ! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl von Möglichkeiten, r Objekte aus n verschiedenen Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist Pnr = n(n − 1)(n − 2) . . . (n − r + 1) = n! (n − r )! Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch r ! dividiert werden, und man erhält Pnr n n! r Cn = = = n! r r !(n − r )! Statistik, Datenanalyse und Simulation Diese ganzen Zahlen heißen Binomialkoeffizienten, und erscheinen im Binomialtheorem: n X n r n−r n (p + q) = p ·q r r =0 Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r ) = np r =0 Statistik, Datenanalyse und Simulation press any key Statistik, Datenanalyse und Simulation 1.2 Spezielle diskrete Verteilungen (Fortsetzung) Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r ) = np r =0 Die Varianz σ 2 ist 2 V [r ] = E[(r − hr i) ] = n X (r − hr i)2 P(r ) = np(1 − p) r =0 Statistik, Datenanalyse und Simulation Alternativer Beweis: Man geht aus von der Binomialentwicklung n f (t) = (pt + q) = n X n r =0 r pr t r q n−r und differenziert nach dem Parameter t n X n df n−1 rpr t r −1 q n−r = np(pt + q) = r dt r =0 Für t = 1 und mit p + q = 1 erhält man np = n X n r =0 r r n−r rp (1 − p) = n X rP(r ) = hr i r =0 Die Varianz erhält man in ähnlicher Weise und betrachtet d 2f dt 2 . Statistik, Datenanalyse und Simulation Beispiel: Wie groß ist die Wahrscheinlichkeit, mit n = 6 Würfen eines Würfels genau null mal die 6, genau zweimal die 6, und mindestens einmal die 6 zu erhalten? Für einen korrekten Würfel ist p = 1/6 und 0 6 1 5 6 P(0) = = 33,5% · 0 6 6 2 4 1 5 6 P(2) = · = 20,1% 6 6 2 P(≥ 1) = (1 − P(0)) = 66,5% Statistik, Datenanalyse und Simulation Numerische Berechnung von Stichprobenmittel und -varianz Bekannt sind die Formeln: n n 1 X 1X 2 xi s = (xi − x̄)2 , x̄ = n n−1 i=1 i=1 Die Berechnung erfordert zwei Schleifen über die Datenmenge. Sind große Datenmengen zu behandeln, kann dies auch in einer Schleife erledigt werden: !2 n n n X X X 1 1 1 s2 = (xi − x̄)2 = xi2 − xi , n−1 n−1 n i=1 i=1 Man bildet also die Summen: n X Sx = xi i=1 Sxx = n X i=1 xi2 i=1 und berechnet Mittelwert und Varianz gemäß: 1 1 1 x̄ = Sx s2 = Sxx − Sx2 , n n−1 n Statistik, Datenanalyse und Simulation Hierbei können Differenzen von großen Zahlen vorkommen. Dies kann wegen der endlichen Auflösung der Rechner zu numerischen Problemen führen. In diesem Fall ist es besser, eine erste grobe Näherung xe (etwa den ersten Messwert) zu benutzen: Tx = n X (xi − xe ) Txx = n X (xi − xe )2 i=1 i=1 und erhält 1 x̄ = xe + Tx n 1 s = n−1 2 Txx 1 2 − Tx , n Statistik, Datenanalyse und Simulation Die Poisson-Verteilung gibt die Wahrscheinlichkeit an, genau r Ereignisse zu erhalten, wenn die Zahl n der Versuche sehr groß und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem einzigen Versuch sehr klein ist, mit einem endlichen Mittelwert hr i = µ = np. Die Poisson-Verteilung kann als Grenzwert der Binomialverteilung abgeleitet werden und hat nur einen Parameter, nämlich den Mittelwert µ. Die Poisson-Verteilung ist gegeben durch: P(r ) = µr e−µ r! Ausgehend von P(0) = e−µ können weitere Werte mit der Rekursionsformel P(r + 1) = P(r ) · µ/(r + 1) berechnet werden. Statistik, Datenanalyse und Simulation Es ist leicht zu sehen, dass die Poisson-Verteilung korrekt auf 1 normiert ist. Der Mittelwert der Poisson-Verteilung ist hr i = µ. Die Varianz ergibt sich aus V [r ] = np(1 − p) für die Binomialverteilung. Mit p → 0 wird daraus V [r ] = σ 2 = np = µ. Die Poisson-Verteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt, wie zum Beispiel die Zahl von Kernreaktionen oder von Teilchenzerfällen oder die Zahl der gefangenen Fische in einem Angelwettbewerb. Statistik, Datenanalyse und Simulation 0.6 0.6 0.5 0.5 0.4 mu: 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 0.5 0.607 0.303 0.076 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.000 1 0.368 0.368 0.184 0.061 0.015 0.003 0.001 0.000 0.000 0.000 0.000 2 0.135 0.271 0.271 0.180 0.090 0.036 0.012 0.003 0.001 0.000 0.000 4 0.018 0.073 0.147 0.195 0.195 0.156 0.104 0.060 0.030 0.013 0.005 µ = 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 µ=1 0 0 2 4 6 8 10 0.35 0 2 4 6 8 10 0.35 0.3 0.3 0.25 0.25 0.2 µ=2 0.2 0.15 µ=4 0.15 0.1 0.1 0.05 0.05 0 0 0 2 4 6 8 10 0 2 Statistik, Datenanalyse und Simulation 4 6 8 10 Tod durch Pferdetritte in der preußischen Armee Seit 1898 wird in vielen Lehrbüchern die Zahl der in einem Zeitraum von 20 Jahren jährlich durch Huftritt getöteten preußischen Kavalleristen angegeben. Todesfälle r Corps-Jahre mit r Todesfällen Erwartete Zahl 0 1 2 3 4 5 6 109 108,7 65 66,3 22 20,2 3 4,1 1 0,6 0 0,07 0 0,01 Die Gesamtzahl von Todesfällen ist 122, und die mittlere Zahl von Toten pro Corps und pro Jahr ist µ = 122/200 = 0,61. Die Übereinstimmung zwischen den erwarteten und den beobachteten Zahlen ist sehr gut - eigentlich zu gut. Weitere Beispiele: Radioaktiver Zerfall Druckfehler pro Seite in Büchern Gleichzeitig gemachte wissenschaftliche Entdeckungen Statistik, Datenanalyse und Simulation Σ 200 1.3 Spezielle Wahrscheinlichkeitsdichten Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant zwischen den Grenzen x = a und x = b: 1 b−a a ≤ x < b f (x) = 0 außerhalb Mittelwert und Varianz sind: hxi = E[x] = a+b 2 V [x] = σ 2 = (b − a)2 12 Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben. Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0 und 1, die eine Varianz 1/12 hat. Statistik, Datenanalyse und Simulation Normalverteilung (Gauß-Verteilung): Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in der Praxis. (x−µ)2 1 − f (x) = √ e 2σ2 2πσ Die Normalverteilung wird von zwei Parametern bestimmt, dem Mittelwert µ und der Standardabweichung σ. Die Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung, abgekürzt N(0, 1). Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der Binomialverteilung für große Werte von n und r , und auf ähnliche Weise auch als Grenzfall der Poisson-Verteilung für große Werte von µ. Statistik, Datenanalyse und Simulation Z 1 dx N(0, 1) = 0,6827 = (1 − 0,3173) −1 Z 2 dx N(0, 1) = 0,9545 = (1 − 0,0455) −2 Z 3 dx N(0, 1) = 0,9973 = (1 − 0,0027) −3 FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise die Standardabweichung einer Gaußkurve zu schätzen. √ FWHM = 2σ 2ln2 = 2,355σ Statistik, Datenanalyse und Simulation 0.3 0.18 0.16 0.25 0.14 0.2 0.12 0.1 0.15 0.08 0.1 0.06 0.04 0.05 0.02 0 0 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 Binomialverteilung mit n = 10 Poisson-Verteilung mit µ = 6 √ und p = 0,6 im Vergleich mit und σ = 6 im Vergleich mit der Gauß-Verteilung mit µ = der Gauß-Verteilung. p np = 6 und σ = np(1 − p). Statistik, Datenanalyse und Simulation