Statistik, Datenanalyse und Simulation

Werbung
Statistik, Datenanalyse und Simulation
Dr. Michael O. Distler
[email protected]
Mainz, 29. Oktober 2007
Statistik, Datenanalyse und Simulation
1. Statistik
1.1 Wahrscheinlichkeit
Pragmatisch: p(E) = n(E)
N für N sehr groß
Kombination von Wahrscheinlichkeiten
p(A oder B) = p(A) + p(B) − p(A und B)
Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt
p(A und B) = 0
Die Wahrscheinlichkeit, dass A und B zusammen auftreten, ist:
p(A und B) = p(A) · p(B)
falls die Ereignisse A und B unabhängig sind.
Erwartungswerte und Momente
Mittelwert:
n
X
Ei · p(Ei )
Ē = hEi =
i=1
Statistik, Datenanalyse und Simulation
Wahrscheinlichkeitsdichte
f (x) =
dp
dx
Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1
normiert sein.
Z ∞
f (x) ≥ 0
f (x)dx = 1
−∞
Erwartungswert der Funktion h(x) für kontinuierliche
Zufallsgrößen:
Z ∞
E[h(x)] =
h(x) · f (x)dx
−∞
Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall):
Z ∞
E[x] = x̄ =
x · f (x)dx
−∞
Statistik, Datenanalyse und Simulation
Varianz σ 2 : (σ = Standardabweichung)
Z ∞
2
(x − x̄)2 · f (x)dx = x 2 − x̄ 2
σ =
−∞
Für diskrete Verteilungen:
1
σ =
N
2
X
P
( x)2
x −
N
2
1
N
1
wird oft durch N−1
ersetzt, um Fehler nicht zu unterschätzen.
(Freiheitsgrade!)
Momente: Die Erwartungswerte von x n und von (x − hxi)n
werden n-te algebraische Momente µn und n-te zentrale
Momente µ0n genannt.
Statistik, Datenanalyse und Simulation
1.2 Spezielle diskrete Verteilungen
Kombinatorik: Für r verschiedene Objekte gibt es r !
verschiedene Möglichkeiten, die Objekte in einer Reihe
anzuordnen. Die Zahl von Möglichkeiten, r Objekte aus n
verschiedenen Objekten auszuwählen, wobei es auf die
Reihenfolge der Auswahl ankommt, ist
Pnr = n(n − 1)(n − 2) . . . (n − r + 1) =
n!
(n − r )!
Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss
die obenstehende Zahl durch r ! dividiert werden, und man
erhält
Pnr
n
n!
r
Cn =
=
=
n!
r
r !(n − r )!
Statistik, Datenanalyse und Simulation
Diese ganzen Zahlen heißen Binomialkoeffizienten, und
erscheinen im Binomialtheorem:
n X
n r n−r
n
(p + q) =
p ·q
r
r =0
Binomialverteilung Häufige Fragestellung: Sei p die
Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem
Versuch - wie groß ist die Wahrscheinlichkeit, dass das
Ereignis bei n Versuchen r-mal eintritt?
n r
P(r ) =
p · (1 − p)n−r
r
P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p.
Der Mittelwert von r ist:
hr i = E[r ] =
n
X
rP(r ) = np
r =0
Statistik, Datenanalyse und Simulation
press any key
Statistik, Datenanalyse und Simulation
1.2 Spezielle diskrete Verteilungen (Fortsetzung)
Binomialverteilung Häufige Fragestellung: Sei p die
Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem
Versuch - wie groß ist die Wahrscheinlichkeit, dass das
Ereignis bei n Versuchen r-mal eintritt?
n r
P(r ) =
p · (1 − p)n−r
r
P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p.
Der Mittelwert von r ist:
hr i = E[r ] =
n
X
rP(r ) = np
r =0
Die Varianz σ 2 ist
2
V [r ] = E[(r − hr i) ] =
n
X
(r − hr i)2 P(r ) = np(1 − p)
r =0
Statistik, Datenanalyse und Simulation
Alternativer Beweis: Man geht aus von der Binomialentwicklung
n
f (t) = (pt + q) =
n X
n
r =0
r
pr t r q n−r
und differenziert nach dem Parameter t
n X
n
df
n−1
rpr t r −1 q n−r
= np(pt + q)
=
r
dt
r =0
Für t = 1 und mit p + q = 1 erhält man
np =
n X
n
r =0
r
r
n−r
rp (1 − p)
=
n
X
rP(r ) = hr i
r =0
Die Varianz erhält man in ähnlicher Weise und betrachtet
d 2f
dt 2
.
Statistik, Datenanalyse und Simulation
Beispiel:
Wie groß ist die Wahrscheinlichkeit, mit n = 6 Würfen eines
Würfels genau null mal die 6, genau zweimal die 6, und
mindestens einmal die 6 zu erhalten? Für einen korrekten
Würfel ist p = 1/6 und
0 6 1
5
6
P(0) =
= 33,5%
·
0
6
6
2 4 1
5
6
P(2) =
·
= 20,1%
6
6
2
P(≥ 1) = (1 − P(0)) = 66,5%
Statistik, Datenanalyse und Simulation
Numerische Berechnung von Stichprobenmittel und -varianz
Bekannt sind die Formeln:
n
n
1 X
1X
2
xi
s =
(xi − x̄)2 ,
x̄ =
n
n−1
i=1
i=1
Die Berechnung erfordert zwei Schleifen über die Datenmenge.
Sind große Datenmengen zu behandeln, kann dies auch in
einer Schleife erledigt werden:

!2 
n
n
n
X
X
X
1
1
1

s2 =
(xi − x̄)2 =
xi2 −
xi  ,
n−1
n−1
n
i=1
i=1
Man bildet also die Summen:
n
X
Sx =
xi
i=1
Sxx =
n
X
i=1
xi2
i=1
und berechnet Mittelwert und Varianz gemäß:
1
1
1
x̄ = Sx
s2 =
Sxx − Sx2 ,
n
n−1
n
Statistik, Datenanalyse und Simulation
Hierbei können Differenzen von großen Zahlen vorkommen.
Dies kann wegen der endlichen Auflösung der Rechner zu
numerischen Problemen führen. In diesem Fall ist es besser,
eine erste grobe Näherung xe (etwa den ersten Messwert) zu
benutzen:
Tx =
n
X
(xi − xe )
Txx =
n
X
(xi − xe )2
i=1
i=1
und erhält
1
x̄ = xe + Tx
n
1
s =
n−1
2
Txx
1 2
− Tx ,
n
Statistik, Datenanalyse und Simulation
Die Poisson-Verteilung gibt die Wahrscheinlichkeit an, genau r
Ereignisse zu erhalten, wenn die Zahl n der Versuche sehr
groß und die Wahrscheinlichkeit für das Auftreten eines
Ereignisses p in einem einzigen Versuch sehr klein ist, mit
einem endlichen Mittelwert hr i = µ = np. Die
Poisson-Verteilung kann als Grenzwert der Binomialverteilung
abgeleitet werden und hat nur einen Parameter, nämlich den
Mittelwert µ. Die Poisson-Verteilung ist gegeben durch:
P(r ) =
µr e−µ
r!
Ausgehend von P(0) = e−µ können weitere Werte mit der
Rekursionsformel
P(r + 1) = P(r ) · µ/(r + 1)
berechnet werden.
Statistik, Datenanalyse und Simulation
Es ist leicht zu sehen, dass die Poisson-Verteilung korrekt auf 1
normiert ist.
Der Mittelwert der Poisson-Verteilung ist hr i = µ.
Die Varianz ergibt sich aus V [r ] = np(1 − p) für die
Binomialverteilung. Mit p → 0 wird daraus V [r ] = σ 2 = np = µ.
Die Poisson-Verteilung tritt in vielen Fällen auf, in denen man
Dinge oder Ereignisse zählt, wie zum Beispiel die Zahl von
Kernreaktionen oder von Teilchenzerfällen oder die Zahl der
gefangenen Fische in einem Angelwettbewerb.
Statistik, Datenanalyse und Simulation
0.6
0.6
0.5
0.5
0.4
mu:
0:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
0.5
0.607
0.303
0.076
0.013
0.002
0.000
0.000
0.000
0.000
0.000
0.000
1
0.368
0.368
0.184
0.061
0.015
0.003
0.001
0.000
0.000
0.000
0.000
2
0.135
0.271
0.271
0.180
0.090
0.036
0.012
0.003
0.001
0.000
0.000
4
0.018
0.073
0.147
0.195
0.195
0.156
0.104
0.060
0.030
0.013
0.005
µ = 0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
µ=1
0
0
2
4
6
8
10
0.35
0
2
4
6
8
10
0.35
0.3
0.3
0.25
0.25
0.2
µ=2
0.2
0.15
µ=4
0.15
0.1
0.1
0.05
0.05
0
0
0
2
4
6
8
10
0
2
Statistik, Datenanalyse und Simulation
4
6
8
10
Tod durch Pferdetritte in der preußischen Armee
Seit 1898 wird in vielen Lehrbüchern die Zahl der in einem
Zeitraum von 20 Jahren jährlich durch Huftritt getöteten
preußischen Kavalleristen angegeben.
Todesfälle r
Corps-Jahre mit
r Todesfällen
Erwartete Zahl
0
1
2
3
4
5
6
109
108,7
65
66,3
22
20,2
3
4,1
1
0,6
0
0,07
0
0,01
Die Gesamtzahl von Todesfällen ist 122, und die mittlere Zahl
von Toten pro Corps und pro Jahr ist µ = 122/200 = 0,61.
Die Übereinstimmung zwischen den erwarteten und den
beobachteten Zahlen ist sehr gut - eigentlich zu gut.
Weitere Beispiele:
Radioaktiver Zerfall
Druckfehler pro Seite in Büchern
Gleichzeitig gemachte wissenschaftliche Entdeckungen
Statistik, Datenanalyse und Simulation
Σ
200
1.3 Spezielle Wahrscheinlichkeitsdichten
Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant
zwischen den Grenzen x = a und x = b:
1
b−a a ≤ x < b
f (x) =
0
außerhalb
Mittelwert und Varianz sind:
hxi = E[x] =
a+b
2
V [x] = σ 2 =
(b − a)2
12
Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben.
Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0
und 1, die eine Varianz 1/12 hat.
Statistik, Datenanalyse und Simulation
Normalverteilung (Gauß-Verteilung): Die wichtigste
Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in
der Praxis.
(x−µ)2
1
−
f (x) = √
e 2σ2
2πσ
Die Normalverteilung wird von zwei Parametern bestimmt, dem
Mittelwert µ und der Standardabweichung σ. Die
Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der
Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung,
abgekürzt N(0, 1).
Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der
Binomialverteilung für große Werte von n und r , und auf
ähnliche Weise auch als Grenzfall der Poisson-Verteilung für
große Werte von µ.
Statistik, Datenanalyse und Simulation
Z
1
dx N(0, 1) = 0,6827 = (1 − 0,3173)
−1
Z 2
dx N(0, 1) = 0,9545 = (1 − 0,0455)
−2
Z 3
dx N(0, 1) = 0,9973 = (1 − 0,0027)
−3
FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise
die Standardabweichung einer Gaußkurve zu schätzen.
√
FWHM = 2σ 2ln2 = 2,355σ
Statistik, Datenanalyse und Simulation
0.3
0.18
0.16
0.25
0.14
0.2
0.12
0.1
0.15
0.08
0.1
0.06
0.04
0.05
0.02
0
0
0
2
4
6
8
10
12
14
0
2
4
6
8
10
12
14
Binomialverteilung mit n = 10 Poisson-Verteilung
mit µ = 6
√
und p = 0,6 im Vergleich mit und σ = 6 im Vergleich mit
der Gauß-Verteilung
mit µ = der Gauß-Verteilung.
p
np = 6 und σ = np(1 − p).
Statistik, Datenanalyse und Simulation
Herunterladen