Statistik, Datenanalyse und Simulation

Werbung
Statistik, Datenanalyse und Simulation
Dr. Michael O. Distler
[email protected]
Mainz, 31. Oktober 2007
Statistik, Datenanalyse und Simulation
1.2 Spezielle diskrete Verteilungen (Wiederholung)
Binomialverteilung Häufige Fragestellung: Sei p die
Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem
Versuch - wie groß ist die Wahrscheinlichkeit, dass das
Ereignis bei n Versuchen r-mal eintritt?
n r
P(r ) =
p · (1 − p)n−r
r
P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p.
Der Mittelwert von r ist:
hr i = E[r ] =
n
X
rP(r ) = np
r =0
Die Varianz σ 2 ist
2
V [r ] = E[(r − hr i) ] =
n
X
(r − hr i)2 P(r ) = np(1 − p)
r =0
Statistik, Datenanalyse und Simulation
Die Poisson-Verteilung gibt die Wahrscheinlichkeit an, genau r
Ereignisse zu erhalten, wenn die Zahl n der Versuche sehr
groß und die Wahrscheinlichkeit für das Auftreten eines
Ereignisses p in einem einzigen Versuch sehr klein ist, mit
einem endlichen Mittelwert hr i = µ = np. Die
Poisson-Verteilung kann als Grenzwert der Binomialverteilung
abgeleitet werden und hat nur einen Parameter, nämlich den
Mittelwert µ. Die Poisson-Verteilung ist gegeben durch:
P(r ) =
µr e−µ
r!
Der Mittelwert der Poisson-Verteilung ist hr i = µ.
Die Varianz ergibt sich aus V [r ] = np(1 − p) für die
Binomialverteilung. Mit p → 0 wird daraus V [r ] = σ 2 = np = µ.
Statistik, Datenanalyse und Simulation
0.6
0.6
0.5
0.5
0.4
mu:
0:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
0.5
0.607
0.303
0.076
0.013
0.002
0.000
0.000
0.000
0.000
0.000
0.000
1
0.368
0.368
0.184
0.061
0.015
0.003
0.001
0.000
0.000
0.000
0.000
2
0.135
0.271
0.271
0.180
0.090
0.036
0.012
0.003
0.001
0.000
0.000
4
0.018
0.073
0.147
0.195
0.195
0.156
0.104
0.060
0.030
0.013
0.005
µ = 0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
µ=1
0
0
2
4
6
8
10
0.35
0
2
4
6
8
10
0.35
0.3
0.3
0.25
0.25
0.2
µ=2
0.2
0.15
µ=4
0.15
0.1
0.1
0.05
0.05
0
0
0
2
4
6
8
10
0
2
Statistik, Datenanalyse und Simulation
4
6
8
10
1.3 Spezielle Wahrscheinlichkeitsdichten
Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant
zwischen den Grenzen x = a und x = b:
1
b−a a ≤ x < b
f (x) =
0
außerhalb
Mittelwert und Varianz sind:
hxi = E[x] =
a+b
2
V [x] = σ 2 =
(b − a)2
12
Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben.
Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0
und 1, die eine Varianz 1/12 hat.
Statistik, Datenanalyse und Simulation
Normalverteilung (Gauß-Verteilung): Die wichtigste
Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in
der Praxis.
(x−µ)2
1
−
f (x) = √
e 2σ2
2πσ
Die Normalverteilung wird von zwei Parametern bestimmt, dem
Mittelwert µ und der Standardabweichung σ. Die
Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der
Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung,
abgekürzt N(0, 1).
Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der
Binomialverteilung für große Werte von n und r , und auf
ähnliche Weise auch als Grenzfall der Poisson-Verteilung für
große Werte von µ.
Statistik, Datenanalyse und Simulation
Z
1
dx N(0, 1) = 0,6827 = (1 − 0,3173)
−1
Z 2
dx N(0, 1) = 0,9545 = (1 − 0,0455)
−2
Z 3
dx N(0, 1) = 0,9973 = (1 − 0,0027)
−3
FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise
die Standardabweichung einer Gaußkurve zu schätzen.
√
FWHM = 2σ 2ln2 = 2,355σ
Statistik, Datenanalyse und Simulation
0.3
0.18
0.16
0.25
0.14
0.2
0.12
0.1
0.15
0.08
0.1
0.06
0.04
0.05
0.02
0
0
0
2
4
6
8
10
12
14
0
2
4
6
8
10
12
14
Binomialverteilung mit n = 10 Poisson-Verteilung
mit µ = 6
√
und p = 0,6 im Vergleich mit und σ = 6 im Vergleich mit
der Gauß-Verteilung
mit µ = der Gauß-Verteilung.
p
np = 6 und σ = np(1 − p).
Statistik, Datenanalyse und Simulation
press any key
Statistik, Datenanalyse und Simulation
Beispiel zur Gauß-Verteilung: Vollmond und
Verkehrsunfälle
Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um
das zu ergründen wird die Zahl der Unfälle in vielen deutschen
Städten verglichen, und man findet, dass in Hamburg die
mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer
Standardabweichung von 1,0 ist, und an den anderen Tagen ist
sie 7,0 mit vernachlässigbar kleinem Fehler.
Ist dieser Effekt signifikant?
Statistik, Datenanalyse und Simulation
Beispiel zur Gauß-Verteilung: Vollmond und
Verkehrsunfälle
Passieren mehr Verkehrsunfälle an Tagen mit Vollmond? Um
das zu ergründen wird die Zahl der Unfälle in vielen deutschen
Städten verglichen, und man findet, dass in Hamburg die
mittlere Zahl von Unfällen an Tagen mit Vollmond 10,0 mit einer
Standardabweichung von 1,0 ist, und an den anderen Tagen ist
sie 7,0 mit vernachlässigbar kleinem Fehler.
Ist dieser Effekt signifikant?
Aber dies hat in Wirklichkeit nichts zu bedeuten. Falls man in
200 Städten diese Untersuchung durchführt, dann ist die
Wahrscheinlichkeit, dass in einer Stadt die Unfallrate um mehr
als 3 Standardabweichungen vom Mittelwert nach oben
abweicht:
1 − 0,9987200 = 0,23
Und diese Wahrscheinlichkeit ist nicht klein.
Statistik, Datenanalyse und Simulation
Integrierte Gaußfunktion
Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet,
Z x
(t−µ)2
1
−
e 2σ2 dt.
Φ(x) = √
2πσ −∞
In vielen Formelsammlungen finden sich Tabellen der
integrierten standardisierten Gauß-Verteilung,
Z z
x2
1
F (x) = √
e− 2 .
2π −∞
Die integrierte Verteilungsfunktion kann durch die Gauß’sche
Fehlerfunktion erf(x) ausgedrückt werden,
Z x
2
2
erf(x) = √
e−t dt.
π 0
1
x −µ
Φ(x) =
1 + erf √
.
2
2σ
Statistik, Datenanalyse und Simulation
Integrierte Gaußfunktion
1
0.5*(1+erf(x))
0.4*exp(-x*x)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-3
-2
-1
0
1
2
Statistik, Datenanalyse und Simulation
3
Gammaverteilung
Ziel ist die Berechnung der Wahrscheinlichkeitsdichte f (t) für
die Zeitdifferenz t zwischen zwei Ereignissen, wobei die
Ereignisse zufällig mit einer mittleren Rate λ auftreten. Als
Beispiel kann der radioaktive Zerfall mit einer mittleren
Zerfallsrate λ dienen.
Die Wahrscheinlichkeitsdichte der Gammaverteilung ist
gegeben durch
Z ∞
x k −1 e−x
f (x; k ) =
t z−1 e−t dt; Γ(z +1) = z!
mit Γ(z) =
Γ(k )
0
und gibt die Verteilung der Wartezeit t = x vom ersten bis zum
k -ten Ereignis in einem Poisson-verteilten Prozess mit
Mittelwert µ = 1 an. Die Verallgemeinerung für andere Werte
von µ ist
x k −1 µk e−µx
f (x; k , µ) =
Γ(k )
Statistik, Datenanalyse und Simulation
Gammaverteilung
1
1.0*exp(-1.0*x)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
Statistik, Datenanalyse und Simulation
5
χ2 -Verteilung
Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle
einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0
und Varianz 1, so folgt die Summe
2
u=χ =
n
X
xi2
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die
Wahrscheinlichkeitsdichte ist:
1 u n/2−1 −u/2
e
2 2
fn (u) =
Γ(n/2)
Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei
(n − 2). Der Mittelwert ist n und die Varianz 2n.
Statistik, Datenanalyse und Simulation
χ2 -Verteilung
Statistik, Datenanalyse und Simulation
1.4 Theoreme
Das Gesetz der großen Zahl
Angenommen, dass in n statistisch unabhängigen
Experimenten das Ereignis j insgesamt nj mal aufgetreten ist.
Die Zahlen nj folgen einer Binomialverteilung, und das
Verhältnis hj = nj /n ist die entsprechende Zufallsvariable. Der
Erwartungswert E[hj ] ist die Wahrscheinlichkeit pj für das
Ereignis j:
pj = E[hj ] = E[nj /n]
Für die Varianz gilt dann (Binomialverteilung!):
V [hj ] = σ 2 (hj ) = σ 2 (nj /n) =
1
1
· σ 2 (nj ) = 2 · npj (1 − pj )
2
n
n
Da das Produkt pj (1 − pj ) immer ≤
1
4
ist, gilt die Ungleichung
σ 2 (hj ) < 1/n
bekannt als das Gesetz der großen Zahl.
Statistik, Datenanalyse und Simulation
Der Zentrale Grenzwertsatz
Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der
Statistik. Unter anderem erklärt er die zentrale Bedeutung der
Gauß-Verteilung.
P
Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer
Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer
beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und
Varianz σ 2 geht in der Grenze n → ∞ gegen eine
Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und
Varianz V [w] = nσ 2 .
Statistik, Datenanalyse und Simulation
Herunterladen