Statistik, Datenanalyse und Simulation

Werbung
Statistik, Datenanalyse und Simulation
Dr. Michael O. Distler
[email protected]
Mainz, 19. April 2011
Statistik, Datenanalyse und Simulation
1. Statistik
Wir denken an Experimente, bei deren Durchführung die
Variable X , um die es dabei geht, verschiedene Werte
annehmen kann. Möglichkeiten:
1
X kann nur einen Wert annehmen oder nicht annehmen:
ja/nein-Experiment
Das Annehmen des Wertes nennen wir “das Eintreten des
Ereignisses”, das Nicht-Annehmen das Nicht-Eintreten.
2
X kann mehrere diskrete Werte annehmen
3
X kann kontinuierliche Werte annehmen
Wahrscheinlichkeit
1
für das Eintreten des Ereignisses,
2
dafür, dass die Variable X den Wert xi annimmt,
3
dafür, dass die Variable X den Wert im Intervall [xi , xi + ∆x
annimmt.
Statistik, Datenanalyse und Simulation
1.1 Wahrscheinlichkeit
Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter
gegebenen Bedingungen entweder eintreten oder nicht
eintreten, so nennt man dieses Ereignis zufällig.
Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit
für das Eintreten des Ereignisses.
Pragmatisch: p(E) = n(E)
N für N sehr groß
p steht für probability
n(E) = Zahl des Eintretens des Ereignisses
N = Zahl der Herbeiführung der gegebenen Bedingungen
(Durchführung des Experiments)
Zufallsgröße: Variable deren Wert vom Zufall abhängt.
Beispiel: Augenzahl beim Werfen eines Würfels
Statistik, Datenanalyse und Simulation
1.1 Wahrscheinlichkeit
Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter
gegebenen Bedingungen entweder eintreten oder nicht
eintreten, so nennt man dieses Ereignis zufällig.
Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit
für das Eintreten des Ereignisses.
Pragmatisch: p(E) = n(E)
N für N sehr groß
p steht für probability
n(E) = Zahl des Eintretens des Ereignisses
N = Zahl der Herbeiführung der gegebenen Bedingungen
(Durchführung des Experiments)
Zufallsgröße: Variable deren Wert vom Zufall abhängt.
Beispiel: Augenzahl beim Werfen eines Würfels
Normierung?
Statistik, Datenanalyse und Simulation
1.1 Wahrscheinlichkeit
Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter
gegebenen Bedingungen entweder eintreten oder nicht
eintreten, so nennt man dieses Ereignis zufällig.
Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit
für das Eintreten des Ereignisses.
Pragmatisch: p(E) = n(E)
N für N sehr groß
p steht für probability
n(E) = Zahl des Eintretens des Ereignisses
N = Zahl der Herbeiführung der gegebenen Bedingungen
(Durchführung des Experiments)
Zufallsgröße: Variable deren Wert vom Zufall abhängt.
Beispiel: Augenzahl beim Werfen eines Würfels
Normierung?
p(Ei ) =
n(Ei )
,
N
pi = p(Ei ) < 1,
X
pi = 1
Statistik, Datenanalyse und Simulation
Kombination von Wahrscheinlichkeiten
Gegeben sind zwei Arten von Ereignissen, A und B. Die
Wahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)).
Dann ist die Wahrscheinlichkeit, dass A oder B eintritt:
p(A oder B) = p(A) + p(B) − p(A und B)
Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt
p(A und B) = 0
Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten.
p(As oder Pik) =
8
1
11
4
+
−
=
32 32 32
32
Spezialfall: B = Ā (Nicht-Eintreten von A).
p(A oder Ā) = p(A) + p(Ā) = 1
Statistik, Datenanalyse und Simulation
Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist:
p(A und B) = p(A) · p(B|A).
p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis B
eintritt, vorausgesetzt, das Ereignis A ist eingetreten.
Falls die Ereignisse A und B unabhängig sind - aber auch nur
dann - gilt p(B|A) = p(B), bzw.
p(A und B) = p(A) · p(B)
Statistik, Datenanalyse und Simulation
Bayes’ Theorem
Aus der Gleichung
p(A und B) = p(A) · p(B|A) = p(B) · p(A|B)
erhält man Bayes’ Theorem:
p(A|B) = p(B|A) ·
p(A)
p(B)
Statistik, Datenanalyse und Simulation
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Statistik, Datenanalyse und Simulation
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Das kann doch nicht wahr sein, was ist, wenn Messner zu einer
30. Expedition aufbricht?
Statistik, Datenanalyse und Simulation
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Das kann doch nicht wahr sein, was ist, wenn Messner zu einer
30. Expedition aufbricht?
Die Wahrscheinlichkeit, eine Expedition zu überleben ist
offensichtlich 1 − 0.034 = 0.966. Wenn man annimmt, dass die
einzelnen Expeditionen unabhängige Ereignisse darstellen, ist
die Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:
P = 0.96629 = 0.367.
Statistik, Datenanalyse und Simulation
Das Ziegenproblem
In einer Quiz-Sendung werden einer Kandidatin drei
geschlossene Türen gezeigt. Hinter zwei dieser Türen ist eine
Ziege, und hinter einer ist ein Auto. Sie kann auf eine der Türen
zeigen und erhält das, was dahinter ist. Offensichtlich sind die
Chancen, das Auto zu erhalten, 33%. Nun wird das Spiel aber
abgeändert: Ehe die Tür der Kandidatin geöffnet wird, öffnet
der Quizmaster eine andere Tür, und dahinter steht eine Ziege.
Sollte die Kandidatin nun ihre Meinung ändern und eine andere
Tür wählen, um ihre Chancen zu verbessern?
Statistik, Datenanalyse und Simulation
Erwartungswerte und Momente
Mittelwert: Kann eine Zufallsgröße E die Werte E1 , E2 , . . . , En
annehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei ),
dann bezeichnet man als Mittelwert der Größe E
(“Erwartungswert”)
Ē = hEi =
n
X
Ei · p(Ei )
i=1
Kann eine Zufallsgröße kontinuierlich Werte annehmen, dann
kann man nur angeben, mit welcher Wahrscheinlichkeit ein
Wert in einem Intervall angenommen wird. Wahrscheinlichkeit
für Annehmen eines Wertes im Intervall [x,x+dx] durch die
Variable x sei dp.
Beispiel: Temperaturmessung
Statistik, Datenanalyse und Simulation
dp
.
Wahrscheinlichkeitsdichte f (x) = dx
Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1
normiert sein.
Z ∞
f (x) ≥ 0
f (x)dx = 1
−∞
Statistik, Datenanalyse und Simulation
dp
.
Wahrscheinlichkeitsdichte f (x) = dx
Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1
normiert sein.
Z ∞
f (x) ≥ 0
f (x)dx = 1
−∞
Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keine
Wahrscheinlichkeit.
Statistik, Datenanalyse und Simulation
dp
.
Wahrscheinlichkeitsdichte f (x) = dx
Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1
normiert sein.
Z ∞
f (x) ≥ 0
f (x)dx = 1
−∞
Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keine
Wahrscheinlichkeit.
Dagegen ist die Größe f (x) · ∆x in der Tat eine
Wahrscheinlichkeit.
Statistik, Datenanalyse und Simulation
Wahrscheinlichkeitsverteilung oder auch integrierte
Verteilungsfunktion F (x) ist definiert als:
Z x
F (x) =
f (x 0 )dx 0 , F (−∞) = 0, F (∞) = 1
−∞
Erwartungswert der Funktion h(x) für kontinuierliche
Zufallsgrößen:
Z ∞
E[h(x)] =
h(x) · f (x)dx
−∞
Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall):
Z ∞
x · f (x)dx
E[x] = x̄ =
−∞
Statistik, Datenanalyse und Simulation
Streuung = {Mittelwert der (Abweichung von x̄)2 }1/2
Z ∞
2
2
σ = (x − x̄) =
(x − x̄)2 · f (x)dx
−∞
Z ∞
2
=
(x − 2x x̄ + x̄ 2 ) · f (x)dx = x 2 − 2x̄ x̄ + x̄ 2 = x 2 − x̄ 2
−∞
σ 2 = Varianz, σ = Standardabweichung
Für diskrete Verteilungen:
P
1 X 2 ( x)2
2
σ =
x −
N
N
1
N
1
wird oft durch N−1
ersetzt, um Fehler nicht zu unterschätzen.
(Freiheitsgrade!)
Statistik, Datenanalyse und Simulation
Momente: Die Erwartungswerte von x n und von (x − hxi)n
werden n-te algebraische Momente µn und n-te zentrale
Momente µ0n genannt.
1.2 Spezielle diskrete Verteilungen
Kombinatorik: Für r verschiedene Objekte gibt es r !
verschiedene Möglichkeiten, die Objekte in einer Reihe
anzuordnen. Die Zahl von Möglichkeiten, r Objekte aus n
verschiedenen Objekten auszuwählen, wobei es auf die
Reihenfolge der Auswahl ankommt, ist
Pnr = n(n − 1)(n − 2) . . . (n − r + 1) =
n!
(n − r )!
Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss
die obenstehende Zahl durch r ! dividiert werden, und man
erhält
Pnr
n
n!
r
=
=
Cn =
n!
r
r !(n − r )!
Statistik, Datenanalyse und Simulation
Diese ganzen Zahlen heißen Binomialkoeffizienten, und
erscheinen im Binomialtheorem:
n X
n r n−r
n
(p + q) =
p ·q
r
r =0
Binomialverteilung Häufige Fragestellung: Sei p die
Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem
Versuch - wie groß ist die Wahrscheinlichkeit, dass das
Ereignis bei n Versuchen r-mal eintritt?
n r
P(r ) =
p · (1 − p)n−r
r
P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p.
Der Mittelwert von r ist:
hr i = E[r ] =
n
X
rP(r ) = np
r =0
Statistik, Datenanalyse und Simulation
Benfords Zahlengesetz
Die Häufigkeit der Anfangsziffern in Zahlenmengen
(Atomgewichte der Elemente, Baseball-Ergebnisse,
Stromrechnungen auf den pazifischen Salomon-Inseln, ...) folgt
der Häufigkeit:
Ziffer
Wahrscheinlichkeit
Ziffer
Wahrscheinlichkeit
1
30.1%
6
6.7%
2
17.6%
7
5.8%
3
12.5%
8
5.1%
4
9.7%
9
4.6%
Welche mathematische Formel hat Benford dieser
Häufigkeitstabelle zugrunde gelegt?
p(z) = log10 (z + 1) − log10 (z)
Statistik, Datenanalyse und Simulation
5
7.9%
Benfords Zahlengesetz
Beispiel: Die Länge der Dateien in meinem Heimatverzeichnis:
z
1
2
3
4
5
6
7
8
9
nz
2387
1531
1060
784
563
461
442
460
327
8206
p/%
29.1 ± 0.6
18.7 ± 0.5
12.9 ± 0.4
9.6 ± 0.3
6.9 ± 0.3
5.6 ± 0.3
5.4 ± 0.3
5.6 ± 0.3
4.0 ± 0.2
p(z)theor. /%
30.1
17.6
12.5
9.7
7.9
6.7
5.8
5.1
4.6
Statistik, Datenanalyse und Simulation
Benfords Zahlengesetz
find ~ -type f -printf "%s\n" | awk ’{
l=log($1)/log(10);
a[int(exp(log(10)*(l-int(l))))]++;
N++;
}END{
print N;
for (i=1;i<10;i++) {
printf "%d %5d %5.1f +/- %3.1f %5.1f\n",
i,a[i],100*a[i]/N,100*sqrt(a[i])/N,
100*(log(i+1)-log(i))/log(10);
}
}’
Statistik, Datenanalyse und Simulation
Herunterladen