VL-09 Wahrscheinlichkeitsdichteverteilungen

Werbung
Rechnernutzung in der Physik
Teil 3 – Statistische Methoden in der Datenanalyse
Roger Wolf
15. Dezember 2015
INSTITUTE OF EXPERIMENTAL PARTICLE PHYSICS (IEKP) – PHYSICS FACULTY
●
KIT – University of the State of Baden-Wuerttemberg and
National Research Center of the Helmholtz Association
Grundlagen der Wahrscheinlichkeitstheorie,
Werkzeuge zur statistischen Datenanalyse
●
Gängige Wahrscheinlichkeitsverteilungen
●
Monte-Carlo Methoden
●
Parameterschätzung
●
Hypothesentests
www.kit.edu
Zusammenfassung
Kapiel 3.1:
Grundlagen der Wahrscheinlichkeitstheorie
●
Rolle der Statistik in der modernen Physik.
●
Ergebnisraum, Ereignisraum, Wahrscheinlichkeitsverteilung.
●
●
2
Bedingte Wahrscheinlichkeit, Satz von der totalen Wahrscheinlichkeit,
Unabhägigkeit zweier Ereignisse.
Interpretation von (Zufalls-)Experimenten und stochastische Modelle.
Institute of Experimental Particle Physics (IEKP)
Zusammenfassung
Kapiel 3.2:
Werkzeuge zur statistischen Datenanalyse
●
●
3
ROOT: C++-Framework zur Datenanalyse:
●
Erste Schritte/Dokumentation.
●
(Software-)Modell zur Datenspeicherung (ROOT-Tree).
●
Darstellung von Daten: Graphen, Histogramme.
●
Funktionen und Anpassung von Funktionen.
●
ROOT-basierte weiterführende Analysepakete.
Python Bibliotheken als Alternative zu ROOT.
Institute of Experimental Particle Physics (IEKP)
Kapiel 3.3:
Charakterisierung von
Wahrscheinlichkeitsverteilungen
4
Institute of Experimental Particle Physics (IEKP)
Wahrscheinlichkeitsverteilung
Eine auf dem Ereignisraum
definierte Funktion
(1)
heißt Wahrscheinlichkeitsverteilung über dem Ergebnisraum
die folgenden Eigenschaften erfüllt:
●
●
●
5
Für jedes Ereignis
gilt
( Nichtnegativität).
Für die Wahrscheinlichkeit zweier disjunkter Ereignisse
gilt:
( Linearität).
Die Wahrscheinlichkeit
(1)
Beachte: Interpretation der Wahrscheinlichkeitsverteilung!
, wenn sie
und
(
)
(Normierungsbedingung).
Institute of Experimental Particle Physics (IEKP)
Zufallsvariable & Wahrscheinlichkeitsdichte
●
●
●
6
Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße
von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor.
ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis
eines Zufallsexperiments ist.
Mit Hilfe der Methoden, die
Sie in der letzten Vorlesung kennengelernt haben
können sie die Meßreihe in
Form von Histogrammen
erfassen:
(2)
Normiert auf 1 und geteilt durch die bin-Breite
5000 Erfassungen(2)
150 – 210 cm in 15 bins
Institute of Experimental Particle Physics (IEKP)
Zufallsvariable & Wahrscheinlichkeitsdichte
●
●
●
7
Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße
von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor.
ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis
eines Zufallsexperiments ist.
Mit Hilfe der Methoden, die
Sie in der letzten Vorlesung kennengelernt haben
können sie die Meßreihe in
Form von Histogrammen
erfassen:
(2)
Normiert auf 1 und geteilt durch die bin-Breite
5000 Erfassungen(2)
5000 Erfassungen
150 – 210 cm in 45 bins
150 – 210 cm in 15 bins
Institute of Experimental Particle Physics (IEKP)
Zufallsvariable & Wahrscheinlichkeitsdichte
●
●
●
8
Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße
von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor.
ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis
eines Zufallsexperiments ist.
Mit Hilfe der Methoden, die
Sie in der letzten Vorlesung kennengelernt haben
können sie die Meßreihe in
Form von Histogrammen
erfassen:
(2)
Normiert auf 1 und geteilt durch die bin-Breite
5000 Erfassungen(2)
5000 Erfassungen
150 – 210 cm in 90 bins
5000 Erfassungen
150 – 210 cm in 45 bins
150 – 210 cm in 15 bins
Institute of Experimental Particle Physics (IEKP)
Zufallsvariable & Wahrscheinlichkeitsdichte
●
●
●
●
9
Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße
von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor.
ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis
eines Zufallsexperiments ist.
Mit Hilfe der Methoden, die
Sie in der letzten Vorlesung kennengelernt haben
können sie die Meßreihe in
Form von Histogrammen
erfassen:
5000 Erfassungen(2)
5000 Erfassungen
150 – 210 cm in 90 bins
5000 Erfassungen
150 – 210 cm in 45 bins
150 – 210 cm in 15 bins
Wahrscheinlichkeitsdichte:
(2)
Normiert auf 1 und geteilt durch die bin-Breite
Institute of Experimental Particle Physics (IEKP)
Wahrscheinlichkeitsdichte
Wahrscheinlichkeitsdichte
Ist eine kontinuierliche verteilte Zufallsvariable und die Wahrscheinlichkeitsverteilung
über der Ergebnisraum stetig in differenzierbar dann
bezeichnen wir:
Als Wahrscheinlichkeitsdichtefunktion von .
Wahrscheinlichkeitsdichte
10
kumulative
Wahrscheinlichkeitsdichte
Institute of Experimental Particle Physics (IEKP)
NB:
●
Beachten Sie: die Wahrscheinlichkeit für das Ereignis
erhalten Sie nicht als
sondern aus den Integral:
Wahrscheinlichkeitsdichte
11
kumulative
Wahrscheinlichkeitsdichte
Institute of Experimental Particle Physics (IEKP)
NB:
●
Beachten Sie: die Wahrscheinlichkeit für das Ereignis
erhalten Sie nicht als
sondern aus den Integral:
NNB:
Wahrscheinlichkeitsdichten können kontinuierlich oder diskret verteilt sein. Im diskreten
Fall ersetze jedes Integral durch eine Summe
über den endlichen Ergebnisraum.
Wahrscheinlichkeitsdichte
12
kumulative
Wahrscheinlichkeitsdichte
Institute of Experimental Particle Physics (IEKP)
Quantilen
Zur Charakterisierung der kumulativen Wahrscheinlichkeitsdichte:
Quantile(α)
●
210
●
Quantil der Ordnung
( -Punkt):
(Umkehrfunktion von
200
●
190
Beispiele:
●
Median (
●
Rankings von Klausurergebnissen.
180
●
).
Hypothesen-Tests (z.B. auch in Qualitätskontrollen).
170
160
150
0
13
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1
α
Institute of Experimental Particle Physics (IEKP)
)
Lagemaß
Charakterisierung der Wahrscheinlichkeitsdichte:
p(x)
●
1
(3)
●
Modus
0.9
Maximum der Verteilung (= wahrscheinlichster Wert) → einfach.
Median
0.8
Modus:
Erwartungswert
0.7
●
Median (
):
Gleich viele Werte, , größer als auch
kleiner als
→ robust.
0.6
0.5
●
0.4
0.2
●
0.1
14
):
Abgeschätzt durch das arithmetische
Mittel.
0.3
0
0
Erwartungswert (
0.5
1
1.5
2
2.5
(3)
Beispiel: Log-Normalverteilung (siehe Folie XY).
3
3.5
4
4.5
Das Beispiel auf der rechten Seite
zeigt: diese drei Maße müssen nicht
gleich sein.
5
x
Institute of Experimental Particle Physics (IEKP)
Erwartungswert
●
Bekannteste Größe zur Charakterisierung der Wahrscheinlichkeitsdichte:
(kontinuierlich)
●
Bemerkungen:
●
15
(diskret)
für eine vorgegebene Wahrscheinlichkeitsdichte (-verteilung) ist eine Zahl und keine
Funktion von (andere gänige Bezeichnungen auch: ,
).
●
Verallgemeinerung: Erwartungswert einer Funktion
●
Erwartungswert ist linear in x:
Institute of Experimental Particle Physics (IEKP)
Algebraische Momente - Varianz
●
Verallgemeinerung des Erwartungswertes: n-tes (algebraisches) Moment um
●
Spezialfall:
●
0-tes Moment:
●
1-tes Moment:
●
2-tes Moment:
(Varianz)
●
16
heißt Standardabweichung.
Institute of Experimental Particle Physics (IEKP)
Mehrdimensionale Verteilungen
●
Der Ausgang einer Messung kann durch mehrere Zufallsgrößen charakterisiert sein
(z.B. Körpergröße und Alter). In diesem Fall ist auch die Wahrscheinlichkeitsdichte
mehrdimensional.
●
:
:
(4)
(Normierung)
(kumulativ )
17
(4)
Für diskrete Verteilung ersetze Integrale durch Summen.
A
B
Institute of Experimental Particle Physics (IEKP)
Randverteilungen
Ausintegrieren einer der Zufallsvariablen:
px (x)
●
1
0.9
0.8
(Randverteilung)
0.7
0.6
(kumulativ
)
0.5
0.4
0.3
●
Ausintegrieren von (manchmal unbekannten) Zufallsgrößen: Marginalisierung.
Dimension der Wahrscheinlichkeitsdichte in
typischen Problemen (z.B.
der Teilchenphysik):
.
0.1
0
0
py (y)
●
0.2
Im Englischen: maringal
distribution.
1
2
0.7
0.6
0.5
0.4
A
0.3
3
4
5
6
7
8
9
10
x
Projektion auf x-Achse
●
B
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
10
y
Projektion auf y-Achse
18
Institute of Experimental Particle Physics (IEKP)
Bedingte Wahrscheinlichkeit (2d)
●
Integration in einem Interval
:
(Bedingte W'dichte)
●
●
●
19
Das Bsp rechts zeigt, daß sich für und
verschiedene Wahrscheinlichkeitsdichten
ergeben können.
Als Verallgemeinerung zum 1-dim Fall gilt für
die Randverteilung:
Sind die zwei Zufallsvariablen und unabhängig, dann gilt für die Wahrscheinlichkeitsdichte:
Institute of Experimental Particle Physics (IEKP)
Kovarianz
●
Zur Beschreibung der Beziehung zweier Variablen zueinander führen wir die
Kovarianz analog zur Varianz ein:
(Varianz )
(Kovarianz)
●
Bemerkungen:
heißt Kovarianzmatrix.
●
●
●
●
20
is symmetrisch (d.h. es gibt immer eine Hauptachsentransformation ).
heißt Korrelationskoeffizient.
nimmt Werte in
also
.
(5)
Siehe letzte Anmerkung der voherigen Folie.
an. Für unabhängige Zufallsvariablen gilt:
(5)
Institute of Experimental Particle Physics (IEKP)
Korrelation (anschaulich)
Positive Korrelation:
Negative Korrelation:
Welche Korrelation?
21
Institute of Experimental Particle Physics (IEKP)
Korrelation (anschaulich)
Positive Korrelation:
Negative Korrelation:
Keine Korrelation!(6)
22
(6)
Analog zum Erwartungwert (siehe Tafelbild...).
Institute of Experimental Particle Physics (IEKP)
Korrelation (anschaulich)
Positive Korrelation:
Negative Korrelation:
●
●
Unkorreliert
Korreliert
●
Keine Korrelation!
kausal verknüpft!
Korrelation kann zufällig sein.
●
möglich.
●
möglich.
●
23
unabhängig!
möglich.
Institute of Experimental Particle Physics (IEKP)
Funktionen von Zufallsvariablen
●
●
Nehmen Sie an die Wahrscheinlichkeitsdichte
für die Zufallsvariable
bekannt. Wie sieht die Wahrscheinlichkeitsdichte
für eine Funktion
Beispiel:
Sie haben den Durchmesser, , eines Kreises gemessen. Für
Wie sieht
für die Kreisfläche aus?
●
24
sei
aus?
Erhaltung der Wahrscheinlichkeit:
haben Sie ein Modell.
Absolutbetrag stellt
sicher, daß
positiv
semi-definit ist.
Institute of Experimental Particle Physics (IEKP)
Funktionen von Zufallsvariablen
●
●
Nehmen Sie an die Wahrscheinlichkeitsdichte
für die Zufallsvariable
bekannt. Wie sieht die Wahrscheinlichkeitsdichte
für eine Funktion
Beispiel:
Sie haben den Durchmesser, , eines Kreises gemessen. Für
Wie sieht
für die Kreisfläche aus?
●
sei
aus?
Erhaltung der Wahrscheinlichkeit:
haben Sie ein Modell.
Absolutbetrag stellt
sicher, daß
positiv
semi-definit ist.
Für mehrdimensionale
Wahrscheinlichkeitsdichten wird
zur Jacobi Matrix:
25
Institute of Experimental Particle Physics (IEKP)
Funktionen von Zufallsvariablen
●
●
Nehmen Sie an die Wahrscheinlichkeitsdichte
für die Zufallsvariable
bekannt. Wie sieht die Wahrscheinlichkeitsdichte
für eine Funktion
Beispiel:
Sie haben den Durchmesser, , eines Kreises gemessen. Für
Wie sieht
für die Kreisfläche aus?
●
sei
aus?
Erhaltung der Wahrscheinlichkeit:
haben Sie ein Modell.
Absolutbetrag, um sicher
zu stellen, daß
positiv semi-definit ist.
Für mehrdimensional
wahrscheinlichkeitsdichten wird
zur Jacobi Matrix:
26
Institute of Experimental Particle Physics (IEKP)
Gaußsche Fehlerfortpflanzung
●
●
Nehmen Sie an Sie hätten einen Vektor, , von Zufallsvariablen, deren Wahrscheinlichkeitsdichten Ihnen nicht bekannt sind. Sie kennen jedoch den Vektor
der Erwartungwerte, , und die Kovarianzmatrix, . Wie erhalten Sie eine
Abschätzung für
?
Nach Taylor-Entwicklung:
(Erwartungswert)
(Varianz)
Und für einen Vektor von Funktionen
erhalten Sie die Korrelationsmatrix entsprechend:
(Kovarianz)
27
Institute of Experimental Particle Physics (IEKP)
Gaußsche Fehlerfortpflanzung
●
Wichtige Spezialfälle:
●
:
(einfacher Fehler von Summen)
●
:
(einfacher Fehler von Produkten)
●
●
●
Für diese Beispiele haben wir die Annahme gemacht, dass
bereits in führender
Ordnung durch eine Taylor-Entwicklung beschrieben werden kann. Wenn
linear
ist ist diese Näherung exakt. Sie wird jedoch immer schlechter, je nicht-linearer das
Verhalten von
wird (Bsp.:
).
Im Zweifel Monte Carlo Methoden besser geignet zur Abschätzung von
Unsicherheiten und (v.a.) Korrelationen (oft Methode der Wahl in der Praxis).
,
:
(binomische Fehlerfortpflanzung)
Wenn Sie die Fehlerrechnung selbst machen wollen,
vergewissern sie sich, daß und unkorreliert sind
(was ist ihre jeweilige Bedeutung?). Wenden Sie dann die
Fehlerrechnung stur an. Berechnen Sie auch den
Korrelationskoeffizienten zwischen und .
28
Institute of Experimental Particle Physics (IEKP)
Zusammenfassung
Kapiel 3.3:
Charakterisierung von
Wahrscheinlichkeitsverteilungen
29
●
Zufallsvariablen und Wahrscheinlichkeitsdichten.
●
Charakterisierung durch Quantilen, Lagemaß.
●
Erwartungswert, algebraische Momente, Varianz.
●
Mehrdimensionale Wahrscheinlickeitsdichten, Kovarianz, Korrelationen.
●
Funktionen von Zufallsvariablen, Gaußsche Fehlerfortpflanzung.
Institute of Experimental Particle Physics (IEKP)
Kapiel 3.4:
Beispiele gängiger
Wahrscheinlichdichteverteilungen
30
Institute of Experimental Particle Physics (IEKP)
Uniforme Verteilung
Gleichverteilte Zufallszahlen (jeder Wert unabhängig & gleichwertig):
U(x)
●
0.8
[4.0 , 6.0]
[3.0 , 7.0]
[2.0 , 8.0]
[1.0 , 9.0]
0.7
(Erwartungswert)
0.6
0.5
(Varianz)
0.4
●
0.3
NB:
jede beliebig verteilte Zufallsvariable
läßt sich auf eine uniform verteilte
Zufallsvariable
transformieren.
0.2
0.1
0
0
1
2
●
(für
)
●
31
3
4
5
6
7
8
9
10
x
Jeder Beginn einer Mote Carlo
Integration.
Allgemeinster prior einer
Bayesianischen likelihood
Institute of Experimental Particle Physics (IEKP)
Abschätzung.
Exponentialverteilung
Differenz von Zufallszahlen gleichverteilt (jede Differenz(!) unabhängig & gleichwertig):
exp(x, λ)
●
1
λ=0.5
0.9
λ=1.0
λ=2.0
0.8
(Erwartungswert)
0.7
(Varianz)
0.6
λ=5.0
0.5
●
NB:
Klassisches Beispiel: radioaktiver Zerfall.
In diesem Bild entspricht der Lebensdauer des Präparats.
0.4
0.3
0.2
0.1
0
0
32
1
2
3
4
5
6
7
8
9
10
x
Institute of Experimental Particle Physics (IEKP)
Exponentialverteilung
Differenz von Zufallszahlen gleichverteilt (jede Differenz(!) unabhängig & gleichwertig):
exp(x, λ)
●
1
λ=0.5
0.9
λ=1.0
λ=2.0
0.8
(Erwartungswert)
0.7
(Varianz)
0.6
λ=5.0
0.5
●
0.4
NB:
Klassisches Beispiel: radioaktiver Zerfall.
In diesem Bild entspricht der Lebensdauer des Präparats.
Alle Differenzen
gleich und „klein“.
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
10
x
Alle Differenzen
gleich und „groß“.
33
Institute of Experimental Particle Physics (IEKP)
Binomialverteilung
Günstige/mögliche Ereignisse (jeder Wert unabhängig aber nicht mehr gleichwertig):
B(p, n, k)
●
(Erwartungswert)
(Varianz)
0.5
p=0.5, n=5
p=0.5, n=10
p=0.5, n=20
p=0.5, n=30
0.45
0.4
0.35
0.3
0.25
●
NB:
Verteilung von nicht mehr gleich
sondern folgt Wahrscheinlichkeit .
0.2
0.15
0.1
0.05
0
0
34
2
4
6
8
10
12
14
16 18 20
k
Institute of Experimental Particle Physics (IEKP)
Poissonverteilung
Günstige/mögliche Ereignisse (jeder Wert unabhängig aber nicht mehr gleichwertig):
P(μ, k)
●
0.3
μ=2.0
μ=5.0
μ=10.0
μ=25.0
0.25
(Erwartungswert)
0.2
(Varianz)
0.15
●
NB:
entspricht Binomialverteilung im
Grenzwert
,
(Beweis, siehe
nächste Folie).
0.1
0.05
0
0
35
5
10
15
20 25
30
35
40 45 50
k
Institute of Experimental Particle Physics (IEKP)
Binomial- ↔ Poissonverteilung
36
Institute of Experimental Particle Physics (IEKP)
Zentraler Grenzwertsatz
Betrachte einen Ereignisraum mit unbabhängigen Zufallsvariablen
(=Experimentausgängen) der Länge . Die mögen dabei einer beliebigen(!)
identischen Wahrscheinlicheitsverteilung mit endlichem Erwartungswert
und endlicher Varianz folgen. Dann folgt die Zufallsvariable
für den Grenzübergang
und Varianz
.
37
einer Normalverteilung mit Erwartungwert
Institute of Experimental Particle Physics (IEKP)
0.2
Binomialverteilung:
P(μ, k)
B(p, n, k)
Zentraler Grenzwertsatz (in action)
B(p, n, k)
φ(x=k, μ=10, σ 2=9)
0.18
0.2
0.16
0.14
0.14
0.12
0.12
0.1
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
2
4
6
8
10
12
14
P(μ, k)
φ(x=k, μ=10, σ 2=10)
0.18
0.16
0
0
Poissonverteilung:
16 18 20
k
0
0
2
4
6
8
10
12
14
16 18 20
k
Normalverteilung
(universell!)
38
Institute of Experimental Particle Physics (IEKP)
Normalverteilung
Summe vieler, unabhängiger, identisch verteilter Messungen:
φ(x, μ, σ )
●
1
μ=0.0, σ =0.5
μ=0.0, σ =1.0
μ=0.0, σ =2.0
μ=1.0, σ =1.0
0.9
0.8
(Erwartungswert)
0.7
(Varianz)
0.6
0.5
0.4
0.3
0.2
0.1
0
-5
39
-4
-3
-2
-1
0
1
2
3
4
5
x
Institute of Experimental Particle Physics (IEKP)
Log-Normalverteilung
Produkt vieler, unabhängiger, identisch verteilter Messungen:
f(x, σ , μ)
●
1
μ=0.0, σ =0.5
μ=0.0, σ =1.0
μ=0.0, σ =1.5
μ=1.0, σ =1.0
0.9
0.8
(Erwartungswert)
0.7
(Varianz)
0.6
0.5
●
NB:
Variablensubstitution:
0.4
0.3
0.2
führt Log-Normalverteilung in Normalverteilung über:
40
0.1
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
x
Institute of Experimental Particle Physics (IEKP)
-Verteilung
Der Logarithmus der Normalverteilung ist (bis auf eine Konstante)
χ2 (x, n)
●
(Gammafunktion)
(Erwartungswert)
(Varianz)
verteilt:
0.5
n=1
0.45
n=2
n=5
0.4
n=10
0.35
0.3
0.25
0.2
●
NB:
Die Summe der Quadrate von
verteilten Zufallsgrößen
0.15
normal-
0.1
0.05
0
0
ist -verteilt. Die Zahl heißt Freiheitsgrad. Sie entspricht der Anzahl unabhängiger Normalverteilungen.
41
2
4
6
8
10
12
14
16 18 20
x
Institute of Experimental Particle Physics (IEKP)
Kapiel 3.4:
Beispiele gängiger
Wahrscheinlichdichteverteilungen
●
●
●
42
Uniforme Verteilung, Exponentialverteilung (→ jeder Experimentausgang
gleichwertig).
Binomialverteilung, Poissonverteilung (→ unterscheide günstige/mögliche
Experimentausgänge).
Normalverteilung, Log-Normalverteilung,
-Verteilung (→ viele unabhängige
Messungen mit einem bestimmten Ausgang, in einem bestimmten Intervall ).
Institute of Experimental Particle Physics (IEKP)
Herunterladen