Datenanalyse - physik.uzh.ch

Werbung
Datenanalyse
(PHY231)
Herbstsemester 2015
Olaf Steinkamp
36-J-22
[email protected]
044 63 55763
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS15
Grundbegriffe der Statistik (2)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS15
Grundbegriffe der Statistik (3)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Mittelwert einer Verteilung
Für eine Verteilung aus N Werten x1, x2, …, xN:
●
arithmetischer Mittelwert der Verteilung:
N
1
x ≡
⋅
x
N i =1 i
∑
●
geometrischer Mittelwert:
x ≡
●
●
N
√ x 1⋅x 2⋅x 3⋅...⋅x N
Median:
die Hälfte aller Werte ist grösser,
die Hälfte aller Werte ist kleiner
Modus:
der am häufigsten vorkommende Wert
im folgenden: “Mittelwert” ≡ arithmetischer Mittelwert
Datenanalyse HS15
Grundbegriffe der Statistik (4)
O. Steinkamp
Arithmetischer Mittelwert
Mittelwert einer Funktion f(xi)
N
1
f≡ ⋅
f (xi)
N i =1
∑
Beispiel:
f (x ) = x
2
N
1
f = x = ⋅ x 2i
N i =1
2
⇒
∑
Gewichteter Mittelwert von N Werten xi mit Gewichten wi
N
x ≡
∑i =1 w i⋅x i
N
∑i =1 w i
Beispiel: für Messungen mit unterschiedlichen
Messunsicherheiten σi (Herleitung später):
wi =
1
2
σi
Mittelwert eines Histogramms mit N Intervallen
N
x ≡
Datenanalyse HS15
∑i =1 n i⋅x i
N
∑i =1 ni
xi : Intervallzentren
ni : Anzahl Einträge
Grundbegriffe der Statistik (5)
Mittelwert des
Histogramms =
gewichteter Mittelwert
der Intervallzentren
O. Steinkamp
Einfacher und gewichteter Mittelwert
Beispiel: Lebensdauer des Neutrons
●
Resultate verschiedener Experimente [Quelle: Particle Data Group]
●
ältere Messungen haben größere Messunsicherheiten als neuere Messungen
●
gewichteter Mittelwert aller Messungen = (886.3 ± 0.9) s
●
zum Vergleich: einfacher Mittelwert
nlife.py
nlife.dat
= 891.4 s
neuere Messungen
einfacher Mittelwert
gewichteter Mittelwert
mit Unsicherheit
# result[s] error[s]
918
14
881
8
937
18
903
13
876
21
877
10
878
30
894
5
888
3
891
9
888
3
888
3
882.6
2.7
889
5
885.4
1.0
887
3
pylab: Befehl average() kann gewichtete Mittelwerte berechnen
Datenanalyse HS15
Grundbegriffe der Statistik (6)
O. Steinkamp
Unsicherheit auf gewichtetem Mittelwert
Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi
●
Messungen voneinander unabhängig: benutze Gaußsche Fehlerfortpflanzung
√∑ (
N
σx =
i =1
x
⋅σ i
 xi
N
∑
⇒
x =
i =1
N
●
2
)
( )
2
σi
1
σ
2
i
√∑ (
N
xi
∑(
i =1
aufgepasst: Gaußsche Fehlerfortpflanzung gilt nicht,
wenn die Messungen korreliert sind (z.B. wenn es
gemeinsame systematische Messunsicherheiten gibt!)
→ mehr dazu nächste Woche
⇒
)
σx =
i =1
N
1
2 ⋅σ i
σi
∑(
i =1
1
σ
2
i
)
2
)
=
1
√
N
∑ (1 σ )
i =1
2
i
Spezialfall: Messunsicherheit auf allen Messungen gleich, σi = σ für alle i
σx =
Datenanalyse HS15
1
√
=
N
∑ 1σ
i =1
σ
√N
2
Grundbegriffe der Statistik (7)
vgl. Folie 12
O. Steinkamp
Mittelwert histogrammierter Daten
Beispiel: exponentialverteilte Messwerte (Zerfallszeiten radioaktiver Quelle)
expohist.py
#!/usr/bin/env python
from pylab import *
#
# generiere exponentialverteilte Werte
#
N = 10000
meantrue = 53.7
tdata = exponential(meantrue,N)
#
# Mittelwert der Verteilung
#
meandata = mean(tdata)
#
# histogrammiere die Werte
#
tmin = 0 ; tmax = 600 ; nbins = 100
ni,ti,patch = hist(tdata,nbins,(tmin,tmax))
#
# Mittelwert des Histogramms
#
tbin = ti[0:-1]+ti[1:])/2.0
meanhist = dot(ni,tbin) / sum(ni)
●
“wahrer” Mittelwert:
53.7 min
●
Mittelwert der Messwerte:
53.6 min
●
Mittelwert des Histogramms
●
●
●
100 Intervalle:
10 Intervalle:
3 Intervalle:
53.6 min
59.0 min
105. min
aufgepasst: Informationsverlust bei zu groß gewählter Intervallbreite !
Datenanalyse HS15
Grundbegriffe der Statistik (8)
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS15
Grundbegriffe der Statistik (9)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Breite einer Verteilung
Streuung der Messwerte = Maß für Messgenauigkeit
●
große Messunsicherheit ⇔ Messwerte streuen stark ⇔ breite Verteilung
●
kleine Messunsicherheit ⇔ Messwerte streuen wenig ⇔ schmale Verteilung
Beispiel: Rekonstruktion von ϒ-Resonanzen in ATLAS / CMS / LHCb
●
ϒ(1s),ϒ(2s),ϒ(3s): sehr kurzlebige Teilchen, zerfallen z.B. in zwei Myonen
●
messe die Impulse der zwei Myonen und berechne ihre invariante Masse
●
für echte ϒ-Zerfälle: invariante Masse = Masse des ϒ(1s), ϒ(2s) oder ϒ(3s)
●
Breite der Signalverteilung bestimmt durch Messgenauigkeit des Detektors
ϒ(1s)
ϒ(2s)
ϒ(3s)
Datenanalyse HS15
Grundbegriffe der Statistik (10)
O. Steinkamp
Maße für die Breite einer Verteilung
Mittlere Abweichung der Messwerte vom Mittelwert
N
●
1
⋅ | x i− x |
N i =1
∑
Absolutbetrag: unschöne mathematische
Behandlung (z.B. Bilden von Ableitung)
Statistiker: Varianz der Verteilung
N
1
V (x ) ≡
⋅
( x i −x )2
N i =1
●
∑
●
●
okay bzgl. mathematischer Behandlung
aber: andere Einheit als Messgröße
V (x ) = x2 − x2
es gilt auch (Beweis in den Übungen):
Physiker: Standardabweichung der Verteilung
σx ≡
Datenanalyse HS15
√ V (x)
=
√
1
N
N
2
⋅ ∑ ( xi − x)
=
i=1
Grundbegriffe der Statistik (11)
√ x −x
2
2
O. Steinkamp
Standardabweichung
Aufgepasst: zwei Definitionen der “Standardabweichung”!
σx ≡
in pylab:
●
●
●
●
√
N
1
⋅
( x i −x )2
N i=1
∑
sx ≡
std(x,0)
√
N
1
⋅
( x i − x )2
N −1 i =1
∑
std(x,1)
Definition mit 1 / N gibt die Standardabweichung der gemessenen Verteilung
Definition mit 1 / (N-1) gibt einen Schätzwert für die Standardabweichung
einer theoretischen Verteilung, die die gemessene Verteilung beschreibt
Unterschied für große N vernachlässigbar,
aber nicht für kleine N
deshalb wichtig: immer angeben,
welche Definition Sie verwenden
Datenanalyse HS15
Grundbegriffe der Statistik (12)
werden wir in ein paar Wochen
ausführlich diskutieren
O. Steinkamp
Standardabweichung einer Verteilung und
Unsicherheit auf ihrem Mittelwert
Standardabweichung σx der Verteilung
●
ist bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert
●
ist ein Maß für die Messunsicherheit auf den einzelnen Messungen
●
hängt nicht von der Zahl der Messungen ab
Unsicherheit auf dem Mittelwert der Verteilung
●
●
ist umso kleiner, je kleiner die Streuung der
Messwerte ist
nimmt mit zunehmender Anzahl Messungen ab
σx =
●
N
34
mean 9441.8
std
49.5
dmean
8.5
σx
√N
vgl. Folie 6
N
34000
mean 9450.1
std
49.8
dmean 0.27
Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50
Datenanalyse HS15
Grundbegriffe der Statistik (13)
O. Steinkamp
Standardabweichung einer
histogrammierten Verteilung
Histogramm mit N Intervallen
Folie 10
σx =
√
Folie 4
2
x −x
2
=
√
N
∑i =1 ni ⋅ x
N
∑i =1 n i
2
i
−
(
N
∑i =1 n i ⋅ x i
N
∑i =1 n i
2
)
xi : Intervallzentren
ni : Anzahl Einträge
Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche)
●
Standardabweichung der Verteilung:
●
Standardabweichung des Histogramms
●
50 Intervalle:
0.67 sec
●
5 Intervalle:
0.71 sec
●
2 Intervalle:
1.23 sec
0.66 sec
wieder: Informationsverlust bei zu groß gewählter Intervallbreite !
Datenanalyse HS15
Grundbegriffe der Statistik (14)
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS15
Grundbegriffe der Statistik (15)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Korrelation und Kovarianz
Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen
●
●
positive Korrelation: Wert einer Variablen nimmt
im Mittel zu, wenn der Wert der anderen zunimmt
x
(x −
i
x )⋅( y
i
−y )
(x −
i
x )⋅( y
i
<0
−y)
>0
negative Korrelation: Wert einer Variablen nimmt
im Mittel ab, wenn der Wert der anderen zunimmt
y
(x −
i
Kovarianz für N Wertepaare (x1,y1), …, (xN,yN)
x )⋅( y
i−y )
(x −
i
x )⋅( y
i
>0
−y )
<0
x
N
1
cov ( x , y ) ≡
⋅
( x i − x )( y i −y ) = xy − x y
N i =1
∑
y
●
cov (x,y) > 0 für positive Korrelation
●
cov (x,y) < 0 für negative Korrelation
●
cov (x,y) = 0 wenn keine Korrelation
●
Nachteil: Absolutwert hängt von den für x und y gewählten Einheiten ab
Datenanalyse HS15
Grundbegriffe der Statistik (16)
O. Steinkamp
Korrelationskoeffizient
Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen
ρ ≡
cov ( x , y )
xy − x y
=
σx σy
σx σy
-1 ≤ ρ ≤ 1
y
●
ρ = 0: keine Korrelation
●
ρ > 0: positive Korrelation
●
ρ < 0: negative Korrelation
●
x
ρ = ±1: vollständige Korrelation,
Wert von xi legt Wert von yi
fest und umgekehrt
[aus: Barlow, Statistics]
Datenanalyse HS15
Grundbegriffe der Statistik (17)
O. Steinkamp
Kleine Formelsammlung
●
(arithmetischer) Mittelwert einer Verteilung:
N
N
einfach:
●
1
⋅
x
N i =1 i
N
∑i =1
2
1/σ i
√V ( x )
=
√
N
1
⋅
( x i − x )2 =
N i=1
∑
√
x2 − x2
Unsicherheit auf dem Mittelwert einer Verteilung:
einfach:
●
x =
2
xi/σi
Standardabweichung einer Verteilung:
σx =
●
gewichtet:
∑
x =
∑i =1
σx
σx
=
√N
gewichtet:
Korrelationskoeffizient zweier Variablen:
ρ =
Datenanalyse HS15
cov ( x , y )
xy − x y
=
σx σy
σx σy
Grundbegriffe der Statistik (18)
σx =
√
1
N
∑i =1 1 /σ 2i
( -1 ≤ ρ ≤ 1 )
O. Steinkamp
Extra: inkompatible Messergebnisse
Beispiel: betrachte zwei der Messungen der Neutronlebensdauer (Folie 5)
t 2 = (881 ± 8) s
●
t 3 = (918 ± 14) s
die Ergebnisse sind nicht gut miteinander kompatibel
●
●
;
welche Annahme
wird hier gemacht ?
erwarte aufgrund der angegebenen Messunsicherheiten eine Abweichung von
ungefähr √ 14 2 +82 s ≈ 16 s , tatsächlicher Unterschied mehr als doppelt so groß
Standardformel ergibt zu kleine Unsicherheit für den gewichteten Mittelwert
σt =
●
√
1
s ≈ 7s
2
2
(1/8 )+(1/14 )
deutlich kleiner als der Unterschied zwischen den beiden Einzelmessungen
Was tun in solchen Fällen ?
●
nehme an, eines der Ergebnisse ist falsch und verwende nur das andere ?
●
●
gefährlich und nur mit sehr, sehr guter Begründung zulässig !!!!!!
besser: nehme an, dass die angegebenen Messunsichereiten unterschätzt
sind und skaliere die Unsicherheit auf dem Mittelwert entsprechend
Datenanalyse HS15
Grundbegriffe der Statistik (19)
O. Steinkamp
Extra: inkompatible Messergebnisse
Definiere “chi – Quadrat”:
2
N
χ ≡
∑
i =1
●
( x i − x )2
σ
s. später: “Methode
der kleinsten Quadrate”
2
i
Messergebnisse xi sollten im Mittel um die angegebene Messunsicherheit σi
vom Mittelwert abweichen ⇒ für N Messergebnisse erwarte χ²  N–1
●
●
für χ² ≤ N–1: gebe Unsicherheit auf Mittelwert gemäß Standardformel an
●
für χ² > N–1: skaliere alle Unsicherheiten mit Korrekturfaktor S = √ χ /(N −1)
●
für χ² >> N–1: erfordert spezielle Behandlung (z.B. gebe keinen Mittelwert an)
2
für unser Beispiel:
N = 2 ;
2
χ =
(881−890)2 (918−890)2
+
2
2
8
14
⇒
Datenanalyse HS15
= 5.27
⇒ S =
√ 5.27/(2−1) = 2.3
t = (890 ± 2.3⋅ 7) s = (890 ± 16) s
Grundbegriffe der Statistik (20)
O. Steinkamp
Herunterladen