Datenanalyse - physik.uzh.ch

Werbung
Datenanalyse
(PHY231)
Herbstsemester 2014
Olaf Steinkamp
Physik-Institut der Universität Zürich
Winterthurerstrasse 190
CH-8057 Zürich
[email protected]
Büro: 36-J-22
Tel.: 044-635.57.63
Vorlesungsprogramm
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
●
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix
●
Fehlerfortpflanzungsgesetz
●
Wahrscheinlichkeitsverteilungen I
- Verteilungen einer Variablen
- zentraler Grenzwertsatz
●
Monte-Carlo Methode
●
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
●
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
●
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse
Statistik (2/22)
PHY231 - HS 14
Beispielprogramme im Verzeichnis
/disk/puma/da/vorl/stat
O.Steinkamp
Mittelwert einer Verteilung
Für eine Verteilung aus N Werten x1,x2,…,xN:
●
arithmetischer Mittelwert der Verteilung:
x=
●
N
⋅∑ xi
i=1
geometrischer Mittelwert:
x=
●
1
N
N
 x ⋅x ⋅x
1
2
3
... x N
Median:
die Hälfte aller Werte ist grösser,
die Hälfte aller Werte ist kleiner
●
Modus:
der am häufigsten vorkommende Wert
im folgenden: “Mittelwert” ≡
Datenanalyse
PHY231 - HS 14
arithmetischer Mittelwert
Statistik (3/22)
O.Steinkamp
Arithmetisches Mittel
Mittelwert einer Funktion f(xi)
f=
1
N
N
⋅ ∑ f x i 
Beispiel: fx = x
2
⇒
2
f=x =
i=1
1
N
N
2
⋅∑ xi
i=1
Gewichteter Mittelwert von N Werten xi mit Gewichten wi
N
x=
∑i=1 w i⋅x i
Beispiel: für mehrere Messungen mit
(unterschiedlichen) Messunsicherheiten σi
N
∑i=1 wi
2
w i = 1/  i
Herleitung
später
Mittelwert eines Histogramms mit N Intervallen (“bins”)
N
x=
Datenanalyse
PHY231 - HS 14
∑i=1 ni⋅xi
N
∑i=1 n i
Mittelwert der Intervallzentren xi,
gewichtet mit der Anzahl Einträge ni
im jeweiligen Intervall
Statistik (4/22)
O.Steinkamp
Mittelwert Daten und Histogramm
Beispiel radioaktiver Zerfall (10.000 “Messwerte” am Computer simuliert)
from pylab import *
●
“wahrer” Mittelwert:
53.7
N = 10000
meantrue = 53.7
t = exponential(meantrue,N)
●
Mittelwert der Verteilung:
53.6
meandata = mean(t)
●
Mittelwert des Histogramms
tmin = 0.0
tmax = 600.0
nbins = 100
ni,xi,pat = hist(t,nbins,(tmin,tmax))
xmid
= (xi[0:-1]+xi[1:]) / 2.
meanhist = dot(ni,xmid) / sum(ni)
raddecay.py
Datenanalyse
PHY231 - HS 14
●
100 bins:
53.6
Informations-
●
10 bins:
59.0
verlust durch
●
3 bins:
105.
binning !
Statistik (5/22)
O.Steinkamp
Unsicherheit auf gewichtetem Mittelwert
Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi
N
x =
●
N
∑i=1 1/ σ 2i
wenn xi statistisch voneinander unabhängig: Gaußsche Fehlerfortpflanzung
σx =
●
∑i=1 xi / σ 2i
√
N
∑
i=1
(
x
 xi
2
⋅σ i
)
=
1
N
∑i=1 1/σ
2
i
⋅
√
N
∑
i=1
1
2
( )
⋅σ i
2
σi
=
1
√
N
∑i=1 1/σ 2i
wenn Messunsicherheit auf allen Messungen gleich groß: σi = σ für alle i
σx =
1
√
N
∑i=1 1/σ 2
=
σ
√N
vgl. Folie 13
aufgepasst: gilt nur, wenn die xi statistisch voneinander unabhängig sind !
z.B. systematische Unsicherheiten werden durch Wiederholung nicht kleiner
Datenanalyse
PHY231 - HS 14
Statistik (6/22)
O.Steinkamp
Einfacher und gewichteter Mittelwert
Beispiel: Lebensdauer des Neutrons
●
Resultate verschiedener Experimente [Quelle: Particle Data Group]
●
gewichteter Mittelwert aller Messungen = (886.3 ± 0.9) s
●
zum Vergleich: einfacher Mittelwert
= 891.4 s
neuere Messungen
einfacher Mittelwert
gewichteter Mittelwert
mit Unsicherheit
Datenanalyse
PHY231 - HS 14
Statistik (7/22)
# result[s] error[s]
918
14
881
8
937
18
903
13
876
21
877
10
878
30
894
5
888
3
891
9
888
3
888
3
882.6
2.7
889
5
885.4
1.0
887
3
O.Steinkamp
Einfacher und gewichteter Mittelwert
from pylab import *
data = np.loadtxt('nlife.dat')
tmeas = data[:,0]
dmeas = data[:,1]
imeas = arange(1,len(tmeas)+1)
errorbar(imeas,tmeas,dmeas,fmt='ro')
smean = mean(tmeas)
wmean,sumw = average(tmeas,weights=1./dmeas**2,returned='True')
dwmean = sqrt(1./sumw)
hold(True)
plot([0,len(imeas)+1],[wmean,wmean],'b-')
plot([0,len(imeas)+1],[wmean+dwmean,wmean+dwmean],'b--')
plot([0,len(imeas)+1],[wmean-dwmean,wmean-dwmean],'b--')
pylab:
●
mean berechnet einfachen
Mittelwert
●
average kann gewichteten
Mittelwert berechnen
●
help(average) für Hilfe
neuere Messungen
einfacher Mittelwert
gewichteter Mittelwert
mit Unsicherheit
Datenanalyse
PHY231 - HS 14
Statistik (8/22)
# result[s] error[s]
918
14
881
8
937
18
903
13
876
21
877
10
878
30
894
5
888
3
891
9
888
3
888
3
882.6
2.7
889
5
885.4
1.0
887
3
O.Steinkamp
Mittelwert inkompatibler Messergebnisse
Beispiel: betrachte zweite und dritte Messung der Neutronlebensdauer:
t 2 = (881 ± 8) s
●
t 3 = 918 ± 14 s
die Ergebnisse sind nicht miteinander kompatibel:
●
●
2
2
≈ 16 s voneinander abweichen
Standardformel ergibt zu kleine Unsicherheit für gewichteten Mittelwert:
t = (890 ± 7 ) s
nehme an, eines der Ergebnisse ist falsch und verwende nur das andere
●
●
√ 14 +8
tatsächlicher Unterschied ist mehr als doppelt so gross: 918−881 = 37 s
Was tun ?
●
wird hier gemacht ?
erwarte aufgrund der angegebenen Messunsicherheiten, dass die beiden
Ergebnisse nicht um viel mehr als
●
welche Annahme
gefährlich und nur mit sehr, sehr guter Begründung zulässig !!!!!!
nehme an, dass die angegebenen Messunsichereiten unterschätzt sind
●
skaliere die Unsicherheit auf dem Mittelwert entsprechend
Datenanalyse
PHY231 - HS 14
Statistik (9/22)
O.Steinkamp
Mittelwert inkompatibler Messergebnisse
Definiere “chi-Quadrat”:
2
N
 =∑
2
x i −x
mehr später (“Methode
 2i
der kleinsten Quadrate”)
i=1
●
Messergebnisse xi sollten im Mittel um die angegebene Messunsicherheit σi
vom Mittelwert abweichen ⇒ für N Messergebnisse erwarte χ²  N
●
●
χ²/N ≤ 1: gebe Unsicherheit auf Mittelwert gemäß Standardformel an
●
χ²/N > 1: skaliere alle Unsicherheiten mit Korrekturfaktor S =  2 /N−1
●
χ²/N » 1: erfordert spezielle Behandlung (z.B. gebe keinen Mittelwert an)

für unser Beispiel:
2
 =
881−890
8
2
2
2

 918−890
14
⇒
Datenanalyse
PHY231 - HS 14
2
= 5.27
;
N = 2 ⇒ S =  5.27 /2−1 = 2.3
t = (890 ± 7 ⋅2.3) s = (890 ± 16) s
Statistik (10/22)
O.Steinkamp
Vorlesungsprogramm
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
●
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix
●
Fehlerfortpflanzungsgesetz
●
Wahrscheinlichkeitsverteilungen I
- Verteilungen einer Variablen
- zentraler Grenzwertsatz
●
Monte-Carlo Methode
●
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
●
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
●
Interpretation von Messergebnissen
Beispielprogramme im Verzeichnis
/disk/puma/da/vorl/stat
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse
Statistik (11/22)
PHY231 - HS 14
O.Steinkamp
Breite einer Verteilung
Streuung der Messwerte = Maß für Messgenauigkeit
●
große Messunsicherheit ⇔ Messwerte streuen stark ⇔ breite Verteilung
●
kleine Messunsicherheit ⇔ Messwerte streuen wenig ⇔ schmale Verteilung
Beispiel: Rekonstruktion von ϒ-Resonanzen in ATLAS / CMS / LHCb
●
ϒ(1s,2s,3s): drei sehr kurzlebige Teilchen, zerfallen z.B. in zwei Myonen
●
messe die Impulse der zwei Myonen und berechne ihre invariante Masse
●
für echte ϒ-Zerfälle: berechnete invariante Masse = ϒ(1s,2s,3s) Masse
●
Breite des Signals bestimmt durch Messgenauigkeit des Detektors
ϒ(1s)
ϒ(2s)
ϒ(3s)
Datenanalyse
PHY231 - HS 14
Statistik (12/22)
O.Steinkamp
Standardabweichung einer Verteilung
Mittlere Abweichung der Messwerte vom Mittelwert
1
N
N
●
⋅ ∑ ∣ x i −x ∣
mathematische Behandlung unschön
(z.B. beim Bilden von Ableitungen)
i=1
Statistiker: Varianz der Verteilung
V  x =
●
1
N
N
2
⋅ ∑  x i−x
i=1
●
mathematische Behandlung okay
●
aber: andere Einheit als Messgröße
nützlicher Zusammenhang (Beweis in den Übungen):
Vx = x 2 − x 2
Physiker: Standardabweichung der Verteilung
σx =
Datenanalyse
PHY231 - HS 14
√ V (x)
=
√
1
N
N
2
⋅ ∑ (x i − x)
i=1
Statistik (13/22)
O.Steinkamp
Unsicherheit auf dem Mittelwert
Standardabweichung σx der Verteilung
●
bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert
●
ist ein Maß für die Messunsicherheit auf den einzelnen Messungen
●
hängt nicht von der Zahl der Messungen ab
Unsicherheit auf dem Mittelwert der Verteilung
●
ist umso kleiner je kleiner die Messunsicherheit auf den Einzelmessungen ist
●
nimmt mit zunehmender Anzahl Messungen ab
σx =
●
N
34
mean 9441.8
std
49.5
dmean
8.5
σx
√N
vgl. Folie 6
N
34000
mean 9450.1
std
49.8
dmean 0.27
Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50
Datenanalyse
PHY231 - HS 14
Statistik (14/22)
O.Steinkamp
Standardabweichung
Aufgepasst: zwei Definitionen der “Standardabweichung”!
x =
pylab:

1
N
N
2
⋅ ∑ x i −x
i=1
sx =
std(x,0)

1
N−1
N
2
⋅ ∑  x i −x
i=1
std(x,1)
●
Definition mit 1/N gibt die Standardabweichung der gemessenen Verteilung
●
Definition mit 1/(N-1) ist der Schätzwert für die Standardabweichung
einer theoretischen Verteilung, die der Messung zugrundeliegt
●
Unterschied für große N vernachlässigbar,
für kleine N aber nicht
●
immer angeben, welche Definition Sie verwenden
Datenanalyse
PHY231 - HS 14
Statistik (15/22)
wird später
klar werden
O.Steinkamp
Standardabweichung eines Histogramms
Histogramm mit N bins, bin-Zentren xi und ni Einträgen in bin i

x =
x
2
−x
2
=

N
∑i=1 ni ⋅x
2
i
N
∑i=1 ni
−

N
∑i=1 ni ⋅x i
N
∑i=1 ni
2

Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche)
from pylab import *
data = loadtxt('gravkonst.dat')
xmin = 4.0
xmax = 10.0
nbins = 100
ni,xi,pat = hist(data,nbins,(xmin,xmax))
xmid
= (xi[0:-1]+xi[1:]) / 2.
meanhist = dot(nh,xmid) / sum(nh)
stdhist = sqrt(dot(ni,xmid**2)/sum(ni)-meanhist**2)
hold(True)
norm = xbin * sum(ni)
xth
= frange(4,10,0.05)
p
= [6.67, 0.7]
yth
= norm*normpdf(xth,p[0],p[1])
plot(xth,yth,'--',)
show()
●
Standardabweichung Verteilung: 0.66
●
Standardabweichung Histogramm
●
50 bins: 0.67
●
5 bins:
0.71
●
2 bins:
1.23
Informationsverlust durch
binning !
gravkonst.py
Datenanalyse
PHY231 - HS 14
Statistik (16/22)
O.Steinkamp
Full Width at Half Maximum (FWHM)
Breite der Verteilung auf halber Höhe des Maximums:
●
weniger empfindlich auf “Ausreisser” als die Standardabweichung
 robusteres Mass für die zentrale Breite der Verteilung
●
Beispiel: Altersverteilung in einem Hörsaal (fiktive Werte)
20.2
19.6
20.5
20.6
19.9
21.0
21.0
20.4
20.6
20.5
20.4
20.8
20.2
21.5
20.4
20.5
21.0
20.5
20.4
20.0
20.6
19.8
20.8
21.3
20.1
20.9
Nmax
FWHM
FWHM
Nmax/2
●
26 Studierende:
●
26 Studierende plus Dozent:
Mittelwert = 20.5 Jahre
Mittelwert = 21.5 Jahre
Standardabweichung = 0.4 Jahre
Standardabweichung = 5.0 Jahre
Datenanalyse
PHY231 - HS 14
Statistik (17/22)
O.Steinkamp
Vorlesungsprogramm
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
●
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix
●
Fehlerfortpflanzungsgesetz
●
Wahrscheinlichkeitsverteilungen I
- Verteilungen einer Variablen
- zentraler Grenzwertsatz
●
Monte-Carlo Methode
●
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
●
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
●
Interpretation von Messergebnissen
Beispielprogramme im Verzeichnis
/disk/puma/da/vorl/stat
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse
Statistik (18/22)
PHY231 - HS 14
O.Steinkamp
Kovarianz und Korrelation
Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen
●
positive Korrelation: Wert einer Variablen nimmt
(x −
i
i
im Mittel zu, wenn der Wert der anderen zunimmt
●
x )⋅( y
−y )
(x −
i
x )⋅( y
i
<0
−y )
>0
−y )
<0
negative Korrelation: Wert einer Variablen nimmt
im Mittel ab, wenn der Wert der anderen zunimmt
(x −
i
Kovarianz für N Wertepaare (x1,y1), …, (xN,yN)
cov (x , y) ≡
1
N
x )⋅( y
i−y )
(x −
i
>0
x )⋅( y
i
N
⋅ ∑ (x i −x)( y i−y) = xy − x y
i=1
●
cov (x,y) > 0 für positive Korrelation
●
cov (x,y) < 0 für negative Korrelation
●
cov (x,y) = 0 wenn keine Korrelation
●
aber: Absolutwert hängt von den für x und y gewählten Einheiten ab
Datenanalyse
PHY231 - HS 14
Statistik (19/22)
O.Steinkamp
Korrelationskoeffizient
Einheitenloses und normiertes Maß für Korrelation zweier Zufallsvariablen
cov(x , y)
xy − x y
ρ = σ σ
= σ σ
x y
x y
mit -1 ≤ ρ ≤ 1
y
●
ρ = 0: keine Korrelation
●
ρ > 0: positive Korrelation
●
ρ < 0: negative Korrelation
●
ρ = ±1: vollständige Korrelation,
x
Wert von xi legt Wert von yi fest
(und umgekehrt)
[aus: Barlow, Statistics]
Datenanalyse
PHY231 - HS 14
Statistik (20/22)
O.Steinkamp
Korrelationskoeffizient
Einheitenloses und normiertes Maß für Korrelation zweier Zufallsvariablen
cov(x , y)
xy − x y
ρ ≡ σ σ
= σ σ
x y
x y
●
ρ = 0: keine Korrelation
●
ρ > 0: positive Korrelation
●
ρ < 0: negative Korrelation
●
ρ = ±1: vollständige Korrelation,
mit -1 ≤ ρ ≤ 1
Wert von xi legt Wert von yi fest
(und umgekehrt)
[http://de.wikipedia.org/wiki/Datei:Correlation_examples.png]
Datenanalyse
PHY231 - HS 14
Statistik (21/22)
O.Steinkamp
Kleine Formelsammlung
●
(arithmetischer) Mittelwert einer Verteilung:
einfach:
●
x =
gewichtet:
i=1
√ V (x)
=
Fehler auf dem Mittelwert:
einfach:
●
N
⋅ ∑ xi
x =
∑i=1 xi /σ 2i
N
∑i=1
2
1 /σ i
Standardabweichung einer Verteilung:
σx =
●
1
N
N
σx =
√
1
N
N
⋅ ∑ (x i − x)2 =
i=1
σx
gewichtet:
√N
Korrelationskoeffizient zweier Variablen:
ρ =
Datenanalyse
PHY231 - HS 14
cov (x , y )
σxσ y
=
xy − x y
σx σy
Statistik (22/22)
√x
2
− x2
σx =
√
1
N
∑i=1 1/σ 2i
( -1 ≤ ρ ≤ 1 )
O.Steinkamp
Herunterladen