Grundbegriffe der Statistik

Werbung
Datenanalyse
(PHY231)
Herbstsemester 2017
Olaf Steinkamp
36-J-05
[email protected]
044 63 55763
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS17
Grundbegriffe der Statistik (2)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Mittelwert einer Verteilung
Für eine Verteilung aus N Werten x1, x2, …, xN
●
arithmetischer Mittelwert:
N
1
x ≡
⋅
x
N i =1 i
∑
●
●
Median:
die Hälfte aller Werte ist grösser,
die Hälfte aller Werte ist kleiner
Modus:
der am häufigsten vorkommende Wert
im folgenden: “Mittelwert” ≡ arithmetischer Mittelwert
Für eine Funktion f (xi)
N
f ≡
Datenanalyse HS17
1
⋅
f ( xi )
N i =1
∑
f ( x) = x
Grundbegriffe der Statistik (3)
2
N
⇒
1
2
f =
⋅
xi
N i=1
∑
O. Steinkamp
Gewichteter Mittelwert
Gewichteter Mittelwert von N Werten xi mit Gewichten wi
N
x ≡
●
∑i =1 w i⋅x i
N
∑i =1 w i
wichtige Anwendung: gewichteter Mittelwert von N voneinander
unabhängigen Messungen mit unterschiedlichen Messunsicherheiten σi
1
wi =
●
2
σi
Herleitung später
Mittelwert eines Histogramms mit N Intervallen:
N
x ≡
∑i =1 n i⋅x i
N
∑i =1 ni
xi : Intervallzentren
ni : Anzahl Einträge
Mittelwert des Histogramms = gewichteter Mittelwert der Intervallzentren
Datenanalyse HS17
Grundbegriffe der Statistik (4)
O. Steinkamp
Einfacher und gewichteter Mittelwert
Beispiel: 16 Messungen der Lebensdauer des Neutrons
arithmetischer
Mittelwert
gewichteter
Mittelwert
(mit Unsicherheit)
# t[s] dt[s]
918
14
881
8
937
18
903
13
876
21
877
10
878
30
894
5
888
3
891
9
888
3
888
3
882.6
2.7
889
5
885.4
1.0
887
3
●
arithmetischer Mittelwert aller Messungen: 1/16 × Σ ti = 891.4 s
●
aber: neuere Messungen präziser als ältere → sollten mehr Gewicht haben
●
gewichteter Mittelwert: 1 / Σ(1/σi2) × Σ (ti /σi2) = (886.3 ± 0.9) s
[Quelle: Particle Data Group]
neuere Messungen
nlife.py
nlife.dat
pylab: Befehl average() kann gewichtete Mittelwerte berechnen
Datenanalyse HS17
Grundbegriffe der Statistik (5)
O. Steinkamp
Unsicherheit auf gewichtetem Mittelwert
Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi
wi =
1
x =
⇒
σ 2i
N
∑(
i =1
●
N
1
1
2
σi
i =1
)
xi
σ 2i
)
Messungen voneinander unabhängig: benutze Gaußsche Fehlerfortpflanzung
N
σx =
√
N
∑(
i =1
x
⋅σ i
 xi
2
)
⇒
σx =
√∑ (
i =1
N
1
2 ⋅σ i
σi
∑(
1
i =1
●
∑(
×
σ
2
i
)
2
=
)
1
√
N
∑ (1 σ )
i =1
2
i
Spezialfall: Messunsicherheit auf allen Messungen gleich, d.h. σi = σ für alle i
σx =
1
N
√∑
i =1
=
1
σ
2
1
√
N×
=
1
σ2
σ
√N
nächste Woche
aber aufgepasst: Gaußsche Fehlerfortpflanzung gilt nur,
wenn die Messungen voneinander unabhängig sind
Datenanalyse HS17
Grundbegriffe der Statistik (6)
O. Steinkamp
Mittelwert histogrammierter Daten
Beispiel: 10'000 exponentialverteilte Messwerte
expohist.py
#!/usr/bin/env python
from pylab import *
#
# generiere exponentialverteilte Werte
#
N = 10000
meantrue = 53.7
tmeas = exponential(meantrue,N)
#
# Mittelwert der Verteilung
#
meanmeas = mean(tmeas)
#
# histogrammiere die Werte
#
tmin = 0 ; tmax = 600 ; nbins = 100
ni,ti,patch = hist(tdata,nbins,(tmin,tmax))
#
# Mittelwert des Histogramms
#
tbin = ti[0:-1]+ti[1:])/2.0
meanhist = dot(ni,tbin) / sum(ni)
(Zerfallszeiten radioaktiver Quelle)
●
“wahrer” Mittelwert:
53.7 min
●
Mittelwert der Messwerte:
53.6 min
●
Mittelwert eines Histogramms mit
●
●
●
100 Intervallen:
10 Intervallen:
3 Intervallen:
53.6 min
59.0 min
105. min
bei zu groß gewählter Intervallbreite geht Information verloren !
Datenanalyse HS17
Grundbegriffe der Statistik (7)
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS17
Grundbegriffe der Statistik (8)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Maße für die Breite einer Verteilung
Mittlere Abweichung der Messwerte vom Mittelwert
N
1
⋅ | x i− x |
N i =1
∑
●
unschöne mathematische Behandlung (z.B. beim Bilden von Ableitung)
Statistiker: Varianz der Verteilung
N
1
2
2
2
V (x) ≡
⋅
( x i −x ) = x − x
N i =1
∑
●
●
Herleitung: Uebungen
okay bzgl. mathematischer Behandlung
aber: andere Einheit als Messgröße
Physiker: Standardabweichung der Verteilung
σx ≡
Datenanalyse HS17
√ V (x )
=
√
1
N
N
2
⋅ ∑ ( xi − x )
=
2
√ x −x
2
i =1
Grundbegriffe der Statistik (9)
O. Steinkamp
Standardabweichung
Aufgepasst: zwei Definitionen der “Standardabweichung”!
σx ≡
in pylab:
●
●
●
●
√
N
1
⋅
( x i −x )2
N i=1
∑
sx ≡
std(x,0)
√
N
1
⋅
( x i − x )2
N −1 i =1
∑
std(x,1)
Definition mit 1 / N ist die Standardabweichung der gemessenen Verteilung
Definition mit 1 / (N-1) gibt einen Schätzwert für die Standardabweichung
der “wahren” Verteilung, die gemessen werden soll
Unterschied für große N vernachlässigbar,
nicht aber für kleine N
deshalb wichtig: immer angeben,
welche Definition Sie verwenden
Datenanalyse HS17
Grundbegriffe der Statistik (10)
keine Angst,
wird in ein paar Wochen
hoffentlich klar ...
O. Steinkamp
Standardabweichung einer Verteilung und
Unsicherheit auf ihrem Mittelwert
Standardabweichung σx der Verteilung
●
ist bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert
●
ist ein Maß für die Messunsicherheit auf den einzelnen Messungen
●
hängt nicht von der Zahl der Messungen ab
Unsicherheit auf dem Mittelwert der Verteilung
●
●
ist umso kleiner, je kleiner die Streuung der
Messwerte ist
34
9442
49.5
8
nimmt mit zunehmender Anzahl Messungen ab
σx =
●
N
mean
std
dmean
σx
√N
vgl. Folie 6
N
34000
mean 9450.1
std
49.8
dmean
0.3
Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50
Datenanalyse HS17
Grundbegriffe der Statistik (11)
O. Steinkamp
Standardabweichung einer
histogrammierten Verteilung
Histogramm mit N Intervallen
Folie 9
σx =
√
Folie 4
2
x −x
2
=
√
N
∑i =1 ni ⋅ x
N
∑i =1 n i
2
i
−
(
N
∑i =1 n i ⋅ x i
N
∑i =1 n i
2
)
xi : Intervallzentren
ni : Anzahl Einträge
Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche)
●
●
Standardabweichung der Verteilung:
0.66 ×10-11N·m2/kg
Standardabweichung des Histogramms mit
●
50 Intervallen:
0.67
●
5 Intervallen:
0.71
●
2 Intervallen:
1.23
wieder: Informationsverlust bei zu groß gewählter Intervallbreite !
Datenanalyse HS17
Grundbegriffe der Statistik (12)
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- Verteilungen zweier Variablen
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
Interpretation von Messergebnissen
- Konfidenzintervalle, Testen von Hypothesen
Datenanalyse HS17
Grundbegriffe der Statistik (13)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/stat
O. Steinkamp
Korrelation und Kovarianz
Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen
●
●
positive Korrelation: Wert einer Variablen nimmt
im Mittel zu, wenn der Wert der anderen zunimmt
x
(x −
i
x )⋅( y
i
−y )
(x −
i
x )⋅( y
i
<0
− y)
>0
negative Korrelation: Wert einer Variablen nimmt
im Mittel ab, wenn der Wert der anderen zunimmt
Kovarianz für N Wertepaare (x1,y1), …, (xN,yN)
N
cov ( x , y ) ≡
1
⋅
( x i − x )( y i −y ) = xy − x y
N i =1
y
(x −
i
x )⋅( y
i−y )
(x −
i
x )⋅( y
i
>0
−y )
<0
x
∑
●
cov (x,y) > 0 für positive Korrelation
●
cov (x,y) < 0 für negative Korrelation
●
cov (x,y) = 0 wenn keine Korrelation
y
Nachteil: Wert für cov (x,y) ≠ 0 hängt von den für x und y gewählten Einheiten ab
Datenanalyse HS17
Grundbegriffe der Statistik (14)
O. Steinkamp
Korrelationskoeffizient
Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen
ρ ≡
cov ( x , y )
xy − x y
=
σx σy
σx σy
-1 ≤ ρ ≤ 1
y
●
ρ = 0: keine Korrelation
●
ρ > 0: positive Korrelation
●
ρ < 0: negative Korrelation
●
x
ρ = ±1: vollständige Korrelation,
Wert von xi legt Wert von yi
fest und umgekehrt
[aus: Barlow, Statistics]
Datenanalyse HS17
Grundbegriffe der Statistik (15)
O. Steinkamp
Korrelationskoeffizient
Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen
ρ ≡
-1 ≤ ρ ≤ 1
aber: aufgepasst bei nicht-linearen Zusammenhängen
[von: wikipedia.de]
●
cov ( x , y )
xy − x y
=
σx σ y
σx σy
Datenanalyse HS17
Grundbegriffe der Statistik (16)
O. Steinkamp
Zusammenfassung
●
(arithmetischer) Mittelwert einer Verteilung:
N
N
einfach:
●
1
⋅
x
N i =1 i
x =
N
∑i =1
2
1/σ i
√V ( x )
=
√
N
1
⋅
( x i − x )2 =
N i=1
∑
√
x2 − x2
Unsicherheit auf dem Mittelwert einer Verteilung:
einfach:
●
x =
2
xi/σi
Standardabweichung einer Verteilung:
σx =
●
gewichtet:
∑
∑i =1
σx
σx
=
√N
gewichtet:
linearer Korrelationskoeffizient zweier Variablen:
ρ =
Datenanalyse HS17
cov ( x , y )
xy − x y
=
σx σy
σx σy
Grundbegriffe der Statistik (17)
σx =
√
1
N
∑i =1 1 /σ 2i
( -1 ≤ ρ ≤ 1 )
O. Steinkamp
Herunterladen