Statistische Methoden - I. Physikalisches Institut B, RWTH Aachen

Werbung
Statistische Methoden
Henning Gast
Grundpraktikum Physik, März 2016
Henning Gast
Statistik
1
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
2
Literatur
G. Cowan, Statistical Data Analysis, Oxford University Press,
ISBN 0-19-850155-2
R. Barlow, Statistics, Wiley, ISBN 0-471-92295-1
V. Blobel und E. Lohrmann, Statistische und numerische
Methoden der Datenanalyse, eBuch:
http://www.desy.de/∼blobel/ebuch.html
Henning Gast
Statistik
3
Messunsicherheiten
Im Praktikum sollen alle Messergebnisse zusammen mit ihrer
Unsicherheit angegeben werden, z.B.:
R = 99.82 Ω ± 0.10 Ω
Die Unsicherheit gibt dabei an, mit welcher Genauigkeit eine
Größe im Praktikum mit den zur Verfügung stehenden Mitteln
bestimmt werden konnte. Sie spiegelt die Qualität und die
Präzision einer Messung wider, vorausgesetzt dass sie korrekt
bestimmt wurde.
Wichtig ist die Unterscheidung zwischen statistischen und
systematischen Unsicherheiten, dazu später mehr.
Bei der Angabe des Messergebnisses sollen nur die im Rahmen
der Genauigkeit signifikanten Stellen angegeben werden. (Am
besten, 2 signifikante Stellen angeben, um Rundungsfehler klein
zu halten.)
Henning Gast
Statistik
4
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
5
Wahrscheinlichkeit
Wir betrachten eine Menge S und nennen sie den Parameterraum.
Jeder Untermenge A von S weisen wir eine reelle Zahl P(A) zu, die
wir Wahrscheinlichkeit nennen.
Kolmogorov Axiome (1933)
1
Für jede Untermenge A in S: P(A) ≥ 0.
2
Für alle disjunkten Untermengen A and B:
P(A ∪ B) = P(A) + P(B).
3
P(S) = 1.
Wir möchten mit reellen Zahlen statt mit Elementen von Mengen
rechnen, deshalb definieren wir:
Definition
Eine Abbildung X : S → Rn heißt Zufallsgröße.
Henning Gast
Statistik
6
Bedingte Wahrscheinlichkeit
Definition
Für zwei Untermengen A und B des Parameterraums ist die bedingte
Wahrscheinlichkeit P(A|B) definiert durch
P(A|B) =
P(A ∩ B)
P(B)
Die zwei Untermengen heißen unabhängig, wenn
P(A ∩ B) = P(A) P(B).
Wegen A ∩ B = B ∩ A, P(B ∩ A) = P(A|B)P(B) = P(B|A)P(A), und
so kommen wir zu dem
Theorem (Satz von Bayes)
P(A|B) =
Henning Gast
P(B|A)P(A)
P(B)
Statistik
7
Interpretation von Wahrscheinlichkeiten
Frequentistische Interpretation
P(A) = lim
n→∞
Anzahl der Vorkommnisse von Ausgang A in n Messungen
n
Zugrunde liegende Annahme: Das Zufallsexperiment kann
prinzipiell beliebig oft wiederholt werden.
Beispiel: Messung der Kapazität eines Kondensators.
Problematischer: Aussagen über Zufallsexperimente, die nur ein
einziges Mal durchgeführt werden können, z.B.: “Morgen wird es
regnen.”
Henning Gast
Statistik
8
Wahrscheinlichkeitsdichte
Betrachten wir einen Parameterraum S und eine Zufallsgröße
X : S → R.
Definition
Die Wahrscheinlichkeitsdichte von X ist definiert als
f (x) dx = P(X ergibt Wert in [x, x + dx])
f (x) ist normiert, so dass
Z
f (x) dx = 1
S
Die Definition gilt genauso für kontinuierliche wie für diskrete
Zufallsgrößen.
Henning Gast
Statistik
9
Histogramme
Henning Gast
Statistik
10
Kumulative Verteilung
Definition
Die kumulative Verteilung F (x) zu einer
Wahrscheinlichkeitsdichte f (x) ist definiert durch
Z x
F (x) =
f (x 0 ) dx 0
−∞
Henning Gast
Statistik
11
Erwartungswert und Varianz
Wir betrachten eine 1-D Zufallsgröße X . Um Mittelwert und Streuung
von X zu charakterisieren, definieren wir:
Definition
Der Erwartungswert oder Mittelwert von X ist gegeben durch
Z ∞
E[X ] =
xf (x) dx = µ
−∞
Die Varianz von X ist gegeben durch
Z ∞
V [X ] =
(x − µ)2 f (x) dx = σ 2
−∞
p
Die Standardabweichung von X ist gegeben durch σ = V [X ].
Diese Größe ist sinnvoll, weil sie dieselben Einheiten hat wie x.
Beachte, dass V [X ] = (E[X 2 ]) − µ2 .
Henning Gast
Statistik
12
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
13
Gauß-Verteilung
Definition
f (x; µ, σ) = √
(x − µ)2
exp −
2σ 2
2πσ 2
1
E[X ] = µ
V [X ] = σ 2
Die Wichtigkeit der
Gauß-Verteilung liegt im
zentralen Grenzwertsatz
begründet: Die Summe von n
unabhängigen kontinuierlichen
Zufallsgrößen mit Mittelwerten µi
und endlichen Varianzen σi2
nähert sich im Grenzfall n → ∞
einer Gauß-Verteilung
mit
P
Mittelwert
µ
=
µ
und
Varianz
i i
P
σ 2 = i σi2 .
Henning Gast
Statistik
14
Binomial-Verteilung
Betrachte eine Serie von N unabhängigen Versuchen oder
Beobachtungen, von denen jede zwei Mögliche Ausgänge hat (’1’
oder ’0’), mit fester Wahrscheinlichkeit p für ’1’
(Bernoulli-Experiment). Die Wahrscheinlichkeit, k -mal ’1’ in N
Versuchen zu messen, ist
Definition
N k
f (k ; N, p) =
p (1 − p)N−k
k
N
N!
with
=
k
k !(N − k )!
E[X ] = Np
V [X ] = Np(1 − p)
Henning Gast
Statistik
15
Poisson-Verteilung
Betrachte die Binomial-Verteilung im Grenzfall, dass N sehr groß
wird, p sehr klein wird, aber das Produkt np konstant gleich einem
endlichen Wert ν bleibt. Dann nähert sich die Binomial-Verteilung
einer Poisson-Verteilung an:
Definition
f (k ; ν) =
ν k −ν
e
k!
E[X ] = ν
V [X ] = ν
Beispiel: Zählexperiment.
Für große ν nähert sich die
Poisson-Verteilung einer
Gauß-Verteilung mit Mittelwert ν
und Varianz ν an.
Henning Gast
Statistik
16
Gleichverteilung
Definition
Die Gleichverteilung ist gegeben durch
1
α≤x ≤β
β−α
f (x; α, β) =
0
sonst
E[X ] = 12 (α + β)
V [X ] =
1
12 (β
− α)2
Beispiele:
Digitalisierung im Analog-Digital-Wandler (ADC)
Maßband (Intervall zwischen zwei Skalenstrichen)
Henning Gast
Statistik
17
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
18
Gemeinsame Wahrscheinlichkeitsdichte und
Kovarianz
Definition
Seien X und Y zwei Zufallsgrößen. Die gemeinsame
Wahrscheinlichkeitsdichte f (x, y ) ist definiert als
P(X (ω) ∈ [x, x + dx] ∧ Y (ω) ∈ [y , y + dy ]) = f (x, y ) dx dy
für alle ω ∈ S.
Definition
Die Kovarianz von zwei Zufallsgrößen X and Y ist definiert als
Vxy = E[(x − µx )(y − µy )] = E[xy ] − µx µy
Z ∞Z ∞
=
xy f (x, y ) dx dy − µx µy
−∞
−∞
Henning Gast
Statistik
19
Korrelationskoeffizient
Ein dimensionsloses Maß für die Korrelation zwischen zwei
Zufallsgrößen ist gegeben durch den Korrelationskoeffizienten
ρxy =
Vxy
σx σy
Man kann zeigen, dass −1 ≤ ρxy ≤ 1. Per Konstruktion ist die
Kovarianzmatrix Vab symmetrisch in a und b, und die
Diagonalelemente Vaa = σa2 (d.h. die Varianzen) sind positiv.
Henning Gast
Statistik
20
Streudiagramme
Henning Gast
Statistik
21
Rechnen mit Erwartungswerten
Aus der Definition des Erwartungswert folgt:
Für die Multiplikation einer Zufallsgröße mit einer Konstanten a:
E[aX ] = aE[X ]
V [aX ] = a2 V [X ]
Für die Summe zweier Zufallsgrößen X und Y :
E[X + Y ] = E[X ] + E[Y ]
V [X + Y ] = V [X ] + V [Y ]
wobei die letzte Beziehung nur gilt, wenn X and Y unabhängig
sind, d.h. die gemeinsame Wahrscheinlichkeitsdichte faktorisiert:
f (x, y ) dx dy = fx (x)fy (y ) dx dy .
Henning Gast
Statistik
22
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
23
Einführung in die Parameterschätzung
Die Parameter einer Wahrscheinlichkeitsdichte sind Konstanten, die
ihre Form beschreiben, z.B. θ in
f (x; θ) =
1 −x/θ
e
θ
Um den unbekannten Parameter θ zu bestimmen, benutzen wir eine
Stichprobe von Beobachtungswerten x = (x1 , . . . , xn ), die
entsprechend der Wahrscheinlichkeitsdichte verteilt sind. Die
Aufgabe besteht nun darin, eine Funktion der Daten zu finden, um
den gesuchten Parameter zu schätzen:
θ̂(x)
θ̂(x) wird Schätzgröße für den unbekannten Parameter θ genannt. Im
Allgemeinen heißt eine Funktion, die Beobachtungsdaten (x1 , . . . , xn )
eine Zahl zuordnet, eine Testgröße.
Henning Gast
Statistik
24
Beispiel: Schätzgrößen für Mittelwert und Varianz
Wir wollen eine Schätzgröße für den Mittelwert µ einer
Wahrscheinlichkeitsdichte mit völlig unbekannter Form angeben,
basierend auf der Stichprobe (x1 , . . . , xn ). Wir benutzen das
arithmetische Mittel
n
1X
x̄ =
xi
n
i=1
Der Erwartungswert von x̄ ergibt sich zu
"
#
n
n
n
1X
1X
1X
xi =
E[xi ] =
µ=µ
E[x̄] = E
n
n
n
i=1
i=1
i=1
was bedeutet, dass x̄ in der Tat eine erwartungstreue Schätzgröße
für µ ist.
Man kann zeigen, dass die empirische Varianz
n
s2 =
1 X
(xi − x̄)2
n−1
i=1
eine erwartungstreue Schätzgröße für die unbekannte Varianz ist:
E[s2 ] = σ 2 .
Henning Gast
Statistik
25
Schätzgröße für die Kovarianz
Ähnlich kann gezeigt werden, dass die Größe
n
V̂xy =
1 X
n
(xi − x̄)(yi − ȳ ) =
(xy − x̄ ȳ )
n−1
n−1
i=1
eine erwartungstreue Schätzgröße für die Kovarianz Vxy zweier
Zufallsgrößen X und Y mit unbekanntem Mittelwert ist.
Henning Gast
Statistik
26
Varianz des arithmetischen Mittels
Für die Varianz des arithmetischen Mittels finden wir


!
n
n
X
X
1
1
V [x̄] = E[x̄ 2 ] − (E[x̄])2 = E 
xi 
xj  − µ2
n
n
i=1
j=1
n
1 X
E[xi xj ] − µ2
= 2
n
i,j=1
=
1
σ2
[(n2 − n)µ2 + n(µ2 + σ 2 )] − µ2 =
2
n
n
wo wir benutzt haben, dass E[xi xj ] = µ2 für i 6= j und
E[xi xj ] = µ2 + σ 2 für i = j.
Dieses Ergebnis bedeutet, dass die Unsicherheit des Mittelwerts bei
n Messungen√von x gleich der Standardabweichung von f (x) ist,
geteilt durch n.
Henning Gast
Statistik
27
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
28
Statistische Messunsicherheit
Wir betrachten zwei experimentelle Gegebenheiten:
Ein bestimmter Parameter soll aus einer Menge von n
wiederholten Messungen bestimmt werden. Wie stark streuen
die Messungen? (→ Standardfehler)
Der unbekannte wahre Parameter einer
Wahrscheinlichkeitsdichte soll aus einem einzelnen Experiment
bestimmt werden. Mit welcher Genauigkeit kann der Parameter
bestimmt werden? (→ Konfidenzintervall)
In beiden Fällen sind wir daran interessiert, ein Intervall zu finden,
das den wahren Wert der zu messenden Größe mit einer
Wahrscheinlichkeit von 68 % enthält. Motivation: Bei der
Gauß-Verteilung gilt:
Z µ+σ
(x − µ)2
1
√
exp −
dx ≈ 0.68
2σ 2
2πσ
µ−σ
Semantik: Was verstehen wir unter den folgenden Begriffen?
Fehler
Unsicherheit
Henning Gast
Statistik
29
Standardabweichung als statistischer Fehler
Wenn wir die Messung eines (wahren aber unbekannten) Parameters
θt mehrfach wiederholen und dabei MesswerteP(t1 , . . . , tn ) erhalten,
können wir das arithmetische Mittel θ = (1/n) ti und die empirische
Standardabweichung σθ berechnen. Für n Wiederholungen wird die
Unsicherheit auf das√arithmetische Mittel, das aus allen Messungen
berechnet wird, σθ / n betragen. Wir können dann
√
θ ± σθ / n
als Ergebnis der Messung angeben.
Aber: Welcher Anteil
wird im Mittel einen Wert im
√ der Messungen
√
Intervall [θ − σθ / n, θ + σθ / n] ergeben? Es stellt sich heraus, dass
dieses simple Verfahren streng nur für Gauß-verteilte Messgrößen
gilt.
Henning Gast
Statistik
30
Konfidenzintervalle
Problemstellung:
Wir möchten auf einen Parameter µ schließen, dessen wahrer
Wert µt unbekannt ist.
Dazu führen wir eine einzelne Messung einer Observablen x
durch.
Die Wahrscheinlichkeitsdichte dafür, x in Abhängigkeit des
unbekannten Parameters µ zu erhalten, nehmen wir als bekannt
an und nennen diese Wahrscheinlichkeitsdichte P(x|µ).
Unsere Messung ergebe nun den Wert x0 .
Ein Konfidenzintervall [µ1 , µ2 ] ist ein Element einer Menge, die durch
die Eigenschaft
P(µ ∈ [µ1 , µ2 ]) = α
definiert ist. α heißt Konfidenzniveau.
Henning Gast
Statistik
31
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
32
Fehlerfortpflanzung
Wir betrachten eine Menge von n Zufallsgrößen x = (x1 , . . . , xn ), die
gemäß einer gewissen gemeinsamen Wahrscheinlichkeitsdichte f (x)
verteit seien. Die Wahrscheinlichkeitsdichte selbst ist unbekannt,
aber die Mittelwerte der xi , µ = (µ1 , . . . , µn ) sowie die
Kovarianzmatrix Vij seien bekannt oder abgeschätzt.
Unser Ziel ist die Bestimmung der Varianz V [y ] einer Funktion y (x)
der n Variablen. (Beispiel: Bestimmung eines Ohmschen
Widerstands aus Messung von Strom und Spannung über R = U/I.)
Dazu entwickeln wir y (x) bis zur ersten Ordnung um die Mittelwerte
der xi :
n X
∂y
(xi − µi )
y (x) ≈ y (µ) +
∂xi x=µ
i=1
Wegen E[xi − µi ] = 0, ist der Erwartungswert von y
E[y (x)] ≈ y (µ)
Henning Gast
Statistik
33
Fehlerfortpflanzung
Der Erwartungswert von y 2 ist
E[y 2 (x)] ≈ y 2 (µ) + 2y (µ) ·
n X
∂y
i=1

+E
∂xi
E[xi − µi ]
x=µ

! n X ∂y (xi − µi ) 
(xj − µj )
∂xi x=µ
∂xj x=µ
n X
∂y
i=1
= y 2 (µ) +
j=1
n
X
i,j=1
∂y ∂y
∂xi ∂xj
Vij
x=µ
so dass die Varianz σy2 = E[y 2 ] − (E[y ])2 gegeben ist durch
Gauß’sche Fehlerfortpflanzung
σy2 ≈
n X
∂y ∂y
Vij
∂xi ∂xj x=µ
i,j=1
Henning Gast
Statistik
34
Häufige Spezialfälle
Für den Fall, dass die xi nicht korreliert sind, d.h. Vii = σi2 und Vij = 0
für i 6= j, erhalten wir die wohlbekannte Formel
σy2 ≈
2
n X
∂y
i=1
∂xi
σi2
x=µ
Wir betrachten zwei Spezialfälle:
Wenn y = x1 + x2 , ergibt sich die Varianz von y zu
σy2 = σ12 + σ22 + 2V12
Für das Produkt y = x1 x2 erhalten wir
σy2
σ2
σ2
V12
= 12 + 22 + 2
2
y
x1 x2
x1
x2
Henning Gast
Statistik
35
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
36
Die Methode der kleinsten Quadrate
Angenommen, wir haben eine Menge von N unabhängigen
Gauß’schen Zufallsgrößen yi , an verschiedenen Orten xi . Jeder Wert
yi hat einen anderen Mittelwert λi , der durch eine Funktion
λ = λ(x; θ) gegeben ist, aber eine bekannte Varianz σi2 . λ hängt von
m Parametern (θ1 , . . . , θm ) ab, welche wir bestimmen wollen.
Die Parameter, die die Größe
χ2 (θ) =
N
X
(yi − λ(xi ; θ))2
σi2
i=1
minimieren, heißen χ2 -Schätzgrößen (LS, least-squares) für die θ.
Henning Gast
Statistik
37
Varianz der χ2 -Schätzgrößen
Man kann zeigen, dass für den
Fall eines freien Parameters die
Unsicherheit auf die best-fit
Parameter θ0 durch diejenigen
Werte gegeben ist, bei denen
χ2 (θ) = χ2min + 1
wird.
Henning Gast
Statistik
38
Güte der Anpassung (goodness of fit)
Der Wert von χ2min ist ein Maß für die Übereinstimmung zwischen den
Daten und der angepassten Modellkurve:
χ2min =
N
X
(yi − λ(xi ; θ̂))2
σi2
i=1
Er kann deshalb als so genannte goodness-of-fit Testgröße benutzt
werden, um die Hypothese der funktionalen Form λ(x; θ) zu testen.
Man kann zeigen, dass wenn die Hypothese korrekt ist, die Testgröße
t = χ2min einer χ2 -Verteilung folgt:
f (t; ndf ) =
1
2ndf /2 Γ(ndf /2)
t ndf /2−1 e−t/2
wobei ndf die Anzahl der Freiheitsgrade ist:
ndf = Anzahl der Datenpunkte − Anzahl der freien Parameter
Henning Gast
Statistik
39
Güte der Anpassung
Man erwartet χ2min /ndf ≈ 1. Für den Fall, dass...
χ2 /ndf 1: Sind die angenommenen Messunsicherheiten zu
klein? Ist die funktionale Form der Hypothese λ(x; θ) korrekt?
Den Mangel an Übereinstimmung kann man durch den p-value
quantifizieren:
Z
∞
p=
χ2min
f (t; ndf ) dt
also die Wahrscheinlichkeit für den Fall einer korrekten
Hypothese, einen Wert von χ2min zu erhalten, der so groß wie
oder größer ist als derjenige, den wir tatsächlich gefunden
haben.
χ2 /ndf 1: Sind die angenommenen Messunsicherheiten zu
groß? Folgen die Datenpunkte wirklich unabhängigen
Zufallsgrößen?
χ2 /ndf ≈ 1: Sind die angenommenen Messunsicherheiten
wirklich korrekt? Wie sieht der Residuenplot aus?
Henning Gast
Statistik
40
Residuenplots
Henning Gast
Statistik
41
Zusammenfassen von Messungen
Es sei eine unbekannte Größe λ in N verschiedenen Experimenten
gemessen worden, die unabhängige Messwerte yi mit abgeschätzten
Unsicherheiten σi geliefert haben. Die χ2 -Schätzgröße λ̂ für λ kann
dadurch abgeleitet werden, dass wir
χ2 (λ) =
N
X
(yi − λ)2
σi2
i=1
minimieren. Gleichsetzen von ∂χ2 (λ)/∂λ = 0 liefert
PN
yi /σi2
λ̂ = Pi=1
N
2
i=1 1/σi
also die wohlbekannte Formel für das gewichtete Mittel. Die zweite
Ableitung von χ2 liefert die Varianz von λ̂ (hier ohne Beweis):
V [λ̂] = PN
1
i=1
1/σi2
(Eine analoge Methode wird im Praktikum zur nummerischen
Bestimmung der Maxima einer Kurve eingesetzt (Peakfinding).)
Henning Gast
Statistik
42
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
43
Lineare Regression
Eine häufige Anwendung der Methode der kleinsten Quadrate
besteht in der Bestimmung von Steigung m und Achsenabschnitt c
einer Geraden
y = mx + c
an n Paare von Messpunkten (x1 , y1 ), . . . , (xn , yn ) mit
Messunsicherheiten σi auf die yi , während die xi als genau bekannt
angenommen werden.
Beispiel: Messung der Schallgeschwindigkeit aus Resonanzlängen
einer stehenden Welle gemäß Ln = (v /2f ) n.
Zu minimieren ist
2 X
2
n n X
yi − mxi − c
yi − y (xi )
=
χ2 =
σi
σi
i=1
i=1
Henning Gast
Statistik
44
Lineare Regression
χ2 =
2
n X
yi − mxi − c
σi
i=1
2
X yi − m̂xi − ĉ
X yi
X xi
X 1
∂χ
= −2
=
− m̂
− ĉ
=0
2
2
2
∂c
σi
σi
σi
σi2
P yi
P xi
⇒P
σi2
1
σi2
− m̂ P
σi2
1
σi2
− ĉ = 0
oder
ȳ − m̂x̄ − ĉ = 0
wo wir z.B. definieren:
x̄ =
X xi X 1
/
σi2
σi2
Henning Gast
Statistik
45
Lineare Regression
χ2 =
2
n X
yi − mxi − c
σi
i=1
X yi − m̂xi − ĉ
X xi yi
X x2
X xi
∂χ
i
= −2
xi =
− m̂
− ĉ
=0
2
2
2
∂m
σi
σi
σi
σi2
2
⇒ xy − m̂x 2 − ĉ x̄ = 0
Als Lösung des Gleichungssystems ergibt sich schließlich:
m̂ =
xy − x̄ ȳ
x 2 − x̄ 2
Henning Gast
und ĉ = ȳ − m̂x̄
Statistik
46
Lineare Regression
Zur Bestimmung der Unsicherheit σm̂ auf m̂ schreiben wir
m̂ =
xi − x̄
X
N(x 2
−
x̄ 2 )
yi
wobei N =
X 1
σi2
und mit dem Gesetz über die Fehlerfortpflanzung folgt dann
v
!2
u
uX
xi − x̄
t
σm̂ =
σi2
N(x 2 − x̄ 2 )
Analog ergibt sich
σĉ =
v
u
uX
t
Henning Gast
x 2 − x̄xi
N(x 2 − x̄ 2 )
Statistik
!2
σi2
47
Korrelation zwischen m und c
Vorsicht: Im Allgemeinen gibt es eine Korrelation zwischen Steigung
m und Achsenabschnitt c bei der linearen Regression, die z.B. für
den Fall σi = σ gegeben ist durch
x̄
ρm̂,ĉ = − p
x2
Dadurch erhöht sich die Unsicherheit auf m und c! Die Korrelation
verschwindet offenbar für den Fall x̄ = 0. Diesen Fall können wir
erreichen, indem wir die Geradengleichung wie folgt modifizieren:
y = m(x − x0 ) + c
mit x0 = x̄. Der Parameter x0 muss im Fit festgehalten werden!
Henning Gast
Statistik
48
Lineare Regression mit Unsicherheiten in beiden
Messgrößen
Im Allgemeinen sind die x-Koordinaten der Datenpunkte nicht
beliebig genau bekannt, sondern weisen Messunsicherheiten σxi auf.
In erster Näherung kann man diese Unsicherheiten berücksichtigen,
indem man die folgende Größe minimiert:
χ2 =
X
i
(yi − f (xi ))2
σyi2 + (f 0 (xi )σxi )2
Diese Methode heißt Methode der effektiven Varianz.
Henning Gast
Statistik
49
Inhalt
1
Wahrscheinlichkeit
Grundbegriffe der Wahrscheinlichkeitsrechnung
Wichtige Wahrscheinlichkeitsdichten
Mehrere Zufallsgrößen
2
Statistische Messunsicherheiten
Parameterschätzung
Definition der statistischen Messunsicherheit
Fehlerfortpflanzung
3
Modellanpassung
Methode der kleinsten Quadrate
Lineare Regression
4
Systematische Unsicherheiten
Definition und Abschätzung
Henning Gast
Statistik
50
Definitionen
Betrachten wir die folgenden zwei Situationen:
Mit einem Metall-Lineal werden Längenmessungen
durchgeführt. Das Lineal wurde bei einer Temperatur von 15 ◦ C
kalibriert, aber die Messungen werden in einem wärmeren Labor
durchgeführt und der Experimentator versäumt es, für die
thermische Expansion zu korrigieren.
Zur Bestimmung der Schallgeschwindigkeit wird die Wellenlänge
einer stehenden Schallwelle ausgemessen. Dazu wird ein
Wegaufnehmer verwendet, der zuvor nur mit einer endlichen
Präzision kalibriert werden konnte.
Frei übersetzt nach R. Barlow
Es ist essentiell, systematische Effekte von systematischen Fehlern
zu unterscheiden, die die Unsicherheiten in der Größe dieser Effekte
sind, und von handwerklichen Fehlern, die aus dem Übersehen
solcher Effekte herrühren.
In diesem Sinne ist der Ausdruck systematische Unsicherheit
sprachlich präziser als der Ausdruck “systematischer Fehler”.
Henning Gast
Statistik
51
Abschätzung systematischer Messunsicherheiten
Es existieren viele Methoden, um systematische Messunsicherheiten
abzuschätzen. Wir nehmen an, dass das Ergebnis von einer Menge
von N unbekannten Parametern φ abhängt und dass wir zumindest
grobe Kenntnis ihrer Wahrscheinlichkeitsdichten haben. Im Praktikum
benutzen wir vor allem die Verschiebemethode: Für N unbekannte
Parameter φ = (φ1 , . . . , φn ) mit unkorrelierten Gauß’schen
Unsicherheiten σi , und einer Schätzgröße f (φ1 , . . . , φn ) für die uns
interessierende physikalische Größe, liefert die lineare Näherung:
σf2
2
N X
∂f
σi2
≈
∂φi
i=1
Die partiellen Ableitungen können als finite Differenzen angenähert
werden:
∂f
f (φ1 , . . . , φi + σi , . . . , φN ) − f (φ1 , . . . , φi , . . . , φN )
∆i
≈
=
∂φi
σi
σi
und so erhalten wir σf2 ≈
PN
i=1
∆2i .
Henning Gast
Statistik
52
Beispiel für die Verschiebemethode
Beispiel: Ein Ohmscher Widerstand R soll aus einer linearen
Regression an Messpunkte (Ui , Ii ) aus Spannungs- und
Strommessungen bestimmt werden. Der Hersteller des Messgeräts
gibt die folgenden systematischen Unsicherheiten auf Spannungsund Strommessungen an:
√
σU,sys = (0.01Ui + 0.005UBereichsendwert )/ 3
√
σI,sys = (0.02Ii + 0.005IBereichsendwert )/ 3
Man studiert dann die Verschiebungen, die man jeweils für R erhält,
wenn man die Spannungsmessungen bzw. die Strommessungen um
die systematischen Unsicherheiten verschiebt. Die systematische
Unsicherheit auf R erhält man schließlich durch quadratische
Addition der Verschiebungen.
Henning Gast
Statistik
53
Vergleich
Statistische Fehler
geben eine nicht zu vermeidende, zufällige Fluktuation der
Messwerte wieder,
können aus der Wiederholung von Messungen unter identischen
√
Bedungungen bestimmt werden und fallen dabei wie ∝ 1/ n.
Systematische Fehler
basieren auf Effekten, die stets zu derselben, unbekannten
Abweichung von Messwerten führen,
können durch Wiederholung der Messung weder abgeschätzt
noch reduziert werden,
dürfen daher auch nicht als Gewicht beim gewichteten Mittel
eingesetzt werden.
Die statistischen und systematischen Unsicherheiten sollten getrennt
ausgwiesen werden, z.B.:
R = 99.8 Ω ± 0.1 Ω (stat.) ± 0.5 Ω (syst.)
Henning Gast
Statistik
54
Zusammenfassung der wichtigsten Konzepte
Empirisches Mittel, Standardabweichung, Fehler des Mittelwerts:
v
u
N
N
u 1 X
σx
1 X
xi σx = t
(xi − x̄)2 σx̄ = √
x̄ =
N
N −1
N
i=1
i=1
Gewichtetes Mittel
Wichtige Wahrscheinlichkeitsdichten: Gauß-Verteilung,
Binomial-Verteilung, Poisson-Verteilung, Gleichverteilung
Gauß’sche Fehlerfortpflanzung, z.B.:
y = Am B n
⇒
σy
y
2
σ 2 σ 2
A
B
≈ m
+ n
A
B
Regressionsrechnung, χ2 , Residuenplots
Statistische und systematische Unsicherheiten
Henning Gast
Statistik
55
Tutorium:
Datenauswertung während des
Praktikums
Ziele

Gewinnung der relevanten physikalischen Größen und ihrer
Messunsicherheiten aus den (z.B. mit CASSY) aufgezeichneten Daten
Für Protokoll und Vortrag benötigt:

Darstellung der Rohdaten:
Tabelle
 Histogramm
 Graph


Analyse der Daten:
Kurvenanpassung
 Fourier-Transformation
 Fehlerrechnung: Fehlerfortpflanzung, Statistik
 ...


Präsentation der Ergebnisse
Lösung einiger dieser Aufgaben mit Standardwerkzeugen für das Praktikum.
Henning Gast, RWTH Aachen
•
p2
Programmieren im Praktikum (und darüber hinaus)


Datenauswertung wird in der Physik sehr häufig mit Hilfe eines Computers
durchgeführt.
Dazu ist die Kenntnis einer geeigneten (und gängigen) Programmiersprache
und ggfs eines Computeralgebrasystems unerlässlich.
Vorkenntnisse: Vorlesung zur Datenverarbeitung und Programmierkurs.

Wichtig:
Die Physik steht im Mittelpunkt, der Computer und zu schreibende
Programme sind nur Werkzeuge.
 Das Praktikum ist kein Programmierkurs.


Geeignete Werkzeuge:
python ← unsere Empfehlung
 ROOT
 Maple
 ...

Henning Gast, RWTH Aachen
•
p3
Praktikumsbibliothek (python)

Download:
http://accms04.physik.rwth-aachen.de/~praktapp/software/python

Nützliche Routinen für das Praktikum, die Sie nachvollziehen können (und
sollen).
Zur Benutzung:
import Praktikum
Inhalt:










CASSY-lab Dateien einlesen
Lineare Regression
Fourier-Transformation
Peaksuche (Schwerpunktsberechnung)
Gewichteter Mittelwert
Tests / Beispiele:
Tests.py
Dokumentation:
z.B. in ipython:
help(Praktikum)
Grafische Datendarstellung (Plots, Histogramme, Graphen, …)
wird mit Hilfe von matplotlib durchgeführt.
Henning Gast, RWTH Aachen
•
p4
CASSY Daten einlesen

Blick in eine CASSY-lab Datei:

Einlesen mit
Praktikum.lese_lab_datei
Datenreihen entsprechen einzelnen
Spalten in dem Array.
Array slicing:
t=data[:,0]
p=data[:,2]
ein erster Plot:
plot(t,p)



→ Tests.test_datenlesen()
Henning Gast, RWTH Aachen
•
p5
Einfache Plots

Dokumentation:
http://matplotlib.org/api/pyplot_api.html

Histogramm:
hist(p,bins=1000,range=(1000.,1020.),color='green')
Graph:
plot(x,y)
Plot mit Fehlerbalken:


errorbar(Tinv,logP,xerr=sigma_Tinv,yerr=sigma_logP,fmt='.')
Tipp: Plots als Vektorgrafik (eps, pdf) abspeichern und im Protokoll einbinden!
Henning Gast, RWTH Aachen
•
p6
Beispiel: Pendelversuch

Mathematisches Pendel der Länge L:
ϕ (t )= A cos(ω t )+B sin (ω t )

Bestimmung der Erdbeschleunigung g über
ω2 =
g
L
→ Beispiel_Pendel.py
Henning Gast, RWTH Aachen
•
p7
Beispiel: Dampfdruckkurve

Clausius-Clapeyron-Gleichung, mit geeigneten Näherungen:
1 1
log( p / p0 )=− Λ −
R T T0
(
)
→ Beispiel_Thermodynamik.py
Henning Gast, RWTH Aachen
•
p8
Python: Installation

auf den Praktikumslaptops:
ipython über Startmenü aufrufen
 Skripte und Dateien sollten hier gespeichert werden:

C:\Dokumente und Einstellungen\praktikum\Eigene Dateien\Python Scripts

auf dem eigenen Laptop:
python 2.7
 ipython
 numpy, scipy, matplotlib


Konfiguration von matplotlib:
~/.config/matplotlib/matplotlibrc:
backend: Qt4Agg
font.size: 16.0
Henning Gast, RWTH Aachen
•
p 10
Python Programme ausführen

Durch Aufruf von python:
python skript.py

Aus einer ipython Sitzung:
ipython
In [1]: %run skript.py

Als standalone executable:
1. Zeile in skript.py:
#! /usr/bin/env python
Ausführbar machen:
chmod u+x skript.py
Laufen lassen:
./skript.py

Tipp: schnelle interaktive Analyse mit
ipython ­pylab
Henning Gast, RWTH Aachen
•
p 11
Herunterladen