Computergestützte Datenanalyse in der Kern

Werbung
Computergestützte Datenanalyse
in der Kern- und Teilchenphysik
Vorlesung 4
Jan Friedrich
17.11.2008
Hypothesentest
Beobachtung x
↔
Hypothese(n) H(i)
Bekannt: P(x|H(i) )
Gesucht: Bewertung der Hypothese(n) H(i)
Gesucht: nach der Beobachtung x
I “Frequentist” Sichtweise: H(i) wahr oder falsch
I Bayes’ Sichtweise: suche nach P(H(i) |x)
P(Hi ∩ x) = P(Hi |x)P(x) = P(x|Hi )P(Hi )
→
P(Hi |x) =
P(x|Hi )P(Hi )
P(E)
Bayes’ Theorem
Falls die Hi vollständig und sich gegenseitig ausschließend
→
P(x|Hi )P◦ (Hi )
P(Hi |x) = P
j P(x|Hj )P◦ (Hj )
I
Aber was ist P(Hi )?
I
“a priori” Annahme P◦ (Hi )
I
falls P◦ (Hi ) = const → P(Hi |x) = P(x|Hi )
Auswertung von Stichproben
I
χ2 -Verteilung
I
Parameter-Anpassung
Schätzwert für σ
Die Varianz einer Stichprobe ist
n
1X
(xi − x̄)2
s =
n
02
[E(x̄) = x̂]
i=1
n
X
1
E(s ) = E
(xi − x̂ + x̂ − x̄)2
n
!
02
=
i=1
n−1 2
σ (x)
n
d.h. ein “unverzerrter” Schätzwert für σ 2 ist
n
1 X
s =
(xi − x̄)2
n−1
2
i=1
(Ein einzelner Messwert schätzt nur den Mittelwert einer Verteilung, nicht die Varianz)
χ2 -Verteilung
Für die Stichprobe einer Normalverteilung um x̄ mit Varianz σ 2
betrachtet man
n
1 X
2
(xi − x̄)2
χ = 2
σ
i=1
Die Verteilungsfunktion für χ2 lautet
2
F(χ ) =
I
I
P(χ2s
1
<χ )=
Γ(λ)2λ
2
Z
χ2
uλ−1 e−u/2 du (λ = n/2)
0
“Konfidenzniveau” W(χ2 ) = 1 − F(χ2 )
2
TMath::Gamma n2 , χ2 unvollständige Γ-Funktion
χ2 -Probabilität
F(χ 2 )
TMath::Gamma(1/2,x/2)
1
n=1
0.8
n=3
0.6
n=10
0.4
0.2
0
2
4
6
8
10
12
14
16
18
20
χ2
Die Umkehrfunktion χ2F kann zur Bewertung der χ2s aus
Stichproben herangezogen werden (Ablesen der Quantile):
TMath::Prob(χ2 , ndf) ist (bei korrektem Modell,
insbesondere “richtigem” σ für die Berechnung von χ2 )
gleichverteilt.
Parameter-Anpassung (“Fitten”)
Die Wahrscheinlichkeitsdichte der Zufallsgrößen xi habe die
Form
f = f (xi , λj )
mit unbekannten (bzw. anpassbaren) Parametern λj . Für jede
Stichprobe (Ereignis) k (aus einer Reihe der Länge N) ist die
aufgrund von f zugeordnete Wahrscheinlichkeit
(k)
dP(k) = f (xi , λj )dx
und für die gesamte Stichproben-Reihe
dP =
N
Y
i=1
(Likelihood-Funktion)
(k)
f (xi , λj )dx
Likelihood-Funktion
Maximum Likelihood
(k)
Da die f (xi , λj ) > 0 und ln(x) monoton steigend, kann anstelle
der Likelihood-Funktion selbst deren Logarithmus maximiert
werden:
` = ln L =
N
X
(k)
ln f (xi , λj )
und
i=1
d`
dλj
N
X
d
(k)
=
ln f (xi , λj )
dλj
i=1
=
N
X
(k)
d
dλj f (xi , λj )
i=1
(k)
f (xi , λj )
!
= 0
Interpretation von `0
Falls die Likelihood-Schätzung erwartungstreu ist,
d.h. für große N λ ohne Verzerrung (Bias) liefert,
so folgt aus der Informationsungleichung
(Behandlung der Empfindlichkeit der Messung auf λ,
s. z.B. Brandt, loc. cit., und Zitate dort)
d`
1
= 2 (λ − E(λ))
dλ
σ
Verallgemeinerung auf mehrere Parameter liefert Verfahren zur
Auffindung der Kovarianzmatrix.
Beispiel I: Verschiedene σi
Dieselbe Größe λ wird durch verschiedene Messungen i
bestimmt, welche um λ gaußisch mit verschiedenen σi streuen.
f (x(k) , λ)dx = √
1
(k)
2
2
e−(x −λ) /2σi dx
2πσi
Die zugehörige Likelihood-Gleichung hat die Lösung
x(k)
i=1 σ 2
i
PN 1
i=1 σ 2
i
PN
λ| d` =0 =
dλ
Beispiel II: Binomialverteilung
n k
L(k, λ) =
λ (1 − λ)n−k
k
n
` = k ln λ + (n − k) ln(1 − λ) + ln
k
d`
n
k
=
−λ
dλ
λ(1 − λ) n
→ wahrscheinlichster Wert für λ ist k/n
→ maximum Likelihood ist erwartungstreu
→ Varianz λ(1 − λ)/n
Herunterladen