Computergestützte Datenanalyse in der Kern- und Teilchenphysik Vorlesung 4 Jan Friedrich 17.11.2008 Hypothesentest Beobachtung x ↔ Hypothese(n) H(i) Bekannt: P(x|H(i) ) Gesucht: Bewertung der Hypothese(n) H(i) Gesucht: nach der Beobachtung x I “Frequentist” Sichtweise: H(i) wahr oder falsch I Bayes’ Sichtweise: suche nach P(H(i) |x) P(Hi ∩ x) = P(Hi |x)P(x) = P(x|Hi )P(Hi ) → P(Hi |x) = P(x|Hi )P(Hi ) P(E) Bayes’ Theorem Falls die Hi vollständig und sich gegenseitig ausschließend → P(x|Hi )P◦ (Hi ) P(Hi |x) = P j P(x|Hj )P◦ (Hj ) I Aber was ist P(Hi )? I “a priori” Annahme P◦ (Hi ) I falls P◦ (Hi ) = const → P(Hi |x) = P(x|Hi ) Auswertung von Stichproben I χ2 -Verteilung I Parameter-Anpassung Schätzwert für σ Die Varianz einer Stichprobe ist n 1X (xi − x̄)2 s = n 02 [E(x̄) = x̂] i=1 n X 1 E(s ) = E (xi − x̂ + x̂ − x̄)2 n ! 02 = i=1 n−1 2 σ (x) n d.h. ein “unverzerrter” Schätzwert für σ 2 ist n 1 X s = (xi − x̄)2 n−1 2 i=1 (Ein einzelner Messwert schätzt nur den Mittelwert einer Verteilung, nicht die Varianz) χ2 -Verteilung Für die Stichprobe einer Normalverteilung um x̄ mit Varianz σ 2 betrachtet man n 1 X 2 (xi − x̄)2 χ = 2 σ i=1 Die Verteilungsfunktion für χ2 lautet 2 F(χ ) = I I P(χ2s 1 <χ )= Γ(λ)2λ 2 Z χ2 uλ−1 e−u/2 du (λ = n/2) 0 “Konfidenzniveau” W(χ2 ) = 1 − F(χ2 ) 2 TMath::Gamma n2 , χ2 unvollständige Γ-Funktion χ2 -Probabilität F(χ 2 ) TMath::Gamma(1/2,x/2) 1 n=1 0.8 n=3 0.6 n=10 0.4 0.2 0 2 4 6 8 10 12 14 16 18 20 χ2 Die Umkehrfunktion χ2F kann zur Bewertung der χ2s aus Stichproben herangezogen werden (Ablesen der Quantile): TMath::Prob(χ2 , ndf) ist (bei korrektem Modell, insbesondere “richtigem” σ für die Berechnung von χ2 ) gleichverteilt. Parameter-Anpassung (“Fitten”) Die Wahrscheinlichkeitsdichte der Zufallsgrößen xi habe die Form f = f (xi , λj ) mit unbekannten (bzw. anpassbaren) Parametern λj . Für jede Stichprobe (Ereignis) k (aus einer Reihe der Länge N) ist die aufgrund von f zugeordnete Wahrscheinlichkeit (k) dP(k) = f (xi , λj )dx und für die gesamte Stichproben-Reihe dP = N Y i=1 (Likelihood-Funktion) (k) f (xi , λj )dx Likelihood-Funktion Maximum Likelihood (k) Da die f (xi , λj ) > 0 und ln(x) monoton steigend, kann anstelle der Likelihood-Funktion selbst deren Logarithmus maximiert werden: ` = ln L = N X (k) ln f (xi , λj ) und i=1 d` dλj N X d (k) = ln f (xi , λj ) dλj i=1 = N X (k) d dλj f (xi , λj ) i=1 (k) f (xi , λj ) ! = 0 Interpretation von `0 Falls die Likelihood-Schätzung erwartungstreu ist, d.h. für große N λ ohne Verzerrung (Bias) liefert, so folgt aus der Informationsungleichung (Behandlung der Empfindlichkeit der Messung auf λ, s. z.B. Brandt, loc. cit., und Zitate dort) d` 1 = 2 (λ − E(λ)) dλ σ Verallgemeinerung auf mehrere Parameter liefert Verfahren zur Auffindung der Kovarianzmatrix. Beispiel I: Verschiedene σi Dieselbe Größe λ wird durch verschiedene Messungen i bestimmt, welche um λ gaußisch mit verschiedenen σi streuen. f (x(k) , λ)dx = √ 1 (k) 2 2 e−(x −λ) /2σi dx 2πσi Die zugehörige Likelihood-Gleichung hat die Lösung x(k) i=1 σ 2 i PN 1 i=1 σ 2 i PN λ| d` =0 = dλ Beispiel II: Binomialverteilung n k L(k, λ) = λ (1 − λ)n−k k n ` = k ln λ + (n − k) ln(1 − λ) + ln k d` n k = −λ dλ λ(1 − λ) n → wahrscheinlichster Wert für λ ist k/n → maximum Likelihood ist erwartungstreu → Varianz λ(1 − λ)/n