Testen von Hypothesen

Werbung
Datenanalyse
(PHY231)
Herbstsemester 2015
Olaf Steinkamp
36-J-22
[email protected]
044 63 55763
Vorlesungsprogramm
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- zwei-dimensionale Gaußverteilung
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
●
Konfidenzniveaus und Konfidenzintervalle
●
Testen von Hypothesen
Datenanalyse HS15
Testen von Hypothesen (2)
Beispielprogramme im
Verzeichnis
/disk/puma/da/vorl/hypo
O. Steinkamp
Testen von Hypothesen
Experimente werden grundsätzlich aus zwei Gründen durchgeführt
●
um die Parameter einer bestehenden Theorie (genauer) zu bestimmen
●
●
um Effekte zu finden, die mit der bestehenden Theorie nicht vereinbar sind
und es damit erlauben, diese Theorie zu widerlegen
●
●
Messung der Masse des Higgs-Bosons
Suche nach neuen Elementarteilchen (wie z.B. in Supersymmetrie vorhergesagt)
beide Arten Experimente sind wichtig !
Wissenschaftliche Theorien kann man nicht “beweisen”
●
die Akzeptanz einer Theorie wächst mit Anzahl & Qualität der Beobachtungen
●
die mit ihr kompatibel sind
●
die sie nicht haben widerlegen können
Theorien müssen quantitative Vorhersagen machen, die es erlauben, sie zu
testen (= die den Versuch erlauben, sie durch Beobachtung zu widerlegen)
Datenanalyse HS15
Testen von Hypothesen (3)
O. Steinkamp
Testen von Hypothesen
Zwei Arten von Fehlern beim Testen von Hypothesen:
Hypothese
wahr
falsch
●
Entscheidung
akzeptiere
verwerfe
“Signifikanz” des Tests
Typ I Fehler
=1–
Wahrscheinlichkeit = 
Typ II Fehler
“Power” des Tests
Wahrscheinlichkeit = 
=1–
wie immer ein Kompromiss:
●
lose Akzeptanzkriterien → hohe Signifikanz, niedrige Power
●
strikte Akzeptanzkriterien → hohe Power, niedrige Signifikanz
Entscheidungskriterien sollten VOR der Durchführung
des Experiments festgelegt werden
Datenanalyse HS15
Testen von Hypothesen (4)
O. Steinkamp
Beispiel Signal oder kein Signal?
Vermute neues Elementarteilchen mit Masse 125 GeV
●
selektiere Ereignisse mit zwei hochenergetischen
Photonen und berechne deren invariante Masse
●
beobachte zwischen 120 und 130 GeV 2000 Ereignisse
●
erwarte in diesem Bereich 1810 Untergrundereignisse
(aufgepasst: die Zahlenwerte habe ich mir hier ausgedacht)
●
●
“Nullhypothese”: kein neues Teilchen bei 125 GeV, die beobachtete Anzahl
Ereignisse ist mit statistischer Fluktuation des Untergrunds kompatibel
●
erwartete Anzahl Ereignisse poissonverteilt mit  = 1810 →  = √1810 ≈ 43
●
Diskrepanz zur Anzahl beobachteter Ereignisse ist 2000 - 1810 = 190 ≈ 4.5 
wie gross ist Wahrscheinlichkeit p für eine zufällige Diskrepanz von ≥ 4.5 σ ?
●
benutze gaußsche Näherung: P (x– ≥ 4.5  = 3.4 × 10-6, Nullhypothese (kein
neues Teilchen) ist mit 99.9999966 % Wahrscheinlichkeit ausgeschlossen
Teilchenphysik: Diskrepanz > 3  → “evidence”, Diskrepanz > 5  → “discovery”
Datenanalyse HS15
Testen von Hypothesen (5)
O. Steinkamp
Beispiel Güte der Anpassung: ²-Test
Beschreibt die Funktion f(x) meine Daten ?
●
●
Datensatz bestehe aus N Wertepaaren (xi,yi), i = 1,..., N
●
Messunsicherheiten auf den xi seien vernachlässigbar klein
●
Messunsicherheiten σi auf den yi (Abweichungen folgen Gausverteilung)
Nullhypothese: die Funktion f(x) gibt adäquate Beschreibung der Wertepaare
●
die beobachteten yi sind innerhalb der angegebenen Messunsicherheiten σi mit
den erwarteten f(xi) vereinbar
Test der Nullhypothese: berechne  ²
N
2
χ =
∑(
i =1
y i −f ( x i )
σi
2
)
⃗ − ⃗f )
χ 2 = ( y⃗ −⃗f )T ⋅V −1
⃗y ⋅ ( y
●
, wenn die yi unkorreliert sind
, wenn die yi miteinander korreliert sind
für rein statistische Fluktuationen erwarte im Mittel [ yi – f(xi) ]² ≈ σi²
² >> N weist auf signifikante Abweichungen = schlechte Anpassung hin
Datenanalyse HS15
Testen von Hypothesen (6)
O. Steinkamp
²-Wahrscheinlichkeit
Abweichungen gaußverteilt → ²-Verteilung für nf Freiheitsgrade
−nf /2
2
n −2
p (χ ∣ n f ) =
⋅χ
⋅e−χ
Γ (n f / 2)
2
f
2
/2
mit
Erwartungswert <²> = nf
Varianz
Funktion f(x) ist fest vorgegeben
Funktion f(x|p) enthält n Parameter p, deren Werte
durch Anpassung an die Daten bestimmt werden
V(²) = 2·nf
nf = N
nf = N – n
Definiere  ²-Wahrscheinlichkeit:
∞
2
0
Prob(χ ∣ n f ) ≡
∫ p(χ 2 ∣ nf ) d χ 2
χ 20
●
gibt die Wahrscheinlichkeit an, aufgrund statistischer Fluktuationen einen
²–Wert zu erhalten, der grösser ist als  0²
●
ist für rein statistische Fluktuationen gleichverteilt zwischen 0 und 1
schlechte Anpassung → großes ² → kleine ²-Wahrscheinlichkeit
(z.B. weil die Funktion f(x) die Daten nicht adäquat beschreibt)
Datenanalyse HS15
Testen von Hypothesen (7)
O. Steinkamp
²-Wahrscheinlichkeit
10000 Iterationen von lsline.py
●
15 xi –Werte, σi, a0 und a1 immer gleich
●
15 yi –Werte, für jede Iteration anders
●
Abweichungen von a0 + a1∙xi gemäß
â1
â0
Gaußverteilung mit Standardabweichung σi
●
Histogramme: berechnete Schätzwerte,
² und Prob(²,nf) aus 10000 Iterationen
●
Kurven: erwartete Verteilungen für
²
Schätzwerte, und ² und Prob(²,nf)
- Gaußverteilung mit μ a^ = a 1 , σ a^ = √ V ( a^ 1 )
1
1
- Gaußverteilung mit μ a^ = a 0 , σ a^ = √ V ( a^ 0 )
0
Prob (² | nf)
0
- ²-Verteilung für nf = 13
- Gleichverteilung zwischen 0 und 1
Datenanalyse HS15
Testen von Hypothesen (8)
O. Steinkamp
²-Wahrscheinlichkeit
Unsicherheit unterschätzt
Unsicherheit überschätzt
Beispiel: Anpassung einer Geraden, Unsicherheit 20% falsch geschätzt
Vorteile der  ²-Wahrscheinlichkeit gegenüber der  ²-Verteilung
●
Form der Verteilung ist unabhängig von der Anzahl Freiheitsgrade
●
●
Abweichungen von flacher Verteilung sind leicht zu erkennen
Schnitt auf der ²-Wahrscheinlichkeit gibt direkt den Prozentsatz  korrekter
Anpassungen, die im Mittel verworfen werden (1– = Signifikanz des Tests)
aufgepasst: gilt nur, wenn die Messabweichungen Gaußverteilung folgen !
Datenanalyse HS15
Testen von Hypothesen (9)
O. Steinkamp
Vorlesungsprogramm
●
●
●
●
●
●
●
Einführung, Messunsicherheiten, Darstellung von Messdaten
Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
- Mittelwert, Standardabweichung, Kovarianz und Korrelation
Fehlerfortpflanzungsgesetz
Korrelationen zwischen Messgrößen
nicht vernachlässigen !
Wahrscheinlichkeitsverteilungen
- diskrete Verteilungen, kontinuierliche Verteilungen
- zentraler Grenzwertsatz
Monte-Carlo Methode
Wahrscheinlichkeitsverteilungen II
- Faltung zweier Verteilungen
- zwei-dimensionale Gaußverteilung
Stichproben und Schätzfunktionen
- Maximum-Likelihood Methode
- Methode der kleinsten Quadrate
●
Konfidenzniveaus und Konfidenzintervalle
●
Testen von Hypothesen
Datenanalyse HS15
kein Messergebnis
ohne Angabe der
Messunsicherheit !!
welche Verteilung gilt,
was sind die Parameter?
Wichtigkeit der Gaußverteilung,
aber meistens nur eine Näherung!
Simulieren von Experimenten,
Abschätzen von Messunsicherheiten
LS: ², aber nur für gaußverteilte Abweichungen
ML: Modellieren beliebiger Messunsicherheiten
Aufgepasst
- wenn Unsicherheiten nicht gaußverteilt,
- an den Grenzen des erlaubten Bereichs
Testen von Hypothesen (10)
O. Steinkamp
“THE END”
H. V. Klapdor-Kleingrothaus, A. Dietz, H. L. Harney and I. V. Krivosheina,
“Evidence for neutrinoless double beta decay,''
Mod. Phys. Lett. A 16 (2001) 2409, [hep-ph/0201231].
Datenanalyse HS15
Testen von Hypothesen (11)
O. Steinkamp
Herunterladen