Gliederung 1 Parameterschätzung Schätzwerte Kriterien für Schätzwerte 2 Maximum Likelihood Idee von Maximum Likelihood Fehlerberechnung 3 Kleinste Quadrate Prinzip der kleinsten Quadrate Fehlerfortpflanzung und Hypothesentest Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 1 / 24 Parameterschätzung Schätzwerte Schätzwerte Wahrer Wert nicht messbar, stattdessen folgen Messwerte einer Verteilung Schätzung eines Parameters a einer Verteilung anhand einer Stichprobe {xi } relative Häufigkeit Schätzfunktion â ({xi }) 80 ×10-3 Beispiele: â1 ({xi }) = 70 1 N X xi i 60 â2 ({xi }) = 50 sY N xi i 40 35 40 Armin Burgmeier (KIT) 45 Schuhgröße â3 ({xi }) = median({xi }) â4 ({xi }) = max({xi }) Parameteranpassung 27. November 2009 2 / 24 Parameterschätzung Schätzwerte Schätzwerte Wahrer Wert nicht messbar, stattdessen folgen Messwerte einer Verteilung Schätzung eines Parameters a einer Verteilung anhand einer Stichprobe {xi } relative Häufigkeit Schätzfunktion â ({xi }) 80 ×10-3 Beispiele: â1 ({xi }) = 70 1 N X xi i 60 â2 ({xi }) = 50 sY N xi i 40 35 40 Armin Burgmeier (KIT) 45 Schuhgröße â3 ({xi }) = median({xi }) â4 ({xi }) = max({xi }) Parameteranpassung 27. November 2009 2 / 24 Parameterschätzung Kriterien für Schätzwerte Konsistenz Der Schätzwert â soll sich für große Stichproben dem wahren Wert a0 annähern lim â ({xi }) = a0 n→∞ â1 ({xi }) = 1 N X xi konsistent xi inkonsistent i â2 ({xi }) = sY N i â3 ({xi }) = median({xi }) im allgemeinen inkonsistent â4 ({xi }) = max({xi }) inkonsistent Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 3 / 24 Parameterschätzung Kriterien für Schätzwerte Erwartungstreue Schätzwert â ist selbst Zufallsvariable: Andere Stichprobe ⇒ anderer Schätzwert Erwartungstreu wenn Erwartungswert des Schätzwerts dem wahren Wert entspricht < â >= a0 Bias b =< â > −a0 kann korrigiert werden wenn bekannt Im allgemeinen gilt nicht < â >= a0 ⇒< f (â) >= f (a0 ) Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 4 / 24 Parameterschätzung Kriterien für Schätzwerte Erwartungstreue: Beispiel 0.2 Moyal-Verteilung mit Mittelwert µ = 7,5 0.1 0 0 5 10 15 20 Stichprobe aus 20 Messwerten, {xi } seien aufsteigend sortiert â1 ({xi }) = 0.15 0.1 â2 ({xi }) = 1 11 20 X i=1 11 X xi xi i=1 0.05 0 1 20 4 6 Armin Burgmeier (KIT) 8 10 Parameteranpassung 27. November 2009 5 / 24 Parameterschätzung Kriterien für Schätzwerte Effizienz Kleine Varianz von â wünschenswert Führt zu großer Wahrscheinlichkeit dass â nahe am Erwartungswert liegt Effizienz definiert als V (âmin ) V (â) V (âmin ) aus Maximum-Likelihood-Schätzung oder Rao-Cramér-Frechet-Grenze. 0.15 V (â2 ) < V (â1 ) 0.1 Verzerrung kann korrigiert werden 0.05 0 4 6 Armin Burgmeier (KIT) 8 10 Parameteranpassung 27. November 2009 6 / 24 Parameterschätzung Kriterien für Schätzwerte Robustheit Robustheit gegenüber Ausreißern“oder falschen ” Voraussetzungen Schlecht quantifizierbar Mehr Robustheit geht meist auf Kosten der Effizienz 0.3 Beispiel: Ausreißer bei Cauchy-Verteilung 0.2 Mittelwert nicht robust 0.1 0 Median robust; Effizienz ≈ 70% -4 -2 0 Armin Burgmeier (KIT) 2 4 Parameteranpassung 27. November 2009 7 / 24 Maximum Likelihood Idee von Maximum Likelihood Idee von Maximum Likelihood Definition L (x|a) := f1 (x1 |a) · f2 (x2 |a) · . . . = Y fi (xi |a) i L heißt Likelihood-Funktion L ist Wahrscheinlichkeitsdichte in x, abhängig von den zu bestimmenden Parametern a R L ist nicht Wahrscheinlichkeitsdichte in a: L (x|a) da 6= 1 Suche a für den die gemessene Messwerte {xi } am wahrscheinlichsten sind L ({xi }|a) = Maximum In der Praxis oft: Minimiere Log-Likelihood-Funktion F = − (2) log L Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 8 / 24 Maximum Likelihood Idee von Maximum Likelihood Beispiel zu Maximum Likelihood Beispiel L Messung einer um wahren Wert gaußverteilten Größe 2 f (x|a) = 2π1√σ exp − (x−a) 2 2σ 0.01 0.005 0 0 2 4 6 (x1 −a)2 +(x2 −a)2 2σ 2 2(x1 −a)+2(x2 −a) − = 2σ 2 8 a Zwei Messungen, x1 = 3, x2 = 5 2 +(x2 −a)2 L ∝ exp − (x1 −a) 2σ 2 F =C+ ∂F ∂a = Armin Burgmeier (KIT) 0 wenn a = Parameteranpassung x1+x2 2 = 4. 27. November 2009 9 / 24 Maximum Likelihood Idee von Maximum Likelihood Beispiel: Lineare Regression Beispiel Wahre Werte liegen auf Ursprungsgerade g (x|a) = a · x Messe {xi , yi }-Paare Messwerte gaußverteilt mit Varianz σ 2 um wahren Wert Wahrscheinlichkeitsdichte ist fi (xi , yi |a) = Gauss(yi − g (xi |a) , σ) ! Y Y 1 (yi − xi · a)2 √ exp L= fi (xi , yi |a) = 2π σ 2σ 2 i i X (yi − xi · a)2 ∂F X 2xi · (yi − xi · a) =− , 2 ∂a 2σ 2σ 2 i i ! ! X X 2 (xi ) = 0 wenn a = (xi · yi ) / F =C+ ∂F ∂a i i Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 10 / 24 Maximum Likelihood Fehlerberechnung Parabolischer Fall Likelihood-Funktion geht gegen Gaußkurve für große Stichproben 2 2 Entwickle F (a) = F (â) + 12 · ddaF2 · (a − â) + . . . â)2 Vergleich mit Gaußkurve exp − (a− 2 2σ 2 −1/2 σ = ddaF2 F a F(â ± r σ) = F(â) + 1 1 2 σ2 2 (â ± r σ − â) + . . . = F(â) + r2 2 5 4 3 2 -2 -1 Armin Burgmeier (KIT) 0 1 2 a Parameteranpassung 27. November 2009 11 / 24 Maximum Likelihood Fehlerberechnung Nichtparabolischer Fall Sei z := z (a) so, dass Fz (z) := F a−1 (z) parabolisch ist Bestimme σz wie vorher F a Fz (ẑ + r σz ) = Fz (ẑ) + Fz (ẑ − r σz ) = Fz (ẑ) + r2 2 r2 2 = F (â) + = F (â) + r2 2 r2 2 = F (â + r σr ) = F (â − r σl ) 0 -1 Lese F dort ab wo es um zugenommen hat -2 -3 -4 -5 r2 2 Im allgemeinen asymmetrische Fehler 0 0.5 Armin Burgmeier (KIT) 1 1.5 2 a Parameteranpassung 27. November 2009 12 / 24 Maximum Likelihood Fehlerberechnung Fehlerberechnung bei Ausgleichsgerade Beispiel X xi · (yi − xi · a) ∂F =− ∂a σ2 i X x2 ∂2F i = ∂a2 σ2 i 2 −1/2 ∂ F σ σa = = qP 2 ∂a 2 i xi 2.5 2 1.5 1 0.5 0 0 1 2 3 4 Fehler nur abhängig von x-Werten Beschreibt nur Fortpflanzung der y-Fehler in a Kein Goodness-of-fit Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 13 / 24 Maximum Likelihood Fehlerberechnung Mehrere Parameter Gleiche Ideen funktionieren weiter ∂F ∂ai = 0 für alle ai . Gij = ∂2F ∂ai ∂aj liefert das Inverse der Kovarianzmatrix V = G−1 F (a) = F (â) + r2 2 definieren Konturen gleicher Likelihood Schließen r σ-Gebiete ein Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 14 / 24 Maximum Likelihood Fehlerberechnung Profile Likelihood Oft: Modell enthält Störparameter ν Benötigt zur Modellierung, aber am Ende uninteressant Wie wirkt sich Fehler bei der Bestimmung von ν auf interessanten Parameter a aus? F Minimiere F für jedes a als Funktion von ν. 4 3.5 Kurve wird flacher als bei konstantem ν 3 2.5 Führt zu größerem σa 2 -2 -1 Armin Burgmeier (KIT) 0 1 2 a Parameteranpassung 27. November 2009 15 / 24 Maximum Likelihood Fehlerberechnung Neyman-Konstruktion Bisher vorgestellte Ansätze problematisch bei kleinen Stichproben Bestimme Konfidenzregion die a0 bei N Versuchen C · N mal enthält (Frequentist) peak k C heißt Coverage, α = 1 − C ist Irrtumswahrscheinlichkeit R a ist in der Konfidenzregion enthalten wenn L (x|a) dx = C die gemessenen {xi } enthält 200 180 160 140 120 100 80 60 40 0 2000 4000 6000 Armin Burgmeier (KIT) 8000 10000 12000 Length [km] Freiheit: Wahl des Integrationsgebiets, zum Beispiel: R x0 L (x|a) dx = C R−∞ ∞ x L (x|a) dx = C R x0u L (x|a) dx = α/2 ∧ R−∞ +∞ L (x|a) dx = α/2 xo Parameteranpassung 27. November 2009 16 / 24 Maximum Likelihood Fehlerberechnung Bayes’sche Statistik Bayes-Theorem gilt auch für Wahrscheinlichkeitsdichten L (x|a) · f (a) P (a|x) = g (x) Intepretiere P (a|x) als Glaube, dass a einen bestimmten Wert hat g (x) konstant in a, legt Normierung fest f (a) heißt Prior: Glaube vor der Messung dass a einen bestimmten Wert hat a liege mit Wahrscheinlichkeit 1 − α in der Kredibilitätsregion R P (a|{xi }) da = 1 − α Erneut Freiheit bei der Wahl des Integrationsbereichs Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 17 / 24 Kleinste Quadrate Prinzip der kleinsten Quadrate Prinzip der kleinsten Quadrate Gaußverteilte Fehler führen für F zu Ausdrücken der Form Definition S := (y1 −a1 )2 σ12 + (y2 −a2 )2 σ22 + ... = X (yi − ai )2 X ∆y 2 i = 2 2 σi σi i i ∆yi heißen Residuen Prinzip der kleinsten Quadrate: S = Minimum Äquivalent zu ML für gaußverteilte Fehler, sonst eigenes“ ” Verfahren ∆y1 Allgemein mit Kovarianzmatrix V und ∆y = ∆y2 : .. . S = ∆yT V−1 ∆y = Minimum Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 18 / 24 Kleinste Quadrate Prinzip der kleinsten Quadrate Lineare kleinste Quadrate Lineares Modell f (x|a) = a1 f1 (x) + a2 f2 (x) + . . . Vereinfachung: {yi } seien unkorreliert und gleiche Varianz σ 2 X (yi − f (xi |a))2 S = σ12 i ∂S 2 X ! =− 2 fj (xi ) · (yi − a1 f1 (xi ) − a2 f2 (xi ) − . . .) = 0 ∂aj σ i ⇒ Normalengleichungen: a1 X i Armin Burgmeier (KIT) fj (xi )f1 (xi ) + a2 X fj (xi )f2 (xi ) + . . . = i Parameteranpassung X yi fj (xi ) i 27. November 2009 19 / 24 Kleinste Quadrate Prinzip der kleinsten Quadrate Matrixschreibweise Normalengleichungen: X X X a1 fj (xi )f1 (xi ) + a2 fj (xi )f2 (xi ) + . . . = yi fj (xi ) i i i Definiere Matrix für n Messungen und p Parameter f1 (x1 ) f2 (x1 ) . . . fp (x1 ) a1 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) a2 a = A= .. .. .. .. .. . . . . . f1 (xn ) f2 (xn ) . . . fp (xn ) ap y= y1 y2 .. . yn Schreibe Normalengleichungen in Matrixform: −1 T AT A a = AT y ⇒ a = AT A A y Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 20 / 24 Kleinste Quadrate Prinzip der kleinsten Quadrate Matrixschreibweise Normalengleichungen: X X X a1 fj (xi )f1 (xi ) + a2 fj (xi )f2 (xi ) + . . . = yi fj (xi ) i i i Definiere Matrix für n Messungen und p Parameter f1 (x1 ) f2 (x1 ) . . . fp (x1 ) a1 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) a2 a = A= .. .. .. .. .. . . . . . f1 (xn ) f2 (xn ) . . . fp (xn ) ap y= y1 y2 .. . yn Schreibe Normalengleichungen in Matrixform: −1 T AT A a = AT y ⇒ a = AT A A y Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 20 / 24 Kleinste Quadrate Fehlerfortpflanzung und Hypothesentest Allgemeine Lösung und Fehlerfortpflanzung Definiere Gewichtsmatrix W := V−1 S = ∆yT V−1 ∆y = (y − Aa)T W(y − Aa) −1 T A Wy S wird minimal bei a = AT WA | {z } B Fehlerfortpflanzung: Gegeben sei lineare Transformation y = Bx Dann gilt Fehlerfortpflanzungsgesetz: Vy = BVx BT Hier: −1 T −1 T T Va = BVBT = AT WA A WV AT WA A W −1 T T −1 = AT WA A W A AT WT A −1 = AT WA Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 21 / 24 Kleinste Quadrate Fehlerfortpflanzung und Hypothesentest χ2 -Test χ2n -Verteilung gibt Wahrscheinlichkeitsdichte für Summe aus n standard-normalverteilter Zufallsvariablen S folgt χ2 -Verteilung mit n − p Freiheitsgraden (für gaußverteilte Fehler) Wahrscheinlichkeit diesen oder größeren Wert für S zu erhalten: Z ∞ S f (χ2n−p )dχ2 0.5 0.4 Erwartungswert ist E[χ2n ] = n 0.3 Für n − p > 2 ist auch Wahrscheinlichkeit für kleines S gering 0.2 0.1 0 0 2 4 Armin Burgmeier (KIT) 6 8 10 Parameteranpassung 27. November 2009 22 / 24 Zusammenfassung Zusammenfassung Input Anwendbarkeit Konsistent Erwartungstreu Effizient Robust Goodness-of-fit Rechenaufwand Armin Burgmeier (KIT) Maximum Likelihood PDFs PDFs bekannt Ja nur für große Stichproben asymptotisch maximal Nein Nein im allgemeinen hoch Parameteranpassung Kleinste Quadrate Varianzen Daten unverzerrt, Varianzen endlich Ja Ja im lin. Fall maximal (im lin. Fall) Nein Für gaußsche Fehler Im lin. Fall relativ gering 27. November 2009 23 / 24 Literatur Literatur Allgemein: V. Blobel, E. Lohrmann, Statistiche und numerische Methoden der Datenanalyse, Teubner (1998) C. Amsler et al. (Particle Data Group), Physics Letters B667, 1 (2008) Plots: T. Schwetz, M. Tortola, J. W.F. Valle, New J.Phys.10:113011, 2008 K. Scholberg, A. Burgmeier, R. Wendell, (2009) 0910.3174 Armin Burgmeier (KIT) Parameteranpassung 27. November 2009 24 / 24