Einführung in die wissenschaftliche Datenanalyse Dr. Michael O. Distler [email protected] http://www-fp.physik.uni-mainz.de/FPkurs/ Mainz, 22. October 2010 Literatur Grundbegriffe Wahrscheinlichkeitsverteilungen Parameterschätzung (Fit) Einführung in die wissenschaftliche Datenanalyse Literatur Volker Blobel und Erich Lohrmann: Statistische und numerische Methoden der Datenanalyse, Teubner Verlag (1998) Siegmund Brandt: Datenanalyse, BI Wissenschaftsverlag (1999) Philip R. Bevington: Data Reduction and Error Analysis for the Physical Sciences, McGraw-Hill (1969) Roger J. Barlow: Statistics, John Wiley & Sons (1993) Glen Cowan: Statistical Data Analysis, Oxford University Press (1998) Frederick James: Statistical Methods in Experimental Physics, 2nd Edition, World Scientific, 2006 Wes Metzger’s lecture notes: www.hef.kun.nl/~wes/stat_course/statist.pdf Glen Cowan’s lecture notes: www.pp.rhul.ac.uk/~cowan/stat_course.html Particle Physics Booklet: http://pdg.lbl.gov/ Einführung in die wissenschaftliche Datenanalyse Vorbemerkungen Wissenschaftstheorie Der Kritische Rationalismus ist eine von Karl R. Popper (* 28. Juli 1902 in Wien; † 17. September 1994 in London) begründete philosophische Denkrichtung, die in enger Verbindung mit seinem Modell für den wissenschaftliche Erkenntnisgewinn, dem sog. Falsifikationismus, steht. Logik der Forschung, 1934. −→ Existenz eines wahren Wertes von Messgrößen und abgeleiteten Größen Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik: −→ Axiome von Kolmogorow Klassische Statistik, frequentist probability: Pragmatische Wahrscheinlichkeitsdefinition: n p(E) = lim N→∞ N p steht für probability n(E) = Zahl des Eintretens des Ereignisses E N = Zahl der Herbeiführung der gegebenen Bedingungen (Durchführung des Experiments) Experimente müssen (prinzipiell) wiederholbar sein. Nachteil: Strenggenommen sind keine Wahrscheinlichkeitsaussagen über die wahren Werte möglich, lediglich die Angabe von oberen und unteren Grenzen mit einer gewissen Irrtumswahrscheinlichkeit. Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: Subjektive Annahmen über die Grundgesamtheit gehen in die Wahrscheinlichkeitsberechnung ein. Bildhafte Definition: Wahrscheinlichkeiten werden aus dem Verhältnis von (maximalen) “Wetteinsatz” und zu erwartendem Gewinn gebildet. Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: In einer Stadt gibt es zwei Taxiunternehmen, das eine hat grüne, das andere gelbe Taxis. Bei einem Autounfall kommt ein Mensch zu Schaden. Ein Zeuge hat ein grünes Taxi gesehen. Es kommt zur Gerichtsverhandlung. Der Anwalt des Unternehmens zweifelt die Aussage des Zeugen an, da die Lichtverhältnisse schlecht waren. Ein Test ergibt, dass in etwa 10% der Fälle bei gleichen Bedingungen die Farbe des Taxis verwechselt wird. Würden Sie dem Zeugen glauben? Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: In einer Stadt gibt es zwei Taxiunternehmen, das eine hat grüne, das andere gelbe Taxis. Bei einem Autounfall kommt ein Mensch zu Schaden. Ein Zeuge hat ein grünes Taxi gesehen. Es kommt zur Gerichtsverhandlung. Der Anwalt des Unternehmens zweifelt die Aussage des Zeugen an, da die Lichtverhältnisse schlecht waren. Ein Test ergibt, dass in etwa 10% der Fälle bei gleichen Bedingungen die Farbe des Taxis verwechselt wird. Würden Sie dem Zeugen glauben? Wenn es 20 mal mehr gelbe als grüne Taxis gäbe: Würden Sie dem Zeugen immer noch glauben? Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: Taxis 200 gelbe 10 grüne Zeuge sieht . . . 180 mal “gelb” 20 mal “grün” 9 mal “grün” 1 mal “gelb” Aussage ist . . . 20/29 = 69% falsch 9/29 = 31% richtig Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: Subjektive Annahmen über die Grundgesamtheit gehen in die Wahrscheinlichkeitsberechnung ein. Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit. Vorteile bei seltenen und einmaligen Ereignissen, wie verrauschten Signalen oder Katastrophenwahrscheinlichkeiten. Einführung in die wissenschaftliche Datenanalyse Wahrscheinlichkeitstheorie Mathematische Statistik, Stochastik Klassische Statistik, frequentist probability Bayes’sche Statistik, subjective probability: Subjektive Annahmen über die Grundgesamtheit gehen in die Wahrscheinlichkeitsberechnung ein. Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit. Vorteile bei seltenen und einmaligen Ereignissen, wie verrauschten Signalen oder Katastrophenwahrscheinlichkeiten. Im F-Praktikum kommt die klassische Statistik zur Anwendung. Deshalb sollten alle Fehlerangaben als Konfidenzbereiche verstanden werden. Einführung in die wissenschaftliche Datenanalyse Kombination von Wahrscheinlichkeiten Gegeben sind zwei Arten von Ereignissen, A und B. Die Wahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)). Dann ist die Wahrscheinlichkeit, dass A oder B eintritt: p(A oder B) = p(A) + p(B) − p(A und B) Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt p(A und B) = 0 Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten. p(As oder Pik) = 8 1 11 4 + − = 32 32 32 32 Spezialfall: B = Ā (Nicht-Eintreten von A). p(A und Ā) = p(A) + p(Ā) = 1 Einführung in die wissenschaftliche Datenanalyse Kombination von Wahrscheinlichkeiten Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist: p(A und B) = p(A) · p(B|A), p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis B eintritt, vorausgesetzt, das Ereignis A ist eingetreten. Falls die Ereignisse A und B unabhängig sind - aber auch nur dann - gilt p(B|A) = p(B), bzw. p(A und B) = p(A) · p(B) Einführung in die wissenschaftliche Datenanalyse Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Einführung in die wissenschaftliche Datenanalyse Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Das kann doch nicht wahr sein, was ist, wenn Messner zu einer 30. Expedition aufbricht? Einführung in die wissenschaftliche Datenanalyse Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Das kann doch nicht wahr sein, was ist, wenn Messner zu einer 30. Expedition aufbricht? Die Wahrscheinlichkeit, eine Expedition zu überleben ist offensichtlich 1 − 0,034 = 0,966. Wenn man annimmt, dass die einzelnen Expeditionen unabhängige Ereignisse darstellen, ist die Wahrscheinlichkeit, alle 29 Expeditionen zu überleben: P = 0,96629 = 0,367. Einführung in die wissenschaftliche Datenanalyse Definitionen 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 f(x) f(n) Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsdichte eines Messwertes (=Zufallsvariable) 0 5 10 15 20 25 30 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 5 10 15 n 20 25 30 x f (n) diskret Normierung: X f (n) ≥ 0 f (n) = 1 f (x) kontinuierlich Z ∞ f (x) ≥ 0 f (x) dx = 1 −∞ n Wahrscheinlichkeit: p(n1 ≤ n ≤ n2 ) = n2 X n1 Z f (n) x2 p(x1 ≤ x ≤ x2 ) = f (x) dx x1 Einführung in die wissenschaftliche Datenanalyse Definitionen Integrierte Verteilungsfunktion oder kumulative Wahrscheinlichkeitsverteilung: Z x F (x) = f (x 0 )dx 0 , F (−∞) = 0, F (∞) = 1 −∞ Beispiel: Zerfallszeit t eines radioaktiven Kerns der mittleren Lebensdauer τ : f (t) = 1 −t/τ e τ F (t) = 1 − e−t/τ 1 f(t)*12s 0.8 F(t) 0.6 0.4 0.2 0 0 10 20 30 40 50 t/s Einführung in die wissenschaftliche Datenanalyse Erwartungswerte und Momente Mittelwert: Kann eine Zufallsgröße E die Werte E1 , E2 , . . . , En annehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei ), dann bezeichnet man als Mittelwert der Größe E (“Erwartungswert”) Ē = hEi = n X Ei · p(Ei ) i=1 Der Erwartungswert der Funktion h(x) für kontinuierliche Zufallsgrößen: Z ∞ E[h(x)] = h(x) · f (x)dx −∞ Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall): Z ∞ E[x] = x̄ = x · f (x)dx −∞ Einführung in die wissenschaftliche Datenanalyse Erwartungswerte und Momente Streuung = {Mittelwert der (Abweichung von x̄)2 }1/2 Z ∞ σ 2 = (x − x̄)2 = (x − x̄)2 · f (x)dx −∞ Z ∞ = (x 2 − 2x x̄ + x̄ 2 ) · f (x)dx = x 2 − 2x̄ x̄ + x̄ 2 = x 2 − x̄ 2 −∞ σ 2 = Varianz, σ = Standardabweichung Für diskrete Verteilungen: P 1 X 2 ( x)2 2 σ = x − N N Vorsicht: Hier wird die Varianz definiert! Für eine erwartungstreue Schätzung der Varianz wird N1 durch ersetzt. Siehe: Schätzverfahren 1 N−1 Einführung in die wissenschaftliche Datenanalyse Erwartungswerte und Momente Momente: Die Erwartungswerte von x n und von (x − hxi)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. Die Schiefe v (x) einer Zufallsvariablen x ist das auf die dritte Potenz der Standardabweichung bezogene zentrale Moment 3. Ordnung µ03 (x): v= µ03 E[(x − E[x])3 ] = σ3 σ3 Das 4te zentrale Moment bezogen auf die vierte Potenz der Standardabweichung bezeichnet man als Wölbung (Kurtosis). Einführung in die wissenschaftliche Datenanalyse Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r )= np r =0 Die Varianz σ 2 ist n X V [r ] = E[(r − hr i) ] = (r − hr i)2 P(r )= np(1 − p) 2 r =0 Einführung in die wissenschaftliche Datenanalyse Poisson-Verteilung Die Poisson-Verteilung ist gegeben durch: µr e−µ P(r ) = r! Der Mittelwert ist: hr i = µ 0.6 0.6 0.5 0.5 0.4 µ = 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 2 4 6 8 10 0.35 2 V [r ] = σ = np = µ 0 2 4 6 8 10 0.35 0.3 Die Varianz ergibt sich aus V [r ] = np(1 − p) für die Binomialverteilung: µ=1 0.3 0.25 0.25 0.2 µ=2 0.2 0.15 µ=4 0.15 0.1 0.1 0.05 0.05 0 0 0 2 4 6 8 10 0 2 4 6 8 Einführung in die wissenschaftliche Datenanalyse 10 Das Gesetz der großen Zahl Angenommen, dass in n statistisch unabhängigen Experimenten das Ereignis j insgesamt nj mal aufgetreten ist. Die Zahlen nj folgen einer Binomialverteilung, und das Verhältnis hj = nj /n ist die entsprechende Zufallsvariable. Der Erwartungswert E[hj ] ist die Wahrscheinlichkeit pj für das Ereignis j: pj = E[hj ] = E[nj /n] Für die Varianz gilt dann (Binomialverteilung!): V [hj ] = σ 2 (hj ) = σ 2 (nj /n) = 1 1 · σ 2 (nj ) = 2 · npj (1 − pj ) 2 n n Da das Produkt pj (1 − pj ) immer ≤ 1 4 ist, gilt die Ungleichung σ 2 (hj ) < 1/n bekannt als das Gesetz der großen Zahl. Einführung in die wissenschaftliche Datenanalyse Der Zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der Statistik. Unter anderem erklärt er die zentrale Bedeutung der Gauß-Verteilung. P Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und Varianz σ 2 geht in der Grenze n → ∞ gegen eine Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und Varianz V [w] = nσ 2 . Einführung in die wissenschaftliche Datenanalyse Illustration: Zentraler Grenzwertsatz 0.5 0.5 N=1 N=2 Gauss 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -3 -2 -1 0 1 2 3 0.5 -3 -2 -1 0 1 2 3 0.5 N=3 N=10 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 Dargestellt ist die Summe uniform verteilter Zufallszahlen im Vergleich zur Standardnormalverteilung. Einführung in die wissenschaftliche Datenanalyse 3 Spezielle Wahrscheinlichkeitsdichten Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant zwischen den Grenzen x = a und x = b: 1 b−a a ≤ x < b f (x) = 0 außerhalb Mittelwert und Varianz sind: hxi = E[x] = a+b 2 V [x] = σ 2 = (b − a)2 12 Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben. Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0 und 1, die eine Varianz 1/12 hat. Einführung in die wissenschaftliche Datenanalyse Die Normalverteilung (Gauß-Verteilung) Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großen Bedeutung in der Praxis. (x−µ)2 1 − e 2σ2 f (x) = √ 2πσ Die Normalverteilung wird von zwei Parametern bestimmt, dem Mittelwert µ und der Standardabweichung σ. Die Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung, abgekürzt N(0, 1). Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der Binomialverteilung für große Werte von n und r , und auf ähnliche Weise auch als Grenzfall der Poisson-Verteilung für große Werte von µ. Einführung in die wissenschaftliche Datenanalyse Die Normalverteilung (Gauß-Verteilung) Z 1 dx N(0, 1) = 0,6827 = (1 − 0,3173) −1 Z 2 dx N(0, 1) = 0,9545 = (1 − 0,0455) −2 Z 3 dx N(0, 1) = 0,9973 = (1 − 0,0027) −3 FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise die Standardabweichung einer Gaußkurve zu schätzen. √ FWHM = 2σ 2ln2 = 2,355σ Einführung in die wissenschaftliche Datenanalyse Die Normalverteilung (Gauß-Verteilung) im Vergleich 0.3 0.25 0.2 0.15 0.1 0.05 0 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 Links: Binomialverteilung mit n = 10 und p = 0,6 im Vergleich mit der Gauß-Verteilung p √ mit µ = np = 6 und σ = np(1 − p) = 2,4. √ Rechts: Poisson-Verteilung mit µ = 6 und σ = 6 im Vergleich mit der Gauß-Verteilung. Einführung in die wissenschaftliche Datenanalyse Integrierte Gaußfunktion Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet, Z x (t−µ)2 1 − e 2σ2 dt. Φ(x) = √ 2πσ −∞ In vielen Formelsammlungen finden sich Tabellen der integrierten standardisierten Gauß-Verteilung, Z z x2 1 e− 2 . F (x) = √ 2π −∞ Die integrierte Verteilungsfunktion kann durch die Gauß’sche Fehlerfunktion erf(x) ausgedrückt werden, Z x 2 2 e−t dt. erf(x) = √ π 0 1 x −µ Φ(x) = 1 + erf √ . 2 2σ Einführung in die wissenschaftliche Datenanalyse Integrierte Gaußfunktion 1.2 0.5*(1+erf(x/sqrt(2))) 0.4*exp(-0.5*x*x) 1 0.8 0.6 0.4 0.2 0 -3 -2 -1 0 1 2 3 Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0 und Varianz 1, so folgt die Summe 2 u=χ = n X xi2 i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist: 1 u n/2−1 −u/2 e 2 2 fn (u) = Γ(n/2) Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei (n − 2). Der Mittelwert ist n und die Varianz 2n. Einführung in die wissenschaftliche Datenanalyse χ2 -Wahrscheinlichkeitsdichte 0.3 pdf(2,x) pdf(3,x) pdf(4,x) pdf(5,x) pdf(6,x) pdf(7,x) pdf(8,x) pdf(9,x) 0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilungsfunktion Sie beschreibt die Wahrscheinlichkeit, dass χ2n im Intervall [0, x] liegt. cdf(2,x) cdf(3,x) cdf(4,x) cdf(5,x) cdf(6,x) cdf(7,x) cdf(8,x) cdf(9,x) 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung mit 5 Freiheitsgraden 0.16 0.14 0.12 0.1 0.08 0.06 0.04 95% c.l. 0.02 [0.831 ... 12.83] 0 0 2 4 6 8 10 12 14 Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen Die mehrdimensionale Wahrscheinlichkeitsdichte f (x, y ) der zwei Zufallszahlen x̃ und ỹ ist definiert durch die Wahrscheinlichkeit, das Variablenpaar (x̃, ỹ ) in den Intervallen a ≤ x̃ < b und c ≤ ỹ < d zu finden Z d Z b P(a ≤ x̃ < b, c ≤ ỹ < d) = f (x, y ) dx dy c Normierung: Z ∞ Z a ∞ f (x, y ) dx dy = 1 −∞ −∞ Gilt: f (x, y ) = h(x) · g(y ) dann sind die zwei Zufallsvariablen unabhängig. Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen Mittelwerte und Varianzen sind naheliegend (siehe 1. Dim): Z Z < x >= E[x] = x f (x, y ) dx dy Z Z < y >= E[y ] = y f (x, y ) dx dy Z Z V [x] = (x− < x >)2 f (x, y ) dx dy = σx2 Z Z V [y ] = (y − < y >)2 f (x, y ) dx dy = σy2 Sei z eine Funktion von x, y : z = z(x, y ) Damit ist z ebenfalls eine Zufallsvariable. Z Z <z> = z(x, y ) f (x, y ) dx dy D E σz2 = (z− < z >)2 Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen Einfaches Beispiel: z(x, y ) = a · x + b · y Erwartungswert von z: Z Z Z Z <z> = a x f (x, y ) dx dy + b y f (x, y ) dx dy = a < x > +b < y > unproblematisch Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen z(x, y ) = a · x + b · y Varianz: D E ((a · x + b · y ) − (a < x > + b < y >))2 D E = ((a · x − a < x >) + (b · y − b < y >))2 D E D E = a2 (x− < x >)2 +b2 (y − < y >)2 {z } {z } | | 2 2 σx σy σz2 = +2ab h(x− < x >)(y − < y >)i | {z } ?? < (x− < x >)(y − < y >) >= cov(x, y ) Kovarianz Z Z = σxy = (x− < x >)(y − < y >) f (x, y ) dx dy Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen Normierte Kovarianz: cov(x, y ) = ρxy σx σy Korrelationskoeffizient gibt ein grobes Maß der Abhängigkeit zweier Variablen an. −1 ≤ ρxy ≤ 1 Einführung in die wissenschaftliche Datenanalyse Zufallsvariable in zwei Dimensionen Für die Determinante der Kovarianzmatrix gilt: 2 σx σxy 2 2 2 2 2 2 σxy σ 2 = σx σy − σxy = σx σy (1 − ρ ) ≥ 0 y Einführung in die wissenschaftliche Datenanalyse 2-dim Gauß-Verteilung -2.7 -2.8 Parameter a2 -2.9 -3 -3.1 -3.2 -3.3 1.85 1.9 1.95 2 2.05 2.1 2.15 Parameter a1 Wahrscheinlichkeitsinhalt der Kovarianzellipse: 39,3% Einführung in die wissenschaftliche Datenanalyse Kovarianzmatrix in n-Dimensionen Als Verallgemeinerung der Varianz definiert man die Kovarianzmatrix durch: D E Vij = (~x − < ~x >)(~x − < ~x >)T Damit ergeben sich als Diagonalelemente der Matrix Vij die Varianzen und als Nicht-Diagonalelemente die Kovarianzen: Z Vii = var(xi ) = (xi − < xi >)2 f (~x ) dx1 dx2 . . . dxn Z Vij = cov(xi , xj ) = (xi − < xi >)(xj − < xj >) f (~x ) dx1 dx2 . . . dxn . Einführung in die wissenschaftliche Datenanalyse Kovarianzmatrix in n-Dimensionen Die Kovarianzmatrix var(x1 ) cov(x1 , x2 ) . . . cov(x1 , xn ) cov(x2 , x1 ) var(x2 ) . . . cov(x2 , xn ) Vij = ... ... ... cov(xn , x1 ) cov(xn , x2 ) . . . var(xn ) ist eine symmetrische n × n-Matrix. Man schreibt auch: 2 σ1 σ12 . . . σ1n σ21 σ 2 . . . σ2n 2 Vij = ... ... ... σn1 σn2 . . . σn2 Einführung in die wissenschaftliche Datenanalyse Faltung Zwei Zufallsvariablen x und y seien durch ihre Wahrscheinlichkeiten fx (x) und fy (y ) gegeben. Offensichtlich ist ihre Summe w = x + y ebenfalls eine Zufallsvariable. Die Wahrscheinlichkeitsdichte der Summe w sei fw (w). Sie wird durch erhalten durch eine Faltung von x mit y . Z Z fw (w) = fx (x)fy (y )δ(w − x − y ) dx dy Z Z = fx (x)fy (w − x) dx = fy (y )fx (w − y ) dy −→ Charakteristische Funktion Einführung in die wissenschaftliche Datenanalyse Transformation von Wahrscheinlichkeitsdichten Die Wahrscheinlichkeitsdichte fx (x) der Variablen x soll vermöge y = y (x) in eine andere Variable y transformiert werden: y = y (x) fx (x) fy (y ) −→ Betrachte: Intervall (x, x + dx) → (y , y + dx) Bedenke: die Flächen unter den Wahrscheinlichkeitsdichten in den jeweiligen Intervallen müssen gleich sein. dx fx (x)dx = fy (y )dy ,→ fy (y ) = fx (x(y )) dy Einführung in die wissenschaftliche Datenanalyse Transformation von Mittelwert und Varianz, Fehlerfortplanzung Entwicklung um Mittelwert: 2 dy 1 2 d y y (x) = y (hxi) + (x − hxi) +... + (x − hxi) dx x=hxi 2 dx 2 x=hxi Bis 2. Ordnung: 2 dy 1 2 d y E[y ] ' y (hxi) + E[x − hxi] + E[(x − hxi) ] dx x=hxi 2 dx 2 x=hxi | {z } =0 1 2 d 2 y hy i ' y (hxi) + σ 2 x dx 2 x=hxi | {z } wird oft weggelassen Einführung in die wissenschaftliche Datenanalyse Transformation von Mittelwert und Varianz, Fehlerfortplanzung Für die Varianz nehmen wir an hy i ' y (hxi) und entwickeln y (x) um den Mittelwert hxi bis zur 1. Ordnung: !2 h i dy V [y ] = E (y − hy i)2 = E (x − hxi) dx x=hxi = !2 h i dy 2 · E (x − hxi) = dx x=hxi !2 dy · σx2 dx x=hxi Gesetz der Fehlerfortpflanzung für eine Zufallsvariable. Einführung in die wissenschaftliche Datenanalyse Schätzung von Parametern Problemstellung: Aus fehlerbehafteten Messungen möglichst genaue Ergebnisse erarbeiten zusammen mit Aussagen über Zuverlässigkeit und Grenzen. Vorsicht: Messungen unterliegen einer Reihe von unkontrollierbaren Einflüssen, welche zufällig genannt werden sie sind also mit statistischen Fehlern versehen. Daneben gibt es aber noch systematische Fehler, die durch eine fehlerhafte Methode hervorgerufen werden, etwa durch falsche Messinstrumente oder falsche Formeln bei der Auswertung. Systematische Fehler müssen anders behandelt werden als statistische Fehler. So können sie auch durch Mittelung über mehrere Messungen nicht reduziert werden. Einführung in die wissenschaftliche Datenanalyse Schätzung von Parametern Formal: Messung von n unabhängigen Werten x1 , x2 , . . . , xn der Zufallsvariablen x bzw. ~x . (Stichprobe) Aufgabe: Beste Schätzung eines (mehrerer) Parameter. Diese Schätzung ist selbst auch eine Zufallsvariable. Deshalb sollen auch Aussagen über Fehler und Korrelationskoeffizienten gemacht werden. Allgemeine Kriterien für eine Methode zur Bestimmung von Parametern mit Schätzwert â und wahrem Wert a0 : 1 Konsistenz: lim â = a0 . n→∞ 2 Erwartungstreue: E[â] = a0 . 3 Effizienz: Varianz von â klein. 4 Robustheit gegenüber falschen Daten und Voraussetzungen. Wobei die letzten beiden Kriterien häufig im Widerspruch sind. Einführung in die wissenschaftliche Datenanalyse Robuste Schätzung von Mittelwerten n x̄ = 1X xi n i=1 Konsistenz? ok (Zentraler Grenzwertsatz) P Erwartungstreue? ok E[x̂] = n1 ni=1 E[xi ] =< x >. Effizienz? Robustheit? Einführung in die wissenschaftliche Datenanalyse Mittelwert einer symmetrischen Verteilung Für symmetrische Verteilungen (die keine Gauß-Verteilungen sind) ist das Stichprobenmittel weder effizient noch robust. 0.5 f(x) g(x) h(x) Wahrscheinlichkeitsdichte p(x) 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −4 −2 Breit-Wigner-Verteilung: Gauß-Verteilung: Doppelt-Exponentiell: 0 Zufallsvariable x 2 4 1 1 π x 2 +1 2 g(x) = √1 e−x /2 2π h(x) = 12 e−|x| f (x) = Einführung in die wissenschaftliche Datenanalyse Mittelwert einer symmetrischen Verteilung Besser: Getrimmter Mittelwert (Mittelwert mit Abschneiden) Weglassen der (1 − 2r )n/2 größten und kleinsten Messwerte einer Stichprobe. Grenzfälle: r = 0,5: Mittelwert r → 0: Median. Für eine unbekannte sym. Verteilung liefert r = 0,23 das robustete Verfahren mit einer Effizienz von 82%. Einführung in die wissenschaftliche Datenanalyse Mittelwert einer Gleichverteilung Die genaueste Schätzung ist gegeben durch: x̄ = x̌ + x̂ 2 1800 0.1 1600 0.01 1400 0.001 1200 0.0001 absoluter Fehler Häufigkeit mit x̌ (x̂) kleinster (größter) Wert der Stichprobe. 1000 800 600 400 1e−05 1e−06 1e−07 1e−08 200 1e−09 0 1e−10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Mittelwert der Stichprobe 0.8 0.9 1 10 100 1000 10000 100000 1e+06 Größe der Stichprobe 1e+07 1e+08 Die beste√Schätzung liefert die bessere Varianz, die wie (1/n)2 (statt (1/ n)2 ) gegen Null geht. Einführung in die wissenschaftliche Datenanalyse Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 Mittelwert? Varianz? Einführung in die wissenschaftliche Datenanalyse Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 hli = s2 = 1X ni li = 20,028 cm N X 1 1 X 2 2 ni li − ni li N −1 N = 0,2176 cm2 Einführung in die wissenschaftliche Datenanalyse Beispiel für eine Stichprobe li /cm 18,9 19,1 19,2 19,3 19,4 19,5 19,6 19,7 19,8 19,9 20,0 20,1 20,2 20,3 20,4 20,5 20,6 20,7 20,8 20,9 21,0 21,2 P ni 1 1 2 1 4 3 9 8 11 9 5 7 8 9 6 3 2 2 2 2 4 1 100 ni li /cm 18,9 19,1 38,4 19,3 77,6 58,5 176,4 157,6 217,8 179,1 100,0 140,7 161,6 182,7 122,4 61,5 41,2 41,4 41,6 41,8 84,0 21,2 2002,8 ni li2 /cm2 357,21 364,81 737,28 372,49 1505,44 1140,75 3457,44 3104,72 4312,44 3564,09 2000,00 2828,07 3264,32 3708,81 2496,96 1260,75 848,72 856,98 865,28 873,62 1764,00 449,44 40133,62 Stichprobe von 100 Längenmessungen: X N = ni = 100 hli = s2 = 1X ni li = 20,028 cm N X 1 1 X 2 2 ni li − ni li N −1 N = 0,2176 cm2 s l̄ = hli ± √ N = (20,028 ± 0,047) cm s s = s± p 2(N − 1) = (0,466 ± 0,033) cm Einführung in die wissenschaftliche Datenanalyse Beispiel für eine Stichprobe 12 "length.dat" Gauß(µ=20.028,σ=0.466) Gauß(µ=20.0,σ=0.5) 10 Häufigkeit 8 6 4 2 0 18.5 19 19.5 20 Länge / cm 20.5 21 21.5 Einführung in die wissenschaftliche Datenanalyse Die Maximum-Likelihood-Methode Stichprobe von n Werten xi . Zugrunde liegende Wahrscheinlichkeitsdichte f (x|a) sei bekannt und normiert R f (x|a) dx = 1. Likelihood-Funktion: L(a) = f (x1 |a) · f (x2 |a) · . . . · f (xn |a) = n Y f (xi |a) i=1 Die beste Schätzung für â entspricht dem Maximum der Likelihood-Funktion. Maximum wie üblich durch Ableiten und Nullsetzen: dL(a) da oder ∂L(ak ) ∂ak für alle k Einführung in die wissenschaftliche Datenanalyse Die Maximum-Likelihood-Methode In der Praxis meist Logarithmus der Likelihood-Funktion l(a) = ln L(a) bzw. negativer Logarithmus: F (a) = −l(a) = − n X ln f (xi |a) i=1 Natürlich muss F (a) minimiert werden. ,→ negative Log-Likelihood-Funktion Einführung in die wissenschaftliche Datenanalyse Die Maximum-Likelihood-Methode Einführung in die wissenschaftliche Datenanalyse Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der kleinsten Quadrate ist damit älter als die allgemeinere Maximum Likelihood-Methode. In diesem Kapitel werden direkte Messwerte mit der Eigenschaft von Zufallsvariablen (Daten) durchweg mit yi bezeichnet. n-malige Messung einer Größe x liefert also y1 , y2 , . . . , yn : yi = x + i i ist die Abweichung yi ↔ x (Messfehler). Einführung in die wissenschaftliche Datenanalyse Methode der kleinsten Quadrate Die gemessenen Werte weichen von dem wahren Wert um einen Betrag ab, der durch die Standardabweichung σ beschrieben wird. Im Sinne der Statistik sind die yi eine Stichprobe, welcher eine Wahrscheinlichkeitsdichte zugrunde liegt. Es soll eine funktionelle Beziehung (Modell) für die wahren Werte vorliegen. Dieses Modell kann von zusätzlichen Variablen aj (Parametern) abhängen. Für diese Parameter gibt es keine direkte Messung. Das Modell wird durch eine oder mehrere Gleichungen der Form f (a1 , a2 , . . . , ap , y1 , y2 , . . . , yn ) = 0 beschrieben. Diese Gleichungen heißen Bedingungen. Einführung in die wissenschaftliche Datenanalyse Methode der kleinsten Quadrate Das Modell kann benutzt werden, um Korrekturen ∆yi für die Messwerte yi zu finden, so dass die korrigierten Werte die Bedingungen exakt erfüllen. Das Prinzip der kleinsten Quadrate verlangt, dass die Summe der Quadrate der Residuen ∆yi den kleinstmöglichen Wert annimmt. Im einfachsten Fall unkorrelierter Daten, die alle die gleiche Standardabweichung haben, entspricht das der Forderung: S= n X ∆yi2 = Minimum i=1 Man kann so Werte für die nicht gemessenen Parameter unter allgemeinen Bedingungen ermitteln −→ indirekte Messung Einführung in die wissenschaftliche Datenanalyse Methode der kleinsten Quadrate Die Methode der kleinsten Quadrate hat einige optimale statistische Eigenschaften und führt oft zu einfachen Lösungen. Andere Vorschriften sind denkbar, führen aber im allgemeinen zu komplizierten Lösungen. n X |∆yi | = Minimum oder max |∆yi | = Minimum i=1 Einführung in die wissenschaftliche Datenanalyse Methode der kleinsten Quadrate Allgemeiner Fall: Daten werden beschrieben durch n-Vektor y. Verschiedene Standardabweichungen und mit Korrelationen, beschrieben durch die Kovarianzmatrix V. Bedingung der kleinsten Quadrate in Matrixform: S = ∆yT V−1 ∆y Hierbei ist ∆y der Residuenvektor. Einführung in die wissenschaftliche Datenanalyse Lineare kleinste Quadrate Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden kann, und zwar durch die Bestimmung der mittleren Anzahl von Beeren, die je Traube gebildet worden sind. Ertrag (yi ) 5,6 3,2 4,5 4,2 5,2 2,7 4,8 4,9 4,7 4,1 4,4 5,4 Cluster (xi ) 116,37 82,77 110,68 97,50 115,88 80,19 125,24 116,15 117,36 93,31 107,46 122,30 6 5.5 5 Ertrag/(t/ar) y Jahr 1971 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 4.5 4 3.5 3 2.5 80 90 100 Clusterzahl x 110 120 Einführung in die wissenschaftliche Datenanalyse Lineare kleinste Quadrate Anpassung einer Geraden f (x) = a + b · x mit Hilfe von gnuplot: degrees of freedom (FIT_NDF) : 10 rms of residuals (FIT_STDFIT) = sqrt(WSSR/ndf) : 0.364062 variance of residuals (reduced chisquare) = WSSR/ndf : 0.132541 Final set of parameters Asymptotic Standard Error ======================= ========================== a = -1.0279 +/- 0.7836 (76.23%) b = 0.0513806 +/- 0.00725 (14.11%) correlation matrix of the fit parameters: a b a 1.000 b -0.991 1.000 Einführung in die wissenschaftliche Datenanalyse Bestimmung von Parameterwerten Bestimmung von Parameterwerten a aus Messungen anhand eines linearen Modells. Der Vektor a der Parameter hat p Elemente a1 , a2 , . . . , ap . Die Messwerte bilden den Vektor y von n Zufallsvariablen mit Elementen y1 , y2 , . . . , yn . Der Erwartungswert von y ist gegeben als Funktion der Variablen x der Form: y (x) = f (x, a) = a1 f1 (x) + a2 f2 (x) + . . . + ap fp (x). Damit ist der Erwartungswert jeder Einzelmessung yi gegeben durch E[yi ] = f (xi , ā) = ȳi wobei die Elemente von ā die wahren Werte des Parameters a sind. Einführung in die wissenschaftliche Datenanalyse Bestimmung von Parameterwerten Die Residuen ri = yi − f (xi , a) haben für a = ā die Eigenschaften E[ri ] = 0 E[ri2 ] = V [ri ] = σi2 . Die einzigen Annahmen hier sind Unverzerrtheit und eine endliche Varianz der Wahrscheinlichkeitsdichte der Residuen. Insbesondere ist es nicht zwingend nötig, dass sie gauß-verteilt ist. Einführung in die wissenschaftliche Datenanalyse Normalgleichungen im Fall gleicher Fehler Alle Daten sollen die gleiche Varianz haben und unkorreliert sein. Nach dem Prinzip der kleinsten Quadrate muss die Summe der Quadrate der Residuen in Bezug auf die Parameter a1 , a2 , . . . , ap minimiert werden: S= n X ri2 = i=1 n X (yi − a1 f1 (xi ) − a2 f2 (xi ) − . . . − ap fp (xi ))2 i=1 Bedingungen für das Minimum: n X ∂S = 2 f1 (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0 ∂a1 i=1 ... ... n X ∂S = 2 fp (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0 ∂ap i=1 Einführung in die wissenschaftliche Datenanalyse Normalgleichungen im Fall gleicher Fehler Die Bedingung kann in Form der sogenannten Normalgleichungen geschrieben werden P P P + . . . + ap P f1 (xi )fp (xi ) = P yi f1 (xi ) a1 P f1 (xi )2 yi f2 (xi ) a1 f2 (xi )f1 (xi ) + . . . + ap f2 (xi )fp (xi ) = ... P P P a1 fp (xi )f1 (xi ) + . . . + ap fp (xi )2 = yi fp (xi ) Die Schätzwerte von a1 , a2 , . . . , ap nach kleinsten Quadraten folgen als die Lösung dieser Normalgleichung. Einführung in die wissenschaftliche Datenanalyse Matrixschreibweise Matrixschreibweise und Matrixalgebra vereinfachen die Formulierung wesentlich. Die n × p Werte fj (xi ) werden als Elemente einer n × p Matrix aufgefasst. Die p Parameter aj und die n Messwerte yi bilden Spaltenvektoren. f1 (x1 ) f2 (x1 ) . . . fp (x1 ) y1 a1 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) y2 a2 A = ... a = ... y = ... ... ... ap f1 (xn ) f2 (xn ) . . . fp (xn ) yn Einführung in die wissenschaftliche Datenanalyse Matrixschreibweise Der n-Vektor der Resudien ist damit r = y − Aa. Die Summe S ist S = rT r = (y − Aa)T (y − Aa) = yT y − 2aT AT y + aT AT Aa Bedingung für das Minimum −2AT y + 2AT Aâ = 0 oder in der Matrixform der Normalgleichungen (AT A)â = AT y Die Lösung kann mit Standardverfahren der Matrixalgebra berechnet werden: â = (AT A)−1 AT y Einführung in die wissenschaftliche Datenanalyse Kovarianzmatrix der Parameter Die Kovarianzmatrix ist die quadratische n × n-Matrix var(y1 ) cov(y1 , y2 ) . . . cov(y1 , yn ) cov(y2 , y1 ) var(y2 ) . . . cov(y2 , yn ) V[y] = ... ... ... cov(yn , y1 ) cov(yn , y2 ) . . . var(yn ) Hier ist die Kovarianzmatrix eine Diagonalmatrix: 2 σ 0 ... 0 0 σ2 . . . 0 V[y] = ... ... ... 0 0 . . . σ2 Einführung in die wissenschaftliche Datenanalyse Kovarianzmatrix der Parameter Für eine lineare Beziehung â = By gilt die Standardformel der Fehlerfortpflanzung: V[â] = BV[y]BT mit B = (AT A)−1 AT wird daraus V[â] = (AT A)−1 AT V[y]A(AT A)−1 oder für den vorliegenden Fall gleicher Fehler einfach V[â] = σ 2 (AT A)−1 Einführung in die wissenschaftliche Datenanalyse Quadratsumme der Residuen Die Summe Ŝ der Quadrate der Residuen im Minimum ist Ŝ = yT y − 2âT AT y + âT AT A(AT A)−1 AT y = yT y − âT AT y. Der Erwartungswert E[Ŝ] ist E[Ŝ] = σ 2 (n − p) . Ist die Varianz der Messdaten nicht bekannt, so erhält man aus Ŝ den Schätzwert σ̂ 2 = Ŝ/(n − p). Dies ist für große Werte von (n − p) eine gute Schätzung. Einführung in die wissenschaftliche Datenanalyse Korrektur der Datenwerte Nach Berechnung der Parameter mit linearen kleinsten Quadraten können Werte der Funktion f (x) für beliebige x bestimmt werden durch ŷ (x) = f (x, â) = p X âj fj (x). j=1 Speziell für die Werte xi , die zu den Messwerten yi gehören, ergeben sich die korrigierten Datenpunkte zu ŷ = Aâ. Fehlerfortplanzung liefert die Kovarianzmatrix V[ŷ] = AV[a]AT = σ 2 A(AT A)−1 AT Einführung in die wissenschaftliche Datenanalyse Der Fall unterschiedlicher Fehler Wenn die einzelnen Datenpunkte statistisch unabhängig sind, dann ist die Kovarianzmatrix 2 σ1 0 . . . 0 0 σ2 . . . 0 2 V[y] = ... ... ... 0 0 . . . σn2 Der Ausdruck für die Summe der Residuenquadrate lautet nun: X r2 i = Minimum S= 2 σ i i Man führt die Gewichtsmatrix W(y) ein als inverse Matrix der Kovarianzmatrix 1/σ12 0 ... 0 0 1/σ22 . . . 0 W(y) = V[y]−1 = ... ... ... 0 0 . . . 1/σn2 Einführung in die wissenschaftliche Datenanalyse Der Fall unterschiedlicher Fehler Die Summe der Quadrate der gewichteten Residuen S = rT W(y)r = (y − Aa)T W(y)(y − Aa) muss nun bezüglich der Parameter minimiert werden. Es ergibt sich: â = (AT WA)−1 AT Wy V[â] = (AT WA)−1 Die Summe der Residuenquadrate für a = â hat die Form Ŝ = yT Wy − âT AT Wy und den Erwartungswert E[Ŝ] = n − p . Die Kovarianzmatrix der korrigierten Datenpunkte ist V[ŷ] = A(AT WA)−1 AT Einführung in die wissenschaftliche Datenanalyse Kleinste Quadrate in der Praxis: Geradenanpassung Geradenanpassung mit der Funktion y = f (x, a) = a1 + a2 x. Messwerte yi liegen an den genau bekannten Punkten xi vor. A= 1 1 1 ... 1 x1 x2 x3 V= xn a= a1 a2 y= y1 y2 y3 ... yn σ12 0 0 . . . 0 0 σ22 0 0 2 0 0 σ3 0 ... ... 0 0 0 . . . σn2 W = V−1 wii = 1 σi2 Einführung in die wissenschaftliche Datenanalyse Kleinste Quadrate in der Praxis: Geradenanpassung Lösung: P w A WA = P i wi xi T P wi xi S S x 1 P = Sx Sxx wi xi2 P wi yi Sy P = A Wy = wi xi yi Sxy S1 Sx a1 Sy = Sx Sxx a2 Sxy T â = (AT WA)−1 AT Wy V[â] = (AT WA)−1 S1 Sx Sx Sxx −1 1 = D Sxx −Sx −Sx S1 mit D = S1 Sxx − Sx2 Einführung in die wissenschaftliche Datenanalyse Kleinste Quadrate in der Praxis: Geradenanpassung Die Lösung ist â1 = (Sxx Sy − Sx Sxy )/D â2 = (−Sx Sy − S1 Sxy )/D und die Kovarianzmatrix ist V[â] = 1 D Sxx −Sx −Sx S1 . Weiterhin ist die Summe der Residuenquadrate Ŝ = Syy − â1 Sy − â2 Sxy Für einen Wert ŷ = â1 + â2 x, berechnet an der Stelle x, ist die Standardabweichung die Wurzel aus der Varianz: V [ŷ ] = V [â1 ] + x 2 V [â2 ] + 2xV [â1 , â2 ] = (Sxx − 2xSx + x 2 S1 )/D Einführung in die wissenschaftliche Datenanalyse Zusammenfassung In der klassischen Statistik werden Fehlerangaben in Form von Konfidenzbereiche gemacht. Vorsicht bei Zählexperimenten mit kleinen Raten: Poisson- statt Gauß-Verteilung (Schiefe, Erwartungstreue) Vorsicht bei Nicht-Gauß-Verteilung - insbesondere bei verzerrten (schiefen) Verteilungen. Statt dem kleinste Quadrate Verfahren sollte dann etwa das Maximum-Likelihood Verfahren Anwendung finden. Der Matrixformulismus für das kleinste Quadrate Verfahren ist ein sehr mächtiges Werkzeug. Effizenteste Parameterschätzung für lineare Modelle, beinhaltet Fehlerfortpflanzung, geeignet als Optimierungsverfahren auch für nicht-lineare Probleme. Einführung in die wissenschaftliche Datenanalyse Charakteristische Funktion Ist x eine reelle Zufallsvariable mit der Verteilungsfunktion F (x) und der Wahrscheinlichkeitsdichte f (x), so bezeichnet man als ihre charakteristische Funktion den Erwartungswert der Größe exp(ıtx): ϕ(t) = E[exp(ıtx)] also im Fall einer kontinuierlichen Variablen ein Fourier-Integral mit seinen bekannten Transformationseigenschaften: Z ∞ ϕ(t) = exp(ıtx) f (x)dx −∞ Insbesondere gilt für die zentralen Momente: Z ∞ n λn = E[x ] = x n f (x)dx −∞ Z ∞ d n ϕ(t) (n) = x n exp(ıtx) f (x)dx ϕ (t) = dt n −∞ ϕ(n) (0) = ın λn Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0 und Varianz 1, so folgt die Summe 2 u=χ = n X xi2 i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist: 1 u n/2−1 −u/2 e 2 2 fn (u) = Γ(n/2) Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei (n − 2). Der Mittelwert ist n und die Varianz 2n. Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung http://de.wikipedia.org/wiki/Gammafunktion Γ(n) = (n − 1)! √ 1 π Γ( ) = 2 Γ(x + 1) = x · Γ(x) Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung Die Größe Q(χ2 |n) = 1 − P(χ2 |n) = 1 − F (χ2 ) Z χ2 = 1− fn (ν)dν 0 gegen χ2 für n Freiheitsgrade Einführung in die wissenschaftliche Datenanalyse χ2 -Verteilung Die Größe Q(χ2 |n) = 1 − P(χ2 |n) = 1 − F (χ2 ) Z χ2 = 1− fn (ν)dν 0 gegen χ2 für n Freiheitsgrade Einführung in die wissenschaftliche Datenanalyse t-Verteilung Die t-Verteilung tritt auf bei Tests der statistischen Verträglichkeit eines Stichproben-Mittelwertes x̄ mit einem vorgegebenen Mittelwert µ, oder der statistischen Verträglichkeit zweier Stichproben-Mittelwerte. Die Wahrscheinlichkeitsdichte der t-Verteilung ist gegeben durch 1 Γ((n + 1)/2) fn (t) = √ Γ(n/2) nπ t2 1+ n −(n+1)/2 Einführung in die wissenschaftliche Datenanalyse t-Verteilung Die Studentschen t-Verteilungen f (t) (links) im Vergleich zur standardisierten Gauß-Verteilung (gestrichelt) R t sowie die integrierten Studentschen t-Verteilungen −∞ f (x)dx (rechts). Einführung in die wissenschaftliche Datenanalyse t-Verteilung Quantile der t-Verteilung, P = Rt −∞ fn (x)dx. Einführung in die wissenschaftliche Datenanalyse F -Verteilung Gegeben sind n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallsvariablen. Die beste Schätzung der Varianzen aus beiden Datenkollektionen seien s12 und s22 . Die Zufallszahl F = s12 s22 folgt dann einer F -Verteilung mit (n1 , n2 ) Freiheitsgraden. Es ist Konvention, dass F immer größer als eins ist. Die Wahrscheinlichkeitsdichte von F ist gegeben durch f (F ) = n1 n2 n1 /2 −(n1 +n2 )/2 Γ((n1 + n2 )/2) (n1 −2)/2 n1 F 1+ F Γ(n1 /2)Γ(n2 /2) n2 Einführung in die wissenschaftliche Datenanalyse Quantile der F -Verteilung, Konfidenz = 0,68 Einführung in die wissenschaftliche Datenanalyse Quantile der F -Verteilung, Konfidenz = 0,90 Einführung in die wissenschaftliche Datenanalyse Quantile der F -Verteilung, Konfidenz = 0,95 Einführung in die wissenschaftliche Datenanalyse Quantile der F -Verteilung, Konfidenz = 0,99 Einführung in die wissenschaftliche Datenanalyse