Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <[email protected]> Mainz, 1. Juni 2017 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 1 / 38 Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der kleinsten Quadrate ist damit älter als die allgemeinere Maximum Likelihood-Methode. In diesem Kapitel werden direkte Messwerte mit der Eigenschaft von Zufallsvariablen (Daten) durchweg mit yi bezeichnet. n-malige Messung einer Größe x liefert also y1 , y2 , . . . , yn : yi = x + i i ist die Abweichung yi ↔ x (Messfehler). Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 2 / 38 Methode der kleinsten Quadrate Die gemessenen Werte weichen von dem wahren Wert um einen Betrag ab, der durch die Standardabweichung σ beschrieben wird. Im Sinne der Statistik sind die yi eine Stichprobe, welcher eine Wahrscheinlichkeitsdichte zugrunde liegt. Es soll eine funktionelle Beziehung (Modell) für die wahren Werte vorliegen. Dieses Modell kann von zusätzlichen Variablen aj (Parametern) abhängen. Für diese Parameter gibt es keine direkte Messung. Das Modell wird durch eine oder mehrere Gleichungen der Form f (a1 , a2 , . . . , ap , y1 , y2 , . . . , yn ) = 0 beschrieben. Diese Gleichungen heißen Bedingungen. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 3 / 38 Methode der kleinsten Quadrate Das Modell kann benutzt werden, um Korrekturen ∆yi für die Messwerte yi zu finden, so dass die korrigierten Werte die Bedingungen exakt erfüllen. Das Prinzip der kleinsten Quadrate verlangt, dass die Summe der Quadrate der Residuen ∆yi den kleinstmöglichen Wert annimmt. Im einfachsten Fall unkorrelierter Daten, die alle die gleiche Standardabweichung haben, entspricht das der Forderung: S= n X ∆yi2 = Minimum i=1 Man kann so Werte für die nicht gemessenen Parameter unter allgemeinen Bedingungen ermitteln −→ indirekte Messung Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 4 / 38 Methode der kleinsten Quadrate Die Methode der kleinsten Quadrate hat einige optimale statistische Eigenschaften und führt oft zu einfachen Lösungen. Andere Vorschriften sind denkbar, führen aber im allgemeinen zu komplizierten Lösungen. n X |∆yi | = Minimum oder max |∆yi | = Minimum i=1 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 5 / 38 Methode der kleinsten Quadrate Allgemeiner Fall: Daten werden beschrieben durch n-Vektor y. Verschiedene Standardabweichungen und mit Korrelationen, beschrieben durch die Kovarianzmatrix V. Bedingung der kleinsten Quadrate in Matrixform: S = ∆yT V−1 ∆y Hierbei ist ∆y der Residuenvektor. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 6 / 38 Lineare kleinste Quadrate Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden kann, und zwar durch die Bestimmung der mittleren Anzahl von Beeren, die je Traube gebildet worden sind. Ertrag (yi ) 5,6 3,2 4,5 4,2 5,2 2,7 4,8 4,9 4,7 4,1 4,4 5,4 Cluster (xi ) 116,37 82,77 110,68 97,50 115,88 80,19 125,24 116,15 117,36 93,31 107,46 122,30 Dr. Michael O. Distler <[email protected]> 6 5.5 5 Ertrag/(t/ar) y Jahr 1971 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 4.5 4 3.5 3 2.5 80 90 100 Clusterzahl x 110 120 Statistics, Data Analysis, and Simulation – SS 2017 7 / 38 Lineare kleinste Quadrate Anpassung einer Geraden f (x) = a + b · x mit Hilfe von gnuplot: degrees of freedom (FIT_NDF) : 10 rms of residuals (FIT_STDFIT) = sqrt(WSSR/ndf) : 0.364062 variance of residuals (reduced chisquare) = WSSR/ndf : 0.132541 Final set of parameters Asymptotic Standard Error ======================= ========================== a = -1.0279 +/- 0.7836 (76.23%) b = 0.0513806 +/- 0.00725 (14.11%) correlation matrix of the fit parameters: a b a 1.000 b -0.991 1.000 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 8 / 38 Bestimmung von Parameterwerten Bestimmung von Parameterwerten a aus Messungen anhand eines linearen Modells. Der Vektor a der Parameter hat p Elemente a1 , a2 , . . . , ap . Die Messwerte bilden den Vektor y von n Zufallsvariablen mit Elementen y1 , y2 , . . . , yn . Der Erwartungswert von y ist gegeben als Funktion der Variablen x der Form: y (x) = f (x, a) = a1 f1 (x) + a2 f2 (x) + . . . + ap fp (x). Damit ist der Erwartungswert jeder Einzelmessung yi gegeben durch E[yi ] = f (xi , ā) = ȳi wobei die Elemente von ā die wahren Werte des Parameters a sind. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 9 / 38 Bestimmung von Parameterwerten Die Residuen ri = yi − f (xi , a) haben für a = ā die Eigenschaften E[ri ] = 0 E[ri2 ] = V [ri ] = σi2 . Die einzigen Annahmen hier sind Unverzerrtheit und eine endliche Varianz der Wahrscheinlichkeitsdichte der Residuen. Insbesondere ist es nicht zwingend nötig, dass sie gauß-verteilt ist. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 10 / 38 Normalgleichungen im Fall gleicher Fehler Alle Daten sollen die gleiche Varianz haben und unkorreliert sein. Nach dem Prinzip der kleinsten Quadrate muss die Summe der Quadrate der Residuen in Bezug auf die Parameter a1 , a2 , . . . , ap minimiert werden: S= n X ri2 = i=1 n X (yi − a1 f1 (xi ) − a2 f2 (xi ) − . . . − ap fp (xi ))2 i=1 Bedingungen für das Minimum: n X ∂S = 2 f1 (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0 ∂a1 i=1 ... ... n X ∂S = 2 fp (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0 ∂ap i=1 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 11 / 38 Normalgleichungen im Fall gleicher Fehler Die Bedingung kann in Form der sogenannten Normalgleichungen geschrieben werden P P P a1 P f1 (xi )2 + . . . + ap P f1 (xi )fp (xi ) = P yi f1 (xi ) yi f2 (xi ) a1 f2 (xi )f1 (xi ) + . . . + ap f2 (xi )fp (xi ) = ... P P P a1 fp (xi )f1 (xi ) + . . . + ap fp (xi )2 = yi fp (xi ) Die Schätzwerte von a1 , a2 , . . . , ap nach kleinsten Quadraten folgen als die Lösung dieser Normalgleichung. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 12 / 38 Matrixschreibweise Matrixschreibweise und Matrixalgebra vereinfachen die Formulierung wesentlich. Die n × p Werte fj (xi ) werden als Elemente einer n × p Matrix aufgefasst. Die p Parameter aj und die n Messwerte yi bilden Spaltenvektoren. f1 (x1 ) f2 (x1 ) . . . fp (x1 ) y1 a 1 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) y2 a2 a= A= ... ... y = ... ... ... ap f1 (xn ) f2 (xn ) . . . fp (xn ) yn Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 13 / 38 Matrixschreibweise Der n-Vektor der Resudien ist damit r = y − Aa. Die Summe S ist S = rT r = (y − Aa)T (y − Aa) = yT y − 2aT AT y + aT AT Aa Bedingung für das Minimum −2AT y + 2AT Aâ = 0 oder in der Matrixform der Normalgleichungen (AT A)â = AT y Die Lösung kann mit Standardverfahren der Matrixalgebra berechnet werden: â = (AT A)−1 AT y Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 14 / 38 Kovarianzmatrix der Parameter Die Kovarianzmatrix ist die quadratische n × n-Matrix var(y1 ) cov(y1 , y2 ) . . . cov(y1 , yn ) cov(y2 , y1 ) var(y2 ) . . . cov(y2 , yn ) V[y] = ... ... ... cov(yn , y1 ) cov(yn , y2 ) . . . var(yn ) Hier ist die Kovarianzmatrix eine Diagonalmatrix: 2 σ 0 ... 0 0 σ2 . . . 0 V[y] = ... ... ... 0 0 . . . σ2 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 15 / 38 Kovarianzmatrix der Parameter Für eine lineare Beziehung â = By gilt die Standardformel der Fehlerfortpflanzung: V[â] = BV[y]BT mit B = (AT A)−1 AT wird daraus V[â] = (AT A)−1 AT V[y]A(AT A)−1 oder für den vorliegenden Fall gleicher Fehler einfach V[â] = σ 2 (AT A)−1 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 16 / 38 Quadratsumme der Residuen Die Summe Ŝ der Quadrate der Residuen im Minimum ist Ŝ = yT y − 2âT AT y + âT AT A(AT A)−1 AT y = yT y − âT AT y. Der Erwartungswert E[Ŝ] ist E[Ŝ] = σ 2 (n − p) . Ist die Varianz der Messdaten nicht bekannt, so erhält man aus Ŝ den Schätzwert σ̂ 2 = Ŝ/(n − p). Dies ist für große Werte von (n − p) eine gute Schätzung. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 17 / 38 Korrektur der Datenwerte Nach Berechnung der Parameter mit linearen kleinsten Quadraten können Werte der Funktion f (x) für beliebige x bestimmt werden durch ŷ (x) = f (x, â) = p X âj fj (x). j=1 Speziell für die Werte xi , die zu den Messwerten yi gehören, ergeben sich die korrigierten Datenpunkte zu ŷ = Aâ. Fehlerfortplanzung liefert die Kovarianzmatrix V[ŷ] = AV[a]AT = σ 2 A(AT A)−1 AT Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 18 / 38 Der Fall unterschiedlicher Fehler Wenn die einzelnen Datenpunkte statistisch unabhängig sind, dann ist die Kovarianzmatrix 2 σ1 0 . . . 0 0 σ2 . . . 0 2 V[y] = ... ... ... 0 0 . . . σn2 Der Ausdruck für die Summe der Residuenquadrate lautet nun: X r2 i S= = Minimum 2 σ i i Man führt die Gewichtsmatrix W(y) ein als inverse Matrix der Kovarianzmatrix 1/σ12 0 ... 0 0 1/σ22 . . . 0 W(y) = V[y]−1 = ... ... ... 0 0 . . . 1/σn2 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 19 / 38 Der Fall unterschiedlicher Fehler Die Summe der Quadrate der gewichteten Residuen S = rT W(y)r = (y − Aa)T W(y)(y − Aa) muss nun bezüglich der Parameter minimiert werden. Es ergibt sich: â = (AT WA)−1 AT Wy V[â] = (AT WA)−1 Die Summe der Residuenquadrate für a = â hat die Form Ŝ = yT Wy − âT AT Wy und den Erwartungswert E[Ŝ] = n − p . Die Kovarianzmatrix der korrigierten Datenpunkte ist V[ŷ] = A(AT WA)−1 AT Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 20 / 38 Kleinste Quadrate in der Praxis: Geradenanpassung Geradenanpassung mit der Funktion y = f (x, a) = a1 + a2 x. Messwerte yi liegen an den genau bekannten Punkten xi vor. A= 1 1 1 ... 1 x1 x2 x3 V= xn a= a1 a2 y= y1 y2 y3 ... yn Dr. Michael O. Distler <[email protected]> σ12 0 0 . . . 0 0 σ22 0 0 0 0 σ32 0 ... ... 0 0 0 . . . σn2 W = V−1 wii = 1 σi2 Statistics, Data Analysis, and Simulation – SS 2017 21 / 38 Kleinste Quadrate in der Praxis: Geradenanpassung Lösung: AT WA = P w P i wi xi P wx S1 Sx P i 2i = Sx Sxx wi xi P S w y y i i = A Wy = P wi xi yi Sxy S1 Sx a1 Sy = Sx Sxx a2 Sxy T â = (AT WA)−1 AT Wy V[â] = (AT WA)−1 S1 Sx Sx Sxx −1 1 = D Sxx −Sx Dr. Michael O. Distler <[email protected]> −Sx S1 mit D = S1 Sxx − Sx2 Statistics, Data Analysis, and Simulation – SS 2017 22 / 38 Kleinste Quadrate in der Praxis: Geradenanpassung Die Lösung ist â1 = (Sxx Sy − Sx Sxy )/D â2 = (−Sx Sy − S1 Sxy )/D und die Kovarianzmatrix ist 1 V[â] = D Sxx −Sx −Sx S1 . Weiterhin ist die Summe der Residuenquadrate Ŝ = Syy − â1 Sy − â2 Sxy Für einen Wert ŷ = â1 + â2 x, berechnet an der Stelle x, ist die Standardabweichung die Wurzel aus der Varianz: V [ŷ ] = V [â1 ] + x 2 V [â2 ] + 2xV [â1 , â2 ] = (Sxx − 2xSx + x 2 S1 )/D Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 23 / 38 Lineare kleinste Quadrate Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden kann, und zwar durch die Bestimmung der mittleren Anzahl von Beeren, die je Traube gebildet worden sind. yield (yi ) 5,6 3,2 4,5 4,2 5,2 2,7 4,8 4,9 4,7 4,1 4,4 5,4 cluster (xi ) 116,37 82,77 110,68 97,50 115,88 80,19 125,24 116,15 117,36 93,31 107,46 122,30 Dr. Michael O. Distler <[email protected]> 6 5.5 5 yield/(t/ar) y year 1971 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 4.5 4 3.5 3 2.5 80 90 100 clusters x 110 120 Statistics, Data Analysis, and Simulation – SS 2017 24 / 38 Lineare kleinste Quadrate: Weinbau-Beispiel 6 5.5 yield/(t/ar) y 5 4.5 4 3.5 3 2.5 80 90 100 clusters x 110 120 a1 = −1,0279 ± 0,7836 a2 = 0,0513806 ± 0,00725 Fehlerband : err (x) = −1,02790 + 0,0513806x p ± 5,2561 · 10−5 x 2 − 0,011259x + 0,61395 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 25 / 38