PS Angewandte Mathematik Prof. Feichtinger WS 2002/2003 Die Methode der kleinsten Quadrate als Methode zur Approximation von Messdaten durch eine Kurve von Barbara Fischer Karin Kieberger Julia Rieder Monika Ziegelwagner Inhaltsverzeichnis _________ 1. Einleitung 2. Algebraisch 2.1 Approximation von Messdaten durch eine Gerade – Lineare Regression 2.2 Approximation von Messdaten durch Polynome 3. Analytisch 3.1 Lineare Regression 3.2 Linearer Korrelationskoeffizient 4. Verwendung im Schulunterricht 5. Weiterführende Bemerkung 6. Bibliographie 2 1 Einleitung The method of least squares is a mathematical method which is used to find the linear or nonlinear regression equation, expressing the relation between a dependent variable and one or more independent variables, for which the sum of squares of the residuals (deviations from regression) is a minimum (Wiley, 593). Praktisch verwendet wird die Methode der kleinsten Quadrate beim Anpassen von Kurven an Messdaten. Die Kurve wird durch Bestimmung der Koeffizienten so gewählt, dass der Abstand zu den Punkten minimal ist. Durch diese Methode wird versucht die Fehler gleichmäßig auf alle Messpunkte zu verteilen. Gebräuchlich sind folgende drei Kurven: 1. eine Gerade : y=a+bx 2. ein quadratisches Polynom : y=a+bx+cx2 3 3. ein kubisches Polynom y=a+bx+cx2+dx3 In der vorliegenden Arbeit beschreiben wir zwei Zugänge – algebraische und analytisch – zur Methode der kleinsten Quadrate. Dabei behandeln wir die lineare Regression und die Approximation von Messdaten durch quadratische und kubische Polynomen. Weiters stellen wir uns die Frage, wie und in welchem Umfang der beschriebene Stoff in der Schule verwendet werden kann. 4 2 Algebraisch 2.1 Approximation von Messdaten durch ein Gerade – Lineare Regression Im einfachsten Fall kann man die Messwerte (x1, y1), (x2,y2),...(xn,yn) durch eine Gerade der Form y=a+bx approximieren. Im Idealfall liegen die Messdaten alle auf einer Geraden, deren Koeffizienten dann die Gleichungen y1=a+bx1 y2=a+bx2 . . yn=a+bxn erfüllen. In Matrixform ergibt sich das System Mv =y mit y1 y 2 y . . yn 1 x1 1 x 2 M . . . . 1 xn a v b Liegen die Messwerte jedoch nicht alle auf einer Gerade, so ist das System a * inkonsistent und wir müssen eine Näherungslösung v v* bestimmen. Dann b * erhalten wir die Näherungsgerade y=a*+b*x zu den gegebenen Messwerten. Die Näherungslösung v* wird so bestimmt, dass sie ||y - Mv|| minimiert. „Die beste Näherung v* minimiert die Summe der Quadrate dieser Fehler, wir bezeichnen daher das Anpassungsverfahren als Methode der kleinsten Quadrate“ (Anton, 495). Es ergibt sich also: ||y – Mv||² = (y1-a-bx1)² + (y2-a-bx2)² + ... + (yn-a-bxn)² Wir bezeichnen nun: | y1-a-bx1| = d1, …, | yn-a-bxn| = dn Somit ergibt sich : 5 ||y – Mv||² = d1²+d2²+...+dn² di (der vertikale Abstand der Geraden zum Punkt) gibt den Fehler oder die Abweichung des Punktes zur Geraden an. Um dieses System zu lösen benötigen wir folgenden Satz: Das Normalsystem ATAx = ATb eines linearen Gleichungssystems Ax = b ist konsistent. Alle seine Lösungen sind die Näherungslösungen des gegebenen Systems. Außerdem gilt für diese Lösungen projWb = Ax, wobei W der Spaltenraum von A ist.1 In unserem Fall sind nun die Näherungslösungen des Systems Mv = y genau die exakten Lösungen des Normalsystems MTMv = MTy. Dieses System hat eine eindeutige Lösung, falls nicht alle Messpunkte auf der selben zur x-Achse senkrechten Geraden liegen. Wir erhalten folgenden Satz: Seien (x1, y1), (x2,y2),...(xn,yn) Messpunkte, die nicht alle auf derselben zur x-Achse senkrechten Geraden liegen, und seien y1 y 2 y . . yn und 1 x1 1 x 2 M . . . . . 1 xn Dann liefert die Methode der kleinsten Quadrate eine eindeutig bestimmte a * Näherungsgerade y=a*+b*x, deren Koeffizientenvektor v* die Gleichung b * v* = (MTM)-1MTy erfüllt. Somit ist v = v* die einzige Lösung der Normalgleichungen MTMv = MTy.2 Beispiel 2.1.1: Bestimme mit Hilfe der Methode der kleinsten Quadrate die Näherungsgerade der Punkte (0,1), (1,3), (2,4), (3,4). 1 2 Nach Anton, 353. Nach Anton, 496. 6 Mit 1 1 M 1 1 0 1 2 3 v * ( M T M ) 1 M T y 4 6 MTM 6 14 M T M 1 1 7 3 1 1 1 1 10 3 2 0 1 2 3 1 7 3 10 3 2 1 3 1,5 4 1 4 ergibt sich die Näherungsgerade y = 1,5 + x Beispiel 2.1.2: Nach dem Hookeschen Gesetz hängt die Länge x einer homogenen Feder linear von der auf sie angewandten Kraft y ab. Wir können also y = a+bx schreiben, wobei der Koeffizient b die Federkonstante ist. Wir betrachten jetzt eine Feder, die in unbelastetem Zustand die Länge 6,1 cm hat (also ist x = 6,1 für y = 0). Durch Anwenden der Kräfte 2kp, 4kp und 6kp ergeben sich die Längen 7,6 cm, 6,7cm und 10,4 cm. Bestimme die Federkonstante. xi 6,1 7,6 8,7 10,4 yi 0 2 4 6 1 6,1 1 7,6 4 32,8 MTM Mit M 32,8 278,82 1 8,7 1 10 , 4 M T 1 7,07 0,83 M 0,83 0,10 0 32,8 2 8,6 7,07 0,83 4 v * ( M T M ) 1 M T y 0,83 0,10 32,8 278,82 4 1,4 6 7 Die Federkonstante beträgt somit ca. 1,4 kp/cm. Beispiel 2.1.3: Bestimme eine Näherungsgerade für die Punkte (0,0), (1,2) und (2,7) 1 0 M 1 1 1 2 1 1 1 ( M T M ) 1 3 2 1 1 3 3 MTM 3 5 0 1 13 1 1 1 1 12 v (M M ) M y 2 2 1 1 0 1 2 72 7 * T 1 T Es ergibt sich die Näherungsgerade y= -½ + 7/2 x Beispiel 2.1.4: Bestimme eine Näherungsgerade für die Punkte (0,1), (2,0), (3,1) und (3,2) Mit 1 1 M 1 1 0 2 3 3 4 8 M M 8 22 T v * ( M T M ) 1 M T y 1 3 11 12 1 6 1 3 M 1 1 1 1 0 2 3 3 T M 1 11 12 1 3 13 1 6 1 0 2 3 1 16 2 ergibt sich die Näherungsgerade y=2/3 + 1/6x Beispiel 2.1.5: Bestimme die Ausgleichsgerade für folgende Daten: f(1) = 2, f(2) = 4, f(3) = 7, f(4) = 7 8 1 1 M 1 1 1 2 3 4 4 10 MTM 10 30 3 v * ( M T M ) 1 M T y 2 1 2 M T M 12 1 1 1 1 1 3 4 5 1 2 1 23 1 2 12 1 5 2 4 1 2 7 95 7 Es ergibt sich die Näherungsgerade y = ½ + 9/5 x 9 2.2 Approximation von Messdaten durch Polynome Es ist nicht immer sinnvoll Messdaten durch eine lineare Funktion zu approximieren3, sondern zum Beispiel durch quadratische oder kubische Polynome. Die vorher beschriebene Methode lässt sich problemlos auf Polynome höheren Grades verallgemeinern. Für n Punkte (x1, y1), (x2,y2),...(xn,yn) erhalten wir ein Näherungspolynom m-ten Grades y = a0 + a1x + ... + amxm. Man erhält wieder durch Einsetzen der Messwerte ein lineares Gleichungssystem: y1 = a0 + a1x1 + ... + amx1m y2 = a0 + a1x2 + ... + amx2m . . yn = a0 + a1xn + ... + amxnm oder in Matrixform: Mv = y mit y1 y 2 y . . yn 1 x1 1 x2 M . . . . 1 x n 2 x1 2 x2 . . xn 2 m . . x1 m . . x2 . . . . . . m . . xn a0 a 1 v . . a m Die Koeffizienten der Polynome, die ||y-mv|| minimieren, ergeben sich wie zuvor als Lösungen der Normalgleichungen MTMv = MTy. Falls MTM invertierbar ist, hat das Normalsystem die eindeutig bestimmte Lösung v* = (MTM)-1MTy. Beispiel 2.2.1: Das zweite Newtonsche Gesetz beschreibt den freien Fall eines Körpers in der Nähe der Erdoberfläche durch die Gleichung s = s0+v0t+ 1 2 gt , wobei s den vertikalen 2 Abstand des Körpers zu einem festen Bezugspunkt, s0 den Anfangswert von s zur Zeit t = 0, v0 die Anfangsgeschwindigkeit zur Zeit t = 0 und g die Erdbeschleunigung bezeichnet. Aus dieser Gleichung soll g experimentell bestimmt werden. Dazu wird ein Körper mit unbekannter Anfangshöhe und –geschwindigkeit fallengelassen und sein vertikaler 3 sh Kapitel 3.2 10 Abstand zu einem gegebenen Bezugspunkt zu verschiedenen Zeiten gemessen. Es ergeben sich für die Zeiten t in Sekunden die Abstände s in Meter: t 0,1 0,2 0,3 0,4 0,5 s -0,055 0,095 0,314 0,756 1,137 Berechne daraus einen Näherungswert für g. 1 1 M 1 1 1 M T 0,1 0,2 0,3 0,4 0,5 M 1 0,01 0,04 0,09 0,16 0,25 0,055 0,095 y 0,314 0,756 1,137 33 23 5 33 1870 7 3000 50 7 3 2 11 20 9 40 9 40 979 10000 11 20 50 3000 7 5000 7 33 v * ( M T M ) 1 M T y 33 1870 7 50 3000 7 23 5 5 T M M 23 11 20 50 3000 7 5000 7 1 1 1 1 1 0,1 0,2 0,3 0,4 0,5 0,01 0,04 0,09 0,16 0,25 0,055 0,095 - 0,122 0,314 0,107 0,491 0 , 756 1,137 g ist zweimal 0,491, man erhält den Näherungswert g = 0,982 m/s2 11 Beispiel 2.2.2: Bestimme ein quadratisches Näherungspolynom für (2,0), (3,-10), (5,-48) und (6,-76) 1 1 M 1 1 M T 4 3 9 5 25 6 36 0 10 y 48 76 2 M 1 221 10 562 3 2 8 9 1 9 62 5 3 2 649 90 8 9 221 10 * T 1 T v ( M M ) M y 562 3 2 73 4 16 M M 16 74 374 73 374 2011 T 62 5 649 90 8 9 0 1 1 1 1 - 10 2 8 3 5 6 5 9 2 - 48 1 4 9 25 36 - 76 - 3 9 3 2 Man erhält das Näherungspolynom y = 2 + 5x – 3x² Beispiel 2.2.3: Bestimme ein quadratisches Näherungspolynom für (-1,-14), (0,-5), (1,-4), (2,1) und (3,22) 1 1 1 0 M 1 1 1 2 1 3 M T M 1 1 0 1 4 9 13 5 1 3 10 7 1 2 14 5 y 4 1 22 5 5 15 M M 5 15 35 15 35 99 T 12 27 1 10 1 12 3 10 12 13 5 1 v * ( M T M ) 1 M T y 103 7 1 2 14 3 12 1 1 1 1 1 5 - 495 10 27 1 1 0 1 2 3 4 95 10 1 12 1 0 1 4 9 1 2 22 Es ergibt sich das quadratische Näherungspolynom y = - 49/5 + 9/5 x + 2 x2 Beispiel 2.2.4: Der Besitzer eines expandierenden Geschäfts hat in den ersten fünf Monaten des Jahres 4000, 4400, 5200, 6400 und 8000 Euro eingenommen. Er markiert diese Werte in einem geeigneten Koordinatensystem und vermutet, dass sich die weitere Entwicklung durch ein quadratisches Polynom abschätzen lässt. Bestimme dieses Näherungspolynom und erstelle eine Prognose für den 12. Monat des Jahres. f(1) = 4000, f(2) = 4400, f(3) = 5200, f(4) = 6400, f(5) = 8000 f(12) = ? 1 1 M 1 1 1 M T 1 1 2 4 3 9 4 16 5 25 M 1 23 33 10 5 33 187 10 70 1 3 2 7 4000 4400 y 5200 6400 8000 5 15 55 M M 15 55 225 55 225 979 T 3 7 1 14 1 2 23 33 10 5 * T 1 T 33 187 v ( M M ) M y 10 70 1 3 2 7 4000 1 1 1 1 1 4400 4000 73 1 2 3 4 5 5200 - 200 6400 200 1 1 4 9 16 25 14 8000 1 2 13 Es ergibt sich das quadratische Näherungspolynom y = 4000 – 200x + 200x² für x = 12 ist y = 30400 Im 12. Monat nimmt er voraussichtlich 30400 € ein. 14 3 Analytisch 3.1 Lineare Regression Die Ausgleichsgerade für Messwerte kann man nicht nur mit Hilfe von Matrizen und Methoden der Algebra, sondern auch durch Methoden der Analysis bestimmen. Auch der analytischen Bestimmung der Regressionsgerade „liegt die Minimierung der Fehlerquadratsumme („Methode der kleinsten Quadrate“) n 2 F (a, b) : yi a bxi , die man auch Gaußsches Fehlerquadrat nennt, zugrunde“ i 1 (Dirschmid, 235). Dieses von zwei Variablen abhängige Extremwertproblem kann durch einen Trick geschickt gelöst werden. n 2 F (a, b) : yi a bxi Minimum i 1 2 n F (a, b) yi a bxi ( y a bx ) ( y a bx ) i 1 2 n b( xi x ) ( yi y ) ( y a bx ) i 1 n n n b( xi x ) ( yi y ) 2( y a bx ) b ( xi x ) ( yi y ) ( y a bx ) 2 i 1 i 1 i 1 i 1 0 0 n n 2 b( xi x ) ( yi y ) ( y a bx ) 2 2 i 1 ( y a bx ) 2 ist minimal (nämlich 0), wenn a y bx ist. Jetzt muss man nur noch n jenes b bestimmen, für das F (a, b) b( xi x ) ( yi y ) minimal wird. Diese 2 i 1 Extremwertaufgabe lösen wir, indem wir nach b differenzieren und die Ableitungsfunktion 0 setzen: n n n i 1 i 1 i 1 2 [b( xi x ) ( yi y )] ( xi x ) 2b ( xi x ) 2 2 ( xi x )( yi y ) 0 Dividiert man durch 2 und n, so erhält man die Formel der Regressionsgeraden: 15 1 n ( xi x )( yi y ) n i 1 b 1 n ( xi x ) 2 n i 1 a y bx Als Kurzschreibweise für die obige Formel erhält man: b xy x2 , wobei man xy als Kovarianz bezeichnet. Beispiel 3.1.1: Die folgende Tabelle stellt die Körpergröße (in cm) und die Körpermasse (in kg) von 10 Personen gegenüber: Körpergröße (x) 170 176 165 171 177 167 179 185 175 180 Körpermasse (y) 68 70 67 78 83 60 77 89 77 76 Beschreibe den Zusammenhang durch eine Regressionsgerade. 1 n n x 2 xi2 x 2 30 485,1 174,52 34,85 1 n i 1 n xy xi yi x y 13038,7 174,5 74,5 38,45 b xy x 2 i 1 38,45 1,10 34,85 a y bx 74,5 1,10 174,5 118,0 Regressionsgerade: y = 1,10 x – 118 Beispiel 3.1.2: Bestimme die Regressionsgerade zu den Messpunkten: x 0 1 2 3 y 1,1 3,3 4,8 6,7 x 1 4 3 xi 4 i 1 2 1 4 y 1 4 yi 3,975 4 i 1 4 x 2 ( xi x ) 2 1,25 i 1 16 1 4 4 xy ( xi x )( yi y ) 2,287 b xy x2 i 1 1,83 a y bx 1,23 Regressionsgerade: y = 1,23 + 1,83x Beispiel 3.1.3: 10 Schüler erreichen bei einem Schreibtest bzw. Lesetest folgende Punktezahlen xi bzw. yi. xi 2 4 7 9 10 12 13 15 16 19 yi 3 4 9 12 12 14 16 17 18 20 Zeichne die zugehörige Punktwolke. Berechne die Regressionsgerade und zeichne deren Graphen in der Abbildung ein. 1 n n x 2 xi2 x 2 26,01 1 n i 1 n xy xi yi x y 27,45 b xy x 2 i 1 27,45 1,0554 26,01 a y bx 12,5 1,0554 10,7 1,2076 Die Regressionsgerade lautet: y = 1,06 x + 1,21 Beispiel 3.1.4: Die Physik lehrt, dass die Längenänderung (zum Beispiel eines Metallstabes) innerhalb eines bestimmten Temperaturbereiches direkt proportional zur Temperaturänderung ist. Folgende Werte wurden gemessen: Temperatur x (in °C) Länge y (in mm) 0 199,93 20 200,05 40 200,10 50 200,15 70 200,20 80 200,28 17 Beschreibe die Abhängigkeit der Länge von der Temperatur durch eine möglichst gut passende lineare Funktion. 1 n n x 2 xi2 x 2 15540 2590 6 1 n i 1 n xy xi y i x y 3,022 b xy x 2 i 1 3,022 0,0012 2590 a y bx 200,12 0,0012 43,33 200,0678 Die Regressionsgerade lautet: y = 0,0012 x + 200, 0678 18 3.2 Linearer Korrelationskoeffizient „Ob es sinnvoll ist, den Zusammenhang zwischen x und y durch eine RegressionsGerade zu modellieren – möglich ist es ja immer! – hängt von der Gestalt der Punktwolke ab“ (Hanisch, 24). Rein optisch kann man dies nicht immer leicht feststellen, daher wurde ein Maß rxy definiert, das misst, wie stark die Messwerte (Punktwolke) um die Ausgleichsgerade verstreut sind. rxy ist immer ein Zahl aus [-1;1]. [...] Ist der Korrelationskoeffizient von +1 bzw. –1 deutlich verschieden, so ist es nicht sinnvoll, den Zusammenhang durch eine lineare Funktion zu modellieren, sondern an deren Stelle z.B. eine Polynomfunktion 2. Grades (Regressionsparabel) oder auch eine andere Funktionenklasse zu verwenden (Reichel, 213). Der Zusammenhang zwischen x und y kann auf 2 Arten beschrieben werden: nämlich als Abhängigkeit y=f(x) und x=g(y). Man erhält also 2 Regressionsgeraden, die sich im Fall eines nicht exakt linearen Zusammenhangs nicht überdecken. „Je besser die Steigung [by] mit [1/bx] übereinstimmt, d.h., je besser [bx.by=1] gilt, umso eher besteht ein linearer Zusammenhang“ (Reichel, 213). Somit erhält man: b x b y xy yx x2 y2 xy 2 x 2 y2 da xy yx , wie man anhand der Formel für die Regressionsgerade leicht erkennen kann. Als Formel für den linearen Korrelationskoeffizienten (nach Wurzelziehen aus Dimensionsgründen) erhält man also: rxy 1 n ( xi x )( yi y ) n i 1 1 n 1 n ( xi x ) 2 ( yi y ) 2 n i 1 n i 1 xy x y Beispiel 3.2.1: Fortsetzung vom Beispiel 3.1.1: Berechne den Korrelationskoeffizienten zwischen der Körpergröße und dem Körpergewicht. Lösung: rxy xy 38,45 0,815 x y 34,85 63,85 19 Man sieht, dass die Körpergröße und das Körpergewicht ziemlich gut positiv linear korreliert, da eine Zunahme (bzw. Abnahme) der einen Größe auch eine Zunahme (bzw. Abnahme) der anderen Größe bedeutet. Beispiel 3.2.2: Ist es in Beispiel 3.1.3 gerechtfertigt eine Gerade zur Approximation der Messdaten zu verwenden? Begründe. Diese Approximation ist nur eine näherungsweise Berechnung, aber nicht sehr zuverlässig, da die Prüfungsergebnisse der Schüler von verschiedenen Faktoren abhängig und somit sehr variabel sind. Beispiel 3.2.3: Ist es in Beispiel 3.1.4 vertretbar die Messwerte durch eine lineare Funktion zu approximieren? Begründe. Ja, weil es durch physikalische Experimente belegt ist, dass die Zunahme annähernd direkt proportional ist. 20 4 Verwendung im Schulunterricht Die Methode der kleinsten Quadrate zur Anpassung von Kurven an Messdaten ist ein Teilbereich der Angewandten Mathematik und alleine deshalb sollten Schüler davon hören. Normalerweise wird dem praxisbezogenen Aspekt der Mathematik im Schulunterricht meist zu wenig Beachtung zugemessen. Doch gerade Anwendungen sind notwendig um dem Mathematikunterricht auch in den Augen der Schüler Sinn zu geben und ihr Interesse zu wecken. Der analytische Zugang zur linearen Regression kann sicherlich in der 8. Klasse AHS und 4. und 5. Klasse BHS unterrichtet werden, denn zu diesem Zeitpunkt haben die Schüler die erforderlichen Vorkenntnisse aus den Bereichen der Statistik und Differentialrechnung. Wir würden allerdings die Herleitung der Formel zur Bestimmung der Steigung der Regressionsgeraden nur in naturwissenschaftlichen Zweigen oder im Wahlpflichtfach genauer besprechen. Besonders interessant sind hier auch die fächerübergreifenden Aspekte (z.B. Physik) und der direkte Bezug zur Realität durch Verwendung von aktuellen Statistiken beispielsweise aus der Wirtschaft. Die angeführten Beispiele lassen sich hinsichtlich dessen noch vertiefen, ausbauen und lassen Interpretation und Diskussion zu. Schwieriger wird es beim Lehren der algebraischen Methode, da die Schüler meist nicht die nötigen Vorkenntnisse besitzen. Matrizenrechnung wird leider nur sehr selten unterrichtet und wenn doch nur in sehr geringem Ausmaß. Deshalb müsste man für die angegebene Formel sehr weit ausholen und viel Zeit (die meist nicht vorhanden ist) aufbringen. Mit elektronischen Hilfsmitteln (CAP, TI,...) könnte allerdings dieser Zugang verwendet werden, da man die Transponierte und Inverse einer Matrix so ohne viel Hintergrundwissen und Zeitaufwand berechnen kann. In den meisten Schulbüchern kommt die Methode zur Berechnung einer Regressionsgerade nicht vor. In den Büchern von Hr. Prof. Reichel gibt es ein derartiges Kapitel, indem jedoch nur der analytische Zugang beschrieben wird. 21 5 Weiterführende Bemerkung Selbstverständlich ist die Methode der kleinsten Quadrate nicht die einzige um Messdaten durch Polynome zu approximieren. Andere Methoden wären zum Beispiel: Method of Averages, Minimax Method, Method of Least Absolute Values, Method of Maximum Likelihood, Method of Group Averages, Cauchy’s Method of Interpolation und zahlreiche andere Methoden. 22 6 Bibliographie Anton, Howard. Lineare Algebra. Einführung-Grundlagen-Übungen. Heidelberg,1998. 493-500. Dirschmid, Hans Jörg. Skriptum aus Mathematik 2 f. ET. Wien, 2001. 235-238. Hanisch, Günter und andere. Ist Gleich. HAK 4. Lehrbuch für Mathematik und angewandte Mathematik. Wien, 2001. 20-31. Linnik, J.W. Methode der kleinsten Quadrate in modernerer Darstellung. Berlin, 1961. Rasch, Dieter. Mathematische Statistik. Heidelberg, 1995. 378-381. Reichel, Hans-Christian und andere. Lehrbuch der Mathematik 8. Wien, 1993. 211216. Wiley, John. (ed.). Encyclopedia of Statistical Sciences. Volume 4. USA, 1983. 593598. 23