Ausgleichsrechnung - Lineare Regression Die bisher betrachtete Fehlerrechnung ist gut verwendbar, wenn sich die betrachteten Größen direkt messen lassen. Oft sind physikalische Größen für eine direkte Messung aber nur schwer zugänglich; sie lassen sich aber unter Verwendung leicht zu bestimmender Größen ermitteln. Stellen wir uns als Beispiel vor, die Geschwindigkeit eines Autos auf einem Kinderkarussell ist zu ermitteln. Das Auto selbst verfügt über kein Tachometer - es bleibt Ihnen eigentlich nur die Möglichkeit, die Zeit eines Umlaufs zu stoppen und aus der Geometrie des Karussells den zurückgelegten Weg zu bestimmen. Daraus lässt sich die Geschwindigkeit leicht berechnen. Wie aber könnte eine Fehlerrechnung aussehen? Wie lässt sich eine Mehrfachmessung anstellen? Sinnvoll wäre sicher, die Zeit bei jedem Umlauf zu messen. Da sich das Karussell mit weitgehend gleicher Geschwindigkeit (außer vielleicht in der 1. Runde) bewegt, lässt sich ein linearer Zusammenhang zwischen zurückgelegtem Weg und der benötigten Zeit für die zurückgelegten Runden vermuten. Mathematisch lässt sich ein solch linearer Zusammenhang ausdrücken: bzw. y A Bx 0 y A Bx Der physikalische Sinn lässt sich in den Konstanten A und B finden, die es über (mindestens 2) Messungen von x und y zu bestimmen gilt. Wir wissen inzwischen, dass die Größen x und y fehlerbehaftet sein werden und damit zu einer Verfälschung der errechneten A und B führen. Wir suchen eine Möglichkeit, durch eine Vielfachmessung den Einfluss der zufälligen Fehler auf die errechneten A und B zu vermindern und abzuschätzen. Dabei beschränken wir uns auf den speziellen Fall, dass die Größe x fehlerfrei (fehlerarm) gemessen werden kann. Für verschiedene x - Werte ergeben sich dann entsprechende y -Werte, die mit einem Zusammenhang y A Bx beschrieben werden können. Eine erste wichtige Frage ist also: Welche Größe lässt sich genauer ermitteln? Im Falle des Kinderkarussells bleibt unser Messpunkt unverändert - also sehr genau. Ein Fehler wird sicher bei der Zeitmessung auftreten. In unseren linearen Zusammenhang würden wir damit den Weg als x und die Zeit als y ausweisen. Im Experiment werden also zurückgelegter Weg und Zeit für 10 Runden gemessen: Weg s (m) 12 24 36 42 60 Zeit t (s) 12,2 17 22,1 33,2 34,4 Weg s (m) 72 84 96 108 120 Zeit t (s) 59,1 60,2 65,7 69,9 70,1 Die Zeit wird als Funktion des vorgegebenen Wegs gemessen und sei dabei mit einem zufälligen Fehler unbekannter Größe behaftet. Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 1 Der unterstellte linearen Zusammenhang t A Bs 0 wird nicht exakt erfüllen, d.h. für die einzelnen Zahlenpaare (sk , t k ) wird stets tk A Bsk 0 gelten. Stellt man sich diesen Sachverhalt graphisch dar, liegen die gemessenen Punkte (sk , t k ) stets um eine Differenz t k neben der Gerade t A Bs . Eine fehlerfreie Berechnung der unbekannten Parameter A und B aus den Wertepaaren (sk , t k ) wird daher nicht gelingen. Möglich ist es, aus den Wertepaaren eine Schätzung für A und B zu gewinnen, die bei einer wachsenden Anzahl von eingehenden Wertepaaren (sk , t k ) den wahren Zahlenwerten von A und B beliebig nahe kommt. Berechnet werden also B als Näherung für den wahren Parameter B und A als Näherung für den wahren Parameter A . A und B nennt man Regressionskoeffizienten. Welche physikalische Bedeutung haben die Koeffizienten A und B eigentlich im Beispiel? A ist der Achsenabschnitt der Zeitachse. Er gibt uns die Zeitverzögerung beim Anfahren an. B ist der Anstieg der Regressionsgeraden tan t / s ; das Reziproke der Geschwindigkeit. Die mathematische Bedingung, die der Regressionsgeraden zu Grunde liegt, lautet 10 10 k 1 k 1 (tk )2 tk ( B sk A ) min 2 A und B müssen so gewählt werden, dass die Summe aller Abweichungen (positiv und negativ daher Quadrat) minimal wird. Die einzelnen Terme tk ( B sk A ) entsprechen dabei der Differenz t k zwischen dem Messwert t k und dem exakten Wert der Regressionsgeraden bei s k . Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 2 Wir berechnen die Regressionskoeffizienten A und B : Im Minimum der Summe der quadrierten t k verschwinden die ersten partiellen Ableitungen nach A und B . N 2 N tk B sk A 2 tk B sk A A k 1 k 1 N N 2 tk N A B sk 0 k 1 k 1 und N 2 N t k B sk A 2 t k B sk A s k B k 1 k 1 N N N 2 2 sk t k A sk B sk 0 k 1 k 1 k 1 Wie führen Mittelwerte ein: s 1 N sk N k 1 , t 1 N tk N k 1 , s2 1 N 2 sk N k 1 , s t 1 N sk tk N k 1 und erhalten damit: N t N A N B s 0 t A B s 0 s t A s B s2 0 sowie N s t N A s N B s2 0 Auflösen der Gleichungen nach B und A liefert die Berechnungsvorschriften 1 N 1 N 1 N sk tk sk tk s t s t N k 1 N k 1 N k 1 B 2 2 s 2 s 1 N 2 1 N sk sk N k 1 N k 1 und 1 N 1 N 2 1 N 1 N t s s t sk k k k k t s 2 s t x N k 1 N k 1 N k 1 N k 1 A 2 2 2 s s 1 N 2 1 N sk sk N k 1 N k 1 1 N 1 N A t B s tk B sk N k 1 N k 1 In unserem Beispiel bedeutet das: s 65,4 m , t 44 ,39 s B s t s t s s 2 2 , s 2 4277,16 m 2 , s t 3638,88 m s 3638,88ms 65,4m 44,39s 735,774ms 0,6066 s / m 5490m2 4277,16m2 1212,84m2 A t B s 44,39s 1,81996 s / m 44,39m 4,7418 s Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 3 Physikalische Bedeutung hat hier besonders (wie oben bereits erwähnt) der Kehrwert von B , 1 den Schätzwert für die wahre Geschwindigkeit v liefert. B damit wird v (0,6066 s / m)1 1,648 m / s 5,934 km / h . der mit der Beziehung v Da wir hier Fehlerrechnung betreiben, fragen wir natürlich nach dem Fehler von v ! Diesen Fehler von v gewinnen wir aus dem Fehler des Regressionskoeffizienten B . Also auf! Berechnen wir den Fehler von B . 1. Wir berechnen die Summe der Fehlerquadrate der Messwerte t k : N N k 1 k 1 (tk )2 tk ( B sk A ) 276,888 s 2 2 2. Daraus gewinnen wir die mittlere Streuung st der Messwerte t k um die Regressionsgerade: N 2 1 tk A B sk 5,883 s N 2 k 1 Man beachte hier das ( N 2) im Nenner ! sy ( N 2) ergibt sich aus der Tatsache, dass ein Fehler im Anstieg B bzw. im Achsenabschnitt A sinnvoll erst ab 3 Messwertepaaren bestimmt werden kann. welchen Anstiegsfehler könnte man z.B. bestimmen, wenn die Gerade durch genau 2 Punkte verläuft? 3. Da A und B nur mittelbar (aus den Messwerten t1 ...t10 ) errechnet werden, werden ihre Fehler mittels Fehlerfortpflanzung ermittelt. Es ergibt sich: sB s y 1 N s s 2 2 sy N N 2 N sk sk k 1 k 1 N N sA sy s 2 N s s 2 s A sB s 2 sB 2 sy s k 1 2 k N 2 N sk sk k 1 k 1 N 2 2 oder 1 N 2 sk N k 1 Im Beispiel: sB s y 1 N s s 2 s A sB s 2 sB 2 0,0534 s / m 1 N 2 sk 3,958 s N k 1 Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 4 Es bleibt spannend! Uns interessierte eigentlich der absoluten Fehler des Schätzwertes v ! Da die Geschwindigkeit hier das Reziproke des Anstiegs, müssen wir wieder einmal die Fehlerfortpflanzung bemühen. Wie wirkt sich ein Fehler auf den Kehrwert einer Größe aus? 1 v B v B B -1 B Δv ΔB sB sB sB B B B B 1 B - 2 sB 1 1 sB 2 sB 0,145 m / s 2 B B Es ergibt sich somit eine Geschwindigkeit des Karussells von v (1,648 0,145) m / s Ist diese Angabe sinnvoll? NEIN !! Wenn sich der Fehler bereits in der ersten Stelle nach dem Komma bemerkbar macht - was soll dann eine Angabe weiterer Stellen für einen Sinn haben? sinnvolle Ergebnisangabe: (Fehler werden immer aufgerundet!) v (1,6 0,2) m / s Aussagekräftiger als der Wert des absoluten Fehlers Δv 0,2 m / s ist häufig die Angabe des relativen Fehlers Δv . v 1 sB durch erneutes Einsetzen des B2 1 1 1 s sB sB v sB v B B B B B ΔB B Dieser errechnet sich z.B., indem man die Beziehung Δv 1 1 umformt: Δv 2 B B Δv s B Division durch v ergibt dann v B die relativen Fehler von v und B sind gleich. Zusammenhanges v Im Beispiel ergibt sich hier Δv sB 0,05342 0,088 8,8 % v B 0,60665 Der Korrelationskoeffizient r Gelegentlich (besonders bei schwierigen Messungen) stellt sich die Frage, ob ein vermuteter linearer Zusammenhang zwischen zwei Größen tatsächlich existiert; ob die beiden Größen also miteinander korreliert sind. Nicht immer sieht man es dem Diagramm der Messwerte an, wie „gut“ die eingetragenen Messwerte auf einer Geraden liegen - oder auch nicht. Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 5 Quantifizieren lässt sich „gut“ hier mit dem Korrelationskoeffizienten r . Er ist gegeben durch: r st s t s 2 s t 2 t 2 2 1 N 1 N 1 N sk tk sk tk N k 1 N k 1 N k 1 2 1 N 2 1 N 1 N 2 1 N sk sk tk tk N k 1 N k 1 N k 1 N k 1 2 Der Korrelationskoeffizient r kann dabei Werte zwischen r 1 und r 1 annehmen; eine physikalische Größe lässt sich aus ihm nicht direkt gewinnen. Je näher der Betrag von r dabei der 1 kommt, desto stärker enthalten die Wertepaare eine lineare Beziehung. Für einen Betrag von exakt 1 liegen alle Wertepaare exakt auf einer Geraden, die für r 1 fallend und für r 1 steigend verläuft. Für r 0 ist keine Abhängigkeit anzunehmen. Im Beispiel ergibt sich: r 0,97035 Der Korrelationskoeffizient r 0,97035 zeigt mit dem positiven Vorzeichen eine direkte Proportionalität zwischen s und t . Die geringfügige Abweichung zu +1 zeigt die geringfügige Abweichung der realen Messwertpaare vom erwarteten linearen Zusammenhang. Dr. Hempel – Mathematische Grundlagen, Ausgleichsrechnung, lineare Regression Seite 6