Vorlesung Wirtschaftsstatistik 2 (FK 040637) Multiple lineare Regression Dipl.-Ing. Robin Ristl Wintersemester 2012/13 1 Grundidee: Eine abhängige Variable soll als Linearkombination mehrerer unabhängiger Variablen und eines Fehlerterms erklärt werden. Modellgleichung wird also durch eine Konstante und unabhängige Variablen erklärt. Wie bei der einfachen linearen Regression setzen wir voraus: Die Fehler der einzelnen sind unabhängig. Die Fehler sind identisch normalverteilt mit Erwartungswert 0 und der Modellvarianz also und 2 , Matrixschreibweise für die Modellgleichung: ist also der Vektor der beobachteten abhängigen Werte. Die Matrix nennen wir Modell- oder Designmatrix. Sie enthält in Modellen mit einer Konstanten nur 1er. Die weiteren Spalten enthalten die Vektoren der unabhängigen Variablen bis . ist ein Vektor der als Einträge die Regressionskoeffizienten enthält und ist der Vektor der zufälligen Fehler. 3 Kleinste Quadrate Methode, um Regressionskoeffizienten zu schätzen Vorhersage Werte erhalten wir gemäß dem Modell aus den unabhängigen Größen Schätzung für die Regressionskoeffizienten als und einer Der Vektor der Residuen ist wie im einfachen Modell Wir wählen die Koeffizienten wieder so, dass die Summe der quadratischen Abstände zwischen beobachteten und vorhergesagten Werten minimal wird: Die Matrixschreibweise ist oft übersichtlicher: Die Lösung dieses Minimierungsproblems ist 4 Herleitung des kleinste Quadrate Schätzers wie im einfachen Modell durch Ableiten. Wir bilden den Gradienten , also den Vektor der partiellen Ableitungen von S nach den Einträgen von . An der Stelle eines Minimums (oder Maximums) muss der Gradient dem Nullvektor entsprechen: , wir benutzen folgende Regeln für eine symmetrische Matrix A und einen Vektor b: und , daher und daher (Die Matrix der zweiten Ableitungen ist positiv definit, damit liegt ein Minimum vor.) 5 Beispiel: Für acht Gewichtheber kennen wir ihre Höchstleistung in kg, ihre Trainingszeit pro Woche und ihre tägliche Proteinaufnahme in g/kg Körpergwicht. Wir wollen nun herausfinden, ob das gestemmte Gewicht von Trainingsintensität und Proteinzufuhr abhängt. Dazu berechnen wir ein linears Regressionsmodell der Form i 1 2 3 4 5 6 7 8 Gewicht Training Proteinzufuhr [kg] [h/Woche] [g/kg/d] 93 2 1.1 106 2 1.9 146 4 2 140 5 1.5 151 6 1.3 158 7 2.1 130 4 1.8 159 5 2.5 6 Das Modell lautet also: Wir berechnen 7 = Unser Modell lautet also Das würde bedeuten: Mit jeder zusätzlichen Trainingsstunde steigt das gestemmte Gewicht im Mittel um 11.2 kg und eine Erhöhung der Proteinzufuhr um 1 g erhöht das Gewicht im Mittel um 17.5 kg. Da der Bereich der Proteinwerte etwa zwischen 1 und 2 liegt wäre es hier sinnvoller zu sagen, eine Erhöhung der Proteinzuguhr um 0.1 g erhöht das gestemmte Gewicht um 1.75 kg. Aber wie gut erklärt unser Modell die Gewichtswerte überhaupt? 8 Quadratsummenzerlegung und (multiples) Bestimmheitsmaß Wie im einfachen Modell: Totale Quadratsumme: Erklärte Quadratsumme: Fehlerquadratsumme: Eine allgemeine Methode, um die Erklärungskraft des Modells zu prüfen, ist das darauf basierende Bestimmtheitsmaß . ist das Verhältnis aus erklärter Varianz und Gesamtvarianz: liegt zwischen 0 (keine Erklärungskraft) und 1 (perfekter Zusammenhang). 9 Im Beispiel sind die Vorhersagewerte (hier gerundet): Daraus ergibt sich Beachte: 10 Globaler F-Test Das Bestimmtheitsmaß spricht für hohe Erklärungskraft unseres Modells, wir wollen aber auch statistisch testen, ob das Modell signifikante Erklärungskraft besitzt. Dazu vergleichen wir die erklärte Varianz mit der Fehlervarianz. Wenn die erklärte Varianz signifikant größer als die Fehlervarianz ist, hat unser Modell signifikante Erklärungskraft. Das ist gleichbedeutend mit der Nullhypothese Oft wird der Test in Form einer Varianzanalysetabelle geschrieben: Erklärt Fehler Total Quadratsumme Freiheitsgrade SQE k-1 SQR n-k-1 SQT n-1 Mittlere QS MQE=SQE/(k-1) MQR=SQR/(n-k-1) F-Statistik f=MQE/MQR p-Wert P(F≥f) Erklärt Fehler Total Quadratsumme Freiheitsgrade 2 4135.88 5 3764.86 7 371.01 Mittlere QS 1882.43 74.20 F-Statistik 25.37 p-Wert 0.00241 11 Verteilung der F-Statistik und p-Wert Die F-Statistik folgt einer F-Verteilung mit Freiheitsgraden df1=k-1 und df2=n-k-1. Wir können über die Nullhypothese entscheiden, indem wir unsere F-Statistik mit dem kritischen Quantil aus dieser F-Verteilung vergleichen. Für ein Signifikanzniveau α=0.05 ist das , daher wird die Nullhypothese verworfen. Zumindest ein Koeffizient ( , ) ist daher ungleich 0. Oder mittels p-Wert: Der p-Wert ist die Wahrscheinlichkeit, dass eine F2,5 verteilte Zufallszahl größergleich f ist. Hier ist p=0.00241 < α=0.05, daher wird die H0 verworfen. 12 T-Tests für einzelne Koeffizienten folgt einer multivariaten Normalverteilung mit Erwartungswert und Varianz-Kovarianzmatrix Schätzer für VC durch einsetzen der Residuenvarianz: entspricht MQR aus der Varianzanalyse Tabelle, also Die Varianzen sind die Einträge in der Diagonale, die anderen Einträge sind die Kovarianzen. Also 13 Die Standardfehler sind die Wurzeln der Varianzen, also Wir testen H0: mit der bekannten Teststatistik Die Teststatistik folgt unter der H0 einer t-Verteilung mit n-k-1 Freiheitsgraden. Entscheiden über H0 wie im einfachen Modell mittels kritscher Grenzen oder p-Wert 14 Für H0: t liegt außerhalb der kritischen Grenzen, daher wird die H0 verworfen. Die Trainingszeit hat also signifikanten Einfluss auf das gestemmte Gewicht. Für H0: t liegt innerhalb der kritischen Grenzen, daher kann die H0 nicht verworfen werden. Wir können nicht schließen, dass die Proteinmenge signifikanten Einfluss auf das gestemmte Gewicht hat. 15 Im Output aus dem Statistikprogramm R zu unserem Beispiel sind alle bisherigen Berechnungen enthalten: Call: lm(formula = gewicht ~ training + protein) Residuals: 1 2 -4.148 -5.144 3 10.860 4 2.484 5 6 5.860 -12.259 7 -1.641 8 3.989 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 55.657 13.860 4.016 0.01016 * training 11.123 1.918 5.799 0.00215 ** protein 17.496 7.437 2.352 0.06536 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.614 on 5 degrees of freedom Multiple R-squared: 0.9103, Adjusted R-squared: 0.8744 F-statistic: 25.37 on 2 and 5 DF, p-value: 0.00241 16 Konfidenzintervalle für Prognosen im multiplen linearen Regressionsmodell Den Prognosewert an der Stelle erhalten wir ganz einfach über die Modellgleichung als ist dabei ein Zeilenvektor der Form Prognoseintervall für erwarteten Wert an der Stelle : Prognoseintervall für einen individuellen Wert an der Stelle 17 : Beispiel: Prognoseintervalle das gestemmte Gewicht bei Training 2 h/Woche und Proteinaufname 1.5 g/Tag/kg Körpergewicht Prognosewert für das Gewicht: 104.15 95% Konfidenzintervall für das erwartete Gewicht mit diesem 95% Konfidenzintervall für Erwartungswert: 18 95% Konfidenzintervall für beobachtetes (individuelles) Gewicht mit diesem 95% Konfidenzintervall für Beobachtung: 19 Überprüfen der Modellvoraussetzungen für den Fehlerterm Varianzhomogenität kann wieder mit einem Residuenplot untersucht werden. Die Residuen werden gegen die Vorhersagewerte aufgetragen. Die Streuung der Residuen soll möglichst unabhängig von den Vorhersagewerten sein. Residuenplot für unser Beispiel. Die Darstellung spricht nicht gegen die Annahme von Varianzhomogenität, allerdings erschwert die geringe Beobachtungszahl die Interpretation. 20 Die Normalverteilungsannahme für den Fehler kann wieder mit einem Quantil-Quantil Plot der standardisierten Residuen geprüft werden. Standardisierte (oder intern studentisierte) Residuen berechnet, nur wird allgemeiner formuliert. werden wie im einfachen Modell mit ist das i-te Diagonalelement der Matrix In unserem Beispiel ist H = (die Werte sind gerundet) 0.57 0.27 0.07 0.18 0.17 -0.21 0.15 -0.2 0.27 0.45 0.22 -0.01 -0.18 -0.13 0.18 0.21 0.07 0.22 0.18 0.05 -0.01 0.11 0.14 0.24 0.18 -0.01 0.05 0.22 0.31 0.17 0.1 -0.02 0.17 -0.18 -0.01 0.31 0.51 0.26 0.07 -0.13 -0.21 -0.13 0.11 0.17 0.26 0.45 0.09 0.27 21 0.15 0.18 0.14 0.1 0.07 0.09 0.13 0.14 -0.2 0.21 0.24 -0.02 -0.13 0.27 0.14 0.49 Die standardisierten Residuen tragen wir wieder gegen die Quantile , der Standardnormalverteilung auf. i 6 2 1 7 4 8 5 3 -12.26 -5.14 -4.15 -1.64 2.48 3.99 5.86 10.86 6.37 6.4 5.63 8.02 7.61 6.17 6.05 7.81 j 1 2 3 4 5 6 7 8 -1.93 -0.8 -0.74 -0.2 0.33 0.65 0.97 1.39 0.06 0.19 0.31 0.44 0.56 0.69 0.81 0.94 -1.53 -0.89 -0.49 -0.16 0.16 0.49 0.89 1.53 i ist der ursprüngliche Index, j ist der Index der aufsteigend geordneten Residuen. ist die empirische Verteilungsfunktion. Für den Plot tragen wir also (sample quantiles) gegen (theoretical quantiles) auf. 22 Im QQ-Plot für unser Beispiel liegen die Punkte annähernd entlang einer Geraden, wir können also von normalverteilten Fehlern ausgehen. 23