Statistik: 10.3.04 Mehr zur Regression Beispiel: Wohnungsmarkt Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR) Fläche 122 71 125 45 100 63 194 85 Preis 530 410 480 170 315 455 885 400 Fläche 164 119 140 109 40 62 84 65 Preis 900 550 790 810 390 440 300 385 10.3.04 PI Statistik, SS 2004 (6) 2 Lineare Regression Gerade, die die Datenwolke im Streudiagramm bzw. die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiert 1000 800 Preis (1000 EUR) Wohnungsmarkt: Daten und Regressionsgerade 600 400 200 0 0 50 100 150 200 250 Fläche (m2) 10.3.04 PI Statistik, SS 2004 (6) 3 Regression in EXCEL: Ausgabe: Zusammenfassung Regressions-Statistik Multipler Korrelationskoeffizient 0,826 Bestimmtheitsmaß 0,682 Adj. Bestimmtheitsmaß 0,659 Standardfehler 128,12 Beobachtungen 16 Koeffizi enten Standard fehler t-Statistik P-Wert Schnittpunkt 97,59 82,39 1,18 0,256 X Variable 1 4,19 0,76 5,47 8,2E-05 10.3.04 PI Statistik, SS 2004 (6) 4 Regression Schätzen und Bewerten Schätzen der Koeffizienten: Methode der kleinsten Quadrate Bewerten der erhaltenen Regressionsbeziehung Anwenden der Kriterien Bestimmtheitsmaß t-Statistik Analyse der Residuen 10.3.04 PI Statistik, SS 2004 (6) 5 Modell: lineare Regression Y: Abhängiges Merkmal, endogene Variable X: Unabhängiges Merkmal, exogene Variable einfaches lineares Regressionsmodell (statisches Modell) Yi a bX i ui b: Koeffizient von X a: Interzept u: Zufallsfehler, Störgröße, Störterm, „Noise“ Yt b1 b2 X 2t b3 X 3t ... bk X kt ut 10.3.04 PI Statistik, SS 2004 (6) 6 Dynamische Modelle einfaches dynamisches Modell Yt a bX t 1 ut autoregressives (AR-)Modell Yt a bYt 1 ut allgemeines dynamisches Modell Yt b1 Yt 1 b2 X 2t ... bk X kt ut ADL-Modell Yt b1 Yt 1 b2 X t b3 X t 1 ut 10.3.04 PI Statistik, SS 2004 (6) 7 Mehrgleichungsmodelle Mit gemeinsamen Regressoren Y1t b1 b2 X1t b3 X 2t u1t Y2t 1 2 X1t 3 X 2t u2t Interdependentes Mehrgleichungsmodell Y1t b1 b2 X1t b3Y2t u1t Y2t 1 2 X1t 3 X 2t 4Y1t u2t 10.3.04 PI Statistik, SS 2004 (6) 8 Lineare & nichtlineare Modelle (in den Parametern) lineare Modelle Yt b1 b2 X t 2 Yt b1 b2 X t b3 X t Nichtlineares, aber linearisierbares Modell Qt aL K ln Qt ln a b ln Lt c ln K t b t c t Lineare Approximation ist oft lokal gut brauchbar 10.3.04 PI Statistik, SS 2004 (6) 9 Prinzip der Kleinsten Quadrate Modell: Yi a bX i ui Beobachtungen: ( X i , Yi ) , i 1,..., n Summe der Fehlerquadrate n n S (a, b) u [Yi (a bX i )] i 1 2 i 2 i 1 Prinzip der Kleinsten Quadrate: Minimiere S (a, b) unter Variation von a, b 10.3.04 PI Statistik, SS 2004 (6) 10 Normalgleichungen partielles Ableiten von S (a, b) und Nullsetzen der Ableitungen gibt die Normalgleichungen an b i X i i Yi ai X i bi X i2 i X iYi Beachte! Die Normalgleichungen sind linear in a und b! 10.3.04 PI Statistik, SS 2004 (6) 11 Kleinste-Quadrate Schätzer auch OLS-Schätzer (ordinary least squares) b mit sxy s 2 x , a Y bX n 1 sx2 ( X i X )2 n i 1 1 n sxy ( X i X )(Yi Y ) n i 1 10.3.04 PI Statistik, SS 2004 (6) 12 Interpretation von b Modell: Yi a bX i ui OLS-Anpassung ergibt Yˆi a bX i b: mittlere Änderung von Y, wenn DX = 1 10.3.04 PI Statistik, SS 2004 (6) 13 Eigenschaften von Schätzern Wünschenswerte Eigenschaften: 10.3.04 Erwartungstreue: E{b} b minimale Varianz Konsistenz asymptotisch minimale Varianz PI Statistik, SS 2004 (6) 14 OLS-Schätzer: Eigenschaften Modell: Yi a bX i ui Für die OLS-Schätzer a und b gilt: 1. Sie sind erwartungstreu 2. Ihre Varianzen 2 2 1 X 2 V (b) 2 , V (a) 2 nsx n sx sind minimal in der Klasse der linearen erwartungstreuen Schätzer [Gauss-Markov] 2 = V (u) 10.3.04 PI Statistik, SS 2004 (6) 15 Residuen ei Yi (a bX i ) Schätzung der Störgrößenvarianz 2 1 2 s e i n2 i 2 e Streuungszerlegung 10.3.04 PI Statistik, SS 2004 (6) 16 Streuungszerlegung TSS (Yi Y )2 (Yˆi Y )2 ei2 ESS RSS TSS: Gesamtvariation (total sum of squares) ESS: (durch die Regression) erklärte Variation (explained sum of squares) RSS: residuale oder nicht erklärte Variation (residual sum of squares) 10.3.04 PI Statistik, SS 2004 (6) 17 Bestimmtheitsmaß 2 s ESS RSS 2 R 1 1 e2 TSS TSS sy Anteil der durch das Modell erklärten Varianz an der Gesamtvarianz der Y Es gilt 0 ≤ R2 ≤ 1 R2 = 0 bedeutet: Modell erklärt nichts, Yˆt Y R2 ist das Quadrat der Korrelation zwischen Yˆ und Y 10.3.04 PI Statistik, SS 2004 (6) 18 Adjustiertes Bestimmtheitsmaß 2 s n 1 e 2 R 1 2 n k sy k: Anzahl der Regressoren (k =2 bei einfacher Regression) R2 wird mit der Anzahl der Regressoren tendenziell größer Zum Vergleich von Modellen mit unterschiedlicher 2 Anzahl von Regressoren ist R vorzuziehen 10.3.04 PI Statistik, SS 2004 (6) 19 Bewertung von Modellen Kriterien zum Bewerten von Regressionsbeziehungen: t-Test F-Test Durbin-Watson Test 10.3.04 PI Statistik, SS 2004 (6) 20 t-Test Bei Annahme von normalverteilten Störgrößen gilt für den OLS-Schätzer b (k: Anzahl der Regressoren): bi bi T sb t (n k ) T folgt der t-Verteilung mit n-k Freiheitsgraden Zum Test der Nullhypothese Ho: b = 0: Berechnung des p-Wertes zu b Die Nullhypothese Ho: b = 0 bedeutet: Die Regressorvariable hat keinen Erklärungsbeitrag für Y Ähnlich der F –Test bei mehreren Regressoren 10.3.04 PI Statistik, SS 2004 (6) 21 Spezifikationstests auch Adäquatheitstests genannt; ein Beispiel ist der Durbin-Watson Test auf serielle Korrelation der n Störgrößen 2 DW (e e i 2 i i 1 ) n 2 e i i 1 10.3.04 PI Statistik, SS 2004 (6) 22 Wohnungsmarkt Regression Preis = a + b Fläche + u Daten und Regressionsgerade 1000 Preis (1000 EUR) 800 600 400 200 0 0 50 100 150 200 250 Fläche (m2) 10.3.04 PI Statistik, SS 2004 (6) 23 Regression in EXCEL: Ausgabe: Zusammenfassung Regressions-Statistik Multipler Korrelationskoeffizient 0,826 Bestimmtheitsmaß 0,682 Adj. Bestimmtheitsmaß 0,659 Standardfehler 128,12 Beobachtungen Preis = 97.59 + 4.19 Fläche 16 Koeffizi enten Standard fehler t-Statistik P-Wert Schnittpunkt 97,59 82,39 1,18 0,256 X Variable 1 4,19 0,76 5,47 8,2E-05 10.3.04 PI Statistik, SS 2004 (6) 24 Wohnungsmarkt, Forts. Geschätzte Regressionsgerade 1000 Preis (1000 EUR) 800 600 400 200 Preis = 97.59 + 4.19 Fläche 0 0 50 100 150 200 250 Fläche (m2) 10.3.04 PI Statistik, SS 2004 (6) 25 Wohnungsmarkt, Forts. Geschätzte Regressionsgerade Preis = 97.59 + 4.19 Fläche • Je m2 muss man im Durchschnitt mit Kosten von 4.19 Euro rechnen; • dazu kommt ein fixer Betrag von im Durchschnitt 97.59 Euro 10.3.04 PI Statistik, SS 2004 (6) 26 Wohnungsmarkt, Forts. Fläche Kurvenanpassung 1000 Preis 800 600 Preis 400 Schätzung für Preis 200 0 0 50 100 150 200 250 Fläche 10.3.04 PI Statistik, SS 2004 (6) 27 Wohnungsmarkt • Residuen: Yi (a bX i ) • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen 10.3.04 PI Statistik, SS 2004 (6) 28 Wohnungsmarkt: Residuen Fläche Residuenplot 300 200 Residuen 100 0 0 50 100 150 200 250 -100 -200 -300 Fläche 10.3.04 PI Statistik, SS 2004 (6) 29