3. Einfache lineare Regression Ökonometrie I - Peter Stalder 1 3. Einfache lineare Regression (Maddala Kapitel 3) Regressionsrechnung: Empirische Analyse der Abhängigkeit einer Variablen (y) von einem oder mehreren Bestimmungsfaktoren (x1, x2, .. xk). einfache Regression multiple Regression Terminologie: y: x: erklärte Variable erklärende Variable abhängige Variable unabhängige Variable endogene Variable exogene Variable Regressand Regressor z.B. Konsumausgaben Einkommen, Zinssatz Investitionen Kapazitätsauslastung, Zinssatz Exporte Wirtschaftsentwicklung im Ausland, Wechselkurs des Frankens Umsatz Werbeaufwand Wahl der Funktionsform: allgemeine Formulierung: y f (x) u y i f ( x i ) ui i 1, 2 , ... n y t f ( x t ) ut t 1, 2 , ... T (für Zeitreihen) einfache lineare Regression: y i xi ui Ansatz mit konstanter Elastizität: y i e x i e ui ln( y i ) ln( x i ) u i Quadratische Funktion: 2 y i 1x i 2 x i u i 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 2 Im Folgenden betrachten wir den Fall der einfachen linearen Regression. Datengenerierender Prozess ("wahres" Modell): u i ~ IN (0, 2 ) y i xi ui deterministischer Teil Störterm: unabhängig normalverteilt mit 2 Mittelwert 0 und Varianz Regressionsparameter α und β (Achsenabschnitt und Steigung der Regressionsgeraden) 2 Das Modell enthält somit drei Parameter: , , Stichprobe: x1 x 2 x 3 .... x n exogen y 1 y 2 y 3 .... y n endogen 2 => Schätzwerte ˆ , ˆ , ˆ Die geschätzte Regressionsgleichung lautet somit: y i ˆ ˆ x i uˆ i Residuum Annahmen zum Störterm der Gleichung: 1) E (u i ) 0 2) var( u i ) E (u i2 ) 2 konstant 3) u i und u j sind unabhängig für alle i und j ( i j ) 4) u i und x j sind unabhängig für alle i und j , d.h. x ist exogen 5) u i ist normalvert eilt 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 3 Schätzung der Regressionsparameter nach der Methode der "kleinsten Quadrate" (Ordinary Least Squares, OLS) In der geschätzten Regressionsgleichung y i ˆ ˆ x i uˆ i werden die Parameter ˆ und ˆ so festgelegt, dass die Summe der quadrierten Residuen minimal wird. Summe der quadrierten Residuen (residual sum of squares): n RSS 2 uˆ i i 1 y n i ˆ ˆ x i 2 min i 1 Bei gegebener Stichprobe (Werte für xi und yi) ist RSS eine Funktion von ˆ und ˆ . Man sucht also das Minimum der Funktion RSS (ˆ , ˆ ). Diese Minimierung führt zu folgenden Schätzformeln (vgl. Maddala): ˆ S x y S x x und ˆ y ˆ x , wobei x x Sxx x i x Syy y i y Sxy x x y i y i 2 i n y 2 y i n Die Schätzformel für ˆ impliziert, dass die Regressionsgerade genau durch den Punkt ( x , y ) läuft (Stichprobenmittelwert). Schätzung der Störtermvarianz: ˆ 2 û 2 i n2 Man dividiert durch n - 2, weil der Berechnung der Residuen û zwei geschätzte Parameter zugrunde liegen ( ˆ und ˆ ) und die û deshalb tendenziell kleiner sind (absolut) als die unbeobachtbaren Störterme u. 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 4 Varianzanalyse Auf Basis der geschätzten Regressionsgeraden kann man die Varianz der abhängigen Variablen y aufteilen in einen durch x erklärten Teil (Punkte auf der Regressionsgeraden) und eine unerklärte Restvarianz (Abweichungen der Beobachtungspunkte von der Regressionsgeraden). y yˆ ˆ ˆ x x Für diese Aufteilung verwendet man anstelle der Varianzen bequemer die folgenden Quadratsummen: y i y (total sum of squares) 2 yi : TSS S y y ŷ i : ESS 2 ˆ y y i (explained sum of squares) û i : RSS uˆ (residual sum of squares) Es gilt: i 2 TSS = ESS + RSS (Gesamtvarianz in y gleich erklärte Varianz plus unerklärte Restvarianz) 2 Das Bestimmtheitsmass R gibt an, welcher Anteil der Varianz von y durch x erklärt wird: R 2 ESS TSS (TSS RSS ) TSS 1 RSS TSS 2 Die Wurzel aus R entspricht dem (positiven oder negativen) Korrelationskoeffizienten. 3. Einfache lineare Regression Ökonometrie I - Peter Stalder ESS kann wie folgt berechnet werden: yˆ i ˆ ˆ x i Punkte auf der Regressionsgeraden yˆ i y ˆ ˆ x i y yˆ i y ˆ x i ˆ x ˆ x i x ESS da ˆ y ˆ x ( yˆ i y )2 ˆ 2 xi x ˆ 2 S x x ˆ S xy 2 da ˆ S x x S x y 5 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 6 Statistische Aussagen Welche statistischen Rückschlüsse lassen sich von den geschätzten Parametern auf die Parameter des datengenerierenden Prozesses ziehen? Datengenerierender Prozess Stichprobe (wahres Modell) , ,2 ˆ , ˆ , ˆ 2 y yi ˆ ˆ xi ûi yi xi ui x Da die Lage der Beobachtungspunkte einer vorliegenden Stichprobe von den Zufallsrealisationen des Störtems ui abhängt, weicht die geschätzte Regressionsgerade mehr oder weniger stark vom wahren Zusammenhang im datengenerierenden Prozess ab. Die Schätzwerte für die Parameter haben mit anderen Worten den Charakter von Zufallsvariablen, die einer bestimmten Stichprobenverteilung unterliegen. Diese leitet sich aus der unterstellten Normalverteilung des Störterms ui ab. 2 Stichprobenverteilung von ˆ , ˆ und ˆ 2 Vertrauensbereiche und Hypothesentests für , und 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 7 2 Stichprobenverteilung von ˆ , ˆ und ˆ : Die mit der Methode der kleinsten Quadrate geschätzten Parameter ˆ , ˆ und ˆ 2 sind in Relation zu den wahren Parameterwerten wie folgt verteilt: 2 x 2 1 ˆ ~ N , n S xx 2 ˆ ~ N , Sxx ( n 2 ) ˆ 2 2 => Die Schätzungen ˆ , ˆ sind normalverteilt, unverzerrt und konsistent. 2 => Die Schätzung ˆ ist RSS 2 Chi-Quadrat-verteilt, ~ n22 unverzerrt und konsistent. Die Verteilung von ˆ wird in eine Standard-Normalverteilung übergeführt: ˆ 2 ~ N 0, 1 S xx Die Störterm-Varianz 2 ist unbekannt und muss durch die Schätzung ̂ 2 ersetzt werden, welche Chi-Quadrat-verteilt ist. Der resultierende Ausdruck ist das Verhältnis einer standard-normalverteilten und der Wurzel aus einer gemittelten Chi-Quadrat-verteilten Variablen und ist somit t-verteilt: ˆ 2 Sxx ( n 2 )ˆ 2 ( n 2 ) 2 Bei ˆ 2 ˆ ˆ 2 S xx ˆ ~ tn 2 SE ( ˆ ) S xx handelt es sich um den geschätzten Standardfehler von ˆ , wofür kurz auch SE ( ˆ) geschrieben wird. 3. Einfache lineare Regression Ökonometrie I - Peter Stalder Prognose auf Basis einer einfachen linearen Regression 8 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 9 Der in der Grafik dargestellte 95%-Vertrauensbereich für y ist beim Stichprobenmittel von x am engsten und wird mit zunehmender Entfernung von x gegenüber dem Stichprobenmittel immer grösser, weil Fehlschätzungen von β mit zunehmendem Abstand vom Stichprobenmittelwert immer stärker ins Gewicht fallen. 3. Einfache lineare Regression Ökonometrie I - Peter Stalder Verschiedene Funktionsformen, die sich als lineare Regressionen schätzen lassen a) Linearer Grundansatz: yt xt ut datengenerierender Prozess yt ˆ ˆ xt uˆt Schätzgleichung yˆt ˆ ˆ xt theoretische Werte auf der Regressionsgeraden uˆt yt yˆt Residuen b) Logarithmischer Ansatz: ln yt ln xt ut yt A xt e u t zugrundeliegender multiplikativer Ansatz mit Elastizität ut 0 ut 0.01 ut 0.01 eut 1 eut 1.01 eut 0.99 ln yt ˆ ˆ ln xt uˆt ln yˆt ˆ ˆ ln xt uˆt ln yt ln yˆt lnyt yˆt yt yˆt 1 yt yˆt yˆt relative Abweichung 10 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 11 c) Gleichung in ersten Differenzen: yt xt ut Differenzengleichung yt yt 1 ( xt xt 1) ut yt yt 1 ( xt xt 1) ut t yt (y0 x0 ) t xt ui i 1 yt Niveaugleichung t xt vt Wenn ut in der Differenzengleichung ein zeitlich unkorrelierte Zufallsvariable ist, dann ist vt in der Niveaugleichung hochgradig autokorreliert, weil vt. und vt-1 sich nur durch das zuletzt aufaddierte ut unterscheiden. Umgekehrt folgt daraus, dass man eine ausgeprägte Autokorrelation der Residuen in einer Niveaugleichung als Resultat einer Kumulation von Störungen über die Zeit interpretieren kann. Geht man dann zu einer Differenzengleichung über, so wird diese Kumulation rückgängig gemacht, d.h. man erhält durch die Differenzenbildung eine Gleichung, in der die einzelnen Störungen pro Periode voneinander unabhängig sind. d) Gleichung in ersten Differenzen logarithmierter Variablen: ln yt ln xt ut ln yt ln yt ln yt 1 lnyt yt 1 yt yt 1 1 yt yt 1 yt 1 Veränderungsrate analog für ln x t . 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 12 Spezifikationstests Datengenerierender Prozess: yi xi ui Annahmen bezüglich des Störterms: 1) E (u i ) 0 2) var( u i ) E ( ui2 ) 2 ist konstant 3) u i und u j sind unabhängig für alle i j 4) ui und x j sind unabhängig für alle i und j 5) u i ist normalverteilt Geschätzte Regressionsgleichung: y i ˆ ˆ x i û i Die Residuen einer geschätzten Regressionsgleichung können Aufschluss darüber geben, ob die der Schätzung zugrundeliegende Stichprobe mit dem unterstellten datengenerierenden Prozess vereinbar ist und die Spezifikation des Modells somit als adäquat zu betrachten ist: Ist es zulässig, von einem linearen Zusammenhang zwischen x und y auszugehen? Sind wichtige Einflussfaktoren vernachlässigt worden? Sind die Annahmen bezüglich des Störterms ui - insbesondere konstante Varianz (2) und keine Autokorrelation (3) - haltbar? Beurteilung anhand der berechneten Residuen u i (vgl. die folgenden Beispiele). Wenn die Annahmen zum datengenerierenden Prozess verletzt sind, so sind die oben hergeleiteten Eigenschaften der Schätzungen von ˆ , ˆ und ˆ 2 (z.B. die Eigenschaft, dass ̂ t-verteilt ist) nicht gültig, denn sie basieren alle auf der Annahme, dass der Störterm der Gleichung unabhängig normalverteilt ist. 3. Einfache lineare Regression Ökonometrie I - Peter Stalder Residuen aus verschiedenen Regressionsgleichungen Nur im Fall 1 erscheint die Modellspezifikation adäquat. Residuen als Abweichungen von von der Regressionsgeraden Residuen über die Zeit Fall 1: 25 3 20 2 15 1 10 Y 0 5 -1 0 -2 -5 -3 -10 -8 -4 0 4 8 12 1975 16 1980 1985 1990 1995 2000 2005 2000 2005 2000 2005 Residuen X Fall 2: 60 20 50 15 40 10 Y 30 20 5 10 0 0 -5 -10 -10 -20 -8 -4 0 4 8 12 1975 16 1980 1985 1990 1995 Residuen X Fall 3: 25 10 20 8 6 15 4 10 Y 2 5 0 0 -2 -5 -4 -6 -10 -8 -4 0 4 X 8 12 16 1975 1980 1985 1990 1995 Residuen 13 3. Einfache lineare Regression Ökonometrie I - Peter Stalder Beispiel: Schätzung einer Konsumfunktion für die Schweiz Daten: Konsumausgaben und Haushaltseinkommen aus der Volkswirtschaftlichen Gesamtrechnung der Schweiz (Jahreswerte 1960 bis 2001) Konsum und Einkommen nominell, in Mio Franken 300000 250000 200000 150000 100000 50000 0 60 65 70 75 80 KONSN 85 90 95 00 EINN Konsum und Einkommen real, in Mio Franken zu Preisen von 1990, 1960-2001 240000 200000 160000 120000 80000 40000 60 65 70 75 80 KONSR 85 90 EINR 95 00 14 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 15 Konsum und Einkommen real pro Kopf, in 1000 Franken zu Preisen von 1990 32 28 24 20 16 12 60 65 70 75 80 KONSRK 85 90 95 00 EINRK Schätzung einer linearen Regression: Zwei Darstellungsarten in EVIEWS Sample: 1960 2001 Included observations: 42 KONSRK=C(1)+C(2)*EINRK C(1) C(2) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Coefficient Std. Error t-Statistic Prob. 2.580351 0.833541 0.545681 0.022067 4.728683 37.77306 0.0000 0.0000 0.972730 0.972048 0.636545 16.20758 -39.59942 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat 22.85573 3.807354 1.980925 2.063671 0.192419 Dependent Variable: KONSRK Sample: 1960 2001 Included observations: 42 Variable Coefficient Std. Error t-Statistic Prob. C EINRK 2.580351 0.833541 0.545681 0.022067 4.728683 37.77306 0.0000 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood 0.972730 0.972048 0.636545 16.20758 -39.59942 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat 22.85573 3.807354 1.980925 2.063671 0.192419 3. Einfache lineare Regression Ökonometrie I - Peter Stalder Tatsächliche Werte von KONSRK ( y ), theoretische Gleichungswerte ( ŷ ) und Residuen ( uˆ y yˆ ): 32 28 24 1.5 20 1.0 16 0.5 12 0.0 -0.5 -1.0 60 65 70 75 80 Residual 85 90 Actual 95 00 Fitted Residuen als Abweichungen der Beobachtungspunkte von der Regressionsgeraden 30 28 KONSRK 26 24 22 20 18 16 14 16 20 24 EINRK 28 32 16 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 17 Die vorstehende Gleichung erscheint aufgrund der Verteilung der Residuen fehlspezifiziert. Ignoriert man diesen Umstand, so lässt sich die Berechnung von Vertrauensintervallen und Hypothesentests am Beispiel der marginalen Konsumquote β wie folgt demonstrieren: Punktschätzung und geschätzter Standardfehler: C(2) = ̂ = 0.833541, SE ( ˆ ) 0.022067 Stichprobenverteilung von ̂ : ˆ ~ t 40 SE ( ˆ ) t-Verteilung mit 42-2 = 40 Freiheitsgraden a) 95%-Vertrauensintervall für : kritischer t-Wert: PROB( 2.021 t* = 2.021 ˆ 2.021) 0.95 SE( ˆ ) PROB (0.833541 2.021 0.022067 0.83351 2.021 * 0.022067) 0.95 PROB(0.788944 0.878138) 0.95 b) Hypothesentest H0: β = 0 Vergleich des berechneten t-Wertes mit dem kritischen t-Wert für einen zweiseitigen Test auf dem 5%-Niveau: t berechnet ˆ 0 37.77306 t* 2.021 SE ( ˆ ) Berechnung der beobachteten Signifikanzniveaus: PROB( t 37.77306) 0.0000 Der berechnete t-Wert ist viel grösser als der kritische t-Wert. Das beobachtete Signifikanzniveau ist praktisch gleich Null. Das 95%-Vertrauensintervall schliesst den Wert β = 0 nicht ein. H0 wird verworfen 3. Einfache lineare Regression Ökonometrie I - Peter Stalder 18