Kapitel 2: Das einfache Regressionsmodell -2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell Beispiel: Die Beziehung zwischen Haushaltseinkommen und Lebensmittelausgaben Befragung zufällig ausgewählter Haushalte einer Population, z.B. die Bewohner New Yorks, nach 1. dem wöchentlichen Haushaltseinkommen (x) 2. den Lebensmittelausgaben pro Woche und pro Haushaltsmitglied (y). Quelle: Hill, Griffiths, Lim (2008), S.10. Lehrstuhl für Wirtschaftspolitik - SS 2011 1 Kapitel 2: Das einfache Regressionsmodell Der bedingte Erwartungswert und die bedingte Varianz für x = 1000 werden beschrieben durch: E( y | x 1000) y| x Var( y | x 1000) 2 Aufstellung eines ökonomischen Modells, aus dem ein ökonometrisches Modell hergeleitet wird, das Fragen beantworten kann wie zum Beispiel Wie ändern sich die Lebensmittelausgaben im Durchschnitt, wenn das wöchentliche Einkommen eines Haushalts um $100 steigt? Wie hoch sind schätzungsweise die Lebensmittelausgaben für einen Haushalt mit einem wöchentlichen Einkommen von $2.000? Unter der vereinfachenden Annahme einer linearen Beziehung lautet das ökonomische Modell für Lebensmittelausgaben: E( y | x) y|x 1 2 x (2.1.1) Der bedingte Erwartungswert, E(y|x), wird auch einfache Regressionsfunktion genannt. Die Parameter β1 und β2 helfen, den genauen Zusammenhang in der Population zu quantifizieren. Deshalb werden sie auch Populationsparameter genannt (population parameters). Lehrstuhl für Wirtschaftspolitik - SS 2011 2 Kapitel 2: Das einfache Regressionsmodell Quelle: Hill, Griffiths, Lim (2008), S.12. Lehrstuhl für Wirtschaftspolitik - SS 2011 3 Kapitel 2: Das einfache Regressionsmodell 2.2 Ein ökonometrisches Modell 2.2.1 Einleitung Quelle: Hill, Griffths, Lim (2008), S.13. Lehrstuhl für Wirtschaftspolitik - SS 2011 4 Kapitel 2: Das einfache Regressionsmodell 2.2.2 Der Fehlerterm Kern der Regressionsanalyse ist die Zerlegung der abhängigen Variable y in einen systematischen und einen zufälligen Teil. Der systematische Teil ist E(y). Zufällig ist die Differenz zwischen dem Erwartungswert und dem tatsächlich beobachteten Wert, die auch als Fehlerterm oder Residuum e bezeichnet wird: e y E ( y) y 1 2 x (2.2.1) Zentrale Annahme des Modells ist, dass für jedes x der Mittelwert von y bestimmt wird durch E( y) 1 2 x . Durch Umformen ergibt sich das einfache lineare Regressionsmodell: Annahme SR1: y 1 2 x e (2.2.2) y ist hierbei die abhängige (endogene, left-hand side) Variable und x die unabhängige (erklärende, right-hand side) Variable, auch Regressor genannt. „SR“ steht für Simple Regression (= einfaches Regressionsmodell). (2.2.1) zeigt, dass sich y und e nur um den konstanten Term E(y) unterscheiden. Da y eine Zufallsvariable ist, muss es der Fehlerterm somit auch sein. D.h., dass die Eigenschaften von y die Eigenschaften von e bedingen und umgekehrt. Lehrstuhl für Wirtschaftspolitik - SS 2011 5 Kapitel 2: Das einfache Regressionsmodell 2.2.3 Weitere Annahmen des einfachen linearen Regressionsmodell SR2: E(y) = β1 + β2x ↔ E(e) = 0 SR3: var(y) = var(e) = σ2 SR4: cov(yi, yj) =cov(ei, ej) = 0 Alternativ: Statistische Unabhängigkeit SR5: Die Variable x ist keine Zufallsvariable und nimmt mindestens zwei verschiedene Ausprägungen an. SR6: Optional: Die Werte von y bzw. e sind um ihren Mittelwert normalverteilt: y ~ N(β1 + β2x, σ2) bzw. e ~ N(0, σ2) Lehrstuhl für Wirtschaftspolitik - SS 2011 6 Kapitel 2: Das einfache Regressionsmodell 2.3 Schätzung der Regressionsparameter 2.3.1 Einleitung Beispiel: Befragung von 40 3-Personen-Haushalten nach ihren Lebensmittelausgaben in der vergangenen Woche und dem wöchentlichen Einkommen, d.h. wir verfügen über 40 Beobachtungen mit (xi, yi), i=1,2,...,N=40. i ist der Index für die einzelne Beobachtung, N ist die Gesamtzahl der Beobachtungen. Das Einkommen x wird in $100 gemessen. Annahme: Die Daten erfüllen SR1-SR5. Darstellung der Beobachtungen in einem Punktdiagramm, Fig. 2.6. Problem: Wie bestimmen wir am sinnvollsten Lage und Steigung der Regressionsgeraden? Gesucht ist eine allgemeine Regel zur Bestimmung von β1 und β2. Lehrstuhl für Wirtschaftspolitik - SS 2011 7 Kapitel 2: Das einfache Regressionsmodell Quelle: Hill, Griffths, Lim (2008), S. 19. Lehrstuhl für Wirtschaftspolitik - SS 2011 8 Kapitel 2: Das einfache Regressionsmodell 2.3.2 Das Prinzip der Methode der kleinsten Quadrate Mit b1 und b2 werden jeweils die Schätzer für β1 und β2 bezeichnet, die nach der Methode der kleinsten Quadrate (KQ-Methode) bestimmt werden. Prinzip: Minimierung der Summe der quadrierten vertikalen Abweichungen der tatsächlichen Werte y vom geschätzten Wert, d.h. der Fehlerterme. Figure 2.7 a): The relationship among y, ê and the fitted regression line Quelle: Hill, Griffiths, Lim (2008), S. 20 Lehrstuhl für Wirtschaftspolitik - SS 2011 9 Kapitel 2: Das einfache Regressionsmodell Angepasste Regressionsgerade: ŷ i b1 b 2 x i (2.3.1) Fehlerterm: êi yi ŷi yi b1 b 2 x i (2.3.2) Minimierung der quadrierten Fehlerterme: N N Min! SSE ê ( y i ŷ i ) 2 2 i i 1 i 1 N S(b1 , b2 ) (yi b1 b2 xi )2 (2.3.3) i1 Bedingungen 1. Ordnung: S 2 b 1 y i x i y i x i b 1 S 2 b 2 Nb 1 x i b 2 0 x b 0 2 i (2.3.4) 2 Lehrstuhl für Wirtschaftspolitik - SS 2011 10 Kapitel 2: Das einfache Regressionsmodell Durch Auflösung und Umformung ergibt sich der KQ-Schätzer für b2: b2 oder alternativ b 2 N x i yi x i yi N x i2 ( x i ) 2 (2.3.5a) ( x x )( y y) (x x) (2.3.5b) i i 2 i b1 kann geschätzt werden durch: b1 y b 2 x , wobei y y N i ,x x N i (2.3.5c) . Bei b1 und b2 handelt es sich um Zufallsvariablen! Im Englischen wird unterschieden zwischen: Estimator: allgemeine Formel, ist eine Zufallsvariable; Estimate: konkrete Werte berechnet mit Hilfe der allgemeinen Formel, Realisationen der ZV Lehrstuhl für Wirtschaftspolitik - SS 2011 11 Kapitel 2: Das einfache Regressionsmodell Beispiel: Lebensmittelausgaben Einsetzen der Daten der 40 Beobachtungen ergibt: b2 (x x)(y y) 10,21 (x x) i i 2 i und b1 y b 2 x 83,42 Die angepasste Regressionsgerade lautet somit: ŷi 83,42 10,21x i (2.3.6) Im einfachen Regressionsmodell verläuft die Schätzgerade der KQ-Schätzung immer durch die Mittelwerte von x und y, ( x, y) . Lehrstuhl für Wirtschaftspolitik - SS 2011 12 Kapitel 2: Das einfache Regressionsmodell Quelle: Hill, Griffiths, Lim (2008), S. 23 Lehrstuhl für Wirtschaftspolitik - SS 2011 13 Kapitel 2: Das einfache Regressionsmodell 2.3.3 Interpretation der Schätzwerte Der Wert b2=10,21 ist ein Schätzwert für β2: Wir schätzen, dass sich die wöchentlichen Lebensmittelausgaben um $10,21 erhöhen, wenn das wöchentliche Einkommen um $100 steigt. b1=83,42 ein Schätzwert für die wöchentlichen Lebensmittelausgaben eines Haushalts ohne Einkommen. Problem: Im Datensatz kommen keine Beobachtungen in der Nähe von x =0 vor. Interpretation als Elastizität: Elastizität: y / y y x x / x x y (2.3.7) In linearen ökonomischen Modellen gilt: 2 E ( y ) x Lehrstuhl für Wirtschaftspolitik - SS 2011 (2.3.8) 14 Kapitel 2: Das einfache Regressionsmodell Die Elastizität der durchschnittlichen Ausgaben in Bezug auf das Einkommen ist somit: E( y) / E( y) E( y) x x 2 E ( y) x / x x E( y) Zur Schätzung der Elastizität können wir β2 durch b2 = 10,21 ersetzen und x und E(y) werden häufig durch die Mittelwerte ersetzt, hier: ( x , y) (19,60;283,57) : ˆ b 2 x 19,60 10,21 0,71 y 283,57 2.3.4 Vorhersage Wir möchten die durchschnittlichen wöchentlichen Lebensmittelausgaben für einen Haushalt mit einem wöchentlichen Einkommen von $2.000 vorhersagen → x = 20: ŷ i 83,42 10,21x i 83,42 10,21(20) 287,61 Lehrstuhl für Wirtschaftspolitik - SS 2011 15 Kapitel 2: Das einfache Regressionsmodell 2.4 Stichprobeneigenschaften des KQ-Schätzers 2.4.1 Der Schätzer b2 b2 ( x x )( y y) (x x) i i 2 i (2.3.5b) Formulierung als linearer Schätzer: N b 2 w i yi i 1 wobei wi xi x (x i x) 2 (2.4.1) (2.4.2) Durch Umformung von (2.4.1) ergibt sich: b 2 2 w i ei Lehrstuhl für Wirtschaftspolitik - SS 2011 (2.4.3) 16 Kapitel 2: Das einfache Regressionsmodell 2.4.2 Der Erwartungswert von b1 und b2 E(b2 ) E(2 wi ei ) E(2 ) E(wi ei ) 2 wi E(ei ) 2 (2.4.4) Wenn E(b2)=ß2 gilt, dann spricht man von einem erwartungstreuen bzw. unverzerrten (unbiased) Schätzer. Erwartungstreue bedeutet, dass bei wiederholter Ziehung gleich großer Stichproben b2 im Durchschnitt „richtig“ ist, also gleich dem unbekannten Parameterwert ß2 ist. Erwartungstreue gilt nur, wenn die Annahmen, die wir über den KQ-Schätzer treffen, zutreffen. Wenn Annahme SR2 nicht gilt, also E(ei) ≠ 0, ist E(b2) ≠ ß2 und somit ist der KQ-Schätzer verzerrt. Wenn die Annahmen über den KQ-Schätzer gelten, ist auch b1 ein erwartungstreuer Schätzer von ß1. Wiederholte Stichproben im Beispiel Lebensmittelausgaben In Tabelle 2.2 finden sich die Schätzergebnisse für 10 Stichproben (samples) mit jeweils N =40 zufällig gezogenen Haushalten. Lehrstuhl für Wirtschaftspolitik - SS 2011 17 Kapitel 2: Das einfache Regressionsmodell Die Schätzwerte von b1 und b2 unterscheiden sich für verschiedene Stichproben deutlich, die Mittelwerte betragen b1 78,74 und b2 9,68 . Quelle: Hill, Griffiths, Lim (2008), S. 28. Lehrstuhl für Wirtschaftspolitik - SS 2011 18 Kapitel 2: Das einfache Regressionsmodell 2.4.3 Varianzen und Kovarianz von b1 und b2 Das Ausmaß der Streuung (also der Varianz) gibt Auskunft über die Verlässlichkeit oder Präzision eines Schätzers. Je geringer sie ist, desto höher ist die Wahrscheinlichkeit, dass der KQ-Schätzer nahe am wahren Wert liegt. Mithilfe der Gleichung (2.4.3) und unter Berücksichtigung von SR3 und SR4 kann man die Varianz von b2 herleiten: 2 var(b 2 ) (x i x)2 (2.4.5) Für die Varianz von b1 und die Kovarianz von b1 und b2 gilt: var(b1 ) 2 x N ( x x ) 2 i 2 i cov(b1 , b 2 ) 2 x ( x i x) 2 (2.4.6) (2.4.7) Von allen erwartungstreuen Schätzern ist der mit der geringsten Varianz der beste. Lehrstuhl für Wirtschaftspolitik - SS 2011 19 Kapitel 2: Das einfache Regressionsmodell Welche Größen bestimmen die Varianzen/Kovarianz? 1. Die Varianz σ2 2. (x i x ) 2 (s. Figure 2.11) 3. Die Stichprobengröße N 4. x 2 i 5. Der Mittelwert x Lehrstuhl für Wirtschaftspolitik - SS 2011 20 Kapitel 2: Das einfache Regressionsmodell Quelle: Hill, Griffiths, Lim (2008), S.31. Lehrstuhl für Wirtschaftspolitik - SS 2011 21 Kapitel 2: Das einfache Regressionsmodell 2.5 Das Gauss-Markov Theorem Gauss-Markov Theorem: Wenn die Annahmen SR1-SR5 des linearen Regressionsmodells gelten, haben die Schätzfunktionen b1 und b2 die kleinste Varianz aller linearen, erwartungstreuen Schätzer für β1 und β2. Sie werden daher Best Linear Unbiased Estimator (BLUE) genannt. 2.6 Die Wahrscheinlichkeitsverteilung des KQ-Schätzers Wenn der Fehlerterm ei normalverteilt ist, ist auch yi normalverteilt. Da b2 = ∑wiyi und die Summe normalverteilter Zufallsvariablen ebenfalls normalverteilt ist, ist der KQ-Schätzer auch normalverteilt. 2 x i2 b1 ~ N 1 , N ( x x ) 2 i Lehrstuhl für Wirtschaftspolitik - SS 2011 (2.6.1) 22 Kapitel 2: Das einfache Regressionsmodell 2 2 , 2 b2 ~ N (xi x) (2.6.2) Solange die Annahmen SR1-SR5 gelten, ist die Verteilung der KQ-Schätzer bei ausreichend großer Stichprobengröße N approximativ die Normalverteilung, auch wenn der Fehlerterm nicht normalverteilt ist. 2.7 Schätzung der Fehlertermvarianz und der KQ-Schätzer Unter SR2, E(ei)=0, gilt, dass die Varianz der Zufallsvariable ei lautet: var(ei ) 2 Eei E (ei ) E (ei2 ) 2 Da ein Erwartungswert ein Durchschnittswert ist, kann man als Schätzer den Durchschnitt der quadrierten, beobachtbaren Fehlerterme/Residuen aus der Schätzung nehmen: Lehrstuhl für Wirtschaftspolitik - SS 2011 23 Kapitel 2: Das einfache Regressionsmodell ˆ 2 ê 2 i (2.7.1) N Dieser Schätzer ist allerdings verzerrt und muss modifiziert werden, indem im Nenner noch die Anzahl der geschätzten Parameter (hier 2: b1 und b2) abgezogen wird. Man erhält: ˆ 2 ê 2 i (2.7.2) N2 Gleichung (2.7.2) beschreibt einen erwartungstreuen, unverzerrten Schätzer, so dass gilt: E(ˆ 2 ) 2 (2.7.3) Schätzung von Varianzen und Kovarianz der KQ-Schätzer vâr(b1 ) ˆ 2 x N (x x) 2 i 2 , se(b1 ) vâr(b1 ) i Lehrstuhl für Wirtschaftspolitik - SS 2011 (2.7.4) 24 Kapitel 2: Das einfache Regressionsmodell ˆ 2 vâr(b 2 ) , se(b 2 ) vâr(b 2 ) 2 (x i x) (2.7.5) x ( x i x) 2 (2.7.6) côv(b1 , b 2 ) ˆ 2 se(b1) und se(b2) sind die Standardfehler der KQ-Schätzer. „se“ steht für standard error. Beispiel: Lebensmittelausgaben Tabelle 2.3 zeigt die Residuen der ersten fünf Haushalte. Lehrstuhl für Wirtschaftspolitik - SS 2011 25 Kapitel 2: Das einfache Regressionsmodell Quelle: Hill, Griffiths, Lim (2008), S.35. Nutzt man alle 40 Beobachtungen kommt man zu folgender Varianz: ˆ 2 ê 2 i N2 304505,2 8013,29 38 Lehrstuhl für Wirtschaftspolitik - SS 2011 26 Kapitel 2: Das einfache Regressionsmodell Varianzen und Kovarianzen werden in der Regel in einer Matrix dargestellt: côv(b1 , b 2 ) 1884,442 vâr(b1 ) côv(b , b ) vâr(b ) 85,90316 1 2 2 85,90316 4,381752 Die entsprechenden Standardfehler sind: se(b1 ) vâr(b1 ) 1884,442 43,410 se(b 2 ) vâr(b 2 ) 4,381752 2,093 Lehrstuhl für Wirtschaftspolitik - SS 2011 27