Ökonometrische Methoden III: Die lineare Regression Vorlesung an der Ruprecht-Karls-Universität Heidelberg WS 2006/2007 Prof. Dr. Lars P. Feld Ruprecht-Karls-Universität Heidelberg, Universität St. Gallen (SIAW-HSG), CREMA und CESifo Emp. FiWi I 1 Ökonometrische Methoden III: Die lineare Regression • Das Schätzverfahren OLS • Die Mechanik von OLS: Minimierung der Quadrate • Numerische Eigenschaften und Anpassungsgüte • Das klassische lineare Regressionsmodell • Inferenz • Das lineare Regressionsmodell mit mehreren Regressoren • Zusammenfassung Emp. FiWi I 2 Literatur • Lechner, M. (2001), Methoden der empirischen Wirtschaftsforschung, Skript, Universität St. Gallen, Kapitel 5, 6 und 7. Emp. FiWi I 3 Übung • Programmaufruf Eviews: – Start/Programme/Statistik/EViews4 oder – N:\Statistik\EViews4.1\EViews4.exe • Eviews Workfiles (nur Lesezugriff): – F:\Eviews-Daten\*.wf1 • Eigenen Ordner einrichten: – X:\Eviews-Dateien\ – Workfiles von F:... nach X ... kopieren und nur mit diesen Kopien arbeiten. Emp. FiWi I 4 Das Schätzverfahren OLS I • Regressionszusammenhang in der Population E (Y | X = x) = α 0 + x β 0 Notation: Y: Zu erklärende (abhängige) Zufallsvariable; y: ein bestimmter Wert (Realisation) von Y. X: Erklärende (unabhängige) Zufallsvariable; x: ein bestimmter Wert von X. α0 : Konstante; (unbekannter) wahrer Wert des Parameters α . β0 : Steigungsparameter; (unbekannter) wahrer Wert des Parameters β . Emp. FiWi I 5 Das Schätzverfahren OLS II • Regressionszusammenhang in der Population – „Regression von Y auf X“: der „mittlere“ Wert von Y gegeben ein bestimmter Wert von X (bedingter Erwartungswert von Y gegeben X = x) wird als eine lineare Funktion von x aufgefasst. – Zusammenhang zwischen X und Y ist nicht exakt. – Die erwarteten Werte für alle möglichen Werte von X bilden die sogenannte Regressionsgerade. – Stochastischer linearer Zusammenhang zwischen den Variablen Y und X. – Aussagen über die Wahrscheinlichkeiten des Auftretens von Werten ober- bzw. unterhalb des erwarteten Wertes. Emp. FiWi I 6 Das Schätzverfahren OLS III Abbildung 1: Beispiel - Bedingte Verteilung der individuellen Konsumausgaben für unterschiedliche Einkommensniveaus Quelle: Gujarati, Abb. 2.1, S. 35. Emp. FiWi I 7 Das Schätzverfahren OLS IV Umformulierung der Regressionsfunktion mit Hilfe eines Fehlerterms (U): U ≡ Y − E (Y | X = x) = Y − α 0 − x β 0 Y = E (Y | X = x) + U = α 0 + x β 0 + U ; • Am Modell hat sich nichts geändert! • Interpretation: Y lässt sich durch eine systematische Komponente α 0 + x β 0 und mit E (U | X = x) = 0 (per Definition). eine zufällige Komponente U erklären. Die zufällige Komponente enthält keinerlei Information über die systematische Komponente (und umgekehrt). Emp. FiWi I 8 Das Schätzverfahren OLS V Mögliche Interpretationen des Fehlerterms U: Zufällige Abweichung der Realisation yi von Y | X = xi , bzw. von ihrem bedingten Erwartungswert α 0 + xi β 0 (technische Erklärung, die immer gilt). Ungenauigkeit der Theorie, die den Zusammenhang von Y und X erklären soll (z.B. erklärt Humankapital sicher nur einen Teil des Einkommens). Explizite stochastische Komponente, die in der Theorie eine wohl definierte Rolle spielt (z.B. CAPM: diversifizierbares Risiko). Im vorhandenen Datensatz nicht beobachtete Variable. Gilt dann E (U | X = x ) = 0 ? (Ein Problem falls U mit X korreliert ist, da dann die Trennung zwischen Fehlerterm und erklärenden Variablen nicht mehr eindeutig ist). Variablen, die für die Analyse nicht von Interesse sind, aber trotzdem einen Einfluss auf Y haben könnten. Gilt dann E (U | X = x) = 0 ? (Problem falls U mit X korreliert). Messfehler. Gilt dann E (U | X = x) = 0 ? (Stichprobenregression fehlspezifiziert). Auffangen einer Fehlspezifikation des Modells (d.h. evtl. vorhandene Nichtlinearitäten etc. Gilt dann E (U | X = x) = 0 ? (Problem falls U mit X korreliert). 9 Das Schätzverfahren OLS VI DIE REGRESSIONSFUNKTION IN DER STICHPROBE Es erscheint intuitiv plausibel, die Koeffizienten, definiert anhand der Populationsgrößen, mittels der korrespondierenden Stichprobengrössen zu schätzen (AnalogPrinzip). Somit erhält man als Schätzverfahren für: E (Y ) : E( X ) : 1 yN = N xN = 1 N ∑y ; i =1 i N ∑x ; i =1 i 1 N = ( xi − xN ) 2 ; ∑ N − 1 i =1 Var ( X ) : σˆ Cov (Y , X ) : σˆ yx N = 2 xN N 1 N ∑ ( xi − xN )( yi − yN ) ; N − 1 i =1 σˆ x2 N := VarN ( xi ) ; σˆ yx N := CovN ( yi , xi ) . Emp. FiWi I 10 Das Schätzverfahren OLS VII Setzt man die einzelnen Teile zusammen, dann erhält man das gewünschte Schätzverfahren für die beiden Koeffizienten α 0 und β 0 : σˆ yx βˆ N = 2 N σˆ x N 1 N ∑ ( xi − xN )( yi − y N ) N − 1 i =1 = = 1 N ( xi − x N ) 2 ∑ N − 1 i =1 N αˆ N = y N − xN βˆ N = y N − xN ∑ (x i =1 i N ∑ (x i i =1 − x N )( yi − y N ) N ∑ (x i =1 i ; − xN ) 2 − xN )( yi − y N ) N ∑ (x i =1 i . − xN ) 2 Emp. FiWi I 11 Das Schätzverfahren OLS VIII ANMERKUNGEN Im Gegensatz zur Regressionsgeraden in der Population ( E (Y | X = x) = α 0 + x β 0 ), ist die Regressionsgerade in der Stichprobe yˆ N ,i = αˆ N + xi βˆ N zufällig! Das Residuum einer Beobachtung uˆ N ,i , das mit dem Fehlerterm in der Populationsregression korrespondiert, wird als Abweichung der Schätzung yˆ N ,i von der tatsächlichen Realisation y N ,i definiert: uˆ N ,i = yi − yˆ N ,i = yi − αˆ N − xi βˆ N . Emp. FiWi I 12 Das Schätzverfahren OLS IX Abbildung 2: Regressionsgeraden basierend auf zwei unterschiedlichen, zufälligen Stichproben aus der gleichen Population Quelle: Gujarati, Abb. 2.3, S. 43. Emp. FiWi I 13 Die Mechanik von OLS: Minimierung der Quadrate I • Man kann das zuvor beschriebene Schätzverfahren mit Hilfe eines anderen Ansatzes erhalten, der auch den Namen ‘ordinary least squares‘ (Methode der kleinsten Quadrate, KQ) erklärt. • OLS minimiert die Summe der quadrierten Abstände der einzelnen Beobachtungen zu der Regressionsgeraden. Emp. FiWi I 14 Die Mechanik von OLS: Minimierung der Quadrate II Abbildung 3: Das OLS - Schätzverfahren y x Emp. FiWi I 15 Die Mechanik von OLS: Minimierung der Quadrate III ZIELFUNKTION: N N (αˆ N , βˆN ) = arg min ∑ [ui (α , β )]2 = arg min ∑ [ yi − α − xi β ]2 . α ,β α ,β i =1 i =1 (d.h. αˆ N und βˆ N sind die Argumente der Funktion ui (α , β ) , die die N Summe ∑ [u (α , β )] 2 i =1 i minimieren). Emp. FiWi I 16 Die Mechanik von OLS: Minimierung der Quadrate IV BEDINGUNGEN ERSTER ORDNUNG: N α: ∂ ∑ (uˆ N ,i ) i =1 N 2 =0 = ∂α N β: ∂ ∑ (uˆ N ,i ) i =1 ∂β ∂ ∑ ( yi − αˆ N − xi βˆ N ) 2 i =1 ∂α N = ∑ 2( y − αˆ i =1 i N − xi βˆ N )(−1) = 0. N − xi βˆ N )( − xi ) = 0. N 2 =0 = ∂ ∑ ( yi − αˆ N − xi βˆ N ) 2 i =1 ∂β N = ∑ 2( y − αˆ i =1 i Emp. FiWi I 17 Die Mechanik von OLS: Minimierung der Quadrate V Aus diesen Gradienten erhält man die sogenannten OLS- Normalgleichungen: NORMALGLEICHUNGEN: α: N ∑y i =1 β: i N = Nαˆ N + (∑ xi ) βˆ N αˆ N = y N − xN βˆN ; i =1 N N N i =1 i =1 i =1 2 ˆ ˆ ( y x ) = ( x ) α + ( x ∑ i i ∑ i N ∑ i )β N . Emp. FiWi I 18 Die Mechanik von OLS: Minimierung der Quadrate VI Hieraus lässt sich nach einigen Umformungen βˆ N direkt ableiten: N N N 2 ( yi xi ) = (∑ xi )( yN − xN βˆN ) + (∑ xi ) βˆ N ∑ i =1 i =1 i =1 αˆ N = y N − xN βˆ N N N i =1 i =1 ∑ ( yi xi ) = NxN ( yN − xN βˆN ) + ∑ ( xi 2 ) βˆN N N ∑ ( y x ) − Nx i =1 i i N N yN = − Nx βˆN + ∑ ( xi ) βˆN i =1 N [ ∑ ( xi 2 ) − NxN2 ] βˆN 2 N 2 βˆ N = ∑ ( y x ) − Nx i i i =1 N ∑x i =1 i 2 N yN − NxN2 i =1 Emp. FiWi I 19 Die Mechanik von OLS: Minimierung der Quadrate VII βˆN = 1 N N ∑(y x ) − x i i i =1 1 N N ∑x i =1 i N yN = 2 −x 2 N = 1 N N ∑ [( y − y i =1 1 N i N )( xi − xN )] N ∑ (x − x i =1 i N )2 βˆN = CovN ( yi , xi ) . VarN ( xi ) Emp. FiWi I 20 Die Mechanik von OLS: Minimierung der Quadrate VIII Dieser Übergang ist gültig, denn es gilt: N −1 1 VarN ( xi ) = N N N 1 ( xi − xN ) = ∑ N i =1 2 1 = N N N ∑ (x i =1 i 2 + xN2 − 2 xi xN ) = 1 N 1 ( xi ) − ∑ (2 xi ) xN + xN2 = ∑ N i = N i =1 1 2 N ∑ (x i =1 i 2 ) − xN2 ; 2 xN2 N −1 1 CovN ( yi xi ) = N N N 1 [( yi − y N )( xi − xN )] = ∑ N i =1 N 1 ( yi xi + xN yN − yN xi − yi xN ) = ∑ N i =1 N ∑(y x ) − x i =1 Emp. FiWi I i i 21 N yN Numerische Eigenschaften und Anpassungsgüte I • Die numerischen Eigenschaften eines Schätzverfahrens gelten unabhängig vom zugrundeliegenden Modell und sind somit immer gültig wenn das entsprechende Schätzverfahren angewendet wird. – Das OLS Schätzverfahren ist eine Funktion der Daten und kann daher immer berechnet werden. – Das OLS Schätzverfahren ist eine eindeutige Punktschätzung. – Die OLS Regressionsgerade kann direkt aus der Schätzung der Koeffizienten berechnet werden. Emp. FiWi I 22 Numerische Eigenschaften und Anpassungsgüte II • Numerische Eigenschaften. – Die Regressionsgerade geht durch den Mittelwert der Daten. – Die Residuen sind mit dem Mittelwert der geschätzten Abhängigen in der Stichprobe unkorreliert. – Die Residuen sind mit der erklärenden Variablen in der Stichprobe unkorreliert. • Anpassungsgüte – Das geläufigste Maß zur Messung der Anpassungsgüte ist das Bestimmtheitsmaß: R 2 Emp. FiWi I 23 Numerische Eigenschaften und Anpassungsgüte III • Herleitung des Bestimmtheitsmaßes Zerlegung gemäß Definition des Residuums: yi = yˆ N ,i + uˆ N ,i . Varianzzerlegung: Vereinfachung: VarN ( yi ) = VarN ( yˆ N ,i ) + VarN (uˆ N ,i ) + 2CovN ( yˆ N ,i , uˆ N ,i ) . CovN ( yˆ N ,i , uˆ N ,i ) = 0 Emp. FiWi I 24 Numerische Eigenschaften und Anpassungsgüte IV • Herleitung des Bestimmtheitsmaßes Interpretation von VarN ( yˆ N ,i ) : Durch die Schätzung erklärte Varianz. von VarN (uˆ N ,i ) : Durch die Schätzung nicht erklärte Varianz. Anteil der erklärten Varianz an der Gesamtvarianz: R = 2 VarN ( yˆ N ,i ) VarN ( yi ) = 1− VarN (uˆ N ,i ) VarN ( yi ) ; Emp. FiWi I 25 Numerische Eigenschaften und Anpassungsgüte V • Eigenschaften des Bestimmtheitsmaßes 0 ≤ R2 ≤ 1 ; R2 = 0 keine Anpassung; R2 = 1 perfekte Anpassung. N OLS minimiert ∑ uˆ i =1 2 N ,i = N VarN (uˆ N ,i ) N 1 da ∑ uˆ N ,i = 0 N i =1 OLS maximiert das R 2 ! Emp. FiWi I 26 Numerische Eigenschaften und Anpassungsgüte VI • Eigenschaften des Bestimmtheitsmaßes R 2 ausgedrückt in Termini der Summe der Quadrate (sum of squares, SS): N R2 = ∑ ( yˆ i =1 N − yN ) ∑(y − y i =1 R2 = N ,i i N ) 2 N 2 = 1− ∑ (uˆ i =1 N ,i )2 ; N ∑(y − y i =1 i N ) 2 Estimated SS Residual SS = 1− . Total SS Total SS Emp. FiWi I 27 Numerische Eigenschaften und Anpassungsgüte VII • Eigenschaften des Bestimmtheitsmaßes R 2 hat auch eine Interpretation als Maß für die Korrelation zwischen tatsächlichem und vorhergesagtem Wert der abhängigen Variablen. DIES LÄSST SICH WIE FOLGT ZEIGEN: CorrN ( yi , yˆ N ,i ) = ρ ( yi , yˆ N ,i ) = = CovN ( yi , yˆ N ,i ) VarN ( yi ) VarN ( yˆ N ,i ) CovN ( yˆ N ,i + uˆ N ,i , yˆ N ,i ) VarN ( yi ) VarN ( yˆ N ,i ) Emp. FiWi I 28 Numerische Eigenschaften und Anpassungsgüte VIII • Eigenschaften des Bestimmtheitsmaßes Var ( yˆ = = = = ) N ,i 0 CovN ( yˆ N ,i , yˆ N ,i ) + CovN ( yˆ N ,i , uˆ N ,i ) VarN ( yi ) VarN ( yˆ N ,i ) VarN ( yˆ N ,i ) VarN ( yi ) VarN ( yˆ N ,i ) VarN ( yˆ N ,i ) VarN ( yi ) R2 . Emp. FiWi I 29 Das klassische lineare Regressionsmodell I • Annahmen – Das Modell ist linear in den Parametern. • Diese auf den ersten Blick sehr restriktive Annahme kann in vielen Fällen harmlos sein, da man durch geschickte Definition der funktionalen Form der Variablen, die in X auftreten, ein hohes Maß an Flexibilität erreichen kann. – Der Erwartungswert des Fehlerterms ist 0 und variiert nicht mit X. • Die Unkorreliertheit von U und X, ist zentral für die statistischen Eigenschaften. • Problematisch: 'Modellfehlspezifikationen', z.B. fehlende Variablen, die mit den enthaltenen Variablen korreliert sind. • Fehlende Variablen sind implizit im Fehlerterm enthalten. Emp. FiWi I 30 Das klassische lineare Regressionsmodell II • Annahmen – Die Realisationen von U sind identisch und unabhängig verteilt und die Varianz von U ist unabhängig von X (Homoskedastie). • Modellverletzungen durch Heteroskedastie und Autokorrelation. Emp. FiWi I 31 Das klassische lineare Regressionsmodell III Abbildung 4: Homoskedastie Quelle: Gujarati, Abb. 3.4, S. 62. Emp. FiWi I 32 Das klassische lineare Regressionsmodell IV Abbildung 5: Heteroskedastie Quelle: Gujarati, Abb. 3.5, S. 62. Emp. FiWi I 33 Das klassische lineare Regressionsmodell V Abbildung 6: Unterschiedliche Abhängigkeiten der Fehlerterme: (a) positive Autokorrelation; (b) negative Autokorrelation (c) keine Autokorrelation. Quelle: Gujarati, Abb. 3.6, S. 64. Emp. FiWi I 34 Das klassische lineare Regressionsmodell VI • Annahmen – Deterministischer, nicht konstanter Regressor • Bsp: Multikollinearität, d.h. man kann dann die erklärende Variable nicht mehr von der Konstanten unterscheiden und das OLS-Schätzverfahren für den Steigungsparameter ist nicht mehr definiert. – Normalverteilte Fehlerterme • Viele der 'guten' statistischen Eigenschaften von OLS bleiben auch ohne diese Annahme erhalten, jedoch wird die Inferenz bei Gültigkeit dieser Annahme vereinfacht. Emp. FiWi I 35 Das klassische lineare Regressionsmodell VII • Eigenschaften – OLS ist unverzerrt • Ein Schätzverfahren ist unverzerrt (unbiased), wenn der Erwartungswert des geschätzten Parameters gleich dem wahren Wert des unbekannten Parameters ist. – OLS ist BLUE (Gauss-Markov-Theorem) • OLS besitzt im klassischen linearen Regressionsmodell die kleinste mögliche Varianz aller in Y linearen und unverzerrten Schätzverfahren (der Beweis wird hier nicht aufgeführt). • OLS wird daher Best Linear Unbiased Estimator genannt. Emp. FiWi I 36 Inferenz I • Grundprinzipien – Das Ziel von Testverfahren ist es, Rückschlüsse darüber zu erhalten, ob die für die Schätzung verwendete Stichprobe tatsächlich aus einer Population mit den angenommenen Eigenschaften stammt oder ob man von einer Fehlspezifikation dieser Eigenschaften auszugehen hat. – Der wohl am meisten verwendete Test ist der sogenannte t-Test bzw. Signifikanztest. – Ziel dieses Testverfahrens ist es, herauszufinden, ob eine entsprechende Variable tatsächlich zu einer bestimmten Spezifikation eines Modells 'gehört' (Signifikanz) oder ob ihr Einfluss statistisch vernachlässigbar ist. Emp. FiWi I 37 Inferenz II • Grundprinzipien – Zuerst sind zwei Hypothesen zu definieren: die Nullhypothese H0 und die Alternativhypothese H1, die eine für möglich gehaltene Verletzung der Nullhypothese darstellt. – Das Testverfahren ist eine auf den Daten basierende Vorschrift, die besagt, ob die Nullhypothese abgelehnt wird oder nicht. Somit ist das Testverfahren eine Zufallsvariable (da die Daten zufällig sind). – Die Rolle der beiden Alternativen ist asymmetrisch: Man wird immer nur die Ablehnung oder Nichtablehnung von H0 als Ergebnis erhalten. Insbesondere wird H1 nicht notwendigerweise dadurch angenommen, dass H0 abgelehnt wird. Emp. FiWi I 38 Inferenz III • Signifikanztests des Steigungsparameters – Überprüfung der Hypothese, dass der (wahre) Steigungsparameter der Regressionsgeraden gleich a sei. – Dabei wird im folgenden von der Gültigkeit der Annahme der Normalverteilung der Fehlerterme ausgegangen. H 0 : β0 = a , H 1 : β0 ≠ a . Emp. FiWi I 39 Inferenz IV Für die Schätzung des Steigungsparameters mit OLS wurde die Normalverteilung des Schätzverfahrens für β 0 abgeleitet: βˆ N ~ N ( β 0 , σ 02 N VarN ( xi ) H0 ) ⇒ βˆ N ~ N ( a , σ 02 N VarN ( xi ) Die Standardabweichung ergibt sich daher als ). σ 02 N VarN ( xi ) Emp. FiWi I . 40 Inferenz V Abbildung 7: Die Normalverteilung von βˆ N in termini des Mittelwertes ( β 0 ) und des Standardfehlers von βˆ N Hinweis: b steht für βˆ N , sd für die Standardabweichung. Quelle: Dougherty, Abb. 3.4, S. 92. Emp. FiWi I 41 Inferenz VI Um den Test durchzuführen, ersetzen wir nun in Abbildung 7 das unbekannte 0 Hypothese H für β0 β0 durch a, dem Wert der unter der postuliert wird. Ausgehend von der dargestellten Verteilung sehen wir, dass fast alle 0 Realisationen der ZV βˆ N unter der Nullhypothese (d.h. bei Gültigkeit von H ) zwischen a − 2 und a + 2 σ 02 N VarN ( xi ) σ 02 N VarN ( xi ) zu liegen kommen. Als Ergebnis der Schätzung von βˆ N sind drei Szenarien vorstellbar: 1) βˆ N kommt weit im Inneren dieses Intervalls zu liegen. 2) βˆ N liegt in der Nähe von a ± 2 σ 02 N VarN ( xi ) . 3) βˆ N liegt deutlich außerhalb der Grenzen. Emp. FiWi I 42 Inferenz VII • Fall (1) – Keinerlei Evidenz gegen die Gültigkeit der Nullhypothese ableiten. • Fall (3) – Evidenz gegen die Nullhypothese sehr stark, denn eine solche Realisation ist unter der Nullhypothese zwar möglich, jedoch höchst unwahrscheinlich. • Fall (2) – Da die exakte Intervallgrenze vom gewählten Signifikanzniveau abhängt, lässt sich Fall 2) ohne weitergehende Betrachtungen nicht analysieren. Emp. FiWi I 43 Inferenz VIII • T-Test – Die Varianz der Fehlerterme ist normalerweise unbekannt und muss durch einen geschätzten Wert ersetzt werden. – Häufig wird als Schätzer die T-Statistik verwendet. tˆN ( N − K ) = ( βˆ N − a) / σˆ N2 N VarN ( xi ) Emp. FiWi I 44 Inferenz IX • T-Test – Diese modifizierte Statistik hat eine Verteilung aus der Klasse der sogenannten t – Verteilungen. – Die Mitglieder dieser Klasse unterscheiden sich durch ihre Anzahl an Freiheitsgraden (degrees of freedom; df). – Im Vergleich zur Standardnormalverteilung haben diese Verteilungen dickere Enden. – Mit zunehmenden Freiheitsgraden nähern sich die tVerteilungen jedoch der Standardnormalverteilung beliebig nahe an. Emp. FiWi I 45 Inferenz X Hinweis: Da die Eigenschaften der Teststatistiken in endlichen Stichproben auf der Gültigkeit der Normalverteilungsannahme für die Fehlerterme beruhen, ist es sinnvoll, diese Annahme ebenfalls zu überprüfen. Der am häufigsten angewandte Test hierfür ist der Spezifikationstest von Jarque und Bera. Er basiert darauf, mit Hilfe der Residuen einen Hinweis darauf zu erhalten, ob die zentralen, standardisierten dritten und vierten Momente (Schiefe = Skewness: SK , Wölbung = Kurtosis: K ) den korrespondierenden Momenten der Nomalverteilung entsprechen ( SK = 0, K = 3). Die Teststatistik lautet für die Nullhypothese 'U normalverteilt': sk N 2 (k N − 3) 2 JBN = N + ; 6 24 mit 1 N 3 1 N 4 ∑ uˆi, N ∑ uˆi, N N i =1 N i =1 ; kN = . sk N = (σˆ N2 )3/ 2 (σˆ N2 ) 2 d JBN → χ 2 (2) . Emp. FiWi I 46 Inferenz XI Tabelle 1: Signifikanzniveaus basierend auf verschiedenen t-Verteilungen Kritischer Bereich Einseitiger Test (df = 8) (df = 18) (df = 98) Beidseitiger Test (df = 8) (df = 18) (df = 98) 10 % ± 1.40 ± 1.33 ± 1.29 ± 1.85 ± 1.73 ± 1.66 Signifikanzniveau (p- Werte) 5% 1% ± 1.85 ± 2.90 ± 1.73 ± 2.55 ± 1.66 ± 2.37 ± 2.31 ± 3.56 ± 2.10 ± 2.88 ± 1.98 ± 2.63 0.1% ± 4.50 ± 3.61 ± 3.18 ± 5.04 ± 3.92 ± 3.39 Anmerkung: Diese Zahlen sind Ergebnis einer Abfrage in Gauss (1 Zeile!). Sie können jedoch auch in EVIEWS oder jedem Ökonometrie- und Statistikbuch nachgeschlagen werden. Emp. FiWi I 47 Das lineare Regressionsmodell mit mehreren Regressoren I • Um ökonomische Zusammenhänge zu modellieren, kommt man normalerweise nicht umhin, mehrere Erklärungsfaktoren zu berücksichtigen. • Die korrespondierende Erweiterung des einfachen linearen Regressionsmodells ist das sogenannte multiple Regressionsmodell. yi = x1,i β1,0 + x2,i β 2,0 + ... + xk ,i β k ,0 + ... + xK ,i β K ,0 + ui K yi = ∑ xk ,i β k ,0 + ui k =1 Emp. FiWi I 48 Das lineare Regressionsmodell mit mehreren Regressoren II • Annahmen des klassischen linearen Regressionsmodells K K 1) Y = ∑ X k β k ,0 + U yi = ∑ xk ,i β k ,0 + ui , ∀i = 1,..., N k =1 Linearität in den k =1 Parametern. 2) E (U ) = E (U | X 1 = x1 , X 2 = x2 ,..., X K = xK ) = 0 E (UX k ) = 0 , ∀ k = 1,..., K K E (Y | X 1 = x1 , X 2 = x2 ,..., X K = xK ) = ∑ X k β k ,0 k =1 Erwartungswert des Fehlerterms gleich 0 und unabhängig von X 1 ,..., X K . Emp. FiWi I 49 Das lineare Regressionsmodell mit mehreren Regressoren III • Annahmen des klassischen linearen Regressionsmodells σ 02 1) E ( U iU j ) = E ( U iU j | x1,i , ..., x K ,i ) = 0 wenn i = j wenn i ≠ j , ∀ i , j = 1, ..., N Keine Autokorrelation und keine Heteroskedastie. 2) Die W erte der erklärenden Variablen sind vorgegeben. Die erklärenden Variablen sind linear unabhängig (M ultikollinearität bei linearer Abhängigkeit, aber nicht bei nicht-linearer). 3) U ~ N (0, σ 02 ) . Norm alverteilung des Fehlerterm s. Emp. FiWi I 50 Das lineare Regressionsmodell mit mehreren Regressoren IV • Berechnung N Minimiert man die Quadrate der Residuen ( ∑ ( yi − xi β ) 2 ) bezüglich β , so erhält man i =1 als Ausdruck für das OLS – Verfahren βˆNOLS 2 x ∑ i 1, i ∑x x = i 2,i 1,i ⋮ ∑ x x i K ,i 1,i ∑ x1,i x2,i i ⋱ ⋯ ⋯ ∑ x1,i xK ,i i ∑i x2,i xK ,i ⋱ ⋮ 2 ⋯ ∑ xK , i i −1 x y ∑ 1,i i i x y ∑ i i 2, . i ⋮ ∑ x y i K ,i i Emp. FiWi I 51 Das lineare Regressionsmodell mit mehreren Regressoren V • Residuen Die OLS – Residuen sind orthogonal zu allen Regressoren. Wenn im Modell eine Konstante enthalten ist, dann folgt daraus direkt: N N i =1 i =1 N ∑ x1,i ⋅ uˆi =∑1⋅ uˆi = 0 → ∑ uˆ i =1 i = 0. (gemäß der Definition von x1,i ) Daher verläuft die Regressionshyperebene durch die Mittelwerte der Daten: N N 1 ˆ u = ( yi − xi βˆN ) = ∑ ∑ i N i =1 i =1 N ∑ yi − i =1 1 N N ∑ x βˆ i =1 i N = yN − xN βˆN = 0 ⇒ y N = xN βˆ N . Außerdem folgt die Gleichheit der Mittelwerte der beobachteten abhängigen Variablen und der entsprechenden vorhergesagten Werte: y N = yˆ N mit 1 yˆ N = N N ∑ x βˆ i =1 i N = xN βˆN . Emp. FiWi I 52 Das lineare Regressionsmodell mit mehreren Regressoren VI • Bestimmtheitsmaß An der Berechnung des R 2 ändert sich beim Übergang zur multivariaten Regression nichts. K VarN (∑ xi βˆ N ) CovarN ( xi ,k ,uˆN ,i ) =0 2 ˆ ˆ ˆ u Var ( y ) Var ( u ) N N ,i N N ,i k =1 N R2 = = = 1− = 1− . VarN ( yi ) VarN ( yi ) VarN ( yi ) VarN ( yi ) Emp. FiWi I 53 Das lineare Regressionsmodell mit mehreren Regressoren VII • Bestimmtheitsmaß – Man kann durch Hinzunahme weiterer Regressoren, die keine linearen Funktionen der schon enthaltenen Regressoren sind, das Bestimmtheitsmaß beliebig nahe an 1 annähern. – Daher wird ein korrigiertes Bestimmtheitsmaß berechnet. uˆ N2 /( N − K ) N −1 R = 1− = 1− (1 − R 2 ) VarN ( y i ) /( N − 1) N −K 2 R2 < R2 . Emp. FiWi I 54 Das lineare Regressionsmodell mit mehreren Regressoren VIII • Bestimmtheitsmaß – Das korrigierte Bestimmtheitsmaß kann fallen, wenn weitere Regressoren aufgenommen werden. – Es kann sogar negativ werden. – Problem der Hinzunahme einer Konstanten – Keine Interpretation des Bestimmtheitsmaßes in einem Modell ohne Konstante. Emp. FiWi I 55 Das lineare Regressionsmodell mit mehreren Regressoren IX • Eigenschaften von OLS 1) βˆk , N ist unverzerrt, ∀ k = 1,..., K . 2) Var ( βˆk , N ) und Covar ( βˆk , N , βˆl , N ) , ∀k ≠ l , k , l = 1,..., K , sind Funktionen des Parameters σ 02 und der beobachteten Werten der erklärenden Variablen X 1 ,..., X K . 3) Kein anderes in YN lineares und unverzerrtes Schätzverfahren hat eine geringere Varianz (Gauss – Markov – Theorem, Best Linear Unbiased Estimator). 4) Das OLS Schätzverfahren ist eine normalverteilte Zufallsvariable: βˆk , N ~ N ( β 0 , Var ( βˆk , N )) , ∀ k = 1,..., K . Die Schätzverfahren für die unbekannten Koeffizienten sind gemeinsam normalverteilt. Emp. FiWi I 56 Das lineare Regressionsmodell mit mehreren Regressoren X • Inferenz – Für die Berechnung und die Verteilung der t-Tests ändert sich beim Übergang vom univariaten zum multivariaten Regressionsmodell nichts. t ( N − K ) = ( βˆk , N − a ) / Vˆkk H 0 : βˆk , N = a . • Interpretation des t-Tests – Es wird beim Signifikanztest zum Beispiel überprüft, ob die Variable k keinen Einfluss ausübt, gegeben den Einfluss aller anderen Variablen. – Die Ergebnisse des Tests hängen von den anderen Variablen in die Regressionsgleichung ab. Emp. FiWi I 57 Das lineare Regressionsmodell mit mehreren Regressoren XI • F-Test für die Signifikanz der Residuen – Ist das Bestimmtheitsmaß signifikant von null verschieden? – Residuenzerlegung des Bestimmtheitsmaßes: K VarN (∑ xi βˆN ) CovarN ( xi ,k ,uˆN ,i ) =0 2 ˆ u ˆ Var ( u ) , N N i 2 k =1 N R = = = 1− = 1− VarN ( yi ) VarN ( yi ) VarN ( yi ) VarN ( yi ) VarN ( yˆ N ,i ) N R2 = ∑ ( yˆ N ,i − yN )2 i =1 N ∑(y − y i =1 i N )2 N = 1− ∑ (uˆN ,i )2 i =1 N ∑(y − y i =1 i N )2 ESS =TSS − RSS Estimated SS ( ESS ) Residual SS ( RSS ) = 1− = . Total SS (TSS ) Total SS (TSS ) Emp. FiWi I 58 Das lineare Regressionsmodell mit mehreren Regressoren XII • F-Test für die Signifikanz der Residuen – Den F-Test auf die Signifikanz der Regression erhält man mit den beiden Varianzkomponenten ESS und RSS und deren Freiheitsgraden (df). Die Freiheitsgrade für ESS sind K-1 (Anzahl der geschätzten Koeffizienten außer der Konstanten) und für RSS sind es N-K. F ( K − 1, N − K ) = ESS /( K − 1) . RSS /( N − K ) Emp. FiWi I 59 Das lineare Regressionsmodell mit mehreren Regressoren XIII • F-Test für die Signifikanz der Residuen – Die F-Statistik entspricht einer F-Verteilung mit den entsprechenden Freiheitsgraden. – Die kritischen Werte werden üblicherweise in der Ökononmetriesoftware angegeben. • F-Test für die gemeinsame Signifikanz von Koeffizienten – Die Intuition des Tests ist folgende: Man vergleicht den 'Fit' des Modells mit den entsprechenden Regressoren (unrestringiertes Modell) mit dem 'Fit' des Modells ohne diese Regressoren (restringiertes Modell). Emp. FiWi I 60 Das lineare Regressionsmodell mit mehreren Regressoren XIV • F-Test für die gemeinsame Signifikanz von Koeffizienten – Wenn die Verbesserung des 'Fit' beim Übergang vom restringierten zum unrestringierten Modell statistisch signifikant ist, dann wird das restringierte Modell verworfen, d.h. die Koeffizienten sind gemeinsam statistisch signifikant von null verschieden. – Man kann zeigen, dass folgende Prüfgröße einer FVerteilung folgt: U R ( RSS R − RSS U ) /( K − M ) ( R 2 − R 2 ) /( K − M ) F (K − M , N − K ) = = . U U 2 RSS /( N − K ) (1 − R ) /( N − K ) Emp. FiWi I 61 Das lineare Regressionsmodell mit mehreren Regressoren XV • F-Test für die gemeinsame Signifikanz von Koeffizienten RSS U : RSS des unrestringierten Modells. RSS R : RSS des restringierten Modells (es gilt RSS R ≥ RSS U ). U R 2 des unrestringierten Modells. R2 : R R 2 des restringierten Modells. K: Anzahl der Koeffizienten im unrestringierten Modell. M: Anzahl der Koeffizienten im restringierten Modell. K −M : Anzahl der im restringierten Modell auf 0 gesetzten Koeffizienten. R2 : Emp. FiWi I 62 Das lineare Regressionsmodell mit mehreren Regressoren XVI • t-Test für die Gleichheit zweier Koeffizienten H 0 : β k ,0 = β l ,0 ⇔ H 0 : β k ,0 − β l ,0 = 0 k ≠l. H 1 : β k ,0 ≠ β l ,0 ⇔ H 1 : β k ,0 − β l ,0 ≠ 0 k ≠l. t-Statistik: t ( N − K ) = βˆk , N − βˆl , N Var ( βˆ k ,N − βˆl , N ) . mit Var ( βˆk , N − βˆl , N ) = Var ( βˆk , N ) + Var ( βˆl , N ) − 2Cov( βˆk , N , βˆl , N ) . Emp. FiWi I 63 Zusammenfassung • OLS als das am häufigsten angewendete Schätzverfahren. • Bedeutsamkeit der Annahmen und Eigenschaften: – Heteroskedastie und Autokorrelation – Omitted Variable Bias. • Inferenz mit t-Test: – Bedeutsamkeit der Normalverteilungsannahme. • Multivariate Regression – Herstellung der ökonomischen ceteris paribus Bedingung. Emp. FiWi I 64