Grundlagen der Ökonometrie Wintertrimester 2011 Vorlesung Gabriel Frahm Helmut-Schmidt-Universität Lehrstuhl für Angewandte Stochastik Fächergruppe Mathematik/Statistik 22043 Hamburg Zu meiner Person Personalien: PD Dr. Gabriel Frahm Lehrstuhl für Angewandte Stochastik E-Mail: [email protected] URL: www.hsu-hh.de/stochastik Sprechstunde: Montags, 12:30 Uhr Ort: Geb. H01, Eb. 1, Raum 1372 Laufbahn: Universität zu Köln: – Lehrstuhl für Finanzierungslehre sowie – Lehrstuhl für Statistik & Ökonometrie. Universität Münster: – Lehrstuhl für Ökonometrie und empirische WiFo. 1 Zu meiner Person Laufbahn: Forschungsinstitute / Praxiserfahrung: – Center of Advanced European Studies and Research, – NEC Laboratories Europe, – WestLB sowie diverse Beratungsprojekte. Forschung: Copulas, Extremwerttheorie, Random Matrix Theory, Portfoliooptimierung, robuste Kovarianzmatrizen, Missing-Data Analysis, multiples Testen. Lehre: Econometrics, Time Series Analysis, Panel Data Analysis, Statistik, Mathematik, Entscheidungs- und Spieltheorie. 2 Zur Veranstaltung Name: Grundlagen der Ökonometrie. Zielgruppe: Bachelor VWL im 5. Trimester. Vorlesungen: Montags von 9:45 bis 11:15 Uhr in H3. Übungen: Montags von 14:00 bis 15:30 Uhr in H4. Die Übungen beginnen am 17.01.2011. Materialien: http://www.hsu-hh.de/stochastik/ Prüfung: Klausur am 15.04.2011 von 12:30 bis 14:30 Uhr in Raum 1002. 3 Inhaltsverzeichnis 1 Grundprobleme der Ökonometrie 11 1.1 Was ist Ökonometrie? . . . . . . . . . . . . . . . . . 12 1.2 Typische Anwendungen . . . . . . . . . . . . . . . . 13 1.3 Grundlegender Ansatz . . . . . . . . . . . . . . . . . 14 1.4 Datentypen . . . . . . . . . . . . . . . . . . . . . . 21 1.5 Datenquellen . . . . . . . . . . . . . . . . . . . . . . 22 1.6 Datenaufbereitung . . . . . . . . . . . . . . . . . . . 23 1.7 Historische Anmerkungen und Literatur . . . . . . . . . 24 4 I Das klassische lineare Regressionsmodell 2 Das einfache lineare Regressionsmodell 27 27 2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Grundlegender Ansatz . . . . . . . . . . . . . . . . . 30 2.3 Standardannahmen . . . . . . . . . . . . . . . . . . 31 2.4 Schlussfolgerungen . . . . . . . . . . . . . . . . . . 32 2.5 Methode der kleinsten Quadrate . . . . . . . . . . . . 34 2.6 Herleitung der KQ-Schätzer . . . . . . . . . . . . . . 37 2.7 Statistische Inferenz . . . . . . . . . . . . . . . . . . 45 2.7.1 Die Schätzer für α und β . . . . . . . . . . . . 45 5 2.7.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 47 2.7.3 Die geschätzte Regressionsgleichung . . . . . . 50 2.7.4 Hypothesentests für α und β . . . . . . . . . . 52 2.7.5 Konfidenzintervalle für α und β . . . . . . . . . 54 3 Das multiple lineare Regressionsmodell 56 3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 56 3.2 Standardannahmen . . . . . . . . . . . . . . . . . . 59 3.3 Kompakte Darstellung . . . . . . . . . . . . . . . . . 61 3.4 Elastizitäten . . . . . . . . . . . . . . . . . . . . . . 65 3.5 Herleitung des KQ-Schätzers . . . . . . . . . . . . . . 70 6 3.6 Der Determinationskoeffizient . . . . . . . . . . . . . 77 3.7 Schätzung der Regressionskoeffizienten . . . . . . . . 84 3.8 Statistische Inferenz . . . . . . . . . . . . . . . . . . 87 3.8.1 Der Schätzer für β . . . . . . . . . . . . . . . 87 3.8.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 88 3.8.3 Die geschätzte Regressionsgleichung . . . . . . 90 3.8.4 Hypothesentests für β1 , . . . , βm 3.8.5 Der klassische F -Test . . . . . . . 92 . . . . . . . . . . . . . 93 3.8.6 Konfidenzintervalle für β1 , . . . , βm . . . . . . 93 3.9 Das Gauss-Markoff-Theorem . . . . . . . . . . . . . . 95 7 II Modelle mit stochastischen Regressoren 98 4 Das bedingte lineare Regressionsmodell 99 4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 99 4.2 Standardannahmen . . . . . . . . . . . . . . . . . . 100 4.3 Statistische Inferenz . . . . . . . . . . . . . . . . . . 103 4.3.1 Der Schätzer für β . . . . . . . . . . . . . . . 103 4.3.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 105 4.3.3 Hypothesentests für β1 , . . . , βm 4.3.4 Der F - und χ2 -Test . . . . . . . 107 . . . . . . . . . . . . . . 109 4.3.5 Konfidenzintervalle für β1 , . . . , βm . . . . . . 109 8 5 Modellwahl 111 5.1 Die grundlegenden Ziele der linearen Regression . . . . 111 5.2 Der Fundamentalsatz der linearen Regression . . . . . 114 5.3 Erklärung . . . . . . . . . . . . . . . . . . . . . . . 116 5.3.1 Die Bedeutung der Regressionskoeffizienten . . 116 5.3.2 Kollinearität . . . . . . . . . . . . . . . . . . . 123 5.3.3 Der Omitted Variables Bias . . . . . . . . . . . 128 5.4 Vorhersage . . . . . . . . . . . . . . . . . . . . . . 132 5.4.1 Schätzung der Parameter . . . . . . . . . . . . 132 5.4.2 Bedingte Punktvorhersage 9 . . . . . . . . . . . 135 5.4.3 Bedingte Intervallvorhersage . . . . . . . . . . 140 5.4.4 Ex-Ante- vs. Ex-Post-Vorhersage . . . . . . . . 142 5.5 Das Auswahlproblem . . . . . . . . . . . . . . . . . . 145 5.5.1 Data Mining . . . . . . . . . . . . . . . . . . . 145 5.5.2 Komplexität . . . . . . . . . . . . . . . . . . . 152 5.6 Ansätze zur Behebung des Auswahlproblems . . . . . . 166 5.6.1 Der Umgang mit Overfitting . . . . . . . . . . . 166 5.6.2 Der Umgang mit Data Mining . . . . . . . . . . 174 10 1 Grundprobleme der Ökonometrie • Was ist Ökonometrie? • Beispiele typischer Anwendungen: Geldnachfrage, privater Konsum, Arbeitslosigkeit, Zinsniveau • Ökonomisches Modell vs. ökonometrisches Modell • Spezifikation, Schätzung, Test und Prognose • Datentypen, -quellen und -aufbereitung • Empirische Wirtschaftsforschung, Stufen einer empirischen Studie • Simultane Gleichungen 11 1.1 Was ist Ökonometrie? Ziel: Die Anwendung statistischer Methoden auf bestimmte ökonomische Probleme, insbesondere • die Analyse struktureller Beziehungen (Erklärung), • die Prognose künftiger Entwicklungen (Vorhersage) und • der Vergleich von Politiken. Neben zahlreichen Anwendungen ökonometrischer Verfahren im Kontext empirischer Studien beschäftigen sich viele Autoren mit der Methodenentwicklung. 12 1.2 Typische Anwendungen • Geldnachfrage = f (BIP, Geldmenge, Zinssätze, Erträge, . . . ). • Privater Konsum = f (Einkommen, früherer Konsum, Vermögen, Einkommensverteilung, . . . ). • Dauer der Arbeitslosigkeit eines Individuums = f (Alter, Geschlecht, Ausbildung, . . . ). • Anzahl der Arbeitslosen = f (BIP, Arbeitslosigkeitssockel, Saison, Terms of Trade, Arbeitsmarktregeln, . . . ). • Individuelle Lohnrate = f (Alter, Geschlecht, Ausbildung, Berufserfahrung, . . . ). 13 1.3 Grundlegender Ansatz Unterstellt wird eine funktionale Beziehung zwischen erklärenden Variablen x1 , . . . , xm und einer (oder mehrerer) erklärten Variablen y = f (x1 , x2 , . . . , xm ) . Die Variable y wird durch die Variablen x1 , x2 , . . . , xm „erklärt“. Z.B. wird der gesamtwirtschaftliche private Konsum C mit dem Gesamteinkommen Y aller privaten Haushalte durch eine lineare Funktion verknüpft: C = α + βY. 14 Ökonometrisches Modell Modellansatz: yt = f (xt1 , xt2 , . . . , xtm ) + ut . Der „Störterm“ ut umfasst nicht weiter spezifizierte Abweichungen der erklärten Variablen, insbesondere durch • unbekannte Variablen, welche ebenso einen Einfluss auf yt ausüben, • zufällige Schwankungen von yt bei gegebenen Werten der xt1 , xt2 , . . . , xtm , • Messfehler in y , etc. 15 • Spezifikation der Variablen und ihrer funktionalen Beziehung, d.h. – Auswahl von Variablen zur Erklärung bzw. Vorhersage von y , – Charakterisierung von f (z.B. als affin-lineare Funktion). • Schätzung der unbekannten Parameter von f mittels hergebrachter Verfahren der Ökonometrie (KQ-Methode, ML-Methode, GMM, etc.). • Testen vorgegebener Hypothesen, d.h. bestimmte Aussagen werden empirisch überprüft. • Prognose künftiger Werte von y . 16 Das Keynessche Grundmodell Ct = α + βYt + ut mit Yt = Ct + It , wobei • Ct privater Konsum • Yt verfügbares Einkommen der Haushalte • It gesamtwirtschaftliches Investment plus öffentliche Ausgaben, • t Zeit (in Jahren) . 17 Einflussdiagramm Y t • 6 I • C • Ct = α + βYt + ut , 18 Yt = Ct + It . Habit-Persistence Model (Brown, 1952) Das Habit-Persistence Model ist eine leichte Abwandlung des Keynesschen Grundmodells: Ct = α + βYt + γCt−1 + ut mit Yt = Ct + It . Der vergangene Konsum Ct−1 hat hierbei also einen Einfluss auf den heutigen Konsum Ct . 19 Einflussdiagramm Y t−1 • t • 6 I • • C • - • Ct = α + βYt + γCt−1 + ut , 20 Yt = Ct + It 1.4 Datentypen • Querschnittsdaten (z.B. ein bestimmtes Merkmal mehrerer Individuen, zu einem bestimmten Zeitpunkt erhoben). • Längsschnittsdaten (z.B. ein bestimmtes Merkmal eines einzigen Individuums, jedoch in verschiedenen Zeitpunkten/Perioden erhoben). • Paneldaten (z.B. ein bestimmtes Merkmal mehrerer Individuen, jedoch zu verschiedenen Zeitpunkten erhoben). 21 1.5 Datenquellen • Statistisches Bundesamt (DeStatis, www.destatis.de), • Deutsche Bundesbank, Europäische Zentralbank (EZB), • Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung (die „fünf Wirtschaftsweisen“), • Wirtschaftsforschungsinstitute (RWI in Düsseldorf, IFO in München, DIW in Berlin etc.), • Sozioökonomisches Panel (SOEP) beim DIW Berlin, • EUROSTAT, OECD, UN und angeschlossene Organisationen, etc. 22 1.6 Datenaufbereitung - - Ökonomisches Problem ? - - Grundgesamtheit, Variablen, Hypothesen (ökonomisches Modell) ? - - Auswahl von relevanten Daten ? Dateninspektion, Datenanalyse ? - Statistisches Modell ? Schätzungen, Tests, Prognosen 23 1.7 Historische Anmerkungen und Literatur Historie Gründung der Econometric Society am 29. Dezember 1930 in Chicago. „The Econometric Society is an international society for the advancement of economic theory in its relation to statistics and mathematics... Its main object shall be to promote studies that aim at a unification of the theoretical-quantitative approach to economic problems.“ Zeitschrift der Econometric Society: Econometrica. 24 Literatur Eine kleine Auswahl von Zeitschriften für Statistik und Ökonometrie: • Journal of the American Statistical Association (JASA) • Journal of Econometrics • Journal of Applied Econometrics • Review of Economic Studies • American Economic Review • International Economic Review • Journal of the Royal Statistical Society Series B • Review of Economics and Statistics 25 Lehrbücher Empfehlenswert für eine etwaige Nachbereitung des Stoffs: • Greene, W.H. (2008): Econometric Analysis, 6. Auflage, Prentice Hall. • Hayashi, F. (2000): Econometrics, Princeton. • Murray, M. (2005): Econometrics: A Modern Introduction, Addison Wesley. • Stock, J.H. und Watson, M.W. (2006): Introduction to Econometrics, Addison Wesley. • Verbeek, M. (2008): A Guide to Modern Econometrics, 3. Auflage, Wiley. 26 Teil I Das klassische lineare Regressionsmodell Carl F. Gauß (1777–1855) Karl Pearson (1857–1936) 27 Udny Yule (1871–1951) 2 Das einfache lineare Regressionsmodell 2.1 Motivation • Der Preis einer Immobilie hängt von verschiedenen Faktoren ab, wie z.B. der Wohnfläche, der Wohnlage, der Anzahl der Schlafzimmer, Bäder, Abstellplätze und Garagen, etc. • Wie viel würde ein bestimmtes Haus kosten, wenn man z.B. die Wohnfläche um 10 m2 vergrößern würde? • Die gleiche Frage ergibt sich auch in Bezug auf andere Güter, wie z.B. Computer oder Autos. 28 Immobilienpreise Logarithmierter Preis (Kanadischer Dollar) 12.5 12 11.5 11 10.5 10 7 7.5 8.5 8 9 9.5 Logarithmierte Wohnfläche (Quadratfuß) 29 10 2.2 Grundlegender Ansatz Das einfache lineare Modell unterstellt einen linearen Zusammenhang zwischen einer erklärten Variablen yi und einer erklärenden Variablen xi , d.h. yi = α + βxi + ui für i = 1, . . . , n . Hierbei sind α und β zwei unbekannte Parameter und ui eine unbeobachtbare zufällige Störgröße, welche als Residuum bezeichnet wird. Das einfache lineare Modell unterstellt, dass die erklärende Variable, auch Regressor genannt, deterministisch (d.h. fix) ist. 30 2.3 Standardannahmen Die Standardannahmen des einfachen linearen Regressionsmodells lauten: A1 Der Erwartungswert aller Residuen beträgt Null, d.h. E(ui ) = 0, A2 alle Residuen besitzen die gleiche Varianz, d.h. Var(ui ) = σ 2 > 0 , A3 die Residuen sind unkorreliert, d.h. Cov(ui , uj ) und i, j = 1, . . . , n und = 0 für i 6= j A4 die Residuen sind gemeinsam normalverteilt, d.h. u1 , . . . , un ∼ N (0, σ 2 ) und stochastisch unabhängig. 31 2.4 Schlussfolgerungen Aus den Standardannahmen folgt unmittelbar 1. E(yi ) = E(α + βxi + ui ) = α + βxi + E(ui ) = α + βxi , 2. Var(yi ) = Var(α + βxi + ui ) = Var(ui ) = σ 2 , sowie 3. Cov(yi , yj ) = Cov(α + βxi + ui , α + βxi + uj ) = Cov(ui , uj ) = 0 für alle i 6= j . Außerdem gilt dE(yi ) =β, dxi d.h. der Erwartungswert von yi steigt um β Einheiten, wenn xi um eine Einheit steigt. 32 Anmerkungen Das einfache lineare Modell besitzt drei unbekannte Parameter. Es handelt sich dabei um 1. den Achsenabschnitt α , 2. den Regressionskoeffizienten β und 3. die Residualvarianz σ 2 > 0. Es gilt nun, die unbekannten Parameter aus einer vorliegenden Stichprobe (x1 , y1 ), . . . , (xn , yn ) möglichst genau zu schätzen. Die am weitesten verbreitete Methode ist die Methode der kleinsten Quadrate (KQ-Methode). 33 2.5 Methode der kleinsten Quadrate Man betrachte die Summe der Quadratfehler, d.h. n X 2 Q(a, b) = yi − (a + bxi ) . | {z } i=1 Regressions− gerade Die sogenannten KQ-Schätzer α̂ und β̂ ergeben sich dadurch, dass man a und b gerade so wählt, dass Q(a, b) minimiert wird. Die KQ-Schätzer für α und β sind definiert als (α̂, β̂) = arg min Q(a, b) . a,b 34 Quadratfehler bei einer schlecht angepassten Regressionsgeraden. 35 Quadratfehler bei einer besser angepassten Regressionsgeraden. 36 2.6 Herleitung der KQ-Schätzer Die partielle Ableitung von Q nach a beträgt ∂Q(a, b) = −2 ∂a n X i=1 (yi −a−bxi ) = −2 n X i=1 yi −na−b und die partielle Ableitung von Q nach b ist gegeben durch n X ∂Q(a, b) = −2 xi (yi − a − bxi ) . ∂b i=1 Um die KQ-Schätzer zu erhalten, muss man beide partiellen Ableitungen gleich Null setzen. 37 n X i=1 xi ! Aus der ersten Gleichung, d.h. ∂Q(α̂, β̂) = −2 ∂a n X i=1 yi − nα̂ − β̂ n X i=1 xi ! = 0, folgt unmittelbar n n X X 1 1 yi − β̂ · xi = ȳ − β̂ x̄ α̂ = n i=1 n i=1 für den KQ-Schätzer bezüglich des Achsenabschnitts α . Setzt man diesen Ausdruck in die zweite Gleichung ∂Q(α̂, β̂) = −2 ∂b n X i=1 xi (yi − α̂ − β̂xi ) = 0 38 ein, so erhält man −2 n X i=1 xi (yi − ȳ) − β̂(xi − x̄) = 0 . Man beachte, dass n X i=1 so dass (xi − x̄) = 0 und n X (yi − ȳ) = 0 , i=1 n X −2 x̄ (yi − ȳ) − β̂(xi − x̄) = 0 . i=1 39 Für die zweite Schätzgleichung ergibt sich damit −2 n X i=1 (xi − x̄) (yi − ȳ) − β̂(xi − x̄) = 0 . Der KQ-Schätzer bezüglich des Regressionskoeffizienten β entspricht also mit σ̂xy Pn (xi − x̄)(yi − ȳ) σ̂xy i=1 P β̂ = = 2 , n 2 σ̂x i=1 (xi − x̄) n n X X 1 1 2 = (xi − x̄)(yi − ȳ) und σ̂x = (xi − x̄)2 . n i=1 n i=1 40 Wegen n n 1X 1X 2 2 2 σ̂x = (xi − x̄) = xi − x̄2 n i=1 n i=1 und n σ̂xy n 1X 1X (xi − x̄)(yi − ȳ) = xi yi − x̄ȳ = n i=1 n i=1 lässt sich der KQ-Schätzer für β alternativ schreiben als β̂ = Pn i=1 xi yi − x̄ȳ Pn 2 . 2 i=1 xi − x̄ 1 n 1 n 41 Regression der Immobilienpreise auf die Wohnfläche Logarithmierter Preis (Kanadischer Dollar) 12.5 12 11.5 11 10.5 10 7 7.5 8.5 8 9 9.5 Logarithmierte Wohnfläche (Quadratfuß) 42 10 Weiterentwicklungen Das einfache lineare Modell ist lediglich ein erster Schritt in Richtung einer praktikablen und realitätsnahen Modellierung ökonomischer Phänomene. Die Ökonometrie hat eine Vielzahl von Weiterentwicklungen des einfachen linearen Modells hervorgebracht: • Beim multiplen linearen Regressionsmodell wird yi durch mehrere Regressoren xi1 , xi2 , . . . , xim erklärt. • Die Annahme fixer Regressoren wird aufgehoben. Modelle mit stochastischen Regressoren spielen heutzutage eine entscheidende Rolle. 43 • Außerdem werden mehrere Regressionsgleichungen mit Hilfe sogenannter Simultangleichungsmodelle gleichzeitig berücksichtigt. • Die Standardannahmen der linearen Regression werden durch sogenannte Orthogonalitätsbedingungen ersetzt. Hierbei spielt die Aufweichung der strikten Annahme fixer Regressoren eine entscheidende Rolle und markiert den Übergang von der klassischen zur modernen linearen Regression. Eine einfache Form des linearen Regressionsmodells mit stochastischen Regressoren wird später im Rahmen dieser Vorlesung behandelt. 44 2.7 Statistische Inferenz 2.7.1 Die Schätzer für α und β • Merke: Die Schätzer für α und β lauten Pn (xi − x̄)(yi − ȳ) i=1 Pn α̂ = ȳ − β̂ x̄ und β̂ = . 2 i=1 (xi − x̄) • Bereits unter der Annahme A1 gilt E(α̂) = α und E(β̂) = β . D.h. die beiden Schätzer sind erwartungstreu (oder unverzerrt). • Im Folgenden symbolisieren α̂n und β̂n die KQ-Schätzer bei einem Stichprobenumfang von n . • Beachte: Für jedes n sind α̂n und β̂n zufällig. 45 • Unter einer sehr schwachen zusätzlichen Regularitätsbedingung gilt nun p α̂n −→ α für n und p β̂n −→ β → ∞ . D.h. die beiden Schätzer sind auch konsistent. • Unter A1–A3 gibt es darüber hinaus keine anderen linearen und unverzerrten Schätzer mit einer geringeren Varianz. • Das bedeutet α̂ und β̂ sind die besten linearen unverzerrten Schätzer (Best Linear Unbiased Estimators, BLUE) für α und β . • Unter der zusätzlichen Annahme A4 sind die KQ-Schätzer α̂ und β̂ zugleich die Maximum-Likelihood-(ML-)Schätzer für α und β . 46 • Ferner gilt unter A1–A4 und Pn 2 21 σ n i=1 xi α̂ ∼ N α, Pn 2 i=1 (xi − x) β̂ ∼ N β, Pn 2 σ 2 i=1 (xi − x) 2.7.2 . Der Schätzer für σ 2 • Aus dem klassischen linearen Regressionsmodell folgt unmittelbar ui = yi − (α + βxi ) . 47 • Das „wahre Residuum“ ui kann also mittels des empirischen Residuums ûi = yi − (α̂ + β̂xi ) approximiert werden. • Unter A1–A4 kann man zeigen, dass n X i=1 û2i ∼ σ 2 χ2n−2 . • Die Residualvarianz σ 2 wird typischerweise durch geschätzt. n X 1 σ̂ 2 = û2i n − 2 i=1 48 • Wegen E(χ2n−2 ) = n − 2 gilt also E(σ̂ 2 ) = σ 2 , d.h. auch σ̂ 2 ist ein unverzerrter Schätzer für σ 2 . • Außerdem kann man unter den Standardannahmen zeigen, dass α̂ und β̂ stochastisch unabhängig von σ̂ 2 sind. • Damit besitzt z.B. der t-Wert r Xn β̂ − β t = · (xi − x)2 i=1 σ̂ Pn 2 N (0, σ /( i=1 (xi − x)2 )) N (0, 1) p Pn = p =p 2 2 2 2 χn−2 /(n − 2) σ χn−2 /(n − 2)/ i=1 (xi − x) eine Studentsche t-Verteilung mit n − 2 Freiheitsgraden. 49 2.7.3 Die geschätzte Regressionsgleichung • Nachdem die Parameter des linearen Modells geschätzt wurden, stellt man die geschätzte Regressionsgleichung wie folgt dar: y = â + β̂ x + u (σ̂α̂ ) (σ̂β̂ ) (σ̂) mit σ̂α̂ = σ̂ s Pn 2 1 i=1 xi n Pn 2 i=1 (xi − x) σ̂ und σ̂β̂ = pPn . 2 i=1 (xi − x) • Hierbei sind σ̂α̂ und σ̂β̂ Schätzer für die Standardabweichungen von α̂ und β̂ . Sie werden als Standardfehler bezeichnet. 50 • Die Standardfehler repräsentieren ad-hoc-Indikatoren für das Schätzrisiko der entsprechenden Parameter. Man beachte, dass α̂ − α0 t= σ̂α̂ • Ferner wird v u u σ̂ = t bzw. 1 n−2 β̂ − β0 t= . σ̂β̂ n X û2i i=1 als Standardfehler der Regression bezeichnet. 51 2.7.4 Hypothesentests für α und β Nullhypothese H0 : α = α0 H0 : α ≤ α0 H0 : α ≥ α0 Gegenhypothese H1 : α 6= α0 H1 : α > α0 H1 : α < α0 Teststatistik H0 ablehnen t= |t| > tn−2;1− α2 α̂−α0 σ̂ q Pn (xi −x) i=1 P n 1 2 i=1 xi n t > tn−2;1−α t < −tn−2;1−α Ein- und zweiseitige Hypothesentests für α . 52 2 Nullhypothese H0 : β = β0 H0 : β ≤ β0 H0 : β ≥ β0 Gegenhypothese H1 : β 6= β0 H1 : β > β0 H1 : β < β0 Teststatistik H0 ablehnen t= |t| > tn−2;1− α2 β̂−β0 σ̂ p Pn 2 (x − x) i i=1 t > tn−2;1−α t < −tn−2;1−α Ein- und zweiseitige Hypothesentests für β . 53 2.7.5 Konfidenzintervalle für α und β • Aus den zweiseitigen Hypothesentests für α und β folgen die entsprechenden Konfidenzintervalle auf dem Konfidenzniveau α . • Z.B. erhält man aus sP n α̂ − α 2 (x − x) i 0 i=1 Pn 2 ≤ tn−2;1− α2 |t| = 1 σ̂ i=1 xi n gerade ein Konfidenzintervall für α mit den Intervallgrenzen α̂u,o = α̂ ± σ̂ s Pn 2 1 i=1 xi n Pn 2 (x − x) i i=1 54 · tn−2;1− α2 . • Auf die gleiche Weise erhält man die Intervallgrenzen β̂u,o σ̂ = β̂ ± pPn · tn−2;1− α2 . 2 (x − x) i i=1 des Konfidenzintervalls für β . • Die Konfidenzintervalle für α und β schreibt man dann wie folgt: h i [α̂u , α̂o ] bzw. β̂u , β̂o . 55 3 Das multiple lineare Regressionsmodell 3.1 Motivation • Das Keynessche Grundmodell Ct = α + βYt + ut , ebenso wie das Habit-Persistence Model Ct = α + βYt + γCt−1 + ut , besitzen die Form yi = β1 + β2 xi2 + . . . + βm xim + ui . 56 • Dies ist das multiple lineare Modell (LIM). • Im Fall m = 2 erhält man wieder das einfache lineare Modell yi = β1 + β2 xi2 + ui . • Hierbei sind – i bzw. t der Index der Beobachtungen (z.B. ein Individuum bzw. Zeitpunkt/Periode), – yi die erklärte Variable, auch Regressand oder endogene Variable genannt, – xij die j -te erklärende Variable, Regressor oder exogene Variable, – ui das Residuum, der Fehler- oder Störterm. 57 • Hierbei stellen β1 , . . . , βm und σ 2 die unbekannten Parameter des Modells dar. • Der Parameter β1 wird als Achsenabschnitt bezeichnet. • Die Parameter β2 , . . . , βm sind die Regressionskoeffizienten. • Die Variablen yi , xi2 , . . . , xim sind beobachtbar, wohingegen das Residuum ui unbeobachtbar (d.h. latent) ist. • Beim klassischen linearen Modell werden die exogenen Variablen xi2 , . . . , xim als fix (d.h. deterministisch) angesehen. • Im Gegensatz dazu ist das Residuum ui eine Zufallsvariable. • Damit ist auch die endogene Variable yi zufällig. 58 3.2 Standardannahmen • Die Standardannahmen des multiplen linearen Regressionsmodells sind wiederum gegeben durch A1–A4. • Aus diesen folgt nun unmittelbar 1. E(yi ) = β1 + β2 xi2 + . . . + βm xim (Linearität), 2. Var(yi ) = σ 2 (Homoskedastizität), sowie 3. Cov(yi , yj ) = 0 (fehlende Autokorrelation) für alle i 6= j . • Aus der Linearität folgt wiederum ∂E(yi ) = βj ∂xij für j = 2, . . . , m . 59 Probleme mit den Standardannahmen • Zunächst stellt die Annahme fixer Regressoren eine grobe Vereinfachung dar. • Darüber hinaus ist die Linearität des Erwartungswerts ebenso eine grobe Vereinfachung. • Die Homoskedastizität ist häufig eine zu starke Annahme, etwa wenn die Varianz von yi von xi abhängt. • Reale Beobachtungen y1 , . . . , yn sind häufig miteinander korreliert (d.h. autokorreliert). • Das gilt insbesondere, wenn es sich bei y1 , . . . , yn um eine Zeitreihe handelt. 60 3.3 Kompakte Darstellung • Das LIM kann kompakt dargestellt werden in der Matrixschreibweise y = Xβ + u . • Hierbei ist 1 x12 . . . . .. .. X = . (n×m) 1 xn2 . . . eine fixe Regressormatrix. 61 x1m .. . xnm • Außerdem sind y1 . .. y = (n×1) yn Spaltenvektoren. , u1 . .. , u = (n×1) un β1 . .. β = (m×1) βm • Der Vektor der Residuen hat den Erwartungswert E(u1 ) . .. E(u) = E(un ) 62 und die Kovarianzmatrix Var(u1 ) Cov(u1 , u2 ) · · · Cov(u , u ) Var(u2 ) ··· 2 1 Var(u) = .. .. .. . . . Cov(un , u1 ) Cov(un , u2 ) · · · Cov(u1 , un ) Cov(u2 , un ) . .. . Var(un ) • Die Standardannahmen lauten dann in Matrixschreibweise: A1 A2–A3 E(u) = 0 (n × 1), wobei 0 ein Nullvektor ist, Var(u) = σ 2 In (n × n), wobei σ 2 > 0 und In eine Einheitsmatrix (oder Identitätsmatrix) darstellt, A4 u ∼ Nn (0, σ 2 In ), d.h. u1 , . . . , un sind gemeinsam normalverteilt und stochastisch unabhängig. 63 • Aus den Standardannahmen folgen wiederum die 1. Linearität bezüglich des Erwartungswerts von y , d.h. E(y) = Xβ , sowie die 2. Homoskedastizität und fehlende Autokorrelation bezüglich y , d.h. Var(y) = σ 2 In . 64 3.4 Elastizitäten • Man betrachte das ökonomische Modell y = α + βx . • Es handelt sich hierbei um ein einfaches lineares Modell bei dem offenbar dy dx =β. • D.h. y steigt um β Einheiten, wenn x um eine Einheit steigt. • Man betrachte jetzt das log-lineare Modell log y = α + βx . 65 • Hierbei stellt log den natürlichen Logarithmus dar und damit gilt −1 d log y dy/y dy d log y = =⇒ β = . · dx dy dx dx | {z } | {z } =y =β • Das bedeutet β quantifiziert nun den prozentualen Anstieg von y wenn x um eine Einheit steigt. Der Parameter β ist also eine Teilelastizität. • Bezüglich des log-log-linearen Modells log y = α + β log x 66 gilt analog dazu dy dx = | d log y dy {z =y −1 · d log y · d log x d log x | d{z x } | {z } } =⇒ β= dy/y dx/x . = 1/x =β • D.h. β quantifiziert also den prozentualen Anstieg von y wenn x um ein Prozent steigt und ist damit eine Elastizität. • Man erhält dieselben Interpretationen, wenn y neben x von weiteren Regressoren abhängt. • In diesem Fall ist β die partielle Ableitung bzw. (Teil-)Elastizität. 67 Beispiel • Der relative Lohn der Personen i = 1, . . . , n soll mit Hilfe eines log-linearen Modells log Wi = β1 + β2 Ei + β3 Ti + β4 Bi + ui erklärt werden. • Die Bedeutung der einzelnen Variablen: – Wi : relativer Lohn von i = – Ei : Schule und Ausbildung [in Jahren], – Ti : Berufserfahrung [in Jahren], – Bi : Erfahrung im aktuellen Beruf [in Jahren]. 68 individueller Stundenlohn , durchschnittlicher Stundenlohn • Das folgende Modell ist äquivalent dazu: Wi = eβ1 · eβ2 Ei · eβ3 Ti · eβ4 Bi · eui mit der Eulerschen Zahl e = 2.71828 . • Z.B. erhält man für β2 = 0.03 die Aussage, dass eine um ein Jahr längere Ausbildung ceteris paribus mit einer Erhöhung des relativen Lohns von c.a. 3% einhergeht. • Achtung: Hierbei wird keineswegs ein kausaler, sondern nur ein statistischer Zusammenhang zum Ausdruck gebracht! • D.h. man kann nicht etwa sagen, dass eine längere Ausbildung die Ursache für einen höheren Lohn ist. 69 3.5 Herleitung des KQ-Schätzers • Zwecks Schätzung von β minimieren wir genauso wie im einfachen Modell die Summe der quadrierten Residuen, d.h. β̂ = arg minm (y − Xb)′ (y − Xb) . b∈R • Der daraus resultierende Schätzer wird auch als gewöhnlicher KQ-Schätzer (Ordinary Least-Squares Estimator, kurz: OLS) bezeichnet. • Man definiert nun SSR(b) = (y − Xb)′ (y − Xb). Eine notwendige Bedingung für das Minimum ist damit ∂ SSR(β̂) = 0. ∂b 70 • Man beachte zunächst, dass SSR(b) = y ′ y − y ′ Xb − (Xb)′ y + (Xb)′ Xb = y ′ y − 2y ′ Xb + b′ X ′ Xb . • Die partielle Ableitung von SSR(b) nach b ∈ Rm lautet ∂ SSR(b) = −2X ′ y + 2X ′ Xb . ∂b • D.h. die notwendige Bedingung ist also gerade ∂ SSR(β̂) = −2X ′ y + 2X ′ X β̂ = 0 . ∂b 71 • Daraus resultiert unmittelbar der KQ-Schätzer für β , nämlich β̂ = (X ′ X) −1 X ′y . • Voraussetzung: X ′ X ist nicht singulär! • Falls die Anzahl m der Parameter den Stichprobenumfang n übersteigt, ist die Matrix X ′ X singulär. • Für m ≤ n kann X ′ X sogar ebenfalls singulär sein (Multikollinearität). In aller Regel ist X ′ X dann jedoch regulär. • Man kann zeigen, dass auch die hinreichende Bedingung für das Minimum erfüllt ist, sofern X ′ X tatsächlich regulär ist. 72 • Im Fall m = 2 erhält man wieder das einfache lineare Modell. • Die Regressormatrix ist dann gegeben durch 1 x1 .. .. X = . . , 1 xn wobei X ′ X bereits dann regulär ist, wenn x1 , . . . , xn nicht allesamt gleich sind. • D.h. es muss lediglich gelten, dass n X 1 (xi − x̄)2 > 0 . σ̂x2 = n i=1 73 • Es stellt sich nun heraus, dass P n xi X X = P P 2 . xi xi ′ • Die Inverse von X ′ X entspricht (X ′ X) −1 P P 2 x − xi 1 i . = P · P P 2 n x2i − xi − xi n • Außerdem erhält man P yi ′ . X y = P xi y i 74 • Damit ist der KQ-Schätzer gegeben durch P P P P x2i yi − xi xi y i 1 . · β̂ = P P P P P 2 n x2i − xi n xi y i − xi yi • Der geschätzte Regressionskoeffizient ist also P P P xi yi n xi y i − β̂2 = P 2 P 2 n xi − ( xi ) P P P P 1 1 1 1 xi yi − ( n xi )( n yi ) xi yi − x̄ȳ σ̂xy n n = = 1P 2 = 2 . P 2 P 2 2 1 1 σ̂x xi − x̄ xi − n xi n n 75 • Bezüglich des KQ-Schätzers für den Achsenabschnitt erhält man β̂1 = = = = P P P yi − xi xi yi P 2 P 2 n xi − xi P P 2 P P P P P xi yi − x̄ xi yi − x̄ n xi yi − xi yi P 2 P 2 n xi − xi P 2 P P P xi yi − x̄ xi yi − β̂ x̄ P 2 P 2 n xi − xi P 2 P 2 1 P n xi − xi yi n − β̂ x̄ = ȳ − β̂ x̄ . P 2 P 2 n xi − xi P x2i • Ergo: β̂1 und β̂2 entsprechen tatsächlich den bereits bekannten KQ-Schätzern α̂ und β̂ des einfachen linearen Modells. 76 3.6 Der Determinationskoeffizient • Sei β̂ der KQ-Schätzer für β . Dann wird ŷ = X β̂ als geschätzte Regression bezeichnet. • Ferner ist û = y − ŷ das sogenannte empirische Residuum. • Die Summe der quadrierten Residuen û′ û misst die Anpassungsgüte der Regressionsebene an die Daten. 77 • D.h. bei einer vorgegebenen Stichprobe der Länge n produziert das LIM mit der kleinsten Quadratsumme die beste Anpassung. • Achtung: Ein Vergleich der Quadratsummen verschiedener Stichproben macht jedoch keinen Sinn! • Man kann zeigen, dass n X ûi = 0 . i=1 • Damit gilt insbesondere auch n 1X û = ûi = 0 . n i=1 78 • Für die Summe der quadrierten Residuen gilt dann û′ û = n X i=1 • Deshalb ist n X û2i = (ûi − û)2 . i=1 n n X X 1 1 2 2 ¯ σ̂û = (ûi − û) = û2i n i=1 n i=1 die empirische Varianz von û . • Die empirische Varianz von ŷ ist hingegen n n X X 1 1 2 2 σ̂ŷ = (ŷi − ŷ) mit ŷ = ŷi . n i=1 n i=1 79 • Man beachte, dass n n n 1X 1X 1X ȳ = yi = (ŷi + ûi ) = ŷi = ŷ . n i=1 n i=1 n i=1 • Darüber hinaus gilt der Varianzzerlegungssatz n 1X 2 (yi − y)2 = σ̂ŷ2 + σ̂û2 . σ̂y = n i=1 • D.h. die Streuung σ̂y2 der erklärten Variablen y lässt sich in zwei Bestandteile zerlegen: 1. Die Streuung σ̂ŷ2 der geschätzten Regression und 2. die Streuung σ̂û2 der empirischen Residuen. 80 • Je größer hierbei der Anteil von σ̂ŷ2 an der Gesamtstreuung σ̂y2 ist, desto besser ist die Anpassung der Regression an die Daten. • Aus diesem Grund wird σ̂ŷ2 /σ̂y2 als der durch die geschätzte Regression erklärte Anteil von σ̂y2 bezeichnet. • Dementsprechend ist σ̂û2 /σ̂y2 der nicht erklärte Anteil von σ̂y2 . • Aus dem Varianzzerlegungssatz folgt nun 0 ≤ σ̂ŷ2 /σ̂y2 ≤ 1. • Die Zahl 2 2 σ̂ σ̂ ŷ R2 = 2 = 1 − û2 σ̂y σ̂y wird als Determinationskoeffizient (oder Bestimmtheitsmaß) bezeichnet. 81 • Im Fall R2 = 1 gilt σ̂û2 = 0 und damit ûi = 0 für i = 1, . . . , n . D.h. die Daten werden vollständig durch die geschätzte Regression erklärt. • Im Falle R2 = 0 gilt σ̂ŷ2 = 0 und damit ŷi = ȳ für i = 1, . . . , n . D.h. die geschätzte Regression hat keinerlei Erklärungsgehalt. • Man kann außerdem zeigen, dass 2 R2 = ry,ŷ , wobei ry,ŷ = 1 n Pn i=1 (yi − ȳ)(ŷi − ŷ) q σ̂y2 σ̂ŷ2 σ̂y,ŷ = σ̂y σ̂ŷ der empirische Korrelationskoeffizient zwischen y und ŷ ist. 82 Bemerkungen zum Gebrauch von R2 • Die Interpretation von R2 als Bestimmtheitsmaß gilt nicht für ein homogenes LIM y = β2 x2 + . . . + βm xm (d.h. β1 = 0). • Grund: Bei einem homogenen LIM ist der Varianzzerlegungssatz verletzt. Das R2 kann in diesem Fall sogar negativ werden. • R2 misst lediglich den Grad des linearen Zusammenhangs zwischen x und y . Andere funktionale Beziehungen werden dadurch nicht erfasst. • Es lässt sich kein allgemeines Gütekriterium für R2 angeben. • Unter A4 können exakte Hypothesentests mit Hilfe von R2 durchgeführt werden. 83 3.7 Schätzung der Regressionskoeffizienten • Sei b xx Σ wobei σ̂x2 ,x3 . . . σ̂x2 ,xm 2 σ̂ σ̂ σ̂ x ,x x ,x 3 2 3 m x3 = . , . . .. .. .. σ̂xm ,x2 σ̂xm ,x3 . . . σ̂x2m σ̂xi ,xj für i, j σ̂x22 n X 1 = (xti − x̄i )(xtj − x̄j ) n t=i = 2, . . . , m . b xx ist also die empirische Kovarianzmatrix der Regressoren. • Σ 84 • Ferner sei b xy Σ mit σ̂xj ,y für j = 2, . . . , m . σ̂x2 ,y σ̂ x3 ,y = . .. σ̂xm ,y n X 1 = (xtj − x̄j )(yt − ȳ) n t=1 b xy der Vektor der empirischen Kovarianzen • Damit ist Σ zwischen den Regressoren und der erklärten Variablen. 85 • Der auf die Regressionskoeffizienten β2 , . . . , βm bezogene Teil von β wird nun mit βs ∈ Rm−1 bezeichnet. • Dementsprechend ist β̂s der dazugehörige Teil von β̂ . • Man kann zeigen, dass b −1 Σ b β̂s = Σ xx xy . • Beachte: Im Spezialfall des einfachen linearen Modells resultiert daraus gerade die altbekannte Formel für den KQ-Schätzer σ̂xy β̂2 = 2 σ̂x des Regressionskoeffizienten. 86 3.8 Statistische Inferenz 3.8.1 Der Schätzer für β • Unter A1 ist β̂ unverzerrt, d.h. E(β̂) = β . • Sei β̂n der KQ-Schätzer beim Stichprobenumfang n. Dann gilt unter einer sehr schwachen zusätzlichen Regularitätsbedingung p β̂n −→ β , n −→ ∞ . D.h. β̂ ist ein konsistenter Schätzer für β . • Darüber hinaus ist β̂ unter A4 der ML-Schätzer für β . 87 • Unter A1–A4 gilt β̂ ∼ Nm (β, σ 2 (X ′ X)−1 ) . • Bezüglich des Schätzers der Regressionskoeffizienten gilt insbesondere 3.8.2 2 σ b −1 β̂s ∼ Nm−1 βs , Σxx . n Der Schätzer für σ 2 • Unter A1–A4 lässt sich zeigen, dass n X i=1 û2i ∼ σ 2 χ2n−m . 88 • Der Schätzer für die Residualvarianz ist nun n X 1 û2i . σ̂ 2 = n − m i=1 • Daraus folgt E(σ̂ 2 ) = σ 2 , d.h. σ̂ 2 ist ein unverzerrter Schätzer für die Residualvarianz σ 2 . • Außerdem sind β̂ und σ̂ 2 stochastisch unabhängig. • Daraus folgt z.B. für den F -Wert b xx (β̂s − βs ) n (β̂s − βs )′ Σ F = ∼ Fm−1,n−m , 2 m−1 σ̂ wobei Fm−1,n−m die Fishersche F -Verteilung mit m − 1 Zählerfreiheitsgraden und n − m Nennerfreiheitsgraden ist. 89 3.8.3 Die geschätzte Regressionsgleichung • Beachte: Die Matrix σ̂ 2 (X ′ X)−1 ist ein unverzerrter Schätzer für die Kovarianzmatrix von β̂ . • Die Standardfehler von β̂1 , . . . , β̂m entsprechen damit den Quadratwurzeln der Hauptdiagonalelemente von σ̂ 2 (X ′ X)−1 . • Diese werden im Folgenden durch σ̂β̂1 , . . . , σ̂β̂m symbolisiert und auf diese Weise erhält man die geschätzte Regressionsgleichung y = β̂1 + β̂2 x2 + . . . + β̂m xm + u . (σ̂β̂ ) 1 (σ̂β̂ ) (σ̂β̂ ) (σ̂) m 2 • Hierbei ist σ̂ wiederum der Standardfehler der Regression. 90 • Beachte: Die Standardfehler von β̂2 , . . . , β̂m sind darüber hinaus die Quadratwurzeln der Hauptdiagonalelemente von σ̂ 2 b −1 Σxx . n • Es ist also egal, ob man σ̂β̂2 , . . . , σ̂β̂m anhand von σ̂ 2 (X ′ X)−1 b −1 ermittelt. oder σ̂ 2 /n Σ xx b xx sollte • Die Berechnung der empirischen Kovarianzmatrix Σ allerdings aus bestimmten Gründen sowieso vorgenommen werden (dazu später mehr). • Aus diesem Grund bietet sich das zweite Berechnungsverfahren an, sofern man lediglich die Regressionskoeffizienten analysieren möchte. 91 3.8.4 Hypothesentests für β1 , . . . , βm Nullhypothese H0 : βj = βj0 H0 : βj ≤ βj0 H0 : βj ≥ βj0 Gegenhypothese H1 : βj 6= βj0 H1 : βj > βj0 H1 : βj < βj0 Teststatistik t= βˆj −βj0 r σ̂ 2 , (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (X ′ X)−1 1 m β̂j H0 ablehnen |t| > tn−m;1− α2 t > tn−m;1−α Ein- und zweiseitige Hypothesentests für βj . 92 t < −tn−m;1−α 3.8.5 Der klassische F -Test • Gegeben sei die Nullhypothese H0 : β2 , . . . , βm = 0 . • D.h. man nimmt an, dass die Regressoren x2 , . . . , xm überhaupt keinen Einfluss auf die erklärte Variable y ausüben. • Dementsprechend kann H0 anhand von R2 getestet werden. • Die dazugehörige Teststatistik lautet R2 n−m F = · ∼ Fm−1,n−m . 2 m−1 1−R • H0 wird nun im Falle F > Fm−1,n−m;1−α abgelehnt. • Man spricht hierbei vom klassischen F -Test. 93 3.8.6 Konfidenzintervalle für β1 , . . . , βm • Die Grenzen eines zweiseitigen (und symmetrischen) Konfidenzintervalls für βj auf dem Niveau 1 − α erhält man gerade durch β̂j,u,o = β̂j ± σ̂β̂j tn−m;1− α2 . • Die dazugehörige Herleitung erfolgt auf die gleiche Weise wie für die Parameter α und β des einfachen linearen Modells. • Für das Konfidenzintervall bezüglich βj schreibt man dann i h i h β̂j,u , β̂j,o = β̂j − σ̂β̂j tn−m;1− α2 , β̂j + σ̂β̂j tn−m;1− α2 . 94 3.9 Das Gauss-Markoff-Theorem • Ein beliebiger Schätzer β̃ für β heißt bekanntlich unverzerrt, wenn E(β̃) = β (für alle β ∈ Rm ). • Der Schätzer β̃ heißt linear, falls es einen Vektor a ∈ Rm und eine Matrix B ∈ Rm×m gibt, so dass β̃ = a + By. • Insbesondere der KQ-Schätzer ist linear, denn β̂ = a + By mit a = 0 und B = (X ′ X)−1 X ′ . • Seien nun β̃1 und β̃2 zwei beliebige unverzerrte Schätzer für β . 95 • Man sagt der Schätzer β̃1 dominiert (über) den Schätzer β̃2 , wenn Var(x′ β̃1 ) ≤ Var(x′ β̃2 ) für alle x ∈ Rm . • D.h. eine beliebige Linearkombination der Komponenten von β̃1 kann keine größere Varianz als die entsprechende Linearkombination der Komponenten von β̃2 aufweisen. • In diesem Sinne ist β̃1 also ein „besserer“ Schätzer als β̃2 . • Ein unverzerrter Schätzer β̃ wird nun als bester unverzerrter Schätzer bezeichnet, wenn er über alle anderen existierenden unverzerrten Schätzer dominiert. 96 • Gauss-Markoff-Theorem: Unter den Annahmen A1–A3 ist der KQ-Schätzer β̂ = (X ′ X)−1 X ′ y der beste lineare unverzerrte Schätzer (BLUE) für β . • Vorsicht: Das Gauss-Markoff-Theorem besagt lediglich, dass β̂ der Beste unter allen unverzerrten linearen Schätzern für β ist. • Darüber hinaus vergleicht das besagte Theorem β̂ nicht etwa mit etwaigen verzerrten Schätzern für β . • Unter der zusätzlichen Standardannahme A4 ist der KQ-Schätzer jedoch sogar der beste unverzerrte Schätzer (BUE)! 97 Teil II Modelle mit stochastischen Regressoren R.A. Fisher (1890–1962) J. Heckman (1944–dato) 98 Lars P. Hansen (1952–dato) 4 Das bedingte lineare Regressionsmodell 4.1 Motivation • Die Annahme fixer Regressoren wird nun fallen gelassen und durch die Annahme stochastischer Regressoren ersetzt. • Dies geschieht zunächst auf eine Art und Weise, bei der die meisten Schlussfolgerungen des klassischen linearen Modells ihre Gültigkeit behalten. • In praktischen Anwendungen haben stochastische Regressoren eine zentrale Bedeutung. 99 4.2 Standardannahmen Für jede mögliche Realisation x der Regressormatrix X seien folgende Standardannahmen erfüllt: A1 Der bedingte Erwartungswert aller Residuen beträgt Null, d.h. E(ui | X = x) = 0 , A2 alle Residuen besitzen die gleiche bedingte Varianz, d.h. Var(ui | X = x) = σ 2 > 0 , A3 die Residuen sind bedingt unkorreliert, d.h. Cov(ui , uj | X = x) = 0 für i 6= j und i, j = 1, . . . , n und A4 die Residuen sind bedingt gemeinsam normalverteilt, d.h. u1 , . . . , un | X = x ∼ N (0, σ 2 ) und bedingt unabhängig. 100 In kompakter Schreibweise lauten die Standardannahmen: A1 A2–A3 A4 E(u | X = x) = 0 , Var(u | X = x) = σ 2 In mit σ 2 > 0 und u | X = x ∼ Nn (0, σ 2 In ) . • Damit bleiben die Standardannahmen des klassischen linearen Regressionsmodells unter der Bedingung gegebener Werte aller Regressoren erhalten! • Achtung: Es „wird so getan, als ob“ die Regressoren fix seien. Nichtsdestotrotz handelt es sich um ein Modell mit zufälliger Regressormatrix X (bis auf die erste Spalte). 101 • Annahme A1 wird als strikte Exogenität bezeichnet. • Daraus folgt insbesondere E(yi | X = x) = β1 + β2 xi2 + . . . + βm xim . • D.h. die strikte Exogenität ersetzt die Linearitätsannahme des klassischen linearen Regressionsmodells. • Darüber hinaus lässt sich zeigen, dass aus A1 Cov(xij , ui ) = 0 für i = 1, . . . , n und j = 2, . . . , m folgt. • D.h. die strikte Exogenität beinhaltet, dass die Regressoren und das Residuum unkorreliert sind (Exogenität). 102 4.3 Statistische Inferenz 4.3.1 Der Schätzer für β • Unter A1 ist β̂ weiterhin unverzerrt, d.h. E(β̂) = β . • Außerdem gilt unter einer sehr schwachen zusätzlichen Regularitätsbedingung p β̂n −→ β , n −→ ∞ . D.h. β̂ bleibt ebenso ein konsistenter Schätzer für β . • Darüber hinaus ist β̂ unter A4 der (auf X ) bedingte ML-Schätzer für β . 103 • Unter A1–A4 gilt 2 ′ β̂ | X = x ∼ Nm β, σ (x x) −1 . • Bezüglich des Schätzers der Regressionskoeffizienten gilt insbesondere 2 σ b −1 β̂s | X = x ∼ Nm−1 βs , Σxx . n • Bereits unter A1–A3 folgt wiederum unter einer sehr schwachen zusätzlichen Regularitätsbedingung √ d 2 −1 n (β̂s − βs ) −→ Nm−1 0, σ Σxx , n −→ ∞ . • Hierbei symbolisiert Σxx die Kovarianzmatrix der Regressoren. 104 4.3.2 Der Schätzer für σ 2 • Unter A1–A4 lässt sich weiterhin zeigen, dass n X i=1 û2i ∼ σ 2 χ2n−m . • Damit gilt weiterhin E(σ̂ 2 ) = σ 2 , d.h. σ̂ 2 bleibt ein unverzerrter Schätzer für die Residualvarianz σ 2 . • Lässt man A4 fallen, so ist die letzte Aussage im Allgemeinen nicht mehr gültig! • Außerdem sind β̂ und σ̂ 2 unter A1–A4 stochastisch unabhängig, jedoch nicht mehr zwangsläufig unter A1–A3. 105 • Unter A1–A3 und einer sehr schwachen zusätzlichen Regularitätsbedingung gilt jedoch 2 p σ̂ −→ σ 2 , n −→ ∞ . D.h. σ̂ 2 ist zumindest konsistent für σ 2 . • Genauso ist aber auch n X 1 2 σ̂û = û2i n i=1 in diesem Fall ein konsistenter Schätzer für σ 2 . • D.h. in großen Stichproben kann man die Quadratsumme der empirischen Residuen statt durch n − m einfach durch n teilen. 106 4.3.3 Hypothesentests für β1 , . . . , βm Unter den Annahmen A1–A4 sind die folgenden Hypothesentests für β1 , . . . , βm bereits in kleinen Stichproben gültig: Nullhypothese H0 : βj = βj0 H0 : βj ≤ βj0 H0 : βj ≥ βj0 Gegenhypothese H1 : βj 6= βj0 H1 : βj > βj0 H1 : βj < βj0 Teststatistik t= βˆj −βj0 r σ̂ 2 , (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (x′ x)−1 1 m β̂j H0 ablehnen |t| > tn−m;1− α2 t > tn−m;1−α t < −tn−m;1−α Exakte ein- und zweiseitige Hypothesentests für β1 , . . . , βm . 107 Unter den Annahmen A1–A3 sind die folgenden Hypothesentests für β1 , . . . , βm erst in großen Stichproben approximativ gültig: Nullhypothese H0 : βj = βj0 H0 : βj ≤ βj0 H0 : βj ≥ βj0 Gegenhypothese H1 : βj 6= βj0 H1 : βj > βj0 H1 : βj < βj0 Teststatistik t= βˆj −βj0 r σ̂ 2 , (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (x′ x)−1 1 m β̂j H0 ablehnen |t| > Φ1− α2 t > Φ1−α t < −Φ1−α Approximative ein- und zweiseitige Hypothesentests für β1 , . . . , βm . 108 4.3.4 Der F - und χ2 -Test • Unter A1–A4 bleibt der klassische F -Test für die Nullhypothese H0 : β2 , . . . , βm = 0 weiterhin gültig. • Sind jedoch lediglich die Annahmen A1–A3 erfüllt, so lässt sich zeigen, dass unter H0 zumindest 2 d nR −→ χ2m−1 , n −→ ∞ , gilt. • H0 wird also abgelehnt, falls nR2 > χ2m−1;1−α bei einem hinreichend großen Stichprobenumfang n . 109 4.3.5 Konfidenzintervalle für β1 , . . . , βm • Unter A1–A4 ist h i h i β̂j,u , β̂j,o = β̂j − σ̂β̂j tn−m;1− α2 , β̂j + σ̂β̂j tn−m;1− α2 ein exaktes Konfidenzintervall für β1 , . . . , βm auf dem Niveau 1 − α bei einem beliebig großen Stichprobenumfang n > m . • Fällt die Annahme A4 weg, so erhält man mit h i h i β̂j,u , β̂j,o = β̂j − σ̂β̂j Φ1− α2 , β̂j + σ̂β̂j Φ1− α2 ein approximatives Konfidenzintervall für β1 , . . . , βm auf dem Niveau 1 − α bei einem hinreichend großen Stichprobenumfang. 110 5 Modellwahl 5.1 Die grundlegenden Ziele der linearen Regression • Zur Erinnerung: Unter der Annahme der strikten Exogenität E(ui | X = x) = 0 gilt E(yi | X = x) = β1 + β2 xi2 + . . . + βm xim . • Das erste Ziel der linearen Regression besteht darin, ∂E(yi | X = x) = βj ∂xij für j = 1, . . . , m zu ermitteln. 111 • Man möchte also abschätzen, um wie viele Einheiten yi steigt, wenn xij um eine Einheit steigt. • Die Variable yi wird also durch die Variable xij erklärt. • Wichtig: Man muss βj als partielle Ableitung interpretieren. D.h. man tut so, als ob die anderen Regressoren konstant bleiben (Ceteris-Paribus-Bedingung). • Problem: In Wirklichkeit sind die Regressoren in aller Regel miteinander korreliert. • D.h. bei jeder Änderung von xij ändern sich auch die anderen Regressoren. Diese haben aber i.d.R. ebenso einen Einfluss auf die erklärte Variable! 112 • Das zweite Ziel der linearen Regression besteht darin, n o β = (β1 , . . . , βm ) = arg min E (yi∗ − yi )2 b1 ,...,bm zu finden, wobei yi∗ = b1 + b2 xi2 + . . . + bm xim . ∗ 2 • Hierbei wird E (yi − yi ) als mittlerer Quadratfehler (engl.: Mean Square Error, kurz: MSE) von yi∗ bezeichnet. • Bei yi∗ handelt es sich um eine Vorhersage von yi . • Man versucht also, jene Parameter β1 , . . . , βm zu finden, so dass der MSE zwischen Vorhersage und Wirklichkeit minimal ist. • In diesem Sinne hat man dann also die beste Vorhersage von yi auf Basis der Variablen xi2 , . . . , xim erreicht. 113 5.2 Der Fundamentalsatz der linearen Regression Im Folgenden seien µy = E(yi ) und µx = E {(xi2 , . . . , xim )}. n β = arg min E (yi∗ − yi )2 b1 ,...,bm o m β1 µy − βs′ µx = βs Σ−1 xx Σxy m E(ui ) = 0 Cov(xij , ui ) = 0 . und 114 • Man kann zeigen, dass aus E(ui | X = x) = 0 automatisch E(ui ) = 0 sowie Cov(xij , ui ) = 0 (→ Exogenität) folgt. • D.h. die strikte Exogenität garantiert, dass der Fundamentalsatz der linearen Regression erfüllt ist. • Die grundlegenden Ziele der linearen Regression können nun wie folgt zusammengefasst werden: 1. Die endogene Variable y soll durch die exogenen Variablen x2 , . . . , xm erklärt werden und 2. die Variable y soll „so gut wie möglich“ durch eine affin-lineare Kombination von x2 , . . . , xm vorhergesagt werden. • Beachte: Für das Ziel „Vorhersage“ reicht die bloße Exogenität! 115 5.3 Erklärung 5.3.1 Die Bedeutung der Regressionskoeffizienten • Unter gewissen Regularitätsbedingungen kann man zeigen, dass es zunächst völlig egal ist, für welche Regressoren man sich bei der Auswahl des linearen Modells entscheidet. • Will sagen die Standardannahmen der linearen Regression mit stochastischen Regressoren sind stets erfüllt! • Der Parameter β hängt maßgeblich von den gewählten Regressoren ab. Ersetzt man z.B. xj durch eine andere Variable, so ändert sich im Allgemeinen der gesamte Vektor β . 116 • Gegeben seien die beiden folgenden Modelle: A: y = β1 + β2 x2 + . . . + βp xp + u B: y = γ1 + γ2 z2 + . . . + γq zq + v , wobei (x2 , . . . , xp ) und (z2 , . . . , zq ) unterschiedlich sind. • Frage: Welches Modell ist nun „korrekt“? • Antwort: Beide Modelle sind korrekt! • A und B sind uneingeschränkt zulässig und stehen in keinem Widerspruch zueinander. 117 • Nun sei C: y = α + β2 x2 + . . . + γq zq + w ein anderes LIM. Die Regressoren sind hierbei gegeben durch den Vektor (x2 , . . . , xp , z2 , . . . , zq ). • Frage: Ist A: y = β1 + β2 x2 + . . . + βp xp + u oder C das „korrekte“ Modell? • Antwort: Wiederum sind beide Modelle korrekt und stehen in keinem Widerspruch zueinander. • Beachte: Im Allgemeinen wird βs in A nicht mit βs in C übereinstimmen! 118 • Der Unterschied zwischen den linearen Modellen A, B und C besteht lediglich darin, dass die endogene Variable anhand unterschiedlicher Regressoren erklärt wird. • Beachte: Die Regressoren x2 , . . . , xp , z2 , . . . , zq sind im Allgemeinen miteinander korreliert. • Der Vektor (β2 , . . . , βp ) im LIM C quantifiziert den partiellen Einfluss von (x2 , . . . , xp ) auf y , wobei (z2 , . . . , zq ) als fix erachtet wird. • Dieser entspricht im Allgemeinen nicht dem totalen Einfluss von (x2 , . . . , xp ) auf y , welcher wiederum durch (β2 , . . . , βp ) im LIM A abgebildet wird. • Ähnliches gilt auch für die Achsenabschnitte α und β1 . 119 • Quintessenz: Es existieren also de facto unendlich viele lineare Regressionsmodelle für die endogene Variable y . • Frage: Welche Regressoren sollten nun bei der Konstruktion eines linearen Modells herangezogen werden? • Antwort: 1. Zielt man auf die Erklärung von y ab, so sollte die Wahl der Regressoren alleine auf Basis theoretischer Argumente (z.B. ökonomischer Hypothesen) erfolgen. 2. Möchte man hingegen eine Vorhersage für y treffen, sollte man sich auf Regressoren konzentrieren, welche die stärkste Vorhersagekraft aufweisen. 120 Beispiel • Gegeben sei das LIM yi = β1 + β2 si + β3 ai + ui , i = 1, . . . , n , wobei yi das Einkommen, si die Ausbildung („Schooling“) und ai die Begabung („Ability“) eines Individuums i darstellen. • Die Ausbildung wird typischerweise durch die Anzahl der Schuljahre gemessen. • Man kann vermuten, dass si und ai positiv korreliert sind. • D.h. eine höhere Begabung führt i.d.R. zu einer besseren Ausbildung. 121 • Der totale Einfluss von si auf yi setzt sich aus 1. dem direkten Einfluss von si auf yi (si → yi ), sowie 2. dem indirekten Einfluss von si auf yi (si → ai → yi ) zusammen. • D.h. wenn man den Einfluss der Ausbildung auf das Einkommen bei gleich bleibender Begabung quantifizieren möchte, ist das obige Modell „korrekt“. • Möchte man hingegen den totalen Einfluss von si auf yi messen, so lautet das korrekte Modell stattdessen yi = α + βsi + vi , 122 i = 1, . . . , n . 5.3.2 Kollinearität • Nun betrachte man das einfache LIM yi = α + βfi + ui , i = 1, . . . , n , wobei yi die Anzahl der Verbrechen ist, die von einem Individuum i begangen werden. • Ferner ist fi eine Indikatorvariable mit den möglichen Ausprägungen 0, fi = 1, i ist Inländer, i ist Ausländer. • Die ∅ Anzahl der Verbrechen eines Ausländers ist also α + β . 123 • Angenommen β ist positiv. Frage: Bedeutet das, dass Ausländer im Allgemeinen krimineller sind, als Inländer? • Antwort: Nein! • Grund: Viele andere Faktoren (z.B. sozialer Status, Einkommen, etc.) können die Delinquenz eines Individuums determinieren. • Nun betrachte man das LIM yi = β1 + β2 fi + β3 si + vi , i = 1, . . . , n , wobei si den sozialen Status des Individuums i misst. • Üblicherweise sind fi und si negativ korreliert, d.h. Ausländer sind unterprivilegiert. 124 • Dieser Effekt wird im zweiten LIM erfasst. • Der Parameter β2 hat hier eine ganz andere Bedeutung, als das β im ersten LIM. • β2 quantifiziert den Einfluss der Nationalität auf die Delinquenz bei gleich bleibendem sozialen Status. • Dieser Wert kann sogar negativ sein, obwohl β im ersten Modell positiv ist! • Diesen Effekt bezeichnet man als negative Kollinearität. 125 Beispiel • Gegeben sei das LIM yt = β1 + β2 xt2 + β3 xt3 + ut , t = 1, . . . , n . • Hierbei seien yt der Kakaopreis, xt2 der Kaffeepreis und xt3 der Teepreis zum Zeitpunkt t . • Angenommen β2 ist negativ. Frage: Hat der Kaffeepreis einen negativen Einfluss auf den Kakaopreis? • Antwort: Nicht unbedingt! Die Preise von Kaffee und Tee sind nämlich i.d.R. stark positiv korreliert. 126 • Falls β3 > 0 kann der indirekte Einfluss xt2 → xt3 → yt den direkten Einfluss xt2 → yt überwiegen. • Diesen Effekt nennt man positive Kollinearität. • Wenn zwei Regressoren stark miteinander korreliert sind, spricht man von Kollinearität. Sind mindestens zwei Regressoren stark miteinander korreliert, so spricht man von Multikollinearität. • Im Falle der Multikollinearität erhält man keine validen Schätzer für die Parameter eines LIM. Multikollinearität wirkt sich also negativ auf die Erklärung aus. • Multikollinearität hat jedoch überhaupt keinen Einfluss auf die Güte der Vorhersage! 127 5.3.3 Der Omitted Variables Bias • Man betrachte nun die zwei LIMs A’: y = α + β2 x2 + . . . + βp xp + w C: y = α + β2 x2 + . . . + γq zq + w , wobei bei C angenommen wird, dass mindestens ein γj 6= 0 . • Hier besteht nun tatsächlich ein Konflikt zwischen A’ und C. • Grund: Man nimmt an, dass die Parameter α, β2 , . . . , βp sowie der Störterm w in beiden Modellen identisch sind! • Entweder sind alle γj = 0 (A’) oder mindestens ein γj 6= 0 (C). 128 • D.h. entweder A’ oder C ist korrekt, jedoch können A’ und C nicht gemeinsam gültig sein. • A’ ist eingebettet in dem linearen Regressionsmodell C’: y = α + β2 x2 + . . . + γq zq + w . • Beachte: Beim Letzteren wird nicht angenommen, dass mindestens ein γj 6= 0 ist. • Man lehnt A’ zugunsten von C ab, wenn die Nullhypothese H0 : γ2 = . . . = γq = 0 verworfen wird. • Die Nullhypothese kann wieder mit Hilfe eines speziellen F -Tests überprüft werden. 129 • C kann äquivalent formuliert werden als C: mit w ∗ y = α + β2 x2 + . . . + βp xp + w ∗ = γ2 z2 + . . . + γq zq + w . • D.h. man möchte den partiellen Einfluss des Vektors (x2 , . . . , xp ) auf y unter der Ceteris-Paribus-Bedingung bezüglich des Vektors (z2 , . . . , zq ) analysieren. • Problem: Die Regressoren z2 , . . . , zq werden bei der Konstruktion des linearen Modells weggelassen (engl.: omitted)! • Das führt schließlich zu einer (sogar asymptotisch) verzerrten Schätzung der Parameter α, β2 , . . . , βp . • Man spricht hierbei vom sogenannten Omitted Variables Bias. 130 Beispiel • Man betrachte wieder die Ausbildungsgleichung yi = β1 + β2 si + β3 ai + ui , i = 1, . . . , n . • Die Begabung eines Individuums wird also „omitted“, 1. sofern β3 6= 0 , 2. man nach den Parametern β1 und β2 sucht, diese jedoch 3. fälschlicherweise auf Basis der Regressionsgleichung yi = β1 + β2 si + vi , schätzt. 131 i = 1, . . . , n , 5.4 Vorhersage 5.4.1 Schätzung der Parameter • Im Gegensatz zur Erklärung ist es bei der Vorhersage prinzipiell egal, welche Regressoren man wählt. • Angenommen man möchte sich auf m − 1 Regressoren konzentrieren. • Das zugrunde liegende LIM ist also y = β1 + β2 x2 + . . . + βm xm + u . • Man könnte stattdessen auch jede andere Menge von m − 1 Regressoren zwecks Vorhersage von y wählen. 132 • Zur Erinnerung: Der Störterm ist gerade u = y − β1 − β2 x2 − . . . − βm xm und hängt damit von den gewählten Regressoren ab. • Am besten eignet sich also jene Menge von m − 1 Regressoren, bei der die Varianz des Störterms am kleinsten ist. • Für jede beliebige Menge von Regressoren gilt der Fundamentalsatz, d.h. der Vektor β der optimalen Parameter β1 , . . . , βm ist stets gegeben durch β1 µy − βs′ µx . β= = βs Σ−1 xx Σxy 133 • Der KQ-Schätzer für den unbekannten Vektor β lautet ′ β̂ ȳ − β̂ 1 s x̄ ′ −1 ′ . β̂ = (X X) X y = = b −1 b β̂s Σ xx Σxy • Hierbei symbolisiert x̄ den Vektor der empirischen Mittelwerte der Regressoren x2 , . . . , xm . • D.h. beim KQ-Schätzer werden die unbekannten theoretischen Momente der gemeinsamen Verteilung von y, x2 , . . . , xm durch die entsprechenden empirischen Momente ersetzt. • Es liegt also abermals nahe, β durch den KQ-Schätzer β̂ zu approximieren. 134 5.4.2 Bedingte Punktvorhersage • Gegeben sei das LIM yt = β1 + β2 xt2 + . . . + βm xtm + ut für t = 1, . . . , n, n + 1, . . . , T . • Angenommen yt und xt2 , . . . , xtm wurden an vergangenen Zeitpunkten t = 1, . . . , n beobachtet. • Die Realisationen von yt , xt2 , . . . , xtm an den künftigen Zeitpunkten n + 1, . . . , T kennt man allerdings noch nicht. • Ferner seien die Standardannahmen des bedingten linearen Regressionsmodells erfüllt. 135 • Das Ziel besteht nun darin, die Variable yt zu einem künftigen Zeitpunkt t ∈ {n + 1, . . . , T } zu prognostizieren. • Das Ganze soll auf Basis des KQ-Schätzers β̂ erfolgen. • Für diesen verwendet man lediglich die Beobachtungen von xt2 , . . . , xtm für t = 1, . . . , n . • Die Vorhersage von yt lautet somit ŷt∗ = β̂1 + β̂2 xt2 + . . . + β̂m xtm für ein beliebiges t ∈ {n + 1, . . . , T }. • Problem: Die künftigen Realisationen von xt2 , . . . , xtm sind im Zeitpunkt t = n ebenfalls unbekannt. 136 • Lösung: Man tut so, als ob man die künftigen Realisationen zum Zeitpunkt t = n bereits kennen würde. • Aus diesem Grund spricht man hierbei von einer bedingten (Punkt-)Vorhersage. • Der Vorhersagefehler beträgt nun û∗t = ŷt∗ − yt = (β̂1 − β1 ) + (βˆ2 − β2 ) xt2 + . . . + (β̂m − βm ) xtm − ut . • D.h. der Vorhersagefehler setzt sich aus zwei Komponenten zusammen: Dem Schätzfehler β̂ − β und der Störung ut . 137 • Im Folgenden sei X (n × m) die Regressormatrix der bereits beobachteten Werte bis zum Zeitpunkt t = n . • Hingegen sei X (T × m) die Regressormatrix aller Beobachtungen bis zum Zeitpunkt t = T . • Beachte: Aufgrund der strikten Exogenität gilt E(β̂ − β | X = x) = 0 sowie Var(β̂ | X = x) = σ 2 (X ′ X)−1 . • Die bedingte Kovarianzmatrix von β̂ hängt also lediglich von den Regressorwerten in der vergangenen Periode t = 1, . . . , n ab. • Der Einfachheit halber sei im Folgenden xt = (1, xt2 , . . . , xtm ) . 138 • Der Vorhersagefehler kann dann kompakter dargestellt werden: û∗t = x′t (β̂ − β) − ut . • Beachte: Die Vorhersage ist unverzerrt, denn es gilt h i E(û∗t ) = E E{x′t (β̂ − β) − ut | X = x} E x′t E{β̂ − β | X = x} − | {z } =0 E E(ut | X = x) = 0 . {z } | =0 139 5.4.3 Bedingte Intervallvorhersage • Die bedingte Varianz des Vorhersagefehlers beträgt ′ ∗ Var(ût | X = x) = Var xt (β̂ − β) − ut | X = x = x′t Var(β̂ | X = x) xt + Var(ut | X = x) = σ 2 x′t (X ′ X)−1 xt + σ 2 2 ′ ′ −1 = σ 1 + xt (X X) xt . • Die Residualvarianz σ 2 wird hierbei wieder durch σ̂ 2 geschätzt. • Der Standardfehler der Vorhersage beträgt damit p σ̂f = σ̂ 1 + x′t (X ′ X)−1 xt . 140 • Gesucht ist nun ein bedingtes Vorhersageintervall auf dem Konfidenzniveau 1 − α , d.h. eine Zahl τ , so dass P (ŷt∗ − τ σ̂f ≤ yt ≤ ŷt∗ + τ σ̂f ) = 1 − α . • Aufgrund der strikten Exogenität (A1) sowie der Normalverteilungsannahme (A4) gilt i û∗t | X = x ∼ N 0, σ 2 1 + x′t (X ′ X)−1 xt . • Man kann zeigen, dass h û∗t ŷt∗ − yt = ∼ tn−m und damit τ = tn−m,1− α2 . σ̂f σ̂f 141 5.4.4 Ex-Ante- vs. Ex-Post-Vorhersage Ex-Ante-Vorhersage: Weder die künftigen Realisationen 1. der erklärenden Variablen xt2 , . . . , xtm noch 2. der erklärten Variablen yt sind bekannt. • Die Prognose erfolgt also auf Basis vorhergesagter Regressoren x̂t2 , . . . , x̂tm . • Diese Situation trifft man typischerweise in der Praxis an. 142 Ex-Post-Vorhersage: Sowohl die künftigen Realisationen 1. der erklärenden Variablen xt2 , . . . , xtm als auch 2. der erklärten Variablen yt sind bekannt. Für die bedingte Vorhersage gibt es nun zwei Ansätze. Entweder man wählt 1. die bereits bekannten Realisationen xt2 , . . . , xtm oder 2. vorhergesagte Werte x̂t2 , . . . , x̂tm , auf Basis der bis t vorhandenen Historie. 143 =n • Die Ex-Post-Vorhersage wird üblicherweise verwendet, um die Vorhersagekraft der bedingten Prognose zu bestimmen. • Dabei vergleicht man die wahre Realisation von yt mit der dazugehörigen Vorhersage ŷt∗ . • Bei der ersten Methode wird lediglich der Einfluss des Schätzrisikos bezüglich β und des Störterms ut quantifiziert. • Bei der zweiten Methode wird zusätzlich das Schätzrisiko hinsichtlich xt2 , . . . , xtm (t > n) in Betracht gezogen. • Die Schätzung der Regressoren wird dabei anhand historischer Daten simuliert. • Man spricht daher von einer historischen Simulation. 144 5.5 Das Auswahlproblem 5.5.1 Data Mining • Man sollte stets bedenken, dass die Parameter β1 , . . . , βm eines linearen Modells unbekannt sind und daher geschätzt werden müssen. • Jeder Schätzer unterliegt jedoch einem gewissen Schätzrisiko. D.h. die geschätzten Parameter können erheblich von den tatsächlichen Werten abweichen. • Darum kann es fatale Folgen haben, wenn man auf Basis einer Voruntersuchung z.B. entscheidet, welche Regressoren für die Vorhersage oder Erklärung von y herangezogen werden sollen. 145 • Man kann tatsächlich oft beobachten, dass Forscher 1. die Menge der Regressoren und/oder 2. die zur Schätzung benötigten Daten auf Basis einer Voruntersuchung bestimmen. • Die Voruntersuchung wird dann typischerweise solange betrieben, bis man 1. signifikante Regressoren gefunden hat, 2. bestimmte Hypothesen ablehnen kann oder 3. das LIM ein hinreichend großes R2 aufweist. 146 • Ein solches Vorgehen wird als Data Snooping, Sata Dredging, Data Pruning, Data Fishing oder Data Mining bezeichnet. • Bei einer anschließenden Analyse hat man es dann mit Daten zu tun, die nicht mehr repräsentativ für die Grundgesamtheit sind. • Vielmehr ist die Stichprobe verzerrt und man spricht dabei von einem sogenannten Selektionsbias. • Passt man das LIM an eine solche Stichprobe an, erhält man verzerrte Schätzwerte. • Das wirkt sich nicht nur negativ auf die Erklärung, sondern auch auf die Vorhersage der endogenen Variablen y aus! 147 • Der Selektionsbias kann zu Scheinerkenntnissen bezüglich der 1. Modellparameter, 2. Konfidenzintervalle und 3. etwaiger Hypothesen führen. • Es handelt sich hierbei um eins der gravierendsten Probleme empirischer Wissenschaften! • Manche Menschen gehen davon aus, dass mindestens 80% aller Veröffentlichungen dem Selektionsbias unterliegen. • Inzwischen wird dieses Phänomen sogar wissenschaftlich erforscht, unter dem Stichwort Publication Bias. 148 Beispiel • Der Determinationskoeffizient R2 wird oft verwendet, um die Anpassungsgüte eines LIMs zu messen. • Um die klassische Nullhypothese H0 : β2 = . . . = βm = 0 vs. H1 : ¬ H0 , zu testen, verwendet man gerade die Teststatistik R2 n−m F = · . 2 1−R m−1 • Dieser F -Test ist jedoch nicht mehr gültig, sofern Data Mining vorliegt. Insbesondere dann, wenn man die Regressoren/Daten gerade so ausgesucht hat, dass das R2 hinreichend groß ist. 149 • Problem: Für jede empirische Studie müssen Daten und Regressoren vorab ausgewählt werden. • Data Mining tritt jedoch lediglich auf, wenn die ausgewählte Stichprobe nicht repräsentativ ist. • Exkurs: Eine Stichprobe ist repräsentativ, wenn sie die interessierende Grundgesamtheit widerspiegelt. • Wählt man z.B. die Daten und Regressoren rein deduktiv aus, d.h. auf Basis einer ökonomischen Theorie, so handelt es sich nicht um Data Mining. • Eine Vorauswahl ist also erlaubt, solange diese nicht induktiv, d.h. auf Basis statistischer Schlussfolgerungen, erfolgt. 150 • Nicht jede Studie, die auf Data Mining beruht, kommt zwangsläufig zu falschen Schlussfolgerungen. • Data Mining kann jedoch die Wahrscheinlichkeit falscher Schlussfolgerungen drastisch erhöhen. • Sei m die Anzahl der Regressoren in einer Voruntersuchung. Das Verhältnis q = n/m wird als effektiver Stichprobenumfang bezeichnet. • Die Wahrscheinlichkeit einer falschen Schlussfolgerung ist umso größer, je kleiner der effektive Stichprobenumfang ist. • D.h. selbst bei einem großen Stichprobenumfang n kann sich Data Mining negativ auswirken, sofern die Anzahl der vorhandenen Variablen ebenso groß ist! 151 5.5.2 Komplexität • Ein Modell bezüglich einer endogenen Variablen y ist eine Funktion f (· ; θ) exogener Variablen x1 , . . . , xk , so dass y = f (x1 , . . . , xk ; θ) . • Hierbei ist θ = (θ1 , . . . , θm ) ein unbekannter Parametervektor. • Zwecks Schätzung der Parameter θ1 , . . . , θm betrachtet man das dazugehörige statistische Modell y = f (x1 , . . . , xk ; θ) + u , wobei u ein Störterm ist. • Der Vektor θ kann mit der KQ-Methode geschätzt werden. 152 3000 2000 1000 0 -1000 -2000 -3000 -4000 -10 f (x ; θ) -5 0 x Ein exemplarisches Modell. 153 5 10 4000 2000 y 0 -2000 -4000 -6000 -10 -5 0 x 5 10 Das Modell mit Realisationen der endogenen Variablen. 154 4000 2000 0 -2000 -4000 -6000 -10 y -5 0 x Das geschätzte Modell. 155 5 10 • Je mehr Parameter und Wendepunkte ein Modell hat, desto komplexer ist es. • Passt man ein einfaches Modell an eine komplexe Wirklichkeit an, so spricht man vom Underfitting. • Die Vorhersage der endogenen Variablen ist dann verzerrt. • Hingegen besitzt die Vorhersage in diesem Fall eine relativ kleine Varianz. • D.h. man kommt relativ sicher zum falschen Ergebnis. • Z.B. stellt das LIM ein einfaches Modell dar! • Wenn die Wirklichkeit also komplex ist, führt das lineare Modell zu verzerrten Vorhersagen. 156 4000 2000 0 -2000 -4000 -6000 -10 y -5 0 x Underfitting 157 5 10 • Umgekehrt spricht man vom Overfitting, wenn man ein komplexes Modell and eine einfache Wirklichkeit anpasst. • In diesem Fall erhält man eine unverzerrte Vorhersage. • Allerdings besitzt die Vorhersage in diesem Fall eine große Varianz. • Das bedeutet man kommt relativ unsicher zum richtigen Ergebnis. • In diesem Fall wäre das lineare Modell eine geeignete Alternative. 158 f (x ; θ) 30 20 10 0 -10 -20 -10 -5 0 x Ein einfaches Modell. 159 5 10 y 30 20 10 0 -10 -20 -30 -10 -5 0 x 5 Die dazugehörigen Realisationen. 160 10 y 30 20 10 0 -10 -20 -30 -10 -5 0 x 5 Das angepasste komplexe Modell. 161 10 • Die Statistik lehrt uns, dass sich viele Probleme von selbst erledigen, wenn der Stichprobenumfang n gegen unendlich geht. • D.h. bei einem hinreichend großen Stichprobenumfang entsprechen die Schätzwerte in etwa den gesuchten Parametern. • Dabei wird allerdings unterstellt, dass das statistische Modell der Wirklichkeit entspricht! • Was passiert nun, wenn die Wirklichkeit komplexer ist, als das statistische Modell et vice versa? • Frage: Wann dürfen wir den Ergebnissen selbst bei einem großen Stichprobenumfang nicht trauen? 162 4000 2000 y 0 -2000 -4000 -6000 -10 -5 0 x 5 10 Ein einfaches Modell bei großem Stichprobenumfang. 163 50 40 30 20 10 0 -10 -20 -30 -10 -5 164 0 x 5 10 Ein komplexes Modell bei großem Stichprobenumfang. y Zusammenfassung • Underfitting führt zu einer verzerrten Schätzung der Parameter. • Dafür ist die Varianz der Schätzer relativ klein. • Selbst bei einem großen Stichprobenumfang bleiben die Schätzer verzerrt! • Overfitting führt zu einer unverzerrten Schätzung der Parameter. • Die Varianz der Schätzer ist hingegen relativ groß. • Sie sinkt jedoch mit dem Stichprobenumfang. • Es gibt also stets einen Bias/Varianz-Trade-Off. 165 5.6 Ansätze zur Behebung des Auswahlproblems 5.6.1 Der Umgang mit Overfitting • Zur Erinnerung: Die KQ-Summe û′ û sinkt mit der Anzahl m der Regressoren. Je größer jedoch die Anzahl der Regressoren, desto größer ist die Gefahr eines Overfittings. • Overfitting führt zu einer hohen Varianz und erhöht damit die Gefahr einer Fehlvorhersage. • D.h. es gibt einen Trade-Off zwischen der Anpassungsgüte eines linearen Modells und seiner Vorhersagekraft. • Ergo: Je besser die Anpassung, desto schlechter die Vorhersage! 166 Ex-Post-Vorhersage • Zunächst zerlegt man die gesamte Stichprobe in eine 1. Kalibrierungsmenge und eine 2. Validierungsmenge. • Mit der Kalibrierungsmenge werden die nötigen Parameter geschätzt. • Zur Ermittlung der Vorhersagekraft des linearen Modells berechnet man nun das R2 anhand der Validierungsmenge. • Bei Verwendung von Längsschnittsdaten sollte die Aufteilung der Stichprobe chronologisch sein. 167 Kreuzvalidierung • Bei der Kreuzvalidierung zerlegt man die Stichprobe in 1 < k ≤ n Teilstichproben. • Zunächst nimmt man die erste Teilstichprobe zur Validierung und die restlichen k − 1 Teilstichproben zur Modellbildung, etc. • Beachte: Bei der Modellbildung muss man genauso vorgehen, wie man es sonst auch getan hätte. • Anschließend nimmt man die zweite Teilstichprobe zur Validierung und die restlichen k − 1 Teilstichproben zur Validierung, u.s.w. • Nachdem alle k Teilstichproben zur Validierung herangezogen wurden, berechnet man z.B. das durchschnittliche R2 . 168 • Je größer die Validierungsmengen, desto besser ist auch die Einschätzung der Vorhersagekraft, jedoch verschlechtert sich diese mit der Größe der Validierungsmenge. • Je kleiner die Validierungsmengen, desto besser ist die Vorhersagekraft, jedoch kann man diese dann umso schlechter einschätzen. • Ein Spezialfall der Kreuzvalidierung ist die sogenannte Leave-One-Out-Validierung, bei der die Validierungsmengen nur aus einer einzigen Beobachtung bestehen. 169 • Die Ex-Post-Vorhersage bietet sich an, wenn man mit Längsschnittsdaten arbeitet. • Die Kreuzvalidierung ist bei Längsschnittsdaten jedoch gänzlich ungeeignet eignet sich aber umso besser bei Querschnittsdaten. • Beachte: Die Stichprobe muss bei diesen Validierungsverfahren stets zerlegt werden. • Das Ergebnis bildet daher nicht die Vorhersagekraft ab, welche auf Basis aller momentan zur Verfügung stehenden Daten gegeben wäre. • Um die tatsächliche Vorhersagekraft zu messen, werden üblicherweise Informationskriterien verwendet. 170 Informationskriterien • Das Akaike-Informationskriterium: AIC = n log(û′ û/n) + 2m . • Das Bayessche Informationskriterium: BIC = n log(û′ û/n) + log(n) m . • Eine zu hohe Anpassungsgüte wird also durch die Komplexität des verwendeten Modells bestraft. • Bei einem gegebenem Stichprobenumfang kann man davon ausgehen, dass das Modell mit dem kleinsten Wert für das Informationskriterium die größte Vorhersagekraft besitzt. 171 • Man beachte dass log 8 = 2.0794 > 2 . D.h. im Falle n ≥ 8 zieht das BIC im Vergleich zum AIC sparsamere Modelle vor. • Informationskriterien können nur zum Vergleich diverser Modelle verwendet werden, sofern man sich dabei auf die gleiche Stichprobe bezieht! • Die hier dargestellten Formeln für die Informationskriterien gehen vom linearen Modell aus. Die Informationskriterien lassen sich jedoch viel allgemeiner definieren. • Es wird allerdings stets ein parametrisches Modell unterstellt. 172 • Bei einem LIM sollte man statt R2 das adjustierte R2 , d.h. 2 Radj σ̂ 2 n σ̂û2 · 2, =1− 2 =1− σ̂y n − m σ̂y verwenden, wobei und n X 1 2 σ̂û = û2i n i=1 n X 1 2 σ̂y = (yi − ȳ)2 . n i=1 • Das adjustierte R2 ist also kein Maß für die Anpassungsgüte, sondern für die Vorhersagekraft des linearen Modells. 173 5.6.2 Der Umgang mit Data Mining • Data Mining führt zu einer großen Verzerrung und kann de facto alle induktiven Verfahren ungültig machen. • Es entsteht oft nachdem Overfitting betrieben wurde. • Beachte: Overfitting führt zunächst zu einer hohen Varianz, während Data Mining zu einer großen Verzerrung führt. • Darüber hinaus existieren aber – wie bereits besprochen – noch weitere Ursachen des Data Minings. • Was kann man tun, um einen potenziell schädlichen Effekt durch Data Mining zu vermeiden? 174 Merksätze zur Vermeidung von Data Mining • Wähle die Stichprobe oder die Menge der Regressoren niemals auf Basis induktiver Verfahren aus! • Das schließt auch die Verwendung des adjustierten R2 und der Informationskriterien zum Zwecke einer Vorauswahl aus! • Wähle die Stichprobe und die Menge der Regressoren alleine auf Basis einer (ökonomischen) Theorie. Diesen Ansatz nennt man deduktiv. • Teste niemals Hypothesen, die aus einer empirischen Betrachtung hervorgegangen sind! D.h. eine Nullhypothese sollte bereits feststehen, bevor die Daten gesichtet wurden. 175 Der Out-of-Sample-Test • Manchmal lässt sich Data Mining jedoch gar nicht vermeiden. • Beispiel: Man sucht nach „guten“ Regressoren für eine Vorhersage ohne ein plausibles theoretisches Modell zu besitzen. • Dann sollte man den gegebenen Datensatz wieder in eine Kabrierungs- und Validierungsmenge zerlegen. • Die Kalibrierungsmenge wird oft als In-Sample und die Validierungsmenge als Out-of-Sample bezeichnet. • Dann kann man ohne Hemmungen Data Mining betreiben. • Jedoch müssen die ermittelten Ergebnisse anschließend einem Out-of-Sample-Test unterzogen werden! 176 Bootstrapping • Beim Bootstrapping zieht man wiederholt mit Zurücklegen eine große Anzahl von Stichproben des Umfangs n aus der gegebenen Stichprobe. • Jedes Bootstrap-Sample dient dann als Kalibrierungsmenge, wobei auch hier wieder der eigentliche Mechanismus der Modellbildung und Datenauswahl repliziert werden soll. • Anschließend werden die Ergebnisse mit der eigentlichen Stichprobe evaluiert. Auf diese Weise lassen sich Bias und Varianz aufgrund von Data Mining feststellen. • Vorsicht: Bootstrapping funktioniert nur bei einem großen effektiven Stichprobenumfang! 177 Zusammenfassung • Es existiert ein natürlicher Trade-Off zwischen Validierung und Kalibrierung: – Kleine Kalibrierungsmenge und große Validierungsmenge → Gute Einschätzung der Vorhersagekraft eines vermutlich schlechten Modells. – Große Kalibrierungsmenge und kleine Validierungsmenge → Das Modell ist vermutlich gut, jedoch lässt sich die Vorhersagekraft schlecht einschätzen. • Dieser Trade-Off ergibt sich nur bei einem kleinen effektiven Stichprobenumfang n/m . 178