i Folien für Methoden der Ökonometrie (Master, Diplom) Rolf Tschernig & Harry Haupt Universität Regensburg Universität Bielefeld —Stand: 26.01.2010— ii Inhaltsverzeichnis 1 Wiederholung und Motivation 1.1 Wiederholung aus Ökonometrie I . . . . . . . . . . . . . . . . . . . 1.2 Empirische Analyse von Handelsströmen . . . . . . . . . . . . . . . 1.2.1 Ziele dieses Kurses . . . . . . . . . . . . . . . . . . . . . . 9 10 12 27 2 Der 2.1 2.2 2.3 2.4 28 33 38 51 63 KQ-Schätzer und dessen geometrische Interpretation Idee und Ableitung des KQ-Schätzers . . . . . . . . . . . . . Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . Die Geometrie des KQ-Schätzers . . . . . . . . . . . . . . . Anwendungen des Frisch-Waugh-Lovell Theorems . . . . . . . . . . . . . . . . . . . . . . iii 3 Statistische Eigenschaften des KQ-Schätzers 3.1 Datengenerierende Prozesse & ökonometr. Modelle 3.1.1 Verteilungs- und Dichtefunktionen . . . . . 3.1.2 Datengenerierende Prozesse . . . . . . . . . 3.1.3 Ökonometrische Modelle . . . . . . . . . . 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers . 3.3 Asymptotik I: Konsistenz des KQ-Schätzers . . . . 3.3.1 Konvergenz von Folgen von Zufallsvektoren 3.3.2 Konsistenz des KQ-Schätzers . . . . . . . . 3.4 Die Kovarianzmatrix der Parameterschätzer . . . . 3.5 Die Effizienz unverzerrter KQ-Schätzer . . . . . . . 3.6 Schätzen der Fehlervarianz . . . . . . . . . . . . . 3.7 Fehlspezifizierte lineare Regressionsmodelle . . . . . . . . . . . . . . . . . 72 75 76 85 90 100 106 107 114 116 125 129 133 4 Exakte und asymptotische Tests 4.1 Grundlagen von Tests . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 4.3 Exakte Verteilung des KQ-Schätzers . . . . . . . . . . . . . . . . . 137 137 140 148 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv 4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers . . 4.4.1 Zentrale Grenzwertsätze . . . . . . . . . . 4.4.2 Asymptotische Verteilung des KQ-Schätzers 4.5 Dynamische lineare Regressionsmodelle . . . . . . . 4.6 Exakte Tests . . . . . . . . . . . . . . . . . . . . 4.6.1 t-Tests: Testen einer einzelnen Restriktion . 4.6.2 F -Tests: Testen mehrerer Restriktionen . . 4.7 Asymptotische Tests . . . . . . . . . . . . . . . . 4.8 Monte-Carlo-Tests und Bootstraptests . . . . . . . 4.8.1 Monte-Carlo-Tests . . . . . . . . . . . . . 4.8.2 Bootstraptests . . . . . . . . . . . . . . . 4.9 Konfidenzintervalle und -ellipsoide . . . . . . . . . 4.9.1 Konfidenzintervalle . . . . . . . . . . . . . 4.9.2 Konfidenzellipsoide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 152 159 166 176 176 182 197 204 205 207 215 215 222 5 Verallgemeinerter Kleinst-Quadrate Schätzer und seine Anwendungen223 5.1 Verallgemeinerter Kleinst-Quadrateschätzer . . . . . . . . . . . . . . 224 5.2 Feasible GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 v 5.3 Paneldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 6 Instrumentvariablenschätzung 258 6.1 Instrumentvariablenschätzer . . . . . . . . . . . . . . . . . . . . . 264 6.2 Der verallgemeinerte IV-Schätzer . . . . . . . . . . . . . . . . . . . 266 7 Maximum-Likelihood-Schätzung 7.1 Einführendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . 7.2 Maximum-Likelihood-Schätzung im Falle stetiger Zufallsvariablen 7.3 ML-Schätzung des normalen linearen Regressionsmodells . . . . . 7.4 Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . . 7.4.1 Identifikation bei ML-Schätzung . . . . . . . . . . . . . 7.4.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . 7.4.3 Asymptotische Normalverteilung . . . . . . . . . . . . . 7.5 Numerische Optimierung . . . . . . . . . . . . . . . . . . . . . 7.6 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 Likelihood-Quotienten-Test (LR test) . . . . . . . . . . . 7.6.2 Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 273 277 281 284 284 286 292 309 318 320 323 vi 7.6.3 Lagrange-Multiplikator-Test (LM) Test oder Score-Test . . . 326 Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 Organisation Kontakt Prof. Dr. Rolf Tschernig Gebäude RW(L), 5. Stock, Raum 514 Universitätsstr. 31, 93040 Regensburg Tel. (+49) 941/943 2737, Fax (+49) 941/943 4917 Email: [email protected] http://www.wiwi.uni-regensburg.de/tschernig/ 1 Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 2 Zeiten, Räume und Kursleiter siehe Kurshomepage http://www.wiwi.uni-regensburg.de/tschernig/lehre_methoden_frame.htm Voraussetzungen Ohne Vorkenntnisse in Ökonometrie ist die Teilnahme an Methoden der Ökonometrie nicht zu empfehlen. Fehlende Vorkenntnisse können durch Teilnahme • an der BA-Veranstaltung Ökonometrie I (auch im Wintersemester - erfordert je nach Prüfungsordnung Zustimmung von mir) oder • am Intensivkurs Ökonometrie (eine Woche vor Beginn des Wintersemesters) erworben werden. Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 3 Umfang und ECTS: • VWL/IVWL-Master: – Der Kurs Methoden der Ökonometrie ist Bestandteil des Pflichtmoduls im Master-Studiengang – Umfang: 2h Vorlesung + 2h Übung, 6 ECTS • Diplom-Studenten – Der Kurs Methoden der Ökonometrie ist Bestandteil des Schwerpunktmoduls Ökonometrie – Umfang: 3h Vorlesung + 2h Übung, 10 ECTS, Beginn der zusätzlichen Veranstaltungen Mitte Dezember • Master anderer Studiengänge: – Umfang: 2h Vorlesung + 2h Übung, 6 ECTS Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 4 Notenzusammensetzung und Prüfung siehe Kurshomepage http://www.wiwi.uni-regensburg.de/tschernig/lehre_methoden_frame.htm Klausurdauer: MA: 90 Minuten, Diplom: 120 Minuten MA-Schwerpunktmodul: Empirische Wirtschaftsforschung Fortgeschrittene Ökonometrie Sommer Quantitative Wirtschaftsforschung II Sommer Applied Financial Econometrics Sommer Multivariate statistische Verfahren Winter Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 5 Software • graphische Benutzeroberfläche – EViews (programmierbar, Einzellizenz über Lehrstuhl für ca. Euro 80, Ökonometrie I - III (BA), Applied Financial Econometrics (MA)) – Gretl (programmierbar, freie Software: http://gretl.sourceforge.net/) – JMulTi (freie Software: http://www.jmulti.de/) • statistische Programmiersprachen mit fertigen Programmmodulen – R (freie Software: http://www.r-project.org/, Programmieren mit R, Methoden der Ökonometrie, Fortgeschrittene Ökonometrie (MA)) Beachte: Groß-/Kleinschreibung berücksichtigen. – Gauss (einige Lizenzen vorhanden, Quantitative Wirtschaftsforschung II (MA)) – Ox (Batch-Version frei) – Matlab (Dynamische Makro (MA)) Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 6 • Computer-Algebra-Sprachen – Maple (UR-Lizenz) – Maxima (freie Software) – Mathematica Pflichtliteratur Davidson, R. & MacKinnon, J.G. (2004). Econometric Theory and Methods. Oxford University Press (http://www.econ.queensu.ca/ETM/) Ergänzende Literatur z.B. Greene, W.H. (2008). Econometric Analysis, 6A, Prentice Hall Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 7 Vertiefende Literatur (in alphabetischer Reihenfolge): • Cameron, A.C. and Trivedi, P.K. (2005). Microeconometrics, Cambridge University Press. Methodik für mikroökonometrische Probleme, http://cameron.econ.ucdavis.edu/mmabook/mma.html • Davidson, R. & MacKinnon, J.G. (1993). Estimation and Inference in Econometrics. Oxford University Press. Viele Details zur Methodik für nichtlineare Regressionsmodelle, http://www.econ.queensu.ca/pub/dm-book/ • Greene, W. (2008). Econometric Analysis. 6e, Prentice Hall. Umfassendes Nachschlagewerk mit moderater methodischer Tiefe, http://pages.stern.nyu.edu/~wgreene/Text/econometricanalysis.htm • Peracchi, F. (2001). Econometrics, John Wiley & Sons. Der statistische Ansatz zur Regression mit methodischer Tiefe, http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471987646,descCd-tab Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010 8 • Ruud, P.A. (2000). An Introduction to Classical Econometric Theory. Oxford University Press. Der geometrische Ansatz mit methodischer Tiefe, http://elsa.berkeley.edu/~ruud/cet/ • Wooldridge, J.M. (2002). Econometric Analysis of Cross Section and Panel Data. The MIT Press. Viel Intuition und methodische Tiefe, http://mitpress.mit.edu/catalog/item/default.asp?ttype=2&tid=8632&mode= Methoden der Ökonometrie — 1 Wiederholung und Motivation — U Regensburg — 26.01.2010 9 1 Wiederholung und Motivation Siehe auch Kapitel 1 in Kursmaterial für Intensivkurs Ökonometrie/Ökonometrie I für eine ausführlichere Darstellung. Methoden der Ökonometrie — 1.1 Wiederholung aus Ökonometrie I — U Regensburg — 26.01.2010 10 1.1 Wiederholung aus Ökonometrie I Ökonometrie • bietet Lösungen an, mit unbeobachteten Faktoren in ökonomischen Modellen umzugehen, • bietet “both a numerical answer to the question and a measure how precise the answer is (Stock & Watson 2007, p. 7)”, • bietet, wie wir später sehen werden, Werkzeuge zur Widerlegung ökonomischer Hypothesen an, indem mittels statistischer Methoden Theorien mit empirisch erhobenen Daten konfrontiert werden, und bietet Werkzeuge zur Quantifizierung der Wahrscheinlichkeiten an, mit denen solche Entscheidungen falsch sind, • erlaubt, wie wir ebenfalls später sehen werden, die Quantifizierung der Risiken von Vorhersagen, Entscheidungen und sogar ihrer eigenen Analyse. Methoden der Ökonometrie — 1.1 Wiederholung aus Ökonometrie I — U Regensburg — 26.01.2010 11 Es existiert eine Vielzahl unterschiedlicher ökonometrischer Modelle und die Modellwahl hängt ab von der wissenschaftlichen Fragestellung, der zugrunde liegenden ökonomischen Theorie, der Verfügbarkeit von Daten und der Problemstruktur. Quantitative Antworten beinhalten immer Unsicherheit. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 12 1.2 Empirische Analyse von Handelsströmen (Basiert z.T. auf Kursmaterial für Intensivkurs Ökonometrie, Kapitel 1 und folgende.) Ziel/Wissenschaftliche Fragestellung: Ermittle die Faktoren, die die Importe nach Deutschland beeinflussen, und quantifiziere ihren Einfluss. Ein erster, grober Versuch: Daten: Importe nach Deutschland aus 54 Herkunftsländern im Jahr 2004 (in laufenden US-Dollars). (Eine Datenbeschreibung findet sich in Abschnitt 10.4 in Kursmaterial für Intensivkurs Ökonometrie.) Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 Scatterplot (Streudiagramm) 7E+10 6E+10 TRADE_0_D_O 5E+10 4E+10 3E+10 2E+10 1E+10 0E+00 0 4,000 8,000 12,000 WEO_GDPCR_O Export nach Deutschland TRADE .., GDP des Exportlandes: WEO GDP... 13 Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 • Gibt es andere relevante Faktoren, die die Importe bestimmen, z.B. die Entfernung? 7E+10 6E+10 • Ist es möglich, zukünftige Handelsströme zu prognostizieren? 5E+10 TRADE_0_D_O 14 4E+10 3E+10 • Wie legen wir die Gerade durch die Punktewolke? 2E+10 1E+10 0E+00 0 4,000 8,000 12,000 WEO_GDPCR_O • Einige Fragen: • Was sieht man? • Gibt es einen Zusammenhang? • Wenn ja, wie ist dieser zu quantifizieren? • Existiert eine Kausalbeziehung - Welche Variable bestimmt welche? • Wie verändern sich die Importe aus den USA, wenn sich das BIP der USA um 1% verändert? • Welche Eigenschaften hat die so angepasste Gerade? • Was macht man mit den anderen relevanten Faktoren, die in der aktuellen Analyse vernachlässigt wurden? • Welche Kriterien wählt man, um einen möglichen Zusammenhang zu ermitteln? • Ist der mögliche Zusammenhang tatsächlich linear? • Und: wie sehr dürfen die Ergebnisse für eine andere Stichprobe abweichen, z.B. für 2003? Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 15 Schritte einer empirischen Analyse 1. Sorgfältige Formulierung der interessierenden Fragestellung/Aufgabe bzw. des Problems. 2. Spezifizierung eines ökonomischen Modells. 3. Sorgfältige Auswahl einer Klasse ökonometrischer Modelle. 4. Sammeln von Daten. 5. Auswahl und Schätzung eines ökonometrischen Modells. 6. Prüfen, ob Modellspezifikation korrekt. 7. Anwenden des Modells, z.B. Interpretation oder/und Prognose. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 16 1. Ziel/Wissenschaftliche Fragestellung: Ermittle die Faktoren, die die Importe nach Deutschland beeinflussen, und quantifiziere ihren Einfluss. 2. Ökonomisches Modell: Einfachste Form einer Gravitationsgleichung: • Kurze Einführung zu Gravitationsgleichungen: z.B. in Fratianni (2007). Eine theoretische Fundierung der Gravitationsgleichung findet sich in Anderson & Wincoop (2003). • Unter idealisierten Annahmen wie vollständige Spezialisierung der Produktion, identischen Konsumpräferenzen in den Ländern, keinen Transport- und Handelskosten, werden Handelsströme zwischen Länderpaaren in Abhängigkeit vom jeweiligen Einkommen der gepaarten Länder und ihrer Entfernung zueinander erklärt: Mijt = A0Yitα1 Yjtα2 dαij3 (1.1) Mijt : Export von Land i nach Land j in Periode t Yit : Realeinkommen in Land i in Periode t dij : Entfernung zwischen Land i und Land j (verschiedene Maße möglich) Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 17 Anmerkungen: – Aus der ökonomischen Theorie der Gravitationsgleichungen, siehe Fratianni (2007), ergeben sich die Hypothesen, dass α1, α2 > 0, α3 < 0 und in einigen Fällen α1 = α2 = 1. Diese Hypothesen lassen sich statistisch testen. – Doppelindex ij kann in einen Index l umgewandelt werden (später). – Zur Vereinfachung: zunächst Betrachtung nur einer Zeitperiode und einer Richtung, nämlich der Exporte nach Deutschland im Jahr 2004. Eine so vereinfachte Gravitationsgleichung lautet Exportei = eβ1 Yiβ2 dβi 3 . (1.2) Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 18 3. Ökonometrisches Modell: • Theoretisches Modell (1.1) wird logarithmiert, um länderspezifische Merkmale und einen stochastischen Fehlerterm erweitert ln(Mijt) = β1 + β2 ln Yit + β3Yjt + β4 ln dij + Fijtβ 5 + uij , Fij : spezifische Merkmale für Exporte von i nach j. (1.3) • Notation: Im Unterschied zu Wooldridge (2009) beginnen Davidson & MacKinnon (2004) den Index der Parameter bei 1 und zählen bis k. Der Kurs folgt Davidson & MacKinnon (2004), auch in anderen Notationsfragen. • Berücksichtigung verschiedener Perioden erfordert Paneldatenmodelle, siehe Abschnitt 5.3. • Beschränkung auf Exporte (1.2) nach Deutschland und Querschnittsdaten ergibt ln(Exportei) = β1 +β2 ln(BIPi)+β3 ln(Entf ernungi)+Fiβ 5 +ui. (1.4) 4. Daten sammeln: siehe Appendix 10.4 in Kursmaterial zu Intensivkurs Ökonometrie. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 19 5. Wahl und Schätzung eines ökonometrischen Modells: • Welche (länderspezifischen) Variablen haben Einfluss auf die Importe? • Modellwahl auf Basis des Schwarz-Kriteriums ergibt, dass die Variable Offenheit hinzugenommen werden sollte: ln(Importei) = β0 + β1 ln(BIPi) + β2 ln(Entf ernungi) + β3 Of f enheiti + ui. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 ==================================================================== Dependent Variable: LOG(TRADE_0_D_O) Method: Least Squares Sample: 1 50, Included observations: 49 ==================================================================== Variable Coefficient Std. Error t-Statistic Prob. ==================================================================== C 2.741040 2.175184 1.260142 0.2141 LOG(WDI_GDPUSDCR_O) 0.940664 0.061341 15.33513 0.0000 LOG(CEPII_DIST) -0.970318 0.152685 -6.355048 0.0000 EBRD_TFES_O 0.507250 0.191610 2.647300 0.0111 ==================================================================== R-squared 0.899459 Mean dependent var 21.19016 Adjusted R-squared 0.892756 S.D. dependent var 2.666067 S.E. of regression 0.873087 Akaike info criterion 2.644544 Sum squared resid 34.30264 Schwarz criterion 2.798979 Log likelihood -60.79134 Hannan-Quinn criter. 2.703136 F-statistic 134.1926 Durbin-Watson stat 1.802962 Prob(F-statistic) 0.000000 ==================================================================== 20 Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 21 6. Modelldiagnose: • Prüfen einer evtl. Verletzung der Annahme von homoskedastisch verteilten Fehlern (MLR.5 Wooldridge (2009)). Plot der Residuen gegen die gefitteten Werte. • Prüfen einer möglichen Verletzung der Annahme normalverteilter Fehler (MLR.6 in Wooldridge (2009)) (Normalverteilte Fehler.) Plot eines Histogramm der Residuen 1.6 1.2 12 Series: Residuals Sample 1 50 IF ISO_O <> "GER" Observations 49 0.8 10 RESID_MODELL3 0.4 0.0 8 -0.4 -0.8 6 -1.2 4 -1.6 -2.0 -2.4 16 2 18 20 22 24 26 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis -1.16e-15 0.100861 1.521959 -2.199881 0.845363 -0.613769 2.990075 Jarque-Bera Probability 3.076685 0.214737 28 0 TRADE_0_D_F -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Interpretation? Histogramm: Schiefe (Skewness), Wölbung (Kurtosis), Lomnicki- Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 22 Jarque-Bera-Test, andere Tests? Dazu mehr in Abschnitt 4.4 in Kursmaterial für Intensivkurs Ökonometrie. 7. Benutzen des Modells: Durchführen von Tests: • Zweiseitiger Test – Statistisches Hypothesenpaar: H0 : Die BIP-Elastizität der Importe ist 1. versus H1 : Die Elastizität ist ungleich 1. H0 : β1 = 1 versus H1 : β1 6= 1. – t-Statistik aus der passenden Zeile des Outputs: Variable Coefficient LOG(WDI_GDPUSDCR_O) 0.940664 t(X, y) = Std. Error 0.061341 t-Statistic 15.33513 Prob. 0.0000 β̂1 − β10 0.940664 − 1 = = −0.96731 σ̂β̂1 0.061341 – Wähle Signifikanzniveau, z.B. α = 0.05. Berechnen der kritischen Werte: n − k = 49 − 4 = 45 Freiheitsgrade. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 23 Aus Table G.2 in Wooldridge (2009) lässt sich ein ungefährer kritischer Wert ermitteln, einen präzisen kritischen Wert erhält man z.B. mit ∗ EViews: Man gibt vector(1) crit = @qtdist(1-alpha/2,n-k) in das Kommandofenster ein (Dezimaltrennzeichen ist ”.”) oder ∗ Excel: Man wendet die Formel c =(TINV(alpha;n-k))=2.0141 an. (Beachte, dass Excel stillschweigend bereits einen zweiseitigen Test annimmt.) ∗ R: qt(0.025,45) = -2.014103 bzw. qt(0.975,45) = 2.014103. Das Paket stats ist normalerweise geladen. Falls nicht: Pakete -> Pakete laden -> stats. Hilfe zur Funktion ?qt. – Da −c <t(X, y) < c −2.0141 < − 0.96731 < 2.0141 Nullhypothese nicht ablehnen. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 24 – p-values: ∗ EViews: scalar pval = 2*(1-@ctdist(@abs(t),n-k))= 0.3385. ∗ R: 2*pt(-abs(t),n-k)=2*pt(-abs(-0.96731),45) = 0.3385593. ∗ Demnach lässt sich H0 selbst auf dem 10% Signifikanzniveau nicht ablehnen. ∗ Der p-value besagt, dass man unter H0 in etwa 34 von 100 Stichproben eine t-Statistik erhalten würde, deren Absolutbetrag mindestens 0.96731 beträgt. • Einseitiger Test – Man kann auch eine Hypothese bezüglich des Vorzeichens von β2 aufstellen, z.B. dem Einfluss von Entfernung auf Importe. Da wir an Evidenz für β2 < 0 interessiert sind, packen wir dies in H1: H0 : β2 ≥ 0 versus H1 : β2 < 0. – Berechne die t-Statistik aus der passenden Zeile des Outputs Variable LOG(CEPII_DIST) Coefficient -0.970318 Std. Error 0.152685 t-Statistic -6.355048 Prob. 0.0000 Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 t(X, y) = 25 β̂2 − β20 −0.970318 − 0 = −6.3550. = σ̂β̂2 0.152685 – Wir wählen wieder α = 0.05 und berechnen den kritischen Wert ∗ EViews-Funktion: scalar crit = @qtdist(alpha,n-k)=-1.6794. ∗ R: qt(0.05,45) = -1.679427. – Wegen t(X, y) = −6.3550 < −1.6794 = c, Ablehnen der Nullhypothese ∗ Somit hat beim gegebenen Signifikanzniveau die logarithmierte Entfernung statistisch signifikant negativen Einfluss auf die Importe. ∗ Interpretation: Steigt die Entfernung um 1%, dann fallen ceteris paribus die erwarteten Importe nach Deutschland um ca. 1%. ∗ Wiederhole Interpretation von level-level-, level-log-, log-level-, log-logModellen, siehe Abschnitt 2.6 in Kursmaterial zu Intensivkurs Ökonometrie. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 26 – p-value: ∗ EViews: scalar pval = @ctdist(t,n-k)= 0.0000. ∗ R: pt(-6.3550,45) = 4.6321e-08. ∗ Die Entfernung hat also selbst auf dem 1% Signifikanzniveau negativen Einfluss. • Fragen: – Sind diese Ergebnisse robust gegenüber anderen Modellspezifikationen? – Sind sogenannte Ausreißer für die Ergebnisse verantwortlich? zu lesen: Chapter 1 in Davidson & MacKinnon (2004), als Wiederholung: relevante Kapitel in Kursmaterial zu Intensivkurs Ökonometrie. Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010 27 1.2.1 Ziele dieses Kurses Verbesserung der theoretischen Grundlagen von Ökonometrie, damit eine eigenständige Anwendung auch bisher unbekannter ökonometrischer Modelle und Verfahren möglich wird. Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010 28 2 Der Kleinst-Quadrate-Schätzer und dessen geometrische Interpretation Motivation • Das multiple lineare Regressionsmodell (der Stichprobe) (MLR) lautet yt = Xtβ + ut, t = 1, . . . , n, wobei Xt = xt1 · · · xtk , β 1 β 2 β = . . . βk Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010 29 In Matrixschreibweise erhält man y = Xβ + u, wobei y 1 y 2 y = . , . yn x x 11 12 x x 21 22 X= . .. . . . . x1k (2.1) . . . x2k , . . . .. xn1 xn2 . . . xnk u 1 u 2 u = . . . un Der Kleinst-Quadrate-Schätzer (KQ-Schätzer) (ordinary least squares estimator (KQ-Schätzer) von β im multiplen linearen Regressionsmodell ist gegeben durch β̂ = (XT X)−1XT y. (2.2) Ableitung in Matrixnotation in Abschnitt 2.1. Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010 30 • Eigenschaften des KQ-Schätzers für das einfache multiple Regressionsmodell – Die statistischen Schätzeigenschaften sind abhängig von der Art der Datengenerierung, bzw. von der Eigenschaften der Grundgesamtheit. Sie können niemals verifiziert werden, da die Datengenerierung unbeobachtbar ist. Ihre Analyse erfordert die Methoden der Wahrscheinlichkeitstheorie =⇒ Kapitel 3 und folgende. – Die numerischen Eigenschaften gelten immer und sind unabhängig von der Datengenerierung. Sie können mit algebraischen oder geometrischen Methoden untersucht werden und erfordern die Anwendung der Methoden linearer Algebra =⇒ dieses Kapitel. Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010 31 Besonders wichtig: das geometrische Verständnis der so genannten Projektionsmatrizen PX und MX, die sich bei der Prognose der abhängigen Variable y und bei der Berechnung der KQ-Residuen ergeben: ŷ = Xβ̂ = X(XT X)−1XT y ≡ PXy, (2.3) û = y − ŷ = y − X(XT X)−1XT y = (In − X(XT X)−1XT )y ≡ MXy. (2.4) Diese Projektionsmatrizen haben besondere Eigenschaften und eine wichtige geometrische Interpretation. Beispiel: Für Analyse der Wirkung von möglichen Ausreißern auf den KQ-Schätzer (2.2) β̂ = (XT X)−1XT y im multiplen Regressionsmodell y = Xβ + u ist es hilfreich, die Eigenschaften der Projektionsmatrix PX zu verstehen. Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010 32 Projektion in der Alltagssprache, in der Mathematik, in der Ökonometrie: – Durch Lichteinwirkung wird von einem dreidimensionalen Gegenstand ein zweidimensionales Bild auf einer Wand erzeugt: Der dreidimensionale Gegenstand wird auf eine Fläche, also einem zweidimensionalen Gegenstand projiziert. – Bei der Projektion aus dem dreidimensionalen Raum in den zweidimensionalen ’Raum’ geht Information verloren. – Je nach Standpunkt der Lichtquelle verändert sich die Projektion auf der Wand. – In der Mathematik wird dieses Prinzip auf Projektionen aus Räumen beliebiger Dimensionen in Räume niedrigerer Dimension (so genannte Unterräume) erweitert. – Vorsicht: In der Mathematik ist das Konzept eines Raums in gewissem Sinn viel allgemeiner gefasst. Siehe hierzu Abschnitt 2.2. – In der Ökonometrie: n Stichprobenbeobachtungen legen Koordinaten für ndimensionalen Raum fest. Der Unterraum wird i.A. durch die Anzahl k ≤ n der Regressorvariablen festgelegt. Siehe hierzu Abschnitt 2.3. Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010 33 2.1 Idee und Ableitung des KQ-Schätzers • Gegeben ist das multiple lineare Regressionsmodell (2.1) y = Xβ + u. • Idee des Kleinst-Quadrate-Schätzers: Minimiere die Summe der Quadrate der Residuen (Sum of Squared Residuals (SSR)), also die Zielfunktion S(β) = n X u2t = t=1 n X t=1 (yt − Xtβ)2 . (2.5) • Eine mögliche Alternative zur KQ-Zielfunktion (2.5): Minimierung der Summe der Absolutbeträge SM (β) = n X t=1 |ut| = n X t=1 |yt − Xtβ| liefert Schätzung des Medians, also des 50%-Quantils. (2.6) Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010 • Residuenquadratsumme in Matrixschreibweise: S(β) = n X u2t t=1 T =u u = (y − Xβ)T (y − Xβ) = yT y − 2yT Xβ + β T XT Xβ. Minimieren: Ableiten nach β, Nullsetzen, ... 34 Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010 35 • Rechenregeln zum Ableiten von Matrixfunktionen: – w v 1 1 w v 2 2 v = . , w = . . . . vJ wJ PJ T T Es sei z = v w = w v = i=1 viwi. Dann gilt ∂z/∂wi = vi. Definiert man die Sammlung aller partiellen Ableitungen in einem Vektor ∂z ∂w1 ∂z ∂w2 ∂z = . , ∂w . ∂z ∂wJ ergibt sich ∂z = v. ∂w Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010 – Ähnlich lässt sich zeigen für z = Aw mit a a · · · a1T 11 12 a a ··· a 2T 21 22 z= ................ aJ1 aJ2 · · · aJT ∂z =A ∂wT w1 w2 .. wT und für v = wT Aw mit a a · · · a1T 11 12 a a ··· a 2T 21 22 v = w1 w2 · · · wT ................. aT 1 aT 2 · · · aT T ∂v T = A + A w. ∂w w1 w2 .. wT 36 Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010 37 • Ableitung des KQ-Schätzers in Matrixalgebra – Aus dem Vektor der partiellen Ableitungen erster Ordnung ∂S(β) = −2XT y + 2XT Xβ, ∂β erhält man durch Nullsetzen die Bedingungen erster Ordnung (firstorder conditions (foc)) XT Xβ̂ = XT y. (2.7) Diese werden auch als die Normalgleichungen bezeichnet (vgl. Kursmaterial zu Intensivkurs Ökonometrie, Ökonometrie I, Abschnitt 3.3). – Ist XT X invertierbar — dies erfordert rk(X) = k —, ergibt sich der KQSchätzer als β̂ = (XT X)−1XT y (2.8) – β̂ ist ein eindeutiges Minimum der Zielfunktion S(β), wenn für den Rang rk(X) der Matrix X gilt: rk(X) = k. (Der Rang einer Matrix wird im folgenden Abschnitt 2.2 definiert.) Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 38 2.2 Vektorräume • Eine detaillierte Einführung in Vektorräume bietet Gentle (2007, Chapter 2) (Volltext-Zugriff im Bereich der UR). Eine (deutschsprachige) Einführung in die Rechenregeln der Matrix-Algebra mit vielen Beispielen bietet Schmidt & Trenkler (2006) (Volltext-Zugriff im Bereich der UR). • Eine Kollektion von Objekten mit bestimmten Eigenschaften (Operationen) wird als Raum bezeichnet. • Eine Menge V von (n × 1)-Vektoren, für die die üblichen algebraischen Eigenschaften (Kommutativität, . . .) gelten sowie gilt, dass jede Linearkombination der Vektoren wieder in V enthalten ist, wird als Vektorraum bezeichnet (Gentle 2007, Section 2.1.2). Siehe auch den Appendix zu diesem Abschnitt. Operationen einer Linearkombination: Addition, Multiplikation mit Skalaren a, b skalar, x, y ∈ V : ax + by ∈ V. Deshalb ist ein Vektorraum ein linearer Raum. Eine noch detaillierte Definition findet sich im Appendix zu diesem Abschnitt. Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 39 Beispiel: Vektorraum aller reellwertigen (n × 1)-Vektoren x ∈ Rn. • Eine weitere Operation, die sich für zwei (reellwertige) (n × 1)-Vektoren x, y definieren lässt, ist deren Multiplikation. Es gibt zwei Möglichkeiten: 1. Erste Möglichkeit: das innere Produkt (inner product) oder Skalarprodukt (scalar product, dot product) n X < x, y >≡ xiyi = xT y = yT x, (2.9) i=1 das als Ergebnis einen Skalar, also einen (1 × 1)-Vektor liefert. 2. Zweite Möglichkeit: das outer product oder xyT (2.10) das eine (n × n)-Matrix liefert. Beachte: Das Skalarprodukt ist ein spezieller Typ eines inneren Produkts. Innere Produkte können beispielsweise auch für Funktionen definiert sein. Allgemein gilt, dass ein inneres Produkt < ·, · > als Ergebnis immer eine reelle oder komplexe Größe liefert (Gentle 2007, Sections 2.1.4, 3.2.6). Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 40 • Eine Norm erlaubt, allgemein formuliert, die quantitative Bewertung einzelner Elemente einer Menge und ihrer Beziehungen zueinander. – Jede Bewertungsregel, die als Norm bezeichnet werden kann, erfüllt drei Anforderungen. – Eine Norm für einen Vektorraum ||·|| : V → [0, ∞) ordnet jedem Element x des Vektorraums eine nichtnegative reelle Zahl ||x|| zu und genügt folgenden Eigenschaften (Gentle 2007, Section 2.1.5): 1. Wenn x 6= 0, dann gilt ||x|| > 0 und wenn ||x|| = 0 ⇔ x = 0. 2. ||αx|| = |α| ||x||. 3. ||x + y|| ≤ ||x|| + ||y|| (Dreiecksungleichung). – Ein Vektorraum, dessen Vektoren mit einer Norm bewertet/gemessen werden können, ist ein normierter Vektorraum. Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 41 – Beispiele von Vektornormen: ∗ Euklidische Norm oder L2-Norm: v u n √ uX √ 2 T t ||x||2 = xi = x x = < x, x >. i=1 Die Euklidische Norm misst die Länge eines n-dimensionalen Vektors: !1/2 n X T 1/2 ||x||2 ≡ (x x) = x2i . i=1 ∗ Tschebyscheff-Norm oder L∞-Norm: ||x||∞ = maxi∈n |xi|. Z.B. relevant beim Beladen von Fahrzeugen, wenn keine Kante eines zu transportierenden Gegenstandes eine maximale Länge überschreiten darf. ∗ Lp-Norm: ||x||p = n X i=1 |xi|p !1/p , enthält beide bereits genannten Fälle als Spezialfälle. Beispiel: Minimierung von (2.6) entspricht Minimierung von L1-Norm ||u||1. Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 42 Für uns im Weiteren relevant: – Euklidischer Raum E n: ein normierter Vektorraum ausgestattet mit der Euklidischen Norm ||x||2. – Die Euklidische Norm wird im Weiteren mit ||x|| abgekürzt. Euklidischer Raum Geometrie von Vektoren im zweidimensionalen Euklidischen Vektorraum • (geometrische) Addition von Vektoren mit Hilfe von Parallelogramm. • Skalarmultiplikation = Multiplikation mit einem Skalar a: ax ist Vektor parallel zu x, aber möglicherweise mit entgegengesetzter Richtung. • Das Skalarprodukt bzw. innere Produkt zweier Vektoren lässt sich geometrisch durch die Längen der beiden Vektoren und dem Kosinus des Winkels θ zwischen beiden darstellen (ohne Beweis für E n, Beweis für E 2 in der Übung): < x, y >= xT y = ||x|| ||y|| cos θ. (2.11) Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 Zwei Spezialfälle im E 2: Gegeben seien die Vektoren: w= 1 0 , z = cos θ sin θ , x = αw, y = γz. α, γ > 0, Dann ergeben sich ||w|| = 1, 2 2 1/2 = 1, ||z|| = cos θ + sin θ < w, z > = w1z1 + w2z2 = cos θ und ||x|| = |α|||w|| = α, ||y|| = |γ|||z|| = γ, < x, y > =< αw, γz >= αw1γz1 + αw2γz2 = αγ < w, z > = ||x|| ||y|| cos θ. 43 Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 44 • Satz von Pythagoras: In einem rechtwinkligen Dreieck ist das Quadrat der Hypothenuse (längste Seite) gleich der Summe der Quadrate der beiden anderen Seiten (Katheten). Angewandt auf einen Vektor x ∈ E 2 ergibt sich q √ x21 + x22 = xT x = ||x|| (= ||x||2), indem die beiden Elemente x1 und x2 des Vektors x als Kartesische Koordinaten in der Ebene aufgefasst werden. Deshalb misst die L2-Norm die Länge eines Vektors. • Wichtig: Stehen zwei Vektoren orthogonal aufeinander (senkrecht aufeinander), dann und nur dann ist deren inneres Produkt Null, da cos 90o = 0 =⇒ Wenn < x, y >= xT y = 0, sind die Vektoren x und y orthogonal zueinander . • Aus (2.11) und −1 ≤ cos θ ≤ 1 folgt die Cauchy-Schwartz Ungleichung |xT y| ≤ ||x|| ||y|| bzw. Alle Ergebnisse gelten für E n analog! < x, y >2 ≤ < x, x > < y, y > . Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 45 • Basisvektoren im E n: n verschiedene (n × 1)-Vektoren sind Basisvektoren, wenn kein Basisvektor einer beliebigen Linearkombination der anderen (n − 1) Basisvektoren entspricht. • Jedes Element im Euklidischen Raum E n kann als Linearkombination von n Basisvektoren dargestellt werden. • Man sagt dann: Die n Basisvektoren spannen E n auf, d.h. bilden einen Euklidischen Raum E n. Bezeichnet man die n Basisvektoren mit xi, dann ist die Menge aller Vektoren in E n gegeben durch ( ) n X n z ∈ E z = bixi, bi ∈ R . i=1 Euklidische Unterräume • Reduziert man die Zahl der Basisvektoren auf k < n, kann nur noch eine Teilmenge der Vektoren in E n dargestellt werden. Eine solche Teilmenge bildet einen Euklidischen Unterraum. Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 46 • Den Unterraum, der von k Basisvektoren {x1, x2, . . . , xk } aufgespannt wird, bezeichnen wir mit δ(x1, x2, . . . , xk ), bzw. δ(X), falls alle Basisvektoren in der Matrix X = (x1, x2, . . . , xk ) zusammengefasst werden. Die Menge der im Unterraum enthaltenen Vektoren z lässt sich beschreiben als ( ) k X n bixi, bi ∈ R . (2.12) δ(X) = δ(x1, x2, . . . , xk ) ≡ z ∈ E z = i=1 • Man sagt, dass der Unterraum δ(X) dem Spaltenraum der Matrix X entspricht. • Das orthogonale Komplement zu dem Unterraum δ(X) ist ein weiterer Unterraum in E n, für den gilt: ⊥ ⊥ n T δ (x1, x2, . . . , xk ) = δ (X) ≡ w ∈ E < w, z >= w z = 0 für alle z ∈ δ(X) . (2.13) Frage: Sei dim δ(X) = k die Dimension von δ(X). Wie groß ist dann dim δ ⊥(X)? Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 47 • Lineare Unabhängigkeit: k Vektoren xi (mit positiver Länge) sind linear unabhängig, falls es keine k − 1 Skalare ci gibt, so dass gilt: xj = k X i=1 i6=j cixi, 1 ≤ j ≤ k. Beispiel: Seien die Spalten der n × k Matrix X linear unabhängig. Dann existiert kein γ mit positiver Länge, so dass Xγ = 0. • Der Rang (rank) rk(X) einer (m × n)-Matrix A gibt die maximale Zahl an Vektoren (entweder Zeilen- oder Spaltenvektoren) an, die linear unabhängig sind. – Eine (m × n)-Matrix A hat vollen Rang (full rank), wenn der Rang der Matrix gleich der kleineren Dimension ist, also ( m, falls m ≤ n und alle m Zeilen linear unabhängig sind, rk(A) = n, falls m ≥ n und alle n Spalten linear unabhängig sind. – Eine Matrix, die nicht vollen Rang hat, weist ein Rangdefizit auf. Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 48 – Eine quadratische Matrix ∗ mit Rangdefizit ist singulär und nicht invertierbar, ∗ mit vollem Rang wird als regulär bzw. als nichtsingulär bezeichnet und ist invertierbar. – Der Rang ist kleiner als die Spaltenzahl k von X, falls Spalten von X linear abhängig sind. Dann ∗ lässt sich eine Matrix X′ bilden, die aus k ′ linear unabhängigen Spalten von X besteht, so dass rk(X) = k ′ < k und ∗ δ(X) = δ(X′) gilt, ∗ weist auch XT X ein Rangdefizit auf, da rk(X) = rk(XT X) = k ′, und ist singulär. (Vgl. MLR.3 in Ökonometrie I). Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 49 Appendix zu Vektorräumen • Linearer Vektorraum: Eine Menge V wird Vektorraum genannt, wenn hinsichtlich Addition (V × V → V) und Multiplikation (R × V → V) folgende Bedingungen gelten (siehe z.B. Li & Racine (2007, Definition A.20)): – Kommutativität der Addition x+y =y+x – Assoziativität der Addition (x + y) + z = x + (y + z) – Es existiert ein (eindeutiger) Vektor θ (Nullvektor), so dass für alle x ∈ V θ+x=x – Distributivität (für alle α, β ∈ R und alle x, y ∈ V) α(x + y) = αx + αy, (α + β)x = αx + βx Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010 50 – Assoziativität der Multiplikation (für alle α, β ∈ R, x ∈ V) α(βx) = (αβ)x – 0 · x = θ, 1 · x = x. • Ein normierter Vektorraum ist auch ein metrischer Raum (= Menge mit Metrik ausgestattet), da die Norm die Bedingungen einer Metrik oder Abstandsfunktion d : ID × ID → [0, ∞) erfüllt. Für zwei Objekte x und y in ID gilt (Gentle 2007, Section 2.1.7): 1. d(y, x) > 0, wenn x 6= y und d(y, x) = 0, falls x = y, 2. d(x, y) = d(y, x), 3. d(x, z) ≤ d(x, y) + d(y, z). Die Norm ||x−y|| erfüllt alle Definitionen einer Metrik. Im Fall des euklidischen pPn 2 Raums ist die Norm ||x||2 = i=1 xi . Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 51 2.3 Die Geometrie des KQ-Schätzers • Zur Erinnerung: Xa = angibt. Pk i=1 xi ai ∈ δ(X), wobei xi die i-te Spalte von X • Für die i-te Zeile der Normalgleichungen (2.7) XT Xβ̂ = XT y gilt xTi Xβ̂ = xTi y bzw. xTi (y − Xβ̂) = 0 bzw. xTi û =< xi, û >= 0. Für den Vektor der KQ-Residuen gilt also: – û ∈ δ ⊥(X), d.h. der er steht senkrecht auf den erklärten/ prognostizierten Werten Xβ̂ ∈ δ(X). – er entspricht dem Lot von y auf Xβ durch Minimierung der Euklidischen Norm von u(β) = y − Xβ bezüglich β, also durch min ||u(β)||. β Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 52 – Beachte: Die Minimierung einer anderen Norm würde zu einem anderen Schätzer führen und der Residuenvektor nicht mehr senkrecht auf X stehen! • Enthält die Regression eine Konstante, d.h. entspricht x1 einem Vektor mit Einsen, gilt β̂1 = ȳ − β̂2x̄2 − · · · − β̂k xk . (2.14) Interpretation: – Die Regressionsgerade (im Falle von k > 2 Regressoren präziser: Regressionshyperebene) verläuft durch den Schwerpunkt, d.h. durch ȳ und die Mittelwerte der Regressoren. Pn – t=1 ût = ιT û = 0, d.h. die Abweichungen von der Regressionsgerade heben sich im Mittel auf. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 Beweis: Es bezeichne T ι ≡ 1 1 ··· 1 53 (2.15) einen (n × 1)-Vektor mit Einsen. Dann lässt sich die Regression (2.1) schreiben als ! β1 y = ιβ1 + X2β 2 + u, X = ι X2 , , β2 wobei β1 ein Skalar, X2 eine (n × (k − 1))-Matrix und β 2 ein (k − 1) × 1-Vektor ist. Die Normalgleichungen (2.7) lassen sich dann schreiben als ! ! ! T T T ι y ι ι ι X2 β̂1 (2.16) = T T T X2 ι X2 X2 β̂ 2 X2 y. Die erste Zeile des Gleichungssystems lautet ιT ιβ̂1 + ιT X2β̂ 2 = ιT y bzw. nβ̂1 + n k X i=2 und Division durch n und Umstellung liefert (2.14). x̄iβ̂i = n X t=1 yt. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 54 Projektionen und orthogonale Projektionen • Eine Projektion ist ein Mapping von einem n-dimensionalen Raum in einen (invarianten) Unterraum (invariant, da die Punkte in dem Unterraum selbst sich durch das Mapping nicht verändern). • Eine orthogonale Projektion ist ein Mapping, bei dem die Abstände zwischen den Punkten in E n und den Projektionen im Unterraum minimiert werden. Also: Die Vektoren, die die Punkte in E n und dem orthogonalen Unterraum verbinden, stehen senkrecht auf dem Unterraum. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 • Die KQ-Schätzung entspricht orthogonalen Projektionen – von y ∈ E n in ŷ ∈ δ(X), – von y ∈ E n in û ∈ δ ⊥(X), die resultieren, wenn man y von links mit den Projektionsmatrizen −1 T T PX ≡ X X X X , MX ≡ I − PX 55 (2.17) (2.18) multipliziert: ŷ = PXy, û = MXy. – Die Projektionsmatrizen PX und MX sind idempotent, d.h. ergeben mit sich selbst multipliziert wieder die Ausgangsmatrix: PX · . . . · PX · PX = PX bzw. MX · . . . · MX · MX = MX. Geometrische Interpretation: die erste Projektion (i.e. einmalige Vormultiplikation mit PX bzw. MX) liefert einen Vektor im invarianten Unterraum, den eine weitere Projektion nicht mehr verändern kann. – Die Projektionsmatrizen PX und MX sind symmetrisch, d.h. PTX = PX und MTX = MX. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 56 – Die Projektionsmatrizen PX und MX sind komplementäre Projektionen, da ihre Summe den Ausgangsvektor ergibt: MX = I − PX. (2.19) PXMX = PX (I − PX) = PX − PX = O (2.20) PX y + MXy = y ⇔ Falls also zwei Projektionen komplementär sind, dann gilt und für beliebige z ∈ δ(X) und w ∈ δ ⊥(X), dass z = PXz und w = MXw und zT w = zT PTXMXw = 0 ⇐⇒ < z, w > = < PXz, MXw > = 0. D.h. die beiden Projektionen löschen sich gegenseitig aus. Geometrische Interpretation? – Also: Falls zwei Projektionen komplementär und die beiden Projektionsmatrizen PX und MX symmetrisch sind, so definieren sie eine orthogonale Zerlegung von E n, denn die beiden Vektoren PXy und MXy liegen in zwei orthogonalen Unterräumen. – MX eliminiert alle Vektoren in δ(X) auf den Ursprung und entsprechend eliminiert PX alle Vektoren in δ ⊥(X). Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 57 Geometrische Interpretation: Möchte man einen Vektor in δ(X) auf δ ⊥(X) projizieren, so muss das Lot in den Unterraum δ ⊥(X) gebildet werden. Das führt genau auf den Ursprung. – Zerlegung der Total Sum of Squares ||y||2 = ||PXy + MXy||2 = < y, y > = < PXy + MXy, PXy + MXy > = yT PTXPX y + yT PTXMXy + yT MTXPXy + yT MTXMXy. Man erhält ||y||2 = yT PXy + yT MXy = ||PXy||2 + ||MXy||2, ||y||2 = ||Xβ̂||2 + ||û||2 T SS = ESS + SSR aber: ||PXy||2 ≤ ||y||2 sowie ||y||2 ≤ ||Xβ||2 + ||u||2. (2.21) Der Zusammenhang (2.21) entspricht dem Satz von Pythagoras und liefert die Zerlegung der Total Sum of Squares (TSS). Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 58 Beachte: T SS ≡ ||y||2 6= ESS ≡ ||ŷ||2 6= SSR ≡ ||û||2. n X t=1 n X t=1 (yt − ȳ)2 ≡ SST, (2.22) (ŷt − ȳ)2 ≡ SSE, (2.23) (2.24) SST, SSE wurden in Wooldridge (2009, Section 2.3) oder Kursmaterial zu Intensivkurs Ökonometrie, Ökonometrie I definiert. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 59 • Gefittete Werte und Residuen sind unabhängig von Skalierung der Regressoren und unabhängigen Linearkombinationen der Regressoren mittels einer nicht singulären (k × k) Matrix A, denn δ(X) = δ(XA), da −1 T (XA)T PXA = XA (XA) XA −1 T T T T = XA A X XA A X = XAA−1 (XT X)−1(AT )−1AT XT = X(XT X)−1XT = PX und entsprechend für MXA, d.h. y = PXy + MXy y = PXAy + MXAy. • Notation: PX,W projiziert in den invarianten Unterraum δ(X, W). Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 60 Partitionierte Regression und Frisch-Waugh-Lovell Theorem • Ausgangspunkt ist wieder das multiple lineare Regressionsmodell (2.1) y = Xβ + u. • Ist man insbesondere an βk interessiert, lässt sich (2.1) wie folgt schreiben: ! β 1 + u, (2.25) y = X1β 1 + xk βk + u = X1 xk βk wobei – X1 eine (n × (k − 1))-Matrix und xk ein (n × 1)-Vektor ist, – β 1 ein ((k − 1) × 1)-Vektor und βk ein Skalar ist. Ökonometrie I (Abschnitt 3.4.1): Schätzer von βk mittels y = xk βk + ε ist verzerrt, außer die empirische Korrelation zwischen xk und allen anderen Regressoren x1, . . . , xk−1 ist Null, d.h. für die Regression xk = X1δ + η Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 61 erhält man δ̂ = −1 T T X1 xk X1 X1 =0 ⇔ ⇔ XT1 xk = 0 xT1 xk = xT2 xk = · · · = xTk−1xk = 0 (2.26) und damit auch R2 = 0. Geometrische Interpretation von (2.26): xk steht orthogonal auf x1, . . . , xk−1. • Was tun, wenn (2.26) nicht gilt? Orthogonalisieren! Gleich Betrachtung des allgemeinen Falls: Das Regressionsmodell lautet dann y = X1β 1 + X2β 2 + u (2.27) mit Partitionierung der Regressormatrix X = X1 X2 in die (n × k1) Matrix X1 und die (n × k2) Matrix X2 (k = k1 + k2). • Wie Orthogonalisieren? Verwendung von orthogonalen Projektionen. Orthogonalisieren durch Z = MX1 X2. Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010 62 Test mit MX1 ≡ M1: XT1 Z = XT1 (M1X2) = XT1 (I − P1)X2 = XT1 X2 − XT1 X2 = 0. • Zur Schätzung von β 2 kann man also – eine OLS-Regression für y = X1β 1 + X2β 2 + u oder – eine OLS-Regression für y = M1X2β 2 + v durchführen! Mögliches Problem: Die Residuenvektoren sind nicht gleich (verifizieren!). Ausweg: Multiplikation aller Variablen mit M1. Man erhält M1y = M1X1β 1 + M1X2β 2 + M1u, M1y = M1X2β 2 + ε. (2.28) (2.29) • Frisch-Waugh-Lovell Theorem: 1. Der OLS-Schätzer für β 2 für die Regressionsmodelle (2.27) und (2.28) sind numerisch identisch. 2. Die Residuen der Regressionen für (2.27) und (2.28) sind numerisch identisch. Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 63 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems • Bereinigung von nicht interessierenden Regressoren Beispiele: – Konstante: Sei o.B.d.A. x1 = ι = (1, 1, ..., 1)T und damit 1 Mι ≡ In − ιιT . n Mι heißt zentrierende Matrix, da 1 0 ··· 0 1 1 ··· 1 1 − n1 − n1 0 1 11 1 1 1−n = − . Mι = . . . . . . .. .. .. n . 0 1 1 1 − n1 1 − n1 Vormultiplikation eines Vektors mit Mι berechnet die Abweichungen vom Mittelwert des Vektors. Der Vektor der Steigungsparameter β 2 lässt mit Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 64 dem Frisch-Waugh-Lovell-Theorem schätzen: Mιy = MιX2β 2 + Mιu, −1 T T X2 Mιy. β̂ 2 = X2 MιX2 – Saisondummies: Fasst man Saisondummies und Konstante, sofern vorhanden, in der Matrix S zusammen, kann man y = Sα + Xβ + u oder MSy = MSXβ + MSu schätzen, wobei MS = I − S(ST S)−1ST . (Einfachster Fall: der bereits besprochene Fall der Zentrierung von Regressoren) – Zeittrend Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 65 • Darstellung des Bestimmtheitsmaßes (Coefficient of Determination) – Beachte Definitionen von SSE, SST, T SS, ESS in (2.22) und (2.23). – Unzentriertes R2 : Ru2 ESS ||ŷ||2 ||PXy||2 2 ≡ = = = cos θ T SS ||y||2 ||y||2 ⇒ 0 ≤ Ru2 ≤ 1. (2.30) Basis: Dividiere (2.21) ||y||2 = ||ŷ||2 + ||û||2 durch ||y||2. Daraus folgt, dass 0 ≤ Ru2 ≤ 1. Das letzte Gleichheitszeichen in (2.30) folgt aus der Definition des Kosinus: cos θ = Ankathete/Hypotenuse = ||PXy||/||y||. Aus (2.21) folgt auch Ru2 SSR ||û||2 ||MXy||2 =1− =1− . =1− T SS ||y||2 ||y||2 (2.31) Nachteil von Ru2 : Ist eine Konstante im Regressionsmodell und sind die Daten nicht zentriert, hängt Ru2 von der Größe der Konstante ab (Davidson & MacKinnon 2004, Section 2.5). Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 66 – Zentriertes R2: Wird vom Bestimmtheitsmaß gesprochen, wird darunter im Allgemeinen das zentrierte R2 verstanden. In der Literatur gebräuchliche Definitionen: ||PXMıy||2 R = ||Mıy||2 2 R2 R2 R2 R2 0 ≤ R2 ≤ 1 (wegen (2.19) mit Mıy). 2 Pn ¯ 2 t=1 ŷt − ŷ (yt − ȳ) [ = Corr (ŷ, y) = P 2 Pn n 2 ¯ t=1 ŷt − ŷ t=1 (yt − ȳ) 2 T ŷ Mıy 2 = T ⇒ 0 ≤ R ≤ 1. T (ŷ Mıŷ) (y Mıy) Pn 2 SSE (ŷ − ȳ) t = = Pt=1 n 2. SST t=1 (yt − ȳ) ||Mıŷ||2 ||MıPXy||2 = = . 2 2 ||Mıy|| ||Mıy|| SSR ||û||2 ||MXy||2 =1− =1− =1− . 2 2 SST ||Mıy|| ||Mıy|| ⇒ (2.32) (2.33) (2.34) (2.35) (2.36) Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 67 Anmerkungen: ∗ Alle Definitionen sind identisch, falls Konstante im Modell. ∗ Warnung: Wenn keine Konstante im Modell enthalten, garantieren nicht alle Definitionen, dass R2 ∈ [0, 1], siehe folgende Tabelle. Software liefert je nach verwendeter Definition unterschiedliche Ergebnisse. ∗ Eigenschaften verschiedener Definitionen bei KQ: Definition verwendet z.B. von Wertebereich ohne Konstante in X (2.32) Davidson & MacKinnon (2004, Equation (2.55)) [0, 1] (2.33) Greene (2008, Equation (3-27)) [0, 1] (2.34) Wooldridge (2009, Equation (2.38)) (2.35) Greene (2008, Equation (3-26)) ≥0 (2.36) Davidson & MacKinnon (2004, Equation (2.55)), ≤ 1 Wooldridge (2009, Equation (2.38)) ≥0 Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 68 ∗ Gültige Umformungen, falls X mit Konstante: PıPX = Pı. Mı MX = MX . ŷT Mıŷ = ŷT Mıy, da ŷT Mıû = ŷT û = 0. ¯ = Pıŷ = PıPXy = Pıy = ι ȳ. ι ŷ (2.37) (2.38) (2.39) (2.40) – Allgemeine Anmerkungen ∗ Alle Definitionen von R2 (alle außer (2.33)) , die auf dem Satz von Pythagoras basieren, sind nur bei Verwendung des KQ-Schätzers aussagekräftig. Ansonsten können Werte kleiner Null oder größer Eins auftreten. [ (ŷ, y)2 ≤ 1 gilt, aber der Satz des Pythagoras ∗ Da für (2.33) 0 ≤ Corr nicht verwendet wurde, kann das Quadrat des empirischen Korrelationskoeffizienten als Goodness-of-Fit-Maß immer verwendet werden. Es wird dann häufig als Pseudo-R2 bezeichnet. Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 69 • Leverage-Effekt T – Einheitsbasisvektor: et = 0 0 · · · 0 1 0 · · · 0 , wobei in der t-ten Zeile eine 1 steht. Alle n Einheitsbasisvektoren et, t = 1, . . . , n bilden eine Basis für E n, wobei jeder Basisvektor Norm ||et|| = 1 hat. – PX wird manchmal als Hat-Matrix (hat matrix) und ihr t-tes Diagonalelement deswegen als ht bezeichnet. Letzteres entspricht 0 ≤ ht = eTt PXet = ||PXet||2 ≤ ||et||2 = 1. (2.41) Es lässt sich zeigen (Davidson & MacKinnon 2004, Section 2.6), dass k h̄ = , n ht ≥ 1/n da n X ht = T r(PX) = k, (2.42) t=1 ⇔ ht = ||PXet||2 ≥ ||PιPXet||2 = ||Pιet||2 = 1/n, (2.43) falls X eine Konstante enthält. Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 70 – Um den Effekt einer möglicherweise einflussreichen Stichprobenbeobachtung (yt, Xt) abzuschätzen, werden die KQ-Schätzer für die komplette Stichprobe mit dem KQ-Schätzer für die Stichprobe ohne Beobachtung t verglichen. Letztere erhält man durch Aufnahme einer Impulsdummy et in (2.1) y = Xβ + etα + u, (2.44) da Met y = Met Xβ + Residuen (Frisch-Waugh-Lovell Theorem) gilt und wegen Met = I − eteTt die t-te Beobachtung wegfällt. – Wird der KQ-Schätzer für β auf Basis von (2.44) (ohne die t-te Beobachtung) mit β̂ (t) bezeichnet, lässt sich die Differenz der KQ-Schätzer angeben als −1 T −1 T (t) 1 T T β̂ − β̂ = α̂ X X X PXet = X X Xt ût. (2.45) 1 − ht Die t-te Beobachtung ist möglicherweise einflussreich (influential) und damit ein Leverage-Punkt, falls ∗ ht groß (nahe 1) ist (bezieht sich auf x-Koordinaten), ∗ ût groß ist (bezieht sich auf y-Koordinate). Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 71 (t) – In R erhält man die ht’s und β̂ − β̂ , t = 1, . . . , n gegeben durch (2.41) und (2.45) mit influence(...). – Nachweis über mehrmalige Anwendungen der Eigenschaften von Projektionsmatrizen etc. (Details in Davidson & MacKinnon (2004, Section 2.6)): y = PX,et y + MX,et y, y = Xβ̂ (t) + α̂et + MX,et y, (t) PXy = Xβ̂ + α̂PXet + 0 (t) X β̂ − β̂ = α̂PXet, −1 T (t) T β̂ − β̂ = α̂ X X X PX et = eTt MXy ût wobei mit dem FWL-Theorem α̂ = T = . 1 − h et MXet t −1 T 1 T Xt ut, X X 1 − ht • Zu lesen: Davidson & MacKinnon (2004), Kapitel 2. • Noch mehr zur Geometrie des KQ-Schätzers findet sich z.B. in Ruud (2000). Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010 3 Statistische Eigenschaften des KQ-Schätzers: Erwartungswert und Kovarianz • Das multiple lineare Regressionsmodell (2.1): Alternative Schreibweisen: yt = β1xt1 + β2xt2 + · · · + βk xtk + ut, yt = Xtβ + ut, y = Xβ + u. • KQ-Schätzer (2.2): t = 1, . . . , n, t = 1, . . . , n, wobei Xt = xt1 · · · xtk , β̂ = (XT X)−1XT y. 72 Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010 73 • Zur Beantwortung vieler Fragen ist die Kenntnis der algebraischen und geometrischen Eigenschaften des KQ-Schätzers (Kapitel 2) nicht ausreichend, sondern die Kenntnis der statistischen Eigenschaften des KQ-Schätzers notwendig. Beispiele: – Angenommen, Ihnen stehen neben den k Regressoren noch weitere n − k mögliche Erklärungsvariablen zur Verfügung. ∗ Können Sie die Residuenquadratsumme SSR (2.24) weiter reduzieren, indem Sie zu den k Regressoren weitere Regressoren aufnehmen? Wenn ja wieweit? ∗ Wenn ja, können Sie dadurch yt besser erklären? Was verstehen Sie unter besser erklären”? ” – Angenommen, Ihnen liegt eine weitere Stichprobe mit k Regressoren zu derselben Fragestellung vor. ∗ Warum unterscheiden sich die beiden KQ-Schätzungen vermutlich? ∗ Welche der beiden KQ-Schätzungen wählen Sie? Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010 74 ∗ Sollen Sie die KQ-Ergebnisse beider Stichproben zusammenfügen? Die Analyse statistischer Eigenschaften erfordert zusätzliche Annahmen. Die Annahmen beziehen sich auf die Art der Datengenerierung, bzw. auf die Eigenschaften der Grundgesamtheit. Für die Analyse statistischer Eigenschaften sind die Konzepte datengenerierender Prozesse und ökonometrischer Modelle sehr hilfreich, siehe folgenden Abschnitt. Methoden der Ökonometrie — 3.1 Datengenerierende Prozesse & ökonometr. Modelle — U Regensburg — 26.01.201075 3.1 Datengenerierende Prozesse und ökonometrische Modelle • Grundgesamtheit (population): Menge aller Einheiten, über die man (statistische) Aussagen gewinnen möchte und aus der bei einer Stichprobenerhebung gezogen werden kann. Beispiele: – Menge aller abhängig Beschäftigten in einem Land. – Anzahl von Verspätungen von mehr als 10 Minuten pro Tag und Bahnhof. Im zweiten Fall ist die Grundgesamtheit unendlich. Anstelle einer Grundgesamtheit ist es u.U. verständlicher, sich einen stochastischen Mechanismus” vorzustellen, ” der die Stichprobenwerte oder Stichprobendaten erzeugt haben könnte. Dieser kann mit einer Wahrscheinlichkeitsdichtefunktion dargestellt werden. Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 76 3.1.1 Verteilungs- und Dichtefunktionen Wiederholung aus der Wahrscheinlichkeitstheorie (Davidson & MacKinnon 2004, Section 1.2): • Marginale Wahrscheinlichkeitsverteilung (marginal probability distribution, cumulative distribution function (CDF)) für eine Zufallsvariable X: F (x) ≡ P (X ≤ x). (3.1) • Gemeinsame Wahrscheinlichkeitsverteilung (joint probability distribution function) für zwei oder mehr Zufallsvariablen X1, . . . , Xm: F (x1, x2, . . . , xm) ≡ P ((X1 ≤ x1) ∩ · · · ∩ (Xm ≤ xm)) = P (X1 ≤ x1, . . . , Xm ≤ xm), (3.2) Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 77 • Beachte: Für jede stetige Zufallsvariable X ∈ R gilt P (X = x) = 0. Wieso? Deshalb Betrachtung von Wahrscheinlichkeitsdichten. • Wahrscheinlichkeitsdichtefunktion (probability density function) (PDF): Für eine stetige Zufallsvariable mit differenzierbarer Wahrscheinlichkeitsverteilung F (x) wird die Ableitung erster Ordnung Wahrscheinlichkeitsdichtefunktion genannt dF (x) , (3.3) f (x) ≡ dx Z x f (z)dz = F (x). (3.4) −∞ Interpretation: Die marginale Wahrscheinlichkeitsdichte f (x) für die Zufallsvariable X gibt die Rate an, mit der sich die Wahrscheinlichkeit P (X ≤ x) für das Intervall (−∞, x] verändert, wenn das genannte Intervall um eine winzige Intervalllänge (x, x + δ] zu (−∞, x + δ] verlängert wird: P (x < X ≤ x + δ) = P (X ≤ x + δ) − P (X ≤ x) ≈ f (x)δ. Siehe Eine kurze Einführung in die Wahrscheinlichkeitstheorie Sommer 2009”. ” Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 78 • Marginale Wahrscheinlichkeitsdichtefunktion für eine stetige Zufallsvariable X: (3.3) • Gemeinsame Wahrscheinlichkeitsdichtefunktion (joint density function) für zwei oder mehr stetige und Zufallsvariablen X1, . . . , Xm ∈ R mit partiell differenzierbarer CDF: ∂ mF (x1, x2, . . . , xm) f (x1, x2, . . . , xm) ≡ , (3.5) ∂x ∂x · · · ∂x Z Z1 2 Z m x1 x2 F (x1, . . . , xm) = −∞ −∞ xm ··· −∞ F (x1) = F (x1, ∞, . . . , ∞). f (z1, z2, . . . , zm) dz1dz2 · · · dzm, (3.6) (3.7) Zusammenhang zwischen marginalen und gemeinsamen Dichten: Es gilt, z.B. im Fall von drei Zufallsvariablen Z ∞Z ∞ f (x1) = f (x1, z2, z3) dz2dz3. (3.8) −∞ −∞ Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 79 • Bedingte Wahrscheinlichkeitsdichte (conditional probability distribution function) für Zufallsvariable X1 gegeben eine Zufallsvariable X2 oder mehrere Zufallsvariablen X2, . . . , Xm: f (x1, x2) , f (x1|x2) ≡ f (x2) vorausgesetzt, dass f (x2) > 0, f (x1, x2, . . . , xm) f (x1|x2, . . . , xm) ≡ , f (x2, . . . , xm) vorausgesetzt, dass f (x2, . . . , xm) > 0. (3.9) (3.10) • Gilt F (x1, x2) = F (x1, ∞)F (∞, x2) = P (X1 ≤ x1) P (X2 ≤ x2), (3.11) werden die Zufallsvariablen X1 und X2 als statistisch unabhängig oder unabhängig bezeichnet und es gilt f (x1, x2) = f (x1) f (x2). Entsprechende Faktorisierungen gelten für mehr als zwei Zufallsvariablen. (3.12) Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 80 • Träger (support): Gegeben sei eine Zufallsvariable X. Der Bereich, auf dem eine Dichtefunktion fX (x) positiv ist, wird als Träger (support) X ⊂ R einer Dichtefunktion bezeichnet: X = {x : fX (x) > 0}. • ♯ Eindimensionaler Transformationssatz (change of variable): Gegeben sei eine stetige Zufallsvariable X ∈ R mit Dichtefunktion fX (x) > 0. Gegeben sei weiter eine Zufallsvariable Y = g(X), wobei die Funktion g(·) stetig und umkehrbar sei, so dass x = g −1(y). (3.13) Außerdem seien g(·) und g −1(·) einmal differenzierbar. Dann lässt sich für die Zufallsvariable Y die Dichtefunktion fY (y) durch d −1 −1 fY (y) = g (y) fX g (y) (3.14) dy berechnen (Casella & Berger 2002, Theorem 2.1.5). Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 81 • ♯ Mehrdimensionaler Transformationssatz: Gegeben sei ein stetiger (m × 1)-Zufallsvektor x ∈ X ⊂ Rm mit Dichtefunktion fx(x) > 0. Weiter sei ein (m × 1)-Zufallsvektor y = g(x) = a + Ax (3.15) gegeben. Ist A invertierbar (siehe Casella & Berger (2002, Section 4.6, p. 185) für Bedingungen für den Fall, dass g(x) in (3.15) nichtlinear ist), gilt und (siehe Abschnitt 2.1) x = h(y) = A−1(y − a) ∂x ∂h(y) −1 = = A . ∂yT ∂yT Dann lässt sich für den Zufallsvektor y die Dichtefunktion fy (y) durch −1 ∂h(y) −1 fy (y) = fx (h(y)) = A fx A (y − a) (3.16) ∂yT ∂h(y) berechnen, wobei ∂yT die Determinante der Jacobi-Matrix ∂h(y) bezeichnet, ∂yT siehe (3.18) für weitere Details. Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 82 • Matrixalgebra - weitere Definitionen – Determinante einer quadratischen Matrix A: ∗ Definition: Für eine allgemein Definition siehe z.B. Gentle (2007, Section 3.1.5, Gleichung (3.16)). Die Determinante |·| für eine (2×2)-Matrix lautet |A| = a11a22 − a12a21. ∗ Geometrische Interpretation: Der (n × 1)-Vektor definiert im n-dimensionalen Euklidischen Raum E n ein n-dimensionales Parallelepiped (= Parallelogramm für n = 2), für das sich ein Volumen (für n = 2 eine Fläche) berechnen lässt. Wird ein (n × 1)-Vektor x von links mit der Matrix A multipliziert, entspricht dies einer Abbildung von E n −→ E n : x −→ z = Ax. Die Determinante |A| gibt an, um wie viel sich die Volumina, die jeweils durch x und z bestimmt werden, unterscheiden (Ein Beispiel für n = 2 findet sich in Davidson & MacKinnon 2004, Section 12.2, pp. 511-512). Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 83 – Jacobi-Matrix (Jacobian matrix): Gegeben sei für x ∈ Rn eine vektorwertige Funktion g1(x) n m f : R −→ R : x −→ g(x) ≡ . . . . gm(x) Die (m × n)-Matrix J(x) ≡ ∂g1(x) ∂x1 ∂g(x) . ≡ . T ∂x ∂g (x) m ∂x1 ∂g1(x) ∂x2 .. ··· ... ∂gm (x) ∂x2 ··· ∂g1(x) ∂xn .. ∂gm (x) ∂xn (3.17) der partiellen Ableitung erster Ordnung wird als Jacobi-Matrix bezeichnet. Die Determinante der Jacobi-Matrix ∂g(x) (3.18) |J(x)| = ∂xT wird häufig als Jacobi-Determinante bezeichnet. Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010 84 • Notation – Die Zufallsvariablen vt, t = 1, . . . , n sind unabhängig und identisch verteilt bzw. independently and identically distributed (IID): vt ∼ IID(E(vt), V ar(vt)) – Die Zufallsvariablen vt, t = 1, . . . , n sind unabhängig und identisch normalverteilt bzw. independently and identically normally distributed (NID): vt ∼ N ID(E(vt), V ar(vt)). In Matrixnotation entspricht dies mit µv = E(vt), σv2 = V ar(vt) v1 µv σv2 0 · · · 0 v µ 0 σ 2 · · · 0 2 v v . ∼ N . , . . . , . . . . . . .. 0 0 · · · σv2 vn µv v ∼ N (µv ι, σv2I). Siehe Abschnitt 4.2 zu Formeln der multivariaten Normalverteilung. Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010 85 3.1.2 Datengenerierende Prozesse • In der Ökonometrie/Statistik versteht man unter einem datengenerierenden Mechanismus oder datengenerierenden Prozess (data generating process (DGP)) einen stochastischen Mechanismus, der die beobachteten Stichprobendaten erzeugt haben kann. • Zur Darstellung eines DGPs werden alle Variablen einer Stichprobenbeobachtung in einem (k × 1)-Vektor wt (ohne Konstante) zusammengefasst. Eine weitere Einteilung in eine abhängige Variable yt und einen Vektor Zt mit unabhängigen Variablen (ohne Konstante) ist nur unter bestimmten Bedingungen sinnvoll, siehe z.B. (3.30) in Abschnitt 3.1.3. • Ein stochastischer Mechanismus wird vollständig durch eine gemeinsame Wahrscheinlichkeitsdichte f (w1, w2, . . . , wn) (3.19) der n Stichprobenbeobachtungen {w1, . . . , wn} beschrieben. Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010 86 • Liegt eine Zufallsstichprobe vor, ermöglicht (3.12) folgende Zerlegung der gemeinsamen Dichte f (w1, w2, . . . , wn): f (w1, w2, . . . , wn) = f (w1) f (w2) · · · f (wn) n Y (3.20) = f (wt). t=1 Eine Zerlegung für abhängige Stichprobenbeobachtungen, wie beispielsweise bei Zeitreihenbeobachtungen wird in Abschnitt 4.5 behandelt. • Anstelle der gemeinsamen Dichte f (w1, w2, . . . , wn) ist es ausreichend, f (wt), t = 1, . . . , n, zu betrachten. • Es ist möglich, dass die Dichten f (wt) von t abhängen. Sie können beispielsweise von Saisonkomponenten oder von einem Trend abhängig sein. Die entsprechenden Dichten f (·) werden dann mit dem Index t versehen oder es wird explizit eine deterministische Variable in die Bedingung mit aufgenommen. • Ein DGP ist immer vollständig spezifiziert und erlaubt somit die Generierung von Realisationen von Stichprobenbeobachtungen mit dem Computer und damit beispielsweise die Durchführung einer Monte-Carlo-Simulation. Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010 87 – Beispiel: einfaches Regressionsmodell; Zufallsstichprobe yt xt ut x t , ut = β1 + β2xt + ut, ∼ N (µx , σx2 ), ∼ N (0, σ 2), stochastisch unabhängig ⇒ Cov(xt, ut) = 0. (3.21a) (3.21b) (3.21c) (3.21d) Siehe zu (3.21d) Davidson & MacKinnon (2004, Section 4.3, S. 130ff.). Damit ergibt sich (Übungsaufgabe) für f (yt, xt) in (3.20) ! ! !! 2 2 2 2 β1 + β2µx β2 σx + σ β2σx yt ∼N , . (3.22) 2 2 xt µx β2σx σx Sind die Parameterwerte µx , β1, β2, σ 2, σx2 bekannt, ist (3.22) ausreichend, um Stichprobenbeobachtungen mit dem Computer zu generieren. – Ist im obigen Beispiel (3.21b) nicht bekannt, dann müssen zur Computersimulation die {x1, . . . , xn} bekannt sein und man simuliert aus der bedingten Dichte f (yt|xt) yt|xt ∼ N (β1 + β2xt, σ 2). (3.23) Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010 88 – Ein DGP muss keine eindeutige parametrische Spezifikation haben. Beispiel: Der DGP (3.22) lässt sich mit folgender Reparametrisierung auch invertiert darstellen: β1 1 −1 xt = − + yt + ut , (3.24a) β2 β2 β2 2 β1 1 σ (3.24b) xt = γ1 + γ2yt + vt, γ1 = − , γ2 = , σv2 = 2 , β2 β2 β2 sowie yt xt ! ∼N ∼N β1 + β2µx µx µy γ1 + γ2µy ! ! , , σx2 !! (3.22) γ2σy2 γ2σy2 γ22σy2 + σv2 !! (3.25) β22σx2 + σ 2 β2σx2 β2σx2 σy2 . und xt|yt ∼ N (γ1 + γ2yt, σv2). (3.26) Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010 89 – Allgemein gilt aufgrund von (3.10): f (wt) = f (w1t|w2t, . . . , wkt)f (w2t, . . . , wkt) = f (w2t|w1t, w3t, . . . , wkt)f (w1t, w3t, . . . , wkt). (3.27) D.h. im Allgemeinen ist aus rein statistischer Sicht eine eindeutige Einteilung der k Variablen in eine abhängige Variable yt und k − 1 unabhängige Variablen Zt (ohne Konstante) nicht möglich. Eine derartige Einteilung erfordert im Allgemeinen Kenntnisse von außen”, also ” z.B. durch die (ökonomische) Theorie. Das bedeutet, dass die Kenntnis des DGPs alleine nicht ausreichend sein kann, um Kausalitätsbeziehungen zu identifizieren. Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 90 3.1.3 Ökonometrische Modelle • Salopp: Ein ökonometrisches Modell M ist eine Menge an DGPs. Beispiele: – Alle DGPs (3.22), die man mit den Parametern µx , β1, β2 ∈ R, σ 2, σx2 ∈ R+ erhält. – Alle DGPs, die (3.23) erfüllen. Dazu gehören alle DGPs (3.22) plus alle DGPs, für die (3.21b) nicht gilt, also auch alle DGPs, bei denen xt nicht normalverteilt ist. Damit erhält man das normale einfache lineare Regressionsmodell: yt|xt ∼ N (β1 + β2xt, σ 2), β1, β2 ∈ R, σ 2 ∈ R+. (3.28) – Werden in einem Modell lediglich der bedingte Erwartungswert und die bedingte Varianz spezifiziert, jedoch nicht die (bedingte) Dichte, erhält man das einfache lineare Regressionsmodell E[yt|xt] = β1 + β2xt, V ar(yt|xt) = σ 2, yt|xt ∼ (β1 + β2xt, σ 2), β1, β2 ∈ R, σ 2 ∈ R+. (3.29) Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 91 Im Vergleich zum normalen einfachen linearen Regressionsmodell (3.28) ist die Menge der enthaltenen DGPs noch größer, da alle DGPs mit nichtnormalverteilten Fehlern ebenfalls dazugehören. – Überlege: Gegeben seien jeweils spezifische Parameterwerte für die drei Modelle. Für welches Modell ist damit der DGP vollständig spezifiziert? • Ökonometrische Modelle, in denen die enthaltenen DGPs durch Funktionen in Abhängigkeit von den Stichprobendaten und (endlich vielen) Parametern unterschieden werden, werden als parametrische ökonometrische Modelle bezeichnet. Häufig werden alle Modellparameter in einem (p × 1)-Parametervektor θ ∈ Θ zusammengefasst, wobei Θ als Parameterraum (parameter space) bezeichnet wird. – Beispiel: Für das einfache lineare Regressionsmodell (3.29) erhält man p = 3 und β1 ∈ Θ ⊂ R2 × R+. θ= β 2 σ2 Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 92 – Werden Dichten für wt betrachtet, wobei die jeweiligen Dichten von einem Parametervektor θ abhängen, schreibt man f (wt; θ). Damit lässt sich die Menge der im parametrischen Modell enthaltenen Dichten schreiben als M = {f (wt; θ), θ ∈ Θ}. In diesem Kurs geht es vornehmlich um parametrische Modelle. – In der ökonometrischen Theorie und Praxis spielen jedoch auch semiparametrische Modelle und nichtparametrische Modelle eine Rolle. Eine kurze Einführung bietet Davidson & MacKinnon (2004, Section 15.5). Eine ausführliche Darstellung liefert die Monographie von Li & Racine (2007). • Gegenstand vieler empirischer Studien ist die Untersuchung von Kausalitätsbeziehungen. – Man versucht deshalb, aus der Vielzahl möglicher Zerlegungen der parametrischen Dichtefunktionen möglicher DGPs (vgl. (3.27)) eine Zerlegung (hier für Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 93 Zufallsstichproben) wt = yt ZTt ! , f (wt; θ) = f (yt|Zt; θ) f (Zt; θ) (3.30a) (3.30b) zu finden, in der der Vektor wt in die abhängige Variable yt und einen Vektor Zt mit unabhängigen bzw. erklärenden Variablen Zt zerlegt wird und darüber hinaus der Parametervektor θ in den Parametervektor θ y und den Parametervektor θ Z aufgespalten werden kann, so dass gilt f (wt; θ) = f (yt|Zt; θ y ) f (Zt; θ Z). (3.30c) Die Zerlegung (3.30c) ist für die Analyse nur sinnvoll, wenn der Parametervektor θ y inhaltlich interpretiert werden kann. Beachte, dass wegen (3.10) die Zerlegung (3.30b) immer existiert, die Zerlegung (3.30c) jedoch nicht. Weitere Details finden sich z.B. in Hendry (1995, Chapter 5) oder Davidson (2000, Chapter 4). Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 94 – Ist man ausschließlich an der Wirkung von Zt auf yt interessiert und existiert die Zerlegung (3.30), muss nur die bedingte Dichte f (yt|Zt; θ y ), jedoch nicht die Dichte f (Zt; θZ) der unabhängigen Variablen betrachtet werden. – Ein Modell für die bedingte Dichte f (yt|Zt; θ y ) gehört zur Klasse der bedingten Modelle (conditional model), die keine Modellierung der unabhängigen Variablen enthalten. – In diesem Kurs betrachten wir hauptsächlich bedingte Modelle und lassen deshalb im Allgemeinen beim Parametervektor den Index y weg. Ein Vertreter bedingter Modelle ist das normale einfache lineare Regressionsmodell (3.28) M = {fN ormalverteilung (yt|xt; β1, β2, σ 2), β1, β2 ∈ R, σ 2 ∈ R+}, bzw. allgemeiner das normale multiple lineare Regressionsmodell, siehe insbesondere Abschnitt 4.3: M = {fN ormalverteilung (yt|Zt; β, σ 2), β ∈ Rk , σ 2 ∈ R+}. Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 95 – Davidson & MacKinnon (2004, Section 1.3) nennen ein parametrisches Modell vollständig spezifiziert, wenn es möglich ist, Realisationen des abhängigen Variable yt zu generieren. Ansonsten ist es partiell spezifiziert. • Informationsmengen (information set) für ein ökonometrisches Modell: – Die Menge aller potentiellen erklärenden Variablen, die zur Spezifikation eines Modells für die endogene Variable yt in Frage kommen können, wird als Informationsmenge bezeichnet und mit Ωt abgekürzt. – Die Menge aller erklärenden Variablen, die zur Spezifikation eines Modells für die endogene Variable yt verwendet werden, ist ebenfalls eine Informationsmenge und wird im Folgenden mit It ⊂ Ωt bezeichnet. Beispiel: In (3.30c) enthält die Informationsmenge It für die bedingte Dichte für yt die Variablen Zt. – Ökonometrische Modelle unterscheiden sich auch durch ihre Informationsmengen It. Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 96 • Ökonometrische Modelle, deren Informationsmenge verzögerte (endogene) Variablen enthält, werden als dynamische ökonometrische Modelle bezeichnet, siehe Abschnitt 4.5 zu weiteren Details. • Für manche (ökonomische) Fragestellung ist es nicht notwendig, den DGP vollständig zu kennen, d.h. es ist nicht notwendig, die Dichte f (wt) bzw. die bedingte Dichte f (yt|Zt−1) zu kennen, sondern es ist ausreichend, einzelne Charakteristika der Dichten zu bestimmen, wie beispielsweise Erwartungswerte oder Varianzen. – Bei bedingten Modellen betrachtet man z.B. die bedingten Erwartungswerte E[yt|Zt] und bedingten Varianzen V ar(yt|Zt). – Vertreter dieser Modelle sind das einfache lineare Regressionsmodell (3.29) M = {E[yt|xt] = β1 + β2xt, V ar(yt|xt) = σ 2; β1, β2 ∈ R, σ 2 ∈ R+}, bzw. allgemeiner das multiple lineare Regressionsmodell M = {E[yt|Zt] = Xtβ, V ar(yt|Zt) = σ 2; β ∈ Rk , σ 2 ∈ R+}. Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 97 – Beachte: Der Vektor Xt in der Spezifikation von linearen Regressionsmodellen kann zusätzlich zu Zt eine Konstante enthalten. Dann gilt Xt = 1 Zt . (Im Abschnitt 4.5 zu dynamischen linearen Regressionsmodellen kann Xt beispielsweise auch verzögerte endogene Variable enthalten). • Beachte: Der DGP muss nicht in einem (bedingten) Modell enthalten sein. Man sagt: Ein Modell ist – korrekt spezifiziert, falls DGP ∈ M, – fehlspezifiziert, falls DGP 6∈ M. • Im Fall einer Zufallsstichprobe lassen sich die bedingten Dichten f (yt|Xt) in einem Vektor zusammenfassen, da f (yt|Xt) = f (yt |Xn, Xn−1, . . . , Xt, . . . , X1) = f (yt|X) und somit auch gilt: f (y|X) = f (y1|X) .. . f (yn |X) (3.31) (3.32) Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 98 • Beispiel: Empirische Analyse von Handelsströmen, siehe Abschnitt 1.2. Unterstellt man die Gravitationsgleichung (1.1), ergibt sich daraus das multiple lineare Regressionsmodell (1.4) ln(Exportei) = β1 + β2 ln(BIPi) + β3 ln(Entf ernungi) + Fiβ 5 + ui, und eine Aufteilung des Variablenvektors wt yt = ln(Exportet), ln(Exportet) ln(BIPt) ln(BIPt) wt = in T , ln(Entf ernungt) Z = ln(Entf ernung ) t t Ft Ft wobei z.B. der Parameter β2 in (1.4) als BIP-Elastizität der Exporte interpretiert werden kann. In den folgenden Abschnitten geht es darum zu klären, unter welchen Annahmen der KQ-Schätzer die interessierenden unbekannten Parameter, z.B. die BIPElastizität der Exporte β2, zuverlässig schätzt. Für manche Länder könnte es allerdings durchaus sinnvoll sein, anstelle von (1.4) Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010 99 ln(BIPt) als abhängige Variable zu wählen und ln(BIPi) = γ1 + γ2 ln(Exportei) + γ3 ln(Entf ernungi) + Fiγ 5 + vi, (3.33) zu schätzen. Ob (1.4) oder (3.33) gewählt werden soll, kann mit Mitteln der Regressionsanalyse nicht entschieden werden, da die Regressionsanalyse letztlich nur Korrelationen zwischen Variablen modelliert • Häufig erlaubt nur zusätzliche Information, beispielsweise durch Berücksichtigung ökonomischer Theorie, zwischen zwei Modellen, die beide den selben DGP in unterschiedlicher Parametrisierung enthalten, auszuwählen. Man nennt solche Modelle auch beobachtungsäquivalent, vgl. die zwei äquivalenten Darstellungen eines DGPs (3.22) und (3.25). Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010100 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers • Definitionen – Die Verzerrung (bias) eines Parameterschätzers θ̂ für θ ist definiert als E(θ̂) − θ0, wobei θ0 der wahre Parameterwert, d.h. der Parameterwert des DGPs ist. – Ein Schätzer θ̂ heißt unverzerrt, wenn er für alle zulässigen Werte von θ0 keine Verzerrung aufweist. – Interpretation: Unverzerrtheit impliziert, dass bei einer großen Anzahl an Stichproben der Durchschnittswert aller Schätzungen sehr nahe am wahren Wert liegt. – Sind zwei Schätzer in allen Eigenschaften gleich bis auf die Unverzerrtheit, ist der unverzerrte Schätzer vorzuziehen. Warum? Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010101 • Ableitung: Es gilt, sofern X vollen Rang hat und das multiple lineare Regressionsmodell korrekt spezifiziert ist, β̂ = (XT X)−1XT y = β 0 + (XT X)−1XT u und so T −1 T E(β̂) − β 0 = E (X X) X u . Unverzerrtheit des KQ-Schätzers gilt, wenn mindestens eine der folgenden Annahmen bezüglich der Regressoren und Fehler erfüllt ist: – alle Regressoren sind nicht-stochastisch und E(u) = 0: T −1 T E (X X) X u = (XT X)−1XT E(u) = 0. – Regressoren X sind stochastisch, aber stochastisch unabhängig von dem Fehlervektor u mit E(u) = 0. Dann gilt T −1 T T −1 T E (X X) X u = E (X X) X E(u) = 0. – Eine schwächere Annahme als Unabhängigkeit ist E(u|X) = 0. (3.34) Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010102 Damit gilt T −1 T T −1 T E E (X X) X u X = E (X X) X E(u| X) = E [0] = 0. Erklärende Variablen, die (3.34) erfüllen, werden als exogen bezeichnet. Sehr häufig werden Variablen, die Annahme (3.34) erfüllen, als streng exogen (strictly exogenous) bezeichnet (z.B. Wooldridge (2009, Chapter 10)), siehe auch BA-Veranstaltung Ökonometrie II, Kapitel 2. – Beachte: Die Annahme (3.34) ist ohne Spezifikation eines Modells für die Fehler u, wie beispielsweise u = y − Xβ, ohne Aussage und gewinnt erst durch einen Bezug auf ein (parametrisches) Modell Bedeutung. Somit bezieht die Bedingung (strenger) Exogenität implizit immer ein (parametrisches) Modell mit ein. Beispiel: Für das einfache lineare Regressionsmodell, das sich aus (3.21) ergibt, ist (3.34) erfüllt, da für das Paar β1, β2 ∈ R des DGP gilt: E[yt|x1, x2, . . . , xt, . . . , xn] = β1 + β2xt. Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010103 • Eine noch schwächere Annahme als strenge Exogenität (3.34) ist E(ut|Xt) = 0 für t = 1, . . . , n, (3.35) weil der Fehler ut lediglich nicht von den Regressoren Xt der t-ten Stichprobenbeobachtung abhängen darf. Man spricht dann von partieller Unabhängigkeit bzw. von vorherbestimmten Regressoren. Wooldridge (2009, Chapter 10) bezeichnet die Annahme (3.35) auch als contemporaneous exogeneity, siehe auch BA-Veranstaltung Ökonometrie II, Kapitel 5. Typische Modelle, die die Annahme strenger Exogenität verletzen, aber die Bedingung partieller Unabhängigkeit erfüllen, sind dynamische lineare Regressionsmodelle, siehe Abschnitt 4.5, oder autoregressive Modelle, siehe folgendes Beispiel. • Ist die Annahme strenger Exogenität (3.34) verletzt, ist der KQ-Schätzer verzerrt. Dies ist z.B. immer dann der Fall, wenn verzögerte abhängige Variablen als Regressor verwendet werden. Beispiel: autoregressives Modell erster Ordnung, kurz AR(1)-Modell yt = αyt−1 + ut, ut ∼ IID(0, σ 2). Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010104 – Als Regressionsmodell geschrieben, erhält man für Periode t + 1 yt+1 = αxt+1 + ut+1. – Dann enthält der Regressor xt+1 = yt den Fehler ut, so dass E(ut|xt+1) = E(ut|yt) 6= 0 und die Exogenitätsannahme (3.34) nicht mehr gilt. – Die Annahme partieller Unabhängigkeit (3.35) hingegen scheint harmlos: E(ut|xt) = E(ut|yt−1) = 0, d.h. yt−1 ist bezüglich ut vorherbestimmt. Partielle Unabhängigkeit (3.35) reicht also nicht aus, um einen unverzerrten Schätzer zu erhalten. • Strenge Exogenität (3.34) folgt aus der Annahme einer Zufallsstichprobe (Wooldridge 2009, MLR.2) und partieller Unabhängigkeit (entspricht Wooldridge 2009, MLR.4), da dann E[ut|X1, X2, . . . , Xt, . . . , Xn ] = E[ut|Xt]. Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010105 • Zusammenfassung der Annahmen bzw. Voraussetzungen für die Unverzerrtheit des KQ-Schätzers β̂ für den Parametervektor β: – (B1) Korrekt spezifiziertes Modell Der DGP ist für β = β 0 im multiplen linearen Regressionsmodell (2.1) y = Xβ + u enthalten (MLR.1 in Wooldridge (2009)). – (B2a) Exogenität bzw. Strenge Exogenität (3.34): (folgt aus MLR.2 und MLR.4 in Wooldridge (2009)). E(u|X) = 0. – Annahme (B2b) wird erst später benötigt. – (B3) Keine perfekte Kollinearität X (bzw. XT X) hat vollen Rang (MLR.3 in Wooldridge (2009)). Methoden der Ökonometrie — 3.3 Asymptotik I: Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010 106 3.3 Asymptotik I: Konsistenz des KQ-Schätzers • Die Erwartungstreue eines Schätzers θ̂ ist unabhängig von der Stichprobengröße. Die Annahme strenger Exogenität ist jedoch in der Praxis häufig nicht erfüllt. Man sucht deshalb (schwächere) Bedingungen, die garantieren, dass sich die Eigenschaften eines betrachteten Schätzers mit wachsendem Stichprobenumfang wünschenswerten“ Eigenschaften, z.B. Erwartungstreue, nähern. Man betreibt“ ” ” dann Asymptotik oder asymptotische Theorie: man untersucht die Eigenschaften von θ̂ für n → ∞. • Zuerst zur Konsistenz: ist ein Schätzer verzerrt, kann man fragen, ob das Ausmaß der Verzerrung mit zunehmender Stichprobengröße geringer wird und der Schätzer gegen den wahren Parameterwert θ0 konvergiert, wenn die Stichprobenlänge gegen unendlich strebt — wobei zu klären ist, was hier ’Konvergenz’ bedeutet. Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 107 3.3.1 Konvergenz von Folgen von Zufallsvektoren • Konvergenz von Folgen von Zufallsvariablen 1. Konvergenz in Wahrscheinlichkeit – Gegeben sei die Folge von Zufallsvariablen θ̂n, n = 1, 2, 3, . . . Dann konvergiert θ̂n in Wahrscheinlichkeit gegen die Zufallsvariable θ, wenn für jedes ǫ > 0 gilt: lim P |θ̂n − θ| < ǫ = 1. n−→∞ Äquivalent hierzu: wenn für beliebig kleine ǫ > 0 und für beliebig kleine δ > 0 (δ ≤ 1) ein n0 existiert, so dass für jedes n > n0 gilt: P |θ̂n − θ| < ǫ > 1 − δ. P Kurzschreibweisen: θ̂n −→ θ oder plimn−→∞(θ̂n) = θ. – Beispiel: Die Zufallsvariable X sei normalverteilt mit Erwartungswert µ und Varianz σ 2 und die Zufallsvariable Y habe endliche Varianz und sei unabhängig von Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 108 X. Man definiere die Folge von Zufallsvariablen {Xn } mit 0 ≤ a < ∞ r a 1 Y − , n = 1, 2, . . . Xn = X + n n Man erhält nun, ǫ > 0, r a 1 P (|Xn − X| < ǫ) = P Y − < ǫ , n n so dass man durch Grenzwertbildung r a 1 lim P Y − < ǫ = 1 n→∞ n n erhält, da mit zunehmendem n immer mehr mögliche Realisationen von pa 1 Y − n n im Intervall (−ǫ, ǫ) liegen. Konvergenz in Wahrscheinlichkeit setzt also voraus, dass die Varianz der Differenz gegen Null konvergiert. Ist im Beispiel Y darüber hinaus normalverteilt mit Mittelwert 0, so ergibt pa sich mit V = n Y − n1 z.B. r a P |V − (−1/n)| < 1.96 σY = 0.95 n Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 109 – Konsistenz eines Schätzers: plim(θ̂n) = θ, d.h. der Schätzer konvergiert in Wahrscheinlichkeit gegen den wahren Wert θ. Die Konsistenz des Schätzers θ̂n impliziert, dass ∗ der Schätzer asymptotisch (d.h. für n → ∞) unverzerrt ist ∗ und dass die Varianz des Schätzers asymptotisch gegen Null geht (mit für n → ∞ konzentriert sich θ̂n immer mehr um θ) – Satz Sei plim θ̂n = θ und g(·) stetig an der Stelle θ. Dann gilt plim g(θ̂n) = g(θ). Dieser Satz wird häufig als Slutsky’s Theorem bezeichnet, siehe z.B. Davidson (2000, Theorem 3.1.1, p. 39). – Konvergenz in Wahrscheinlichkeit für Zufallsvektoren und Funktionen von Zufallsvektoren: Es bezeichne yn einen (n×1)-Zufallsvektor, dessen Dimension mit n variiert. Eine Vektorfunktion an = a(yn) konvergiert in Wahrscheinlichkeit gegen a0, falls lim P (||a(yn) − a0|| < ǫ) = 1. n−→∞ Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 110 n Beispiel: a(y ) = 1 n Pn t=1 yt . – Einige nützliche Regeln für ‘plim’s: Seien {an} und {bn} Folgen von Zufallsvektoren und sei {An} eine Folge von Matrizen (mit geeigneter Dimension). Falls plim an, plim bn und plim An existieren, dann gilt: ∗ (plim an ± bn) = plim an ± plim bn, ∗ plim aTn bn = (plim an)T (plim bn), ∗ plim An bn = (plim An )(plim bn). d d ∗ Falls an −→ a und plim An = A, dann gilt Anan −→ Aa, siehe dazu 3. Konvergenz in Verteilung. 2. Fast sichere (almost sure) Konvergenz – Sei θ̂n, n = 1, 2, . . . eine Folge von Zufallsvariablen. Die Folge θ̂n konvergiert fast sicher gegen die Zufallsvariable θ falls für alle ǫ > 0 gilt: P lim |θ̂n − θ| < ǫ = 1. n−→∞ a.s. Kurzschreibweise: θ̂n −→ θ. Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 111 – Beispiel: für Konvergenz in Wahrscheinlichkeit, aber nicht Konvergenz ’fast sicher’, siehe z.B. Casella & Berger (2002, Example 5.5.8, p. 234-5). 3. Konvergenz in Verteilung – Sei θ̂n, n = 1, 2, . . . eine Folge von Zufallsvariablen, jede davon mit Verteilungsfunktion Fn. Außerdem sei θ eine Zufallsvariable mit Verteilungsd funktion F . Dann konvergiert θ̂n in Verteilung gegen θ, kurz θ̂n −→ θ, falls lim P (θ̂n ≤ x) = P (θ ≤ x). n−→∞ – Beispiel: Es sei {Xn} die weiter oben definierte Folge von Zufallsvariablen. P Man erinnere sich: Xn −→ X, wobei X ∼ N (µ, σ 2) ist. Sei nun Z eine normalverteilte Zufallsvariable mit Erwartungswert µ und Varianz σ 2. Dann gilt d Xn −→ Z. Damit haben X und Z die gleiche Verteilung, sind aber verschiedene Zufallsvariablen! Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 112 4. Es gilt: a.s θ̂n −→ θ =⇒ P θ̂n −→ θ =⇒ d θ̂n −→ θ. (3.36) (Ein Beispiel, weshalb die Umkehrung des zweiten Folgepfeils nicht gilt, findet sich im BA-Kurs Ökonometrie II, Abschnitt 5.1.4.) Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 113 • Gesetz der großen Zahl — Law of Large Numbers (LLN) 1. Schwaches Gesetz der großen Zahl von Chintschin (Khinchine’s Weak Law of Large Numbers (WLLN)) Sei yi, i = 1, 2, . . . , n, eine IID-Folge von Zufallsvariablen mit endlichem Pn −1 Mittelwert µ. Dann gilt für das arithmetische Mittel µ̂ = n i=1 yi , dass P bzw. µ̂ −→ µ, plim(µ̂) = µ. (Siehe z.B. Davidson (1994, Theorem 23.5) — Beweis zu schwierig.) 2. Zwei Versionen des LLN – Schwaches LLN (WLLN): P µ̂ −→ µ. – Starkes LLN (SLLN): a.s. µ̂ −→ µ. 3. Beachte: Es gibt auch LLN für verschiedene nicht-IID-Fälle, siehe z.B. Davidson (2000, Section 3.2) oder Kapitel 5 im MA-Kurs Fortgeschrittene Ökonometrie. Methoden der Ökonometrie — 3.3.2 Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010 114 3.3.2 Konsistenz des KQ-Schätzers • Grundsätzliche Vorgehensweise zur Ableitung von Konsistenzbedingungen: β̂ n = (XT X)−1XT y = β 0 + (XT X)−1XT u T −1 T X X X u = β0 + n n Anwenden der Regeln für plim’s ergibt unter der Annahme (B1) eines korrekt spezifizierten Modells T −1 XT u X X plim plim β̂ n = β 0 + plim n n→∞ n→∞ n→∞ n −1 T X X XT u plim = β 0 + plim n n→∞ n→∞ n | {z } | {z } =0, falls ein LLN gilt Existenz? Methoden der Ökonometrie — 3.3.2 Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010 115 • Konsistenz des KQ-Schätzers: Gelten zusätzlich zu (B1) die Annahmen T – (A1) plimn→∞ XnX = SXT X und SXT X hat vollen Rang und – (A2) gilt ein LLN für XT u/n, dann ist plimn→∞ βˆn = β 0 und der KQ-Schätzer ist konsistent. • Diskussion der Annahmen – Einfachster Fall für Gültigkeit der Annahmen (A1) und (A2): X = ı, der einzige Regressor ist eine Konstante und ut ∼ IID(0, σ 2). Dann gilt das WLLN von Chintschin (siehe Abschnitt 3.3.1), so dass (A2) gilt. (A1) ist auch einfach zu zeigen. – Die Annahme (A2) ist für die empirische Arbeit nicht praktisch. Leichter zu überprüfen sind Bedingungen, die in Abschnitt 4.5 behandelt werden. – In Abschnitt 4.5 wird auch deutlich, dass Annahme (A2) schwächer als die Annahme (B2a) ist. • Ist ein Schätzer nicht konsistent, wird er als inkonsistent bezeichnet. Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 116 3.4 Die Kovarianzmatrix der Parameterschätzer • Zur Erinnerung: Für den (k×1)-Zufallsvektor θ̂ ist die Varianzmatrix bzw. genauer Kovarianzmatrix, bzw. noch genauer Varianz-Kovarianzmatrix gegeben durch i h T V ar(θ̂) = E (θ̂ − θ)(θ̂ − θ) V ar(θ̂1) Cov(θ̂1, θ̂2) · · · Cov(θ̂1, θ̂k ) Cov(θ̂ , θ̂ ) V ar(θ̂ ) · · · Cov(θ̂ , θ̂ ) (3.37) 2 1 2 2 k = . .. .. .. ... Cov(θ̂k , θ̂1) Cov(θ̂k , θ̂2) · · · V ar(θ̂k ) Anmerkungen: Die Varianz-Kovarianzmatrix ist symmetrisch und immer positiv semidefinit, meist jedoch positiv definit. • Zusammenhang zwischen unbedingten und bedingten Varianzen h i V ar(θ̃) = E V ar(θ̃|X) + V ar E(θ̃|X) . (3.38) Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 117 ♯ Ableitung: T E θ̃ − E(θ̃) θ̃ − E(θ̃) h Ti T = E θ̃ θ̃ − E(θ̃)E(θ̃ ) h T i h i h i T = E E θ̃ θ̃ |X − E E(θ̃|X) E E(θ̃ |X) h T i h i h i T T T = E E θ̃ θ̃ |X − E(θ̃|X)E(θ̃ |X) + E(θ̃|X)E(θ̃ |X) − E E(θ̃|X) E E(θ̃ |X) h h T i i h i h i T T T = E E θ̃ θ̃ |X − E(θ̃|X)E(θ̃ |X) + E E(θ̃|X)E(θ̃ |X) − E E(θ̃|X) E E(θ̃ |X) {z i } | {z } | h ˜ ˜ E V ar(θ |X) V ar E θ |X Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 118 • Positiv definite und semidefinite Matrizen – Eine (k × k)-Matrix A heißt positiv definit, wenn für beliebige (k × 1)Vektoren x mit positiver Norm gilt: xT Ax > 0. – Eine (k × k)-Matrix A heißt positiv semidefinit, wenn für beliebige (k × 1)Vektoren x mit positiver Norm gilt: xT Ax ≥ 0. T – Der Ausdruck x Ax = Pk Pk i=1 j=1 xi xj Aij heißt quadratische Form. – Ist A = BT B, dann ist A immer positiv semidefinit, da xT BT Bx = (Bx)T (Bx) = ||Bx||2 ≥ 0. Wenn B vollen Rang hat, ist A positiv definit. Warum? – Die Diagonalelemente einer positiv definiten Matrix sind positiv. Außerdem existiert für jede positiv definite Matrix A eine Matrix B, so dass gilt A = BT B. Dabei ist B nicht eindeutig. Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 119 • Die Varianz-Kovarianzmatrix des unverzerrten KQ-Schätzers β̂ lautet i h T V ar(β̂|X) = E (β̂ − β 0)(β̂ − β 0) |X = (XT X)−1XT E(uuT |X) X(XT X)−1 = (XT X)−1XT V ar(u|X) X(XT X)−1. (3.39) Dies ist die allgemeine Varianz-Kovarianzmatrix des KQ-Schätzers, bei der auch Heteroskedastie und Korrelation zwischen den Fehlern gegeben X zugelassen ist, da die bedingte Varianz-Kovarianzmatrix der Fehler V ar(u|X) nicht weiter spezifiziert ist. • Die Präzision (precision) eines Schätzers wird durch die Inverse der VarianzKovarianzmatrix angegeben. • Gilt zusätzlich die Bedingung (B2b) Homoskedastie und Unkorreliertheit der Fehler V ar(u|X) = σ 2I, wobei für die Fehlervarianz des DGPs σ 2 = σ02 gilt, Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 120 dann vereinfacht sich die Varianz-Kovarianzmatrix des KQ-Schätzers (3.39) zur bekannten Form V ar(β̂|X) = σ02(XT X)−1. (3.40) – Mit Hilfe von (3.38) ergibt sich die unbedingte Varianz-Kovarianzmatrix T −1 2 V ar(β̂) = σ0 E (X X) (3.41) wegen V ar E[β̂|X] = V ar(0) = 0. T −1 ♯ Zur Existenz von E (X X) siehe technische Ergänzung am Ende des Abschnitts 3.5. – Eine äquivalente Darstellung zu (3.40) ist: −1 1 2 1 T V ar(β̂|X) = σ0 X X . n n Ist außerdem die Bedingung (A1) −1 1 T P X X −→ S−1 XT X n erfüllt, verringern sich im Allgemeinen die bedingten Varianzen V ar(β̂j |X) bzw. Kovarianzen Cov(β̂j , β̂i|X), wenn Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 121 ∗ die Stichprobengröße n ansteigt, ∗ die Fehlervarianz σ02 kleiner wird. – Über die Varianz der Schätzung eines einzelnen Parameters βi lässt sich mehr aussagen. Wir betrachten folgende Partitionierung y = x1β1 + X2β 2 + u. Dann lässt sich β1 mit dem Frisch-Waugh-Lovell-Theorem (vgl. Abschnitt 2.3) auf Basis der Regression M2y = M2x1β1 + Residuen schätzen, wobei M2 = I−X2(XT2 X2)−1XT2 ist. Man erhält den KQ-Schätzer: −1 T T β̂1 = x1 M2x1 x1 M2y. Es lässt sich (leicht) zeigen, dass V ar(β̂1|X) = σ02(xT1 M2x1)−1 σ02 = T . x1 M2x1 Beachte, dass der Ausdruck xT1 M2x1 = ||M2x1||2 der quadrierten Länge des Residuenvektors der Regression von x1 auf X2 entspricht. Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 122 Damit ist die Varianz von β̂1 (bzw. die Varianz eines beliebigen Schätzers eines Steigungsparameters) groß, wenn ∗ x1 gut durch die anderen Regressoren in X erklärt wird bzw. das Bestimmtheitsmaß der Regression von x1 auf X2 groß ist. Sind beispielsweise x1 und X2 beinahe kollinear, dann ist die Länge des Residuenvektors kurz und die Varianz für β̂1 hoch. Zur Erinnerung (an Ökonometrie I): Man beachte, dass ||M2x1||2 = SSR1, wobei SSR1 die Residuenquadratsumme der Regression von x1 auf X2 ist. Da, falls X2 eine Konstante enthält, SST1 = SSE1 + SSR1 und R12 = SSE1/SST1 gilt, erhält man auch ||M2x1||2 = SST1(1 − R12 ) und somit σ02 V ar(β̂j |X) = 2 . SSTj (1 − Rj ) (3.42) Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 123 • Varianz von linearen Funktionen von Parameterschätzern – Ist die zu schätzende Größe γ eine lineare Funktion der geschätzten Parameter γ̂ = wT β̂, wobei w ein geeignet dimensionierter Spaltenvektor ist, dann lässt sich die Varianz von γ̂ sehr einfach bestimmen durch V ar(γ̂|X) = V ar(wT β̂|X) h i = E wT (β̂ − β 0)(β̂ − β 0)T w|X h i = wT E (β̂ − β 0)(β̂ − β 0)T |X w = wT V ar(β̂|X)w. (3.43) Und bei homoskedastischen und unkorrelierten Fehlern (Annahme (B2b)): V ar(γ̂|X) = σ02wT (XT X)−1w. (3.44) Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010 124 – Beispiel: Varianz des Vorhersagefehlers bei unverzerrter Prognose Sind die Annahmen (B1), (B2a), (B3) erfüllt und damit auch das Modell korrekt spezifiziert, ist die Prognose ŷs = Xsβ̂ für (ys, Xs) aus der Grundgesamtheit unverzerrt, da E[ŷs|X, Xs] = Xsβ 0. (3.45) Daraus ergibt sich der Prognosefehler ys − Xsβ̂ = Xs β 0 − β̂ + us, dessen Erwartungswert Null ist. Die Varianz des Prognosefehlers lautet deshalb n o T V ar(ys − Xsβ̂|Xs, X) = E Xs β 0 − β̂ + us β 0 − β̂ XTs + us Xs, X = XsV ar(β̂|X) XTs + E[u2s |Xs] − 2Xs = σ02Xs(XT X)−1XTs + σ02 Cov(β̂, us|Xs, X) | {z } =0, bei Unkorreliertheit (gegeben Annahme (B2b)) −→ Prognosefehlervarianz = Varianz des Schätzers der abhängigen Variablen + Varianz von us. Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010 125 3.5 Die Effizienz unverzerrter KQ-Schätzer • Effizienz eines Schätzers: Betrachtet man verschiedene Schätzer einer Klasse, beispielsweise alle unverzerrten Schätzer, wird ein Schätzer der betrachteten Klasse als effizient bezeichnet, wenn er in einem bestimmten Sinne die kleinstmögliche Varianz aufweist. • Linearer Schätzer: Ein Schätzer β̃ für den Parametervektor β in einem multiplen linearen Regressionsmodell heißt linear, wenn β̃ = Ay gilt, wobei die (k × n)-Matrix A ausschließlich von den Regressoren X abhängen darf, nicht jedoch von y, also E[A|X] = A gilt. • Der KQ-Schätzer ist ein linearer Schätzer, da A = (XT X)−1XT gilt. • Ein linearer Schätzer β̃ = Ay ist unverzerrt, wenn die Annahmen (B1), (B2a) gelten, sowie AX = I, da E[β̃|X] = AXβ + AE[u|X]. • Ein unverzerrter Schätzer wird auch als erwartungstreu bezeichnet. (3.46) Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010 126 • Das Gauss-Markov-Theorem vergleicht den KQ-Schätzer β̂ = (XT X)−1XT y mit beliebigen linearen und erwartungstreuen Schätzern β̃ = Ay. Ursprünglich wurde das Gauss-Markov-Theorem für nicht-stochastische Regressoren X bewiesen, aber es gilt auch für stochastische Regressoren. • Gauss-Markov-Theorem: Unter den Annahmen (B1), (B2a), (B2b), (B3) ist der KQ-Schätzer β̂ unter allen linearen und unverzerrten Schätzern β̃ der effizienteste Schätzer (best linear unbiased estimator, bzw. kurz BLUE). Das bedeutet, dass die Matrix der Differenz der Varianz-Kovarianzmatrizen V ar(β̃) − V ar(β̂) positiv semidefinit ist. • Beweisskizze: Da β̃ − β̂ = A − (XT X)−1XT y = CXβ + Cu = Cu, gilt, dass | {z } C V ar(β̃) = V ar(β̂ + Cu) = V ar(β̂) + V ar(Cu), h i da unter Berücksichtigung von (3.46) und (B2b) E (β̂ − β 0)(Cu)T = 0 gezeigt werden kann. Da jede Varianz-Kovarianzmatrix positiv semidefinit ist, gilt dies auch für V ar(Cu). Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010 127 • Die Eigenschaft einer positiv definiten Differenz der Varianz-Kovarianzmatrizen bedeutet, dass jede Linearkombination der Differenz nicht negativ ist. Insbesondere gilt (3.47) V ar(β̃ j ) ≥ V ar(β̂ j ), j = 1, . . . , k. • Beispiele ineffizienter linearer unverzerrter Schätzer: – Jeder KQ-Schätzer, der auf ein Regressionsmodell mit redundanten unabhängigen Variablen angewendet wird, siehe Abschnitt 3.7. – Instrumentvariablenschätzer, siehe Kapitel 6. • ♯ Technische Ergänzung: Ist X stochastisch, ist es prinzipiell möglich, dass z.B. Annahme (B3) bzw. (3.46) für eine spezifische Realisation von X verletzt ist, also X nicht vollen Rang hat und damit (XT X) nicht invertierbar ist. Sind die Regressoren stetig verteilt, dann ist die Wahrscheinlichkeit hierfür 0. – Gilt für ein Ereignis C, dass P (C) = 1, dann gilt für das Komplement C c, dass P (C c) = 0. Man sagt dann, dass das Ereignis C fast sicher (almost surely (a.s.)) eintritt. – Beispiel für ein fast sicheres Ereignis: Gegeben sei eine stetige Zufallsvariable X ∈ R. Das Ereignis C = {X ∈ (−∞, a) ∪ (a, ∞)} hat das komplementäre Ereignis C c = {X = a}. Da Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010 128 P (X = a) = P (C c) = 0, gilt für C, dass P (C) = 1. – Enthält X nur diskrete Regressoren, beispielsweise eine Konstante und eine Dummyvariable, dann besteht eine positive Wahrscheinlichkeit, dass eine Stichprobe gezogen wird, in der die Dummyvariable für alle Beobachtungen den Wert 1 annimmt und damit X reduzierten Rang hat und XT X nicht invertierbar ist. Die Annahme h (B3) istialso für dieses Beispiel −1 nicht fast sicher erfüllt. In diesem Fall existiert auch E XT X nicht, da eine positive Wahrscheinlichkeit vorliegt, dass die Matrix XT X nicht invertierbar ist. – Die Existenz des unbedingten Erwartungswertes und der unbedingten Varianz des KQ-Schätzers setzt also voraus, dass die Annahmen (B1) bis (B3) fast sicher gelten. – Für die Praxis ist es im Allgemeinen ausreichend, die Verteilungseigenschaften gegeben die Regressoren zu kennen. Dann braucht man sich über diese Problematik keine Gedanken zu machen. – Möchte man jedoch Monte-Carlo-Simulationen durchführen, in denen auch X bei jeder Realisation neu gezogen wird, aber mit positiver Wahrscheinlichkeit X reduzierten Rang hat, wird immer wieder der Fall einer singulären XT X Matrix auftreten und der KQ-Schätzer nicht berechenbar sein. Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010 129 3.6 Schätzen der Fehlervarianz • In diesem Abschnitt werden die Annahmen (B1) bis (B3) vorausgesetzt. • Im korrekt spezifizierten KQ-Modell gilt û = MXy = MXXβ 0 + MXu = MXu, da MXX = 0. (Werden die Spalten von X in den zu δ(X) orthogonalen Unterraum δ ⊥(X) projeziert, ergibt dies Nullvektoren.) Das Residuum ût entspricht einer Linearkombination des Fehlervektors u. • Varianz des Residuenvektors: V ar(û|X) = V ar(MXu|X) T T = E MXuu MX|X = MX(σ02I)MTX = σ02MX. Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010 130 Eigenschaften: Die ût sind im Allgemeinen – korreliert, – heteroskedastisch mit V ar(ût|X) ≤ V ar(ut) = σ02. Beweis: Wie in Abschnitt 2.4 bezeichnet et einen Einheitsbasisvektor. Dann ist ût = eTt û und V ar(ût|X) = V ar(eTt û|X) = eTt V ar(û|X)et = σ02eTt MXet = σ02||MXet||2 Aufgrund der orthogonalen Zerlegung gilt ||et||2 = ||PXet||2 + ||MXet||2, | {z } | {z } ht so dass ||MXet||2 ≤ ||et||2 = 1. 1−ht Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010 131 • Schätzung der Fehlervarianz: – Der Schätzer n 1X 2 2 ût σ̂ = n t=1 wird als Maximum-Likelihood-Schätzer für die Fehlervarianz σ 2 bezeichnet, da er sich aus dem Maximum-Likelihood-Ansatz ergibt, siehe Kapitel 7. Eigenschaften: σ̂ 2 ist verzerrt. n X 1 Beweis: Da E(σ̂ 2|X) = E(û2t |X) n t=1 n 1X = V ar(ût|X) n t=1 n X 1 = σ02 ||MXet||2. n t=1 Aus ||PXet||2 = ht folgt schließlich n X 2 21 E(σ̂ |X) = σ0 (1 − ht) ≤ σ02. n t=1 Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010 132 Mit Hilfe des Spur-Operators (siehe Übung) kann man zeigen, dass n X t=1 Daraus folgt (1 − ht) = n − k. E(σ̂ 2|X) = • Ein unverzerrter Schätzer ist deshalb n−k 2 σ0 . n n 1 X 2 2 s = ût . n − k t=1 (Beachte die Notation: in vielen anderen Ökonometriebüchern, z.B. Wooldridge (2009), wird dieser Schätzer mit σ̂ 2 bezeichnet.) Die Wurzel daraus wird als der Standardfehler einer Regression (standard error of regression) bezeichnet. • Ein unverzerrter Schätzer der Kovarianzmatrix des KQ-Schätzers ist dann \ V ar( β̂|X) = s2 (XT X)−1. Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010 133 3.7 Fehlspezifizierte lineare Regressionsmodelle • Zur Definition der Informationsmenge siehe Abschnitt 3.1.3. • Überspezifizierung (overspecification) – Ein Modell M ist überspezifiziert, wenn es Variablen enthält, die zur Informationsmenge Ωt gehören, aber nicht im DGP enthalten sind. (Beachte: Überspezifizierte Modelle sind nicht fehlspezifiert.) – Beispiel: Der DGP sei in y = Xβ 0 + u, u|X ∼ IID(0, σ02I), (3.48) enthalten ((B1),(B2a),(B2b) gelten), geschätzt wird aber y = Xβ + Zγ + u, u|X, Z ∼ IID(0, σ 2I). (3.49) Das ‘unrestringierte’ Modell (3.49) enthält ebenfalls den DGP (DGP ∈ M), da ja die Parameter β = β 0, γ = 0 und σ 2 = σ02 möglich sind. Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010 134 – Eigenschaften des KQ-Schätzers β̃ des überspezifizierten Modells (3.49): (i) unverzerrt, da nach dem Frisch-Waugh-Lovell-Theorem der KQ-Schätzer β̃ der Regression MZy = MZXβ + Residuen mit MZ = I−Z(ZT Z)−1ZT mit dem KQ-Schätzer für β in dem überspezifizierten Modell (3.49) identisch ist. Deshalb gilt β̃ = β 0 + (XT MZX)−1XT MZu ⇒ E(β̃) = β 0. (ii) im Allgemeinen im Vergleich zum KQ-Schätzer β̂ des ‘kleinsten’ korrekt spezifizierten Modells (3.48) nicht effizient. Dies gilt aufgrund des GaussMarkov-Theorems, vgl. Abschnitt 3.5. Daraus folgt u.a., vgl. (3.47), V ar(β˜j |X, Z) ≥ V ar(βˆj |X), j = 1, . . . , k. Diese Ungleichung ergibt sich, vgl. (3.42), auch direkt aus σ02 σ02 ≥ , 2 2 SSTj (1 − Rj,X,Z) SSTj (1 − Rj,X ) j = 1, . . . , k. Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010 135 • Unterspezifizierung (underspecification) – Ein Modell M ist unterspezifiziert bzw. fehlspezifiziert, wenn der DGP nicht im Modell enthalten ist. Beispiel: DGP ist in y = Xβ 0 + Zγ 0 + u, u|X, Z ∼ IID(0, σ02I), γ 0 6= 0, (3.50) enthalten, es wird jedoch das Regressionsmodell y = Xβ + v geschätzt. Dann ergibt sich für den KQ-Schätzer für (3.51) β̂ = (XT X)−1XT y = (XT X)−1XT Xβ 0 + (XT X)−1XT Zγ 0 + (XT X)−1XT u = β 0 + (XT X)−1XT Zγ 0 + (XT X)−1XT u. Somit ist der KQ-Schätzer verzerrt, da E(β̂|X, Z) = β 0 + (XT X)−1XT Zγ 0 6= β 0, falls die Regressoren in X und Z nicht orthogonal sind. (3.51) Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010 136 – Um die Genauigkeit des KQ-Schätzers des fehlspezifizierten Modells zu bestimmen ist es aufgrund der Verzerrung des Schätzers nicht mehr sinnvoll, die Kovarianzmatrix heranzuziehen. – Stattdessen betrachtet man die Matrix des mittleren quadratischen Fehlers (mean squared error, MSE) T M SE(β̂|X, Z) = E β̂ − β 0 β̂ − β 0 X, Z . – Beachte: nur für unverzerrte Schätzer ist die Matrix des mittleren quadratischen Fehlers gleich der Varianz-Kovarianzmatrix. – Man kann leicht zeigen (siehe Übungsaufgabe), dass gilt M SE(β̂|X, Z) = σ02(XT X)−1 + (XT X)−1XT Zγ0γ0T ZT X(XT X)−1 . | {z } | {z } Varianz Verzerrung quadriert Eine eindeutige Aussage zum Vergleich dieser MSE-Matrix mit der des unverzerrten KQ-Schätzer in (3.50), d.h. M SE(β̃|X, Z) = σ02(XT MZX)−1, ist nicht möglich, sondern hängt von der Größe der Verzerrung ab. Zu lesen: Davidson & MacKinnon (2004), Kapitel 3. Methoden der Ökonometrie — 4 Exakte und asymptotische Tests — U Regensburg — 26.01.2010 137 4 Exakte und asymptotische Tests 4.1 Grundlagen von Tests Konzepte, die aus den Grundlagen vertraut sind (sein sollten): • Hypothesentest, Null-/Alternativhypothese, ein-, zweiseitiger Test, Teststatistik, Testverteilung, Signifikanzniveau, Fehler 1. Art, kritischer Bereich (Ablehnbereich), kritische(r) Wert(e), Fehler 2. Art, Güte, p-Werte • Konfidenzintervall, Konfidenzniveau Methoden der Ökonometrie — 4.1 Grundlagen von Tests — U Regensburg — 26.01.2010 138 Präzisierung und Erweiterungen bisheriger Konzepte: • Exakter Test: Ein Test heißt exakt, wenn die Verteilung unter der Nullhypothese vollständig bekannt ist ⇒ Abschnitt 4.6. Voraussetzung hierfür sind Modellannahmen, die es erlauben, die exakte Verteilung eines Schätzers zu bestimmen. Beispiel: Normales lineares Regressionsmodell mit streng exogenen Regressoren (vgl. Abschnitt 4.3 oder BA-Veranstaltung Ökonometrie I). • Asymptotischer Test: Ein Test heißt asymptotisch, wenn dessen Verteilung nur asymptotisch bekannt ist, d.h. für eine gegebene Stichprobengröße nur approximiert werden kann. Voraussetzung hierfür sind Modellannahmen, die es erlauben, die asymptotische Verteilung eines Schätzers zu bestimmen ⇒ Abschnitt 4.7. Beispiele: – Lineares Regressionsmodell mit streng exogenen Regressoren und Fehlertermen, die nicht normalverteilt sind (vgl. Abschnitt 4.4.2). – Dynamisches lineares Regressionsmodell mit nicht (streng) exogenen, aber partiell unabhängigen Regressoren (vgl. Abschnitt 4.5). Methoden der Ökonometrie — 4.1 Grundlagen von Tests — U Regensburg — 26.01.2010 139 • Nominales (Signifikanz)niveau (nominal level): Wahrscheinlichkeit auf Basis der zugrunde gelegten (ggf. approximativen) Verteilung, die Nullhypothese eines Tests abzulehnen, obwohl sie korrekt ist. • Tatsächliches (Signifikanz)niveau (actual level): Wahrscheinlichkeit auf Basis der exakten (möglicherweise unbekannten) Verteilung, die Nullhypothese abzulehnen, obwohl sie korrekt ist. Die wahre (true) Testverteilung unter H0 kann nicht bestimmt werden, wenn sie (in komplexer Weise) auf unbekannten Eigenschaften, z.B. unbekannten Parametern des DGPs beruht. • Größe (size) eines Tests: Unterschiedlicher Sprachgebrauch: – Tatsächliche Größe = tatsächliches Signifikanzniveau, Nominelle Größe = nominales Signifikanzniveau. – Davidson & MacKinnon (2004): Supremum der möglicherweise unterschiedlichen tatsächlichen Signifikanzniveaus über alle möglichen DGPs hinweg. (Präziser Sprachgebrauch!) Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 140 4.2 Wichtige Wahrscheinlichkeitsverteilungen • Wiederhole Theorie zu Verteilungs- und Dichtefunktionen (Abschnitt 3.1.1). • Normalverteilung – Standardnormalverteilung: z ∼ N (0, 1) mit Dichtefunktion 1 1 φ(z) = √ exp − z 2 . 2 2π (4.1) – Normalverteilung: x ∼ N (µ, σ 2) mit Dichte 2 x−µ 1 1 (x − µ) 1 f (x) = √ exp − = φ . (4.2) 2 2 2 σ σ σ σ 2π Beachte: (4.2) kann mit Hilfe des eindimensionalen Transformationssatzes (3.14) abgeleitet werden. – Multivariate Standardnormalverteilung: z ∼ N (0, In) mit Dichte 1 1 T φ(z) = exp − z z . (4.3) 2 (2π)n/2 Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 141 Man beachte, dass diese Darstellung äquivalent ist zu (vgl. hierzu (3.12)) φ(z) = φ(z1)φ(z2) · · · φ(zn). Ein multivariat standardnormalverteilter Zufallsvektor z setzt sich also aus unabhängig und identisch verteilten (genauer standardnormalverteilten) Zufallsvariablen z1, . . . , zn zusammen. Umgekehrt: n i.i.d. standardnormalverteilte Zufallszahlen lassen sich als multivariat standardnormalverteilter Zufallsvektor schreiben. Beachte: Ohne die i.i.d. Voraussetzung geht das nicht! – Multivariate Normalverteilung: x = Az + µ ∼ N (µ, Ω) (4.4) mit Ω = AAT . Dichtefunktion: 1 1 −1/2 T −1 (det(Ω)) exp − (x − µ) Ω (x − µ) . f (x1, x2, . . . , xn) = f (x) = 2 (2π)n/2 (4.5) – Bivariate Normalverteilung (ohne Matrixnotation): f (x1, x2) = 2πσ1σ2 1 p 1 − ρ2 ( exp − 1 2(1 − ρ2) " x1 − µ 1 σ1 2 − 2ρ x1 − µ 1 x2 − µ 2 + σ1 σ2 x2 − µ 2 σ2 (4.6) 2#) Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 Plotten einer bivariaten Dichte mit R: dev.off() rm(list = ls()) # cleans workspace library(mnormt) # ?dmnorm # parameters of bivariate normal distribution mu_1 <- 0 mu_2 <- 0 sigma_1 <- 1 sigma_2 <- 1 rho <- 0.95 # determine mean vector Mean <- c(mu_1,mu_2) # compute variance-covariance matrix sigma2_1 sigma2_2 sigma_12 Sigma <- sigma_1^2 <- sigma_2^2 <- sigma_1 * sigma_2 * rho <- matrix(c(sigma2_1,sigma_12,sigma_12,sigma2_2),2) # determine grid on which density is computed 142 Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 x1_limit <- mu_1 + 3*sigma_1 x2_limit <- mu_2 + 3*sigma_2 ngridpoints <- 100 x1 x2 X <- seq(-x1_limit,x1_limit,2*x1_limit/(ngridpoints-1)) <- seq(-x2_limit,x2_limit,2*x2_limit/(ngridpoints-1)) <- expand.grid(x1=x1,x2=x2) # compute density Density <- apply(X,1,dmnorm,mean=Mean,varcov=Sigma) Density <- matrix(Density,length(x1),length(x2),byrow=FALSE) # plot surface and contour lines par(mfrow=c(1,1)) split.screen(c(2,1)) screen(1) persp(x1, x2, Density, main="Density of Bivariate Normal Distribution for (x1,x2)" , theta=35, phi=20 , r=10, shade=0.1, col = 3, ticktype="detailed") # ?contour screen(2) contour(x1,x2,Density,nlevels=50,main="Density of Bivariate Normal Distribution close.screen(all=TRUE) for (x1,x2)" ) 143 Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 144 • χ2-Verteilung – Sind z1, . . . , zm i.i.d. standardnormalverteilt, z ∼ N (0, Im), so ist die Summe der quadrieren Zufallsvariablen m X y= zi2 = zT z = ||z||2 i=1 χ2-verteilt mit m Freiheitsgraden. In Kurzschreibweise: y ∼ χ2(m). – Erwartungswert: E(y) = m, Varianz: V ar(y) = 2m. Pm1 2 Pm 2 2 2 – Wenn y1 = z ∼ χ (m ) und y = z ∼ χ (m2), m = 1 2 i i i=1 i=m1 +1 m1 + m2, unabhängig sind, dann gilt y = y1 + y2 ∼ χ2(m). – Ist x ein multivariat normalverteilter (m × 1)-Vektor mit nichtsingulärer Kovarianzmatrix Ω, x ∼ N (0, Ω), dann ist y = xT Ω−1x ∼ χ2(m). (4.7) Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 145 Beweis: Da Ω regulär ist, existiert eine Zerlegung Ω = AAT , so dass z = A−1x die Kovarianzmatrix I aufweist. Dann gilt z ∼ N (0, I) und h i T −1 T −1 −1 −1 T −1 T T −1 = A AA A = I. E A xx A =A Ω A – Ist P eine Projektionsmatrix mit rk P = r < m und z ∼ N (0, I), gilt zT Pz ∼ χ2(r). (4.8) Beweis: Man nehme an, dass P auf die r linear unabhängigen Spalten der (m × r)-Matrix Z projeziert. Dann ist P = Z(ZT Z)−1ZT und man erhält −1 T T T T z Pz = |{z} z Z Z Z Z z. |{z} | {z } T w w inverse Kovarianzmatrix mit Rang r Da für den (r × 1)-Vektor w ∼ N 0, Z Z gilt, gilt wegen (4.7) −1 T T w Z Z w ∼ χ2(r). T – Für m → ∞ gilt, dass eine χ2(m)-verteilte Zufallsgröße in Verteilung gegen eine normalverteilte Zufallsgröße N (m, 2m) konvergiert. Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 146 • Student t-Verteilung – Gegeben sei eine standardnormalverteilte Zufallsvariable z ∼ N (0, 1) und eine davon stochastisch unabhängige χ2-verteilte Zufallsgröße y ∼ χ2(m) mit m Freiheitsgraden. Dann ist die Zufallsvariable z t= ∼ t(m) (4.9) 1/2 (y/m) t-verteilt mit m Freiheitsgraden. – Die Dichte der t-Verteilung ist symmetrisch und glockenförmig. – Es existieren alle Momente der t-Verteilung bis zum m − 1 Moment. Die tVerteilung mit m = 1 heißt auch Cauchy-Verteilung. Man beachte, dass weder Erwartungswert noch Varianz existieren, da die Verteilung zu viel Masse in den Flanken aufweist. – Erwartungswert: Für m > 1: E(t) = 0. – Varianz: Für m > 2: V ar(t) = m/(m − 2). Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010 147 – Die t-Verteilung nähert sich mit zunehmender Zahl an Freiheitsgraden der Standardnormalverteilung an. Man kann hier asymptotisch argumentieren: Mit m → ∞ gilt plimm→∞y/m = 1, da y eine Summe von m quadrierten unabhängigen standardnormalverteilten Zufallsvariablen ist. Mit Slutzky’s Theorem gilt damit auch plimm→∞(y/m)1/2 = 1 und somit z = z ∼ N (0, 1). plimm→∞ (y/m)1/2 • F -Verteilung – Gegeben seien zwei stochastisch unabhängige χ2-verteilte Zufallsvariablen y1 ∼ χ2(m1) und y2 ∼ χ2(m2 ). Dann folgt die Zufallsvariable F = y1/m1 ∼ F (m1 , m2) y2/m2 einer F -Verteilung mit m1 und m2 Freiheitsgraden. – Für m2 → ∞ nähert sich die Zufallsvariable m1F einer χ2(m1)-Verteilung an, da plimm2→∞ y2/m2 = 1. Falls t ∼ t(m2), dann gilt t2 ∼ F (1, m2). Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 148 4.3 Exakte Verteilung des KQ-Schätzers • Mit bisherigen Annahmen gilt für den KQ-Schätzer (B3) T −1 T (B1) β̂ n = (X X) X y = β 0 + (XT X)−1XT u • Ohne eine Verteilungsannahme für den Fehlervektor u lässt offensichtlich nichts weiter über die Verteilung von β̂ n sagen, selbst wenn die X gegeben sind. Wir treffen die Annahme (B4) Multivariat normalverteilte Fehler gegeben X u|X ∼ N (0, σ 2I), wobei für die Fehlervarianz des DGPs σ 2 = σ02 gilt. Die gemeinsame (auf X bedingte) Dichte lautet (vgl. (4.5)) 1 1 T 2 2 f (u1, u2, . . . , un|X; σ ) = f (u|X; σ ) = exp − 2 u u . 2σ (2πσ 2)n/2 (4.10) Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 149 • Wendet man (4.4) auf β̂ n an, erhält man aufgrund von Annahme (B4), sowie den bisherigen Annahmen (B2a), (B2b), dass für jede(!) Stichprobengröße n 2 T −1 β̂ n|X ∼ N β 0, σ0 (X X) , (4.11) also der KQ-Schätzer gegeben X exakt multivariat normalverteilt ist. • Wendet man (4.4) auf y = Xβ 0 + u an, erhält man 2 2 y|X ∼ N Xβ 0, σ0 I ⇐⇒ yt|X ∼ indep.dist.N Xtβ 0, σ0 , t = 1, . . . , n. (4.12) Für beliebige Parameter erhält man die Erweiterung des normalen einfachen linearen Regressionsmodells (3.28) zum normalen multiplen linearen Regressionsmodell yt|Xt ∼ indep.dist.N (xt1β1+xt2β2+. . .+xtk βk , σ 2), β1, . . . , βk ∈ R, σ 2 ∈ R+. (4.13) • Beachte, dass eine einfache exakte Verteilung wie (4.11) nur unter der multivariaten Normalverteilungsannahme möglich ist. Wieso? Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 150 • Zusammenfassung der Annahmen des normalen multiplen linearen Regressionsmodells – (B1) Korrekt spezifiziertes Modell: Der DGP ist für β = β 0 im multiplen linearen Regressionsmodell enthalten. (B2a): E[u|X] = 0 (X ist (streng) exogen) & – (B2): u|X ∼ (0, σ 2I) ⇐⇒ (B2b): V ar(u|X) = σ 2I (Fehler sind auf X bedingt homoskedastisch und unkorreliert). – (B3) X hat vollen Spaltenrang und – (B4) u|X ∼ N (0, σ 2I). Beachte, dass die Annahme (B4) die Annahme (B2) enthält. • Liegt eine von der Normalverteilung verschiedene bedingte Verteilung für den Fehlervektor u vor, lässt sich die exakte Verteilung des KQ-Schätzers im Allgemeinen nur mit Hilfe von Simulationsmethoden bestimmen. • Weiß man nichts über die Art der bedingten Verteilung der Fehler, dann ist die exakte Verteilung für endliche n unbekannt, also β̂ n|X ∼ unbekannte V erteilung. Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 151 • Für große Stichproben wurde jedoch bereits gezeigt, dass, unter den Annahmen (B1) (korrektes Modell) und (siehe Abschnitt 3.3.2) T – (A1) plimn→∞ XnX = SXT X und SXT X hat vollen Rang, – (A2) Es gilt ein LLN für XT u/n, so dass plimn→∞XT u/n = 0, der KQ-Schätzer konsistent ist, d.h. es gilt plimn→∞β̂ n = β 0. Dies konnte mit Hilfe der folgenden Schritte gezeigt werden: T −1 T X X X u T −1 T β̂ − β 0 = (X X) X u = n n T −1 XT u X X plimn→∞ β̂ − β 0 = plimn→∞ plimn→∞ = S−1 T X 0 = 0. X n n Doch was kann bezüglich der Verteilung des KQ-Schätzers gesagt werden? Zur Beantwortung sind sogenannte Zentrale Grenzwertsätze notwendig. Methoden der Ökonometrie — 4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers — U Regensburg — 26.01.2010152 4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers 4.4.1 Zentrale Grenzwertsätze • Motivation – Sei yt ∼ IID(µ0, σ02), t = 1, 2, . . . , n. – Dann gilt aufgrund des schwachen Gesetzes der großen Zahl von Chintschin (vgl. Abschnitt 3.3.1), dass der (KQ-)Mittelwertschätzer konsistent ist: n 1X P µ̂n = yt −→ µ0 bzw. plimn→∞µ̂n = µ0. n t=1 – Doch welche marginale Wahrscheinlichkeitsverteilung weist µ̂n auf? Wie lautet also Fn (z) ≡ P (µ̂n ≤ z)? Ist yt nicht normalverteilt, lässt sich die exakte Verteilung nicht so einfach analytisch berechnen, kann aber approximiert werden. Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 153 – Beachte, dass die Varianz V ar(µ̂n) des konsistenten Schätzers µ̂n asymptotisch verschwindet. D.h., die asymptotische Verteilung von µ̂n − µ0 ist degeneriert und für unsere Zwecke nicht hilfreich. – Um dieses Kollabieren der Varianz von µ̂n − µ0 zu verhindern, muss man µ̂n − µ0 mit einem Faktor — z.B. r — multiplizieren, der verhindert, dass V ar[r · (µ̂n − µ0)] gegen Null konvergiert oder gegen Unendlich divergiert. – Die Varianz von r · (µ̂n − µ0) muss also gegen einen festen Wert konvergieren. √ Dies ist mit r = n der Fall, da V ar(µ̂n) = n−1σ02 und somit √ σ02 V ar n (µ̂n − µ0) = nV ar (µ̂n − µ0) = n = σ02. n – Unter der stärkeren Annahme yt ∼ N ID(µ0, σ02) garantiert derselbe Faktor √ r = n, dass die exakte Verteilung von µ̂n unabhängig von n gleich bleibt: √ n (µ̂n − µ0) ∼ N (0, σ02). (4.14) – Da dies unabhängig von n gilt, gilt (4.14) auch für n → ∞. Unter der Annah√ 2 me yt ∼ N ID(µ0, σ0 ) gilt damit automatisch, dass n(µ̂n −µ0) in Verteilung Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 gegen eine N (0, σ02)-verteilte Zufallsvariable konvergiert: √ d n(µ̂n − µ0) −→ N (0, σ02). 154 (4.15) Hierbei wird N (0, σ02) als die asymptotische Verteilung der Folge von Zu√ fallsvariablen n(µ̂n − µ0) bezeichnet. (In diesem speziellen Fall ist natürlich N (0, σ02) auch die exakte Verteilung.) – Doch gegen welche asymptotische Verteilung konvergiert die Folge der Zu√ fallsvariablen n(µ̂n − µ0), wenn yt IID, aber nicht normalverteilt ist? Die Antwort liefert für diesen Fall der Zentrale Grenzwertsatz (central limit theorem (CLT)) von Lindeberg und Lévy. • Zentraler Grenzwertsatz für IID-Zufallsvariablen (Lindeberg-Lévy Theorem) Es sei yt ∼ IID(µ0, σ02), t = 1, 2, . . ., |µ0| < ∞, 0 < σ02 < ∞. Für den Pn 1 Mittelwertschätzer µ̂n = n t=1 yt gilt √ d n(µ̂n − µ0 ) −→ N (0, σ02). (Für eine Beweisidee siehe z.B. Hendry (1995, Section A.5)) Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 155 Bemerkungen: – Man kann alternativ auch √ d n(µ̂n − µ0) −→ z, z ∼ N (0, σ02) schreiben, aber nicht (wie irrtümlich in Davidson & MacKinnon (2004, Section 4.5, p. 149)) √ plimn→∞ n(µ̂n − µ0) = z ∼ N (0, σ02), weil dieser Wahrscheinlichkeitslimes nicht existiert; siehe für einen Beweis hierfür z.B. Davidson (1994, Section 23.1). √ – Der Faktor r = n, auch Konvergenzrate genannt, bleibt gleich. – Unabhängig von der Art der marginalen Verteilung von yt konvergiert der √ mit n skalierte Mittelwertschätzer in Verteilung gegen eine Normalverteilung, solange yt eine endliche Varianz aufweist. Man sagt dann, dass der Mittelwertschätzer asymptotisch normalverteilt ist. – Die Varianz lim V ar n→∞ √ n(µ̂n − µ0) = σ02 Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 156 wird als asymptotische Varianz bezeichnet. – Der Zentrale Grenzwertsatz sagt nichts darüber aus, wie gut die asymptotische Verteilung die exakte Verteilung für eine gegebene Stichprobengröße n approximiert. • Zentraler Grenzwertsatz für heterogene, aber stochastisch unabhängige Zufallsvariablen Häufig sind die yt nicht IID, sondern sind nur unabhängig, aber nicht identisch verteilt, zum Beispiel, wenn sie eine unterschiedliche Varianz aufweisen, √ 2 yt ∼ (µ0, σt ), t = 1, 2 . . .. Dann gilt für die Varianz von nµ̂n ! n n n √ 1 X 1X 1X 2 V ar( nµ̂n ) = V ar √ yt = V ar(yt) = σ . n t=1 n t=1 n t=1 t Sofern die V ar(yt) einige Bedingungen erfüllen, z.B. 0 < V ar(yt) < c < ∞, für alle t = 1, 2, . . ., gilt ein zentraler Grenzwertsatz ! n X √ 1 d n(µ̂n − µ0) −→ N 0, lim V ar(yt) . (4.16) n→∞ n t=1 Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 157 Bedingungen an die Folge der Varianzen sind notwendig, um folgende Fälle auszuschließen: – Würde z.B. für ein festes a > 0 gelten, dass V ar(yt) = σ02at → 0 mit t → ∞, P∞ 1 dann ist t=1 V ar(yt) = σ02 1−a und somit ergibt sich für √ 1 1 → 0 für n → ∞, V ar( nµ̂n ) = σ02 n 1−a √ die Varianz von nµ̂n verschwindet also asymptotisch. Damit ist natürlich keine (sinnvolle) Grenzverteilung möglich. – Würde entsprechend gelten V ar(yt) = σ02t → ∞, dann erhält man √ 1 2 n(n + 1) V ar( nµ̂n) = σ0 → ∞ mit n → ∞. n 2 Bedingungen, die sicherstellen, dass eine Grenzverteilung existiert, werden häufig als Regularitätsbedingungen bezeichnet. Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010 158 • Zentrale Grenzwertsätze für Vektoren – Cramér-Wold Device: Für eine Folge von Zufallsvektoren xn gilt d xn −→ x dann und nur dann, wenn für alle zulässigen Vektoren λ gilt: d λT xn −→ λT x. – Multivariater Grenzwertsatz: Gegeben seien die unabhängig verteilten (r × 1)-Zufallsvektoren vt mit Erwartungswert µ0 und Varianz V ar(vt). Dann gilt unter geeigneten RegulaP ritätsbedingungen für den multivariaten Mittelwertschätzer µ̂n = n1 nt=1 vt ! n √ 1X d n (µ̂n − µ0) −→ N 0, lim V ar(vt) . (4.17) n→∞ n t=1 Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 159 4.4.2 Asymptotische Verteilung des KQ-Schätzers • Ableitung √ – Wie im Fall des Mittelwertschätzers muss man auch den KQ-Schätzer mit n multiplizieren, um eine nicht singuläre asymptotische Varianz-Kovarianzmatrix zu erhalten. Man erhält unter den Annahmen (B1) und (B3) XT X −1 1 √ √ XT (y − Xβ 0) n β̂ n − β 0 = n n T −1 T √ X X X u T −1 T √ . = n(X X) X u = n n | {z } | {z } ≡An – Aus Abschnitt 3.3.1 ist bekannt, dass falls d i) an −→ a und ii) plim An = A, d An an −→ Aa gilt. ≡an Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 160 – Damit i) gilt, muss weiterhin (A1) gelten, so dass −1 T plim X X/n = S−1 XT X n→∞ gilt. – Damit ii) gilt, muss Annahme (A2) “verstärkt”werden. Nunmehr muss ein √ T Zentraler Grenzwertsatz für X u/ n gelten: d 1 T 2 √ (A3) n X u −→ w∞ ∼ N 0, σ0 SXT X Beachte, dass die Annahme (A3) die Gültigkeit von Annahme (B2) voraussetzt. • Asymptotische Verteilung des KQ-Schätzers Es gelten für das multiple lineare Regressionsmodell die Annahmen (B1),(B3), sowie die Annahmen (A1) und (A3). Dann gilt T −1 √ X X 1 T √ n β̂ n − β 0 = X u n n d −1 2 −1 −→ SXT Xw∞ ∼ N 0, σ0 SXT X . (4.18) Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 161 • In der Praxis können die Annahmen (A1) und (A3) (high level assumptions) nicht direkt überprüft werden. Deshalb werden diese Annahmen im Allgemeinen durch Annahmen ersetzt, die anschaulicher und leichter überprüfbar sind. Dazu in Kürze mehr. • Anwendung der asymptotischen Verteilung in der Praxis: – In heuristischer Schreibweise lässt sich die asymptotische Verteilung auch schreiben als σ02 −1 approximativ β̂ ∼ N (β 0, SXT X), n da sich für gegebene Stichprobengröße n herauskürzt. – Da SXT X und σ02 unbekannt sind, ist die asymptotische Verteilung so nicht anwendbar. Die Fehlervarianz σ02 kann mit s2 geschätzt werden und SXT X durch n 1 T 1X T X X= Xt Xt. (4.19) n n t=1 Damit erhält man in heuristischer Schreibweise β̂ approximativ ∼ 2 T N β 0, s (X X) −1 . Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 162 Der zentrale Unterschied zur exakten Verteilung ist, dass die Normalverteilung nur approximativ gilt, jedoch die Approximation mit zunehmender Stichprobengröße n immer genauer wird. – Möchte man analysieren, wie gut die Approximation der asymptotischen Normalverteilung ist, muss man dies im Allgemeinen mit Hilfe von Computersimulationen, sogenannten Monte-Carlo-Simulationen machen. • Wann ist Annahme (A3) erfüllt? Zum Beispiel, wenn eine Zufallsstichprobe vorliegt und Annahme (B2) gilt. Diese Annahmen können abgeschwächt werden, siehe Abschnitt 4.5. Beweisskizze: – Es gilt XT u = Pn T X t u}t . Zunächst werden E[vt ] und V ar(vt ) bestimmt. t=1 | {z ≡vt Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 163 – Aus Annahme (B2a) E[u|X] = 0 (strenge Exogenität) folgt, dass E[ut|X] = 0 für alle t = 1, 2, . . . , n. E [E[ut|X]|Xt] = E [ut|Xt] = 0. T T E[Xt ut] = E E[Xt ut|Xt] = 0. Somit ist der Erwartungswert von vt = XTt ut ein Nullvektor. – Wegen Annahme (B2b) gilt V ar(u|X) = σ02I, sowie 2 V ar(ut|X) = E ut |X = σ02 für alle t = 1, 2, . . . , n. 2 2 E E[ut |X]|Xt = E ut |Xt = V ar(ut|Xt) = σ02. T 2 T T 2 T 2 V ar(vt) = V ar Xt ut = E Xt ut Xt = E E[ut Xt Xt|Xt] = σ0 E Xt Xt . Da vt ∼ (0, V ar(vt)) und damit XTt ut ∼ (0, V ar(XTt ut)) gilt, sowie eine Zufallsstichprobe angenommen wurde, kann auf den Mittelwertschätzer n µ̂v,n 1 T 1X T = X u= X ut n n t=1 t Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 164 der Multivariate Zentrale Grenzwertsatz (4.17) angewendet werden. Man erhält ! n √ 1X T d 2 nµ̂v,n −→ N 0, σ0 lim E Xt Xt . n→∞ n t=1 Es lässt sich zeigen, dass aufgrund von Annahme (A1) gilt: n 1X T SXT X = lim E Xt Xt . n→∞ n t=1 Damit erhält man n 1 X T d 2 √ Xt ut −→ N 0, σ0 SXT X . n n=1 (4.20) – ♯ Verwendung des Cramér-Wold Devices: Wähle beliebigen (k × 1)-Vektor λ. Mit den bisherigen Ergebnissen gilt T T T 2 T λ Xt ut ∼ 0, σ0 λ E Xt Xt λ . Man betrachtet dann die asymptotischen Eigenschaften des Mittelwertschätzers n 1X T T ν̂n = λ Xt ut n t=1 Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 165 (= (skalare) Zufallsfolge). Unter der zusätzlichen Voraussetzung, dass die Stichprobenbeobachtungen stochastisch unabhängig sind und den üblichen Regularitätsbedinungen, lässt sich der Zentrale Grenzwertsatz für heterogene, aber unabhängige Zufallsvariable (4.16) anwenden und es gilt ! n √ 1X 2 T T d nν̂n −→ N 0, lim σ0 λ E Xt Xt λ . n→∞ n t=1 Da dies für alle λ mit ||λ|| > 0 gilt, kann man aufgrund des Cramér-Wold Devices λ weglassen und man erhält ! n n 1 X T 1X T d 2 √ Xt ut −→ N 0, σ0 lim E Xt Xt t→∞ n t=1 n t=1 bzw. wieder n 1 X T d 2 √ Xt ut −→ N 0, σ0 SXT X . n n=1 (4.20) Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 166 4.5 Dynamische lineare Regressionsmodelle • Bisher wurde immer strenge Exogenität E[u|X] = 0 (Annahme (B2a)) vorausgesetzt. Diese schließt Regressionsmodelle mit verzögert abhängigen Variablen als Regressor aus. • Beispiele: – autoregressiver Prozess erster Ordnung (AR(1)-Prozess), vgl. Abschnitt 3.2 yt = ν + αyt−1 + ut, ut ∼ IID(0, σ 2). (4.21) – autoregressiver Prozess der Ordnung p (AR(p)-Prozess) yt = ν + α1yt−1 + · · · αpyt−p + ut, ut ∼ IID(0, σ 2). (4.22) Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 167 • Allgemein werden Regressionsmodelle mit verzögert abhängigen Variablen als dynamische lineare Regressionsmodelle bezeichnet yt = dtν + Ztδ 0 + Zt−1δ 1 + · · · + Zt−m δ m + yt−1α1 + . . . + yt−pαp + ut (4.23) Folgende Variablen können enthalten sein, d.h. diese Variablen können Bestandteil der Informationsmenge It eines dynamischen linearen Regressionsmodells sein: (Informationsmenge = Menge aller erklärenden Variablen, vgl. Abschnitt 3.1.3) – deterministische Variablen, zusammengefasst im Zeilenvektor dt: Konstante, Zeittrend, Saisondummies, etc., – verzögerte abhängige Variablen yt−j , j > 0, – kontemporäre Variablen Zt, so dass der Fehler partiell unabhängig, E(ut|Zt) = 0 (vgl. (3.35)), ist. – verzögerte Zt, also Zt−j , j > 0, – (fast) jede Funktion der genannten Variablen. Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 • Mit Xt = dt Zt Zt−1 · · · Zt−m yt−1 · · · yt−p , ν 168 δ0 δ1 .. β= δ m α1 .. (4.24) αp lässt sich das dynamische lineare Regressionsmodell (4.23) wieder in der bekannten kompakten Form schreiben yt = Xtβ + ut (4.25) Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 169 • Annahmen für asymptotische Schätzeigenschaften – (C1) ⇐⇒ Annahme (B1): Der DGP ist für β = β 0 in (4.25) enthalten. (C2a) Partielle Unabhängigkeit der Fehler E(ut|Xt) = 0, – (C2): ut|Xt ∼ (0, σ 2) ⇐⇒ (C2b) Bedingte Homoskedastie der Fehler E(u2t |Xt) = σ 2 ≡ E(u2t ), wobei für die Fehlervarianz des DGP σ 2 = σ02 gilt. – (C3) ⇐⇒ Annahme (A1) n n 1X T 1X plim Xt Xt = lim E(XTt Xt) = SXT X < ∞, n→∞ n n→∞ n t=1 t=1 SXT X invertierbar. – (C4a) Strenge Stationarität – (C4b) E|λT Xtut|2+δ ≤ B < ∞, δ > 0, für alle feste λ mit λT λ = 1. Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 170 • Bemerkungen: – Die Annahmen entsprechen den Voraussetzungen in Davidson (2000): vgl. zu (C2a) (Davidson 2000, Assumption 7.1.1), zu (C2b) (Davidson 2000, Assumption 7.1.2), zu (C3) Davidson (2000, 7.1.3), zu (C4b) (Davidson 2000, Eq. (7.1.12)). – Die Unabhängigkeit (C2a) impliziert unkorrelierte Fehler. – Da partielle Unabhängigkeit (C2a) schwächer ist als strenge Exogenität (B2a), ist der KQ-Schätzer im dynamischen linearen Regressionsmodell im Allgemeinen verzerrt. – Damit die Annahme (C3) gilt, muss beispielsweise im Fall eines AR(1)-Prozesses (4.21) gelten, dass ∗ |α| < 1 (Stabilitätsbedingung) gilt und ∗ E|ut|2+δ ≤ B < ∞, δ > 0, t = 1, . . . , n, d.h. für die Fehlerverteilung über die Varianz hinaus Momente existieren. Für AR(p)-Prozesse muss die entsprechende Stabilitätsbedingung erfüllt sein Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 171 (siehe z.B. BA-Veranstaltung Ökonometrie II oder unten genannte MAVeranstaltungen). Wenn alle Regressoren schwach stationär sind, d.h. 1. E[Xt] = E[Xs] und 2. Cov(Xs, Xt) = Cov(Xs+k , Xt+k ) unabhängig von s, t = 1, . . . und k gelten, dann ist auch Annahme (C3) erfüllt (ohne Beweis). – Strenge Stationarität (Annahme (C4a)) erfordert, dass f (wt, wt+1, . . . , wt+h) = f (wt+k , wt+k+1, . . . , wt+k+h) für alle t, h, k. – Annahme (C4b) erfordert, dass für die bedingte Fehlerverteilung über die Varianz hinaus Momente existieren. (Beispiel: bedingte Normalverteilung, tVerteilung mit mindestens 4 Freiheitsgraden) Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 172 • Asymptotische Schätzeigenschaften des KQ-Schätzers – Konsistenz: Unter den Annahmen (C1), (C2), (C3) ist der KQ-Schätzer konsistent, d.h. plim β̂ n = β 0 (4.26) n→∞ – Asymptotische Normalverteilung: Unter Annahmen (C1), (C2), (C3) und (C4a) oder (C4b) ist der KQSchätzer asymptotisch normalverteilt, √ d n β̂ n − β 0 −→ N (0, σ02S−1 ). (4.27) XT X – Hier ohne Beweise. Die (aufwändigen) Beweise finden sich in der MA-Veranstaltung Fortgeschrittene Ökonometrie oder in Davidson (2000). • Bedingte Dichten – Sind die Stichprobenbeobachtungen abhängig, liegt keine Zufallsstichpro- Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 173 be, so dass (3.20) nicht gilt. Immer gilt wegen (3.10) f (w1, w2, . . . , wn) = f (wn|wn−1, . . . , w1) f (wn−1|ww−2, . . . , w3, w2, w1) ··· f (w3|w2, w1) f (w2|w1) f (w1) n Y = f (wt|wt−1, . . . , w3, w2, w1). (4.28) t=1 – Die Zerlegung (4.28) ist insbesondere bei Zeitreihendaten sinnvoll, wenn angenommen wird, dass zukünftige Ereignisse keinen Einfluss auf gegenwärtige und vergangene Ereignisse haben. Ist wt skalar, spricht man von einem DGP für univariate Zeitreihen (vgl. AR(p)-Modelle), ansonsten von einem DGP für multivariate Zeitreihen (vgl. VAR(p)-Modelle). – Anstelle der gemeinsamen Dichte f (w1, w2, . . . , wn) ist es ausreichend f (wt|wt−1, . . . , w1), t = 1, . . . , n, zu betrachten. Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 174 – Geht es um dynamische Regressionsmodelle, muss analog zur Zerlegung (3.30) die Zerlegung f (wt|wt−1, . . . , w1; θ) = f (yt|Zt, wt−1, . . . , w1; θ y ) f (Zt|wt−1, . . . , w1; θ Z ) (4.29) existieren. – Dabei wird bei der Verwendung von dynamischen Regressionsmodellen ausschließlich die bedingte Dichte f (yt|Zt, wt−1, . . . , w1; θ y ) oder Teile davon modelliert. Dynamische Regressionsmodelle gehören damit zu der Klasse der bedingten Modelle. – Es ist möglich, dass die Dichten f (wt), bzw. f (wt|wt−1, . . . , w1) von t abhängen. Sie können beispielsweise von Saisonkomponenten oder von einem Trend abhängig sein. Die entsprechenden Dichten f (·) werden dann mit dem Index t versehen oder es wird explizit eine deterministische Variable in die Bedingung mit aufgenommen. • Dieser Abschnitt ist nur eine extrem kurze Zusammenfassung. Die MA-Veranstaltungen Fortgeschrittene Ökonometrie, Quantitative Wirtschaftsforschung II Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010 175 und Applied Financial Econometrics vertiefen verschiedene Aspekte dynamischer ökonometrischer Modelle. Methoden der Ökonometrie — 4.6 Exakte Tests — U Regensburg — 26.01.2010 176 4.6 Exakte Tests Exakte Tests setzen im Falle des linearen Regressionsmodells die Annahme normalverteilter Fehler voraus. Das normale multiple lineare Regressionsmodell ist gegeben durch y = Xβ + u, sofern die Annahmen (B1), (B2), (B3) und (B4) erfüllt sind. 4.6.1 t-Tests: Testen einer einzelnen Restriktion • Der zu testende Parameter wird als β2 bezeichnet. Das normale multiple lineare Regressionsmodell lautet dann: y = X1β 1 + x2β2 + u, u|X1, x2 ∼ N (0, σ 2I). • Hypothesenpaar: H0 : β2 = β2,H0 versus H1 : β2 6= β2,H0 Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010 177 • t-Test bei bekannter Fehlervarianz σ02: – Teststatistik: β̂2 − β2,H0 . zβ2 = σβ̂2 – Berechnung: KQ-Schätzer von β2 aus M1y = M1x2β2 + M1u mit xT2 M1y β̂2 = T , x2 M1x2 σβ̂2 = σ02(xT2 M1x2)−1 und zβ2 = 2 xT2 M1 y − β2,H0 xT2 M1x2 . T −1/2 σ0(x2 M1x2) – Ableitung der Verteilung: Unter H0 : β2 = β2,H0 ist zβ̂2 eine Linearkombination von u xT2 M1u zβ2 = σ0(xT2 M1x2)1/2 und deshalb normalverteilt mit Erwartungswert 0 und Varianz E(xT2 M1uuT M1x2|X1, x2) σ02(xT2 M1x2) V ar(zβ2 |X1, x2) = = 2 T = 1. σ02(xT2 M1x2) σ0 (x2 M1x2) Damit gilt unter H0 zβ2 ∼ N (0, 1) Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010 178 und die Testverteilung ist unter H0 vollständig bekannt. • t-Test bei geschätzter Fehlervarianz σ̂ 2: – Teststatistik: β̂2 − β2,H0 tβ2 = . σ̂β̂2 (4.30) – Berechnung: β̂2 bleibt gleich und die Varianz des Parameterschätzers σβ̂2 2 wird durch T y MX y T 2 2 T −1 σ̂β̂ = s (x2 MXx2) = (x2 M1x2)−1 2 n−k geschätzt, so dass sich unter H0 −1/2 T y MX y xT2 M1u tβ2 = (n − k) (xT2 M1x2)1/2 | {z } = s−1 T y MX y σ02(n − k) −1/2 xT2 M1u zβ2 = 1/2 (σ02xT2 M1x2)1/2 s2 σ02 (4.31) Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010 179 ergibt. – Ableitung der Verteilung: 1. Zähler: zβ2 ∼ N (0, 1). 2. Nenner: Es gilt (n−k)s2 uT u = σ0 MX σ0 = σ2 ∼ χ2(n − k), da u/σ0 ∼ 0 T Ausdruck uσ0 MX σu0 die Projektionsmatrix MX gerade 2 yT y M X σ0 σ0 N (0, I) und in dem Rang n − k hat. Damit ergibt sich aufgrund von (4.8) eine χ -Verteilung mit n − k Freiheitsgraden. 3. Zähler und Nenner sind stochastisch unabhängig. ∗ Zähler: xT2 M1y = xT2 PXM1y = xT2 M1PX y da x2 bereits im Unterraum von PX liegt und PX (I − P1) = PX − PXP1 = PX − P1PX = M1PX | {z } M1 gilt. Zusammen mit PXy = Xβ + PXu ergibt sich für den Zähler xT2 M1y = xT2 M1Xβ + xT2 M1PXu, Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010 180 dass dieser gegeben X ausschließlich vom Zufallsvektor PXu abhängt. ∗ Nenner: basiert auf der Wurzel aus der quadratischen Form von MXu/σ0 ∗ Gegeben X sind die Zufallsvektoren im Zähler PXu und im Nenner MXu. Deren Kovarianz ist Null, da T E PXuu MX|X1, x2 = PXσ02IMX = σ02PXMX = 0, da die jeweiligen Unterräume orthogonal zueinander stehen. ∗ Da PXu und MXu beide multivariat normalverteilt sind (durch u), ergibt sich aus der Unkorreliertheit Unabhängigkeit (vgl. Davidson (2000, Theorem C.4.1, S. 466)). 4. Damit ist die t-Statistik (4.30) gemäß (4.9) unter H0 exakt t-verteilt mit n − k Freiheitsgraden, da Zähler und Nenner stochastisch unyT abhängig sind, der Zähler standardnormalverteilt ist, sowie im Nenner σ0 MX σy0 gerade χ2(n − k) verteilt ist und nach Division durch die Zahl der Freiheits- Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010 181 grade gerade s2/σ02 ergibt: tβ2 = β̂2 − β2,H0 ∼ tn−k σ̂β̂2 (4.32) • Mit dem t-Test können auch kompliziertere einzelne Restriktionen getestet werden, z.B. die Skalenelastizität einer Cobb-Douglas Produktionsfunktion log Y = β1 + β2 log K + β3 log L + u wobei Y , K und L jeweils Output, Kapital und Arbeit bezeichnen. Die Null- bzw. Alternativhypothese einer linearen Skalenelastizität H0 : β2 + β3 = 1 versus H1 : β2 + β3 6= 1 lassen sich mit θ = β2 + β3 schreiben als H0 : θ = 1 versus H1 : θ 6= 1, wobei dann mit β3 = θ − β2 log Y = β1 + β2(log K − log L) + θ log L + u geschätzt wird. Alternativ kann auch ein F -Test durchgeführt werden. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 182 4.6.2 F -Tests: Testen mehrerer Restriktionen • Häufig impliziert eine (ökonomische) Theorie mehrere Restriktionen bezüglich der Parameter eines Regressionsmodells. • Beispiele möglicher linearer Restriktionen: i) H0 : β2 = βk ii) H0 : β1 = 1, βk = 0 iii) H0 : β1 = β3, β2 = β3 iv) H0 : βj = 0, j = 2, . . . , k v) H0 : βj + 2βj+1 = 1, βk = 2. • Alle q ≤ k linearen Restriktionen können in folgender Form dargestellt werden: H0 : Rβ = r vs. H1 : Rβ 6= r (4.33) wobei die (q × k)-Matrix R und der (q × 1)-Vektor r gegeben und fest sind. Bei der Formulierung muss natürlich sichergestellt werden, dass alle Restriktionen in (4.33) widerspruchsfrei und nicht redundant sind. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 Darstellungen der Beispiele: i) H0 : β2 = βk ⇔ β2 − βk = 0: ii) H0 : β1 = 1, βk = 0: β1 β2 β 3 0 1 0 · · · 0 −1 . = 0. . βk−1 βk β ! 1 1 0 ··· 0 β2 .= 0 0 ··· 1 . βk ! 1 0 . 183 Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 iii) H0 : β1 = β3, β2 = β3: ! β1 1 0 −1 β2 = 0 1 −1 β3 ! 0 0 . iv) H0 : βj = 0, j = 2, . . . , k: β 1 0 1 0 ··· 0 0 β2 0 0 1 · · · 0 0 . . . . . β3 = . . . . . .. . . . . 0 0 0 ··· 1 0 | {z } βk | {z } ((k−1)×1) 0 Ik−1 184 Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 185 v) H0 : βj + 2βj+1 = 1, βk = 2: β1 .. ! 0 ··· 1 2 ··· 0 β j = 0 · · · 0 0 · · · 1 βj+1 .. βk ! 1 2 . • Wie lassen sich mehrere Hypothesen in einer skalaren Teststatistik zusammenfassen? Idee: Durch Summieren der quadrierten Abweichungen T Rβ̂ − r > kritischer Wert. Rβ̂ − r Eine anwendbare Teststatistik erfordert jedoch die Kenntnis der Verteilung der Teststatistik und damit auch von Rβ̂ − r. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 Unter den Annahmen (B1), (B2), (B3), (B4) gilt: – Ist H0 : Rβ = r, wobei β = β 0 enthalten ist, erfüllt, erhält man: E Rβ̂ − r|X = Rβ 0 − r = 0 T V ar Rβ̂ − r|X = E Rβ̂ − r Rβ̂ − r X , T = RE β̂ − β 0 β̂ − β 0 X RT = RV ar β̂|X RT −1 T 2 T = σ0 R X X R . – Da R β̂ − β 0 −1 T =R X X X u, T gilt aufgrund der Eigenschaften der multivariaten Normalverteilung −1 R β̂ − β 0 |X ∼ N 0, σ02 R XT X RT , 186 Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 187 −1 T wobei R X X R Rang q hat, da rk(AB) = rk(A), wenn B nicht singulär ist (vgl. Schmidt & Trenkler 2006, Regel 3.2.7). T – Deshalb für die gewichtete Summe der Quadrate des (q ×1)-verteilten normalverteilten Vektors R β̂ − β 0 (siehe Eigenschaften der χ2-Verteilung (4.7)) unter Kenntnis der Fehlervarianz σ02, dass T h i−1 −1 R β̂ − β 0 σ02R XT X RT R β̂ − β 0 ∼ χ2q . Unter H0 gilt Rβ̂ − r = R β̂ − β 0 , so dass ebenso gilt T h i−1 −1 Rβ̂ − r σ02R XT X RT Rβ̂ − r ∼ χ2q . Als Teststatistik sollte also eine gewichtete anstatt einer ungewichteten Summe der quadrierten Abweichungen von Rβ̂ − r verwendet werden, da hierfür die Verteilung bekannt ist. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 188 • In der Praxis ist im Allgemeinen die Fehlervarianz σ02 unbekannt und muss geschätzt werden. Es gilt (n − k)s2/σ02 ∼ χ2(n − k), siehe vorherigen Abschnitt T T T 2 4.6.1 zum t-Test. Da E X uu MX = σ0 E X MX = 0 folgt aufgrund der multivariaten Normalverteilungsannahme (B4), dass die Zufallsvektoren im Zähler und Nenner unabhängig sind und somit auch die χ2-verteilten Zufallsvariablen im Zähler und Nenner, so dass deren Verhältnis korrigiert um die Zahl der Freiheitsgrade F -verteilt ist. • Die F -Teststatistik erhält man, indem man jeweils im Zähler und Nenner durch die Zahl der Freiheitsgrade dividiert T h −1 T i−1 2 T Rβ̂ − r R σ0 R X X Rβ̂ − r /q F = [(n − k)s2/σ02] /(n − k) T h i−1 −1 R XT X RT Rβ̂ − r /q Rβ̂ − r = (4.34) 2 s T h i−1 −1 β̂ − β 0 RT R XT X RT R β̂ − β 0 /q = ∼ Fq,n−k (4.35) yT MXy/(n − k) Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 189 Die F -Statistik (4.34) ist also F -verteilt mit q und n − k Freiheitsgraden. • Entscheidungsregel für F -Test: Verwerfe H0 : Rβ = r, falls ( χ2q,1−α F > Fq,n−k,1−α falls σ02 bekannt falls σ02 unbekannt. • Gemeinsame Ausschluss/Nullrestriktionen (joint exclusion restrictions): weitere Berechnungsmöglichkeiten der F -Statistik – Man kann immer die Variablen in einem multiplen Regressionsmodell so umordnen, dass alle Ausschluss-/Nullrestriktionen bezüglich β in dem Modell y = |{z} X1 β 1 + |{z} X2 β 2 + u, (n×k1) (n×k2) k = k1 + k2, in β 2 zusammengefasst werden. Das Hypothesenpaar lautet dann: H0 : βj = 0, j = k1 + 1, . . . , k1 + k2 ⇔ β 2 = 0 versus H1 : β21 6= 0 oder . . . oder β2k2 6= 0. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 Die Nullrestriktionen können dann geschrieben werden als β 1 .. 0 0 ··· 0 1 0 ··· 0 βk −1 0 · · · 0 0 1 · · · 0 1 0 . . . . . . . βk1 = . . . .. . . . .. . β k +1 1 0 0 ··· 0 0 0 ··· 1 . {z } . | 0k2×k1 Ik2 βk 0k2×k1 Ik2 β = 0k2×1. 190 Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 191 In diesem Fall existieren weitere Berechnungsmöglichkeiten der F -Statistik (vgl. auch Ökonometrie I), indem man das restringierte und das unrestringierte Modell getrennt schätzt: i) Restringierte Regression: Regressiere y ausschließlich auf X1 und speichere die Residuenquadratsumme SSR1 = ũT ũ oder im Fall einer in X1 enthaltenen Konstanten auch R12. ii) Unrestringierte Regression: Regressiere y auf X = X1 X2 und speichere SSR = ûT û bzw. R2 . Die weiteren Berechnungsmöglichkeiten sind (beachte q = k2): (SSR1 − SSR)/k2 F = (4.36) SSR/(n − k) ũT ũ − ûT û /k2 = ûT û/(n − k) (R2 − R12)/k2 = (4.37) 2 (1 − R )/(n − k) ∼ Fk2,n−k . Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 192 – 1. Beweismöglichkeit: mit Hilfe der Formel zur Inversion partitionierter Matrizen (siehe Übungsaufgaben) – 2. Beweismöglichkeit: mit Hilfe des Frisch-Waugh-Lovell Theorems: i) Man beachte, dass die Residuenquadratsumme des unrestringierten Modells SSR = yT MXy mit Hilfe der Zerlegung der Residuenquadratsumme und des Frisch-WauchLovell Theorems auf Basis der Regression M1y = M1X2β 2 + Residuen auch geschrieben werden kann als SSR = T SS − ESS = yT M1y − yT M1PM1X2 M1y T = y M1 y − y T = y M1 y − y T T −1 T T M1 M1X2 X2 M1M1X2 X2 M1 M1y | {z PM1 X2 −1 T T M1X2 X2 M1X2 X2 M1y. } Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 193 ii) Der Zähler in der F -Statistik (4.36) ist dann h i −1 SSR1 − SSR = yT M1y − yT M1y − yT M1X2 XT2 M1X2 XT2 M1y −1 T T T = y M1X2 X2 M1X2 X2 M1y (4.38) = uT PM1X2 u. Das letzte Gleichheitszeichen gilt, da unter H0 M1y = M1u (verifizieren!). iii) Da PM1X2 eine Projektionsmatrix mit Rang k2 ist, folgt aus der Eigenschaft (4.8) der χ2-Verteilung, dass bei normalverteilten Fehlern unter H0 uT u SSR1 − SSR = PM1X2 ∼ χ2(k2). σ σ Für den Nenner gilt uT u SSR = MX ∼ χ2(n − k). σ σ Zähler und Nenner sind also jeweils χ2-verteilt. Die Zufallsvektoren im Zähler PM1X2 u und Nenner MXu haben Kovarianz Null, da MX M1 = M1 MX Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 194 und folglich MXM1X2 = M1MXX2 = 0 (die Spalten von X2 sind im orthogonalen Raum zu MX enthalten) und T somit E PM1X2 uu MX = 0. Aufgrund der multivariaten Normalverteilungsannahme sind die Zufallsvektoren damit auch stochastisch unabhängig. Damit gilt aufgrund der Definition der F -Verteilung F = (SSR1 − SSR)/k2 ∼ Fk2,n−k SSR/(n − k) – Durch (4.38) ergibt sich noch eine weitere Schreibweise der F -Statistik −1 T T T y M1X2 X2 M1X2 X2 M1y/k2 F = (4.39) T y MXy/(n − k) • Die F -Statistik (4.36) kann auch für allgemeine lineare Restriktionen verwendet werden. Dazu muss jedoch das Modell unter H0 geeignet umgeformt werden, siehe Ökonometrie I. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 195 • Weitere bekannte F -Tests: – Einzelne Hypothese: F -Statistik ist Quadrat der t-Statistik und entspricht einem zweiseitigem t-Test. – Chow-Strukturbruchtest: Test auf Konstanz aller/einiger Parameter über 2 Teilstichproben, jeweils mit I und II indiziert, hinweg. Sind diese nicht konstant, muss man für jede Teilstichprobe eine eigene Schätzung durchführen yI = XI β I + uI yII = XII β II + uII . Die Nullhypothese (Parameterkonstanz) lautet H0 : β I = β II . Unter H0 ist also das Modell y = Xβ + u zu schätzen. Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010 196 Unter H1 hingegen können sich Elemente von β II und β I unterscheiden und man schätzt in Matrixschreibweise mit ! ! XI yI , X= y= yII XII das Modell y = Xβ + O XII ! γ + u. Das Hypothesenpaar lautet: H0 : γ = 0 versus H1 : γj 6= 0 für mindestens ein j. Sind zusätzlich zu (B1), (B2), (B3), (B4) die Teilstichproben stochastisch unabhängig, ist der Chow-Test exakt. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 197 4.7 Asymptotische Tests Das normale multiple lineare Regressionsmodell ist gegeben durch y = Xβ + u, u|X ∼ N ID(0, σ 2I). Ist die Annahme (B2) (streng) exogener Regressoren beispielsweise durch verzögerte endogene Variable als Regressoren oder die Annahme (B4) normalverteilter Fehler nicht erfüllt, dann ist die exakte Verteilung der t- und F -Statistiken aus Abschnitt 4.6 im Allgemeinen nicht analytisch bestimmbar. Unter den Annahmen • (B1), (B3), (A1) und (A3) oder alternativ • (C1), (C2), (C3) und (C4a) oder (C4b) lässt sich jedoch zeigen, dass diese Tests asymptotisch gültig sind. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 Asymptotischer t-Test • Der im linearen Regressionsmodell y = X1β 1 + x2β2 + u, u|X ∼ IID(0, σ 2I). zu testende Parameter ist β2. • Das Hypothesenpaar lautet: H0 : β2 = β2,H0 versus H1 : β2 6= β2,H0 . • Teststatistik β̂2 − β2,H0 zβ2 tβ2 = = . 1/2 2 2 σ̂β̂2 (s /σ ) • Ableitung der asymptotischen Verteilung 1. Nenner: Unter den getroffenen Annahmen ist, gilt unter H0 2 2 1/2 plimn→∞ s /σ = 1. 2. Zähler: Der Zähler in (4.31) wird mit n−1/2 erweitert zu n−1/2xT2 M1u σ(n−1xT2 M1x2)1/2 198 Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 199 und hat offensichtlich Erwartungswert 0 und die Varianz 1, da die Varianz des Zählers gerade dem Quadrat des Nenners entspricht (beides verifizieren!). 3. Unter der Annahme, dass die Regularitätsbedingungen für einen multivariaten Zentralen Grenzwertsatz für n−1/2xT2 M1u (also für (A1), (A3)) erfüllt sind, resultiert d tβ2 −→ N (0, 1). Dann erhält man unter H0 asymptotisch wieder die Standardnormalverteilung und alle Eigenschaften des t-Tests bleiben asymptotisch gültig. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 200 Asymptotischer F -Test • Theorem über stetige Abbildungen (Continuous Mapping Theorem) – Sei h(·) eine stetige Funktion. d d Falls θ̂n −→ θ, dann gilt h(θ̂n) −→ h(θ). (4.40) (Vgl. z.B. Davidson (2000, Theorem 3.1.3).) – Für Folgen von (k × 1)-Zufallsvektoren θ̂ n gilt entsprechend: Gegeben sei eine stetige vektorwertige Funktion h : Rk → Rm. d d Falls θ̂ n −→ θ, dann gilt h(θ̂ n) −→ h(θ). (4.41) (Vgl. z.B. Vaart (1998, Theorem 2.3).) P Vergleiche hierzu das Slutsky-Theorem für Konvergenz in Wahrscheinlichkeit (−→) in Abschnitt 3.3.1. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 201 • Ableitung asymptotischer F -Test Wenn die relevanten Annahmen, vgl. Beginn des Abschnitts, erfüllt sind, so dass √ d 2 −1 n β̂ − β 0 −→ N 0, σ0 SXT X gilt, folgt aus dem Theorem über stetige Abbildungen (4.41) und (4.7) eine asymptotische χ2-Verteilung: T −1 d 2 n β̂ − β 0 σ02S−1 β̂ − β −→ χ (k). (4.42) T 0 X X d Unter Anwendung von Anan −→ Aa, vgl. Abschnitt 3.3.1, erhält man zusammen mit plimn→∞ s2 = σ02 und (A1) (bzw. (C3)) die asymptotische Verteilung der F -Statistik (4.34) T d 2 T −1 T −1 qFn = R(β̂ − β 0) s R(X X) R R(β̂ − β 0) −→ χ2(k), (4.43) da unter H0 : r = Rβ 0. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 202 • Für den Fall von Ausschlussrestriktionen lässt sich unter H0 die F -Statistik (4.34) alternativ schreiben als (4.39). In diesem Fall gilt natürlich auch −1 T T T y M1X2 X2 M1X2 X2 M1y/q d 2 −→ χ (k). (4.44) qFn = q yT MXy/(n − k) • Da gilt (vgl. Abschnitt 4.2), dass für n → ∞ eine Folge von F -verteilten Zufallsvariablen Xn ∼ F (q, n − k) gegen eine χ2-Verteilung konvergiert, d qXn −→ χ2(q), (4.45) kann Fn auch durch eine F (q, n − k)-Verteilung approximiert werden, die in kleinen Stichproben sogar häufig eine bessere Approximation liefert als die χ2Verteilung. Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010 203 Tatsächliche versus nominale Größe • Nominale Größe: entspricht dem gewählten Signifikanzniveau eines Tests. • Tatsächliche Größe: Verwendete Teststatistik τ̂ (z.B. t-Test oder F -Test) hat unter H0 im allgemeinen eine unbekannte Verteilung, die von der Stichprobengröße und dem DGP abhängt. Zusammen mit dem gewählten Signifikanzniveau ergibt sich der (unbekannte) Fehler 1. Art. Dieser wird als tatsächliche Größe eines Tests bezeichnet. • Da bei exakten Tests die Verteilung für jeden DGP und Stichprobengröße bekannt ist, stimmen nominale und tatsächliche Größe überein. • Bei asymptotischen Tests ist die Übereinstimmung von nominaler und tatsächlicher Größe umso besser, je genauer die asymptotische Verteilung die tatsächliche Verteilung (die im Allgemeinen vom DGP und der Beobachtungszahl abhängt) approximiert. Für vorbestimmte DGPs lässt sich der Grad der Übereinstimmung mit Monte-Carlo-Simulationen feststellen. Methoden der Ökonometrie — 4.8 Monte-Carlo-Tests und Bootstraptests — U Regensburg — 26.01.2010 204 4.8 Monte-Carlo-Tests und Bootstraptests • Definition: Eine Teststatistik, deren Verteilung nicht vom DGP abhängt, der die zugrundeliegende Stichprobe generiert hat, heißt pivot. • Die Nullhypothese spezifiziert selten den kompletten DGP. Ist dies der Fall, spricht man von einer einfachen Hypothese (simple hypothesis). • I.A. enthält das Modell unter der Nullhypothese mehrere verschiedene DGPs: zusammengesetzte Hypothese (compound hypothesis). Hängt die exakte Verteilung eines Tests einer zusammengesetzten Nullhypothese vom DGP ab, der die Stichprobendaten generiert hat, ist die Teststatistik nicht pivot, da sich je nach spezifischen DGP bei gleicher Nullhypothese die Testverteilung ändert. Eine Ausnahme bilden hierzu exakte Tests. • Mögliche Auswege für alle anderen Fälle: – Bereits aufgezeigt: asymptotisch pivote Tests. – Bei Kenntnis des DGP: Monte-Carlo-Tests. – Ohne Kenntnis des DGP: Bootstraptests. Methoden der Ökonometrie — 4.8.1 Monte-Carlo-Tests — U Regensburg — 26.01.2010 205 4.8.1 Monte-Carlo-Tests • Empirische Verteilungsfunktion (empirical distribution function) der beobachteten Stichprobenelemente xt, t = 1, . . . , n: n 1X F̂ (x) = 1(xt ≤ x), n t=1 (4.46) wobei 1(·) die Indikatorfunktion 1(A) = ( 1 falls A wahr 0 falls A falsch (4.47) bezeichnet. Fundamental Theorem of Statistics Die empirische Verteilungsfunktion ist im Fall i.i.d.-verteilter Zufallsvariablen konsistent plim F̂ (x) = F (x). (4.48) Die i.i.d.-Annahme kann abgeschwächt werden. Methoden der Ökonometrie — 4.8.1 Monte-Carlo-Tests — U Regensburg — 26.01.2010 206 • Der exakte p-Wert eines Tests mit rechtsseitigem kritischen Wert ergibt sich aus p(τ̂ ) = 1 − F (τ̂ ) = 1 − P (τ ≤ τ̂ ) = P (τ > τ̂ ), (4.49) wobei F (·) die exakte Verteilung der berechneten Teststatistik τ̂ ist. Zur Erinnerung: Lehne H0 ab, falls p(τ̂ ) < α bzw. τ̂ > cα. Ist F (·) unbekannt, lässt sich die Testverteilung durch die empirische Verteilungsfunktion beliebig genau approximieren, sofern der DGP vollständig bekannt ist oder der Test pivot ist. Je größer die Zahl der Replikationen (Monte-CarloSimulationen) B, desto genauer die Approximation. Der computer simulierte p-Wert ist B 1X p̂(τ̂ ) = 1 − F̂ (τ̂ ) = 1 − 1(τj∗ ≤ τ̂ ), (4.50) B j=1 wobei τj∗ der Wert der Teststatistik in der j-ten Simulation unter H0 ist. • Die Durchführung eines Monte-Carlo-Tests erfordert die Generierung von Zufallszahlen mit Hilfe eines Zufallszahlengenerators, siehe hierzu z.B. Davidson & MacKinnon (2004, S. 157-159). Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 207 4.8.2 Bootstraptests • Die Idee eines Bootstraptests ist, den unbekannten DGP zu schätzen und dann die Technik des Monte-Carlo-Tests anzuwenden. • Notwendige Voraussetzung: Alle notwendigen Eigenschaften des DGPs können konsistent mit geeigneter Konvergenzrate geschätzt werden. • Beispiel: Multiples Regressionsmodell yt = β1xt1 + · · · + βk xtk + ut, ut|X ∼ IID(0, σ 2) Es soll H0 : βk = 0 versus H1 : βk 6= 0 getestet werden. Der Bootstraptest funktioniert, wenn u.a. √ – β und σ 2 konsistent mit Rate n geschätzt werden können und – die Verteilung von u gegeben X bekannt ist oder entsprechend geschätzt werden kann. Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 208 • Generieren der Bootstrapstichproben – Schätzen von β mit einem konsistenten und möglichst effizienten Schätzer und berechnen der gewünschten Teststatistik τ̂ . ∗ Man kann β unter H1 schätzen und erhält den KQ-Residuenvektor û. T ∗ Man kann β1 . . . βk−1 unter H0 schätzen und erhält den KQ-Residuenvektor ũ. Im Allgemeinen erhält man bessere Ergebnisse, wenn man die Schätzung unter H0 durchführt. – Annahme i.i.d.normalverteilter Fehler (Annahme (B4)): Parametrischer Bootstrap Man kann dann σ 2 schätzen und für jede Bootstrapstichprobe (yj∗, Xj ) die n Fehlervariablen in u∗j aus N (0, s2I) generieren. 1. Dann lässt sich für die j-te Bootstrapstichprobe der Vektor der abhängigen Variablen unter H0 iterativ generieren durch ∗ yjt = β̃1xt1 + · · · + β̃k−1xt,k−1 + u∗jt, t = 1, 2, . . . , n. Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 209 2. Für die j-Stichprobe (yj∗, Xj ) lässt sich dann die Teststatistik, hier der quadrierte t-Test (=F -Test) berechnen, indem das unrestringierte Modell geschätzt wird ∗ ∗ 2 ∗ τj = tj , t∗j = β̂jk /σ̂j,∗ β̂ ∗ . jk Nach B Replikationen berechnet man dann die empirische Verteilungsfunktion und erhält den Bootstrap p-Wert gemäß (4.50) aus p̂(τ̂ ) = 1 − B −1 B X j=1 1 τj∗ ≤ τ̂ . – Annahme i.i.d. verteilter Fehler (Annahme (B2)): Nichtparametrischer / semiparametrischer Bootstrap 1. Unter H0 sind die KQ-Parameterschätzer konsistent und damit auch die Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 210 geschätzten Fehler plim ũt = plim yt − β̃n1xt1 + · · · + β̃n,k−1xt,k−1 n→∞ n→∞ = yt − xt1 plim β̃n1 + · · · + xt,k−1 plim β̃n,k−1 n→∞ n→∞ = yt − β1xt1 + · · · + βk−1xt,k−1 = ut. 2. ’Asymptotisch’ kann man also auch aus den Fehlern mit Zurücklegen ziehen (resampling), denn aufgrund des Fundamental Theorems of Statistics approximiert die empirische Verteilung der ut’s die wahre Fehlerverteilung. 3. Statt der unbekannten Fehler lassen aufgrund der Konsistenz des Residuenschätzers auch die Residuen verwenden. 4. Verfeinerungen: ∗ reskalierte Residuen (rescaled residuals) 1/2 n ũ+ = ũ . t t n−k Damit wird die Varianz der Residuen, die ja kleiner ist als die Varianz Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 211 der Fehler, so korrigiert, dass sie der geschätzten Varianz der Fehler σ̂ 2 entspricht. ∗ zentrierte und reskalierte Residuen (centered residuals) 1/2 n ¯ ũ+ = (ũ − ũ) . t t n−k Dies ist notwendig, wenn z.B. das Regressionsmodell keine Konstante enthält, denn dann ist der Mittelwert der Residuen ungleich Null und damit wird der Bootstraptest verzerrt. – Wild Bootstrap und Block Bootstrap: Im Fall heteroskedastischer und autokorrelierter Fehler funktionieren die obigen Verfahren nicht. Hier sind kompliziertere Verfahren notwendig. • Zahl der Bootstrapreplikationen: Wähle B so, dass das Quantil, siehe Abschnitt 4.9.1, für Fehler 1. Art exakt zu bestimmen ist: – Insgesamt gibt es B +1 Rangpositionen r für die Teststatistik τ̂ . Beispiel: B = 2, wobei die Ränge absteigend angeordnet werden (vgl. Davidson & MacKinnon Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 212 (2004), S. 164): r = 2 : τ̂ < min(τj∗ ), j r = 1 : min(τj∗) < τ̂ < max(τj∗), j j r = 0 : max(τj∗) < τ̂ j – Dividiert man die Rangposition r durch die Anzahl der Bootstrapreplikationen B erhält man den p-Wert für τ̂ , denn 0 = B0 ≤ Br ≤ B = 1. B – Damit lehnt der Bootstraptest unter H0 ab, wenn r/B < α, wobei α das gewählte Signifikanzniveau bezeichnet. Es gilt also r < Bα. – Es bezeichne ⌊x⌋ die größte ganzzahlige Zahl, die kleiner x ist. Dann lässt sich für gegebenes Bα die Anzahl an Rängen, für die H0 abgelehnt wird, ausdrücken als ⌊Bα⌋ + 1. Beispiel: B = 9 und α = 0.5. Damit wird für r = 0, 1, 2, 3, 4 die Nullhypothese abgelehnt. Es gibt ⌊Bα⌋ + 1 = ⌊4.5⌋ + 1 = 5 Rangpositionen mit Ablehnung. – Da es insgesamt B + 1 Rangpositionen gibt, muss ⌊Bα⌋ + 1 B+1 gleich α sein. Gegeben α bestimmt man B also aus α(B + 1) = ⌊αB⌋ + 1. Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 213 Für α = 0.05 ist beispielsweise für B = 99 sinnvoll. • Bootstraptest statt asymptotischem Test? Wenn – die Verteilung der Teststatistik asymptotisch pivot ist und – die Fehler des Modells i.i.d. sind (andernfalls müssen kompliziertere Bootstrapmethoden herangezogen werden, z.B. Block Bootstrap bei korrelierten Fehlern), dann konvergiert die Verteilung des Bootstraptests mit wachsendem Stichprobenumfang schneller gegen die (unbekannte) exakte Verteilung der Teststatistik als die asymptotische Verteilung, genauer gesagt mit n−1 anstatt mit n−1/2. Dies erklärt die weite Verbreitung von Bootstrap. • Achtung: Ist die Teststatistik nicht asymptotisch pivot, dann haben der Bootstraptest und der asymptotische Test die gleiche Konvergenzrate, Bootstrap bringt dann also nichts. • Bootstrapverfahren lassen sich auch unter bestimmten Bedingungen bei dy- Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010 214 namischen Regressionsmodellen anwenden. Dann wird für die j-te Stichprobe (yj∗, X∗j ) auch X∗j generiert. Zur Durchführung in einem einfachen Beispiel siehe Davidson & MacKinnon (2004, p. 160). • Weiterführende Literatur: z.B. Horowitz (2001), Horowitz (2003). Methoden der Ökonometrie — 4.9 Konfidenzintervalle und -ellipsoide — U Regensburg — 26.01.2010 215 4.9 Konfidenzintervalle und -ellipsoide 4.9.1 Konfidenzintervalle • Definition: Konfidenzintervall: – Ein Intervall, das auf Basis geschätzter Parameter mit Wahrscheinlichkeit 1−α den wahren Parameterwert θ0 enthält, heißt Konfidenzintervall. – Fasst man alle Nullhypothesen (bzgl. eines Parameters), H 0 : θ = θ H0 . die zu einem gegebenen Signifikanzniveau von α nicht abgelehnt werden, in einem Intervall zusammen, erhält man ein Konfidenzintervall mit Konfidenzniveau 1 − α. Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 216 – Formal: Gegeben eine nichtnegative Teststatistik τ (y, X, θH0 ) und ein Signifikanzniveau α enthält ein Konfidenzintervall alle θH0 , für die gilt o n KI = θH0 |PθH0 (τ (y, X, θH0 ) ≤ cα) = 1 − α , wobei PθH0 (·) bedeutet, dass die Wahrscheinlichkeit unter der jeweiligen Nullhypothese H0 berechnet wird und cα der kritische Wert zum Signifikanzniveau α ist. – Die Grenzen [θl , θu] des Konfidenzintervalls ergeben sich durch Lösung von τ (y, X, θ) = cα nach θ. • Die Länge und Grenzen von Konfidenzintervallen sind zufällig, da sie von der Stichprobe y, X abhängen. Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 217 • Exakte Konfidenzintervalle überdecken den wahren Parameter θ0 mit einer Überdeckungswahrscheinlichkeit (coverage probability) von 1 − α. • Ist für die gegebene Stichprobe τ (y, X, θ) nicht pivot, dann verwendet man eine asymptotisch pivote Teststatistik. • Bei approximativen Konfidenzintervallen stimmen die tatsächliche und die nominal (gewählte) Überdeckungswahrscheinlichkeit im allgemeinen nicht überein. Stehen mehrere Verfahren zur Berechnung von approximativen Konfidenzintervallen zur Verfügung, sollte man dasjenige wählen, für das der Unterschied zwischen tatsächlicher und nominaler Überdeckungswahrscheinlichkeit möglichst klein ist. • Wird anstelle eines Parameters ein Parametervektor betrachtet, erhält man mehrdimensionale Konfidenzellipsoide, siehe Abschnitt 4.9.2. Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 218 • Das α-Quantil qα einer Verteilung ist definiert durch F (qα ) = α. – Quantilsfunktion: qα = F −1(α) – Median: q0.5 – Quartile: qα mit α = 0.25, 0.5, 0.75 – Quintile: qα mit α = 0.2, 0.4, 0.6, 0.8 – Decile: qα mit α = 0.1, 0.2, . . . , 0.8, 0.9 – Percentile: qα mit α = 0.01, 0.02, . . . , 0.98, 0.99 • Asymptotisches Konfidenzintervall für βj im multiplen linearen Regressionsmodell auf Basis der χ2-Statistik !2 β̂j − βj,H0 τ (y, X, βj,H0 ) = sβ̂j mit wobei M−j = I−X−j den j-ten Regressor. sβ̂j = s(xTj M−j xj )−1, −1 T T X−j X−j X−j und X−j enthält alle Regressoren außer Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 219 – Die Grenzen des Konfidenzintervalls ergeben sich aus !2 β̂j − βj,H0 = cα = q1−α sβ̂j (wie oben durch Auflösen nach β̂j ) als 1/2 [β̂j − sβ̂j c1/2 α , β̂j + sβ̂j cα ]. – Für α =√0.05 ergibt sich für das (1 − α)-Quantil cα = q1−α der χ2-Verteilung 1/2 cα = 3.84 = 1.96 = z1−α/2, wobei zβ das β-Quantil der Standardnormalverteilung bezeichnet. – Dieses Intervall ist identisch mit dem Intervall, das man aus der t-Statistik erhält, wobei letztere asymptotisch standardnormalverteilt ist. – Asymmetrische Konfidenzintervalle sind z.B. auf Basis der t-Statistik möglich. Wann will man ein asymmetrisches Konfidenzintervall? Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 220 • Ein exaktes Konfidenzintervall für βj im normalen linearen Modell wird auf Basis der t-Statistik und t-Verteilung mit n − k Freiheitsgraden bestimmt: ! β̂j − βj,H0 ≤ t1−α/2(n − k) = 1 − α P tα/2(n − k) ≤ sβ̂j liefert bzw. [β̂j − sβ̂j t1−α/2(n − k), β̂j − sβ̂j tα/2(n − k)] [β̂j − sβ̂j t1−α/2(n − k), β̂j + sβ̂j t1−α/2(n − k)]. • Bootstrapkonfidenzintervalle – Berechnung der kritischen Werte durch Bootstrap. – Wichtig: Ein Bootstrapkonfidenzintervall kann im Vergleich zu einem asymptotischen Konfidenzintervall nur dann schneller gegen das exakte Konfidenzintervall konvergieren, wenn die damit assoziierte asymptotische Verteilung der Teststatistik pivot ist! Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010 221 – Es existieren verschiedene Methoden zum Durchführen des Bootstrap. Unterschiede ergeben sich hinsichtlich ∗ der Schätzmethode für die Parameter (β, σ0) des DGP, ∗ des Bootstrapverfahrens zum Ziehen der Fehler, ∗ der Wahl der t-Statistik oder der F -Statistik als Grundlage. – Wird die t-Statistik verwendet, ist die Boostrapverteilung häufig asymmetrisch und man muss die Grenzen des Konfidenzintervalls sorgfältig bestimmen, siehe Davidson & MacKinnon (2004, Section 5.3). – Konfidenzintervalle auf Basis der t-Statistik werden häufig als studentized bootstrap confidence interval oder als percentile-t oder bootstrap-t confidence interval bezeichnet. Methoden der Ökonometrie — 4.9.2 Konfidenzellipsoide — U Regensburg — 26.01.2010 222 4.9.2 Konfidenzellipsoide • Wenn (4.42) gilt und R = Ik gewählt wird, ergibt sich die Begrenzung des approximativen Konfidenzellipsoids aus τ (y, X, β 0) = kFn = cα = q1−α. • Gilt die Normalverteilung für die KQ-Schätzer exakt, dann lassen sich auch exakte Konfidenzellipsoide auf Basis der F -Statistik und dem dazugehörigen kritischen Wert aus der F -Verteilung mit q und n − k Freiheitsgraden bestimmen. • Es kann passieren, dass ein Parametervektor β in einem Konfidenzellipsoid liegt, aber nicht in den einzelnen Konfidenzintervallen für die einzelnen Elemente von β und umgekehrt (bitte graphisch verifizieren!). Ursache hierfür ist i.A. eine starke Kollinearität zwischen den einzelnen Parameterschätzern. Vgl. Diskussion in Ökonometrie I. • Es lassen sich wie im eindimensionalen Fall Konfidenzellipsoide mit Bootstrapverfahren berechnen. Zu lesen: Davidson & MacKinnon (2004), Kapitel 4 und 5. Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010 333 Literaturverzeichnis Anderson, J. E. & Wincoop, E. v. (2003), ‘Gravity with gravitas: A solution to the border puzzle’, The American Economic Review 93, 170–192. 16 Cameron, A. & Trivedi, P. (2005), Microeconometrics, Cambridge University Press. Casella, G. & Berger, R. L. (2002), Statistical Inference, Thomson. 80, 81, 111 Davidson, J. (1994), Stochastic Limit Theory, Oxford University Press. 113, 155 Davidson, J. (2000), Econometric Theory, Blackwell Publishers. 93, 109, 113, 170, 172, 180, 200, 285, 287, 291, 294, 298, 299, 303, 309, 315 Davidson, R. & MacKinnon, J. (1993), Estimation and Inference in Econometrics., Oxford University Press. Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010 334 URL: http://www.oup.com/uk/catalogue/?ci=9780195060119 Davidson, R. & MacKinnon, J. G. (2004), Econometric Theory and Methods, Oxford University Press, Oxford. 18, 26, 65, 67, 69, 71, 76, 82, 87, 92, 94, 136, 139, 155, 206, 211, 214, 221, 222, 257, 272, 285, 291, 313, 322, 325, 332 Fratianni, M. (2007), The gravity equation in international trade, Technical report, Dipartimento di Economia, Universita Politecnica delle Marche. 16, 17 Gentle, J. E. (2007), Matrix Algebra. Theory, Computations, and Applications in Statistics, Springer Texts in Statistics, Springer. URL: http://www.springerlink.com/content/x4rj03/ 38, 39, 40, 50, 82 Gourieroux, C. & Monfort, A. (1995), Statistics and Econometric Models, Vol. 2, Cambridge University Press. 308 Greene, W. (2008), Econometric Analysis, 6 edn, Pearson. URL: http://www.pearsonhighered.com/educator/academic/product/0,3110,0135132452,00.ht 67 Guggenberger, P. (2008), ‘The impact of a hausman pretest on the size of a hypo- Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010 335 thesis test: the panel data case’, pp. 1–24. 256 Hassler, U. (2007), Stochastische Integration und Zeitreihenmodellierung, Springer, Berlin, Heidelberg. Hendry, D. F. (1995), Dynamic Econometrics, Oxford University Press. 93, 154 Horowitz, J. (2001), The bootstrap, in J. Heckman & E. Leamer, eds, ‘Handbook of Econometrics’, Vol. 5, North-Holland. 214 Horowitz, J. (2003), ‘The boothstrap in econometrics’, Statistical Science 18, 211– 218. 214 Li, Q. & Racine, J. (2007), Nonparametric Econometrics, Princeton University Press. 49, 92 Peracchi, F. (2001), Econometrics, John Wiley and Sons. URL: http://www.wiley-vch.de/publish/dt/books/bySubjectEC00/ISBN0-47198764-6/?sID=he2l84vhvc6o6e4f1mc7i17k05 Ruud, P. (2000), An Introduction to Classical Econometric Theory, Oxford University Press. Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010 336 URL: http://www.oup.com/uk/catalogue/?ci=9780195111644 71 Schmidt, K. & Trenkler, G. (2006), Einführung in die Moderne Matrix-Algebra. Mit Anwendungen in der Statistik, Springer. 38, 187 Stock, J. H. & Watson, M. W. (2007), Introduction to Econometrics, Pearson, Boston, Mass. 10 Vaart, A. v. d. (1998), Asymptotic Statistics, Cambridge series in statistical and probabilistic mathematics, Cambridge University Press. 200 Wooldridge, J. M. (2002), Econometric Analysis of Cross Section and Panel Data, The Mitt Press. Wooldridge, J. M. (2009), Introductory Econometrics. A Modern Approach, 4th edn, Thomson South-Western, Mason. 18, 21, 23, 58, 67, 102, 103, 104, 105, 132