Folien für Methoden der¨Okonometrie (Master

Werbung
i
Folien für
Methoden der Ökonometrie
(Master, Diplom)
Rolf Tschernig & Harry Haupt
Universität Regensburg
Universität Bielefeld
—Stand: 26.01.2010—
ii
Inhaltsverzeichnis
1 Wiederholung und Motivation
1.1 Wiederholung aus Ökonometrie I . . . . . . . . . . . . . . . . . . .
1.2 Empirische Analyse von Handelsströmen . . . . . . . . . . . . . . .
1.2.1 Ziele dieses Kurses . . . . . . . . . . . . . . . . . . . . . .
9
10
12
27
2 Der
2.1
2.2
2.3
2.4
28
33
38
51
63
KQ-Schätzer und dessen geometrische Interpretation
Idee und Ableitung des KQ-Schätzers . . . . . . . . . . . . .
Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . .
Die Geometrie des KQ-Schätzers . . . . . . . . . . . . . . .
Anwendungen des Frisch-Waugh-Lovell Theorems . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
3 Statistische Eigenschaften des KQ-Schätzers
3.1 Datengenerierende Prozesse & ökonometr. Modelle
3.1.1 Verteilungs- und Dichtefunktionen . . . . .
3.1.2 Datengenerierende Prozesse . . . . . . . . .
3.1.3 Ökonometrische Modelle . . . . . . . . . .
3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers .
3.3 Asymptotik I: Konsistenz des KQ-Schätzers . . . .
3.3.1 Konvergenz von Folgen von Zufallsvektoren
3.3.2 Konsistenz des KQ-Schätzers . . . . . . . .
3.4 Die Kovarianzmatrix der Parameterschätzer . . . .
3.5 Die Effizienz unverzerrter KQ-Schätzer . . . . . . .
3.6 Schätzen der Fehlervarianz . . . . . . . . . . . . .
3.7 Fehlspezifizierte lineare Regressionsmodelle . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
72
75
76
85
90
100
106
107
114
116
125
129
133
4 Exakte und asymptotische Tests
4.1 Grundlagen von Tests . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . .
4.3 Exakte Verteilung des KQ-Schätzers . . . . . . . . . . . . . . . . .
137
137
140
148
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers . .
4.4.1 Zentrale Grenzwertsätze . . . . . . . . . .
4.4.2 Asymptotische Verteilung des KQ-Schätzers
4.5 Dynamische lineare Regressionsmodelle . . . . . . .
4.6 Exakte Tests . . . . . . . . . . . . . . . . . . . .
4.6.1 t-Tests: Testen einer einzelnen Restriktion .
4.6.2 F -Tests: Testen mehrerer Restriktionen . .
4.7 Asymptotische Tests . . . . . . . . . . . . . . . .
4.8 Monte-Carlo-Tests und Bootstraptests . . . . . . .
4.8.1 Monte-Carlo-Tests . . . . . . . . . . . . .
4.8.2 Bootstraptests . . . . . . . . . . . . . . .
4.9 Konfidenzintervalle und -ellipsoide . . . . . . . . .
4.9.1 Konfidenzintervalle . . . . . . . . . . . . .
4.9.2 Konfidenzellipsoide . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
152
152
159
166
176
176
182
197
204
205
207
215
215
222
5 Verallgemeinerter Kleinst-Quadrate Schätzer und seine Anwendungen223
5.1 Verallgemeinerter Kleinst-Quadrateschätzer . . . . . . . . . . . . . . 224
5.2 Feasible GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
v
5.3 Paneldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
6 Instrumentvariablenschätzung
258
6.1 Instrumentvariablenschätzer . . . . . . . . . . . . . . . . . . . . . 264
6.2 Der verallgemeinerte IV-Schätzer . . . . . . . . . . . . . . . . . . . 266
7 Maximum-Likelihood-Schätzung
7.1 Einführendes Beispiel . . . . . . . . . . . . . . . . . . . . . . .
7.2 Maximum-Likelihood-Schätzung im Falle stetiger Zufallsvariablen
7.3 ML-Schätzung des normalen linearen Regressionsmodells . . . . .
7.4 Asymptotische Verteilung . . . . . . . . . . . . . . . . . . . . .
7.4.1 Identifikation bei ML-Schätzung . . . . . . . . . . . . .
7.4.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . .
7.4.3 Asymptotische Normalverteilung . . . . . . . . . . . . .
7.5 Numerische Optimierung . . . . . . . . . . . . . . . . . . . . .
7.6 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . .
7.6.1 Likelihood-Quotienten-Test (LR test) . . . . . . . . . . .
7.6.2 Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
273
277
281
284
284
286
292
309
318
320
323
vi
7.6.3
Lagrange-Multiplikator-Test (LM) Test oder Score-Test . . . 326
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
Organisation
Kontakt
Prof. Dr. Rolf Tschernig
Gebäude RW(L), 5. Stock, Raum 514
Universitätsstr. 31, 93040 Regensburg
Tel. (+49) 941/943 2737, Fax (+49) 941/943 4917
Email: [email protected]
http://www.wiwi.uni-regensburg.de/tschernig/
1
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
2
Zeiten, Räume und Kursleiter
siehe Kurshomepage
http://www.wiwi.uni-regensburg.de/tschernig/lehre_methoden_frame.htm
Voraussetzungen
Ohne Vorkenntnisse in Ökonometrie ist die Teilnahme an Methoden der Ökonometrie
nicht zu empfehlen. Fehlende Vorkenntnisse können durch Teilnahme
• an der BA-Veranstaltung Ökonometrie I (auch im Wintersemester - erfordert je
nach Prüfungsordnung Zustimmung von mir) oder
• am Intensivkurs Ökonometrie (eine Woche vor Beginn des Wintersemesters)
erworben werden.
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
3
Umfang und ECTS:
• VWL/IVWL-Master:
– Der Kurs Methoden der Ökonometrie ist Bestandteil des Pflichtmoduls im
Master-Studiengang
– Umfang: 2h Vorlesung + 2h Übung, 6 ECTS
• Diplom-Studenten
– Der Kurs Methoden der Ökonometrie ist Bestandteil des Schwerpunktmoduls
Ökonometrie
– Umfang: 3h Vorlesung + 2h Übung, 10 ECTS, Beginn der zusätzlichen Veranstaltungen Mitte Dezember
• Master anderer Studiengänge:
– Umfang: 2h Vorlesung + 2h Übung, 6 ECTS
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
4
Notenzusammensetzung und Prüfung
siehe Kurshomepage
http://www.wiwi.uni-regensburg.de/tschernig/lehre_methoden_frame.htm
Klausurdauer: MA: 90 Minuten, Diplom: 120 Minuten
MA-Schwerpunktmodul: Empirische Wirtschaftsforschung
Fortgeschrittene Ökonometrie
Sommer
Quantitative Wirtschaftsforschung II Sommer
Applied Financial Econometrics
Sommer
Multivariate statistische Verfahren
Winter
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
5
Software
• graphische Benutzeroberfläche
– EViews (programmierbar, Einzellizenz über Lehrstuhl für ca. Euro 80, Ökonometrie
I - III (BA), Applied Financial Econometrics (MA))
– Gretl (programmierbar, freie Software: http://gretl.sourceforge.net/)
– JMulTi (freie Software: http://www.jmulti.de/)
• statistische Programmiersprachen mit fertigen Programmmodulen
– R (freie Software: http://www.r-project.org/, Programmieren mit R,
Methoden der Ökonometrie, Fortgeschrittene Ökonometrie (MA))
Beachte: Groß-/Kleinschreibung berücksichtigen.
– Gauss (einige Lizenzen vorhanden, Quantitative Wirtschaftsforschung II (MA))
– Ox (Batch-Version frei)
– Matlab (Dynamische Makro (MA))
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
6
• Computer-Algebra-Sprachen
– Maple (UR-Lizenz)
– Maxima (freie Software)
– Mathematica
Pflichtliteratur
Davidson, R. & MacKinnon, J.G. (2004). Econometric Theory and Methods. Oxford University Press (http://www.econ.queensu.ca/ETM/)
Ergänzende Literatur
z.B. Greene, W.H. (2008). Econometric Analysis, 6A, Prentice Hall
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
7
Vertiefende Literatur
(in alphabetischer Reihenfolge):
• Cameron, A.C. and Trivedi, P.K. (2005). Microeconometrics, Cambridge University Press. Methodik für mikroökonometrische Probleme,
http://cameron.econ.ucdavis.edu/mmabook/mma.html
• Davidson, R. & MacKinnon, J.G. (1993). Estimation and Inference in Econometrics. Oxford University Press. Viele Details zur Methodik für nichtlineare
Regressionsmodelle, http://www.econ.queensu.ca/pub/dm-book/
• Greene, W. (2008). Econometric Analysis. 6e, Prentice Hall. Umfassendes Nachschlagewerk mit moderater methodischer Tiefe,
http://pages.stern.nyu.edu/~wgreene/Text/econometricanalysis.htm
• Peracchi, F. (2001). Econometrics, John Wiley & Sons. Der statistische Ansatz
zur Regression mit methodischer Tiefe,
http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471987646,descCd-tab
Methoden der Ökonometrie — Organisatorisches — U Regensburg — 26.01.2010
8
• Ruud, P.A. (2000). An Introduction to Classical Econometric Theory. Oxford
University Press. Der geometrische Ansatz mit methodischer Tiefe,
http://elsa.berkeley.edu/~ruud/cet/
• Wooldridge, J.M. (2002). Econometric Analysis of Cross Section and Panel
Data. The MIT Press. Viel Intuition und methodische Tiefe,
http://mitpress.mit.edu/catalog/item/default.asp?ttype=2&tid=8632&mode=
Methoden der Ökonometrie — 1 Wiederholung und Motivation — U Regensburg — 26.01.2010
9
1 Wiederholung und Motivation
Siehe auch Kapitel 1 in Kursmaterial für Intensivkurs Ökonometrie/Ökonometrie I für
eine ausführlichere Darstellung.
Methoden der Ökonometrie — 1.1 Wiederholung aus Ökonometrie I — U Regensburg — 26.01.2010
10
1.1 Wiederholung aus Ökonometrie I
Ökonometrie
• bietet Lösungen an, mit unbeobachteten Faktoren in ökonomischen Modellen
umzugehen,
• bietet “both a numerical answer to the question and a measure how precise the
answer is (Stock & Watson 2007, p. 7)”,
• bietet, wie wir später sehen werden, Werkzeuge zur Widerlegung ökonomischer
Hypothesen an, indem mittels statistischer Methoden Theorien mit empirisch
erhobenen Daten konfrontiert werden, und bietet Werkzeuge zur Quantifizierung
der Wahrscheinlichkeiten an, mit denen solche Entscheidungen falsch sind,
• erlaubt, wie wir ebenfalls später sehen werden, die Quantifizierung der Risiken
von Vorhersagen, Entscheidungen und sogar ihrer eigenen Analyse.
Methoden der Ökonometrie — 1.1 Wiederholung aus Ökonometrie I — U Regensburg — 26.01.2010
11
Es existiert eine Vielzahl unterschiedlicher ökonometrischer Modelle und die Modellwahl hängt ab von der wissenschaftlichen Fragestellung, der zugrunde liegenden
ökonomischen Theorie, der Verfügbarkeit von Daten und der Problemstruktur.
Quantitative Antworten beinhalten immer Unsicherheit.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
12
1.2 Empirische Analyse von Handelsströmen
(Basiert z.T. auf Kursmaterial für Intensivkurs Ökonometrie, Kapitel 1 und folgende.)
Ziel/Wissenschaftliche Fragestellung: Ermittle die Faktoren, die die Importe
nach Deutschland beeinflussen, und quantifiziere ihren Einfluss.
Ein erster, grober Versuch:
Daten: Importe nach Deutschland aus 54 Herkunftsländern im Jahr 2004 (in laufenden
US-Dollars). (Eine Datenbeschreibung findet sich in Abschnitt 10.4 in Kursmaterial
für Intensivkurs Ökonometrie.)
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
Scatterplot (Streudiagramm)
7E+10
6E+10
TRADE_0_D_O
5E+10
4E+10
3E+10
2E+10
1E+10
0E+00
0
4,000
8,000
12,000
WEO_GDPCR_O
Export nach Deutschland TRADE .., GDP des Exportlandes: WEO GDP...
13
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
• Gibt es andere relevante Faktoren, die die
Importe bestimmen, z.B. die Entfernung?
7E+10
6E+10
• Ist es möglich, zukünftige Handelsströme zu
prognostizieren?
5E+10
TRADE_0_D_O
14
4E+10
3E+10
• Wie legen wir die Gerade durch die Punktewolke?
2E+10
1E+10
0E+00
0
4,000
8,000
12,000
WEO_GDPCR_O
• Einige Fragen:
• Was sieht man?
• Gibt es einen Zusammenhang?
• Wenn ja, wie ist dieser zu quantifizieren?
• Existiert eine Kausalbeziehung - Welche Variable bestimmt welche?
• Wie verändern sich die Importe aus den
USA, wenn sich das BIP der USA um 1%
verändert?
• Welche Eigenschaften hat die so angepasste
Gerade?
• Was macht man mit den anderen relevanten
Faktoren, die in der aktuellen Analyse vernachlässigt wurden?
• Welche Kriterien wählt man, um einen
möglichen Zusammenhang zu ermitteln?
• Ist der mögliche Zusammenhang tatsächlich
linear?
• Und: wie sehr dürfen die Ergebnisse für eine
andere Stichprobe abweichen, z.B. für 2003?
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
15
Schritte einer empirischen Analyse
1. Sorgfältige Formulierung der interessierenden Fragestellung/Aufgabe bzw. des
Problems.
2. Spezifizierung eines ökonomischen Modells.
3. Sorgfältige Auswahl einer Klasse ökonometrischer Modelle.
4. Sammeln von Daten.
5. Auswahl und Schätzung eines ökonometrischen Modells.
6. Prüfen, ob Modellspezifikation korrekt.
7. Anwenden des Modells, z.B. Interpretation oder/und Prognose.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
16
1. Ziel/Wissenschaftliche Fragestellung: Ermittle die Faktoren, die die Importe
nach Deutschland beeinflussen, und quantifiziere ihren Einfluss.
2. Ökonomisches Modell: Einfachste Form einer Gravitationsgleichung:
• Kurze Einführung zu Gravitationsgleichungen: z.B. in Fratianni (2007). Eine
theoretische Fundierung der Gravitationsgleichung findet sich in Anderson & Wincoop
(2003).
• Unter idealisierten Annahmen wie vollständige Spezialisierung der Produktion, identischen Konsumpräferenzen in den Ländern, keinen Transport- und
Handelskosten, werden Handelsströme zwischen Länderpaaren in Abhängigkeit
vom jeweiligen Einkommen der gepaarten Länder und ihrer Entfernung zueinander erklärt:
Mijt = A0Yitα1 Yjtα2 dαij3
(1.1)
Mijt : Export von Land i nach Land j in Periode t
Yit : Realeinkommen in Land i in Periode t
dij : Entfernung zwischen Land i und Land j (verschiedene Maße möglich)
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
17
Anmerkungen:
– Aus der ökonomischen Theorie der Gravitationsgleichungen, siehe Fratianni
(2007), ergeben sich die Hypothesen, dass α1, α2 > 0, α3 < 0 und in
einigen Fällen α1 = α2 = 1.
Diese Hypothesen lassen sich statistisch testen.
– Doppelindex ij kann in einen Index l umgewandelt werden (später).
– Zur Vereinfachung: zunächst Betrachtung nur einer Zeitperiode und einer
Richtung, nämlich der Exporte nach Deutschland im Jahr 2004. Eine so
vereinfachte Gravitationsgleichung lautet
Exportei = eβ1 Yiβ2 dβi 3 .
(1.2)
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
18
3. Ökonometrisches Modell:
• Theoretisches Modell (1.1) wird logarithmiert, um länderspezifische Merkmale
und einen stochastischen Fehlerterm erweitert
ln(Mijt) = β1 + β2 ln Yit + β3Yjt + β4 ln dij + Fijtβ 5 + uij ,
Fij : spezifische Merkmale für Exporte von i nach j.
(1.3)
• Notation: Im Unterschied zu Wooldridge (2009) beginnen Davidson & MacKinnon
(2004) den Index der Parameter bei 1 und zählen bis k. Der Kurs folgt
Davidson & MacKinnon (2004), auch in anderen Notationsfragen.
• Berücksichtigung verschiedener Perioden erfordert Paneldatenmodelle, siehe
Abschnitt 5.3.
• Beschränkung auf Exporte (1.2) nach Deutschland und Querschnittsdaten ergibt
ln(Exportei) = β1 +β2 ln(BIPi)+β3 ln(Entf ernungi)+Fiβ 5 +ui. (1.4)
4. Daten sammeln:
siehe Appendix 10.4 in Kursmaterial zu Intensivkurs Ökonometrie.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
19
5. Wahl und Schätzung eines ökonometrischen Modells:
• Welche (länderspezifischen) Variablen haben Einfluss auf die Importe?
• Modellwahl auf Basis des Schwarz-Kriteriums ergibt, dass die Variable Offenheit hinzugenommen werden sollte:
ln(Importei) = β0 + β1 ln(BIPi) + β2 ln(Entf ernungi)
+ β3 Of f enheiti + ui.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
====================================================================
Dependent Variable: LOG(TRADE_0_D_O)
Method: Least Squares
Sample: 1 50, Included observations: 49
====================================================================
Variable
Coefficient
Std. Error
t-Statistic
Prob.
====================================================================
C
2.741040
2.175184
1.260142
0.2141
LOG(WDI_GDPUSDCR_O) 0.940664
0.061341
15.33513
0.0000
LOG(CEPII_DIST)
-0.970318
0.152685
-6.355048
0.0000
EBRD_TFES_O
0.507250
0.191610
2.647300
0.0111
====================================================================
R-squared
0.899459
Mean dependent var
21.19016
Adjusted R-squared 0.892756
S.D. dependent var
2.666067
S.E. of regression 0.873087
Akaike info criterion
2.644544
Sum squared resid
34.30264
Schwarz criterion
2.798979
Log likelihood
-60.79134
Hannan-Quinn criter.
2.703136
F-statistic
134.1926
Durbin-Watson stat
1.802962
Prob(F-statistic) 0.000000
====================================================================
20
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
21
6. Modelldiagnose:
• Prüfen einer evtl. Verletzung der Annahme von homoskedastisch verteilten
Fehlern (MLR.5 Wooldridge (2009)). Plot der Residuen gegen die gefitteten
Werte.
• Prüfen einer möglichen Verletzung der Annahme normalverteilter Fehler (MLR.6
in Wooldridge (2009)) (Normalverteilte Fehler.) Plot eines Histogramm der
Residuen
1.6
1.2
12
Series: Residuals
Sample 1 50 IF ISO_O <> "GER"
Observations 49
0.8
10
RESID_MODELL3
0.4
0.0
8
-0.4
-0.8
6
-1.2
4
-1.6
-2.0
-2.4
16
2
18
20
22
24
26
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
-1.16e-15
0.100861
1.521959
-2.199881
0.845363
-0.613769
2.990075
Jarque-Bera
Probability
3.076685
0.214737
28
0
TRADE_0_D_F
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Interpretation? Histogramm: Schiefe (Skewness), Wölbung (Kurtosis), Lomnicki-
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
22
Jarque-Bera-Test, andere Tests?
Dazu mehr in Abschnitt 4.4 in Kursmaterial für Intensivkurs Ökonometrie.
7. Benutzen des Modells: Durchführen von Tests:
• Zweiseitiger Test
– Statistisches Hypothesenpaar:
H0 : Die BIP-Elastizität der Importe ist 1. versus H1 : Die Elastizität ist ungleich 1.
H0 : β1 = 1 versus H1 : β1 6= 1.
– t-Statistik aus der passenden Zeile des Outputs:
Variable
Coefficient
LOG(WDI_GDPUSDCR_O) 0.940664
t(X, y) =
Std. Error
0.061341
t-Statistic
15.33513
Prob.
0.0000
β̂1 − β10 0.940664 − 1
=
= −0.96731
σ̂β̂1
0.061341
– Wähle Signifikanzniveau, z.B. α = 0.05.
Berechnen der kritischen Werte: n − k = 49 − 4 = 45 Freiheitsgrade.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
23
Aus Table G.2 in Wooldridge (2009) lässt sich ein ungefährer kritischer
Wert ermitteln, einen präzisen kritischen Wert erhält man z.B. mit
∗ EViews: Man gibt vector(1) crit = @qtdist(1-alpha/2,n-k) in
das Kommandofenster ein (Dezimaltrennzeichen ist ”.”) oder
∗ Excel: Man wendet die Formel c =(TINV(alpha;n-k))=2.0141 an.
(Beachte, dass Excel stillschweigend bereits einen zweiseitigen Test annimmt.)
∗ R: qt(0.025,45) = -2.014103 bzw. qt(0.975,45) = 2.014103. Das
Paket stats ist normalerweise geladen. Falls nicht: Pakete -> Pakete
laden -> stats.
Hilfe zur Funktion ?qt.
– Da
−c <t(X, y) < c
−2.0141 < − 0.96731 < 2.0141
Nullhypothese nicht ablehnen.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
24
– p-values:
∗ EViews: scalar pval = 2*(1-@ctdist(@abs(t),n-k))= 0.3385.
∗ R: 2*pt(-abs(t),n-k)=2*pt(-abs(-0.96731),45) = 0.3385593.
∗ Demnach lässt sich H0 selbst auf dem 10% Signifikanzniveau nicht ablehnen.
∗ Der p-value besagt, dass man unter H0 in etwa 34 von 100 Stichproben
eine t-Statistik erhalten würde, deren Absolutbetrag mindestens 0.96731
beträgt.
• Einseitiger Test
– Man kann auch eine Hypothese bezüglich des Vorzeichens von β2 aufstellen,
z.B. dem Einfluss von Entfernung auf Importe. Da wir an Evidenz für β2 < 0
interessiert sind, packen wir dies in H1:
H0 : β2 ≥ 0 versus H1 : β2 < 0.
– Berechne die t-Statistik aus der passenden Zeile des Outputs
Variable
LOG(CEPII_DIST)
Coefficient
-0.970318
Std. Error
0.152685
t-Statistic
-6.355048
Prob.
0.0000
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
t(X, y) =
25
β̂2 − β20 −0.970318 − 0
= −6.3550.
=
σ̂β̂2
0.152685
– Wir wählen wieder α = 0.05 und berechnen den kritischen Wert
∗ EViews-Funktion: scalar crit = @qtdist(alpha,n-k)=-1.6794.
∗ R: qt(0.05,45) = -1.679427.
– Wegen
t(X, y) = −6.3550 < −1.6794 = c,
Ablehnen der Nullhypothese
∗ Somit hat beim gegebenen Signifikanzniveau die logarithmierte Entfernung statistisch signifikant negativen Einfluss auf die Importe.
∗ Interpretation: Steigt die Entfernung um 1%, dann fallen ceteris paribus
die erwarteten Importe nach Deutschland um ca. 1%.
∗ Wiederhole Interpretation von level-level-, level-log-, log-level-, log-logModellen, siehe Abschnitt 2.6 in Kursmaterial zu Intensivkurs Ökonometrie.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
26
– p-value:
∗ EViews: scalar pval = @ctdist(t,n-k)= 0.0000.
∗ R: pt(-6.3550,45) = 4.6321e-08.
∗ Die Entfernung hat also selbst auf dem 1% Signifikanzniveau negativen
Einfluss.
• Fragen:
– Sind diese Ergebnisse robust gegenüber anderen Modellspezifikationen?
– Sind sogenannte Ausreißer für die Ergebnisse verantwortlich?
zu lesen: Chapter 1 in Davidson & MacKinnon (2004), als Wiederholung: relevante
Kapitel in Kursmaterial zu Intensivkurs Ökonometrie.
Methoden der Ökonometrie — 1.2 Empirische Analyse von Handelsströmen — U Regensburg — 26.01.2010
27
1.2.1 Ziele dieses Kurses
Verbesserung der theoretischen Grundlagen von Ökonometrie, damit eine eigenständige
Anwendung auch bisher unbekannter ökonometrischer Modelle und Verfahren möglich
wird.
Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010
28
2 Der Kleinst-Quadrate-Schätzer und dessen geometrische
Interpretation
Motivation
• Das multiple lineare Regressionsmodell (der Stichprobe) (MLR) lautet
yt = Xtβ + ut,
t = 1, . . . , n,
wobei
Xt = xt1 · · · xtk ,
 
β
 1
β 
 2
β =  . .
.
 
βk
Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010
29
In Matrixschreibweise erhält man
y = Xβ + u,
wobei
 
y
 1
y 
 2
y =  . ,
.
 
yn

x x
 11 12
x x
 21 22
X= .
..
 .

. . . x1k
(2.1)


. . . x2k 

,
. . . .. 


xn1 xn2 . . . xnk
 
u
 1
u 
 2
u =  . .
.
 
un
Der Kleinst-Quadrate-Schätzer (KQ-Schätzer) (ordinary least squares
estimator (KQ-Schätzer) von β im multiplen linearen Regressionsmodell ist
gegeben durch
β̂ = (XT X)−1XT y.
(2.2)
Ableitung in Matrixnotation in Abschnitt 2.1.
Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010
30
• Eigenschaften des KQ-Schätzers für das einfache multiple Regressionsmodell
– Die statistischen Schätzeigenschaften sind abhängig von der Art der Datengenerierung, bzw. von der Eigenschaften der Grundgesamtheit. Sie können
niemals verifiziert werden, da die Datengenerierung unbeobachtbar ist. Ihre
Analyse erfordert die Methoden der Wahrscheinlichkeitstheorie
=⇒ Kapitel 3 und folgende.
– Die numerischen Eigenschaften gelten immer und sind unabhängig von der
Datengenerierung. Sie können mit algebraischen oder geometrischen Methoden untersucht werden und erfordern die Anwendung der Methoden linearer
Algebra
=⇒ dieses Kapitel.
Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010
31
Besonders wichtig:
das geometrische Verständnis der so genannten Projektionsmatrizen PX und
MX, die sich bei der Prognose der abhängigen Variable y und bei der Berechnung
der KQ-Residuen ergeben:
ŷ = Xβ̂ = X(XT X)−1XT y ≡ PXy,
(2.3)
û = y − ŷ = y − X(XT X)−1XT y = (In − X(XT X)−1XT )y ≡ MXy.
(2.4)
Diese Projektionsmatrizen haben besondere Eigenschaften und eine wichtige geometrische Interpretation.
Beispiel: Für Analyse der Wirkung von möglichen Ausreißern auf den KQ-Schätzer
(2.2)
β̂ = (XT X)−1XT y
im multiplen Regressionsmodell
y = Xβ + u
ist es hilfreich, die Eigenschaften der Projektionsmatrix PX zu verstehen.
Methoden der Ökonometrie — 2 Der KQ-Schätzer und dessen geometrische Interpretation — U Regensburg — 26.01.2010
32
Projektion in der Alltagssprache, in der Mathematik, in der Ökonometrie:
– Durch Lichteinwirkung wird von einem dreidimensionalen Gegenstand ein zweidimensionales Bild auf einer Wand erzeugt: Der dreidimensionale Gegenstand
wird auf eine Fläche, also einem zweidimensionalen Gegenstand projiziert.
– Bei der Projektion aus dem dreidimensionalen Raum in den zweidimensionalen
’Raum’ geht Information verloren.
– Je nach Standpunkt der Lichtquelle verändert sich die Projektion auf der Wand.
– In der Mathematik wird dieses Prinzip auf Projektionen aus Räumen beliebiger Dimensionen in Räume niedrigerer Dimension (so genannte Unterräume)
erweitert.
– Vorsicht: In der Mathematik ist das Konzept eines Raums in gewissem Sinn
viel allgemeiner gefasst. Siehe hierzu Abschnitt 2.2.
– In der Ökonometrie: n Stichprobenbeobachtungen legen Koordinaten für ndimensionalen Raum fest. Der Unterraum wird i.A. durch die Anzahl k ≤ n
der Regressorvariablen festgelegt. Siehe hierzu Abschnitt 2.3.
Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010
33
2.1 Idee und Ableitung des KQ-Schätzers
• Gegeben ist das multiple lineare Regressionsmodell (2.1)
y = Xβ + u.
• Idee des Kleinst-Quadrate-Schätzers:
Minimiere die Summe der Quadrate der Residuen (Sum of Squared Residuals (SSR)), also die Zielfunktion
S(β) =
n
X
u2t =
t=1
n
X
t=1
(yt − Xtβ)2 .
(2.5)
• Eine mögliche Alternative zur KQ-Zielfunktion (2.5):
Minimierung der Summe der Absolutbeträge
SM (β) =
n
X
t=1
|ut| =
n
X
t=1
|yt − Xtβ|
liefert Schätzung des Medians, also des 50%-Quantils.
(2.6)
Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010
• Residuenquadratsumme in Matrixschreibweise:
S(β) =
n
X
u2t
t=1
T
=u u
= (y − Xβ)T (y − Xβ)
= yT y − 2yT Xβ + β T XT Xβ.
Minimieren: Ableiten nach β, Nullsetzen, ...
34
Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010
35
• Rechenregeln zum Ableiten von Matrixfunktionen:
–
 
 
w
v
 1
 1
w 
v 
 2
 2
v =  . , w =  . .
 . 
.
 
 
vJ
wJ
PJ
T
T
Es sei z = v w = w v = i=1 viwi. Dann gilt ∂z/∂wi = vi. Definiert man
die Sammlung aller partiellen Ableitungen in einem Vektor
 
∂z
 ∂w1 
 ∂z 
 ∂w2 
∂z
=  . ,
∂w  . 
 
∂z
∂wJ
ergibt sich
∂z
= v.
∂w
Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010
– Ähnlich lässt sich zeigen für z = Aw mit

a a · · · a1T
 11 12
 a a ··· a
2T
 21 22
z=
 ................

aJ1 aJ2 · · · aJT
∂z
=A
∂wT







w1
w2
..
wT







und für v = wT Aw mit

a a · · · a1T
 11 12
 a a ··· a
2T
 21 22
v = w1 w2 · · · wT 
 .................

aT 1 aT 2 · · · aT T
∂v
T
= A + A w.
∂w







w1
w2
..
wT







36
Methoden der Ökonometrie — 2.1 Idee und Ableitung des KQ-Schätzers — U Regensburg — 26.01.2010
37
• Ableitung des KQ-Schätzers in Matrixalgebra
– Aus dem Vektor der partiellen Ableitungen erster Ordnung
∂S(β)
= −2XT y + 2XT Xβ,
∂β
erhält man durch Nullsetzen die Bedingungen erster Ordnung (firstorder conditions (foc))
XT Xβ̂ = XT y.
(2.7)
Diese werden auch als die Normalgleichungen bezeichnet (vgl. Kursmaterial
zu Intensivkurs Ökonometrie, Ökonometrie I, Abschnitt 3.3).
– Ist XT X invertierbar — dies erfordert rk(X) = k —, ergibt sich der KQSchätzer als
β̂ = (XT X)−1XT y
(2.8)
– β̂ ist ein eindeutiges Minimum der Zielfunktion S(β), wenn für den Rang
rk(X) der Matrix X gilt: rk(X) = k. (Der Rang einer Matrix wird im folgenden
Abschnitt 2.2 definiert.)
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
38
2.2 Vektorräume
• Eine detaillierte Einführung in Vektorräume bietet Gentle (2007, Chapter 2)
(Volltext-Zugriff im Bereich der UR). Eine (deutschsprachige) Einführung in die
Rechenregeln der Matrix-Algebra mit vielen Beispielen bietet Schmidt & Trenkler
(2006) (Volltext-Zugriff im Bereich der UR).
• Eine Kollektion von Objekten mit bestimmten Eigenschaften (Operationen) wird
als Raum bezeichnet.
• Eine Menge V von (n × 1)-Vektoren, für die die üblichen algebraischen Eigenschaften (Kommutativität, . . .) gelten sowie gilt, dass jede Linearkombination
der Vektoren wieder in V enthalten ist, wird als Vektorraum bezeichnet (Gentle
2007, Section 2.1.2). Siehe auch den Appendix zu diesem Abschnitt.
Operationen einer Linearkombination: Addition, Multiplikation mit Skalaren
a, b skalar, x, y ∈ V :
ax + by ∈ V.
Deshalb ist ein Vektorraum ein linearer Raum. Eine noch detaillierte Definition
findet sich im Appendix zu diesem Abschnitt.
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
39
Beispiel: Vektorraum aller reellwertigen (n × 1)-Vektoren x ∈ Rn.
• Eine weitere Operation, die sich für zwei (reellwertige) (n × 1)-Vektoren x, y
definieren lässt, ist deren Multiplikation. Es gibt zwei Möglichkeiten:
1. Erste Möglichkeit: das innere Produkt (inner product) oder Skalarprodukt (scalar product, dot product)
n
X
< x, y >≡
xiyi = xT y = yT x,
(2.9)
i=1
das als Ergebnis einen Skalar, also einen (1 × 1)-Vektor liefert.
2. Zweite Möglichkeit: das outer product oder
xyT
(2.10)
das eine (n × n)-Matrix liefert.
Beachte: Das Skalarprodukt ist ein spezieller Typ eines inneren Produkts. Innere
Produkte können beispielsweise auch für Funktionen definiert sein. Allgemein gilt,
dass ein inneres Produkt < ·, · > als Ergebnis immer eine reelle oder komplexe
Größe liefert (Gentle 2007, Sections 2.1.4, 3.2.6).
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
40
• Eine Norm erlaubt, allgemein formuliert, die quantitative Bewertung einzelner
Elemente einer Menge und ihrer Beziehungen zueinander.
– Jede Bewertungsregel, die als Norm bezeichnet werden kann, erfüllt drei Anforderungen.
– Eine Norm für einen Vektorraum ||·|| : V → [0, ∞) ordnet jedem Element
x des Vektorraums eine nichtnegative reelle Zahl ||x|| zu und genügt folgenden
Eigenschaften (Gentle 2007, Section 2.1.5):
1. Wenn x 6= 0, dann gilt ||x|| > 0 und wenn ||x|| = 0 ⇔ x = 0.
2. ||αx|| = |α| ||x||.
3. ||x + y|| ≤ ||x|| + ||y|| (Dreiecksungleichung).
– Ein Vektorraum, dessen Vektoren mit einer Norm bewertet/gemessen werden
können, ist ein normierter Vektorraum.
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
41
– Beispiele von Vektornormen:
∗ Euklidische Norm oder L2-Norm:
v
u n
√
uX
√
2
T
t
||x||2 =
xi = x x = < x, x >.
i=1
Die Euklidische Norm misst die Länge eines n-dimensionalen Vektors:
!1/2
n
X
T
1/2
||x||2 ≡ (x x) =
x2i
.
i=1
∗ Tschebyscheff-Norm oder L∞-Norm: ||x||∞ = maxi∈n |xi|.
Z.B. relevant beim Beladen von Fahrzeugen, wenn keine Kante eines zu
transportierenden Gegenstandes eine maximale Länge überschreiten darf.
∗ Lp-Norm:
||x||p =
n
X
i=1
|xi|p
!1/p
,
enthält beide bereits genannten Fälle als Spezialfälle.
Beispiel: Minimierung von (2.6) entspricht Minimierung von L1-Norm ||u||1.
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
42
Für uns im Weiteren relevant:
– Euklidischer Raum E n: ein normierter Vektorraum ausgestattet mit der
Euklidischen Norm ||x||2.
– Die Euklidische Norm wird im Weiteren mit ||x|| abgekürzt.
Euklidischer Raum
Geometrie von Vektoren im zweidimensionalen Euklidischen Vektorraum
• (geometrische) Addition von Vektoren mit Hilfe von Parallelogramm.
• Skalarmultiplikation = Multiplikation mit einem Skalar a:
ax ist Vektor parallel zu x, aber möglicherweise mit entgegengesetzter Richtung.
• Das Skalarprodukt bzw. innere Produkt zweier Vektoren lässt sich geometrisch durch die Längen der beiden Vektoren und dem Kosinus des Winkels θ
zwischen beiden darstellen (ohne Beweis für E n, Beweis für E 2 in der Übung):
< x, y >= xT y = ||x|| ||y|| cos θ.
(2.11)
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
Zwei Spezialfälle im E 2: Gegeben seien die Vektoren:
w= 1 0 ,
z = cos θ sin θ ,
x = αw,
y = γz.
α, γ > 0,
Dann ergeben sich
||w|| = 1,
2
2
1/2
= 1,
||z|| = cos θ + sin θ
< w, z > = w1z1 + w2z2 = cos θ
und
||x|| = |α|||w|| = α,
||y|| = |γ|||z|| = γ,
< x, y > =< αw, γz >= αw1γz1 + αw2γz2 = αγ < w, z >
= ||x|| ||y|| cos θ.
43
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
44
• Satz von Pythagoras:
In einem rechtwinkligen Dreieck ist das Quadrat der Hypothenuse (längste Seite)
gleich der Summe der Quadrate der beiden anderen Seiten (Katheten).
Angewandt auf einen Vektor x ∈ E 2 ergibt sich
q
√
x21 + x22 = xT x = ||x|| (= ||x||2),
indem die beiden Elemente x1 und x2 des Vektors x als Kartesische Koordinaten
in der Ebene aufgefasst werden. Deshalb misst die L2-Norm die Länge eines
Vektors.
• Wichtig: Stehen zwei Vektoren orthogonal aufeinander (senkrecht aufeinander), dann und nur dann ist deren inneres Produkt Null, da cos 90o = 0 =⇒
Wenn < x, y >= xT y = 0, sind die Vektoren x und y orthogonal
zueinander .
• Aus (2.11) und −1 ≤ cos θ ≤ 1 folgt die Cauchy-Schwartz Ungleichung
|xT y| ≤ ||x|| ||y|| bzw.
Alle Ergebnisse gelten für E n analog!
< x, y >2 ≤ < x, x > < y, y > .
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
45
• Basisvektoren im E n: n verschiedene (n × 1)-Vektoren sind Basisvektoren,
wenn kein Basisvektor einer beliebigen Linearkombination der anderen (n − 1)
Basisvektoren entspricht.
• Jedes Element im Euklidischen Raum E n kann als Linearkombination von n
Basisvektoren dargestellt werden.
• Man sagt dann: Die n Basisvektoren spannen E n auf, d.h. bilden einen
Euklidischen Raum E n. Bezeichnet man die n Basisvektoren mit xi, dann ist die
Menge aller Vektoren in E n gegeben durch
(
)
n
X
n
z ∈ E z =
bixi, bi ∈ R .
i=1
Euklidische Unterräume
• Reduziert man die Zahl der Basisvektoren auf k < n, kann nur noch eine Teilmenge der Vektoren in E n dargestellt werden. Eine solche Teilmenge bildet einen
Euklidischen Unterraum.
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
46
• Den Unterraum, der von k Basisvektoren {x1, x2, . . . , xk } aufgespannt wird, bezeichnen wir mit δ(x1, x2, . . . , xk ), bzw. δ(X), falls alle Basisvektoren in der
Matrix X = (x1, x2, . . . , xk ) zusammengefasst werden.
Die Menge der im Unterraum enthaltenen Vektoren z lässt sich beschreiben als
(
)
k
X
n
bixi, bi ∈ R .
(2.12)
δ(X) = δ(x1, x2, . . . , xk ) ≡ z ∈ E z =
i=1
• Man sagt, dass der Unterraum δ(X) dem Spaltenraum der Matrix X entspricht.
• Das orthogonale Komplement zu dem Unterraum δ(X) ist ein weiterer Unterraum in E n, für den gilt:
⊥
⊥
n
T
δ (x1, x2, . . . , xk ) = δ (X) ≡ w ∈ E < w, z >= w z = 0 für alle z ∈ δ(X) .
(2.13)
Frage: Sei dim δ(X) = k die Dimension von δ(X). Wie groß ist dann dim δ ⊥(X)?
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
47
• Lineare Unabhängigkeit: k Vektoren xi (mit positiver Länge) sind linear unabhängig, falls es keine k − 1 Skalare ci gibt, so dass gilt:
xj =
k
X
i=1
i6=j
cixi,
1 ≤ j ≤ k.
Beispiel: Seien die Spalten der n × k Matrix X linear unabhängig. Dann existiert
kein γ mit positiver Länge, so dass
Xγ = 0.
• Der Rang (rank) rk(X) einer (m × n)-Matrix A gibt die maximale Zahl an
Vektoren (entweder Zeilen- oder Spaltenvektoren) an, die linear unabhängig sind.
– Eine (m × n)-Matrix A hat vollen Rang (full rank), wenn der Rang der
Matrix gleich der kleineren Dimension ist, also
(
m, falls m ≤ n und alle m Zeilen linear unabhängig sind,
rk(A) =
n,
falls m ≥ n und alle n Spalten linear unabhängig sind.
– Eine Matrix, die nicht vollen Rang hat, weist ein Rangdefizit auf.
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
48
– Eine quadratische Matrix
∗ mit Rangdefizit ist singulär und nicht invertierbar,
∗ mit vollem Rang wird als regulär bzw. als nichtsingulär bezeichnet und
ist invertierbar.
– Der Rang ist kleiner als die Spaltenzahl k von X, falls Spalten von X linear
abhängig sind. Dann
∗ lässt sich eine Matrix X′ bilden, die aus k ′ linear unabhängigen Spalten von
X besteht, so dass rk(X) = k ′ < k und
∗ δ(X) = δ(X′) gilt,
∗ weist auch XT X ein Rangdefizit auf, da rk(X) = rk(XT X) = k ′, und ist
singulär. (Vgl. MLR.3 in Ökonometrie I).
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
49
Appendix zu Vektorräumen
• Linearer Vektorraum: Eine Menge V wird Vektorraum genannt, wenn hinsichtlich Addition (V × V → V) und Multiplikation (R × V → V) folgende
Bedingungen gelten (siehe z.B. Li & Racine (2007, Definition A.20)):
– Kommutativität der Addition
x+y =y+x
– Assoziativität der Addition
(x + y) + z = x + (y + z)
– Es existiert ein (eindeutiger) Vektor θ (Nullvektor), so dass für alle x ∈ V
θ+x=x
– Distributivität (für alle α, β ∈ R und alle x, y ∈ V)
α(x + y) = αx + αy,
(α + β)x = αx + βx
Methoden der Ökonometrie — 2.2 Vektorräume — U Regensburg — 26.01.2010
50
– Assoziativität der Multiplikation (für alle α, β ∈ R, x ∈ V)
α(βx) = (αβ)x
– 0 · x = θ,
1 · x = x.
• Ein normierter Vektorraum ist auch ein metrischer Raum (= Menge mit Metrik
ausgestattet), da die Norm die Bedingungen einer Metrik oder Abstandsfunktion
d : ID × ID → [0, ∞) erfüllt. Für zwei Objekte x und y in ID gilt (Gentle 2007,
Section 2.1.7):
1. d(y, x) > 0, wenn x 6= y und d(y, x) = 0, falls x = y,
2. d(x, y) = d(y, x),
3. d(x, z) ≤ d(x, y) + d(y, z).
Die Norm ||x−y|| erfüllt alle Definitionen
einer Metrik. Im Fall des euklidischen
pPn
2
Raums ist die Norm ||x||2 =
i=1 xi .
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
51
2.3 Die Geometrie des KQ-Schätzers
• Zur Erinnerung: Xa =
angibt.
Pk
i=1 xi ai
∈ δ(X), wobei xi die i-te Spalte von X
• Für die i-te Zeile der Normalgleichungen (2.7)
XT Xβ̂ = XT y
gilt
xTi Xβ̂ = xTi y bzw. xTi (y − Xβ̂) = 0 bzw. xTi û =< xi, û >= 0.
Für den Vektor der KQ-Residuen gilt also:
– û ∈ δ ⊥(X),
d.h. der er steht senkrecht auf den erklärten/ prognostizierten Werten Xβ̂ ∈ δ(X).
– er entspricht dem Lot von y auf Xβ durch Minimierung der Euklidischen
Norm von u(β) = y − Xβ bezüglich β, also durch
min ||u(β)||.
β
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
52
– Beachte: Die Minimierung einer anderen Norm würde zu einem anderen
Schätzer führen und der Residuenvektor nicht mehr senkrecht auf X stehen!
• Enthält die Regression eine Konstante, d.h. entspricht x1 einem Vektor mit
Einsen, gilt
β̂1 = ȳ − β̂2x̄2 − · · · − β̂k xk .
(2.14)
Interpretation:
– Die Regressionsgerade (im Falle von k > 2 Regressoren präziser: Regressionshyperebene) verläuft durch den Schwerpunkt, d.h. durch ȳ und die Mittelwerte der Regressoren.
Pn
– t=1 ût = ιT û = 0, d.h. die Abweichungen von der Regressionsgerade heben
sich im Mittel auf.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
Beweis: Es bezeichne
T
ι ≡ 1 1 ··· 1
53
(2.15)
einen (n × 1)-Vektor mit Einsen. Dann lässt sich die Regression (2.1) schreiben
als
!
β1
y = ιβ1 + X2β 2 + u, X = ι X2 ,
,
β2
wobei β1 ein Skalar, X2 eine (n × (k − 1))-Matrix und β 2 ein (k − 1) × 1-Vektor
ist. Die Normalgleichungen (2.7) lassen sich dann schreiben als
!
!
!
T
T
T
ι y
ι ι ι X2
β̂1
(2.16)
=
T
T
T
X2 ι X2 X2
β̂ 2
X2 y.
Die erste Zeile des Gleichungssystems lautet
ιT ιβ̂1 + ιT X2β̂ 2 = ιT y bzw. nβ̂1 + n
k
X
i=2
und Division durch n und Umstellung liefert (2.14).
x̄iβ̂i =
n
X
t=1
yt.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
54
Projektionen und orthogonale Projektionen
• Eine Projektion ist ein Mapping von einem n-dimensionalen Raum in einen
(invarianten) Unterraum (invariant, da die Punkte in dem Unterraum selbst sich
durch das Mapping nicht verändern).
• Eine orthogonale Projektion ist ein Mapping, bei dem die Abstände zwischen
den Punkten in E n und den Projektionen im Unterraum minimiert werden. Also:
Die Vektoren, die die Punkte in E n und dem orthogonalen Unterraum verbinden,
stehen senkrecht auf dem Unterraum.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
• Die KQ-Schätzung entspricht orthogonalen Projektionen
– von y ∈ E n in ŷ ∈ δ(X),
– von y ∈ E n in û ∈ δ ⊥(X),
die resultieren, wenn man y von links mit den Projektionsmatrizen
−1 T
T
PX ≡ X X X
X ,
MX ≡ I − PX
55
(2.17)
(2.18)
multipliziert:
ŷ = PXy,
û = MXy.
– Die Projektionsmatrizen PX und MX sind idempotent, d.h. ergeben mit
sich selbst multipliziert wieder die Ausgangsmatrix:
PX · . . . · PX · PX = PX bzw. MX · . . . · MX · MX = MX.
Geometrische Interpretation: die erste Projektion (i.e. einmalige Vormultiplikation mit PX bzw. MX) liefert einen Vektor im invarianten Unterraum,
den eine weitere Projektion nicht mehr verändern kann.
– Die Projektionsmatrizen PX und MX sind symmetrisch, d.h. PTX = PX
und MTX = MX.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
56
– Die Projektionsmatrizen PX und MX sind komplementäre Projektionen,
da ihre Summe den Ausgangsvektor ergibt:
MX = I − PX.
(2.19)
PXMX = PX (I − PX) = PX − PX = O
(2.20)
PX y + MXy = y
⇔
Falls also zwei Projektionen komplementär sind, dann gilt
und für beliebige z ∈ δ(X) und w ∈ δ ⊥(X), dass z = PXz und w = MXw
und
zT w = zT PTXMXw = 0
⇐⇒ < z, w > = < PXz, MXw > = 0.
D.h. die beiden Projektionen löschen sich gegenseitig aus. Geometrische Interpretation?
– Also: Falls zwei Projektionen komplementär und die beiden Projektionsmatrizen PX und MX symmetrisch sind, so definieren sie eine orthogonale
Zerlegung von E n, denn die beiden Vektoren PXy und MXy liegen in zwei
orthogonalen Unterräumen.
– MX eliminiert alle Vektoren in δ(X) auf den Ursprung und entsprechend eliminiert PX alle Vektoren in δ ⊥(X).
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
57
Geometrische Interpretation: Möchte man einen Vektor in δ(X) auf δ ⊥(X)
projizieren, so muss das Lot in den Unterraum δ ⊥(X) gebildet werden. Das
führt genau auf den Ursprung.
– Zerlegung der Total Sum of Squares
||y||2 = ||PXy + MXy||2 = < y, y > = < PXy + MXy, PXy + MXy >
= yT PTXPX y + yT PTXMXy + yT MTXPXy + yT MTXMXy.
Man erhält
||y||2 = yT PXy + yT MXy
= ||PXy||2 + ||MXy||2,
||y||2 = ||Xβ̂||2 + ||û||2
T SS = ESS + SSR
aber: ||PXy||2 ≤ ||y||2 sowie
||y||2 ≤ ||Xβ||2 + ||u||2.
(2.21)
Der Zusammenhang (2.21) entspricht dem Satz von Pythagoras und liefert
die Zerlegung der Total Sum of Squares (TSS).
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
58
Beachte:
T SS ≡ ||y||2 6=
ESS ≡ ||ŷ||2 6=
SSR ≡ ||û||2.
n
X
t=1
n
X
t=1
(yt − ȳ)2 ≡ SST,
(2.22)
(ŷt − ȳ)2 ≡ SSE,
(2.23)
(2.24)
SST, SSE wurden in Wooldridge (2009, Section 2.3) oder Kursmaterial zu Intensivkurs Ökonometrie, Ökonometrie I definiert.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
59
• Gefittete Werte und Residuen sind unabhängig von Skalierung der Regressoren und unabhängigen Linearkombinationen der Regressoren mittels
einer nicht singulären (k × k) Matrix A, denn δ(X) = δ(XA), da
−1
T
(XA)T
PXA = XA (XA) XA
−1 T T
T T
= XA A X XA
A X
= XAA−1 (XT X)−1(AT )−1AT XT
= X(XT X)−1XT
= PX
und entsprechend für MXA, d.h.
y = PXy + MXy
y = PXAy + MXAy.
• Notation: PX,W projiziert in den invarianten Unterraum δ(X, W).
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
60
Partitionierte Regression und Frisch-Waugh-Lovell Theorem
• Ausgangspunkt ist wieder das multiple lineare Regressionsmodell (2.1)
y = Xβ + u.
• Ist man insbesondere an βk interessiert, lässt sich (2.1) wie folgt schreiben:
!
β
1
+ u,
(2.25)
y = X1β 1 + xk βk + u = X1 xk
βk
wobei
– X1 eine (n × (k − 1))-Matrix und xk ein (n × 1)-Vektor ist,
– β 1 ein ((k − 1) × 1)-Vektor und βk ein Skalar ist.
Ökonometrie I (Abschnitt 3.4.1): Schätzer von βk mittels
y = xk βk + ε
ist verzerrt, außer die empirische Korrelation zwischen xk und allen anderen
Regressoren x1, . . . , xk−1 ist Null, d.h. für die Regression
xk = X1δ + η
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
61
erhält man
δ̂ =
−1 T
T
X1 xk
X1 X1
=0
⇔
⇔
XT1 xk = 0
xT1 xk = xT2 xk = · · · = xTk−1xk = 0 (2.26)
und damit auch R2 = 0.
Geometrische Interpretation von (2.26): xk steht orthogonal auf x1, . . . , xk−1.
• Was tun, wenn (2.26) nicht gilt? Orthogonalisieren!
Gleich Betrachtung des allgemeinen Falls: Das Regressionsmodell lautet dann
y = X1β 1 + X2β 2 + u
(2.27)
mit Partitionierung der Regressormatrix
X = X1 X2
in die (n × k1) Matrix X1 und die (n × k2) Matrix X2 (k = k1 + k2).
• Wie Orthogonalisieren? Verwendung von orthogonalen Projektionen.
Orthogonalisieren durch
Z = MX1 X2.
Methoden der Ökonometrie — 2.3 Die Geometrie des KQ-Schätzers — U Regensburg — 26.01.2010
62
Test mit MX1 ≡ M1:
XT1 Z = XT1 (M1X2) = XT1 (I − P1)X2 = XT1 X2 − XT1 X2 = 0.
• Zur Schätzung von β 2 kann man also
– eine OLS-Regression für y = X1β 1 + X2β 2 + u oder
– eine OLS-Regression für y = M1X2β 2 + v
durchführen!
Mögliches Problem: Die Residuenvektoren sind nicht gleich (verifizieren!).
Ausweg: Multiplikation aller Variablen mit M1. Man erhält
M1y = M1X1β 1 + M1X2β 2 + M1u,
M1y = M1X2β 2 + ε.
(2.28)
(2.29)
• Frisch-Waugh-Lovell Theorem:
1. Der OLS-Schätzer für β 2 für die Regressionsmodelle (2.27) und (2.28) sind
numerisch identisch.
2. Die Residuen der Regressionen für (2.27) und (2.28) sind numerisch identisch.
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 63
2.4 Anwendungen des Frisch-Waugh-Lovell Theorems
• Bereinigung von nicht interessierenden Regressoren
Beispiele:
– Konstante: Sei o.B.d.A. x1 = ι = (1, 1, ..., 1)T und damit
1
Mι ≡ In − ιιT .
n
Mι heißt zentrierende Matrix, da



 

1 0 ··· 0
1 1 ··· 1
1 − n1
− n1



 

 
0 1
 11 1

1
1−n



 

=
− .
Mι =  .


.
.
.
.
.

..  
..
..  n  .

 



0
1
1
1
− n1
1 − n1
Vormultiplikation eines Vektors mit Mι berechnet die Abweichungen vom
Mittelwert des Vektors. Der Vektor der Steigungsparameter β 2 lässt mit
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 64
dem Frisch-Waugh-Lovell-Theorem schätzen:
Mιy = MιX2β 2 + Mιu,
−1 T
T
X2 Mιy.
β̂ 2 = X2 MιX2
– Saisondummies: Fasst man Saisondummies und Konstante, sofern vorhanden, in der Matrix S zusammen, kann man
y = Sα + Xβ + u
oder
MSy = MSXβ + MSu
schätzen, wobei MS = I − S(ST S)−1ST . (Einfachster Fall: der bereits besprochene Fall der Zentrierung von Regressoren)
– Zeittrend
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 65
• Darstellung des Bestimmtheitsmaßes (Coefficient of Determination)
– Beachte Definitionen von SSE, SST, T SS, ESS in (2.22) und (2.23).
– Unzentriertes R2 :
Ru2
ESS ||ŷ||2 ||PXy||2
2
≡
=
=
=
cos
θ
T SS ||y||2
||y||2
⇒
0 ≤ Ru2 ≤ 1.
(2.30)
Basis: Dividiere (2.21) ||y||2 = ||ŷ||2 + ||û||2 durch ||y||2. Daraus folgt, dass
0 ≤ Ru2 ≤ 1. Das letzte Gleichheitszeichen in (2.30) folgt aus der Definition
des Kosinus: cos θ = Ankathete/Hypotenuse = ||PXy||/||y||.
Aus (2.21) folgt auch
Ru2
SSR
||û||2
||MXy||2
=1−
=1−
.
=1−
T SS
||y||2
||y||2
(2.31)
Nachteil von Ru2 : Ist eine Konstante im Regressionsmodell und sind die Daten
nicht zentriert, hängt Ru2 von der Größe der Konstante ab (Davidson & MacKinnon
2004, Section 2.5).
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 66
– Zentriertes R2:
Wird vom Bestimmtheitsmaß gesprochen, wird darunter im Allgemeinen das
zentrierte R2 verstanden.
In der Literatur gebräuchliche Definitionen:
||PXMıy||2
R =
||Mıy||2
2
R2
R2
R2
R2
0 ≤ R2 ≤ 1 (wegen (2.19) mit Mıy).
2
Pn
¯
2
t=1 ŷt − ŷ (yt − ȳ)
[
= Corr (ŷ, y) = P
2 Pn
n
2
¯
t=1 ŷt − ŷ
t=1 (yt − ȳ)
2
T
ŷ Mıy
2
= T
⇒
0
≤
R
≤ 1.
T
(ŷ Mıŷ) (y Mıy)
Pn
2
SSE
(ŷ
−
ȳ)
t
=
= Pt=1
n
2.
SST
t=1 (yt − ȳ)
||Mıŷ||2 ||MıPXy||2
=
=
.
2
2
||Mıy||
||Mıy||
SSR
||û||2
||MXy||2
=1−
=1−
=1−
.
2
2
SST
||Mıy||
||Mıy||
⇒
(2.32)
(2.33)
(2.34)
(2.35)
(2.36)
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 67
Anmerkungen:
∗ Alle Definitionen sind identisch, falls Konstante im Modell.
∗ Warnung: Wenn keine Konstante im Modell enthalten, garantieren nicht
alle Definitionen, dass R2 ∈ [0, 1], siehe folgende Tabelle. Software liefert
je nach verwendeter Definition unterschiedliche Ergebnisse.
∗ Eigenschaften verschiedener Definitionen bei KQ:
Definition verwendet z.B. von
Wertebereich
ohne Konstante in X
(2.32)
Davidson & MacKinnon (2004, Equation (2.55)) [0, 1]
(2.33)
Greene (2008, Equation (3-27))
[0, 1]
(2.34)
Wooldridge (2009, Equation (2.38))
(2.35)
Greene (2008, Equation (3-26))
≥0
(2.36)
Davidson & MacKinnon (2004, Equation (2.55)), ≤ 1
Wooldridge (2009, Equation (2.38))
≥0
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 68
∗ Gültige Umformungen, falls X mit Konstante:
PıPX = Pı.
Mı MX = MX .
ŷT Mıŷ = ŷT Mıy, da ŷT Mıû = ŷT û = 0.
¯ = Pıŷ = PıPXy = Pıy = ι ȳ.
ι ŷ
(2.37)
(2.38)
(2.39)
(2.40)
– Allgemeine Anmerkungen
∗ Alle Definitionen von R2 (alle außer (2.33)) , die auf dem Satz von Pythagoras basieren, sind nur bei Verwendung des KQ-Schätzers aussagekräftig.
Ansonsten können Werte kleiner Null oder größer Eins auftreten.
[ (ŷ, y)2 ≤ 1 gilt, aber der Satz des Pythagoras
∗ Da für (2.33) 0 ≤ Corr
nicht verwendet wurde, kann das Quadrat des empirischen Korrelationskoeffizienten als Goodness-of-Fit-Maß immer verwendet werden.
Es wird dann häufig als Pseudo-R2 bezeichnet.
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 69
• Leverage-Effekt
T
– Einheitsbasisvektor: et = 0 0 · · · 0 1 0 · · · 0 , wobei in der t-ten Zeile eine 1 steht. Alle n Einheitsbasisvektoren et, t = 1, . . . , n bilden eine Basis
für E n, wobei jeder Basisvektor Norm ||et|| = 1 hat.
– PX wird manchmal als Hat-Matrix (hat matrix) und ihr t-tes Diagonalelement deswegen als ht bezeichnet. Letzteres entspricht
0 ≤ ht = eTt PXet = ||PXet||2 ≤ ||et||2 = 1.
(2.41)
Es lässt sich zeigen (Davidson & MacKinnon 2004, Section 2.6), dass
k
h̄ = ,
n
ht ≥ 1/n
da
n
X
ht = T r(PX) = k,
(2.42)
t=1
⇔ ht = ||PXet||2 ≥ ||PιPXet||2 = ||Pιet||2 = 1/n, (2.43)
falls X eine Konstante enthält.
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 70
– Um den Effekt einer möglicherweise einflussreichen Stichprobenbeobachtung
(yt, Xt) abzuschätzen, werden die KQ-Schätzer für die komplette Stichprobe mit dem KQ-Schätzer für die Stichprobe ohne Beobachtung t verglichen.
Letztere erhält man durch Aufnahme einer Impulsdummy et in (2.1)
y = Xβ + etα + u,
(2.44)
da Met y = Met Xβ + Residuen (Frisch-Waugh-Lovell Theorem) gilt und
wegen Met = I − eteTt die t-te Beobachtung wegfällt.
– Wird der KQ-Schätzer für β auf Basis von (2.44) (ohne die t-te Beobachtung)
mit β̂
(t)
bezeichnet, lässt sich die Differenz der KQ-Schätzer angeben als
−1 T
−1 T
(t)
1
T
T
β̂ − β̂ = α̂ X X
X PXet =
X X
Xt ût.
(2.45)
1 − ht
Die t-te Beobachtung ist möglicherweise einflussreich (influential) und
damit ein Leverage-Punkt, falls
∗ ht groß (nahe 1) ist (bezieht sich auf x-Koordinaten),
∗ ût groß ist (bezieht sich auf y-Koordinate).
Methoden der Ökonometrie — 2.4 Anwendungen des Frisch-Waugh-Lovell Theorems — U Regensburg — 26.01.2010 71
(t)
– In R erhält man die ht’s und β̂ − β̂ , t = 1, . . . , n gegeben durch (2.41) und
(2.45) mit influence(...).
– Nachweis über mehrmalige Anwendungen der Eigenschaften von Projektionsmatrizen etc. (Details in Davidson & MacKinnon (2004, Section 2.6)):
y = PX,et y + MX,et y,
y = Xβ̂
(t)
+ α̂et + MX,et y,
(t)
PXy = Xβ̂ + α̂PXet + 0
(t)
X β̂ − β̂
= α̂PXet,
−1 T
(t)
T
β̂ − β̂ = α̂ X X
X PX et =
eTt MXy
ût
wobei mit dem FWL-Theorem α̂ = T
=
.
1
−
h
et MXet
t
−1 T
1
T
Xt ut,
X X
1 − ht
• Zu lesen: Davidson & MacKinnon (2004), Kapitel 2.
• Noch mehr zur Geometrie des KQ-Schätzers findet sich z.B. in Ruud (2000).
Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010
3 Statistische Eigenschaften des KQ-Schätzers:
Erwartungswert und Kovarianz
• Das multiple lineare Regressionsmodell (2.1):
Alternative Schreibweisen:
yt = β1xt1 + β2xt2 + · · · + βk xtk + ut,
yt = Xtβ + ut,
y = Xβ + u.
• KQ-Schätzer (2.2):
t = 1, . . . , n,
t = 1, . . . , n,
wobei Xt = xt1 · · · xtk ,
β̂ = (XT X)−1XT y.
72
Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010
73
• Zur Beantwortung vieler Fragen ist die Kenntnis der algebraischen und geometrischen Eigenschaften des KQ-Schätzers (Kapitel 2) nicht ausreichend, sondern die
Kenntnis der statistischen Eigenschaften des KQ-Schätzers notwendig.
Beispiele:
– Angenommen, Ihnen stehen neben den k Regressoren noch weitere n − k
mögliche Erklärungsvariablen zur Verfügung.
∗ Können Sie die Residuenquadratsumme SSR (2.24) weiter reduzieren, indem
Sie zu den k Regressoren weitere Regressoren aufnehmen? Wenn ja wieweit?
∗ Wenn ja, können Sie dadurch yt besser erklären? Was verstehen Sie unter
besser erklären”?
”
– Angenommen, Ihnen liegt eine weitere Stichprobe mit k Regressoren zu derselben Fragestellung vor.
∗ Warum unterscheiden sich die beiden KQ-Schätzungen vermutlich?
∗ Welche der beiden KQ-Schätzungen wählen Sie?
Methoden der Ökonometrie — 3 Statistische Eigenschaften des KQ-Schätzers — U Regensburg — 26.01.2010
74
∗ Sollen Sie die KQ-Ergebnisse beider Stichproben zusammenfügen?
Die Analyse statistischer Eigenschaften erfordert zusätzliche Annahmen. Die Annahmen beziehen sich auf die Art der Datengenerierung, bzw. auf
die Eigenschaften der Grundgesamtheit.
Für die Analyse statistischer Eigenschaften sind die Konzepte datengenerierender Prozesse und ökonometrischer Modelle sehr hilfreich, siehe folgenden
Abschnitt.
Methoden der Ökonometrie — 3.1 Datengenerierende Prozesse & ökonometr. Modelle — U Regensburg — 26.01.201075
3.1 Datengenerierende Prozesse und ökonometrische
Modelle
• Grundgesamtheit (population): Menge aller Einheiten, über die man (statistische) Aussagen gewinnen möchte und aus der bei einer Stichprobenerhebung
gezogen werden kann.
Beispiele:
– Menge aller abhängig Beschäftigten in einem Land.
– Anzahl von Verspätungen von mehr als 10 Minuten pro Tag und Bahnhof.
Im zweiten Fall ist die Grundgesamtheit unendlich. Anstelle einer Grundgesamtheit
ist es u.U. verständlicher, sich einen stochastischen Mechanismus” vorzustellen,
”
der die Stichprobenwerte oder Stichprobendaten erzeugt haben könnte.
Dieser kann mit einer Wahrscheinlichkeitsdichtefunktion dargestellt werden.
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
76
3.1.1 Verteilungs- und Dichtefunktionen
Wiederholung aus der Wahrscheinlichkeitstheorie (Davidson & MacKinnon
2004, Section 1.2):
• Marginale Wahrscheinlichkeitsverteilung (marginal probability distribution, cumulative distribution function (CDF)) für eine Zufallsvariable
X:
F (x) ≡ P (X ≤ x).
(3.1)
• Gemeinsame Wahrscheinlichkeitsverteilung (joint probability distribution function) für zwei oder mehr Zufallsvariablen X1, . . . , Xm:
F (x1, x2, . . . , xm) ≡ P ((X1 ≤ x1) ∩ · · · ∩ (Xm ≤ xm))
= P (X1 ≤ x1, . . . , Xm ≤ xm),
(3.2)
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
77
• Beachte: Für jede stetige Zufallsvariable X ∈ R gilt P (X = x) = 0.
Wieso?
Deshalb Betrachtung von Wahrscheinlichkeitsdichten.
• Wahrscheinlichkeitsdichtefunktion (probability density function)
(PDF): Für eine stetige Zufallsvariable mit differenzierbarer Wahrscheinlichkeitsverteilung F (x) wird die Ableitung erster Ordnung Wahrscheinlichkeitsdichtefunktion genannt
dF (x)
,
(3.3)
f (x) ≡
dx
Z x
f (z)dz = F (x).
(3.4)
−∞
Interpretation: Die marginale Wahrscheinlichkeitsdichte f (x) für die Zufallsvariable X gibt die Rate an, mit der sich die Wahrscheinlichkeit P (X ≤ x) für
das Intervall (−∞, x] verändert, wenn das genannte Intervall um eine winzige
Intervalllänge (x, x + δ] zu (−∞, x + δ] verlängert wird:
P (x < X ≤ x + δ) = P (X ≤ x + δ) − P (X ≤ x) ≈ f (x)δ.
Siehe Eine kurze Einführung in die Wahrscheinlichkeitstheorie Sommer 2009”.
”
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
78
• Marginale Wahrscheinlichkeitsdichtefunktion für eine stetige Zufallsvariable X: (3.3)
• Gemeinsame Wahrscheinlichkeitsdichtefunktion (joint density function) für zwei oder mehr stetige und Zufallsvariablen X1, . . . , Xm ∈ R mit partiell
differenzierbarer CDF:
∂ mF (x1, x2, . . . , xm)
f (x1, x2, . . . , xm) ≡
,
(3.5)
∂x
∂x
·
·
·
∂x
Z Z1 2 Z m
x1
x2
F (x1, . . . , xm) =
−∞
−∞
xm
···
−∞
F (x1) = F (x1, ∞, . . . , ∞).
f (z1, z2, . . . , zm) dz1dz2 · · · dzm, (3.6)
(3.7)
Zusammenhang zwischen marginalen und gemeinsamen Dichten: Es
gilt, z.B. im Fall von drei Zufallsvariablen
Z ∞Z ∞
f (x1) =
f (x1, z2, z3) dz2dz3.
(3.8)
−∞
−∞
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
79
• Bedingte Wahrscheinlichkeitsdichte (conditional probability distribution function) für Zufallsvariable X1 gegeben eine Zufallsvariable X2 oder mehrere Zufallsvariablen X2, . . . , Xm:
f (x1, x2)
,
f (x1|x2) ≡
f (x2)
vorausgesetzt, dass f (x2) > 0,
f (x1, x2, . . . , xm)
f (x1|x2, . . . , xm) ≡
,
f (x2, . . . , xm)
vorausgesetzt, dass f (x2, . . . , xm) > 0.
(3.9)
(3.10)
• Gilt
F (x1, x2) = F (x1, ∞)F (∞, x2) = P (X1 ≤ x1) P (X2 ≤ x2),
(3.11)
werden die Zufallsvariablen X1 und X2 als statistisch unabhängig oder unabhängig bezeichnet und es gilt
f (x1, x2) = f (x1) f (x2).
Entsprechende Faktorisierungen gelten für mehr als zwei Zufallsvariablen.
(3.12)
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
80
• Träger (support):
Gegeben sei eine Zufallsvariable X. Der Bereich, auf dem eine Dichtefunktion
fX (x) positiv ist, wird als Träger (support) X ⊂ R einer Dichtefunktion
bezeichnet:
X = {x : fX (x) > 0}.
• ♯ Eindimensionaler Transformationssatz (change of variable):
Gegeben sei eine stetige Zufallsvariable X ∈ R mit Dichtefunktion fX (x) > 0.
Gegeben sei weiter eine Zufallsvariable Y = g(X), wobei die Funktion g(·) stetig
und umkehrbar sei, so dass
x = g −1(y).
(3.13)
Außerdem seien g(·) und g −1(·) einmal differenzierbar.
Dann lässt sich für die Zufallsvariable Y die Dichtefunktion fY (y) durch
d −1 −1
fY (y) = g (y) fX g (y)
(3.14)
dy
berechnen (Casella & Berger 2002, Theorem 2.1.5).
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
81
• ♯ Mehrdimensionaler Transformationssatz:
Gegeben sei ein stetiger (m × 1)-Zufallsvektor x ∈ X ⊂ Rm mit Dichtefunktion
fx(x) > 0. Weiter sei ein (m × 1)-Zufallsvektor
y = g(x) = a + Ax
(3.15)
gegeben.
Ist A invertierbar (siehe Casella & Berger (2002, Section 4.6, p. 185) für Bedingungen für den Fall, dass g(x) in (3.15) nichtlinear ist), gilt
und (siehe Abschnitt 2.1)
x = h(y) = A−1(y − a)
∂x
∂h(y)
−1
=
=
A
.
∂yT
∂yT
Dann lässt sich für den Zufallsvektor y die Dichtefunktion fy (y) durch
−1
∂h(y) −1
fy (y) = fx (h(y)) = A fx A (y − a)
(3.16)
∂yT ∂h(y) berechnen, wobei ∂yT die Determinante der Jacobi-Matrix ∂h(y)
bezeichnet,
∂yT
siehe (3.18) für weitere Details.
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
82
• Matrixalgebra - weitere Definitionen
– Determinante einer quadratischen Matrix A:
∗ Definition: Für eine allgemein Definition siehe z.B. Gentle (2007, Section
3.1.5, Gleichung (3.16)). Die Determinante |·| für eine (2×2)-Matrix lautet
|A| = a11a22 − a12a21.
∗ Geometrische Interpretation: Der (n × 1)-Vektor definiert im n-dimensionalen Euklidischen Raum E n ein n-dimensionales Parallelepiped (= Parallelogramm für n = 2), für das sich ein Volumen (für n = 2 eine Fläche)
berechnen lässt.
Wird ein (n × 1)-Vektor x von links mit der Matrix A multipliziert, entspricht dies einer Abbildung von
E n −→ E n : x −→ z = Ax.
Die Determinante |A| gibt an, um wie viel sich die Volumina, die jeweils
durch x und z bestimmt werden, unterscheiden (Ein Beispiel für n = 2
findet sich in Davidson & MacKinnon 2004, Section 12.2, pp. 511-512).
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
83
– Jacobi-Matrix (Jacobian matrix):
Gegeben sei für x ∈ Rn eine vektorwertige Funktion


g1(x)


n
m

f : R −→ R : x −→ g(x) ≡  . . . 
.
gm(x)
Die (m × n)-Matrix
J(x) ≡

∂g1(x)
 ∂x1
∂g(x)  .
≡ .
T
∂x
∂g (x)
m
∂x1
∂g1(x)
∂x2
..
···
...
∂gm (x)
∂x2
···

∂g1(x)
∂xn 
..
∂gm (x)
∂xn


(3.17)
der partiellen Ableitung erster Ordnung wird als Jacobi-Matrix bezeichnet.
Die Determinante der Jacobi-Matrix
∂g(x) (3.18)
|J(x)| = ∂xT wird häufig als Jacobi-Determinante bezeichnet.
Methoden der Ökonometrie — 3.1.1 Verteilungs- und Dichtefunktionen — U Regensburg — 26.01.2010
84
• Notation
– Die Zufallsvariablen vt, t = 1, . . . , n sind unabhängig und identisch verteilt bzw. independently and identically distributed (IID):
vt ∼ IID(E(vt), V ar(vt))
– Die Zufallsvariablen vt, t = 1, . . . , n sind unabhängig und identisch normalverteilt bzw. independently and identically normally distributed
(NID):
vt ∼ N ID(E(vt), V ar(vt)).
In Matrixnotation entspricht dies mit µv = E(vt), σv2 = V ar(vt)
 
  

v1
µv
σv2 0 · · · 0
 
  

v 
µ   0 σ 2 · · · 0 
 2
 v  

v
 .  ∼ N  .  ,  . . .
 ,
.
 .   . . . . .. 
 
  

0 0 · · · σv2
vn
µv
v ∼ N (µv ι, σv2I).
Siehe Abschnitt 4.2 zu Formeln der multivariaten Normalverteilung.
Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010
85
3.1.2 Datengenerierende Prozesse
• In der Ökonometrie/Statistik versteht man unter einem datengenerierenden
Mechanismus oder datengenerierenden Prozess (data generating process (DGP)) einen stochastischen Mechanismus, der die beobachteten
Stichprobendaten erzeugt haben kann.
• Zur Darstellung eines DGPs werden alle Variablen einer Stichprobenbeobachtung in einem (k × 1)-Vektor wt (ohne Konstante) zusammengefasst.
Eine weitere Einteilung in eine abhängige Variable yt und einen Vektor Zt mit unabhängigen Variablen (ohne Konstante) ist nur unter bestimmten Bedingungen
sinnvoll, siehe z.B. (3.30) in Abschnitt 3.1.3.
• Ein stochastischer Mechanismus wird vollständig durch eine gemeinsame Wahrscheinlichkeitsdichte
f (w1, w2, . . . , wn)
(3.19)
der n Stichprobenbeobachtungen {w1, . . . , wn} beschrieben.
Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010
86
• Liegt eine Zufallsstichprobe vor, ermöglicht (3.12) folgende Zerlegung der
gemeinsamen Dichte f (w1, w2, . . . , wn):
f (w1, w2, . . . , wn) = f (w1) f (w2) · · · f (wn)
n
Y
(3.20)
=
f (wt).
t=1
Eine Zerlegung für abhängige Stichprobenbeobachtungen, wie beispielsweise bei
Zeitreihenbeobachtungen wird in Abschnitt 4.5 behandelt.
• Anstelle der gemeinsamen Dichte f (w1, w2, . . . , wn) ist es ausreichend, f (wt),
t = 1, . . . , n, zu betrachten.
• Es ist möglich, dass die Dichten f (wt) von t abhängen. Sie können beispielsweise
von Saisonkomponenten oder von einem Trend abhängig sein. Die entsprechenden
Dichten f (·) werden dann mit dem Index t versehen oder es wird explizit eine
deterministische Variable in die Bedingung mit aufgenommen.
• Ein DGP ist immer vollständig spezifiziert und erlaubt somit die Generierung
von Realisationen von Stichprobenbeobachtungen mit dem Computer und damit
beispielsweise die Durchführung einer Monte-Carlo-Simulation.
Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010
87
– Beispiel: einfaches Regressionsmodell; Zufallsstichprobe
yt
xt
ut
x t , ut
= β1 + β2xt + ut,
∼ N (µx , σx2 ),
∼ N (0, σ 2),
stochastisch unabhängig
⇒
Cov(xt, ut) = 0.
(3.21a)
(3.21b)
(3.21c)
(3.21d)
Siehe zu (3.21d) Davidson & MacKinnon (2004, Section 4.3, S. 130ff.). Damit
ergibt sich (Übungsaufgabe) für f (yt, xt) in (3.20)
!
!
!!
2 2
2
2
β1 + β2µx
β2 σx + σ β2σx
yt
∼N
,
.
(3.22)
2
2
xt
µx
β2σx
σx
Sind die Parameterwerte µx , β1, β2, σ 2, σx2 bekannt, ist (3.22) ausreichend, um
Stichprobenbeobachtungen mit dem Computer zu generieren.
– Ist im obigen Beispiel (3.21b) nicht bekannt, dann müssen zur Computersimulation die {x1, . . . , xn} bekannt sein und man simuliert aus der bedingten
Dichte f (yt|xt)
yt|xt ∼ N (β1 + β2xt, σ 2).
(3.23)
Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010
88
– Ein DGP muss keine eindeutige parametrische Spezifikation haben.
Beispiel: Der DGP (3.22) lässt sich mit folgender Reparametrisierung auch
invertiert darstellen:
β1
1
−1
xt = − + yt +
ut ,
(3.24a)
β2 β2
β2
2
β1
1
σ
(3.24b)
xt = γ1 + γ2yt + vt, γ1 = − , γ2 = , σv2 = 2 ,
β2
β2
β2
sowie
yt
xt
!
∼N
∼N
β1 + β2µx
µx
µy
γ1 + γ2µy
!
!
,
,
σx2
!!
(3.22)
γ2σy2
γ2σy2 γ22σy2 + σv2
!!
(3.25)
β22σx2 + σ 2 β2σx2
β2σx2
σy2
.
und
xt|yt ∼ N (γ1 + γ2yt, σv2).
(3.26)
Methoden der Ökonometrie — 3.1.2 Datengenerierende Prozesse — U Regensburg — 26.01.2010
89
– Allgemein gilt aufgrund von (3.10):
f (wt) = f (w1t|w2t, . . . , wkt)f (w2t, . . . , wkt)
= f (w2t|w1t, w3t, . . . , wkt)f (w1t, w3t, . . . , wkt).
(3.27)
D.h. im Allgemeinen ist aus rein statistischer Sicht eine eindeutige
Einteilung der k Variablen in eine abhängige Variable yt und k −
1 unabhängige Variablen Zt (ohne Konstante) nicht möglich. Eine
derartige Einteilung erfordert im Allgemeinen Kenntnisse von außen”, also
”
z.B. durch die (ökonomische) Theorie.
Das bedeutet, dass die Kenntnis des DGPs alleine nicht ausreichend
sein kann, um Kausalitätsbeziehungen zu identifizieren.
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
90
3.1.3 Ökonometrische Modelle
• Salopp: Ein ökonometrisches Modell M ist eine Menge an DGPs.
Beispiele:
– Alle DGPs (3.22), die man mit den Parametern µx , β1, β2 ∈ R, σ 2, σx2 ∈ R+
erhält.
– Alle DGPs, die (3.23) erfüllen. Dazu gehören alle DGPs (3.22) plus alle DGPs,
für die (3.21b) nicht gilt, also auch alle DGPs, bei denen xt nicht normalverteilt
ist. Damit erhält man das normale einfache lineare Regressionsmodell:
yt|xt ∼ N (β1 + β2xt, σ 2),
β1, β2 ∈ R,
σ 2 ∈ R+.
(3.28)
– Werden in einem Modell lediglich der bedingte Erwartungswert und die bedingte Varianz spezifiziert, jedoch nicht die (bedingte) Dichte, erhält man das
einfache lineare Regressionsmodell
E[yt|xt] = β1 + β2xt, V ar(yt|xt) = σ 2,
yt|xt ∼ (β1 + β2xt, σ 2), β1, β2 ∈ R, σ 2 ∈ R+.
(3.29)
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
91
Im Vergleich zum normalen einfachen linearen Regressionsmodell (3.28) ist die
Menge der enthaltenen DGPs noch größer, da alle DGPs mit nichtnormalverteilten Fehlern ebenfalls dazugehören.
– Überlege: Gegeben seien jeweils spezifische Parameterwerte für die drei Modelle. Für welches Modell ist damit der DGP vollständig spezifiziert?
• Ökonometrische Modelle, in denen die enthaltenen DGPs durch Funktionen in
Abhängigkeit von den Stichprobendaten und (endlich vielen) Parametern unterschieden werden, werden als parametrische ökonometrische Modelle bezeichnet. Häufig werden alle Modellparameter in einem (p × 1)-Parametervektor
θ ∈ Θ zusammengefasst, wobei Θ als Parameterraum (parameter space)
bezeichnet wird.
– Beispiel: Für das einfache lineare Regressionsmodell (3.29) erhält man p = 3
und
 
β1
 
 ∈ Θ ⊂ R2 × R+.
θ=
β
2
 
σ2
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
92
– Werden Dichten für wt betrachtet, wobei die jeweiligen Dichten von einem
Parametervektor θ abhängen, schreibt man
f (wt; θ).
Damit lässt sich die Menge der im parametrischen Modell enthaltenen Dichten
schreiben als
M = {f (wt; θ), θ ∈ Θ}.
In diesem Kurs geht es vornehmlich um parametrische Modelle.
– In der ökonometrischen Theorie und Praxis spielen jedoch auch semiparametrische Modelle und nichtparametrische Modelle eine Rolle. Eine
kurze Einführung bietet Davidson & MacKinnon (2004, Section 15.5). Eine
ausführliche Darstellung liefert die Monographie von Li & Racine (2007).
• Gegenstand vieler empirischer Studien ist die Untersuchung von Kausalitätsbeziehungen.
– Man versucht deshalb, aus der Vielzahl möglicher Zerlegungen der parametrischen Dichtefunktionen möglicher DGPs (vgl. (3.27)) eine Zerlegung (hier für
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
93
Zufallsstichproben)
wt =
yt
ZTt
!
,
f (wt; θ) = f (yt|Zt; θ) f (Zt; θ)
(3.30a)
(3.30b)
zu finden, in der der Vektor wt in die abhängige Variable yt und einen Vektor
Zt mit unabhängigen bzw. erklärenden Variablen Zt zerlegt wird und
darüber hinaus der Parametervektor θ in den Parametervektor θ y und den
Parametervektor θ Z aufgespalten werden kann, so dass gilt
f (wt; θ) = f (yt|Zt; θ y ) f (Zt; θ Z).
(3.30c)
Die Zerlegung (3.30c) ist für die Analyse nur sinnvoll, wenn der Parametervektor θ y inhaltlich interpretiert werden kann. Beachte, dass wegen (3.10) die
Zerlegung (3.30b) immer existiert, die Zerlegung (3.30c) jedoch nicht. Weitere Details finden sich z.B. in Hendry (1995, Chapter 5) oder Davidson (2000,
Chapter 4).
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
94
– Ist man ausschließlich an der Wirkung von Zt auf yt interessiert und
existiert die Zerlegung (3.30), muss nur die bedingte Dichte f (yt|Zt; θ y ),
jedoch nicht die Dichte f (Zt; θZ) der unabhängigen Variablen betrachtet werden.
– Ein Modell für die bedingte Dichte f (yt|Zt; θ y ) gehört zur Klasse der bedingten
Modelle (conditional model), die keine Modellierung der unabhängigen
Variablen enthalten.
– In diesem Kurs betrachten wir hauptsächlich bedingte Modelle und lassen
deshalb im Allgemeinen beim Parametervektor den Index y weg.
Ein Vertreter bedingter Modelle ist das normale einfache lineare Regressionsmodell (3.28)
M = {fN ormalverteilung (yt|xt; β1, β2, σ 2), β1, β2 ∈ R, σ 2 ∈ R+},
bzw. allgemeiner das normale multiple lineare Regressionsmodell, siehe
insbesondere Abschnitt 4.3:
M = {fN ormalverteilung (yt|Zt; β, σ 2), β ∈ Rk , σ 2 ∈ R+}.
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
95
– Davidson & MacKinnon (2004, Section 1.3) nennen ein parametrisches Modell
vollständig spezifiziert, wenn es möglich ist, Realisationen des abhängigen
Variable yt zu generieren. Ansonsten ist es partiell spezifiziert.
• Informationsmengen (information set) für ein ökonometrisches Modell:
– Die Menge aller potentiellen erklärenden Variablen, die zur Spezifikation
eines Modells für die endogene Variable yt in Frage kommen können, wird als
Informationsmenge bezeichnet und mit Ωt abgekürzt.
– Die Menge aller erklärenden Variablen, die zur Spezifikation eines Modells
für die endogene Variable yt verwendet werden, ist ebenfalls eine Informationsmenge und wird im Folgenden mit It ⊂ Ωt bezeichnet.
Beispiel: In (3.30c) enthält die Informationsmenge It für die bedingte Dichte
für yt die Variablen Zt.
– Ökonometrische Modelle unterscheiden sich auch durch ihre Informationsmengen It.
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
96
• Ökonometrische Modelle, deren Informationsmenge verzögerte (endogene) Variablen enthält, werden als dynamische ökonometrische Modelle bezeichnet,
siehe Abschnitt 4.5 zu weiteren Details.
• Für manche (ökonomische) Fragestellung ist es nicht notwendig, den DGP
vollständig zu kennen, d.h. es ist nicht notwendig, die Dichte f (wt) bzw. die
bedingte Dichte f (yt|Zt−1) zu kennen, sondern es ist ausreichend, einzelne
Charakteristika der Dichten zu bestimmen, wie beispielsweise Erwartungswerte oder Varianzen.
– Bei bedingten Modellen betrachtet man z.B. die bedingten Erwartungswerte E[yt|Zt] und bedingten Varianzen V ar(yt|Zt).
– Vertreter dieser Modelle sind das einfache lineare Regressionsmodell
(3.29)
M = {E[yt|xt] = β1 + β2xt, V ar(yt|xt) = σ 2;
β1, β2 ∈ R, σ 2 ∈ R+},
bzw. allgemeiner das multiple lineare Regressionsmodell
M = {E[yt|Zt] = Xtβ, V ar(yt|Zt) = σ 2;
β ∈ Rk , σ 2 ∈ R+}.
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
97
– Beachte: Der Vektor Xt in der Spezifikation von linearen Regressionsmodellen
kann zusätzlich zu Zt eine Konstante enthalten. Dann gilt Xt = 1 Zt . (Im
Abschnitt 4.5 zu dynamischen linearen Regressionsmodellen kann Xt beispielsweise auch verzögerte endogene Variable enthalten).
• Beachte: Der DGP muss nicht in einem (bedingten) Modell enthalten sein. Man
sagt: Ein Modell ist
– korrekt spezifiziert, falls DGP ∈ M,
– fehlspezifiziert, falls DGP 6∈ M.
• Im Fall einer Zufallsstichprobe lassen sich die bedingten Dichten f (yt|Xt) in einem
Vektor zusammenfassen, da
f (yt|Xt) = f (yt |Xn, Xn−1, . . . , Xt, . . . , X1) = f (yt|X)
und somit auch gilt:


f (y|X) = 


f (y1|X)

..
.

f (yn |X)
(3.31)
(3.32)
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
98
• Beispiel: Empirische Analyse von Handelsströmen, siehe Abschnitt 1.2.
Unterstellt man die Gravitationsgleichung (1.1), ergibt sich daraus das multiple
lineare Regressionsmodell (1.4)
ln(Exportei) = β1 + β2 ln(BIPi) + β3 ln(Entf ernungi) + Fiβ 5 + ui,
und eine Aufteilung des Variablenvektors wt





yt = ln(Exportet),
ln(Exportet)










ln(BIPt)
ln(BIPt)




wt = 
 in
T
,

ln(Entf ernungt)

Z
=
ln(Entf
ernung
)

t
t








Ft
Ft
wobei z.B. der Parameter β2 in (1.4) als BIP-Elastizität der Exporte interpretiert
werden kann.
In den folgenden Abschnitten geht es darum zu klären, unter welchen Annahmen der KQ-Schätzer die interessierenden unbekannten Parameter, z.B. die BIPElastizität der Exporte β2, zuverlässig schätzt.
Für manche Länder könnte es allerdings durchaus sinnvoll sein, anstelle von (1.4)
Methoden der Ökonometrie — 3.1.3 Ökonometrische Modelle — U Regensburg — 26.01.2010
99
ln(BIPt) als abhängige Variable zu wählen und
ln(BIPi) = γ1 + γ2 ln(Exportei) + γ3 ln(Entf ernungi) + Fiγ 5 + vi, (3.33)
zu schätzen. Ob (1.4) oder (3.33) gewählt werden soll, kann mit Mitteln der
Regressionsanalyse nicht entschieden werden, da die Regressionsanalyse letztlich
nur Korrelationen zwischen Variablen modelliert
• Häufig erlaubt nur zusätzliche Information, beispielsweise durch Berücksichtigung ökonomischer Theorie, zwischen zwei Modellen, die beide
den selben DGP in unterschiedlicher Parametrisierung enthalten, auszuwählen. Man nennt solche Modelle auch beobachtungsäquivalent, vgl. die
zwei äquivalenten Darstellungen eines DGPs (3.22) und (3.25).
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010100
3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers
• Definitionen
– Die Verzerrung (bias) eines Parameterschätzers θ̂ für θ ist definiert als
E(θ̂) − θ0,
wobei θ0 der wahre Parameterwert, d.h. der Parameterwert des DGPs ist.
– Ein Schätzer θ̂ heißt unverzerrt, wenn er für alle zulässigen Werte von θ0
keine Verzerrung aufweist.
– Interpretation: Unverzerrtheit impliziert, dass bei einer großen Anzahl an
Stichproben der Durchschnittswert aller Schätzungen sehr nahe am wahren
Wert liegt.
– Sind zwei Schätzer in allen Eigenschaften gleich bis auf die Unverzerrtheit, ist
der unverzerrte Schätzer vorzuziehen. Warum?
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010101
• Ableitung: Es gilt, sofern X vollen Rang hat und das multiple lineare Regressionsmodell korrekt spezifiziert ist,
β̂ = (XT X)−1XT y
= β 0 + (XT X)−1XT u
und so
T
−1
T
E(β̂) − β 0 = E (X X) X u .
Unverzerrtheit des KQ-Schätzers gilt, wenn mindestens eine der folgenden Annahmen bezüglich der Regressoren und Fehler erfüllt ist:
– alle Regressoren sind nicht-stochastisch und E(u) = 0:
T −1 T E (X X) X u = (XT X)−1XT E(u) = 0.
– Regressoren X sind stochastisch, aber stochastisch unabhängig von dem
Fehlervektor u mit E(u) = 0. Dann gilt
T −1 T T −1 T E (X X) X u = E (X X) X E(u) = 0.
– Eine schwächere Annahme als Unabhängigkeit ist
E(u|X) = 0.
(3.34)
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010102
Damit gilt
T −1 T
T −1 T E E (X X) X u X = E (X X) X E(u| X) = E [0] = 0.
Erklärende Variablen, die (3.34) erfüllen, werden als exogen bezeichnet. Sehr
häufig werden Variablen, die Annahme (3.34) erfüllen, als streng exogen
(strictly exogenous) bezeichnet (z.B. Wooldridge (2009, Chapter 10)), siehe auch BA-Veranstaltung Ökonometrie II, Kapitel 2.
– Beachte: Die Annahme (3.34) ist ohne Spezifikation eines Modells für die
Fehler u, wie beispielsweise u = y − Xβ, ohne Aussage und gewinnt erst
durch einen Bezug auf ein (parametrisches) Modell Bedeutung.
Somit bezieht die Bedingung (strenger) Exogenität implizit immer ein (parametrisches) Modell mit ein.
Beispiel: Für das einfache lineare Regressionsmodell, das sich aus (3.21) ergibt, ist (3.34) erfüllt, da für das Paar β1, β2 ∈ R des DGP gilt:
E[yt|x1, x2, . . . , xt, . . . , xn] = β1 + β2xt.
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010103
• Eine noch schwächere Annahme als strenge Exogenität (3.34) ist
E(ut|Xt) = 0 für t = 1, . . . , n,
(3.35)
weil der Fehler ut lediglich nicht von den Regressoren Xt der t-ten Stichprobenbeobachtung abhängen darf. Man spricht dann von partieller Unabhängigkeit
bzw. von vorherbestimmten Regressoren. Wooldridge (2009, Chapter 10) bezeichnet die Annahme (3.35) auch als contemporaneous exogeneity, siehe
auch BA-Veranstaltung Ökonometrie II, Kapitel 5.
Typische Modelle, die die Annahme strenger Exogenität verletzen, aber die Bedingung partieller Unabhängigkeit erfüllen, sind dynamische lineare Regressionsmodelle, siehe Abschnitt 4.5, oder autoregressive Modelle, siehe folgendes Beispiel.
• Ist die Annahme strenger Exogenität (3.34) verletzt, ist der KQ-Schätzer verzerrt. Dies ist z.B. immer dann der Fall, wenn verzögerte abhängige Variablen
als Regressor verwendet werden.
Beispiel: autoregressives Modell erster Ordnung, kurz AR(1)-Modell
yt = αyt−1 + ut,
ut ∼ IID(0, σ 2).
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010104
– Als Regressionsmodell geschrieben, erhält man für Periode t + 1
yt+1 = αxt+1 + ut+1.
– Dann enthält der Regressor xt+1 = yt den Fehler ut, so dass E(ut|xt+1) =
E(ut|yt) 6= 0 und die Exogenitätsannahme (3.34) nicht mehr gilt.
– Die Annahme partieller Unabhängigkeit (3.35) hingegen scheint harmlos: E(ut|xt) =
E(ut|yt−1) = 0, d.h. yt−1 ist bezüglich ut vorherbestimmt.
Partielle Unabhängigkeit (3.35) reicht also nicht aus, um einen unverzerrten
Schätzer zu erhalten.
• Strenge Exogenität (3.34) folgt aus der Annahme einer Zufallsstichprobe (Wooldridge
2009, MLR.2) und partieller Unabhängigkeit (entspricht Wooldridge 2009, MLR.4),
da dann
E[ut|X1, X2, . . . , Xt, . . . , Xn ] = E[ut|Xt].
Methoden der Ökonometrie — 3.2 Bedingungen für Unverzerrtheit des KQ-Schätzers — U Regensburg — 26.01.2010105
• Zusammenfassung der Annahmen bzw. Voraussetzungen für die Unverzerrtheit des KQ-Schätzers β̂ für den Parametervektor β:
– (B1) Korrekt spezifiziertes Modell
Der DGP ist für β = β 0 im multiplen linearen Regressionsmodell (2.1)
y = Xβ + u
enthalten (MLR.1 in Wooldridge (2009)).
– (B2a) Exogenität bzw. Strenge Exogenität (3.34):
(folgt aus MLR.2 und MLR.4 in Wooldridge (2009)).
E(u|X) = 0.
– Annahme (B2b) wird erst später benötigt.
– (B3) Keine perfekte Kollinearität
X (bzw. XT X) hat vollen Rang (MLR.3 in Wooldridge (2009)).
Methoden der Ökonometrie — 3.3 Asymptotik I: Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010
106
3.3 Asymptotik I: Konsistenz des KQ-Schätzers
• Die Erwartungstreue eines Schätzers θ̂ ist unabhängig von der Stichprobengröße.
Die Annahme strenger Exogenität ist jedoch in der Praxis häufig nicht erfüllt.
Man sucht deshalb (schwächere) Bedingungen, die garantieren, dass sich die Eigenschaften eines betrachteten Schätzers mit wachsendem Stichprobenumfang
wünschenswerten“ Eigenschaften, z.B. Erwartungstreue, nähern. Man betreibt“
”
”
dann Asymptotik oder asymptotische Theorie: man untersucht die Eigenschaften von θ̂ für n → ∞.
• Zuerst zur Konsistenz: ist ein Schätzer verzerrt, kann man fragen, ob das Ausmaß der Verzerrung mit zunehmender Stichprobengröße geringer wird und der
Schätzer gegen den wahren Parameterwert θ0 konvergiert, wenn die Stichprobenlänge gegen unendlich strebt — wobei zu klären ist, was hier ’Konvergenz’
bedeutet.
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 107
3.3.1 Konvergenz von Folgen von Zufallsvektoren
• Konvergenz von Folgen von Zufallsvariablen
1. Konvergenz in Wahrscheinlichkeit
– Gegeben sei die Folge von Zufallsvariablen θ̂n, n = 1, 2, 3, . . . Dann konvergiert θ̂n in Wahrscheinlichkeit gegen die Zufallsvariable θ, wenn für jedes
ǫ > 0 gilt:
lim P |θ̂n − θ| < ǫ = 1.
n−→∞
Äquivalent hierzu: wenn für beliebig kleine ǫ > 0 und für beliebig kleine
δ > 0 (δ ≤ 1) ein n0 existiert, so dass für jedes n > n0 gilt:
P |θ̂n − θ| < ǫ > 1 − δ.
P
Kurzschreibweisen: θ̂n −→ θ oder plimn−→∞(θ̂n) = θ.
– Beispiel:
Die Zufallsvariable X sei normalverteilt mit Erwartungswert µ und Varianz
σ 2 und die Zufallsvariable Y habe endliche Varianz und sei unabhängig von
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 108
X. Man definiere die Folge von Zufallsvariablen {Xn } mit 0 ≤ a < ∞
r
a
1
Y − , n = 1, 2, . . .
Xn = X +
n
n
Man erhält nun, ǫ > 0,
r
a
1
P (|Xn − X| < ǫ) = P Y − < ǫ ,
n
n
so dass man durch Grenzwertbildung
r
a
1
lim P Y − < ǫ = 1
n→∞
n
n
erhält, da mit zunehmendem n immer mehr mögliche Realisationen von
pa
1
Y
−
n
n im Intervall (−ǫ, ǫ) liegen. Konvergenz in Wahrscheinlichkeit setzt
also voraus, dass die Varianz der Differenz gegen Null konvergiert.
Ist im Beispiel Y darüber hinaus normalverteilt mit Mittelwert 0, so ergibt
pa
sich mit V = n Y − n1 z.B.
r
a
P |V − (−1/n)| < 1.96
σY = 0.95
n
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 109
– Konsistenz eines Schätzers: plim(θ̂n) = θ,
d.h. der Schätzer konvergiert in Wahrscheinlichkeit gegen den wahren Wert
θ. Die Konsistenz des Schätzers θ̂n impliziert, dass
∗ der Schätzer asymptotisch (d.h. für n → ∞) unverzerrt ist
∗ und dass die Varianz des Schätzers asymptotisch gegen Null geht (mit
für n → ∞ konzentriert sich θ̂n immer mehr um θ)
– Satz
Sei plim θ̂n = θ und g(·) stetig an der Stelle θ. Dann gilt plim g(θ̂n) = g(θ).
Dieser Satz wird häufig als Slutsky’s Theorem bezeichnet, siehe z.B. Davidson
(2000, Theorem 3.1.1, p. 39).
– Konvergenz in Wahrscheinlichkeit für Zufallsvektoren und Funktionen von Zufallsvektoren: Es bezeichne yn einen (n×1)-Zufallsvektor,
dessen Dimension mit n variiert. Eine Vektorfunktion an = a(yn) konvergiert in Wahrscheinlichkeit gegen a0, falls
lim P (||a(yn) − a0|| < ǫ) = 1.
n−→∞
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 110
n
Beispiel: a(y ) =
1
n
Pn
t=1 yt .
– Einige nützliche Regeln für ‘plim’s: Seien {an} und {bn} Folgen von Zufallsvektoren und sei {An} eine Folge von Matrizen (mit geeigneter Dimension). Falls plim an, plim bn und plim An existieren, dann gilt:
∗ (plim an ± bn) = plim an ± plim bn,
∗ plim aTn bn = (plim an)T (plim bn),
∗ plim An bn = (plim An )(plim bn).
d
d
∗ Falls an −→ a und plim An = A, dann gilt Anan −→ Aa, siehe dazu
3. Konvergenz in Verteilung.
2. Fast sichere (almost sure) Konvergenz
– Sei θ̂n, n = 1, 2, . . . eine Folge von Zufallsvariablen. Die Folge θ̂n konvergiert
fast sicher gegen die Zufallsvariable θ falls für alle ǫ > 0 gilt:
P lim |θ̂n − θ| < ǫ = 1.
n−→∞
a.s.
Kurzschreibweise: θ̂n −→ θ.
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 111
– Beispiel: für Konvergenz in Wahrscheinlichkeit, aber nicht Konvergenz
’fast sicher’, siehe z.B. Casella & Berger (2002, Example 5.5.8, p. 234-5).
3. Konvergenz in Verteilung
– Sei θ̂n, n = 1, 2, . . . eine Folge von Zufallsvariablen, jede davon mit Verteilungsfunktion Fn. Außerdem sei θ eine Zufallsvariable mit Verteilungsd
funktion F . Dann konvergiert θ̂n in Verteilung gegen θ, kurz θ̂n −→ θ,
falls
lim P (θ̂n ≤ x) = P (θ ≤ x).
n−→∞
– Beispiel: Es sei {Xn} die weiter oben definierte Folge von Zufallsvariablen.
P
Man erinnere sich: Xn −→ X, wobei X ∼ N (µ, σ 2) ist. Sei nun Z eine
normalverteilte Zufallsvariable mit Erwartungswert µ und Varianz σ 2. Dann
gilt
d
Xn −→ Z.
Damit haben X und Z die gleiche Verteilung, sind aber verschiedene Zufallsvariablen!
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 112
4. Es gilt:
a.s
θ̂n −→ θ
=⇒
P
θ̂n −→ θ
=⇒
d
θ̂n −→ θ.
(3.36)
(Ein Beispiel, weshalb die Umkehrung des zweiten Folgepfeils nicht gilt, findet
sich im BA-Kurs Ökonometrie II, Abschnitt 5.1.4.)
Methoden der Ökonometrie — 3.3.1 Konvergenz von Folgen von Zufallsvektoren — U Regensburg — 26.01.2010 113
• Gesetz der großen Zahl — Law of Large Numbers (LLN)
1. Schwaches Gesetz der großen Zahl von Chintschin (Khinchine’s
Weak Law of Large Numbers (WLLN))
Sei yi, i = 1, 2, . . . , n, eine IID-Folge von Zufallsvariablen mit endlichem
Pn
−1
Mittelwert µ. Dann gilt für das arithmetische Mittel µ̂ = n
i=1 yi , dass
P
bzw.
µ̂ −→ µ,
plim(µ̂) = µ.
(Siehe z.B. Davidson (1994, Theorem 23.5) — Beweis zu schwierig.)
2. Zwei Versionen des LLN
– Schwaches LLN (WLLN):
P
µ̂ −→ µ.
– Starkes LLN (SLLN):
a.s.
µ̂ −→ µ.
3. Beachte: Es gibt auch LLN für verschiedene nicht-IID-Fälle, siehe z.B. Davidson
(2000, Section 3.2) oder Kapitel 5 im MA-Kurs Fortgeschrittene Ökonometrie.
Methoden der Ökonometrie — 3.3.2 Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010
114
3.3.2 Konsistenz des KQ-Schätzers
• Grundsätzliche Vorgehensweise zur Ableitung von Konsistenzbedingungen:
β̂ n = (XT X)−1XT y
= β 0 + (XT X)−1XT u
T −1 T
X X
X u
= β0 +
n
n
Anwenden der Regeln für plim’s ergibt unter der Annahme (B1) eines korrekt
spezifizierten Modells
T −1
XT u
X X
plim
plim β̂ n = β 0 + plim
n
n→∞
n→∞
n→∞ n

−1
T 

X X 
XT u

plim
= β 0 + plim

n
n→∞

n→∞ n
| {z }
|
{z
}
=0, falls ein LLN gilt
Existenz?
Methoden der Ökonometrie — 3.3.2 Konsistenz des KQ-Schätzers — U Regensburg — 26.01.2010
115
• Konsistenz des KQ-Schätzers: Gelten zusätzlich zu (B1) die Annahmen
T – (A1) plimn→∞ XnX = SXT X und SXT X hat vollen Rang und
– (A2) gilt ein LLN für XT u/n,
dann ist plimn→∞ βˆn = β 0 und der KQ-Schätzer ist konsistent.
• Diskussion der Annahmen
– Einfachster Fall für Gültigkeit der Annahmen (A1) und (A2):
X = ı, der einzige Regressor ist eine Konstante und ut ∼ IID(0, σ 2). Dann
gilt das WLLN von Chintschin (siehe Abschnitt 3.3.1), so dass (A2) gilt. (A1)
ist auch einfach zu zeigen.
– Die Annahme (A2) ist für die empirische Arbeit nicht praktisch. Leichter zu
überprüfen sind Bedingungen, die in Abschnitt 4.5 behandelt werden.
– In Abschnitt 4.5 wird auch deutlich, dass Annahme (A2) schwächer als die
Annahme (B2a) ist.
• Ist ein Schätzer nicht konsistent, wird er als inkonsistent bezeichnet.
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
116
3.4 Die Kovarianzmatrix der Parameterschätzer
• Zur Erinnerung: Für den (k×1)-Zufallsvektor θ̂ ist die Varianzmatrix bzw. genauer
Kovarianzmatrix, bzw. noch genauer Varianz-Kovarianzmatrix gegeben durch
i
h
T
V ar(θ̂) = E (θ̂ − θ)(θ̂ − θ)


V ar(θ̂1) Cov(θ̂1, θ̂2) · · · Cov(θ̂1, θ̂k )


Cov(θ̂ , θ̂ ) V ar(θ̂ ) · · · Cov(θ̂ , θ̂ )
(3.37)
2 1
2
2 k 

=
.
..
..
..
...




Cov(θ̂k , θ̂1) Cov(θ̂k , θ̂2) · · · V ar(θ̂k )
Anmerkungen: Die Varianz-Kovarianzmatrix ist symmetrisch und immer positiv semidefinit, meist jedoch positiv definit.
• Zusammenhang zwischen unbedingten und bedingten Varianzen
h
i
V ar(θ̃) = E V ar(θ̃|X) + V ar E(θ̃|X) .
(3.38)
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
117
♯ Ableitung:
T E θ̃ − E(θ̃) θ̃ − E(θ̃)
h Ti
T
= E θ̃ θ̃ − E(θ̃)E(θ̃ )
h T i
h
i h
i
T
= E E θ̃ θ̃ |X − E E(θ̃|X) E E(θ̃ |X)
h T i
h
i h
i
T
T
T
= E E θ̃ θ̃ |X − E(θ̃|X)E(θ̃ |X) + E(θ̃|X)E(θ̃ |X) − E E(θ̃|X) E E(θ̃ |X)
h
h T i
i
h
i h
i
T
T
T
= E E θ̃ θ̃ |X − E(θ̃|X)E(θ̃ |X) + E E(θ̃|X)E(θ̃ |X) − E E(θ̃|X) E E(θ̃ |X)
{z i
} |
{z }
|
h
˜
˜
E V ar(θ |X)
V ar E θ |X
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
118
• Positiv definite und semidefinite Matrizen
– Eine (k × k)-Matrix A heißt positiv definit, wenn für beliebige (k × 1)Vektoren x mit positiver Norm gilt:
xT Ax > 0.
– Eine (k × k)-Matrix A heißt positiv semidefinit, wenn für beliebige (k × 1)Vektoren x mit positiver Norm gilt:
xT Ax ≥ 0.
T
– Der Ausdruck x Ax =
Pk Pk
i=1
j=1 xi xj Aij
heißt quadratische Form.
– Ist A = BT B, dann ist A immer positiv semidefinit, da
xT BT Bx = (Bx)T (Bx) = ||Bx||2 ≥ 0.
Wenn B vollen Rang hat, ist A positiv definit. Warum?
– Die Diagonalelemente einer positiv definiten Matrix sind positiv. Außerdem
existiert für jede positiv definite Matrix A eine Matrix B, so dass gilt A =
BT B. Dabei ist B nicht eindeutig.
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
119
• Die Varianz-Kovarianzmatrix des unverzerrten KQ-Schätzers β̂ lautet
i
h
T
V ar(β̂|X) = E (β̂ − β 0)(β̂ − β 0) |X
= (XT X)−1XT E(uuT |X) X(XT X)−1
= (XT X)−1XT V ar(u|X) X(XT X)−1.
(3.39)
Dies ist die allgemeine Varianz-Kovarianzmatrix des KQ-Schätzers, bei der auch
Heteroskedastie und Korrelation zwischen den Fehlern gegeben X zugelassen ist,
da die bedingte Varianz-Kovarianzmatrix der Fehler V ar(u|X) nicht weiter spezifiziert ist.
• Die Präzision (precision) eines Schätzers wird durch die Inverse der VarianzKovarianzmatrix angegeben.
• Gilt zusätzlich die Bedingung
(B2b) Homoskedastie und Unkorreliertheit der Fehler
V ar(u|X) = σ 2I,
wobei für die Fehlervarianz des DGPs σ 2 = σ02 gilt,
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
120
dann vereinfacht sich die Varianz-Kovarianzmatrix des KQ-Schätzers (3.39)
zur bekannten Form
V ar(β̂|X) = σ02(XT X)−1.
(3.40)
– Mit Hilfe von (3.38) ergibt sich die unbedingte Varianz-Kovarianzmatrix
T −1
2
V ar(β̂) = σ0 E (X X)
(3.41)
wegen V ar E[β̂|X] = V ar(0) = 0.
T −1
♯ Zur Existenz von E (X X)
siehe technische Ergänzung am Ende des Abschnitts 3.5.
– Eine äquivalente Darstellung zu (3.40) ist:
−1
1 2
1 T
V ar(β̂|X) =
σ0
X X
.
n
n
Ist außerdem die Bedingung (A1)
−1
1 T
P
X X
−→ S−1
XT X
n
erfüllt, verringern sich im Allgemeinen die bedingten Varianzen V ar(β̂j |X)
bzw. Kovarianzen Cov(β̂j , β̂i|X), wenn
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
121
∗ die Stichprobengröße n ansteigt,
∗ die Fehlervarianz σ02 kleiner wird.
– Über die Varianz der Schätzung eines einzelnen Parameters βi lässt
sich mehr aussagen. Wir betrachten folgende Partitionierung
y = x1β1 + X2β 2 + u.
Dann lässt sich β1 mit dem Frisch-Waugh-Lovell-Theorem (vgl. Abschnitt 2.3)
auf Basis der Regression
M2y = M2x1β1 + Residuen
schätzen, wobei M2 = I−X2(XT2 X2)−1XT2 ist. Man erhält den KQ-Schätzer:
−1 T
T
β̂1 = x1 M2x1
x1 M2y.
Es lässt sich (leicht) zeigen, dass
V ar(β̂1|X) =
σ02(xT1 M2x1)−1
σ02
= T
.
x1 M2x1
Beachte, dass der Ausdruck xT1 M2x1 = ||M2x1||2 der quadrierten Länge des
Residuenvektors der Regression von x1 auf X2 entspricht.
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
122
Damit ist die Varianz von β̂1 (bzw. die Varianz eines beliebigen Schätzers eines
Steigungsparameters) groß, wenn
∗ x1 gut durch die anderen Regressoren in X erklärt wird bzw. das Bestimmtheitsmaß der Regression von x1 auf X2 groß ist.
Sind beispielsweise x1 und X2 beinahe kollinear, dann ist die Länge des Residuenvektors kurz und die Varianz für β̂1 hoch.
Zur Erinnerung (an Ökonometrie I):
Man beachte, dass ||M2x1||2 = SSR1, wobei SSR1 die Residuenquadratsumme der Regression von x1 auf X2 ist. Da, falls X2 eine Konstante enthält,
SST1 = SSE1 + SSR1
und
R12 = SSE1/SST1
gilt, erhält man auch
||M2x1||2 = SST1(1 − R12 )
und somit
σ02
V ar(β̂j |X) =
2 .
SSTj (1 − Rj )
(3.42)
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
123
• Varianz von linearen Funktionen von Parameterschätzern
– Ist die zu schätzende Größe γ eine lineare Funktion der geschätzten Parameter
γ̂ = wT β̂,
wobei w ein geeignet dimensionierter Spaltenvektor ist, dann lässt sich die
Varianz von γ̂ sehr einfach bestimmen durch
V ar(γ̂|X) = V ar(wT β̂|X)
h
i
= E wT (β̂ − β 0)(β̂ − β 0)T w|X
h
i
= wT E (β̂ − β 0)(β̂ − β 0)T |X w
= wT V ar(β̂|X)w.
(3.43)
Und bei homoskedastischen und unkorrelierten Fehlern (Annahme (B2b)):
V ar(γ̂|X) = σ02wT (XT X)−1w.
(3.44)
Methoden der Ökonometrie — 3.4 Die Kovarianzmatrix der Parameterschätzer — U Regensburg — 26.01.2010
124
– Beispiel: Varianz des Vorhersagefehlers bei unverzerrter Prognose
Sind die Annahmen (B1), (B2a), (B3) erfüllt und damit auch das Modell
korrekt spezifiziert, ist die Prognose ŷs = Xsβ̂ für (ys, Xs) aus der Grundgesamtheit unverzerrt, da
E[ŷs|X, Xs] = Xsβ 0.
(3.45)
Daraus ergibt sich der Prognosefehler
ys − Xsβ̂ = Xs β 0 − β̂ + us,
dessen Erwartungswert Null ist. Die Varianz des Prognosefehlers lautet deshalb
n o T
V ar(ys − Xsβ̂|Xs, X) = E Xs β 0 − β̂ + us
β 0 − β̂ XTs + us Xs, X
= XsV ar(β̂|X) XTs + E[u2s |Xs] − 2Xs
= σ02Xs(XT X)−1XTs + σ02
Cov(β̂, us|Xs, X)
|
{z
}
=0, bei Unkorreliertheit
(gegeben Annahme (B2b))
−→ Prognosefehlervarianz = Varianz des Schätzers der abhängigen Variablen
+ Varianz von us.
Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010
125
3.5 Die Effizienz unverzerrter KQ-Schätzer
• Effizienz eines Schätzers: Betrachtet man verschiedene Schätzer einer Klasse,
beispielsweise alle unverzerrten Schätzer, wird ein Schätzer der betrachteten Klasse als effizient bezeichnet, wenn er in einem bestimmten Sinne die kleinstmögliche
Varianz aufweist.
• Linearer Schätzer: Ein Schätzer β̃ für den Parametervektor β in einem multiplen linearen Regressionsmodell heißt linear, wenn β̃ = Ay gilt, wobei die
(k × n)-Matrix A ausschließlich von den Regressoren X abhängen darf,
nicht jedoch von y, also E[A|X] = A gilt.
• Der KQ-Schätzer ist ein linearer Schätzer, da A = (XT X)−1XT gilt.
• Ein linearer Schätzer β̃ = Ay ist unverzerrt, wenn die Annahmen (B1), (B2a)
gelten, sowie
AX = I,
da E[β̃|X] = AXβ + AE[u|X].
• Ein unverzerrter Schätzer wird auch als erwartungstreu bezeichnet.
(3.46)
Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010
126
• Das Gauss-Markov-Theorem vergleicht den KQ-Schätzer β̂ = (XT X)−1XT y mit
beliebigen linearen und erwartungstreuen Schätzern β̃ = Ay. Ursprünglich wurde
das Gauss-Markov-Theorem für nicht-stochastische Regressoren X bewiesen, aber
es gilt auch für stochastische Regressoren.
• Gauss-Markov-Theorem:
Unter den Annahmen (B1), (B2a), (B2b), (B3) ist der KQ-Schätzer β̂ unter
allen linearen und unverzerrten Schätzern β̃ der effizienteste Schätzer (best linear unbiased estimator, bzw. kurz BLUE). Das bedeutet, dass die Matrix der
Differenz der Varianz-Kovarianzmatrizen V ar(β̃) − V ar(β̂) positiv semidefinit
ist.
• Beweisskizze: Da β̃ − β̂ = A − (XT X)−1XT y = CXβ + Cu = Cu, gilt, dass
|
{z
}
C
V ar(β̃) = V ar(β̂ + Cu) = V ar(β̂) + V ar(Cu),
h
i
da unter Berücksichtigung von (3.46) und (B2b) E (β̂ − β 0)(Cu)T = 0
gezeigt werden kann. Da jede Varianz-Kovarianzmatrix positiv semidefinit ist, gilt
dies auch für V ar(Cu).
Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010
127
• Die Eigenschaft einer positiv definiten Differenz der Varianz-Kovarianzmatrizen
bedeutet, dass jede Linearkombination der Differenz nicht negativ ist. Insbesondere gilt
(3.47)
V ar(β̃ j ) ≥ V ar(β̂ j ), j = 1, . . . , k.
• Beispiele ineffizienter linearer unverzerrter Schätzer:
– Jeder KQ-Schätzer, der auf ein Regressionsmodell mit redundanten unabhängigen Variablen angewendet wird, siehe Abschnitt 3.7.
– Instrumentvariablenschätzer, siehe Kapitel 6.
• ♯ Technische Ergänzung: Ist X stochastisch, ist es prinzipiell möglich, dass z.B. Annahme
(B3) bzw. (3.46) für eine spezifische Realisation von X verletzt ist, also X nicht vollen Rang
hat und damit (XT X) nicht invertierbar ist. Sind die Regressoren stetig verteilt, dann ist die
Wahrscheinlichkeit hierfür 0.
– Gilt für ein Ereignis C, dass P (C) = 1, dann gilt für das Komplement C c, dass P (C c) = 0.
Man sagt dann, dass das Ereignis C fast sicher (almost surely (a.s.)) eintritt.
– Beispiel für ein fast sicheres Ereignis: Gegeben sei eine stetige Zufallsvariable X ∈ R. Das
Ereignis C = {X ∈ (−∞, a) ∪ (a, ∞)} hat das komplementäre Ereignis C c = {X = a}. Da
Methoden der Ökonometrie — 3.5 Die Effizienz unverzerrter KQ-Schätzer — U Regensburg — 26.01.2010
128
P (X = a) = P (C c) = 0, gilt für C, dass P (C) = 1.
– Enthält X nur diskrete Regressoren, beispielsweise eine Konstante und eine Dummyvariable,
dann besteht eine positive Wahrscheinlichkeit, dass eine Stichprobe gezogen wird, in der
die Dummyvariable für alle Beobachtungen den Wert 1 annimmt und damit X reduzierten
Rang hat und XT X nicht invertierbar ist. Die Annahme
h (B3) istialso für dieses Beispiel
−1
nicht fast sicher erfüllt. In diesem Fall existiert auch E XT X
nicht, da eine positive
Wahrscheinlichkeit vorliegt, dass die Matrix XT X nicht invertierbar ist.
– Die Existenz des unbedingten Erwartungswertes und der unbedingten Varianz des KQ-Schätzers
setzt also voraus, dass die Annahmen (B1) bis (B3) fast sicher gelten.
– Für die Praxis ist es im Allgemeinen ausreichend, die Verteilungseigenschaften gegeben die
Regressoren zu kennen. Dann braucht man sich über diese Problematik keine Gedanken zu
machen.
– Möchte man jedoch Monte-Carlo-Simulationen durchführen, in denen auch X bei jeder Realisation neu gezogen wird, aber mit positiver Wahrscheinlichkeit X reduzierten Rang hat, wird
immer wieder der Fall einer singulären XT X Matrix auftreten und der KQ-Schätzer nicht
berechenbar sein.
Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010
129
3.6 Schätzen der Fehlervarianz
• In diesem Abschnitt werden die Annahmen (B1) bis (B3) vorausgesetzt.
• Im korrekt spezifizierten KQ-Modell gilt
û = MXy
= MXXβ 0 + MXu
= MXu,
da MXX = 0. (Werden die Spalten von X in den zu δ(X) orthogonalen Unterraum δ ⊥(X) projeziert, ergibt dies Nullvektoren.)
Das Residuum ût entspricht einer Linearkombination des Fehlervektors u.
• Varianz des Residuenvektors:
V ar(û|X) = V ar(MXu|X)
T
T
= E MXuu MX|X
= MX(σ02I)MTX
= σ02MX.
Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010
130
Eigenschaften: Die ût sind im Allgemeinen
– korreliert,
– heteroskedastisch mit V ar(ût|X) ≤ V ar(ut) = σ02.
Beweis: Wie in Abschnitt 2.4 bezeichnet et einen Einheitsbasisvektor.
Dann ist
ût = eTt û
und
V ar(ût|X) = V ar(eTt û|X) = eTt V ar(û|X)et = σ02eTt MXet = σ02||MXet||2
Aufgrund der orthogonalen Zerlegung gilt
||et||2 = ||PXet||2 + ||MXet||2,
| {z } | {z }
ht
so dass ||MXet||2 ≤ ||et||2 = 1.
1−ht
Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010
131
• Schätzung der Fehlervarianz:
– Der Schätzer
n
1X 2
2
ût
σ̂ =
n t=1
wird als Maximum-Likelihood-Schätzer für die Fehlervarianz σ 2 bezeichnet, da er sich aus dem Maximum-Likelihood-Ansatz ergibt, siehe Kapitel 7.
Eigenschaften: σ̂ 2 ist verzerrt.
n
X
1
Beweis: Da E(σ̂ 2|X) =
E(û2t |X)
n t=1
n
1X
=
V ar(ût|X)
n t=1
n
X
1
= σ02
||MXet||2.
n t=1
Aus ||PXet||2 = ht folgt schließlich
n
X
2
21
E(σ̂ |X) = σ0
(1 − ht) ≤ σ02.
n t=1
Methoden der Ökonometrie — 3.6 Schätzen der Fehlervarianz — U Regensburg — 26.01.2010
132
Mit Hilfe des Spur-Operators (siehe Übung) kann man zeigen, dass
n
X
t=1
Daraus folgt
(1 − ht) = n − k.
E(σ̂ 2|X) =
• Ein unverzerrter Schätzer ist deshalb
n−k 2
σ0 .
n
n
1 X 2
2
s =
ût .
n − k t=1
(Beachte die Notation: in vielen anderen Ökonometriebüchern, z.B. Wooldridge
(2009), wird dieser Schätzer mit σ̂ 2 bezeichnet.) Die Wurzel daraus wird als der
Standardfehler einer Regression (standard error of regression) bezeichnet.
• Ein unverzerrter Schätzer der Kovarianzmatrix des KQ-Schätzers ist dann
\
V ar(
β̂|X) = s2 (XT X)−1.
Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010
133
3.7 Fehlspezifizierte lineare Regressionsmodelle
• Zur Definition der Informationsmenge siehe Abschnitt 3.1.3.
• Überspezifizierung (overspecification)
– Ein Modell M ist überspezifiziert, wenn es Variablen enthält, die zur Informationsmenge Ωt gehören, aber nicht im DGP enthalten sind. (Beachte:
Überspezifizierte Modelle sind nicht fehlspezifiert.)
– Beispiel: Der DGP sei in
y = Xβ 0 + u,
u|X ∼ IID(0, σ02I),
(3.48)
enthalten ((B1),(B2a),(B2b) gelten), geschätzt wird aber
y = Xβ + Zγ + u,
u|X, Z ∼ IID(0, σ 2I).
(3.49)
Das ‘unrestringierte’ Modell (3.49) enthält ebenfalls den DGP (DGP ∈ M),
da ja die Parameter β = β 0, γ = 0 und σ 2 = σ02 möglich sind.
Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010
134
– Eigenschaften des KQ-Schätzers β̃ des überspezifizierten Modells (3.49):
(i) unverzerrt, da nach dem Frisch-Waugh-Lovell-Theorem der KQ-Schätzer
β̃ der Regression
MZy = MZXβ + Residuen
mit MZ = I−Z(ZT Z)−1ZT mit dem KQ-Schätzer für β in dem überspezifizierten
Modell (3.49) identisch ist. Deshalb gilt
β̃ = β 0 + (XT MZX)−1XT MZu
⇒
E(β̃) = β 0.
(ii) im Allgemeinen im Vergleich zum KQ-Schätzer β̂ des ‘kleinsten’ korrekt spezifizierten Modells (3.48) nicht effizient. Dies gilt aufgrund des GaussMarkov-Theorems, vgl. Abschnitt 3.5. Daraus folgt u.a., vgl. (3.47),
V ar(β˜j |X, Z) ≥ V ar(βˆj |X),
j = 1, . . . , k.
Diese Ungleichung ergibt sich, vgl. (3.42), auch direkt aus
σ02
σ02
≥
,
2
2
SSTj (1 − Rj,X,Z) SSTj (1 − Rj,X )
j = 1, . . . , k.
Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010
135
• Unterspezifizierung (underspecification)
– Ein Modell M ist unterspezifiziert bzw. fehlspezifiziert, wenn der DGP
nicht im Modell enthalten ist.
Beispiel: DGP ist in
y = Xβ 0 + Zγ 0 + u,
u|X, Z ∼ IID(0, σ02I),
γ 0 6= 0,
(3.50)
enthalten, es wird jedoch das Regressionsmodell
y = Xβ + v
geschätzt. Dann ergibt sich für den KQ-Schätzer für (3.51)
β̂ = (XT X)−1XT y
= (XT X)−1XT Xβ 0 + (XT X)−1XT Zγ 0 + (XT X)−1XT u
= β 0 + (XT X)−1XT Zγ 0 + (XT X)−1XT u.
Somit ist der KQ-Schätzer verzerrt, da
E(β̂|X, Z) = β 0 + (XT X)−1XT Zγ 0 6= β 0,
falls die Regressoren in X und Z nicht orthogonal sind.
(3.51)
Methoden der Ökonometrie — 3.7 Fehlspezifizierte lineare Regressionsmodelle — U Regensburg — 26.01.2010
136
– Um die Genauigkeit des KQ-Schätzers des fehlspezifizierten Modells zu bestimmen ist es aufgrund der Verzerrung des Schätzers nicht mehr sinnvoll, die
Kovarianzmatrix heranzuziehen.
– Stattdessen betrachtet man die Matrix des mittleren quadratischen Fehlers (mean squared error, MSE)
T M SE(β̂|X, Z) = E β̂ − β 0 β̂ − β 0 X, Z .
– Beachte: nur für unverzerrte Schätzer ist die Matrix des mittleren quadratischen Fehlers gleich der Varianz-Kovarianzmatrix.
– Man kann leicht zeigen (siehe Übungsaufgabe), dass gilt
M SE(β̂|X, Z) = σ02(XT X)−1 + (XT X)−1XT Zγ0γ0T ZT X(XT X)−1 .
| {z } |
{z
}
Varianz
Verzerrung quadriert
Eine eindeutige Aussage zum Vergleich dieser MSE-Matrix mit der des unverzerrten KQ-Schätzer in (3.50), d.h. M SE(β̃|X, Z) = σ02(XT MZX)−1, ist
nicht möglich, sondern hängt von der Größe der Verzerrung ab.
Zu lesen: Davidson & MacKinnon (2004), Kapitel 3.
Methoden der Ökonometrie — 4 Exakte und asymptotische Tests — U Regensburg — 26.01.2010
137
4 Exakte und asymptotische Tests
4.1 Grundlagen von Tests
Konzepte, die aus den Grundlagen vertraut sind (sein sollten):
• Hypothesentest, Null-/Alternativhypothese, ein-, zweiseitiger Test, Teststatistik,
Testverteilung, Signifikanzniveau, Fehler 1. Art, kritischer Bereich (Ablehnbereich), kritische(r) Wert(e), Fehler 2. Art, Güte, p-Werte
• Konfidenzintervall, Konfidenzniveau
Methoden der Ökonometrie — 4.1 Grundlagen von Tests — U Regensburg — 26.01.2010
138
Präzisierung und Erweiterungen bisheriger Konzepte:
• Exakter Test: Ein Test heißt exakt, wenn die Verteilung unter der Nullhypothese vollständig bekannt ist ⇒ Abschnitt 4.6. Voraussetzung hierfür sind Modellannahmen, die es erlauben, die exakte Verteilung eines Schätzers zu bestimmen.
Beispiel: Normales lineares Regressionsmodell mit streng exogenen Regressoren
(vgl. Abschnitt 4.3 oder BA-Veranstaltung Ökonometrie I).
• Asymptotischer Test: Ein Test heißt asymptotisch, wenn dessen Verteilung
nur asymptotisch bekannt ist, d.h. für eine gegebene Stichprobengröße nur approximiert werden kann. Voraussetzung hierfür sind Modellannahmen, die es erlauben, die asymptotische Verteilung eines Schätzers zu bestimmen ⇒ Abschnitt
4.7.
Beispiele:
– Lineares Regressionsmodell mit streng exogenen Regressoren und Fehlertermen, die nicht normalverteilt sind (vgl. Abschnitt 4.4.2).
– Dynamisches lineares Regressionsmodell mit nicht (streng) exogenen, aber partiell unabhängigen Regressoren (vgl. Abschnitt 4.5).
Methoden der Ökonometrie — 4.1 Grundlagen von Tests — U Regensburg — 26.01.2010
139
• Nominales (Signifikanz)niveau (nominal level):
Wahrscheinlichkeit auf Basis der zugrunde gelegten (ggf. approximativen) Verteilung, die Nullhypothese eines Tests abzulehnen, obwohl sie korrekt ist.
• Tatsächliches (Signifikanz)niveau (actual level):
Wahrscheinlichkeit auf Basis der exakten (möglicherweise unbekannten) Verteilung, die Nullhypothese abzulehnen, obwohl sie korrekt ist. Die wahre (true) Testverteilung unter H0 kann nicht bestimmt werden, wenn sie (in komplexer Weise)
auf unbekannten Eigenschaften, z.B. unbekannten Parametern des DGPs beruht.
• Größe (size) eines Tests:
Unterschiedlicher Sprachgebrauch:
– Tatsächliche Größe = tatsächliches Signifikanzniveau,
Nominelle Größe = nominales Signifikanzniveau.
– Davidson & MacKinnon (2004): Supremum der möglicherweise unterschiedlichen tatsächlichen Signifikanzniveaus über alle möglichen DGPs hinweg. (Präziser
Sprachgebrauch!)
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
140
4.2 Wichtige Wahrscheinlichkeitsverteilungen
• Wiederhole Theorie zu Verteilungs- und Dichtefunktionen (Abschnitt 3.1.1).
• Normalverteilung
– Standardnormalverteilung: z ∼ N (0, 1) mit Dichtefunktion
1
1
φ(z) = √ exp − z 2 .
2
2π
(4.1)
– Normalverteilung: x ∼ N (µ, σ 2) mit Dichte
2
x−µ
1
1 (x − µ)
1
f (x) = √
exp −
=
φ
.
(4.2)
2
2
2 σ
σ
σ
σ 2π
Beachte: (4.2) kann mit Hilfe des eindimensionalen Transformationssatzes
(3.14) abgeleitet werden.
– Multivariate Standardnormalverteilung: z ∼ N (0, In) mit Dichte
1
1 T
φ(z) =
exp − z z .
(4.3)
2
(2π)n/2
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
141
Man beachte, dass diese Darstellung äquivalent ist zu (vgl. hierzu (3.12))
φ(z) = φ(z1)φ(z2) · · · φ(zn).
Ein multivariat standardnormalverteilter Zufallsvektor z setzt sich also aus unabhängig und identisch verteilten (genauer standardnormalverteilten) Zufallsvariablen z1, . . . , zn zusammen. Umgekehrt: n i.i.d. standardnormalverteilte
Zufallszahlen lassen sich als multivariat standardnormalverteilter Zufallsvektor
schreiben. Beachte: Ohne die i.i.d. Voraussetzung geht das nicht!
– Multivariate Normalverteilung:
x = Az + µ ∼ N (µ, Ω)
(4.4)
mit Ω = AAT . Dichtefunktion:
1
1
−1/2
T
−1
(det(Ω))
exp
−
(x
−
µ)
Ω
(x − µ) .
f (x1, x2, . . . , xn) = f (x) =
2
(2π)n/2
(4.5)
– Bivariate Normalverteilung (ohne Matrixnotation):
f (x1, x2) =
2πσ1σ2
1
p
1 − ρ2
(
exp −
1
2(1 − ρ2)
"
x1 − µ 1
σ1
2
− 2ρ
x1 − µ 1 x2 − µ 2
+
σ1
σ2
x2 − µ 2
σ2
(4.6)
2#)
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
Plotten einer bivariaten Dichte mit R:
dev.off()
rm(list = ls()) # cleans workspace
library(mnormt)
# ?dmnorm
# parameters of bivariate normal distribution
mu_1
<- 0
mu_2
<- 0
sigma_1 <- 1
sigma_2 <- 1
rho
<- 0.95
# determine mean vector
Mean
<- c(mu_1,mu_2)
# compute variance-covariance matrix
sigma2_1
sigma2_2
sigma_12
Sigma
<- sigma_1^2
<- sigma_2^2
<- sigma_1 * sigma_2 * rho
<- matrix(c(sigma2_1,sigma_12,sigma_12,sigma2_2),2)
# determine grid on which density is computed
142
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
x1_limit
<- mu_1 + 3*sigma_1
x2_limit
<- mu_2 + 3*sigma_2
ngridpoints <- 100
x1
x2
X
<- seq(-x1_limit,x1_limit,2*x1_limit/(ngridpoints-1))
<- seq(-x2_limit,x2_limit,2*x2_limit/(ngridpoints-1))
<- expand.grid(x1=x1,x2=x2)
# compute density
Density
<- apply(X,1,dmnorm,mean=Mean,varcov=Sigma)
Density
<- matrix(Density,length(x1),length(x2),byrow=FALSE)
# plot surface and contour lines
par(mfrow=c(1,1))
split.screen(c(2,1))
screen(1)
persp(x1, x2, Density, main="Density of Bivariate Normal Distribution for (x1,x2)" ,
theta=35, phi=20 , r=10, shade=0.1, col = 3, ticktype="detailed")
# ?contour
screen(2)
contour(x1,x2,Density,nlevels=50,main="Density of Bivariate Normal Distribution
close.screen(all=TRUE)
for (x1,x2)" )
143
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
144
• χ2-Verteilung
– Sind z1, . . . , zm i.i.d. standardnormalverteilt, z ∼ N (0, Im), so ist die Summe
der quadrieren Zufallsvariablen
m
X
y=
zi2 = zT z = ||z||2
i=1
χ2-verteilt mit m Freiheitsgraden. In Kurzschreibweise:
y ∼ χ2(m).
– Erwartungswert: E(y) = m, Varianz: V ar(y) = 2m.
Pm1 2
Pm
2
2
2
– Wenn y1 =
z
∼
χ
(m
)
und
y
=
z
∼
χ
(m2), m =
1
2
i
i
i=1
i=m1 +1
m1 + m2, unabhängig sind, dann gilt
y = y1 + y2 ∼ χ2(m).
– Ist x ein multivariat normalverteilter (m × 1)-Vektor mit nichtsingulärer Kovarianzmatrix Ω, x ∼ N (0, Ω), dann ist
y = xT Ω−1x ∼ χ2(m).
(4.7)
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
145
Beweis: Da Ω regulär ist, existiert eine Zerlegung Ω = AAT , so dass z =
A−1x die Kovarianzmatrix I aufweist. Dann gilt z ∼ N (0, I) und
h
i
T
−1
T
−1
−1
−1 T
−1
T
T −1
= A AA A
= I.
E A xx A
=A Ω A
– Ist P eine Projektionsmatrix mit rk P = r < m und z ∼ N (0, I), gilt
zT Pz ∼ χ2(r).
(4.8)
Beweis: Man nehme an, dass P auf die r linear unabhängigen Spalten der
(m × r)-Matrix Z projeziert. Dann ist P = Z(ZT Z)−1ZT und man erhält
−1
T
T
T
T
z Pz = |{z}
z Z
Z Z
Z
z.
|{z}
|
{z
}
T
w
w
inverse Kovarianzmatrix mit Rang r
Da für den (r × 1)-Vektor w ∼ N 0, Z Z gilt, gilt wegen (4.7)
−1
T
T
w Z Z
w ∼ χ2(r).
T
– Für m → ∞ gilt, dass eine χ2(m)-verteilte Zufallsgröße in Verteilung gegen
eine normalverteilte Zufallsgröße N (m, 2m) konvergiert.
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
146
• Student t-Verteilung
– Gegeben sei eine standardnormalverteilte Zufallsvariable z ∼ N (0, 1) und eine
davon stochastisch unabhängige χ2-verteilte Zufallsgröße y ∼ χ2(m) mit m
Freiheitsgraden. Dann ist die Zufallsvariable
z
t=
∼ t(m)
(4.9)
1/2
(y/m)
t-verteilt mit m Freiheitsgraden.
– Die Dichte der t-Verteilung ist symmetrisch und glockenförmig.
– Es existieren alle Momente der t-Verteilung bis zum m − 1 Moment. Die tVerteilung mit m = 1 heißt auch Cauchy-Verteilung. Man beachte, dass
weder Erwartungswert noch Varianz existieren, da die Verteilung zu viel Masse
in den Flanken aufweist.
– Erwartungswert: Für m > 1: E(t) = 0.
– Varianz: Für m > 2: V ar(t) = m/(m − 2).
Methoden der Ökonometrie — 4.2 Wichtige Wahrscheinlichkeitsverteilungen — U Regensburg — 26.01.2010
147
– Die t-Verteilung nähert sich mit zunehmender Zahl an Freiheitsgraden der
Standardnormalverteilung an. Man kann hier asymptotisch argumentieren: Mit
m → ∞ gilt plimm→∞y/m = 1, da y eine Summe von m quadrierten unabhängigen standardnormalverteilten Zufallsvariablen ist. Mit Slutzky’s Theorem gilt damit auch plimm→∞(y/m)1/2 = 1 und somit
z
= z ∼ N (0, 1).
plimm→∞
(y/m)1/2
• F -Verteilung
– Gegeben seien zwei stochastisch unabhängige χ2-verteilte Zufallsvariablen y1 ∼
χ2(m1) und y2 ∼ χ2(m2 ). Dann folgt die Zufallsvariable
F =
y1/m1
∼ F (m1 , m2)
y2/m2
einer F -Verteilung mit m1 und m2 Freiheitsgraden.
– Für m2 → ∞ nähert sich die Zufallsvariable m1F einer χ2(m1)-Verteilung
an, da plimm2→∞ y2/m2 = 1.
Falls t ∼ t(m2), dann gilt t2 ∼ F (1, m2).
Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010
148
4.3 Exakte Verteilung des KQ-Schätzers
• Mit bisherigen Annahmen gilt für den KQ-Schätzer
(B3) T −1 T (B1)
β̂ n = (X X) X y = β 0 + (XT X)−1XT u
• Ohne eine Verteilungsannahme für den Fehlervektor u lässt offensichtlich nichts
weiter über die Verteilung von β̂ n sagen, selbst wenn die X gegeben sind.
Wir treffen die Annahme
(B4) Multivariat normalverteilte Fehler gegeben X
u|X ∼ N (0, σ 2I),
wobei für die Fehlervarianz des DGPs σ 2 = σ02 gilt.
Die gemeinsame (auf X bedingte) Dichte lautet (vgl. (4.5))
1
1 T
2
2
f (u1, u2, . . . , un|X; σ ) = f (u|X; σ ) =
exp − 2 u u .
2σ
(2πσ 2)n/2
(4.10)
Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010
149
• Wendet man (4.4) auf β̂ n an, erhält man aufgrund von Annahme (B4), sowie
den bisherigen Annahmen (B2a), (B2b), dass für jede(!) Stichprobengröße
n
2
T
−1
β̂ n|X ∼ N β 0, σ0 (X X)
,
(4.11)
also der KQ-Schätzer gegeben X exakt multivariat normalverteilt ist.
• Wendet man (4.4) auf y = Xβ 0 + u an, erhält man
2
2
y|X ∼ N Xβ 0, σ0 I
⇐⇒ yt|X ∼ indep.dist.N Xtβ 0, σ0 , t = 1, . . . , n.
(4.12)
Für beliebige Parameter erhält man die Erweiterung des normalen einfachen linearen Regressionsmodells (3.28) zum normalen multiplen linearen Regressionsmodell
yt|Xt ∼ indep.dist.N (xt1β1+xt2β2+. . .+xtk βk , σ 2),
β1, . . . , βk ∈ R, σ 2 ∈ R+.
(4.13)
• Beachte, dass eine einfache exakte Verteilung wie (4.11) nur unter der multivariaten Normalverteilungsannahme möglich ist. Wieso?
Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010
150
• Zusammenfassung der Annahmen des normalen multiplen linearen Regressionsmodells
– (B1) Korrekt spezifiziertes Modell: Der DGP ist für β = β 0 im multiplen
linearen Regressionsmodell enthalten.
(B2a): E[u|X] = 0 (X ist (streng) exogen) &
– (B2): u|X ∼ (0, σ 2I) ⇐⇒ (B2b): V ar(u|X) = σ 2I (Fehler sind auf X bedingt homoskedastisch und unkorreliert).
– (B3) X hat vollen Spaltenrang und
– (B4) u|X ∼ N (0, σ 2I).
Beachte, dass die Annahme (B4) die Annahme (B2) enthält.
• Liegt eine von der Normalverteilung verschiedene bedingte Verteilung für den Fehlervektor u vor, lässt sich die exakte Verteilung des KQ-Schätzers im Allgemeinen
nur mit Hilfe von Simulationsmethoden bestimmen.
• Weiß man nichts über die Art der bedingten Verteilung der Fehler, dann ist die exakte Verteilung für endliche n unbekannt, also β̂ n|X ∼ unbekannte V erteilung.
Methoden der Ökonometrie — 4.3 Exakte Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010
151
• Für große Stichproben wurde jedoch bereits gezeigt, dass, unter den Annahmen
(B1) (korrektes Modell) und (siehe Abschnitt 3.3.2)
T
– (A1) plimn→∞ XnX = SXT X und SXT X hat vollen Rang,
– (A2) Es gilt ein LLN für XT u/n, so dass plimn→∞XT u/n = 0,
der KQ-Schätzer konsistent ist, d.h. es gilt
plimn→∞β̂ n = β 0.
Dies konnte mit Hilfe der folgenden Schritte gezeigt werden:
T −1 T
X X
X u
T
−1 T
β̂ − β 0 = (X X) X u =
n
n
T −1
XT u
X X
plimn→∞ β̂ − β 0 = plimn→∞
plimn→∞
= S−1
T X 0 = 0.
X
n
n
Doch was kann bezüglich der Verteilung des KQ-Schätzers gesagt werden?
Zur Beantwortung sind sogenannte Zentrale Grenzwertsätze notwendig.
Methoden der Ökonometrie — 4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers — U Regensburg — 26.01.2010152
4.4 Asymptotik II: Grenzverteilung des KQ-Schätzers
4.4.1 Zentrale Grenzwertsätze
• Motivation
– Sei yt ∼ IID(µ0, σ02), t = 1, 2, . . . , n.
– Dann gilt aufgrund des schwachen Gesetzes der großen Zahl von Chintschin
(vgl. Abschnitt 3.3.1), dass der (KQ-)Mittelwertschätzer konsistent ist:
n
1X
P
µ̂n =
yt −→ µ0 bzw. plimn→∞µ̂n = µ0.
n t=1
– Doch welche marginale Wahrscheinlichkeitsverteilung weist µ̂n auf? Wie lautet
also Fn (z) ≡ P (µ̂n ≤ z)?
Ist yt nicht normalverteilt, lässt sich die exakte Verteilung nicht so einfach
analytisch berechnen, kann aber approximiert werden.
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
153
– Beachte, dass die Varianz V ar(µ̂n) des konsistenten Schätzers µ̂n asymptotisch verschwindet. D.h., die asymptotische Verteilung von µ̂n − µ0 ist
degeneriert und für unsere Zwecke nicht hilfreich.
– Um dieses Kollabieren der Varianz von µ̂n − µ0 zu verhindern, muss man
µ̂n − µ0 mit einem Faktor — z.B. r — multiplizieren, der verhindert,
dass V ar[r · (µ̂n − µ0)] gegen Null konvergiert oder gegen Unendlich
divergiert.
– Die Varianz von r · (µ̂n − µ0) muss also gegen einen festen Wert konvergieren.
√
Dies ist mit r = n der Fall, da V ar(µ̂n) = n−1σ02 und somit
√
σ02
V ar n (µ̂n − µ0) = nV ar (µ̂n − µ0) = n = σ02.
n
– Unter der stärkeren Annahme yt ∼ N ID(µ0, σ02) garantiert derselbe Faktor
√
r = n, dass die exakte Verteilung von µ̂n unabhängig von n gleich bleibt:
√
n (µ̂n − µ0) ∼ N (0, σ02).
(4.14)
– Da dies unabhängig von n gilt, gilt (4.14) auch für n → ∞. Unter der Annah√
2
me yt ∼ N ID(µ0, σ0 ) gilt damit automatisch, dass n(µ̂n −µ0) in Verteilung
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
gegen eine N (0, σ02)-verteilte Zufallsvariable konvergiert:
√
d
n(µ̂n − µ0) −→ N (0, σ02).
154
(4.15)
Hierbei wird N (0, σ02) als die asymptotische Verteilung der Folge von Zu√
fallsvariablen n(µ̂n − µ0) bezeichnet. (In diesem speziellen Fall ist natürlich
N (0, σ02) auch die exakte Verteilung.)
– Doch gegen welche asymptotische Verteilung konvergiert die Folge der Zu√
fallsvariablen n(µ̂n − µ0), wenn yt IID, aber nicht normalverteilt ist?
Die Antwort liefert für diesen Fall der Zentrale Grenzwertsatz (central
limit theorem (CLT)) von Lindeberg und Lévy.
• Zentraler Grenzwertsatz für IID-Zufallsvariablen
(Lindeberg-Lévy Theorem)
Es sei yt ∼ IID(µ0, σ02), t = 1, 2, . . ., |µ0| < ∞, 0 < σ02 < ∞. Für den
Pn
1
Mittelwertschätzer µ̂n = n t=1 yt gilt
√
d
n(µ̂n − µ0 ) −→ N (0, σ02).
(Für eine Beweisidee siehe z.B. Hendry (1995, Section A.5))
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
155
Bemerkungen:
– Man kann alternativ auch
√
d
n(µ̂n − µ0) −→ z,
z ∼ N (0, σ02)
schreiben, aber nicht (wie irrtümlich in Davidson & MacKinnon (2004, Section
4.5, p. 149))
√
plimn→∞ n(µ̂n − µ0) = z ∼ N (0, σ02),
weil dieser Wahrscheinlichkeitslimes nicht existiert; siehe für einen Beweis
hierfür z.B. Davidson (1994, Section 23.1).
√
– Der Faktor r = n, auch Konvergenzrate genannt, bleibt gleich.
– Unabhängig von der Art der marginalen Verteilung von yt konvergiert der
√
mit n skalierte Mittelwertschätzer in Verteilung gegen eine Normalverteilung, solange yt eine endliche Varianz aufweist. Man sagt dann,
dass der Mittelwertschätzer asymptotisch normalverteilt ist.
– Die Varianz
lim V ar
n→∞
√
n(µ̂n − µ0) = σ02
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
156
wird als asymptotische Varianz bezeichnet.
– Der Zentrale Grenzwertsatz sagt nichts darüber aus, wie gut die asymptotische Verteilung die exakte Verteilung für eine gegebene Stichprobengröße n
approximiert.
• Zentraler Grenzwertsatz für heterogene, aber stochastisch unabhängige
Zufallsvariablen
Häufig sind die yt nicht IID, sondern sind nur unabhängig, aber nicht identisch verteilt, zum Beispiel, wenn sie eine unterschiedliche Varianz aufweisen,
√
2
yt ∼ (µ0, σt ), t = 1, 2 . . .. Dann gilt für die Varianz von nµ̂n
!
n
n
n
√
1 X
1X
1X 2
V ar( nµ̂n ) = V ar √
yt =
V ar(yt) =
σ .
n t=1
n t=1
n t=1 t
Sofern die V ar(yt) einige Bedingungen erfüllen, z.B. 0 < V ar(yt) < c < ∞, für
alle t = 1, 2, . . ., gilt ein zentraler Grenzwertsatz
!
n
X
√
1
d
n(µ̂n − µ0) −→ N 0, lim
V ar(yt) .
(4.16)
n→∞ n
t=1
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
157
Bedingungen an die Folge der Varianzen sind notwendig, um folgende Fälle auszuschließen:
– Würde z.B. für ein festes a > 0 gelten, dass V ar(yt) = σ02at → 0 mit t → ∞,
P∞
1
dann ist t=1 V ar(yt) = σ02 1−a
und somit ergibt sich für
√
1
1
→ 0 für n → ∞,
V ar( nµ̂n ) = σ02
n 1−a
√
die Varianz von nµ̂n verschwindet also asymptotisch. Damit ist natürlich
keine (sinnvolle) Grenzverteilung möglich.
– Würde entsprechend gelten V ar(yt) = σ02t → ∞, dann erhält man
√
1 2 n(n + 1)
V ar( nµ̂n) = σ0
→ ∞ mit n → ∞.
n
2
Bedingungen, die sicherstellen, dass eine Grenzverteilung existiert, werden häufig
als Regularitätsbedingungen bezeichnet.
Methoden der Ökonometrie — 4.4.1 Zentrale Grenzwertsätze — U Regensburg — 26.01.2010
158
• Zentrale Grenzwertsätze für Vektoren
– Cramér-Wold Device:
Für eine Folge von Zufallsvektoren xn gilt
d
xn −→ x
dann und nur dann, wenn für alle zulässigen Vektoren λ gilt:
d
λT xn −→ λT x.
– Multivariater Grenzwertsatz:
Gegeben seien die unabhängig verteilten (r × 1)-Zufallsvektoren vt mit Erwartungswert µ0 und Varianz V ar(vt). Dann gilt unter geeigneten RegulaP
ritätsbedingungen für den multivariaten Mittelwertschätzer µ̂n = n1 nt=1 vt
!
n
√
1X
d
n (µ̂n − µ0) −→ N 0, lim
V ar(vt) .
(4.17)
n→∞ n
t=1
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 159
4.4.2 Asymptotische Verteilung des KQ-Schätzers
• Ableitung
√
– Wie im Fall des Mittelwertschätzers muss man auch den KQ-Schätzer mit n
multiplizieren, um eine nicht singuläre asymptotische Varianz-Kovarianzmatrix
zu erhalten. Man erhält unter den Annahmen (B1) und (B3)
XT X −1 1
√ √ XT (y − Xβ 0)
n β̂ n − β 0 =
n
n
T −1 T
√
X X
X u
T
−1 T
√ .
= n(X X) X u =
n
n
| {z } | {z }
≡An
– Aus Abschnitt 3.3.1 ist bekannt, dass falls
d
i) an −→ a und
ii) plim An = A,
d
An an −→ Aa gilt.
≡an
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 160
– Damit i) gilt, muss weiterhin (A1) gelten, so dass
−1
T
plim X X/n
= S−1
XT X
n→∞
gilt.
– Damit ii) gilt, muss Annahme (A2) “verstärkt”werden. Nunmehr muss ein
√
T
Zentraler Grenzwertsatz für X u/ n gelten:
d
1
T
2
√
(A3) n X u −→ w∞ ∼ N 0, σ0 SXT X
Beachte, dass die Annahme (A3) die Gültigkeit von Annahme (B2) voraussetzt.
• Asymptotische Verteilung des KQ-Schätzers
Es gelten für das multiple lineare Regressionsmodell die Annahmen (B1),(B3),
sowie die Annahmen (A1) und (A3). Dann gilt
T −1
√
X X
1 T
√
n β̂ n − β 0 =
X u
n
n
d
−1
2 −1
−→ SXT Xw∞ ∼ N 0, σ0 SXT X .
(4.18)
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 161
• In der Praxis können die Annahmen (A1) und (A3) (high level assumptions)
nicht direkt überprüft werden. Deshalb werden diese Annahmen im Allgemeinen
durch Annahmen ersetzt, die anschaulicher und leichter überprüfbar sind. Dazu
in Kürze mehr.
• Anwendung der asymptotischen Verteilung in der Praxis:
– In heuristischer Schreibweise lässt sich die asymptotische Verteilung auch schreiben als
σ02 −1
approximativ
β̂
∼
N (β 0, SXT X),
n
da sich für gegebene Stichprobengröße n herauskürzt.
– Da SXT X und σ02 unbekannt sind, ist die asymptotische Verteilung so nicht
anwendbar. Die Fehlervarianz σ02 kann mit s2 geschätzt werden und SXT X
durch
n
1 T
1X T
X X=
Xt Xt.
(4.19)
n
n t=1
Damit erhält man in heuristischer Schreibweise
β̂
approximativ
∼
2
T
N β 0, s (X X)
−1
.
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 162
Der zentrale Unterschied zur exakten Verteilung ist, dass die Normalverteilung nur approximativ gilt, jedoch die Approximation mit zunehmender Stichprobengröße n immer genauer wird.
– Möchte man analysieren, wie gut die Approximation der asymptotischen Normalverteilung ist, muss man dies im Allgemeinen mit Hilfe von Computersimulationen, sogenannten Monte-Carlo-Simulationen machen.
• Wann ist Annahme (A3) erfüllt?
Zum Beispiel, wenn eine Zufallsstichprobe vorliegt und Annahme (B2) gilt.
Diese Annahmen können abgeschwächt werden, siehe Abschnitt 4.5.
Beweisskizze:
– Es gilt XT u =
Pn
T
X
t u}t . Zunächst werden E[vt ] und V ar(vt ) bestimmt.
t=1 | {z
≡vt
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 163
– Aus Annahme (B2a) E[u|X] = 0 (strenge Exogenität) folgt, dass
E[ut|X] = 0 für alle t = 1, 2, . . . , n.
E [E[ut|X]|Xt] = E [ut|Xt] = 0.
T
T
E[Xt ut] = E E[Xt ut|Xt] = 0.
Somit ist der Erwartungswert von vt = XTt ut ein Nullvektor.
– Wegen Annahme (B2b) gilt V ar(u|X) = σ02I, sowie
2 V ar(ut|X) = E ut |X = σ02 für alle t = 1, 2, . . . , n.
2 2
E E[ut |X]|Xt = E ut |Xt = V ar(ut|Xt) = σ02.
T 2 T T
2 T
2
V ar(vt) = V ar Xt ut = E Xt ut Xt = E E[ut Xt Xt|Xt] = σ0 E Xt Xt .
Da vt ∼ (0, V ar(vt)) und damit XTt ut ∼ (0, V ar(XTt ut)) gilt, sowie eine
Zufallsstichprobe angenommen wurde, kann auf den Mittelwertschätzer
n
µ̂v,n
1 T
1X T
= X u=
X ut
n
n t=1 t
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 164
der Multivariate Zentrale Grenzwertsatz (4.17) angewendet werden. Man erhält
!
n
√
1X T d
2
nµ̂v,n −→ N 0, σ0 lim
E Xt Xt .
n→∞ n
t=1
Es lässt sich zeigen, dass aufgrund von Annahme (A1) gilt:
n
1X T SXT X = lim
E Xt Xt .
n→∞ n
t=1
Damit erhält man
n
1 X T
d
2
√
Xt ut −→ N 0, σ0 SXT X .
n n=1
(4.20)
– ♯ Verwendung des Cramér-Wold Devices: Wähle beliebigen (k × 1)-Vektor λ.
Mit den bisherigen Ergebnissen gilt
T T T
2 T
λ Xt ut ∼ 0, σ0 λ E Xt Xt λ .
Man betrachtet dann die asymptotischen Eigenschaften des Mittelwertschätzers
n
1X T T
ν̂n =
λ Xt ut
n t=1
Methoden der Ökonometrie — 4.4.2 Asymptotische Verteilung des KQ-Schätzers — U Regensburg — 26.01.2010 165
(= (skalare) Zufallsfolge). Unter der zusätzlichen Voraussetzung, dass
die Stichprobenbeobachtungen stochastisch unabhängig sind und den
üblichen Regularitätsbedinungen, lässt sich der Zentrale Grenzwertsatz für heterogene, aber unabhängige Zufallsvariable (4.16) anwenden und es gilt
!
n
√
1X 2 T T d
nν̂n −→ N 0, lim
σ0 λ E Xt Xt λ .
n→∞ n
t=1
Da dies für alle λ mit ||λ|| > 0 gilt, kann man aufgrund des Cramér-Wold
Devices λ weglassen und man erhält
!
n
n
1 X T
1X T d
2
√
Xt ut −→ N 0, σ0 lim
E Xt Xt
t→∞
n t=1
n t=1
bzw. wieder
n
1 X T
d
2
√
Xt ut −→ N 0, σ0 SXT X .
n n=1
(4.20)
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
166
4.5 Dynamische lineare Regressionsmodelle
• Bisher wurde immer strenge Exogenität E[u|X] = 0 (Annahme (B2a)) vorausgesetzt. Diese schließt Regressionsmodelle mit verzögert abhängigen Variablen als
Regressor aus.
• Beispiele:
– autoregressiver Prozess erster Ordnung (AR(1)-Prozess), vgl. Abschnitt
3.2
yt = ν + αyt−1 + ut, ut ∼ IID(0, σ 2).
(4.21)
– autoregressiver Prozess der Ordnung p (AR(p)-Prozess)
yt = ν + α1yt−1 + · · · αpyt−p + ut,
ut ∼ IID(0, σ 2).
(4.22)
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
167
• Allgemein werden Regressionsmodelle mit verzögert abhängigen Variablen als dynamische lineare Regressionsmodelle bezeichnet
yt = dtν + Ztδ 0 + Zt−1δ 1 + · · · + Zt−m δ m + yt−1α1 + . . . + yt−pαp + ut
(4.23)
Folgende Variablen können enthalten sein, d.h. diese Variablen können Bestandteil
der Informationsmenge It eines dynamischen linearen Regressionsmodells sein:
(Informationsmenge = Menge aller erklärenden Variablen, vgl. Abschnitt 3.1.3)
– deterministische Variablen, zusammengefasst im Zeilenvektor dt: Konstante,
Zeittrend, Saisondummies, etc.,
– verzögerte abhängige Variablen yt−j , j > 0,
– kontemporäre Variablen Zt, so dass der Fehler partiell unabhängig, E(ut|Zt) =
0 (vgl. (3.35)), ist.
– verzögerte Zt, also Zt−j , j > 0,
– (fast) jede Funktion der genannten Variablen.
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
• Mit

Xt = dt Zt Zt−1 · · · Zt−m yt−1 · · · yt−p ,
ν
168

 
 δ0 
 
 
 δ1 
 
 .. 
 
β= 
δ m
 
 
 α1 
 
 .. 
 
(4.24)
αp
lässt sich das dynamische lineare Regressionsmodell (4.23) wieder in der bekannten kompakten Form schreiben
yt = Xtβ + ut
(4.25)
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
169
• Annahmen für asymptotische Schätzeigenschaften
– (C1) ⇐⇒ Annahme (B1): Der DGP ist für β = β 0 in (4.25) enthalten.
(C2a) Partielle Unabhängigkeit der Fehler
E(ut|Xt) = 0,
– (C2): ut|Xt ∼ (0, σ 2)
⇐⇒
(C2b) Bedingte Homoskedastie der Fehler
E(u2t |Xt) = σ 2 ≡ E(u2t ),
wobei für die Fehlervarianz des DGP σ 2 = σ02 gilt.
– (C3) ⇐⇒ Annahme (A1)
n
n
1X T
1X
plim
Xt Xt = lim
E(XTt Xt) = SXT X < ∞,
n→∞ n
n→∞ n
t=1
t=1
SXT X invertierbar.
– (C4a) Strenge Stationarität
– (C4b) E|λT Xtut|2+δ ≤ B < ∞,
δ > 0, für alle feste λ mit λT λ = 1.
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
170
• Bemerkungen:
– Die Annahmen entsprechen den Voraussetzungen in Davidson (2000): vgl.
zu (C2a) (Davidson 2000, Assumption 7.1.1), zu (C2b) (Davidson 2000,
Assumption 7.1.2), zu (C3) Davidson (2000, 7.1.3), zu (C4b) (Davidson
2000, Eq. (7.1.12)).
– Die Unabhängigkeit (C2a) impliziert unkorrelierte Fehler.
– Da partielle Unabhängigkeit (C2a) schwächer ist als strenge Exogenität (B2a),
ist der KQ-Schätzer im dynamischen linearen Regressionsmodell im Allgemeinen verzerrt.
– Damit die Annahme (C3) gilt, muss beispielsweise im Fall eines AR(1)-Prozesses
(4.21) gelten, dass
∗ |α| < 1 (Stabilitätsbedingung) gilt und
∗ E|ut|2+δ ≤ B < ∞, δ > 0, t = 1, . . . , n, d.h. für die Fehlerverteilung über
die Varianz hinaus Momente existieren.
Für AR(p)-Prozesse muss die entsprechende Stabilitätsbedingung erfüllt sein
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
171
(siehe z.B. BA-Veranstaltung Ökonometrie II oder unten genannte MAVeranstaltungen).
Wenn alle Regressoren schwach stationär sind, d.h.
1. E[Xt] = E[Xs] und
2. Cov(Xs, Xt) = Cov(Xs+k , Xt+k ) unabhängig von s, t = 1, . . . und k
gelten,
dann ist auch Annahme (C3) erfüllt (ohne Beweis).
– Strenge Stationarität (Annahme (C4a)) erfordert, dass f (wt, wt+1, . . . , wt+h) =
f (wt+k , wt+k+1, . . . , wt+k+h) für alle t, h, k.
– Annahme (C4b) erfordert, dass für die bedingte Fehlerverteilung über die
Varianz hinaus Momente existieren. (Beispiel: bedingte Normalverteilung, tVerteilung mit mindestens 4 Freiheitsgraden)
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
172
• Asymptotische Schätzeigenschaften des KQ-Schätzers
– Konsistenz:
Unter den Annahmen (C1), (C2), (C3) ist der KQ-Schätzer konsistent, d.h.
plim β̂ n = β 0
(4.26)
n→∞
– Asymptotische Normalverteilung:
Unter Annahmen (C1), (C2), (C3) und (C4a) oder (C4b) ist der KQSchätzer asymptotisch normalverteilt,
√ d
n β̂ n − β 0 −→ N (0, σ02S−1
).
(4.27)
XT X
– Hier ohne Beweise. Die (aufwändigen) Beweise finden sich in der MA-Veranstaltung
Fortgeschrittene Ökonometrie oder in Davidson (2000).
• Bedingte Dichten
– Sind die Stichprobenbeobachtungen abhängig, liegt keine Zufallsstichpro-
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
173
be, so dass (3.20) nicht gilt. Immer gilt wegen (3.10)
f (w1, w2, . . . , wn) = f (wn|wn−1, . . . , w1)
f (wn−1|ww−2, . . . , w3, w2, w1)
···
f (w3|w2, w1)
f (w2|w1)
f (w1)
n
Y
=
f (wt|wt−1, . . . , w3, w2, w1).
(4.28)
t=1
– Die Zerlegung (4.28) ist insbesondere bei Zeitreihendaten sinnvoll, wenn
angenommen wird, dass zukünftige Ereignisse keinen Einfluss auf gegenwärtige
und vergangene Ereignisse haben. Ist wt skalar, spricht man von einem DGP
für univariate Zeitreihen (vgl. AR(p)-Modelle), ansonsten von einem DGP
für multivariate Zeitreihen (vgl. VAR(p)-Modelle).
– Anstelle der gemeinsamen Dichte f (w1, w2, . . . , wn) ist es ausreichend
f (wt|wt−1, . . . , w1), t = 1, . . . , n, zu betrachten.
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
174
– Geht es um dynamische Regressionsmodelle, muss analog zur Zerlegung (3.30)
die Zerlegung
f (wt|wt−1, . . . , w1; θ) = f (yt|Zt, wt−1, . . . , w1; θ y )
f (Zt|wt−1, . . . , w1; θ Z )
(4.29)
existieren.
– Dabei wird bei der Verwendung von dynamischen Regressionsmodellen ausschließlich die bedingte Dichte f (yt|Zt, wt−1, . . . , w1; θ y ) oder Teile davon
modelliert. Dynamische Regressionsmodelle gehören damit zu der Klasse der
bedingten Modelle.
– Es ist möglich, dass die Dichten f (wt), bzw. f (wt|wt−1, . . . , w1) von t abhängen. Sie können beispielsweise von Saisonkomponenten oder von einem Trend
abhängig sein. Die entsprechenden Dichten f (·) werden dann mit dem Index t
versehen oder es wird explizit eine deterministische Variable in die Bedingung
mit aufgenommen.
• Dieser Abschnitt ist nur eine extrem kurze Zusammenfassung. Die MA-Veranstaltungen
Fortgeschrittene Ökonometrie, Quantitative Wirtschaftsforschung II
Methoden der Ökonometrie — 4.5 Dynamische lineare Regressionsmodelle — U Regensburg — 26.01.2010
175
und Applied Financial Econometrics vertiefen verschiedene Aspekte dynamischer ökonometrischer Modelle.
Methoden der Ökonometrie — 4.6 Exakte Tests — U Regensburg — 26.01.2010
176
4.6 Exakte Tests
Exakte Tests setzen im Falle des linearen Regressionsmodells die Annahme normalverteilter Fehler voraus.
Das normale multiple lineare Regressionsmodell ist gegeben durch
y = Xβ + u,
sofern die Annahmen (B1), (B2), (B3) und (B4) erfüllt sind.
4.6.1 t-Tests: Testen einer einzelnen Restriktion
• Der zu testende Parameter wird als β2 bezeichnet. Das normale multiple lineare
Regressionsmodell lautet dann:
y = X1β 1 + x2β2 + u,
u|X1, x2 ∼ N (0, σ 2I).
• Hypothesenpaar: H0 : β2 = β2,H0 versus H1 : β2 6= β2,H0
Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010
177
• t-Test bei bekannter Fehlervarianz σ02:
– Teststatistik:
β̂2 − β2,H0
.
zβ2 =
σβ̂2
– Berechnung: KQ-Schätzer von β2 aus M1y = M1x2β2 + M1u mit
xT2 M1y
β̂2 = T
,
x2 M1x2
σβ̂2 = σ02(xT2 M1x2)−1 und zβ2 =
2
xT2 M1 y
− β2,H0
xT2 M1x2
.
T
−1/2
σ0(x2 M1x2)
– Ableitung der Verteilung: Unter H0 : β2 = β2,H0 ist zβ̂2 eine Linearkombination von u
xT2 M1u
zβ2 =
σ0(xT2 M1x2)1/2
und deshalb normalverteilt mit Erwartungswert 0 und Varianz
E(xT2 M1uuT M1x2|X1, x2) σ02(xT2 M1x2)
V ar(zβ2 |X1, x2) =
= 2 T
= 1.
σ02(xT2 M1x2)
σ0 (x2 M1x2)
Damit gilt unter H0
zβ2 ∼ N (0, 1)
Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010
178
und die Testverteilung ist unter H0 vollständig bekannt.
• t-Test bei geschätzter Fehlervarianz σ̂ 2:
– Teststatistik:
β̂2 − β2,H0
tβ2 =
.
σ̂β̂2
(4.30)
– Berechnung: β̂2 bleibt gleich und die Varianz des Parameterschätzers σβ̂2
2
wird durch
T
y
MX y T
2
2 T
−1
σ̂β̂ = s (x2 MXx2) =
(x2 M1x2)−1
2
n−k
geschätzt, so dass sich unter H0
−1/2
T
y MX y
xT2 M1u
tβ2 =
(n − k)
(xT2 M1x2)1/2
|
{z
}
=
s−1
T
y MX y
σ02(n − k)
−1/2
xT2 M1u
zβ2
=
1/2
(σ02xT2 M1x2)1/2
s2
σ02
(4.31)
Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010
179
ergibt.
– Ableitung der Verteilung:
1. Zähler: zβ2 ∼ N (0, 1).
2. Nenner: Es gilt
(n−k)s2
uT
u
= σ0 MX σ0 = σ2 ∼ χ2(n − k), da u/σ0 ∼
0
T
Ausdruck uσ0 MX σu0 die Projektionsmatrix MX gerade
2
yT
y
M
X
σ0
σ0
N (0, I) und in dem
Rang n − k hat. Damit ergibt sich aufgrund von (4.8) eine χ -Verteilung
mit n − k Freiheitsgraden.
3. Zähler und Nenner sind stochastisch unabhängig.
∗ Zähler:
xT2 M1y = xT2 PXM1y = xT2 M1PX y
da x2 bereits im Unterraum von PX liegt und
PX (I − P1) = PX − PXP1 = PX − P1PX = M1PX
| {z }
M1
gilt. Zusammen mit PXy = Xβ + PXu ergibt sich für den Zähler
xT2 M1y = xT2 M1Xβ + xT2 M1PXu,
Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010
180
dass dieser gegeben X ausschließlich vom Zufallsvektor PXu abhängt.
∗ Nenner:
basiert auf der Wurzel aus der quadratischen Form von MXu/σ0
∗ Gegeben X sind die Zufallsvektoren im Zähler PXu und im Nenner
MXu. Deren Kovarianz ist Null, da
T
E PXuu MX|X1, x2 = PXσ02IMX = σ02PXMX = 0,
da die jeweiligen Unterräume orthogonal zueinander stehen.
∗ Da PXu und MXu beide multivariat normalverteilt sind (durch u), ergibt sich aus der Unkorreliertheit Unabhängigkeit (vgl. Davidson (2000,
Theorem C.4.1, S. 466)).
4. Damit ist die t-Statistik (4.30) gemäß (4.9) unter H0 exakt t-verteilt
mit n − k Freiheitsgraden, da Zähler und Nenner stochastisch unyT
abhängig sind, der Zähler standardnormalverteilt ist, sowie im Nenner σ0 MX σy0
gerade χ2(n − k) verteilt ist und nach Division durch die Zahl der Freiheits-
Methoden der Ökonometrie — 4.6.1 t-Tests: Testen einer einzelnen Restriktion — U Regensburg — 26.01.2010
181
grade gerade s2/σ02 ergibt:
tβ2 =
β̂2 − β2,H0
∼ tn−k
σ̂β̂2
(4.32)
• Mit dem t-Test können auch kompliziertere einzelne Restriktionen getestet werden, z.B. die Skalenelastizität einer Cobb-Douglas Produktionsfunktion
log Y = β1 + β2 log K + β3 log L + u
wobei Y , K und L jeweils Output, Kapital und Arbeit bezeichnen. Die Null- bzw.
Alternativhypothese einer linearen Skalenelastizität
H0 : β2 + β3 = 1 versus H1 : β2 + β3 6= 1
lassen sich mit θ = β2 + β3 schreiben als
H0 : θ = 1 versus H1 : θ 6= 1,
wobei dann mit β3 = θ − β2
log Y = β1 + β2(log K − log L) + θ log L + u
geschätzt wird. Alternativ kann auch ein F -Test durchgeführt werden.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
182
4.6.2 F -Tests: Testen mehrerer Restriktionen
• Häufig impliziert eine (ökonomische) Theorie mehrere Restriktionen bezüglich der
Parameter eines Regressionsmodells.
• Beispiele möglicher linearer Restriktionen:
i) H0 : β2 = βk
ii) H0 : β1 = 1, βk = 0
iii) H0 : β1 = β3, β2 = β3
iv) H0 : βj = 0, j = 2, . . . , k
v) H0 : βj + 2βj+1 = 1, βk = 2.
• Alle q ≤ k linearen Restriktionen können in folgender Form dargestellt werden:
H0 : Rβ = r vs. H1 : Rβ 6= r
(4.33)
wobei die (q × k)-Matrix R und der (q × 1)-Vektor r gegeben und fest sind. Bei
der Formulierung muss natürlich sichergestellt werden, dass alle Restriktionen in
(4.33) widerspruchsfrei und nicht redundant sind.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
Darstellungen der Beispiele:
i) H0 : β2 = βk ⇔ β2 − βk = 0:
ii) H0 : β1 = 1, βk = 0:


β1


 β2 



 β 
3 

0 1 0 · · · 0 −1  . 
 = 0.
 . 


βk−1


βk
 
β
!  1

1 0 ··· 0 
β2 
.=

0 0 ··· 1 
.
 
βk
!
1
0
.
183
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
iii) H0 : β1 = β3, β2 = β3:
 
! β1

1 0 −1 
β2 =
0 1 −1  
β3
!
0
0
.
iv) H0 : βj = 0, j = 2, . . . , k:
 
 β

 
1
0 1 0 ··· 0  
0
 β2 

 
0 0 1 · · · 0  
0
 

 
 . . . . .  β3  =  .  .
. . . .. .  
.


.
 .

 
 
0 0 0 ··· 1
0
| {z } βk
| {z }
((k−1)×1)
0 Ik−1
184
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
185
v) H0 : βj + 2βj+1 = 1, βk = 2:


β1


 .. 

!



0 ··· 1 2 ··· 0 
β
 j =


0 · · · 0 0 · · · 1 βj+1


 .. 


βk
!
1
2
.
• Wie lassen sich mehrere Hypothesen in einer skalaren Teststatistik zusammenfassen?
Idee: Durch Summieren der quadrierten Abweichungen
T Rβ̂ − r > kritischer Wert.
Rβ̂ − r
Eine anwendbare Teststatistik erfordert jedoch die Kenntnis der
Verteilung der Teststatistik und damit auch von Rβ̂ − r.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
Unter den Annahmen (B1), (B2), (B3), (B4) gilt:
– Ist H0 : Rβ = r, wobei β = β 0 enthalten ist, erfüllt, erhält man:
E Rβ̂ − r|X = Rβ 0 − r = 0
T V ar Rβ̂ − r|X = E Rβ̂ − r Rβ̂ − r X ,
T = RE β̂ − β 0 β̂ − β 0 X RT
= RV ar β̂|X RT
−1 T
2
T
= σ0 R X X
R .
– Da
R β̂ − β 0
−1 T
=R X X
X u,
T
gilt aufgrund der Eigenschaften der multivariaten Normalverteilung
−1
R β̂ − β 0 |X ∼ N 0, σ02 R XT X
RT ,
186
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
187
−1 T
wobei R X X
R Rang q hat, da rk(AB) = rk(A), wenn B nicht
singulär ist (vgl. Schmidt & Trenkler 2006, Regel 3.2.7).
T
– Deshalb für die gewichtete
Summe
der Quadrate des (q ×1)-verteilten normalverteilten Vektors R β̂ − β 0 (siehe Eigenschaften der χ2-Verteilung (4.7))
unter Kenntnis der Fehlervarianz σ02, dass
T h
i−1 −1
R β̂ − β 0
σ02R XT X
RT
R β̂ − β 0 ∼ χ2q .
Unter H0 gilt Rβ̂ − r = R β̂ − β 0 , so dass ebenso gilt
T h
i−1 −1
Rβ̂ − r
σ02R XT X
RT
Rβ̂ − r ∼ χ2q .
Als Teststatistik sollte also eine gewichtete anstatt einer ungewichteten Summe der quadrierten Abweichungen von Rβ̂ − r verwendet werden, da hierfür
die Verteilung bekannt ist.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
188
• In der Praxis ist im Allgemeinen die Fehlervarianz σ02 unbekannt und muss
geschätzt werden. Es gilt (n − k)s2/σ02 ∼ χ2(n − k), siehe vorherigen Abschnitt
T T
T
2
4.6.1 zum t-Test. Da E X uu MX = σ0 E X MX = 0 folgt aufgrund
der multivariaten Normalverteilungsannahme (B4), dass die Zufallsvektoren im
Zähler und Nenner unabhängig sind und somit auch die χ2-verteilten Zufallsvariablen im Zähler und Nenner, so dass deren Verhältnis korrigiert um die Zahl der
Freiheitsgrade F -verteilt ist.
• Die F -Teststatistik erhält man, indem man jeweils im Zähler und Nenner durch
die Zahl der Freiheitsgrade dividiert
T h
−1 T i−1 2
T
Rβ̂ − r
R
σ0 R X X
Rβ̂ − r /q
F =
[(n − k)s2/σ02] /(n − k)
T h
i−1 −1
R XT X
RT
Rβ̂ − r /q
Rβ̂ − r
=
(4.34)
2
s
T
h
i−1 −1
β̂ − β 0 RT R XT X
RT
R β̂ − β 0 /q
=
∼ Fq,n−k (4.35)
yT MXy/(n − k)
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
189
Die F -Statistik (4.34) ist also F -verteilt mit q und n − k Freiheitsgraden.
• Entscheidungsregel für F -Test:
Verwerfe H0 : Rβ = r, falls
(
χ2q,1−α
F >
Fq,n−k,1−α
falls σ02 bekannt
falls σ02 unbekannt.
• Gemeinsame Ausschluss/Nullrestriktionen (joint exclusion restrictions): weitere Berechnungsmöglichkeiten der F -Statistik
– Man kann immer die Variablen in einem multiplen Regressionsmodell so umordnen, dass alle Ausschluss-/Nullrestriktionen bezüglich β in dem Modell
y = |{z}
X1 β 1 + |{z}
X2 β 2 + u,
(n×k1)
(n×k2)
k = k1 + k2, in β 2 zusammengefasst werden.
Das Hypothesenpaar lautet dann:
H0 : βj = 0, j = k1 + 1, . . . , k1 + k2 ⇔ β 2 = 0 versus
H1 : β21 6= 0 oder . . . oder β2k2 6= 0.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
Die Nullrestriktionen können dann geschrieben werden als


β
 1 

  ..   



0
0 ··· 0 1 0 ··· 0 

 βk −1  
0 · · · 0 0 1 · · · 0  1  0
  


 . . . . . . .   βk1  =  . 
 .
. .. . . . .. . 

  

 β
k
+1
 1 
0
0 ··· 0 0 0 ··· 1  . 


{z
} . 
|
0k2×k1 Ik2
βk
0k2×k1 Ik2 β = 0k2×1.
190
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
191
In diesem Fall existieren weitere Berechnungsmöglichkeiten der F -Statistik
(vgl. auch Ökonometrie I), indem man das restringierte und das unrestringierte Modell getrennt schätzt:
i) Restringierte Regression: Regressiere y ausschließlich auf X1 und speichere die Residuenquadratsumme SSR1 = ũT ũ oder im Fall einer in X1
enthaltenen Konstanten auch R12.
ii) Unrestringierte Regression: Regressiere y auf X = X1 X2 und
speichere SSR = ûT û bzw. R2 .
Die weiteren Berechnungsmöglichkeiten sind (beachte q = k2):
(SSR1 − SSR)/k2
F =
(4.36)
SSR/(n − k)
ũT ũ − ûT û /k2
=
ûT û/(n − k)
(R2 − R12)/k2
=
(4.37)
2
(1 − R )/(n − k)
∼ Fk2,n−k .
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
192
– 1. Beweismöglichkeit: mit Hilfe der Formel zur Inversion partitionierter
Matrizen (siehe Übungsaufgaben)
– 2. Beweismöglichkeit: mit Hilfe des Frisch-Waugh-Lovell Theorems:
i) Man beachte, dass die Residuenquadratsumme des unrestringierten Modells
SSR = yT MXy
mit Hilfe der Zerlegung der Residuenquadratsumme und des Frisch-WauchLovell Theorems auf Basis der Regression
M1y = M1X2β 2 + Residuen
auch geschrieben werden kann als
SSR = T SS − ESS
= yT M1y − yT M1PM1X2 M1y
T
= y M1 y − y
T
= y M1 y − y
T
T
−1 T
T
M1 M1X2 X2 M1M1X2
X2 M1 M1y
|
{z
PM1 X2
−1 T
T
M1X2 X2 M1X2
X2 M1y.
}
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
193
ii) Der Zähler in der F -Statistik (4.36) ist dann
h
i
−1
SSR1 − SSR = yT M1y − yT M1y − yT M1X2 XT2 M1X2
XT2 M1y
−1 T
T
T
= y M1X2 X2 M1X2
X2 M1y
(4.38)
= uT PM1X2 u.
Das letzte Gleichheitszeichen gilt, da unter H0 M1y = M1u (verifizieren!).
iii) Da PM1X2 eine Projektionsmatrix mit Rang k2 ist, folgt aus der Eigenschaft
(4.8) der χ2-Verteilung, dass bei normalverteilten Fehlern unter H0
uT
u
SSR1 − SSR =
PM1X2 ∼ χ2(k2).
σ
σ
Für den Nenner gilt
uT
u
SSR =
MX ∼ χ2(n − k).
σ
σ
Zähler und Nenner sind also jeweils χ2-verteilt.
Die Zufallsvektoren im Zähler PM1X2 u und Nenner MXu haben Kovarianz
Null, da
MX M1 = M1 MX
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
194
und folglich
MXM1X2 = M1MXX2 = 0
(die Spalten von X2 sind im orthogonalen Raum zu MX enthalten) und
T
somit E PM1X2 uu MX = 0. Aufgrund der multivariaten Normalverteilungsannahme sind die Zufallsvektoren damit auch stochastisch unabhängig.
Damit gilt aufgrund der Definition der F -Verteilung
F =
(SSR1 − SSR)/k2
∼ Fk2,n−k
SSR/(n − k)
– Durch (4.38) ergibt sich noch eine weitere Schreibweise der F -Statistik
−1 T
T
T
y M1X2 X2 M1X2
X2 M1y/k2
F =
(4.39)
T
y MXy/(n − k)
• Die F -Statistik (4.36) kann auch für allgemeine lineare Restriktionen verwendet
werden. Dazu muss jedoch das Modell unter H0 geeignet umgeformt werden,
siehe Ökonometrie I.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
195
• Weitere bekannte F -Tests:
– Einzelne Hypothese: F -Statistik ist Quadrat der t-Statistik und entspricht
einem zweiseitigem t-Test.
– Chow-Strukturbruchtest: Test auf Konstanz aller/einiger Parameter über
2 Teilstichproben, jeweils mit I und II indiziert, hinweg. Sind diese nicht
konstant, muss man für jede Teilstichprobe eine eigene Schätzung durchführen
yI = XI β I + uI
yII = XII β II + uII .
Die Nullhypothese (Parameterkonstanz) lautet
H0 : β I = β II .
Unter H0 ist also das Modell
y = Xβ + u
zu schätzen.
Methoden der Ökonometrie — 4.6.2 F -Tests: Testen mehrerer Restriktionen — U Regensburg — 26.01.2010
196
Unter H1 hingegen können sich Elemente von β II und β I unterscheiden und
man schätzt in Matrixschreibweise mit
!
!
XI
yI
, X=
y=
yII
XII
das Modell
y = Xβ +
O
XII
!
γ + u.
Das Hypothesenpaar lautet:
H0 : γ = 0 versus H1 : γj 6= 0 für mindestens ein j.
Sind zusätzlich zu (B1), (B2), (B3), (B4) die Teilstichproben stochastisch
unabhängig, ist der Chow-Test exakt.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
197
4.7 Asymptotische Tests
Das normale multiple lineare Regressionsmodell ist gegeben durch
y = Xβ + u,
u|X ∼ N ID(0, σ 2I).
Ist die Annahme (B2) (streng) exogener Regressoren beispielsweise durch verzögerte
endogene Variable als Regressoren oder die Annahme (B4) normalverteilter Fehler
nicht erfüllt, dann ist die exakte Verteilung der t- und F -Statistiken aus Abschnitt
4.6 im Allgemeinen nicht analytisch bestimmbar.
Unter den Annahmen
• (B1), (B3), (A1) und (A3) oder alternativ
• (C1), (C2), (C3) und (C4a) oder (C4b)
lässt sich jedoch zeigen, dass diese Tests asymptotisch gültig sind.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
Asymptotischer t-Test
• Der im linearen Regressionsmodell
y = X1β 1 + x2β2 + u,
u|X ∼ IID(0, σ 2I).
zu testende Parameter ist β2.
• Das Hypothesenpaar lautet: H0 : β2 = β2,H0 versus H1 : β2 6= β2,H0 .
• Teststatistik
β̂2 − β2,H0
zβ2
tβ2 =
=
.
1/2
2
2
σ̂β̂2
(s /σ )
• Ableitung der asymptotischen Verteilung
1. Nenner: Unter den getroffenen Annahmen ist, gilt unter H0
2
2 1/2
plimn→∞ s /σ
= 1.
2. Zähler: Der Zähler in (4.31) wird mit n−1/2 erweitert zu
n−1/2xT2 M1u
σ(n−1xT2 M1x2)1/2
198
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
199
und hat offensichtlich Erwartungswert 0 und die Varianz 1, da die Varianz des
Zählers gerade dem Quadrat des Nenners entspricht (beides verifizieren!).
3. Unter der Annahme, dass die Regularitätsbedingungen für einen multivariaten
Zentralen Grenzwertsatz für n−1/2xT2 M1u (also für (A1), (A3)) erfüllt sind,
resultiert
d
tβ2 −→ N (0, 1).
Dann erhält man unter H0 asymptotisch wieder die Standardnormalverteilung
und alle Eigenschaften des t-Tests bleiben asymptotisch gültig.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
200
Asymptotischer F -Test
• Theorem über stetige Abbildungen (Continuous Mapping Theorem)
– Sei h(·) eine stetige Funktion.
d
d
Falls θ̂n −→ θ, dann gilt h(θ̂n) −→ h(θ).
(4.40)
(Vgl. z.B. Davidson (2000, Theorem 3.1.3).)
– Für Folgen von (k × 1)-Zufallsvektoren θ̂ n gilt entsprechend:
Gegeben sei eine stetige vektorwertige Funktion h : Rk → Rm.
d
d
Falls θ̂ n −→ θ, dann gilt h(θ̂ n) −→ h(θ).
(4.41)
(Vgl. z.B. Vaart (1998, Theorem 2.3).)
P
Vergleiche hierzu das Slutsky-Theorem für Konvergenz in Wahrscheinlichkeit (−→)
in Abschnitt 3.3.1.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
201
• Ableitung asymptotischer F -Test
Wenn die relevanten Annahmen, vgl. Beginn des Abschnitts, erfüllt sind, so dass
√ d
2 −1
n β̂ − β 0 −→ N 0, σ0 SXT X
gilt, folgt aus dem Theorem über stetige Abbildungen (4.41) und (4.7) eine asymptotische χ2-Verteilung:
T −1
d
2
n β̂ − β 0
σ02S−1
β̂
−
β
−→
χ
(k).
(4.42)
T
0
X X
d
Unter Anwendung von Anan −→ Aa, vgl. Abschnitt 3.3.1, erhält man zusammen
mit plimn→∞ s2 = σ02 und (A1) (bzw. (C3)) die asymptotische Verteilung der
F -Statistik (4.34)
T d
2
T
−1 T −1
qFn = R(β̂ − β 0)
s R(X X) R
R(β̂ − β 0) −→ χ2(k),
(4.43)
da unter H0 : r = Rβ 0.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
202
• Für den Fall von Ausschlussrestriktionen lässt sich unter H0 die F -Statistik (4.34)
alternativ schreiben als (4.39). In diesem Fall gilt natürlich auch
−1 T
T
T
y M1X2 X2 M1X2
X2 M1y/q d
2
−→
χ
(k).
(4.44)
qFn = q
yT MXy/(n − k)
• Da gilt (vgl. Abschnitt 4.2), dass für n → ∞ eine Folge von F -verteilten Zufallsvariablen Xn ∼ F (q, n − k) gegen eine χ2-Verteilung konvergiert,
d
qXn −→ χ2(q),
(4.45)
kann Fn auch durch eine F (q, n − k)-Verteilung approximiert werden, die in
kleinen Stichproben sogar häufig eine bessere Approximation liefert als die χ2Verteilung.
Methoden der Ökonometrie — 4.7 Asymptotische Tests — U Regensburg — 26.01.2010
203
Tatsächliche versus nominale Größe
• Nominale Größe: entspricht dem gewählten Signifikanzniveau eines Tests.
• Tatsächliche Größe: Verwendete Teststatistik τ̂ (z.B. t-Test oder F -Test) hat
unter H0 im allgemeinen eine unbekannte Verteilung, die von der Stichprobengröße und dem DGP abhängt. Zusammen mit dem gewählten Signifikanzniveau
ergibt sich der (unbekannte) Fehler 1. Art. Dieser wird als tatsächliche Größe
eines Tests bezeichnet.
• Da bei exakten Tests die Verteilung für jeden DGP und Stichprobengröße bekannt
ist, stimmen nominale und tatsächliche Größe überein.
• Bei asymptotischen Tests ist die Übereinstimmung von nominaler und tatsächlicher
Größe umso besser, je genauer die asymptotische Verteilung die tatsächliche Verteilung (die im Allgemeinen vom DGP und der Beobachtungszahl abhängt) approximiert. Für vorbestimmte DGPs lässt sich der Grad der Übereinstimmung mit
Monte-Carlo-Simulationen feststellen.
Methoden der Ökonometrie — 4.8 Monte-Carlo-Tests und Bootstraptests — U Regensburg — 26.01.2010
204
4.8 Monte-Carlo-Tests und Bootstraptests
• Definition: Eine Teststatistik, deren Verteilung nicht vom DGP abhängt, der die
zugrundeliegende Stichprobe generiert hat, heißt pivot.
• Die Nullhypothese spezifiziert selten den kompletten DGP. Ist dies der Fall, spricht
man von einer einfachen Hypothese (simple hypothesis).
• I.A. enthält das Modell unter der Nullhypothese mehrere verschiedene DGPs: zusammengesetzte Hypothese (compound hypothesis).
Hängt die exakte Verteilung eines Tests einer zusammengesetzten Nullhypothese
vom DGP ab, der die Stichprobendaten generiert hat, ist die Teststatistik nicht
pivot, da sich je nach spezifischen DGP bei gleicher Nullhypothese die Testverteilung ändert. Eine Ausnahme bilden hierzu exakte Tests.
• Mögliche Auswege für alle anderen Fälle:
– Bereits aufgezeigt: asymptotisch pivote Tests.
– Bei Kenntnis des DGP: Monte-Carlo-Tests.
– Ohne Kenntnis des DGP: Bootstraptests.
Methoden der Ökonometrie — 4.8.1 Monte-Carlo-Tests — U Regensburg — 26.01.2010
205
4.8.1 Monte-Carlo-Tests
• Empirische Verteilungsfunktion (empirical distribution function) der
beobachteten Stichprobenelemente xt, t = 1, . . . , n:
n
1X
F̂ (x) =
1(xt ≤ x),
n t=1
(4.46)
wobei 1(·) die Indikatorfunktion
1(A) =
(
1 falls A wahr
0 falls A falsch
(4.47)
bezeichnet.
Fundamental Theorem of Statistics
Die empirische Verteilungsfunktion ist im Fall i.i.d.-verteilter Zufallsvariablen konsistent
plim F̂ (x) = F (x).
(4.48)
Die i.i.d.-Annahme kann abgeschwächt werden.
Methoden der Ökonometrie — 4.8.1 Monte-Carlo-Tests — U Regensburg — 26.01.2010
206
• Der exakte p-Wert eines Tests mit rechtsseitigem kritischen Wert ergibt
sich aus
p(τ̂ ) = 1 − F (τ̂ ) = 1 − P (τ ≤ τ̂ ) = P (τ > τ̂ ),
(4.49)
wobei F (·) die exakte Verteilung der berechneten Teststatistik τ̂ ist.
Zur Erinnerung: Lehne H0 ab, falls p(τ̂ ) < α bzw. τ̂ > cα.
Ist F (·) unbekannt, lässt sich die Testverteilung durch die empirische Verteilungsfunktion beliebig genau approximieren, sofern der DGP vollständig bekannt
ist oder der Test pivot ist. Je größer die Zahl der Replikationen (Monte-CarloSimulationen) B, desto genauer die Approximation. Der computer simulierte
p-Wert ist
B
1X
p̂(τ̂ ) = 1 − F̂ (τ̂ ) = 1 −
1(τj∗ ≤ τ̂ ),
(4.50)
B j=1
wobei τj∗ der Wert der Teststatistik in der j-ten Simulation unter H0 ist.
• Die Durchführung eines Monte-Carlo-Tests erfordert die Generierung von Zufallszahlen mit Hilfe eines Zufallszahlengenerators, siehe hierzu z.B. Davidson & MacKinnon
(2004, S. 157-159).
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
207
4.8.2 Bootstraptests
• Die Idee eines Bootstraptests ist, den unbekannten DGP zu schätzen und dann
die Technik des Monte-Carlo-Tests anzuwenden.
• Notwendige Voraussetzung: Alle notwendigen Eigenschaften des DGPs können
konsistent mit geeigneter Konvergenzrate geschätzt werden.
• Beispiel: Multiples Regressionsmodell
yt = β1xt1 + · · · + βk xtk + ut,
ut|X ∼ IID(0, σ 2)
Es soll
H0 : βk = 0 versus H1 : βk 6= 0
getestet werden. Der Bootstraptest funktioniert, wenn u.a.
√
– β und σ 2 konsistent mit Rate n geschätzt werden können und
– die Verteilung von u gegeben X bekannt ist oder entsprechend geschätzt
werden kann.
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
208
• Generieren der Bootstrapstichproben
– Schätzen von β mit einem konsistenten und möglichst effizienten Schätzer
und berechnen der gewünschten Teststatistik τ̂ .
∗ Man kann β unter H1 schätzen und erhält den KQ-Residuenvektor û.
T
∗ Man kann β1 . . . βk−1 unter H0 schätzen und erhält den KQ-Residuenvektor
ũ.
Im Allgemeinen erhält man bessere Ergebnisse, wenn man die Schätzung unter
H0 durchführt.
– Annahme i.i.d.normalverteilter Fehler (Annahme (B4)):
Parametrischer Bootstrap
Man kann dann σ 2 schätzen und für jede Bootstrapstichprobe (yj∗, Xj ) die n
Fehlervariablen in u∗j aus N (0, s2I) generieren.
1. Dann lässt sich für die j-te Bootstrapstichprobe der Vektor der abhängigen
Variablen unter H0 iterativ generieren durch
∗
yjt
= β̃1xt1 + · · · + β̃k−1xt,k−1 + u∗jt,
t = 1, 2, . . . , n.
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
209
2. Für die j-Stichprobe (yj∗, Xj ) lässt sich dann die Teststatistik, hier der
quadrierte t-Test (=F -Test) berechnen, indem das unrestringierte Modell
geschätzt wird
∗
∗ 2
∗
τj = tj , t∗j = β̂jk
/σ̂j,∗ β̂ ∗ .
jk
Nach B Replikationen berechnet man dann die empirische Verteilungsfunktion
und erhält den Bootstrap p-Wert gemäß (4.50) aus
p̂(τ̂ ) = 1 − B
−1
B
X
j=1
1
τj∗
≤ τ̂ .
– Annahme i.i.d. verteilter Fehler (Annahme (B2)):
Nichtparametrischer / semiparametrischer Bootstrap
1. Unter H0 sind die KQ-Parameterschätzer konsistent und damit auch die
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
210
geschätzten Fehler
plim ũt = plim yt − β̃n1xt1 + · · · + β̃n,k−1xt,k−1
n→∞
n→∞
= yt − xt1 plim β̃n1 + · · · + xt,k−1 plim β̃n,k−1
n→∞
n→∞
= yt − β1xt1 + · · · + βk−1xt,k−1 = ut.
2. ’Asymptotisch’ kann man also auch aus den Fehlern mit Zurücklegen ziehen (resampling), denn aufgrund des Fundamental Theorems of Statistics
approximiert die empirische Verteilung der ut’s die wahre Fehlerverteilung.
3. Statt der unbekannten Fehler lassen aufgrund der Konsistenz des Residuenschätzers auch die Residuen verwenden.
4. Verfeinerungen:
∗ reskalierte Residuen (rescaled residuals)
1/2
n
ũ+
=
ũ
.
t
t
n−k
Damit wird die Varianz der Residuen, die ja kleiner ist als die Varianz
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
211
der Fehler, so korrigiert, dass sie der geschätzten Varianz der Fehler σ̂ 2
entspricht.
∗ zentrierte und reskalierte Residuen (centered residuals)
1/2
n
¯
ũ+
=
(ũ
−
ũ)
.
t
t
n−k
Dies ist notwendig, wenn z.B. das Regressionsmodell keine Konstante
enthält, denn dann ist der Mittelwert der Residuen ungleich Null und
damit wird der Bootstraptest verzerrt.
– Wild Bootstrap und Block Bootstrap: Im Fall heteroskedastischer und
autokorrelierter Fehler funktionieren die obigen Verfahren nicht. Hier sind kompliziertere Verfahren notwendig.
• Zahl der Bootstrapreplikationen: Wähle B so, dass das Quantil, siehe Abschnitt 4.9.1, für Fehler 1. Art exakt zu bestimmen ist:
– Insgesamt gibt es B +1 Rangpositionen r für die Teststatistik τ̂ . Beispiel: B =
2, wobei die Ränge absteigend angeordnet werden (vgl. Davidson & MacKinnon
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
212
(2004), S. 164):
r = 2 : τ̂ < min(τj∗ ),
j
r = 1 : min(τj∗) < τ̂ < max(τj∗),
j
j
r = 0 : max(τj∗) < τ̂
j
– Dividiert man die Rangposition r durch die Anzahl der Bootstrapreplikationen
B erhält man den p-Wert für τ̂ , denn 0 = B0 ≤ Br ≤ B
= 1.
B
– Damit lehnt der Bootstraptest unter H0 ab, wenn r/B < α, wobei α das
gewählte Signifikanzniveau bezeichnet. Es gilt also r < Bα.
– Es bezeichne ⌊x⌋ die größte ganzzahlige Zahl, die kleiner x ist. Dann lässt
sich für gegebenes Bα die Anzahl an Rängen, für die H0 abgelehnt wird,
ausdrücken als ⌊Bα⌋ + 1.
Beispiel: B = 9 und α = 0.5. Damit wird für r = 0, 1, 2, 3, 4 die Nullhypothese
abgelehnt. Es gibt ⌊Bα⌋ + 1 = ⌊4.5⌋ + 1 = 5 Rangpositionen mit Ablehnung.
– Da es insgesamt B + 1 Rangpositionen gibt, muss
⌊Bα⌋ + 1
B+1
gleich α sein. Gegeben α bestimmt man B also aus
α(B + 1) = ⌊αB⌋ + 1.
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
213
Für α = 0.05 ist beispielsweise für B = 99 sinnvoll.
• Bootstraptest statt asymptotischem Test?
Wenn
– die Verteilung der Teststatistik asymptotisch pivot ist und
– die Fehler des Modells i.i.d. sind (andernfalls müssen kompliziertere Bootstrapmethoden herangezogen werden, z.B. Block Bootstrap bei korrelierten
Fehlern),
dann konvergiert die Verteilung des Bootstraptests mit wachsendem Stichprobenumfang schneller gegen die (unbekannte) exakte Verteilung der Teststatistik als
die asymptotische Verteilung, genauer gesagt mit n−1 anstatt mit n−1/2. Dies
erklärt die weite Verbreitung von Bootstrap.
• Achtung: Ist die Teststatistik nicht asymptotisch pivot, dann haben der Bootstraptest und der asymptotische Test die gleiche Konvergenzrate, Bootstrap bringt
dann also nichts.
• Bootstrapverfahren lassen sich auch unter bestimmten Bedingungen bei dy-
Methoden der Ökonometrie — 4.8.2 Bootstraptests — U Regensburg — 26.01.2010
214
namischen Regressionsmodellen anwenden. Dann wird für die j-te Stichprobe
(yj∗, X∗j ) auch X∗j generiert. Zur Durchführung in einem einfachen Beispiel siehe
Davidson & MacKinnon (2004, p. 160).
• Weiterführende Literatur: z.B. Horowitz (2001), Horowitz (2003).
Methoden der Ökonometrie — 4.9 Konfidenzintervalle und -ellipsoide — U Regensburg — 26.01.2010
215
4.9 Konfidenzintervalle und -ellipsoide
4.9.1 Konfidenzintervalle
• Definition: Konfidenzintervall:
– Ein Intervall, das auf Basis geschätzter Parameter mit Wahrscheinlichkeit 1−α
den wahren Parameterwert θ0 enthält, heißt Konfidenzintervall.
– Fasst man alle Nullhypothesen (bzgl. eines Parameters),
H 0 : θ = θ H0 .
die zu einem gegebenen Signifikanzniveau von α nicht abgelehnt werden, in
einem Intervall zusammen, erhält man ein Konfidenzintervall mit Konfidenzniveau
1 − α.
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
216
– Formal: Gegeben eine nichtnegative Teststatistik τ (y, X, θH0 ) und ein Signifikanzniveau α enthält ein Konfidenzintervall alle θH0 , für die gilt
o
n
KI = θH0 |PθH0 (τ (y, X, θH0 ) ≤ cα) = 1 − α ,
wobei PθH0 (·) bedeutet, dass die Wahrscheinlichkeit unter der jeweiligen Nullhypothese H0 berechnet wird und cα der kritische Wert zum Signifikanzniveau
α ist.
– Die Grenzen [θl , θu] des Konfidenzintervalls ergeben sich durch Lösung von
τ (y, X, θ) = cα
nach θ.
• Die Länge und Grenzen von Konfidenzintervallen sind zufällig, da sie von der
Stichprobe y, X abhängen.
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
217
• Exakte Konfidenzintervalle überdecken den wahren Parameter θ0 mit einer
Überdeckungswahrscheinlichkeit (coverage probability) von 1 − α.
• Ist für die gegebene Stichprobe τ (y, X, θ) nicht pivot, dann verwendet man eine
asymptotisch pivote Teststatistik.
• Bei approximativen Konfidenzintervallen stimmen die tatsächliche und die nominal (gewählte) Überdeckungswahrscheinlichkeit im allgemeinen nicht überein.
Stehen mehrere Verfahren zur Berechnung von approximativen Konfidenzintervallen zur Verfügung, sollte man dasjenige wählen, für das der Unterschied zwischen
tatsächlicher und nominaler Überdeckungswahrscheinlichkeit möglichst klein ist.
• Wird anstelle eines Parameters ein Parametervektor betrachtet, erhält man mehrdimensionale Konfidenzellipsoide, siehe Abschnitt 4.9.2.
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
218
• Das α-Quantil qα einer Verteilung ist definiert durch F (qα ) = α.
– Quantilsfunktion: qα = F −1(α)
– Median: q0.5
– Quartile: qα mit α = 0.25, 0.5, 0.75
– Quintile: qα mit α = 0.2, 0.4, 0.6, 0.8
– Decile: qα mit α = 0.1, 0.2, . . . , 0.8, 0.9
– Percentile: qα mit α = 0.01, 0.02, . . . , 0.98, 0.99
• Asymptotisches Konfidenzintervall für βj im multiplen linearen Regressionsmodell auf Basis der χ2-Statistik
!2
β̂j − βj,H0
τ (y, X, βj,H0 ) =
sβ̂j
mit
wobei M−j = I−X−j
den j-ten Regressor.
sβ̂j = s(xTj M−j xj )−1,
−1 T
T
X−j X−j
X−j und X−j enthält alle Regressoren außer
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
219
– Die Grenzen des Konfidenzintervalls ergeben sich aus
!2
β̂j − βj,H0
= cα = q1−α
sβ̂j
(wie oben durch Auflösen nach β̂j ) als
1/2
[β̂j − sβ̂j c1/2
α , β̂j + sβ̂j cα ].
– Für α =√0.05 ergibt sich für das (1 − α)-Quantil cα = q1−α der χ2-Verteilung
1/2
cα = 3.84 = 1.96 = z1−α/2, wobei zβ das β-Quantil der Standardnormalverteilung bezeichnet.
– Dieses Intervall ist identisch mit dem Intervall, das man aus der t-Statistik
erhält, wobei letztere asymptotisch standardnormalverteilt ist.
– Asymmetrische Konfidenzintervalle sind z.B. auf Basis der t-Statistik möglich.
Wann will man ein asymmetrisches Konfidenzintervall?
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
220
• Ein exaktes Konfidenzintervall für βj im normalen linearen Modell wird
auf Basis der t-Statistik und t-Verteilung mit n − k Freiheitsgraden bestimmt:
!
β̂j − βj,H0
≤ t1−α/2(n − k) = 1 − α
P tα/2(n − k) ≤
sβ̂j
liefert
bzw.
[β̂j − sβ̂j t1−α/2(n − k), β̂j − sβ̂j tα/2(n − k)]
[β̂j − sβ̂j t1−α/2(n − k), β̂j + sβ̂j t1−α/2(n − k)].
• Bootstrapkonfidenzintervalle
– Berechnung der kritischen Werte durch Bootstrap.
– Wichtig: Ein Bootstrapkonfidenzintervall kann im Vergleich zu einem asymptotischen Konfidenzintervall nur dann schneller gegen das exakte Konfidenzintervall konvergieren, wenn die damit assoziierte asymptotische Verteilung
der Teststatistik pivot ist!
Methoden der Ökonometrie — 4.9.1 Konfidenzintervalle — U Regensburg — 26.01.2010
221
– Es existieren verschiedene Methoden zum Durchführen des Bootstrap. Unterschiede ergeben sich hinsichtlich
∗ der Schätzmethode für die Parameter (β, σ0) des DGP,
∗ des Bootstrapverfahrens zum Ziehen der Fehler,
∗ der Wahl der t-Statistik oder der F -Statistik als Grundlage.
– Wird die t-Statistik verwendet, ist die Boostrapverteilung häufig asymmetrisch
und man muss die Grenzen des Konfidenzintervalls sorgfältig bestimmen, siehe
Davidson & MacKinnon (2004, Section 5.3).
– Konfidenzintervalle auf Basis der t-Statistik werden häufig als studentized
bootstrap confidence interval oder als percentile-t oder bootstrap-t confidence interval bezeichnet.
Methoden der Ökonometrie — 4.9.2 Konfidenzellipsoide — U Regensburg — 26.01.2010
222
4.9.2 Konfidenzellipsoide
• Wenn (4.42) gilt und R = Ik gewählt wird, ergibt sich die Begrenzung des
approximativen Konfidenzellipsoids aus
τ (y, X, β 0) = kFn = cα = q1−α.
• Gilt die Normalverteilung für die KQ-Schätzer exakt, dann lassen sich auch exakte
Konfidenzellipsoide auf Basis der F -Statistik und dem dazugehörigen kritischen
Wert aus der F -Verteilung mit q und n − k Freiheitsgraden bestimmen.
• Es kann passieren, dass ein Parametervektor β in einem Konfidenzellipsoid liegt,
aber nicht in den einzelnen Konfidenzintervallen für die einzelnen Elemente von
β und umgekehrt (bitte graphisch verifizieren!). Ursache hierfür ist i.A. eine starke Kollinearität zwischen den einzelnen Parameterschätzern. Vgl. Diskussion in
Ökonometrie I.
• Es lassen sich wie im eindimensionalen Fall Konfidenzellipsoide mit Bootstrapverfahren berechnen.
Zu lesen: Davidson & MacKinnon (2004), Kapitel 4 und 5.
Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010
333
Literaturverzeichnis
Anderson, J. E. & Wincoop, E. v. (2003), ‘Gravity with gravitas: A solution to the
border puzzle’, The American Economic Review 93, 170–192. 16
Cameron, A. & Trivedi, P. (2005), Microeconometrics, Cambridge University Press.
Casella, G. & Berger, R. L. (2002), Statistical Inference, Thomson. 80, 81, 111
Davidson, J. (1994), Stochastic Limit Theory, Oxford University Press. 113, 155
Davidson, J. (2000), Econometric Theory, Blackwell Publishers. 93, 109, 113, 170,
172, 180, 200, 285, 287, 291, 294, 298, 299, 303, 309, 315
Davidson, R. & MacKinnon, J. (1993), Estimation and Inference in Econometrics.,
Oxford University Press.
Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010
334
URL: http://www.oup.com/uk/catalogue/?ci=9780195060119
Davidson, R. & MacKinnon, J. G. (2004), Econometric Theory and Methods, Oxford
University Press, Oxford. 18, 26, 65, 67, 69, 71, 76, 82, 87, 92, 94, 136, 139, 155,
206, 211, 214, 221, 222, 257, 272, 285, 291, 313, 322, 325, 332
Fratianni, M. (2007), The gravity equation in international trade, Technical report,
Dipartimento di Economia, Universita Politecnica delle Marche. 16, 17
Gentle, J. E. (2007), Matrix Algebra. Theory, Computations, and Applications in
Statistics, Springer Texts in Statistics, Springer.
URL: http://www.springerlink.com/content/x4rj03/ 38, 39, 40, 50, 82
Gourieroux, C. & Monfort, A. (1995), Statistics and Econometric Models, Vol. 2,
Cambridge University Press. 308
Greene, W. (2008), Econometric Analysis, 6 edn, Pearson.
URL: http://www.pearsonhighered.com/educator/academic/product/0,3110,0135132452,00.ht
67
Guggenberger, P. (2008), ‘The impact of a hausman pretest on the size of a hypo-
Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010
335
thesis test: the panel data case’, pp. 1–24. 256
Hassler, U. (2007), Stochastische Integration und Zeitreihenmodellierung, Springer,
Berlin, Heidelberg.
Hendry, D. F. (1995), Dynamic Econometrics, Oxford University Press. 93, 154
Horowitz, J. (2001), The bootstrap, in J. Heckman & E. Leamer, eds, ‘Handbook of
Econometrics’, Vol. 5, North-Holland. 214
Horowitz, J. (2003), ‘The boothstrap in econometrics’, Statistical Science 18, 211–
218. 214
Li, Q. & Racine, J. (2007), Nonparametric Econometrics, Princeton University Press.
49, 92
Peracchi, F. (2001), Econometrics, John Wiley and Sons.
URL:
http://www.wiley-vch.de/publish/dt/books/bySubjectEC00/ISBN0-47198764-6/?sID=he2l84vhvc6o6e4f1mc7i17k05
Ruud, P. (2000), An Introduction to Classical Econometric Theory, Oxford University
Press.
Methoden der Ökonometrie — Literaturverzeichnis — U Regensburg — 26.01.2010
336
URL: http://www.oup.com/uk/catalogue/?ci=9780195111644 71
Schmidt, K. & Trenkler, G. (2006), Einführung in die Moderne Matrix-Algebra. Mit
Anwendungen in der Statistik, Springer. 38, 187
Stock, J. H. & Watson, M. W. (2007), Introduction to Econometrics, Pearson, Boston, Mass. 10
Vaart, A. v. d. (1998), Asymptotic Statistics, Cambridge series in statistical and
probabilistic mathematics, Cambridge University Press. 200
Wooldridge, J. M. (2002), Econometric Analysis of Cross Section and Panel Data,
The Mitt Press.
Wooldridge, J. M. (2009), Introductory Econometrics. A Modern Approach, 4th edn,
Thomson South-Western, Mason. 18, 21, 23, 58, 67, 102, 103, 104, 105, 132
Herunterladen