Einführung 1.1 Technische Vorbemerkungen 1.2 Inhaltliche

Werbung
Kapitel 1: Einführung
1.1 Technische Vorbemerkungen
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
1.3 Ökonometrie: Was, wozu und wie?
1.4 Illustration
Anhang
A
Wiederholung: Lineare Algebra
B
Wiederholung: Statistik und Verteilungstheorie
C
Zusammenstellung von Annahmen
1.1
Lernziele
• Was ist und wozu benötigt man die Ökonometrie?
• Wie rechnet man mit Vektoren und Matrizen?
• Wie lassen sich Zufallsvariablen und ihre Verteilungen beschreiben?
1.2
1.1 Technische Vorbemerkungen
• Vorlesung 2 SWS, Übung 2 SWS, Tutorien
- Vorlesung, Mo und Mi 8:00 – 09:30
- Übung, 7 Parallelveranstaltungen, siehe Lehrstuhlwebsite
- Tutorien: ab November 2010, verschiedene parallele Termine, wöchentlich, zur Klausurvorbereitung
• Die Veranstaltung findet geblockt in der ersten Semesterhälfte statt. Dies hat
den Vorteil, dass die Klausur vorgezogen, bereits Anfang Januar (7.1.11)
durchgeführt werden kann und dass eine weitere hierauf aufbauende
Ökonometrieveranstaltung im WS belegt werden kann.
1.3
• Literatur: Marno Verbeek, 2008, A Guide to Modern Econometrics, third edition, John Wiley & Sons Ltd., Chichester UK. Preis (neu): € 39,95 (Stand
Sept. 2009). Die Veranstaltung bezieht sich stark auf dieses Lehrbuch.
• Die Veranstaltung wird durch eine Klausur abgeschlossen. Hilfsmittel: Taschenrechner, ggf. Wörterbuch, Formelsammlung wird bereitgestellt
• Auf die Endnote kann die Note einer freiwilligen Hausaufgabe zu 20 Prozent
angerechnet werden. Note verfällt nach dem SS 2011. Bearbeitung in Gruppen von 2-3 Personen ist möglich.
Anmeldung bis 29.10.10. bei [email protected].
Ausgabe der Hausarbeitsthemen ab 09.11.10, Abgabe: bis 31.01.11.
1.4
• Leistungs- und Prüfungsanforderungen
- alte Klausuren mit Musterlösung im Netz
- ca. 33 % wahr/falsch Fragen zu einzelnen Lerninhalten
- ca. 67% offene Fragen zur Interpretation und Diskussion von Schätzergebnissen, kritische Diskussion der unterstellten Modelle
• Nicht geprüftes Lernziel: Anwenderkenntnis der Statistiksoftware Stata
- ermöglicht eigenes empirisches Arbeiten
- wichtig für empirische Abschlussarbeiten
- vertieft Verständnis für Anwendbarkeit der Methoden
• Im Rahmen des Tutoriums werden frühere Klausuraufgaben besprochen.
1.5
• Lerntipps: - Lerngruppe bilden
- Veranstaltungen regelmäßig vor- und nachbereiten
- am Ende der Kapitel prüfen, ob Fragen offen geblieben sind
1.6
• Empfehlenswerte Literatur:
– Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall,
New Jersey.
– Gujarati, Damodar N., 2008, Basic Econometrics, 4th ed., McGraw Hill,
New York.
– Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and
Panel Data, MIT Press, Cambridge/Mass.
– Stock, James H. and Mark W. Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson, Boston.
– Wooldridge, Jeffrey M., 2009, Introductory Econometrics, 4. Auflage,
South-Western.
1.7
• Deutschsprachige Vorbereitungsliteratur bspw.:
– von Auer, Ludwig, 2007, Ökonometrie. Eine Einführung, Springer Verlag.
1.8
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
• Gliederung:
Kapitel im Lehrbuch:
1. Einführung und Wiederholung
1 & Appendix
2. Lineare Regression
2
3. Interpretation und Vergleich von Regressionsmodellen
3
4. Heteroskedastie und Autokorrelation
4
5. Maximum Likelihood und 0/1 abhängige Variablen
6,7
1.9
• Ziel:
- Vertiefung der Kenntnis ökonometrischer Methoden
- Einführung in die Anwendung der Stata Software
- Einüben, empirische Ergebnisse zu interpretieren
- Erlernen, eigene und fremde Resultate kritisch zu bewerten
- Möglich: Erstellen einer eigenen empirischen Analyse im Rahmen
der Hausaufgabe
1.10
1.3 Ökonometrie: Was, wozu und wie?
• Definition 1: Econometrics is what econometricians do.
• Definition 2: Econometrics is the interaction of economic theory, observed
data, and statistical methods.
• Ziel: Beziehungen zwischen Größen (z.B. Bildung und Löhnen) überprüfen
und quantifizieren.
• 4 Kategorien von Beziehungen zwischen Größen:
(1) Beziehungen zwischen vergangenen und gegenwärtigen Werten einer
einzelnen Größe, Zeitreihenmodelle (z.B. wie hängt die Zins- oder Aktienpreisentwicklung von ihrer Vergangenheit ab).
1.11
(2) Beziehungen zwischen verschiedenen, typischerweise aggregierten
ökonomischen Größen über einen Zeitraum (z.B. der Zusammenhang
zwischen kurz- und langfristigen Zinssätzen).
(3) Beziehungen zwischen Größen, die disaggregierte Einheiten (z.B. Individuen, Haushalte, Unternehmen) zu einem Zeitpunkt beschreiben (z.B.
welchen Einfluss hat das Einkommen auf das Sparverhalten der Individuen). Modelle erklären den Unterschied zwischen Beobachtungseinheiten.
(4) Beziehungen zwischen Merkmalen disaggregierter Einheiten, die über
einen Zeitraum (mindestens zwei Perioden) gemessen werden. Modelle
erklären Unterschiede zwischen Beobachtungseinheiten und Änderungen in deren Verhalten über die Zeit.
1.12
• Ökonometriker wählen eine Modellform und Vorgehensweise, um die jeweiligen Beziehungen empirisch zu untersuchen. Oft müssen die Daten beschafft werden (z.B. durch Erhebungen). Hauptaufgabe: geeignete Verfahren wählen und unterstellte Beziehungen durch Tests überprüfen.
• Wissenschaftlicher Fortschritt benötigt das empirische Testen von Hypothesen (siehe Karl Poppers kritischen Rationalismus). Ohne Empirie und – für
die Wirtschaftswissenschaften – Ökonometrie entwickelt sich der Wissensstand nicht weiter.
• Ökonometrische Verfahren nutzt nicht nur der Wissenschaft; sie sind Bestandteil vieler betriebs- und volkswirtschaftlicher Tätigkeiten, beispielsweise
in den Bereichen Marktforschung, Finanzmarktanalyse, Geldpolitik, Arbeitsmarkt- und Sozialpolitik, Makroökonomie.
1.13
• Die Verfahren werden ebenfalls in anderen sozialwissenschaftlichen Disziplinen, wie Soziologie und Psychologie, in der Medizinforschung und in ingenieurwissenschaftlichen Bereichen verwendet.
1.14
1.4 Illustration: Finanzieller Nutzen universitärer Ausbildung
• Vor dem Hintergrund der demographischen Entwicklung und der doppelten
Abiturjahrgänge muss politisch entschieden werden, ob und an welcher Stelle zusätzliche Studienplätze bereit gestellt werden.
• Kosten und Nutzen des Studiums an Universitäten und Fachhochschulen
sind relevante Größen zur Steuerung zukünftiger Studierendenströme.
• Bei der Berechnung des Nutzens eines Studiums unterscheidet man die gesellschaftliche und die individuelle Perspektive. Letztere ist anhand eines
Vergleichs der Verdienstentwicklung im Lebenszyklus einfacher zu bewerten.
1.15
• Eine solche Vergleichsstudie haben Riphahn / Eschelbach / Heineck / Müller
auf Basis der Daten des Sozioökonomischen Panels (2001-2007) vorgenommen.
• Theoretisches Modell auf Basis der Mincer'schen Verdienstfunktion:
log ( wi ) = β0 + β1 educi + β2 expi + β3 expi2 + β4 Xi + ei .
wi
=
realer Stundenlohn von Person i
educi
=
Indikator des von i gewählten Bildungsweges
expi
=
Arbeitsmarkterfahrung von i, gemessen in Jahren
expi2
=
expi ⋅ expi
Xi
=
Vektor von Kontrollvariablen
1.16
ei
=
Restgröße
β0-β4
=
unbekannte Parameter.
Wenn β1 > 0 ist der Lohn höher bei höherer Bildung.
• Stichprobe: Wiederholte Beobachtungen von erwerbstätigen Personen mit
einem tertiären Bildungsabschluss, im Alter von 28 – 60 Jahren. 11.879
Personen-Jahr-Beobachtungen von 2614 verschiedenen Personen. 39,7 %
haben einen Fachhochschul- und 60,3 % einen Universitätsabschluss.
• Abhängige Variable: w = reale Bruttostundenlöhne (in 2005er Euro). Die
Verteilung unterscheidet sich bereits zwischen den beiden Gruppen (hier nur
Männer):
1.17
1.18
• Erklärende Variablen: Universitätsabschluss (ja/nein), Alter, Alter2, Alter3,
männliches Geschlecht, Teilzeit beschäftigt, befristet beschäftigt, im öffentlichen Dienst, verheiratet, nicht deutsch, sowie Betriebszugehörigkeitsdauer,
Unternehmensgröße, Branche, Bundesland, Kalenderjahr.
• Ergebnis einer linearen Schätzung für Männer und Frauen zusammen, nur
für Frauen und nur für Männer (weitere Koeffizienten wurden geschätzt,
aber hier nicht dargestellt):
1.19
Universität (0/1) (β1)
Alter (β2)
Alter^2/100 (β3)
Alter^3/1000
Mann (0/1)
Teilzeit beschäftigt (0/1)
Befristet beschäftigt (0/1)
Öffentlicher Dienst (0/1)
Verheiratet (0/1)
Hat nicht-deutsche Nationalität (0/1)
Konstante
N
R-squared
Männer und
Frauen
(1)
0.153***
(0.016)
0.246***
(0.060)
-0.493***
(0.140)
0.032***
(0.011)
0.166***
(0.019)
-0.050**
(0.021)
-0.171***
(0.025)
-0.010
(0.013)
0.026
(0.017)
-0.138**
(0.055)
-1.535*
(0.831)
11879
0.272
Frauen
Männer
(2)
0.192***
(0.025)
0.233**
(0.095)
-0.477**
(0.224)
0.031*
(0.017)
–
(3)
0.131***
(0.021)
0.254***
(0.077)
-0.501***
(0.179)
0.032**
(0.014)
–
0.002
(0.024)
-0.146***
(0.034)
-0.047**
(0.019)
-0.070***
(0.024)
-0.133
(0.090)
-1.219
(1.309)
4856
0.243
-0.126**
(0.050)
-0.191***
(0.033)
0.022
(0.017)
0.087***
(0.023)
-0.130*
(0.067)
-1.592
(1.093)
7023
0.254
1.20
• Interpretation: Ceteris paribus verdienen Männer ca. 13,1 % und Frauen ca.
19,2 % mehr, wenn sie einen Uni- statt einen FH-Abschluss haben.
• Es lässt sich anhand der linearen Regression prüfen, ob die Lohnentwicklungen im Lebenszyklus sich für die Absolventengruppen unterscheiden. Die
Schätzungen ergaben folgende mittlere Verläufe der logarithmierten Löhne
im Lebenszyklus.
1.21
Frauen:
3,4
3,2
Log(Lohn)
3,0
2,8
2,6
2,4
2,2
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
1.22
Männer:
3,4
3,2
Log(Lohn)
3,0
2,8
2,6
2,4
2,2
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
FH
Univ.
(a) Die Vorhersagen wurden auf Basis von geschlechtsspezifischen Schätzungen erstellt. Hierbei wurde die Modellspezifikation um Interaktionsterme des Alterspolynoms dritter Ordnung mit der Variable "Universitätsabschluss" ergänzt.
(b) Die Graphiken zeigen die nach Einzelaltern vorhergesagten mittleren realen logStundenlöhne sowie zugehörige Konfidenzbänder am 90 Prozent Niveau.
1.23
Im Mittel verdienen FH-Absolventen bei Berufseintritt besser, werden dann
aber rasch überholt.
• Vieles ist bei der Interpretation der Ergebnisse zu beachten:
a) heteroskedastische Standardfehler
b) korrekte Spezifikation der Schätzgleichung
c) Erklärungskraft des Modells
d) Selektion in die Stichprobe der Erwerbstätigen
e) Korrelation von "Uni-Abschluss" mit dem Störterm
f) Anteil der FH-Absolventen unter älteren Erwerbstätigen repräsentativ?
g) sonstiges?
• Lässt man solche Aspekte unberücksichtigt, ergeben sich oft falsche Interpretationen der empirischen Befunde.
1.24
• Die ökonometrische Methodenlehre zeigt, worauf es ankommt, vermittelt
das Werkzeug eigene Studien durchzuführen und die Kenntnis, kritisch mit
den Ergebnissen anderer umzugehen.
1.25
A. Anhang Wiederholung: Lineare Algebra
A.1 Terminologie
• Für unsere Zwecke ist ein Vektor eine Spalte von Zahlen (Spaltenvektor):
⎛ a1 ⎞
⎜ ⎟
⎜a ⎟
a=⎜ 2⎟
⎜ ⎟
⎜ ⎟
⎝ an ⎠
• Die Transponierte eines Vektors ist eine Reihe von Zahlen (Zeilenvektor):
a' = (a 1, a 2 ,…, a n )
• Eine Matrix ist ein rechteckiges, geordnetes Schema von Zahlen. In der Dimension n × k (n Reihen und k Spalten) wird sie wie folgt dargestellt:
1.26
⎛ a11 a12 … a1k ⎞
⎜
⎟
⎜ a 21 a 22 … a 2k ⎟
A=⎜
⎟
⎜
⎟
⎜a a … a ⎟
⎝ n1 n2
nk ⎠
• Dabei gibt der erste Index jedes Matrixelementes aij an, dass das Element
zur i-ten Zeile gehört, der zweite Index bezieht sich auf die j-te Spalte.
• Eine Matrix besteht aus k Spaltenvektoren a1 bis ak:
A = [a1 a 2 … ak ]
• Vertauscht man die Spalten und Reihen einer Matrix, so erhält man die
transponierte Matrix:
1.27
⎛ a11 a 21 … a n1 ⎞
⎜
⎟
⎜ a12 a 22 … a n2 ⎟
A' = ⎜
⎟
⎜
⎟
⎜a a … a ⎟
⎝ 1k 2k
nk ⎠
• Bei quadratischen Matrizen ist n = k. Eine quadratische Matrix ist symmetrisch, wenn A = A ' . Eine quadratische Matrix ist eine diagonale Matrix, wenn
aij = 0 für alle i ≠ j . Jede diagonale Matrix ist auch symmetrisch. Eine Einheitsmatrix I ist eine diagonale Matrix, bei der alle Elemente der Hauptdiagonalen gleich eins sind.
1.28
A.2 Rechnen mit Matrizen
• Matrizen und Vektoren mit den gleichen Dimensionen können addiert und
subtrahiert werden. Wenn aij und bij die Elemente zweier n × k Matrizen A
und B sind, dann gilt:
A + B = C, wobei
cij = aij + bij
A − B = C, wobei
cij = aij − bij
A +B = B+ A
( A + B ) ' = A '+ B' = B'+ A '
1.29
• Eine Matrix A mit den Dimensionen n × k und eine Matrix B mit den Dimensionen k × m können multipliziert werden. Ihr Produkt ergibt eine Matrix der
Dimension n × m .
• Wenn k = 1, ist A = a ' ein Zeilen- und B = b ein Spaltenvektor:
AB = a 'b = ( a1,a2 ,…,an )
⎛ b1 ⎞
⎜ ⎟
⎜ b2 ⎟ = a b + a b + … a b
1 1
2 2
n n
⎜ ⎟
⎜ ⎟
⎝ bn ⎠
a'b nennt man das Skalarprodukt (inneres Produkt) der Vektoren a und b.
Zwei Vektoren a und b werden orthogonal genannt, wenn a'b = 0 . Außer
für den Nullvektor gilt für alle Vektoren a, dass a'a > 0 . Das äußere Produkt
eines Vektors ist aa' mit der Dimension n × n .
1.30
• Bei der Multiplikation einer Matrix A ( n × k ) mit einem Spaltenvektor b ( k × 1)
ergibt sich ein Spaltenvektor, c = Ab mit der Dimension n × 1. Die Elemente
von c ergeben sich aus:
ci = ai1 b1 + ai2 b2 + … + aik bk
und stellen das innere Produkt jedes Zeilenvektors aus A mit dem Spaltenvektor b dar.
• Bei der Multiplikation der Matrizen A ( n × k ) und B ( k × m ) ergibt sich eine
Matrix C = AB mit der Dimension ( n × m ) . Die Elemente von C sind bestimmt
durch
cij = ai1 b1j + ai2 b2 j +
+ aik bkj
1.31
und beschreiben die inneren Produkte der Zeilen von A und der Spalten von
B. Das Produkt kann nur bestimmt werden, wenn die Anzahl der Spalten
von A und der Zeilen von B übereinstimmen.
• Beispiel:
⎛1 2 3 ⎞
A=⎜
⎟,
4
5
0
⎝
⎠
so dass
⎛1 2 ⎞
⎜
B = ⎜ 3 4 ⎟⎟ ,
⎜0 5⎟
⎝
⎠
⎛ 7 25 ⎞
AB = ⎜
⎟
⎝ 19 28 ⎠
• Beachte, dass AB ≠ BA , z.B. wenn A ( n × k ) und B ( k × n ) ist, dann hat AB
die Dimension ( n × n ) und BA die Dimension ( k × k ) . In unserem Beispiel
ergibt sich
1.32
⎛ 9 12 3 ⎞
BA = ⎜⎜ 19 26 9 ⎟⎟
⎜ 20 25 0 ⎟
⎝
⎠
• Es gilt ( AB ) ' = B' A '
• Da ( A ' ) ' = A folgt, dass A ' A und AA ' existieren und symmetrisch sind.
• Multipliziert man eine Matrix A mit einem Skalar c, so wird jedes Element
von A mit c multipliziert. Ein Element von cA ist caij.
1.33
A.3 Eigenschaften von Matrizen und Vektoren
• Die Linearkombination von Vektoren a1 bis ak mit Skalargewichten c1,…,ck
ergibt den Vektor c1a1 + c2 a2 + … + ck ak abgekürzt Ac, mit
A = [a1 … ak ] und c = ( c1 …ck ) ' .
• Eine Gruppe von Vektoren ist linear abhängig, wenn einer der Vektoren als
Linearkombination der anderen beschrieben werden kann, bzw. wenn gilt
c1 a1 + c2 a2 + … + ck ak = 0 .
• Eine Gruppe von Vektoren ist linear unabhängig, wenn dieser Zusammenhang nur für c1 = c2 =
= ck = 0 gilt, d.h. Ac = 0 nur für c = 0.
1.34
• Die Menge aller durch Linearkombination der Vektoren a1,…,ak erzeugbaren
Vektoren bildet einen Vektorraum. Sind die Vektoren a1,…,ak linear abhängig, so kann man die Anzahl der Vektoren reduzieren, ohne den Vektorraum
zu beeinflussen. Ein Vektorraum hat die Dimension n, wenn er n linear unabhängige Vektoren aufnimmt und wenn Gruppen von mehr als n Vektoren
in diesem Raum linear abhängig sind.
• Ähnlich definiert man den Spaltenraum einer Matrix als den Raum, der
durch ihre Spalten aufgespannt wird. Der Spaltenrang einer Matrix ist die
Dimension des durch ihre Spalten aufgespannten Raumes bzw. die Maximalzahl linear unabhängiger Spaltenvektoren. Dabei kann der Spaltenrang
nie die Anzahl der Spalten übertreffen.
1.35
• Entspricht der Spaltenrang der Anzahl der Spalten, so hat die Matrix vollen
Rang. Der Zeilenrang einer Matrix entspricht der Dimension des durch die
Zeilenvektoren aufgespannten Raumes und ist mit dem Spaltenrang identisch. Beide definieren den Rang der Matrix, wobei gilt
rank ( A ' ) = rank ( A ' A ) = rank ( AA ' )
1.36
A.4 Inverse Matrizen
• Die Matrix B, für die in Bezug auf die Matrix A gilt, dass AB = I und BA = I
ist, heißt Inverse der Matrix A. A hat nur dann eine Inverse, wenn A quadratisch ist und vollen Rang hat. In diesem Fall nennt man A invertierbar oder
nicht-singulär. Man definiert B = A-1 so, dass
AA−1 = I
und
A −1 A = I
• Dies impliziert, dass A = B-1 und es gilt ( A−1 ) = A .
−1
• Wenn A-1 nicht existiert, ist A singulär.
• Inverse Matrizen werden wie folgt berechnet: Für diagonale Matrizen gilt
1.37
⎛ a11
⎜
⎜0
⎜0
⎝
0
a22
0
−1
−1
⎛ a11
0 ⎞
⎜
⎟
0 ⎟ = ⎜0
⎜0
a33 ⎟⎠
⎝
0
−1
a22
0
0 ⎞
⎟
0 ⎟
−1 ⎟
a33
⎠
• Sonst am Beispiel einer 2 × 2 Matrix
−1
⎛ a11 a12 ⎞
⎛ a22 − a12 ⎞
1
⎜
⎟ =
⎜
⎟,
a
a
−
a
a
a
a
−
a
a
⎝ 21 22 ⎠
21
11 ⎠
11 22
12 21 ⎝
wobei a11a22 – a12a21 als Determinante von A, A , bezeichnet wird. Die Determinanten singulärer Matrizen haben den Wert Null.
• Inverse Matrizen sind nützlich, um Gleichungssysteme der Form Ac = d
nach c aufzulösen, wobei A eine
(n × n)
Matrix ist und c und d n-
dimensionale Spaltenvektoren sind. Wenn A invertierbar ist, gibt
1.38
A−1Ac = c = A−1d
die Lösung für die n Unbekannten des Vektors c. Ist A nicht invertierbar, so
gibt es entweder mehrere Lösungen für c oder keine.
• Es gilt ( A−1 ) ' = ( A ' ) und ( AB ) = B−1A−1
−1
−1
1.39
A.5 Weitere Matrixeigenschaften
• Eine Matrix P ist symmetrisch, wenn P = P' . Eine Matrix P heißt
idempotent, wenn PP = P.
• Eine symmetrische und idempotente Matrix P dient als Projektionsmatrix.
Teilt man einen Vektor x mithilfe von P auf in einen Projektionsvektor PX
und einen Residualvektor x – PX, x = PX + (x–PX), so liegt PX im Spaltenraum von P, während x – PX zu allen Vektoren im Spaltenraum von P orthogonal ist.
• Wenn A eine symmetrische n × n Matrix und c ein Spaltenvektor ist, dann
bezeichnet man einen Skalar λ, der Ac = λc erfüllt, als Eigenwert. Allgemein gibt es n Lösungen λ1,…, λn , die jeweils mit n Vektoren c1,…,cn, den
1.40
Eigenvektoren, korrespondieren. Die Eigenvektoren sind orthogonal, d.h.
ci 'c j = 0 für alle i ≠ j .
• Ist ein Eigenwert Null, dann erfüllt der zugehörige Eigenvektor Ac = 0. Das
impliziert, dass A singulär ist und keinen vollen Rang hat. Der Rang einer
symmetrischen Matrix entspricht der Anzahl der von Null verschiedenen Eigenwerte.
• Eine symmetrische Matrix A ist positiv definit, wenn alle Eigenwerte positiv
(> 0) sind. A ist positiv semidefinit, wenn alle Eigenwerte nicht negativ
( ≥ 0 ) sind.
• Positiv definite Matrizen sind invertierbar.
• Für eine positiv definite Matrix A gilt für jeden Vektor x: x' Ax > 0
1.41
⎡2 − 3 ⎤
⎢
⎥
• Beispiel: A = ⎣3 2 ⎦
⎛ b1 ⎞
⎡ 2 − 3 ⎤ ⎛ b1 ⎞
b'Ab = ( b1b2 ) ⎢
=
b
2
+
b
3
−
3b
+
2b
[
]
⎜
⎟
⎜ ⎟
1
2
1
2
2 ⎥⎦ ⎝ b2 ⎠
⎣3
⎝ b2 ⎠
= b1 2b1 + b2 3b1 + b2b1 ( −3 ) + b2 ⋅ b2 ⋅ 2
= 2b12 + 2b22 > 0
• Die Determinante einer symmetrischen Matrix A ist das Produkt der n Eigenwerte. Sie ist positiv, wenn A positiv definit ist und Null, wenn A singulär
ist.
1.42
A.6 Ableitungen und andere Manipulationen
• Wenn c und x n-dimensionale Spaltenvektoren sind, ist c ' x ein Skalar. Ist
c ' x eine Funktion des Vektors x, lässt sich nach jedem der Elemente von x
∂c'x
ableiten:
= c und ergibt den Spaltenvektor c.
∂x
∂ Ax
= A'
∂x
• Allgemein gilt, wenn A eine Matrix ist:
• Wenn A symmetrisch ist:
∂ x ' Ax
= 2Ax
∂x
• Ist A nicht symmetrisch, so folgt
∂ x ' Ax
= ( A + A ') x
∂x
• Wenn xi = ( xi1,xi2 ,…,xiK ) ' mit xi1 ≡ 1 und β = ( β1,β2 ,…,βK ) ' , dann
1.43
x 'i β = β1 + β2 xi2 +
+ βK xiK
• Die Operation
⎛ xi1 ⎞
⎜ ⎟
N
N
x
'
xi xi = ∑ ⎜ i2 ⎟ ( xi1,xi2 ,…,xiK )
∑
⎟
i =1
i =1 ⎜
⎜ ⎟
⎝ xiK ⎠
⎛ N 2
xi1
⎜∑
i =1
⎜
⎜
=⎜
⎜
⎜
⎜ N
⎜ ∑ xi1xiK
⎝ i =1
N
∑ xi2 xi1
i =1
N
N
∑x
i =1
iK
xi1
∑x
i =1
2
i2
N
∑x
i =1
2
iK
⎞
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎠
1.44
ergibt eine symmetrische K × K Matrix.
• Der Vektor
⎞
⎛N
⎜ ∑ x i1y i ⎟
⎟
⎜ i =1
⎟
⎜N
N
⎜ ∑ x i2 y i ⎟
⎟
∑ xi yi =⎜ i=1
i =1
⎟
⎜
⎟
⎜
⎟
⎜N
x
y
⎜ ∑ iK i ⎟
⎠
⎝ i =1
hat K Elemente und die Dimension K × 1.
N
⎛ N
⎞
• Daher besteht das System ⎜ ∑ xi x 'i ⎟ b = ∑ xi yi aus K Gleichungen mit K uni =1
⎝ i =1
⎠
bekannten Werten b. b hat die Dimension K × 1.
1.45
• Wenn
N
∑x x'
i =1
i
i
invertierbar ist, also vollen Rang besitzt, existiert eine eindeu-
tige Lösung. Wenn die Matrix keinen vollen Rang hat, sind ihre Spalten und
Zeilen linear abhängig.
• Überträgt man die Vektoren xi in Matrixnotation mit
x12
⎛x
⎜ 11
X=⎜
⎜x
⎝ N1 xN2
und
x1K ⎞
⎟
⎟
xNK ⎟⎠
y = ( y1,y2 ,...,yN ) ' ,
so
lässt
sich
abkürzen
N
X ' X = ∑ xi xi '
und
i =1
N
X ' y = ∑ xi yi .
i =1
• X' X ist invertierbar, wenn X vollen Rang besitzt und seine Spalten (unsere
späteren Regressoren) nicht linear abhängig sind.
1.46
1.47
B. Wiederholung: Statistik und Verteilungstheorie
B.1 Diskrete und stetige Zufallsvariablen
• Diskrete Zufallsvariablen:
− Wahrscheinlichkeitsfunktion:
f(y) = P {Y = y}
− Es gilt:
∑f (y ) = 1
j
j
− Erwartungswert:
E { y } = ∑ yj ⋅ f ( yj )
j
• Stetige Zufallsvariablen
− Wahrscheinlichkeitsdichtefunktion: f ( y ) ≥ 0
− Es gilt:
b
P { a ≤ Y ≤ b } = ∫ f ( y ) dy
a
1.48
∞
∫ f ( y ) dy = 1
− Ebenfalls:
−∞
− Verteilungsfunktion (kumulative Dichtefunktion):
F(y) = P { Y ≤ y } =
y
∫ f ( t ) dt
−∞
− Es gilt: f(y) = F '(y)
P {a ≤ Y ≤ b} = F(b) − F(a)
und
− Erwartungswert (oder Mittelwert): μ = E { Y } =
∞
∫ y ⋅ f(y)dy
−∞
1.49
B.2 Erwartungen und Momente
• Der Erwartungswert (Moment erster Ordnung) ist ein linearer Operator.
Wenn X, Y Zufallsvariablen sind und a, b Konstanten, dann gilt
E {aY + bX} = aE {Y} + b E { X} .
• Bei nichtlinearen Funktionen, g, gilt nicht E { g ( Y ) } = g (E { Y } ) .
• Jensens Ungleichheit besagt für konkave g
E { g ( Y ) } ≤ g ( E {Y } ) . Allgemein gilt E { g ( Y ) } =
( d.h. g"(Y) < 0 ) ,
dass
∞
∫ g ( y ) f(y)dy.
−∞
• Die Varianz ist ein Streuungsmaß von Zufallsvariablen, genannt zentrales
Moment zweiter Ordnung:
σ2 = V { Y } = E
{ ( Y − μ ) } = E { Y } − 2 E{Y} ⋅ μ + μ
2
2
2
= E { Y2 } − μ2
1.50
(σ ist die Standardabweichung einer Zufallsvariablen, μ ist der Erwartungswert).
• Varianz diskret verteilter Zufallsvariablen:
V{ Y } =
∑ (y
j
j
− μ )2 f ( y j )
• Varianz stetig verteilter Zufallsvariablen:
V{ Y } =
∞
∫ ( y − μ ) f ( y ) dy
2
−∞
• Rechenregel: V { aY + b } = a2 V { Y }
• Zur besseren Beschreibung der Verteilung einer Zufallsvariablen: k-tes zentk
rales Moment, E ( Y − μ ) , k = 1,2,3,…
{
}
1.51
B.3 Multivariate Verteilungen
• Gemeinsame Dichtefunktion zweier Zufallsvariablen:
P { a1 < Y < b1,a2 < X < b2 } =
b1
b2
a1
a2
∫ ∫ f ( y, x ) dy dx
• Sind Y und X unabhängig, so gilt f ( y,x ) = f(y) ⋅ f(x) und
P { a1 < Y < b1, a2 < X < b2 } = P { a1 < Y < b1 } P { a2 < X < b2 }
• Marginale Verteilung von Y:
∞
f(y) =
∫ f ( y,x ) dx
−∞
so dass E {Y } =
∞
∞
∞
−∞
−∞
−∞
∫ y f(y)dy = ∫ ∫ y f ( y,x ) dx dy
1.52
• Kovarianz als Maß linearer Abhängigkeit:
σyx = cov { Y, X } = E
{ ( Y − μ ) ( X − μ ) },
y
x
μy = E {Y}, μx = E { X}
• Korrelationskoeffizient:
ρyx =
cov { Y, X }
V{ X } ⋅ V{ Y }
=
σyx
σy σx
− 1 ≤ ρyx ≤ 1
,
• X,Y sind unkorreliert, wenn cov{Y,X} = 0
• Rechenregeln, wenn a,b,c,d Konstante und X, Y Zufallsvariablen sind:
cov { aY + b, cX + d } = ac cov { Y, X }
cov { aY + bX, X }
= a cov { Y, X } + b cov { X, X } = a cov { Y, X } + b V { X }
V { aY + bX }
= a2 V { Y } + b2 V { X } + 2ab cov { Y, X }
1.53
• Für den Vektor Y = ( Y1,…,YK ) gilt:
'
⎛ E {Y1} ⎞
⎜
⎟
E {Y} = ⎜
⎟
⎜ E {Y } ⎟
K ⎠
⎝
und
⎛ V {Y1}
⎜
V {Y} = ⎜
⎜ cov {Y ,Y }
K
1
⎝
cov { Y1,YK } ⎞
⎟
⎟
V {YK } ⎟⎠
• Die Kovarianzmatrix des Vektors Y ist symmetrisch. Für lineare Kombinationen RY, wobei R die Dimension J × K hat und nicht-stochastisch ist, gilt
V { RY } = JxK
R
V {Y }
KxK
R
'
KxJ
1.54
B.4 Bedingte Verteilungen
• Es gilt folgender Zusammenhang zwischen bedingter und gemeinsamer
f ( y,x )
Verteilung von Zufallsvariablen X und Y: f ( y X = x ) = f ( y x ) =
f (x)
• Für unabhängige Zufallsvariablen X und Y gilt: f ( y x ) = f ( y )
• Außerdem gilt allgemein: f ( y,x ) = f ( y x ) ⋅ f ( x )
= f (x y) ⋅ f (y)
• Für bedingte Erwartungswerte gilt: E {Y X = x } = E {Y x } = ∫ y f ( y x ) dy
∫ ( y − E {Y x }) f ( y x ) dy
= E {Y x } − (E {Y x } )
• Die bedingte Varianz ist: V { Y x } =
2
2
2
1.55
• Wenn E{Y} = 0, sind zwei Zufallsvariablen X,Y unkorreliert, wenn gilt
E{YX} = cov{Y,X} = 0,
da cov{ X,Y} = E ⎡⎣( X − E ( X ) ) ( Y − E ( Y ) ) ⎤⎦
= E ⎡⎣ X ( Y − E ( Y ) ) − E ( X ) ( Y − E ( Y ) ) ⎤⎦
= E ⎡⎣ X ( Y − E ( Y ) ) ⎤⎦ − E ( X ) ⋅ E ( Y − E ( Y ) )
• Wenn E{Y} = 0, sind zwei Zufallsvariablen genau dann "conditional mean
independent", wenn gilt E{Y⎮X} = E{Y} = 0. Bei mittlerer bedingter Unab-
hängigkeit gilt für jede Funktion g(X), dass E{Y g(X)} = 0.
• Statistische Unabhängigkeit ist von allen 3 Maßen des Zusammenhangs
zwischen X und Y (Unkorreliertheit, mittlere bedingte Unabhängigkeit, statis-
1.56
tische Unabhängigkeit) das stärkste. Sie impliziert, dass E{g1(X)g2(Y)} =
E(g1(X)) ⋅ E(g2(X)) für alle Funktionen g1 und g2. Bei statistischer Unabhängigkeit sind beispielsweise auch die höheren Momente von X und Y voneinander unabhängig.
• Zufallsvariablen, die statistisch unabhängig sind, sind auch "conditional
mean independent", Zufallsvariablen, die "conditional mean independent"
sind, sind unkorreliert, aber nicht notwendigerweise anders herum (Ausnahme: Normalverteilung).
• Aus E(X⎮Y) = 0 folgt nicht E(Y⎮X) = 0.
• Wenn X statistisch unabhängig von Y ist, dann auch Y von X.
1.57
B.5 Spezielle Verteilungen
• Wenn Y ~ N ( μ, σ
2
) dann f ( y ) =
⎧⎪ 1 ( y − μ )2 ⎫⎪
exp ⎨−
⎬
2
2πσ2
⎩⎪ 2 σ
⎭⎪
1
• Wenn μ = 0 und σ2 = 1, z.B. für Z =
mit f ( z ) = φ ( z ) =
⎧ 1 ⎫
⋅ exp ⎨− z2 ⎬
2π
⎩ 2 ⎭
1
Y −μ
, dann ist Z standardnormalverteilt
σ
• Wenn Y~ N ( μ, σ2 ) , dann aY + b ~ N ( aμ + b,a2 σ2 )
• Verteilungsfunktion (kumulative Dichtefunktion)
⎧Y − μ y − μ⎫
⎛y−μ⎞
P {Y ≤ y} = P ⎨
≤
⎬ = Φ⎜
⎟=
σ ⎭
⎩ σ
⎝ σ ⎠
y −μ
σ
∫ φ(t)dt .
−∞
• Wegen Symmetrie: Φ ( y ) = 1 − Φ( − y) .
1.58
• Sind zwei Zufallsvariablen Y, X bivariat normalverteilt, so schreibt man
⎛ ⎛ μy ⎞ ⎛ σ2y σyx ⎞ ⎞
( Y, X ) ~ N ⎜⎜ ⎜ ⎟ , ⎜⎜
⎟⎟
2 ⎟
⎟
μ
σ
σ
⎝ ⎝ x ⎠ ⎝ yx x ⎠ ⎠
• In diesem Fall sind auch marginale und bedingte Verteilungen normal.
• Nur bei bivariater Normalverteilung folgt aus σyx = 0 , dass Y und X unabhängig sind und damit, dass ρyx = 0 .
• Lineare Funktionen normalverteilter Zufallsvariablen sind normalverteilt:
aY + bX ~ N ( aμy + bμx , a2 σ2y + b2 σ2x + 2abσxy )
• Wenn Y1,…,YJ unabhängig und standardnormalverteilte Zufallsvariablen
sind, dann ist
1.59
ξ=
J
∑Y
j =1
2
j
Chi-quadrat verteilt mit J Freiheitsgraden: ξ ~ χ2J
• Verallgemeinerung 1: Wenn Y1,…,YJ unabhängig und normalverteilte Zufallsvariablen mit Mittelwert μ und Varianz σ2 sind, folgt
( Y − μ)
2
J
ξ=∑
j =1
• Verallgemeinerung
2:
Wenn
Y
j
σ
2
ein
~ χ2J
Vektor
von
J
Zufallsvariablen
Y = ( Y1,...,YJ ) ist, die gemeinsam normalverteilt sind mit dem Mittelwertvek'
tor μ und der nicht singulären Kovarianzmatrix Σ, dann
ξ = ( Y − μ ) ' Σ−1 ( Y − μ ) ~ χ2J
• Die Chi-Quadrat-Verteilung mit J Freiheitsgraden hat E ( ξ ) = J und V ( ξ ) = 2J.
1.60
• Wenn X ~ N(0,1), ξ ~ χ2J und X und ξ unabhängig sind, dann hat t =
X
ξ/J
eine t-Verteilung mit J Freiheitsgraden.
• Wenn J → ∞, konvergiert die t-Verteilung zur Normalverteilung.
• Wenn ξ1 ~ χJ21 , ξ2 ~ χJ22 und die beiden Zufallsvariablen unabhängig sind,
ξ /J
dann hat f = 1 1 ~ FJ1J2 eine F-Verteilung mit (J1, J2) Freiheitsgraden.
ξ2 / J2
• Für J1 = 1 ist ξ1 eine quadrierte, normalverteilte Zufallsvariable, z.B. ξ1 = X2 ,
und es ergibt sich
⎛ X
2
t =⎜
⎜ ξ /J
⎝ 2 2
2
⎞
ξ1
~ F1,J2
⎟ =
⎟
/
J
ξ
2
2
⎠
1.61
• Wenn log Y ~ N ( μ, σ2 ) , dann folgt Y > 0 der Lognormalverteilung. Diese
wird häufig genutzt, um Einkommens- oder Renditeverteilungen zu be1 ⎫
⎧
schreiben. Es gilt E { log Y} = μ , aber E {Y} = exp ⎨μ + σ2 ⎬ .
2 ⎭
⎩
1.62
C. Zusammenstellung von Annahmen
A1
E{εi } = 0 i = 1,2,...N
A2
{x ,… x } und {ε ,… ε } sind unabhängig
A3
V { εi
A4
cov { εi , εj } = 0
A5
ε ~ N (0,σ2 IN)
A 5'
εi ~ NID (0,σ2)
A6
1 N
∑ xi x 'i
N i =1
konvergiert gegen eine finite nichtsinguläre Matrix Σxx.
A7
E{xi εi} = 0
Unkorreliertheit
1
N
1
}=σ
2
N
i = 1,2,…N
i,j = 1,…N, i ≠ j
1.63
A8
xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7)
A9
V {ε x} = σ2 Diag{ hi2 } = σ2 Ψ
A 10
E{ε⎮X} = 0 stärker als A 7, schwächer als A 8, A 2.
A 11
εt ~ IID (0, σ2)
A 12
εt ist über die Zeit unkorreliert, mit Erwartungswert 0.
1.64
Literatur:
Verbeek, 2008, Kapitel 1 und Appendix A und B.
Greene, 2008, Appendix A und B
Riphahn, R.T., M. Eschelbach, G. Heineck und S. Müller, 2010, Kosten und Nutzen der Ausbildung an Tertiärbildungsinstitutionen im Vergleich, Perspektiven
der Wirtschaftspolitik.
Wooldridge, 2009, Appendix A - D
1.65
Kapitel 2: Einführung in das lineare Regressionsmodell
2.1 Lineare Regression aus algebraischer Sicht
2.2 Das lineare Regressionsmodell
2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben
2.4 Schätzgüte
2.5 Hypothesentests
2.6 Asymptotische Eigenschaften des Kleinstquadrateschätzers
2.7 Illustration
2.8 Multikollinearität
2.9 Vorhersage
2.1
Lernziele Kapitel 2:
• Wie wird der Kleinstquadrateschätzer abgeleitet?
• Was sind seine Eigenschaften, welche Annahmen werden gemacht?
• Wie können wir die Erklärungskraft eines Regressionsmodells messen?
• Wie lassen sich Hypothesen testen?
• Was ist die Bedeutung von Multikollinearität?
• Wann können wir präzise Vorhersagen machen?
2.2
2.1 Lineare Regression aus algebraischer Sicht
• Ausgangssituation: Information über N Individuen zu Stundenlöhnen (y) und
andere Merkmale, z.B. Geschlecht, Alter, Ausbildung (x2, x3,…, xK). Wie lässt
sich der Zusammenhang zwischen Stundenlöhnen und Merkmalen beschreiben? Welche Linearkombination von x2,…, xK und einer Konstanten
ergibt eine gute Approximation von y?
• Wenn β1,…, βK Konstanten sind, könnte das so aussehen:
β1 + β2 x2 + … + βK xK .
(2.1)
• Wir indexieren mit i = 1, 2,…, N und fassen in Vektoren zusammen:
xi = (1 xi2
(
xiK ) '
xi3
)
und β = β1,…, βK ' .
• Dann können wir abkürzen:
2.3
yi − ⎡⎣β1 + β2 xi2 + … + βK xiK ⎤⎦ = yi − xi ' β .
(2.2), (2.3)
• Die Approximation von yi durch die Linearkombination xi 'β ist dann gut,
wenn diese Differenz klein ist. Das Kleinstquadrateverfahren sucht diejenigen Werte für β , die diese Differenz in quadrierter Form minimieren:
( )
N
(
S β ≡ ∑ yi − x 'i β
i =1
)
2
(2.4)
()
• Wir leiten S β nach β ab und erhalten K Normalgleichungen:
N
N
∑xx'
i =1
i
i
)
(2.5)
N
⎛ N
⎞
⇔ ⎜ ∑ xi x 'i ⎟ β = ∑ xi yi
i =1
⎝ i =1
⎠
(2.6)
i =1
• Wenn
(
−2∑ xi yi − xi ' β = 0
invertierbar ist, ergibt dies eine eindeutige Lösung für β :
2.4
−1
⎛ N
⎞
b = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
∑xy
i
i =1
(2.7)
i
()
• Die hinsichtlich der Minimierung von S β beste lineare Approximation von y
durch x2, x3, …, xk plus Konstante lautet: ŷi = xi 'b .
• Annahme der Nicht-Multikollinearität: Wenn die
(K × K )
Matrix
N
∑xx'
i =1
i
i
invertierbar ist, kann keiner der xik Werte durch eine Linearkombination der
anderen x-Werte bestimmt werden.
• Da die Werte von b nur für die Stichprobe berechnet wurden, haben sie keine allgemeine Interpretation.
• Wenn
wir
das
ei
Residuum
definieren
als
ei = yi − yˆ i = yi − xi 'b ,
dann lässt sich umformulieren yi = yˆ i + ei = xi 'b + ei
(2.8)
2.5
N
sowie S(b) = ∑ ei2 , die Summe der quadrierten Residuen.
(2.9)
i =1
• Aus der Normalgleichung ergibt sich
N
N
∑ x ( y − x ' b) = ∑ x e
i =1
i
i
i
i
i =1
i
=0
(2.10)
d. h. der Vektor der Residuen ist orthogonal zum x-Vektor.
• Wenn x1 = 1 (die Konstante) folgt
N
∑e
i =1
i
= 0 , d.h. das mittlere Residuum ist 0.
Da yi = x 'i b + ei , folgt für die mittlere Beobachtung
y = x 'b
(mit
y=
1
⋅ ∑ yi ,
N
x=
1
⋅ ∑ xi ) .
N
(2.11)
Für die mittlere Beobachtung gibt es keine Abweichung zwischen Vorhersage und beobachtetem Wert.
2.6
• Im einffachsten Fall betrrachten wir
w einen Regress
sor (x) un
nd eine K
Konstante
e,
so dass für jede
es i nur ein
e y (z.B
B. Stunde
enlohn) und eine Variable
V
x (z.B. AlA
kannt sin
nd, was sich zweid
dimension
nal abbild
den lässtt:
ter) bek
• Abb. 2..1 Einfacche lineare Regression: Pu
unktwolke
e und ges
schätzte Gerade
2
2.7
• Man erhält die beste lineare Approximation von y durch x und eine Konstante, indem man die Summe der quadrierten Residuen minimiert.
• In der Graphik sind das die quadrierten vertikalen Abstände zwischen den
Punkten und der Regressionsgeraden.
• Alle vorhergesagten Werte von y liegen auf der Regressionsgeraden.
• Wenn β aus zwei Unbekannten besteht, lässt sich ableiten:
(
)
N
(
S β1, β2 = ∑ yi − β1 − β2 xi
(
i =1
∂S β1, β2
∂β1
(
∂S β1, β2
∂β2
) = −2
∑(y − β
N
i
i =1
) = −2
1
)
)
∑ x (y − β
i
i
(2.12)
− β2 xi = 0
N
i =1
2
1
)
− β2 xi = 0
(2.13)
(2.14)
2.8
• Aus (2.13) folgt
b1 =
1 N
1 N
y
b
xi = y − b2 x
−
∑ i 2 N∑
N i =1
i =1
(2.15)
• b2 lässt sich wie folgt aus (2.14) und (2.15) bestimmen:
N
⎛ N 2⎞
−
−
x
y
b
x
∑
⎜ ∑ xi ⎟ b2 = 0
i i
1∑ i
i =1
i =1
⎝ i =1 ⎠
N
⇔
⇔
N
⎛ N 2⎞
−
−
−
x
y
y
b
x
x
(
)
∑
∑
⎜ ∑ xi ⎟ b2 = 0
i i
2
i
i =1
i =1
⎝ i =1 ⎠
N
⎛ N 2
⎞
−
⋅
⋅
−
x
y
N
x
y
b
x − N x2 ⎟ = 0 ,
∑
i i
2 ⎜∑ i
i =1
⎝ i =1
⎠
N
N
[da N ⋅ x = ∑ xi ]
i =1
N
⇔ b2 =
∑ ( x − x )( y − y )
i =1
i
i
N
∑(x − x)
i =1
2
(2.16)
i
2.9
• Hinweis: Erweitert man Zähler und Nenner von (2.16) mit
1
, so ergibt
N −1
sich das Verhältnis der Stichprobenkovarianz von x und y zur Stichprobenvarianz von x.
• Frage: Was ergibt sich aus (2.15) für das mittlere Residuum?
• Beispiel: Stichprobe von 3294 jugendlichen Erwerbstätigen aus den USA
von 1987, davon 1569 Frauen. Der mittlere Stundenlohn für Männer ist $
6,31 und für Frauen $ 5,15. Die Regression der Stundenlöhne auf eine
Dummyvariable (xi) für das Geschlecht (1 = männlich, 0 = weiblich) ergibt:
ŷi = 5,15 + 1,17xi
2.10
• Interpretation: Approximation des Lohnes für Frauen: $ 5,15 und für Männer
5,15 + 1,17 = $ 6,31. Dies entspricht den beobachteten Mittelwerten, da
N
b1 = yf und b2 = ym − yf , mit ym =
∑x y
i =1
N
i
i
∑x
i =1
N
und yf =
i
∑ (1 − x ) y
i =1
N
i
i
∑ (1 − x )
i =1
i
• Wir benutzen gelegentlich folgende abkürzende Schreibweise:
⎛ 1 x12
⎜
X =⎜
N×K
⎜1 x
N2
⎝
x1K ⎞ ⎛ x '1 ⎞
⎟ ⎜ ⎟
⎟ = ⎜ ⎟,
xNK ⎟⎠ ⎜⎝ x 'N ⎟⎠
⎛ y1 ⎞
⎜ ⎟
y =⎜ ⎟
N×1
⎜y ⎟
⎝ N⎠
2.11
• Damit:
( ) (
)(
)
∂S ( β )
= −2 ( X ' y − X' Xβ ) = 0
∂β
S β = y − Xβ ' y − Xβ = y ' y − 2y ' Xβ + β ' X' Xβ
⇔ b = ( X ' X ) X' y ,
−1
(2.17)
(2.18)
(2.19)
vorausgesetzt, X’X ist invertierbar.
• Wir können y zerlegen:
y = Xb + e
N×1
N×K K ×1
(2.20)
N×1
• Die Bedingung erster Ordnung (2.18) fordert
X'(y − Xb) = 0
⇔
X' e = 0 ,
N×K K ×1
(2.21)
2.12
d.h. jede Spalte von X ist orthogonal (linear unabhängig) zum Vektor der Residuen.
• Es lässt sich umformen:
y = Xb + e = X(X' X)−1 X' y + e = yˆ + e
(2.22)
⇒ ŷ = Xb = X(X' X)−1 X' y = Px y .
• Die Matrix Px ≡ X(X ' X)−1 X' wird als Projektionsmatrix beschrieben, da sie
den Vektor y auf den Spaltenraum von X projiziert. Das Residuum e ist
orthogonal zur Projektion von y, X b:
e = y – X b =(I – Px) y = Mx y
• e repräsentiert die Projektion von y auf einen Vektorraum, der orthogonal zu
dem ist, den die Spalten von X aufspannen.
2.13
• Hinweis:
Px Px = Px und
Mx Mx = Mx
aber wegen Orthogonalität Mx Px = 0
• Letztlich sind also ŷ und e, sowie X und e orthogonal.
2.14
2.2 Das lineare Regressionsmodell
• Ziel der Analyse ist es normalerweise, allgemeine Aussagen über Zusammenhänge zwischen Variablen abzuleiten, nicht y zu approximieren.
• Man unterstellt ein statistisches Modell, das für die Grundgesamtheit gilt:
yi = β1 + β2 xi2 + ... + βK xiK + εi
(2.24)
yi = xi ' β + εi
(2.25)
• yi, xi sind beobachtbare Variablen, εi ist ein unbeobachtbarer Störterm. β
sind die unbekannten, wahren Bevölkerungsparameter. Da wir die Daten
nur für eine Zufallsstichprobe vorliegen haben, betrachten wir yi und εi immer
und xi manchmal als Zufallsvariablen. In Matrixschreibweise:
y = Xb + ε
N×1
N×K K ×1
N×1
(2.26)
2.15
• Meist betrachtet man xi als deterministisch, nicht-stochastisch, wie in einem
Laborexperiment fest vorgegeben. Jede neue Stichprobe hätte die gleichen
x Werte und würde sich nur durch die Werte für εi und yi unterscheiden.
• Man unterstellt Zufallsstichproben, die Fehlerterme werden unabhängig für
jede Beobachtung aus der Bevölkerungsverteilung gezogen.
• Gelegentlich betrachtet man die Werte für xi als stochastisch. Die Zufallsziehung betrifft dann (xi,εi) oder (xi,yi) und es müssen Annahmen dazu getroffen
werden, ob die Verteilung der εi von X abhängt.
• Eine Annahme an unser statistisches Modell (2.25) besagt, dass die xVariablen exogen sind: E {εi | xi } = 0 , bei jeder Kombination erklärender Variablen ist der erwartete Wert des Störterms Null. Daher folgt:
2.16
E { yi xi } = x 'i β
(2.27)
• Die Koeffizienten βk beschreiben die Änderung im Erwartungswert von y,
wenn xik sich ändert und die anderen Werte von xi konstant bleiben (ceteris
paribus). Eine kausale Interpretation ist nicht in allen Fällen gerechtfertigt.
• Ein Schätzer (Schätzverfahren, estimator) beschreibt, wie eine Approximation für β bestimmt wird. Der geschätzte Wert für β in einer konkreten Stichprobe (estimate) ist davon zu unterscheiden.
• Der Kleinstquadrateschätzer (ein Schätzverfahren) für β lautet:
−1
⎛ N
⎞
b = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
∑xy
i =1
i
i
(2.28)
2.17
• b ist ein Vektor von Zufallsvariablen, da es über eine Stichprobe bestimmt
wurde. Es approximiert den Vektor der wahren Werte β. Uns interessiert die
Qualität des Schätzverfahrens.
2.18
2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben
• Gauss-Markov-Annahmen
A1: E { εi } = 0 ,
i = 1,2, …, N
A2: { ε1,..., εN } und
{ x ,...,x }
1
N
sind unabhängig.
A3: V { εi } = σ2 ,
i = 1,2, …, N
A4: cov { εi , εj } = 0
i,j = 1, …, N,
i≠j
• Interpretation: Aus A1 folgt, dass die Regressionsgerade im Mittel korrekt ist.
A3
besagt,
dass
alle
Fehlerterme
die
gleiche
Varianz
haben
(Homoskedastie), A4 schließt Autokorrelation aus, da verschiedene Fehlerterme nicht korreliert sind. Diese drei Annahmen können zusammengefasst werden:
2.19
E { ε } = 0 und V { ε} = σ2 IN
(N×N)
(2.29)
• Die Annahme A2 der Unabhängigkeit impliziert
E{ ε | X } = E{ ε } = 0
(2.30)
V { ε | X } = V { ε } = σ2 IN .
(2.31)
und
Die Gleichheit der bedingten und unbedingten Werte besagt, dass man aus
Kenntnis der X-Werte für Erwartungswert und Varianz von ε nichts hinzulernen kann. Das ist automatisch der Fall, wenn X eine deterministische, nichtstochastische Matrix ist.
2.20
• KQ Eigenschaft 1: Unter den Annahmen A1-A4 ist der KQ-Schätzer unverzerrt, d.h. in wiederholten Stichproben nimmt der Schätzer im Mittel den
wahren Wert β an: E{b} = β.
{ ( X ' X ) X ' y } = E { ( X ' X ) X ' ( Xβ + ε ) }
= E{ β + ( X ' X) X ' ε } = β + E{ ( X ' X) X ' ε }
= β + E{ ( X ' X) X ' } ⋅ E{ ε } = β
Beweis: E {b} = E
−1
−1
−1
−1
−1
Nur A1 und A2 müssen erfüllt sein, damit dies gilt.
2.21
• KQ-Eigenschaft 2: Die Streuung des KQ Schätzers wird wie folgt beschrieben
V { b | X } = σ ( X' X )
2
−1
−1
⎛ N
⎞
= σ ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
(2.32)
2
Unterstellt man nicht-stochastische Werte für X, so vereinfacht sich die
Schreibweise zu V{b}.
Herleitung in Matrixnotation bei nicht-stochastischen X:
V { b } = E { (b − β ) (b − β ) ' } = E
{ ( X' X )
−1
X ' ε ε ' X ( X ' X)
−1
}
= ( X ' X ) X ' ( σ2 IN ) X(X ' X)−1 = σ2 (X ' X)−1
−1
2.22
• Gauss-Markov-Theorem: Unter den Annahmen A1-A4 ist der KQ-Schätzer
der beste, lineare, unverzerrte Schätzer für β (Best Linear Unbiased
Estimator, BLUE).
− lineare Schätzer lassen sich darstellen als b~ = Ay , A ist eine K x N Matrix
− für unverzerrte Schätzer gilt E {Ay} = β
(bei KQ: A = (X' X)−1 X' )
− der KQ Schätzer ist der beste im Sinne der kleinsten Varianz:
V { bKQ
} ≤ V bk
k
{ }
• Um V { b} = σ2 (X' X)−1 , die Varianz der Koeffizienten, zu schätzen, brauchen
wir einen Schätzer für σ2, die Varianz des Störterms.
s2 =
1 N 2
∑ ei .
N − 1 i =1
(2.34)
2.23
~
s 2 ist ein verzerrter Schätzer für σ2, unverzerrt ist (unter Ann. A1-A4):
1 N 2
s =
∑ ei .
N − K i =1
(2.35)
2
Die Freiheitsgrade müssen um die bereits geschätzten K Parameter korrigiert werden. Daher
−1
⎛ N
⎞
V̂ { b } = s (X' X) = s ⎜ ∑ xi x 'i ⎟ .
⎝ i =1
⎠
2
−1
2
(2.36)
Für jedes Element bk ist seine Varianz s2ckk ein Maß für die Präzision der
−1
Schätzung. Dabei ist ckk das (k,k)te Element von ( ∑ xi x 'i ) . Die Wurzel der
Varianz ist der Standardfehler se ( bk ) = s ⋅ ckk .
• Verteilung der Fehlerterme: Typische Annahme: unabhängig normalverteilte
Fehlerterme:
2.24
ε ∼ N(0, σ2IN)
A5:
A5 schließt A1, A3, A4 mit ein und wird auch wie folgt dargestellt
εi ∼ NID(0, σ2)
A5’:
(NID: Normaly and Independently Distributed). Dies impliziert auch eine
Normalverteilung für yi (bei gegebenen oder deterministischen xi).
• Unter den Annahmen A2, A5 und deterministischen X folgt
b ∼ N ( β, σ2 (X' X)−1 ) ,
(2.38)
da b eine Linearkombination aller εi ist. Es impliziert
bk ∼ N ( βk , σ2 ckk ) ,
(2.39)
wobei ckk das (k,k)te Element von (X' X)−1 ist.
2.25
• Beispiel: Statistisches Modell:
wagei = β1 + β2 malei + εi
wage ist der individuelle Lohn, male eine Dummyvariable für das Geschlecht
von i: Unter der Annahme E{εi} = 0 und E{εi|malei} = 0 folgt
E{wagei|malei=0} = β1
der erwartete Lohn für Frauen
E{wagei|malei=1} = β1 + β2
der erwartete Lohn für Männer.
Die Schätzergebnisse unter A1-A4:
2.26
Tab. 2.1
1 KQ-Ergebnisse der Lohn
ngleichung
Die Ang
gaben zu den Stan
ndardfehlern erlau
uben uns
s, Hypothesen zu ttesten.
2.2
27
2.4 Schätzgüte
• Wie gut passt die geschätzte Regressionsgerade zu den Daten? Klassisches
Maß: Anteil der durch das Modell erklärten Stichprobenvarianz von y, R2:
R2 =
Vˆ { yˆ i }
V̂ { yi }
1
=
1
N
(N − 1) ∑ ( yˆ
i
− y)
(N − 1) ∑ ( y
− y)
i =1
N
i =1
wobei ŷi = x 'i b und y =
i
2
2
,
(2.40)
1
∑ i yi
N
• Da yi = x 'i b + ei , lässt sich ableiten:
ˆ { x 'i b,ei }
Vˆ { yi } = Vˆ { x 'i b + ei } = Vˆ { x 'i b } + Vˆ { ei } + 2 Cov
2.28
• Gemäß Normalgleichung sind xi und εi unabhängig, d.h.
N
∑ex
i =1
i
ik
= 0 , k = 1, …
K.
• Da x 'i b = ŷ , folgt
Vˆ { yi } = Vˆ { yˆ i } + Vˆ { ei }
(2.41)
• Also lässt sich R2 auflösen zu
Vˆ ( yˆ i )
Vˆ ( ei )
R2 =
= 1−
= 1−
Vˆ ( yˆ i ) + Vˆ ( ei )
Vˆ ( yi )
1
1
N
(N − 1) ∑ e
i =1
N
(N − 1) ∑ ( y
i =1
i
2
i
− y)
2
(2.42)
Die Stichprobenvarianz von yi kann in zwei Teile aufgeteilt werden. R2 beschreibt den Anteil der Gesamtvarianz, der durch das Modell erklärt wird.
2.29
• Solange das Modell eine Konstante enthält, gilt 0 ≤ R2 ≤ 1. Ein Modell nur
mit Konstante führt zu R2 = 0. Wenn alle ei = 0, dann R2 = 1.
• Beispiel: In Tabelle 2.1 wird 3,2% der Variation in y durch das Modell erklärt, anscheinend sind Geschlechterunterschiede kein zentraler Faktor.
• Die Größe von R2 hängt ab von der Art der abhängigen Variablen und des
Datensatzes. R2 misst nicht die Qualität des Modells, sondern die lineare
Anpassung des Spaltenraumes von x an y.
• Bei zusätzlichen erklärenden Variablen xik kann das R2 nicht sinken, selbst
wenn die zusätzlichen Variablen keinen Erklärungsgehalt haben. Das angepasste R2 berücksichtigt die zur Schätzung benötigten Freiheitsgrade:
2.30
1
R2 = 1 −
1
(N − K )
N
∑e
i =1
N
(N − 1) ∑ ( y
i =1
2
i
i
(2.45)
− y)
2
• Dieses Maß kann sinken und negativ werden, wenn berücksichtigte erklärende Variablen keinen Erklärungsbeitrag leisten.
• Sucht man nach einem Modell mit besonders hohem R2, so läuft man Gefahr, ein Modell für die vorliegende Stichprobe zu spezifizieren.
2.31
2.5 Hypothesentests
• Unter A1 – A5 ergab sich für den KQ-Schätzer: b ∼ N ( β, σ2 (X' X)−1 ) .
• Daraus folgt: z =
bk − βk
σ ckk
∼ N(0,1); wobei βk und σ unbekannt sind.
1 N 2
• σ kann durch den unverzerrten Schätzer s, mit s =
∑ ei , ersetzt werN − K i =1
2
den.
• Die Summe quadrierter, standardnormalverteilter Zufallsvariablen ist Chiquadrat verteilt:
2
⎛ ei ⎞
2
∑
⎜ σ ⎟ ∼ χN
i =1 ⎝
⎠
N
2.32
• Setzt man für die wahren, unbeobachteten Störterme ei die beobachteten
Werte der Stichprobe ein, so folgt:
∑ ê
2
i
σ
2
(N − K ) s
2
=
σ
2
~ χN2 −K
(2.47)
Hier hat die χ2-Verteilung nur N-K Freiheitsgrade, da nur N-K der Störterme
statistisch unabhängig sind.
• Das Verhältnis von unabhängigen standardnormalverteilten (z) und χ2verteilten Zufallsvariablen ( V ~ χM2 ) ist t-verteilt, wenn man umformt:
t=
z
V /m
~ tm
• Für unseren Fall ergibt sich:
2.33
tk =
bk − βk
s ckk
~ tN−K
(2.48)
Je größer N-K, umso ähnlicher wird die t- der Normalverteilung.
2.34
2.5.1 Einfacher t-Test
• Grundidee: Die t-Verteilung ist symmetrisch um 0 und t-verteilte Zufallsvariablen liegen mit hoher Wahrscheinlichkeit bei 0. Es ist unwahrscheinlich, unter der t-Verteilung sehr hohe oder sehr niedrige Werte vorzufinden.
• Beispiel: Bei N – K = 100 – 10 = 90 Freiheitsgraden liegen im Mittel 5% der
t-verteilten Zufallsvariablen oberhalb von 1,662 und unterhalb von –1,662,
bzw. 1% oberhalb von 2,368 und unterhalb von –2,368.
• Beim Testen geht man davon aus, dass die Nullhypothese (H0) gilt. Unter
dieser Annahme folgt die t-Teststatistik der t-Verteilung. Wenn nun die berechnete Teststatistik betraglich große Werte annimmt, schließt man, dass
die Nullhypothese nicht gilt, da solche Werte unter der t-Verteilung unwahrscheinlich sind.
2.35
• Beispiel: H0 : βk = βk0
( βk0 sei ein konkreter Wert)
bk − βk0
Wenn H0 zutrifft, ist tk =
t-verteilt, mit N-K Freiheitsgraden.
se ( bk )
Trifft H0 nicht zu, dann gilt die Alternativhypothese, z.B. H1 : βk ≠ βk0 .
• Man berechnet tk auf Basis von Schätzergebnissen für bk und se(bk). Nimmt
tk hohe Werte an, so wird H0 verworfen. Man bestimmt hierfür „kritische Werte“, die von einem zuvor bestimmten Signifikanzniveau α abhängen. α beschreibt die Wahrscheinlichkeit, mit der unter der unterstellten Verteilung
Werte jenseits des kritischen Wertes t α vorkommen:
N − K;
2
⎧
⎫
P ⎨| tk | > t α ⎬ = α
N − K;
2 ⎭
⎩
2.36
Für α wird meist 1, 5 oder 10 Prozent gewählt. Am 10% Niveau werden also
im Beispiel mit N – K = 90 Freiheitsgraden alle Nullhypothesen verworfen,
für die der Betrag der Teststatistik tk größer als 1,662 ist.
• Bei zweiseitigen Tests wird die Nullhypothese zugunsten der Alternativhypothese sowohl abgelehnt, wenn tk zu groß ist, als auch wenn es zu klein ist.
• Bei einseitigen Tests wird nur eine mögliche Alternative betrachtet, z.B.
H0: βk ≤ βk0 H1: βk > βk0
H0 wird nur verworfen, wenn tk zu groß ist (wenn tk negative Werte annimmt,
wird H0 nicht verworfen).
• Der kritische Wert für einseitige Tests bestimmt sich daher wie folgt:
P {tk > tN−K;α } = α
2.37
Bei N – K = 90 Freiheitsgraden verwerfen wir am 5% Signifikanzniveau H0,
wenn tk > 1,662 und am 1% Niveau, wenn tk > 2,368.
• Die Nullhypothese H0: βk = 0 wird von der Regressionssoftware meist automatisch getestet. Berechnet wird „der t-Wert“
tk =
bk − 0
bk
=
se ( bk ) se ( bk )
Kann man H0 am α-Signifikanzniveau verwerfen, so sagt man, dass bk am αSignifikanzniveau statistisch signifikant (von Null verschieden) ist.
• Neben Punktschätzern gibt es auch Intervallschätzer. Diese beschreiben
einen Wertebereich für den Parameter βk, der alle βk0 umfasst, für die
H0: βk = βk0 nicht verworfen werden kann. Dieses Intervall lässt sich wie folgt
ableiten: Unter H0 gilt mit Wahrscheinlichkeit 1–α, dass
2.38
−t
α
N − K;
2
⇔ −t
N − K;
⇔ bk − t
α
2
<
bk − βk
< t α
N − K;
se ( bk )
2
(2.50)
⋅ se ( bk ) < bk − βk < t
N − K;
N − K;
α
2
⋅ se ( bk ) < βk < bk + t
α
2
⋅ se ( bk )
N − K;
α
2
⋅ se ( bk )
(2.51)
• Bei einer hohen Zahl von Freiheitsgraden ist tN−K;0,025 = 1,96 , so dass das 95%
Konfidenzintervall für βk so aussieht:
⎡⎣bk − 1,96 ⋅ se ( bk ) ; bk + 1,96 ⋅ se ( bk ) ⎤⎦
(2.52)
• Interpretation: Bei wiederholten Stichproben enthalten 95% aller auf diese
Weise berechneten Konfidenzintervalle den wahren Wert βk, der eine nichtstochastische, unbekannte Zahl ist. Ein zufällig gewähltes Konfidenzintervall
enthält das wahre β mit der Wahrscheinlichkeit von 95%.
2.39
• Für ein konkretes Konfidenzintervall ist die Aussage, dass es β enthält, entweder wahr oder falsch. Eine Wahrscheinlichkeitsaussage ist nur im Zusammenhang mit Zufallsvariablen, nicht mit konkreten Ausprägungen zulässig.
2.40
2.5
5.2 Beisp
piel
• Tab. 2..1: KQ-Errgebnisse
e Lohngle
eichung
• Wir tes
sten die sstatistisch
he Signifik
kanz des
s Koeffizie
enten der Variable
en male:
H0: βmalee = 0
t=
H1: βmale ≠ 0
1,1661
1− 0
= 10,38
3
0,1122
2.4
41
• Kritischer t-Wert bei N = 3294 und K = 2 am 5%-Niveau für zweiseitigen
Test: t3292; 0,025 = 1,96.
• Da 10,38 > 1,96, wird H0 verworfen; es wäre extrem unwahrscheinlich, in einer t-Verteilung den Wert 10,38 anzutreffen. Also ist die Teststatistik vermutlich nicht t-verteilt und die Nullhypothese trifft nicht zu.
• Konfidenzintervall:
(1,1661 − 1,96 ⋅ 0,1122; 1,1661 + 1,96 ⋅ 0,1122 ) = ( 0,946; 1,386 )
Dies bedeutet nicht, dass βmale tatsächlich in diesem Intervall liegt und auch
nicht, dass es mit 95%-Wahrscheinlichkeit in diesem Intervall liegt. Aber mit
diesem Verfahren wäre in wiederholten Stichproben in 95% der Fälle das
wahre βmale im Intervall enthalten.
2.42
2.5.3 Illustration
Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing of South
African red wines, International Journal of Wine Marketing 18(3), 166-182.
• Fragestellung: Was bestimmt den Preis eines Weines? Wie groß ist der
Einfluss verschiedener Determinanten?
• Daten: 537 Sorten südafrikanischer Rotweine 2004 mit Information zu Preis,
Rebsorte, Weinqualitätsmaße (blinde und offene Bewertung)
2.43
• Zusammenhang: Preis und offene Bewertung
2.44
• Zusammenhang: Preis und blinde Bewertung
2.45
K
• Schätzgleichung: pricei = α + ∑ bk xk + εi
k =1
i
= Index der Weine
α = Regressionskonstante
k
=
bk =
Index der Determinanten
Koeffizient des Merkmals k
ε = Störterm
• Interpretation: Intrinsischer Werti
= Preisi – εi
K
= α + ∑ bk xk
k =1
2.46
• Schätzergebnisse lineares Modell:
Modell 1
Koeff.
t
Modell 2
Koeff.
t
Constant
24.03
3.50
-75.70
-7.04
Cabernet
21.00
4.57
9.45
2.38
Merlot
10.04
2.51
8.74
2.39
Shiraz
21.20
5.04
17.14
4.78
Pinot-Noir
28.53
3.38
37.22
5.23
Pinotage
(Referenz)
Blind-Bewertung
2.62
5.05
–
–
Offene Bewertung ("Platter")
(Referenz)
–
37.58
Adj. R2
13.01
30.35
n
537
537
–
12.58
2.47
2.5.4 Tests der gemeinsamen Signifikanz von Regressionskoeffizienten
• Nullhypothese, dass Teilgruppe J der K-1 Steigungsparameter gleich Null ist.
(mit J < K): H0: βK-J+1 = … = βK = 0.
Alternativhypothese H1: wenigstens einer der J Koeffizienten ist ≠ 0.
• Testidee: Vergleiche die Summe der quadrierten Residuen aus der Regression mit J Parametern (S1) mit der des restringierten Modells ohne die J Parameter (S0). Unter der Nullhypothese sollten S0 und S1 ungefähr gleich sein.
Teststatistik:
f=
(S
0
− S1 ) / J
S1 / (N − K)
~ FJ,N−K
(2.58)
• Es lässt sich zeigen, dass f auch wie folgt bestimmt werden kann:
2.48
f=
(R
2
1
− R02 ) / J
(1 − R12 ) / (N − K)
,
(2.59)
R12 und R02 messen die Schätzgüte für das unrestringierte und restringierte
Modell.
• Wenn f große Werte annimmt, sollte die H0 verworfen werden. Die kritischen
Werte für den F-Test werden einseitig bestimmt,
P { f > FJ,N−K;α } = α , wobei α das Signifikanzniveau angibt.
so
dass
gilt
= 2,76 .
• Beispiel: Für N – K = 60 und J = 3 ist F krit.
3,60; 0,05
• Es ist möglich, dass eine Gruppe von Koeffizienten einzeln insignifikant und
gemeinsam signifikant ist, d.h. H0: β2 = 0 und H0: β3 = 0 wird nicht verworfen,
aber H0: β2 = β3 = 0 kann verworfen werden. Auch das Gegenteil ist möglich.
2.49
Grund: bei t-Tests wird die Korrelation zwischen Parameterschätzern nicht
berücksichtigt, bei F-Tests jedoch sehr wohl.
• Häufige Anwendung des F-Tests: H0: β2 = β3 = … = βK = 0 (alle Steigungsparameter). Hier kann die Teststatistik geschrieben werden als
f=
(S
0
− S1 ) / (K − 1)
S1 / (N − K)
,
(2.60)
wobei S1 = ∑ ei2 und S0 die Fehlerquadratsumme eines Modells ist, das lei
diglich aus einem Achsenabschnittsparameter besteht: S0 = ∑ ( yi − y ) . Da
2
i
hier R02 = 0 , lässt sich die Teststatistik auch wie folgt schreiben:
F=
R2 / (K − 1)
(1 − R2 ) / (N − K)
.
2.50
2.5.5 Beispiel
• Geschätzt wird das Modell
wagei = β1 + β2 malei + β3 schooli + β4 experi + εi ,
wobei school die Dauer der Schulausbildung abbildet und exper die Arbeitserfahrung in Jahren. Nun werden alle Koeffizienten „ceteris paribus“ interpretiert, d.h. β2 beschreibt den Unterschied im Lohn für Männer und Frauen
gleicher Schulausbildung und Arbeitserfahrung.
Tab. 2.2: KQ-Ergebnisse Lohngleichung
2.51
Der mittlere Lo
ohnunters
schied zw
wischen Männern
n und Frrauen be
eträgt nu
un
1,34. Alle
A drei Steigung
gsparame
eter sind
d einzeln statistis
sch signiffikant. Eiin
zusätzlliches Scchuljahr erhöht
e
den Lohn um 0,64, ein
e weiteres Jahr Arbeitserfahrung
g um 0,12
25.
• Die Hy
ypothese, dass alle
e Steigun
ngsparam
meter = 0 sind, wird deutlicch verworfen: F3,33290;0,05 = 2
2,60 < 167
7,63 .
2.5
52
• Im Vergleich zum Modell in Tabelle 2.1 ist das R2 deutlich von 0,03 auf 0,13
gestiegen. Ein Test auf gemeinsame Signifikanz der Koeffizienten β3 und β4
lautet daher
f=
( 0,1326 − 0,0317 ) / 2
= 191,35 > 3,00 = F
(1 − 0,1326 ) / ( 3294 − 4 )
2,3290;0,05
Somit verbessern die zusätzlichen Variablen den Erklärungsgehalt des Modells signifikant.
2.53
2.5.6 Allgemeine Form des F-Tests
• Allgemeine Form für J lineare Restriktionen: Rβ = q, wobei R eine J x K Matrix ist (wir unterstellen Nichtsingularität), q ist ein J dimensionaler Vektor.
• Beispiel:
Restriktion 1
β2 + β3 +…+ βK = 1
Restriktion 2
β2 = β3
⎛0
mit J = 2 gilt R = ⎜
⎝0
1
1
1 ...
−1 0
...
...
1⎞
,
0 ⎟⎠
⎛ 1⎞
q = ⎜ ⎟.
⎝0⎠
• In den meisten Fällen kann das Modell unter den Restriktionen geschätzt
werden, so dass der normale F-Test verwendet werden kann. Wenn dies
z.B. wegen der Komplexität der Nullhypothese nicht möglich ist, nutzt man
die Tatsache, dass
2.54
(
)
Rb ~ N Rβ, σ2R ( X ' X ) R ' ,
−1
um über die quadratische Form eine χ 2 -verteilte Teststatistik abzuleiten. Es
gilt
(Rb − q) ' (R ( X X )
−1
'
ξ=
R'
)
−1
(Rb − q)
σ
2
~ χ2J
• Das unbekannte σ2 muss ersetzt werden durch s2. Nun gibt es zwei Möglichkeiten: Entweder man ersetzt σ2 durch s2, dann ist die Teststatistik approximativ χ2-verteilt (unter der Nullhypothese). Dies wird als Wald Test bezeichnet.
2.55
2
• Alternativ nutzt man, dass (N-K)s2 / σ2 ~ χN-K
und leitet unter der Annahme
zweier unabhängig χ2-verteilter Zufallsvariablen aus ξ und (2.47) einen fTest ab:
(Rb − q) ' ( σ R ( X X )
2
f
=
=
−1
'
R'
)
−1
(Rb − q) / J
⎡⎣(N − K ) s2 / σ2 ⎤⎦ / (N − K )
(
(Rb − q) ' R ( X' X ) R '
−1
Js2
)
−1
(Rb − q)
~ FJ,N−K
(unter H0)
2.56
2.5.7 Signifikanz, Teststärke und p-Wert
• Fehlertypen beim statistischen Testen von Hypothesen:
Typ I Fehler: Die zutreffende Nullhypothese wird verworfen.
Typ II Fehler: Die nicht zutreffende Nullhypothese wird nicht verworfen.
• Die Wahrscheinlichkeit eines Typ I Fehlers kontrollieren wir mit dem
Signifikanzniveau α. Bei einem Test am 5% Signifikanzniveau beträgt die
Typ I Fehlerwahrscheinlichkeit 5% (α = size of the test).
• Die Wahrscheinlichkeit eines Typ II Fehlers (β) hängt vom wahren Parameterwert ab. Je weiter dieser von der Nullhypothese abweicht, umso kleiner ist
die Typ II Fehlerwahrscheinlichkeit.
2.57
Stichprobe
Bevölkerung
α/2 Typ I
α/2 Typ I
Typ II
(Fehlerwahrscheinlichkeit β)
• Man bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt
wird, wenn sie falsch ist, als die Teststärke (Power) eines Testes: 1-β. Auch
diese ist vom wahren Parameterwert abhängig.
• Zusammenhang zwischen Typ I und Typ II Fehlern: Je größer α, umso kleiner β.
2.58
• Je größer die Stichprobe N, umso kleiner die Streuung des geschätzten Parameters. Beim Signifikanztest steigt die Wahrscheinlichkeit, H0 zu verwerfen. Die Wahrscheinlichkeit eines Typ II Fehlers sinkt. Um dies auszugleichen, werden bei großen Stichproben geringere Werte für α festgelegt (geringere α Werte steigern die β Wahrscheinlichkeit). Während bei kleinen
Stichproben α = 0,1 relevant ist, betrachtet man bei großen eher α = 0,01.
• Eine nicht verworfene Nullhypothese impliziert nicht, dass H0 wahr ist. Es ist
möglich, dass verschiedene Nullhypothesen bei gegebener Datenlage nicht
verworfen werden können. Dennoch können nicht alle wahr sein. Dies zeigt
dann, dass die Tests nicht mächtig sind.
• Der p-Wert (probability value) gibt den kleinstmöglichen α Wert an, unter
dem eine Nullhypothese noch verworfen würde. Der p-Wert beschreibt unter
2.59
der Nullhypothese die Wahrscheinlichkeit, eine Teststatistik zu finden, die
größer als die empirisch auf Basis der Stichprobe bestimmte Teststatistik ist.
• Wenn p < α, wird H0 verworfen.
• Beispiel: Bei einem Signifikanztest H0: β = 0 mit p = 0,08 würde H0 am α =
10% Niveau verworfen, am α = 5% Niveau nicht.
2.60
2.6 Asymptotische Eigenschaften des KQ Schätzers
• Es gibt viele Situationen, in denen die beschriebenen Eigenschaften des KQ
Schätzers nicht mehr zutreffen. Ist ε nicht normalverteilt, dann auch nicht b,
sind ε und X nicht orthogonal, so ist b kein unverzerrter Schätzer, trifft
V {εi } = σ2 nicht zu, ist der KQ Schätzer nicht mehr BLUE.
• Um die Eigenschaften von Schätzern außerhalb enger Annahmen beschreiben zu können, definiert man für den Fall von N → ∞ asymptotische Eigenschaften von Schätzern.
2.61
2.6.1 Konsistenz
• Im linearen Modell hat der KQ Schätzer die folgenden Momente:
E {b} = β
(2.65)
−1
−1
⎛ N
⎞
V {b} = σ ⎜ ∑ xi xi' ⎟ = σ2 ( X' X )
⎝ i =1
⎠
2
(2.66)
• Ohne Annahme einer Normalverteilung der Störterme lässt sich über die
Verteilung von b wenig sagen.
• Die Ungleichung von Chebycheff besagt, dass die Wahrscheinlichkeit,
dass eine Zufallsvariable z um mehr als den Betrag δ von ihrem Mittelwert
abweicht, nicht größer sein kann als die Varianz der Zufallsvariable geteilt
durch δ2:
2.62
P { | z − E {z} | > δ} <
V {z}
für alle δ > 0
δ2
(2.67)
• Für KQ-Koeffizienten:
P { | bk − βk | > δ} <
V {bk }
δ2
σ2 ckk
= 2 für alle δ > 0,
δ
wobei ckk das (k,k)te Element von
Wenn N → ∞ , wächst
( X' X )
−1
(2.68)
−1
⎛ N
⎞
= ⎜ ∑ xi xi ' ⎟
⎝ i =1
⎠
ist. Entscheidend:
N
∑ x x ' und Var{bk} fällt. Unter der Annahme, dass
i =1
i
i
1 N
∑ xi xi ' für N → ∞ gegen eine nichtsinguläre Matrix
N i =1
∑
xx
konvergiert,
(A6)
folgt:
lim P { | bk − βk | > δ} = 0
N →∞
für alle δ > 0
(2.69)
2.63
Asymptotisch ist die Wahrscheinlichkeit, dass der KQ-Schätzer sich um
mehr als δ von seinem Erwartungswert entfernt, 0. Der Wahrscheinlichkeitsgrenzwert (probability limit, plim) von bk ist βk:
plim b = β.
(2.70)
Schätzer, die zum wahren Wert konvergieren, bzw. deren Wahrscheinlichkeitsgrenzwert dem wahren Wert entspricht, sind konsistent.
• Intuition: Je größer die Stichprobe, umso kleiner wird die Streuung des
Schätzers um den unbekannten wahren Wert.
• Konsistenz ist eine large sample property. Konsistente Schätzer treffen bei
ausreichendem Stichprobenumfang N den wahren Wert mit beliebiger Ge-
2.64
nauigkeit. Diese Eigenschaft ist insbesondere dann von Interesse, wenn
man die Unverzerrtheit eines Schätzers nicht nachweisen kann.
f(bB)
f(bA)
N1 < N2 < N3
N3
N1 < N2 < N3
N3
N2
N2
N1
N1
β
bA
β
bB
Schätzer bA und bB sind konsistent. bA ist unverzerrt, bB ist verzerrt.
• Bei plim b = β und für die stetige Funktion g gilt für den Wahrscheinlichkeitsgrenzwert die Rechenregel
plim g(b) = g(β).
(2.71)
2.65
Dies impliziert z.B. dass, wenn s2 ein konsistenter Schätzer für σ2 ist, s ein
konsistenter Schätzer für σ ist, eine Eigenschaft, die für Unverzerrtheit und
2
Erwartungswerte nicht gilt: E {s} ≠ E {s2 } .
• Man kann zeigen, dass der KQ Schätzer auch unter schwächeren Annahmen als A1–A4 konsistent ist:
−1
⎛ N
⎞
b = ⎜ ∑ xi xi ' ⎟
⎝ i =1
⎠
−1
⎛1
⎞ 1
xi yi = ⎜ ∑ xi xi ' ⎟
∑ xi yi
∑
i =1
⎝N
⎠ N
N
(2.72)
−1
⎛1
⎞ 1
= β + ⎜ ∑ xi xi ' ⎟
∑ xi εi
⎝N
⎠ N
Wenn N groß wird, konvergieren die Mittelwerte von xi xi' und xi εi zum Mittel1 N
wert der Grundgesamtheit. Unter der Annahme A6 konvergiert ∑ xi xi ' für
N i =1
N → ∞ gegen
∑
xx
, so dass
2.66
plim ( b − β ) = ∑ −xx1 E {xi εi } .
(2.73)
Der KQ Schätzer ist daher konsistent, wenn
E {xi εi } = 0.
(A7)
• Die Konsistenz von KQ-Schätzern ergibt sich bereits aus den Annahmen
(A6) und (A7). Diese Bedingungen reichen zum Nachweis der Unverzerrtheit
nicht aus. Hierzu benötigt man (A1) – (A4).
• Der KQ-Schätzer s2 für die Varianz des Störterms σ2 ist unter den Annahmen (A6), (A7), (A3) und weiteren Regularitätsannahmen ebenfalls konsistent. Je größer die N, umso genauer schätzt b β, umso verlässlicher schätzen die geschätzten Störterme die wahren ε und V{ε} das wahre σ2 .
2.67
2.6.2 Asymptotische Normalverteilung
• Ist die Verteilung eines Schätzers für kleine Stichproben unbekannt, so kann
man seine asymptotische Verteilung bestimmen. Die meisten Schätzer
sind asymptotisch normalverteilt, d.h. für N → ∞ folgt N βˆ − β der Normal-
(
)
verteilung.
(
)
• Da asymptotisch β̂ = β (bei konsistenten Schätzern) hat β̂ − β eine degenerierte Verteilung, d.h. für N → ∞ ist die gesamte Wahrscheinlichkeitsmasse
auf der Null: Es folgt P βˆ − β = 0 = 1. Betrachtet man statt dessen
(
{(
)
) }
N βˆ − β , erhält man eine nicht degenerierte Normalverteilung mit der Konvergenzrate
N . Greene (2008) nennt die Multiplikation mit
N eine "stabili-
sierende Transformation".
2.68
• Es lässt sich zeigen, dass unter den Annahmen (A1) – (A4) in Kombination
mit (A6)
N ( b − β ) → N ( 0, σ2 ∑ −xx1 ) ,
(2.74)
man sagt, der KQ-Schätzer ist asymptotisch normalverteilt mit der VarianzKovarianz-Matrix σ2 ∑ −xx1 .
• Bei kleineren Stichproben spricht man von approximativer Verteilung:
a
(
b ~ N β, σ2 ∑ xx /N
−1
)
(2.75)
Die Varianz-Kovarianz-Matrix wird wie folgt geschätzt:
−1
N
⎛
⎞ ⎞
2 ⎛
b ~ N ⎜ β, s ⎜ ∑ xi x 'i ⎟ ⎟
⎝ i =1
⎠ ⎠
⎝
a
(2.76)
2.69
Dies gilt auch für kleine Stichproben und ist umso genauer, je größer die
Stichprobe.
• Da der KQ-Schätzer unabhängig von der Verteilung der Störterme asymptotisch normalverteilt ist, sind die Ableitungen der Verteilungen der t- und FStatistiken asymptotisch zutreffend, auch ohne normalverteilte Störterme.
• Da die t-Verteilung für N → ∞ zur Normalverteilung konvergiert, werden oft
die kritischen Werte der Normalverteilung genutzt, ohne dass für die Störterme die Normalverteilung unterstellt wird.
• Auch für FJ,N−K - verteilte Zufallsvariablen f gilt asymptotisch, dass ξ = J ⋅ f χ2J verteilt ist. Um J lineare Restriktionen zu testen, berechnet man also J ⋅ f und
wählt die kritischen Werte aus der χ2 -Verteilung.
2.70
• Die Ergebnisse (2.74) und (2.76) gelten auch noch, wenn die Annahme A2
abgeschwächt wird zu
xi und εi sind unabhängig,
(A8)
d.h. für i ≠ j ist Unabhängigkeit von xi und εi nicht erforderlich. A8 impliziert
A7, d.h. E { xi εi } = 0.
2.71
2.7 Illustrationen
2.7.1 Illustration 1: Makroökonomische Investitionsfunktion
• Frage: Welchen Zusammenhang gibt es zwischen BIP und Investitionen?
• Daten: jährliche makroökonomische Daten aus USA (1990 – 2005)
• Variablen:
Inv_MR
=
private Investitionen, in Mrd. US-$ von 2000
Inv_M
=
private Investitonen, in Mio. US-$ von 2000
BIP_MR
=
Bruttoinlandsprodukt, in Mrd. US-$ von 2000
BIP_M
=
Bruttoinlandsprodukt, in Mio. US-$ von 2000
2.72
Lineare Regressionsergebnisse: Koeffizienten (Standardfehler)
1
2
3
4
Abh. Var.:
Inv_MR
Inv_M
Inv_MR
Inv_M
Konstante
-926,090
-926 090
-926,090
-926 090
(116,358)
(116 358)
(116,358)
(116 358)
0,2535
-
-
253,524
BIP_MR
(0,0129)
BIP_M
-
(12,946)
0,2535
0,0002535
(0,01299)
(0,0000129)
-
2.73
R2
0,9648
0,9648
0,9648
0,9648
In Spalte 1 zeigt sich ein positiv signifikanter Zusammenhang. Der Steigungsparameter in Spalte 2 bleibt identisch, wenn beide Größen mit 1000
multipliziert werden. Die Konstante wächst ebenfalls um den Faktor 1000.
Wird lediglich die erklärende Variable skaliert (Spalte 3), so bleibt die Konstante im Vergleich zu Spalte 1 gleich, aber der Steigungsparameter passt
sich an. Seine statistische Signifikanz ist von der Skalierung unabhängig. In
Spalte 4 wird nur die abhängige Variable skaliert. Dies beeinflusst beide geschätzten Parameter. Weder das R2 noch die t-Statistik werden von Skalierungen beeinflusst.
(Quelle: Gujarati / Porter, 2009, S. 156)
2.74
2.7.2 Illustration 2: Stundenlöhne und Bachelorabschluss in USA
• Frage: Gibt es einen Zusammenhang zwischen Ausbildung und Löhnen?
• Daten: 4000 Vollzeitbeschäftigte im Alter 25 - 34 aus dem Current Population Survey von 1998
• Variablen:
AHE
mittlere Stundenlöhne in 1998 US-$ (abh. Var.)
College
1, wenn Bachelor, 0 wenn High School
Female
1, wenn weiblich, 0 wenn männlich
Age
Alter in Jahren
Northeast 1, wenn aus dem Nordosten der USA, 0 sonst
Midwest
1, wenn aus dem mittleren Westen der USA, 0 sonst
South
1, wenn aus dem Süden der USA, 0 sonst
West
1, wenn aus dem Westen der USA, 0 sonst
2.75
Lineare Regressionsergebnisse: Koeffizienten (Standardfehler)
College
Female
1
2
3
5,46
5,48
5,44
(0,21)
(0,21)
(0,21)
-2,64
-2,62
-2,62
(0,20)
(0,20)
(0,20)
0,29
0,29
(0,04)
(0,04)
-
0,69
Age
Northeast
-
(0,30)
Midwest
-
-
0,60
(0,28)
South
-
-
-0,27
(0,26)
Konstante
R
2
F-Test der Regionalen Effekte
12,69
4,40
3,75
(0,14)
(1,05)
(1,06)
0,176
0,190
0,194
-
-
6,10
2.76
• Fragen: Welche Koeffizienten sind am 1-Prozent-Niveau signifikant?
Wie unterscheiden sich die Löhne von Männern und Frauen?
In welcher Region ist das Lohnniveau am höchsten?
Ist die Kontrolle für die Region gemeinsam signifikant?
Wie hoch ist der mittlere Lohnunterschied für 25 und 30-Jährige
Frauen mit Collegeabschluss?
(Quelle: Stock & Watson, 2007, S. 247)
2.77
2.8 Multikollinearität
• Bei Multikollinearität führen enge lineare Beziehungen zwischen erklärenden
Variablen zu nicht verlässlichen Schätzergebnissen.
• Beispiel 1: Regressiere Stundenlöhne auf Alter und Berufserfahrung. Alter
und Berufserfahrung sind korreliert und X' X nähert sich damit der Singularität und Nichtinvertierbarkeit. Die Koeffizienten werden unpräzise geschätzt,
da die Daten nicht genug Information enthalten, um beide Effekte einzeln zu
identifizieren.
• Im
Extremfall
perfekter
Multikollinearität
ist
die
X' X -Matrix
nicht
invertierbar und der KQ-Schätzer ist nicht eindeutig definiert.
2.78
• Ein typischer Fall von Multikollinearität liegt ebenfalls vor, wenn zu viele
Dummyvariablen verwendet werden.
• Beispiel 2: yi = β0 + β1 malei + β2 femalei + εi ,
wobei male für Männer mit 1 und Frauen mit 0 und female umgekehrt kodiert
werden. Da immer gilt malei + femalei = 1 ist die X' X -Matrix singulär, die
Summe der Variablen ergibt die Konstante. Die (analytische) Lösung besteht
darin, eine der drei Variablen (Konstante, male, female) auszulassen. Die
Konstante sollte im Allgemeinen jedoch beibehalten werden.
• Beispiel 3: wagesi = β0 + β1 agei + β2 schoolingi + β3 experiencei + εi
2.79
Da die Arbeitserfahrung (experience) meist nicht als Variable vorliegt, wird
sie approximiert (potential experience): experiencei = agei – schoolingi – 6.
Hier sind die drei Variablen automatisch kollinear.
• Auswirkung von Kollinearität auf KQ-Schätzer: Modell yi = β1 xi1 + β2 xi2 + εi
und wir unterstellen y = x1 = x2 = 0 sowie V {xi1} = V {xi2 } = 1 und Korrelationskoeffizient r12. Dann folgt
V { b1 } = V { b2 } =
σ2 N
1 − r122
Je höher r12, umso größer ist die Varianz und Ungenauigkeit der Regressionskoeffizienten,
umso
kleiner
die
t-Werte,
umso
breiter
die
Konfidenzintervalle. Positiv korrelierte erklärende Variablen führen zu negativ korrelierten Koeffizienten.
2.80
• Lösung: mehr Daten bzw. Informationen beschaffen, entweder durch größere Stichproben oder durch zusätzliche Restriktionen auf den Parametervektor.
• Beispiel: Ob man in der Lohngleichung den Dummy für Männer oder für
Frauen berücksichtigt, ist irrelevant. Ohne Konstante kann nur noch das
nichtzentrierte R2-Maß präsentiert werden, welches generell größer ist als
das Standard R2 (siehe 2.43).
2.81
Tab. 2..6 Alternative Spe
ezifikation
nen mit Dummyva
ariablen
2.8
82
2.9 Vorhersage
• Eine Verwendung von Schätzergebnissen besteht im Erstellen von Vorhersagen der abhängigen Variable, wenn Werte für x0 vorgegeben sind:
y0 = x '0 β + ε0 . Ein unverzerrter Vorhersagewert für y0 wäre ŷ0 = x '0 b , da E{b}
= β. Das heißt E {yˆ 0 − y0 } = 0.
• Die Varianz des vorhergesagten Wertes infolge der Schätzung von β ist
V { yˆ 0 } = V { x'0 b} = x'0 V { b} x0 = σ2 x'0 ( X'X ) x0 .
−1
(2.82)
• Die Varianz des Vorhersagefehlers:
beträgt
y0 − yˆ 0 = x '0 β + ε0 − x '0 b = ε0 − x '0 ( b − β )
(2.83)
V { y0 − yˆ 0 } = σ2 + σ2 x'0 ( X'X ) x0 ,
(2.84)
−1
wenn b und ε0 nicht korreliert sind.
2.83
• Im einfachen Regressionsmodell mit einer erklärenden Variable xi gilt
⎛1
V { y0 − yˆ 0 } = σ2 + σ2 ⎜ +
⎜N
⎝
(x − x)
∑ (x − x)
2
0
2
i
i
⎞
⎟.
⎟
⎠
Je weiter x0 von x entfernt, umso unpräziser wird die Vorhersage.
• Das 95%-Vorhersageintervall für y0 ist:
⎡ x ' b − 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ; x' b + 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ⎤ ,
0
0
0
0
0
⎢⎣ 0
⎥⎦
(2.85)
wobei 1,96 der kritische Wert der Standardnormalverteilung ist. Mit 95%
Wahrscheinlichkeit enthält das Intervall den wahren, aber unbekannten Wert
von y0.
2.84
• Illustration: Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing
of South African red wines, International Journal of Wine Marketing 18(3),
166-182.
• Das in Abschnitt 2.2 präsentierte Modell wird mit einer detaillierteren Spezifikation verglichen.
2.85
• Schätzergebnisse lineares Modell
Modell 3
Koeff.
t
Modell 4
Koeff.
t
Constant
-79.00
-7.22
3.65
0.49
Cabernet
10.65
2.69
13.19
3.27
Merlot
7.68
2.16
8.70
2.52
Shiraz
15.93
4.36
16.98
4.91
Pinot-Noir
35.90
4.99
34.34
4.62
Pinotage
(Referenz)
(Referenz)
Blind-Bewertung
6.11
2.40
–
–
Offene Bewertung ("Platter")
34.26
10.98
–
–
Platter 2 Stern
–
–
47.39
1.36
Platter 3 Stern
–
–
65.14
1.69
2.86
Platter 4 Stern
–
–
91.03
2.31
Blind 1 Stern
–
–
-31.41
-0.84
Blind 2 Stern
–
–
-38.87
-1.04
Blind 3 Stern
–
–
-28.25
-0.76
Adj. R2
N
31.80
39.46
537
537
• Keine einheitlichen oder linearen Preissprünge bei steigender Qualität
• Vergleich von vorhergesagtem Wert und tatsächlichem Preis (Modell 4):
2.87
K
wobei valuei = pricei – εi = α + ∑ bk xk .
k =1
2.88
• Entgegen dem "populären Marketing-Mythos", dass Schnäppchen nur im unteren Preissegment existieren, zeigt die Analyse, dass auch hochwertige
Weine preiswert sein können:
2.89
• Dies lässt sich auch für konkrete hochwertige Weine zeigen:
High priced wines that offer exceptional value-for-money
2004
Price
(in
Rand)
Wine label
Kevin Arnold Shiraz
115.00
2001
Wine Platter Linear
score score valuation
(in
Rand)
Dummy
valuation
(in
Rand)
Linear
model:
extent of
mispricing
(%)
Dummy
model:
extent of
mispricing
(%)
4.5
4.5
118.57
159.10
-3.10
-38.35
95.00
4.0
4.5
115.52
140.06
-21.60
-47.43
Thelema
Cabernet
120.00
Sauvignon 2001
4.0
4.5
110.23
136.26
8.14
-13.55
Hartenberg
2001
3.5
4.5
112.46
128.20
-18.38
-34.95
BWC Shiraz 2001
Shiraz
95.00
Es macht in der Bewertung einen erheblichen Unterschied, ob Modell 3 oder
4 geschätzt wurde (vergleiche die beiden letzten Spalten).
2.90
Literatur:
Verbeek, 2008, Kapitel 2.
Priilaid, D.A. und P. van Rensburg, 2006, Non-linearity in the hedonic pricing of
South African red wines, International Journal of Wine Marketing 18(3), 166-182.
2.91
Kapitel 3: Interpretation und Vergleich von Regressionsmodellen
3.1 Interpretation des linearen Modells
3.2 Auswahl der unabhängigen Variablen
3.3 Fehlspezifikation der funktionalen Form
3.4 Illustration: Die Erklärung von Hauspreisen
3.5 Illustration: Die Erklärung individueller Löhne
3.1
Lernziele Kapitel 3:
• Welche Möglichkeiten gibt es Koeffizienten linearer Regressionsmodelle zu
interpretieren?
• Nach welchen Kriterien sollte die Spezifikation von Regressionsmodellen erfolgen?
• Wann ist ein Modell fehlspezifiziert?
3.2
3.1 Interpretation des linearen Modells
• Hinweis: Verbeek verwendet stets die Notation „log“, aber der natürliche Logarithmus „ln“ ist gemeint.
yi = x 'i β + εi
• Modell:
E { εi X} = 0 oder E { εi xi } = 0
Annahme:
(3.1)
(3.2)
Wenn der Erwartungswert von ε für gegebene X null ist, gibt das Modell den
auf X bedingten Erwartungswert von yi an.
Beispiel: Der erwartete Lohnsatz (y) für eine Frau (xi1) im Alter 40 (xi2) mit
Universitätsabschluss (xi3).
• Der Koeffizient βk misst ceteris paribus den Effekt einer Änderung von xik auf
den Erwartungswert von y:
3.3
∂ E {yi xi }
∂ xik
= βk
(3.3)
• Es ist nicht sinnvoll, Koeffizienten einzeln zu betrachten, wenn Polynome der
erklärenden Variable geschätzt werden. Wenn yi = … + agei β2 + agei2 β3 + …,
wird der marginale Effekt des Alters wie folgt bestimmt:
∂ E {yi xi }
∂ agei
= β2 + 2 agei β3 .
(3.4)
• Der marginale Effekt erklärender Variablen kann auch von anderen Variablen abhängen, z.B. bei Interaktionstermen
yi = … + agei β2 + ( agei ⋅ malei ) β3 + …
∂ E {yi xi }
∂ agei
= β2 + malei β3
(3.5)
3.4
Der marginale Effekt des Alters beträgt β2 + β3 für Männer und β2 für Frauen.
• Elastizitäten lassen sich aus Regressionen direkt ablesen, wenn logarithmierte Variablen betrachtet werden. Ein loglineares Modell lautet:
log yi = ( log xi ) ' γ + υi
Da
∂ log y
∂y
=
1
y
⇔ ∂ log y =
∂E { yi xi } E { yi xi }
∂xik
xik
=
∂y
y
, so dass
∂E { yi xi }
∂xik
⋅
∂ log y
∂ log x
=
(3.6)
∂y / y
∂x / x
= γ folgt hier
∂E {log yi log xi }
xik
≈
= γk
∂ log xik
E {yi xi }
(3.7)
Dies impliziert für das lineare Modell, dass die Elastizitäten mit xi variieren:
∂ E { yi xi }
∂xik
⋅
xik
βx
= k ik
x'β
E {yi xi }
i
(3.8)
3.5
• Wenn xi eine Dummyvariable ist, beschreibt der Koeffizient β für
logyi = x 'i β + εi ,
(3.9)
um wie viel Prozent sich y bei einer Änderung von xi um eine Einheit ändert.
Für kleine β lässt sich dies wegen eβ ≈ 1 + β direkt ablesen.
• Beispiel: e0,02 = 1.0202. Für große β berechne ( eβ − 1) ⋅ 100% .
• Für die Vorhersage von yi spielt es eine Rolle, ob linear oder loglinear geschätzt wurde. Wenn E { υi log xi } = 0 , ist der vorhergesagte Wert für log yi
aus Modell (3.6) genau ( log xi ) ' γˆ . Der vorhergesagte Wert für yi ist nicht
{
}
exp { ( log xi ) ' γ}, denn E {yi xi } ≠ exp E{ log yi xi } . Der Erwartungswert einer
nichtlinearen Funktion ist nicht identisch mit der nichtlinearen Funktion eines
Erwartungswertes.
3.6
• Das Problem lässt sich nur lösen, wenn man für υi (und damit für yi) Verteilungsannahmen trifft. Unterstellt man υi ~ N ( 0, σ2υ ) , dann ist die Verteilung
von yi lognormal. Es gilt dann für Modell (3.6):
1 ⎫
1 ⎫
⎧
⎧
E { yi xi } = exp ⎨E { log yi xi } + σ2υ ⎬ = exp ⎨( log xi ) ' γ + σ2υ ⎬
2 ⎭
2 ⎭
⎩
⎩
(3.10)
• Aus der Annahme E {εi xi } = 0 für das Modell yi = x 'i β + εi folgt nicht, dass yi
ausschließlich eine Funktion von xi ist. Daneben kann auch yi = z'i γ + υi mit
E { υi zi } = 0 gelten. Die Modelle beschreiben yi als Funktion unterschiedli-
cher erklärender Variablen mit E {yi xi } = x 'i β und E {yi zi } = z'i γ .
Nur die Formulierungen
und
E {yi xi ,zi } = z 'i γ
E {yi xi ,zi } = x 'i β
können nicht gleichzeitig zutreffen (solange nicht xi = –zi und β = −γ ).
3.7
• Illustration:
Quelle: Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg
(Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, Gabler-Verlag, Wiesbaden, S. 957-978.
Frage:
angemessene Umsatzvorgabe für Außendienstmitarbeiter (ADM)
Problem: Regionale Unterschiede, Fairness bei individuellen Vorgaben
Lösung:
Umsatzreaktionsfunktion zur Bewertung regionaler Faktoren via
Regressionsanalyse.
a) Operationalisierung des Outputs: Absatzmenge oder Umsatz in €.
3.8
b) Bestimmung von Einflussfaktoren & Datenquellen, z.B. Bevölkerungskonzentration (amtl. Statistik), Anzahl der Kunden (Unternehmensstatistik), regionaler Branchenumsatz (GfK).
c) Funktionalen Zusammenhang festlegen: Lineare Form impliziert konstante Grenzerträge, Fehlen von Interaktion. Multiplikative Form flexibler:
K
yi = α ⋅ Π x ikβk , β gibt Elastizitäten an.
k =1
d) Datenbeschreibung (N = 20 regionale Beobachtungen)
Variable
Mittelwert
Minimum Maximum
Branchenumsatz (BU)
1354
403
2525
Bevölkerungskonzentration (BK)
0,794
0,673
1,000
115
81
172
3778
2663
5082
Anzahl der Kunden (A)
Umsatz (y)
3.9
BU: Branchenumsatz indiziert die Kaufkraft der Region
BK: Bevölkerungskonzentration gibt Realisierbarkeit an
A: Anzahl der Kunden beschreibt das Marktpotenzial
Die Größen sind von ADM nicht beeinflussbar.
e) Parameterschätzung: Logarithmierung erlaubt lineare Schätzung:
ln ( yi ) = ln α + β1 ln (BUi ) + β2 ln (BKi ) + β3 ln ( Ai ) + εi
Coeff.
SE
T
ln(BU)
0,1244
0,0694
1,792
ln(Bk)
1,0935
0,3313
3,301
ln(A)
0,3999
0,1974
2,025
constant
5,705
0,7730
7,381
Variable
3.10
R2
f)
= 0,62013
Adj. R2 = 0,54890 F = 8,7065 (p = 0,0012)
Ergebnisinterpretation
–
hoher Erklärungsgehalt des Modells
–
positive Zusammenhänge zwischen Umsatz und (BU, BK, A).
–
Elastizität von ca. 0,40 für Anzahl Kunden gibt an, dass Umsatz um
0,4% höher liegt, wenn Kundenstamm um 1% wächst. Wert plausibel, bei wachsendem Kundenstamm kann nicht jeder genauso intensiv betreut werden wie vorher.
g) Festlegung der Umsatzvorgaben (für Soll-Ist-Vergleich) für jede Region i:
Umsatzi = e5,705 ⋅ BUi0,1244 ⋅ BK1,0935
⋅ Ai0,3999
i
3.11
3.2 Auswahl der unabhängigen Variablen
3.2.1 Fehlerhafte Auswahl der Regressoren
• Eine Fehlspezifikation des Modells liegt sowohl vor, wenn relevante erklärende Variablen ausgeschlossen werden, als auch wenn irrelevante erklärende Variablen berücksichtigt werden.
• Unterstellen wir
yi = x 'i β + z'i γ + εi
(3.12)
yi = x 'i β + υi
(3.13)
−1
• Der KQ-Schätzer aus (3.13) ist:
⎛ N
⎞
b2 = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
∑xy
i =1
i
i
(3.14)
Unter der Annahme, dass (3.12) wahr ist, können wir ableiten:
3.12
−1
⎛ N
⎞
b2 = β + ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
−1
⎛ N
⎞
x
z
'
γ
+
∑
⎜ ∑ xi x 'i ⎟
i
i
i =1
⎝ i =1
⎠
N
N
∑xε
i =1
i i
(3.15)
• Während der letzte Term in (3.15) unter Modell (3.12) einen Erwartungswert
von Null hat, stellt der zweite Term das Ausmaß der Verzerrung dar, wenn zi
nicht mitgeschätzt wird (omitted variable bias).
• Die Verzerrung entfällt nur, wenn entweder γ = 0 , d.h. die Modelle sind doch
N
gleich, oder wenn
∑ x z ' = 0 bzw. E { x z ' } = 0 , d.h. wenn xi und zi orthogoi =1
i
i
i
i
nal sind. Dies ist selten der Fall und geht – solange xi die Regressionskon-
stante enthält – nur, wenn E { zi } = 0 .
• Wenn wir (3.12) schätzen, obwohl (3.13) wahr ist, wird ein Koeffizient zuviel
geschätzt, der Null ist. Dies erhöht die Varianz der Schätzer. Die Koeffizienten bleiben unverzerrt.
3.13
3.2.2 Auswahl der Regressoren
• Statistisch gibt es keine Vorgaben zur Auswahl der Regressoren, wenn das
Modell lediglich E(y |x) definiert. Aus ökonomischer Sicht nutzt man theoretische Modelle zur Begründung der Regressorenauswahl.
• Erklärende Variablen sollten vor der Schätzung bestimmt werden. Wählt
man sie aufgrund von Probeschätzungen, läuft man Gefahr, das Schätzmodell auf eine Stichprobe hin auszurichten (data fishing, data snooping, data
mining).
• Bei "Spezifikationssuchen" wird mittels Tests entschieden, welche erklärenden Variablen berücksichtigt werden.
3.14
• Auf dem Weg zur endgültigen Modellspezifikation wird in der Regel getestet,
ob (1) die Restriktionen der Theorie gelten und ob (2) zusätzlich nicht im
Modell enthaltene Restriktionen auferlegt werden können.
• Es gibt keinen Grund, warum ein Modell nur signifikante Variablen enthalten
sollte. Auch insignifikante Koeffizienten können informativ sein.
• Das R2 kann nicht sinken, wenn zusätzliche erklärende Variablen berücksichtigt werden. Daher hat man das korrigierte R2 R2 entwickelt, welches
( )
einen Tradeoff zwischen Erklärungsgehalt und Anzahl der Regressoren (K)
berücksichtigt:
⎡⎣1
R2 = 1 −
⎡⎣1
(N − K ) ⎤⎦
N
∑e
i =1
N
(N − 1) ⎤⎦ ∑ ( y
i =1
i
2
i
− y)
2
(3.16)
3.15
• Alternative Maße sind Akaikes Informationskriterium (AIC):
AIC = log
1 N 2 2K
∑ ei + N
N i =1
(3.17)
sowie Schwarz’ Bayesianisches Informationskriterium (BIC):
1 N 2 K
BIC = log ∑ ei + logN
N i =1
N
(3.18)
• In beiden Fällen sind Modelle dann gut, wenn die Kriteriumswerte klein ausfallen. Die „Strafe“ für zusätzliche Regressoren ist beim BIC größer als beim
AIC. Beim Vergleich genesteter Modelle nutzt man meist das R2 oder R2 , bei
nicht genesteten Modellen AIC oder BIC.
3.16
• Man kann testen, ob eine R2-Verbesserung statistisch signifikant ist. Dies ist
identisch mit einem Test statistischer Signifikanz der Koeffizienten von hinzugefügten erklärenden Variablen:
f=
(R
2
1
− R02 ) J
(1 − R ) (N − K )
2
1
(3.19)
R12 und R02 repräsentieren die R2-Werte mit und ohne zusätzliche J erklären-
de Variablen, N – K sind die Freiheitsgrade des unrestringierten Modells. f ist
unter H0 F-verteilt.
• Die Teststatistik lässt sich ebenfalls als Kombination der R2 darstellen:
R12 > R02 genau dann, wenn f > 1. Das impliziert umgekehrt für J = 1, dass R2
genau dann steigt, wenn der t-Wert des Koeffizienten größer als 1 ist (für J =
3.17
1 gilt t2 = f). Gemäß R2 kommt es hier also nicht auf statistische Signifikanz
an.
• Ebenfalls kann man t- und F-Tests direkt verwenden oder folgenden Zusammenhang zur Auswahl von Regressoren nutzen. Unter H0 : γ = 0 gilt für
den KQ-Schätzer γ̂ mit Vˆ { γˆ } , dass
−1
ξ = γˆ ' Vˆ {γˆ} γˆ
(3.20)
asymptotisch χ2 -verteilt ist mit J Freiheitsgraden (s. Wald-Test 2.63).
• Zwei einzelne t-Tests können zu anderen Ergebnissen führen als ein gemeinsamer F-Test. Will man 2 Variablen auslassen, sollte das per F-Test
geprüft werden. Das Ergebnis der t-Tests kann auch von der Reihenfolge
der Tests abhängen.
3.18
3.3 Fehlspezifikation der funktionalen Form
3.3.1 Nichtlineare Modelle
• Die Linearitätsannahme hinter E {yi xi } = x'i β kann eine starke Restriktion
darstellen.
• Nichtlinearitäten können sich durch quadratische Terme (Alteri, Alteri2 ) oder
Interaktionen (Alteri ⋅ Geschlechti) ergeben. In diesen Fällen bleibt das Modell linear in Parametern und kann durch KQ geschätzt werden.
• Wenn sich Nichtlinearitäten in den Parametern ergeben, hat das gravierendere Konsequenzen. Für E {yi xi } = g ( xi ,β ) sei g(.) nichtlinear in β. Zum
Beispiel
g ( xi , β ) = β1 + β2 xiβ3
(3.27)
3.19
g ( xi , β ) = β1 xi1β2 xi2β3 .
oder
(3.28)
(3.28) gibt eine Cobb-Douglas-Produktionsfunktion mit zwei Inputs an.
Hier lässt sich durch Logarithmieren (und die Annahme β1 > 0) Linearität
herstellen, in (3.27) nicht.
• Daneben gibt es das Verfahren der nonlinear least squares, bei dem die
Zielfunktion
()
N
(
( ))
S β = ∑ yi − g xi ,β
i =1
2
hinsichtlich β mit numerischen Verfahren minimiert wird. Voraussetzung für
()
eine eindeutige konsistente Lösung ist, dass ein globales Minimum für S β
existiert.
3.20
3.3.2 Tests der funktionalen Form
• Mithilfe von t-, F- und Wald-Tests kann man prüfen, ob die funktionale Form
E {yi xi } = x 'i β durch nichtlineare Terme von xi ergänzt werden sollte.
• Der RESET-Test (regression equation specification error test) baut auf die
Idee auf, dass im vorgegebenen Modell nichtlineare Funktionen von yˆ i = x'i b
nicht dazu beitragen sollten, yi zu erklären:
In einer Hilfsregression
yi = x 'i β + α2 yˆ i2 + α3 yˆ i3 + … + αQ yˆ iQ + υi
(3.31)
wird überprüft, ob die Koeffizienten αn der Werte von yˆ n mit n ≥ 2 signifikant
von 0 verschieden sind. Man nutzt einen F- oder Wald-Test für
3.21
H0 : α2 = … = αQ = 0 . Der Test reagiert sowohl auf unangemessene funktionale
Form als auch auf ausgelassene Variablen.
• Illustration:
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 286-289.
Problem: Determinanten der Lohnhöhe für 474 Bankangestellte
y
= log (Jahreseinkommen)
EDUC
= Schulbildung (in Jahren)
FEMALE
= 1 für Frauen, 0 für Männer
MINORITY = 1 für Nichtweiße, 0 für Weiße
3.22
• Lineares Modell: yi = α +β1 EDUCi +β2 FEMALEi +β3 MINORITYi + εi
• Ergebnisse: Koeffizienten, Standardfehler in Klammern
constant
EDUC
FEMALE
MINORITY
FITTED∧2
FITTED∧3
F-Statistik
Modell 1
Modell 2
Modell 3
9.199
(0.059)
0.077
(0.004)
0.261
(0.025)
-0.133
(0.029)
–
–
-69.82
(8.971)
-1.443
(0.172)
-4.877
(0.583)
2.488
(0.298)
0.947
(0.107)
–
827.26
(555.86)
10.631
(7.483)
35.894
(25.266)
-18.223
(12.836)
-14.111
(9.330)
0.484
(0.299)
–
77.6 (p = 0.00)
40.2 (p = 0.00)
3.23
RESET-Test in Modell 2 ergibt signifikanten Parameter, in Modell 3 RESETTest mit 2 Koeffizienten: gemeinsame Signifikanz durch F-Test bestätigt Hinweis auf Fehlspezifikation (z.B. linearer Effekt von Bildung, nicht unbedingt zutreffend).
Modell könnte erweitert werden um quadratischen Bildungseffekt oder Interaktion des Bildungseffekts mit FEMALE oder MINORITY.
3.24
3.3.3 Strukturbruchtests
• Bislang haben wir unterstellt, dass die funktionale Form eines Modells für alle Beobachtungen gleich ist. Über Interaktionsterme kann man prüfen, ob
sich marginale Effekte für Teilgruppen unterscheiden. Manchmal vermutet
man, dass sich alle Koeffizienten über 2 Teilstichproben (gi = 1 und gi = 0)
unterscheiden.
yi = x 'i β + ( gi x 'i ) γ + εi
(3.32)
Für die Gruppe mit gi = 0 trifft der Koeffizient β, für die Gruppe mit gi = 1
β + γ zu. Unter H0 : γ = 0 sind die Gruppen identisch.
• Ein für die Nullhypothese angemessener F-Test ist
3.25
f=
(S
R
SUR
− SUR ) K
(N − 2K )
,
wobei K die Anzahl der Regressoren im restringierten Modell ist (einschließlich Achsenabschnitt) und SR und SUR die restringierten und unrestringierten
Fehlerquadratsummen darstellen.
• Der F-Test wird im Zusammenhang von Strukturbrüchen als Chow-Test bezeichnet. Man kann auch für g = 0 und g = 1 separate Modelle schätzten.
Dann ergibt sich SUR = S1 + S0 aus der Summe der jeweiligen Fehlerquadratsummen und SR nach wie vor aus der gepoolten Schätzung.
• Der Test kann auch für ausgewählte Koeffizienten statt dem Gesamtvektor
( x ) durchgeführt werden.
i
3.26
• In Zeitreihenanalysen hat man normalerweise klare Vorstellungen, zu welchem Zeitpunkt ein Strukturbruch stattfindet. Man kann den Chow-Test jedoch auch nutzen, um alle zeitlichen Möglichkeiten zu überprüfen. In diesem
Fall wird nach der größten F-Statistik gesucht. Die größte aus einer Gruppe
von F-Statistiken folgt dann allerdings nicht mehr der herkömmlichen FVerteilung.
3.27
3.4 Illustration: Die Erklärung von Hauspreisen
• Eine Schätzgleichung, die den Preis eines Gutes auf seine Eigenschaften
regressiert und zulässt, daraus den Wert einzelner Eigenschaften abzulesen,
nennt man hedonische Preisfunktion. Hedonische Preise sind die mit einzelnen Attributen des Gutes verbundenen Prämien beim Preis.
• Beispiel: Die Daten enthalten Informationen zu 546 im Jahr 1987 verkauften
Häusern einer kanadischen Stadt. Eine KQ-Regression regressiert den logarithmierten Hauspreis auf die logarithmierte Grundstücksgröße, Zimmerzahl,
Badezimmerzahl und das Vorhandensein einer Klimaanlage.
3.28
• Tab. 3..1 KQ-Scchätzerge
ebnisse: Hedonisc
H
che Preisfunktion
• Das R2 und alle
e t-Werte
e sind ho
och. Der Koeffizie
ent für de
en Dumm
my zur Kllimaanla
age gibt a
an, dass Häuser mit
m Klima
aanlage ceteris
c
pa
aribus ca.. 21% teu
urer sind
d als ohn
ne. Ein um
m 10% größeres Grundstü
ück führt c. p. zu einem um
m
4% höh
heren Pre
eis, ein weiteres
w
Z
Zimmer
z plus 8%
zu
%.
3.2
29
• Der Preis für ein Haus mit 4 Zimmern, einem Badezimmer, einem Grund von
5000 sq.ft. und ohne Klimaanlage beträgt
7,094 + 0,4 log(5000) + 0,078 · 4 + 0,216 = 11,028 ,
was einem erwarteten Preis von exp{11,028 + 0,5 · 0,24562} = 63.460
kanad. Dollars entspricht. 0,24562 ist die geschätzte Varianz des als normalverteilt unterstellten Störterms.
• Mit dem RESET-Test lässt sich die funktionale Form überprüfen. Hier ergibt
der ŷ2 -Term eine t-Statistik von 0,514 (p = 0,61) und die Terme ŷ2 und ŷ3
gemeinsam eine F-Statistik von 0,56 (p = 0,57), es liegt also kein Problem
vor. Dennoch kann man weitere Merkmale im Modell berücksichtigen:
3.30
Tab. 3.2
3 KQ-S
Schätzerg
gebnisse: Hedonis
sche Pre
eisfunktio
on, ausfü
ührlichere
es
Modell
3.3
31
Jetzt steigen das R2 sowie das korrigierte R2 und die t-Statistiken zeigen signifikante Effekte an. Der F-Test auf gemeinsame Signifikanz der zusätzlichen Variablen ergibt auf Basis der R2-Werte
( 0,6865 − 0,5674 ) 7
= 28,99 ,
(1 − 0,6865 ) ( 546 − 12)
was hochsignifikant ist, mit p = 0,000. Man sieht, dass sich durch die zusätzlichen erklärenden Variablen auch die vorherigen Koeffizienten geändert haben. Dies liegt daran, dass die betrachteten Merkmale untereinander korreliert sind. Auch hier zeigt der RESET-Test keine Fehlspezifikation an. Auch
dieses erweiterte Modell kann für Vorhersagen des Hauspreises verwendet
werden.
3.32
• Alternativ könnte man die Preise selbst statt ihres logarithmierten Wertes betrachten. In diesem Fall (Tabelle 3.3) reflektieren die Koeffizienten absolute
statt relative Preisunterschiede. Während in Tabelle 3.2 eine Zufahrt den
Hauspreis um 11% erhöhte, schlägt dies absolut mit 6688 Dollars zu Buche.
• Die Tabellen erlauben keinen direkten Rückschluss darauf, welche Spezifikation der abhängigen Variable vorzuziehen ist, mit dem R2 kann man hier
nicht argumentieren. Ein PE-Test des linearen Modells (siehe 3.2.3) ergibt
eine t-Statistik von -6,196, was das lineare Modell verwerfen würde. Testet
man das loglineare Modell, so ergibt sich eine Statistik von -0,569, so dass
man dieses nicht verwirft.
3.33
Tab. 3.3
3
KQ-S
Schätzerg
gebnisse
e: Hedon
nische Preisfunkttion, aussführliche
es
Modell mit linea
arer abhä
ängiger Variable
3.3
34
3.5 Illustration: Die Erklärung individueller Löhne
• Löhne von 893 Männern und 579 Frauen für eine Zufallsstichprobe mit 1472
Beobachtungen für das Jahr 1994 aus Belgien, mit den Variablen
wage = Bruttostundenlohn in €
male = 1 wenn männlich, 0 wenn weiblich
educ = Bildungsniveau, 1= Grundschule bis 5 = Universitätsabschluss
exper = Berufserfahrung in Jahren.
Die Betrachtung der Mittelwerte ergibt Lohnunterschiede für Männer und
Frauen, die jedoch nicht unbedingt auf Diskriminierung zurückgehen:
3.35
Tab. 3..4 Beschrreibende Statistiken, 1472
2 Individuen
3.3
36
3.5.1 Lineares Modell
• Zunächst kann man mit einer Dummyvariablen den Geschlechterlohnunterschied bei gegebenem Niveau an Erfahrung und Bildung ablesen; er entspricht dem mittleren Lohnunterschied recht genau.
3.37
Tab. 3..5 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 1
Die Erg
gebnisse
e implizie
eren, das
ss auch bei
b gleich
her Erfah
hrung un
nd Bildun
ng
ein hoc
chsignifikkanter Geschlech
hterlohnunterschie
ed existie
ert. Erfah
hrung un
nd
Ausbild
dung wirkken lohns
steigernd. Das ein
nfache Mo
odell erkllärt 36% der Varia
ation der Löhne.
3.3
38
• Man könnte
k
ve
ermuten, dass der Effektt zusätzllicher Be
erufserfah
hrung zu
unächst groß ist und dann
n abfällt. Um das zu prüfen, wird zu
usätzlich ein quad
der Effekt der Erfa
ahrung im
m Modell berücksiichtigt, de
er einen negative
en
ratische
Koeffiz
zienten ha
aben sollte.
Tab. 3..6 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 2
3.3
39
Dieser zusätzliche Koeffizient ist hochsignifikant von Null verschieden, R2
und R2 steigen. Nun muss der gesamte Effekt der Erfahrung über beide Koeffizienten gemeinsam bestimmt werden, indem man die Lohngleichung
nach „exper“ ableitet (siehe (3.4)):
∂ wagei
= 0,358 − 0,0044 ⋅ 2 ⋅ exp eri
∂ exp eri
Dies zeigt, dass der Effekt eines Jahres Erfahrung vom erreichten Bestand
an Berufserfahrung abhängt. Nach Jahr 1 ergibt sich 0,358 – 0,0088 ⋅1 ≅
0,35, also 35 Cents pro Stunde höherer Lohn für Personen mit einem statt 0
Jahren Berufserfahrung. Nach 30 Jahren ergeben sich 0,358 – 0,0088 ⋅ 30 =
0,094, also 9 Cents.
3.40
Der Lohnunterschied mit 31 statt 30 Jahren Berufserfahrung beträgt bei Berechnung über die Lohngleichung:
0,358 ( 31 − 30 ) − 0,0044 ( 312 − 302 ) = 0,0896 Euro pro Stunde.
3.41
3.5
5.2 Logliineare M
Modelle
• Nun errgibt sich für das logarithm
mierte Mo
odell ein anderes R2 sowie
e eine an
ndere In
nterpretattion der Koeffizien
K
nten.
• Tab. 3..7 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 3
• Der Ko
oeffizient des Ges
schlechte
erdummy
yies besc
chreibt de
en relativven Unterschied in den Löhnen, die
d für Mä
änner um
m ca. 12%
% höher sind:
s
Ergibt sich fü
ür
3.4
42
eine Frau ein Lohn von w*, so ist für einen sonst identischen Mann der logarithmierte Lohn um 0,118 höher, was im Lohn selbst einen Unterschied von
e0,118 = 1,125, also 12,5% macht. Da exp (a) ≈ 1 + a für kleine a, liest man
die Prozentunterschiede oft direkt (und approximativ) am Koeffizienten ab,
hier 11,8%.
• Die Koeffizienten logarithmierter stetiger Variablen können nun als Elastizitäten interpretiert werden. Hätten wir keinen quadratischen Effekt der Berufserfahrung im Modell, so bedeutete der Koeffizient 0,11 der log(exper), dass der
Lohn um 0,11% steigt, wenn die Erfahrung um 1% steigt. Mit dem zusätzlichen quadratischen Effekt beträgt die Elastizität jetzt jedoch
0,11 + 2 × 0,026 ⋅ log ( exper ) ,
d.h. sie ist nicht über alle Werte von exper konstant.
3.43
• Beide log(exper) Koeffizienten sind signifikant am 5%-, aber nicht am 1%Niveau. Um ihre gemeinsame Signifikanz zu bestimmen, nutzt man einen FTest, z.B. auf Basis der R2-Werte des vorliegenden Modells und des Modells
ohne die beiden log(exper) Variablen.
f=
( 0,3783 − 0,1798 ) 2
= 234,2
(1 − 0,3783 ) (1472 − 5 )
(3.36)
Die Nullhypothese wird deutlich verworfen.
• Zusätzlich kann man prüfen, ob das Modell mit nur einem Term für
log(exper) eine deutlich schlechtere Güte hat, was nicht der Fall ist, das R2
sinkt nur geringfügig:
3.44
Table 3.8
3 KQ-S
Schätzerg
gebnisse: Spezifik
kation 4
• In dies
sem Mod
dell ist de
er Bildun
ngseffekt linear im
m logarith
hmierten Wert de
er
Bildung
gsvariable. Ceteris paribus
s beträgt der Log--Lohnuntterschied zwische
en
Bildung
gsstufe 2 und 1 0,437 (ln(2
2) – ln(1))) = 0,437
7 ⋅ 0,693
31 = 0,30, d.h. Personen auf Bildu
ungsstufe
e 2 verdie
enen um 0,3 höhe
ere logaritthmierte Löhne alls
nen auf B
Bildungss
stufe 1. Der
D Absta
and wäch
hst auf 0,48, 0,61 und 0,70
0,
Person
wenn man
m die Loglohnd
differenz zwischen
n Grunds
schulabso
olventen und noc
ch
3.4
45
höher Gebildete
G
en betrac
chtet. Das
s Modell ist restriktiv, dadurch dasss ein line
earer Efffekt unte
erstellt wu
urde. Dies
se Annah
hmen kön
nnen wir lockern, indem wir
w
ein Modell mit D
Dummyva
ariablen schätzen
s
n. Dazu wird
w eine Referenzzkategoriie
ung ausg
genomme
en, um Multikolline
earität zu
u vermeid
den:
von der Schätzu
ebnisse: Spezifika
S
ation 5
Tab. 3..9 KQ-Scchätzerge
3.4
46
• Im Ergebnis sind alle einzelnen Koeffizienten der Bildungsdummies signifikant und bestätigen den steigenden Verlauf, auch wenn einzelne Bildungseffekte anders ausfallen als auf Basis von Spezifikation 4.
• Da das Modell aus Tabelle 3.8 grundsätzlich in der allgemeineren Fassung
genestet ist, kann man die Modelle aus 3.8 und 3.9 per R2-F-Test gegeneinander testen.
f=
( 0,3976 − 0,3761) 3
= 17,358
(1 − 0,3976 ) (1472 − 7 )
(3.37)
Dies übersteigt den kritischen F3,1465-Wert am 1%-Niveau (3,78). Daher werden die Restriktionen der Spezifikation aus Tabelle 3.8 verworfen.
3.47
3.5.3 Effekte des Geschlechts
• Bislang haben wir unterstellt, dass sich die Löhne von Männern und Frauen
lediglich um einen für alle Personen gleichen, konstanten Betrag unterscheiden. Mithilfe von Interaktionsvariablen kann man prüfen, ob einzelne erklärende Variablen für Männer und Frauen den gleichen Effekt haben. Interaktionsvariablen sind hier das Produkt der erklärenden Variablen mit dem Geschlechtsindikator.
• Interagiert man das gesamte Modell, so ergibt sich Tabelle 3.10, die man
dann auch für den Chow-Test nutzen kann.
3.48
Tab. 3..10 KQ-S
Schätzerg
gebnisse:: Spezifik
kation 6
Die gle
eichen Errgebnisse
e hätte man
m auch
h durch getrennte
g
ung für diie
Schätzu
beiden Geschle
echter errreichen können. Bei getre
ennter Schätzung
S
g sind un
n3.4
49
terschiedliche Fehlertermvarianzen für die Teilstichproben möglich, während
die gemeinsame Schätzung eine einheitliche Varianz unterstellt. Wenn sich
bei getrennter Schätzung deutlich unterschiedliche Standardfehler ergeben,
deutet das auf Heteroskedastie hin. Die Koeffizienten selbst sind in beiden
Fällen gleich.
• Der Unterschied im Erfahrungseffekt für die Geschlechter ist nicht hochsignifikant. Die Bildungseffekte sind für Männer teilweise signifikant kleiner als für
Frauen. Der Koeffizienten von „male“ gibt nun nicht mehr den gesamten Unterschied zwischen den Geschlechtern an. Der Lohnunterschied nach 20
Jahren Erfahrung auf Bildungsstufe 2 beträgt: 0,154 + 0,041 log(20) – 0,097
= 0,180 zugunsten der Männer, also ca. 18% höhere Löhne.
3.50
• Ein Test auf die gemeinsame Signifikanz aller interagierten Variablen entspricht dem Chow-Test und lautet auf Basis der R2-Werte:
f=
( 0,4032 − 0,3976 ) 5
= 2,7399 ,
(1 − 0,4032) (1472 − 12)
was die H0 nicht am 1%-, aber am 5%-Niveau verwirft.
• Schließlich kann man sich noch vorstellen, dass der Berufserfahrungseffekt
vom Bildungsstand abhängt. Auch dies kann durch Interaktionsterme überprüft werden.
3.51
Tab. 3.11 KQ-Schätzergebnisse: Spezifikation 7
Die Koeffizienten der Interaktionsterme geben an, wie stark sich etwa der
exper-Effekt bei höherer Bildung wandelt. Die Ergebnisse zeigen keine signi-
3.52
fikanten Unterschiede. Auch ein F-Test auf gemeinsame Signifikanz zeigt
keine Signifikanz.
• Interessanterweise ist in der letzten Spezifikation fast nichts mehr signifikant,
obwohl das R2 recht hoch ausfällt. Dies weist auf Multikollinearität hin. Der
Test auf Gesamtsignifikanz des Modells generiert einen hoch-signifikanten
Wert. Dennoch würde man angesichts der offensichtlichen Multikollinearität
vermutlich das Modell aus Tabelle 3.10 bevorzugen.
3.53
3.5.4 Hinweise
• Bei der ökonomischen Interpretation der Ergebnisse ist Vorsicht geboten.
Der Bildungseffekt gibt oft wieder, welchen Beruf Individuen mit dieser Bildung gewählt haben; er ist nicht „bedingt auf den Beruf“, da Berufe hier nicht
herausgerechnet wurden. Daher beschreibt er nicht den Effekt unterschiedlicher Bildung bei gegebenem Beruf, sondern einen Bildungseffekt, der Berufsunterschiede mit einschließt.
• Wichtig: Das Modell wurde nur für Erwerbstätige geschätzt. Für Nichterwerbstätige muss das so nicht gelten, insbesondere wenn sich die beiden
Gruppen systematisch unterscheiden. Übersieht man diesen Umstand, so
leidet die Interpretation unter Selektionsverzerrung. Das Problem kann ökonometrisch angegangen werden.
3.54
• Vorsicht ist geboten, wenn man die Koeffizienten kausal interpretieren will.
Dies wäre z.B. dann ein Problem, wenn sich die Gruppen (z.B. Bildung = 2
vs. Bildung = 3) auch durch andere als die hier beobachteten Merkmale unterscheiden (z.B. in unbeobachteten Größen wie Intelligenz und Fähigkeit).
Da auch diese Merkmale nicht herausgerechnet werden, schließt der Bildungseffekt ihre Lohnwirkung mit ein und wir können nicht sicher sein, dass
der Bildungseffekt auf Bildung statt z.B. auf Intelligenzunterschiede der
Gruppe zurückzuführen ist.
3.55
Literatur:
Verbeek, 2008, Kap. 3
Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, GablerVerlag, Wiesbaden, S. 957-978.
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 286-289.
3.56
Kapitel 4: Heteroskedastie und Autokorrelation
4.1 Konsequenzen für den KQ-Schätzer
4.2 Ableitung eines alternativen Schätzverfahrens
4.3 Heteroskedastie
4.4 Heteroskedastie-Tests
4.5 Beispiel: Arbeitsnachfrage
4.6 Autokorrelation
4.7 Tests für Autokorrelation erster Ordnung
4.8 Beispiel: Nachfrage nach Eiscreme
4.9 Alternative Autokorrelationsmuster
4.10 Vorgehensweise bei Vorliegen von Autokorrelation
4.1
Lernziele Kapitel 4:
• Warum
und
wodurch
sollte
der
KQ-Schätzer
bei
Vorliegen
von
Heteroskedastie und Autokorrelation ersetzt werden?
• Was versteht man unter einem FGLS-Schätzer?
• Wann sind Standardfehler robust?
• Wie lässt sich auf Heteroskedastie und Autokorrelation testen?
• Wie unterscheiden sich AR(1) und MA(1) Prozesse?
• Wie kann das Autokorrelationsproblem gelöst werden?
4.2
4.1 Konsequenzen für den KQ-Schätzer
• Unser Modell lautet
bzw.
yi = x'i β + εi
(4.1)
y = Xβ + ε
(4.2)
Wir unterstellen die Gauss-Markov-Annahmen A1 – A4, zusammengefasst:
E {ε X} = E {ε} = 0
(4.3)
V {ε X} = V {ε} = σ2 I.
(4.4)
Die Störtermverteilung hat Erwartungswert Null, Varianzen sind konstant und
die Kovarianzen Null.
• Unter Heteroskedastie haben unterschiedliche Beobachtungen unterschiedliche Varianzen, d.h. die Elemente auf der Hauptdiagonalen der VarianzKovarianz-Matrix sind nicht identisch. Unter Autokorrelation sind die Stör4.3
terme z.B. zeitlich benachbarter Beobachtungen korreliert, d.h. die VarianzKovarianz-Matrix ist keine diagonale Matrix. Beide Phänomene widersprechen der Annahme (4.4).
• Als allgemeine Schreibweise führen wir ein
V { ε X} = σ2 Ψ ,
(4.5)
wobei Ψ eine positiv definite Matrix darstellt, die von X abhängen kann.
• Da die Annahme (4.4) für den Beweis der Unverzerrtheit des KQ-Schätzers
nicht genutzt wurde, gilt die Unverzerrtheit unabhängig von Ψ.
• Lediglich der Ausdruck für die Varianz-Kovarianz-Matrix von b ändert sich
mit (4.5) statt (4.4). Da b = ( X ' X ) X ' y = β + ( X ' X ) X ' ε , hängt die Streuung
−1
−1
4.4
von b von der Varianz-Kovarianz-Matrix von ε ab. Für gegebenes X erhalten
wir
{
}
V {b X} = V ( X ' X ) X ' ε X = ( X ' X ) X ' V {ε X} X ( X ' X )
−1
−1
−1
= σ ( X ' X ) X ' ΨX ( X ' X )
2
−1
−1
Dies lässt sich nur dann zu σ2 ( X ' X )
−1
(4.6)
vereinfachen, wenn Ψ = I. Gilt das
nicht, so sind die Standardfehler des KQ-Schätzers falsch berechnet. Dadurch werden t- und F-Tests ungültig. Das Gauss-Markov-Theorem lässt
sich nicht mehr beweisen, KQ ist nicht mehr das beste unter allen linearen
und erwartungstreuen Schätzverfahren.
• Es gibt drei Möglichkeiten, Heteroskedastie- und Autokorrelationsprobleme
zu lösen: (a) Ableitung eines neuen BLUE-Schätzers, (b) Korrektur der KQ4.5
Standardfehler, (c) gelegentlich ergeben sich die Probleme durch Fehlspezifikation des Modells, was behoben werden kann.
4.6
4.2 Ableitung eines alternativen Schätzverfahrens
• Wir unterstellen (4.5) und dass wir die positiv definite Matrix Ψ kennen. Wir
transformieren das Modell so, dass es die Gauss-Markov-Bedingungen wieder erfüllt.
• Wir nehmen an, dass es eine quadratische, nichtsinguläre Matrix P gibt, so
dass
Ψ−1 = P'P
• Nun lässt sich schreiben:
(4.7)
Ψ = (P 'P ) = P−1 (P ')−1
−1
P Ψ P' = P P−1 (P')−1P' = I
• Es folgt für den mit P vormultiplizierten Störterm, dass
E {P ε X} = P E {ε X} = 0
4.7
V {P ε X} = P V {ε X} P' = σ2P Ψ P' = σ2 I
Also erfüllt P ε die Gauss-Markov-Bedingungen und wir können das ganze
Modell transformieren zu
Py = P X β + Pε
bzw.
y* = X * β + ε * ,
(4.8)
wobei ε* nun den Gauss-Markov-Bedingungen genügt. Nutzt man den KQSchätzer für das so transformierte Modell, ergibt sich wiederum ein BLUESchätzer für β. Natürlich sieht P unterschiedlich aus, je nachdem, ob ein
Heteroskedastie- oder ein Autokorrelationsproblem gelöst wird.
• Der Schätzer für β ist
−1
−1
βˆ = ( X * ' X * ) X * ' y* = ( X' Ψ−1 X ) X' Ψ−1y
(4.9)
4.8
und wird verallgemeinerter KQ- oder GLS- (generalized least squares)
Schätzer genannt. Für Ψ = I ergibt sich der KQ-Schätzer.
• Um den GLS-Schätzer zu bestimmen, braucht man Ψ, was wir nicht kennen
und schätzen müssen. Verwendet man eine Schätzung für Ψ, so spricht man
vom feasible-GLS (FGLS oder EGLS, für estimated-GLS) Schätzer.
• Man gewinnt GLS-Schätzer oft durch Umkodieren der Variablen und wendet
dann KQ an. Dann werden die Varianz-Kovarianz-Matrix von β und die
Fehlertermvarianz direkt in korrigierter Form ausgewiesen.
{}
−1
−1
V βˆ = σ2 ( X * ' X * ) = σ2 ( X ' Ψ−1 X ) ,
(4.10)
wobei σ2 wie folgt geschätzt wird:
σ̂2 =
(
)(
)
(
)
(
)
1
1
y * − X * βˆ ' y * − X * βˆ =
y − Xβˆ ' Ψ−1 y − Xβˆ .
N−K
N−K
(4.11)
4.9
• Da der GLS-Schätzer β̂ BLUE ist, ist seine Varianz kleiner als die korrigierte
Varianz des KQ-Schätzers b (4.6). Es lässt sich nachweisen, dass
V {b} − V βˆ positiv semi-definit ist.
{}
4.10
4.3 Heteroskedastie
4.3.1 Einführung
• Man spricht von Heteroskedastie, wenn V {ε X} diagonal ist, aber nicht σ2 ⋅ I
entspricht. Die Störterme sind untereinander unkorreliert, aber die Varianz
von ε variiert über die Beobachtungen.
• Beispiel: Lebensmittelausgaben (yi) werden auf eine Konstante und das verfügbare Einkommen (DPIi) regressiert. Man erhält eine positive Steigung und
erwartet, dass die Streuung der Lebensmittelausgaben bei Hochverdienern
größer ist als bei Geringverdienern. Diese Form von Heteroskedastie kann
wie folgt modelliert werden:
{
}
V εi DPIi = σi2 = σ2 exp {α2 DPIi } = exp {α1 + α2 DPIi }
(4.12)
Hier wäre α1 = log σ2 und α2 beliebig.
4.11
• Annahme: Die Heteroskedastie folgt der allgemeinen Form:
V {εi X} = V {εi xi } = σ2 hi2 ,
(4.13)
wobei alle hi2 bekannt und positiv sind. Unter der Annahme, dass es keine
Autokorrelation gibt, lässt sich schreiben
V {ε X} = σ2 Diag{ hi2 } = σ2 Ψ
(A9)
Diag{ hi2 } ist eine diagonale Matrix mit den Elementen h12 ,h22 ,…,hN2 . Die Annahme A9 ersetzt unsere Annahmen A3 und A4. Sobald die Varianz von ε
von den erklärenden Variablen abhängt, gilt auch A2, die Annahme der Unabhängigkeit von ε und X nicht mehr. A1 und A2 werden ersetzt durch
E {ε X} = 0
(A10)
• Wir suchen den BLUE-Schätzer für β im Modell
4.12
yi = x 'i β + εi ,
i = 1,2,…,N
(4.14)
unter den Annahmen A9 und A10. Für P wählen wir
P = Diag{ hi−1} ,
(4.15)
eine diagonale Matrix mit den Elementen h1−1,…,hN−1. Elemente des Vektors
der transformierten Daten sind dann yi* = yi hi ,
xi* = xi hi , εi* = εi hi .
• Man erhält den GLS-Schätzer für β, indem man den KQ-Schätzer auf das
transformierte Modell anwendet:
yi* = xi* ' β + εi* ⇔
yi ⎛ xi ⎞
ε
= ⎜ ⎟ 'β + i
hi ⎝ hi ⎠
hi
(4.16, 4.17)
• Der resultierende Störterm ist nun homoskedastisch (siehe 4.13):
4.13
⎧ε ⎫ 1
1
V ⎨ i X ⎬ = 2 V {εi X} = 2 ⋅ σ2 ⋅ hi2 = σ2
hi
⎩ hi ⎭ hi
und der KQ-Schätzer lautet (als Spezialfall von (4.9)):
−1
N
ˆβ = ⎛⎜ ∑ h−2 x x ' ⎞⎟
i
i
i
⎝ i =1
⎠
N
∑h
i =1
−2
i
xi yi
(4.18)
• Dieser Schätzer wird auch als gewichteter KQ-Schätzer bezeichnet
(weighted least squares): Jede Beobachtung ist mit einem Faktor gewichtet,
der proportional zum reziproken Wert der Fehlervarianz ist. Unter A9 und
A10 ist der GLS-Schätzer BLUE. So erhalten Beobachtungen mit großer Varianz in der Schätzung ein kleineres Gewicht als Beobachtungen mit kleiner
Fehlertermvarianz.
4.14
• Die Interpretation der geschätzten Koeffizienten bezieht sich auf das Originalmodell, nicht auf das transformierte Modell. Im transformierten Modell
1
wird auch die Konstante transformiert und hier durch die Variable
ersetzt.
hi
Das transformierte Modell wird daher ohne eigentliche Konstante geschätzt.
4.15
4.3.2 Eigenschaften des Schätzers und Hypothesentests
• Da GLS ein KQ-Schätzer auf ein transformiertes Modell ist, der die Gauss-
Markov-Eigenschaften erfüllt, lassen sich seine Eigenschaften analog zum
KQ-Fall ableiten.
• Die Varianz-Kovarianz-Matrix von β̂ ergibt sich aus
{}
−1
⎛ N
⎞
V βˆ = σ ⎜ ∑ hi−2 xi x 'i ⎟
⎝ i =1
⎠
(4.19)
2
Dabei wird σ2 unverzerrt geschätzt durch
σˆ 2 =
(
1 N −2
∑ hi yi − x 'i βˆ
N − K i =1
)
2
(4.20)
• Wenn wir wie in A5 normalverteilte Störterme unterstellen, folgt, dass β̂ nor-
malverteilt ist mit Erwartungswert β und einer Varianz wie in (4.19).
4.16
• Damit können wir t-Tests legitimieren, z.B. für H0: β2 = 1 gegen H1: β2 ≠ 1
nutzen wir
t=
βˆ 2 − 1
se βˆ 2
(4.21)
( )
• Ohne die Annahme normalverteilter Störterme folgt diese Teststatistik unter
βˆ − 1
wäre dann asymptotisch standardnorH0 nicht der tN-K-Verteilung. 2
se βˆ 2
( )
malverteilt, was am 5%-Signifikanzniveau zu einem kritischen Wert von 1,96
führt.
• Auch F- und Wald-Tests können wie zuvor verwendet werden. Unter H0: Rβ
= q und H1: Rβ ≠ q und R mit der Dimension J × K nutzt man den GLS-
4.17
{ }
{}
Schätzer β̂ und seine geschätzte Varianz V Rβˆ = R V βˆ R' zur Ableitung
der Waldstatistik
) ( { } ) (R βˆ − q) ~ χ
ˆ {βˆ} eine F-Statistik berechnen, für die gilt
Es lässt sich ebenfalls mit σ̂ und V
(
ξ = Rβˆ − q ' R Vˆ βˆ R '
−1
2
J
2
f = ξ J ~ FJ,N −K .
4.18
4.3.3 Situation unbekannter Varianzen
• In (4.13) haben wir unterstellt, dass wir die Störtermvarianzen kennen:
V {εi X} = V {εi xi } = σ2 h2i
Das ist selten der Fall.
• Solange hi2 unbekannt ist, kann der GLS-Schätzer nicht bestimmt werden.
Man müsste die unbekannten hi2 -Werte durch unverzerrte oder konsistente
Schätzwerte ersetzen und hoffen, dass dies die Eigenschaften des GLSSchätzers nicht beeinträchtigt. Allerdings kann man mit N Beobachtungen
nicht N verschiedene hi-Werte verlässlich schätzen. Das geht nur mit zusätzlichen Annahmen etwa hinsichtlich einer funktionalen Form, mit der hi bestimmt wird.
4.19
• So kann die Varianz von ε auch durch mehr als eine exogene Variable be-
stimmt werden, und dies auch in nicht-proportionaler Form.
z.B. V {εi } = σ2 xikα
V {εi } = σ2 ( xikα1 + xilα2 )
oder
(4.25)
In diesem Fall müssten die Parameter α oder α1 und α2 zunächst geschätzt
werden, um dann den GLS-Schätzer auf die geschätzten Werte von hi2 anzuwenden. Hätten wir Schätzwerte α̂1 und α̂2 , so könnten wir ĥi2 als konsistenten Schätzer für hi2 bestimmen und den Feasible GLS (FGLS)-Schätzer
für β berechnen:
−1
N
ˆβ* = ⎛⎜ ∑ hˆ i−2 xi x 'i ⎞⎟
⎝ i =1
⎠
N
∑ hˆ
i =1
−2
i
xi yi
(4.26)
• Wenn die Werte für hi2 konsistent geschätzt werden, sind FGLS βˆ * und GLS
β̂ asymptotisch äquivalent. Allerdings kann man für den FGLS-Schätzer die
4.20
BLUE-Eigenschaften für kleine Stichproben nicht nachweisen. Zumeist ist
FGLS auch kein linearer Schätzer, da ĥi2 in nichtlinearer Form von yi abhängt.
• Unter A9, A10 und einer Annahme zur Form der Heteroskedastie ist der
FGLS-Schätzer für β konsistent und asymptotisch der Beste (asymptotisch
effizient, d.h. mit der kleinstmöglichen Varianz).
• Die Varianz-Kovarianz-Matrix wird geschätzt als
{ }
−1
⎛ N ˆ −2
⎞
ˆ
ˆ
V β * = σˆ ⎜ ∑ hi xi x 'i ⎟ ,
⎝ i =1
⎠
(4.27)
2
wobei σ̂2 der Schätzer der Fehlervarianz ist (4.20). Dabei wird jetzt β̂ durch
βˆ * ersetzt.
4.21
4.3.4 Heteroskedastie-konsistente Standardfehler für KQ-Schätzer
• Für unser Modell
yi = x 'i β + εi
(4.28)
mit heteroskedastischen Fehlern gilt E {εi X} = 0 und V {εi X} = σi2 bzw. y =
Xβ + ε mit V {ε X} = σ2 Ψ = Diag{σi2 }. Der KQ-Schätzer für β ist unverzerrt
und konsistent mit der Varianz-Kovarianz-Matrix
V {b X} = ( X' X ) X'Diag{σi2 } X ( X ' X )
−1
−1
(4.29)
• Um diese Matrix zu schätzen, benötigt man Schätzer für die σi2 für alle i, was
ohne weitere Annahmen nicht möglich ist.
• White (1980) hat gezeigt, dass lediglich ein konsistenter Schätzer der K × K-
Matrix
4.22
∑≡
1
1 N
X 'Diag{σi2 } X = ∑ σi2 xi x 'i
N
N i =1
(4.30)
erforderlich ist. Dabei gilt unter allgemeinen Bedingungen, dass
S≡
ein konsistenter Schätzer für
1 N 2
∑ ei xi x 'i
N i =1
(4.31)
∑ ist (ei ist der KQ-Störterm).
• Deshalb kann
V̂ {b} = ( X' X )
−1
N
∑ e x x ' ( X' X)
i =1
−1
⎛ N
⎞
= ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
2
i
−1
i
i
−1
⎛ N
⎞
e
x
x
'
x x 'i ⎟
∑
i
i ⎜∑ i
i =1
⎝ i =1
⎠
N
2
i
(4.32)
4.23
als Schätzer der wahren KQ-Varianz genutzt werden – ohne dass wir die
wahre Form der Heteroskedastie kennen. Hier wird lediglich die Formel für
die Berechnung der Varianz von b ausgetauscht.
• Dies ist in den meisten Softwares als Option eingebaut. Wenn die Standard-
fehler von b als Wurzel der wie in (4.32) bestimmten Varianz berechnet werden, spricht man von robusten oder heteroskedastie-konsistenten Standardfehlern oder White-Standardfehlern.
• Die t- und F-Teststatistiken sind auch bei White-Standardfehlern asympto-
tisch angemessen.
• Kennte man die genaue Form der Heteroskedastie, so wäre ein FGLS-
Schätzer effizienter als der KQ-Schätzer mit White-Standardfehlern.
4.24
4.3.5 Multiplikative Heteroskedastie
• Bei
multiplikativer
Heteroskedastie
wird
unterstellt,
dass
die
Fehlertermvarianz mit einem J-dimensionalen Vektor zi der exogenen erklärenden Variablen korreliert ist, der – um Positivität zu garantieren – exponentiell berücksichtigt wird:
V {εi xi } = σi2 = σ2 exp {α1zi1 + … + αJ ziJ } = σ2 exp {z'i α}
(4.36)
Typischerweise enthält z einen Teil der Regressoren aus xi oder ihre Transformation. Im letzten Unterkapitel war J = 1 und zi1 der Geschlechtsdummy.
• Um den FGLS zu bestimmen, benötigen wir konsistente Schätzer der unbe-
kannten Parameter α in hi2 = exp {z 'i α} . Zunächst stellen wir fest, dass log
σi2 = log σ2 + z 'i α . Für ei = yi − x 'i b kann man schreiben:
4.25
logei2 = log σ2 + z 'i α + logei2 − log σi2
= log σ + z 'i α +
2
(4.37)
νi
Da νi keinen Erwartungswert von Null hat, kann die Konstante, logσ2 , nicht
konsistent geschätzt werden. Dennoch können mit (4.37) konsistente
Schätzergebnisse für α gewonnen werden.
• Nun sind 6 Schritte erforderlich, um konsistente Schätzer für β zu erhalten:
1. Schätze das Modell mit KQ, um die konsistenten b-Schätzer zu erhalten.
2. Berechne logei2 = log ( yi − x 'i b ) auf Basis der Residuen.
2
3. Schätze (4.37), um konsistente Schätzer für α zu erhalten.
4. Berechne hˆ i2 = exp {z'i αˆ } , transformiere alle Beobachtungen, und schätze
das Modell
4.26
⎛ε
yi ⎛ xi ⎞
= ⎜ ⎟ 'β + ⎜ i
⎜ hˆ
hˆ i ⎜⎝ hˆ i ⎟⎠
⎝ i
⎞
⎟⎟
⎠
per KQ (inklusive transformierter Konstante). Dies ergibt den FGLSSchätzer β̂ * für β .
5. σ2 kann konsistent geschätzt werden durch
( y − x ' βˆ * )
2
σˆ 2 =
1
∑
N − K i =1
N
i
i
hˆ
2
i
6. Ein konsistenter Schätzer der Varianz-Kovarianz-Matrix von βˆ * ist
⎛ N x x'
Vˆ βˆ * = σˆ 2 ⎜ ∑ i 2 i
⎜ i =1 ĥ
i
⎝
{ }
−1
⎞
⎟⎟
⎠
4.27
Dieser wird bei KQ-Schätzung des transformierten Modells automatisch berechnet.
• Illustration:
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 322-327 und 333-334.
Frage: Was ist der Zusammenhang zwischen Zinsen auf US-Schatzanleihen
der US-Regierung und den Zinsen von AAA Schuldtiteln privater
Schuldner? (Vermutung: positiver Zusammenhang, schwächer im Bereich höherer Zinsen)
4.28
Daten: Durchschnittszins der Schuldtitel von AAA Unternehmen (Moody's
Investor Service); Zins auf Schatzanleihen des Bundes (Federal Reserve)
Jan. 1950 – Dez. 1999
xi = monatliche Änderung der Zinsen der Schatzanleihen
yi = monatliche Änderung der Zinsen der AAA Schuldtitel
Regressionsmodell: yi = α + βxi + εi
i = 1,2,… 600
Graphische Analyse ergibt über die Zeit steigende Volatilität des Residuums,
möglicherweise, weil Volatilität der Zinsen der Schatzanleihen stieg.
Modell der Heteroskedastie: E ( εi2 ) = σ2 xi2 , so dass
4.29
⎛ x12
⎜
⎜0
Ω = σ2 ⎜
⎜
⎜0
⎝
0⎞
⎟
x 22 … 0 ⎟
⎟
⎟
2 ⎟
0 … xn ⎠
0
…
Höchste Varianz in Monaten mit großen Änderungen in x, Beobachtungen
mit hoher Varianz sind weniger informativ hinsichtlich α und β.
Schätzung: Abh. Variable: Änderung der Zinsen auf AAA Bonds
Koeff.
KQ-
t
Std.fehler
White
t
Std.fehler
Konstante
0,0063
0,006
0,92
0,0069
0,91
Δ US-Schatzanleihe
0,2745
0,014
18,75
0,0228
12,00
R-squared: 0,37
N = 600 Beobachtungen
4.30
Nur kleine Unterschiede in Standardfehlern.
Modell zur Heteroskedastie erlaubt gewichtete Schätzung:
Wenn E ( εi2 ) = σ2 xi2 , führt folgende Modelltransformation zum effizienten
y
ε
1
Schätzer: i = α ⋅ + β + εí∗ wobei εí∗ = i , E ( εi∗2 ) = σ2
xi
xi
xi
Ergebnis der gewichteten Schätzung:
Koeff.
Std.fehler
-0,00238
0,0051
0,462
Δ US-Schatzanleihe
0,26226
0,1443
1,818
R-squared (ungewichtet)
0,37
n = 583
Konstante
t
4.31
Zusammenhang ist am 5%-Signifikanzniveau nicht signifikant. 17 Beobachtungen verloren, für die x = 0 war. Diese hätten eine Varianz und ein Gewicht von Null.
• Modellalternative A für Heteroskedastie, wenn Varianz z.B. vor und nach
1975 unterschiedlich:
σi2 = γ1 + γ2Di ,
⎧0
wobei Di = ⎨
⎩1
für Jan. 1950 − Dez. 1974
für Jan. 1975 − Dez. 1999
Varianz nach 1974 um festen Betrag γ2 größer.
• Modellalternative B, wenn Varianz nach großen Schocks steigt:
σi2 = γ1 + γ2 εi2−1 = γ1 + γ2 ( yi −1 − α − β xi −1 )
2
4.32
Vorgehensweise:
1) Schätze KQ und bestimme εi
2) Berechne εi2 und schätze γ1 und γ2 der alternativen Modelle,
also εi2 = γ1 + γ2Di + ηi
3) Bestimme für jedes i σ̂i2 , also σˆ i2 = γˆ1 + γˆ2Di
4) Gewichte die Daten mit
bzw. εi2 = γ1 + γ2 ei2−1 + ηi
bzw. σˆ i2 = γˆ1 + γˆ 2 eˆ i2−1
1
und schätze erneut:
σˆ i
4.33
Modell A
Koeff.
Std.fehler
Modell B
t
Koeff.
Std.fehler
t
Konstante
0.013
0.005
2.61
0.009
0.006
1.37
Δ US-Schatzanleihe
0.215
0.014 15.27
0.285
0.015 18.22
Welches der beiden Modelle ist zu bevorzugen? Testen, z.B. Vergleich der
Residuen und ihrer Varianz.
4.34
4.4 Heteroskedastie-Tests
• Es gibt eine Reihe von Tests auf Heteroskedastie. Wenn sie die Nullhypothese der Homoskedastie verwerfen, kann man entweder einen FGLSSchätzer nutzen, heteroskedastie-konsistente KQ-Standardfehler berechnen
oder die Modellspezifikation ändern.
4.35
4.4.1 Test der Gleichheit zweier unbekannter Varianzen (Goldfeld-Quandt
Test)
• Wenn die Stichprobe aus zwei Teilen A und B besteht, kann die Nullhypothese lauten: H0 : σ2A = σB2 . Der Test baut auf den Zusammenhang
s2j
(N − K ) σ
j
2
j
~ χN2 j −K ,
j = A,B
auf.
Wenn s2A und sB2 unabhängig sind, folgt
s2A σ2A
~ FNA −K,NB −K
sB2 σB2
Unter H0 folgt also
s2A
λ = 2 ~ FNA −K,NB −K
sB
(4.42)
4.36
• Bei einer zweiseitigen Alternativhypothese H1 : σ2A ≠ σB2 wird H0 verworfen,
wenn das Verhältnis der geschätzten Varianzen zu stark nach oben oder unten von 1 abweicht. Bei einseitiger Alternativhypothese H1 : σ2A > σB2 wird H0
verworfen, wenn λ zu groß ist. Die Alternativhypothese H1 : σ2A < σB2 würde
genauso getestet, nachdem man die Benennung der Gruppen vertauscht
hat.
4.37
4.4.2 Der Breusch-Pagan-Test
• Zuvor haben wir unterstellt, dass σi2 = σ2 exp {z 'i α} . Dies kann auch allgemeiner gefasst werden:
σi2 = σ2 h ( z 'i α ) ,
(4.44)
wobei h eine unbekannte, differenzierbare und von i unabhängige Funktion
ist, mit h(.) > 0 und h(0) = 1. Für den Spezialfall h(t) = exp{t} erhalten wir unsere Ausgangshypothese.
• Der Test prüft H0: α = 0 gegen H1: α ≠ 0 unabhängig davon, welche konkrete
Form h annimmt.
• Die Teststatistik multipliziert das R2 der Regression von ei2 auf zi und eine
Konstante mit N. ξ = N ⋅ R2 ist asymptotisch χ2-verteilt mit J Freiheitsgraden
(J = Anzahl der Elemente von zi, ohne Konstante).
4.38
4.4.3 Der White-Test
• Der White-Test verallgemeinert den Breusch-Pagan-Test, indem er für die
Form der Heteroskedastie keine konkrete Annahme macht. Geprüft wird, ob
ei2 durch die ersten und zweiten Momente und Interaktionsterme der ur-
sprünglichen Regressoren erklärt werden kann. Man berechnet wieder N ⋅ R2
einer solchen Regression.
• Diese Teststatistik ist χ2-verteilt und hat so viele (P) Freiheitsgrade, wie die
Hilfsregression von ei2 Regressoren berücksichtigt.
• Da in der Hilfsregression mehr Parameter berücksichtigt werden als im
Breusch-Pagan-Test, können mit dem White-Test auch allgemeinere Formen von Heteroskedastie aufgespürt werden. Allerdings kann es sich bei
den aufgespürten Problemen auch um Fehlspezifikationen handeln.
4.39
4.4.4 Auswahl eines Tests
• Welcher Test angemessen ist, hängt davon ab, welche Form der
Heteroskedastie vermutet wird. Ein Test ist umso stärker (d.h. er kann die
falsche H0 mit umso höherer Wahrscheinlichkeit verwerfen), je konkreter die
Nullhypothese ist. Der Nachteil konkreter Nullhypothesen ist, dass bei Vorliegen einer anderen Form von Heteroskedastie diese nicht entdeckt wird.
• Der allgemeinste Test, der White-Test, hat bei vielen Alternativen nur eine
geringe Teststärke (der β-Fehler ist potentiell hoch). Tests für konkretere
Nullhypothesen sind stärker, aber das wiederum nur gegenüber einer begrenzten Zahl von Alternativen.
• Oft ist es hilfreich, die Residuen gegenüber ausgewählten exogenen Variablen grafisch darzustellen.
4.40
4.5 Beispiel: Arbeitsnachfrage
• Wir betrachten ein einfaches Modell der Arbeitsnachfrage belgischer Unternehmen. Die Daten beschreiben für 569 Unternehmen folgende Variablen
für 1996:
labour: Gesamtbeschäftigung, Anzahl der Arbeitnehmer
capital: Anlagekapital, in Millionen Euro
wage:
Lohnkosten pro Arbeitnehmer, in Tausend Euro
output: Wertschöpfung; in Millionen Euro
• In einer einfachen Produktionsfunktion Q = f(K,L) beschreiben Q den Output,
K und L den Faktoreneinsatz an Kapital und Arbeit. Die gesamten Produktionskosten sind rK + wL, wobei r und w die Faktorkosten für Kapital und Arbeit abbilden. Über Kostenminimierung bei gegebenem Output lässt sich die
4.41
Arbeits
snachfrag
gefunktion
n ableiten
n: L = g(Q
Q,r,w). r wird häu
ufig durch
h K appro
oximiert.
• Zunäch
hst wird e
ein lineare
es Modell geschä
ätzt.
Tab. 4..1: KQ-Errgebnisse
e, lineare
es Modell
Alle Ko
oeffiziente
en haben
n die erw
warteten Vorzeiche
V
en: Bei höheren
h
L
Löhnen is
st
die Bes
schäftigung gering
ger, höhe
erer Outp
put erfordert mehr Arbeitse
einsatz.
4.4
42
• Bevor wir
w die Sttandardfe
ehler und
d Teststattistiken in
nterpretie
eren, prüffen wir, ob
o
Heteroskedastie
e
vorlie
egt.
Im
Rahm
men
eines
Bre
eusch-Pagan-Testts
sieren wiir die qua
adrierten Störterm
me in einer Hilfsre
egression
n auf Löh
hregress
ne, Output und Kapital.
Tab. 4..2: Hilfsre
egression
n Breusch
h-Pagan--Test
• Bei dem
m hohen R2-Wertt und sign
nifikanten
n Koeffizienten istt es unwa
ahrschein
nlich, da
ass die urrsprünglic
che Fehlertermva
arianz für alle Beo
obachtung
gen gleic
ch
4.4
43
groß ist. Die Teststatistik ist N ⋅ R2 = 569 ⋅ 0,5818 = 331,0 , der kritische χ2Wert für 3 Freiheitsgrade beträgt am 5%-Niveau 7,81. Damit wird die H0
homoskedastischer Fehlerterme klar verworfen.
• In Datensätzen, die aus unterschiedlich dimensionierten Beobachtungen bestehen (z.B. große und kleine Länder oder Unternehmen), ist das Verwerfen
von Homoskedastie ein typisches Ergebnis. Eine Möglichkeit, dem Problem
zu begegnen ist, ein logarithmisches Modell zu schätzen, das sich etwa bei
einer Cobb-Douglas Produktionsfunktion Q = A Kα Lβ ergäbe.
4.44
Tab. 4..3: KQ-Errgebnisse
e, loglineares Mod
dell
• Hier kö
önnen a
alle Koefffizienten als Elastizitäten
n interpre
etiert we
erden. Diie
Lohnelastizität der Arbeitsnachffrage istt mit –0,,93 recht hoch. Auch diie
ät beträgtt fast 1, die
d Erhöh
hung des
s Outputs
s um 1%
% erfordert
Outputelastizitä
ehr Arbeittseinsatz.
1% me
4.4
45
• Wenn man für dieses Modell die Breusch-Pagan-Hilfsregression von oben
durchführt, ergibt sich ein R2 von 0,0136, die Teststatistik des χ2-Tests be2
= 7,81 nicht mehr signifikant ist.
trägt 7,74, was am 5%-Niveau mit χ3,95%
• Man könnte auch einen White-Test durchführen. Dazu regressiert man ei2
auf alle Regressoren, ihre Quadrate und Interaktionsterme:
4.46
Tab. 4..4: Hilfsre
egression
n White-T
Test
Bei ein
nem R2 vvon 0,102
29 ist die
e χ2-Testtstatistik von 58,5
5 noch ho
ochsigniffikant. Der
D kritiscche Wert am 5%--Niveau mit
m 9 Freiheitsgraden beträ
ägt 16,92
2.
4.4
47
Offensichtlich isst die Stö
örtermva
arianz immer noch
h eng ko
orreliert m
mit Outpu
ut
apital. Ma
an sollte also
a
im Originalm
O
odell (mindestens
s) heterosskedastie
eund Ka
konsisttente Standardfeh
hler berec
chnen:
Tab. 4..5: KQ-Errgebnisse
e, loglineares Mod
dell, Whitte Standa
ardfehler
4.4
48
• Nun fa
allen die Standard
dfehler grrößer aus als in Tabelle
T
4
4.3,
aberr qualitatiiv
haben sich die E
Ergebnis
sse nicht veränder
v
rt.
• Den efffizienten FGLS-S
Schätzer kann ma
an bestim
mmen, we
enn man eine kon
nkrete Form
F
der Heteroskedastie unterste
ellt, z.B. dass
d
die Varianz von ε vo
on
log(wag
ge), log(ccapital) und
u
log(o
output) be
estimmt wird. Dazu berecchnet ma
an
zunäch
hst die Hilfsregres
ssion in Tabelle
T
4.6.
Tab. 4..6: Hilfsre
egression
n Multiplik
kative He
eterosked
dastie
4.4
49
• Zwei der erklärenden Variablen sind statistisch signifikant und auch der FWert ließe uns die Nullhypothese der Homoskedastie verwerfen (kritischer
Wert bei J = 3 und N – K = 569 – 4 = 565 bei 5% beträgt 2,60).
• Um zu prüfen, ob die Heteroskedastie besser durch ein Modell aufgefangen
würde, das zusätzlich drei quadratische Terme der erklärenden Variablen
enthält, wird das Modell aus Tabelle 4.6 entsprechend erweitert geschätzt.
Die H0, dass die drei zusätzlichen Terme Koeffizienten von Null haben, können bei einer Teststatistik von F = 1,85 allerdings nicht verworfen werden (p
= 0,137).
• Um nun den FGLS-Schätzer der Arbeitsnachfragegleichung zu erhalten,
müssen die Daten transformiert werden. Bis auf die Konstante (vgl. (4.39))
sind die Parameter in Tabelle 4.6 konsistent. Mit Hilfe der auf Basis dieser
4.50
Regression vorhergesagten Werte hˆi = hˆi2 mit hˆ i2 = eˆ i2 werden die Originaldaten transformiert. Da die Inkonsistenz der Konstanten der Hilfsregression
über die Transformation alle Daten in der Arbeitsnachfragegleichung proportional betrifft, hat sie keinen Einfluss auf die letztendlichen Schätzergebnisse
(siehe Tabelle 4.7).
4.51
Tab. 4..7: FGLS-Ergebnisse, logliineares Modell
M
• Der Ve
ergleich d
der Standardfehlerr zwische
en Tabelle 4.7 (FG
GLS) und
d 4.5 (Wh
hize
te-Stan
ndardfehler)
eigt
den
groß
ßen
Efffizienzge
ewinn:
Stdfehle
er
(βFGLS ) < Stdfehller (βWhite ) . Ein Veergleich mit den Standarddfehlern in 4.3 isst
nicht nützlich, d
da letztere
e unkorrig
giert und damit fa
alsch sind
d. Die Koe
effiziente
en
haben sich – biis auf den
n des Ka
apitals – nicht
n
wes
sentlich geändert.
g
. Letztere
er
ist jetztt signifika
ant.
4.5
52
• Wir prüfen H0: βlog( wage) = −1 gegen H1: βlog( wage) ≠ −1 mit t = (-0,856 + 1)/0.072 =
2,01, was am 1%-Niveau nicht, aber am 5%-Signifikanzniveau noch verworfen wird.
• Das R2 in Tabelle 4.7 (FGLS) ist höher als in Tabelle 4.3 (KQ-Schätzer). Allerdings musste in Tabelle 4.7 das nicht-zentrierte R2 berechnet werden, da
das Modell ohne (echte) Konstante geschätzt wurde. Außerdem wurde das
R2 in Tabelle 4.7 für eine transformierte abhängige Variable bestimmt, umgerechnet auf die Originalvariable würde das R2 sinken.
• Würde man in Tabelle 4.7 die Berechnungsart R2 = corr2{yi , yˆ i} nutzen und
ŷi = x 'i βˆ * setzen, ergäbe sich R2 = 0,8403, was nur geringfügig unter dem
R2 aus Tabelle 4.3 liegt. Der KQ-Schätzer maximiert per definitionem das R2,
4.53
so dass die Verwendung eines anderen Schätzverfahrens nie zu einem höheren Wert für das R2 führen kann.
4.54
4.6 Autokorrelation
• Wenn die Kovarianz von Fehlertermen nicht Null ist und statt dessen zwei
oder mehr aufeinander folgende Störterme korreliert sind, sprechen wir von
Autokorrelation oder serieller Korrelation. Solange E {ε X} = 0 , sind die
Konsequenzen von Autokorrelation und Heteroskedastie ähnlich: Der KQSchätzer ist unverzerrt und ineffizient, die Standardfehler sind falsch.
• Autokorrelation gibt es typischerweise bei Zeitreihendaten, wo die Beobachtungen (indexiert nun mit t = 1,2,…,T statt mit i = 1,2,…N) geordnet vorliegen. Der Störterm beschreibt den Einfluss von Größen, die nicht im Modell
berücksichtigt wurden. Ausgeschlossene Variablen sind ein häufiger Grund
für positive Autokorrelation. Insofern weist Autokorrelation auch oft auf Fehlspezifikation hin.
4.55
• Beispiel: Monatliche Nachfrage nach Eiscreme. Der Fehlerterm ε enthält
hier den Einfluss des Wetters. Abbildung 4.1 beschreibt die auf Basis eines
geschätzten Modells vorhergesagten Werte (Linie) sowie die tatsächlich beobachteten Werte (Punkte). Es gibt jeweils Gruppen positiver und negativer
Residuen.
Abb. 4.1: Tatsächliche und vorhergesagte Eisnachfrage (März 1951 – Juli
1953)
4.56
• In makroökonomischen Analysen führen Konjunkturzyklen zu ähnlichen Effekten. Positive Autokorrelation ist die Regel, negative ist eher selten (positive und negative Störterme würden abwechseln).
4.57
4.6.1 Autokorrelation erster Ordnung
• Jede Form von Autokorrelation führt zu einer anderen Varianz-KovarianzMatrix der Störterme V{ε}. Am häufigsten betrachtet man autoregressive
Prozesse erster Ordnung. Der Störterm von
yt = x't β + εt
folgt dann auf seinen Vorläufer gemäß: εt = ρεt −1 + νt .
(4.47)
(4.48)
Dabei hat νt den Mittelwert 0 und die konstante Varianz σ2ν ohne serielle Korrelation. νt wird in jeder Periode neu und unabhängig von vorherigen Werten
bestimmt. Es wird unterstellt, dass xt und alle Störterme statistisch unabhängig sind. ρ und σ2ν sind unbekannt. Wenn ρ = 0 ist, gelten für εt = νt die Standardannahmen A1 – A4.
4.58
• Wir unterstellen typischerweise, dass ε1 einen Erwartungswert von 0 und die
gleiche Varianz wie spätere εt hat, sowie dass |ρ| < 1. Wenn |ρ| < 1, sprechen wir von einem stationären autoregressiven Prozess erster Ordnung.
Bei stationären Prozessen sind Mittelwert, Varianz und Kovarianz von εt über
die Zeit konstant. Aus
E {εt } = ρ E {εt −1} + E {νt }
folgt, dass E {εt } = 0 und aus
V {εt } = V {ρ εt −1 + νt } = ρ2 V {εt −1} + σ2υ
ergibt sich
σ2ν
σ = V {εt } =
1 − ρ2
(4.49)
2
ε
• Für nicht-diagonale Elemente der Varianz-Kovarianz-Matrix von ε folgt aus
4.59
σ2ν
cov {εt , εt −1} = E {εt εt −1} = ρ E {ε } + E {εt −1νt } = ρ
1 − ρ2
2
t −1
(4.50)
Die Kovarianz für Fehlerterme im Abstand von 2 Perioden ist gegeben durch
σ2ν
E {εt εt − 2 } = ρ E {εt −1 εt − 2 } + E {εt − 2 νt } = ρ
1 − ρ2
2
(4.51)
und allgemein gilt für s ≥ 0
σ2ν
.
E {εt εt − s } = ρ
1 − ρ2
s
(4.52)
• Somit sind – solange 0 < ρ < 1 – alle Elemente von ε mit steigendem zeitlichem Abstand immer schwächer korreliert. Dabei enthält die VarianzKovarianz-Matrix von ε keine Nullen. Für einen FGLS-Schätzer kann eine
entsprechende Transformationsmatrix abgeleitet werden.
4.60
• Da
εt = ρεt −1 + νt ,
generiert
eine
Transformation
wie
εt − ρεt −1
homoskedastische, nicht-autokorrelierte Störterme. Das transformierte Modell ist:
yt − ρyt −1 = ( xt − ρxt −1 ) ' β + νt
t = 2,3,…,T
(4.53)
und liefert, sofern ρ bekannt ist, bei KQ-Schätzung approximativ den GLSSchätzer. Allerdings kann die erste Beobachtung (t = 1) nicht genutzt werden, was aber – insbesondere wenn T groß ist – nur einen geringen Einfluss
auf die Schätzergebnisse hat.
• Für t = 1 nutzt man
1 − ρ2 y1 = 1 − ρ2 x ' 1β + 1 − ρ2 ε1 ,
wobei Var
{
(4.54)
}
1 − ρ2 ε1 = (1 − ρ2 ) ⋅ Var ( ε1 ) = σ2ν (siehe 4.49).
4.61
• Der KQ-Schätzer für die für t = 1 mit (4.54) und für t = 2,3,…T mit (4.53)
transformierten Beobachtungen ergibt den GLS-Schätzer β̂ , der die BLUEEigenschaft hat. Ohne t = 1 spricht man vom Cochrane-Orcutt-Schätzer,
mit t = 1 vom Prais-Winsten-Schätzer.
4.62
4.6.2 Unbekanntes ρ
• Im Normalfall kennt man ρ nicht. Gegeben
εt = ρεt −1 + νt ,
(4.55)
lässt sich ρ durch KQ-Regression von εt auf εt-1 schätzen:
−1
⎛ T 2 ⎞ ⎛ T
⎞
ρˆ = ⎜ ∑ et −1 ⎟ ⎜ ∑ et et −1 ⎟
⎝ t =2
⎠ ⎝ t =2
⎠
(4.56)
ist konsistent. Nutzt man ρ̂ statt ρ, um den FGLS-Schätzer βˆ * zu erhalten,
gilt die BLUE-Eigenschaft nicht mehr. Asymptotisch sind βˆ * und β̂ allerdings
äquivalent und man kann ignorieren, dass ρ geschätzt wurde.
• Beim iterativen Cochrane-Orcutt-Schätzer schätzt man zunächst KQ und
erhält b und ε. Dann schätzt man ρ̂ und erhält βˆ * . Nun erhält man neue Residuen und bestimmt ein neues ρ̂ . Die Prozedur wird so lange wiederholt, bis
4.63
sich ρ̂ und βˆ * nicht mehr ändern. Dadurch wird ρ zunehmend effizienter geschätzt, aber nicht unbedingt auch βˆ * . Da ρ sowieso konsistent geschätzt
wurde, ist der Vorteil des Verfahrens gering. Bei kleinen Stichproben kann es
günstig sein.
• Illlustration:
Quelle: Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson,
S. 453, 471.
Fragestellung: Was ist der Zusammenhang zwischen Arbeitslosigkeit und
Armut?
Daten: US-Armutsrate (Bevölkerungsanteil mit Einkommen unter der Armutsgrenze), US-Arbeitslosenquote, 1980 – 2003 (N = 24)
4.64
KQ-Schätzung: Abh. Variable Armutsrate
Koeff.
Std.fehler
t
Konstante
9.790
0.611
16.02
Arbeitslosenquote
0.587
0.095
6.19
R2
0.635
N = 24
Hochsignifikanter Zusammenhang, wie erwartet.
Vermutung: Autokorrelierte Störterme erster Ordnung, neue Schätzungen:
4.65
Cochrane-Orcutt
Prais Winsten
Koeff.
Std.fehler
t
Koeff.
Std.fehler
t
Konstante
9.890
0.713
13.87
9.643
0.763
12.64
Arbeitslosenquote
0.583
0.097
5.98
0.563
0.098
5.74
rho
0.807
0.855
Auch bei korrigierenden Schätzverfahren bleibt signifikanter Zusammenhang
erhalten. Anstieg der Arbeitslosenquote um 0,01 (ein Prozentpunkt, z.B. von
5 auf 6 Prozent) erhöht Armutsrate um 0,583 ⋅ 0,01 = 0,0058. Da aber nur
die Hälfte der Bevölkerung im Arbeitsmarkt aktiv ist, impliziert jeder weitere
Arbeitslose ca. 1,2 weitere Personen in Armut; unterstellt wird, dass die Ar-
4.66
mutsrate = Anzahl Arme/Anzahl Einwohner, Alq = Anzahl Arbeitslose/Anzahl
der Erwerbspersonen sowie Einwohner ≅ 2 ⋅ Erwerbspersonen.
4.67
4.7 Tests für Autokorrelation erster Ordnung
• Solange ρ = 0, ist KQ BLUE. Wenn ρ ≠ 0, sind die KQ-Standardfehler falsch.
Daher sind Autokorrelationstests wichtig.
4.68
4.7.1 Asymptotische Tests
• Die KQ-Residuen aus yt = x't β + εt enthalten Informationen über Autokorrelation. Ein erster Ansatz ist, εt mit oder ohne Regressionskonstante auf εt-1 zu
regressieren. Solange das ursprüngliche Modell keine verzögerten endogenen Variablen aufweist, ist der t-Test für ρ̂ asymptotisch gültig.
• Es lässt sich zeigen, dass
t ≈ Tρˆ .
(4.57)
Wir verwerfen H0: ρ = 0 gegen eine zweiseitige Alternative mit ρ ≠ 0, z.B.
wenn t > 1,96 am 5%-Niveau. Unterstellt man positive Autokorrelation, so
lautet H1: ρ > 0 und die Teststatistik am 5%-Niveau ist 1,64.
• Ein anderer Test (Breusch-Godfrey-Test) stützt sich auf das R2 der Hilfsregression mit Konstante
εt = α + ρεt −1 + νt
für t = 2,3,…T.
4.69
• Hier folgt unter H0: ρ = 0, (T - 1) ⋅ R2 der χ2 – Verteilung mit einem Freiheitsgrad.
Je kleiner R2 ist, umso eher gilt ρ = 0. Der Test kann einfach für den Fall von
Autokorrelation höherer Ordnungen erweitert werden, indem der Hilfsregression weitere verzögerte Werte hinzugefügt werden, z.B. für Autokorrelation
dritter Ordnung:
εt = α + ρ1εt −1 + ρ2 εt − 2 + ρ3 εt −3 + νt
t = 4,5,…T
• Wenn das Modell verzögerte endogene Variablen enthält, ergibt sich entgegen Annahme A2 eine Korrelation der erklärenden Variablen mit dem
Störterm:
et
yt = x't β + yt-1γ + ρet −1 + νt .
4.70
Das gleiche Problem ergibt sich, wenn einzelne Regressoren mit et-1 korreliert sind. Dennoch sind die oben genannten Tests auch in diesen Situationen angemessen, wenn die entsprechende Regressoren yt-1 bzw. xt in der
Hilfsgleichung berücksichtigt werden:
et = α + x 't β + ρ1et −1 + ρ2 et − 2 + … + ρMet −M + νt .
• Vermutet man im Hauptmodell Heteroskedastie, bei der die Varianz der Störterme durch die erklärenden Variablen beeinflusst wird, dann gelten die tTest
Formen
der
Autokorrelationstests
nach
wie
vor,
solange
heteroskedastie-konsistente White-Standardfehler berechnet werden.
4.71
4.7.2 Der Durbin-Watson-Test
• Der Durbin-Watson-Test ist sowohl asymptotisch als auch bei kleinen Stichproben gültig, wenn 2 Annahmen zutreffen: (a) Die Regressoren sind nichtstochastisch, d.h. A2 gilt und es sind keine verzögerten endogenen Variablen im Modell. (b) x enthält die Regressionskonstante.
• Die Durbin-Watson-Teststatistik nutzt den KQ-Störterm et:
T
dw =
∑ (e
t =2
t
− et −1 )
2
T
∑e
t =1
T
da
dw =
∑ ( e2t − 2et et −1 + e2t −1 )
t =2
T
∑e
t =1
2
t
,
T
≈
(4.58)
2
t
2 ⋅ ∑ e2t
t =2
T
∑e
t =2
2
t
T
−
2∑ et et −1
t =2
T
∑e
t =2
≈ 2 − 2 ⋅ ρˆ
(4.59)
2
t −1
4.72
• Ein dw-Wert von ungefähr 2 impliziert, dass ρ ≈ 0. Wenn dw < 2, so ist dies
ein Indiz für positive Autokorrelation mit ρ > 0, ist dw > 2, dann ist ρ < 0.
• Unter H0: ρ = 0 hängt die Verteilung von dw nicht nur von T und der Anzahl K
der Koeffizienten ab, sondern auch von den Werten der xt Variablen. Daher
gibt es keine allgemeingültigen kritischen Werte, sondern obere und untere
Grenzen für dw, die von T und K abhängen (siehe Tabelle 4.8).
4.73
Tab. 4..8: Obere
e und untere Gren
nzwerte der
d DW-T
Teststatisttik für α = 5%
Dabei liegt
l
der wahre krritische Wert
W dcrit zwischen
z
n oberem
m (upper) und unte
erem Grrenzwert (lower): dL < dcrit < dU und unter H0 gilt am 5%-Nivea
5
au
P {dw < dL } ≤ P {dw < dcrit } = 0,05
0
≤ P {dw < dU } .
4.7
74
α=5%
dL dcrit
dU
dw
2
(ρ=0)
ρ<0
ρ>0
• Bei einem einseitigen Test H0: ρ = 0 gegen H1: ρ > 0 ergeben sich drei Möglichkeiten:
(a) dw < dL
: Ho wird verworfen
(b) dw > dU
: Ho wird nicht verworfen
(c) dL < dw < dU : Keine Aussage möglich, der Test hat kein Ergebnis.
• Je größer T, umso kleiner die Region, in der keine Aussage möglich ist.
4.75
Bei K = 5, T = 25 :
dL,5% = 1,038
dU,5%= 1,767
Bei K = 5, T = 100 :
dL,5% = 1,592
dU,5%= 1,758
• Der Durbin-Watson-Test ist nur anwendbar, wenn die Annahmen A1 – A4
sowie ε ∼ N gelten. Dennoch wird er häufig verwendet. Die asymptotischen
Tests jedoch gelten auch bei nicht normal verteilten Störtermen und können
bei verzögerten endogenen Regressoren im Modell angewendet werden.
• Bei Test auf negative Autokorrelation mit H1: ρ < 0 liegt der kritische Wert
zwischen 4 − dU und 4 − dL , so dass die gleichen Tabellen genutzt werden
können.
4.76
4.8 Beispiel: Nachfrage nach Eiscreme
• Genutzt wird ein klassischer Datensatz mit 30 monatlichen Beobachtungen
von 18.3.1951 bis 11.7.1953 für folgende Variablen
cons:
Pro-Kopf Konsum (Einkauf in pints)
income: mittleres Haushaltseinkommen pro Woche (in US $)
price:
Preis für Eiscreme (pro pint)
temp:
Durchschnittstemperatur (in Fahrenheit)
• Abbildung 4.2 beschreibt die Daten über die Zeit und stützt die Vermutung,
dass die Temperatur eine Rolle für die Nachfrage nach Eis spielt.
4.77
Abb. 4..2: Eiskon
nsum, Prreis und Tempera
T
tur (in Fa
ahrenheitt/100)
• Um die
e Determinanten des
d Eisko
onsums zu
z bestim
mmen, wirrd ein line
eares Mo
odell ges
schätzt:
4.7
78
Tab. 4.9: KQ-Ergebnisse
• Die Koeffizienten haben das erwartete Vorzeichen, das R2 ist hoch und die
Durbin-Watson-Statistik beträgt 1,0212. Die Grenzwerte für einen einseitigen
Test von H0: ρ ≤ 0 gegen H1: ρ > 0 am 5%-Niveau mit T = 30 und K = 4 sind
dL = 1,21 und dU = 1,65. Da 1,0212 < dL, kann H0 verworfen werden.
4.79
• Abb. 4..3: Beoba
achteter (Punkte)
(
und vorh
hergesagter (Linie
e) Konsum
m
• Die Da
arstellung
g (Abb. 4.3)
4
zeig
gt, dass positive und neg
gative Re
esiduen in
i
Gruppe
en auftretten. Die saisonale
s
e Schwan
nkung de
er Nachfrage wird durch diie
Variablle temp n
noch nich
ht vollstän
ndig aufgefangen..
4.8
80
• Der Autokorrelationskoeffizient ρ, in εt = ρεt −1 + νt kann geschätzt werden,
wenn man εt ohne Konstante auf εt −1 regressiert. Da E{ε} = 0, sollte eine
Konstante in diesem Modell nicht signifikant von Null verschieden sein.
• Man erhält ρ̂ = 0,401 und R2 = 0,149. Ein asymptotischer Test von H0: ρ = 0
gegen Autokorrelation erster Ordnung benutzt
T ⋅ ρˆ = 2,19 , was größer ist
als tkrit, 5% = 1,96, so dass H0 auch mit diesem Test verworfen wird.
• Der Breusch-Godfrey-Test auf Basis von R2 führt zu ( T − 1) ⋅ R2 = 4,32 , H0
wird verworfen.
• Daher ist KQ nicht BLUE, die Standardfehler in Tabelle 4.9 sind falsch. Ein
iteratives Cochrane-Orcutt-Verfahren ergibt die Schätzergebnisse in Tabelle
4.10.
4.81
Tab. 4..10: FGLS
S (iterativ
ve Cochrrane-Orcu
utt) Ergeb
bnisse
• Die Ric
chtung und Größe
e der geschätzten
n Koeffiz
zienten wird
w tende
enziell be
estätigt. Die mit e
einem Stern verse
ehenen Größen
G
b
beziehen
sich auf das trans
sformierrte Mode
ell und kö
önnen nic
cht mit den
d
KQ-E
Ergebniss
sen in Ta
abelle 4..9
4.8
82
verglichen werden. Auch die Durbin-Watson-Statistik des transformierten
Modells ist nicht mehr verlässlich.
• Autokorrelation kann ein Indikator dafür sein, dass das Modell fehlspezifiziert
ist. Daher kann man auch versuchen, das Problem durch Änderung der
Spezifikation zu lösen. Man könnte z.B. noch einen verzögerten Wert der
Temperatur (tempt-1) ins Modell aufnehmen (siehe Tabelle 4.11).
4.83
Tab. 4..11: KQ-S
Schätzun
ng, erweitterte Spe
ezifikation
n
• Im Verrgleich zu
u Tabelle 4.9 ist die
d Durbin
n-Watson
n-Statistik
k mit 1,58 jetzt am
m
5%-Niv
veau in d
der Regio
on, in derr keine Aussage
A
möglich ist (1,14 bis 1,74).
Allerdin
ngs liegt der Wertt in der Nähe der oberen
o
G
Grenze,
so dass die H0 ehe
er
nicht ve
erworfen wird (bspw. am 1%-Nivea
1
au).
4.8
84
• Der verzögerte Wert der Temperatur hat einen signifikant negativen Koeffizienten, während die kontemporäre Temperatur positiv mit der Eiscremenachfrage korreliert. Das kann man so interpretieren, dass bei hohen Temperaturen die Nachfrage steigt. Hält die hohe Temperatur jedoch für mehr
als einen Monat an, geht die Nachfrage wieder zurück, vielleicht weil die Vorräte noch nicht aufgebraucht sind.
4.85
4.9 Alternative Autokorrelationsmuster
4.9.1 Autokorrelation höherer Ordnung
• Autokorrelation erster Ordnung kommt häufig vor, jedoch ist bei Quartalsoder Monatsdaten auch denkbar, dass es quartals- oder monatsbezogene
Störtermkorrelationsmuster gibt, z.B.
oder
εt = γεt − 4 + νt
(4.60)
εt = γ1εt −1 + γ2 εt − 2 + γ3 εt −3 + γ4 εt − 4 + νt
(4.61)
(4.61) nennt man Autokorrelation vierter Ordnung. Die FGLS-Schätzer können – solange kein xt mit dem Störterm korreliert ist – geschätzt werden, indem man mit den KQ-Residuen die Modelle (4.60) bzw. (4.61) schätzt. Anschließend müssen wieder die Daten transformiert werden, wodurch beim
Cochrane-Orcutt-Verfahren die ersten vier Beobachtungen verloren gehen.
4.86
4.9.2 Moving-Average-Residuen
• Bislang haben wir unterstellt, dass alle Störterme untereinander korreliert
sind, wobei der Grad der Korrelation abnimmt, wenn der zeitliche Abstand
wächst. Alternativ könnte die Theorie vorgeben, dass nur ausgewählte Störterme
korreliert
sind;
dies
kann
durch
einen
moving
average
Störtermprozess modelliert werden und kann dann auftreten, wenn der
Messabstand der Datenpunkte kleiner ist als das Intervall, für das sie definiert sind.
• Beispiel 1: Monatliche Daten zum Wert von 3-Monatsfestgeldverträgen. In
diesem Fall beeinflusst ein Ereignis im Monat t den Wert der Verträge, die in
den Monaten t, t+1 und t+2 fällig werden. Später fällige Verträge sind zum
Zeitpunkt t noch nicht ausgegeben, daher wird ihre Wertentwicklung vom Er4.87
eignis zum Zeitpunkt t nicht beeinflusst. Entsprechend erwarten wir eine Korrelation in den Werten von Verträgen, die im Ein- oder Zweimonatsabstand
fällig werden, aber nicht darüber hinaus.
• Beispiel 2: Halbjährliche Beobachtungen der jährlichen Preissteigerung.
Unsere abhängige Variable beschreibt die Preissteigerung der letzten 6 Monate zum Termin 1.1 oder 1.7. und auch die erklärende Variable (z.B. das
Geldangebot) sei halbjährlich gemessen. Das wahre Modell ist
yt = x't β + νt ,
t = 1,2,…T (halbjährlich)
(4.62)
wobei νt den Gauss-Markov-Bedingungen genügt. Für den jährlichen Preisanstieg gilt y*t = yt + yt-1 und
y*t = ( xt + xt-1 ) ' β + ν t +νt −1 , t = 1,2,…T
(4.63)
4.88
bzw.
y*t = x*t ' β + εt ,
t = 1,2,…T
(4.64)
mit εt = νt + νt-1 und x*t = xt + xt-1 . Wenn V {νt } = σ2ν , dann folgt für die Eigenschaften des Störterms in (4.64):
E {εt } = E {νt } + E {νt −1} = 0
V {εt } = V {νt + νt −1} = 2σν2
cov {εt , εt −1} = cov {νt + νt −1, νt −1 + νt − 2 } =
E {νt νt −1} + E {νt νt − 2 } + E {νt −1νt −1} + E {νt −1νt − 2 } = σν2
cov {εt , εt − s } = cov {νt + νt −1, νt − s + νt −1− s } = 0
s = 2,3,…
4.89
• In diesem Fall enthält die Varianz-Kovarianz-Matrix des Störterms zahlreiche
Nullen:
⎡2σ ν2
⎢ 2
⎢ σν
⎢
0
E{ε t ε' t } = ⎢
⎢
⎢
⎢0
⎢
⎣0
σ ν2
0
0
2σ ν2
σ ν2
0
σ ν2
2σ ν2
0
0
0
2σ ν2
0
0
σ ν2
0 ⎤
⎥
0 ⎥
⎥
0 ⎥
⎥
⎥
σ ν2 ⎥
⎥
2σ ν2 ⎦
Dieser Fall wird als moving average Störtermprozess erster Ordnung bezeichnet, wobei in diesem Fall der Korrelationskoeffizient zwischen εt und εt-1
cov ( εt , εt −1 )
σν2
= 2 = 0,5
a priori auf 0,5 festgesetzt ist: corr ( εt , εt −1 ) =
Var ( εt ) ⋅ Var ( εt −1 ) 2σν
• Der allgemeine Fall eines moving average Prozesses erster Ordnung lautet
4.90
εt = νt + ανt −1 ,
mit |α| < 1
• Es ist komplizierter, Modelle unter moving average als unter Autokorrelation
zu schätzen, da die Transformation, um „Gauss-Markov-Fehler“ zu erhalten,
aufwändiger ist. Falls die verwendete Software dazu keine Routine anbietet,
ist es einfacher, KQ zu schätzen und anschließend eine Korrektur für Autokorrelation undefinierter Natur durchzuführen.
4.91
4.10 Vorgehensweise bei Vorliegen von Autokorrelation
• In vielen Fällen weist Autokorrelation auf die Fehlspezifikation des Modells
hin. In solchen Fällen sollte nicht der Schätzer, sondern das Modell geändert
werden. Beispielsweise könnte es sich um Fehlspezifikation der Dynamik,
ausgelassene Variablen oder Fehlspezifikation der funktionalen Form handeln.
4.92
4.1
10.1 Fehlspezifik
kation
• Angeno
ommen, das wah
hre Mode
ell lautett yt = β1 + β2 logxt + εt und der Wert
von xt steigt über die Ze
eit. Würden wir im
m Rahme
en eines linearen
l
Modells yt
egressierren, ergä
äbe sich ein
e Bild wie
w in Abb
bildung 4.4:
auf xt re
Abb. 4.4
4 Tatsä
ächliche (Punkte)
(
und line
ear vorhe
ergesagte
e Werte (Linie) fü
ür
das wa
ahre Modell yt = 0,,5 log t + εt
4.9
93
• Die Residuen in dieser Abbildung sind stark korreliert, dw = 0,193. Die Lösung des Problems besteht jedoch nicht darin, den Schätzer zu ändern,
sondern die Modellspezifikation, und statt auf xt auf log xt zu regressieren.
• Autokorrelation kann sich auch bei Auslassen relevanter erklärender Variablen ergeben, wie wir am Eiscremebeispiel gesehen haben.
• Auch eine Fehlspezifikation der Dynamik kann zu Problemen führen.
• Beispiel: Wir haben im linearen statischen Modell
yt = x't β + εt
Autokorrelation erster Ordnung
(4.65)
εt = ρεt −1 + νt . Das Modell beschreibt
E {yt xt } = x 't β . Man könnte aber auch am Erwartungswert von yt vor dem
Hintergrund der Werte xt, xt −1 und yt–1 interessiert sein, wobei gilt:
4.94
E {yt xt ,xt −1,yt −1} = x 't β + ρ ( yt −1 − x 't −1 β )
(4.66)
Dann lässt sich ein dynamisches Modell wie folgt formulieren:
yt = x't β + ρyt −1 - ρx't-1β + νt
(4.67)
Nun enthält der Störterm keine Autokorrelation. Durch die Erweiterung des
Modells um verzögerte exogene und endogene Variablen verschwindet die
Autokorrelation. Es gibt auch Fälle, in denen es ausreicht, nur yt-1 oder nur
xt-1 ins Modell aufzunehmen.
• Es ist eine inhaltliche Frage, ob man sich für das Modell E {yt xt } oder für
das Modell E {yt xt ,xt −1,yt −1} interessiert. Letzteres generiert sicher eine bes-
sere Anpassung an die Daten. Allerdings ist der Durbin-Watson-Test bei
Modellen mit verzögerten endogenen Variablen nicht anwendbar.
4.95
4.10.2 Heteroskedastie- und Autokorrelation – konsistente Standardfehler
• Um ein lineares Modell yt = x't β + εt mit autokorreliertem Störterm zu schätzen, kann man entweder GLS verwenden oder beim KQ-Schätzer die Standardfehler korrigieren.
• Insbesondere, wenn nach einer gewissen Lag-Länge H die Korrelation zwischen εt und εt-s gegen Null geht oder wenn die Konsistenzbedingungen für
den GLS-Schätzer nicht gelten, werden Heteroskedastie- und Autokorrelation-konsistente (HAC) oder Newey-West-Standardfehler bestimmt.
• Dabei werden die White-Standardfehler auf den Fall der Autokorrelation erweitert. Die HAC Standardfehler werden auch verwendet, wenn das Autokorrelationsmuster über einen vorbestimmten Lag-Abstand von H hinausgeht.
Das Verfahren wurde für große Stichproben entwickelt.
4.96
Literatur:
Verbeek, 2004, Kapitel 4.
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 322-327 und 333-334.
Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, S. 453, 471.
4.97
Kapitel 5: Maximum Likelihood und 0/1 abhängige Variablen
5.1 Das Maximum Likelihood Verfahren (6.1)
5.2 Inferenz im ML-Rahmen (6.2)
5.3 Binäre abhängige Variablen (7.1)
5–1
Lernziele Kapitel 5:
• Was ist die Intuition des Maximum Likelihood Schätzers?
• Welche Eigenschaften haben Maximum Likelihood Schätzer?
• Welche Testverfahren gibt es im ML-Rahmen?
• Wie wird die Schätzgüte von ML-Schätzern gemessen?
• Wie gehen Probit- und Logit-Schätzer vor?
5–2
5.1 Das Maximum Likelihood Verfahren
5.1.1 Einführung
• Grundlage des Verfahrens ist eine Annahme bezüglich der Verteilung der
abhängigen Variable. Bedingt auf Kovariate ist lediglich ein Vektor von
Parametern unbekannt, der die Verteilung charakterisiert. Dieser wird so
bestimmt, dass die Wahrscheinlichkeit, dass genau die vorliegenden Daten
generiert wurden, maximiert wird.
• Beispiel: Eine normalverteilte Variable yi könnte durch den Mittelwert
β1+β2 xi und die Varianz σ2 charakterisiert werden.
5–3
• Illustration 1: Die Wahrscheinlichkeit aus einer Urne mit Kugeln von denen
der Anteil p rot ist (der Rest ist weiß), N1 rote und N-N1 weiße zu ziehen,
lautet:
P {N1 rote, N − N1 weiße} = pN1 (1 − p )
N − N1
.
(6.1)
Dieser Ausdruck stellt eine Likelihoodfunktion dar. Die Schätzung bestimmt
den Wert für p, der (6.1) maximiert, p̂ . Rechnerisch ist es oft einfacher, den
logarithmierten Wert zu maximieren:
log L ( p ) = N1 log ( p ) + (N − N1 ) log (1 − p )
d logL ( p )
dp
=
p̂ =
(6.2)
N1 N − N1
−
=0
p
1− p
(6.3)
N1
N
(6.4)
5–4
p̂ ist der Maximum Likelihood Schätzer und entspricht dem Anteil der roten
an allen Bällen. Eine Überprüfung der Bedingungen zweiter Ordnung ergibt,
dass ein Maximum vorliegt.
• Intuition: Die Wahrscheinlichkeit, die vorliegenden Daten zu beobachten,
wird als Funktion der unbekannten Parameter beschrieben, die die
Verteilung charakterisieren. Die Likelihoodfunktion wird dann über diese
Parameter maximiert.
• Illustration 2: Wir unterstellen A.1 – A.4 für
yi = β1 + β2 xi + εi,
(6.6)
d.h. E(εi | x) = 0, V(εi | x) = σ2. Das ML-Verfahren erfordert zusätzlich eine
Verteilungsannahme, die wir als εi ∼ NID (0, σ2ε ) treffen.
5–5
Der Beitrag jedes yi zur Likelihoodfunktion wird über die Dichtefunktion der
Normalverteilung beschrieben:
⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪
exp ⎨ −
⎬.
2
2
2
σ
2π σ
⎩⎪
⎭⎪
1
f ( yi | xi ; β, σ2 ) =
(6.7)
Wenn β = (β1, β2)' und alle i = 1, 2, ..., N Beobachtungen unabhängig sind,
lautet die auf x bedingte gemeinsame Dichte von y1, ..., yN:
f ( y1,...,yN |xi ; β, σ
2
N
) = ∏ f ( y |x ;β, σ )
2
i
i
i =1
⎛ 1
=⎜
⎜ 2π σ2
⎝
N
⎞
⎟
⎟
⎠
N
∏
i =1
⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪
exp ⎨−
⎬
σ2
⎪⎩ 2
⎪⎭
(6.8)
Dies ist die Likelihoodfunktion, so dass die Log-Likelihoodfunktion lautet:
5–6
N
1 N
2
log L ( β, σ ) = − log ( 2π σ ) − ∑
2
2 i =1
2
(y
i
− β1 − β2 xi )
2
(6.9)
σ2
Nur der letzte Term variiert mit β und er entspricht der Summe der
quadrierten Residuen (2.12). Daher sind die ML-Schätzer des linearen
Modells identisch mit den KQ-Schätzern.
Der ML-Schätzer für σ2 lautet nach erster Ableitung und bei ei = yi − βˆ1 − βˆ 2 xi :
σˆ 2 =
1 N 2
∑ ei
N i =1
(6.11)
Dies ist konsistent, aber nicht unverzerrt. Der unverzerrte (KQ-) Schätzer
lautet:
s2 =
1 N 2
∑ ei ,
N − K i =1
5–7
wobei K die Anzahl der Steigungsparameter + 1 (für die Konstante) ist. β̂ hat
die gleichen Eigenschaften (unverzerrt, konsistent) wie beim KQ-Schätzer.
• Allgemein
kann
für
den
ML-Schätzer
nur
Konsistenz
und
somit
asymptotische Effizienz nachgewiesen werden. In den meisten Fällen
existiert keine analytische Lösung für die unbekannten Parameter.
• Wenn ε nicht-normal verteilt oder heteroskedastisch ist, ist die angegebene
Likelihoodfunktion falsch, da sie nicht die wirkliche Verteilung beschreibt.
5–8
5.1.2 Allgemeine Eigenschaften des ML-Verfahrens
• Im allgemeinen Fall sei f(yi | xi; θ) die Dichtefunktion für die endogene Größe
yi, die durch den K-dimensionalen Parametervektor θ charakterisiert wird.
Unter der Annahme unabhängig verteilter y und wenn X = (x1, ..., xN)' lautet
die gemeinsame Dichtefunktion:
N
f ( y1,...,yN | X; θ ) = ∏ f ( yi |xi ; θ )
i =1
• Dies entspricht der Likelihoodfunktion:
N
N
i =1
i =1
L ( θ |y, X ) = ∏ Li ( θ |yi ,xi ) = ∏ f ( yi |xi ; θ )
• Der Beitrag von Individuum i zur Likelihoodfunktion lautet: Li ( θ | yi ,xi ) .
• Der ML-Schätzer θ̂ löst:
5–9
N
max logL ( θ ) = max ∑ logLi ( θ )
θ
θ
(6.12)
i =1
• Die Bedingungen erster Ordnung werden durch θ = θˆ erfüllt:
∂ logL ( θ )
∂θ
N
=∑
θ=θˆ
∂ logLi ( θ )
∂θ
i =1
=0
(6.13)
θ=θˆ
• Wenn die Log-Likelihoodfunktion global konkav ist, existiert ein eindeutiges
globales Maximum. In der Regel lässt sich die Lösung nur numerisch und
nicht analytisch bestimmen.
• Den Vektor der ersten Ableitungen der Log-Likelihoodfunktion bezeichnet
man als score Vektor:
s ( θ) ≡
∂ logL ( θ )
∂θ
N
=∑
i =1
∂ logLi ( θ )
∂θ
N
≡ ∑ si ( θ )
(6.14)
i =1
5–10
und für die ersten Ableitungen ergibt sich:
()
N
()
s θˆ = ∑ si θˆ = 0 .
i =1
• Wenn die Likelihoodfunktion korrekt spezifiziert ist, lassen sich folgende
Eigenschaften des ML-Schätzers zeigen:
(1) Konsistenz, plimθˆ = θ
(2) Asymptotische Effizienz
(3) Asymptotische Normalverteilung:
(
)
a
N θˆ − θ ∼ N ( 0,V ) , wobei V die
asymptotische Varianz-Kovarianz-Matrix des Schätzers ist.
• V hängt von der Form der Likelihoodfunktion ab. Die Information in
Beobachtung i hinsichtlich θ ist definiert als (K x K) Matrix:
5–11
⎧ ∂2 logLi ( θ ) ⎫
Ii ( θ ) ≡ −E ⎨
⎬.
∂
θ
∂
θ
'
⎩
⎭
(6.16)
Als Mittelwert über die Stichprobe ergibt sich
⎧ 1 ∂2 logL ( θ ) ⎫
1 N
IN ( θ ) ≡ ∑ Ii ( θ ) = −E ⎨
⎬.
∂
θ
∂
θ
N i =1
N
'
⎩
⎭
(6.17)
Für N → ∞ wird dies als Informationsmatrix bezeichnet:
I ( θ ) ≡ Nlim
I (θ)
→∞ N
Wenn
alle
Beobachtungen
iid
sind,
gilt
I i ( θ ) ≡ IN ( θ ) = I ( θ ) .
Die
asymptotische Varianz-Kovarianz-Matrix des ML-Schätzers ist:
V = I( θ) .
−1
(6.18)
5–12
Intuitiv gilt, dass die ML-Schätzer umso präziser, d.h. mit kleinerer Varianz
bestimmt
werden
können,
je
stärker
die
Krümmung
der
Log-
Likelihoodfunktion an der Stelle θ̂ ist.
• Da das ML-Verfahren asymptotisch effizient ist, sagt man, dass die Varianz
eine untere Schranke der asymptotischen Kovarianzfunktion erreicht, das
sogenannte Cramer-Rao-lower bound.
• V kann geschätzt werden:
⎛ 1 N ∂ 2logLi ( θ )
V̂H = ⎜ − ∑
⎜ N i =1
∂ θ ∂ θ'
⎝
−1
⎞
⎟
⎟
θ=θˆ ⎠
(6.19)
• Alternativ kann genutzt werden, dass das Produkt der Score-Vektoren die
Informations-Matrix approximiert:
5–13
J i ( θ ) ≡ E {si ( θ ) si ( θ ) '} = I i ( θ )
(6.20)
Die auf Basis des Gradientenvektors geschätzte Varianz-Kovarianzmatrix
nutzt diese Approximation:
−1
⎛1 N
⎞
Vˆ G = ⎜ ∑ si θˆ si θˆ ' ⎟ .
⎝ N i =1
⎠
() ()
(6.21)
5–14
5.2 Inferenz im ML-Rahmen
• Im Rahmen des ML-Verfahrens finden 3 verschiedene Testprinzipien
Anwendung. Der Wald-Test ist für alle konsistenten, asymptotisch
normalverteilten Schätzer anwendbar. Mit dem Likelihood Ratio-Test
lassen sich genestete Modelle vergleichen. Der Lagrange Multiplier (LM)
Test wird nach restringierter Schätzung eingesetzt.
• Wenn der k-dimensionale Parametervektor θ = (θ1, θ2, ..., θk)' durch eine
Log-Likelihoodfunktion geschätzt wird:
N
max log L ( θ ) = max ∑ log Li ( θ ) ,
θ
θ
i =1
lassen sich Restriktionen unter der Nullhypothese wie folgt darstellen:
5–15
H0: Rθ = q,
wobei q ein J-dimensionaler Vektor und R eine J x K Matrix ist. Die Tests
gehen wie folgt vor:
• Wald-Test: Schätze θ ohne Restriktionen und prüfe, ob H0 erfüllt und
Rθˆ − q = 0 ist.
()
()
• Likelihood Ratio Test: Schätze θ ohne Restriktion θ̂ , sowie unter H0 θ
und prüfe, ob sich die Log-Likelihood-Werte signifikant voneinander
unterscheiden: L θˆ − L θ = 0 .
() ()
• Lagrange Multiplier Test: Schätze θ unter H0 und prüfe, ob die Bedingungen
erster Ordnung der
∂ logL ( θ ) / ∂ θ |θ=θ = 0 .
unregistrierten
Likelihoodfunktion
erfüllt
sind:
5–16
ln L
c (θ )
LM
lnLU lnL LR
c(θ) lnLR W θ̂R θ̂ML θ 5–17
• Da die drei Teststatistiken die gleiche asymptotische Verteilung haben, sagt
man, sie sind asymptotisch äquivalent. Man wählt den Test, der am
einfachsten durchzuführen ist.
• Der Wald Test kann von der asymptotischen Normalverteilung der
Parameter abgeleitet werden:
(
)
a
N θˆ − θ ∼ N ( 0, V )
(6.23)
Es folgt, dass auch Rθˆ asymptotisch normalverteilt ist:
(
)
a
N Rθˆ − Rθ ∼ N ( 0, R V R ' )
(6.24)
Die Teststatistik nutzt einen konsistenten Schätzer V̂ von V und ist unter H0
Chi-quadrat verteilt mit J Freiheitsgraden.
5–18
(
)
ξw = N Rθˆ − q ' ⎡⎣R Vˆ R ⎤⎦
−1
(Rθˆ − q) ∼ χ
2
J
(
( ))
• Der Likelihood-Ratio-Test nutzt die Log-Likelihoodwerte, die mit logL θ
(
( ) ) Restriktion erzeugt werden. Unter H
und ohne logL θˆ
0
sollte die Differenz
nicht signifikant von Null verschieden sein:
()
()
ξLR = −2 ⎡log L θ − log L θˆ ⎤ ∼ χJ2
⎣
⎦
Der Test ist nur bei genesteten Modellen und dann sehr einfach anwendbar.
• Der Lagrange Multiplier Test leitet sich aus der Maximierung unter linearen
Nebenbedingungen (Lagrange-Ansatz) ab:
log L(θ)* = log L(θ) + λ (Rθ - q)
Als Parameterschätzer ergeben sich unter der Restriktion θ, λ :
5–19
∂ logL ( θ ) *
∂θ
∂ logL ( θ ) *
∂λ
=
∂ logL ( θ )
∂θ
⎛ ∂ (R θ − q ) ⎞
+ λ⎜
⎟=0
∂θ
⎝
⎠
= (Rθ − q) = 0
Wenn die Restriktion zutrifft, sollte der Schattenpreis der Restriktion λ nahe
∂ logL ( θ ) * ∂ logL ( θ )
Null sein, da unter H0:
.
≈
∂θ
∂θ
Wenn λ groß ist, legt dies nahe, H0 zu verwerfen, da sich in diesem Fall die
restringierte (L(θ)*) und die unrestringierte (L(θ)) Likelihoodfunktion deutlich
unterscheiden.
Die LM-Test Statistik lautet:
5–20
N
ξLM = ∑
i =1
()
wobei si θ
−1
⎛ N
⎞
si θ ' ⎜ ∑ si θ si θ ' ⎟
⎝ i =1
⎠
()
( ) ( ) ∑ s (θ) ∼ χ ,
N
i =1
i
2
J
(6.32)
die erste Ableitung der unrestringierten Likelihoodfunktion,
bewertet am Vektor der unter Restriktion geschätzten θ ist. Weichen die
()
Werte von si θ deutlich von 0 ab, sollte H0 verworfen werden.
5–21
5.3 Binäre abhängige Variablen (7.1)
5.3.1 Einführung
• Man könnte sich fragen, ob das Einkommen damit korreliert ist, dass
manche Haushalte Autos besitzen und andere nicht. Definiert yi = 1 für
Haushalte i mit Auto und yi = 0 für Haushalte ohne Auto, so lässt sich ein
lineares Modell aufstellen, bei dem xi2 das Einkommen misst und xi1 ≡ 1 eine
Konstante darstellt, xi = (xi1, xi2)‘
yi = β1 + β2 xi2 + εi = xi ' β + εi .
(7.1)
• Wenn eine Variable nur die Ausprägungen 0 und 1 annimmt, spricht man
von binären, bivariaten, dichotomen oder Dummy-Variablen.
• Unter der Standardannahme E {εi | xi} = 0 folgt E {yi | xi} = xi'β sowie
5–22
E {yi | xi } = 1⋅ P {yi = 1 | xi } + 0 ⋅ P {yi = 0 | xi }
= P {yi = 1 | xi } = xi ' β
(7.2)
• Das Modell impliziert, dass xi'β eine Wahrscheinlichkeit beschreibt und
zwischen 0 und 1 liegt. Praktisch gilt das nicht immer.
• Da yi entweder 0 oder 1 beträgt, kann εi nur zwei mögliche Werte
annehmen. εi ist nicht normalverteilt und heteroskedastisch:
P {εi = − xi ' β | xi } = P {yi = 0| xi } = 1 − xi ' β
P {εi = 1 − xi ' β |xi } = P {yi = 1|xi } = xi ' β
(7.3)
• Es lässt sich zeigen, dass
V ( εi |xi ) = xi ' β (1 − xi ' β ) ,
5–23
so dass die Varianz für jedes i unterschiedlich ausfällt.
• Diese Probleme lassen sich lösen, wenn die Wahrscheinlichkeit dafür, dass
yi = 1 ist, als Funktion von Kovariaten xi modelliert wird:
P {yi = 1| xi } = G ( xi , β )
(7.4)
Die Funktion G sollte ausschließlich Werte im Intervall [0, 1] annehmen,
wobei man sich in der Regel auf die lineare Funktion G ( xi , β ) = F ( xi ' β )
beschränkt. Da F Werte aus [0, 1] annehmen sollte, bieten sich
Verteilungsfunktionen an.
• Unterstellt man eine Standardnormalverteilung, ergibt sich ein ProbitModell:
5–24
F(w) = Φ (w) =
w
∫
−∞
⎧ 1 ⎫
exp ⎨− t2 ⎬ dt
2π
⎩ 2 ⎭
1
(7.5)
• Unterstellt man eine standard logistische Verteilung, ergibt sich ein LogitModell:
ew
F(w) = L(w) =
1 + ew
(7.6)
• Erwartungswert einer standard logistisch verteilten Zufallsvariable: 0,
π2
Varianz:
.
3
• Die beiden Verteilungsfunktionen sind sehr ähnlich. Im Vergleich zur
Normalverteilung hat die logistische Verteilung „dickere Ränder“. Die
Schätzergebnisse sind typischerweise sehr ähnlich.
5–25
• Bei geschätzten Koeffizienten lassen sich Vorzeichen und statistische
Signifikanz interpretieren.
• Um die Stärke der Zusammenhänge zu beschreiben, berechnet man die
marginalen Effekte einzelner erklärender Variablen; für kontinuierliche
erklärende Variablen xk gilt:
Probit:
Logit:
∂ Φ ( xi ' β )
∂ xik
∂ L ( xi ' β )
∂ xik
= φ ( xi ' β ) ⋅ βk
=
exi ' β
(1 + exi ' β )
2
⋅ βk ,
wobei φ (xi ' β) die Dichtefunktion der Standardnormalverteilung repräsentiert
und L für die kumulative standard logistische Verteilung steht.
5–26
• Die marginalen Effekte hängen von den Werten für xi ab. Dabei nutzt man
entweder für alle xi die Stichprobenmittelwerte oder berechnet die mittleren
marginalen Effekte:
1 N ∂ Φ ( xi ' β )
∑ ∂x
N i =1
ik
1 N ∂ L ( xi ' β )
∑ ∂x
N i =1
ik
bzw.
• Wegen der Nichtlinearität der betrachteten Funktionen können sich die
Ergebnisse je nach Art der Berechnung unterscheiden. Das Vorzeichen des
marginalen Effekts entspricht stets dem Vorzeichen des Parameters β̂k .
• Bei dichotomen (0/1) erklärenden Variablen wird statt des marginalen
Effekts oft der Unterschied in den vorhergesagten Wahrscheinlichkeiten
bestimmt,
wobei
alle
anderen
erklärenden
Variablen
feste
Werte
zugewiesen bekommen.
5–27
• Beispiel im Probitfall:
P ( yi = 1| malei = 1,xi = x ) − P ( yi = 1| malei = 0,xi = x )
(
)
(
= Φ βˆD ⋅ 1 + x ' βˆ − Φ βˆD ⋅ 0 + x ' βˆ
)
• Gleichung (7.4) des Logit-Modells lässt sich umformen zu:
log
pi
= xi ' β,
1 − pi
wobei pi = P{yi = 1 | xi}. Den Ausdruck links bezeichnet man als log odds
ratio. Ein Wert von 3 würde bedeuten, dass die Wahrscheinlichkeit von yi = 1
dreimal höher ist, als die Wahrscheinlichkeit, dass yi = 0. Hier beschreibt βk
den Effekt von xik auf das odds ratio. Wenn βk = 0,1, führt eine Änderung
5–28
von xik um eine Einheit zu einem Anstieg des odds ratios um 10 Prozent
(semi-Elastizität).
5–29
5.3.2 Das latente Modell
• Bivariate Modelle lassen sich von theoretischen Verhaltensmodellen
ableiten. Es wird unterstellt, dass Individuen eine unbeobachtbare Neigung
haben, bestimmte Handlungsweisen zu präferieren (z.B. erwerbstätig zu
sein). Diese Neigung wird als latente Variable, yi* modelliert:
yi * = xi ' β + εi
(7.8)
• Übersteigt die latente Variable einen unbekannten Schwellenwert, den wir
als 0 annehmen, so wählt i yi = 1, sonst yi = 0. Man schreibt:
P {yi = 1} = P {yi * > 0} = P {xi ' β + εi > 0} = P {−ε ≤ xi ' β} = F ( xi ' β ) .
(7.9)
5–30
Dabei beschreibt F die Verteilungsfunktion von -εi, bzw. bei symmetrischen
Funktionen die von εi. Dies ergibt ein binäres Modell, dessen konkrete Form
von den Annahmen an die Verteilung von εi abhängt.
• Ein Probitmodell auf Basis einer latenten Variablen lässt sich wie folgt
vollständig beschreiben:
yi * = xi ' β + εi ,
εi ∼ N ( 0,1)
yi = 1
wenn yi * > 0
yi = 0
wenn yi * ≤ 0.
(7.10)
Unterstellt wird, dass εi von allen xi unabhängig ist.
• Die Parameter des Modells werden typischerweise mit Maximum Likelihood
geschätzt.
5–31
5.3.3 Schätzung
• Die Parameter werden geschätzt, indem die logarithmierte Likelihoodfunkton
maximiert wird.
• Der Beitrag von Individuum i zur Likelihoodfunktion ist entweder P(yi = 1 | xi;
β) oder P(yi = 0 | xi; β), je nachdem ob das Ereignis yi = 1 oder yi = 0
eingetreten ist.
• Die Likelihoodfunktion für die Stichprobe lautet:
N
L ( β ) = ∏ P {yi = 1|xi ; β} i P {yi = 0 |xi ;β}
1− yi
y
(7.11)
i =1
• Nach Logarithmierung und Einsetzen von F(xi‘β):
N
N
i =1
i =1
log L ( β ) = ∑ yi log F ( xi ' β ) + ∑ (1 − yi ) log (1 − F ( xi ' β ) )
(7.12)
5–32
• Die Bedingung erster Ordnung zur Maximierung der log-Likelihoodfunktion
lautet:
∂ logL ( β )
∂β
N
⎡
⎤
yi − F ( xi ' β )
=∑ ⎢
f ( xi ' β ) ⎥ xi = 0 ,
i =1
⎣⎢ F ( xi ' β ) (1 − F ( xi ' β ) )
⎦⎥
(7.13)
wobei die Dichtefunktion f die Ableitung von F nach xi ' β ist.
• Der Ausdruck in Klammern wird als generalized residual bezeichnet und
nimmt entweder die Werte
oder
f ( xi ' β ) / F ( xi ' β )
für yi = 1
− f ( xi ' β ) / (1 − F ( xi ' β ) )
für yi = 0 an.
5–33
• Die Bedingungen erster Ordnung fordern, dass über die ganze Stichprobe
hinweg die Werte von xi nicht mit der generalized residual korreliert sein
dürfen,
• Im Logit lässt sich vereinfachen
∂ logL ( β )
∂β
⎡
exp ( xi ' β ) ⎤
= ∑ ⎢ yi −
⎥ xi = 0
1 + exp ( xi ' β ) ⎥⎦
i =1
⎢⎣
N
(7.14)
Gegeben β̂ lässt sich P{yi = 1 | xi} berechnen:
p̂i =
(
exp xi ' βˆ
(
)
1 + exp xi ' βˆ
)
Eingesetzt in (7.14) folgt:
5–34
N
∑
i =1
N
p̂i xi = ∑ yi xi .
(7.16)
i =1
• Dies bedeutet, dass solange im Logit-Modell eine Konstante mit geschätzt
wird, die vorhergesagte Wahrscheinlichkeit immer exakt identisch mit der
beobachteten Wahrscheinlichkeit ist.
• Da die log-Likelihoodfunktionen global konkav sind, konvergieren die
Schätzungen schnell zum globalen Maximum.
5–35
5.3.4 Schätzgüte
• Im Gegensatz zum linearen Modell mit seinem R2 gibt es für binäre Modelle
kein eindeutiges, etabliertes Gütemaß.
• Im Rahmen von ML-Schätzern wird der Erklärungsgehalt des Modells oft
aus dem Vergleich der log-Likelihoodwerte mit (log L1) vs. ohne erklärende
Variablen (log L0) bestimmt. Zu erwarten ist: log L1 ≥ log L0. Je besser das
Modell umso größer ist L ebenso wie log L. Je größer der Unterschied
zwischen log L1 und log L0, umso bedeutender ist der Erklärungsbeitrag des
Modells.
• Amemiya führte folgendes Maß ein:
5–36
pseudo − R2 = 1 −
1
1 + 2 ( logL1 − logL0 ) / N
(7.17)
• Das McFadden R2 (auch Likelihood ratio index genannt) lautet:
McFadden R2 = 1 − ( logL1 / logL0 )
(7.18)
Dieser Wert muß zwischen 0 und 1 liegen; er nimmt im schlechtesten Fall
den Wert 0 und im besten Fall den Wert 1 an. Passt das Modell nicht, so gilt
log L1 = log L0, passt das Modell perfekt, so gilt L1 = 1, log L1 = 0.
• Vielfach wird Modellgüte daran gemessen, welcher Anteil der abhängigen
Variablen korrekt vorhergesagt wird. Dazu bestimmt man für alle i F xi 'βˆ
(
)
und weist typischerweise einen vorhergesagten Wert von 1 zu, wenn
F xi ' βˆ > 0,5 , andernfalls wird ein Wert von 0 vorhergesagt.
(
)
5–37
• Insbesondere bei seltenen Ereignissen (z.B. 5% y = 1, 95% y = 0) ist auf
diese Weise kaum ein Modell in der Lage, eine konstante Vorhersage (z.B. y
= 0 für alle) zu übertreffen.
5–38
5.3.5 Beispiel: Arbeitslosengeld und Arbeitslosengeldbezug
• Stichprobe: N = 4877 amerikanische Arbeiter, die zwischen 1982 und 1991
den Arbeitsplatz verloren. Nicht alle nutzen die Möglichkeit, Arbeitslosengeld
zu beziehen, wenngleich alle einen Anspruch haben. Die „Takeup-Rate“ der
Stichprobe beträgt 68%.
• Der Betrag an Arbeitslosengeld, der einzelnen zusteht, hängt ab von
Bundesstaat, Jahr der Arbeitslosigkeit und früherem Verdienst. Die Lohnersatzrate variiert zwischen 33 und 54 Prozent und könnte die takeupEntscheidung beeinflussen. Zusätzlich können weitere persönliche Faktoren
(z.B. Bildung, Alter, Geschlecht), Präferenzen oder die Haushaltszusammensetzung eine Rolle spielen.
5–39
• Tabelle
7.2
präsentiert
Wahrscheinlichkeitsmodell
die
Schätzergebnisse
(LPM),
d.h.
KQ
für
ohne
ein
lineares
Korrektur
für
Heteroskedastie, sowie Logit und Probit Modelle.
• Da das Logit Modell die Parameter entsprechend
V = π / 3 skaliert,
während Probit von σ = 1 ausgeht, unterscheiden sich die geschätzten
Parameter β um ungefähr diesen Faktor. Die Parameter des linearen
Modells (linear probability model LPM) sind typischerweise um den Faktor 4
kleiner als die Logitwerte.
5–40
5–41
• Vorzeichen und statistische Signifikanz der Ergebnisse sind vergleichbar.
• Auch die quantitativen Ergebnisse unterscheiden sich nicht deutlich
zwischen den Modellen. Der Effekt der Lohnersatzrate wurde quadratisch
geschätzt und hängt daher davon ab, an welcher Stelle er bewertet wird. Im
Probit ergibt sich
∂ Φ ( xi ' β )
∂ xi,RR
= φ ( xi ' β ) ⋅ (1,863 − 2 ⋅ 2,980 ⋅ replacement rate )
Da dieser Wert für unsere Stichprobenwerte der replacement rate meist
negativ ist, scheint eine hohe Ersatzrate (kontraintuitiv) die takeupWahrscheinlichkeit zu reduzieren. Andere wichtige Variablen sind, ob die
5–42
Stelle wegen „slack work“ (Unterauslastung) gekündigt wurde, Kinderzahl
und Familienstand. Viele Parameter sind insignifikant.
• Die Maße der Schätzgüte bestätigen, dass der Erklärungsgehalt der Modelle
nicht hoch ist.
• Ein Vergleich von Vorhersage und tatsächlichem Wert ergibt:
ŷi = 0
ŷi = 1
Gesamt
yi = 0
242
1300
1542
yi = 1
171
3164
3335
Gesamt
413
4464
4877
5–43
so dass
242 3164
+
= 1,106 , was nicht deutlich besser ist als eine
1542 3335
einheitliche Vorhersage für alle Beobachtungen, die einen Wert von 1 ergibt.
5–44
Literatur:
Verbeek, 2008, Kapitel 6, 7.1
Greene, W.H., 2008, Econometric Analysis 6.A, Kapitel 16 und 23.1 – 23.4
Gujarati, D.N. und D.C. Porter, 2009, Basic Econometrics 5.A., Kapitel 4.4 und
15.1-15.9
Johnston, J. und J. DiNardo, 1997, Econometric Methods 4.A, Kapitel 13.1-13.6
Pindyck, R.S. und D.L. Rubinfeld, 1998, Econometric Models and Economic
Forecasts 4.A., Kapitel 11
Stock, J.H. und M.W. Watson, 2007, Introduction to Econometrics 2.A., Kapitel
11
Wooldridge, J.M., 2002, Econometric Analysis of Cross Section and Panel Data,
Kapitel 13, 15.1-15.6
5–45
Herunterladen