Einführung 1.1 Technische Vorbemerkungen 1.2 Inhaltliche

Werbung
Lernziele
Kapitel 1: Einführung
1.1 Technische Vorbemerkungen
• Was ist und wozu benötigt man die Ökonometrie?
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
• Wie rechnet man mit Vektoren und Matrizen?
1.3 Ökonometrie: Was, wozu und wie?
• Wie lassen sich Zufallsvariablen und ihre Verteilungen beschreiben?
1.4 Illustration
Anhang
A
Wiederholung: Lineare Algebra
B
Wiederholung: Statistik und Verteilungstheorie
C
Zusammenstellung von Annahmen
1.1
1.2
• Literatur: Marno Verbeek, 2008, A Guide to Modern Econometrics, third edi-
1.1 Technische Vorbemerkungen
tion, John Wiley & Sons Ltd., Chichester UK. Preis (neu): € 39,95 (Stand
• Vorlesung 2 SWS, Übung 2 SWS, Tutorien
Sept. 2009). Die Veranstaltung bezieht sich stark auf dieses Lehrbuch.
- Vorlesung, Mo und Mi 8:00 – 09:30
• Die Veranstaltung wird durch eine Klausur abgeschlossen. Hilfsmittel: Ta-
- Übung, 7 Parallelveranstaltungen, siehe Lehrstuhlwebsite
schenrechner, ggf. Wörterbuch, Formelsammlung wird bereitgestellt
- Tutorien: ab November 2010, verschiedene parallele Termine, wöchentlich, zur Klausurvorbereitung
• Auf die Endnote kann die Note einer freiwilligen Hausaufgabe zu 20 Prozent
angerechnet werden. Note verfällt nach dem SS 2011. Bearbeitung in Grup-
• Die Veranstaltung findet geblockt in der ersten Semesterhälfte statt. Dies hat
pen von 2-3 Personen ist möglich.
den Vorteil, dass die Klausur vorgezogen, bereits Anfang Januar (7.1.11)
Anmeldung bis 29.10.10. bei [email protected].
durchgeführt werden kann und dass eine weitere hierauf aufbauende
Ausgabe der Hausarbeitsthemen ab 09.11.10, Abgabe: bis 31.01.11.
Ökonometrieveranstaltung im WS belegt werden kann.
1.3
1.4
• Leistungs- und Prüfungsanforderungen
• Lerntipps: - Lerngruppe bilden
- alte Klausuren mit Musterlösung im Netz
- Veranstaltungen regelmäßig vor- und nachbereiten
- ca. 33 % wahr/falsch Fragen zu einzelnen Lerninhalten
- am Ende der Kapitel prüfen, ob Fragen offen geblieben sind
- ca. 67% offene Fragen zur Interpretation und Diskussion von Schätzergebnissen, kritische Diskussion der unterstellten Modelle
• Nicht geprüftes Lernziel: Anwenderkenntnis der Statistiksoftware Stata
- ermöglicht eigenes empirisches Arbeiten
- wichtig für empirische Abschlussarbeiten
- vertieft Verständnis für Anwendbarkeit der Methoden
• Im Rahmen des Tutoriums werden frühere Klausuraufgaben besprochen.
1.5
• Empfehlenswerte Literatur:
1.6
• Deutschsprachige Vorbereitungsliteratur bspw.:
– Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall,
– von Auer, Ludwig, 2007, Ökonometrie. Eine Einführung, Springer Verlag.
New Jersey.
– Gujarati, Damodar N., 2008, Basic Econometrics, 4th ed., McGraw Hill,
New York.
– Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and
Panel Data, MIT Press, Cambridge/Mass.
– Stock, James H. and Mark W. Watson, 2007, Introduction to Econometrics, 2. Auflage, Pearson, Boston.
– Wooldridge, Jeffrey M., 2009, Introductory Econometrics, 4. Auflage,
South-Western.
1.7
1.8
• Ziel:
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
• Gliederung:
- Vertiefung der Kenntnis ökonometrischer Methoden
Kapitel im Lehrbuch:
- Einführung in die Anwendung der Stata Software
1. Einführung und Wiederholung
1 & Appendix
- Einüben, empirische Ergebnisse zu interpretieren
2. Lineare Regression
2
- Erlernen, eigene und fremde Resultate kritisch zu bewerten
3. Interpretation und Vergleich von Regressionsmodellen
3
- Möglich: Erstellen einer eigenen empirischen Analyse im Rahmen
4. Heteroskedastie und Autokorrelation
4
5. Maximum Likelihood und 0/1 abhängige Variablen
6,7
der Hausaufgabe
1.9
1.10
(2) Beziehungen zwischen verschiedenen, typischerweise aggregierten
1.3 Ökonometrie: Was, wozu und wie?
ökonomischen Größen über einen Zeitraum (z.B. der Zusammenhang
• Definition 1: Econometrics is what econometricians do.
• Definition 2: Econometrics is the interaction of economic theory, observed
zwischen kurz- und langfristigen Zinssätzen).
(3) Beziehungen zwischen Größen, die disaggregierte Einheiten (z.B. Indi-
data, and statistical methods.
• Ziel: Beziehungen zwischen Größen (z.B. Bildung und Löhnen) überprüfen
und quantifizieren.
viduen, Haushalte, Unternehmen) zu einem Zeitpunkt beschreiben (z.B.
welchen Einfluss hat das Einkommen auf das Sparverhalten der Individuen). Modelle erklären den Unterschied zwischen Beobachtungseinhei-
• 4 Kategorien von Beziehungen zwischen Größen:
ten.
(1) Beziehungen zwischen vergangenen und gegenwärtigen Werten einer
(4) Beziehungen zwischen Merkmalen disaggregierter Einheiten, die über
einzelnen Größe, Zeitreihenmodelle (z.B. wie hängt die Zins- oder Ak-
einen Zeitraum (mindestens zwei Perioden) gemessen werden. Modelle
tienpreisentwicklung von ihrer Vergangenheit ab).
erklären Unterschiede zwischen Beobachtungseinheiten und Änderungen in deren Verhalten über die Zeit.
1.11
1.12
• Ökonometriker wählen eine Modellform und Vorgehensweise, um die jewei-
• Die Verfahren werden ebenfalls in anderen sozialwissenschaftlichen Diszip-
ligen Beziehungen empirisch zu untersuchen. Oft müssen die Daten be-
linen, wie Soziologie und Psychologie, in der Medizinforschung und in inge-
schafft werden (z.B. durch Erhebungen). Hauptaufgabe: geeignete Verfah-
nieurwissenschaftlichen Bereichen verwendet.
ren wählen und unterstellte Beziehungen durch Tests überprüfen.
• Wissenschaftlicher Fortschritt benötigt das empirische Testen von Hypothesen (siehe Karl Poppers kritischen Rationalismus). Ohne Empirie und – für
die Wirtschaftswissenschaften – Ökonometrie entwickelt sich der Wissensstand nicht weiter.
• Ökonometrische Verfahren nutzt nicht nur der Wissenschaft; sie sind Bestandteil vieler betriebs- und volkswirtschaftlicher Tätigkeiten, beispielsweise
in den Bereichen Marktforschung, Finanzmarktanalyse, Geldpolitik, Arbeitsmarkt- und Sozialpolitik, Makroökonomie.
1.13
1.14
• Eine solche Vergleichsstudie haben Riphahn / Eschelbach / Heineck / Müller
1.4 Illustration: Finanzieller Nutzen universitärer Ausbildung
• Vor dem Hintergrund der demographischen Entwicklung und der doppelten
Abiturjahrgänge muss politisch entschieden werden, ob und an welcher Stel-
auf Basis der Daten des Sozioökonomischen Panels (2001-2007) vorgenommen.
• Theoretisches Modell auf Basis der Mincer'schen Verdienstfunktion:
le zusätzliche Studienplätze bereit gestellt werden.
• Kosten und Nutzen des Studiums an Universitäten und Fachhochschulen
sind relevante Größen zur Steuerung zukünftiger Studierendenströme.
• Bei der Berechnung des Nutzens eines Studiums unterscheidet man die gesellschaftliche und die individuelle Perspektive. Letztere ist anhand eines
Vergleichs der Verdienstentwicklung im Lebenszyklus einfacher zu bewerten.
1.15
log ( wi ) = β0 + β1 educi + β2 expi + β3 expi2 + β4 Xi + ei .
wi
=
realer Stundenlohn von Person i
educi
=
Indikator des von i gewählten Bildungsweges
expi
=
Arbeitsmarkterfahrung von i, gemessen in Jahren
expi2
=
expi ⋅ expi
Xi
=
Vektor von Kontrollvariablen
1.16
ei
=
Restgröße
β0-β4
=
unbekannte Parameter.
Wenn β1 > 0 ist der Lohn höher bei höherer Bildung.
• Stichprobe: Wiederholte Beobachtungen von erwerbstätigen Personen mit
einem tertiären Bildungsabschluss, im Alter von 28 – 60 Jahren. 11.879
Personen-Jahr-Beobachtungen von 2614 verschiedenen Personen. 39,7 %
haben einen Fachhochschul- und 60,3 % einen Universitätsabschluss.
• Abhängige Variable: w = reale Bruttostundenlöhne (in 2005er Euro). Die
Verteilung unterscheidet sich bereits zwischen den beiden Gruppen (hier nur
Männer):
1.17
1.18
• Erklärende Variablen: Universitätsabschluss (ja/nein), Alter, Alter2, Alter3,
männliches Geschlecht, Teilzeit beschäftigt, befristet beschäftigt, im öffentlichen Dienst, verheiratet, nicht deutsch, sowie Betriebszugehörigkeitsdauer,
Universität (0/1) (β1)
Unternehmensgröße, Branche, Bundesland, Kalenderjahr.
Alter (β2)
Alter^2/100 (β3)
• Ergebnis einer linearen Schätzung für Männer und Frauen zusammen, nur
für Frauen und nur für Männer (weitere Koeffizienten wurden geschätzt,
Alter^3/1000
Mann (0/1)
Teilzeit beschäftigt (0/1)
aber hier nicht dargestellt):
Befristet beschäftigt (0/1)
Öffentlicher Dienst (0/1)
Verheiratet (0/1)
Hat nicht-deutsche Nationalität (0/1)
Konstante
N
R-squared
1.19
Männer und
Frauen
(1)
0.153***
(0.016)
0.246***
(0.060)
-0.493***
(0.140)
0.032***
(0.011)
0.166***
(0.019)
-0.050**
(0.021)
-0.171***
(0.025)
-0.010
(0.013)
0.026
(0.017)
-0.138**
(0.055)
-1.535*
(0.831)
11879
0.272
Frauen
Männer
(2)
0.192***
(0.025)
0.233**
(0.095)
-0.477**
(0.224)
0.031*
(0.017)
–
(3)
0.131***
(0.021)
0.254***
(0.077)
-0.501***
(0.179)
0.032**
(0.014)
–
0.002
(0.024)
-0.146***
(0.034)
-0.047**
(0.019)
-0.070***
(0.024)
-0.133
(0.090)
-1.219
(1.309)
4856
0.243
-0.126**
(0.050)
-0.191***
(0.033)
0.022
(0.017)
0.087***
(0.023)
-0.130*
(0.067)
-1.592
(1.093)
7023
0.254
1.20
• Interpretation: Ceteris paribus verdienen Männer ca. 13,1 % und Frauen ca.
Frauen:
19,2 % mehr, wenn sie einen Uni- statt einen FH-Abschluss haben.
3,4
• Es lässt sich anhand der linearen Regression prüfen, ob die Lohnentwick3,2
lungen im Lebenszyklus sich für die Absolventengruppen unterscheiden. Die
Schätzungen ergaben folgende mittlere Verläufe der logarithmierten Löhne
Log(Lohn)
im Lebenszyklus.
3,0
2,8
2,6
2,4
2,2
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
1.21
Männer:
Im Mittel verdienen FH-Absolventen bei Berufseintritt besser, werden dann
aber rasch überholt.
3,4
• Vieles ist bei der Interpretation der Ergebnisse zu beachten:
3,2
Log(Lohn)
1.22
3,0
a) heteroskedastische Standardfehler
2,8
b) korrekte Spezifikation der Schätzgleichung
2,6
c) Erklärungskraft des Modells
d) Selektion in die Stichprobe der Erwerbstätigen
2,4
e) Korrelation von "Uni-Abschluss" mit dem Störterm
2,2
f) Anteil der FH-Absolventen unter älteren Erwerbstätigen repräsentativ?
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
FH
Univ.
g) sonstiges?
(a) Die Vorhersagen wurden auf Basis von geschlechtsspezifischen Schätzungen erstellt. Hierbei wurde die Modellspezifikation um Interaktionsterme des Alterspolynoms dritter Ordnung mit der Variable "Universitätsabschluss" ergänzt.
(b) Die Graphiken zeigen die nach Einzelaltern vorhergesagten mittleren realen logStundenlöhne sowie zugehörige Konfidenzbänder am 90 Prozent Niveau.
1.23
• Lässt man solche Aspekte unberücksichtigt, ergeben sich oft falsche Interpretationen der empirischen Befunde.
1.24
• Die ökonometrische Methodenlehre zeigt, worauf es ankommt, vermittelt
das Werkzeug eigene Studien durchzuführen und die Kenntnis, kritisch mit
den Ergebnissen anderer umzugehen.
A. Anhang Wiederholung: Lineare Algebra
A.1 Terminologie
• Für unsere Zwecke ist ein Vektor eine Spalte von Zahlen (Spaltenvektor):
⎛ a1 ⎞
⎜ ⎟
⎜a ⎟
a=⎜ 2⎟
⎜ ⎟
⎜ ⎟
⎝ an ⎠
• Die Transponierte eines Vektors ist eine Reihe von Zahlen (Zeilenvektor):
a' = (a 1, a 2 ,…, a n )
• Eine Matrix ist ein rechteckiges, geordnetes Schema von Zahlen. In der Dimension n × k (n Reihen und k Spalten) wird sie wie folgt dargestellt:
1.25
⎛ a a … a1k ⎞
⎜ 11 12
⎟
⎜ a 21 a 22 … a 2k ⎟
A=⎜
⎟
⎜
⎟
⎜a a … a ⎟
⎝ n1 n2
nk ⎠
1.26
⎛ a a … a n1 ⎞
⎜ 11 21
⎟
⎜ a12 a 22 … a n2 ⎟
A' = ⎜
⎟
⎜
⎟
⎜a a … a ⎟
⎝ 1k 2k
nk ⎠
• Dabei gibt der erste Index jedes Matrixelementes aij an, dass das Element
• Bei quadratischen Matrizen ist n = k. Eine quadratische Matrix ist symmetrisch, wenn A = A ' . Eine quadratische Matrix ist eine diagonale Matrix, wenn
zur i-ten Zeile gehört, der zweite Index bezieht sich auf die j-te Spalte.
aij = 0 für alle i ≠ j . Jede diagonale Matrix ist auch symmetrisch. Eine Ein-
• Eine Matrix besteht aus k Spaltenvektoren a1 bis ak:
heitsmatrix I ist eine diagonale Matrix, bei der alle Elemente der Hauptdia-
A = [a1 a 2 … ak ]
gonalen gleich eins sind.
• Vertauscht man die Spalten und Reihen einer Matrix, so erhält man die
transponierte Matrix:
1.27
1.28
• Eine Matrix A mit den Dimensionen n × k und eine Matrix B mit den Dimensi-
A.2 Rechnen mit Matrizen
• Matrizen und Vektoren mit den gleichen Dimensionen können addiert und
subtrahiert werden. Wenn aij und bij die Elemente zweier n × k Matrizen A
onen k × m können multipliziert werden. Ihr Produkt ergibt eine Matrix der
Dimension n × m .
• Wenn k = 1, ist A = a ' ein Zeilen- und B = b ein Spaltenvektor:
und B sind, dann gilt:
A + B = C, wobei
cij = aij + bij
A − B = C, wobei
cij = aij − bij
AB = a 'b = ( a1,a2 ,…,an )
A +B = B+ A
⎛ b1 ⎞
⎜ ⎟
⎜ b2 ⎟ = a b + a b + … a b
1 1
2 2
n n
⎜ ⎟
⎜ ⎟
⎝ bn ⎠
a'b nennt man das Skalarprodukt (inneres Produkt) der Vektoren a und b.
( A + B ) ' = A '+ B' = B'+ A '
Zwei Vektoren a und b werden orthogonal genannt, wenn a'b = 0 . Außer
für den Nullvektor gilt für alle Vektoren a, dass a'a > 0 . Das äußere Produkt
eines Vektors ist aa' mit der Dimension n × n .
1.29
1.30
• Bei der Multiplikation einer Matrix A ( n × k ) mit einem Spaltenvektor b ( k × 1)
und beschreiben die inneren Produkte der Zeilen von A und der Spalten von
ergibt sich ein Spaltenvektor, c = Ab mit der Dimension n × 1. Die Elemente
B. Das Produkt kann nur bestimmt werden, wenn die Anzahl der Spalten
von c ergeben sich aus:
von A und der Zeilen von B übereinstimmen.
ci = ai1 b1 + ai2 b2 + … + aik bk
• Beispiel:
und stellen das innere Produkt jedes Zeilenvektors aus A mit dem Spaltenvektor b dar.
⎛1 2 3 ⎞
A=⎜
⎟,
⎝ 4 5 0⎠
• Bei der Multiplikation der Matrizen A ( n × k ) und B ( k × m ) ergibt sich eine
Matrix C = AB mit der Dimension ( n × m ) . Die Elemente von C sind bestimmt
durch
cij = ai1 b1j + ai2 b2 j +
so dass
⎛1 2 ⎞
⎜
B = ⎜ 3 4 ⎟⎟ ,
⎜0 5⎟
⎝
⎠
⎛ 7 25 ⎞
AB = ⎜
⎟
⎝ 19 28 ⎠
• Beachte, dass AB ≠ BA , z.B. wenn A ( n × k ) und B ( k × n ) ist, dann hat AB
die Dimension ( n × n ) und BA die Dimension ( k × k ) . In unserem Beispiel
+ aik bkj
ergibt sich
1.31
1.32
⎛ 9 12 3 ⎞
BA = ⎜⎜ 19 26 9 ⎟⎟
⎜ 20 25 0 ⎟
⎝
⎠
A.3 Eigenschaften von Matrizen und Vektoren
• Die Linearkombination von Vektoren a1 bis ak mit Skalargewichten c1,…,ck
ergibt den Vektor c1a1 + c2 a2 + … + ck ak abgekürzt Ac, mit
• Es gilt ( AB ) ' = B' A '
A = [a1 … ak ] und c = ( c1 …ck ) ' .
• Da ( A ' ) ' = A folgt, dass A ' A und AA ' existieren und symmetrisch sind.
• Multipliziert man eine Matrix A mit einem Skalar c, so wird jedes Element
von A mit c multipliziert. Ein Element von cA ist caij.
• Eine Gruppe von Vektoren ist linear abhängig, wenn einer der Vektoren als
Linearkombination der anderen beschrieben werden kann, bzw. wenn gilt
c1 a1 + c2 a2 + … + ck ak = 0 .
• Eine Gruppe von Vektoren ist linear unabhängig, wenn dieser Zusammenhang nur für c1 = c2 =
= ck = 0 gilt, d.h. Ac = 0 nur für c = 0.
1.33
1.34
• Die Menge aller durch Linearkombination der Vektoren a1,…,ak erzeugbaren
• Entspricht der Spaltenrang der Anzahl der Spalten, so hat die Matrix vollen
Vektoren bildet einen Vektorraum. Sind die Vektoren a1,…,ak linear abhän-
Rang. Der Zeilenrang einer Matrix entspricht der Dimension des durch die
gig, so kann man die Anzahl der Vektoren reduzieren, ohne den Vektorraum
Zeilenvektoren aufgespannten Raumes und ist mit dem Spaltenrang iden-
zu beeinflussen. Ein Vektorraum hat die Dimension n, wenn er n linear un-
tisch. Beide definieren den Rang der Matrix, wobei gilt
abhängige Vektoren aufnimmt und wenn Gruppen von mehr als n Vektoren
rank ( A ' ) = rank ( A ' A ) = rank ( AA ' )
in diesem Raum linear abhängig sind.
• Ähnlich definiert man den Spaltenraum einer Matrix als den Raum, der
durch ihre Spalten aufgespannt wird. Der Spaltenrang einer Matrix ist die
Dimension des durch ihre Spalten aufgespannten Raumes bzw. die Maximalzahl linear unabhängiger Spaltenvektoren. Dabei kann der Spaltenrang
nie die Anzahl der Spalten übertreffen.
1.35
1.36
A.4 Inverse Matrizen
• Die Matrix B, für die in Bezug auf die Matrix A gilt, dass AB = I und BA = I
⎛ a11
⎜
⎜0
⎜0
⎝
0
a22
0
ist, heißt Inverse der Matrix A. A hat nur dann eine Inverse, wenn A quadratisch ist und vollen Rang hat. In diesem Fall nennt man A invertierbar oder
A −1 A = I
und
0
−1
22
a
0
0 ⎞
⎟
0 ⎟
−1 ⎟
a33
⎠
• Sonst am Beispiel einer 2 × 2 Matrix
−1
⎛ a11 a12 ⎞
⎛ a22 − a12 ⎞
1
⎜
⎟ =
⎜
⎟,
a
a
−a21 a11 ⎠
a
a
−
a
a
⎝ 21 22 ⎠
11 22
12 21 ⎝
nicht-singulär. Man definiert B = A-1 so, dass
AA−1 = I
−1
−1
⎛ a11
0 ⎞
⎜
⎟
0 ⎟ = ⎜0
⎜0
a33 ⎟⎠
⎝
wobei a11a22 – a12a21 als Determinante von A, A , bezeichnet wird. Die De-
• Dies impliziert, dass A = B-1 und es gilt ( A−1 ) = A .
−1
terminanten singulärer Matrizen haben den Wert Null.
• Wenn A-1 nicht existiert, ist A singulär.
• Inverse Matrizen sind nützlich, um Gleichungssysteme der Form Ac = d
• Inverse Matrizen werden wie folgt berechnet: Für diagonale Matrizen gilt
nach c aufzulösen, wobei A eine
(n × n)
Matrix ist und c und d n-
dimensionale Spaltenvektoren sind. Wenn A invertierbar ist, gibt
1.37
A−1Ac = c = A−1d
1.38
A.5 Weitere Matrixeigenschaften
die Lösung für die n Unbekannten des Vektors c. Ist A nicht invertierbar, so
gibt es entweder mehrere Lösungen für c oder keine.
idempotent, wenn PP = P.
• Es gilt ( A−1 ) ' = ( A ' ) und ( AB ) = B−1A−1
−1
• Eine Matrix P ist symmetrisch, wenn P = P' . Eine Matrix P heißt
−1
• Eine symmetrische und idempotente Matrix P dient als Projektionsmatrix.
Teilt man einen Vektor x mithilfe von P auf in einen Projektionsvektor PX
und einen Residualvektor x – PX, x = PX + (x–PX), so liegt PX im Spaltenraum von P, während x – PX zu allen Vektoren im Spaltenraum von P orthogonal ist.
• Wenn A eine symmetrische n × n Matrix und c ein Spaltenvektor ist, dann
bezeichnet man einen Skalar λ, der Ac = λc erfüllt, als Eigenwert. Allgemein gibt es n Lösungen λ1,…, λn , die jeweils mit n Vektoren c1,…,cn, den
1.39
1.40
Eigenvektoren, korrespondieren. Die Eigenvektoren sind orthogonal, d.h.
ci 'c j = 0 für alle i ≠ j .
⎡2 − 3 ⎤
⎢
⎥
• Beispiel: A = ⎣3 2 ⎦
⎛ b1 ⎞
⎡ 2 − 3 ⎤ ⎛ b1 ⎞
b'Ab = ( b1b2 ) ⎢
⎥ ⎜ b ⎟ = [b1 2 + b2 3 − 3b1 + 2b2 ] ⎜ b ⎟
3
2
⎣
⎦⎝ 2⎠
⎝ 2⎠
• Ist ein Eigenwert Null, dann erfüllt der zugehörige Eigenvektor Ac = 0. Das
impliziert, dass A singulär ist und keinen vollen Rang hat. Der Rang einer
= b1 2b1 + b2 3b1 + b2b1 ( −3 ) + b2 ⋅ b2 ⋅ 2
symmetrischen Matrix entspricht der Anzahl der von Null verschiedenen Ei-
= 2b12 + 2b22 > 0
genwerte.
• Eine symmetrische Matrix A ist positiv definit, wenn alle Eigenwerte positiv
• Die Determinante einer symmetrischen Matrix A ist das Produkt der n Ei-
(> 0) sind. A ist positiv semidefinit, wenn alle Eigenwerte nicht negativ
genwerte. Sie ist positiv, wenn A positiv definit ist und Null, wenn A singulär
( ≥ 0 ) sind.
ist.
• Positiv definite Matrizen sind invertierbar.
• Für eine positiv definite Matrix A gilt für jeden Vektor x: x' Ax > 0
1.41
x 'i β = β1 + β2 xi2 +
A.6 Ableitungen und andere Manipulationen
• Wenn c und x n-dimensionale Spaltenvektoren sind, ist c ' x ein Skalar. Ist
c ' x eine Funktion des Vektors x, lässt sich nach jedem der Elemente von x
∂c'x
ableiten:
= c und ergibt den Spaltenvektor c.
∂x
• Allgemein gilt, wenn A eine Matrix ist:
1.42
∂ Ax
= A'
∂x
• Die Operation
⎛ xi1 ⎞
⎜ ⎟
x
xi xi' = ∑ ⎜ i2 ⎟ ( xi1,xi2 ,…,xiK )
∑
⎜
⎟
i =1
i =1
⎜ ⎟
⎝ xiK ⎠
N
N
⎛ N 2
xi1
⎜∑
i =1
⎜
⎜
=⎜
⎜
⎜
⎜ N
⎜ ∑ xi1xiK
⎝ i =1
∂ x ' Ax
• Wenn A symmetrisch ist:
= 2Ax
∂x
∂ x ' Ax
• Ist A nicht symmetrisch, so folgt
= ( A + A ') x
∂x
• Wenn xi = ( xi1,xi2 ,…,xiK ) ' mit xi1 ≡ 1 und β = ( β1,β2 ,…,βK ) ' , dann
1.43
+ βK xiK
N
∑x
i =1
N
i2
xi1
N
∑x
i =1
iK
xi1
∑x
i =1
2
i2
N
∑x
i =1
2
iK
⎞
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎟
⎠
1.44
• Wenn
ergibt eine symmetrische K × K Matrix.
N
∑x x'
i =1
• Der Vektor
i
i
invertierbar ist, also vollen Rang besitzt, existiert eine eindeu-
tige Lösung. Wenn die Matrix keinen vollen Rang hat, sind ihre Spalten und
⎞
⎛
⎜ ∑ x i1y i ⎟
⎟
⎜ i =1
⎟
⎜N
N
⎜ ∑ x i2 y i ⎟
⎟
∑ xi yi =⎜ i=1
i =1
⎟
⎜
⎟
⎜
⎟
⎜N
⎜ ∑ x iK y i ⎟
⎠
⎝ i =1
N
Zeilen linear abhängig.
• Überträgt man die Vektoren xi in Matrixnotation mit
⎛ x11 x12
⎜
X=⎜
⎜
⎝ xN1 xN2
und
hat K Elemente und die Dimension K × 1.
x1K ⎞
⎟
⎟
xNK ⎟⎠
y = ( y1,y2 ,...,yN ) ' ,
so
lässt
sich
abkürzen
N
X ' X = ∑ xi xi '
und
i =1
N
N
⎛ N
⎞
• Daher besteht das System ⎜ ∑ xi x 'i ⎟ b = ∑ xi yi aus K Gleichungen mit K uni =1
⎝ i =1
⎠
bekannten Werten b. b hat die Dimension K × 1.
X ' y = ∑ xi yi .
i =1
• X' X ist invertierbar, wenn X vollen Rang besitzt und seine Spalten (unsere
späteren Regressoren) nicht linear abhängig sind.
1.45
1.46
B. Wiederholung: Statistik und Verteilungstheorie
B.1 Diskrete und stetige Zufallsvariablen
• Diskrete Zufallsvariablen:
− Wahrscheinlichkeitsfunktion:
f(y) = P {Y = y}
− Es gilt:
∑f (y ) = 1
j
j
− Erwartungswert:
E { y } = ∑ yj ⋅ f ( yj )
j
• Stetige Zufallsvariablen
− Wahrscheinlichkeitsdichtefunktion: f ( y ) ≥ 0
− Es gilt:
b
P { a ≤ Y ≤ b } = ∫ f ( y ) dy
a
1.47
1.48
∞
∫ f ( y ) dy = 1
− Ebenfalls:
B.2 Erwartungen und Momente
−∞
• Der Erwartungswert (Moment erster Ordnung) ist ein linearer Operator.
− Verteilungsfunktion (kumulative Dichtefunktion):
F(y) = P { Y ≤ y } =
Wenn X, Y Zufallsvariablen sind und a, b Konstanten, dann gilt
y
E {aY + bX} = aE {Y} + b E { X} .
∫ f ( t ) dt
−∞
− Es gilt: f(y) = F '(y)
• Bei nichtlinearen Funktionen, g, gilt nicht E { g ( Y ) } = g (E { Y } ) .
P {a ≤ Y ≤ b} = F(b) − F(a)
und
− Erwartungswert (oder Mittelwert): μ = E { Y } =
• Jensens Ungleichheit besagt für konkave g
∞
∫ y ⋅ f(y)dy
E { g ( Y ) } ≤ g ( E {Y } ) . Allgemein gilt E { g ( Y ) } =
−∞
( d.h. g"(Y) < 0 ) ,
dass
∞
∫ g ( y ) f(y)dy.
−∞
• Die Varianz ist ein Streuungsmaß von Zufallsvariablen, genannt zentrales
Moment zweiter Ordnung:
σ2 = V { Y } = E
{ ( Y − μ ) } = E { Y } − 2 E{Y} ⋅ μ + μ
2
2
2
= E { Y2 } − μ2
1.49
(σ ist die Standardabweichung einer Zufallsvariablen, μ ist der Erwartungswert).
1.50
B.3 Multivariate Verteilungen
• Gemeinsame Dichtefunktion zweier Zufallsvariablen:
• Varianz diskret verteilter Zufallsvariablen:
V{ Y } =
∑ (y
j
j
P { a1 < Y < b1,a2 < X < b2 } =
− μ )2 f ( y j )
∞
a1
a2
∫ ∫ f ( y, x ) dy dx
P { a1 < Y < b1, a2 < X < b2 } = P { a1 < Y < b1 } P { a2 < X < b2 }
∫ ( y − μ ) f ( y ) dy
2
• Marginale Verteilung von Y:
−∞
• Rechenregel: V { aY + b } = a V { Y }
2
∞
f(y) =
• Zur besseren Beschreibung der Verteilung einer Zufallsvariablen: k-tes zentk
rales Moment, E ( Y − μ ) , k = 1,2,3,…
{
b2
• Sind Y und X unabhängig, so gilt f ( y,x ) = f(y) ⋅ f(x) und
• Varianz stetig verteilter Zufallsvariablen:
V{ Y } =
b1
}
1.51
∫ f ( y,x ) dx
−∞
so dass E {Y } =
∞
∞
−∞
−∞
∫ y f(y)dy = ∫
∞
∫ y f ( y,x ) dx dy
−∞
1.52
• Für den Vektor Y = ( Y1,…,YK ) gilt:
'
• Kovarianz als Maß linearer Abhängigkeit:
σyx = cov { Y, X } = E
{ ( Y − μ ) ( X − μ ) },
y
⎛ E {Y1} ⎞
⎜
⎟
E {Y} = ⎜
⎟
⎜ E {Y } ⎟
K ⎠
⎝
μy = E {Y}, μx = E { X}
x
• Korrelationskoeffizient:
ρyx =
cov { Y, X }
V{ X } ⋅ V{ Y }
=
σyx
σy σx
,
− 1 ≤ ρyx ≤ 1
und
⎛ V {Y1}
⎜
V {Y} = ⎜
⎜ cov {Y ,Y }
K
1
⎝
• X,Y sind unkorreliert, wenn cov{Y,X} = 0
• Rechenregeln, wenn a,b,c,d Konstante und X, Y Zufallsvariablen sind:
cov { aY + b, cX + d } = ac cov { Y, X }
cov { Y1,YK } ⎞
⎟
⎟
V {YK } ⎟⎠
• Die Kovarianzmatrix des Vektors Y ist symmetrisch. Für lineare Kombinati-
cov { aY + bX, X }
= a cov { Y, X } + b cov { X, X } = a cov { Y, X } + b V { X }
V { aY + bX }
= a2 V { Y } + b2 V { X } + 2ab cov { Y, X }
onen RY, wobei R die Dimension J × K hat und nicht-stochastisch ist, gilt
V { RY } = JxK
R
V {Y }
KxK
R
'
KxJ
1.53
1.54
• Wenn E{Y} = 0, sind zwei Zufallsvariablen X,Y unkorreliert, wenn gilt
B.4 Bedingte Verteilungen
• Es gilt folgender Zusammenhang zwischen bedingter und gemeinsamer
f ( y,x )
Verteilung von Zufallsvariablen X und Y: f ( y X = x ) = f ( y x ) =
f (x)
• Für unabhängige Zufallsvariablen X und Y gilt: f ( y x ) = f ( y )
= f (x y) ⋅ f (y)
independent", wenn gilt E{Y⎮X} = E{Y} = 0. Bei mittlerer bedingter Unab-
hängigkeit gilt für jede Funktion g(X), dass E{Y g(X)} = 0.
)
∫(
= E {Y x } − (E {Y x } )
2
= E ⎡⎣ X ( Y − E ( Y ) ) − E ( X ) ( Y − E ( Y ) ) ⎤⎦
• Wenn E{Y} = 0, sind zwei Zufallsvariablen genau dann "conditional mean
• Für bedingte Erwartungswerte gilt: E {Y X = x } = E {Y x } = ∫ y f ( y x ) dy
y − E {Y x }
da cov{ X,Y} = E ⎡⎣( X − E ( X ) ) ( Y − E ( Y ) ) ⎤⎦
= E ⎡⎣ X ( Y − E ( Y ) ) ⎤⎦ − E ( X ) ⋅ E ( Y − E ( Y ) )
• Außerdem gilt allgemein: f ( y,x ) = f ( y x ) ⋅ f ( x )
• Die bedingte Varianz ist: V { Y x } =
E{YX} = cov{Y,X} = 0,
2
f ( y x ) dy
• Statistische Unabhängigkeit ist von allen 3 Maßen des Zusammenhangs
2
zwischen X und Y (Unkorreliertheit, mittlere bedingte Unabhängigkeit, statis-
1.55
1.56
tische Unabhängigkeit) das stärkste. Sie impliziert, dass E{g1(X)g2(Y)} =
E(g1(X)) ⋅ E(g2(X)) für alle Funktionen g1 und g2. Bei statistischer Unabhängigkeit sind beispielsweise auch die höheren Momente von X und Y voneinander unabhängig.
B.5 Spezielle Verteilungen
• Wenn Y ~ N ( μ, σ
2
⎧⎪ 1 ( y − μ )2 ⎫⎪
exp ⎨−
⎬
2
2πσ2
⎪⎩ 2 σ
⎪⎭
1
) dann f ( y ) =
• Wenn μ = 0 und σ2 = 1, z.B. für Z =
• Zufallsvariablen, die statistisch unabhängig sind, sind auch "conditional
mean independent", Zufallsvariablen, die "conditional mean independent"
sind, sind unkorreliert, aber nicht notwendigerweise anders herum (Ausnahme: Normalverteilung).
mit f ( z ) = φ ( z ) =
⎧ 1 ⎫
⋅ exp ⎨− z2 ⎬
2π
⎩ 2 ⎭
1
Y −μ
, dann ist Z standardnormalverteilt
σ
• Wenn Y~ N ( μ, σ2 ) , dann aY + b ~ N ( aμ + b,a2 σ2 )
• Verteilungsfunktion (kumulative Dichtefunktion)
• Aus E(X⎮Y) = 0 folgt nicht E(Y⎮X) = 0.
⎧Y − μ y − μ⎫
⎛y−μ⎞
P {Y ≤ y} = P ⎨
≤
⎬ = Φ⎜
⎟=
σ ⎭
⎩ σ
⎝ σ ⎠
• Wenn X statistisch unabhängig von Y ist, dann auch Y von X.
y −μ
σ
∫ φ(t)dt .
−∞
• Wegen Symmetrie: Φ ( y ) = 1 − Φ( − y) .
1.57
1.58
ξ=
• Sind zwei Zufallsvariablen Y, X bivariat normalverteilt, so schreibt man
J
∑Y
j =1
⎛ ⎛ μy ⎞ ⎛ σ2y σyx ⎞ ⎞
⎟⎟
⎟ , ⎜⎜
2 ⎟
⎟
⎝ ⎝ μx ⎠ ⎝ σyx σx ⎠ ⎠
( Y, X ) ~ N ⎜⎜ ⎜
2
j
Chi-quadrat verteilt mit J Freiheitsgraden: ξ ~ χ2J
• Verallgemeinerung 1: Wenn Y1,…,YJ unabhängig und normalverteilte Zufallsvariablen mit Mittelwert μ und Varianz σ2 sind, folgt
• In diesem Fall sind auch marginale und bedingte Verteilungen normal.
( Y − μ)
2
J
ξ=∑
• Nur bei bivariater Normalverteilung folgt aus σyx = 0 , dass Y und X unabhängig sind und damit, dass ρyx = 0 .
j =1
• Verallgemeinerung
2:
Wenn
Y
j
σ2
ein
~ χ2J
Vektor
von
J
Zufallsvariablen
Y = ( Y1,...,YJ ) ist, die gemeinsam normalverteilt sind mit dem Mittelwertvek'
• Lineare Funktionen normalverteilter Zufallsvariablen sind normalverteilt:
aY + bX ~ N ( aμy + bμx , a2 σ2y + b2 σ2x + 2abσxy )
tor μ und der nicht singulären Kovarianzmatrix Σ, dann
• Wenn Y1,…,YJ unabhängig und standardnormalverteilte Zufallsvariablen
sind, dann ist
1.59
ξ = ( Y − μ ) ' Σ−1 ( Y − μ ) ~ χ2J
• Die Chi-Quadrat-Verteilung mit J Freiheitsgraden hat E ( ξ ) = J und V ( ξ ) = 2J.
1.60
• Wenn X ~ N(0,1), ξ ~ χ2J und X und ξ unabhängig sind, dann hat t =
X
ξ/J
• Wenn log Y ~ N ( μ, σ2 ) , dann folgt Y > 0 der Lognormalverteilung. Diese
wird häufig genutzt, um Einkommens- oder Renditeverteilungen zu be1 ⎫
⎧
schreiben. Es gilt E { log Y} = μ , aber E {Y} = exp ⎨μ + σ2 ⎬ .
2 ⎭
⎩
eine t-Verteilung mit J Freiheitsgraden.
• Wenn J → ∞, konvergiert die t-Verteilung zur Normalverteilung.
• Wenn ξ1 ~ χJ21 , ξ2 ~ χJ22 und die beiden Zufallsvariablen unabhängig sind,
ξ /J
dann hat f = 1 1 ~ FJ1J2 eine F-Verteilung mit (J1, J2) Freiheitsgraden.
ξ2 / J2
• Für J1 = 1 ist ξ1 eine quadrierte, normalverteilte Zufallsvariable, z.B. ξ1 = X2 ,
und es ergibt sich
⎛ X
t =⎜
⎜ ξ /J
⎝ 2 2
2
2
⎞
ξ1
~ F1,J2
⎟ =
⎟
/ J2
ξ
2
⎠
1.61
C. Zusammenstellung von Annahmen
1.62
A8
xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7)
A9
V {ε x} = σ2 Diag{ hi2 } = σ2 Ψ
A1
E{εi } = 0 i = 1,2,...N
A2
{x ,… x } und {ε ,… ε } sind unabhängig
A 10
E{ε⎮X} = 0 stärker als A 7, schwächer als A 8, A 2.
A3
V { εi
A 11
εt ~ IID (0, σ2)
A4
cov { εi , εj } = 0
A 12
εt ist über die Zeit unkorreliert, mit Erwartungswert 0.
A5
ε ~ N (0,σ2 IN)
A 5'
εi ~ NID (0,σ2)
A6
1 N
∑ xi x 'i
N i =1
konvergiert gegen eine finite nichtsinguläre Matrix Σxx.
A7
E{xi εi} = 0
Unkorreliertheit
1
N
1
}=σ
2
N
i = 1,2,…N
i,j = 1,…N, i ≠ j
1.63
1.64
Literatur:
Verbeek, 2008, Kapitel 1 und Appendix A und B.
Greene, 2008, Appendix A und B
Riphahn, R.T., M. Eschelbach, G. Heineck und S. Müller, 2010, Kosten und Nutzen der Ausbildung an Tertiärbildungsinstitutionen im Vergleich, Perspektiven
der Wirtschaftspolitik.
Wooldridge, 2009, Appendix A - D
1.65
Lernziele Kapitel 2:
Kapitel 2: Einführung in das lineare Regressionsmodell
2.1 Lineare Regression aus algebraischer Sicht
• Wie wird der Kleinstquadrateschätzer abgeleitet?
2.2 Das lineare Regressionsmodell
• Was sind seine Eigenschaften, welche Annahmen werden gemacht?
2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben
• Wie können wir die Erklärungskraft eines Regressionsmodells messen?
2.4 Schätzgüte
• Wie lassen sich Hypothesen testen?
2.5 Hypothesentests
• Was ist die Bedeutung von Multikollinearität?
2.6 Asymptotische Eigenschaften des Kleinstquadrateschätzers
• Wann können wir präzise Vorhersagen machen?
2.7 Illustration
2.8 Multikollinearität
2.9 Vorhersage
2.1
2.2
yi − ⎡⎣β1 + β2 xi2 + … + βK xiK ⎤⎦ = yi − xi ' β .
2.1 Lineare Regression aus algebraischer Sicht
(2.2), (2.3)
• Ausgangssituation: Information über N Individuen zu Stundenlöhnen (y) und
• Die Approximation von yi durch die Linearkombination xi 'β ist dann gut,
andere Merkmale, z.B. Geschlecht, Alter, Ausbildung (x2, x3,…, xK). Wie lässt
wenn diese Differenz klein ist. Das Kleinstquadrateverfahren sucht diejeni-
sich der Zusammenhang zwischen Stundenlöhnen und Merkmalen be-
gen Werte für β , die diese Differenz in quadrierter Form minimieren:
( )
schreiben? Welche Linearkombination von x2,…, xK und einer Konstanten
ergibt eine gute Approximation von y?
(2.1)
xiK ) '
(
2
(2.4)
)
und β = β1,…, βK ' .
• Wenn
• Dann können wir abkürzen:
N
∑xx'
i =1
2.3
i
i
(
)
−2∑ xi yi − xi ' β = 0
(2.5)
N
⎛ N
⎞
⇔ ⎜ ∑ xi x 'i ⎟ β = ∑ xi yi
i =1
⎝ i =1
⎠
(2.6)
i =1
• Wir indexieren mit i = 1, 2,…, N und fassen in Vektoren zusammen:
xi3
i =1
)
()
N
xi = (1 xi2
(
• Wir leiten S β nach β ab und erhalten K Normalgleichungen:
• Wenn β1,…, βK Konstanten sind, könnte das so aussehen:
β1 + β2 x2 + … + βK xK .
N
S β ≡ ∑ yi − x 'i β
invertierbar ist, ergibt dies eine eindeutige Lösung für β :
2.4
−1
⎛ N
⎞
b = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
N
∑xy
i =1
i
(2.7)
i
()
• Die hinsichtlich der Minimierung von S β beste lineare Approximation von y
sowie S(b) = ∑ ei2 , die Summe der quadrierten Residuen.
• Aus der Normalgleichung ergibt sich
N
durch x2, x3, …, xk plus Konstante lautet: ŷi = xi 'b .
(K × K )
Matrix
i =1
N
∑xx'
i =1
i
i
invertierbar ist, kann keiner der xik Werte durch eine Linearkombination der
anderen x-Werte bestimmt werden.
das
Residuum
i
i
• Wenn x1 = 1 (die Konstante) folgt
i
definieren
als
ei = yi − yˆ i = yi − xi 'b ,
dann lässt sich umformulieren yi = yˆ i + ei = xi 'b + ei
(2.8)
=0
(2.10)
N
∑e
i
= 0 , d.h. das mittlere Residuum ist 0.
Da yi = x 'i b + ei , folgt für die mittlere Beobachtung
y = x 'b
ei
i
i =1
d. h. der Vektor der Residuen ist orthogonal zum x-Vektor.
ne allgemeine Interpretation.
wir
i
i =1
• Da die Werte von b nur für die Stichprobe berechnet wurden, haben sie kei-
• Wenn
N
∑ x ( y − x ' b) = ∑ x e
• Annahme der Nicht-Multikollinearität: Wenn die
(2.9)
i =1
y=
(mit
1
⋅ ∑ yi ,
N
x=
1
⋅ ∑ xi ) .
N
(2.11)
Für die mittlere Beobachtung gibt es keine Abweichung zwischen Vorhersage und beobachtetem Wert.
2.5
2.6
• Im einffachsten Fall betrrachten wir
w einen Regress
sor (x) un
nd eine K
Konstante
e,
• Man erhält die beste lineare Approximation von y durch x und eine Konstan-
so dass für jede
es i nur ein
e y (z.B
B. Stunde
enlohn) und eine Variable
V
x (z.B. AlA
ter) bek
kannt sin
nd, was sich zweid
dimension
nal abbild
den lässtt:
te, indem man die Summe der quadrierten Residuen minimiert.
• In der Graphik sind das die quadrierten vertikalen Abstände zwischen den
• Abb. 2..1 Einfacche lineare Regression: Pu
unktwolke
e und ges
schätzte Gerade
Punkten und der Regressionsgeraden.
• Alle vorhergesagten Werte von y liegen auf der Regressionsgeraden.
• Wenn β aus zwei Unbekannten besteht, lässt sich ableiten:
(
)
N
(
S β1, β2 = ∑ yi − β1 − β2 xi
(
i =1
∂S β1, β2
∂β1
(
∂S β1, β2
∂β2
2
2.7
) = −2
∑(y − β
N
i
i =1
) = −2
1
)
)
N
i
i
(2.12)
− β2 xi = 0
∑ x (y − β
i =1
2
1
)
− β2 xi = 0
(2.13)
(2.14)
2.8
• Hinweis: Erweitert man Zähler und Nenner von (2.16) mit
• Aus (2.13) folgt
b1 =
1 N
1 N
yi − b2 ∑ xi = y − b2 x
∑
N i =1
N i =1
(2.15)
sich das Verhältnis der Stichprobenkovarianz von x und y zur Stichprobenvarianz von x.
• b2 lässt sich wie folgt aus (2.14) und (2.15) bestimmen:
N
⎛
N
N
∑ x y − b ∑ x − ⎜⎝ ∑ x
i
i =1
i
1
i
i =1
i =1
2
i
• Frage: Was ergibt sich aus (2.15) für das mittlere Residuum?
⎞
⎟ b2 = 0
⎠
• Beispiel: Stichprobe von 3294 jugendlichen Erwerbstätigen aus den USA
⎛ N
⎞
⇔ ∑ xi yi − ( y − b2 x ) ∑ xi − ⎜ ∑ xi2 ⎟ b2 = 0
i =1
i =1
⎝ i =1 ⎠
N
N
von 1987, davon 1569 Frauen. Der mittlere Stundenlohn für Männer ist $
⎛ N
⎞
⇔ ∑ xi yi − N ⋅ x ⋅ y − b2 ⎜ ∑ xi2 − N x2 ⎟ = 0 ,
i =1
⎝ i =1
⎠
6,31 und für Frauen $ 5,15. Die Regression der Stundenlöhne auf eine
N
N
[da N ⋅ x = ∑ xi ]
i =1
Dummyvariable (xi) für das Geschlecht (1 = männlich, 0 = weiblich) ergibt:
ŷi = 5,15 + 1,17xi
N
⇔ b2 =
∑ ( x − x )( y − y )
i
i =1
i
N
(2.16)
∑(x − x)
i =1
2
i
2.9
• Interpretation: Approximation des Lohnes für Frauen: $ 5,15 und für Männer
5,15 + 1,17 = $ 6,31. Dies entspricht den beobachteten Mittelwerten, da
N
b1 = yf und b2 = ym − yf , mit ym =
∑x y
i =1
N
i
i
∑x
i =1
N
und yf =
i
∑ (1 − x ) y
i =1
N
i
i
i =1
x1K ⎞ ⎛ x '1 ⎞
⎟ ⎜ ⎟
⎟ = ⎜ ⎟,
xNK ⎟⎠ ⎜⎝ x 'N ⎟⎠
2.10
• Damit:
( ) (
)(
)
∂S ( β )
= −2 ( X ' y − X' Xβ ) = 0
∂β
S β = y − Xβ ' y − Xβ = y ' y − 2y ' Xβ + β ' X' Xβ
⇔ b = ( X ' X ) X' y ,
−1
∑ (1 − x )
i
(2.17)
(2.18)
(2.19)
vorausgesetzt, X’X ist invertierbar.
• Wir benutzen gelegentlich folgende abkürzende Schreibweise:
⎛ 1 x12
⎜
X =⎜
N×K
⎜1 x
N2
⎝
1
, so ergibt
N −1
• Wir können y zerlegen:
⎛ y1 ⎞
⎜ ⎟
y =⎜ ⎟
N×1
⎜y ⎟
⎝ N⎠
y = Xb + e
N×1
N×K K ×1
(2.20)
N×1
• Die Bedingung erster Ordnung (2.18) fordert
X'(y − Xb) = 0
2.11
⇔
X' e = 0 ,
N×K K ×1
(2.21)
2.12
d.h. jede Spalte von X ist orthogonal (linear unabhängig) zum Vektor der Residuen.
• Hinweis:
Px Px = Px und
Mx Mx = Mx
aber wegen Orthogonalität Mx Px = 0
• Es lässt sich umformen:
• Letztlich sind also ŷ und e, sowie X und e orthogonal.
y = Xb + e = X(X' X) X' y + e = yˆ + e
−1
(2.22)
⇒ ŷ = Xb = X(X' X)−1 X' y = Px y .
• Die Matrix Px ≡ X(X ' X)−1 X' wird als Projektionsmatrix beschrieben, da sie
den Vektor y auf den Spaltenraum von X projiziert. Das Residuum e ist
orthogonal zur Projektion von y, X b:
e = y – X b =(I – Px) y = Mx y
• e repräsentiert die Projektion von y auf einen Vektorraum, der orthogonal zu
dem ist, den die Spalten von X aufspannen.
2.13
• Meist betrachtet man xi als deterministisch, nicht-stochastisch, wie in einem
2.2 Das lineare Regressionsmodell
• Ziel der Analyse ist es normalerweise, allgemeine Aussagen über Zusammenhänge zwischen Variablen abzuleiten, nicht y zu approximieren.
yi = β1 + β2 xi2 + ... + βK xiK + εi
(2.24)
yi = xi ' β + εi
(2.25)
• yi, xi sind beobachtbare Variablen, εi ist ein unbeobachtbarer Störterm. β
sind die unbekannten, wahren Bevölkerungsparameter. Da wir die Daten
nur für eine Zufallsstichprobe vorliegen haben, betrachten wir yi und εi immer
und xi manchmal als Zufallsvariablen. In Matrixschreibweise:
y = Xb + ε
N×K K ×1
N×1
Laborexperiment fest vorgegeben. Jede neue Stichprobe hätte die gleichen
x Werte und würde sich nur durch die Werte für εi und yi unterscheiden.
• Man unterstellt Zufallsstichproben, die Fehlerterme werden unabhängig für
• Man unterstellt ein statistisches Modell, das für die Grundgesamtheit gilt:
N×1
2.14
(2.26)
2.15
jede Beobachtung aus der Bevölkerungsverteilung gezogen.
• Gelegentlich betrachtet man die Werte für xi als stochastisch. Die Zufallsziehung betrifft dann (xi,εi) oder (xi,yi) und es müssen Annahmen dazu getroffen
werden, ob die Verteilung der εi von X abhängt.
• Eine Annahme an unser statistisches Modell (2.25) besagt, dass die xVariablen exogen sind: E {εi | xi } = 0 , bei jeder Kombination erklärender Variablen ist der erwartete Wert des Störterms Null. Daher folgt:
2.16
E { yi xi } = x 'i β
(2.27)
• Die Koeffizienten βk beschreiben die Änderung im Erwartungswert von y,
wenn xik sich ändert und die anderen Werte von xi konstant bleiben (ceteris
• b ist ein Vektor von Zufallsvariablen, da es über eine Stichprobe bestimmt
wurde. Es approximiert den Vektor der wahren Werte β. Uns interessiert die
Qualität des Schätzverfahrens.
paribus). Eine kausale Interpretation ist nicht in allen Fällen gerechtfertigt.
• Ein Schätzer (Schätzverfahren, estimator) beschreibt, wie eine Approximation für β bestimmt wird. Der geschätzte Wert für β in einer konkreten Stichprobe (estimate) ist davon zu unterscheiden.
• Der Kleinstquadrateschätzer (ein Schätzverfahren) für β lautet:
−1
⎛ N
⎞
b = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
∑xy
i =1
i
(2.28)
i
2.17
2.18
E { ε } = 0 und V { ε} = σ2 IN
2.3 Eigenschaften des Kleinstquadrateschätzers in kleinen Stichproben
(N×N)
• Gauss-Markov-Annahmen
A1: E { εi } = 0 ,
• Die Annahme A2 der Unabhängigkeit impliziert
{ x ,...,x }
1
N
sind unabhängig.
A3: V { εi } = σ ,
i = 1,2, …, N
A4: cov { εi , εj } = 0
i,j = 1, …, N,
2
besagt,
(2.30)
V { ε | X } = V { ε } = σ2 IN .
(2.31)
und
i≠j
Die Gleichheit der bedingten und unbedingten Werte besagt, dass man aus
• Interpretation: Aus A1 folgt, dass die Regressionsgerade im Mittel korrekt ist.
A3
E{ ε | X } = E{ ε } = 0
i = 1,2, …, N
A2: { ε1,..., εN } und
dass
alle
(2.29)
Fehlerterme
die
gleiche
Varianz
haben
(Homoskedastie), A4 schließt Autokorrelation aus, da verschiedene Feh-
Kenntnis der X-Werte für Erwartungswert und Varianz von ε nichts hinzulernen kann. Das ist automatisch der Fall, wenn X eine deterministische, nichtstochastische Matrix ist.
lerterme nicht korreliert sind. Diese drei Annahmen können zusammengefasst werden:
2.19
2.20
• KQ Eigenschaft 1: Unter den Annahmen A1-A4 ist der KQ-Schätzer unverzerrt, d.h. in wiederholten Stichproben nimmt der Schätzer im Mittel den
• KQ-Eigenschaft 2: Die Streuung des KQ Schätzers wird wie folgt beschrieben
−1
wahren Wert β an: E{b} = β.
−1
⎛ N
⎞
V { b | X } = σ2 ( X' X ) = σ2 ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
{ ( X ' X ) X ' y } = E { ( X ' X ) X ' ( Xβ + ε ) }
= E{ β + ( X ' X) X ' ε } = β + E{ ( X ' X) X ' ε }
= β + E{ ( X ' X) X ' } ⋅ E{ ε } = β
Beweis: E {b} = E
−1
−1
−1
(2.32)
Unterstellt man nicht-stochastische Werte für X, so vereinfacht sich die
−1
Schreibweise zu V{b}.
−1
Herleitung in Matrixnotation bei nicht-stochastischen X:
V { b } = E { (b − β ) (b − β ) ' } = E
Nur A1 und A2 müssen erfüllt sein, damit dies gilt.
{ ( X' X )
−1
X ' ε ε ' X ( X ' X)
−1
}
= ( X ' X ) X ' ( σ2 IN ) X(X ' X)−1 = σ2 (X ' X)−1
−1
2.21
• Gauss-Markov-Theorem: Unter den Annahmen A1-A4 ist der KQ-Schätzer
2.22
~
s 2 ist ein verzerrter Schätzer für σ2, unverzerrt ist (unter Ann. A1-A4):
der beste, lineare, unverzerrte Schätzer für β (Best Linear Unbiased
s2 =
Estimator, BLUE).
1 N 2
∑ ei .
N − K i =1
(2.35)
− lineare Schätzer lassen sich darstellen als b~ = Ay , A ist eine K x N Matrix
Die Freiheitsgrade müssen um die bereits geschätzten K Parameter korri-
− für unverzerrte Schätzer gilt E {Ay} = β
giert werden. Daher
(bei KQ: A = (X' X)−1 X' )
−1
− der KQ Schätzer ist der beste im Sinne der kleinsten Varianz:
V { bKQ
} ≤ V bk
k
{ }
• Um V { b} = σ2 (X' X)−1 , die Varianz der Koeffizienten, zu schätzen, brauchen
1 N 2
∑ ei .
N − 1 i =1
(2.36)
Für jedes Element bk ist seine Varianz s2ckk ein Maß für die Präzision der
−1
Schätzung. Dabei ist ckk das (k,k)te Element von ( ∑ xi x 'i ) . Die Wurzel der
Varianz ist der Standardfehler se ( bk ) = s ⋅ ckk .
wir einen Schätzer für σ2, die Varianz des Störterms.
s2 =
⎛ N
⎞
V̂ { b } = s2 (X' X)−1 = s2 ⎜ ∑ xi x 'i ⎟ .
⎝ i =1
⎠
(2.34)
• Verteilung der Fehlerterme: Typische Annahme: unabhängig normalverteilte
Fehlerterme:
2.23
2.24
A5:
ε ∼ N(0, σ2IN)
• Beispiel: Statistisches Modell:
wagei = β1 + β2 malei + εi
A5 schließt A1, A3, A4 mit ein und wird auch wie folgt dargestellt
A5’:
εi ∼ NID(0, σ2)
wage ist der individuelle Lohn, male eine Dummyvariable für das Geschlecht
(NID: Normaly and Independently Distributed). Dies impliziert auch eine
von i: Unter der Annahme E{εi} = 0 und E{εi|malei} = 0 folgt
Normalverteilung für yi (bei gegebenen oder deterministischen xi).
E{wagei|malei=0} = β1
der erwartete Lohn für Frauen
E{wagei|malei=1} = β1 + β2
der erwartete Lohn für Männer.
• Unter den Annahmen A2, A5 und deterministischen X folgt
b ∼ N ( β, σ (X' X)
2
−1
),
(2.38)
Die Schätzergebnisse unter A1-A4:
da b eine Linearkombination aller εi ist. Es impliziert
bk ∼ N ( βk , σ2 ckk ) ,
(2.39)
wobei ckk das (k,k)te Element von (X' X)−1 ist.
2.25
Tab. 2.1
1 KQ-Ergebnisse der Lohn
ngleichung
2.26
2.4 Schätzgüte
• Wie gut passt die geschätzte Regressionsgerade zu den Daten? Klassisches
Maß: Anteil der durch das Modell erklärten Stichprobenvarianz von y, R2:
R =
2
Vˆ { yˆ i }
V̂ { yi }
1
=
Die Ang
gaben zu den Stan
ndardfehlern erlau
uben uns
s, Hypothesen zu ttesten.
1
N
(N − 1) ∑ ( yˆ
i
− y)
(N − 1) ∑ ( y
− y)
i =1
N
i =1
wobei ŷi = x 'i b und y =
i
2
2
,
(2.40)
1
∑ i yi
N
• Da yi = x 'i b + ei , lässt sich ableiten:
ˆ { x 'i b,ei }
Vˆ { yi } = Vˆ { x 'i b + ei } = Vˆ { x 'i b } + Vˆ { ei } + 2 Cov
2.2
27
2.28
• Gemäß Normalgleichung sind xi und εi unabhängig, d.h.
N
∑ex
i =1
i
ik
= 0 , k = 1, …
mit Konstante führt zu R2 = 0. Wenn alle ei = 0, dann R2 = 1.
K.
• Beispiel: In Tabelle 2.1 wird 3,2% der Variation in y durch das Modell er-
• Da x 'i b = ŷ , folgt
Vˆ { yi } = Vˆ { yˆ i } + Vˆ { ei }
(2.41)
klärt, anscheinend sind Geschlechterunterschiede kein zentraler Faktor.
• Die Größe von R2 hängt ab von der Art der abhängigen Variablen und des
• Also lässt sich R2 auflösen zu
N
R2 =
• Solange das Modell eine Konstante enthält, gilt 0 ≤ R2 ≤ 1. Ein Modell nur
1 (N − 1) ∑ e
Vˆ ( yˆ i )
Vˆ ( ei )
i =1
= 1−
= 1−
N
2
Vˆ ( yˆ i ) + Vˆ ( ei )
Vˆ ( yi )
1 (N − 1) ∑ ( yi − y )
2
i
Datensatzes. R2 misst nicht die Qualität des Modells, sondern die lineare
(2.42)
Anpassung des Spaltenraumes von x an y.
• Bei zusätzlichen erklärenden Variablen xik kann das R2 nicht sinken, selbst
i =1
Die Stichprobenvarianz von yi kann in zwei Teile aufgeteilt werden. R2 beschreibt den Anteil der Gesamtvarianz, der durch das Modell erklärt wird.
wenn die zusätzlichen Variablen keinen Erklärungsgehalt haben. Das angepasste R2 berücksichtigt die zur Schätzung benötigten Freiheitsgrade:
2.29
1
R = 1−
2
N
(N − K ) ∑ e
i =1
1
N
(N − 1) ∑ ( y
i =1
i
2
i
− y)
2
(2.45)
• Dieses Maß kann sinken und negativ werden, wenn berücksichtigte erklärende Variablen keinen Erklärungsbeitrag leisten.
2.30
2.5 Hypothesentests
• Unter A1 – A5 ergab sich für den KQ-Schätzer: b ∼ N ( β, σ2 (X' X)−1 ) .
• Daraus folgt: z =
bk − βk
σ ckk
∼ N(0,1); wobei βk und σ unbekannt sind.
• σ kann durch den unverzerrten Schätzer s, mit s2 =
• Sucht man nach einem Modell mit besonders hohem R2, so läuft man Gefahr, ein Modell für die vorliegende Stichprobe zu spezifizieren.
1 N 2
∑ ei , ersetzt werN − K i =1
den.
• Die Summe quadrierter, standardnormalverteilter Zufallsvariablen ist Chiquadrat verteilt:
2
⎛ ei ⎞
2
∑
⎜ ⎟ ∼ χN
i =1 ⎝ σ ⎠
N
2.31
2.32
tk =
• Setzt man für die wahren, unbeobachteten Störterme ei die beobachteten
Werte der Stichprobe ein, so folgt:
∑ ê
2
i
σ
2
(N − K ) s
2
=
σ
2
~ χN2 −K
(2.47)
bk − βk
s ckk
~ tN−K
(2.48)
Je größer N-K, umso ähnlicher wird die t- der Normalverteilung.
Hier hat die χ2-Verteilung nur N-K Freiheitsgrade, da nur N-K der Störterme
statistisch unabhängig sind.
• Das Verhältnis von unabhängigen standardnormalverteilten (z) und χ2verteilten Zufallsvariablen ( V ~ χM2 ) ist t-verteilt, wenn man umformt:
t=
z
V /m
~ tm
• Für unseren Fall ergibt sich:
2.33
2.34
• Beispiel: H0 : βk = βk0
2.5.1 Einfacher t-Test
• Grundidee: Die t-Verteilung ist symmetrisch um 0 und t-verteilte Zufallsvariablen liegen mit hoher Wahrscheinlichkeit bei 0. Es ist unwahrscheinlich, un-
Wenn H0 zutrifft, ist tk =
( βk0 sei ein konkreter Wert)
bk − βk0
t-verteilt, mit N-K Freiheitsgraden.
se ( bk )
Trifft H0 nicht zu, dann gilt die Alternativhypothese, z.B. H1 : βk ≠ βk0 .
ter der t-Verteilung sehr hohe oder sehr niedrige Werte vorzufinden.
• Beispiel: Bei N – K = 100 – 10 = 90 Freiheitsgraden liegen im Mittel 5% der
• Man berechnet tk auf Basis von Schätzergebnissen für bk und se(bk). Nimmt
t-verteilten Zufallsvariablen oberhalb von 1,662 und unterhalb von –1,662,
tk hohe Werte an, so wird H0 verworfen. Man bestimmt hierfür „kritische Wer-
bzw. 1% oberhalb von 2,368 und unterhalb von –2,368.
te“, die von einem zuvor bestimmten Signifikanzniveau α abhängen. α be-
• Beim Testen geht man davon aus, dass die Nullhypothese (H0) gilt. Unter
dieser Annahme folgt die t-Teststatistik der t-Verteilung. Wenn nun die berechnete Teststatistik betraglich große Werte annimmt, schließt man, dass
die Nullhypothese nicht gilt, da solche Werte unter der t-Verteilung unwahr-
schreibt die Wahrscheinlichkeit, mit der unter der unterstellten Verteilung
Werte jenseits des kritischen Wertes t α vorkommen:
N − K;
2
⎧
⎫
P ⎨| tk | > t α ⎬ = α
N − K;
2 ⎭
⎩
scheinlich sind.
2.35
2.36
Für α wird meist 1, 5 oder 10 Prozent gewählt. Am 10% Niveau werden also
Bei N – K = 90 Freiheitsgraden verwerfen wir am 5% Signifikanzniveau H0,
im Beispiel mit N – K = 90 Freiheitsgraden alle Nullhypothesen verworfen,
wenn tk > 1,662 und am 1% Niveau, wenn tk > 2,368.
für die der Betrag der Teststatistik tk größer als 1,662 ist.
• Die Nullhypothese H0: βk = 0 wird von der Regressionssoftware meist auto-
• Bei zweiseitigen Tests wird die Nullhypothese zugunsten der Alternativhypo-
matisch getestet. Berechnet wird „der t-Wert“
these sowohl abgelehnt, wenn tk zu groß ist, als auch wenn es zu klein ist.
tk =
• Bei einseitigen Tests wird nur eine mögliche Alternative betrachtet, z.B.
Kann man H0 am α-Signifikanzniveau verwerfen, so sagt man, dass bk am α-
H0: βk ≤ βk0 H1: βk > βk0
H0 wird nur verworfen, wenn tk zu groß ist (wenn tk negative Werte annimmt,
einen Wertebereich für den Parameter βk, der alle βk0 umfasst, für die
• Der kritische Wert für einseitige Tests bestimmt sich daher wie folgt:
H0: βk = βk0 nicht verworfen werden kann. Dieses Intervall lässt sich wie folgt
P {tk > tN−K;α } = α
−t
N − K;
N − K;
⇔ bk − t
Signifikanzniveau statistisch signifikant (von Null verschieden) ist.
• Neben Punktschätzern gibt es auch Intervallschätzer. Diese beschreiben
wird H0 nicht verworfen).
⇔ −t
bk − 0
bk
=
se ( bk ) se ( bk )
α
2
α
2
<
ableiten: Unter H0 gilt mit Wahrscheinlichkeit 1–α, dass
bk − βk
< t α
N − K;
se ( bk )
2
⋅ se ( bk ) < bk − βk < t
N − K;
N − K;
α
2
⋅ se ( bk ) < βk < bk + t
α
2
2.37
2.38
(2.50)
• Für ein konkretes Konfidenzintervall ist die Aussage, dass es β enthält, entweder wahr oder falsch. Eine Wahrscheinlichkeitsaussage ist nur im Zu-
⋅ se ( bk )
N − K;
α
2
⋅ se ( bk )
sammenhang mit Zufallsvariablen, nicht mit konkreten Ausprägungen zuläs(2.51)
sig.
• Bei einer hohen Zahl von Freiheitsgraden ist tN−K;0,025 = 1,96 , so dass das 95%
Konfidenzintervall für βk so aussieht:
⎡⎣bk − 1,96 ⋅ se ( bk ) ; bk + 1,96 ⋅ se ( bk ) ⎤⎦
(2.52)
• Interpretation: Bei wiederholten Stichproben enthalten 95% aller auf diese
Weise berechneten Konfidenzintervalle den wahren Wert βk, der eine nichtstochastische, unbekannte Zahl ist. Ein zufällig gewähltes Konfidenzintervall
enthält das wahre β mit der Wahrscheinlichkeit von 95%.
2.39
2.40
• Kritischer t-Wert bei N = 3294 und K = 2 am 5%-Niveau für zweiseitigen
2.5
5.2 Beisp
piel
Test: t3292; 0,025 = 1,96.
• Tab. 2..1: KQ-Errgebnisse
e Lohngle
eichung
• Da 10,38 > 1,96, wird H0 verworfen; es wäre extrem unwahrscheinlich, in einer t-Verteilung den Wert 10,38 anzutreffen. Also ist die Teststatistik vermutlich nicht t-verteilt und die Nullhypothese trifft nicht zu.
• Konfidenzintervall:
• Wir tes
sten die sstatistisch
he Signifik
kanz des
s Koeffizie
enten der Variable
en male:
H0: βmalee = 0
t=
(1,1661 − 1,96 ⋅ 0,1122; 1,1661 + 1,96 ⋅ 0,1122 ) = ( 0,946; 1,386 )
Dies bedeutet nicht, dass βmale tatsächlich in diesem Intervall liegt und auch
H1: βmale ≠ 0
nicht, dass es mit 95%-Wahrscheinlichkeit in diesem Intervall liegt. Aber mit
1,1661
1− 0
= 10,38
3
0,1122
diesem Verfahren wäre in wiederholten Stichproben in 95% der Fälle das
wahre βmale im Intervall enthalten.
2.42
2.4
41
• Zusammenhang: Preis und offene Bewertung
2.5.3 Illustration
Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing of South
African red wines, International Journal of Wine Marketing 18(3), 166-182.
• Fragestellung: Was bestimmt den Preis eines Weines? Wie groß ist der
Einfluss verschiedener Determinanten?
• Daten: 537 Sorten südafrikanischer Rotweine 2004 mit Information zu Preis,
Rebsorte, Weinqualitätsmaße (blinde und offene Bewertung)
2.43
2.44
K
• Schätzgleichung: pricei = α + ∑ bk xk + εi
• Zusammenhang: Preis und blinde Bewertung
k =1
i
= Index der Weine
k
α = Regressionskonstante
=
bk =
Index der Determinanten
Koeffizient des Merkmals k
ε = Störterm
• Interpretation: Intrinsischer Werti
= Preisi – εi
K
= α + ∑ bk xk
k =1
2.45
• Schätzergebnisse lineares Modell:
2.46
2.5.4 Tests der gemeinsamen Signifikanz von Regressionskoeffizienten
Modell 1
Koeff.
t
Modell 2
Koeff.
t
Constant
24.03
3.50
-75.70
-7.04
(mit J < K): H0: βK-J+1 = … = βK = 0.
Cabernet
21.00
4.57
9.45
2.38
Alternativhypothese H1: wenigstens einer der J Koeffizienten ist ≠ 0.
Merlot
10.04
2.51
8.74
2.39
Shiraz
21.20
5.04
17.14
4.78
Pinot-Noir
28.53
3.38
37.22
5.23
Pinotage
(Referenz)
Blind-Bewertung
2.62
5.05
–
–
Offene Bewertung ("Platter")
2
• Nullhypothese, dass Teilgruppe J der K-1 Steigungsparameter gleich Null ist.
• Testidee: Vergleiche die Summe der quadrierten Residuen aus der Regression mit J Parametern (S1) mit der des restringierten Modells ohne die J Parameter (S0). Unter der Nullhypothese sollten S0 und S1 ungefähr gleich sein.
(Referenz)
–
37.58
Adj. R
13.01
30.35
n
537
537
Teststatistik:
–
12.58
f=
(S
0
− S1 ) / J
S1 / (N − K)
~ FJ,N−K
(2.58)
• Es lässt sich zeigen, dass f auch wie folgt bestimmt werden kann:
2.47
2.48
f=
(R
2
1
− R02 ) / J
(1 − R12 ) / (N − K)
,
(2.59)
Grund: bei t-Tests wird die Korrelation zwischen Parameterschätzern nicht
berücksichtigt, bei F-Tests jedoch sehr wohl.
R12 und R02 messen die Schätzgüte für das unrestringierte und restringierte
Modell.
• Häufige Anwendung des F-Tests: H0: β2 = β3 = … = βK = 0 (alle Steigungsparameter). Hier kann die Teststatistik geschrieben werden als
• Wenn f große Werte annimmt, sollte die H0 verworfen werden. Die kritischen
Werte für den F-Test werden einseitig bestimmt,
P { f > FJ,N−K;α } = α , wobei α das Signifikanzniveau angibt.
so
dass
f=
(S
0
− S1 ) / (K − 1)
S1 / (N − K)
gilt
,
(2.60)
wobei S1 = ∑ ei2 und S0 die Fehlerquadratsumme eines Modells ist, das lei
= 2,76 .
• Beispiel: Für N – K = 60 und J = 3 ist F krit.
3,60; 0,05
diglich aus einem Achsenabschnittsparameter besteht: S0 = ∑ ( yi − y ) . Da
• Es ist möglich, dass eine Gruppe von Koeffizienten einzeln insignifikant und
hier R02 = 0 , lässt sich die Teststatistik auch wie folgt schreiben:
2
i
gemeinsam signifikant ist, d.h. H0: β2 = 0 und H0: β3 = 0 wird nicht verworfen,
F=
aber H0: β2 = β3 = 0 kann verworfen werden. Auch das Gegenteil ist möglich.
2.49
R2 / (K − 1)
(1 − R2 ) / (N − K)
.
2.50
2.5.5 Beispiel
• Geschätzt wird das Modell
wagei = β1 + β2 malei + β3 schooli + β4 experi + εi ,
wobei school die Dauer der Schulausbildung abbildet und exper die Arbeitserfahrung in Jahren. Nun werden alle Koeffizienten „ceteris paribus“ interpretiert, d.h. β2 beschreibt den Unterschied im Lohn für Männer und Frauen
gleicher Schulausbildung und Arbeitserfahrung.
Der mittlere Lo
ohnunters
schied zw
wischen Männern
n und Frrauen be
eträgt nu
un
1,34. Alle
A drei Steigung
gsparame
eter sind
d einzeln statistis
sch signiffikant. Eiin
zusätzlliches Scchuljahr erhöht
e
den Lohn um 0,64, ein
e weiteres Jahr Arbeitser-
Tab. 2.2: KQ-Ergebnisse Lohngleichung
fahrung
g um 0,12
25.
• Die Hy
ypothese, dass alle
e Steigun
ngsparam
meter = 0 sind, wird deutlicch verworfen: F3,33290;0,05 = 2
2,60 < 167
7,63 .
2.51
2.5
52
• Im Vergleich zum Modell in Tabelle 2.1 ist das R2 deutlich von 0,03 auf 0,13
gestiegen. Ein Test auf gemeinsame Signifikanz der Koeffizienten β3 und β4
lautet daher
2.5.6 Allgemeine Form des F-Tests
• Allgemeine Form für J lineare Restriktionen: Rβ = q, wobei R eine J x K Matrix ist (wir unterstellen Nichtsingularität), q ist ein J dimensionaler Vektor.
( 0,1326 − 0,0317 ) / 2
f=
= 191,35 > 3,00 = F
(1 − 0,1326 ) / ( 3294 − 4 )
• Beispiel:
2,3290;0,05
Somit verbessern die zusätzlichen Variablen den Erklärungsgehalt des Modells signifikant.
Restriktion 1
β2 + β3 +…+ βK = 1
Restriktion 2
β2 = β3
⎛0
mit J = 2 gilt R = ⎜
⎝0
1
1
1 ...
−1 0
1⎞
,
0 ⎟⎠
...
...
⎛ 1⎞
q = ⎜ ⎟.
⎝0⎠
• In den meisten Fällen kann das Modell unter den Restriktionen geschätzt
werden, so dass der normale F-Test verwendet werden kann. Wenn dies
z.B. wegen der Komplexität der Nullhypothese nicht möglich ist, nutzt man
die Tatsache, dass
2.53
(
)
Rb ~ N Rβ, σ2R ( X ' X ) R ' ,
−1
2.54
2
• Alternativ nutzt man, dass (N-K)s2 / σ2 ~ χN-K
und leitet unter der Annahme
um über die quadratische Form eine χ 2 -verteilte Teststatistik abzuleiten. Es
zweier unabhängig χ2-verteilter Zufallsvariablen aus ξ und (2.47) einen fTest ab:
gilt
(Rb − q) ' (R ( X X )
−1
'
ξ=
σ2
R'
)
−1
(Rb − q)
(Rb − q) ' ( σ R ( X X )
2
f
~ χ2J
• Das unbekannte σ2 muss ersetzt werden durch s2. Nun gibt es zwei Möglichkeiten: Entweder man ersetzt σ2 durch s2, dann ist die Teststatistik ap-
=
R'
)
−1
(Rb − q) / J
⎡⎣(N − K ) s2 / σ2 ⎤⎦ / (N − K )
(Rb − q) ' (R ( X X )
'
=
−1
'
−1
Js2
R'
)
−1
(Rb − q)
~ FJ,N−K
(unter H0)
proximativ χ2-verteilt (unter der Nullhypothese). Dies wird als Wald Test bezeichnet.
2.55
2.56
2.5.7 Signifikanz, Teststärke und p-Wert
Stichprobe
• Fehlertypen beim statistischen Testen von Hypothesen:
Bevölkerung
Typ I Fehler: Die zutreffende Nullhypothese wird verworfen.
Typ II Fehler: Die nicht zutreffende Nullhypothese wird nicht verworfen.
α/2 Typ I
• Die Wahrscheinlichkeit eines Typ I Fehlers kontrollieren wir mit dem
Typ II
(Fehlerwahrscheinlichkeit β)
Signifikanzniveau α. Bei einem Test am 5% Signifikanzniveau beträgt die
Typ I Fehlerwahrscheinlichkeit 5% (α = size of the test).
α/2 Typ I
• Man bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt
• Die Wahrscheinlichkeit eines Typ II Fehlers (β) hängt vom wahren Parameterwert ab. Je weiter dieser von der Nullhypothese abweicht, umso kleiner ist
die Typ II Fehlerwahrscheinlichkeit.
wird, wenn sie falsch ist, als die Teststärke (Power) eines Testes: 1-β. Auch
diese ist vom wahren Parameterwert abhängig.
• Zusammenhang zwischen Typ I und Typ II Fehlern: Je größer α, umso kleiner β.
2.57
2.58
• Je größer die Stichprobe N, umso kleiner die Streuung des geschätzten Pa-
der Nullhypothese die Wahrscheinlichkeit, eine Teststatistik zu finden, die
rameters. Beim Signifikanztest steigt die Wahrscheinlichkeit, H0 zu verwer-
größer als die empirisch auf Basis der Stichprobe bestimmte Teststatistik ist.
fen. Die Wahrscheinlichkeit eines Typ II Fehlers sinkt. Um dies auszugleichen, werden bei großen Stichproben geringere Werte für α festgelegt (geringere α Werte steigern die β Wahrscheinlichkeit). Während bei kleinen
Stichproben α = 0,1 relevant ist, betrachtet man bei großen eher α = 0,01.
• Wenn p < α, wird H0 verworfen.
• Beispiel: Bei einem Signifikanztest H0: β = 0 mit p = 0,08 würde H0 am α =
10% Niveau verworfen, am α = 5% Niveau nicht.
• Eine nicht verworfene Nullhypothese impliziert nicht, dass H0 wahr ist. Es ist
möglich, dass verschiedene Nullhypothesen bei gegebener Datenlage nicht
verworfen werden können. Dennoch können nicht alle wahr sein. Dies zeigt
dann, dass die Tests nicht mächtig sind.
• Der p-Wert (probability value) gibt den kleinstmöglichen α Wert an, unter
dem eine Nullhypothese noch verworfen würde. Der p-Wert beschreibt unter
2.59
2.60
2.6 Asymptotische Eigenschaften des KQ Schätzers
2.6.1 Konsistenz
• Es gibt viele Situationen, in denen die beschriebenen Eigenschaften des KQ
• Im linearen Modell hat der KQ Schätzer die folgenden Momente:
Schätzers nicht mehr zutreffen. Ist ε nicht normalverteilt, dann auch nicht b,
E {b} = β
sind ε und X nicht orthogonal, so ist b kein unverzerrter Schätzer, trifft
−1
−1
⎛ N
⎞
V {b} = σ2 ⎜ ∑ xi xi' ⎟ = σ2 ( X' X )
⎝ i =1
⎠
V {εi } = σ2 nicht zu, ist der KQ Schätzer nicht mehr BLUE.
• Um die Eigenschaften von Schätzern außerhalb enger Annahmen beschreiben zu können, definiert man für den Fall von N → ∞ asymptotische Eigenschaften von Schätzern.
(2.65)
(2.66)
• Ohne Annahme einer Normalverteilung der Störterme lässt sich über die
Verteilung von b wenig sagen.
• Die Ungleichung von Chebycheff besagt, dass die Wahrscheinlichkeit,
dass eine Zufallsvariable z um mehr als den Betrag δ von ihrem Mittelwert
abweicht, nicht größer sein kann als die Varianz der Zufallsvariable geteilt
durch δ2:
2.61
P { | z − E {z} | > δ} <
V {z}
für alle δ > 0
δ2
(2.67)
P { | bk − βk | > δ} <
δ2
grenzwert (probability limit, plim) von bk ist βk:
σ ckk
für alle δ > 0,
δ2
2
=
wobei ckk das (k,k)te Element von
Wenn N → ∞ , wächst
( X' X )
−1
(2.68)
−1
⎛ N
⎞
= ⎜ ∑ xi xi ' ⎟
⎝ i =1
⎠
ist. Entscheidend:
∑ xi xi ' und Var{bk} fällt. Unter der Annahme, dass
∑
xx
konvergiert,
(A6)
N →∞
für alle δ > 0
Schätzer, die zum wahren Wert konvergieren, bzw. deren Wahrscheinlich-
Schätzers um den unbekannten wahren Wert.
• Konsistenz ist eine large sample property. Konsistente Schätzer treffen bei
folgt:
lim P { | bk − βk | > δ} = 0
(2.70)
• Intuition: Je größer die Stichprobe, umso kleiner wird die Streuung des
i =1
1
∑ xi xi ' für N → ∞ gegen eine nichtsinguläre Matrix
N i =1
plim b = β.
keitsgrenzwert dem wahren Wert entspricht, sind konsistent.
N
N
Asymptotisch ist die Wahrscheinlichkeit, dass der KQ-Schätzer sich um
mehr als δ von seinem Erwartungswert entfernt, 0. Der Wahrscheinlichkeits-
• Für KQ-Koeffizienten:
V {bk }
2.62
ausreichendem Stichprobenumfang N den wahren Wert mit beliebiger Ge(2.69)
2.63
2.64
nauigkeit. Diese Eigenschaft ist insbesondere dann von Interesse, wenn
Dies impliziert z.B. dass, wenn s2 ein konsistenter Schätzer für σ2 ist, s ein
man die Unverzerrtheit eines Schätzers nicht nachweisen kann.
konsistenter Schätzer für σ ist, eine Eigenschaft, die für Unverzerrtheit und
2
Erwartungswerte nicht gilt: E {s} ≠ E {s2 } .
f(bB)
f(bA)
N1 < N2 < N3
N1 < N2 < N3
N3
• Man kann zeigen, dass der KQ Schätzer auch unter schwächeren Annah-
N3
N2
men als A1–A4 konsistent ist:
N2
β
A
b
B
−1
⎛ N
⎞
b = ⎜ ∑ xi xi ' ⎟
⎝ i =1
⎠
N1
N1
β
A
A
b
B
(2.72)
−1
⎛1
⎞ 1
= β + ⎜ ∑ xi xi ' ⎟
∑ xi εi
⎝N
⎠ N
B
Schätzer b und b sind konsistent. b ist unverzerrt, b ist verzerrt.
• Bei plim b = β und für die stetige Funktion g gilt für den Wahrscheinlichkeitsgrenzwert die Rechenregel
plim g(b) = g(β).
−1
⎛1
⎞ 1
xi yi = ⎜ ∑ xi xi ' ⎟
∑ xi yi
∑
i =1
⎝N
⎠ N
N
(2.71)
Wenn N groß wird, konvergieren die Mittelwerte von xi xi' und xi εi zum Mittel1 N
wert der Grundgesamtheit. Unter der Annahme A6 konvergiert ∑ xi xi ' für
N i =1
N → ∞ gegen
∑
xx
, so dass
2.65
plim ( b − β ) = ∑ −xx1 E {xi εi } .
(2.73)
2.6.2 Asymptotische Normalverteilung
• Ist die Verteilung eines Schätzers für kleine Stichproben unbekannt, so kann
Der KQ Schätzer ist daher konsistent, wenn
E {xi εi } = 0.
2.66
(A7)
• Die Konsistenz von KQ-Schätzern ergibt sich bereits aus den Annahmen
(A6) und (A7). Diese Bedingungen reichen zum Nachweis der Unverzerrtheit
nicht aus. Hierzu benötigt man (A1) – (A4).
man seine asymptotische Verteilung bestimmen. Die meisten Schätzer
sind asymptotisch normalverteilt, d.h. für N → ∞ folgt N βˆ − β der Normal-
(
)
verteilung.
(
)
• Da asymptotisch β̂ = β (bei konsistenten Schätzern) hat β̂ − β eine degene-
• Der KQ-Schätzer s2 für die Varianz des Störterms σ2 ist unter den Annah-
rierte Verteilung, d.h. für N → ∞ ist die gesamte Wahrscheinlichkeitsmasse
auf der Null: Es folgt P βˆ − β = 0 = 1. Betrachtet man statt dessen
men (A6), (A7), (A3) und weiteren Regularitätsannahmen ebenfalls konsis-
N βˆ − β , erhält man eine nicht degenerierte Normalverteilung mit der Kon-
tent. Je größer die N, umso genauer schätzt b β, umso verlässlicher schätzen die geschätzten Störterme die wahren ε und V{ε} das wahre σ2 .
(
{(
)
vergenzrate
) }
N . Greene (2008) nennt die Multiplikation mit
N eine "stabili-
sierende Transformation".
2.67
2.68
• Es lässt sich zeigen, dass unter den Annahmen (A1) – (A4) in Kombination
mit (A6)
Dies gilt auch für kleine Stichproben und ist umso genauer, je größer die
Stichprobe.
N ( b − β ) → N ( 0, σ
2
∑ ),
−1
xx
(2.74)
man sagt, der KQ-Schätzer ist asymptotisch normalverteilt mit der VarianzKovarianz-Matrix σ2 ∑ −xx1 .
• Da der KQ-Schätzer unabhängig von der Verteilung der Störterme asymptotisch normalverteilt ist, sind die Ableitungen der Verteilungen der t- und FStatistiken asymptotisch zutreffend, auch ohne normalverteilte Störterme.
• Da die t-Verteilung für N → ∞ zur Normalverteilung konvergiert, werden oft
• Bei kleineren Stichproben spricht man von approximativer Verteilung:
a
(
b ~ N β, σ2 ∑ xx /N
−1
)
(2.75)
Die Varianz-Kovarianz-Matrix wird wie folgt geschätzt:
−1
a
⎛
⎛ N
⎞ ⎞
b ~ N ⎜ β, s2 ⎜ ∑ xi x 'i ⎟ ⎟
⎝ i =1
⎠ ⎠
⎝
die kritischen Werte der Normalverteilung genutzt, ohne dass für die Störterme die Normalverteilung unterstellt wird.
• Auch für FJ,N−K - verteilte Zufallsvariablen f gilt asymptotisch, dass ξ = J ⋅ f χ2J -
(2.76)
verteilt ist. Um J lineare Restriktionen zu testen, berechnet man also J ⋅ f und
wählt die kritischen Werte aus der χ2 -Verteilung.
2.69
• Die Ergebnisse (2.74) und (2.76) gelten auch noch, wenn die Annahme A2
abgeschwächt wird zu
2.70
2.7 Illustrationen
2.7.1 Illustration 1: Makroökonomische Investitionsfunktion
xi und εi sind unabhängig,
(A8)
d.h. für i ≠ j ist Unabhängigkeit von xi und εi nicht erforderlich. A8 impliziert
A7, d.h. E { xi εi } = 0.
• Frage: Welchen Zusammenhang gibt es zwischen BIP und Investitionen?
• Daten: jährliche makroökonomische Daten aus USA (1990 – 2005)
• Variablen:
2.71
Inv_MR
=
private Investitionen, in Mrd. US-$ von 2000
Inv_M
=
private Investitonen, in Mio. US-$ von 2000
BIP_MR
=
Bruttoinlandsprodukt, in Mrd. US-$ von 2000
BIP_M
=
Bruttoinlandsprodukt, in Mio. US-$ von 2000
2.72
R2
Lineare Regressionsergebnisse: Koeffizienten (Standardfehler)
0,9648
0,9648
0,9648
0,9648
In Spalte 1 zeigt sich ein positiv signifikanter Zusammenhang. Der Steigungsparameter in Spalte 2 bleibt identisch, wenn beide Größen mit 1000
1
2
3
4
Abh. Var.:
Inv_MR
Inv_M
Inv_MR
Inv_M
Konstante
-926,090
-926 090
-926,090
-926 090
stante im Vergleich zu Spalte 1 gleich, aber der Steigungsparameter passt
(116,358)
(116 358)
(116,358)
(116 358)
sich an. Seine statistische Signifikanz ist von der Skalierung unabhängig. In
0,2535
-
-
253,524
BIP_MR
(0,0129)
BIP_M
-
(12,946)
0,2535
0,0002535
(0,01299)
(0,0000129)
-
multipliziert werden. Die Konstante wächst ebenfalls um den Faktor 1000.
Wird lediglich die erklärende Variable skaliert (Spalte 3), so bleibt die Kon-
Spalte 4 wird nur die abhängige Variable skaliert. Dies beeinflusst beide geschätzten Parameter. Weder das R2 noch die t-Statistik werden von Skalierungen beeinflusst.
(Quelle: Gujarati / Porter, 2009, S. 156)
2.73
2.7.2 Illustration 2: Stundenlöhne und Bachelorabschluss in USA
Lineare Regressionsergebnisse: Koeffizienten (Standardfehler)
• Frage: Gibt es einen Zusammenhang zwischen Ausbildung und Löhnen?
• Daten: 4000 Vollzeitbeschäftigte im Alter 25 - 34 aus dem Current Population Survey von 1998
1
2
3
5,46
5,48
5,44
(0,21)
(0,21)
(0,21)
-2,64
-2,62
-2,62
(0,20)
(0,20)
(0,20)
Age
AHE
mittlere Stundenlöhne in 1998 US-$ (abh. Var.)
College
1, wenn Bachelor, 0 wenn High School
Female
1, wenn weiblich, 0 wenn männlich
Northeast
Midwest
South
West
1, wenn aus dem Westen der USA, 0 sonst
-
0,69
-
-
0,60
-
-
-0,27
(0,26)
1, wenn aus dem mittleren Westen der USA, 0 sonst
1, wenn aus dem Süden der USA, 0 sonst
0,29
(0,04)
(0,28)
Alter in Jahren
South
-
0,29
(0,04)
(0,30)
Northeast 1, wenn aus dem Nordosten der USA, 0 sonst
Midwest
College
Female
• Variablen:
Age
2.74
Konstante
R2
F-Test der Regionalen Effekte
2.75
12,69
4,40
3,75
(0,14)
(1,05)
(1,06)
0,176
0,190
0,194
-
-
6,10
2.76
• Fragen: Welche Koeffizienten sind am 1-Prozent-Niveau signifikant?
2.8 Multikollinearität
• Bei Multikollinearität führen enge lineare Beziehungen zwischen erklärenden
Wie unterscheiden sich die Löhne von Männern und Frauen?
Variablen zu nicht verlässlichen Schätzergebnissen.
In welcher Region ist das Lohnniveau am höchsten?
• Beispiel 1: Regressiere Stundenlöhne auf Alter und Berufserfahrung. Alter
Ist die Kontrolle für die Region gemeinsam signifikant?
Wie hoch ist der mittlere Lohnunterschied für 25 und 30-Jährige
Frauen mit Collegeabschluss?
und Berufserfahrung sind korreliert und X' X nähert sich damit der Singularität und Nichtinvertierbarkeit. Die Koeffizienten werden unpräzise geschätzt,
da die Daten nicht genug Information enthalten, um beide Effekte einzeln zu
(Quelle: Stock & Watson, 2007, S. 247)
identifizieren.
• Im
Extremfall
perfekter
Multikollinearität
ist
die
X' X -Matrix
nicht
invertierbar und der KQ-Schätzer ist nicht eindeutig definiert.
2.77
2.78
• Ein typischer Fall von Multikollinearität liegt ebenfalls vor, wenn zu viele
Da die Arbeitserfahrung (experience) meist nicht als Variable vorliegt, wird
Dummyvariablen verwendet werden.
sie approximiert (potential experience): experiencei = agei – schoolingi – 6.
Hier sind die drei Variablen automatisch kollinear.
• Beispiel 2: yi = β0 + β1 malei + β2 femalei + εi ,
wobei male für Männer mit 1 und Frauen mit 0 und female umgekehrt kodiert
werden. Da immer gilt malei + femalei = 1 ist die X' X -Matrix singulär, die
Summe der Variablen ergibt die Konstante. Die (analytische) Lösung besteht
• Auswirkung von Kollinearität auf KQ-Schätzer: Modell yi = β1 xi1 + β2 xi2 + εi
und wir unterstellen y = x1 = x2 = 0 sowie V {xi1} = V {xi2 } = 1 und Korrelationskoeffizient r12. Dann folgt
V { b1 } = V { b2 } =
darin, eine der drei Variablen (Konstante, male, female) auszulassen. Die
Konstante sollte im Allgemeinen jedoch beibehalten werden.
σ2 N
1 − r122
Je höher r12, umso größer ist die Varianz und Ungenauigkeit der Regressi-
• Beispiel 3: wagesi = β0 + β1 agei + β2 schoolingi + β3 experiencei + εi
onskoeffizienten,
umso
kleiner
die
t-Werte,
umso
breiter
die
Konfidenzintervalle. Positiv korrelierte erklärende Variablen führen zu negativ korrelierten Koeffizienten.
2.79
2.80
• Lösung: mehr Daten bzw. Informationen beschaffen, entweder durch größe-
Tab. 2..6 Alternative Spe
ezifikation
nen mit Dummyva
ariablen
re Stichproben oder durch zusätzliche Restriktionen auf den Parametervektor.
• Beispiel: Ob man in der Lohngleichung den Dummy für Männer oder für
Frauen berücksichtigt, ist irrelevant. Ohne Konstante kann nur noch das
nichtzentrierte R2-Maß präsentiert werden, welches generell größer ist als
das Standard R2 (siehe 2.43).
2.81
2.8
82
• Im einfachen Regressionsmodell mit einer erklärenden Variable xi gilt
2.9 Vorhersage
⎛1
V { y0 − yˆ 0 } = σ2 + σ2 ⎜ +
⎜N
⎝
• Eine Verwendung von Schätzergebnissen besteht im Erstellen von Vorhersagen der abhängigen Variable, wenn Werte für x0 vorgegeben sind:
y0 = x '0 β + ε0 . Ein unverzerrter Vorhersagewert für y0 wäre ŷ0 = x '0 b , da E{b}
= β. Das heißt E {yˆ 0 − y0 } = 0.
2
0
2
i
i
⎞
⎟.
⎟
⎠
Je weiter x0 von x entfernt, umso unpräziser wird die Vorhersage.
• Das 95%-Vorhersageintervall für y0 ist:
• Die Varianz des vorhergesagten Wertes infolge der Schätzung von β ist
V { yˆ 0 } = V { x'0 b} = x'0 V { b} x0 = σ x'0 ( X'X ) x0 .
2
−1
(2.82)
⎡ x ' b − 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ; x' b + 1,96 ⋅ s ⋅ 1 + x' ( X'X )−1 x ⎤ ,
0
0
0
0
0
⎢⎣ 0
⎥⎦
(2.85)
wobei 1,96 der kritische Wert der Standardnormalverteilung ist. Mit 95%
• Die Varianz des Vorhersagefehlers:
beträgt
(x − x)
∑ (x − x)
y0 − yˆ 0 = x '0 β + ε0 − x '0 b = ε0 − x '0 ( b − β )
(2.83)
V { y0 − yˆ 0 } = σ2 + σ2 x'0 ( X'X ) x0 ,
(2.84)
−1
Wahrscheinlichkeit enthält das Intervall den wahren, aber unbekannten Wert
von y0.
wenn b und ε0 nicht korreliert sind.
2.83
2.84
• Illustration: Priilaid und Rensburg, 2006, Nonlinearity in the hedonic pricing
• Schätzergebnisse lineares Modell
Modell 3
Koeff.
of South African red wines, International Journal of Wine Marketing 18(3),
166-182.
• Das in Abschnitt 2.2 präsentierte Modell wird mit einer detaillierteren Spezifikation verglichen.
Constant
-79.00
-7.22
3.65
0.49
Cabernet
10.65
2.69
13.19
3.27
Merlot
7.68
2.16
8.70
2.52
Shiraz
15.93
4.36
16.98
4.91
Pinot-Noir
35.90
4.99
34.34
4.62
Pinotage
(Referenz)
–
–
91.03
2.31
Blind 1 Stern
–
–
-31.41
-0.84
Blind 2 Stern
–
–
-38.87
-1.04
Blind 3 Stern
–
–
-28.25
-0.76
2
Adj. R
N
31.80
39.46
537
537
(Referenz)
Blind-Bewertung
6.11
2.40
–
–
Offene Bewertung ("Platter")
34.26
10.98
–
–
Platter 2 Stern
–
–
47.39
1.36
Platter 3 Stern
–
–
65.14
1.69
2.85
Platter 4 Stern
t
Modell 4
Koeff.
t
2.86
• Keine einheitlichen oder linearen Preissprünge bei steigender Qualität
• Vergleich von vorhergesagtem Wert und tatsächlichem Preis (Modell 4):
K
wobei valuei = pricei – εi = α + ∑ bk xk .
k =1
2.87
2.88
• Entgegen dem "populären Marketing-Mythos", dass Schnäppchen nur im un-
• Dies lässt sich auch für konkrete hochwertige Weine zeigen:
teren Preissegment existieren, zeigt die Analyse, dass auch hochwertige
High priced wines that offer exceptional value-for-money
Weine preiswert sein können:
Wine label
2004
Price
(in
Rand)
Kevin Arnold Shiraz
115.00
2001
BWC Shiraz 2001
Wine Platter Linear
score score valuation
(in
Rand)
Dummy
valuation
(in
Rand)
Linear
model:
extent of
mispricing
(%)
Dummy
model:
extent of
mispricing
(%)
4.5
4.5
118.57
159.10
-3.10
-38.35
95.00
4.0
4.5
115.52
140.06
-21.60
-47.43
Thelema
Cabernet
120.00
Sauvignon 2001
4.0
4.5
110.23
136.26
8.14
-13.55
Hartenberg
2001
3.5
4.5
112.46
128.20
-18.38
-34.95
Shiraz
95.00
Es macht in der Bewertung einen erheblichen Unterschied, ob Modell 3 oder
4 geschätzt wurde (vergleiche die beiden letzten Spalten).
2.89
Literatur:
Verbeek, 2008, Kapitel 2.
Priilaid, D.A. und P. van Rensburg, 2006, Non-linearity in the hedonic pricing of
South African red wines, International Journal of Wine Marketing 18(3), 166-182.
2.91
2.90
Lernziele Kapitel 3:
Kapitel 3: Interpretation und Vergleich von Regressionsmodellen
• Welche Möglichkeiten gibt es Koeffizienten linearer Regressionsmodelle zu
3.1 Interpretation des linearen Modells
interpretieren?
3.2 Auswahl der unabhängigen Variablen
• Nach welchen Kriterien sollte die Spezifikation von Regressionsmodellen er-
3.3 Fehlspezifikation der funktionalen Form
folgen?
3.4 Illustration: Die Erklärung von Hauspreisen
• Wann ist ein Modell fehlspezifiziert?
3.5 Illustration: Die Erklärung individueller Löhne
3.1
3.2
∂ E {yi xi }
3.1 Interpretation des linearen Modells
∂ xik
• Hinweis: Verbeek verwendet stets die Notation „log“, aber der natürliche Lo-
Annahme:
(3.3)
• Es ist nicht sinnvoll, Koeffizienten einzeln zu betrachten, wenn Polynome der
garithmus „ln“ ist gemeint.
• Modell:
= βk
yi = x 'i β + εi
E { εi X} = 0 oder E { εi xi } = 0
(3.1)
(3.2)
Wenn der Erwartungswert von ε für gegebene X null ist, gibt das Modell den
auf X bedingten Erwartungswert von yi an.
erklärenden Variable geschätzt werden. Wenn yi = … + agei β2 + agei2 β3 + …,
wird der marginale Effekt des Alters wie folgt bestimmt:
∂ E {yi xi }
∂ agei
= β2 + 2 agei β3 .
(3.4)
• Der marginale Effekt erklärender Variablen kann auch von anderen Variab-
Beispiel: Der erwartete Lohnsatz (y) für eine Frau (xi1) im Alter 40 (xi2) mit
len abhängen, z.B. bei Interaktionstermen
yi = … + agei β2 + ( agei ⋅ malei ) β3 + …
Universitätsabschluss (xi3).
• Der Koeffizient βk misst ceteris paribus den Effekt einer Änderung von xik auf
∂ E {yi xi }
∂ agei
den Erwartungswert von y:
3.3
= β2 + malei β3
(3.5)
3.4
Der marginale Effekt des Alters beträgt β2 + β3 für Männer und β2 für Frauen.
• Wenn xi eine Dummyvariable ist, beschreibt der Koeffizient β für
logyi = x 'i β + εi ,
• Elastizitäten lassen sich aus Regressionen direkt ablesen, wenn logarithmierte Variablen betrachtet werden. Ein loglineares Modell lautet:
log yi = ( log xi ) ' γ + υi
Da
∂ log y
∂y
=
1
y
⇔ ∂ log y =
∂E { yi xi } E { yi xi }
∂xik
xik
=
∂y
y
, so dass
∂E { yi xi }
∂xik
⋅
∂ log y
∂ log x
=
∂y / y
∂x / x
um wie viel Prozent sich y bei einer Änderung von xi um eine Einheit ändert.
(3.6)
• Für die Vorhersage von yi spielt es eine Rolle, ob linear oder loglinear geschätzt wurde. Wenn E { υi log xi } = 0 , ist der vorhergesagte Wert für log yi
(3.7)
∂xik
xik
βx
⋅
= k ik
x'β
E {yi xi }
i
aus Modell (3.6) genau ( log xi ) ' γˆ . Der vorhergesagte Wert für yi ist nicht
{
}
exp { ( log xi ) ' γ}, denn E {yi xi } ≠ exp E{ log yi xi } . Der Erwartungswert einer
Dies impliziert für das lineare Modell, dass die Elastizitäten mit xi variieren:
∂ E { yi xi }
Für kleine β lässt sich dies wegen eβ ≈ 1 + β direkt ablesen.
• Beispiel: e0,02 = 1.0202. Für große β berechne ( eβ − 1) ⋅ 100% .
= γ folgt hier
∂E {log yi log xi }
xik
≈
= γk
∂ log xik
E {yi xi }
(3.9)
nichtlinearen Funktion ist nicht identisch mit der nichtlinearen Funktion eines
(3.8)
Erwartungswertes.
3.5
• Das Problem lässt sich nur lösen, wenn man für υi (und damit für yi) Verteilungsannahmen trifft. Unterstellt man υi ~ N ( 0, σ2υ ) , dann ist die Verteilung
von yi lognormal. Es gilt dann für Modell (3.6):
1 ⎫
1 ⎫
⎧
⎧
E { yi xi } = exp ⎨E { log yi xi } + σ2υ ⎬ = exp ⎨( log xi ) ' γ + σ2υ ⎬
2 ⎭
2 ⎭
⎩
⎩
(3.10)
ausschließlich eine Funktion von xi ist. Daneben kann auch yi = z'i γ + υi mit
E { υi zi } = 0 gelten. Die Modelle beschreiben yi als Funktion unterschiedli-
cher erklärender Variablen mit E {yi xi } = x 'i β und E {yi zi } = z'i γ .
und
• Illustration:
Quelle: Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg
(Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auf-
• Aus der Annahme E {εi xi } = 0 für das Modell yi = x 'i β + εi folgt nicht, dass yi
Nur die Formulierungen
3.6
lage, Gabler-Verlag, Wiesbaden, S. 957-978.
Frage:
angemessene Umsatzvorgabe für Außendienstmitarbeiter (ADM)
Problem: Regionale Unterschiede, Fairness bei individuellen Vorgaben
Lösung:
Umsatzreaktionsfunktion zur Bewertung regionaler Faktoren via
Regressionsanalyse.
E {yi xi ,zi } = z 'i γ
a) Operationalisierung des Outputs: Absatzmenge oder Umsatz in €.
E {yi xi ,zi } = x 'i β
können nicht gleichzeitig zutreffen (solange nicht xi = –zi und β = −γ ).
3.7
3.8
b) Bestimmung von Einflussfaktoren & Datenquellen, z.B. Bevölkerungs-
BU: Branchenumsatz indiziert die Kaufkraft der Region
konzentration (amtl. Statistik), Anzahl der Kunden (Unternehmenssta-
BK: Bevölkerungskonzentration gibt Realisierbarkeit an
tistik), regionaler Branchenumsatz (GfK).
A: Anzahl der Kunden beschreibt das Marktpotenzial
c) Funktionalen Zusammenhang festlegen: Lineare Form impliziert konstante Grenzerträge, Fehlen von Interaktion. Multiplikative Form flexibler:
K
yi = α ⋅ Π x ikβk , β gibt Elastizitäten an.
Die Größen sind von ADM nicht beeinflussbar.
e) Parameterschätzung: Logarithmierung erlaubt lineare Schätzung:
k =1
ln ( yi ) = ln α + β1 ln (BUi ) + β2 ln (BKi ) + β3 ln ( Ai ) + εi
d) Datenbeschreibung (N = 20 regionale Beobachtungen)
Variable
Mittelwert
Variable
Minimum Maximum
Coeff.
SE
T
Branchenumsatz (BU)
1354
403
2525
ln(BU)
0,1244
0,0694
1,792
Bevölkerungskonzentration (BK)
0,794
0,673
1,000
ln(Bk)
1,0935
0,3313
3,301
115
81
172
ln(A)
0,3999
0,1974
2,025
3778
2663
5082
constant
5,705
0,7730
7,381
Anzahl der Kunden (A)
Umsatz (y)
3.9
R2
f)
= 0,62013
Adj. R2 = 0,54890 F = 8,7065 (p = 0,0012)
3.10
3.2 Auswahl der unabhängigen Variablen
Ergebnisinterpretation
3.2.1 Fehlerhafte Auswahl der Regressoren
• Eine Fehlspezifikation des Modells liegt sowohl vor, wenn relevante erklä-
–
hoher Erklärungsgehalt des Modells
–
positive Zusammenhänge zwischen Umsatz und (BU, BK, A).
–
Elastizität von ca. 0,40 für Anzahl Kunden gibt an, dass Umsatz um
rende Variablen ausgeschlossen werden, als auch wenn irrelevante erklä-
0,4% höher liegt, wenn Kundenstamm um 1% wächst. Wert plausibel, bei wachsendem Kundenstamm kann nicht jeder genauso inten-
rende Variablen berücksichtigt werden.
• Unterstellen wir
yi = x 'i β + z'i γ + εi
(3.12)
yi = x 'i β + υi
(3.13)
−1
siv betreut werden wie vorher.
• Der KQ-Schätzer aus (3.13) ist:
g) Festlegung der Umsatzvorgaben (für Soll-Ist-Vergleich) für jede Region i:
⎛ N
⎞
b2 = ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
N
∑xy
i =1
i
i
(3.14)
Unter der Annahme, dass (3.12) wahr ist, können wir ableiten:
Umsatzi = e5,705 ⋅ BUi0,1244 ⋅ BK1,0935
⋅ Ai0,3999
i
3.11
3.12
−1
⎛ N
⎞
b2 = β + ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
⎛
N
−1
⎞
N
N
∑ x z ' γ + ⎜⎝ ∑ x x ' ⎟⎠ ∑ x ε
i =1
i
i
i
i =1
i
i =1
i i
(3.15)
• Während der letzte Term in (3.15) unter Modell (3.12) einen Erwartungswert
von Null hat, stellt der zweite Term das Ausmaß der Verzerrung dar, wenn zi
nicht mitgeschätzt wird (omitted variable bias).
• Die Verzerrung entfällt nur, wenn entweder γ = 0 , d.h. die Modelle sind doch
N
gleich, oder wenn
∑ x z ' = 0 bzw. E { x z ' } = 0 , d.h. wenn xi und zi orthogoi =1
i
i
i
i
nal sind. Dies ist selten der Fall und geht – solange xi die Regressionskon-
stante enthält – nur, wenn E { zi } = 0 .
3.2.2 Auswahl der Regressoren
• Statistisch gibt es keine Vorgaben zur Auswahl der Regressoren, wenn das
Modell lediglich E(y |x) definiert. Aus ökonomischer Sicht nutzt man theoretische Modelle zur Begründung der Regressorenauswahl.
• Erklärende Variablen sollten vor der Schätzung bestimmt werden. Wählt
man sie aufgrund von Probeschätzungen, läuft man Gefahr, das Schätzmodell auf eine Stichprobe hin auszurichten (data fishing, data snooping, data
mining).
• Bei "Spezifikationssuchen" wird mittels Tests entschieden, welche erklären-
• Wenn wir (3.12) schätzen, obwohl (3.13) wahr ist, wird ein Koeffizient zuviel
den Variablen berücksichtigt werden.
geschätzt, der Null ist. Dies erhöht die Varianz der Schätzer. Die Koeffizienten bleiben unverzerrt.
3.13
• Auf dem Weg zur endgültigen Modellspezifikation wird in der Regel getestet,
ob (1) die Restriktionen der Theorie gelten und ob (2) zusätzlich nicht im
3.14
• Alternative Maße sind Akaikes Informationskriterium (AIC):
AIC = log
Modell enthaltene Restriktionen auferlegt werden können.
• Es gibt keinen Grund, warum ein Modell nur signifikante Variablen enthalten
• Das R2 kann nicht sinken, wenn zusätzliche erklärende Variablen berücksichtigt werden. Daher hat man das korrigierte R2 R2 entwickelt, welches
( )
einen Tradeoff zwischen Erklärungsgehalt und Anzahl der Regressoren (K)
berücksichtigt:
⎡⎣1
R2 = 1 −
⎡⎣1
N
i =1
(N − 1) ⎤⎦ ∑ ( y
i =1
i
1 N 2 K
∑ ei + N logN
N i =1
(3.18)
• In beiden Fällen sind Modelle dann gut, wenn die Kriteriumswerte klein ausfallen. Die „Strafe“ für zusätzliche Regressoren ist beim BIC größer als beim
AIC. Beim Vergleich genesteter Modelle nutzt man meist das R2 oder R2 , bei
nicht genesteten Modellen AIC oder BIC.
(N − K ) ⎤⎦ ∑ e
N
(3.17)
sowie Schwarz’ Bayesianisches Informationskriterium (BIC):
BIC = log
sollte. Auch insignifikante Koeffizienten können informativ sein.
1 N 2 2K
∑ ei + N
N i =1
2
i
− y)
2
(3.16)
3.15
3.16
• Man kann testen, ob eine R2-Verbesserung statistisch signifikant ist. Dies ist
identisch mit einem Test statistischer Signifikanz der Koeffizienten von hinzugefügten erklärenden Variablen:
f=
(R
2
1
− R02 ) J
(1 − R ) (N − K )
2
1
1 gilt t2 = f). Gemäß R2 kommt es hier also nicht auf statistische Signifikanz
an.
• Ebenfalls kann man t- und F-Tests direkt verwenden oder folgenden Zu-
(3.19)
sammenhang zur Auswahl von Regressoren nutzen. Unter H0 : γ = 0 gilt für
den KQ-Schätzer γ̂ mit Vˆ { γˆ } , dass
R12 und R02 repräsentieren die R2-Werte mit und ohne zusätzliche J erklären-
de Variablen, N – K sind die Freiheitsgrade des unrestringierten Modells. f ist
unter H0 F-verteilt.
• Die Teststatistik lässt sich ebenfalls als Kombination der R2 darstellen:
R12 > R02 genau dann, wenn f > 1. Das impliziert umgekehrt für J = 1, dass R2
genau dann steigt, wenn der t-Wert des Koeffizienten größer als 1 ist (für J =
−1
ξ = γˆ ' Vˆ {γˆ} γˆ
(3.20)
asymptotisch χ2 -verteilt ist mit J Freiheitsgraden (s. Wald-Test 2.63).
• Zwei einzelne t-Tests können zu anderen Ergebnissen führen als ein gemeinsamer F-Test. Will man 2 Variablen auslassen, sollte das per F-Test
geprüft werden. Das Ergebnis der t-Tests kann auch von der Reihenfolge
der Tests abhängen.
3.17
3.18
g ( xi , β ) = β1 xi1β2 xi2β3 .
3.3 Fehlspezifikation der funktionalen Form
oder
3.3.1 Nichtlineare Modelle
(3.28) gibt eine Cobb-Douglas-Produktionsfunktion mit zwei Inputs an.
• Die Linearitätsannahme hinter E {yi xi } = x'i β kann eine starke Restriktion
(3.28)
Hier lässt sich durch Logarithmieren (und die Annahme β1 > 0) Linearität
herstellen, in (3.27) nicht.
darstellen.
• Nichtlinearitäten können sich durch quadratische Terme (Alteri, Alteri2 ) oder
Interaktionen (Alteri ⋅ Geschlechti) ergeben. In diesen Fällen bleibt das Mo-
• Daneben gibt es das Verfahren der nonlinear least squares, bei dem die
Zielfunktion
()
• Wenn sich Nichtlinearitäten in den Parametern ergeben, hat das gravierendere Konsequenzen. Für E {yi xi } = g ( xi ,β ) sei g(.) nichtlinear in β. Zum
Beispiel
g ( xi , β ) = β1 + β2 xiβ3
N
(
( ))
S β = ∑ yi − g xi ,β
dell linear in Parametern und kann durch KQ geschätzt werden.
i =1
2
hinsichtlich β mit numerischen Verfahren minimiert wird. Voraussetzung für
()
eine eindeutige konsistente Lösung ist, dass ein globales Minimum für S β
existiert.
(3.27)
3.19
3.20
H0 : α2 = … = αQ = 0 . Der Test reagiert sowohl auf unangemessene funktionale
3.3.2 Tests der funktionalen Form
• Mithilfe von t-, F- und Wald-Tests kann man prüfen, ob die funktionale Form
E {yi xi } = x 'i β durch nichtlineare Terme von xi ergänzt werden sollte.
Form als auch auf ausgelassene Variablen.
• Illustration:
• Der RESET-Test (regression equation specification error test) baut auf die
Idee auf, dass im vorgegebenen Modell nichtlineare Funktionen von yˆ i = x'i b
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 286-289.
nicht dazu beitragen sollten, yi zu erklären:
Problem: Determinanten der Lohnhöhe für 474 Bankangestellte
In einer Hilfsregression
y
= log (Jahreseinkommen)
EDUC
= Schulbildung (in Jahren)
wird überprüft, ob die Koeffizienten αn der Werte von yˆ n mit n ≥ 2 signifikant
FEMALE
= 1 für Frauen, 0 für Männer
von 0 verschieden sind. Man nutzt einen F- oder Wald-Test für
MINORITY = 1 für Nichtweiße, 0 für Weiße
yi = x 'i β + α2 yˆ i2 + α3 yˆ i3 + … + αQ yˆ iQ + υi
(3.31)
3.21
3.22
• Lineares Modell: yi = α +β1 EDUCi +β2 FEMALEi +β3 MINORITYi + εi
RESET-Test in Modell 2 ergibt signifikanten Parameter, in Modell 3 RESET-
• Ergebnisse: Koeffizienten, Standardfehler in Klammern
Test mit 2 Koeffizienten: gemeinsame Signifikanz durch F-Test bestätigt -
constant
EDUC
FEMALE
MINORITY
FITTED∧2
FITTED∧3
F-Statistik
Modell 1
Modell 2
Modell 3
9.199
(0.059)
0.077
(0.004)
0.261
(0.025)
-0.133
(0.029)
–
–
-69.82
(8.971)
-1.443
(0.172)
-4.877
(0.583)
2.488
(0.298)
0.947
(0.107)
–
827.26
(555.86)
10.631
(7.483)
35.894
(25.266)
-18.223
(12.836)
-14.111
(9.330)
0.484
(0.299)
–
77.6 (p = 0.00)
40.2 (p = 0.00)
Hinweis auf Fehlspezifikation (z.B. linearer Effekt von Bildung, nicht unbedingt zutreffend).
Modell könnte erweitert werden um quadratischen Bildungseffekt oder Interaktion des Bildungseffekts mit FEMALE oder MINORITY.
3.23
3.24
f=
3.3.3 Strukturbruchtests
• Bislang haben wir unterstellt, dass die funktionale Form eines Modells für alle Beobachtungen gleich ist. Über Interaktionsterme kann man prüfen, ob
sich marginale Effekte für Teilgruppen unterscheiden. Manchmal vermutet
man, dass sich alle Koeffizienten über 2 Teilstichproben (gi = 1 und gi = 0)
(S
R
SUR
− SUR ) K
(N − 2K )
,
wobei K die Anzahl der Regressoren im restringierten Modell ist (einschließlich Achsenabschnitt) und SR und SUR die restringierten und unrestringierten
Fehlerquadratsummen darstellen.
• Der F-Test wird im Zusammenhang von Strukturbrüchen als Chow-Test be-
unterscheiden.
yi = x 'i β + ( gi x 'i ) γ + εi
(3.32)
Für die Gruppe mit gi = 0 trifft der Koeffizient β, für die Gruppe mit gi = 1
β + γ zu. Unter H0 : γ = 0 sind die Gruppen identisch.
zeichnet. Man kann auch für g = 0 und g = 1 separate Modelle schätzten.
Dann ergibt sich SUR = S1 + S0 aus der Summe der jeweiligen Fehlerquadratsummen und SR nach wie vor aus der gepoolten Schätzung.
• Der Test kann auch für ausgewählte Koeffizienten statt dem Gesamtvektor
• Ein für die Nullhypothese angemessener F-Test ist
( x ) durchgeführt werden.
i
3.25
• In Zeitreihenanalysen hat man normalerweise klare Vorstellungen, zu wel-
3.26
3.4 Illustration: Die Erklärung von Hauspreisen
chem Zeitpunkt ein Strukturbruch stattfindet. Man kann den Chow-Test je-
• Eine Schätzgleichung, die den Preis eines Gutes auf seine Eigenschaften
doch auch nutzen, um alle zeitlichen Möglichkeiten zu überprüfen. In diesem
regressiert und zulässt, daraus den Wert einzelner Eigenschaften abzulesen,
Fall wird nach der größten F-Statistik gesucht. Die größte aus einer Gruppe
nennt man hedonische Preisfunktion. Hedonische Preise sind die mit ein-
von F-Statistiken folgt dann allerdings nicht mehr der herkömmlichen F-
zelnen Attributen des Gutes verbundenen Prämien beim Preis.
Verteilung.
• Beispiel: Die Daten enthalten Informationen zu 546 im Jahr 1987 verkauften
Häusern einer kanadischen Stadt. Eine KQ-Regression regressiert den logarithmierten Hauspreis auf die logarithmierte Grundstücksgröße, Zimmerzahl,
Badezimmerzahl und das Vorhandensein einer Klimaanlage.
3.27
3.28
• Der Preis für ein Haus mit 4 Zimmern, einem Badezimmer, einem Grund von
• Tab. 3..1 KQ-Scchätzerge
ebnisse: Hedonisc
H
che Preisfunktion
5000 sq.ft. und ohne Klimaanlage beträgt
7,094 + 0,4 log(5000) + 0,078 · 4 + 0,216 = 11,028 ,
was einem erwarteten Preis von exp{11,028 + 0,5 · 0,24562} = 63.460
kanad. Dollars entspricht. 0,24562 ist die geschätzte Varianz des als normalverteilt unterstellten Störterms.
• Das R2 und alle
e t-Werte
e sind ho
och. Der Koeffizie
ent für de
en Dumm
my zur Kllimaanla
age gibt a
an, dass Häuser mit
m Klima
aanlage ceteris
c
pa
aribus ca.. 21% teu
u-
• Mit dem RESET-Test lässt sich die funktionale Form überprüfen. Hier ergibt
der ŷ2 -Term eine t-Statistik von 0,514 (p = 0,61) und die Terme ŷ2 und ŷ3
rer sind
d als ohn
ne. Ein um
m 10% größeres Grundstü
ück führt c. p. zu einem um
m
gemeinsam eine F-Statistik von 0,56 (p = 0,57), es liegt also kein Problem
4% höh
heren Pre
eis, ein weiteres
w
Z
Zimmer
z plus 8%
zu
%.
vor. Dennoch kann man weitere Merkmale im Modell berücksichtigen:
3.2
29
3.30
Tab. 3.2
3 KQ-S
Schätzerg
gebnisse: Hedonis
sche Pre
eisfunktio
on, ausfü
ührlichere
es
Jetzt steigen das R2 sowie das korrigierte R2 und die t-Statistiken zeigen sig-
Modell
nifikante Effekte an. Der F-Test auf gemeinsame Signifikanz der zusätzlichen Variablen ergibt auf Basis der R2-Werte
( 0,6865 − 0,5674 ) 7
= 28,99 ,
(1 − 0,6865 ) ( 546 − 12)
was hochsignifikant ist, mit p = 0,000. Man sieht, dass sich durch die zusätzlichen erklärenden Variablen auch die vorherigen Koeffizienten geändert haben. Dies liegt daran, dass die betrachteten Merkmale untereinander korreliert sind. Auch hier zeigt der RESET-Test keine Fehlspezifikation an. Auch
dieses erweiterte Modell kann für Vorhersagen des Hauspreises verwendet
werden.
3.3
31
3.32
• Alternativ könnte man die Preise selbst statt ihres logarithmierten Wertes betrachten. In diesem Fall (Tabelle 3.3) reflektieren die Koeffizienten absolute
Tab. 3.3
3
KQ-S
Schätzerg
gebnisse
e: Hedon
nische Preisfunkttion, aussführliche
es
Modell mit linea
arer abhä
ängiger Variable
statt relative Preisunterschiede. Während in Tabelle 3.2 eine Zufahrt den
Hauspreis um 11% erhöhte, schlägt dies absolut mit 6688 Dollars zu Buche.
• Die Tabellen erlauben keinen direkten Rückschluss darauf, welche Spezifikation der abhängigen Variable vorzuziehen ist, mit dem R2 kann man hier
nicht argumentieren. Ein PE-Test des linearen Modells (siehe 3.2.3) ergibt
eine t-Statistik von -6,196, was das lineare Modell verwerfen würde. Testet
man das loglineare Modell, so ergibt sich eine Statistik von -0,569, so dass
man dieses nicht verwirft.
3.33
3.3
34
Tab. 3..4 Beschrreibende Statistiken, 1472
2 Individuen
3.5 Illustration: Die Erklärung individueller Löhne
• Löhne von 893 Männern und 579 Frauen für eine Zufallsstichprobe mit 1472
Beobachtungen für das Jahr 1994 aus Belgien, mit den Variablen
wage = Bruttostundenlohn in €
male = 1 wenn männlich, 0 wenn weiblich
educ = Bildungsniveau, 1= Grundschule bis 5 = Universitätsabschluss
exper = Berufserfahrung in Jahren.
Die Betrachtung der Mittelwerte ergibt Lohnunterschiede für Männer und
Frauen, die jedoch nicht unbedingt auf Diskriminierung zurückgehen:
3.35
3.3
36
Tab. 3..5 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 1
3.5.1 Lineares Modell
• Zunächst kann man mit einer Dummyvariablen den Geschlechterlohnunterschied bei gegebenem Niveau an Erfahrung und Bildung ablesen; er entspricht dem mittleren Lohnunterschied recht genau.
Die Erg
gebnisse
e implizie
eren, das
ss auch bei
b gleich
her Erfah
hrung un
nd Bildun
ng
ein hoc
chsignifikkanter Geschlech
hterlohnunterschie
ed existie
ert. Erfah
hrung un
nd
Ausbild
dung wirkken lohns
steigernd. Das ein
nfache Mo
odell erkllärt 36% der Varia
ation der Löhne.
3.37
3.3
38
• Man könnte
k
ve
ermuten, dass der Effektt zusätzllicher Be
erufserfah
hrung zu
u-
Dieser zusätzliche Koeffizient ist hochsignifikant von Null verschieden, R2
nächst groß ist und dann
n abfällt. Um das zu prüfen, wird zu
usätzlich ein quad
d-
und R2 steigen. Nun muss der gesamte Effekt der Erfahrung über beide Ko-
ratische
er Effekt der Erfa
ahrung im
m Modell berücksiichtigt, de
er einen negative
en
effizienten gemeinsam bestimmt werden, indem man die Lohngleichung
Koeffiz
zienten ha
aben sollte.
nach „exper“ ableitet (siehe (3.4)):
∂ wagei
= 0,358 − 0,0044 ⋅ 2 ⋅ exp eri
∂ exp eri
Tab. 3..6 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 2
Dies zeigt, dass der Effekt eines Jahres Erfahrung vom erreichten Bestand
an Berufserfahrung abhängt. Nach Jahr 1 ergibt sich 0,358 – 0,0088 ⋅1 ≅
0,35, also 35 Cents pro Stunde höherer Lohn für Personen mit einem statt 0
Jahren Berufserfahrung. Nach 30 Jahren ergeben sich 0,358 – 0,0088 ⋅ 30 =
0,094, also 9 Cents.
3.3
39
3.40
Der Lohnunterschied mit 31 statt 30 Jahren Berufserfahrung beträgt bei Berechnung über die Lohngleichung:
0,358 ( 31 − 30 ) − 0,0044 ( 31 − 30
2
2
3.5
5.2 Logliineare M
Modelle
• Nun errgibt sich für das logarithm
mierte Mo
odell ein anderes R2 sowie
e eine an
n-
) = 0,0896 Euro pro Stunde.
dere In
nterpretattion der Koeffizien
K
nten.
• Tab. 3..7 KQ-Scchätzerge
ebnisse: Spezifika
S
ation 3
• Der Ko
oeffizient des Ges
schlechte
erdummy
yies besc
chreibt de
en relativven Unterschied in den Löhnen, die
d für Mä
änner um
m ca. 12%
% höher sind:
s
Ergibt sich fü
ür
3.41
3.4
42
eine Frau ein Lohn von w*, so ist für einen sonst identischen Mann der loga-
• Beide log(exper) Koeffizienten sind signifikant am 5%-, aber nicht am 1%-
rithmierte Lohn um 0,118 höher, was im Lohn selbst einen Unterschied von
Niveau. Um ihre gemeinsame Signifikanz zu bestimmen, nutzt man einen F-
0,118
e
= 1,125, also 12,5% macht. Da exp (a) ≈ 1 + a für kleine a, liest man
die Prozentunterschiede oft direkt (und approximativ) am Koeffizienten ab,
Test, z.B. auf Basis der R2-Werte des vorliegenden Modells und des Modells
ohne die beiden log(exper) Variablen.
hier 11,8%.
f=
• Die Koeffizienten logarithmierter stetiger Variablen können nun als Elastizitäten interpretiert werden. Hätten wir keinen quadratischen Effekt der Berufser-
( 0,3783 − 0,1798 ) 2
= 234,2
(1472 − 5 )
(1 − 0,3783 )
(3.36)
Die Nullhypothese wird deutlich verworfen.
fahrung im Modell, so bedeutete der Koeffizient 0,11 der log(exper), dass der
• Zusätzlich kann man prüfen, ob das Modell mit nur einem Term für
Lohn um 0,11% steigt, wenn die Erfahrung um 1% steigt. Mit dem zusätzli-
log(exper) eine deutlich schlechtere Güte hat, was nicht der Fall ist, das R2
chen quadratischen Effekt beträgt die Elastizität jetzt jedoch
sinkt nur geringfügig:
0,11 + 2 × 0,026 ⋅ log ( exper ) ,
d.h. sie ist nicht über alle Werte von exper konstant.
3.43
3.44
Table 3.8
3 KQ-S
Schätzerg
gebnisse: Spezifik
kation 4
höher Gebildete
G
en betrac
chtet. Das
s Modell ist restriktiv, dadurch dasss ein line
earer Efffekt unte
erstellt wu
urde. Dies
se Annah
hmen kön
nnen wir lockern, indem wir
w
ein Modell mit D
Dummyva
ariablen schätzen
s
n. Dazu wird
w eine Referenzzkategoriie
ung ausg
genomme
en, um Multikolline
earität zu
u vermeid
den:
von der Schätzu
ebnisse: Spezifika
S
ation 5
Tab. 3..9 KQ-Scchätzerge
• In dies
sem Mod
dell ist de
er Bildun
ngseffekt linear im
m logarith
hmierten Wert de
er
Bildung
gsvariable. Ceteris paribus
s beträgt der Log--Lohnuntterschied zwische
en
Bildung
gsstufe 2 und 1 0,437 (ln(2
2) – ln(1))) = 0,437
7 ⋅ 0,693
31 = 0,30, d.h. Personen auf Bildu
ungsstufe
e 2 verdie
enen um 0,3 höhe
ere logaritthmierte Löhne alls
Person
nen auf B
Bildungss
stufe 1. Der
D Absta
and wäch
hst auf 0,48, 0,61 und 0,70
0,
wenn man
m die Loglohnd
differenz zwischen
n Grunds
schulabso
olventen und noc
ch
3.4
45
• Im Ergebnis sind alle einzelnen Koeffizienten der Bildungsdummies signifikant und bestätigen den steigenden Verlauf, auch wenn einzelne Bildungseffekte anders ausfallen als auf Basis von Spezifikation 4.
3.4
46
3.5.3 Effekte des Geschlechts
• Bislang haben wir unterstellt, dass sich die Löhne von Männern und Frauen
lediglich um einen für alle Personen gleichen, konstanten Betrag unterschei-
• Da das Modell aus Tabelle 3.8 grundsätzlich in der allgemeineren Fassung
2
den. Mithilfe von Interaktionsvariablen kann man prüfen, ob einzelne erklä-
genestet ist, kann man die Modelle aus 3.8 und 3.9 per R -F-Test gegenei-
rende Variablen für Männer und Frauen den gleichen Effekt haben. Interakti-
nander testen.
onsvariablen sind hier das Produkt der erklärenden Variablen mit dem Ge-
f=
( 0,3976 − 0,3761) 3
= 17,358
(1472 − 7 )
(1 − 0,3976 )
(3.37)
schlechtsindikator.
• Interagiert man das gesamte Modell, so ergibt sich Tabelle 3.10, die man
Dies übersteigt den kritischen F3,1465-Wert am 1%-Niveau (3,78). Daher wer-
dann auch für den Chow-Test nutzen kann.
den die Restriktionen der Spezifikation aus Tabelle 3.8 verworfen.
3.47
3.48
terschiedliche Fehlertermvarianzen für die Teilstichproben möglich, während
Tab. 3..10 KQ-S
Schätzerg
gebnisse:: Spezifik
kation 6
die gemeinsame Schätzung eine einheitliche Varianz unterstellt. Wenn sich
bei getrennter Schätzung deutlich unterschiedliche Standardfehler ergeben,
deutet das auf Heteroskedastie hin. Die Koeffizienten selbst sind in beiden
Fällen gleich.
• Der Unterschied im Erfahrungseffekt für die Geschlechter ist nicht hochsignifikant. Die Bildungseffekte sind für Männer teilweise signifikant kleiner als für
Frauen. Der Koeffizienten von „male“ gibt nun nicht mehr den gesamten Unterschied zwischen den Geschlechtern an. Der Lohnunterschied nach 20
Jahren Erfahrung auf Bildungsstufe 2 beträgt: 0,154 + 0,041 log(20) – 0,097
Die gle
eichen Errgebnisse
e hätte man
m auch
h durch getrennte
g
ung für diie
Schätzu
= 0,180 zugunsten der Männer, also ca. 18% höhere Löhne.
beiden Geschle
echter errreichen können. Bei getre
ennter Schätzung
S
g sind un
n3.50
3.4
49
• Ein Test auf die gemeinsame Signifikanz aller interagierten Variablen ent-
Tab. 3.11 KQ-Schätzergebnisse: Spezifikation 7
2
spricht dem Chow-Test und lautet auf Basis der R -Werte:
f=
( 0,4032 − 0,3976 ) 5
= 2,7399 ,
(1 − 0,4032) (1472 − 12)
was die H0 nicht am 1%-, aber am 5%-Niveau verwirft.
• Schließlich kann man sich noch vorstellen, dass der Berufserfahrungseffekt
vom Bildungsstand abhängt. Auch dies kann durch Interaktionsterme überprüft werden.
Die Koeffizienten der Interaktionsterme geben an, wie stark sich etwa der
exper-Effekt bei höherer Bildung wandelt. Die Ergebnisse zeigen keine signi-
3.51
3.52
fikanten Unterschiede. Auch ein F-Test auf gemeinsame Signifikanz zeigt
keine Signifikanz.
3.5.4 Hinweise
• Bei der ökonomischen Interpretation der Ergebnisse ist Vorsicht geboten.
• Interessanterweise ist in der letzten Spezifikation fast nichts mehr signifikant,
2
Der Bildungseffekt gibt oft wieder, welchen Beruf Individuen mit dieser Bil-
obwohl das R recht hoch ausfällt. Dies weist auf Multikollinearität hin. Der
dung gewählt haben; er ist nicht „bedingt auf den Beruf“, da Berufe hier nicht
Test auf Gesamtsignifikanz des Modells generiert einen hoch-signifikanten
herausgerechnet wurden. Daher beschreibt er nicht den Effekt unterschiedli-
Wert. Dennoch würde man angesichts der offensichtlichen Multikollinearität
cher Bildung bei gegebenem Beruf, sondern einen Bildungseffekt, der Be-
vermutlich das Modell aus Tabelle 3.10 bevorzugen.
rufsunterschiede mit einschließt.
• Wichtig: Das Modell wurde nur für Erwerbstätige geschätzt. Für Nichterwerbstätige muss das so nicht gelten, insbesondere wenn sich die beiden
Gruppen systematisch unterscheiden. Übersieht man diesen Umstand, so
leidet die Interpretation unter Selektionsverzerrung. Das Problem kann ökonometrisch angegangen werden.
3.53
• Vorsicht ist geboten, wenn man die Koeffizienten kausal interpretieren will.
Dies wäre z.B. dann ein Problem, wenn sich die Gruppen (z.B. Bildung = 2
vs. Bildung = 3) auch durch andere als die hier beobachteten Merkmale unterscheiden (z.B. in unbeobachteten Größen wie Intelligenz und Fähigkeit).
Da auch diese Merkmale nicht herausgerechnet werden, schließt der Bildungseffekt ihre Lohnwirkung mit ein und wir können nicht sicher sein, dass
3.54
Literatur:
Verbeek, 2008, Kap. 3
Albers, S. und B. Skiera, 2000, in: Herrmann, A. u. C. Homburg (Hrsg.), Marktforschung – Methoden, Anwendungen, Praxisbeispiele, 2. Auflage, GablerVerlag, Wiesbaden, S. 957-978.
der Bildungseffekt auf Bildung statt z.B. auf Intelligenzunterschiede der
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Gruppe zurückzuführen ist.
Economics, Oxford Univ. Press, S. 286-289.
3.55
3.56
Lernziele Kapitel 4:
Kapitel 4: Heteroskedastie und Autokorrelation
• Warum
4.1 Konsequenzen für den KQ-Schätzer
und
wodurch
sollte
der
KQ-Schätzer
bei
Vorliegen
von
Heteroskedastie und Autokorrelation ersetzt werden?
4.2 Ableitung eines alternativen Schätzverfahrens
4.3 Heteroskedastie
• Was versteht man unter einem FGLS-Schätzer?
4.4 Heteroskedastie-Tests
• Wann sind Standardfehler robust?
4.5 Beispiel: Arbeitsnachfrage
• Wie lässt sich auf Heteroskedastie und Autokorrelation testen?
4.6 Autokorrelation
4.7 Tests für Autokorrelation erster Ordnung
• Wie unterscheiden sich AR(1) und MA(1) Prozesse?
4.8 Beispiel: Nachfrage nach Eiscreme
• Wie kann das Autokorrelationsproblem gelöst werden?
4.9 Alternative Autokorrelationsmuster
4.10 Vorgehensweise bei Vorliegen von Autokorrelation
4.1
4.1 Konsequenzen für den KQ-Schätzer
• Unser Modell lautet
bzw.
4.2
terme z.B. zeitlich benachbarter Beobachtungen korreliert, d.h. die Varianz-
yi = x'i β + εi
(4.1)
Kovarianz-Matrix ist keine diagonale Matrix. Beide Phänomene widerspre-
y = Xβ + ε
(4.2)
chen der Annahme (4.4).
Wir unterstellen die Gauss-Markov-Annahmen A1 – A4, zusammengefasst:
E {ε X} = E {ε} = 0
(4.3)
V {ε X} = V {ε} = σ2 I.
(4.4)
Die Störtermverteilung hat Erwartungswert Null, Varianzen sind konstant und
• Als allgemeine Schreibweise führen wir ein
V { ε X} = σ2 Ψ ,
(4.5)
wobei Ψ eine positiv definite Matrix darstellt, die von X abhängen kann.
• Da die Annahme (4.4) für den Beweis der Unverzerrtheit des KQ-Schätzers
nicht genutzt wurde, gilt die Unverzerrtheit unabhängig von Ψ.
die Kovarianzen Null.
• Unter Heteroskedastie haben unterschiedliche Beobachtungen unterschiedliche Varianzen, d.h. die Elemente auf der Hauptdiagonalen der Varianz-
• Lediglich der Ausdruck für die Varianz-Kovarianz-Matrix von b ändert sich
mit (4.5) statt (4.4). Da b = ( X ' X ) X ' y = β + ( X ' X ) X ' ε , hängt die Streuung
−1
−1
Kovarianz-Matrix sind nicht identisch. Unter Autokorrelation sind die Stör4.3
4.4
von b von der Varianz-Kovarianz-Matrix von ε ab. Für gegebenes X erhalten
Standardfehler, (c) gelegentlich ergeben sich die Probleme durch Fehlspezi-
wir
fikation des Modells, was behoben werden kann.
{
}
V {b X} = V ( X ' X ) X ' ε X = ( X ' X ) X ' V {ε X} X ( X ' X )
−1
−1
−1
= σ ( X ' X ) X ' ΨX ( X ' X )
2
−1
−1
Dies lässt sich nur dann zu σ2 ( X ' X )
−1
(4.6)
vereinfachen, wenn Ψ = I. Gilt das
nicht, so sind die Standardfehler des KQ-Schätzers falsch berechnet. Dadurch werden t- und F-Tests ungültig. Das Gauss-Markov-Theorem lässt
sich nicht mehr beweisen, KQ ist nicht mehr das beste unter allen linearen
und erwartungstreuen Schätzverfahren.
• Es gibt drei Möglichkeiten, Heteroskedastie- und Autokorrelationsprobleme
zu lösen: (a) Ableitung eines neuen BLUE-Schätzers, (b) Korrektur der KQ4.5
V {P ε X} = P V {ε X} P' = σ2P Ψ P' = σ2 I
4.2 Ableitung eines alternativen Schätzverfahrens
• Wir unterstellen (4.5) und dass wir die positiv definite Matrix Ψ kennen. Wir
transformieren das Modell so, dass es die Gauss-Markov-Bedingungen wie-
Also erfüllt P ε die Gauss-Markov-Bedingungen und wir können das ganze
Modell transformieren zu
Py = P X β + Pε
der erfüllt.
• Wir nehmen an, dass es eine quadratische, nichtsinguläre Matrix P gibt, so
bzw.
y* = X * β + ε * ,
(4.8)
wobei ε* nun den Gauss-Markov-Bedingungen genügt. Nutzt man den KQSchätzer für das so transformierte Modell, ergibt sich wiederum ein BLUE-
dass
Ψ = P'P
−1
• Nun lässt sich schreiben:
4.6
(4.7)
Ψ = (P 'P ) = P−1 (P ')−1
−1
Schätzer für β. Natürlich sieht P unterschiedlich aus, je nachdem, ob ein
Heteroskedastie- oder ein Autokorrelationsproblem gelöst wird.
P Ψ P' = P P−1 (P')−1P' = I
• Der Schätzer für β ist
−1
−1
βˆ = ( X * ' X * ) X * ' y* = ( X' Ψ−1 X ) X' Ψ−1y
• Es folgt für den mit P vormultiplizierten Störterm, dass
(4.9)
E {P ε X} = P E {ε X} = 0
4.7
4.8
und wird verallgemeinerter KQ- oder GLS- (generalized least squares)
Schätzer genannt. Für Ψ = I ergibt sich der KQ-Schätzer.
• Um den GLS-Schätzer zu bestimmen, braucht man Ψ, was wir nicht kennen
• Da der GLS-Schätzer β̂ BLUE ist, ist seine Varianz kleiner als die korrigierte
Varianz des KQ-Schätzers b (4.6). Es lässt sich nachweisen, dass
V {b} − V βˆ positiv semi-definit ist.
{}
und schätzen müssen. Verwendet man eine Schätzung für Ψ, so spricht man
vom feasible-GLS (FGLS oder EGLS, für estimated-GLS) Schätzer.
• Man gewinnt GLS-Schätzer oft durch Umkodieren der Variablen und wendet
dann KQ an. Dann werden die Varianz-Kovarianz-Matrix von β und die
Fehlertermvarianz direkt in korrigierter Form ausgewiesen.
{}
−1
−1
V βˆ = σ2 ( X * ' X * ) = σ2 ( X ' Ψ−1 X ) ,
(4.10)
wobei σ2 wie folgt geschätzt wird:
σ̂2 =
(
)(
)
(
)
(
)
1
1
y * − X * βˆ ' y * − X * βˆ =
y − Xβˆ ' Ψ−1 y − Xβˆ .
N−K
N−K
(4.11)
4.9
4.3 Heteroskedastie
4.10
• Annahme: Die Heteroskedastie folgt der allgemeinen Form:
4.3.1 Einführung
• Man spricht von Heteroskedastie, wenn V {ε X} diagonal ist, aber nicht σ ⋅ I
2
entspricht. Die Störterme sind untereinander unkorreliert, aber die Varianz
von ε variiert über die Beobachtungen.
• Beispiel: Lebensmittelausgaben (yi) werden auf eine Konstante und das verfügbare Einkommen (DPIi) regressiert. Man erhält eine positive Steigung und
V {εi X} = V {εi xi } = σ2 hi2 ,
(4.13)
wobei alle hi2 bekannt und positiv sind. Unter der Annahme, dass es keine
Autokorrelation gibt, lässt sich schreiben
V {ε X} = σ2 Diag{ hi2 } = σ2 Ψ
(A9)
Diag{ hi2 } ist eine diagonale Matrix mit den Elementen h12 ,h22 ,…,hN2 . Die An-
erwartet, dass die Streuung der Lebensmittelausgaben bei Hochverdienern
nahme A9 ersetzt unsere Annahmen A3 und A4. Sobald die Varianz von ε
größer ist als bei Geringverdienern. Diese Form von Heteroskedastie kann
von den erklärenden Variablen abhängt, gilt auch A2, die Annahme der Un-
wie folgt modelliert werden:
abhängigkeit von ε und X nicht mehr. A1 und A2 werden ersetzt durch
{
}
V εi DPIi = σi2 = σ2 exp {α2 DPIi } = exp {α1 + α2 DPIi }
(4.12)
E {ε X} = 0
(A10)
• Wir suchen den BLUE-Schätzer für β im Modell
Hier wäre α1 = log σ2 und α2 beliebig.
4.11
4.12
yi = x 'i β + εi ,
i = 1,2,…,N
⎧ε ⎫ 1
1
V ⎨ i X ⎬ = 2 V {εi X} = 2 ⋅ σ2 ⋅ hi2 = σ2
hi
⎩ hi ⎭ hi
(4.14)
unter den Annahmen A9 und A10. Für P wählen wir
P = Diag{ hi−1} ,
(4.15)
und der KQ-Schätzer lautet (als Spezialfall von (4.9)):
−1
⎛ N
⎞
βˆ = ⎜ ∑ hi−2 xi x 'i ⎟
⎝ i =1
⎠
eine diagonale Matrix mit den Elementen h1−1,…,hN−1. Elemente des Vektors
der transformierten Daten sind dann yi* = yi hi ,
xi* = xi hi , εi* = εi hi .
• Man erhält den GLS-Schätzer für β, indem man den KQ-Schätzer auf das
transformierte Modell anwendet:
y ⎛x ⎞
ε
yi* = xi* ' β + εi* ⇔ i = ⎜ i ⎟ ' β + i
hi ⎝ hi ⎠
hi
N
∑h
i =1
−2
i
(4.18)
xi yi
• Dieser Schätzer wird auch als gewichteter KQ-Schätzer bezeichnet
(weighted least squares): Jede Beobachtung ist mit einem Faktor gewichtet,
der proportional zum reziproken Wert der Fehlervarianz ist. Unter A9 und
(4.16, 4.17)
A10 ist der GLS-Schätzer BLUE. So erhalten Beobachtungen mit großer Varianz in der Schätzung ein kleineres Gewicht als Beobachtungen mit kleiner
• Der resultierende Störterm ist nun homoskedastisch (siehe 4.13):
Fehlertermvarianz.
4.13
• Die Interpretation der geschätzten Koeffizienten bezieht sich auf das Originalmodell, nicht auf das transformierte Modell. Im transformierten Modell
1
wird auch die Konstante transformiert und hier durch die Variable
ersetzt.
hi
Das transformierte Modell wird daher ohne eigentliche Konstante geschätzt.
4.14
4.3.2 Eigenschaften des Schätzers und Hypothesentests
• Da GLS ein KQ-Schätzer auf ein transformiertes Modell ist, der die Gauss-
Markov-Eigenschaften erfüllt, lassen sich seine Eigenschaften analog zum
KQ-Fall ableiten.
• Die Varianz-Kovarianz-Matrix von β̂ ergibt sich aus
−1
{}
⎛ N
⎞
V βˆ = σ2 ⎜ ∑ hi−2 xi x 'i ⎟
⎝ i =1
⎠
(4.19)
Dabei wird σ2 unverzerrt geschätzt durch
σˆ 2 =
(
1 N −2
∑ hi yi − x 'i βˆ
N − K i =1
)
2
(4.20)
• Wenn wir wie in A5 normalverteilte Störterme unterstellen, folgt, dass β̂ nor-
malverteilt ist mit Erwartungswert β und einer Varianz wie in (4.19).
4.15
4.16
• Damit können wir t-Tests legitimieren, z.B. für H0: β2 = 1 gegen H1: β2 ≠ 1
nutzen wir
{ }
{}
Schätzer β̂ und seine geschätzte Varianz V Rβˆ = R V βˆ R' zur Ableitung
der Waldstatistik
βˆ − 1
t= 2
se βˆ 2
(4.21)
( )
) ( { } ) (R βˆ − q) ~ χ
ˆ {βˆ} eine F-Statistik berechnen, für die gilt
Es lässt sich ebenfalls mit σ̂ und V
(
ξ = Rβˆ − q ' R Vˆ βˆ R '
−1
2
J
2
• Ohne die Annahme normalverteilter Störterme folgt diese Teststatistik unter
βˆ − 1
H0 nicht der tN-K-Verteilung. 2
wäre dann asymptotisch standardnorse βˆ 2
f = ξ J ~ FJ,N −K .
( )
malverteilt, was am 5%-Signifikanzniveau zu einem kritischen Wert von 1,96
führt.
• Auch F- und Wald-Tests können wie zuvor verwendet werden. Unter H0: Rβ
= q und H1: Rβ ≠ q und R mit der Dimension J × K nutzt man den GLS-
4.17
4.3.3 Situation unbekannter Varianzen
4.18
• So kann die Varianz von ε auch durch mehr als eine exogene Variable be-
• In (4.13) haben wir unterstellt, dass wir die Störtermvarianzen kennen:
stimmt werden, und dies auch in nicht-proportionaler Form.
V {εi X} = V {εi xi } = σ h
2
z.B. V {εi } = σ2 xikα
2
i
V {εi } = σ2 ( xikα1 + xilα2 )
oder
(4.25)
In diesem Fall müssten die Parameter α oder α1 und α2 zunächst geschätzt
Das ist selten der Fall.
• Solange hi2 unbekannt ist, kann der GLS-Schätzer nicht bestimmt werden.
Man müsste die unbekannten hi2 -Werte durch unverzerrte oder konsistente
Schätzwerte ersetzen und hoffen, dass dies die Eigenschaften des GLSSchätzers nicht beeinträchtigt. Allerdings kann man mit N Beobachtungen
nicht N verschiedene hi-Werte verlässlich schätzen. Das geht nur mit zusätzlichen Annahmen etwa hinsichtlich einer funktionalen Form, mit der hi bestimmt wird.
werden, um dann den GLS-Schätzer auf die geschätzten Werte von hi2 anzuwenden. Hätten wir Schätzwerte α̂1 und α̂2 , so könnten wir ĥi2 als konsistenten Schätzer für hi2 bestimmen und den Feasible GLS (FGLS)-Schätzer
für β berechnen:
−1
⎛ N
⎞
βˆ * = ⎜ ∑ hˆ i−2 xi x 'i ⎟
⎝ i =1
⎠
N
∑ hˆ
i =1
−2
i
xi yi
(4.26)
• Wenn die Werte für hi2 konsistent geschätzt werden, sind FGLS βˆ * und GLS
β̂ asymptotisch äquivalent. Allerdings kann man für den FGLS-Schätzer die
4.19
4.20
BLUE-Eigenschaften für kleine Stichproben nicht nachweisen. Zumeist ist
FGLS auch kein linearer Schätzer, da ĥi2 in nichtlinearer Form von yi ab-
4.3.4 Heteroskedastie-konsistente Standardfehler für KQ-Schätzer
• Für unser Modell
yi = x 'i β + εi
hängt.
• Unter A9, A10 und einer Annahme zur Form der Heteroskedastie ist der
(4.28)
mit heteroskedastischen Fehlern gilt E {εi X} = 0 und V {εi X} = σi2 bzw. y =
FGLS-Schätzer für β konsistent und asymptotisch der Beste (asymptotisch
Xβ + ε mit V {ε X} = σ2 Ψ = Diag{σi2 }. Der KQ-Schätzer für β ist unverzerrt
effizient, d.h. mit der kleinstmöglichen Varianz).
und konsistent mit der Varianz-Kovarianz-Matrix
V {b X} = ( X' X ) X'Diag{σi2 } X ( X ' X )
−1
• Die Varianz-Kovarianz-Matrix wird geschätzt als
−1
{ }
⎛ N
⎞
Vˆ βˆ * = σˆ 2 ⎜ ∑ hˆ i−2 xi x 'i ⎟ ,
⎝ i =1
⎠
(4.27)
−1
(4.29)
• Um diese Matrix zu schätzen, benötigt man Schätzer für die σi2 für alle i, was
ohne weitere Annahmen nicht möglich ist.
wobei σ̂2 der Schätzer der Fehlervarianz ist (4.20). Dabei wird jetzt β̂ durch
βˆ * ersetzt.
• White (1980) hat gezeigt, dass lediglich ein konsistenter Schätzer der K × K-
Matrix
1
1
N
∑ ≡ N X 'Diag{σ } X = N ∑ σ x x '
2
i
2
i
i =1
i
i
4.21
4.22
(4.30)
als Schätzer der wahren KQ-Varianz genutzt werden – ohne dass wir die
wahre Form der Heteroskedastie kennen. Hier wird lediglich die Formel für
erforderlich ist. Dabei gilt unter allgemeinen Bedingungen, dass
1 N
S ≡ ∑ ei2 xi x 'i
N i =1
ein konsistenter Schätzer für
die Berechnung der Varianz von b ausgetauscht.
(4.31)
• Dies ist in den meisten Softwares als Option eingebaut. Wenn die Standard-
fehler von b als Wurzel der wie in (4.32) bestimmten Varianz berechnet wer-
∑ ist (ei ist der KQ-Störterm).
den, spricht man von robusten oder heteroskedastie-konsistenten Stan-
• Deshalb kann
dardfehlern oder White-Standardfehlern.
V̂ {b} = ( X' X )
−1
N
∑ e x x ' ( X' X)
i =1
−1
⎛ N
⎞
= ⎜ ∑ xi x 'i ⎟
⎝ i =1
⎠
2
i
N
−1
i
• Die t- und F-Teststatistiken sind auch bei White-Standardfehlern asympto-
i
⎛
i =1
2
i
i
i
i =1
tisch angemessen.
−1
⎞
N
∑ e x x ' ⎜⎝ ∑ x x ' ⎟⎠
i
i
(4.32)
• Kennte man die genaue Form der Heteroskedastie, so wäre ein FGLS-
Schätzer effizienter als der KQ-Schätzer mit White-Standardfehlern.
4.23
4.24
logei2 = log σ2 + z 'i α + logei2 − log σi2
4.3.5 Multiplikative Heteroskedastie
• Bei
multiplikativer
Heteroskedastie
wird
unterstellt,
dass
die
Fehlertermvarianz mit einem J-dimensionalen Vektor zi der exogenen erklärenden Variablen korreliert ist, der – um Positivität zu garantieren – exponentiell berücksichtigt wird:
V {εi xi } = σi2 = σ2 exp {α1zi1 + … + αJ ziJ } = σ2 exp {z'i α}
(4.36)
= log σ2 + z 'i α +
(4.37)
νi
Da νi keinen Erwartungswert von Null hat, kann die Konstante, logσ2 , nicht
konsistent geschätzt werden. Dennoch können mit (4.37) konsistente
Schätzergebnisse für α gewonnen werden.
• Nun sind 6 Schritte erforderlich, um konsistente Schätzer für β zu erhalten:
Typischerweise enthält z einen Teil der Regressoren aus xi oder ihre Transformation. Im letzten Unterkapitel war J = 1 und zi1 der Geschlechtsdummy.
• Um den FGLS zu bestimmen, benötigen wir konsistente Schätzer der unbe-
kannten Parameter α in hi2 = exp {z 'i α} . Zunächst stellen wir fest, dass log
σi2 = log σ2 + z 'i α . Für ei = yi − x 'i b kann man schreiben:
1. Schätze das Modell mit KQ, um die konsistenten b-Schätzer zu erhalten.
2. Berechne logei2 = log ( yi − x 'i b ) auf Basis der Residuen.
2
3. Schätze (4.37), um konsistente Schätzer für α zu erhalten.
4. Berechne hˆ i2 = exp {z'i αˆ } , transformiere alle Beobachtungen, und schätze
das Modell
4.25
⎛ε
yi ⎛ xi ⎞
= ⎜ ⎟ 'β + ⎜ i
⎜
⎟
⎜ hˆ
hˆ i ⎝ hˆ i ⎠
⎝ i
⎞
⎟⎟
⎠
Dieser wird bei KQ-Schätzung des transformierten Modells automatisch berechnet.
per KQ (inklusive transformierter Konstante). Dies ergibt den FGLSSchätzer β̂ * für β .
(
ˆ
1 N yi − x 'i β *
∑
N − K i =1
hˆ i2
Economics, Oxford Univ. Press, S. 322-327 und 333-334.
)
2
Frage: Was ist der Zusammenhang zwischen Zinsen auf US-Schatzanleihen
der US-Regierung und den Zinsen von AAA Schuldtiteln privater
6. Ein konsistenter Schätzer der Varianz-Kovarianz-Matrix von βˆ * ist
⎛ N x x'
Vˆ βˆ * = σˆ 2 ⎜ ∑ i 2 i
⎜ i =1 ĥ
i
⎝
{ }
• Illustration:
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
5. σ2 kann konsistent geschätzt werden durch
σˆ 2 =
4.26
Schuldner? (Vermutung: positiver Zusammenhang, schwächer im Bereich höherer Zinsen)
−1
⎞
⎟⎟
⎠
4.27
4.28
⎛ x2
⎜ 1
⎜0
Ω = σ2 ⎜
⎜
⎜0
⎝
Daten: Durchschnittszins der Schuldtitel von AAA Unternehmen (Moody's
Investor Service); Zins auf Schatzanleihen des Bundes (Federal Reserve)
0⎞
⎟
… 0⎟
⎟
⎟
2 ⎟
0 … xn ⎠
0
…
x 22
Jan. 1950 – Dez. 1999
Höchste Varianz in Monaten mit großen Änderungen in x, Beobachtungen
xi = monatliche Änderung der Zinsen der Schatzanleihen
mit hoher Varianz sind weniger informativ hinsichtlich α und β.
yi = monatliche Änderung der Zinsen der AAA Schuldtitel
Regressionsmodell: yi = α + βxi + εi
Schätzung: Abh. Variable: Änderung der Zinsen auf AAA Bonds
i = 1,2,… 600
Koeff.
Graphische Analyse ergibt über die Zeit steigende Volatilität des Residuums,
möglicherweise, weil Volatilität der Zinsen der Schatzanleihen stieg.
Modell der Heteroskedastie: E ( ε
2
i
) = σ x , so dass
2
2
i
KQ-
t
Std.fehler
White
t
Std.fehler
Konstante
0,0063
0,006
0,92
0,0069
0,91
Δ US-Schatzanleihe
0,2745
0,014
18,75
0,0228
12,00
R-squared: 0,37
N = 600 Beobachtungen
4.29
4.30
Nur kleine Unterschiede in Standardfehlern.
Zusammenhang ist am 5%-Signifikanzniveau nicht signifikant. 17 Beobach-
Modell zur Heteroskedastie erlaubt gewichtete Schätzung:
tungen verloren, für die x = 0 war. Diese hätten eine Varianz und ein Ge-
Wenn E ( εi2 ) = σ2 xi2 , führt folgende Modelltransformation zum effizienten
y
ε
1
Schätzer: i = α ⋅ + β + εí∗ wobei εí∗ = i , E ( εi∗2 ) = σ2
xi
xi
xi
wicht von Null.
Ergebnis der gewichteten Schätzung:
Koeff.
Std.fehler
-0,00238
0,0051
0,462
Δ US-Schatzanleihe
0,26226
0,1443
1,818
R-squared (ungewichtet)
0,37
n = 583
Konstante
• Modellalternative A für Heteroskedastie, wenn Varianz z.B. vor und nach
1975 unterschiedlich:
σi2 = γ1 + γ2Di ,
t
⎧0
wobei Di = ⎨
⎩1
für Jan. 1950 − Dez. 1974
für Jan. 1975 − Dez. 1999
Varianz nach 1974 um festen Betrag γ2 größer.
• Modellalternative B, wenn Varianz nach großen Schocks steigt:
σi2 = γ1 + γ2 εi2−1 = γ1 + γ2 ( yi −1 − α − β xi −1 )
2
4.31
4.32
Modell A
Vorgehensweise:
Koeff.
1) Schätze KQ und bestimme εi
2) Berechne εi2 und schätze γ1 und γ2 der alternativen Modelle,
also εi2 = γ1 + γ2Di + ηi
3) Bestimme für jedes i σ̂i2 , also σˆ i2 = γˆ1 + γˆ2Di
4) Gewichte die Daten mit
bzw. εi2 = γ1 + γ2 ei2−1 + ηi
bzw. σˆ i2 = γˆ1 + γˆ 2 eˆ i2−1
Std.fehler
Modell B
t
Koeff.
Std.fehler
t
Konstante
0.013
0.005
2.61
0.009
0.006
1.37
Δ US-Schatzanleihe
0.215
0.014 15.27
0.285
0.015 18.22
Welches der beiden Modelle ist zu bevorzugen? Testen, z.B. Vergleich der
Residuen und ihrer Varianz.
1
und schätze erneut:
σˆ i
4.33
4.4 Heteroskedastie-Tests
4.34
4.4.1 Test der Gleichheit zweier unbekannter Varianzen (Goldfeld-Quandt
• Es gibt eine Reihe von Tests auf Heteroskedastie. Wenn sie die Nullhypothese der Homoskedastie verwerfen, kann man entweder einen FGLSSchätzer nutzen, heteroskedastie-konsistente KQ-Standardfehler berechnen
Test)
• Wenn die Stichprobe aus zwei Teilen A und B besteht, kann die Nullhypothese lauten: H0 : σ2A = σB2 . Der Test baut auf den Zusammenhang
s2j
oder die Modellspezifikation ändern.
(N − K ) σ
j
2
j
~ χN2 j −K ,
j = A,B
auf.
Wenn s2A und sB2 unabhängig sind, folgt
s2A σ2A
~ FNA −K,NB −K
sB2 σB2
Unter H0 folgt also
λ=
4.35
s2A
~ FNA −K,NB −K
sB2
(4.42)
4.36
• Bei einer zweiseitigen Alternativhypothese H1 : σ2A ≠ σB2 wird H0 verworfen,
wenn das Verhältnis der geschätzten Varianzen zu stark nach oben oder unten von 1 abweicht. Bei einseitiger Alternativhypothese H1 : σ2A > σB2 wird H0
4.4.2 Der Breusch-Pagan-Test
• Zuvor haben wir unterstellt, dass σi2 = σ2 exp {z 'i α} . Dies kann auch allgemeiner gefasst werden:
σi2 = σ2 h ( z 'i α ) ,
verworfen, wenn λ zu groß ist. Die Alternativhypothese H1 : σ < σ würde
2
A
2
B
genauso getestet, nachdem man die Benennung der Gruppen vertauscht
hat.
(4.44)
wobei h eine unbekannte, differenzierbare und von i unabhängige Funktion
ist, mit h(.) > 0 und h(0) = 1. Für den Spezialfall h(t) = exp{t} erhalten wir unsere Ausgangshypothese.
• Der Test prüft H0: α = 0 gegen H1: α ≠ 0 unabhängig davon, welche konkrete
Form h annimmt.
• Die Teststatistik multipliziert das R2 der Regression von ei2 auf zi und eine
Konstante mit N. ξ = N ⋅ R2 ist asymptotisch χ2-verteilt mit J Freiheitsgraden
(J = Anzahl der Elemente von zi, ohne Konstante).
4.37
4.4.3 Der White-Test
4.38
4.4.4 Auswahl eines Tests
• Der White-Test verallgemeinert den Breusch-Pagan-Test, indem er für die
• Welcher Test angemessen ist, hängt davon ab, welche Form der
Form der Heteroskedastie keine konkrete Annahme macht. Geprüft wird, ob
Heteroskedastie vermutet wird. Ein Test ist umso stärker (d.h. er kann die
e durch die ersten und zweiten Momente und Interaktionsterme der ur-
falsche H0 mit umso höherer Wahrscheinlichkeit verwerfen), je konkreter die
sprünglichen Regressoren erklärt werden kann. Man berechnet wieder N ⋅ R2
Nullhypothese ist. Der Nachteil konkreter Nullhypothesen ist, dass bei Vor-
einer solchen Regression.
liegen einer anderen Form von Heteroskedastie diese nicht entdeckt wird.
2
i
• Diese Teststatistik ist χ2-verteilt und hat so viele (P) Freiheitsgrade, wie die
Hilfsregression von ei2 Regressoren berücksichtigt.
• Der allgemeinste Test, der White-Test, hat bei vielen Alternativen nur eine
geringe Teststärke (der β-Fehler ist potentiell hoch). Tests für konkretere
• Da in der Hilfsregression mehr Parameter berücksichtigt werden als im
Breusch-Pagan-Test, können mit dem White-Test auch allgemeinere Formen von Heteroskedastie aufgespürt werden. Allerdings kann es sich bei
den aufgespürten Problemen auch um Fehlspezifikationen handeln.
Nullhypothesen sind stärker, aber das wiederum nur gegenüber einer begrenzten Zahl von Alternativen.
• Oft ist es hilfreich, die Residuen gegenüber ausgewählten exogenen Variablen grafisch darzustellen.
4.39
4.40
4.5 Beispiel: Arbeitsnachfrage
Arbeits
snachfrag
gefunktion
n ableiten
n: L = g(Q
Q,r,w). r wird häu
ufig durch
h K appro
o-
• Wir betrachten ein einfaches Modell der Arbeitsnachfrage belgischer Unternehmen. Die Daten beschreiben für 569 Unternehmen folgende Variablen
für 1996:
ximiert.
• Zunäch
hst wird e
ein lineare
es Modell geschä
ätzt.
Tab. 4..1: KQ-Errgebnisse
e, lineare
es Modell
labour: Gesamtbeschäftigung, Anzahl der Arbeitnehmer
capital: Anlagekapital, in Millionen Euro
wage:
Lohnkosten pro Arbeitnehmer, in Tausend Euro
output: Wertschöpfung; in Millionen Euro
• In einer einfachen Produktionsfunktion Q = f(K,L) beschreiben Q den Output,
K und L den Faktoreneinsatz an Kapital und Arbeit. Die gesamten Produktionskosten sind rK + wL, wobei r und w die Faktorkosten für Kapital und Ar-
Alle Ko
oeffiziente
en haben
n die erw
warteten Vorzeiche
V
en: Bei höheren
h
L
Löhnen is
st
beit abbilden. Über Kostenminimierung bei gegebenem Output lässt sich die
die Bes
schäftigung gering
ger, höhe
erer Outp
put erfordert mehr Arbeitse
einsatz.
4.41
4.4
42
• Bevor wir
w die Sttandardfe
ehler und
d Teststattistiken in
nterpretie
eren, prüffen wir, ob
o
groß ist. Die Teststatistik ist N ⋅ R2 = 569 ⋅ 0,5818 = 331,0 , der kritische χ2-
Heteroskedastie
e
vorlie
egt.
Im
Rahm
men
eines
Bre
eusch-Pagan-Testts
regress
sieren wiir die qua
adrierten Störterm
me in einer Hilfsre
egression
n auf Löh
hne, Output und Kapital.
Wert für 3 Freiheitsgrade beträgt am 5%-Niveau 7,81. Damit wird die H0
homoskedastischer Fehlerterme klar verworfen.
• In Datensätzen, die aus unterschiedlich dimensionierten Beobachtungen bestehen (z.B. große und kleine Länder oder Unternehmen), ist das Verwerfen
egression
n Breusch
h-Pagan--Test
Tab. 4..2: Hilfsre
von Homoskedastie ein typisches Ergebnis. Eine Möglichkeit, dem Problem
zu begegnen ist, ein logarithmisches Modell zu schätzen, das sich etwa bei
einer Cobb-Douglas Produktionsfunktion Q = A Kα Lβ ergäbe.
• Bei dem
m hohen R2-Wertt und sign
nifikanten
n Koeffizienten istt es unwa
ahrschein
nlich, da
ass die urrsprünglic
che Fehlertermva
arianz für alle Beo
obachtung
gen gleic
ch
4.4
43
4.44
• Wenn man für dieses Modell die Breusch-Pagan-Hilfsregression von oben
Tab. 4..3: KQ-Errgebnisse
e, loglineares Mod
dell
durchführt, ergibt sich ein R2 von 0,0136, die Teststatistik des χ2-Tests be2
= 7,81 nicht mehr signifikant ist.
trägt 7,74, was am 5%-Niveau mit χ3,95%
• Man könnte auch einen White-Test durchführen. Dazu regressiert man ei2
auf alle Regressoren, ihre Quadrate und Interaktionsterme:
• Hier kö
önnen a
alle Koefffizienten als Elastizitäten
n interpre
etiert we
erden. Diie
Lohnelastizität der Arbeitsnachffrage istt mit –0,,93 recht hoch. Auch diie
Outputelastizitä
ät beträgtt fast 1, die
d Erhöh
hung des
s Outputs
s um 1%
% erfordert
ehr Arbeittseinsatz.
1% me
4.46
4.4
45
Tab. 4..4: Hilfsre
egression
n White-T
Test
Offensichtlich isst die Stö
örtermva
arianz immer noch
h eng ko
orreliert m
mit Outpu
ut
apital. Ma
an sollte also
a
im Originalm
O
odell (mindestens
s) heterosskedastie
eund Ka
konsisttente Standardfeh
hler berec
chnen:
Tab. 4..5: KQ-Errgebnisse
e, loglineares Mod
dell, Whitte Standa
ardfehler
Bei ein
nem R2 vvon 0,102
29 ist die
e χ2-Testtstatistik von 58,5
5 noch ho
ochsigniffikant. Der
D kritiscche Wert am 5%--Niveau mit
m 9 Freiheitsgraden beträ
ägt 16,92
2.
4.4
47
4.4
48
• Nun fa
allen die Standard
dfehler grrößer aus als in Tabelle
T
4
4.3,
aberr qualitatiiv
• Zwei der erklärenden Variablen sind statistisch signifikant und auch der FWert ließe uns die Nullhypothese der Homoskedastie verwerfen (kritischer
haben sich die E
Ergebnis
sse nicht veränder
v
rt.
• Den efffizienten FGLS-S
Schätzer kann ma
an bestim
mmen, we
enn man eine kon
n-
Wert bei J = 3 und N – K = 569 – 4 = 565 bei 5% beträgt 2,60).
krete Form
F
der Heteroskedastie unterste
ellt, z.B. dass
d
die Varianz von ε vo
on
• Um zu prüfen, ob die Heteroskedastie besser durch ein Modell aufgefangen
log(wag
ge), log(ccapital) und
u
log(o
output) be
estimmt wird. Dazu berecchnet ma
an
würde, das zusätzlich drei quadratische Terme der erklärenden Variablen
zunäch
hst die Hilfsregres
ssion in Tabelle
T
4.6.
enthält, wird das Modell aus Tabelle 4.6 entsprechend erweitert geschätzt.
Tab. 4..6: Hilfsre
egression
n Multiplik
kative He
eterosked
dastie
Die H0, dass die drei zusätzlichen Terme Koeffizienten von Null haben, können bei einer Teststatistik von F = 1,85 allerdings nicht verworfen werden (p
= 0,137).
• Um nun den FGLS-Schätzer der Arbeitsnachfragegleichung zu erhalten,
müssen die Daten transformiert werden. Bis auf die Konstante (vgl. (4.39))
sind die Parameter in Tabelle 4.6 konsistent. Mit Hilfe der auf Basis dieser
4.50
4.4
49
Regression vorhergesagten Werte hˆi = hˆi2 mit hˆ i2 = eˆ i2 werden die Original-
Tab. 4..7: FGLS-Ergebnisse, logliineares Modell
M
daten transformiert. Da die Inkonsistenz der Konstanten der Hilfsregression
über die Transformation alle Daten in der Arbeitsnachfragegleichung proportional betrifft, hat sie keinen Einfluss auf die letztendlichen Schätzergebnisse
(siehe Tabelle 4.7).
• Der Ve
ergleich d
der Standardfehlerr zwische
en Tabelle 4.7 (FG
GLS) und
d 4.5 (Wh
hite-Stan
ndardfehler)
eigt
den
groß
ßen
Efffizienzge
ewinn:
Stdfehle
er
ze
FGLS
White
(β ) < Stdfehller (β ) . Ein Veergleich mit den Standarddfehlern in 4.3 isst
nicht nützlich, d
da letztere
e unkorrig
giert und damit fa
alsch sind
d. Die Koe
effiziente
en
n des Ka
apitals – nicht
n
wes
sentlich geändert.
g
. Letztere
er
haben sich – biis auf den
ant.
ist jetztt signifika
4.51
4.5
52
• Wir prüfen H0: βlog( wage) = −1 gegen H1: βlog( wage) ≠ −1 mit t = (-0,856 + 1)/0.072 =
2,01, was am 1%-Niveau nicht, aber am 5%-Signifikanzniveau noch verwor-
so dass die Verwendung eines anderen Schätzverfahrens nie zu einem höheren Wert für das R2 führen kann.
fen wird.
• Das R2 in Tabelle 4.7 (FGLS) ist höher als in Tabelle 4.3 (KQ-Schätzer). Allerdings musste in Tabelle 4.7 das nicht-zentrierte R2 berechnet werden, da
das Modell ohne (echte) Konstante geschätzt wurde. Außerdem wurde das
R2 in Tabelle 4.7 für eine transformierte abhängige Variable bestimmt, umgerechnet auf die Originalvariable würde das R2 sinken.
• Würde man in Tabelle 4.7 die Berechnungsart R2 = corr2{yi , yˆ i} nutzen und
ŷi = x 'i βˆ * setzen, ergäbe sich R2 = 0,8403, was nur geringfügig unter dem
R2 aus Tabelle 4.3 liegt. Der KQ-Schätzer maximiert per definitionem das R2,
4.53
4.6 Autokorrelation
4.54
• Beispiel: Monatliche Nachfrage nach Eiscreme. Der Fehlerterm ε enthält
• Wenn die Kovarianz von Fehlertermen nicht Null ist und statt dessen zwei
hier den Einfluss des Wetters. Abbildung 4.1 beschreibt die auf Basis eines
oder mehr aufeinander folgende Störterme korreliert sind, sprechen wir von
Autokorrelation oder serieller Korrelation. Solange E {ε X} = 0 , sind die
geschätzten Modells vorhergesagten Werte (Linie) sowie die tatsächlich be-
Konsequenzen von Autokorrelation und Heteroskedastie ähnlich: Der KQ-
Residuen.
Schätzer ist unverzerrt und ineffizient, die Standardfehler sind falsch.
obachteten Werte (Punkte). Es gibt jeweils Gruppen positiver und negativer
Abb. 4.1: Tatsächliche und vorhergesagte Eisnachfrage (März 1951 – Juli
• Autokorrelation gibt es typischerweise bei Zeitreihendaten, wo die Beobach-
1953)
tungen (indexiert nun mit t = 1,2,…,T statt mit i = 1,2,…N) geordnet vorliegen. Der Störterm beschreibt den Einfluss von Größen, die nicht im Modell
berücksichtigt wurden. Ausgeschlossene Variablen sind ein häufiger Grund
für positive Autokorrelation. Insofern weist Autokorrelation auch oft auf Fehlspezifikation hin.
4.55
4.56
4.6.1 Autokorrelation erster Ordnung
• Jede Form von Autokorrelation führt zu einer anderen Varianz-KovarianzMatrix der Störterme V{ε}. Am häufigsten betrachtet man autoregressive
Prozesse erster Ordnung. Der Störterm von
yt = x't β + εt
(4.47)
folgt dann auf seinen Vorläufer gemäß: εt = ρεt −1 + νt .
• In makroökonomischen Analysen führen Konjunkturzyklen zu ähnlichen Effekten. Positive Autokorrelation ist die Regel, negative ist eher selten (positive und negative Störterme würden abwechseln).
(4.48)
Dabei hat νt den Mittelwert 0 und die konstante Varianz σ2ν ohne serielle Korrelation. νt wird in jeder Periode neu und unabhängig von vorherigen Werten
bestimmt. Es wird unterstellt, dass xt und alle Störterme statistisch unabhängig sind. ρ und σ2ν sind unbekannt. Wenn ρ = 0 ist, gelten für εt = νt die Standardannahmen A1 – A4.
4.57
• Wir unterstellen typischerweise, dass ε1 einen Erwartungswert von 0 und die
4.58
cov {εt , εt −1} = E {εt εt −1} = ρ E {ε2t −1} + E {εt −1νt } = ρ
gleiche Varianz wie spätere εt hat, sowie dass |ρ| < 1. Wenn |ρ| < 1, sprechen wir von einem stationären autoregressiven Prozess erster Ordnung.
Bei stationären Prozessen sind Mittelwert, Varianz und Kovarianz von εt über
E {εt εt − 2 } = ρ E {εt −1 εt − 2 } + E {εt − 2 νt } = ρ2
σ2ν
1 − ρ2
(4.51)
und allgemein gilt für s ≥ 0
folgt, dass E {εt } = 0 und aus
E {εt εt − s } = ρs
V {εt } = V {ρ εt −1 + νt } = ρ V {εt −1} + σ
2
(4.50)
Die Kovarianz für Fehlerterme im Abstand von 2 Perioden ist gegeben durch
die Zeit konstant. Aus
E {εt } = ρ E {εt −1} + E {νt }
σ2ν
1 − ρ2
2
υ
σ2ν
.
1 − ρ2
(4.52)
• Somit sind – solange 0 < ρ < 1 – alle Elemente von ε mit steigendem zeitli-
ergibt sich
chem Abstand immer schwächer korreliert. Dabei enthält die Varianzσ2ν
σ2ε = V {εt } =
1 − ρ2
(4.49)
Kovarianz-Matrix von ε keine Nullen. Für einen FGLS-Schätzer kann eine
entsprechende Transformationsmatrix abgeleitet werden.
• Für nicht-diagonale Elemente der Varianz-Kovarianz-Matrix von ε folgt aus
4.59
4.60
εt − ρεt −1
• Der KQ-Schätzer für die für t = 1 mit (4.54) und für t = 2,3,…T mit (4.53)
homoskedastische, nicht-autokorrelierte Störterme. Das transformierte Mo-
transformierten Beobachtungen ergibt den GLS-Schätzer β̂ , der die BLUE-
dell ist:
Eigenschaft hat. Ohne t = 1 spricht man vom Cochrane-Orcutt-Schätzer,
• Da
εt = ρεt −1 + νt ,
generiert
eine
Transformation
yt − ρyt −1 = ( xt − ρxt −1 ) ' β + νt
t = 2,3,…,T
wie
(4.53)
mit t = 1 vom Prais-Winsten-Schätzer.
und liefert, sofern ρ bekannt ist, bei KQ-Schätzung approximativ den GLSSchätzer. Allerdings kann die erste Beobachtung (t = 1) nicht genutzt werden, was aber – insbesondere wenn T groß ist – nur einen geringen Einfluss
auf die Schätzergebnisse hat.
• Für t = 1 nutzt man
1 − ρ2 y1 = 1 − ρ2 x ' 1β + 1 − ρ2 ε1 ,
wobei Var
{
(4.54)
}
1 − ρ2 ε1 = (1 − ρ2 ) ⋅ Var ( ε1 ) = σ2ν (siehe 4.49).
4.61
4.6.2 Unbekanntes ρ
4.62
sich ρ̂ und βˆ * nicht mehr ändern. Dadurch wird ρ zunehmend effizienter geschätzt, aber nicht unbedingt auch βˆ * . Da ρ sowieso konsistent geschätzt
• Im Normalfall kennt man ρ nicht. Gegeben
εt = ρεt −1 + νt ,
(4.55)
günstig sein.
lässt sich ρ durch KQ-Regression von εt auf εt-1 schätzen:
−1
⎛ T
⎞ ⎛ T
⎞
ρˆ = ⎜ ∑ e2t−1 ⎟ ⎜ ∑ et et −1 ⎟
⎝ t =2
⎠ ⎝ t =2
⎠
wurde, ist der Vorteil des Verfahrens gering. Bei kleinen Stichproben kann es
(4.56)
• Illlustration:
Quelle: Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson,
ist konsistent. Nutzt man ρ̂ statt ρ, um den FGLS-Schätzer βˆ * zu erhalten,
gilt die BLUE-Eigenschaft nicht mehr. Asymptotisch sind βˆ * und β̂ allerdings
äquivalent und man kann ignorieren, dass ρ geschätzt wurde.
S. 453, 471.
Fragestellung: Was ist der Zusammenhang zwischen Arbeitslosigkeit und
Armut?
• Beim iterativen Cochrane-Orcutt-Schätzer schätzt man zunächst KQ und
erhält b und ε. Dann schätzt man ρ̂ und erhält βˆ * . Nun erhält man neue Residuen und bestimmt ein neues ρ̂ . Die Prozedur wird so lange wiederholt, bis
4.63
Daten: US-Armutsrate (Bevölkerungsanteil mit Einkommen unter der Armutsgrenze), US-Arbeitslosenquote, 1980 – 2003 (N = 24)
4.64
Cochrane-Orcutt
KQ-Schätzung: Abh. Variable Armutsrate
Koeff.
Std.fehler
t
Konstante
9.790
0.611
16.02
Arbeitslosenquote
0.587
0.095
6.19
R2
0.635
N = 24
Prais Winsten
Koeff.
Std.fehler
t
Koeff.
Std.fehler
t
Konstante
9.890
0.713
13.87
9.643
0.763
12.64
Arbeitslosenquote
0.583
0.097
5.98
0.563
0.098
5.74
rho
0.807
0.855
Hochsignifikanter Zusammenhang, wie erwartet.
Vermutung: Autokorrelierte Störterme erster Ordnung, neue Schätzungen:
Auch bei korrigierenden Schätzverfahren bleibt signifikanter Zusammenhang
erhalten. Anstieg der Arbeitslosenquote um 0,01 (ein Prozentpunkt, z.B. von
5 auf 6 Prozent) erhöht Armutsrate um 0,583 ⋅ 0,01 = 0,0058. Da aber nur
die Hälfte der Bevölkerung im Arbeitsmarkt aktiv ist, impliziert jeder weitere
Arbeitslose ca. 1,2 weitere Personen in Armut; unterstellt wird, dass die Ar-
4.65
mutsrate = Anzahl Arme/Anzahl Einwohner, Alq = Anzahl Arbeitslose/Anzahl
4.66
4.7 Tests für Autokorrelation erster Ordnung
• Solange ρ = 0, ist KQ BLUE. Wenn ρ ≠ 0, sind die KQ-Standardfehler falsch.
der Erwerbspersonen sowie Einwohner ≅ 2 ⋅ Erwerbspersonen.
Daher sind Autokorrelationstests wichtig.
4.67
4.68
4.7.1 Asymptotische Tests
• Hier folgt unter H0: ρ = 0, (T - 1) ⋅ R2 der χ2 – Verteilung mit einem Freiheits-
• Die KQ-Residuen aus yt = x't β + εt enthalten Informationen über Autokorrelation. Ein erster Ansatz ist, εt mit oder ohne Regressionskonstante auf εt-1 zu
regressieren. Solange das ursprüngliche Modell keine verzögerten endogenen Variablen aufweist, ist der t-Test für ρ̂ asymptotisch gültig.
• Es lässt sich zeigen, dass
grad.
Je kleiner R2 ist, umso eher gilt ρ = 0. Der Test kann einfach für den Fall von
Autokorrelation höherer Ordnungen erweitert werden, indem der Hilfsregression weitere verzögerte Werte hinzugefügt werden, z.B. für Autokorrelation
t ≈ Tρˆ .
(4.57)
dritter Ordnung:
εt = α + ρ1εt −1 + ρ2 εt − 2 + ρ3 εt −3 + νt
Wir verwerfen H0: ρ = 0 gegen eine zweiseitige Alternative mit ρ ≠ 0, z.B.
wenn t > 1,96 am 5%-Niveau. Unterstellt man positive Autokorrelation, so
lautet H1: ρ > 0 und die Teststatistik am 5%-Niveau ist 1,64.
t = 4,5,…T
• Wenn das Modell verzögerte endogene Variablen enthält, ergibt sich entgegen Annahme A2 eine Korrelation der erklärenden Variablen mit dem
• Ein anderer Test (Breusch-Godfrey-Test) stützt sich auf das R2 der Hilfsre-
Störterm:
et
gression mit Konstante
εt = α + ρεt −1 + νt
yt = x't β + yt-1γ + ρet −1 + νt .
für t = 2,3,…T.
4.69
Das gleiche Problem ergibt sich, wenn einzelne Regressoren mit et-1 korre-
4.70
4.7.2 Der Durbin-Watson-Test
liert sind. Dennoch sind die oben genannten Tests auch in diesen Situatio-
• Der Durbin-Watson-Test ist sowohl asymptotisch als auch bei kleinen Stich-
nen angemessen, wenn die entsprechende Regressoren yt-1 bzw. xt in der
proben gültig, wenn 2 Annahmen zutreffen: (a) Die Regressoren sind nicht-
Hilfsgleichung berücksichtigt werden:
stochastisch, d.h. A2 gilt und es sind keine verzögerten endogenen Variab-
et = α + x 't β + ρ1et −1 + ρ2 et − 2 + … + ρMet −M + νt .
len im Modell. (b) x enthält die Regressionskonstante.
• Vermutet man im Hauptmodell Heteroskedastie, bei der die Varianz der Stör-
• Die Durbin-Watson-Teststatistik nutzt den KQ-Störterm et:
T
terme durch die erklärenden Variablen beeinflusst wird, dann gelten die tTest
Formen
der
Autokorrelationstests
nach
wie
vor,
dw =
solange
∑ (e
t =2
t
− et −1 )
2
T
∑e
heteroskedastie-konsistente White-Standardfehler berechnet werden.
t =1
T
da
dw =
∑ (e
t =2
2
t
− 2et et −1 + e2t −1 )
T
∑e
t =1
4.71
2
t
,
T
≈
(4.58)
2
t
2 ⋅ ∑ e2t
t =2
T
∑e
t =2
2
t
T
−
2∑ et et −1
t =2
T
∑ e2t −1
≈ 2 − 2 ⋅ ρˆ
(4.59)
t =2
4.72
• Ein dw-Wert von ungefähr 2 impliziert, dass ρ ≈ 0. Wenn dw < 2, so ist dies
Tab. 4..8: Obere
e und untere Gren
nzwerte der
d DW-T
Teststatisttik für α = 5%
ein Indiz für positive Autokorrelation mit ρ > 0, ist dw > 2, dann ist ρ < 0.
• Unter H0: ρ = 0 hängt die Verteilung von dw nicht nur von T und der Anzahl K
der Koeffizienten ab, sondern auch von den Werten der xt Variablen. Daher
gibt es keine allgemeingültigen kritischen Werte, sondern obere und untere
Grenzen für dw, die von T und K abhängen (siehe Tabelle 4.8).
Dabei liegt
l
der wahre krritische Wert
W dcrit zwischen
z
n oberem
m (upper) und unte
erem Grrenzwert (lower): dL < dcrit < dU und unter H0 gilt am 5%-Nivea
5
au
P {dw < dL } ≤ P {dw < dcrit } = 0,05
0
≤ P {dw < dU } .
4.73
Bei K = 5, T = 25 :
dL,5% = 1,038
dU,5%= 1,767
Bei K = 5, T = 100 :
dL,5% = 1,592
dU,5%= 1,758
• Der Durbin-Watson-Test ist nur anwendbar, wenn die Annahmen A1 – A4
α=5%
dL dcrit
4.7
74
dU
ρ>0
sowie ε ∼ N gelten. Dennoch wird er häufig verwendet. Die asymptotischen
dw
2
(ρ=0)
Tests jedoch gelten auch bei nicht normal verteilten Störtermen und können
bei verzögerten endogenen Regressoren im Modell angewendet werden.
ρ<0
• Bei einem einseitigen Test H0: ρ = 0 gegen H1: ρ > 0 ergeben sich drei Möglichkeiten:
(a) dw < dL
: Ho wird verworfen
(b) dw > dU
: Ho wird nicht verworfen
• Bei Test auf negative Autokorrelation mit H1: ρ < 0 liegt der kritische Wert
zwischen 4 − dU und 4 − dL , so dass die gleichen Tabellen genutzt werden
können.
(c) dL < dw < dU : Keine Aussage möglich, der Test hat kein Ergebnis.
• Je größer T, umso kleiner die Region, in der keine Aussage möglich ist.
4.75
4.76
4.8 Beispiel: Nachfrage nach Eiscreme
Abb. 4..2: Eiskon
nsum, Prreis und Tempera
T
tur (in Fa
ahrenheitt/100)
• Genutzt wird ein klassischer Datensatz mit 30 monatlichen Beobachtungen
von 18.3.1951 bis 11.7.1953 für folgende Variablen
cons:
Pro-Kopf Konsum (Einkauf in pints)
income: mittleres Haushaltseinkommen pro Woche (in US $)
price:
Preis für Eiscreme (pro pint)
temp:
Durchschnittstemperatur (in Fahrenheit)
• Abbildung 4.2 beschreibt die Daten über die Zeit und stützt die Vermutung,
dass die Temperatur eine Rolle für die Nachfrage nach Eis spielt.
• Um die
e Determinanten des
d Eisko
onsums zu
z bestim
mmen, wirrd ein line
eares Mo
odell ges
schätzt:
4.77
4.7
78
• Abb. 4..3: Beoba
achteter (Punkte)
(
und vorh
hergesagter (Linie
e) Konsum
m
Tab. 4.9: KQ-Ergebnisse
• Die Koeffizienten haben das erwartete Vorzeichen, das R2 ist hoch und die
Durbin-Watson-Statistik beträgt 1,0212. Die Grenzwerte für einen einseitigen
Test von H0: ρ ≤ 0 gegen H1: ρ > 0 am 5%-Niveau mit T = 30 und K = 4 sind
dL = 1,21 und dU = 1,65. Da 1,0212 < dL, kann H0 verworfen werden.
• Die Da
arstellung
g (Abb. 4.3)
4
zeig
gt, dass positive und neg
gative Re
esiduen in
i
Gruppe
en auftretten. Die saisonale
s
e Schwan
nkung de
er Nachfrage wird durch diie
Variablle temp n
noch nich
ht vollstän
ndig aufgefangen..
4.79
4.8
80
• Der Autokorrelationskoeffizient ρ, in εt = ρεt −1 + νt kann geschätzt werden,
Tab. 4..10: FGLS
S (iterativ
ve Cochrrane-Orcu
utt) Ergeb
bnisse
wenn man εt ohne Konstante auf εt −1 regressiert. Da E{ε} = 0, sollte eine
Konstante in diesem Modell nicht signifikant von Null verschieden sein.
• Man erhält ρ̂ = 0,401 und R2 = 0,149. Ein asymptotischer Test von H0: ρ = 0
gegen Autokorrelation erster Ordnung benutzt
T ⋅ ρˆ = 2,19 , was größer ist
als tkrit, 5% = 1,96, so dass H0 auch mit diesem Test verworfen wird.
• Der Breusch-Godfrey-Test auf Basis von R2 führt zu ( T − 1) ⋅ R2 = 4,32 , H0
wird verworfen.
• Daher ist KQ nicht BLUE, die Standardfehler in Tabelle 4.9 sind falsch. Ein
iteratives Cochrane-Orcutt-Verfahren ergibt die Schätzergebnisse in Tabelle
4.10.
• Die Ric
chtung und Größe
e der geschätzten
n Koeffiz
zienten wird
w tende
enziell be
estätigt. Die mit e
einem Stern verse
ehenen Größen
G
b
beziehen
sich auf das trans
sformierrte Mode
ell und kö
önnen nic
cht mit den
d
KQ-E
Ergebniss
sen in Ta
abelle 4..9
4.81
verglichen werden. Auch die Durbin-Watson-Statistik des transformierten
4.8
82
Tab. 4..11: KQ-S
Schätzun
ng, erweitterte Spe
ezifikation
n
Modells ist nicht mehr verlässlich.
• Autokorrelation kann ein Indikator dafür sein, dass das Modell fehlspezifiziert
ist. Daher kann man auch versuchen, das Problem durch Änderung der
Spezifikation zu lösen. Man könnte z.B. noch einen verzögerten Wert der
Temperatur (tempt-1) ins Modell aufnehmen (siehe Tabelle 4.11).
• Im Verrgleich zu
u Tabelle 4.9 ist die
d Durbin
n-Watson
n-Statistik
k mit 1,58 jetzt am
m
5%-Niv
veau in d
der Regio
on, in derr keine Aussage
A
möglich ist (1,14 bis 1,74).
Allerdin
ngs liegt der Wertt in der Nähe der oberen
o
G
Grenze,
so dass die H0 ehe
er
nicht ve
erworfen wird (bspw. am 1%-Nivea
1
au).
4.83
4.8
84
• Der verzögerte Wert der Temperatur hat einen signifikant negativen Koeffi-
4.9 Alternative Autokorrelationsmuster
zienten, während die kontemporäre Temperatur positiv mit der Eiscreme-
4.9.1 Autokorrelation höherer Ordnung
nachfrage korreliert. Das kann man so interpretieren, dass bei hohen Tem-
• Autokorrelation erster Ordnung kommt häufig vor, jedoch ist bei Quartals-
peraturen die Nachfrage steigt. Hält die hohe Temperatur jedoch für mehr
oder Monatsdaten auch denkbar, dass es quartals- oder monatsbezogene
als einen Monat an, geht die Nachfrage wieder zurück, vielleicht weil die Vor-
Störtermkorrelationsmuster gibt, z.B.
εt = γεt − 4 + νt
(4.60)
εt = γ1εt −1 + γ2 εt − 2 + γ3 εt −3 + γ4 εt − 4 + νt
(4.61)
räte noch nicht aufgebraucht sind.
oder
(4.61) nennt man Autokorrelation vierter Ordnung. Die FGLS-Schätzer können – solange kein xt mit dem Störterm korreliert ist – geschätzt werden, indem man mit den KQ-Residuen die Modelle (4.60) bzw. (4.61) schätzt. Anschließend müssen wieder die Daten transformiert werden, wodurch beim
Cochrane-Orcutt-Verfahren die ersten vier Beobachtungen verloren gehen.
4.85
4.9.2 Moving-Average-Residuen
eignis zum Zeitpunkt t nicht beeinflusst. Entsprechend erwarten wir eine Kor-
• Bislang haben wir unterstellt, dass alle Störterme untereinander korreliert
sind, wobei der Grad der Korrelation abnimmt, wenn der zeitliche Abstand
wächst. Alternativ könnte die Theorie vorgeben, dass nur ausgewählte Störterme
korreliert
sind;
dies
4.86
kann
durch
einen
moving
average
Störtermprozess modelliert werden und kann dann auftreten, wenn der
Messabstand der Datenpunkte kleiner ist als das Intervall, für das sie definiert sind.
relation in den Werten von Verträgen, die im Ein- oder Zweimonatsabstand
fällig werden, aber nicht darüber hinaus.
• Beispiel 2: Halbjährliche Beobachtungen der jährlichen Preissteigerung.
Unsere abhängige Variable beschreibt die Preissteigerung der letzten 6 Monate zum Termin 1.1 oder 1.7. und auch die erklärende Variable (z.B. das
Geldangebot) sei halbjährlich gemessen. Das wahre Modell ist
yt = x't β + νt ,
• Beispiel 1: Monatliche Daten zum Wert von 3-Monatsfestgeldverträgen. In
diesem Fall beeinflusst ein Ereignis im Monat t den Wert der Verträge, die in
den Monaten t, t+1 und t+2 fällig werden. Später fällige Verträge sind zum
Zeitpunkt t noch nicht ausgegeben, daher wird ihre Wertentwicklung vom Er4.87
t = 1,2,…T (halbjährlich)
(4.62)
wobei νt den Gauss-Markov-Bedingungen genügt. Für den jährlichen Preisanstieg gilt y*t = yt + yt-1 und
y*t = ( xt + xt-1 ) ' β + ν t +νt −1 , t = 1,2,…T
(4.63)
4.88
• In diesem Fall enthält die Varianz-Kovarianz-Matrix des Störterms zahlreiche
bzw.
y = x ' β + εt ,
*
t
*
t
t = 1,2,…T
(4.64)
Nullen:
⎡2σ ν2
⎢ 2
⎢ σν
⎢
0
E{ε t ε' t } = ⎢
⎢
⎢
⎢0
⎢
⎣0
mit εt = νt + νt-1 und x*t = xt + xt-1 . Wenn V {νt } = σ2ν , dann folgt für die Eigenschaften des Störterms in (4.64):
E {εt } = E {νt } + E {νt −1} = 0
V {εt } = V {νt + νt −1} = 2σν2
cov {εt , εt −1} = cov {νt + νt −1, νt −1 + νt − 2 } =
0
2σ ν2
σ ν2
0
σ ν2
2σ ν2
0
0
0
2σ ν2
0
0
σ ν2
0
0 ⎤
⎥
0 ⎥
⎥
0 ⎥
⎥
⎥
2
σν ⎥
⎥
2σ ν2 ⎦
Dieser Fall wird als moving average Störtermprozess erster Ordnung be-
E {νt νt −1} + E {νt νt − 2 } + E {νt −1νt −1} + E {νt −1νt − 2 } = σν2
cov {εt , εt − s } = cov {νt + νt −1, νt − s + νt −1− s } = 0
σ ν2
zeichnet, wobei in diesem Fall der Korrelationskoeffizient zwischen εt und εt-1
cov ( εt , εt −1 )
σ2
= ν2 = 0,5
a priori auf 0,5 festgesetzt ist: corr ( εt , εt −1 ) =
Var ( εt ) ⋅ Var ( εt −1 ) 2σν
s = 2,3,…
• Der allgemeine Fall eines moving average Prozesses erster Ordnung lautet
4.89
εt = νt + ανt −1 ,
mit |α| < 1
4.90
4.10 Vorgehensweise bei Vorliegen von Autokorrelation
• Es ist komplizierter, Modelle unter moving average als unter Autokorrelation
• In vielen Fällen weist Autokorrelation auf die Fehlspezifikation des Modells
zu schätzen, da die Transformation, um „Gauss-Markov-Fehler“ zu erhalten,
hin. In solchen Fällen sollte nicht der Schätzer, sondern das Modell geändert
aufwändiger ist. Falls die verwendete Software dazu keine Routine anbietet,
werden. Beispielsweise könnte es sich um Fehlspezifikation der Dynamik,
ist es einfacher, KQ zu schätzen und anschließend eine Korrektur für Auto-
ausgelassene Variablen oder Fehlspezifikation der funktionalen Form han-
korrelation undefinierter Natur durchzuführen.
deln.
4.91
4.92
4.1
10.1 Fehlspezifik
kation
• Die Residuen in dieser Abbildung sind stark korreliert, dw = 0,193. Die Lö-
• Angeno
ommen, das wah
hre Mode
ell lautett yt = β1 + β2 logxt + εt und der Wert
von xt steigt über die Ze
eit. Würden wir im
m Rahme
en eines linearen
l
Modells yt
egressierren, ergä
äbe sich ein
e Bild wie
w in Abb
bildung 4.4:
auf xt re
sung des Problems besteht jedoch nicht darin, den Schätzer zu ändern,
sondern die Modellspezifikation, und statt auf xt auf log xt zu regressieren.
• Autokorrelation kann sich auch bei Auslassen relevanter erklärender Variab-
Abb. 4.4
4 Tatsä
ächliche (Punkte)
(
und line
ear vorhe
ergesagte
e Werte (Linie) fü
ür
das wa
ahre Modell yt = 0,,5 log t + εt
len ergeben, wie wir am Eiscremebeispiel gesehen haben.
• Auch eine Fehlspezifikation der Dynamik kann zu Problemen führen.
• Beispiel: Wir haben im linearen statischen Modell
yt = x't β + εt
Autokorrelation erster Ordnung
(4.65)
εt = ρεt −1 + νt . Das Modell beschreibt
E {yt xt } = x 't β . Man könnte aber auch am Erwartungswert von yt vor dem
Hintergrund der Werte xt, xt −1 und yt–1 interessiert sein, wobei gilt:
4.94
4.9
93
E {yt xt ,xt −1,yt −1} = x 't β + ρ ( yt −1 − x 't −1 β )
(4.66)
• Um ein lineares Modell yt = x't β + εt mit autokorreliertem Störterm zu schät-
Dann lässt sich ein dynamisches Modell wie folgt formulieren:
yt = x't β + ρyt −1 - ρx't-1β + νt
4.10.2 Heteroskedastie- und Autokorrelation – konsistente Standardfehler
(4.67)
Nun enthält der Störterm keine Autokorrelation. Durch die Erweiterung des
zen, kann man entweder GLS verwenden oder beim KQ-Schätzer die Standardfehler korrigieren.
Modells um verzögerte exogene und endogene Variablen verschwindet die
• Insbesondere, wenn nach einer gewissen Lag-Länge H die Korrelation zwi-
Autokorrelation. Es gibt auch Fälle, in denen es ausreicht, nur yt-1 oder nur
schen εt und εt-s gegen Null geht oder wenn die Konsistenzbedingungen für
xt-1 ins Modell aufzunehmen.
den GLS-Schätzer nicht gelten, werden Heteroskedastie- und Autokorre-
• Es ist eine inhaltliche Frage, ob man sich für das Modell E {yt xt } oder für
das Modell E {yt xt ,xt −1,yt −1} interessiert. Letzteres generiert sicher eine bes-
lation-konsistente (HAC) oder Newey-West-Standardfehler bestimmt.
• Dabei werden die White-Standardfehler auf den Fall der Autokorrelation er-
sere Anpassung an die Daten. Allerdings ist der Durbin-Watson-Test bei
weitert. Die HAC Standardfehler werden auch verwendet, wenn das Autokor-
Modellen mit verzögerten endogenen Variablen nicht anwendbar.
relationsmuster über einen vorbestimmten Lag-Abstand von H hinausgeht.
Das Verfahren wurde für große Stichproben entwickelt.
4.95
4.96
Literatur:
Verbeek, 2004, Kapitel 4.
Heij, C. et al., 2004, Econometric Methods with Applications in Business and
Economics, Oxford Univ. Press, S. 322-327 und 333-334.
Murray, M.P., 2006, Econometrics. A Modern Introduction, Pearson, S. 453, 471.
4.97
Lernziele Kapitel 5:
Kapitel 5: Maximum Likelihood und 0/1 abhängige Variablen
5.1 Das Maximum Likelihood Verfahren (6.1)
• Was ist die Intuition des Maximum Likelihood Schätzers?
5.2 Inferenz im ML-Rahmen (6.2)
• Welche Eigenschaften haben Maximum Likelihood Schätzer?
5.3 Binäre abhängige Variablen (7.1)
• Welche Testverfahren gibt es im ML-Rahmen?
• Wie wird die Schätzgüte von ML-Schätzern gemessen?
• Wie gehen Probit- und Logit-Schätzer vor?
5–1
5–2
• Illustration 1: Die Wahrscheinlichkeit aus einer Urne mit Kugeln von denen
5.1 Das Maximum Likelihood Verfahren
der Anteil p rot ist (der Rest ist weiß), N1 rote und N-N1 weiße zu ziehen,
5.1.1 Einführung
lautet:
• Grundlage des Verfahrens ist eine Annahme bezüglich der Verteilung der
P {N1 rote, N − N1 weiße} = pN1 (1 − p )
N − N1
abhängigen Variable. Bedingt auf Kovariate ist lediglich ein Vektor von
.
(6.1)
Parametern unbekannt, der die Verteilung charakterisiert. Dieser wird so
Dieser Ausdruck stellt eine Likelihoodfunktion dar. Die Schätzung bestimmt
bestimmt, dass die Wahrscheinlichkeit, dass genau die vorliegenden Daten
den Wert für p, der (6.1) maximiert, p̂ . Rechnerisch ist es oft einfacher, den
generiert wurden, maximiert wird.
logarithmierten Wert zu maximieren:
log L ( p ) = N1 log ( p ) + (N − N1 ) log (1 − p )
• Beispiel: Eine normalverteilte Variable yi könnte durch den Mittelwert
d logL ( p )
β1+β2 xi und die Varianz σ2 charakterisiert werden.
dp
=
p̂ =
5–3
(6.2)
N1 N − N1
−
=0
p
1− p
(6.3)
N1
N
(6.4)
5–4
p̂ ist der Maximum Likelihood Schätzer und entspricht dem Anteil der roten
Der Beitrag jedes yi zur Likelihoodfunktion wird über die Dichtefunktion der
an allen Bällen. Eine Überprüfung der Bedingungen zweiter Ordnung ergibt,
Normalverteilung beschrieben:
dass ein Maximum vorliegt.
f ( yi | xi ; β, σ2 ) =
• Intuition: Die Wahrscheinlichkeit, die vorliegenden Daten zu beobachten,
⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪
exp ⎨ −
⎬.
σ2
2π σ2
⎩⎪ 2
⎭⎪
1
(6.7)
wird als Funktion der unbekannten Parameter beschrieben, die die
Wenn β = (β1, β2)' und alle i = 1, 2, ..., N Beobachtungen unabhängig sind,
Verteilung charakterisieren. Die Likelihoodfunktion wird dann über diese
lautet die auf x bedingte gemeinsame Dichte von y1, ..., yN:
Parameter maximiert.
N
f ( y1,...,yN |xi ; β, σ2 ) = ∏ f ( yi |xi ;β, σ2 )
i =1
• Illustration 2: Wir unterstellen A.1 – A.4 für
yi = β1 + β2 xi + εi,
⎛ 1
=⎜
⎜ 2π σ2
⎝
(6.6)
N
⎞
⎟
⎟
⎠
N
∏
i =1
⎧⎪ 1 ( yi − β1 − β2 xi )2 ⎫⎪
exp ⎨−
⎬
σ2
⎪⎩ 2
⎪⎭
(6.8)
2
d.h. E(εi | x) = 0, V(εi | x) = σ . Das ML-Verfahren erfordert zusätzlich eine
Verteilungsannahme, die wir als εi ∼ NID (0, σ2ε ) treffen.
Dies ist die Likelihoodfunktion, so dass die Log-Likelihoodfunktion lautet:
5–5
5–6
log L ( β, σ2 ) = −
N
1 N
log ( 2π σ2 ) − ∑
2
2 i =1
(y
i
− β1 − β2 xi )
2
σ2
wobei K die Anzahl der Steigungsparameter + 1 (für die Konstante) ist. β̂ hat
(6.9)
die gleichen Eigenschaften (unverzerrt, konsistent) wie beim KQ-Schätzer.
Nur der letzte Term variiert mit β und er entspricht der Summe der
quadrierten Residuen (2.12). Daher sind die ML-Schätzer des linearen
kann
für
den
ML-Schätzer
nur
Konsistenz
und
somit
existiert keine analytische Lösung für die unbekannten Parameter.
Der ML-Schätzer für σ2 lautet nach erster Ableitung und bei ei = yi − βˆ1 − βˆ 2 xi :
1 N 2
∑ ei
N i =1
• Allgemein
asymptotische Effizienz nachgewiesen werden. In den meisten Fällen
Modells identisch mit den KQ-Schätzern.
σˆ 2 =
• Wenn ε nicht-normal verteilt oder heteroskedastisch ist, ist die angegebene
(6.11)
Likelihoodfunktion falsch, da sie nicht die wirkliche Verteilung beschreibt.
Dies ist konsistent, aber nicht unverzerrt. Der unverzerrte (KQ-) Schätzer
lautet:
s2 =
1 N 2
∑ ei ,
N − K i =1
5–7
5–8
N
max logL ( θ ) = max ∑ logLi ( θ )
5.1.2 Allgemeine Eigenschaften des ML-Verfahrens
θ
• Im allgemeinen Fall sei f(yi | xi; θ) die Dichtefunktion für die endogene Größe
yi, die durch den K-dimensionalen Parametervektor θ charakterisiert wird.
θ
• Die Bedingungen erster Ordnung werden durch θ = θˆ erfüllt:
∂ logL ( θ )
Unter der Annahme unabhängig verteilter y und wenn X = (x1, ..., xN)' lautet
∂θ
=0
(6.13)
θ=θˆ
nicht analytisch bestimmen.
• Dies entspricht der Likelihoodfunktion:
i =1
∂θ
i =1
globales Maximum. In der Regel lässt sich die Lösung nur numerisch und
i =1
i =1
∂ logLi ( θ )
• Wenn die Log-Likelihoodfunktion global konkav ist, existiert ein eindeutiges
N
f ( y1,...,yN | X; θ ) = ∏ f ( yi |xi ; θ )
N
N
=∑
θ=θˆ
die gemeinsame Dichtefunktion:
N
(6.12)
i =1
L ( θ |y, X ) = ∏ Li ( θ |yi ,xi ) = ∏ f ( yi |xi ; θ )
• Den Vektor der ersten Ableitungen der Log-Likelihoodfunktion bezeichnet
man als score Vektor:
• Der Beitrag von Individuum i zur Likelihoodfunktion lautet: Li ( θ | yi ,xi ) .
s ( θ) ≡
∂ logL ( θ )
∂θ
• Der ML-Schätzer θ̂ löst:
N
=∑
∂ logLi ( θ )
∂θ
i =1
N
≡ ∑ si ( θ )
(6.14)
i =1
5–9
5–10
⎧ ∂2 logLi ( θ ) ⎫
Ii ( θ ) ≡ −E ⎨
⎬.
⎩ ∂ θ∂ θ' ⎭
und für die ersten Ableitungen ergibt sich:
()
N
()
s θˆ = ∑ si θˆ = 0 .
i =1
Als Mittelwert über die Stichprobe ergibt sich
• Wenn die Likelihoodfunktion korrekt spezifiziert ist, lassen sich folgende
IN ( θ ) ≡
Eigenschaften des ML-Schätzers zeigen:
(1) Konsistenz, plimθˆ = θ
⎧ 1 ∂2 logL ( θ ) ⎫
1 N
I
E
θ
=
−
⎨
⎬.
∑ i( )
N i =1
⎩N ∂ θ ∂ θ ' ⎭
(6.17)
Für N → ∞ wird dies als Informationsmatrix bezeichnet:
I ( θ ) ≡ Nlim
I (θ)
→∞ N
(2) Asymptotische Effizienz
(3) Asymptotische Normalverteilung:
(6.16)
(
)
a
N θˆ − θ ∼ N ( 0,V ) , wobei V die
Wenn
alle
Beobachtungen
iid
sind,
gilt
I i ( θ ) ≡ IN ( θ ) = I ( θ ) .
Die
asymptotische Varianz-Kovarianz-Matrix des ML-Schätzers ist:
asymptotische Varianz-Kovarianz-Matrix des Schätzers ist.
V = I( θ) .
−1
• V hängt von der Form der Likelihoodfunktion ab. Die Information in
(6.18)
Beobachtung i hinsichtlich θ ist definiert als (K x K) Matrix:
5–11
5–12
J i ( θ ) ≡ E {si ( θ ) si ( θ ) '} = I i ( θ )
Intuitiv gilt, dass die ML-Schätzer umso präziser, d.h. mit kleinerer Varianz
bestimmt
werden
können,
je
stärker
die
Krümmung
der
Log-
Likelihoodfunktion an der Stelle θ̂ ist.
(6.20)
Die auf Basis des Gradientenvektors geschätzte Varianz-Kovarianzmatrix
nutzt diese Approximation:
• Da das ML-Verfahren asymptotisch effizient ist, sagt man, dass die Varianz
−1
⎛1 N
⎞
Vˆ G = ⎜ ∑ si θˆ si θˆ ' ⎟ .
⎝ N i =1
⎠
() ()
eine untere Schranke der asymptotischen Kovarianzfunktion erreicht, das
(6.21)
sogenannte Cramer-Rao-lower bound.
• V kann geschätzt werden:
⎛ 1 N ∂ 2logLi ( θ )
V̂H = ⎜ − ∑
⎜ N i =1
∂ θ ∂ θ'
⎝
−1
⎞
⎟
⎟
θ=θˆ ⎠
(6.19)
• Alternativ kann genutzt werden, dass das Produkt der Score-Vektoren die
Informations-Matrix approximiert:
5–13
5–14
H0: Rθ = q,
5.2 Inferenz im ML-Rahmen
• Im Rahmen des ML-Verfahrens finden 3 verschiedene Testprinzipien
wobei q ein J-dimensionaler Vektor und R eine J x K Matrix ist. Die Tests
gehen wie folgt vor:
Anwendung. Der Wald-Test ist für alle konsistenten, asymptotisch
normalverteilten Schätzer anwendbar. Mit dem Likelihood Ratio-Test
lassen sich genestete Modelle vergleichen. Der Lagrange Multiplier (LM)
• Wald-Test: Schätze θ ohne Restriktionen und prüfe, ob H0 erfüllt und
Rθˆ − q = 0 ist.
()
Test wird nach restringierter Schätzung eingesetzt.
()
• Likelihood Ratio Test: Schätze θ ohne Restriktion θ̂ , sowie unter H0 θ
• Wenn der k-dimensionale Parametervektor θ = (θ1, θ2, ..., θk)' durch eine
und prüfe, ob sich die Log-Likelihood-Werte signifikant voneinander
unterscheiden: L θˆ − L θ = 0 .
() ()
Log-Likelihoodfunktion geschätzt wird:
N
max log L ( θ ) = max ∑ log Li ( θ ) ,
θ
θ
• Lagrange Multiplier Test: Schätze θ unter H0 und prüfe, ob die Bedingungen
i =1
erster Ordnung der
∂ logL ( θ ) / ∂ θ |θ=θ = 0 .
lassen sich Restriktionen unter der Nullhypothese wie folgt darstellen:
5–15
unregistrierten
Likelihoodfunktion
erfüllt
sind:
5–16
ln L
c (θ )
• Da die drei Teststatistiken die gleiche asymptotische Verteilung haben, sagt
LM
man, sie sind asymptotisch äquivalent. Man wählt den Test, der am
einfachsten durchzuführen ist.
lnLU lnL • Der Wald Test kann von der asymptotischen Normalverteilung der
LR
Parameter abgeleitet werden:
(
lnLR a
(6.23)
Es folgt, dass auch Rθˆ asymptotisch normalverteilt ist:
W θ̂R )
N θˆ − θ ∼ N ( 0, V )
c(θ) (
)
a
N Rθˆ − Rθ ∼ N ( 0, R V R ' )
θ θ̂ML (6.24)
Die Teststatistik nutzt einen konsistenten Schätzer V̂ von V und ist unter H0
Chi-quadrat verteilt mit J Freiheitsgraden.
5–17
5–18
(
)
ξw = N Rθˆ − q ' ⎡⎣R Vˆ R ⎤⎦
−1
(Rθˆ − q) ∼ χ
∂ logL ( θ ) *
2
J
(
∂θ
( ))
• Der Likelihood-Ratio-Test nutzt die Log-Likelihoodwerte, die mit logL θ
(
( ))
und ohne logL θˆ
∂ logL ( θ ) *
Restriktion erzeugt werden. Unter H0 sollte die Differenz
nicht signifikant von Null verschieden sein:
ξLR
()
∂λ
=
∂ logL ( θ )
∂θ
⎛ ∂ (R θ − q ) ⎞
+ λ⎜
⎟=0
∂θ
⎝
⎠
= (Rθ − q) = 0
Wenn die Restriktion zutrifft, sollte der Schattenpreis der Restriktion λ nahe
∂ logL ( θ ) * ∂ logL ( θ )
Null sein, da unter H0:
.
≈
∂θ
∂θ
()
= −2 ⎡log L θ − log L θˆ ⎤ ∼ χJ2
⎣
⎦
Der Test ist nur bei genesteten Modellen und dann sehr einfach anwendbar.
Wenn λ groß ist, legt dies nahe, H0 zu verwerfen, da sich in diesem Fall die
• Der Lagrange Multiplier Test leitet sich aus der Maximierung unter linearen
restringierte (L(θ)*) und die unrestringierte (L(θ)) Likelihoodfunktion deutlich
Nebenbedingungen (Lagrange-Ansatz) ab:
unterscheiden.
log L(θ)* = log L(θ) + λ (Rθ - q)
Die LM-Test Statistik lautet:
Als Parameterschätzer ergeben sich unter der Restriktion θ, λ :
5–19
5–20
−1
N
⎛ N
⎞
ξLM = ∑ si θ ' ⎜ ∑ si θ si θ ' ⎟
i =1
⎝ i =1
⎠
()
()
wobei si θ
( ) ( ) ∑ s (θ) ∼ χ ,
N
i =1
i
2
J
(6.32)
5.3 Binäre abhängige Variablen (7.1)
5.3.1 Einführung
die erste Ableitung der unrestringierten Likelihoodfunktion,
• Man könnte sich fragen, ob das Einkommen damit korreliert ist, dass
bewertet am Vektor der unter Restriktion geschätzten θ ist. Weichen die
()
manche Haushalte Autos besitzen und andere nicht. Definiert yi = 1 für
Werte von si θ deutlich von 0 ab, sollte H0 verworfen werden.
Haushalte i mit Auto und yi = 0 für Haushalte ohne Auto, so lässt sich ein
lineares Modell aufstellen, bei dem xi2 das Einkommen misst und xi1 ≡ 1 eine
Konstante darstellt, xi = (xi1, xi2)‘
yi = β1 + β2 xi2 + εi = xi ' β + εi .
(7.1)
• Wenn eine Variable nur die Ausprägungen 0 und 1 annimmt, spricht man
von binären, bivariaten, dichotomen oder Dummy-Variablen.
• Unter der Standardannahme E {εi | xi} = 0 folgt E {yi | xi} = xi'β sowie
5–21
5–22
E {yi | xi } = 1⋅ P {yi = 1 | xi } + 0 ⋅ P {yi = 0 | xi }
= P {yi = 1 | xi } = xi ' β
so dass die Varianz für jedes i unterschiedlich ausfällt.
(7.2)
• Diese Probleme lassen sich lösen, wenn die Wahrscheinlichkeit dafür, dass
• Das Modell impliziert, dass xi'β eine Wahrscheinlichkeit beschreibt und
yi = 1 ist, als Funktion von Kovariaten xi modelliert wird:
zwischen 0 und 1 liegt. Praktisch gilt das nicht immer.
P {yi = 1| xi } = G ( xi , β )
• Da yi entweder 0 oder 1 beträgt, kann εi nur zwei mögliche Werte
Die Funktion G sollte ausschließlich Werte im Intervall [0, 1] annehmen,
annehmen. εi ist nicht normalverteilt und heteroskedastisch:
wobei man sich in der Regel auf die lineare Funktion G ( xi , β ) = F ( xi ' β )
P {εi = − xi ' β | xi } = P {yi = 0| xi } = 1 − xi ' β
P {εi = 1 − xi ' β |xi } = P {yi = 1|xi } = xi ' β
(7.4)
beschränkt. Da F Werte aus [0, 1] annehmen sollte, bieten sich
(7.3)
Verteilungsfunktionen an.
• Unterstellt man eine Standardnormalverteilung, ergibt sich ein Probit-
• Es lässt sich zeigen, dass
V ( εi |xi ) = xi ' β (1 − xi ' β ) ,
Modell:
5–23
5–24
F(w) = Φ (w) =
w
∫
−∞
⎧ 1 ⎫
exp ⎨− t2 ⎬ dt
2π
⎩ 2 ⎭
1
• Bei geschätzten Koeffizienten lassen sich Vorzeichen und statistische
(7.5)
Signifikanz interpretieren.
• Unterstellt man eine standard logistische Verteilung, ergibt sich ein LogitModell:
• Um die Stärke der Zusammenhänge zu beschreiben, berechnet man die
marginalen Effekte einzelner erklärender Variablen; für kontinuierliche
ew
F(w) = L(w) =
1 + ew
erklärende Variablen xk gilt:
(7.6)
Probit:
• Erwartungswert einer standard logistisch verteilten Zufallsvariable: 0,
π2
Varianz:
.
3
Logit:
• Die beiden Verteilungsfunktionen sind sehr ähnlich. Im Vergleich zur
∂ Φ ( xi ' β )
= φ ( xi ' β ) ⋅ βk
∂ xik
∂ L ( xi ' β )
∂ xik
=
exi ' β
(1 + e )
xi ' β 2
⋅ βk ,
Normalverteilung hat die logistische Verteilung „dickere Ränder“. Die
wobei φ (xi ' β) die Dichtefunktion der Standardnormalverteilung repräsentiert
Schätzergebnisse sind typischerweise sehr ähnlich.
und L für die kumulative standard logistische Verteilung steht.
5–25
5–26
• Beispiel im Probitfall:
• Die marginalen Effekte hängen von den Werten für xi ab. Dabei nutzt man
entweder für alle xi die Stichprobenmittelwerte oder berechnet die mittleren
P ( yi = 1| malei = 1,xi = x ) − P ( yi = 1| malei = 0,xi = x )
marginalen Effekte:
= Φ βˆD ⋅ 1 + x ' βˆ − Φ βˆD ⋅ 0 + x ' βˆ
1
∑
N i =1
N
∂ Φ ( xi ' β )
∂ xik
bzw.
1
∑
N i =1
N
(
∂ L ( xi ' β )
)
(
)
• Gleichung (7.4) des Logit-Modells lässt sich umformen zu:
∂ xik
log
• Wegen der Nichtlinearität der betrachteten Funktionen können sich die
Ergebnisse je nach Art der Berechnung unterscheiden. Das Vorzeichen des
pi
= xi ' β,
1 − pi
wobei pi = P{yi = 1 | xi}. Den Ausdruck links bezeichnet man als log odds
marginalen Effekts entspricht stets dem Vorzeichen des Parameters β̂k .
ratio. Ein Wert von 3 würde bedeuten, dass die Wahrscheinlichkeit von yi = 1
• Bei dichotomen (0/1) erklärenden Variablen wird statt des marginalen
dreimal höher ist, als die Wahrscheinlichkeit, dass yi = 0. Hier beschreibt βk
Effekts oft der Unterschied in den vorhergesagten Wahrscheinlichkeiten
den Effekt von xik auf das odds ratio. Wenn βk = 0,1, führt eine Änderung
bestimmt,
wobei
alle
anderen
erklärenden
Variablen
feste
Werte
zugewiesen bekommen.
5–27
5–28
von xik um eine Einheit zu einem Anstieg des odds ratios um 10 Prozent
5.3.2 Das latente Modell
(semi-Elastizität).
• Bivariate Modelle lassen sich von theoretischen Verhaltensmodellen
ableiten. Es wird unterstellt, dass Individuen eine unbeobachtbare Neigung
haben, bestimmte Handlungsweisen zu präferieren (z.B. erwerbstätig zu
sein). Diese Neigung wird als latente Variable, yi* modelliert:
yi * = xi ' β + εi
(7.8)
• Übersteigt die latente Variable einen unbekannten Schwellenwert, den wir
als 0 annehmen, so wählt i yi = 1, sonst yi = 0. Man schreibt:
P {yi = 1} = P {yi * > 0} = P {xi ' β + εi > 0} = P {−ε ≤ xi ' β} = F ( xi ' β ) .
5–29
(7.9)
5–30
Dabei beschreibt F die Verteilungsfunktion von -εi, bzw. bei symmetrischen
Funktionen die von εi. Dies ergibt ein binäres Modell, dessen konkrete Form
maximiert wird.
• Ein Probitmodell auf Basis einer latenten Variablen lässt sich wie folgt
• Der Beitrag von Individuum i zur Likelihoodfunktion ist entweder P(yi = 1 | xi;
vollständig beschreiben:
β) oder P(yi = 0 | xi; β), je nachdem ob das Ereignis yi = 1 oder yi = 0
εi ∼ N ( 0,1)
yi = 1
wenn yi * > 0
yi = 0
wenn yi * ≤ 0.
5.3.3 Schätzung
• Die Parameter werden geschätzt, indem die logarithmierte Likelihoodfunkton
von den Annahmen an die Verteilung von εi abhängt.
yi * = xi ' β + εi ,
eingetreten ist.
• Die Likelihoodfunktion für die Stichprobe lautet:
(7.10)
N
L ( β ) = ∏ P {yi = 1|xi ; β} i P {yi = 0 |xi ;β}
Unterstellt wird, dass εi von allen xi unabhängig ist.
1− yi
y
(7.11)
i =1
• Nach Logarithmierung und Einsetzen von F(xi‘β):
• Die Parameter des Modells werden typischerweise mit Maximum Likelihood
N
N
i =1
i =1
log L ( β ) = ∑ yi log F ( xi ' β ) + ∑ (1 − yi ) log (1 − F ( xi ' β ) )
geschätzt.
5–31
(7.12)
5–32
• Die Bedingung erster Ordnung zur Maximierung der log-Likelihoodfunktion
• Die Bedingungen erster Ordnung fordern, dass über die ganze Stichprobe
lautet:
hinweg die Werte von xi nicht mit der generalized residual korreliert sein
∂ logL ( β )
∂β
N
⎡
⎤
yi − F ( xi ' β )
=∑ ⎢
f ( xi ' β ) ⎥ xi = 0 ,
i =1
⎣⎢ F ( xi ' β ) (1 − F ( xi ' β ) )
⎦⎥
dürfen,
(7.13)
• Im Logit lässt sich vereinfachen
∂ logL ( β )
wobei die Dichtefunktion f die Ableitung von F nach xi ' β ist.
∂β
• Der Ausdruck in Klammern wird als generalized residual bezeichnet und
(7.14)
Gegeben β̂ lässt sich P{yi = 1 | xi} berechnen:
nimmt entweder die Werte
oder
N
⎡
exp ( xi ' β ) ⎤
= ∑ ⎢ yi −
⎥ xi = 0
1 + exp ( xi ' β ) ⎦⎥
i =1
⎣⎢
f ( xi ' β ) / F ( xi ' β )
für yi = 1
− f ( xi ' β ) / (1 − F ( xi ' β ) )
für yi = 0 an.
p̂i =
(
exp xi ' βˆ
(
)
1 + exp xi ' βˆ
)
Eingesetzt in (7.14) folgt:
5–33
5–34
N
∑
i =1
N
p̂i xi = ∑ yi xi .
(7.16)
5.3.4 Schätzgüte
i =1
• Im Gegensatz zum linearen Modell mit seinem R2 gibt es für binäre Modelle
• Dies bedeutet, dass solange im Logit-Modell eine Konstante mit geschätzt
kein eindeutiges, etabliertes Gütemaß.
wird, die vorhergesagte Wahrscheinlichkeit immer exakt identisch mit der
• Im Rahmen von ML-Schätzern wird der Erklärungsgehalt des Modells oft
beobachteten Wahrscheinlichkeit ist.
• Da die log-Likelihoodfunktionen global konkav sind, konvergieren die
Schätzungen schnell zum globalen Maximum.
aus dem Vergleich der log-Likelihoodwerte mit (log L1) vs. ohne erklärende
Variablen (log L0) bestimmt. Zu erwarten ist: log L1 ≥ log L0. Je besser das
Modell umso größer ist L ebenso wie log L. Je größer der Unterschied
zwischen log L1 und log L0, umso bedeutender ist der Erklärungsbeitrag des
Modells.
• Amemiya führte folgendes Maß ein:
5–35
5–36
pseudo − R2 = 1 −
1
1 + 2 ( logL1 − logL0 ) / N
• Insbesondere bei seltenen Ereignissen (z.B. 5% y = 1, 95% y = 0) ist auf
(7.17)
diese Weise kaum ein Modell in der Lage, eine konstante Vorhersage (z.B. y
• Das McFadden R2 (auch Likelihood ratio index genannt) lautet:
McFadden R = 1 − ( logL1 / logL0 )
2
= 0 für alle) zu übertreffen.
(7.18)
Dieser Wert muß zwischen 0 und 1 liegen; er nimmt im schlechtesten Fall
den Wert 0 und im besten Fall den Wert 1 an. Passt das Modell nicht, so gilt
log L1 = log L0, passt das Modell perfekt, so gilt L1 = 1, log L1 = 0.
• Vielfach wird Modellgüte daran gemessen, welcher Anteil der abhängigen
Variablen korrekt vorhergesagt wird. Dazu bestimmt man für alle i F xi 'βˆ
(
)
und weist typischerweise einen vorhergesagten Wert von 1 zu, wenn
F xi ' βˆ > 0,5 , andernfalls wird ein Wert von 0 vorhergesagt.
(
)
5–37
5–38
• Tabelle
5.3.5 Beispiel: Arbeitslosengeld und Arbeitslosengeldbezug
7.2
präsentiert
Wahrscheinlichkeitsmodell
• Stichprobe: N = 4877 amerikanische Arbeiter, die zwischen 1982 und 1991
die
Schätzergebnisse
(LPM),
d.h.
KQ
für
ohne
ein
lineares
Korrektur
für
Heteroskedastie, sowie Logit und Probit Modelle.
den Arbeitsplatz verloren. Nicht alle nutzen die Möglichkeit, Arbeitslosengeld
• Da das Logit Modell die Parameter entsprechend
zu beziehen, wenngleich alle einen Anspruch haben. Die „Takeup-Rate“ der
V = π / 3 skaliert,
während Probit von σ = 1 ausgeht, unterscheiden sich die geschätzten
Stichprobe beträgt 68%.
Parameter β um ungefähr diesen Faktor. Die Parameter des linearen
• Der Betrag an Arbeitslosengeld, der einzelnen zusteht, hängt ab von
Modells (linear probability model LPM) sind typischerweise um den Faktor 4
Bundesstaat, Jahr der Arbeitslosigkeit und früherem Verdienst. Die Lohn-
kleiner als die Logitwerte.
ersatzrate variiert zwischen 33 und 54 Prozent und könnte die takeupEntscheidung beeinflussen. Zusätzlich können weitere persönliche Faktoren
(z.B. Bildung, Alter, Geschlecht), Präferenzen oder die Haushaltszusammensetzung eine Rolle spielen.
5–39
5–40
• Vorzeichen und statistische Signifikanz der Ergebnisse sind vergleichbar.
• Auch die quantitativen Ergebnisse unterscheiden sich nicht deutlich
zwischen den Modellen. Der Effekt der Lohnersatzrate wurde quadratisch
geschätzt und hängt daher davon ab, an welcher Stelle er bewertet wird. Im
Probit ergibt sich
∂ Φ ( xi ' β )
∂ xi,RR
= φ ( xi ' β ) ⋅ (1,863 − 2 ⋅ 2,980 ⋅ replacement rate )
Da dieser Wert für unsere Stichprobenwerte der replacement rate meist
negativ ist, scheint eine hohe Ersatzrate (kontraintuitiv) die takeupWahrscheinlichkeit zu reduzieren. Andere wichtige Variablen sind, ob die
5–41
5–42
so dass
Stelle wegen „slack work“ (Unterauslastung) gekündigt wurde, Kinderzahl
und Familienstand. Viele Parameter sind insignifikant.
242 3164
+
= 1,106 , was nicht deutlich besser ist als eine
1542 3335
einheitliche Vorhersage für alle Beobachtungen, die einen Wert von 1 ergibt.
• Die Maße der Schätzgüte bestätigen, dass der Erklärungsgehalt der Modelle
nicht hoch ist.
• Ein Vergleich von Vorhersage und tatsächlichem Wert ergibt:
ŷi = 0
ŷi = 1
Gesamt
yi = 0
242
1300
1542
yi = 1
171
3164
3335
Gesamt
413
4464
4877
5–43
5–44
Literatur:
Verbeek, 2008, Kapitel 6, 7.1
Greene, W.H., 2008, Econometric Analysis 6.A, Kapitel 16 und 23.1 – 23.4
Gujarati, D.N. und D.C. Porter, 2009, Basic Econometrics 5.A., Kapitel 4.4 und
15.1-15.9
Johnston, J. und J. DiNardo, 1997, Econometric Methods 4.A, Kapitel 13.1-13.6
Pindyck, R.S. und D.L. Rubinfeld, 1998, Econometric Models and Economic
Forecasts 4.A., Kapitel 11
Stock, J.H. und M.W. Watson, 2007, Introduction to Econometrics 2.A., Kapitel
11
Wooldridge, J.M., 2002, Econometric Analysis of Cross Section and Panel Data,
Kapitel 13, 15.1-15.6
5–45
Herunterladen