Kapitel 8 Dummy Variablen

Werbung
Kapitel 8
Dummy Variablen
“Let us remember the unfortunate econometrician who, in one of the major
functions of his system, had to use a
proxy for risk and a dummy for sex.”
(Machlup, 1974, 892)
Dummy Variablen gehören zum praktischsten, was die einführende Ökonometrie zu
bieten hat. Sehr häufig interessieren wir uns nämlich für Vergleiche zwischen Gruppen, z.B. zwischen Ländern, Branchen, oder für die Konsequenzen der Zugehörigkeit
zu bestimmten Gruppen (z.B. Geschlecht). Bisher haben wir ausschließlich Variablen untersucht, die innerhalb eines Bereichs jeden Wert annehmen konnten, d.h.
intervall- bzw. verhältnisskalierte 1 Variablen. Um z.B. die Zuordnung einer Person
zu einer Gruppe modellieren zu können genügen Variablen, die nur zwei Werte annehmen können, z.B. Eins (1) für ‘wahr’ und Null (0) für ‘falsch’.2 Deshalb werden
solche Variablen häufig 0-1 Variablen, binäre Variablen oder auch qualitative Variablen genannt. In der Ökonometrie hat sich dafür die Bezeichnung Dummy Variablen
eingebürgert.
Mit Hilfe solcher Dummy Variablen können im Rahmen eines Regressionsmodells die
Auswirkungen qualitativer Unterschiede untersucht werden, zum Beispiel ob Männer
im Erwartungswert signifikant mehr verdienen als Frauen, und wie groß der erwartete Einkommensunterschied ist. Dummy Variablen sind ein äußerst nützliches und
flexibles Instrument, mit der eine Vielzahl von Fragen untersucht werden kann, z.B.
ob Länder in den Tropen langsamer wachsen als Länder in den gemäßigten Klimazonen, ob und wie sich die marginale Konsumneigung nach einer Steuerreform ändert,
1
Bei intervallskalierten Daten ist die Reihenfolge festgelegt und die Differenzen zwischen zwei
Werten können inhaltlich interpretiert werden. Bei verhältnisskalierten Variablen existiert zusätzlich ein absoluter Nullpunkt. In diesem Abschnitt werden wir uns mit Fällen beschäftigen, in denen zumindest eine erklärende Variablen nominal- oder ordinalskaliert ist. Bei einer Nominalskala
können die Ausprägungen in keine natürliche Reihenfolge gebracht werden. Beispiele für nominalskalierte Merkmale sind Geschlecht, Religion, Hautfarbe, etc. Bei einer Ordinalskala besteht zwar
eine natürliche Rangordnung, aber die Abstände zwischen den Merkmalsausprägungen sind nicht
quantifizierbar. Beispiele sind Schulnoten, Güteklassen bei Lebensmitteln, usw.
2
Die Zuordnung von Null und Eins ist zwar willkürlich, aber sehr praktisch, wie wir gleich sehen
werden.
1
2
Empirische Wirtschaftsforschung
oder inwieweit sich das Ausgabeverhalten von Verheirateten gegenüber Ledigen unterscheidet. Wir beginnen mit einem sehr einfachen Beispiel.
Beispiel: Tabelle 8.1 zeigt den Stundenlohn (y) von 12 Personen. Die Variable D w
hat den Wert 1, wenn es sich bei der Person um eine Frau handelt, und den Wert 0,
wenn es keine Frau ist. Analog dazu ist die Dummyvariable D m = 1 für Männer und
D m = 0 sonst. Wenn es beim Geschlecht nur zwei Ausprägungen gibt gilt natürlich
D m + D w = 1, bzw. D m = 1 − D w .
Wir erinnern uns, dass wir als Ergebnis einer Regression auf die Regressionskonstante (d.h. auf einen Vektor mit lauter Einsen) den Mittelwert der Variable erhalten,
P
d.h. für yi = βb1 + ε̂i erhalten wir den OLS-Schätzer βb1 = 1/n i yi = ȳ. Angewandt
auf die Daten in Tabelle 8.1 erhalten wir den Mittelwert ȳ = 17.23.
Tabelle 8.1: Beispiel: Geschlechtsspezifische Einkommensunterschiede.
Stundenlohn
(y)
15.02
18.33
18.81
15.88
18.58
17.04
17.27
16.94
17.71
16.36
18.57
16.26
Dw
weibl. = 1
1
0
0
1
0
1
0
1
0
1
0
1
Dm
männl. = 1
0
1
1
0
1
0
1
0
1
0
1
0
Mittelwert von y: 17.23
Mittelwert von y für Männer: 18.21
Mittelwert von y für Frauen: 16.25
Regression: y = βb1 + βb2 D w + ε̂
Schätzung:
yb =
18.21
− 1.96D w
(0.275)
(0.389)
R2 = 0.718, n = 12
(Standardfehler in Klammern)
Wenn wir anstelle der Regressionskonstanten auf die Dummyvariable für Männer
regressieren erhalten wir den Mittelwert für Männer
yb = βbm D m = 18.2 = ȳm
Wir können dies auch schreiben als (b
y |Männer) := (b
y |D m = 1) = 18.21, d.h. der
gefittete Wert von y gegeben D m = 1 ist 18.21.
Falls alle Gauss Markov Annahmen erfüllt sind wissen wir außerdem, dass
E(y|D m = 1) = βm
Analog erhalten wir für Frauen yb = βbw D w = 16.25, bzw. (b
y |Frauen) := (b
y |D w =
1) = 16.25. Die Regression auf die einzelnen Dummies liefern also tatsächlich die
Mittelwerte der betreffenden Kategorien.
Deshalb sollte es nicht verwundern, dass eine Regression auf beide Dummies yb =
βbm D w + βbw D w die Mittelwerte beider Kategorien liefert
3
Empirische Wirtschaftsforschung
yb =
16.25D w
(0.275)
+ 18.21D m
(0.275)
d.h. den Stichprobenmittelwert für Frauen βbw = 16.25 = ȳw und für Männer βbm =
18.21 = ȳm .
Man beachte, dass wir hier keine Regressionskonstante verwendet haben! Da in diesem Fall der Wert der Regressionskonstante per Definition immer gleich der Summe
der beiden Dummies ist (1 = D m + D w ) würde dies zu einer exakten linearen
Abhängigkeit zwischen den Regressoren führen.
Die Gleichung y = βb1 + βbw D w + βbm D m + ε̂ würde folgendermaßen aussehen:
 
 
     
 
 
0
1
1
y1
1
0
1
1 1 0
0
 y2 
1
1
     
 
 
 
 
 
1 0 1
 y3 
 
 
     
  b 1 b 0 b 1
 y4  = β1 1 + βw 0 + βm 1 + ε̂i mit 1 = 0 + 1
     
 
 
 
 
 .. 
 ..   ..   .. 
 .. 
 .. 
 .. 
.
.
. . .
.
.
0
1
1
0
1
yn
1
Eine exakte lineare Abhängigkeit zwischen einzelnen x Variablen wird perfekte Multikollinearität genannt und führt – wie wir später zeigen werden – dazu, dass der OLS
Schätzer nicht definiert ist und deshalb nicht berechnet werden kann. Da Anfänger
diesen Fehler häufig bei der Spezifikation von Dummyvariablen machen ist dieses
Problem in der Literatur auch als Dummyvariablenfalle bekannt.
Die meisten Programme geben in diesem Fall eine Fehlermeldung aus, EViews meldet z.B. ‘near singular matrix ’; STATA eliminiert automatisch Variablen, die exakt
linear abhängig sind.
Glücklicherweise lässt sich dieses Problem sehr einfach beheben, man braucht nur
eine der beiden Dummyvariablen ‘weglassen’
yb = βb1 + βb2 D w
Für Frauen hat die Dummyvariable D w den Wert Eins, deshalb liefert
E(y|D w = 1) = β1 + β2 × 1 = β1 + β2
bzw. für die Stichprobe das durchschnittliche Einkommen der Frauen, d.h. βb1 + βb2 =
ȳw .
Für Männer hat die Dummyvariable D w den Wert Null, deshalb liefert
E(y|D w = 0) = β1 + β2 × 0 = β1
bzw. für die Stichprobe das durchschnittliche Einkommen der Männer, da βb1 =
ȳm . Man beachte, dass in diesem Fall das Interzept den Stichprobenmittelwert der
‘weggelassenen’ Kategorie ‘Männer’ misst!
Für unser obiges Beispiel erhalten wir
yb =
18.21
− 1.96D w
(0.275)
(0.389)
R2 = 0.718,
n = 12
4
Empirische Wirtschaftsforschung
ist die Schätzung für den erwarteten Stundenlohn von Frauen (d.h. für D w = 1)
(b
y |D w = 1) = 18.21 − 1.96 × 1 = 16.25
Analog dazu ist die Schätzung für den erwarteten Lohnsatz von Männern (d.h. für
D w = 0)
(b
y |D w = 0) = 18.21 − 1.96 × 0 = 18.21
Also misst das Interzept tatsächlich den Stichprobenmittelwert für Männer, was
zugleich eine Schätzung für den erwarteten Stundenlohn für Männer darstellt.
Wie man einfach zeigen kann misst der Koeffizient der Dummyvariable für Frauen
D w den durchschnittlichen Unterschied zum Einkommen der ‘weggelassenen’ Kategorie Männer, denn
E(y|D w = 1) − E(y|D w = 0) = β1 + β2 × 1 − β1 − β2 × 0 = β2
bzw.
(b
y |D w = 1)−(b
y |D w = 0) = (b
y |Frauen)−(b
y |Männer) = (18.21−1.96)−18.21 = −1.96
d.h. für Frauen erwarten wir aufgrund dieser Regression einen um 1.96 Euro geringeren Stundenlohn als für Männer.
Man beachte, dass der Standardfehler der Dummyvariable unmittelbar verwendet
werden kann um zu testen, ob der Lohnunterschied zwischen Männern und Frauen
signifikant von Null verschieden ist. Tatsächlich ist dies exakt der gleiche Wert, den
man bei einem herkömmlichen Test auf Gleichheit der Mittelwerte erhält.
Fassen wir zusammen, der Koeffizient der Dummy Variablen misst den Unterschied
zur Referenzkategorie, wobei die Referenzkategorie jeweils die Kategorie ist, für die
die Dummy Variable den Wert Null hat (in diesem Beispiel die Kategorie ‘Männer’ ).
Das Interzept gibt den Stichprobenmittelwert von y für die Referenzkategorie an.
Abbildung 8.1 verdeutlicht dies nochmals. Darin sind die Stundenlöhne des vorigen
Beispiels sowie deren Durchschnitte für Männer und Frauen getrennt eingezeichnet.
Selbstverständlich können wir auch auf die Männer-Dummy regressieren
yb = 16.25
+
(0.275)
1.96D m
(0.389)
In diesem Fall bilden die Frauen die ‘weggelassene’ Referenzkategorie, das Interzept misst also den Durchschnittslohn von Frauen, und der Koeffizient der MännerDummy den durchschnittlichen Lohnunterschied; Männer verdienen demnach also
im Durchschnitt um 1.96 Euro mehr als Frauen. Dies sind selbstverständlich exakt
die gleichen Aussagen wie vorhin, es spielt für die Ergebnisse also keine Rolle, für
welche Referenzkategorie man sich entscheidet.
Im Folgenden wollen wir die einzelnen Möglichkeiten etwas systematischer darstellen.
5
Empirische Wirtschaftsforschung
Stundenlohn (ŷ)
b
b
yb =
b
βb2 = −1.96
bc
b
bc
βb1 = 18.21
b
18.21
− 1.96D w
(0.275)
(0.389)
R2 = 0.718, n = 12
(Standardfehler in Klammern)
b
bc
bc
bc
bc
männl.
(0)
weibl.
(1)
Abbildung 8.1: Beispiel: Geschlechtsspezifische Einkommensunterschiede.
8.1
Unterschiede im Interzept
Den einfachsten Fall haben wir im vorhergehenden Beispiel bereits diskutiert, eine
einfache Regression auf ein Interzept und eine Dummy Variable D
yb = βb1 + βb2 D
Bei Dummyvariablen ist es kaum angebracht von einem marginalen Effekt zu sprechen, da Dummy Variablen sich per Definition nicht infinitesimal ändern können,
sie können ja nur zwei diskrete Werte annehmen. Deshalb ist es in solchen Fällen
meist günstiger, von einem partiellen Effekt zu sprechen, wie groß ist ceteris paribus
der erwartete Unterschied von y zwischen den beiden Kategorien, z.B. Männern und
Frauen?
Da es sich um keinen marginalen Effekt handelt kann man den Unterschied auch
nicht wie üblich als partielle Ableitung berechnen, aber da uns meist die erwarteten
Unterschiede in y für die beiden Kategorien interessieren reicht es, die gefitteten
(bzw. erwarteten) Werte zwischen den Kategorien zu vergleichen.
Wie wir schon gesehen haben misst der Koeffizient der Dummyvariablen den Unterschied zur ‘Referenzkategorie’ D = 0
E(y|D = 1) = β1 + β2
E(y|D = 0) = β1
Deshalb ist der “partielle Effekt” in diesem Fall einfach der Koeffizient der Dummyvariable
E(y|D = 1) − E(y|D = 0) = β1 + β2 − β1 = β2
Also gibt das Interzept β1 den Erwartungswert für die Kategorie D = 0 und die
Summe β1 + β2 den Erwartungswert für die Kategorie D = 1 an.
6
Empirische Wirtschaftsforschung
Daran ändert sich nichts Wesentliches, wenn weitere erklärende x Variablen als Regressoren berücksichtigt werden
yb = βb1 + βb2 D + βb3 x;
E(y|D = 1) = β1 + β2 + β3 x
E(y|D = 0) = β1 + β3 x
Nach wie vor misst der Koeffizient der Dummyvariable den Unterschied im Interzept,
E(y|D = 1) − E(y|D = 0) = β2 , da der Rest bei der Differenzenbildung wegfällt.
Die Dummy führt in diesem Fall lediglich zu einer Parallelverschiebung der Regressionsgeraden um den Betrag β2 . Wie man auch in Abbildung 8.2 sehen kann, wirkt
sich nur auf das Interzept aus, nicht aber auf die Steigung.
yb
y = βb1 + βb2 D + ε̂
yb
y = βb1 + βb2 D + βb3 x + ε̂
1
b2
β
b2
β
b1
β
1
b1
β
x
b3
β
b3
β
x
Abbildung 8.2: Dummy Variablen und Unterschiede im Interzept
8.2
Unterschiede in der Steigung
Wenn man das Produkt einer Dummy mit einer anderen erklärenden Variable als
zusätzlichen Regressor einführt, also einen Interaktionseffekt zwischen Dummy und
intervallskalierten x Variable, dann erlaubt dies unterschiedliche Steigungen der Regressionsgeraden für beide Kategorien, wie dies in Abbildung 8.3 gezeigt wird.
In diesem Fall können sich die Steigungen der Regressiongeraden beider Kategorien
unterscheiden, für die Kategorie D = 0 ist die Steigung β2 , und für die Kategorie
D = 1 ist die Steigung β2 + β3 .
yb = βb1 + βb2 x + βb3 (D × x)
E(y|D = 1) = β1 + (β2 + β3 )x
E(y|D = 0) = β1 + β2 x
Die Steigungen sind
∂ E(y|D = 1)
= β2 + β3 ;
∂x
∂ E(y|D = 0)
= β2
∂x
7
Empirische Wirtschaftsforschung
Der Koeffizient des Interaktionsterms βb3 ist ein Schätzer für den Unterschied der
Steigungen zwischen beiden Kategorien, β3 , denn
∂ E(y|D = 1) ∂ E(y|D = 0)
−
= β3
∂x
∂x
Allerdings impliziert diese Spezifikation für beide Kategorien das gleiche Interzept
(siehe Abbildung 8.3), was in den meisten Fällen eine theoretisch nur schwer begründbare Restriktion darstellt. Es ist fast immer klüger unterschiedliche Ordinatenabschnitte und unterschiedliche Steigungen zuzulassen.
yb
1
1
b1
β
b2 + βb3
β
b2
β
x
Abbildung 8.3: Dummy Variablen und Unterschiede in der Steigung,
y = βb1 + βb2 x + βb3 (D × x) + ε̂
8.3
Unterschiede in Interzept und Steigung
Abbildung 8.4 zeigt ein allgemeineres Modell, das Unterschiede im Interzept und
der Steigung zulässt. Eine solche Spezifikation enthält sowohl die Dummy als auch
eine Interaktionsvariable zwischen Dummy und intervallskalierten x Variable.
yb = βb1 + βb2 x + βb3 D + βb4 (D × x)
E(y|D = 1) = (β1 + β3 ) + (β2 + β4 )x
E(y|D = 0) = β1 + β2 x
Der Unterschied zwischen den beiden Kategorien ist wieder
E(y|D = 1) − E(y|D = 0) = β3 + β4 x
Man beachte, dass man die gleichen Koeffizienten erhält, wenn man für beide Gruppen eine eigene Regression rechnen würde
für D = 0 :
für D = 1 :
yb0 = βb1 + βb2 x
yb1 = γb1 + b
γ2 x
8
Empirische Wirtschaftsforschung
yb
1
b3
β
b1
β
1
b2 + βb4
β
b2
β
x
Abbildung 8.4: Dummy Variablen und Unterschiede in Interzept und Steigung,
y = βb1 + βb2 x + βb3 D + βb4 (D × x) + ε̂
mit b
γ1 = βb1 + βb3 und b
γ2 = βb2 + βb4 . Allerdings werden sich die Standardfehler
bei diesen Ansätzen unterscheiden, da das Dummy Variablen Modell implizit für
beide Gruppen die gleiche Varianz σ 2 (Homoskedastizität) unterstellt. Deshalb sollte
vor Anwendung des Dummy Variablen Modells getestet werden, ob die Varianzen
tatsächlich in allen Gruppen gleich sind. Wie das geht erfahren Sie im Kapitel über
Heteroskedastizität.
8.4
Mehrere Dummyvariablen
Falls zwei Dummyvariablen verwendet werden, z.B. eine Dummyvariable DW für weiblich und Null sonst und eine zweite Dummyvariable für DV für Verheiratet und Null
sonst, können anhand dieser vier Kategorien gebildet
1. ledige Männer
2. verheiratete Männer
3. ledige Frauen
4. verheiratete Frauen
Zuerst überlegen wir, welche Kategorie als Referenzkategorie gewählt werden soll.
Prinzipiell sind wir in dieser Entscheidung völlig frei, das Kriterium ist nur, welche
Kategorie am einfachsten kommuniziert werden kann. Wenn wir z.B. ‘ledige Männer’
als Referenzkategorie verwenden definieren wir für die restlichen drei Kategorien drei
Dummies :
DMV = 1 für verheiratete Männer und Null sonst,
9
Empirische Wirtschaftsforschung
DWV = 1 für verheiratete Frauen und Null sonst,
DWL = 1 für ledige Frauen und Null sonst.
Die Koeffizienten der Dummies im Modell
yb = βb1 + βb2 DMV + βb3 DWV + βb4 DWL
messen jeweils den Unterschied zur ‘weggelassenen’ Referenzkategorie ‘ledige
Männer’. und anhand deren t-Statistiken können wir überprüfen, inwieweit diese
Unterschiede signifikant von Null verschieden sind.
Tabelle 8.2 zeigt eine Schätzung für Österreich auf Grundlage der EU-Silc Daten
2009.
Tabelle 8.2: Durchschnittliche Stundenlöhne für verheiratete/nicht-verheiratete
Männer/Frauen; Referenzkategorie für Spalten 1-2: unverheiratete
Männer; Referenzkategorie für Spalten 3-4: verheiratete Frauen.
DMV = 1 für verheiratete Männer; DWV = 1 für verheiratete Frauen;
DWL = 1 für unverheiratete Frauen.
Der erwartete Stundenlohn einer verheirateten Frau ist z.B. 13.541 −
0.575 = 12.966 (vgl. Spalten 1 und 3).
Const.
DMV
DWV
DWL
StdL
log(StdL)
StdL
log(StdL)
13.541∗∗∗
(0.306)
3.543∗∗∗
(0.412)
−0.575
(0.424)
−1.483∗∗∗
(0.439)
2.436∗∗∗
(0.016)
0.261∗∗∗
(0.021)
−0.009
(0.022)
−0.093∗∗∗
(0.022)
12.966∗∗∗
(0.294)
4.118∗∗∗
(0.403)
2.427∗∗∗
(0.015)
0.270∗∗∗
(0.021)
DML
R-squared
N
0.033
5133
0.061
5133
−0.907∗
(0.430)
0.575
(0.424)
0.033
5133
−0.084∗∗∗
(0.022)
0.009
(0.022)
0.061
5133
Eine alternative und völlig gleichwertige Modellierung kann mit Hilfe von Interaktionseffekten vorgenommen werden.
Wenn wir uns wieder dafür interessieren, ob sich der Familienstand (verheiratet oder
ledig) für Männer und Frauen unterschiedlich auf y (z.B. den Stundenlohn) auswirkt,
können wir einfach eine Dummy Variable DV = 1 für Verheiratete und Null sonst
sowie eine weitere Dummy DW = 1 für weiblich und DW = 0 sonst definieren.
10
Empirische Wirtschaftsforschung
Wir schätzen das Modell mit Interaktionseffekt zwischen den Dummies
yb = βb1 + βb2 DW + βb3 DV + βb4 DW · DV
mit den vier Kategorien:
E(y|DW = 0, DV = 0)
E(y|DW = 1, DV = 0)
E(y|DW = 0, DV = 1)
E(y|DW = 1, DV = 1)
=
=
=
=
β1
(β1 + β2 )
(β1 + β3 )
(β1 + β2 + β3 + β4 )
Für einen unverheirateten Mann (die Referenzkategorie DW = DV = 0) erwarten
wir ein y von β1 ; für eine unverheiratete Frau (DW = 1, DV = 0) erwarten wir
ceteris paribus ein um β2 größeres (bzw. wenn β2 negativ ist kleineres) y als für
einen unverheirateten Mann, da E(y|DW = 1, DV = 0) − E(y|DW = 0, DV = 0) =
β1 + β2 − (β1 ) = β2 , usw.
Der erwartete Unterschied in y zwischen verheirateten und unverheirateten Frauen
ist zum Beispiel
E(y|DW = 1, DV = 1) − E(y|DW = 1, DV = 0) = [(β1 + β2 + β3 + β4 )] −
−[(β1 + β2 )]
= β3 + β4
Analog ist der erwartete Unterschied in y zwischen verheirateten Frauen und verheirateten Männern β2 + β4 , der Unterschied zwischen verheirateten Frauen und
unverheirateten Männern β2 + β3 + β4 , usw.
Im Fall mit zwei Dummy Variablen sind Vergleiche zwischen vier Fällen möglich,
man muss sich jeweils klar machen, welchen Vergleich man anstellen möchte. Bei
mehreren Dummy Variablen kann dies schnell unübersichtlich werden.
Selbstverständlich können neben den Dummyvariablen und deren Interaktionen weitere erklärende Variablen berücksichtigt werden, z.B. yb = βb1 + βb2 DMV + βb3 DWV +
βb4 DWL + βb5 x.
Tabelle 8.3 zeigt wieder ein Beispiel für die EU-Silc Daten Österreichs (2009). Selbstverständlich enthält diese Tabelle exakt die gleiche Information wie Tabelle 8.2.
Achtung: Wenn zwei oder mehrere Dummy Variablen untereinander korreliert
sind, misst das Interzept nur dann den Mittelwert der Referenzkategorie, wenn alle
Interaktionseffekte zwischen den Dummies berücksichtigt werden!
Wenn z.B. eine Lohngleichung
yb = βb1 + βb2 DW + βb3 DV
(mit DW = 1 für weiblich und Null sonst; und DV = 1 für Verheiratet und Null
sonst) geschätzt wird, misst βb1 nicht das Durchschnittseinkommen ‘unverheirateter
Männer’.
11
Empirische Wirtschaftsforschung
Tabelle 8.3: Lohngleichung für Österreich (EU-Silc 2009);
DW: Dummy für weiblich; DV: Dummy für verheiratet; Referenzkategorie: unvereiratete Männer.
Der erwartete Stundenlohn einer verheirateten Frau ist z.B. 13.541 −
1.483 + 3.543 − 2.635 = 12.966, vgl. Tabelle 8.2.
Const.
DW
DV
DW × DV
R-squared
N
StdL
log(StdL)
13.541∗∗∗
(0.306)
−1.483∗∗∗
(0.439)
3.543∗∗∗
(0.412)
−2.635∗∗∗
(0.596)
2.436∗∗∗
(0.016)
−0.093∗∗∗
(0.022)
0.261∗∗∗
(0.021)
−0.177∗∗∗
(0.030)
0.033
5133
0.061
5133
Der Grund ist der ‘Omitted Variables Bias’, das wahre Modell ist y = α1 + α2 DW +
α3 DV + α4 DW × DV + υ und der Interaktionseffekt wurde im kurzen Modell fälschlich
nicht berücksichtigt.
Aus dem Abschnitt über ‘Fehlende relevante Variablen’ wissen wir, dass z.B.
E(βb2 ) = α2 + α4
cov(DW, DW × DV)
var(DW)
Dies kann an diesem einfachen Beispiel demonstriert werden. Die falsche (kurze)
Spezifikation ist
StdL
=
14.237
(0.263)***
− 2.912 DW
(0.297)***
+
2.281 DV
(0.298)***
Das wahre (lange) Modell ist
StdL
=
13.541
(0.306)***
− 1.483 DW
(0.439)***
+
3.543 DV
(0.412)***
− 2.635 DW × DV
(0.596)***
Die Hilfsregression zur Berechnung von cov(DW, DW × DV)/ var(DW) ist
DW × DV
= −0.264
(0.006)***
+
0.542 DW
(0.007)***
+
0.479 DV
(0.007)***
Wie Sie einfach überprüfen können ist −1.483 − 2.635 × 0.542 = −2.912, der Koeffizient von DW im ersten fehlspezifizierten Modell.
Modelle, die Dummies und alle Interaktionen zwischen diesen enthalten, werden
in der Varianzanalyse gesättigte Modelle (‘saturated models’ ) genannt. In diesen
Modellen ist die bedingte Erwartungswertfunktion linear; für eine ausführlicher Diskussion z.B. siehe Angrist and Pischke (2008, 48ff).
12
Empirische Wirtschaftsforschung
8.5
Interpretation von Dummies in Semi-log Gleichungen
In der semi-log Gleichung
ln(y) = βb1 + βb2 x + βb3 D + ε̂
gibt [exp(βb3 ) − 1] × 100 näherungsweise an, um wieviel Prozent sich yb für D = 1 von
der Kategorie mit D = 0 unterscheidet, wenn x konstant gehalten wird (d.h. ceteris
paribus).
Dies folgt aus den Rechenregeln für den Logarithmus
ln(b
y |D = 1) − ln(b
y |D = 0)
(b
y |D = 1)
ln
(b
y |D = 0)
(b
y |D = 1)
−1
(b
y |D = 0)
(b
y |D = 1) − (b
y |D = 0)
× 100
(b
y |D = 0)
= βb3
= βb3
= exp(βb3 ) − 1
= (exp(βb3 ) − 1) × 100
Siehe Kennedy (1981), Garderen and Shah (2002).
8.6
Kategorien mit mehreren Ausprägungen
Häufig hat man es mit Kategorien zu tun, die mehr als zwei Ausprägungen haben. Wenn man zum Beispiel die Auswirkungen des Bildungsniveaus auf das Einkommen untersuchen möchte sind vermutlich nicht die Ausbildungsjahre relevant,
da sich dahinter auch viele Wiederholungen verbergen können, sondern eher das
höchste abgeschlossene Bildungsniveau. Zur Vereinfachung werden wir uns auf vier
Bildungsniveaus beschränken, a) keine abgeschlossene Schulbildung, b) abgeschlossene Grundschule, c) bestandene Matura und d) abgeschlossene Hochschule.
Man könnte auf die Idee verfallen eine Variable anzulegen, die den Wert 1 hat für die
erste Kategorie ‘keine abgeschlossene Schulbildung’, den Wert 2 für ‘Grundschule’,
den Wert 3 für ‘Matura’ und den Wert 4 für ‘Hochschule’, und diese Variable als
erklärende Variable in einer Lohngleichung zu verwenden.
Wie Sie vermutlich schon erkannt haben wäre dies keine sehr gute Idee, denn eine
solche Spezifikation würde implizieren, dass die Einkommensunterschiede zwischen
Personen ohne Schulbildung und Personen mit Grundschule gleich groß sind wie
z.B. die Einkommensunterschiede zwischen Maturantinnen und Hochschulabgängerinnen.
Man kann eine solche – in den meisten Fällen unsinnige – Spezifikation aber einfach vermeiden, indem man mehrere Dummy Variablen verwendet. Um die Dummy
Variablen Falle zu vermeiden werden in einer Regression mit Interzept für m verschiedene Kategorien m − 1 Dummy Variablen benötigt.
13
Empirische Wirtschaftsforschung
Für das vorhergehende Beispiel mit den vier Bildungsniveaus würde man sich zuerst überlegen, welches Bildungsniveau als Referenzkategorie gewählt werden soll,
und für die restlichen drei Kategorien je eine Dummy Variable anlegen. Wenn man
sich z.B. entscheidet als Referenzkategorie Personen ohne Schulbildung zu wählen
könnten drei Dummy Variablen D1 , D2 und D3 für das höchste abgeschlossene Bildungsniveau definiert werden:
• D1 = 1 für abgeschlossene Grundschule und Null sonst,
• D2 = 1 für bestandene Matura und Null sonst,
• D3 = 1 für abgeschlossene Hochschule und Null sonst
Für Hochschulabgänger (D3 = 1) ist D1 = D2 = 0. Für die Referenzkategorie
(Personen ohne jede Schulbildung) haben alle drei Dummies den Wert Null.
Wenn nun z.B. das Einkommen W in Abhängigkeit von den Bildungsniveaus dargestellt werden soll könnten wir eine Regression
schätzen.
yb = βb1 + βb2 D1 + βb3 D2 + βb4 D3

βb1



βb + βb
1
2
yb =
b
b

β1 + β3


b
β1 + βb4
wenn
wenn
wenn
wenn
D1
D1
D2
D3
= D2 = D3 = 0,
= 1 und D2 = D3 = 0,
= 1 und D1 = D3 = 0,
= 1 und D1 = D2 = 0
wenn sich die Kategorien gegenseitig ausschließen misst βb1 also das durchschnittliche Einkommen von jemanden ohne Schulbildung (die ‘weggelassene’ bzw. ReferenzKategorie), und die restlichen Koeffizienten messen die Unterschiede zu dieser Kategorie. Jemand mit Matura verdient im Erwartungswert z.B. um βb3 mehr als jemand
ohne Schulbildung, und jemand mit Hochschulabschluß verdient durchschnittlich um
βb4 mehr als jemand ohne Schulbildung, der erwartete Lohn des Hochschulabgängers
ist also βb1 + βb4 .
Natürlich könnte man die Dummies auch anders definieren, z.B. dass für Hochschulabgänger alle drei Dummy Variablen den Wert 1 haben (D1 = D2 = D3 = 1),
allerdings würde sich in diesem Fall die Interpretation der Koeffizienten ändern,
der Koeffizient würde bei dieser Spezifikation den Unterschied zur vorhergehenden
Kategorie messen (warum?).
Wenn man eine zusätzliche Dummy D0 für ‘ohne abgeschlossener Grundschule’ als
zusätzlichen Regressor einbeziehen würde wäre die Konsequenz wieder perfekte Kollinearität, da sich die Dummies auf Eins aufsummieren würden, und damit gleich
dem Interzept wären.
14
Empirische Wirtschaftsforschung
Beispiel Eine Lohngleichung für Österreich
Constant
potBildg
Erf
Erf2
Weibl
LGem
Weibl × LGem
log(StdL)
log(StdL)
1.941962∗∗∗
(0.037742)
0.026784∗∗∗
(0.001676)
0.019906∗∗∗
(0.002877)
−0.000275∗∗∗
(0.000064)
−0.059016∗
(0.026770)
0.118402∗∗∗
(0.023251)
−0.094314∗∗
(0.034874)
2.012113∗∗∗
(0.040742)
−0.002943
(0.002215)
0.024302∗∗∗
(0.002682)
−0.000287∗∗∗
(0.000060)
−0.133905∗∗∗
(0.025337)
0.081218∗∗∗
(0.021648)
−0.067284∗
(0.032402)
−0.303701∗
(0.153579)
0.146072∗∗∗
(0.027898)
0.322416∗∗∗
(0.050618)
0.442716∗∗∗
(0.062150)
0.309318∗∗∗
(0.034555)
0.475827∗∗∗
(0.040038)
0.492852∗∗∗
(0.035222)
0.471869∗∗∗
(0.057866)
0.729821∗∗∗
(0.041693)
0.907623∗∗∗
(0.072146)
Kein Pflichtschulabschluss/Pflichtschule
Lehre (Berufsschule)/Pflichtschule
Meister-, Werkmeisterausbildung/Pflichtschule
Krankenpflegeschule/Pflichtschule
Andere berufsbildende mittlere Schule/Pflichtschule
AHS-Oberstufe/Pflichtschule
Berufsbildende höhere Schule - Normalform/Pflichtschule
Berufsbildende höhere Schule - Kolleg, . . .
Universität, Akademie, Fachhochschule × Erstabschluss
Universität: Doktoratsstudium als Zweitabschluss
R-squared
N
0.146516
3228
0.269205
3228
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Datenquelle: EU-SILC Daten 2011, Statistik Austria
StdL: Stundenlohn, unselbständig Beschäftigte.
potBildg: Alter bei höchstem Bildugsabschluss −6
Erf: Zahl der erwerbstätigen Jahre (P033000)
LGem: in Lebensgemeinschaft lebend = 1 und 0 sonst.
Dummyvariablen: Höchster Bildungsabschluss,
Referenzkategorie: männlich, nicht in Lebensgemeinschaft lebend, Pflichtschulabschluss.
15
Empirische Wirtschaftsforschung
Tabelle 8.4: Fremdenverkehrsnächtigungen in Südtirol und saisonale Dummyvariablen
Datum Nächtigungen Trend
1995Q1
5978627
1
1995Q2
4853154
2
1995Q3
11779807
3
1995Q4
3400186
4
1996Q1
6641367
5
1996Q2
4518875
6
1996Q3
10863009
7
1996Q4
3250067
8
1997Q1
6510112
9
..
..
..
.
.
.
2011Q4
4157558
68
2012Q1
7301631
69
2012Q2
5329928
70
8.7
8.7.1
Q2 Q3 Q4
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
..
..
..
.
.
.
0
0
1
0
0
0
1
0
0
Diverses
Saisonbereinigung bei Quartalsdaten
Zeitreihendaten weisen häufig saisonale Muster auf. Eine sehr einfache Möglichkeit,
solche zu berücksichtigen, bieten Dummyvariablen.
y = βb1 + βb2 Q2 + βb3 Q3 + βb4 Q4 + βb5 x + . . . + ε̂
Beispiel: Fremdenverkehrsnächtigungen in Südtirol 1995Q1 – 2012Q2
Tabelle 8.4 zeigt einen Ausschnitt der Daten für Nächtigungen in Südtirol und die
entsprechenden Dummyvariablen. Auf Grundlage dieser Daten wurde die in Tabelle
8.5 wiedergegebene Regression gerechnet.
Man beachte, dass diese Spezifikation mit Dummyvariablen impliziert, dass sich die
Saisoneffekte über die Zeit nicht ändern! Außerdem zeigt ein Vergleich mit der einfachen Regression in Spalte 2, dass die Berücksichtigung der Dummyvariablen eine
deutlich genauere Schätzung des Koeffizienten vom Trend erlaubt, ohne Saisondummies wäre der Koeffizient vom Trend nicht einmal signifikant von Null verschieden!
Der Grund dafür liegt natürlich in einem weit größeren σ̂ im ‘kurzen’ Modell. Man
sieht, dass in diesem Fall eine Nichtberücksichtigung der Dummyvariablen zwar vermutlich keinen sehr großen ‘omitted variable bias’ zur Folge hätte, da der Trend und
die Saisondummies vermutlich nicht sehr stark korreliert sind, dass es aber trotzdem klug ist die Saisondummies zu berücksichtigen, da dies eine deutlich genauere
Schätzung der restlichen Koeffizienten erlaubt.
Abbildung 8.5 zeigt die Abbildung der Daten mit den Regressionsgeraden für die
einzelnen Quartale.
16
Empirische Wirtschaftsforschung
Tabelle 8.5: Saisonbereinigung mit Hilfe von Dummyvariablen; abhängige Variable: Fremdenverkehrsnächtigungen (in Mio.)
Const.
Trend
Q2
Q3
Q4
R-squared
N
Nächtigungen
Nächtigungen
6.096∗∗∗
(0.121)
0.019∗∗∗
(0.002)
−2.293∗∗∗
(0.128)
4.239∗∗∗
(0.130)
−3.120∗∗∗
(0.130)
5.881∗∗∗
(0.698)
0.016
(0.017)
0.983
70
0.013
70
14,000,000
12,000,000
10,000,000
8,000,000
6,000,000
4,000,000
2,000,000
1996
1998
2000
2002
2004
2006
2008
2010
2012
Abbildung 8.5: Fremdenverkehrsnächtigungen in Südtirol 1995Q1 – 2012Q2
Empirische Wirtschaftsforschung
8.7.2
17
Panel-Daten und Dummies
Häufig stehen Daten für mehrere Individuen und mehrere Zeitperioden zur
Verfügung, z.B. das BIP und die Konsumausgaben für mehrere Länder und über
mehrere Jahre.
Angenommen, wir hätten Daten für drei Länder und 4 Jahre, so könnten wir die
Daten ‘aufeinanderstapeln’ (engl. ‘stack’ ) und mit OLS schätzen. Wenn die Daten
zwei Dimensionen haben (z.B. Land i Zeitperiode t) benötigen wir zwei Indizes
(‘Identifier’ ) um eine Beobachtung zu identifizieren; yit bezeichnet z.B. den Wert von
y für Land (Individuum) i in Periode t, d.h. i = 1, . . . , n läuft über die Länder und
t = 1, . . . , T über die Zeit. Das ‘stacked model ’ würde für 3 Länder und 4 Perioden
in Vektorschreibweise also folgendermaßen aussehen (i = 1, . . . , 3, t = 1, . . . , 4)
   
 
 
ε̂11
x11
1
y11
x12  ε̂12 
y12 
1
   
 
 
x13  ε̂13 
y13 
1
   
 
 
x14  ε̂14 
1
y14 
   
 
 
x21  ε̂21 
1
y21 
   
 
 
   
 
y22 
  = βb1 1 + βb2 x22  + ε̂22 
x23  ε̂23 
1
y23 
   
 
 
x24  ε̂24 
1
y24 
   
 
 
x31  ε̂31 
1
y31 
   
 
 
x32  ε̂32 
1
y32 
   
 
 
x33  ε̂33 
1
y33 
ε̂34
x34
1
y34
oder kürzer
yit = βb1 + βb2 xit + ε̂it
Dieses Modell impliziert, dass die Koeffizienten βb1 bzw. βb2 für alle Länder den gleichen Wert haben.
Ein etwas allgemeineres Modell würde für die einzelnen Länder Unterschiede im
Interzept zulassen, aber für alle Länder den gleichen Steigungskoeffizienten unterstellen. Dies kann einfach mit Hilfe entsprechender Dummy Variablen bewerkstelligt
werden. Wir würden z.B. das folgende Modell schätzen
 
 
 
 
   
y11
1
0
0
x11
ε̂11
y12 
1
0
0
x12  ε̂12 
 
 
 
 
   
y13 
1
0
0
x13  ε̂13 
 
 
 
 
   
y14 
1
0
0
x14  ε̂14 
 
 
 
 
   
y21 
1
1
0
x21  ε̂21 
 
 
 
 
   
y22 
1
1
0
   
  = βb1   + βb2   + βb3   + βb4 x22  + ε̂22 
y23 
1
1
0
x23  ε̂23 
 
 
 
 
   
y24 
1
1
0
x24  ε̂24 
 
 
 
 
   
y31 
1
0
1
x31  ε̂31 
 
 
 
 
   
y32 
1
0
1
x32  ε̂32 
 
 
 
 
   
y33 
1
0
1
x33  ε̂33 
y34
1
0
1
x34
ε̂34
18
Empirische Wirtschaftsforschung
oder in üblicher Matrixschreibweise
  
1 0
y11
y12  1 0
  
y13  1 0
  
y14  1 0
  
y21  1 1
  
y22  1 1
 =
y23  1 1
  
y24  1 1
  
y31  1 0
  
y32  1 0
  
y33  1 0
1 0
y34
0
0
0
0
0
0
0
0
1
1
1
1
 

x11
ε̂11



x12 
ε̂12 
ε̂13 
x13 

 


x14    
ε̂14 
b
 
β
x21 
  1  ε̂21 
b


x22  β2  
ε̂22 
+


 
x23 
 βb3  ε̂23 
ε̂24 

x24  βb4
 
ε̂31 
x31 

 
ε̂32 
x32 

 

ε̂33 
x33
x34
ε̂34
Wie man sieht dient das erste Land in diesem Beispiel als Referenzkategorie, deshalb
misst das Interzept βb1 den Mittelwert dieser Referenzkategorie wenn alle erklärenden Variablen den Wert Null annehmen. Die Koeffizienten der Länderdummies βb2
und βb3 geben die Unterschiede im Interzept des zweiten und dritten Landes zu dieser Referenzkategorie an. Dieses Modell unterstellt, dass alle drei Länder den gleichen Steigungskoeffizienten βb4 haben. Natürlich könnte man durch entsprechende
Interaktionsvariablen (z.B. D1 × x) auch unterschiedliche Steigungen zulassen, aber
dann könnten wir ebensogut einzelne Gleichungen für jedes Land (bzw. Individuum)
schätzen.
Dieses Modell wird üblicherweise kürzer angeschrieben als
yit = βb1 + α
bi + βb4 xit + ε̂it
wobei α
bi die Individueneffekte (z.B. Ländereffekte) sind, die sich nicht über die Zeit
ändern, also ‘fixed ’ sind. Deshalb ist dieses Modell in der Literatur auch als ‘fixed
effects model’ bekannt.
Wenn dieses Modell mit Länder- oder Individuen-Dummies geschätzt wird, wird dieses einfache Paneldaten-Modell in der Literatur häufig LSDV Modell (‘Least Squares
Dummy Variable Model ’) genannt.
Da die Verwendung von Individuen-Dummies bei einer sehr großen Anzahl von Individuen rasch zu Problemen führen würde, wird dieses Modell meist auf eine andere
Art geschätzt, die aber numerisch zu exakt den gleichen Ergebnissen führt. Deshalb
können die Resultate gleich wie bei einem LSDV interpretiert werden.
Der besondere Reiz des ‘fixed effects models’ liegt darin, dass es selbst im Fall unbeobachtbarer zeitinvarianter Variablen eine erwartungstreue Schätzung der Koeffizienten erlaubt. Was ist damit gemeint? Ganz einfach, wenn Variablen zeitinvariant
sind, sich also nicht über die Zeit ändern (wie z.B. Geschlecht, koloniale Vergangenheit, . . . ) ‘stecken’ diese Effekte in den Individuendummies. Der große Vorteil
dabei ist, dass diese Effekte damit keinen ‘omitted variable bias’ verursachen, der
Nachteil ist allerdings, dass sie mit allen anderen zeitinvarianten Effekten in den
Individuendummies stecken, und deshalb nicht isoliert gemessen werden können.
Da die Schätzung dieses Modells bei einer großen Anzahl von Individuen (n) sehr
aufwändig ist werden die Steigungsparameter meist in einer anderen Form geschätzt.
19
Empirische Wirtschaftsforschung
Wir haben bereits gesehen, dass die Steigungskoeffizienten auch in einem Modell
in ‘Abweichungsform’ geschätzt werden können, d.h. wenn wir von jeder Beobachtung die Mittelwerte subtrahieren. Eine ähnliche Transformation ist auch in diesem Fall möglich, wobei die Mittelwerttransformation individuenweise geschieht.
Dadurch fallen die individuenspezifischen Interzepte heraus und die Steigungskoeffizienten können deutlich einfacher geschätzt werden. Sollte jemand an den Koeffizienten der Individuendummies (z.B. Länderdummies) interessiert sein können diese
nachträglich berechnet werden.
8.7.3
“Difference-in-Difference”
Stellen Sie sich vor, in einer Stadt wurde eine neue Umfahrungsstrasse gebaut, und
Sie werden beauftragt zu schätzen, welche Auswirkungen dies auf die Immobilienpreise in der betroffenen Region hatte.
Dieser Auftrag stellt Sie vor eine typische “Was-wäre-wenn” Frage, denn wenn die
Straße gebaut wurde fehlt das Kontrafaktum (engl. counterfactual, wie wären die
Preise, wenn die Straße nicht gebaut worden wäre).
Angenommen Sie hätten Daten über die Grundstückpreise vor dem Bau der Umfahrungsstrasse. In diesem Fall könnten Sie einfach den Mittelwert der Grundstückpreise
vor dem Bau der Umfahrungsstrasse mit den Grundstückpreisen nach dem Bau der
Umfahrungsstrasse vergleichen.
Allerdings ist ein solcher Vergleich schwierig, denn wenn sich während des Baus der
Umfahrungsstrasse die Immobilienpreise generell verändert haben, würde man diese
Preisänderung fälschlich der Umfahrungsstrasse zuschreiben.
In diesem Fall könnte man die Preise vor und nach dem Bau der Umfahrungsstrasse
mit den Grundstückpreisen einer nicht betroffenen Region der Stadt vergleichen, und
genau dies ist das Grundprinzip des “Difference-in-Difference” Ansatzes.
Da diese Art von Analysen früher hauptsächlich in der Medizin und in den Naturwissenschaften angewandt wurden, haben sich in der Literatur die Bezeichnungen dieser
Wissenschaften eingebürgert. Man nennt eine Gruppe, die von einer Veränderung betroffen wurde (bzw. der einer Behandlung zuteil wurde) als ‘Treatment Group’, und
die Kontrollgruppe wenig überraschend als ‘Control Group’. Um die Sprachen nicht
übermäßig zu vermischen bezeichnen wir die Periode vor und nach der Veränderung
(Behandlung) mit ‘Before’ und ‘After’.
Woher die Bezeichnung ‘Difference-in-Difference’ kommt wird unmittelbar klar,
wenn wir zum Beispiel zurückkehren. Wir bezeichnen den Mittelwert der
Grundstückpreise der ‘Treatment Group’ (d.h. der Gruppe, die vom Bau betroffen
war) vor dem Bau der Umfahrungsstrasse mit TB , den Mittelwert der ‘Treatment
Group’ nach dem Bau der Umfahrungsstrasse mit TA , und die Mittelwerte der Preise
der Kontrollgruppe mit CB bzw. CA , also
Before
After
Treatment Group
TB
TA
Control Group
CB
CA
20
Empirische Wirtschaftsforschung
Um die vom Bau der Umfahrungsstrasse ‘verursachte’ Preisänderung abzuschätzen
können wir einfach die ‘Differenz der Differenz’ der Mittelwerte bilden, also
“Difference-in-Difference” = (TA − TB ) − (CA − CB )
Damit haben wir unser Problem aber erst fast gelöst, denn wir werden kaum
genügend vergleichbare Immobilienpreise in den Gruppen finden. Immobilien unterscheiden sich in Bezug auf Größe, Lage, Ausstattung usw., so dass ein Vergleich
schwierig ist.
Glücklicherweise lässt sich dieser “Difference-in-Difference” Ansatz sehr einfach in
ein Regressionsmodell überführen, und eine Regression erlaubt bekanntlich die
Berücksichtigung mehrerer erklärender x Variablen (wie z.B. Größe, Lage, Ausstattung).
Konkret können wir folgende Regressionsgleichung schätzen
yi = βb1 + βb2 treat + βb3 after + βb4 treat · after + βb5 xi + εi
mit den Dummies
(
1 wenn in ‘Treatment Group’,
treat =
0 wenn in ‘Control Group’.
(
0 vor ‘Treatment’,
after =
1 nach ‘Treatment’.
und einer (oder mehreren) erklärenden Variablen x.
In der folgenden Tabelle kann man einfach erkennen, dass der Koeffizient des Interaktionsterms zwischen der Treatment- und After-Dummy genau der Difference-in
Difference Schätzer ist.
Before
After
Difference
Treatment Group
βb1 + βb2 + βb5 x
βb1 + βb2 + βb3 + βb4 + βb5 x
βb3 + βb4
Control Group
βb1 + βb5 x
βb1 + βb3 + βb5 x
βb3
Difference
βb2
βb2 + βb4
βb4
Probleme: Der “Difference-in-Difference” Schätzer ist nur bei einer tatsächlichen
Zufallsauswahl der Treatment Gruppe anwendbar. In den Sozialwissenschaften ist
eine solche Zufallsauswahl aber nur sehr selten möglich, deshalb wird die Methode meist auf Daten von sogenannten “natürlichen Experimenten” (‘natural experiments’ ) angewandt.
Wenn das ‘Treatment’ nicht zufällig war liefert der “Difference-in-Difference”
Schätzer falsche Ergebnisse. Das Problem ist natürlich, dass in den Sozialwissenschaften eine echte Zufallsauswahl nur sehr selten möglich ist, und wann immer die
Selektion endogen ist, liefern die hier diskutierten Standardmethoden systematisch
verzerrte Ergebnisse. Die Probleme einer ‘endogenous selection’ werden in einem
späteren Kapitel diskutiert.
21
Empirische Wirtschaftsforschung
Tabelle 8.6: Durchschnittliche Beschäftigtenzahl in Fastfood Restaurants vor und
nach Einführung eines Mindestlohns am 1. April 1992 in New Jersey
(NJ). Das benachbarte Pennsylvania (PA) dient als Kontrollgruppe.
Siehe Card and Krueger (1994).
Feb
Nov
Diff.
State
PA
NJ
Diff.
23.33 20.44 −2.89
21.17 21.03 −0.14
2.17 −0.59
2.75
Ein wesentliches Problem ist auch die Wahl der Kontrollgruppe. Der Physiker Ernst
Mach soll einst bemerkt haben “the world is given only once” um auf die Schwierigkeiten bei der Wahl von ‘counterfactuals’ hinzuweisen. Bei den üblichen Anwendungen der Difference-in Difference Methode wird nämlich unterstellt, dass die zeitlichen
Veränderungen in Treatment- und Kontrollgruppe ohne Treatment identisch gewesen wären. Diese Annahme ist manchmal ziemlich fragwürdig.
Ein weiteres Problem kann auftreten, wenn diese Methode mit Zeitreihendaten angewandt wird, und diese Daten autokorreliert sind, siehe z.B. Bertrand et al. (2004).
Beispiel Am 1. April 1992 erhöhte New Jersey (NJ) den Mindestlohn von US$4.25
auf US$5.05. Card and Krueger (1994) erhoben in einer Telefonumfrage bei c.a. 320
Fastfood Restaurants in New Jersey und als Kontrollgruppe bei 77 Fastfood Restaurants im benachbarten Pennsylvania die Beschäftigtenzahl. Jede Firma wurde
zweimal befragt, einmal vor (Feb) und einmal nach (Nov) Einführung des Mindestlohnes. Fastfood Restaurants wurden gewählt, weil dort der Anteil niedrig bezahlter
Beschäftigter besonders hoch ist.
Um den Beschäftigteneffekt der Erhöhung des Mindestlohnes zu ermitteln führten
sie eine “Difference-in-Difference” Analyse durch. Die einfachen Mittelwerte und
deren Differenzen finden Sie in Tabelle 8.6.
Zur Überraschung vieler Ökonomen beschäftigten die Fastfood Restaurants in der
Treatment Gruppe (New Jersey) nach Erhöhung des Mindestlohnes relativ mehr
Personen als in der Kontrollgruppe Pennsylvania.
Wie vorhin gezeigt kann man diese Ergebnis man auch einfach mit Hilfe einer Regression auf die Dummies NJ (= Treatment Gruppe) und Nov (= After) sowie deren
Interaktion erhalten.
EMP
=
23.331
(1.072)***
R2 = 0.007,
− 2.892 NJ
(1.194)**
− 2.166 Nov +
(1.516)
s = 9.406, F -Stat = 1.964,
(Standardfehler in Klammern)
2.754 NJ*Nov
(1.688)
n = 794
22
Empirische Wirtschaftsforschung
Der interessierende Beschäftigungseffekt ist der Koeffizient der Interaktionsvariable
NJ*Nov. Wie man sieht ist dieser Koeffizient nicht von Null verschieden, und das
Bestimmtheitsmaß ist etwas klein.
Allerdings schätzten Card and Krueger (1994) nicht dieses Modell, sondern verwendeten anstelle der NJ Dummy firmen-fixe Effekte. Die Verwendung firmen-fixer
Effekte entspricht der Berücksichtigung von Firmen-Dummies (jede Firma wurde
zweimal befragt, und alle bis auf eine Firma erhalten eine Dummy). Damit erhielten
sie folgendes Ergebnis
EMP
= 21.060
(0.321)***
− 2.283 Nov +
(1.036)**
2.750 NJ*Nov + α
bi
(1.154)**
R2 = 0.782, s = 6.341, F -Stat = 3.331, n = 794
(Firmen-fixe Effekte α
bi , Standardfehler in Klammern)
Mit dieser Spezifikation ist der Koeffizient des Treatment Effekts positiv und auf dem
5% Niveau signifikant von Null verschieden, was dahingehend interpretiert wurde,
dass die Erhöhung des Mindestlohnes positive Beschäftigungseffekte hatte.
Dieses Ergebnis wird bis heute sehr kontrovers diskutiert, siehe z.B. NZZ vom 23.
April 2014. Eine ausführlichere Diskussion des ‘Difference-in-Difference’ Ansatzes
sowie dieses Beispiels finden Sie auch bei Angrist and Pischke (2008, 228).
Das folgende kleine EViews Programm lädt die Daten und schätzt beide Modelle.
wfopen "http://www.uibk.ac.at/econometrics/data/cardkrueger94.xls"
equation eqdif.ls Emp c NJ Nov NJ*Nov
’ Fixed Effects
pagestruct firm @date(Nov)
equation eqfe.ls(cx=f) Emp c Nov NJ*Nov
Übung: In den Daten finden Sie auch den Lohn (wage). Überprüfen Sie mit Hilfe
einer ‘Difference-in-Difference’ Analyse, wie sich die Erhöhung des Mindestlohnes
von US$4.25 auf US$5.05 auf die durchschnittliche Lohnhöhe auswirkte.
8.7.4
Das Lineare Wahrscheinlichkeitsmodell (LPM)
Wir haben bisher Dummy Variablen nur als erklärende Variablen verwendet. Sind
Dummy Variablen auch als abhängige Variablen vorstellbar?
Angenommen wir interessieren uns dafür, welche Personen sich nach einer Verkaufsveranstaltung entschließen das beworbene Produkt zu kaufen, oder genauer, welche
persönliche Charakteristika die Kaufwahrscheinlichkeit beeinflussen. Dazu könnten
wir eine Zufallsstichprobe ziehen und die Personen befragen, ob sie das Produkt
gekauft haben (y), sowie nach den interessierenden Charakteristika wie z.B. Einkommen (I), Alter (A), Bildungsniveau (E). Das Modell lautet
yi = β1 + β2 Ii + β3 Ai + β4 Ei + εi
23
Empirische Wirtschaftsforschung
wobei
(
1 wenn Person i das Produkt gekauft hat,
yi =
0 wenn Person i das Produkt nicht gekauft hat.
Natürlich können auch die erklärenden Variablen qualitativ sein, z.B. das Geschlecht.
Beim Linearen Wahrscheinlichkeitsmodell (Linear Probability Model, LPM) wird das
Modell mit einer abhängigen Dummyvariable mittels OLS geschätzt.3
Um die Notation einfach zu halten beschränken wir uns im Folgenden auf das bivariate Modell yi = β1 + β2 xi + εi mit yi ∈ {0, 1}, aber alles Folgende gilt ebenso gut
für das multiple Regressionsmodell.
Abbildung 8.6 zeigt das lineare Wahrscheinlichkeitsmodell (LPM) für den bivariaten
Fall. Die Punkte zeigen die Realisationen von y (y = 0 oder y = 1). Die durchgezogene (blaue) Linie ist das Ergebnis einer OLS-Regression und zeigt den bedingten
Erwartungswert E(yi | xi ) = β1 + β2 xi .
Dieser Erwartungswert hat eine interessante Interpretation. Da y nur zwei Werte
annehmen kann, 0 oder 1, ist der bedingte Erwartungswert
E(y| xi ) = [1 × Pr(y = 1| xi )] + [0 × Pr(y = 0| xi )] = Pr(y = 1| xi )
wobei Pr(y = 1| xi ) die Wahrscheinlichkeit bezeichnet, mit der für ein gegebenes xi
das Ereignis y = 1 eintritt.
Der Erwartungswert der binären Variable kann also als Wahrscheinlichkeit interpretiert werden, mit der für ein gegebenes xi das Ereignis yi = 1 eintritt
Pr(y = 1|xi ) = β1 + β2 xi = ybi
Dies erklärt den Namen des LPM.
Im LPM können die marginalen Effekte wie üblich interpretiert werden4
∂ Pr(y = 1)
= β2
∂x
Probleme des linearen Wahrscheinlichkeitsmodells
Das lineare Wahrscheinlichkeitsmodell ist verblüffend einfach und – wie die Praxis
zeigt – in vielen Fällen erstaunlich robust, weshalb es manchmal vernünftig ist zur
ersten Orientierung mit einem solchen Modell zu beginnen. Leider hat es auch einige
gravierende Nachteile:
• Die prognostizierten Wahrscheinlichkeiten können größer als Eins oder kleiner
als Null sein, was natürlich logisch unmöglich ist. Wie 8.6 zeigt wird die Prognostizierte ‘Wahrscheinlichkeit’ für sehr kleine x negativ sein, und für sehr
große x immer größer als Eins sein.
3
Man kann zeigen, dass das LPM eng mit der statistischen Diskriminanzanalyse verwandt ist
(siehe z.B. Maddala and Lahiri, 2009, 332f).
4
Wenn x eine diskrete Variable ist können wir wie üblich die Differenz der Erwartungswerte für
die verschiedenen Ausprägungen von x bilden, mit x1 −x0 := ∆x: ∆ Pr(y) := Pr(y = 1|x1 )−Pr(y =
1|x0 ) = β1 + β2 x1 − (β1 + β2 x0 ) = β2 ∆x oder ∆ Pr(y)/∆x = β2 .
24
Empirische Wirtschaftsforschung
E(y|x)
y
Daten:
y x
0 8
0 15
0 24
0 33
0 42
1 47
1 58
1 73
1 82
1 96
b
1.0
b
b
b
b
ε1
rs
0.5
ε0
b
0.0
−0.2
0
b
b
b
b
50
x∗
100
x
Abbildung 8.6: Das ‘Linear Probability Model’
• Die unterstellte lineare Funktionsform ist häufig unplausibel. Wenn z.B. die
Wahrscheinlichkeit der Berufstätigkeit von Frauen in Abhängigkeit von der
Kinderzahl untersucht werden soll unterstellt das Modell, dass der ‘marginale’
Effekt des ersten Kindes gleich groß ist wie der ‘marginale’ Effekt des z.B.
vierten Kindes.
• Heteroskedastizität: Man kann zeigen, dass die Varianz einer binären Variable
yi mit Mittelwert µ immer µ(1 − µ) ist.5
Deshalb sind die Sörterme heteroskedastisch, was dazu führt, dass der OLS
Schätzer nicht effizient ist und die Standardfehler verzerrt sind. Dieses Problem lässt sich durch die Anwendung eines FGLS Schätzers6 (Feasible Generalized Least Squares), oder – noch einfacher – durch heteroskedastie-konsistente
(White-) Standardfehler zumindest mildern.
• Der Störterm ist nicht normalverteilt: Die Residuen sind die Differenz zwischen
dem realisierten Wert und dem Erwartungswert εi = yi − E(yi | xi ). In Abbildung 8.6 (Seite 24) ist das Residuum für einen Wert x∗ eingezeichnet. Da y nur
0 oder 1 sein kann ist der entsprechende Störterm entweder ε1 = 1 − E(y| x∗)
oder ε0 = 0 − E(y| x∗). Diese Störterme können deshalb nicht normalverteilt
sein. Dies beeinflusst zwar nicht die Unverzerrtheit des OLS Schätzers, aber
die Teststatistiken sind in kleinen Stichproben ungültig.
Einige der Probleme des LPM lassen sich beseitigen, wenn man eine Funktion wählt
die sicher stellt, dass der bedingte Erwartungswert – d.h. die Wahrscheinlichkeit –
im [0,1] Intervall liegt.
5
Warum? Sei y eine Dummy Variable mit E(y) = µ. Per Definition gilt var(y) = E(y − µ)2 =
E(y ) − 2µ E(y) + µ2 . Da y nur die Werte 0 und 1 annehmen kann gilt y 2 = y. Einsetzen von
E(y) = µ gibt var(y) = µ − µ2 = µ(1 − µ).
p
6
Man schätzt die gefitteten Werte ybi , berechnet daraus die Gewichte wi = ybi (1 − ybi ), und
regressiert yi /wi auf xi /wi .
2
25
Empirische Wirtschaftsforschung
Eine solche Funktion kann natürlich niemals linear sein, sondern wird meist S-förmig
angenommen. Deshalb sind die marginalen Effekte nicht konstant, weshalb die Parameter dieser Modelle – wie wir später sehen werden – deutlich schwieriger zu
interpretieren sind als die des LPM.
LPM
y
b
1.0
b
b
b
b
Logit
0.5
b
0.0
−0.2
0
b
b
b
b
50
x∗
100
x
Abbildung 8.7: Vergleich LPM- und Logit Modell
Die bekanntesten zwei nichtlinearen Schätzverfahren, die dies leisten, sind das
Probit- und das Logit Modell, die mittels der Maximum-Likelihood Methode
geschätzt werden können. Abbildung 8.7 zeigt den Unterschied zwischen einem
Logit- und LPM Modell. Probit- und Logit Modelle werden im Aufbaukurs diskutiert.
8.7.5
Stückweise lineare Funktionen
Stückweise lineare Funktionen (piecewise linear functions) sind der einfachste Fall
von Spline Funktionen.7
Die Idee kann am einfachsten anhand eines Beispiels erläutert werden. Angenommen, das Steuersystem eines Landes kennt zwei Schwellenwerte x∗1 und x∗2 beim
Einkommen, ab denen unterschiedliche marginale Steuersätze angewandt werden.
Möchte man die Steuereinnahmen y in Abhängigkeit vom Einkommen x schätzen,
so könnte man für jeden der Einkommensbereiche eine eigene Regression schätzen:
7

βb1 + βb2 x, wenn x < x∗1 ;



yb|x =
γ̂0 + γ̂1 x, wenn x ≥ x∗1 und x < x∗2 ;



δ̂0 + δ̂1 x, wenn x ≥ x∗2
(8.1)
Aus Wikipedia: “Ein Spline n-ten Grades ist eine Funktion, die stückweise aus Polynomen
mit maximalem Grad n zusammengesetzt ist. Dabei werden an den Stellen, an denen zwei Polynomstücke zusammenstoßen (man spricht auch von Knoten) bestimmte Bedingungen gestellt, etwa
dass der Spline (n-1) mal stetig differenzierbar ist.”
26
Empirische Wirtschaftsforschung
Die Schwellenwerte (tresholds) x∗1 und x∗2 werden auch Knoten (knots) genannt.
Anstelle dreier einzelner Gleichungen kann alternativ auch eine Gleichung mit Dummy Variablen und Interaktionstermen geschätzt werden.
Dazu definieren wir zwei Dummy Variablen
D1 = 1 wenn x ≥ x∗1
D2 = 1 wenn x ≥ x∗2
und 0 sonst;
und 0 sonst;
Die folgende schätzbare Gleichung mit den zwei Dummyvariablen und Interaktionstermen stellt eine alternative Spezifikation zu den den drei obigen Einzelregressionen
dar, aus der exakt die gleichen Koeffizienten berechnet werden können
y = βb1 + βb2 x + γ̂0 D1 + γ̂1 D1 x + δ̂0 D2 + δ̂1 D2 x + ε̂
(8.2)
Allerdings stellt dabei nichts sicher, dass sich die einzelnen Regressionsgeraden genau
bei den Schwellenwerten schneiden. Die strichlierten Linien in Abbildung 8.8 zeigen
ein Beispiel dafür.
Manchmal erwartet man aber aus theoretischen Gründen, dass sich die Regressionsgeraden genau bei den Schwellenwerten schneiden müssen.
Dies kann man einfach erzwingen, denn diese Bedingung kann man als Restriktion
auf die Koeffizienten modellieren.
Wenn sich beim ersten Schwellenwert x∗1 die Regressionsgeraden schneiden sollen
müssen die y bei diesem Wert gleich sein. Aus Gleichung (8.2) folgt deshalb für den
ersten Schwellenwert
βb1 + βb2 x∗1 = βb1 + βb2 x∗1 + γ̂0 + γ̂1 x∗1
Daraus folgt die Parameterrestriktion γ̂0 = −γ̂1 x∗1 .
Wenn man diese Parameterrestriktion in Gleichung (8.2) einsetzt folgt
y =
=
βb1 + βb2 x − γ̂1 x∗1 D1 + γ̂1 D1 x + δ̂0 D2 + δ̂1 D2 x + ε̂
βb1 + βb2 x + γ̂1 D1 (x − x∗1 ) + δ̂0 D2 + δ̂1 D2 x + ε̂
Da sich die Regressionsgeraden auch beim zweiten Schwellenwert x∗2 schneiden
müssen, muss zudem gelten
βb1 + βb2 x∗2 + γ̂0 + γ̂1 x∗2 = βb1 + βb2 x∗2 + γ̂0 + γ̂1 x∗2 + δ̂0 + δ̂1 x∗2
Daraus folgt eine weitere Parameterrestriktion δ̂0 = −δ̂1 x∗2 .
Wenn man diese und obige Parameterrestriktion in Gleichung (8.2) einsetzt folgt die
schätzbare stückweise lineare Regressionsfunktion
y = βb1 + βb2 x + γ̂1 D1 (x − x∗1 ) + δ̂1 D2 (x − x∗2 ) + ε̂
Die durchgezogene Linie in Abbildung 8.8 zeigt diese Funktion.
27
Empirische Wirtschaftsforschung
y
x∗1
x∗2
x
Abbildung 8.8: Einzelregressionen (strichliert) und stückweise lineare Regression
(durchgezogene Linie).
Die Gleichungen der drei Geradensegmente sind


 βb1 + βb2 x,
E(y) =
(βb1 − γ1 x∗1 ) + (βb2 + γ1 )x,

 (βb − γ x∗1 − δ x∗2 ) + (βb + γ + δ )x,
1
1
1
2
1
1
für x ≤ x∗1
für x∗1 < x ≤ x∗2
für x > x∗2
Daraus ist erkennbar, dass die Steigung des ersten Segmentes βb2 ist, die Steigung
des zweiten Segmentes ist βb2 + γ1 und die Steigung des dritten Segmentes ist βb2 +
γ1 + δ1 . Für einen Test gegen eine einfache lineare Regression wird die gemeinsame
Nullhypothese H0 : γ1 = 0 und δ1 = 0 getestet.
8.7.6
Alternative Kodierungen
Die in der Ökonometrie gebräuchlichste Form der Modellierung einer kategorialen
Variable mit m verschiedenen Ausprägungen ist, m−1 Dummy Variablen anzulegen
und diese in einer Regressionsgleichung aufzunehmen. Bei dieser ‘Dummy Kodierung’
misst das Interzept den Mittelwert der (‘weggelassenen’) Referenzkategorie, und der
Koeffizient einer Dummy Variable j (mit j = 1, . . . , m − 1) misst den ceteris paribus
Unterschied zwischen den Mittelwerten der Kategorie j und der Referenzkategorie
(vgl. Abbildung 8.2, Seite 6).
Neben dieser einfachen Dummy Kodierung gibt es noch weitere Möglichkeiten zur
Modellierung von Dummy Variablen. Eine ähnlich einfache Methode ist die ‘Effektkodierung’. Dabei misst das Interzept den Mittelwert über alle m Kategorien (‘grand
mean’), und der Koeffizient einer Dummy Variable den Unterschied zu diesem ‘grand
mean’. Jede Kategorie j wird also nicht mehr mit der Referenzkategorie verglichen,
sondern mit dem Mittelwert über die gesamte Stichprobe.
28
Empirische Wirtschaftsforschung
Wenn die Kategorien unterschiedlich groß sind unterscheidet man weiters zwischen
einer ungewichteten und gewichtetet Effektkodierung, je nachdem ob die relativen
Häufigkeiten berücksichtigt werden oder nicht.
Dummies für die ungewichtete Effektkodierung erhält man mit

für Kategorie j;
 1
E-ungew
−1 für Referenzkategorie;
Dj
=

0
sonst.
Bei der gewichteten Effektkodierung werden die Dummies ähnlich gebildet, nur für
die Referenzkategorie werden
DjE-gew

 1
n
− nRj
=

0
für Kategorie j;
für Referenzkategorie;
sonst.
wobei nj die Anzahl der Fälle in Kategorie j und nR die Anzahl der Fälle in der
Referenzkategorie bezeichnet.
Beispiel Werte von y mit Zuordnung zu vier Kategorien:
Mittelwert
Kat.1 Kat.2 Kat.3 Kat.4
3
10
2
2
1
6
3
4
2
3
−3
2
4
2
8
3
1
Gewichteter Mittelwert (‘grand mean’ ): 3; Ungewichteter Mittelwert: 3.5
Datentabelle mit Dummies: Referenzkategorie 1; D2 – D4 . . . Dummykodierung,
DEU2 – DEU4 . . . Effektkodierung ungewichtet, DEG2 – DEG4 . . . Effektkodierung
gewichtet.
y Kategorie D2 D3 D4 DEU2 DEU3
3
1
0
0
0
−1
−1
1
1
0
0
0
−1
−1
2
1
0
0
0
−1
−1
2
1
0
0
0
−1
−1
10
2
1
0
0
1
0
6
2
1
0
0
1
0
2
3
0
1
0
0
1
3
3
0
1
0
0
1
3
3
0
1
0
0
1
4
3
0
1
0
0
1
2
4
0
0
1
0
0
4
4
0
0
1
0
0
−3
4
0
0
1
0
0
Dummy Kodierung:
DEU4 DEG2 DEG3 DEG4
−1
−0.5
−1 −0.75
−1
−0.5
−1 −0.75
−1
−0.5
−1 −0.75
−1
−0.5
−1 −0.75
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
1
0
0
1
1
0
0
1
1
0
0
1
29
Empirische Wirtschaftsforschung
y
=
2.00
(1.027)*
+ 6.00 D2
(1.78)***
+
1.00 D3 − 1.00 D4
(1.453)
(1.569)
R2 = 0.635, s = 2.055, F -Stat = 5.211,
(Standardfehler in Klammern)
n = 13
Effektkodierung, ungewichtet:
y
= 3.50
(0.593)***
+
4.50 DEU2 − 0.50 DEU3 − 2.50 DEU4
(1.186)***
(0.938)
(1.027)**
R2 = 0.635, s = 2.055, F -Stat = 5.211,
(Standardfehler in Klammern)
n = 13
Effektkodierung, gewichtet:
y
= 3.00
(0.57)***
+
5.00 DEG2 + 0.00 DEG3 − 2.00 DEG4
(1.337)***
(0.855)
(1.04)*
R2 = 0.635, s = 2.055, F -Stat = 5.211,
(Standardfehler in Klammern)
n = 13
Welche Kodierung sinnvoll ist hängt im wesentlichen davon ab, welcher Vergleich
im jeweiligen Zusammenhang sinnvoller ist, rein statistisch sind diese Kodierungen
gleichwertig. Wie man auch am Beispiel sieht, unterscheiden sich die R2 nicht zwischen den verschiedenen Kodierungen.
Literaturverzeichnis
Angrist, J. D. and Pischke, J.-S. (2008), Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton University Press.
Bertrand, M., Duflo, E. and Mullainathan, S. (2004), ‘How much should we
trust differences-in-differences estimates?’, The Quarterly Journal of Economics
119(1), 249–275.
Card, D. and Krueger, A. B. (1994), ‘Minimum Wages and Employment: A Case
Study of the Fast-Food Industry in New Jersey and Pennsylvania’, The American
Economic Review 84(4), 772–793.
Garderen, K. J. V. and Shah, C. (2002), ‘Exact interpretation of dummy variables
in semilogarithmic equations’, Econometrics Journal 5(1), 149–159.
Kennedy, P. E. (1981), ‘Estimation with correctly interpreted dummy variables in
semilogarithmic equations’, The American Economic Review 71(4), 801.
Machlup, F. (1974), ‘Proxies and dummies’, The Journal of Political Economy
82(4), 892.
Maddala, G. S. and Lahiri, K. (2009), Introduction to Econometrics, 4 edn, Wiley.
Herunterladen