Kapitel 8 Dummy Variablen “Let us remember the unfortunate econometrician who, in one of the major functions of his system, had to use a proxy for risk and a dummy for sex.” (Machlup, 1974, 892) Dummy Variablen gehören zum praktischsten, was die einführende Ökonometrie zu bieten hat. Sehr häufig interessieren wir uns nämlich für Vergleiche zwischen Gruppen, z.B. zwischen Ländern, Branchen, oder für die Konsequenzen der Zugehörigkeit zu bestimmten Gruppen (z.B. Geschlecht). Bisher haben wir ausschließlich Variablen untersucht, die innerhalb eines Bereichs jeden Wert annehmen konnten, d.h. intervall- bzw. verhältnisskalierte 1 Variablen. Um z.B. die Zuordnung einer Person zu einer Gruppe modellieren zu können genügen Variablen, die nur zwei Werte annehmen können, z.B. Eins (1) für ‘wahr’ und Null (0) für ‘falsch’.2 Deshalb werden solche Variablen häufig 0-1 Variablen, binäre Variablen oder auch qualitative Variablen genannt. In der Ökonometrie hat sich dafür die Bezeichnung Dummy Variablen eingebürgert. Mit Hilfe solcher Dummy Variablen können im Rahmen eines Regressionsmodells die Auswirkungen qualitativer Unterschiede untersucht werden, zum Beispiel ob Männer im Erwartungswert signifikant mehr verdienen als Frauen, und wie groß der erwartete Einkommensunterschied ist. Dummy Variablen sind ein äußerst nützliches und flexibles Instrument, mit der eine Vielzahl von Fragen untersucht werden kann, z.B. ob Länder in den Tropen langsamer wachsen als Länder in den gemäßigten Klimazonen, ob und wie sich die marginale Konsumneigung nach einer Steuerreform ändert, 1 Bei intervallskalierten Daten ist die Reihenfolge festgelegt und die Differenzen zwischen zwei Werten können inhaltlich interpretiert werden. Bei verhältnisskalierten Variablen existiert zusätzlich ein absoluter Nullpunkt. In diesem Abschnitt werden wir uns mit Fällen beschäftigen, in denen zumindest eine erklärende Variablen nominal- oder ordinalskaliert ist. Bei einer Nominalskala können die Ausprägungen in keine natürliche Reihenfolge gebracht werden. Beispiele für nominalskalierte Merkmale sind Geschlecht, Religion, Hautfarbe, etc. Bei einer Ordinalskala besteht zwar eine natürliche Rangordnung, aber die Abstände zwischen den Merkmalsausprägungen sind nicht quantifizierbar. Beispiele sind Schulnoten, Güteklassen bei Lebensmitteln, usw. 2 Die Zuordnung von Null und Eins ist zwar willkürlich, aber sehr praktisch, wie wir gleich sehen werden. 1 2 Empirische Wirtschaftsforschung oder inwieweit sich das Ausgabeverhalten von Verheirateten gegenüber Ledigen unterscheidet. Wir beginnen mit einem sehr einfachen Beispiel. Beispiel: Tabelle 8.1 zeigt den Stundenlohn (y) von 12 Personen. Die Variable D w hat den Wert 1, wenn es sich bei der Person um eine Frau handelt, und den Wert 0, wenn es keine Frau ist. Analog dazu ist die Dummyvariable D m = 1 für Männer und D m = 0 sonst. Wenn es beim Geschlecht nur zwei Ausprägungen gibt gilt natürlich D m + D w = 1, bzw. D m = 1 − D w . Wir erinnern uns, dass wir als Ergebnis einer Regression auf die Regressionskonstante (d.h. auf einen Vektor mit lauter Einsen) den Mittelwert der Variable erhalten, P d.h. für yi = βb1 + ε̂i erhalten wir den OLS-Schätzer βb1 = 1/n i yi = ȳ. Angewandt auf die Daten in Tabelle 8.1 erhalten wir den Mittelwert ȳ = 17.23. Tabelle 8.1: Beispiel: Geschlechtsspezifische Einkommensunterschiede. Stundenlohn (y) 15.02 18.33 18.81 15.88 18.58 17.04 17.27 16.94 17.71 16.36 18.57 16.26 Dw weibl. = 1 1 0 0 1 0 1 0 1 0 1 0 1 Dm männl. = 1 0 1 1 0 1 0 1 0 1 0 1 0 Mittelwert von y: 17.23 Mittelwert von y für Männer: 18.21 Mittelwert von y für Frauen: 16.25 Regression: y = βb1 + βb2 D w + ε̂ Schätzung: yb = 18.21 − 1.96D w (0.275) (0.389) R2 = 0.718, n = 12 (Standardfehler in Klammern) Wenn wir anstelle der Regressionskonstanten auf die Dummyvariable für Männer regressieren erhalten wir den Mittelwert für Männer yb = βbm D m = 18.2 = ȳm Wir können dies auch schreiben als (b y |Männer) := (b y |D m = 1) = 18.21, d.h. der gefittete Wert von y gegeben D m = 1 ist 18.21. Falls alle Gauss Markov Annahmen erfüllt sind wissen wir außerdem, dass E(y|D m = 1) = βm Analog erhalten wir für Frauen yb = βbw D w = 16.25, bzw. (b y |Frauen) := (b y |D w = 1) = 16.25. Die Regression auf die einzelnen Dummies liefern also tatsächlich die Mittelwerte der betreffenden Kategorien. Deshalb sollte es nicht verwundern, dass eine Regression auf beide Dummies yb = βbm D w + βbw D w die Mittelwerte beider Kategorien liefert 3 Empirische Wirtschaftsforschung yb = 16.25D w (0.275) + 18.21D m (0.275) d.h. den Stichprobenmittelwert für Frauen βbw = 16.25 = ȳw und für Männer βbm = 18.21 = ȳm . Man beachte, dass wir hier keine Regressionskonstante verwendet haben! Da in diesem Fall der Wert der Regressionskonstante per Definition immer gleich der Summe der beiden Dummies ist (1 = D m + D w ) würde dies zu einer exakten linearen Abhängigkeit zwischen den Regressoren führen. Die Gleichung y = βb1 + βbw D w + βbm D m + ε̂ würde folgendermaßen aussehen: 0 1 1 y1 1 0 1 1 1 0 0 y2 1 1 1 0 1 y3 b 1 b 0 b 1 y4 = β1 1 + βw 0 + βm 1 + ε̂i mit 1 = 0 + 1 .. .. .. .. .. .. .. . . . . . . . 0 1 1 0 1 yn 1 Eine exakte lineare Abhängigkeit zwischen einzelnen x Variablen wird perfekte Multikollinearität genannt und führt – wie wir später zeigen werden – dazu, dass der OLS Schätzer nicht definiert ist und deshalb nicht berechnet werden kann. Da Anfänger diesen Fehler häufig bei der Spezifikation von Dummyvariablen machen ist dieses Problem in der Literatur auch als Dummyvariablenfalle bekannt. Die meisten Programme geben in diesem Fall eine Fehlermeldung aus, EViews meldet z.B. ‘near singular matrix ’; STATA eliminiert automatisch Variablen, die exakt linear abhängig sind. Glücklicherweise lässt sich dieses Problem sehr einfach beheben, man braucht nur eine der beiden Dummyvariablen ‘weglassen’ yb = βb1 + βb2 D w Für Frauen hat die Dummyvariable D w den Wert Eins, deshalb liefert E(y|D w = 1) = β1 + β2 × 1 = β1 + β2 bzw. für die Stichprobe das durchschnittliche Einkommen der Frauen, d.h. βb1 + βb2 = ȳw . Für Männer hat die Dummyvariable D w den Wert Null, deshalb liefert E(y|D w = 0) = β1 + β2 × 0 = β1 bzw. für die Stichprobe das durchschnittliche Einkommen der Männer, da βb1 = ȳm . Man beachte, dass in diesem Fall das Interzept den Stichprobenmittelwert der ‘weggelassenen’ Kategorie ‘Männer’ misst! Für unser obiges Beispiel erhalten wir yb = 18.21 − 1.96D w (0.275) (0.389) R2 = 0.718, n = 12 4 Empirische Wirtschaftsforschung ist die Schätzung für den erwarteten Stundenlohn von Frauen (d.h. für D w = 1) (b y |D w = 1) = 18.21 − 1.96 × 1 = 16.25 Analog dazu ist die Schätzung für den erwarteten Lohnsatz von Männern (d.h. für D w = 0) (b y |D w = 0) = 18.21 − 1.96 × 0 = 18.21 Also misst das Interzept tatsächlich den Stichprobenmittelwert für Männer, was zugleich eine Schätzung für den erwarteten Stundenlohn für Männer darstellt. Wie man einfach zeigen kann misst der Koeffizient der Dummyvariable für Frauen D w den durchschnittlichen Unterschied zum Einkommen der ‘weggelassenen’ Kategorie Männer, denn E(y|D w = 1) − E(y|D w = 0) = β1 + β2 × 1 − β1 − β2 × 0 = β2 bzw. (b y |D w = 1)−(b y |D w = 0) = (b y |Frauen)−(b y |Männer) = (18.21−1.96)−18.21 = −1.96 d.h. für Frauen erwarten wir aufgrund dieser Regression einen um 1.96 Euro geringeren Stundenlohn als für Männer. Man beachte, dass der Standardfehler der Dummyvariable unmittelbar verwendet werden kann um zu testen, ob der Lohnunterschied zwischen Männern und Frauen signifikant von Null verschieden ist. Tatsächlich ist dies exakt der gleiche Wert, den man bei einem herkömmlichen Test auf Gleichheit der Mittelwerte erhält. Fassen wir zusammen, der Koeffizient der Dummy Variablen misst den Unterschied zur Referenzkategorie, wobei die Referenzkategorie jeweils die Kategorie ist, für die die Dummy Variable den Wert Null hat (in diesem Beispiel die Kategorie ‘Männer’ ). Das Interzept gibt den Stichprobenmittelwert von y für die Referenzkategorie an. Abbildung 8.1 verdeutlicht dies nochmals. Darin sind die Stundenlöhne des vorigen Beispiels sowie deren Durchschnitte für Männer und Frauen getrennt eingezeichnet. Selbstverständlich können wir auch auf die Männer-Dummy regressieren yb = 16.25 + (0.275) 1.96D m (0.389) In diesem Fall bilden die Frauen die ‘weggelassene’ Referenzkategorie, das Interzept misst also den Durchschnittslohn von Frauen, und der Koeffizient der MännerDummy den durchschnittlichen Lohnunterschied; Männer verdienen demnach also im Durchschnitt um 1.96 Euro mehr als Frauen. Dies sind selbstverständlich exakt die gleichen Aussagen wie vorhin, es spielt für die Ergebnisse also keine Rolle, für welche Referenzkategorie man sich entscheidet. Im Folgenden wollen wir die einzelnen Möglichkeiten etwas systematischer darstellen. 5 Empirische Wirtschaftsforschung Stundenlohn (ŷ) b b yb = b βb2 = −1.96 bc b bc βb1 = 18.21 b 18.21 − 1.96D w (0.275) (0.389) R2 = 0.718, n = 12 (Standardfehler in Klammern) b bc bc bc bc männl. (0) weibl. (1) Abbildung 8.1: Beispiel: Geschlechtsspezifische Einkommensunterschiede. 8.1 Unterschiede im Interzept Den einfachsten Fall haben wir im vorhergehenden Beispiel bereits diskutiert, eine einfache Regression auf ein Interzept und eine Dummy Variable D yb = βb1 + βb2 D Bei Dummyvariablen ist es kaum angebracht von einem marginalen Effekt zu sprechen, da Dummy Variablen sich per Definition nicht infinitesimal ändern können, sie können ja nur zwei diskrete Werte annehmen. Deshalb ist es in solchen Fällen meist günstiger, von einem partiellen Effekt zu sprechen, wie groß ist ceteris paribus der erwartete Unterschied von y zwischen den beiden Kategorien, z.B. Männern und Frauen? Da es sich um keinen marginalen Effekt handelt kann man den Unterschied auch nicht wie üblich als partielle Ableitung berechnen, aber da uns meist die erwarteten Unterschiede in y für die beiden Kategorien interessieren reicht es, die gefitteten (bzw. erwarteten) Werte zwischen den Kategorien zu vergleichen. Wie wir schon gesehen haben misst der Koeffizient der Dummyvariablen den Unterschied zur ‘Referenzkategorie’ D = 0 E(y|D = 1) = β1 + β2 E(y|D = 0) = β1 Deshalb ist der “partielle Effekt” in diesem Fall einfach der Koeffizient der Dummyvariable E(y|D = 1) − E(y|D = 0) = β1 + β2 − β1 = β2 Also gibt das Interzept β1 den Erwartungswert für die Kategorie D = 0 und die Summe β1 + β2 den Erwartungswert für die Kategorie D = 1 an. 6 Empirische Wirtschaftsforschung Daran ändert sich nichts Wesentliches, wenn weitere erklärende x Variablen als Regressoren berücksichtigt werden yb = βb1 + βb2 D + βb3 x; E(y|D = 1) = β1 + β2 + β3 x E(y|D = 0) = β1 + β3 x Nach wie vor misst der Koeffizient der Dummyvariable den Unterschied im Interzept, E(y|D = 1) − E(y|D = 0) = β2 , da der Rest bei der Differenzenbildung wegfällt. Die Dummy führt in diesem Fall lediglich zu einer Parallelverschiebung der Regressionsgeraden um den Betrag β2 . Wie man auch in Abbildung 8.2 sehen kann, wirkt sich nur auf das Interzept aus, nicht aber auf die Steigung. yb y = βb1 + βb2 D + ε̂ yb y = βb1 + βb2 D + βb3 x + ε̂ 1 b2 β b2 β b1 β 1 b1 β x b3 β b3 β x Abbildung 8.2: Dummy Variablen und Unterschiede im Interzept 8.2 Unterschiede in der Steigung Wenn man das Produkt einer Dummy mit einer anderen erklärenden Variable als zusätzlichen Regressor einführt, also einen Interaktionseffekt zwischen Dummy und intervallskalierten x Variable, dann erlaubt dies unterschiedliche Steigungen der Regressionsgeraden für beide Kategorien, wie dies in Abbildung 8.3 gezeigt wird. In diesem Fall können sich die Steigungen der Regressiongeraden beider Kategorien unterscheiden, für die Kategorie D = 0 ist die Steigung β2 , und für die Kategorie D = 1 ist die Steigung β2 + β3 . yb = βb1 + βb2 x + βb3 (D × x) E(y|D = 1) = β1 + (β2 + β3 )x E(y|D = 0) = β1 + β2 x Die Steigungen sind ∂ E(y|D = 1) = β2 + β3 ; ∂x ∂ E(y|D = 0) = β2 ∂x 7 Empirische Wirtschaftsforschung Der Koeffizient des Interaktionsterms βb3 ist ein Schätzer für den Unterschied der Steigungen zwischen beiden Kategorien, β3 , denn ∂ E(y|D = 1) ∂ E(y|D = 0) − = β3 ∂x ∂x Allerdings impliziert diese Spezifikation für beide Kategorien das gleiche Interzept (siehe Abbildung 8.3), was in den meisten Fällen eine theoretisch nur schwer begründbare Restriktion darstellt. Es ist fast immer klüger unterschiedliche Ordinatenabschnitte und unterschiedliche Steigungen zuzulassen. yb 1 1 b1 β b2 + βb3 β b2 β x Abbildung 8.3: Dummy Variablen und Unterschiede in der Steigung, y = βb1 + βb2 x + βb3 (D × x) + ε̂ 8.3 Unterschiede in Interzept und Steigung Abbildung 8.4 zeigt ein allgemeineres Modell, das Unterschiede im Interzept und der Steigung zulässt. Eine solche Spezifikation enthält sowohl die Dummy als auch eine Interaktionsvariable zwischen Dummy und intervallskalierten x Variable. yb = βb1 + βb2 x + βb3 D + βb4 (D × x) E(y|D = 1) = (β1 + β3 ) + (β2 + β4 )x E(y|D = 0) = β1 + β2 x Der Unterschied zwischen den beiden Kategorien ist wieder E(y|D = 1) − E(y|D = 0) = β3 + β4 x Man beachte, dass man die gleichen Koeffizienten erhält, wenn man für beide Gruppen eine eigene Regression rechnen würde für D = 0 : für D = 1 : yb0 = βb1 + βb2 x yb1 = γb1 + b γ2 x 8 Empirische Wirtschaftsforschung yb 1 b3 β b1 β 1 b2 + βb4 β b2 β x Abbildung 8.4: Dummy Variablen und Unterschiede in Interzept und Steigung, y = βb1 + βb2 x + βb3 D + βb4 (D × x) + ε̂ mit b γ1 = βb1 + βb3 und b γ2 = βb2 + βb4 . Allerdings werden sich die Standardfehler bei diesen Ansätzen unterscheiden, da das Dummy Variablen Modell implizit für beide Gruppen die gleiche Varianz σ 2 (Homoskedastizität) unterstellt. Deshalb sollte vor Anwendung des Dummy Variablen Modells getestet werden, ob die Varianzen tatsächlich in allen Gruppen gleich sind. Wie das geht erfahren Sie im Kapitel über Heteroskedastizität. 8.4 Mehrere Dummyvariablen Falls zwei Dummyvariablen verwendet werden, z.B. eine Dummyvariable DW für weiblich und Null sonst und eine zweite Dummyvariable für DV für Verheiratet und Null sonst, können anhand dieser vier Kategorien gebildet 1. ledige Männer 2. verheiratete Männer 3. ledige Frauen 4. verheiratete Frauen Zuerst überlegen wir, welche Kategorie als Referenzkategorie gewählt werden soll. Prinzipiell sind wir in dieser Entscheidung völlig frei, das Kriterium ist nur, welche Kategorie am einfachsten kommuniziert werden kann. Wenn wir z.B. ‘ledige Männer’ als Referenzkategorie verwenden definieren wir für die restlichen drei Kategorien drei Dummies : DMV = 1 für verheiratete Männer und Null sonst, 9 Empirische Wirtschaftsforschung DWV = 1 für verheiratete Frauen und Null sonst, DWL = 1 für ledige Frauen und Null sonst. Die Koeffizienten der Dummies im Modell yb = βb1 + βb2 DMV + βb3 DWV + βb4 DWL messen jeweils den Unterschied zur ‘weggelassenen’ Referenzkategorie ‘ledige Männer’. und anhand deren t-Statistiken können wir überprüfen, inwieweit diese Unterschiede signifikant von Null verschieden sind. Tabelle 8.2 zeigt eine Schätzung für Österreich auf Grundlage der EU-Silc Daten 2009. Tabelle 8.2: Durchschnittliche Stundenlöhne für verheiratete/nicht-verheiratete Männer/Frauen; Referenzkategorie für Spalten 1-2: unverheiratete Männer; Referenzkategorie für Spalten 3-4: verheiratete Frauen. DMV = 1 für verheiratete Männer; DWV = 1 für verheiratete Frauen; DWL = 1 für unverheiratete Frauen. Der erwartete Stundenlohn einer verheirateten Frau ist z.B. 13.541 − 0.575 = 12.966 (vgl. Spalten 1 und 3). Const. DMV DWV DWL StdL log(StdL) StdL log(StdL) 13.541∗∗∗ (0.306) 3.543∗∗∗ (0.412) −0.575 (0.424) −1.483∗∗∗ (0.439) 2.436∗∗∗ (0.016) 0.261∗∗∗ (0.021) −0.009 (0.022) −0.093∗∗∗ (0.022) 12.966∗∗∗ (0.294) 4.118∗∗∗ (0.403) 2.427∗∗∗ (0.015) 0.270∗∗∗ (0.021) DML R-squared N 0.033 5133 0.061 5133 −0.907∗ (0.430) 0.575 (0.424) 0.033 5133 −0.084∗∗∗ (0.022) 0.009 (0.022) 0.061 5133 Eine alternative und völlig gleichwertige Modellierung kann mit Hilfe von Interaktionseffekten vorgenommen werden. Wenn wir uns wieder dafür interessieren, ob sich der Familienstand (verheiratet oder ledig) für Männer und Frauen unterschiedlich auf y (z.B. den Stundenlohn) auswirkt, können wir einfach eine Dummy Variable DV = 1 für Verheiratete und Null sonst sowie eine weitere Dummy DW = 1 für weiblich und DW = 0 sonst definieren. 10 Empirische Wirtschaftsforschung Wir schätzen das Modell mit Interaktionseffekt zwischen den Dummies yb = βb1 + βb2 DW + βb3 DV + βb4 DW · DV mit den vier Kategorien: E(y|DW = 0, DV = 0) E(y|DW = 1, DV = 0) E(y|DW = 0, DV = 1) E(y|DW = 1, DV = 1) = = = = β1 (β1 + β2 ) (β1 + β3 ) (β1 + β2 + β3 + β4 ) Für einen unverheirateten Mann (die Referenzkategorie DW = DV = 0) erwarten wir ein y von β1 ; für eine unverheiratete Frau (DW = 1, DV = 0) erwarten wir ceteris paribus ein um β2 größeres (bzw. wenn β2 negativ ist kleineres) y als für einen unverheirateten Mann, da E(y|DW = 1, DV = 0) − E(y|DW = 0, DV = 0) = β1 + β2 − (β1 ) = β2 , usw. Der erwartete Unterschied in y zwischen verheirateten und unverheirateten Frauen ist zum Beispiel E(y|DW = 1, DV = 1) − E(y|DW = 1, DV = 0) = [(β1 + β2 + β3 + β4 )] − −[(β1 + β2 )] = β3 + β4 Analog ist der erwartete Unterschied in y zwischen verheirateten Frauen und verheirateten Männern β2 + β4 , der Unterschied zwischen verheirateten Frauen und unverheirateten Männern β2 + β3 + β4 , usw. Im Fall mit zwei Dummy Variablen sind Vergleiche zwischen vier Fällen möglich, man muss sich jeweils klar machen, welchen Vergleich man anstellen möchte. Bei mehreren Dummy Variablen kann dies schnell unübersichtlich werden. Selbstverständlich können neben den Dummyvariablen und deren Interaktionen weitere erklärende Variablen berücksichtigt werden, z.B. yb = βb1 + βb2 DMV + βb3 DWV + βb4 DWL + βb5 x. Tabelle 8.3 zeigt wieder ein Beispiel für die EU-Silc Daten Österreichs (2009). Selbstverständlich enthält diese Tabelle exakt die gleiche Information wie Tabelle 8.2. Achtung: Wenn zwei oder mehrere Dummy Variablen untereinander korreliert sind, misst das Interzept nur dann den Mittelwert der Referenzkategorie, wenn alle Interaktionseffekte zwischen den Dummies berücksichtigt werden! Wenn z.B. eine Lohngleichung yb = βb1 + βb2 DW + βb3 DV (mit DW = 1 für weiblich und Null sonst; und DV = 1 für Verheiratet und Null sonst) geschätzt wird, misst βb1 nicht das Durchschnittseinkommen ‘unverheirateter Männer’. 11 Empirische Wirtschaftsforschung Tabelle 8.3: Lohngleichung für Österreich (EU-Silc 2009); DW: Dummy für weiblich; DV: Dummy für verheiratet; Referenzkategorie: unvereiratete Männer. Der erwartete Stundenlohn einer verheirateten Frau ist z.B. 13.541 − 1.483 + 3.543 − 2.635 = 12.966, vgl. Tabelle 8.2. Const. DW DV DW × DV R-squared N StdL log(StdL) 13.541∗∗∗ (0.306) −1.483∗∗∗ (0.439) 3.543∗∗∗ (0.412) −2.635∗∗∗ (0.596) 2.436∗∗∗ (0.016) −0.093∗∗∗ (0.022) 0.261∗∗∗ (0.021) −0.177∗∗∗ (0.030) 0.033 5133 0.061 5133 Der Grund ist der ‘Omitted Variables Bias’, das wahre Modell ist y = α1 + α2 DW + α3 DV + α4 DW × DV + υ und der Interaktionseffekt wurde im kurzen Modell fälschlich nicht berücksichtigt. Aus dem Abschnitt über ‘Fehlende relevante Variablen’ wissen wir, dass z.B. E(βb2 ) = α2 + α4 cov(DW, DW × DV) var(DW) Dies kann an diesem einfachen Beispiel demonstriert werden. Die falsche (kurze) Spezifikation ist StdL = 14.237 (0.263)*** − 2.912 DW (0.297)*** + 2.281 DV (0.298)*** Das wahre (lange) Modell ist StdL = 13.541 (0.306)*** − 1.483 DW (0.439)*** + 3.543 DV (0.412)*** − 2.635 DW × DV (0.596)*** Die Hilfsregression zur Berechnung von cov(DW, DW × DV)/ var(DW) ist DW × DV = −0.264 (0.006)*** + 0.542 DW (0.007)*** + 0.479 DV (0.007)*** Wie Sie einfach überprüfen können ist −1.483 − 2.635 × 0.542 = −2.912, der Koeffizient von DW im ersten fehlspezifizierten Modell. Modelle, die Dummies und alle Interaktionen zwischen diesen enthalten, werden in der Varianzanalyse gesättigte Modelle (‘saturated models’ ) genannt. In diesen Modellen ist die bedingte Erwartungswertfunktion linear; für eine ausführlicher Diskussion z.B. siehe Angrist and Pischke (2008, 48ff). 12 Empirische Wirtschaftsforschung 8.5 Interpretation von Dummies in Semi-log Gleichungen In der semi-log Gleichung ln(y) = βb1 + βb2 x + βb3 D + ε̂ gibt [exp(βb3 ) − 1] × 100 näherungsweise an, um wieviel Prozent sich yb für D = 1 von der Kategorie mit D = 0 unterscheidet, wenn x konstant gehalten wird (d.h. ceteris paribus). Dies folgt aus den Rechenregeln für den Logarithmus ln(b y |D = 1) − ln(b y |D = 0) (b y |D = 1) ln (b y |D = 0) (b y |D = 1) −1 (b y |D = 0) (b y |D = 1) − (b y |D = 0) × 100 (b y |D = 0) = βb3 = βb3 = exp(βb3 ) − 1 = (exp(βb3 ) − 1) × 100 Siehe Kennedy (1981), Garderen and Shah (2002). 8.6 Kategorien mit mehreren Ausprägungen Häufig hat man es mit Kategorien zu tun, die mehr als zwei Ausprägungen haben. Wenn man zum Beispiel die Auswirkungen des Bildungsniveaus auf das Einkommen untersuchen möchte sind vermutlich nicht die Ausbildungsjahre relevant, da sich dahinter auch viele Wiederholungen verbergen können, sondern eher das höchste abgeschlossene Bildungsniveau. Zur Vereinfachung werden wir uns auf vier Bildungsniveaus beschränken, a) keine abgeschlossene Schulbildung, b) abgeschlossene Grundschule, c) bestandene Matura und d) abgeschlossene Hochschule. Man könnte auf die Idee verfallen eine Variable anzulegen, die den Wert 1 hat für die erste Kategorie ‘keine abgeschlossene Schulbildung’, den Wert 2 für ‘Grundschule’, den Wert 3 für ‘Matura’ und den Wert 4 für ‘Hochschule’, und diese Variable als erklärende Variable in einer Lohngleichung zu verwenden. Wie Sie vermutlich schon erkannt haben wäre dies keine sehr gute Idee, denn eine solche Spezifikation würde implizieren, dass die Einkommensunterschiede zwischen Personen ohne Schulbildung und Personen mit Grundschule gleich groß sind wie z.B. die Einkommensunterschiede zwischen Maturantinnen und Hochschulabgängerinnen. Man kann eine solche – in den meisten Fällen unsinnige – Spezifikation aber einfach vermeiden, indem man mehrere Dummy Variablen verwendet. Um die Dummy Variablen Falle zu vermeiden werden in einer Regression mit Interzept für m verschiedene Kategorien m − 1 Dummy Variablen benötigt. 13 Empirische Wirtschaftsforschung Für das vorhergehende Beispiel mit den vier Bildungsniveaus würde man sich zuerst überlegen, welches Bildungsniveau als Referenzkategorie gewählt werden soll, und für die restlichen drei Kategorien je eine Dummy Variable anlegen. Wenn man sich z.B. entscheidet als Referenzkategorie Personen ohne Schulbildung zu wählen könnten drei Dummy Variablen D1 , D2 und D3 für das höchste abgeschlossene Bildungsniveau definiert werden: • D1 = 1 für abgeschlossene Grundschule und Null sonst, • D2 = 1 für bestandene Matura und Null sonst, • D3 = 1 für abgeschlossene Hochschule und Null sonst Für Hochschulabgänger (D3 = 1) ist D1 = D2 = 0. Für die Referenzkategorie (Personen ohne jede Schulbildung) haben alle drei Dummies den Wert Null. Wenn nun z.B. das Einkommen W in Abhängigkeit von den Bildungsniveaus dargestellt werden soll könnten wir eine Regression schätzen. yb = βb1 + βb2 D1 + βb3 D2 + βb4 D3 βb1 βb + βb 1 2 yb = b b β1 + β3 b β1 + βb4 wenn wenn wenn wenn D1 D1 D2 D3 = D2 = D3 = 0, = 1 und D2 = D3 = 0, = 1 und D1 = D3 = 0, = 1 und D1 = D2 = 0 wenn sich die Kategorien gegenseitig ausschließen misst βb1 also das durchschnittliche Einkommen von jemanden ohne Schulbildung (die ‘weggelassene’ bzw. ReferenzKategorie), und die restlichen Koeffizienten messen die Unterschiede zu dieser Kategorie. Jemand mit Matura verdient im Erwartungswert z.B. um βb3 mehr als jemand ohne Schulbildung, und jemand mit Hochschulabschluß verdient durchschnittlich um βb4 mehr als jemand ohne Schulbildung, der erwartete Lohn des Hochschulabgängers ist also βb1 + βb4 . Natürlich könnte man die Dummies auch anders definieren, z.B. dass für Hochschulabgänger alle drei Dummy Variablen den Wert 1 haben (D1 = D2 = D3 = 1), allerdings würde sich in diesem Fall die Interpretation der Koeffizienten ändern, der Koeffizient würde bei dieser Spezifikation den Unterschied zur vorhergehenden Kategorie messen (warum?). Wenn man eine zusätzliche Dummy D0 für ‘ohne abgeschlossener Grundschule’ als zusätzlichen Regressor einbeziehen würde wäre die Konsequenz wieder perfekte Kollinearität, da sich die Dummies auf Eins aufsummieren würden, und damit gleich dem Interzept wären. 14 Empirische Wirtschaftsforschung Beispiel Eine Lohngleichung für Österreich Constant potBildg Erf Erf2 Weibl LGem Weibl × LGem log(StdL) log(StdL) 1.941962∗∗∗ (0.037742) 0.026784∗∗∗ (0.001676) 0.019906∗∗∗ (0.002877) −0.000275∗∗∗ (0.000064) −0.059016∗ (0.026770) 0.118402∗∗∗ (0.023251) −0.094314∗∗ (0.034874) 2.012113∗∗∗ (0.040742) −0.002943 (0.002215) 0.024302∗∗∗ (0.002682) −0.000287∗∗∗ (0.000060) −0.133905∗∗∗ (0.025337) 0.081218∗∗∗ (0.021648) −0.067284∗ (0.032402) −0.303701∗ (0.153579) 0.146072∗∗∗ (0.027898) 0.322416∗∗∗ (0.050618) 0.442716∗∗∗ (0.062150) 0.309318∗∗∗ (0.034555) 0.475827∗∗∗ (0.040038) 0.492852∗∗∗ (0.035222) 0.471869∗∗∗ (0.057866) 0.729821∗∗∗ (0.041693) 0.907623∗∗∗ (0.072146) Kein Pflichtschulabschluss/Pflichtschule Lehre (Berufsschule)/Pflichtschule Meister-, Werkmeisterausbildung/Pflichtschule Krankenpflegeschule/Pflichtschule Andere berufsbildende mittlere Schule/Pflichtschule AHS-Oberstufe/Pflichtschule Berufsbildende höhere Schule - Normalform/Pflichtschule Berufsbildende höhere Schule - Kolleg, . . . Universität, Akademie, Fachhochschule × Erstabschluss Universität: Doktoratsstudium als Zweitabschluss R-squared N 0.146516 3228 0.269205 3228 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Datenquelle: EU-SILC Daten 2011, Statistik Austria StdL: Stundenlohn, unselbständig Beschäftigte. potBildg: Alter bei höchstem Bildugsabschluss −6 Erf: Zahl der erwerbstätigen Jahre (P033000) LGem: in Lebensgemeinschaft lebend = 1 und 0 sonst. Dummyvariablen: Höchster Bildungsabschluss, Referenzkategorie: männlich, nicht in Lebensgemeinschaft lebend, Pflichtschulabschluss. 15 Empirische Wirtschaftsforschung Tabelle 8.4: Fremdenverkehrsnächtigungen in Südtirol und saisonale Dummyvariablen Datum Nächtigungen Trend 1995Q1 5978627 1 1995Q2 4853154 2 1995Q3 11779807 3 1995Q4 3400186 4 1996Q1 6641367 5 1996Q2 4518875 6 1996Q3 10863009 7 1996Q4 3250067 8 1997Q1 6510112 9 .. .. .. . . . 2011Q4 4157558 68 2012Q1 7301631 69 2012Q2 5329928 70 8.7 8.7.1 Q2 Q3 Q4 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 .. .. .. . . . 0 0 1 0 0 0 1 0 0 Diverses Saisonbereinigung bei Quartalsdaten Zeitreihendaten weisen häufig saisonale Muster auf. Eine sehr einfache Möglichkeit, solche zu berücksichtigen, bieten Dummyvariablen. y = βb1 + βb2 Q2 + βb3 Q3 + βb4 Q4 + βb5 x + . . . + ε̂ Beispiel: Fremdenverkehrsnächtigungen in Südtirol 1995Q1 – 2012Q2 Tabelle 8.4 zeigt einen Ausschnitt der Daten für Nächtigungen in Südtirol und die entsprechenden Dummyvariablen. Auf Grundlage dieser Daten wurde die in Tabelle 8.5 wiedergegebene Regression gerechnet. Man beachte, dass diese Spezifikation mit Dummyvariablen impliziert, dass sich die Saisoneffekte über die Zeit nicht ändern! Außerdem zeigt ein Vergleich mit der einfachen Regression in Spalte 2, dass die Berücksichtigung der Dummyvariablen eine deutlich genauere Schätzung des Koeffizienten vom Trend erlaubt, ohne Saisondummies wäre der Koeffizient vom Trend nicht einmal signifikant von Null verschieden! Der Grund dafür liegt natürlich in einem weit größeren σ̂ im ‘kurzen’ Modell. Man sieht, dass in diesem Fall eine Nichtberücksichtigung der Dummyvariablen zwar vermutlich keinen sehr großen ‘omitted variable bias’ zur Folge hätte, da der Trend und die Saisondummies vermutlich nicht sehr stark korreliert sind, dass es aber trotzdem klug ist die Saisondummies zu berücksichtigen, da dies eine deutlich genauere Schätzung der restlichen Koeffizienten erlaubt. Abbildung 8.5 zeigt die Abbildung der Daten mit den Regressionsgeraden für die einzelnen Quartale. 16 Empirische Wirtschaftsforschung Tabelle 8.5: Saisonbereinigung mit Hilfe von Dummyvariablen; abhängige Variable: Fremdenverkehrsnächtigungen (in Mio.) Const. Trend Q2 Q3 Q4 R-squared N Nächtigungen Nächtigungen 6.096∗∗∗ (0.121) 0.019∗∗∗ (0.002) −2.293∗∗∗ (0.128) 4.239∗∗∗ (0.130) −3.120∗∗∗ (0.130) 5.881∗∗∗ (0.698) 0.016 (0.017) 0.983 70 0.013 70 14,000,000 12,000,000 10,000,000 8,000,000 6,000,000 4,000,000 2,000,000 1996 1998 2000 2002 2004 2006 2008 2010 2012 Abbildung 8.5: Fremdenverkehrsnächtigungen in Südtirol 1995Q1 – 2012Q2 Empirische Wirtschaftsforschung 8.7.2 17 Panel-Daten und Dummies Häufig stehen Daten für mehrere Individuen und mehrere Zeitperioden zur Verfügung, z.B. das BIP und die Konsumausgaben für mehrere Länder und über mehrere Jahre. Angenommen, wir hätten Daten für drei Länder und 4 Jahre, so könnten wir die Daten ‘aufeinanderstapeln’ (engl. ‘stack’ ) und mit OLS schätzen. Wenn die Daten zwei Dimensionen haben (z.B. Land i Zeitperiode t) benötigen wir zwei Indizes (‘Identifier’ ) um eine Beobachtung zu identifizieren; yit bezeichnet z.B. den Wert von y für Land (Individuum) i in Periode t, d.h. i = 1, . . . , n läuft über die Länder und t = 1, . . . , T über die Zeit. Das ‘stacked model ’ würde für 3 Länder und 4 Perioden in Vektorschreibweise also folgendermaßen aussehen (i = 1, . . . , 3, t = 1, . . . , 4) ε̂11 x11 1 y11 x12 ε̂12 y12 1 x13 ε̂13 y13 1 x14 ε̂14 1 y14 x21 ε̂21 1 y21 y22 = βb1 1 + βb2 x22 + ε̂22 x23 ε̂23 1 y23 x24 ε̂24 1 y24 x31 ε̂31 1 y31 x32 ε̂32 1 y32 x33 ε̂33 1 y33 ε̂34 x34 1 y34 oder kürzer yit = βb1 + βb2 xit + ε̂it Dieses Modell impliziert, dass die Koeffizienten βb1 bzw. βb2 für alle Länder den gleichen Wert haben. Ein etwas allgemeineres Modell würde für die einzelnen Länder Unterschiede im Interzept zulassen, aber für alle Länder den gleichen Steigungskoeffizienten unterstellen. Dies kann einfach mit Hilfe entsprechender Dummy Variablen bewerkstelligt werden. Wir würden z.B. das folgende Modell schätzen y11 1 0 0 x11 ε̂11 y12 1 0 0 x12 ε̂12 y13 1 0 0 x13 ε̂13 y14 1 0 0 x14 ε̂14 y21 1 1 0 x21 ε̂21 y22 1 1 0 = βb1 + βb2 + βb3 + βb4 x22 + ε̂22 y23 1 1 0 x23 ε̂23 y24 1 1 0 x24 ε̂24 y31 1 0 1 x31 ε̂31 y32 1 0 1 x32 ε̂32 y33 1 0 1 x33 ε̂33 y34 1 0 1 x34 ε̂34 18 Empirische Wirtschaftsforschung oder in üblicher Matrixschreibweise 1 0 y11 y12 1 0 y13 1 0 y14 1 0 y21 1 1 y22 1 1 = y23 1 1 y24 1 1 y31 1 0 y32 1 0 y33 1 0 1 0 y34 0 0 0 0 0 0 0 0 1 1 1 1 x11 ε̂11 x12 ε̂12 ε̂13 x13 x14 ε̂14 b β x21 1 ε̂21 b x22 β2 ε̂22 + x23 βb3 ε̂23 ε̂24 x24 βb4 ε̂31 x31 ε̂32 x32 ε̂33 x33 x34 ε̂34 Wie man sieht dient das erste Land in diesem Beispiel als Referenzkategorie, deshalb misst das Interzept βb1 den Mittelwert dieser Referenzkategorie wenn alle erklärenden Variablen den Wert Null annehmen. Die Koeffizienten der Länderdummies βb2 und βb3 geben die Unterschiede im Interzept des zweiten und dritten Landes zu dieser Referenzkategorie an. Dieses Modell unterstellt, dass alle drei Länder den gleichen Steigungskoeffizienten βb4 haben. Natürlich könnte man durch entsprechende Interaktionsvariablen (z.B. D1 × x) auch unterschiedliche Steigungen zulassen, aber dann könnten wir ebensogut einzelne Gleichungen für jedes Land (bzw. Individuum) schätzen. Dieses Modell wird üblicherweise kürzer angeschrieben als yit = βb1 + α bi + βb4 xit + ε̂it wobei α bi die Individueneffekte (z.B. Ländereffekte) sind, die sich nicht über die Zeit ändern, also ‘fixed ’ sind. Deshalb ist dieses Modell in der Literatur auch als ‘fixed effects model’ bekannt. Wenn dieses Modell mit Länder- oder Individuen-Dummies geschätzt wird, wird dieses einfache Paneldaten-Modell in der Literatur häufig LSDV Modell (‘Least Squares Dummy Variable Model ’) genannt. Da die Verwendung von Individuen-Dummies bei einer sehr großen Anzahl von Individuen rasch zu Problemen führen würde, wird dieses Modell meist auf eine andere Art geschätzt, die aber numerisch zu exakt den gleichen Ergebnissen führt. Deshalb können die Resultate gleich wie bei einem LSDV interpretiert werden. Der besondere Reiz des ‘fixed effects models’ liegt darin, dass es selbst im Fall unbeobachtbarer zeitinvarianter Variablen eine erwartungstreue Schätzung der Koeffizienten erlaubt. Was ist damit gemeint? Ganz einfach, wenn Variablen zeitinvariant sind, sich also nicht über die Zeit ändern (wie z.B. Geschlecht, koloniale Vergangenheit, . . . ) ‘stecken’ diese Effekte in den Individuendummies. Der große Vorteil dabei ist, dass diese Effekte damit keinen ‘omitted variable bias’ verursachen, der Nachteil ist allerdings, dass sie mit allen anderen zeitinvarianten Effekten in den Individuendummies stecken, und deshalb nicht isoliert gemessen werden können. Da die Schätzung dieses Modells bei einer großen Anzahl von Individuen (n) sehr aufwändig ist werden die Steigungsparameter meist in einer anderen Form geschätzt. 19 Empirische Wirtschaftsforschung Wir haben bereits gesehen, dass die Steigungskoeffizienten auch in einem Modell in ‘Abweichungsform’ geschätzt werden können, d.h. wenn wir von jeder Beobachtung die Mittelwerte subtrahieren. Eine ähnliche Transformation ist auch in diesem Fall möglich, wobei die Mittelwerttransformation individuenweise geschieht. Dadurch fallen die individuenspezifischen Interzepte heraus und die Steigungskoeffizienten können deutlich einfacher geschätzt werden. Sollte jemand an den Koeffizienten der Individuendummies (z.B. Länderdummies) interessiert sein können diese nachträglich berechnet werden. 8.7.3 “Difference-in-Difference” Stellen Sie sich vor, in einer Stadt wurde eine neue Umfahrungsstrasse gebaut, und Sie werden beauftragt zu schätzen, welche Auswirkungen dies auf die Immobilienpreise in der betroffenen Region hatte. Dieser Auftrag stellt Sie vor eine typische “Was-wäre-wenn” Frage, denn wenn die Straße gebaut wurde fehlt das Kontrafaktum (engl. counterfactual, wie wären die Preise, wenn die Straße nicht gebaut worden wäre). Angenommen Sie hätten Daten über die Grundstückpreise vor dem Bau der Umfahrungsstrasse. In diesem Fall könnten Sie einfach den Mittelwert der Grundstückpreise vor dem Bau der Umfahrungsstrasse mit den Grundstückpreisen nach dem Bau der Umfahrungsstrasse vergleichen. Allerdings ist ein solcher Vergleich schwierig, denn wenn sich während des Baus der Umfahrungsstrasse die Immobilienpreise generell verändert haben, würde man diese Preisänderung fälschlich der Umfahrungsstrasse zuschreiben. In diesem Fall könnte man die Preise vor und nach dem Bau der Umfahrungsstrasse mit den Grundstückpreisen einer nicht betroffenen Region der Stadt vergleichen, und genau dies ist das Grundprinzip des “Difference-in-Difference” Ansatzes. Da diese Art von Analysen früher hauptsächlich in der Medizin und in den Naturwissenschaften angewandt wurden, haben sich in der Literatur die Bezeichnungen dieser Wissenschaften eingebürgert. Man nennt eine Gruppe, die von einer Veränderung betroffen wurde (bzw. der einer Behandlung zuteil wurde) als ‘Treatment Group’, und die Kontrollgruppe wenig überraschend als ‘Control Group’. Um die Sprachen nicht übermäßig zu vermischen bezeichnen wir die Periode vor und nach der Veränderung (Behandlung) mit ‘Before’ und ‘After’. Woher die Bezeichnung ‘Difference-in-Difference’ kommt wird unmittelbar klar, wenn wir zum Beispiel zurückkehren. Wir bezeichnen den Mittelwert der Grundstückpreise der ‘Treatment Group’ (d.h. der Gruppe, die vom Bau betroffen war) vor dem Bau der Umfahrungsstrasse mit TB , den Mittelwert der ‘Treatment Group’ nach dem Bau der Umfahrungsstrasse mit TA , und die Mittelwerte der Preise der Kontrollgruppe mit CB bzw. CA , also Before After Treatment Group TB TA Control Group CB CA 20 Empirische Wirtschaftsforschung Um die vom Bau der Umfahrungsstrasse ‘verursachte’ Preisänderung abzuschätzen können wir einfach die ‘Differenz der Differenz’ der Mittelwerte bilden, also “Difference-in-Difference” = (TA − TB ) − (CA − CB ) Damit haben wir unser Problem aber erst fast gelöst, denn wir werden kaum genügend vergleichbare Immobilienpreise in den Gruppen finden. Immobilien unterscheiden sich in Bezug auf Größe, Lage, Ausstattung usw., so dass ein Vergleich schwierig ist. Glücklicherweise lässt sich dieser “Difference-in-Difference” Ansatz sehr einfach in ein Regressionsmodell überführen, und eine Regression erlaubt bekanntlich die Berücksichtigung mehrerer erklärender x Variablen (wie z.B. Größe, Lage, Ausstattung). Konkret können wir folgende Regressionsgleichung schätzen yi = βb1 + βb2 treat + βb3 after + βb4 treat · after + βb5 xi + εi mit den Dummies ( 1 wenn in ‘Treatment Group’, treat = 0 wenn in ‘Control Group’. ( 0 vor ‘Treatment’, after = 1 nach ‘Treatment’. und einer (oder mehreren) erklärenden Variablen x. In der folgenden Tabelle kann man einfach erkennen, dass der Koeffizient des Interaktionsterms zwischen der Treatment- und After-Dummy genau der Difference-in Difference Schätzer ist. Before After Difference Treatment Group βb1 + βb2 + βb5 x βb1 + βb2 + βb3 + βb4 + βb5 x βb3 + βb4 Control Group βb1 + βb5 x βb1 + βb3 + βb5 x βb3 Difference βb2 βb2 + βb4 βb4 Probleme: Der “Difference-in-Difference” Schätzer ist nur bei einer tatsächlichen Zufallsauswahl der Treatment Gruppe anwendbar. In den Sozialwissenschaften ist eine solche Zufallsauswahl aber nur sehr selten möglich, deshalb wird die Methode meist auf Daten von sogenannten “natürlichen Experimenten” (‘natural experiments’ ) angewandt. Wenn das ‘Treatment’ nicht zufällig war liefert der “Difference-in-Difference” Schätzer falsche Ergebnisse. Das Problem ist natürlich, dass in den Sozialwissenschaften eine echte Zufallsauswahl nur sehr selten möglich ist, und wann immer die Selektion endogen ist, liefern die hier diskutierten Standardmethoden systematisch verzerrte Ergebnisse. Die Probleme einer ‘endogenous selection’ werden in einem späteren Kapitel diskutiert. 21 Empirische Wirtschaftsforschung Tabelle 8.6: Durchschnittliche Beschäftigtenzahl in Fastfood Restaurants vor und nach Einführung eines Mindestlohns am 1. April 1992 in New Jersey (NJ). Das benachbarte Pennsylvania (PA) dient als Kontrollgruppe. Siehe Card and Krueger (1994). Feb Nov Diff. State PA NJ Diff. 23.33 20.44 −2.89 21.17 21.03 −0.14 2.17 −0.59 2.75 Ein wesentliches Problem ist auch die Wahl der Kontrollgruppe. Der Physiker Ernst Mach soll einst bemerkt haben “the world is given only once” um auf die Schwierigkeiten bei der Wahl von ‘counterfactuals’ hinzuweisen. Bei den üblichen Anwendungen der Difference-in Difference Methode wird nämlich unterstellt, dass die zeitlichen Veränderungen in Treatment- und Kontrollgruppe ohne Treatment identisch gewesen wären. Diese Annahme ist manchmal ziemlich fragwürdig. Ein weiteres Problem kann auftreten, wenn diese Methode mit Zeitreihendaten angewandt wird, und diese Daten autokorreliert sind, siehe z.B. Bertrand et al. (2004). Beispiel Am 1. April 1992 erhöhte New Jersey (NJ) den Mindestlohn von US$4.25 auf US$5.05. Card and Krueger (1994) erhoben in einer Telefonumfrage bei c.a. 320 Fastfood Restaurants in New Jersey und als Kontrollgruppe bei 77 Fastfood Restaurants im benachbarten Pennsylvania die Beschäftigtenzahl. Jede Firma wurde zweimal befragt, einmal vor (Feb) und einmal nach (Nov) Einführung des Mindestlohnes. Fastfood Restaurants wurden gewählt, weil dort der Anteil niedrig bezahlter Beschäftigter besonders hoch ist. Um den Beschäftigteneffekt der Erhöhung des Mindestlohnes zu ermitteln führten sie eine “Difference-in-Difference” Analyse durch. Die einfachen Mittelwerte und deren Differenzen finden Sie in Tabelle 8.6. Zur Überraschung vieler Ökonomen beschäftigten die Fastfood Restaurants in der Treatment Gruppe (New Jersey) nach Erhöhung des Mindestlohnes relativ mehr Personen als in der Kontrollgruppe Pennsylvania. Wie vorhin gezeigt kann man diese Ergebnis man auch einfach mit Hilfe einer Regression auf die Dummies NJ (= Treatment Gruppe) und Nov (= After) sowie deren Interaktion erhalten. EMP = 23.331 (1.072)*** R2 = 0.007, − 2.892 NJ (1.194)** − 2.166 Nov + (1.516) s = 9.406, F -Stat = 1.964, (Standardfehler in Klammern) 2.754 NJ*Nov (1.688) n = 794 22 Empirische Wirtschaftsforschung Der interessierende Beschäftigungseffekt ist der Koeffizient der Interaktionsvariable NJ*Nov. Wie man sieht ist dieser Koeffizient nicht von Null verschieden, und das Bestimmtheitsmaß ist etwas klein. Allerdings schätzten Card and Krueger (1994) nicht dieses Modell, sondern verwendeten anstelle der NJ Dummy firmen-fixe Effekte. Die Verwendung firmen-fixer Effekte entspricht der Berücksichtigung von Firmen-Dummies (jede Firma wurde zweimal befragt, und alle bis auf eine Firma erhalten eine Dummy). Damit erhielten sie folgendes Ergebnis EMP = 21.060 (0.321)*** − 2.283 Nov + (1.036)** 2.750 NJ*Nov + α bi (1.154)** R2 = 0.782, s = 6.341, F -Stat = 3.331, n = 794 (Firmen-fixe Effekte α bi , Standardfehler in Klammern) Mit dieser Spezifikation ist der Koeffizient des Treatment Effekts positiv und auf dem 5% Niveau signifikant von Null verschieden, was dahingehend interpretiert wurde, dass die Erhöhung des Mindestlohnes positive Beschäftigungseffekte hatte. Dieses Ergebnis wird bis heute sehr kontrovers diskutiert, siehe z.B. NZZ vom 23. April 2014. Eine ausführlichere Diskussion des ‘Difference-in-Difference’ Ansatzes sowie dieses Beispiels finden Sie auch bei Angrist and Pischke (2008, 228). Das folgende kleine EViews Programm lädt die Daten und schätzt beide Modelle. wfopen "http://www.uibk.ac.at/econometrics/data/cardkrueger94.xls" equation eqdif.ls Emp c NJ Nov NJ*Nov ’ Fixed Effects pagestruct firm @date(Nov) equation eqfe.ls(cx=f) Emp c Nov NJ*Nov Übung: In den Daten finden Sie auch den Lohn (wage). Überprüfen Sie mit Hilfe einer ‘Difference-in-Difference’ Analyse, wie sich die Erhöhung des Mindestlohnes von US$4.25 auf US$5.05 auf die durchschnittliche Lohnhöhe auswirkte. 8.7.4 Das Lineare Wahrscheinlichkeitsmodell (LPM) Wir haben bisher Dummy Variablen nur als erklärende Variablen verwendet. Sind Dummy Variablen auch als abhängige Variablen vorstellbar? Angenommen wir interessieren uns dafür, welche Personen sich nach einer Verkaufsveranstaltung entschließen das beworbene Produkt zu kaufen, oder genauer, welche persönliche Charakteristika die Kaufwahrscheinlichkeit beeinflussen. Dazu könnten wir eine Zufallsstichprobe ziehen und die Personen befragen, ob sie das Produkt gekauft haben (y), sowie nach den interessierenden Charakteristika wie z.B. Einkommen (I), Alter (A), Bildungsniveau (E). Das Modell lautet yi = β1 + β2 Ii + β3 Ai + β4 Ei + εi 23 Empirische Wirtschaftsforschung wobei ( 1 wenn Person i das Produkt gekauft hat, yi = 0 wenn Person i das Produkt nicht gekauft hat. Natürlich können auch die erklärenden Variablen qualitativ sein, z.B. das Geschlecht. Beim Linearen Wahrscheinlichkeitsmodell (Linear Probability Model, LPM) wird das Modell mit einer abhängigen Dummyvariable mittels OLS geschätzt.3 Um die Notation einfach zu halten beschränken wir uns im Folgenden auf das bivariate Modell yi = β1 + β2 xi + εi mit yi ∈ {0, 1}, aber alles Folgende gilt ebenso gut für das multiple Regressionsmodell. Abbildung 8.6 zeigt das lineare Wahrscheinlichkeitsmodell (LPM) für den bivariaten Fall. Die Punkte zeigen die Realisationen von y (y = 0 oder y = 1). Die durchgezogene (blaue) Linie ist das Ergebnis einer OLS-Regression und zeigt den bedingten Erwartungswert E(yi | xi ) = β1 + β2 xi . Dieser Erwartungswert hat eine interessante Interpretation. Da y nur zwei Werte annehmen kann, 0 oder 1, ist der bedingte Erwartungswert E(y| xi ) = [1 × Pr(y = 1| xi )] + [0 × Pr(y = 0| xi )] = Pr(y = 1| xi ) wobei Pr(y = 1| xi ) die Wahrscheinlichkeit bezeichnet, mit der für ein gegebenes xi das Ereignis y = 1 eintritt. Der Erwartungswert der binären Variable kann also als Wahrscheinlichkeit interpretiert werden, mit der für ein gegebenes xi das Ereignis yi = 1 eintritt Pr(y = 1|xi ) = β1 + β2 xi = ybi Dies erklärt den Namen des LPM. Im LPM können die marginalen Effekte wie üblich interpretiert werden4 ∂ Pr(y = 1) = β2 ∂x Probleme des linearen Wahrscheinlichkeitsmodells Das lineare Wahrscheinlichkeitsmodell ist verblüffend einfach und – wie die Praxis zeigt – in vielen Fällen erstaunlich robust, weshalb es manchmal vernünftig ist zur ersten Orientierung mit einem solchen Modell zu beginnen. Leider hat es auch einige gravierende Nachteile: • Die prognostizierten Wahrscheinlichkeiten können größer als Eins oder kleiner als Null sein, was natürlich logisch unmöglich ist. Wie 8.6 zeigt wird die Prognostizierte ‘Wahrscheinlichkeit’ für sehr kleine x negativ sein, und für sehr große x immer größer als Eins sein. 3 Man kann zeigen, dass das LPM eng mit der statistischen Diskriminanzanalyse verwandt ist (siehe z.B. Maddala and Lahiri, 2009, 332f). 4 Wenn x eine diskrete Variable ist können wir wie üblich die Differenz der Erwartungswerte für die verschiedenen Ausprägungen von x bilden, mit x1 −x0 := ∆x: ∆ Pr(y) := Pr(y = 1|x1 )−Pr(y = 1|x0 ) = β1 + β2 x1 − (β1 + β2 x0 ) = β2 ∆x oder ∆ Pr(y)/∆x = β2 . 24 Empirische Wirtschaftsforschung E(y|x) y Daten: y x 0 8 0 15 0 24 0 33 0 42 1 47 1 58 1 73 1 82 1 96 b 1.0 b b b b ε1 rs 0.5 ε0 b 0.0 −0.2 0 b b b b 50 x∗ 100 x Abbildung 8.6: Das ‘Linear Probability Model’ • Die unterstellte lineare Funktionsform ist häufig unplausibel. Wenn z.B. die Wahrscheinlichkeit der Berufstätigkeit von Frauen in Abhängigkeit von der Kinderzahl untersucht werden soll unterstellt das Modell, dass der ‘marginale’ Effekt des ersten Kindes gleich groß ist wie der ‘marginale’ Effekt des z.B. vierten Kindes. • Heteroskedastizität: Man kann zeigen, dass die Varianz einer binären Variable yi mit Mittelwert µ immer µ(1 − µ) ist.5 Deshalb sind die Sörterme heteroskedastisch, was dazu führt, dass der OLS Schätzer nicht effizient ist und die Standardfehler verzerrt sind. Dieses Problem lässt sich durch die Anwendung eines FGLS Schätzers6 (Feasible Generalized Least Squares), oder – noch einfacher – durch heteroskedastie-konsistente (White-) Standardfehler zumindest mildern. • Der Störterm ist nicht normalverteilt: Die Residuen sind die Differenz zwischen dem realisierten Wert und dem Erwartungswert εi = yi − E(yi | xi ). In Abbildung 8.6 (Seite 24) ist das Residuum für einen Wert x∗ eingezeichnet. Da y nur 0 oder 1 sein kann ist der entsprechende Störterm entweder ε1 = 1 − E(y| x∗) oder ε0 = 0 − E(y| x∗). Diese Störterme können deshalb nicht normalverteilt sein. Dies beeinflusst zwar nicht die Unverzerrtheit des OLS Schätzers, aber die Teststatistiken sind in kleinen Stichproben ungültig. Einige der Probleme des LPM lassen sich beseitigen, wenn man eine Funktion wählt die sicher stellt, dass der bedingte Erwartungswert – d.h. die Wahrscheinlichkeit – im [0,1] Intervall liegt. 5 Warum? Sei y eine Dummy Variable mit E(y) = µ. Per Definition gilt var(y) = E(y − µ)2 = E(y ) − 2µ E(y) + µ2 . Da y nur die Werte 0 und 1 annehmen kann gilt y 2 = y. Einsetzen von E(y) = µ gibt var(y) = µ − µ2 = µ(1 − µ). p 6 Man schätzt die gefitteten Werte ybi , berechnet daraus die Gewichte wi = ybi (1 − ybi ), und regressiert yi /wi auf xi /wi . 2 25 Empirische Wirtschaftsforschung Eine solche Funktion kann natürlich niemals linear sein, sondern wird meist S-förmig angenommen. Deshalb sind die marginalen Effekte nicht konstant, weshalb die Parameter dieser Modelle – wie wir später sehen werden – deutlich schwieriger zu interpretieren sind als die des LPM. LPM y b 1.0 b b b b Logit 0.5 b 0.0 −0.2 0 b b b b 50 x∗ 100 x Abbildung 8.7: Vergleich LPM- und Logit Modell Die bekanntesten zwei nichtlinearen Schätzverfahren, die dies leisten, sind das Probit- und das Logit Modell, die mittels der Maximum-Likelihood Methode geschätzt werden können. Abbildung 8.7 zeigt den Unterschied zwischen einem Logit- und LPM Modell. Probit- und Logit Modelle werden im Aufbaukurs diskutiert. 8.7.5 Stückweise lineare Funktionen Stückweise lineare Funktionen (piecewise linear functions) sind der einfachste Fall von Spline Funktionen.7 Die Idee kann am einfachsten anhand eines Beispiels erläutert werden. Angenommen, das Steuersystem eines Landes kennt zwei Schwellenwerte x∗1 und x∗2 beim Einkommen, ab denen unterschiedliche marginale Steuersätze angewandt werden. Möchte man die Steuereinnahmen y in Abhängigkeit vom Einkommen x schätzen, so könnte man für jeden der Einkommensbereiche eine eigene Regression schätzen: 7 βb1 + βb2 x, wenn x < x∗1 ; yb|x = γ̂0 + γ̂1 x, wenn x ≥ x∗1 und x < x∗2 ; δ̂0 + δ̂1 x, wenn x ≥ x∗2 (8.1) Aus Wikipedia: “Ein Spline n-ten Grades ist eine Funktion, die stückweise aus Polynomen mit maximalem Grad n zusammengesetzt ist. Dabei werden an den Stellen, an denen zwei Polynomstücke zusammenstoßen (man spricht auch von Knoten) bestimmte Bedingungen gestellt, etwa dass der Spline (n-1) mal stetig differenzierbar ist.” 26 Empirische Wirtschaftsforschung Die Schwellenwerte (tresholds) x∗1 und x∗2 werden auch Knoten (knots) genannt. Anstelle dreier einzelner Gleichungen kann alternativ auch eine Gleichung mit Dummy Variablen und Interaktionstermen geschätzt werden. Dazu definieren wir zwei Dummy Variablen D1 = 1 wenn x ≥ x∗1 D2 = 1 wenn x ≥ x∗2 und 0 sonst; und 0 sonst; Die folgende schätzbare Gleichung mit den zwei Dummyvariablen und Interaktionstermen stellt eine alternative Spezifikation zu den den drei obigen Einzelregressionen dar, aus der exakt die gleichen Koeffizienten berechnet werden können y = βb1 + βb2 x + γ̂0 D1 + γ̂1 D1 x + δ̂0 D2 + δ̂1 D2 x + ε̂ (8.2) Allerdings stellt dabei nichts sicher, dass sich die einzelnen Regressionsgeraden genau bei den Schwellenwerten schneiden. Die strichlierten Linien in Abbildung 8.8 zeigen ein Beispiel dafür. Manchmal erwartet man aber aus theoretischen Gründen, dass sich die Regressionsgeraden genau bei den Schwellenwerten schneiden müssen. Dies kann man einfach erzwingen, denn diese Bedingung kann man als Restriktion auf die Koeffizienten modellieren. Wenn sich beim ersten Schwellenwert x∗1 die Regressionsgeraden schneiden sollen müssen die y bei diesem Wert gleich sein. Aus Gleichung (8.2) folgt deshalb für den ersten Schwellenwert βb1 + βb2 x∗1 = βb1 + βb2 x∗1 + γ̂0 + γ̂1 x∗1 Daraus folgt die Parameterrestriktion γ̂0 = −γ̂1 x∗1 . Wenn man diese Parameterrestriktion in Gleichung (8.2) einsetzt folgt y = = βb1 + βb2 x − γ̂1 x∗1 D1 + γ̂1 D1 x + δ̂0 D2 + δ̂1 D2 x + ε̂ βb1 + βb2 x + γ̂1 D1 (x − x∗1 ) + δ̂0 D2 + δ̂1 D2 x + ε̂ Da sich die Regressionsgeraden auch beim zweiten Schwellenwert x∗2 schneiden müssen, muss zudem gelten βb1 + βb2 x∗2 + γ̂0 + γ̂1 x∗2 = βb1 + βb2 x∗2 + γ̂0 + γ̂1 x∗2 + δ̂0 + δ̂1 x∗2 Daraus folgt eine weitere Parameterrestriktion δ̂0 = −δ̂1 x∗2 . Wenn man diese und obige Parameterrestriktion in Gleichung (8.2) einsetzt folgt die schätzbare stückweise lineare Regressionsfunktion y = βb1 + βb2 x + γ̂1 D1 (x − x∗1 ) + δ̂1 D2 (x − x∗2 ) + ε̂ Die durchgezogene Linie in Abbildung 8.8 zeigt diese Funktion. 27 Empirische Wirtschaftsforschung y x∗1 x∗2 x Abbildung 8.8: Einzelregressionen (strichliert) und stückweise lineare Regression (durchgezogene Linie). Die Gleichungen der drei Geradensegmente sind βb1 + βb2 x, E(y) = (βb1 − γ1 x∗1 ) + (βb2 + γ1 )x, (βb − γ x∗1 − δ x∗2 ) + (βb + γ + δ )x, 1 1 1 2 1 1 für x ≤ x∗1 für x∗1 < x ≤ x∗2 für x > x∗2 Daraus ist erkennbar, dass die Steigung des ersten Segmentes βb2 ist, die Steigung des zweiten Segmentes ist βb2 + γ1 und die Steigung des dritten Segmentes ist βb2 + γ1 + δ1 . Für einen Test gegen eine einfache lineare Regression wird die gemeinsame Nullhypothese H0 : γ1 = 0 und δ1 = 0 getestet. 8.7.6 Alternative Kodierungen Die in der Ökonometrie gebräuchlichste Form der Modellierung einer kategorialen Variable mit m verschiedenen Ausprägungen ist, m−1 Dummy Variablen anzulegen und diese in einer Regressionsgleichung aufzunehmen. Bei dieser ‘Dummy Kodierung’ misst das Interzept den Mittelwert der (‘weggelassenen’) Referenzkategorie, und der Koeffizient einer Dummy Variable j (mit j = 1, . . . , m − 1) misst den ceteris paribus Unterschied zwischen den Mittelwerten der Kategorie j und der Referenzkategorie (vgl. Abbildung 8.2, Seite 6). Neben dieser einfachen Dummy Kodierung gibt es noch weitere Möglichkeiten zur Modellierung von Dummy Variablen. Eine ähnlich einfache Methode ist die ‘Effektkodierung’. Dabei misst das Interzept den Mittelwert über alle m Kategorien (‘grand mean’), und der Koeffizient einer Dummy Variable den Unterschied zu diesem ‘grand mean’. Jede Kategorie j wird also nicht mehr mit der Referenzkategorie verglichen, sondern mit dem Mittelwert über die gesamte Stichprobe. 28 Empirische Wirtschaftsforschung Wenn die Kategorien unterschiedlich groß sind unterscheidet man weiters zwischen einer ungewichteten und gewichtetet Effektkodierung, je nachdem ob die relativen Häufigkeiten berücksichtigt werden oder nicht. Dummies für die ungewichtete Effektkodierung erhält man mit für Kategorie j; 1 E-ungew −1 für Referenzkategorie; Dj = 0 sonst. Bei der gewichteten Effektkodierung werden die Dummies ähnlich gebildet, nur für die Referenzkategorie werden DjE-gew 1 n − nRj = 0 für Kategorie j; für Referenzkategorie; sonst. wobei nj die Anzahl der Fälle in Kategorie j und nR die Anzahl der Fälle in der Referenzkategorie bezeichnet. Beispiel Werte von y mit Zuordnung zu vier Kategorien: Mittelwert Kat.1 Kat.2 Kat.3 Kat.4 3 10 2 2 1 6 3 4 2 3 −3 2 4 2 8 3 1 Gewichteter Mittelwert (‘grand mean’ ): 3; Ungewichteter Mittelwert: 3.5 Datentabelle mit Dummies: Referenzkategorie 1; D2 – D4 . . . Dummykodierung, DEU2 – DEU4 . . . Effektkodierung ungewichtet, DEG2 – DEG4 . . . Effektkodierung gewichtet. y Kategorie D2 D3 D4 DEU2 DEU3 3 1 0 0 0 −1 −1 1 1 0 0 0 −1 −1 2 1 0 0 0 −1 −1 2 1 0 0 0 −1 −1 10 2 1 0 0 1 0 6 2 1 0 0 1 0 2 3 0 1 0 0 1 3 3 0 1 0 0 1 3 3 0 1 0 0 1 4 3 0 1 0 0 1 2 4 0 0 1 0 0 4 4 0 0 1 0 0 −3 4 0 0 1 0 0 Dummy Kodierung: DEU4 DEG2 DEG3 DEG4 −1 −0.5 −1 −0.75 −1 −0.5 −1 −0.75 −1 −0.5 −1 −0.75 −1 −0.5 −1 −0.75 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 1 0 0 1 1 0 0 1 1 0 0 1 29 Empirische Wirtschaftsforschung y = 2.00 (1.027)* + 6.00 D2 (1.78)*** + 1.00 D3 − 1.00 D4 (1.453) (1.569) R2 = 0.635, s = 2.055, F -Stat = 5.211, (Standardfehler in Klammern) n = 13 Effektkodierung, ungewichtet: y = 3.50 (0.593)*** + 4.50 DEU2 − 0.50 DEU3 − 2.50 DEU4 (1.186)*** (0.938) (1.027)** R2 = 0.635, s = 2.055, F -Stat = 5.211, (Standardfehler in Klammern) n = 13 Effektkodierung, gewichtet: y = 3.00 (0.57)*** + 5.00 DEG2 + 0.00 DEG3 − 2.00 DEG4 (1.337)*** (0.855) (1.04)* R2 = 0.635, s = 2.055, F -Stat = 5.211, (Standardfehler in Klammern) n = 13 Welche Kodierung sinnvoll ist hängt im wesentlichen davon ab, welcher Vergleich im jeweiligen Zusammenhang sinnvoller ist, rein statistisch sind diese Kodierungen gleichwertig. Wie man auch am Beispiel sieht, unterscheiden sich die R2 nicht zwischen den verschiedenen Kodierungen. Literaturverzeichnis Angrist, J. D. and Pischke, J.-S. (2008), Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton University Press. Bertrand, M., Duflo, E. and Mullainathan, S. (2004), ‘How much should we trust differences-in-differences estimates?’, The Quarterly Journal of Economics 119(1), 249–275. Card, D. and Krueger, A. B. (1994), ‘Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania’, The American Economic Review 84(4), 772–793. Garderen, K. J. V. and Shah, C. (2002), ‘Exact interpretation of dummy variables in semilogarithmic equations’, Econometrics Journal 5(1), 149–159. Kennedy, P. E. (1981), ‘Estimation with correctly interpreted dummy variables in semilogarithmic equations’, The American Economic Review 71(4), 801. Machlup, F. (1974), ‘Proxies and dummies’, The Journal of Political Economy 82(4), 892. Maddala, G. S. and Lahiri, K. (2009), Introduction to Econometrics, 4 edn, Wiley.