Einkommensanalysen mit Paneldaten Vortrag zum STATA User-Meeting August 2003 Berlin Johannes Giesecke Humboldt Universität zu Berlin Institut für Sozialwissenschaften Gliederung 1. 2. 3. 4. 5. Theoretische Vorüberlegungen zum Thema Methodische Aspekte Beschreibung der Daten Ergebnisse/Umsetzung mit STATA Fazit Theorie • Einkommensmodelle: – klassische Humankapitalmodelle (z.B. Mincer, Becker): Bildung und Berufserfahrung – erweiterte Modelle: angebotsseitige Charakteristika (z.B. sozio-strukturelle Merkmale der Individuen) sowie nachfrageseitige Faktoren (z.B. Branche, Betriebsgröße) • bisher weniger untersucht: Effekte „flexibler“ Beschäftigungsformen (z.B. Befristung, Teilzeit) Theorie • hier von Interesse: Teilzeit • Einkommenseffekte von Teilzeit: – Arbeitseinkommen pro Stunde (hier: Bruttoeinkommen) • Hypothesen zu Einkommenseffekten von Teilzeit: sowohl positive als auch negative Effekte zu erwarten Theorie • positive Einkommenseffekte zu erwarten aufgrund von: – Produktivitätssteigerung – weniger unbezahlten Überstunden, damit höherer Stundenlohn – Anreizsetzung von Seiten der Unternehmen mit Ziel der Erhöhung der Flexibilität Theorie • negative Einkommenseffekte zu erwarten aufgrund von: – geringerer Produktivität wegen geringerem Humankapital – karrierehemmender Wirkung von TZ – Brutto-/Nettoeffekt der progressiven Besteuerung Theorie • weitere Überlegungen: – Teilzeit homogenes Phänomen? • reguläre Teilzeit (16-34 Stunden/Woche) • marginale Teilzeit (bis zu 15 Stunden/Woche) – Effekte abhängig von Stellung im Arbeitsmarkt? • z.B. Interaktion von Teilzeit mit Bildung – Selektionseffekte • bestimmter Typus von ArbeitnehmerInnen in Teilzeit? Methodische Aspekte • Schätzungen von Einkommensgleichungen mit Querschnittsdaten (einmalig erhobene Daten) yi 0 1 xi1 ... K xiK ui • typische Probleme für OLS-Schätzung: – heteroskedastische Fehler ui – endogene unabhängige Variablen Methodische Aspekte • Heteroskedastizität: – inkorrekte Berechnung der Standardfehler – kann mit robuster Varianzschätzung oder GLS-Schätzung korrigiert werden • Endogene UV: – verzerrte Schätzung der Koeffizienten – mögliche Lösung: IV-Schätzung (z.B. 2SLS) mit Instrumenten für diejenigen x, die mit Fehler korrelieren – Beispiel: Teilzeit korreliert mit (unbeobachteter) Motivation/Erwerbsneigung Methodische Aspekte • Paneldaten erlauben Schätzung des Modells: yit 0 1xi1t ... K xiKt ci uit • hier neu: unbeobachteter Individueneffekt ci (als zeitkonstant angenommen) • damit Problem der Endogenität abgeschwächt, jedoch noch nicht vollständig beseitigt • Wahl des Schätzverfahrens hängt zunächst von nur einer Frage ab: Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ? Methodische Aspekte Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ? nein ja • OLS-Schätzung: konsistente Schätzer für Koeffizienten, jedoch keine effiziente Schätzung • fixed-effects-Schätzung: konsistente und effiziente Schätzung (unter bestimmten Annahmen) • random-effects-Schätzung: konsistente und effiziente Schätzung (unter bestimmten Annahmen) • first-difference-Schätzung: konsistente und effiziente Schätzung (unter bestimmten Annahmen) Methodische Aspekte • größter Nachteil der fe- bzw. fd-Modelle: Effekte zeitkonstanter UV können nicht geschätzt werden • größter Nachteil des re-Modells: liefert verzerrte Schätzungen für Koeffizienten, wenn UV doch mit Individueneffekt korrelieren Daten • • • • • • Sozio-ökonomisches Panel (SOEP) 1985-2001 nur Frauen, da TZ hauptsächlich weibliches Phänomen Arbeiterinnen, Angestellte und Beamtinnen nur Westdeutsche abhängige Variable: ln(Bruttostundenlohn) unabhängige Variablen: – Humankapital: Alter und Alter² als Proxy für Berufserfahrung, Bildung, Anzahl vorheriger Arbeitslosigkeitsphasen – weitere individuelle Variablen: Familienstand, Anzahl Kinder im HH – Arbeitsplatzmerkmale: Teilzeit (regulär und marginal), Branche, Betriebsgröße, Befristung Daten • Bildung: – nahezu zeitkonstant für Erwerbstätige – Interaktionen mit anderen UV Modelle nach Bildungskategorien getrennt berechnen (Kategorien angelehnt an CASMIN) • niedriges Ausbildungslevel • mittleres berufliches Ausbildungslevel • mittleres allgemeines Ausbildungslevel • hohes Ausbildungslevel • hier nur betrachtet: mittleres berufliches Ausbildungslevel Ergebnisse Tabelle I: OLS-, re- und fe-Schätzung; Frauen mit beruflichem Ausbildungslevel OLS Randomeffects Fixedeffects Differenz fixed-random effects Teilzeit regulär -0.050** (-8.38) 0.002 (0.30) 0.031** (4.30) 0.029 Teilzeit marginal -0.248** (-24.10) -0.100** (-9.86) -0.024* (-2.11) 0.079 N Anzahl Personen 18.210 18.210 4286 18.210 4286 Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01 Hausman-Test: signifikante Abweichung der re- von der fe-Schätzung Ergebnisse/STATA • Signifikanztests im fe-Modell basieren auf Annahme homoskedastischer und seriell unkorrelierter Fehler uit • sinnvolle Annahme? • robuste Varianzschätzungen erlauben „konservative“ Schätzung der Standardfehler • mögliches Problem dann: sehr große Standardfehler Ergebnisse Tabelle II: robuste fe-Schätzungen; Frauen mit beruflichem Ausbildungslevel Fixed-effects Fixed-effects robust 1 Fixed-effects robust 2 Teilzeit regulär 0.031** (4.30) 0.031** (3.51) 0.031** (2.72) Teilzeit marginal -0.024* (-2.11) -0.024 (-1.15) -0.024 (-0.88) N Anzahl Personen 18.210 4286 18.210 4286 18.210 4286 Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße robust 1: robuste Varianzschätzung für heteroskedastische Fehler (robust-Option bei Regression auf transformierte Daten) robust 2: robuste Varianzschätzung für heteroskedastische und seriell korrelierte Fehler (in STATA nicht implementiert) Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01 Ergebnisse • Konsistenz der FE-Schätzer basiert auf Annahme der strikten Exogenität Annahme: idiosynkratische Fehler uit korrelieren nicht mit: • vergangenen Werten der UV – nach Kontrolle der UV haben Lags der UV keinen Einfluss auf die AV – Lösungsmöglichkeit: Aufnahme der Lags in das Modell • aktuellen Werten der UV – nicht berücksichtigte Variablen, Simultanität, Messfehler – Lösungsmöglichkeit: IV-Schätzung • zukünftigen Werten der UV – feed-back-Modelle: uit bzw. yit hat Einfluss auf xit+s – Lösungsmöglichkeit: IV-Schätzung Ergebnisse/STATA • Erzeugen von Lags und Leads – per Hand: • verlangt Sorgfalt (Stichwort: Lücken im Panel) • sicherster Weg: erzeugen eines „balanced panels“ (fillin) – über tsset: • sicher (interne Kontrolle von Lücken) • sehr bequem Ergebnisse Tabelle III: fe-Schätzung mit lags und leads; Frauen mit beruflichem Ausbildungslevel Fixed-effects I Fixed-effects II Fixed-effects III 0.031** (4.30) 0.060** (6.32) 0.095** (8.54) Lag1 -0.040** (-4.04) -0.041** (-3.78) Lag2 -0.030** (-3.24) -0.020** (-2.08) Teilzeit regulär Lead1 Teilzeit marginal -0.060** (-5.99) -0.024* (-2.11) 0.090** (5.07) 0.145** (6.85) Lag1 -0.157** ( -9.01) -0.104** (-5.33) Lag2 -0.083** (-5.73) -0.069** (-4.39) Lead1 N (Anz. Personen) -0.132** (-7.01) 18.210 (4286) 11.126 (2290) 8823 (1842) Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Ergebnisse • Aufnahme der Lags in das Modell: Interpretation als distributed lag-Modell Tabelle IV: Effekt regulärer und marginaler Teilzeit in distributed-lag-Modell; Frauen mit beruflichem Ausbildungslevel Teilzeit regulär Teilzeit marginal Differenz Haupteffekt 0.060 0.090 n.s. Lag1 -0.040 -0.157 sig. Lag2 -0.030 -0.083 sig. -0.010 -0.151 Ergebnisse • weiterhin bestehende Probleme: – feed-back: über- oder unterdurchschnittlicher Stundenlohn beeinflusst zukünftigen Vollzeit-/Teilzeit-Status – mögliche kontemporäre Korrelation von Teilzeit und uit, z.B. aufgrund nicht beobachteter (zeitlich variabler) Effekte • IV-Schätzungen als mögliche Lösung • hier jedoch problematisch, da – endogene UV aus zwei Dummyvariablen besteht – auch die Lags instrumentiert werden müssen – gute, möglichst exklusive Instrumente rar sind Ergebnisse • Probleme durch Selektion? – nur dann problematisch, wenn für Selektion verantwortliche Variablen mit uit bzw. yit korrelieren – Panelmodelle kontrollieren bereits nach unbeobachteten zeitkonstanten Individueneffekte – dennoch ist Selektionsproblematik relevant • Welche Selektion? – Selektion in AV – Missing data in AV und/oder UV – Panelausfälle Ergebnisse • hier von Interesse: erzeugt das Hinzunehmen der Lags ein Selektionsproblem? • mögliche Tests: – Unterschiede in Koeffizienten im restringierten und unrestringierten Sample – Indikatorvariable, ob vorangegangene Beobachtung mit im Modell ist oder nicht (dabei Verlust einer Beobachtung pro Individuum) Ergebnisse Tabelle V: Selektionseffekte durch Einführung der Lag-Variablen; Frauen mit beruflichem Ausbildungslevel “volles Sample” selektives Sample Differenz Teilzeit regulär 0.031** (4.30) -0.006 (-0.80) -0.037 Teilzeit marginal -0.024* (-2.11) -0.099** (-6.96) -0.074 N Anzahl Personen 18.210 4286 11.126 2290 ohne Lag-Variablen Hausman-Test: signifikante Abweichungen Ergebnisse Tabelle VI: Selektionseffekte durch Einführung der Lag-Variablen II; Frauen mit beruflichem Ausbildungslevel Indikator s-1 0.019** (3.82) N Anzahl Personen 10749 2209 Ergebnisse • mögliche Korrektur der Selektionsverzerrung: Verfahren nach Wooldridge • ähnelt der Heckman-Korrektur, Schätzung eines ProbitModells für Inklusionswahrscheinlichkeit • deshalb auch hier: zusätzliche Variablen für ProbitModell benötigt, die nicht in Einkommensgleichung sind • Kandidaten hier: Familienstand und Anzahl der Kinder im HH (beide Effekte nicht signifikant) Ergebnisse TabelleVII: fe-Schätzung mit mit Selektionskorrektur; Frauen mit beruflichem Ausbildungslevel ohne Korrektur Teilzeit regulär mit Selektionskorrektur 0.060** (6.32) 0.041** (2.91) Lag1 -0.040** (-4.04) -0.071** (-4.29) Lag2 -0.030** (-3.24) -0.055** (-4.06) 0.090** (5.07) -0.001 (-0.36) Lag1 -0.157** ( -9.01) -0.228** (-8.35) Lag2 -0.083** (-5.73) -0.169** (-7.78) N (Anz. Personen) 11.126 (2290) 11.126 (2290) Teilzeit marginal Fazit • inhaltlich: – Beschäftigungsform der Teilzeit hat Effekt auf Arbeitseinkommen – positiver Anfangseffekt wird durch negative Karriereeffekte konterkariert – deutliche Unterschiede zwischen regulärer und marginaler Teilzeit – Prozesse der Selbstselektion in Teilzeit zu erkennen, am deutlichsten für marginale Teilzeit Fazit • methodisch: – Panelmodelle mit deutlichen Vorteilen gegenüber Analyseverfahren für Querschnittsdaten • Kontrolle von unbeobachteter Heterogenität (wichtig für konsistente Schätzung der Parameter) • flexiblere Modellgestaltung (z.B. Testen des Einflusses von Lags) – jedoch: sorgfältige Überprüfung der Annahme unbedingt notwendig – Selektionseffekte können wichtig werden (hier z.B. nicht behandelt: Selektion aufgrund von Panelausfällen) Fazit • STATA: – Grundlagenbefehle vorhanden, werden erkennbar ausgebaut (siehe STATA 8) – für weitergehende Modelle: eigenes Programmieren notwendig – Tests auf Annahmeverletzungen sollten verstärkt implementiert werden (wie etwa Diagnosemöglichkeiten für OLS)