presentation

Einkommensanalysen mit
Paneldaten
Vortrag zum STATA User-Meeting
August 2003 Berlin
Johannes Giesecke
Humboldt Universität zu Berlin
Institut für Sozialwissenschaften
Gliederung
1.
2.
3.
4.
5.
Theoretische Vorüberlegungen zum Thema
Methodische Aspekte
Beschreibung der Daten
Ergebnisse/Umsetzung mit STATA
Fazit
Theorie
• Einkommensmodelle:
– klassische Humankapitalmodelle (z.B. Mincer,
Becker): Bildung und Berufserfahrung
– erweiterte Modelle: angebotsseitige Charakteristika
(z.B. sozio-strukturelle Merkmale der Individuen)
sowie nachfrageseitige Faktoren (z.B. Branche,
Betriebsgröße)
• bisher weniger untersucht: Effekte „flexibler“
Beschäftigungsformen (z.B. Befristung, Teilzeit)
Theorie
• hier von Interesse: Teilzeit
• Einkommenseffekte von Teilzeit:
– Arbeitseinkommen pro Stunde (hier: Bruttoeinkommen)
• Hypothesen zu Einkommenseffekten von
Teilzeit: sowohl positive als auch negative
Effekte zu erwarten
Theorie
• positive Einkommenseffekte zu erwarten
aufgrund von:
– Produktivitätssteigerung
– weniger unbezahlten Überstunden, damit höherer
Stundenlohn
– Anreizsetzung von Seiten der Unternehmen mit Ziel
der Erhöhung der Flexibilität
Theorie
• negative Einkommenseffekte zu erwarten
aufgrund von:
– geringerer Produktivität wegen geringerem
Humankapital
– karrierehemmender Wirkung von TZ
– Brutto-/Nettoeffekt der progressiven Besteuerung
Theorie
• weitere Überlegungen:
– Teilzeit homogenes Phänomen?
• reguläre Teilzeit (16-34 Stunden/Woche)
• marginale Teilzeit (bis zu 15 Stunden/Woche)
– Effekte abhängig von Stellung im Arbeitsmarkt?
• z.B. Interaktion von Teilzeit mit Bildung
– Selektionseffekte
• bestimmter Typus von ArbeitnehmerInnen in Teilzeit?
Methodische Aspekte
• Schätzungen von Einkommensgleichungen mit
Querschnittsdaten (einmalig erhobene Daten)
yi  0  1 xi1  ...   K xiK  ui
• typische Probleme für OLS-Schätzung:
– heteroskedastische Fehler ui
– endogene unabhängige Variablen
Methodische Aspekte
• Heteroskedastizität:
– inkorrekte Berechnung der Standardfehler
– kann mit robuster Varianzschätzung oder GLS-Schätzung
korrigiert werden
• Endogene UV:
– verzerrte Schätzung der Koeffizienten
– mögliche Lösung: IV-Schätzung (z.B. 2SLS) mit
Instrumenten für diejenigen x, die mit Fehler
korrelieren
– Beispiel: Teilzeit korreliert mit (unbeobachteter)
Motivation/Erwerbsneigung
Methodische Aspekte
• Paneldaten erlauben Schätzung des Modells:
yit  0  1xi1t  ...   K xiKt  ci  uit
• hier neu: unbeobachteter Individueneffekt ci (als
zeitkonstant angenommen)
• damit Problem der Endogenität abgeschwächt, jedoch
noch nicht vollständig beseitigt
• Wahl des Schätzverfahrens hängt zunächst von nur
einer Frage ab:
Korrelieren einige/alle der UV mit dem
unbeobachteten Individueneffekt ci ?
Methodische Aspekte
Korrelieren einige/alle der UV mit dem
unbeobachteten Individueneffekt ci ?
nein
ja
• OLS-Schätzung: konsistente
Schätzer für Koeffizienten,
jedoch keine effiziente
Schätzung
• fixed-effects-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
• random-effects-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
• first-difference-Schätzung:
konsistente und effiziente
Schätzung (unter bestimmten
Annahmen)
Methodische Aspekte
• größter Nachteil der fe- bzw. fd-Modelle: Effekte
zeitkonstanter UV können nicht geschätzt
werden
• größter Nachteil des re-Modells: liefert verzerrte
Schätzungen für Koeffizienten, wenn UV doch
mit Individueneffekt korrelieren
Daten
•
•
•
•
•
•
Sozio-ökonomisches Panel (SOEP) 1985-2001
nur Frauen, da TZ hauptsächlich weibliches Phänomen
Arbeiterinnen, Angestellte und Beamtinnen
nur Westdeutsche
abhängige Variable: ln(Bruttostundenlohn)
unabhängige Variablen:
– Humankapital: Alter und Alter² als Proxy für Berufserfahrung,
Bildung, Anzahl vorheriger Arbeitslosigkeitsphasen
– weitere individuelle Variablen: Familienstand, Anzahl Kinder
im HH
– Arbeitsplatzmerkmale: Teilzeit (regulär und marginal), Branche,
Betriebsgröße, Befristung
Daten
• Bildung:
– nahezu zeitkonstant für Erwerbstätige
– Interaktionen mit anderen UV
Modelle nach Bildungskategorien getrennt
berechnen (Kategorien angelehnt an CASMIN)
• niedriges Ausbildungslevel
• mittleres berufliches Ausbildungslevel
• mittleres allgemeines Ausbildungslevel
• hohes Ausbildungslevel
• hier nur betrachtet: mittleres berufliches
Ausbildungslevel
Ergebnisse
Tabelle I: OLS-, re- und fe-Schätzung; Frauen mit beruflichem Ausbildungslevel
OLS
Randomeffects
Fixedeffects
Differenz
fixed-random
effects
Teilzeit
regulär
-0.050**
(-8.38)
0.002
(0.30)
0.031**
(4.30)
0.029
Teilzeit
marginal
-0.248**
(-24.10)
-0.100**
(-9.86)
-0.024*
(-2.11)
0.079
N
Anzahl
Personen
18.210
18.210
4286
18.210
4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl
der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Hausman-Test: signifikante Abweichung der re- von der fe-Schätzung
Ergebnisse/STATA
• Signifikanztests im fe-Modell basieren auf Annahme
homoskedastischer und seriell unkorrelierter Fehler uit
• sinnvolle Annahme?
• robuste Varianzschätzungen erlauben „konservative“
Schätzung der Standardfehler
• mögliches Problem dann: sehr große Standardfehler
Ergebnisse
Tabelle II: robuste fe-Schätzungen; Frauen mit beruflichem Ausbildungslevel
Fixed-effects
Fixed-effects
robust 1
Fixed-effects
robust 2
Teilzeit
regulär
0.031**
(4.30)
0.031**
(3.51)
0.031**
(2.72)
Teilzeit
marginal
-0.024*
(-2.11)
-0.024
(-1.15)
-0.024
(-0.88)
N
Anzahl
Personen
18.210
4286
18.210
4286
18.210
4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl
der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
robust 1: robuste Varianzschätzung für heteroskedastische Fehler (robust-Option bei Regression auf
transformierte Daten)
robust 2: robuste Varianzschätzung für heteroskedastische und seriell korrelierte Fehler (in STATA
nicht implementiert)
Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Ergebnisse
• Konsistenz der FE-Schätzer basiert auf Annahme der
strikten Exogenität
Annahme: idiosynkratische Fehler uit korrelieren nicht mit:
• vergangenen Werten der UV
– nach Kontrolle der UV haben Lags der UV keinen Einfluss auf
die AV
– Lösungsmöglichkeit: Aufnahme der Lags in das Modell
• aktuellen Werten der UV
– nicht berücksichtigte Variablen, Simultanität, Messfehler
– Lösungsmöglichkeit: IV-Schätzung
• zukünftigen Werten der UV
– feed-back-Modelle: uit bzw. yit hat Einfluss auf xit+s
– Lösungsmöglichkeit: IV-Schätzung
Ergebnisse/STATA
• Erzeugen von Lags und Leads
– per Hand:
• verlangt Sorgfalt (Stichwort: Lücken im Panel)
• sicherster Weg: erzeugen eines „balanced panels“ (fillin)
– über tsset:
• sicher (interne Kontrolle von Lücken)
• sehr bequem
Ergebnisse
Tabelle III: fe-Schätzung mit lags und leads; Frauen mit beruflichem Ausbildungslevel
Fixed-effects I
Fixed-effects II
Fixed-effects III
0.031** (4.30)
0.060** (6.32)
0.095** (8.54)
Lag1
-0.040** (-4.04)
-0.041** (-3.78)
Lag2
-0.030** (-3.24)
-0.020** (-2.08)
Teilzeit regulär
Lead1
Teilzeit marginal
-0.060** (-5.99)
-0.024* (-2.11)
0.090** (5.07)
0.145** (6.85)
Lag1
-0.157** ( -9.01)
-0.104** (-5.33)
Lag2
-0.083** (-5.73)
-0.069** (-4.39)
Lead1
N (Anz. Personen)
-0.132** (-7.01)
18.210 (4286)
11.126 (2290)
8823 (1842)
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der
Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße
Ergebnisse
• Aufnahme der Lags in das Modell: Interpretation als
distributed lag-Modell
Tabelle IV: Effekt regulärer und marginaler Teilzeit in distributed-lag-Modell; Frauen mit
beruflichem Ausbildungslevel
Teilzeit regulär
Teilzeit marginal
Differenz
Haupteffekt
0.060
0.090
n.s.
Lag1
-0.040
-0.157
sig.
Lag2
-0.030
-0.083
sig.
-0.010
-0.151
Ergebnisse
• weiterhin bestehende Probleme:
– feed-back: über- oder unterdurchschnittlicher Stundenlohn
beeinflusst zukünftigen Vollzeit-/Teilzeit-Status
– mögliche kontemporäre Korrelation von Teilzeit und uit, z.B.
aufgrund nicht beobachteter (zeitlich variabler) Effekte
• IV-Schätzungen als mögliche Lösung
• hier jedoch problematisch, da
– endogene UV aus zwei Dummyvariablen besteht
– auch die Lags instrumentiert werden müssen
– gute, möglichst exklusive Instrumente rar sind
Ergebnisse
• Probleme durch Selektion?
– nur dann problematisch, wenn für Selektion verantwortliche
Variablen mit uit bzw. yit korrelieren
– Panelmodelle kontrollieren bereits nach unbeobachteten
zeitkonstanten Individueneffekte
– dennoch ist Selektionsproblematik relevant
• Welche Selektion?
– Selektion in AV
– Missing data in AV und/oder UV
– Panelausfälle
Ergebnisse
• hier von Interesse: erzeugt das Hinzunehmen der Lags
ein Selektionsproblem?
• mögliche Tests:
– Unterschiede in Koeffizienten im restringierten und
unrestringierten Sample
– Indikatorvariable, ob vorangegangene Beobachtung mit im
Modell ist oder nicht (dabei Verlust einer Beobachtung pro
Individuum)
Ergebnisse
Tabelle V: Selektionseffekte durch Einführung der Lag-Variablen;
Frauen mit beruflichem Ausbildungslevel
“volles Sample”
selektives Sample
Differenz
Teilzeit
regulär
0.031**
(4.30)
-0.006
(-0.80)
-0.037
Teilzeit
marginal
-0.024*
(-2.11)
-0.099**
(-6.96)
-0.074
N
Anzahl
Personen
18.210
4286
11.126
2290

ohne Lag-Variablen
Hausman-Test: signifikante Abweichungen
Ergebnisse
Tabelle VI: Selektionseffekte durch Einführung der
Lag-Variablen II; Frauen mit beruflichem Ausbildungslevel
Indikator s-1
0.019**
(3.82)
N
Anzahl Personen
10749
2209
Ergebnisse
• mögliche Korrektur der Selektionsverzerrung: Verfahren
nach Wooldridge
• ähnelt der Heckman-Korrektur, Schätzung eines ProbitModells für Inklusionswahrscheinlichkeit
• deshalb auch hier: zusätzliche Variablen für ProbitModell benötigt, die nicht in Einkommensgleichung sind
• Kandidaten hier: Familienstand und Anzahl der Kinder im
HH (beide Effekte nicht signifikant)
Ergebnisse
TabelleVII: fe-Schätzung mit mit Selektionskorrektur; Frauen mit beruflichem Ausbildungslevel
ohne Korrektur
Teilzeit regulär
mit Selektionskorrektur
0.060** (6.32)
0.041** (2.91)
Lag1
-0.040** (-4.04)
-0.071** (-4.29)
Lag2
-0.030** (-3.24)
-0.055** (-4.06)
0.090** (5.07)
-0.001 (-0.36)
Lag1
-0.157** ( -9.01)
-0.228** (-8.35)
Lag2
-0.083** (-5.73)
-0.169** (-7.78)
N (Anz. Personen)
11.126 (2290)
11.126 (2290)
Teilzeit marginal
Fazit
• inhaltlich:
– Beschäftigungsform der Teilzeit hat Effekt auf Arbeitseinkommen
– positiver Anfangseffekt wird durch negative Karriereeffekte
konterkariert
– deutliche Unterschiede zwischen regulärer und marginaler Teilzeit
– Prozesse der Selbstselektion in Teilzeit zu erkennen, am
deutlichsten für marginale Teilzeit
Fazit
• methodisch:
– Panelmodelle mit deutlichen Vorteilen gegenüber
Analyseverfahren für Querschnittsdaten
• Kontrolle von unbeobachteter Heterogenität (wichtig für konsistente
Schätzung der Parameter)
• flexiblere Modellgestaltung (z.B. Testen des Einflusses von Lags)
– jedoch: sorgfältige Überprüfung der Annahme unbedingt
notwendig
– Selektionseffekte können wichtig werden (hier z.B. nicht
behandelt: Selektion aufgrund von Panelausfällen)
Fazit
• STATA:
– Grundlagenbefehle vorhanden, werden erkennbar ausgebaut
(siehe STATA 8)
– für weitergehende Modelle: eigenes Programmieren notwendig
– Tests auf Annahmeverletzungen sollten verstärkt implementiert
werden (wie etwa Diagnosemöglichkeiten für OLS)

Zugehörige Unterlagen

Präsentation Fachtagung 1.06.11

presentation

Zugehörige Unterlagen

Produkte

Unterstützung

presentation

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können