Johann Wolfgang Goethe-Universität Frankfurt am Main Fachbereich Wirtschaftswissenschaften Professur für Statistik und Ökonometrie ( Empirische Wirtschaftsforschung) Univ. Prof. Dr. Reinhard Hujer Folien zur Vorlesung Mikroökonometrie – SS2005 – Mikroökonometrie Prof. Dr. R. Hujer Inhaltsverzeichnis A Qualitativ und beschränkt abhängige Variable in Regressionsmodellen 9 I. Qualitativ abhängige Variable 9 I.1. Lineares Wahrscheinlichkeits-Modell (LWM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 I.1.1. Modellidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 I.1.2. Probleme des LWM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 I.2. Probit- und Logit-Modell für dichotome Variablen . . . . . . . . . . . . . . . . . . . . . . . . . 16 I.2.1. Formulierung eines Schwellenwertmodells . . . . . . . . . . . . . . . . . . . . . . . . . . 16 I.2.2. Schätzung mit der Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . 19 I.2.3. Praktische Anwendung von Logit-, Probit-, und LW-Modellen . . . . . . . . . . . . . . . 25 I.2.4. Anwendungsbeispiel Zigarettenkonsum 1: Dichotomes Probit-Modell . . . . . . . . . . . 27 I.2.5. Zufallsnutzen-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 I.3. Gütemaße für Modelle mit diskreter abhängiger Variable . . . . . . . . . . . . . . . . . . . . . . 32 2 Mikroökonometrie Prof. Dr. R. Hujer I.4. Logit-Modelle für polytome Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 I.4.1. Motivation mittels eines Zufallsnutzen-Modells . . . . . . . . . . . . . . . . . . . . . . . 35 I.4.2. Multinomiales Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 I.4.3. Bedingtes Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 I.4.4. Vergleich zwischen multinomialen und bedingtem Logit-Modell . . . . . . . . . . . . . . 42 I.4.5. Anwendungsbeispiel Zigarettenkonsum 2: Multinomiales Logit-Modell . . . . . . . . . . . 44 I.4.6. Unabhängigkeit von irrelevanten Alternativen . . . . . . . . . . . . . . . . . . . . . . . . 46 I.4.7. Test der IIA-Annahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 I.4.8. Genistetes Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 I.4.9. Anwendungsbeispiel Zigarettenkonsum 3: Genistetes Logit-Modell . . . . . . . . . . . . . 54 I.5. Logit- und Probit-Modell für geordnete Kategorien . . . . . . . . . . . . . . . . . . . . . . . . . 58 I.5.1. Anwendungsbeispiel: Verordnungsentscheidung . . . . . . . . . . . . . . . . . . . . . . . 61 II. Zensierte oder gestutzte abhängige Variable II.1. Zensierung und Stutzung im Regressionskontext . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 3 Mikroökonometrie B Prof. Dr. R. Hujer II.2. Notwendige Kenntnisse über gestutzte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 64 II.3. Das zensierte Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 II.3.1. Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 II.3.2. Probleme der OLS-Schätzung des zensierten Regressionsmodells . . . . . . . . . . . . . . 73 II.3.3. Zweistufige Schätzung der Parameter (Heckman-Korrektur) . . . . . . . . . . . . . . . . 77 II.3.4. Maximum-Likelihood-Schätzung des zensierten Regressionsmodells . . . . . . . . . . . . 82 II.4. Prüfmaße für zensierte Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 II.5. Parameterinterpretation im Tobit-Modell: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 II.6. Empirische Anwendung zensierter Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . 88 II.7. Erweiterungen des Grundmodells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Lineare Panelmodelle I. Was sind Paneldaten? 91 91 4 Mikroökonometrie Prof. Dr. R. Hujer II. Einfache lineare Panelmodelle 99 II.1. Allgemeines lineares Grundmodell für Paneldaten . . . . . . . . . . . . . . . . . . . . . . . . . 99 II.2. Fixed effects-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 II.3. Random effects-Modelle (Fehlerkomponentenmodelle) . . . . . . . . . . . . . . . . . . . . . . . 112 II.3.1. Grundlegende Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 II.3.2. OLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 II.3.3. GLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 II.3.4. Schätzung mit Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 II.4. Fixed oder random effects? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 II.5. Empirisches Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 C Modelle zur Ereignisanalyse I. Hazardratenmodelle 126 127 I.1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5 Mikroökonometrie Prof. Dr. R. Hujer I.2. Das Zensierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 I.3. Modelle in kontinuierlicher Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 I.3.1. Allgemeine Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 I.3.2. Parametrische Spezifikationen der Hazardrate . . . . . . . . . . . . . . . . . . . . . . . . 133 I.3.3. Einbeziehung erklärender Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 I.3.4. Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 I.3.5. Unbeobachtbare Heterogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 I.4. Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 I.5. Nichtparametrische Methoden am Beispiel des Kaplan-Meier-Schätzers . . . . . . . . . . . . . . 148 I.6. Empirische Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 II. Modelle für Zähldaten (Count Data Models) 152 II.1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 II.2. Verteilungen für Count Data Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 II.2.1. Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 6 Mikroökonometrie Prof. Dr. R. Hujer II.2.2. Negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 II.3. Ökonometrische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 II.3.1. Das Poissonmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 II.3.2. Maßzahlen für die Anpassungsgüte im Poissonmodell . . . . . . . . . . . . . . . . . . . . 159 II.3.3. Tests auf Equidispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 II.3.4. Das Modell der Negativen Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 163 II.3.5. Hurdle-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 II.4. Empirische Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 D Literatur 172 7 Mikroökonometrie Prof. Dr. R. Hujer Literaturempfehlungen Blossfeld, H.-P./Hamerle, A./Mayer, K.U. (1986): Ereignisanalyse, Frankfurt/Main. Greene, W.H. (2003): Econometric Analysis, 5.Auflage, Upper Saddle River. Wooldridge, J.M. (2002): Econometric Analysis of Cross Section and Panel Data, MIT Press. Maddala, G.S. (1983): Limited Dependent and Qualitative Variables in Econometrics, Cambridge (Mass.). Ronning, G. (1991): Mikroökonometrie, Berlin. 8 Mikroökonometrie Prof. Dr. R. Hujer Teil A Qualitativ und beschränkt abhängige Variable in Regressionsmodellen I. Qualitativ abhängige Variable Bei der Analyse ökonomischer Wahlhandlungen ergibt sich das grundlegende Problem, dass die abhängige Variable in vielen Fällen nur über einen bestimmten Wertebereich beobachtbar ist. Dies ist z.B. der Fall, wenn man den Entschluss eines Konsumenten für den Kauf- oder Nichtkauf eines Produkts oder die Wahl eines bestimmten Verkehrs- oder Transportmittels ökonomisch erklären will. In all diesen Problemstellungen hat die zu erklärende Variable kein metrisches Messniveau, sondern diskrete Ausprägungen. Man spricht von qualitativen Wahlhandlungsmodellen, auf welche die klassischen ökonometrischen Methoden nicht per se anwendbar sind. Diese Modelle dienen der Mikrofundierung der ökonomischen Theorie und setzen i.d.R. Mikrodaten, z.B. aus Unternehmens- und Verbraucherbefragungen, voraus. 9 Mikroökonometrie Prof. Dr. R. Hujer Bei qualitativ abhängigen Variablen können wir den Spezialfall dichotomer und den allgemeineren Fall polytomer Variablen unterscheiden, d.h. zwischen abhängigen Variablen mit zwei und mehr als zwei Ausprägungen bzw. Kategorien. Im polytomen Fall ist außerdem die Unterscheidung zwischen ungeordneten und geordneten Kategorien dieser Variablen von Bedeutung. Zur Verdeutlichung seien nochmals diese Beispiele genannt: • Entschluss eines Arbeitnehmers einen Arbeitsvertrag abzuschließen (dichotom) • Auswahl zwischen verschiedenen Gütern (polytom, ungeordnet) • Bewertung der Qualität eines Produktes (polytom, geordnet) Die Analyse solcher Situation erfolgt in einem allgemeinen Modellrahmen von Wahrscheinlichkeitsmodellen. Dabei gilt: P (Ereignis j tritt ein) = P (Y = j) = f (x) Die Wahrscheinlichkeit dafür, dass Ereignis j, z.B. der Kauf von Produkt A statt Produkt B, eintritt, ist also eine Funktion erklärender Variablen x. Welcher Art diese Funktion ist, werden wir später noch genauer herleiten. 10 Mikroökonometrie Prof. Dr. R. Hujer Die gleiche Entscheidung (zwischen Produkt A und B) kann auch im Rahmen eines Zufallsnutzen-Modells erklärt werden, wenn man davon ausgeht, dass beide Produkte einen bestimmten Nutzen (UA und UB ) spenden. In diesem Fall ist die Wahrscheinlichkeit, dass Produkt A gewählt wird: P (Kauf von Produkt A) = P (UA > UB ) Diesen Ansatz werden wir uns im polytomen Fall bei der Modellierung eines multinomialen Logit-Modells zu Nutze machen. Beginnen werden wir aber mit der Präsentation von Logit- und Probit-Modellen für den dichotomen oder binären Fall. Im Anschluss folgen Gütemaße und praktische Anwendungsmöglichkeiten für diese Modelle. Danach wenden wir uns dem polytomen Fall zu und präsentieren Modelle für ungeordnete ( multinomial“ und ” conditional Logit“) und geordnete Variablen ( ordered Probit“). ” ” 11 Mikroökonometrie I.1. I.1.1. Prof. Dr. R. Hujer Lineares Wahrscheinlichkeits-Modell (LWM) Modellidee Da z.B. die Kaufentscheidung für ein Gut nicht als deterministisch angesehen werden kann, muss der Tatsache Rechnung getragen werden, dass ein Konsument mit einem bestimmten Einkommen ein bestimmtes Produkt kauft, wohingegen sich ein anderer Konsument mit vergleichbarem Einkommen für einen Nichtkauf entscheidet. Wenn das Einkommen jedoch eine substantielle Einflussgröße ist, so muss bei nicht inferioren Gütern die Kaufwahrscheinlichkeit ceteris paribus mit zunehmendem Einkommen steigen. Bei einem Wahlhandlungsmodell wird die Wahrscheinlichkeit dafür, dass sich ein Wirtschaftssubjekt z.B. für den Kauf einen Produktes entscheidet durch einen Vektor erklärender Variablen x0 beeinflusst. Im einfachsten Modell, dem linearen WahrscheinlichkeitsModell (LWM) verändert sich die Wahrscheinlichkeit linear mit einer Veränderung der Einflussgrößen. Das LWM bleibt innerhalb der OLS-Methode des klassischen linearen Regressionsmodells. Es behandelt die abhängige diskrete Variable nicht anders als eine metrische. 12 Mikroökonometrie Prof. Dr. R. Hujer Der Regressionsansatz lautet in Vektorschreibweise: Yi = x0iβ + εi, i = 1, . . . , N (1) mit Yi : abhängige Variable, Wert 0 oder 1, für Individuum i; x0i : 1 × k Vektor erklärender Variablen; β : k × 1 Parametervektor; εi : Störvariable E(εi) = 0. Wie bisher gilt: E(Yi|xi) = x0iβ, aber auch: E(Yi|xi) = 1 · Pi + 0 · (1 − Pi) = Pi mit: Pi = P (Yi = 1|xi). Daher Lineares Wahrscheinlichkeits-Modell“: Bedingter Erwartungswert der abhängigen Variablen ist die Wahr” scheinlichkeit, daß die binäre abhängige Variable den Wert Eins annimmt. 13 Mikroökonometrie I.1.2. Prof. Dr. R. Hujer Probleme des LWM a) Methodisches Problem des LWM: Heteroskedastie εi kann 2 Werte annehmen: −x0iβ oder 1 − x0iβ E(εi) = Pi(1 − x0iβ) + (1 − Pi)(−x0iβ) = 0 V ar(εi) = Pi(1 − x0iβ)2 + (1 − Pi)(−x0iβ)2 = Pi(1 − Pi) = (x0iβ)(1 − x0iβ) Lösung des Problems mit zweistufiger GLS Schätzung: 1. OLS-Schätzung von β. 2. Weighted Least Squares“-Schätzung ” b) Inhaltliche Inkonsistenz des LWM Bei OLS Schätzung von β kann Ŷi = x0iβ̂ = P̂i, außerhalb des [0, 1] Intervalls liegen → Interpretation als Wahrscheinlichkeit daher unplausibel. 14 Mikroökonometrie Prof. Dr. R. Hujer c) Lineare Zunahme der Wahrscheinlichkeit Problematisch ist außerdem die unterstellte Annahme einer identischen Zunahme der Wahrscheinlichkeit eines Ereignisses auf einen Impuls der exogenen Variablen unabhängig von ihrem realisierten Niveau. Es ist z.B. denkbar, dass sich Einkommensänderungen auf sehr niedrigem oder sehr hohem Niveau anders auf die Kaufwahrscheinlichkeit auswirken als gleichwertige Veränderungen in den mittleren Einkommensbereichen. Aus diesen Gründen zieht man dem LWM Logit- und Probit-Modelle zur Erklärung ökonomischer Wahlhandlungen vor. Beiden Modellen liegt ein sogenanntes Schwellenwertmodell zugrunde, das wir zunächst formulieren werden. 15 Mikroökonometrie I.2. I.2.1. Prof. Dr. R. Hujer Probit- und Logit-Modell für dichotome Variablen Formulierung eines Schwellenwertmodells Es wird angenommen, dass den diskreten Ausprägungen der abhängigen Variablen eine stetige, aber unbeobachtbare (latente) Variable Yi∗ zugrunde liegt, deren Wertebereich nicht beschränkt ist: Yi∗ = x0iβ + εi Die Störgröße εi sei unabhängig identisch verteilt (i.i.d.) mit E(εi) = 0 und V ar(εi) = σ 2. Vorläufig erfolgt noch keine konkrete Verteilungsannahme hinsichtlich εi. Zwischen der latenten Variable Yi∗ (Schwellenwertmodell): und den Beobachtungen besteht folgender Zusammenhang 1, wenn Y ∗ > c i Yi = 0, wenn Yi∗ ≤ c 16 Mikroökonometrie Prof. Dr. R. Hujer Überschreitet die latente Variable den Wert c, wird für die abhängige Variable der Wert Eins beobachtet, sonst Null. Die inhaltliche Interpretation der latenten Variablen ist z.B. die Neigung zur Partizipation am Arbeitsmarkt oder der Kaufanreiz für ein Produkt. c kann dabei eine beliebige Konstante sein und als Anspruchswert interpretiert werden. Aus Identifikationsgründen nehmen wir ohne Beschränkung der Allgemeinheit für den Schwellenwert c = 0 an. • Die Wahrscheinlichkeit für die Beobachtung von Yi = 1 ist: P (Yi = 1) = P (Yi∗ > 0) = P (εi > −x0iβ) = 1 − F (−x0iβ) mit: F (−x0iβ) : Verteilungsfunktion für die Residuen an der Stelle −x0iβ • Die Wahrscheinlichkeit für die Beobachtung von Yi = 0 ist entsprechend: P (Yi = 0) = P (Yi∗ ≤ 0) = P (εi ≤ −x0iβ) = F (−x0iβ) • Falls die Verteilung symmetrisch ist, gilt: P (Yi = 1) = F (x0iβ) oder P (Yi = 0) = 1 − F (x0iβ) 17 Mikroökonometrie Prof. Dr. R. Hujer Zum Vergleich: • Lineares Wahrscheinlichkeitsmodell: E(Yi) = P (Yi = 1) = x0iβ • Schwellenwertmodell: E(Yi) = P (Yi = 1) = 1 − F (−x0iβ) ⇒ Das Schwellenwertmodell vermeidet die inhaltliche Inkonsistenz des LWM: Die Wahrscheinlichkeit P (Yi = 1) ist im Schwellenwertmodell auf Werte zwischen 0 und 1 restringiert. Bei der Schätzung des Modells mit der Maximum-Likelihood-Methode ist eine Verteilungsannahme für εi notwendig. Dabei finden prinzipiell zwei Verteilungen Verwendung: Wenn man sich vorstellt, dass sich die latente Variable aus einer Vielzahl unabhängiger Einflussfaktoren zusammensetzt, kann aufgrund des Zentralen Grenzwertsatzes die Verteilungsfunktion einer Normalverteilung zugrundegelegt werden. Ökonomische Wahlhandlungen lassen sich dann auf der Grundlage eines Probit-Modells untersuchen. Alternativ dazu kann die logistische Wahrscheinlichkeitsverteilung verwendet werden, die an den Rändern eine größere Wahrscheinlichkeitsmasse als die Normalverteilung besitzt, was vom Standpunkt der robusten Statistik durchaus als vorteilhaft zu bewerten ist. 18 Mikroökonometrie I.2.2. Prof. Dr. R. Hujer Schätzung mit der Maximum-Likelihood-Methode Zur Schätzung des Modells mit der Maximum-Likelihood-Methode stellen wir zunächst die Likelihoodfunktion auf. Dabei setzen wir Unabhängigkeit der einzelnen Beobachtungen voraus. Aus unseren Ausführungen oben ergibt sich: Y Y 0 L= F (−xiβ) [1 − F (−x0iβ)] Yi =0 Yi =1 Die Form von F hängt von der Verteilungsannahme für εi ab. 19 Mikroökonometrie Prof. Dr. R. Hujer a) Dichotomes Probit-Modell Wir treffen die folgenden Annahmen: ⇒ εi sei unabhängig identisch normalverteilt (i.i.n.d), εi ∼ N (0, σ 2) ⇒ Für Beobachtungen Yi = 1 gilt dann (wegen Symmetrie der Normalverteilung): P (Yi∗ > 0) = P (εi > −x0iβ) −x0i β εi = P σ > σ 0 0 −xi β xβ = 1−Φ σ = Φ σi ⇒ Φ x0i β σ = R x0iβ √1 −∞ 2π σ exp −t2 2 dt ist Verteilungsfkt. der Standardnormalverteilung an der Stelle ⇒ Für die Nullbeobachtungen“ (Yi = 0) gilt entsprechend: P (Yi∗ ≤ 0) = 1 − Φ ” x0i β σ x0i β σ 20 Mikroökonometrie Prof. Dr. R. Hujer ⇒ Die Likelihood-Funktion für das Probit-Modell bei geeigneter Anordnung der Stichprobe: LProbit 0 Y 0 Y xi β xi β ]· Φ = [1 − Φ σ σ 1 0 Erstes Produkt läuft über Beobachtungen mit Yi = 0, zweites Produkt über die mit Yi = 1. Kompakte Schreibweise: LProbit N Y x0iβ = Φ σ i=1 Yi 0 1−Yi xi β · 1−Φ σ Identifikationsproblem: Nur βσ kann identifiziert werden, da unendlich viele Kombinationen von β und σ die gleiche Wahrscheinlichkeit erzeugen. ⇒ Restringieren des Parameters σ auf 1, d.h. Annahme einer Standardnormalverteilung der Residuen. 21 Mikroökonometrie Prof. Dr. R. Hujer b) Dichotomes Logit-Modell: Annahmen: ⇒ εi sei unabhängig identisch logistisch verteilt, mit E(εi) = 0 und V ar(εi) = ⇒ Aus Identifikationsgründen gelte, dass t2 = 1 t2 π 2 3 . ⇒ Standard-logistische Verteilung von εi. ⇒ Verteilungsfunktion der Standard-Logistischen Verteilung: F (x0iβ) = 1 1+exp(−x0i β) = exp(x0i β) 1+exp(x0i β) ⇒ Als Erfolgswahrscheinlichkeit Pi der Zufallsvariablen Yi, die über den Parametervektor β von x abhängt, exp(x0 β) erhalten wir daher: Pi(x) = 1+exp(xi 0 β) i Man bezeichnet diese Beziehung als binäres Logit-Modell. Zu schätzen ist der Parametervektor β. Dabei nimmt die Variable Y nur die Werte 0 und 1 an. Dies führt, Unabhängigkeit der einzelnen Beobachtungen vorausgesetzt, zu folgender Likelihoodfunktion: 22 Mikroökonometrie Prof. Dr. R. Hujer LLogit = N Y PiYi · (1 − Pi)1−Yi i=1 Einsetzen führt uns zu: LLogit N Y = 1− i=1 exp(x0iβ) 1 + exp(x0iβ) 1−Yi Yi exp(x0iβ) · 1 + exp(x0iβ) Die logistische Dichtefunktion ähnelt der Dichte der Standardnormalverteilung, hat jedoch einen flacheren Verlauf an den Enden. Für Logit- und Probit-Modell produziert die Maximum Likelihood-Methode konsistente Schätzer für den Parametervektor β. Die Likelihood-Funktion ist in beiden Modellen global konkav. Erste Ableitungen der Log-Likelihood-Funktion sind im Probit- und Logit-Modell nichtlinear. Aufsuchen der Nullstellen erfolgt mittels iterativer Methoden (Newton-Raphson Methode, Method of Scores). 23 Mikroökonometrie Prof. Dr. R. Hujer Im Gegensatz zum LWM geben die Koeffizienten β beim Logit-Modell nicht mehr unmittelbar die Effekte einer Veränderung einer erklärenden Variablen auf die Wahrscheinlichkeit an. Aus der Darstellung: Pi = 1 − Pi exp(x0i β) 1+exp(x0i β) 1 1+exp(x0i β) = exp(x0iβ) Pi 0 folgt nach Logarithmierung die Beziehung: ln 1−P = x i β, i aus der ersichtlich ist, dass die Parameter β beim Logit-Modell die Impulse auf die sogenannte log-odds ratio“ ” messen, die aus einer Veränderung der exogenen Größen um eine Einheit resultieren. Die log-odds ratio“ gibt ” die Chance für eine Realisierung des betrachteten Ereignisses im Vergleich zum Komplementärereignis wieder. Als Computer-Programme für die Maximum-Likelihood-Schätzung noch nicht zur Verfügung standen, wurde die aus der Logit-Transformation“ entstandene lineare Beziehung geschätzt. ” 24 Mikroökonometrie I.2.3. Prof. Dr. R. Hujer Praktische Anwendung von Logit-, Probit-, und LW-Modellen Das Logit-Modell ist wegen geschlossener Form der Verteilungsfunktion einfacher handhabbar. Durch Fortschritte in der EDV-Technologie haben das Logit-Modell und das LWM im binären Fall jedoch an Bedeutung verloren. Rechentechnische Vorteile von Logit-Modellen im Falle einer diskreten abhängigen Variable mit mehr als 2 Ausprägungen. (Multinomiale Logit- bzw. Probit-Modelle). Interpretation der Parameterschätzwerte: Die Parameterschätzwerte können beim Probit- bzw. Logit-Modell nicht wie im klassischen linearen Regressionsmodell oder im LWM als marginale Effekte interpretiert werden. Für Probit- bzw. Logit-Modelle gilt vielmehr: ∂Pi ∂F (x0iβ) = · β = f (x0iβ) · β 0 ∂xi ∂xiβ mit f (x0iβ) : Dichtefunktion der jeweiligen Verteilung an der Stelle x0iβ. 25 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 1: Bedeutung von Eigenschaften eines Arthrosepräparats für die Verschreibungsentscheidung des Arztes Ergebnisse einer ML-Schätzung - Logit-Modell -(Verschreibung ja/nein) Erklärende Variablen Koeffizient t-Wert (Dummy-Variablen) Konstante -25.401 -12.107 Wirksamkeit wie Vergleichssubstanz 13.443 9.771 Wirksamkeit weniger stark Referenz Knorpelschutz stark ausgeprägt 18.716 13.717 Knorpelschutz nicht vorhanden Referenz Nebenwirkungen weniger 0.5378 4.322 Nebenwirkungen vergleichbar Referenz Nebenwirkungen mehr -15.081 -7.365 Tagestherapiekosten DM 1,83 0.1488 9.443 Tagestherapiekosten DM 4,47 0.5762 3.471 Tagestherapiekosten DM 5,88 Referenz Tagestherapiekosten DM 8,00 -0.5285 -3.097 Hersteller Stellapharma 0.1395 0.948 Hersteller Lunapharma 0.0010 0.006 Hersteller Andere Referenz 26 Mikroökonometrie I.2.4. Prof. Dr. R. Hujer Anwendungsbeispiel Zigarettenkonsum 1: Dichotomes Probit-Modell Nachfolgend wollen wir die vorgestellten Schätzmethoden an einer konkreten empirischen Anwendung verdeutlichen. Dabei geht es um den Kauf von Zigaretten, wobei wir zunächst nur zwischen der Wahl Light-Zigarette ja ” / nein“ unterscheiden und das Modell dann sequentiell weiter ausbauen. Wir verwenden dazu einen Datensatz indem 8.096 Zigarettenkäufe enthalten sind, die zwischen September und Dezember 1991 getätigt wurden. Zu jedem Käufer liegen sozioökonomische Daten vor, die nachfolgend beschrieben sind: AGE Alter des Individuums SEX Geschlecht (0 = männlich, 1 = weiblich) SINGLE 1 wenn nur ein Haushaltsmitglied, 0 sonst EDUCATION Jahre Schulausbildung / sonstige Ausbildung INCOME Einkommen pro Haushaltsmitglied mit eigenem Einkommen (in Tausend DM) INCOME2 Quadriertes Einkommen um Nicht-Linearitäten zuzulassen BLUECOL OFFICAL 1 wenn das Individuum ein BLUE COLLAR“-Arbeiter ist, 0 sonst ” 1 wenn das Individuum ein WHITE COLLAR“-Arbeiter ist, 0 sonst ” 1 wenn das Individuum im Büro arbeitet, 0 sonst LEAD 1 wenn das Individuum selbständig ist oder eine Führungsposition einnimmt SUMVAL Wert der Käufe in der Beobachtungsperiode um starke Raucher zu unterscheiden AVGVAL Durchschnittswert der Käufe in der Beobachtungsperiode, um für die Regelmäßigkeit der Käufe zu kontrollieren WHITECOL 27 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 2: Einfluss von individuellen Charakteristika auf die Wahl: Kauf Light-Zigarette (1) / sonst (0) Ergebnisse einer ML-Schätzung - Probit-Modell - (Kauf Light ja/nein) Erklärende Variablen Koeffizient t-Wert Konstante -26.903 -18.235 AGE 0.0042 2.439 SEX 0.4493 10.020 SINGLE 0.2359 4.726 EDUCATION 0.1001 3.394 INCOME 0.2000 3.790 INCOME2 -0.0337 -4.346 BLUECOL 0.1089 1.895 WHITECOL -0.0210 -0.534 OFFICAL -0.4178 -5.219 0.5291 9.669 SUMVAL -0.0008 -9.165 AVGVAL 0.0035 2.584 LEAD 28 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 3: Deskriptive Beschreibung der im Datensatz enthaltenen Variablen Variable Mittelwert Stand.abw. Minimum Maximum AGE 36,245 9,6713 18 78 SEX 0,7294 0,4443 0 1 0,125 0,3307 0 1 EDUCATION 11,121 2,3817 8 19,5 INCOME 2,5579 1,136 0,375 10 BLUECOL 0,1742 0,3793 0 1 WHITECOL 0,4056 0,491 0 1 0,065 0,2464 0 1 LEAD 0,0958 0,2967 0 1 SUMVAL 245,33 376,25 4,99 6440 AVGVAL 11,921 26,389 4,99 495,4 SINGLE OFFICAL 29 Mikroökonometrie I.2.5. Prof. Dr. R. Hujer Zufallsnutzen-Modelle Eine alternative Interpretation für individuelle Wahlentscheidungen bieten die sogenannten Zufallsnutzen-Modelle ( random utility models“). Die latente Variable kann in diesem Fall als Nutzenindex interpretiert werden. Als ” Beispiel für einen dichotomen Fall stellen wir uns vor, dass ein Konsument vor der Wahl zwischen dem Produkt A und dem Produkt B steht. Beide Produkte spenden einen bestimmten Nutzen (UA und UB ), den wir nicht beobachten können. Die getroffene Wahl enthüllt, welches Produkt einen höheren Nutzen hat. Die Indikatorvariable Y nimmt den Wert 1 an, wenn UA > UB und den Wert 0, falls UA ≤ UB . Wir unterstellen ein lineares Modell, Unabhängigkeit zwischen εA und εB , sowie E(εj ) = 0, V ar(εj ) für j = A, B. Dann gilt: UA = x0βA + εA und UB = x0βB + εB 30 Mikroökonometrie Prof. Dr. R. Hujer Daraus folgt: P (Y = 1|x) = P [UA > UB ] = P [x0βA + εA − x0βB − εB > 0] = P [x0(βA − βB ) + εA − εB > 0] = P [x0β + ε > 0] Dabei treffen wir zunächst noch keine Verteilungsannahme für die Störterme εA und εB und greifen auf diese Ergebnisse im polytomen Fall bei der Behandlung von multinomialen Logit-Modellen zurück. 31 Mikroökonometrie I.3. Prof. Dr. R. Hujer Gütemaße für Modelle mit diskreter abhängiger Variable Im linearen Modell: Messung der Anpassungsgüte mit R2: ε̂2i R =1− P (yi − y)2 2 P ⇒ durch Minimierung der Abstandsquadrate erfolgt eine Maximierung der Anpassungsgüte. Die Verwendung von R2 ist in Probit- bzw. Logit-Modellen problematisch, da: a) Berechnung von ε̂i = yi∗ − ŷi∗ nicht möglich, da yi∗ nicht beobachtet werden kann b) Maximum-Likelihood-Methode verfolgt andere Zielfunktion als OLS: Maximierung der Likelihoodfunktion, nicht Minimierung von Abständen. 32 Mikroökonometrie Prof. Dr. R. Hujer Alternative Maße der Anpassungsgüte: 2 2 2 a) McFaddens R2 (RM F ) und Aldrich-Nelson R ; (RAN ): Beide Anpassungs-Maße setzen am Wert der Log-Likelihood-Funktion an; es ist eine Normierung nötig, da der absolute Wert der Likelihood-Funktion nicht aussagekräftig ist. L̂ 2 – Mc Faddens R2: RM F = 1 − L̂ 0 mit: L̂ : Log-Likelihood-Funktion mit ML-Schätzwerten des jew. Modells L̂0 : Log-Likelihood-Funktion des sog. Nullmodells. Im Nullmodell ist keine Einflußgröße spezifiziert (β = 0). 2 Da Wert der Log-Likelihood stets ≤ 0 und L̂ > L̂0, gilt: 0 ≤ RM F ≤ 1. L̂−L̂0 ) 2 – Aldrich-Nelson R2: RAN = 1 − 2(2(L̂− . L̂ )+n 0 2 Die Konstante n (Anzahl Beobachtungen) dient dazu, RAN zwischen 0 und 1 zu zwingen. 33 Mikroökonometrie Prof. Dr. R. Hujer 2 b) McKelvey-Zavoina R2 (RM Z) McKelvey-Zavoina: Anpassungsgüte für die latente Variable Y ∗ Ansatz: Streuungszerlegung für latente Variable wie im üblichen R2: Verhältnis der erklärten zur gesamten Varianz für latente Variable: P ∗ P ∗ ∗ 2 (ŷi − y ) (ŷi − y ∗)2 2 P ∗ P 2 R =P ∗ ∗ 2 = ∗ 2 (yi − y ) (ŷi − y ) + ε̂i Da Beobachtungen von yi∗ nicht verfügbar sind und eine Berechnung der geschätzten Residuen nicht möglich ist: P ∗ (ŷi − y ∗)2 2 RM Z = P ∗ (ŷi − y ∗)2 + n · σ 2 Zweiter Ausdruck im Nenner entspringt der Überlegung, daß der Erwartungswert der Quadratsumme der 2 Störvariablen gleich n · σ 2 ist. Im Probit-Modell ist σ 2 auf 1 normiert. Im Logit-Modell ist σ 2 durch π3 gegeben! 34 Mikroökonometrie I.4. I.4.1. Prof. Dr. R. Hujer Logit-Modelle für polytome Variablen Motivation mittels eines Zufallsnutzen-Modells Als Verallgemeinerung lassen wir nun r verschiedene Werte für die Indikatorvariable Y zu. Dabei machen wir uns das Zufallsnutzen-Modell aus Abschnitt I.2.5 zu Nutze, und modellieren explizit den Auswahlprozess durch die latente Variable Uij , die den Nutzen der Alternative j für Individuum i angibt. Aus der Hypothese der Nutzenmaximierung folgt, dass diejenige Alternative gewählt wird, für die der Nutzen maximal ist. Den Nutzen fassen wir als Zufallsvariable auf, der sowohl von individuenspezifischen als auch kategorienspezifischen Aspekten abhängt. Wir schreiben: (1) Uij = x0iβj + εij (2) Uij = x0ij β + εij Im ersten Fall hängt der Nutzen von individuellen Charakteristika ab, wobei xi ein Vektor von beobachteten Charakteristika (z.B.: Alter, Geschlecht, Einkommen) für Individuum i ist. 35 Mikroökonometrie Prof. Dr. R. Hujer Im zweiten Fall hängt der Nutzen auch von den Eigenschaften der Alternativen ab. xij ist ein Vektor, der die Werte dieser Eigenschaften (z.B.: Farbe, Haltbarkeit, Leistung) für Alternative j aus Sicht des Individuums i enthält. Wir folgen der Notation von Maddala (1983) und Greene (2003) und bezeichnen den ersten Fall als multinomiales Logit-Modell und den zweiten Fall als bedingtes Logit-Modell ( Conditional Logit-Model“). ” Eine Kombination beider Ansätze ist denkbar, soll aber hier nicht weiter vertieft werden. In der Praxis enthalten die meisten der zu analysierenden mikroökonometrischen Datensätze nur eine der beiden Informationsarten, so dass die Wahl eines der beiden Ansätze nicht schwer fällt (siehe auch unser Beispiel im Abschnitt I.2.4). 36 Mikroökonometrie I.4.2. Prof. Dr. R. Hujer Multinomiales Logit-Modell Zur Schätzung müssen wir nun für den Störterm eine Verteilungsannahme treffen. Die Normalverteilung führt zum multinomialen Probit-Modell, das für mehr als zwei Alternativen wegen der numerischen Bestimmung der mehrdimensionalen Integrale komplexere Methoden erfordert (→ Simulated Moments). Falls die Störterme unabhängig voneinander standard-extremwertverteilt sind, ist die Auswahlwahrscheinlichkeit für Kategorie j durch Individuum i gegeben mit: exp(x0iβj ) Pij = P (Uij > Uik ) = Pr 0β ), exp(x i s s=1 j 6= k; j = 1, . . . , r. (2) (Beweis: siehe Ronning (1991), Seite 73ff.) Dabei ist jedes βk ein K-dimensionaler Vektor. Für eine eindeutige Parametrisierung legen wir den Parametervektoren βk die Restriktion βr = 0 auf. Die Wahrscheinlichkeiten sind dann: 37 Mikroökonometrie Prof. Dr. R. Hujer exp(x0iβj ) Pij = , Pr−1 0 1 + k=1 exp(xiβk ) Pir = j = 1, 2, . . . , r − 1 1 , Pr−1 0 1 + k=1 exp(xiβk ) wobei die Wahrscheinlichkeit für Kategorie r durch die übrigen r − 1 Wahrscheinlichkeiten impliziert ist. h i P Das Modell impliziert, dass wir r − 1 log-odds ratios“ der Form ln Pirij = x0iβj berechnen können. Vom Stand” punkt der Schätzung ist es vorteilhaft, dass die odds-ratio“ nicht von den anderen Wahlmöglichkeiten abhängt. ” Damit sind allerdings auch Probleme verbunden, die wir in Kapitel I.4.6 behandeln werden. Die Schätzung des multinomialen Logit-Modells erfolgt mit Maximum-Likelihood. Als Likelihood-Funktion erhalten wir: LMulti Logit = N Y r Y Y Pijij . i=1 j=1 38 Mikroökonometrie Prof. Dr. R. Hujer Bei der Interpretation der Parameter ist folgendes zu beachten: a) Unter verschiedenen Normierungen der βk ergeben sich unterschiedliche Parameter- bzw. Schätzwerte. b) Die Notwendigkeit der Normierung weist darauf hin, dass die absolute Größe der Parameterwerte keine inhaltliche Bedeutung hat. Vielmehr sind nur die Differenzen βk − βj von Bedeutung. 39 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Extremwertverteilung Für eine beliebige Zufallsvariable X gilt: (x−α) (x−α) 1 Dichtefunktion: f (x) = t exp − t exp − exp − t , Verteilungsfunktion: F (x) = exp − exp − (x−α) t Erwartungswert: E(X) = α + tγ, Varianz: V (X) = −∞ < x < ∞ γ = 0, 577216 Euler-Konstante t2 π 2 6 Die standardisierte Extremwertverteilung der Störterme ε ergibt sich für t = 1 und α = 0. 40 Mikroökonometrie I.4.3. Prof. Dr. R. Hujer Bedingtes Logit-Modell Beim bedingten Logit-Modell hängt die Wahrscheinlichkeit, dass Individuum i die Alternative j wählt, von den Eigenschaften der Alternativen ab. xij ist ein Vektor, der die Werte dieser Eigenschaften für Alternative j aus Sicht des Individuums i enthält. Wir erhalten: exp(x0ij β) Pij = Pr 0 β) , exp(x k=1 ik j = 1, . . . , r. (3) Die Likelihood-Funktion ist die gleiche wie beim multinomialen Logit-Modell. Da unser Beispieldatensatz keine alternativenspezifischen Informationen enthält, wollen wir uns mit diesem Modell nicht weiter beschäftigen. 41 Mikroökonometrie I.4.4. Prof. Dr. R. Hujer Vergleich zwischen multinomialen und bedingtem Logit-Modell Auch wenn die Modelle in (2) und (3) algebraisch äquivalent sind (Beweis: siehe Maddala (1983), S. 42) gibt es einige Unterschiede bei der Interpretation, die sich am besten mit einem Beispiel verdeutlichen lassen. Nehmen wir an, dass n Konsumenten unter einer Reihe von r Produkten wählen können. Die Produkte werden jeweils durch drei Eigenschaften charakterisiert: Preis, Farbe und Haltbarkeit. Beim bedingten Logit-Modell ist xij ein Vektor, der den Wert dieser Eigenschaften für Produkt j aus Sicht des Individuums i enthält. Gleichung (3) gibt dann die Wahrscheinlichkeit dafür an, dass Individuum i das Produkt j wählt. Der β-Vektor liefert uns den relativen Wert dieser Eigenschaften für die einzelnen Individuen. Kommt nun ein neues Produkt hinzu und liegen uns die Einschätzungen der Konsumenten für dieses Produkt vor, können wir die β-Koeffizienten dazu nutzen, um die Wahrscheinlichkeit dafür zu bestimmen, dass Individuum i Produkt j kauft. 42 Mikroökonometrie Prof. Dr. R. Hujer Das multinominale Logit-Modell beantwortet eine andere Fragestellung. Nehmen wir wieder an, dass es r verschiedene Produkte gibt, aus denen die n Konsumenten wählen können. xi ist ein Vektor von beobachteten Charakteristika (z.B.: Alter, Geschlecht, Einkommen, etc.) für Individuum i. Die Wahrscheinlichkeit, dass ein Individuum mit diesen Eigenschaften das Produkt j kauft, ist dann durch Gleichung (2) gegeben. Kommt ein neuer Konsument hinzu, dessen Eigenschaften wir kennen, können wir die Wahrscheinlichkeit dafür bestimmen, dass dieser Konsument eines der r Produkte kauft. Die Anzahl der zu schätzenden Parameter ist im bedingten Logit-Modell gleich der Anzahl der Charakteristika der Produkte, während beim multinomialen Logit-Modell [(r − 1)× Anzahl der individuellen Eigenschaften ] Parameter geschätzt werden müssen. 43 Mikroökonometrie I.4.5. Prof. Dr. R. Hujer Anwendungsbeispiel Zigarettenkonsum 2: Multinomiales Logit-Modell Wir setzen unser Beispiel aus dem Kapitel I.2.4 fort und schätzen nun ein multinomiales Logit-Modell für den Zigarettenkauf, wobei vier Alternativen zur Wahl stehen: 1 = Marlboro, 2 = Camel, 3 = R1, 4 = Sonstige Marke. Wir berücksichtigen nur sozioökonomische Informationen (vernachlässigen also die alternativenspezifischen Informationen) und schreiben den Nutzen der einzelnen Marken als (ohne Störterm): UMarlboro = x0βMarlboro UCamel = x0βCamel UR1 = x0βR1 USonstige Marke = x0βSonstige Marke Die Ergebnisse sind in Tabelle 4 zu finden. 44 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 4: Ergebnisse einer ML-Schätzung - Multinomiales Logit-Modell - (Wahl zwischen 4 Alternativen) (Der Parametervektor βSonstige Marke wurde auf 0 normiert) Marlboro Camel R1 Erklärende Variablen βMarlboro t-Wert βCamel t-Wert βR1 t-Wert Konstante 0,4054 1,538 -1,078 2,602 -5,924 13,283 AGE -0,049 -12,001 -0,0493 -7,745 0,048 8,565 SEX 0,125 1,531 0,2233 1,616 0,094 0,613 -0,2723 -2,707 0,6332 4,588 0.3016 1,683 -3,895 -0,0253 -1,03 0,0951 3,736 0,1056 2,4 0,0184 0,341 6,708 -0,2913 -1,648 0,3863 1,771 -0,097 -0,834 -0,2152 -1,412 -1,307 -0,3345 1,466 SINGLE EDUCATION -0,06 INCOME -0,067 -2,074 BLUECOL 0,7211 WHITECOL 0,8286 OFFICAL 0,9361 6,553 -0,3499 LEAD 0,8969 8,789 SUMVAL 0,0003 1,972 -0,0001 AVGVAL -0,0174 10,479 -3,082 0,4863 0,0248 2,865 1,1715 6,356 -0,534 -0,0029 -6,299 0,796 0,0046 1,108 Log Likelihood: -6144,1 45 Mikroökonometrie I.4.6. Prof. Dr. R. Hujer Unabhängigkeit von irrelevanten Alternativen Sowohl das bedingte als auch das multinomiale Logit-Modell lassen sich als Modell für Auswahlwahrscheinlichkeiten unter der Hypothese der Nutzenmaximierung interpretieren (Abschnitt I.4.1). Dabei haben wir angenommen, dass die Störterme extremwertverteilt sind. Dies führt allerdings zur Unabhängigkeit von irrelevanten Alterna” tiven“. Wir wollen dies an einem Beispiel verdeutlichen. Angenommen, jemand hat die Auswahl zwischen drei Verkehrsmitteln: 1 = Fahrt mit dem Auto; 2 = Fahrt mit einem roten Bus; 3 = Fahrt mit einem blauen Bus. 46 Mikroökonometrie Prof. Dr. R. Hujer Als Auswahlwahrscheinlichkeit für die Alternative j erhalten wir (im bedingten Logit-Modell): exp(x0ij β) Pij = Pr 0 β) , exp(x k=1 ik j = 1, 2, 3. Für das Verhältnis der Auswahlwahrscheinlichkeiten P1 und P2 gilt: PP12 = exp((x1 − x2)0β), d.h. die Relation ist unabhängig davon, welche Ausprägung die dritte Kategorie hat. Die Auswahlwahrscheinlichkeit zwischen zwei Alternativen wird also nicht von den übrigen Alternativen berührt. Für die Auswahlwahrscheinlichkeit zwischen Auto und rotem Bus ist es z.B. egal, ob es sich bei der dritten Alternative um einen blauen Bus oder ein Flugzeug handelt. Diese unplausible Eigenschaft hängt mit der Ausgangsannahme zusammen, dass die Störterme unabhängig voneinander verteilt sind. Die Unabhängigkeit der Störterme ε2 (roter Bus) und ε3 (blauer Bus) ist dabei nicht nachzuvollziehen, da eine hohe (niedrige) Auswahlwahrscheinlichkeit für einen roten Bus i.A. auch eine hohe (niedrige) Wahrscheinlichkeit für einen blauen Bus mit sich bringen sollte. Als Lösung für dieses Problem bieten sich ein multinomiales Probit-Modell oder ein genistetes Logit-Modell an. 47 Mikroökonometrie I.4.7. Prof. Dr. R. Hujer Test der IIA-Annahme Das Beispiel roter Bus – blauer Bus“ verdeutlicht die Unzulänglichkeit der IIA-Annahme zur Abbildung be” stimmter Entscheidungssituationen. Eine Möglichkeit zum Test der IIA-Annahme besteht darin, im ersten Schritt ein Modell zu schätzen, das alle Alternativen berücksichtigt. Die geschätzten Parameter werden dann mit den Schätzern von Modellen verglichen, in denen eine oder mehrere Alternativen weggelassen wurden. Ein geeigneter Test dazu ist der Hausman-Test1. Wenn sich die Schätzer (und damit auch die Wahrscheinlichkeiten) deutlich voneinander unterscheiden, muß die IIA-Annahme verworfen werden. Zur Schätzung ist dann ein flexibleres Modell zu verwenden, wie z.B. das genistete Logit-Modell oder das Multinomiale Probit-Modell. 1 Hausman, J. (1978): Specification Tests in Econometrics“, Econometrica, 46, S.1251–1271 ” Siehe auch Hausman, J. und D. McFadden (1984): Specification Tests for the Multinomial Logit Model“, Econometrica, 52, S. 1219–1240 ” 48 Mikroökonometrie Prof. Dr. R. Hujer Hausman-Test auf Gültigkeit der IIA-Annahme: 1.) Schätze ein bedingtes oder multinomiales Logit-Modell, das alle Alternativen der abhängigen Variable berücksichtigt. Die geschätzten Paramtervektoren seien β˜cl oder β˜ml . 2.) Schließe eine Alternative r aus und wiederhole die Schätzung. Die Schätzer dieses restrinr r gierten Modells seien β˜cl beziehungsweise β˜ml . r r 3.) Bilde die Differenz β˜cl − β˜cl beziehungsweise β˜ml − β˜ml . −1 r r r 2 0 4.) Verwende die folgende Test-Statistik: χr = (β˜cl − β˜cl ) Σ(β˜cl ) − Σ(β˜cl ) (β˜cl − β˜cl ) r mit Σ(β˜cl ) und Σ(β˜cl ) als Kovarianzmatrix des restringierten und des unrestringierten Modells. Ersetze für das multinomiale Logit βcl durch βml . 5.) χ2r folgt einer χ2-Verteilung mit der Anzahl von Freiheitsgraden entsprechend der Anzahl von Parametern im restringierten Modell. 6.) Überschreitet der Wert der Test-Statistik den entsprechenden kritischen Wert, so ist die Differenz zwischen den Parametern im unrestringierten und restringierten Modell signifikant und die IIA-Annahme muß verworfen werden. 49 Mikroökonometrie I.4.8. Prof. Dr. R. Hujer Genistetes Logit-Modell Bei diesem Modell werden die Alternativen in Teilgruppen gegliedert. Dabei kann die Varianz zwischen den Gruppen variieren, während innerhalb der Gruppe die IIA-Annahme beibehalten wird. Es wird eine Baumstruktur des Entscheidungsproblems unterstellt, bei dem ähnliche Alternativen in die gleiche Teilgruppe gelangen. In unserem empirischen Beispiel könnte ein solcher Entscheidungsbaum folgendermaßen aussehen: Der Konsument entscheidet sich zunächst, welche Art von Zigaretten er kaufen will (Light / Keine Light) und trifft dann die Wahl zwischen verschiedenen Marken (Marlboro, Camel, Sonstige). 50 Mikroökonometrie Prof. Dr. R. Hujer In allgemeiner Notation steht der Konsument vor der Wahl zwischen C verschieden Gruppen von Alternativen (im Beispiel zwei), wobei g = 1, 2, . . . , C. Innerhalb jeder Gruppe werden die Alternativen mit j = 1, 2, . . . , Cg indiziert (im Beispiel jeweils drei Alternativen). Der Konsumentennutzen der Alternative Ugj hängt dann im allgemeinsten Fall von den Eigenschaften der Alternative innerhalb einer Gruppe, den Eigenschaften der Gruppe selbst und den persönlichen Eigenschaften des Individuums ab. Zur Vereinfachung unterstellen wir die folgende Nutzenfunktion: Ugj = Vgj + εgj , wobei Vgj = x0gj β + yg0 α. xgj ist ein Vektor der zwischen den Gruppen und den Alternativen variieren kann (z.B. individuelle Charakteristika wie Alter), während der Vektor yg nur zwischen den Gruppe variiert (z.B. Tabaksorte). α und β sind zu schätzende Parametervektoren. Wenn wir annehmen, dass die εij i.i.d. extremwertverteilt sind, ist die Wahlwahrscheinlichkeit für die (g, j)-te Alternative gegeben durch: 51 Mikroökonometrie Prof. Dr. R. Hujer exp(Vgj ) Pgj = PC PCg j=1 exp(Vgj ) g=1 Diese Wahrscheinlichkeit ergibt sich auch als Produkt der bedingten Wahrscheinlichkeit, dass die Alternative j gewählt wurde gegeben Gruppe g, und der marginalen Wahrscheinlichkeit, dass Gruppe g gewählt wurde: Pgj = Pj|g · Pg Es gilt: exp(x0gj β) exp(Vgj ) Pj|g = PCg j=1 exp(Vgj ) = PCg 0 j=1 exp(xgj β) (4) und PCg j=1 exp(Vgj ) Pg = PC PCg = j=1 exp(Vgj ) g=1 PCg 0 exp(yg α) j=1 exp(x0gj β) PC PCg 0 0 α) exp(y g j=1 exp(xgj β) g=1 (5) 52 Mikroökonometrie Prof. Dr. R. Hujer Wir definieren: Ig = log Cg X exp(x0gj β) j=1 und schreiben die Gleichungen (4) und (5) kompakter als: Pj|g exp(x0gj β) = exp(Ig ) (6) und exp(yg0 α + Ig ) Pg = PC 0 g=1 exp(yg α + Ig ) . (7) 53 Mikroökonometrie Prof. Dr. R. Hujer Die Schätzung des Modells erfolgt dann in zwei Stufen: Stufe 1: Zuerst werden die Parameter β der Gleichung (4) und im Anschluss daran die Werte Ig berechnet. Stufe 2: Danach wird Gleichung (7) mit Hilfe der berechneten Ig -Werte berechnet. Dieser sequentielle Schätzansatz kann auch für komplexere Entscheidungsstrukturen verwendet werden (wird hier nicht weiter behandelt, siehe Maddala, S.69). I.4.9. Anwendungsbeispiel Zigarettenkonsum 3: Genistetes Logit-Modell Wir wenden das soeben vorgestellte genistete Logit-Modell nun wieder auf unser empirisches Beispiel an. Dabei unterstellen wir eine zweistufige Entscheidungsprozedur. Auf der ersten Stufe wählt der Konsument, ob er Light-Zigaretten oder andere Zigaretten raucht und auf der zweiten Stufe, ob er die Marke Marlboro oder eine andere Marke wählt. Dabei schließen wir alternativenspezifische Eigenschaften (z.B. unterschiedliche Tabaksorten) aus und berücksichtigen nur Eigenschaften der Konsumenten. Wir unterscheiden Effekte der Konsumenteneigenschaften auf die Wahl der Zigarettenart (Light / Keine Light) und die Wahl der Marke innerhalb einer gewählten Art. 54 Mikroökonometrie Prof. Dr. R. Hujer Damit ergibt sich die folgende (allgemeine) Nutzenfunktion: Ugj = x0γgj + x0δg + εgj Die Konsumentennutzen in diesem zweistufigen Modell mit zwei Alternativen sehen dann folgendermaßen aus: UMarlboro Light = x0γMarlboro Light + x0δLight UAndere Light = x0γAndere Light + x0δLight UMarlboro = x0γMarlboro + x0δKeine Light UAndere = x0γAndere + x0δKeine Light Um die Parameteridentifikation zu sichern setzen wir die Parameter γAndere, γAndere Light, δKeine Light gleich Null. Die Ergebnisse sind in den Tabellen 5 und 6 zu finden. 55 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 5: Ergebnisse einer ML-Schätzung - Erste Stufe eines genisteten multinomialen Logit-Modells (Die Parametervektor γAndere, γAndere Light, δKeine Light wurden auf 0 normiert) Erklärende Variablen γMarlboro Light t-Wert γMarlboro t-Wert -0,537 Konstante 1,4864 2,599 -0,1568 SEX 0,4077 2,046 0,2657 3,187 -0,7386 -3,533 -0,234 -2,263 0,0038 0,503 -0,0535 -13,007 EDUCATION -0,0609 -2,166 -0,0255 -1,627 INCOME -0,8734 -3,056 0,1802 1,531 INCOME2 0,1217 2,592 -0,048 -2,559 BLUECOL -0,9559 -4,052 0,8283 7,48 WHITECOL -0,6864 -4,509 0,8907 11,085 OFFICAL -0,7241 -1,696 0,8671 6,053 LEAD -0,3219 -1,679 1,1189 10,468 3,279 -0,0083 -2,606 SINGLE AGE AVGVAL 0,028 SUMVAL 0,0006 Log Likelihood: 1,681 0,0002 1,555 -3969,1 56 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 6: Ergebnisse einer ML-Schätzung - Zweite Stufe eines genisteten multinomialen Logit-Modells (Unter Verwendung des I-Wertes aus der ersten Stufe; Parametervektor δKeine Light wurde auf 0 normiert) Erklärende Variablen Konstante SEX SINGLE AGE EDUCATION INCOME INCOME2 BLUECOL WHITECOL OFFICAL LEAD AVGVAL SUMVAL INCL.VALUE (I-Wert) Log Likelihood: - 3144,0 δLight t-Wert -3,1199 -7,777 0,9818 10,347 0,1932 1,559 -0,013 -2,749 0,1424 9,18 -0,007 -0,042 0,0145 -0,55 -0,3307 -1,559 -0,3088 -1,867 -1,2913 -5,653 0,5782 3,296 0,0197 3,007 -0,0097 -5,476 -0,7462 -2,529 57 Mikroökonometrie I.5. Prof. Dr. R. Hujer Logit- und Probit-Modell für geordnete Kategorien Wir nehmen nun an, dass wir mehrere geordnete Kategorien haben. Ein Beispiel für eine solche Datenlage könnte folgende Klassifizierung von Bildungsniveaus sein: 1 = weniger als mittlere Reife, 2 = Mittlere Reife, 3 = Abitur, 4 = Studienabschluss Wir unterstellen eine latente Variable Y ∗ und eine polytome beobachtbare Indikator-Variable Y , zwischen denen der folgende Zusammenhang besteht: ∗ 1 falls −∞ < Y ≤ γ1 2 falls γ < Y ∗ ≤ γ 1 2 Y = . .. r falls γ <Y∗ <∞ r−1 58 Mikroökonometrie Prof. Dr. R. Hujer Wenn Y ∗ einer Logistischen Verteilung folgt und wir die gleichen Annahmen wir bisher treffen, erhalten wir als Wahrscheinlichkeit für die Kategorie j: P (Y = j|x) = P (Y ∗ ≤ γj ) − P (Y ∗ ≤ γj−1) = P (u ≤ γj − x0β) − P (u ≤ γj−1 − x0β). Daraus ergibt sich das Logit-Modell für geordnete Kategorien. P (Y = j|x) = 1 1+exp(−(γj −x0 β)) 1 1 1+exp(−(γj −x0 β)) − 1+exp(−(γj−1 −x0 β)) 1 − 1+exp(−(γ1j−1−x0β)) für j = 1 für j = 2, . . . , r − 1 für j = r 59 Mikroökonometrie Prof. Dr. R. Hujer Drei Dinge seien angemerkt: a) Die Anzahl der zu schätzenden Parameter hat sich gegenüber dem multinomialen Logit-Modell verringert. Dabei müssen die Schwellenwerte γj die Restriktionen γ1 < γ2 < . . . < γr − 1 erfüllen. b) Die Auswahlwahrscheinlichkeiten Pi ergeben sich als Differenzen von Werten einer Verteilungsfunktion Fi, d.h. Pi = Fi − Fi−1, während im Fall ungeordneter Kategorien die Wahrscheinlichkeit durch einen Ausdruck bestimmt wird. c) Im Fall r = 2 sind die beiden Logit-Modelle (für geordnete und ungeordnete Kategorien) identisch. Die Loglikelihoodfunktion ist gegeben durch: LLOrdered Logit = r N X X Yij log Pij i=1 j=1 60 Mikroökonometrie Prof. Dr. R. Hujer Wenn wir nun annehmen, dass Y ∗ normalverteilt mit der Varianz σ 2 ist, erhalten wir das Probit-Modell für geordnete Kategorien (wir normieren α = 0 und σ = 1). Als Wahrscheinlichkeit für die Kategorie j erhalten wir: P (Y = j|x) = Φ(γj − x0β) − P (γj−1 − x0β) Die Loglikelihoodfunktion entspricht der im Logit-Modell für geordnete Kategorien. I.5.1. Anwendungsbeispiel: Verordnungsentscheidung Im Rahmen einer Primärerhebung bei rund 200 Ärzten wurden neben 38 Fragen zur Zufriedenheit mit bestimmten Firmenmerkmalen, auch das Weiterempfehlungs- und Verschreibungsverhalten sowie weitere Strukturvariablen (persönliche Merkmale, Anzahl der Verschreibungen pro Quartal, Angaben zur Region, etc.) abgefragt. Zur Modellierung der Verordnungsentscheidung Vi wurde ein Probit-Modell für geordnete Kategorien verwendet. Definiert man die Indikatorvariable Vi für die vier beobachtbaren Verordnungskategorien, so läßt sich der Zusammenhang zwischen der latenten Verordnungsneigung Vi∗ und der beobachteten Entscheidung durch das nachfolgende Schwellenwertscema beschrieben: 61 Mikroökonometrie Prof. Dr. R. Hujer 0 Verordnungen pro Woche: 1 - 5 Verordnungen pro Woche: 6 - 9 Verordnungen pro Woche: 10 und mehr Verordnungen pro Woche: Vi Vi Vi Vi =1 =2 =3 =4 wenn wenn wenn wenn −∞ < Vi∗ < γ1 γ1 < Vi∗ < γ2 γ2 < Vi∗ < γ3 γ3 < Vi∗ < ∞, Tabelle 7: Ergebnisse einer ML-Schätzung - Ordered“ Probit-Modell - Verordnungsentscheidung (der Schwel” lenwert γ1 wird auf 0 normiert) Erklärende Variablen Parameter t-Wert Konstante 0.9984 15.205 Soft Skills 0.2723 25.178 Medizinische Erfahrungen 0.5962 57.893 Firmenimage 0.2918 29.598 Kundenbetreuung 0.2280 29.048 Produktgestaltung 0.2175 20.450 Hard Skills 0.1062 12.713 Weitere erklärende Variablen ............ ............ Threshold 2 17.863 108.625 Threshold 3 25.736 143.189 R2 (McKelvey/Zavoina) 0.3510 R2 (Aldrich/Nelson) 0.1495 R2 (McFadden) 0.1860 62 Mikroökonometrie II. II.1. Prof. Dr. R. Hujer Zensierte oder gestutzte abhängige Variable Zensierung und Stutzung im Regressionskontext Zensiertes Modell basiert auf einer Stichprobe, in der für einige Auswahleinheiten die abhängige Variable nicht zu beobachten ist. Für die unabhängigen Variablen liegen allerdings in jedem Fall Beobachtungen vor. Bsp.: In einer Haushaltsstichprobe wird das monatliche Einkommen von Haushalten nicht erfaßt, sofern es 10000,- DM übersteigt.(Diese Haushalte erhalten als Haushaltseinkommen 10000,- DM zugewiesen). Weitere Haushaltsdaten werden für alle Haushalte erfaßt. Im Falle der Stutzung schließt eine Auswahlregel einige Elemente der Grundgesamtheit a priori aus: Für diese Fälle sind weder abhängigen noch unabhängig Variable beobachtbar. Bsp: Es wird eine Stichprobe von Haushalten gezogen, deren Monatseinkommen 10.000,- DM nicht übersteigt. 63 Mikroökonometrie II.2. Prof. Dr. R. Hujer Notwendige Kenntnisse über gestutzte Verteilungen Abbildung 1: Dichtefunktion einer von unten gestutzten Zufallsvariable Die Ökonometrie greift bei der Modellformulierung Ergebnisse zu gestutzten Verteilungen auf. Abb. 1 zeigt die Dichtefunktion einer Zufallsvariable X, die an einer Stelle c abgeschnitten (gestutzt) ist. Es werden nur die Werte von X > c beobachtet (Stutzung von unten). Die ungestutzte Dichte der Zufallsvariablen x hat den Verlauf der gestrichelten Linie in Abb. 1. 64 Mikroökonometrie Prof. Dr. R. Hujer Grundsätzlich sind Stutzung von unten, von oben und beidseitige Stutzungen möglich. Im weiteren jedoch Beschränkung auf den Fall der Stutzung einer Standardnormalverteilung von unten. Annahmen: Zufallsvariable X ist standardnormalverteilt x ∼ N (0, 1); c ist die Stelle, an der die Verteilung von unten gestutzt ist; die gestutzte Zufallsvariable ist folglich y = x|x > c Definitionen: fy (Fy ) : Dichte (Verteilungsfunktion) der gestutzten Zufallsvariable fx(Fx) : Dichte (Verteilungsfunktion) der ungestutzten Zufallsvariable 65 Mikroökonometrie Prof. Dr. R. Hujer Verteilungsfunktion der gestutzten Zufallsvariable: Fy (y) = Fx|x>c = P (x ≤ y|x > c) = P (x≤y∧x>c) P (x>c) 0 = für y > c sonst Fx (y)−Fx (c) 1−Fx (c) Dichte der gestutzten Zufallsvariable: fx (y) 1−Fx (c) d fy = Fy (y) = dy 0 für y > c sonst 66 Mikroökonometrie Prof. Dr. R. Hujer Erwartungswert der gestutzten Verteilung (Standardnormalverteilung): E(Y ) = R +∞ = R +∞ = 1 1−Φ(c) = −∞ c yfy (y)dy = R +∞ c fx (y) y 1−F (y)dy = x (c) yfy (y)dy R +∞ c φ(y) y 1−Φ(c) (y)dy · R +∞ 1 1−Φ(c) · h = 1 1−Φ(c) · [−φ(∞) − (−φ(c))] = φ(c) 1−Φ(c) c y· − √12π √1 2π exp exp − 21 y 2 − 21 y 2 dy i+∞ c 67 Mikroökonometrie Prof. Dr. R. Hujer Varianz der gestutzten Verteilung (Standardnormalverteilung): V ar(Y ) = E(Y 2) − [E(Y )]2 2 Z +∞ 2 c c partielle Integration: c 0 uv dy = y y fy (y)dy = E(Y ) = R∞ +∞ Z [uv]∞ c − 2 R∞ c E(Y ) = y · fx(y) (y)dy 1 − Fx(c) fx (y) u0vdy ⇒ u = y; v = − 1−F x (c) h y· i∞ −fx (y) 1−Fx (c) c − R∞ c −fx (y) 1−Fx (c) dy = c · E(Y ) + 1 φ(c) φ(c) V ar(Y ) = 1 − E(Y ) · [E(Y ) − c] = 1 − · −c 1 − Φ(c) 1 − Φ(c) 68 Mikroökonometrie II.3. Das zensierte Regressionsmodell II.3.1. Modellformulierung Prof. Dr. R. Hujer Erste Berücksichtigung von Zensierung und Stutzung im Regressionskontext von James Tobin (1958). Analyse von Konsumausgaben für dauerhafte Konsumgüter, erklärende Variable Haushaltseinkommen. In der Stichprobe: Haushalte mit Nullkonsum und Haushalte mit positivem Konsum. Ein Wert von Null für die abhängige Variable ist hier nicht als metrischer Wert aufzufassen, sondern als qualitative Information kein Konsum“. ” 69 Mikroökonometrie Prof. Dr. R. Hujer Abbildung 2: Einkommen und Konsumausgaben In Tobins Bsp: Unterschreiten die gewünschten Konsumausgaben den Preis des billigsten Konsumgutes (in Abb. 2 c“), findet kein Kauf statt. Gewünschte Konsumausgaben sind nicht beobachtbar (in Abb.2 als Sterne). ” Qualitative Variable kein Kauf“ wird auf den Wert Null kodiert. Für Haushalte mit positivem Konsum sind ” beobachtete Konsumausgaben gleich gewünschten Konsumausgaben (von Rationierung wird abgesehen). 70 Mikroökonometrie Prof. Dr. R. Hujer Allgemein: Abhängige Variable in einem Regressionsmodell ist nur bis zu einer (evtl. individuell variierenden) Grenze zu beobachten. Unterhalb der Grenze ist die abhängige Variable unbeobachtbar (latent). Dort ist nur die qualitative Ausprägung beobachtbar. Ökonometrische Modellformulierung (Tobit-Modell): Wiederum Verwendung einer latenten Variablen: Ansatz im Falle eines individuellen Schwellenwertes ci: Yi∗ = x0iβ + ui Yi = Yi∗ wenn Yi∗ > ci 0 wenn Y ∗ ≤ ci i mit: Yi∗: latente abhängige Variable (in Tobins Bsp. gewünschte Konsumausgaben) Yi: Beobachtungen der abhängigen Variablen (hier beobachtete Konsumausgaben) ui ist i.i.nd. mit E(ui) = 0 und V ar(ui) = σ 2 71 Mikroökonometrie Prof. Dr. R. Hujer Standard-Tobit-Modell: Annahme eines für alle Stichprobenelemente gleichen, konstanten Schwellenwertes von Null: ci = c = 0. Yi = Yi∗ = x0iβ + ui wenn Yi∗ > 0 Yi = 0 wenn Yi∗ ≤ 0 Die Gleichungen zeigen den Mischcharakter des Modells“. Erste Zeile entspricht üblichem Regressionsmodell, ” zweite Zeile Probit-Ansatz. 72 Mikroökonometrie II.3.2. Prof. Dr. R. Hujer Probleme der OLS-Schätzung des zensierten Regressionsmodells Abbildung 3: Illustration der Verzerrung durch OLS-Methode im zensierten Regressionsmodell 73 Mikroökonometrie Prof. Dr. R. Hujer Abbildung 3 zeigt die Verzerrung durch OLS-Schätzung für die Parameter im zensierten Regressionsmodell a) für den Fall der ausschließlichen Verwendung unzensierter Konsumausgaben (Methode A); b) für den Fall der unterschiedslosen Behandlung von Nullkonsum und positivem Konsum in der OLSSchätzung (Methode B); c) für den Fall der Festsetzung des Nullkonsums auf c und anschließender OLS-Schätzung (Methode C) 74 Mikroökonometrie Prof. Dr. R. Hujer Analytische Herleitung der Verzerrung in Methode A im Standard-Tobit-Modell (c = 0): Schätzung von Yi = x0iβ + ui für die unzensierten Beobachtungen ⇒ nur Fälle mit Yi∗ > 0 werden für die Schätzung benutzt. E(Yi|Yi∗ > 0) = E(x0iβ|Yi∗ > 0) + E(ui|Yi∗ > 0) E(Yi|ui > −x0iβ) = x0iβ + E(ui|ui > −x0iβ) 0 β u u −x i i i E(ui|ui > −x0iβ) = σE > σ σ σ Aus den Ergebnissen für die Momente der gestutzten Standardnormalverteilung ergibt sich E(ui|ui > −x0iβ) = σ φ(−zi) φ(zi) =σ = σλ(zi) 1 − Φ(−zi) Φ(zi) mit zi = x0iα, wobei α = βσ . ⇒ E(Yi|Yi∗ > 0) = x0iβ + σλ(zi) 6= x0iβ ⇒ Methode induziert einen Omitted-Variable-Bias. Die Inverse von λ(zi) ist bekannt als Mill’s Ratio. 75 Mikroökonometrie Prof. Dr. R. Hujer Analytische Herleitung der Verzerrung in Methode B: Der unbedingte Erwartungswert für die beobachtbare Zufallsvariable Yi ist E(Yi) = E(Yi|Yi∗ > 0) · P (Yi∗ > 0) + E(Yi|Yi∗ ≤ 0) · P (Yi∗ ≤ 0) = [x0iβ + σλ(zi)] · Φ(zi) + 0 · [1 − Φ(zi)] = x0iβ · Φ(zi) + σφ(zi), so dass auch hier gilt: E(Yi) 6= x0iβ. 76 Mikroökonometrie II.3.3. Prof. Dr. R. Hujer Zweistufige Schätzung der Parameter (Heckman-Korrektur) Vorschlag von Heckman (1976) für die Schätzung des zensierten Regressionsmodells Yi∗ = x0iβ + ui Yi = Yi∗ wenn Yi∗ > 0 Yi = 0 wenn Yi∗ ≤ 0 77 Mikroökonometrie Prof. Dr. R. Hujer Ansatzpunkt: Omitted Variable Bias der OLS-Schätzung bei Methode A. Wie dort Formulierung eines Regressionsansatzes für die unzensierten Beobachtungen. Dazu: Erweiterung des Schätzansatzes von Methode A um E(Yi|Yi∗ > 0): Yi = E(Yi|Yi∗ > 0) + µi Yi = x0iβ + σλ(zi) + µi mit µi = Yi − E(Yi|Yi∗ > 0) zi = x0iα α= β σ (s.o.). λ wird als erklärende Variable in den Regressionsansatz aufgenommen ⇒ Beseitigung des Omitted Variable Bias. Für den Störterm µi kann gezeigt werden, dass: E(µi|Yi∗ > 0) = 0 und V ar(µi|Yi∗ > 0) = σ 2 − σ 2x0iα · λ(x0iα) − σ 2λ(x0iα)2. ⇒ Heteroskedastisches nichtlineares Regressionsmodell. 78 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Herleitung der Varianz von µ∗i ∗ 0 0 µi Yi − x i β xi β V ar(µi|Yi∗ > 0) = σ 2V ar > − σ σ σ 0 x β = σ 2V ar µ∗i u∗i > − i σ Die Varianz einer gestutzten Zufallsvariablen Y ist gegeben durch: V ar(Y ) = 1 − E(Y ) · [E(Y ) − c], wobei E(Y ) = φ(c) = λ. 1 − Φ(c) 79 Mikroökonometrie Prof. Dr. R. Hujer In unserem Fall gilt für E(µ∗i ) φ = x0 β − σi 1−Φ − x0i β = λ(x0iα) σ Es gilt dann V ar(µ∗i |Yi∗ > 0) = σ 2 1 − E(µ∗i ) E(µ∗i ) − x0iβ σ und wir erhalten schließlich: V ar(µ∗i |Yi∗ > 0) = σ 2 1− x0iα · λ(x0iα) − λ(x0iα)2 = σ 2 − σ 2x0iα · λ(x0iα) − σ 2λ(x0iα)2. 80 Mikroökonometrie Prof. Dr. R. Hujer Das Modell wird in zwei Stufen geschätzt: Stufe 1: Konsistente Schätzung der Parameter α mit Probit-ML unter ausschließlicher Verwendung der qualitativen Informationen über die abhängige Variable. Positive Beobachtungen für die abhängige Variable werden auf Wert Eins umkodiert. Stufe 2: λ(x0iα) wird durch λ(x0iα̂) ersetzt. OLS-Schätzung des Parametervektors γ̂ = (β 0, σ 0) unter ausschließlicher Berücksichtung der unzensierten Beobachtungen aus der Regressionsgleichung: Yi = x0iβ + σλ(x0iα̂) + µi Obwohl für zweite Stufe nur unzensierte Beobachtungen verwendet werden, benötigt Stufe 1 auch Informationen über zensierte Fälle ⇒ Notwendigkeit eines zensierten Samples. Bei gestutzter Stichprobe ist das Verfahren nicht anwendbar. 81 Mikroökonometrie II.3.4. Prof. Dr. R. Hujer Maximum-Likelihood-Schätzung des zensierten Regressionsmodells Grundmodell (wie oben): Y ∗ = x0 β + u falls Y ∗ > 0 i i i i Yi = 0 falls Yi∗ ≤ 0 ui ist i.i.n.d. mit E(ui) = 0 und V ar(ui) = σ 2. • Für die Beobachtungen i mit Yi = 0 ist lediglich die Wahrscheinlichkeit bekannt (analog zum Probit- oder Logit-Modell) P (Yi∗ < 0) = P (ui < −x0iβ) ⇒ Abbildung 0 der qualitativen Entscheidung; Wert des individuellen Likelihood-Beitrages wie im Probit: xβ 1 − Φ σi • Beobachtungen mit Yi > 0 werden durch die Dichte f (Yi) = f (Yi∗|Yi∗ > 0) · P (Yi∗ > 0) beschrieben. 82 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Herleitung der Dichte des unzensierten Teils Nach der Kettenregel gilt: Wenn die Funktion z = f (x) mit x = g(y) nach y abgeleitet werden soll, dann ist dz dz dx = · = f 0(x) · g 0(y). dy dx dy Die Verteilungsfunktion im unzensierten Teil des Modells ist Yi − x0iβ F (Yi) = Φ σ Yi x0iβ =Φ − σ σ . Dann ist die Dichtefunktion: ∂F (Yi) Yi x0iβ 1 1 Yi − x i β f (Yi) = =φ − · −0 = φ ∂Yi σ σ σ σ σ Dies ist der Likelihoodbeitrag der unzensierten Beobachtung Yi im zensierten Regressionsmodell. 83 Mikroökonometrie Prof. Dr. R. Hujer Die Likelihood-Funktion des Modells ist LTobit 0 Y 0 Y xi β Y − x β i i = 1−Φ · σ −1φ σ σ 0 1 ⇒ Likelihood-Funktion ist eine Mischung“ aus Likelihoods von Probit und Standard-Regressionsmodell. Varianz ” 2 σ ist im Tobit Modell allerdings identifizierbar. Eine tautologische Umformung macht die Beziehung von Probitund Tobit-Likelihood deutlich: LTobit 0 0 Y 0 Y 0 Y xi β Y − x β xi β xi β i i · Φ · σ −1φ · Φ−1 = 1−Φ σ σ σ σ 1 1 0 Die zwei ersten Produkte bilden die Probit-Likelihood. Wie im Probit/Logit Modell sind die 1. Ableitungen der Log-Likelihood nichtlinear: ⇒ Auffinden der Nullstellen mit iterativen Methoden. 84 Mikroökonometrie II.4. Prof. Dr. R. Hujer Prüfmaße für zensierte Regressionsmodelle a) Abbildung der Anpassungsgüte für latente Variable Yi∗: Analogie zum Probit: McKelvey-Zavoinas R2: 2 RM Z P ∗ P ∗ (ŷi − y ∗)2 (ŷi − y ∗)2 P =P ∗ =P ∗ (yi − y ∗)2 (ŷi − y ∗)2 + ε̂2i σ 2 wird durch konsistenten Schätzer ersetzt. 2 ): b) Abbildung der Anpassungsgüte für unzensierte Beobachtungen: R2 von Dhrymes (RDH 2 RDH x0iβ̂ x0i β̂ σ̂ P − 2 (ŷ ŷ) =P 1 i 2 1 (yi − y) mit ŷi = + σ̂λ . Parameterschätzwerte aus der Maximum-Likelihood-Schätzung. Fußindex 1 am Summationszeichen zeigt an, dass nur unzensierte Fälle betrachtet werden. 2 Simulationsstudien zeigen eine Überlegenheit des RM Z. 85 Mikroökonometrie II.5. Prof. Dr. R. Hujer Parameterinterpretation im Tobit-Modell: Auch im Tobit-Modell können die Parameterschätzwerte nicht als marginale Effekte interpretiert werden. Es gilt: ∂E(Yi) 6= βk ∂xik E(Yi) = E(Yi|Yi∗ > 0)Φ(zi) (siehe oben) φ(zi ) mit E(Yi|Yi∗ > 0) = x0iβ + σ Φ(z . i) ∂Φ(zi) ∂E(Yi) ∂E(Yi|Yi∗ > 0) = · Φ(zi) + E(Yi|Yi∗ > 0) · ∂xik ∂xik ∂xik mit ∂E(Yi |Yi∗ >0) ∂xik h = βk · 1 − φ(zi ) zi Φ(z i) − φ2 (zi ) Φ2 (zi ) i . 86 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Ableitung von ∂E(Yi |Yi∗ >0) : ∂xik ∂φ(zi ) ∂E(Yi|Yi∗ > 0) ∂x0iβ ∂zi ∂Φ(zi ) = +σ· · ∂xik ∂xik ∂xik ∂xik Φ(zi) · φ0(zi) − Φ0(zi) · φ(zi) βk · = βk + σ · Φ2(zi) σ φ(zi)zi φ2(zi) βk − 2 = βk + σ · − · Φ(zi) Φ (zi) σ φ(zi) φ2(zi) = βk · 1 − zi − Φ(zi) Φ2(zi) 87 Mikroökonometrie Prof. Dr. R. Hujer Die Wirkung einer Änderung der exogenen Variablen ist also zerlegbar in 2 Komponenten: 1. ∂E(Yi |Yi∗ >0) ∂xik · Φ(zi) (Erwartete) Änderung von Yi gegeben Yi∗ > 0, gewichtet mit der Wahrscheinlichkeit, dass Yi∗ > 0 ist. i) 2. E(Yi|Yi∗ > 0) · ∂Φ(z ∂xik Änderung der Wahrscheinlichkeit, dass Yi∗ > 0 ist, gewichtet mit dem Erwartungswert von Yi, gegeben Yi∗ > 0. II.6. Empirische Anwendung zensierter Regressionsmodelle ML versus Heckman-Korrektur: Durch Probit ML-Schätzung der ersten Stufe und aufwendige Berechnung der VK-Matrix, ist der Rechenaufwand für die Heckman Korrektur nicht geringer als bei der ML-Schätzung. Heckman-Korrektur bringt Verkürzungen der Rechenzeit bei komplexeren, multivariaten Tobit-Modellen. 88 Mikroökonometrie Prof. Dr. R. Hujer Tabelle 8: Bedeutung von Eigenschaften eines Arthrosepräparats für die Verschreibungsentscheidung des Arztes Standard-Tobit-Modell - (Verschreibung wieviel/nein) Erklärende Variablen (Dummy-Variablen) Konstante Wirksamkeit wie Vergleichssubstanz Wirksamkeit weniger stark Knorpelschutz stark ausgeprägt Knorpelschutz nicht vorhanden Nebenwirkungen weniger Nebenwirkungen vergleichbar Nebenwirkungen mehr Tagestherapiekosten DM 1,83 Tagestherapiekosten DM 4,47 Tagestherapiekosten DM 5,88 Tagestherapiekosten DM 8,00 Hersteller Stellapharma Hersteller Lunapharma Hersteller Andere λ σ Heckman-Korrektur Maximum Likelihood Koeffizient t-Wert Koeffizient t-Wert -41.610 19.435 Referenz 29.480 Referenz 8.187 Referenz -13.073 28.141 10.080 Referenz -5.039 -0.039 -3.297 Referenz 27.223 -1.326 2.124 2.384 1.923 -1.296 2.956 2.221 -1.171 -0.015 -1.157 -42.511 20.169 Referenz 29.998 Referenz 89.765 Referenz -17.057 26.912 10.051 Referenz -60.222 0.67656 -29.294 Referenz -13.165 10.759 28.699 36.013 15.950 4.795 -6.644 11.946 4.149 -2.323 0.326 -1.200 1.609 89 Mikroökonometrie II.7. Prof. Dr. R. Hujer Erweiterungen des Grundmodells • Obere und untere Zensierungsschranke sog. Friktionsmodelle. Zur Schätzung siehe Ronning (1991), S. 142 ff. • Multivariate Tobit Modelle Mehr als eine zensierte abhängige Variable. Zur Schätzung siehe Amemiya (1985), Seite 383 ff. • Simultane Tobit Modelle Mehrgleichungsmodelle für zensierte abhängige Variable. Siehe Pohlmeier (1989) 90 Mikroökonometrie Prof. Dr. R. Hujer Teil B Lineare Panelmodelle I. Was sind Paneldaten? Bislang implizit Betrachtung von Zeitreihen- bzw. von Querschnittsdaten: • Zeitreihendaten: Daten zu den Variablen liegen über die Zeit t vor: yt = x0tβ + ut; z.B.: vierteljährliche oder jährliche Daten aus der Volkswirtschaftlichen Gesamtrechnung • Querschnittsdaten: Daten zu den Variablen liegen für verschiedene Beobachtungseinheiten i vor: yi = x0iβ + ui; z.B. Daten aus dem Mikrozensus für 1995 • Paneldaten: für bestimmte Untersuchungseinheiten i (z.B. Individuen, Haushalte, Unternehmen, Länder) liegen für dieselben Merkmale (z.B. Alter, Einkommen, Umsatzzahlen, Steueraufkommen) Beobachtungen in mehreren aufeinanderfolgenden Zeitpunkten t vor: yit = x0itβ + uit; 91 Mikroökonometrie Prof. Dr. R. Hujer Bsp.: Sozioökonomisches Panel (SOEP), IAB-Betriebspanel, Konsumenten- bzw. Haushaltspanel in der Konsumforschung (Nielsen) Von Poolen oder von gepoolten Daten wird gesprochen, wenn zwar Informationen für Individuen für mehrere Zeitpunkte vorliegen, es sich aber entweder nicht immer um die gleichen Individuen handelt (sog. PseudoPanels) oder z.B. bei der Analyse von Paneldaten unberücksichtigt bleibt, ob Informationen von verschiedenen Beobachtungeinheiten oder von verschiedenen Zeitpunkten stammen 92 Mikroökonometrie Prof. Dr. R. Hujer Vorteile von Paneldaten: • erlauben die Untersuchung dynamischer Entwicklungen • Kontrolle für individuelle Heterogenität • Daten sind informativer, haben größere Variabilität, weisen geringere Multikollinearität auf • In einem Querschnittsmodell sind bestimmte Effekte überhaupt nicht meßbar oder identifizierbar: Bsp.: In einem Querschnittsdatensatz sind 10% der Frauen arbeitslos; zwei extreme Möglichkeiten: a) es sind stets die gleichen Frauen arbeitslos (keine Dynamik); b) jede Frau hat eine 10%ige Wahrscheinlichkeit, in einem Jahr arbeitslos zu sein (hohe Dynamik) → Paneldaten erlauben Identifikation 93 Mikroökonometrie Prof. Dr. R. Hujer Nachteile von Paneldaten: • Besondere Design- und Erhebungsprobleme (z.B. Repräsentativität, Mortalität): Die Panelmortalität/-attrition führt dazu, daß nicht für jede Beobachtungseinheit für alle Zeitpunkte Beobachtungen vorliegen; je nachdem, ob nur solche Beobachtungseinheiten mit Beobachtungen für alle Zeitpunkte in die Analyse einbezogen werden oder alle Beobachtungseinheiten, unterscheidet man balanced und unbalanced panel-Modelle • Selektionsprobleme (u.a. durch Selbstselektion, Mortalität) • Meßfehler (z.B. Erinnerungsfehler, Interviewereffekte, prestige bias) • i.d. Regel kurze Dimension im Längsschnitt 94 Mikroökonometrie Prof. Dr. R. Hujer Sozioökonomisches Panel (SOEP) → Konzept und Erhebung bis 1991: Sonderforschungsbereich 3, Mikroanalytische Grundlagen der Gesell” schaftspolitik“ der Universitäten Frankfurt am Main und Mannheim → Mikrodatensatz, seit 1984 jährliche Befragung von 5.000 Haushalten, 12.000 Personen → Drei Teilstichproben: a.) Deutsche Wohnbevölkerung (alte Bundesrepublik Deutschland) und sonstige Ausländer b.) Türken, Jugoslawen, Griechen, Spanier, Italiener c.) seit 1990 deutsche Wohnbevölkerung (alte DDR), ca. 2.100 Haushalte, 4.400 Personen → Analysemöglichkeiten im Hinblick auf Veränderungen der sozialen/ ökonomischen Bedingungen in Deutschland: Bspw. Arbeitsmarktentwicklungen, innerdeutsche Vergleiche, Problemgruppen, Ausländer, Zuwanderer → Themenbereiche: Haushaltszusammensetzung, Erwerbs- und Familienbiographie, Erwerbsbeteiligung und berufliche Mobilität, Einkommen und Transferzahlungen, Wohnsituation, Gesundheit, Lebenszufriedenheit, soziale Sicherung, Weiterbildung und Qualifikation, Zeitverwendung, Familie und soziale Dienste 95 Mikroökonometrie Prof. Dr. R. Hujer IAB-Betriebspanel → Mikrodatensatz seit 1993 jährliche Datenerhebung bei ca. 4.300 Betrieben (bis 1995 nur im Gebiet der alten Bundesrepublik Deutschland; ab 1996 für Gesamtdeutschland) → Analysemöglichkeiten: Mikroökonomische Determinanten von betrieblicher Beschäftigungs- und Personalentwicklung (Arbeitsnachfrage), Verknüpfung mit Beschäftigtenstatistik (Arbeitsangebot) → Themenbereiche: Angaben zum Betrieb, Personalwirtschaft, Geschäftspolitik und betriebliche Planung, betriebliche Bestimmungsgrößen der Beschäftigung, technische Bestimmungsgrößen, Fort- und Weiterbildung, Löhne und Gehälter, Arbeits- und Betriebszeiten, öffentliche Leistungen an Betriebe Beschäftigtenstatistik → 75 % aller Erwerbstätigen werden erfasst → Grundlage: Meldeverfahren zur Sozialversicherung → nicht enthalten: Beamte, Selbständige, mithelfende Familienangehörige 96 Mikroökonometrie Prof. Dr. R. Hujer IAB-Beschäftigtenstichprobe → Mikrodatensatz, bestehend aus 1%-Stichprobe (ca. 430.000), ergänzt um Leistungsempfangsdaten und Betriebsinformationen → Analysemöglichkeiten: erwerbsbiographische Verläufe können abgebildet werden Einkommens- und Verbrauchsstichprobe (EVS) (unverbundene Querschnitte) → wird in mehrjährigen Abständen durchgeführt: ca. 0,25 % aller Haushalte werden einbezogen → Aussagekraft wird durch Quotenverfahren beeinträchtigt → Gegenstand der Erhebung: Einkommen, Veränderung des Einkommens, Angaben über Vermögen → Selektionsverzerrung durch freiwillige Mitarbeit der Haushalte → Längsschnittsaussagen auf Basis von Quotenstichproben problematisch; prinzipiell sind nur Querschnittsaussagen möglich 97 Mikroökonometrie Prof. Dr. R. Hujer Linked IAB Panel (LIAB) → Linked Employer-Employee-Datensatz aus Kombination der Informationen des IAB-Betriebpanels und der Beschäftigtenstatistik (Historikdatei) → Grundlage sind alle Betriebe des IAB-Betriebspanels, die an mindestens einer Welle zwischen 1993 und 1998 teilgenommen haben (ca. 23.000). Dazu wurden die Beschäftigtendaten für die sozialversicherungspflichtigen Personen dieser Betriebe aus den Jahren 1990 bis 1997 hinzugefügt (ca. 13,5 Mio. Personen). → Das LIAB wird sowohl um die aktuellen Wellen sowie die Beschäftigtenhistorik der Jahre 1975 bis 1989 ergänzt → Zusammenführung der relevanten Merkmale über die Betriebsnummer, dadurch Erfassung von Angaben über Lohnhöhe und Beschäftigtenanteilen für verschiedene Qualifikationsgruppen auf Betriebsebene → Ziel: Wirkungen interessierender Variablen können sowohl von Arbeitsangebots- als auch -nachfrageseite behandelt werden. 98 Mikroökonometrie II. II.1. Prof. Dr. R. Hujer Einfache lineare Panelmodelle Allgemeines lineares Grundmodell für Paneldaten Ausgangspunkt ist das allgemeine Modell: yit = αit + K X x0kitβkit + vit, i = 1, . . . , N, t = 1, . . . , T k=1 mit den Indizes i → Individuen, Haushalte, Unternehmen, Länder, etc. (Querschnittsdimension) t → Zeit (Längsschnittsdimension) ⇒ Parameter können prinzipiell über die Zeit und über die Individuen variieren; Berücksichtigung unbeobachtbarer zeitlicher und individueller Heterogenität; andernfalls: falsche bzw. inkonsistente Parameterschätzwerte (Abb. 1) ⇒ jedoch Identifikationsproblem aufgrund der Zahl der zu schätzenden Parameter 99 Mikroökonometrie Prof. Dr. R. Hujer Abbildung 1: Mögliche Verzerrungen bei Vernachlässigung individueller Heterogenität Ann.: zeitkonstante Parameter und k = 1(αi = αit, β1i = β1it ∀ t) : 100 Mikroökonometrie Prof. Dr. R. Hujer Am gebräuchlichsten sind deshalb Modelle two-way error component regression model lautet: mit einheitlichen Steigungsparametern. yit = α + x0itβ + uit i = 1, . . . , N, t = 1, . . . , T Das sog. (1) mit α : skalarer, individuen- und zeitinvarianter Achsenabschnittsparameter β : (K × 1)-Vektor mit individuen- und zeitinvarianten Steigungsparametern xit : (K × 1)-Vektor mit individuen- und zeitspezifischen erklärenden Variablen Für die Störgröße uit wird folgendes Modell postuliert (two way error component): uit = µi + λt + vit (2) mit µi : skalarer, unbeobachtbarer individuenspezifischer und zeitinvarianter Effekt λt : skalarer, unbeobachtbarer individueninvarianter und zeitspezifischer Effekt vit : Störterm i.i.d. mit E(vit) = 0 und Var(vit) = σv2 101 Mikroökonometrie Prof. Dr. R. Hujer Aus Vereinfachungsgründen wird im folgenden nur ein one way error component model betrachtet, d.h. λt = 0. Hinsichtlich der Behandlung von µi bestehen zwei unterschiedliche Ansätze: 1. µi sind konstante, zu schätzende Parameter (fixed effects; d.2) 2. µi wird aufgefaßt als eine Zufallsvariable (random effects; d.3) 102 Mikroökonometrie II.2. Prof. Dr. R. Hujer Fixed effects-Modelle Unter der Annahme, dass die µi feste, zu schätzende Parameter sind, lässt sich das one way error component ” model“ schreiben als: yit = αi + x0itβ + vit i = 1, . . . , N, t = 1, . . . , T mit: αi = α + µi (3) Eine Zusammenfassung von (3) über alle i und t in Matrixschreibweise ergibt: y1 y 2 y = .. . yN mit: yi T ×1 jT 0 = .. . 0 yi1 y i2 = .. . yiT 0 j T α1 + .. . 0 , jT T ×1 0 0 α2 + · · · + .. . jT X1 X 2 αN + .. . XN 1 x1i1 x2i1 1 x 1i2 x2i2 = .. , Xi = .. ... . T ×K . 1 x1iT x2iT · · · xKi1 · · · xKi2 ... ... · · · xKiT v1 v 2 β + .. . vN , vi T ×1 = Dα + Xβ + v vi1 v i2 = .. . viT (4) , D = IN ⊗jT NT × N E[vi] = 0, E[vivi0] = σv2IT, E[vivj0 ] = 0 i 6= j, IN = Einheitsmatrix der Dimension N 103 Mikroökonometrie Prof. Dr. R. Hujer Das Modell (4) wird üblicherweise auch als least squares dummy variable (LSDV) Modell bezeichnet. Es handelt sich letztlich um ein klassisches lineares Regressionsmodell (z.B. Gujarati (1995), Kapitel 9). Das Modell kann, sofern N klein ist, entsprechend mit OLS geschätzt werden. Man erhält BLUEs für α und β. Insgesamt sind N + k Parameter zu schätzen. ⇒ Problem: in typischen Panels ist N relativ hoch, so dass Gleichung (4) zu viele individuelle Dummyvariablen enthält und die Zahl der zu schätzenden Parameter sehr groß wird ( incidental parameter problem“) ” 104 Mikroökonometrie Prof. Dr. R. Hujer Begriff: Kovarianzmodell (siehe Hsiao, C. (1986) Analysis of Panel Data“, S.29f.) ” Das Fixed-Effects-Modell der Form yit = αi + x0itβ + vit wird auch als Analyse-der-Kovarianz-Modell oder Kovarianzmodell bezeichet. Das konventionelle Varianzmodell unterstellt für das geschätzte y die Beziehung yit = αi + vit, wobei der erwartete Wert von αi nur von der Klasse i abhängig ist, zu der die Beobachtung gehört. vit ist eine unabhängige Zufallsvariable. Wird y aber noch von weiteren exogenen Variablen beeinflusst, so wird der Wert durch den within-class Ansatz überschätzt. Die Differenzen der Schätzer zwischen den einzelnen Klassen zeigen dann nicht nur die Effekte der Klassen, sondern auch die Effekte der Differenzen der exogenen Variablen in den Klassen. Um dafür zu kontrollieren, wurden die Kovarianzmodelle entwickelt. Der Einbezug von exogenen Kovariaten xit erlaubt die Schätzung der quantitativen Anteile des Modells (Regressionsmodell), die Verwendung des Varianzmodells die Schätzung der qualitativen Anteile, und so die konsistente Schätzung von y. 105 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Das Kronecker Produkt Für zwei Matrizen A und B ergibt sich das Kronecker-Produkt als (siehe Greene (2003), S. 824): a11B a12B · · · a1K B a B a B ··· a B 21 22 2K A ⊗ B = .. ... ... ... . an1B xn2B · · · xnK B " " Beispiel: 3 0 5 2 # " ⊗ 1 4 4 7 # 1 3 4 " = 1 5 4 4 7 # " 0 1 4 4 7 # # " # 4 1 4 2 7 4 7 Das Kronecker-Produkt kann für jedes Matrizenpaar berechnet werden. Falls A eine K × L- und B eine m × nMatrix ist, ist A ⊗ B eine (Km) × (Ln)-Matrix. Weiterhin gilt: [A ⊗ B]−1 = [A−1 ⊗ B−1] 106 Mikroökonometrie Prof. Dr. R. Hujer Exkurs: Nützliche Hinweise für Matrizenberechnungen Vektor j soll eine Spalte von Einsen enthalten. Dann ergibt sich die Summe von Elementen in einem beliebigen Vektor z als: n X zi = z1 + z2 + · · · + zn = j0z i=1 Falls alle Elemente in z gleich der Konstante a sind, gilt z = aj und: n X = j0(aj) = a(j0j) = na. i=1 Für jede Konstante a und Vektor z gilt: n X i=1 azi = a n X zi = aj0z i=1 Falls a = n1 , erhalten wir den arithmetischen Mittelwert: n 1X 1 z= zi = j0z, n i=1 n aus dem folgt: n X zi = j0z = nz. i=1 107 Mikroökonometrie Prof. Dr. R. Hujer Eine nützliche Matrix ist diejenige, die dazu benutzt wird, um Werte als Abweichung von ihrem Mittelwert auszudrücken: z z 1 10 jz = j j z = .. = jj0z n . n z Die Matrix n1 jj0 ist eine n × n-Martrix, wobei jedes Element gleich n1 . Die Werte der Abweichungsform sind dann: z1 − z z −z 2 .. . zn − z 1 0 = [z − jz] = z − jj z n 1 0 1 0 1 0 Da z = Iz, ergibt sich: z − n jj z = Iz − n jj z = I − n jj z = Q0z. 108 Mikroökonometrie Prof. Dr. R. Hujer Eine alternative Vorgehensweise ist die sog. Within-Transformation von Modell (4) durch Vormultiplikation mit einer Transformationsmatrix Q0 0 · · · 0 0 Q0 · · · 0 0 −1 0 Q = INT − D(D D) D = .. .. . . . ... . . 0 0 · · · Q0 , mit Q0 = IT − 1 0 jTj T T mit den folgenden Eigenschaften: 1. Q ist eine symmetrische idempotente Matrix, d.h. Q = Q0 = Q0Q. 2. Die Vormultiplikation eines beliebigen T × 1-Vektors, zi, mit Q0 führt zu Q0zi = zi − zijT, wobei zi das Mittel über die T Beobachtungen für Einheit i ist. 109 Mikroökonometrie Prof. Dr. R. Hujer Wir erhalten durch die Transformation QY = QDα + QXβ + Qv = QXβ + Qv (5) Die Transformation nutzt die Tatsache, dass zur Schätzung von β die individuellen Effekte nicht unbedingt erforderlich sind. Die Transformationsmatrix eliminiert die individuellen Effekte aus der Modellgleichung. Die transformierten Variablen entsprechen den urprünglichen Variablen, ausgedrückt als Abweichung vom individuellen Mittelwert (intrapersonelle Variation; variation within“). Die i-te Gleichung lautet in ausführlicher ” Schreibweise: (yit − yi) = (xit − xi)0β + (vit − vi) 110 Mikroökonometrie Prof. Dr. R. Hujer Die Schätzung von β erfordert nunmehr nur noch die Inversion einer K × K-Matrix. Der OLS-Schätzer von β ist: β̂ = [X0QX]−1X0Qy. (6) Die individuellen Effekte können in einem zweiten Schritt berechnet werden aus α̂ = [D0D]−1D0(y − Xβ̂) Sowohl α̂ als auch β̂ sind BLUE. β̂ ist außerdem konsistent für N → ∞ oder T → ∞. Dagegen ist α̂ nur konsistent für T → ∞, da mit steigendem N auch die Zahl der zu schätzenden individuenspezifischen Effekte zunimmt. 111 Mikroökonometrie Prof. Dr. R. Hujer II.3. Random effects-Modelle (Fehlerkomponentenmodelle) II.3.1. Grundlegende Modellspezifikation In dem Modell yit = α + x0itβ + uit i = 1, . . . , N, t = 1, . . . , T uit = µi + vit wird der individuenspezifische Effekt µi bei Unterstellung von random effects (stochastischen Effekten) als Zufallsvariable aufgefaßt. Es wird weiterhin angenommen, dass: E(µi) = E(v (it) = 0 E(µjvit) = 0( ∀i, t, j E(µiµj) = E(vitvjs) = σµ2 falls i = j 0 falls i 6= j σv2 falls i = j und t = s 0 falls i 6= j oder t = 6 s 112 Mikroökonometrie Prof. Dr. R. Hujer E(µix0it) = E(vitx0it) = 0. Daraus folgt: ( cov(uitujs) = σµ2 + σv2 falls i = j, t = s σµ2 falls i = j, t 6= s Unter erneuter Bildung u0i = (ui1, ui2, . . . , uiT): eines E(uiu0i ) 0 = Ω T ×T = und ρuitujs falls i = j, t = s 1 = σµ2 /(σµ2 + σv2) falls i = j, t 6= s 0 sonst individuenspezifischen σµ2 + σµ2 ... σµ2 σv2 σµ2 Vektors σµ2 σµ2 ··· σµ2 + σv2 · · · ... ... ... σµ2 · · · σµ2 + σv2 mit T Beobachtungen = σv2IT + σµ2 jTj0T. (7) 113 Mikroökonometrie Prof. Dr. R. Hujer In Matrixschreibweise kann das Modell nun geschrieben werden als: yi = X̃iδ + ui, i = 1, . . . , N (8a) y = X̃δ + u mit: X̃ N T × (K + 1) X̃1 X̃ 2 = .. . X˜N (8b) jT X1 j X T 2 = .. ... . jT XN δ (K + 1) × 1 α = β u NT × 1 u1 u 2 = .. . uN 114 Mikroökonometrie II.3.2. Prof. Dr. R. Hujer OLS-Schätzung Auch im random effects-Modell können die individuenspezifischen Effekte durch Vormultiplikation von Modell (8a) bzw. (8b) mit der Transformationsmatrix Q0 bzw. Q eliminiert werden: Q0yi = Q0X̃iδ + Q0ui = Q0jα + Q0Xiβ + Q0jµi + Q0vi = Q0Xiβ + Q0vi Eine Schätzung des Modells mit OLS ist dann analog zu d.2 möglich. Ein Schätzer für α läßt sich ermitteln über α̂ = y − β̂x, y = 1 NT PN PT i=1 t=1 yit , x = 1 NT PN PT i=1 t=1 xit . Der OLS-Schätzer für β ist unverzerrt und konsistent. Allerdings ist er nicht mehr BLUE. Der BLUE im random effects-Modell ist der GLS-Schätzer. Dies liegt daran, dass die Residuen u in (8b) über die Zeit miteinander korreliert sind, da sie alle den individuenspezifischen Effekt enthalten. 115 Mikroökonometrie II.3.3. Prof. Dr. R. Hujer GLS-Schätzung a) Vorbemerkungen: GLS-Schätzung im klassischen linearen Regressionsmodell Zur Wiederholung hier die wichtigsten Ergebnisse der GLS-Schätzung im klassischen linearen Regressionsmodell in Matrixschreibweise (vgl. z.B. Greene (2003), S.191-201,207-212). Ausgangspunkt ist das verallgemeinerte klassische lineare Regressionsmodell y = Xβ + u mit: E(u|X) = 0 und E(uu0|X) = σu2 Ω. Ω ist eine positiv definite Matrix, d.h. x0Ωx > 0 ∀ x 6= 0. Außerdem sei Ω bekannt. Es existiert dann eine Transformationsmatrix T mit Ω−1 = T0T und T0ΩT = I, so dass für das transformierte Modell Ty = TXβ + Tu gilt: E(Tuu0T0) = σu2 I. Der GLS-Schätzer des urprünglichen Modells ist der OLS-Schätzer des transformierten Modells: β̂GLS = (X0T0TX)−1X0T0Ty = (X0Ω−1X)−1X0Ω−1y. 116 Mikroökonometrie Prof. Dr. R. Hujer b) GLS-Schätzung im random effects-Modell Im random effects-Modell (8b) ist aus (7) E(uu0) = Ω = IN ⊗ Ω0 = 0 Ω 0 ··· 0 0 Ω0 · · · 0 ... ... . . . ... 0 0 · · · Ω0 = σv2(IN ⊗ IT) + σµ2 (IN ⊗ JT) (9) mit: JT = T × T-Matrix, in der alle Elemente Eins sind −1 0−1 −1 2 −1 0 2 Zur Anwendung von GLS wird die Matrix Ω = IN ⊗ Ω bzw. Ω = IN ⊗ Ω benötigt. Angesichts der Dimension von Ω ist eine direkte Inversion nicht angeraten. Wansbeek/Kapteyn (1982,1983) schlagen stattdessen eine einfache Umformung von (9) vor: Ω = (Tσµ2 + σv2)(IN ⊗ JT) + σv2(IN ⊗ ET) = σ∗2P + σv2Q mit: JT = JT , T ET = IT − JT, P = INT − Q, σ∗2 = Tσµ2 + σv2. 117 Mikroökonometrie Prof. Dr. R. Hujer Wie bereits im Rahmen des fixed effects-Modell ausgeführt, erhält man durch Vormultiplikation der Matrix Q Abweichungen vom individuenspezifischen Mittelwert. Die Matrix P hingegen bildet diese individuenspezifische Mittelwerte über die Zeit. Es gilt nun: Ω−1 = 1 P σ∗2 −1 + σ12 Q bzw. Ω 2 = v 1 σ∗ P + σ1v Q. −1 Die GLS-Schätzung erhält man nun als Weighted Least Squares durch Vormultiplikation von (8b) mit σv Ω 2 1 und OLS-Schätzung des transformierten Modell. Der transformierte Vektor y∗ = σv Ω− 2 y z.B. hat das typische √ Element yit − (1 − θ)yi, mit θ = σv2/σ∗2, d.h. für θ = 0 fällt die Transformation mit der im LSDV zusammen. Der GLS-Schätzer für β ist: β̂GLS = (X0σv Ω−1σv X)−1X0σv Ω−1σv y = (X0QX + θX0PX)−1(X0Qy + θX0Py) (10) Die in (10) zu invertierende Matrix hat die Dimension K × K. 118 Mikroökonometrie Prof. Dr. R. Hujer c) Beziehung zwischen GLS- und Within- bzw. Between-Schätzer Der OLS-Schätzer (6) wird auch als Within-Schätzer bezeichnet, da er nur auf der intrapersonellen Variation beruht (→ Transformationsmatrix Q): −1 β̂within = [X0QX]−1X0Qy = WXX WXy mit WXX = X 0QX WXy = X 0Qy Alternativ lassen sich folgende Matrizen bilden: BXX = X0(P − JNT)X mit BXy = X 0(P − J N T )y Sie berücksichtigen lediglich die interpersonelle Variation (between variation). Sie sind die Grundlage für einen weiteren, alternativen OLS-Schätzer für β̂ , den sog. Between-Schätzer: β̂between = B−1 XX BXy . 119 Mikroökonometrie Prof. Dr. R. Hujer Der GLS-Schätzer kann auch als gewogenes Mittel aus Within- und Between-Schätzer dargestellt werden: β̂GLS = W1β̂within + W2β̂between. W1 und W2 sind Gewichtungsmatrizen, die wie folgt definiert sind: W1 = [Wxx + θBXX]−1Wxx und W2 = [Wxx + θBXX]−1(θBxx) = IK − W1. (Erinnerung: θ = σv2/σ∗2 = σv2/(T σµ2 + σv2) Folgende Extremfälle können nun unterschieden werden (Baltagi (2001), S.18): a) θ = 1, d.h. σµ2 = 0: Fall des klassischen Regressionsmodells, β̂GLS = β̂OLS b) θ = 0 : βGLS = βwithin; es gibt zwei Möglichkeiten, warum dieser Fall eintreten kann: 1. σv2 = 0 : die ganze Variation zwischen den Beobachtungen beruht dann auf den unterschiedlichen µi, die, da konstant über die Zeit, dann equivalent zu den im fixed effects-Modell verwendeten Dummyvariablen sind 2. T → ∞ hier werden die µi beobachtbar, da die v̄i· → 0 werden (Greene (2003), S.296) 120 Mikroökonometrie Prof. Dr. R. Hujer d) Feasible GLS Sind die Komponenten von Ω, σv2 und σµ2 bekannt, so ist die Anwendung der GLS-Methode unproblematisch. Diese Voraussetzung ist aber in der Regel nicht erfüllt, so dass zunächst Schätzwerte für diese Varianzen benötigt werden → Feasible Generalized Least Squares (FGLS). In der Literatur werden für die Schätzung der Varianzen verschiedene Verfahren vorgeschlagen. Die in der empirischen Analyse gebräuchlichste Methode kann aus der Zerlegung des Fehlerterms uit abgeleitet werden: var(uit) = E(u2it) = σµ2 + σv2 var(ui) = E h 1 T P t uit 2 i = σµ2 + T1 σv2. Die Schätzer der Varianzen sind var(uit) ⇒ 2 t ûit P P i NT−K var(ui) ⇒ P 1P 2 i( T t ûit ) . N−K Dabei können die ûit die Residuen z.B. aus einer OLS-, einer Within- oder jeder anderen konsistenten Schätzung des Modells sein. 121 Mikroökonometrie Prof. Dr. R. Hujer Die gesuchten Schätzer lauten dann: σ̂v2 = T 1 T − 1 NT − K N σ̂µ2 N X T X û2it − i=1 t=1 1 N−K N X i=1 1 T T X !2 ûit t=1 T XX 1 = û2it − σv2. NT − K i=1 t=1 Diese Schätzer sind konsistent, können in endlichen Stichproben aber verzerrt sein. 122 Mikroökonometrie II.3.4. Prof. Dr. R. Hujer Schätzung mit Maximum Likelihood Die Anwendung der Maximum Likelihood-Methode macht Normalverteilungsannahmen für µi und vit erforderlich. Die Log-Likelihoodfunktion lautet ohne Beweis und vereinfacht nach Baltagi (2001), S.20 ff.: `(α, β, θ, σv2) = Konstante − mit Σ = Q + NT N 1 log σv2 + log θ − 2 u0Σ−1u 2 2 2σv (11) P bzw. Ω = σv2Σ. θ Eine Maximierung von (11) führt zu nichtlinearen Bedingungen erster Ordnung, deren simultane Lösung nur mit Hilfe iterativer Prozesse möglich ist. 123 Mikroökonometrie II.4. Prof. Dr. R. Hujer Fixed oder random effects? Mundlak (1978): individuenspezifische Effekte sind grundsätzlich als zufällig anzusehen. → fixed effects-Modell: auf die in der Stichprobe vorliegenden Effekte bedingte Analyse; im Mittelpunkt des Interesses steht das einzelne Individuum → random effects-Modell: unbedingte oder marginale Aussagen im Hinblick auf die Grundgesamtheit; es sollen Aussagen über die Grundgesamtheit getroffen werden und Beobachtungen der Stichprobe stellen eine Zufallsstichprobe aus der Grundgesamtheit dar Weitere Aspekte: • erheblicher Verlust an Freiheitsgraden im fixed effects-Modell; eine Vergrößerung des Stichprobennumfangs ist keine Abhilfe • random effects-Modell unterstellt Unkorreliertheit zwischen den individuenspezifischen Effekten und den übrigen Regressoren → evtl. omitted variable bias → correlated random effects (Mundlak (1978)) 124 Mikroökonometrie II.5. Prof. Dr. R. Hujer Empirisches Beispiel Tabelle 1: Hausman (1978): vergleichende Schätzung einer Lohngleichung (abhängige Variable ist ln wage) für 629 High School-Absolventen, die über 6 Jahre im Rahmen der Michigan Income Dynamics Study verfolgt wurden Fixed effects Random effects Variable Parameter t-Wert Parameter t-Wert Konstante – 19,638 Alter 20-35 0,0557 13,2619 0,0393 11,909 Alter 35-45 0,0351 6,8824 0,0092 2,5556 Alter 45-55 0,0209 3,8 -0,0007 -0,1667 Alter 55-65 0,0209 2,6795 -0,0097 -1,6167 Alter 65+ -0,0171 -1,1032 -0,0423 -3,4959 Arbeitslos im Vorjahr -0,0042 -0,2745 -0,0277 -1,8344 Schlechte Gesundheit im Vorjahr -0,0204 -0,9231 -0,025 -1,1628 Selbständig -0,219 -7,3737 -0,267 -10,152 Süden -0,1569 -2,3918 -0,0324 -0,973 Ländliche Gegend -0,0101 -0,3186 -0,1215 -5,1266 2 s 0,0567 0,0694 Freiheitsgrade 3135 3763 125 Mikroökonometrie Prof. Dr. R. Hujer Teil C Modelle zur Ereignisanalyse Ereignisdaten Datenmaterial liefert Informationen zu Ereignissen i.w.S., die Untersuchungseinheiten in einem best. Zeitraum widerfahren (z.B. Zustandswechsel (erwerbstätiges Individuum wird arbeitslos), eingehender Telefonanruf in einer Vermittlungsstelle, Unfall auf einer bestimmten Kreuzung): Verweildaueranalysen (Hazardratenmodelle) → untersuchen Dauer zwischen zwei Ereignissen (Arbeitslosigkeitsdauer, Lebensdauern, Wartezeiten, Dauer zwischen zwei eingehenden Telefonanrufen oder Unfällen) Modelle für Zähldaten (Count Data Models) → analysieren Häufigkeit des Auftretens eines Ereignisses innerhalb eines bestimmten Zeitintervalls (Zahl von Arbeitslosigkeitsmeldungen eines Individuums, Anzahl eingehender Telefonanrufe oder Zahl an Unfällen) ⇒ der Anzahl von z.B. Arbeitslosigkeitsepisoden eines Arbeitnehmers in Count Data Models steht in Hazardratenmodellen die Dauer jeder einzelnen Arbeitslosigkeitsepisode dieses Arbeitnehmers gegenüber 126 Mikroökonometrie Prof. Dr. R. Hujer ⇒ größerer Informationsgehalt im Hazardratenmodell I. I.1. Hazardratenmodelle Einführung Hazardratenmodelle sind Modelle zur Analyse von Verweildauern oder Episoden(Spells), d.h. der Dauer die eine Untersuchungseinheit in einem interessierenden Zustand verbringt → erste Anwendung in der medizinischen Statistik für Überlebensdauern: z.B. Dauer zwischen Infektion mit AIDS und Tod; in der Ökonometrie z.B. Dauer zwischen Beginn der Arbeitslosigkeit und neuer Beschäftigung ⇒ Querschnittsdaten haben Informationen zum Zustand in einem bestimmten Zeitpunkt; Paneldaten haben üblicherweise Informationen zu Zuständen in aufeinanderfolgenden Zeitpunkten; Verweildaueranalysen benötigen dagegen möglichst genaue Informationen über Zustandsänderungen und deren Zeitpunkte ⇒ im Optimalfall besonderes Erhebungsdesign Bsp. Sozio-ökonomisches Panel (SOEP): zusätzlich zu den Informationen zum Zeitpunkt des Interviews werden im sog. Erwerbskalendarium retrospektiv für das abgelaufene Jahr der Erwerbszustand (Vollzeit-Erwerbstätigkeit, Teilzeit-Erwerbstätigkeit, Arbeitslosigkeit, Wehr-/Zivildienst, etc.) für jeden Monat erhoben. 127 Mikroökonometrie I.2. Prof. Dr. R. Hujer Das Zensierungsproblem Bei der Verweildaueranalysen kann Dauer aufgrund von Zensierungen nicht unmittelbar als abhängige Variable verwendet werden: • zu Beginn einer Untersuchung befinden sich bereits Individuen in dem interessierenden Zustand, z.B. Arbeitslosigkeit; es ist i.d.R. unbekannt, wie lange diese Episode bereits andauert → Linkszensierung • am Ende des Untersuchungszeitraumes (oder bei Ausscheiden von Individuen aus der Befragung) befinden sich Individuen noch in dem interessierenden Zustand; es ist unbekannt, wie lange diese Episoden noch andauern werden → Rechtszensierung Alle anderen Episoden, d.h. Episoden, bei denen sowohl der Beginn als auch das Ende im Untersuchungszeitraum beobachtet wird, sind unzensiert → Abbildung 1 veranschaulicht die verschiedenen Fälle. 128 Mikroökonometrie Prof. Dr. R. Hujer Abbildung 1: Links-, rechts- und unzensierte Episoden t0(tj ) : Beginn (Ende) des Untersuchungszeitraumes 129 Mikroökonometrie Prof. Dr. R. Hujer ⇒ Statt der Verweildauer wird die Hazardrate als abhängige Variable verwendet. ⇒ Im folgenden wird von Linkszensuren abstrahiert, da ihre Berücksichtigung weitaus schwieriger ist als die von Rechtszensuren; bei Rechtszensuren kann die Information, dass Individuum mindestens bis zum Zeitpunkt tj arbeitslos war, für die Formulierung der Likelihoodfunktion verwendet werden. Bei beiden Zensierungen besteht aber grundsätzlich das Problem einer Verzerrung bei der Dauerinformationen, da üblicherweise längere Episoden davon betroffen sind. 130 Mikroökonometrie I.3. I.3.1. Prof. Dr. R. Hujer Modelle in kontinuierlicher Zeit Allgemeine Definitionen → Annahme, dass Dauer Ti der i-ten Episode (Beobachtung) eine kontinuierliche Zufallsvariable mit Dichtefunktion f (t) und Verteilungsfunktion F (t) ist. Die Survivor- oder Überlebensfunktion S(t) ist die Wahrscheinlichkeit, dass ein Individuum den Zeitpunkt t erlebt, d.h. dass die Episode mindestens bis t andauert: S(t) = P (T ≥ t) = 1 − F (t). Die Hazard- oder Übergangsrate ist der Grenzwert der bedingten Wahrscheinlichkeit, dass die Episode im Intervall [t, t + dt[ zu Ende geht unter der Voraussetzung, dass die Episode bis zum Beginn dieses Intervalls andauert: P (t ≤ T < t + dt|T ≥ t) P (t ≤ T < t + dt)/dt f (t) = lim = . dt→0+ dt→0+ dt P (T ≥ t) S(t) λ(t) = lim 131 Mikroökonometrie Prof. Dr. R. Hujer Für die Beziehung zwischen Survivorfunktion und Hazardrate gilt außerdem: Zt S(t) = exp − λ(u)du 0 da Zt Λ(t) = Zt λ(u)du = 0 f (u) du = − ln(1 − F (u))|t0 = − ln(1 − F (t)) = − ln S(t). 1 − F (u) 0 Λ(t) bezeichnet die sogenannte kumulierte Hazardrate. Aus den Beziehungen zwischen λ(t), S(t) und f (t) wird deutlich, dass die Dauer der Episode durch die Spezifikation einer dieser drei Größen eindeutig beschrieben ist. • parametrische Spezifikationen; Nachteil: implizieren bestimmte Annahmen über den zeitlichen Verlauf dλ(t) dλ(t) (positive Zeitabängigkeit: dλ(t) > 0; negative Zeitabh ängigkeit: < 0; Zeitkonstanz: dt dt dt = 0) • nichtparametrische Methoden (z.B. Sterbetafel-Methode, Kaplan-Meier-Schätzung; vgl. g.5) 132 Mikroökonometrie I.3.2. Prof. Dr. R. Hujer Parametrische Spezifikationen der Hazardrate → Annahme spezieller Wahrscheinlichkeitsverteilungen für die Episodendauer; z.B.: a) Exponential-Verteilung die Annahme einer Exponential-Verteilung impliziert eine im Zeitablauf konstante Hazardrate: λ(t) = λ, t ≥ 0, λ > 0 S(t) = exp(−λ(t)) f (t) = λ exp(−λ(t)) 133 Mikroökonometrie Prof. Dr. R. Hujer b) Weibull-Verteilung Verallgemeinerung der Exponentialverteilung; sie erlaubt verschiedene Entwicklungen der Hazardrate über die Zeit abhängig von der Wahl des Parameters α; sie ist monoton steigend für α > 1, abnehmend für α < 1 und konstant für α = 1 → hohe Flexibilität: λ(t) = λα(λt)α−1; S(t) = exp(−(λt)α ), f (t) = λα(λt)α−1 exp(−(λt)α ); mit: α, λ, t > 0 134 Mikroökonometrie Prof. Dr. R. Hujer c) Gompertz-Verteilung λ0 > 0, −∞ < γ0 < ∞, t ≥ 0 λ(t) = λ0 exp(γ0t) λ0 S(t) = exp − · (exp(γ0t) − 1) γ0 λ0 f (t) = λ0 exp γ0t − − · (exp(γ0t) − 1) γ0 135 Mikroökonometrie I.3.3. Prof. Dr. R. Hujer Einbeziehung erklärender Variablen In der Regel sollen weitere erklärende Variablen, also z.B. individuenspezifische, sozio-demografische Variablen, in dem Modell berücksichtigt werden → sog. Kovariate; sie können zeitkonstant, d.h. konstant über den Verlauf der Episode, oder zeitvariabel sein; im folgenden werden zur Vereinfachung zeitkonstante Kovariate unterstellt • Verallgemeinerung parametrischer Regressionsmodelle • Proportional-Hazards-Modell (Cox (1972)) a) Verallgemeinerung parametrischer Regressionsmodelle ⇒ ein oder mehrere Parameter der Verteilung werden in Abhängigkeit von dem individuenspezifischen Kovariatenvektor xi modelliert; Verweildauerverteilung wird dann durch die zu den Kovariaten gehörenden Regressionskoeffizienten β determiniert: 136 Mikroökonometrie Prof. Dr. R. Hujer z.B. Exponential-Modell: im Exponential-Modell ist die durchschnittliche Verweildauer λ1 ; üblicherweise wird der Einfluß der Kovariate über diesen Parameter modelliert, etwa in der Form λ1i = g(x0iβ); dabei ist g(·) so zu wählen, dass die Restriktion λ > 0 eingehalten wird, z.B. g(x0iβ) = exp(x0iβ); aufgrund der individuenspezifischen Kovariate erhalten wir so individuenspezifische, aber aufgrund der unterstellten Zeitkonstanz der Kovariate zeitunabhängige Hazardraten: λi(t|xi) = exp(−x0iβ) 137 Mikroökonometrie Prof. Dr. R. Hujer b) Proportional-Hazards-Modell (PH-Modell; Cox (1972)) Bislang wurde davon ausgegangen, dass Hazardrate und damit die Verteilung der Verweildauer bis auf einige Parameter bekannt ist; PH-Modell ist semi-parametrischer Ansatz mit einer unspezifizierten Basisübergangsrate λ0(t), d.h. λ0(t) ist i.d.R. ebenfalls zu schätzen → höhere Flexibilität in der Modellierung: λi(t|xi) = λ0(t) exp(−x0iβ) Name des Modells ergibt sich aus der Tatsache, dass Hazardraten zweier Individuen proportional zueinander sind; das Verhältnis ist zeitunabhängig: λ1(t|x1) = exp ((x1 − x2)0β) . λ2(t|x2) Nachteil des PH-Modells: Proportionalität bedeutet Einschränkung der Anwendungsmöglichkeiten; z.B. Einbeziehung der Kovariate Geschlecht“ → Verhältnis der Hazardraten von Männern und Frauen darf über die ” Zeit hinweg nicht variieren; Lockerung dieser Restriktion durch Einführung subpopulationsspezifischer, hier also geschlechtsspezifischer, Basisübergangsraten möglich. 138 Mikroökonometrie I.3.4. Prof. Dr. R. Hujer Schätzmethoden a) Maximum-Likelihood-Methode Es wird vorausgesetzt, dass aufgrund bestimmter ökonomischer Hypothesen, einer vorangegangenen Datenanalyse o.ä. aus der Menge möglicher Spezifikationen eine ausgewählt wurde, so dass die Funktion der Hazardrate bis auf einen Parametervektor θ bekannt ist, der die Verteilungsparameter und den evtl. zu schätzenden Koeffizientenvektor der Kovariate β umfasst. Die zugehörige Dichtefunktion lautet f (t, θ). Solange keine Zensierungen vorhanden sind, ist die Formulierung der Likelihood-Funktion einfach. Für eine Stichprobe mit insgesamt N unzensierten und voneinander unabhängigen Episoden und einem zu schätzenden Parametervektor θ lautet sie wie gewöhnlich: L(θ) = N Y fi(ti, θ) i=1 139 Mikroökonometrie Prof. Dr. R. Hujer Ist eine Episode zensiert, z.B. bei einer Verweildauer von tj , ist die einzig verfügbare Information, dass diese Episode mindestens bis tj angedauert hat. Der Beitrag dieser Episode zu einer Likelihoodfunktion ist folglich der Wert der Survivorfunktion Si(tj , θ). Mit einer Dummyvariablen di, die den Wert Eins (Null) annimmt, wenn Episode i unzensiert (zensiert) ist, lautet die Likelihoodfunktion für eine Stichprobe, in der auch zensierte Episoden vorhanden sind: N Y 1−di di L(θ) = fi(ti, θ) Si(ti, θ) i=1 N Y = λ(ti, θ)di Si(ti, θ) . i=1 140 Mikroökonometrie Prof. Dr. R. Hujer b) Schätzung des Proportional-Hazards-Modell Für das PH-Modell lautet die Likelihood-Funktion: L(β, λ0(t)) = N Y i=1 d [λ0(t) exp(x0iβ)] i exp − Zt λ0(u) exp(x0iβ)du . 0 Likelihood-Funktion enthält nicht nur den unbekannten Parametervektor β, sondern auch die unbekannte Funktion λ0(t) → für Schätzung nicht verwendbar. Man kann natürlich λ0(t) auch parametrisch spezifizieren und so zu einem vollparametrischen Modell kommen, allerdings geht der Vorteil der Flexibilität des Modells verloren. Cox (1972) hat deshalb eine alternative Methode vorgeschlagen, die auf einer Faktorisierung der Likelihood beruht und die Schätzung von β ohne eine Spezifizierung von ermöglicht λ0(t) → Partial-Likelihood. 141 Mikroökonometrie Prof. Dr. R. Hujer Die individuellen Verweildauern seien geordnet, d.h. t1 < t2 < . . . < tN . Von Zensuren wird zunächst abgesehen. Die bedingte Wahrscheinlichkeit, daß zum Zeitpunkt ti gerade die Episode i abschließt, gegeben dass jede der übrigen noch nicht beendeten Episoden zu ti, die sogenannte Risikomenge R(ti), hätte abschließen können und dass zum Zeitpunkt ti genau ein Ereignis stattfindet, lautet: λi(ti|xi) exp(x0iβ) P =P 0 β) . λ (t |x ) exp(x k∈R(ti ) k i k k∈R(ti ) k Das Produkt dieser bedingten Wahrscheinlichkeiten bezeichnete Cox (1972) als Partial-Likelihood und schlug vor es wie eine gewöhnliche Likelihood-Funktion zu behandeln und in Abhängigkeit von β zu maximieren: P L(β) = N Y i=1 exp(x0iβ) P 0 β) . exp(x k∈R(ti ) k Die Partial-ML-Schätzer sind unter best. Voraussetzungen konsistent (Andersen/Gill (1982)). Treten jedoch Episoden mit genau gleichen Verweildauern auf (sog. Ties), muß die Partial-Likelihood korrigiert werden (Breslow (1974)). Bei einer zu großen Zahl von Ties → diskrete Modelle. Falls zensierte Beobachtungen berücksichtigt werden sollen, so gehen diese in den Nenner, nicht jedoch in den Zähler ein (Kiefer (1988A)). 142 Mikroökonometrie I.3.5. Prof. Dr. R. Hujer Unbeobachtbare Heterogenität Durch Einbeziehung von Kovariaten wird Heterogenität der hinter den Episoden stehenden Individuen berücksichtigt. Allerdings Beschränkung auf beobachtbare Merkmale, unbeobachtbare Merkmale bleiben unberücksichtigt. Wird dieser unbeobachtbaren Heterogenität nicht im Modell Rechnung getragen, Gefahr einer scheinbaren Zeitabhängigkeit (spurious time dependence) der Hazardrate → Abb. 2: Sind in der Stichprobe z.B. tatsächlich zwei Teilpopulationen mit unterschiedlichen Hazardraten vorhanden, die sich aufgrund der beobachtbaren Merkmale nicht identifizieren lassen, so wird die Hazardrate der Gesamtstichprobe über die Zeit fallen. Es werden nämlich eher die Individuen der Teilpopulation mit der höheren Hazardrate die Risikomenge verlassen, so daß der Anteil der Individuen aus der Teilpopulation mit der niedrigeren Hazardrate an der Gesamtpopulation über die Zeit zunimmt. 143 Mikroökonometrie Prof. Dr. R. Hujer Abbildung 2: Scheinbare Zeitabhängigkeit (spurious time dependence) 144 Mikroökonometrie Prof. Dr. R. Hujer Zur Vermeidung entsprechender Verzerrungen ist eine Zufallsvariable ε, die die unbeobachtbare Heterogenität abbildet, in den Ansatz aufzunehmen. Für die Randdichte f (t|x) gilt dann z.B.: Z∞ f (t|x) = Z∞ λ(t|x, ε) · S(t|x, ε)dG(ε). f (t|x, ε)dG(ε) = 0 0 G(ε) ist die Verteilungsfunktion von ε und wird als mischende Verteilung bezeichnet. Sie ist jedoch unbekannt. Es werden zwei alternative Verfahren vorgeschlagen: • nichtparametrische Verfahren (Heckman/Singer (1984)) G(ε) wird durch eine diskrete Verteilung approximiert, deren Stützstellen simultan mit den Modellparameteren zu schätzen ist. Vorteil: Flexibilität; Nachteil: Anzahl der Stützstellen ist a priori unbekannt • parametrische Verfahren (Lancaster (1979), Tuma/Hannan (1984)) G(ε) wird durch eine parametrische Verteilung spezifiziert, etwa die Gammaverteilung. Vorteil: einfache Handhabung; Nachteil: u.U. Verzerrung der Parameterschätzwerte 145 Mikroökonometrie I.4. Prof. Dr. R. Hujer Erweiterungen a) Konkurrierende Risiken (competing risks) Bislang wurde implizit nur ein Übergang in einen Endzustand betrachtet, etwa Arbeitslosigkeit → Erwerbstätigkeit; i.d.R. existieren jedoch verschiedene Ereignisse (Risiken), die eine Episode beenden können: z.B. wird Arbeitslosigkeit auch beendet durch Rückzug vom Arbeitsmarkt, d.h. Nichterwerbstätigkeit; sind diese Ereignisse nicht unabhängig voneinander, sind die Abhängigkeiten bei der Modellierung zu berücksichtigen; Annahme: R unterschiedliche Risiken, Zufallsvariable Y nimmt Werte aus der Menge der möglichen Zielzustände an; Definition einer sog. übergangs- oder ursachenspezifischen Übergangsrate: P (t ≤ T < t + dt, Y = r|T ≥ t, x) . dt→0+ dt λr (t|x) = lim Hazardrate ist dann die Summe der Übergangsraten: λ(t|x) = R X λr (t|x). r=1 Die zur Erklärung der Übergangsraten herangezogenen Kovariate können für die verschiedenen Übergänge voneinander abweichen 146 Mikroökonometrie Prof. Dr. R. Hujer b) Mehr-Episoden-Modelle Bislang ebenfalls implizit Annahme, dass jedes Individuum nur eine Episode beiträgt, bzw. bei mehreren Episoden pro Individuum, dass die Episoden eines Individuums unabhängig voneinander sind; Aufgabe dieser Annahme führt dazu, dass Dauer einer Episode k auch von der Vorgeschichte Hk−1 abhängt (Blossfeld/Hamerle/Mayer (1986)); die Hazardrate der k-ten Episode ist: ( k λ (t|xk , Hk−1) = lim P (t ≤ T < t + dt, Y = r|T ≥ t, xk , Hk−1)/dt für t ≥ tk−1 dt→0+ 0 für t < tk−1 c) Diskrete Modelle Die Annahme kontinuierlicher Zeit ist i.d.R. nicht realistisch, da ökonomische Daten i.d.R. in bestimmten Intervallen erhoben werden, aggregiert oder gerundet sind, etc. Im Sozio-ökonomischen Panel etwa ist Dauer nur auf monatlicher Basis verfügbar → große Anzahl von Ties → Formulierung des Modells in diskreter Zeit (Kiefer (1988B)); Annahme, daß Daten in J + 1 Intervallen, mit dem j-ten Intervall [tj , tj+1), j = 0, 1, . . . , J: h(j|x) = P [T < tj+1|T ≥ tj , x] = [S(tj |xi) − S(tj+1|xi)] · S(tj |xi)−1 147 Mikroökonometrie I.5. Prof. Dr. R. Hujer Nichtparametrische Methoden am Beispiel des Kaplan-Meier-Schätzers Nichtparametrische Methoden kommen vollkommen ohne parametrische Annahmen hinsichtlich der Gestalt der Hazardrate, Überlebens- oder Dichtefunktion aus und vermeiden so Verzerrungen in den Schätzergebnissen durch eine zu große Anzahl von Restriktionen. Sie sind auch nützlich z.B. für eine graphische Darstellung der Daten oder für Voranalysen, etwa um angemessene Funktionsformen für eine spätere parametrische Spezifikation zu finden. Ausgangspunkt sei eine Stichprobe mit n Episoden, von denen nicht alle unzensiert sind. Wir ordnen die Dauern der unzensierten Episoden von der kleinsten bis zur größten Dauer: t1 < t2 < . . . < tK . Es gilt K, da Beobachtungen zensiert sind und da Ties auftreten können. Folgende Variablen werden definiert: hj = Anzahl unzensierter Episoden mit der Dauer Tj , j = 1, . . . , K; ohne Ties sind alle hj gleich Eins. mj = Anzahl Episoden, die zwischen den Zeitpunkten tj und tj+1, j = 1, . . . , K − 1, zensiert sind. mk = Anzahl Episoden, deren Dauer größer als Tk , die der längsten unzensierten Episode, ist. nj = Anzahl Episoden, die vor tj weder beendet noch zensiert sind, d.h. mindestens bis tj andauern. Damit gilt: nj = K X (mi + hi). i≥j 148 Mikroökonometrie Prof. Dr. R. Hujer Die Hazardrate gibt, wie oben bereits definiert, die Wahrscheinlichkeit an, dass eine Episode zum Zeitpunkt tj endet, unter der Bedingung, dass die Episode mindestens bis tj andauert. Ein naheliegender Schätzer für die Hazardrate ist folglich die Zahl der Übergänge zum Zeitpunkt tj , geteilt durch die Risikomenge zum Zeitpunkt tj , die durch nj gegeben ist (vgl. auch oben g.3.4): λ̂(tj ) = hj . nj Der zugehörige Schätzer für die Überlebensfunktion ist: Ŝ(tj ) = j Y ni − hi i=1 ni j Y nj − hj = (1 − λ̂(ti)) = Ŝ(tj−1) · . n j i=1 Dies ist der sogenannte Kaplan-Meier- oder product-limit“-Schätzer. ” Beispiel (LAWLESS (1982), S.72-74): In klinischen Tests werden von 42 Leukämie-Patienten die Hälfte mit einem neuen Präparat 6-MP“ behandelt, ” die andere Hälfte als Kontrollgruppe erhält dagegen ein Placebo. Gemessen wird die Dauer der Remission. Folgende Dauern waren zum Untersuchungszeitpunkt beobachtbar (∗ kennzeichnet zensierte Beobachtung): 149 Mikroökonometrie Prof. Dr. R. Hujer 6-MP: 6, 6, 6, 6∗, 7, 9∗, 10, 10∗, 11∗, 13, 16, 17∗, 19∗, 20∗, 22, 23, 25∗, 32∗, 32∗, 34∗, 35∗ Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23 6-MP Placebo tj nj hj Ŝ(tj ) tj nj hj Ŝ(tj ) 6 21 3 0,857 1 21 2 0,905 7 17 1 0,807 2 19 2 10 15 1 0,753 3 17 1 0,762 13 12 1 0,69 4 16 2 0,667 16 11 1 0,627 5 14 2 0,571 22 7 1 0,538 8 12 4 0,381 23 6 1 0,448 0,81 11 8 2 0,286 12 6 2 15 4 1 0,143 17 3 1 0,095 22 2 1 0,048 23 1 1 0,19 0 150 Mikroökonometrie I.6. Prof. Dr. R. Hujer Empirische Anwendung Hujer/Schneider (1994) analysieren Determinanten der Arbeitslosigkeitsdauer von Männern in WestDeutschland 1983-1985 mit Gompertz- und Weibull-Modellen; hier ausgewählte Ergebnisse ohne Berücksichtigung unbeobachtbarer Heterogenität Gompertz-Modell Variable Funktionsparameter Konstante Nationalität (1=deutsch) Alter zwischen 30 und 40 Jahre Alter zwischen 40 und 50 Jahre Alter über 50 Jahr Bezug von Arbeitslosengeld Auslaufphase von AL-Geld Bezug von AL-Hilfe Februar/März/April Juli/August/September Dezember Weibull-Modell exp(Parameter) Signifikanzniveau exp(Parameter) Signifikanzniveau 0,9908 0,1039 1,1933 0,8655 0,9036 0,3027 1,0681 0,2359 0,5462 1,841 1,7399 3,1744 0,5166 0 0,1248 0,281 0,4966 0 0,6426 0,0044 0,0028 0,0001 0,0001 0 1,0648 0,088 1,2155 0,839 0,8678 0,278 1,0998 0,2216 0,5113 1,8484 1,755 3,2845 0,1222 0 0,0906 0,1889 0,3386 0 0,4988 0,003 0,0009 0,0001 0,0001 0 151 Mikroökonometrie II. II.1. Prof. Dr. R. Hujer Modelle für Zähldaten (Count Data Models) Einführung Modelle für Zähldaten beschreiben die Anzahl y auftretender Ereignisse während eines bestimmten Zeitintervalls; z.B. die Zahl innerhalb eines Tages in einer Vermittlungsstelle eingehenden Telefonanrufe, die Zahl der Arbeitslosen in einer Region oder die Zahl der Käufer eines Produkts in einem bestimmten Zeitraum → Zähldaten → die Zufallsvariable Y nimmt Werte aus der Menge der natürlichen Zahlen an, d.h. Y ∈ {1, 2, . . .}. Die für die Modellierung von Zähldaten verwendeten Verteilungen dürfen deshalb nur nichtnegative Integerwerte annehmen; am verbreitetsten sind die Poisson- und die Negative Binomialverteilung. ⇒ ein klassisches lineares Regressionsmodell ist aus diesem Grund nicht angemessen, obwohl es in empirischen Arbeiten häufig Anwendung findet (z.B. Schultz (1990)) 152 Mikroökonometrie Prof. Dr. R. Hujer II.2. Verteilungen für Count Data Models II.2.1. Poissonverteilung Die Wahrscheinlichkeiten der Poissonverteilung sind gegeben durch e−λλy P (Y = y) = , y! λ > 0, Y = 0, 1, 2, . . . . Erwartungswert und Varianz der Possionverteilung sind: E(Y ) = V ar(Y ) = λ ( equidispersion“). ” Die Poissonverteilung betrachtet die Zahl der Ereignisse in einem Intervall der Länge 1. Will man allgemeiner ein Intervall der Länge T betrachten, so lautet die Formel (Poissonprozeß) e−λT (λT )y P (Y = y) = , y! mit E(Y ) = V ar(Y ) = λT. 153 Mikroökonometrie Prof. Dr. R. Hujer ⇒ Restriktionen hinsichtlich Erwartungswert und Varianz in der Poissonverteilung (im Poissonprozeß) schränken empirische Anwendbarkeit ein (Winkelmann (1994)) • direkte Proportionalität von Anzahl des Auftretens des betrachteten Ereignisses und Länge des Zeitintervalls • Unterstellung, dass die Anzahl an Ereignissen in nicht überlappenden Intervallen stochastisch unabhängig ist ⇒ Modell ist nicht angemessen ist, wenn die Ereignisse klumpenförmig auftreten (Konsumenten kaufen Produkt z.B. nur an Wochenenden) → Wahrscheinlichkeit für das Auftreten des Ereignisses variiert über die Zeit 154 Mikroökonometrie II.2.2. Prof. Dr. R. Hujer Negative Binomialverteilung Y folgt einer Negativen Binomialverteilung mit den Parametern θ und p, d.h. Y ∼ N B(θ, p), falls P (Y = y) = Γ(θ + y) θ p (1 − p)y , (Γ(θ)y!) Γ(x) bezeichnet die Gammafunktion Γ(x) = R∞ θ > 0, 0 < p < 1, y = 1, 2, . . . . tx−1e−tdt. 0 Sonderfälle der Negativen Binomialverteilung Geometrische Verteilung (θ = 1). sind Pascalverteilung (θ ist ganzzahlig) und 155 Mikroökonometrie Prof. Dr. R. Hujer Erwartungswert und Varianz sind: E(Y ) = θ(1 − p)p−1 V ar(Y ) = θ(1 − p)p−2 = E(Y )/p 1 = E(Y ) + [E(Y )]2, θ da p = E(Y ) θ+1 −1 Erwartungswert und Varianz sind proportional zueinander → weniger restriktiv als Poissonverteilung. Da θ > 0 gilt stets V ar(Y ) > E(Y ) ( overdispersion“). ” 156 Mikroökonometrie II.3. Prof. Dr. R. Hujer Ökonometrische Modellierung Ähnlich wie bei den Hazardratenmodellen sind bei der ökonometrischen Modellierung Einflüsse erklärender Variablen zu berücksichtigen; wie dort wird dies erreicht, indem ein oder mehrere Parameter der Verteilung in Abhängigkeit von den erklärenden Variablen x modelliert werden II.3.1. Das Poissonmodell Annahme, dass die Zahl der Ereignisse durch eine Poissonverteilung erzeugt werden; bei der Modellierung des Parameters der Poissonverteilung ist die Restriktion λ > 0 zu beachten, z.B.: λi = exp(x0iβ) Für die erwartete Anzahl an Ergeignissen pro Periode gilt dann: E(Yi|xi) = V ar(Yi|xi) = λi = exp(x0iβ) heteroskedastische Funktion ! 157 Mikroökonometrie Prof. Dr. R. Hujer Im Prinzip ist das Poissonmodell eine nichtlineare Regression. Die Schätzung mittels Maximum Likelihood ist einfach. Bei N Beobachtungen und einer beobachtungsspezifischen Realisation von Y , yi , erhalten wir für die Likelihoodfunktion: L(β) = 0 N Y e− exp(xiβ)[exp(x0 β)]yi i i=1 yi ! Die Log-Likeihoodfunktion lautet: L(β) = N X [−λ + yix0iβ − ln yi!]. i=1 158 Mikroökonometrie II.3.2. Prof. Dr. R. Hujer Maßzahlen für die Anpassungsgüte im Poissonmodell Aufgrund der Nichtlinearität des Modells und der Tatsache, daß es sich bei dem Poissonmodell um eine heteroskedastische Funktion handelt, gibt es kein naheliegendes Äquivalent zu R2 aus linearen Modellen. Einige Computerprogramme weisen ein Maß aus, dass auf den beobachtungsspezifischen Abweichungen yi yi di = 2 · yi ln − (yi − λ̂i) = 2 · yi ln − ei λ̂i λ̂i beruht: 2 G = N X i=1 di = 2 · N X i=1 yi · ln yi λ̂i . Dabei wird definiert: 0 · ln(0) = 0 und die Tatsache genutzt, daß für ein Modell mit Konstante (Greene (2003), S.741). Im (hypothetischen) Idealfall perfekter Anpassungsgüte ist G2 = 0. PN i=1 ei =0 159 Mikroökonometrie Prof. Dr. R. Hujer Cameron/Windmejer (1996) schlagen u.a. folgendes Maß vor, das wie R2 zwischen 0 und 1 definiert ist: PN h Rd2 =1− i=1 yi · ln PN h i=1 i yi λ̂i − (yi − λ̂i) i . yi yi · ln λ̂ i Wie R2 wächst auch Rd2 mit der Aufnahme weiterer erklärender Variablen in das Modell. 160 Mikroökonometrie II.3.3. Prof. Dr. R. Hujer Tests auf Equidispersion Poissonmodell wird häufig wegen der Restriktion, dass bedingter Erwartungswert und bedingte Varianz des Modells gleich sind (Equidispersion), kritisiert → Überprüfung, ob stattdessen Overdispersion (V ar(Y ) > E(Y )) oder Underdispersion (V ar(Y ) < E(Y )) vorliegt. Ein grafischer Test, ob Poissonverteilung angemessen ist, durch Darstellung von Erwartungswert und Varianz für verschiedene (Teil-)Stichproben in einem Streudiagramm; Berechnung auf Basis der geschätzten Werte der abhängigen Variable → Ergebnis sollte annähernd 45◦-Linie sein. 161 Mikroökonometrie Prof. Dr. R. Hujer Cameron/Trivedi (1990) schlagen einen formalen Test vor, der die Hypothese überprüft H0 : V ar[yi] = E[yi] vs. H1 : V ar[yi] = E[yi] + αg(E[yi]). Das Modell unter H1 kann geschrieben werden als E[(yi − E[yi])2 − yi] = αg(E[yi]). Ein naheliegender Test auf Equidispersion ist dann ein t-Test auf α = 0 in der OLS-Regression (yi − E[yi])2 − yi = αg(E[yi]) + εi, sofern E[yi] beobachtbar ist. Da dies nicht der Fall ist, diskutieren Cameron/Trivedi (1990, S.351-352) einen geeigneten Schätzer für E[yi]. Führen Tests zu einer Ablehnung von Equidispersion, sind flexiblere Modelle wie das Modell der Negativen Binomialverteilung heranzuziehen. 162 Mikroökonometrie II.3.4. Prof. Dr. R. Hujer Das Modell der Negativen Binomialverteilung Das Modell der Negativen Binomialverteilung läßt sich aus dem Poissonmodell durch Einbeziehung von unbeobachtbarer Heterogenität ableiten: µi = exp(x0iβ + εi) = λi · ui bzw. ln µi = x0iβ + εi = ln λi + ln ui. ui bzw. εi repräsentiert wie in früheren Kapiteln (z.B. g.3.5) einen unbeobachtbaren, beobachtungsspezfischen Effekt. Die Verteilung von yi, bedingt auf xi und ui, ist immer noch eine Poissonverteilung mit bedingtem Mittelwert und bedingter Varianz µi (Greene (2003), S.744). Da ui aber unbeobachtbar ist, ist eine Konditionierung nicht möglich. Die nicht auf ui bedingte Dichte lautet (vgl. auch g.3.5): Z∞ f (yi|xi) = 0 −λi ui e yi (λiui) · g(ui)dui = yi ! Z∞ e−λiui (λiui)yi · dG(ui). yi ! 0 G(ui) ist die Verteilungs-, g(ui) die Dichtefunktion von ui. Sie sind unbekannt. Hinsichtlich der Spezifikation der Verteilung sind die bereits in g.3.5 vorgeschlagenen Verfahren anwendbar. 163 Mikroökonometrie Prof. Dr. R. Hujer Wird ein parametrisches Verfahren gewählt und für ui eine Gammaverteilung mit E(ui) = 1 angenommen, d.h. θθ −θui θ−1 ui , g(ui) = e Γ(θ) so erhalten wir für f (yi|xi) : f (yi|xi)= R∞ e−λiui (λiui)yi yi ! 0 y θ θ λi i = Γ(yi+1)·Γ(θ) R∞ · θθ e−θui uθ−1 i dui Γ(θ) i −1 dui da Γ(x) = (x − 1) · Γ(x − 1) e−(λi+θ)ui uθ+y i 0 y R∞ θθ λi i ·Γ(θ+yi ) = Γ(y +1)·Γ(θ)·(λ +θ)θ+yi i i da yi θ i) = Γ(yΓ(θ+y · r · (1 − r ) i i +1)·Γ(θ) i mit ri = e−attP −1dt = a−P · Γ(P ) 0 λi λi +θ . 164 Mikroökonometrie Prof. Dr. R. Hujer Dies entspricht der Negativen Binomialverteilung aus h.2.2 mit pi = 1 − ri, bedingtem Erwartungswert λi und bedingter Varianz λi(1 + (1/θ)λi) (Übung: Zeigen Sie dies!). Die bedingte Varianz ist also eine quadratische Funktion des bedingten Erwartungswertes. Es handelt sich in der Klassifikation von Cameron/Trivedi (1986) um das NEGBIN II-Modell. Die Schätzung mittels Maximum Likelihood ist unproblematisch (Greene (2003), S.745). 165 Mikroökonometrie II.3.5. Prof. Dr. R. Hujer Hurdle-Modelle Mullahy (1986) stellt fest, dass zwischen der Beobachtung kein Ereignis“ und der Beobachtung einer ” positiven Zahl von Ereignissen ein wesentlicher qualitativer Unterschied besteht. Er schlägt als Alternative sog. Hurdle-Modelle vor. Dabei bestimmt ein binäres Wahrscheinlichkeitsmodell, ob ein Null- oder ein positives Ergebnis beobachtet wird: e−λ1 λ01 = e−λ1 P (Y = 0) = 0! P (Y = 1) = 1 − (P (Y = 0)) = 1 − e−λ1 Eine gestutzte Poisson-Verteilung modelliert die positiven Beobachtungen: ( P (Y = yi|yi > 0) = y λ2i (eλ2 −1)yi ! 0 für yi > 0 sonst 166 Mikroökonometrie Prof. Dr. R. Hujer Wiederum wird λij parametrisiert als λij = exp(x0iβj ) (Mullahy (1986), S.345-346). Die Likelihoodfunktion ähnelt der des Tobit-Modells (vgl. b.3.4): Y Y Y L = [P (Y = 0)] · [P (Y = 1)] · [Y = yi|yi > 0] i∈Ω0 = Y i∈Ω0 i∈Ω1 {exp[− exp(x0iβ1)]} · i∈Ω1 Y i∈Ω1 {1 − exp[− exp(x0iβ1)]} · Y i∈Ω1 exp(yix0iβ2) [exp(exp(x0iβ2)) − 1] · yi! Ω0 kennzeichnet die Menge der Nullbeobachtungen, Ω1 die Menge aller positiven Beobachtungen. 167 Mikroökonometrie II.4. Prof. Dr. R. Hujer Empirische Anwendung Dionne et al. (1996) untersuchen die Determinanten der Anzahl nichtgezahlter Raten bei Konsumentenkrediten unter Verwendung eines Hurdle-Modells; hier ausgewählte Schätzergebnisse des Logit-Modells für die Ausfallwahrscheinlichkeit und des von unten gestutzten Negativen Binomialmodells für die Zahl nichtgezahlter Raten für die Kredite, die letztlich nicht notleidend wurden: Logit-Modell NegBin-Modell Variable Parameter t-Wert Parameter t-Wert Konstante -2,305 -7,791 -0,794 -1,55 Kreditlaufzeit über 4 Jahre 0,516 4,045 0,244 0,95 Alter Kreditnehmer 18-24J. 0,223 0,893 0,2 0,452 Alter Kreditnehmer 25-39J. 0,061 0,443 0,561 2,1 keine abgeschlossene Schulausbildung* 0,761 2,5 -0,016 -0,03 abgeschlossene Schulausbildung* 0,374 1,866 0,823 2,347 Kredit durch Laden vermittelt 0,038 0,207 -0,845 -2,684 Kreditnehmer hat Gehaltskonto bei Bank -0,932 -6,54 -0,611 -2,419 *: Referenz ist weiterführende Ausbildung, Universitätsausbildung 168 Mikroökonometrie Prof. Dr. R. Hujer Herleitung der Maßzahlen im Poissonmodell Die beobachtungsspezifischen Abweichungen sind definiert als: yi yi di = 2 · yi ln − (yi − λ̂i) = 2 · yi ln − ei λ̂i λ̂i Dies ergibt für die Gesamtabweichung nach Cameron und Trivedi (1998): h i D = 2 · ln L(y) − ln L(λ̂) i N h P yi = 2· yi ln λ̂ − (yi − λ̂) i i N Ph yi = 2· yi ln λ̂ − εi i 169 Mikroökonometrie Prof. Dr. R. Hujer Dies folgt aus der Differenz von ln L(y) = N X (yi · ln yi − yi − ln yi!) i und ln L(λ̂) = N X (λ̂ · ln λ̂ − λ̂ − ln yi!). i Die Differenz ist N h P i yi(ln yi − ln λ̂) − yi + λ̂ − ln yi! + ln yi! ln L(y) − ln L(λ̂) = i i N h P yi = yi ln λ̂ − (yi − λ̂i) . i i 170 Mikroökonometrie Prof. Dr. R. Hujer Die Abweichung ist zweimal diese Differenz bzw. h D = 2 · ln L(y) − ln L(λ̂) Enthält das Modell einer Konstante, ist N P i ε = 0. Für die Abweichung folgt dann i D =2· N X i yi ln yi λ̂ = G2 . q.e.d. 171 Mikroökonometrie Prof. Dr. R. Hujer Teil D Literatur Amemiya, T. (1985): Advanced Econometrics, Cambridge (Mass.). Andersen, P.K./Gill, R.D. (1982): Cox’s Regression Model for Counting Processes: A Large Sample Study, in: Annals of Statistics, Vol.10, S.1100-1120. Baltagi, B.H. (2001): Econometric Analysis of Panel Data, Chichester. Blossfeld, H.-P./Hamerle, A./Mayer, K.U. (1986): Ereignisanalyse, Frankfurt/Main. Breslow, N.E. (1974): Covariance Analysis of Censored Survival Data, in: Biometrics, Vol.30, S.89-100. Cameron, C.A./Trivedi, P.K. (1986): Econometric Models Based on Count Data: Comparisons and Applications of Some Estimators and Tests, in: Journal of Applied Econometrics, Vol.1, S.29-53. Cameron, C.A./Trivedi, P.K. (1990): Regression Based Tests for Overdispersion in the Poisson Model, in: Journal of Econometrics, Vol.46, S.347-364. Cameron, C.A./Windmeijer, F.A.G. (1996): R-squared Measures for Count Data Regression Models with Applications to Health-Care Utilization, in: Journal of Business and Economic Statistics, Vol.14, 172 Mikroökonometrie Prof. Dr. R. Hujer S.209-220. Cox, D.R. (1972): Regression Models and Life-Tables (with discussion), in: Journal of the Royal Statistical Soceity, Series B, Vol.34, No.2, S.187-220. Dionne, G./Artis, M./Guillen, M. (1996): Count Data Models For a Credit Scoring System, in: Journal of Empirical Finance, Vol.3, S. 303-325. Greene, W.H. (2003): Econometric Analysis, 5.Auflage, Upper Saddle River. Gujarati, D.N. (1995): Basic Econometrics, New York. Hausman, J.A. (1978): Specification Tests in Econometrics, in: Econometrica, Vol.46, S.1251-1271. Heckman, J.J. (1976): The Common Structure of Statistical Models of Truncation, Sample Selection, and Limited Dependent Variables and a Simple Estimator for Such Models, in: Annals of Economic and Social Measurement, Vol.5, S.475-492. Heckman, J.J./Singer, B. (1984): A Method for Minimizing the Impact of Distributional Assumptions in Econometric Models for Duration Data, in: Econometrica, Vol.52, No.2, S.271-320. Hujer, R./Schneider, H. (1994): Spezifikation und Schätzung von zeitabhängigen Übergangsratenmodellen - methodische Aspekte und ihre Anwendung in der Arbeitsmarktforschung, in:: Mikroanalytische 173 Mikroökonometrie Prof. Dr. R. Hujer Grundlagen der Gesellschaftspolitik, Band 2: Erhebungsverfahren, Analysemethoden und Mikrosimulation, hrsg. von R. Hauser, N. Ott und G. Wagner, Berlin, S.325-340. Kiefer, N.M. (1988a): Economic Duration Data and Hazard Functions, in: Journal of Economic Literature, Vol.26, S.646-679. Kiefer, N.M. (1988b): Analysis of Grouped Duration Data, in: Statistical Inference from Stochastic Processes, hrsg. von N.U. Prabhu, Contemporary Mathematics, Vol.80, Providence, S.107-137. King, G. (1989): Variance Specification in Event Count Models: From Restrictive Assumptions to a Generalized Estimator, in: American Journal of Political Science, Vol.33, S.762-784. Lancaster, T. (1979): Econometric Methods for the Duration of Unemployment, in: Econometrica, Vol.47, No.4, S.939-956. Lawless, J.F. (1982): Statistical Models and Methods for Lifetime Data, New York. Maddala, G.S. (1983): Limited Dependent and Qualitative Variables in Econometrics, Cambridge (Mass.). Mullahy, J. (1986): Specification and Testing in Some Modified Count Data Models, in: Journal of Econometrics, Vol.33, S.341-365. Mundlak, Y. (1978): On the Pooling of Time Series and Cross-section Data, in: Econometrica, Vol.46, S.6985. 174 Mikroökonometrie Prof. Dr. R. Hujer Pohlmeier, W. (1989): Simultane Probit- und Tobitmodelle, Berlin. Ronning, G. (1991): Mikroökonometrie, Berlin. Schultz, T.P. (1990): Testing the Neoclassical Model of Family Labor Supply and Fertility, in: Journal of Human Ressources, Vol.25, S.599-634. Tobin, J. (1958): Estimation of Relationships for Limited Dependent Variables, in: Econometrica, Vo.26, S.2436. Tong, Yung L. (1990): The Multivariate Normal Distribution, Springer Series in Statistics, Springer Verlag, New York. Tuma, N.B./Hannan, M.T. (1984): Social Dynamics - Models and Methods, Orlando. Wansbeek, T.J./Kapteyn, A. (1982): A Simple Way to Obtain the Spectral Decomposition of Variance Components Models for Balanced Data, in: Communications in Statistics A11, S.2105-2112. Wansbeek, T.J./Kapteyn, A. (1983): A Note on Spectral Decomposition and Maximum Likelihood Estimation of ANOVA Models with Balanced Data, in: Statistics and Probability Letters, Vol.1, S.213-215. Winkelmann, R. (1994): Count Data Models, Berlin. 175