Folien zur Vorlesung Mikroökonometrie - Wiwi Uni

Werbung
Johann Wolfgang Goethe-Universität
Frankfurt am Main
Fachbereich Wirtschaftswissenschaften
Professur für Statistik und Ökonometrie
( Empirische Wirtschaftsforschung)
Univ. Prof. Dr. Reinhard Hujer
Folien zur Vorlesung Mikroökonometrie
– SS2005 –
Mikroökonometrie
Prof. Dr. R. Hujer
Inhaltsverzeichnis
A Qualitativ und beschränkt abhängige Variable in Regressionsmodellen
9
I. Qualitativ abhängige Variable
9
I.1. Lineares Wahrscheinlichkeits-Modell (LWM) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
I.1.1. Modellidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
I.1.2. Probleme des LWM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
I.2. Probit- und Logit-Modell für dichotome Variablen . . . . . . . . . . . . . . . . . . . . . . . . .
16
I.2.1. Formulierung eines Schwellenwertmodells . . . . . . . . . . . . . . . . . . . . . . . . . .
16
I.2.2. Schätzung mit der Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . .
19
I.2.3. Praktische Anwendung von Logit-, Probit-, und LW-Modellen . . . . . . . . . . . . . . .
25
I.2.4. Anwendungsbeispiel Zigarettenkonsum 1: Dichotomes Probit-Modell . . . . . . . . . . .
27
I.2.5. Zufallsnutzen-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
I.3. Gütemaße für Modelle mit diskreter abhängiger Variable . . . . . . . . . . . . . . . . . . . . . .
32
2
Mikroökonometrie
Prof. Dr. R. Hujer
I.4. Logit-Modelle für polytome Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
I.4.1. Motivation mittels eines Zufallsnutzen-Modells . . . . . . . . . . . . . . . . . . . . . . .
35
I.4.2. Multinomiales Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
I.4.3. Bedingtes Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
I.4.4. Vergleich zwischen multinomialen und bedingtem Logit-Modell . . . . . . . . . . . . . .
42
I.4.5. Anwendungsbeispiel Zigarettenkonsum 2: Multinomiales Logit-Modell . . . . . . . . . . .
44
I.4.6. Unabhängigkeit von irrelevanten Alternativen . . . . . . . . . . . . . . . . . . . . . . . .
46
I.4.7. Test der IIA-Annahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
I.4.8. Genistetes Logit-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
I.4.9. Anwendungsbeispiel Zigarettenkonsum 3: Genistetes Logit-Modell . . . . . . . . . . . . .
54
I.5. Logit- und Probit-Modell für geordnete Kategorien . . . . . . . . . . . . . . . . . . . . . . . . .
58
I.5.1. Anwendungsbeispiel: Verordnungsentscheidung . . . . . . . . . . . . . . . . . . . . . . .
61
II. Zensierte oder gestutzte abhängige Variable
II.1. Zensierung und Stutzung im Regressionskontext . . . . . . . . . . . . . . . . . . . . . . . . . .
63
63
3
Mikroökonometrie
B
Prof. Dr. R. Hujer
II.2. Notwendige Kenntnisse über gestutzte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . .
64
II.3. Das zensierte Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
II.3.1. Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
II.3.2. Probleme der OLS-Schätzung des zensierten Regressionsmodells . . . . . . . . . . . . . .
73
II.3.3. Zweistufige Schätzung der Parameter (Heckman-Korrektur) . . . . . . . . . . . . . . . .
77
II.3.4. Maximum-Likelihood-Schätzung des zensierten Regressionsmodells . . . . . . . . . . . .
82
II.4. Prüfmaße für zensierte Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
II.5. Parameterinterpretation im Tobit-Modell: . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
II.6. Empirische Anwendung zensierter Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . .
88
II.7. Erweiterungen des Grundmodells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
Lineare Panelmodelle
I. Was sind Paneldaten?
91
91
4
Mikroökonometrie
Prof. Dr. R. Hujer
II. Einfache lineare Panelmodelle
99
II.1. Allgemeines lineares Grundmodell für Paneldaten . . . . . . . . . . . . . . . . . . . . . . . . .
99
II.2. Fixed effects-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
II.3. Random effects-Modelle (Fehlerkomponentenmodelle) . . . . . . . . . . . . . . . . . . . . . . . 112
II.3.1. Grundlegende Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
II.3.2. OLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
II.3.3. GLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
II.3.4. Schätzung mit Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
II.4. Fixed oder random effects? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
II.5. Empirisches Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
C
Modelle zur Ereignisanalyse
I. Hazardratenmodelle
126
127
I.1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5
Mikroökonometrie
Prof. Dr. R. Hujer
I.2. Das Zensierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
I.3. Modelle in kontinuierlicher Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
I.3.1. Allgemeine Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
I.3.2. Parametrische Spezifikationen der Hazardrate . . . . . . . . . . . . . . . . . . . . . . . . 133
I.3.3. Einbeziehung erklärender Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
I.3.4. Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
I.3.5. Unbeobachtbare Heterogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
I.4. Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
I.5. Nichtparametrische Methoden am Beispiel des Kaplan-Meier-Schätzers . . . . . . . . . . . . . . 148
I.6. Empirische Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
II. Modelle für Zähldaten (Count Data Models)
152
II.1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
II.2. Verteilungen für Count Data Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
II.2.1. Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6
Mikroökonometrie
Prof. Dr. R. Hujer
II.2.2. Negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
II.3. Ökonometrische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
II.3.1. Das Poissonmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
II.3.2. Maßzahlen für die Anpassungsgüte im Poissonmodell . . . . . . . . . . . . . . . . . . . . 159
II.3.3. Tests auf Equidispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
II.3.4. Das Modell der Negativen Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 163
II.3.5. Hurdle-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
II.4. Empirische Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
D
Literatur
172
7
Mikroökonometrie
Prof. Dr. R. Hujer
Literaturempfehlungen
Blossfeld, H.-P./Hamerle, A./Mayer, K.U. (1986): Ereignisanalyse, Frankfurt/Main.
Greene, W.H. (2003): Econometric Analysis, 5.Auflage, Upper Saddle River.
Wooldridge, J.M. (2002): Econometric Analysis of Cross Section and Panel Data, MIT Press.
Maddala, G.S. (1983): Limited Dependent and Qualitative Variables in Econometrics, Cambridge (Mass.).
Ronning, G. (1991): Mikroökonometrie, Berlin.
8
Mikroökonometrie
Prof. Dr. R. Hujer
Teil A
Qualitativ und beschränkt abhängige
Variable in Regressionsmodellen
I.
Qualitativ abhängige Variable
Bei der Analyse ökonomischer Wahlhandlungen ergibt sich das grundlegende Problem, dass die abhängige Variable in vielen Fällen nur über einen bestimmten Wertebereich beobachtbar ist. Dies ist z.B. der Fall, wenn
man den Entschluss eines Konsumenten für den Kauf- oder Nichtkauf eines Produkts oder die Wahl eines bestimmten Verkehrs- oder Transportmittels ökonomisch erklären will. In all diesen Problemstellungen hat die zu
erklärende Variable kein metrisches Messniveau, sondern diskrete Ausprägungen. Man spricht von qualitativen
Wahlhandlungsmodellen, auf welche die klassischen ökonometrischen Methoden nicht per se anwendbar sind.
Diese Modelle dienen der Mikrofundierung der ökonomischen Theorie und setzen i.d.R. Mikrodaten, z.B. aus
Unternehmens- und Verbraucherbefragungen, voraus.
9
Mikroökonometrie
Prof. Dr. R. Hujer
Bei qualitativ abhängigen Variablen können wir den Spezialfall dichotomer und den allgemeineren Fall polytomer
Variablen unterscheiden, d.h. zwischen abhängigen Variablen mit zwei und mehr als zwei Ausprägungen bzw.
Kategorien.
Im polytomen Fall ist außerdem die Unterscheidung zwischen ungeordneten und geordneten Kategorien dieser
Variablen von Bedeutung. Zur Verdeutlichung seien nochmals diese Beispiele genannt:
• Entschluss eines Arbeitnehmers einen Arbeitsvertrag abzuschließen (dichotom)
• Auswahl zwischen verschiedenen Gütern (polytom, ungeordnet)
• Bewertung der Qualität eines Produktes (polytom, geordnet)
Die Analyse solcher Situation erfolgt in einem allgemeinen Modellrahmen von Wahrscheinlichkeitsmodellen.
Dabei gilt:
P (Ereignis j tritt ein) = P (Y = j) = f (x)
Die Wahrscheinlichkeit dafür, dass Ereignis j, z.B. der Kauf von Produkt A statt Produkt B, eintritt, ist also
eine Funktion erklärender Variablen x. Welcher Art diese Funktion ist, werden wir später noch genauer herleiten.
10
Mikroökonometrie
Prof. Dr. R. Hujer
Die gleiche Entscheidung (zwischen Produkt A und B) kann auch im Rahmen eines Zufallsnutzen-Modells erklärt
werden, wenn man davon ausgeht, dass beide Produkte einen bestimmten Nutzen (UA und UB ) spenden. In
diesem Fall ist die Wahrscheinlichkeit, dass Produkt A gewählt wird:
P (Kauf von Produkt A) = P (UA > UB )
Diesen Ansatz werden wir uns im polytomen Fall bei der Modellierung eines multinomialen Logit-Modells zu Nutze machen. Beginnen werden wir aber mit der Präsentation von Logit- und Probit-Modellen für den dichotomen
oder binären Fall. Im Anschluss folgen Gütemaße und praktische Anwendungsmöglichkeiten für diese Modelle.
Danach wenden wir uns dem polytomen Fall zu und präsentieren Modelle für ungeordnete ( multinomial“ und
”
conditional Logit“) und geordnete Variablen ( ordered Probit“).
”
”
11
Mikroökonometrie
I.1.
I.1.1.
Prof. Dr. R. Hujer
Lineares Wahrscheinlichkeits-Modell (LWM)
Modellidee
Da z.B. die Kaufentscheidung für ein Gut nicht als deterministisch angesehen werden kann, muss der Tatsache
Rechnung getragen werden, dass ein Konsument mit einem bestimmten Einkommen ein bestimmtes Produkt
kauft, wohingegen sich ein anderer Konsument mit vergleichbarem Einkommen für einen Nichtkauf entscheidet.
Wenn das Einkommen jedoch eine substantielle Einflussgröße ist, so muss bei nicht inferioren Gütern die Kaufwahrscheinlichkeit ceteris paribus mit zunehmendem Einkommen steigen. Bei einem Wahlhandlungsmodell wird
die Wahrscheinlichkeit dafür, dass sich ein Wirtschaftssubjekt z.B. für den Kauf einen Produktes entscheidet
durch einen Vektor erklärender Variablen x0 beeinflusst. Im einfachsten Modell, dem linearen WahrscheinlichkeitsModell (LWM) verändert sich die Wahrscheinlichkeit linear mit einer Veränderung der Einflussgrößen. Das LWM
bleibt innerhalb der OLS-Methode des klassischen linearen Regressionsmodells. Es behandelt die abhängige diskrete Variable nicht anders als eine metrische.
12
Mikroökonometrie
Prof. Dr. R. Hujer
Der Regressionsansatz lautet in Vektorschreibweise:
Yi = x0iβ + εi,
i = 1, . . . , N
(1)
mit Yi : abhängige Variable, Wert 0 oder 1, für Individuum i;
x0i : 1 × k Vektor erklärender Variablen;
β : k × 1 Parametervektor;
εi : Störvariable E(εi) = 0.
Wie bisher gilt: E(Yi|xi) = x0iβ,
aber auch:
E(Yi|xi) = 1 · Pi + 0 · (1 − Pi) = Pi mit: Pi = P (Yi = 1|xi).
Daher Lineares Wahrscheinlichkeits-Modell“: Bedingter Erwartungswert der abhängigen Variablen ist die Wahr”
scheinlichkeit, daß die binäre abhängige Variable den Wert Eins annimmt.
13
Mikroökonometrie
I.1.2.
Prof. Dr. R. Hujer
Probleme des LWM
a) Methodisches Problem des LWM: Heteroskedastie
εi kann 2 Werte annehmen: −x0iβ oder 1 − x0iβ
E(εi) = Pi(1 − x0iβ) + (1 − Pi)(−x0iβ) = 0
V ar(εi) = Pi(1 − x0iβ)2 + (1 − Pi)(−x0iβ)2
= Pi(1 − Pi) = (x0iβ)(1 − x0iβ)
Lösung des Problems mit zweistufiger GLS Schätzung:
1. OLS-Schätzung von β.
2. Weighted Least Squares“-Schätzung
”
b) Inhaltliche Inkonsistenz des LWM
Bei OLS Schätzung von β kann
Ŷi = x0iβ̂ = P̂i,
außerhalb des [0, 1] Intervalls liegen → Interpretation als Wahrscheinlichkeit daher unplausibel.
14
Mikroökonometrie
Prof. Dr. R. Hujer
c) Lineare Zunahme der Wahrscheinlichkeit
Problematisch ist außerdem die unterstellte Annahme einer identischen Zunahme der Wahrscheinlichkeit eines
Ereignisses auf einen Impuls der exogenen Variablen unabhängig von ihrem realisierten Niveau. Es ist z.B.
denkbar, dass sich Einkommensänderungen auf sehr niedrigem oder sehr hohem Niveau anders auf die Kaufwahrscheinlichkeit auswirken als gleichwertige Veränderungen in den mittleren Einkommensbereichen.
Aus diesen Gründen zieht man dem LWM Logit- und Probit-Modelle zur Erklärung ökonomischer Wahlhandlungen vor. Beiden Modellen liegt ein sogenanntes Schwellenwertmodell zugrunde, das wir zunächst formulieren
werden.
15
Mikroökonometrie
I.2.
I.2.1.
Prof. Dr. R. Hujer
Probit- und Logit-Modell für dichotome Variablen
Formulierung eines Schwellenwertmodells
Es wird angenommen, dass den diskreten Ausprägungen der abhängigen Variablen eine stetige, aber unbeobachtbare (latente) Variable Yi∗ zugrunde liegt, deren Wertebereich nicht beschränkt ist:
Yi∗ = x0iβ + εi
Die Störgröße εi sei unabhängig identisch verteilt (i.i.d.) mit E(εi) = 0 und V ar(εi) = σ 2. Vorläufig erfolgt
noch keine konkrete Verteilungsannahme hinsichtlich εi.
Zwischen der latenten Variable Yi∗
(Schwellenwertmodell):
und den Beobachtungen besteht folgender Zusammenhang


 1, wenn Y ∗ > c
i
Yi =

 0, wenn Yi∗ ≤ c
16
Mikroökonometrie
Prof. Dr. R. Hujer
Überschreitet die latente Variable den Wert c, wird für die abhängige Variable der Wert Eins beobachtet, sonst
Null. Die inhaltliche Interpretation der latenten Variablen ist z.B. die Neigung zur Partizipation am Arbeitsmarkt oder der Kaufanreiz für ein Produkt. c kann dabei eine beliebige Konstante sein und als Anspruchswert
interpretiert werden. Aus Identifikationsgründen nehmen wir ohne Beschränkung der Allgemeinheit für den
Schwellenwert c = 0 an.
• Die Wahrscheinlichkeit für die Beobachtung von Yi = 1 ist:
P (Yi = 1) = P (Yi∗ > 0) = P (εi > −x0iβ) = 1 − F (−x0iβ)
mit: F (−x0iβ) : Verteilungsfunktion für die Residuen an der Stelle −x0iβ
• Die Wahrscheinlichkeit für die Beobachtung von Yi = 0 ist entsprechend:
P (Yi = 0) = P (Yi∗ ≤ 0) = P (εi ≤ −x0iβ) = F (−x0iβ)
• Falls die Verteilung symmetrisch ist, gilt:
P (Yi = 1) = F (x0iβ) oder P (Yi = 0) = 1 − F (x0iβ)
17
Mikroökonometrie
Prof. Dr. R. Hujer
Zum Vergleich:
• Lineares Wahrscheinlichkeitsmodell: E(Yi) = P (Yi = 1) = x0iβ
• Schwellenwertmodell: E(Yi) = P (Yi = 1) = 1 − F (−x0iβ)
⇒ Das Schwellenwertmodell vermeidet die inhaltliche Inkonsistenz des LWM: Die Wahrscheinlichkeit P (Yi =
1) ist im Schwellenwertmodell auf Werte zwischen 0 und 1 restringiert.
Bei der Schätzung des Modells mit der Maximum-Likelihood-Methode ist eine Verteilungsannahme für εi notwendig. Dabei finden prinzipiell zwei Verteilungen Verwendung: Wenn man sich vorstellt, dass sich die latente
Variable aus einer Vielzahl unabhängiger Einflussfaktoren zusammensetzt, kann aufgrund des Zentralen Grenzwertsatzes die Verteilungsfunktion einer Normalverteilung zugrundegelegt werden. Ökonomische Wahlhandlungen lassen sich dann auf der Grundlage eines Probit-Modells untersuchen. Alternativ dazu kann die logistische
Wahrscheinlichkeitsverteilung verwendet werden, die an den Rändern eine größere Wahrscheinlichkeitsmasse als
die Normalverteilung besitzt, was vom Standpunkt der robusten Statistik durchaus als vorteilhaft zu bewerten
ist.
18
Mikroökonometrie
I.2.2.
Prof. Dr. R. Hujer
Schätzung mit der Maximum-Likelihood-Methode
Zur Schätzung des Modells mit der Maximum-Likelihood-Methode stellen wir zunächst die Likelihoodfunktion
auf. Dabei setzen wir Unabhängigkeit der einzelnen Beobachtungen voraus. Aus unseren Ausführungen oben
ergibt sich:
Y
Y
0
L=
F (−xiβ)
[1 − F (−x0iβ)]
Yi =0
Yi =1
Die Form von F hängt von der Verteilungsannahme für εi ab.
19
Mikroökonometrie
Prof. Dr. R. Hujer
a) Dichotomes Probit-Modell
Wir treffen die folgenden Annahmen:
⇒ εi sei unabhängig identisch normalverteilt (i.i.n.d), εi ∼ N (0, σ 2)
⇒ Für Beobachtungen Yi = 1 gilt dann (wegen Symmetrie der Normalverteilung):
P (Yi∗ > 0) = P (εi > −x0iβ)
−x0i β
εi
= P σ > σ
0 0 −xi β
xβ
= 1−Φ σ
= Φ σi
⇒ Φ
x0i β
σ
=
R x0iβ
√1
−∞ 2π
σ
exp
−t2
2
dt ist Verteilungsfkt. der Standardnormalverteilung an der Stelle
⇒ Für die Nullbeobachtungen“ (Yi = 0) gilt entsprechend: P (Yi∗ ≤ 0) = 1 − Φ
”
x0i β
σ
x0i β
σ
20
Mikroökonometrie
Prof. Dr. R. Hujer
⇒ Die Likelihood-Funktion für das Probit-Modell bei geeigneter Anordnung der Stichprobe:
LProbit
0 Y 0 Y
xi β
xi β
]·
Φ
=
[1 − Φ
σ
σ
1
0
Erstes Produkt läuft über Beobachtungen mit Yi = 0, zweites Produkt über die mit Yi = 1.
Kompakte Schreibweise:
LProbit
N
Y
x0iβ
=
Φ
σ
i=1
Yi 0 1−Yi
xi β
· 1−Φ
σ
Identifikationsproblem: Nur βσ kann identifiziert werden, da unendlich viele Kombinationen von β und σ
die gleiche Wahrscheinlichkeit erzeugen.
⇒ Restringieren des Parameters σ auf 1, d.h. Annahme einer Standardnormalverteilung der Residuen.
21
Mikroökonometrie
Prof. Dr. R. Hujer
b) Dichotomes Logit-Modell:
Annahmen:
⇒ εi sei unabhängig identisch logistisch verteilt, mit E(εi) = 0 und V ar(εi) =
⇒ Aus Identifikationsgründen gelte, dass t2 = 1
t2 π 2
3 .
⇒ Standard-logistische Verteilung von εi.
⇒ Verteilungsfunktion der Standard-Logistischen Verteilung:
F (x0iβ)
=
1
1+exp(−x0i β)
=
exp(x0i β)
1+exp(x0i β)
⇒ Als Erfolgswahrscheinlichkeit Pi der Zufallsvariablen Yi, die über den Parametervektor β von x abhängt,
exp(x0 β)
erhalten wir daher: Pi(x) = 1+exp(xi 0 β)
i
Man bezeichnet diese Beziehung als binäres Logit-Modell. Zu schätzen ist der Parametervektor β. Dabei nimmt
die Variable Y nur die Werte 0 und 1 an. Dies führt, Unabhängigkeit der einzelnen Beobachtungen vorausgesetzt,
zu folgender Likelihoodfunktion:
22
Mikroökonometrie
Prof. Dr. R. Hujer
LLogit =
N
Y
PiYi · (1 − Pi)1−Yi
i=1
Einsetzen führt uns zu:
LLogit
N Y
=
1−
i=1
exp(x0iβ)
1 + exp(x0iβ)
1−Yi Yi
exp(x0iβ)
·
1 + exp(x0iβ)
Die logistische Dichtefunktion ähnelt der Dichte der Standardnormalverteilung, hat jedoch einen flacheren Verlauf
an den Enden. Für Logit- und Probit-Modell produziert die Maximum Likelihood-Methode konsistente Schätzer
für den Parametervektor β. Die Likelihood-Funktion ist in beiden Modellen global konkav.
Erste Ableitungen der Log-Likelihood-Funktion sind im Probit- und Logit-Modell nichtlinear. Aufsuchen der
Nullstellen erfolgt mittels iterativer Methoden (Newton-Raphson Methode, Method of Scores).
23
Mikroökonometrie
Prof. Dr. R. Hujer
Im Gegensatz zum LWM geben die Koeffizienten β beim Logit-Modell nicht mehr unmittelbar die Effekte einer
Veränderung einer erklärenden Variablen auf die Wahrscheinlichkeit an. Aus der Darstellung:
Pi
=
1 − Pi
exp(x0i β)
1+exp(x0i β)
1
1+exp(x0i β)
= exp(x0iβ)
Pi
0
folgt nach Logarithmierung die Beziehung: ln 1−P
=
x
i β,
i
aus der ersichtlich ist, dass die Parameter β beim Logit-Modell die Impulse auf die sogenannte log-odds ratio“
”
messen, die aus einer Veränderung der exogenen Größen um eine Einheit resultieren. Die log-odds ratio“ gibt
”
die Chance für eine Realisierung des betrachteten Ereignisses im Vergleich zum Komplementärereignis wieder.
Als Computer-Programme für die Maximum-Likelihood-Schätzung noch nicht zur Verfügung standen, wurde
die aus der Logit-Transformation“ entstandene lineare Beziehung geschätzt.
”
24
Mikroökonometrie
I.2.3.
Prof. Dr. R. Hujer
Praktische Anwendung von Logit-, Probit-, und LW-Modellen
Das Logit-Modell ist wegen geschlossener Form der Verteilungsfunktion einfacher handhabbar. Durch Fortschritte
in der EDV-Technologie haben das Logit-Modell und das LWM im binären Fall jedoch an Bedeutung verloren.
Rechentechnische Vorteile von Logit-Modellen im Falle einer diskreten abhängigen Variable mit mehr als 2
Ausprägungen. (Multinomiale Logit- bzw. Probit-Modelle).
Interpretation der Parameterschätzwerte:
Die Parameterschätzwerte können beim Probit- bzw. Logit-Modell nicht wie im klassischen linearen Regressionsmodell oder im LWM als marginale Effekte interpretiert werden. Für Probit- bzw. Logit-Modelle gilt vielmehr:
∂Pi ∂F (x0iβ)
=
· β = f (x0iβ) · β
0
∂xi
∂xiβ
mit f (x0iβ) : Dichtefunktion der jeweiligen Verteilung an der Stelle x0iβ.
25
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 1: Bedeutung von Eigenschaften eines Arthrosepräparats für die Verschreibungsentscheidung des Arztes
Ergebnisse einer ML-Schätzung - Logit-Modell -(Verschreibung ja/nein)
Erklärende Variablen
Koeffizient t-Wert
(Dummy-Variablen)
Konstante
-25.401 -12.107
Wirksamkeit wie Vergleichssubstanz
13.443
9.771
Wirksamkeit weniger stark
Referenz
Knorpelschutz stark ausgeprägt
18.716
13.717
Knorpelschutz nicht vorhanden
Referenz
Nebenwirkungen weniger
0.5378
4.322
Nebenwirkungen vergleichbar
Referenz
Nebenwirkungen mehr
-15.081
-7.365
Tagestherapiekosten DM 1,83
0.1488
9.443
Tagestherapiekosten DM 4,47
0.5762
3.471
Tagestherapiekosten DM 5,88
Referenz
Tagestherapiekosten DM 8,00
-0.5285
-3.097
Hersteller Stellapharma
0.1395
0.948
Hersteller Lunapharma
0.0010
0.006
Hersteller Andere
Referenz
26
Mikroökonometrie
I.2.4.
Prof. Dr. R. Hujer
Anwendungsbeispiel Zigarettenkonsum 1: Dichotomes Probit-Modell
Nachfolgend wollen wir die vorgestellten Schätzmethoden an einer konkreten empirischen Anwendung verdeutlichen. Dabei geht es um den Kauf von Zigaretten, wobei wir zunächst nur zwischen der Wahl Light-Zigarette ja
”
/ nein“ unterscheiden und das Modell dann sequentiell weiter ausbauen. Wir verwenden dazu einen Datensatz
indem 8.096 Zigarettenkäufe enthalten sind, die zwischen September und Dezember 1991 getätigt wurden. Zu
jedem Käufer liegen sozioökonomische Daten vor, die nachfolgend beschrieben sind:
AGE
Alter des Individuums
SEX
Geschlecht (0 = männlich, 1 = weiblich)
SINGLE
1 wenn nur ein Haushaltsmitglied, 0 sonst
EDUCATION
Jahre Schulausbildung / sonstige Ausbildung
INCOME
Einkommen pro Haushaltsmitglied mit eigenem Einkommen (in Tausend DM)
INCOME2
Quadriertes Einkommen um Nicht-Linearitäten zuzulassen
BLUECOL
OFFICAL
1 wenn das Individuum ein BLUE COLLAR“-Arbeiter ist, 0 sonst
”
1 wenn das Individuum ein WHITE COLLAR“-Arbeiter ist, 0 sonst
”
1 wenn das Individuum im Büro arbeitet, 0 sonst
LEAD
1 wenn das Individuum selbständig ist oder eine Führungsposition einnimmt
SUMVAL
Wert der Käufe in der Beobachtungsperiode um starke Raucher zu unterscheiden
AVGVAL
Durchschnittswert der Käufe in der Beobachtungsperiode, um für die Regelmäßigkeit der Käufe zu
kontrollieren
WHITECOL
27
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 2: Einfluss von individuellen Charakteristika auf die Wahl: Kauf Light-Zigarette (1) / sonst (0) Ergebnisse
einer ML-Schätzung - Probit-Modell - (Kauf Light ja/nein)
Erklärende Variablen Koeffizient t-Wert
Konstante
-26.903
-18.235
AGE
0.0042
2.439
SEX
0.4493
10.020
SINGLE
0.2359
4.726
EDUCATION
0.1001
3.394
INCOME
0.2000
3.790
INCOME2
-0.0337
-4.346
BLUECOL
0.1089
1.895
WHITECOL
-0.0210
-0.534
OFFICAL
-0.4178
-5.219
0.5291
9.669
SUMVAL
-0.0008
-9.165
AVGVAL
0.0035
2.584
LEAD
28
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 3: Deskriptive Beschreibung der im Datensatz enthaltenen Variablen
Variable
Mittelwert Stand.abw. Minimum Maximum
AGE
36,245
9,6713
18
78
SEX
0,7294
0,4443
0
1
0,125
0,3307
0
1
EDUCATION
11,121
2,3817
8
19,5
INCOME
2,5579
1,136
0,375
10
BLUECOL
0,1742
0,3793
0
1
WHITECOL
0,4056
0,491
0
1
0,065
0,2464
0
1
LEAD
0,0958
0,2967
0
1
SUMVAL
245,33
376,25
4,99
6440
AVGVAL
11,921
26,389
4,99
495,4
SINGLE
OFFICAL
29
Mikroökonometrie
I.2.5.
Prof. Dr. R. Hujer
Zufallsnutzen-Modelle
Eine alternative Interpretation für individuelle Wahlentscheidungen bieten die sogenannten Zufallsnutzen-Modelle
( random utility models“). Die latente Variable kann in diesem Fall als Nutzenindex interpretiert werden. Als
”
Beispiel für einen dichotomen Fall stellen wir uns vor, dass ein Konsument vor der Wahl zwischen dem Produkt A
und dem Produkt B steht. Beide Produkte spenden einen bestimmten Nutzen (UA und UB ), den wir nicht beobachten können. Die getroffene Wahl enthüllt, welches Produkt einen höheren Nutzen hat. Die Indikatorvariable
Y nimmt den Wert 1 an, wenn UA > UB und den Wert 0, falls UA ≤ UB .
Wir unterstellen ein lineares Modell, Unabhängigkeit zwischen εA und εB , sowie E(εj ) = 0, V ar(εj ) für
j = A, B. Dann gilt:
UA = x0βA + εA und UB = x0βB + εB
30
Mikroökonometrie
Prof. Dr. R. Hujer
Daraus folgt:
P (Y = 1|x) = P [UA > UB ] = P [x0βA + εA − x0βB − εB > 0]
= P [x0(βA − βB ) + εA − εB > 0]
= P [x0β + ε > 0]
Dabei treffen wir zunächst noch keine Verteilungsannahme für die Störterme εA und εB und greifen auf diese
Ergebnisse im polytomen Fall bei der Behandlung von multinomialen Logit-Modellen zurück.
31
Mikroökonometrie
I.3.
Prof. Dr. R. Hujer
Gütemaße für Modelle mit diskreter abhängiger Variable
Im linearen Modell: Messung der Anpassungsgüte mit R2:
ε̂2i
R =1− P
(yi − y)2
2
P
⇒ durch Minimierung der Abstandsquadrate erfolgt eine Maximierung der Anpassungsgüte. Die Verwendung
von R2 ist in Probit- bzw. Logit-Modellen problematisch, da:
a) Berechnung von ε̂i = yi∗ − ŷi∗ nicht möglich, da yi∗ nicht beobachtet werden kann
b) Maximum-Likelihood-Methode verfolgt andere Zielfunktion als OLS: Maximierung der Likelihoodfunktion,
nicht Minimierung von Abständen.
32
Mikroökonometrie
Prof. Dr. R. Hujer
Alternative Maße der Anpassungsgüte:
2
2
2
a) McFaddens R2 (RM
F ) und Aldrich-Nelson R ; (RAN ): Beide Anpassungs-Maße setzen am Wert der
Log-Likelihood-Funktion an; es ist eine Normierung nötig, da der absolute Wert der Likelihood-Funktion
nicht aussagekräftig ist.
L̂
2
– Mc Faddens R2: RM
F = 1 − L̂
0
mit: L̂ :
Log-Likelihood-Funktion mit ML-Schätzwerten des jew. Modells
L̂0 : Log-Likelihood-Funktion des sog. Nullmodells. Im Nullmodell ist keine Einflußgröße
spezifiziert (β = 0).
2
Da Wert der Log-Likelihood stets ≤ 0 und L̂ > L̂0, gilt: 0 ≤ RM
F ≤ 1.
L̂−L̂0 )
2
– Aldrich-Nelson R2: RAN
= 1 − 2(2(L̂−
.
L̂ )+n
0
2
Die Konstante n (Anzahl Beobachtungen) dient dazu, RAN
zwischen 0 und 1 zu zwingen.
33
Mikroökonometrie
Prof. Dr. R. Hujer
2
b) McKelvey-Zavoina R2 (RM
Z)
McKelvey-Zavoina: Anpassungsgüte für die latente Variable Y ∗
Ansatz: Streuungszerlegung für latente Variable wie im üblichen R2: Verhältnis der erklärten zur gesamten
Varianz für latente Variable:
P ∗
P ∗
∗ 2
(ŷi − y )
(ŷi − y ∗)2
2
P ∗
P 2
R =P ∗
∗ 2 =
∗ 2
(yi − y )
(ŷi − y ) + ε̂i
Da Beobachtungen von yi∗ nicht verfügbar sind und eine Berechnung der geschätzten Residuen nicht möglich
ist:
P ∗
(ŷi − y ∗)2
2
RM Z = P ∗
(ŷi − y ∗)2 + n · σ 2
Zweiter Ausdruck im Nenner entspringt der Überlegung, daß der Erwartungswert der Quadratsumme der
2
Störvariablen gleich n · σ 2 ist. Im Probit-Modell ist σ 2 auf 1 normiert. Im Logit-Modell ist σ 2 durch π3
gegeben!
34
Mikroökonometrie
I.4.
I.4.1.
Prof. Dr. R. Hujer
Logit-Modelle für polytome Variablen
Motivation mittels eines Zufallsnutzen-Modells
Als Verallgemeinerung lassen wir nun r verschiedene Werte für die Indikatorvariable Y zu. Dabei machen wir
uns das Zufallsnutzen-Modell aus Abschnitt I.2.5 zu Nutze, und modellieren explizit den Auswahlprozess durch
die latente Variable Uij , die den Nutzen der Alternative j für Individuum i angibt.
Aus der Hypothese der Nutzenmaximierung folgt, dass diejenige Alternative gewählt wird, für die der Nutzen
maximal ist. Den Nutzen fassen wir als Zufallsvariable auf, der sowohl von individuenspezifischen als auch
kategorienspezifischen Aspekten abhängt. Wir schreiben:
(1) Uij = x0iβj + εij
(2) Uij = x0ij β + εij
Im ersten Fall hängt der Nutzen von individuellen Charakteristika ab, wobei xi ein Vektor von beobachteten
Charakteristika (z.B.: Alter, Geschlecht, Einkommen) für Individuum i ist.
35
Mikroökonometrie
Prof. Dr. R. Hujer
Im zweiten Fall hängt der Nutzen auch von den Eigenschaften der Alternativen ab. xij ist ein Vektor, der die
Werte dieser Eigenschaften (z.B.: Farbe, Haltbarkeit, Leistung) für Alternative j aus Sicht des Individuums i
enthält. Wir folgen der Notation von Maddala (1983) und Greene (2003) und bezeichnen den ersten Fall
als multinomiales Logit-Modell und den zweiten Fall als bedingtes Logit-Modell ( Conditional Logit-Model“).
”
Eine Kombination beider Ansätze ist denkbar, soll aber hier nicht weiter vertieft werden.
In der Praxis enthalten die meisten der zu analysierenden mikroökonometrischen Datensätze nur eine der beiden
Informationsarten, so dass die Wahl eines der beiden Ansätze nicht schwer fällt (siehe auch unser Beispiel im
Abschnitt I.2.4).
36
Mikroökonometrie
I.4.2.
Prof. Dr. R. Hujer
Multinomiales Logit-Modell
Zur Schätzung müssen wir nun für den Störterm eine Verteilungsannahme treffen. Die Normalverteilung führt
zum multinomialen Probit-Modell, das für mehr als zwei Alternativen wegen der numerischen Bestimmung
der mehrdimensionalen Integrale komplexere Methoden erfordert (→ Simulated Moments). Falls die Störterme
unabhängig voneinander standard-extremwertverteilt sind, ist die Auswahlwahrscheinlichkeit für Kategorie j
durch Individuum i gegeben mit:
exp(x0iβj )
Pij = P (Uij > Uik ) = Pr
0β ),
exp(x
i s
s=1
j 6= k;
j = 1, . . . , r.
(2)
(Beweis: siehe Ronning (1991), Seite 73ff.)
Dabei ist jedes βk ein K-dimensionaler Vektor. Für eine eindeutige Parametrisierung legen wir den Parametervektoren βk die Restriktion βr = 0 auf. Die Wahrscheinlichkeiten sind dann:
37
Mikroökonometrie
Prof. Dr. R. Hujer
exp(x0iβj )
Pij =
,
Pr−1
0
1 + k=1 exp(xiβk )
Pir =
j = 1, 2, . . . , r − 1
1
,
Pr−1
0
1 + k=1 exp(xiβk )
wobei die Wahrscheinlichkeit für Kategorie r durch die übrigen r − 1 Wahrscheinlichkeiten impliziert ist.
h i
P
Das Modell impliziert, dass wir r − 1 log-odds ratios“ der Form ln Pirij = x0iβj berechnen können. Vom Stand”
punkt der Schätzung ist es vorteilhaft, dass die odds-ratio“ nicht von den anderen Wahlmöglichkeiten abhängt.
”
Damit sind allerdings auch Probleme verbunden, die wir in Kapitel I.4.6 behandeln werden. Die Schätzung des
multinomialen Logit-Modells erfolgt mit Maximum-Likelihood. Als Likelihood-Funktion erhalten wir:
LMulti Logit =
N Y
r
Y
Y
Pijij .
i=1 j=1
38
Mikroökonometrie
Prof. Dr. R. Hujer
Bei der Interpretation der Parameter ist folgendes zu beachten:
a) Unter verschiedenen Normierungen der βk ergeben sich unterschiedliche Parameter- bzw. Schätzwerte.
b) Die Notwendigkeit der Normierung weist darauf hin, dass die absolute Größe der Parameterwerte keine
inhaltliche Bedeutung hat. Vielmehr sind nur die Differenzen βk − βj von Bedeutung.
39
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Extremwertverteilung
Für eine beliebige Zufallsvariable X gilt:
(x−α)
(x−α)
1
Dichtefunktion:
f (x) = t exp − t
exp − exp − t
,
Verteilungsfunktion: F (x) = exp − exp − (x−α)
t
Erwartungswert:
E(X) = α + tγ,
Varianz:
V (X) =
−∞ < x < ∞
γ = 0, 577216 Euler-Konstante
t2 π 2
6
Die standardisierte Extremwertverteilung der Störterme ε ergibt sich für t = 1 und α = 0.
40
Mikroökonometrie
I.4.3.
Prof. Dr. R. Hujer
Bedingtes Logit-Modell
Beim bedingten Logit-Modell hängt die Wahrscheinlichkeit, dass Individuum i die Alternative j wählt, von den
Eigenschaften der Alternativen ab. xij ist ein Vektor, der die Werte dieser Eigenschaften für Alternative j aus
Sicht des Individuums i enthält. Wir erhalten:
exp(x0ij β)
Pij = Pr
0 β) ,
exp(x
k=1
ik
j = 1, . . . , r.
(3)
Die Likelihood-Funktion ist die gleiche wie beim multinomialen Logit-Modell. Da unser Beispieldatensatz keine
alternativenspezifischen Informationen enthält, wollen wir uns mit diesem Modell nicht weiter beschäftigen.
41
Mikroökonometrie
I.4.4.
Prof. Dr. R. Hujer
Vergleich zwischen multinomialen und bedingtem Logit-Modell
Auch wenn die Modelle in (2) und (3) algebraisch äquivalent sind (Beweis: siehe Maddala (1983), S. 42) gibt
es einige Unterschiede bei der Interpretation, die sich am besten mit einem Beispiel verdeutlichen lassen.
Nehmen wir an, dass n Konsumenten unter einer Reihe von r Produkten wählen können. Die Produkte werden
jeweils durch drei Eigenschaften charakterisiert: Preis, Farbe und Haltbarkeit. Beim bedingten Logit-Modell ist
xij ein Vektor, der den Wert dieser Eigenschaften für Produkt j aus Sicht des Individuums i enthält. Gleichung
(3) gibt dann die Wahrscheinlichkeit dafür an, dass Individuum i das Produkt j wählt. Der β-Vektor liefert uns
den relativen Wert dieser Eigenschaften für die einzelnen Individuen. Kommt nun ein neues Produkt hinzu und
liegen uns die Einschätzungen der Konsumenten für dieses Produkt vor, können wir die β-Koeffizienten dazu
nutzen, um die Wahrscheinlichkeit dafür zu bestimmen, dass Individuum i Produkt j kauft.
42
Mikroökonometrie
Prof. Dr. R. Hujer
Das multinominale Logit-Modell beantwortet eine andere Fragestellung. Nehmen wir wieder an, dass es r verschiedene Produkte gibt, aus denen die n Konsumenten wählen können. xi ist ein Vektor von beobachteten
Charakteristika (z.B.: Alter, Geschlecht, Einkommen, etc.) für Individuum i. Die Wahrscheinlichkeit, dass ein
Individuum mit diesen Eigenschaften das Produkt j kauft, ist dann durch Gleichung (2) gegeben. Kommt ein
neuer Konsument hinzu, dessen Eigenschaften wir kennen, können wir die Wahrscheinlichkeit dafür bestimmen,
dass dieser Konsument eines der r Produkte kauft.
Die Anzahl der zu schätzenden Parameter ist im bedingten Logit-Modell gleich der Anzahl der Charakteristika
der Produkte, während beim multinomialen Logit-Modell [(r − 1)× Anzahl der individuellen Eigenschaften ]
Parameter geschätzt werden müssen.
43
Mikroökonometrie
I.4.5.
Prof. Dr. R. Hujer
Anwendungsbeispiel Zigarettenkonsum 2: Multinomiales Logit-Modell
Wir setzen unser Beispiel aus dem Kapitel I.2.4 fort und schätzen nun ein multinomiales Logit-Modell für den
Zigarettenkauf, wobei vier Alternativen zur Wahl stehen:
1 = Marlboro, 2 = Camel, 3 = R1, 4 = Sonstige Marke.
Wir berücksichtigen nur sozioökonomische Informationen (vernachlässigen also die alternativenspezifischen Informationen) und schreiben den Nutzen der einzelnen Marken als (ohne Störterm):
UMarlboro
= x0βMarlboro
UCamel
= x0βCamel
UR1
= x0βR1
USonstige Marke = x0βSonstige Marke
Die Ergebnisse sind in Tabelle 4 zu finden.
44
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 4: Ergebnisse einer ML-Schätzung - Multinomiales Logit-Modell - (Wahl zwischen 4 Alternativen) (Der
Parametervektor βSonstige Marke wurde auf 0 normiert)
Marlboro
Camel
R1
Erklärende Variablen
βMarlboro
t-Wert
βCamel
t-Wert
βR1
t-Wert
Konstante
0,4054
1,538
-1,078
2,602
-5,924
13,283
AGE
-0,049
-12,001 -0,0493
-7,745
0,048
8,565
SEX
0,125
1,531
0,2233
1,616
0,094
0,613
-0,2723
-2,707
0,6332
4,588
0.3016
1,683
-3,895 -0,0253
-1,03
0,0951
3,736
0,1056
2,4
0,0184
0,341
6,708 -0,2913
-1,648
0,3863
1,771
-0,097
-0,834 -0,2152
-1,412
-1,307 -0,3345
1,466
SINGLE
EDUCATION
-0,06
INCOME
-0,067
-2,074
BLUECOL
0,7211
WHITECOL
0,8286
OFFICAL
0,9361
6,553 -0,3499
LEAD
0,8969
8,789
SUMVAL
0,0003
1,972 -0,0001
AVGVAL
-0,0174
10,479
-3,082
0,4863
0,0248
2,865
1,1715
6,356
-0,534 -0,0029
-6,299
0,796
0,0046
1,108
Log Likelihood: -6144,1
45
Mikroökonometrie
I.4.6.
Prof. Dr. R. Hujer
Unabhängigkeit von irrelevanten Alternativen
Sowohl das bedingte als auch das multinomiale Logit-Modell lassen sich als Modell für Auswahlwahrscheinlichkeiten unter der Hypothese der Nutzenmaximierung interpretieren (Abschnitt I.4.1). Dabei haben wir angenommen,
dass die Störterme extremwertverteilt sind. Dies führt allerdings zur Unabhängigkeit von irrelevanten Alterna”
tiven“. Wir wollen dies an einem Beispiel verdeutlichen. Angenommen, jemand hat die Auswahl zwischen drei
Verkehrsmitteln:
1 = Fahrt mit dem Auto;
2 = Fahrt mit einem roten Bus;
3 = Fahrt mit einem blauen Bus.
46
Mikroökonometrie
Prof. Dr. R. Hujer
Als Auswahlwahrscheinlichkeit für die Alternative j erhalten wir (im bedingten Logit-Modell):
exp(x0ij β)
Pij = Pr
0 β) ,
exp(x
k=1
ik
j = 1, 2, 3.
Für das Verhältnis der Auswahlwahrscheinlichkeiten P1 und P2 gilt: PP12 = exp((x1 − x2)0β), d.h. die Relation
ist unabhängig davon, welche Ausprägung die dritte Kategorie hat. Die Auswahlwahrscheinlichkeit zwischen
zwei Alternativen wird also nicht von den übrigen Alternativen berührt. Für die Auswahlwahrscheinlichkeit
zwischen Auto und rotem Bus ist es z.B. egal, ob es sich bei der dritten Alternative um einen blauen Bus
oder ein Flugzeug handelt. Diese unplausible Eigenschaft hängt mit der Ausgangsannahme zusammen, dass
die Störterme unabhängig voneinander verteilt sind. Die Unabhängigkeit der Störterme ε2 (roter Bus) und ε3
(blauer Bus) ist dabei nicht nachzuvollziehen, da eine hohe (niedrige) Auswahlwahrscheinlichkeit für einen roten
Bus i.A. auch eine hohe (niedrige) Wahrscheinlichkeit für einen blauen Bus mit sich bringen sollte. Als Lösung
für dieses Problem bieten sich ein multinomiales Probit-Modell oder ein genistetes Logit-Modell an.
47
Mikroökonometrie
I.4.7.
Prof. Dr. R. Hujer
Test der IIA-Annahme
Das Beispiel roter Bus – blauer Bus“ verdeutlicht die Unzulänglichkeit der IIA-Annahme zur Abbildung be”
stimmter Entscheidungssituationen. Eine Möglichkeit zum Test der IIA-Annahme besteht darin, im ersten
Schritt ein Modell zu schätzen, das alle Alternativen berücksichtigt. Die geschätzten Parameter werden dann
mit den Schätzern von Modellen verglichen, in denen eine oder mehrere Alternativen weggelassen wurden.
Ein geeigneter Test dazu ist der Hausman-Test1. Wenn sich die Schätzer (und damit auch die Wahrscheinlichkeiten) deutlich voneinander unterscheiden, muß die IIA-Annahme verworfen werden. Zur Schätzung ist dann
ein flexibleres Modell zu verwenden, wie z.B. das genistete Logit-Modell oder das Multinomiale Probit-Modell.
1
Hausman, J. (1978): Specification Tests in Econometrics“, Econometrica, 46, S.1251–1271
”
Siehe auch Hausman, J. und D. McFadden (1984): Specification Tests for the Multinomial Logit Model“, Econometrica, 52, S. 1219–1240
”
48
Mikroökonometrie
Prof. Dr. R. Hujer
Hausman-Test auf Gültigkeit der IIA-Annahme:
1.) Schätze ein bedingtes oder multinomiales Logit-Modell, das alle Alternativen der abhängigen
Variable berücksichtigt. Die geschätzten Paramtervektoren seien β˜cl oder β˜ml .
2.) Schließe eine Alternative r aus und wiederhole die Schätzung. Die Schätzer dieses restrinr
r
gierten Modells seien β˜cl beziehungsweise β˜ml .
r
r
3.) Bilde die Differenz β˜cl − β˜cl beziehungsweise β˜ml − β˜ml .
−1
r
r
r
2
0
4.) Verwende die folgende Test-Statistik: χr = (β˜cl − β˜cl ) Σ(β˜cl ) − Σ(β˜cl )
(β˜cl − β˜cl )
r
mit Σ(β˜cl ) und Σ(β˜cl ) als Kovarianzmatrix des restringierten und des unrestringierten
Modells. Ersetze für das multinomiale Logit βcl durch βml .
5.) χ2r folgt einer χ2-Verteilung mit der Anzahl von Freiheitsgraden entsprechend der Anzahl
von Parametern im restringierten Modell.
6.) Überschreitet der Wert der Test-Statistik den entsprechenden kritischen Wert, so ist die
Differenz zwischen den Parametern im unrestringierten und restringierten Modell signifikant
und die IIA-Annahme muß verworfen werden.
49
Mikroökonometrie
I.4.8.
Prof. Dr. R. Hujer
Genistetes Logit-Modell
Bei diesem Modell werden die Alternativen in Teilgruppen gegliedert. Dabei kann die Varianz zwischen den Gruppen variieren, während innerhalb der Gruppe die IIA-Annahme beibehalten wird. Es wird eine Baumstruktur
des Entscheidungsproblems unterstellt, bei dem ähnliche Alternativen in die gleiche Teilgruppe gelangen.
In unserem empirischen Beispiel könnte ein solcher Entscheidungsbaum folgendermaßen aussehen:
Der Konsument entscheidet sich zunächst, welche Art von Zigaretten er kaufen will (Light / Keine Light) und
trifft dann die Wahl zwischen verschiedenen Marken (Marlboro, Camel, Sonstige).
50
Mikroökonometrie
Prof. Dr. R. Hujer
In allgemeiner Notation steht der Konsument vor der Wahl zwischen C verschieden Gruppen von Alternativen
(im Beispiel zwei), wobei g = 1, 2, . . . , C. Innerhalb jeder Gruppe werden die Alternativen mit j = 1, 2, . . . , Cg
indiziert (im Beispiel jeweils drei Alternativen). Der Konsumentennutzen der Alternative Ugj hängt dann im
allgemeinsten Fall von den Eigenschaften der Alternative innerhalb einer Gruppe, den Eigenschaften der Gruppe
selbst und den persönlichen Eigenschaften des Individuums ab.
Zur Vereinfachung unterstellen wir die folgende Nutzenfunktion:
Ugj = Vgj + εgj ,
wobei Vgj = x0gj β + yg0 α.
xgj ist ein Vektor der zwischen den Gruppen und den Alternativen variieren kann (z.B. individuelle Charakteristika wie Alter), während der Vektor yg nur zwischen den Gruppe variiert (z.B. Tabaksorte). α und β sind
zu schätzende Parametervektoren. Wenn wir annehmen, dass die εij i.i.d. extremwertverteilt sind, ist die Wahlwahrscheinlichkeit für die (g, j)-te Alternative gegeben durch:
51
Mikroökonometrie
Prof. Dr. R. Hujer
exp(Vgj )
Pgj = PC PCg
j=1 exp(Vgj )
g=1
Diese Wahrscheinlichkeit ergibt sich auch als Produkt der bedingten Wahrscheinlichkeit, dass die Alternative j
gewählt wurde gegeben Gruppe g, und der marginalen Wahrscheinlichkeit, dass Gruppe g gewählt wurde:
Pgj = Pj|g · Pg
Es gilt:
exp(x0gj β)
exp(Vgj )
Pj|g = PCg
j=1 exp(Vgj )
= PCg
0
j=1 exp(xgj β)
(4)
und
PCg
j=1 exp(Vgj )
Pg = PC PCg
=
j=1 exp(Vgj )
g=1
PCg
0
exp(yg α) j=1 exp(x0gj β)
PC
PCg
0
0 α)
exp(y
g
j=1 exp(xgj β)
g=1
(5)
52
Mikroökonometrie
Prof. Dr. R. Hujer
Wir definieren:

Ig = log 

Cg
X
exp(x0gj β)
j=1
und schreiben die Gleichungen (4) und (5) kompakter als:
Pj|g
exp(x0gj β)
=
exp(Ig )
(6)
und
exp(yg0 α + Ig )
Pg = PC
0
g=1 exp(yg α
+ Ig )
.
(7)
53
Mikroökonometrie
Prof. Dr. R. Hujer
Die Schätzung des Modells erfolgt dann in zwei Stufen:
Stufe 1: Zuerst werden die Parameter β der Gleichung (4) und im Anschluss daran die Werte Ig berechnet.
Stufe 2: Danach wird Gleichung (7) mit Hilfe der berechneten Ig -Werte berechnet.
Dieser sequentielle Schätzansatz kann auch für komplexere Entscheidungsstrukturen verwendet werden (wird
hier nicht weiter behandelt, siehe Maddala, S.69).
I.4.9.
Anwendungsbeispiel Zigarettenkonsum 3: Genistetes Logit-Modell
Wir wenden das soeben vorgestellte genistete Logit-Modell nun wieder auf unser empirisches Beispiel an. Dabei unterstellen wir eine zweistufige Entscheidungsprozedur. Auf der ersten Stufe wählt der Konsument, ob er
Light-Zigaretten oder andere Zigaretten raucht und auf der zweiten Stufe, ob er die Marke Marlboro oder eine andere Marke wählt. Dabei schließen wir alternativenspezifische Eigenschaften (z.B. unterschiedliche Tabaksorten)
aus und berücksichtigen nur Eigenschaften der Konsumenten. Wir unterscheiden Effekte der Konsumenteneigenschaften auf die Wahl der Zigarettenart (Light / Keine Light) und die Wahl der Marke innerhalb einer gewählten
Art.
54
Mikroökonometrie
Prof. Dr. R. Hujer
Damit ergibt sich die folgende (allgemeine) Nutzenfunktion:
Ugj = x0γgj + x0δg + εgj
Die Konsumentennutzen in diesem zweistufigen Modell mit zwei Alternativen sehen dann folgendermaßen aus:
UMarlboro Light = x0γMarlboro Light + x0δLight
UAndere Light
= x0γAndere Light + x0δLight
UMarlboro
= x0γMarlboro + x0δKeine Light
UAndere
= x0γAndere + x0δKeine Light
Um die Parameteridentifikation zu sichern setzen wir die Parameter γAndere, γAndere Light, δKeine Light gleich Null. Die
Ergebnisse sind in den Tabellen 5 und 6 zu finden.
55
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 5: Ergebnisse einer ML-Schätzung - Erste Stufe eines genisteten multinomialen Logit-Modells (Die
Parametervektor γAndere, γAndere Light, δKeine Light wurden auf 0 normiert)
Erklärende Variablen γMarlboro Light
t-Wert
γMarlboro
t-Wert
-0,537
Konstante
1,4864
2,599 -0,1568
SEX
0,4077
2,046
0,2657
3,187
-0,7386
-3,533
-0,234
-2,263
0,0038
0,503 -0,0535
-13,007
EDUCATION
-0,0609
-2,166 -0,0255
-1,627
INCOME
-0,8734
-3,056
0,1802
1,531
INCOME2
0,1217
2,592
-0,048
-2,559
BLUECOL
-0,9559
-4,052
0,8283
7,48
WHITECOL
-0,6864
-4,509
0,8907
11,085
OFFICAL
-0,7241
-1,696
0,8671
6,053
LEAD
-0,3219
-1,679
1,1189
10,468
3,279 -0,0083
-2,606
SINGLE
AGE
AVGVAL
0,028
SUMVAL
0,0006
Log Likelihood:
1,681
0,0002
1,555
-3969,1
56
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 6: Ergebnisse einer ML-Schätzung - Zweite Stufe eines genisteten multinomialen Logit-Modells (Unter
Verwendung des I-Wertes aus der ersten Stufe; Parametervektor δKeine Light wurde auf 0 normiert)
Erklärende Variablen
Konstante
SEX
SINGLE
AGE
EDUCATION
INCOME
INCOME2
BLUECOL
WHITECOL
OFFICAL
LEAD
AVGVAL
SUMVAL
INCL.VALUE (I-Wert)
Log Likelihood: - 3144,0
δLight
t-Wert
-3,1199
-7,777
0,9818
10,347
0,1932
1,559
-0,013
-2,749
0,1424
9,18
-0,007
-0,042
0,0145
-0,55
-0,3307
-1,559
-0,3088
-1,867
-1,2913
-5,653
0,5782
3,296
0,0197
3,007
-0,0097
-5,476
-0,7462
-2,529
57
Mikroökonometrie
I.5.
Prof. Dr. R. Hujer
Logit- und Probit-Modell für geordnete Kategorien
Wir nehmen nun an, dass wir mehrere geordnete Kategorien haben. Ein Beispiel für eine solche Datenlage könnte
folgende Klassifizierung von Bildungsniveaus sein:
1 = weniger als mittlere Reife, 2 = Mittlere Reife, 3 = Abitur, 4 = Studienabschluss
Wir unterstellen eine latente Variable Y ∗ und eine polytome beobachtbare Indikator-Variable Y , zwischen denen
der folgende Zusammenhang besteht:

∗

1
falls
−∞
<
Y
≤ γ1




 2 falls γ < Y ∗ ≤ γ
1
2
Y = .

..




 r falls γ
<Y∗ <∞
r−1
58
Mikroökonometrie
Prof. Dr. R. Hujer
Wenn Y ∗ einer Logistischen Verteilung folgt und wir die gleichen Annahmen wir bisher treffen, erhalten wir als
Wahrscheinlichkeit für die Kategorie j:
P (Y = j|x) = P (Y ∗ ≤ γj ) − P (Y ∗ ≤ γj−1) = P (u ≤ γj − x0β) − P (u ≤ γj−1 − x0β).
Daraus ergibt sich das Logit-Modell für geordnete Kategorien.
P (Y = j|x) =









1
1+exp(−(γj −x0 β))
1
1
1+exp(−(γj −x0 β)) − 1+exp(−(γj−1 −x0 β))
1 − 1+exp(−(γ1j−1−x0β))
für j = 1
für j = 2, . . . , r − 1
für j = r
59
Mikroökonometrie
Prof. Dr. R. Hujer
Drei Dinge seien angemerkt:
a) Die Anzahl der zu schätzenden Parameter hat sich gegenüber dem multinomialen Logit-Modell verringert.
Dabei müssen die Schwellenwerte γj die Restriktionen γ1 < γ2 < . . . < γr − 1 erfüllen.
b) Die Auswahlwahrscheinlichkeiten Pi ergeben sich als Differenzen von Werten einer Verteilungsfunktion
Fi, d.h. Pi = Fi − Fi−1, während im Fall ungeordneter Kategorien die Wahrscheinlichkeit durch einen
Ausdruck bestimmt wird.
c) Im Fall r = 2 sind die beiden Logit-Modelle (für geordnete und ungeordnete Kategorien) identisch.
Die Loglikelihoodfunktion ist gegeben durch:
LLOrdered Logit =
r
N X
X
Yij log Pij
i=1 j=1
60
Mikroökonometrie
Prof. Dr. R. Hujer
Wenn wir nun annehmen, dass Y ∗ normalverteilt mit der Varianz σ 2 ist, erhalten wir das Probit-Modell für
geordnete Kategorien (wir normieren α = 0 und σ = 1). Als Wahrscheinlichkeit für die Kategorie j erhalten
wir:
P (Y = j|x) = Φ(γj − x0β) − P (γj−1 − x0β)
Die Loglikelihoodfunktion entspricht der im Logit-Modell für geordnete Kategorien.
I.5.1.
Anwendungsbeispiel: Verordnungsentscheidung
Im Rahmen einer Primärerhebung bei rund 200 Ärzten wurden neben 38 Fragen zur Zufriedenheit mit bestimmten Firmenmerkmalen, auch das Weiterempfehlungs- und Verschreibungsverhalten sowie weitere Strukturvariablen (persönliche Merkmale, Anzahl der Verschreibungen pro Quartal, Angaben zur Region, etc.) abgefragt.
Zur Modellierung der Verordnungsentscheidung Vi wurde ein Probit-Modell für geordnete Kategorien verwendet. Definiert man die Indikatorvariable Vi für die vier beobachtbaren Verordnungskategorien, so läßt sich der
Zusammenhang zwischen der latenten Verordnungsneigung Vi∗ und der beobachteten Entscheidung durch das
nachfolgende Schwellenwertscema beschrieben:
61
Mikroökonometrie
Prof. Dr. R. Hujer
0 Verordnungen pro Woche:
1 - 5 Verordnungen pro Woche:
6 - 9 Verordnungen pro Woche:
10 und mehr Verordnungen pro Woche:
Vi
Vi
Vi
Vi
=1
=2
=3
=4
wenn
wenn
wenn
wenn
−∞ < Vi∗ < γ1
γ1 < Vi∗ < γ2
γ2 < Vi∗ < γ3
γ3 < Vi∗ < ∞,
Tabelle 7: Ergebnisse einer ML-Schätzung - Ordered“ Probit-Modell - Verordnungsentscheidung (der Schwel”
lenwert γ1 wird auf 0 normiert)
Erklärende Variablen
Parameter t-Wert
Konstante
0.9984
15.205
Soft Skills
0.2723
25.178
Medizinische Erfahrungen
0.5962
57.893
Firmenimage
0.2918
29.598
Kundenbetreuung
0.2280
29.048
Produktgestaltung
0.2175
20.450
Hard Skills
0.1062
12.713
Weitere erklärende Variablen
............ ............
Threshold 2
17.863 108.625
Threshold 3
25.736 143.189
R2 (McKelvey/Zavoina)
0.3510
R2 (Aldrich/Nelson)
0.1495
R2 (McFadden)
0.1860
62
Mikroökonometrie
II.
II.1.
Prof. Dr. R. Hujer
Zensierte oder gestutzte abhängige Variable
Zensierung und Stutzung im Regressionskontext
Zensiertes Modell basiert auf einer Stichprobe, in der für einige Auswahleinheiten die abhängige Variable nicht
zu beobachten ist. Für die unabhängigen Variablen liegen allerdings in jedem Fall Beobachtungen vor.
Bsp.: In einer Haushaltsstichprobe wird das monatliche Einkommen von Haushalten nicht erfaßt, sofern es
10000,- DM übersteigt.(Diese Haushalte erhalten als Haushaltseinkommen 10000,- DM zugewiesen). Weitere
Haushaltsdaten werden für alle Haushalte erfaßt.
Im Falle der Stutzung schließt eine Auswahlregel einige Elemente der Grundgesamtheit a priori aus: Für diese
Fälle sind weder abhängigen noch unabhängig Variable beobachtbar. Bsp: Es wird eine Stichprobe von Haushalten gezogen, deren Monatseinkommen 10.000,- DM nicht übersteigt.
63
Mikroökonometrie
II.2.
Prof. Dr. R. Hujer
Notwendige Kenntnisse über gestutzte Verteilungen
Abbildung 1: Dichtefunktion einer von unten gestutzten Zufallsvariable
Die Ökonometrie greift bei der Modellformulierung Ergebnisse zu gestutzten Verteilungen auf. Abb. 1 zeigt die
Dichtefunktion einer Zufallsvariable X, die an einer Stelle c abgeschnitten (gestutzt) ist. Es werden nur die Werte
von X > c beobachtet (Stutzung von unten). Die ungestutzte Dichte der Zufallsvariablen x hat den Verlauf der
gestrichelten Linie in Abb. 1.
64
Mikroökonometrie
Prof. Dr. R. Hujer
Grundsätzlich sind Stutzung von unten, von oben und beidseitige Stutzungen möglich. Im weiteren jedoch
Beschränkung auf den Fall der Stutzung einer Standardnormalverteilung von unten.
Annahmen:
Zufallsvariable X ist standardnormalverteilt x ∼ N (0, 1); c ist die Stelle, an der die
Verteilung von unten gestutzt ist; die gestutzte Zufallsvariable ist folglich y = x|x > c
Definitionen: fy (Fy ) : Dichte (Verteilungsfunktion) der gestutzten Zufallsvariable
fx(Fx) : Dichte (Verteilungsfunktion) der ungestutzten Zufallsvariable
65
Mikroökonometrie
Prof. Dr. R. Hujer
Verteilungsfunktion der gestutzten Zufallsvariable:
Fy (y) = Fx|x>c = P (x ≤ y|x > c) =




P (x≤y∧x>c)
P (x>c)


0
=
für y > c
sonst
Fx (y)−Fx (c)
1−Fx (c)
Dichte der gestutzten Zufallsvariable:




fx (y)
1−Fx (c)
d
fy = Fy (y) =

dy

0
für y > c
sonst
66
Mikroökonometrie
Prof. Dr. R. Hujer
Erwartungswert der gestutzten Verteilung (Standardnormalverteilung):
E(Y ) =
R +∞
=
R +∞
=
1
1−Φ(c)
=
−∞
c
yfy (y)dy =
R +∞
c
fx (y)
y 1−F
(y)dy =
x (c)
yfy (y)dy
R +∞
c
φ(y)
y 1−Φ(c)
(y)dy
·
R +∞
1
1−Φ(c)
·
h
=
1
1−Φ(c)
· [−φ(∞) − (−φ(c))]
=
φ(c)
1−Φ(c)
c
y·
− √12π
√1
2π
exp
exp
− 21 y 2
− 21 y 2
dy
i+∞
c
67
Mikroökonometrie
Prof. Dr. R. Hujer
Varianz der gestutzten Verteilung (Standardnormalverteilung):
V ar(Y ) = E(Y 2) − [E(Y )]2
2
Z
+∞
2
c
c
partielle Integration:
c
0
uv dy =
y
y fy (y)dy =
E(Y ) =
R∞
+∞
Z
[uv]∞
c
−
2
R∞
c
E(Y ) =
y · fx(y)
(y)dy
1 − Fx(c)
fx (y)
u0vdy ⇒ u = y; v = − 1−F
x (c)
h
y·
i∞
−fx (y)
1−Fx (c) c
−
R∞
c
−fx (y)
1−Fx (c) dy
= c · E(Y ) + 1
φ(c)
φ(c)
V ar(Y ) = 1 − E(Y ) · [E(Y ) − c] = 1 −
·
−c
1 − Φ(c) 1 − Φ(c)
68
Mikroökonometrie
II.3.
Das zensierte Regressionsmodell
II.3.1.
Modellformulierung
Prof. Dr. R. Hujer
Erste Berücksichtigung von Zensierung und Stutzung im Regressionskontext von James Tobin (1958). Analyse von Konsumausgaben für dauerhafte Konsumgüter, erklärende Variable Haushaltseinkommen. In der Stichprobe: Haushalte mit Nullkonsum und Haushalte mit positivem Konsum. Ein Wert von Null für die abhängige
Variable ist hier nicht als metrischer Wert aufzufassen, sondern als qualitative Information kein Konsum“.
”
69
Mikroökonometrie
Prof. Dr. R. Hujer
Abbildung 2: Einkommen und Konsumausgaben
In Tobins Bsp: Unterschreiten die gewünschten Konsumausgaben den Preis des billigsten Konsumgutes (in Abb.
2 c“), findet kein Kauf statt. Gewünschte Konsumausgaben sind nicht beobachtbar (in Abb.2 als Sterne).
”
Qualitative Variable kein Kauf“ wird auf den Wert Null kodiert. Für Haushalte mit positivem Konsum sind
”
beobachtete Konsumausgaben gleich gewünschten Konsumausgaben (von Rationierung wird abgesehen).
70
Mikroökonometrie
Prof. Dr. R. Hujer
Allgemein: Abhängige Variable in einem Regressionsmodell ist nur bis zu einer (evtl. individuell variierenden)
Grenze zu beobachten. Unterhalb der Grenze ist die abhängige Variable unbeobachtbar (latent). Dort ist nur
die qualitative Ausprägung beobachtbar.
Ökonometrische Modellformulierung (Tobit-Modell):
Wiederum Verwendung einer latenten Variablen: Ansatz im Falle eines individuellen Schwellenwertes ci:
Yi∗ = x0iβ + ui
Yi =



 Yi∗ wenn Yi∗ > ci


 0 wenn Y ∗ ≤ ci
i
mit: Yi∗: latente abhängige Variable (in Tobins Bsp. gewünschte Konsumausgaben)
Yi: Beobachtungen der abhängigen Variablen (hier beobachtete Konsumausgaben)
ui ist i.i.nd. mit E(ui) = 0 und V ar(ui) = σ 2
71
Mikroökonometrie
Prof. Dr. R. Hujer
Standard-Tobit-Modell:
Annahme eines für alle Stichprobenelemente gleichen, konstanten Schwellenwertes von Null: ci = c = 0.
Yi = Yi∗ = x0iβ + ui wenn Yi∗ > 0
Yi = 0
wenn Yi∗ ≤ 0
Die Gleichungen zeigen den Mischcharakter des Modells“. Erste Zeile entspricht üblichem Regressionsmodell,
”
zweite Zeile Probit-Ansatz.
72
Mikroökonometrie
II.3.2.
Prof. Dr. R. Hujer
Probleme der OLS-Schätzung des zensierten Regressionsmodells
Abbildung 3: Illustration der Verzerrung durch OLS-Methode im zensierten Regressionsmodell
73
Mikroökonometrie
Prof. Dr. R. Hujer
Abbildung 3 zeigt die Verzerrung durch OLS-Schätzung für die Parameter im zensierten Regressionsmodell
a) für den Fall der ausschließlichen Verwendung unzensierter Konsumausgaben (Methode A);
b) für den Fall der unterschiedslosen Behandlung von Nullkonsum und positivem Konsum in der OLSSchätzung (Methode B);
c) für den Fall der Festsetzung des Nullkonsums auf c und anschließender OLS-Schätzung (Methode C)
74
Mikroökonometrie
Prof. Dr. R. Hujer
Analytische Herleitung der Verzerrung in Methode A im Standard-Tobit-Modell (c = 0):
Schätzung von Yi = x0iβ + ui für die unzensierten Beobachtungen ⇒ nur Fälle mit Yi∗ > 0 werden für die
Schätzung benutzt.
E(Yi|Yi∗ > 0) = E(x0iβ|Yi∗ > 0) + E(ui|Yi∗ > 0)
E(Yi|ui > −x0iβ) = x0iβ + E(ui|ui > −x0iβ)
0
β
u
u
−x
i i
i
E(ui|ui > −x0iβ) = σE
>
σ σ
σ
Aus den Ergebnissen für die Momente der gestutzten Standardnormalverteilung ergibt sich
E(ui|ui > −x0iβ) = σ
φ(−zi)
φ(zi)
=σ
= σλ(zi)
1 − Φ(−zi)
Φ(zi)
mit zi = x0iα, wobei α = βσ .
⇒ E(Yi|Yi∗ > 0) = x0iβ + σλ(zi) 6= x0iβ
⇒ Methode induziert einen Omitted-Variable-Bias. Die Inverse von λ(zi) ist bekannt als Mill’s Ratio.
75
Mikroökonometrie
Prof. Dr. R. Hujer
Analytische Herleitung der Verzerrung in Methode B:
Der unbedingte Erwartungswert für die beobachtbare Zufallsvariable Yi ist
E(Yi) = E(Yi|Yi∗ > 0) · P (Yi∗ > 0) + E(Yi|Yi∗ ≤ 0) · P (Yi∗ ≤ 0)
= [x0iβ + σλ(zi)] · Φ(zi) + 0 · [1 − Φ(zi)]
= x0iβ · Φ(zi) + σφ(zi),
so dass auch hier gilt: E(Yi) 6= x0iβ.
76
Mikroökonometrie
II.3.3.
Prof. Dr. R. Hujer
Zweistufige Schätzung der Parameter (Heckman-Korrektur)
Vorschlag von Heckman (1976) für die Schätzung des zensierten Regressionsmodells
Yi∗ = x0iβ + ui
Yi = Yi∗
wenn Yi∗ > 0
Yi = 0
wenn Yi∗ ≤ 0
77
Mikroökonometrie
Prof. Dr. R. Hujer
Ansatzpunkt: Omitted Variable Bias der OLS-Schätzung bei Methode A. Wie dort Formulierung eines Regressionsansatzes für die unzensierten Beobachtungen. Dazu: Erweiterung des Schätzansatzes von Methode A um
E(Yi|Yi∗ > 0):
Yi
= E(Yi|Yi∗ > 0) + µi
Yi
= x0iβ + σλ(zi) + µi
mit
µi = Yi − E(Yi|Yi∗ > 0)
zi = x0iα
α=
β
σ
(s.o.).
λ wird als erklärende Variable in den Regressionsansatz aufgenommen ⇒ Beseitigung des Omitted Variable
Bias.
Für den Störterm µi kann gezeigt werden, dass:
E(µi|Yi∗ > 0) = 0 und V ar(µi|Yi∗ > 0) = σ 2 − σ 2x0iα · λ(x0iα) − σ 2λ(x0iα)2.
⇒ Heteroskedastisches nichtlineares Regressionsmodell.
78
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Herleitung der Varianz von µ∗i
∗
0
0
µi Yi − x i β
xi β
V ar(µi|Yi∗ > 0) = σ 2V ar
>
−
σ σ
σ
0
x
β
= σ 2V ar µ∗i u∗i > − i
σ
Die Varianz einer gestutzten Zufallsvariablen Y ist gegeben durch:
V ar(Y ) = 1 − E(Y ) · [E(Y ) − c],
wobei
E(Y ) =
φ(c)
= λ.
1 − Φ(c)
79
Mikroökonometrie
Prof. Dr. R. Hujer
In unserem Fall gilt für
E(µ∗i )
φ
=
x0 β
− σi
1−Φ −
x0i β
= λ(x0iα)
σ
Es gilt dann
V ar(µ∗i |Yi∗ > 0) = σ 2 1 − E(µ∗i ) E(µ∗i ) −
x0iβ
σ
und wir erhalten schließlich:
V
ar(µ∗i |Yi∗
> 0) = σ
2
1−
x0iα
·
λ(x0iα)
−
λ(x0iα)2
= σ 2 − σ 2x0iα · λ(x0iα) − σ 2λ(x0iα)2.
80
Mikroökonometrie
Prof. Dr. R. Hujer
Das Modell wird in zwei Stufen geschätzt:
Stufe 1: Konsistente Schätzung der Parameter α mit Probit-ML unter ausschließlicher Verwendung der qualitativen Informationen über die abhängige Variable. Positive Beobachtungen für die abhängige
Variable werden auf Wert Eins umkodiert.
Stufe 2: λ(x0iα) wird durch λ(x0iα̂) ersetzt. OLS-Schätzung des Parametervektors γ̂ = (β 0, σ 0) unter ausschließlicher Berücksichtung der unzensierten Beobachtungen aus der Regressionsgleichung:
Yi = x0iβ + σλ(x0iα̂) + µi
Obwohl für zweite Stufe nur unzensierte Beobachtungen verwendet werden, benötigt Stufe 1 auch Informationen über zensierte Fälle ⇒ Notwendigkeit eines zensierten Samples. Bei gestutzter Stichprobe ist
das Verfahren nicht anwendbar.
81
Mikroökonometrie
II.3.4.
Prof. Dr. R. Hujer
Maximum-Likelihood-Schätzung des zensierten Regressionsmodells
Grundmodell (wie oben):

 Y ∗ = x0 β + u falls Y ∗ > 0
i
i
i
i
Yi =
0
falls Yi∗ ≤ 0
ui ist i.i.n.d. mit E(ui) = 0 und V ar(ui) = σ 2.
• Für die Beobachtungen i mit Yi = 0 ist lediglich die Wahrscheinlichkeit bekannt (analog zum Probit- oder
Logit-Modell)
P (Yi∗ < 0) = P (ui < −x0iβ)
⇒ Abbildung
0 der qualitativen Entscheidung; Wert des individuellen Likelihood-Beitrages wie im Probit:
xβ
1 − Φ σi
• Beobachtungen mit Yi > 0 werden durch die Dichte
f (Yi) = f (Yi∗|Yi∗ > 0) · P (Yi∗ > 0)
beschrieben.
82
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Herleitung der Dichte des unzensierten Teils
Nach der Kettenregel gilt: Wenn die Funktion z = f (x) mit x = g(y) nach y abgeleitet werden soll, dann ist
dz dz dx
=
·
= f 0(x) · g 0(y).
dy dx dy
Die Verteilungsfunktion im unzensierten Teil des Modells ist
Yi − x0iβ
F (Yi) = Φ
σ
Yi x0iβ
=Φ
−
σ
σ
.
Dann ist die Dichtefunktion:
∂F (Yi)
Yi x0iβ
1
1
Yi − x i β
f (Yi) =
=φ
−
·
−0 = φ
∂Yi
σ
σ
σ
σ
σ
Dies ist der Likelihoodbeitrag der unzensierten Beobachtung Yi im zensierten Regressionsmodell.
83
Mikroökonometrie
Prof. Dr. R. Hujer
Die Likelihood-Funktion des Modells ist
LTobit
0 Y
0
Y
xi β
Y
−
x
β
i
i
=
1−Φ
·
σ −1φ
σ
σ
0
1
⇒ Likelihood-Funktion ist eine Mischung“ aus Likelihoods von Probit und Standard-Regressionsmodell. Varianz
”
2
σ ist im Tobit Modell allerdings identifizierbar. Eine tautologische Umformung macht die Beziehung von Probitund Tobit-Likelihood deutlich:
LTobit
0 0 Y 0 Y
0
Y
xi β
Y
−
x
β
xi β
xi β
i
i
·
Φ
·
σ −1φ
· Φ−1
=
1−Φ
σ
σ
σ
σ
1
1
0
Die zwei ersten Produkte bilden die Probit-Likelihood.
Wie im Probit/Logit Modell sind die 1. Ableitungen der Log-Likelihood nichtlinear: ⇒ Auffinden der Nullstellen
mit iterativen Methoden.
84
Mikroökonometrie
II.4.
Prof. Dr. R. Hujer
Prüfmaße für zensierte Regressionsmodelle
a) Abbildung der Anpassungsgüte für latente Variable Yi∗: Analogie zum Probit: McKelvey-Zavoinas R2:
2
RM
Z
P ∗
P ∗
(ŷi − y ∗)2
(ŷi − y ∗)2
P
=P ∗
=P ∗
(yi − y ∗)2
(ŷi − y ∗)2 + ε̂2i
σ 2 wird durch konsistenten Schätzer ersetzt.
2
):
b) Abbildung der Anpassungsgüte für unzensierte Beobachtungen: R2 von Dhrymes (RDH
2
RDH
x0iβ̂
x0i β̂
σ̂
P − 2
(ŷ ŷ)
=P 1 i
2
1 (yi − y)
mit ŷi =
+ σ̂λ
. Parameterschätzwerte aus der Maximum-Likelihood-Schätzung. Fußindex 1 am
Summationszeichen zeigt an, dass nur unzensierte Fälle betrachtet werden.
2
Simulationsstudien zeigen eine Überlegenheit des RM
Z.
85
Mikroökonometrie
II.5.
Prof. Dr. R. Hujer
Parameterinterpretation im Tobit-Modell:
Auch im Tobit-Modell können die Parameterschätzwerte nicht als marginale Effekte interpretiert werden. Es
gilt:
∂E(Yi)
6= βk
∂xik
E(Yi) = E(Yi|Yi∗ > 0)Φ(zi) (siehe oben)
φ(zi )
mit E(Yi|Yi∗ > 0) = x0iβ + σ Φ(z
.
i)
∂Φ(zi)
∂E(Yi) ∂E(Yi|Yi∗ > 0)
=
· Φ(zi) + E(Yi|Yi∗ > 0) ·
∂xik
∂xik
∂xik
mit
∂E(Yi |Yi∗ >0)
∂xik
h
= βk · 1 −
φ(zi )
zi Φ(z
i)
−
φ2 (zi )
Φ2 (zi )
i
.
86
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Ableitung von
∂E(Yi |Yi∗ >0)
:
∂xik
∂φ(zi )
∂E(Yi|Yi∗ > 0)
∂x0iβ
∂zi
∂Φ(zi )
=
+σ·
·
∂xik
∂xik
∂xik ∂xik
Φ(zi) · φ0(zi) − Φ0(zi) · φ(zi) βk
·
= βk + σ ·
Φ2(zi)
σ
φ(zi)zi φ2(zi)
βk
− 2
= βk + σ · −
·
Φ(zi)
Φ (zi)
σ
φ(zi) φ2(zi)
= βk · 1 − zi
−
Φ(zi) Φ2(zi)
87
Mikroökonometrie
Prof. Dr. R. Hujer
Die Wirkung einer Änderung der exogenen Variablen ist also zerlegbar in 2 Komponenten:
1.
∂E(Yi |Yi∗ >0)
∂xik
· Φ(zi)
(Erwartete) Änderung von Yi gegeben Yi∗ > 0, gewichtet mit der Wahrscheinlichkeit, dass Yi∗ > 0 ist.
i)
2. E(Yi|Yi∗ > 0) · ∂Φ(z
∂xik
Änderung der Wahrscheinlichkeit, dass Yi∗ > 0 ist, gewichtet mit dem Erwartungswert von Yi, gegeben
Yi∗ > 0.
II.6.
Empirische Anwendung zensierter Regressionsmodelle
ML versus Heckman-Korrektur: Durch Probit ML-Schätzung der ersten Stufe und aufwendige Berechnung
der VK-Matrix, ist der Rechenaufwand für die Heckman Korrektur nicht geringer als bei der ML-Schätzung.
Heckman-Korrektur bringt Verkürzungen der Rechenzeit bei komplexeren, multivariaten Tobit-Modellen.
88
Mikroökonometrie
Prof. Dr. R. Hujer
Tabelle 8: Bedeutung von Eigenschaften eines Arthrosepräparats für die Verschreibungsentscheidung des Arztes
Standard-Tobit-Modell - (Verschreibung wieviel/nein)
Erklärende Variablen
(Dummy-Variablen)
Konstante
Wirksamkeit wie Vergleichssubstanz
Wirksamkeit weniger stark
Knorpelschutz stark ausgeprägt
Knorpelschutz nicht vorhanden
Nebenwirkungen weniger
Nebenwirkungen vergleichbar
Nebenwirkungen mehr
Tagestherapiekosten DM 1,83
Tagestherapiekosten DM 4,47
Tagestherapiekosten DM 5,88
Tagestherapiekosten DM 8,00
Hersteller Stellapharma
Hersteller Lunapharma
Hersteller Andere
λ
σ
Heckman-Korrektur Maximum Likelihood
Koeffizient t-Wert Koeffizient
t-Wert
-41.610
19.435
Referenz
29.480
Referenz
8.187
Referenz
-13.073
28.141
10.080
Referenz
-5.039
-0.039
-3.297
Referenz
27.223
-1.326
2.124
2.384
1.923
-1.296
2.956
2.221
-1.171
-0.015
-1.157
-42.511
20.169
Referenz
29.998
Referenz
89.765
Referenz
-17.057
26.912
10.051
Referenz
-60.222
0.67656
-29.294
Referenz
-13.165
10.759
28.699
36.013
15.950
4.795
-6.644
11.946
4.149
-2.323
0.326
-1.200
1.609
89
Mikroökonometrie
II.7.
Prof. Dr. R. Hujer
Erweiterungen des Grundmodells
• Obere und untere Zensierungsschranke
sog. Friktionsmodelle. Zur Schätzung siehe Ronning (1991), S. 142 ff.
• Multivariate Tobit Modelle
Mehr als eine zensierte abhängige Variable. Zur Schätzung siehe Amemiya (1985), Seite 383 ff.
• Simultane Tobit Modelle
Mehrgleichungsmodelle für zensierte abhängige Variable. Siehe Pohlmeier (1989)
90
Mikroökonometrie
Prof. Dr. R. Hujer
Teil B
Lineare Panelmodelle
I.
Was sind Paneldaten?
Bislang implizit Betrachtung von Zeitreihen- bzw. von Querschnittsdaten:
• Zeitreihendaten:
Daten zu den Variablen liegen über die Zeit t vor: yt = x0tβ + ut;
z.B.: vierteljährliche oder jährliche Daten aus der Volkswirtschaftlichen Gesamtrechnung
• Querschnittsdaten:
Daten zu den Variablen liegen für verschiedene Beobachtungseinheiten i vor: yi = x0iβ + ui;
z.B. Daten aus dem Mikrozensus für 1995
• Paneldaten:
für bestimmte Untersuchungseinheiten i (z.B. Individuen, Haushalte, Unternehmen, Länder) liegen für
dieselben Merkmale (z.B. Alter, Einkommen, Umsatzzahlen, Steueraufkommen) Beobachtungen in mehreren aufeinanderfolgenden Zeitpunkten t vor: yit = x0itβ + uit;
91
Mikroökonometrie
Prof. Dr. R. Hujer
Bsp.: Sozioökonomisches Panel (SOEP), IAB-Betriebspanel, Konsumenten- bzw. Haushaltspanel in der
Konsumforschung (Nielsen)
Von Poolen oder von gepoolten Daten wird gesprochen, wenn zwar Informationen für Individuen für mehrere
Zeitpunkte vorliegen, es sich aber entweder nicht immer um die gleichen Individuen handelt (sog. PseudoPanels) oder z.B. bei der Analyse von Paneldaten unberücksichtigt bleibt, ob Informationen von verschiedenen
Beobachtungeinheiten oder von verschiedenen Zeitpunkten stammen
92
Mikroökonometrie
Prof. Dr. R. Hujer
Vorteile von Paneldaten:
• erlauben die Untersuchung dynamischer Entwicklungen
• Kontrolle für individuelle Heterogenität
• Daten sind informativer, haben größere Variabilität, weisen geringere Multikollinearität auf
• In einem Querschnittsmodell sind bestimmte Effekte überhaupt nicht meßbar oder identifizierbar:
Bsp.: In einem Querschnittsdatensatz sind 10% der Frauen arbeitslos; zwei extreme Möglichkeiten: a) es
sind stets die gleichen Frauen arbeitslos (keine Dynamik); b) jede Frau hat eine 10%ige Wahrscheinlichkeit,
in einem Jahr arbeitslos zu sein (hohe Dynamik) → Paneldaten erlauben Identifikation
93
Mikroökonometrie
Prof. Dr. R. Hujer
Nachteile von Paneldaten:
• Besondere Design- und Erhebungsprobleme (z.B. Repräsentativität, Mortalität):
Die Panelmortalität/-attrition führt dazu, daß nicht für jede Beobachtungseinheit für alle Zeitpunkte
Beobachtungen vorliegen; je nachdem, ob nur solche Beobachtungseinheiten mit Beobachtungen für alle
Zeitpunkte in die Analyse einbezogen werden oder alle Beobachtungseinheiten, unterscheidet man balanced
und unbalanced panel-Modelle
• Selektionsprobleme (u.a. durch Selbstselektion, Mortalität)
• Meßfehler (z.B. Erinnerungsfehler, Interviewereffekte, prestige bias)
• i.d. Regel kurze Dimension im Längsschnitt
94
Mikroökonometrie
Prof. Dr. R. Hujer
Sozioökonomisches Panel (SOEP)
→ Konzept und Erhebung bis 1991: Sonderforschungsbereich 3, Mikroanalytische Grundlagen der Gesell”
schaftspolitik“ der Universitäten Frankfurt am Main und Mannheim
→ Mikrodatensatz, seit 1984 jährliche Befragung von 5.000 Haushalten, 12.000 Personen
→ Drei Teilstichproben:
a.) Deutsche Wohnbevölkerung (alte Bundesrepublik Deutschland) und sonstige Ausländer
b.) Türken, Jugoslawen, Griechen, Spanier, Italiener
c.) seit 1990 deutsche Wohnbevölkerung (alte DDR), ca. 2.100 Haushalte, 4.400 Personen
→ Analysemöglichkeiten im Hinblick auf Veränderungen der sozialen/ ökonomischen Bedingungen in Deutschland:
Bspw. Arbeitsmarktentwicklungen, innerdeutsche Vergleiche, Problemgruppen, Ausländer, Zuwanderer
→ Themenbereiche:
Haushaltszusammensetzung, Erwerbs- und Familienbiographie, Erwerbsbeteiligung und berufliche Mobilität, Einkommen und Transferzahlungen, Wohnsituation, Gesundheit, Lebenszufriedenheit, soziale Sicherung, Weiterbildung und Qualifikation, Zeitverwendung, Familie und soziale Dienste
95
Mikroökonometrie
Prof. Dr. R. Hujer
IAB-Betriebspanel
→ Mikrodatensatz seit 1993 jährliche Datenerhebung bei ca. 4.300 Betrieben (bis 1995 nur im Gebiet der
alten Bundesrepublik Deutschland; ab 1996 für Gesamtdeutschland)
→ Analysemöglichkeiten:
Mikroökonomische Determinanten von betrieblicher Beschäftigungs- und Personalentwicklung (Arbeitsnachfrage), Verknüpfung mit Beschäftigtenstatistik (Arbeitsangebot)
→ Themenbereiche:
Angaben zum Betrieb, Personalwirtschaft, Geschäftspolitik und betriebliche Planung, betriebliche Bestimmungsgrößen der Beschäftigung, technische Bestimmungsgrößen, Fort- und Weiterbildung, Löhne und
Gehälter, Arbeits- und Betriebszeiten, öffentliche Leistungen an Betriebe
Beschäftigtenstatistik
→ 75 % aller Erwerbstätigen werden erfasst
→ Grundlage: Meldeverfahren zur Sozialversicherung
→ nicht enthalten: Beamte, Selbständige, mithelfende Familienangehörige
96
Mikroökonometrie
Prof. Dr. R. Hujer
IAB-Beschäftigtenstichprobe
→ Mikrodatensatz, bestehend aus 1%-Stichprobe (ca. 430.000), ergänzt um Leistungsempfangsdaten und
Betriebsinformationen
→ Analysemöglichkeiten: erwerbsbiographische Verläufe können abgebildet werden
Einkommens- und Verbrauchsstichprobe (EVS) (unverbundene Querschnitte)
→ wird in mehrjährigen Abständen durchgeführt: ca. 0,25 % aller Haushalte werden einbezogen
→ Aussagekraft wird durch Quotenverfahren beeinträchtigt
→ Gegenstand der Erhebung: Einkommen, Veränderung des Einkommens, Angaben über Vermögen
→ Selektionsverzerrung durch freiwillige Mitarbeit der Haushalte
→ Längsschnittsaussagen auf Basis von Quotenstichproben problematisch; prinzipiell sind nur Querschnittsaussagen möglich
97
Mikroökonometrie
Prof. Dr. R. Hujer
Linked IAB Panel (LIAB)
→ Linked Employer-Employee-Datensatz aus Kombination der Informationen des IAB-Betriebpanels und der
Beschäftigtenstatistik (Historikdatei)
→ Grundlage sind alle Betriebe des IAB-Betriebspanels, die an mindestens einer Welle zwischen 1993 und
1998 teilgenommen haben (ca. 23.000). Dazu wurden die Beschäftigtendaten für die sozialversicherungspflichtigen Personen dieser Betriebe aus den Jahren 1990 bis 1997 hinzugefügt (ca. 13,5 Mio. Personen).
→ Das LIAB wird sowohl um die aktuellen Wellen sowie die Beschäftigtenhistorik der Jahre 1975 bis 1989
ergänzt
→ Zusammenführung der relevanten Merkmale über die Betriebsnummer, dadurch Erfassung von Angaben
über Lohnhöhe und Beschäftigtenanteilen für verschiedene Qualifikationsgruppen auf Betriebsebene
→ Ziel: Wirkungen interessierender Variablen können sowohl von Arbeitsangebots- als auch -nachfrageseite
behandelt werden.
98
Mikroökonometrie
II.
II.1.
Prof. Dr. R. Hujer
Einfache lineare Panelmodelle
Allgemeines lineares Grundmodell für Paneldaten
Ausgangspunkt ist das allgemeine Modell:
yit = αit +
K
X
x0kitβkit + vit, i = 1, . . . , N, t = 1, . . . , T
k=1
mit den Indizes i → Individuen, Haushalte, Unternehmen, Länder, etc. (Querschnittsdimension)
t → Zeit (Längsschnittsdimension)
⇒ Parameter können prinzipiell über die Zeit und über die Individuen variieren; Berücksichtigung
unbeobachtbarer zeitlicher und individueller Heterogenität; andernfalls: falsche bzw. inkonsistente Parameterschätzwerte (Abb. 1)
⇒ jedoch Identifikationsproblem aufgrund der Zahl der zu schätzenden Parameter
99
Mikroökonometrie
Prof. Dr. R. Hujer
Abbildung 1: Mögliche Verzerrungen bei Vernachlässigung individueller Heterogenität
Ann.: zeitkonstante Parameter und k = 1(αi = αit, β1i = β1it ∀ t) :
100
Mikroökonometrie
Prof. Dr. R. Hujer
Am gebräuchlichsten sind deshalb Modelle
two-way error component regression model lautet:
mit
einheitlichen
Steigungsparametern.
yit = α + x0itβ + uit i = 1, . . . , N, t = 1, . . . , T
Das
sog.
(1)
mit α : skalarer, individuen- und zeitinvarianter Achsenabschnittsparameter
β : (K × 1)-Vektor mit individuen- und zeitinvarianten Steigungsparametern
xit : (K × 1)-Vektor mit individuen- und zeitspezifischen erklärenden Variablen
Für die Störgröße uit wird folgendes Modell postuliert (two way error component):
uit = µi + λt + vit
(2)
mit µi : skalarer, unbeobachtbarer individuenspezifischer und zeitinvarianter Effekt
λt : skalarer, unbeobachtbarer individueninvarianter und zeitspezifischer Effekt
vit : Störterm i.i.d. mit E(vit) = 0 und Var(vit) = σv2
101
Mikroökonometrie
Prof. Dr. R. Hujer
Aus Vereinfachungsgründen wird im folgenden nur ein one way error component model betrachtet, d.h. λt = 0.
Hinsichtlich der Behandlung von µi bestehen zwei unterschiedliche Ansätze:
1. µi sind konstante, zu schätzende Parameter (fixed effects; d.2)
2. µi wird aufgefaßt als eine Zufallsvariable (random effects; d.3)
102
Mikroökonometrie
II.2.
Prof. Dr. R. Hujer
Fixed effects-Modelle
Unter der Annahme, dass die µi feste, zu schätzende Parameter sind, lässt sich das one way error component
”
model“ schreiben als:
yit = αi + x0itβ + vit i = 1, . . . , N, t = 1, . . . , T mit: αi = α + µi
(3)
Eine Zusammenfassung von (3) über alle i und t in Matrixschreibweise ergibt:

y1
 y
 2
y =  ..
 .
yN

mit:
yi
T ×1


jT
  0
 
 =  ..
  .
0
yi1
y
 i2
=  ..
 .
yiT


0
j

 T

 α1 +  ..
 .

0



 , jT
 T ×1



0
 0



 α2 + · · · +  ..
 .

jT


X1
 X

 2

 αN +  ..
 .

XN


1
x1i1 x2i1
1
x
 
 1i2 x2i2
=  ..  , Xi =  ..
...
 .  T ×K
 .
1
x1iT x2iT
· · · xKi1
· · · xKi2
...
...
· · · xKiT


v1
 v

 2

 β +  ..
 .

vN





 , vi
 T ×1


 = Dα + Xβ + v

vi1
v
 i2
=  ..
 .
viT
(4)



,

D
= IN ⊗jT
NT × N
E[vi] = 0, E[vivi0] = σv2IT, E[vivj0 ] = 0 i 6= j, IN = Einheitsmatrix der Dimension N
103
Mikroökonometrie
Prof. Dr. R. Hujer
Das Modell (4) wird üblicherweise auch als least squares dummy variable (LSDV) Modell bezeichnet. Es handelt
sich letztlich um ein klassisches lineares Regressionsmodell (z.B. Gujarati (1995), Kapitel 9). Das Modell
kann, sofern N klein ist, entsprechend mit OLS geschätzt werden. Man erhält BLUEs für α und β. Insgesamt
sind N + k Parameter zu schätzen.
⇒ Problem: in typischen Panels ist N relativ hoch, so dass Gleichung (4) zu viele individuelle Dummyvariablen
enthält und die Zahl der zu schätzenden Parameter sehr groß wird ( incidental parameter problem“)
”
104
Mikroökonometrie
Prof. Dr. R. Hujer
Begriff: Kovarianzmodell (siehe Hsiao, C. (1986) Analysis of Panel Data“, S.29f.)
”
Das Fixed-Effects-Modell der Form yit = αi + x0itβ + vit wird auch als Analyse-der-Kovarianz-Modell oder
Kovarianzmodell bezeichet. Das konventionelle Varianzmodell unterstellt für das geschätzte y die Beziehung
yit = αi + vit, wobei der erwartete Wert von αi nur von der Klasse i abhängig ist, zu der die Beobachtung gehört.
vit ist eine unabhängige Zufallsvariable.
Wird y aber noch von weiteren exogenen Variablen beeinflusst, so wird der Wert durch den within-class Ansatz
überschätzt. Die Differenzen der Schätzer zwischen den einzelnen Klassen zeigen dann nicht nur die Effekte der
Klassen, sondern auch die Effekte der Differenzen der exogenen Variablen in den Klassen.
Um dafür zu kontrollieren, wurden die Kovarianzmodelle entwickelt. Der Einbezug von exogenen Kovariaten xit
erlaubt die Schätzung der quantitativen Anteile des Modells (Regressionsmodell), die Verwendung des Varianzmodells die Schätzung der qualitativen Anteile, und so die konsistente Schätzung von y.
105
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Das Kronecker Produkt
Für zwei Matrizen A und B ergibt sich das Kronecker-Produkt als (siehe Greene (2003), S. 824):


a11B a12B · · · a1K B
 a B a B ··· a B 

 21
22
2K
A ⊗ B =  ..
...
... 
...

 .
an1B xn2B · · · xnK B
 "
"
Beispiel:
3 0
5 2
#
"
⊗
1 4
4 7
#
1
3

4
"
=

1

5
4
4
7
#
"
0
1 4
4 7
#


# "
#
4
1 4 

2
7
4 7
Das Kronecker-Produkt kann für jedes Matrizenpaar berechnet werden. Falls A eine K × L- und B eine m × nMatrix ist, ist A ⊗ B eine (Km) × (Ln)-Matrix.
Weiterhin gilt: [A ⊗ B]−1 = [A−1 ⊗ B−1]
106
Mikroökonometrie
Prof. Dr. R. Hujer
Exkurs: Nützliche Hinweise für Matrizenberechnungen
Vektor j soll eine Spalte von Einsen enthalten. Dann ergibt sich die Summe von Elementen in einem beliebigen
Vektor z als:
n
X
zi = z1 + z2 + · · · + zn = j0z
i=1
Falls alle Elemente in z gleich der Konstante a sind, gilt z = aj und:
n
X
= j0(aj) = a(j0j) = na.
i=1
Für jede Konstante a und Vektor z gilt:
n
X
i=1
azi = a
n
X
zi = aj0z
i=1
Falls a = n1 , erhalten wir den arithmetischen Mittelwert:
n
1X
1
z=
zi = j0z,
n i=1
n
aus dem folgt:
n
X
zi = j0z = nz.
i=1
107
Mikroökonometrie
Prof. Dr. R. Hujer
Eine nützliche Matrix ist diejenige, die dazu benutzt wird, um Werte als Abweichung von ihrem Mittelwert
auszudrücken:
 
z
z 1
10
 
jz = j j z =  ..  = jj0z
n
 .  n
z
Die Matrix n1 jj0 ist eine n × n-Martrix, wobei jedes Element gleich n1 . Die Werte der Abweichungsform sind dann:

z1 − z
 z −z
 2
 ..
 .
zn − z


1 0

 = [z − jz] = z − jj z
n

1 0
1 0
1 0
Da z = Iz, ergibt sich: z − n jj z = Iz − n jj z = I − n jj z = Q0z.
108
Mikroökonometrie
Prof. Dr. R. Hujer
Eine alternative Vorgehensweise ist die sog. Within-Transformation von Modell (4) durch Vormultiplikation mit
einer Transformationsmatrix

Q0 0 · · · 0
 0 Q0 · · · 0

0
−1 0
Q = INT − D(D D) D =  .. .. . .
. ...
 . .
0 0 · · · Q0



,

mit Q0 = IT −
1 0
jTj
T T
mit den folgenden Eigenschaften:
1. Q ist eine symmetrische idempotente Matrix, d.h. Q = Q0 = Q0Q.
2. Die Vormultiplikation eines beliebigen T × 1-Vektors, zi, mit Q0 führt zu Q0zi = zi − zijT, wobei zi das
Mittel über die T Beobachtungen für Einheit i ist.
109
Mikroökonometrie
Prof. Dr. R. Hujer
Wir erhalten durch die Transformation
QY = QDα + QXβ + Qv = QXβ + Qv
(5)
Die Transformation nutzt die Tatsache, dass zur Schätzung von β die individuellen Effekte nicht unbedingt
erforderlich sind. Die Transformationsmatrix eliminiert die individuellen Effekte aus der Modellgleichung. Die
transformierten Variablen entsprechen den urprünglichen Variablen, ausgedrückt als Abweichung vom individuellen Mittelwert (intrapersonelle Variation; variation within“). Die i-te Gleichung lautet in ausführlicher
”
Schreibweise:
(yit − yi) = (xit − xi)0β + (vit − vi)
110
Mikroökonometrie
Prof. Dr. R. Hujer
Die Schätzung von β erfordert nunmehr nur noch die Inversion einer K × K-Matrix. Der OLS-Schätzer von β
ist:
β̂ = [X0QX]−1X0Qy.
(6)
Die individuellen Effekte können in einem zweiten Schritt berechnet werden aus
α̂ = [D0D]−1D0(y − Xβ̂)
Sowohl α̂ als auch β̂ sind BLUE. β̂ ist außerdem konsistent für N → ∞ oder T → ∞. Dagegen ist α̂ nur
konsistent für T → ∞, da mit steigendem N auch die Zahl der zu schätzenden individuenspezifischen Effekte
zunimmt.
111
Mikroökonometrie
Prof. Dr. R. Hujer
II.3.
Random effects-Modelle (Fehlerkomponentenmodelle)
II.3.1.
Grundlegende Modellspezifikation
In dem Modell
yit = α + x0itβ + uit i = 1, . . . , N, t = 1, . . . , T
uit = µi + vit
wird der individuenspezifische Effekt µi bei Unterstellung von random effects (stochastischen Effekten) als Zufallsvariable aufgefaßt. Es wird weiterhin angenommen, dass:
E(µi) = E(v
(it) = 0
E(µjvit) = 0( ∀i, t, j
E(µiµj) =
E(vitvjs) =
σµ2 falls i = j
0 falls i 6= j
σv2 falls i = j und t = s
0 falls i 6= j oder t =
6 s
112
Mikroökonometrie
Prof. Dr. R. Hujer
E(µix0it) = E(vitx0it) = 0.
Daraus folgt:
(
cov(uitujs) =
σµ2 + σv2 falls i = j, t = s
σµ2
falls i = j, t 6= s
Unter
erneuter
Bildung
u0i = (ui1, ui2, . . . , uiT):
eines

E(uiu0i )
0
= Ω
T ×T


= 

und ρuitujs


falls i = j, t = s
1
= σµ2 /(σµ2 + σv2) falls i = j, t 6= s

0
sonst
individuenspezifischen
σµ2
+
σµ2
...
σµ2
σv2
σµ2
Vektors
σµ2
σµ2
···
σµ2 + σv2 · · ·
...
...
...
σµ2
· · · σµ2 + σv2
mit
T
Beobachtungen


 = σv2IT + σµ2 jTj0T.

(7)

113
Mikroökonometrie
Prof. Dr. R. Hujer
In Matrixschreibweise kann das Modell nun geschrieben werden als:
yi = X̃iδ + ui,
i = 1, . . . , N
(8a)
y = X̃δ + u

mit:
X̃
N T × (K + 1)
X̃1
 X̃
 2
=  ..
 .
X˜N


(8b)


jT X1
 j X 
  T
2 
 =  ..
... 

  .
jT XN
δ
(K + 1) × 1
α
=
β
u
NT × 1
u1
 u
 2
=  ..
 .
uN





114
Mikroökonometrie
II.3.2.
Prof. Dr. R. Hujer
OLS-Schätzung
Auch im random effects-Modell können die individuenspezifischen Effekte durch Vormultiplikation von Modell
(8a) bzw. (8b) mit der Transformationsmatrix Q0 bzw. Q eliminiert werden:
Q0yi = Q0X̃iδ + Q0ui = Q0jα + Q0Xiβ + Q0jµi + Q0vi
= Q0Xiβ + Q0vi
Eine Schätzung des Modells mit OLS ist dann analog zu d.2 möglich. Ein Schätzer für α läßt sich ermitteln über
α̂ = y − β̂x, y =
1
NT
PN PT
i=1
t=1 yit , x =
1
NT
PN PT
i=1
t=1 xit .
Der OLS-Schätzer für β ist unverzerrt und konsistent. Allerdings ist er nicht mehr BLUE. Der BLUE im random
effects-Modell ist der GLS-Schätzer. Dies liegt daran, dass die Residuen u in (8b) über die Zeit miteinander
korreliert sind, da sie alle den individuenspezifischen Effekt enthalten.
115
Mikroökonometrie
II.3.3.
Prof. Dr. R. Hujer
GLS-Schätzung
a) Vorbemerkungen: GLS-Schätzung im klassischen linearen Regressionsmodell
Zur Wiederholung hier die wichtigsten Ergebnisse der GLS-Schätzung im klassischen linearen Regressionsmodell
in Matrixschreibweise (vgl. z.B. Greene (2003), S.191-201,207-212). Ausgangspunkt ist das verallgemeinerte
klassische lineare Regressionsmodell
y = Xβ + u mit: E(u|X) = 0 und E(uu0|X) = σu2 Ω.
Ω ist eine positiv definite Matrix, d.h. x0Ωx > 0 ∀ x 6= 0. Außerdem sei Ω bekannt. Es existiert dann eine
Transformationsmatrix T mit Ω−1 = T0T und T0ΩT = I, so dass für das transformierte Modell Ty = TXβ + Tu
gilt:
E(Tuu0T0) = σu2 I.
Der GLS-Schätzer des urprünglichen Modells ist der OLS-Schätzer des transformierten Modells:
β̂GLS = (X0T0TX)−1X0T0Ty = (X0Ω−1X)−1X0Ω−1y.
116
Mikroökonometrie
Prof. Dr. R. Hujer
b) GLS-Schätzung im random effects-Modell
Im random effects-Modell (8b) ist aus (7)



E(uu0) = Ω = IN ⊗ Ω0 = 

0
Ω 0 ··· 0
0 Ω0 · · · 0
... ... . . . ...
0 0 · · · Ω0



 = σv2(IN ⊗ IT) + σµ2 (IN ⊗ JT)

(9)
mit: JT = T × T-Matrix, in der alle Elemente Eins sind
−1
0−1
−1
2
−1
0 2
Zur Anwendung von GLS wird die Matrix Ω = IN ⊗ Ω bzw. Ω = IN ⊗ Ω
benötigt. Angesichts der
Dimension von Ω ist eine direkte Inversion nicht angeraten. Wansbeek/Kapteyn (1982,1983) schlagen
stattdessen eine einfache Umformung von (9) vor:
Ω = (Tσµ2 + σv2)(IN ⊗ JT) + σv2(IN ⊗ ET) = σ∗2P + σv2Q
mit: JT =
JT
,
T
ET = IT − JT,
P = INT − Q,
σ∗2 = Tσµ2 + σv2.
117
Mikroökonometrie
Prof. Dr. R. Hujer
Wie bereits im Rahmen des fixed effects-Modell ausgeführt, erhält man durch Vormultiplikation der Matrix Q
Abweichungen vom individuenspezifischen Mittelwert. Die Matrix P hingegen bildet diese individuenspezifische
Mittelwerte über die Zeit.
Es gilt nun:
Ω−1 =
1
P
σ∗2
−1
+ σ12 Q bzw. Ω 2 =
v
1
σ∗ P
+ σ1v Q.
−1
Die GLS-Schätzung erhält man nun als Weighted Least Squares durch Vormultiplikation von (8b) mit σv Ω 2
1
und OLS-Schätzung des transformierten Modell. Der transformierte Vektor y∗ = σv Ω− 2 y z.B. hat das typische
√
Element yit − (1 − θ)yi, mit θ = σv2/σ∗2, d.h. für θ = 0 fällt die Transformation mit der im LSDV zusammen.
Der GLS-Schätzer für β ist:
β̂GLS = (X0σv Ω−1σv X)−1X0σv Ω−1σv y
= (X0QX + θX0PX)−1(X0Qy + θX0Py)
(10)
Die in (10) zu invertierende Matrix hat die Dimension K × K.
118
Mikroökonometrie
Prof. Dr. R. Hujer
c) Beziehung zwischen GLS- und Within- bzw. Between-Schätzer
Der OLS-Schätzer (6) wird auch als Within-Schätzer bezeichnet, da er nur auf der intrapersonellen Variation
beruht (→ Transformationsmatrix Q):
−1
β̂within = [X0QX]−1X0Qy = WXX
WXy mit WXX = X 0QX WXy = X 0Qy
Alternativ lassen sich folgende Matrizen bilden:
BXX = X0(P − JNT)X mit BXy = X 0(P − J N T )y
Sie berücksichtigen lediglich die interpersonelle Variation (between variation). Sie sind die Grundlage für einen
weiteren, alternativen OLS-Schätzer für β̂ , den sog. Between-Schätzer:
β̂between = B−1
XX BXy .
119
Mikroökonometrie
Prof. Dr. R. Hujer
Der GLS-Schätzer kann auch als gewogenes Mittel aus Within- und Between-Schätzer dargestellt werden:
β̂GLS = W1β̂within + W2β̂between.
W1 und W2 sind Gewichtungsmatrizen, die wie folgt definiert sind:
W1 = [Wxx + θBXX]−1Wxx und W2 = [Wxx + θBXX]−1(θBxx) = IK − W1.
(Erinnerung: θ = σv2/σ∗2 = σv2/(T σµ2 + σv2)
Folgende Extremfälle können nun unterschieden werden (Baltagi (2001), S.18):
a) θ = 1, d.h. σµ2 = 0: Fall des klassischen Regressionsmodells, β̂GLS = β̂OLS
b) θ = 0 : βGLS = βwithin; es gibt zwei Möglichkeiten, warum dieser Fall eintreten kann:
1. σv2 = 0 : die ganze Variation zwischen den Beobachtungen beruht dann auf den unterschiedlichen
µi, die, da konstant über die Zeit, dann equivalent zu den im fixed effects-Modell verwendeten Dummyvariablen sind
2. T → ∞ hier werden die µi beobachtbar, da die v̄i· → 0 werden (Greene (2003), S.296)
120
Mikroökonometrie
Prof. Dr. R. Hujer
d) Feasible GLS
Sind die Komponenten von Ω, σv2 und σµ2 bekannt, so ist die Anwendung der GLS-Methode unproblematisch.
Diese Voraussetzung ist aber in der Regel nicht erfüllt, so dass zunächst Schätzwerte für diese Varianzen benötigt
werden
→ Feasible Generalized Least Squares (FGLS).
In der Literatur werden für die Schätzung der Varianzen verschiedene Verfahren vorgeschlagen. Die in der
empirischen Analyse gebräuchlichste Methode kann aus der Zerlegung des Fehlerterms uit abgeleitet werden:
var(uit) = E(u2it) = σµ2 + σv2
var(ui) = E
h
1
T
P
t uit
2 i
= σµ2 + T1 σv2.
Die Schätzer der Varianzen sind
var(uit) ⇒
2
t ûit
P P
i
NT−K
var(ui) ⇒
P 1P
2
i( T
t ûit )
.
N−K
Dabei können die ûit die Residuen z.B. aus einer OLS-, einer Within- oder jeder anderen konsistenten Schätzung
des Modells sein.
121
Mikroökonometrie
Prof. Dr. R. Hujer
Die gesuchten Schätzer lauten dann:

σ̂v2 =
T  1
T − 1 NT − K
N
σ̂µ2
N X
T
X
û2it −
i=1 t=1
1
N−K
N
X
i=1
1
T
T
X
!2
ûit

t=1
T
XX
1
=
û2it − σv2.
NT − K i=1 t=1
Diese Schätzer sind konsistent, können in endlichen Stichproben aber verzerrt sein.
122
Mikroökonometrie
II.3.4.
Prof. Dr. R. Hujer
Schätzung mit Maximum Likelihood
Die Anwendung der Maximum Likelihood-Methode macht Normalverteilungsannahmen für µi und vit erforderlich. Die Log-Likelihoodfunktion lautet ohne Beweis und vereinfacht nach Baltagi (2001), S.20 ff.:
`(α, β, θ, σv2) = Konstante −
mit Σ = Q +
NT
N
1
log σv2 + log θ − 2 u0Σ−1u
2
2
2σv
(11)
P
bzw. Ω = σv2Σ.
θ
Eine Maximierung von (11) führt zu nichtlinearen Bedingungen erster Ordnung, deren simultane Lösung nur
mit Hilfe iterativer Prozesse möglich ist.
123
Mikroökonometrie
II.4.
Prof. Dr. R. Hujer
Fixed oder random effects?
Mundlak (1978): individuenspezifische Effekte sind grundsätzlich als zufällig anzusehen.
→ fixed effects-Modell: auf die in der Stichprobe vorliegenden Effekte bedingte Analyse; im Mittelpunkt des
Interesses steht das einzelne Individuum
→ random effects-Modell: unbedingte oder marginale Aussagen im Hinblick auf die Grundgesamtheit; es sollen
Aussagen über die Grundgesamtheit getroffen werden und Beobachtungen der Stichprobe stellen eine
Zufallsstichprobe aus der Grundgesamtheit dar
Weitere Aspekte:
• erheblicher Verlust an Freiheitsgraden im fixed effects-Modell; eine Vergrößerung des Stichprobennumfangs
ist keine Abhilfe
• random effects-Modell unterstellt Unkorreliertheit zwischen den individuenspezifischen Effekten und den
übrigen Regressoren → evtl. omitted variable bias → correlated random effects (Mundlak (1978))
124
Mikroökonometrie
II.5.
Prof. Dr. R. Hujer
Empirisches Beispiel
Tabelle 1: Hausman (1978): vergleichende Schätzung einer Lohngleichung (abhängige Variable ist ln wage)
für 629 High School-Absolventen, die über 6 Jahre im Rahmen der Michigan Income Dynamics Study verfolgt
wurden
Fixed effects
Random effects
Variable
Parameter t-Wert Parameter t-Wert
Konstante
–
19,638
Alter 20-35
0,0557 13,2619
0,0393 11,909
Alter 35-45
0,0351 6,8824
0,0092 2,5556
Alter 45-55
0,0209
3,8
-0,0007 -0,1667
Alter 55-65
0,0209 2,6795
-0,0097 -1,6167
Alter 65+
-0,0171 -1,1032
-0,0423 -3,4959
Arbeitslos im Vorjahr
-0,0042 -0,2745
-0,0277 -1,8344
Schlechte Gesundheit im Vorjahr
-0,0204 -0,9231
-0,025 -1,1628
Selbständig
-0,219 -7,3737
-0,267 -10,152
Süden
-0,1569 -2,3918
-0,0324 -0,973
Ländliche Gegend
-0,0101 -0,3186
-0,1215 -5,1266
2
s
0,0567
0,0694
Freiheitsgrade
3135
3763
125
Mikroökonometrie
Prof. Dr. R. Hujer
Teil C
Modelle zur Ereignisanalyse
Ereignisdaten
Datenmaterial liefert Informationen zu Ereignissen i.w.S., die Untersuchungseinheiten in einem best. Zeitraum
widerfahren (z.B. Zustandswechsel (erwerbstätiges Individuum wird arbeitslos), eingehender Telefonanruf in
einer Vermittlungsstelle, Unfall auf einer bestimmten Kreuzung):
Verweildaueranalysen (Hazardratenmodelle) → untersuchen Dauer zwischen zwei Ereignissen (Arbeitslosigkeitsdauer, Lebensdauern, Wartezeiten, Dauer zwischen zwei eingehenden Telefonanrufen oder
Unfällen)
Modelle für Zähldaten (Count Data Models) → analysieren Häufigkeit des Auftretens eines Ereignisses innerhalb eines bestimmten Zeitintervalls (Zahl von Arbeitslosigkeitsmeldungen eines Individuums,
Anzahl eingehender Telefonanrufe oder Zahl an Unfällen)
⇒ der Anzahl von z.B. Arbeitslosigkeitsepisoden eines Arbeitnehmers in Count Data Models steht in Hazardratenmodellen die Dauer jeder einzelnen Arbeitslosigkeitsepisode dieses Arbeitnehmers gegenüber
126
Mikroökonometrie
Prof. Dr. R. Hujer
⇒ größerer Informationsgehalt im Hazardratenmodell
I.
I.1.
Hazardratenmodelle
Einführung
Hazardratenmodelle sind Modelle zur Analyse von Verweildauern oder Episoden(Spells), d.h. der Dauer die eine
Untersuchungseinheit in einem interessierenden Zustand verbringt → erste Anwendung in der medizinischen
Statistik für Überlebensdauern: z.B. Dauer zwischen Infektion mit AIDS und Tod; in der Ökonometrie z.B.
Dauer zwischen Beginn der Arbeitslosigkeit und neuer Beschäftigung
⇒ Querschnittsdaten haben Informationen zum Zustand in einem bestimmten Zeitpunkt; Paneldaten haben
üblicherweise Informationen zu Zuständen in aufeinanderfolgenden Zeitpunkten; Verweildaueranalysen
benötigen dagegen möglichst genaue Informationen über Zustandsänderungen und deren Zeitpunkte
⇒ im Optimalfall besonderes Erhebungsdesign
Bsp. Sozio-ökonomisches Panel (SOEP): zusätzlich zu den Informationen zum Zeitpunkt des Interviews werden
im sog. Erwerbskalendarium retrospektiv für das abgelaufene Jahr der Erwerbszustand (Vollzeit-Erwerbstätigkeit, Teilzeit-Erwerbstätigkeit, Arbeitslosigkeit, Wehr-/Zivildienst, etc.) für jeden Monat erhoben.
127
Mikroökonometrie
I.2.
Prof. Dr. R. Hujer
Das Zensierungsproblem
Bei der Verweildaueranalysen kann Dauer aufgrund von Zensierungen nicht unmittelbar als abhängige Variable
verwendet werden:
• zu Beginn einer Untersuchung befinden sich bereits Individuen in dem interessierenden Zustand, z.B.
Arbeitslosigkeit; es ist i.d.R. unbekannt, wie lange diese Episode bereits andauert → Linkszensierung
• am Ende des Untersuchungszeitraumes (oder bei Ausscheiden von Individuen aus der Befragung) befinden
sich Individuen noch in dem interessierenden Zustand; es ist unbekannt, wie lange diese Episoden noch
andauern werden → Rechtszensierung
Alle anderen Episoden, d.h. Episoden, bei denen sowohl der Beginn als auch das Ende im Untersuchungszeitraum
beobachtet wird, sind unzensiert → Abbildung 1 veranschaulicht die verschiedenen Fälle.
128
Mikroökonometrie
Prof. Dr. R. Hujer
Abbildung 1: Links-, rechts- und unzensierte Episoden
t0(tj ) : Beginn (Ende) des Untersuchungszeitraumes
129
Mikroökonometrie
Prof. Dr. R. Hujer
⇒ Statt der Verweildauer wird die Hazardrate als abhängige Variable verwendet.
⇒ Im folgenden wird von Linkszensuren abstrahiert, da ihre Berücksichtigung weitaus schwieriger ist als die von
Rechtszensuren; bei Rechtszensuren kann die Information, dass Individuum mindestens bis zum Zeitpunkt
tj arbeitslos war, für die Formulierung der Likelihoodfunktion verwendet werden.
Bei beiden Zensierungen besteht aber grundsätzlich das Problem einer Verzerrung bei der Dauerinformationen,
da üblicherweise längere Episoden davon betroffen sind.
130
Mikroökonometrie
I.3.
I.3.1.
Prof. Dr. R. Hujer
Modelle in kontinuierlicher Zeit
Allgemeine Definitionen
→ Annahme, dass Dauer Ti der i-ten Episode (Beobachtung) eine kontinuierliche Zufallsvariable mit Dichtefunktion f (t) und Verteilungsfunktion F (t) ist.
Die Survivor- oder Überlebensfunktion S(t) ist die Wahrscheinlichkeit, dass ein Individuum den Zeitpunkt t
erlebt, d.h. dass die Episode mindestens bis t andauert:
S(t) = P (T ≥ t) = 1 − F (t).
Die Hazard- oder Übergangsrate ist der Grenzwert der bedingten Wahrscheinlichkeit, dass die Episode im Intervall [t, t + dt[ zu Ende geht unter der Voraussetzung, dass die Episode bis zum Beginn dieses Intervalls
andauert:
P (t ≤ T < t + dt|T ≥ t)
P (t ≤ T < t + dt)/dt f (t)
= lim
=
.
dt→0+
dt→0+
dt
P (T ≥ t)
S(t)
λ(t) = lim
131
Mikroökonometrie
Prof. Dr. R. Hujer
Für die Beziehung zwischen Survivorfunktion und Hazardrate gilt außerdem:

Zt
S(t) = exp −

λ(u)du
0
da
Zt
Λ(t) =
Zt
λ(u)du =
0
f (u)
du = − ln(1 − F (u))|t0 = − ln(1 − F (t)) = − ln S(t).
1 − F (u)
0
Λ(t) bezeichnet die sogenannte kumulierte Hazardrate.
Aus den Beziehungen zwischen λ(t), S(t) und f (t) wird deutlich, dass die Dauer der Episode durch die Spezifikation einer dieser drei Größen eindeutig beschrieben ist.
• parametrische Spezifikationen; Nachteil: implizieren bestimmte Annahmen über den zeitlichen Verlauf
dλ(t)
dλ(t)
(positive Zeitabängigkeit: dλ(t)
>
0;
negative
Zeitabh
ängigkeit:
<
0;
Zeitkonstanz:
dt
dt
dt = 0)
• nichtparametrische Methoden (z.B. Sterbetafel-Methode, Kaplan-Meier-Schätzung; vgl. g.5)
132
Mikroökonometrie
I.3.2.
Prof. Dr. R. Hujer
Parametrische Spezifikationen der Hazardrate
→ Annahme spezieller Wahrscheinlichkeitsverteilungen für die Episodendauer; z.B.:
a) Exponential-Verteilung
die Annahme einer Exponential-Verteilung impliziert eine im Zeitablauf konstante Hazardrate:
λ(t) = λ,
t ≥ 0, λ > 0
S(t) = exp(−λ(t))
f (t) = λ exp(−λ(t))
133
Mikroökonometrie
Prof. Dr. R. Hujer
b) Weibull-Verteilung
Verallgemeinerung der Exponentialverteilung; sie erlaubt verschiedene Entwicklungen der Hazardrate über die
Zeit abhängig von der Wahl des Parameters α; sie ist monoton steigend für α > 1, abnehmend für α < 1 und
konstant für α = 1 → hohe Flexibilität:
λ(t) = λα(λt)α−1;
S(t) = exp(−(λt)α ),
f (t) = λα(λt)α−1 exp(−(λt)α );
mit: α, λ, t > 0
134
Mikroökonometrie
Prof. Dr. R. Hujer
c) Gompertz-Verteilung
λ0 > 0, −∞ < γ0 < ∞, t ≥ 0
λ(t) = λ0 exp(γ0t)
λ0
S(t) = exp − · (exp(γ0t) − 1)
γ0
λ0
f (t) = λ0 exp γ0t − − · (exp(γ0t) − 1)
γ0
135
Mikroökonometrie
I.3.3.
Prof. Dr. R. Hujer
Einbeziehung erklärender Variablen
In der Regel sollen weitere erklärende Variablen, also z.B. individuenspezifische, sozio-demografische Variablen,
in dem Modell berücksichtigt werden → sog. Kovariate; sie können zeitkonstant, d.h. konstant über den Verlauf
der Episode, oder zeitvariabel sein; im folgenden werden zur Vereinfachung zeitkonstante Kovariate unterstellt
• Verallgemeinerung parametrischer Regressionsmodelle
• Proportional-Hazards-Modell (Cox (1972))
a) Verallgemeinerung parametrischer Regressionsmodelle
⇒ ein oder mehrere Parameter der Verteilung werden in Abhängigkeit von dem individuenspezifischen Kovariatenvektor xi modelliert; Verweildauerverteilung wird dann durch die zu den Kovariaten gehörenden Regressionskoeffizienten β determiniert:
136
Mikroökonometrie
Prof. Dr. R. Hujer
z.B. Exponential-Modell:
im Exponential-Modell ist die durchschnittliche Verweildauer λ1 ; üblicherweise wird der Einfluß der Kovariate
über diesen Parameter modelliert, etwa in der Form λ1i = g(x0iβ); dabei ist g(·) so zu wählen, dass die Restriktion
λ > 0 eingehalten wird, z.B. g(x0iβ) = exp(x0iβ); aufgrund der individuenspezifischen Kovariate erhalten wir so
individuenspezifische, aber aufgrund der unterstellten Zeitkonstanz der Kovariate zeitunabhängige Hazardraten:
λi(t|xi) = exp(−x0iβ)
137
Mikroökonometrie
Prof. Dr. R. Hujer
b) Proportional-Hazards-Modell (PH-Modell; Cox (1972))
Bislang wurde davon ausgegangen, dass Hazardrate und damit die Verteilung der Verweildauer bis auf einige
Parameter bekannt ist; PH-Modell ist semi-parametrischer Ansatz mit einer unspezifizierten Basisübergangsrate
λ0(t), d.h. λ0(t) ist i.d.R. ebenfalls zu schätzen → höhere Flexibilität in der Modellierung:
λi(t|xi) = λ0(t) exp(−x0iβ)
Name des Modells ergibt sich aus der Tatsache, dass Hazardraten zweier Individuen proportional zueinander
sind; das Verhältnis ist zeitunabhängig:
λ1(t|x1)
= exp ((x1 − x2)0β) .
λ2(t|x2)
Nachteil des PH-Modells: Proportionalität bedeutet Einschränkung der Anwendungsmöglichkeiten; z.B. Einbeziehung der Kovariate Geschlecht“ → Verhältnis der Hazardraten von Männern und Frauen darf über die
”
Zeit hinweg nicht variieren; Lockerung dieser Restriktion durch Einführung subpopulationsspezifischer, hier also
geschlechtsspezifischer, Basisübergangsraten möglich.
138
Mikroökonometrie
I.3.4.
Prof. Dr. R. Hujer
Schätzmethoden
a) Maximum-Likelihood-Methode
Es wird vorausgesetzt, dass aufgrund bestimmter ökonomischer Hypothesen, einer vorangegangenen Datenanalyse o.ä. aus der Menge möglicher Spezifikationen eine ausgewählt wurde, so dass die Funktion der Hazardrate
bis auf einen Parametervektor θ bekannt ist, der die Verteilungsparameter und den evtl. zu schätzenden Koeffizientenvektor der Kovariate β umfasst. Die zugehörige Dichtefunktion lautet f (t, θ).
Solange keine Zensierungen vorhanden sind, ist die Formulierung der Likelihood-Funktion einfach. Für eine
Stichprobe mit insgesamt N unzensierten und voneinander unabhängigen Episoden und einem zu schätzenden
Parametervektor θ lautet sie wie gewöhnlich:
L(θ) =
N
Y
fi(ti, θ)
i=1
139
Mikroökonometrie
Prof. Dr. R. Hujer
Ist eine Episode zensiert, z.B. bei einer Verweildauer von tj , ist die einzig verfügbare Information, dass diese
Episode mindestens bis tj angedauert hat. Der Beitrag dieser Episode zu einer Likelihoodfunktion ist folglich
der Wert der Survivorfunktion Si(tj , θ). Mit einer Dummyvariablen di, die den Wert Eins (Null) annimmt,
wenn Episode i unzensiert (zensiert) ist, lautet die Likelihoodfunktion für eine Stichprobe, in der auch zensierte
Episoden vorhanden sind:
N
Y
1−di
di
L(θ) =
fi(ti, θ) Si(ti, θ)
i=1
N
Y
=
λ(ti, θ)di Si(ti, θ) .
i=1
140
Mikroökonometrie
Prof. Dr. R. Hujer
b) Schätzung des Proportional-Hazards-Modell
Für das PH-Modell lautet die Likelihood-Funktion:
L(β, λ0(t)) =
N
Y
i=1

d
[λ0(t) exp(x0iβ)] i exp −
Zt

λ0(u) exp(x0iβ)du .
0
Likelihood-Funktion enthält nicht nur den unbekannten Parametervektor β, sondern auch die unbekannte Funktion λ0(t) → für Schätzung nicht verwendbar.
Man kann natürlich λ0(t) auch parametrisch spezifizieren und so zu einem vollparametrischen Modell kommen,
allerdings geht der Vorteil der Flexibilität des Modells verloren. Cox (1972) hat deshalb eine alternative
Methode vorgeschlagen, die auf einer Faktorisierung der Likelihood beruht und die Schätzung von β ohne eine
Spezifizierung von ermöglicht λ0(t) → Partial-Likelihood.
141
Mikroökonometrie
Prof. Dr. R. Hujer
Die individuellen Verweildauern seien geordnet, d.h. t1 < t2 < . . . < tN . Von Zensuren wird zunächst abgesehen.
Die bedingte Wahrscheinlichkeit, daß zum Zeitpunkt ti gerade die Episode i abschließt, gegeben dass jede der
übrigen noch nicht beendeten Episoden zu ti, die sogenannte Risikomenge R(ti), hätte abschließen können und
dass zum Zeitpunkt ti genau ein Ereignis stattfindet, lautet:
λi(ti|xi)
exp(x0iβ)
P
=P
0 β) .
λ
(t
|x
)
exp(x
k∈R(ti ) k i k
k∈R(ti )
k
Das Produkt dieser bedingten Wahrscheinlichkeiten bezeichnete Cox (1972) als Partial-Likelihood und schlug
vor es wie eine gewöhnliche Likelihood-Funktion zu behandeln und in Abhängigkeit von β zu maximieren:
P L(β) =
N
Y
i=1
exp(x0iβ)
P
0 β) .
exp(x
k∈R(ti )
k
Die Partial-ML-Schätzer sind unter best. Voraussetzungen konsistent (Andersen/Gill (1982)). Treten jedoch Episoden mit genau gleichen Verweildauern auf (sog. Ties), muß die Partial-Likelihood korrigiert werden
(Breslow (1974)). Bei einer zu großen Zahl von Ties → diskrete Modelle. Falls zensierte Beobachtungen
berücksichtigt werden sollen, so gehen diese in den Nenner, nicht jedoch in den Zähler ein (Kiefer (1988A)).
142
Mikroökonometrie
I.3.5.
Prof. Dr. R. Hujer
Unbeobachtbare Heterogenität
Durch Einbeziehung von Kovariaten wird Heterogenität der hinter den Episoden stehenden Individuen berücksichtigt. Allerdings Beschränkung auf beobachtbare Merkmale, unbeobachtbare Merkmale bleiben unberücksichtigt.
Wird dieser unbeobachtbaren Heterogenität nicht im Modell Rechnung getragen, Gefahr einer scheinbaren
Zeitabhängigkeit (spurious time dependence) der Hazardrate → Abb. 2: Sind in der Stichprobe z.B. tatsächlich
zwei Teilpopulationen mit unterschiedlichen Hazardraten vorhanden, die sich aufgrund der beobachtbaren Merkmale nicht identifizieren lassen, so wird die Hazardrate der Gesamtstichprobe über die Zeit fallen. Es werden
nämlich eher die Individuen der Teilpopulation mit der höheren Hazardrate die Risikomenge verlassen, so daß
der Anteil der Individuen aus der Teilpopulation mit der niedrigeren Hazardrate an der Gesamtpopulation über
die Zeit zunimmt.
143
Mikroökonometrie
Prof. Dr. R. Hujer
Abbildung 2: Scheinbare Zeitabhängigkeit (spurious time dependence)
144
Mikroökonometrie
Prof. Dr. R. Hujer
Zur Vermeidung entsprechender Verzerrungen ist eine Zufallsvariable ε, die die unbeobachtbare Heterogenität
abbildet, in den Ansatz aufzunehmen. Für die Randdichte f (t|x) gilt dann z.B.:
Z∞
f (t|x) =
Z∞
λ(t|x, ε) · S(t|x, ε)dG(ε).
f (t|x, ε)dG(ε) =
0
0
G(ε) ist die Verteilungsfunktion von ε und wird als mischende Verteilung bezeichnet. Sie ist jedoch unbekannt.
Es werden zwei alternative Verfahren vorgeschlagen:
• nichtparametrische Verfahren (Heckman/Singer (1984))
G(ε) wird durch eine diskrete Verteilung approximiert, deren Stützstellen simultan mit den Modellparameteren zu schätzen ist. Vorteil: Flexibilität; Nachteil: Anzahl der Stützstellen ist a priori unbekannt
• parametrische Verfahren (Lancaster (1979), Tuma/Hannan (1984))
G(ε) wird durch eine parametrische Verteilung spezifiziert, etwa die Gammaverteilung. Vorteil: einfache
Handhabung; Nachteil: u.U. Verzerrung der Parameterschätzwerte
145
Mikroökonometrie
I.4.
Prof. Dr. R. Hujer
Erweiterungen
a) Konkurrierende Risiken (competing risks)
Bislang wurde implizit nur ein Übergang in einen Endzustand betrachtet, etwa Arbeitslosigkeit → Erwerbstätigkeit; i.d.R. existieren jedoch verschiedene Ereignisse (Risiken), die eine Episode beenden können:
z.B. wird Arbeitslosigkeit auch beendet durch Rückzug vom Arbeitsmarkt, d.h. Nichterwerbstätigkeit; sind
diese Ereignisse nicht unabhängig voneinander, sind die Abhängigkeiten bei der Modellierung zu berücksichtigen; Annahme: R unterschiedliche Risiken, Zufallsvariable Y nimmt Werte aus der Menge der möglichen
Zielzustände an; Definition einer sog. übergangs- oder ursachenspezifischen Übergangsrate:
P (t ≤ T < t + dt, Y = r|T ≥ t, x)
.
dt→0+
dt
λr (t|x) = lim
Hazardrate ist dann die Summe der Übergangsraten:
λ(t|x) =
R
X
λr (t|x).
r=1
Die zur Erklärung der Übergangsraten herangezogenen Kovariate können für die verschiedenen Übergänge
voneinander abweichen
146
Mikroökonometrie
Prof. Dr. R. Hujer
b) Mehr-Episoden-Modelle
Bislang ebenfalls implizit Annahme, dass jedes Individuum nur eine Episode beiträgt, bzw. bei mehreren
Episoden pro Individuum, dass die Episoden eines Individuums unabhängig voneinander sind; Aufgabe dieser Annahme führt dazu, dass Dauer einer Episode k auch von der Vorgeschichte Hk−1 abhängt
(Blossfeld/Hamerle/Mayer (1986)); die Hazardrate der k-ten Episode ist:
(
k
λ (t|xk , Hk−1) =
lim P (t ≤ T < t + dt, Y = r|T ≥ t, xk , Hk−1)/dt für t ≥ tk−1
dt→0+
0
für t < tk−1
c) Diskrete Modelle
Die Annahme kontinuierlicher Zeit ist i.d.R. nicht realistisch, da ökonomische Daten i.d.R. in bestimmten
Intervallen erhoben werden, aggregiert oder gerundet sind, etc. Im Sozio-ökonomischen Panel etwa ist
Dauer nur auf monatlicher Basis verfügbar → große Anzahl von Ties → Formulierung des Modells in
diskreter Zeit (Kiefer (1988B)); Annahme, daß Daten in J + 1 Intervallen, mit dem j-ten Intervall
[tj , tj+1), j = 0, 1, . . . , J:
h(j|x) = P [T < tj+1|T ≥ tj , x] = [S(tj |xi) − S(tj+1|xi)] · S(tj |xi)−1
147
Mikroökonometrie
I.5.
Prof. Dr. R. Hujer
Nichtparametrische Methoden am Beispiel des Kaplan-Meier-Schätzers
Nichtparametrische Methoden kommen vollkommen ohne parametrische Annahmen hinsichtlich der Gestalt der
Hazardrate, Überlebens- oder Dichtefunktion aus und vermeiden so Verzerrungen in den Schätzergebnissen durch
eine zu große Anzahl von Restriktionen. Sie sind auch nützlich z.B. für eine graphische Darstellung der Daten
oder für Voranalysen, etwa um angemessene Funktionsformen für eine spätere parametrische Spezifikation zu
finden.
Ausgangspunkt sei eine Stichprobe mit n Episoden, von denen nicht alle unzensiert sind. Wir ordnen die Dauern
der unzensierten Episoden von der kleinsten bis zur größten Dauer: t1 < t2 < . . . < tK . Es gilt K, da
Beobachtungen zensiert sind und da Ties auftreten können. Folgende Variablen werden definiert:
hj = Anzahl unzensierter Episoden mit der Dauer Tj , j = 1, . . . , K; ohne Ties sind alle hj gleich Eins.
mj = Anzahl Episoden, die zwischen den Zeitpunkten tj und tj+1, j = 1, . . . , K − 1, zensiert sind.
mk = Anzahl Episoden, deren Dauer größer als Tk , die der längsten unzensierten Episode, ist.
nj = Anzahl Episoden, die vor tj weder beendet noch zensiert sind, d.h. mindestens bis tj andauern.
Damit gilt:
nj =
K
X
(mi + hi).
i≥j
148
Mikroökonometrie
Prof. Dr. R. Hujer
Die Hazardrate gibt, wie oben bereits definiert, die Wahrscheinlichkeit an, dass eine Episode zum Zeitpunkt tj
endet, unter der Bedingung, dass die Episode mindestens bis tj andauert. Ein naheliegender Schätzer für die
Hazardrate ist folglich die Zahl der Übergänge zum Zeitpunkt tj , geteilt durch die Risikomenge zum Zeitpunkt
tj , die durch nj gegeben ist (vgl. auch oben g.3.4):
λ̂(tj ) =
hj
.
nj
Der zugehörige Schätzer für die Überlebensfunktion ist:
Ŝ(tj ) =
j
Y
ni − hi
i=1
ni
j
Y
nj − hj
=
(1 − λ̂(ti)) = Ŝ(tj−1) ·
.
n
j
i=1
Dies ist der sogenannte Kaplan-Meier- oder product-limit“-Schätzer.
”
Beispiel (LAWLESS (1982), S.72-74):
In klinischen Tests werden von 42 Leukämie-Patienten die Hälfte mit einem neuen Präparat 6-MP“ behandelt,
”
die andere Hälfte als Kontrollgruppe erhält dagegen ein Placebo. Gemessen wird die Dauer der Remission.
Folgende Dauern waren zum Untersuchungszeitpunkt beobachtbar (∗ kennzeichnet zensierte Beobachtung):
149
Mikroökonometrie
Prof. Dr. R. Hujer
6-MP: 6, 6, 6, 6∗, 7, 9∗, 10, 10∗, 11∗, 13, 16, 17∗, 19∗, 20∗, 22, 23, 25∗, 32∗, 32∗, 34∗, 35∗
Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23
6-MP
Placebo
tj nj hj Ŝ(tj )
tj nj hj Ŝ(tj )
6 21
3 0,857
1 21
2 0,905
7 17
1 0,807
2 19
2
10 15
1 0,753
3 17
1 0,762
13 12
1
0,69
4 16
2 0,667
16 11
1 0,627
5 14
2 0,571
22
7
1 0,538
8 12
4 0,381
23
6
1 0,448
0,81
11
8
2 0,286
12
6
2
15
4
1 0,143
17
3
1 0,095
22
2
1 0,048
23
1
1
0,19
0
150
Mikroökonometrie
I.6.
Prof. Dr. R. Hujer
Empirische Anwendung
Hujer/Schneider (1994) analysieren Determinanten der Arbeitslosigkeitsdauer von Männern in WestDeutschland 1983-1985 mit Gompertz- und Weibull-Modellen; hier ausgewählte Ergebnisse ohne Berücksichtigung unbeobachtbarer Heterogenität
Gompertz-Modell
Variable
Funktionsparameter
Konstante
Nationalität (1=deutsch)
Alter zwischen 30 und 40 Jahre
Alter zwischen 40 und 50 Jahre
Alter über 50 Jahr
Bezug von Arbeitslosengeld
Auslaufphase von AL-Geld
Bezug von AL-Hilfe
Februar/März/April
Juli/August/September
Dezember
Weibull-Modell
exp(Parameter)
Signifikanzniveau
exp(Parameter)
Signifikanzniveau
0,9908
0,1039
1,1933
0,8655
0,9036
0,3027
1,0681
0,2359
0,5462
1,841
1,7399
3,1744
0,5166
0
0,1248
0,281
0,4966
0
0,6426
0,0044
0,0028
0,0001
0,0001
0
1,0648
0,088
1,2155
0,839
0,8678
0,278
1,0998
0,2216
0,5113
1,8484
1,755
3,2845
0,1222
0
0,0906
0,1889
0,3386
0
0,4988
0,003
0,0009
0,0001
0,0001
0
151
Mikroökonometrie
II.
II.1.
Prof. Dr. R. Hujer
Modelle für Zähldaten (Count Data Models)
Einführung
Modelle für Zähldaten beschreiben die Anzahl y auftretender Ereignisse während eines bestimmten Zeitintervalls;
z.B. die Zahl innerhalb eines Tages in einer Vermittlungsstelle eingehenden Telefonanrufe, die Zahl der Arbeitslosen in einer Region oder die Zahl der Käufer eines Produkts in einem bestimmten Zeitraum → Zähldaten →
die Zufallsvariable Y nimmt Werte aus der Menge der natürlichen Zahlen an, d.h. Y ∈ {1, 2, . . .}.
Die für die Modellierung von Zähldaten verwendeten Verteilungen dürfen deshalb nur nichtnegative Integerwerte
annehmen; am verbreitetsten sind die Poisson- und die Negative Binomialverteilung.
⇒ ein klassisches lineares Regressionsmodell ist aus diesem Grund nicht angemessen, obwohl es in empirischen
Arbeiten häufig Anwendung findet (z.B. Schultz (1990))
152
Mikroökonometrie
Prof. Dr. R. Hujer
II.2.
Verteilungen für Count Data Models
II.2.1.
Poissonverteilung
Die Wahrscheinlichkeiten der Poissonverteilung sind gegeben durch
e−λλy
P (Y = y) =
,
y!
λ > 0, Y = 0, 1, 2, . . . .
Erwartungswert und Varianz der Possionverteilung sind: E(Y ) = V ar(Y ) = λ ( equidispersion“).
”
Die Poissonverteilung betrachtet die Zahl der Ereignisse in einem Intervall der Länge 1. Will man allgemeiner
ein Intervall der Länge T betrachten, so lautet die Formel (Poissonprozeß)
e−λT (λT )y
P (Y = y) =
,
y!
mit E(Y ) = V ar(Y ) = λT.
153
Mikroökonometrie
Prof. Dr. R. Hujer
⇒ Restriktionen hinsichtlich Erwartungswert und Varianz in der Poissonverteilung (im Poissonprozeß) schränken
empirische Anwendbarkeit ein (Winkelmann (1994))
• direkte Proportionalität von Anzahl des Auftretens des betrachteten Ereignisses und Länge des Zeitintervalls
• Unterstellung, dass die Anzahl an Ereignissen in nicht überlappenden Intervallen stochastisch unabhängig
ist
⇒ Modell ist nicht angemessen ist, wenn die Ereignisse klumpenförmig auftreten (Konsumenten kaufen Produkt z.B. nur an Wochenenden) → Wahrscheinlichkeit für das Auftreten des Ereignisses variiert über die
Zeit
154
Mikroökonometrie
II.2.2.
Prof. Dr. R. Hujer
Negative Binomialverteilung
Y folgt einer Negativen Binomialverteilung mit den Parametern θ und p, d.h. Y ∼ N B(θ, p), falls
P (Y = y) =
Γ(θ + y) θ
p (1 − p)y ,
(Γ(θ)y!)
Γ(x) bezeichnet die Gammafunktion Γ(x) =
R∞
θ > 0, 0 < p < 1, y = 1, 2, . . . .
tx−1e−tdt.
0
Sonderfälle der Negativen Binomialverteilung
Geometrische Verteilung (θ = 1).
sind
Pascalverteilung
(θ
ist
ganzzahlig)
und
155
Mikroökonometrie
Prof. Dr. R. Hujer
Erwartungswert und Varianz sind:
E(Y ) = θ(1 − p)p−1
V ar(Y ) = θ(1 − p)p−2
= E(Y )/p
1
= E(Y ) + [E(Y )]2,
θ
da p =
E(Y )
θ+1
−1
Erwartungswert und Varianz sind proportional zueinander → weniger restriktiv als Poissonverteilung. Da θ > 0
gilt stets V ar(Y ) > E(Y ) ( overdispersion“).
”
156
Mikroökonometrie
II.3.
Prof. Dr. R. Hujer
Ökonometrische Modellierung
Ähnlich wie bei den Hazardratenmodellen sind bei der ökonometrischen Modellierung Einflüsse erklärender
Variablen zu berücksichtigen; wie dort wird dies erreicht, indem ein oder mehrere Parameter der Verteilung in
Abhängigkeit von den erklärenden Variablen x modelliert werden
II.3.1.
Das Poissonmodell
Annahme, dass die Zahl der Ereignisse durch eine Poissonverteilung erzeugt werden; bei der Modellierung des
Parameters der Poissonverteilung ist die Restriktion λ > 0 zu beachten, z.B.:
λi = exp(x0iβ)
Für die erwartete Anzahl an Ergeignissen pro Periode gilt dann:
E(Yi|xi) = V ar(Yi|xi) = λi = exp(x0iβ)
heteroskedastische Funktion !
157
Mikroökonometrie
Prof. Dr. R. Hujer
Im Prinzip ist das Poissonmodell eine nichtlineare Regression. Die Schätzung mittels Maximum Likelihood ist
einfach. Bei N Beobachtungen und einer beobachtungsspezifischen Realisation von Y , yi , erhalten wir für die
Likelihoodfunktion:
L(β) =
0
N
Y
e− exp(xiβ)[exp(x0 β)]yi
i
i=1
yi !
Die Log-Likeihoodfunktion lautet:
L(β) =
N
X
[−λ + yix0iβ − ln yi!].
i=1
158
Mikroökonometrie
II.3.2.
Prof. Dr. R. Hujer
Maßzahlen für die Anpassungsgüte im Poissonmodell
Aufgrund der Nichtlinearität des Modells und der Tatsache, daß es sich bei dem Poissonmodell um eine heteroskedastische Funktion handelt, gibt es kein naheliegendes Äquivalent zu R2 aus linearen Modellen. Einige
Computerprogramme weisen ein Maß aus, dass auf den beobachtungsspezifischen Abweichungen
yi
yi
di = 2 · yi ln − (yi − λ̂i) = 2 · yi ln − ei
λ̂i
λ̂i
beruht:
2
G =
N
X
i=1
di = 2 ·
N
X
i=1
yi · ln
yi
λ̂i
.
Dabei wird definiert: 0 · ln(0) = 0 und die Tatsache genutzt, daß für ein Modell mit Konstante
(Greene (2003), S.741). Im (hypothetischen) Idealfall perfekter Anpassungsgüte ist G2 = 0.
PN
i=1 ei
=0
159
Mikroökonometrie
Prof. Dr. R. Hujer
Cameron/Windmejer (1996) schlagen u.a. folgendes Maß vor, das wie R2 zwischen 0 und 1 definiert ist:
PN h
Rd2
=1−
i=1
yi · ln
PN h
i=1
i
yi
λ̂i
− (yi − λ̂i)
i
.
yi
yi · ln λ̂
i
Wie R2 wächst auch Rd2 mit der Aufnahme weiterer erklärender Variablen in das Modell.
160
Mikroökonometrie
II.3.3.
Prof. Dr. R. Hujer
Tests auf Equidispersion
Poissonmodell wird häufig wegen der Restriktion, dass bedingter Erwartungswert und bedingte Varianz des
Modells gleich sind (Equidispersion), kritisiert → Überprüfung, ob stattdessen Overdispersion (V ar(Y ) >
E(Y )) oder Underdispersion (V ar(Y ) < E(Y )) vorliegt.
Ein grafischer Test, ob Poissonverteilung angemessen ist, durch Darstellung von Erwartungswert und Varianz
für verschiedene (Teil-)Stichproben in einem Streudiagramm; Berechnung auf Basis der geschätzten Werte der
abhängigen Variable → Ergebnis sollte annähernd 45◦-Linie sein.
161
Mikroökonometrie
Prof. Dr. R. Hujer
Cameron/Trivedi (1990) schlagen einen formalen Test vor, der die Hypothese überprüft
H0 : V ar[yi] = E[yi]
vs.
H1 : V ar[yi] = E[yi] + αg(E[yi]).
Das Modell unter H1 kann geschrieben werden als
E[(yi − E[yi])2 − yi] = αg(E[yi]).
Ein naheliegender Test auf Equidispersion ist dann ein t-Test auf α = 0 in der OLS-Regression
(yi − E[yi])2 − yi = αg(E[yi]) + εi,
sofern E[yi] beobachtbar ist. Da dies nicht der Fall ist, diskutieren Cameron/Trivedi (1990, S.351-352)
einen geeigneten Schätzer für E[yi].
Führen Tests zu einer Ablehnung von Equidispersion, sind flexiblere Modelle wie das Modell der Negativen
Binomialverteilung heranzuziehen.
162
Mikroökonometrie
II.3.4.
Prof. Dr. R. Hujer
Das Modell der Negativen Binomialverteilung
Das Modell der Negativen Binomialverteilung läßt sich aus dem Poissonmodell durch Einbeziehung von unbeobachtbarer Heterogenität ableiten:
µi = exp(x0iβ + εi) = λi · ui
bzw.
ln µi = x0iβ + εi = ln λi + ln ui.
ui bzw. εi repräsentiert wie in früheren Kapiteln (z.B. g.3.5) einen unbeobachtbaren, beobachtungsspezfischen
Effekt. Die Verteilung von yi, bedingt auf xi und ui, ist immer noch eine Poissonverteilung mit bedingtem Mittelwert und bedingter Varianz µi (Greene (2003), S.744). Da ui aber unbeobachtbar ist, ist eine Konditionierung
nicht möglich. Die nicht auf ui bedingte Dichte lautet (vgl. auch g.3.5):
Z∞
f (yi|xi) =
0
−λi ui
e
yi
(λiui)
· g(ui)dui =
yi !
Z∞
e−λiui (λiui)yi
· dG(ui).
yi !
0
G(ui) ist die Verteilungs-, g(ui) die Dichtefunktion von ui. Sie sind unbekannt. Hinsichtlich der Spezifikation
der Verteilung sind die bereits in g.3.5 vorgeschlagenen Verfahren anwendbar.
163
Mikroökonometrie
Prof. Dr. R. Hujer
Wird ein parametrisches Verfahren gewählt und für ui eine Gammaverteilung mit E(ui) = 1 angenommen, d.h.
θθ −θui θ−1
ui ,
g(ui) =
e
Γ(θ)
so erhalten wir für f (yi|xi) :
f (yi|xi)=
R∞ e−λiui (λiui)yi
yi !
0
y
θ θ λi i
= Γ(yi+1)·Γ(θ)
R∞
·
θθ e−θui uθ−1
i
dui
Γ(θ)
i −1
dui da Γ(x) = (x − 1) · Γ(x − 1)
e−(λi+θ)ui uθ+y
i
0
y
R∞
θθ λi i ·Γ(θ+yi )
= Γ(y +1)·Γ(θ)·(λ +θ)θ+yi
i
i
da
yi
θ
i)
= Γ(yΓ(θ+y
·
r
·
(1
−
r
)
i
i
+1)·Γ(θ)
i
mit ri =
e−attP −1dt = a−P · Γ(P )
0
λi
λi +θ .
164
Mikroökonometrie
Prof. Dr. R. Hujer
Dies entspricht der Negativen Binomialverteilung aus h.2.2 mit pi = 1 − ri, bedingtem Erwartungswert λi und
bedingter Varianz λi(1 + (1/θ)λi) (Übung: Zeigen Sie dies!). Die bedingte Varianz ist also eine quadratische
Funktion des bedingten Erwartungswertes. Es handelt sich in der Klassifikation von Cameron/Trivedi
(1986) um das NEGBIN II-Modell. Die Schätzung mittels Maximum Likelihood ist unproblematisch (Greene
(2003), S.745).
165
Mikroökonometrie
II.3.5.
Prof. Dr. R. Hujer
Hurdle-Modelle
Mullahy (1986) stellt fest, dass zwischen der Beobachtung kein Ereignis“ und der Beobachtung einer
”
positiven Zahl von Ereignissen ein wesentlicher qualitativer Unterschied besteht. Er schlägt als Alternative sog.
Hurdle-Modelle vor.
Dabei bestimmt ein binäres Wahrscheinlichkeitsmodell, ob ein Null- oder ein positives Ergebnis beobachtet wird:
e−λ1 λ01
= e−λ1
P (Y = 0) =
0!
P (Y = 1) = 1 − (P (Y = 0)) = 1 − e−λ1
Eine gestutzte Poisson-Verteilung modelliert die positiven Beobachtungen:
(
P (Y = yi|yi > 0) =
y
λ2i
(eλ2 −1)yi !
0
für
yi > 0
sonst
166
Mikroökonometrie
Prof. Dr. R. Hujer
Wiederum wird λij parametrisiert als λij = exp(x0iβj ) (Mullahy (1986), S.345-346). Die Likelihoodfunktion
ähnelt der des Tobit-Modells (vgl. b.3.4):
Y
Y
Y
L =
[P (Y = 0)] ·
[P (Y = 1)] ·
[Y = yi|yi > 0]
i∈Ω0
=
Y
i∈Ω0
i∈Ω1
{exp[− exp(x0iβ1)]} ·
i∈Ω1
Y
i∈Ω1
{1 − exp[− exp(x0iβ1)]} ·
Y
i∈Ω1
exp(yix0iβ2)
[exp(exp(x0iβ2)) − 1] · yi!
Ω0 kennzeichnet die Menge der Nullbeobachtungen, Ω1 die Menge aller positiven Beobachtungen.
167
Mikroökonometrie
II.4.
Prof. Dr. R. Hujer
Empirische Anwendung
Dionne et al. (1996) untersuchen die Determinanten der Anzahl nichtgezahlter Raten bei Konsumentenkrediten unter Verwendung eines Hurdle-Modells; hier ausgewählte Schätzergebnisse des Logit-Modells für die
Ausfallwahrscheinlichkeit und des von unten gestutzten Negativen Binomialmodells für die Zahl nichtgezahlter
Raten für die Kredite, die letztlich nicht notleidend wurden:
Logit-Modell
NegBin-Modell
Variable
Parameter t-Wert Parameter t-Wert
Konstante
-2,305 -7,791
-0,794
-1,55
Kreditlaufzeit über 4 Jahre
0,516 4,045
0,244
0,95
Alter Kreditnehmer 18-24J.
0,223 0,893
0,2 0,452
Alter Kreditnehmer 25-39J.
0,061 0,443
0,561
2,1
keine abgeschlossene Schulausbildung*
0,761
2,5
-0,016
-0,03
abgeschlossene Schulausbildung*
0,374 1,866
0,823 2,347
Kredit durch Laden vermittelt
0,038 0,207
-0,845 -2,684
Kreditnehmer hat Gehaltskonto bei Bank
-0,932
-6,54
-0,611 -2,419
*: Referenz ist weiterführende Ausbildung, Universitätsausbildung
168
Mikroökonometrie
Prof. Dr. R. Hujer
Herleitung der Maßzahlen im Poissonmodell
Die beobachtungsspezifischen Abweichungen sind definiert als:
yi
yi
di = 2 · yi ln − (yi − λ̂i) = 2 · yi ln − ei
λ̂i
λ̂i
Dies ergibt für die Gesamtabweichung nach Cameron und Trivedi (1998):
h
i
D = 2 · ln L(y) − ln L(λ̂)
i
N h
P
yi
= 2·
yi ln λ̂ − (yi − λ̂)
i
i
N
Ph
yi
= 2·
yi ln λ̂ − εi
i
169
Mikroökonometrie
Prof. Dr. R. Hujer
Dies folgt aus der Differenz von
ln L(y) =
N
X
(yi · ln yi − yi − ln yi!)
i
und
ln L(λ̂) =
N
X
(λ̂ · ln λ̂ − λ̂ − ln yi!).
i
Die Differenz ist
N h
P
i
yi(ln yi − ln λ̂) − yi + λ̂ − ln yi! + ln yi!
ln L(y) − ln L(λ̂) =
i
i
N h
P
yi
=
yi ln λ̂ − (yi − λ̂i) .
i
i
170
Mikroökonometrie
Prof. Dr. R. Hujer
Die Abweichung ist zweimal diese Differenz bzw.
h
D = 2 · ln L(y) − ln L(λ̂)
Enthält das Modell einer Konstante, ist
N
P
i
ε = 0. Für die Abweichung folgt dann
i
D =2·
N
X
i
yi ln
yi
λ̂
= G2 .
q.e.d.
171
Mikroökonometrie
Prof. Dr. R. Hujer
Teil D
Literatur
Amemiya, T. (1985): Advanced Econometrics, Cambridge (Mass.).
Andersen, P.K./Gill, R.D. (1982): Cox’s Regression Model for Counting Processes: A Large Sample Study, in: Annals of Statistics, Vol.10, S.1100-1120.
Baltagi, B.H. (2001): Econometric Analysis of Panel Data, Chichester.
Blossfeld, H.-P./Hamerle, A./Mayer, K.U. (1986): Ereignisanalyse, Frankfurt/Main.
Breslow, N.E. (1974): Covariance Analysis of Censored Survival Data, in: Biometrics, Vol.30, S.89-100.
Cameron, C.A./Trivedi, P.K. (1986): Econometric Models Based on Count Data: Comparisons and Applications of Some Estimators and Tests, in: Journal of Applied Econometrics, Vol.1, S.29-53.
Cameron, C.A./Trivedi, P.K. (1990): Regression Based Tests for Overdispersion in the Poisson Model,
in: Journal of Econometrics, Vol.46, S.347-364.
Cameron, C.A./Windmeijer, F.A.G. (1996): R-squared Measures for Count Data Regression Models
with Applications to Health-Care Utilization, in: Journal of Business and Economic Statistics, Vol.14,
172
Mikroökonometrie
Prof. Dr. R. Hujer
S.209-220.
Cox, D.R. (1972): Regression Models and Life-Tables (with discussion), in: Journal of the Royal Statistical
Soceity, Series B, Vol.34, No.2, S.187-220.
Dionne, G./Artis, M./Guillen, M. (1996): Count Data Models For a Credit Scoring System, in: Journal
of Empirical Finance, Vol.3, S. 303-325.
Greene, W.H. (2003): Econometric Analysis, 5.Auflage, Upper Saddle River.
Gujarati, D.N. (1995): Basic Econometrics, New York.
Hausman, J.A. (1978): Specification Tests in Econometrics, in: Econometrica, Vol.46, S.1251-1271.
Heckman, J.J. (1976): The Common Structure of Statistical Models of Truncation, Sample Selection, and
Limited Dependent Variables and a Simple Estimator for Such Models, in: Annals of Economic and Social
Measurement, Vol.5, S.475-492.
Heckman, J.J./Singer, B. (1984): A Method for Minimizing the Impact of Distributional Assumptions in
Econometric Models for Duration Data, in: Econometrica, Vol.52, No.2, S.271-320.
Hujer, R./Schneider, H. (1994): Spezifikation und Schätzung von zeitabhängigen Übergangsratenmodellen - methodische Aspekte und ihre Anwendung in der Arbeitsmarktforschung, in:: Mikroanalytische
173
Mikroökonometrie
Prof. Dr. R. Hujer
Grundlagen der Gesellschaftspolitik, Band 2: Erhebungsverfahren, Analysemethoden und Mikrosimulation, hrsg. von R. Hauser, N. Ott und G. Wagner, Berlin, S.325-340.
Kiefer, N.M. (1988a): Economic Duration Data and Hazard Functions, in: Journal of Economic Literature,
Vol.26, S.646-679.
Kiefer, N.M. (1988b): Analysis of Grouped Duration Data, in: Statistical Inference from Stochastic Processes, hrsg. von N.U. Prabhu, Contemporary Mathematics, Vol.80, Providence, S.107-137.
King, G. (1989): Variance Specification in Event Count Models: From Restrictive Assumptions to a Generalized Estimator, in: American Journal of Political Science, Vol.33, S.762-784.
Lancaster, T. (1979): Econometric Methods for the Duration of Unemployment, in: Econometrica, Vol.47,
No.4, S.939-956.
Lawless, J.F. (1982): Statistical Models and Methods for Lifetime Data, New York.
Maddala, G.S. (1983): Limited Dependent and Qualitative Variables in Econometrics, Cambridge (Mass.).
Mullahy, J. (1986): Specification and Testing in Some Modified Count Data Models, in: Journal of Econometrics, Vol.33, S.341-365.
Mundlak, Y. (1978): On the Pooling of Time Series and Cross-section Data, in: Econometrica, Vol.46, S.6985.
174
Mikroökonometrie
Prof. Dr. R. Hujer
Pohlmeier, W. (1989): Simultane Probit- und Tobitmodelle, Berlin.
Ronning, G. (1991): Mikroökonometrie, Berlin.
Schultz, T.P. (1990): Testing the Neoclassical Model of Family Labor Supply and Fertility, in: Journal of
Human Ressources, Vol.25, S.599-634.
Tobin, J. (1958): Estimation of Relationships for Limited Dependent Variables, in: Econometrica, Vo.26, S.2436.
Tong, Yung L. (1990): The Multivariate Normal Distribution, Springer Series in Statistics, Springer Verlag,
New York.
Tuma, N.B./Hannan, M.T. (1984): Social Dynamics - Models and Methods, Orlando.
Wansbeek, T.J./Kapteyn, A. (1982): A Simple Way to Obtain the Spectral Decomposition of Variance
Components Models for Balanced Data, in: Communications in Statistics A11, S.2105-2112.
Wansbeek, T.J./Kapteyn, A. (1983): A Note on Spectral Decomposition and Maximum Likelihood Estimation of ANOVA Models with Balanced Data, in: Statistics and Probability Letters, Vol.1, S.213-215.
Winkelmann, R. (1994): Count Data Models, Berlin.
175
Herunterladen