Teil E: Qualitative abhängige Variable in - Wiwi Uni

Werbung
Teil E: Qualitative abhängige Variable in Regressionsmodellen
1. Qualitative abhängige Variable
Grundlegendes Problem: In vielen Fällen ist die abhängige Variable nur über einen bestimmten
Wertebereich beobachtbar.
Bsp. Wahlentscheidungen:
•
Wahl des Verkehrsmittels (Bus, Bahn, PKW)
•
Partizipation am Arbeitsmarkt (Vollzeit, Teilzeit, keine Partizipation)
•
Konsumentenentscheidung über den Kauf von Produkt A, B, oder C.
Zu erklärende Variable hat in diesen Problemstellungen kein metrisches Meßniveau, sondern nur
diskrete Ausprägungen → klassische ökonometrische Methoden sind nicht per se anwendbar.
Hier Behandlung des binären Falls:
Abhängige Variable kann nur zwei Werte annehmen ⇒ Ja/Nein Entscheidungen
→ Umkodieren der qualitativen abhängigen Variablen auf die Werte 0 oder 1.
Bsp.:
•
Grundsätzliche Partizipationsentscheidung am Arbeitsmarkt
•
Kauf oder Nichtkauf eines Produktes.
-2-
2. Lineares Wahrscheinlichkeits-Modell (LWM)
2.1. Modellidee
LWM bleibt innerhalb der OLS-Methode des klassischen linearen Regressionsmodells. Es behandelt
die abhängige diskrete Variable nicht anders als eine metrische. Der Regressionsansatz lautet in
Vektorschreibweise:
Yi = x′iβ + u i
mit
i = 1,..., N
(1)
Yi : abhängige Variable, Wert 0 oder 1;
x′i : 1 x k Vektor erklärender Variablen;
β:
k x 1 Parametervektor;
u i : Störvariable E( u i ) = 0 .
Wie bisher gilt: E(Yi x i ) = x′β
i ,
aber auch:
E(Yi x i ) = 1 ⋅ Pi + 0 ⋅ (1 − Pi ) = Pi mit:
Pi = P(Yi = 1 xi )
daher "Lineares Wahrscheinlichkeits-Modell": Bedingter Erwartungswert der abhängigen Variablen
ist die Wahrscheinlichkeit, daß die binäre abhängige Variable den Wert Eins annimmt.
-3-
2.2. Probleme des LWM
a) Methodisches Problem des LWM: Heteroskedastie
ui kann 2 Werte annehmen: − x′iβ oder 1 − x ′iβ
E( u i ) = Pi (1 − x′iβ ) + (1 − Pi )( − x ′iβ ) = 0
Var( u i ) = Pi (1 − x′iβ )2 + (1 − Pi )( − x′iβ )2
= Pi (1 − Pi ) = ( x′iβ )(1 − x′iβ )
Aufgrund der Abhängigkeit der Varianz von den Beobachtungen x i ' sind die Störterme u i
heteroskedastisch
Lösung des Problems mit zweistufiger GLS Schätzung:
1.) OLS-Schätzung von β .
2.) Weighted Least Squares Schätzung
-4-
b) Inhaltliche Inkonsistenz des LWM
Bei OLS Schätzung von β kann
= x′β = P
Y
i
i
i
außerhalb des [0,1] Intervalles liegen ⇒ Interpretation als Wahrscheinlichkeit daher unplausibel.
c) Lineare Zunahme der Wahrscheinlichkeit
Problematisch ist außerdem die unterstellte Annahme einer identischen Zunahme der Wahrscheinlichkeit eines Ereignisses auf einen Impuls der exogenen Variablen unabhängig von ihrem
realisierten Niveau. Es ist z.B. anzunehmen, dass sich Einkommensänderungen auf sehr niedrigem oder sehr hohem Niveau anders auf die Kaufwahrscheinlichkeit auswirken als gleichwertige
Veränderungen in den mittleren Einkommensbereichen.
Aus diesen Gründen zieht man dem LWM Logit- und Probit-Modelle zur Erklärung ökonomischer
Wahlhandlungen vor. Beiden Modellen liegt ein sogenanntes Schwellenwertmodell zugrunde,
das wir zunächst formulieren werden.
-5-
3. Probit-Logit Modelle
3.1. Formulierung eines Schwellenwertmodells
Es wird angenommen, daß den diskreten Ausprägungen der abhängigen Variablen eine stetige,
∗
aber unbeobachtbare (latente) Variable Yi zugrundeliegt, deren Wertebereich nicht beschränkt ist:
Yi∗ = x′iβ + u i
2
Die Störgröße u i sei unabhängig identisch verteilt (i.i.d.) mit E( u i ) = 0 und Var( u i ) = σ . Vorläufig
erfolgt noch keine konkrete Verteilungsannahme hinsichtlich u i .
∗
Zwischen der latenten Variable (Yi )
Zusammenhang (Schwellenwertmodell):
und den Beobachtungen
 1, wenn Yi∗ > 0
Yi = 
∗
0, wenn Yi ≤ 0
-6-
(Yi )
besteht folgender
Überschreitet latente Variable den Wert Null, wird für abh. Variable der Wert Eins beobachtet, sonst
Null. Inhaltl. Interpretation der latenten Variablen z.B.: Neigung zur Partizipation am Arbeitsmarkt,
Kaufanreiz für Produkt A.
•
Die Wahrscheinlichkeit für die Beobachtung von Y i = 1 ist:
∗
P (Y i = 1) = P (Y i > 0) = P (u i > −x i′ β ) = 1 − F (−x i′ β )
mit:
•
F (− x i′ β ) :Verteilungsfunktion für die Residuen an der Stelle − x i′ β
Die Wahrscheinlichkeit für die Beobachtung von Y i = 0 ist entsprechend:
P (Y i = 0) = P (u i ≤ − x i′ β ) = F (− x i′ β )
-7-
Zum Vergleich:
•
Lineares Wahrscheinlichkeitsmodell:
•
Schwellenwertmodell:
⇒ Das
Schwellenwertmodell
E(Yi ) = P(Yi = 1) = x ′iβ
E(Yi ) = P(Yi = 1) = 1 − F( − x′iβ )
vermeidet
die
inhaltliche
Inkonsistenz
des
LWM:
Die
Wahrscheinlichkeit P(Yi = 1) ist im Schwellenwertmodell auf Werte zwischen 0 und 1
restringiert.
-8-
3.2. Schätzung des Modells mit der Maximum-Likelihood-Methode
Zur Schätzung des Modells mit der Maximum-Likelihood-Methode ist eine Verteilungsannahme für
u i notwendig; dabei finden prinzipiell zwei Verteilungen Verwendung:
2
a) Probit-Modell: u i unabhängig identisch normalverteilt (i.i.n.d), u i = N ( 0, σ )
Für Beobachtungen Yi = 1 gilt dann (wegen Symmetrie der Normalverteilung):
P(Yi* > 0 ) = P(u i > − x′iβ )
= P(u i / σ > − x′iβ / σ )
= 1 − Φ( − x′iβ / σ ) = Φ( x′iβ / σ )
x ′iβ / σ
Φ( x′iβ σ ) =
∫
−∞
1
− t2
exp(
)dt ist Verteilungsfkt. der Standardnormalverteilung an der
2
( 2π )
Stelle x′iβ σ
Für die "Nullbeobachtungen" (Yi = 0 ) gilt entsprechend:
P(Yi∗ ≤ 0 ) = 1 − Φ( x ′iβ / σ )
⇒ Likelihood-Funktion für das Probit-Modell bei geeigneter Anordnung der Stichprobe:
-9-
L Probit = ∏ [1 − Φ( x ′iβ / σ )] ⋅ ∏ Φ( x′iβ / σ )
0
1
Erstes Produkt läuft über Beobachtungen mit Yi = 0 , zweites Produkt über die mit Yi = 1 . Kompakte
Schreibweise:
L Probit = ∏ Φ( x ′iβ / σ )Yi ⋅ [1 − Φ( x′iβ / σ )]
N
(1−Yi )
i =1
Identifikationsproblem: Nur β / σ kann identifiziert werden, da unendlich viele Kombinationen von β
und σ die gleiche Wahrscheinlichkeit erzeugen.
⇒ Restringieren des Parameters σ auf 1, d.h. Annahme einer Standardnormalverteilung der
Residuen.
-10-
2 2
b) Logit-Modell: u i unabhängig identisch logistisch verteilt mit E( u i ) = 0 und Var( u i ) = τ π / 3
Wiederum aus Identifikationsgründen: τ 2 = 1 ⇒ Standard-logistische Verteilung von u i
Verteilungsfunktion der Standard-logistischen Verteilung:
exp( x i′ β )
1
=
F (x i′ β ) =
1 + exp( − x i′ β ) 1 + exp( x i′ β )
⇒ Likelihoodfunktion im Logit Modell:
LLogit

exp(x i′ β ) 
= ∏ 1 −
1 + exp( x i′ β ) 
i =1 
N
(1−Y i )
Yi
 exp( x i′ β ) 
⋅

1 + exp( x i′ β ) 
Die Logistische Dichtefunktion ähnelt der Dichte der Standardnormalverteilung, hat jedoch einen
flacheren Verlauf an den Enden.
Für Probit- und Logit-Modell produziert die Maximum Likelihood-Methode konsistente Schätzer für
den Parametervektor β. Die Likelihood Funktion ist in beiden Modellen global konkav. Erste
Ableitungen der Log-Likelihood-Funktion sind im Probit- und Logit Modell nichtlinear. Aufsuchen der
Nullstellen mittels iterativer Methoden (Newton-Raphson Methode, Method of Scores)
-11-
3.3 Praktische Anwendung von Logit- und Probit-Modellen
Das Logit-Modell ist wegen geschlossener Form der Verteilungsfunktion einfacher handhabbar als
das Probit-Modell. Durch Fortschritte in der EDV-Technologie hat das Logit-Modell jedoch an
Bedeutung verloren.
Interpretation der Parameterschätzwerte:
Die Parameterschätzwerte können beim Probit- bzw. Logit-Modell nicht wie im klassischen linearen
Regressionsmodell oder im LWM als marginale Effekte interpretiert werden. Für Probit- bzw. LogitModelle gilt vielmehr:
∂Pi ∂F( x′iβ )
⋅ β k = f ( x ′iβ ) ⋅ β k
=
∂x ik
∂x′iβ
mit :
f ( x ′β
i ):
Dichtefunktion der jeweiligen Verteilung a. d. Stelle x′iβ .
-12-
Beispiel: Modellierung der Teilnahme an beruflicher Weiterbildung (Westdeutschland, 1988,
Sozioökonomisches Panel) Ergebnisse einer ML-Schätzung – Probit-Modell –(Teilnahme
ja/nein)
Erklärende Variablen
Koeffizient
t-Wert
Konstante
-1.26403
-7.87925
Alter/10
-0.19883
-4.82712
Mann
0.04266
0.47645
Frau
Referenz
ausländischer Staatsbürger
-0.54813
deutscher Staatsbürger
Referenz
Abitur
0.06833
kein Abitur
-4.58732
0.45150
Referenz
Lehre
0.57250
keine Lehre
5.54323
Referenz
Diplom
0.96898
kein Diplom
Referenz
erwerbstätig
0.36607
nicht erwerbstätig
Referenz
-13-
4.88005
3.75390
Literatur:
Hujer, R. (2003): Skript zur Vorlesung Mikroökonometrie.
Ronning, G. (1991): Mikoökonometrie, Berlin.
-14-
Herunterladen