Klassen diskreter Variablen - Professuren für Statistik und

Werbung
Modelle diskreter Variablen
Klassen diskreter Variablen
binär
multinomial
Weitere Klassifizierung multinomialer diskreter Variablen:
kategorial
y = 1, falls Einkommen < 3000 e.
y = 2, falls Einkommen zw. 3000 und 5000 e.
y = 3, falls Einkommen > 5000 e.
nicht–kategorial
y = Anzahl der Autos im Haushalt.
Weitere Klassifizierung kategorialer Variablen abhängig davon, ob diese
natürliche Ordnung oder Reihenfolge besitzen.
Ökonometrie 2 (SS 2007)
1 / 31
Modelle diskreter Variablen
Klassen diskreter Variablen
nominal/ ungeordnet kategorial
y = 1, falls Verkehrsmittel Auto.
y = 2, falls Verkehrsmittel Bus.
y = 3, falls Verkehrsmittel Auto.
sequentiell
y = 1, falls Person entscheidet, nicht zu arbeiten.
y = 2, falls Person arbeiten will, aber keine Anstellung findet.
y = 3, falls Person Arbeit hat.
Die Charakteristiken jeder diskreten Variablen bestimmen die möglichen
Methoden zur Lösung des Modells.
Ökonometrie 2 (SS 2007)
2 / 31
Binäre Auswahlmodelle
Theoretischer Hintergrund
Betrachte binäre abhängige Variable y , die nur zwei mögliche Werte
(z.B. 0 und 1) annehmen kann, sowie Vektor von erklärenden
Variablen x, welcher Realisation von y beeinflusst.
Die (unbedingte) Erwartung der binären Variable y wird mittels
Wahrscheinlichkeit definiert:
E (y ) = P(y = 1).
Nun beeinflusse die Menge der erklärenden Variablen x das Ergebnis
von y . Dann ist die bedingte Erwartung von y bei geg. x definiert als:
E (y |x) = P(y = 1|x).
Ökonometrie 2 (SS 2007)
3 / 31
Binäre Auswahlmodelle
Theoretischer Hintergrund
Verbindet man diesen Term mit der üblichen Regression
y = F (x, β) + u,
so erhält man für die bedingte Erwartung
E (y |x) = E (F (x, β) + u|x) = F (x, β) + E (u|x) = F (x, β).
Das übliche Regressionsfunktional F (x, β) ist eine Darstellung der
bed. Erwartung von y bei geg. x.
Ist die abhängige Variable der Regression binär, so ist F (x, β) gleich
zur bed. Wahrscheinlichkeit der Beobachtung y = 1.
Die Eigenschaften von binären Auswahlmodellen hängen entscheident
davon ab, wie F (x, β) festgelegt wird.
Ökonometrie 2 (SS 2007)
4 / 31
Das Lineare Wahrscheinlichkeitsmodell
Betrachte die binäre Variable y und den (k–dim.) Vektor x der
erklärenden Variablen.
Wir legen die bed. Wahrscheinlichkeit fest als:
P(y = 1|x) = F (x, β) = x 0 β.
Führen wir zufälligen Störterm u ein, so erhalten wir
y = x 0 β + u,
wobei E (u|x) = 0 per Definition und f (u) Dichtefkt.
Für zufällig aus Grundgesamtheit gezogene Stichprobe von n
Beobachtungen {yi , xi } gilt yi = xi0 β + ui .
OLS–Schätzung kann erfolgen.
Bekannt als Lineares Wahrscheinlichkeitsmodell (Linear Probability
Model, LPM)
Ökonometrie 2 (SS 2007)
5 / 31
Das Lineare Wahrscheinlichkeitsmodell
Probleme mit LPM
Störterme nicht normal verteilt
ui = 1 − xi0 β mit Wahrscheinlichkeit f (ui ) = xi0 β
ui = −xi0 β mit Wahrscheinlichkeit f (ui ) = 1 − xi0 β
Störterme heteroskedastisch
var (ui |xi ) = E (ui2 ) = (−xi0 β)2 · (1 − xi0 β) + (1 − xi0 β)2 · (xi0 β)
= (xi0 β) · (1 − xi0 β)
= P(yi = 1|xi ) · P(yi = 0|xi ).
Bed. Erwartung nicht zw. 0 und 1 beschränkt
E (yi |xi ) = P(yi = 1|xi ) = xi0 β,
was für ganze reelle Achse definiert ist.
Ökonometrie 2 (SS 2007)
6 / 31
Das Lineare Wahrscheinlichkeitsmodell
Mögliche Lösungen
Behandlung der Heteroskedastizität durch Gewichtete Kleinste
Quadrate–Methode mit Gewichten
q
wi = (xi0 β̂) · (1 − xi0 β̂),
die aus einer vorhergehenden Schätzung berechnet werden.
Das angepasste Modell wird zu
yi
xi 0
ui
=
β+ .
wi
wi
wi
Aber man erhält noch keine Wahrscheinlichkeiten nur im Bereich
[0, 1].
Bessere Lösung ist Re–Spezifizierung oder Transformation des
Regressionsmodells, um Wahrscheinlichkeit zu beschränken.
Ökonometrie 2 (SS 2007)
7 / 31
Probit und Logit Modelle
Im Allgemeinen gilt
E (yi |xi ) = P(yi = 1|xi ) = F (xi , β).
Für das Lineare Wahrscheinlichkeitsmodell:
F (xi , β) = xi0 β.
Um das Wahrscheinlichkeitsmodell zu lösen, muss der Wert von
F (xi , β) auf das Intervall [0, 1] beschränkt werden.
Ökonometrie 2 (SS 2007)
8 / 31
Probit und Logit Modelle
Der Transformationsansatz
Für Probit
F (xi , β) = Φ(xi0 β),
wobei Φ Verteilungsfkt. der Standardnormalverteilung.
Für Logit
F (xi , β) = Λ(xi0 β),
wobei
Λ(z) =
exp(z)
1
=
1 + exp(z)
1 + exp(−z)
die logistische Funktion darstellt.
Ökonometrie 2 (SS 2007)
9 / 31
Probit und Logit Modelle
Der Transformationsansatz
Beide Fkt. Φ(z) und Λ(z) sind monoton wachsend in z. Außerdem gilt
F (xi , β) −→ 0
falls
xi0 β → −∞,
F (xi , β) −→ 1
falls
xi0 β → +∞.
Probit und Logit Modelle liefern wohldefinierte Wahrscheinlichkeiten.
Allerdings kann OLS nicht mehr verwendet werden, da transformierte
Regressionsfkt. nicht linear ist. Man nutzt ML–Techniken.
LPM als Approximation einer beliebigen nichtlinearen
Wahrscheinlichkeitsfkt. F (·) mittels Taylor–Reihenentwicklung 1.
Ordnung um x = x0
F (x, β) ≈ F (x0 , β) + (x − x0 )0
Ökonometrie 2 (SS 2007)
∂F (x0 , β)
= x 0 β0 .
∂β
10 / 31
Probit und Logit Modelle
Latente Variable
Wir nehmen an, dass eine zugrunde liegende (und nicht beobachtete)
latente Variable y ∗ existiert, mit y ∗ ∈ (−∞, ∞).
Wir beobachten y ∗ nicht direkt, sondern nur binären Variable y , so
dass
y = 1I{y ∗ > 0}.
Dabei ist 1I die Indikatorfunktion, d. h. wird die Bedingung erfüllt,
nimmt sie den Wert 1 an, ansonsten 0.
Wir definieren die latente Gleichung in linearer Form:
y ∗ = x 0 β + u,
wobei u zufällig ist mit symmetrischer Dichte f und zugehöriger
Verteilungsfkt. F .
Ökonometrie 2 (SS 2007)
11 / 31
Probit und Logit Modelle
Latente Variable
Somit folgt
E (y |x) = P(y = 1|x) = P(y ∗ > 0|x)
= P(x 0 β + u > 0) = P(u > −x 0 β)
= 1 − F (−x 0 β) = F (x 0 β).
Durch Festlegung einer geeigneten Verteilungsfkt. für u erhalten wir
Probit bzw. Logit Modelle.
Für normal verteiltes u müssen Parameter skaliert werden, damit
σ 2 = Var (u) = 1. Denn
P(y = 1|x) = P(u > −x 0 β) = P(u/σ > −x 0 (β/σ))
= P(z > −x 0 (β/σ)) = Φ(x 0 (β/σ)).
Ökonometrie 2 (SS 2007)
12 / 31
Probit und Logit Modelle
Theoretische Grundlagen
Repräsentiere y = 1 eine Person, die arbeitet, und y = 0 eine, die
nicht arbeitet.
Diese werden mittels spezifischer Größen Uy∗ beschrieben
Uy∗=1 = x 0 β1 + u1 ,
Uy∗=0 = x 0 β0 + u0 .
Teilnahme am Arbeitsmarkt, wenn Uy∗=1 > Uy∗=0 . Somit
y = 1I{Uy∗=1 > Uy∗=0 } = 1I{x 0 β1 + u1 > x 0 β0 + u0 }
= 1I{u1 − u0 > −x 0 (β1 − β0 )}.
Identifiziere Differenz β1 − β0 . Es folgt
y = 1I{y ∗ > 0},
mit
y ∗ = x 0 (β1 − β0 ) + (u1 − u0 )
= x 0 β + u.
Ökonometrie 2 (SS 2007)
13 / 31
ML Schätzung
Betrachte Stichprobe von n Beobachtungen {yi , xi }, mit binärem yi .
Setze yi = 1I{yi∗ > 0} für yi∗ = xi0 β + ui .
Für jeden Vektor β ist die Wahrscheinlichkeit, yi bei geg. xi zu
beobachten:
L(β|xi ) =
n
Y
P(yi |xi , β)
i=1
=
n
Y
P(yi = 0|xi , β)1−yi · P(yi = 1|xi , β)yi .
i=1
Logarithmieren liefert
ln L(β|xi ) =
n
X
{(1 − yi ) · ln P(yi = 0|xi , β) + yi · ln P(yi = 1|xi , β)}.
i=1
Ökonometrie 2 (SS 2007)
14 / 31
ML Schätzung
Für Probit Modell folgt
P(yi = 1|xi , β) = Φ(xi0 β),
P(yi = 0|xi , β) = 1 − Φ(xi0 β)
und damit Log–Likelihood der Form
ln L(β|xi ) =
n
X
{(1 − yi ) · ln(1 − Φ(xi0 β)) + yi · ln Φ(xi0 β)}.
i=1
Für Logit Modell
exp(xi0 β)
,
1 + exp(xi0 β)
1
P(yi = 0|xi , β) = 1 − Λ(xi0 β) =
1 + exp(xi0 β)
P(yi = 1|xi , β) = Λ(xi0 β) =
und damit Log–Likelihood der Form
ln L(β|xi ) =
n
X
{(1 − yi ) · ln(1 − Λ(xi0 β)) + yi · ln Λ(xi0 β)}.
i=1
Ökonometrie 2 (SS 2007)
15 / 31
ML Schätzung
Notwendige Bedingungen
Für die Maximierung der allg. Log–Likelihood ist notwendig, dass
S(β) =
∂ ln L(β|xi )
= 0.
∂β
Für Probit Modell
S(β) =
n
X
i=1
yi − Φ(xi0 β)
· φ(xi0 β) · xi .
Φ(xi0 β) · (1 − Φ(xi0 β))
Für Logit Modell
n X
S(β) =
yi −
i=1
exp(xi0 β)
· xi .
1 + exp(xi0 β)
Man erhält ML–Lösungen für Parameter, die S(β) = 0 erfüllen.
Ökonometrie 2 (SS 2007)
16 / 31
Interpretation/ Koeffizientenvergleich
Binäre Auswahlmodelle
Binäre Auswahlmodelle:
LPM
P(yi = 1|xi , β) = xi0 β
Probit
P(yi = 1|xi , β) = Φ(xi0 β)
Logit
P(yi = 1|xi , β) = Λ(xi0 β)
Für positives (negatives) βj wird P(yi = 1|xi , β) = F (xi0 β) anwachsen
(fallen) mit wachsendem xj .
Ökonometrie 2 (SS 2007)
17 / 31
Interpretation/ Koeffizientenvergleich
Marginale Effekte
LPM
Probit
Logit
∂P(yi = 1|xi , β)
= βj
∂xij
∂P(yi = 1|xi , β)
= φ(xi0 β) · βj
∂xij
exp(xi0 β)
∂P(yi = 1|xi , β)
=
· βj
∂xij
(1 + exp(xi0 β))2
Folgerungen
Schätzungen der Steigung sind nicht direkt vergleichbar.
Z.B. sind die Varianzen der Störterme in Logit und Probit Modell
unterschiedlich.
Ebenso sind die Parameter verschieden skaliert.
Ökonometrie 2 (SS 2007)
18 / 31
Interpretation/ Koeffizientenvergleich
Marginale Effekte
Ebenso sei darauf hingewiesen, dass
die Marginalen Effekte in LPM konstant sind, d. h. unabhängig von
den Daten,
die Marginalen Effekte in Probit und Logit von xi abhängen.
Beliebte Approximationen:
β̃LPM ≈ 0.25β̃L für Steigung,
β̃LPM ≈ 0.25β̃L + 0.5 für Achsenabschnitt,
β̃P ≈ 0.625β̃L .
Ökonometrie 2 (SS 2007)
19 / 31
Interpretation/ Koeffizientenvergleich
Empirisches Beispiel: Kinderbetreuung
Variable
Alleinstehende Frau
Weitere Kinder, Alter 5+
Frau arbeitet
Schule mit 18 J verlassen
Besucht College/Uni
Jüngstes Kind 2 J alt
Jüngstes Kind 3-4 J alt
Bezieht Unterhalt
Konstante
Geschätzte Parameter
LPM Probit Logit
-0.059 -0.184 -0.310
-0.101 -0.318 -0.540
0.152 0.430 0.713
0.109 0.310 0.520
0.160 0.458 0.757
0.186 0.556 0.928
0.309 0.882 1.458
0.089 0.264 0.432
0.153 -0.995 -1.645
Datenquelle: 1991/92 General Household Survey, aus dem Stichprobe
vom Umfang n = 1288 Frauen gezogen wurde, die für mindestens ein
Kind im Vorschulalter verantwortlich sind.
Ökonometrie 2 (SS 2007)
20 / 31
Interpretation/ Koeffizientenvergleich
Empirisches Beispiel: Kinderbetreuung
Die abhängige Variable ist 1, wenn die Frau für Kinderbetreuung
bezahlt, 0 sonst.
Referenz in allen Fällen: verheiratete Frau, nicht arbeitend, die Schule
mit 16 Jahren verlassen, ein Kind jünger als 2, kein Unterhalt.
Für den Referenz–Haushalt nehmen alle erklärenden Variablen den Wert 0
an, was zu folgenden Wahrscheinlichkeitsschätzern führt:
LPM
Probit
Logit
P(yi = 1|xi ) = xi0 β̃ = 0.153,
P(yi = 1|xi ) = Φ(xi0 β̃) = Φ(−0.995) = 0.161,
exp(−1.645)
P(yi = 1|xi ) = Λ(xi0 β̃) =
= 0.162.
1 + exp(−1.645)
Ökonometrie 2 (SS 2007)
21 / 31
Interpretation/ Koeffizientenvergleich
Empirisches Beispiel: Kinderbetreuung
Wie ändern sich diese für eine Frau, die z. B. eine Universität besucht?
LPM
Probit
P(yi = 1|xi ) = xi0 β̃ = 0.153 + 0.160 = 0.313,
P(yi = 1|xi ) = Φ(xi0 β̃)
= Φ(−0.995 + 0.458) = Φ(−0.537) = 0.296,
Logit
Ökonometrie 2 (SS 2007)
P(yi = 1|xi ) = Λ(xi0 β̃)
exp(−1.645 + 0.757)
=
= 0.291.
1 + exp(−1.645 + 0.757)
22 / 31
Statistische Inferenz
Für LPM folgt:
Die geschätzten Standardfehler können leicht hergeleitet und
berechnet werden.
Allerding: LPM ist heteroskedastisch.
Für Probit und Logit Modelle gilt:
asym.
√ n β̃ − β ∼ N(0, I (β̃)−1 ).
Computer Software berechnet für ML–Schätzung direkt
Varianz–Covarianz Matrix V (β̃).
Somit können statistische Inferenz und Hypothesentests mit üblichen
Techniken durchgeführt werden.
Ökonometrie 2 (SS 2007)
23 / 31
Statistische Inferenz
Goodness–of–fit
Repräsentiere LUR die Likelihood für das unrestringierte Problem.
Repräsentiere LR die Likelihood für das restringierte Problem, das nur
mit Konstante geschätzt wurde.
Zwei mögliche Formulierungen für Maße:
2/n
Cragg–Uhler–pseudo–R 2 =
2/n
LUR − LR
2/n
,
1 − LR
ln LUR
.
McFadden –pseudo–R 2 = 1 −
ln LR
Ein alternatives Maß: Anteil der korrekten Vorhersagen
P̃i = P(yi = 1|xi ),
also z. B. für Probit: P̃i = Φ(xi0 β̃).
Ökonometrie 2 (SS 2007)
24 / 31
Statistische Inferenz
Goodness–of–fit
Nutze dann y˜i = 1I{P̃i > 0.5}.
Der Anteil der korrekten Vorhersagen kann dann definiert werden als
n
1X
P=
1I{yi = y˜i }.
n
i=1
In vielen Statistik–Programmen sieht man Kreuztabellen
vorhergesagter und beobachteter binärer Werte
vorhergesagt
beobachtet
0
1
0
n00
n01
1
n10
n11
Solche Maße sollten vermieden werden. Sie sind typischerweise
unzuverlässig in praktischen Situationen, da einer der beiden
Zustände nur spärlich in den Daten repräsentiert wird.
Ökonometrie 2 (SS 2007)
25 / 31
Statistische Inferenz
Signifikanztest
LUR Likelihood für das unrestringierte Problem.
LR Likelihood für das restringierte Problem.
r Anzahl der Restriktionen.
Dann:
−2 ln(LR /LUR ) = 2(ln LUR − ln LR ) ∼ χ2r .
Beispiel:
H0 : β2 = β3 = · · · = βk = 0
HA :
Ökonometrie 2 (SS 2007)
wenigstens ein βj 6= 0,
j = 2, . . . , k.
26 / 31
Simulierte Übergänge mit binären Auswahlmodellen
Betrachte yi∗ = xi0 β + ui .
Wechsel von xi zu xiR 6= xi .
Das verändert natürlich die latente Variable von yi∗ zu
yiR = (xiR )0 β + ui .
Wie verändert das die Wahrscheinlichkeiten Pi(j→k) des Übergangs
von Zustand j in den Zustand k, (j, k = 0, 1)?
Wir benötigen also Wahrscheinlichkeiten
Pi(0→1) = P(yiR > 0.5|yi∗ < 0.5).
Ökonometrie 2 (SS 2007)
27 / 31
Simulierte Übergänge mit binären Auswahlmodellen
B und p̂ B die vorhergesagten Wahrscheinlichkeiten für
Beschreiben p̂i0
i1
den Zustand y = 0 bzw. y = 1 für das i–te Individuum bevor xi zu
R sowie p̂ R entsprechend danach.
xiR 6= xi wechselt und p̂i0
i1
Die korrekten Übergangswahrscheinlichkeiten sind dann:
B
R
Pi(0→0) = min{p̂i0
, p̂i0
}
B
R
B
R
Pi(0→1) = 1I{p̂i0
> p̂i0
} · (p̂i0
− p̂i0
)
R
B
R
B
)
< p̂i0
} · (p̂i0
− p̂i0
Pi(1→0) = 1I{p̂i0
B
R
}
Pi(1→1) = min{p̂i1
, p̂i1
Mit anderen Worten: man muss nur die zwei
Zustandswahrscheinlichkeiten subtrahieren, um ein korrektes Maß der
Übergangswahrscheinlichkeit zu erhalten.
Ökonometrie 2 (SS 2007)
28 / 31
Simulierte Übergänge mit binären Auswahlmodellen
Ökonometrie 2 (SS 2007)
29 / 31
Simulierte Übergänge mit binären Auswahlmodellen
Ökonometrie 2 (SS 2007)
30 / 31
Simulierte Übergänge mit binären Auswahlmodellen
Ökonometrie 2 (SS 2007)
31 / 31
Herunterladen