Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw. 3000 und 5000 e. y = 3, falls Einkommen > 5000 e. nicht–kategorial y = Anzahl der Autos im Haushalt. Weitere Klassifizierung kategorialer Variablen abhängig davon, ob diese natürliche Ordnung oder Reihenfolge besitzen. Ökonometrie 2 (SS 2007) 1 / 31 Modelle diskreter Variablen Klassen diskreter Variablen nominal/ ungeordnet kategorial y = 1, falls Verkehrsmittel Auto. y = 2, falls Verkehrsmittel Bus. y = 3, falls Verkehrsmittel Auto. sequentiell y = 1, falls Person entscheidet, nicht zu arbeiten. y = 2, falls Person arbeiten will, aber keine Anstellung findet. y = 3, falls Person Arbeit hat. Die Charakteristiken jeder diskreten Variablen bestimmen die möglichen Methoden zur Lösung des Modells. Ökonometrie 2 (SS 2007) 2 / 31 Binäre Auswahlmodelle Theoretischer Hintergrund Betrachte binäre abhängige Variable y , die nur zwei mögliche Werte (z.B. 0 und 1) annehmen kann, sowie Vektor von erklärenden Variablen x, welcher Realisation von y beeinflusst. Die (unbedingte) Erwartung der binären Variable y wird mittels Wahrscheinlichkeit definiert: E (y ) = P(y = 1). Nun beeinflusse die Menge der erklärenden Variablen x das Ergebnis von y . Dann ist die bedingte Erwartung von y bei geg. x definiert als: E (y |x) = P(y = 1|x). Ökonometrie 2 (SS 2007) 3 / 31 Binäre Auswahlmodelle Theoretischer Hintergrund Verbindet man diesen Term mit der üblichen Regression y = F (x, β) + u, so erhält man für die bedingte Erwartung E (y |x) = E (F (x, β) + u|x) = F (x, β) + E (u|x) = F (x, β). Das übliche Regressionsfunktional F (x, β) ist eine Darstellung der bed. Erwartung von y bei geg. x. Ist die abhängige Variable der Regression binär, so ist F (x, β) gleich zur bed. Wahrscheinlichkeit der Beobachtung y = 1. Die Eigenschaften von binären Auswahlmodellen hängen entscheident davon ab, wie F (x, β) festgelegt wird. Ökonometrie 2 (SS 2007) 4 / 31 Das Lineare Wahrscheinlichkeitsmodell Betrachte die binäre Variable y und den (k–dim.) Vektor x der erklärenden Variablen. Wir legen die bed. Wahrscheinlichkeit fest als: P(y = 1|x) = F (x, β) = x 0 β. Führen wir zufälligen Störterm u ein, so erhalten wir y = x 0 β + u, wobei E (u|x) = 0 per Definition und f (u) Dichtefkt. Für zufällig aus Grundgesamtheit gezogene Stichprobe von n Beobachtungen {yi , xi } gilt yi = xi0 β + ui . OLS–Schätzung kann erfolgen. Bekannt als Lineares Wahrscheinlichkeitsmodell (Linear Probability Model, LPM) Ökonometrie 2 (SS 2007) 5 / 31 Das Lineare Wahrscheinlichkeitsmodell Probleme mit LPM Störterme nicht normal verteilt ui = 1 − xi0 β mit Wahrscheinlichkeit f (ui ) = xi0 β ui = −xi0 β mit Wahrscheinlichkeit f (ui ) = 1 − xi0 β Störterme heteroskedastisch var (ui |xi ) = E (ui2 ) = (−xi0 β)2 · (1 − xi0 β) + (1 − xi0 β)2 · (xi0 β) = (xi0 β) · (1 − xi0 β) = P(yi = 1|xi ) · P(yi = 0|xi ). Bed. Erwartung nicht zw. 0 und 1 beschränkt E (yi |xi ) = P(yi = 1|xi ) = xi0 β, was für ganze reelle Achse definiert ist. Ökonometrie 2 (SS 2007) 6 / 31 Das Lineare Wahrscheinlichkeitsmodell Mögliche Lösungen Behandlung der Heteroskedastizität durch Gewichtete Kleinste Quadrate–Methode mit Gewichten q wi = (xi0 β̂) · (1 − xi0 β̂), die aus einer vorhergehenden Schätzung berechnet werden. Das angepasste Modell wird zu yi xi 0 ui = β+ . wi wi wi Aber man erhält noch keine Wahrscheinlichkeiten nur im Bereich [0, 1]. Bessere Lösung ist Re–Spezifizierung oder Transformation des Regressionsmodells, um Wahrscheinlichkeit zu beschränken. Ökonometrie 2 (SS 2007) 7 / 31 Probit und Logit Modelle Im Allgemeinen gilt E (yi |xi ) = P(yi = 1|xi ) = F (xi , β). Für das Lineare Wahrscheinlichkeitsmodell: F (xi , β) = xi0 β. Um das Wahrscheinlichkeitsmodell zu lösen, muss der Wert von F (xi , β) auf das Intervall [0, 1] beschränkt werden. Ökonometrie 2 (SS 2007) 8 / 31 Probit und Logit Modelle Der Transformationsansatz Für Probit F (xi , β) = Φ(xi0 β), wobei Φ Verteilungsfkt. der Standardnormalverteilung. Für Logit F (xi , β) = Λ(xi0 β), wobei Λ(z) = exp(z) 1 = 1 + exp(z) 1 + exp(−z) die logistische Funktion darstellt. Ökonometrie 2 (SS 2007) 9 / 31 Probit und Logit Modelle Der Transformationsansatz Beide Fkt. Φ(z) und Λ(z) sind monoton wachsend in z. Außerdem gilt F (xi , β) −→ 0 falls xi0 β → −∞, F (xi , β) −→ 1 falls xi0 β → +∞. Probit und Logit Modelle liefern wohldefinierte Wahrscheinlichkeiten. Allerdings kann OLS nicht mehr verwendet werden, da transformierte Regressionsfkt. nicht linear ist. Man nutzt ML–Techniken. LPM als Approximation einer beliebigen nichtlinearen Wahrscheinlichkeitsfkt. F (·) mittels Taylor–Reihenentwicklung 1. Ordnung um x = x0 F (x, β) ≈ F (x0 , β) + (x − x0 )0 Ökonometrie 2 (SS 2007) ∂F (x0 , β) = x 0 β0 . ∂β 10 / 31 Probit und Logit Modelle Latente Variable Wir nehmen an, dass eine zugrunde liegende (und nicht beobachtete) latente Variable y ∗ existiert, mit y ∗ ∈ (−∞, ∞). Wir beobachten y ∗ nicht direkt, sondern nur binären Variable y , so dass y = 1I{y ∗ > 0}. Dabei ist 1I die Indikatorfunktion, d. h. wird die Bedingung erfüllt, nimmt sie den Wert 1 an, ansonsten 0. Wir definieren die latente Gleichung in linearer Form: y ∗ = x 0 β + u, wobei u zufällig ist mit symmetrischer Dichte f und zugehöriger Verteilungsfkt. F . Ökonometrie 2 (SS 2007) 11 / 31 Probit und Logit Modelle Latente Variable Somit folgt E (y |x) = P(y = 1|x) = P(y ∗ > 0|x) = P(x 0 β + u > 0) = P(u > −x 0 β) = 1 − F (−x 0 β) = F (x 0 β). Durch Festlegung einer geeigneten Verteilungsfkt. für u erhalten wir Probit bzw. Logit Modelle. Für normal verteiltes u müssen Parameter skaliert werden, damit σ 2 = Var (u) = 1. Denn P(y = 1|x) = P(u > −x 0 β) = P(u/σ > −x 0 (β/σ)) = P(z > −x 0 (β/σ)) = Φ(x 0 (β/σ)). Ökonometrie 2 (SS 2007) 12 / 31 Probit und Logit Modelle Theoretische Grundlagen Repräsentiere y = 1 eine Person, die arbeitet, und y = 0 eine, die nicht arbeitet. Diese werden mittels spezifischer Größen Uy∗ beschrieben Uy∗=1 = x 0 β1 + u1 , Uy∗=0 = x 0 β0 + u0 . Teilnahme am Arbeitsmarkt, wenn Uy∗=1 > Uy∗=0 . Somit y = 1I{Uy∗=1 > Uy∗=0 } = 1I{x 0 β1 + u1 > x 0 β0 + u0 } = 1I{u1 − u0 > −x 0 (β1 − β0 )}. Identifiziere Differenz β1 − β0 . Es folgt y = 1I{y ∗ > 0}, mit y ∗ = x 0 (β1 − β0 ) + (u1 − u0 ) = x 0 β + u. Ökonometrie 2 (SS 2007) 13 / 31 ML Schätzung Betrachte Stichprobe von n Beobachtungen {yi , xi }, mit binärem yi . Setze yi = 1I{yi∗ > 0} für yi∗ = xi0 β + ui . Für jeden Vektor β ist die Wahrscheinlichkeit, yi bei geg. xi zu beobachten: L(β|xi ) = n Y P(yi |xi , β) i=1 = n Y P(yi = 0|xi , β)1−yi · P(yi = 1|xi , β)yi . i=1 Logarithmieren liefert ln L(β|xi ) = n X {(1 − yi ) · ln P(yi = 0|xi , β) + yi · ln P(yi = 1|xi , β)}. i=1 Ökonometrie 2 (SS 2007) 14 / 31 ML Schätzung Für Probit Modell folgt P(yi = 1|xi , β) = Φ(xi0 β), P(yi = 0|xi , β) = 1 − Φ(xi0 β) und damit Log–Likelihood der Form ln L(β|xi ) = n X {(1 − yi ) · ln(1 − Φ(xi0 β)) + yi · ln Φ(xi0 β)}. i=1 Für Logit Modell exp(xi0 β) , 1 + exp(xi0 β) 1 P(yi = 0|xi , β) = 1 − Λ(xi0 β) = 1 + exp(xi0 β) P(yi = 1|xi , β) = Λ(xi0 β) = und damit Log–Likelihood der Form ln L(β|xi ) = n X {(1 − yi ) · ln(1 − Λ(xi0 β)) + yi · ln Λ(xi0 β)}. i=1 Ökonometrie 2 (SS 2007) 15 / 31 ML Schätzung Notwendige Bedingungen Für die Maximierung der allg. Log–Likelihood ist notwendig, dass S(β) = ∂ ln L(β|xi ) = 0. ∂β Für Probit Modell S(β) = n X i=1 yi − Φ(xi0 β) · φ(xi0 β) · xi . Φ(xi0 β) · (1 − Φ(xi0 β)) Für Logit Modell n X S(β) = yi − i=1 exp(xi0 β) · xi . 1 + exp(xi0 β) Man erhält ML–Lösungen für Parameter, die S(β) = 0 erfüllen. Ökonometrie 2 (SS 2007) 16 / 31 Interpretation/ Koeffizientenvergleich Binäre Auswahlmodelle Binäre Auswahlmodelle: LPM P(yi = 1|xi , β) = xi0 β Probit P(yi = 1|xi , β) = Φ(xi0 β) Logit P(yi = 1|xi , β) = Λ(xi0 β) Für positives (negatives) βj wird P(yi = 1|xi , β) = F (xi0 β) anwachsen (fallen) mit wachsendem xj . Ökonometrie 2 (SS 2007) 17 / 31 Interpretation/ Koeffizientenvergleich Marginale Effekte LPM Probit Logit ∂P(yi = 1|xi , β) = βj ∂xij ∂P(yi = 1|xi , β) = φ(xi0 β) · βj ∂xij exp(xi0 β) ∂P(yi = 1|xi , β) = · βj ∂xij (1 + exp(xi0 β))2 Folgerungen Schätzungen der Steigung sind nicht direkt vergleichbar. Z.B. sind die Varianzen der Störterme in Logit und Probit Modell unterschiedlich. Ebenso sind die Parameter verschieden skaliert. Ökonometrie 2 (SS 2007) 18 / 31 Interpretation/ Koeffizientenvergleich Marginale Effekte Ebenso sei darauf hingewiesen, dass die Marginalen Effekte in LPM konstant sind, d. h. unabhängig von den Daten, die Marginalen Effekte in Probit und Logit von xi abhängen. Beliebte Approximationen: β̃LPM ≈ 0.25β̃L für Steigung, β̃LPM ≈ 0.25β̃L + 0.5 für Achsenabschnitt, β̃P ≈ 0.625β̃L . Ökonometrie 2 (SS 2007) 19 / 31 Interpretation/ Koeffizientenvergleich Empirisches Beispiel: Kinderbetreuung Variable Alleinstehende Frau Weitere Kinder, Alter 5+ Frau arbeitet Schule mit 18 J verlassen Besucht College/Uni Jüngstes Kind 2 J alt Jüngstes Kind 3-4 J alt Bezieht Unterhalt Konstante Geschätzte Parameter LPM Probit Logit -0.059 -0.184 -0.310 -0.101 -0.318 -0.540 0.152 0.430 0.713 0.109 0.310 0.520 0.160 0.458 0.757 0.186 0.556 0.928 0.309 0.882 1.458 0.089 0.264 0.432 0.153 -0.995 -1.645 Datenquelle: 1991/92 General Household Survey, aus dem Stichprobe vom Umfang n = 1288 Frauen gezogen wurde, die für mindestens ein Kind im Vorschulalter verantwortlich sind. Ökonometrie 2 (SS 2007) 20 / 31 Interpretation/ Koeffizientenvergleich Empirisches Beispiel: Kinderbetreuung Die abhängige Variable ist 1, wenn die Frau für Kinderbetreuung bezahlt, 0 sonst. Referenz in allen Fällen: verheiratete Frau, nicht arbeitend, die Schule mit 16 Jahren verlassen, ein Kind jünger als 2, kein Unterhalt. Für den Referenz–Haushalt nehmen alle erklärenden Variablen den Wert 0 an, was zu folgenden Wahrscheinlichkeitsschätzern führt: LPM Probit Logit P(yi = 1|xi ) = xi0 β̃ = 0.153, P(yi = 1|xi ) = Φ(xi0 β̃) = Φ(−0.995) = 0.161, exp(−1.645) P(yi = 1|xi ) = Λ(xi0 β̃) = = 0.162. 1 + exp(−1.645) Ökonometrie 2 (SS 2007) 21 / 31 Interpretation/ Koeffizientenvergleich Empirisches Beispiel: Kinderbetreuung Wie ändern sich diese für eine Frau, die z. B. eine Universität besucht? LPM Probit P(yi = 1|xi ) = xi0 β̃ = 0.153 + 0.160 = 0.313, P(yi = 1|xi ) = Φ(xi0 β̃) = Φ(−0.995 + 0.458) = Φ(−0.537) = 0.296, Logit Ökonometrie 2 (SS 2007) P(yi = 1|xi ) = Λ(xi0 β̃) exp(−1.645 + 0.757) = = 0.291. 1 + exp(−1.645 + 0.757) 22 / 31 Statistische Inferenz Für LPM folgt: Die geschätzten Standardfehler können leicht hergeleitet und berechnet werden. Allerding: LPM ist heteroskedastisch. Für Probit und Logit Modelle gilt: asym. √ n β̃ − β ∼ N(0, I (β̃)−1 ). Computer Software berechnet für ML–Schätzung direkt Varianz–Covarianz Matrix V (β̃). Somit können statistische Inferenz und Hypothesentests mit üblichen Techniken durchgeführt werden. Ökonometrie 2 (SS 2007) 23 / 31 Statistische Inferenz Goodness–of–fit Repräsentiere LUR die Likelihood für das unrestringierte Problem. Repräsentiere LR die Likelihood für das restringierte Problem, das nur mit Konstante geschätzt wurde. Zwei mögliche Formulierungen für Maße: 2/n Cragg–Uhler–pseudo–R 2 = 2/n LUR − LR 2/n , 1 − LR ln LUR . McFadden –pseudo–R 2 = 1 − ln LR Ein alternatives Maß: Anteil der korrekten Vorhersagen P̃i = P(yi = 1|xi ), also z. B. für Probit: P̃i = Φ(xi0 β̃). Ökonometrie 2 (SS 2007) 24 / 31 Statistische Inferenz Goodness–of–fit Nutze dann y˜i = 1I{P̃i > 0.5}. Der Anteil der korrekten Vorhersagen kann dann definiert werden als n 1X P= 1I{yi = y˜i }. n i=1 In vielen Statistik–Programmen sieht man Kreuztabellen vorhergesagter und beobachteter binärer Werte vorhergesagt beobachtet 0 1 0 n00 n01 1 n10 n11 Solche Maße sollten vermieden werden. Sie sind typischerweise unzuverlässig in praktischen Situationen, da einer der beiden Zustände nur spärlich in den Daten repräsentiert wird. Ökonometrie 2 (SS 2007) 25 / 31 Statistische Inferenz Signifikanztest LUR Likelihood für das unrestringierte Problem. LR Likelihood für das restringierte Problem. r Anzahl der Restriktionen. Dann: −2 ln(LR /LUR ) = 2(ln LUR − ln LR ) ∼ χ2r . Beispiel: H0 : β2 = β3 = · · · = βk = 0 HA : Ökonometrie 2 (SS 2007) wenigstens ein βj 6= 0, j = 2, . . . , k. 26 / 31 Simulierte Übergänge mit binären Auswahlmodellen Betrachte yi∗ = xi0 β + ui . Wechsel von xi zu xiR 6= xi . Das verändert natürlich die latente Variable von yi∗ zu yiR = (xiR )0 β + ui . Wie verändert das die Wahrscheinlichkeiten Pi(j→k) des Übergangs von Zustand j in den Zustand k, (j, k = 0, 1)? Wir benötigen also Wahrscheinlichkeiten Pi(0→1) = P(yiR > 0.5|yi∗ < 0.5). Ökonometrie 2 (SS 2007) 27 / 31 Simulierte Übergänge mit binären Auswahlmodellen B und p̂ B die vorhergesagten Wahrscheinlichkeiten für Beschreiben p̂i0 i1 den Zustand y = 0 bzw. y = 1 für das i–te Individuum bevor xi zu R sowie p̂ R entsprechend danach. xiR 6= xi wechselt und p̂i0 i1 Die korrekten Übergangswahrscheinlichkeiten sind dann: B R Pi(0→0) = min{p̂i0 , p̂i0 } B R B R Pi(0→1) = 1I{p̂i0 > p̂i0 } · (p̂i0 − p̂i0 ) R B R B ) < p̂i0 } · (p̂i0 − p̂i0 Pi(1→0) = 1I{p̂i0 B R } Pi(1→1) = min{p̂i1 , p̂i1 Mit anderen Worten: man muss nur die zwei Zustandswahrscheinlichkeiten subtrahieren, um ein korrektes Maß der Übergangswahrscheinlichkeit zu erhalten. Ökonometrie 2 (SS 2007) 28 / 31 Simulierte Übergänge mit binären Auswahlmodellen Ökonometrie 2 (SS 2007) 29 / 31 Simulierte Übergänge mit binären Auswahlmodellen Ökonometrie 2 (SS 2007) 30 / 31 Simulierte Übergänge mit binären Auswahlmodellen Ökonometrie 2 (SS 2007) 31 / 31