Teil E: Qualitative abhängige Variable in Regressionsmodellen 1. Qualitative abhängige Variable Grundlegendes Problem: In vielen Fällen ist die abhängige Variable nur über einen bestimmten Wertebereich beobachtbar. Bsp. Wahlentscheidungen: • Wahl des Verkehrsmittels (Bus, Bahn, PKW) • Partizipation am Arbeitsmarkt (Vollzeit, Teilzeit, keine Partizipation) • Konsumentenentscheidung über den Kauf von Produkt A, B, oder C. Zu erklärende Variable hat in diesen Problemstellungen kein metrisches Meßniveau, sondern nur diskrete Ausprägungen → klassische ökonometrische Methoden sind nicht per se anwendbar. Hier Behandlung des binären Falls: Abhängige Variable kann nur zwei Werte annehmen ⇒ Ja/Nein Entscheidungen → Umkodieren der qualitativen abhängigen Variablen auf die Werte 0 oder 1. Bsp.: • Grundsätzliche Partizipationsentscheidung am Arbeitsmarkt • Kauf oder Nichtkauf eines Produktes. -2- 2. Lineares Wahrscheinlichkeits-Modell (LWM) 2.1. Modellidee LWM bleibt innerhalb der OLS-Methode des klassischen linearen Regressionsmodells. Es behandelt die abhängige diskrete Variable nicht anders als eine metrische. Der Regressionsansatz lautet in Vektorschreibweise: Yi = x′iβ + u i mit i = 1,..., N (1) Yi : abhängige Variable, Wert 0 oder 1; x′i : 1 x k Vektor erklärender Variablen; β: k x 1 Parametervektor; u i : Störvariable E( u i ) = 0 . Wie bisher gilt: E(Yi x i ) = x′β i , aber auch: E(Yi x i ) = 1 ⋅ Pi + 0 ⋅ (1 − Pi ) = Pi mit: Pi = P(Yi = 1 xi ) daher "Lineares Wahrscheinlichkeits-Modell": Bedingter Erwartungswert der abhängigen Variablen ist die Wahrscheinlichkeit, daß die binäre abhängige Variable den Wert Eins annimmt. -3- 2.2. Probleme des LWM a) Methodisches Problem des LWM: Heteroskedastie ui kann 2 Werte annehmen: − x′iβ oder 1 − x ′iβ E( u i ) = Pi (1 − x′iβ ) + (1 − Pi )( − x ′iβ ) = 0 Var( u i ) = Pi (1 − x′iβ )2 + (1 − Pi )( − x′iβ )2 = Pi (1 − Pi ) = ( x′iβ )(1 − x′iβ ) Aufgrund der Abhängigkeit der Varianz von den Beobachtungen x i ' sind die Störterme u i heteroskedastisch Lösung des Problems mit zweistufiger GLS Schätzung: 1.) OLS-Schätzung von β . 2.) Weighted Least Squares Schätzung -4- b) Inhaltliche Inkonsistenz des LWM Bei OLS Schätzung von β kann = x′β = P Y i i i außerhalb des [0,1] Intervalles liegen ⇒ Interpretation als Wahrscheinlichkeit daher unplausibel. c) Lineare Zunahme der Wahrscheinlichkeit Problematisch ist außerdem die unterstellte Annahme einer identischen Zunahme der Wahrscheinlichkeit eines Ereignisses auf einen Impuls der exogenen Variablen unabhängig von ihrem realisierten Niveau. Es ist z.B. anzunehmen, dass sich Einkommensänderungen auf sehr niedrigem oder sehr hohem Niveau anders auf die Kaufwahrscheinlichkeit auswirken als gleichwertige Veränderungen in den mittleren Einkommensbereichen. Aus diesen Gründen zieht man dem LWM Logit- und Probit-Modelle zur Erklärung ökonomischer Wahlhandlungen vor. Beiden Modellen liegt ein sogenanntes Schwellenwertmodell zugrunde, das wir zunächst formulieren werden. -5- 3. Probit-Logit Modelle 3.1. Formulierung eines Schwellenwertmodells Es wird angenommen, daß den diskreten Ausprägungen der abhängigen Variablen eine stetige, ∗ aber unbeobachtbare (latente) Variable Yi zugrundeliegt, deren Wertebereich nicht beschränkt ist: Yi∗ = x′iβ + u i 2 Die Störgröße u i sei unabhängig identisch verteilt (i.i.d.) mit E( u i ) = 0 und Var( u i ) = σ . Vorläufig erfolgt noch keine konkrete Verteilungsannahme hinsichtlich u i . ∗ Zwischen der latenten Variable (Yi ) Zusammenhang (Schwellenwertmodell): und den Beobachtungen 1, wenn Yi∗ > 0 Yi = ∗ 0, wenn Yi ≤ 0 -6- (Yi ) besteht folgender Überschreitet latente Variable den Wert Null, wird für abh. Variable der Wert Eins beobachtet, sonst Null. Inhaltl. Interpretation der latenten Variablen z.B.: Neigung zur Partizipation am Arbeitsmarkt, Kaufanreiz für Produkt A. • Die Wahrscheinlichkeit für die Beobachtung von Y i = 1 ist: ∗ P (Y i = 1) = P (Y i > 0) = P (u i > −x i′ β ) = 1 − F (−x i′ β ) mit: • F (− x i′ β ) :Verteilungsfunktion für die Residuen an der Stelle − x i′ β Die Wahrscheinlichkeit für die Beobachtung von Y i = 0 ist entsprechend: P (Y i = 0) = P (u i ≤ − x i′ β ) = F (− x i′ β ) -7- Zum Vergleich: • Lineares Wahrscheinlichkeitsmodell: • Schwellenwertmodell: ⇒ Das Schwellenwertmodell E(Yi ) = P(Yi = 1) = x ′iβ E(Yi ) = P(Yi = 1) = 1 − F( − x′iβ ) vermeidet die inhaltliche Inkonsistenz des LWM: Die Wahrscheinlichkeit P(Yi = 1) ist im Schwellenwertmodell auf Werte zwischen 0 und 1 restringiert. -8- 3.2. Schätzung des Modells mit der Maximum-Likelihood-Methode Zur Schätzung des Modells mit der Maximum-Likelihood-Methode ist eine Verteilungsannahme für u i notwendig; dabei finden prinzipiell zwei Verteilungen Verwendung: 2 a) Probit-Modell: u i unabhängig identisch normalverteilt (i.i.n.d), u i = N ( 0, σ ) Für Beobachtungen Yi = 1 gilt dann (wegen Symmetrie der Normalverteilung): P(Yi* > 0 ) = P(u i > − x′iβ ) = P(u i / σ > − x′iβ / σ ) = 1 − Φ( − x′iβ / σ ) = Φ( x′iβ / σ ) x ′iβ / σ Φ( x′iβ σ ) = ∫ −∞ 1 − t2 exp( )dt ist Verteilungsfkt. der Standardnormalverteilung an der 2 ( 2π ) Stelle x′iβ σ Für die "Nullbeobachtungen" (Yi = 0 ) gilt entsprechend: P(Yi∗ ≤ 0 ) = 1 − Φ( x ′iβ / σ ) ⇒ Likelihood-Funktion für das Probit-Modell bei geeigneter Anordnung der Stichprobe: -9- L Probit = ∏ [1 − Φ( x ′iβ / σ )] ⋅ ∏ Φ( x′iβ / σ ) 0 1 Erstes Produkt läuft über Beobachtungen mit Yi = 0 , zweites Produkt über die mit Yi = 1 . Kompakte Schreibweise: L Probit = ∏ Φ( x ′iβ / σ )Yi ⋅ [1 − Φ( x′iβ / σ )] N (1−Yi ) i =1 Identifikationsproblem: Nur β / σ kann identifiziert werden, da unendlich viele Kombinationen von β und σ die gleiche Wahrscheinlichkeit erzeugen. ⇒ Restringieren des Parameters σ auf 1, d.h. Annahme einer Standardnormalverteilung der Residuen. -10- 2 2 b) Logit-Modell: u i unabhängig identisch logistisch verteilt mit E( u i ) = 0 und Var( u i ) = τ π / 3 Wiederum aus Identifikationsgründen: τ 2 = 1 ⇒ Standard-logistische Verteilung von u i Verteilungsfunktion der Standard-logistischen Verteilung: exp( x i′ β ) 1 = F (x i′ β ) = 1 + exp( − x i′ β ) 1 + exp( x i′ β ) ⇒ Likelihoodfunktion im Logit Modell: LLogit exp(x i′ β ) = ∏ 1 − 1 + exp( x i′ β ) i =1 N (1−Y i ) Yi exp( x i′ β ) ⋅ 1 + exp( x i′ β ) Die Logistische Dichtefunktion ähnelt der Dichte der Standardnormalverteilung, hat jedoch einen flacheren Verlauf an den Enden. Für Probit- und Logit-Modell produziert die Maximum Likelihood-Methode konsistente Schätzer für den Parametervektor β. Die Likelihood Funktion ist in beiden Modellen global konkav. Erste Ableitungen der Log-Likelihood-Funktion sind im Probit- und Logit Modell nichtlinear. Aufsuchen der Nullstellen mittels iterativer Methoden (Newton-Raphson Methode, Method of Scores) -11- 3.3 Praktische Anwendung von Logit- und Probit-Modellen Das Logit-Modell ist wegen geschlossener Form der Verteilungsfunktion einfacher handhabbar als das Probit-Modell. Durch Fortschritte in der EDV-Technologie hat das Logit-Modell jedoch an Bedeutung verloren. Interpretation der Parameterschätzwerte: Die Parameterschätzwerte können beim Probit- bzw. Logit-Modell nicht wie im klassischen linearen Regressionsmodell oder im LWM als marginale Effekte interpretiert werden. Für Probit- bzw. LogitModelle gilt vielmehr: ∂Pi ∂F( x′iβ ) ⋅ β k = f ( x ′iβ ) ⋅ β k = ∂x ik ∂x′iβ mit : f ( x ′β i ): Dichtefunktion der jeweiligen Verteilung a. d. Stelle x′iβ . -12- Beispiel: Modellierung der Teilnahme an beruflicher Weiterbildung (Westdeutschland, 1988, Sozioökonomisches Panel) Ergebnisse einer ML-Schätzung – Probit-Modell –(Teilnahme ja/nein) Erklärende Variablen Koeffizient t-Wert Konstante -1.26403 -7.87925 Alter/10 -0.19883 -4.82712 Mann 0.04266 0.47645 Frau Referenz ausländischer Staatsbürger -0.54813 deutscher Staatsbürger Referenz Abitur 0.06833 kein Abitur -4.58732 0.45150 Referenz Lehre 0.57250 keine Lehre 5.54323 Referenz Diplom 0.96898 kein Diplom Referenz erwerbstätig 0.36607 nicht erwerbstätig Referenz -13- 4.88005 3.75390 Literatur: Hujer, R. (2003): Skript zur Vorlesung Mikroökonometrie. Ronning, G. (1991): Mikoökonometrie, Berlin. -14-