Kapitel 19 Modelle mit diskreten abhängigen Variablen

Werbung
Kapitel 19
Modelle mit diskreten abhängigen
Variablen
19.1
Vorbemerkungen
Bisher sind wir stets davon ausgegangen, dass die abhängige Variable y intervallskaliert ist. Zusätzlich haben wir meist angenommen, dass die Störterme εi normalverteilt sind.
Sehr häufig ist diese Annahme aber nicht erfüllt und die abhängige Variable ist in
irgendeiner Form ‘beschränkt’. In solchen Fällen spricht man von “Limited Dependent Variables” (LDV). In diesem Kapitel werden wir einige solcher Fälle und die
damit einhergehenden Probleme diskutieren.1
Zum Beispiel haben wir bisher Dummy-Variablen (auch bekannt als binäre, dichotome oder qualitative Variablen) ausschließlich als erklärende Variablen (auf der
rechten Seite der Regressionsgleichungen) zugelassen. Solche qualitative Variablen
können aber auch als abhängige Variable interessieren, z.B. kauft ein Kunde mit
bestimmten Charakteristika ein Produkt oder kauft er es nicht, lässt sich jemand
scheiden oder nicht, geht eine Firma in Konkurs oder nicht, usw.
Es gibt zahlreiche Arten von diskreten abhängigen Variablen, die wichtigsten Fälle
sind:
• Binäre abhängige Variablen: z.B. Kaufentscheidungen (ja/nein), Konkurse,
→ lineares Wahrscheinlichkeitsmodell, Probit- / Logit Modelle;
• Ordinale abhängige Variablen: z.B. Schulnoten, Zustimmungsgrade, . . .
→ Ordered Probit- / Logit Modelle;
• Nominale abhängige Variablen: z.B. Wahl eines Schultyps, eines Transportmittels, . . .
→ Multinominale Logit Modelle;
• ‘Zensierte’ oder ‘gestutzte’ abhängige Variablen (censored or truncated ): z.B.
Arbeitsangebot kann nicht negativ sein, Einkommen über einer bestimmten
Höhe werden in der Einkommenssteuerstatistik nicht einzeln ausgewiesen, . . .
→ z.B. Tobit-Modelle
1
Dieses Kapitel folgt eng dem Lehrbuch von Long (1997).
1
2
Empirische Wirtschaftsforschung
• Zähldaten: z.B. Anzahl der Kinder einer Frau, Zahl der Regierungswechsel in
einer Periode, . . .
Solche Daten treten häufig auf, wenn individuelles Verhalten beobachtet wird, deshalb werden Schätzverfahren für solche Daten üblicherweise der Mikroökonometrie
zugerechnet. Da in diesen Fällen die Annahmen des klassischen linearen Regressionsmodells meist verletzt sind, wurden für diese Daten eigene Modelle entwickelt, die
häufig auf der Maximum Likelihood Methode beruhen. Bevor wir uns aber ausführlich mit diesen Methoden beschäftigen, werden wir uns vorher noch kurz mit einem
sehr einfachen Modell befassen, nämlich der Anwendung von OLS bei abhängigen
Dummy Variablen.
19.2
Das
Lineare
(LPM)
Wahrscheinlichkeitsmodell
Beim Linearen Wahrscheinlichkeitsmodell (Linear Probability Model, LPM) wird das
Modell mit einer binären abhängigen Variable einfach mit OLS geschätzt.2
Angenommen wir interessieren uns dafür, welche Personen sich nach einer Verkaufsveranstaltung entschließen das Produkt zu kaufen, oder genauer, wie welche persönliche Charakteristika die Kaufwahrscheinlichkeit beeinflussen. Dazu könnten wir eine
Zufallsstichprobe ziehen und die Personen befragen, ob sie das Produkt gekauft haben (y), sowie nach den interessierenden Charakteristika wie z.B. Einkommen (I),
Alter (A), Bildungsniveau (E). Das Modell lautet
yi = β1 + β2 Ii + β3 Ai + β4 Ei + εi
wobei
(
1 wenn Person i das Produkt gekauft hat,
yi =
0 wenn Person i das Produkt nicht gekauft hat.
Natürlich können auch erklärende Variablen qualitativ sein, z.B. das Geschlecht.
Wenn wir mit x′i die i-te Zeile der X Matrix bezeichnen (xi ist also ein Spaltenvektor,
und x′i ein 1 × k Zeilenvektor mit den Daten für Beobachtungseinheit i) können wir
das Modell schreiben als
yi = x′i β + εi
Dieses Modell kann prinzipiell mit OLS geschätzt werden (auch wenn dies Probleme
mit sich bringt, mehr dazu später).
Abbildung 19.1 zeigt das lineare Wahrscheinlichkeitsmodell (LPM) für den bivariaten Fall. Die Punkte zeigen die Realisationen von y (yi = 0 oder yi = 1). Die durchgezogene (blaue)( Linie ist das Ergebnis einer OLS-Regression und zeigt ybi = βb1 + βb2 xi .
Die entsprechende PRF beschreibt den bedingten Erwartungswert E(yi | xi ) = β1 +
β2 xi .
2
Man kann zeigen, dass das LPM eng mit der statistischen Diskriminanzanalyse verwandt ist
(siehe z.B. Maddala and Lahiri, 2009, 332f).
3
Empirische Wirtschaftsforschung
Dieser Erwartungswert hat eine interessante Interpretation. Da y nur zwei Werte
annehmen kann, 0 oder 1, ist der bedingte Erwartungswert
E(yi | x′i ) = [1 × Pr(yi = 1| x′i )] + [0 × Pr(yi = 0| x′i)] = Pr(yi = 1| x′i )
wobei Pr die Wahrscheinlichkeit bezeichnet, mit der das Ereignis eintritt.
Der Erwartungswert der binären Variable kann also als bedingte Wahrscheinlichkeit
interpretiert werden, mit der das Ereignis yi = 1 für gegebene x′i eintritt. Also gilt
Pr(yi = 1) = ybi = x′i β
Dies erklärt den Namen des LPM.
Im LPM können die marginalen Effekte wie üblich interpretiert werden
∂ Pr(yi = 1)
∂y
=
= βh
∂xh
∂xh
d.h. βh gibt an, wie eine marginale Änderung der Variable xh die Eintrittswahrscheinlichkeit des Ereignisses beeinflusst. Wenn D eine Dummyvariable ist und der
Vektor xi die restlichen erklärenden Variablen enthält ist wie üblich die Differenz
der Erwartungswerte zu bilden
∆ Pr(yi = 1) = E(yi | x′i , Di = 1) − E(yi | x′i , Di = 0)
E(y|x)
y
Daten:
y x
0 8
0 15
0 24
0 33
0 42
1 47
1 58
1 73
1 82
1 96
1.0
b
b
b
b
b
ε1
rs
0.5
ε0
0.0
−0.2
b
0
b
b
b
b
50
x∗
100
x
Abbildung 19.1: Das ‘Linear Probability Model’
Beispiel: Ein bekanntes Beispiel für die Analyse einer diskreten abhängigen Variable stammt von Fair (1978). Dieser wertete das mittels Fragebögen erhobene
‘Seitensprungverhalten’ seiner verheirateten Mitbürger aus. Da wir diesen Datensatz noch öfters verwenden werden sind in Tabelle 19.1 die deskriptiven Statistiken
der Variablen zusammengefasst.
Tabelle 19.2 zeigt die Anwendung einer einfachen OLS-Regression auf diese Daten,
d.h. das Lineare Wahrscheinlichkeitsmodell, und Abbildung 19.2 das Histogramm
der gefitteten Werte, d.h. der prognostizierten Wahrscheinlichkeiten.
4
Empirische Wirtschaftsforschung
Tabelle 19.1: Deskriptive Statistik zu Fair, Ray C. (1978), “A Theory of Extramarital Affairs”, Journal of Political Economy, Vol 86 No 1, 45-61.
Variable
EMA
Sex
Age
YMar
Kids
Relig
Educ
Occ
RMar
Mean Max.
0.250
1
Min. Std. Dev. Description
0
0.433 Extramarital Affairs,
0 = no, 1 = yes,
0.476
1
0
0.500 0 = female, 1 = male ,
32.488
57 17.5
9.289 Age
8.178
15 0.125
5.571 No. of years married
0.715
1
0
0.452 Children, 0 = no, 1 = yes
3.116
5
1
1.168 How religious,
5 = very, 1 = anti
16.166
20
9
2.403 Education,
from 9 (low) to 20 (high)
4.195
7
1
1.819 Occupation (1 - 7)
3.932
5
1
1.103 Rate marriage, from 5 = very
happy to 1 = very unhappy
n = 601, Survey data of first time married people.
Tabelle 19.2: Das Lineare Wahrscheinlichkeitsmodell (OLS)
Dependent Variable: EMA
Method: Least Squares
Included observations: 601
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable
C
SEX
AGE
YMAR
KIDS
RELIG
EDUC
OCC
RMAR
Coefficient Std. Error
t-Stat.
b1
0.7361
0.1631
4.5143
b2
0.0452
0.0412
1.0960
b3 −0.0074
0.0032 −2.3466
b4
0.0160
0.0056
2.8382
b5
0.0545
0.0463
1.1771
b6 −0.0537
0.0153 −3.5001
b7
0.0031
0.0085
0.3613
b8
0.0059
0.0117
0.5061
b9 −0.0875
0.0170 −5.1364
R-squared
0.1066 Log likelihood
Adjusted R-squared
0.0945 Akaike info criterion
S.E. of regression
0.4122 Schwarz criterion
Sum squared resid
100.5637 F-statistic
Durbin-Watson Stat.
0.2227 Prob(F-statistic)
Prob.
0.0000
0.2735
0.0193
0.0047
0.2396
0.0005
0.7180
0.6130
0.0000
-315.5469
1.0800
1.1459
8.8293
0.0000
5
Empirische Wirtschaftsforschung
70
Series: EMA_F
Sample 1 601
Observations 601
60
50
40
30
20
10
0
-0.00
0.25
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
0.249584
0.238449
0.636909
-0.115100
0.141414
0.250231
2.631197
Jarque-Bera
Probability
9.678037
0.007915
0.50
Abbildung 19.2: Histogram der prognostizierten Wahrscheinlichkeiten
19.2.1
Probleme mit dem linearen Wahrscheinlichkeitsmodell
Das lineare Wahrscheinlichkeitsmodell ist verblüffend einfach und – wie die Praxis
zeigt – in vielen Fällen erstaunlich robust, weshalb es oft vernünftig ist zur ersten
Orientierung mit einem solchen Modell zu beginnen. Leider hat es auch einige Nachteile:
• Die prognostizierten Wahrscheinlichkeiten können größer als Eins oder kleiner als Null sein, was natürlich der Definition einer Wahrscheinlichkeit widerspricht. Abbildung 19.2 mit dem Histogram der prognostizierten Werte zeigt,
dass in dem Beispiel von Fair (1978) eine Reihe negativer Seitensprungwahrscheinlichkeiten vorhergesagt werden.
• Die unterstellte lineare Funktionsform ist häufig unrealistisch. Wenn z.B. bestimmt werden soll, mit welcher Wahrscheinlichkeit Frauen berufstätig sind,
unterstellt das LPM, dass ein erstes Kind einer Frau den gleichen Einfluss auf
die Wahrscheinlichkeit für die Berufstätigkeit hat wie ein viertes Kind.
• Heteroskedastizität: Man kann zeigen, dass die Varianz einer binären Variable
yi mit Mittelwert µ immer µ(1 − µ) ist.3
Im Regressionsmodell ist der bedingte Erwartungswert E(yi | x′i ) = x′i β. Die
bedingte Varianz von y ist deshalb von X abhängig
var(yi | x′i ) = Pr(yi = 1| x′i )[1 − Pr(yi = 1| x′i )] = x′i β(1 − x′i β)
d.h. das Modell ist heteroskedastisch. Deshalb ist das LPM nicht effizient und
die Standardfehler sind verzerrt. Dieses Problem lässt sich durch die Anwendung eines FGLS Schätzers4 (Feasible Generalized Least Squares), oder – noch
einfacher – durch heteroskedastie-konsistente (White-) Standardfehler zumindest wesentlich mildern.
3
Warum? Sei y eine Dummy Variable mit E(y) = µ. Per Definition gilt var(y) = E(y − µ)2 =
E(y ) − 2µ E(y) + µ2 . Da y nur die Werte 0 und 1 annehmen kann gilt y 2 = y. Einsetzen von
E(y) = µ gibt var(y) = µ − µ2 = µ(1 − µ).
p
4
Man schätzt die gefitteten Werte ŷi , berechnet daraus die Gewichte wi = ŷi (1 − ŷi ), und
regressiert yi /wi auf xi /wi .
2
6
Empirische Wirtschaftsforschung
• Die Störterme sind nicht normalverteilt: Die Störterme sind die Differenz
zwischen realisierten Werten und dem bedingten Erwartungswert εi = yi −
E(yi | xi ). In Abbildung 19.1 (Seite 3) ist der Störterm für einen Wert x∗ eingezeichnet. Da y nur 0 oder 1 sein kann, ist der entsprechende Störterm entweder
ε1 = 1 − E(y| x∗) oder ε0 = 0 − E(y| x∗). Diese Störterme können deshalb nicht
normalverteilt sein. Dies beeinflusst zwar nicht die Unverzerrtheit des OLS
Schätzers, aber die Teststatistiken sind in kleinen Stichproben ungültig.
Einige der Probleme des LPM lassen sich beseitigen, wenn man eine Funktion wählt
die sicher stellt, dass der bedingte Erwartungswert – d.h. die Wahrscheinlichkeit –
im [0,1] Intervall liegt
Pr(yi = 1| x′i ) = E(yi | x′i ) = F (x′i β)
wobei x′i β Indexfunktion genannt wird und F eine Transformationsfunktion ist, die
folgende Eigenschaft erfüllt:
F (−∞) = 0.
dF (x)
≡ f (x) ≥ 0
dx
F (∞) = 1,
(dies impliziert 0 < F (z) < 1 ∀ z ∈ x)
Eine solche Funktion F kann natürlich niemals linear sein, sondern wird meist Sförmig angenommen. Deshalb sind die marginalen Effekte nicht konstant, weshalb
die Parameter dieser Modelle – wie wir später sehen werden – deutlich schwieriger
zu interpretieren sind als die des LPM.
LPM
y
b
1.0
b
b
b
b
Logit
0.5
b
0.0
−0.2
0
b
b
b
b
50
x∗
100
x
Abbildung 19.3: Vergleich LPM- und Logit Modell
19.3
Eine Interpretation: Latente Variablen
Ein wesentliches Problem des LPM besteht darin, dass die prognostizierten Wahrscheinlichkeiten nicht im [0, 1] Intervall liegen müssen, sowie, dass konstante mar-
7
Empirische Wirtschaftsforschung
ginale Effekte häufig theoretisch unplausibel sind. Deshalb liegt es nahe eine Funktionsform zu wählen, die diese Probleme vermeidet. Meistens wird eine S-förmige Funktionsform gewählt wie in Abbildung 19.3. In diesem Abschnitt werden wir
versuchen eine plausible Begründung für eine solche Funktionsform zu geben, und
anschließend werden wir uns mit der Schätzung und Interpretation der Parameter
beschäftigen.
Für das Verständnis ist es am einfachsten, wenn wir uns vorstellen, dass die beobachtbare binäre Variable y von einer zugrundeliegenden unbeobachtbaren intervallskalierten Variable y ∗ ‘erzeugt’ wird. Falls die abhängige Variable y z.B. angibt, ob
jemand eine Kauf getätigt hat oder nicht, könnte die latente intervallskalierte Variable y ∗ interpretiert werden als ‘Kaufneigung’; oder wenn y angibt, ob eine Firma
zahlungsunfähig wurde, könnte y ∗ als ‘Liquidität’ oder etwas ähnliches interpretiert
werden.
Eine solche ‘dahinterliegende’ unbeobachtbare Variable wird latente Variable genannt. Wir werden im weiteren solche latente Variablen mit einem hochgestellten ∗
kennzeichnen.
Das Strukturmodell sei
yi∗ = x′i β + εi
mit
(
1 wenn yi∗ > τ,
yi =
0 wenn yi∗ ≤ τ.
wobei τ einen (beliebigen) Schwellenwert (treshold oder cutoff point) bezeichnet.
Meist wird τ = 0 angenommen, da sich die Wahl eines anderen (beliebigen) Schwellenwerts bei der Schätzung nur auf den Wert des Interzepts auswirkt, welches aber
nur selten von Interesse ist.
Die Wahrscheinlichkeit, dass für ein gegebenes xi die abhängige Variable yi den
Wert 1 annimmt, kann für τ = 0 als Wert der Verteilungsfunktion an der Stelle x′i β
berechnet werden, denn
Pr(yi = 1| x′i ) =
=
=
=
=
Pr(y ∗ > 0| x′i )
Pr(x′i β + εi > 0| x′i )
Pr(εi > −x′i β| x′i )
Pr(εi ≤ x′i β| x′i )
F (x′i β| x′i )
(der letzte Schritt folgt aus der Symmetrie der Normalverteilung).
Diese Herleitung wird in Abbildung 19.4 grafisch veranschaulicht.
Man beachte, dass auch für E(y ∗ | x′i ) > τ und deshalb E(y| x′i ) = 1 das tatsächlich
beobachtete yi gleich Null sein kann (d.h. yi = 0), wenn nämlich εi hinreichend
negativ ist.
Wir werden außerdem später sehen, dass σ in diesen Modellen nicht berechnet werden kann (d.h. nicht identifizierbar ist), sondern nur das Verhältnis β/σ.
8
Empirische Wirtschaftsforschung
y∗
E(y ∗ |x)
y=1
xi β
y=0
τ
τ =0
Dichte
xi
Pr(y = 1)
Pr(y = 0)
Pr(y = 1)
x
Pr(y = 1)
= F (xβ)
Pr(y = 0)
Pr(y = 0)
0
xi β
y∗
y = xβ + ε
∗
Pr(y = 1) = Pr(xβ + ε > 0)
0
0
ε = y − xβ
−ε = xβ − y ∗
−xi β
∗
Pr(y = 1) = Pr(ε > −xβ)
xi β
Pr(y = 1) = Pr(ε ≤ xβ) = F (xβ)
Abbildung 19.4: Latente Variable Pr(yi = 1| xi ) = F (βxi )
Die obere Grafik von Abbildung 19.5 (Seite 9) zeigt die Verteilung des Störterms ε
für 5 verschiedene x. Die schraffierte Fläche gibt die auf x bedingte Eintrittswahrscheinlichkeit Pr(yi = 1| xi ) an, die in der unteren Abbildung aufgetragen ist. Dies
ist offensichtlich eine Verteilungsfunktion.
19.4
Probit- und Logit Modelle
Benötigt wird also eine Transformationsfunktion F die sicherstellt, dass F (x′i β) in
das Intervall [0, 1] fällt. Die beiden am häufigsten verwendeten Funktionen, die diese
Annahme erfüllen, sind die Verteilungsfunktionen der Normal- und der logistischen
Verteilung.
• Probit: verwendet für F die Verteilungsfunktion der Standardnormalverteilung:
2
Z x′i β
Z x′i β
1
−z
′
Pr(yi = 1) = Φ(xi β) =
φ(z)dz =
exp
dz
2
−∞
−∞ 2π
9
Empirische Wirtschaftsforschung
y∗
8
y=1
7
E(y ∗ |x)
6
5
τ
τ
4
y=0
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
x
Pr(y = 1|x)
1
0.5
0
Abbildung 19.5: Interpretation als latente Variable : die schraffierte Fläche
der oberen Abbildung ist als Verteilungsfunktion in der unteren
Abbildung dargestellt.
wobei Φ (Phi) die Verteilungsfunktion (cdf für ‘Cumulative Distribution Function’ ) und φ (phi) die Dichtefunktion (pdf für ‘Probability Density Function’ )
der Standardnormalverteilung ist.
• Logit: basiert auf der Verteilungsfunktion (cdf) der logistischen Verteilung:
Pr(yi = 1) = Λ(x′i β) =
exp(x′i β)
1 + exp(x′i β)
wobei Λ (Lambda) die Verteilungsfunktion (cdf) der standard-logistischen Verteilung mit Mittelwert 0 und Varianz π 2 /3 ist. Die Dichtefunktion (pdf) der
logistischen Verteilung ist nebenbei erwähnt
λ(x′i β) =
exp(x′i β)
[1 + exp(x′i β)]2
10
Empirische Wirtschaftsforschung
Die Schätzung beider Modelle erfolgt mittels Maximum Likelihood.
Die Wahrscheinlichkeit
Pr(yi = 1| x′i ) = F (x′i β)
wobei F im Probit Modell die cdf Φ und im Logit Modell die cdf Λ ist (vgl. Abbildung
19.4, Seite 8).
Pr(yi = 1| x′i ) = F (x′i β)
Pr(yi = 0| x′i ) = 1 − F (x′i β)
Wenn die Stichprobenziehungen unabhängig sind (i.i.d. sampling) ist die gemeinsame Wahrscheinlichkeit
Y
Y
Pr(y1 , y2 , . . . , yn | X) =
[1 − F (x′i β)]
[F (x′i β)]
{i,yi =0}
{i,yi =1}
Da die beobachteten yi Ausprägungen eines Binomialprozesses sind ist die Likelihood
Funktion für n Beobachtungen
n
Y
y
1−y
L(β| y, X) =
[F (x′i β)] i [1 − F (x′i β)] i
i=1
Die Log-Likelihood Funktion ist das Produkt der individuellen Likelihoodbeiträge
ln Li
n
X
ln L =
{yi ln [F (x′i β)] + (1 − yi ) ln [1 − F (x′i β)]}
i=1
Man beachte, dass der Wert dieser Log-Likelihood Funktion nie positiv sein kann,
da 0 ≤ F (·) ≤ 1 impliziert, dass ln[F (·) ≤ 0] und ln[1 − F (·) ≤ 0].
Die Bedingungen erster Ordnung sind
n ∂ ln L X yi fi
−fi
!
=
+ (1 − yi )
x′i = 0
∂β
Fi
(1 − Fi )
i=1
wobei fi = dFi /d(x′i β) die Dichtefunktion (pdf) ist, also φ für das Probit und λ
für das Logit Modell. Die Parameter β dieses Modells können mit Hilfe iterativer
Verfahren geschätzt werden.
Die Log-Likelihood Funktion könnte z.B. in EViews (oder jedem anderen geeigneten
Programm5 einfach maximiert werden (hier für das Probit)
logl LL1 ’ Log-Likelihood Objekt LL1 anlegen
’ OLS Schätzungen als Startwerte setzen
eq1.ls y c x
LL1.append @logl logl1
LL1.append xb = c(1) + c(2)*x
LL1.append logl1 = EMA*log(@cnorm(xb)) + (1-EMA)*log(1-@cnorm(xb))
LL1.ml
show LL1
(EMA ist die abhängige Dummyvariable ‘Extramarital Affairs’) aber selbstverständlich sind entsprechende Routinen einfacher mit dem Befehl eqname.probit list of
variables aufgerufen werden.
5
Für R Beispiele siehe z.B. Kleiber
wwz.unibas.ch/fileadmin/wwz/redaktion/statistik/downloads/Lehre/Mikro/Folien/Binary.pdf
11
Empirische Wirtschaftsforschung
Beispiel: Tabelle 19.3 und 19.4 zeigen Probit- bzw. Logitschätzungen für die bereits früher zitierte Arbeit von Fair (1978) über außerehelicher Beziehungen (für die
Definition der Variablen siehe Seite 4).
Tabelle 19.3: Probit-Schätzung von Fair (1978)
Dependent Variable: EMA
Method: ML - Binary Probit (Quadratic hill climbing)
Sample: 1 601
Included observations: 601
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
C
b0
0.7794
SEX
b1
0.1735
AGE
b2
−0.0246
YMAR
b3
0.0543
KIDS
b4
0.2166
RELIG
b5
−0.1855
EDUC
b6
0.0113
OCC
b7
0.0137
RMAR
b8
−0.2718
Mean dependent var
0.249584
S.E. of regression
0.410279
Sum squared resid
99.65088
Log likelihood
−305.198
Restr. log likelihood −337.6885
LR statistic (8 df)
64.98107
Probability(LR stat) 4.87E − 11
Obs with Dep=0
451
Obs with Dep=1
150
Std. Error
z-Stat.
Prob.
0.5125
1.5206
0.1289
0.1380
1.2570
0.2092
0.0104 −2.3598
0.0186
0.0188
2.8893
0.0040
0.1652
1.3117
0.1901
0.0516 −3.5926
0.0004
0.0295
0.3816
0.7029
0.0414
0.3301
0.7414
0.0535 −5.0826
0.0000
S.D. dependent var
0.433133
Akaike info criterion
1.045584
Schwarz criterion
1.111453
Hannan-Quinn criter.
1.071224
Avg. log likelihood
−0.507817
McFadden R-squared
0.096215
Total obs
601
Achtung: Der Maximum Likelihood Schätzansatz bricht zusammen, wenn für eine
Linearkombination x′i β ∗ der erklärenden Variablen gilt
(
yi = 0 wenn x′i β ∗ < 0, und
yi = 1 wenn x′i β ∗ > 0
Dies bedeutet, dass in einer graphischen Abbildung die Beobachtungen durch eine
Gerade (oder Hyperebene) perfekt getrennt werden können. Dieses Problem ist als
Perfect Classifier Problem oder (Quasi-)Vollständige Separation bekannt (siehe z.B.
Davidson and MacKinnon, 2003, 458).
12
Empirische Wirtschaftsforschung
Tabelle 19.4: Logit-Schätzung von Fair 1978
Dependent Variable: EMA
Method: ML - Binary Logit (Quadratic hill climbing)
Sample: 1 601
Included observations: 601
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Variable
C
b0
SEX
b1
AGE
b2
YMAR
b3
KIDS
b4
RELIG
b5
EDUC
b6
OCC
b7
RMAR
b8
Mean dependent var
S.E. of regression
Sum squared resid
Log likelihood
Restr. log likelihood
LR statistic (8 df)
Probability(LR stat)
Obs with Dep=0
Obs with Dep=1
19.5
Coefficient
1.3773
0.2803
−0.0443
0.0948
0.3977
−0.3247
0.0211
0.0309
−0.4685
0.249584
0.409947
99.48925
−304.7552
−337.6885
65.86657
3.25E − 11
451
150
Std. Error
z-Stat.
Prob.
0.8878
1.5514
0.1213
0.2391
1.1723
0.2416
0.0182 −2.4252
0.0156
0.0322
2.9419
0.0034
0.2915
1.3642
0.1730
0.0898 −3.6179
0.0003
0.0505
0.4168
0.6770
0.0718
0.4308
0.6668
0.0909 −5.1531
0.0000
S.D. dependent var
0.433133
Akaike info criterion
1.044111
Schwarz criterion
1.10998
Hannan-Quinn criter.
1.06975
Avg. log likelihood
−0.50708
McFadden R-squared 0.097526
Total obs
601
Identifizierbarkeit und Vergleich der Koeffizienten von Probit- & Logitmodellen
Wir haben bereits früher gezeigt (siehe latente Variablen), dass
Pr(y = 1| x) = Pr(y ∗ > 0| x)
= Pr(xβ + εi > 0| x)
= Pr(εi > −xβ| x)
Man kann nun einfach eine Standardisierung vornehmen, indem man εi durch σ
dividiert (εi /σ ist standardnormalverteilt mit Mittelwert 0 und Standardabweichung
13
Empirische Wirtschaftsforschung
1)
Pr(yi =
1| x′i )
β
εi
> −x′i
= Pr
σ
σ
εi
β
= Pr
≤ x′i
σ
σ
β
= F x′i
σ
Dies führt zur Likelihood Funktion
Y
yi 1−yi
n β
′β
′β
L
| y, X =
F xi
1 − F xi
σ
σ
σ
i=1
bzw. Log-Likelihood Funktion
n X
′β
′β
ln L =
yi ln F xi
+ (1 − yi ) ln 1 − F xi
σ
σ
i=1
Man beachte, dass β und σ hier immer nur gemeinsam als β/σ auftreten. Deshalb
kann nur das Verhältnis β/σ berechnet werden, nicht aber die getrennten Werte β
und σ. Man sagt, β und σ sind nicht einzeln identifiziert, sodern nur das Verhältnis
β/σ ist identifiziert.
Intuitiv kann man sich vorstellen, dass die latente Variable y ∗ im Strukturmodell
yi∗ = xi β + εi nicht beobachtbar ist, deshalb kann die Varianz von y ∗ nicht aus den
beobachteten Daten berechnet werden.
Tatsächlich kann man eine beliebige Varianz σ annehmen und dazu den entsprechenden Koeffizientenvektor β̃ berechnen. Aus Einfachkeitsgründen hat es sich eingebürgert, für das Probitmodell eine Varianz von Eins (σP2 = 1) und für das Logitmodell eine Varianz π 2 /3 (σL2 = π 2 /3) anzunehmen. Der Grund für diese Annahmen
liegt einzig und alleine in der damit zu erzielenden Einfachheit. Also
• Probit: Standardnormalverteilung mit µ = 0 und var(ε) = 1
εi ∼ N(0, 1)
• Logit: Standard-logistische Verteilung mit µ = 0 und var(ε) = π 2 /3
εi ∼ L(0, π 2 /3)
(L bezeichne die logistische Verteilung)
Abbildung 19.6 zeigt die Dichte und Verteilungsfunktionen dieser beiden Verteilungen.
Die geschätzten Koeffizienten werden sich deshalb im Logit- und Probitmodell unterscheiden
β̂L
β̂P
√
↔ p
1
π 2 /3
14
Empirische Wirtschaftsforschung
Dichtefunktionen:
0.5
0.4
0.3
0.2
0.1
0
−4
−3
−2
−1
0
1
2
3
4
0
1
2
3
4
Verteilungsfunktionen:
1.0
0.5
0
−4
−3
−2
−1
Standardnormalverteilung
Standardlogistische Verteilung
Standardisierte logist. Verteilung
Abbildung 19.6: Standardnormale & standard-logistische Verteilung
Deshalb würden wir näherungsweise erwarten, dass
p
β̂L ≈ π 2 /3 β̂P ≈ 1.81β̂P
Nach Amemiya (1981) sollte man eher einen Wert von 1.6 verwenden, da für diesen
Wert die Verteilungsfunktionen am ähnlichsten sind (vgl. Long, 1997, 47f)
β̂L ≈ 1.6β̂P
Diese Approximation funktioniert für Wahrscheinlichkeiten zwischen 0.1 und 0.9
recht gut.
Für einen Vergleich der Koeffizienten des Logit Modells mit den Koeffizienten des
linearen Wahrscheinlichkeitsmodells (LPM) empfiehlt Amemiya die Logit Koeffizienten mit 0.25 zu multiplizieren (vgl. Vogelvang 2005, S. 244; Greene 2003, S. 676).
15
Empirische Wirtschaftsforschung
Als grobe Faustregel gilt (Cameron & Trivedi 2005, 473)
β̂Logit ≃ 4 β̂OLS
β̂Probit ≃ 2.5 β̂OLS
β̂Logit ≃ 1.6 β̂Probit
Tabelle 19.5 zeigt die geschätzten Koeffizienten und deren p-Werte (Prob.) für das
LPM, Probit- und Logitmodell.
Tabelle 19.5: Vergleich der Modelle Fair (1978)
Variable
C
SEX
AGE
YMAR
KIDS
RELIG
EDUC
OCC
RMAR
LPM
0.7361
0.0452
-0.0074
0.0160
0.0545
-0.0537
0.0031
0.0059
-0.0875
Prob.
0.0000
0.2735
0.0193
0.0047
0.2396
0.0005
0.7180
0.6130
0.0000
Probit
0.7794
0.1735
-0.0246
0.0543
0.2166
-0.1855
0.0113
0.0137
-0.2718
Prob.
0.1284
0.2087
0.0183
0.0039
0.1896
0.0003
0.7028
0.7413
0.0000
Logit
1.3773
0.2803
-0.0443
0.0948
0.3977
-0.3247
0.0211
0.0309
-0.4685
Prob.
0.1208
0.2411
0.0153
0.0033
0.1725
0.0003
0.6769
0.6666
0.0000
Wichtig ist, dass dadurch zwar die geschätzten Parameter in einem gewissen Sinne
‘willkürlich’ sind (d.h. von der identifizierenden Annahme über die Varianz abhängig
sind), dass dies aber keine Auswirkungen auf die Wahrscheinlichkeiten (predicted
probabilities) hat.
Dies kann für das Logit Modell einfach gezeigt werden. Die Verteilungsfunktion für
die standardisierte logistische Verteilung (d.h. mit µ = 0 und σ 2 = 1) ist
√
exp[(π/
3) ε]
√
Λs (ε) =
1 + exp[(π/ 3) ε]
(diese standardisierte logistische Verteilungsfunktion ist in Abbildung 19.6 punktiert
eingezeichnet).
Wenn wir das Strukturmodell durch σ dividieren
yi+
x′ β εi
= i +
σ
σ
σ
hat εi /σ eine standardisierte logistische Verteilung
ε exp √π3 εσi
i
Λs
=
π εi
σ
√
1 + exp
3 σ
√
da σ = π/ 3 ist aber
16
Empirische Wirtschaftsforschung
Λs
ε i
σ
=
exp (εi )
= Λ(εi )
1 + exp (εi )
Deshalb hängt die geschätzte Eintrittswahrscheinlichkeit eines Ereignisses Pr(yi =
1| x) nicht von der Annahme über die Varianz von εi ab! Gleiches gilt für das Probit
Modell.
19.6
Interpretation der Parameter
Während die Schätzung der Modelle weitgehend von der entsprechenden Software
übernommen wird und deshalb kaum Probleme bereitet ist die Interpretation der
Ergebnisse deutlich komplexer als im Fall der linearen Regression. Abbildungen 19.7
und 19.8 verdeutlichen das Problem. Bei einer linearen Regression (Abbildung 19.7)
sind die marginalen Effekte konstant und eine Dummy-Variable führt zu einer einfachen Parallelverschiebung der Regressionsgerade im Ausmaß des Koeffizienten der
Dummy. Wie aus Abbildung 19.8 ersichtlich ist gilt dies nicht für nicht-lineare Modelle. Tatsächlich gehört eine kompakte Darstellung der Ergebnisse zu den schwierigeren Teilen einer Probit- oder Logit Analyse.
yi = β1 + β2xi + β3 Di
y
D=0
D=1
β2
β2
β3
x1
β3
β2
β2
x2
x
Abbildung 19.7: Interpretation der Parameter des linearen Regressionsmodells (LPM)
Die Abbildungen 19.9 und 19.10 zeigen die Funktion
Pr(yi = 1| x′i) = F (β1 + β2 xi )
für unterschiedliche β1 , bzw. β2 . Man beachte, dass eine Erhöhung des Interzepts
β1 zu einer Linksverschiebung führt (der Grund dafür sollte aus Abbildung 19.5
ersichtlich sein).
17
Empirische Wirtschaftsforschung
yi = f (α1 + α2 xi + α3 Di ) =
exp(α1 +α2 xi +α3 Di )
[1+exp(α1 +α2 xi +α3 Di )]
y
D=0
D=1
δ4
δ6
δ2
δ3
δ5
δ1
x1
x2
x
Abbildung 19.8: Interpretation der Parameter des Logit Modells
Pr(y = 1)
1.0
0.5
β1
β1
β1
β1
β1
= −10
= −5
=0
= +5
= +10
(β2 = 1)
0
−30 −25 −20 −15 −10 −5
0
5
10
15
20
25
Abbildung 19.9: Parameter β1 des Logit Modells
Abbildung 19.11 zeigt den multivariaten Fall
Pr(yi = 1| x′i ) = F (β1 + β2 xi1 + β3 xi2 )
19.6.1
Interpretation unter Verwendung der berechneten
Wahrscheinlichkeiten
Man kann nun die Schätzergebnisse verwenden um für bestimmte Werte von x′i die
entsprechenden Wahrscheinlichkeiten zu berechnen.
c i = 1| x′ ) = F (x′ β̂) = 1 − F (−x′ β̂)
Pr(y
i
i
i
18
Empirische Wirtschaftsforschung
β2
β2
β2
β2
β2
Pr(Y = 1)
1.0
= 0.1
= 0.3
=1
=2
= −0.5
(β1 = 0)
0.5
0
−30 −25 −20 −15 −10 −5
0
5
10
15
20
25
Abbildung 19.10: Parameter β2 des Logit Modells
1
0.75
PHY=1»XL
4
0.5
0.25
2
0
0
-4
X2
-2
-2
0
X1
2
-4
4
Abbildung 19.11: Das multivariate Logit Modell
Für jedes Individuum existiert eine individuelle Wahrscheinlichkeit, d.h. die Wahrscheinlichkeiten sind beobachtungsspezifisch. Man kann nun einfach über die Wahrscheinlichkeiten aller Individuen mitteln, zum Beispiel kann man aus den Daten von
Fair (1978) mit Hilfe einer Logit-Schätzung eine mittlere Seitensprungwahrscheinlichkeit von 0.24958 berechnen. Dies ist der Mittelwert der gefitteten Wahrscheinlichkeiten. In EViews erhalten Sie diesen Mittelwert z.B. mit
equation eq1.logit ema c sex age ymar kids relig educ occ rmar
eq1.fit ema_fit
coef(1) m1 = @mean(ema_fit)
show m1
Man kann alternativ aber auch die Wahrscheinlichkeiten im Mittelwert der jeweiligen
19
Empirische Wirtschaftsforschung
c i = 1| x̄′) = F (x̄′ β̂). Dafür erhält man aus den Fair (1978)
x berechnen, d.h. Pr(y
Daten einen Wert von 0.22246.
Diesen Wert können Sie in EViews z.B. berechnen, indem Sie aus der Equation
Toolbar View - Representations wählen, den Output mit Substituted Coefficients mit
Copy & Paste in ein Programm-Fenster kopieren und dort Variablennamen mit
@mean(varname) ersetzen; für dieses Beispiel6
coef(1) m2 = 1-@LOGIT(-(1.3772582 + 0.280286652*@mean(SEX)
0.0442550229*@mean(AGE) + 0.0947730223*@mean(YMAR)
0.397672133*@mean(KIDS) - 0.324720635*@mean(RELIG)
0.0210508638*@mean(EDUC) + 0.0309197089*@mean(OCC)
0.468454261*@mean(RMAR)))
show m2
+
+
-
_
_
_
_
Interessanter sind jedoch häufig die Bereiche der Wahrscheinlichkeiten für unterschiedliche Werte von x. Die minimale und maximale Wahrscheinlichkeit in der
Stichprobe ist definiert als
c i = 1| x′ ) = min F (x′ β̂)
min Pr(y
i
i
i
c i=
max Pr(y
1| x′i )
= max F (x′i β̂)
i
Dies sind die Werte für das Individuum mit der höchsten und das Individuum
mit der niedrigsten Wahrscheinlichkeit. In EViews erhalten Sie diese einfach aus
den oben berechneten gefitteten Werten z.B. mit ema_min1 = @min(ema_fit) bzw.
ema_max1 = @max(ema_fit). Die Werte für das Fair-Beispiel finden Sie in der ersten
Zeile von Tabelle 19.6.
Man kann auch den Bereich der Wahrscheinlichkeiten für die minimalen (bzw.
maximalen) Wert jeder einzelnen x-Variable berechnen, ungeachtet dessen, ob es
tatsächlich ein Individuum mit solchen extremen Merkmalsausprägungen in der
Stichprobe gibt. Dabei ist das Vorzeichen der geschätzten βbh zu berücksichtigen
(
(
bh ≥ 0,
min
x
wenn
β
maxi xki wenn βbh ≥ 0,
i
ki
←
− =
→
−
x
xh =
h
maxi xki wenn βbh < 0
mini xki wenn βbh < 0
− die zu verwendenden Werte von x für die Berechnung der minimalen
wobei ←
x
h
ih
→
und −
x h die Werte für die Berechnung der maximalen Wahrscheinlichkeit bezeichnet.
In der zweiten Zeile von Tabelle 19.6 finden sich die entsprechenden minimalen und
maximalen Wahrscheinlichkeiten
−) = F (←
−β̂)
c = 1| ←
Pr(y
x
x
und
−
→
c = 1| →
Pr(y
x ) = F (−
x β̂)
Man beachte, dass diesen Wahrscheinlichkeiten vermutlich kein Individuum der
Stichprobe entspricht, und dass die so berechneten Wahrscheinlichkeiten sehr empfindlich auf Ausreißer reagieren.
6
Das ‘underline’ Zeichen am Zeilenende (!) erlaubt einen Befehl über mehrere Zeilen zu schreiben.
20
Empirische Wirtschaftsforschung
Diese Bereiche der Wahrscheinlichkeiten sind nützlich, um das Ausmaß der NichtLinearität abzuschätzen. Wenn diese gefitteten Wahrscheinlichkeiten z.B. alle zwischen 0.2 und 0.8 liegen können sie vermutlich durch ein lineares Modell möglicherweise einigermaßen gut angenähert werden. Ebenso, wenn der Bereich zwischen
minimalen und maximalen Wert sehr klein ist.
Tabelle 19.6: Bereich der gefitteten Wahrscheinlichkeiten für das Logit Modell
(nach Fair 1978)
Variable
c i = 1| xi )
Pr(y
c i = 1| xmin / max )
Pr(y
SEX
AGE
YMAR
KIDS
RELIG
EDUC
OCC
RMAR
Min.
0.03173
0.00755
0.20025
0.08817
0.11768
0.17713
0.13435
0.19746
0.20585
0.14782
Max.
0.72473
0.92735
0.2489
0.35707
0.35325
0.24265
0.36260
0.23673
0.23783
0.53047
Diff.
0.69300
0.91980
0.04866
0.26890
0.23556
0.06551
0.22824
0.03927
0.03198
0.38265
Als nächstes kann man den Einfluss der einzelnen erklärenden Variablen untersuchen, indem man für jedes xh den minimalen und maximalen Wert einsetzt und
für alle anderen Variablen jeweils den Mittelwert einsetzt (x̄ ist ein Vektor mit den
Durchschnitten aller x Variablen außer der Variable xh ). Die Differenzen
c = 1| x̄, max xh ) − Pr(y
c = 1| x̄, min xh )
Diffh = Pr(y
sind für unser Beispiel in Tabelle 19.6 ab Zeile 3 angegeben. Eine kleine Differenz
bedeutet, dass eine Veränderung dieser Variable keinen großen Einfluss auf die prognostizierten Wahrscheinlichkeiten hat. Schließlich ist es wichtig, ob die maximalen
und minimalen Werte in einen Bereich fallen, in denen die Kurve einigermaßen linear
ist, oder in einen Bereich starker Nicht-Linearität.
Häufig ist es nützlich, die Wahrscheinlichkeiten über einen Bereich einer Variablen
graphisch darzustellen. Obwohl in unserem Beispiel das Geschlecht keinen signifikanten Erklärungsbeitrag leistet – und deshalb nicht interpretiert werden sollte –
wollen wir im Moment davon absehen um die Methode zu demonstrieren.
Abbildung 19.12 zeigt die gefittetet Wahrscheinlichkeiten getrennt für Männer und
Frauen (d.h. für SEX = 1 bzw. SEX = 0) über das Alter, wobei für alle anderen
Variablen der Mittelwert eingesetzt wurde. Offensichtlich nehmen die Wahrscheinlichkeiten für beide Geschlechter mit dem Alter ab, aber auch der Unterschied zwischen Männern und Frauen wird kleiner. In Abbildung 19.13 wird dasselbe über
die Ehejahre gezeigt (für das Alter und alle anderen Variablen wird der Mittelwert
eingesetzt). Hier wird der Unterschied zwischen Männern und Frauen offensichtlich
nicht geringer, sondern nimmt mit den Ehejahren sogar zu. Man beachte aber, dass
die gewählte Funktionsform keine Änderung des Vorzeichens zulässt.
21
Empirische Wirtschaftsforschung
Wir haben bisher jeweils die Mittelwerte für die ‘anderen’ erklärenden Variablen
eingesetzt. Wenn die Verteilung der Variablen sehr schief ist kann man überlegen
anstelle des Mittelwertes den Median heranzuziehen. Besondere Vorsicht ist angebracht, wenn sich unter den erklärenden Variablen weitere Dummies befinden. Da
der Mittelwert von Dummies nicht wirklich interpretierbar ist sollte man sich in
diesem Fall überlegen, ob man die Ergebnisse für jede Dummy-Kombination einzeln
darstellt.
.40
.35
Probability
.30
.25
Female
Male
.20
.15
.10
.05
15
20
25
30
35
40
45
50
55
60
AGE
Abbildung 19.12: Unterschiedliche
Seitensprungwahrscheinlichkeiten
von
Männern und Frauen in Abhängigkeit vom Alter (alle
anderen Variablen im Mittelwert)
.40
.35
Probability
.30
.25
Female
Male
.20
.15
.10
0
2
4
6
8
10
12
14
16
Years married
Abbildung 19.13: Beispiel: Unterschiedliche Seitensprungwahrscheinlichkeiten
von Männern und Frauen in Abhängigkeit von den Ehejahren
(alle anderen Variablen im Mittelwert)
22
Empirische Wirtschaftsforschung
19.6.2
Marginale Effekte
Im einfachen linearen Regressionsmodell können die Koeffizienten unmittelbar als
marginale Effekte interpretiert werden. Man könnte versucht sein dies auch für die
latente Variable y ∗ zu tun, da
yi∗ = x′i β + εi
mit
∂y ∗
= βh
∂xh
Das Problem besteht darin, dass die latente Variable y ∗ nicht beobachtbar ist, weshalb auch deren Varianz unbekannt ist; wir haben bereits festgestellt, dass βh nicht
identifiziert ist, sondern nur βh /σ.
Deshalb müssen wir uns auf die marginale Änderung von Pr(yi = 1| x′i) konzentrieren. Bekanntlich ist
Pr(yi = 1| x′i ) = F (x′i β)
und der marginale Effekt ist
∂F (x′i β)
∂F (x′i β) ∂x′i β
∂ Pr(yi = 1| x′i )
=
=
= f (x′i β)βh
′
∂xh
∂xh
∂xi β ∂xh
wobei f (x′i β) der Wert der Dichtefunktion an der Stelle x′i β ist. Deshalb hängt der
marginale Effekt Vom Wert aller x Variablen ab und ist nicht konstant!
Das Problem kann in Abbildung 19.11 veranschaulicht werden. Die Ableitung
∂ Pr(y = 1| x1 , x2 )/∂x1 gibt die Steigung einer Tangente in einem Punkt (xi1 , xi2 ) an,
die parallel zur x2 Achse verläuft (d.h. für ein fixes x2 ). Im Punkt (x1 = 0, x2 = −4)
verläuft diese Tangente sehr flach, eine Änderung von x1 hat in diesem kaum Auswirkungen auf die Eintrittswahrscheinlichkeit. Im Punkt x1 = 0, x2 = 0 sind hingegen
die Auswirkungen einer Änderung von x1 viel größer.
Nebenbei bemerkt ist das Verhältnis zweier marginaler Effekte konstant
∂ Pr(y=1| x)
∂xh
∂ Pr(y=1| x)
∂xl
=
βh
βl
aber selten von Interesse und schwer interpretierbar.
Meistens werden deshalb durchschnittliche marginale Effekte berechnet, wobei man
entweder den Mittelwert über alle Beobachtungen berechnen kann (average, d.h.
man berechnet für jede Beobachtung den marginalen Effekt und bildet anschließend
den Mittelwert)
n
∂P (y = 1| x)
1X
=
f (x′i β)βh
∂xh
n i=1
oder die Effekte im Mittelwert der erklärenden Variablen (at mean) (d.h. man berechnet den marginalen Effekt im Mittelwert der erklärenden Variablen)
∂ Pr(y = 1| x̄)
= f (x̄′ β)βh
∂xh
23
Empirische Wirtschaftsforschung
Tabelle 19.7: Logit-Schätzung (Fair 1978)
Dependent Variable: EMA
Method: ML - Binary Logit (Quadratic hill climbing)
Variable
C
SEX
AGE
YMAR
RELIG
RMAR
Coefficient Std. Error
t-Stat.
b0
1.9476
0.6123
3.1806
b1
0.3861
0.2070
1.8651
b2 −0.0439
0.0181 −2.4321
b3
0.1113
0.0298
3.7323
b4 −0.3271
0.0895 −3.6563
b5 −0.4672
0.0893 −5.2329
McFadden R-squared
0.094048 Log likelihood
Prob.
0.0015
0.0627
0.0153
0.0002
0.0003
0.0000
-305.9295
Tabelle 19.8: Marginale Effekte (Fair 1978)
Variable
SEX
AGE
YMAR
RELIG
RMAR
Logit
Average At Means
0.0645
0.0671
-0.0073
-0.0076
0.0186
0.0194
-0.0547
-0.0569
-0.0781
-0.0812
Probit
Average At Means
0.0642
0.0678
-0.0071
-0.0075
0.0184
0.0194
-0.0536
-0.0566
-0.0785
-0.0829
Tabelle 19.7 zeigt eine kürzere Logit-Schätzung für das Fair Beispiel (1978) und
Tabelle 19.8 die entsprechenden marginalen Effekte für das Logit- und das Probit
Modell.
Ein marginaler Effekt von ‘Geschlecht’ (Sex) ist natürlich sinnlos, da es sich um
eine Dummy Variable handelt! Für Dummy Variablen werden deshalb diskrete
Änderungen berechnet, also
∆P = Pr(y = 1| x̄, D = 1) − Pr(y = 1| x̄, D = 0)
Für das obige Logit Modell, und wenn für alle anderen Variablen wieder der Mittelwert angenommen wird, erhält man für das Geschlecht den diskreten Effekt
∆ Pr(EMA = 1| x̄, Sex) = 0.261264 − 0.193796 = 0.067468
Tip: In EViews kann im Equation-Menü unter View / Representations folgende
Gleichung mit Copy/Paste kopiert werden:
EMA = 1 −@LOGIT(−(1.948 + 0.386 ∗ SEX −0.044 ∗ AGE + 0.111 ∗ YMAR −0.327 ∗
RELIG − 0.467 ∗ RMAR))
Der diskrete Effekt von ‘Sex’ im Mittelwert aller anderen Variablen wird berechnet
als Differenz von
EMA1 = 1 − @LOGIT(−(1.948 + 0.386 ∗ SEX − 0.044 ∗ @mean(AGE) + 0.111 ∗
Empirische Wirtschaftsforschung
24
@mean(YMAR) − 0.327 ∗ @mean(RELIG) − 0.467 ∗ @mean(RMAR)))
und
EMA0 = 1 − @LOGIT(−(1.948 − 0.044 ∗ @mean(AGE) + 0.111 ∗ @mean(YMAR) −
0.327 ∗ @mean(RELIG) − 0.467 ∗ @mean(RMAR))).
In Stata können die marginalen Effekte ‘at means’ einfach mit dem postestimation
mfx Befehl berechnet werden; mit der Option at(atlist) können sie an einer beliebigen Stelle berechnet werden. Mit dem ado-Befehl margeff können auch die ‘average
marginal effects’ berechnet werden. Seit Version 12 von Stata steht der mächtigere
Befehle margins zur Verfügung.
Für R existiert ein Package effects. für nähere Hinweise siehe Kleiber and Zeileis
(2008, Chap. 5).
Die Auswirkungen von diskrete Änderungen sind manchmal auch für NichtDummy Variablen zweckmäßig, da die Unterschiede von marginalen und diskreten
Änderungen in nicht-linearen Modellen beträchtlich sein können, und da sie häufig
einfacher zu interpretieren sind.
∆ Pr(y = 1| x̄)
= Pr(y = 1| x̄, xh + δ) − Pr(y = 1| x̄, xh )
∆xh
Am häufigsten wird als diskrete Änderung δ entweder eine Einheit von xh (unit
change) oder eine Standardabweichung von xh (standard deviation change) angenommen werden.
Es hat sich außerdem eingebürgert die diskreten Änderungen symmetrisch um den
Mittelwert von xh anzunehmen, also x̄h ± δ/2, oder konkret
• Centered Unit Change
∆ Pr(y = 1, x̄)
1
1
= Pr y = 1| x̄, xh +
− Pr y = 1| x̄, xh −
∆xh
2
2
• Centered Standard Deviation Change
∆ Pr(y = 1, x̄)
sh sh = Pr y = 1| x̄, xh +
− Pr y = 1| x̄, xh −
∆xh
2
2
wobei sh die Standardabweichung von xh ist.
• Dummy Variable:
∆ Pr(y = 1, x̄)
= Pr (y = 1| x̄, xh = 1) − Pr (y = 1| x̄, xh = 0)
∆xh
Tabelle 19.9 zeigt diese zentrierten diskreten Effekte für das Fair Beispiel.
Insbesondere kann es manchmal sehr anschaulich sein, die Wahrscheinlichkeiten und
deren Änderungen für bestimmte ‘typische’ Repräsentanten anzugeben. Der Phantasie sind dabei kaum Grenzen gesetzt.
25
Empirische Wirtschaftsforschung
Tabelle 19.9: Diskrete Effekte im Logit & Probit Modell (Fair 1978)
Logit
Centered
Centered
Unit Change StDev Change
SEX
AGE
YMAR
RELIG
RMAR
0.109
0.137
0.057
0.029
0.041
0.222
0.046
0.020
Probit
Centered
Centered
Unit Change StDev Change
SEX
AGE
YMAR
RELIG
RMAR
-0.008
0.019
-0.057
-0.083
Dummy
0 to 1
0.184
Dummy
0 to 1
0.068
-0.070
0.108
-0.066
-0.091
Besondere Vorsicht ist geboten bei Interaktionseffekten in Probit- oder Logitmodellen
E(yi |x′i ) = F (β1 + β2 xi2 + β3 xi3 + β4 xi2 xi3 )
dann ist
∂ E(yi |x′i )
= (β2 + β4 xi3 )F ′
∂xi2
und
∂ 2 E(yi |x′i )
= β4 F ′ + (β2 + β4 xi3 )F ′′
∂xi2 ∂xi3
Offensichtlich können hier Interaktionseffekte auftreten, selbst wenn β4 = 0, und das
Vorzeichen des Koeffizienten des Interaktionseffekts β4 muss nicht einmal mit dem
Vorzeichen des Interaktionseffekts übereinstimmen. Außerdem kann die statistische
Signifikanz des Interaktionseffekts nicht mehr mit einem einfachen t-Test getestet
werden.
Ai and Norton (2003) zeigen diese Probleme auf und bieten Lösungsansätze.
19.6.3
Chancenverhältnisse (‘Odds Ratios’) im Logit Modell
Im Logit Modell gibt es im Unterschied zum Probit Modell eine relativ einfache
Interpretation der Koeffizienten.
Die Chance (engl. odds) ist definiert als
Odds:
Pr(yi = 1| x′i )
Pr(yi = 1| x′i )
=
Pr(yi = 0| x′i )
1 − Pr(yi = 1| x′i )
26
Empirische Wirtschaftsforschung
und gibt an, wie oft yi = 1 relativ zu yi = 0 passiert. Dieser Wert kann zwischen
Null und ∞ liegen.
Angenommen, die Wettervorhersage sagt mit einer Wahrscheinlichkeit von 3/4 für
den nächsten Tag Regen vorher. Dann ist die Wahrscheinlichkeit dafür, dass es nicht
regnet, gleich 1/4, und die Chance (Odds), dass es regnet, ist deshalb drei, weil
Odds:
Pr(yi = 1| x′i )
=
Pr(yi = 0| x′i )
3
4
1
4
=3
Der Logarithmus des Verhältnisses von Eintrittswahrscheinlichkeit zu NichtEintrittswahrscheinlichkeit (pi /(1 − pi )) ist als das Logit bekannt.
Man kann zeigen, dass
pi
Pr(yi = 1| x′i )
ln
≡ ln
= x′i β
1 − Pr(yi = 1| x′i )
1 − pi
wobei wir pi := Pr(yi = 1| x′i ) nur für eine einfachere Schreibweise einführen.
Beweis:
exp(x′i β)
1 + exp(x′i β)
1
=
1
+1
exp(x′ β)
pi ≡ Pr(yi = 1| x′i ) =
i
=
1
1 + exp(−x′i β)
Also ist
mit
1
= 1 + exp(−x′i β)
pi
1
1
pi
−1= −
= exp(−x′i β)
pi
pi pi
pi
= exp(x′i β)
1 − pi
pi
ln
= x′i β
1 − pi
∂ ln
pi
1−pi
= βh
∂xh
Dieser marginale Effekt ist zwar konstant, aber wieder schwer interpretierbar.
Zur Vereinfachung führen wir für die Chance pi /(1 − pi ) das Symbol Ω ein und
definieren
pi
ln(Chance) = ln Ω(x) ≡ ln
= x′i β
1 − pi
und betrachten insbesondere die Variable xh . Die Chance ist also
Ω(x, xh ) = exp (xβ)
= exp (β1 + β2 x1 + · · · + βh xh + · · · βh xh )
= exp(β1 ) exp(β2 x1 ) · · · exp(βh xh ) · · · exp(βh xh )
Empirische Wirtschaftsforschung
27
Wenn wir nun zur Variablen xh eine Konstante δ addieren folgt
Ω(x, xh + δ) = exp(β1 ) exp(β2 x1 ) · · · exp(βh (xh + δ)) · · · exp(βh xh )
= exp(β1 ) exp(β2 x1 ) · · · exp(βh xh ) exp(βh δ) · · · exp(βh xh )
Das Verhältnis der Chancen, genannt das Chancenverhältnis (‘odds ratio’ ), ist also
exp(β1 ) exp(β2 x1 ) · · · exp(βh xh ) exp(βh δ) · · · exp(βh xh )
Ω(x, xh + δ)
=
Ω(x, xh )
exp(β1 ) exp(β2 x1 ) · · · exp(βh xh ) · · · exp(βh xh )
= exp(βh δ)
Wenn sich also xh um δ ändert, ändert sich das Chancenverhältnis ceteris paribus
um den Faktor exp(βh δ). Die prozentuelle Änderung der Chance ist
Ω(x, xh + δ) − Ω(x, xh )
× 100 = [exp(βh δ) − 1] × 100
Ω(x, xh )
Für δ kann man verschiedene Werte wählen, z.B. 1 (v.a. für Dummies), oder auch
eine Standardabweichung von xh . Der Vorteil dieses Maßes besteht darin, dass es
konstant und unabhängig von allen x Variablen ist.
In unserem Fair Beispiel (siehe Tabelle 19.7) nimmt die erwartete Chance mit jedem
zusätzlichen Altersjahr also um ca. 4.3% ab [(exp(−0.0439 × 1) − 1) × 100 ≈ −4.3].
Vorsicht: Das Chancenverhältnis ist keine Wahrscheinlichkeit, eine Interpretation
wie ‘Erhöht man die erklärende Variable um eine Einheit, erhöht sich die Eintrittswahrscheinlichkeit um . . . ’ ist falsch!
19.7
Tests und Güte der Anpassung
Sowohl im Probit als auch im Logit Modell können Wald, LR- und LM Tests wie
üblich durchgeführt werden.
Insbesondere Liklihood-Ratio (LR) Tests sind einfach durchzuführen:
LR = −2[ln(LR ) − ln(LU )] ∼ χ2q
wobei ln(LU ) der Wert der Log-Likelihood Funktion eines nicht restringierten Modells und ln(LR ) der Wert der Log-Likelihood Funktion eines restringierten Modells
ist.
EViews (wie die meisten anderen Programme) geben standardmäßig den Wert der
Log-Likelihood Funktion des geschätzten Modells sowie den Wert der Log-Likelihood
Funktion einer Schätzung nur auf die Konstante (Restr. log likelihood) aus.
Mit Hilfe dieser Werte kann man einen LR-Test durchführen, ob die erklärenden Variablen gemeinsam einen Erklärungsbeitrag leisten (LR statistic (# df)). Dieser
Test entspricht dem üblichen F -Test des linearen Regressionsmodells.
28
Empirische Wirtschaftsforschung
19.7.1
McFadden Pseudo-R2
Das Pseudo-Bestimmtheitsmass von McFadden vergleicht den maximalen Wert der
Log-Likelihood-Funktion des interessierenden Modells mit dem maximalen Wert der
Log-Likelihood-Funktion eines Modells, das keine erklärenden Variablen, sondern
nur die Konstante enthält.
ln LM
ln LC
wobei ln LM der Wert der Log-Likelihood-Funktion des geschätzten Modells und
ln LC der Wert der Log-Likelihood-Funktion einer Schätzung nur auf die Konstante
ist. Man beachte, dass ln(LR ) < ln(LU ) und dass der Wert der log-Likelihood Funktion nie positiv werden kann (warum?), weshalb das McFadden Pseudo-R2 immer
zwischen Null und Eins liegt.
2
Pseudo-RMcF
= 1−
19.8
Spezifikation in binären Modellen
Eine korrekte Spezifikation ist bei Maximum-Likelihood Schätzung von binären Modellen besonders wichtig, da bei Fehlspezifikation von F (x′i β) die Schätzfunktionen
in aller Regel nicht konsistent sind.
Ein großer Teil der Spezifikationstests im OLS-Modell beruhte auf einer Analyse der
geschätzten Residuen. Dies wäre einfach, wenn die Residuen des latenten Modells
yi∗ = x′i β + εi zur Verfügung stünden, aber da y ∗ eine latente Variable ist, ist dies
nicht der Fall.
Allerdings können Residuen als Differenz zwischen den beobachteten (binären) yi
und
ci [yi = 1|x′ ] = F (x′ β̂) = Pr
ci
Pr
i
i
berechnet werden. Da eine Bernoulli verteilte Variable mit Mittelwert Pr eine Varianz Pr(1 − Pr) hat können diese Residuen standardisiert werden
ci
yi − Pr
ε̂i = q
c i (1 − Pr
ci )
Pr
Wenn diese Residuen gegen die Beobachtungsnummer geplottet werden können eventuelle Ausreißer erkannt werden.
Für das OLS Modell garantieren die Bedingungen erster Ordnung, dass die geschätzten Residuen ε̂ orthogonal auf die x-Variablen stehen.
Aus den Bedingungen erster Ordnung für die ML-Schätzung kann man die generalisierten Residuen (‘generalized residuals’ ) herleiten
ε̂i =
yi − F (x′i β̂)
x′i β̂(1
−
x′i β̂)
f (x′i β̂)
Diese generalisierten Residuen können ebenfalls Hinweise auf Ausreißer geben, sind
aber nicht normalverteilt.
29
Empirische Wirtschaftsforschung
Ein spezielles Problem in binären Modellen stellt Heteroskedastizität dar. Man kann
einfach zeigen, dass die bedingte Varianz von Probit- oder Logitmodellen immer von
der erklärenden x Variablen abhängt, also heteroskedastisch ist, denn
var(yi |xi ) = F (x′i β)[1 − F (x′i β)]
Wenn wir hier von Heteroskedastizität sprechen, so beziehen wir uns auf die latente
Variabel yi∗ = x′i β + εi mit homoskedastischen Störtermen εi = σi2 (x).
Wenn die Störterme dieser Gleichung für die latente Variable heteroskdastisch sind,
sind die Koeffizientenschätzungen verzerrt und nicht länger konsistent.
Deshalb empfiehlt es sich darauf zu testen. Davidson and MacKinnon (2003, 464f)
schlagen einen Test vor, der die Nullhypothese einer konstanten Varianz gegen die
Alternativhypothese
var(εi ) = [exp(zi γ]2
testet, wobei zi ein 1 ×q Vektor mit Variablen ist, von denen die Heteroskedastizität
abhängt, und γ ein q × 1 Vektor mit unbekannten Parametern ist.
Nach Davidson and MacKinnon (2003) (vergleiche auch Greene (2002, 681f)) kann
ein (asymptotischer) Test auf Heteroskedastizität auf der Grundlage einer Hilfsregression durchgeführt werden, nämlich
q
ci
yi − Pr
ci (1 − Pr
ci )
Pr
=
k
X
h=1
q
X f (−x′ β̂)(x′ β̂))
f (−x′i β̂)
i
b
q
q i
xih βh +
zij aj
c i (1 − Pr
ci )
ci (1 − Pr
ci )
j=1
Pr
Pr
c die gefitteten Wahrscheinlichkeiten sind (also ŷ) und f eine geeignete
wobei Pr
Dichtefunktion ist.
Die erklärte Quadratsumme (d.h. die Quadratsumme der gefitteten Werte) ist asymptotisch χ2 verteilt mit q Freiheitsgraden (q ist die Anzahl der Variablen in z).
Das folgende Beispiel (aus den EViews ‘Example Files’, siehe EViews Hilfe) zeigt
die Durchführung des Test anhand eines Beispiels aus Greene.
’ Test for Heteroskedasticity for Probit Model
’ Example 21.3 (p. 675) of Greene, William H. (2003) Econometric Analysis,
’ 5th edition, Prentice-Hall.
’create workfile
wfcreate probit u 32
’read data from Greene
series gpa
series tuce
series psi
series grade
gpa.fill 2.66,2.89,3.28,2.92,4,2.86,2.76,2.87,3.03,3.92,2.63,3.32,3.57, _
3.26,3.53,2.74,2.75,2.83,3.12,3.16,2.06,3.62,2.89,3.51,3.54,2.83,3.39, _
2.67,3.65,4,3.1,2.39
tuce.fill 20,22,24,12,21,17,17,21,25,29,20,23,23,25,26,19,25,19,23, _
25,22,28,14,26,24,27,17,24,21,23,21,19
30
Empirische Wirtschaftsforschung
psi.fill 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1
grade.fill 0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,1,0,0,1,1,1,0,1,1,0,1
equation eq1.binary(d=n) grade c gpa tuce psi
eq1.makeresids(s) brmr_y
’ [s] -> standardized residuals
eq1.forecast p_hat ’ predicted probabilities
eq1.forecast(i) Xb
’ [i] -> forecast index
series fac=@dnorm(-xb)/@sqrt(p_hat*(1-p_hat))
group brmr_x fac (gpa*fac) (tuce*fac) (psi*fac)
equation eq2.ls brmr_y brmr_x (psi*(-xb)*fac)
eq2.forecast brmr_yf
scalar lm_test = @sumsq(brmr_yf)
’ lm_test = 1.548017
scalar p_val = 1-@cchisq(lm_test,1) ’ p_val = 0.213428
In diesem Fall muss die Nullhypothese konstanter Varianz nicht verworfen werden,
da eine LM-Statistik = 1.548017 mit einem p-Wert = 0.213428 berechnet wird.
Sollten in einem Modell Hinweise auf Heteroskedastizität gefunden werden kann
versucht werden ein Modell mit
εi ∼ N(0, σi2 )
mit
σi2 = [exp(zi γ]2
zu schätzen, aber dies geht über den Rahmen dieser Einführung hinaus.7
In Stata steht dafür der Befehl hetprob zur Verfügung.
Generell gelten alle Ergebnisse nur asymptotisch und man sollte deshalb mindestens
100 (oder besser 1000) Beobachtungen zur Verfügung haben.
Übungsbeispiel: Auf http://www.uibk.ac.at/ cb0189/data/cps88.zip finden Sie
einen Datensatz von Johnston/DiNardo über Union Participation (in Ascii, EViews
und Stata Format). Die Beschreibung und Definition der Variablen finden Sie in der
Readme-Datei.
1. Suchen Sie eine geeignete Spezifikation, um die Mitgliedschaft in den Gewerkschaften zu erklären.
2. Vergleichen Sie für diese Spezifikation die Schätzungen eines LPM, Probit- und
Logit Modells.
3. Berechnen Sie den ‘Bereich’ der gefitteten Wahrscheinlichkeiten für das Modell
und für mindestens zwei erklärende Variablen (entsprechend zu Tabelle 19.6
im Manuskript oder Table 3.4 in Long (1997, 66)). Führen Sie dies (und die
folgenden beiden Aufgaben) nur für das Probit oder Logit Modell durch.
7
Eine ausprogrammiertes Beispiel dazu findet man in den EViews ‘Example Files’ : Probit with
heteroskedasticity, HPROBIT.PRG, http://www.uibk.ac.at/econometrics/dl/logl.html.
Empirische Wirtschaftsforschung
31
4. Fertigen Sie eine Grafik für das Probit oder Logit Modell an, die die Wahrscheinlichkeit einer Mitgliedschaft in Abhängigkeit von einer intervallskalierten
Variable für zwei Gruppen (also die zwei Ausprägungen einer Dummy Variable) zeigt (wie z.B. Abb. 19.12 bzw. 19.13 im Manuskript; oder Figure 3.10
(3.11) in Long (1997, 67)).
5. Berechnen Sie für mindestens zwei Variablen die marginalen Effekte (sowohl
die durchschnittlichen als auch im Mittelwert; vgl. Tabelle 19.8 im Manuskript
oder Table 3.7 in Long (1997, 74)).
6. Berechnen Sie für mindestens eine Variable das Chancenverhältnis (odds ratio)
und interpretieren Sie dieses.
32
Empirische Wirtschaftsforschung
19.9
Das Ordinale Probit Modell (Ordered Probit
Model )
Ordinalen Daten begegnet man häufig in Fragebögen, wenn z.B. fünf Antwortmöglichkeiten zwischen ‘sehr gut’ und ‘sehr schlecht’ vorgegeben sind.
Am einfachsten ist das ordinale Probit Modell vermutlich wieder mit Hilfe latenter
Variablen zu verstehen. Wir stellen uns vor, dass die konkrete Ausprägung (z.B.
Antwort auf die Frage nach dem Ausmaß der Zustimmung 1 – 5) von einer unbeobachteten Variable y ∗ (z.B. einem Nutzenindex) abhängt. Welche Antwort von
den vorgegebenen Möglichkeiten gewählt wird hängt von Schwellenwerten ab. Aufgrund des ordinalen Charakters müssen die Abstände zwischen den Schwellenwerten
keineswegs gleich groß sein!
Angenommen das latente Modell erfülle alle Gauss-Markov Annahmen und die
Störterme seien normalverteilt (n.i.d., normally and independently distributed )
yi∗ = x′i β + εi ,
εi ∼ n.i.d.(0, 1)
Abbildung 19.14 zeigt die (unbeobachtbare!) latente Variable y ∗, die von einer Variable x (z.B. Alter) abhängt, und darunter die beobachtbare Variable y, die nur
diskrete Ausprägungen zwischen 1 und 5 zulässt.
Die der Grafik zugrunde liegenden Daten wurde mittels des folgenden EViewsProgramms erzeugt:
wfcreate(wf=ordered) u 50
rndseed 123
series trend = @trend
series ylat = -0.5 + 0.25*trend +
’ scat ylat @trend
series y = na
smpl @all if ylat > 10
y = 5
smpl @all if ylat > 8 and ylat <=
y = 4
smpl @all if ylat > 4 and ylat <=
y = 3
smpl @all if ylat > 1 and ylat <=
y = 2
smpl @all if ylat <= 1
y = 1
smpl @all
@rnorm
10
8
4
equation eq_ylat.ls ylat c trend
equation eq_y.ls y c trend
equation eq_ordered.ordered y c trend
Dieses Programm liefert unten stehenden Output. Die entsprechenden Regressionsgeraden für das latente und OLS-Modell sind auch in Abbildung 19.14 eingezeichnet.
33
Empirische Wirtschaftsforschung
b
b
yi∗
Latente Variable:
= −0.5 + 0.25xi + εi
y
b
b
b
b
b
10
τ4
b
b
b
b
b
b
b
8
b
b
b
b
b
b
b
b
b
τ3
b
b
b
b
6
b
b
b
b
4
b
τ2
b
b
b
b
b
b
2
b
b
b
b
τ1
b
b
b
b
b
b
0
b
b
0
4
8
12
16
20
24
28
32
36
40
44
x
48
Beobachtbare Variable:
y
10
8
6
b
4
b
b
2
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
0
0
4
8
12
16
20
24
28
32
36
40
44
48
x
Abbildung 19.14: Latente und beobachtete Variable in einem ordinalen Probit
Modell
Dependent Variable: YLAT
Method: Least Squares
Included observations: 50
Variable
C
TREND
Coefficient Std. Error
βb1 −0.246
0.296
βb2
0.245
0.010
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Durbin-Watson Stat.
0.920
0.919
1.063
54.198
2.178
t-Stat.
−0.831
23.549
Prob.
0.410
0.000
Log likelihood
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
-72.962
2.998
3.075
554.541
0.000
OLS-Schätzung mit der beobachtbaren ordinalen Variable:
34
Empirische Wirtschaftsforschung
Dependent Variable: Y
Method: Least Squares
Included observations: 50
Variable
C
TREND
Coefficient Std. Error
b
β1
0.951
0.131
b
β2
0.080
0.005
t-Stat.
7.267
17.295
Prob.
0.000
0.000
R-squared
0.862 Log likelihood
Adjusted R-squared
0.859 Akaike info criterion
S.E. of regression
0.469 Schwarz criterion
Sum squared resid
10.578 F-statistic
Durbin-Watson Stat. 1.780 Prob(F-statistic)
-32.116
1.365
1.441
299.134
0.000
Eine ‘naive’ OLS-Schätzung liefert offensichtlich ganz andere Ergebnisse und ist
keine gute Näherung für das ‘wahre’ latente Modell yi∗ = −0.5 + 0.25xi + εi . Die
Ergebnisse wären bestenfalls ähnlich, wenn die Abstände zwischen den Schwellenwerten gleich groß wären, aber dies ist keine typische Eigenschaft ordinaler Daten.
Darüber hinaus sind die Störterme einer einfachen OLS-Regression auf eine ordinale
Variable heteroskedastisch.
Wie wir gleich sehen werden kann dieses Modell mit Maximum Likelihood geschätzt
werden. Der EViews Output einer solchen Schätzung ist
Dependent Variable: Y
Method: ML - Ordered Probit (Quadratic hill climbing)
Included observations: 50
Number of ordered indicator values: 5
Convergence achieved after 7 iterations
Covariance matrix computed using second derivatives
Variable
TREND
LIMIT 2:
LIMIT 3:
LIMIT 4:
LIMIT 5:
Coefficient Std. Error
b
β2
0.260
0.049
c2
1.941
0.544
c3
4.555
0.934
c4
9.239
1.771
c5 11.198
2.124
Log likelihood
LR statistic (1 df)
Probability(LR stat)
LR index (Pseudo-R2)
19.9.1
z-Stat.
5.341
3.566
4.875
5.218
5.273
Prob.
0.000
0.001
0.000
0.000
0.000
-27.324 Restr. log likelihood
98.693 Akaike info criterion
0.000 Schwarz criterion
0.6436
-76.67033
1.293
1.484
Wahrscheinlichkeit der beobachtbaren Ausprägungen
Wir wollen im folgenden normalverteilte Störterme unterstellen, obwohl die Überlegungen analog auch für das Logit Modell gültg sind.
35
Empirische Wirtschaftsforschung
Einfachheitshalber beginnen wir mit nur drei mögliche Ausprägungen. Die Beziehung zwischen der beobachteten Variable yi und der latenten Variable yi∗ sei

∗

0 wenn yi < τ1 ,
yi = 1 wenn τ1 ≤ yi∗ < τ2 ,


2 wenn yi∗ ≥ τ2 .
wobei τj Schwellenwerte (thresholds oder cutoff points) sind, wobei τ2 > τ1 etc. gelte.
y∗
y=5
τ4
E(y ∗ | x)
y=4
τ3
y=3
τ2
y=2
τ1
x1
x2
x3
x
y=1
Abbildung 19.15: Eintrittswahrscheinlichkeiten im ordinalen Probit Modell für 4
Schwellenwerte
Die Wahrscheinlichkeit für yi = 1 ist
Pr(yi = 1| x′i ) = Pr(τ1 ≤ yi∗ < τ2 | x′i )
Einsetzen von y ∗ = x′i β + εi gibt
Pr(yi = 1| x′i ) = Pr(τ1 ≤ x′i β + εi < τ2 | x′i )
Subtraktion von x′i β in der Klammer
Pr(yi = 1| x′i ) = Pr(τ1 − x′i β ≤ εi < τ2 − x′i β| x′i )
Die Wahrscheinlichkeit, dass eine Zufallsvariable einen Wert zwischen diesen Schwellenwerten annimmt, ist gleich der Differenz der Werte der Verteilungsfunktion an
diesen beiden Stellen
Pr(yi = 1| x′i ) = Pr(εi < τ2 − x′i β) − Pr(εi ≤ τ1 − x′i β)
= F (τ2 − x′i β) − F (τ1 − x′i β)
Dies kann natürlich für yi = m, gegeben X, verallgemeinert werden:
Pr(yi = m| x′i ) = F (τm − x′i β) − F (τm−1 − x′i β)
36
Empirische Wirtschaftsforschung
Für das erste Intervall fällt der zweite Term der rechten Seite weg, da das erste
Intervall bei −∞ beginnt, also F (−∞ − x′i β) = 0. Das letzte Intervall M erstreckt
sich bis +∞, also gilt analog
Pr(yi = M| x′i ) = F (∞ − x′i β) −F (τM −1 − x′i β) = 1 − F (τM −1 − x′i β)
|
{z
}
1
Für z.B. vier beobachtete Ausprägungen erhält man analog
Pr(yi
Pr(yi
Pr(yi
Pr(yi
19.9.2
= 1| x′i )
= 2| x′i )
= 3| x′i )
= 4| x′i )
=
=
=
=
F (τ1 − x′i β)
F (τ2 − x′i β) − F (τ1 − x′i β)
F (τ3 − x′i β) − F (τ2 − x′i β)
1 − F (τ3 − x′i β)
Schätzung
Die Wahrscheinlichkeit irgendeinen Wert von y
ist


Pr(yi = 1| x′i , β, τ )



..



.
pi = Pr(yi = m| x′i , β, τ )


..


.



Pr(y = M| x′ , β, τ )
i
i
bei der i-ten ‘Ziehung’ zu erhalten
wenn y = 1,
..
.
wenn y = m,
..
.
wenn y = M.
Wenn die Beobachtungen unabhängig sind ist die Likelihood Funktion
L(β, τ | y, X) =
n
Y
pi
i=1
bzw. für die einzelnen Ausprägungen
L(β, τ | y, X) =
=
M Y
Y
Pr(yi = m| x′i , β, τ )
m=1 yi =m
M Y
Y
m=1 yi =m
F (τm − x′i β) − F (τm−1 − x′i β)
Q
wobei yi =m das Produkt aller Fälle bedeutet, in denen das beobachtete y den Wert
m hat.
Die Loglikelihood Funktion ist deshalb
ln L(β, τ | y, X) =
M X
X
m=1 yi =m
ln [F (τm − x′i β) − F (τm−1 − x′i β)]
Mit Hilfe numerischer Methoden können die Werte von β̂ und τ̂ gefunden werden,
die diese Funktion maximieren.
37
Empirische Wirtschaftsforschung
19.9.3
Identifikation
Da die latente Variable y ∗ per Definition unbeobachtbar ist können weder Varianz
noch Mittelwert von y ∗ geschätzt werden. Für die Varianz wird deshalb im LogitModell var(εi | X) = π 2 /3 und im Probit-Modell var(εi | X) = 1 angenommen. Aber
dies reicht im Ordered Probit Modell noch nicht aus um alle β und τ zu identifizieren.
Um dies zu zeigen wollen wir uns zur Vereinfachung auf das bivariate Modell y ∗ =
β1 + β2 x + u und ‘wahre’ Schwellenwerte τm beschränken, von denen wir annehmen,
dass sie die beobachteten Daten erzeugen. Wir definieren zwei alternative Parameter
β1+ = β1 − γ
und
+
τm
= τm − γ
wobei γ eine beliebige Konstante ist.
Man kann nun zeigen, dass die Wahrscheinlichkeit für y = m für die wahren und
alternativen Parameter gleich ist
Pr(y = m| x) = F (τm − β1 − β2 x) − F (τm−1 − β1 − β2 x)
= F ([τm − γ] − [β1 − γ] − β2 x) − F ([τm−1 − γ] − [β1 − γ] − β2 x)
+
+
= F (τm
− β1+ − β2 x) − F (τm−1
− β1+ − β2 x)
mit anderen Worten, die Daten enthalten nicht genügend Information um das Interzept β1 und alle Schwellenwerte zu schätzen, bzw., das Modell ist nicht identifiziert.
Zwei identifizierende Annahmen sind in der Literatur gebräuchlich:
• Annahme τ1 = 0
• Annahme β1 = 0
Welche dieser Möglichkeiten man wählt ist im Prinzip gleichgültig und beeinflusst
b die Eintrittswahrscheinlichkeiten oder die Sinicht die Schätzung der restlichen β,
gnifikanztests. EViews wählt z.B. automatisch β1 = 0.
Für eine Diskussion siehe z.B. http://www.stata.com/support/faqs/stat/ologit_con.html.
19.9.4
Interpretation
Für die Interpretation der geschätzten Koeffizienten gilt ähnliches wie für das Probit Modell. Ein Koeffizient kann unmittelbar als marginaler Effekt auf die latente
Variable y ∗ interpretiert werden, da
y ∗ = Xβ + ε mit
∂y ∗
= βh
∂xh
Da die latente Variable y ∗ häufig keine unmittelbare Interpretation hat, und deren
Varianz außerdem nicht beobachtbar ist, ist dies selten sehr hilfreich.
Aussagekräftiger sind häufig prognostizierte Wahrscheinlichkeiten
c i = m| x′ ) = F (τ̂m − x′ β̂) − F (τ̂m−1 − x′ β̂)
Pr(y
i
i
i
38
Empirische Wirtschaftsforschung
Von diesen können wieder Mittelwerte oder Extremwerte berechnet werden, sie
können über Bereiche von exogenen Variablen geplottet werden oder tabellarisch
dargestellt werden, wie wir es schon für das Logit Modell gezeigt haben (vgl. z.B.
Long, 1997, 127ff).
Ebenso können marginale Effekte der prognostizierten Wahrscheinlichkeiten berechnet werden
∂F (τm − x′i β) ∂F (τm−1 − x′i β)
∂ Pr(yi = m| X)
=
−
∂xh
∂xh
∂xh
′
= βh f (τm−1 − xi β)) − βh f (τm − x′i β)
= βh [f (τm−1 − x′i β)) − f (τm − x′i β)]
wobei f (·) wieder die Dichtefunktion bezeichnet.
Man beachte, dass das Vorzeichen des marginalen Effektes nicht gleich dem Vorzeichen von βh sein muss, da [f (τm−1 − Xβ)) − f (τm − Xβ)] positiv oder negativ sein
kann.
Da diese marginalen Effekte wieder von den X abhängen kann wieder der Durchschnitt der marginalen Effekte aller Beobachtungen (‘average’ )
Avg.
∂ Pr(yi = m| X)
∂xh
i
1X h
′
′
βh f (τm−1 − xi β̂) − f (τm − xi β̂)
=
n i=1
n
oder die marginalen Effekte in den Mittelwerten der x-Variablen (‘at mean’ ) berechnet werden
∂ Pr(y = m| x̄)
= βh [f (τm−1 − x̄′ β) − f (τm − x̄′ β)]
∂xh
Für Dummy Variablen sind natürlich wieder diskrete Änderungen heranzuziehen,
aber auch für andere Variablen kann dies manchmal anschaulicher sein.
Literaturverzeichnis
Ai, C. and Norton, E. C. (2003), ‘Interaction terms in logit and probit models’,
Economics Letters 80(1), 123 – 129.
URL:
http://www.sciencedirect.com/science/article/B6V84-48CFVPF1/2/bcb7f777a652c51e50ed120c730430b1
Davidson, R. and MacKinnon, J. G. (2003), Econometric Theory and Methods, Oxford University Press, USA.
Fair, R. C. (1978), ‘A theory of extramarital affairs’, The Journal of Political Economy 86(1), 45–61.
Greene, W. H. (2002), Econometric Analysis (5th Edition), 5th edn, Prentice Hall.
Kleiber, C. and Zeileis, A. (2008), Applied Econometrics with R (Use R!), 2008 edn,
Springer.
Empirische Wirtschaftsforschung
39
Long, J. S. (1997), Regression Models for Categorical and Limited Dependent Variables (Advanced Quantitative Techniques in the Social Sciences), 1 edn, Sage
Publications, Inc.
Maddala, G. S. and Lahiri, K. (2009), Introduction to Econometrics, 4 edn, Wiley.
Herunterladen