Binäre Auswahlmodelle (Logit, Probit, ...)

Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 2
Warum keine lineare Regression?
• Rein technisch ließe sich das Problem durch eine lineare Regression, d.h. eine OLSSchätzung von
yi = β0 + β1 xi,1 + . . . βK xi,K + εi
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
behandeln.
27. November 2014
In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren
wichtigste Vertreter das Logit- und das Probit-Modell sind. Außerhalb der Ökonometrie wird
fast immer das Logit-Modell verwendet. In der Ökonometrie spielt auch das Probit-Modell
eine wichtige Rolle.
Die binären Auswahlmodelle (Modelle mit einer dichotomen Struktur der erklärten Variable)
besitzen Verallgemeinerungen auf die Situation, dass die erklärte Variable eine kategoriale
Variable mit endlich vielen (statt zwei) Ausprägungen ist, z.B. ‘schlecht’, ‘mittel’, ‘gut’.
Dabei kann man unterscheiden zwischen ungeordneten und geordneten Kategorien. Auf die
Verallgemeinerung der binären zu multinomialen Auswahlmodellen (voraussichtlich nur auf
das ordered Logit-Modell) gehen wir im nächsten Kapitel ein.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
• Dagegen sprechen mindestens zwei Gründe:
1. Beim lin. Regr.Modell hätte β x die Interpretation einer Wkt., die zwischen 0 und 1
liegen sollte. Beachte dazu: Für eine binäre Variable y gilt P (y = 1 | x) = E[y | x]; unter der
Annahme E[y | x] = β x (Exogenitätsannahme!) wird das zu P (y = 1 | x) = β x.
Klar: Das
Lin. Regr.mod. führt zu unsinnigen Prognosen der Wkt, dass y = 1 bzw. 0 ist
2. Heteroskedastie-Problematik: Verteilung des Störterms ε gegeben x ist ebenfalls binär:
E[ε | x] = 0
P (ε = −β x | x) = P (y = 0 | x) = 1 − β x
⇒
P (ε = 1 − β x | x) = P (y = 1 | x) = β x
Var[ε | x] = (1 − β x) · β x
Zwar ist E[ε | x] = 0, aber die Varianz von ε hängt von x ab (Heteroskedastie).
Konsequenzen v. Heterosked. bei OLS: (a) fehlerhafte Inferenzen; (b) Eﬃzienzverlust.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Folie 1
Binäre Auswahlprobleme
• Wie bei der linearen Regression soll in diesem Kapitel das Problem betrachtet werden,
eine Variable y durch K Variablen x1, . . . , xK zu erklären mit der Einschränkung:
Die erklärte Variable y ist binär (dichotom, durch Dummy-Variable zu beschreiben).
Wir nehmen an, dass y 0/1-kodiert ist.
Die Bezeichnung Binäres Auswahlproblem“ ergibt sich daraus, dass y häuﬁg eine Aus”
wahl aus (Entscheidung zwischen) zwei Alternativen repräsentiert.
• Einige Beispiele aus der Mikroökonometrie:
– Verheiratete (Frauen): berufstätig (y = 1) oder nicht (y = 0);
– Arbeitnehmer: arbeitslos (y = 1) oder nicht (y = 0);
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 3
Einschränkung bei erklärter Variable
versus
Einschränkung bei erklärender Variable
• Es macht einen Unterschied, ob die erklärte Variable (y) oder eine erklärende Variable (x) einer Einschränkung unterliegt (wie die, dass sie eine binäre Variable ist).
• Generell: Bei Regressionsanalysen spielt die Verteilung der erklärenden Variablen eine
geringe Rolle (es ist lediglich günstiger, wenn die x-Variablen möglichst breit streuen –
man kann auch sagen: möglichst weit von einer kollinearen Situation bzw. singulären
Varianzmatrix entfernt sind).
• Dagegen: Einschränkungen an die Verteilung der erklärten Variable, wie im Fall einer
binären Variable, sind problematischer,
– Wähler (bei einer Volksabstimmung): Dafür (y = 1) oder dagegen (y = 0);
– Krankenversicherte: Gesetzlich (y = 0) oder privat versichert (y = 1);
– Unternehmen (in der EU): Credit Rating (von S&P, Moody’s ...) vorhanden oder nicht.
• Auch hier oft von Interesse:
– Eﬀekte erklärender Variablen x1, . . . , xK auf die ‘Wahl’ y = 0 oder y = 1
– und die Schätzung der Eﬀektstärke auf Basis einer Stichprobe (yi, xi)i=1,...,N .
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
schreibe im Folgenden: β xi
Dabei wird schlichtweg ignoriert, dass die erklärte Variable y eine binäre Variable ist.
• da sie Restriktionen an die Störterm-Verteilung implizieren, die man (sowohl aus Inferenzals auch aus Eﬃzienzgründen) in der Modellbildung berücksichtigen sollte.
• Analoge Anmerkungen gelten allgemein für den Fall kategorialer Variablen:
Solche
Einschränkungen an die erklärte Variable sollte man modellieren, nicht ignorieren
K.-H. Schild
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 4
Binäre Auswahlmodelle (Logit, Probit, ...)
Eine Klasse binärer Auswahlmodelle
Die Wkt., dass ein Individuum mit den im Vektor x zusammengefassten Merkmalen die
Wahl y = 1 statt y = 0 triﬀt, sei beschrieben durch
P (y = 1 | x) = F (β x)
Modell
F (s) = P (y = 1 | x)
Logit
Λ(s) = es/(1 + es)
s
Φ(s) = −∞ ϕ(t)dt
Probit
Linear
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Folie 5
0
1
n.a.
n.a.
−0.5772
π 2/6
F −1(p) = Φ−1(p)
−1
(p) = p (−0.5)
log − log(1 − p)
F
1
fLogit
fLinear
fProbit
fCLogLog
.6
0
x
0
FProbit
FCLogLog
2
4
-4
-2
0
x
2
4
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 7
Zusammenhang zwischen βj und marginalem Eﬀekt von xj
Die Modelle unterscheiden sich hinsichtlich der Wahl der Funktion F .
Die am häuﬁgsten verwendeten Modelle sind:
• das Logit-Modell, wo F (s) = Λ(s) die kumulative Vtlgsfunktion (c.d.f.) der logistischen
Verteilung ist:
es
Logit:
F (s) =
=: Λ(s)
1 + es
• und das Probit-Modell, bei dem F (s) = Φ(s) die kumulative Vtlgsfkt. der Standardnormalverteilung ist:
Probit: F (s) =
π 2/3
.2
-2
Logit und Probit als wichtigste Repräsentanten
0
.4
.6
.4
-4
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
FLogit
FLinear
0
• β der Vektor der Regressionskoeﬃzienten.
(Dieser ist auf Basis der vorliegenden Daten (y1, x1), . . . , (yN , xN ) zu schätzen.)
.2
• s = β x = β0 + β1 x1 + . . . + βK xK eine Art Index, der auf einer Skala von −∞ bis
+∞ misst, wie sehr das Individuum zur Entscheidung y = 1 neigt;
(s wird auch als linearer Prädiktor bezeichnet. Durch die Responsefkt. F wird der lineare Prädiktor in
eine Wkt. p = F (s) ∈ [0, 1] transformiert.)
Varianz
Graphen der Responsefktnen (links) u. der zugehörigen Dichten (rechts, Formeln → nä. Folie):
.8
als Linkfunktion; konkrete Beispiele für F siehe unten; die Modelle unterscheiden sich hinsichtlich der
Wahl von F )
Extremwert
Erw.Wert
.8
• F (s) eine gegebene Funktion, die das Argument s ∈ (−∞, +∞) monoton wachsend
in das Intervall [0, 1] abbildet (F wird auch als Responsefunktion bezeichnet, ihre Umkehrfkt. F −1
Link-Fkt. F −1(p) =
p Λ−1(p) = ln 1−p
F (s) = s (+0.5)
C(s) = 1 − exp − exp(s)
1
Dabei sei/ist:
Folie 6
Eigenschaften der am häuﬁgsten verwendeten Modelle
1 2
1
√ e− 2 t dt =: Φ(s)
2π
−∞
s
Die Regressionskoeﬃzienten βj eines binären Auswahlmodells sind zwar qualitativ (z.B.
in Bezug auf ihr Vorzeichen) leicht zu verstehen, ihre quantitative Interpretation ist allerdings nicht ganz einfach. Denn anders als bei der linearen Regression gibt das βj eines
binären Auswahlmodells nicht unmittelbar den Eﬀekt einer marginalen Erhöhung von xj
auf P (y = 1) wieder: Als Proportionalitätsfaktor zwischen den beiden tritt der Wert der
Dichte f (s) = F (s) im jeweiligen s = β x auf:
∂P (y = 1 | x)
Marginaler Eﬀekt von
= f (s) · βj ,
: =
xj auf P (y = 1 | x)
∂xj
Modell
F (s) = P (y = 1 | x)
Logit
Λ(s) = es/(1 + es)
s
Φ(s) = −∞ ϕ(t)dt
Probit
f (s) = F (s), s = β x
Dichte f (s) = F (s)
λ(s) = Λ(s) 1 − Λ(s)
ϕ(s) =
√1
2π
1 2
e− 2 s
∂p
Marginaler Eﬀekt ∂x
j
Λ(s) 1 − Λ(s) · βj
ϕ(s) · βj
F (s) = s (+0.5)
f (s) = 1
βj
Extremwert C(s) = 1 − exp − exp(s) c(s) = 1 − C(s) exp(s) 1 − C(s) exp(s) · βj
Linear
• Gelegentlich werden auch andere Funktionen F (s) verwendet, wie die komplementäre
log-log-Verteilungsfunktion, die in Verbindung mit einer Extremwertverteilung steht.
(Anders als die beiden zuvor genannten ist diese nicht symmetrisch um s = 0.)
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Auf den folgenden Folien: Alternative Interpretationen der βj speziell für das Logit-Modell
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 8
Logit: βj gibt den marginalen Eﬀekt von xj auf die log-odds an
Binäre Auswahlmodelle lassen sich als lineare Regressionsmodelle für eine latente (d.h. die
Entscheidung diskriminierende, aber unbeobachtete) Variable interpretieren:
F −1(p) = β x
Dabei stellt der Quotient
p
1−p
=
(∗)
Es wird genau dann die Entscheidung ‘y = 1’ statt ‘y = 0’ getroﬀen werden, wenn der
Nutzen aus der Wahl y = 1 denjenigen aus der Wahl y = 0 überschreitet.
Schreiben wir y ∗ für die Nutzendiﬀerenz, so ist also
P (y=1 | x)
P (y=0 | x)
1 falls y ∗ > 0
y =
0 falls y ∗ ≤ 0
die odds (Chancen) für die Auswahl ‘y = 1’ in der Subpopulation mit den Kovariaten x dar.
Die odds eines Ereignisses geben an, in welchem Verhältnis die Wkt. p für den Eintritt des Ereignisses zur
Wkt. 1 − p für den Nichteintritt des Ereignisses steht. Sie stellen die Chancen für den Eintritt des Ereignisses
auf einer Skala 0 bis ∞ dar (statt auf der Skala von 0 bis 1, wie sie für Wkten. p benutzt wird).
Die Beziehung (*) zeigt nun: Das Logit-Modell kann man als lineares Regressionsmodell
für den natürl. Logarithmus der odds für die Wahl ‘y = 1’ auf die Variablen in x lesen.
Beispiel: βj = 0.05: Eine Erhöhung von xj um eine Einheit bewirkt eine Vergrößerung der
odds für ‘y = 1’ um 5% (näherungsweise c.p.). Liegen die odds einer Subpopulation bei 3, besteht
dort eine dreimal so hohe Wkt. für y = 1 wie für y = 0 (entspricht P (y = 1|x) = 34 ). Bei βj = 0.05
bewirkt eine Erhöhung von xj um eine Einheit in dieser Subpopul. eine Zunahme der odds auf 1.05*3 = 3.15.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 9
βj
Logit: Interpretation von e
Wir nehmen nun an, dass die latente Variable y ∗ durch ein lineares Regressionsmodell
beschrieben werden kann:
y ∗ = β x + ε
wobei die Verteilung des (negativen) Fehlerterms −ε durch die kumulierte Verteilungsfkt.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 11
P (y = 1) = P (y ∗ > 0) = P (β x + ε > 0) = P (−ε < β x) = F (β x)
und wir erhalten:
Bildet man exp auf beiden Seiten, schreibt sich die Formel als
= eβ x
Für zwei Subpopulationen mit den Kovariaten x und x̃ folgt für das Verhältnis ihrer odds:
P (y=1 | x)
P (y=1 | x̃)
β (x−x̃)
P (y=0 | x)
P (y=0 | x̃) = e
Wenn x̃ sich nur in xj von x unterscheidet, und zwar um 1, entsteht rechts eβj . Links steht
dann der Quotient der odds, der sich bei einer c.p.-Erhöhung von xj um eine Einheit ergibt. Diese Größe wird als odds-ratio (infolge einer marginalen Änderung von xj ) bezeichnet:
Im Logit-Modell: eβj = odds-ratio, die sich bei Erhöhung von xj um eine Einheit ergibt
Zusammengefasst: Beim Logit-Modell gibt βj also den marginalen Eﬀekt von xj auf die log-odds wieder
und eβj stellt eine odds-ratio dar. Beides gilt allerdings nur beim Logit-Modell (und z.B. nicht bei Probit).
Die gute Interpretierbarkeit der Regr.Koeﬃzienten ist einer der Gründe für die Popularität des Logit-Modells.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Da die Nutzendiﬀerenz y ∗, anders als die aus ihr resultierende Entscheidung y, unbeobachtet
ist, spricht man von y ∗ als einer latenten Variable.
(c.d.f.) F beschrieben sei, d.h. P (−ε < s) = F (s). Dann ist
als odds-ratio
Wir bleiben beim Logit-Modell und betrachten noch einmal die Formel (*):
(y=1 | x) log P
P (y=0 | x) = β x
P (y=1 | x)
P (y=0 | x)
Folie 10
Latente-Variablen-Interpretation binärer Auswahlmodelle
Allgemein lässt sich die deﬁnierende Beziehung P (y = 1 | x) = F (β x) umformen zu:
für p = P (y = 1 | x)
p es
) wird das zu:
Speziell beim Logit-Modell (F (s) = 1+es , F −1(p) = log 1−p
p = β x für p = P (y = 1 | x)
log 1−p
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Dasjenige Regressionsmodell für die latente Variable y ∗, dessen (negativer) Fehlerterm
gemäß der c.d.f. F verteilt ist, entspricht demjenigen binären Auswahlmodell für y,
das die Funktion F als Response-Funktion verwendet.
[Responsefkt.:Transform. der Werte s = β x in Wkten p = F (s). c.d.f. von X : F (s) = P (X < s)]
Wenn umgekehrt im binären Auswahlmodell die Response-Funktion F eine c.d.f. ist, dann
lässt sich das binäre Auswahlmodell als lineares Regressionsmodell für eine latente Variable
y ∗ interpretieren, dessen negativer Fehlerterm gemäß der c.d.f. F verteilt ist. Die latente
Variable lässt sich dabei als Nutzendiﬀerenz interpretieren, deren Vorzeichen sich in der
Entscheidung ‘y = 0’ bzw. ‘y = 1’ manifestiert.
Das Probit-Modell lässt sich mithin als ein lineares Regressionsmodell für eine latente
Variable y ∗ mit normalverteiltem Fehlertermen ε interpretieren.
Beim Logit-Modell hat man anstatt der Normalverteilung die logistische Verteilung.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 12
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 14
Schätzung binärer Auswahlmodelle (mit Max. Likelihood)
Herleitung der Formel für die Likelihood
Abgesehen vom linearen Modell werden binäre Auswahlmodelle fast immer mit Maximum
Likelihood geschätzt. Für eine Maximum-Likelihood-Schätzung benötigt man:
1. Aufstellen der individuellen Likelihood (als Funktion der Parameter β mit den Daten (xi, yi) der i-ten
Beobachtung als Parametern). Hier:
F (β xi)
P (yi = 1 | xi; β) f. yi = 1
f. yi = 1
=
Li(β) =
P (yi = 0 | xi; β) f. yi = 0
1 − F (β xi) f. yi = 0
y 1−yi
=
F (β xi) i · 1 − F (β xi)
• beobachtete Daten (in Form einer Stichprobe)
Hier: (x1, y1), . . . , (xN , yN )
• Parameter, deren Wert man schätzen möchte;
Hier: Die Regressionskoeﬃzienten β
2. Aufstellen der Gesamt-Likelihood“, hier:
”
N
N y 1−yi
L(β) =
Li(β) =
F (β xi) i · 1 − F (β xi)
• ein Modell, das die Parameter und die beobachteten Daten in Beziehung setzt;
Hier: Das binäre Auswahlmodell P (yi = 1 | xi) = F (β xi).
Anmerkung: Das Modell selbst wird bei der ML-Schätzung nicht in Frage gestellt; das Ziel ist die
Schätzung der Parameter, unter der Annahme, dass das Modell korrekt speziﬁziert ist.
Bei der Maximum-Likelihood-Methode schätzt man die Parameter β des Modells so, dass
die Wkt, gerade die beobachteten Daten (x1, y1), . . . , (xN , yN ) zu erhalten, maximal wird.
i=1
3. und Übergang zur Log-Likelikhood, hier (mit Anwendung der Logarithmus-Gesetze):
logL(β) = log L(β)
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 13
Log-Likelihood Funktion des binären Auswahlmodells
N
i=1
N 1 − yi log 1 − F (β xi)
yi log F (β xi) +
i=1
Anmerkungen:
• Da yi nur die Werte 0 oder 1 annehmen kann, läuft die erste Summe über diejenigen
Individuen i, die yi = 1 wählen, die zweite Summe über diejenigen i, die yi = 0 wählen.
• Ein großer Wert der logL wird dann erreicht, wenn
– die Individuen i mit yi = 1 im Schnitt auch hohe Wkten. F (β xi) = P (yi = 1 | β, xi)
für die Wahl yi = 1 aufweisen und
– die Individuen i mit yi = 0 im Schnitt auch hohe Wahrscheinlichkeiten
1 − F (β xi) = P (yi = 0 | β, xi) für ihre Wahl yi = 0.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
N
i=1
N
i=1
log
F (β xi)
yi 1−yi · 1 − F (β xi)
N yi log F (β xi) +
1 − yi log 1 − F (β xi)
i=1
Da yi nur den Wert 0 oder 1 annehmen kann, entsteht die logL hier, indem man die logarithmierten
F -Werte derjenigen Individuen i, die yi = 1 gewählt haben, summiert und dazu die Summe der
logarithmierten komplementären F -Werte derjenigen Individuen i mit yi = 0 addiert.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 15
Globale Konkavität der log-Likelihood
Auch wenn dies für die software-gestützte Anwendung nicht relevant ist, soll die log-Likelihood des binären
Auswahlmodells mit der Responsefunktion F hier angegeben werden. Sie ergibt sich als:
logL(β) =
=
=
Dazu ist die Likelihood-Funktion L(x1,y1),...,(xN ,yN )(β) zu ermitteln.
Die Likelihood-Fkt. muss die Wkt., die beobachteten Daten (x1, y1), . . . (xN , yN ) zu erhalten, in
Abhängigkeit vom Parametervektor β wiedergeben. Anstatt der Likelihood-Fkt. wird fast durchgängig deren
Logarithmus, die sog. log-Likelihood logL(β ), betrachtet.
i=1
K.-H. Schild
(Konvergenz des Newton-Verfahrens gegen globales Maximum)
Man kann zeigen, dass die log-Likelihood eines Logit- oder Probit-Modells eine global
konkave Funktion in β darstellt (d.h. in allen β eine negativ-deﬁnite Hesse-Matrix aufweist).
Konsequenzen:
1. Sofern überhaupt ein Extremum existiert: Die logL-Fkt. hat eine globale Maximalstelle β̂, für
die die Bed. 1. Ordn. (∂logL/∂βj = 0) sowohl notwendig als auch hinreichend ist.
Ohne globale Konkavität ist die Bed. erster Ordnung i.d.R. nur eine notwendige Bedingung, d.h. man erhält damit lediglich Kandidaten für eine Extremstelle, die auch
Minimalstellen, Sattelpunkte oder nur lokale Extremstellen sein können.
2. Eine softwaregestützte Durchführung der ML-Schätzung wird i.d.R. versuchen, die Bedingung erster Ordnung numerisch zu lösen. Da die Bedingung erster Ordn. ein i.d.R.
nicht-lineares Gleichungssystem von K Gleichungen in den K Unbekannten β1, . . . βK
darstellt, kommen dazu iterative Verfahren, wie das Newton-Verfahren, zum Einsatz.
Ohne globale Konkavität oder Konvexität ist der automatisierte Einsatz iterativer Verfahren oft recht problematisch, da nicht sichergestellt ist, dass das iterative Verfahren
überhaupt konvergiert und, sofern ja, ob es gegen das (globale) Maximum konvergiert
(siehe Punkt 1.). Mit globaler Konkavität ist beispielsweise für das Newton-Verfahren
sichergestellt, dass es – für jeden Startvektor – gegen das globale Maximum konvergiert.
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 16
Binäre Auswahlmodelle (Logit, Probit, ...)
Binäre Regressionen in Stata
Folie 18
RATING.DTA: Summary statistics
Der Befehl zur ML-Schätzung eines Logit- bzw. Probit- bzw kompl.-Log-Log-Modells lautet
logit bzw. probit bzw. cloglog. Befehl logistic statt logit gibt odd-ratios eβ̂ statt β̂ aus.
Die Syntax ist ansonsten analog zum regress-Befehl, z.B. wird durch logit y x1 x2
eine logistische Regression von y auf x1, x2 (und Konstante) durchgeführt
Führt man in Stata eine binäre Regression mit einer nicht-binären erklärten Variable y
durch, so werden nicht-positive Werte von y als 0, positive Werte als 1 interpretiert.
In der Ausgabe wird zunächst der Fortschritt des numerischen Iterationsverfahrens bei der
Maximierung der Log-Likelihood gelistet.
Grundsätzlich sollte man den Ergebnissen eines iterativen numerischen Verfahrens kritisch gegenüberstehen
(Konvergiert die Iteration überhaupt? Wenn ja, ist ein globales Extremum der Likelihood gefunden worden?
Ist es ein Max.?) Wie oben erläutert, ist das bei binären Auswahlmodellen nicht sehr problematisch, da –
theoretisch – das iterative Verfahren nur dann versagt, wenn gar kein (endliches) Max. der Likelihood existiert.
Dann wird das Ergebnis des (asymptotischen) LR-Tests auf Exkludierbarkeit aller Variablen
außer der Konstanten (H0 : β1 = 0, . . . , βK = 0) ausgegeben sowie ein Pseudo-R2 (s.u.).
Schließlich folgt ein Tableau mit den geschätzten Regr.Koeﬃzienten β̂j , ihren (asymptotiˆ β̂j ) und den p-Werten.
ˆ β̂j ), der t-Statistik β̂j /se(
schen) Std.Fehlern se(
. sum booklev marklev ebit_ta re_ta wk_ta logsales rating invgrade
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------booklev |
921
.2931868
.1735339
0
.9992067
marklev |
921
.2547287
.1879701
0
.9648595
ebit_ta |
921
.0938921
.0843643 -.3841692
.6515085
re_ta |
921
.1569942
.300684 -.9958922
.9799219
wk_ta |
921
.1404142
.1503398 -.4120839
.7480223
-------------+-------------------------------------------------------logsales |
921
7.995754
1.497413
1.100278
12.70142
rating |
921
3.499457
1.134561
1
7
invgrade |
921
.4723127
.4995041
0
1
Also für ein durchschnittliches Unternehmen:
• Fremdkapitalquote (Buch): 30%
• Fremdkapitalquote (Markt): 25%
• Gewinn pro Jahr ist knapp 10% des (buchmäßigen) Unternehmenswerts
Ein Euro buchmäßiges Betriebskapital“ erwirtschaftet jedes Jahr 10 Cent Gewinn (Rendite, Dividende, ...)
”
Die t-Statistik wird hier als z -Statistik bezeichnet, da die kritischen Werte bzw. die p-Werte aus einer
Normalvtlg. (und nicht: einer t-Vtlg.) genommen werden.
• 14% des Unternehmenswerts (= Wert des Kapitals im UN) stecken im Umlaufvermögen
• 47% der Unternehmen des Samples haben ein Investment Grade“
”
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 17
Binäre Auswahlmodelle (Logit, Probit, ...)
Beispiel RATING.DTA: Datenbeschreibung
K.-H. Schild
Folie 19
RATING.DTA: Logit
• Datei RATING.DTA enthält Daten von 921 US-amerik. Unternehmen im Jahr 2005,
• rating: alle UN des Samples haben ein Credit Rating“ (von S & P)
”
Variable enthält das Rating von S&P auf einer Skala von 0 =
ˆ D(efault) bis 7 =
ˆ AAA.
. logit invgrade $xlist
Iteration 0:
log likelihood
Iteration 1:
log likelihood
Iteration 2:
log likelihood
Iteration 3:
log likelihood
Iteration 4:
log likelihood
=
=
=
=
=
-636.97578
-347.34337
-341.11626
-341.07759
-341.07758
• Daraus wurde mit gen invgrade = rating > 3 die 0/1-Variable invgrade generiert.
Klasse Nr. 3 entspricht BB”, alle UN mit BBB, A , AA oder AAA-rating gelten als ’‘Investment Grade’,
”
solche darunter, d.h. BB, B, C, D als ‘Speculative Grade’
• Außerdem sind in der Datei Buch(d.h. Bilanz)- und Marktdaten der UNen enthalten, wie
– booklev = book leverage = buchmäßige Fremdkapitalquote (Anteil an Bilanzsumme)
= Verschuldungsgrad = Fremdkapital/Bilanzsumme (debt/total assets),
– marklev = dasselbe mit Werten für UN u. FK vom Kapitalmarkt statt aus der Bilanz
– ebit ta = Earnings before income and tax / total assets (Gewinn/Bilanzsumme)
– re ta = Retained earnings / total assets (Gewinnausschüttung(?)/Bilanzsumme)
– wk ta = Working capital / total assets (Umlaufvermögen / Bilanzsumme)
– logsales = Log. der Umsätze (misst UN-Größe – Bilanzsumme nicht verfügbar)
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Logistic regression
Number of obs
=
921
LR chi2(5)
=
591.80
Prob > chi2
=
0.0000
Log likelihood = -341.07758
Pseudo R2
=
0.4645
-----------------------------------------------------------------------------invgrade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------booklev | -4.427266
.7714185
-5.74
0.000
-5.939218
-2.915313
ebit_ta |
4.354735
1.439922
3.02
0.002
1.532539
7.176931
re_ta |
4.116108
.4885083
8.43
0.000
3.158649
5.073566
wk_ta | -4.012492
.7479141
-5.36
0.000
-5.478377
-2.546607
logsales |
1.081593
.0956839
11.30
0.000
.8940558
1.26913
_cons | -8.214321
.8668543
-9.48
0.000
-9.913324
-6.515317
-----------------------------------------------------------------------------Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 20
Binäre Auswahlmodelle (Logit, Probit, ...)
RATING.DTA: Zum Vgl: Linear (OLS)
RATING.DTA mit Logit: β̂ über log-odds interpretieren
Ergebnis der Logit-Schätzung war:
. regress invgrade $xlist
invgrade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------booklev | -4.427266
.7714185
-5.74
0.000
-5.939218
-2.915313
ebit_ta |
4.354735
1.439922
3.02
0.002
1.532539
7.176931
re_ta |
4.116108
.4885083
8.43
0.000
3.158649
5.073566
wk_ta | -4.012492
.7479141
-5.36
0.000
-5.478377
-2.546607
logsales |
1.081593
.0956839
11.30
0.000
.8940558
1.26913
_cons | -8.214321
.8668543
-9.48
0.000
-9.913324
-6.515317
Aufgabe: Sämtliche β̂ über log-odds interpretieren.
Formel war: log
Beispiel:
Source |
SS
df
MS
-------------+-----------------------------Model |
103.21462
5 20.6429241
Residual | 126.329354
915 .138064867
-------------+-----------------------------Total | 229.543974
920
.24950432
odds f. ‘y = 1’
P (y=1
| x)
P (y=0 | x)
= β x
β̂booklev = −4.4: Wenn der Verschuldungsgrad um (seine Einheit, also) 100% steigt, sinken
die Odds für die Klassiﬁkation ‘investment grade’ (statt ‘speculative grade’) um 440% (um
4.4 × Einheit odds, das sind 100%).
Mit jedem Prozent Verschuldungsgrad mehr also 4.4% weniger Chancen“ (im Sinne von
”
odds), ein InvestmentGrade-Rating zu erhalten (oder: 4.4% mehr Risiko, gemessen in odds, für ein
’speculative Grade’-Rating. Z.B.: Bei UNen mit odds von 0.5 – halb so große P(InvGrade) wie P(SpecGrade)–
führt ein Prozent mehr Leverage zu odds von (1 - 0.044)*0.5 = 0.478, bei odds von 2 zu (1-0.044)*2 = 1.912)
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 21
=
=
=
=
=
=
=
=
=
=
=
921
149.52
0.0000
0.4497
0.4466
.37157
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 23
RATING.DTA: CLogLog
. cloglog
Iteration
Iteration
Iteration
Iteration
Iteration
-636.97578
-345.74046
-342.76979
-342.7586
-342.75859
invgrade
0:
log
1:
log
2:
log
3:
log
4:
log
$xlist
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
-457.98395
-342.35019
-339.74036
-339.73126
-339.73126
Complementary log-log regression
Number of obs
=
921
Zero outcomes
=
486
Nonzero outcomes =
435
LR chi2(5)
=
594.49
Log likelihood = -339.73126
Prob > chi2
=
0.0000
-----------------------------------------------------------------------------invgrade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------booklev | -2.882513
.5292876
-5.45
0.000
-3.919898
-1.845129
ebit_ta |
3.020533
.8366154
3.61
0.000
1.380797
4.66027
re_ta |
3.060518
.3406317
8.98
0.000
2.392892
3.728144
wk_ta | -2.936858
.496712
-5.91
0.000
-3.910395
-1.96332
logsales |
.6830403
.0559354
12.21
0.000
.5734089
.7926716
_cons | -5.742326
.5557671
-10.33
0.000
-6.831609
-4.653042
Probit regression
Number of obs
=
921
LR chi2(5)
=
588.43
Prob > chi2
=
0.0000
Log likelihood = -342.75859
Pseudo R2
=
0.4619
-----------------------------------------------------------------------------invgrade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------booklev |
-2.55615
.4334149
-5.90
0.000
-3.405628
-1.706672
ebit_ta |
2.109837
.7610309
2.77
0.006
.6182443
3.601431
re_ta |
2.380991
.2672343
8.91
0.000
1.857222
2.904761
wk_ta | -2.198055
.4170333
-5.27
0.000
-3.015426
-1.380685
logsales |
.6002705
.0503303
11.93
0.000
.5016248
.6989161
_cons | -4.510692
.4657989
-9.68
0.000
-5.423641
-3.597743
-----------------------------------------------------------------------------Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Number of obs
F( 5,
915)
Prob > F
R-squared
Adj R-squared
Root MSE
-----------------------------------------------------------------------------invgrade |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------booklev | -.4465031
.0867871
-5.14
0.000
-.6168279
-.2761783
ebit_ta |
.3986857
.1666036
2.39
0.017
.0717162
.7256552
re_ta |
.4348789
.0500627
8.69
0.000
.3366279
.53313
wk_ta | -.4132102
.0891478
-4.64
0.000
-.5881681
-.2382522
logsales |
.1331835
.0094693
14.06
0.000
.1145994
.1517677
_cons | -.5093676
.0927605
-5.49
0.000
-.6914157
-.3273195
------------------------------------------------------------------------------
RATING.DTA: Probit
. probit invgrade $xlist
Iteration 0:
log likelihood
Iteration 1:
log likelihood
Iteration 2:
log likelihood
Iteration 3:
log likelihood
Iteration 4:
log likelihood
Folie 22
K.-H. Schild
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 24
Stata Do-File zum Vgl. der Ergebnisse
Binäre Auswahlmodelle (Logit, Probit, ...)
Laut Amemiya:
use rating.dta, clear
global xlist booklev ebit_ta re_ta wk_ta logsales
* lineare Regression
regress invgrade $xlist
estimates store RLinear
* Logit
logit invgrade $xlist
estimates store RLogit
* Probit
probit invgrade $xlist
estimates store RProbit
* kompl. Log-Log
cloglog invgrade $xlist
estimates store RCloglog
β̂Logit ≈ 4 β̂OLS
β̂P robit ≈ 2.5 β̂OLS
β̂Logit ≈ 1.6 β̂P robit
Relationen zum lin. Modell hier nicht sehr gut erfüllt, eher
β̂Logit ≈ 10 β̂OLS
β̂P robit ≈ 7 β̂OLS
β̂Logit ≈ 1.6 β̂P robit
Anmerkung KHS: Die Relationen müssten denen der Standardabweichungen der zugrundeliegenden Verteilung entsprechen (siehe Tabelle vorne). D.h. es müsste gelten:
estimates table RLinear RLogit RProbit RCloglog, b(%8.3f) se stats(N r2 r2_p ll) eq(1)
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Binäre Auswahlmodelle (Logit, Probit, ...)
K.-H. Schild
Folie 25
β̂Logit
≈
β̂cLogLog
≈
β̂cLogLog
≈
π
√
3
π
√
6
√1
2
β̂P robit = 1.81 β̂P robit
β̂P robit = 1.28 β̂P robit
β̂Logit = 0.71 β̂Logit
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
K.-H. Schild
Binäre Auswahlmodelle (Logit, Probit, ...)
Folie 27
2
Vgl. der Ergebnisse
Goodness-of-Fit (Pseudo-R
)
Ziel: Man möchte auf einer Skala von 0 bis 1 angeben, wie gut die β̂ xi die yi approximieren. In linearen
Regr.modellen hat man dazu das R2, das angibt wieviel der Varianz in y durch den Modell-Fit ŷ erklärt wird.
Da bei binären Auswahlmodellen die Varianzzerlegung nicht gilt, existiert dort kein direktes Analogon dazu.
Man spricht bei den folgenden Größen von einem Pseudo- oder Quasi-R2:
Da LogL0 < LogL1 < 0, R2
1
gilt 0 < R2 < 1
1
2
Rpseudo
= 1−
Pseudo R2
1 + 2(logL − logL )/N
-----------------------------------------------------Variable | RLinear
RLogit
RProbit
RCloglog
-------------+---------------------------------------booklev | -0.447
-4.427
-2.556
-2.883
|
0.087
0.771
0.433
0.529
ebit_ta |
0.399
4.355
2.110
3.021
|
0.167
1.440
0.761
0.837
re_ta |
0.435
4.116
2.381
3.061
|
0.050
0.489
0.267
0.341
wk_ta | -0.413
-4.012
-2.198
-2.937
|
0.089
0.748
0.417
0.497
logsales |
0.133
1.082
0.600
0.683
|
0.009
0.096
0.050
0.056
_cons | -0.509
-8.214
-4.511
-5.742
|
0.093
0.867
0.466
0.556
-------------+---------------------------------------N |
921
921
921
921
r2/r2_p |
0.450
0.465
0.462
ll |-392.028 -341.078
-342.759
-339.731
-----------------------------------------------------legend: b/se
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
Folie 26
Annähernd feste Relationen in den Schätzungen der versch. Modelle
1
2
RM
cF adden
0
logL1
= 1−
logL0
McFadden R2
LogL0
Dabei ist jeweils
0
0 LogL1
• logL1 die Log-Likelihood des vollständigen Modells (in der ML-Schätzung β̂) und
• logL0 die Log-Likelihood des Modells nur mit Konstante (so dass logL0 ≤ logL1 ≤ 0).
Letztere lässt sich theoretisch (auch ohne Durchführung der numerischen Maximierung) wie folgt ermitteln:
Es ist klar (bzw. man kann leicht zeigen), dass die ML-Schätzung des Modells nur mit Konstante“ die
”
Wkt. p = P (y = 1 | x) = P (y = 1) auf den Anteil der Individuen, die y = 1 wählen, schätzt:
p̂ = N1/N . D.h. der (einzige) unbekannte Koeﬃzient β0 wird so geschätzt, dass F (β̂0) = F (ŝ) =
P (y
= 1) = p̂ = N1/N . Mit der allgemeinen Formel für die Log-Likelihood ergibt sich (unabh. von F ):
logL0 = N1 log(N1/N ) + N0 log(N0/N ),
K.-H. Schild
Abt. Statistik, Fb. Wirtschaftswissenschaften, Philipps-Universität Marburg
N0 = N − N1
K.-H. Schild

Zugehörige Unterlagen

Anderungsraten

2. Übung

Binäre Auswahlmodelle (Logit, Probit, ...)

Zugehörige Unterlagen

Produkte

Unterstützung

Binäre Auswahlmodelle (Logit, Probit, ...)

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können