Logistische Regression für binäre Daten

Werbung
Logistische Regression für binäre Daten
Nina Haslinger
0906307
19. Juni 2011
1
Logit- und Probit-Modelle
Eine Motivation für Logit- und Probit-Modelle sind Regressionsprobleme, bei denen die abhängige
Variable Y binär oder dichotom ist, also nur die Werte 0 und 1 annehmen kann. Ein naiver
Ansatz für solche Probleme wäre, ein einfaches lineares Regressionsmodell zu verwenden und
µy.x = a + bx als Wahrscheinlichkeit zu interpretieren, dass Y den Wert 1 und nicht 0 annimmt,
wenn die unabhängige Variable den Wert x annimmt. Es ergeben sich aber mehrere Probleme für
das einfache lineare Modell:
2
für alle Werte von x gleich ist, ist nicht erfüllt: Wenn
• Die Annahme, dass die Varianz σy.x
für ein x µy.x = p ist, so haben die Y -Werte bei diesem x eine Varianz von p(1 − p).
• Die Annahme, dass die abhängige Variable Y bei allen Werten von x normalverteilt ist, ist
nicht erfüllt: Y ist bei jedem Wert von x eine diskrete Zufallsgröße und hat eine BernoulliVerteilung.
• Wenn man die fitted values“ µy.x als Wahrscheinlichkeiten interpretiert, würde ein einfaches
”
lineares Modell mit b 6= 0 Wahrscheinlichkeiten“ unter 0 und über 1 prognostizieren.
”
Eine Lösung für diese Probleme ist, den sogenannten linearen Prädiktor a + bx auf einen Wert
aus dem Intervall [0, 1] abzubilden. Man verallgemeinert das lineare Modell yi = a + bxi + ei also
zu
yi = F (a + bxi ) + ei
(1)
wobei F : R → [0, 1] eine streng monotone Funktion sein sollte.
Beim letzten Vorlesungstermin wurden bereits drei Spezialfälle dieses Modells besprochen:
• Das constrained linear-probability model (S. 39 im Skriptum). F ist hier die Verteilungsfunktion einer kontinuierlichen Gleichverteilung.
• Das Logit-Modell mit
1
.
(2)
1 + e−x
Die Funktion F ist hier die Verteilungsfunktion der sogenannten logistischen Verteilung.
F (x) =
• Das Probit-Modell, bei dem für F die Verteilungsfunktion einer Normalverteilung gewählt
wird.
Im Folgenden konzentrieren wir uns auf das Logit-Modell und definieren F (x) wie in (2).
Die Umkehrfunktion von F (x) = 1+e1−x ist der sogenannte Logit
F −1 (y) = ln
1
y
.
1−y
(3)
Wenn man y als Wahrscheinlichkeit für Y = 1 interpretiert, ist das der Logarithmus des Odds 1
dafür, dass Y den Wert 1 annimmt. Das Logit-Modell ist nicht linear in den unbekannten Parametern, es kann aber als lineares Modell für den Logit verstanden werden.
2
Verallgemeinerung auf multiple Regression
Das Logit-Modell lässt sich leicht auf k unabhängige Variablen verallgemeinern: Analog zum allgemeinen linearen Modell verwendet man dafür eine n × k + 1-Matrix


1 x11 · · · x1k

..
.. 
..
(4)
X =  ...
.
.
. 
1
···
xn1
xnk
wobei n die Anzahl der zur Schätzung des Modells verwendeten Beobachtungen und xij den Wert
der j-ten Variablen bei der i-ten Beobachtung bezeichnet. Dann kann man das Modell schreiben
als
1
(5)
pi = µy.xi =
1 + e−xi b
für 1 ≤ i ≤ n, wobei xi = (1, xi1 , ..., xik ) die i-te Zeile von X und b = (a, b1 , ..., bk )> der
Parametervektor ist, der aus den Daten geschätzt werden muss. Der lineare Prädiktor ist in diesem
Fall
k
X
xi b = a +
bj xij .
(6)
j=1
3
Parameterschätzung
Die Parameter a und bj für 1 ≤ j ≤ k kann man mit der Maximum-Likelihood-Methode schätzen.
Die Wahrscheinlichkeit, bei n Beobachtungen und gegebenem X die konkreten Werte yi , 1 ≤ i ≤ n
zu erhalten, ist
P (y1 , ..., yn |X) =
=
=
n
Y
i=1
n
Y
P (yi |X)
(7)
pyi i (1 − pi )1−yi
i=1
n Y
i=1
pi
1 − pi
yi
(1 − pi ).
Dabei entspricht pi der Wahrscheinlichkeit P (yi = 1|X). Unter Annahme eines Logit-Modells folgt
aus (5)
pi
= exi b
(8)
1 − pi
und
1 − pi =
1
.
1 + exi b
(9)
Wenn man (8) und (9) in (7) einsetzt und den so entstandenen Ausdruck als Funktion der Parameter a, b1 , ..., bk bei fixen Daten y1 , ..., yn versteht, erhält man die Likelihood-Funktion
L(b) =
n
Y
xi byi
e
i=1
1 Als
1
1 + exi b
.
Odds für ein Ereignis, das mit Wahrscheinlichkeit p eintritt, bezeichnet man den Quotienten
2
(10)
p
.
1−p
Durch Logarithmieren dieser Funktion, Differenzieren nach den einzelnen Komponenten von b
und Nullsetzen der partiellen Ableitungen ergibt sich ein System von Gleichungen
n
n X
X
1
x
=
yi xi
(11)
i
1 + e−xi b
i=1
i=1
n
X
pi xi =
i=1
n
X
yi xi
i=1
oder in Matrixschreibweise
X> p = X> y
(12)
mit p = (p1 , ..., pn ) und y = (y1 , ..., yn ).
Dieses Gleichungssystem ist das Pendant zu den Normalgleichungen X> Xβ = X> y, die bei der
Schätzung des allgemeinen linearen Modells auftreten. Allerdings sind die Gleichungen nun nicht
mehr linear in b und müssen daher numerisch gelöst werden. In R wird dafür die IRLS -Methode
(iteratively reweighted least squares) verwendet.
4
Tests und Konfidenzintervalle
Tests und Konfidenzintervalle für die geschätzten Parameter kommen aus der allgemeinen Theorie
der Maximum-Likelihood-Schätzung. Hypothesen der Form Ho : bj = βj , H1 : bj 6= βj für einen
einzelnen Parameter bj , wobei βj ein konkreter Schätzwert ist, können für große Stichproben mit
dem Wald-Test überprüft werden:
Ist θ ein unbekannter Parameter und θ̂ der Maximum-Likelihood-Schätzer von θ, dann konvergiert die Verteilung der Wald-Statistik
θ̂ − θ
,
(13)
σθ̂
wobei σθ̂ die Standardabweichung von θ̂ ist, für n → ∞ gegen die Standardnormalverteilung.
Daraus folgt, dass ein asymptotisches Konfidenzintervall für bj mit Konfidenzzahl α durch
[bˆj − n1−α/2 σbˆj , bˆj + n1−α/2 σbˆj ]
(14)
gegeben ist. Dabei ist bˆj der mit der Maximum-Likelihood-Methode bestimmte Schätzwert, n1−α/2
das 1 − α2 -Quantil der N(0, 1) und σbˆj die asymptotische Standardabweichung von bˆj (d. h. der
Grenzwert der Standardabweichung, wenn der Stichprobenumfang gegen unendlich geht). Diese
Standardabweichung kann durch die Wurzel aus dem j-ten Diagonalelement der asymptotischen
Kovarianzmatrix geschätzt werden, die bei der IRLS-Lösung des Gleichungssystems (12) als Ne”
benprodukt“ berechnet wird.
Eine naheliegende Fragestellung ist, ob mehrere Elemente von b gleichzeitig 0 sind (H0 :
b1 = ... = bq = 0 mit q ≤ k; H1 : mindestens ein Ungleichheitszeichen). Dafür ist ein LikelihoodQuotienten-Test sinnvoll. Solche Tests beruhen im Allgemeinen darauf, dass zwei Modelle geschätzt
werden: das vollständige Modell mit dem Parametervektor b1 und das Null-Modell, in dem nur die
Parameter bq+1 , ..., bk betrachtet und die Elemente b1 , ...bq auf 0 gesetzt werden. Die Teststatistik
ist dann
2(ln L1 − ln L0 ),
(15)
wobei L0 = L(bˆ0 ) und L1 = L(bˆ1 ) jeweils die Maxima der Likelihood-Funktion für die beiden
Modelle sind.
Da das Null-Modell ein Spezialfall des vollständigen Modells ist, gilt L1 ≥ L0 und ein Wert
L0
in der Nähe von 1 bedeutet, dass kein großer Unterschied zwischen den beiden
des Quotienten L
1
3
Modellen besteht, also dass man die Parameter b1 , ...bq vernachlässigen kann. Unter der Nullhypothese ist die Statistik (15) asymptotisch χ2q -verteilt. Die Nullhypothese wird also dann mit dem
Signifikanzniveau α verworfen, wenn der Wert der Teststatistik größer als das 1 − α-Quantil der
χ2q -Verteilung ist.
Für die logistische Regression sind verschiedene sogenannte Pseudo-Bestimmtheitsmaße als
Äquivalente zu R2 vorgeschlagen worden. Eines davon ist
R20 = 1 −
ln L1
ln L0
(16)
wobei L1 wie oben definiert ist und L0 das Maximum der Likelihood-Funktion für ein Modell mit
b1 = ... = bk = 0 ist.
4
Herunterladen