Logistische Regression für binäre Daten Nina Haslinger 0906307 19. Juni 2011 1 Logit- und Probit-Modelle Eine Motivation für Logit- und Probit-Modelle sind Regressionsprobleme, bei denen die abhängige Variable Y binär oder dichotom ist, also nur die Werte 0 und 1 annehmen kann. Ein naiver Ansatz für solche Probleme wäre, ein einfaches lineares Regressionsmodell zu verwenden und µy.x = a + bx als Wahrscheinlichkeit zu interpretieren, dass Y den Wert 1 und nicht 0 annimmt, wenn die unabhängige Variable den Wert x annimmt. Es ergeben sich aber mehrere Probleme für das einfache lineare Modell: 2 für alle Werte von x gleich ist, ist nicht erfüllt: Wenn • Die Annahme, dass die Varianz σy.x für ein x µy.x = p ist, so haben die Y -Werte bei diesem x eine Varianz von p(1 − p). • Die Annahme, dass die abhängige Variable Y bei allen Werten von x normalverteilt ist, ist nicht erfüllt: Y ist bei jedem Wert von x eine diskrete Zufallsgröße und hat eine BernoulliVerteilung. • Wenn man die fitted values“ µy.x als Wahrscheinlichkeiten interpretiert, würde ein einfaches ” lineares Modell mit b 6= 0 Wahrscheinlichkeiten“ unter 0 und über 1 prognostizieren. ” Eine Lösung für diese Probleme ist, den sogenannten linearen Prädiktor a + bx auf einen Wert aus dem Intervall [0, 1] abzubilden. Man verallgemeinert das lineare Modell yi = a + bxi + ei also zu yi = F (a + bxi ) + ei (1) wobei F : R → [0, 1] eine streng monotone Funktion sein sollte. Beim letzten Vorlesungstermin wurden bereits drei Spezialfälle dieses Modells besprochen: • Das constrained linear-probability model (S. 39 im Skriptum). F ist hier die Verteilungsfunktion einer kontinuierlichen Gleichverteilung. • Das Logit-Modell mit 1 . (2) 1 + e−x Die Funktion F ist hier die Verteilungsfunktion der sogenannten logistischen Verteilung. F (x) = • Das Probit-Modell, bei dem für F die Verteilungsfunktion einer Normalverteilung gewählt wird. Im Folgenden konzentrieren wir uns auf das Logit-Modell und definieren F (x) wie in (2). Die Umkehrfunktion von F (x) = 1+e1−x ist der sogenannte Logit F −1 (y) = ln 1 y . 1−y (3) Wenn man y als Wahrscheinlichkeit für Y = 1 interpretiert, ist das der Logarithmus des Odds 1 dafür, dass Y den Wert 1 annimmt. Das Logit-Modell ist nicht linear in den unbekannten Parametern, es kann aber als lineares Modell für den Logit verstanden werden. 2 Verallgemeinerung auf multiple Regression Das Logit-Modell lässt sich leicht auf k unabhängige Variablen verallgemeinern: Analog zum allgemeinen linearen Modell verwendet man dafür eine n × k + 1-Matrix 1 x11 · · · x1k .. .. .. (4) X = ... . . . 1 ··· xn1 xnk wobei n die Anzahl der zur Schätzung des Modells verwendeten Beobachtungen und xij den Wert der j-ten Variablen bei der i-ten Beobachtung bezeichnet. Dann kann man das Modell schreiben als 1 (5) pi = µy.xi = 1 + e−xi b für 1 ≤ i ≤ n, wobei xi = (1, xi1 , ..., xik ) die i-te Zeile von X und b = (a, b1 , ..., bk )> der Parametervektor ist, der aus den Daten geschätzt werden muss. Der lineare Prädiktor ist in diesem Fall k X xi b = a + bj xij . (6) j=1 3 Parameterschätzung Die Parameter a und bj für 1 ≤ j ≤ k kann man mit der Maximum-Likelihood-Methode schätzen. Die Wahrscheinlichkeit, bei n Beobachtungen und gegebenem X die konkreten Werte yi , 1 ≤ i ≤ n zu erhalten, ist P (y1 , ..., yn |X) = = = n Y i=1 n Y P (yi |X) (7) pyi i (1 − pi )1−yi i=1 n Y i=1 pi 1 − pi yi (1 − pi ). Dabei entspricht pi der Wahrscheinlichkeit P (yi = 1|X). Unter Annahme eines Logit-Modells folgt aus (5) pi = exi b (8) 1 − pi und 1 − pi = 1 . 1 + exi b (9) Wenn man (8) und (9) in (7) einsetzt und den so entstandenen Ausdruck als Funktion der Parameter a, b1 , ..., bk bei fixen Daten y1 , ..., yn versteht, erhält man die Likelihood-Funktion L(b) = n Y xi byi e i=1 1 Als 1 1 + exi b . Odds für ein Ereignis, das mit Wahrscheinlichkeit p eintritt, bezeichnet man den Quotienten 2 (10) p . 1−p Durch Logarithmieren dieser Funktion, Differenzieren nach den einzelnen Komponenten von b und Nullsetzen der partiellen Ableitungen ergibt sich ein System von Gleichungen n n X X 1 x = yi xi (11) i 1 + e−xi b i=1 i=1 n X pi xi = i=1 n X yi xi i=1 oder in Matrixschreibweise X> p = X> y (12) mit p = (p1 , ..., pn ) und y = (y1 , ..., yn ). Dieses Gleichungssystem ist das Pendant zu den Normalgleichungen X> Xβ = X> y, die bei der Schätzung des allgemeinen linearen Modells auftreten. Allerdings sind die Gleichungen nun nicht mehr linear in b und müssen daher numerisch gelöst werden. In R wird dafür die IRLS -Methode (iteratively reweighted least squares) verwendet. 4 Tests und Konfidenzintervalle Tests und Konfidenzintervalle für die geschätzten Parameter kommen aus der allgemeinen Theorie der Maximum-Likelihood-Schätzung. Hypothesen der Form Ho : bj = βj , H1 : bj 6= βj für einen einzelnen Parameter bj , wobei βj ein konkreter Schätzwert ist, können für große Stichproben mit dem Wald-Test überprüft werden: Ist θ ein unbekannter Parameter und θ̂ der Maximum-Likelihood-Schätzer von θ, dann konvergiert die Verteilung der Wald-Statistik θ̂ − θ , (13) σθ̂ wobei σθ̂ die Standardabweichung von θ̂ ist, für n → ∞ gegen die Standardnormalverteilung. Daraus folgt, dass ein asymptotisches Konfidenzintervall für bj mit Konfidenzzahl α durch [bˆj − n1−α/2 σbˆj , bˆj + n1−α/2 σbˆj ] (14) gegeben ist. Dabei ist bˆj der mit der Maximum-Likelihood-Methode bestimmte Schätzwert, n1−α/2 das 1 − α2 -Quantil der N(0, 1) und σbˆj die asymptotische Standardabweichung von bˆj (d. h. der Grenzwert der Standardabweichung, wenn der Stichprobenumfang gegen unendlich geht). Diese Standardabweichung kann durch die Wurzel aus dem j-ten Diagonalelement der asymptotischen Kovarianzmatrix geschätzt werden, die bei der IRLS-Lösung des Gleichungssystems (12) als Ne” benprodukt“ berechnet wird. Eine naheliegende Fragestellung ist, ob mehrere Elemente von b gleichzeitig 0 sind (H0 : b1 = ... = bq = 0 mit q ≤ k; H1 : mindestens ein Ungleichheitszeichen). Dafür ist ein LikelihoodQuotienten-Test sinnvoll. Solche Tests beruhen im Allgemeinen darauf, dass zwei Modelle geschätzt werden: das vollständige Modell mit dem Parametervektor b1 und das Null-Modell, in dem nur die Parameter bq+1 , ..., bk betrachtet und die Elemente b1 , ...bq auf 0 gesetzt werden. Die Teststatistik ist dann 2(ln L1 − ln L0 ), (15) wobei L0 = L(bˆ0 ) und L1 = L(bˆ1 ) jeweils die Maxima der Likelihood-Funktion für die beiden Modelle sind. Da das Null-Modell ein Spezialfall des vollständigen Modells ist, gilt L1 ≥ L0 und ein Wert L0 in der Nähe von 1 bedeutet, dass kein großer Unterschied zwischen den beiden des Quotienten L 1 3 Modellen besteht, also dass man die Parameter b1 , ...bq vernachlässigen kann. Unter der Nullhypothese ist die Statistik (15) asymptotisch χ2q -verteilt. Die Nullhypothese wird also dann mit dem Signifikanzniveau α verworfen, wenn der Wert der Teststatistik größer als das 1 − α-Quantil der χ2q -Verteilung ist. Für die logistische Regression sind verschiedene sogenannte Pseudo-Bestimmtheitsmaße als Äquivalente zu R2 vorgeschlagen worden. Eines davon ist R20 = 1 − ln L1 ln L0 (16) wobei L1 wie oben definiert ist und L0 das Maximum der Likelihood-Funktion für ein Modell mit b1 = ... = bk = 0 ist. 4