Survival Analysis∗ René Böheim [email protected] December 2, 2004 ∗ Basierend auf Cleves, Gould, and Gutierrez (2004), An Introduction to Survival Analysis using Stata, Revised Edition, Stata Press, Texas. Econometrics–Winter 2004 Böheim and Winter-Ebmer Semi-parametrisches Modell: Cox h(t|xi) = h0(t) exp(β 0xi), h0(t) ist der baseline Hazard und exp(β 0xi) das relative Risiko. (β 0x der “log-relative Hazard” oder auch “risk score”.) Der baseline Hazard h0(t) wird nicht parametrisiert und nicht geschätzt. Der baseline Hazard kann jeden belieben Verlauf haben, abnehmend, zunehmend oder oszillierend—die einzige Annahme, die getroffen wird, ist dass es der selbe für alle Beobachtungen ist. 1 Econometrics–Winter 2004 Böheim and Winter-Ebmer Annahme: proportionaler Hazard im Cox-Modell. h(t|xi) h(t|xn) = exp(β 0xi) exp(β 0x n) , ist, unter der Annahme, dass sich die xi und xn nicht ändern, konstant. 2 Econometrics–Winter 2004 Böheim and Winter-Ebmer Beispiel -------------------------------------------------_t | Coef. Std. Err. z P>|z| ----------+--------------------------------------treatment | -2.256836 .4538632 -4.97 0.000 age | .1052352 .0378119 2.78 0.005 -------------------------------------------------- 3 Econometrics–Winter 2004 Böheim and Winter-Ebmer Interpretation Geschätzter Koeffizient • z.B. für Alter 0,105: eine Erhöhung des Alters um 1 Jahr führt zu einer 11% Erhöhung des Risikos (exp(0, 105) = 1, 11). • z.B. für Treatment (1=J, 0=N) -2,256: 90% geringeres Risiko für Behandelte (exp(−2, 256) = 0, 105). 4 Econometrics–Winter 2004 Böheim and Winter-Ebmer i-te Beobachtung mit k Kovariaten: h(t|x1, x2, . . . , xk) = h0(t) exp(β1x1 + β2x2 + · · · + βkxk), h(t|x1, (x2 + 1), . . . , xk) = h0(t) exp(β1x1 + β2(x2 + 1) · · · + βkxk). h(t|x1, (x2 + 1), . . . , xk) h(t|x1, x2, . . . , xk) = exp(β2) 5 Econometrics–Winter 2004 Böheim and Winter-Ebmer Kumulierter baseline Hazard (H0(t)) Abbildung 1: Geschätzte Cox (baseline) Hazardrate. 6 Econometrics–Winter 2004 Böheim and Winter-Ebmer Geschätzte Survivalfunktion (S0(t)) Abbildung 2: Geschätzte Cox (baseline) Survivalfunktion. 7 Econometrics–Winter 2004 Böheim and Winter-Ebmer Baseline??? Eine Cox-Regression ohne Kovariable liefert den Kaplan-Meier Schätzer. h0: ist die erste Ableitung von H0(t). Diese ist allerdings (Stufenfunktion) zu den Zeitpunkten nicht definiert (Sprungstellen). Die Schätzung der baseline erfordert die Schätzung der “hazard contributions”. Dies sind die Zuwächse des kumulierten Hazards bei den Ereigniszeitpunkten. 8 Econometrics–Winter 2004 Böheim and Winter-Ebmer Geschätzter baseline hazard (h0(t)) Abbildung 3: Geschätzte Cox baseline Hazard. 9 Econometrics–Winter 2004 Böheim and Winter-Ebmer Stratified Analysis Statt einer h0(t) für alle, wird in Gruppen unterteilt: h(t|xi) = h0(t) exp(β 0xi) ⇒ h(t|xi) = h01(t) exp(β 0xi), if i is in group 1, h(t|xi) = h02(t) exp(β 0xi), if i is in group 2, etc. Die h0 unterscheiden sich, aber die β̂ sind gleich. 10 Econometrics–Winter 2004 Böheim and Winter-Ebmer Generalisierung: Shared Frailty Modell Problem: Random-effects für Gruppe j (“within-group correlation”). hi,j (ti|xi, αj ) = αj h0(t) exp(β 0xi), hi,j (ti|xi, αj ) = h0(t) exp(β 0xi + νj ) and νj = log αj αj unbeobachtet. Für α wird oft eine Gamma-Verteilung mit Mittelwert 1 und Varianz θ angenommen. Cox Random-effects Modell. 11 Econometrics–Winter 2004 Böheim and Winter-Ebmer Generalisierung: Shared Frailty Modell Problem: unobserved heterogeneity. hi(ti|xi, αi) = αih(ti|xi), αi unbeobachtet. Für α wird oft eine Gamma-Verteilung mit Mittelwert 1 und Varianz θ angenommen. Um die Sθ (ti|xi) zu erhalten (θ zeigt an, dass es sich um unbeobachtete Effekte handelt), müssen die αi “weg-integriert” werden: Sθ (ti|xi, αi) = [1 − θ ln(S(ti|xi))]−1/θ . (“Random-effects Cox model”.) 12 Econometrics–Winter 2004 Böheim and Winter-Ebmer Time-varying Covariates Z.B. das Suchverhalten eines Arbeitslosen ist konstant im Zeitraum der Arbeitslosenunterstützung, ändert sich aber nach deren Ende. id Beginn Ende Arbeitslosengeld/Woche -------------------------------------------1 0 1 50 2 0 3 60 9 0 5 60 9 5 8 30 10 0 5 50 10 5 8 40 --------------------------------------------- 13 Econometrics–Winter 2004 Böheim and Winter-Ebmer Beispiel Ein Medikament wird verabreicht und wird mit exponentieller Rate exp(0.35t) (=Halbwertszeit=2 Tage) absorbiert. Andere Variablen sind konstant, d.h. log(h(t|x, t)) = log(h0) + β 0X = log(h0) + β1x1 + · · · + βtv ∗ [initial drug dose ∗ exp(−0.35t)]: Cox regression ----------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| -------------+--------------------------------------rh | treatment | -2.134365 .4382372 -4.87 0.000 -------------+--------------------------------------t | drug-level| -.1223599 .0680115 -1.80 0.072 ----------------------------------------------------14 Econometrics–Winter 2004 Böheim and Winter-Ebmer rh: hazard ratio, die konstant im Zeitablauf ist. t: hr variiert im Zeitablauf. Interpretation: höhere Medikamentenkonzentration reduziert Risiko (ca. 20%=exp(−0.12)). 15 Econometrics–Winter 2004 Böheim and Winter-Ebmer Diagnostik—Graphisch 1. − ln[− ln{Ŝ(t)}] und ln(t) (Ŝ(t) ist der Kaplan-Meier Schätzer): h(t|x) = h0(t) exp(β 0x) 0 S(t|x) = S0(t)exp(β x) − ln[− ln{S(t|x)}] = − ln[− ln{S0(t)}] − β 0x, unter der Null sind Kurven für verschiedene Werte von x parallel. 16 Econometrics–Winter 2004 Böheim and Winter-Ebmer Test auf Proportionalität (1) Abbildung 4: Test der Annahme der Proportionalität im Risiko für Treatment. 17 Econometrics–Winter 2004 Böheim and Winter-Ebmer Test auf Proportionalität (2) Abbildung 5: Test der Annahme der Proportionalität im Risiko für Treatment. 18 Econometrics–Winter 2004 Böheim and Winter-Ebmer Diagnostik—Residuen Cox-Snell Residuen: CSri = Ĥ0(ti) exp(β̂ 0xi), und Ĥ0(ti), β̂ stammen aus dem Cox-Modell. Unter der Null haben die CSr eine exponentielle Verteilung, die Hazardrate ist 1 für alle t. (Der kumulierte Hazard ist die 45◦-Linie.) 19 Econometrics–Winter 2004 Böheim and Winter-Ebmer Goodness of fit Abbildung 6: Kumulierter Hazard der Cox-Snell Residuen. 20 Econometrics–Winter 2004 Böheim and Winter-Ebmer Independent Competing Risks Bisher: eine einzige Destination, z.B. Arbeitslose finden Arbeit. Nun: Arbeitslose finden Arbeit, ziehen sich vom Arbeitsmarkt zurück, wandern aus, etc. Notwendig: einander ausschließende Ereignisse (i.e. die Summe der Ereignisse ist 1). Definition: • ha(t): latente Hazardrate für die Destination a, mit entsprechender Dichte fa(t), und Zeitpunkt des Ereignisses Ta; • hb(t): b, fb(t), Tb. Beobachteter Zeitpunkt des Ereignis T = min{Ta, Tb}. 21 Econometrics–Winter 2004 Böheim and Winter-Ebmer h(t) = ha(t) + hb(t) unabhängig! S(t) = Sa(t)Sb(t). Die likelihood Funktion für das Hazardratenmodell mit unabhängigen Destinationen hat folgende Komponenten: L = La Lb , • La: Beitrag aller Beobachtungen, die nach a abgehen, Q La = i∈{a} fa(t) • Lb: Beitrag aller Beobachtungen, die nach b abgehen, Q Lb = i∈{b} fb(t) 22 Econometrics–Winter 2004 Böheim and Winter-Ebmer δia und δib sind folgende Indikatoren: δia = δib = 1 i geht nach a ab, 0 Abgang nach b. 1 i geht nach b ab, 0 Abgang nach a. 23 Econometrics–Winter 2004 Böheim and Winter-Ebmer Nun: L = La Lb , Y δia δib = [fa(ti)] [fb(ti)] alle i X δia ln[fa(ti)] + δib ln[fb(ti)], ln L = alle i die log-likelihood Funktion für independent competing risks teilt sich in Faktoren, die unabhängig voneinander sind. Jeder dieser Faktoren ist nur von den Parametern, die diese Destination betreffen, abhängig. 24 Econometrics–Winter 2004 Böheim and Winter-Ebmer Vereinfacht das Schätzen: 1. Definiere Indikatorvariablen für jeden Zielzustand. 2. Beobachtungen, die in einen anderen Zielzustand abgehen, sind zensiert. 3. Schätze die Hazardrate für jeden Zielzustand. 25 Econometrics–Winter 2004 Böheim and Winter-Ebmer Further Issues • Unobserved heterogeneity • Dependent competing risks • Initial conditions • ... 26 Econometrics–Winter 2004 Böheim and Winter-Ebmer Last slide is black. 27