a 15 Allgemeines Lineares Regressions-Modell Allgemeine Modelle und Robuste Regression ghµi i = ηi = xiT β 15.1 Modell. Yi ∼ F hµi, γ i , 188 15.1 b Weibull-Verteilung. Ausfalls-, Überlebenszeiten. α f hxi = (x/σ)α − 1 exph−(x/σ)α i σ Erwartungswert σΓh1/α + 1i Keine Exponentialfamilie −→ kein GLM. σ ist Skalen-Parameter: c · Y ∼ Whc · σ, αi α Form-Parameter 189 1.0 1.5 0.0 0.5 1.0 1.5 0 1 2 3 2.0 0 1 2 1 0.5 1 0.0 α = 0.5 2 α=2 2 2.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 1 1 0.0 α=1 2 α=4 2 2.0 1 1 190 α = 1.3 2 α = 10 2 15.1 c Laenge = 300 150 50 20 2.0 2.2 Reissfestigkeit 2.4 2.6 Zielgrösse Reisskraft. Beispiel Kohlenstoff-Fasern. 1.8 Länge: 1, 10, 20, 50 mm, Anzahl 2.8 3.0 191 15.1 d e Weibull-Regression. Yi ∼ Whσi, αi , −4 −3 −2 −1 0 1 2 3 x−µ z= τ loghσi i = xiT β . Gumbel-Regression. loghY i ∼ Gumbel τ = 1/α . f hxi = τ −1ez exph−ez i , µ = loghσi , Dichte Erwartungswert µ + γτ ≈ µ + 0.577 τ . 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 192 Regressionsmodell Yei = log Yi ∼ Ghµi, τ i , Langschwänzige Fehler. Yi = xiT β + Ei , µi = xiT β . Ei/σ ∼ F1 . Form „Zielgrösse = Regressionsfunktion + Zufallsabweichung" Lineares Modell mit nicht-normalen Fehlern. f* Zensierte Daten. g h 193 15.1 i j t-Verteilung. ν = 3, 5, 7 . fµ,σ,ν hxi = c(1 + x2/ν)−(ν+1)/2 ν = ∞ : Normalverteilung ν = 1 : Cauchy-Verteilung F 1 = thµ = 0, σ = 1, ν i , Maximum Likelihood. σ * + X Yi − xT β I ℓℓ β, σ = ρ + n loghσi i ρhri = − loghf1 hri i . Normalverteilung: f1 = φ −→ ρhri = r 2/2 log 1 + r 2/ν t-Verteilung: ρhri = ν+1 2 194 15.1 k ψ * Yi − xiT βb σ xi = 0 , P i (Yi ψhri = ρ′ hri − xiT ) xi = 0 195 Normalgleichungen. Ri = (Yi − xIT β)/σ ableiten nach β −→ −xi/σ + X i Normalverteilung: ψhri = r −→ t-Verteilung: ψhri = (1 + 1/ν) 1+rr 2/ν ψ 2 1 0 −1 −2 −5 −4 −3 ν 20 9 5 3 −2 −1 0 r 1 2 3 4 5 196 l Die LS Methode ist besonders einfach, da ri2 die Skala σ nicht enthält −→ • die Normalgleichungen nach β aufgelöst werden können, P • die zu minimierende Grösse • der Skalen-Parameter σ nach β geschätzt werden kann. =0, Ri = Yi − xIT βb σ , 197 wi = ψhRi i /Ri . Robuste Schätzungen brauchen iterativen Algorithmus. (Kein Problem.) wiRixi Gewichtete Kleinste Quadrate. X i m ⊲ Beispiel der Reissfestigkeit von Fasern zensierte Daten. 198 R: package survival für Zielgrösse muss Surv–Objekt sein, Surv(Y, rep(1,length(Y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd) Value Std. Error z p (Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05 -6.87 6.31e-12 Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00 Scale= 0.0588 199 survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd) Value Std. Error z p (Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05 -6.87 6.31e-12 Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00 Scale= 0.0588 Weibull distribution Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6 n= 119 log(strength) 1.1 1.0 0.9 0.8 ⊳ 0.7 0 50 100 150 length 200 250 300 200 350 15.1 n o R ψ 2 hui f1 hui du D E var βb = σ 2 · κ C −1 , Verteilung der Schätzung. κ= 1 ) (kein n Tests, Vertrauensbereiche. C = X i xixiT , 201 a 15.2 Einfluss und Robustheit i (xi − x)2 b+ hx, yi − βb = c · x ∆β = β e(y − βx) , P Sensitivität. Eine Beobachtung hinzufügen −→ c−1 = x e2 + 202 15.2 1.1 1.0 0.9 0.8 0.7 0.6 0.5 b log(strength) 0 50 100 150 200 length 250 300 ∆β 350 203 400 15.2 c d Sensitivitäts-Kurve. b 1, x2, ..., xn i b x1, x2, ..., xn i − θhx SChxi = (n + 1) θhx, Schätzungen für einen Lage-Parameter. 204 . 1 1 (x + x SChxi = (n + 1) n+1 1 + ... + xn ) − n (x1 + ... + xn ) 1 n+1 = x+ 1− (x + x + ... + x ) = x − · nx n 1 2 n n = x−x. 111 90 110 109 108 107 95 105 110 115 120 125 130 205 1.2, 2.4, 1.3, 1.3, 0.0, 1.0, 1.8, 0.8, 4.6, 1.4 100 arithm. Mittel 10%−gestutztes M. Median Beispiel Schlafdaten: Schätzwert e 1 n X i SChxi i Einfluss: Summe 0 Einfluss-Funktion. 1X (xi − x) = = i n IFhx; T, F i 1 n X i xi − nx = 0 . Stichprobe ersetzt durch „unendliche Stichprobe" = Verteilung. E h IFhX; T, F i i = 0 206 15.2 f* Man braucht Begriffe: Funktional T hF i b n → F theoretische Verteilung empirische Verteilung F • Gross Error Model: Ghx, εi = (1 − ε)F + ε∆x • • IFhx; T, F i = lim ε→0+ h(T hGhx, εi i − T hF i)/εi 207 15.2 g h γhT, F i = sup x h | IFhx; T, F i | i Gross Error Sensitivity, Robustheit. Ziel. 208 Suche unter allen Schätzungen mit einer Gross Error Sensitivity, die kleiner als eine gegebene Schranke ist, diejenige, die die kleinste Varianz hat. Optimalitätsproblem von Hampel (1974) a b 15.3 i ρhxi, θi E , d ψhx, θi = ρhxi, θi . dθ DX Robuste Schätzungen M-Schätzung. θb = arg min θ ψhxi, θi = 0 , Nullstellen-Form. X i 209 15.3 c M-Schätzung für einen Lage-Parameter. Lage-Parameter: DX i E c−1 = E ψ ′ hX − µ bi ψhri = ρ′ hri . ρhxi − µi µ bhx1 + ∆, x2 + ∆, ..., xn + ∆i = µ bhx1, x2, ..., xn i + ∆ . M-Schätzung: µ b = arg min µ ψhxi − µi = 0 , oder Lösung der Gleichung i X Einfluss-Funktion: IFhx; µ b, F i = c · ψhx − µ bi , 210 −6 ψ -Funktionen. 3 2 1 0 −1 −2 −3 15.3 d ψ(z, µ) −4 Mittel Median Huber Hampel Biweight −2 0 z 2 4 6 211 15.3 d ψ -Funktionen. ψhri = minhmaxhr, −ci , ci = Huber-Funktion. c → ∞ −→ arithmetisches Mittel c → 0 −→ Median. −c r c r < −c −c ≤ r ≤ c . r>c |r| ≤ c c < |r| ≤ b . b < |r| < d |r| > d Klare Ausreisser sollen keinen Einfluss auf die Schätzung haben! r signhri c ψhri = signhri (c − (|r| − c)/(d − c) 0 Hampel (three part redescending) 212 ... oder ψhri = ( r 0 „biweight“-Funktion von Tukey. 1− 2 r 2 c |r| ≤ c . |r| > c 213 −2 −1 0 1 2 −5 t-Verteilung: ψ −4 −3 ν 20 9 5 3 −2 −1 0 r 1 2 3 4 5 214 15.3 e Wahl der ψ -Funktion. Optimalitätsproblem von Hampel −→ Huber-Funktion (auch Optimalitätsproblem von Huber!) Wahlkonstanten. f* Andere Klassen von Schätzungen: R-, L-Schätzungen g Kompromiss zwischen Robustheit und statistischer Effizienz. 215 a 15.4 2.6 2.7 Jahresmittel 2.8 2.9 2.4 M-Schätzung für Regression 2.5 ⊲ Beispiel NO 2 -Mittelwerte. 2.4 Tagesmittel 1 2.6 2.7 2.8 2.9 3.0 2.5 Tagesmittel 2 2.6 2.7 2.8 2.9 3.0 2.3 2.4 2.5 2.4 2.3 2.5 2.6 2.7 Jahresmittel 2.8 2.9 216 0.0 0.05 0.10 Beispiel Schadstoffe im Tunnel 8000 6000 0 2000 Ef.NOx 4000 0.15 0.20 Lastwagen-Anteil 0.25 0.30 217 0 1000 2000 3000 4000 5000 6000 0 5 10 15 Lastwagen−Anteil (%) Geschätzte Geraden im Beispiel Ef.NOx 20 25 30 218 0 1000 2000 3000 4000 5000 6000 0 5 10 Lastwagen−Anteil (%) 15 20 Nur Daten mit genügender Luftgeschwindigkeit ⊳ Ef.NOx 25 30 219 15.4 b c ψ * Yi − xiT βb σ xi = 0 , * Y − xT βb ψhri = ρ′ hri + (κ e C )−1x , P T M-Schätzungen. Minimiere i ρ (Yi − xI β)/σ oder löse + X i E =ψ Einflussfunktion von M-Schätzern. D bF IF x, y; β, σ 220 15.4 e X i η * Yi − xiT βb σ , xi Gross Error Sensitivity. unbeschränkt ... R R 2 + xi = 0 C = X und weitere Korrekturfaktoren. D E var βb = σ 2 · κ C −1 , ψ 2huif1huidu ′ ψhuif 1huidu) i xixiT , Verteilung der Schätzungen, Tests und Vertrauensintervalle. ηhri, xi i = ψchhi i hri i f* Verallgemeinerte M-Schätzung. g κ= ( 221 a 15.5 Bruchpunkt und weitere Schätzmethoden Bruchpunkt. Einfluss-Funktion zeigt Effekt von 1 Beobachtung. −→ Effekt von mehreren Ausreissern? ∗ ∗ ∗ , x Stichprobe x1 , x2 , .., xn plus q beliebige x1 2 , ..., xq . q . n+q ∗ ∗ ∗ , x Änderung T x1 , x2 , ..., xn, x1 2 , ..., xq − T hx1 , x2 , ..., xn i ? −→ Maximaler „Bias" als Funktion von ε = 222 Der (empirische) Bruchpunkt ist q/(n + q) wobei q die maximale Anzahl zusätzlicher Beobachtungen ist, für die der Bias | T x1 , x2, ..., xn, x1∗ , x2∗ , ..., xq∗ −T hx1, x2, ..., xn i | beschränkt bleibt. b Max. Bias = ∞ −→ „Zusammenbruch" der Schätzung. Empirische Bruchpunkt hängt von der Stichprobe ab. 10% gestutztes Mittel −→ Bruchpunkt 10%. ... unabhängig von der Stichprobe! * −→ Asymptotischer Bruchpunkt ε∗ hT, F i . Bruchpunkt vom M-Schätzungen. < 1/p Klein! p = 7 −→ ? 223 15.5 c d M-Schätzung mit abfallendem ψ . P P xi = 0 . 224 −→ höherer Bruchpunkt. i ψhri i i ρhri i −→ Mehrere Lösungen der Gleichung Formulierung mit Minimierung von Berechnung? −→ Wir brauchen einen Startwert mit hohem Bruchpunkt! 1 n−p P ri iρ s = κ nach s ! S-Schätzungen. Robuste Skalenschätzung der Residuen minimieren! Robuste Skalen-M-Schätzung: Löse κ = Funktion von ρ , so dass σ b = 1 für E ∼ Φ . −→ s = s β . −→ Minimiere s β über β . 15.5 e Berechnung? s β unangenehm. −→ Probabilistischer Algorithmus f MM-Schätzungen. S-Schätzungen sind statistisch ineffizient. −→ Kombination von S- und M-Schätzungen Verwende S-Schätzung als Startwert für Fortsetzung: Blöcke „Resampling & Asymptotik“ und „Robuste Statistik“. 225 g Literatur Robuste Statistik: Maronna, Martin and Yohai (2006). eine M-Schätzung mit Ausreisser-Verwerfung. h Grundlegende Bücher: Huber and Ronchetti (2009) und Hampel et al (1986) Grundlegende Artikel: Huber (1964) und Hampel (1974). Andere Richtungen: Kombinatorische Ideen für kleine Dimension p . Rang-basierte Methoden. xx 252 Hampel, F. (1974). The influence curve and its role in robust estimation, Journal of the American Statistical Association 69: 383–393. Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J. and Stahel, W. A. (1986). Robust Statistics: The Approach Based on Influence Functions, Wiley, N.Y. Huber, P. J. (1964). Robust estimation of a location parameter, 35: 73–101. Huber, P. J. and Ronchetti, E. M. (2009). Robust Statistics, 2nd edn, Wiley. Maronna, R. A., Martin, R. D. and Yohai, V. J. (2006). Robust Statistics, Theory and Methods, Wiley Series in Probility and Statistics, Wiley, Chichester, England.