15 A llg em ein e M o d elle u n d R o b u ste R eg ressio n A llg em

Werbung
a
15
Allgemeines Lineares Regressions-Modell
Allgemeine Modelle und Robuste Regression
ghµi i = ηi = xiT β
15.1
Modell.
Yi ∼ F hµi, γ i ,
188
15.1
b
Weibull-Verteilung. Ausfalls-, Überlebenszeiten.
α
f hxi = (x/σ)α − 1 exph−(x/σ)α i
σ
Erwartungswert σΓh1/α + 1i
Keine Exponentialfamilie −→ kein GLM.
σ ist Skalen-Parameter: c · Y ∼ Whc · σ, αi
α Form-Parameter
189
1.0
1.5
0.0
0.5
1.0
1.5
0
1
2
3
2.0
0
1
2
1
0.5
1
0.0
α = 0.5
2
α=2
2
2.0
0.5
1.0
1.5
0.0
0.5
1.0
1.5
2.0
1
1
0.0
α=1
2
α=4
2
2.0
1
1
190
α = 1.3
2
α = 10
2
15.1
c
Laenge = 300
150
50
20
2.0
2.2
Reissfestigkeit
2.4
2.6
Zielgrösse Reisskraft.
Beispiel Kohlenstoff-Fasern.
1.8
Länge: 1, 10, 20, 50 mm,
Anzahl
2.8
3.0
191
15.1
d
e
Weibull-Regression.
Yi ∼ Whσi, αi ,
−4
−3
−2
−1
0
1
2
3
x−µ
z=
τ
loghσi i = xiT β .
Gumbel-Regression. loghY i ∼ Gumbel
τ = 1/α .
f hxi = τ −1ez exph−ez i ,
µ = loghσi ,
Dichte
Erwartungswert µ + γτ ≈ µ + 0.577 τ .
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
192
Regressionsmodell
Yei = log Yi ∼ Ghµi, τ i ,
Langschwänzige Fehler.
Yi = xiT β + Ei ,
µi = xiT β .
Ei/σ ∼ F1 .
Form „Zielgrösse = Regressionsfunktion + Zufallsabweichung"
Lineares Modell mit nicht-normalen Fehlern.
f* Zensierte Daten.
g
h
193
15.1
i
j
t-Verteilung.
ν = 3, 5, 7 .
fµ,σ,ν hxi = c(1 + x2/ν)−(ν+1)/2
ν = ∞ : Normalverteilung
ν = 1 : Cauchy-Verteilung
F 1 = thµ = 0, σ = 1, ν i ,
Maximum Likelihood.
σ
*
+
X
Yi − xT β
I
ℓℓ β, σ
=
ρ
+ n loghσi
i
ρhri = − loghf1 hri i .
Normalverteilung: f1 = φ −→ ρhri = r 2/2
log 1 + r 2/ν
t-Verteilung: ρhri = ν+1
2
194
15.1
k
ψ
*
Yi −
xiT βb
σ
xi = 0 ,
P
i (Yi
ψhri = ρ′ hri
− xiT ) xi = 0
195
Normalgleichungen. Ri = (Yi − xIT β)/σ ableiten nach β −→ −xi/σ
+
X
i
Normalverteilung: ψhri = r −→
t-Verteilung: ψhri = (1 + 1/ν) 1+rr 2/ν
ψ
2
1
0
−1
−2
−5
−4
−3
ν
20
9
5
3
−2
−1
0
r
1
2
3
4
5
196
l
Die LS Methode ist besonders einfach, da
ri2 die Skala σ nicht enthält −→
• die Normalgleichungen nach β aufgelöst werden können,
P
• die zu minimierende Grösse
• der Skalen-Parameter σ nach β geschätzt werden kann.
=0,
Ri
=
Yi − xIT βb
σ
,
197
wi = ψhRi i /Ri .
Robuste Schätzungen brauchen iterativen Algorithmus.
(Kein Problem.)
wiRixi
Gewichtete Kleinste Quadrate.
X
i
m
⊲ Beispiel der Reissfestigkeit von Fasern
zensierte Daten.
198
R: package survival für
Zielgrösse muss Surv–Objekt sein, Surv(Y, rep(1,length(Y)))
survreg(formula = Surv(strength, rep(1, nrow(dd))) ~
length, data = dd)
Value Std. Error
z
p
(Intercept) 1.068937
8.53e-03 125.28 0.00e+00
length
-0.000343
4.99e-05 -6.87 6.31e-12
Log(scale) -2.833522
7.24e-02 -39.11 0.00e+00
Scale= 0.0588
199
survreg(formula = Surv(strength, rep(1, nrow(dd))) ~
length, data = dd)
Value Std. Error
z
p
(Intercept) 1.068937
8.53e-03 125.28 0.00e+00
length
-0.000343
4.99e-05 -6.87 6.31e-12
Log(scale) -2.833522
7.24e-02 -39.11 0.00e+00
Scale= 0.0588
Weibull distribution
Loglik(model)= 31.5
Loglik(intercept only)= 13.4
Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09
Number of Newton-Raphson Iterations: 6
n= 119
log(strength)
1.1
1.0
0.9
0.8
⊳
0.7
0
50
100
150
length
200
250
300
200
350
15.1
n
o
R
ψ 2 hui f1 hui du
D E
var βb = σ 2 · κ C −1 ,
Verteilung der Schätzung.
κ=
1
)
(kein n
Tests, Vertrauensbereiche.
C =
X
i
xixiT ,
201
a
15.2
Einfluss und Robustheit
i (xi
− x)2
b+ hx, yi − βb = c · x
∆β = β
e(y − βx) ,
P
Sensitivität. Eine Beobachtung hinzufügen −→
c−1 = x
e2 +
202
15.2
1.1
1.0
0.9
0.8
0.7
0.6
0.5
b
log(strength)
0
50
100
150
200
length
250
300
∆β
350
203
400
15.2
c
d
Sensitivitäts-Kurve.
b 1, x2, ..., xn i
b x1, x2, ..., xn i − θhx
SChxi = (n + 1) θhx,
Schätzungen für einen Lage-Parameter.
204
.
1
1
(x
+
x
SChxi = (n + 1) n+1
1 + ... + xn ) − n (x1 + ... + xn )
1
n+1
= x+ 1−
(x + x + ... + x ) = x − · nx
n
1
2
n
n
= x−x.
111
90
110
109
108
107
95
105
110
115
120
125
130
205
1.2, 2.4, 1.3, 1.3, 0.0, 1.0, 1.8, 0.8, 4.6, 1.4
100
arithm. Mittel
10%−gestutztes M.
Median
Beispiel Schlafdaten:
Schätzwert
e
1
n
X
i
SChxi i
Einfluss: Summe 0
Einfluss-Funktion.
1X
(xi − x) =
=
i
n
IFhx; T, F i
1
n
X
i
xi − nx = 0 .
Stichprobe ersetzt durch „unendliche Stichprobe" = Verteilung.
E h IFhX; T, F i i = 0
206
15.2
f* Man braucht Begriffe:
Funktional T hF i
b n → F theoretische Verteilung
empirische Verteilung F
•
Gross Error Model: Ghx, εi = (1 − ε)F + ε∆x
•
•
IFhx; T, F i = lim ε→0+ h(T hGhx, εi i − T hF i)/εi
207
15.2
g
h
γhT, F i = sup x h | IFhx; T, F i | i
Gross Error Sensitivity, Robustheit.
Ziel.
208
Suche unter allen Schätzungen mit einer Gross Error Sensitivity, die kleiner
als eine gegebene Schranke ist, diejenige, die die kleinste Varianz hat.
Optimalitätsproblem von Hampel (1974)
a
b
15.3
i
ρhxi, θi
E
,
d
ψhx, θi =
ρhxi, θi .
dθ
DX
Robuste Schätzungen
M-Schätzung.
θb =
arg min θ
ψhxi, θi = 0 ,
Nullstellen-Form.
X
i
209
15.3
c
M-Schätzung für einen Lage-Parameter. Lage-Parameter:
DX
i
E
c−1 = E ψ ′ hX − µ
bi
ψhri = ρ′ hri .
ρhxi − µi
µ
bhx1 + ∆, x2 + ∆, ..., xn + ∆i = µ
bhx1, x2, ..., xn i + ∆ .
M-Schätzung:
µ
b = arg min
µ
ψhxi − µi = 0 ,
oder Lösung der Gleichung
i
X
Einfluss-Funktion:
IFhx; µ
b, F i = c · ψhx − µ
bi ,
210
−6
ψ -Funktionen.
3
2
1
0
−1
−2
−3
15.3
d
ψ(z, µ)
−4
Mittel
Median
Huber
Hampel
Biweight
−2
0
z
2
4
6
211
15.3
d
ψ -Funktionen.
ψhri = minhmaxhr, −ci , ci =
Huber-Funktion.
c → ∞ −→ arithmetisches Mittel
c → 0 −→ Median.
−c
r
c
r < −c
−c ≤ r ≤ c .
r>c
|r| ≤ c
c < |r| ≤ b
.
b < |r| < d
|r| > d
Klare Ausreisser sollen keinen Einfluss auf die Schätzung haben!

 r
signhri c
ψhri =
 signhri (c − (|r| − c)/(d − c)
0
Hampel (three part redescending)
212
... oder
ψhri =
(
r
0
„biweight“-Funktion von Tukey.
1−
2
r 2
c
|r| ≤ c .
|r| > c
213
−2
−1
0
1
2
−5
t-Verteilung:
ψ
−4
−3
ν
20
9
5
3
−2
−1
0
r
1
2
3
4
5
214
15.3
e
Wahl der ψ -Funktion.
Optimalitätsproblem von Hampel −→ Huber-Funktion
(auch Optimalitätsproblem von Huber!)
Wahlkonstanten.
f* Andere Klassen von Schätzungen: R-, L-Schätzungen
g
Kompromiss zwischen Robustheit und statistischer Effizienz.
215
a
15.4
2.6
2.7
Jahresmittel
2.8
2.9
2.4
M-Schätzung für Regression
2.5
⊲ Beispiel NO 2 -Mittelwerte.
2.4
Tagesmittel 1
2.6
2.7
2.8
2.9
3.0
2.5
Tagesmittel 2
2.6
2.7
2.8
2.9
3.0
2.3
2.4
2.5
2.4
2.3
2.5
2.6
2.7
Jahresmittel
2.8
2.9
216
0.0
0.05
0.10
Beispiel Schadstoffe im Tunnel
8000
6000
0
2000
Ef.NOx
4000
0.15
0.20
Lastwagen-Anteil
0.25
0.30
217
0
1000
2000
3000
4000
5000
6000
0
5
10
15
Lastwagen−Anteil (%)
Geschätzte Geraden im Beispiel
Ef.NOx
20
25
30
218
0
1000
2000
3000
4000
5000
6000
0
5
10
Lastwagen−Anteil (%)
15
20
Nur Daten mit genügender Luftgeschwindigkeit
⊳
Ef.NOx
25
30
219
15.4
b
c
ψ
*
Yi −
xiT βb
σ
xi = 0 ,
*
Y − xT βb
ψhri = ρ′ hri
+
(κ
e C )−1x ,
P T
M-Schätzungen. Minimiere
i ρ (Yi − xI β)/σ oder löse
+
X
i
E
=ψ
Einflussfunktion von M-Schätzern.
D
bF
IF x, y; β,
σ
220
15.4
e
X
i
η
*
Yi − xiT βb
σ
, xi
Gross Error Sensitivity. unbeschränkt ...
R
R
2
+
xi = 0
C =
X
und weitere Korrekturfaktoren.
D E
var βb = σ 2 · κ C −1 ,
ψ 2huif1huidu
′
ψhuif
1huidu)
i
xixiT ,
Verteilung der Schätzungen, Tests und Vertrauensintervalle.
ηhri, xi i = ψchhi i hri i
f* Verallgemeinerte M-Schätzung.
g
κ=
(
221
a
15.5
Bruchpunkt und weitere Schätzmethoden
Bruchpunkt. Einfluss-Funktion zeigt Effekt von 1 Beobachtung.
−→ Effekt von mehreren Ausreissern?
∗
∗
∗
,
x
Stichprobe x1 , x2 , .., xn plus q beliebige x1
2 , ..., xq .
q
.
n+q
∗
∗
∗
,
x
Änderung T x1 , x2 , ..., xn, x1
2 , ..., xq − T hx1 , x2 , ..., xn i ?
−→ Maximaler „Bias" als Funktion von ε =
222
Der (empirische) Bruchpunkt ist q/(n + q) wobei q die maximale Anzahl
zusätzlicher Beobachtungen ist, für die der Bias
| T x1 , x2, ..., xn, x1∗ , x2∗ , ..., xq∗ −T hx1, x2, ..., xn i | beschränkt bleibt.
b
Max. Bias = ∞ −→ „Zusammenbruch" der Schätzung.
Empirische Bruchpunkt hängt von der Stichprobe ab.
10% gestutztes Mittel −→ Bruchpunkt 10%.
... unabhängig von der Stichprobe!
* −→ Asymptotischer Bruchpunkt ε∗ hT, F i .
Bruchpunkt vom M-Schätzungen. < 1/p
Klein! p = 7 −→ ?
223
15.5
c
d
M-Schätzung mit abfallendem ψ .
P
P
xi = 0 .
224
−→ höherer Bruchpunkt.
i ψhri i
i ρhri i
−→ Mehrere Lösungen der Gleichung
Formulierung mit Minimierung von
Berechnung? −→ Wir brauchen einen Startwert mit hohem Bruchpunkt!
1
n−p
P ri
iρ s
= κ nach s !
S-Schätzungen. Robuste Skalenschätzung der Residuen minimieren!
Robuste Skalen-M-Schätzung: Löse
κ = Funktion von ρ , so dass σ
b = 1 für E ∼ Φ .
−→ s = s β . −→ Minimiere s β über β .
15.5
e
Berechnung? s β
unangenehm. −→ Probabilistischer Algorithmus
f MM-Schätzungen. S-Schätzungen sind statistisch ineffizient.
−→ Kombination von S- und M-Schätzungen
Verwende S-Schätzung als Startwert für
Fortsetzung: Blöcke „Resampling & Asymptotik“ und „Robuste Statistik“.
225
g
Literatur Robuste Statistik: Maronna, Martin and Yohai (2006).
eine M-Schätzung mit Ausreisser-Verwerfung.
h
Grundlegende Bücher: Huber and Ronchetti (2009) und Hampel et al (1986)
Grundlegende Artikel: Huber (1964) und Hampel (1974).
Andere Richtungen: Kombinatorische Ideen für kleine Dimension p .
Rang-basierte Methoden.
xx
252
Hampel, F. (1974). The influence curve and its role in robust estimation, Journal of the
American Statistical Association 69: 383–393.
Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J. and Stahel, W. A. (1986). Robust
Statistics: The Approach Based on Influence Functions, Wiley, N.Y.
Huber, P. J. (1964). Robust estimation of a location parameter, 35: 73–101.
Huber, P. J. and Ronchetti, E. M. (2009). Robust Statistics, 2nd edn, Wiley.
Maronna, R. A., Martin, R. D. and Yohai, V. J. (2006). Robust Statistics, Theory and
Methods, Wiley Series in Probility and Statistics, Wiley, Chichester, England.
Herunterladen