Flexible Regressionsmodelle

Werbung
Flexible Regressionsmodelle
ANGELIKA VAN DER LINDE
Universität Bremen
November 2007
1.
2.
3.
4.
5.
Regressionsmodelle
Basisfunktionen
Glättung
Kernschätzer
Diskussion
1
1. Regressionsmodelle
fester Versuchsplan d = {t1 ...tN } ⊂ T ⊂ Rq
beobachtet: yd = (y(t1 ), ..., y(tN ))T
allgemeine Annahmen:
f.a t ∈ T : Y (t) ∈ R Zufallsvariable mit
E(Y (t)) = µ(t)
µ : T → R Regressionsfunktion
Verteilung von Y (t):
zB Y (t) ∼ N (µ(t), σ 2 ) ⇔ Y (t) = µ(t) + ε(t), ε(t) ∼ N (0, σ 2 )
(t $ Körpergewicht, Y (t) $ Körpergröße)
zB Y (t) ∼ B(n(t), µ(t)) mit
var Y (t) = n(t)µ(t)(1 − µ(t)) abh v. µ(t)
(t $ Alter, n(t) $ Größe der Altersgruppe,
Y (t) $ Anzahl Todesfälle)
2
Modellierung von µ
- Transformation von µ(t) mit (bekannter) link-Funktion g :
f (t) = g(µ(t))
zB f (t) = µ(t),
g = id
µ(t)
zB f (t) =logit(µ(t)) = log 1−µ(t)
für µ(t) ∈ (0, 1)
zB f (t) = log(µ(t)) für µ(t) > 0
- Annahme über f
zB f ∈ F = span{φm |φm : T → R, m = 1...M } Fktenraum
zB f ”glatt”, benachbarte Werte von f ähnlich
3
hier Beschränkung auf
Y (t) ∼ N (µ(t), σ 2 ),
g = id (f (t) = µ(t)), dh
Y (t) = f (t) + ε(t), ε(t) ∼ N (0, σ 2 )
und f ”flexibel”
Annahmen über f auch unter anderen Verteilungsannahmen möglich
→ bild1
→ bild2
4
2 Basisfunktionen
f ∈ F = span{φm |φm : T → R, m = 1...M }
f (t) = β0 +
M
X
βm φm (t)
m=1
=
M
X
βm φm (t) für φ0 ≡ 1
m=0
Fragen:
-Wahl von φm ??
-Wahl von M ??
Inferenz (kleinste Quadratsummen-Schätzung)
Sei


1 φ1 (t1 ) · · · φM (t1 )
..
..
,
Φd =  ...
.
.
1 φ1 (tN ) · · · φM (tN )
β = (β0 . . . βM )T
fd = (f (t1 ) . . . f (tN ))T
5
Schätzung von f : minimiere bzgl β
N
X
(y(tn ) − f (tn ))2 = ||yd − fd ||2 = ||yd − Φd β||2
n=1
Lösung:
βb = (ΦTd Φd )−1 ΦTd yd
b
fbd = Φd β,
σ
b2 = ||yd − fbd ||2 /(N − (M + 1))
fb(t) = (1, φ1 (t), . . . , φM (t))βb
{z
}
|
=
ΦT (t)
ΦT (t)(ΦTd Φd )−1 ΦTd yd
|
=
{z
(w(t,t1 ),...w(t,tN ))T
N
X
}
w(t, tn )y(tn )
n=1
dh fb(t) ist eine gewichtete Summe der Beobachtungen
6
2.1 Klassische Approximationen
- polynomiale Regression: φm (t) = tm
f (t) = β0 +
M
X
βm tm
m=1
Begründung:
Taylor-Approximation diff’barer Funktionen
Satz von Weierstraß; glm Approx stetiger Funktionen auf T = [a, b]
→ bild3
7
- Fourier-Entwicklung
T = [−π, π],
φ2k (t) = sin(kt),
f (t) = β0 +
K−1
X
φ2k+1 (t) = cos(kt),
β2k+1 cos(kt) +
k=0
K
X
k=1
M = 2K + 1
Begründung:
Aprrox stetiger Fkten auf T
→ bild4
→ bild5
8
β2k sin(kt),
k ∈ N0
Problem
Basisfunktionen φm sind global
M mittelgroß ⇒ lokale Fehler
2.2 Lokale Basisfunktionen
ζ1 . . . ζI seien ”Knoten” in T
2.2.1 Regressionssplines
(t −
ζi )r+
(t − ζi )r falls t > ζi
=h
0
sonst
→ bild6
f (t) =
r
X
j=0
j
αj t +
I
X
δi (t − ζi )r+ ,
M =r+1+I
i=1
f ist stückweises Polynom vom Grad r auf [ζi , ζi+1 )
9
2.2.2 Sigmoide Basis
φm (t) = h(
t − ζm
),
s
h(x) =
1
1 + e−x
→ bild7
2.2.3 Gauss-Kern-Basis
(t − ζm )2
φm (t) = exp(−
)
2s2
→ bild7
10
2.2.4 Modellwahl
fb hängt ab von
- Anzahl der Basisfunktionen
- Wahl der Knoten
- Wahl von s
Strategien: s datengestützt schätzen und
- mit Vorwissen: Knoten an ”changepoints”
- Modellerweiterung
Bayes-Ansatz
→ neuronale Netze
- viele Knoten
(gleichabständiges Gitter über T oder: Menge der Knoten =d)
und Regularisierung
11
neuronale Netze
f (t) = β0 +
= β0 +
= β0 +
M
X
m=1
M
X
m=1
M
X
βm φm (t)
βm h(
t − ζm
),
s
βm h(xm )
wobei h(x) =
mit xm =
m=1
modelliere:
xm = α0m +
N
X
n=1
12
αnm tn
t − ζm
s
1
1 + e−x
Regularisierung
mit fd = Φd β minimiere bzgl. β
||yd − Φd β||2 + λ||β||2q ,
entspricht
Minimierung von ||yd − Φd β||2 unter Nebenbedingung ||β||2q ≤ η(λ)
→ bild8
→ bild9
Spezialfall q = 2 : “Ridge-Regression”
Spezialfall q = 1 : “Lasso”, “sparse regression”
Reduktion der Wahl von Basisfunktionen
auf Wahl von λ, zB durch Kreuzvalidierung
13
Lösung:
βb = (ΦTd Φd + λI)−1 ΦTd yd
fbd = Φd βb = S(λ)yd ,
S(λ) = Φd (ΦTd Φd + λI)−1 ΦTd
fb(t) = (1, φ1 (t), . . . , φM (t))βb
{z
}
|
=
ΦT (t)
ΦT (t)(ΦTd Φd
|
=
N
X
+ λI)−1 ΦTd yd
{z
}
(wλ (t,t1 ),...wλ (t,tN ))T
wλ (t, tn )y(tn )
n=1
σ
b2 = ||yd − fbd ||2 /(N − tr(S(λ)))
14
3. Glättung
keine explizite Annahme: f ∈ F = span{φm |φm : T → R}
sondern Annahme: f ”glatt” → Rauheits-Strafterme
3.1 glättende Splines
minimiere:
||yd − Φd β||2 + λ
Z
(f 00 (t))2 dt
T
Lösung: smoothing spline
fb(t) = β0 + β1 t +
N
X
n=1
falls T = [0, 1] : q(t, tn ) = (t − tn )3+
falls T = R : q(t, tn ) bekannt
dh Menge der Knoten =d
→ bild10
15
αn q(t, tn )
3.2 diskretisierte Ableitungen
f 0 (t + h) − f 0 (t)
h→∞
h
f (t+2h)−f (t+h)
(t)
− f (t+h)−f
h
h
= lim
h→∞
h
f (t + 2h) − 2f (t + h) + f (t)
= lim
h→∞
h2
f 00 (t) = lim
ergibt Strafterm fdT 44fd mit Differenzenmatrix

−2 1
 1 −2 1

...
4=


1 −2 1
1 −2
16






3.3 Bayes-Interpretation
Memo: Bayes-Ansatz
Verteilungs-Annahme (→ likelihood): p(y|θ)
Vorwissen über θ : p(θ)
Inferenz (Bayes’ Theorem): p(θ|y) = p(y|θ)p(θ)/p(y) ∝ p(y|θ)p(θ)
hier:
Y (t) ∼ N (f (t), σ 2 )
θ = fd , Vorwissen: f glatt → ti nahe an tj ⇒ f (ti ), f (tj ) korreliert
fd ∼ N (0, τ 2 Cd ),
Cd = ((C(ti , tj ))i,j=1...N ,
C Kovarianz-Funktion eines stochastischen Prozesses
damit
σ 2 T −1
p(yd |fd )p(fd ) ∝ ||yd − fd || + 2 fd Cd fd
τ
|{z}
2
λ
17
Beispiele für C
multivariat:
q
P
C(t, e
t) = exp(− i=1
univariat:
C(t, e
t) = exp(
|ti − e
ti |r
2si
)
−2 sin2 (t − e
t)
)
s2
algebraische Verknüpfungen von C − F unktionen
18
Bayes-Schätzer
||yd − fd ||2 + λfdT Cd−1 fd
wird minimiert in
fbd = (I + λCd−1 )−1 yd .
Mit fd = Cd β äquivalent
zur verallgemeinerten Ridge-Regression,
dh zur Minimierung bzgl. β von
||yd − Cd β||2 + λβ T Cd β
Lösung:
βb = (Cd + λI)−1 yd ,
fb(t) = CdT (t)βb =
N
X
C(t, tn )βbn =
n=1
fbd = Cd βb
N
X
n=1
19
wC,λ (t, tn )y(tn )
4. Kernschätzer
4.1 gleitende Mittel
Unter Ann ”f glatt” definiere direkt
fb(tn ) als gewichtetes Mittel von Beobachtungen
zB mit UB (ti ) = {ti−B , ti−B+1 , ...ti , ti+1 , ..., ti+B }
i+B
X
1
y(tn )
fb(ti ) =
2B + 1
n=i−B
t∈
/d
fb(t) = ??
→ bild11 (B=2, 5 Beobachtungen in UB )
20
4.2 Modifikation
Ub (t) = {tn ||t − tn | ≤ b}
|t − tn |
≤ 1}
= {tn |
b
damit
X
1
y(tn )
#Ub (t)
tn ∈Ub (t)
X
1
k0 y(tn )
=
k0 #Ub (t)
fbb (t) =
tn ∈Ub (t)
mit konstanter Gewichtsfunktion k0 (z) ≡ k0 auf [−1, 1]
N
X
N
X k0 ( t−tn )
t − tn
b
b
k0 (
)y(ti ) =
y(tn )
fb (t) = N
N
P
P
b
i
i
n=1
n=1
k0 ( t−t
k0 ( t−t
b )
b )
1
i=1
i=1
21
4.3 Allgemeine Kernschätzer
allgemein: normierte, nicht-konstante Gewichtsfunktionen
Z
k : R → R,
k(z) = 1
R
damit
fbk,b (t) =
N
X
wk,b (t, tn )y(tn )
n=1
k( t−tb n )
wk,b (t, tn ) = N
P t−ti
k( b )
i=1
→ bild12
22
5. Diskussion
5.1 Zusammenfassung
5.1.1 “equivalent kernels”
alle Schätzungen sind von der Form
fb(t) =
=
N
X
w(t, tn )y(tn )
n=1
wdT (t)yd
und die Gewichtsvektoren können verglichen werden
→ bild13
→ bild14
23
5.1.2 Universelle Modellierung mit Kernfunktionen
K : T × T → R sei (positiv definite) Kernfunktion
alle Schätzungen sind von der Form
fb(t) =
N
X
K(t, tn )b
γn
n=1
- Basisfunktionen
fb(t) =
M
X
βbm φm (t) = ΦT (t)βb = βbT Φ(t)
m=0
rg(Φd ) = M + 1
bT
T
⇒ β =γ
b Φd =
N
X
γ
bn ΦT (tn )
n=1
bT
⇒ fb(t) = β Φ(t) =
N
X
γ
bn ΦT (tn )Φ(t)
n=1
K(t, tn ) = ΦT (t)Φ(tn )
24
- Basis mit Regularisierung
für ||yd − Φd β||2 Normalgleichungen :
ΦTd Φd βb − ΦTd yd = ΦTd (Φd βb − yd ) = 0
für ||yd − Φd β||2 + λβ T β Normalgleichungen:
0 = ΦTd (Φd βb − yd ) + λβb
⇔ −ΦTd (Φd β − yd ) = λβb
b
⇔ ΦT γ
b = β,
γ
b = −(Φd βb − yd )/λ
d
K(t, tn ) = ΦT (t)Φ(tn )
25
- Bayes-Ansatz
fb(t) =
N
X
C(t, tn )βbn
n=1
K(t, tn ) = C(t, tn )
- Kernschätzer
fb(t) =
N
X
k( t−tb n )
y(tn )
N
P
i
n=1
k( t−t
b )
i=1
K(t, tn ) = k( t−tb n )
26
5.2 Relevance vector machines (RVM)
Wie
fb(t) =
N
X
K(t, tn )b
γn
n=1
modelliere
f (t) =
N
X
K(t, tn )γn
n=1
und schätze γ mit Regularisierung:
minimiere bzgl. γ mit D = diag(αn ) 6= αI
||yd − Kd γ||2 + γ T D−1 γ
N
X
1 2
2
γn
= ||yd − Kd γ|| +
α
n
n=1
Lösung:
γ
b = (KdT Kd + σ 2 D−1 )−1 KdT yd
wobei D und σ 2 oft geschätzt werden
27
5.3 Ausblick
Kerne der Basis-induzierten Form
K(t, tn ) = ΦT (t)Φ(tn )
lassen sich für Transformationen Φ : T → RJ
von beliebigen Objekten, T ( Rq
verallgemeinern zu
K(t, tn ) = ΦT (t)Φ(tn ).
28
Herunterladen