Flexible Regressionsmodelle ANGELIKA VAN DER LINDE Universität Bremen November 2007 1. 2. 3. 4. 5. Regressionsmodelle Basisfunktionen Glättung Kernschätzer Diskussion 1 1. Regressionsmodelle fester Versuchsplan d = {t1 ...tN } ⊂ T ⊂ Rq beobachtet: yd = (y(t1 ), ..., y(tN ))T allgemeine Annahmen: f.a t ∈ T : Y (t) ∈ R Zufallsvariable mit E(Y (t)) = µ(t) µ : T → R Regressionsfunktion Verteilung von Y (t): zB Y (t) ∼ N (µ(t), σ 2 ) ⇔ Y (t) = µ(t) + ε(t), ε(t) ∼ N (0, σ 2 ) (t $ Körpergewicht, Y (t) $ Körpergröße) zB Y (t) ∼ B(n(t), µ(t)) mit var Y (t) = n(t)µ(t)(1 − µ(t)) abh v. µ(t) (t $ Alter, n(t) $ Größe der Altersgruppe, Y (t) $ Anzahl Todesfälle) 2 Modellierung von µ - Transformation von µ(t) mit (bekannter) link-Funktion g : f (t) = g(µ(t)) zB f (t) = µ(t), g = id µ(t) zB f (t) =logit(µ(t)) = log 1−µ(t) für µ(t) ∈ (0, 1) zB f (t) = log(µ(t)) für µ(t) > 0 - Annahme über f zB f ∈ F = span{φm |φm : T → R, m = 1...M } Fktenraum zB f ”glatt”, benachbarte Werte von f ähnlich 3 hier Beschränkung auf Y (t) ∼ N (µ(t), σ 2 ), g = id (f (t) = µ(t)), dh Y (t) = f (t) + ε(t), ε(t) ∼ N (0, σ 2 ) und f ”flexibel” Annahmen über f auch unter anderen Verteilungsannahmen möglich → bild1 → bild2 4 2 Basisfunktionen f ∈ F = span{φm |φm : T → R, m = 1...M } f (t) = β0 + M X βm φm (t) m=1 = M X βm φm (t) für φ0 ≡ 1 m=0 Fragen: -Wahl von φm ?? -Wahl von M ?? Inferenz (kleinste Quadratsummen-Schätzung) Sei 1 φ1 (t1 ) · · · φM (t1 ) .. .. , Φd = ... . . 1 φ1 (tN ) · · · φM (tN ) β = (β0 . . . βM )T fd = (f (t1 ) . . . f (tN ))T 5 Schätzung von f : minimiere bzgl β N X (y(tn ) − f (tn ))2 = ||yd − fd ||2 = ||yd − Φd β||2 n=1 Lösung: βb = (ΦTd Φd )−1 ΦTd yd b fbd = Φd β, σ b2 = ||yd − fbd ||2 /(N − (M + 1)) fb(t) = (1, φ1 (t), . . . , φM (t))βb {z } | = ΦT (t) ΦT (t)(ΦTd Φd )−1 ΦTd yd | = {z (w(t,t1 ),...w(t,tN ))T N X } w(t, tn )y(tn ) n=1 dh fb(t) ist eine gewichtete Summe der Beobachtungen 6 2.1 Klassische Approximationen - polynomiale Regression: φm (t) = tm f (t) = β0 + M X βm tm m=1 Begründung: Taylor-Approximation diff’barer Funktionen Satz von Weierstraß; glm Approx stetiger Funktionen auf T = [a, b] → bild3 7 - Fourier-Entwicklung T = [−π, π], φ2k (t) = sin(kt), f (t) = β0 + K−1 X φ2k+1 (t) = cos(kt), β2k+1 cos(kt) + k=0 K X k=1 M = 2K + 1 Begründung: Aprrox stetiger Fkten auf T → bild4 → bild5 8 β2k sin(kt), k ∈ N0 Problem Basisfunktionen φm sind global M mittelgroß ⇒ lokale Fehler 2.2 Lokale Basisfunktionen ζ1 . . . ζI seien ”Knoten” in T 2.2.1 Regressionssplines (t − ζi )r+ (t − ζi )r falls t > ζi =h 0 sonst → bild6 f (t) = r X j=0 j αj t + I X δi (t − ζi )r+ , M =r+1+I i=1 f ist stückweises Polynom vom Grad r auf [ζi , ζi+1 ) 9 2.2.2 Sigmoide Basis φm (t) = h( t − ζm ), s h(x) = 1 1 + e−x → bild7 2.2.3 Gauss-Kern-Basis (t − ζm )2 φm (t) = exp(− ) 2s2 → bild7 10 2.2.4 Modellwahl fb hängt ab von - Anzahl der Basisfunktionen - Wahl der Knoten - Wahl von s Strategien: s datengestützt schätzen und - mit Vorwissen: Knoten an ”changepoints” - Modellerweiterung Bayes-Ansatz → neuronale Netze - viele Knoten (gleichabständiges Gitter über T oder: Menge der Knoten =d) und Regularisierung 11 neuronale Netze f (t) = β0 + = β0 + = β0 + M X m=1 M X m=1 M X βm φm (t) βm h( t − ζm ), s βm h(xm ) wobei h(x) = mit xm = m=1 modelliere: xm = α0m + N X n=1 12 αnm tn t − ζm s 1 1 + e−x Regularisierung mit fd = Φd β minimiere bzgl. β ||yd − Φd β||2 + λ||β||2q , entspricht Minimierung von ||yd − Φd β||2 unter Nebenbedingung ||β||2q ≤ η(λ) → bild8 → bild9 Spezialfall q = 2 : “Ridge-Regression” Spezialfall q = 1 : “Lasso”, “sparse regression” Reduktion der Wahl von Basisfunktionen auf Wahl von λ, zB durch Kreuzvalidierung 13 Lösung: βb = (ΦTd Φd + λI)−1 ΦTd yd fbd = Φd βb = S(λ)yd , S(λ) = Φd (ΦTd Φd + λI)−1 ΦTd fb(t) = (1, φ1 (t), . . . , φM (t))βb {z } | = ΦT (t) ΦT (t)(ΦTd Φd | = N X + λI)−1 ΦTd yd {z } (wλ (t,t1 ),...wλ (t,tN ))T wλ (t, tn )y(tn ) n=1 σ b2 = ||yd − fbd ||2 /(N − tr(S(λ))) 14 3. Glättung keine explizite Annahme: f ∈ F = span{φm |φm : T → R} sondern Annahme: f ”glatt” → Rauheits-Strafterme 3.1 glättende Splines minimiere: ||yd − Φd β||2 + λ Z (f 00 (t))2 dt T Lösung: smoothing spline fb(t) = β0 + β1 t + N X n=1 falls T = [0, 1] : q(t, tn ) = (t − tn )3+ falls T = R : q(t, tn ) bekannt dh Menge der Knoten =d → bild10 15 αn q(t, tn ) 3.2 diskretisierte Ableitungen f 0 (t + h) − f 0 (t) h→∞ h f (t+2h)−f (t+h) (t) − f (t+h)−f h h = lim h→∞ h f (t + 2h) − 2f (t + h) + f (t) = lim h→∞ h2 f 00 (t) = lim ergibt Strafterm fdT 44fd mit Differenzenmatrix −2 1 1 −2 1 ... 4= 1 −2 1 1 −2 16 3.3 Bayes-Interpretation Memo: Bayes-Ansatz Verteilungs-Annahme (→ likelihood): p(y|θ) Vorwissen über θ : p(θ) Inferenz (Bayes’ Theorem): p(θ|y) = p(y|θ)p(θ)/p(y) ∝ p(y|θ)p(θ) hier: Y (t) ∼ N (f (t), σ 2 ) θ = fd , Vorwissen: f glatt → ti nahe an tj ⇒ f (ti ), f (tj ) korreliert fd ∼ N (0, τ 2 Cd ), Cd = ((C(ti , tj ))i,j=1...N , C Kovarianz-Funktion eines stochastischen Prozesses damit σ 2 T −1 p(yd |fd )p(fd ) ∝ ||yd − fd || + 2 fd Cd fd τ |{z} 2 λ 17 Beispiele für C multivariat: q P C(t, e t) = exp(− i=1 univariat: C(t, e t) = exp( |ti − e ti |r 2si ) −2 sin2 (t − e t) ) s2 algebraische Verknüpfungen von C − F unktionen 18 Bayes-Schätzer ||yd − fd ||2 + λfdT Cd−1 fd wird minimiert in fbd = (I + λCd−1 )−1 yd . Mit fd = Cd β äquivalent zur verallgemeinerten Ridge-Regression, dh zur Minimierung bzgl. β von ||yd − Cd β||2 + λβ T Cd β Lösung: βb = (Cd + λI)−1 yd , fb(t) = CdT (t)βb = N X C(t, tn )βbn = n=1 fbd = Cd βb N X n=1 19 wC,λ (t, tn )y(tn ) 4. Kernschätzer 4.1 gleitende Mittel Unter Ann ”f glatt” definiere direkt fb(tn ) als gewichtetes Mittel von Beobachtungen zB mit UB (ti ) = {ti−B , ti−B+1 , ...ti , ti+1 , ..., ti+B } i+B X 1 y(tn ) fb(ti ) = 2B + 1 n=i−B t∈ /d fb(t) = ?? → bild11 (B=2, 5 Beobachtungen in UB ) 20 4.2 Modifikation Ub (t) = {tn ||t − tn | ≤ b} |t − tn | ≤ 1} = {tn | b damit X 1 y(tn ) #Ub (t) tn ∈Ub (t) X 1 k0 y(tn ) = k0 #Ub (t) fbb (t) = tn ∈Ub (t) mit konstanter Gewichtsfunktion k0 (z) ≡ k0 auf [−1, 1] N X N X k0 ( t−tn ) t − tn b b k0 ( )y(ti ) = y(tn ) fb (t) = N N P P b i i n=1 n=1 k0 ( t−t k0 ( t−t b ) b ) 1 i=1 i=1 21 4.3 Allgemeine Kernschätzer allgemein: normierte, nicht-konstante Gewichtsfunktionen Z k : R → R, k(z) = 1 R damit fbk,b (t) = N X wk,b (t, tn )y(tn ) n=1 k( t−tb n ) wk,b (t, tn ) = N P t−ti k( b ) i=1 → bild12 22 5. Diskussion 5.1 Zusammenfassung 5.1.1 “equivalent kernels” alle Schätzungen sind von der Form fb(t) = = N X w(t, tn )y(tn ) n=1 wdT (t)yd und die Gewichtsvektoren können verglichen werden → bild13 → bild14 23 5.1.2 Universelle Modellierung mit Kernfunktionen K : T × T → R sei (positiv definite) Kernfunktion alle Schätzungen sind von der Form fb(t) = N X K(t, tn )b γn n=1 - Basisfunktionen fb(t) = M X βbm φm (t) = ΦT (t)βb = βbT Φ(t) m=0 rg(Φd ) = M + 1 bT T ⇒ β =γ b Φd = N X γ bn ΦT (tn ) n=1 bT ⇒ fb(t) = β Φ(t) = N X γ bn ΦT (tn )Φ(t) n=1 K(t, tn ) = ΦT (t)Φ(tn ) 24 - Basis mit Regularisierung für ||yd − Φd β||2 Normalgleichungen : ΦTd Φd βb − ΦTd yd = ΦTd (Φd βb − yd ) = 0 für ||yd − Φd β||2 + λβ T β Normalgleichungen: 0 = ΦTd (Φd βb − yd ) + λβb ⇔ −ΦTd (Φd β − yd ) = λβb b ⇔ ΦT γ b = β, γ b = −(Φd βb − yd )/λ d K(t, tn ) = ΦT (t)Φ(tn ) 25 - Bayes-Ansatz fb(t) = N X C(t, tn )βbn n=1 K(t, tn ) = C(t, tn ) - Kernschätzer fb(t) = N X k( t−tb n ) y(tn ) N P i n=1 k( t−t b ) i=1 K(t, tn ) = k( t−tb n ) 26 5.2 Relevance vector machines (RVM) Wie fb(t) = N X K(t, tn )b γn n=1 modelliere f (t) = N X K(t, tn )γn n=1 und schätze γ mit Regularisierung: minimiere bzgl. γ mit D = diag(αn ) 6= αI ||yd − Kd γ||2 + γ T D−1 γ N X 1 2 2 γn = ||yd − Kd γ|| + α n n=1 Lösung: γ b = (KdT Kd + σ 2 D−1 )−1 KdT yd wobei D und σ 2 oft geschätzt werden 27 5.3 Ausblick Kerne der Basis-induzierten Form K(t, tn ) = ΦT (t)Φ(tn ) lassen sich für Transformationen Φ : T → RJ von beliebigen Objekten, T ( Rq verallgemeinern zu K(t, tn ) = ΦT (t)Φ(tn ). 28