Schätzen und Testen II Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz SS 2008 Formelsammlung zur Vorlesung Schätzen und Testen II 5 Bootstrap Einstichproben-Problem: X = (X1 , . . . , Xn ) → T (X) i.i.d. mit Xi ∼ F , F unbekannt Beobachtete Daten: x = (x1 , x2 , . . . , xn ) → T (x) Bootstrap-Stichprobe: x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ ) Empirische Verteilungsfunktion: n F̂n (x) = 1X I(xi ≤ x) n i=1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers 1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne θ̂∗ (b), b = 1, . . . , B. 3. Schätze den Standardfehler seF (θ̂) = ( se bB = q VarF (θ̂) durch B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 ) 21 mit b=1 B 1 X ∗ θ̂ (b). θ̂ (·) = B ∗ b=1 Standardfehler für die Schätzung des Korrelationskoeffizienten θ (i) Vergleich mit der Formel für die bivariate Normalverteilung: 1 − θ̂2 se b N2 (µ,Σ) (θ̂) = √ n−3 (ii) Vergleich nach Fisher-Transformation: 1 ξˆ = log 2 1 + θ̂ 1 − θ̂ ! " approx. ∼ 1 N log 2 1+θ 1−θ 2 # 1 , √ n−3 Formelsammlung zur Vorlesung Schätzen und Testen II 2 Zweistichproben-Problem für unabhängige Stichproben Y1 , . . . , Yn i.i.d. ∼ F ) unabhängig i.i.d. Z1 , . . . , Z m ∼ G Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ : y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n ∗b z ∗b = (z1∗b , . . . , zm ) zufällig mit Zurücklegen aus Ĝm ( ∗ se b F,G (θ̂) = seF̂n ,Ĝm (θ̂ ) ≈ se bB = B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 ) 21 b=1 mit n θ̂∗ (b) = und m 1 X ∗b 1 X ∗b yi − z n i=1 m i=1 i B 1 X ∗ θ̂ (b) θ̂ (·) = B ∗ b=1 Bootstrap im Linearen Modell yi = x> i β + εi , εi i.i.d. ∼ F, E(εi ) = 0 Nichtparametrischer Bootstrap 1. Schritt: Berechne β̂ mit der KQ-Methode: β̂ = (X > X)−1 X > y. 2. Schritt: Berechne die Residuen ε̂ = (I − X(X > X)−1 X > )y = y − X β̂. 3. Schritt: Setze für die empirische Verteilung F̂n der Residuen eine Wahrscheinlichkeitsmasse ε̂i , i = 1, . . . , n (ohne weitere Einschränkung seien alle Residuen verschieden). 4. Schritt: • Ziehe eine Stichprobe ε∗ = (ε∗1 , . . . , ε∗n ) mit Zurücklegen aus F̂n . • Berechne neue“ Bootstrap-Zielvariablen ” ∗ yi∗ = x> i β̂ + εi für i = 1, . . . , n, d.h. y ∗ = X β̂ + ε∗ . • Berechne den Bootstrap-KQ-Schätzer β̂ ∗ = (X > X)−1 X > y ∗ . Parametrischer Bootstrap 1. Schritt: Berechne β̂KQ und σ̂F2 . 2. Schritt: ∗ ∗ 2 Setze yi∗ = x> i β̂KQ + εi , wobei εi ∼ N (0, σ̂F ). Bias-Schätzung mittels Bootstrap biasF (θ̂, θ) = EF (θ̂) − θ = EF (θ̂) − T (F ) d F (θ̂, θ) = bias (θ̂∗ , θ̂) = E [θ̂∗ ] − T (F̂n ) bias F̂n F̂n Bias-Korrektur: θ = 2θ̂ − θ̂∗ (·) 1 n auf Formelsammlung zur Vorlesung Schätzen und Testen II 3 Bootstrap-Konfidenzintervalle Bootstrap-t-Intervall 1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne Z ∗ (b) = θ̂∗ (b) − θ̂ . se b ∗ (b) Ordne die Z ∗ (b) aufsteigend der Größe nach. 3. Schätze die Quantile t̂(α) und t̂(1−α) als # Z ∗ (b) ≤ t̂(α) =α. B 4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann h i θ̂ − t̂(1−α) · se, b θ̂ − t̂(α) · se b . Bootstrap-Perzentil-Intervall 1. Ziehe x∗1 , . . . , x∗B B Bootstrap-Replikationen ↓ ↓ θ̂∗ (1), . . . , θ̂∗ (B) mit θ̂∗ (b) = T (x∗b ). ∗ ∗ , . . . , θ̂(B) . 2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1) ∗(α) ∗(1−α) 3. Berechne Bα und B(1 − α) und bezeichne mit θ̂B bzw. θ̂B die Werte an den jeweiligen Positionen in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist h i h i ∗(α) ∗(1−α) θ̂lower , θ̂upper = θ̂B , θ̂B ein approximatives (1 − 2α)-Konfidenzintervall. Bootstrap-BCa -Intervall Ĝ−1 Φ ẑ0 + B mit ẑ0 + z (α) 1 − â(ẑ0 + z (α) ) , Φ ẑ0 + ẑ0 + z (1−α) 1 − â(ẑ0 + z (1−α) ) n o # θ̂∗ (b) < θ̂ ẑ0 = Φ−1 (ĜB (θ̂)) = Φ−1 B und Pn i=1 (θ̂(·) â = 6 hP n i=1 (θ̂(.) − θ̂(i) )3 − θ̂(i) )2 i 32 mit den Jackknife–Schätzungen θ̂(i) = θ̂(·) = Schätzung basierend auf der Stichprobe ohne die i–te Beobachtung und n 1X θ̂(i) n i=1 Formelsammlung zur Vorlesung Schätzen und Testen II 4 Kreuzvalidierung und Vorhersagefehler k-fache Kreuzvalidierung: n CV = 2 1 X −k(i) yi − ŷi n i=1 Vorhersagefehler: err(x, F ) ≡ E0F (Q(Y0 , ηx (Z0 )) Apparent error in sample: n err(x, F̂n ) = E0F̂n (Q(Y0 , ηx (Z0 )) = 1X Q[yi , ηx (zi )] n i=1 Plug–In–Schätzung: n err(x∗b , F̂n ) = 1X Q[yi , ηx∗b (zi )] n i=1 Durchschnittlicher Vorhersagefehler: EF [err(x, F )] Approximative Bootstrap-Schätzung: ÊFˆn [err(x∗ , F̂n )] = B n 1 X1X Q[yi , ηx∗b (zi )] B n i=1 b=1 In bootstrap-sample error: ÊF̂n [err(x∗ , F̂n∗ )] = B n 1 X1X Q[yi∗b , ηx∗b (zi∗b )] B n i=1 b=1 Average optimism: w(F ) = EF (err(x, F )) − EF (err(x, F̂n )) Approximative Bootstrap-Schätzung: ( B n XX 1 ŵ(F̂n ) = Bn Q[yi , ηx∗b (zi )] − b=1 i=1 ) B X n X Q[yi∗b , ηx∗b (zi∗b )] b=1 i=1 Schätzung des Vorhersagefehlers mit Bias-Korrektur: n err(x, F̂n ) + w(F̂n ) 6 wird geschätzt durch 1X Q[yi , ηx (zi )] + ŵ(F̂n ) n i=1 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen ML-Schätzung bei Fehlspezifikation Kullback-Leibler-Distanz von g und fθ für X stetig: g(X) D(g, fθ ) = Eg log f (X|θ) Entropie von g: Z −Eg log g(X) = − g(x) log(g(x)) dx Formelsammlung zur Vorlesung Schätzen und Testen II 5 Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation 1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von λ(θ) ≡ Eg log fθ (X|θ) (bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei Fisher-Regularität) existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen Maximierern von ” n 1X log f (xi |θ) n i=1 mit P θ̂n − → θ0 . 2. Asymptotische Normalität: Es gilt √ d n(θ̂n − θ0 ) − →N 0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 ) mit > ∂ log f (X|θ) ∂ log f (X|θ) ∂θ ∂θ | {z }| {z } I1 (θ) ≡ Eg s1 (θ) s1 (θ)> und der (Quasi-)Fisher-Information 2 ∂ log f (X|θ) J1 (θ) = Eg − . ∂θ ∂θ> M-Schätzer in der robusten Statistik Asymptotische Eigenschaften von M–Schätzern θ̂M Unter Regularitätsvoraussetzungen, insbesondere E0 qs(θ0 ) = 0, gilt a θ̂M ∼ N (θ0 , V (θ̂M )) . Dabei ist V (θ̂M ) definiert als V (θ̂M ) = J −1 (θ̂M )I(θ̂M )J −1 (θ̂M ) mit der empirischen (Quasi–) Fisher–Matrix I(θ̂M ) = n X qsi (θ̂M )qs> i (θ̂M ) i=1 und der (empirischen) beobachteten (Quasi–) Informationsmatrix ∂ qs(θ) J (θ̂M ) = − . ∂θ > θ=θ̂M Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations) U (β, α) = > N X ∂µi (β) i=1 ∂β Vi (β, α, φ)−1 (Yi − µi (β)) = 0 Sei Ti die Anzahl der Beobachtungen an Individuum i und φ der Dispersionsparameter. Formelsammlung zur Vorlesung Schätzen und Testen II • ∂µi ∂β T 6 ist eine p × Ti Matrix (GLM: p × 1 Vektor) • Yi und µi sind Ti × 1 Vektoren (GLM: Skalare) • Vi ist die Ti × Ti Arbeitskovarianzmatrix (GLM: Skalar) Vi (β, α, φ) = ··· ··· .. . ci1Ti (β, α, φ) ci2Ti (β, α, φ) .. . ciTi 1 (β, α, φ) ciTi 2 (β, α, φ) · · · ciTi Ti (β, α, φ) ci11 (β, α, φ) ci21 (β, α, φ) .. . ci12 (β, α, φ) ci22 (β, α, φ) .. . mit citt0 (β, α, φ) = 0 t 6= t 0 t=t. Cov(Yit , Yit0 ; β, α, φ), falls Var(Yit ; β, φ), falls • Bei Verwendung einer ”Arbeitskorrelation” berechnet sich die ”Arbeitskovarianz” als 1 1 Vi (β, α, φ) = φAi (β) 2 Ri (α)Ai (β) 2 mit der Diagonalmatrix der Varianzfunktionen Ai (β) = diag[v(µi1 (β)), v(µi2 (β)), . . . , v(µiTi (β))] Varianzschätzung mittels Sandwich-Schätzer Sei > N X ∂µi ∂µi −1 F = Vi , ∂β ∂β i=1 wobei Vi die modellbasierte Kovarianzmatrix ist, die sich aus den Annahmen über Varianz und Korrelation ergibt, und > N X ∂µi ∂µi G= Vi−1 Cov(Yi )Vi−1 , ∂β ∂β i=1 wobei Cov(Yi ) die wahre Kovarianzmatrix ist. Dann gilt: b = Fb−1 G d β) b Fb−1 Cov( b Fb und G b sind die empirischen Matriist die empirirsche konsistente Schätzung der Kovarianzmatrix von β. b b zen, die sich durch Einsetzen von β, α b und φ ergeben. Cov(Yi ) wird konsistent geschätzt durch die Matrix (yi − µi )(yi − µi )> . Im Idealfall gilt: Cov(Yi ) = Vi . Dann ist GEE effizient und man erhält b = F −1 Cov(β) bzw. die Schätzung b = Fb−1 . d β) Cov( Eigenschaften der GEE Schätzung • Verwendet man als ”Arbeitskorrelation” die Unabhängigkeit, so spricht man vom IEE Schätzer (independence estimating equations). Man erhält Vi (β, α, φ) = Vi (β, φ) = φAi (β) und die Schätzgleichung reduziert sich dann auf > N X ∂µi (β) U (β) = Vi (β, φ)−1 (Yi − µi (β)) = 0. ∂β i=1 Die IEE Schätzung βbI ist unter schwachen Voraussetzungen konsistent und asymptotisch normalverteilt, wenn φ konsistent geschätzt wird und das Modell für den Erwartungswert korrekt spezifiziert ist. • Wird als ”Arbeitskorrelation” nicht die Unabhängigkeit gewählt, so ist die GEE Schätzung βbG unter 1 schwachen Vorraussetzungen konsistent und asymptotisch normalverteilt, wenn φ und α N 2 -konsistent geschätzt werden. Formelsammlung zur Vorlesung Schätzen und Testen II 7 Quantilregression Bedingte Quantilsfunktion: Qτ (y|X = x) = FY−1 |X=x (τ |X = x) = yτ (x) Qτ (y|X = x) = x> βτ Modellformel: yi = x> i βτ + ετ i mit unabhängigen, aber möglicherweise heteroskedastischen ετ i und Z 0 Fετ i (0) = f (ετ i ) dετ i = τ −∞ Entscheidungstheoretischer Ansatz Check-Funktion: ρτ (u) = u · (τ − I(u < 0)) , τ ∈ (0, 1) Zielfunktion: argmin n X βτ ∈Rp i=1 ρτ (yi − x> i βτ ) Erwarteter Verlust: EFY [ρτ (y − ŷ)] Satz. Der erwartete Verlust wird minimiert durch ŷ = FY−1 (τ ). Quasi-ML-Ansatz Asymmetrische Laplace-Verteilung (ALD): Y ∼ ALD(µ, σ, τ ) mit −∞ < y < ∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet y−µ τ (1 − τ ) · exp −ρτ fY (y) = σ σ Quasi-Likelihood: ( n ) X yi − x> βτ 1 i QL(β) ∝ exp − ρτ σ σ i=1 Eigenschaften der Quantilregression • Äquivarianz: β̂τ (ay, X) = aβ̂τ (y, X), β̂τ (y, XA) = A−1 β̂τ (y, X) • Asymptotische Verteilung: √ n(β̂τ − βτ ) → N (0, τ (1 − τ )H−1 (τ )J(τ )H−1 (τ )) mit n J(τ ) = 1X xi x> i , n→∞ n i=1 H(τ ) = 1X xi x> i · fi (yiτ ) n→∞ n i=1 lim n lim Formelsammlung zur Vorlesung Schätzen und Testen II 7 8 Non- und Semiparametrische Inferenz Kerndichteschätzung Definition (Histogramm). Sei x1 , . . . , xn eine i.i.d. Stichprobe einer stetigen Zufallsvariable X mit Dichte f . Dann heißt der Schätzer n 1 XX IBj (xi )IBj (x) fˆh (x) = nh i=1 j∈Z Histogramm mit Klassenbreite (Bandweite) h > 0 und Ursprung x0 . Definition (Kerndichteschätzer). Der Schätzer n 1 X fˆh (x) = K nh i=1 x − xi h n = 1X Kh (x − xi ) n i=1 mit 1 u K h h heißt Kerndichteschätzer mit Kern K (bzw. Kh ) und Bandweite h > 0. Kh (u) := • Dreieckskern: K(u) = (1 − |u|)I[−1,1] (u), • Epanechnikovkern: K(u) = 34 (1 − u2 )I[−1,1] (u), • Normalkern: K(u) = √1 2π exp(− 12 u2 ). Erwartungswert, Varianz, Bias, MSE und MISE des Kerndichteschätzers E(fˆh (x)) = 1 h Z K x−y h f (y) dy R 1 Var(fˆh (x)) = nh2 Z K 2 x−y h f (y) dy − 1 ˆ E(fh (x))2 n R 1 bias(fˆh (x)) = E(fˆh (x)) − f (x) = h Z K x−y h f (y) dy − f (x) R MSE(fˆh (x)) = 1 nh2 Z K2 x−y h f (y) dy − 1 1 E(fˆh (x))2 + n h R Z K x−y h 2 f (y) dy − f (x) R MISE(fˆh ) = Z MSE(fˆh (x)) dx. R Konsistenz des Kerndichteschätzers Satz (Satz von Parzen). Sei R(x), x ∈ R, eine (messbare) Funktion mit den Eigenschaften 1. sup |R(x)| < ∞ (d.h. R(x) ist beschränkt), x∈R Z |R(x)| dx < ∞, 2. R 3. |x|R(x) → 0 für |x| → ∞. Sei weiterhin g(x), x ∈ R, eine (messbare) Funktion mit R |g(x)| dx < ∞. Betrachte die Folge R 1 gn (x) = hn Z R R x−y hn g(y) dy, Formelsammlung zur Vorlesung Schätzen und Testen II 9 wobei hn eine Folge ist mit limn→∞ hn = 0. Dann gilt für jeden Stetigkeitspunkt x von g Z gn (x) → g(x) R(s) ds R falls n → ∞. Satz (Konsistenz des Kerndichteschätzers). Sei f stetig. Dann gilt E(fˆhn (x)) → f (x), falls die Bandweite hn für n → ∞ gegen Null konvergiert. fˆhn (x) ist also asymptotisch erwartungstreu. Falls nhn → ∞ für n → ∞, dann gilt Var(fˆhn (x)) → 0. Damit ist fˆh (x) konsistent. n Konvergenzordnung des MISE Satz. Sei f mindestens zweimal stetig differenzierbar, f 00 beschränkt, f und f 00 quadratintegrierbar. Sei hn eine R Folge mit hn → 0 und nhn → ∞ für n → ∞. Unter Verwendung der Abkürzungen g 2 (s) ds = ||g||22 und R R µ2 (g) = g(s)s2 ds für eine Funktion g gilt: R 1 ||K||22 f (x) + o nhn 1. Var(fˆhn (x)) = Z Var(fˆhn (x)) dx = 1 ||K||22 + o nhn 1 nhn bzw. 1 nhn . R 2. bias(fˆhn (x)) = Z hn 2 µ2 (K)f 00 (x) + o(hn 2 ) 2 bzw. hn 4 2 bias2 (fˆhn (x)) dx = µ (K)||f 00 ||22 + o(hn 4 ). 4 2 R 3. MISE(fˆhn ) = 1 hn 4 2 1 ||K||22 + µ2 (K)||f 00 ||22 + o + hn 4 . nhn 4 nhn Asymptotische Verteilung und Konfidenzintervalle Satz (Asymptotische Verteilung). f 00 (x) existiere; es gelte hn = cn−1/5 . Dann ist der Kern-Dichteschätzer fˆhn (x) asymptotisch normalverteilt, n o c2 2 d f 00 (x) µ2 (K), c−1 f (x)||K||22 n 5 fˆhn (x) − f (x) → N {z } |2 {z } | 2 vx bx für n → ∞. Approximatives (1-α)- Konfidenzintervall " h2 fˆh (x) − f 00 (x) µ2 (K) − z1− α2 2 r h2 f (x)||K||22 ˆ , fh (x) − f 00 (x) µ2 (K) + z1− α2 nh 2 r f (x)||K||22 nh Integrated Squared Error (ISE) Z Z Z Z 2 2 ˆ ˆ ˆ ISE(h) = (fh (x) − f (x)) dx = fh (x) dx − 2 fh (x)f (x) dx + f 2 (x) dx R R R R Kreuzvalidierungsfunktion n CV(h) = n 1 XX (K ? K) n2 h i=1 j=1 xj − xi h n − 2Xˆ fh,i (xi ) n i=1 # Formelsammlung zur Vorlesung Schätzen und Testen II 10 Bayesianische nichtparametrische Dichteschätzung Dirichlet-Verteilung Dirichlet–Dichte: wobei πm = 1 − Pm Γ( αi ) α1 −1 α2 −1 αm −1 p(π|α) = Qm i=1 π1 π2 · · · πm , Γ(α ) i i=1 Pm−1 k=1 πk . Kurz: π ∼ Diri(α1 , . . . , αm ) . Es gilt mit α := α1 + . . . + αm : E(πi ) = E(πi2 ) = E(πi πj ) = αi α αi (αi + 1) α(α + 1) αi αj α(α + 1) i 6= j . Äquivalente Definition: Z1 , Z2 , . . . , Zm seien unabhängige Gamma(αi , 1)–verteilte Zufallsvariablen, αi > 0. Dann gilt für π = (π1 , . . . , πm ) mit Zi πi = Pm : j=1 Zj π ∼ Diri(α1 , α2 , . . . , αm ) . Dirichlet-Prozesse def Definition (Dirichlet-Prozess). Ein Dirichlet-Prozess (DP) ist ein RPM G auf (Ω, A) : ⇔ Für jede finite Partition (A1 , . . . , Am ) von Ω mit Aj ∈ A ist der Zufallsvektor (G(A1 ), . . . , G(Am )) dirichletverteilt mit (G(A1 ), . . . , G(Am )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (Am )), kurz: G ∼ DP(α0 , G0 ). G0 heißt Basis-Verteilung (base measure), α0 heißt Präzisionsparameter und bestimmt die Varianz um E(G). Konjugiertheit des DP i.i.d. Sei G ∼ DP(α0 , G0 ) und θ1 , . . . , θn | G ∼ G. Dann ist die Posteriori G | θ1 , . . . , θn ∼ DP α0 + n, n α0 1 X G0 + δθ . α0 + n α0 + n i=1 i Polya–Urnen–Repräsentation eines DP Die a posteriori prädiktive Verteilung lautet θn | θ1 , . . . , θn−1 , α0 , G0 ∼ n−1 X α0 1 G0 + δθ . n − 1 + α0 n − 1 + α0 j=1 j Steckerlbruch–Repräsentation eines DP G(A) = ∞ X πk δφk (A) i.i.d. mit φk ∼ G0 mit βj ∼ Beta(1, α0 ). k=1 für beliebiges A ∈ A und π k = βk k−1 Y (1 − βj ) j=1 i.i.d Formelsammlung zur Vorlesung Schätzen und Testen II Dabei gilt ∞ P 11 πk = 1 sowie π1 = β1 k=1 Trunkierter Dirichlet–Prozess (TDP) GT (·) = T X πT := 1 − πk δφk (·), k=1 T −1 X πk k=1 DP–Mischungen (DPM) • θi ist latenter, mit Datenpunkt xi assoziierter Parameter. • Der (trunkierte) DP wird benutzt, um eine Priori für die θi zu konstruieren f (xi ) = d X k=1 πk φ xi | µk , σk2 | {z } φk • Formalisiert: xi | θ i ind θi | G i.i.d G ∼ f (xi | θi ) ind (bzw. ∼ F (xi | θi )) ∼ G ∼ (T)DP(α0 , G0 ) für i = 1, . . . , n Bayes-Inferenz mit DPM-Priori • Allgemeines hierarchisches Modell: xi | θ i , δ ind θi | G(T ) i.i.d. ∼ f (xi | θi , δ) , ∼ G(T ) δ ∼ p(δ) G(T ) ∼ (T )DP(α0 , G0 ) i = 1, . . . , n δ endlich-dimensionaler Parameter • Wahl von f : ind 1. xi | θi , δ ∼ N (µi , τ ) ind 2. xi | θi ∼ N (µi , τi ), θi = (µi , τi ) ind 3. xi | θi ∼ MVN(µi , Σ) ind 4. xi | θi ∼ MVN(µi , Σi ) • Repräsentation von (T)DP durch (T)SP: GT (· ) = T X πk δφk (·), i.i.d. φk ∼ G0 k=1 Dabei ist π = (π1 , . . . , πT ) ein trunkierter SB-Prozess: π1 = β1 πk = (1 − β1 )(1 − β2 ) · · · · · (1 − βk−1 )βk πT = 1 − π1 − · · · − πT −1 und i.i.d. β1 , . . . , βT −1 ∼ Beta(1, α0 ). für k = 2, . . . , T − 1 Formelsammlung zur Vorlesung Schätzen und Testen II 12 Glättung und semiparametrische Regression Glättung für normalverteilte Zeitreihen Betrachte die Zeitreihe y = (y1 , . . . , yt , . . . , yn )> mit glattem Trend γ = (γ1 , . . . , γn )> . • Klassische Glättung Modell: yt = γt + εt , t = 1, . . . , n Differenzen erster und d-ter Ordnung: ∆1 γt = γt − γt−1 , ∆d γt = ∆d−1 γt − ∆d−1 γt−1 , d = 2, 3, . . . Differenzenmatrizen: (n) D1 −1 = 1 .. . 0 .. (n−1)×n , ∈R . −1 0 (n) Dd (n−1) 1 Strafmatrizen: (n)> K d = Dd (n) ∈ Rn×n , Dd Straffunktion: pen(γ) = n X rg(Kd ) = n − d (∆d γt )2 = γ > Kd γ t=d+1 Penalisiertes KQ-Kriterium: PKQ(γ) = (y − γ)> (y − γ) + λγ > Kγ Penalisierter KQ-Schätzer: γ̂PKQ = (I + λK)−1 y • Bayesianische Glättung Likelihood: f (y|γ) ∼ N (γ, σ 2 I) Glattheits-Priori: 2 −rg(K)/2 p(γ) ∝ (τ ) 1 exp − 2 γ > Kγ 2τ Posteriori-Erwartungswert: E(γ|y) = γ̂PKQ mit λ := Glättung für nicht-normalverteilte Zeitreihen Sei yt |γt ∼ einfache Exponentialfamilie. • Klassische Glättung Penalisierte log-Likelihood: lpen (γ) = l(γ) − λ > γ Kγ 2 (n) = Dd−1 D1 σ2 τ2 ∈ R(n−d)×n Formelsammlung zur Vorlesung Schätzen und Testen II 13 • Bayesianische Glättung Likelihood: f (y|γ) = n Y f (yt |γt ) t=1 Glattheits-Priori: 1 p(γ) ∝ (τ 2 )−rg(K)/2 exp − 2 γ > Kγ 2τ Posteriori-Modus: 1 argmax log f (y|γ) + log p(γ) = argmax l(γ) − 2 γ > Kγ = argmax lpen (γ) 2τ γ γ γ mit λ := 1 τ2 P-Splines Definition (Spline-Funktionen, Polynom-Splines). Eine Funktion f : [a, b] → R heißt (Polynom-) Spline vom def Grad l ≥ 0 zu den Knoten a ≤ κ0 < κ1 < . . . < κM −1 < κM ≤ b ⇔ 1. f (x) ist (l − 1)-mal stetig differenzierbar, 2. f (x) ist ein Polynom vom Grad l für x ∈ [κm , κm+1 ), m = 0, . . . , M − 1. (l) (l) Definition (Trunkierte-Potenz- (truncated power, TP-) Basis). B1 (x), . . . , BK (x) ist TP-Basis vom def Grad l ⇔ (l) (l) (l) B1 (x) = 1, B2 (x) = x, . . . , Bl+1 (x) = xl (l) (l) Bl+2 (x) = (x − κ1 )l+ , . . . , BK (x) = (x − κM −1 )l+ mit (x − κk )l+ = Definition (B-Spline-Basis). (x − κk )l 0 für x ≥ κk sonst. (l) def (l) B1 (x), . . . , BK (x) ist B-Spline-Basis vom Grad l ⇔ 1. Jede Basisfunktion ist stückweises, (l − 1)-mal stetig differenzierbares, nichtnegatives Polynom vom Grad l über l − 2 benachbarten Knotenpunkten, sonst ist Bk (x) = 0. 2. Die Basisfunktionen sind so normiert, dass K X (l) Bk (x) = 1 für alle x . k=1 P-Spline-Schätzung bei normalverteilten Zielvariablen Betrachte yi = f (xi ) + εi mit unabhängigen εi ∼ N (0, σ 2 ), i = 1, . . . , n, mit f (x) approximiert durch f (x) = K X γk Bk (x) , {Bk (x)} eine Spline-Basis . k=1 Dies führt zum linearen Modell y = Zγ + ε , ε ∼ N (0, σ 2 I) mit Designmatrix B1 (x1 ) · · · .. .. Z= . . B1 (xn ) · · · BK (x1 ) .. . . BK (xn ) Formelsammlung zur Vorlesung Schätzen und Testen II 14 • Klassische Glättung Wahl der Penalisierung: – Bei TP-Basis: pen(γ) = K X γk2 = γ > K̃γ k=l+2 0 0 .. K̃ = diag(0l+1 , 1M −1 ) = . 0 1 .. . 0 1 γ̂ = argmin PKQ(γ) = (Z > Z + λK̃)−1 Z > y γ – Bei B-Spline-Basis: pen(γ) = K X (∆d γk )2 k=d+1 γ̂ = (Z > Z + λK)−1 Z > y • Bayesianische Glättung Likelihood: y|γ ∼ N (Zγ, σ 2 I) Prioriverteilungen: – Bei TP-Basis: p(γk ) γk ∝ i.i.d. ∼ const (oder schwach informativ) , k = 1, . . . , l + 1, N (0, τ 2 ) , k = l + 2, . . . , K – Bei B-Spline-Basis: 1 p(γ) ∝ (τ 2 )−rg(K)/2 exp − 2 γ > Kγ 2τ Posterioriverteilung: γ|y ∼ N (µγ , Σγ ) µγ = E(γ|y) = Z >Z + σ2 K τ2 −1 Z >y −1 σ2 und Σγ = Cov(γ|y) = σ 2 Z > Z + 2 K τ P-Spline-Schätzung bei nicht-normalverteilten Zielvariablen Sei y|f ∼ einfache Exponentialfamilie: E(y|f (x)) = h(f (x)) X f (x) = γk Bk (x) bzw. f = Zγ • Klassische Glättung spen (γ) λ > γ Kγ 2 = s(γ) − λKγ Fpen (γ) = F (γ) + λK lpen (γ) = l(γ) − Formelsammlung zur Vorlesung Schätzen und Testen II 15 • Bayesianische Glättung Das Beobachtungsmodell f (y|γ) ist durch den GLM-Typ definiert. Bei voller Bayes-Inferenz wählt man a priori τ 2 ∼ IG(a, b) für λ = τ12 . Voll bedingte Dichten: n Y 1 exp − 2 γ > Kγ 2τ i=1 rg(K) 1 IG a + , b + γ > Kγ 2 2 f (γ|τ 2 , y) ∝ τ 2 |γ, y ∼ exp yi θi − b(θi ) φ Glättungs-Splines (Smoothing-Splines) Definition (Natürliche Splines). Eine Funktion f ist ein natürlicher (kubischer) Spline zu den Knoten def a < κ1 < . . . < κm < b ⇔ 1. f (x) ist (kubischer) Polynom–Spline zur obigen Knotenmenge. 2. f (x) genügt f 00 (a) = f 00 (b) = 0, d.h. f (x) ist linear in den Intervallen [a, κ1 ] und [κm , b]. Modell: yi = f (xi ) + εi mit unabhängigen εi ∼ (0, σ 2 ) bzw. y = Zγ + ε Gesucht: fˆ = argmin PKQ(f ) f ∈C 2 Penalisiertes KQ-Kriterium: Z n X 2 PKQ(f ) = (yi − f (xi )) + λ (f 00 (x))2 dx i=1 Straffunktion: Z pen(γ) = 00 2 (f (z)) dz = K K X X Z γj γk Bj00 (z)Bk00 (z)dz = γ > Kγ j=1 k=1 mit Z K = (Kjk ) und Kjk = Bj00 (z)Bk00 (z)dz