Schätzen und Testen II Sommersemester 2010 Skript zur Vorlesung von Christian Heumann Volker Schmid bearbeitet von Ludwig Fahrmeir Christiane Dargatz LATEX von Andreas Bayerstadler Irina Cebotari Veronika Fensterer Martina Weber 18. Juni 2010 Verbesserungen und Anregungen ausdrücklich erwünscht an [email protected]! Inhaltsverzeichnis 5 Bootstrap 5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip . . . . . . . 5.1.3 Reale Welt und Bootstrap-Welt . . . . . . . . . . . . . . . . . . . . . 5.1.4 Die ideale Bootstrap-Verteilung . . . . . . . . . . . . . . . . . . . . . 5.2 Bootstrap–Schätzung eines Standardfehlers . . . . . . . . . . . . . . . . . . 5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers . . . . . . 5.2.2 Anzahl der Replikationen . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Parametrischer Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt 5.2.5 Zweistichproben-Problem für unabhängige Stichproben . . . . . . . . 5.2.6 Bootstrap für eine Zeitreihe . . . . . . . . . . . . . . . . . . . . . . . 5.3 Bootstrap in Regressionsmodellen . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Bootstrap im linearen Modell . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Bootstrap im generalisierten linearen Modell . . . . . . . . . . . . . 5.3.3 Weitere Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Bias-Schätzung mittels Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Bias-Korrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 Bootstrap-t-Intervall . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.3 Bootstrap-Perzentil-Intervall . . . . . . . . . . . . . . . . . . . . . . 5.5.4 Bootstrap-BCa -Intervall . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.5 ABC–Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.6 Smooth–Bootstrap“ . . . . . . . . . . . . . . . . . . . . . . . . . . . ” 5.6 Kreuzvalidierung und Vorhersagefehler . . . . . . . . . . . . . . . . . . . . . 5.6.1 Bootstrap–Schätzung des Vorhersagefehlers . . . . . . . . . . . . . . 5.6.2 Der 0.632 Bootstrap–Schätzer . . . . . . . . . . . . . . . . . . . . . . 5.7 Konsistenz, Subsampling, Ziehen ohne Zurücklegen . . . . . . . . . . . . . . 5.7.1 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2 Subsampling und Ziehen ohne Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 6 7 8 8 9 9 10 11 11 12 12 14 15 15 16 17 17 18 20 21 22 22 23 24 26 27 27 30 6 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen 6.1 ML-Schätzung bei Fehlspezifikation . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Quasi-Likelihood und Schätzgleichungen . . . . . . . . . . . . . . . . . . . . . 31 32 36 1 6.3 6.4 6.5 M–Schätzer in der robusten Statistik . . . . . . . . . . . . . . . . . . . . Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations) Quantilregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.2 Spezialfall: Zweistichproben-Problem . . . . . . . . . . . . . . . . 6.5.3 Quantile als Lösung eines Optimierungsproblems . . . . . . . . . 6.5.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Non- und Semiparametrische Inferenz 7.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Nichtparametrische Dichteschätzung . . . . . . . . . . . . 7.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Das Histogramm . . . . . . . . . . . . . . . . . . . 7.2.3 Kerndichteschätzer . . . . . . . . . . . . . . . . . . 7.2.4 Statistische Eigenschaften des Kerndichteschätzers 7.2.5 Multivariate Kerndichteschätzer . . . . . . . . . . 7.3 Bayesianische nichtparametrische Dichteschätzung . . . . 7.3.1 Dirichlet–Verteilung . . . . . . . . . . . . . . . . . 7.3.2 Dirichlet-Prozesse . . . . . . . . . . . . . . . . . . 7.3.3 Bayesianische Dichteschätzung mit DPM-Priori . . 7.3.4 Semiparametrische GLMM . . . . . . . . . . . . . 7.4 Glättung und semiparametrische Regression . . . . . . . . 7.4.1 Glättung von Zeitreihen durch Straffunktionen . . 7.4.2 (Bayesianische) P-Splines . . . . . . . . . . . . . . 7.4.3 Verwandte Penalisierungsansätze . . . . . . . . . . 7.4.4 Andere Ansätze im Überblick . . . . . . . . . . . . 7.5 Strukturiert additive Regression . . . . . . . . . . . . . . . 7.5.1 GAM und Modelle mit variierenden Koeffizienten . 8 Modellselektion 8.1 Mallows’ Cp -Kriterium im linearen Modell . 8.2 Das Akaike Informationskriterium (AIC) . . 8.3 Das Bayessche Informationskriterium (BIC) 8.4 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 42 43 43 46 48 51 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 53 54 54 55 57 61 74 77 78 80 86 93 94 94 100 106 111 114 114 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 125 127 135 136 9 Asymptotische Statistik 9.1 Asymptotische Eigenschaften von ML–Schätzern . . . . . . . . . 9.1.1 Unabhängige und identisch verteilte Beobachtungen . . . 9.1.2 Unabhängige aber nicht identisch verteilte Beobachtungen 9.2 Parametrische asymptotische Bayes–Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 140 140 142 146 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapitel 5 Bootstrap Literatur zum Thema: - Efron B., Tibshirani R.J.: An Introduction to the Bootstrap (1993) - Hall P.: The Bootstrap and Edgeworth Expansion (1992) - Davison A.C.: Recent Developments in Bootstrap Methodology, Statistical Science (2003), Vol. 18, No. 2, pp. 141-157 5.1 Einführung - Bootstrap (engl.): Stiefelriemen, Stiefelschlaufe - Sich selbst am Schopf aus dem Sumpf ziehen” → Lügenbaron Münchhausen (mit Pferd) ” - Computergestützte Methode - Beruht auf wiederholtem Ziehen (Resampling) aus den beobachteten Daten. - Ziel: Schätzung von Varianz, Bias oder Verteilung einer Statistik T = T (X1 , . . . , Xn ), Konfidenzintervalle, Tests. - Wann? In Situationen, in denen (a) asymptotische Aussagen fragwürdig sind (kleine Stichprobenumfänge), (b) analytische Berechnungen sehr kompliziert oder unmöglich sind, zum Beispiel wenn keine parametrischen Verteilungsannahmen gemacht werden sollen. → Bootstrap für nichtparametrische Schätzungen. - Funktioniert Bootstrap” immer? Nein, nicht immer (Bootstrap kann inkonsistent sein), ” aber oft. 3 5.1.1 Grundidee i.i.d. Einstichproben-Problem: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt Interessierende Statistik: T (X) Beobachtete Daten: x = (x1 , x2 , . . . , xn ) → T (x) Bootstrap-Stichprobe: Ziehe n mal mit Zurücklegen zufällig aus (x1 , . . . , xn ). Wir erhalten x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ ). Beispiel: x = (1, 2, 5), n = 3. x∗ = (1, 1, 5) ist eine mögliche Bootstrap-Stichprobe. Also: (1) Werte aus der ursprünglichen Stichprobe x können in der Bootstrap-Stichprobe (i) einmal vorkommen, (ii) mehrfach vorkommen, (iii) gar nicht vorkommen. 4 (2) Die Bootstrap-Stichprobe hat ebenfalls Stichprobenumfang n. Skizze: x = (x1 , . . . , xn ) Daten @ ... @ @ @ @ @ x∗1 x∗2 x∗B T (x∗1 ) T (x∗2 ) T (x∗B ) ... B: Anzahl von Bootstrap-Stichproben Mit den berechneten Statistiken T (x∗1 ), . . . , T (x∗B ) lassen sich Aussagen über die Verteilung von T gewinnen, zum Beispiel ) ( B h i2 X 1 d Boot (T ) = T (x∗b ) − T̄Boot VarF (T ) ≈ Var B−1 b=1 mit T̄Boot B 1 X T (x∗b ). = B b=1 5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip i.i.d. X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt x = (x1 , x2 , . . . , xn ) Daten Empirische Verteilungsfunktion: n 1X F̂n (x) = I(xi ≤ x), n i=1 wobei I die Indikatorfunktion ist. Plug-In-Prinzip: F durch Fˆn ersetzen. 5 Beispiel 5.1. Z T (F ) = µ = xdF (x) Z T (F̂n ) = xdF̂n (x) = n X xi P̂n (X = xi ) (o.w.E. seien alle xi verschieden) i=1 n = 1X xi = x̄ n i=1 Plug-In-Prinzip hat Sinn, wenn keine weiteren Informationen über F vorhanden sind außer der Stichprobe. → nichtparametrisches Setup” ” 5.1.3 Reale Welt und Bootstrap-Welt Wiederum Einstichproben-Fall: $ ' ' $ Reale Welt Bootstrap Welt F → x = (x1 , . . . , xn ) F̂n → x∗ = (x∗1 , . . . , x∗n ) - ? ? θ̂∗ = T (x∗ ) θ̂ = T (x) & % & % • Die unbekannte Verteilung F liefert x als Zufallsstichprobe. • Die empirische Verteilung F̂n liefert x∗ als zufällige Bootstrap-Stichprobe. • Die interessierende Statistik θ̂ = T (x) ist Funktion der Zufallsstichprobe. • Die Bootstrap-Replikation θ̂∗ = T (x∗ ) ist Funktion der Bootstrap-Stichprobe. ⇒ Im Allgemeinen kann F bzw. F̂n in obiger Abbildung durch ein geschätztes Wahrscheinlichkeitsmodell P bzw. P̂n ersetzt werden. 6 5.1.4 Die ideale Bootstrap-Verteilung Daten x = (x1 , x2 , . . . , xn ). Frage: Wie viele verschiedene Bootstrap-Stichproben gibt es? Beispiel 5.2. Sei x = (1, 2, 5). Die Anordnung spielt hier keine Rolle. Wegen n = 3 gibt es 10 verschiedene Bootstap-Stichproben (wenn alle xi verschieden sind): (1, 1, 1), (2, 2, 2), (5, 5, 5), (1, 1, 2), (1, 1, 5), (2, 2, 5), (1, 2, 2), (1, 5, 5), (2, 5, 5), (1, 2, 5). Die ideale Bootstrap-Schätzung ist die, welche sich durch Berücksichtigung aller möglichen Bootstrap-Stichproben ergibt. Die ideale Bootstrap-Schätzung zum Beispiel für die Varianz von θ̂ = median(X) in Beispiel 5.2 wäre dabei die Varianz über die 10 Bootstrap-Stichproben. Dabei ist allerdings zu berücksichtigen, dass die Stichproben mit unterschiedlicher Wahrscheinlichkeit gezogen werden. Beispiel 5.3 (Fortsetzung von Beispiel 5.2). Mit Hilfe der Multinomialverteilung erhält man 3 0 0 3 1 1 1 1 1 = = , 3 3 3 3 27 0 1 2 3 3! 1 1 1 1 1 = · =3· = , 0!1!2! 3 3 3 3 9 3 3! 1 1 1 1 2 = · =6· = , 1!1!1! 3 3 3 3 9 P x∗ = (1, 1, 1) = P x∗ = (2, 5, 5) P x∗ = (1, 2, 5) 3! · 3!0!0! denn zum Beispiel (2, 5, 5) = ˆ (5, 2, 5) = ˆ (5, 5, 2) =(1, ˆ 2, 5) = ˆ ... = ˆ (5, 2, 1). Betrachte θ̂ = median(X). Dann ist θ̂(x) = 2 die Schätzung aus der Stichprobe und 3 1 (1 − c)2 + (2 − c)2 + (5 − c)2 VarF̂n (θ̂ ) = 3 ∗ + 3 · [(1 − c)2 + (1 − c)2 + (2 − c)2 + (2 − c)2 + (5 − c)2 + (5 − c)2 ] + 6 · (2 − c)2 = 2.32, wobei 3 1 [1 + 2 + 5 + 3 · (1 + 1 + 2 + 2 + 5 + 5) + 6 · 2] 3 3 3 1 1 68 = [8 + 3 · 16 + 12] = · 68 = ≈ 2.5 3 3 27 ¯ c = θ̂∗ = der Mittelwert aller geschätzten Mediane ist. 7 Allgemein gibt es, sofern alle n Datenpunkte x1 , . . . , xn verschieden sind, Bootstrap-Stichproben. 5 n=3: = 10 3 29 n = 15 : = 77 558 760 15 39 n = 20 : = 68 923 264 410 20 2n−1 n mögliche Das heißt, wenn n nicht sehr klein ist, dann ist es praktisch nicht möglich, die ideale Bootstrap Verteilung zu verwenden. Stattdessen begnügt man sich mit einer Anzahl B 2n−1 von n Bootstrap-Stichproben. 5.2 Bootstrap–Schätzung eines Standardfehlers i.i.d. Einstichproben-Fall: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt Daten: x = (x1 , . . . , xn ) Ziel dieses Abschnitts ist die Schätzung des Standardfehlers eines Schätzers θ̂ = θ̂(X) für θ = T (F ). Hierbei kann θ̂(X) die Plug-In-Schätzung T (F̂n ) sein, muss aber nicht. Frage: Wie gut ist die Schätzung θ̂? 5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers Algorithmus 1 : Bootstrap-Algorithmus zur Schätzung des Standardfehlers 1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne θ̂∗ (b), b = 1, . . . , B. q 3. Schätze den Standardfehler seF (θ̂) = VarF (θ̂) durch ( se bB = B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 ) 12 b=1 mit θ̂∗ (·) = B 1 X ∗ θ̂ (b). B b=1 Die Bootstrap-Schätzung für den Standardfehler seF (θ̂) einer Schätzung θ̂ (Daten aus F ) ist also der Standardfehler für zufällige Stichproben vom Umfang n gezogen aus F̂n mit Zurücklegen. Es gilt: lim se b B = seF̂n (θ̂∗ ). B→∞ 8 Die ideale Bootstrap-Schätzung seF̂n (θ̂∗ ) und die Approximation se b B werden oft als nichtparametrische Bootstrap-Schätzung bezeichnet, da sie nur auf F̂n beruhen und F̂n die nichtparametrische Schätzung für F ist. → Abschnitt 5.2.3: Parametrischer Bootstrap (F wird nicht mehr durch F̂n geschätzt). Beispiel 5.4. Zwei (quasi-) stetige Merkmale Y und Z werden an n Individuen erhoben, d.h. X = ((Y1 , Z1 ), (Y1 , Z1 ), . . . , (Yn , Zn )) , i.i.d. (Yi , Zi ) ∼ FY,Z . Gesucht: Schätzung für den Standardfehler des Korrelationskoeffizienten von Y und Z. 5.2.2 Anzahl der Replikationen Die Anzahl der Replikationen B wird durch folgende Überlegungen bestimmt: (i) Praktische Überlegungen: Wenn θ̂(x∗ ) eine komplizierte Funktion von x∗ ist, dann wird B kleiner sein müssen als wenn θ̂(x∗ ) eine einfache Funktion von x∗ ist. (ii) Genauigkeitsüberlegungen: Es gilt Var(se b B ) > Var seF̂n (θ̂∗ ) . | {z } ideale Bootstrap-Schätzung Die Frage ist, um wieviel die Varianz von se b B größer ist. Aus theoretischen Überlegungen ergibt sich, dass B = 200 im Einstichproben-Problem in der Regel ausreichend ist zur Schätzung eines Standardfehlers. Für Konfidenzintervalle werden deutlich mehr Replikationen benötigt (B ≈ 2000). 5.2.3 Parametrischer Bootstrap Definition 5.1. Die parametrische Bootstrap-Schätzung des Standardfehlers ist definiert durch seF̂n,par (θ̂∗ ) , wobei F̂n,par eine Schätzung von F, abgeleitet aus einem parametrischen Modell, ist. Beispiel 5.5. Sei X = ((Y1 , Z1 )0 , ..., (Yn , Zn )0 ) mit Yi i.i.d. ∼ FY,Z . Zi Annahme: FY,Z sei eine bivariate Normalverteilung und ȳ µ̂ = , z̄ Pn Pn 1 (yi − ȳ)2 (yi − ȳ)(zi − z̄) i=1 i=1 P P Σ̂ = . n n 2 n i=1 (yi − ȳ)(zi − z̄) i=1 (zi − z̄) 9 Das heißt, wir verwenden jetzt F̂n,par = N2 (µ̂, Σ̂) als Schätzung für F , und statt BootstrapStichproben aus den Daten zu ziehen, ziehen wir Bootstrap-Stichproben aus dieser bivariaten Normalverteilung: x∗1 x∗B = ((Y1∗1 , Z1∗1 )0 , . . . , (Yn∗1 , Zn∗1 )0 ) .. . = ((Y1∗B , Z1∗B )0 , . . . , (Yn∗B , Zn∗B )0 ) ∼ N2 (µ̂, Σ̂). Danach geht es weiter wie gewohnt! Beispiel 5.6 (Standardfehler für die Schätzung des Korrelationskoeffizienten θ). (i) Vergleich mit der Formel für die bivariate Normalverteilung: 1 − θ̂2 . se b N2 (µ,Σ) (θ̂) = √ n−3 (ii) Vergleich nach Fisher-Transformation: ! " 2 # 1 + θ̂ 1 1 + θ 1 1 approx. ∼ N log , √ . ξˆ = log 2 2 1−θ n−3 1 − θ̂ Um dieses Resultat auszunutzen, könnte Inferenz für ξˆ betrieben und anschließend durch Rücktransformation auf den wahren Korrelationskoeffizienten θ übertragen werden. 5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt i.i.d. Betrachte X = (X1 , . . . , Xn ) mit Xi ∼ Unif(0, θ). Bekannt sei das Maximum θ̂ML = X(n) . n Die Wahrscheinlichkeit, dass X(n) nicht in der Bootstrap-Stichprobe auftritt, ist 1 − n1 . Die Wahrscheinlichkeit, dass X(n) in der Bootstrap-Stichprobe vorkommt, ist also 1 n 1− 1− → 1 − e−1 ≈ 0.632 für n → ∞ . n Das heißt P (θ̂∗ = θ̂ML ) ≈ 0.632 für n → ∞, die Verteilung von θ̂∗ legt also eine Wahrscheinlichkeitsmasse von 0.632 auf den ML-Schätzer. Dieser wird also reproduziert und es gibt damit keinen Informationsgewinn aus diesen Stichproben! Problem: F̂n ist keine gute Schätzung für F in den extremen Bereichen von F . Beim parametrischen Bootstrap gilt dagegen X ∗ = (X1∗ , . . . , Xn∗ ) mit Xi∗ ∼ Unif(0, θ̂M L ) und deshalb P(θ̂∗ = θ̂M L ) = 0 . Also: Nichtparametrischer Bootstrap kann schiefgehen! 10 5.2.5 Zweistichproben-Problem für unabhängige Stichproben Seien Y1 , . . . , Y n i.i.d. ∼ F ) unabhängig, zum Beispiel i.i.d. Z1 , . . . , Z m ∼ G F : Behandlung G : Kontrolle und X = (Y1 , . . . , Yn , Z1 , . . . , Zm ) bzw. x = (y1 , . . . , yn , z1 , . . . , zm ). Ziel: Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ . |{z} |{z} E(Yi ) E(Zi ) Betrachte θ̂ = ȳ − z̄ . Vorgehen bei der b-ten Bootstrap-Stichprobe: y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n ∗b z ∗b = (z1∗b , . . . , zm ) zufällig mit Zurücklegen aus Ĝm Schätzung: ( se b F,G (θ̂) = seF̂n ,Ĝm (θ̂∗ ) ≈ se bB = |{z} | {z } | {z } Real World ideale Schätzung in der BootstrapWorld n m i=1 i=1 1 X ∗b 1 X ∗b yi − zi n m θ̂∗ (b) = ȳ ∗b − z̄ ∗b = θ̂∗ (·) = B B 1 X ∗b 1 X ∗ (ȳ − z̄ ∗b ) = θ̂ (b) . B B b=1 5.2.6 ) 12 b=1 Approx. der idealen BootstrapSchätzung mit und B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 b=1 Bootstrap für eine Zeitreihe Betrachte die Zeitreihe y1 , y2 , . . . , yT und die zentrierte Zeitreihe z1 , z2 , . . . , zT mit zt = yt − ȳ für t = 1, . . . , T . Annahmen: Es handelt sich um einen AR(1)-Prozess zt = βzt−1 + εt (t = 2, . . . , T ) i.i.d. mit Anfangsbedingung z1 , |β| < 1 und εt ∼ F für t = 2, . . . , T , F unbekannt und E(εt ) = 0. Die KQ-Schätzung für β lautet: T X (zt − βzt−1 )2 → min → β̂. β t=2 11 (Da hier keine Verteilungsannahme getroffen wurde, ist ML-Schätzung nicht möglich.) Gesucht: Schätzung für seF,β (β̂). Idee: Berechne Residuen ε̂2 ε̂T = z2 − β̂z1 , .. . = zT − β̂zT −1 . T − 1 Residuen Bezeichne mit F̂T −1 die empirische Verteilungsfunktion der ε̂2 , . . . , ε̂T . Dann erhält man die b-te Bootstrap-Stichprobe wie folgt: ∗b (i) Ziehe ε∗b 2 , . . . , εT zufällig mit Zurücklegen aus F̂T −1 . (ii) Berechne rekursiv z1 = y1 − ȳ z2∗b = β̂z1 + ε∗b 2 z3∗b = β̂z2∗b + ε∗b 3 .. . zT∗b = β̂zT∗b−1 + ε∗b T . (iii) Ermittle β̂ ∗b mittels KQ aus z2∗b , . . . , zT∗b . Damit: ( se b F,β (β̂) = seF̂T −1 ,β̂ (β̂ ∗ ) ≈ se b B (β̂ ∗ ) = B i2 1 X h ∗b β̂ − β̂ ∗ (·) B−1 b=1 mit β̂ ∗ (·) = B 1 X ∗b β̂ . B b=1 Andere Idee: Moving Block Bootstrap” (vgl. Efron und Tibshirani, 1993). ” 5.3 5.3.1 Bootstrap in Regressionsmodellen Bootstrap im linearen Modell > 1×p . Daten: (yi , x> i ), i = 1, . . . , n, für Response yi und Kovariablen xi ∈ R Wir stellen drei Bootstrap-Varianten anhand des linearen Modells yi = x > i β + εi mit i.i.d. εi ∼ F und E(εi ) = 0 12 ) 12 für i = 1, . . . , n vor. Analoge Erweiterungen auf GLMs sind möglich. Variante 1: (Nichtparametrischer) Bootstrap der Residuen Wir betrachten ein Wahrscheinlichkeitsmodell ( real world“) P = (β, F ), wobei β der Re” gressionsparameter und F die Verteilung der Residuen ist. ' $ ' $ Reale Welt Bootstrap-Welt P = (β, F ) → (ε1 , . . . , εn ) P̂ = (β̂, Fˆn ) → (ε∗1 , . . . , ε∗n ) - ? ? β̂ ∗ β̂ & % & % 1. Schritt: Berechne β̂ mit der KQ-Methode: β̂ = (X > X)−1 X > y. 2. Schritt: Berechne die Residuen ε̂ = (I − X(X > X)−1 X > )y = y − X β̂. 3. Schritt: Setze für die empirische Verteilung F̂n der Residuen eine Wahrscheinlichkeitsmasse n1 auf ε̂i , i = 1, . . . , n (ohne weitere Einschränkung seien alle Residuen verschieden). 4. Schritt: • Ziehe eine Stichprobe ε∗ = (ε∗1 , . . . , ε∗n ) aus F̂n . • Berechne neue“ Bootstrap-Zielvariablen ” ∗ yi∗ = x> i β̂ + εi für i = 1, . . . , n, d.h. y ∗ = X β̂ + ε∗ . • Berechne den Bootstrap-KQ-Schätzer β̂ ∗ = (X > X)−1 X > y ∗ . Ergebnis: In diesem speziellen Fall ist keine Monte–Carlo Simulation notwendig! Grund: VarF̂n (β̂ ∗ ) = (X > X)−1 X > VarF̂n (y ∗ )X(X > X)−1 = σ̂F2 (X > X)−1 , 13 da VarF̂n (y ∗ ) = VarF̂n (ε∗ ) = σ̂F2 I mit σ̂F2 = ε̂> ε̂ n (Modell mit Konstante). Damit ist hier: se b F (β̂j ) = seF̂ (β̂j∗ ) = se b ∞ (β̂j∗ ) = σ̂F q [(X > X)−1 ]jj . Hinweis: Es wurde vorausgesetzt, dass X eine Matrix von nicht zufälligen Werten ist (zum Beispiel eine Designmatrix in der Versuchsplanung). Wenn y und X > zufällig sind, wendet man das folgende Vektor-Sampling an. Variante 2: Vektor–Sampling ( Bootstrapping Pairs“) ” > Aus den Paaren (y1 , x1 ), . . . , (yn , x> n ) werden mit Zurücklegen die Bootstrap-Stichproben gezogen. Dann wird jeweils wieder β̂ ∗ berechnet und es geht weiter wie in Variante 1. Faustregel: Bootstrapping Pairs ist weniger anfällig gegenüber Verletzungen der Annahmen als Bootstrapping der Residuen. Variante 3: Parametrischer Bootstrap Für die Fehler wird eine Verteilungsannahme εi ∼ Fpar , zum Beispiel εi ∼ N (0, σ 2 ), getroffen. 1. Schritt: Berechne β̂KQ und σ̂F2 . 2. Schritt: ∗ ∗ 2 Setze yi∗ = x> i β̂KQ + εi , wobei εi ∼ N (0, σ̂F ). Hier ist ebenfalls keine Monte-Carlo Simulation notwendig. Fazit: Nur bei Variante 2 ist Monte-Carlo Simulation notwendig. 5.3.2 Bootstrap im generalisierten linearen Modell Erweiterungen auf generalisierte lineare Modelle sind prinzipiell möglich. Allerdings stellt sich die Frage, welche Residuen im Fall von Bootstrap der Residuen verwendet werden sollen, wenn y Zählgröße (Poissonverteilung) oder y binär (Binomialverteilung). Hier ist konzeptionell das Vektor-Sampling wesentlich einfacher. 14 5.3.3 Weitere Anwendungen Beispiel 5.7. Nichtparametrische Regression, zum Beispiel LOESS (sprich: Low S) Schätzung: y = f (x) + ε. Hier wird der Standardfehler punktweise geschätzt. geschätzter Standardfehler ● 100 ● ● 80 60 f(x) 40 20 ● 0 ● ● ●● ● ● ● ● −20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ●● 0 ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 60 80 100 x 5.4 Bias-Schätzung mittels Bootstrap Seien X1 , . . . , Xn i.i.d. mit Verteilungsfunktion F , wobei F unbekannt, θ = T (F ) und θ̂ = T (Fˆn ) oder θ̂ = θ̂(x). Der Bias von θ̂ ist BiasF (θ̂, θ) = EF (θ̂) − θ = EF (θ̂) − T (F ) . Die Bootstrap-Bias-Schätzung erhalten wir wieder mit dem üblichen Prinzip: • F durch Fˆn ersetzen, • θ̂ durch θ̂∗ ersetzen, • θ durch θ̂ = T (F̂n ) ersetzen. Also: d F (θ̂, θ) = Bias (θ̂∗ , θ̂) = E [θ̂∗ ] − T (F̂n ) . Bias F̂n F̂n Bemerkung. θ̂ kann die Plug-In-Schätzung sein, muss es aber nicht. 15 Im Allgemeinen muss wieder die ideale Bootstrap-Bias-Schätzung BiasF̂n durch eine MonteCarlo Simulation approximiert werden: Sind x∗1 , . . . , x∗B unabhängige Bootstrap-Stichproben, dann kann mit θ̂∗ (·) = B 1 X ∗ θ̂ (b) B b=1 der Bias d B = θ̂∗ (·) − T (F̂n ) Bias | {z } θ̂ d B gleichzeitig und auf Basis derselben Bootberechnet werden. Somit können se b B und Bias strapstichproben berechnet werden. 5.4.1 Bias-Korrektur Einen Bias-korrigierten Schätzer erhält man durch dB θ = θ̂ − Bias = θ̂ − [θ̂∗ (·) − θ̂] = 2θ̂ − θ̂∗ (·) . Anmerkungen: 1. θ̂∗ (·) selbst ist keine Bias-korrigierte Schätzung. 2. θ kann eine wesentlich größere Varianz als θ̂ haben. Deshalb kann eine Bias-Korrektur in der Praxis gefährlich“ sein. ” 3. Bias-Schätzung ist schwieriger als Varianz-Schätzung oder als die Schätzung des Standardfehlers. 4. Jackknife Varianz- und Bias-Schätzungen versagen, wenn T nicht glatt“ ist, zum Bei” spiel beim Median. Bootstrap klappt hier, es sei denn, die Verteilung ist komisch“. ” Dies zum Beispiel der Fall, wenn die Varianz nicht endlich ist. 16 Allgemeines Schema für ein beliebiges Wahrscheinlichkeitsmodell P : ' $ ' $ Reale Welt Bootstrap Welt Wahrscheinlichkeitsmodell unbekannt geschätztes Wahrscheinlichkeitsmodell P −−−→ x = (x1 , . . . , xn ) P̂ −−−→ x∗ = (x∗1 , . . . , x∗n ) - ? ? θ = θ(P ) ? θ̂ = T (x) ? θ̂ = θ(P̂ ) HH HH j HH 5.5 5.5.1 HH j = T (x∗ ) BiasP̂ (θ̂∗ , θ̂) BiasP (θ̂, θ) & θ̂∗ % & % Bootstrap-Konfidenzintervalle Einleitung Übliches 90%-Konfidenzintervall: θ̂ ± 1.645 · se. b Übliches 95%-Konfidenzintervall: θ̂ ± 1.96 · se. b Dabei kann se b auch Bootstrap-Schätzung sein. Die Begründung dafür ist meist: Z= θ̂ − θ se b approx. ∼ N (0, 1) (asymptotische Aussage) . Die asymptotische Verteilung ist (approximativ) unabhängig von θ; Z wird approximatives Pivot genannt. Wenn n klein ist, können die Quantile der Normalverteilung durch die Quantile der t-Verteilung ersetzt werden: (1−α/2) θ̂ ± tn−1 Idee: · se b . Annahme der Normalverteilung vermeiden, Verteilung von Z aus den Daten schätzen. Dies wird in den folgenden Abschnitten beschrieben. 17 5.5.2 Bootstrap-t-Intervall Betrachte Z= θ̂ − θ , se b (5.1) wobei se b zunächst irgendeine vernünftige” Schätzung des Standardfehlers von θ̂ darstellt. ” Idee: Schätze Verteilung von Z wie folgt: 1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne Z ∗ (b) = θ̂∗ (b) − θ̂ , se b ∗ (b) wobei se b ∗ (b) eine Schätzung des Standardfehlers von θ̂∗ (b) ist. Ordne die Z ∗ (b) aufsteigend der Größe nach. 3. Schätze die Quantile t̂(α) und t̂(1−α) (für ein (1 − 2α)-Konfidenzintervall) als # Z ∗ (b) ≤ t̂(α) =α. B Dabei bezeichnet #A die Kardinalität einer Menge A. Beispiel: Für B = 1000 ist t̂(0.05) der 50. Wert der geordneten Z ∗ (b)-Werte, t̂(0.95) ist der 950. Wert der geordneten Z ∗ (b)-Werte. 4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann h i θ̂ − t̂(1−α) · se, b θ̂ − t̂(α) · se b mit se b aus Formel (5.1). Analogie zur t-Verteilung: h i θ̂ − t1−α · se, b θ̂ + t1−α · se b 18 (t1−α = −tα ) . Beachte: Wenn Bα nicht ganzzahlig ist und α ≤ 21 , dann wähle k = b(B + 1)αc, das ist die größte ganze Zahl ≤ (B + 1)α. Die empirischen Quantile sind dann der k-te Wert der geordneten Z ∗ (b)-Werte und der (B + 1 − k)-te Wert. Probleme: 1. Das Bootstrap-t-Intervall kann stark durch Ausreißer beeinflusst werden. 2. Betrachte nochmals Z ∗ (b) = Wie kann man se b ∗ (b) schätzen? θ̂∗ (b) − θ̂ . se b ∗ (b) (i) Wenn θ̂ der Mittelwert ist: ( n )1 2 X 1 ∗b 2 (x∗b − x̄ ) se b ∗ (b) = i n (Plug-In-Schätzung). i=1 (ii) Wenn θ̂ komplizierter bzw. keine Standardformel verfügbar ist: → Nested Bootstrap: Es ist eine Bootstrap-Schätzung des Standardfehlers für jede Bootstrap-Stichprobe notwendig, zum Beispiel sind für B = 1000 und B ∗ = 50 BB ∗ = 1000 · 50 = 50 000 Stichproben notwendig. Wir samplen also auf zwei verschachtelten Ebenen: Real World → Bootstrap-World → Nested Bootstrap-World. Vorteil: Dieser Vorgang ist parallelisierbar (im Gegensatz zu MCMC, wo die Kette nicht parallelisierbar ist). 3. Das Bootstrap-t-Intervall wird von der Skala des Parameters beeinflusst, es ist nicht invariant gegenüber Transformationen. Bei kleinen Stichproben in nichtparametrischem Setup kann irreguläres Verhalten auftreten; hier kann jedoch eine Transformation der Parameter zuverlässigere Ergebnisse liefern. Beispiel 5.8 (Transformation des Korrelationskoeffizienten). Sei θ der Korrelationskoeffizient. Ein Konfidenzintervall für θ können wir auf die folgenden zwei Weisen erhalten: (i) Bootstrap-t-Intervall für θ direkt. (ii) Bootstrap-t-Intervall für φ= 1 log 2 1+θ 1−θ (Fishersche Z-Transformation) und dann Rücktransformation der Endpunkte mittels der Umkehrung θ= e2φ − 1 e2φ + 1 liefert ein kürzeres (= besseres) Konfidenzintervall als das Intervall in (i). 19 Ergebnis: 5.5.3 Idee: 1. Bootstrap-t nur für einfache Probleme verwenden, wenn θ ein Lokalisationsparameter, zum Beispiel Median, trimmed mean oder Quantil ist. 2. In komplexen Fällen ist eine Varianzstabilisierung notwendig. Bootstrap-Perzentil-Intervall Verwende direkt die empirische Verteilung der Schätzer θ̂∗ aus den B BootstrapStichproben. Also: 1. Ziehe x∗1 , . . . , x∗B B Bootstrap-Replikationen ↓ ↓ θ̂∗ (1), . . . , θ̂∗ (B) mit θ̂∗ (b) = T (x∗b ). ∗ , . . . , θ̂ ∗ . 2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1) (B) 3. Berechne Bα und B(1 − α) (bzw. bei nicht-ganzzahliger Anzahl eine Modifikation wie ∗(α) ∗(1−α) in Abschnitt 5.5.2) und bezeichne mit θ̂B bzw. θ̂B die Werte an den jeweiligen Positionen in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist h i h i ∗(α) ∗(1−α) θ̂lower , θ̂upper = θ̂B , θ̂B ein approximatives (1 − 2α)-Konfidenzintervall. Beispiel: Für B = 2000 und α = 0.05 wähle den 100. und 1900. Wert aus der geordneten Liste. Alternative Schreibweise: Bezeichne mit ĜB die empirische Verteilung der θ̂∗ . Dann ist h i h i θ̂lower , θ̂upper = Ĝ−1 (α), Ĝ−1 (1 − α) . Vorteile der Perzentil-Methode: (i) Sie ist invariant gegenüber (streng monotonen) Transformationen. (ii) Sie ist range-preserving, d.h. das Perzentil-Intervall liegt im zulässigen Bereich des Parameters. Beispiel: Für den Korrelationskoeffizienten liegt das Intervall der Perzentil-Methode im Bereich [−1, 1]. Problem: In der Regel Unterdeckung, d.h. die Intervalle sind häufig zu optimistisch. Lemma 5.2 (Perzentil-Intervall-Lemma). Seien φ = m(θ) und φ̂ = m(θ̂) eineindeutige Transformationen. Angenommen, φ̂ = m(θ̂) normalisiere die Verteilung von θ̂ perfekt, d.h. φ̂ exakt, nicht nur approx. ∼ N (φ, c2 ) 20 für eine Standardabweichung c. Dann ist das Perzentil-Intervall basierend auf θ̂ gleich h i m−1 (φ̂ − z (1−α) · c), m−1 (φ̂ − z (α) · c) mit den Quantilen z (α) , z (1−α) der Standardnormalverteilung. Das Lemma besagt, dass die Perzentil-Methode immer die korrekte Transformation wählt. Diskussion: 5.5.4 • Die Perzentil-Methode ist sehr einfach. • Die Perzentil-Methode ist nicht der Weisheit letzter Schluss. Wenn θ̂ ein Schätzer mit Bias ist, gibt es Alternativen (siehe Abschnitt 5.5.4). Bootstrap-BCa -Intervall BCa bedeutet bias–corrected and accelerated“. ” → (Theoretische) Verbesserung gegenüber Bootstrap–t und der Perzentil–Methode. → Löst nicht das Problem kleiner Stichprobenumfänge. → Standard-Konfidenzintervalle mit Normalverteilungsquantilen oder den Quantilen der t-Verteilung können schlecht sein, da sie Symmetrie erzwingen. Annahmen für die Konstruktion von BCa -Intervallen: • Der Schätzer θ̂ und der geschätzte Standardfehler se ˆ von θ̂ sind bereits gegeben (se b eventuell durch Bootstrap). • Modellannahme: Es existiert eine streng monoton wachsende Transformation φ = m(θ), so dass φ̂ = m(θ̂), φ̂ ∼ N φ − z0 (φ)se(φ), (se(φ))2 mit se(φ) = 1 + aφ (lineare Funktion in φ). Die letzte Annahme steht in Analogie zu θ̂−θ se ∼ N(0, 1), aber : • se hängt von φ ab! • Die Transformation m(·) sowie die Funktion z0 (φ) und die Konstante a beschreiben die Abweichung vom einfachen Fall. • Die Abhängigkeit von z0 (φ) von φ bedeutet, dass der Bias vom wahren Parameter abhängt. 21 • Der Parameter a steuert, wie stark sich eine Veränderung in φ auf die Varianz von φ̂ auswirkt (a: acceleration, Beschleunigung). Umformung liefert: φ̂ − φ + z0 (φ)se(φ) se(φ) = φ̂ − φ + z0 (φ) se(φ) = φ̂ − φ + z0 (φ) 1 + aφ | {z } keine Pivotgröße, da abhängig vom unbekannten φ ∼ N(0, 1). Berechnungen mit dem Ziel, m(·) zu eliminieren, liefern ein BCa –Intervall : " ! !# (α) (1−α) ẑ + z ẑ + z 0 0 Φ ẑ0 + , Φ ẑ0 + . Ĝ−1 B 1 − â(ẑ0 + z (α) ) 1 − â(ẑ0 + z (1−α) ) Dabei ist Φ die Verteilungsfunktion der Standardnormalverteilung, z (α) und z (1−α) sind die Quantile der Standardnormalverteilung, und ĜB ist die Bootstrap–Verteilung der θ̂∗ (b), b = 1, . . . , B. ẑ0 und â müssen geschätzt werden. Vorschlag: n o # θ̂∗ (b) < θ̂ ẑ0 = Φ−1 (ĜB (θ̂)) = Φ−1 B und Pn − θ̂(i) )3 hP n )2 i=1 (θ̂(·) â = 6 i=1 (θ̂(.) − θ̂(i) i3 2 mit den Jackknife–Schätzungen θ̂(i) = θ̂(·) = Schätzung basierend auf der Stichprobe ohne die i–te Beobachtung und n 1X θ̂(i) . n i=1 5.5.5 ABC–Methode ABC steht für approximate bootstrap confidence intervals“. Die Methode liefert approxi” mative Bootstrap–Konfidenzintervalle mittels quadratischer Taylor–Entwicklung ohne Simulation. 5.5.6 Smooth–Bootstrap“ ” Addiere ε (möglichst klein) zu jeder Beobachtung. Dabei gilt: ε ∼ N (0, √1n ). 22 5.6 Kreuzvalidierung und Vorhersagefehler Als Vorhersagefehler im Regressionsmodell betrachtet man die erwartete Differenz zwischen zukünftigem und vorausgesagtem Response, E(y − ŷ)2 . In einem (ungeordneten) Klassifikationsproblem ist der Vorhersagefehler als die Wahrscheinlichkeit einer Fehlklassifikation, P (ŷ 6= y), definiert. Dieser Abschnitt beschäftigt sich mit der Schätzung des Vorhersagefehlers in beiden Problemstellungen. Eine mögliche Schätzung des Vorhersagefehlers innerhalb der Stichprobe im Regressionsmodell ist n 1X (yi − ŷi )2 n i=1 bzw. n 1 X (yi − ŷi )2 , n−p i=1 wobei p die Anzahl der Prädiktorvariablen bezeichnet. Diese Schätzung ist allerdings zu optimistisch, d.h. der wahre Vorhersagefehler wird unterschätzt, da die gleichen Daten für Anpassung und Beurteilung des Modells verwendet werden. Somit sind die Testdaten gleich den Trainingsdaten. Ideale Situation: 0 . • Verwende als Testdaten neue Daten y10 , . . . , ym • Verwende das Modell, das aus den Trainingsdaten y1 , . . . , yn geschätzt wird, zur Vor0 . hersage von y10 , . . . , ym • Schätze den Vorhersagefehler durch m 1 X 0 (yi − ŷi0 )2 . m i=1 Meist sind jedoch keine zusätzlichen Daten verfügbar. Falls doch, können Heterogenitätsprobleme auftauchen. An dieser Stelle setzt die Kreuzvalidierung an. Bei größeren Datensätzen teilt man den Datensatz in zwei ungefährt gleich große Teile auf und benutzt diese als Trainings- und Testdaten. In der Praxis ist dies jedoch unbeliebt; zusätzliche Einflüsse, die durch die unterschiedliche Aufteilung zustande kommen, müssen berücksichtigt werden. Bei kleineren Datensätzen ist eine beliebte Methode die k–fache Kreuzvalidierung. Hier werden die Daten in K ungefähr gleich große Teile geteilt und für jedes k = 1, . . . , K das Modell für den k-ten Teil auf Basis der anderen K − 1 Teile geschätzt. 23 Veranschaulichung für K = 6: 1 1 2 2 3 3 1 — yi 2 3 ...... 4 4 4 5 5 5 6 6 6 k=1 k=2 Trainingsdaten k=K Testdaten Sei k(i) der Teil, der die i-te Beobachtung yi enthält. In der obigen Graphik gilt zum Beispiel −k(i) k(i) = 2. Dann bezeichnet ŷi die Vorhersage für yi , berechnet ohne den Teil k(i), also ohne den Teil, der yi enthält. Die Schätzung des Vorhersagefehlers durch Kreuzvalidierung ist gegeben durch n CV = 1 X −k(i) 2 yi − ŷi . n i=1 Oft verwendet man K = n, was als leave–one–out“–Kreuzvalidierung bezeichnet wird. Diese ” ist allerdings sehr aufwändig für großes n und komplexe Regressionsverfahren; ein weiterer Nachteil ist die starke Variabilität. 5.6.1 Bootstrap–Schätzung des Vorhersagefehlers Am Beispiel der Regression soll erläutert werden, wie man mit Bootstrap prinzipiell den Vorhersagefehler schätzen kann. Betrachte Y1 Y2 .. . Z1> Z2> Yn Zn> Daten X Ziel: Vorhersage einer neuen Beobachtung (Y0 |Z0> , x) aus der Populationsverteilung F . 24 Also: x −→ −→ Modell|x −→ Prädiktor ηx (Z0 ) für Y0 Vorhersagefehler. Die Vorhersage ηx (Z0 ) beruht somit auf dem Modell, das auf x basiert. Der Vorhersagefehler für ηx (Z0 ) ist definiert durch err(x, F ) ≡ E0F (Q(Y0 , ηx (Z0 )) mit Q als Verlustfunktion, zum Beispiel Q[y, η] = (y − η)2 . E0F steht für die Erwartung über eine neue Beobachtung (Y0 , Z0> ) aus F . Der scheinbare Fehler (apparent error in sample) ist n 1X err(x, F̂n ) = E0F̂n (Q(Y0 , ηx (Z0 )) = Q[yi , ηx (zi )]. n i=1 Dieser Fehler ist jedoch zu optimistisch. Mit dem Plug–In–Prinzip erhält man eine verbesserte Schätzung wie folgt: Seien x∗1 , . . . , x∗B B Bootstrap-Stichproben mit > > x∗1 = {(y1∗1 , z1∗1 ), . . . , (yn∗1 , zn∗1 )} .. . > > x∗B = {(y1∗B , z1∗B ), . . . , (yn∗B , zn∗B )} . Dann ist (für beliebiges b) n 1X err(x , F̂n ) = Q[yi , ηx∗b (zi )] n ∗b i=1 eine Plug–In–Schätzung für err(x, F ). Dabei sind yi und zi aus der Originalstichprobe. Somit wird das Modell, das auf der Basis von x∗b berechnet wird, zur Schätzung des Vorhersagefehlers in der ursprünglichen Stichprobe verwendet. Wir möchten aber eine Schätzung für den durchschnittlichen Vorhersagefehler (average prediction error ) EF [err(x, F )]: EF [err(x, F )] ↓ ideale Bootstrap–Schätzung ( ∗ EF̂n [err(x , F̂n )] = EF̂n ) n 1X Q[yi , ηx∗ (zi )] n i=1 ↓ approximative Bootstrap–Schätzung B n 1 X1X ÊFˆn [err(x , F̂n )] = Q[yi , ηx∗b (zi )] . B n ∗ b=1 25 i=1 (5.2) Vergleiche ÊF̂n [err(x∗ , F̂n )] mit dem sogenannten in bootstrap-sample error ÊF̂n [err(x∗ , F̂n∗ )] = B n 1 X1X Q[yi∗b , ηx∗b (zi∗b )]. B n b=1 i=1 Dabei ist F̂n∗ die empirische Verteilungsfunktion, die sich aus x∗ ergibt. Dieser Fehler ist im Allgemeinen zu optimistisch. Für eine Bias-Korrektur betrachtet man den average optimism: w(F ) = EF (err(x, F )) − EF (err(x, F̂n )) | {z } average apparent error ↓ Plug–In Prinzip, ideale Bootstrap–Schätzung w(F̂n ) = EF̂n (err(x∗ , F̂n )) − EF̂n (err(x∗ , F̂n∗ )) ↓ 1 ŵ(F̂n ) = Bn approximative Bootstrap–Schätzung ( B n XX Q[yi , ηx∗b (zi )] − b=1 i=1 B X n X ) Q[yi∗b , ηx∗b (zi∗b )] . b=1 i=1 Die endgültige Schätzung des Vorhersagefehlers err(x, F̂n ) + w(F̂n ) erfolgt durch n 1X Q[yi , ηx (zi )] + ŵ(F̂n ) . n i=1 | {z } (5.3) in sample, Orginaldaten Fazit: (5.3) ist besser als (5.2). 5.6.2 Der 0.632 Bootstrap–Schätzer Idee: Verwende für die Schätzung des Vorhersagefehlers nur die Fälle, die in der jeweiligen Bootstrap–Stichprobe nicht enthalten sind. Die Wahrscheinlichkeit, dass ein Fall in der Bootstrap–Stichprobe ist, ergibt sich zu: 1 n 1− 1− ≈ 0.632. n 26 Der geschätzte Fehler ist dann err c 0.632 = err(x, F̂n ) +0.632 (ε̂0 − err(x, F̂n )) | {z } apparent error = 0.368 err(x, F̂n ) + 0.632 ε̂0 mit n X X 1 1 ε̂0 = Q[yi , ηx∗b (zi )] . Bi n i=1 b∈Ci Dabei ist Ci : Menge aller Indizes der Bootstrap–Stichproben, die Beobachtung i nicht enthalten. Bi : Anzahl der Bootstrap–Stichproben, die Beobachtung i nicht enthalten. 5.7 Konsistenz, Subsampling, Ziehen ohne Zurücklegen 5.7.1 Konsistenz Notation: F sei unbekannte Verteilung der Population, F (c) = P(X ≤ c), F ∈ F, wobei F die Menge der zugelassenen Verteilungen bezeichnet. Betrachte i.i.d. • die Zufallsvariablen X = (X1 , . . . , Xn ) mit Xi ∼ F , beobachtet x = (x1 , . . . , xn ), • die Statistik Tn = Tn (X), beobachtet Tn (x). Die exakte Verteilung von T unter F sei Gn,F (c) = PF (Tn ≤ c), die asymptotische Verteilung von T unter F G∞,F (c). Bootstrap-Schätzung: Ersetze Gn,F (c) = PF (Tn ≤ c) durch Gn,F̂n (c) = PF̂n (Tn∗ ≤ c) mit Tn∗ = Tn (X1∗ , . . . , Xn∗ ), genauer: PF̂n (Tn∗ ≤ c) = o 1 n ∗b # b = 1, . . . , B Tn∗b = Tn (x∗b , . . . , x ) ≤ c . 1 n B 27 Definition 5.3. Die Bootstrap-Schätzung Gn,F̂n (·) ist konsistent, wenn für alle ε > 0 und F ∈ F gilt: h i lim Pn supGn,F̂n (c) − G∞,F (c) > ε = 0. n→∞ c Satz 5.4 (Beran und Ducharme, 1991). Sei ρ eine Metrik auf dem Raum der zugelassenen Verteilungsfunktionen. Die Bootstrap-Schätzung Gn,F̂n (·) ist konsistent, wenn für alle ε > 0 und F ∈ F gilt: (i) limn→∞ Pn [ρ(F̂n , F ) > ε] = 0 und (ii) G∞,F (c) eine stetige Funktion in c für F ∈ F ist und (iii) für jedes c und jede Sequenz {Hn } mit Hn ∈ F für alle n, für die limn→∞ ρ(Hn , F ) = 0 gilt, folgt, dass Gn,Hn (c) −→ G∞,F (c) für n → ∞. Beispiel 5.9. Der Satz gilt zum Beispiel für die Menge F der Verteilungsfunktionen mit endlicher Varianz und die sogenannte Mallows Metrik ρ (auch Wasserstein oder Kantorovitch Metrik). Definition 5.5. Für r ≥ 1 sei Fr die Menge aller Verteilungsfunktionen F , für die Z ∞ |x|r dF (x) < ∞ −∞ gilt. Seien F und G ∈ Fr . Die Mallows Metrik ρr (F, G) ist definiert durch ρr (F, G) = inf n E |X − Y |r TX,Y o1/r , wobei TX,Y die Menge aller gemeinsamen Verteilungen von Paaren von Zufallsvariablen X und Y ist, deren Randverteilungen F und G sind. Also, wenn F = F2 , dann ist ρ2 (F, G) = inf TX,Y n E (X − Y )2 o1/2 . Lemma 5.6 (Major, 1978). Für F, G ∈ F2 wird das Infimum durch folgende Bedingung erreicht: Sei U ∼ U (0, 1), X = F −1 (U ) und Y = G−1 (U ), wobei zum Beispiel F −1 (p) = inf{x ∈ R : F (x) ≥ p}. Dann gilt: 1/2 Z1 2 ρ2 (F, G) = F −1 (p) − G−1 (p) dp . 0 28 Lemma 5.7 (Bickel und Friedman, 1981). Wenn Fn ∈ F für alle n und F ∈ F, dann gilt ρ2 (Fn , F ) −→ 0 für n → ∞ genau dann, wenn für jede beschränkte stetige Funktion g : R → R folgende Bedingungen erfüllt sind: 1. lim +∞ R n→∞ −∞ 2. lim +∞ R n→∞ −∞ +∞ R g(x) dFn (x) = g(x) dF (x), −∞ |x|2 dFn (x) = +∞ R |x|2 dF (x). −∞ Der Satz zeigt für r = 2: Die Konvergenz in der Mallows Metrik ρr ist äquivalent zur Konvergenz in Verteilung zusammen mit der Konvergenz des r-ten absoluten Moments. Beispiel 5.10 (Horowitz, 2000). Sei weiterhin F2 die Menge der Verteilungen mit endlicher Varianz, und sei X̄ das arithmetische Mittel. Definiere √ Tn = n(X̄ − µ) , µ = E(X) und √ Gn,F (c) = Pn,F Gn,F̂n (c) = Pn,F̂n n(X̄ − µ) ≤ c , √ n(X̄ ∗ − X̄) ≤ c . Dabei ist Pn,F̂n die Bootstrap-induzierte Verteilung. Gn,F̂n (c) ist konsistente Bootstrap– Schätzung. Dazu können die drei Bedingungen aus Satz 5.4 gezeigt werden: (i) Glivenko-Cantelli, Gesetz der großen Zahlen. (ii) Lindeberg-Lévy, zentraler Grenzwertsatz: impliziert, dass Tn asymptotisch normalverteilt ist, und die Verteilungsfunktion der Normalverteilung ist stetig. (iii) Beweis mit Argumenten, mit denen man auch das Lindeberg-Lévy Theorem beweist. Satz 5.8 (Mammen,1992). Seien X1 , . . . , Xn ∼ F . Für eine Folge von Funktionen gn und eine Folge von Zahlen tn und σn definiere n ḡn = 1X gn (xi ), n i=1 Für die Bootstrap-Stichprobe x∗1 , . . . , x∗n Tn = ḡn − tn . σn definiere n ḡn∗ = 1X gn (x∗i ) n und Tn∗ = i=1 ḡn∗ − ḡn . σn Wieder sei Gn,F (c) = PF (Tn ≤ c), Gn,F̂n (c) = PF̂n (Tn∗ ≤ c), 29 wobei F̂n durch Bootstrap induziert ist. Dann gilt: Gn,F̂n (·) schätzt Gn,F (·) konsistent genau dann, wenn d → N (0, 1). Tn − Beispiel 5.11. Wenn E[gn (X)] und Var[gn (X)] für alle n existieren, dann gilt obiger Satz mit tn = E(ḡn ), σn2 = Var(ḡn ) oder σn2 n 1 X = 2 [gn (Xi ) − ḡn ]2 . n i=1 Dies ist zum Beispiel für gn (X) = X̄ und F ∈ F2 erfüllt. 5.7.2 Subsampling und Ziehen ohne Zurücklegen Idee: m-out-of-n Bootstrap, d.h. ziehe m mal aus der Stichprobe der Größe n - mit Zurücklegen, - ohne Zurücklegen. Beim Ziehen ohne Zurücklegen ist jede Stichprobe vom Umfang m < n eine Stichprobe aus F n (nicht aus F̂n ); es gibt m solcher Stichproben. Dieses Prinzip funktioniert unter extrem allgemeinen Bedingungen und kann zum Beispiel i.i.d. bei Problemen folgender Art eingesetzt werden: Seien X1 , . . . , Xn ∼ F . Die Verteilung F besitze die Dichte f . Sei P Xi ∈ [0, θ] = 1 für ein kompaktes Intervall [0, θ] und f (x) > 0 für x ∈ (0, θ], f (x) = 0 für x 6∈ (0, θ]. Der Parameter θ ( Maximum”) soll geschätzt werden (vgl. Gleichverteilung auf [0, θ]). Be” trachte θ̂ = max Xi . i=1,...,n Die Verteilung von θ̂ ist nicht asymptotisch normal. Man kann zeigen: n(θ̂ − θ) ist asymptotisch exponentialverteilt mit Parameter λ = 1 . f (θ) Der Bootstrap ist hier nicht konsistent, das Subsampling klappt jedoch mit m = nδ , δ ∈ (0, 1). Dabei steuert δ die Größe von m. δ muss in der Praxis also geeignet gewählt werden. 30 Kapitel 6 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametrisches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parameter θ ∈ Θ. Bisherige Grundannahme: Es existiert ein wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung ” des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt. ' $ Pθ •Pθ0 & •P0 % Fragen: • Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der datengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)? • Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswert korrekt spezifiziert ist (Quasi-Likelihood)? • Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schätzgleichungen ! E s(θ) = 0 starten? Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme yi = x> i β + εi , εi i.i.d. ∼ N (0, σ 2 ) bzw. y|X ∼ N (Xβ, σ 2 I) ≡ Pθ , 31 θ = (β, σ 2 ). Mögliche Fehlspezifikationen: (a) Die N (0, σ 2 )-Annahme für die εi ist falsch, zum Beispiel könnte die wahre Verteilung die Doppel-Exponential-Verteilung (Laplace-Verteilung) sein: f (εi ) ∝ exp − |εi /σ| . φ(0, σ 2 ) Doppel-Exponential-Verteilung 0 Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzer im Zentrum und hat breitere Enden (heavy-tails). ⇒ Sie ist ausreißerunempfindlicher. (b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ 2 I. Wahre Kovarianzstruktur: Cov(y) = σ 2 W , zum Beispiel – W = diag(W1 , . . . , Wn ) (heteroskedastische Fehler) oder – W nichtdiagonal (korrelierte Fehler). (c) Die Erwartungswertstruktur ist falsch: E y 6= Xβ, zum Beispiel wegen – Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2 β2 oder β log x, – fehlender Regressoren. 6.1 ML-Schätzung bei Fehlspezifikation Wir beschränken uns auf den i.i.d. Fall: Seien X1 , . . . , Xn i.i.d. wie X ∼ g(x) und g(x) die wahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten n o Pθ = f (x|θ), θ ∈ Θ . Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), so ist das Modell korrekt spezifiziert. Falls kein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), ist das Modell fehlspezifiziert. ' f x|θ $ •g(x) ∼ P0 θ∈Θ & % 32 Definition 6.1 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ ist definiert durch g(X) D(g, fθ ) = Eg log , f (X|θ) d.h. Z D(g, fθ ) = log g(x) g(x) dx f (x|θ) für X stetig. Dabei wird der Erwartungswert bzgl. der wahren” Dichte bzw. Wahrscheinlich” keitsfunktion g(x) gebildet. Es gilt: D(g, fθ ) ≥ 0 mit ⇔ D(g, fθ0 ) = 0 g ≡ fθ0 . Also: D(g, fθ0 ) = 0 ⇔ Modell korrekt spezifiziert. Der Beweis erfolgt mit Ungleichung von Jensen. Bemerkung. Der (negative) Erwartungswert Z −Eg log g(X) = − g(x) log(g(x)) dx heißt Entropie von g. Sei θ0 der” Minimierer der Kullback-Leibler-Distanz: ” h n o n oi θ0 = argmin Eg log g(X) − Eg log f (X|θ) . θ∈Θ Da Eg n o log g(X) nicht von θ abhängt, gilt auch n o θ0 = argmax Eg log f (X|θ) . θ∈Θ Die Dichte f (x|θ0 ) liegt dann im Sinne der Kullback-Leibler-Distanz am nächsten” bei g. ” $ ' f (x|θ0 ) • & g• % 33 Der ML-Schätzer ist n θ̂n = argmax θ∈Θ Da 1 n n P 1X log f (xi |θ). n i=1 P log f (xi |θ) − → Eg log f (X|θ) (Gesetz der großen Zahlen), gilt vermutlich i=1 P → θ0 , θ̂n − das heißt der (Quasi-) ML-Schätzer konvergiert gegen jenes θ0 , dessen Dichte f (x|θ0 ) am nächsten bei g (bezüglich der Kullback-Leibler-Distanz) liegt. Genauer gilt: Satz 6.2 (Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation). 1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von λ(θ) ≡ Eg log f (X|θ) (bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei FisherRegularität) existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen ” Maximierern von n 1X log f (xi |θ) n i=1 mit P θ̂n − → θ0 . 2. Asymptotische Normalität: Es gilt √ d n(θ̂n − θ0 ) − →N 0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 ) mit ∂ log f (X|θ) ∂ log f (X|θ) > I1 (θ) ≡ Eg ∂θ ∂θ | {z }| {z } s1 (θ) s1 (θ)> und der (Quasi-) Fisher-Information 2 ∂ log f (X|θ) J1 (θ) = Eg − . ∂θ ∂θ> 34 Bemerkung. • Falls g(x) ≡ f (x|θ), also das Modell korrekt spezifiziert ist, gilt I1 (θ) = J1 (θ) (vergleiche Satz 2.16 aus Schätzen und Testen I), und man erhält die übliche asymptotische Normalverteilung des ML-Schätzers bei korrekter Modellspezifikation. • Informell gilt 1 −1 a −1 , θ , θ̂n ∼ N J (θ ) I (θ ) J (θ ) 0 0 1 0 0 1 1 n {z } | V (θ0 ) und V (θ0 ) wird geschätzt durch V̂ (θ̂n ) = J −1 (θ̂n ) I(θ̂n ) J −1 (θ̂n ) ( Sandwich”-Matrix) ” mit I(θ̂n ) = n X si (θ̂n ) s> i (θ̂n ) empirische Fisher-Matrix der Stichprobe, i=1 n X ∂ 2 log f (x |θ) i J (θ̂n ) = − > ∂θ ∂θ {z } θ=θ̂n i=1 | empirische beobachtete Informations-Matrix. ∂ 2 l(θ) ∂θ ∂θ > • Formal gilt: √ d n(θbn − θ0 ) → N (0, J1−1 (θ0 )I1 (θ0 )J1−1 (θ0 )). Bemerkung. 1. Im i.n.i.d. Fall gilt (informell): Sei l(θ, x) = logf (x|θ) und θ0 := argmax Eg l(θ, X) = argmax Eg θ θ ( n X ) li (θ, Xi ) , i=1 bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg (s(θ0 )) = 0. Außerdem θ̂n = argmax l(θ, x) bzw. s(θ̂n ) = 0. θ Dann gilt a θ̂n ∼ N θ0 , V̂ (θ̂n ) wie oben, nur mit fi (xi |θ) an Stelle von f (xi |θ). 35 2. Angenommen, der Modellparameter θe = (θ, α)> setze sich zusammen aus einem eigentlich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktion lautet dann ! e sθ (θ, α) sθ (θ) s(θ, α) = = . e sα (θ, α) sα (θ) Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die MLGleichung Eg (sθ (θe0 )) = 0 erfüllt, so gilt weiterhin a ⇒ Quasi-Likelihood. θ̂n ∼ N θ0 , V̂ (θ̂n ) 6.2 Quasi-Likelihood und Schätzgleichungen Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kovariablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schätzen, wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollständig spezifiziert ist? Beispiel 6.2. Seien Y1 , . . . , Yn i.i.d. wie Y ∼ f (Y |µ, σ 2 ), f symmetrisch um µ, aber nicht normal, etwa 1 −|y−µ0 |/σ P0 = f (y|µ0 ) = e (Laplace- oder Doppel-Exponential-Verteilung). 2σ Trotzdem wählt man die (Log-) Likelihood n 1 X ql(µ) = − 2 (yi − µ)2 + const 2σ i=1 der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man auf die Quasi-Scorefunktion n 1 X qs(µ) = 2 (yi − µ). σ i=1 Es gilt n 1 X E0 qs(µ0 ) = 2 (E0 (Yi ) −µ0 ) = 0, | {z } σ i=1 =µ0 also µ̂QML = ȳ wie üblich und wegen E0 Ȳ = µ0 erwartungstreu. Allerdings ist ȳ kein (asymptotisch) effizienter Schätzer mehr (die Rao-Cramer-Schranke wird nicht erreicht). Beispiel 6.3. Seien Y1 , . . . , Yn unabhängig, Yi ∼ N (µ0 , σi2 ) und ( n !) n Y X 1 1 (yi − µ0 )2 2 Qn P0 = φ(yi |µ0 , σi ) = exp − . 2 n/2 · 2 σ (2π) σ i i i=1 i=1 i=1 36 Dann wählt man als Quasi-Log-Likelihood: n 1X ql(µ) = − 2 i=1 yi − µ σ 2 , das heißt man ignoriert die Abhängigkeit der Varianz von i und berechnet qs(µ) = n 1 X (yi − µ), σ2 i=1 n 1 X E0 qs(µ) = 2 (µ0 − µ) = 0 σ ⇔ µ0 = µ, i=1 µ̂QML = ȳ, E(µ̂QML ) = µ0 erwartungstreu, aber Var0 (b µQML ) = Var0 (Ȳ ) = n n 1 X 2 1 X Var(Y ) = σi , i n2 n2 i=1 i=1 das heißt µ̂QML = ȳ ist ineffizient, aber (falls zum Beispiel σi2 ≤ c) konsistent und normalverteilt. Beispiel 6.4 (Lineares Modell). Standard–Annahme: 2 yi |xi ∼ N (x> i β, σ ) bzw. y|X ∼ N (Xβ, σ 2 I) . Mögliche Fehlspezifikationen: (a) Normalverteilungsannahme falsch, (b) Kovarianzstruktur Cov y = σ 2 I falsch, (c) Erwartungswertstruktur E y = Xβ falsch. zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und das Erwartungswertmodell korrekt sind. Es gilt: E0 y = Xβ0 ist das wahre Modell. s(β) = 1 > X (y − Xβ) σ2 E0 s(β0 ) = 0 Dabei ist E0 s(β0 ) der Erwartungswert im wahren Modell vom wahren Parameter. Es ergibt sich β̂QML = β̂KQ = (X > X)−1 X > y 37 mit E0 (β̂QML ) = (X > X)−1 X > Ey = β0 > 2 −1 Cov0 (β̂QML ) = σ (X X) also (erwartungstreu), , a β̂QML ∼ N (β0 , σ 2 (X > X)−1 ). Damit ist β̂QML effizient. zu (b): Die wahre Kovarianzmatrix ist σ 2 W statt σ 2 I: P0 : y ∼ N (Xβ0 , σ 2 W ) E0 s(β0 ) = 0 β̂QML = (X > X)−1 X > y E0 (β̂QML ) = (X > X)−1 X > Xβ0 = β0 Cov0 (β̂QML ) = (X > X)−1 X > Cov0 (Y )X(X > X)−1 = σ 2 (X > X)−1 X > W X(X > X)−1 ( 6= σ 2 (X > X)−1 ) β̂QML ist konsistent, aber nicht effizient. (Ein effizienter Schätzer wäre der β̂AITKEN = (X > W −1 X)−1 X > W −1 y.) gewichtete KQ– bzw. Aitken–Schätzer zu (c): Der wahre Erwartungswert ist ungleich Xβ: wahrer Erwartungswert: E0 y = µ0 = X0 β0 ⇒ wahres Modell: y ∼ N (X0 β0 , σ 2 I) (falls N und σ 2 I = Cov0 (y) richtig). Dann ist β̂QM L = (X > X)−1 X > y E0 (β̂QM L ) = (X > X)−1 X > X0 β0 6= β0 . Somit ist β̂QM L verzerrter Schätzer, aber liefert das best–approximierende lineare Modell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch: Cov0 (β̂QM L ) = (X > X)−1 X > Cov0 (y) X(X > X)−1 = σ 2 (X > X)−1 . | {z } σ2 I Fazit aus den Beispielen: • Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwartungswertstruktur Eyi = µi = x> i β korrekt spezifiziert ist, erhält man konsistente Schätzer für µ bzw. β. 38 • Es genügt sogar, die Nullstelle der Quasi–Scorefunktion ! qs(µ̂) = 0 bzw. ! qs(β̂) = 0 zu bestimmen. Falls für das wahre“ µ0 bzw. β0 ” E0 qs(µ0 ) = 0 , E0 qs(β0 ) = 0 gilt, dann ist die Nullstelle µ̂ bzw. β̂ konsistent und asymptotisch normalverteilt für µ bzw. β. ⇒ Idee der Schätzgleichungen“ (estimating equations): ” Definiere eine Schätzfunktion oder Quasi–Scorefunktion qs(θ) = n X ψi (yi , θ) i=1 so, dass für den wahren“ Parameter θ0 ” E0 qs(θ0 ) = n X E0 [ψi (yi , θ0 )] = 0 i=1 erfüllt ist. Dann ist der Quasi–ML–Schätzer oder M–Schätzer“ definiert als Nullstelle ” ! qs(θ̂QM L ) = 0 (Schätzgleichung) der Schätzfunktion qs(θ). Beispiel 6.5 (Generalisierte Regression). Sei E0 yi = µi (β) Var0 yi = φ vi (β) korrekt spezifiziert , (eventuell) fehlspezifiziert . Es gilt: E0 s(β) = 0. Es wird nur eine Annahme hinsichtlich der Schätzgleichung getroffen, jedoch nicht für die Verteilung: n 1 X ∂µi (β) vi (β)−1 (yi − µi (β)) s(β) = | {z } φ ∂β i=1 ∝ n X i=1 E(yi )−µi (β)=0 ∂µi (β) ∂β vi (β)−1 (yi − µi (β)) hat Erwartungswert 0 und ! s(β̂) = 0 . ⇒ β̂ ist konsistent und asymptotisch normalverteilt. Speziell: generalized estimating equation“ (wie in GLM: µi (β) = x> i β). ” 39 Beispiel 6.6 ((Binäre) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Datenpaare (yij , xij ) , i = 1, . . . , n , j = 1, . . . , ni , seien je ni wiederholte Beobachtungen an Individuen oder in Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n. ” ni : Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster yij : Zielvariable xij : Kovariablenvektor yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert E(yij |xij ) = h(x> ij β) = µij . Die Schätzgleichungen bei Vernachlässigung von (zeitlichen) Korrelationen zwischen den Messwiederholungen lauten ni n X X ! qs(β) = xij wij (β)(yij − h(x> ij β)) = 0 i=1 j=1 mit Eβ0 qs(β0 ) = 0, wobei die wij (β) geeignete Gewichte sind. Somit ist β̂QML konsistent und asymptotisch normal, jedoch unter Effizienzverlust. 6.3 M–Schätzer in der robusten Statistik Ein weiteres Anwendungsgebiet von M–Schätzern ist die robuste (ausreißerresistente) Schätzung von Lokalisationsparametern (wie E(X) = µ) und Regressionsparametern. (a) Schätzung von µ: Die Lösung der KQ–Schätzgleichung n X ! (yi − µ̂) = 0 ⇒ µ̂ = y i=1 reagiert sensitiv auf Ausreißer. Als Schätzgleichung wurde hier ψ(y, µ) = y − µ verwendet. Eine allgemeinere Schätzgleichung wird so formuliert: n X ! ψ(yi , µ) = 0 . i=1 Dabei ist ψ eine geeignete Funktion, zum Beispiel ψ(y, µ) = y − µ für Lokalistionsparameter mit Lösung µ̂ψ . 40 ψ(y, µ) = y − µ Huber´s ψ " " " " " " " " " " " " " " " " µ−k µ getrimmtes ψ µ−k µ+k µ Extreme Version von Hubers ψ: 1 0 ψ(y, µ) = sgn(y − µ) = −1 y>µ y=µ y<µ. Daraus erhält man den Median. Quantilschätzung: ψ(y, µ) = p 1−p 0 −1 y>µ y=µ y < µ. (b) Robuste Regression: Die KQ-Gleichung für yi = x> i β + εi lautet n X ! xi (yi − x> i β) = 0. i=1 Allgemein: n X ! xi ψ(yi , x> i β) = 0 . i=1 Die Lösung dieser Schätzgleichung β̂ψ ist ein robuster Schätzer. 41 µ µ+k Asymptotische Eigenschaften von M–Schätzern θ̂M Unter Regularitätsvoraussetzungen, insbesondere E0 qs(θ0 ) = 0, gilt a θ̂M ∼ N (θ0 , V (θ̂M )) . Dabei ist V (θ̂M ) definiert als V (θ̂M ) = J −1 (θ̂M )I(θ̂M )J −1 (θ̂M ) mit der empirischen (Quasi–) Fisher–Matrix I(θ̂M ) = n X qsi (θ̂M )qs> i (θ̂M ) i=1 und der (empirischen) beobachteten (Quasi–) Informationsmatrix ∂ qs(θ) . J (θ̂M ) = − ∂θ > θ=θ̂M Der Beweis dafür verläuft analog wie für ML–Schätzer. Bemerkung. Nachteil von Quasi–Likelihood: Im Allgemeinen sind keine Likelihood–Ratio– Tests und darauf basierende Modellwahlkriterien möglich. Aus E qs(θ) = 0 > ⇒ Cov(qs(θ)) = E(qs(θ) qs(θ)) =: I(θ) a ⇒ qs(θ) ∼ N (0, I(θ)) und Taylorentwicklung von qs(θ̂M ) = 0 um θ, a 0 = qs(θ̂M ) ∼ qs(θ) + ∂ qs(θ) (θ̂M − θ) , > | ∂θ {z } −J(θ) folgt a (θ̂M − θ) ∼ N (0, J −1 (θ̂M )I(θ̂M )J −1 (θ̂M )) ⇒ 6.4 a θ̂M ∼ N (θ, J −1 (θ̂M )I(θ̂M )J −1 (θ̂M )) . Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations) Siehe Folien zur Vorlesung. 42 6.5 Quantilregression Die Grafiken in diesem Abschnitt stammen größtenteils aus der Diplomarbeit von Nora Fenske (2008) zum Thema “Flexible Longitudinaldaten-Regression mit Anwendungen auf Adipositas”. Literatur: Roger Koenker (2005): Quantile Regression, Cambridge University Press. Zur Person: Roger Koenker ist McKinley Professor of Economics and Statistics an der University of Illinois (1976-1983 Bell-Labs) und wendete 25 Jahre Forschung für dieses Thema auf. 6.5.1 Einleitung Idee der Quantilregression: Analog zur (linearen) Regression, welche den bedingten Erwartungswert E(Y |x) als Funktion von Kovariablen x modelliert, sollen Ansätze für die Modellierung der bedingten Quantilsfunktion entwickelt werden. Wir nehmen im Folgenden stetigen Response Y an. Eine Anwendung der Quantilregression liefert folgendes Beispiel aus der Diplomarbeit von Nora Fenske (2008). Beispiel 6.7 (Einflussfaktoren für Adipositas (Fettleibigkeit, Fettsucht) bei Kindern). Zur Erkennung von Übergewicht wird häufig der sogenannte Body Mass Index BMI = Körpergewicht [kg] (Körpergröße)2 [m2 ] verwendet. Für Erwachsene gelten folgende von der Weltgesundheitsorganisation festgelegte Grenzen: BMI < 19 19 − 25 25 − 30 > 30 Einstufung Untergewicht Normalgewicht Übergewicht Adipositas Dieses Schema lässt sich jedoch nicht auf Kinder übertragen, da diese im Allgemeinen einen viel kleineren BMI besitzen als Erwachsene. Daher benötigt man für Kinder anderes Vorgehen, zum Beispiel durch folgende zwei Schritte: 1. Bilden einer Referenzpopulation; hier sind mehrere Methoden möglich, zum Beispiel unterschiedliche Referenzpopulationen für verschiedene Länder und getrennt nach Altersstufen. 2. Ein Kind wird als übergewichtig bzw. adipös eingestuft, wenn der BMI größer ist als bestimmte Quantile der Referenzpopulation, zum Beispiel könnte ein Kind als übergewichtig gelten, wenn der BMI größer ist als das 90%-Quantil der Referenzpopulation, und als adipös, wenn der BMI größer ist als das 97%-Quantil. 43 Q 0.97 Anmerkung: In diesem Beispiel liegen zusätzlich Längsschnittdaten vor, dies wird hier jedoch nicht weiter betrachtet. In diesem Beispiel würde ein Standardmodell wie das lineare Modell zunächst nicht die Frage beantworten, welche Einflussfaktoren für Adipositas verantwortlich sein könnten, da es nur den mittleren BMI als Funktion der Kovariablen modelliert. Warum zunächst”? — Unter Umständen liefert auch das lineare Modell den gewünschten ” Zusammenhang (folgt später). Definition 6.3. Eine reellwertige Zufallsvariable Y wird durch ihre (rechtsstetige) Verteilungsfunktion charakterisiert: FY (y) = P(Y ≤ y) . Für jedes τ , 0 < τ < 1, ist yτ = Qτ (y) = FY−1 (τ ) = inf {y : F (y) ≥ τ } das τ · 100%-Quantil von Y . Definition 6.4. Bei Vorliegen von Kovariableninformation lassen sich entsprechend Definition 6.3 die bedingte Verteilung FY |X=x (y) = P(Y ≤ y|X = x) und die bedingte Quantilsfunktion Qτ als Qτ (y|X = x) = FY−1 |X=x (τ |X = x) = yτ (x) definieren. Bemerkung. 1. Die bedingte Quantilsfunktion stellt die τ -Quantile von Y in Abhängigkeit von Kovariablen X = x dar (zunächst nur formal!). 44 2. Angenommen, es gilt das lineare Modell Yi = β0 + β1 xi + εi , εi i.i.d. ∼ N (0, σ 2 ) . Dann folgt: FYi |X=xi (y) = P(Yi ≤ y|X = xi ) Yi − β 0 − β 1 x i y − β0 − β1 xi = P ≤ σ σ y − β0 − β1 xi (Φ = Verteilungsfkt. der Standard-NV) = Φ σ = τ ⇐⇒ yτ (xi ) − β0 − β1 xi = Φ−1 (τ ) σ mit yτ (xi ) = Qτ (y|X = xi ) = β0 + β1 xi + σ · Φ−1 (τ ) bzw. Qτ (y|X = x) = β0 + β1 x + σ · Φ−1 (τ ) = (β0 + σ · Φ−1 (τ )) + β1 x . | {z } β0τ Das heißt, im klassischen linearen Regressionsmodell mit Normalverteilungsannahme entspricht β1 sowohl dem Einfluss der Kovariablen auf den bedingten Erwartungswert als auch dem Einfluss der Kovariablen auf die bedingte Quantilsfunktion. Die bedingte Quantilsfunktion geht durch Parallelverschiebung (um σ · Φ−1 (τ )) aus der bedingten Erwartungswertfunktion hervor. Speziell: Für τ = 0.5 (bedingte Medianfunktion) ergibt sich wegen der Symmetrie der Dichte der Standardnormalverteilung: Φ−1 (τ ) = 0 ⇒ Q0.5 (y|X = x) = β0 + β1 x. 3. Betrachte Yi = β0 + β1 xi + εi i.i.d. mit εi ∼ Fε . Analoge Berechnungen wie in 2. führen auf Qτ (y|X = x) = β0 + Fε−1 (τ ) + β1 x . Fε ist nicht notwendigerweise symmetrisch, das heißt Fε−1 (0.5) ist im Allgemeinen ungleich 0 und die bedingte Medianfunktion ist ungleich der bedingten Erwartungswertfunktion. Ansonsten: Wiederum Parallelverschiebung im i.i.d.-Fall. 45 Die folgende Grafik zeigt theoretische Quantilsfunktionen für 2. und 3. Symmetrischer Fall (2) (c gleich c') Unsymmetrischer Fall (3) (c ungleich c') τ = 0.9 τ = 0.9 τ = 0.5 Qτ(y|X=x) Qτ(y|X=x) τ = 0.5 τ = 0.1 x τ = 0.1 x Idee für die Praxis: Schätze für eine Folge von Werten von τ , zum Beispiel τ = 0.05, 0.1, . . . , 0.95, jeweils eine bedingte Quantilsfunktion Qτ (y|X = x) = x> βτ . Damit lässt sich die gesamte bedingte Verteilung charakterisieren/modellieren, im Gegensatz zur klassischen linearen Regression, wo wir nur den bedingten Erwartungswert erhalten (vgl. Mittelwert/Boxplot im univariaten Fall). 6.5.2 Spezialfall: Zweistichproben-Problem Betrachte eine Zielvariable yi , die durch eine Kovariable xi mit genau zwei möglichen Ausprägungen spezifiziert wird; zum Beispiel könnte yi ein Blutwert sein und 0 Placebo, xi = 1 Medikament. Wir nehmen für yi |xi eine Normalverteilung an: yi |{xi = 0} ∼ N (µ0 , σ02 ), yi |{xi = 1} ∼ N (µ1 , σ12 ). Es ergeben sich drei mögliche Situationen: 1. Location-Shift: µ1 = µ0 + ∆ (µ0 6= µ1 ), aber σ02 = σ12 . 2. Scale-Shift: σ02 6= σ12 , aber µ0 = µ1 . 3. Location-Scale-Shift: µ0 6= µ1 , σ02 6= σ12 . 46 Scale−Shift Location−Scale−Shift µ0 = µ1 =10 σ0 =1 σ1 =2 µ0 =10 µ1 =11 σ0 =1 σ1 =2 ● ● ● ● ● ● ● ● ● ● 1 = Med. 0 = Placebo 0.3 0.3 0.2 0.1 0.0 0.0 6 8 10 12 14 16 fY(y|x) 0.3 0.1 18 6 8 β0.2 0.2 10 12 14 16 18 4 0.0 1.0 1.0 0.8 0.8 0.6 0.4 0.2 0.0 4 6 8 10 12 14 16 18 4 6 8 10 12 14 0.4 0.2 16 18 3 2 2 1 1 βτ1 4 3 βτ1 4 0 6 8 10 12 14 16 18 0 −1 −1 −2 −2 −2 −3 −3 1.0 18 1 −1 0.8 16 y = Blutwert 2 0.6 14 yτc 4 3 0.4 12 τc y = Blutwert 0 10 0.6 4 0.2 8 0.0 y = Blutwert 0.0 6 y = Blutwert FY(y|x) = τ FY(y|x) = τ FY(y|x) = τ 0.4 0.2 y = Blutwert β0.8 1 = Med. 0.0 4 1.0 0.6 ● ● ● 0.1 y = Blutwert 0.8 ● ● 0 = Placebo 0.4 0.2 ● ● ● 1 = Med. 0.4 4 βτ1 18 16 14 12 10 8 6 4 0.4 fY(y|x) fY(y|x) 0 = Placebo 18 16 14 12 10 8 6 4 y = Blutwert 18 16 14 12 10 8 6 4 Location−Shift µ0 =10 µ1 =11 σ0 = σ1 =1 y = Blutwert y = Blutwert Skizze: −3 0.0 0.2 0.4 τ 0.6 0.8 1.0 0.0 τ 0.2 0.4 0.6 0.8 1.0 τ Interpretation (unter der Annahme, dass ein höherer Blutwert einem besseren Gesundheitszustand entspricht): 1. Konstanter Behandlungseffekt. 2. Positiver Behandlungseffekt rechts vom Median, negativer Behandlungseffekt links vom Median. 3. Positiver Behandlungseffekt rechts vom Quantil yτ , negativer Behandlungseffekt links vom Quantil yτ . Also allgemein: F: Placebo (X = 0) G: Medikament (X = 1) 47 Verteilungsfunktionen Behandlungseffekt βτ im Quantil τ : F G Der Behandlungseffekt lässt sich theoretisch berechnen durch βτ = G−1 (τ ) − F −1 (τ ) . Empirisch: −1 β̂τ = G−1 n (τ ) − Fm (τ ) , wobei Gn und Fm die empirischen Verteilungsfunktionen auf Basis von n bzw. m Beobachtungen sind. Zusammenhang mit dem Erwartungswert: Z +∞ Z µ = E(Y ) = y dF (y) = −∞ 1 F −1 (t) dt . 0 Damit gilt: Z 1 G−1 (τ ) − F −1 (τ ) dτ = E(Y |X = 1) − E(Y |X = 0) . 0 6.5.3 Quantile als Lösung eines Optimierungsproblems, Schätzung der Parameter der Quantilregression Es soll nun ein Schätzer β̂τ für βτ auf Grundlage eines entscheidungstheoretischen Konzepts hergeleitet werden. Betrachte als Verlustfunktion die sogenannte Check-Funktion ρτ (u) = u · (τ −I(u < 0)) , | {z } τ ∈ (0, 1) . Indikatorfunktion Die Check-Funktion ist im Folgenden grafisch dargestellt. Für ein gegebenes τ bildet sie den asymmetrischen Verlust ab. Für τ = 0.5 ergibt sich ρ0.5 (u) = 0.5|u|. 48 τ = 0.1 τ = 0.5 τ = 0.8 5 Check−Funktion ρτ (u) 4 3 2 1 0 −4 −2 0 2 u 4 Sei Y eine stetige Zufallsvariable mit der Verteilungsfunktion FY . Um einen Schätzer ŷ für yτ zu erhalten, minimiere den erwarteten Verlust, das heißt EFY [ρτ (y − ŷ)] → min . (6.1) ŷ Satz 6.5. Der Minimierer von (6.1) ist ŷ = FY−1 (τ ). Beweis. Nach Definition der Indikatorfunktion ergibt sich (y − ŷ) · (τ − 1) falls y − ŷ < 0 ⇔ y < ŷ, ρτ (y − ŷ) = (y − ŷ) · τ falls y − ŷ ≥ 0 ⇔ y ≥ ŷ. Der erwartete Verlust ist somit Z EFY [ρτ (y − ŷ)] = (τ − 1) · ŷ Z ∞ (y − ŷ) dFY (y) + τ · −∞ (y − ŷ) dFY (y) . ŷ Ableiten nach ŷ ergibt ∂ EF [ρτ (y − ŷ)] = −(τ − 1) · ∂ ŷ Y Z = −τ · 1 + Z ŷ Z dFY (y) − τ · −∞ ŷ dFY (y) −∞ ! = FY (ŷ) − τ = 0 und damit FY (ŷ) = τ ⇒ ŷ = yτ = FY−1 (τ ) . 49 ∞ dFY (y) ŷ Damit ergeben sich die Quantile als Lösung eines entscheidungstheoretischen Optimierungsproblems mit der Check-Funktion als spezieller Verlustfunktion. Auf diese Weise gelangt man zum Schätzprinzip in der Quantilregression ( analog” zu KQ, ” nur mit anderer Verlustfunktion): 1. Der Minimierer argmin α∈R n X ρτ (yi − α) i=1 liefert α̂(τ ), das τ ·100%-Stichprobenquantil. 2. Übertrage die Idee auf die bedingte Quantilsfunktion Qτ (yi |X = xi ) = x> i βτ : argmin n X βτ ∈Rp i=1 ρτ (yi − x> i βτ ) . Die Zielfunktion ist stückweise linear und stetig. → Lineare Programmierung (SimplexVerfahren). Alternativ: Herleitung eines Schätzers β̂τ durch Quasi-ML-Ansatz (Vorteil: asymptotische Verteilung, Standardfehler etc.). Dazu eignet sich die asymmetrische Laplace-Verteilung (ALD) Y ∼ ALD(µ, σ, τ ) mit −∞ < y < ∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet τ (1 − τ ) y−µ fY (y) = · exp −ρτ , σ σ Erwartungswert und Varianz sind σ(1 − 2τ ) τ (1 − τ ) 2 σ (1 − 2τ + 2τ 2 ) . (1 − τ )2 τ 2 E(Y ) = µ + Var(Y ) = Die folgende Abbildung zeigt die Dichte der ALD-Verteilung in Abhängigkeit von den Parametern τ und σ. Links von µ beträgt die Wahrscheinlichkeitsmasse genau τ und rechts von µ dementsprechend genau 1 − τ . Das τ · 100%-Quantil der Verteilung liegt also genau bei µ. Außerdem ist die Dichte linksschief, falls τ > 0.5, und rechtsschief, falls τ < 0.5. 50 µ=0, σ=1 0.30 τ = 0.1 τ = 0.5 τ = 0.8 0.20 0.15 0.10 0.20 0.15 0.10 0.05 0.05 0.00 0.00 −15 −10 −5 0 5 10 σ = 0.7 σ=1 σ=3 0.25 ALD−Dichte fY(y) ALD−Dichte fY(y) 0.25 µ=0, τ=0.3 0.30 15 −15 −10 −5 y 0 5 10 15 y Als Quasi-Likelihood ergibt sich ( n ) X yi − x> βτ 1 i exp − ρτ → max . βτ σ σ i=1 Dies ist äquivalent zu n X ρτ (yi − x> i βτ ) → min , βτ i=1 also dem ursprünglichen Ansatz. 6.5.4 Zusammenfassung Die Modellformel für die lineare Quantilregression lautet yi = x > i β τ + ετ i mit unabhängigen, aber möglicherweise heteroskedastischen ετ i . Die einzige Forderung an die ετ i ist Z Fετ i (0) = 0 f (ετ i ) dετ i = τ , −∞ das heißt Fε−1 (τ ) = 0 τi und damit −1 > Qτ (yi |X = xi ) = x> i βτ + Fετ i (τ ) = xi βτ . 51 Eigenschaften der Quantilregression: – Äquivarianz, d.h. Unempfindlichkeit von Schätzern gegenüber Transformationen oder Reparametrisierungen der Zielvariablen, zum Beispiel β̂τ (ay, X) = aβ̂τ (y, X), β̂τ (y, XA) = A−1 β̂τ (y, X) mit einem Skalar a und regulärer Matrix A. Für monoton wachsende Funktionen h gilt: Qτ (h(y)|X = x) = h(Qτ (y|X = x)). – Robustheit, d.h. Unempfindlichkeit von Schätzern gegenüber Ausreißern. Die Robustheit kann zum Beispiel durch den sogenannten Breakdown Point gemessen werden, das ist der Anteil an willkürlich ins Extreme gezogene Beobachtungen, die ein Schätzer aushält, bevor er sich in eine extreme Richtung verändert. – Asymptotische Verteilung (nicht i.i.d.-Fall, sondern nur Unabhängigkeit gegeben): Es gilt √ n(β̂τ − βτ ) → N (0, τ (1 − τ ) H−1 (τ )J(τ )H−1 (τ )) | {z } Huber Sandwich” ” mit n 1X J(τ ) = lim xi x> i , n→∞ n i=1 n 1X H(τ ) = lim xi x> i · fi (yiτ ) . n→∞ n i=1 Dabei ist fi (yiτ ) die bedingte Dichte von yi an der Stelle yiτ . Die Schätzung für fi (yiτ ) bzw. H(τ ) ist allerdings problematisch (→ Differenzenquotient, . . . ). Praxis-Version: a β̂τ ∼ N βτ , τ (1 − τ ) n X !−1 xi x> i · fi (yiτ ) i=1 n X i=1 ! xi x> i n X !−1 . xi x> i · fi (yiτ ) i=1 – Quantilüberschneidung (Quantile Crossing): Dieses Problem tritt auf, wenn sich zwei unabhängig voneinander ermittelte Quantilregressionskurven überschneiden. Zum Beispiel könnte für eine bestimmte Kombination von Kovariablen das (geschätzte) 90%Quantil (fälschlicherweise) größer sein als das 97%-Quantil. – Unabhängige Schätzungen der Koeffizienten: Die Schätzungen β̂τ und β̂τ 0 für τ 6= τ 0 werden unabhängig voneinander durchgeführt; tatsächlich sind βτ und βτ 0 aber korreliert. 52 Kapitel 7 Non- und Semiparametrische Inferenz 7.1 Einführung In der klassischen parametrischen Inferenz betrachten wir Familien von Verteilungen bzw. Dichten {Pθ , θ ∈ Θ ⊆ Rp } bzw. {f (y|θ), θ ∈ Θ ⊆ Rp } mit Daten bzw. Stichprobenvariablen“ y = (y1 , . . . , yn ), p–dimensionalem Parametervek” tor θ = (θ1 , . . . , θp ), p fest und n > p bzw. n → ∞. Für komplexere Modelle basiert die Inferenz auf der (Quasi-) Likelihood (Q)L(θ|y) = f (y|θ) bzw. Posteriori p(θ|x) ∝ f (y|θ)p(θ). Dieses Kapitel beschäftigt sich mit non– und semiparametrischer Inferenz. • Nonparametrische Inferenz (im engeren Sinn): Statistisches Modell enthält statt unbekanntem θ = (θ1 , . . . , θp ) ∈ Rp unbekannte Funktionen f . Dabei ist f nicht durch eine feste Zahl von Parametern parametrisiert, sondern ein unbekannter unendlichdimensionaler“ Parameter: ” θ ∈ Rp → f ∈ Funktionenraum. • Nonparametrische Dichteschätzung: i.i.d. Seien y1 , . . . , yn ∼ f (y). Schätze Dichte f , wobei kein durch einen Parameter θ parametrisierter Verteilungstyp f (y|θ) vorgegeben ist. • Nonparametrische Regression: i.i.d yi = f (xi ) + εi , εi ∼ [N ](0, σ 2 ) bzw. yi |xi ∈ Exponentialfamilie, wobei E(yi |xi ) = µi = h(f (xi )). Dabei ist f eine glatte“ Regressionsfunktion und ersetzt β0 + β1 x bzw. x> i β. ” 53 • Semiparametrische Inferenz: Der Begriff semiparametrisch wird für folgende Situationen verwendet: 1. Modell enthält unbekannte Funktion(en) und einen unbekannten Parameter θ ∈ Rp , zum Beispiel yi = x> i β + f (zi ) + εi . 2. Modell enthält unbekannte Funktion, die aber als Stör- (Nuisance-) Parameter betrachtet wird, und einen unbekannten Parameter θ. Dies ist zum Beispiel im Cox–Modell der Fall: λ(t, x) = λ0 (t) exp(x> β) . | {z } Baseline–Hazardrate 3. Modell enthält Parameter θ hoher Dimension und p = dim(θ) wächst mit n, zum Beispiel y = f (x) + ε mit f (x) = K X θk Bk (x) , k=1 Bk (x) sind Basisfunktionen eines hochdimensionalen Funktionenraums (Glättungssplines, Regressionssplines, Wavelets, . . . ). Inferenzkonzepte: – frequentistische, likelihood–basiert, – bayesianische Inferenz. 7.2 Nichtparametrische Dichteschätzung Dieser Abschnitt wurde leicht abgeändert aus dem Vorlesungsskript von Stefan Lang zu Computerintensive Verfahren im Wintersemester 2002/03 übernommen. 7.2.1 Einführung Gegeben sei eine i.i.d. Stichprobe x1 , ..., xn einer stetigen Zufallsvariable X mit Dichtefunktion f (x). Ziel ist die Schätzung von f durch fˆ. Zur Schätzung der Dichte unterscheiden wir grundsätzlich zwei Konzepte: • Parametrische Dichteschätzung Hier nehmen wir an, dass die Verteilungsfamilie bekannt ist (zum Beispiel Normalverteilung) und lediglich einige Parameter der Verteilung (zum Beispiel Erwartungswert und Varianz bei der Normalverteilung) unbekannt sind und geschätzt werden müssen. Es gilt also f (x) ∈ {f (x | θ), θ ∈ Rp }, 54 wobei f nach Schätzung von θ durch θ̂ eindeutig festgelegt ist. Das Hauptproblem der parametrischen Dichteschätzung ist, dass die Verteilungsklasse (zum Beispiel Normalverteilung) bekannt sein muss. In der Praxis ist diese leider oft nicht bekannt. • Nichtparametrische Dichteschätzung Hier wird im Wesentlichen nur vorausgesetzt, dass X eine stetige Zufallsvariable ist und die Dichte f eine “glatte” Funktion. Eine bestimmte Verteilungsklasse wird nicht vorausgesetzt. Im Folgenden sollen das Histogramm und sogenannte Kerndichteschätzer behandelt werden. 7.2.2 Das Histogramm Dem Histogramm liegt folgende Idee zugrunde: Zerlege den Datenbereich beginnend im Ursprung x0 (zum Beispiel x0 = 0, x0 = xmin = x(1) ) in Intervalle (sogenannte Bins) gleicher Länge h (sogenannte Binweite). Für den j-ten Bin Bj := [x0 + (j − 1)h, x0 + jh) gilt xZ 0 +jh P(X ∈ Bj ) = f (x) dx. (7.1) x0 +(j−1)h Ein naheliegender Schätzer für (7.1) ist die relative Häufigkeit der xi im Intervall Bj , d.h. n P̂(X ∈ Bj ) = 1 1X #{xi ∈ Bj } = IBj (xi ). n n (7.2) i=1 Weiter folgt nach dem Mittelwertsatz der Integralrechnung (Voraussetzung: f stetig) xZ 0 +jh f (x)dx = f (ξ) · h x0 +(j−1)h für ein ξ ∈ Bj . Approximiert man nun f auf Bj durch einen konstanten Wert, so erhält man unter Verwendung von (7.2) n 1 X fˆ(x) = IBj (xi ), nh i=1 für x ∈ Bj . Damit erhalten wir folgende Definition: Definition 7.1 (Histogramm). Sei x1 , . . . , xn eine i.i.d. Stichprobe einer stetigen Zufallsvariable X mit Dichte f . Dann heißt der Schätzer n 1 XX fˆh (x) = IBj (xi )IBj (x) nh i=1 j∈Z Histogramm mit Klassenbreite (Bandweite) h > 0 und Ursprung x0 . 55 Das Histogramm besitzt folgende Vor- und Nachteile: Vorteile des Histogramms: • Einfach zu berechnen und zu präsentieren. • In jedem Statistikprogramm implementiert. Nachteile des Histogramms: • Unstetiger Schätzer für eine stetige Dichte. • Graphische Darstellung ist abhängig von x0 . • In ungünstigen Situationen hängt fˆh (x) mehr von Beobachtungen ab, die weiter von x entfernt sind, als von Beobachtungen, die nahe bei x liegen, vergleiche Abbildung 7.1. 6 ∗ x ∗∗ - Abbildung 7.1: Die Grafik zeigt, dass es Fälle geben kann, bei denen weiter entfernte Beobachtungen ein größeres Gewicht bei der Schätzung von f und der Stelle x erhalten als näher liegende Beobachtungen. Der Einfluss der Bandweite h lässt sich wie folgt zusammenfassen: Einfluss der Bandweite h h→0 h klein h groß h→∞ Nadelplot sehr rauhe Darstellung, große Datentreue glatte Darstellung, wenig Datentreue Gleichverteilung In vielen Programmpaketen wird nicht die Bandweite h spezifiziert, sondern die Anzahl der Intervalle (Bins). Diese Anzahl induziert dann eine bestimmte Bandweite. Zum Einfluss der Bandweite h bzw. der Anzahl der Intervalle vergleiche die beiden folgenden Beispiele. Beispiel 7.1 (Mietspiegel). Abbildung 7.2 zeigt verschiedene Dichteschätzer für die Nettomiete pro Quadratmeter im Mietspiegeldatensatz. Der Einfluss der Bandweite auf die Schätzungen ist hier relativ gering. Beispiel 7.2 (Mischung aus Normalverteilungen). Abbildung 7.3 zeigt für einen simulierten Datensatz Dichteschätzer mit unterschiedlichen Bandweiten. Es wurden 100 Beobachtungen simuliert aus der Dichte f (x) = 0.6 · f1 (x) + 0.4 · f2 (x). 56 Dabei ist f1 die Dichte einer Normalverteilung mit µ = −1 und σ 2 = 1 und f2 die Dichte einer Normalverteilung mit µ = 2 und σ 2 = 1. Es handelt sich bei f also um eine Mischung aus zwei Normalverteilungsdichten. Die wahre Dichte ist in Abbildung (a) zu finden, die Abbildungen (b) - (f ) zeigen Histogramme mit unterschiedlicher Klassenbreite. Hier ist der Einfluss der Bandweite auf die Schätzungen relativ groß. 7.2.3 Kerndichteschätzer Die im letzten Abschnitt genannten Probleme beim Histogramm können wir durch sogenannte gleitende Histogramme umgehen: Definiere Intervalle [x − h; x + h) der Breite 2h und lasse diese über die x-Achse “gleiten”. Damit erhalten wir als Schätzer für f das gleitende Histogramm 1 fˆh (x) = #{xi im Intervall [x − h, x + h)}. 2nh (7.3) Mit der Kernfunktion ( K(u) = 1 2 0 |u| ≤ 1 sonst (Rechteckskern) erhalten wir für (7.3) n 1 X K fˆh (x) = nh i=1 x − xi h . Eine naheliegende Verallgemeinerung des gleitenden Histogramms erhalten wir, indem wir andere Kernfunktionen als den Rechteckskern zulassen. Wir ersetzen also den Rechteckskern durch allgemeine Kernfunktionen, die folgende Eigenschaften besitzen sollen: 1. K(u) = K(−u) 2. argmax K(u) = 0 R 3. K(u)du = 1 , (Symmetrie um Null), (Maximum bei u = 0), 4. K(u) ≥ 0, 5. |u|K(u) → 0 für |u| → ∞, 6. K(u) beschränkt, R 7. u2 K(u) du < ∞. Die Eigenschaften 5-7 sind eher technischer Natur und werden bei asymptotischen Aussagen zum Kerndichteschätzer benötigt, vergleiche Abschnitt 7.2.4. Beispiele für Kernfunktionen neben dem Rechteckskern sind (vgl. auch Abbildung 7.7): 57 Abbildung 7.2: Einfluss der Bandweite beim Histogramm: Die Grafiken (a) - (f ) zeigen Histogramme mit unterschiedlichen Bandweiten für die Nettomiete pro qm. 58 Abbildung 7.3: Einfluss der Bandweite beim Histogramm: Grafik (a) zeigt die wahre Dichte. Die Grafiken (b) - (f ) zeigen Histogramme mit unterschiedlichen Bandweiten. Grundlage der Schätzungen sind 100 simulierte Beobachtungen gemäß der wahren Dichte in (a). 59 • Dreieckskern: K(u) = (1 − |u|)I[−1,1] (u), • Epanechnikovkern: K(u) = 34 (1 − u2 )I[−1,1] (u), • Normalkern: K(u) = √1 2π exp(− 21 u2 ). Damit erhalten wir Definition 7.2 (Kerndichteschätzer). Der Schätzer n 1 X fˆh (x) = K nh i=1 x − xi h n 1X = Kh (x − xi ) n i=1 mit 1 u K h h heißt Kerndichteschätzer mit Kern K (bzw. Kh ) und Bandweite h > 0. Kh (u) := Die Abbildungen 7.4 bis 7.6 illustrieren die Berechnung des Kerndichteschätzers. Abbildung 7.4 enthält fünf Beobachtungen (dargestellt als Kreise) und die dazugehörigen (normierten) Kernfunktionen Kh (x − xi )/5. Der Kerndichteschätzer fˆh an einer Stelle x ist nichts anderes als die Summe der fünf (normierten) Kernfunktionen an dieser Stelle. Dabei gehen Kernfunktionen, deren zugehörige Beobachtung näher an x liegt, mit höherem Gewicht ein. Die Abbildungen 7.5 und 7.6 veranschaulichen, wie sich der Kerndichteschätzer ändert, wenn die Bandweite variiert wird. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen in Abbildung 7.5 wegen der kleineren Bandweite enger und höher. Die geschätzte Dichte wird rauher. In Abbildung 7.6 sind im Vergleich zu Abbildung 7.4 die Kernfunktionen wegen der größeren Bandweite weiter und flacher. Die geschätzte Dichte wird glatter. Bemerkung. • Aus Z K(u)du = 1 folgt auch Z fˆh (x)dx = 1, d.h. fˆh erfüllt die Voraussetzungen an einen Dichteschätzer. • Der Schätzer fˆh (x) “erbt” die Eigenschaften des verwendeten Kerns, d.h. wenn K stetig (stetig differenzierbar etc.) ist, übertragen sich diese Eigenschaften auf fˆh (x). Den Einfluss der Bandweite h können wir wie folgt zusammenfassen: h→0 h klein h groß h→∞ Nadelplot rauhes Bild, relativ datentreu glattes Bild, weniger datentreu sehr glatte Schätzung, etwa Form von K 60 Beispiel 7.3 (Mietspiegel). In Abbildung 7.8 sind Kerndichteschätzer für die Nettomiete pro Quadratmeter im Mietspiegelbeispiel für verschiedene Bandweiten abgebildet. Als Kernfunktion wurde der Epanechnikovkern verwendet. Die in Abbildung 7.8 (d) verwendete Bandweite ist in gewissem Sinne optimal, vgl. Abschnitt 7.2.4. Beispiel 7.4 (Mischung aus Normalverteilungen). Abbildung 7.9 zeigt Kerndichteschätzer für den simulierten Datensatz (Mischung aus zwei Normalverteilungen) aus Beispiel 7.2. Als Kernfunktion wurde der Epanechnikovkern verwendet. Ähnlich zum Histogramm hängen die Schätzer in erheblichem Maß von der verwendeten Bandweite ab. Die in Abbildung 7.9 (d) verwendete Bandweite ist in gewissem Sinne optimal, vgl. Abschnitt 7.2.4. Zur Bestimmung von möglichst optimalen Bandweiten bestimmen wir im nächsten Abschnitt zunächst statistische Eigenschaften von Kerndichteschätzern. Abbildung 7.4: Illustration zur Berechnung des Kerndichteschätzers. 7.2.4 Statistische Eigenschaften des Kerndichteschätzers Erwartungswert, Varianz und MSE Der Erwartungswert von fˆh für festes x lautet Z 1 x−y ˆ E(fh (x)) = K f (y) dy. h h R Die Varianz des Kerndichteschätzers ist Z 1 1 2 x−y ˆ Var(fh (x)) = K f (y) dy − E(fˆh (x))2 . 2 nh h n R 61 Abbildung 7.5: Illustration zur Berechnung des Kerndichteschätzers. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen wegen der kleineren Bandweite enger und höher. Die geschätzte Dichte wird rauher. Abbildung 7.6: Illustration zur Berechnung des Kerndichteschätzers. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen wegen der größeren Bandweite weiter und flacher. Die geschätzte Dichte wird glatter. 62 Abbildung 7.7: Grafische Darstellung verschiedener Kerne. 63 Abbildung 7.8: Einfluss der Bandweite beim Kerndichteschätzer: Die Grafiken (a) - (f ) zeigen Kerndichteschätzer mit unterschiedlichen Bandweiten für die Nettomiete pro qm. Die AMISE “optimale” Bandweite ist ungefähr h = 0.85. Als Kernfunktion wurde der Epanechnikovkern verwendet. 64 Abbildung 7.9: Einfluss der Bandweite beim Kerndichteschätzer: Die Grafiken (a) - (f ) zeigen Kerndichteschätzer für x mit unterschiedlichen Bandweiten. Grundlage der Schätzungen sind 100 simulierte Beobachtungen gemäß der wahren Dichte (gestrichelte Linien). Die AMISE “optimale” Bandweite ist ungefähr h = 0.6. Als Kernfunktion wurde der Epanechnikovkern verwendet. 65 Mit Hilfe des Erwartungswerts und der Varianz können wir auch den Mean Squared Error (MSE) von fˆh an der Stelle x berechnen. Zunächst erhalten wir für den Bias Z 1 x−y ˆ ˆ f (y) dy − f (x). Bias(fh (x)) = E(fh (x)) − f (x) = K h h R Damit folgt MSE(fˆh (x)) = Var(fˆh (x)) + Bias2 (fˆh (x)) Z 1 1 2 x−y = f (y) dy − E(fˆh (x))2 K 2 nh h n 2 R Z 1 x−y f (y) dy − f (x) . + K h h R Bei den bisher betrachteten Größen handelt es sich ausschließlich um lokale Maße, d.h. sie hängen von x ab. Ein globales Maß ist der sogenannte Mean Integrated Squared Error (MISE). Der MISE ist definiert als Z MISE(fˆh ) = MSE(fˆh (x)) dx. R Im Gegensatz zum MSE hängt der MISE nur noch von der Bandweite h (und der unbekannten Dichte) ab, jedoch nicht mehr von x. Damit erscheint der MISE als ein geeignetes Maß zur Bestimmung einer möglichst optimalen Bandweite. Bevor wir jedoch zur Bestimmung einer optimalen Bandweite kommen, beschäftigen wir uns im nächsten Abschnitt mit der Frage der Konsistenz von fˆh (x). Konsistenz des Kerndichteschätzers Bekanntlich ist ein Schätzer dann MSE-konsistent, wenn der MSE gegen Null konvergiert. Wir müssen also zeigen, dass fˆh asymptotisch erwartungstreu ist und die Varianz gegen Null konvergiert. Wir benötigen folgenden Satz 7.3 (Satz von Parzen). Sei R(x), x ∈ R, eine (messbare) Funktion mit den Eigenschaften 1. sup |R(x)| < ∞ (d.h. R(x) ist beschränkt), x∈R Z |R(x)| dx < ∞, 2. R 3. |x|R(x) → 0 für |x| → ∞. 66 Sei weiterhin g(x), x ∈ R, eine (messbare) Funktion mit R |g(x)| dx < ∞. Betrachte die Folge R 1 gn (x) = hn Z R x−y hn g(y) dy, R wobei hn eine Folge ist mit limn→∞ hn = 0. Dann gilt für jeden Stetigkeitspunkt x von g Z gn (x) → g(x) R(s) ds R falls n → ∞. Beweis. Den vollständigen Beweis des Satzes findet man in Parzen (1962). Wenn man zusätzlich annimmt, dass g beschränkt ist, kann man den Beweis relativ leicht führen. Die Aussage folgt dann aus dem Satz von der majorisierten Konvergenz (vergleiche zum Beispiel Gänssler und Stute, 1977). Sei an eine Folge integrierbarer und beschränkter Funktionen mit integrierbarer Grenzfunktion. Dann kann man gemäß dem Satz von der majorisierten Konvergenz Integration und Grenzwertbildung vertauschen, d.h. Z Z lim an (x) dx = lim an (x) dx. n→∞ n→∞ R R Unter Zuhilfenahme dieser Aussage erhalten wir Z 1 x−y lim gn (x) = lim R g(y) dy n→∞ n→∞ hn hn Z R = lim R (s) g(x − shn ) ds n→∞ Z = R lim R (s) g(x − shn ) ds n→∞ R R = g(x) R(s) ds. R Dabei haben wir in der zweiten Zeile die Substitution s = (x − y)/hn vorgenommen. Eine Voraussetzung für die Anwendbarkeit des Satzes von der majorisierten Konvergenz ist die Beschränktheit von R (s) g(x − shn ), was nach Voraussetzung erfüllt ist. Mit Hilfe des Satzes von Parzen erhalten wir folgenden Satz 7.4 (Konsistenz des Kerndichteschätzers). Sei f stetig. Dann gilt E(fˆhn (x)) → f (x), falls die Bandweite hn für n → ∞ gegen Null konvergiert. fˆhn (x) ist also asymptotisch erwartungstreu. Falls nhn → ∞ für n → ∞, dann gilt Var(fˆhn (x)) → 0. Damit ist fˆhn (x) konsistent. 67 Beweis. Zum Beweis der asymptotischen Erwartungstreue wenden wir Satz 7.3 an mit R(x) = K(x) und Z 1 x−y ˆ f (y) dy. gn (x) = E(fhn (x)) = K hn hn R Aufgrund des Satzes folgt Z gn (x) → f (x) K(s) ds = f (x). R Zum Beweis der zweiten Aussage wenden wir wiederum Satz 7.3 an mit R(x) = K 2 (x) und Z 1 2 x−y f (y) dy. gn (x) = K hn hn R Es folgt Z gn (x) → f (x) K 2 (s) ds. R Wegen 1 Var(fˆhn (x)) = nh2n Z K 2 x−y hn f (y) dy − 1 ˆ E(fhn (x))2 n R erhalten wir 1 1 0 ≤ Var(fˆhn (x)) ≤ nhn hn Z K 2 x−y hn f (y) dy = 1 gn (x) → 0. nhn R Konvergenzordnung des MISE Ein naheliegendes Optimalitätskriterium zur Wahl der Bandweite h beim Kerndichteschätzer ist der Mean Integrated Squared Error MISE. Der MISE ist definiert als Z Z Z MISE(fˆh ) = MSE(fˆh (x)) dx = Var(fˆh (x)) dx + Bias2 (fˆh (x)) dx. R R R Zur Bestimmung der Konvergenzordnung des MISE benötigen wir zunächst die sogenannten Landau-Symbole (bzw. die Notation Groß-O und Klein-o): Definition 7.5 (Landau-Symbole). Gegeben seien die reellwertigen Folgen {an } und {bn } mit n ∈ IN. Wir schreiben an = O(bn ), falls der Quotient an bn 68 für n → ∞ beschränkt ist. (Sprechweise: an ist Groß-O von bn .) Die Folge {an } ist also höchstens von derselben Größenordnung wie {bn }. Offenbar bedeutet an = O(1), dass an beschränkt ist. Wir schreiben an = o(bn ), falls der Quotient an bn für n → ∞ gegen null konvergiert. (Sprechweise: an ist Klein-o von bn .) Die Folge {an } ist also von geringerer Ordnung als {bn } (konvergiert schneller gegen Null). Offenbar bedeutet an = o(1) nichts anderes als lim an = 0. n→∞ Nach diesen Vorbemerkungen kommen wir jetzt wieder zurück auf die Bestimmung der Konvergenzordnung des MISE. Satz 7.6. Sei f mindestens zweimal stetig differenzierbar, f 00 beschränkt, f und f 00 quadratintegrierbar. Sei hRn eine Folge mit hn → 0 und Rnhn → ∞ für n → ∞. Unter Verwendung der Abkürzungen g 2 (s) ds = ||g||22 und µ2 (g) = g(s)s2 ds für eine Funktion g gilt: R R 1 1 2 ˆ 1. Var(fhn (x)) = ||K||2 f (x) + o nhn nhn Z 1 1 ||K||22 + o . Var(fˆhn (x)) dx = nhn nhn bzw. R 2. Bias(fˆhn (x)) = Z hn 2 µ2 (K)f 00 (x) + o(hn 2 ) 2 bzw. hn 4 2 µ (K)||f 00 ||22 + o(hn 4 ). Bias2 (fˆhn (x)) dx = 4 2 R 3. MISE(fˆhn ) = 1 1 hn 4 2 ||K||22 + µ2 (K)||f 00 ||22 + o + hn 4 . nhn 4 nhn Beweis. Siehe Pruscha (2000); für 3. verläuft der Beweis mit Hilfe einer Taylorentwicklung um x, wobei y = x − shn wie im Beweis zu Satz 7.3. Verwende Z Z sK(s)ds = 0 und s2 K(s)ds =: µ2 (K) . R R 69 Aufgrund des Satzes stellen wir also Folgendes fest: • Der Bias ist umso kleiner, je kleiner h gewählt wird. Andererseits wird die Varianz kleiner, je größer h wird. Es gibt also einen Zielkonflikt zwischen der Reduzierung der Varianz und des Bias (Bias-Varianz Trade-off). • Der Bias hängt von f 00 (x) ab, was ein Maß für die Krümmung von f ist. Je stärker die Krümmung, desto größer der Bias. Damit erhalten wir einen positiven Bias bei lokalen Minima der Dichte und einen negativen Bias bei lokalen Maxima der Dichte, vergleiche auch Abbildung 7.10. • Bias und Varianz hängen auch vom gewählten Kern K ab, in der Regel verändern andere Kerne den Bias aber nur unwesentlich. Abbildung 7.10: Veranschaulichung des Bias in Abhängigkeit der Krümmung der Dichte. Wir erhalten einen positiven Bias bei lokalen Minima und einen negativen Bias bei lokalen Maxima der Dichte. Zur Berechnung einer optimalen Bandweite minimieren wir den sogenannten AMISE (Asymptotic Mean Integrated Squared Error), der aus dem MISE durch Streichung der o-Terme entsteht, d.h. h4 1 AMISE(fˆh ) = ||K||22 + µ22 (K)||f 00 ||22 . (7.4) nh 4 Durch Differenzieren und Nullsetzen erhalten wir die AMISE-optimale Bandweite h0 = kKk22 kf 00 k22 µ22 (K)n 70 15 . (7.5) Offensichtlich besteht das Problem, dass die optimale Bandweite zur Schätzung von f von Funktionalen von f abhängt. In der Praxis (zum Beispiel in STATA) setzt man daher eine Referenzdichte ein. Nehmen wir zum Beispiel eine Normalverteilung an, dann können wir kf 00 k22 schätzen (nachdem vorher die Varianz σ 2 durch den üblichen Schätzer σ̂ 2 geschätzt wurde). Unter Verwendung des Normalkerns erhalten wir als “optimale” Bandweite ĥ0 = 4σ̂ 5 3n 51 1 ≈ 1.06 σ̂ n− 5 . Ein weniger ausreißeranfälliger Schätzer für σ basiert auf dem sogenannten Interquartilsabstand R̂ = x(0.75n) − x(0.25n) . Damit erhalten wir als neue Faustregel für h0 1 ĥ0 = 0.79 R̂ n− 5 . Man beachte, dass R̂ ≈ 1.34σ̂ (falls als Referenzdichte eine Normalverteilung zugrundegelegt wird). Eine Kombination beider Regeln liefert ! 1 R̂ ĥ0 = 1.06 min σ̂, n− 5 . 1.34 Unter Verwendung des Epanechnikov Kerns erhalten wir ! 1 R̂ ĥ0 = 0.9 min σ̂, n− 5 . 1.34 Als “Nebenprodukt” der AMISE-optimalen Bandweitenwahl können wir die Konvergenzgeschwindigkeit bestimmen, mit welcher der AMISE gegen Null geht. Einsetzen von (7.5) in den AMISE (7.4) liefert 4 4 2 5 AMISE(fˆh0 ) = kKk22 5 (µ2 (K) kf 00 k22 ) 5 n− 5 . 4 (7.6) 4 Für wachsendes n wird der AMISE mit der Rate n− 5 kleiner. Beim Histogramm wird der 2 AMISE nur mit einer Rate von n− 3 kleiner, d.h. Kerndichteschätzer haben eine höhere Konvergenzgeschwindigkeit als Histogramme. Wir stellen fest, dass im Ausdruck (7.6) ein Faktor 4 2 F (K) = (||K||22 ) 5 µ2 (K) 5 vorkommt, der nur vom Kern K abhängt. Durch Minimierung dieses Faktors bezüglich K können wir einen in gewissem Sinne optimalen Kern bestimmen. Man kann zeigen, dass der Epanechnikov Kern den Faktor F (K) minimiert. Für die Inferenz benötigt man Verteilungsaussagen über Schätzer. 71 Asymptotische Verteilung und Konfidenzintervalle Zur asymptotischen Verteilung und Konfidenzintervallen existiert folgende Aussage: Satz 7.7 (Asymptotische Verteilung). f 00 (x) existiere; es gelte hn = cn−1/5 . Dann ist der Kern-Dichteschätzer fˆhn (x) asymptotisch normalverteilt, c2 n o 2 d f 00 (x) µ2 (K), c−1 f (x)||K||22 n 5 fˆhn (x) − f (x) → N {z } |2 {z } | bx vx2 für n → ∞. Im Vergleich zur parametrischen asymptotischen Verteilungstheorie im i.i.d. Fall, zum Beispiel bei ML-Inferenz, wird also mit n2/5 statt n1/2 normiert. Dies ist nötig, um die Konvergenzgeschwindigkeit korrekt zu berücksichtigen. Approximativ gilt also (mit h := cn−1/5 ) h2 1 a fˆh (x) ∼ N f (x) + f 00 (x) µ2 (K), f (x)||K||22 . 2 nh Problem: f 00 (x) in bx , f (x) in vx2 unbekannt. Konfidenzintervalle und Konfidenzbänder Daraus folgt das approximative (1 − α)-Konfidenzintervall " r h2 00 f (x)||K||22 ˆ fh (x) − f (x) µ2 (K) − z1− α2 , 2 nh # r 2 2 f (x)||K|| h 00 2 fˆh (x) − f (x) µ2 (K) + z1− α2 2 nh für jedes x im Träger. Falls h klein in Relation zu n−1/5 ist, können die zweiten Terme vernachlässigt werden. Zusätzliches Ersetzen von f (x) durch fˆh (x) führt auf s s " # 2 ˆ ˆ(x)||K||2 f (x)||K|| f 2 2 fˆh (x) − z1− α2 , fˆh (x) + z1− α2 . nh nh Dabei handelt es sich um separate“ Konfidenzintervalle für jedes x, also punktweise“ ” ” Konfidenzintervalle. Simultane Konfidenzbänder der Form P L(x) ≤ f (x) ≤ U (x) für alle x ≈ 1 − α sind nur unter restriktiven Annahmen erhältlich. Anmerkung: Es ist unklar, wie gut die Asymptotik für endliches n greift. Auswege: Bootstrap oder bayesanische Dichteschätzung. 72 Optimale Bandweite durch Kreuzvalidierung Wir unterscheiden ML-Kreuzvalidierung (Härdle, 1999, Seite 92 ff.) und Least-Squares Kreuzvalidierung. Hier beschränken wir uns auf die Least-Squares Kreuzvalidierung. Betrachte als Maß für den Unterschied zwischen fˆ und f den Integrated Squared Error (ISE) Z Z Z Z ISE(h) = (fˆh (x) − f (x))2 dx = fˆh2 (x) dx − 2 fˆh (x)f (x) dx + f 2 (x) dx. R R R R R Wir versuchen im Folgenden, ISE(h) bzgl. h zu minimieren. Der erste Ausdruck R fˆh2 (x) dx kann leicht berechnet werden, den letzten Ausdruck können wir weglassen, weil er nicht von h abhängt. Für den mittleren Ausdruck gilt zunächst Z fˆh (x)f (x) dx = EX fˆh (X), R wobei der Erwartungswert bzgl. einer zusätzlichen und unabhängigen Beobachtung X gebildet wird. Zur Schätzung dieses Erwartungwerts verwenden wir den sogenannten “leave one out”Schätzer : n 1Xˆ fh,i (xi ), ÊX fˆh (X) = n i=1 wobei fˆh,i (xi ) = X 1 K (n − 1)h j6=i xi − xj h der Kerndichteschätzer an der Stelle xi ist, bei dem xi nicht berücksichtigt wurde. Insgesamt wird also die Kreuzvalidierungsfunktion Z CV(h) = n (fˆh2 (x))dx − 2Xˆ fh,i (xi ) n (7.7) i=1 R bzgl. h minimiert. Das Integral in (7.7) kann analytisch berechnet werden. Dazu verwenden wir die Faltung einer Funktion f , die definiert ist als Z (f ? f )(x) = f (x − y)f (y)dy. R 73 Damit erhalten wir Z fˆh2 (x)dx = 1 n2 h2 R Z R = n X K i=1 !2 x − xi h dx n n Z x − xj 1 XX x − xi K dx K n2 h2 h h i=1 j=1 R n = n 1 XX n2 h Z n Z K (s) K i=1 j=1 R = n 1 XX n2 h K (s) K i=1 j=1 R n = n 1 XX (K ? K) n2 h i=1 j=1 xi − xj +s h xj − xi −s h xj − xi h ds ds . Mit Hilfe der Formel für das Integral können wir schließlich CV (h) schreiben als n n 1 XX CV(h) = 2 (K ? K) n h i=1 j=1 xj − xi h n 2Xˆ − fh,i (xi ). n i=1 Beispiel 7.5 (Mischung von Normalverteilungen). Abbildung 7.11 zeigt für den simulierten Datensatz aus den Beispielen 7.2 und 7.4 die Kreuzvalidierungsfunktion. Als Kern wurde ein Gaußkern verwendet. In diesem Fall gilt 1 (K ? K)(u) = √ exp(−u2 /4). 2 π Das Minimum der Kreuzvalidierungsfunktion liegt ungefähr bei h = 0.6. Die Dichteschätzer mit der CV-optimalen Bandweite findet man in Abbildung 7.12. Zum Vergleich ist die wahre Dichte zusätzlich eingezeichnet (gestrichelte Linie). Beispiel 7.6 (Mietspiegel). Abbildung 7.13 zeigt für die Mietspiegeldaten die Kreuzvalidierungsfunktion der Nettomiete. Wie in Beispiel 7.5 wurde ein Gaußkern verwendet. Die Abbildung zeigt ein typisches Phänomen der Kreuzvalidierung: Die Kreuzvalidierungsfunktion besitzt kein eindeutiges Optimum. 7.2.5 Multivariate Kerndichteschätzer Gegeben sei nun ein d-dimensionaler Zufallsvektor X f (x1 , . . . , xd ) = f (x). 74 = (X1 , . . . , Xd ) mit Dichte Abbildung 7.11: Kreuzvalidierungsfunktion für die simulierten Daten aus Beispiel 7.2 (Mischung aus Normalverteilungen). Als Kern wurde ein Gaußkern verwendet. Die optimale Bandweite ist h = 0.6. Abbildung 7.12: Kerndichteschätzer für die simulierten Daten aus Beispiel 7.5, wobei die CV-optimale Bandweite h = 0.6 verwendet wurde. Als Kern wurde ein Gaußkern verwendet. Zum Vergleich ist die wahre Dichte zusätzlich eingezeichnet (gestrichelte Linie). 75 Abbildung 7.13: Kreuzvalidierungsfunktion für Nettomiete pro Quadratmeter aus dem Mietspiegeldatensatz. Die Abbildung zeigt ein typisches Phänomen der Kreuzvalidierung, die Kreuzvalidierungsfunktion hat kein Optimum. Weiterhin sei eine i.i.d. Stichprobe x1 , . . . , xn gegeben, die wir in der Matrix x11 . . . x1d .. .. X = ... . . xn1 . . . xnd zusammenfassen. Wir betrachten folgende multivariate Verallgemeinerungen von Kerndichteschätzern: • Produktkerne: fˆh (x) = 1 n h1 . . . hd n X d Y i=1 K j=1 xj − xij hj mit h := (h1 , . . . , hd )0 . • Multivariate Version univariater Kernfunktionen: n 1 X (x − xi )0 S −1 (x − xi ) ˆ fh (x) = . K h2 n hd i=1 Beispiele für multivariate Kerne K(u) sind gegeben durch: – Rechteckskern K(u) = für u0 S −1 u ≤ h2 1 1 hd |S| 2 c 0 0 sonst 76 mit d co = π2 , p Γ( 2 + 1) – Gaußkern 0 −1 uS u K(u) = − . 1 exp d 2h2 (2π) 2 hd |S| 2 1 Für die Wahl von S bestehen unter anderem folgende Möglichkeiten: – S = I, d.h. gleiche Bandweiten in allen Dimensionen, – S = diag(s21 , . . . , s2d ), wobei s21 , . . . , s2d die empirischen Varianzen sind, – S = empirische Kovarianzmatrix (damit werden auch Abhängigkeiten berücksichtigt). 7.3 Bayesianische nichtparametrische Dichteschätzung Wir betrachten die gleiche Situation wie im vorherigen Abschnitt: Sei X eine stetige Zufallsi.i.d variable mit Dichte f = {f (x), x ∈ Träger}. Die Daten seien xi ∼ f (x), i = 1, . . . , n. Für festes x ist f (x) skalarer, unbekannter Parameter, ähnlich wie θ bei der parametrischen Inferenz. Dort wird für die Bayes–Inferenz die Priori p(θ) für θ benötigt, um die Posteriori f (θ|x1 , . . . , xn ) zu analysieren. Dementsprechend ist das Ziel der bayesianischen Dichteschätzung die Posteriori–Inferenz für f (x|x1 , . . . , xn ), die Prädiktor–Dichte für neues Xn+1 . In der nichtparametrischen Dichteschätzung gilt nun: Für stetige Zufallsvariable X ist f = {f (x), x ∈ Träger} ein unendlich–dimensionaler Parameter“. Damit wird keine Priori–Wahrscheinlichkeitsver” teilung auf Θ ⊆ Rp benötigt, sondern auf einem Funktionenraum F von zulässigen Dichten f (bzw. von Verteilungsfunktionen F bzw. von Verteilungen PF ). Formal: (Ω, A, P) → (F, σf , Pf ) ω 7→ f (ω) = {f (x, ω), x ∈ Träger} (dabei ist σf eine σ–Algebra auf F und Pf Wahrscheinlichkeitsmaß auf dem Raum F aller zulässigen Dichten f ). Die bayesianische nichtparametrische Dichteschätzung steht im Bezug zur Theorie zufälliger Dichten (bzw. zufälliger Wahrscheinlichkeitsmaße / Verteilungsfunktionen), engl. random probability measures (RPM). 77 Bemerkung. Es besteht eine Analogie zu stochastischen Prozessen als zufälligen Funktio” nen“ {X(t), t ∈ T }: (Ω, A, P; {X(t), t ∈ T }) = b (Ω, A, P; {f (x), x ∈ Träger}) X : (Ω, A, P) → (RT , σx , Px ) = b f : (Ω, A, P) → (F, σf , Pf ) (Px : Bildmaß auf dem Funktionenraum RT ). Forderungen an geeignete zufällige Verteilungen bzw. Dichten: 1. Träger von Pf auf F sollte möglichst groß sein. 2. Posteriori–Inferenz sollte analytisch (wohl selten) oder mit MCMC/Gibbs–Sampling durchführbar sein. ⇒ Fokus auf Dirichlet–Prozessen (DP) oder Dirichlet–Prozess–Mischungen (DPM) als PrioriModelle. Weitere RPM findet man zum Beispiel in Ferguson (1974) und Müller und Quintana (2004). DP und DPM sind derzeit die populärsten Priori–Modelle für Dichten in der Bayes–Inferenz. Dabei spielen sie nicht nur für die Dichte–Schätzung, sondern auch für die Dichten in der Bayes–Inferenz eine Rolle: Beispiel 7.7 (Linear Mixed Models). > yij = x> ij β + uij γi + εij , i.i.d. εij ∼ N (0, σ 2 ) i.i.d. Bisher übliche Annahme: γi ∼ N (0, D). Jetzt: γi i.i.d. mit Dichte f , DP(M) als Priori-Verteilung für f (γ). 7.3.1 Dirichlet–Verteilung Sei π = (π1 , . . . , πm ) ein Punkt im (m − 1)–Simplex, d.h. 0 < πi < 1 und α = (α1 , . . . , αm ) sei ein Parameter mit αi > 0. • Dirichlet–Dichte: P Γ( m αi ) α1 −1 α2 −1 αm −1 p(π|α) = Qm i=1 π1 π2 · · · πm , Γ(α ) i i=1 wobei πm = 1 − Pm−1 k=1 πk . Kurz: π ∼ Diri(α1 , . . . , αm ) . 78 Pm i=1 πi = 1. • Spezialfall m = 2: Beta–Verteilung, π = π1 , 1 − π = π2 , mit Dichte p(π|α1 , α2 ) = Γ(α1 + α2 ) α1 −1 π (1 − π)α2 −1 . Γ(α1 )Γ(α2 ) Kurz: π ∼ Beta(α1 , α2 ) . Es gilt mit α := α1 + . . . + αm : E(πi ) = E(πi2 ) = E(πi πj ) = αi α αi (αi + 1) α(α + 1) αi αj α(α + 1) i 6= j . • Äquivalente Definitionen: - Z1 , Z2 , . . . , Zm seien unabhängige Gamma(αi , 1)–verteilte Zufallsvariablen, αi > 0. Dann gilt für π = (π1 , . . . , πm ) mit Zi πi = Pm j=1 Zj : (7.8) π ∼ Diri(α1 , α2 , . . . , αm ) . Dieser Zusammenhang ist günstig, um Dirichlet-verteilte Zufallsvariablen zu generieren. - Stick–Breaking–Repräsentation (vgl. Abschnitt 4.5.2). • Eigenschaften: - Aggregationseigenschaft: π̃ = (π1 , . . . , πi + πi+1 , . . . , πm ) ∼ Diri(α1 , . . . , αi + αi+1 , . . . , αm ) (Der Beweis erfolgt über die Repräsentation durch normalisierte Gamma–Zufallsvariablen (7.8).) Allgemein ist die Aggregation einer Teilmenge von Dirichlet–Komponenten Dirichletverteilt mit entsprechender Aggregation des Parameters. Zum Beispiel gilt ! X X X πik ∼ Beta α ik , α − α ik k für eine Teilmenge {ik }, mit α = k P k αi . - Konjugierte Priori–Familie für Multinomialverteilung: Sei Z = (Z1 , . . . , Zm ) multinomial verteilt, also Z ∼ M (1, π), mit P(Zk = 1) = πk . 79 Mit der Dirichlet–Priori p(π) ∼ Diri(α) gilt für die Posteriori f (π|z) ∝ f (z|π)p(π) zm αm −1 )(π1α1 −1 · · · πm ) ∝ (π1z1 · · · πm zm +αm −1 = π1z1 +α1 −1 · · · πm , d.h. π|z ∼ Diri(z + α) bzw. π|z ∼ Diri(αpost ) mit αkpost ( αk + 1 = αk für zk = 1 sonst (k = 1, . . . , m) . Die Dirichlet–Verteilung ist grundlegend für den DP und für DPMs im nächsten Abschnitt. 7.3.2 Dirichlet-Prozesse Sei (Ω, A) ein messbarer Raum, zum Beispiel (Ω, A) = (R, B) oder (RP , B P ). G0 sei Wahrscheinlichkeitsmaß bzw. eine Verteilung(-sfunktion) auf (Ω, A); weiterhin sei α0 > 0. def Definition 7.8 (Dirichlet-Prozess). Ein Dirichlet-Prozess (DP) ist ein RPM G auf (Ω, A) :⇔ Für jede finite Partition (A1 , . . . , Am ) von Ω mit Aj ∈ A ist der Zufallsvektor (G(A1 ), . . . , G(Am )) dirichletverteilt mit (G(A1 ), . . . , G(Am )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (Am )), kurz: G ∼ DP(α0 , G0 ). G0 heißt Basis-Verteilung (base measure), α0 heißt Präzisionsparameter und bestimmt die Varianz um E(G). Es gilt: - E(G) = G0 . - Je größer α0 , umso ähnlicher wird G (genauer: die Realisierungen von G) der Basisverteilung G0 . 80 Beispiel 7.8. Eine mögliche Basisverteilung G0 ist N (µ0 , Σ0 ) bzw. N (µ0 , σ02 ). G0 G0 (A4 ) A1 A2 A3 A4 A5 (G0 (A1 ), . . . , G0 (A5 )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (A5 )) Konjugiertheit des DP i.i.d. Sei G ∼ DP(α0 , G0 ) und θ1 , . . . , θn | G ∼ G. Das heißt: Zuerst wird eine Realisierung von G ∼ DP gezogen, dann θ1 , . . . , θn aus der realisierten Verteilung G. Dann ist die Posteriori G | θ1 , . . . , θn ∼ DP α0 + n, n α0 1 X G0 + δθi . α0 + n α0 + n i=1 | {z } =: G post Dabei ist δθ (·) Punktmasse in θ: • 1 0 sonst - θ Somit ist G | θ1 , . . . , θn wieder ein Dirichlet-Prozess, aber mit aufdatierten Parametern P αpost = α0 + n und Gpost = α01+n (α0 G0 + ni=1 δθi ). Gpost ist gemischt stetig-diskret, falls G0 stetig. 81 α0 α0 +n G0 Dichte“: ” • • • 1 α0 +n δθi θ1 θn θi Verteilungsfunktion“: ” 6 ... Für MCMC-Inferenz ist entscheidend: Wie kann man Zufallszahlen aus einem DirichletProzess ziehen? Dazu sind andere (konstruktive) Repräsentationen des DP nützlich bzw. notwendig, zum Beispiel 1. Stick-Breaking- (SB, Steckerlbruch-) Prozess 2. Polya-Urnen-Prozess 3. Chinese-Restaurant- (Chinaturm-) Prozess Mit 2. und 3. kann man aus vollständig bedingten Verteilungen θi | θ−i , · , i = 1, . . . , n, ziehen. Als Probleme treten hierbei langsame Konvergenz bzw. langsames Mixing auf. Mit 1. wird die Konstruktion eines (approximativen) Block-Gibbs-Samplers für (θ1 , . . . , θn ) = θ | · möglich. Steckerlbruch-Repräsentation eines DP Nach Sethuraman (1994) können die Realisierungen G eines DP folgendermaßen repräsentiert werden: G(A) = ∞ X πk δφk (A) mit k=1 82 i.i.d. φ k ∼ G0 für beliebiges A ∈ A und πk = βk k−1 Y (1 − βj ) mit i.i.d βk ∼ Beta(1, α0 ). j=1 Dabei gilt ∞ P πk = 1 sowie π1 = β1 . k=1 Somit können Realisierungen eines DP als infinite Mischungen von Punktmassen repräsentiert bzw. generiert werden. Die Lokationen φk der Punktmassen δφk (·) sind i.i.d.-Realisierungen aus G0 ; die zufälligen Gewichte πk werden durch die SB-Prozedur erzeugt. Visualisierung der Steckerlbruch-Prozedur: 0 1 − β1 β1 1 π2 = β2 (1 − β1 ) β1 = π1 πk Die SBP-Repräsentation zeigt: Der DP definiert ein (fast sicher) diskretes RPM. Damit ist der DP selbst noch nicht als RPM-Priori für stetige Verteilungen F geeignet. Wir gehen deshalb später zu DP-Mischungen über. Trunkierter Dirichlet-Prozess (TDP) Für MCMC-basierte Posteriori-Inferenz wird der SBP nach endlich vielen Schritten abgebrochen: T T −1 X X GT (·) = πk δφk (·), πT := 1 − πk k=1 k=1 Ishwaran und James zeigen, dass für T → ∞ gilt: GT (·) − G(·) konvergiert (in L1 -Norm) exponentiell schnell gegen 0. Polya-Urnen-Repräsentation eines DP Literatur: Blackwell and MacQueen (1973) Sei G ∼ DP(α0 , G0 ) und θ | G ∼ G(·). Dann ist n−1 X 1 α0 θn | θ1 , . . . , θn−1 , α0 , G0 ∼ G0 + δθj . n − 1 + α0 n − 1 + α0 j=1 Dabei wurde bezüglich G marginalisiert, d.h. G herausintegriert: P (θn | θ1 , . . . , θn−1 , α0 , G0 ) ∝ Z Y n j=1 83 P (θj | G) P (G | α0 , G0 ) dG. (7.10) Formel (7.10) zeigt einen Clustering (Klumpen)-Effekt: α0 n−1+α0 nk n−1−α0 + Q QQ s 6 6 6 66 6 Θ 6 6 θj Die Beobachtung φk := θk tritt nk mal auf (bei vorangehenden Ziehungen θ1 , . . . , θn−1 ). Mit Wahrscheinlichkeit α0 /(n − 1 + α0 ) wird θn aus G0 gezogen; mit Wahrscheinlichkeit nk /(n−1+α0 ) ist θn gleich einem θk = φk , das schon nk -mal auftrat. Je größer α0 , desto größer ist die Wahrscheinlichkeit, aus G0 zu ziehen, und desto kleiner ist die Wahrscheinlichkeit, θn gleich einem bereits vorhandenen θk zu setzen. Clustering-Effekt Es gilt gemäß dem Erwartungswert einer dirichletverteilten Zufallsvariable α0 G0 (A) + E (G(A) | θ1 , . . . , θn ) = n P j=1 α0 + n δθj (A) α0 G0 (A) + K P nk δφk (A) k=1 = α0 + n , wobei φ1 , . . . , φK die K verschiedenen Werte der θ1 , . . . , θn bezeichnen und nk , wie viele θj ’s gleich φk sind Die Formel zeigt: - Die marginale Wahrscheinlichkeit, ein φk bei einer weiteren Ziehung zu erhalten, ist proportional zu nk . - Die marginale Wahrscheinlichkeit, einen neuen φ−Wert zu erhalten, ist proportional zu α0 . Das ergibt das Polya-Urnen-Schema zum Ziehen aus DP. Chinesisches-Restaurant-Repräsentation eines DP Der DP lässt sich auch durch folgenden stochastischer Prozess repräsentieren: n Kunden setzen sich sequentiell an eine (unendliche) Zahl von Tischen: Kunde 1 setzt sich an Tisch 1. .. . Kunde m setzt sich an einen Tisch gemäß folgender Verteilung: P (bereits besetzter Tisch k | θ1 , . . . , θm−1 ) ∝ nk P (neuer unbesetzter Tisch | θ1 , . . . , θm−1 ) ∝ α0 | {z } Fm−1 84 Dabei ist Fm−1 der Zustand des Restaurants, nachdem m − 1 Kunden ihre Plätze eingenommen haben. θ1 θ4 θ10 θ9 '$ '$ '$ '$ '$ θ5 φ1 θ11 φ2 θ2 φ5 φ4 φ3 &% &% &% &% &% θ8 θ3 θ6 θ7 Formal erfolgt das Ziehen gemäß des Chinese-Restaurant-Prozesses (CRP) wie folgt: • Kunde 1 (θ1 ) betritt das Restaurant und setzt sich an Tisch 1. Dann ist θ1 = φ1 mit θ1 ∼ G0 , K = 1, n = 1, n1 = 1. • Für n = 2, 3, . . . gilt: ( k Kunde n setzt sich an Tisch k+1 mit W’keit mit W’keit nk n−1+α0 α0 n−1+α0 , k = 1, . . . , K, Falls ein neuer Tisch gewählt wird, erhöht sich K auf K + 1, es ist θK+1 ∼ G0 , und der neue Tisch wird mit φK+1 gekennzeichnet. Die resultierende bedingte Verteilung ist K θn | θ1 , . . . θn−1 , α0 , G0 ∼ X α0 nk G0 + δφ . n − 1 + α0 n − 1 + α0 k k=1 DP-Mischungen (DPM) Da der DP (fast sicher) ein diskretes RPM ist, eignet er sich selbst nicht als RPM-Priori für stetige Verteilungen F . Das Konzept von DP-Mischungs-Modellen ist: • θi ist latenter, mit Datenpunkt xi assoziierter Parameter, d.h θi wird nicht beobachtet. • Der (trunkierte) DP wird benutzt, um eine Priori für die θi zu konstruieren, analog zu finiten Mischungen von Normalverteilungen f (xi ) = d X k=1 πk φ xi | µk , σk2 | {z } φk (mit πk , µk , σk2 als deterministischen“unbekannten Parametern). ” 85 • Die Likelihood (gegeben die Parameter θi ) ist n Y f (xi | θi ) . i=1 • Formalisiert: x i | θi ind θi | G i.i.d G ∼ f (xi | θi ) ∼ G ∼ (T)DP(α0 , G0 ) für i = 1, . . . , n. Als Faltung geschrieben: Z f (x) = f (x | θ) dG(θ), 7.3.3 ind (bzw. ∼ F (xi | θi )) G ∼ (T)DP(α0 , G0 ). Bayesianische Dichteschätzung mit DPM-Priori • Klassische Sichtweise: f = {f (x), x ∈ D ⊆ Rp } ist unbekannte, feste Dichtefunktion einer stetigen p-dimensionalen Zufallsvariable X. Speziell: Für p = 1 ist X skalare Zufallsvariable. Für jedes (feste) x ist f (x) unbekannter, deterministischer Parameter, der aus den Daten i.i.d. x1 , . . . , xn ∼ f zu schätzen ist. • Bayesianische Sichtweise: f ist zufällige Dichtefunktion, für die eine RPM-Priori spezifiziert ist. • Stochastische Prozesse-Sichtweise: Für jedes (feste) x ist f (x) eine Zufallsvariable. {f (x), x ∈ D} = f ist eine Familie von Zufallsvariablen auf (Ω, A, P) mit Parameterraum” D = Träger von X, das heißt f ist ” stochastischer Prozess. • Hier: 1. RPM-Priori wird als (T)-DPM-Priori in trunkierter SB-Darstellung gewählt. 2. Basisverteilung G0 als Normalverteilung. 3. Weitere Hyperparameter werden durch Priori-Verteilungen spezifiziert. 4. Block-Gibbs-Sampler von Ishwaran und James (2002) für Posteriori-Inferenz. • Andere Gibbs-Sampler und MCMC-Algorithmen: Escobar und West (1995), MacEachern und Müller (1998), etc. 86 Zur Erinnerung: Klassisches finites Gauß-Mischverteilungsproblem Sei i.i.d. • x = (x1 , . . . , xn ), xi ∼ f0 , f0 wahre Dichte, P • f0 (x) = dk=1 πk,0 φ(x | µk,0 , τk,0 ) finite Mischung von Normalverteilungen, • φ(· | µ, τ ) Dichte der Normalverteilung mit Erwartungswert µ und Varianz τ > 0, • θ = (µ(θ), τ (θ)) = (µ, τ ), • d bekannt oder unbekannt mit d ≤ d0 . Eine Likelihood-Schätzung von πk,0 , µk,0 und τk,0 , k = 1, . . . , d (d bekannt), lässt sich mit dem EM-Algorithmus durchführen. Alternative: Bayes-Schätzung, siehe Frühwirth-Schnatter (2005). Das klassische Mischverteilungsmodell kann auch mit latenten Variablen Si , i = 1, . . . , n, beschrieben werden: Si Xi | Si i.i.d. ∼ ind ∼ Multinomial(1, π0 ) Multinomialverteilung für die d Klassen N (µSi , τSi ), das heißt Xi | Si = k ⇔ f (xi | Si = k) = φ(xi | µk , τk ) für k = 1, . . . , d. Bayes-Inferenz mit DPM-Priori: Konzept • Allgemeines hierarchisches Modell: x i | θi , δ ind θi | G(T ) i.i.d. ∼ f (xi | θi , δ) , i = 1, . . . , n, ∼ G(T ) δ ∼ p(δ) G(T ) ∼ (T )DP(α0 , G0 ) δ endlich-dimensionaler Parameter Mögliche Erweiterungen bzw. Modifikationen: – Hyperparameter in Priori p(δ) – Hyperparameter in Basis-Verteilung G0 – statt DP anderes RPM • Wahl von f : Modelle mit Mischung von Normalverteilungen ind 1. xi | θi , δ ∼ N (µi , τ ) Dabei ist θi = µi , δ = τ , f (xi | θi , δ) = φ (xi | µi , τ ). Als Prioriverteilungen eignen sich τ −1 ∼ Ga bzw. τ ∼ IG. 87 ind 2. xi | θi ∼ N (µi , τi ), θi = (µi , τi ) Hier θi = (µi , τi ), f (xi | θi , δ) = φ (xi | µi , τi ). ind 3. xi | θi ∼ MVN(µi , Σ). ind 4. xi | θi ∼ MVN(µi , Σi ). Diese Modelle sind zum Beispiel im R-Paket DPpackage implementiert. Bemerkung. 1. entspricht Kern-Dichteschätzung mit Gauß-Kern und globaler Bandweite h. 2. entspricht Kern-Dichteschätzung mit Gauß-Kern und lokal-adaptiver Bandweite hx . 3.,4. Multivariate Versionen. • Repräsentation von (T)DP durch (T)SP: GT (· ) = T X πk δφk (·), k=1 i.i.d. φk ∼ G 0 Dabei ist π = (π1 , . . . , πT ) ein trunkierter SB-Prozess: π1 = β1 πk = (1 − β1 )(1 − β2 ) · . . . · (1 − βk−1 )βk πT für k = 2, . . . , T − 1 = 1 − π1 − · · · − πT −1 und i.i.d. β1 , . . . , βT −1 ∼ Beta(1, α0 ). Bemerkung. Für andere MCMC-Algorithmen ist keine SP-Repräsentation notwendig; siehe z.B. Neal (2000), insbesondere Algorithmen 7 und 8. Dabei wird das hierarchische Modell bezüglich G marginalisiert: x i | θi , δ ind ∼ f (xi | θi , δ) θ1 , . . . , θ n ∼ p(θ1 , . . . , θn ) δ ∼ p(δ), wobei p(θ1 , . . . , θn ) durch das Polya-Urnen-Schema definiert ist. • Reformulierung des Modells mit Klassifikationsvariablen: Latente Klassifikationsvariablen c = (c1 , . . . , cn ) stellen Verbindung zwischen θ = (θ1 , . . . , θn ) und φ = (φ1 , . . . , φT ), T < n, her: ci = k ⇔ 88 θi = φ k , wobei φ1 , . . . , φT die verschiedenen Werte von θ1 , . . . , θn sind Für jedes i ist ci ∈ {1, . . . , T }. Damit kann das allgemeine Modell reformuliert werden: xi | φ, c, δ ind ∼ f (xi | φci , δ) , T X ci | π i.i.d. (π, φ) ∼ p(π) × GT0 (φ) δ ∼ p(δ) ∼ πk δk (·) i = 1, . . . , n, (d.h. P(ci = k) = πk ) k=1 mit GT0 (φ) = T Q G0 (φk ) als Produkt-Wahrscheinlichkeitsmaß. k=1 • Diese Reformulierung ist der Schlüssel für den Block-Gibbs-Sampler von Ishwaran und James. Dabei wird iterativ aus den vollständig bedingten Dichten (φ | c, δ, x) (c | φ, π, δ, x) (π | c) (δ | φ, c, x) gezogen. Jede Ziehung φ(b) , c(b) , π (b) , δ (b) generiert ein (zufälliges) Wahrscheinlichkeitsmaß T X (b) (b) πk δφ(b) GT = k=1 k als Realisierung des Posteriori-RPM (GT | x). • Block-Gibbs-Algorithmus: Sei g0 (φ) die Dichte der Basis-Verteilung G0 , und c∗ = {c∗1 , . . . , c∗m } die aktuelle Menge der m ≤ n voneinander verschiedenen Werte von c = (c1 , . . . , cn ). 1. (φ | · ): Ziehe i.i.d. φk ∼ g0 (φ) für k ∈ c\c∗ . φc∗j | c, δ, x für j = 1, . . . , m Ziehe mit p φc∗j | c, δ, x ∝ g0 (φc∗j ) Y i : ci =c∗j 89 f xi | φc∗j , δ . 2. (c | · ): Ziehe ci gemäß P(ci = k | φ, π, δ, x) = πk,i , ind ci | φ, π, δ, x ∼ k = 1, . . . , T T X k=1 für i = 1, . . . , n, πk,i δk (·) | {z } Mult(1,πi =(π1,i ,...,πT,i )) Multinomialverteilung für ci ∈{1,...,T } wobei p(π1,i , . . . , πT,i ) ∝ π1 f (xi | φ1 , δ) , . . . , πT f (xi | φT , δ) . 3. (π | ·): Ziehe (über SB-Repräsentation der Dirichlet-Verteilung) π1 = β1∗ , ∗ πk = (1 − β1∗ )(1 − β2∗ ) · . . . · (1 − βk−1 )βk∗ für k = 2, . . . , T − 1 mit ind βk∗ ∼ T X Beta 1 + rk , α0 + ! rl l=k+1 und rk gleich der Anzahl der ci mit ci = k. 4. (δ | ·): Ziehe aus p (δ | φ, c, x) ∝ p(δ) n Y f (xi | θi , δ) , i=1 wobei θi = φci . Beweisskizze. 1. Folgt wegen p (φ | c, δ, x) ∝ T Y g0 (φk ) n Y f (xi | φci , δ) i=1 k=1 ∝ Y g0 (φk ) Y g0 (c∗j ) f xi | φc∗j , δ . i : ci =c∗j j∈c∗ k∈c\c∗ Y 2. Folgt aus P (ci = k | φ, π, δ, x) = P(ci = k) f (xi | φk , δ) =: πk,i ⇔ ci | φ, π, δ, x ∼ T X πk,i · δk (·). k=1 3. Man benutzt die Konjugiertheit von Multinomial-Verteilung und Dirichlet-Verteilung; somit ist π | · wieder dirichletverteilt mit aufdatierten Parametern. Anschließend SB-Präsentation der Dirichletverteilung benutzen. 4. Standardargument. 90 Dichteschätzung basierend auf Mischung von Normalverteilungen Modell: x i | θi ind θi | GT i.i.d ∼ GT N (µi , τi ), θi = (µi , τi ) ∼ GT ∼ TDP in SB-Darstellung Basis-Verteilung G0 für φk = (µk , τk ), k = 1, . . . , T : µk , τk µk | µ0 , σ 2 τk−1 | a1 , b1 unabhängig i.i.d ∼ N (µ0 , σ 2 ), i.i.d. Ga(a1 , b1 ) ∼ σ 2 gegeben Hyperprioris: (α0 | a2 , b2 ) µ i.i.d. ∼ Ga(a2 , b2 ) ∼ N (0, A), A groß, z.B. 1000. Spezialfall: τ1 = · · · = τk =: τ0 , τ0−1 ∼ Ga(a0 , b0 ). Wahl von a0 , b0 , a1 , b1 , a2 , b2 : schwach informativ, d.h. τk ∼ IG(, ), α0 ∼ Ga(, ). Alternative für τk : i.i.d. ∼ U (0, B), σ ≈ 4 · σ̂ (Schätzung aus Daten), T ≈ 50 (bei n ≈ 1000). τk B groß, Block-Gibbs-Sampler Ziehe iterativ aus folgenden vollständig bedingten Dichten (Full Conditionals): (µ | τ , µ0 , x) (τ | µ, c, x) (c | π, µ, τ , x) (π | c, α0 ) (α0 | π) (µ0 | µ). Nach Burn-in-Phase wird aus der Posteriori (µ, τ , c, π, α0 , µ0 | x) 91 gezogen. Typisches Sample: (µ(b) , τ (b) , π (b) ). Damit ist (b) GT (·) = T X (b) πk δ(µ(b) ,τ (b) ) (·) k k=1 k eine Ziehung aus der Posteriori GT | x und T X (b) (b) (b) πk φ(Xn+1 | µk , τk ) (7.11) k=1 eine Ziehung aus der Prädiktiv-Verteilung f (Xn+1 | x). Daher kann f (Xn+1 | x) aus dem Posteriori-Output geschätzt werden (betrachte f (xn+1 | x) für ein Gitter von x-Werten). Block-Gibbs-Algorithmus Seien {c∗1 , . . . , c∗m } die aktuellen, voneinander verschiedenen Werte der Klassenvariablen/ Klassenindikatoren c = {c1 , . . . , cn }. 1. (µ | ·): Ziehe für jedes j ∈ {c∗1 , . . . , c∗m } ind (µj | τ , c, µ0 , x) ∼ N (µ∗j , σj∗ ) mit nj 1 −1 σj∗ = , + τj σ X x i µ0 µ∗j = σj∗ + , τj σ i : ci =j nj = Anzahl der ci mit ci = c∗j . Für j ∈ c \ {c∗1 , . . . , c∗m } ziehe i.i.d. µj ∼ N (µ0 , σ). 2. (τ | ·): Ziehe für jedes j ∈ {c∗1 , . . . , c∗m } (τj−1 2 X (xi − µj ) nj ind , b1 + . | µ, c, x) ∼ Ga a1 + 2 2 i : ci =j Für j ∈ c \ {c∗1 , . . . , c∗m } ziehe i.i.d. τj−1 ∼ Ga(a1 , b1 ). 3. (c | ·): Ziehe ind (ci | π, µ, τ , x) ∼ T X πk,i δk (·), i = 1, . . . , n, k=1 p(π1,i , . . . , πT,i ) ∝ ! π1 1 πT 1 2 2 (xi − µ1 ) , . . . , √ exp − (xi − µT ) . √ exp − τ1 2τ1 τT τT 92 4. (π | c, α0 ): Ziehe π1 = β1∗ , ∗ πk = (1 − β1∗ )(1 − β2∗ ) · · · · · (1 − βk−1 )βk∗ , k = 2, . . . , T − 1, mit ind βk∗ ∼ T X Beta 1 + rk , α0 + ! rl k = 1, . . . , T − 1. , l=k+1 Dabei ist rk die Anzahl der ci mit ci = k. 5. (α0 | π): Ziehe α0 | π ∼ Ga T + a2 − 1, b2 − T X ! log(1 − βk∗ ) k=1 mit βk∗ wie in 4. 6. (µ0 | ·): Ziehe (µ0 | µ) ∼ N (µ∗0 , σ ∗ ) mit ∗ σ = µ∗0 = 1 T + σµ A −1 , T σ∗ X µk . σµ k=1 Bemerkung. Für τ0 := τ1 = · · · = τT (gleiche Varianzen) wird 2. ersetzt durch ! n 2 X n (x − µ ) i ci (τ0−1 | µ, c, x) ∼ Ga a0 + , b0 + . 2 2 i=1 7.3.4 Semiparametrische GLMM basierend auf DP(M)-Priori für zufällige Effekte Longitudinaldaten: yi1 yi = ... , yini x> i1 Xi = ... , x> in > zi1 Zi = ... , > zin i = 1, . . . , n LMM: yi = Xi β + Zi γi + εi , εi ∼ N (0, σ 2 Ini ) GLMM: E(yi | ηi ) = h(ηi ) = µi , 93 ηi = Xi β + Zi γi + εi Logit-Mixed Model, nur mit Intercept“: ” exp(ηij ) yij ∼ B(1, πij ), πij = , 1 + exp(ηij ) i = 1, . . . , n, j = 1, . . . , n Random-Intercept-Modell: ηij = x> ij β + γi i.i.d. Standardannahme: γi ∼ N (γ, τ 2 ) bzw. bei fixem Intercept in β i.i.d. γi ∼ N (0, τ 2 ). Jetzt: Semiparametrisches Logit-Mixed Model mit γi |G(T ) ∼ G(T ) , G(T ) ∼ (T)DP oder γi |θi ∼ N (µi , τi ), θi = (µi , τi ) ∼ DP mit Parametern G0 ∼ N (µ0 , σ02 ) und α0 > 0. Implementation für LMM und GLMM in R-Paket DPpackage von Jara (2007). 7.4 7.4.1 Glättung und semiparametrische Regression Glättung von Zeitreihen: Straffunktion für Differenzen und IrrfahrtModelle Ziel des Abschnitts ist die Darstellung der engen Beziehung zwischen klassischer Glättung (das heißt Schätzung des Trends), basierend auf penalisierter KQ-Schätzung, und bayesianischer Glättung, basierend auf Irrfahrt-Modellen (random walks) als Glattheits-Prioris (smoothness priors). Klassische Glättung durch penalisierte KQ-Schätzung Die Zeitreihe y = (y1 , . . . , yt , . . . , yn )> mit äquidistanten Zeitpunkten t = 1, . . . , n wird in Trend und zufälligen Fehler zerlegt: yt = γt + εt (t = 1, . . . , n) , wobei γ = (γ1 , . . . , γn )> glatter” Trend (γt := f (t)) und ε = (ε1 , . . . , εn )> irregulärer Fehler ” (noise) mit E(εt ) = 0. 94 Ansatz von Whittaker (1923, ’method of graduation’): Schätze γ durch Minimierung des penalisierten KQ-Kriteriums PKQ(γ) = n X (yt − γt )2 + λ n X t=1 (γt − 2γt−1 + γt−2 )2 t=3 bezüglich γ. Die Minimierung von PKQ benötigt einen Kompromiss zwischen zwei Zielen: guter Anpassung an die Daten gemessen durch das KQ-Kriterium des ersten Terms, und Glattheit des Trends, gemessen durch die Straffunktion (roughness penalty) pen(γ) = n X (∆2 γt )2 , t=3 der Summe quadrierter zweiter Differenzen ∆2 γt = γt − 2γt−1 + γt−2 . Der Glättungsparameter λ steuert den Kompromiss (trade-off ) zwischen beiden Zielen. (Stillschweigende) Zusatzannahme: Fehler εt sind unabhängig, Var(εt ) = σ 2 für t = 1, . . . , n; ansonsten ist der KQ-Term zu modifizieren. Da für einen linearen Trend γt = a + bt gilt pen(γ) = 0 , bestraft pen(γ) nur (lokale) Abweichungen von einem linearen Trend. Allgemein können auch erste Differenzen ∆1 γt = γt − γt−1 und Differenzen d-ter Ordnung ∆d γt = ∆d−1 γt − ∆d−1 γt−1 für pen(γ) = n X (d = 2, 3, . . .) (∆d γt )2 t=d+1 verwendet werden. Für d = 1 werden Abweichungen von der Horizontalen γt = a bestraft, allgemein Abweichungen von einem globalen Polynom vom Grad d − 1. Mit Differenzenmatrizen −1 1 (n) . .. D1 = 0 0 .. (n−1)×n , ∈R . −1 1 (n)> und Strafmatrizen Kd = Dd (n) Dd (n) Dd (n−1) ∈ Rn×n gilt pen(γ) = γ > Kd γ 95 (n) = Dd−1 D1 (d = 1, 2, . . .) , ∈ R(n−d)×n zum Beispiel 1 −1 0 −1 2 −1 . .. ... ... K1 = −1 2 −1 0 −1 1 . Es gilt: rg(Kd ) = n − d. Damit: PKQ(γ) = (y − γ)> (y − γ) + λγ > Kγ ∂PKQ(γ) ∂γ = −2y + 2(I + λK)γ , und daraus folgt durch Nullsetzen γ̂PKQ = (I + λK)−1 y . Es gilt: • E(γ̂PKQ ) = (I + λK)−1 γ, das heißt γ̂PKQ ist verzerrt, • Cov(γ̂PKQ ) = (I + λK)−1 Cov(y)(I + λK)−1 = σ 2 (I + λK)−2 (mit Cov(ε) = σ 2 I). Falls ε ∼ N (0, σ 2 I), ist γ̂PKQ normalverteilt mit diesem Erwartungswert und dieser Kovarianzmatrix. Frage: Wie lautet die asymptotische Verteilung von γ̂PKQ für n → ∞, falls die Fehler nicht normalverteilt sind? Bayesianische Glättung Im entsprechenden bayesianischen Modell wird der Trend γ als Zufallsvektor aufgefasst. Die Verteilungsannahme ist dann y|γ ∼ N (γ, σ 2 I). Als Priori für γ eignen sich die Irrfahrtmodelle (random walks) i.i.d. RW(1): γt = γt−1 + ut , ut ∼ N (0, τ 2 ), RW(2): γt = 2γt−1 − γt−2 + ut , ut ∼ N (0, τ 2 ), i.i.d. t = 2, . . . , n, t = 3, . . . , n. Bemerkung. Mit yt = γt + εt ist das ein spezielles State-Space-Modell mit Kalman-Filter / Smoother zum Schätzen von γ. Schwach informative oder uneigentliche Prioris für die Startwerte sind p(γ1 ) ∼ N (0, c1 ), p(γ2 ) ∼ N (0, c2 ) bzw. 96 p(γ1 ) ∝ const, p(γ2 ) ∝ const. Für die uneigentliche Startverteilung ergibt sich als Priori für γ 1 p(γ) ∝ exp − 2 γ > Kγ , 2τ wobei K = Kd mit rg(K) = n − d wie die Strafmatrix im PKQ-Ansatz ist. K/τ 2 ist die Präzisionsmatrix der teilweise uneigentlichen (partially improper ) Glattheits-Priori p(γ). Wir nehmen bei uneigentlicher Startverteilung (zunächst) vereinfachend an, dass σ 2 und τ 2 bekannt sind. Dann ist die Posteriori f (γ|y) = f (y|γ)p(γ) ∝ f (y|γ)p(γ) f (y) normalverteilt und damit ist der Posteriori-Erwartungswert gleich dem Posteriori-Modus. Der Posteriori-Modus maximiert log f (y|γ) + log p(γ) . bzw. minimiert 1 1 (y − γ)> (y − γ) + 2 γ > Kγ . 2 σ τ Mit dem Varianzverhältnis σ2 τ2 als Glättungsparameter gilt damit (als Punktschätzung) λ := E(γ|y) = Posteriori-Modus = γ̂PKQ . Schätzung des Glättungsparameters und der Varianzen • Frequentistisch: λ bzw. σ 2 , τ 2 unbekannt, fest; Schätzung zum Beispiel durch (generalisierte) Kreuzvalidierung, das heißt Minimierung von (G)CV. • Empirische Bayes-Schätzung: λ bzw. σ 2 , τ 2 unbekannt, fest; Schätzung zum Beispiel durch (RE)ML. • Volle Bayes-Schätzung: σ 2 , τ 2 Zufallsvariablen mit Hyperprioris p(σ 2 ), p(τ 2 ), zum Beispiel p(σ 2 ) ∼ IG(a, b) , 2 p(τ ) ∼ IG(c, d) , a, b > 0 , c, d > 0 . Glättung für nicht-normalverteilte Zeitreihen Sei yt zum Beispiel binär, binomial, kategorial oder Zählvariable, d.h. die Zielvariable ist nicht (approximativ) normalverteilt. Wir betrachten Beobachtungsmodelle vom GLM-Typ: yt |γt ∼ einfache Exponentialfamilie µt = E(yt |γt ) = h(γt ) 97 (t = 1, . . . , n) . Beispiel 7.9. 1. Binäre bzw. binomiale Zeitreihe yt ∼ Bin(nt , πt ) , etwa (Tokio-) Regenfall-Daten, Schlafdaten. πt = h(γt ) (Logit- oder Probitmodell) Ziele: Schätze glatten” Trend für π = (π1 , . . . , πn ) bzw. γ = (γ1 , . . . , γn ). ” 2. Zähldaten yt |λt ∼ Poisson(λt ) oder yt |λt ∼ Poisson(nt λt ) , wobei nt eine Anzahl von Individuen unter Risiko” sei und ” λt = exp(γt ) . Ziel: Schätze glatte Rate λ = (λ1 , . . . , λn ). Die frequentistische Herangehensweise für dieses Problem ist ein penalisierter (Log-) Likelihood-Ansatz. Konzept: Ersetze das KQ-Kriterium bzw. die (Log-) Likelihood des Beobachtungsmodells y ∼ N (γ, σ 2 I) durch die (Log-) Likelihood l(γ) gemäß der angenommenen (Exponentialfamilien-) Dichte der bedingt unabhängigen yt |µt (t = 1, . . . , n). Dies liefert das penalisierte (Log-) Likelihood-Kriterium lpen (γ) = l(γ) − λ > γ Kγ → max γ 2 mit Differenzen-Straffunktion γ > Kγ wie für stetige bzw. normalverteilte yt . Beispiel 7.10. 1. Für yt |γt ∼ N (γt , σ 2 ) gilt: l(γ) = − 1 (y − γ)> (y − γ) 2σ 2 1 1 ⇒ lpen (γ) = − 2 PKQ(γ) mit Glättungsparameter 2 2σ τ ⇒ lpen (γ) → max ⇔ PKQ(γ) → min . γ γ 2. yt |πt ∼ Bin(nt , πt ), Logit-Modell für πt = h(γt ) lpen (γ) = n X (yt log πt + (nt − yt ) log(1 − πt )) − t=1 98 λ > γ Kγ 2 3. Analog für yt |λt ∼ Po(nt λt ). Die Bestimmung von γ̂pen = argmax lpen (γ) γ erfolgt numerisch, zum Beispiel durch (penalisiertes) Fisher-Scoring bzw. durch den (penalisierten) IWLS-Algorithmus. a (Offene?) Frage: γ̂pen ∼ N (?)(γ, ?). Damit offen: Konfidenzintervalle bzw. Konfidenzbänder, Tests, zum Beispiel linearer Trend γt = a + bt gegen nichtlinearen glatten Trend, ... Bei der bayesianischen Glättung verfahren wir analog zum Normalverteilungsfall, d.h. wir nehmen n Y f (y|γ) = f (yt |γt ) gemäß Beobachtungsmodell t=1 mit Random Walk- bzw. Gauß-Glattheits-Priori 1 > p(γ) ∝ exp − 2 γ Kγ 2τ wie bisher an. Aber: f (γ|y) = f (y|γ)p(γ) ∝ f (y|γ)p(γ) f (y) ist nicht normalverteilt und nicht in geschlossener, bekannter Form darstellbar. Daraus folgt im Allgemeinen: Posteriori-Erwartung E(γ|y) 6= Posteriori-Modus . Der Posteriori-Modus maximiert (für gegebenes τ 2 ) log f (y|γ) + log p(γ) = l(γ) − 1 > γ Kγ 2τ 2 = lpen (γ) mit λ := 1 (inverser Varianzparameter) , τ2 das heißt die penalisierte Likelihood-Schätzung entspricht der Posteriori-Modus-Schätzung. Diese ist jedoch analytisch nicht explizit darstellbar, sondern muss durch iterative Algorithmen numerisch berechnet werden. Die asymptotische Verteilung ist ebenfalls nicht bekannt. Volle Bayes-Inferenz basiert auf den vollständig bedingten Dichten f (γ|τ 2 , y) und f (τ 2 |γ, y) mit p(τ 2 ) ∼ IG wie im Gauß-Fall. Zeitreihen-Glättung als Glättung mit P-Splines nullter Ordnung i.i.d. Sei yt = f (t) + εt , εt ∼ N (0, σ 2 ), mit unbekannter glatter” Trendfunktion. Angenommen, ” f (t) ist auf dem Gitter t = 1, . . . , n stückweise konstant mit Werten γt := f (t) und rechtsseitig stetig. 99 g g g n 2 g j 1 t 1 2 j+1 j n Mit B-Splines nullter Ordnung (0) Bj (t) = 1 für t ∈ [j, j + 1) 0 sonst j+1 j gilt dann f (t) = (0) j=1 γj Bj (t) Pn für t ∈ R+ . P Die Penalisierung von Rauheit durch die Differenzen-Penalty j (∆d γj )2 führt auf eine penalisierte B-Spline-Schätzung von f (t) wie in generalisierter Regression. Den ersten” P-Spline” Ansatz gibt es also seit 1923! 7.4.2 Ziel: (Bayesianische) P-Splines Frequentistische und bayesianische Schätzung einer Regressionsfunktion, die durch eine Spline-Funktion, genauer als Linearkombination von Spline-Basisfunktionen, approximiert wird. Wie in 7.4.1 werden Basiskoeffizienten durch Strafterme bzw. GlattheitsPrioris regularisiert (Literatur: Fahrmeir, Kneib, Lang (2007), Kapitel 7). Definition 7.9 (Spline-Funktionen, Polynom-Splines). Eine Funktion f : [a, b] → R heißt def (Polynom-) Spline vom Grad l ≥ 0 zu den Knoten a ≤ κ0 < κ1 < . . . < κM −1 < κM ≤ b ⇔ 1. f (x) ist (l − 1)-mal stetig differenzierbar, 2. f (x) ist ein Polynom vom Grad l für x ∈ [κm , κm+1 ) mit m = 0, . . . , M − 2 und für x ∈ [κM −1 , κM ]. Bemerkung. Für l = 1 ist f (x) stetig, für l = 0 Treppenfunktion. Der Raum aller Splines mit Grad l und Knoten κ0 , . . . , κM ist ein K = (M + l)-dimensionaler Unterraum des Vektorraums aller (l − 1)-mal stetig differenzierbarer Funktionen. Damit lässt sich f (x) durch K X f (x) = γk Bk (x) k=1 100 mit Basisfunktionen Bk (x), k = 1, . . . , K, und Basiskoeffizienten γk darstellen. Die zwei populärsten Basen sind die Trunkierte-Potenz-Basis (TP-Basis) und die B-Spline-Basis. (l) (l) Definition 7.10 (Trunkierte-Potenz- (truncated power, TP-) Basis). B1 (x), . . . , BK (x) def ist TP-Basis vom Grad l ⇔ (l) (l) (l) B1 (x) = 1, B2 (x) = x, . . . , Bl+1 (x) = xl (l) (l) Bl+2 (x) = (x − κ1 )l+ , . . . , BK (x) = (x − κM −1 )l+ mit (x − κk )l+ = (x − κk )l für x ≥ κk 0 sonst. Die TP-Basis besteht aus zwei Komponenten: 1. einem globalen Polynom vom Grad l und 2. trunkierten Polynomtermen, die das Polynom an jedem Knoten geeignet modifizieren. Numerisch stabiler ist die B-Spline-Basis. Definition 7.11 (B-Spline-Basis). (l) def (l) B1 (x), . . . , BK (x) ist B-Spline-Basis vom Grad l ⇔ 1. Jede Basisfunktion ist stückweises, (l − 1)-mal stetig differenzierbares, nichtnegatives Polynom vom Grad l über l − 2 benachbarten Knotenpunkten, sonst ist Bk (x) = 0. 2. Die Basisfunktionen sind so normiert, dass K X (l) Bk (x) = 1 für alle x . k=1 B-Spline-Basisfunktionen vom Grad l ≥ 1 lassen sich rekursiv berechnen durch 1 für κk ≤ x < κk+1 (0) Bk (x) = I[κk ,κk+1 ) (x) = 0 sonst und (l) Bk (x) = κk+l+1 − x x − κk (l−1) (l−1) Bk (x) + Bk+1 (x). κk+l − κk κk+l+1 − κk+1 Für l ≤ 3 existieren auch explizite Formeln. Der lokale Träger und die Normierung bewirken bessere numerische Stabilität der Approximation mit B-Splines. 101 Nonparametrische (Gauß-) Regression mit penalisierten (P-) Splines Betrachte yi = f (xi )+εi mit unabhängigen εi ∼ N (0, σ 2 ), i = 1, . . . , n, mit f (x) approximiert durch K X f (x) = γk Bk (x) , {Bk (x)} eine Spline-Basis . k=1 Dabei ist x (quasi-) stetige Kovariable; sie ersetzt t aus 7.4.1. Dies führt zum linearen Modell y = Zγ + ε , ε ∼ N (0, σ 2 I) mit Designmatrix BK (x1 ) .. . BK (xn ) B1 (x1 ) · · · .. .. Z= . . B1 (xn ) · · · und zum KQ-Schätzer γ̂ = (Z > Z)−1 Z > y. Bemerkung. Bei B-Splines hat Z > Z Bandstruktur (numerischer Vorteil). Problem: Wahl der Anzahl und Lage von Knoten: Anzahl klein ⇒ hoher Approximations-Bias Anzahl groß ⇒ Overfitting, Multikollinearitätsprobleme Lösung: Anzahl moderat (30–50), dafür penalisierte KQ-Schätzung analog zu 7.4.1; Lage äquidistant oder quantil-basiert. Die Wahl der Penalisierung ist abhängig von der Basis: • Bei TP-Basis: Verwende pen(γ) = K X γk2 = γ > Kγ k=l+2 mit 0 0 .. K = diag(0l+1 , 1M −1 ) = , . 0 1 .. 0 . 1 d.h. Koeffizienten γ1 , . . . , γl+1 des globalen Polynoms werden nicht bestraft; dagegen werden Koeffizienten zu trunkierten Potenzen wie bei der Ridge-Schätzung gegen 0 geschrumpft. Der penalisierte KQ-Schätzer ergibt sich mit PKQ(γ) = (y − Zγ)> (y − Zγ) + λγ > Kγ 102 als γ̂ = argmin PKQ(γ) = (Z > Z + λK)−1 Z > y. γ Also: Wir erhalten dieselbe Lösung γ̂ wie in Abschnitt 7.4.1, nur sind Z und K hier anders definiert. • Bei B-Spline-Basis (Eilers und Marx, 1992, 1996): Wähle Penalisierung so, dass sich benachbarte, gewichtete Basisfunktionen γk Bk (x) (im Modus) nicht zu stark unterscheiden (d.h. wie in Abschnitt 7.4.1): pen(γ) = K X (∆d γk )2 , d = 1 oder d = 2 , k=d+1 mit ∆1 γk = γk − γk−1 und ∆2 γk = γk − 2γk−1 + γk−2 . Dies führt zum penalisierten KQ-Kriterium PKQ(γ) = (y − Zγ)> (y − Zγ) + λγ > Kγ , mit Strafmatrix K wie in Abschnitt 7.4.1, Z wie oben zusammengesetzt aus B-Splines und γ̂ = (Z > Z + λK)−1 Z > y . Der Erwartungswert und die Varianz des Schätzers ergeben sich wie in Abschnitt 7.4.1: Bei y|f ∼ N (f, σ 2 I) gilt γ̂ ∼ N (E(γ̂), Cov(γ̂)). Der Glättungsparameter λ wird standardmäßig durch Minimierung des generalisierten Kreuzvalidierungskriteriums GCV(λ) gewählt. Die Schätzung von f (x) erfolgt durch fˆ(x) = z > γ̂ mit z > = (B1 (z), . . . , Bk (z)) und (approximativen) punktweisen Konfidenzintervallen. Bayesianische P-Splines Aus bayesianischer Sichtweise ist γ eine Zufallsvariable mit Prioriverteilung; als Datenverteilung nehmen wir y|γ ∼ N (Zγ, σ 2 I) an. Die gerade behandelten zwei Typen von Penalisierungen entsprechen bestimmten Prioriverteilungen: • Bei TP-Basis: Für die globalen Polynomkoeffizienten werden flache oder schwach informative Prioris gewählt, für die trunkierten Polynome i.i.d. Normalverteilungen: p(γk ) ∝ const (oder schwach informativ) , k = 1, . . . , l + 1, γk ∼ N (0, τ 2 ) , k = l + 2, . . . , K . • Bei B-Spline-Basis: Als Prioriverteilungen werden Random Walks erster oder zweiter Ordnung, RW(1) bzw. RW(2), als stochastische Version der Strafterme mit quadrierten Differenzen verwendet; vgl. Seite 96. Daraus ergibt sich 1 > p(γ) ∝ exp − 2 γ Kγ , 2τ mit Strafmatrizen K1 = D1> D1 bzw. K2 = D2> D2 wie in Abschnitt 7.4.1. 103 In beiden Fällen lautet die Posteriori (bei zunächst bekanntem σ 2 und τ 2 ) 1 > 1 > f (γ|y) ∝ exp − 2 (y − Zγ) (y − Zγ) exp − 2 γ Kγ , 2σ 2τ d.h. γ|y ist (mit gleichen Argumenten wie in 7.4.1) normalverteilt; somit gilt auch Posteriori-Modus = γ̂ = Posteriori-Erwartungswert . Direktes Umformen der quadratischen Terme in der Exponentialfunktion zeigt γ|y ∼ N (µγ , Σγ ) mit µγ = E(γ|y) = Z >Z + σ2 K τ2 −1 Z >y −1 σ2 und Σγ = Cov(γ|y) = σ 2 Z > Z + 2 K . τ Mit λ = σ 2 /τ 2 fallen also die (frequentistische) PKQ-Schätzung γ̂, der Posteriori-Modus und der Erwartungswert µγ zusammen, jedoch sind die Varianzen Cov(γ̂) und Σγ verschieden. Die Varianzen σ 2 , τ 2 bzw. der Glättungsparameter λ = σ 2 /τ 2 können wie folgt geschätzt werden: 1. Empirische Bayes-Inferenz: σ 2 , τ 2 fest”, unbekannt, werden mit (RE)ML geschätzt (geht mit (G)LMM Software). ” 2. Volle Bayes-Inferenz: A priori seien σ 2 ∼ IG(a0 , b0 ) und τ 2 ∼ IG(a, b) mit a = b = ε, zum Beispiel ε = 0.01, als Standardoption. Alternativ: p(τ ) ∝ const, d.h. a = −0.5, b = 0. Gibbs-Sampling erfolgt dann durch Ziehen aus voll bedingten Dichten f (γ|σ 2 , τ 2 , y), f (σ 2 |γ, τ 2 , y) und f (τ 2 |γ, σ 2 , y). Dabei ist zu beachten, dass K keinen vollen Rang besitzt, das heißt rg(K)/2 1 > 1 exp − γ Kγ . p(γ|τ 2 ) ∝ τ2 2τ 2 Für die voll bedingten Dichten ergibt sich γ|σ 2 , τ 2 , y ∼ N (µγ , Σγ ) mit µγ = 1 > 1 Z Z+ 2 2 σ τ −1 1 > Z y σ2 und Σγ = 1 > 1 Z Z + 2K 2 σ τ −1 und σ 2 |τ 2 , γ, y ∼ IG(a00 , b00 ) und τ 2 |σ 2 , γ, y ∼ IG(a0 , b0 ) mit a00 = a0 + 0.5n und b00 = b0 + 0.5(y − Zγ)> (y − Zγ) , a0 = a + 0.5rg(K) und b0 = b + 0.5γ > Kγ . 104 P-Spline-Schätzung bei nicht-normalverteilten Zielvariablen Sei y|f aus einer einfachen Exponentialfamilie wie beim GLM: E(y|f (x)) = h(f (x)) , zum Beispiel y ∼ B(1, π(x)) mit π(x) = exp(f (x)) 1+exp(f (x)) und f (x) = P γk Bk (x) bzw. f = Zγ. • Penalisierte (Log-) Likelihood-Schätzung: γ̂ = argmax lpen (γ) mit penalisierter (Log-) Likelihood lpen (γ) = l(γ) − λ > γ Kγ. 2 Die Maximierung erfolgt mit (penalisiertem) Fisher-Scoring ! spen (γ) = s(γ) − λKγ = 0 Fpen (γ) = F (γ) + λK. ? a Frage: γ̂ ∼ N (γ, ?) Praxis-Lösung (ohne rigorose Asymptotik): a −1 γ̂ ∼ N (γ, Fpen (γ̂)) in Analogie zu üblicher unpenalisierter ML-Schätzung mit dim(γ) = p fest (p << n) und n → ∞. • Bayesianische Inferenz: Das Beobachtungsmodell f (y|γ) ist durch den GLM-Typ definiert. Bei empirischer Bayes-Inferenz und bekanntem bzw. geschätztem λ = 1 τ2 gilt Posteriori-Modus = γ̂pen . Bei voller Bayes-Inferenz wählt man a priori τ 2 ∼ IG(a, b) und wendet dann MCMC mit voll bedingten Dichten f (γ|y, τ 2 ) und f (τ 2 |γ, y) an. Diese lauten 2 f (γ|τ , y) ∝ n Y i=1 exp yi θi − b(θi ) φ 1 > exp − 2 γ Kγ 2τ und 1 rg(K)/2 1 > f (τ |γ, y) ∝ p(τ ) exp − 2 γ Kγ τ2 2τ 1 b 1 > 2 −rg(K)/2 ∝ exp − 2 (τ ) exp − 2 γ Kγ . (τ 2 )a+1 τ 2τ 2 2 105 mit θi = θ(f (xi )), f (xi ) = zi> γ und φ bekannt. γ|τ 2 , y besitzt wie beim bayesianischen GLM (Kapitel 4) keine bekannte Dichte, aus der direkt Zufallsvariablen gezogen werden können. Daher verwendet man hier einen Metropolis-Hastings-Schritt mit IWLS-Vorschlagsdichte in Analogie zum GLM, algorithmisch analog zu Kapitel 4. τ 2 |γ, y ist invers-gammaverteilt mit Parametern a + 0.5rg(K) und b + 0.5γ > Kγ. Vorteile von bayesianischen P-Splines: – Es sind keine asymptotischen (vermuteten) Approximationen für Inferenz notwendig. – Mit dem Posteriori-Sample können interessierende Funktionale, zum Beispiel π(x) = h(f (x)), inklusive Konfidenzintervall geschätzt werden; es ist keine Approximation durch die Delta-Methode notwendig. – Die Wahl des Glättungsparameters λ = 0.5/τ 2 ist automatisch im Modell integriert. – Leichte Erweiterbarkeit auf GAM etc. wegen der modularen Struktur von MCMCAlgorithmen. Nachteil: – Bei ineffizienter Implementierung lange Rechenzeiten (zum Beispiel in R); effiziente Implementierung in BayesX. 7.4.3 Verwandte Penalisierungsansätze Ziel dieses Abschnitts ist die Skizzierung von Penalisierungsansätzen mit gleicher Struktur wie in 7.4.2, d.h. (letztendlich) y = Zγ + ε , ε ∼ (N )(σ 2 I) bzw. y|γ ∼ Exponentialfamilie, E(y|γ) = µ = h(Zγ), wobei Z aus Basisfunktion–Werten konstruiert wird, und pen(γ) = γ > Kγ mit geeignet definierter Strafmatrix K. Die folgenden Ansätze sollen jeweils aus Likelihood– und Bayes– Perspektive betrachtet werden: • Glättungs–Splines, • Kriging (stationäre Gauß–Prozesse) und radiale Basisfunktionen. 106 Glättungs–Splines (Smoothing–Splines) Wir betrachten das Beobachtungsmodell yi = f (xi ) + εi mit unabhängigen εi ∼ (0, σ 2 ). Ziel: Finde fˆ ∈ F = C 2 [a, b] so, dass fˆ = argmin PKQ(f ) f ∈C 2 [a,b] mit PKQ(f ) = n X Z 2 (yi − f (xi )) + λ (f 00 (x))2 dx. i=1 Dabei ist C 2 [a, b] der Raum aller auf [a, b] zweimal stetig differenzierbaren Funktionen. Lösung (zum Beispiel Green und Silverman, 1994): fˆ ist natürlicher kubischer Spline vom Grad 3 mit Knoten an den (voneinander verschiedenen) x–Werten x1 < x2 < . . . < xn . Zur Erinnerung: Eine Funktion f ist ein natürlicher (kubischer) Spline zu den Knoten def a < κ1 < . . . < κm < b ⇔ 1. f (x) ist (kubischer) Polynom–Spline zur obigen Knotenmenge. 2. f (x) genügt f 00 (a) = f 00 (b) = 0, d.h. f (x) ist linear in den Intervallen [a, κ1 ] und [κm , b]. Bemerkung. Ein Spline (engl.) ist ein Kurvenlineal zum Zeichnen einer glatten Kurve; am Rand ein echtes“ Lineal. ” P Damit betrachten wir f (x) = K k=1 γk Bk (x) mit am Rand modifizierten Basisfunktionen und y = Zγ + ε , Z Z K X K X 00 2 pen(γ) = (f (z)) dz = γj γk Bj00 (z)Bk00 (z)dz = γ > Kγ j=1 k=1 mit Z K = (Kjk ) und Kjk = Bj00 (z)Bk00 (z)dz. Bemerkung. Obiges pen(γ) wird statt der Differenzen–Strafterme von Wood (2006) für P–Splines im R–Package mgcv verwendet. Bayesianische Glättungs–Splines erhält man wie folgt: 1. Völlig analog zu bayesianischen P–Splines, nur für anderes Z und K. Die Prioris für σ 2 und τ 2 sind wie in Abschnitt 7.4.2 und damit auch 1 p(γ|τ 2 ) ∝ exp − 2 γ > Kγ 2τ (Hastie und Tibshirani, 2001, Bayesian Backfitting). Das Konzept bleibt auch für nicht– normalverteilte Zielvariablen erhalten: Ersetze das KQ–Kriterium der (Log–) Likelihood, die durch das Beobachtungsmodell gegeben ist. 107 2. Direkter“ Zugang: Wähle als Priori für f (x) einen Gauß–Prozess (für kubische Splines) ” Z x − 21 W (u)du , f (x) = β1 + β2 x + λ | 0 {z } Pfadweises“ Integral des ” Standard–Wiener–Prozesses“ ” (mit Var(W (u)) = 1) Es gilt (Wahba, 1990): fˆ(x) = E(f (x)|y) = frequentistischer Smoothing–Spline aber Cov(f (x)|y) 6= Cov(fˆ(x)). Stationäre Gauß–Prozesse und radiale Basisfunktionen Das sogenannte Kriging kommt aus der räumlichen Statistik und basiert auf stationären (räumlichen) Gauß–Prozessen. Der auf eine Dimension (d = 1) reduzierte Fall zeitstetiger Prozesse geht von folgendem Modell aus: yt = γ0 + f (t) + εt , i.i.d. εt ∼ N (0, σ 2 ) , Cov(εt , εs ) = 0 für t 6= s. Dabei ist {f (t), t ≥ 0} ein stationärer Gauß–Prozess (vgl. auch Skript zu Stochastischen Prozessen, Kapitel 2) mit E(f (t)) = 0, Var(f (t)) = τ 2 und Korrelationsfunktion ρ(h|θ) = corr(f (t), f (t + h)) = Cov(f (t), f (t + h)) τ2 mit unbekanntem Parameter θ. Die Korrelationsfunktion hängt somit nur von der Zeitdifferenz h zwischen den Argumenten von f (t) und f (t + h) ab, nicht aber von der Zeit t. Gebräuchliche parametrische Korrelationsfunktionen sind (siehe auch Stochastische Prozesse, Kapitel 2): • Potenz–Exponential–Familie: κ h , ρ(h; φ, κ) = exp − φ φ > 0 , 0 < κ ≤ 2. Für κ = 2 ergibt sich als Spezialfall die Gauß–Korrelationsfunktion. • Sphärische Korrelations–Familie: ( 1 − 23 (h/φ) + 21 (h/φ)3 ρ(h; φ) = 0 , 0≤h≤φ , 0 < φ < h. • Matérn–Familie (am populärsten): Allgemeine Darstellung nur mit Hilfe von sogenannten Besselfunktionen möglich, die sich nur numerisch auswerten, aber nicht explizit darstellen lassen. Für Parameter κ = 0.5, 1.5, 2.5, . . . lassen sich die Korrelationsfunktionen 108 direkt angeben: ρ(h; φ, κ = 0.5) = exp(−|h/φ|), ρ(h; φ, κ = 1.5) = exp(−|h/φ|)(1 + |h/φ|), 1 ρ(h; φ, κ = 2.5) = exp(−|h/φ|)(1 + |h/φ| + |h/φ|2 ), 3 1 2 ρ(h; φ, κ = 3.5) = exp(−|h/φ|)(1 + |h/φ| + |h/φ|2 + |h/φ|3 ). 5 15 Für κ = 0.5 entspricht die Matérn-Korrelationsfunktion also wieder der einfachen Exponential-Korrelationsfunktion. Die Beobachtungen liegen zu im Allgemeinen nicht äquidistanten Zeitpunkten t1 < . . . < tn vor. Mit yi := yti , εi := εti erhält man das Beobachtungsmodell yi = γ0 + f (ti ) + εi , i.i.d. εi ∼ N (0, σ 2 ) , i = 1, . . . , n, bzw. y = γ0 1 + f + ε , ε ∼ N (0, σ 2 I) (mit den entsprechenden Spalten–Vektoren) sowie f ∼ N (0, τ 2 Z) , Z = (Zij ) mit Zij = ρ(|ti − tj |; θ), d.h. Z ist Korrelationsmatrix von f = (f (t1 ), . . . , f (tn ))> . Mit γ := Z −1 f folgt y = γ0 1 + Zγ + ε mit ε ∼ N (0, σ 2 I), γ ∼ N (0, τ 2 Z −1 ), also 1 > p(γ) ∝ exp − 2 γ Kγ 2τ Auch gilt f (t) = n X γi ρ(|t − ti |) , mit K = Z. γ = (γ1 , . . . , γn )> , i=1 d.h. mit Bi (t) := ρ(|t − ti |) ist Kriging“ ein Basisfunktionen–Ansatz, allerdings ist die An” zahl der Datenpunkte hier gleich dim(γ) = n. Die Dichte p(γ) ist Prioridichte mit Präzisionsmatrix Z im Sinne der Bayes–Inferenz. Mit p(γ0 ) ∝ const. oder γ0 ∼ N (0, cτ 2 ) und der zusätzlichen Basisfunktion B0 (t) = 1 gilt γ0 y = (1, Z) + ε = Z̃ γ̃ + ε γ mit 1 p(γ̃) ∝ exp − 2 γ̃ > K γ̃ 2τ 109 und K= 0 0 0 Z oder K = c−1 0 0 Z . Damit ist (wieder) volle Bayes–Inferenz, empirische Bayes–Inferenz (wie beim räumlichen Kriging) und PKQ–Ansatz mit den Basisfunktionen {1, ρ(|t − ti |), i = 1, . . . , n} wie bei P–Splines durchführbar (inklusive Bestimmung von σ 2 und τ 2 bzw. λ = σ 2 /τ 2 ). Nachteil: Es gilt dim(Z) = dim(K) = n × n, was bei großen Datensätzen problematisch ist. Deshalb sucht man mit dem Space Filling–Algorithmus nach wenigen repräsentativen ” Knoten“ {κ1 , . . . , κm } ⊂ {t1 , . . . , tn }. Bemerkung. 1. Beim PKQ–Ansatz könnte man mit Basisfunktionen {1, Bi (t) = ρ(|t − ti |), i = 1, . . . , n} und PKQ-Kriterium PKQ(γ) = (y − γ0 1 − Zγ)> (y − γ0 1 − Zγ) + λγ > Zγ → min γ0 ,γ auch sofort frequentistisch“ starten. Dann ist Kriging ein Ansatz mit radialen Basis” ” funktionen“ der Form Bi (t) = B(|t − κi |) mit Knoten κi auf der t–Achse. (Der Name t–Achse“ kommt aus der räumlichen ” Glättung mit Bi (||t − ti ||) , wobei ||t − ti || der euklidische Abstand von t ist.) Der Kriging–Ansatz lässt sich mit x statt t direkt auf nonparametrische Regression yi = f (xi ) + εi , i.i.d. εi ∼ N (0, σ 2 ) anwenden. 2. Eine Erweiterung auf nicht–normalverteilte Zielvariablen ist in Analogie zu P–Splines möglich. 3. Radiale Basisfunktionen sind auch im Machine–Learning–Bereich, zunächst ohne bayesianischen Hintergrund, populär (hier schreibt man x statt t), zum Beispiel: • 1d- Thin–Plate“–Spline(1): {1, x, |x − κ1 |, . . . , |x − κk |} ” • Quadratische radiale Basis: {1, x, (x − κ1 )2 , . . . , (x − κk )2 } • Quasi–logarithmische Basis: {1, x, |x − κ1 | log |x − κ1 |, . . . , |x − κk | log |x − κk |} • 1d- Thin–Plate“–Spline(2): {1, x, (x − κ1 )2 log |x − κ1 |, . . . , (x − κk )2 log |x − κk |} ” Dabei sind κ1 , . . . , κk Knoten auf der x–Achse. 110 4. Statt stationärer Gauß–Prozesse sind auch instationäre Gauß–Prozesse mit (beliebiger) Kovarianzfunktion c(x, x0 ) = Cov(f (x), f (x0 )) möglich. Dabei muss die spezifizierte Kovarianzfunktion c(x, x0 ) positiv (semi–)definit sein: m X c(xi , xj )ai aj > 0 (=) i,j=1 für beliebiges n und x1 , . . . , xn , a1 , . . . , an . Somit definiert c(x, x0 ) mit (x, x0 ) ∈ R2 einen sogenannten reproduzierenden Kern–Hilbert–Raum (RKHS) von Funktionen f . ( Literatur: zum Beispiel Hastie, Tibshirani, Friedman (2001); Wahba (1990); Diplomarbeit Martin Slawski.) 7.4.4 Andere Ansätze im Überblick Lokale Regression basierend auf Kernschätzern LO(W)ESS, lokale Regression: • Literatur: Härdle et al. (2004, Kapitel 4); Fan, Gijbels (1996); Loader (1999). • Asymptotischen Resultate zu M(I)SE, etc. in Analogie zu 7.2. • Gehört zur Gruppe von Lokalisierungsverfahren. Bayesianische nonparametrische Regression basierend auf Dirichlet–Prioris Literatur: Müller und Quintana (2004); Dunson(2007). Ansätze mit Selektion von Knoten bzw. Basisfunktionen Approximation bzw. Darstellung von Regressionsfunktionen f (x) durch eine hochdimensionale (bzw. unendlich–dimensionale) Linearkombination von Basisfunktionen f (x) = J X γj Bj (x) , j=1 wobei J < ∞ oder J = ∞. Konzept: Selektiere frequentistisch (Punkte 1. und 2.) oder bayesianisch (Punkte 3. und 4.) diejenigien Basisfunktionen mit γj ≈ 0. 1. MARS (Friedman, 1991): J endlich, Basisfunktionen als lineare TP–Basis (bzw. leichte Modifikation) inklusive Interaktionsterme mit üblicher“ Variablenselektion. ” 2. Wavelets (und Fourier–Darstellung): J = ∞, (Wavelet–) Shrinkage von Basisfunktionen, zum Beispiel mit LASSO (Tibshirani, 1996). (Zu Wavelets und Fourier-Darstellungen siehe Einschub auf Seite 112.) 111 3. Bayesianisches MARS : basierend auf Reversible Jump MCMC (siehe zum Beispiel Denison et al., 2001). 4. Bayesianische Variablenselektion mit binären Indikatorvariablen: Zu den Koeffizienten γ1 , . . . , γJ werden latente binäre Indikatoren I1 , . . . , IJ definiert, so dass γj = 0 ⇔ Ij = 0 , γj ∼ N (0, c) ⇔ Ij = 1 , wobei c endlich und (eher) groß ist. Man geht also von γj Bj (x) zu Ij γj Bj (x) über. Dazu wird die Priori π(γ) zum Beispiel durch π(γ) = J Y p(γj ) mit p(γj ) = P(Ij = 1) = πj j=1 bestimmt. Oft werden die γi i.i.d. mit P(Ij = 1) = π gewählt. Daraus erhält man eine Mischverteilungs–Priori für γj : γj ∼ (1 − π)δ0 (·) + πφ(·|0, c) mit δ0 (·) Punktmasse auf 0: • 1−π πφ(·|0, c) - 0 Die Parameter π und c werden datengesteuert bestimmt, zum Beispiel mit Hyper– Prioris. Anwendungen: Adaptive–Regression–Splines (Denison et al., 2000), radiale Basisfunktionen (Smith et al.), Wavelets und Fourier–Darstellungen. Einschub: Fourier-Darstellungen und Wavelets • Fourier–Darstellungen: Die Basisfunktionen sind sin(f x) und cos(f x) mit wachsenden Frequenzen, x ∈ R. sin(x) bzw. sin(2x) 6 - Nachteil: Träger ist R bzw. [a, b] ⊆ R. 112 x • Wavelets (aus Signalerkennung, Signal–Regression): Literatur: zum Beispiel Denison et al. (2002) und Hastie, Tibshirani und Friedman (2001). Anwendung zum Beispiel in Spektrometrie (Proteomics) und Spektroskopie. Die Signale sind hier sehr rau und mit ausgeprägten lokalen Spitzen, die zum Beispiel bestimmte Proteine bzw. Moleküle identifizieren. Wavelet–Entwicklung: f (x) = γ0 + n(j) J−1 XX γjk Bjk (x), j=1 k=1 wobei J = log2 n, n(j) = n2j−J und n die Anzahl verschiedener beobachteter x– Werte ist. Mit dieser Wahl von J und n(j) existiert ein sehr schneller Algorithmus (”‘Pyramiden-Algorithmus”’) zum Auswerten der Basisfunktionen j Bjk (x) = 2− 2 ψ(2−j x − k). ψ(x) heißt Mutter–Wavelet und wird so gewählt, dass ( Z 1 , k = k 0 und j = j 0 Bjk (x)Bj 0 k0 (x)dx = 0 , sonst , d.h. {Bjk (x); j = 1, . . . , J; k = 1, . . . , n(j)} ist orthonormale Basis und die Basisfunktionen haben nur lokalen Träger. Beispiel 7.11. 1. Haarwavelet–Basis: ψ(x) +1 6 0.5 - x 1 −1 Mit Translation wird ψ(x) nach k verschoben; mit wachsendem j werden Basisfunktionen zusammengestaucht (Dilatation; Mikroskalen–Analyse“). ” 2. Andere Wavelets (nach gewissen Optimalitätsgesichtspunkten): – LA (least) asymmetric Wavelets (Daubechie) – D–(Daubechie–)Wavelet–Familie Die Basisfunktionenen sind nicht in geschlossener Form darstellbar, aber sehr schnell berechenbar für die obigen Wahlen von J und j und äquidistante x–Werte. Damit ist die Designmatrix Z (Matrix der Basis–Funktionswerte auf dem x–Gitter) schnell berechenbar und es gilt wieder y = Zγ + ε , 113 ε ∼ (N )(0, σ 2 I) . Frequentistischer Ansatz zum Schätzen von γ: Wegen Z > Z = I (da die Basis orthonormal ist) folgt für den KQ–Schätzer γ̂ = (Z > Z)−1 Z > y = Z > y , > > und wegen Z > y = Z | {zZ} γ + Z ε gilt I γ̂ = γ + τ , τ = Z > ε ∼ (N )(0, σ 2 I) . Dies wird Wavelet–Shrinkage genannt. Anschließend werden aus dem hochdimensionalen Vektor γ̂ die signifikanten“ γji selektiert und der Rest gegen 0 geschrumpft bzw. ” gleich 0 gesetzt. Dazu werden folgende Schritte durchgeführt: 1. Wende die diskrete Wavelet–Transformation“ (DWT) auf y an: ” γ̂ = Z > y. 2. Schrumpfe γ̂ zu γ̃ durch Hard– oder Soft–Thresholding, d.h. wende komponentenweise tH (g, λ) = g I{|g|>λ} und tS (g, λ) = sgn(g)(|g| − λ)+ auf g = γ̂ij an, wobei λ > 0 Schwellenwert ist. 3. Wende inverse DWT auf γ̃ an: fˆ = Z γ̃. Bayesianischer Ansatz: Variablenselektion mit Indikatorvariablen oder anderen bayesianischen Shrinkage– Ansätzen wie zum Beispiel bayesianischem LASSO. 7.5 Strukturiert additive Regression 7.5.1 Generalisierte additive Modelle und Modelle mit variierenden Koeffizienten In diesem Abschnitt seien die Daten yi , xi = (xi1 , . . . , xik )> und zi1 , . . . , ziq gegeben, wobei y Zielvariable (stetig, binär, Zählvariable, kategorial wie in GLM), x Vektor von üblichen“ Kovariablen mit linearen Effekten x> β, ” z1 , . . . , zq Kovariablen mit (potentiell) nicht–linearen Effekten f1 (z1 ), . . . , fq (zq ). 114 Additive und generalisierte additive Modelle Additive Modelle (AM) Sei yi = x0i β + f1 (zi1 ) + . . . + fq (ziq ) + εi = ηi + εi , i.i.d. εi ∼ [N ](0, σ 2 ) , wobei ηi additiver (auch: semiparametrischer“) Prädiktor und f1 , . . . , fq glatte Funktionen ” wie in den Abschnitten 7.4.2 und 7.4.3 sind. Generalisierte additive Modelle(GAM) ind Hier sei yi |ηi ∼ Exponentialfamilie wie im GLM mit E(yi |ηi ) = µi = h(ηi ). (Wegen der Unabhängigkeitsannahme sind GAMs insbesondere für Querschnittsdaten geeignet.) Für Identifizierbarkeit fordert man (zum Beispiel): n X x0 β = β0 + β1 xi1 + . . . βk xik , ! fj (zij ) = 0, j = 1, . . . , q. i=1 Modelle mit variierenden Koeffizienten (VCM) Hier werden Interaktionen der Form g(z)> u einbezogen. Dabei ist z stetige Kovariable und u besteht aus Komponenten aus x, d.h. u1 , u2 , . . . sind Kovariablen aus x. Dies führt zu η VCM = η add + g1 (z1 )u1 + g2 (z2 )u2 + . . . . Interpretation: Der Effekt von u variiert über z. In der Regel ist u1 , u2 binär. Mit Basisfunktionen–Ansatz: gj (zj )uj = dj X δjl Bl (zj )uj . l=1 Mit der Designmatrix ZjVCM , ZjVCM il := Bl (zij )uij , und den Koeffizientenvektoren δj erhält man η VCM = η add + Z1VCM δ1 + Z2VCM δ2 + . . . = Xβ + Z1 γ1 + . . . + Zq γq + Z1VCM δ1 + Z2VCM δ2 + . . . bzw. nach Umbenennung und Reindizierung η VCM = Xβ + Z1 γ1 + . . . + Zq γq + Zq+1 γq+1 + . . . + Zm γm . Fazit: Methodisch sind VCM wegen der gleichen Prädiktor–Struktur nur eine geringfügige Erweiterung von GAM. 115 Beispiel 7.12 (Mietspiegel). Als Daten werden nur Wohnungen in normaler und besonderer Lage betrachtet. Folgendes Modell berücksichtigt eine Interaktion zwischen Wohnfläche und Lage: mieteqm = β0 + β1 blage + f1 (flaeche) + f2 (flaeche)blage + f3 (bjahr) + ε. Wir betrachten wie in 7.4 insbesondere GAM mit Basisfunktionen–Ansätzen: fj (zj ) = dj X γjl Bl (zj ). l=1 Damit: • AM: y = Xβ + Z1 γ1 + . . . + Zq γq + ε , ε ∼ N (0, σ 2 I) , wobei X wie im LM und Z1 , . . . , Zq jeweils wie in 7.4, Zj il = Bl (zij ) , d.h. durch Evaluation der Basisfunktionen konstruiert ist. • GAM: E(y) = h(η), η = Xβ + Z1 γ1 + . . . + Zq γq hochdimensionaler linearer Prädiktor. Beispiel 7.13 (Mietspiegel). Betrachte mieteqm = β0 + β1 glage + β2 blage + f1 (flaeche) + f2 (bjahr) + ε. Dabei ist die Kovariable lage drei–kategorial mit normaler Lage ( nlage) als Referenzkategorie und guter Lage ( glage) und besonderer Lage ( blage) dummykodiert. Beispiel 7.14 (Zustand des Waldes). Die Variable y ist ordinal mit den Ausprägungen 1 : nicht geschädigt, 2 : leicht geschädigt, 3 : schwer geschädigt. Daten: yit für i = 1, . . . , 83 Buchen zum Zeitpunkt t = 1983, . . . , 2004. Ordinales Logit–Modell mit zwei Prädiktoren für die Kategorien 1 und 2: (r) ηit = β0r + x> it β + f1 (alterit ) + f2 (hangi ) + f3 (schirmit ) + f4 (t) + f5 (hoehei ) , r = 1, 2, mit Schwellenwerten β0r . Beispiel 7.15 (Schadenshäufigkeiten bei Kfz–Versicherung). yi sei die Anzahl der Schäden pro Jahr von Versicherungsteilnehmer i: yi |ηi ∼ Po(λi ) , λi = exp(ηi ), η = β0 + β1 geschl + . . . + f1 (alterv) + f2 (alterkfz) + f3 (bm) + g(alterv)geschl . 116 Erweiterungen dieser Modelle erfolgen durch Einbeziehen von • Interaktionen f1,2 (z1 , z2 ) von stetigen Kovariablen z1 , z2 , • räumlich geographischen Effekten fgeo (s), wobei s diskret (Regionen) oder s = (s1 , s2 ) punktgenaue Lokation in R2 ist, • cluster–spezifischen Effekte γg mit g ∈ {1, . . . , G} • etc. Dies führt auf strukturiert–additive Regression (STAR), siehe zum Beispiel Kapitel 8 in Fahrmeir, Kneib und Lang (2007). Inferenz für GAM, VCM und STAR–Modelle mit Basisfunktionen ist möglich durch • penalisierte KQ– bzw. Likelihood–Schätzung in Verbindung mit der Minimierung eines Modellwahl–Kriteriums zur Schätzung der Glättungsparameter, • empirische Bayes–Inferenz, basierend auf der Repräsentation als gemischtes Modell (GLMM), • volle Bayes–Inferenz, basierend auf MCMC. Penalisierte KQ– bzw. Likelihood–Schätzung Penalisiertes KQ–Kriterium für AM: KQpen (β, γ1 , . . . , γq ) = KQ(β, γ1 , . . . , γq ) + q X λj γj> Kj γj j=1 mit KQ(β, γ1 , . . . , γq ) = (y − Xβ − Z1 γ1 − . . . − Zq γq )> (y − Xβ − Z1 γ1 − . . . − Zq γq ) und (zunächst unbekannten) Glättungsparametern λj und Strafmatrizen Kj wie bei P– Splines etc. in Kapitel 7.4. Penalisiertes (Log–) Likelihood–Kriterium: q 1X lpen (β, γ1 , . . . , γq ) = l(β, γ1 , . . . , γq ) − λj γj> Kj γj . 2 j=1 Penalisierte KQ– bzw. ML–Schätzung: (β̂, γ̂1 , . . . , γ̂q ) = argmin KQpen ( · ) β,γ bzw. (β̂, γ̂1 , . . . , γ̂q ) = argmax lpen ( · ), β,γ 117 dann wird konzeptionell weiter verfahren wie bei KQ– bzw. ML–Schätzung: erste Ableitungen bilden, Nullsetzen, Auflösen“ des linearen bzw. nichtlinearen Gleichungssystems, Berechnen ” von (penalisierten) Informationsmatrizen, . . . . Bei penalisierter KQ–Schätzung im > X X X > Z1 > > Z X Z Z1 + λ1 K1 1 1 .. . Zq> X AM: ... ... .. . Zq> Z1 X > Zq Z1> Zq . . . Zq> Zq + λq Kq β γ1 .. . ! = γq X1> y Z1> y .. . Zq> y . Die Lösung erhält man direkt (etwa bei P–Splines) oder, wenn (β, γ1 , . . . , γq ) hochdimensional ist (zum Beispiel bei Glättungs–Splines), iterativ mit Backfitting“ (das entspricht dem ” Gauß–Seidel–Algorithmus aus der numerischen Mathematik). Bei penalisierter Likelihood–Schätzung in GAM: ! spen,β (β, γ1 , . . . , γq ) = sβ (β, γ1 , . . . , γq ) = 0, ! spen,γj (β, γ1 , . . . , γq ) = sγj (β, γ1 , . . . , γq ) − λj Kj γj = 0. Dabei sind sβ , sγj Score–Funktionen wie im GLM. a Fragen: (β, γ1 , . . . , γp ) ∼ N (·, ·)? Wie lautet der AMISE? Sind die Schätzer konsistent? Für die Glättungsparameterwahl können verschiedene Kriterien verwendet werden: Wähle λ1 , . . . , λq so, dass mit der Hatmatrix H AIC = −2 lpen (β̂, γ̂) + 2 tr(H) → min , λ1 ,...,λq bzw. 2 n 1X yi − ηˆi GCV = → min . λ1 ,...,λq n 1 − tr(H)/n i=1 Dabei ist GCV das Standard–Kriterium. (In R ist dies für P–Splines im Paket mgcv von S. Wood implementiert.) Offen bleibt folgendes Testproblem: H0 : fj (zj ) = a + bzj linear vs. H1 : fj (z) nichtlinear, glatt. Dazu existieren Möglichkeiten bei empirischer bzw. voller Bayes–Inferenz. Empirische Bayes–Inferenz Die empirische Bayes–Inferenz basiert auf der Repräsentation als gemischtes Modell, das in diesem Abschnitt exemplarisch für lineare Splines mit TP–Basis eingeführt wird, d.h. f (z) = β0 + β1 z + d X l=1 118 γl (z − κl )+ für typische Funktionen f (z). Dabei sind β0 , β1 und σ 2 feste (unbekannte) Parameter und i.i.d. γ1 , . . . , γl ∼ N (0, τ 2 ) zufällige Parameter. Damit beim AM: y = Xβ + Z1 γ1 + . . . + Zq γq + ε , ε ∼ N (0, σ 2 I) , wobei in X auch die Spalten (1, . . . , 1)> und z1 , . . . , zq mit zj = (zj1 , . . . , zjn )> , j = 1, . . . , q, mitaufgenommen sind. Z1 , . . . , Zq sind aus den trunkierten Potenzen gebildete Designmatrizen, (zj1 − κ1 )+ . . . (zj1 − κd )+ .. .. . . Zj = (zji − κ1 )+ . . . (zji − κd )+ , .. .. . . (zjn − κ1 )+ . . . (zjq − κd )+ und γj ∼ N (0, τj2 I) als Priori für die zufälligen Effekte (aus Bayes–Sichtweise) und p(β) ∝ const für die fixen“ Effekte. Die (deterministischen) Varianzparameter σ 2 , τ12 , . . . , τq2 werden mit ” restringierter (RE)ML–Schätzung bestimmt. Bei gegebenen bzw. geschätzten Varianzparametern ist die Posteriori 2 f (β, γ1 , . . . , γq |y) ∝ f (y|β, γ1 , . . . , γq , σ ) q Y p(γj |τj2 ) j=1 wieder die Dichte einer Normalverteilung. Somit ist der Posteriori–Modus gleich dem Posteriori– Erwartungswert E(β, γ|y). Logarithmieren zeigt E(β, γ|y) = argmin KQpen (β, γ) = (β̂, γ̂) β,γ mit λj := σ 2 /τj2 . Bemerkung. Bei GAMs gilt weiterhin Posteriori-Modus(β, γ|y) 6= E(β, γ|y) wie in Abschnitt 7.4. Da das AM die Form eines LMM besitzt, kann zur Schätzung von σ 2 , τj2 und damit von λj = σ 2 /τj2 Software zur (RE)ML–Schätzung verwendet werden. Bemerkung. Dies geht analog für GAMs über GLMMs. 119 Der empirische Bayes–Ansatz ermöglicht das Testen von H0 : f (z) = β0 + β1 z (linearer Effekt) vs. H1 : f (z) = β0 + β1 z + d X γl (z − κl )+ . l=1 Dies ist äquivalent zu H0 : τ 2 = 0 vs. H1 : τ 2 > 0 (dann γ = (γ1 , . . . , γl , . . . , γd )> = 0) mit dem Likelihood–Quotienten–Test. Problem: Die Fisher–Regularität ist verletzt, da τ 2 = 0 auf dem Rand des Parameterraums [0, ∞) liegt. Somit ist der Likelihood–Quotienten–Test nicht mehr asymptotisch χ2 – verteilt, sondern gemischt χ2 –verteilt. Die Bestimmung der asymptotischen Verteilung ist theoretisch und numerisch kompliziert, siehe insbesondere Dissertation von Sonja Greven (2008) bzw. Literaturhinweise in Fahrmeir, Kneib und Lang (2007), Kapitel 8. Für GAMs ist der Likelihood–Quotienten–Test ein offenes (unlösbares?) Problem. Literatur zum empirischen Bayes–Ansatz: Ruppert, Wand, Carroll (2003), Fahrmeir, Kneib, Lang (2007), Dissertation von Thomas Kneib (2005). Volle Bayes-Inferenz mit MCMC Im Folgenden gehen wir zunächst vom einfachsten Fall normalverteilter Zielgrößen aus, d.h. y | γ1 , . . . , γq , β, σ 2 ∼ N (η, σ 2 I), η = Xβ + Z1 γ1 + . . . + Zq γq . Damit ist die Dichte des Beobachtungsmodells proportional zur Likelihood und gegeben durch 1 1 > 2 f (y | γ1 , . . . , γq , β, σ ) ∝ − 2 (y − η) (y − η) . n exp 2σ (σ 2 ) 2 Bayesianische Inferenz basiert auf p(β) ∝ const bzw. 1 > p(β) ∝ exp − 2 β β 2c (d.h. β ∼ N (0, c2 I) für c groß) und den Glattheits–Prioris p(γj | τj2 ) ∝ 1 τj2 !rg(Kj )/2 1 exp − 2 γj> Kj γj 2τj ! für die Regressionskoeffizienten γj des j-ten Terms des strukturiert additiven Prädiktors. Die spezifische Form der Strafmatrix Kj hängt vom speziellen Typ der gewählten Penalisierung ab. Für die Varianzparameter τj2 wird eine inverse Gammaverteilung mit Hyperparametern aj und bj , d.h. τj2 ∼ IG(aj , bj ), als Priori-Verteilung spezifiziert. Analog wird für die Varianz σ 2 des Störterms eine inverse Gammaverteilung mit Hyperparametern a0 und b0 definiert. In der Praxis werden häufig 120 kleine Werte für aj und bj verwendet, etwa aj = 0.001 und bj = 0.001 oder aj = 0.0001 und bj = 0.0001. Die Posterioriverteilung ist proportional zum Produkt aus Likelihood und Prioriverteilung und ist damit gegeben durch 1 1 > f (θ | y) ∝ − 2 (y − η) (y − η) n exp 2σ (σ 2 ) 2 ! q ! q Y Y bj 1 > 1 2 −aj −1 (τj ) exp − 2 exp − 2 γj Kj γj × 2 )rg(Kj )/2 2τ τj (τ j j j=1 j=1 b0 × (σ 2 )−a0 −1 exp − 2 , σ wobei θ hier der Vektor aller im Modell vorkommenden Parameter (inklusive der Varianzparameter) ist. Zum Ziehen aus der Posterioriverteilung können wir einen Gibbs-Sampler verwenden: Hierzu zerlegen wir den gesamten Parametervektor in die Blöcke γ1 , . . . , γq , β, τ12 , . . . , τq2 , σ 2 . Zur Anwendung eines Gibbs-Samplers müssen die vollständig bedingten Dichten der Blöcke bekannte Verteilungen darstellen, aus denen leicht Zufallszahlen gezogen werden können. Genauer gilt γj | · ∼ N (µj , Σj ) mit Erwartungswert und Kovarianzmatrix µj Σj = E(γj | ·) = = Cov(γj | ·) = 1 > 1 Vj Vj + 2 Kj 2 σ τj !−1 1 > 1 V Vj + 2 Kj σ2 j τj 1 > V (y − η−j ), σ2 j !−1 . Bei dem Vektor η−j = η − Vj γj handelt es sich um den Prädiktor η ohne den j-ten Term. Analog erhalten wir für den Vektor β eine multivariate Normalverteilung mit Erwartungswert und Kovarianzmatrix −1 µβ = E(β | ·) = X> X X> (y − η−β ), Σβ = Cov(β | ·) = 1 (X> X)−1 , σ2 wobei η−β = η − Xβ jetzt der Prädiktor η ohne die linearen Effekte ist. Für die Varianzparameter erhalten wir τj2 | · ∼ IG(aj + 0.5rg(Kj ), bj + 0.5γj> Kj γj ), σ 2 | · ∼ IG(a0 + 0.5n, b0 + 0.5(y − η)> (y − η)). Damit lässt sich ohne weiteres ein Gibbs-Sampler initiieren, wobei darauf zu achten ist, dass insbesondere aus den zum Teil hochdimensionalen Normalverteilungen effizient Zufallszahlen gezogen werden. Hier kommen insbesondere numerische Verfahren für Bandmatrizen bzw. 121 dünn besetzte Matrizen zum Einsatz. Für Details siehe Rue (2005), Lang und Brezger (2004), Rue (2001) und George und Liu (1981). Wir beschäftigen uns nun mit dem Testen“ bzw. der Selektion von Funktionen fj mit ” fj = Zj γj , j = 1, . . . , q. Dazu führe (latente) binäre Indikatorvariablen Ij ein mit γj = 0 ⇔ Ij = 0 γj 6= 0 ⇔ Ij = 1 und und modifiziere die Gauß–Priori 1 p(γj |τj2 ) ∝ exp − 2 γj> Kj γj 2τj ! zu 1 p(γj |τj2 , Ij = 1) ∝ exp − 2 γj> Kj γj 2τj ! und P(γj = 0|τj2 , Ij = 0) = 1. Dabei gelte ind Ij ∼ P(Ij = 1) = πj mit X πj = 1 , zum Beispiel P(Ij = 1) = p1 . In diesem Fall gilt p(γj |τj2 ) ∝ (1 − πj ) δ0 (γj ) + πj φ(γj |0, τ 2 Kj−1 ). Bei linearer TP–Spline–Basis mit fj (zj ) = β0j + β1j zj + dj X γjl (zj − κjl )+ l=1 ist γj = 0 ⇔ H0 : fj (zj ) linear. Bei einer B–Spline–Basis gilt: γj = 0 ⇔ H0 : fj (zj ) nicht im Modell, γj 6= 0 ⇔ H1 : fj (zj ) im Modell. Dazu muss die Priori für βj so modifiziert werden, dass p(βj ) eine eigentliche echte (propere) Priori wird; dann existiert Kj−1 als echte Inverse und Cov(γj ) = τj2 Kj−1 . Eine Möglichkeit hierfür ist, die Anfangswerte γ−1,jl , γ0,jl oder den Anfangs– und Endwert mit einer informativen Priori, zum Beispiel N (0, c), zu versehen. Das MCMC–Schema muss dann um die vollbedingte Dichte f (Ij |·) erweitert werden. Aus dem MCMC-Sample kann die Posteriori–Wahrscheinlichkeit P(Ij = 1|y) = Posteriori–Wahrscheinlichkeit von H1 richtig“ ” 122 P (b) geschätzt werden. Dabei ist B die Länge der erdurch die relative Häufigkeit B1 B j=1 Ij zeugten Markov-Kette. Daraus erhält man P̂(Ij = 1). Falls P̂(Ij = 1) > k für einen Schwellenwert k ist, wird H0 abgelehnt. Für Irrfahrt– (RW–) Modelle, d.h. bayesianische P–Splines vom Grad 0, und für Probit– Modelle siehe Chib, Jeliazkov (2006). Für bayesianische P–Splines in AMs und andere Basisfunktionenansätze mit Gauß–Glattheits–Priori ! 1 > p(γj ) ∝ exp − 2 γj Kj γj 2τj sowie allgemeinere Art, wie p(γj ) zu einer properen Priori umgeformt wird, siehe Panapiotelis und Smith (2008), basierend auf früheren Arbeiten von Mike Smith. Dies wird zum Beispiel auch in Smith und Fahrmeir (2007) verwendet. 123 Kapitel 8 Modellselektion In Kapitel 6 hatten wir bereits den Fall betrachtet, dass das wahre Modell” nicht in der von ” uns betrachteten (parametrischen) Modellklasse enthalten ist; es handelt sich hierbei also um eine Fehlspezifikation. Wir wollen diese Gedanken noch weiter spinnen”. Dazu folgende ” Zitate: • Burnham und Anderson (2002): The words ’true model’ represent an oxymoron”. ” • De Lenum (1988): Truth is elusive”. ” • Occam’s (Ockham’s) Razor (Prinzip der Sparsamkeit) • Burnham und Anderson (2002): Parsimony lies between the evil of under- and over” fitting.” Grundsätzlich sind in der Modellwahl zwei Sichtweisen möglich: @ @ R @ Wahres Modell” bzw. Realität”: ” ” ∞ viele Parameter ↓ Grundsätzlich nur mehr oder weniger gute Approximation durch endlich-dimensionale Verfahren möglich. ↓ Erkennen von großen” Effekten (bereits mit ” einfachen Verfahren) und mittelgroßen” Effekten ” (mit guten” statistischen Verfahren). Kleine” ” ” Effekte können praktisch nicht erkannt werden; sie landen in der Fehlerstruktur. ↓ Nur relative Güteabschätzung eines Modells möglich. 124 Realität”: ” endlich viele Parameter ↓ Prinzipiell ist es möglich, das wahre Modell” zu entdecken. ” ↓ Dies ist zum Beispiel Situation in Computer-Simulationen. ↓ Absolute Güteabschätzung eines Modells möglich. Wir werden beide Sichtweisen benutzen. Modellselektion kann mehrere Aspekte beinhalten: • Variablenselektion im Regressionsmodell (ganz allgemein: univariat/multivariat, Panel, Längsschnitt, geo(additiv)) ist auch Modellselektion (eventuell genestete” Situation, ” aber nicht notwendigerweise, zum Beispiel log(x1 ), x21 ). • Vergleich verschiedener Modellklassen, zum Beispiel Vergleich verschiedener Linkfunktionen ( non-nested”). ” Modellselektion kann mittels verschiedener Ansätze durchgeführt werden: • Folge von Tests (zum Beispiel forward/backward/stepwise); hat bewiesenermaßen Nachteile, insbesondere hat der Schätzer nach der Selektion eine andere Verteilung als ohne Selektion. Das heißt, die üblichen Statistiken (p-Werte) stimmen nicht bzw. haben nicht die gewünschte Verteilung. Stichwörter: post model selection inference”, model ave” ” raging” (Hjart and Claeskens, 2003, 2007). Aber: Die Vorwärts-Rückwärts-Schrittweise Selektion liefert gute Ergebnisse, wenn AIC (siehe Abschnitt 8.2), BIC (Abschnitt 8.3), Cp (Abschnitt 8.1) oder CV verwendet werden (Fahrmeir et al.). Auf keinen Fall sollte das Verfahren von Efroymson verwendet werden (p- oder F-Werte für Einschluss/Ausschluss von Variablen). Allerdings: Wenn sehr viele Variablen zur Auswahl stehen (p n), müssen in der Regel Kompromisse gemacht werden. Neuere Methoden: – Random Forests – Boosting – Bayes? • Shrinkage-Ansätze bei Variablenselektion, zum Beispiel LASSO ( automatisches Null” setzen” von bestimmten Parametern). • Selektion auf der Basis von (geschätzten) Vorhersagefehlern, zum Beispiel Kreuzvalidierung (CV), verallgemeinerte Kreuzvalidierung (GCV); vgl. Kapitel 5.6. • Selektion auf Basis von Informationskriterien, zum Beispiel AIC, BIC, HAIC, CAIC, TIC, RIC, QAIC, MAIC3, MDL. In Artikeln werden oft sehr spezielle Modelle betrachtet, für die ein Kriterium entwickelt wird. Bemerkung. Zum Vergleich genesteter” parametrischer Modelle kann natürlich die bekann” te Likelihood-Quotienten-Statistik verwendet werden. Als allgemeines Verfahren ist sie nicht geeignet (u. A. bei multiplem Testproblem bei mehr als zwei Modellen). 8.1 Mallows’ Cp -Kriterium im linearen Modell Bei Mallows’ Cp -Kriterium wird Selektion auf der Basis von geschätzten Vorhersagefehlern betrieben. Sei der datengenerierende Prozess (DGP) y = Xβ + ε , ε ∼ N (0, σ 2 I) 125 mit rg(X) = p ≤ n und µ = E(y) = (µ1 , . . . , µn )> = Xβ. Möglicherweise tragen einige der Kovariablen nicht sehr zur Erklärung der Zielvariablen bei. Wir unterteilen deshalb die Kovarianzmatrix und den Koeffizientenvektor in X = (X1 , X2 ) und β = (β1 , β2 ) mit rg(X1 ) = p1 < p und betrachten das Submodell , ε1 ∼ N (0, σ12 I). y = X 1 β1 + ε1 Anstelle der Schätzer β̂ = (X > X)−1 X > y und µ̂ = X β̂ für das volle Modell betrachten wir also β̂1 = (X1> X1 )−1 X1> y und µ̂1 = X1 β̂1 = P1 y mit P1 = X1 (X1> X1 )−1 X1> . Es gilt E(µ̂1 ) = P1 E(y) = P1 Xβ = P1 µ. Betrachte Summe der erwarteten quadrierten Abweichungen (SMSE) (Fahrmeir et al.) SMSE = n X E(µ̂1i − µi )2 = i=1 n 2 X E µ̂1i − E(µ̂1i ) + E(µ̂1i ) − µi i=1 n n h i2 X X E(µ̂1i ) − µi + = Var(µ̂1i ) |i=1 {z } (II) |i=1 {z (I) } (I) Wegen P1 P1> = P1 gilt Cov(µ̂1 ) = Cov(P1 y) = P1 (σ 2 I)P1> = σ 2 P1 . Daraus folgt n X Var(µ̂1i ) = tr(σ 2 P1 ) = σ 2 tr(P1 ) = σ 2 p1 . i=1 (II) n h P E(µ̂1i ) − µi i=1 i2 = ... = n P E(yi − µ̂1i )2 − σ 2 ( n − p1 ). | {z } i=1 =tr(I−P1 ) Insgesamt: SMSE = n X E(yi − µ̂1i )2 − σ 2 (n − 2p1 ). i=1 Schätze σ2 durch σ̂ 2 des vollen Modells. Aus \ = SMSE n X (yi − µ̂1i )2 − σ̂ 2 (n − 2p1 ) i=1 126 folgt dann Cp = \ SMSE = σ̂ 2 Pn i=1 (yi − µ̂1i )2 σ̂ 2 − n + 2p1 = SSE(p1 ) − n + 2p1 . σ̂ 2 Es gilt: E(Cp ) = p1 . 8.2 Das Akaike Informationskriterium (AIC) Literatur: Burnham und Anderson (2002). Wir erinnern uns an die Definition der Kullback-Leibler-Distanz in Kapitel 6, Definition 6.1: Z g(X) g(x) log D(g, fθ ) = Eg log = · g(x) dx. f (X|θ) f (x|θ) R Für die weiteren Überlegungen vertausche nun die Rollen: f (x) wahre Dichte, die die Daten generiert, g(x|θ) approximierende Modellklasse. Das heißt, wir erwarten im Folgenden gar nicht, den wahren DGP beschreiben zu können. Betrachte x = (x1 , . . . , xn )> ∼ f y = (y1 , . . . , yn )> ∼ f truth”, zukünftige Beobachtungen, ” truth”, Daten. ” Die Idee ist, dass zukünftige Beobachtungen und Daten unabhängig voneinander sind. Das beste approximierende Modell sei g(x|θ0 ), das heißt dieses Modell minimiert die KLDistanz (Information): Z f (x) min D f, g(·|θ) = D f, g(·|θ0 ) = log · f (x) dx. θ g(x|θ0 ) R Bis jetzt enthält D keine Daten; x wurde herausintegriert. Die Daten kommen ins Spiel, da wir θ0 schätzen müssen, das heißt wir schätzen D(f, g(·|θ0 )) durch Z f (x) D f, g ·|θ̂(y) = log f (x) dx. g x|θ̂(y) R Dabei ist θ̂ ≡ θ̂(y) der ML-Schätzer. Aber: Auch D(f, g ·|θ̂(y) ) ist nicht berechenbar, da f unbekannt ist. Das heißt, selbst wenn f (x) = g(x|θ0 ) wäre (und damit D(f, g(·|θ0 )) = 0), gilt dies nicht für die Schätzung θ̂(y). Das heißt, im Allgemeinen ist D f, g ·|θ̂(y) > D f, g ·|θ0 . 127 Jetzt: Frequentistische Sichtweise, wiederhole Experiment der Generierung der Daten y, wobei yi ∼ f . Ziel ist es, den Erwartungswert EY (D(f, g(·|θ̂(Y )))) zu minimieren. Es gilt Z = D f, g ·|θ̂(y) · f (y) dy EY D f, g ·|θ̂(Y ) R ! # Z "Z f (x) = log · f (x) dx · f (y) dy g(x|θ̂(y)) R R # Z "Z Z log(f (x)) · f (x) dx − log g(x|θ̂(y)) · f (x) dx · f (y) dy = R R |R {z } hängt nicht von y ab Z "Z Z = log(f (x)) · f (x) dx − R | {z } Konstante "Z R # log g(x|θ̂(y)) · f (x) dx · f (y) dy R # log g(x|θ̂(Y )) · f (x) dx = Konstante − EY R " = Konstante − EY EX # log g(X|θ̂(Y )) . Man konzentriert sich darauf, diesen doppelten Erwartungswert” EY EX [log(g(X|θ̂(Y )))] zu ” schätzen. Da die Konstante nicht berechnet werden kann, erhält man nur relative Werte für EY (D(f, g(·|θ̂(Y )))). Ziel ist also die Schätzung von " T = EY EX Z "Z = R log g(X|θ̂(Y )) # # log g(x|θ̂(y)) f (x) dx · f (y) dy R " # =” Eθ̂ EX log(X|θ̂) ” , wobei θ̂ = θ̂(y). Bemerkung. Für x und y unabhängig besteht hier eine Nähe zur Kreuzvalidierung! Wir führen nun eine Taylorentwicklung um den optimalen” Parameter θ0 durch: ” i> h ∂ log g(x|θ) log g(x|θ̂) ≈ log g(x|θ0 ) + (θ̂ − θ0 ) ∂θ θ=θ0 ∂ 2 log g(x|θ) 1 + [θ̂ − θ0 ]> [θ̂ − θ0 ]. 2 ∂θ ∂θ> θ=θ0 128 (8.1) Erwartungswertbildung bzgl. X ∼ f liefert EX h #> " h i i ∂ log g(X|θ) log g(X|θ̂) ≈EX log g(X|θ0 ) + EX (θ̂ − θ0 ) ∂θ θ=θ0 | {z } (8.2) (∗) # 2 log g(X|θ) ∂ 1 [θ̂ − θ0 ] , + [θ̂ − θ0 ]> EX 2 ∂θ ∂θ> θ=θ0 | {z } " −(∗∗) wobei Z (∗) = R ∂ log g(x|θ) · f (x) dx = 0 ∂θ θ=θ0 (vgl. Kapitel 6; θ0 steht für das beste Modell) und ( −(∗∗) = EX ) ∂ 2 log(g(X|θ)) − := I(θ0 ). ∂θ ∂θ> θ=θ0 Bemerkung. Es ist ( I(θ0 ) 6= I(θ0 ) = Eg ) ∂ 2 log(g(X|θ)) − ∂θ ∂θ> θ=θ0 mit der Fisher-Information I(θ0 ), falls g das wahre Modell ist, das heißt wenn g = f , dann Σ = E(θ̂ − θ0 )> (θ̂ − θ0 ) = I(θ0 )−1 . Für den obigen Erwartungswert (8.2) gilt also: i h h i 1 EX log g(X|θ̂) ≈ EX log g(X|θ0 ) − [θ̂ − θ0 ]> I(θ0 ) [θ̂ − θ0 ]. 2 Der erste Summand hängt nicht von y bzw. θ ab. Der zweite ist identisch mit 1 − tr I(θ0 ) · [θ̂ − θ0 ][θ̂ − θ0 ]> . 2 Dabei hängt I(θ0 ) nicht von θ̂ ab. Betrachten wir nun wieder den doppelten Erwartungswert (8.1): i i h h h io 1 n Eθ̂ EX log g(X|θ̂) ≈ EX log g(X|θ0 ) − tr I(θ0 ) · Eθ̂ [θ̂ − θ0 ][θ̂ − θ0 ]> . 2 | {z } =Σ, da bzgl. f gebildet! Damit gilt: h i 1 h i T ≈ EX log(g(X|θ0 )) − tr I(θ0 ) · Σ . 2 129 (8.3) Als nächstes benötigen wir eine Beziehung zwischen dem doppelten Erwartungswert T und EY [log(g(Y |θ̂(Y )))], also dem Erwartungswert der log-Likelihood, ausgewertet am ML-Schätzer. Da es nur um die Erwartungswerte geht und x und y aus der gleichen Verteilung stammen, können wir auch x als Daten auffassen. Wir suchen deshalb einen Zusammenhang zwischen T und EX [log(g(X|θ̂(X)))]. Wir führen nun wieder eine Taylorententwicklung durch, diesmal um θ̂ = θ̂(x). " #> ∂ log g(x|θ) log g(x|θ0 ) ≈ log g(x|θ̂) + (θ0 − θ̂) ∂θ θ=θ̂ | {z } =0 ! 2 1 > ∂ log(g(x|θ)) [θ0 − θ̂]. + [θ0 − θ̂] 2 ∂θ ∂θ> θ=θ̂ Durch Erwartungswertbildung erhalten wir, analog zu den vorherigen Rechnungen, ) ( 1 i h ˆ θ̂)(θ0 − θ̂)(θ0 − θ̂)> . EX log g(X|θ0 ) ≈ EX log g(X|θ̂) − tr EX I( 2 ˆ θ̂) die (negative) Hessematrix der log-Likelihood, ausgewertet an θ̂. Approximieren Dabei ist I( ˆ θ̂) ≈ I(θ0 ), so erhalten wir wir diese durch I( i h ˆ θ̂)(θ0 − θ̂)(θ0 − θ̂)> ≈ I(θ0 )EX ((θ0 − θ̂)(θ0 − θ̂)> ) = I(θ0 ) · Σ EX I( und damit EX log g(X|θ0 ) ≈ EX 1 n o log g(X|θ̂) − tr I(θ0 ) · Σ . 2 Einsetzen in (8.3) liefert " T ≈ EX ( ) # 1 log g(X|θ̂(X)) − 2 · tr I(θ0 ) · Σ . 2 Der Erwartungswert wird hier nur bzgl. einer Stichprobe” gebildet. ” Alternativ : Definiere ∂ 2 log(g(X|θ)) I(θ0 ) = Ef − ∂θi ∂θj θ=θ0 ( > ) ∂ ∂ J(θ0 ) = Ef log g(X|θ) log g(X|θ) ∂θ ∂θ θ=θ0 > Σ = Ef (θ0 − θ̂)(θ0 − θ̂) Für n → ∞ gilt −1 I(θ0 ) · Σ = J(θ0 ) I(θ0 ) 130 und damit Σ = I(θ0 )−1 J(θ0 ) I(θ0 )−1 . Dies ist die asymptotische Kovarianzmatrix von θ̂ML , abgeleitet von Modell g, wenn f wahr ist. Damit folgt: " T ≈ EX ( ) # log g(X|θ̂(X)) − tr J(θ0 ) I(θ0 )−1 . Fast unverzerrte” Schätzungen von T sind ” b I(θ0 ) Σ T̂ = log g(x|θ̂(x)) − tr und b J(θ0 ) I(θ0 )−1 . T̂ = log g(x|θ̂(x)) − tr Dabei sind I(θ0 ) und J(θ0 ) schätzbar, Σ aber nicht (außer zum Beispiel durch Bootstrap). Das Akaike Informationskriterium ergibt sich nun als b J(θ0 ) I(θ0 )−1 . AIC ≈ −2 T̂ = −2 log g(x|θ̂(x)) + 2 tr Ist g ein gutes Modell”, also eine gute Appproximation an f , dann gilt ” I(θ0 ) ≈ I(θ0 ) ≈ J(θ0 ) ≈ Σ und tr J(θ0 ) I(θ0 )−1 ≈ tr(Ik ) = k, wobei Ik die Einheitsmatrix mit k Zeilen bzw. Spalten bezeichnet. Insgesamt erhalten wir das AIC = −2 log g x|θ̂(x) + 2k. Ein Modell mit kleinem AIC sollte nach diesem Kriterium einem Modell mit großem AIC vorgezogen werden. Einschub: Laplace-Approximation Ziel der Laplace-Approximation ist die Bestimmung der Normalisierungskonstante Z NP = f (θ) dθ Θ der unnormalisierten Wahrscheinlichkeitsdichte f (θ), welche typischerweise durch f (θ) ≡ fe(θ|x) = f (x|θ) · p(θ) mit unnormalisierter Posteriori-Dichte fe(θ|x) gegeben ist. 131 Skalarer Parameter. Sei θ ∈ Θ zunächst eindimensional. Annahme: f (θ) hat ein eindeutiges Maximum in θ0 . Anstelle von f (θ) betrachten wir die logarithmierte (unnormalisierte) Dichte: f (θ) ln f (θ) Für die erste Ableitung von ln f (θ) an der Stelle θ0 gilt: ∂ ∂ 1 ln f (θ) · f (θ) = 0. = ∂θ f (θ0 ) ∂θ θ=θ0 θ=θ0 | {z } 0 Daher erhalten wir als Taylorentwicklung von ln f (θ) um θ0 : ! 1 ∂2 d ln f (θ) ≈ ln f (θ0 ) − · − 2 ln f (θ) ·(θ − θ0 )2 = ln f (θ0 ) − · (θ − θ0 )2 . 2 ∂θ 2 θ=θ0 | {z } =:d 132 f (θ) kann damit approximiert werden durch d d 2 2 f (θ) ≈ g(θ) = exp ln f (θ0 ) − (θ − θ0 ) = f (θ0 ) · exp − (θ − θ0 ) . 2 2 {z } | Kern einer N (θ0 , d1 )-Verteilung R Wir erhalten also eine Schätzung für die Normalisierungskonstante von Θ f (θ)dθ durch Z Z Z d 2 NP = f (θ) dθ ≈ g(θ) dθ = f (θ0 ) · exp − (θ − θ0 ) dθ 2 Θ Θ Θ r Z 2π d 1 2 · exp − (θ − θ0 ) = f (θ0 ) · q dθ d 2 1 2π · d Θ | {z } =1 r 2π = f (θ0 ) . d Für θ0 kann dabei zum Beispiel die Posteriori-Modus-Schätzung verwendet werden. Vektorieller Parameter. Wir betrachten nun die Verallgemeinerung auf den Fall, dass θ ∈ Θ ein k-dimensionaler Vektor ist. ∂2 Statt d = − ∂θ erhalten wir D = (dij ) 1 ≤ i ≤ k mit 2 ln f (θ) θ=θ0 1≤j≤k ∂2 dij = − ln f (θ) . ∂θi ∂θj θ=θ0 Damit lautet die Taylorentwicklung: 1 ln f (θ) ≈ ln f (θ0 ) − (θ − θ0 )> D(θ − θ0 ) 2 1 > ⇒ f (θ) ≈ g(θ) = f (θ0 ) · exp − (θ − θ0 ) D(θ − θ0 ) 2 | {z } Kern einer N (θ0 , D −1 )-Verteilung Die Normierungskonstante kann dann durch Z Z Z 1 > g(θ) dθ = f (θ0 ) · exp − (θ − θ0 ) D(θ − θ0 ) dθ f (θ) dθ ≈ 2 Θ Θ Θ Z (2π)k/2 1 1 > = f (θ0 ) · · · exp − (θ − θ0 ) D(θ − θ0 ) dθ 2 |D|1/2 (2π)k/2 · |D −1 |1/2 Θ | {z } =1 = f (θ0 ) · (2π)k/2 |D|1/2 133 geschätzt werden. Wir betrachten nun zwei Spezialfälle: 1. Wir möchten die Normalisierungskonstante der Likelihood von θ schätzen, d.h. wir betrachten die Dichte f (θ) ≡ f (x|θ) = n Y f (xi |θ) = L(θ), i=1 welche im (eindeutigen) ML-Schätzer θ̂ML ein Maximum hat. Es gilt 1 > L(θ) ≈ L(θ̂ML ) · exp − (θ − θ̂ML ) D(θ − θ̂ML ) 2 1 = L(θ̂ML ) · exp − (θ − θ̂ML )> (nD̃)(θ − θ̂ML ) 2 mit D̃ = D/n. Der zweite Faktor ist der Kern einer N (θ̂ML , (nD̃)−1 )-Verteilung. Wir erhalten daher als Schätzer für die Normierungskonstante Z (2π)k/2 (2π)k/2 L(θ) dθ ≈ L(θ̂ML ) · = L(θ̂ML ) · . |nD̃|1/2 nk/2 · |D̃|1/2 Θ Alternativ kann man anstelle von D auch die geschätzte inverse Kovarianzmatrix von θ̂ML , V (θ̂ML )−1 , mit V (θ̂ML )−1 = n · V1 (θ̂ML )−1 verwenden. 2. Wir möchten die Normalisierungskonstante der unnormalisierten Posteriori von θ schätzen, d.h. wir betrachten die Dichte ! n Y f (θ) = fe(θ|x) = f (x|θ) · p(θ) = f (xi |θ) · p(θ) , i=1 welche im Posteriori-Modus-Schätzer θ̂M ein Maximum hat. Definiere die Funktion q so, dass !# " n n X X 1 log f (xi |θ) + log p(θ) . log fe(θ|x) = log f (xi |θ) + log p(θ) = n · n i=1 i=1 | {z } =: log q(θ|x) Entwicklung um θ̂M liefert 1 log fe(θ|x) ≈ log f (θ̂M |x) − (θ − θ̂M )> (nD)(θ − θ̂M ) 2 2 mit D = (dij ) und dij = − ∂θ∂i θj log q(θ|x) . θ=θ̂M Damit folgt 1 > e e f (θ|x) ≈ f (θ̂M |x) · exp − (θ − θ̂M ) (nD)(θ − θ̂M ) 2 134 und Z Z fe(θ|x) dθ ≈ fe(θ̂M |x) · Θ 1 exp − (θ − θ̂M )> (nD)(θ − θ̂M ) 2 dθ Θ (2π)k/2 = fe(θ̂M |x) · k/2 n · |D|1/2 Z 1 1 > · · exp − (θ − θ̂M ) (nD)(θ − θ̂M ) dθ 2 (2π)k/2 · |(nD)−1 |1/2 Θ | {z } =1 = fe(θ̂M |x) · wobei (2π)k/2 nk/2 · |D|1/2 , h i−1/2 = |(nD)−1 |1/2 = |nD|−1/2 = nk |D| Also: Z fe(θ|x) dθ ≈ fe(θ̂M |x) · nk/2 1 . · |D|1/2 (2π)k/2 . nk/2 · |D|1/2 Θ 8.3 Das Bayessche Informationskriterium (BIC) Die Abkürzung BIC steht für Bayesian Information Criterion, welches oft auch Schwarzsches Informationskriterium (SIC) genannt wird. Dieses Kriterium ist (approximativ) äquivalent zu auf der marginalen Likelihood Z f (x) = f (x|θ) · p(θ) dθ. Θ basierender Modellwahl. Ableitung des BIC: Verwende Spezialfall 2 auf Seite 134 als Laplace-Approximation: Z (2π)k/2 f (x) = fe(θ|x)dθ ≈ fe(θ̂M |x) · k/2 n · |D|1/2 Θ = n Y f (xi |θ̂M ) · p(θ̂M ) · i=1 (2π)k/2 nk/2 · |D|1/2 mit dem Posteriori-Modus-Schätzer θ̂M , also log f (x) ≈ n X log f (xi |θ̂M ) + log p(θ̂M ) + i=1 k k 1 log(2π) − log(n) − log(|D|). 2 2 2 Nun werden folgende Modifikationen vorgenommen: 135 1. Für große n gilt: (i) log p(θ̂M ) kann vernachlässigt werden −→ Term weglassen. (ii) θ̂M konvergiert gegen θ̂ML −→ f (x|θ̂M ) durch f (x|θ̂ML ) ersetzen. 2. k 2 log(2π) wird durch − k2 log(n) und die Log-Likelihood dominiert −→ Term weglassen. 3. |D| ist beschränkt −→ Term weglassen. Damit: k log f (x) ≈ log f (x|θ̂ML ) − log(n). | {z } 2 Log-Likelihood, ausgewertet am ML-Schätzer Durch Multiplikation mit −2 ergibt sich das BIC = −2 log f (x|θ̂ML ) + k · log(n) . Ein Modell mit kleinem BIC sollte nach diesem Kriterium einem Modell mit großem BIC vorgezogen werden. 8.4 Boosting Generelles Konzept Iterative Schätzung von (hoch-dimensionalen) Regressionsmodellen für verschiedene Typen von Zielvariablen y und (strukturiert) additiven Prädiktoren (vgl. 7.4) 0 η(z) = β0 + x β + | {z } =:f0 (z0 ) p X fj (zj ) + Interaktionen f (z1 , z2 ) + räumliche Effekte. j=1 Boosting lässt sich interpretieren als funktionale Gradientenabstiegsmethode (functional gradient descent, FGD) zur Lösung des Optimierungsproblems η ∗ (z) = argmin E(ρ(y, η(z))) η(z) mit geeigneter Verlustfunktion ρ(·, ·), zum Beispiel 1 ρ(y, η) = (y − η)2 2 ρ(y, η) = − log f (y|η) quadratische Verlustfunktion (L2 -Boosting), negative Log-Likelihood. Dabei werden die Verlustfunktionen durch das empirische Risiko n 1X ρ(yi , η(zi )) n i=1 ersetzt. 136 Allgemeiner Boosting-Algorithmus Start: η̂ (0) , zum Beispiel η̂ (0) ≡ 0 oder η̂ (0) ≡ ȳ, . . .. Für m = 1, 2, . . .: 1. Berechne die ”Arbeits-Beobachtungen” / ”Residuen” ui = − ∂ ρ(yi , η) |η=η̂(m−1) (zi ) , ∂η i = 1, . . . , n. 2. Definiere Basis-Lerner (oder: Basis-Prozeduren) gj (zj ), j = 0, . . . , p, zum Beispiel g0 (z0 ) = β0 + β1 z0 oder g1 (z1 ) = B-Spline(zj ). 3. Wähle den best-fittenden Basis-Lerner ĵ = argmin n X (ui − gj (zij ))2 , 0≤j≤p i=1 das heißt wende KQ-Schätzer, (penalisierte) B-Splines auf die Arbeitsbeobachtungen ui für i = 1, . . . , n an anstatt auf die yi und wähle die aktuell am besten gefittete Komponente ĵ. 4. Setze (m) (m−1) fˆĵ (·) = fˆĵ (·) + νgĵ (·), mit der ”Schrittweite” ν ∈ [0, 1] und (m) (m−1) fˆj (·) = fˆj (·) für j 6= ĵ. Iteriere 2. bis 4. bis m = mstop . L2 -Boosting in linearen und additiven Modellen yi = η(zi ) + εi , i.i.d. εi ∼ N (0, σ 2 ) (m) (m−1) = (yi − ηi ) |η̂(zi )(m−1) = ε̂i 1 (y − η)2 , ρ(y, η) = 2 1 E(ρ(y, η)) = E(y − η)2 , 2 η̂ = argmin E(y − η)2 = E(y|η(z)) ui η L2 -Boosting mit komponentweisen KQ-Schätzern Die yi - und xij -Werte seien hier schon standardisiert oder zumindest zentriert (Intercept= 0). 137 Modell: yi = β1 xi1 + . . . + βp xip + εi , i.i.d. εi ∼ (0, σ 2 ) Basis-Prozedur: Lineare Einfachregression gj (xi ) = βj xij , j = 1, . . . , p, (Basis-Lerner) Pn ui xij base base ĝj (xi ) = β̂j xij , β̂j = Pi=1 j = 1, . . . , p n 2 , i=1 xij ĵ = argmin j n X (8.4) (ui − β̂j xij )2 i=1 L2 -Boosting-Algorithmus Start: η̂ 0 (·) = ĝĵ (·) (mit yi statt ui ) oder η̂ (0) ≡ 0 Dann: 1. Berechne ui = yi − η̂ (m−1) (xi ) | {z } aktueller Prädiktor ui = yi − ηi = − ∂ 1 (yi − ηi )2 ∂ηi |2 {z } ρ(yi ,ηi ) 2. Wähle die best-fittende lineare Einfachregression gemäß (8.4) oben. 3. Setze (m) = β̂ĵ (m) = β̂j β̂ĵ β̂j (m−1) (m−1) + ν β̂ĵbase für j 6= ĵ. 4. Stoppe für m = mstop . • Konsistenz von L2 -Boosting, wenn p schneller gegen unendlich geht als n: p = C exp(kn1−ξ ), 0<ξ<1 (sowie Vergleich mit LASSO in Bühlmann, Annals of Statistics, 2006). • Boosting in GAMs: Übersicht in Bühlmann und Hothorn (Statistical Science, 2007); Bodyfat-Beispiel. • Boosting in strukturiert additiven Regressionsmodellen: Kneib, Hothorn und Tutz (Biometrics, 2009; immer mit ρ(y, η) = 12 (y − η)2 bzw. ρ(y, η) = negative Log-Likelihood). Problem: Wahl von Glättungsparametern für P-Splines und von mstop . b Derzeit: Für alle Funktionen f1 , . . . , fq , fgeo ist λbase so, dass df(λbase = df(= 1). ⇒ Alle Funktionen f1 , . . . , fq , fgeo müssen in etwa den gleichen Grad an Glattheit besitzen. Dann: mstop ist einziger Tuningparameter. 138 Kapitel 9 Asymptotische Statistik Dieses Kapitel beschäftigt sich mit folgenden Problemstellungen: 1. Asymptotische Eigenschaften von Schätzern und Teststatistiken (sowie Modellwahlkriterien) in der frequentistischen parametrischen Inferenz, insbesondere für (Quasi–) Likelihood–Ansätze und Schätzgleichungen. 2. Asymptotische Eigenschaften der Posteriori–Verteilung in der Bayes–Inferenz. 3. Asymptotische Eigenschaften von nichtparametrischen Schätzern und Teststatistiken. 4. Approximationen, die auf asymptotischen Eigenschaften beruhen, wie zum Beispiel die Laplace–Approximation. Zu Punkt 1. und 2. werden Konzepte, Ideen und typische Ergebnisse genannt, zu 3. und 4. wird ein Ausblick gegeben. Sei y = (y1 , . . . , yn ) unsere Stichprobe. In den folgenden drei Abschnitten betrachten wir die Fälle i.i.d. • yi ∼ P bzw. f (yi ), ind • yi ∼ fi (yi ), y ∼ Q i fi (yi ) und • y ∼ f (y), wobei y1 , . . . , yn abhängig sind. In der parametrischen Asymptotik betrachten wir Parameter θ = (θ1 , . . . , θp ) mit fester Dimension p = dim(θ) und wachsenden Stichprobenumfang n → ∞. In der semiparametrischen Asymptotik ist die Dimension p des Parameters groß bzw. wachsend mit n, oder θ ist eine (unbekannte) Funktion wie zum Beispiel bei der Kerndichteschätzung. 139 9.1 Asymptotische Eigenschaften von ML–Schätzern 9.1.1 Unabhängige und identisch verteilte Beobachtungen i.i.d Seien yi ∼ f (y|θ), y ∈ R und θ ∈ Θ ⊂ Rp . Sei θ̂n = argmax L(θ) = argmax θ θ n Y f (yi |θ) = argmax l(θ) = argmax θ i=1 θ n X log f (yi |θ). i=1 Wir treffen die Grundannahme, dass ein wahrer“ Parameter θ0 existiert, so dass es ein wah” ” res“ Wahrscheinlichkeitsmaß P ∈ {Pθ , θ ∈ Θ} gibt. Dabei ist Pθ das Wahrscheinlichkeitsmaß zur Dichte“ f (y|θ). Zur Notationsvereinfachung schreiben wir oft θ statt θ0 . ” Unter geeigneten Annahmen gelten folgende asymptotische Eigenschaften: (E) Existenz: P(θ̂n existiert in Θ) → 1 für n → ∞. (K) Konsistenz: P θ̂n → θ θ̂n f.s. →θ (schwache Konvergenz), (starke Konvergenz). (AN) Asymptotische Normalität: √ n(θ̂n − θ) → N (0, I1 (θ)−1 ), wobei I1 (θ) = E(s1 (θ)s1 (θ)> ) = Cov(s1 (θ)) mit s1 (θ) = ∂ log f (y1 |θ). ∂θ Dies ist die Informationsmatrix bzw. Score–Funktion einer typischen“ Variablen bzw. ” Beobachtung y1 . (AE) Asymptotische Effizienz: Für andere asymptotisch normalverteilte Schätzer θ̃n mit √ n(θ̃n − θ) → N (0, V (θ)) gilt V (θ) ≥ In (θ)−1 . Alle Resultate bzw. Sätze im i.i.d. Fall setzen Fisher–Regularität voraus bzw. stellen Voraussetzungen, die diese implizieren (zum Beispiel Cramér, 1946). Ein typischer Satz ist der folgende: 140 Satz 9.1 (Serfling, 1993). Die folgenden Annahmen seien erfüllt: (i) Für i, j = 1, . . . , p: (a) Die Ableitungen ∂f (y|θ) ∂θi und ∂ 2 f (y|θ) ∂θi ∂θj existieren fast sicher. (b) Es gilt 2 ∂f (y|θ) ∂ f (y|θ) ∂θi ≤ Hi (y) , ∂θi ∂θj ≤ Gij (y), R R wobei Rp Hi (y)dy < ∞ und Rp Gij dy < ∞. (ii) Für i, j = 1, . . . , q: (a) Die Ableitungen ∂ 2 log f (y|θ) ∂ log f (y|θ) und ∂θi ∂θi ∂θj existieren fast sicher, wobei I1 (θ) < ∞ und I1 positiv definit. (b) Für δ → 0 gilt ( Eθ 2 ) ∂ log f (y|θ + h) ∂ 2 log f (y|θ) → 0. sup − ∂θ∂θ > ∂θ∂θ > {h:khk≤δ} Dann: √ d n(θ̂n − θ) → N (0, i1 (θ)−1 ) . Bemerkung. 1. In (ii) ist (b) ist die Stetigkeitseigenschaft“ der beobachteten Information in einer ” (sehr kleinen) Umgebung von θ. 2. Die Beweise differieren beim Konsistenznachweis: Manchmal wird Θ als kompakt oder offen (passt meist besser, zum Beispiel −∞ < µ < ∞, 0 < σ 2 < ∞) angenommen. Alle Beweise benutzen ∂l1 (θ) E(s1 (θ)) = E =0 ∂θ n n X X ∂ log f (yi |θ) , wobei si (θ) i.i.d. Zufallsvariablen sn (θ) = si (θ) = ∂θ i=1 i=1 Cov(s1 (θ)) = I1 (θ) und Taylorentwicklungen. 3. Die Konvergenzgeschwindigkeit ist n−1 , denn aus der MSE(θ̂n ) ≤ C · 141 1 . n √ n–Normierung folgt 9.1.2 Unabhängige aber nicht identisch verteilte Beobachtungen Identisch verteilte aber nicht unabhängige (i.n.i.d.) Variablen y1 , . . . , yn liegen meist bei Regressionsproblemstellungen (für Querschnittsdaten) vor: ind yi ∼ f (yi |xi ; θ) mit θ = β bzw. θ = (β; α). Dabei enthält α zusätzliche Verteilungsparameter für die Varianz und die Form. Exemplarisch für GLM (mit bekanntem Dispersionsparameter φ ≡ α): yi |xi ind E(yi |xi ) = L(β) = µi = h(x> i β), n Y f (yi |x> i β), l(β) = log(L(β)), β ∈ Rp , d.h. offener Parameterraum. ∼ Exponentialfamilie, i=1 Wir nehmen wieder an, dass ein θ0 existiert, so dass f (yi |xi ) = f (yi |xi , θ0 ). Wir betrachten zwei Arten“ von Asymptotik: ” √ 1. Asymptotik mit n–Normierung; impliziert Konvergenzgeschwindigkeit 1/n. Dazu sind Annahmen nötig, die typischerweise für Beobachtungsstudien“ passen: ” (yi , xi ) i.i.d. wie ∼ (y, x), d.h. yi , xi werden rein zufällig aus einer gemeinsamen Verteilung bzw. Dichte f (yi , xi ) gezogen. Dann yi |xi ind ∼ f (yi |xi ) | {z } = f (yi |xi ; θ), bedingte Dichten xi i.i.d. ∼ f (x). 2. Asymptotik mit Matrixnormierung bzw. anderen Konvergenzraten umfasst Fall 1, ist aber allgemeiner. Typischer Fall: Experimentelle Studien“ mit xi = Dosis“, die ge” ” plant erhöht wird. Ein typischer Satz mit √ n–Normierung ist: Satz 9.2 (Serfling, 1993). Gegeben sei ein GLM für (yi , xi ) mit ML-Schätzer β̂n . In (β) = X > W (β)X sei die erwartete Fisherinformation zu y1 , . . . , yn ; x1 , . . . , xn . Es gelte: lim n→∞ 1 In (β) = I(β) < ∞ n und I(β) > 0 (positiv definit) und zusätzliche Bedingungen, die insbesondere 1 P [In (β) − Jn (β + h)] → 0 n 142 für h → 0 (9.1) garantieren (Jn (β) ist die beobachtete Informationsmatrix). Dann gilt für den ML-Schätzer β̂n √ bzw. (die Praxis“–Form) ” d n(β̂n − β) → N (0, I −1 (β)) 1 −1 β̂n ∼ N β, I (β) . n a Dabei ist n−1 I −1 (β) die approximative Kovarianzmatrix, und es gilt die Näherung n−1 nIn (β)−1 ≈ (In (β))−1 . Frage: Wieso sollte bei einem geplanten Experiment (9.1) gelten? Falls allerdings (wie bei i.i.d. Beobachtungsstudien) xi ∼ f (x) gilt, dann folgt nach dem Gesetz der großen Zahlen n 1 > 1X > X W (β) X = wi (β)xi x> i → E(w(β)xx ) =: I(β). | {z } n n i=1 Diag. Mit Matrixnormierung: Satz 9.3. Seien > 1 In2 (β)In2 (β) := In (β) > 1 mit In2 := (In2 (β)> linke bzw. rechte Wurzeln von In (β) (zum Beispiel symmetrische Wurzel oder auch Choleskey–Wurzel). Dann gilt (ohne (9.1) vorauszusetzen): > d (In2 (β))−1 (β̂n − β) → N (0, I) bzw. > d (In21 (β̂n1 ))−1 (β̂n − β) → N (0, I). Dabei sind als zusätzliche Bedingungen notwendig: (D) Divergenz der Information: λmin In (β) → ∞. (S) Glattheit der Information: Für jedes δ > 0 gilt P −1 −> 2 2 sup In (β0 )Jn (β)In (β0 ) − I →0 β∈Nn (δ) mit (gegen 0 schrumpfender) Umgebung > 2 Nn (δ) = β : In (β0 )(β − β0 ) ≤ δ . Dies ist eine Art Stetigkeitsforderung In (β0 ) | {z } erw. Information ≈ Jn (β) | {z } beob. Information 143 für β nahe bei β0 . Beispiel 9.1 (Logit–Modell). Es lässt sich zeigen, dass die Vernachlässigbarkeitsbedingung −1 x> i In (β)xi → 0 (V) zusammen mit (D) die Bedingung (S) impliziert. Interpretation: Die Information in xi ist gegenüber der Gesamtinformation vernachlässigbar. P wi (β)xi x> i Hinreichend für (V) ist kxi k ≤ K(beschränkte Regressoren) und λmin X > X → ∞(Divergenz). Wachsende Regressoren: kxi k = o(log n) sublogarithmisches Wachstum und λmin X > X ≥ cnα , α > 0, c > 0 . Falls |Xn> β| > c log n, c > 1, dann divergiert In (β) und (D) ist verletzt! In beiden Fällen ist keine Konvergenzannahme 1 In (β) → I(β) n sinnvoll oder notwendig. Erweiterungen auf den allgemeinen Likelihood–Kontext (inkl. abhängiger Beobachtungen) Literatur: zum Beispiel Fahrmeir (1987), Pruscha (1989). Wir betrachten fi (yi |xi ; θ) bzw. fi (yi |Hi ; θ) mit Hi = {yi−1 , . . . , y1 ; xi }, zum Beispiel µi = hi (ηi |ci ) = x> β + yi−1 γi + . . . + yi−q γq |i {z } autoregressiver Prädiktor n Y Ln (θ) = f (y1 , . . . , yn |θ) = i=1 ln (θ) = log Ln (θ) = sn (θ) = ∂ ln (θ) = ∂θ n X i=1 n X f (y |c ; θ) | i i{z i } auf Vergangenheit bedingte Dichten log fi (yi |ci ; θ) si (θ) ; i=1 Für ci = φ sind die si (θ) identisch verteilt; für ci 6= φ sind si (θ) die Martingaldifferenzen. 144 Beweislinie für den Fall y1 , . . . , yn unabhängig: P 1. Konsistenz: Betrachte die Log–Likelihood l(θ) = ni=1 li (θ). Aus der Fisher–Regularität P i (θ) folgt für s(θ) = ni=1 si (θ), wobei si (θ) = ∂l∂θ unabhängige Zufallsvariablen sind: Eθ s(θ) = n X Eθ si (θ) = 0. i=1 Mit einem geeigneten Gesetz der großen Zahlen für i.i.d. bzw. i.n.i.d. verteilte Variablen si (θ), i = 1, . . . , n kann man daraus s(θ) P →0 n schließen. Für den ML–Schätzer θ̂n gilt s(θ̂n ) =0 n s(θˆn ) = 0 ⇔ ” ” s(θ̂n )−s(θ) P → n P θ̂n → θ ⇒“ ⇒“ 0 mit einem Stetigkeitsargument und Auflösen nach θ̂n . Dabei ist θ (= θ0 ) wahrer Parameter mit f (y) = f (y|θ0 ). 2. Asymptotische Normalität der Score–Funktion: Aus E(s(θ)) = 0 und Cov(s(θ)) = In (θ) folgt mit dem Zentralen Grenzwertsatz a s(θ) ∼ N (0, In (θ)) −1 d bzw. In 2 (θ)s(θ) → N (0, I). 3. Asymptotische Normalität von θ̂n : Taylorentwicklung von s(θ̂n ) = 0 um θ liefert a 0 = s(θ̂n ) ∼ s(θ) − Jn (θ)(θ̂n − θ) + o(θ̂n − θ) die beobachtete plus Terme kθ̂n − θk2 und höherer Ordnung. Dabei ist Jn (θ) = − ∂s(θ) ∂θ > Informationsmatrix. Ersetzen von Jn (θ) durch In (θ) = E(Jn (θ)) führt zu a s(θ) ∼ In (θ)(θ̂n − θ) a ⇒ θ̂n − θ ∼ In−1 (θ)s(θ) a ⇒ θ̂n − θ ∼ N (0, In−1 (θ)In (θ)In−1 (θ)) = N (0, In−1 (θ)) a ⇒ θ̂n − θ ∼ = N (0, In−1 (θ)). Zugleich ist θ̂ asymptotisch effizient. 145 Bemerkung. Für Quasi–ML–Schätzer sind folgende Modifikationen notwendig: 1. Konsistenz: Im Allgemeinen gilt θ̂n → θ ∗ . Dabei minimiert θ ∗ die Kullback–Leibler– Distanz zwischen f (y) und f (y|θ) für θ ∈ Θ. Falls (wie zum Beispiel in Quasi GLMs, GEEs) der modellierte Parameter (wie µ = E(y)) richtig spezifiziert ist, ist weiter θ ∗ = θ0 der wahre Parameter. 2. Asymptotische Normalität: Es gilt weiter für die Quasi–Score–Funktion a qs(θ) ∼ N (0, Iw ) , aber Iw = Covw (s(θ)) ist die wahre Kovarianzmatrix (bzgl. des wahren Modells f (y)). 2 qs(θ) Im Allgemeinen gilt Iw 6= I(θ) mit I(θ) = E(J (θ)) = E(− ∂ ∂θ )! Rest analog: a qs(θ) ∼ J (θ)(θˆn − θ) a a θ̂n − θ ∼ J −1 (θ) qs(θ) ∼ N (0, J −1 (θ)Iw J −1 (θ)) , | {z } | {z } a ∼N (0,Iw ) ” Sandwich–Matrix“ wobei J (θ) Quasi“–Informationsmatrix ist. ” 9.2 Parametrische asymptotische Bayes–Inferenz Sei p(θ) Prioridichte für θ und f (y|θ) = n Y f (yi |θ), i=1 d.h. y1 , . . . , yn sind austauschbar. Für die Posterioriverteilung gilt f (θ|y) ∝ exp (log p(θ) + log f (y|θ)) = exp (log p(θ) + l(θ)) . Eine Taylorentwicklung der log–Terme um ihre Maxima m0 bzw. θ̂n = argmax l(θ) liefert log p(θ) = log p(m0 ) − 1 (θ − m0 )> J0 (θ − m0 ) +R0 2 {z } | =A bzw. 1 log f (y|θ) = log f (y|θ̂n ) − (θ − θ̂n )> Jn (θ̂n )(θ − θ̂n ) +Rn |2 {z } =B mit 2 ∂ log p(θ) J0 = − ∂θi ∂θj θ=m0 und beobachteter Fisher-Information Jn (θ̂n ). Unter Regularitätsbedingungen, die R0 ”→” 0 und 146 Rn ”→” 0 garantieren, gilt 1 > f (θ|y) ∝ exp(−A − B) ∝ exp − (θ − mn ) Hn (θ − mn ) 2 a mit Hn = J0 + Jn (θ̂n ) und mn = Hn−1 (J0 m0 + Jn (θ̂n )θ̂n ). Also: a f (θ|y) ∼ N (mn , Hn ). 147