Schätzen und Testen I Wintersemester 2008/09 Skript zur Vorlesung von Ludwig Fahrmeir Christian Heumann bearbeitet von Christiane Dargatz LATEX von Martin Slawski Martina Weber 8. Mai 2009 Verbesserungen und Anregungen ausdrücklich erwünscht an [email protected]! Inhaltsverzeichnis 1 Einführung in statistische Modelle und Inferenzkonzepte 1.1 Statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Einfache Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Lineare und generalisierte lineare parametrische Modelle . . . . . . . . 1.1.3 Nicht- und semiparametrische Regression . . . . . . . . . . . . . . . . 1.1.4 Quantil-Regression/Robuste Regression . . . . . . . . . . . . . . . . . 1.1.5 Verweildaueranalyse: Cox-Modell . . . . . . . . . . . . . . . . . . . . . 1.1.6 Fehlende/unvollständige Daten . . . . . . . . . . . . . . . . . . . . . . 1.1.7 Konditionale (autoregressive, Markov-) Modelle für Longitudinaldaten 1.1.8 (Generalisierte) Lineare gemischte Modelle für Longitudinaldaten . . . 1.1.9 Marginale Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.10 Modellbasierte Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . 1.1.11 Modelle mit latenten Variablen . . . . . . . . . . . . . . . . . . . . . . 1.2 Konzepte der statistischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Klassische parametrische Inferenz . . . . . . . . . . . . . . . . . . . . . 1.2.2 (Parametrische) Likelihood-Inferenz . . . . . . . . . . . . . . . . . . . 1.2.3 Likelihoodbasierte Inferenz . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Statistische Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . . 1 1 1 4 5 6 6 7 7 8 8 8 9 9 10 12 13 13 14 2 Klassische Schätz- und Testtheorie 2.1 Klassische Schätztheorie . . . . . . . . . . . . . . . . . . 2.1.1 Suffizienz . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Erwartungstreue, Varianz und MSE . . . . . . . 2.1.3 Fisher-Information und Suffizienz . . . . . . . . . 2.1.4 Erwartungstreue Schätzer . . . . . . . . . . . . . 2.1.5 Asymptotische Eigenschaften und Kriterien . . . 2.2 Klassische Testtheorie . . . . . . . . . . . . . . . . . . . 2.2.1 Problemstellung . . . . . . . . . . . . . . . . . . 2.2.2 Satz von Neyman-Pearson . . . . . . . . . . . . . 2.2.3 Gleichmäßig beste Tests . . . . . . . . . . . . . . 2.3 Bereichsschätzungen und Konfidenzintervalle . . . . . . 2.3.1 Definition und Beurteilung der Güte . . . . . . . 2.3.2 Dualität zwischen Konfidenzbereichen und Tests 2.4 Multiples Testen . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Fehlerraten . . . . . . . . . . . . . . . . . . . . . 19 20 20 24 28 30 33 41 42 46 49 53 53 55 56 57 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Multiple Testprozeduren . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Likelihood-Inferenz 3.1 Parametrische Likelihood-Inferenz . . . . . . . . . . . . . 3.2 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . 3.2.1 Schätzkonzept . . . . . . . . . . . . . . . . . . . . 3.2.2 Iterative numerische Verfahren zur Berechnung des 3.2.3 Asymptotische Eigenschaften . . . . . . . . . . . . 3.3 Testen linearer Hypothesen und Konfidenzintervalle . . . 3.3.1 Testen von Hypothesen . . . . . . . . . . . . . . . 3.3.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . 3.3.3 Modellwahl . . . . . . . . . . . . . . . . . . . . . . 3.4 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen 3.4.1 ML-Schätzung bei Fehlspezifikation . . . . . . . . 3.4.2 Quasi-Likelihood und Schätzgleichungen . . . . . . 4 Bayes-Inferenz 4.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Exchangeability . . . . . . . . . . . . . . . . . . . . . . . 4.3 Bayes-Inferenz im Schnelldurchlauf . . . . . . . . . . . . 4.4 Wiederholung: Modelle mit einem Parameter . . . . . . 4.5 Mehr-Parameter-Modelle . . . . . . . . . . . . . . . . . . 4.5.1 Normalverteilung . . . . . . . . . . . . . . . . . . 4.5.2 Dirichlet-Multinomial Modell . . . . . . . . . . . 4.5.3 Multivariate Normalverteilung . . . . . . . . . . 4.6 Bayesianisches lineares Modell . . . . . . . . . . . . . . . 4.6.1 Nichtinformative Prioriverteilung . . . . . . . . . 4.6.2 Konjugierte Prioriverteilung . . . . . . . . . . . . 4.6.3 Spezialfälle und Erweiterungen . . . . . . . . . . 4.7 Bayesianisches generalisiertes lineares Modell . . . . . . 4.7.1 Ein MCMC-Algorithmus: Metropolis-Hastings . 4.7.2 Metropolis-Hastings mit IWLS-Vorschlagsdichte 4.8 Bayesianische generalisierte lineare gemischte Modelle . 4.9 Hierarchische Modelle . . . . . . . . . . . . . . . . . . . 4.10 Konvergenzdiagnostik . . . . . . . . . . . . . . . . . . . 4.11 Modellwahl und Modellkritik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ML-Schätzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 . . . . . . . . . . . . 61 61 64 64 66 69 71 71 73 74 74 75 79 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 84 84 87 88 89 89 96 99 105 105 108 109 110 112 115 116 120 122 124 5 Einführung in Bootstrap 5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip . 5.1.3 Reale Welt und Bootstrap-Welt . . . . . . . . . . . . . . . 5.1.4 Die ideale Bootstrap-Verteilung . . . . . . . . . . . . . . . 5.2 Bootstrap–Schätzung eines Standardfehlers . . . . . . . . . . . . 5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers 5.2.2 Anzahl der Replikationen . . . . . . . . . . . . . . . . . . 5.2.3 Parametrischer Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 126 127 128 129 130 131 131 132 132 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt 5.2.5 Zweistichproben-Problem für unabhängige Stichproben . . . . . . . . 5.2.6 Bootstrap für eine Zeitreihe . . . . . . . . . . . . . . . . . . . . . . . Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Bootstrap-t-Intervall . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Bootstrap-Perzentil-Intervall . . . . . . . . . . . . . . . . . . . . . . 6 Einführung in Non- und Semiparametrische Inferenz 3 . . . . . . . 133 134 134 135 135 136 138 140 Kapitel 1 Einführung in statistische Modelle und Inferenzkonzepte Ziele: • Statistische Modelle im Überblick, von einfachen hin zu komplexeren Modellen. Auswahl orientiert an Datenstrukturen, Modellklassen und Fragestellungen aus dem Bachelorprogramm und darüber hinaus. • Problemstellungen der zugehörigen statistischen Inferenz. • Konzepte statistischer Inferenz im Überblick. 1.1 1.1.1 Statistische Modelle Einfache Zufallsstichproben Zunächst wird nur der Ein-Stichproben-Fall betrachtet. Seien x1 , . . . , xn die Daten als Realisierungen von Stichprobenvariablen und X1 , . . . , Xn i.i.d. wie Zufallsvariable X mit Verteilungsfunktion F (x) bzw. (stetiger, diskreter bzw. allgemeiner Radon-Nikodym”-) Dich” te f (x). Parametrische Modelle X ∼ f (x|θ), θ = (θ1 , . . . , θk )> ∈ Θ ⊆ Rk In der Regel ist k fest und klein im Verhältnis zu n. Beispiel 1.1. 1. X ∼ N (µ, σ 2 ); Schätzen/Testen von µ, zum Beispiel Gauß-Test, Student-Test, F-Test für σ 2 . 1 2. Analoge Problemstellungen für X ∼ Bin(n, π), X ∼ Po(λ), . . . bzw. allgemein X ∼ lineare Exponentialfamilie mit natürlichem (skalarem) Parameter θ. 3. X = (X1 , . . . , Xp )> mehrdimensional, zum Beispiel X ∼ Np (µ, Σ). 4. Lokations- und Skalenmodelle: X ∼ F0 x−a b mit gegebener Verteilungsfunktion F0 (z). a ∈ R heißt Lokationsparameter, b > 0 Skalenparameter. Dichten im stetigen Fall: x−a 1 X ∼ f0 b b mit gegebener Dichte f0 (z). Beispiele: • X ∼ N (a, b2 ) (Normalverteilung), f0 (z) = φ(z): 1 x−a 1 1 (x − a)2 f0 =√ exp − b b 2 b2 2πb • X ∼ DE(a, b) (Laplace- oder Doppelexponentialverteilung) mit Parametern a ∈ R und b > 0: 1 x−a 1 |x − a| = f0 exp − b b 2b b • X ∼ U (a, b) (Gleichverteilung): 1 1 x−a f0 = I(a− b ,a+ b ) (x) 2 2 b b b Der Träger ist abgeschlossen und hängt von den Parametern ab. • X ∼ C(a, b) (Cauchy-Verteilung): 1 x−a b 1 f0 = · 2 b b π b + (x − a)2 • X ∼ L(a, b) (logistische Verteilung): 1 f0 b x−a b exp − x−a 1 b = · b 1 + exp − x−a 2 b • X ∼ E(a, b) (Exponentialverteilung): 1 x−a 1 x−a f0 = exp − I[a,∞) (x) b b b b 2 5. Exponentialfamilien: Definition 1.1 (Exponentialfamilien). Eine Verteilungsfamilie heißt Exponentialfamidef lie ⇔ f (x|θ) = h(x)·c(θ)·exp (γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x)) = h(x) exp b(θ) + γ(θ) T (x) > mit h(x) ≥ 0 und b(θ) = log(c(θ)) T (x) = (T1 (x), . . . , Tk (x))> γ(θ) = (γ1 (θ), . . . , γk (θ))> . γ1 , . . . , γk heißen die natürlichen oder kanonischen Parameter der Exponentialfamilie (nach Reparametrisierung von θ mit γ). Annahme: 1, γ1 , . . . , γk und 1, T1 (x), . . . , Tk (x) sind linear unabhängig, d.h. f ist strikt k-parametrisch. i.i.d. Beispiel 1.2 (Bernoulli-Experiment). X = (X1 , . . . , Xn ) ∼ Bin(1, π). Pn Pn (1 − π)n− i=1 xi ! ! n n X X = exp xi log(π) + n − xi log(1 − π) f (x|π) = π i=1 xi i=1 = |{z} 1 exp n log(1 − π) + {z } | h(x) b(π) i=1 n X xi log |i=1 {z } | T1 (x) ! π 1−π {z } γ1 (π) n = |{z} 1 (1 − π) exp(γ1 (π)T1 (x)), | {z } h(x) c(π) d.h. es liegt eine einparametrische Exponentialfamilie vor mit T (x) = n X xi i=1 γ = log π 1−π =: logit(π). Bemerkung. Eine Verteilungsfamilie heißt einfache lineare Exponentialfamilie, falls f (x|θ) ∝ exp(θx + b(θ)). 6. Mischverteilungen: X ∼ π1 f1 (x|θ1 ) + . . . + πk fk (x|θk ) mit π1 + . . . + πk = 1, wobei die πi als Mischungsanteile und die fi (x|θi ) als Mischungskomponenten bezeichnet werden. Genauer spricht man von diskreter Mischung. 3 Beispiel 1.3. X ∼ π1 φ(x; µ1 , σ12 ) + . . . + πk φ(x; µk , σk2 ) wird Normalverteilungsmischung genannt. Unbekannt sind meistens θ = (θ1 , . . . , θk ) und π = (π1 , . . . , πk ). Das Schätzen von θ, π erfolgt mit ML-Schätzung, meist mit Hilfe des EM-Algorithmus. Auch gewünscht: Testen auf Anzahl k der Mischungskomponenten. Nichtparametrische Modelle/Inferenz • X ∼ F (x), X stetige Zufallsvariable, F stetige Verteilung B Kolmogorov-Smirnov-Test auf H0 : F (x) = F0 (x) • X ∼ F (x), X diskret bzw. gruppiert B χ2 -Anpassungstest • X ∼ f (x), X stetige Zufallsvariable, f bis auf endlich viele Punkte stetig, differenzierbar etc. B nichtparametrische Dichteschätzung, zum Beispiel Kerndichteschätzung Der Zwei-und Mehr-Stichprobenfall kann analog behandelt werden; vgl. Statistik II. 1.1.2 Lineare und generalisierte lineare parametrische Modelle Daten (yi , xi ), i = 1, . . . , n, sind gegeben, mit xi = (xi1 , . . . , xip )> . y1 |x1 , . . . , yn |xn sind (bedingt) unabhängig, aber nicht identisch verteilt. Klassisches lineares Modell (LM) yi = x> i β + εi , i.i.d. εi ∼ [N ](0, σ 2 ) ⇔ 2 yi |xi ∼ [N ](µi = x> i β, σ ) • Annahme: p = dim(β) < n und n fest. • Schätzen von β und σ 2 , Tests über β mit oder ohne Normalverteilungsannahme. • Variablenselektion und Modellwahl. Spezialfall: Varianzanalyse/Versuchsplanung. Generalisierte lineare Modelle (GLM) yi |xi , i = 1, . . . , n, besitzen Dichte aus einfacher linearer Exponentialfamilie, zum Beispiel Normal-, Binomial-, Poisson- oder Gammaverteilung, und sind bedingt unabhängig. E[yi |xi ] = µi = h(x> i β) Dabei ist h die inverse Linkfunktion (oder Responsefunktion). 4 Beispiel 1.4. Sei yi |xi ∈ {0, 1} und µi = πi = P(yi = 1|xi ) , πi = h(x> i β). Beispiele für h sind die Verteilungsfunktion der logistischen Verteilung (→ Logit-Modell) oder die Verteilungsfunktion der Normalverteilung (→ Probit-Modell). Die Inferenzprobleme im GLM sind wie im linearen Modell, jedoch ist likelihoodbasierte oder bayesianische Inferenz möglich. Beachte: Die yi |xi sind nicht identisch verteilt. 1.1.3 Nicht- und semiparametrische Regression Nichtparametrische Einfachregression Daten wie im linearen Modell, xi skalar. yi = f (xi ) + εi , i.i.d. i = 1, . . . , n, εi ∼ N (0, σ 2 ) Regressionsfunktion f (xi ) = E[yi |xi ] nicht parametrisch spezifiziert. • Nicht- oder semiparametrisches Schätzen von f • Testen von H0 : f (x) = xT β + β0 vs. H1 : f nichtlinear. Additive Modelle (AM) yi = f1 (xi1 ) + . . . + fp (xip ) + zi> β + εi , εi wie bisher, µi = E[yi |xi ] = f1 (xi1 ) + . . . + fp (xip ) + zi> β. • Schätzen, Testen von f1 , . . . , fp , β • Variablenselektion und Modellwahl (zum Beispiel Einfluss einer bestimmten Kovariable linear oder nichtlinear) Generalisierte Additive Modelle (GAM) yi |xi wie bei GLM; analog zu additiven Modellen lässt man aber µi = E[yi |xi ] = h f1 (xi1 ) + . . . + fp (xip ) + zi> β zu. 5 1.1.4 Quantil-Regression/Robuste Regression Datenlage wie bei üblicher Regression: (yi , xi ), i = 1, . . . , n, yi |xi bedingt unabhängig. b Ziel: Schätze nicht (nur) E[yi |xi ], zum Beispiel durch KQ-Schätzer x> i βKQ , sondern den bedingten Median (τ = 0.5) oder allgemeiner die (bedingten) Quantile Qτ (y Pi |xi ). Statt KQ-2 Ansatz (ohne Normalverteilungsannahme) und Schätzung von βbKQ , so dass ni=1 (yi − x> i β) minimiert wird, suchen wir βbmed := argmin β n X |yi − x> i β| i=1 d ⇒ x> βbmed = med(y|x). Wichtig dabei: keine Annahme für die Fehlerverteilung, d.h. verteilungsfreier Ansatz”. ” Frage: Welche Konzepte zum Schätzen und Testen verwenden? → Quasi-Likelihood-Methoden. 1.1.5 Verweildaueranalyse: Cox-Modell Grundlegender Begriff: Hazardrate λ(t) einer stetigen Lebensdauer T ≥ 0. Definition 1.2 (Hazardrate). P(t ≤ T ≤ t + ∆t|T ≥ t) ∆t → 0 ∆t ⇔ P(t ≤ T ≤ t + ∆t|T ≥ t) = λ(t)∆t + o(∆t) λ(t) = lim (Dabei ist f (x) = o(g(x)) für x → 0 falls limx → 0 f (x)/g(x) = 0.) Interpretation: λ(t)∆t ≈ bedingte Wahrscheinlichkeit für Ausfall in [t, t + ∆t] gegeben Überleben bis zum Zeitpunkt t bei kleinem” ∆t. Mit Kovariablen x = (x1 , . . . , xp )> : ” P(t ≤ T ≤ t + ∆t|T ≥ t; x) λ(t; x) = lim . ∆t → 0 ∆t Rechtszensierte Survivaldaten Verwende t1 , . . . , tn für evtl. rechtszensierte Beobachtungen von unabhängigen Lebensdauern T1 , . . . , Tn , δ1 , . . . , δn als Zensierungsindikatoren und x1 , . . . , xn als zugehörige Kovariablen. Ziel: Schätze λ(t; x) bzw. zumindest den Einfluss der Kovariablen auf die Hazardrate. Cox-Modell Im Cox-Modell (auch: Proportional Hazards-Modell ) gilt λ(t; xi ) = λ0 (t) · exp(x> i β) = λ0 (t) · exp(xi1 β1 + . . . + xip βp ) = λ0 (t) · exp(xi1 β1 ) · . . . · exp(xip βp ). 6 Dabei ist λ0 (t) die von i bzw. xi unabhängige Baseline”-Hazardrate. exp(x> i β) modifiziert ” λ0 (t) multiplikativ. Primäres Interesse: Schätzen/Testen von β wie im LM oder GLM; λ0 (t) wird als Nuisanceparameter (bzw. -funktion) betrachtet. ⇒ Die Likelihood faktorisiert sich in L(β; λ0 (t)) = L1 (β) · L2 (β; λ0 (t)). L1 (β) ist partielle ( partial”) Likelihood, die bezüglich β maximiert wird. Erstaunlicherweise ” ist der Informationsverlust gering. Ferner gibt es einen Zusammenhang zwischen PartialLikelihood und dem Konzept der Profil-Likelihood. 1.1.6 Fehlende/unvollständige Daten • Daten: beliebig”(Querschnitts-, Survival-, Längsschnittdaten) ” • Beispiele: – Nicht-Antworter bei statistischen Befragungen – Drop-out” bei klinischen Studien ” – zensierte Daten (wie in Survivalanalyse) – Modelle mit latenten Variablen • Übliche Modelle und statistische Methodik setzen vollständige Daten voraus. 1.1.7 Konditionale (autoregressive, Markov-) Modelle für Longitudinaldaten • Longitudinaldaten: (yij , xij ) für i = 1, . . . , m und j = 1, . . . , ni als Beobachtungen von Zielvariablen yij und Kovariablen xij zu Zeitpunkten ti1 < . . . < tij < . . . < tini . Speziallfall m = 1: Zeitreihen. • Autoregressives Modell 1. Ordnung bzw. Markov-Modell 1. Ordnung: Bedingte Verteilung von yij |yi,j−1 , yi,j−2 , . . . , yi1 , xij ist yij |yi,j−1 , xij , zum Beispiel yij = αyi,j−1 + x> ij β + εij . |{z} i.i.d. Likelihood-Inferenz: algorithmisch simpel, asymptotische Theorie schwieriger (da yij abhängig). 7 1.1.8 (Generalisierte) Lineare gemischte Modelle für Longitudinaldaten Lineares gemischtes Modell (LMM) yij = β0 + β1 tij + x> ij β + γ0i + γ1i tij + εij , i = 1, . . . , m, j = 1, . . . , n; • β0 , β1 , β: feste Populationseffekte, z.B. β0 + β1 t fester Populationstrend • γ0i , γ1i : individuenspezifische Effekte ⇒ Anzahl der Parameter ≈ Stichprobenumfang • Annahme: i.i.d. γ0i ∼ N (0, τ02 ), i.i.d. γ1i ∼ N (0, τ12 ) d.h. γ-Parameter sind zufällige” Parameter. ” • Inferenz: algorithmisch/methodisch variierte Likelihood-Inferenz oder Bayes-Inferenz mit MCMC-Simulationsmethoden. Für GLMM deutlich komplexer als für LMM. 1.1.9 Marginale Modelle → Kapitel 6.2 und 6.4 (Quasi-Likelihood-Inferenz/GEEs) 1.1.10 Modellbasierte Clusteranalyse • Idee: x = (x1 , . . . , xp )> stammt aus multivariater Mischverteilung mit g Komponenten: f (x) = g X p(k)f (x|θk ) , k=1 zum Beispiel f Dichte der multivariaten Normalverteilung. • Gesucht: 1. Schätzungen für θk , p(k), k = 1, . . . , g. 2. Schätzungen für unbekannte Klassenzugehörigkeit k eines Objekts mit beobachtetem Merkmalsvektor x. Anwendung der Formel von Bayes liefert: pb(k|x) = • Likelihood: mit EM-Algorithmus • Bayes: mit MCMC-Algorithmus 8 pb(k)f (x|θbk ) . fb(x) 1.1.11 Modelle mit latenten Variablen Beobachtet werden Werte yi = (yi1 , . . . , yij , . . . , yip )> von p (korrelierten) Variablen, die als Indikatoren für eine latente, unbeobachtete Variable li (oder eine kleine Zahl von latenten Variablen) dienen. Primäres Ziel ist die Schätzung der Effekte ( Ladungsfaktoren”) λj von l ” auf den Vektor y der Indikatoren und die Schätzung von latenten Werten li , i = 1, . . . , n, und die Schätzung der fixen Effekte β und γ. 1. Beobachtungsmodell: yij = x> ij β + λj li + εij mit i.i.d. εij ∼ N (0, σ 2 ), 2. Strukturmodell: li = u> i γ + δi mit j = 1, . . . , p i.i.d. δi ∼ N (0, 1) Ohne Kovariablen x und u ergibt sich das klassische Modell der Faktorenanalyse. Erweiterungen entstehen zum Beispiel durch kategoriale Indikatoren oder nichtlineare Effekte von Kovariablen. 1.2 Konzepte der statistischen Inferenz • x = (x1 , . . . , xn )> oder y = (y1 , . . . , yn )> sind Realisierungen von Stichprobenvariablen (Zufallsvariablen) X = (X1 , . . . , Xn )> oder Y = (Y1 , . . . , Yn )> . Die Komponenten X1 , . . . , Xn können auch selbst wieder mehrdimensional sein. • Weitere Annahmen: – X1 , . . . , Xn i.i.d. wie X → einfache Zufallsstichprobe (vgl. Abschnitt 1.1.1). – Y1 , . . . , Yn (bzw. Y1 |X1 , . . . , Yn |Xn im Regressionsmodell) sind (bedingt) unabhängig aber nicht identisch verteilt. – Y1 , . . . , Yn sind abhängig, zum Beispiel zeitlich oder räumlich korreliert. • In allen Fällen gilt: x ∈ X bzw. y ∈ Y, wobei X bzw. Y der entsprechende Stichprobenraum ist. X = (X1 , . . . , Xn )> und Y = (Y1 , . . . , Yn )> sind auf dem Stichprobenraum nach einer gemeinsamen Verteilung P bzw. Verteilungsfunktion F (x) = F (x1 , . . . , xn ) verteilt. P (bzw. F ) gehört einer Menge (oder Klasse oder Familie) von Verteilungen Pθ = {Pθ : θ ∈ Θ} an. Zugehörige Verteilungsfunktionen sind F (x|θ) bzw. (falls existent) Dichten f (x|θ) = f (x1 , . . . , xn |θ). – I.i.d. Fall: f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) = n Y i=1 – Unabhängige Zufallsvariablen Y1 , . . . , Yn : f (y|θ) = n Y i=1 die Dichten hängen also vom Index i ab. 9 fi (yi |θ), f (xi |θ) – Bei potentiell abhängigen Y1 , . . . , Yn ist f (y|θ) nicht immer faktorisierbar und teils auch analytisch schwer oder nicht darstellbar. • (Übliche) parametrische Inferenz: θ = (θ1 , . . . , θk )> ∈ Θ ⊆ Rk , k fest mit k < n. • Nichtparametrische/verteilungsfreie Inferenz: Θ ist Funktionenraum, θ eine bestimmte Funktion. Zum Beispiel ist Θ der Raum der stetigen oder differenzierbaren Funktionen. Beispiele für Methoden: (Kern-)Dichteschätzung, nichtparametrische Regression. • Semiparametrische Inferenz: Parameter θ hochdimensional, unter Umständen θ = (θ1 , . . . , θk )> mit k ∼ n, zum Beispiel bei der semiparametrischen Regression mit Glättungssplines. Auch: k > n, zum Beispiel bei GLMs mit Genexpressionsdaten als Kovariablen: Daten x1 , . . . , xk mit k ∼ 1000 − 10000, bei nur n ∼ 50 Patienten! Vergleiche multiples Testen in Kapitel 2. 1.2.1 Klassische parametrische Inferenz X = (X1 , . . . , Xn ) besitzt Verteilung/Dichte P ∈ P = {Pθ : θ = (θ1 , . . . , θk )> ∈ Θ} mit Θ ⊆ Rk und k < n fest, oft k n. In der Regel existiert zur Verteilung Pθ eine (diskrete oder stetige bzw. Radon-Nikodym-) Dichte f (x|θ) = f (x1 , . . . , xn |θ). Anmerkung: Allgemein ist dies die Radon-Nikodym-Dichte bezüglich eines dominierenden Maßes, vgl. Maß- und Wahrscheinlichkeitstheorie-Vorlesung. • Punktschätzung: Geschätzt werden soll θ. Eine messbare Abbildung X −→ Θ T : x 7−→ T (x) =: θb heißt Schätzfunktion oder Schätzer. Eine Beurteilung der Güte/Optimalität kann zum Beispiel durch – Biasθ (T ) = Eθ [T ] − θ, – Varθ (T ) = Eθ [(Eθ [T ] − T )2 ], – MSEθ (T ) = Eθ [(Eθ [T ] − θ)2 ] = Varθ (T ) + (Biasθ (T ))2 erfolgen. Das Konzept der Güte” ist frequentistisch, da beurteilt wird, wie gut” ” ” T = T (X) bei allen” denkbaren wiederholten Stichproben x als Realisierung von X im ” ” Schnitt” funktioniert. Anders ausgedrückt: Beurteilt wird nicht die konkret vorliegende Stichprobe, sondern (in der Häufigkeitsinterpretation) das Verfahren” T = T (X). ” 10 • Bereichsschätzung / Intervallschätzung: x 7→ C(x) ⊆ Rk , so dass Pθ (θ ∈ C(x)) ≥ 1 − α. Dabei ist 1 − α der Vertrauensgrad. Man beachte die frequentistische/Häufigkeitsinterpretation: C(x) ist ein zufälliger Bereich. • Testen: Mit einem Test φ soll eine Hypothese H0 gegen eine Alternativhypothese H1 geprüft werden: H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 , wobei Θ0 ∩ Θ1 = ∅. Es muss nicht notwendigerweise Θ = Θ0 ∪ Θ1 gelten. Ergebnisse/Aktionen: A0 : H0 wird nicht abgelehnt, A1 : H1 wird bestätigt, ist signifikant”. ” Der Test ist eine Abbildung φ : X → {A0 , A1 } = {0, 1}. Ein nicht-randomisierter Test hat die Form ( 1, falls x ∈ K, φ(x) = 0, falls x ∈ / K. Dabei ist K ⊂ X der sogenannte kritische Bereich und als eine Teilmenge aller möglichen Stichproben zu verstehen. Oft formuliert man dies über eine Teststatistik T (x): ( 1, falls T (x) ∈ C, φ(x) = 0, falls T (x) ∈ / C. Test zum Niveau ( size”) α, wobei α klein”: ” ” Pθ (A1 ) ≤ α für alle θ ∈ Θ0 . Dabei ist die Wahrscheinlichkeit für den Fehler 1. Art kleiner als α. Die Funktion gφ (θ) = Pθ (A1 ) = Eθ [φ(X)] heißt Gütefunktion von φ. Synonym zum Begriff Güte werden auch die Begriffe Power oder Macht gebraucht. Die Forderung für den Fehler formuliert über die Gütefunktion lautet gφ (θ) ≤ α für θ ∈ Θ0 . Programm” der klassischen parametrischen Schätztheorie (siehe Kapitel 2): Finde ” Test φ zum Niveau α mit optimaler” Power bzw. minimaler Wahrscheinlichkeit für ” den Fehler 2. Art, 1 − gφ (θ), θ ∈ Θ1 . Das Konzept ist wiederum frequentistisch. Das Programm” ist dabei hauptsächlich für spezielle Verteilungsfamilien (zum Beispiel für ” Exponentialfamilien) und spezielle Testprobleme im i.i.d. Fall durchführbar. Weniger tauglich ist es für (etwas) komplexere Modelle, zum Beispiel bereits für GLMs. Dann: 11 → Likelihood-Inferenz → Bayes-Inferenz → Nicht- und semiparametrische Inferenz Im einfachsten Fall von zwei Punkthypothesen H0 : θ = θ0 , H1 : θ = θ1 für θ0 6= θ1 hat der beste” Test Likelihood-Quotienten-Struktur: H0 wird abgelehnt, ” falls f (x|θ1 ) > kα f (x|θ0 ) (vgl. Neyman-Pearson Theorem). • p-Werte (p-values): Beispiel 1.5 (Gauß-Test). X1 , . . . , Xn i.i.d. N (µ, σ 2 ), σ 2 bekannt. Betrachte H0 : µ ≤ µ0 , H1 : µ > µ0 . Teststatistik ist x − µ0 √ µ=µ0 n ∼ N (0, 1). σ H0 wird abgelehnt, wenn T (x) > z1−α . Der p-Wert ist p = P(T (X) > T (x)|H0 ). Offensichtlich gilt: T (x) > z1−α ⇔ p < α. T (x) = Der p-Wert liefert mehr Information (nämlich wie nahe man an der Entscheidungsgrenze ist) als die reine Bekanntgabe” der Entscheidung. ” Definition 1.3 (p-Wert). Gegeben sei ein Test bzw. eine Teststatistik T (X) für H0 vs. H1 mit 1. supθ∈Θ Pθ (T (X) ∈ Cα |H0 ) ≤ α, 2. für α ≤ α0 gilt Cα ⊂ Cα0 . Dann gilt p = inf{α : T (x) = t ∈ Cα }, und H0 wird abgelehnt, falls p < α. 1.2.2 (Parametrische) Likelihood-Inferenz • Sei P = {f (x|θ)|θ ∈ Θ}, d.h. es existieren Dichten zu der vorgegebenen parametrisierten Verteilungsfamile P. Nach der Beobachtung von X = x heißt L(θ|x) := f (x|θ) Likelihoodfunktion von θ zur Beobachtung x. • Likelihoodprinzip: Besitzen zwei Beobachtungen x und x̃ zueinander proportionale Likelihoodfunktionen, sollen sie zu denselben Schlüssen über θ führen. 12 • Punktschätzung: Maximum-Likelihood- (ML-) Schätzung T (x) = θbML mit f (x|θbML ) = max f (x|θ) θ bzw. θbML = argmax f (x|θ). θ • In der Regel existieren keine finiten Optimalitätseigenschaften, jedoch asymptotische. • Testen: Likelihood-Quotienten-Test, Wald-Test, Score-Test. 1.2.3 Likelihoodbasierte Inferenz Quasi-Likelihood-Inferenz, penalisierte Likelihood-Inferenz, semiparametrische Modelle. 1.2.4 Bayes-Inferenz Wir betrachten wieder P = {f (x|θ) : θ ∈ Θ}, zusätzlich wird aber die Unsicherheit über θ durch die Prioridichte p(θ) auf Θ bewertet. Dabei kann Θ auch sehr hochdimensional sein. • Prinzip: Nach Beobachtung von x ist sämtliche Information über θ in der Posterioridichte f (x|θ) · p(θ) p(θ|x) = R f (x|θ) · p(θ)dθ proportional bzgl. Parameter θ ∝ f (x|θ) · p(θ) = L(θ|x) · p(θ). • Bayes-Schätzung: - Posteriori-Erwartungswert: Z TE (x) = θbpost-EW = Eθ|x (θ|x) = θ p(θ|x) dθ Θ - Posteriori-Median: Tmed (x) = θbpost-Med = medθ|x (θ|x) - Posteriori-Modus: Tmod (x) = θbpost-Mod = argmax p(θ|x) = argmax p(θ)L(θ|x) θ θ • Es sind auch uneigentliche Prioriverteilungen zulässig, d.h. Dichten mit Z p(θ)dθ = +∞, Θ die sich somit nicht normieren lassen. Allerdings muss die Posterioridichte eigentlich sein! Ein Spezialfall ist p(θ) ∝ 1 ( Gleichverteilungs-Priori”), bei deren Verwendung ” θbML = argmax L(θ|x) = θbpost-Mod θ gilt, d.h. der ML-Schätzwert und der Posteriori-Modus-Schätzwert identisch sind. 13 • Bayes-Bereichsschätzung: Wähle Kredibilitätsbereiche/-intervalle C(x) so, dass Z p(θ|x) dθ = Pθ|x |{z} θ ∈ C(x) ≥ 1 − α. | {z } zufällig nicht zufällig, deterministisch C(x) Es ist also eine Wahrscheinlichkeitsaussage für eine konkrete Stichprobe möglich und keine Häufigkeitsinterpretation notwendig! • Bei Bayes-Inferenz wird keine Häufigkeitsinterpretation benötigt. Allerdings kann sie trotzdem gemacht werden. (→ Asymptotik der Bayes-Schätzer) 1.2.5 Statistische Entscheidungstheorie Sichtweise in der Entscheidungstheorie: Schätzen und Testen als Entscheidung unter Unsicherheit. Wie bisher betrachten wir P ∈ Pθ = {Pθ : θ = (θ1 , . . . , θk )> ∈ Θ} als statistisches Modell; x bezeichne eine Stichprobe / konkrete Beobachtung von X. Zusätzlich werden folgende Funktionen betrachtet: Definition 1.4 (Entscheidungsfunktion). Als Entscheidungsfunktion bezeichnet man eine Funktion X −→ D d: x 7−→ d(x). Mit D wird der Entscheidungs- oder Aktionenraum bezeichnet. Definition 1.5 (Verlustfunktion). Eine Verlustfunktion (oft auch stattdessen Gewinnfunktion) D × Θ −→ R L: (d, θ) 7−→ L(d, θ) ordnet einer Entscheidung d(x) ( decision”) einen Verlust ( loss”) zu. Im Allgemeinen ist L ” ” so gewählt, dass der Verlust bei richtiger Entscheidung null ist, also L eine nicht-negative Funktion ist. Beispiel 1.6. 1. Test: Betrachte H0 : θ ≤ θ0 vs. H1 : θ > θ0 (zum Beispiel Gauß-Test). Der Entscheidungsraum sei D = {d0 , d1 } mit d0 : Entscheidung für H0 , d1 : Entscheidung für H1 . Eine mögliche Verlustfunktion ist: 0, L(d0 , θ) = a ∈ R+ , 0, L(d1 , θ) = b ∈ R+ , falls θ ≤ θ0 falls θ > θ0 (Entscheidung richtig) (Fehler 2. Art) falls θ > θ0 falls θ ≤ θ0 (Entscheidung richtig) (Fehler 1. Art) 14 2. Schätzung: Entscheidung” ist reelle Zahl: ” d(x) = T (x) = θb ∈ Θ, d.h. D = Θ. Mögliche Verlustfunktionen: L(d, θ) = (d − θ)2 quadratischer Verlust, L(d, θ) = |d − θ| absoluter Verlust, L(d, θ) = w(θ)(d − θ) 2 gewichteter quadratischer Verlust, wobei w eine feste Gewichtsfunktion ist. 3. Mehrentscheidungsverfahren, zum Beispiel Wahl zwischen drei Alternativen d0 : θ ≤ θ0 , d1 : θ > θ1 , d2 : θ0 < θ ≤ θ1 . 4. Analog: Modellwahl, Variablenselektion Definition 1.6 (Risikofunktion). Eine Risikofunktion ist definiert als Z R(d, θ) = Eθ [L(d(X), θ)] = L(d(x), θ)f (x|θ) dx X ( Verlust im Mittel”). Sie ist unabhängig von x. Dabei wird d(X) rausintegriert, d.h. R(d; θ) ” ist bei gegebenem d nur noch eine Funktion von θ. Beispiel 1.7. 1. Schätzen, d.h. d(x) = T (x) Schätzwert, d(X) = T (X) Punktschätzer. Bei quadratischer Verlustfunktion ist L(T (X), θ) = (T (X) − θ)2 mit Risikofunktion R(T, θ) = Eθ [(T (X) − θ)2 ] = MSEθ (T (X)). Man beachte, dass das Argument T in R(T, θ) den Schätzer und nicht den konkreten Schätzwert bezeichnet. 2. Testen: vgl. Übung. 15 Vergleich von Entscheidungsregeln/-strategien mittels der Risikofunktion Aus der Abbildung geht hervor, dass d3 besser als d1 ist für alle θ ∈ Θ , d.h. d3 dominiert d1 gleichmäßig. Ziel: Finde Regel d∗ , die alle konkurrierenden” Regeln d dominiert. ” Problem: Diese Idee funktioniert im Allgemeinen nicht, in der Regel überschneiden sich die Risikofunktionen, zum Beispiel ist in obiger Abbildung d2 nur in einem gewissen Bereich besser als d1 und d3 . → Optimale” Entscheidungsregeln nur möglich durch: ” • Einschränkung auf spezielle Klassen von Verlustfunktionen, • Einschränkung auf spezielle Klassen von Entscheidungsregeln, zum Beispiel unverzerrter Schätzer oder unverfälschter Test, • oder zusätzliches Kriterium. 1. Minimax-Kriterium Idee: Betrachte Maximum der Risikofunktion, d.h. präferiere in der folgenden Abbildung d2 , da max R(d2 , θ) < max R(d1 , θ). θ θ 16 Definition 1.7 (Minimax-Entscheidungsregel). Sei d∗ : X → D eine Entscheidungsregel. d∗ heißt Minimax, falls es das supremale Risiko minimiert: sup R(d∗ , θ) ≤ sup R(d, θ)∀d ∈ D ⇔ d∗ = arginf sup R(d, θ). θ∈Θ θ∈Θ d∈D θ∈Θ Bemerkung. In vielen Fällen werden Supremum und Infimum auch angenommen, so dass tatsächlich d∗ = argmin max R(d, θ) d∈D θ∈Θ gilt, daher auch der Name Minimax. Beim Minimax-Kriterium schützt man sich gegen den schlimmsten Fall, was aber nicht unbedingt immer vernünftig ist, wie die folgende Abbildung zeigt: Hier wäre d∗ nur dann vernünftig, wenn θ-Werte in der Mitte besonders wahrschein” lich” sind. 17 2. Bayes-Kriterium Wie in der Bayes-Inferenz nehmen wir für θ eine Prioridichte p(θ) an (aus frequentistischer Sichtweise ist p(θ) eine – nicht notwendigerweise normierte – Gewichtsfunktion). Das Bayes-Risiko ist Z r(d, p) = R(d, θ)p(θ) dθ Θ = Ep [R(d, θ)] = Ep Eθ [L(d(X), θ)] Z Z = L(d(x), θ)f (x|θ) dx p(θ) dθ Θ X und wird durch den Bayes-optimalen Schätzer d∗ minimiert: r(d∗ , p) = inf r(d, p). d∈D Sei p(θ|x) (eigentliche) Posterioridichte. Dann heißt Z L(d(x), θ)p(θ|x) dθ = Eθ|x [L(d(x), θ)] Θ das Posteriori-Bayes-Risiko. Es gilt folgendes praktische Resultat: Satz 1.8. Eine Regel d∗ ist genau dann Bayes-optimal, wenn d∗ für jede Beobachtung/Stichprobe x das Posteriori-Bayes-Risiko minimiert. Anmerkungen: • Bayes-optimale Regeln d∗ sind zulässig, d.h. sie werden von keiner anderen Regel d 6= d∗ dominiert. • Eine enge Beziehung zur Minimax-Regel ist durch die Wahl einer ungünstigsten” ” Prioridichte p∗ (θ) herstellbar. Optimalität von Bayes-Schätzern: Z θb = E[θ|x] = θ p(θ|x) dθ Θ ist Bayes-optimal bei quadratischer Verlustfunktion L(d, θ) = (d − θ)2 . θb = med(θ|x) ist Bayes-optimal bei absoluter Verlustfunktion L(d, θ) = |d − θ|. θb = argmax p(θ|x) θ∈Θ ist Bayes-optimal bei 0-1 Verlustfunktion ( 1, falls |d − θ| ≥ ε, Lε (d, θ) = 0, falls |d − θ| < ε. Der Grenzübergang ε → 0 liefert den Posteriori-Modus. Anmerkung: Die ML-Schätzung ist optimal bei flacher Priori p(θ) ∝ 1 und bei Wahl obiger 0-1-Verlustfunktion. 18 Kapitel 2 Klassische Schätz- und Testtheorie Grundmodell: Die Stichprobe X = (X1 , . . . , Xn ) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ}, Θ ⊆ Rk , wobei • θ: k-dimensionaler Parameter • Θ: Parameterraum • k < n, oft k n, mit dim(θ) = k fest für asymptotische (n → ∞)-Betrachtungen. • In der Regel vorausgesetzt: Es existiert Dichte f (x|θ) = f (x1 , , . . . , xn |θ) zu Pθ , so dass man analog schreiben kann: P = {f (x|θ) : θ ∈ Θ}. • Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n) i.i.d.-Stichprobe von besonderer Relevanz; es gilt: f (x|θ) = f (x1 |θ) · . . . · f (xn |θ). • Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung. • Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002) Band I+II Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion X −→ Rl T : x 7−→ T (x). Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll. 19 Beispiel 2.1. → T (x) Schätzfunktion → T (x) Teststatistik → T (x) = `(θ; x) Log-Likelihoodfunktion 2.1 Klassische Schätztheorie Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervektor τ (θ). i.i.d. Beispiel 2.2. X1 , . . . , Xn ∼ N (µ, σ 2 ) mit θ = (µ, σ 2 )> . Hier könnte τ (θ) = µ sein (d.h. σ 2 ist Nuisance-Parameter) oder τ (θ) = 1/σ 2 (d.h. die Präzision ist von Interesse). Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei X −→ Θ ⊆ Rk T : x 7−→ T (x) eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung (zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariable b b d.h. notationell wird nicht zwischen Schätzwert und ist (auch gebräuchlich: θ(x) oder kurz θ, Schätzfunktion unterschieden). 2.1.1 Suffizienz Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischen Inferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV. def Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) ⇔ die bedingte Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θ unabhängig, d.h. fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t) hängt nicht von θ ab. Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. Falls fX|T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θ als T (x). Folgender Satz ist äquivalent und konstruktiv: Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genau dann wenn f (x|θ) = h(x)g(T (x)|θ) für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x, aber nicht von θ, und der andere nur von θ und T (x) abhängt. 20 Beweis. ⇒”: Falls T suffizient ist, gilt: ” fX|T (x|T (x) = t, θ) = Weiterhin ist fX,T (x, t|θ) . fT |θ (t|θ) ( fX|θ (x|θ) für T (x) = t fX,T (x, t|θ) = 0 sonst, d.h. fX|T (x|t) · fT |θ (t|θ) = fX|θ (x|θ). | {z } | {z } h(x) g(T (x)|θ) ⇐”: Man erhält die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs” kriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskreten Fall also: X X fT |θ (t|θ) = h(x)g(T (x)|θ) = g(t|θ) h(x). x:T (x)=t x:T (x)=t Damit ist die bedingte Dichte von X gegeben T = t, fX|θ (x|θ) h(x) h(x)g(T (x)|θ) =P , =P h(x)g(t|θ) fT |θ (t|θ) x:T (x)=t x:T (x)=t h(x) unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detail werden Messbarkeitsbedingungen verwendet. P i.i.d. Beispiel 2.3 (Bernoulli-Experiment). Seien X1 , . . . , Xn ∼ Bin(1, π) und Z = ni=1 Xi die Anzahl der Erfolge. Dann ist Z suffizient für π, denn fX|Z (x|z, π) = Pπ (X = x|Z = z) Qn π xi (1 − π)1−xi i=1 , = n z n−z z π (1 − π) −1 n = z wobei n X xi = z i=1 ist unabhängig von π. Gemäß Faktorisierungssatz ist 1 n z f (x|π) = n π (1 − π)n−z = |{z} 1 π z (1 − π)n−z . | {z } z z | {z } =h∗ (x) =g∗ (z|π) |{z} =h(x) =g(z|π) Beispiel 2.4 (Normalverteilung). Sei X = (X1 , . . . , Xn ) mit Xi θ = (µ, σ 2 )> . ! n n 1 1 X 2 √ fX|θ (x|θ) = exp − 2 (xi − µ) 2σ 2πσ i=1 1 = (2π)−n/2 (σ 2 )−n/2 exp − 2 | {z } 2σ h(x) | P g(( 21 n X x2i − 2µ n X i=1 i=1 {zP n n 2 i=1 xi , i=1 xi )|θ) i.i.d. ∼ N (µ, σ 2 ) und !! xi + nµ2 , } Pn Pn 2 2 > d.h. T (x) = i=1 xi ist suffizient für θ = (µ, σ ) . Aber: Die bijektive Transfori=1 xi , mation Te(x) = (x̄, s2 ) ist auch suffizient für θ, wobei s2 die Stichprobenvarianz bezeichnet. i.i.d. Beispiel 2.5 (Exponentialverteilung). Sei X = (X1 , . . . , Xn ) ∼ Exp(λ), dann ! n n Y X n f (x|λ) = f (xi |λ) = |{z} 1 · λ exp −λ xi i=1 i=1 h(x) | {z } g(T (x)|λ) mit T (x) = Pn i=1 xi . Nach der ursprünglichen Definition ist P fX,T |λ (x, t|λ) λn exp (−λ ni=1 xi ) Γ(n) = Pn = λn Pn Pn n−1 . n−1 fT |λ (t|λ) ( x ) ( x ) exp (−λ x ) i i i i=1 i=1 i=1 Γ(n) Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteilten Zufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ. i.i.d. Beispiel 2.6 (Order-Statistik). Sei X1 , . . . , Xn ∼ f (x|θ) (wobei f stetige Dichte ist) und T (x) = x(·) = (x(1) , . . . , x(n) ) die Order-Statistik. Dann gilt fX|T,θ (x|T = x(·) , θ) = 1 . n! Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1). x(·) ist suffizient für θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlust durch Ordnen der Daten. Bemerkung. • Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient. • Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Statistik T (x) suffizient. • Ist T suffizient, dann auch (T, T ∗ ), wobei T ∗ eine beliebige weitere Statistik darstellt. Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert werden. def Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit T (x) = H(V (x)) P − fast überall. Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig? Beispiel 2.7 (Normalverteilung). 1. T (x) = x̄ ist minimalsuffizient für µ bei bekanntem σ 2 . P 2. T (x) = ni=1 (xi − µ)2 ist minimalsuffizient für σ 2 bei bekanntem µ. 22 3. T (x) = Pn i=1 xi , Pn 2 i=1 xi ist minimalsuffizient für µ und σ 2 . Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funktionen g1 , g2 , so dass T = g1 (S) und S = g2 (T ). Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiere den Likelihood-Quotienten f (x|θ1 ) Λx (θ1 , θ2 ) = . f (x|θ2 ) Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θ ist, dass für alle θ1 und θ2 gilt: T (x) = T (x0 ) ⇔ Λx (θ1 , θ2 ) = Λx0 (θ1 , θ2 ). Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Exponentialfamilie hat die Form f (x|θ) = h(x) · c(θ) · exp(γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x)) = h(x) · exp(b(θ) + γ(θ)> T (x)), d.h. T (x) = (T1 (x), . . . , Tk (x))> ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein offenes Rechteck in Rk enthält, ist T auch minimalsuffizient. Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wird der Begriff der Vollständigkeit benötigt. def Definition 2.8. Eine suffiziente Statistik T ist vollständig ⇔ für jede reelle Funktion g gilt: Eθ [g(T )] = 0 ∀θ ⇒ Pθ (g(T ) = 0) = 1 ∀θ. Aus der Definiton wird nicht unmittelbar klar, warum Vollständigkeit” eine wünschenswerte ” Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz. Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f (x|θ) und T (X) ist suffizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ. Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary ( Hilfsstatistik”) ” für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist). Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient. i.i.d. Beispiel 2.9. X1 , . . . , Xn ∼ U θ − 21 , θ + 12 . Man kann dann zeigen (Davison, 2004), dass mit U V 1 (X + X(n) ) 2 (1) = X(n) − X(1) = T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient und V ancillary. 23 2.1.2 Erwartungstreue, Varianz und MSE b • Fehler eines Schätzers θb = θ(X) ist θb − θ. • Messung des Fehlers durch Verlustfunktion, zum Beispiel b θ) = |θb − θ| L(θ, b θ) = kθb − θk2 L(θ, Abstand (θ skalar), quadratischer Fehler, kθb − θk2 relativer quadratischer Fehler, kθk2 b θ) = (θb − θ)> D(θb − θ) gewichteter quadratischer Fehler (D positiv definit). L(θ, b θ) = L(θ, b θ) = Eθ [L(θ, b θ)]. • Risikofunktion R(θ, • Hier wird (hauptsächlich) quadratischer Verlust betrachtet. Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers). def b = θ. • θb heißt erwartungstreu ⇔ Eθ [θ] b = Eθ [θ] b − θ. • Biasθ (θ) b = Eθ [(θb − Eθ [θ]) b 2 ], θ skalar. • Varθ (θ) Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiert als b = Eθ [(θb − θ)2 ] = Varθ (θ) b + (Biasθ (θ)) b 2. MSEθ (θ) Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einen systematischen (quadrierter Bias). Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSE des einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein: Beispiel 2.10. X1 , . . . , Xn 1. MSE von π b = X̄: i.i.d. ∼ B(1, π). Eπ [(X̄ − π)2 ] = Varπ (X̄) = π(1 − π) . n 2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β): n X Y +α π bB = , Y = Xi , α+β+n i=1 2 Y +α Y +α MSE(b πB ) = Varπ + Eπ −π α+β+n α+β+n 2 nπ(1 − π) nπ + α = + −π . (α + β + n)2 α+β+n 24 Für α = β = p n/4 ergibt sich MSEπ (b πB ) = Eπ [(b πB − π)2 ] = n 1 √ = const bezüglich π. 4 (n + n)2 Fazit: In der Regel wird man keinen MSE-optimalen” Schätzer θbopt finden in dem Sinne, b für alle θ” und alle konkurrierenden θ. b Bei Einschränkung auf dass MSEθ (θbopt ) ≤ MSEθ (θ) erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung: def Definition 2.12 (zulässiger ( admissible”) Schätzer). Ein Schätzer θb heißt zulässig ⇔ es ” e ≤ MSEθ (θ) b für alle θ und MSEθ (θ) e < MSEθ (θ) b für gibt keinen Schätzer θe mit MSEθ (θ) mindestens ein θ, d.h. es gibt keinen Schätzer θ̃, der θ̂ gleichmäßig/strikt dominiert”. ” p Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ R , p > 1). Üblich sind die folgenden zwei Alternativen: 1. MSE (skalar): (1) b MSEθ (θ) = Eθ [kθb − θk2 ] p X = Eθ [(θbj − θj )2 ] = j=1 p X MSEθ (θbj ) j=1 2. MSE-Matrix: (2) b = Eθ [(θb − θ)(θb − θ)> ] MSEθ (θ) b + (Eθ [θ] b − θ)(Eθ [θ] b − θ)> = Covθ (θ) Diese Variante wird häufig bei linearen Modellen betrachtet. 25 Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ (θbj ). Vergleich von MSEMatrizen gemäß Löwner”-Ordnung: ” (≤) e < MSEθ (θ) b MSEθ (θ) e − MSEθ (θ) b positiv (semi-)definit ist. Man definiert allbedeutet, dass die Differenz MSEθ (θ) gemein für geeignete Matrizen A, B: def A ≤ B ⇔ B − A ist positiv semidefinit, def A < B ⇔ B − A ist positiv definit. Beispiel 2.11 (Gauß-Experiment). Seien X1 , . . . , Xn i.i.d. ∼ N (µ, σ 2 ). • σ 2 bekannt, µ unbekannt: MSE-Vergleich von X̄ und T = bX̄ + a. • σ 2 unbekannt, µ bekannt: – Eine Möglichkeit: n Sµ2 = 1X (Xi − µ)2 , Eσ2 (Sµ2 ) = σ 2 n i=1 – Weitere Möglichkeit: n Vµ2 = n 1 X (Xi − µ)2 , Eσ2 (Vµ2 ) = σ2 n+2 n+2 i=1 Es stellt sich heraus, dass MSEσ2 (Vµ2 ) < MSEσ2 (Sµ2 ) ist. • µ und σ 2 unbekannt: – Eine Möglichkeit: n 1 X S = (Xi − X̄)2 , n−1 2 i=1 Eσ2 (S 2 ) = σ 2 , MSEσ2 (S 2 ) = Varσ2 (S 2 ) = – Weitere Möglichkeit: 2 σ4. n−1 n 1 X V = (Xi − X̄)2 , n+1 2 i=1 Eσ2 (V 2 ) = n−1 2 2 σ , MSEσ2 (V 2 ) = σ4, n+1 n+1 d.h. V 2 dominiert S 2 . – Der sogenannte Stein-Schätzer n ( 1 X 2 T = min V , Xi n+2 2 i=1 26 ) dominiert V 2 (und damit S 2 ). Plausibilitätsbetrachtung: Ist µ = 0, so ist Pn 2 2 2 i /(n+2) besserer Schätzer als V . Ist µ 6= 0, so ist V ein besserer Schätzer i=1 PX n 2 als i=1 Xi /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrscheinlichkeit der jeweils bessere Schätzer benutzt. Beispiel 2.12 (Stein’s Paradoxon). Seien (X1 , . . . , Xm )> ∼ Nm (µ, C) multivariat normal2 ). Es sollen simultan die Erwartungsverteilt mit µ = (µ1 , . . . , µm )> , C = diag(σ12 , . . . , σm werte µ1 , . . . , µm geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten als unabhängig angenommen werden. Die Stichprobe hat die Form X11 , . . . , X1n1 , . . . , Xm1 , . . . , Xmnm (i.i.d. Stichproben aus Gruppen” 1, . . . , m). Übliche Schätzer: ” Tj = X̄j , j = 1, . . . , m, T = (T1 , . . . , Tm )> = (X̄1 , . . . , X̄m )> . Der (skalare) MSE ist: Eµ [kT − µk2 ] = m X Eµ [(X̄j − µj )2 ] = j=1 m X σj2 j=1 nj . Paradoxerweise gilt: 1. Für m ≤ 2 ist T zulässig. 2. Für m ≥ 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer ! m − 2 m − 2 T. T = 1 − Pm T∗ = 1 − > 2 T T j=1 X̄j Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n1 , . . . , nm in den Gruppen. Es lässt sich zeigen: T ∗ ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist ein sogenannter Shrinkage-Schätzer. Beispiel 2.13 (Lineares Modell). y = Xβ + ε, ε ∼ (N )(0, σ 2 I) KQ-Schätzer: Ridge-Schätzer: βbKQ = (X > X)−1 X > y βbRidge = (X > X + λD)−1 X > y, wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleich siehe Vorlesung/Buch zu Lineare Modelle. Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigt sich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt. 27 Auswege: 1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare) Schätzer, äquivariante Schätzer, . . . 2. MSE-Kriterium verändern: b durch Minimierung von maxθ∈Θ MSEθ (θ) b (Minimax-Kriterium) • Ersetze MSEθ (θ) b durch Ep(θ) [MSEθ (θ)] b bei einer Priori-Verteilung p(θ) (Bayes• oder ersetzte MSEθ (θ) Schätzer). Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl. 2.1.4. 2.1.3 Fisher-Information und Suffizienz Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen Pθ mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär, wenn Folgendes gilt: 1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ (dies ist zum Beispiel bei X1 , . . . , Xn i.i.d. ∼ U [0; θ] oder bei der Pareto-Verteilung verletzt). 2. Θ ist offen in Rp (verletzt zum Beispiel bei σ 2 ≥ 0). 3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ endliche Funktionen von x. 4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites Differenzieren nach θ und Integration über x vertauscht werden. Definition 2.15 (Log-Likelihood, Scorefunktion und Information). `(θ; x) = log f (x|θ) ( Log-Likelihood von θ bzgl. der Stichprobe x) > ∂ ∂ ∂ s(θ; x) = `(θ; x) = `(θ; x), . . . , `(θ; x) ( Score-Funktion) ∂θ ∂θ1 ∂θp ∂ 2 `(θ; x) J(θ; x) = − ( beobachtete Informationsmatrix der Stichprobe mit Elementen ∂θ∂θ> ∂ 2 log f (x|θ) (J(θ; x))ij = − ∂θi ∂θj I(θ) = Eθ [J(θ; X)] ( erwartete oder Fisher-Informationsmatrix) Satz 2.16. Ist Pθ Fisher-regulär, so gilt: 1. Eθ [s(θ; X)] = 0 h 2 i `(θ;X) 2. Eθ − ∂∂θ∂θ = Covθ (s(θ; X)) > 28 Beweis. Zu 1.: Z Eθ [s(θ; X)] = s(θ; x)f (x|θ) dx Z ∂ log(f (x|θ))f (x|θ) dx ∂θ Z ∂ ∂θ f (x|θ) = f (x|θ)dx f (x|θ) Z ∂ = f (x|θ)dx = 0 ∂θ = Zu 2.: Eθ ∂ 2 `(θ; X) − ∂θ∂θ> " = −Eθ " = −Eθ ∂ ∂θ ∂ f (X|θ) ∂θ> !# f (X|θ) 2 ∂ ∂ ∂ f (X|θ) ∂θ∂θ > f (X|θ) − ( ∂θ f (X|θ))( ∂θ > f (X|θ)) f (X|θ)2 # unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich " 2 # " # ∂f (X|θ) ∂ ∂ f (X|θ) ∂θ∂θ> ∂θ f (X|θ) ∂θ> − Eθ · + Eθ f (X|θ) f (X|θ) f (X|θ) Z ∂2 f (x|θ)dx + Eθ [s(θ; X)s(θ; X)> ] = − ∂θ∂θ> Der erste Summand ist unter Vertauschung von Differentiation und Integration gleich null. Für den zweiten Teil ergibt sich mit Teil 1. E[s(θ; X)s(θ; X)> ] = Covθ (s(θ; X)). Weitere Eigenschaften: • Sind X1 , . . . , Xn unabhängig und gemäß Xi ∼ fi (x|θ), i = 1, . . . , n, verteilt, so gilt: `(θ) = n X `i (θ) , `i (θ) = log fi (xi |θ) si (θ) , si (θ) = ∂ 2 `(θ) ∂θ∂θ> = i=1 s(θ) = n X i=1 J(θ) = − n X i=1 29 − ∂ log fi (xi |θ) ∂θ ∂ 2 log fi (xi |θ) ∂θ∂θ> • Für X1 , . . . , Xn i.i.d. wie X1 ∼ f1 (x|θ) folgt I(θ) = Eθ [J(θ)] = n · i(θ), wobei ∂ log f1 (X|θ) ∂ 2 `(θ; X) = Covθ i(θ) = Eθ − ∂θ ∂θ∂θ> die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informationsmatrix der Stichprobe X1 , . . . , Xn ist die n-fache erwartete Information einer (typischen) Stichprobenvariable X1 . • Für eine Statistik T = T (X), X = (X1 , . . . , Xn )> mit T ∼ fT (t|θ) kann man die Begriffe Score-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist 2 ∂ log fT (t|θ) IT (θ) = Eθ − . ∂θ∂θ> Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Dann gilt unter Fisher-Regularität für jede Statistik T : 1. IT (θ) ≤ I(θ). 2. IT (θ) = I(θ) ⇔ T ist suffizient für θ. Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information verschenkt”. ” 2.1.4 Erwartungstreue Schätzer • Schöne” Resultate für finites n, aber für vergleichsweise einfache statistische Modelle. ” • Problem: Für komplexere Modelle existieren keine vernünftigen” erwartungstreuen ” Schätzer. • Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n → ∞. Informationsungleichungen I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ (θ) betrachtet. Wenn Ableitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren. Satz 2.18. Sei f (x|θ) Fisher-regulär. 1. Ist θb erwartungstreu für θ, so gilt: b ≥ Varθ (θ) 1 I(θ) (Cramer-Rao-Ungleichung). 2. Ist T = T (x) erwartungstreu für τ (θ), so gilt: Varθ (T ) ≥ (τ 0 (θ))2 I(θ) heißt Cramer-Rao-Schranke. 30 (τ 0 (θ))2 . I(θ) b − θ, so gilt 3. Besitzt θb den Bias B(θ) = Eθ [θ] 0 2 b ≥ B 2 (θ) + (1 + B (θ)) . MSEθ (θ) I(θ) Beweis. Gezeigt wird 2. Daraus folgt 1. für τ (θ) = θ und 3. für τ (θ) = θ + B(θ). Differentiation von Z τ (θ) = Eθ [T ] = T (x)f (x|θ) dx bezüglich θ, und Verwendung der Fisher-Regularität liefert: Z d 0 τ (θ) = T (x) f (x|θ) dx dθ Z = T (x)s(θ; x)f (x|θ) dx = Covθ (T (X), s(θ; X)). Unter Verwendung der Cauchy-Schwarz-Ungleichung p p |Cov(U, V )| ≤ Var(U ) Var(V ) folgt (τ 0 (θ))2 ≤ Varθ (T (X))Varθ (s(θ; X)) = Varθ (T (X))I(θ). Also: Varθ (T (X)) ≥ (τ 0 (θ))2 . I(θ) Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametrische Exponentialfamilie f (x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ (θ) = −b0 (θ)/γ 0 (θ) gilt und T (x) ein Schätzer für τ (θ) ist. Also: eher eine kleine Modellklasse. II. θ = (θ1 , . . . , θp ) bzw. τ (θ) mehrdimensional. Satz 2.19. Sei f (x|θ) Fisher-regulär. 1. Ist θb erwartungstreu für θ, so gilt: b ≥ I −1 (θ), Covθ (θ) wobei sich das ≥” auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus ” folgt insbesondere Varθ (θbj ) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelement von I −1 (θ) bezeichnet. 2. Ist T erwartungstreu für τ (θ), so gilt Covθ (T ) ≥ H(θ)I −1 (θ)H(θ)> mit der Funktionalmatrix (H(θ))ij = Cramer-Rao-Schranke. ∂ ∂θj τi (θ). 31 Die Matrix H(θ)I −1 (θ)H(θ)> ist die Bemerkung. Obige Bemerkung für skalares θ gilt analog für f (x|θ) = h(x) exp(b(θ) + γ > (θ)T (x)), d.h. für mehrparametrische Exponentialfamilien. Beispiel 2.14 (Cramer-Rao-Schranke bei X ∼ N (µ, σ 2 )). X1 , . . . , Xn i.i.d. wie X ∼ N (µ, σ 2 ), θ = (µ, σ 2 ). Dann gilt für die Informationsmatrix ! n σ2 0 0 2 n σ bzw. I −1 (θ) = I(θ) = . 4 0 2σn4 0 2σn Beste erwartungstreue Schätzer Die Informationsungleichungen motivieren: Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer). 1. θ skalar: Der Schätzer θbeff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU ( uni” def formly minimum variance unbiased”)-Schätzer ⇔ θbeff ist erwartungstreu, und es gilt b für alle θ und jeden erwartungstreuen Schätzer θ. b Varθ (θbeff ) ≤ Varθ (θ) 2. θ mehrdimensional: b durch Covθ (θbeff ) ≤ Covθ (θ). b Ersetze in 1. Varθ (θbeff ) ≤ Varθ (θ) Satz 2.21 (Effizienz und Informationsungleichungen). Sei f (x|θ) Fisher-regulär und θb erb = I −1 (θ) für alle θ, so ist θb ein UMVU-Schätzer. wartungstreu für θ. Falls Covθ (θ) Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition. i.i.d. Beispiel 2.15 (Gauß-Experiment). Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ, σ 2 unbekannt. Aus Beispiel 2.14 wissen wir, dass I(µ) = n/σ 2 und somit I −1 (µ) = σ 2 /n = Var(X̄). Dann ist X̄ UMVU für µ. Aber 2σ 4 2σ 4 Var(S 2 ) = > = I −1 (σ 2 ). n−1 n Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S 2 UMVU für σ 2 ist. Beispiel 2.16 (Lineares Modell). y = Xβ + ε, ε ∼ N (0, σ 2 I) bzw. y ∼ N (Xβ, σ 2 I) βbKQ = βbML = (X > X)−1 X > y ist effizient für β, n 1 X 2 σ b = (yi − ybi )2 ist nicht effizient für σ 2 . n−p i=1 32 Bemerkung. Zu unterscheiden sind folgende Situationen: 1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist. 2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schranke ist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23). 3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer. Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz. Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, die sich an finiter Theorie orientiert (siehe Abschnitt 2.1.5). Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich: Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. Pθ und θb erwartungstreu für θ. Für den Schätzer b ] θbRB = Eθ [θ|T ( Rao-Blackwellization”) ” gilt: 1. θbRB ist erwartungstreu für θ. b 2. Varθ (θbRB ) ≤ Varθ (θ). 3. In 2. gilt die Gleichheit, wenn θb nur von T abhängt, d.h. θbRB = θb mit Wahrscheinlichkeit 1. Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizib ent) und θb = θ(x) ein erwartungstreuer Schätzer, so ist b ] θb∗ = Eθ [θ|T der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ. 2.1.5 Asymptotische Eigenschaften und Kriterien Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.) sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n → ∞) Eigenschaften. Im Folgenden sei θ̂n = θ̂(X1 , . . . , Xn ) Schätzer für θ. def Definition 2.24 (Asymptotische Erwartungstreue). θbn heißt asymptotisch erwartungstreu ⇔ lim Eθ [θbn ] = θ n→∞ 33 für alle θ. Definition 2.25 (Konsistenz). def P 1. θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔ lim Pθ (|θbn − θ| ≤ ε) = 1 n→∞ für alle ε > 0 und alle θ. def 2. θbn heißt MSE-konsistent für θ ⇔ lim MSEθ (θbn ) = 0 n→∞ für alle θ. def 3. θbn ist stark konsistent für θ ⇔ Pθ lim θbn = θ = 1 für alle θ. n→∞ Bemerkung. 1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt θbn MSE-konsistent ⇒ θbn schwach konsistent. 2. Wegen MSEθ (θbn ) = Varθ (θbn ) + (Biasθ (θbn ))2 folgt: θbn ist MSE-konsistent ⇔ Varθ (θbn ) → 0 und Biasθ (θbn ) → 0 für alle θ. 3. Ist θbn konsistent für θ und g eine stetige Abbildung, so ist auch g(θbn ) konsistent für g(θ) (Continuous Mapping Theorem/Stetigkeitssatz). 4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetze großer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.B. Martingale, Markov-Prozesse, ...). Beispiel 2.17. 1. X̄n = 2. Sn2 = 1 n n P Xi ist wegen E(X̄n ) = µ und Var(X̄n ) = i=1 1 n−1 n P (Xi − X̄n )2 und Sen2 = i=1 3. Mit g(x) = 1 n n P σ2 n → 0 für n → ∞ konsistent. (Xi − X̄n )2 sind MSE-konsistent für σ 2 . i=1 √ x folgt, dass v u n u 1 X Sn = t (Xi − X̄n )2 n−1 i=1 und v u n u1 X e Sn = t (Xi − X̄n )2 n i=1 konsistent sind für σ. 4. Sn /X̄n ist konsistent für σ 2 /µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ 2 /µ wieder der Stetigkeitssatz benutzt werden kann. 5. π bn ist konsistent für π (im Bernoulli-Experiment). 6. βbKQ , βbRidge sind konsistent für β im linearen Modell. 34 Asymptotische Normalität Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitätsannahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θbn nicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz a θbn ∼ N (θ, V (θ)) mit (approximativer) Kovarianzmatrix a Covθ (θbn ) ∼ V (θ), die durch d θ (θbn ) := V (θbn ) Cov geschätzt wird. In der Diagonalen von V (θbn ) stehen dann die (geschätzten) Varianzen d θbj ) = vjj (θbn ) Var( der Komponenten θj , j = 1, . . . , p, von θ. ⇒ ”Üblicher” Output statistischer Software ist q b θbj σ bθbj = vjj (θ) |{z} | {z } Schätzer Standardfehler t |{z} t-Statistik p |{z} p-Wert i.i.d. Beispiel 2.18. Seien X1 , . . . , Xn ∼ F (x|θ) mit E(Xi ) = µ und Var(Xi ) = σ 2 . Aber F sei nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder P o(λ). Für X̄n gilt E(X̄n ) = µ und Var(X̄n ) = σ2 . n Aufgrund des zentralen Grenzwertsatzes folgt σ2 X̄n ∼ N µ, , n a zum Beispiel a X̄n ∼ N π(1 − π) π, n bei B(π). Genauere Formulierung: √ im Beispiel also √ d n(X̄n − µ) → N (0, σ 2 ) für n → ∞, d n(X̄n − π) → N (0, π(1 − π)) für n → ∞ bzw. X̄−µ √ n σ √ X̄−π √ n π(1−π) d → d → N (0, 1), N (0, 1). ) zentraler Grenzwertsatz √ Die n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch verteilte Stichprobenvariablen wie zum Beispiel y1 |x1 , . . . , yn |xn in Regressionssituationen √ benötigt man bei n-Normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind. 1 Besser ist dann eine Matrix-Normierung” mit Hilfe einer Wurzel” I 2 (θ) der Informations” ” matrix. 35 Einschub: Wurzel einer positiv definiten Matrix • A ist positiv definit, wenn A symmetrisch ist und x> Ax > 0 für alle x 6= 0 gilt. def 1 • Dann heißt eine Matrix A 2 (linke) Wurzel von A ⇔ 1 1 A2 > (A 2 )> | {z } = A. =A 2 , rechte Wurzel 1 1 Allerdings ist A 2 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A 2 Q eine linke Wurzel ist: 1 1 > 1 A 2 Q(A 2 Q)> = A 2 QQ> A 2 = A. | {z } =I • Zwei gebräuchliche Wurzeln sind: 1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p . Mit der Matrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist λ1 0 .. P > AP = Λ = , . 0 λp wobei für alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist numerisch aufwändig!) Dann gilt auch 1 1 A = P ΛP > = P Λ 2} (Λ 2 )> P > , | {z | {z } 1 =A 2 > =A 2 1 und A 2 heißt symmetrische Wurzel von A. 1 2. Cholesky-Wurzel: Sei A 2 := C untere Dreiecksmatrix mit positiven Diagonalelementen und CC > = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzel von A. (Diese ist numerisch vergleichsweise einfach zu erhalten!) • Anwendungen in der Statistik 1. Erzeugen von Np (0, Σ)-verteilten Zufallszahlen (Σ vorgegeben): Falls Z ∼ Np (0, I), ist einfache Simulation möglich, indem p unabhängige N (0, 1)-verteilte Zufallsvariablen Z1 , . . . , Zp simuliert werden. Dann gilt auch . Σ1/2 Z ∼ N (0, Σ1/2 IΣ>/2 ) = N (0, Σ). Also: Berechne Cholesky-Wurzel von Σ, ziehe p N (0, 1)-verteilte Zufallsvariablen Z = (z1 , . . . , zp )> , berechne Y = Σ1/2 Z. Dann ist Y = (Y1 , . . . , Yp )> ein Np (0, Σ)verteilter Zufallsvektor. 36 2. Matrixnormierung bei asymptotischer Normalverteilung: Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell). Seien y1 |x1 , . . . , yn |xn unabhängig. Dann gilt E[yi |xi ] = x> i β, Var(yi |xi ) = σ 2 , i = 1, . . . , n, ⇔ yn = Xn β + εn , E[εn ] = 0, Cov(εn ) = σ 2 In . Der KQ-Schätzer ist βbn = (Xn> Xn )−1 Xn> yn , E[βbn ] = β, Cov(βbn ) = σ 2 (Xn> Xn )−1 . Die Informationsmatrix unter der Normalverteilungsannahme ist I(β) = Xn> Xn = Cov(βbn )−1 . σ2 Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvariablen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell): a βbn ∼ N (β, σ 2 (Xn> Xn )−1 ). Genauere Formulierungen nehmen an, dass 1 > X Xn =: A > 0 n→∞n n lim (2.1) existiert (also: Xn> Xn ≈ nA ⇔ (Xn> Xn )−1 ≈ A−1 /n für große A). Anwendung des (multivariaten) zentralen Grenzwertsatzes liefert dann: √ d n(βbn − β) → N (0, σ 2 A−1 ) bzw. βbn βbn ∼ a N (β, σ 2 A−1 /n) a N (β, σ 2 (Xn> Xn )−1 ). ∼ Die Annahme (2.1) ist zum Beispiel erfüllt, wenn xi , i = 1, . . . , n, i.i.d. Realisierungen stochastischer Kovariablen x = (x1 , . . . , xp )> sind. Dann gilt nach dem Gesetz der großen Zahlen: n 1 > 1X Xn Xn = xi x> i n n n→∞ → E[xx> ] =: A. i=1 Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regressoren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: xi = i für i = 1, . . . , n und yi = β1 i + εi . Dann ist Xn> Xn = n X i=1 37 i2 und daher Pn 2 i 1 > n→∞ Xn Xn = i=1 ≥ n → ∞. n n In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnormierung mit Cn = (Xn> Xn ). Dann lässt sich die asymptotische Normalität des KQ-Schätzers d Cn1/2 (βbn − β) → Np (0, σ 2 I) bzw. 1/2 Cn b d C̃n1/2 (βbn − β) := (βn − β) → Np (0, I) σ unter folgenden, sehr schwachen Bedingungen zeigen: (D) Divergenzbedingung: Für n → ∞ gilt: (Xn> Xn )−1 → 0. Eine äquivalente Forderung ist: λmin (Xn> Xn ) → ∞, wobei λmin den kleinsten Eigenwert von Xn> Xn bezeichnet. Die Divergenzbedingung sichert, dass die Informationsmatrix” ” n X Xn> Xn = xi x> i i=1 für n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufend wächst. Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Konsistenz des KQ-Schätzers βbn . (N) Normalitätsbedingung: > −1 max x> i (Xn Xn ) xi → 0 i=1,...,n für n → ∞ (N) sichert, dass die Information jeder Beobachtung i asymptotisch gegenüber Pn > der Gesamtinformation i=1 xi xi vernachlässigbar ist. Unter (D) und (N) gilt d (Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I) (Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsvariablen), d.h. für praktische Zwecke: a βbn ∼ N (β, σ 2 (Xn> Xn )−1 ) für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ 2 durch einen konsistenten Schätzer σ b2 ersetzt werden. 38 Definition 2.26 (Asymptotische Normalität). 1. Mit √ def n-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔ √ d n(θbn − θ) → N (0, V (θ)) für n → ∞ mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzmatrix V (θ). def 2. Mit Matrix-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔ es existiert eine Folge von Matrizen An mit λmin (An ) → ∞, so dass d An1/2 (θbn − θ) → N (0, V (θ)). Bemerkung. 1. Praxisformulierung: bzw. a θbn ∼ N (θ, V (θ)/n) a −1 1/2 −> θbn ∼ N (θ, (A1/2 ). n ) V (θ)(An ) Dabei darf θ in V (θ) durch θbn ersetzt werden. 2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung. Beispiel 2.20. Seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µ und Varianz σ 2 . n 1X (Xi − µ)2 Sµ2 = n i=1 σ2 ist asymptotisch normal für mit V (θ) = µ4 − σ 4 , µ4 = E[(Xi − µ)4 ] < ∞. Sµ2 ist erwartungstreu. Für die Varianz erhält man: ! n X 1 Var(Sµ2 ) = Var (Xi − µ)2 n i=1 1 = · n · Var (X1 − µ)2 2 n 2 1 = E[(X1 − µ)4 ] − E[(X1 − µ)2 ] n 1 = (µ4 − σ 4 ). n Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihm folgt: √ a d Sµ2 ∼ N (σ 2 , (µ4 − σ 4 )/n) bzw. n(Sµ2 − σ 2 ) → N (0, µ4 − σ 4 ). 39 Die Delta-Methode θbn sei asymptotisch normalverteilter Schätzer für θ. Frage: Wie ist für eine gegebene Abbildung h : Rp → Rk , k ≤ p b für h(θ) verteilt? der Schätzer h(θ) Satz 2.27 (Delta-Methode). Sei h wie oben. 1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt: √ d n(θbn − θ) → N (0, V (θ)) ⇒ √ d n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ)) 2. θ vektoriell: Sei θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))> mit positiv oder negativ definiter Funktionalmatrix (H(θ))ij = ∂hi (θ) . ∂θj Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt: √ d n(θbn − θ) → N (0, V (θ)) ⇒ √ d n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ). Beweisskizze für skalares θ. Taylorentwicklung von h(θbn ) um θ liefert: h(θn ) = h(θ) + (θbn − θ)h0 (θ) + o(θbn − θ)2 . Dabei ist für eine Folge von Zufallsvariablen Xn Xn = o(an ) P falls Xn /an → 0 für n → ∞. Also: h(θbn ) ≈ h(θ) + (θbn − θ)h0 (θ) bzw. √ √ n(h(θbn ) − h(θ)) ≈ n(θbn − θ)h0 (θ) √ √ d d Aus n(θbn − θ) → N (0, V (θ)) folgt dann, dass n(h(θbn ) − h(θ)) → N (0, h0 (θ)2 V (θ)). 40 Asymptotische Cramer-Rao Schranke und asymptotische Effizienz i.i.d. Seien X1 , . . . , Xn ∼ f (x|θ) und ∂ 2 log f (x|θ) i(θ) = −E ∂θ∂θ> die erwartete Fisher-Information einer Beobachtung Xi . Die Information der gesamten Stichprobe X1 , . . . , Xn ist dann I(θ) = n · i(θ). Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt: 1. Aus 2. Aus √ √ d n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ). d n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt D(θ) ≥ H(θ)i−1 (θ)H(θ)> mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27). Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θbn heißt BAN-Schätzer, falls in 1. oben gilt: V (θ) = i−1 (θ). Mit der Delta-Regel folgt unmittelbar: Satz 2.30 (Transformation von BAN-Schätzern). Ist θbn BAN-Schätzer für θ, so ist h(θbn ) BAN-Schätzer für h(θ). Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierung übertragen: θb ist BAN-Schätzer für θ genau dann, wenn d I 1/2 (θ)(θbn − θ) → N (0, I) a bzw. θbn ∼ N (θ, I −1 (θbn )), mit I 1/2 (θ) Wurzel der Fisher-Information I(θ) der Stichprobe X1 , . . . , Xn . Anstelle der erwarteten kann auch die beobachtete Fisher-Information J (θ) verwendet werden. 2.2 Klassische Testtheorie Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ ∈ Θ1 . Dabei ist n finit. 41 2.2.1 Problemstellung • Sei Θ der Parameterraum; die Hypothesen seien H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 , mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Möglicherweise, jedoch nicht notwendigerweise, gilt Θ0 ∪ Θ1 = Θ. • Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht, d.h. Θ0 = {θ0 }. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei ist Folgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlich zusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen. Beispiel: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ und σ 2 unbekannt. Die Nullhypothese H0 : µ = 0 ist eine zusammengesetzte Hypothese, da Θ = {(µ, σ 2 ) : −∞ < µ ≤ ∞, 0 < σ 2 < ∞} und Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}. • Ergebnisse/Aktionen: A0 : H0 wird nicht abgelehnt A1 : H0 wird abgelehnt • Test zum Niveau α: Pθ (A1 ) ≤ α, für alle θ ∈ Θ0 • Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert: Wähle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich Cα . Dann lautet der Test 1 , falls T (x) ∈ Cα (H0 ablehnen), φ(x) = 0 , falls T (x) ∈ / Cα (H0 nicht ablehnen). • Für die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) ∈ {0, 1} erweitert zu randomisierten Testfunktionen φ(x) ∈ [0, 1]: 1. Für gegebene Daten X = x ist φ(x) ∈ [0, 1]. 2. Ziehe eine (davon unabhängige) Bernoullivariable W ∼ Bin(1, φ(x)). 3. Lehne H0 genau dann ab, wenn W = 1. Interpretation: φ(x) ist die Wahrscheinlichkeit für die Ablehnung von H0 gegeben die Beobachtung X = x. Im Spezialfall φ(x) ∈ {0, 1} reduziert sich ein randomisierter Test auf einen üblichen, nicht randomisierten Test. Randomisierte Tests sind (für die Theorie) vor allem bei diskreten Teststatistiken relevant. 42 Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und 1 H0 : π ≤ , 2 1 H1 : π > . 2 Test: H0 ablehnen ⇔ X ≥ kα , wobei kα so, dass Pπ (X ≥ kα ) ≤ α Es ist 1 für π = . 2 0.00098 0.01074 P0.5 (X ≥ k) = 0.05469 . . . , k = 10 ,k = 9 ,k = 8 Für α = 0.05 würde die Wahl kα = 8 wegen 0.054 > 0.05 nicht möglich sein. Wählt man aber kα = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ. Die Lösung ist ein randomisierter Test , x ∈ {9, 10} 1 φ(x) = 67/75 , x = 8 0 , x ≤ 7, d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75. Wird 1 realisiert, so wird H0 abgelehnt. Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen, d.h. Pθ (A1 ) = α zu erreichen. Ein randomisierter Test besitzt in der Regel folgende Struktur: , x ∈ B1 1 φ(x) = γ(x) , x ∈ B10 0 , x ∈ B0 . Der Stichprobenraum wird also in drei Teile zerlegt: B1 strikter Ablehnungsbereich von H0 , d.h. x ∈ B1 ⇒ Aktion A1 . B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0 . B10 Randomisierungsbereich, d.h. x ∈ B10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnung und mit Wahrscheinlichkeit 1 − γ(x) zur Annahme von H0 . B10 kann als Indifferenzbereich interpretiert werden. In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben randomisierte Tests oft die Form: 1, T (x) > c φ(x) = γ, T (x) = c 0, T (x) < c . 43 Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziert sich φ(x) zu ( 1, T (x) ≥ c φ(x) = 0, T (x) < c . Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. Der Wert c ist an der Entscheidungsgrenze” zwischen A1 und A0 . Dass man die Entscheidung ” durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken. Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit Z P(A1 |x) f (x|θ)dx = Eθ [φ(X)], θ ∈ Θ1 Pθ (A1 ) = X | {z } | {z } φ(x) dPθ bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, a posteriori, d.h. bei gegebener Stichprobe, für A1 zu entscheiden). Maximal” bezieht sich auf ” durchschnittliche” Optimalität des Tests bei wiederholter Durchführung. ” Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidung treffen ( Indifferenzbereich”). ” Für n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomisierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben. Güte, Gütefunktion (power, power function) Bei einer Testentscheidung gibt es folgende Möglichkeiten: H0 trifft zu H1 trifft zu A0 : H0 beibehalten richtige Aussage Fehler 2. Art A1 : H1 ist signifikant Fehler 1. Art richtige Aussage Es ist φ(x) = P(A1 |x) die bedingte Wahrscheinlichkeit für A1 gegeben die Stichprobe x. Ist Pθ (A1 ) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben) Z Z Pθ (A1 ) = P(A1 |x)f (x|θ) dx = φ(x)f (x|θ) dx = Eθ [φ(X)] X und somit auch Pθ (A0 ) = Eθ (1 − φ(X)) für θ ∈ Θ. 44 Definition 2.31 (Gütefunktion eines Tests φ). 1. Die Abbildung gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion des Tests φ. gφ (θ) = Pθ (A1 ) Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0 1 − gφ (θ) = Pθ (A0 ) Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1 Außerdem: gφ (θ) = Pθ (A1 ) Macht (power) des Tests, θ ∈ Θ1 2. Die Größe α(φ) = sup Pθ (A1 ) = sup gφ (θ) θ∈Θ0 θ∈Θ0 heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeit für den Fehler 1. Art. β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ) θ∈Θ1 θ∈Θ1 ist die supremale Wahrscheinlichkeit für den Fehler 2. Art. • Bei den üblichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ (θ) ” α(φ) + β(φ) = 1, d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt). Allgemein gilt dagegen nur α(φ) + β(φ) ≥ 1, zum Beispiel beim einseitigen Gauß-Test. • Programm der klassischen Testtheorie: Maximiere unter Beschränkung gφ (θ) ≤ α für alle θ ∈ Θ0 bei fest vorgegebenem α > 0 die Güte für θ ∈ Θ1 , d.h. gφ (θ) ≥ max gφe(θ) für θ ∈ Θ1 e φ e H0 und H1 werden also unsymmetrisch betrachtet. bei konkurrierenden” Tests φ. ” • Wegen der Beziehung α(φ) + β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau α ausgeschöpft werden, d.h. α(φ) = α gelten. Bei α(φ) < α wird automatisch β(φ) = 1 − inf gθ (φ) θ∈Θ1 für θ ∈ Θ1 größer als notwendig, d.h. die Güte des Tests schlechter. 45 • Folgende Problemstellungen werden nach diesem Konzept betrachtet: 1. Einfaches H0 vs. einfaches H1 : Neyman-Pearson-Theorem zeigt, wie bester Test zu konstruieren ist. 2. Einfaches H0 vs. zusammengesetztes H1 : Basierend auf dem Neyman-PearsonTheorem kann für bestimmte Fälle ein gleichmäßig bester Test” (UMP, uniformly ” most powerful test) konstruiert werden. In anderen Fällen existiert — zumindest ohne weitere Restriktionen — kein UMP-Test. 3. Zusammengesetztes H0 vs. zusammengesetztes H1 : Suche nach einem UMP-Test ist noch schwieriger. 2.2.2 Satz von Neyman-Pearson Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also H0 : θ = θ0 , vs. H1 : θ = θ1 mit θ0 6= θ1 . Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt Λ(x) = f1 (x) f0 (x) Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form: H0 ablehnen ⇔ Λ(x) > kα mit kα so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt es ein theoretisches Problem. Dies führt zu Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗ (x) heißt randomisierter Likelihooddef Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT) ⇔ φ∗ (x) hat die Struktur , f1 (x) > kf0 (x) ⇔ Λ(x) > k 1 ∗ φ (x) = γ(x) , f1 (x) = kf0 (x) ⇔ Λ(x) = k 0 , f1 (x) < kf0 (x) ⇔ Λ(x) < k mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann reicht ein nicht-randomisierter Test ( 1, f1 (x) > kf0 (x) ⇔ Λ(x) > k φ∗ (x) = 0, sonst. Satz 2.33 (Neyman-Pearson, Fundamentallemma). 1. Optimalität: Für jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests, deren Niveau höchstens gleich dem Niveau von φ∗ ist. 2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k ∗ und γ ∗ , so dass der LQ-Test φ∗ mit diesem k ∗ und γ(x) = γ ∗ für alle x exakt das Niveau α besitzt. 46 3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art) unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mit Ausnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0 (X0 ) = Pθ1 (X0 ) = 0). Beweis. 1. Sei φ ein Test mit Eθ0 [φ(X)] ≤ Eθ0 [φ∗ (X)] (2.2) und U (x) = (φ∗ (x) − φ(x))(f1 (x) − kf0 (x)). – Für f1 (x) − kf0 (x) > 0 ist φ∗ (x) = 1, also U (x) ≥ 0. – Für f1 (x) − kf0 (x) < 0 ist φ∗ (x) = 0, also U (x) ≥ 0. – Für f1 (x) = kf0 (x) = 0 ist U (x) = 0. Also: U (x) ≥ 0 für alle x. Somit: Z 0 ≤ U (x)dx Z = (φ∗ (x) − φ(x))(f1 (x) − kf0 (x)) dx Z Z Z Z ∗ ∗ = φ (x)f1 (x) dx − φ(x)f1 (x) dx + k φ(x)f0 (x) dx − φ (x)f0 (x) dx = Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] + k(Eθ0 [φ(X)] − Eθ0 [φ∗ (X)]) | {z } ≤0 wegen (2.2) ⇒ Eθ1 [φ∗ (X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist größer als die Macht von φ. 2. Die Verteilungsfunktion G(k) = Pθ0 (Λ(x) ≤ k) ist monoton steigend in k. Sie ist ferner rechtsstetig, d.h. G(k) = lim G(y) für alle k. y↓k Betrachtet man die Gleichung G(k ∗ ) = 1 − α und versucht diese bezüglich k ∗ zu lösen, so gibt es zwei Möglichkeiten: (i) Entweder ein solches k ∗ existiert, (ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k ∗ , so dass G− (k ∗ ) = Pθ0 (Λ(X) < k ∗ ) ≤ 1 − α < G(k ∗ ) (das entspricht der Niveaubedingung”). ” Im ersten Fall setzt man γ ∗ = 0, im zweiten γ∗ = G(k ∗ ) − (1 − α) . G(k ∗ ) − G− (k ∗ ) 47 In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn: f1 (X) G(k ∗ ) − 1 + α f1 (X) ∗ ∗ Eθ0 [φ(X)] = Pθ0 >k + Pθ =k f0 (X) G(k ∗ ) − G− (k ∗ ) 0 f0 (X) G(k ∗ ) − 1 + α = (1 − G(k ∗ )) + (G(k ∗ ) − G− (k ∗ )) G(k ∗ ) − G− (k ∗ ) = α. 3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und man nehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen Macht wie φ∗ . R Definiert man U (x) wie in 1., dann ist U (x) ≥ 0 für alle x und U (x) dx = 0, da Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] = 0 und Eθ0 [φ∗ (X)] − Eθ0 [φ(X)] = 0 nach Annahme. Daraus, dass U nicht-negativ mit Integral 0 ist, folgt, dass U (x) = 0 für fast alle x. Dies wiederum bedeutet, dass φ(x) = φ∗ (x) oder f1 (x) = kf0 (x), d.h. φ(x) ist ein LQ-Test. Bemerkung. Für einfache Hypothesen H0 und H1 sind klassische Testtheorie und LikelihoodQuotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennen sich die Konzepte: • Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben). • Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationen von Λ(x), deren Verteilungsfunktion (unter H0 ) nur asymptotisch (n → ∞) gilt. Beispiel 2.22 (Binomialtest). Betrachte H0 : π = π0 vs. H1 : π = π1 mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. Stichprobe X = (X1 , . . . , Xn )> lautet z n−z f (x|π) = π (1 − π) mit z= n X xi , i=1 der Likelihood-Quotient π z (1 − π1 )n−z Λ(x) = 1z = π0 (1 − π0 )n−z 1 − π1 1 − π0 n π1 (1 − π0 ) z · := Λ(z). π0 (1 − π1 ) Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen in z > Λ−1 (k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstanter) Randomisierung γ ∗ hat dann die Form , Z = Z(x) > c 1 ∗ ∗ φ (x) = γ , Z = Z(x) = c 0 , Z = Z(x) < c mit der Teststatistik” Z. Dabei können wir uns (wegen des Wertebereichs von Z) auf ” c ∈ {0, 1, . . . , n} beschränken. γ ∗ ist aus der Niveaubedingung ! Pπ0 (Z > c) + γ ∗ Pπ0 (Z = c) = α zu bestimmen. Der Test φ∗ hängt von π0 ab, jedoch nicht von π1 ! 48 2.2.3 Gleichmäßig beste Tests Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveaudef α-Test φ∗ heißt gleichmäßig bester oder UMP Test zum Niveau α ⇔ 1. Eθ [φ∗ (X)] ≤ α für alle θ ∈ Θ0 . 2. Für jeden anderen Niveau-α-Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt: Eθ [φ∗ (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 . Bemerkung. Der Begriff gleichmäßig” in obiger Definition bezieht sich auf die Gleichmäßig” keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 für jeden anderen Test φ. Beste einseitige Tests bei skalarem θ In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellen π1 (≡ H1 ) > π0 (≡ H0 ) ab. Daraus folgt, dass φ∗ für alle π1 > π0 besser ist als ein anderer Test φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist. Dies gilt allgemeiner und führt zu folgender Definition. Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie {f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihooddef Quotienten (kurz: MLQ) ⇔ es existiert eine Statistik T , so dass Λ(x) = f (x|θ1 ) f (x|θ0 ) monoton wachsend in T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist. Bemerkung. 1. Monoton wachsend ist keine echte Einschränkung; ist Te(x) monoton fallend, so definiert man T (x) = −Te(x). 49 2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichtequotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisierung γ(θ) = θ. Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x) und die Hypothesen H0 : θ ≤ θ0 vs. H1 : θ > θ0 . 1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich 1, T (x) > c ∗ φ (x) = γ, T (x) = c 0, T (x) < c. Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung Pθ0 (T (X) > c) + γPθ0 (T (X) = c) = α. 2. Die Gütefunktion gφ∗ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend für alle θ mit 0 < gφ∗ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art ist gφ∗ (θ0 ) = α. 3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unter allen Tests φ für H0 vs. H1 mit gφ (θ0 ) = α. 4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt. Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test für das einfache Alternativproblem H0 : θ = θ0 vs. H1 : θ = θ1 , so ist φ∗ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 , wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhängt und für alle θ ∈ H0 das Niveau α einhält. Beispiel 2.23. 1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge” (vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test. 2. Gleichverteilung 3. Gauß-Test 4. Exponentialverteilung 5. Poissonverteilung Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test: def φlok heißt lokal bester Niveau α-Test ⇔ 0 gφlok (θ0 ) = d d gφ (θ0 ) ≥ gφ (θ0 ), dθ lok dθ wobei gφlok (θ0 ) = gφ (θ0 ) = α gilt. 50 Beste unverfälschte zweiseitige Tests bei skalarem θ Für zweiseitige Testprobleme der Form H0 : θ = θ 0 vs. H1 : θ 6= θ0 gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt. Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig. Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H0 vs. H1 heißt unverfälschdef ter (unbiased) Niveau-α-Test ⇔ gφ (θ) ≤ α für alle θ ∈ Θ0 , gφ (θ) ≥ α für alle θ ∈ Θ1 . Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei f (x|θ) = c(θ) exp(θT (x))h(x) eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenes Intervall) und Statistik T (x). Dann ist 1 , T (x) < c1 γ1 , T (x) = c1 ∗ φ (x) = 0 , c1 < T (x) < c2 γ2 , T (x) = c2 1 , T (x) > c2 ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus Eθ0 [φ∗ (X)] = α, Eθ0 [φ∗ (X)T (X)] = αEθ0 [T (X)] bestimmt. Beispiel 2.24. 1. Zweiseitiger Binomial-Test H0 : π = π0 vs. H1 : π 6= π0 ist UMPU-Test. i.i.d. ∼ N (µ, σ 2 ), σ 2 bekannt, ist für 2. Zweiseitiger Gauß-Test mit X1 , . . . , Xn H0 : µ = µ0 UMPU-Test. 51 vs. H1 : µ 6= µ0 i.i.d. 3. Zweiseitiger Poisson-Test: Bei X1 , . . . , Xn ∼ Po(λ) H0 : λ = λ0 vs. H1 : λ 6= λ0 liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ = log λ vor. Äquivalente Hypothesen in θ sind H0 : θ = θ0 vs. H1 : θ 6= θ0 . Bestimmung der Prüfgröße: f (xi |θ) = h(xi )c(θ) exp (θxi ) n X f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) ∝ exp θ xi |i=1 {z } T (x) und somit 1 γ1 ∗ φ (x) = 0 γ2 1 , , , , , Pn xi < c1 Pi=1 n i=1 xi = c1 P c1 < ni=1 xi < c2 Pn xi = c2 Pi=1 n i=1 xi > c2 . i.i.d. 4. Zweiseitiger χ2 -Test auf die Varianz: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ), µ bekannt. Getestet wird H0 : σ 2 = σ02 vs. H1 : σ 2 6= σ02 . Mehrparametrische Verteilungsannahme • Bislang: θ skalar. ⇒ θ = (µ, σ 2 ) ist bei N (µ, σ 2 ) Verteilung nicht in der Theorie optimaler Tests enthalten. ⇒ t-Test auf µ (bei unbekanntem σ 2 ) und andere sind nicht erfasst. • Idee: Optimale” Tests lassen sich (noch) für eine skalare Komponente η von ” θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisanceparameter zu betrachten. • Voraussetzung an Verteilungsfamilie: {f (x|θ), θ ∈ Θ ⊆ Rk } ist eine (strikt) k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) und T = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests. • Passend zum Beispiel für – t-Test: Vergleich von µ1 , µ2 bei unabhängigen Stichproben nur, falls σ12 = σ22 = σ 2 ist. 52 – Test auf Signifikanz von β1 in linearer Einfachregression. • Bereits nicht mehr anwendbar für – Vergleich von µ1 , µ2 bei σ12 6= σ22 (Behrens-Fisher-Problem). – Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell. ⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz. 2.3 2.3.1 Bereichsschätzungen und Konfidenzintervalle Definition und Beurteilung der Güte Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) C für τ (θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1 − α ist eine Abbildung des Stichprobenraums X in die σ-Algebra Lm des Rm , also x → C(x)(⊆ Rm ) ∈ Lm , mit Pθ (τ (θ) ∈ C(X)) ≥ 1 − α für alle θ. Dabei sei τ (θ) m-dimensionaler Parameter. C(X) ist ein zufälliger Bereich im Rm . Nach Beobachtung der Stichprobe X = x ist C(x) gegeben. Der Aussage ! τ (θ) ∈ C(x) (richtig oder falsch) wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretation. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Intervallschätzung. Eine Wahrscheinlichkeitsaussage zu τ (θ) ∈ C(x) bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich. Die Präzision” von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch ” die Länge des Konfidenzintervalls. i.i.d. Beispiel 2.25. Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) und α S α S √ , X̄ + tn−1 √ C(X) = X̄ − tn−1 2 2 n n ein Konfidenzintervall für µ. Die Länge L = 2 tn−1 α S √ 2 n von C(X) ist zufällig mit Erwartungswert α σ r 2 α 1 Γ(n/2) √ E(S) = 2 tn−1 √ E(L) = 2 tn−1 . 2 2 n n n − 1 Γ((n − 1)/2) 53 Es gilt: 1 − α größer → E(L) größer, n größer → E(L) kleiner. Bei der Beurteilung der Präzision eines Konfidenzintervalls durch die Länge ist ein Konfidenzintervall umso besser, je kürzer seine erwartete Länge ist. Allgemein wird ein Konfidenzbereich C durch die mittlere Größe” beurteilt. Dazu sei π eine Verteilung (oder ein ” Maß) auf Θ. Dann ist π(C(x)) die Größe von C(x). Bei Konfidenzintervallen ergibt sich die Länge, wenn π das Lebesgue-Maß ist. Dann ist Eθ (π(C(X))) die zu erwartende Größe. Zur Beurteilung der Güte reicht die erwartete Länge bzw. Größe allein nicht aus. Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiert als eine Funktion 0 0 kC (θ, θ ) := Pθ (C(x) 3 τ (θ )). Dabei ist θ der wahre” Wert und θ0 irgendein Wert in Θ. ” 0 0 Für θ = θ ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit möglichst groß sein 0” 0 0 soll. Für θ 6= θ mit τ (θ ) 6= τ (θ) ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit ” möglichst klein gehalten werden soll. Im Weiteren betrachten wir den Spezialfall τ (θ) = θ mit skalarem θ. Dann ist 0 0 kC (θ, θ ) = Pθ (C(x) 3 θ ). Definition 2.41. def 1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1 − α : ⇔ 0 kC (θ, θ0 ) ≥ 1 − α für alle θ = θ. def 2. Ein Konfidenzintervall zum Vertrauensgrad 1 − α heißt unverfälscht : ⇔ 0 kC (θ, θ0 ) ≤ 1 − α für θ 6= θ. 3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmäßig bester (trenndef 0 scharfer) [bzw. gleichmäßig bester unverfälschter] Konfidenzbereich : ⇔ für alle θ 6= θ und alle [unverfälschten] Konfidenzbereiche C zum Vertrauensgrad 1 − α gilt 0 0 kC0 (θ, θ ) ≤ kC (θ, θ ). Lemma 2.42. Jeder gleichmäßig beste Konfidenzbereich besitzt auch die kleinste zu erwartende Größe (aber nicht umgekehrt). 54 Beweis. Z Z Z π(C(x))dPθ (x) = X 0 0 IC(x) (θ )dπ(θ )dPθ (x) X Θ Z Z = 0 0 IC(x) (θ )dPθ (x)dπ(θ ) (Fubini) X Θ Z = Θ 0 kC (θ,θ0 ) Für jedes wahre” θ gilt also ” Z π(C(x))dPθ (x) = Z 2.3.2 0 0 kC (θ, θ )dπ(θ ) X | 0 Pθ ({x : C(x) 3 θ }) dπ(θ ). | {z } . Θ {z erwartete Größe } | {z } erwarteter Wert der Kennfunktion des Konfidenzbereichs Dualität zwischen Konfidenzbereichen und Tests Wir legen den oben beschriebenen Spezialfall τ (θ) = θ mit skalarem θ zugrunde. Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ (x) für die Nullhypothese H0 = {θ} gegen die Alternative H1 = Θ\H0 . Die Tests sollen nicht randomisiert sein, so dass sie durch die Festlegung einer Prüfgröße Tθ = Tθ (x) und eines kritischen Bereichs (Ablehnbereichs) Kθ bestimmt werden: ( 1 für Tθ (x) ∈ Kθ , φθ (x) = 0 sonst. Die Nullhypothese Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung ” von X = x genau dann nicht abgelehnt — durch die Beobachtung bestätigt” — wenn ” Tθ (x) ∈ K̄θ = Annahmebereich des Tests φθ gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x den Bereich C(x) := {θ ∈ Θ : Tθ (x) ∈ K̄θ } zu definieren; dem entspricht vor der Beobachtung der zufällige Bereich C(X) = {θ ∈ Θ : Tθ (X) ∈ K̄θ } bzw. C(X) = {θ ∈ Θ : φθ (X) = 0} Eine Bestätigung dieser Vorgangsweise ist der folgende Satz. 55 Satz 2.43 (Korrespondenzsatz). 1. Ist {φθ } eine Menge von Tests φθ für H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, so ist C(X) := {θ ∈ Θ : φθ (X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1 − α. 2. Ist {φθ } eine Menge gleichmäßig bester [unverfälschter] Tests, so ist auch C(X) ein gleichmäßig bester [unverfälschter] Konfidenzbereich. Beweis. Der Beweis zu 1. ergibt sich aus Pθ (C(X) 3 θ) = Pθ (φθ (X) = 0) = 1 − α für alle θ ∈ Θ, derjenige für 2. aus der Beziehung 0 0 kC (θ, θ ) = Pθ (C(X) 3 θ ) = Pθ (φθ0 (X) = 0) = 1 − Pθ (φθ0 (X) = 1) = 1 − gφ 0 (θ) θ 0 für alle θ, θ ∈ Θ. Dabei bezeichnet gφ θ 0 die Gütefunktion des Tests φθ0 . Der Korrespondenzsatz lässt sich verallgemeinern auf die Situation, in der man gegenüber bestimmten Fehlschätzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcher Tests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mit zweiseitiger Fragestellung. Darüber hinaus gilt der im Korrespondenzsatz enthaltene Zusammenhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Tests zugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereich kommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nach Randomisierung) nicht abgelehnt werden. Auf diese Weise lässt sich die Theorie der Bereichsschätzungen auf die Testtheorie zurückführen bis auf das folgende Problem: Damit ein vernünftiger” Konfidenzbereich (vernünftig ” im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie konstruierbar ist, muss die Testfunktion φθ (x), besser noch die Prüfgröße Tθ (x) als Funktion in θ (für jedes feste θ) gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei” lung von Tθ (X) nicht von θ abhängen, zusammen bedeutet dies: Tθ (X) muss eine Pivotgröße sein, die auf einfache” (zum Beispiel monotone) Weise von θ abhängt: Gesucht sind einfach ” strukturierte Pivotgrößen. 2.4 Multiples Testen Literatur: • Lehmann & Romano, Kapitel 9 • Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, Statistical Science (18), Seiten 71-103 Problem: Eine endliche Menge von (Null-) Hypothesen H1 , ..., Hm soll mit Hilfe eines Datensatzes simultan getestet werden. 56 Beispiele: • Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum Beispiel Placebo oder übliche” Therapie). Ein simultaner Test der Form ” H0 : θ1 = . . . = θm = 0 vs. Halter : wenigstens ein θj 6= 0 ist oft nicht ausreichend: Wenn H0 abgelehnt wird, möchte man wissen, welche θj ’s signifikant von 0 verschieden sind. Hierzu können (simultan) die einzelnen Hypothesen Hj := H0j : θj = 0 für j = 1, . . . , m getestet werden. In der Regel ist m vergleichsweise klein; es können klassische” multiple Testverfahren verwendet werden. ” • Microarray-Experimente: Seien X1 , . . . , Xm (normalisierte log-) Expressionen von a Genen 1, . . . , m auf Microarrays, Xj ∼ N (µj , σj ) für j = 1, . . . , m und m von der Größenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene signifikanten Einfluss auf einen Phänotyp, zum Beispiel eine bestimmte Krankheit, haben. In einem naiven Ansatz könnte dies wie oben durch simultane Tests untersucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist, werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen fälschlicherweise abgelehnt. Für unabhängige Teststatistiken T1 , . . . , Tm gilt zum Beispiel folgende Tabelle. m P(mindestens eine falsche Ablehnung) 1 0.05 2 0.10 5 0.23 10 0.40 50 0.92 Es werden neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren. ” 2.4.1 Fehlerraten Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden: Anzahl richtiger Nullhypothesen Anzahl falscher Nullhypothesen Anzahl nicht abgelehnter Nullhypothesen Anzahl abgelehnter Nullhypothesen U T m−R V S R Dabei sind • m0 die (unbekannte) Anzahl richtiger Nullhypothesen, • m1 = m − m0 die (unbekannte) Anzahl falscher Nullhypothesen, • R eine beobachtbare Zufallsvariable, • S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!). 57 m0 m1 In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j ist differentiell ” exprimiert” ist. Idealerweise: Minimiere • Anzahl V von Fehlern 1. Art (falsch positiv), • Anzahl T von Fehlern 2. Art (falsch negativ). Klassische Testtheorie (m = 1): P(Fehler 1. Art) ≤ α P(Fehler 2. Art) → min Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testen möglich. Fehlerraten 1. Art (type I error rates) • PCER (per-comparison error rate): PCER = E(V ) m Das ist die relative Anzahl erwarteter Fehler 1. Art. • PFER (per-family error rate): PFER = E(V ) Das ist die absolute Anzahl erwarteter Fehler 1. Art. • FWER (family-wise error rate): FWER = P(V ≥ 1) Das ist die Wahrscheinlichkeit für mindestens einen Fehler 1. Art. • FDR (false discovery rate; Benjamini & Hochberg, 1995): ( V für R > 0, FDR = E(Q) mit Q= R 0 für R = 0. Das ist die erwartete relative Häufigkeit von Fehlern 1. Art unter den R abgelehnten Hypothesen. Starke und schwache Kontrolle Typischerweise gilt: Für eine unbekannte Teilmenge Λ0 ⊆ {1, . . . , m} 58 sind die Hypothesen Hj , j ∈ Λ0 , richtig, für den Rest falsch. Starke Kontrolle liegt vor, wenn eine Fehlerrate für jede Teilmenge Λ0 nach oben durch α beschränkt wird, zum Beispiel FWER ≤ α gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind. Klassische Ansätze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt) kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDR schwach und ist (deshalb) weniger konservativ. 2.4.2 Multiple Testprozeduren Bonferroni-Prozedur Lehne für j = 1, . . . , m die Hypothesen Hj ab, falls für den p-Wert gilt: pj ≤ FWER ≤ α d.h. α m. Es gilt: stark, \ P V ≥ 1 Hj ≤ α. j∈Λ0 Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und üblichem α extrem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeit unentdeckt. Holm-Prozedur Ordne die p-Werte pj , j = 1, . . . , m, der individuellen Tests H1 , . . . , Hm der Größe nach an. Dann ist p(1) ≤ . . . ≤ p(m) mit den entsprechend sortierten Hypothesen H(1) , . . . , H(m) . Als nächstes erfolgt schrittweise folgende Prozedur: Schritt 1. Falls p(1) ≥ α m, α m, Falls p(1) < α Niveau m−1 . akzeptiere H1 , . . . , Hm . lehne H(1) ab und teste die verbleibenden m − 1 Hypothesen zum α α m , aber p(2) ≥ m−1 , akzeptiere H(2) , . . . , H(m) α α Falls p(1) < m und p(2) < m−1 , lehne nach H(1) auch α verbleibenden m − 2 Hypothesen zum Niveau m−2 . Schritt 2. Falls p(1) < Schritt 3. usw. 59 und stoppe. H(2) ab und teste die Es gilt: FWER ≤ α stark. Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren: Step-Down-Prozeduren Allgemeine Struktur: Sei α1 ≤ α2 ≤ . . . ≤ αm . Falls p(1) ≥ α1 , akzeptiere alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen H(1) , . . . , H(r) ab, falls p1 < α1 , . . . , pr < αr . Eine Alternative sind: Step-Up-Prozeduren Falls p(m) < αm , verwerfe alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen H(1) , . . . , H(r) ab, falls p(s) ≥ αs , . . . , p(r+1) ≥ αr+1 , aber p(r) < αr . Bemerkung. • Aussagen über starke Kontrolle finden sich zum Beispiel in Lehmann & Romano. • Für m ∼ 100, 1000 und größer: Immer noch Ablehnung fast aller Hypothesen. Benjamini & Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchung der Eigenschaften ist Gegensatz aktueller Forschung. • Die diversen Prozeduren lassen sich teils günstig mit Hilfe von adjustierten p-Werten pej formulieren, siehe Dudoit, Shaffer & Boldrick (2003). • Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte) p-Werte zu berechnen. • Software: R-Package multtest, www.bioconductor.org. 60 Kapitel 3 Likelihood-Inferenz 3.1 Parametrische Likelihood-Inferenz Situation: Pθ = {f (x|θ) : θ ∈ Θ}, Θ ⊆ Rp , p n, p konstant für n → ∞. f (x|θ) ist eine diskrete oder stetige oder allgemeiner eine Radon-Nikodym-Dichte. Definition 3.1 (Likelihoodfunktion). Die Likelihoodfunktion von θ ∈ Θ, L(θ) = f (x|θ), ist definiert als die Dichte der beobachteten Daten X = (X1 , . . . , Xn ) = x = (x1 , . . . , xn ), e betrachtet als Funktion von θ. Mit L(θ) ist auch L(θ) = const × L(θ) eine Likelihoodfunktion. Zu unterscheiden sind folgende Situationen: 1. X1 , . . . , Xn sind i.i.d. wie Xi ∼ f1 (x|θ) (Statistik IV). Es gilt die Faktorisierung L(θ) = n Y f1 (xi |θ). i=1 2. X1 , . . . , Xn — bzw. Y1 |z1 , . . . , Yn |zn im Regressionsfall bei einer Zielvariable Y und Kovariablenvektor z — sind unabhängig, aber nicht mehr identisch verteilt. Es gilt die Faktorisierung n Y L(θ) = fi (xi |θ). i=1 3. Die Paare (X1d , X1s ), . . . , (Xid , Xis ), . . . , (Xnd , Xns ) sind unabhängig, die einzelnen Komponenten innerhalb eines Paares unter Umständen abhängig. Die Indizes s, d beziehen sich auf stetige bzw. diskrete Variablen. Eine derartige Datenlage ergibt sich beispielsweise bei Survivaldaten mit stetigen Überlebenszeiten und einem diskreten Zensierungsindikator Xid = I(Ci ≤ Ti ), wobei Ci bzw. Ti den Zensierungs- bzw. Verweildauerprozess bezeichnen. Unter obige Situation fallen auch Mischverteilungsmodelle. Xid enspricht dann einer Klassenzugehörigkeit und Xis einem stetigen Merkmal(svektor). 61 4. Zeitlich korrelierte Daten / Stichprobenvariablen X1 , . . . , Xt , . . . , Xn mit Dichtefunktion f (x1 , . . . , xt , . . . , xn |θ) = f (xn |xn−1 , . . . , xt , . . . , x1 ; θ) · . . . · f (xn−1 |xn−2 , . . . , x1 ; θ) · . . . · f (x2 |x1 ; θ)f (x1 |θ). Bei Markov-Ketten erster Ordnung mit der Eigenschaft f (xn |xn−1 , . . . , x1 ; θ) = f (xn |xn−1 ; θ) vereinfacht sich die Likelihood zu n Y L(θ) = ! f (xi |xi−1 ; θ) f (x1 |θ). i=2 Beispiel 3.1 (zu diesen vier Situationen). 1. Siehe Statistik IV bzw. Grundstudium. 2. Regressionssituationen (Querschnittsdaten) mit unabhängigen Zielvariablen Y1 |z1 , . . . , Yn |zn und festen Kovariablen zi : • klassisches lineares Modell: Yi |zi ∼ N (zi> β, σ 2 ), • Logit- oder Probitmodell: Yi |zi ∼ Bin(1, πi = h(zi> β)), • Poisson-Regression: Yi |zi ∼ Po(λi = h(zi> β)). 3. Markov-Ketten, autoregressive Modelle für Zeitreihen/Longitudinaldaten. 4. Autoregressiver Prozess 1. Ordnung: Sei Xt = α + γXt−1 + εt i.i.d. mit εt ∼ N (0, σ 2 ) oder — mit zusätzlichem (zeitabhängigen) Kovariablenvektor zt — Xt = α + γXt−1 + zt> β + εt . In letzterem Fall hat die Likelihood die Form L(θ) = n Y ! fi (xi |xi−1 ; θ) f1 (x1 ) i=2 mit fi (xi |xi−1 ; θ) = φ(xi |α + γxi−1 + zi> β, σ 2 ), wobei φ(x|µ, τ 2 ) den Wert der Normalverteilungsdichte mit Erwartungswert µ und Varianz τ 2 an der Stelle y bezeichnet. Beispiel 3.2. Wir betrachten unabhängige, aber (teils) unvollständige Ziehungen aus N (θ, 1). 1. Ziehung: Es sei x1 = 2.45. Dann ist 1 1 2 L1 (θ) = φ(x1 − θ) = √ exp − (2.45 − θ) . 2 2π 62 2. Ziehung: Es sei nur 0.9 < x2 < 4 bekannt (unvollständige oder intervallzensierte Boebachtung). Die Likelihood lautet dann: L2 (θ) = Pθ (0.9 < X2 < 4) = Φ(4 − θ) − Φ(0.9 − θ). Formal könnte man auch eine binäre Variable ( 1, 0.9 < X2 < 4, X2d = 0, sonst mit Dichtefunktion f2d (1) = P(X2d = 1) = Φ(4 − θ) − Φ(0.9 − θ) definieren. 3. Ziehung: z1 , . . . , zn seien i.i.d. Realisierungen aus N (θ, 1). Bekannt sei aber nur x3 = max zi = z(n) . 1≤i≤n Der Rest sind fehlende Werte ( missing values”). Die Verteilungsfunktion von ” X3 = Z(n) ist Fθ (z(n) ) = Pθ (Z(n) ≤ z(n) ) = Pθ (Zi ≤ z(n) ∀ i) = [Φ(z(n) − θ)]n . Die Dichte ergibt sich über Differentiation bezüglich θ: fθ (z(n) ) = n[Φ(z(n) − θ)]n−1 φ(z(n) − θ), d.h. für zum Beispiel n = 5 und z(n) = x3 = 3.5 gilt L3 (θ) = 5[Φ(3.5 − θ)]4 Φ(3.5 − θ). Die gesamte Likelihood der drei Beobachtungen ist L(θ) = L1 (θ) · L2 (θ) · L3 (θ), also die Verknüpfung der Likelihoodfunktionen L1 , L2 und L3 . Fazit: Zumindest bei unabhängigen X1 , . . . , Xn ist die Likelihood sehr allgemein definiert. Beziehung zur Bayes-Inferenz • p(θ) sei die Prioriverteilung, • f (x|θ) = L(θ) die Likelihood. • Dann ist p(θ|x) ∝ p(θ) · L(θ) Posteriori-Likelihood” ∝ Priori-Likelihood” × Likelihood. ” ” 63 Likelihood-Quotient Frage: Wie vergleicht man die Likelihoods L(θ1 ) und L(θ2 ) für θ1 6= θ2 ? Antwort: Man betrachtet den Quotienten (nicht die Differenz), da dieser invariant gegenüber eineindeutigen Transformationen x 7→ y = y(x) ⇔ y 7→ x(y) ist. Für stetige x, y gilt mit dem Transformationssatz für Dichten: ∂x fY (y|θ) = fX (x(y)|θ) det ∂y und somit ∂x L(θ2 ; x) L(θ2 ; y) L(θ; y) = L(θ; x) det = . ⇒ ∂y L(θ1 ; y) L(θ1 ; x) Satz 3.2. 1. Sei T = T (X) suffizient für θ. Dann gilt L(θ; x) = const × L(θ; t) mit t = T (x), d.h. L(θ; x) und L(θ; t) sind äquivalent. 2. L(θ; x) ist minimalsuffzient. Beweis. Folgt unmittelbar aus den Resultaten aus Abschnitt 2. 3.2 Maximum-Likelihood-Schätzung Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 3.2.1 Schätzkonzept b so dass Maximum-Likelihood-Prinzip: Finde Maximum-Likelihood-Schätzwert θ, b x) ≥ L(θ; x) für alle θ ∈ Θ. L(θ; Dazu äquivalent ist b x) ≥ `(θ; x), `(θ) = log L(θ) `(θ; mit der Log-Likelihood `. Meist sucht man nach (lokalen) Maxima von `(θ) durch Nullsetzen der Score-Funktion ∂`(θ) ∂`(θ) > ∂`(θ) s(θ) = = ,..., ∂θ ∂θ1 ∂θp (soweit die 1. Ableitung der Log-Likelihood existiert!) als Lösung der sogenannten MLGleichung b = 0. s(θ) 64 Dies funktioniert (meist) unter Annahme von Fisher-Regularität. Nur in einfachen Fällen ist die Lösung analytisch zugänglich. Die numerische Lösung geschieht über Verfahren wie Newton-Raphson, Fisher-Scoring, Quasi-Newton oder über den EM-Algorithmus. Erstere drei Verfahren arbeiten mit der Hesse-Matrix der Log-Likelihood bzw. Approximationen an diese: ∂ 2 `(θ) J(θ; x) = − = ∂θ∂θ> ∂ 2 `(θ) − ∂θi ∂θj > heißt beobachtete Informationsmatrix. Bildet man den Erwartungswert bezüglich allen möglichen Stichproben X aus X , so erhält man die erwartete Informationsmatrix I(θ) = Eθ [J(θ; X)]. Unter Fisher-Regularität gilt (vgl. Abschnitt 2): Eθ [s(θ)] = 0 und Covθ (s(θ)) = Eθ [s(θ)s(θ)> ] = I(θ). Beispiel 3.3 (Lineares Modell). Betrachte y = Zβ + ε mit 2 2 −n/2 • Likelihood: L(β, σ ) ∝ (σ ) ε ∼ N (0, σ 2 I). 1 exp − 2 ky − Zβk2 2σ • Log-Likelihood: n 1 `(β, σ 2 ) = − log(σ 2 ) − 2 ky − Zβk2 {z } 2 2σ | KQ-Kriterium • Score-Funktion: 1 ∂`(β, σ 2 ) = 2 Z > (y − Zβ) ∂β σ n 1 sσ2 (β, σ 2 ) = − 2 + ky − Zβk2 2σ 2(σ 2 )2 sβ (β, σ 2 ) = Man verifiziert leicht, dass E[sβ ] = E[sσ2 ] = 0 ist. Aus den ML-Gleichungen, die sich durch Nullsetzen der Score-Funktionen ergeben, folgt: βbML = (Z > Z)−1 Z > y, 1 2 σML = ky − Zβk2 . n Der ML-Schätzer für β entspricht also dem KQ-Schätzer. Der ML-Schätzer für σ 2 ist verzerrt, aber asymptotisch erwartungstreu. Der Restricted Maximum Likelihood (REML) Schätzer 1 2 σREML = ky − Zβk2 n−p ist erwartungstreu für σ 2 . Dabei ist p die Dimension von β. 65 • Informationsmatrizen: −1 ∂sβ 1 > ∂2` b (von y unabhängig) = − = Z Z = Cov( β) σ2 ∂β∂β > ∂β > ∂2` 1 > ∂2` − = Z (y − Zβ) ⇒ E − =0 ∂β∂σ 2 σ4 ∂β∂σ 2 ∂2` n ky − Zβk2 ∂2` n − 2 2 =− + ⇒E − 2 2 = 4 2 2 2 3 ∂σ ∂σ 2(σ ) (σ ) ∂σ ∂σ 2σ P Der letzte Erwartungswert folgt aus ky − Zβk2 = ni=1 ε2i ∼ σ 2 χ2 (n). − unabh. Beispiel 3.4 (GLM). Seien yi ∼ f (yi |µi ) für i = 1, . . . , n mit µi = h(x> i β), etwa > yi ∼ Po(λi ) und λi = exp(xi β) (loglineares Poisson-Modell, vgl. Übung/generalisierte Regression). Beispiel 3.5 (GLMM für Longitudinaldaten). Sei yi = (yi1 , . . . , yit , . . . , yiT ) mit bedingt unabhängigen Komponenten yit ∼ f (yit |µit ) und µit = h(zi> β + wi> γi ). Die γi sind indivii.i.d. duenspezifische Intercepts (wi ≡ 1) mit Prioriverteilung γit ∼ N (0, τ 2 ). Die Likelihood des Parameters θ = (β, τ 2 ) lautet 2 L(β, τ ) = Z Y n f (yit |β, τ 2 , γi )p(γi ) dγi . i=1 Lösungsansätze für die Maximierung der Likelihood: EM-Algorithmus mit REML bzw. BayesInferenz. 3.2.2 Iterative numerische Verfahren zur Berechnung des ML-Schätzers EM (Expectation-Maximization)-Algorithmus Der EM-Algorithmus ist eine Alternative zu Newton-Raphson, Fisher-Scoring usw., vor allem in Modellen mit unvollständigen Daten oder latenten (nicht direkt beobachtbaren) Variablen oder Faktoren (vgl. Computerintensive Methoden). Notation: • x beobachtbare ( unvollständige”) Daten ” • z unbeobachtbare Daten/latente Variablen • (x, z) vollständige Daten • L(θ; x) = f (x|θ) Likelihood der beobachtbaren Daten • L(θ; x, z) = f (x, z|θ) Likelihood der vollständigen Daten Der EM-Algorithmus ist insbesondere nützlich, wenn L(θ; x) schwierig zu berechnen und L(θ; x, z) leichter zu handhaben ist. 66 Algorithmus 1 : EM-Algorithmus Startwert: θ(0) • E-Schritt: Berechne Q(θ) = Q(θ; θ(0) ) = Ez|x [`(θ; x, z|x, θ(0) )]. • M-Schritt: Berechne θ(1) , so dass Q(θ) maximiert wird: θ(1) = argmax Q(θ). θ Iteriere E/M-Schritte: θ(0) , θ(1) , . . . , θ(k) bis zur Konvergenz. Satz 3.3. Unter relativ allgemeinen Annahmen gilt θ(k) → θbML für k → ∞. Eigenschaften des EM-Algorithmus: • Monotonie: `(θ(k+1) ; x) ≥ `(θ(k) ; x). • Langsame Konvergenz. • Der Standardfehler des resultierenden Schätzers ist schwierig zu bestimmen, die Informationsmatrix ist nicht direkt zugänglich wie beim Fisher-Scoring. Eine Alternative bietet die Bayes-Inferenz. Beispiel 3.6 (Mischverteilungen). Seien X1 , . . . , Xn i.i.d. wie X ∼ f (x|θ). Betrachte die Mischverteilung f (x|θ) = J X πj fj (x|θj ) mit θ = ({θ}Jj=1 , {πj }Jj=1 ). j=1 Dabei sind • πj unbekannte Mischungsanteile, PJ j=1 πj = 1, • fj (x|θj ) die j-te Mischungskomponente, • θj der unbekannte Parameter(-vektor) . Speziell: Bei einer Mischung von Normalverteilungen erhalten wir 1 fj (x|θj ) ∝ exp − (x − µj )> Σ−1 (x − µ ) j j 2 ∼ π1 N (µ1 , Σ1 ) + π2 N (µ2 , Σ2 ) + . . . + πJ N (µJ , ΣJ ). Im univariaten Fall mit zwei Mischungskomponenten also: X ∼ π1 N (µ1 , σ12 ) + π2 N (µ2 , σ22 ). 67 (3.1) Interpretation des Mischungsmodells (3.1): xi entstammt einer von J Subpopulationen, wobei in Subpopulation j gilt: xi |j ∼ fj (xi |θj ). Definiere die unbeobachtete (latente) Indikatorvariable Zi für j = 1, . . . , J durch Zi = j ⇔ xi ist aus Population j. Die Randverteilung sei P(Zi = j) = πj , j = 1, . . . , J. Dann lautet die bedingte Verteilung von xi |Zi : xi |Zi = j ∼ fj (xi |θj ). Die Log-Likelihood der beobachteten Daten x ist n J X X `(θ; x) = log πj fj (xi |θj ) , i=1 j=1 die der vollständigen Daten (x, z) `(θ; x, z) = n X log f (xi , zi |θ) = i=1 n X log (f (xi |zi ; θ) · f (zi )) = i=1 n X (log fzi (xi |θzi ) + log πzi ). i=1 E-Schritt: Berechne für i = 1, . . . , n π bj fj (xi |θbj ) =: p̂ij E[Zi |xi , {θj }Jj=1 ] = P(Zi = j|xi , {θj }Jj=1 ) = PJ bs fj (θbs ) s=1 π für j = 1, . . . , J bei geeigneten Startwerten {θbj , πj }Jj=1 . M-Schritt: Berechne n θbj |z mit π bj = 1X p̂ij n i=1 für j = 1, . . . , J. Beispiel 3.7 (Lineares gemischtes Modell mit zufälligen Effekten). Sei yij = β0 + β1 xi + γi + εij bei i = 1, . . . , n Individuen und j = 1, . . . , ni Messwiederholungen und • εij ∼ N (0, σ 2 ), i.i.d. • γi zufälliger Intercept, γi ∼ N (0, τ 2 ), • yij , xi beobachtete Daten (Response und Kovariablen), • γi latente Variablen”, ” • (yi1 , . . . , yini , γi ), i = 1, . . . , n, vollständige Daten. |{z} zi 68 Gegeben die latenten Variablen {γi }ni=1 liegt ein gewöhnliches lineares Modell für Paare (xij , yij − γi ) vor. Ferner lässt sich zeigen, dass E[γi |yij , xi , βb0 , βb1 , τb2 , σ b2 ] = ni τb2 X (yij − βb0 − βb1 xij ) σ b2 + τb2 j=1 mit n τb2 = 1X 2 γi n σ b2 = ni n 1X 1 X (yij − βb0 − βb1 xij − γi )2 . n ni i=1 i=1 3.2.3 j=1 Asymptotische Eigenschaften Satz 3.4. Seien X1 , . . . , Xn i.i.d. aus einer Dichte f (x|θ), die folgenden Annahmen genügt: • f (x|θ) ist Fisher-regulär. • Die Informationsmatrix I(θ) ist positiv definit im Inneren von Θ. • Es existieren Funktionen Mjkl derart, dass 3 ∂ ∂θj ∂θk ∂θl log f (x|θ) ≤ Mjkl (x) und Eθ0 [Mjkl (X)] < ∞ für alle j, k und l, wobei θ0 den wahren Wert des Parameters bezeichnet. Dann gilt unter weiteren, relativ schwachen Regularitätsannahmen für den ML-Schätzer θbn : • P(θbn existiert) → 1 für n → ∞, d.h. die Likelihood-Gleichungen haben für n → ∞ mit Wahrscheinlichkeit 1 eine Lösung, P • θbn → θ0 , a d 1/2 b • θbn ∼ N (θ0 , I−1 n (θ0 )) bzw. In (θ0 )(θn − θ0 ) → N (0, I), a d 1/2 b • θbn ∼ N (θ0 , J−1 n (θ0 )) bzw. Jn (θ0 )(θn − θ0 ) → N (0, I), d.h. ML-Schätzer sind BAN-Schätzer. Bemerkung. 1. Es sind auch andere Varianten von Regularitätsannahmen möglich. 2. Der Satz gilt unter stärkeren Regularitätsannahmen auch für i.n.i.d. und abhängige X1 , . . . , Xn 69 3. I(θ0 ) und J(θ0 ) können auch durch I(θbn ) bzw. J(θbn ) ersetzt werden. Beweis. Erfolgt lediglich skizzenhaft. • Konsistenz: Aus der i.i.d. Annahme und Fisher-Regularität folgt: E[s(θ)] = n X E[si (θ)] = 0. i=1 Aus einem geeigneten Gesetz der großen Zahlen für i.i.d bzw. i.n.i.d. Variablen si (θ) folgt dann, dass P s(θ)/n → 0. Für den Maximum-Likelihood-Schätzer gilt: s(θbn ) = 0 ⇔ s(θbn )/n = 0 s(θbn ) − s(θ) P → 0. n Da die Scorefunktion stetig in θ ist, folgt, dass auch ⇒ P b θbn → θ. • Asymptotische Normalität der Score-Funktion: Aus der Fisher-Regularität folgt, dass der Erwartungswert und die Kovarianzmatrix existieren und durch E[s(θ)] = 0 und a Cov(s(θ)) = I(θ) gegeben sind. Der zentrale Grenzwertsatz liefert s(θ) ∼ N (0, I(θ)) bzw. d I(θ)−1/2 s(θ) → N (0, I). • Asymptotische Normalität von θbn : Eine Taylorentwicklung von s(θbn ) = 0 um θ führt zu a 0 = s(θbn ) ∼ s(θ) − J(θ)(θbn − θ) + o(θbn − θ). Ersetzen von J(θ) durch I(θ) = E[J(θ)] liefert a s(θ) ∼ I(θ)(θbn − θ) und somit bzw. a θbn − θ ∼ I−1 (θ)s(θ) a θbn − θ ∼ N (0, I−1 (θ)I(θ)I−1 (θ)) = N (0, I−1 (θ)). 70 3.3 3.3.1 Testen linearer Hypothesen und Konfidenzintervalle Testen von Hypothesen Betrachte lineare Hypothesen H0 : Cθ = d vs. H1 : Cθ 6= d, wobei C vollen Zeilenrang s ≤ p = dim(θ) besitze. Wichtiger Spezialfall: H0 : θs = 0 vs. H1 : θs 6= 0, wobei θs einen beliebigen s-dimensionalen Subvektor von θ bezeichnet, zum Beispiel in einem GLM, wo βs = 0 bedeutet, dass die zugehörigen Kovariablen nicht signifikant sind. Likelihood-Quotienten-Statistik Die Likelihood-Quotienten-Statistik " # b L( θ) b − `(θ) e = 2 log λ = 2 `(θ) e L(θ) b (unter H1 ) mit dem Maxivergleicht das unrestringierte Maximum der Log-Likelihood `(θ) e mum der Log-Likelihood unter der H0 -Restriktion, d.h. θ maximiert `(θ) unter der Nebenbedingung Cθ = d. Die Struktur eines zugehörigen Tests lautet: λ zu groß ⇒ H0 ablehnen. Nachteil: Es ist eine numerische Maximierung von `(θ) unter linearer Nebenbedingung notwendig, um θe zu erhalten. Wald-Statistik Die Wald-Statistik b > )−1 (C θb − d) w = (C θb − d)> (CI−1 (θ)C misst die (gewichtete) Distanz zwischen der unrestringierten Schätzung C θb von Cθ und dem hypothetischen Wert d unter H0 . Ein Test wird so konstruiert, dass w zu groß ⇒ H0 ablehnen. Vorteil gegenüber λ: Keine Berechnung von θe nötig. 71 Score- (oder Rao-) Statistik Die Score-Statistik lautet e > I−1 (θ)s( e θ). e u = s(θ) b = 0. Falls H1 richtig ist, wird s(θ) e deutlich von 0 = s(θ) b verschieden Idee: Für θb gilt s(θ) sein, d.h. u wird groß ⇒ H0 ablehnen. e vom Ursprung, gewichtet mit I−1 (θ). e Die Statistik berechnet also den Abstand s(θ) Beispiel 3.8 (Test für einen Subvektor). Betrachte • H1 : η = x> β Prädiktor in vollem GLM, • H0 : ηs = x> s βs Prädiktor in reduziertem GLM (nach Weglassen von Kovariablen). Die Log-Likelihood `(βs ) im reduzierten Submodell werde durch βbs reduziert. Mit βbs und βb lässt sich die Likelihood-Quotienten-Statistik bestimmen. Für die Wald-Statistik ergibt sich b−1 βbs , w = βbs> A s b die den Elementen des Subvektors βs entspricht. bs die Teilmatrix von A b = I−1 (β), dabei ist A Satz 3.5. Unter H0 und den gleichen Regularitätsannahmen wie in Satz 3.4 gilt: a 1. λ, w, u ∼ χ2 (s), d.h. man lehnt H0 ab, falls λ, w, u > χ21−α (s) ist. Für finite Stichproben besitzen λ, w, u aber unterschiedliche Werte; im Zweifelsfall sollte man λ bevorzugen. 2. λ, w, u sind asymptotisch (lokal) effizient. Beweis. • Beweis für w: Es gilt und damit Unter H0 folgt a b θb ∼ N (θ, I−1 (θ)) a b > ). C θb ∼ N (Cθ, CI−1 (θ)C a b > ), C θb − |{z} Cθ ∼ N (0, CI−1 (θ)C | {z } d also und somit A a A−1/2 (C θb − d) ∼ N (0, I) a w = (C θb − d)A−1 (C θb − d) ∼ χ(s). 72 a • Beweis für λ: Durch Taylorentwicklung kann gezeigt werden, dass w ∼ λ und somit a λ ∼ χ2 (s). Die Beweisskizze wird hier lediglich für den Spezialfall vs. H1 : θ 6= θ0 H0 : θ = θ0 geführt (das entspricht C = I, d = θ0 , rang(C) = p = dim(p)). Eine Taylorentwicklung 2. Ordnung von `(θ0 ) um den unrestringierten Maximum-Likelihood-Schätzer θb liefert b + s(θ) b > (θ0 − θ) b − 1 (θ0 − θ) b > J(θ)(θ b 0 − θ), b `(θ0 ) ≈ `(θ) 2 b =0 also wegen s(θ) a b − `(θ0 ) ≈ (θb − θ0 )> J(θ)( b θb − θ0 ) ≈ (θb − θ0 )> I(θ)( b θb − θ0 ) ∼ λ = 2 `(θ) χ2 (p). • Beweis für u: Wir nehmen denselben Speziallfall wie im Beweis für λ an. Es ist a s(θ0 ) ∼ N (0, I(θ0 )) bzw. a I −1/2 (θ0 )s(θ0 ) ∼ N (0, I), also a s(θ0 )> I−>/2 (θ0 )I−1/2 (θ0 )s(θ0 ) ∼ χ2 (p). | {z } I(θ0 )−1 3.3.2 Konfidenzintervalle • Gemeinsamer Konfidenzbereich: a b θb − θ) ∼ (θb − θ)> I(θ)( χ2 (p) a b θb − θ) ≤ χ2 (p) ≈ ⇒ P (θb − θ)> I(θ)( 1 − α. 1−α Daraus lässt sich ein (1 − α)-Konfidenz-Ellipsoid konstruieren. • Komponentenweise Konfidenzintervalle für θj , j = 1, . . . , p: θbj − θj a ∼ N (0, 1), σ bj b = I−1 (θ) b ist. Das zugehörige approxid θ) wobei σ bj2 das j-te Diagonalelement von Cov( mative (1 − α)-Konfidenzintervall lautet: θbj ± z1−α/2 σ bj . 73 3.3.3 Modellwahl Zum Vergleich verschiedener Modelle existieren Modellwahlkriterien, die die Güte der Anpassung, gemessen durch `(θ̂), und die Modellwahlkomplexität p = dim(θ) bewertet, indem sie die beiden Größen durch eine Straffunktion pen(p) in einem Kompromiss zu −`(θ̂) + pen(p) zusammenführt. Dabei wird −`(θ̂) klein bei guter Anpassung, pen(p) groß bei stark bzw. überparametrisierten Modellen. Am bekanntesten ist Akaikes Informationskriterium AIC = −2`(θ̂) + 2p mit pen(p) = 2p. Eine Alternative ist zum Beispiel das Schwartz- (Bayes-) Informationskriterium BIC = −2`(θ̂) + p log n wobei n die Größe des Datensatzes ist. 3.4 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametrisches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parameter θ ∈ Θ. Bisherige Grundannahme: Es existiert ein wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung ” des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt. ' $ Pθ •Pθ0 & •P0 % Fragen: • Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der datengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)? • Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswert korrekt spezifiziert ist (Quasi-Likelihood)? • Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schätzgleichungen ! E s(θ) = 0 starten? 74 Beispiel 3.9 (Lineares Modell). Wir betrachten wieder die Standard-Annahme yi = x> i β + εi , εi i.i.d. ∼ N (0, σ 2 ) bzw. y|X ∼ N (Xβ, σ 2 I) ≡ Pθ , θ = (β, σ 2 ). Mögliche Fehlspezifikationen: (a) Die N (0, σ 2 )-Annahme für die εi ist falsch, zum Beispiel könnte die wahre Verteilung die Doppel-Exponential-Verteilung (Laplace-Verteilung) sein: f (εi ) ∝ exp − |εi /σ| . φ(0, σ 2 ) Doppel-Exponential-Verteilung 0 Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzer im Zentrum und hat breitere Enden (heavy-tails). ⇒ Sie ist ausreißerunempfindlicher. (b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ 2 I. Wahre Kovarianzstruktur: Cov(y) = σ 2 W , zum Beispiel – W = diag(W1 , . . . , Wn ) (heteroskedastische Fehler) oder – W nichtdiagonal (korrelierte Fehler). (c) Die Erwartungswertstruktur ist falsch: E y 6= Xβ, zum Beispiel wegen – Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2 β2 oder β log x, – fehlender Regressoren. 3.4.1 ML-Schätzung bei Fehlspezifikation Wir beschränken uns auf den i.i.d. Fall: Seien X1 , . . . , Xn i.i.d. wie X ∼ g(x) und g(x) die wahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten n o Pθ = f (x|θ), θ ∈ Θ . 75 Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), so ist das Modell korrekt spezifiziert. Falls kein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), ist das Modell fehlspezifiziert. ' $ f x|θ •g(x) ∼ P0 θ∈Θ & % Definition 3.6 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ ist definiert durch g(X) D(g, fθ ) = Eg log , f (X|θ) d.h. Z D(g, fθ ) = log g(x) g(x) dx f (x|θ) für X stetig. Dabei wird der Erwartungswert bzgl. der wahren” Dichte bzw. Wahrscheinlich” keitsfunktion g(x) gebildet. Es gilt: D(g, fθ ) ≥ 0 mit ⇔ D(g, fθ0 ) = 0 g ≡ fθ0 . Also: D(g, fθ0 ) = 0 ⇔ Modell korrekt spezifiziert. Der Beweis erfolgt mit Ungleichung von Jensen. Bemerkung. Der (negative) Erwartungswert Z −Eg log g(X) = − g(x) log(g(x)) dx heißt Entropie von g. Sei θ0 der” Minimierer der Kullback-Leibler-Distanz: ” h n o n oi θ0 = argmin Eg log g(X) − Eg log f (X|θ) . θ∈Θ n o Da Eg log g(X) nicht von θ abhängt, gilt auch n o θ0 = argmax Eg log f (X|θ) . θ∈Θ 76 Die Dichte f (x|θ0 ) liegt dann im Sinne der Kullback-Leibler-Distanz am nächsten” bei g. ” ' $ f (x|θ0 ) • & g• % Der ML-Schätzer ist n 1X θ̂n = argmax log f (xi |θ). n θ∈Θ i=1 Da 1 n n P P log f (xi |θ) − → Eg log f (X|θ) (Gesetz der großen Zahlen), gilt vermutlich i=1 P → θ0 , θ̂n − das heißt der (Quasi-) ML-Schätzer konvergiert gegen jenes θ0 , dessen Dichte f (x|θ0 ) am nächsten bei g (bezüglich der Kullback-Leibler-Distanz) liegt. Genauer gilt: Satz 3.7 (Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation). 1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von λ(θ) ≡ Eg log f (X|θ) (bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei FisherRegularität) existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen ” Maximierern von n 1X log f (xi |θ) n i=1 mit P θ̂n − → θ0 . 2. Asymptotische Normalität: Es gilt √ d n(θ̂n − θ0 ) − → N 0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 ) mit ∂ log f (X|θ) ∂ log f (X|θ) > I1 (θ) ≡ Eg ∂θ ∂θ | {z }| {z } s1 (θ) s1 (θ)> und der (Quasi-) Fisher-Information 2 ∂ log f (X|θ) J1 (θ) = Eg − . ∂θ ∂θ> 77 Bemerkung. • Falls g(x) ≡ f (x|θ), also das Modell korrekt spezifiziert ist, gilt I1 (θ) = J1 (θ) (vergleiche Satz 2.16), und man erhält die übliche asymptotische Normalverteilung des ML-Schätzers bei korrekter Modellspezifikation. • Informell gilt 1 −1 a −1 , θ , θ̂n ∼ N J (θ ) I (θ ) J (θ ) 0 0 1 0 0 1 1 n {z } | V (θ0 ) und V (θ0 ) wird geschätzt durch V̂ (θ̂n ) = J −1 (θ̂n ) I(θ̂n ) J −1 (θ̂n ) ( Sandwich”-Matrix) ” mit I(θ̂n ) = n X si (θ̂n ) s> i (θ̂n ) empirische Fisher-Matrix der Stichprobe, i=1 n X ∂ 2 log f (x |θ) i J (θ̂n ) = − > ∂θ ∂θ {z } θ=θ̂n i=1 | empirische beobachtete Informations-Matrix. ∂ 2 l(θ) ∂θ ∂θ > • Formal gilt: √ d n(θbn − θ0 ) → N (0, J1−1 (θ0 )I1 (θ0 )J1−1 (θ0 )). Bemerkung. 1. Im i.n.i.d. Fall gilt (informell): Sei l(θ, x) = logf (x|θ) und θ0 := argmax Eg l(θ, X) = argmax Eg θ θ ( n X ) li (θ, Xi ) , i=1 bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg (s(θ0 )) = 0. Außerdem θ̂n = argmax l(θ, x) bzw. s(θ̂n ) = 0. θ Dann gilt a θ̂n ∼ N θ0 , V̂ (θ̂n ) wie oben, nur mit fi (xi |θ) an Stelle von f (xi |θ). 78 2. Angenommen, der Modellparameter θe = (θ, α)> setze sich zusammen aus einem eigentlich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktion lautet dann ! e sθ (θ, α) sθ (θ) s(θ, α) = = . e sα (θ, α) sα (θ) Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die MLGleichung Eg (sθ (θe0 )) = 0 erfüllt, so gilt weiterhin a ⇒ Quasi-Likelihood. θ̂n ∼ N θ0 , V̂ (θ̂n ) 3.4.2 Quasi-Likelihood und Schätzgleichungen Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kovariablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schätzen, wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollständig spezifiziert ist? Beispiel 3.10. Seien Y1 , . . . , Yn i.i.d. wie Y ∼ f (Y |µ, σ 2 ), f symmetrisch um µ, aber nicht normal, etwa 1 −|y−µ0 |/σ P0 = f (y|µ0 ) = e (Laplace- oder Doppel-Exponential-Verteilung). 2σ Trotzdem wählt man die (Log-) Likelihood ql(µ) = − n 1 X (yi − µ)2 + const 2σ 2 i=1 der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man auf die Quasi-Scorefunktion n 1 X (yi − µ). qs(µ) = 2 σ i=1 Es gilt E0 qs(µ0 ) = n 1 X (E0 (Yi ) −µ0 ) = 0, | {z } σ2 i=1 =µ0 also µ̂QML = ȳ wie üblich und wegen E0 Ȳ = µ0 erwartungstreu. Allerdings ist ȳ kein (asymptotisch) effizienter Schätzer mehr (die Rao-Cramer-Schranke wird nicht erreicht). Beispiel 3.11. Seien Y1 , . . . , Yn unabhängig, Yi ∼ N (µ0 , σi2 ) und ( n !) n 2 Y X 1 1 (y − µ ) i 0 Q P0 = φ(yi |µ0 , σi2 ) = exp − . 2 σi2 (2π)n/2 · ni=1 σi i=1 i=1 79 Dann wählt man als Quasi-Log-Likelihood: n 1X ql(µ) = − 2 i=1 yi − µ σ 2 , das heißt man ignoriert die Abhängigkeit der Varianz von i und berechnet qs(µ) = n 1 X (yi − µ), σ2 i=1 n 1 X E0 qs(µ) = 2 (µ0 − µ) = 0 σ ⇔ µ0 = µ, i=1 µ̂QML = ȳ, E(µ̂QML ) = µ0 erwartungstreu, aber Var0 (µ̂QML ) = Var0 (Ȳ ) = n n 1 X 2 1 X Var(Y ) = σi , i n2 n2 i=1 i=1 das heißt µ̂QML = ȳ ist ineffizient, aber (falls zum Beispiel σi2 ≤ c) konsistent und normalverteilt. Beispiel 3.12 (Lineares Modell). Standard–Annahme: 2 yi |xi ∼ N (x> i β, εi ), εi ∼ N (0, σ ) bzw. y|X ∼ N (Xβ, σ 2 I) . Mögliche Fehlspezifikationen: (a) Normalverteilungsannahme falsch, (b) Kovarianzstruktur Cov y = σ 2 I falsch, (c) Erwartungswertstruktur E y = Xβ falsch. zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und das Erwartungswertmodell korrekt sind. Es gilt: E0 y = Xβ0 ist das wahre Modell. s(β) = 1 > X (y − Xβ) σ2 E0 s(β0 ) = 0 Dabei ist E0 s(β0 ) der Erwartungswert im wahren Modell vom wahren Parameter. Es ergibt sich β̂QML = β̂KQ = (X > X)−1 X > y 80 mit E0 (β̂QML ) = (X > X)−1 X > Ey = β0 2 > −1 Cov(β̂QML ) = σ (X X) also (erwartungstreu), , a β̂QML ∼ N (β0 , σ 2 (X > X)−1 ). Damit ist β̂QML effizient. zu (b): Die wahre Kovarianzmatrix ist σ 2 W statt σ 2 I: P0 : y ∼ N (Xβ0 , σ 2 W ) E0 s(β0 ) = 0 β̂QML = (X > X)−1 X > y E0 (β̂QML ) = (X > X)−1 X > Xβ0 = β0 Cov0 (β̂QML ) = (X > X)−1 X > Cov(Y )X(X > X)−1 = σ 2 (X > X)−1 X > W X(X > X)−1 ( 6= σ 2 (X > X)−1 ) β̂QML ist konsistent, aber nicht effizient. (Ein effizienter Schätzer wäre der β̂AITKEN = (X > W −1 X)−1 X > W −1 y.) gewichtete KQ– bzw. Aitken–Schätzer zu (c): Der wahre Erwartungswert ist ungleich Xβ: wahrer Erwartungswert: ⇒ wahres Modell: Ey = µ0 = X0 β0 y ∼ N (X0 β0 , σ 2 I) (falls N und σ 2 I = Cov(y) richtig). Dann ist β̂QM L = (X > X)−1 X > y E0 (β̂QM L ) = (X > X)−1 X > X0 β0 6= β0 . Somit ist β̂QM L verzerrter Schätzer, aber liefert das best–approximierende lineare Modell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch: Cov0 (β̂QM L ) = (X > X)−1 X > Cov0 (y) X(X > X)−1 = σ 2 (X > X)−1 . | {z } σ2 I Fazit aus den Beispielen: • Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwartungswertstruktur Eyi = µi = x> i β korrekt spezifiziert ist, erhält man konsistente Schätzer für µ bzw. β. 81 • Es genügt sogar, die Nullstelle der Quasi–Scorefunktion ! qs(µ̂) = 0 bzw. ! qs(β̂) = 0 zu bestimmen. Falls für das wahre“ µ0 bzw. β0 ” E0 qs(µ0 ) = 0 , E0 qs(β0 ) = 0 gilt, dann ist die Nullstelle µ̂ bzw. β̂ konsistent und asymptotisch normalverteilt für µ bzw. β. ⇒ Idee der Schätzgleichungen“ (estimating equations): ” Definiere eine Schätzfunktion oder Quasi–Scorefunktion qs(θ) = n X ψi (yi , θ) i=1 so, dass für den wahren“ Parameter θ0 ” E0 qs(θ0 ) = n X E0 [ψi (yi , θ0 )] = 0 i=1 erfüllt ist. Dann ist der Quasi–ML–Schätzer oder M–Schätzer“ definiert als Nullstelle ” ! qs(θ̂QM L ) = 0 (Schätzgleichung) der Schätzfunktion qs(θ). Beispiel 3.13 (Generalisierte Regression). Sei E0 yi = µi (β) korrekt spezifiziert , Var0 yi = φ vi (β) (eventuell) fehlspezifiziert . Es gilt: E0 s(β) = 0. Es wird nur eine Annahme hinsichtlich der Schätzgleichung getroffen, jedoch nicht für die Verteilung: n 1 X ∂µi (β) > s(β) = vi (β)−1 (yi − µi (β)) | {z } φ ∂β i=1 ∝ E(yi )−µi (β)=0 n X ∂µi (β) > i=1 ∂β vi (β)−1 (yi − µi (β)) hat Erwartungswert 0 und ! s(β̂) = 0 . ⇒ β̂ ist konsistent und asymptotisch normalverteilt. Speziell: generalized estimating equation“ (wie in GLM: µi (β) = x> i β). ” 82 Beispiel 3.14 ((Binäre) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Datenpaare (yij , xij ) , i = 1, . . . , n , j = 1, . . . , ni , seien je ni wiederholte Beobachtungen an Individuen oder in Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n. ” ni : Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster yij : Zielvariable xij : Kovariablenvektor yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert E(yij |xij ) = h(x> ij β) = µij . Die Schätzgleichungen bei Vernachlässigung von (zeitlichen) Korrelationen zwischen den Messwiederholungen lauten qs(β) = ni n X X ! xij wij (β)(yij − h(x> ij β)) = 0 i=1 j=1 mit Eβ0 qs(β0 ) = 0 , wobei die wij (β) geeignete Gewichte sind. Somit ist β̂QML konsistent und asymptotisch normal, jedoch unter Effizienzverlust. 83 Kapitel 4 Bayes-Inferenz 4.1 Überblick Definition” bayesianischer Inferenz: Anpassen eines Wahrscheinlichkeitsmodells an eine Men” ge von Daten. Ergebnis: Wahrscheinlichkeitsverteilung für die Parameter des Modells (und andere unbeobachtete Größen, zum Beispiel Vorhersagen für neue Beobachtungen). Idealisierter Prozess bayesianischer Datenanalyse: 1. Stelle ein volles Wahrscheinlichkeitsmodell oder eine gemeinsame Wahrscheinlichkeitsverteilung für alle beobachtbaren und unbeobachtbaren Größen auf. Dabei ist Wissen über das zugrundeliegende wissenschaftliche Problem und den datengenerierenden Prozess hilfreich. 2. Berechnung der Posterioriverteilung der unbeobachtbaren Größen (Parameter, missing data, . . .): bedingte Wahrscheinlichkeitsverteilung der unbeobachtbaren Größen gegeben die beobachteten Daten. 3. Modelldiagnose: Fit, Sensitivität (bezüglich der Annahmen in 1.). Ergebnis: kohärentes System” ” 4.2 Exchangeability Exchangeability ( Austauschbarkeit”) ist ein wichtiges Konzept für die statistische Modell” bildung. Es geht auf de Finetti zurück. Definition 4.1 (Finite Exchangeability). Die Zufallsgrößen X1 , . . . , Xn sind exchangeable bezüglich des Wahrscheinlichkeitsmaßes P, wenn P(x1 , . . . , xn ) = P(xπ(1) , . . . , xπ(n) ) 84 für alle Permutationen π : {1, . . . , n} → {1, . . . , n} gilt. Existiert eine Dichte f zu P, so gilt entsprechend: f (x1 , . . . , xn ) = f (xπ(1) , . . . , xπ(n) ). Definition 4.2 (Infinite Exchangeability). Die unendliche Folge X1 , X2 , . . . ist exchangeable, wenn jede endliche Teilfolge exchangeable ist. Bemerkung. Analog zu obigen Definitionen kann auch bedingte Exchangeability definiert werden, etwa im Regressionsfall für Y1 |x1 , . . . , Yn |xn . Satz 4.3 (Darstellungssatz für 0-1 Zufallsvariablen). Sei X1 , X2 , . . . eine unendliche Folge binärer Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P. Dann existiert eine Verteilungsfunktion Q, so dass die gemeinsame Dichte f (x1 , . . . , xn ) folgende Gestalt hat: Z f (x1 , . . . , xn ) = n 1Y θxi (1 − θ)1−xi dQ(θ) 0 i=1 mit Q(θ) = lim P(yn /n ≤ θ) n→∞ und yn = n X xi , θ = lim yn /n. n→∞ i=1 Interpretation: 1. Bedingt auf θ sind X1 , X2 , . . . unabhängige, identisch verteilte Bernoulli-Zufallsgrößen. 2. θ wird eine Verteilung zugeordnet. 3. Q ist der Glaube”( Belief”) über den Grenzwert der relativen Häufigkeit der Einsen. ” ” Konventionelle Schreibweise: f (x1 , . . . , xn |θ) = n Y θxi (1 − θ)1−xi . i=1 Satz 4.4. Wenn die benötigten Dichten existieren und X1 , X2 , . . . eine (unendliche) Folge reellwertiger Zufallsgrößen ist, dann gilt f (x1 , . . . , xn ) = Z Y n Θ i=1 85 f (xi |θ) dQ(θ). Wir betrachten nun die a posteriori prädiktive Verteilung oder bedingte prädiktive Verteilung von zukünftigen (unbeobachteten) Daten xm+1 , . . . , xn gegeben die beobachteten Daten x1 , . . . , xm : f (xm+1 , . . . , xn |x1 , . . . , xm ) = f (x1 , . . . , xn ) f (x1 , . . . , xm ) n R Q f (xi |θ) dQ(θ) (Satz von Bayes) i=1 =Θ m R Q Θ i=1 m R Q = (Darstellungssatz) f (xi |θ) dQ(θ) n Q f (xi |θ) Θ i=1 f (xi |θ) dQ(θ) i=m+1 m R Q f (xi |θ) dQ(θ) Θ i=1 Z = n Y m Q f (xi |θ) · Θ i=m+1 Dabei ist m Q f (xi |θ) dQ(θ) i=1 m R Q . f (xi |θ) dQ(θ) Θ i=1 f (xi |θ) dQ(θ) i=1 m R Q = dQ(θ|x1 , . . . , xm ) f (xi |θ) dQ(θ) Θ i=1 die Posterioriverteilung für θ gegeben Daten x1 , . . . , xm . Hier haben wir aus vergangenen”, ” beobachteten Daten für zukünftige Beobachtungen gelernt. Eine Erweiterung auf andere Zufallsgrößen ist möglich: Satz 4.5 (Allgemeiner Darstellungssatz). Sei X1 , X2 , . . . eine unendliche Folge reellwertiger Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P. Dann existiert ein Wahrscheinlichkeitsmaß Q über F, dem Raum aller Verteilungsfunktionen F auf R, so dass Z Y n P(x1 , . . . , xn ) = F (xi ) dQ(F ), F i=1 wobei Q(F ) = lim P(Fn ), n→∞ wobei Fn die zu x1 , . . . , xn gehörende empirische Verteilungsfunktion bezeichnet. Man beachte, dass obige Aussage sich (auch) auf nichtparametrische Inferenz bezieht. So steht Q(F ) für eine Prioriverteilung auf dem Raum aller Verteilungsfunktionen. 86 4.3 Bayes-Inferenz im Schnelldurchlauf Notation: • X: beobachtete Daten e unbeobachtete Daten • X: • θ: Parameter Ziel: • Wahrscheinlichkeitsaussagen bedingt auf beobachtete Daten • Vorhersage / prädiktive Inferenz Basiskomponenten in der Bayes-Inferenz: • p(θ) Prioriverteilung • f (x|θ) Datenverteilung • f (θ|x) Posterioriverteilung • f (e x|x) prädiktive Verteilung Nach dem Satz von Bayes ist die gemeinsame Verteilung von (θ, x) gleich f (θ, x) = f (x|θ) · p(θ), deshalb f (θ|x) = f (θ, x) f (x|θ)p(θ) = , f (x) f (x) wobei f (x) = X f (x|θ)p(θ), falls θ diskret, θ∈Θ Z f (x) = f (x|θ)p(θ) dθ, falls θ stetig. Θ Unnormalisierte Posteriori: f (θ|x) ∝ f (x|θ)p(θ) A priori prädiktive Verteilung (vor Beobachtung der Daten): Z Z f (x) = f (θ, x) dθ = f (x|θ) p(θ) dθ Θ Θ A posteriori prädiktive Verteilung (nach Beobachtung der Daten x): Z Z Z f (e x|x) = f (e x, θ|x) dθ = f (e x|θ, x) f (θ|x) dθ = f (e x|θ) f (θ|x) dθ, Θ Θ Θ da x e bedingt unabhängig von x gegeben θ ist. 87 Likelihood und Odds Ratios Die Likelihoodfunktion ist f (x|θ) als Funktion von θ nach Beobachtung von x. Die Daten beeinflussen die Posteriori-Inferenz also nur über die Likelihood. Die Posteriori-Odds von θ1 verglichen mit θ2 sind fθ|x (θ1 |x) = fθ|x (θ2 |x) f (x|θ1 )f (θ1 ) f (x) f (x|θ2 )f (θ2 ) f (x) = f (x|θ1 ) f (θ1 ) · , f (x|θ2 ) f (θ2 ) es gilt also Posteriori-Odds = Priori-Odds × Likelihoodquotient. 4.4 Wiederholung: Modelle mit einem Parameter • Gemeint ist: θ ist skalar. • Prioriverteilung kann mehr als einen Parameter haben. • Hier funktionieren folgende Konzepte gut: – Konjugierte Prioriverteilungen, zum Beispiel bei (einparametrischen) Exponentialfamilien. Vorteil: Analytische Berechenbarkeit, keine Simulation nötig. Nachteil: Für komplexe Modelle meist nicht verfügbar, deshalb eher als Baustein in komplizierteren Modellen verwendet. – Referenzprioris/Referenzanalyse: ∗ Idee: Priori so wählen, dass die Daten auch im Fall geringen Stichprobenumfangs die Posterioriverteilung dominieren ( let the data speak for themsel” ves”). Dies benötigt entscheidungs- und informationstheoretische Grundlagen. Suche nach nicht-informativen Prioriverteilungen: Im skalaren Fall zum Beispiel θ 0 < θ < 1 → ψ = log . 1−θ ∗ Jeffreys’ Priori p(θ) ∝ p I(θ) ist invariant gegenüber bijektiven Transformationen von θ. Beispiel 4.1 (Binomial- und Negative Binomialverteilung). 1. Binomialverteilung: Die Likelihood lautet f (x|θ) = n Y θxi (1 − θ)1−xi . i=1 Als Referenzpriori kann Jeffreys’ Priori, Beta 1 1 2, 2 , verwendet werden: p(θ) ∝ θ−1/2 (1 − θ)−1/2 . 88 Sei y = Pn i=1 xi . Dann ist die Referenzposteriori: f (θ|x) ∝ f (x|θ)p(θ) ∝ θy (1 − θ)n−y θ−1/2 (1 − θ)−1/2 = θy−1/2 (1 − θ)n−y−1/2 . Dies entspricht dem Kern der Dichte einer Beta 12 + y, 12 + n − y –Verteilung. f (θ|x) ist auch für die Extremfälle y = 0 oder y = n noch proper”. Verwendet man dagegen ” Haldane’s Priori p(θ) ∝ θ−1 (1 − θ)−1 , die eine uneigentliche Priori ’Beta(0, 0)’ darstellt, ist die Posteriori Beta(y, n − y) für die Extreme y = 0 oder y = n nicht proper. 2. Negative Binomialverteilung: Sei X die Anzahl an Versuchen bis y ≥ 1 Erfolge eintreten. Dann lautet die Likelihood x−1 y f (x|θ) ∝ θ (1 − θ)x−y für x ≥ y. y−1 Die Referenzpriori ist durch Jeffreys’ Priori für die geometrische Verteilung gegeben (das entspricht y = 1): p(θ) ∝ θ−1 (1 − θ)−1/2 , woraus die Referenzposteriori f (θ|x) ∝ θy−1 (1 − θ)x−y−1/2 , also eine Beta(y, x − y + 1/2)–Verteilung, resultiert. Da y ≥ 1 und x ≥ y, ist auch diese a posteriori stets proper. Bemerkung. Konzepte für eindimensionale Modelle sind im mehrdimensionalen Fall im Allgemeinen schwierig umzusetzen bzw. umstritten (zum Beispiel Verwendung von Referenzprioris). Man geht daher oft zu sogenannten hierarchischen Modellen über: Füge zusätzliche Stufen in das Modell ein mit dem Ziel, die Posteriori-Analyse stärker von Priori-Annahmen zu entkoppeln. 4.5 4.5.1 Mehr-Parameter-Modelle Normalverteilung Wir betrachten in diesem Abschnitt Daten x1 , . . . , xn |µ, σ 2 kannt. i.i.d. ∼ N (µ, σ 2 ) mit µ, σ 2 unbe- (i) Gemeinsame Posterioriverteilung von µ, σ 2 |x: f (µ, σ 2 |x) ∝ f (x|µ, σ 2 ) · p(µ, σ 2 ) 89 (ii) Bedingte Posterioriverteilungen von µ|σ 2 , x bzw. σ 2 |µ, x: f (µ|σ 2 , x) bzw. f (σ 2 |µ, x) (iii) Marginale Posterioriverteilung von µ|x: Z Z 2 2 f (µ|x) = f (µ, σ |x) dσ = f (µ|σ 2 , x)f (σ 2 |x) dσ 2 I. Nichtinformative Prioriverteilung Ist nur einer der beiden Parameter unbekannt, so wählt man oft folgende Prioriverteilungen (Jeffreys’ Prioris): σ 2 bekannt: p(µ) ∝ const, µ bekannt: p(σ 2 ) ∝ (σ 2 )−1 . Eine Möglichkeit, daraus eine mehrdimensionale Priori zu konstruieren, ist: p(µ, σ 2 ) = p(µ) · p(σ 2 ) ∝ (σ 2 )−1 , d.h. wir nehmen unabhängige Prioris für µ und σ 2 an. Die gemeinsame Posterioriverteilung f (µ, σ 2 |x) lautet dann: f (µ, σ 2 |x) ∝ Likelihood × Priori " n # Y 1 1 √ σ −1 exp − 2 (xi − µ)2 = · (σ 2 )−1 2σ 2π i=1 ! n 1 X −n−2 2 ∝ σ exp − 2 (xi − µ) 2σ i=1 1 2 −n−2 2 = σ exp − 2 (n − 1)s + n(x − µ) 2σ P mit s2 = ni=1 (xi − x)2 /(n−1). Die bedingte Posteriori von µ, f (µ|σ 2 , x), kann auf den Fall mit bekannter Varianz σ 2 zurückgeführt werden. Aus Statistik IV ist bekannt, dass f (µ|σ 2 , x) ∼ N (x, σ 2 /n). Für die marginale Posteriori f (σ 2 |x) hat man Z 2 f (σ |x) = f (µ, σ 2 |x) dµ Z 1 −n−2 2 2 ∝ σ exp − 2 (n − 1)s + n(x − µ) dµ 2σ Z 1 1 −n−2 2 2 ∝ σ exp − 2 (n − 1)s exp − 2 n(x − µ) dµ. 2σ 2σ Es gilt Z 1 exp − 2 n(x − µ)2 2σ 90 r dµ = 2π σ2 n und damit r 1 σ2 f (σ 2 |x) ∝ σ −n−2 exp − 2 (n − 1)s2 2π 2σ n −n−2 1 1 ∝ (σ 2 ) 2 (σ 2 ) 2 exp − 2 (n − 1)s2 2σ 1 2 − n+1 2 = (σ ) 2 exp − 2 (n − 1)s . 2σ Der Kern dieser Dichte gehört zur inversen Gamma-Verteilung mit den Parametern (n − 1)/2 und (n − 1)s2 /2. Wegen f (µ, σ 2 |x1 , . . . , xn ) = f (µ|σ 2 , x1 , . . . , xn ) · f (σ 2 |x1 , . . . , xn ) kann die gemeinsame Posterioriverteilung von µ, σ 2 |x1 , . . . , xn nun wie folgt simuliert werden: Algorithmus 2 : Direkte Simulation der gemeinsamen Posterioriverteilung bei nichtinformativer Priori Wiederhole für s = 1, . . . , S: Schritt 1: Ziehe (σ 2 )(s) aus IG n−1 n−1 2 2 , 2 s . Schritt 2: Ziehe (µ)(s) aus N (x, n1 (σ 2 )(s) ). Man erhält Paare (µ(1) , (σ 2 )(1) ), . . . , (µ(S) , (σ 2 )(S) ) . σ 2 als Nuisance-Parameter Interessiert nur µ, so gibt es (mindestens) zwei Möglichkeiten zur Simulation: 1. Simuliere die gemeinsame Posteriori f (µ, σ 2 |x) gemäß obigem Algorithmus und betrachte nur die Ziehungen µ(1) , . . . , µ(S) . 2. Berechne direkt die marginale Posteriori f (µ|x): Z ∞ f (µ|x) = f (µ, σ 2 |x) dσ 2 . 0 A/(2σ 2 ) Führt man die Substitution z = mit A = (n − 1)s2 + n(µ − x)2 durch, so erhält man wegen 1 1 σ 2 = Az −1 und dσ 2 = −2A−1 σ 4 dz = − Az −2 dz 2 2 für f (µ|x) Z ∞ Z ∞ n+2 n+2 f (µ, σ 2 |x) dσ 2 ∝ A− 2 z 2 exp(−z) A z −2 dz 0 Z0 ∞ n n−2 = A− 2 z 2 exp(−z) dz 0 Z ∞ n−2 −n 2 = A z 2 exp(−z) dz. 0 91 Allgemein gilt für a > 0 und m > −1: Z ∞ Γ(m + 1) xm exp(−ax) dx = . am+1 0 Daraus folgt, dass das Integral konstant bezüglich µ ist und somit n f (µ|x) ∝ A− 2 − n = (n − 1)s2 + n(µ − x)2 2 − n2 (µ − x)2 = 1+ (n − 1)s2 /n !2 − n2 µ−x 1 = 1 + √s n−1 n was der Kern einer skalierten nichtzentralen t-Verteilung mit Skalenparameter √ m = s/ n, Lokationsparameter l = x und ν = n − 1 Freiheitsgraden ist. Allgemein hat der Kern der Dichte einer solchen allgemeinen t-Verteilung die Gestalt " 1 kern(f (θ)) = 1 + ν θ−l m 2 #− ν+1 2 . Bemerkung. 1. Statt σ 2 lässt sich auch die sogenannte Präzision κ = (σ 2 )−1 verwenden. Bei Verwen n−1 2 dung von p(µ, κ) ∝ (κ)−1 folgt, dass κ|x ∼ Gamma n−1 , s . 2 2 2. Statt inverser Gammaverteilung wird häufig der Spezialfall einer sogenannten skalierten inversen χ2 -Verteilung inv-χ2 verwendet (siehe unten). II. Konjugierte Prioriverteilung Verwende gemäß Bemerkung 2 die skalierte inverse χ2 (ν0 , σ02 )-Verteilung als Priori. Vorteil: Bessere Interpretation (das werden wir allerdings erst dann verstehen, wenn wir informative Prioriverteilungen in Form von (inversen) Gammaverteilungen betrachten). Nachteil: Diese Vorgehensweise ist non-standard”. ” Zufallszahlen aus einer skalierten inversen χ2 -Verteilung kann man wie folgt simulieren: Algorithmus 3 : Simulation von θ ∼ inv-χ2 (ν0 , σ02 ) 1. Ziehe X ∗ ∼ χ2 (ν0 ). 2. Setze θ = ν0 σ02 X∗ . 92 Es gilt: ν ν0 2 σ . 2 2 0 Dies lässt sich mit dem Transformationssatz für Dichten verifizieren: Definiere α = ν0 /2 und β = 1/2, so dass X ∗ ∼ Gamma(α, β). Die Umkehrfunktion der Transformation in Schritt 2 lautet ν0 σ02 X ∗ = g −1 (θ) = θ und die zugehörige Ableitung nach θ inv-χ2 (ν0 , σ02 ) = IG (g −1 )0 (θ) = − 0 , ν0 σ02 . θ2 Man erhält somit: f (θ) = fX ∗ (g −1 (θ)) · |(g −1 )0 (θ)| = (βν0 σ02 )α −α−1 θ exp −βν0 σ02 /θ . Γ(α) Dies ist die Dichte einer inversen Gammaverteilung mit Parametern (α, βν0 σ02 ), welche gerade der gewünschten inversen χ2 -Verteilung entspricht. Eine mögliche Parametrisierung ist nun p(µ, σ 2 ) = p(µ|σ 2 ) · p(σ 2 ) mit σ2 und σ 2 ∼ inv-χ2 (ν0 , σ02 ) µ|σ ∼ N µ0 , κ0 σ2 Man schreibt hierfür kurz: N-inv-χ2 µ0 , κ00 ; ν0 , σ02 . Die Prioris sind nunmehr voneinander abhängig. σ2 Sei nun also a priori (µ, σ 2 ) ∼ N-inv-χ2 µ0 , κ00 ; ν0 , σ02 . Die Prioridichte lautet dann ! ( 12 ν0 σ02 )ν0 /2 2 −( ν0 +1) 1 1 1 ν0 σ02 2 2 2 p(µ, σ ) = q exp − σ2 (µ − µ0 ) × (σ ) exp − Γ(ν0 /2) 2 σ2 2 κ0 2πσ 2 κ−1 0 ν 1 2 − 12 2 −( 20 +1) 2 2 ∝ (σ ) (σ ) exp − 2 ν0 σ0 + κ0 (µ − µ0 ) . 2σ 2 Die gemeinsame Posteriori bei gegebenen Daten x = (x1 , . . . , xn ) aus N (µ, σ 2 ) ergibt sich zu: ν 1 2 2 − 21 2 −( 20 +1) 2 2 exp − 2 ν0 σ0 + κ0 (µ − µ0 ) f (µ, σ |x) ∝ (σ ) (σ ) 2σ n 1 ×(σ 2 )− 2 exp − 2 (n − 1)s2 + n(x − µ)2 . 2σ Man kann zeigen (vgl. Übung), dass die Posteriori wieder N-inv-χ2 -verteilt ist mit Parametern n κ0 µn = x, µ0 + κ0 + n κ0 + n κn = κ0 + n, νn = ν0 + n, νn σn2 = ν0 σ02 + (n − 1)s2 + Die Interpretation der Parameter ist wie folgt: 93 κ0 n (x − µ0 )2 . κ0 + n • µn ist gewichteter Mittelwert aus Stichprobenmittel und Priori-Erwartungswert. In den Grenzfällen κ0 → ∞ ist µn = µ0 bzw. für n → ∞ ist µn = x. • νn sind die Posteriori-Freiheitsgrade als Summe von Priori-Freiheitsgraden und Stichprobenumfang. • Die Posteriori-Quadratsumme νn σn2 lässt sich partitionieren in die Priori-Quadratsumme ν0 σ02 , die Quadratsumme (n − 1)s2 der Stichprobe und einen Term, der die Unsicherheit, die durch die Differenz zwischen Stichprobenmittel und Priori-Erwartungswert ensteht, quantifiziert. Die bedingte Posteriori von µ|σ 2 , x ist σ2 2 µ|σ , x ∼ N µn , κn κ0 n σ2 ˆ = N µ0 + x, κ0 + n κ0 + n κ0 + n κ0 µ + σn2 x 1 ˆ σ2 0 = N , κ0 . κ0 + σn2 + σn2 σ2 σ2 Die Gewichte κ0 /σ 2 und n/σ 2 entsprechen der Priori- bzw. Datenpräzision. Die marginale Posteriori von σ 2 |x ist σ 2 |x ∼ inv-χ2 (νn , σn2 ). Dies ermöglicht die Simulation der gemeinsamen Posteriori Verteilung: Algorithmus 4 : Direkte Simulation der gemeinsamen Posterioriverteilung bei konjugierter Priori Schritt 1: Ziehe (σ 2 )∗ aus inv-χ2 (νn , σn2 ). 2 ∗ Schritt 2: Ziehe µ∗ aus N µn , (σκn) . Die marginale Posteriori von µ|x lautet −(νn +1)/2 κn (µ − µn )2 f (µ|x) ∝ 1 + . νn σn2 Dies entspricht einer t-Verteilung mit νn Freiheitsgraden, Lokationsparameter µn und Skalenparameter σn2 /κn . III. Semi-konjugierte Prioriverteilung Die Parameter µ und σ 2 sollen nun a priori unabhängig sein. Wir wählen deshalb a priori µ|σ 2 ∼ N (µ0 , τ02 ) und σ 2 ∼ inv-χ2 (ν0 , σ02 ). 94 Der einzige Unterschied zum Fall der konjugierten Priori ist also, dass wir τ02 statt σ02 /κ0 verwenden und so die Prioris entkoppeln. Es folgt: p(µ, σ 2 ) = p(µ) · p(σ 2 ). Die resultierende gemeinsame Posteriori hat allerdings keine Form, die einer bekannten Verteilung zugeordnet werden kann. Allerdings ist f (µ|σ 2 , x) explizit berechenbar und f (σ 2 |x) einfach zu simulieren. Die bedingte Posteriori ist µ|σ 2 , x ∼ N (µn , τn2 ) mit µn = 1 µ + σn2 x τ02 0 1 + σn2 τ02 mit τn2 = 1 τ02 1 + n σ2 . Zur Herleitung der Posteriori f (σ 2 |x) benutzt man, dass f (σ 2 |x) = f (µ, σ 2 |x) f (µ|σ 2 , x) und (salopp), dass 2 f (µ, σ |x) ∝ N (µ|µ0 , τ02 ) 2 × inv-χ (σ 2 |ν0 , σ02 ) × n Y N (xi |µ, σ 2 ). i=1 Die marginale Posteriori hat dann die Struktur N (µ|µ0 , τ02 ) · inv-χ2 (σ 2 |ν0 , σ02 ) · f (σ |x) ∝ N (µ|µn , τn2 ) 2 Qn i=1 N (xi |µ, σ 2) . Da f (σ 2 |x) nicht von µ abhängen kann, können die entsprechenden Terme ignoriert werden, die nur von µ abhängen. Man beachte jedoch, dass der Nenner über die Parameter µn , τn2 noch von σ 2 abhängt. Setzen wir µ = µn , so erhalten wir n Y 1 1 1 2 2 2 2 2 2 √ f (σ |x) ∝ τn exp − 2 (µn − µ0 ) · inv-χ (σ |ν0 , σ0 ) · exp − 2 (xi − µn ) . 2σ 2τ0 2πσ 2 i=1 Diese Verteilung lässt sich beispielsweise über einen empirischen CDF-Sampler simulieren. Voraussetzung hierfür ist, dass wir die Dichte einer (univariaten) Zufallsvariable bis auf eine Proportionalitätskonstante c kennen. Algorithmus 5 : Empirischer CDF-Sampler • Diskretisiere den Träger der zu simulierenden Verteilung in eine Menge von N Punkten x1 ≤ . . . ≤ xN . • Evaluiere die bis auf Proportionalität bekannte Dichte an x1 ≤ . . . ≤ xN , um Werte f1 , . . . , fN zu erhalten. • Schätze die Proportionalitätskonstante c über c = f1 + . . . + fN . • Ziehe Zufallszahlen aus x1 ≤ . . . ≤ xN gemäß den Wahrscheinlichkeiten f1 /c, . . . , fN /c. 95 Dies führt zu folgendem Algorithmus zur Simulation aus f (µ, σ 2 |x): 1. Ziehe (σ 2 )∗ aus der marginalen (approximativen) Posteriori gemäß CDF-Sampler. 2. Ziehe µ aus f (µ|(σ 2 )∗ , x). Abschließend betrachten wir noch die prädiktive Posterioriverteilung für zukünftige Beobachtungen x e gegeben Daten x. Diese lautet Z Z Z Z f (e x|x) = f (e x|µ, σ 2 , x)f (µ, σ 2 |x) dµ dσ 2 = f (e x|µ, σ 2 )f (µ, σ 2 |x) dµ dσ 2 . Simulation: 1. Ziehe (µ∗ , (σ 2 )∗ ) aus der Posteriori wie oben beschrieben. 2. Ziehe x e ∼ N (µ∗ , (σ 2 )∗ ). 4.5.2 Dirichlet-Multinomial Modell Im Dirichlet-Multinomial-Modell wird für die Daten y1 , . . . , yn eine Multinomialverteilung angenommen, also die Verallgemeinerung der Binomialverteilung auf mehr als zwei mögliche Ereignisse bei festem Stichprobenumfang n. Beispielsweise könnte eine fest vorgegebene Anzahl an Personen nach ihrer Parteipräferenz befragt werden. Eine multinomialverteilte Zufallsvariable Y kann k mögliche Ausprägungen annehmen (zum Beispiel CDU/CSU, SPD, FDP, Grüne, Linke, andere). Die Zufallsvariable Xj , 1 ≤ j ≤ k, P bezeichnet die Anzahl der j-ten Ausprägung in der Stichprobe; es gilt kj=1 Xj = n. Der Pk Parameter θj = P(Y = j) ∈ [0, 1] für Y ∈ {1, . . . , k} mit j=1 θj = 1 bezeichnet die Wahrscheinlichkeit für die Ausprägung j. Die Likelihood von θ = (θ1 , . . . , θk )> bei Beobachtungen x = (x1 , . . . , xk )> lautet L(θ) = f (x|θ) ∝ k Y x θj j . j=1 P Wegen der Restriktion kj=1 θj = 1 liegen faktisch nur k − 1 Parameter vor, denn der k-te Parameter lässt sich deterministisch durch θk = 1 − θ1 − . . . θk−1 berechnen. Die Likelihood lässt sich daher auch in der Form k−1 Y xj L(θ) ∝ θ (1 − θ1 − . . . − θk−1 )xk j j=1 schreiben. Die zur Multinomialverteilung konjugierte Verteilung ist die sogenannte Dirichletverteilung, eine Verallgemeinerung der Beta-Verteilung, geschrieben θ = (θ1 , . . . , θk )> ∼ Dirichlet(α1 , . . . , αk ) = D(α), 96 mit Dichtefunktion Γ(α1 + . . . + αk ) α1 −1 θ · . . . · θkαk −1 , Γ(α1 ) · . . . · Γ(αk ) 1 P wobei αj > 0 für alle j = 1, . . . , k und wieder θj ∈ [0, 1] mit kj=1 θj = 1. Die DirichletVerteilung spezifiziert also eine Verteilung auf einem (k − 1)-dimensionalen offenen Simplex. p(θ) = Eigenschaften der Dirichletverteilung: P Definiere α0 = kj=1 αj . • Momente: E(θj ) = αj α0 , wobei die Restriktion Var(θj ) = Pk j=1 θj αj (α0 − αj ) α02 (α0 + 1) , Cov(θi , θj ) = − αi αj 2 α0 (α0 + = 1 die negative Korrelation impliziert. • Modus: Modus(θ)j = αj − 1 α0 − k ist die j-te Komponente des k-dimensionalen Modus. • Jede Randverteilung ist wieder eine Dirichletverteilung, zum Beispiel (θi , θj , 1 − θi − θj ) ∼ Dirichlet(αi , αj , α0 − αi − αj ). Insbesondere ist θj ∼ Beta(αj , α0 − αj ). • Die bedingten Verteilungen sind ebenfalls Dirichletverteilt. Setzt man θi0 = 1− θm Pm−1 r=1 θr , m ≤ i ≤ k, gegeben die Realisationen θ1 , . . . , θm−1 , so ist 0 (θm , . . . , θk0 )> ∼ Dirichlet(αm , . . . , αk ). 97 1) , Algorithmus 6 : Simulation aus der Dirichletverteilung • Simulation 1: 1. Ziehe Z1 , Z2 , . . . , Zk aus (unabhängigen) Gammaverteilungen mit Parametern (α1 , 1), . . . , (αk , 1). 2. Setze Zj θj = Pk i=1 Zi . • Simulation 2 ( Stick Breaking Prior”): ” 1. Ziehe θ1 ∼ Beta(α1 , α0 − α1 ). 2. Für j = 2, . . . , k − 1: P (i) Ziehe Zj ∼ Beta(αj , ki=j+1 αi ). P (ii) Setze θj = 1 − j−1 θ i=1 i Zj . P 3. Setze θk = 1 − k−1 i=1 θi . Für x|θ ∼ Multinomial(n; θ1 , . . . , θk ) und θ|α ∼ Dirichlet(α1 , . . . , αk ) lautet die Posterioriverteilung von θ: f (θ|x) ∝ L(θ) · p(θ|α) ∝ k Y x θj j · j=1 = k Y k Y α −1 θj j j=1 x +αj −1 θj j , j=1 d.h. die Posteriori ist Dirichlet(x1 + α1 , . . . , xk + αk )-verteilt. Interpretation der Posteriori Der Posteriori-Erwartungswert αj + xj Pk i=1 xi + i=1 αi E[θj |x] = Pk lässt sich umschreiben zu E[θj |x] = α0 + α0 Pk i=1 xi · Pn αj α0 |{z} + PrioriErwartungswert i=1 xi P α0 + ki=1 xi xj · Pn . xi | i=1 {z } MLE Der Parameter α0 lässt sich als a priori Anzahl Beobachtungen” und αj als a priori Erfolge” ” ” für Kategorie j interpretieren. 98 Bemerkung. 1. Die Wahl α1 = . . . = αk = 0 entspricht einer Gleichverteilung für {log θj }kj=1 . In diesem Fall ist die Posteriori nur dann proper, wenn xj ≥ 1, j = 1, . . . , p. 2. Die Wahl α1 = . . . = αk = 1/2 entspricht Jeffreys’ Priori. 3. Die Wahl α1 = . . . = αk = 1 entspricht einer Priori-Gleichverteilung auf dem Simplex. Bemerkung. Die Dirichlet-Verteilung eignet sich auch als Priori bei der Analyse von Kontigenztafeln mit multinomialem Erhebungsschema: x1 x3 x2 x4 (n = x1 +x2 +x3 +x4 ). Erweiterungen auf restringierte Multinomialverteilungen sind möglich (loglineare Modelle). Ad-hoc Prozedur: Addiere 1/2 zu jedem Eintrag der Kontingenztabelle und berechne dann den Maximum-Likelihood-Schätzer; das entspricht α1 = . . . = αk = 3/2 und der Posteriori-Modus Schätzung Modus(θ|x)j = = 4.5.3 xj + αj − 1 Pk i=1 αi − k i=1 xi + Pk xj + Pk 1 2 1 i=1 xi + 2 k . Multivariate Normalverteilung Notation: • X = (X1 , . . . , Xp )> ist p-dimensionaler Zufallsvektor. • µ = (µ1 , . . . , µp ) ist p-dimensionaler Erwartungswertvektor. • Die symmetrische und positiv definite (Notation: Σ > 0) Matrix σ11 σ12 . . . σ1p σ21 σ22 . . . σ2p Σ= . .. .. . . . . . . . σp1 σp2 . . . σpp ist p × p-dimensionale Kovarianzmatrix. • Eine Beobachtung x = (x1 , . . . , xp )> ist MVN(µ, Σ) (multivariat normalverteilt), wenn 1 > −1 −1/2 exp − (x − µ) Σ (x − µ) . f (x|µ, Σ) ∝ |Σ| 2 99 • Die Likelihood für n i.i.d. Realisationen x1 , . . . , xn lautet ! n 1X > −1 L(µ, Σ) = f (x1 , . . . , xn |µ, Σ) ∝ |Σ| exp − (xi − µ) Σ (xi − µ) 2 i=1 1 −n/2 −1 = |Σ| exp − tr(Σ S0 ) 2 P mit S0 = ni=1 (xi −µ)(xi −µ)> . Die zweite Identität ergibt sich über die Umformungen ! n n X X > −1 > −1 (xi − µ) Σ (xi − µ) = tr (xi − µ) Σ (xi − µ) −n/2 i=1 i=1 = tr n X ! Σ−1 (xi − µ)(xi − µ)> i=1 −1 = tr(Σ S0 ). I. Konjugierte Prioriverteilung bei unbekanntem µ und bekanntem Σ Konjugierte Prioriverteilung für µ bei bekanntem Σ ist µ ∼ MVN(µ0 , Λ0 ) mit Λ0 > 0. Die Posteriori für µ ist ! n X 1 1 (xi − µ)> Σ−1 (xi − µ) . f (µ|x, Σ) ∝ exp − (µ − µ0 )> Λ−1 0 (µ − µ0 ) − 2 2 i=1 Der Term im Exponenten ist eine quadratische Form in µ, die sich über eine quadratische Ergänzung und Vernachlässigung von Konstanten ergibt. Man erhält f (µ|x, Σ) ∼ MVN(µn , Λn ) mit µn = −1 Λ−1 0 + nΣ −1 −1 Λ−1 0 µ0 + nΣ x , −1 Λ−1 = Λ−1 n 0 + nΣ P und x = ( ni=1 xi )/n in Analogie zum univariaten Fall. Die bedingte und marginale Posteriori für Subvektoren von µ folgen aus den Eigenschaften der multivariaten Normalverteilung: Betrachte die Partitionierungen ! ! (1) (1) (11) (12) µ µn Λn Λn µ= , µn = , Λn = . (2) (21) (22) µ(2) µn Λn Λn Dann gilt für die bedingten Verteilungen (2) (2) 1|2 (1) (2) (1) 1|2 µ − µn , Λn µ |µ , x ∼ MVN µn + β 100 mit −1 (22) β 1|2 = Λ(12) Λ , n n −1 (12) (22) Λ(21) Λ1|2 = Λ(11) − Λ Λ n n n n und für die marginalen Verteilungen (11) µ(1) ∼ MVN µ(1) . n , Λn Die prädiktive Posterioriverteilung ist (informell) f (e x, µ|x) = MVN(e x|µ, Σ) · MVN(µ|µn , Λn ). Im Exponenten erhält man eine quadratische Form in (e x, µ). (e x, µ) sind gemeinsam multivae als Randverteilung der beiden Komponenten ebenfalls riat normalverteilt, und daher folgt x einer multivariaten Normalverteilung. Die erforderlichen Kenngrößen lassen sich über die iterierte Erwartung und Varianz berechnen: E[e x|x] = E[E[e x|µ, x]|x] = E[µ|x] = µn und Var(e x|x) = E[Var(e x|µ, x)|x] + Var[E(e x|µ, x)|x] = E[Σ|x] + Var[µ|x] = Σ + Λn . II. Konjugierte Prioriverteilung bei unbekanntem µ und unbekanntem Σ In Abschnitt 4.5.1-II (Seite 92) hatten wir als konjugierte Prioriverteilungen für die Parameter µ und σ 2 der univariaten Normalverteilung σ2 2 µ|σ ∼ N µ0 , und σ 2 ∼ inv-χ2 (ν0 , σ02 ), κ0 kurz 2 µ, σ ∼ N-inv-χ 2 σ02 2 µ0 , ; ν0 , σ0 , κ0 verwendet. Hier nun verwenden wir die multivariaten Analoga 1 µ|Σ ∼ MVN µ0 , Σ und Σ ∼ inv-Wishartν0 (Λ−1 0 ), κ0 kurz 1 −1 µ, Σ ∼ MVN-inv-Wishart µ0 , Λ0 ; ν0 , Λ0 . κ0 101 Die gemeinsame Prioridichte ist dann ν +p 1 − 02 +1 −1 > −1 p(µ, Σ) ∝ |Σ| · exp − tr(Λ0 Σ ) − κ0 (µ − µ0 ) Σ (µ − µ0 ) . 2 Dabei bezeichnet ν0 die a priori Anzahl der Freiheitsgrade, κ0 die a priori Anzahl an Messungen auf der Σ-Skala. Die gemeinsame Posterioriverteilung von µ und Σ lautet 1 −1 Λn ; νn , Λn . µ, Σ|x ∼ MVN-inv-Wishart µn , κn mit κ0 n x, µ0 + κ0 + n κ0 + n = κ0 + n, µn = κn νn = ν0 + n, Λn = Λ0 + S + κ0 n (x − µ0 )(x − µ0 )> , κ0 + n Pn > in Analogie zum univariaten Fall. Die Interpretation wobei S = i=1 (xi − x)(xi − x) der Parameter von Seite 93 lässt sich direkt übertragen: Der Posteriori-Erwartungswert ist ein gewichtetes Mittel aus Stichprobenmittelwertvektor und Priori-Erwartungswert. Die Gesamtstreuungsmatrix Λn lässt sich in Priori-Streuungsmatrix, empirische Streuungsmatrix und Streuung zwischen Priori-Erwartungswert und Stichprobenmittel partitionieren. Die marginale Posteriori für µ folgt einer multivariaten t-Verteilung mit Parametern µn und Λn /(κn · (νn − p + 1)), die marginale Posteriori für Σ einer inversen Wishart-Verteilung mit Parametern νn und Λ−1 n . Zur Simulation aus der gemeinsamen Posteriori oder aus der prädiktiven Verteilung ist folgender Algorithmus anwendbar: Algorithmus 7 : Simulation aus der gemeinsamen Posteriori und der prädiktiven Verteilung bei konjugierter Priori Für s = 1, . . . , S: 1. Ziehe Σ(s) |x ∼ inv-Wishartνn Λ−1 n . 2. Ziehe µ(s) |Σ(s) , x ∼ MVN µn , κ1n Σ(s) . e(s) |µ(s) , Σ(s) , x ∼ MVN µ(s) , Σ(s) . 3. Ziehe x Dann ist (µ(s) , Σ(s) ) eine Ziehung aus der gemeinsamen Posterioridichte, x̃ eine Ziehung aus der prädiktiven Verteilung. III. Nichtinformative Prioriverteilung bei unbekanntem µ und unbekanntem Σ Als nichtinformative Prioriverteilung bei unbekanntem µ und Σ eignet sich die multivariate Jeffreys’ Priori p(µ, Σ) ∝ |Σ|−(p+1)/2 . 102 Diese entspricht dem Grenzfall κ0 → 0, ν0 → 1, |Λ0 | → 0 bei der konjugierten Priori. Für die Posteriori-Kenngrößen ergibt sich in diesem Fall für die bedingte Verteilung von µ 1 µ|Σ, x ∼ MVN x, Σ , n und für die marginalen Verteilungen Σ|x ∼ inv-Wishartn−1 (S), 1 µ|x ∼ mv-tn−p x, S . n(n − p) Als Beispiel wird im Folgenden die bivariate Normalverteilung betrachtet. Es dient auch dazu, die folgende für die Bayes-Inferenz wichtige Simulationsstrategie, das sogenannte GibbsSampling, zu illustrieren. Algorithmus 8 : Gibbs-Sampler Gegeben: Ein mehrdimensionaler stetiger Zufallsvektor X mit Verteilung π. Der Einfachheit halber seien alle Komponenten von X stetig. Wir erzeugen im Folgenden eine Markovkette X (0) , X (1) , . . . mit Startwert X (0) und stationärer Verteilung π. Sei X (t) der aktuelle Zustand der Markovkette. X (t) lasse (t) (t) (t) sich in k Subvektoren X (t) = (X•1 , X•2 , . . . , X•k ) partitionieren. Definiere (t) (t) (t) (t) (t−1) (t−1) X−s = X•1 , X•2 , . . . , X•(s−1) , X•(s+1) , . . . , X•k für s = 1, . . . , k. Ferner seien die vollständig bedingten Verteilungen ( full ” conditionals”) (t) (t) π X•s , X−s (t) (t) (t) π•s|−s = π X•s X−s = R (t) (t) (t) π X•s , X−s dX•s gegeben und simulierbar. Dann wird der nächste Zustand X (t+1) komponentenweise wie folgt erzeugt: (t+1) ∼ π•1|−1 . (t+1) ∼ π•2|−2 . (t+1) ∼ π•k|−k . Schritt 1: Ziehe X•1 Schritt 2: Ziehe X•2 (t+1) (t+1) .. . Schritt k: Ziehe X•k (t+1) Wiederhole diese Schritte ausreichend oft. Nach einer gewissen Zahl von Wiederholungen kann X (t) als Ziehung aus π angesehen werden. Im Gegensatz zu obigen direkten” Simulationsalgorithmen liegen nun allerdings abhängige ” Realisationen vor. 103 Beispiel 4.2. (Bivariate Normalverteilung) Sei x bivariat normalverteilt mit Erwartungswertvektor (µ1 , µ2 )> und Kovarianzmatrix 2 2 σ1 σ12 σ1 ρ 1 ρ = = und ρ bekannt. σ12 σ22 ρ σ22 ρ 1 Bei einer nichtinformativen Priori p(µ1 , µ2 ) ∝ const für µ1 , µ2 reduziert sich die Posteriori auf die Likelihood bei gegebenen Daten x = ((x11 , x12 )> , . . . , (xn1 , xn2 )> ): n n 1 1 2 −2 L(µ1 , µ2 ) = exp − 1−ρ A , 2π 2(1 − ρ2 ) wobei A= n X (xi1 − µ1 )2 − 2ρ(xi1 − µ1 )(xi2 − µ2 ) + (xi2 − µ2 )2 i=1 Wir möchten nun die vollständig bedingten Verteilungen µ1 |µ2 , x und µ2 |µ1 , x berechnen. Natürlich ist es aus Symmetriegründen ausreichend, nur µ1 |µ2 , x zu ermitteln. Wegen f (µ1 |µ2 , x) = f (µ1 , µ2 , x) f (µ1 , µ2 |x) = ∝ f (µ1 , µ2 |x) f (µ2 |x) f (µ2 , x) genügt es, aus der gemeinsamen Posteriori lediglich die Terme zu betrachten, die von der jeweiligen Variablen in der bedingten Verteilung abhängen. Man erhält dann 2 1 f (µ1 |µ2 , x) ∝ exp − n µ1 − 2µ1 (x1 + ρ(µ2 − x2 )) 2(1 − ρ2 ) P mit x̄j = ( ni=1 xij )/n für j = 1, 2. Eine quadratische Ergänzung des in Terms in eckigen Klammern um x1 + ρ(µ2 − x2 ) liefert schließlich das Endresultat ! 2 1 p(µ1 |µ2 , x) ∝ exp − 1−ρ2 µ1 − [x1 + ρ(µ2 − x2 )] . 2 n Dies entspricht dem Kern einer N (x1 + ρ(µ2 − x2 ), (1 − ρ2 )/n)-Verteilung. Der zugehörige Gibbs-Sampler hat die Gestalt: (0) 1. Wähle einen Startwert µ2 . 2. Für s = 1, . . . , S: 2 (s−1) ∼ N x 1 + ρ µ2 − x2 , 1−ρ . n 2 (s) ∼ N x2 + ρ µ1 − x1 , 1−ρ . n (s) (s−1) (s) (s) (a) Ziehe µ1 |µ2 (b) Ziehe µ2 |µ1 104 4.6 Bayesianisches lineares Modell Modell: y = Xβ + ε , wobei y ∈ Rn , X ∈ Rn×p , β ∈ Rp , ε ∈ Rn Annahmen und Notation: p = rang(X) i.i.d ε = (ε1 , . . . , εn )> , εi ∼ N (0, σ 2 ) Bayesianisch: y|β, σ 2 , X ∼ MVN(Xβ, σ 2 I) Likelihood: 1 > 2 −1 f (y|X, β, σ ) ∝ |σ I| exp − (y − Xβ) (σ I) (y − Xβ) 2 1 > 2 −n/2 = (σ ) exp − 2 (y − Xβ) (y − Xβ) 2σ 2 4.6.1 2 −1/2 Nichtinformative Prioriverteilung Die nichtinformative Priori p(β, σ 2 ) ∝ (σ 2 )−1 ist insbesondere im Fall p n nützlich. Für die gemeinsame Posteriori folgt: 1 2 2 −( n +1) > p(β, σ |y, X) ∝ (σ ) 2 exp − 2 (y − Xβ) (y − Xβ) . 2σ Sei βb = (X > X)−1 X > y, yb = X βb = X(X > X)−1 X > y = Hy, | {z } H εb = (I − H)y = y − yb. Aus der Theorie linearer Modelle ist bekannt, dass X > εb = 0, yb> εb = 0. Daraus ergeben sich folgende Umformungen: (y − Xβ)> (y − Xβ) = = = b b y=X β = [(y − yb) + (yb − Xβ)]> [(y − yb) + (yb − Xβ)] εb> εb + (b y − Xβ)> (b y − Xβ) + 2(yb − Xβ)> εb εb> εb + (b y − Xβ)> (b y − Xβ) εb> εb + (βb − β)> X > X(βb − β), 105 so dass sich die Posteriori schreiben lässt als 1 > > > 2 2 −( n +1) b b p(β, σ |y, X) ∝ (σ ) 2 exp − 2 εb εb + (β − β) X X(β − β) . 2σ Die bedingte Posteriori von β|σ 2 , y, X ist 1 b 2 > > b p(β|σ , y, X) ∝ exp − 2 (β − β) X X(β − β) , 2σ da εb = y − X βb nicht von β abhängt. Man identifiziert obigen Ausdruck als Kern einer multivariaten Normalverteilung, genauer ist b σ 2 (X > X)−1 ), p(β|σ 2 , y, X) ∼ MVN(β, ein bekanntes Resultat aus der Theorie linearer Modelle. Die marginale Posteriori von σ 2 erhält man über Herausintegrieren von β bzw. einfacher über den Satz von Bayes f (β, σ 2 |y, X) f (σ 2 |y, X) = . f (β|σ 2 , y, X) Die Normalisierungskonstante für die bedingte Posteriori von β ist σ −p/2 , also 1 > +1) p2 2 2 −( n 2 σ exp − 2 εb εb f (σ |y, X) ∝ (σ ) 2σ n−p 1 > 2 −( 2 +1) = (σ ) exp − 2 εb εb . 2σ εb> εb εb> εb bzw. IG n−p , -Verteilung. Es gilt: Dies ist der Kern einer inv-χ2 n − p, n−p 2 2 E[σ 2 |y, X] = n−p εb> εb εb> εb · = . n−p−2 n−p n−p−2 Algorithmus 9 : Direkte Simulation von β und σ 2 im bayesianischen linearen Modell Für t = 1, . . . , T : (t) εb> εb 1. Ziehe σ 2 aus f σ 2 |y, X , d.h. aus inv-χ2 n − p, n−p . (t) b σ 2 (t) (X > X)−1 , wobei 2. Ziehe β (t) aus f β| σ 2 , y, X , d.h. aus MVN β, βb = (X > X)−1 X > y. Eine Alternative zur direkten Simulation besteht in der Verwendung von Gibbs-Sampling, indem zusätzlich zur vollständig bedingten Dichte von β die vollständig bedingte Dichte von σ 2 , 1 > 2 2 2 −( n +1) > > b b 2 exp − 2 εb εb + (β − β) X X(β − β) , f (σ |β, y, X) ∝ p(β, σ |y, X) ∝ (σ ) 2σ 106 zur Simulation verwendet wird. Dies ist für festes β der Kern einer skalierten > X > X(β−β) b b εb> εb+(β−β) 2 inv-χ n, -Verteilung. Damit lässt sich auch die marginale Posten riori von β herleiten: f (β|y, X) = ∝ Damit: f (β, σ 2 |y, X) f (β|σ 2 , y, X) · f (σ 2 |y, X) = f (σ 2 |y, X, β) f (σ 2 |β, y, X) exp − 2σ1 2 (βb − β)> X > X(βb − β) h > b > > b in/2 . εb εb+(β−β) X X(β−β) 1 > > > b b exp − 2σ2 [b ε εb + (β − β) X X(β − β)] n i−n/2 h . f (β|y, X) ∝ εb> εb + (βb − β)> X > X(βb − β) Setzt man σ bε2 = εb> εb ⇔ εb> εb = (n − p)b σε2 , n−p so ist h i−n/2 (n − p)b σε2 + (βb − β)> X > X(βb − β) #!− n " 2 b − β)> X > X(βb − β) ( β (n − p)b σε2 · 1 + = (n − p)b σε2 " #− (n−p)+p 2 > > b b (β − β) X X(β − β) . ∝ 1+ (n − p)b σε2 f (β|y, X) ∝ Dies entspricht dem Kern einer multivariaten t-Verteilung mit n − p Freiheitsgraden, Lokationsparameter βb und Skalenparameter σε2 (X > X)−1 , also b σ β|y, X ∼ mv-tn−p β, bε2 (X > X)−1 . f Seien Abschließend betrachten wir noch die prädiktive Verteilung für ye|y, X, X. • m die Anzahl neuer Beobachtungen, f neue Beobachtungen von Regressoren der Dimension m × p, • X • ye der Vektor der Prognosen der Dimension m × 1. Zur Simulation können wir Algorithmus 9 wie folgt erweitern: 107 Algorithmus 10 : Direkte Simulation der prädiktiven Verteilung im bayesianischen linearen Modell Für t = 1, . . . , T : (t) εb> εb 1. Ziehe σ 2 aus f σ 2 |y, X , d.h. aus inv-χ2 n − p, n−p . (t) b σ 2 (t) (X > X)−1 , wobei 2. Ziehe β (t) aus f β| σ 2 , y, X , d.h. aus MVN β, βb = (X > X)−1 X > y. 3. Für i = 1, . . . , m: f bezeichnet. Ziehe yei ∼ M V N xei > β (t) , (σ 2 )(t) , wobei xei > die i-te Zeile von X Es ist sogar eine analytische Berechnung möglich: h i b σ̂ 2 X(X f ∼ mv-tn−p X fβ, f > X)−1 X f> + I f (e y |y, X, X) ε in Analogie zur Berechnung von Prognose und Prognoseintervallen für lineare Modelle aus frequentistischer Sicht. 4.6.2 Konjugierte Prioriverteilung Im Falle der konjugierten Priori σ 2 ∼ inv-χ2 (κ0 , σ02 ) , β|σ 2 ∼ MVN(β0 , σ 2 Σ0 ) bzw. β, σ 2 ∼ MVN-inv-χ2 (β0 , σ02 Σ0 ; κ0 , σ02 ) ergibt sich die gemeinsame Posteriori σ 2 |y, X ∼ inv-χ2 (κn , σn2 ) , β|σ 2 , y, X ∼ MVN(βn , σ 2 Σn ) bzw. β, σ 2 |y, X ∼ MVN-inv-χ2 (βn , σn2 Σn ; κn , σn2 ) , wobei −1 > −1 > βn = (Σ−1 0 + X X) (Σ0 β0 + X y) , > −1 Σn = (Σ−1 , 0 + X X) κn = κ0 + n , > −1 > 2 σn2 = (β0> Σ−1 0 β0 − βn Σn βn + y y + κ0 σ0 )/(κ0 + n) . Als bedingte Posteriori von β ergibt sich β |σ 2 , y, X ∼ MVN(βn , σ 2 Σn ), ∼ inv-χ2 (κn , σn2 ). als marginale Posteriori von σ 2 σ 2 |y, X 108 4.6.3 Spezialfälle und Erweiterungen 1. Ridge-Regression Hinweis: Es ist im Allgemeinen sinnvoll, die echten” Kovariablen (ohne Intercept) ” zu standardisieren, um Unterschiede in der Skala zu beseitigen. Ferner geht man zum zentrierten Response über, so dass der Intercept entfällt. Man erhält X ∗ , y ∗ . Betrachte nun y ∗ = X ∗ β ∗ + ε, ε ∼ N (0, σ 2 I). Der Ridge-Schätzer ist durch [(X ∗ )> X ∗ + λI]−1 (X ∗ )> y ∗ mit λ > 0 gegeben. Dieser lässt sich wie folgt bayesianisch interpretieren: Sei p(β ∗ ) ∼ N (0, τ 2 I), d.h. die Komponenten von β ∗ sind a priori unkorreliert (also wegen der Normalvertei lung auch unabhängig). Dann ist die bedingte Posteriori f β ∗ |y ∗ , X ∗ , σ 2 , τ 2 gleich −1 −1 ! 2 2 σ σ MVN (X ∗ )> X ∗ + 2 I (X ∗ )> y ∗ , σ 2 (X ∗ )> X ∗ + 2 I . τ τ Der Parameter λ enstpricht dabei dem Quotienten σ 2 /τ 2 . 2. Ungleiche Varianzen der Störvariablen / abhängige Störvariablen Allgemein: y = Xβ + ε, ε ∼ N (0, Σε ) y ∼ MVN(Xβ, Σy ), Σy = Σε Problem: Spezifikation der Prioriverteilung für Σε . Mögliche Auswege sind: (a) Parametrisiere Σy = σ 2 Qy mit Qy bekannt und p(β, σ 2 ) ∝ (σ 2 )−1 . Dieser Fall ist auf das Modell aus Abschnitt 4.6.1 reduzierbar, indem man das Modell Q−1/2 y = Q−1/2 X β + Q−1/2 ε | {z } | {z } | {z } y∗ X∗ ε∗ betrachtet. Man erhält dann wieder ein homoskedastisches Regressionsmodell in den Größen y ∗ , X ∗ , ε∗ . (b) Gewichtete Regression: Σy = diag(σ 2 wi−1 )1≤i≤n lässt sich als Spezialfall von (a) auffassen. 109 (c) Korrelationen: Schreibe Σy = SRS mit S = diag(σ1 , . . . , σp ) mit beispielweise p(σ12 , σ22 , . . . , σp2 ) = p Y p(σj2 ) 2 und p(σj2 ) ∼ inv-χ2 (νj , σ0j ). j=1 Es bleibt die Spezifikation der Korrelationsmatrix. Priori-Spezifikationen müssen insbesondere positive Definitheit gewährleisten. Eine einfache Variante besteht in der Verwendung von (positiver) Äqui-Korrelation”, was zum Beispiel bei Cluster” daten eine vernünftige Annahme darstellt: 1 ρ ··· ρ ρ 1 ··· ρ , R= . . . . . ... .. .. ρ ρ ··· 1 wobei ρ ∼ U (0, 1) eine positive Korrelation erzwingt. Bei Messwiederholungen greift man oft auf eine autoregressive Kovarianzstruktur zurück. Für in 1. Ordnung autokorrelierte Residuen εt = ρεt−1 + Zt , Zt ∼ N (0, σ 2 ), erhält man R= 1 ρ ρ2 .. . ρ 1 ρ .. . ρ2 ρ 1 .. . ··· ··· ··· .. . ρp−1 ρp−2 ρp−3 · · · ρp−1 ρp−2 ρp−3 .. . . 1 Andere Zerlegungen basieren auf der Cholesky- oder Spektralzerlegung und sind relativ komplex. (d) Übergang zu Modellen mit Zufallseffekten: Modelle mit Zufallseffekten (linear mixed models, generalized linear mixed models) führen zu strukturierten, meist parametersparsamen Kovarianzmatrizen. Aber : Die Modellgleichung ändert sich und Σy 6= Σε , d.h. man kommt in eine andere Modellklasse. 4.7 Bayesianisches generalisiertes lineares Modell Struktur von GLMs: Der Response folgt einer Verteilung aus einer einfachen Exponentialfamilie (i = 1, . . . , n) yi θi − b(θi ) f (yi |θi ) = exp · c(yi , φi ) (4.1) φi 110 oder f (yi |θi ) = exp yi θi − b(θi ) a(φi ) · c(yi , φi ), wobei in vielen Fällen φi ≡ φ (Bernoulli-, Poissonverteilung). Es ist µi = E[yi |θi ] = b0 (θi ) , Var(yi |θi ) = b00 (θi )φi und θi der kanonische Parameter. Mit einer Linkfunktion g bzw. Responsefunktion h = g −1 gelte g(µi ) = ηi = x> (4.2) i β. Beispiel 4.3 (Logit-Modell). Mit µi = P(yi = 1) ist f (yi |µi ) = µyi i (1 − µi )1−yi = exp yi log(µi ) + (1 − yi ) log(1 − µi ) ! µi + log(1 − µi ) = exp yi log 1 − µi | {z } θi mit θi = log µi 1 − µi ⇔ µi = exp(θi ) . 1 + exp(θi ) Dies entspricht (4.1) mit φi = 1, c(yi , φi ) = 1, exp(θi ) 1 b(θi ) = − log 1 − = − log = log (1 + exp(θi )) 1 + exp(θi ) 1 + exp(θi ) und b0 (θi ) = 1 · exp(θi ) = µi . 1 + exp(θi ) Als Prioriverteilung für β in (4.2) eignet sich β ∼ MVN(β0 , B0 ) mit B0 > 0 (vgl. Abschnitt 4.5.3 zur multivariaten Normalverteilung bei bekannter Kovarianzmatrix). β beeinflusst µ = (µ1 , . . . , µn )> über den Prädiktor µ(β) = h(Xβ), wobei die Auswertung komponentenweise zu verstehen ist. Für B0−1 → 0 erhält man eine nichtinformative Priori. Über die Darstellung (4.1) als Exponentialfamile mit kanonischen Parametern erhält man als Posterioriverteilung Y n 1 yi θi − b(θi ) > −1 f (β|y, X) ∝ exp − (β − β0 ) B0 (β − β0 ) · exp 2 φi i=1 ! n X 1 y θ − b(θ ) i i i = exp − (β − β0 )> B0−1 (β − β0 ) exp 2 φi i=1 ! n X yi θi − b(θi ) 1 > −1 = exp − (β − β0 ) B0 (β − β0 ) + . 2 φi i=1 111 Beispiel 4.4 (Logit-Modell). Im Falle des Logit-Modells erhält man als Posteriori Y n 1 > −1 f (β|y, X) ∝ exp − (β − β0 ) B0 (β − β0 ) × µi (β)yi (1 − µi (β))1−yi 2 i=1 Y n 1 yi > 1−yi = exp − (β − β0 )> B0−1 (β − β0 ) × h(x> i β) (1 − h(xi β)) 2 i=1 yi 1−yi Y n 1 exp(x> 1 > −1 i β) . = exp − (β − β0 ) B0 (β − β0 ) × 2 1 + exp(x> 1 + exp(x> i β) i β) i=1 Problem: Der Posteriori-Kern entspricht keinem Kern einer bekannten Verteilung. Die PosterioriVerteilung ist demnach nicht analytisch zugänglich. Mögliche Auswege sind 1. Approximation oder 2. Exploration der Posteriori durch Generierung von Samples aus der Posteriori. Wir betrachten im Folgenden Lösung 2. Hier gibt es mehrere Möglichkeiten; sehr etabliert ist ein Vorschlag von Gamerman (1997)1 , eine Variante des Metropolis-Hastings-Algorithmus. 4.7.1 Ein MCMC-Algorithmus: Metropolis-Hastings Zunächst folgt eine Darstellung des Grundproblems, ohne näher auf die zugrundeliegende i.i.d mathematische Theorie einzugehen. Bekannt ist, dass für Xi ∼ π, i = 1, . . . , n, wobei π eine Verteilung bezeichnet, interessierende Kennzeichen dieser Verteilung (Momente, Dichte etc.) — Existenz vorausgesetzt — durch Simulation von Zufallszahlen gemäß π als MonteCarlo-Schätzung gewonnen werden können, z.B. n X [ = 1 E[X] xi . n i=1 Dies ist wenig spannend”, da, wenn π bekannt ist, in der Regel auch der Erwartungswert ” zugänglich ist. Angenommen jedoch, man betrachtet eine (nichtlineare) Funktion von X, zum Beispiel g(X) = X 2 . Dann ist möglicherweise die Dichte der Transformation g(X) noch analytisch bestimmbar, aber der Erwartungswert komplex zu berechnen. Im Fall, dass X mehrdimensional ist, kann die analytische Bestimmung derartiger Kenngrößen analytisch unmöglich und bei höherer Dimension mittels numerischer Integration zu instabil sein. Unter geeigneten Voraussetzungen lässt sich obige Monte-Carlo Schätzung erweitern zu n X \ = 1 g(xi ). E[g(X)] n i=1 (Dies ist ein allgemeines Prinzip, also nicht notwendigerweise bayesianisch, solange es sich bei π nicht zum Beispiel um eine Posterioriverteilung handelt.) Es sei allerdings bemerkt, 1 Gamerman (1997): Sampling from the posteriori distribution in generalized linear models. Statistics and Computing 7, pp. 57-68. 112 dass dieses Vorgehen im Vergleich zur exakten Lösung mit einem Monte-Carlo Fehler behaftet ist. Wesentliche Voraussetzung ist zudem, dass Zufallszahlen aus π gezogen werden können. Verfahren zur Generierung von i.i.d. Zufallszahlen sind beispielsweise das Inversionsverfahren, Rejection Sampling oder Importance Sampling (vgl. Vorlesung Computerintensive Methoden). Gerade bei höherer Dimension sind diese jedoch zum Teil nicht oder nur sehr kompliziert anwendbar. Eine Alternative stellen Markov Chain Monte Carlo (MCMC)-Verfahren dar. Ziel ist die Generierung einer Markov-Kette (X0 , . . . , Xn ) von (abhängigen!) Zufallszahlen, deren Verteilung gegen die interessierende Verteilung konvergiert, d.h. π ist die stationäre oder invariante Verteilung der Markov-Kette. Der Ergodensatz erlaubt dann Schätzungen der Form [ = E[X] 1 n − burnin n X xi bzw. \ = E[g(X)] i=burnin+1 1 n − burnin n X g(xi ), i=burnin+1 wobei x0 , . . . , xburnin Werte am Anfang der Sequenz bezeichnen, bevor sich die Kette in der stationären Verteilung befindet, und die deshalb weggeworfen” werden. ” Praktische Umsetzung: Starte mit einem Startwert x0 und ziehe dann für i = 1, . . . , n Werte Xi ∼ P (·|Xi−1 ), wobei P den Markov-Übergangskern bezeichnet, der nur vom aktuellen Zustand der Kette abhängt. An ihn bzw. die Markov-Kette werden die folgenden Anforderungen gestellt: 1. Die Markov-Kette ist homogen. 2. Die Markov-Kette ist irreduzibel. 3. Die Markov-Kette ist aperiodisch. 4. Die Markov-Kette ist positiv rekurrent. Wir betrachten hier Markov-Ketten in diskreter Zeit bei diskretem oder stetigem Zustandsraum, gewöhnlich eine Teilmenge des Rp . Für allgemeine Zustandsräume ist mehr Technik” ” erforderlich, aber keine neuen Ideen”. Für den hier betrachteten Fall ist die Zielverteilung π ” immer gegeben. Univariater Metropolis-Hastings Wir beschreiben nun den Metropolis-Hastings-Algorithmus (kurz: MH ) zur Generierung einer wie oben beschriebenen Markov-Kette für den univariaten Fall; dieser Algorithmus enthält den Gibbs-Sampler als Spezialfall. Sei π die Dichte der Zielverteilung, aus der wir simulieren möchten, und q eine geeignete Vorschlagsdichte, aus der neue Zustände der Kette generiert werden, d.h. Xi ∼ q(·|xi−1 ), zum Beispiel qxi |xi−1 = N (xi−1 , 1) oder qxi |xi−1 = U (xi−1 − c, xi−1 + c). Die Vorschläge werden nicht immer, sondern nur mit einer gewissen Akzeptanzwahrscheinlichkeit α(xi−1 , xi ) 113 akzeptiert. Für den MH-Algorithmus hat diese die Gestalt π(xi ) · q(xi−1 |xi ) α(xi−1 , xi ) = min 1, . π(xi−1 ) · q(xi |xi−1 ) Wird xi nicht akzeptiert, so setzt man xi ← xi−1 , d.h. der alte Zustand wird beibehalten. Ein wesentlicher Vorteil dieses Verfahrens besteht darin, dass sich die (meist unbekannte) Normalisierungskonstante von π herauskürzt, d.h. der MH-Algorithmus kann auch (bzw. gerade) für diese Fälle angewendet werden. Die Konstruktion von α gewährleistet, dass die Bedingungen 1. bis 4. eingehalten werden. Für q(xi−1 |xi ) = q(xi |xi−1 ) reduziert sich der MH-Algorithmus auf den Metropolis-Algorithmus mit π(xi ) α(xi−1 , xi ) = min 1, , π(xi−1 ) d.h. wenn die Zieldichte an der Stelle xi größer als an xi−1 ist, wird der neue Vorschlag stets akzeptiert, andernfalls nur im Verhältnis π(xi )/π(xi−1 ). Setzt man die Akzeptanzwahrscheinlichkeit konstant gleich eins, erhält man den Gibbs-Sampler. Der MH-Algorithmus akzeptiert tendenziell neue Werte in Bereichen mit hoher Dichte (relevante Bereiche). Die Akzeptanzwahrscheinlichkeit sollte nicht zu gering sein, um regelmäßige Zustandsänderungen in der Kette zu erhalten. Sie sollte allerdings auch nicht zu hoch sein, d.h. die Varianz der Vorschlagsverteilung sollte nicht zu niedrig sein, damit der Träger von π ausreichend gut exploriert wird. Algorithmus 11 : Univariater Metropolis-Hastings-Algorithmus Setze Startwert X0 . Für i = 1, . . . , n: 1. Ziehe Xi aus q(·|xi−1 ). 2. Ziehe U ∼ U (0, 1); akzeptiere, wenn U ≤ α(xi−1 , xi ), ansonsten setze xi ← xi−1 . Multivariater Metropolis-Hastings Die Verallgemeinerung auf den multivariaten Fall ist im Prinzip einfach, zum Beispiel mit q(xi |xi−1 ) = MVN(xi−1 , Σ). Ein Problem stellt hier die Wahl der Tuning-Matrix” Σ dar, die die Akzeptanzwahrschein” lichkeit steuert. Meist ist Σ = diag(σ12 , . . . , σp2 ); man startet mehrere Läufe und berechnet die Akzeptanzrate. Die Varianzen der Vorschlagsdichte werden dann solange variiert, bis ange” messene” Akzeptanzraten erreicht werden. Im Fall bayesianischer GLMs existiert eine Variante, die automatisch brauchbare Vorschlagsdichten berechnet, wie im folgenden Abschnitt beschrieben wird. 114 4.7.2 Metropolis-Hastings mit IWLS-Vorschlagsdichte Aus der Vorlesung Generalisierte Regression ist das Fisher-Scoring bekannt: Beispiel 4.5 (Fisher-Scoring beim Logit-Modell). Die Scorefunktion im Logit-Modell (bei kanonischer Linkfunktion) hat die Form s(β) = X > (y − µ(β)). Die Fisher-Information ist F (β) = X > diag µi (β)(1 − µi (β)) X. Bezeichnet βb den ML-Schätzer, so ist h i−1 b = X > diag µi (β)(1 b − µi (β)) b X Cov(β) . Der Fisher-Scoring Algorithmus hat dann die Form βb(k+1) = βb(k) + F −1 (βb(k) )s(βb(k) ) h i−1 = βb(k) + X > diag µi (βb(k) )(1 − µi (βb(k) )) X X > (y − µ(βb(k) )). Allgemein lässt sich das Fisher-Scoring wie folgt umschreiben: Definiere Pseudo-Beobachtungen ye = (e y1 (β), . . . , yen (β))> , wobei −1 yei (β) = x> i β + Di (yi − µi ) mit ∂h(x> ∂h(ηi ) i β) = > ∂ηi ∂xi β Im Spezialfall des Logit-Modells ist Di (β) = und ηi = xTi β. Di (β) = µi (1 − µi ) = µi (β)(1 − µi (β)). Fasse diese Einträge zu D = diag(D1 , . . . , Dn ) zusammen. Definiere weiter wi (β) = Di2 (β)[Var(yi )]−1 und W = diag(w1 (β), . . . , wn (β)). Im Logit-Modell: [µi (1 − µi )]2 = µi (1 − µi ). µi (1 − µi ) Dann lässt sich das Fisher-Scoring als iterierte kleinste Quadrate-Schätzung (IWLS, iteratively (re)-weighted least squares) schreiben: wi (β) = β̂ (k+1) = (X > W (k) X)−1 X > W (k) ye(k) . Aus der Analogie von kleinster Quadrate- und Maximum-Likelihood-Schätzung im Normalverteilungsfall lässt sich dies interpretieren als ye(k) ∼ MVN Xβ, (W −1 )(k) . Bayesianische Version: Kombiniere das Ganze mit der Prioriverteilung β ∼ MVN(β0 , B0 ). Iteriere dazu: 115 1. Aktueller Zustand sei β (t) ; berechne ye(t) = X > β (t) + D −1 (β (t) )(y − µ(β)(t) ). 2. Ziehe β ∗ ∼ MVN(β (t+1) , C (t+1) ) mit β (t+1) = (B0−1 + X > W (β (t) )X)−1 · [B0−1 β0 + X > W (β (t) )e y (β (t) )], C (t+1) = (B0−1 + X > W (β (t) )X)−1 . 3. Akzeptiere β ∗ mit Wahrscheinlichkeit f (β ∗ |X) q(β (t) |β ∗ ) α(β (t) , β ∗ ) = min 1, × f (β (t) |X) q(β ∗ |β (t) ) ! , wobei q(β (t) |β ∗ ) dem Wert der Dichte von MVN B0−1 + X > W (β ∗ )X −1 ! −1 y (β ∗ ) , B0−1 + X > W (β ∗ )X B0−1 β0 + X > W (β ∗ )e an der Stelle β (t) entspricht und analog q(β ∗ |β (t) ) dem Wert der Dichte von MVN B0−1 +X > W (β (t) )X −1 ! −1 −1 > (t) , B0 +X W (β )X y (β (t) ) B0−1 β0 +X > W (β (t) )e an der Stelle β ∗ . 4.8 Bayesianische generalisierte lineare gemischte Modelle Der Prädiktor des GLM aus dem vorherigen Abschnitt wird hier erweitert. Im Folgenden konzentrieren wir uns auf Cluster- und Longitudinaldaten. Bei letzteren lassen sich die Daten für ein Individuum i wie folgt strukturieren: Response yi1 .. . xi11 Kovariablen ... xip1 Zeitpunkt der Beobachtung ti1 .. . yiTi xi1Ti ... xipTi tiTi Dabei sind yi1 , . . . , yiTi korreliert, Ti kann variieren und die Beobachtungszeitpunkte können von Individuum zu Individuum variieren. Die Beobachtungszeitpunkte sollten jedoch nicht informativ für den Response sein. Die folgende Abbildung zeigt schematisch eine solche Datensituation, wie sie zum Beispiel bei einer kontrollierten Studie auftauchen könnte. 116 Diese Art der Daten stellt nicht nur wegen der Abhängigkeit der Beobachtungen eine Herausforderung dar. Häufig sind hier zum Beispiel Drop-Outs und damit fehlende Werte. Oft treten Longitudinaldaten zudem in Kombination mit Survival-Daten auf, zum Beispiel kann yiti , . . . , yiTi der (mit Messfehlern behaftete) Verlauf eines Biomarkers sein. Die Frage ist dann, ob der Biomarkerverlauf prognostisch für die Überlebenszeit ist. Dies führt zu sogenannten joint models (siehe Modelle für Longitudinal- und Überlebenszeitdaten). GLMMs können mit diesem Datentyp gut umgehen, wenn man die sogenannte bedingte Unabhängigkeitsannah” me” akzeptiert: 1. Erweitere den Prädiktor zu > ηit = x> β + zit it |{z} feste Effekte αi |{z} zufällige Effekte in der Annahme, dass αi ∼ MVN(0, Σ). > 1×q kann Kovariablen Dabei ist x> it = (xi1 , . . . , xipt ) der Kovariablenvektor, und zit ∈ R aus xit enthalten und zum Beispiel die Zeit t selbst. Beispiel 4.6 (Random Intercept Modell). Sei ηiti = β0 + β1 ti + αi , αi ∼ N (0, σα2 ), dann haben wir für ein Individuum ηiti1 .. . = ηitTi i: t i1 .. β0 + . β 1 1 tiTi 1 .. . 117 1 .. α . . i 1 |= 2. Wir treffen die bedingte Unabhängigkeitsannahme yit yit0 αi , β für alle t 6= t0 . Diese erlaubt die Darstellung der gemeinsamen Verteilung von (yi1 , . . . , yiTi ) als Produkt der bedingten Verteilungen f (yi1 , . . . , yiTi ) = Ti Y f (yit |αi ). t=1 Ohne diese bedingte Unabhängigkeitsannahme verlieren GLMMs deutlich an Attraktivität. Das volle Setup bei n Individuen sieht wie folgt aus: yi1 xi11 .. .. yi = . , Xi = . yiTi xi1Ti ... xip1 . . . xipTi zi11 .. , Zi = . zi1Ti ... ziq1 . . . ziqTi α1 . , α = .. αn und ηi = Xi β + Zi αi . Zusammenfassend in Matrixnotation ergibt sich: y1 X1 .. .. . = . β+ yn Xn Z1 0 .. . 0 Z2 .. . ··· ··· .. . 0 0 .. . 0 ··· 0 Zn X1 α1 .. = X2 . . .. αn Xn Z1 · · · 0 .. . 0 ··· .. . ··· Die bayesianische Herangehensweise ist hier im Prinzip wie im GLM mit β ∼ MVN(β0 , B0 ) und α ∼ MVN(0, diag(Σ, . . . , Σ)) {z } | (n·q)×(n·q) 118 0 .. . 0 Zn β α1 .. . αn . bzw. β α ∼ MVN β0 0 .. . , diag(B0 , Σ, . . . , Σ) . | {z } 0 (p+nq)×(p+nq) Dabei bezeichnen diag(Σ, . . . , Σ) bzw. diag(B0 , Σ, . . . , Σ) Blockdiagonalmatrizen. Bemerkung. (i) Bei komplexeren Situationen, zum Beispiel bei nicht unabhängigen Individuen, kann diag(B0 , Σ, . . . , Σ) durch eine nicht-blockweise Matrix ersetzt werden. (ii) GLMMs sind hochdimensional, wenn n groß ist. Spezielle Algorithmen zur Optimierung sind notwendig. Zusätzlich wird eine (Hyper-) Prioriverteilung für Σ konstruiert, weil die αi unbeobachtete, latente Variablen sind, d.h. die αi sind zu behandeln wie die εi im linearen Modell; auch dort haben wir für die Varianz eine Priori angenommen. Die Priori könnte zum Beispiel Σ ∼ inv-Wishartν0 (Λ−1 0 ), also 1 −(ν0 +q+1)/2 −1 p(Σ) ∝ |Σ| exp − tr(Σ Λ0 ) , 2 mit resultierender Posteriori Ti n Y Y f (β, α, Σ|y, X) ∝ f (yitj |·) × i=1 j=1 1 > −1 exp − (β − β0 ) B0 (β − β0 ) × 2 ! n X 1 −1 |Σ|−n/2 exp − α> i Σ αi × 2 i=1 1 −(ν0 +q+1)/2 −1 |Σ| exp − tr(Σ Λ0 ) . 2 Ein möglicher Algorithmus zur Simulation der Posteriori ist dann ein blockweiser GibbsSampler. (i) Full-Conditional für den β-Block: Ti n Y Y 1 > −1 f (β|α, Σ, y, X) ∝ f (yitj |·) · exp − (β − β0 ) B0 (β − β0 ) 2 i=1 j=1 lässt sich wie im bayesianischen GLM behandeln, wenn man zusätzlich einen Offset ziT αi verwendet: (t−1) yei (β (t−1) |αi ) = x> + zi> αi + Di−1 [yi − µi (β (t−1) , αi )] i β 119 bzw. (t−1) yei (β (t−1) |αi ) − zi> αi = x> + Di−1 [yi − µi (β (t−1) , αi )] i β ≈ Definiert man y i (β (t−1) |αi ) = yei (β (t−1) |αi ) − zi> αi , so lässt sich der IWLS-MetropolisHastings-Algorithmus aus 4.7.2 zum Ziehen aus dieser Full-Conditional anwenden. (ii) Full-Conditional für den αi -Block: Für i = 1, . . . , n erhält man Ti n Y Y −1 f (αi |β, Σ, y, X) ∝ f (yitj |·) exp −α> i Σ αi . i=1 j=1 Dies lässt sich wieder wie ein GLM mit Offset x> i β interpretieren und mit dem IWLSMH-Algorithmus mit Proposal-Verteilung (t−1) > −1 (t−1) (t−1) (t−1) > −1 −1 MVN [Σ−1 + zi Wi (αi )zi ] zi Wi (αi )[e yi (αi ) − x> + zi Wi (αi )zi ] i β], [Σ behandeln. (iii) Full-Conditional für Σ: n −(n+ν0 +q+1)/2 f (Σ|β, α, y, X) ∝ |Σ| X 1 αi α> exp − tr Σ−1 Λ0 + i 2 !! i=1 Pn entspricht dem Kern einer inv-Wishartν0 +n (Λ0 + i=1 αi α> i )-Verteilung (implizite Dimension q × q); diese lässt sich direkt mit einem geeigneten Zufallszahlengenerator simulieren. Insgesamt hat man also einen blockweisen Gibbs-Sampler mit 1 + n + 1 = n+2 β {αi }ni=1 Σ Blöcken. Verwendet man beim Update von β und αi einen Akzeptanzmechanismus, dann handelt es sich bei dem Gibbs-Sampler genauer gesagt um einen Metropolis-Hastings-withinGibbs-Algorithmus, da die einzelnen Blöcke jeweils mit Metropolis-Hastings erzeugt, am Ende des Durchgangs aber die n+2 Blöcke noch einmal (mit Wahrscheinlichkeit 1) formal akzeptiert werden. 4.9 Hierarchische Modelle Dieser Abschnitt behandelt ein Beispiel aus Gelman, Carlin, Stern und Rubin (2003) zum Tumorrisiko bei Ratten. Durchgeführt wurden 71 Experimente i mit jeweils ni Ratten j: ( 1, Ratte entwickelt Tumor, yij = 0, Ratte entwickelt keinen Tumor. P i Also ist yi = nj=1 yij die Anzahl an Ratten in Experiment i, die einen Tumor entwickeln. Ideen: 120 1. Experiment-spezifische Wahrscheinlichkeiten θi , i = 1, . . . , n, für Tumorentwicklung betrachten, potentiell zurückzuführen auf Heterogenität der Ratten, unterschiedliche experimentelle Bedingungen usw. 2. Alle θi stammen aus einer Population, zum Beispiel einer Beta(α, β)-Verteilung. 3. Anstatt 71 Parameter θ1 , . . . , θ71 direkt aus den Daten zu schätzen, nehmen wir eine Verteilung für die θi an. 4. Ohne weitere Information sind θ1 , . . . , θ71 als exchangeable zu betrachten, d.h. für die gemeinsame Priori von θ = (θ1 , . . . , θ71 ) gilt p(θ|φ) = 71 Y p(θi |φ), i=1 wobei φ die Hyperparameter bezeichnet. Averaging” über φ liefert die marginale Priori ” ! Z Y n p(θ) = p(θi |φ) p(φ) dφ. i=1 Da φ nicht bekannt ist, erhält es eine eigene (Hyper-) Prioriverteilung p(φ), im Beispiel eine Priori für α und β. Struktur des hierarchischen Modells: φ = (α, β) ∼ p(α, β) . . θ1 θ2 ↓ ↓ y1 |θ1 , n1 y2 |θ2 , n2 0/20 0/20 ... ... ... & & θ70 θ71 ↓ ↓ y70 |θ70 , n70 y71 |θ71 , n71 9/24 4/14 Hierarchisches Modell des Beispiels in der top-down Schreibweise: tauchen in der yij |ni , θi ∼ Binomial(ni , θi ) Likelihood auf θi |α, β ∼ Beta(α, β) taucht nicht in der (α, β) ∼ p(α, β) Likelihood auf Die Posteriori für alle Parameter lautet f (θ, α, β|y1 , . . . , y71 ) ! 71 ! 71 Y Y Γ(α + β) ∝ θiyi (1 − θi )ni −yi θα−1 (1 − θi )β−1 · p(α, β). Γ(α)Γ(β) i i=1 i=1 Für feste α, β ist die Posteriori von (θ1 , . . . , θ71 ) das Produkt unabhängiger Posterioris, die jeweils einer Beta(e αi , βei )-Verteilung folgen mit α ei = α + yi , βei = β + (ni − yi ). Genauer: f (θ|α, β, {yij }) = 71 Y i=1 Γ(α + β + ni ) · θiα+yi −1 (1 − θi )β+ni −yi −1 . Γ(α + yi )Γ(β + ni − yi ) 121 Die marginale Posteriori f (θ|α, β, {yij }) von (α, β) ergibt sich über die bereits vielfach verwandte Formel f (θ, α, β|{yij }) f (α, β|{yij }) = . f (θ|α, β, {yij }) Im Beispiel erhält man 71 Y Γ(α + β) Γ(α + yi )Γ(β + ni − yi ) f (α, β|{yij }) ∝ p(α, β) · . Γ(α)Γ(β) Γ(α + β + ni ) i=1 Knackpunkt” ist die nicht-triviale Wahl der Hyperpriori p(α, β): Oft sind keine Anhalts” punkte für die Verteilung der Hyperparameter vorhanden. Die Hyperpriori sollte in diesem Fall möglichst wenig informativ sein, allerdings gleichzeitig so, dass die Posteriori proper ist. Für das Beispiel schlagen Gelman, Carlin, Stern und Rubin (2003) vor, die Hyperparameter in den (kompletten) R2 zu transformieren, zum Beispiel durch α (α, β) 7→ logit , log(α + β) , α+β wobei hier logit(α/(α + β)) = log(α/β). Zur Interpretation sei daran erinnert, dass α/(α + β) dem (Priori-) Erwartungswert einer Betaverteilung entspricht und α + β sich als Priori-Stichprobengröße auffassen lässt. Eine Gleichverteilung auf der transformierten Skala führt jedoch zu einer uneigentlichen Posteriori. Alternativ schlagen obige Autoren folgende Priori vor: α p log , log(α + β) ∝ αβ(α + β)−5/2 . (4.3) β Diese ergibt sich aus einer Gleichverteilung für eine Approximation der Priori-Standardabweichung (α + β)−1/2 , die unabhängig mit einer Gleichverteilung auf dem Priori-Erwartungswert kombiniert wird, d.h. α − 12 p , (α + β) ∝ 1. α+β Die Simulation der Posterioriverteilung f (θ|α, β, {yij }) ist dann wie folgt: 1. Ziehe Zufallszahlen aus f (log(α/β), log(α+β)|{yij }): Dazu wird f (α, β|{yij }) gemäß Dichtetransformationssatz transformiert (unter anderem wird also p(α, β) durch die Hyperpriori (4.3) ersetzt) und dann auf einem feinen Gitter berechnet. (log(α/β), log(α + β))|{yij } kann nun unter Verwendung des CDF-Samplers (Algorithmus 5 auf Seite 95) simuliert werden. 2. Transformiere die in Schritt 1 gezogenen Zufallszahlen auf die ursprüngliche (α, β)-Skala zurück. 3. Ziehe dann für i = 1, . . . , 71 θi |α, β, {yij } gemäß einer Beta(α + yi , β + n − yi )-Verteilung. 4.10 Konvergenzdiagnostik Schwierigkeiten bei statistischer Inferenz entstehen durch iterative Simulation: 122 1. Simulierte Zufallszahlen aus der Posteriori repräsentieren die Zielverteilung eventuell unzureichend (Problem der Startwertewahl, Einfluss der Startwerte auf spätere Ziehungen). 2. MCMC: Zufallszahlen sind korreliert — die Inferenz ist ungenauer, als wenn die gleiche Anzahl unabhängiger Zufallszahlen verwandt würde. Stichwort: effektive Sitchproben” größe”. Strategien: 1. Multiple Sequenzen, die stark über den Parameterraum streuen. 2. Konvergenz-Monitoring. 3. Falls das Mixing” schlecht ist (der Parameterraum wird unzureichend exploriert, vor” wiegend Bewegung entlang weniger lokaler Maxima der Zielverteilung usw.), sollte der Algorithmus geändert werden. Bezüglich Punkt 2 schlagen Gelman, Carlin, Stern und Rubin (2003) für skalaren Parameter vor: • Generiere m parallele Sequenzen der Länge n ≥ 2 nach Entfernen der Burnin-Werte, also {ψij } für i = 1, . . . , n, j = 1, . . . , m. • Berechne die Varianz zwischen den Sequenzen und innerhalb jeder Sequenz: Setze n ψ ·j = 1X ψij , n m ψ ·· = i=1 und definiere 1 X ψ ·j m j=1 m 1 X B =n· (ψ ·j − ψ ·· )2 m−1 j=1 sowie m W = 1 X 2 sj m n mit s2j = j=1 1 X (ψij − ψ ·j )2 . n−1 i=1 Betrachte dann folgende Schätzung für die marginale Posteriori-Varianz: d + (ψ|y) = n − 1 W + 1 B. Var n n Die Varianz für ψ wird in der Regel überschätzt. Die Schätzung ist jedoch für n → ∞ unverzerrt. W allein unterschätzt in der Regel die Varianz, aber lim E[W ] = Var(ψ|y). n→∞ 123 • Führe nun ein Monitoring für die Größe s b= R d + (ψ|y) Var W b groß ist, erhält man potentiell eine Verbesmit R → 1 für n → ∞ durch, d.h. wenn R serung der Inferenz, wenn weitere Simulationen durchgeführt werden. • Also: b groß: Lasse Simulation weiter laufen. (a) Wenn R b nahe” 1: Verwende alle m · n Werte für Posteriori-Inferenz. Die optimale (b) Wenn R ” b b < 1.1. Größe von R ist wiederum ein Tuning-Parameter, zum Beispiel R Erfolg ist allerdings nicht garantiert. Die Methode funktioniert gut bei approximativ normaler marginaler Posteriori, ist jedoch weniger geeignet, wenn Interesse an den extremen Quantilen besteht. • Effektive Anzahl unabhängiger Ziehungen: neff d + (ψ) Var =m·n· . W Dabei sollte m nicht zu klein sein, da sonst B wiederum schlecht geschätzt wird. Obige Methode ist im R-Paket coda (convergence diagnostics and output analysis) implementiert. 4.11 Modellwahl und Modellkritik Modellwahl ist ein weites Feld, auch in Likelihood-basierter Inferenz. Generelle Strategien sind schwierig zu finden, da in der Regel eine Abhängigkeit vom Kontext (Substanzwissenschaft) und Randbedingungen (zum Beispiel randomisierte Studie oder Beobachtungsstudie) oder auch dem signal-to-noise-ratio (kontrolliertes experimentelles Umfeld oder starke Heterogenität) besteht. Sensitivitätsanalyse: • Einfluss der Priori auf Ergebnisse. • Einfluss des Modells (Likelihood) auf Güte der Vorhersagen. Welche Fälle werden schlecht durch das Modell beschrieben? Modellwahl: Typischerweise, zum Beispiel bei einem Regressionmodell, erfolgt eine Auswahl der Kovariablen; nested versus non-nested” Situation. ” 124 Ein populärer Vorschlag zur Modellwahl ist das DIC (Deviance Information Criterion). Wie das AIC und BIC ist das DIC eine asymptotische Approximation und nur anwendbar, falls die Posteriori approximativ multivariat normal ist. Allgemein ist die Devianz für Daten y und Parameter(-vektor) θ definiert als D(y, θ) = −2 log f (y|θ) + C(y). Beurteilt man Modelle nach der Devianz, so ist ein Modell umso besser, je kleiner diese ist. Das DIC kann aus den generierten Samples der MCMC-Simulation berechnet werden. Sei θ1 , . . . , θL eine generierte Sequenz. Die erwartete Devianz bezüglich der Posterioriverteilung von θ ist E[D(y, θ)|y] und wird durch L D= 1X D(y, θl ) L l=1 geschätzt. Dies ist ein Maß dafür, wie gut das Modell an die Daten angepasst ist (je kleiner, umso besser). Die effektive Anzahl der Parameter in einem bayesianischen Modell ist pD = D − D(θ), wobei zum Beispiel L θ= 1X l θ L l=1 die Schätzung des Posteriori-Mittelwerts von θ und D(θ) die Devianz, ausgewertet an θ, ist. Für ein lineares Modell mit Normalverteilungsannahme entspricht pD der Anzahl unrestringierter Parameter im Modell. Das DIC ist dann definiert als DIC = 2D − D(θ) = D + pD . Hinweis: D prediction = E[D(y rep , θ)] " n # 1 X rep rep = E (yi − E[yi |y])2 , n i=1 wobei der Erwartungswert bezüglich der a posteriori prädiktiven Verteilung zu verstehen ist. prediction Es ist D ≈ DIC. 125 Kapitel 5 Einführung in Bootstrap Literatur zum Thema: - Efron B., Tibshirani R.J.: An Introduction to the Bootstrap (1993) - Hall P.: The Bootstrap and Edgeworth Expansion (1992) - Davison A.C.: Recent Developments in Bootstrap Methodology, Statistical Science (2003), Vol. 18, No. 2, pp. 141-157 5.1 Einführung - Bootstrap (engl.): Stiefelriemen, Stiefelschlaufe - Sich selbst am Schopf aus dem Sumpf ziehen” → Lügenbaron Münchhausen (mit Pferd) ” - Computergestützte Methode - Beruht auf wiederholtem Ziehen (Resampling) aus den beobachteten Daten. - Ziel: Schätzung von Varianz, Bias oder Verteilung einer Statistik T = T (X1 , . . . , Xn ), Konfidenzintervalle, Tests. - Wann? In Situationen, in denen (a) asymptotische Aussagen fragwürdig sind (kleine Stichprobenumfänge), (b) analytische Berechnungen sehr kompliziert oder unmöglich sind, zum Beispiel wenn keine parametrischen Verteilungsannahmen gemacht werden sollen. → Bootstrap für nichtparametrische Schätzungen. - Funktioniert Bootstrap” immer? Nein, nicht immer (Bootstrap kann inkonsistent sein), ” aber oft. 126 5.1.1 Grundidee i.i.d. Einstichproben-Problem: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt Interessierende Statistik: T (X) Beobachtete Daten: x = (x1 , x2 , . . . , xn ) → T (x) Bootstrap-Stichprobe: Ziehe n mal mit Zurücklegen zufällig aus (x1 , . . . , xn ). Wir erhalten x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ ). Beispiel: x = (1, 2, 5), n = 3. x∗ = (1, 1, 5) ist eine mögliche Bootstrap-Stichprobe. Also: (1) Werte aus der ursprünglichen Stichprobe x können in der Bootstrap-Stichprobe (i) einmal vorkommen, (ii) mehrfach vorkommen, (iii) gar nicht vorkommen. 127 (2) Die Bootstrap-Stichprobe hat ebenfalls Stichprobenumfang n. Skizze: x = (x1 , . . . , xn ) Daten @ @ ... @ @ @ @ x∗1 x∗2 x∗B T (x∗1 ) T (x∗2 ) T (x∗B ) ... B: Anzahl von Bootstrap-Stichproben Mit den berechneten Statistiken T (x∗1 ), . . . , T (x∗B ) lassen sich Aussagen über die Verteilung von T gewinnen, zum Beispiel ( ) B h i2 X 1 d Boot (T ) = VarF (T ) ≈ Var T (x∗b ) − T̄Boot B−1 b=1 mit T̄Boot = B 1 X T (x∗b ). B b=1 5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip i.i.d. X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt x = (x1 , x2 , . . . , xn ) Daten Empirische Verteilungsfunktion: n F̂n (x) = 1X I(xi ≤ x), n i=1 wobei I die Indikatorfunktion ist. Plug-In-Prinzip: F durch Fˆn ersetzen. 128 Beispiel 5.1. Z T (F ) = µ = xdF (x) Z T (F̂n ) = xdF̂n (x) = n X xi P̂n (X = xi ) (o.w.E. seien alle xi verschieden) i=1 n = 1X xi = x̄ n i=1 Plug-In-Prinzip hat Sinn, wenn keine weiteren Informationen über F vorhanden sind außer der Stichprobe. → nichtparametrisches Setup” ” 5.1.3 Reale Welt und Bootstrap-Welt Wiederum Einstichproben-Fall: ' $' $ Reale Welt Bootstrap Welt F → x = (x1 , . . . , xn ) F̂n → x∗ = (x∗1 , . . . , x∗n ) - ? ? θ̂∗ = T (x∗ ) θ̂ = T (x) & %& % • Die unbekannte Verteilung F liefert x als Zufallsstichprobe. • Die empirische Verteilung F̂n liefert x∗ als zufällige Bootstrap-Stichprobe. • Die interessierende Statistik θ̂ = T (x) ist Funktion der Zufallsstichprobe. • Die Bootstrap-Replikation θ̂∗ = T (x∗ ) ist Funktion der Bootstrap-Stichprobe. ⇒ Im Allgemeinen kann F bzw. F̂n in obiger Abbildung durch ein geschätztes Wahrscheinlichkeitsmodell P bzw. P̂n ersetzt werden. 129 5.1.4 Die ideale Bootstrap-Verteilung Daten x = (x1 , x2 , . . . , xn ). Frage: Wie viele verschiedene Bootstrap-Stichproben gibt es? Beispiel 5.2. Sei x = (1, 2, 5). Die Anordnung spielt hier keine Rolle. Wegen n = 3 gibt es 10 verschiedene Bootstap-Stichproben (wenn alle xi verschieden sind): (1, 1, 1), (2, 2, 2), (5, 5, 5), (1, 1, 2), (1, 1, 5), (2, 2, 5), (1, 2, 2), (1, 5, 5), (2, 5, 5), (1, 2, 5). Die ideale Bootstrap-Schätzung ist die, welche sich durch Berücksichtigung aller möglichen Bootstrap-Stichproben ergibt. Die ideale Bootstrap-Schätzung zum Beispiel für die Varianz von θ̂ = median(X) in Beispiel 5.2 wäre dabei die Varianz über die 10 Bootstrap-Stichproben. Dabei ist allerdings zu berücksichtigen, dass die Stichproben mit unterschiedlicher Wahrscheinlichkeit gezogen werden. Beispiel 5.3 (Fortsetzung von Beispiel 5.2). Mit Hilfe der Multinomialverteilung erhält man 3 0 0 3 1 1 1 1 1 = = , 3 3 3 3 27 0 1 2 3 3! 1 1 1 1 1 = · =3· = , 0!1!2! 3 3 3 3 9 3 3! 1 1 1 1 2 = · =6· = , 1!1!1! 3 3 3 3 9 P x∗ = (1, 1, 1) = P x∗ = (2, 5, 5) P x∗ = (1, 2, 5) 3! · 3!0!0! denn zum Beispiel (2, 5, 5) = ˆ (5, 2, 5) = ˆ (5, 5, 2) =(1, ˆ 2, 5) = ˆ ... = ˆ (5, 2, 1). Betrachte θ̂ = median(X). Dann ist θ̂(x) = 2 die Schätzung aus der Stichprobe und 3 1 (1 − c)2 + (2 − c)2 + (5 − c)2 VarF̂n (θ̂ ) = 3 ∗ + 3 · [(1 − c)2 + (1 − c)2 + (2 − c)2 + (2 − c)2 + (5 − c)2 + (5 − c)2 ] + 6 · (2 − c)2 = 2.32, wobei 3 1 [1 + 2 + 5 + 3 · (1 + 1 + 2 + 2 + 5 + 5) + 6 · 2] 3 3 3 1 1 68 = [8 + 3 · 16 + 12] = · 68 = ≈ 2.5 3 3 27 ¯ c = θ̂∗ = der Mittelwert aller geschätzten Mediane ist. 130 Allgemein gibt es, sofern alle n Datenpunkte x1 , . . . , xn verschieden sind, Bootstrap-Stichproben. 5 n=3: = 10 3 29 n = 15 : = 77 558 760 15 39 n = 20 : = 68 923 264 410 20 2n−1 n mögliche Das heißt, wenn n nicht sehr klein ist, dann ist es praktisch nicht möglich, die ideale Bootstrap Verteilung zu verwenden. Stattdessen begnügt man sich mit einer Anzahl B 2n−1 von n Bootstrap-Stichproben. 5.2 Bootstrap–Schätzung eines Standardfehlers i.i.d. Einstichproben-Fall: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt Daten: x = (x1 , . . . , xn ) Ziel dieses Abschnitts ist die Schätzung des Standardfehlers eines Schätzers θ̂ = θ̂(X) für θ = T (F ). Hierbei kann θ̂(X) die Plug-In-Schätzung T (F̂n ) sein, muss aber nicht. Frage: Wie gut ist die Schätzung θ̂? 5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers Algorithmus 12 : Bootstrap-Algorithmus zur Schätzung des Standardfehlers 1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne θ̂∗ (b), b = 1, . . . , B. q 3. Schätze den Standardfehler seF (θ̂) = VarF (θ̂) durch ( se bB = B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 ) 12 b=1 mit θ̂∗ (·) = B 1 X ∗ θ̂ (b). B b=1 Die Bootstrap-Schätzung für den Standardfehler seF (θ̂) einer Schätzung θ̂ (Daten aus F ) ist also der Standardfehler für zufällige Stichproben vom Umfang n gezogen aus F̂n mit Zurücklegen. Es gilt: lim se b B = seF̂n (θ̂∗ ). B→∞ 131 Die ideale Bootstrap-Schätzung seF̂n (θ̂∗ ) und die Approximation se b B werden oft als nichtparametrische Bootstrap-Schätzung bezeichnet, da sie nur auf F̂n beruhen und F̂n die nichtparametrische Schätzung für F ist. → Abschnitt 5.2.3: Parametrischer Bootstrap (F wird nicht mehr durch F̂n geschätzt). Beispiel 5.4. Zwei (quasi-) stetige Merkmale Y und Z werden an n Individuen erhoben, d.h. X = ((Y1 , Z1 ), (Y1 , Z1 ), . . . , (Yn , Zn )) , i.i.d. (Yi , Zi ) ∼ FY,Z . Gesucht: Schätzung für den Standardfehler des Korrelationskoeffizienten von Y und Z. 5.2.2 Anzahl der Replikationen Die Anzahl der Replikationen B wird durch folgende Überlegungen bestimmt: (i) Praktische Überlegungen: Wenn θ̂(x∗ ) eine komplizierte Funktion von x∗ ist, dann wird B kleiner sein müssen als wenn θ̂(x∗ ) eine einfache Funktion von x∗ ist. (ii) Genauigkeitsüberlegungen: Es gilt Var(se b B ) > Var seF̂n (θ̂∗ ) . | {z } ideale Bootstrap-Schätzung Die Frage ist, um wieviel die Varianz von se b B größer ist. Aus theoretischen Überlegungen ergibt sich, dass B = 200 im Einstichproben-Problem in der Regel ausreichend ist zur Schätzung eines Standardfehlers. Für Konfidenzintervalle werden deutlich mehr Replikationen benötigt (B ≈ 2000). 5.2.3 Parametrischer Bootstrap Definition 5.1. Die parametrische Bootstrap-Schätzung des Standardfehlers ist definiert durch seF̂n,par (θ̂∗ ) , wobei F̂n,par eine Schätzung von F, abgeleitet aus einem parametrischen Modell, ist. Beispiel 5.5. Sei X = ((Y1 , Z1 )0 , ..., (Yn , Zn )0 ) mit Yi i.i.d. ∼ FY,Z . Zi Annahme: FY,Z sei eine bivariate Normalverteilung und ȳ µ̂ = , z̄ Pn Pn 1 (yi − ȳ)2 (yi − ȳ)(zi − z̄) i=1 i=1 P P Σ̂ = . n n 2 n i=1 (yi − ȳ)(zi − z̄) i=1 (zi − z̄) 132 Das heißt, wir verwenden jetzt F̂n,par = N2 (µ̂, Σ̂) als Schätzung für F , und statt BootstrapStichproben aus den Daten zu ziehen, ziehen wir Bootstrap-Stichproben aus dieser bivariaten Normalverteilung: x∗1 x∗B = ((Y1∗1 , Z1∗1 )0 , . . . , (Yn∗1 , Zn∗1 )0 ) .. . = ((Y1∗B , Z1∗B )0 , . . . , (Yn∗B , Zn∗B )0 ) ∼ N2 (µ̂, Σ̂). Danach geht es weiter wie gewohnt! Beispiel 5.6 (Standardfehler für die Schätzung des Korrelationskoeffizienten θ). (i) Vergleich mit der Formel für die bivariate Normalverteilung: 1 − θ̂2 . se b N2 (µ,Σ) (θ̂) = √ n−3 (ii) Vergleich nach Fisher-Transformation: ! " 2 # 1 + θ̂ 1 1 + θ 1 1 approx. ∼ N log , √ . ξˆ = log 2 2 1−θ n−3 1 − θ̂ Um dieses Resultat auszunutzen, könnte Inferenz für ξˆ betrieben und anschließend durch Rücktransformation auf den wahren Korrelationskoeffizienten θ übertragen werden. 5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt i.i.d. Betrachte X = (X1 , . . . , Xn ) mit Xi ∼ Unif(0, θ). Bekannt sei das Maximum θ̂ML = X(n) . n Die Wahrscheinlichkeit, dass X(n) nicht in der Bootstrap-Stichprobe auftritt, ist 1 − n1 . Die Wahrscheinlichkeit, dass X(n) in der Bootstrap-Stichprobe vorkommt, ist also 1 n 1− 1− → 1 − e−1 ≈ 0.632 für n → ∞ . n Das heißt P (θ̂∗ = θ̂ML ) ≈ 0.632 für n → ∞, die Verteilung von θ̂∗ legt also eine Wahrscheinlichkeitsmasse von 0.632 auf den ML-Schätzer. Dieser wird also reproduziert und es gibt damit keinen Informationsgewinn aus diesen Stichproben! Problem: F̂n ist keine gute Schätzung für F in den extremen Bereichen von F . Beim parametrischen Bootstrap gilt dagegen X ∗ = (X1∗ , . . . , Xn∗ ) mit Xi∗ ∼ Unif(0, θ̂M L ) und deshalb P(θ̂∗ = θ̂M L ) = 0 . Also: Nichtparametrischer Bootstrap kann schiefgehen! 133 5.2.5 Zweistichproben-Problem für unabhängige Stichproben Seien Y1 , . . . , Y n i.i.d. ∼ F ) unabhängig, zum Beispiel i.i.d. Z1 , . . . , Z m ∼ G F : Behandlung G : Kontrolle und X = (Y1 , . . . , Yn , Z1 , . . . , Zm ) bzw. x = (y1 , . . . , yn , z1 , . . . , zm ). Ziel: Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ . |{z} |{z} E(Yi ) E(Zi ) Betrachte θ̂ = ȳ − z̄ . Vorgehen bei der b-ten Bootstrap-Stichprobe: y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n ∗b z ∗b = (z1∗b , . . . , zm ) zufällig mit Zurücklegen aus Ĝm Schätzung: ( se b F,G (θ̂) = seF̂n ,Ĝm (θ̂∗ ) ≈ se bB = |{z} | {z } | {z } Real World ideale Schätzung in der BootstrapWorld θ̂∗ (b) = ȳ ∗b − z̄ ∗b = θ̂∗ (·) = n m i=1 i=1 1 X ∗b 1 X ∗b yi − zi n m B B 1 X ∗b 1 X ∗ (ȳ − z̄ ∗b ) = θ̂ (b) . B B b=1 5.2.6 ) 12 b=1 Approx. der idealen BootstrapSchätzung mit und B i2 1 Xh ∗ θ̂ (b) − θ̂∗ (·) B−1 b=1 Bootstrap für eine Zeitreihe Betrachte die Zeitreihe y1 , y2 , . . . , yT und die zentrierte Zeitreihe z1 , z2 , . . . , zT mit zt = yt − ȳ für t = 1, . . . , T . Annahmen: Es handelt sich um einen AR(1)-Prozess zt = βzt−1 + εt (t = 2, . . . , T ) i.i.d. mit Anfangsbedingung z1 , |β| < 1 und εt ∼ F für t = 2, . . . , T , F unbekannt und E(εt ) = 0. Die KQ-Schätzung für β lautet: T X (zt − βzt−1 )2 → min → β̂. β t=2 134 (Da hier keine Verteilungsannahme getroffen wurde, ist ML-Schätzung nicht möglich.) Gesucht: Schätzung für seF,β (β̂). Idee: Berechne Residuen ε̂2 ε̂T = z2 − β̂z1 , .. . = zT − β̂zT −1 . T − 1 Residuen Bezeichne mit F̂T −1 die empirische Verteilungsfunktion der ε̂2 , . . . , ε̂T . Dann erhält man die b-te Bootstrap-Stichprobe wie folgt: ∗b (i) Ziehe ε∗b 2 , . . . , εT zufällig mit Zurücklegen aus F̂T −1 . (ii) Berechne rekursiv z1 = y1 − ȳ z2∗b = β̂z1 + ε∗b 2 z3∗b = β̂z2∗b + ε∗b 3 .. . zT∗b = β̂zT∗b−1 + ε∗b T . (iii) Ermittle β̂ ∗b mittels KQ aus z2∗b , . . . , zT∗b . Damit: ( se b F,β (β̂) = seF̂T −1 ,β̂ (β̂ ∗ ) ≈ se b B (β̂ ∗ ) = mit β̂ ∗ (·) = 1 B−1 B h X β̂ ∗b − β̂ ∗ (·) i2 b=1 B 1 X ∗b β̂ . B b=1 Andere Idee: Moving Block Bootstrap” (vgl. Efron und Tibshirani, 1993). ” 5.3 5.3.1 Bootstrap-Konfidenzintervalle Einleitung Übliches 90%-Konfidenzintervall: θ̂ ± 1.645 · se. b Übliches 95%-Konfidenzintervall: θ̂ ± 1.96 · se. b 135 ) 12 Dabei kann se b auch Bootstrap-Schätzung sein. Die Begründung dafür ist meist: θ̂ − θ approx. ∼ N (0, 1) (asymptotische Aussage) . se b Die asymptotische Verteilung ist (approximativ) unabhängig von θ; Z wird approximatives Pivot genannt. Z= Wenn n klein ist, können die Quantile der Normalverteilung durch die Quantile der t-Verteilung ersetzt werden: (1−α/2) θ̂ ± tn−1 Idee: · se b . Annahme der Normalverteilung vermeiden, Verteilung von Z aus den Daten schätzen. Dies wird in den folgenden Abschnitten beschrieben. 5.3.2 Bootstrap-t-Intervall Betrachte Z= θ̂ − θ , se b (5.1) wobei se b zunächst irgendeine vernünftige” Schätzung des Standardfehlers von θ̂ darstellt. ” Idee: Schätze Verteilung von Z wie folgt: 1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B . 2. Berechne Z ∗ (b) = θ̂∗ (b) − θ̂ , se b ∗ (b) wobei se b ∗ (b) eine Schätzung des Standardfehlers von θ̂∗ (b) ist. Ordne die Z ∗ (b) aufsteigend der Größe nach. 3. Schätze die Quantile t̂(α) und t̂(1−α) (für ein (1 − 2α)-Konfidenzintervall) als # Z ∗ (b) ≤ t̂(α) =α. B Dabei bezeichnet #A die Kardinalität einer Menge A. Beispiel: Für B = 1000 ist t̂(0.05) der 50. Wert der geordneten Z ∗ (b)-Werte, t̂(0.95) ist der 950. Wert der geordneten Z ∗ (b)-Werte. 4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann h i θ̂ − t̂(1−α) · se, b θ̂ − t̂(α) · se b mit se b aus Formel (5.1). Analogie zur t-Verteilung: h i θ̂ − t1−α · se, b θ̂ + t1−α · se b 136 (t1−α = −tα ) . Beachte: Wenn Bα nicht ganzzahlig ist und α ≤ 21 , dann wähle k = b(B + 1)αc, das ist die größte ganze Zahl ≤ (B + 1)α. Die empirischen Quantile sind dann der k-te Wert der geordneten Z ∗ (b)-Werte und der (B + 1 − k)-te Wert. Probleme: 1. Das Bootstrap-t-Intervall kann stark durch Ausreißer beeinflusst werden. 2. Betrachte nochmals Z ∗ (b) = θ̂∗ (b) − θ̂ . se b ∗ (b) Wie kann man se b ∗ (b) schätzen? (i) Wenn θ̂ der Mittelwert ist: 1 se b (b) = n ∗ ( n X )1 2 (x∗b i ∗b 2 − x̄ ) (Plug-In-Schätzung). i=1 (ii) Wenn θ̂ komplizierter bzw. keine Standardformel verfügbar ist: → Nested Bootstrap: Es ist eine Bootstrap-Schätzung des Standardfehlers für jede Bootstrap-Stichprobe notwendig, zum Beispiel sind für B = 1000 und B ∗ = 50 BB ∗ = 1000 · 50 = 50 000 Stichproben notwendig. Wir samplen also auf zwei verschachtelten Ebenen: Real World → Bootstrap-World → Nested Bootstrap-World. Vorteil: Dieser Vorgang ist parallelisierbar (im Gegensatz zu MCMC, wo die Kette nicht parallelisierbar ist). 137 3. Das Bootstrap-t-Intervall wird von der Skala des Parameters beeinflusst, es ist nicht invariant gegenüber Transformationen. Bei kleinen Stichproben in nichtparametrischem Setup kann irreguläres Verhalten auftreten; hier kann jedoch eine Transformation der Parameter zuverlässigere Ergebnisse liefern. Beispiel 5.7 (Transformation des Korrelationskoeffizienten). Sei θ der Korrelationskoeffizient. Ein Konfidenzintervall für θ können wir auf die folgenden zwei Weisen erhalten: (i) Bootstrap-t-Intervall für θ direkt. (ii) Bootstrap-t-Intervall für 1 φ = log 2 1+θ 1−θ (Fishersche Z-Transformation) und dann Rücktransformation der Endpunkte mittels der Umkehrung θ= e2φ − 1 e2φ + 1 liefert ein kürzeres (= besseres) Konfidenzintervall als das Intervall in (i). Ergebnis: 1. 2. 5.3.3 Idee: Bootstrap-t nur für einfache Probleme verwenden, wenn θ ein Lokalisationsparameter, zum Beispiel Median, trimmed mean oder Quantil ist. In komplexen Fällen ist eine Varianzstabilisierung notwendig. Bootstrap-Perzentil-Intervall Verwende direkt die empirische Verteilung der Schätzer θ̂∗ aus den B BootstrapStichproben. Also: 1. Ziehe x∗1 , . . . , x∗B B Bootstrap-Replikationen ↓ ↓ ∗ ∗ θ̂ (1), . . . , θ̂ (B) mit θ̂∗ (b) = T (x∗b ). ∗ , . . . , θ̂ ∗ . 2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1) (B) 3. Berechne Bα und B(1 − α) (bzw. bei nicht-ganzzahliger Anzahl eine Modifikation wie ∗(α) ∗(1−α) in Abschnitt 5.3.2) und bezeichne mit θ̂B bzw. θ̂B die Werte an den jeweiligen Positionen in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist i h i h ∗(α) ∗(1−α) θ̂lower , θ̂upper = θ̂B , θ̂B ein approximatives (1 − 2α)-Konfidenzintervall. Beispiel: Für B = 2000 und α = 0.05 wähle den 100. und 1900. Wert aus der geordneten Liste. Alternative Schreibweise: Bezeichne mit ĜB die empirische Verteilung der θ̂∗ . Dann ist h i h i θ̂lower , θ̂upper = Ĝ−1 (α), Ĝ−1 (1 − α) . 138 Vorteile der Perzentil-Methode: (i) Sie ist invariant gegenüber (streng monotonen) Transformationen. (ii) Sie ist range-preserving, d.h. das Perzentil-Intervall liegt im zulässigen Bereich des Parameters. Beispiel: Für den Korrelationskoeffizienten liegt das Intervall der Perzentil-Methode im Bereich [−1, 1]. Problem: In der Regel Unterdeckung, d.h. die Intervalle sind häufig zu optimistisch. Lemma 5.2 (Perzentil-Intervall-Lemma). Seien φ = m(θ) und φ̂ = m(θ̂) eineindeutige Transformationen. Angenommen, φ̂ = m(θ̂) normalisiere die Verteilung von θ̂ perfekt, d.h. φ̂ exakt, nicht nur approx. ∼ N (φ, c2 ) für eine Standardabweichung c. Dann ist das Perzentil-Intervall basierend auf θ̂ gleich h i m−1 (φ̂ − z (1−α) · c), m−1 (φ̂ − z (α) · c) mit den Quantilen z (α) , z (1−α) der Standardnormalverteilung. Das Lemma besagt, dass die Perzentil-Methode immer die korrekte Transformation wählt. Diskussion: • Die Perzentil-Methode ist sehr einfach. • Die Perzentil-Methode ist nicht der Weisheit letzter Schluss. Wenn θ̂ ein Schätzer mit Bias ist, gibt es Alternativen. 139 Kapitel 6 Einführung in Non- und Semiparametrische Inferenz Siehe Kapitel 7 aus dem Skript zu Schätzen und Testen II im Sommersemester 2008 (insbesondere Abschnitte 7.1, 7.3, 7.4) und den Habilitationsvortrag von Thomas Kneib. 140