Schätzen und Testen I Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz, Susanne Heim WS 2007/08 Formelsammlung zur Vorlesung Schätzen und Testen I 1 Einführung in statistische Modelle und Inferenzkonzepte 1.1 Statistische Entscheidungstheorie Entscheidungsfunktion: d: X → ∆ x 7→ d(x) Verlustfunktion: L:∆×Θ → R (d, θ) 7→ L(d, θ) Risikofunktion: R(d; θ) = = Eθ [L(d(X); θ)] Z L(d(x); θ)f (x|θ) dx X Minimax-Entscheidungsregel: Eine Entscheidungsregel d∗ : X → ∆ heißt Minimax, falls sie das supremale Risiko minimiert: sup R(d∗ ; θ) ≤ sup R(d; θ)∀d ∈ D ⇔ d∗ = arg inf sup R(d; θ) θ∈Θ θ∈Θ Bayes-Risiko: Z r(d; p) = R(d; θ)p(θ) dθ Θ = Ep [R(d; θ)] = Ep Eθ [L(d(X); θ)] Z Z = L(d(x); θ)f (x|θ) dx p(θ) dθ Θ X Bayes-optimaler Schätzer: d∗ mit r(d∗ ; p) = inf r(d; p) d∈D Posteriori-Bayes-Risiko: Z L(d(x); θ)p(θ|x) dθ = Eθ|x [L(d(x) θ)] Θ mit p(θ|x) (eigentliche) Posteriori-Dichte. d∈D θ∈Θ Formelsammlung zur Vorlesung Schätzen und Testen I 2 2 Klassische Schätz- und Testtheorie 2.1 Klassische Schätztheorie Suffizienz def T heißt suffizient für θ (oder auch für P) ⇔ die bedingte Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t unabhängig von θ, d.h. fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t). Faktorisierungssatz, Neyman-Kriterium T ist suffizient für θ ⇔ f (x|θ) = h(x)g(T (x)|θ) für fast alle x. Minimalsuffizienz def Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit T (x) = H(V (x)) P − fast überall. Verallgemeinerungen des MSE auf θ ∈ Rp 1. MSE (skalar): (1) b MSEθ (θ) Eθ [kθb − θk2 ] p X = Eθ [(θbj − θj )2 ] = j=1 2. MSE-Matrix: (2) b MSEθ (θ) = = Eθ [(θb − θ)(θb − θ)> ] b + (Eθ [θ] b − θ)(Eθ [θ] b − θ)> Covθ (θ) Fisher-reguläre Verteilungsfamilien Eine Familie von Verteilungen Pθ mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär, wenn gilt: 1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ. 2. Θ ist offen in Rp . 3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ endliche Funktionen von x. 4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites Differenzieren nach θ und Integration über x vertauscht werden. Log-Likelihood, Scorefunktion und Information `(θ; x) = s(θ; x) = J(θ; x) = − I(θ) = log f (x|θ) (log-Likelihood von θ bzgl. der Stichprobe x) > ∂ ∂ ∂ `(θ; x) = `(θ; x), . . . , `(θ; x) (Score-Funktion) ∂θ ∂θ1 ∂θp ∂ 2 `(θ; x) ∂θ∂θ> Eθ [J(θ; X)] (beobachtete Informationsmatrix der Stichprobe mit Elementen ∂ 2 log f (x|θ) (J(θ; x))ij = − ∂θi ∂θj (erwartete oder Fisher-Informationsmatrix) Formelsammlung zur Vorlesung Schätzen und Testen I 3 Für X1 , . . . , Xn i.i.d wie X1 ∼ f (x|θ) I(θ) = Eθ [J(θ)] = n · i(θ), wobei 2 ∂ log f (X; θ) ∂ `(θ; X) = Covθ i(θ) = Eθ − . ∂θ∂θ> ∂θ Informationsungleichungen Sei f (x|θ) Fisher-regulär. 1. Ist θb erwartungstreu für θ, so gilt: b ≥ I −1 (θ). Covθ (θ) b − I −1 (θ) ist positiv semidefinit. ” ≥” heißt: Covθ (θ) 2. Ist T erwartungstreu für τ (θ), so gilt Covθ (T ) ≥ H(θ)> I −1 (θ)H(θ) mit der Funktionalmatrix (H(θ))ij = ∂ ∂θi τj (θ). Rao-Blackwell Sei T = T (x) suffizient für θ bzw. Pθ und θb erwartungstreu für θ. Für den Schätzer b ] θbRB = Eθ [θ|T (’Rao-Blackwellization’) gilt: 1. θbRB ist erwartungstreu für θ. b 2. Varθ (θbRB ) ≤ Varθ (θ). Asymptotische Eigenschaften und Kriterien def • θbn heißt asymptotisch erwartungstreu ⇔ lim Eθ [θbn ] = θ n→∞ für alle θ. P def • θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔ lim Pθ (|θbn − θ| ≤ ε) = 1 n→∞ für alle ε > 0 und alle θ. def • θbn heißt MSE-konsistent für θ ⇔ lim MSEθ (θbn ) = 0 für alle θ. Pθ ( lim θbn = θ) = 1 für alle θ. n→∞ def • θbn ist stark konsistent für θ ⇔ n→∞ • Asymptotische Normalität des KQ-Schätzers im linearen Modell: (D) Divergenzbedingung: Für n → ∞ gilt (Xn> Xn )−1 → 0 ⇔ λmin (Xn> Xn ) → ∞. (N) Normalitätsbedingung: > −1 max x> xi → 0 für n → ∞. i (Xn Xn ) i=1,...,n Formelsammlung zur Vorlesung Schätzen und Testen I 4 Es gilt: D (Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I), a βbn ∼ N (β, σ 2 (Xn> Xn )−1 ), n groß. Asymptotische Normalität √ 1. Mit n-Normierung: def θbn heißt asymptotisch normalverteilt für θ ⇔ √ D n(θbn − θ) → N (0, V (θ)) für n → ∞ mit (nicht negativ definiter) asymptotischer Kovarianzmatrix V (θ). 2. Mit Matrix-Normierung: def θbn heißt asymptotisch normal für θ ⇔ es existiert eine Folge von Matrizen An mit λmin (An ) → ∞, so dass D b A1/2 n (θn − θ) → N (0, V (θ)). Delta-Methode Sei h : Rp → Rk , k ≤ p 1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt: √ D n(θbn − θ) → N (0, V (θ)) ⇒ √ D n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ)). 2. θ vektoriell: Sei θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))> mit der Funktionalmatrix (H(θ))ij = ∂hi (θ) . ∂θj Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt: √ D n(θbn − θ) → N (0, V (θ)) ⇒ √ D n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ). Asymptotische Cramer-Rao Ungleichung Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt: 1. Aus √ D n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ). √ D 2. Aus n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt D(θ) ≥ H(θ)i−1 (θ)H(θ)> mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel). Bester asymptotisch normaler (BAN)-Schätzer θbn heißt BAN-Schätzer, falls in 1. oben gilt: V (θ) = i−1 (θ). Transformation von BAN-Schätzern θbn BAN-Schätzer für θ ⇒ h(θbn ) ist BAN-Schätzer für h(θ). Formelsammlung zur Vorlesung Schätzen und Testen I 2.2 5 Klassische Testtheorie Randomisierter Test 1, φ(x) = γ(x), 0, x ∈ B1 x ∈ B10 x ∈ B0 B1 strikter Ablehnungsbereich B0 strikter Annahmebereich B10 Randomisierungsbereich, Indifferenzbereich bzw. mit Teststatistik T = T (X) 1, T (x) > c φ(x) = γ, T (x) = c 0, T (x) < c Güte(funktion) eines Tests φ 1. gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion. gφ (θ) = Pθ (A1 ) Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0 1 − gφ (θ) = Pθ (A0 ) Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1 2. α(φ) = sup Pθ (A1 ) = sup gφ (θ) θ∈H0 heißt (tatsächliches) Niveau (level, size) von φ. θ∈H0 β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ) θ∈H1 ist die supremale Wahrscheinlichkeit für den Fehler 2. Art. θ∈H1 Satz von Neyman-Pearson • Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese: H0 : θ = θ0 , vs. H1 : θ = θ1 . Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt Λ(x) = f1 (x) f0 (x) Likelihood-Quotient. • Bester Test hat für stetiges f nach Neyman-Pearson die Form: H0 ablehnen ⇔ Λ(x) > kα mit kα so gewählt, dass der Test das Niveau α einhält. Randomisierter LQ-Test def Ein Test φ∗0 (x) heißt randomisierter Likelihood-Quotienten-Test, kurz LQ-Test ⇔ φ∗0 (x) hat die Struktur f1 (x) > kf0 (x) ⇔ Λ(x) > k 1, ∗ φ0 (x) = γ(x), f1 (x) = kf0 (x) ⇔ Λ(x) = k 0, f1 (x) < kf0 (x) ⇔ Λ(x) < k Formelsammlung zur Vorlesung Schätzen und Testen I 6 mit Konstante k > 0 und 0 ≤ γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann reicht ein nicht-randomisierter Test ( 1, f1 (x) > kf0 (x) ⇔ Λ(x) > k ∗ φ0 (x) = 0, sonst. Gleichmäßig bester (UMP, uniformly most powerful) Test def φ∗0 heißt gleichmäßig bester (UMP) Test zum Niveau α ⇔ 1. Eθ [φ∗0 (X)] ≤ α für alle θ ∈ Θ0 . 2. Für jeden anderen Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt: Eθ [φ∗0 (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 . Verteilungen mit monotonem Dichtequotienten Die Verteilungsfamilie {f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichtedef (oder: Likelihood-) Quotienten (kurz: MLQ) ⇔ es existiert eine Statistik T (X), so dass Λ(x) = f (x|θ1 ) f (x|θ0 ) monoton wachsend in der Statistik T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist. UMP-Test bei MLQ Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x) und die Hypothesen H0 : θ ≤ θ 0 H1 : θ > θ0 1. Existenz: Es gibt einen UMP-Test φ∗0 zum Niveau α, nämlich 1, T (x) > c φ∗0 (x) = γ, T (x) = c 0, T (x) < c. Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung Pθ0 (T > c) + γPθ0 (T = c) = α. 2. Die Gütefunktion gφ∗0 (θ) ist monoton wachsend in θ und sogar streng monoton wachsend für alle θ mit 0 < gφ∗0 (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art ist gφ∗0 (θ0 ) = α. 3. φ∗0 besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 1. Art unter allen Tests φ für H0 vs. H1 mit gφ (θ0 ) = α. 4. φ∗0 ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt. Unverfälschter Niveau-α-Test def Ein Test φ für H0 vs. H1 heißt unverfälschter (unbiased) Niveau-α-Test ⇔ gφ (θ) ≤ α für alle θ ∈ H0 , gφ (θ) ≥ α für alle θ ∈ H1 . Zweiseitige UMPU (uniformly most powerful unbiased) Tests Sei f (x|θ) = c(θ) exp(θT (x))h(x) eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenes Intervall) und Statistik T (x). Dann ist 1, T (x) < c1 γ , T (x) = c1 1 ∗ φ0 (x) = 0, c1 < T (x) < c2 γ , T (x) = c2 2 1, T (x) > c2 Formelsammlung zur Vorlesung Schätzen und Testen I 7 ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus Eθ0 [φ∗0 (X)] = α und Eθ0 [φ∗0 (X)T (X)] = αEθ0 [T (X)] bestimmt. 3 Likelihood-Inferenz 3.1 Parametrische Likelihood-Inferenz Likelihoodfunktion: L(θ) = f (x|θ) e ’Dichte’ der beobachteten Daten X = x, betrachtet als Funktion von θ. Mit L(θ) ist auch L(θ) = const × L(θ) eine Likelihoodfunktion. 3.2 Asymptotische Eigenschaften Unter Regularitätsannahmen gilt: • P (θbn existiert) → 1 für n → ∞, d.h. die Likelihood-Gleichungen haben für n → ∞ mit Wahrscheinlichkeit 1 eine Lösung, P • θbn → θ, D a 1/2 b • θbn ∼ N (θ, I−1 n (θ)) bzw. In (θ)(θn − θ) → N (0, I), D a 1/2 b • θbn ∼ N (θ, J−1 n (θ)) bzw. Jn (θ)(θn − θ) → N (0, I), d.h. ML-Schätzer sind BAN-Schätzer. 3.3 Testen von Hypothesen H0 : Cθ = d vs. H1 : Cθ 6= d, dim(d) = rang(C) = s. Likelihood-Quotienten-Statistik: " # b L(θ) b e λ = 2{`(θ) − `(θ)} = 2 log e L(θ) Wald-Statistik: b > )−1 (C θb − d) w = (C θb − d)> (CI −1 (θ)C Score- (oder Rao-) Statistik: e > I −1 (θ)s( e θ) e u = s(θ) Unter H0 gilt (unter den gleichen Regularitätsannahmen, die für die asymptotische Normalität des MaximumLikelihood-Schätzers gefordert werden) a 1. λ, w, u ∼ χ2 (s), 2. λ, w, u sind asymptotisch (lokal) effizient. Formelsammlung zur Vorlesung Schätzen und Testen I 4 8 Bayes-Inferenz Finite Exchangeability Die Zufallsgrößen X1 , . . . , Xn sind exchangeable bezüglich des Wahrscheinlichkeitsmaßes P , wenn P (x1 , . . . , xn ) = P (xπ(1) , . . . , xπ(n) ) für alle Permutationen π : {1, . . . , n} → {1, . . . , n} gilt. Existiert eine Dichte f zu P , so gilt entsprechend: f (x1 , . . . , xn ) = f (xπ(1) , . . . , xπ(n) ). Infinite Exchangeability Die unendliche Folge X1 , X2 , . . . ist exchangeable, wenn jede endliche Teilfolge exchangeable ist. Allgemeiner Darstellungssatz Sei X1 , X2 , . . . eine unendliche Folge reellwertiger Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P . Dann existiert ein Wahrscheinlichkeitsmaß Q über F, dem Raum aller Verteilungsfunktionen F auf R, so dass P (x1 , . . . , xn ) = Z Y n F (xi ) dQ(F ), F i=1 wobei Q(F ) = lim P (Fn ), n→∞ wobei Fn die zu x1 , . . . , xn gehörende empirische Verteilungsfunktion bezeichnet. 4.1 Bayes-Inferenz im Schnelldurchlauf Notation: • X: beobachtete Daten e unbeobachtete Daten • X: • θ: Parameter Basiskomponenten in der Bayes-Inferenz: • p(θ) Priori-Verteilung • f (x|θ) Daten-Verteilung • f (θ|x) Posteriori-Verteilung • f (e x|x) prädiktive Verteilung A priori prädiktive Verteilung: Z f (x) = Z f (θ, x) dθ = Θ f (x|θ) p(θ) dθ Θ A posteriori prädiktive Verteilung: Z Z Z f (e x|x) = f (e x, θ|x) dθ = f (e x|θ, x) p(θ|x) dθ = f (e x|θ) p(θ|x) dθ Θ Θ Θ Formelsammlung zur Vorlesung Schätzen und Testen I 4.2 4.2.1 Mehr-Parameter-Modelle Dirichlet-Multinomial Modell Multinomialverteilung: • Verallgemeinerung der Binomialverteilung • Notation: (X1 , . . . , Xk ) ∼ Multinomial(n; θ1 , . . . , θk ) • Likelihood: f (x1 , . . . , xk |θ1 , . . . , θk ) ∝ k Y x θj j , j=1 wobei – k die Anzahl der Ausprägungen, n der Stichprobenumfang, Pk – xj die Anzahl von Treffern in Ausprägung j, j=1 xj = n, Pk – θj die Wahrscheinlichkeit für Kategorie j, j=1 θj = 1. Dirichletverteilung: • Verallgemeinerung der Betaverteilung • konjugierte Verteilung der Multinomialverteilung • Notation: (θ1 , . . . , θk ) ∼ Dirichlet(α1 , . . . , αk ) • Dichte: f (θ1 , . . . , θk ) ∝ k Y α −1 θj j j=1 4.3 Bayesianisches lineares Modell Modell: y = Xβ + ε , y ∈ Rn , X ∈ Rn×p , β ∈ Rp , ε ∈ Rn Annahmen und Notation: p = ε = βb = rang(X) (ε1 , . . . , εn )> , i.i.d εi ∼ N (0, σ 2 ) (X > X)−1 X > y yb = X βb = X(X > X)−1 X > y = Hy εb = (I − H)y = y − yb εb> εb σ bε2 = n−p Bayesianisch: y|β, σ 2 , X ∼ MVN(Xβ, σ 2 I) Likelihood: 1 f (y|X, β, σ 2 ) ∝ (σ 2 )−n/2 exp − 2 (y − Xβ)> (y − Xβ) 2σ 9 Formelsammlung zur Vorlesung Schätzen und Testen I 4.3.1 Nichtinformative Priori p(β, σ 2 ) ∝ (σ 2 )−1 Posteriori: n 1 p(β, σ 2 |y, X) ∝ (σ 2 )−( 2 +1) exp − 2 (y − Xβ)> (y − Xβ) 2σ n 1 ∝ (σ 2 )−( 2 +1) exp − 2 εb> εb + (βb − β)> X > X(βb − β) 2σ Bedingte Posteriori: b σ 2 (X > X)−1 ) ∼ MVN(β, ! εb> εb + (βb − β)> X > X(βb − β) 2 ∼ Inv-χ n, n β|σ 2 , y, X σ 2 |β, y, X Marginale Posteriori: β|y, X σ 2 |y, X b σ tn−p (β, bε2 (X > X)−1 ) εb> εb ∼ Inv-χ2 n − p, n−p ∼ Prädiktive Verteilung: h i b σ f ∼ tn−p X fβ, f > X)−1 X f> + I) p(e y |y, X, X) bε2 (X(X 4.3.2 Konjugierte Priori β, σ 2 ∼ MVN-inv-χ2 (β0 , σ02 Σ0 ; κ0 , σ02 ) Posteriori: β, σ 2 |y, X ∼ MVN-inv-χ2 (βn , σn2 Σn ; κn , σn2 ) , wobei βn = > −1 > (Σ−1 (Σ−1 0 + X X) 0 β0 + X y) , Σn = > −1 (Σ−1 , 0 + X X) κn = κ0 + n , σn2 = > −1 > 2 (β0> Σ−1 0 β0 − βn Σn βn + y y + κ0 σ0 )/(κ0 + n) . Bedingte Posteriori: β |σ 2 , y, X ∼ MVN(βn , σ 2 Σn ) Marginale Posteriori: σ 2 |y, X ∼ Inv-χ2 (κn , σn2 ) 10 Formelsammlung zur Vorlesung Schätzen und Testen I 4.4 Markov Chain Monte Carlo Metropolis-Hastings für eine skalare Komponente: • π : Zieldichte (unter Umständen nicht normiert) • q : Vorschlagsdichte • Xi = (Xi1 , . . . , Xim )> ∈ Rm • Xi,−j = (Xi1 , . . . , Xi,j−1 , Xi−1,j+1 , . . . , Xi−1,m )> • Erzeuge Markov-Kette X0 , X1 , X2 , . . . mit stationärer Verteilung π. • Update-Schritt für Xij : – Ziehe Y aus q(·|Xi−1,j , Xi,−j ). – Akzeptiere Y mit Wahrscheinlichkeit q(Xi−1,j |Y, Xi,−j ) π(Y |Xi,−j ) · , α(Y, Xi−1,j |Xi,−j ) = min 1 , π(Xi−1,j |Xi,−j ) q(Y |Xi−1,j , Xi,−j ) d.h. setze Xij = Y . – Ansonsten verwirf Y , d.h. setze Xij = Xi−1,j . 11