5 Asymptotische Optimalität von Schätzern, Cramér–Rao–Ungleichung Für jedes n = 1, 2, . . . sei X = X (n) = (X1 , . . . , Xn ) eine Stichprobe“ mit ” X X k P = Pϑ : ϑ ∈ Θ . Ferner sei jeweils d : X −→ Γ = γ(Θ) ⊂ R eine Punktschätzung (n) (n) für den Parameter γ(ϑ) , also d(x) = d(n) (x) = d1 (x), . . . , dk (x) , γ(ϑ) = γ1 (ϑ), . . . , γk (ϑ) Spaltenvektoren . Gütekriterien : (n) d n=1,2,... heißt – (schwach) konsistent : ⇐⇒ d(n) (X1 , . . . , Xn ) – stark konsistent : ⇐⇒ d(n) (X1 , . . . , Xn ) – asymptotisch erwartungstreu : ⇐⇒ P ϑ −→ (n→∞) Pϑ −f.s. −→ (n→∞) γ(ϑ) ∀ ϑ ∈ Θ; γ(ϑ) ∀ ϑ ∈ Θ; Eϑ d(n) (X1 , . . . , Xn ) −→ γ(ϑ) ∀ ϑ ∈ Θ . (n→∞) Konsistenz bzw. asymptotische Erwartungstreue sind relativ schwache Gütekriterien für Folgen von Schätzer(n). Ein wichtigeres Gütemaß bildet die Varianz eines Schätzers. Eine geringere Varianz bedeutet i.A. eine stärkere Konzentration der Verteilung des Schätzers um den gesuchten Parameter und daher eine genauere“ Schätzung. ” Unter bestimmten Regularitätsvoraussetzungen gibt es untere Schranken für die Varianz von Schätzern , z.B. die Cramér-Rao-Schranke falls γ(ϑ) reell , vgl. Einführung in ” die Stochastik“ : 2 γ (ϑ) V arϑ d(X) ≥ ∂ 2 ∀ ϑ ∈ Θ ; Eϑ ∂ϑ log fϑ (X) speziell für X = (X1 , . . . , Xn ) , Xi i.i.d., γ(ϑ) = ϑ : V arϑ d(X) ≥ wobei I(ϑ) = Eϑ 1 , n I(ϑ) 2 ∂ log f1,ϑ (X1 ) ∂ϑ die Fisher-Information von PϑX1 bezeichnet . Die obigen Ungleichungen werden im Folgenden auf den mehrdimensionalen Fall übertragen: 19 Satz 5.1. Sei P X = PϑX = fϑ (x) μ : ϑ ∈ Θ ⊂ Rk , Θ offen , mit ∂ log fϑ (x) messbar ∀ ϑ ∈ Θ μ-f.ü. , i = 1, . . . , k ; ∂ϑi 2 ∂ ∂ log fϑ (X) = 0 , Eϑ log fϑ (X) < ∞ ∀ ϑ ∈ Θ , i = 1, . . . , k ; (ii) Eϑ ∂ϑi ∂ϑi ∂ log fϑ (X) ist positiv definit ∀ ϑ ∈ Θ ; (iii) Covϑ ∂ϑ sei erwartungstreuer Schätzer für γ(ϑ) = (iv) d(x) = d1 (x), . . . , dk (x) k γ1 (ϑ), . . . , γk (ϑ) ∈ Γ ⊂ R , wobei (i) ∂γi (ϑ) existiert ∂ϑj ∂ ∂γi (ϑ) log fϑ (X) = Eϑ di (X) ∂ϑj ∂ϑj V arϑ di (X) < ∞ , ∀ i, j = 1, . . . , k , ϑ ∈ Θ ; ∀ i, j = 1, . . . , k , ϑ ∈ Θ . Setzt man dann ∂ log fϑ (X) , Σ(ϑ) := Covϑ ∂ϑ ∂γi (ϑ) Γ (ϑ) := , ∂ϑj i,j=1,...,k so gilt die (mehrdimensionale ) Cramér-Rao-Ungleichung (5.1) Covϑ d(X) ≥ Γ (ϑ) Σ−1 (ϑ) Γ (ϑ) ∀ ϑ ∈ Θ. Speziell für X = (X1 , . . . , Xn ) , Xi i.i.d. , γ(ϑ) = ϑ ∈ Rk : ∂ ∂ϑ log fϑ (X) = n ∂ ∂ϑ log f1,ϑ (Xi ) , ∂ ∂ =: n I(ϑ) , Covϑ Y = Σ(ϑ) = n Eϑ ∂ϑ log f1,ϑ (X1 ) ∂ϑ log f1,ϑ (X1 ) Y := Γ (ϑ) = Ik , (5.1’) Covϑ d(X) ≥ i=1 die k-dimensionale Einheitsmatrix , also 1 −1 I (ϑ) n ∀ ϑ ∈ Θ, wobei I(ϑ) die (k-dimensionale ) Fisher-Informationsmatrix von PϑX1 bezeichnet. 20 Anmerkung zu den Bezeichnungen : 1) Cov Y := E(Y − EY )(Y − EY ) und E( · ) sind komponentenweise zu bilden. 2) Für symmetrische k × k-Matrizen A, B definiert man : A ≥ B : ⇐⇒ A − B ist positiv semidefinit , d.h. u (A − B)u ≥ 0 ∀ u ∈ Rk . Bemerkung 5.1. a) Unter den Regularitätsvoraussetzungen von Satz 5.1 heißt d effizienter Schätzer “ ” für γ(ϑ) , falls Covϑ d(X) = Γ (ϑ) Σ−1 (ϑ) Γ (ϑ) b) Bei X = (X1 , . . . , Xn ) , Xi (5.2) ∀ ϑ ∈ Θ. i.i.d. , gilt häufig D √ (n) n d (X) − γ(ϑ) −→ Z mit PϑZ = N 0, Σ(ϑ) , wobei unter bestimmten Voraussetzungen (5.3) Σ(ϑ) ≥ Γ (ϑ) I −1 (ϑ) Γ (ϑ) ∀ϑ∈Θ (vgl. auch Witting-Nölle (1970), Satz 2.28 , bzw. ML-Schätzer, § 6). Dann heißt d(n) ” asymptotisch effizienter Schätzer “ für γ(ϑ) , falls Σ(ϑ) = Γ (ϑ) I −1 (ϑ) Γ (ϑ) ∀ϑ∈Θ oder auch nur für λk -fast alle ϑ ∈ Θ . Beispiel 5.1. Sei X = (X1 , . . . , Xn ) , Xi i.i.d. , mit P X1 = PϑX1 = c(ϑ) exp ϑ T (x1 ) ν ϑ ∈ Θ ⊂ R1 , Θ offen } , also P X = (X ,...X ) Pϑ 1 n n = c (ϑ) exp ϑ T (xi ) ν n ϑ ∈ Θ , n i=1 n T (xi ) . eine 1-parametrige Exponentialfamilie in ϑ , T(x) = i=1 21 Es gilt : 1 c(ϑ) Eϑ0 T (X1 ) =⇒ exp ϑ T (x1 ) ν(dx1 ) 1 = exp (ϑ − ϑ0 )T (x1 ) c(ϑ0 ) exp ϑ0 T (x1 ) ν(dx1 ) c(ϑ0 ) 1 T (X ) M 1 (ϑ − ϑ0 ) , ϑ0 ∈ Θ = c(ϑ0 ) ϑ0 = = V arϑ0 T (X1 ) = Fisher-Information : − log c(ϑ) − log c(ϑ) ϑ0 ϑ0 −c (ϑ0 ) = : μ(ϑ0 ) , c(ϑ0 ) c 2 (ϑ0 ) − c (ϑ0 )c(ϑ0 ) := σ 2 (ϑ0 ) . = c2 (ϑ0 ) = Es gilt (s.o) log f1,ϑ (x1 ) = log c(ϑ) + ϑ T (x1 ) und damit ∂ log f1,ϑ (X1 ) = T (X1 ) − μ(ϑ) ∂ϑ =⇒ 2 ∂ ∂ Eϑ log f1,ϑ (X1 ) = 0 , Eϑ log f1,ϑ (X1 ) = σ 2 (ϑ) = I(ϑ) . ∂ϑ ∂ϑ Zeige : d (n) n 1 (x1 , . . . , xn ) := T (xi ) ist effizient für γ(ϑ) := μ(ϑ) . n i=1 Begründung : 1) d(n) ist erwartungstreu ; 2 2) Cramér-Rao-Schranke : wird angenommen , da [ σ 2 (ϑ) ] σ 2 (ϑ) [ γ (ϑ) ]2 = = n I(ϑ) n σ 2 (ϑ) n V arϑ n 1 n i=1 22 T (Xi) n σ 2 (ϑ) = . n2 Speziell: i.i.d., N(a, σ02 )-verteilt, σ02 bekannt, also 1-parametrige Exponenn xi . tialfamilie in ϑ = a , T (x) = 2 σ 0 i=1 a) X1 , . . . , Xn Hier : c(ϑ) = 1 2πσ02 a σ02 =⇒ μ(ϑ) = =⇒ n 1 xi nσ02 i=1 exp − und σ 2 (ϑ) = − log c(ϑ) = a2 + const 2σ02 1 σ02 a σ02 ist effizient für n 1 und x̄ = xi n i=1 Bemerkung 5.2. a2 und 2σ02 effizient für a . Es gilt allgemein für λ = 0 : d(x) ist erwartungstreu und (asymptotisch) effizient für γ(ϑ) ⇐⇒ λ d(x) ist erwartungstreu und (asymptotisch) effizient für λ γ(ϑ) . Beispiel 5.1 (Fortsetzung) i.i.d. N(a0 , σ 2 ) -verteilt, a0 bekannt n 1 (xi − a0 )2 ist effizient für σ 2 . d(x) = n i=1 b) Seien X1 , . . . , Xn =⇒ c) Seien X1 , . . . , Xn i.i.d. B(1, p)-verteilt, also eine 1-parametrige Exponentialn p , T (x) = xi , c(ϑ) = 1 − p . familie in ϑ = ln 1−p i=1 Umrechnung : p = =⇒ 1 e−ϑ , c(ϑ) = 1 − p = 1 + e−ϑ 1 + e−ϑ − log c(ϑ) = ϑ + log 1 + e−ϑ , μ(ϑ) σ 2 (ϑ) 1 e−ϑ = = p, 1 + e−ϑ 1 + e−ϑ e−ϑ = = p(1 − p) . (1 + e−ϑ )2 = 1− n 1 Da V ar(Xi ) = p(1 − p) , ist x̄ = xi n i=1 23 effizient für p .