10 Schätzen von Parametern Eine Möglichkeit, in einem statistischen Modell (X , B, Pϑ,X ) , ϑ ∈ Θ , aufgrund einer Beobachtung x = X(ω) eine Entscheidung über ϑ zu treffen, besteht in der Angabe eines Schätzwertes“ ϑ̂ = ϑ̂(x) für ϑ . Diese Vorgehensweise lässt sich (zumindest ” asymptotisch) häufig dadurch begründen, dass man Konsistenz“ erreichen kann , d.h., ” dass für wachsende Stichproben X = (X1 , . . . , Xn ) gilt : P ϑ̂ = ϑ̂(X1 , . . . , Xn ) −→ ϑ (n → ∞) ∀ϑ∈Θ (vgl. z.B. Satz 9.1) . Wir interessieren uns etwas allgemeiner für Schätzwerte eines abgeleiteten Parameters“ γ = γ(ϑ) ∈ Γ ( z.B. Γ = R1 ) . ” Definition 10.1. Sei γ = γ(ϑ) (∈ Γ) eine Funktion des unbekannten Parameters ϑ . Eine Abbildung d : X → Γ , Γ ⊃ γ(Θ) , wobei d(X) eine Zufallsvariable ist, heißt Punktschätzung (Schätzer ) für γ(ϑ) . Der Wert γ̂ := d(x) heißt Punktschätzung (Schätzwert ) für γ(ϑ) . Gütekriterien für Schätzer : Definition 10.2. Sei d = d(X) = d (X1 , . . . , Xn ) eine Punktschätzung für γ(ϑ) . Dann heißt d (schwach ) konsistent , falls P d(X1 , . . . , Xn ) −→ γ(ϑ) (n → ∞) ∀ ϑ ∈ Θ. (Vgl. etwa Beispiel 6.5 und Satz 9.1.) Definition 10.3. Sei d = d(X) eine Punktschätzung für γ(ϑ) . Dann heißt d erwartungstreu (unverzerrt, “unbiased”), falls Eϑ d(X) = γ(ϑ) ∀ ϑ ∈ Θ. Die Differenz Eϑ d(X) − γ(ϑ) heißt Verzerrung (“bias”) des Schätzers d . Beispiel 10.1. X1 , . . . , Xn seien i.i.d. Pϑ,X1 -verteilt, ϑ := (a, σ 2 ) := (EX1 , V ar(X1 )) . Dann gilt : n 1X a) d1 (X) := X n := Xi ist erwartungstreuer Schätzer für γ1 (ϑ) = a ; n i=1 80 n b) d2 (X) := Sn2 := aber z.B. 1 X (Xi − X n )2 ist erwartungstreuer Schätzer für γ2 (ϑ) = σ 2 , n − 1 i=1 n 1X d˜2 (X) := (Xi − X n )2 ist kein erwartungstreuer Schätzer für σ 2 , jedoch n i=1 konsistent. Definition 10.4. Sei d∗ = d∗ (X) ein erwartungstreuer Schätzer für γ(ϑ) . Dann heißt d∗ Minimum-Varianz-Schätzer (“UMVU estimate”), falls gilt : V arϑ d∗ (X) = Eϑ d∗ (X) − γ(ϑ) 2 ≤ Eϑ d(X) − γ(ϑ) 2 = V arϑ d(X) für alle ϑ ∈ θ und beliebige erwartungstreue Schätzer d für γ(ϑ) . Gesucht sind nun Kriterien für die Existenz (und ggf. Eindeutigkeit) von MinimumVarianz-Schätzern. Als hilfreich erweist sich hierbei eine untere Schranke für die Varianz von erwartungstreuen Schätzern : Satz 10.1. (Cramér-Rao-Ungleichung ) X = (X1 , . . . , Xn ) sei eine n-dimensionale ZV. mit gemeinsamer (diskreter bzw. absolut-stetiger ) Verteilung und Dichte fϑ = fϑ (x) , ϑ ∈ Θ . Θ ⊂ R1 sei ein offenes Intervall. Es gelte : (i) X := {x : fϑ (x) > 0} ist unabhängig von ϑ ; ∂ log fϑ (x) existiert ∀ ϑ ∈ Θ ∀ x ∈ X ; ∂ϑ 2 ∂ ∂ (iii) Eϑ log fϑ (X) = 0 , 0 < Eϑ log fϑ (X) =: I(ϑ) < ∞ ∂ϑ ∂ϑ (ii) ∀ ϑ ∈ Θ. Ferner sei γ = γ(ϑ) differenzierbar und d = d(X) ein erwartungstreuer Schätzer für γ(ϑ) mit (iv) V arϑ d(X) < ∞ ∀ ϑ ∈ θ ; ∂ (v) Eϑ d(X) log fϑ (X) = γ ′ (ϑ) ∂ϑ (γ ′ (ϑ))2 Dann gilt : V arϑ d(X) ≥ I(ϑ) ∀ ϑ ∈ Θ. ∀ ϑ ∈ Θ. 81 Bemerkung 10.1. Die Voraussetzungen (iii) und (v) beinhalten i.W. die Vertauschung von Differentiation (nach ϑ ) und Integration (bzw. Summation ) bzgl. x . Bemerkung 10.2. Sind die Komponenten von X = (X1 , . . . , Xn ) i.i.d. mit Randdichte f1,ϑ , etwa fϑ (x1 , . . . , xn ) = n Y f1,ϑ (xi ) ∀ x = (x1 , . . . , xn ) ∈ X , i=1 so erhält man wegen log fϑ (x) = n X log f1,ϑ (xi ) noch : i=1 2 ∂ log f1,ϑ (X1 ) , I(ϑ) = nI1 (ϑ) = nEϑ ∂ϑ also 2 γ ′ (ϑ) ; V arϑ d(X) ≥ nI1 (ϑ) V ar d(X) ≥ speziell für γ(ϑ) = ϑ : 1 . nI1 (ϑ) Definition 10.5. Unter den Voraussetzungen von Satz 10.1 heißt ein erwartungstreuer Schätzer d∗ = d∗ (X) für γ = γ(ϑ) effizient , falls gilt : 2 ′ γ (ϑ) V arϑ d∗ (X) = I(ϑ) ∀ ϑ ∈ Θ. Beispiel 10.2. Sei X = (X1 , . . . , Xn ) mit i.i.d. B(1, p)-verteilten Komponenten Xi , i = 1, . . . , n , p ∈ (0, 1) . Es gilt : (i) ϑ = p ∈ (0, 1); f1,ϑ (xi ) = pxi (1 − p)1−xi , xi ∈ {0, 1} , n Q f1,ϑ (xi ) > 0 ∀ (x1 , . . . , xn ) ∈ {0, 1}n ; fϑ (x1 , . . . , xn ) = i=1 xi 1 − x i ∂ ∂ xi − p log f1,ϑ (xi ) = − = ; xi log p + (1 − xi ) log(1 − p) = ∂ϑ ∂p p 1−p p(1 − p) ∂ 1 (iii) Eϑ log f1,ϑ (Xi ) = 0 , 0 < I1 (ϑ) = <∞ ∂ϑ p(1 − p) (ii) =⇒ Cramér-Rao-Schranke : p(1 − p) 1 = . nI1 (ϑ) n n Für d∗ (X) = 1X Xi = X n erhält man : n i=1 82 (iv) Eϑ d∗ (X) = p , V ar(d∗ (X)) = p(1−p) n ∀ ϑ = p ∈ (0, 1) ; (v) Vertauschung von Differentiation (nach ϑ) und Summation bzgl. x = (x1 , . . . , xn ) ist erlaubt, da die diskrete Verteilung Pϑ,X den endlichen Träger X = {0, 1}n besitzt. Damit ist d∗ (X) = X n ein effizienter Schätzer für ϑ = p . Beispiel 10.3. X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt . Sei σ 2 bekannt , also ϑ = a . Es gilt : √ (i) Θ = R1 , log f1,ϑ (xi ) = − 2σ1 2 (xi − a)2 − log 2πσ 2 , xi ∈ R1 ; (ii) ∂ ∂ϑ (iii) Eϑ =⇒ log f1,ϑ (xi ) = ∂ ∂ϑ xi −a σ2 ; log f1,ϑ (Xi ) = 0 , 0 < I1 (ϑ) = V ara Cramér-Rao-Schranke: Für d∗ (X) = 1 n n X 1 σ2 = . nI1 (ϑ) n Xi −a 2 σ2 = 1 σ2 <∞ Xi = X n erhält man : i=1 2 (iv) Eϑ d∗ (X) = a , V arϑ d∗ (X) = σn ∀ ϑ = a ∈ R1 ; ∂ (v) Eϑ d∗ (X) ∂ϑ = nσ1 2 V ara (Xi ) = n1 , log f1,ϑ (Xi ) = Cova X n , Xσi −a 2 ∂ ∂ log fϑ (X) = nEϑ d∗ (X) ∂ϑ log f1,ϑ (X1 ) = 1 = γ ′ (ϑ). also Eϑ d∗ (X) ∂ϑ Ergebnis : d∗ (X) = X n ist ein effizienter Schätzer für a (bei bekanntem σ 2 ). Bemerkung 10.3. Voraussetzungen von Betrachten wir etwa ϑ ∈ (0, ∞) =: Θ . Es Die Cramér-Rao-Schranke ist i.A. nicht mehr gültig, wenn die Satz 10.1 verletzt sind. eine Stichprobe X1 , . . . , Xn von i.i.d. R(0, ϑ)-verteilten ZV., gilt : f1,ϑ (xi ) = ϑ1 I(0,ϑ) (xi ) , also x = (x1 , . . . , xn ) : fϑ (x1 , . . . , xn ) = n Y i=1 f1,ϑ (xi ) > 0 = (0, ϑ)n hängt von ϑ ab . Formal ließe sich dennoch eine Cramér-Rao-Schranke bestimmen. Man erhielte : ∂ log f1,ϑ (Xi ) = Eϑ − ϑ1 = − ϑ1 , Eϑ ∂ϑ 2 2 ∂ Eϑ ∂ϑ = ϑ12 , log f1,ϑ (Xi ) = Eϑ − ϑ1 also ϑ2 1 = . n I1 (ϑ) n Betrachtet man jedoch d∗ (X) = n+1 n max (X1 , . . . , Xn ) , so lässt sich zeigen : 83 (1) d∗ ist erwartungstreu , d.h. Eϑ d∗ (X) = ϑ (2) V arϑ d∗ (X) = ϑ2 ϑ2 ≪ n(n + 2) n ∀ϑ>0 ∀ ϑ > 0; (n groß ) . Es gilt sogar : d∗ (X) ist UMVU-Schätzer ! Eine sehr allgemeine Methode zur Bestimmung von ( i.A. guten“) Schätzern ist die so ” genannte Maximum-Likelihood-Methode : Definition 10.6. Sei X = (X1 , . . . , Xn ) eine n-dimensionale ZV. mit gemeinsamer (diskreter bzw. absolut-stetiger ) Verteilung und Dichte fϑ = fϑ (x) . Bei vorliegender Beobachtung x = (x1 , . . . , xn ) sei ϑ̂ = ϑ̂(x) derart , dass fϑ̂ (x) = max fϑ (x) . ϑ Die Funktion ϑ 7−→ fϑ (x) , x fest , heißt Likelihood-Funktion ; ϑ̂ = ϑ̂(x) heißt Maximum-Likelihood-(ML-)Schätzer . Bemerkung 10.4. a) In regulären“ ” bestimmt. b) Ist fϑ (x) > 0 Fällen existiert ϑ̂ = ϑ̂(x) und ist eindeutig ∀ ϑ ∈ Θ (x fest ) , so erhält man als äquivalente Bedingung : log fϑ̂ (x) = max log fϑ (x) . ϑ Die Funktion ϑ 7−→ log fϑ (x) (x fest ) , heißt Loglikelihood-Funktion . c) Ist ϑ = (ϑ1 , . . . , ϑk ) ∈ Θ ⊂ Rk , Θ offen , und ist fϑ nach allen ϑi stetig partiell differenzierbar, so erhält man als notwendige Bedingungen die (so genannten) Normalgleichungen : ∂ ∂ bzw. ∀ i = 1, . . . , k ; fϑ (x) = 0 log fϑ (x) = 0 ∂ϑi ∂ϑi ϑ̂ ϑ̂ d) ϑ̂ ist oft fast effizient“ bzw. asymptotisch effizient“ ” ” (Fortsetzung ) und Bemerkung 10.6). (vgl. Beispiel 10.3 Beispiel 10.3 (Fortsetzung) X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt, a und σ 2 unbekannt, also ϑ = (a, σ 2 ) ∈ R1 × R1+ = Θ , fϑ (x) = n 1 n2 1 X 2 , (x − a) exp − i 2πσ 2 2σ 2 i=1 84 x = (x1 , . . . , xn ) ∈ Rn . Man erhält als Normalgleichungen : n ∂ 1 X (1) = log fa,σ2 (x) (xi − â) ∂a â,σ 2 σb2 i=1 n 1 X n ∂ (xi − â)2 − log fa,σ2 (x) = (2) 2 2 ∂(σ ) â,σ 2(σb2 )2 i=1 2(σb2 ) n 1X xi = x ; (1) liefert : â = n i=1 n 1X (xi − x)2 . (2) liefert (mit â = x ) : σb2 = n i=1 ! = 0; ! = 0. Man kann zeigen (z.B. durch Differenzieren), dass (â, σb2 ) eine Maximalstelle ist . Bemerkung 10.5. a) Auch bei unbekanntem σ 2 ist â = x erwartungstreuer Schätzer für a mit minimaler Varianz. n b2 σ ist erwartungstreu und asymptotisch b) σb2 ist nicht erwartungstreu, aber ” n−1 effizient“, denn n n 1 X 2σ 4 2 b V ara,σ2 σ = V ara,σ2 ; (Xi − X)2 = n−1 n − 1 i=1 n−1 V ara,σ2 n 1 X n i=1 (xi − a) 2 = 2σ 4 n (effizient bei bekanntem a) . Hierbei beachte man : E(χ2n ) = n , V ar(χ2n ) = 2n . Bemerkung 10.6. Die Maximum-Likelihood-Methode ist häufig auch dann anwendbar, wenn die Voraussetzungen für die Gültigkeit der Cramér-Rao-Schranke verletzt sind. Betrachten wir z.B. wieder eine Stichprobe X1 , . . . , Xn von i.i.d. R[0, ϑ]- verteilten ZV. , ϑ ∈ (0, ∞) =: Θ . Es gilt : n 1 Y fϑ (x) = n I[0,ϑ] (xi ) , x = (x1 , . . . , xn ) ∈ Rn , ϑ > 0 , ϑ i=1 ist bei festem x maximal (in ϑ ), wenn gilt : (1) ϑ ≥ xi ∀ i = 1, . . . , n ; (2) ϑ möglichst klein , also für ϑ̂ = max (x1 , . . . , xn ) . ϑ̂ ist nicht erwartungstreu , aber erwartungstreu mit minimaler Varianz . 85 n+1 ϑ̂ ist n