10 Schätzen von Parametern

Werbung
10 Schätzen von Parametern
Eine Möglichkeit, in einem statistischen Modell (X , B, Pϑ,X ) , ϑ ∈ Θ , aufgrund einer
Beobachtung x = X(ω) eine Entscheidung über ϑ zu treffen, besteht in der Angabe
eines Schätzwertes“ ϑ̂ = ϑ̂(x) für ϑ . Diese Vorgehensweise lässt sich (zumindest
”
asymptotisch) häufig dadurch begründen, dass man Konsistenz“ erreichen kann , d.h.,
”
dass für wachsende Stichproben X = (X1 , . . . , Xn ) gilt :
P
ϑ̂ = ϑ̂(X1 , . . . , Xn ) −→ ϑ
(n → ∞)
∀ϑ∈Θ
(vgl. z.B. Satz 9.1) . Wir interessieren uns etwas allgemeiner für Schätzwerte eines
abgeleiteten Parameters“ γ = γ(ϑ) ∈ Γ ( z.B. Γ = R1 ) .
”
Definition 10.1. Sei γ = γ(ϑ) (∈ Γ) eine Funktion des unbekannten Parameters
ϑ . Eine Abbildung d : X → Γ , Γ ⊃ γ(Θ) , wobei d(X) eine Zufallsvariable
ist, heißt Punktschätzung (Schätzer ) für γ(ϑ) . Der Wert γ̂ := d(x) heißt
Punktschätzung (Schätzwert ) für γ(ϑ) .
Gütekriterien für Schätzer :
Definition 10.2. Sei d = d(X) = d (X1 , . . . , Xn ) eine Punktschätzung für γ(ϑ) .
Dann heißt d (schwach ) konsistent , falls
P
d(X1 , . . . , Xn ) −→ γ(ϑ)
(n → ∞)
∀ ϑ ∈ Θ.
(Vgl. etwa Beispiel 6.5 und Satz 9.1.)
Definition 10.3. Sei d = d(X) eine Punktschätzung für γ(ϑ) . Dann heißt d
erwartungstreu (unverzerrt, “unbiased”), falls
Eϑ d(X) = γ(ϑ)
∀ ϑ ∈ Θ.
Die Differenz Eϑ d(X) − γ(ϑ) heißt Verzerrung (“bias”) des Schätzers d .
Beispiel 10.1. X1 , . . . , Xn seien i.i.d. Pϑ,X1 -verteilt, ϑ := (a, σ 2 ) := (EX1 , V ar(X1 )) .
Dann gilt :
n
1X
a) d1 (X) := X n :=
Xi ist erwartungstreuer Schätzer für γ1 (ϑ) = a ;
n i=1
80
n
b) d2 (X) := Sn2 :=
aber z.B.
1 X
(Xi − X n )2 ist erwartungstreuer Schätzer für γ2 (ϑ) = σ 2 ,
n − 1 i=1
n
1X
d˜2 (X) :=
(Xi − X n )2 ist kein erwartungstreuer Schätzer für σ 2 , jedoch
n i=1
konsistent.
Definition 10.4. Sei d∗ = d∗ (X) ein erwartungstreuer Schätzer für γ(ϑ) . Dann
heißt d∗ Minimum-Varianz-Schätzer (“UMVU estimate”), falls gilt :
V arϑ d∗ (X) = Eϑ d∗ (X) − γ(ϑ)
2
≤ Eϑ d(X) − γ(ϑ)
2
= V arϑ d(X)
für alle ϑ ∈ θ und beliebige erwartungstreue Schätzer d für γ(ϑ) .
Gesucht sind nun Kriterien für die Existenz (und ggf. Eindeutigkeit) von MinimumVarianz-Schätzern.
Als hilfreich erweist sich hierbei eine untere Schranke für die Varianz von erwartungstreuen
Schätzern :
Satz 10.1. (Cramér-Rao-Ungleichung ) X = (X1 , . . . , Xn ) sei eine n-dimensionale ZV. mit gemeinsamer (diskreter bzw. absolut-stetiger ) Verteilung und
Dichte fϑ = fϑ (x) , ϑ ∈ Θ . Θ ⊂ R1 sei ein offenes Intervall. Es gelte :
(i) X := {x : fϑ (x) > 0} ist unabhängig von ϑ ;
∂
log fϑ (x) existiert ∀ ϑ ∈ Θ ∀ x ∈ X ;
∂ϑ
2
∂
∂
(iii) Eϑ
log fϑ (X) = 0 , 0 < Eϑ
log fϑ (X) =: I(ϑ) < ∞
∂ϑ
∂ϑ
(ii)
∀ ϑ ∈ Θ.
Ferner sei γ = γ(ϑ) differenzierbar und d = d(X) ein erwartungstreuer Schätzer
für γ(ϑ) mit
(iv) V arϑ d(X) < ∞ ∀ ϑ ∈ θ ;
∂
(v) Eϑ d(X)
log fϑ (X) = γ ′ (ϑ)
∂ϑ
(γ ′ (ϑ))2
Dann gilt : V arϑ d(X) ≥
I(ϑ)
∀ ϑ ∈ Θ.
∀ ϑ ∈ Θ.
81
Bemerkung 10.1. Die Voraussetzungen (iii) und (v) beinhalten i.W. die Vertauschung von Differentiation (nach ϑ ) und Integration (bzw. Summation ) bzgl. x .
Bemerkung 10.2. Sind die Komponenten von X = (X1 , . . . , Xn ) i.i.d. mit Randdichte
f1,ϑ , etwa
fϑ (x1 , . . . , xn ) =
n
Y
f1,ϑ (xi )
∀ x = (x1 , . . . , xn ) ∈ X ,
i=1
so erhält man wegen log fϑ (x) =
n
X
log f1,ϑ (xi ) noch :
i=1
2
∂
log f1,ϑ (X1 ) ,
I(ϑ) = nI1 (ϑ) = nEϑ
∂ϑ
also
2
γ ′ (ϑ)
;
V arϑ d(X) ≥
nI1 (ϑ)
V ar d(X) ≥
speziell für γ(ϑ) = ϑ :
1
.
nI1 (ϑ)
Definition 10.5. Unter den Voraussetzungen von Satz 10.1 heißt ein erwartungstreuer Schätzer d∗ = d∗ (X) für γ = γ(ϑ) effizient , falls gilt :
2
′
γ
(ϑ)
V arϑ d∗ (X) =
I(ϑ)
∀ ϑ ∈ Θ.
Beispiel 10.2. Sei X = (X1 , . . . , Xn ) mit i.i.d. B(1, p)-verteilten Komponenten Xi ,
i = 1, . . . , n , p ∈ (0, 1) . Es gilt :
(i) ϑ = p ∈ (0, 1); f1,ϑ (xi ) = pxi (1 − p)1−xi , xi ∈ {0, 1} ,
n
Q
f1,ϑ (xi ) > 0 ∀ (x1 , . . . , xn ) ∈ {0, 1}n ;
fϑ (x1 , . . . , xn ) =
i=1
xi 1 − x i
∂
∂
xi − p
log f1,ϑ (xi ) =
−
=
;
xi log p + (1 − xi ) log(1 − p) =
∂ϑ
∂p
p
1−p
p(1 − p)
∂
1
(iii) Eϑ
log f1,ϑ (Xi ) = 0 , 0 < I1 (ϑ) =
<∞
∂ϑ
p(1 − p)
(ii)
=⇒
Cramér-Rao-Schranke :
p(1 − p)
1
=
.
nI1 (ϑ)
n
n
Für d∗ (X) =
1X
Xi = X n erhält man :
n i=1
82
(iv) Eϑ d∗ (X) = p , V ar(d∗ (X)) =
p(1−p)
n
∀ ϑ = p ∈ (0, 1) ;
(v) Vertauschung von Differentiation (nach ϑ) und Summation bzgl. x = (x1 , . . . , xn )
ist erlaubt, da die diskrete Verteilung Pϑ,X den endlichen Träger X = {0, 1}n
besitzt.
Damit ist d∗ (X) = X n ein effizienter Schätzer für ϑ = p .
Beispiel 10.3. X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt . Sei σ 2 bekannt , also ϑ = a .
Es gilt :
√
(i) Θ = R1 , log f1,ϑ (xi ) = − 2σ1 2 (xi − a)2 − log 2πσ 2 , xi ∈ R1 ;
(ii)
∂
∂ϑ
(iii) Eϑ
=⇒
log f1,ϑ (xi ) =
∂
∂ϑ
xi −a
σ2
;
log f1,ϑ (Xi ) = 0 , 0 < I1 (ϑ) = V ara
Cramér-Rao-Schranke:
Für d∗ (X) =
1
n
n
X
1
σ2
=
.
nI1 (ϑ)
n
Xi −a 2
σ2
=
1
σ2
<∞
Xi = X n erhält man :
i=1
2
(iv) Eϑ d∗ (X) = a , V arϑ d∗ (X) = σn
∀ ϑ = a ∈ R1 ;
∂
(v) Eϑ d∗ (X) ∂ϑ
= nσ1 2 V ara (Xi ) = n1 ,
log f1,ϑ (Xi ) = Cova X n , Xσi −a
2
∂
∂
log fϑ (X) = nEϑ d∗ (X) ∂ϑ
log f1,ϑ (X1 ) = 1 = γ ′ (ϑ).
also Eϑ d∗ (X) ∂ϑ
Ergebnis : d∗ (X) = X n ist ein effizienter Schätzer für a (bei bekanntem σ 2 ).
Bemerkung 10.3.
Voraussetzungen von
Betrachten wir etwa
ϑ ∈ (0, ∞) =: Θ . Es
Die Cramér-Rao-Schranke ist i.A. nicht mehr gültig, wenn die
Satz 10.1 verletzt sind.
eine Stichprobe X1 , . . . , Xn von i.i.d. R(0, ϑ)-verteilten ZV.,
gilt : f1,ϑ (xi ) = ϑ1 I(0,ϑ) (xi ) , also
x = (x1 , . . . , xn ) : fϑ (x1 , . . . , xn ) =
n
Y
i=1
f1,ϑ (xi ) > 0 = (0, ϑ)n
hängt von ϑ ab .
Formal ließe sich dennoch eine Cramér-Rao-Schranke bestimmen. Man erhielte :
∂
log f1,ϑ (Xi )
= Eϑ − ϑ1
= − ϑ1 ,
Eϑ ∂ϑ
2
2
∂
Eϑ ∂ϑ
= ϑ12 ,
log f1,ϑ (Xi )
= Eϑ − ϑ1
also
ϑ2
1
=
.
n I1 (ϑ)
n
Betrachtet man jedoch d∗ (X) =
n+1
n
max (X1 , . . . , Xn ) , so lässt sich zeigen :
83
(1) d∗ ist erwartungstreu , d.h. Eϑ d∗ (X) = ϑ
(2) V arϑ d∗ (X) =
ϑ2
ϑ2
≪
n(n + 2)
n
∀ϑ>0
∀ ϑ > 0;
(n groß ) .
Es gilt sogar : d∗ (X) ist UMVU-Schätzer !
Eine sehr allgemeine Methode zur Bestimmung von ( i.A. guten“) Schätzern ist die so
”
genannte Maximum-Likelihood-Methode :
Definition 10.6. Sei X = (X1 , . . . , Xn ) eine n-dimensionale ZV. mit gemeinsamer (diskreter bzw. absolut-stetiger ) Verteilung und Dichte fϑ = fϑ (x) . Bei
vorliegender Beobachtung x = (x1 , . . . , xn ) sei ϑ̂ = ϑ̂(x) derart , dass
fϑ̂ (x) = max fϑ (x) .
ϑ
Die Funktion ϑ 7−→ fϑ (x) , x fest , heißt Likelihood-Funktion ; ϑ̂ = ϑ̂(x) heißt
Maximum-Likelihood-(ML-)Schätzer .
Bemerkung 10.4. a) In regulären“
”
bestimmt.
b) Ist fϑ (x) > 0
Fällen existiert ϑ̂ = ϑ̂(x) und ist eindeutig
∀ ϑ ∈ Θ (x fest ) , so erhält man als äquivalente Bedingung :
log fϑ̂ (x) = max log fϑ (x) .
ϑ
Die Funktion ϑ 7−→ log fϑ (x) (x fest ) , heißt Loglikelihood-Funktion .
c) Ist ϑ = (ϑ1 , . . . , ϑk ) ∈ Θ ⊂ Rk , Θ offen , und ist fϑ nach allen ϑi stetig
partiell differenzierbar, so erhält man als notwendige Bedingungen die (so genannten)
Normalgleichungen :
∂
∂
bzw.
∀ i = 1, . . . , k ;
fϑ (x) = 0
log fϑ (x) = 0
∂ϑi
∂ϑi
ϑ̂
ϑ̂
d) ϑ̂ ist oft
fast effizient“ bzw.
asymptotisch effizient“
”
”
(Fortsetzung ) und Bemerkung 10.6).
(vgl. Beispiel 10.3
Beispiel 10.3 (Fortsetzung) X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt, a und σ 2
unbekannt, also ϑ = (a, σ 2 ) ∈ R1 × R1+ = Θ ,
fϑ (x) =
n
1 n2
1 X
2
,
(x
−
a)
exp
−
i
2πσ 2
2σ 2 i=1
84
x = (x1 , . . . , xn ) ∈ Rn .
Man erhält als Normalgleichungen :
n
∂
1 X
(1)
=
log fa,σ2 (x) (xi − â)
∂a
â,σ 2
σb2 i=1
n
1 X
n
∂
(xi − â)2 −
log fa,σ2 (x) =
(2)
2
2
∂(σ )
â,σ
2(σb2 )2 i=1
2(σb2 )
n
1X
xi = x ;
(1) liefert :
â =
n i=1
n
1X
(xi − x)2 .
(2) liefert (mit â = x ) : σb2 =
n i=1
!
= 0;
!
= 0.
Man kann zeigen (z.B. durch Differenzieren), dass (â, σb2 ) eine Maximalstelle ist .
Bemerkung 10.5. a) Auch bei unbekanntem σ 2 ist â = x erwartungstreuer Schätzer
für a mit minimaler Varianz.
n b2
σ ist erwartungstreu und asymptotisch
b) σb2 ist nicht erwartungstreu, aber
”
n−1
effizient“, denn
n
n
1 X
2σ 4
2
b
V ara,σ2
σ = V ara,σ2
;
(Xi − X)2 =
n−1
n − 1 i=1
n−1
V ara,σ2
n
1 X
n
i=1
(xi − a)
2
=
2σ 4
n
(effizient bei bekanntem a) .
Hierbei beachte man : E(χ2n ) = n , V ar(χ2n ) = 2n .
Bemerkung 10.6. Die Maximum-Likelihood-Methode ist häufig auch dann anwendbar,
wenn die Voraussetzungen für die Gültigkeit der Cramér-Rao-Schranke verletzt sind.
Betrachten wir z.B. wieder eine Stichprobe X1 , . . . , Xn von i.i.d. R[0, ϑ]- verteilten
ZV. , ϑ ∈ (0, ∞) =: Θ . Es gilt :
n
1 Y
fϑ (x) = n
I[0,ϑ] (xi ) , x = (x1 , . . . , xn ) ∈ Rn , ϑ > 0 ,
ϑ i=1
ist bei festem x maximal (in ϑ ), wenn gilt :
(1) ϑ ≥ xi
∀ i = 1, . . . , n ;
(2) ϑ möglichst klein ,
also für ϑ̂ = max (x1 , . . . , xn ) . ϑ̂ ist nicht erwartungstreu , aber
erwartungstreu mit minimaler Varianz .
85
n+1
ϑ̂ ist
n
Herunterladen