5 Asymptotische Optimalität von Schätzern, Cramér–Rao

Werbung
5 Asymptotische Optimalität von Schätzern,
Cramér–Rao–Ungleichung
Für jedes n = 1, 2, . . . sei X = X (n) = (X1 , . . . , Xn ) eine
Stichprobe“ mit
”
X
X
k
P = Pϑ : ϑ ∈ Θ . Ferner sei jeweils d : X −→ Γ = γ(Θ) ⊂ R eine Punktschätzung
(n)
(n)
für den Parameter γ(ϑ) , also d(x) = d(n) (x) = d1 (x), . . . , dk (x) , γ(ϑ) =
γ1 (ϑ), . . . , γk (ϑ)
Spaltenvektoren .
Gütekriterien :
(n) d n=1,2,... heißt
– (schwach) konsistent
: ⇐⇒
d(n) (X1 , . . . , Xn )
– stark konsistent
: ⇐⇒
d(n) (X1 , . . . , Xn )
– asymptotisch erwartungstreu : ⇐⇒
P
ϑ
−→
(n→∞)
Pϑ −f.s.
−→
(n→∞)
γ(ϑ)
∀ ϑ ∈ Θ;
γ(ϑ)
∀ ϑ ∈ Θ;
Eϑ d(n) (X1 , . . . , Xn ) −→ γ(ϑ) ∀ ϑ ∈ Θ .
(n→∞)
Konsistenz bzw. asymptotische Erwartungstreue sind relativ schwache Gütekriterien für
Folgen von Schätzer(n). Ein wichtigeres Gütemaß bildet die Varianz eines Schätzers.
Eine geringere Varianz bedeutet i.A. eine stärkere Konzentration der Verteilung des
Schätzers um den gesuchten Parameter und daher eine genauere“ Schätzung.
”
Unter bestimmten Regularitätsvoraussetzungen gibt es untere Schranken für die Varianz
von Schätzern , z.B. die Cramér-Rao-Schranke falls γ(ϑ) reell , vgl. Einführung in
”
die Stochastik“ :
2
γ (ϑ)
V arϑ d(X) ≥
∂
2 ∀ ϑ ∈ Θ ;
Eϑ ∂ϑ
log fϑ (X)
speziell für X = (X1 , . . . , Xn ) , Xi i.i.d., γ(ϑ) = ϑ :
V arϑ d(X) ≥
wobei
I(ϑ) = Eϑ
1
,
n I(ϑ)
2
∂
log f1,ϑ (X1 )
∂ϑ
die Fisher-Information von PϑX1 bezeichnet .
Die obigen Ungleichungen werden im Folgenden auf den mehrdimensionalen Fall übertragen:
19
Satz 5.1. Sei P X =
PϑX = fϑ (x) μ : ϑ ∈ Θ ⊂ Rk , Θ offen , mit
∂
log fϑ (x) messbar ∀ ϑ ∈ Θ μ-f.ü. , i = 1, . . . , k ;
∂ϑi
2
∂
∂
log fϑ (X) = 0 , Eϑ
log fϑ (X) < ∞ ∀ ϑ ∈ Θ , i = 1, . . . , k ;
(ii) Eϑ
∂ϑi
∂ϑi
∂
log fϑ (X)
ist positiv definit ∀ ϑ ∈ Θ ;
(iii) Covϑ
∂ϑ
sei erwartungstreuer Schätzer für γ(ϑ) =
(iv) d(x) = d1 (x), . . . , dk (x)
k
γ1 (ϑ), . . . , γk (ϑ) ∈ Γ ⊂ R , wobei
(i)
∂γi (ϑ)
existiert
∂ϑj
∂
∂γi (ϑ)
log fϑ (X) =
Eϑ di (X)
∂ϑj
∂ϑj
V arϑ di (X) < ∞ ,
∀ i, j = 1, . . . , k , ϑ ∈ Θ ;
∀ i, j = 1, . . . , k , ϑ ∈ Θ .
Setzt man dann
∂
log fϑ (X) ,
Σ(ϑ) := Covϑ
∂ϑ
∂γi (ϑ)
Γ (ϑ) :=
,
∂ϑj
i,j=1,...,k
so gilt die (mehrdimensionale ) Cramér-Rao-Ungleichung
(5.1)
Covϑ d(X) ≥ Γ (ϑ) Σ−1 (ϑ) Γ (ϑ)
∀ ϑ ∈ Θ.
Speziell für X = (X1 , . . . , Xn ) , Xi i.i.d. , γ(ϑ) = ϑ ∈ Rk :
∂
∂ϑ
log fϑ (X) =
n
∂
∂ϑ
log f1,ϑ (Xi ) ,
∂
∂
=: n I(ϑ) ,
Covϑ Y = Σ(ϑ) = n Eϑ ∂ϑ log f1,ϑ (X1 ) ∂ϑ log f1,ϑ (X1 )
Y :=
Γ (ϑ) = Ik ,
(5.1’)
Covϑ d(X) ≥
i=1
die k-dimensionale Einheitsmatrix , also
1 −1
I (ϑ)
n
∀ ϑ ∈ Θ,
wobei I(ϑ) die (k-dimensionale ) Fisher-Informationsmatrix von PϑX1 bezeichnet.
20
Anmerkung zu den Bezeichnungen :
1) Cov Y := E(Y − EY )(Y − EY ) und E( · ) sind komponentenweise zu bilden.
2) Für symmetrische k × k-Matrizen A, B definiert man :
A ≥ B : ⇐⇒ A − B ist positiv semidefinit , d.h. u (A − B)u ≥ 0
∀ u ∈ Rk .
Bemerkung 5.1.
a) Unter den Regularitätsvoraussetzungen von Satz 5.1 heißt d effizienter Schätzer “
”
für γ(ϑ) , falls
Covϑ d(X) = Γ (ϑ) Σ−1 (ϑ) Γ (ϑ)
b) Bei X = (X1 , . . . , Xn ) , Xi
(5.2)
∀ ϑ ∈ Θ.
i.i.d. , gilt häufig
D
√ (n)
n d (X) − γ(ϑ) −→ Z
mit
PϑZ = N 0, Σ(ϑ)
,
wobei unter bestimmten Voraussetzungen
(5.3)
Σ(ϑ)
≥ Γ (ϑ) I −1 (ϑ) Γ (ϑ)
∀ϑ∈Θ
(vgl. auch Witting-Nölle (1970), Satz 2.28 , bzw. ML-Schätzer, § 6).
Dann heißt d(n)
”
asymptotisch effizienter Schätzer “ für γ(ϑ) , falls
Σ(ϑ)
= Γ (ϑ) I −1 (ϑ) Γ (ϑ)
∀ϑ∈Θ
oder auch nur für λk -fast alle ϑ ∈ Θ .
Beispiel 5.1. Sei X = (X1 , . . . , Xn ) , Xi i.i.d. , mit
P X1 = PϑX1 = c(ϑ) exp ϑ T (x1 ) ν ϑ ∈ Θ ⊂ R1 , Θ offen } ,
also
P
X
=
(X ,...X )
Pϑ 1 n
n
= c (ϑ) exp ϑ
T (xi ) ν n ϑ ∈ Θ ,
n
i=1
n
T (xi ) .
eine 1-parametrige Exponentialfamilie in ϑ , T(x) =
i=1
21
Es gilt :
1
c(ϑ)
Eϑ0 T (X1 )
=⇒
exp ϑ T (x1 ) ν(dx1 )
1
=
exp (ϑ − ϑ0 )T (x1 ) c(ϑ0 ) exp ϑ0 T (x1 ) ν(dx1 )
c(ϑ0 )
1
T (X )
M 1 (ϑ − ϑ0 ) , ϑ0 ∈ Θ
=
c(ϑ0 ) ϑ0
=
=
V arϑ0 T (X1 ) =
Fisher-Information :
− log c(ϑ)
− log c(ϑ)
ϑ0
ϑ0
−c (ϑ0 )
= : μ(ϑ0 ) ,
c(ϑ0 )
c 2 (ϑ0 ) − c (ϑ0 )c(ϑ0 )
:= σ 2 (ϑ0 ) .
=
c2 (ϑ0 )
=
Es gilt (s.o)
log f1,ϑ (x1 ) = log c(ϑ) + ϑ T (x1 )
und damit
∂
log f1,ϑ (X1 ) = T (X1 ) − μ(ϑ)
∂ϑ
=⇒
2
∂
∂
Eϑ
log f1,ϑ (X1 ) = 0 , Eϑ
log f1,ϑ (X1 ) = σ 2 (ϑ) = I(ϑ) .
∂ϑ
∂ϑ
Zeige :
d
(n)
n
1 (x1 , . . . , xn ) :=
T (xi ) ist effizient für γ(ϑ) := μ(ϑ) .
n i=1
Begründung :
1) d(n) ist erwartungstreu ;
2
2) Cramér-Rao-Schranke :
wird angenommen , da
[ σ 2 (ϑ) ]
σ 2 (ϑ)
[ γ (ϑ) ]2
=
=
n I(ϑ)
n σ 2 (ϑ)
n
V arϑ
n
1 n
i=1
22
T (Xi)
n σ 2 (ϑ)
=
.
n2
Speziell:
i.i.d., N(a, σ02 )-verteilt, σ02 bekannt, also 1-parametrige Exponenn
xi
.
tialfamilie in ϑ = a , T (x) =
2
σ
0
i=1
a) X1 , . . . , Xn
Hier : c(ϑ) = 1
2πσ02
a
σ02
=⇒
μ(ϑ) =
=⇒
n
1 xi
nσ02 i=1
exp
−
und σ 2 (ϑ) =
− log c(ϑ) =
a2
+ const
2σ02
1
σ02
a
σ02
ist effizient für
n
1 und x̄ =
xi
n i=1
Bemerkung 5.2.
a2 und
2σ02
effizient für a .
Es gilt allgemein für λ = 0 :
d(x) ist erwartungstreu und (asymptotisch) effizient für γ(ϑ)
⇐⇒
λ d(x) ist erwartungstreu und (asymptotisch) effizient für λ γ(ϑ) .
Beispiel 5.1 (Fortsetzung)
i.i.d. N(a0 , σ 2 ) -verteilt, a0 bekannt
n
1 (xi − a0 )2 ist effizient für σ 2 .
d(x) =
n i=1
b) Seien X1 , . . . , Xn
=⇒
c) Seien X1 , . . . , Xn i.i.d. B(1, p)-verteilt, also eine 1-parametrige Exponentialn
p , T (x) =
xi , c(ϑ) = 1 − p .
familie in ϑ = ln
1−p
i=1
Umrechnung : p =
=⇒
1
e−ϑ
,
c(ϑ)
=
1
−
p
=
1 + e−ϑ
1 + e−ϑ
− log c(ϑ) = ϑ + log 1 + e−ϑ ,
μ(ϑ)
σ 2 (ϑ)
1
e−ϑ
=
= p,
1 + e−ϑ
1 + e−ϑ
e−ϑ
=
= p(1 − p) .
(1 + e−ϑ )2
= 1−
n
1 Da V ar(Xi ) = p(1 − p) , ist x̄ =
xi
n i=1
23
effizient für p .
Herunterladen