5.10.1. Untere Abschätzung des mittleren quadratischen Fehlers bei

Werbung
5.10.1. Untere Abschätzung des mittleren quadratischen Fehlers bei erwartungstreuen Schätzern 1. Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell, wobei
X diskret 2, G = Pot(X) und Λ ein Intervall in R ist. T : X → Λ sei ein erwartungstreuer Schätzer für λ, d.h.,
X
Eλ [T ] =
T (x)Pλ [{x}] = λ, λ ∈ Λ.
(13)
x∈X
Für die Likelihood-Funktion Λ ∋ λ → Pλ [{x}] = Lx (λ), x ∈ X, gilt somit
X
Lx (λ) = 1, λ ∈ Λ,
X
3
(14a)
x∈X
T (x)Lx (λ) = λ,
λ ∈ Λ.
(14b)
x∈X
Sei nun ℓx (λ) = log Lx (λ), λ ∈ Λ, die Log-Likelihood-Funktion zum Beobachtungswert x ∈ X. Da 4
L′ (λ)
, λ ∈ Λ, x ∈ X,
(15)
ℓ′x (λ) = x
Lx (λ)
führt Differentiation beiden Seiten von (14a) und (14b) zu
X
X
0=5
L′x (λ) = 6
ℓ′x (λ)Pλ [{x}] = Eλ [ℓ′ (λ)], λ ∈ Λ,
x∈X
(16a)
x∈X
bzw.,
1=
5
X
x∈X
T (x)L′x (λ) = 6
X
T (x)ℓ′x (λ)Pλ [{x}] = Eλ [T ℓ′ (λ)],
λ ∈ Λ,
(16b)
x∈X
wobei für λ ∈ Λ die Statistik ℓ′ (λ) : (X, G) → (R, B(R)) durch ℓ′ (λ)(x) = ℓ′x (λ), x ∈
X, gegeben ist und Eλ [ . ] den Erwartungswert bzgl. des Wahrscheinlichkeitsmaßes
Pλ auf (X, G) bezeichnet.
Multipliziert man (16a) mit 7 λ = Eλ [T ] und subtrahiert die resultierende Gleichung anschließend von (16b), so ergibt sich
1 = Eλ [T ℓ′ (λ)] − Eλ [T ]Eλ [ℓ′ (λ)] = 8 Eλ [(T − Eλ [T ])ℓ′ (λ)]
p
p
≤ 9 Eλ [(T − Eλ [T ])2 ] Eλ [ℓ′ (λ)2 ]
p
p
= Varλ (T ) Eλ [ℓ′ (λ)2 ], λ ∈ Λ.
(17)
Man bezeichnet I(λ) = Eλ [ℓ′ (λ)2 ] als Fisher-Information. Falls
I(λ) ∈ (0, ∞),
λ ∈ Λ,
(18)
1
In diesem Abschnitt soll der Frage nachgegangen werden, wie gut“ ein erwartungstreuer
”
Schätzer sein kann. M.a.W., es soll untersucht werden, wie klein der mittlere quadratische Fehler
eines solchen Schätzers werden kann.
2Diese Annahme wird zur Vereinfachung der Notation gemacht.
3Wenn in (14) für x ∈ X und λ ∈ Λ jeweils L (λ) durch P [{x}] ersetzt wird, wird deutlich,
x
λ
P
daß diese Identitäten zu x∈X Pλ [{x}] = Pλ [X] = 1, bzw. zu (13) äquivalent sind.
4Mit f ′ wird hier die Ableitung einer Funktion f auf dem Intervall Λ bezeichnet.
5Hier sei angenommen, daß Differentiation und Summation vertauschbar sind.
6Wegen (15) und weil L (λ) = P [{x}], λ ∈ Λ, x ∈ X.
x
λ
7Man beachte, daß der Schätzer T erwartungstreu ist, vgl. (13).
8Wegen der Linearität des Erwartungswerts, vgl. Abschnitt 5.2.2.
9Aufgrund der Cauchy-Schwarzschen Ungleichung in den Hilberträumen L2 (X, G, P ), λ ∈ Λ,
λ
vgl. Abschnitt 5.5.1, Bemerkung (ii), und Abschnitt 5.5.6, Fußnote 9.
1
2
angenommen wird, folgt nun aus (17) für jeden erwartungstreuen Schätzer T von
λ die sog. Informationsungleichung
1
Varλ (T ) ≥
, λ ∈ Λ.
(19)
I(λ)
Die Varianz und damit der mittlere quadratische Fehler eines erwartungstreuen
Schätzers 10 des Parameters λ kann daher niemals kleiner als das Inverse der FisherInformation sein.
Das folgende Beispiel zeigt, daß (19) optimal ist, genauer, daß es Fälle mit Gleichheit in (19) gibt und somit diese allgemeine Abschätzung nicht durch eine größere
rechte Seite verbessert werden kann.
Beispiel. Nach der Beobachtung von n unabhängigen Zufallsvariablen X1 , . . . , Xn ,
die gemäß einer Bernoulli-Verteilung mit einem Parameter q ∈ [0, 1] verteilt sind 11,
soll q geschätzt werden 12. Zur Lösung dieses Schätzproblems kann mit dem statistischen Modell (X, G, (Pq )q∈[0,1] ), wobei X = {0, 1}n, G = Pot(X) und Pq , q ∈ [0, 1],
durch 13
Pq [{x}] = q
Pn
i=1
xi
(1 − q)n−
Pn
i=1
xi
x = (x1 , . . . , xn ) ∈ X,
,
gegeben ist, gearbeitet werden.
Die Likelihood-Funktion Lx : [0, 1] → [0, 1] und die Log-Likelihood-Funktion
ℓx : (0, 1) → R zu einer Beobachtung x ∈ X sind nun gegeben durch
Lx (q) = q
Pn
i=1
xi
(1 − q)n−
Pn
i=1
xi
,
q ∈ [0, 1], x = (x1 , . . . , xn ) ∈ X,
bzw.,
ℓx (q) = log(Lx (q))
= log(q)
n
X
xi + log(1 − q) n −
n
X
i=1
i=1
!
(20)
xi ,
q ∈ (0, 1), x = (x1 , . . . , xn ) ∈ X.
Daher kann der Maximum-Likelihood-Schätzer qb für q durch eine Statistik TML :
(X, G) → ([0, 1], B([0, 1])) mit 14
n
qb = TML (x) =
1X
xi ,
n i=1
x ∈ X,
(21)
10In Abschnitt 5.10 wurde daraufhingewiesen, daß bei erwartungstreuen Schätzern Varianz
und mittlerer quadratischer Fehler übereinstimmen.
11Vgl. Abschnitt 1.8, Beispiel (a).
12In q = 0 und q = 1 hat die in (20) angegebene Log-Likelihood-Funktion eine Singularität. Außerdem besitzt dann der Schätzer TM L , vgl. (21), die Varianz 0, während die Fisher-Information ∞
ist. Bei den folgenden Berechnungen werden daher diese Fälle beiseite gelassen. Allerdings gilt auch
hier Gleichheit in (19), wenn mit ∞−1 = 0 gearbeitet wird.
13Vgl. Abschnitt 1.1(f) und auch Ein Einblick in den Aufbau und die Themen der Stocha”
stik“, Abschnitt 2, wo mit etwas anderen Formulierungen die Verteilung von endlich vielen, i.i.d.
Zufallsvariablen mit einer Bernoulli-Verteilung angeben wurde.
14Für x ∈ X folgen aus (20) die Beziehungen
!
n
n
n
X
1
1X
1X
′
xi −
n−
xi ,
xi = 0 ⇐⇒ q =
ℓx (q) =
q i=1
1−q
n i=1
i=1
!
n
n
X
1 X
1
ℓ′′
xi −
n
−
xi < 0, q ∈ (0, 1),
x (q) = − 2
q i=1
(1 − q)2
i=1
lim ℓx (q) = lim ℓx (q) = −∞.
qց0
qր1
17. Januar 2008
3
beschrieben werden.
Der Schätzer TML ist erwartungstreu 15 mit 16
q(1 − q)
Varq (TML ) =
, q ∈ [0, 1].
n
Da außerdem 17
n
I(q) =
, q ∈ (0, 1),
q(1 − q)
gilt für TML in (19) Gleichheit.
Pn
15Wegen (21) ist T
M L = (1/n)
k=1 Xk , wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit einer
Bernoulli-Verteilung zu einem Parameter q ∈ [0, 1] sind. Aus Eq [X1 ] = q und der Linearität des
Erwartungswerts ergibt sich daher
Eq [TM L ] =
n
1 X
Eq [Xk ] = Eq [X1 ] = q,
n k=1
q ∈ [0, 1].
P
Aufgrund von (21) ist TM L = (1/n) n
k=1 Xk , wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit
einer Bernoulli-Verteilung zu einem Parameter q ∈ [0, 1] sind. Da Varq (X1 ) = q(1 − q) folgt
16
Varq (TM L ) =
n
Varq (X1 )
q(1 − q)
1 X
Varq (Xk ) =
=
,
2
n k=1
n
n
q ∈ [0, 1],
aus Abschnitt 5.5.6(a)-(b).
17Aus (20) folgt
n
1
1 X
Xk −
ℓ (q) =
q k=1
1−q
′
=
bzw.,
“1
q
+
n−
n
X
k=1
Xk
!
n
n
X
n
n
1 ”X
1
Xk −
Xk −
=
,
1 − q k=1
1−q
q(1 − q) k=1
1−q
ℓ′ (q)2 =
n
X
1
1
X2 + 2
q 2 (1 − q)2 k=1 k
q (1 − q)2
−
n
X
2n
n2
Xk +
,
2
q(1 − q) k=1
(1 − q)2
X
q ∈ (0, 1),
Xk Xl
k,l=1,...,n
l6=k
q ∈ (0, 1),
wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit einer Bernoulli-Verteilung zu einem Parameter q ∈
(0, 1) sind. Da Eq [X1 ] = Eq [X12 ] = q, q ∈ (0, 1), ergibt sich
n(n − 1)
2n2
n2
n
+
−
+
2
2
2
q(1 − q)
(1 − q)
(1 − q)
(1 − q)2
n
n
n(1 − q)
n
=
−
=
=
,
q(1 − q)2
(1 − q)2
q(1 − q)2
q(1 − q)
Eq [ℓ′ (q)2 ] =
17. Januar 2008
q ∈ (0, 1).
Zugehörige Unterlagen
Herunterladen