5.10.1. Untere Abschätzung des mittleren quadratischen Fehlers bei erwartungstreuen Schätzern 1. Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell, wobei X diskret 2, G = Pot(X) und Λ ein Intervall in R ist. T : X → Λ sei ein erwartungstreuer Schätzer für λ, d.h., X Eλ [T ] = T (x)Pλ [{x}] = λ, λ ∈ Λ. (13) x∈X Für die Likelihood-Funktion Λ ∋ λ → Pλ [{x}] = Lx (λ), x ∈ X, gilt somit X Lx (λ) = 1, λ ∈ Λ, X 3 (14a) x∈X T (x)Lx (λ) = λ, λ ∈ Λ. (14b) x∈X Sei nun ℓx (λ) = log Lx (λ), λ ∈ Λ, die Log-Likelihood-Funktion zum Beobachtungswert x ∈ X. Da 4 L′ (λ) , λ ∈ Λ, x ∈ X, (15) ℓ′x (λ) = x Lx (λ) führt Differentiation beiden Seiten von (14a) und (14b) zu X X 0=5 L′x (λ) = 6 ℓ′x (λ)Pλ [{x}] = Eλ [ℓ′ (λ)], λ ∈ Λ, x∈X (16a) x∈X bzw., 1= 5 X x∈X T (x)L′x (λ) = 6 X T (x)ℓ′x (λ)Pλ [{x}] = Eλ [T ℓ′ (λ)], λ ∈ Λ, (16b) x∈X wobei für λ ∈ Λ die Statistik ℓ′ (λ) : (X, G) → (R, B(R)) durch ℓ′ (λ)(x) = ℓ′x (λ), x ∈ X, gegeben ist und Eλ [ . ] den Erwartungswert bzgl. des Wahrscheinlichkeitsmaßes Pλ auf (X, G) bezeichnet. Multipliziert man (16a) mit 7 λ = Eλ [T ] und subtrahiert die resultierende Gleichung anschließend von (16b), so ergibt sich 1 = Eλ [T ℓ′ (λ)] − Eλ [T ]Eλ [ℓ′ (λ)] = 8 Eλ [(T − Eλ [T ])ℓ′ (λ)] p p ≤ 9 Eλ [(T − Eλ [T ])2 ] Eλ [ℓ′ (λ)2 ] p p = Varλ (T ) Eλ [ℓ′ (λ)2 ], λ ∈ Λ. (17) Man bezeichnet I(λ) = Eλ [ℓ′ (λ)2 ] als Fisher-Information. Falls I(λ) ∈ (0, ∞), λ ∈ Λ, (18) 1 In diesem Abschnitt soll der Frage nachgegangen werden, wie gut“ ein erwartungstreuer ” Schätzer sein kann. M.a.W., es soll untersucht werden, wie klein der mittlere quadratische Fehler eines solchen Schätzers werden kann. 2Diese Annahme wird zur Vereinfachung der Notation gemacht. 3Wenn in (14) für x ∈ X und λ ∈ Λ jeweils L (λ) durch P [{x}] ersetzt wird, wird deutlich, x λ P daß diese Identitäten zu x∈X Pλ [{x}] = Pλ [X] = 1, bzw. zu (13) äquivalent sind. 4Mit f ′ wird hier die Ableitung einer Funktion f auf dem Intervall Λ bezeichnet. 5Hier sei angenommen, daß Differentiation und Summation vertauschbar sind. 6Wegen (15) und weil L (λ) = P [{x}], λ ∈ Λ, x ∈ X. x λ 7Man beachte, daß der Schätzer T erwartungstreu ist, vgl. (13). 8Wegen der Linearität des Erwartungswerts, vgl. Abschnitt 5.2.2. 9Aufgrund der Cauchy-Schwarzschen Ungleichung in den Hilberträumen L2 (X, G, P ), λ ∈ Λ, λ vgl. Abschnitt 5.5.1, Bemerkung (ii), und Abschnitt 5.5.6, Fußnote 9. 1 2 angenommen wird, folgt nun aus (17) für jeden erwartungstreuen Schätzer T von λ die sog. Informationsungleichung 1 Varλ (T ) ≥ , λ ∈ Λ. (19) I(λ) Die Varianz und damit der mittlere quadratische Fehler eines erwartungstreuen Schätzers 10 des Parameters λ kann daher niemals kleiner als das Inverse der FisherInformation sein. Das folgende Beispiel zeigt, daß (19) optimal ist, genauer, daß es Fälle mit Gleichheit in (19) gibt und somit diese allgemeine Abschätzung nicht durch eine größere rechte Seite verbessert werden kann. Beispiel. Nach der Beobachtung von n unabhängigen Zufallsvariablen X1 , . . . , Xn , die gemäß einer Bernoulli-Verteilung mit einem Parameter q ∈ [0, 1] verteilt sind 11, soll q geschätzt werden 12. Zur Lösung dieses Schätzproblems kann mit dem statistischen Modell (X, G, (Pq )q∈[0,1] ), wobei X = {0, 1}n, G = Pot(X) und Pq , q ∈ [0, 1], durch 13 Pq [{x}] = q Pn i=1 xi (1 − q)n− Pn i=1 xi x = (x1 , . . . , xn ) ∈ X, , gegeben ist, gearbeitet werden. Die Likelihood-Funktion Lx : [0, 1] → [0, 1] und die Log-Likelihood-Funktion ℓx : (0, 1) → R zu einer Beobachtung x ∈ X sind nun gegeben durch Lx (q) = q Pn i=1 xi (1 − q)n− Pn i=1 xi , q ∈ [0, 1], x = (x1 , . . . , xn ) ∈ X, bzw., ℓx (q) = log(Lx (q)) = log(q) n X xi + log(1 − q) n − n X i=1 i=1 ! (20) xi , q ∈ (0, 1), x = (x1 , . . . , xn ) ∈ X. Daher kann der Maximum-Likelihood-Schätzer qb für q durch eine Statistik TML : (X, G) → ([0, 1], B([0, 1])) mit 14 n qb = TML (x) = 1X xi , n i=1 x ∈ X, (21) 10In Abschnitt 5.10 wurde daraufhingewiesen, daß bei erwartungstreuen Schätzern Varianz und mittlerer quadratischer Fehler übereinstimmen. 11Vgl. Abschnitt 1.8, Beispiel (a). 12In q = 0 und q = 1 hat die in (20) angegebene Log-Likelihood-Funktion eine Singularität. Außerdem besitzt dann der Schätzer TM L , vgl. (21), die Varianz 0, während die Fisher-Information ∞ ist. Bei den folgenden Berechnungen werden daher diese Fälle beiseite gelassen. Allerdings gilt auch hier Gleichheit in (19), wenn mit ∞−1 = 0 gearbeitet wird. 13Vgl. Abschnitt 1.1(f) und auch Ein Einblick in den Aufbau und die Themen der Stocha” stik“, Abschnitt 2, wo mit etwas anderen Formulierungen die Verteilung von endlich vielen, i.i.d. Zufallsvariablen mit einer Bernoulli-Verteilung angeben wurde. 14Für x ∈ X folgen aus (20) die Beziehungen ! n n n X 1 1X 1X ′ xi − n− xi , xi = 0 ⇐⇒ q = ℓx (q) = q i=1 1−q n i=1 i=1 ! n n X 1 X 1 ℓ′′ xi − n − xi < 0, q ∈ (0, 1), x (q) = − 2 q i=1 (1 − q)2 i=1 lim ℓx (q) = lim ℓx (q) = −∞. qց0 qր1 17. Januar 2008 3 beschrieben werden. Der Schätzer TML ist erwartungstreu 15 mit 16 q(1 − q) Varq (TML ) = , q ∈ [0, 1]. n Da außerdem 17 n I(q) = , q ∈ (0, 1), q(1 − q) gilt für TML in (19) Gleichheit. Pn 15Wegen (21) ist T M L = (1/n) k=1 Xk , wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit einer Bernoulli-Verteilung zu einem Parameter q ∈ [0, 1] sind. Aus Eq [X1 ] = q und der Linearität des Erwartungswerts ergibt sich daher Eq [TM L ] = n 1 X Eq [Xk ] = Eq [X1 ] = q, n k=1 q ∈ [0, 1]. P Aufgrund von (21) ist TM L = (1/n) n k=1 Xk , wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit einer Bernoulli-Verteilung zu einem Parameter q ∈ [0, 1] sind. Da Varq (X1 ) = q(1 − q) folgt 16 Varq (TM L ) = n Varq (X1 ) q(1 − q) 1 X Varq (Xk ) = = , 2 n k=1 n n q ∈ [0, 1], aus Abschnitt 5.5.6(a)-(b). 17Aus (20) folgt n 1 1 X Xk − ℓ (q) = q k=1 1−q ′ = bzw., “1 q + n− n X k=1 Xk ! n n X n n 1 ”X 1 Xk − Xk − = , 1 − q k=1 1−q q(1 − q) k=1 1−q ℓ′ (q)2 = n X 1 1 X2 + 2 q 2 (1 − q)2 k=1 k q (1 − q)2 − n X 2n n2 Xk + , 2 q(1 − q) k=1 (1 − q)2 X q ∈ (0, 1), Xk Xl k,l=1,...,n l6=k q ∈ (0, 1), wobei X1 , . . . , Xn i.i.d. Zufallsvariable mit einer Bernoulli-Verteilung zu einem Parameter q ∈ (0, 1) sind. Da Eq [X1 ] = Eq [X12 ] = q, q ∈ (0, 1), ergibt sich n(n − 1) 2n2 n2 n + − + 2 2 2 q(1 − q) (1 − q) (1 − q) (1 − q)2 n n n(1 − q) n = − = = , q(1 − q)2 (1 − q)2 q(1 − q)2 q(1 − q) Eq [ℓ′ (q)2 ] = 17. Januar 2008 q ∈ (0, 1).