Prof. Dr. Holger Dette Dr. Melanie Birke Musterlösung Statistik I Sommersemester 2009 Blatt 6 Aufgabe 1: (4 Punkte) 1. Es sei X ∼ Pθ , θ ∈ Θ und T : X → T sei suffizient und vollständig für θ ∈ Θ. Man zeige, dass dann T minimal suffizient für θ ist. 2 2. Es 1 , . . . , Xn unabhängig identisch N (θ, θ )−verteilt. Man zeige, dass T (X1 , . . . , Xn ) = Pnseien XP n 2 ( i=1 Xi , i=1 Xi ) suffizient ist für θ. 3. T (X1 , . . . , Xn ) ist sogar minimal suffizient (darf ohne Beweis verwendet werden, beweisen wir später!). Man zeige, dass T (X1 , . . . , Xn ) jedoch nicht vollständig ist (d.h. die Umkehrung von 1. gilt nicht!). Lösung: 1. Wir setzen voraus, dass eine minimal suffiziente Statistik U existiert. Dann reicht es zu zeigen, dass T und U äquivalent sind, d.h. sie stimmen überein mit Ausnahme einer Nullmenge. Wir nehmen an, dass eine Menge A ⊂ X mit Pθ (A) > 0 existiert, so dass D := Eθ [IA (X)|T ] − Eθ [IA (X)|U ] = h1 (T ) − h2 (U ) 6= 0 für Funktionen h1 und h2 ist. Wegen der iterierten Erwartung gilt dann aber Eθ [D] = 0. Andererseits existiert, da U minimal suffizient ist, eine Funktion h̃ mit U = h̃(T ). Daraus folgt D = h(T ) 6= 0 mit h = h1 − h2 ◦ h̃. Mit der Vollständigkeit von T müsste für h aber Pθ (h(T ) = 0) = 1 für alle θ ∈ Θ gelten. Also gilt T = U (bis auf eine Nullmenge A) und somit ist T minimal suffizient. 2. Es ist ! ! n/2 n n n n n X X 1 1X 1 X 2 fθ (x1 , . . . , xn ) = x exp x exp − x2i )h(x) exp − x , = g ( i i θ 2πθ2 2θ2 i=1 i θ i=1 2 i=1 i=1 1 exp − 2θ v , h(x) = exp − n2 und mit der Neyman Charakterisierung erhält man Pn Pn 2 T die suffiziente Statistik T (X) = . i=1 Xi , i=1 Xi 3. Wenn T auch vollständig wäre, müsste für jede Funktion h mit Eθ [h(T )] = 0 folgen, dass h fast Pauch n 1 2 1 1 2 v − 2n u . Dann ist Eθ [h(T )] = 0 da 2n X sicher gleich 0 ist. Wir wählen z.B. h(u, v) = n(n+1) i=1 i und Pn 1 2 i=1 Xi beides erwartungstreue Schätzer für θ sind. Es gilt jedoch Pθ (h(T ) = 0) < 1. Daher ist n(n+1) T nicht vollständig. mit gθ (u, v) = exp 1 θu Aufgabe 2: (4 Punkte) Es seien X1 , . . . , Xn unabhängig identisch Poisson-verteilt mit Parameter λ > 0. Σn Xi (a) Man zeige, dass T ∗ (X) = 1 − nb i=1 der UMVU-Schätzer für e−bλ , b > 0 bekannt, ist. (b) Man betrachte das Verhalten von T ∗ (X) für b > n und begründe, warum es in diesem Fall kein sinnvoller Schätzer sein muss. Lösung: (a) Wir wenden den Satz von Lehmann-Scheffé an. Aus der Vorlesung wissen wir, dass T (X) = Pn X suffizient und vollständig ist für λ. Weiter ist (1 − b)X1 wegen i i=1 Eλ [(1 − b)X1 ] = ∞ X k=0 n (1 − b)k e−λ X [(1 − b)λ]k λk = e−λ = e−λ eλ(1−b)λ = e−bλ k! k! k=0 erwartungstreu. Weiter wissen wir aus der Vorlesung, dass PX1 |T (X)=t ∼ Bin t, n1 ϕX1 |T (X)=t (s) die Erzeugende Funktion der Verteilung PX1 |T (X)=t (vgl. EWS), so gilt Eλ [(1 − b)X1 |T (X) = t] = ϕX1 |T (X)=t (1 − b) = 1 n−1 (1 − b) + n n t gilt. Bezeichnet t b = 1− n und mit Lehmann-Scheffé erhalten wir den UMVU-Schätzer ∗ X1 T (X) = Eλ [(1 − b) Σn X b i=1 i . |T (X)] = 1 − n (Beachte: Ein Beweis über die Cramèr-Rao-Schranke funktioniert hier nicht, da T ∗ (X) nicht effizient ist.) T (X) (b) Ist b > n, so erhält man für gerade Werte von T (X) als Schätzer 1 − nb und für ungerade Werte b T (X) von T (X) − 1 − n . Als Schätzer ist er damit nicht geeignet, insbesondere da λ > 0 gilt und daher negative Schätzwerte nicht im Parameterbereich liegen. Aufgabe 3: (4 Punkte) Es habe X die Verteilung Pθ , θ ∈ Θ und es sei g(X) ein erwartungstreuer Schätzer für γ(θ) mit Eθ [(g(X))2 ] < ∞. Man zeige, dass g(X) UMVU-Schätzer für γ(θ) ist genau dann wenn Eθ [g(X)U (X)] = 0 ist für alle θ ∈ Θ und für alle Statistiken U mit Eθ [U (X)] = 0 und Eθ [(U (X))2 ] < ∞. Lösung: ⇒“ es sei g(X) UMVU-Schätzer für γ(θ). Wegen Eθ [U (X)] = 0 gilt für ein festes U mit dieser ” Eigenschaft und für alle λ ∈ IR, dass g̃(X) = g(X) + λU (X) ebenfalls ein erwartungstreuer Schätzer ist mit Vθ (g(X)) ≤ Vθ (g(X) + λU (X)) = Vθ (g(X)) + λ2 Vθ (U (X)) + 2λCθ (g(X), U (X)) für alle λ ∈ IR und es folgt λ2 Vθ (U (X)) + 2λCθ (g(X), U (X)) ≥ 0 für alle λ ∈ IR Die Nullstellen von l(λ) = λ2 Vθ (U (X)) + 2λCθ (g(X), U (X)) = 0 sind λ = 0 und λ = −2Cθ (g(X), U (X))/Vθ (U (X)) so dass l(λ) auch negative Werte annehmen kann. Das widerspräche aber der Voraussetzung, dass g(X) UMVU-Schätzer ist. Also muss gelten Cθ (g(X), U (X)) = Eθ [g(X)U (X)] = 0. ⇐“ Es sei Eθ [g(X)U (X)] = 0 für alle U mit Eθ [U (X)] = 0. Es sei g̃(X) ein weiterer erwartungstreuer ” Schätzer für θ. Ist Vθ (g̃(X)) = ∞, so ist nichts zu zeigen. Also sei Vθ (g̃(X)) < ∞. Wegen Eθ [(g−g̃)(X)] = 0 gilt Eθ [g(X)(g − g̃)(X)] = 0 und somit Eθ [(g(X))2 ] = Eθ [g(X)g̃(X)]. Man erhält Cauchy-Schwarz Vθ (g(X)) = Cθ (g(X), g̃(X)) ≤ p Vθ (g(X))Vθ (g̃(X)) und deshalb Vθ (g(X)) ≤ Vθ (g̃(X)). Aufgabe 4: (4 Punkte) Nach dem Hardy-Weinberg-Gesetz treten in einer Population drei Genotypen aa, aA und AA mit den Wahrscheinlichkeiten p1 := θ2 , p2 := 2θ(1 − θ) und p3 := (1 − θ)2 auf, wobei θ ∈ (0, 1) ein unbekannter Parameter ist, der geschätzt werden soll. Dazu werden n Mäuse zufällig mit Zurücklegen aus einer Kiste gezogen und untersucht. (a) Man berechne die Fisher Information des Experiments. (b) Man zeige, dass der Maximum Likelihood Schätzer durch θ̂M L = gegeben ist. 2#{Mäuse mit Genotyp aa} + #{Mäuse mit Genotyp aA} 2n (c) Man zeige, dass θ̂M L erwartungstreu und effizient, also UMVU-Schätzer ist. P3 Lösung: Die Beobachtungen sind Xi = (Xi1 , Xi2 , Xi3 )T ∈ {0, 1}3 mit j=1 Xij = 1, i = 1, . . . , n. Also Pn Pn sind die Xi ∼ M(1, p1 , p2 , p3 ). Weiter sei X (X1 , . . . , Xn ), Y = i=1 Xi und Y1 = i=1 Xi1 ist die P= n Anzahl der Mäuse mit Genotyp aa, Y2 = i=1 Xi2 die Anzahl der Mäuse mit Genotyp aA und Y3 = Pn i=1 Xi3 die Anzahl der Mäuse mit Genotyp AA. (a) Für die Fisher-Information gilt In (θ) = nI1 (θ) da Xi unabhängig identisch M(1, p1 , p2 , p3 )-verteilt sind. Für I1 (θ) müssen wir die Log-Likelihood-Funktion einer Beobachtung X1 bestimmen. Es ist LX1 (θ) = log LX1 (θ) = ∂ log LX1 (θ) = ∂θ = = (θ2 )X11 (2θ(1 − θ))X12 ((1 − θ)2 )X13 2X11 log θ + X12 log(2θ(1 − θ)) + 2X13 log(1 − θ) 2X11 (1 − 2θ)X12 2X13 + − θ θ(1 − θ) 1−θ 2X11 (1 − 2θ)X12 2(1 − X11 − X12 ) + − θ θ(1 − θ) 1−θ 2X11 X12 2 + − θ(1 − θ) θ(1 − θ) 1 − θ und I1 (θ) = = = " ∂ log LX1 (θ) ∂θ " 2X11 X12 2 + − θ(1 − θ) θ(1 − θ) 1 − θ Eθ Eθ 2 # 2 # 4 1 4 4 2 2 Eθ [X11 ]+ 2 Eθ [X12 ]+ − 2 Eθ [X11 X12 ] θ2 (1 − θ)2 θ (1 − θ)2 (1 − θ)2 θ (1 − θ)2 4 8 Eθ [X11 ] − Eθ [X12 ]. − θ(1 − θ)2 θ(1 − θ)2 2 Wegen X1j ∼ Bin(1, pj ), , Eθ [X1j ] = npj (1 − pj ) + n2 p2j , Cθ (X1i , X1j ) = −pi pj , Eθ [X1i X1j ] = −pi pj + pi pj = 0 für i 6= j gilt also I1 (θ) 4 8θ2 8θ(1 − θ) 2(θ2 (1 − θ2 ) + θ4 ) 2θ(1 − θ)(1 − 2θ(1 − θ)) + 4θ2 (1 − θ)2 + + − − 2 2 2 2 2 θ (1 − θ ) θ (1 − θ ) (1 − θ) θ(1 − θ) θ(1 − θ)2 2θ(1 − θ) 2 = . . . zusammenfassen . . . = 2 = θ (1 − θ)2 θ(1 − θ) = 2n und die Fisher-Information ist In (θ) = θ(1−θ) . (b) Hier brauchen wir die volle Likelihood-Funktion von X. Es ist mit den Bezeichnungen von oben (θ2 )Y1 (2θ(1 − θ))Y2 ((1 − θ)2 )n−Y1 −Y2 n! + 2 log θY1 + log(2θ(1 − θ))Y2 + 2 log(1 − θ) (n − Y1 − Y2 ) log LX (θ) = log Y1 !Y2 !(n − Y1 − Y2 ) ∂ 2 1 − 2θ 2 LX (θ) = Y1 + Y2 + (n − Y1 − Y2 ) ∂θ θ θ(1 − θ) 1−θ LX (θ) = Den ML-Schätzer erhalten wir indem wir die Ableitung der Log-Likelihood-Funktion 0 setzen als 2 1 − 2θ 2 Y1 + Y2 + (n − Y1 − Y2 ) = 0 θ θ(1 − θ) 1−θ 2Y1 + Y2 = 2θn Y1 Y2 θ̂M L = + n 2n und Y1 ist die Anzahl der Mäuse mit Genotyp aa, Y2 ist die Anzahl der Mäuse mit Genotyp aA. (c) Der Erwartungswert von θ̂M L ist E[θ̂M L ] = 1 1 1 1 E[Y1 ] + E[Y2 ] = nθ2 + n 2θ(1 − θ) = θ n 2n n 2n da nach Beispiel 1.9 in der Vorlesung Yi ∼ Bin(n, pi ), i = 1, 2. Die Varianz ergibt sich als V(θ̂M L ) = = 1 2 nθ2 (1 − θ2 ) 2nθ(1 − θ)(1 − 2θ(1 − θ)) 2nθ3 (1 − θ) 1 V(Y ) + V(Y ) + C(Y , Y ) = + − 1 2 1 2 n2 4n2 2n2 n2 4n2 n2 θ(1 − θ) 2n da Vθ (Yi ) = npi (1 − pi ) für i = 1, 2 und Cθ (Y1 , Y2 ) = −np1 p2 (vgl. Übung). Da θ̂M L erwartungstreu ist für θ und die untere Schranke für die Varianz eines erwartungstreuen Schätzers mit Cramér-Rao gegeben ist durch In2(θ) = θ(1−θ) = Vθ (θ̂M L ), ist θ̂M L effizient und damit UMVU-Schätzer. 2n