Prof. Dr. Rainer Dahlhaus Statistik 1

Werbung
Prof. Dr. Rainer Dahlhaus
Statistik 1
Wintersemester 2016/2017
Vorbereitung auf 4. Übungsblatt (Präsenzübungen) - Lösungen
Aufgabe P12 (Scheffe-Konfidenzband).
Wir betrachten das lineare Modell
Yi = β1 + β2 2ti + εi ,
i = 0, ..., n − 1,
wobei ti = ni , mit β = (β1 , β2 )0 und unabhängig und normalverteilten Zufallsvariablen εi ∼
N (0, σ 2 ). Geben Sie unter Nutzung von Satz 18.11 der Vorlesung für die Prognose φ(t) :=
β1 + β2 2t ein gleichmäßiges (konservatives) (1 − α)-Konfidenzintervall für alle t ∈ R an, d.h.
definieren Sie (zufällige) Funktionen φ̂o , φ̂u : R → R sodass
P(φ̂u (t) ≤ φ(t) ≤ φ̂o (t) ∀t ∈ R) ≥ 1 − α.
Zeichnen Sie [φ̂u (t), φ̂o (t)] sowie des Gauß-Markov-Schätzer φ̂(t) skizzenhaft für t ∈ [−0.5, 1.5]
und α = 0.05 ein für folgende Beobachtungen mit n = 10:
i
Yi
0
1
2
3
4
5
6
7
8
9
0.50 0.76 0.67 0.77 0.95 1.08 1.10 1.25 1.51 1.40
Hinweis: F2,8,0.95 = 4.46.
Lösung: (a) Es liegt das lineare Modell Y = Xβ + ε vor mit


1 exp(t1 )

..  , β = (β , β )0 , ε = (ε , ..., ε )0 ,
X =  ...
1
2
1
n
. 
1 exp(tn )
Der KQ-Schätzer β̂ = (β̂1 , β̂2 )0 lautet in dieser Situation (definiere Dn := 3(n(41/n − 1))−1 −
(n(21/n − 1))−2 ):
Pn−1 i/n n
2
1
(n(21/n − 1))−1
10 13.9
0
i=0
Pn−1 i/n Pn−1 2i/n = n
XX =
≈
,
13.9 20.2
(n(21/n − 1))−1 3(n(41/n − 1))−1
i=0 2
i=0 2
1
3(n(41/n − 1))−1 −(n(21/n − 1))−1
0
−1
(X X)
=
,
1
nDn −(n(21/n − 1))−1
β̂ = (X 0 X)−1 X 0 Y
1 Pn−1
1
3(n(41/n − 1))−1 −(n(21/n − 1))−1
Yi
−0.523
i=0
n
=
· 1 Pn−1 i/n
≈
1.093
1
Yi
Dn −(n(21/n − 1))−1
i=0 2
n
Im Folgenden nutzen wir die Notation aus Satz 18.11 (Satz von Scheffe). Wir wählen C =
Lin(X 0 ) = R2 (damit ` = dim(C) = 2) und L := {ψ : ψ = cβ mit c0 ∈ C} = {ψ(λ) =
1
λ1 β1 + λ2 β2 : λ = (λ1 , λ2 )0 ∈ R2 }. Es ist ψ̂(λ) = λ1 β̂1 + λ2 β̂2 , daher mit T (λ1 , λ2 ) := 3(n(41/n −
1))−1 λ21 − 2(n(21/n − 1))−1 λ1 λ2 + λ22 :
Bψ(λ)
0
T (λ1 , λ2 )
λ1
0
−1 λ1
=
=
(X X)
.
λ2
λ2
nDn
Pn−1
R02
1
ti 2
Weiter ist r = Rang(X) = 2, σ̂ 2 = n−r
= n−2
i=0 (Yi − β̂1 − β̂2 2 ) ≈ 0.0075.
2
2
Damit kann σ̂ψ̂(λ) = σ̂ Bψ(λ) berechnet werden. Wir erhalten von Satz 18.11 die Aussage
p
1 − α = P |ψ̂(λ) − ψ(λ)| ≤ σ̂ψ̂(λ) · ` · F`,n−r,1−α ∀λ ∈ R2
s
T (λ1 , λ2 ) p
2
· 2 · F2,n−2,1−α ∀λ ∈ R .
= P |ψ̂(λ) − ψ(λ)| ≤ σ̂ ·
nDn
Setzen wir speziell λ = (1, 2t )0 ∈ R2 mit t ∈ R, so erhalten wir (obige Wahrscheinlichkeit wird
größer, da wir weniger Restriktionen haben):
s
T (1, 2t ) p
1 − α ≤ P |φ̂(t) − φ(t)| ≤ σ̂ ·
2 · F2,n−2,1−α ∀t ∈ R ,
nDn
wobei φ̂(t) = β̂1 + β̂2 2t . Definieren wir also
s
T (1, 2t ) p
· 2 · F2,n−1,1−α ,
nDn
s
T (1, 2t ) p
· 2 · F2,n−1,1−α ,
nDn
φ̂u (t) = φ̂(t) − σ̂ ·
φ̂o (t) = φ̂(t) + σ̂ ·
so gilt
P(φ̂u (t) ≤ φ(t) ≤ φ̂o (t) ∀t ∈ R) ≥ 1 − α.
-0.5
0.0
0.5
y
1.0
1.5
2.0
2.5
Es ist F2,8,0.95 = 4.46. Damit erhalten wir folgende Skizze:
-0.5
0.0
0.5
x
2
1.0
1.5
Gut zu sehen: Konfidenzband ist da am engsten, wo der komponentenweise Mittelwert ((t, Y n ),
rot) der Beobachtungen ist. Zweite Bemerkung: Die Beobachtungen (Yi , Punkte) müssen nicht
mit Wahrscheinlichkeit 1 − α innerhalb des Konfidenzbands liegen, sondern die wahre Funktion
φ(t). Ein Konfidenzband für die Beobachtungen selbst müsste noch die Fehler εi und deren
Varianz berücksichtigen.
Aufgabe P13 (Suffiziente Statistiken).
Im Folgenden sei P = {Pθ : θ ∈ Θ} jeweils eine Verteilungsfamilie auf einem messbaren Raum
θ
. Zeigen Sie:
(X , B), die von einem σ-endlichem Maß µ dominiert werde mit Dichten pθ = dP
dµ
(a) Ist T : X → T suffizient für P, und ist W : T → T bijektiv, so ist auch W ◦ T suffizient
für P.
P
(b) Die Statistik T (x1 , ..., xn ) = ni=1 e−xi ist suffizient für P = {Gumbel(θ)n : θ ∈ R}.
Hinweis: Die Gumbelverteilung Gumbel(θ) hat die Verteilungsfunktion fθ (x) = exp(− exp(−(x−
θ)) bzgl. des Lebesgue-Maßes auf R.
P
(c) Die Statistik T (x1 , ..., xn ) = ( n1 ni=1 xi , min{x1 , ..., xn }) ist suffizient für P = {vExp(θ1 , θ2 )n :
θ = (θ1 , θ2 ) ∈ (0, ∞) × R}.
Hinweis: Die verschobene Exponentialverteilung vExp(λ, x0 ) hat Dichte fλ,x0 (x) = λ exp(−λ(x−
x0 ))1{x≥x0 } bzgl. des Lebesgue-Maßes auf R.
P
−1
ist suffizient für P = {Geo(θ)n : θ ∈ (0, 1)}.
(d) Die Statistik T (x1 , ..., xn ) = n1 ni=1 xi
Lösung: (a) Nach dem Faktorisierungskriterium von Neyman gibt es für alle θ ∈ Θ eine
Darstellung
pθ (x) = gθ (T (x)) · h(x) µ − f.s.
mit einer Abbildung gθ : T → R≥0 und h : X → R≥0 . Da W : T → T bijektiv ist, gilt auch
pθ (x) = gθ (W −1 ◦ (W ◦ T )(x)) · h(x) µ − f.s.
Nach dem Faktorisierungskriterium von Neyman ist daher auch W ◦ T suffizient für P.
(b) Die Dichte von Gumbel(θ)n bzgl. λn (λ das Lebesgue-Maß auf R) ist gegeben durch (hier
ist x eine Abkürzung für (x1 , ..., xn )):
pθ (x) =
n
Y
i=1
fθ (xi ) =
n
Y
n
X
exp(− exp(−(xi − θ))) = exp − eθ ·
e−xi = gθ (T (x)) · h(x)
i=1
i=1
mit gθ (t) = exp(−eθ · t) und h(x) = 1.
(c) Die Dichte von vExp(θ1 , θ2 )n bzgl. λn ist gegeben durch
pθ (x) =
n
Y
i=1
=
θ1n
fθ1 ,θ2 (xi ) =
n Y
θ1 · exp(−θ1 (xi − θ2 )) · 1{xi ≥θ2 }
i=1
· exp(nθ1 θ2 ) · exp − θ1
n
X
i=1
= gθ (T (x)) · h(x),
3
xi · 1{min{x1 ,...,xn }≥θ2 }
wobei gθ (t1 , t2 ) = θ1n · exp(nθ1 θ2 ) · exp(−θ1 nt1 ) · 1{t2 ≥θ2 } und h(x) = 1.
(d) Die Dichte von Geo(θ)n bzgl. µnZ (µZ das Zählmaß auf N0 ) ist gegeben durch
pθ (x) =
n Y
Pn
θ · (1 − θ)xi = θn · (1 − θ) i=1 xi = gθ (T (x)) · h(x),
i=1
wobei gθ (t) = θn · (1 − θ)1/t und h(x) = 1.
Homepage der Vorlesung:
http://math.uni-heidelberg.de/stat/studinfo/teaching_stat/Statistik1_WS201617/
4
Herunterladen