Ferienkurse Mathematik Sommersemester 2009

Werbung
Ferienkurse Mathematik Sommersemester 2009
Statistik: Grundlagen
Konfidenzintervalle
Theoretische Fragen
1. Wozu dienen Konfidenzintervalle? Reicht es nicht aus, nur den interessierenden Punkteschätzer für den Parameter zu kennen?
Für eine Vernünftige Schätzung ist es essentiell neben dem Schätzwert auch die Präzision des Schätzers anzugeben.
Der Schätzwert ohne ein Maß für dessen Genauigkeit ist nicht gerade informativ. Ein Konfidenzintervall (oder
auch Vertrauensintervall genannt) schließt einen Bereich um den geschätzten Wert des Parameters ein, der mit
einer zuvor festgelegten Wahrscheinlichkeit (dem Konfidenzniveau) die wahre Lage des Parameters trifft.
2. Wie ist ein Konfidenzintervall zum Niveau α für den unbekannten Parameter θ definiert?
Als (100 − α)% Konfidenzintervall für den unbekannten Parameter θ nennt man das kleinste Intervall, das den
wahren Parameterwert mit der Wahrscheinlichkeit (100 − α) überdeckt.
3. Man nehme an, es wurde für einen unbekannten Parameter θ ein (100 − α)% Konfidenzintervall konstruiert, der allerdingst zu breit ist. Worauf kann es hindeuten?
Ein für ein vorgegebenes Konfidenzniveau zu breites Vertrauensintervall weist auf einen zu geringen Stichprobenumfang hin. Entweder ist die Stichprobe tatsächlich klein, oder das untersuchte Phänomen ist so variabel, dass nur
durch eine unrealistisch große Stichprobe ein Konfidenzintervall von akzeptabler Breite erreicht werden könnte.
4. Für einen unbekannten Parameter θ wurde ein (100 − α)% Konfidenzintervall konstruiert.
Welche Interpretation des Konfidenzintervall ist richtig?
• Der wahre Parameter liegt mit der Wahrscheinlichkeit (100 − α) in diesem Konfidenzintervall.
• Wenn man das Experiment 100 mal wiederholt (wirklich oder nur in Gedanken), dann
liegt der wahre Parameterwert in (100 − α) Fälle in dem konstuierten Konfidenzintervall.
Die erste Interpretation ist falsch, da die Intervallgrenzen nicht zufällig, sondern deterministisch sind.
Praktische Aufgaben
Aufgabe 1 (Einseitige Konfidenzintervalle)
Seien X1 , . . . , Xn ∼ N (θ, σ 2 ) iid mit bekannter Varianz σ 2 > 0. Bestimmen
Sie ein (100 − α)%
Konfidenzintervall für den Parameter θ von der Form X̄ − ε, ∞ .
Lösung:
Gesucht ist ein möglichst kleines ε > 0 mit der Eigenschaft
`
´
`
´
Pθ X̄ − ε ≤ θ ≤ ∞ = Pθ θ ≥ X̄ − ε ≥ 1 − α
für alle θ ∈ R. Aus der Vorlesung ist bekannt, dass
ˆ ˜
EPθ X̄ = θ
und
` ´
σ2
V arPθ X̄ =
n
2
gilt. Somit folgt für alle θ ∈ R
`
´
Pθ θ ≥ X̄ − ε = Pθ
√ !
√ «
„
X̄ − θ
ε n
ε n
p
<
=P Z<
σ
σ
σ 2 /n
mit einer Zufallsvariablen Z, die unter P standardnormalverteilt ist. Somit ergibt sich die Bedngung
Φ
„ √ «
ε n
≥1−α,
σ
wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Das minimale ε > 0 erfüllt somit die Gleichung
z1−α =
also
√
ε n
,
σ
σ
ε = z1−α √ .
n
Damit ergibt sich das gesuchte (100 − α)% Konfidenzintervall für den unbekannten Parameter θ als
«
»
σ
X ) = X̄ − z1−α √ , ∞ .
C (X
n
Aufgabe 2 (Diverse Verteilung)
Seien X1 , . . . , Xn iid mit Dichte fθ (x) = eθ−x für x > θ und θ ≥ 0 (unbekannt). Sei ferner
Tn := min (X1 , . . . , Xn ). Bestimmen Sie die Konstante D > 0 in Abhängigkeit von n und α so,
dass [Tn − D, Tn ] ein Konfidenzintervall für unbekanntes θ zum Sicherheitsniveau (1 − α) ist.
Lösung: Um D zu bestimmen, muss folgende Gleichung gelöst werden 1 − α = Pθ (Tn − D ≤ θ ≤ Tn ). Es ergibt sich
also
1 − α = Pθ (Tn − D ≤ θ ≤ Tn ) = Pθ (−D ≤ θ − Tn ≤ 0) = Pθ (0 ≤ Tn − θ ≤ D)
= Pθ (θ ≤ Tn ≤ θ + D) = Pθ (Tn ≤ θ + D) − Pθ (Tn ≤ θ) = Pθ (Tn ≤ θ + D)
= 1 − Pθ (Tn > θ + D) = 1 − Pθ (X1 > θ + D, . . . , Xn > θ + D)
= 1 − Pθ (X1 > θ + D) · . . . · Pθ (Xn > θ + D)
„Z ∞
«n
„ Z ∞
«n
=1−
eθ−x dx
=1− −
eθ−x d(θ − x)
θ+D
θ+D
“
“
“
”n
”n
”n
= 1 − −eθ−x |∞
= 1 − −e−∞ + eθ−θ−D
= 1 − e−D
= 1 − e−nD .
θ+D
D lässt sich daraus wie folgt bestimmen
1 − α = 1 − e−nD
⇒
α = e−nD
⇒
−Dn = lnα
⇒
D=−
lnα
n
und das gesuchte (100 − α)% Konfidenzintervall für θ ist dargestellt durch
»
–
lnα
X ) = Tn +
, Tn
C (X
n
Aufgabe 3 (Varianzvergleich bei Normalverteilung)
2
Seien X1 , . . . , Xm , Y1 , . . . , Yn uunabhängig normalverteilt mit X1 ∼ N µX , σX
und Y1 ∼
2 > 0 und σ 2 > 0 unbekannt. KonstruN µY , σY2 . Dabei seinen die Parameter µX , µY , σX
Y
2 .
ieren Sie ein 95% Konfidenzintervall für den Quotienten σY2 /σX
Lösung: Im Weiteren wird die Tatsache benutzt, dass für X ∼ N (µ, σ) die Größe Z =
ist, d.h. X−µ
∼ N (0, 1). Aus der Vorlesung ist bekannt, dass
σ
• X̄ =
1
m
2 =
• SX
Pm
i=1
1
m−1
Xi
und
Ȳ =
´2
Pm `
i=1 Xi − X̄
1
n
Pn
i=1
und
X−µ
σ
standardnormalverteilt
Yi erwartungstreue Schätzer für µX und µY
SY2 =
1
n−1
Pn
i=1
`
´2
2 und σ 2 .
Yi − Ȳ
erwartungstreue Schätzer für σX
Y
3
Betrachte weiter die Quotienten
«2
m „
2
SX
1 X Xi − X̄
=
2
σX
m − 1 i=1
σX
«2
n „
SY2
1 X Yi − Ȳ
=
.
2
σY
n − 1 i=1
σY
Die Summen
Pm “ Xi −X̄ ”2
i=1
σX
und
Pn
“
j=1
Yj −Ȳ
σY
”2
sind entsprechend χ2m−1 und χ2n−1 verteilt (bekannt aus der Vorle-
sung). Ein Freiheitsgrad geht hier dadurch verloren, weil die Mittelwerte µX und µY in
Xi −µX
σX
und
Yj −µY
σY
∀i = 1 . . . m
und ∀j = 1 . . . n durch ihre erwartungstreue Schätzer X̄ und Ȳ ersetzt wurden (Beweis in der Matematischen Statistik).
Sonst würden die Summen entsprechend χ2m und χ2n verteilt. Wenn man sich nun daran erinnert, dass eine F-verteilte Zufallsvariable grundsätzlich durch Division zweier χ2 -verteilter Variablen entsteht, die beide durch die entsprechende Anzahl
an Freiheitsgraden dividiert werden, dann kann das Pivot wie folgt bestimmt werden
2 /σ 2
SX
X
∼ Fm−1,n−1 ,
2
SY2 /σY
die Verteilung von
2
2
SX
/σX
2 /σ 2
SY
Y
hängt von den unbekannten Parametern nicht mehr ab. Weiter muss noch unbekannte Konstante
c in der Gleichung
1−α=P
0≤
2 /σ 2
SX
X
≤c
2
SY2 /σY
!
ihre
bestimmt werden. Sei FFm−1,n−1 die Verteilungsfunktion einer Fm−1,n−1 verteilten Zufallsvariablen und FF−1
m−1,n−1
Quantilfunktion. Dann gilt
1−α=P
2
S 2 /σX
0≤ X
≤c
2
SY2 /σY
!
= FFm−1,n−1 (c) − FFm−1,n−1 (0) = FFm−1,n−1 (c) .
Angewendet die Quantilfunktion auf beide Seiten der letzten Gleichung erhält man
FF−1
m−1,n−1
(1 − α) = c
oder
c = Fm−1,n−1,1−α ,
wobei mit Fm−1,n−1,1−α der 1 − α-Quantil der Fm−1,n−1 -Verteilung bezeichnet wird. Letztendlich erhält man für den
2 /σ 2
gesuchten Quotienten σY
X
P
2
S 2 /σX
≤ Fm−1,n−1,1−α
0≤ X
2
2
SY /σY
Der (1 − α)% Konfidenzintervall für
!
2
σY
2
σX
=P
2
S 2 σY
0≤ X
≤ Fm−1,n−1,1−α
2
2
SY σX
!
=P
σ2
S2
0≤ Y
≤ Y
Fm−1,n−1,1−α
2
2
σX
SX
!
.
ist somit
"
X , Y ) = 0,
C (X
SY2
Fm−1,n−1,1−α
2
SX
#
.
Aufgabe 4 (Konfidenzintervall für Gleichverteilung)
Seien X1 , . . . , Xn iid mit X1 ∼ unif orm θ − 12 , θ + 21 mit einem unbekannten θ ∈ N. Finden Sie
ein Pivot für θ und konstruieren Sie ein (1 − α)% Konfidenzintervall in der Form [X + c, X + d]
mit Konstanten − 21 < c < d < 12 für diesen Parameter.
Lösung: Es gilt
1
1
1
1
< Xi < θ +
⇔ − < Xi − θ < ,
2
2
2
2
` 1 1´
` 1 1´
Xi − θ ist somit gleichverteilt auf dem Intervall − 2 , 2 , d.h θ − Xi ∼ unif orm − 2 , 2 . Die Größe Xi − θ (i ∈ 1 . . . n fest
gewählt) kann als Pivot zur Konstruktion von Konfidenzintervallen gewählt werden, weil ihre Verteilung von θ unabhängig
ist. Für − 12 < c < d < 21 erhält man
θ−
P (Xi + c < θ < Xi + d) = P (c < θ − Xi < d) = d − c .
P (Xi + c < θ < Xi + d) ist somit Konfidenzintervall für θ zum Konfidenzniveau 1 − α nur dann, wenn die Relation
d − c = 1 − α erfüllt ist. Die Länge von [Xi + c, Xi + d] muss also gleich 1 − α sein. Die Lösung ist also nicht eindeutig!
4
Aufgabe 5 (Konfidenzintervall für Normalverteilung mit µ = σ 2 )
Seien X1 , . . . , Xn ∼ N (θ, θ) iid mit θ > 0 unbekannt. Bestimmen Sie ein 95% Konfidenzintervall
für θ.
Lösung: Es gilt für alle i = 1 . . . n (sollte aus der Vorlesung bekannt sein)
X̄ − θ
p
∼ N (0, 1) .
(θ/n)
Anhand von dieser Größer, kann aber das gesuchte Konfidenzintervall für θ nicht konstruiert werden (bitte selber nachrechnen und überprüfen)... Auf den ersten Blick kann zur Lösung dieses Problems bereits bekannte Problemstellung, X1 , . . . , Xn
iid mit X1 ∼ N (µ, sigmq 2 ) mit µ und σ 2 > 0 unbekannt, herangezogen werden. In der Vorlesung wurde das (1 − α)% Konfidenzintervall, das auf einem t-verteiltem Pivot basiert, für den unbekannten Parameter µ hergeleitet. Allerdings gibt es in
diesem Fall noch zusätzliche Information, dass Mittelwert gleich der Varianz ist, die dort nicht berücksichtigt wurde. Ein
anderer Ansatz wäre daher, die χ2 -verteilte Größe
´2
`
X̄ − θ
∼ χ21
θ/n
(X −θ)2
1
als Pivot zu wählen. Der Ausdruck θ/n
kann als Pivot zur Konstruktion eines Konfizenzintervalls für θ benutzt werden,
da seine Verteilung von θ unabhängig ist. Es muss noch die unbekannte Konstante c gefunden werden, dafür löst man die
Gleichung
!
!
`
´2
`
´2
X̄ − θ
X̄ − θ
≤c =P 0≤
≤c .
1 − α = P −c ≤
θ/n
θ/n
Sei mit Fχ2 die Verteilungsfunktion der χ21 -Verteilung bezeichnet und mit Fχ−1
2 ihre Quantilfunktion. Dann lässt sich obere
1
1
Gleichung wie folgt umschreiben
1 − α = Fχ2 (c) − Fχ2 (0) = Fχ2 (c) .
1
1
1
Angewandt die Quantilfunktion erhält man für c
Fχ−1
2 (1 − α) = c
c = χ21,1−α ,
oder
1
wobei mit χ21,1−α das 1 − α-Quantil der χ21 -Verteilung bezeichnet wird. Um das Konfidenzintervall für θ zu finden, muss
die Ungleichung
`
´2
X̄ − θ
0≤
≤ χ21,1−α
θ/n
bezüglich θ aufgelöst werden.
`
´2
X̄ − θ
0≤
≤ χ21,1−α
θ/n
⇔
`
´2
θ
0 ≤ X̄ − θ ≤ χ21,1−α
n
⇔
`
X̄ − θ
1
X̄ 2 − 2X̄θ + θ2 − θ χ21,1−α ≤ 0
n
«
„
1
⇔
θ2 − θ 2X̄ + χ21,1−α + X̄ 2 ≤ 0
n
!
„
«2
„
«2
1 2
1 2
2
2
D = 2X̄ + χ1,1−α
− 4X̄ = 4
χ
− X̄
X̄ +
n
2n 1,1−α
s „
«
“
”2
1 2
1 2
X̄ + 2n
2X̄ + n
χ1,1−α ± 4
χ1,1−α − X̄ 2
´2
≤
θ 2
χ
n 1,1−α
⇔
θ1,2 =
falls
√
,
1 2
= X̄ +
χ
±
2n 1,1−α
2
s„
X̄ +
1 2
χ
2n 1,1−α
D existiert und reellwertig ist. Daher ergibt sich das (100 − α)% Konfidenzintervall für θ als
C (X) = [θ1 , θ2 ]
mit
1 2
θ1 = X̄ +
χ
−
2n 1,1−α
s„
X̄ +
1 2
χ
2n 1,1−α
«2
− X̄ 2
s„
«2
1 2
1 2
θ1 = X̄ +
χ1,1−α +
X̄ +
χ1,1−α
− X̄ 2
2n
2n
„
«2
1
D = 2X̄ + χ21,1−α
− 4X̄ 2 > 0
n
«2
− X̄ 2
Herunterladen