Musterlösung zu Serie 7

Dr. Patric Müller
Wahrscheinlichkeit und Statistik
FS 2017
Musterlösung zu Serie 7
1. Sei Xi die Lebensdauer der i-ten Glühbirne. Xi hat die Dichte
λe−λxi falls xi ≥ 0
fXi (xi ) =
0
sonst
Die gemeinsame Dichte von X1 , ..., Xn ist gegeben durch
n
Y
unabh.
fX1 ,...,Xn (x1 , . . . , xn ; λ) =
fXi (xi ; λ),
i=1
wobei die Notation fX1 ,...,Xn (x1 , . . . , xn ; λ) der gemeinsamen Dichte verdeutlichen soll, dass die gemeinsame Dichte eine Funktion der Variablen x1 , ..., xn ist und der Parameter λ der Verteilung fix ist. Die
“Likelihood”-Funktion L ist gegeben durch die gemeinsame Dichte von X1 , ..., Xn , wobei bei L (im Gegensatz zur Dichte) die beobachteten Werte x1 , ..., xn fixiert sind und der Parameter λ variiert:
n
Y
L(λ; x1 , . . . , xn ) =
fXi (λ; xi )
i=1
Die “Log-Likelihood”-Funktion l ist dann:
n
Y
l(λ; x1 , . . . , xn ) = ln (L(λ; x1 , . . . , xn )) = ln
!
fXi (λ; xi )
i=1
=
n
X
ln (fXi (λ; xi )) =
=
n
X
ln λe−λxi =
ln(λ) + ln e−λxi
i=1
i=1
n
X
n
X
i=1
(ln(λ) − λxi )
i=1
Wir müssen nun λ so wählen, dass l maximal wird. Dazu bestimmen wir die partielle Ableitung von l nach
λ und setzen diese gleich null.
n
n
X
∂ X
∂l
=
(ln(λ) − λxi ) =
∂λ
∂λ i=1
i=1
1
− xi
λ
!
=0
n
=⇒ n ·
1 X
−
xi = 0
b
λ
i=1
b = Pnn
⇐⇒ λ
i=1 xi
=
1
n
1
Pn
i=1 xi
=
2
1
x
∂ l
−n
(Es gilt ∂λ
2 = λ2 < 0. Deshalb ist das Extremum an der Stelle 1/x ein lokales Maximum. D.h. die
Log-Likelihood-Funktion ist an der Stelle λ = 1/x maximal.)
Der Maximum-Likelihood-Schätzung (MLE) von λ ist somit der Kehrwert des arithmetischen Mittels der
beobachteten Lebensdauern.
bMLE =
λ
1
n
1
Pn
i=1
xi
2
2. X ∼ Bin (50, π), wobei der Parameter π unbekannt ist.
a) Wir wollen dasjenige π finden, das unter der Beobachtung von 19 kranken Tauben aus 50 geschossenen
Tauben am wahrscheinlichsten ist, das heisst wir wollen die Wahrscheinlichkeit
50 19
50 19
(50−19)
P (X = 19) =
π (1 − π)
=
π (1 − π)31
19
19
bezüglich π maximieren. Äquivalent dazu können wir auch den Logarithmus dieser Wahrscheinlichkeit
maximieren:
50
ln (P (X = 19)) = ln (
) + 19 · ln (π) + 31 · ln (1 − π)
19
Die Maximierung erfolgt durch Ableiten nach π und durch null setzen der Ableitung:
d
19
1
19
31 !
ln (P (X = 19)) = 0 +
+ 31 ·
· (−1) =
−
=0
dπ
π
1−π
π
1−π
Somit
19
31
=
π̂
1 − π̂
⇐⇒ 19(1 − π̂) = 31π̂
19
⇐⇒ π̂ =
= 0.38
50
und für ein allgemeines n und eine Beobachtung x von X haben wir den Schätzer π̂ = nx .
b) Normalapproximation der Binomialverteilung: Für X ∼ Bin (n, π) gilt: Die Verteilung von X lässt
sich durch die Normalverteilung mit Erwartungswert nπ und Varianz nπ(1 − π) approximieren, d.h.
2
X ≈ N (nπ, nπ(1 − π)) = N nπ, σX
=⇒
Wir wollen ein 95%-Vertrauensintervall für den Parameter π finden. Dazu standardisieren wir zuerst
die Zufallsvariable X:
X − nπ
≈ N (0, 1)
σX
Für die standardisierte Zufallsvariable gilt:
X − nπ
P Φ−1 (0.025) ≤
≤ Φ−1 (0.975) = 0.95
σX
−1
⇔ P Φ (0.025) · σX ≤ X − nπ ≤ Φ−1 (0.975) · σX = 0.95
⇔ P − X + Φ−1 (0.025) · σX ≤ −nπ ≤ −X + Φ−1 (0.975) · σX = 0.95
σX
X
σX
X
−1
−1
− Φ (0.025) ·
≥π≥
− Φ (0.975) ·
⇔P
= 0.95
n
n
n
n
σX
X
σX
X
− Φ−1 (0.975) ·
≤π≤
− Φ−1 (0.025) ·
= 0.95
⇔P
n
n
n
n
X
σX
X
σX
⇔P
− Φ−1 (0.975) ·
≤π≤
+ Φ−1 (0.975) ·
= 0.95
n
n
n
n
X
σX
X
σX
⇔P
− 1.96 ·
≤π≤
+ 1.96 ·
= 0.95
n
n
n
n
Wenn wir also σX kennen würden, wäre das 95%-Vertrauensintervall für den Parameter π (basierend
auf unserer Beobachtung X = x) gegeben durch
hx
σX x
σX i
I=
− 1.96 ·
,
+ 1.96 ·
.
n
n n
n
p
Da aber σX = nπ(1 − π) und wir den wahren Wert von π nicht kennen, müssen wirpσX schätzen.
Wir setzen für π unseren Schätzer π̂ = nx aus a) ein, somit ist unser Schätzer σ̂X = n · nx (1 − nx )
und das Vertrauensintervall für π lautet also
"
#
r
r
x
1 x
x x
1 x
x
I=
− 1.96 ·
·
1−
,
+ 1.96 ·
·
1−
.
n
n n
n
n
n n
n
Für unser Beispiel mit X = 19 und n = 50 ergibt dies I = [0.25, 0.52].
3
600
3. a) Wenn man das Histogramm betrachtet, könnte man zum Beispiel meinen, dass die Daten einer
Poisson-Verteilung folgen. Das kann aber nicht sein, da die Gesundheitskosten in CHF Daten einer
stetigen Zufallsvariable sind und nur diskrete Zufallsvariablen (welche also nur ganze Zahlen annehmen
können) einer Poisson-Verteilung folgen können. Also versuchen wir es mit zwei stetigen Verteilungen:
mit der Normalverteilung und der Exponentialverteilung. Wir schätzen die Parameter der Verteilungen
mit der Funktion fitdistr() aus dem Paket MASS. Wir beginnen mit der Normalverteilung:
> library(MASS)
> norm.fit <- fitdistr(cost, "normal")
Wenn wir den QQ-Plot der mit fitdistr() geschätzten Normalverteilung betrachten, sehen wir,
dass die Normalverteilung keine gute Wahl ist. Der QQ-Plot ist rechtsschief, also stammen die Daten
wohl nicht von einer Normalverteilung.
> library(car)
> qqPlot(cost, dist = "norm", mean = norm.fit$estimate["mean"],
sd = norm.fit$estimate["sd"])
●
500
●
●
400
●
●
cost
300
●●
0
100
200
●●
●
●
●
−200
●
●
●
●
●
●
● ●
●
●
●
●●●
●
●
●
●
●●●
●
●●●
●
●●
●●●
●●
●●
●●●●
●
●●●
●●●
●●●●●
●●●●●
●●●
●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●
●●●●●●●●
●●●●●●●●●
●●●●●●●●●●
●
●
●
●
●
●
●
●●●●●●●
● ● ● ● ● ● ● ●●●●●●
−100
0
100
norm quantiles
200
300
400
600
Wenn wir dasselbe für die Exponentialverteilung machen, sehen wir, dass auch sie keine geeignete
Verteilung für die gegebenen Daten ist:
> exp.fit <- fitdistr(cost, "exponential")
> qqPlot(cost, "exp", rate = exp.fit$estimate["rate"])
●
500
●
●
400
●
●
0
100
200
cost
300
●
● ●
●
●
●
●
●
●
●
●
●
●●●
●
●●●
●
●●
●●●
●●
●●
●●●●
●
●●●
●●●
●●●●●
●●●●●
●●●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
100
200
●
●
●
●
●●●
●
300
exp quantiles
400
500
600
b) Da wir in Aufgabe a) keine passende Verteilung für die Daten gefunden haben, wenden wir nun
eine Transformation auf die Daten an und schauen, ob wir eine geeignete Verteilung für die transformierten Daten finden. Da die Verteilung der ursprünglichen Daten rechtsschief ist und die logTransformation positive Werte nahe bei 0 “auseinanderzieht” und grosse Werte zusammenstaucht, ist
dies eine geeignete Transformation, um die Verteilung der Daten symmetrischer zu machen. Nach der
log-Transformation schauen die Daten folgendermassen aus:
4
0.0
0.1
0.2
Density
0.3
0.4
0.5
> log.cost <- log(cost)
> hist(log.cost, freq = FALSE, breaks = seq(1, 7, by = 0.2), col = "skyblue",
plot = TRUE, main = "")
1
2
3
4
log.cost
5
6
7
Wir versuchen es nun mit einer Normalverteilung und überprüfen den QQ-Plot.
> par(mfrow = c(1, 2))
> norm.fit <- fitdistr(log.cost, "normal")
> hist(log.cost, freq = FALSE, breaks = seq(1, 7, by = 0.2), col = "skyblue", main = "")
> x.val <- seq(min(log.cost), max(log.cost), length = 50)
> lines(x.val, dnorm(x.val, mean = norm.fit$estimate["mean"], sd = norm.fit$estimate["sd"]))
> qqPlot(log.cost, dist = "norm", mean = norm.fit$estimate["mean"],
sd = norm.fit$estimate["sd"])
0.0
2
log.cost
3
4
5
Density
0.2
0.4
6
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
1
2
3 4 5
log.cost
6
7
2
3 4 5 6
norm quantiles
7
Die transformierten Daten scheinen gut zu dieser Verteilung zu passen, wie man aus den beiden Plots
sehen kann.
c) Wir können die beiden Parameter der gefundenen Normalverteilung folgendermassen ablesen:
> norm.fit
mean
sd
4.18541817
0.97764830
(0.06913017) (0.04888241)
Die geschätzte Normalverteilung N (µ̂, σ̂ 2 ) hat also geschätzten Erwartungswert µ̂ = 4.185 und
geschätzte Standardabweichung σ̂ = 0.978. Die Zahlen in den Klammern im R-Output geben den
Standardfehler der jeweiligen Schätzung an.

Zugehörige Unterlagen

FREIGHTENED 90% von allem, was wir konsumieren, kommt aus

Normalverteilung erzeugen mithilfe Quantilswert

Cost Improvement Lösungsthema

Musterlösung zu Serie 7

Zugehörige Unterlagen

Produkte

Unterstützung

Musterlösung zu Serie 7

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können