Dr. Patric Müller Wahrscheinlichkeit und Statistik FS 2017 Musterlösung zu Serie 7 1. Sei Xi die Lebensdauer der i-ten Glühbirne. Xi hat die Dichte λe−λxi falls xi ≥ 0 fXi (xi ) = 0 sonst Die gemeinsame Dichte von X1 , ..., Xn ist gegeben durch n Y unabh. fX1 ,...,Xn (x1 , . . . , xn ; λ) = fXi (xi ; λ), i=1 wobei die Notation fX1 ,...,Xn (x1 , . . . , xn ; λ) der gemeinsamen Dichte verdeutlichen soll, dass die gemeinsame Dichte eine Funktion der Variablen x1 , ..., xn ist und der Parameter λ der Verteilung fix ist. Die “Likelihood”-Funktion L ist gegeben durch die gemeinsame Dichte von X1 , ..., Xn , wobei bei L (im Gegensatz zur Dichte) die beobachteten Werte x1 , ..., xn fixiert sind und der Parameter λ variiert: n Y L(λ; x1 , . . . , xn ) = fXi (λ; xi ) i=1 Die “Log-Likelihood”-Funktion l ist dann: n Y l(λ; x1 , . . . , xn ) = ln (L(λ; x1 , . . . , xn )) = ln ! fXi (λ; xi ) i=1 = n X ln (fXi (λ; xi )) = = n X ln λe−λxi = ln(λ) + ln e−λxi i=1 i=1 n X n X i=1 (ln(λ) − λxi ) i=1 Wir müssen nun λ so wählen, dass l maximal wird. Dazu bestimmen wir die partielle Ableitung von l nach λ und setzen diese gleich null. n n X ∂ X ∂l = (ln(λ) − λxi ) = ∂λ ∂λ i=1 i=1 1 − xi λ ! =0 n =⇒ n · 1 X − xi = 0 b λ i=1 b = Pnn ⇐⇒ λ i=1 xi = 1 n 1 Pn i=1 xi = 2 1 x ∂ l −n (Es gilt ∂λ 2 = λ2 < 0. Deshalb ist das Extremum an der Stelle 1/x ein lokales Maximum. D.h. die Log-Likelihood-Funktion ist an der Stelle λ = 1/x maximal.) Der Maximum-Likelihood-Schätzung (MLE) von λ ist somit der Kehrwert des arithmetischen Mittels der beobachteten Lebensdauern. bMLE = λ 1 n 1 Pn i=1 xi 2 2. X ∼ Bin (50, π), wobei der Parameter π unbekannt ist. a) Wir wollen dasjenige π finden, das unter der Beobachtung von 19 kranken Tauben aus 50 geschossenen Tauben am wahrscheinlichsten ist, das heisst wir wollen die Wahrscheinlichkeit 50 19 50 19 (50−19) P (X = 19) = π (1 − π) = π (1 − π)31 19 19 bezüglich π maximieren. Äquivalent dazu können wir auch den Logarithmus dieser Wahrscheinlichkeit maximieren: 50 ln (P (X = 19)) = ln ( ) + 19 · ln (π) + 31 · ln (1 − π) 19 Die Maximierung erfolgt durch Ableiten nach π und durch null setzen der Ableitung: d 19 1 19 31 ! ln (P (X = 19)) = 0 + + 31 · · (−1) = − =0 dπ π 1−π π 1−π Somit 19 31 = π̂ 1 − π̂ ⇐⇒ 19(1 − π̂) = 31π̂ 19 ⇐⇒ π̂ = = 0.38 50 und für ein allgemeines n und eine Beobachtung x von X haben wir den Schätzer π̂ = nx . b) Normalapproximation der Binomialverteilung: Für X ∼ Bin (n, π) gilt: Die Verteilung von X lässt sich durch die Normalverteilung mit Erwartungswert nπ und Varianz nπ(1 − π) approximieren, d.h. 2 X ≈ N (nπ, nπ(1 − π)) = N nπ, σX =⇒ Wir wollen ein 95%-Vertrauensintervall für den Parameter π finden. Dazu standardisieren wir zuerst die Zufallsvariable X: X − nπ ≈ N (0, 1) σX Für die standardisierte Zufallsvariable gilt: X − nπ P Φ−1 (0.025) ≤ ≤ Φ−1 (0.975) = 0.95 σX −1 ⇔ P Φ (0.025) · σX ≤ X − nπ ≤ Φ−1 (0.975) · σX = 0.95 ⇔ P − X + Φ−1 (0.025) · σX ≤ −nπ ≤ −X + Φ−1 (0.975) · σX = 0.95 σX X σX X −1 −1 − Φ (0.025) · ≥π≥ − Φ (0.975) · ⇔P = 0.95 n n n n σX X σX X − Φ−1 (0.975) · ≤π≤ − Φ−1 (0.025) · = 0.95 ⇔P n n n n X σX X σX ⇔P − Φ−1 (0.975) · ≤π≤ + Φ−1 (0.975) · = 0.95 n n n n X σX X σX ⇔P − 1.96 · ≤π≤ + 1.96 · = 0.95 n n n n Wenn wir also σX kennen würden, wäre das 95%-Vertrauensintervall für den Parameter π (basierend auf unserer Beobachtung X = x) gegeben durch hx σX x σX i I= − 1.96 · , + 1.96 · . n n n n p Da aber σX = nπ(1 − π) und wir den wahren Wert von π nicht kennen, müssen wirpσX schätzen. Wir setzen für π unseren Schätzer π̂ = nx aus a) ein, somit ist unser Schätzer σ̂X = n · nx (1 − nx ) und das Vertrauensintervall für π lautet also " # r r x 1 x x x 1 x x I= − 1.96 · · 1− , + 1.96 · · 1− . n n n n n n n n Für unser Beispiel mit X = 19 und n = 50 ergibt dies I = [0.25, 0.52]. 3 600 3. a) Wenn man das Histogramm betrachtet, könnte man zum Beispiel meinen, dass die Daten einer Poisson-Verteilung folgen. Das kann aber nicht sein, da die Gesundheitskosten in CHF Daten einer stetigen Zufallsvariable sind und nur diskrete Zufallsvariablen (welche also nur ganze Zahlen annehmen können) einer Poisson-Verteilung folgen können. Also versuchen wir es mit zwei stetigen Verteilungen: mit der Normalverteilung und der Exponentialverteilung. Wir schätzen die Parameter der Verteilungen mit der Funktion fitdistr() aus dem Paket MASS. Wir beginnen mit der Normalverteilung: > library(MASS) > norm.fit <- fitdistr(cost, "normal") Wenn wir den QQ-Plot der mit fitdistr() geschätzten Normalverteilung betrachten, sehen wir, dass die Normalverteilung keine gute Wahl ist. Der QQ-Plot ist rechtsschief, also stammen die Daten wohl nicht von einer Normalverteilung. > library(car) > qqPlot(cost, dist = "norm", mean = norm.fit$estimate["mean"], sd = norm.fit$estimate["sd"]) ● 500 ● ● 400 ● ● cost 300 ●● 0 100 200 ●● ● ● ● −200 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ●●● ● ●● ●●● ●● ●● ●●●● ● ●●● ●●● ●●●●● ●●●●● ●●● ●●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●●●● ●●●●●●●● ●●●●●●●●● ●●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●● ● ● ● ● ● ● ● ●●●●●● −100 0 100 norm quantiles 200 300 400 600 Wenn wir dasselbe für die Exponentialverteilung machen, sehen wir, dass auch sie keine geeignete Verteilung für die gegebenen Daten ist: > exp.fit <- fitdistr(cost, "exponential") > qqPlot(cost, "exp", rate = exp.fit$estimate["rate"]) ● 500 ● ● 400 ● ● 0 100 200 cost 300 ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ● ●● ●●● ●● ●● ●●●● ● ●●● ●●● ●●●●● ●●●●● ●●● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 100 200 ● ● ● ● ●●● ● 300 exp quantiles 400 500 600 b) Da wir in Aufgabe a) keine passende Verteilung für die Daten gefunden haben, wenden wir nun eine Transformation auf die Daten an und schauen, ob wir eine geeignete Verteilung für die transformierten Daten finden. Da die Verteilung der ursprünglichen Daten rechtsschief ist und die logTransformation positive Werte nahe bei 0 “auseinanderzieht” und grosse Werte zusammenstaucht, ist dies eine geeignete Transformation, um die Verteilung der Daten symmetrischer zu machen. Nach der log-Transformation schauen die Daten folgendermassen aus: 4 0.0 0.1 0.2 Density 0.3 0.4 0.5 > log.cost <- log(cost) > hist(log.cost, freq = FALSE, breaks = seq(1, 7, by = 0.2), col = "skyblue", plot = TRUE, main = "") 1 2 3 4 log.cost 5 6 7 Wir versuchen es nun mit einer Normalverteilung und überprüfen den QQ-Plot. > par(mfrow = c(1, 2)) > norm.fit <- fitdistr(log.cost, "normal") > hist(log.cost, freq = FALSE, breaks = seq(1, 7, by = 0.2), col = "skyblue", main = "") > x.val <- seq(min(log.cost), max(log.cost), length = 50) > lines(x.val, dnorm(x.val, mean = norm.fit$estimate["mean"], sd = norm.fit$estimate["sd"])) > qqPlot(log.cost, dist = "norm", mean = norm.fit$estimate["mean"], sd = norm.fit$estimate["sd"]) 0.0 2 log.cost 3 4 5 Density 0.2 0.4 6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● 1 2 3 4 5 log.cost 6 7 2 3 4 5 6 norm quantiles 7 Die transformierten Daten scheinen gut zu dieser Verteilung zu passen, wie man aus den beiden Plots sehen kann. c) Wir können die beiden Parameter der gefundenen Normalverteilung folgendermassen ablesen: > norm.fit mean sd 4.18541817 0.97764830 (0.06913017) (0.04888241) Die geschätzte Normalverteilung N (µ̂, σ̂ 2 ) hat also geschätzten Erwartungswert µ̂ = 4.185 und geschätzte Standardabweichung σ̂ = 0.978. Die Zahlen in den Klammern im R-Output geben den Standardfehler der jeweiligen Schätzung an.