Übung zur Vorlesung Statistik I WS 2013-2014 Übungsblatt 7 2. Dezember 2013 Aufgabe 21 (2 Punkte): A Sei X eine Zufallsvariable, für die Erwartungswert und Varianz existieren. Zeigen Sie, dass die zugehörige standardisierte Zufallsvariable X − E(X) Z= p Var(X) Erwartungswert 0 und Varianz 1 hat. Hinweis: Benutzen Sie die Rechenregeln für Erwartungswert und Varianz (Begleitfolien zur Vorlesung S. 168-169). B X sei das Ergebnis einer Messung und trage die Einheit µm. In welchen physikalischen Einheiten werden E(X), Var(X) und Z gemessen? Lösung: A (a) Erwartungswert von Z: ! X − E(X) 1 =p E(Z) = E p E (X − E(X)) = Var(X) Var(X) 1 = p (E(X) − E(X)) = 0 Var(X) (b) Varianz von Z: Var(Z) = Var = B X − E(X) p Var(X) ! = 1 Var (X − E(X)) = Var(X) 1 Var(X) = 1 Var(X) Direkt aus den Definitionsformeln wird klar, dass der Erwartungswert von X die gleiche Einheit wie X, also µm trägt, die Varianz von X jedoch in µm2 gemessen wird. Z muss dimensionslos sein (d.h. hat keine Einheit), da sich die Einheiten herauskürzen. Aufgabe 22 (4 Punkte): Ein fairer Würfel wird n mal geworfen. Berechnen Sie mit R für A n = 60 und B n = 6000 die Wahrscheinlichkeit, dass die Anzahl k der Einser um mehr als 10% vom Erwartungswert abweicht. Berechnen Sie in A den exakten Wert und benutzen Sie in B die Näherung des Zentralen Grenzwertsatzes. Lösung: A Bei n = 60 unabhängigen Würfen werden 10 Einser erwartet. Es muss also die Wahrscheinlichkeit für weniger als 9 oder mehr als 11 Einser berechnet werden: > pbinom(8,size=60,prob=1/6)+(1-pbinom(11,size=60,prob=1/6)) [1] 0.6041029 B Bei n = 6000 unabhängigen Würfen werden 1000 Einser erwartet. Es muss die Wahrscheinlichkeit für k < 900 oder k > 1100 berechnet werden. > pnorm((899-1000)/sqrt(6000*1/6*5/6)) + + (1-pnorm((1100-1000)/sqrt(6000*1/6*5/6))) [1] 0.0004997315 Aufgabe 23 (4 Punkte): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable, die ein Zufallsexperiment mit n unabhängigen Wiederholungen und Trefferwahrscheinlichkeit p beschreibt. Sei weiter Z die standardisierte Zufallsvariable zu X. Plotten Sie für A n = 11 und p = 0.52 B n = 11 und p = 0.09 C n = 1000 und p = 0.52 D n = 1000 und p = 0.09 die Verteilungsfunktion von Z im Bereich (−4, 4). Zeichnen Sie noch in die vier Diagramme die Kurve der Verteilungsfunktion der Standardnormalverteilung ein. Beurteilen Sie anhand der Graphiken die Approximationsgüte des Zentralen Grenzwertsatzes und geben Sie eine Rangfolge an. Hinweis: Die (kumulierte) Verteilungsfunktion F (x) = P(Z ≤ x), x ∈ IR von Z ist eine Stufenfunktion. Bestimmen Sie zunächst die Position ihrer Unstetigkeitsstellen und dann die Höhe der Stufen. Den Plot einer Stufenfunktion erhält man mit plot und der Option type=’s’. Die Kurve der Standardnormalverteilung kann mit der Funktion points den schon erstellten Graphiken beigefügt werden. Lösung: A > n <- 11 > p <- 0.52 Die Verteilungsfunktion der standardisierten Zufallsvariable Z von X ∼ B(n, p) lautet ! X − np ≤x . F (x) = P(Z ≤ x) = P p np(1 − p) Für xk = √k−np , k = 0, . . . , n gilt np(1−p) F (xk ) = P X − np k − np p ≤p np(1 − p) np(1 − p) ! = P(X ≤ k). Die Verteilungsfunktion für Z nimmt daher bei xk = √k−np , k ∈ IR np(1−p) die gleichen Werte an wie die Verteilungsfunktion von X bei k. Deshalb liegen die Sprungstellen von F bei xk , k = 0, . . . , n und die Sprunghöhen sind die gleichen wie die der zugehörigen Binomialverteilung. > > > > + x <- (0:n-n*p)/sqrt(n*p*(1-p)) y <- pbinom(0:n, size=n, prob=p) plot(x=x,y=y, type="s", xlim=c(-4,4), ylim=c(0,1), col="red") points(x=seq(-4,4,1/1000),y=pnorm(seq(-4,4,1/1000)), type="l", col="blue") 1.0 0.8 0.6 0.0 0.2 0.4 y −4 −2 0 2 4 x B > > > > n <- 11 p <- 0.09 x <- (0:n-n*p)/sqrt(n*p*(1-p)) x [1] -1.04303024 0.01053566 [6] 4.22479927 5.27836517 [11] 9.49262878 10.54619468 1.06410156 6.33193107 2.11766746 7.38549697 3.17123337 8.43906288 Da der kleinste Wert von x größer als −4 ist, muss x um −4 und y um 0 ergänzt werden > > > > > + x <- c(-4,x) y <- pbinom(0:n, size=n, prob=p) y <- c(0,y) plot(x=x,y=y, type="s", xlim=c(-4,4), ylim=c(0,1), col="red") points(x=seq(-4,4,1/1000),y=pnorm(seq(-4,4,1/1000)), type="l", col="blue") 1.0 0.8 0.6 0.0 0.2 0.4 y −4 −2 0 2 4 x C > > > > > > + n <- 1000 p <- 0.52 x <- (0:n-n*p)/sqrt(n*p*(1-p)) y <- pbinom(0:n, size=n, prob=p) plot(x=x,y=y, type="s", xlim=c(-4,4), ylim=c(0,1), col="red") points(x=seq(-4,4,1/1000),y=pnorm(seq(-4,4,1/1000)), type="l", col="blue") 1.0 0.8 0.6 0.0 0.2 0.4 y −4 −2 0 2 4 x D > > > > > > + n <- 1000 p <- 0.09 x <- (0:n-n*p)/sqrt(n*p*(1-p)) y <- pbinom(0:n, size=n, prob=p) plot(x=x,y=y, type="s", xlim=c(-4,4), ylim=c(0,1), col="red") points(x=seq(-4,4,1/1000),y=pnorm(seq(-4,4,1/1000)), type="l", col="blue") 1.0 0.8 0.6 0.0 0.2 0.4 y −4 −2 0 2 4 x Offensichtlich lautet die Reihenfolge bezüglich der Approximationsgüte (“schlecht“ nach “gut“): Diagramm 2, Diagramm 1, Diagramm 4 und Diagramm 3. Aufgabe 24 (4 Punkte): A In einer Studie wird Heilmittel A an n = 10 Patienten getestet. Man beobachtet k = 6 Heilungen. Berechnen Sie den P-Wert des einseitigen Binomialtest für die Nullhypothesen (a) H0 : p ≤ 0.5 und (b) H0 : p ≤ 0.3. B In einer anderen Studie wird Heilmittel A an n = 100 Patienten getestet. Wieder beobachtet man eine Heilrate von 60%. Wie lauten die P-Werte des einseitigen Binomialtests für (a) H0 : p ≤ 0.5 und (b) H0 : p ≤ 0.3? Warum sind die P-Werte in der zweiten Studie kleiner als in der ersten Studie? Welche der Nullhypothesen können auf den Niveaus α = 0.1, 0.05 bzw. α = 0.001 abgelehnt werden? Lösung: A > > > > > n <- 10 k <- 6 P_a <- 1 - pbinom(k-1,n,0.5) P_b <- 1 - pbinom(k-1,n,0.3) P_a [1] 0.3769531 > P_b [1] 0.04734899 B > > > > > n <- 100 k <- 60 P_a <- 1 - pbinom(k-1,n,0.5) P_b <- 1 - pbinom(k-1,n,0.3) P_a [1] 0.02844397 > P_b [1] 5.12995e-10 Da die das Verhältnis von Standardabweichung zu Erwartungswert bei der Binomialverteilung mit n = 100 nur 1/10 so groß ist wie bei der Binomialverteilung mit n = 10, ist die gleiche prozentuale Abweichung vom Erwartungswert bei n = 100 viel unwahrscheinlicher als bei n = 10. Die Nullhypothese H0 : p ≤ 0.5 kann in A auf keinem der drei Niveaus abgelehnt werden, in B auf den Niveaus α = 0.1 und α = 0.05. Die Nullhypothese H0 : p ≤ 0.3 kann in A nur auf dem 10% und dem 5% Niveau abgelehnt werden, in B dagegen auf allen drei angegebenen Niveaus. Schicken Sie Ihre Lösung bis spätestens Sonntag, den 8.12.2013 direkt an Ihre(n) Tutor(in): [email protected] (Franziska Metge). [email protected] (Konrad Neumann) [email protected] (Ivo Parchero)