BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 1 MIT LÖSUNGEN AUFGABEN 1a. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten die folgenden Probenwerte: Zeitpunkt X 1 4,46 4,50 4,59 4,35 4,65 2 4,91 4,32 4,39 4,59 4,88 Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1. 1b. Wie müsste man die Fallzahl in Aufgabe 1a (Zeitpunkt 1) planen, um den Mittelwert von X mit einer Genauigkeit von 0,05 und einer Sicherheit von 99% schätzen zu können? 1c. Man bestimme für den Zeitpunkt 2 in 1a ein 95%iges Konfidenzintervall für die Standardabweichung. 2a. Sie sollen einen Schätzwert für die Wahrscheinlichkeit p eines Ereignisses bestimmen – wie gehen Sie vor und wie stellen Sie das Ergebnis der Schätzung dar? 2b. Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit einer Sicherheit von 90% und einer vorgegebenen Genauigkeit von ± 0,05 bestimmt werden. Wie viele Probanden benötigt man für die Studie? LÖSUNGEN MIT R Aufgabe 1a (Grundaufgabe 1) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert und der Varianz 2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert . Lösungsansatz: Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für bestimmt. Für das Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für ermittelt. Damit ergibt sich der SE=s/n (n ist der Stichprobenumfang). Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist: UG = xquer – tn-1, 0.975 SE OG = xquer + tn-1, 0.975 SE Rechnerische Lösung: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > xquer <- mean(sample1) > s <- sd(sample1) > SE <- s/sqrt(length(sample1)) > t_quantil <- qt(0.975, length(sample1)-1) > UG <- xquer - t_quantil*SE > OG <- xquer + t_quantil*SE > print(cbind(UG, OG)) UG OG [1,] 4.365465 4.654535 Ergebnis: Der gesuchte Mittelwert liegt mit einer Sicherheit von 95% im Intervall [UG, OG]. 1 68636374 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 1 MIT LÖSUNGEN Aufgabe 1b (Grundaufgabe 1) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert und der Varianz 2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um mit einer Genauigkeit von 0,05 und einer Sicherheit 1-=99% schätzen zu können. Lösungsansatz: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große Stichproben zulässige Formel z s nerf 1 / 2 d 2 verwendet. In dieser Formel ist z1-/2 das (1-/2)-Quantil der Standardnormalverteilung, s der aus der Stichprobe bestimmte Schätzwert für und d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls). Rechnerische Lösung: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > d <- 0.05 > sicherheit <- 0.99 > alpha <- 1-sicherheit > z_quantil <- qnorm(1-alpha/2) > s <- sd(sample1) > n_erf <- (z_quantil*s/d)^2 > n_erf [1] 35.96114 Ergebnis: Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20 anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist gerechtfertigt. Aufgabe 1c (Grundaufgabe 2) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert und der Varianz 2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung . Lösungsansatz: Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist: UG (n 1) s 2 n21,1 / 2 , OG (n 1) s 2 n21, / 2 Rechnerische Lösung: > sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88) > n <- length(sample2) > s <- sd(sample2) > alpha <- 0.05 > q1 <- qchisq(1-alpha/2, n-1) > q2 <- qchisq(alpha/2, n-1) > UG <- sqrt((n-1)*s^2/q1) > OG <- sqrt((n-1)*s^2/q2) > print(cbind(UG, OG)) UG OG 2 68636374 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 1 MIT LÖSUNGEN [1,] 0.1628386 0.7810047 Ergebnis: Die gesuchte Standardabweichung liegt mit einer Sicherheit von 95% im Intervall [UG, OG]. Aufgabe 2a (Grundaufgabe 3) Die Wahrscheinlichkeit p eines Ereignisses wird über dessen relative Häufigkeit geschätzt, mit der das Ereignis bei wiederholter Ausführung des "Zufallsexperimentes" eintritt. Die Anzahl der Wiederholungen, bei denen das Ereignis eintritt, ist binomialverteilt mit den Parametern n (Anzahl der Ausführungen des Zufallsexperimentes, z.B. Ziehen mit Zurücklegen) und p. Das Ergebnis der Schätzung wird i. Allg. durch Angabe des Schätzwertes (=relative Häufigkeit) und eines Konfidenzintervalls zu einer angenommenen Sicherheit (meist 95%) dargestellt. Das Konfidenzintervall für p kann exakt mit den aufwendigen Pearson-Clopper-Grenzen angegeben werden oder approximativ durch einfachere Formeln, indem die Binomialverteilung durch die Normalverteilung approximiert wird; dies ist zulässig für n>20 und 10 <= np <= n-10. Formeln: siehe Formelsammlung Aufgabe 2b (Grundaufgabe 3) Präzisierung der Aufgabe: Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt nicht ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die Schätzung der Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n soll so bestimmt werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt. Lösungsansatz: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und 10 <= np <= n-10) zulässige Formel z n 1 / 2 2d 2 verwendet. In dieser Formel ist z1-/2 das (1-/2)-Quantil der Standardnormalverteilung d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls). Rechnerische Lösung: > d <- 0.05 > sicher <- 0.9 > alpha <- 1-sicher > n_mindest <- (qnorm(1-alpha/2)/2/d)^2 > n_mindest [1] 270.5543 Ergebnis: Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p ein (approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten. 3 68636374