Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT LÖSUNGEN NAME: Bitte stellen Sie ihre Ausführungen (Erklärungen, Berechnungen, Kommentare, …) strukturiert und nachvollziehbar dar! Arbeitszeit: 60 Minuten 1a. Ein Produkt wird vom Hersteller in Packungen von 400 Stück ausgeliefert. Im Rahmen der Eingangskontrolle wird nach folgendem Plan geprüft: Es werden 10 Stück aus der gelieferten Packung zufällig ausgewählt (ohne Zurücklegen) und auf Fehler überprüft. Ist kein Stück fehlerhaft, wird die Packung angenommen, andernfalls zurückgeschickt. Wie groß ist die Wahrscheinlichkeit, dass bei diesem Prüfplan die Packung angenommen wird, wenn der Ausschussanteil 0,5% ist? 1b. Um die Wahrscheinlichkeit in 1a zu berechnen, müssen Sie ein Verteilungsmodell für die Zahl der fehlerhaften (bzw. intakten) Einheiten zugrunde legen. Begründen Sie, warum Sie dieses Modell anwenden! 1c. Von einem Herstellungsverfahren ist bekannt, dass die gefertigten Produkte eine Wirksubstanz beinhalten, deren Masse X normalverteilt mit dem Mittelwert 10 und der Varianz 0,09 ist. Man bestimme die Wahrscheinlichkeit, dass X einen Wert innerhalb des einfachen Streubereichs um den Mittelwert annimmt. 2a. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten die folgenden Probenwerte: Zeitpunkt X 1 4,46 4,50 4,59 4,35 4,65 2 4,91 4,32 4,39 4,59 4,88 Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1. 2b. Wie müsste man die Fallzahl in 2a (Zeitpunkt 1) planen, um den Mittelwert von X mit einer Genauigkeit von ±0,05 und einer Sicherheit von 99% schätzen zu können? 2c. Man bestimme für den Zeitpunkt 2 in 2a ein 95%iges Konfidenzintervall für die Standardabweichung. 3a. Bei der Bearbeitung eines Problems sind 8 voneinander unabhängige Entscheidungen zu treffen, von denen jede einzelne mit der Wahrscheinlichkeit 5% eine Fehlentscheidung sein kann. Wie groß ist die simultane Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass wenigstens in einem Fall falsch entschieden wird? 3b. Sie sollen einen Schätzwert für die Wahrscheinlichkeit p eines Ereignisses bestimmen – wie gehen Sie vor und wie stellen Sie das Ergebnis der Schätzung dar? 3c. Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit einer Sicherheit von 90% und einer vorgegebenen Genauigkeit von ± 0,05 bestimmt werden. Wie viele Probanden benötigt man für die Studie? Beurteilung: Jede Teilaufgabe zählt gleich (1P). 4: >=4,5 bis inkl. 5,5P 3: >5,5 bis 6,5P 2: >6,5 bis 7,5P 1: >7,5 bis 8,5 1A: 9 1 Mustertermin_WS09_mit_Loesungen Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT LÖSUNGEN LÖSUNGEN MIT R 1a) Präzisierung der Aufgabe: X =Anzahl der fehlerhaften Einheiten in der Prüfstichprobe vom Umfang n=10; die Prüfstichprobe wird aus einer Packung mit N=400 Einheiten (ohne Zurücklegen) ausgewählt. Der Ausschussanteil ist 0,5%, d.h. in der Packung sind a = 400 x 0,5% =2 fehlerhafte Einheiten (und 398 intakte). X ist hypergeometrisch verteilt mit N=400, a=2 und n=10. Gesucht: Annahmewahrscheinlichkeit P(X=0) Lösungsansatz: Gesucht ist der Wert der Verteilungsfunktion der hypergeometrischen Verteilung mit N=400, a=2 und n=10 an der Stelle x=0: a N − a x n − x P( X = x) = = N n 2 398 0 8 400 10 Rechnerische Lösung: > dhyper(0, 2, 398, 10) [1] 0.950564 Ergebnis: Die Wahrscheinlichkeit für die Annahme der Packung, d.h. die Wahrscheinlichkeit, dass keine Einheit des Prüfloses fehlerhaft ist, beträgt 95,06%. 1b) Die Anzahl X der fehlerhaften Einheiten ist hypergeometrisch verteilt mit den Parametern N=400, a=400*0,005=2 und n=10. Dieses Verteilungsmodell kommt zur Anwendung, wenn die Auswahl ohne Zurücklegen erfolgt. Wegen N>60 und n/N <0,1 könnte X auch als angenähert binomialverteilt angesehen werden mit den Parametern n=10 und p=0,005. Für die Annahmewahrscheinlichkeit ergibt sich bei Approximation der hypergeometrischen Verteilung durch die Binomialverteilung: > dbinom(0, 10, 0.005) [1] 0.9511101 1c) Präzisierung der Aufgabe: X ist normalverteilt mit dem Mittelwert 10 und der Varianz 0,09. Die Standardabweichung σ = 0,3 (Wurzel aus der Varianz). Der einfache Streubereich um den Mittelwert ist das Intervall µ−σ <= X <= µ+σ. Gesucht ist die Wahrscheinlichkeit P(9,7 <= X <= 10,3) Lösungsansatz: Mit Hilfe der Verteilungsfunktion F der Normalverteilung kann die gesuchte ergibt sich die gesuchte Wahrscheinlichkeit P aus: P= F(10,3) – F(9,7) Rechnerische Lösung: > m <- 10 > var <- 0.09 > sigma <- sqrt(var) > P <- pnorm(m+sigma, mean=m, sd=sigma) - pnorm(m-sigma, mean=m, sd=sigma) >P [1] 0.6826895 2 Mustertermin_WS09_mit_Loesungen Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT LÖSUNGEN Ergebnis: Die Wahrscheinlichkeit dass eine normalverteilte Zufallsvariable mit dem Mittelwert 10 und der Varianz 0,09 einen Wert innerhalb des einfachen Streubereichs um den Mittelwert annimmt, ist 68,3%. 2a) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert µ. Lösungsansatz: Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für µ bestimmt. Für das Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für σ ermittelt. Damit ergibt sich der SE=s/√n (n ist der Stichprobenumfang). Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist: UG = xquer – tn-1, 0.975 SE OG = xquer + tn-1, 0.975 SE Rechnerische Lösung: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > xquer <- mean(sample1) > s <- sd(sample1) > SE <- s/sqrt(length(sample1)) > t_quantil <- qt(0.975, length(sample1)-1) > UG <- xquer - t_quantil*SE > OG <- xquer + t_quantil*SE > print(cbind(UG, OG)) UG OG [1,] 4.365465 4.654535 Ergebnis: Der gesuchte Mittelwert µ liegt mit einer Sicherheit von 95% im Intervall [UG, OG]. 2b) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um µ mit einer Genauigkeit von ±0,05 und einer Sicherheit 1-α=99% schätzen zu können. Lösungsansatz: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große Stichproben zulässige Formel z s nerf = 1−α / 2 d 2 verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung, s der aus der Stichprobe bestimmte Schätzwert für σ und d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls). Rechnerische Lösung: > sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65) > d <- 0.05 > sicherheit <- 0.99 > alpha <- 1-sicherheit > z_quantil <- qnorm(1-alpha/2) 3 Mustertermin_WS09_mit_Loesungen Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT LÖSUNGEN > s <- sd(sample1) > n_erf <- (z_quantil*s/d)^2 > n_erf [1] 35.96114 Ergebnis: Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20 anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist gerechtfertigt. 2c) Präzisierung der Aufgabe: Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung σ. Lösungsansatz: Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für σ ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist: UG = (n − 1) s 2 χ n2−1,1−α / 2 , OG = ( n − 1) s 2 χ n2−1,α / 2 Rechnerische Lösung: > sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88) > n <- length(sample2) > s <- sd(sample2) > alpha <- 0.05 > q1 <- qchisq(1-alpha/2, n-1) > q2 <- qchisq(alpha/2, n-1) > UG <- sqrt((n-1)*s^2/q1) > OG <- sqrt((n-1)*s^2/q2) > print(cbind(UG, OG)) UG OG [1,] 0.1628386 0.7810047 Ergebnis: Die gesuchte Standardabweichung σ liegt mit einer Sicherheit von 95% im Intervall [UG, OG]. 3a) Präzisierung der Aufgabe: Die simultane Irrtumswahrscheinlichkeit bei n (n=2, 3, ...) Entscheidungen ist die Wahrscheinlichkeit, dass mindestens eine der n Entscheidungen falsch ist. Lösungsansatz: Es sei α die Wahrscheinlichkeit, dass die erste der 8 Entscheidungen falsch ist; ebenso groß ist die Wahrscheinlichkeit, dass die zweite falsch ist, usw. Die Wahrscheinlichkeit, dass die erste Entscheidung richtig ist, ist die Gegenwahrscheinlichkeit 1-α, ebenso groß ist die Wahrscheinlichkeit, dass die zweite Entscheidung richtig ist, usw. Die Wahrscheinlichkeit, dass alle 8 Entscheidungen richtig sind, ist – nach der Multiplikationsregel – gleich P(alle richtig)= (1-α)8; dabei wurde vorausgesetzt, dass alle Entscheidungen voneinander unabhängig getroffen werden. Die Wahrscheinlichkeit, dass mindestens eine der 8 Entscheidungen falsch ist, ist gleich der Gegenwahrscheinlichkeit P(mindestens eine falsch) = 1 – P(alle richtig); diese Wahrscheinlichkeit ist die gesuchte simultane Irrtumswahrscheinlichkeit α_simultan. Rechnerische Lösung: > n <- 8 4 Mustertermin_WS09_mit_Loesungen Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT LÖSUNGEN > alpha <- 0.05 > alpha_simultan <- 1-(1-alpha)^n > alpha_simultan [1] 0.3365796 Ergebnis: Die Wahrscheinlichkeit, sich bei 8 Entscheidungen, von denen jede einzelne mit der Wahrscheinlichkeit 5% falsch ist, mindestens einmal zu irren, ist 33,7%. 3b) Die Wahrscheinlichkeit p eines Ereignisses wird über dessen relative Häufigkeit geschätzt, mit der das Ereignis bei wiederholter Ausführung des "Zufallsexperimentes" eintritt. Die Anzahl der Wiederholungen, bei denen das Ereignis eintritt, ist binomialverteilt mit den Parametern n (Anzahl der Ausführungen des Zufallsexperimentes, z.B. Ziehen mit Zurücklegen) und p. Das Ergebnis der Schätzung wird i. Allg. durch Angabe des Schätzwertes (=relative Häufigkeit) und eines Konfidenzintervalls zu einer angenommenen Sicherheit (meist 95%) dargestellt. Das Konfidenzintervall für p kann exakt mit den aufwendigen Pearson-Clopper-Grenzen angegeben werden oder approximativ durch einfachere Formeln, indem die Binomialverteilung durch die Normalverteilung approximiert wird; dies ist zulässig für n>20 und 10 <= np <= n-10. Formeln: siehe Formelsammlung 3c) Präzisierung der Aufgabe: Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt nicht ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die Schätzung der Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n soll so bestimmt werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt. Lösungsansatz: Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und 10 <= np <= n-10) zulässige Formel z n = 1−α / 2 2d 2 verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls). Rechnerische Lösung: > d <- 0.05 > sicher <- 0.9 > alpha <- 1-sicher > n_mindest <- (qnorm(1-alpha/2)/2/d)^2 > n_mindest [1] 270.5543 Ergebnis: Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p ein (approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten. 5 Mustertermin_WS09_mit_Loesungen