Prüfung aus Angewandter Statistik I (WS) MUSTERTERMIN MIT

Werbung
Prüfung aus Angewandter Statistik I (WS)
MUSTERTERMIN MIT LÖSUNGEN
NAME:
Bitte stellen Sie ihre Ausführungen (Definition der verwendeten Größen, Voraussetzungen, Modell,
Erklärungen, Berechnungen, Kommentare, …) strukturiert und nachvollziehbar dar!
Arbeitszeit: 60 Minuten
1a. Ein Produkt wird vom Hersteller in Packungen von 400 Stück ausgeliefert. Im Rahmen der
Eingangskontrolle wird nach folgendem Plan geprüft: Es werden 10 Stück aus der gelieferten Packung
zufällig ausgewählt (ohne Zurücklegen) und auf Fehler überprüft. Ist kein Stück fehlerhaft, wird die
Packung angenommen, andernfalls zurückgeschickt. Wie groß ist die Wahrscheinlichkeit, dass bei
diesem Prüfplan die Packung angenommen wird, wenn der Ausschussanteil 0,5% ist?
1b. Um die Wahrscheinlichkeit in 1a zu berechnen, müssen Sie ein Verteilungsmodell für die Zahl der
fehlerhaften (bzw. intakten) Einheiten zugrunde legen. Begründen Sie, warum Sie dieses Modell
anwenden!
1c. Von einem Herstellungsverfahren ist bekannt, dass die gefertigten Produkte eine Wirksubstanz
beinhalten, deren Masse X normalverteilt mit dem Mittelwert 10 und der Varianz 0,09 ist. Man
bestimme die Wahrscheinlichkeit, dass X einen Wert innerhalb des einfachen Streubereichs um den
Mittelwert annimmt.
2a. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben
entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten die
folgenden Probenwerte:
Zeitpunkt
X
1 4,46 4,50 4,59 4,35 4,65
2 4,91 4,32 4,39 4,59 4,88
Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1.
2b. Wie müsste man die Fallzahl in 2a (Zeitpunkt 1) planen, um den Mittelwert von X mit einer
Genauigkeit von ±0,05 und einer Sicherheit von 99% schätzen zu können?
2c. Man bestimme für den Zeitpunkt 2 in 2a ein 95%iges Konfidenzintervall für die
Standardabweichung.
3a. Bei der Bearbeitung eines Problems sind 8 voneinander unabhängige Entscheidungen zu treffen,
von denen jede einzelne mit der Wahrscheinlichkeit 5% eine Fehlentscheidung sein kann. Wie groß ist
die simultane Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass wenigstens in einem Fall
falsch entschieden wird?
3b. Sie sollen einen Schätzwert für die Wahrscheinlichkeit p eines Ereignisses bestimmen – wie
gehen Sie vor und wie stellen Sie das Ergebnis der Schätzung dar?
3c. Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit einer
Sicherheit von 90% und einer vorgegebenen Genauigkeit von ± 0,05 bestimmt werden. Wie viele
Probanden benötigt man für die Studie?
1
Mustertermin_mit_Loesungen.doc
Prüfung aus Angewandter Statistik I (WS)
MUSTERTERMIN MIT LÖSUNGEN
LÖSUNGEN MIT R
1a)
Präzisierung der Aufgabe:
X =Anzahl der fehlerhaften Einheiten in der Prüfstichprobe vom Umfang n=10;
die Prüfstichprobe wird aus einer Packung mit N=400 Einheiten (ohne Zurücklegen) ausgewählt. Der
Ausschussanteil ist 0,5%, d.h. in der Packung sind a = 400 x 0,5% =2 fehlerhafte Einheiten (und 398
intakte).
X ist hypergeometrisch verteilt mit N=400, a=2 und n=10.
Gesucht: Annahmewahrscheinlichkeit P(X=0)
Lösungsansatz:
Gesucht ist der Wert der Verteilungsfunktion der hypergeometrischen Verteilung mit N=400, a=2 und
n=10 an der Stelle x=0:
 a  N − a 
 

x  n − x 

P( X = x) =
=
N
 
n
 2  398 
 

 0  8 
 400 


 10 
Rechnerische Lösung:
> dhyper(0, 2, 398, 10)
[1] 0.950564
Ergebnis:
Die Wahrscheinlichkeit für die Annahme der Packung, d.h. die Wahrscheinlichkeit, dass keine Einheit
des Prüfloses fehlerhaft ist, beträgt 95,06%.
1b)
Die Anzahl X der fehlerhaften Einheiten ist hypergeometrisch verteilt mit den Parametern N=400,
a=400*0,005=2 und n=10. Dieses Verteilungsmodell kommt zur Anwendung, wenn eine
Zufallsauswahl ohne Zurücklegen erfolgt.
Wegen N>60 und n/N <0,1 könnte X auch als angenähert binomialverteilt angesehen werden mit den
Parametern n=10 und p=0,005.
Für die Annahmewahrscheinlichkeit ergibt sich bei Approximation der hypergeometrischen
Verteilung durch die Binomialverteilung:
> dbinom(0, 10, 0.005)
[1] 0.9511101
1c)
Präzisierung der Aufgabe:
X ist normalverteilt mit dem Mittelwert 10 und der Varianz 0,09.
Die Standardabweichung σ = 0,3 (Wurzel aus der Varianz). Der einfache Streubereich um den
Mittelwert ist das Intervall µ−σ <= X <= µ+σ.
Gesucht ist die Wahrscheinlichkeit P(9,7 <= X <= 10,3)
Lösungsansatz:
Mit Hilfe der Verteilungsfunktion F der Normalverteilung kann die gesuchte ergibt sich die gesuchte
Wahrscheinlichkeit P aus: P= F(10,3) – F(9,7)
Rechnerische Lösung:
> m <- 10
> var <- 0.09
> sigma <- sqrt(var)
> P <- pnorm(m+sigma, mean=m, sd=sigma) - pnorm(m-sigma, mean=m, sd=sigma)
>P
[1] 0.6826895
2
Mustertermin_mit_Loesungen.doc
Prüfung aus Angewandter Statistik I (WS)
MUSTERTERMIN MIT LÖSUNGEN
Ergebnis:
Die Wahrscheinlichkeit dass eine normalverteilte Zufallsvariable mit dem Mittelwert 10 und der
Varianz 0,09 einen Wert innerhalb des einfachen Streubereichs um den Mittelwert annimmt, ist
68,3%.
2a)
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert µ.
Lösungsansatz:
Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für µ bestimmt.
Für das Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Damit ergibt sich der SE=s/√n (n ist der Stichprobenumfang).
Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG = xquer – tn-1, 0.975 SE
OG = xquer + tn-1, 0.975 SE
Rechnerische Lösung:
> sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
> xquer <- mean(sample1)
> s <- sd(sample1)
> SE <- s/sqrt(length(sample1))
> t_quantil <- qt(0.975, length(sample1)-1)
> UG <- xquer - t_quantil*SE
> OG <- xquer + t_quantil*SE
> print(cbind(UG, OG))
UG
OG
[1,] 4.365465 4.654535
Ergebnis:
Der gesuchte Mittelwert µ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
2b)
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um µ mit einer Genauigkeit
von ±0,05 und einer Sicherheit 1-α=99% schätzen zu können.
Lösungsansatz:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große Stichproben
zulässige Formel
s
z
nerf =  1−α / 2 
 d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung, s der aus der
Stichprobe bestimmte Schätzwert für σ und d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des
Konfidenzintervalls).
Rechnerische Lösung:
> sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
> d <- 0.05
> sicherheit <- 0.99
> alpha <- 1-sicherheit
> z_quantil <- qnorm(1-alpha/2)
3
Mustertermin_mit_Loesungen.doc
Prüfung aus Angewandter Statistik I (WS)
MUSTERTERMIN MIT LÖSUNGEN
> s <- sd(sample1)
> n_erf <- (z_quantil*s/d)^2
> n_erf
[1] 35.96114
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges
Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20
anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist
gerechtfertigt.
2c)
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung σ.
Lösungsansatz:
Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG =
(n − 1) s 2
χ n2−1,1−α / 2
, OG =
(n − 1) s 2
χ n2−1,α / 2
Rechnerische Lösung:
> sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88)
> n <- length(sample2)
> s <- sd(sample2)
> alpha <- 0.05
> q1 <- qchisq(1-alpha/2, n-1)
> q2 <- qchisq(alpha/2, n-1)
> UG <- sqrt((n-1)*s^2/q1)
> OG <- sqrt((n-1)*s^2/q2)
> print(cbind(UG, OG))
UG
OG
[1,] 0.1628386 0.7810047
Ergebnis:
Die gesuchte Standardabweichung σ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
3a)
Präzisierung der Aufgabe:
Die simultane Irrtumswahrscheinlichkeit bei n (n=2, 3, ...) Entscheidungen ist die Wahrscheinlichkeit,
dass mindestens eine der n Entscheidungen falsch ist.
Lösungsansatz:
Es sei α die Wahrscheinlichkeit, dass die erste der 8 Entscheidungen falsch ist; ebenso groß ist die
Wahrscheinlichkeit, dass die zweite falsch ist, usw. Die Wahrscheinlichkeit, dass die erste
Entscheidung richtig ist, ist die Gegenwahrscheinlichkeit 1-α, ebenso groß ist die Wahrscheinlichkeit,
dass die zweite Entscheidung richtig ist, usw. Die Wahrscheinlichkeit, dass alle 8 Entscheidungen
richtig sind, ist – nach der Multiplikationsregel – gleich P(alle richtig)= (1-α)8; dabei wurde
vorausgesetzt, dass alle Entscheidungen voneinander unabhängig getroffen werden. Die
Wahrscheinlichkeit, dass mindestens eine der 8 Entscheidungen falsch ist, ist gleich der
Gegenwahrscheinlichkeit P(mindestens eine falsch) = 1 – P(alle richtig); diese Wahrscheinlichkeit ist
die gesuchte simultane Irrtumswahrscheinlichkeit α_simultan.
Rechnerische Lösung:
> n <- 8
4
Mustertermin_mit_Loesungen.doc
Prüfung aus Angewandter Statistik I (WS)
MUSTERTERMIN MIT LÖSUNGEN
> alpha <- 0.05
> alpha_simultan <- 1-(1-alpha)^n
> alpha_simultan
[1] 0.3365796
Ergebnis:
Die Wahrscheinlichkeit, sich bei 8 Entscheidungen, von denen jede einzelne mit der
Wahrscheinlichkeit 5% falsch ist, mindestens einmal zu irren, ist 33,7%.
3b)
Die Wahrscheinlichkeit p eines Ereignisses wird über dessen relative Häufigkeit geschätzt, mit der das
Ereignis bei wiederholter Ausführung des "Zufallsexperimentes" eintritt. Die Anzahl der
Wiederholungen, bei denen das Ereignis eintritt, ist binomialverteilt mit den Parametern n (Anzahl der
Ausführungen des Zufallsexperimentes, z.B. Ziehen mit Zurücklegen) und p.
Das Ergebnis der Schätzung wird i. Allg. durch Angabe des Schätzwertes (=relative Häufigkeit) und
eines Konfidenzintervalls zu einer angenommenen Sicherheit (meist 95%) dargestellt. Das
Konfidenzintervall für p kann exakt mit den aufwendigen Pearson-Clopper-Grenzen angegeben
werden oder approximativ durch einfachere Formeln, indem die Binomialverteilung durch die
Normalverteilung approximiert wird; dies ist zulässig für n>20 und 10 <= np <= n-10.
Formeln: siehe Formelsammlung
3c)
Präzisierung der Aufgabe:
Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt nicht
ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die Schätzung der
Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n soll so bestimmt
werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt.
Lösungsansatz:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und 10 <= np
<= n-10) zulässige Formel
z

n =  1−α / 2 
 2d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung d=0,05 die
Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls).
Rechnerische Lösung:
> d <- 0.05
> sicher <- 0.9
> alpha <- 1-sicher
> n_mindest <- (qnorm(1-alpha/2)/2/d)^2
> n_mindest
[1] 270.5543
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p ein
(approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten.
5
Mustertermin_mit_Loesungen.doc
Herunterladen