LÖSUNGEN MIT R Aufgabe 1 (Grundaufgabe P1, Boxplot

Werbung
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
GRUNDAUFGABEN ZUR PARAMETERSCHÄTZUNG
1. Man vergleiche die durch die folgenden Stichproben gegebene Variation von X
(Spaltöffnungslänge in µm) bei diploiden und tetraploiden Biscutella laevigata mit Hilfe der
entsprechenden Box-Plots. Welche Bedeutung haben die im Boxplot verwendeten Kenngrößen
x0.5, x0.25, x0.75, xmin und xmax?
diploid
tetraploid
27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26
28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30
2. Die Messung der Ozonkonzentration X während der Sommermonate ergab für eine Großstadt die
-2
in der folgenden Tabelle enthaltenen Werte (Angaben in 10 ppm).
a) Man stelle die Häufigkeitsverteilung der Ozonkonzentration tabellarisch und grafisch dar
und charakterisiere die Verteilung durch den Mittelwert und die Standardabweichung. Wie
sind diese Maßzahlen zu interpretieren?
b) Man und trage die angepasste Dichtekurve der Normalverteilung in die
Histogrammdarstellung ein und vergleiche die aus den Stichprobenwerten berechneten
Quartile mit den Quartilen der angepassten Normalverteilung.
3,6
1,5
6,6
6,0
4,2
6,7
2,5
5,4
4,5
5,4
2,5
3,0
5,6
4,7
6,5
6,7
1,7
5,3
4,6
7,4
5,4
4,1
5,1
5,6
5,4
6,1
7,6
6,2
6,0
5,5
5,8
8,2
3,1
5,8
2,6
9,5
3,4
8,8
7,3
1,3
6,9
3,2
4,7
3,8
5,9
6,6
4,4
5,7
4,5
7,7
3. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben
entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten
die folgenden Probenwerte:
Zeitpunkt
X
1 4,46 4,50 4,59 4,35 4,65
2 4,91 4,32 4,39 4,59 4,88
a) Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert zum Zeitpunkt 1.
b) Wie müsste man die Fallzahl (Zeitpunkt 1) planen, um den Mittelwert von X mit einer
Genauigkeit von ±0,05 und einer Sicherheit von 99% schätzen zu können?
c) Man bestimme für den Zeitpunkt 2 ein 95%iges Konfidenzintervall für die
Standardabweichung.
4. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurde eine neue Therapie
angewendet. Es wurden 120 Patienten therapiert, von denen 16 innerhalb von 4 Wochen
verstarben.
a) Man schätze die Wahrscheinlichkeit p, dass ein Patient innerhalb von 4 Wochen nach
Herzinfarkt stirbt, und bestimme für p ein 95%-Konfidenzintervall.
b) Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit
einer Sicherheit von 90% und einer vorgegebenen Genauigkeit von ± 0,05 bestimmt
werden. Wie viele Probanden benötigt man für die Studie?
LÖSUNGEN MIT R
Aufgabe 1 (Grundaufgabe P1, Boxplot)
Präzisierung der Aufgabe:
Die gegebenen Stichprobenwerte sind Messwerte, die sich durch Messung der Spaltöffnungslänge X
an je n=15 Untersuchungseinheiten von diploiden bzw. tetraploiden Pflanzen ergeben haben. Die
Messwerte zeigen in jeder Gruppe eine Zufallsstreuung, die die Variation der Zufallsvariablen X zum
Ausdruck bringt. Die Variation von Zufallsvariablen wird durch Verteilungsfunktionen modelliert, die
1
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
in ihren charakteristischen Eigenschaften kurz durch Kennwerte beschrieben werden. Ein oft
verwendeter Satz von Kennwerten zur Beschreibung der Merkmalsvariation sind die Quartile x0.5, x0.25
und x0.75 sowie der kleinste und größte Merkmalswert xmin bzw. xmax.
Lösungsansatz:
Ein Boxplot ist ein mit den Kennwerten Median (x0.5), dem unteren und oberen Quartil (x0.25 bzw.
x0.75) sowie dem Kleinst- und Größtwert (xmin bzw. xmax) gezeichnetes Diagramm zur schnellen
Charakterisierung von wichtigen Eigenschaften einer Verteilung. Der Median x0.5 wird auch das 50%Quantil genannt und stellt ein zentrales Lagemaß dar, um die die Stichprobenwerte streuen; grob gilt,
dass 50% der der Stichprobenwerte kleiner oder gleich dem Median sind. Die Quartile x0.25 und x0.75
heißen auch unteres bzw. oberes Quartil, weil sie – grob gesprochen – die Eigenschaft haben, dass
25% der Stichprobenwerte kleiner oder gleich x0.25 und ebenso viele größer oder gleich x0.75 sind. Den
Quartilen werden in der Regel noch der Kleinstwert xmin und der Größtwert xmax beigefügt, die den
Variationsbereich der Stichprobenwerte nach unten bzw. nach oben begrenzen. Zu jeder
Datenbeschreibung gehört auch die Angabe des Stichprobenumfangs n.
Rechnerische und grafische Lösung (mit R):
> x_d <- c(27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24, 26, 26)
> x_t <- c(28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27, 29, 30)
> options(digits = 4)
> n_d <- length(x_d); n_t <- length(x_t)
> q_d <- quantile(x_d, probs=c(0, 0.25, 0.5, 0.75, 1))
> q_t <- quantile(x_t, probs=c(0, 0.25, 0.5, 0.75, 1))
> cat("diploide Stichprobe:", "\n", "n_d= ", n_d, "\n"); print(q_d)
diploide Stichprobe:
n_d= 15
0% 25% 50% 75% 100%
22
23 25
26
27
> cat("tetraploide Stichprobe:", "\n", "n_t= ", n_t, "\n"); print(q_t)
tetraploide Stichprobe:
n_t= 15
0% 25% 50% 75% 100%
27.0 28.5 30.0 31.5 34.0
> boxplot(x_d, x_t, names= c(“diploid”, “tetraploid”), range=0)
Hinweis:
In der R-Funktion boxplot() werden die Quartile x0.25 und x0.75 als Mediane der Merkmalswerte kleiner
bzw. größer als x0.5 berechnet; die so berechneten Statistiken werden im Englischen auch als „hinges“
bezeichnet.
2
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
Ergebnis:
Die Boxplots zeigen, dass der Median der diploiden Stichprobe deutlich unter dem Median der
tretraploiden Stichprobe liegt. Der Interquartilabstand IQR = x0.75 – x0.25 ist für jede Stichprobe 3
Einheiten, die Spannweite xmax – xmin ist in der diploiden Stichprobe mit 5 Einheiten kleiner als in der
tetraploiden Stichproben (7 Einheiten). Der Abstand der Mediane beträgt 5 Einheiten; das ist mehr als
der in beiden Stichproben übereinstimmende IQR.
Aufgabe 2 (Grundaufgabe P2, Beschreibung der Verteilung eines metrischen Merkmals)
Teilaufgabe 2a (Häufigkeitsverteilung eines metrischen Merkmals):
Präzisierung der Aufgabe:
Da die Ozonkonzentration X eine stetige Variable ist, ist der Häufigkeitsverteilung eine geeignete
Klasseneinteilung zu Grunde zu legen. Der Mittelwert und die Standardabweichung werden aus den
gegebenen Stichprobenwerten berechnet.
Lösungsansatz:
Das Häufigkeitsverteilung wird grafisch mit der R-Funktion hist() erzeugt. Um das Histogramm mit
der Dichtekurve der angepassten Normalverteilung vergleichen zu können, werden die Rechteckhöhen
im Histogramm so normiert, dass die gesamte „Histogrammfläche“ gleich 1 beträgt (flächennormiertes
Histogramm). Mit den in der Grafik verwendeten Festlegungen (Klassengrenzen bzw. Klassenmitten)
wird sodann die Häufigkeitstabelle erstellt, wobei für jede Klasse die Klassenmitte, die absoluten und
relativen Klassenhäufigkeiten sowie die Klassenhäufigkeitsdichte angegeben werden. Der
(arithmetische) Mittelwert ist – bei metrischen Variablen mit symmetrischer Verteilung - das übliche
Maß zur Kennzeichnung der zentralen Lage der Verteilung; dieses Maß besitzt zwei bemerkenswerte
Eigenschaften: Einmal ist die (vorzeichenbehaftete) Summe der Abweichungen aller Stichprobenwerte
gleich Null und zum anderen sind die quadrierten Abweichungen von einem festen Wert am kleinsten,
wenn dieser Wert mit dem Mittelwert übereinstimmt. Die Quadratsumme der Abweichungen vom
Mittelwert dividiert durch den (um 1 verkleinerten) Stichprobenumfang ist als mittlere quadratische
Abweichung zu interpretieren und wird als Varianz bezeichnet; die Quadratwurzel aus der Varianz ist
Standardabweichung,
Rechnerische und grafische Lösung (mit R):
Console:
> # Dateneingabe
> x <- c(3.6, 1.5, 6.6, 6.0, 4.2, 6.7, 2.5, 5.4, 4.5, 5.4,
+
2.5, 3.0, 5.6, 4.7, 6.5, 6.7, 1.7, 5.3, 4.6, 7.4,
+
5.4, 4.1, 5.1, 5.6, 5.4, 6.1, 7.6, 6.2, 6.0, 5.5,
+
5.8, 8.2, 3.1, 5.8, 2.6, 9.5, 3.4, 8.8, 7.3, 1.3,
+
6.9, 3.2, 4.7, 3.8, 5.9, 6.6, 4.4, 5.7, 4.5, 7.7)
> options(digits=4)
> n <- length(x)
> # Histogramm mit rel. Klassenhäufigkeitsdichten (Flächennormierung auf 1)
> grafik <- hist(x, freq=F, xlab="Ozonkonzentration in 1/100 ppm",
+
ylab="Klassenhäufigkeitsdichte", xlim=c(0, 12),
+
main="Flächennormiertes Histogramm, n=50")
> #
> # Häufigkeitstabelle
> names(grafik)
[1] "breaks"
"counts"
"intensities" "density"
"mids"
[6] "xname"
"equidist"
> anz_klassen <- length(grafik$mids); anz_klassen
[1] 9
> klassenmitte <- grafik$mids
> klassenbreite <- klassenmitte[2]- klassenmitte[1]; klassenbreite
[1] 1
> abs_klassen_H <- grafik$counts
> rel_klassen_H <- abs_klassen_H/n
> klassen_H_dichte <- rel_klassen_H/klassenbreite
> print(cbind(klassenmitte, abs_klassen_H, rel_klassen_H, klassen_H_dichte))
3
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
klassenmitte abs_klassen_H rel_klassen_H klassen_H_dichte
[1,]
1.5
3
0.06
0.06
[2,]
2.5
4
0.08
0.08
[3,]
3.5
5
0.10
0.10
[4,]
4.5
8
0.16
0.16
[5,]
5.5
15
0.30
0.30
[6,]
6.5
8
0.16
0.16
[7,]
7.5
4
0.08
0.08
[8,]
8.5
2
0.04
0.04
[9,]
9.5
1
0.02
0.02
> #
> # Mittelwert und Standardabweichung
> xquer <- mean(x)
> s <- sd(x)
> print(cbind(xquer, s))
xquer
s
[1,] 5.212 1.852
> abline(v=xquer, lty=2) # Einzeichnen des Mittelwerts (strichlierte Linie)
> abline(v=xquer-s, lty=3);
> abline(v=xquer+s, lty=3) # einfacher Streubereich um den Mittelwert
> n_streubereich <- length(x[x<xquer-s])+length(x[x>xquer+s]); n_streubereich
[1] 16
Grafik (mit eingezeichneter Dichtekurve der angepassten Normalverteilung):
0.20
0.15
0.10
0.00
0.05
Klassenhäufigkeitsdichte
0.25
0.30
Flächennormiertes Histogramm, n=50
0
2
4
6
8
10
12
Ozonkonzentration in 1/100 ppm
Ergebnis:
Die strichlierte (vertikale) Linie im Histogramm markiert die Lage des Mittelwertes. Man erkennt,
dass die Rechteckflächen des Histogramms annähernd symmetrisch um die Mittelwertlinie angeordnet
sind; die punktierten (vertikalen) Linien markieren den einfachen Streubereich um den Mittelwert. Im
einfachen Streubereich liegen 16 der 50 Stichprobenwerte (d.h. ca. 30%).
Teilaufgabe 2b (Anpassung einer Normalverteilung):
Präzisierung der Aufgabe und Lösungsansatz:
Die Anpassung der Normalverteilung an die Häufigkeitsverteilung erfolgt so, dass der Mittelwert und
die Standardabweichung der Normalverteilung dem Stichprobenmittelwert bzw. der
Stichprobenstandardabweichung gleichgesetzt werden.
4
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
Rechnerische und grafische Lösung (mit R):
Console:
> # Fortsetzung des R-Scripts von 2a
> # Einzeichnen der Dichtekurve der angepassten Normalverteilung
> curve(dnorm(x, mean=xquer, sd=s), lwd=2, ad=T)
> #
> # Berechnung der Quartile aus den Stichprobenwerten
> quartile_s <- quantile(x, probs=c(0.25, 0.75))
> cat("Quartile - Stichprobenwerte:", "\n"); quartile_s
Quartile - Stichprobenwerte:
25%
75%
4.125 6.425
> quartile_n <- qnorm(c(0.25, 0.75), mean=xquer, sd=s)
> cat("Quartile - Normalverteilung:", "\n", " 25%", "
75%", "\n"); quartile_n
Quartile - Normalverteilung:
25%
75%
[1] 3.963 6.461
Grafik: Siehe Teilaufgabe 2a
Ergebnis:
Die durch die Rechteckflächen des Histogramms dargestellte Häufigkeitsverteilung weicht – bis auf
die mittlere Klasse – nicht „wesentlich“ von der Normalverteilungsdichte ab. Die Übereinstimmung
wird auch durch die geringen Abweichungen der aus den Stichprobenwerten berechneten Quartile von
den Quartilen der angepassten Normalverteilung zum Ausdruck gebracht.
Aufgabe 3 (Grundaufgabe P3, Schätzung des Mittelwerts und der Standardabweichung)
Teilaufgabe 3a (Mittelwertschätzung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für den Mittelwert µ.
Lösungsansatz:
Aus der Stichprobe wird der Mittelwert xquer als Schätzwert für µ bestimmt.
Für das Konfidenzintervall wird zusätzlich die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Damit ergibt sich der SE=s/√n (n ist der Stichprobenumfang).
Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG = xquer – tn-1, 0.975 SE
OG = xquer + tn-1, 0.975 SE
Rechnerische Lösung (mit R):
>
>
>
>
>
>
>
>
sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
xquer <- mean(sample1)
s <- sd(sample1)
SE <- s/sqrt(length(sample1))
t_quantil <- qt(0.975, length(sample1)-1)
UG <- xquer - t_quantil*SE
OG <- xquer + t_quantil*SE
print(cbind(UG, OG))
UG
OG
[1,] 4.365465 4.654535
Ergebnis:
Der gesuchte Mittelwert µ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
5
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
Teilaufgabe 3b (erforderlicher Mindeststichprobenumfang bei der Mittelwertschätzung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 1 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist der erforderliche Mindeststichprobenumfang, um µ mit einer Genauigkeit
von ±0,05 und einer Sicherheit 1-α=99% schätzen zu können.
Lösungsansatz:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs nerf wird die für große Stichproben
zulässige Formel
s
z
nerf =  1−α / 2 
 d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung, s der aus der
Stichprobe bestimmte Schätzwert für σ und d=0,05 die Genauigkeit (d.h. die halbe Intervallbreite des
Konfidenzintervalls).
Rechnerische Lösung (mit R):
> sample1 <- c(4.46, 4.5, 4.59, 4.35, 4.65)
> d <- 0.05
> sicherheit <- 0.99
> alpha <- 1-sicherheit
> z_quantil <- qnorm(1-alpha/2)
> s <- sd(sample1)
> n_erf <- (z_quantil*s/d)^2
> n_erf
[1] 35.96114
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=36 erforderlich, um für den Mittelwert ein 99%iges
Konfidenzintervall der Länge 2d=0,1 zu erhalten. Die verwendete Formel ist wegen n=36 > 20
anwendbar, d.h. die Approximation des t-Quantils durch das entsprechende z-Quantil ist
gerechtfertigt.
Teilaufgabe 3c (Schätzung der Standardabweichung):
Präzisierung der Aufgabe:
Wir nehmen X zum Zeitpunkt 2 als eine normalverteilte Zufallsvariable mit dem Mittelwert µ und der
Varianz σ2 an. Gesucht ist ein 95%-Konfidenzintervall für die Standardabweichung σ.
Lösungsansatz:
Aus der Stichprobe (Umfang n) wird die Stichprobenstandardabweichung s als Schätzwert für σ
ermittelt. Die untere und obere Grenze UG bzw. OG des 95%-Konfidenzintervalls ist:
UG =
(n − 1) s 2
χ n2−1,1−α / 2
, OG =
(n − 1) s 2
χ n2−1,α / 2
Rechnerische Lösung (mit R):
>
>
>
>
>
>
>
>
>
sample2 <- c(4.91, 4.32, 4.39, 4.59, 4.88)
n <- length(sample2)
s <- sd(sample2)
alpha <- 0.05
q1 <- qchisq(1-alpha/2, n-1)
q2 <- qchisq(alpha/2, n-1)
UG <- sqrt((n-1)*s^2/q1)
OG <- sqrt((n-1)*s^2/q2)
print(cbind(UG, OG))
UG
OG
[1,] 0.1628386 0.7810047
Ergebnis:
Die gesuchte Standardabweichung σ liegt mit einer Sicherheit von 95% im Intervall [UG, OG].
6
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
Aufgabe 4 (Grundaufgabe P4, Schätzung einer Wahrscheinlichkeit p)
Teilaufgabe 4a (Schätzwert und Konfidenzintervall für p):
Präzisierung der Aufgabe:
Die Wahrscheinlichkeit p eines Ereignisses E wird über dessen relative Häufigkeit h=m/n geschätzt,
mit der das Ereignis E bei wiederholter Ausführung des "Zufallsexperimentes" eintritt; dabei bedeuten
n die Anzahl der Ausführungen des Zufallsexperimentes und m die Anzahl der Ausführungen mit dem
Ausgang E. Die Anzahl der Wiederholungen, bei denen das Ereignis E eintritt, ist binomialverteilt mit
den Parametern n und p. Das Ergebnis der Schätzung wird i. Allg. durch Angabe des Schätzwertes h
(=relative Häufigkeit) und eines Konfidenzintervalls zu einer angenommenen Sicherheit (meist 95%)
dargestellt. Das Konfidenzintervall für p kann exakt mit den aufwendigen Pearson-Clopper-Grenzen
angegeben werden oder approximativ durch einfachere Formeln, indem die Binomialverteilung durch
die Normalverteilung approximiert wird; dies ist zulässig für n>20 und 10 <= m <= n-10.
Lösungsansatz:
Das „Zufallsexperiment“ besteht im konkreten Beispiel darin, dass ein Patient nach der Behandlung
die folgenden 4 Wochen nicht überlebt (Ereignis E) bzw. überlebt (Gegenereignis Ec). In einer Studie
werden 120 Patienten therapiert, d.h. das „Experiment“ wird 120mal wiederholt (n=120). Unter den
beobachteten Wiederholungen tritt das Ereignis E (Patient überlebt nicht) 16mal auf, d.h. m=16.
Wegen n=120>20 und m=16>=10 sowie m<=n-10=110 sind die Voraussetzungen zur Approximation
der Binomialverteilung durch die Normalverteilung erfüllt. Trotzdem wird im Folgenden auch das
exakte Pearson-Clopper – Konfidenzintervall berechnet.
Benötigte Formeln:
Schätzwert für p: h = m/n
Approximatives (1-α)-Konfidenzintervall für p:
pu = h − d , po = h + d , d = z1−α / 2 h(1 − h) / n
Exaktes (1-α)-Konfidenzintervall für p:
pu =
mF2 m , 2 ( n − m +1),α / 2
n − m + 1 + mF2 m , 2 ( n − m +1),α / 2
, po =
(m + 1) F2 ( m +1), 2 ( n − m ),1−α / 2
n − m + (m + 1) F2 ( m +1), 2 ( n − m ),1−α / 2
Rechnerische Lösung (mit R):
> # Eingabedaten
> n <- 120; m <- 16; alpha <- 0.05
> options(digits = 4)
> h <- m/n # Schätzwert für p
> cat("Schätzwert h für p =", h, "\n")
Schätzwert h für p = 0.1333
> #
> # Variante 1: Approximatives Konfidenzintervall:
> d <- qnorm(1-alpha/2)*sqrt(h*(1-h)/n)
> pu_approx <- h-d; po_approx <- h+d
> cat("Approx. Konfidenzintervall:", "\n",
+
"
1-alpha=", 1-alpha, "\n",
+
"
pu= ", pu_approx, ", po= ", po_approx, "\n")
Approx. Konfidenzintervall:
1-alpha= 0.95
pu= 0.07251, po= 0.1942
> #
> # Variante 2: Exaktes Konfidenzintervall:
> quantil_pu <- qf(alpha/2, 2*m, 2*(n-m+1)) # F-Quantil für untere Grenze
> quantil_po <- qf(1-alpha/2, 2*(m+1), 2*(n-m)) # F-Quantil für obere Grenze
> pu_exakt <- m*quantil_pu/(n-m+1+m*quantil_pu)
> po_exakt <- (m+1)*quantil_po/(n-m+(m+1)*quantil_po)
> cat("Exaktes Konfidenzintervall:", "\n",
+
"
1-alpha=", 1-alpha, "\n",
+
"
pu = ", pu_exakt, ", po= ", po_exakt, "\n")
Exaktes Konfidenzintervall:
1-alpha= 0.95
7
Musterbeispiele_STAT3_mit_Loesungen
ANGEWANDTE STATISTIK 3
MUSTERBEISPIELE MIT LÖSUNGEN
pu = 0.07817, po= 0.2075
> #
> # Variante 3: Nutzung der Prozedur BINOM.TEST()für (exakte) Parameterschätzung:
> binom.test(m, n, conf.level=1-alpha)
Exact binomial test
data: m and n
number of successes = 16, number of trials = 120, p-value < 2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.07817 0.20748
sample estimates:
probability of success
0.1333
Hinweis: In Variante 3 wird die Tatsache genutzt, dass im Rahmen der R-Prozedur binom.test() zur
Ausführung des exakten Binomialtests auch der Schätzwert für p sowie das entsprechende exakte
Konfidenzintervall bereitgestellt wird.
Ergebnis:
Die Schätzung der Wahrscheinlichkeit p ergibt mit der relativen Häufigkeit als Schätzfunktion den
Wert h=0.1333; das entsprechende 95%-Konfidenzintervall ist [pu, po] = [0.07251, 0.1942]
(approximativ) bzw. [pu, po] = [0.07817, 0.2075] (exakt).
Teilaufgabe 4b (erforderlicher Mindeststichprobenumfang):
Präzisierung der Aufgabe:
Es sei X eine Zufallsvariable mit den Ausprägungen „Krankheit tritt ein“ und „Krankheit tritt nicht
ein“. Im ersten Fall ordnen wir X den Wert 1, im zweiten Fall den Wert 0 zu. Für die Schätzung der
Wahrscheinlichkeit p = P(X=1) wird eine Stichprobe benötigt. Deren Umfang n soll so bestimmt
werden, dass das 99%ige Konfidenzintervall für p die Länge 2d = 0,1 besitzt.
Lösungsansatz:
Zur Bestimmung des erforderlichen Mindeststichprobenumfangs n wird die (für n>20 und 10 <= np
<= n-10) zulässige Formel
z

n =  1−α / 2 
 2d 
2
verwendet. In dieser Formel ist z1-α/2 das (1-α/2)-Quantil der Standardnormalverteilung d=0,05 die
Genauigkeit (d.h. die halbe Intervallbreite des Konfidenzintervalls).
Rechnerische Lösung:
> d <- 0.05
> sicher <- 0.9
> alpha <- 1-sicher
> n_mindest <- (qnorm(1-alpha/2)/2/d)^2
> n_mindest
[1] 270.5543
Ergebnis:
Es ist ein Mindeststichprobenumfang von n=271 erforderlich, um für die Wahrscheinlichkeit p ein
(approximatives) 99%iges Konfidenzintervall der Länge 2d=0,1 zu erhalten.
.
8
Musterbeispiele_STAT3_mit_Loesungen
Herunterladen