3 PARAMETERSCHÄTZUNG

Werbung
1
3 PARAMETERSCHÄTZUNG
Inhalt:
3.1 Datenbeschreibung bei einem Merkmal
3.2 Schätzfunktionen
3.3 Intervallschätzung
3.4 Übungsbeispiele
3.5 Repetitorium: Begriffe und Methoden
Lernziele:
3.1 Die Merkmalsvariation in eindimensionalen Stichproben mit
Kennzahlen beschreiben können;
3.2 einfache grafische Instrumente zur Datenexploration einsetzen
können;
3.3 Schätzwerte für den Mittelwert und die Varianz einer
normalverteilten Zufallsvariablen sowie für eine unbekannte
Wahrscheinlichkeit bestimmen können;
3.4 Ein (1-α)-Konfidenzintervall für die Varianz einer
N(µ, σ2)- verteilten Zufallsvariablen berechnen und interpretieren
können;
3.5 Ein (1-α)-Konfidenzintervall für den Mittelwert m einer
N(µ, σ2)- verteilten Zufallsvariablen berechnen und interpretieren
sowie den erforderlichen Mindeststichprobenumfang zur
Schätzung des Mittelwerts mit der vorgegebenen Genauigkeit ±d
und der vorgegebenen Sicherheit 1-α abschätzen können;
3.6 Ein (1-α)-Konfidenzintervall für den Parameter p
(Wahrscheinlichkeit) einer Zweipunktverteilung berechnen und
interpretieren sowie den erforderlichen Mindeststichprobenumfang
zur Schätzung von p mit der vorgegebenen Genauigkeit ±d und
der vorgegebenen Sicherheit 1-α abschätzen können.
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
2
3.1 Datenbeschreibung bei einem Merkmal
Ziel der Parameterschätzung:
Die Merkmalsvariation wird i. Allg. durch Wahrscheinlichkeitsverteilungen
(Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen) mit unbekannten
Parametern modelliert. Für diese Parameter sind - mit Hilfe von
Zufallsstichproben Schätzwerte zu ermitteln und die Güte der Schätzung
durch Konfidenzintervalle zu dokumentieren.
Wahrscheinlichkeitsdichte
Grundgesamtheit X
N(µ, σ2)
Zufallsstichprobe
Zufallsauswahl
x1, x2, ..., xn
Stichprobenfunktionen
µ
X
2σ
Stichprobenmittel
Parameterschätzung:
Schätzwert
Konfidenzintervall
Stichprobenstandardabweichung
Lernziel 3.1:
Die Merkmalsvariation in eindimensionalen Stichproben mit Kennzahlen
beschreiben können.
Es sei X ein quantitatives Merkmal mit den an n Untersuchungseinheiten
beobachteten Werten x1, x2, ..., xn
Grundlegende Kennzahlen einer Stichprobe:
1. Stichprobenumfang n
2. Lagemaße:
• der kleinste Merkmalswert xmin=min(x1, x2, ..., xn)
• der größte Merkmalswert
xmax=max(x1, x2, ..., xn)
• das arithmetisches Mittel
n
x = 1n ∑ xi = 1n  x1 + x2 +L + xn 
i =1
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
3
Hinweise:
n
∑ (x − x ) = 0
i =1
i
2
n
∑ (x
i =1
i
− ξ ) = min! für ξ = x
Das arithmetische Mittel kann von einem extrem liegenden
Stichprobenwert (zB Ausreißer) stark beeinflusst werden!
• der Median Q2
Bei ungeradem n ist Q2 gleich dem mittleren Element der nach
aufsteigender Größe geordneten Stichprobe (Ordnungsreihe), d.h.
gleich dem Element mit dem Index (n+1)/2; bei geradem n er
Ordnungsreihe zwei mittlere Element, nämlich die Elemente mit
den Indices n/2 und n/2+1; Q2 ist in diesem Fall gleich dem
arithmetischen Mittel dieser beiden Elemente.
Hinweis:
Ein extreme Stichprobenwert (zB Ausreißer) hat auf den Median
keinen Einfluss. Der Median ist ein gegenüber Ausreißern
„robustes“ Lagemaß.
• das p-Quantil xp (0 ≤ p < 1)
Unter dem p-Quantil einer (quantitativen) Stichprobe vom Umfang
n kann man sich – grob gesprochen – jenen Wert vorstellen, der
von np Stichprobenwerten unterschritten und von n(1-p)
Stichprobenwerten überschritten wird; ist np nicht ganzzahlig, so
nehme man dafür den auf die nächste ganze Zahl gerundeten
Wert. Im Folgenden wird eine genaue Definition des p-Quantils
(nämlich jene, die in der R-Funktionen summary oder quantile
verwendet wird) angegeben:
Eine Stichprobe der Variablen X umfasse die n metrischen Werte
x1, x2, ... , xn. Die Anordnung der Stichprobenwerte nach
aufsteigender Größe führt auf die geordnete Stichprobe
x(1), x(2), ... , x(n). Wir bestimmen die Zahl u = 1+(n-1)p und daraus
die größte ganze Zahl [u] kleiner oder gleich u. Dann ist das pQuantil xp der Stichprobenwerte gegeben durch:
x p = (1 − v) x([u ]) + vx([u ]+1) mit v = u − [u ]
Sonderfälle:
p = 50% (Median x0.5= Q2)
p = 25% (unteres Quartil x0.25 = Q1)
p = 75% (oberes Quartil x0.75 = Q3)
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
4
3. Streuungsmaße:
• Spannweite R = xmax – xmin
• Varianz s2, Standardabweichung s
n
1
s =
( xi − x ) 2 ,
∑
n − 1 i =1
2
s=
s2
Hinweis:
Das arithmetische Mittel dient dazu, um einerseits den "wahren"
Wert µ von X zu schätzen (dabei wird angenommen, dass sich die
Messwerte additiv aus dem wahren Wert und einem regellos um
Null streuenden Messfehler zusammensetzen) und andererseits
um den Mittelwert µ von X zu schätzen (dabei wird angenommen,
dass X an sich zufällig variiert).
Je größer n, desto "besser" die Mittelwertschätzung. Ein Maß für
die Zufallsstreuung des Mittelwerts von X ist der Standardfehler
SE = s / n . Messergebnisse stellt man oft in der Form x ± SE dar.
• Interquartilabstand IQR = Q3 – Q1
4. Asymmetriemaße:
• Bowley-Koeffizient
• Schiefe
g=
(
QS =
S xxx
n s 1 − 1/ n
(Q3 − Q2 ) − (Q2 − Q1 )
IQR
n
)
3
3
, S xxx = ∑ (xi − x )
i =1
Hinweis:
Die folgenden Grafiken zeigt die beiden grundsätzlich möglichen
Asymmetrietypen. Für symmetrische Verteilungen ist die Schiefe
null.
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
5
Anmerkungen:
- Es gibt mehrere Definitionen für die Quantile; sowohl Excel als auch
z.B. SPSS verwenden andere Definitionen.
- Speziell für die Quartile Q1 und Q3 findet man auch die folgende
Definitionen: Das Quartil Q1 (Q3) ist der Median der Merkmalswerte
kleiner (größer) als Q2; die so berechneten Statistiken werden im
Englischen auch als „hinges“ bezeichnet und finden z.B. in R bei der
Berechnung der Quartile in der Funktion boxplot() Anwendung.
- Die Beschreibung der Variation einer Stichprobe mit den 5
Kennzahlen xmin, Q1, Q2, Q3, xmax wird als 5-PunkteZusammenfassung (engl. Five-number summary) bezeichnet (RFunktion: fivenum()).
- Die Transformationen „Zentrieren“ und „Standardisieren“:
X → Z c = X − x (Zentrieren)
X → ZS =
X −x
(Standardi sieren)
s
Beispiel 3.1:
Man bestimme das 25%-, 50%- und 75%-Quantil für die Stichprobe
8, 12, 14, 22, 25, 25, 30. Was ergibt sich, wenn man der Stichprobe den
Wert 35 hinzufügt?
Lösung:
a) Stichprobe: 8, 12, 14, 22, 25, 25, 30 (n=7)
p=0.25: u= 1+(n-1)p=2.5; [u]=2, v=0,5 Q1 = 0.5x(2)+0.5x(3)=13;
p=0.5: u= 4; [u]=4, v=0 Q2 = 1x(4)+0x(5)=22;
p=0.75: u= 5.5; [u]=5, v=0.5 Q3 = 0.5x(5)+0.5x(6)=25.
b) Stichprobe: 8, 12, 14, 22, 25, 25, 30, 35 (n=8)
p=0.25: u= 1+(n-1)p=2.75; [u]=2, v=0.75
Q1= 0.25x(2)+0.75x(3)=13.5;
p=0.5: u= 4.5; [u]=4, v=0.5 Q2= 0.5x(4)+0.5x(5)=23.5;
p=0.75: u= 6,25; [u]=6, v=0.25 Q3= 0.75x(6)+0.25x(7)=26.25.
Lösung mit R:
>
>
>
>
>
>
# Beispiel 3.1a
x <- c(8, 12, 14, 22, 25, 25, 30)
Q1 <- quantile(x, 0.25); Q1 <- Q1[[1]]
Q2 <- quantile(x, 0.5); Q2 <- Q2[[1]]
Q3 <- quantile(x, 0.75); Q3 <- Q3[[1]]
print(cbind(Q1, Q2, Q3))
Q1 Q2 Q3
[1,] 13 22 25
> # Beispiel 3.1b
> x <- c(8, 12, 14, 22, 25, 25, 30, 35)
> Q1 <- quantile(x, 0.25); Q1 <- Q1[[1]]
> Q2 <- quantile(x, 0.5); Q2 <- Q2[[1]]
> Q3 <- quantile(x, 0.75); Q3 <- Q3[[1]]
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
6
> print(cbind(Q1, Q2, Q3))
Q1
Q2
Q3
[1,] 13.5 23.5 26.25
Beispiel 3.2:
An 40 Exemplaren einer Pflanze (Biscutella laevigata) wurde die Anzahl
X der Zähne des größten Grundblattes bestimmt. Man bestimme das
arithmetische Mittel, die Varianz und die Standardabweichung der
Messwerte sowie den Standradfehler des Mittelwerts und die Schiefe.
1
0
3
3
2
2
2
2
0
4
0
2
5
3
3
3
2
1
3
3
2
2
0
3
0
4
3
1
3
5
2
3
3
6
2
3
4
4
4
4
Lösung:
1
(0 ⋅ 5 + 1 ⋅ 3 + 2 ⋅ 10 + 3 ⋅ 13 + 4 ⋅ 6 + 5 ⋅ 2 + 6 ⋅ 1) = 2.55;
40
1
s2 =
(0 − 2.55)2 ⋅ 5 + L + (6 − 2.55)2 ⋅ 1 = 2.1; s = 2.1 = 1.45;
39
1.45
SE =
= 0.23
40
x=
[
]
Lösung mit R:
>
>
+
+
+
+
>
>
>
>
>
>
>
>
# Beispiel 3.2
x <- c(
1,2,0,5,2,2,0,3,3,4,
0,2,4,3,1,2,4,5,6,4,
3,2,0,3,3,0,3,2,2,4,
3,2,2,3,3,3,1,3,3,4)
options(digits=4)
n <- length(x) # Stichprobenumfang
xquer <- mean(x) # arithmetisches Mittel
s2 <- var(x) # Varianz
s <- sd(x) # Standardabweichung
SE <- s/sqrt(n) # Standardfehler
g <- sum((x-xquer)^3)/n/(s*sqrt(1-1/n))^3 # Schiefe
print(cbind(n, xquer, s2, s, SE, g))
n xquer s2
s
SE
g
[1,] 40 2.55 2.1 1.449 0.2291 -0.04941
Beispiel 3.3:
Man zeige: Für ein N(µ, σ2)-verteilte Zufallsvariable X ist
P = P(x0.25 –1,5IQR <X< x0.75 +1,5IQR) ≈ 99.3%, d.h. außerhalb des
Intervalls [x0.25 –1.5⋅IQR, x0.75 + 1.5⋅IQR] liegende Werte sind
unwahrscheinlich und daher "ausreißerverdächtig".
Lösung:
x0,75=µ+z0,75σ ; x0,25=µ+z0,25σ = µ-z0,75σ
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
7
IQR = x0,75 – x0,25 = 2z0,75σ
x0.75 + 1.5⋅IQR = µ + 4z0,75σ ; x0.25 –1.5⋅IQR = µ − 4z0,75σ
P = P((x0.25 - 1.5⋅IQR – µ)/σ < (X-µ)/σ < (x0.75 +1.5⋅IQR-µ)/σ)=
= P(−4z0,75 < (X-µ)/σ < 4z0,75); z0,75 = 0.675
P = P(-2.7 < (X-µ)/σ <2.7) = Φ(2.7) - Φ(-2.7) =
= 2Φ(2.7) -1 = 2⋅0.9965 -1= 0.993.
Lernziel 3.2:
Einfache grafische Instrumente zur Datenexploration einsetzen können.
Punktdiagramm:
Die Verteilung von Merkmalswerten in kleinen Stichproben wird sehr
anschaulich in Form von eindimensionalen Diagrammen dargestellt, in
dem man über der Merkmalsachse die Werte als Punkte einträgt.
Werden zwei oder mehrere Messreihen auf diese Weise in einem
Diagramm zusammengefasst, können Unterschiede in den Verteilungen
visuell gut erfasst werden.
Beispiel 3.4:
Die Aufnahme von Mg-Ionen wurde in 6 Versuchspflanzen in 3
Nährlösungen untersucht. Für die erste Nährlösung ergaben sich die MgKonzentrationen (in µmol pro g Trockensubstanz): 208, 175, 196, 181,
201, 166; die entsprechenden Messwerte für die Nährlösung 2 und 3
waren: 184, 161, 155, 185, 203, 166 bzw. 182, 193, 166, 145, 135, 151.
Man stelle die Messreihen gemeinsam in einem Punkt-Plot dar.
Lösung mit R:
>
>
>
>
>
1
2
3
4
5
6
>
+
+
+
# Beispiel 3.4: Einmdimensionale Punktdiagramme
x1 <- c(208, 175, 196, 181, 201, 166)
x2 <- c(184, 161, 155, 185, 203, 166)
x3 <- c(182, 193, 166, 145, 135, 151)
x <- data.frame(x1, x2, x3); x
x1 x2 x3
208 184 182
175 161 193
196 155 166
181 185 145
201 203 135
166 166 151
stripchart(x,group.names=c("1. Lös.", "2. Lös.", "3. Lös."),
method="stack", pch=16, cex=1.25, cex.lab=1.25, cex.axis=1.25,
xlab="Mg-Konzentration in mikromol/100g Trockengewicht",
main="Punkt-Plots für drei Messreihen", cex.main=1.4)
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
8
R-Grafik:
1. Lös.
2. Lös.
3. Lös.
Punkt-Plots für drei Messreihen
140
160
180
200
Mg-Konzentration in mikromol/100g Trockengewicht
Boxplot:
Ein Boxplot besteht aus einem Rechteck, das durch das untere Quartil
Q1 und das obere Quartil Q3 begrenzt wird und in dem der Median Q2
markiert ist. Die Ausläufer nach unten und oben (bzw. bei horizontaler
Anordnung nach links und rechts) reichen bis zum kleinsten und größten
Merkmalswert xmin bzw. xmax .
Beispiel 3.5:
Die folgende Tabelle enthält die Blutgerinnungszeit X (in s) von 30
Probanden. Wir stellen die Variation von X durch ein Boxplot dar.
22.7 24.0 24.4 25.8 25.9 26.0 26.4 26.6 26.6 26.8
27.0 27.7 27.8 28.0 28.0 28.1 28.7 28.7 28.8 29.0
29.0 29.0 30.0 30.1 31.1 31.8 32.0 33.0 33.7 35.0
Lösung:
n= 30;
p=0.25: u= 1+(n-1)p=8.25; [u]=8, v=0.25
Q1= x0.25 = 0.75x(8)+0.25x(9) = 26.6;
p=0.5: u= 15.5; [u]=15, v=0.5 Q2 = x0.5 = 0.5x(15)+0.5x(16) = 28.05;
p=0.75: u= 22.75; [u]=22, v=0.75
Q3= x0.75 = 0.25x(22)+ 0.75x(23) = 29.75.
IQR = Q3 – Q1 = 3.15; Whisker-Längen bis: xmin = 22.7 bzw. xmax = 35.
xmin
x0.25
x0.5
x0.75
xmax
X
23
25
27
29
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
31
33
35
10.03.2014
9
Lösung mit R:
> x <- c(
+
22.7, 24.0, 24.4, 25.8, 25.9, 26.0, 26.4, 26.6, 26.6, 26.8,
+
27.0, 27.7, 27.8, 28.0, 28.0, 28.1, 28.7, 28.7, 28.8, 29.0,
+
29.0, 29.0, 30.0, 30.1, 31.1, 31.8, 32.0, 33.0, 33.7, 35.0)
> summary(x)
Min. 1st Qu. Median
Mean 3rd Qu.
Max.
22.70
26.60
28.05
28.39
29.75
35.00
> grafik_1 <- boxplot(x, range=0, horizontal=TRUE)
> names(grafik_1)
[1] "stats" "n"
"conf" "out"
"group" "names"
> grafik_1$stats
[,1]
[1,] 22.70
[2,] 26.60
[3,] 28.05
[4,] 30.00
[5,] 35.00
> # Man beachte:
> # Das untere und obere Quartil werden als „hinges“ berechnet!
> grafik_1$stats[4,1] # oberes Quartil (upper hinge)
[1] 30
> IQR <- grafik_1$stats[4,1]-grafik_1$stats[2,1]
[1] 3.4
> # Man beachte:
> # IQR ist hier mit dem oberen und unteren hinge berechnet!
R-Grafik (Boxplot):
24
26
28
30
32
34
Stabdiagramm:
Es sei X ein quantitatives diskretes Merkmal mit k (verschiedenen)
Werten a1, a2, ..., ak. Beobachtung von X an n Untersuchungseinheiten
Stichprobe x1, x2, ..., xn
Abzählen der Untersuchungseinheiten mit dem Merkmalswert ai ergibt
die absolute Häufigkeit Hi ;
Division der absoluten Häufigkeiten Hi durch den Stichprobenumfang
n ergibt die relativen Häufigkeiten yi = Hi /n.
Beispiel 3.6:
Daten von Beispiel 3.2 (Werte der Anzahl X der Zähne des größten
Grundblattes von 40 Exemplaren von Biscutella laevigata). Man stelle
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
10
die Merkmalsvariation von X durch eine Häufigkeitstabelle und ein
Stabdiagramm dar.
Lösungshinweise:
Die absolute Häufigkeit der Ausprägung a1=0 ist H1=5, die
entsprechende relative Häufigkeit h1=5/40=0.125, usw. Alle
Ausprägungen und die zugeordneten Häufigkeiten werden in der
Häufigkeitstabelle zusammengefasst. Errichtet man über der
Merkmalsachse „Stäbe“ mit den relativen Häufigkeiten (z.B. ausgedrückt
in %) als Längen, erhält man eine grafische Darstellung der Verteilung in
Form eines Stabdiagramms.
Lösung mit R:
> options(digits=3)
> zaehne <- c(
+
1,2,0,5,2,2,0,3,3,4,
+
0,2,4,3,1,2,4,5,6,4,
+
3,2,0,3,3,0,3,2,2,4,
+
3,2,2,3,3,3,1,3,3,4)
> n <- length(zaehne); n # Stichprobenumfang
[1] 40
> Xdefmenge <- min(zaehne):max(zaehne); Xdefmenge
[1] 0 1 2 3 4 5 6
> absolute_H <- table(zaehne); absolute_H # Tabelle mit absoluten
Häufigkeiten
zaehne
0 1 2 3 4 5 6
5 3 10 13 6 2 1
> relative_H <- table(zaehne)/n # Tabelle mit relativen Häufigkeiten
> htab <- cbind(Xdefmenge, absolute_H, relative_H)
+
# Zusammenfassen der abs. u. rel. Häufigk. in einer Tabelle
> htab # Ausgabe der Häufigkeitstabelle
Xdefmenge absolute_H relative_H
0
0
5
0.125
1
1
3
0.075
2
2
10
0.250
3
3
13
0.325
4
4
6
0.150
5
5
2
0.050
6
6
1
0.025
> #
> # Darstellung der Verteilung der Anzahl der Zähne durch
> # ein Stabdiagramm mit absoluten Häufigkeiten
> barplot(absolute_H, xlab="Anz. der Zähne", ylab="Abs. Häufigkeit",
+
main="Häufigkeitsverteilung n=40")
> #
> # Darstellung der Verteilung der Anzahl der Zähne durch
> # ein Stabdiagramm mit relativen Häufigkeiten
> barplot(relative_H, xlab="Anz.d.Zähne", ylab="rel.Häufigkeit",
+
main="Häufigkeitsverteilung d.Anz.d.Zähne, n=40")
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
11
R-Grafiken:
Häufigkeitsverteilung d.Anz.d.Zähne, n=40
0.20
0.15
rel.Häufigkeit
0.10
6
0
0.00
2
0.05
4
Abs. Häufigkeit
8
10
0.25
12
0.30
Häufigkeitsverteilung n=40
0
1
2
3
4
5
6
Anz. der Zähne
0
1
2
3
4
5
6
Anz.d.Zähne
Histogramm:
Es sei X ein stetiges Merkmal und x1, x2, ..., xn eine Stichprobe von X;
• Zerlegung der Merkmalsachse in gleich lange,
aneinandergrenzende Intervalle (Klassen) I1,I2, ..., Ik
Klasseneinteilung.
• Klassenbreite
b ≈ 2 ⋅ IQR / 3 n
• Klassengrenzen:
Festlegung der unteren Grenze c0 der ersten Klasse I1 derart, dass
c0 < xmin ≤ c1=c0+ b I1 =(c0, c1]; c1 = c0+ b ist die untere Grenze
der zweiten Klasse I2 = (c1, c2]; c2 = c1 + b die untere Grenze der
dritten Klasse I3 = (c2, c3] usw.
• Abzählen der Untersuchungseinheiten in der Klasse Ii ergibt die
absolute Klassenhäufigkeit Hi von Ii (= Anzahl der Merkmalswerte
• Division der absoluten Klassenhäufigkeit Hi durch den
Stichprobenumfang n führt zur relativen Klassenhäufigkeit
y'i = Hi /n; man beachte: y1 + y2 + … + yk = 1.
• Division der relativen Klassenhäufigkeit yi durch die Klassenbreite
b ergibt die Häufigkeitsdichte gi = hi /b.
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
12
• Über jede Klasse Ii wird das Rechtecke mit der Breite b und der
Höhe gi errichtet (dieses Histogramm heißt flächennormiert, weil
die gesamte "Histogrammfläche" = 1 ist)
Beispiel 3.7:
Daten von Beispiel 3.5 (Blutgerinnungszeit X in s von 30 Probanden).
Man stelle die Merkmalsvariation durch eine Häufigkeitstabelle und ein
Histogramm dar.
Lösung mit R:
> x <- c(
+
22.7, 24.0, 24.4, 25.8, 25.9, 26.0, 26.4, 26.6, 26.6, 26.8,
+
27.0, 27.7, 27.8, 28.0, 28.0, 28.1, 28.7, 28.7, 28.8, 29.0,
+
29.0, 29.0, 30.0, 30.1, 31.1, 31.8, 32.0, 33.0, 33.7, 35.0)
> #
> n <- length(x)
> options(digits=4)
> # Histogramm mit abs. Klassenhäufigkeiten
> grafik_1 <- hist(x, freq=TRUE,
+
xlab="Blutgerinnungszeiten in s", ylab="abs. Klassenhäufigkeit",
+
main="Grafik 1: Histogramm mit abs. Klassenhäufigkeiten, n=30")
>
> # Histogramm mit rel. Klassenhäufigkeitsdichten (Flächennormierung auf 1)
> grafik_2 <- hist(x, freq=F, xlab="Blutgerinnungszeiten in s",
+
ylab="Klassenhäufigkeitsdichte",
+
main="Grafik 2: Flächennormiertes Histogramm, n=30")
>
> # Häufigkeitstabelle
> names(grafik_1)
[1] "breaks "counts" "intensities" "density" "mids" "xname"
[7] "equidist"
> anz_klassen <- length(grafik_1$mids)
> anz_klassen
[1] 7
> klassenbreite <- (max(grafik_1$breaks)-min(grafik_1$breaks))/anz_klassen
> klassenbreite
[1] 2
> klassenmitte <- grafik_1$mids
> abs_klassen_H <- grafik_1$counts
> rel_klassen_H <- abs_klassen_H/n
> klassen_H_dichte <- rel_klassen_H/klassenbreite
> print(cbind(klassenmitte, abs_klassen_H, rel_klassen_H,
klassen_H_dichte))
klassenmitte abs_klassen_H rel_klassen_H klassen_H_dichte
[1,]
23
2
0.06667
0.03333
[2,]
25
4
0.13333
0.06667
[3,]
27
9
0.30000
0.15000
[4,]
29
8
0.26667
0.13333
[5,]
31
4
0.13333
0.06667
[6,]
33
2
0.06667
0.03333
[7,]
35
1
0.03333
0.01667
> #
> # Man beachte die Normierungen der diversen Häufigkeiten!
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
13
R-Grafiken:
Grafik 2: Flächennormiertes Histogramm, n=30
0.10
Klassenhäufigkeitsdichte
0.05
6
4
0
0.00
2
abs. Klassenhäufigkeit
8
0.15
Grafik 1: Histogramm mit abs. Klassenhäufigkeiten, n=30
22
24
26
28
30
32
34
36
Blutgerinnungszeiten in s
22
24
26
28
30
32
34
36
Blutgerinnungszeiten in s
>
>
>
>
# Erstellung eines Histogramms mit vorgegebenen Klassengrenzen:
x_min <- min(x); x_max <- max(x); n <- length(x)
IQR <- quantile(x, 0.75)-quantile(x, 0.25); b <- 2*IQR/n^(1/3)
print(cbind(x_min, x_max, n, IQR, b))
x_min x_max n IQR
b
75% 22.7
35 30 3.15 2.028
> klassenbreite <- round(b[[1]],digits=0) # gerund.Klassenbreite
> anz_klassen <- trunc((x_max-x_min)/klassenbreite)+1
> c0 <- trunc(x_min) # linke Grenze der 1. Klasse
> ck <- c0+anz_klassen*klassenbreite # rechte Grenze der obersten Klasse
> print(cbind(anz_klassen, klassenbreite, c0, ck))
anz_klassen klassenbreite c0 ck
[1,]
7
2 22 36
> klassengrenzen <- seq(from=c0, to=ck, by=klassenbreite); klassengrenzen
[1] 22 24 26 28 30 32 34 36
> grafik_3 <- hist(x, breaks=klassengrenzen, freq=TRUE,
+
xlab="Blutgerinnungszeiten in s", ylab="abs. Klassenhäufigkeit",
+
main="Grafik 3: Histogramm mit vorgegebenen Klassen, n=30")
R-Grafik:
6
4
0
2
abs. Klassenhäufigkeit
8
Grafik 3: Histogramm mit vorgegebenen Klassen, n=30
22
24
26
28
30
32
34
36
Blutgerinnungszeiten in s
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
14
3.2 Schätzfunktionen
Lernziel 3.3:
Schätzwerte für den Mittelwert und die Varianz einer normalverteilten
Zufallsvariablen sowie für eine unbekannte Wahrscheinlichkeit
bestimmen können.
Zur Schätzung von Verteilungsparametern werden Schätzfunktionen
verwendet. Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die
Variablen Xi (i = 1, 2, …, n) die Ergebnisse von n Beobachtungen
ausdrücken.
1. Die Schätzung des Mittelwerts µ einer normalverteilten
Zufallsvariablen erfolgt mit Hilfe des Stichprobenmittels:
X =
1
(X1 + X 2 + L + X n )
n
Es gilt:
2
2
• X i ≅ N ( µ , σ ) ⇒ X ≅ N ( µ , σ / n)
• X = Zufallsvariable mit dem Mittelwert µ und der Varianz σ 2 ;
X1, X2, ..., Xn = Zufallsstichprobe von X. Dann ist E[ X ] = µ ,
Var[ X ] = σ 2 / n und für großes n (ab 30) gilt die Approximation
2
(Zentraler Grenzwertsatz): X ≅ N ( µ , σ / n )
2. Die Schätzung einer unbekannten Wahrscheinlichkeit p (Parameter
einer Binomialverteilung) erfolgt mit Hilfe des Stichprobenanteils. Es
sei X eine Zufallsvariable mit den Werten 1 und 0, wobei P(X=1)=p
ist. X1, X2, ..., Xn sei eine Zufallsstichprobe von X. Dann ist der
Stichprobenanteil Y (Anzahl der Realsierungen mit dem Wert 1 geteilt
durch den Stichprobenumfang) gleich dem Stichprobenmittel
Y=X =
1
(X 1 + X 2 + L + X n )
n
Es gilt:
• Der Stichprobenanteil ist Bn,p-verteilt mit dem Mittelwert
E[ X ] = p und der Varianz Var[ X ] = p (1 − p ) / n .
• Für großes n gilt die Approximation (Satz von Moivre-Laplace,
Faustregel für Anwendung der Approximation: np(1-p) > 9):
 p (1 − p ) 
Y ≅ N  p,

n


W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
15
Beispiel 3.8:
Man betrachte ein Bernoulli-Experiment, d.h. ein Experiment mit 2
Ausgängen, die wir mit a bzw. b (z.B. violette Blütenfarbe bzw. weiße
Blütenfarbe) bezeichnen. Die Ergebnismenge des Zufallsexperiments ist
also Ω ={a, b}. Auf dieser Menge definieren wir eine Zufallsvariable X
derart, dass X den Wert 1 annimmt, wenn der Ausgang a eintritt, und
den Wert 0, wenn der Ausgang b eintritt. Die Wahrscheinlichkeit, dass
bei Durchführung des Experiments der Ausgang a eintritt, also die
Wahrscheinlichkeit P(X=1), sei p.
Das Bernoulli-Experiment wird n-mal wiederholt. Jedem dieser
Experimente ordnen wir - wie eben ausgeführt - eine Zufallsvariable zu,
der ersten Wiederholung die Zufallsvariable X1, der zweiten die
Zufallsvariable X2 usw. Die Summe Y = X1 + X2 + ... + Xn dieser
Variablen bedeutet die Anzahl jener Wiederholungen, bei denen der
Ausgang a eintritt. Dividiert man Y durch n, bildet man also den
Mittelwert der von X1, X2, ..., Xn, so erhält man den Anteil der
Wiederholungen mit dem Ausgang a. Dieser Mittelwert (oder Anteil) ist
eine Stichprobenfunktion; deren Mittelwert ist gleich dem Mittelwert jedes
einzelnen Xi (d.h. gleich der Wahrscheinlichkeit p); die Varianz von Y/n
ist gleich p(1-p)/n, d.h. gleich der durch n geteilten Varianz eines jeden
Xi .
Man zeige diese Zusammenhänge an Hand einer Simulation des
9-stufigen Bernoulli-Experimentes rechnerisch und grafisch auf und
zeichne in das (flächennormierte) Histogramm der
Stichprobenmittelwerte die Dichtekurve der entsprechenden
Normalverteilung ein. Die Simulation möge aus 10000 Wiederholungen
des 9-stufigen Bernoulli-Experimentes bestehen.
Lösung mit R:
> # Simulation des 9-stufigen Bernoulli-Experiments
> n_sim <- 10000 # Anzahl der Simulationen
> zaehler <- c(1: n_sim)
> omega <- c(1,0) # Ergebnismenge
> p <- 0.4 # Erfolgswahrscheinlichkeit
> ws <- c(p, 1-p) # Ws. der Elemente 1 und 0 in der Ergebnismenge
> # Schätzung des Mittelwerts und der Standardabweichung aus den
Simulationen
> mittel_9 <- c()
> for (i in zaehler){
+
bernoulli_9 <- sample(omega, 9, replace=TRUE, prob=ws)
+
mittel_aktuell <- mean(bernoulli_9) # Mittelwert
+
mittel_9 <- append(mittel_9, mittel_aktuell)}
> #
> mittelwert_9 <- mean(mittel_9) # Mittelwert aller Erfolgsanteile
> std_9 <- sd(mittel_9) # Standardabweichung aller Erfolgsanteile
> varianz_9 <- std_9*std_9
> print(cbind(mittelwert_9, varianz_9))
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
16
mittelwert_9 varianz_9
[1,]
0.4002444 0.02679472
> #
> # Theoretischer Mittelwert und theoretische Standardabweichung
> mittelwert <- p
> varianz <- p*(1-p)/9
> print(cbind(mittelwert, varianz))
mittelwert
varianz
[1,]
0.4 0.02666667
> #
> # Verteilung des Stichprobenmittels (Anteils) beim 9-stufigen
> # Bernoulli-Experiment
> hist(mittel_9, breaks=10, xlab="Anteil",
ylab="Dichte/flächennormiert",
+
main="9-stufiges Bernoulli-Experiment", freq=FALSE)
> x <- mittel_9
> curve(dnorm(x, mean=p, sd=sqrt(p*(1-p)/9)), add=T)
R-Grafik:
0.0
0.5
1.0
1.5
Dichte/flächennormiert
2.0
2.5
9-stufiges
Bernoulli-Experiment
0.0
0.2
0.4
0.6
0.8
1.0
Anteil
3. Die Schätzung der Varianz σ2 einer normalverteilten Zufallsvariablen
erfolgt mit Hilfe der Stichprobenvarianz:
S2 =
[
1
(X 1 − X )2 + (X 2 − X )2 + L + (X n − X )2
n −1
]
• Es gilt
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
17
( n − 1) S 2
σ
2
≅ χ n2−1
d.h. (n-1)S2/σ2 ist eine chiquadratverteilte Zufallsvariable mit
f = n - 1 Freiheitsgraden.
Beispiel 3.9:
Man zeichne unter Verwendung der R-Funktion dchisq() die
Dichtekurven der Chiquadratverteilungen mit den
Freiheitsgraden 1, 3 und 5.
>
>
+
>
>
>
>
>
# Dichtekurven von ausgewählten Chiquadrat-Verteilungen
curve(dchisq(x, 1), from=0, to=4, ylim=c(0, 0.5), xlab ="X",
ylab="Dichte", col="red", main="Dichtekurven der Chiquadratverteilung")
curve(dchisq(x, 3), add=T, lty=2, col="blue")
curve(dchisq(x, 5), add=T, lty=3, col="black")
text(0.8, 0.4, col="red", expression("f=1"))
text(0.4, 0.15, col="blue", expression("f=3"))
text(1, 0.04, col="black", expression("f=5"))
R-Grafik:
0.4
0.5
Dichtekurven der Chiquadratverteilung
0.2
Dichte
0.3
f=1
0.1
f=3
0.0
f=5
0
1
2
3
4
X
Ein wenig Theorie:
• Eigenschaften „guter“ Schätzfunktionen:
Es sei πˆ n = πˆ n ( X 1 , X 2 , K, X n ) eine Schätz(Stichproben)funktion für den
Verteilungsparameter π. Die Beurteilung der Güte einer
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
18
Schätzfunktion kann mit der erwarteten mittleren quadratischen
Abweichung (dem mittleren quadratischen Fehler)
MSE = E[(πˆ n − π ) 2 ] = Var[πˆ n ] + (E[πˆ n ] − π )
2
erfolgen, die gleich der Summe aus der Varianz der Schätzfunktion
und dem Quadrat der Verzerrung (Bias) ist.
Forderungen an "gute" Schätzfunktionen:
1. Für n
∞ soll der Erwartungswert E[πˆ n ] der Schätzfunktion gegen
den Parameter π streben, d.h. die Schätzwerte sollen mit
wachsender Wahrscheinlichkeit um π konzentriert sein. dies trifft
zu, wenn die Schätzfunktion unverzerrt (erwartungstreu) ist.
∞ gegen Null streben.
2. Varianz soll für n
Anmerkungen:
• Schätzfunktionen, die die Forderung 1 erfüllen, heißen
asymptotisch erwartungstreu. Gilt sogar E[πˆ n ] = π für alle n=1, 2,
…, nennt man die Schätzfunktion erwartungstreu.
Schätzfunktionen, die den Forderungen 1 und 2 genügen, heißen
konsistent (im quadratischen Mittel).
• Das Stichprobenmittel πˆ n = X = ( X 1 + X 2 + K + X n ) / n ist eine
erwartungstreue Schätzfunktion für µ, d.h. E[ X ] = µ ⇒ Bias = 0 .
→ 0 .
Überdies gilt: Var[ X ] = σ 2 / n n
→∞
• Die Stichprobenvarianz πˆ n = S 2 = ∑ ( X i − X ) /(n − 1) ist eine
n
2
i =1
erwartungstreue Schätzfunktion für σ2, d.h. E[ S 2 ] = σ 2 ⇒ Bias = 0 .
Überdies gilt: Var[ S 2 ] = 2σ 4 /( n − 1) n
→ 0 . Dagegen ist S ist keine
→∞
erwartungstreue Schätzfunktion für σ. Es gilt nämlich:
E [S ] = k nσ mit k n =
n
Γ 
2
 2 <1
n − 1  n − 1
Γ

 2 
Γ bezeichnet die Gamma-Funktion mit der Eigenschaft Γ(x+1) = x
Γ(x) für alle x>0. Speziell ist Γ(1)=1 und Γ(1/2)=√π. Z.B. ergibt sich
damit für n=5: k5 = (1/√2 )Γ(5/2)/Γ(2) = (1/√2 )⋅1⋅(3/2)(1/2) √π =
0,94.
• Konstruktion von Schätzfunktionen:
Es seien X eine (diskrete) Zufallsvariable mit der von dem zu
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
19
schätzenden Parameter π abhängigen Wahrscheinlichkeitsfunktion
f(x|π) und x1, x2, ... , xn eine Zufallsstichprobe von X. Wir bilden die so
genannte Likelihood-Funktion:
n
L(π = π~ | x1, x2 ,K, xn ) = ∏ f (xi | π~)
i=1
Die Likelihood-Funktion ist die Wahrscheinlichkeit dafür, dass X die
Realisationen x1, x2,..., xn annimmt, wenn π~ der Schätzwert für π ist.
Maximum Likelihood-Prinzip:
Der Maximum Likelihood - Schätzer (kurz ML-Schätzer) für π ist jenes
π~ , für das die Likelihood - Funktion den größten Wert annimmt, d.h.
die Maximumstelle von L.
Hinweise:
• Bei stetigen Zufallsvariablen tritt an die Stelle der
Wahrscheinlichkeitsfunktion die Wahrscheinlichkeitsdichte.
• Die ML-Schätzung des Mittelwertes ist gleichwertig mit der
sogenannten Kleinsten Quadrat-Schätzung (LS-Schätzung:
"optimaler" Schätzwert ist jener, der die Summe der Quadrate der
Abweichungen der Beobachtungswerte vom Schätzwert minimiert)
Beispiel 3.10:
Es sei X ~ N(µ, σ2). Wir bestimmen den ML-Schätzer für den Mittelwert µ
unter der Annahme, dass σ2 bekannt ist.
ln L ( µ = µ~ | x 1 , x 2 , K , x n )
n
= − ln( 2 π ) −
2
d
ln L = 0 ⇒
d µ~
n
ln σ
2
2
1 n
− ∑ ( x i − µ~ )2 / σ
2 i =1
2
µ~ = x
3.3 Intervallschätzung
Definition:
Wir bezeichnen als zweiseitiges Konfidenzintervall für einen
unbekannten Parameter π einer Verteilung das Intervall [U, O] der
Zahlengeraden, das den Parameter π mit der vorgegebenen hohen
Wahrscheinlichkeit 1-α (zB 95% oder 99%) einschließt,
d.h., P(U ≤ π ≤ O) = 1-α.
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
20
Zusätzlich wird zur Berechnung der Grenzen U und O die
Symmetrieforderung P(U > π) = P(O < π) = α/2 vorgegeben.
Lernziel 3.4:
Ein (1-α)-Konfidenzintervall für die Varianz einer
N(µ, σ2)- verteilten Zufallsvariablen berechnen und interpretieren können.
Es sei X eine N(µ, σ2)-verteilte Zufallsvariable und X1, X2, …, Xn eine
Zufallsstichprobe mit dem Umfang n und der Stichprobenvarianz S2.
Dann sind die Grenzen eines 2-seitigen (1-α)-Konfidenzintervalls für den
Parameter σ2 durch
(n − 1)S 2
(n − 1)S 2
U=
und O =
qU
qO
gegeben; hier stehen im Nenner die Quantile
qU = χn2−1,1−α / 2 und qO = χn2−1,α / 2
Der Chiquadratverteilung mit n-1 Freiheitsgraden.
Beispiel 3.11:
Es sei X normalverteilt mit dem Mittelwert µ und der Varianz σ2.
Von einer Stichprobe sei bekannt: n =30, s2 = 7.93. Man bestimme ein
95%iges Konfidenzintervall (CI) für σ.
Lösung:
χ229,0.975= 45.72; χ229,0.025= 16.05
95%-CI für σ : [2.24, 3.79].
95%-CI für σ2: [5.03, 14.33]
Interpretation:
[5.03, 14.33] ist ein sogenanntes empirisches 95%-CI für σ2, d.h. eine
Realisierung des Konfidenzintervalls [U, O] (mit den zufälligen Grenzen
U und O) durch eine Zufallsstichprobe. Hat man eine große Anzahl von
Zufallsstichproben und berechnet man damit jeweils ein empirisches
95%-CI für σ2, so folgt aus P(U ≤ σ2 ≤ O) = 1-α = 0.95, dass ein hoher
Anteil dieser Intervalle (nämlich 95%) den Parameter σ2 einschließen
wird.
Lösung mit R:
> # R-Funktion mit Übergabeparameter:
> # n (Stichprobenumfang), var (Varianz), alpha (Irrtumsrisiko)
> CI_var <- function(n, var, alpha){
+
u <- (n-1)*var/qchisq(1-alpha/2, n-1)
+
o <- (n-1)*var/qchisq(alpha/2, n-1)
+
grenzen <- cbind(u, o)
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
21
+
return(grenzen)}
> options(digits=4)
> # Funktionsaufruf mit n=30, var=7.93, alpha=5%
> CI_var(30, 7.93, 0.05)
u
o
[1,] 5.03 14.33
> #
> # CI für die Standardabweichung
> CI_sd <- sqrt(CI_var(30, 7.93, 0.05))
> CI_sd
u
o
[1,] 2.243 3.786
Lernziel 3.5:
Ein (1-α)-Konfidenzintervall für den Mittelwert µ einer
N(µ, σ2)- verteilten Zufallsvariablen berechnen und interpretieren sowie
den erforderlichen Mindeststichprobenumfang zur Schätzung des
Mittelwerts mit der vorgegebenen Genauigkeit ±d und der vorgegebenen
Sicherheit 1-α abschätzen können.
Das (1-α)-Konfidenzintervall für den Mittelwert µ ist ein um das
Stichprobenmittel symmetrisches Intervall X − d , X + d mit der halben
[
]
Intervallbreite d = t n −1,a −α / 2 S / n . Die Größe tn-1,1-α/2 ist das (1-α/2)Quantil der t-Verteilung mit n-1 Freiheitsgraden.
Beispiel 3.12:
Man zeichne unter Verwendung der R-Funktion dt() die Dichtekurven der
t-Verteilungen mit den Freiheitsgraden 1und 5 und stelle sie gemeinsam
mit der Standardnormalverteilung in einem Diagramm dar.
Lösung mit R:
# Dichtekurven von ausgewählten t-Verteilungen
curve(dt(x, 1), from=-3, to=3, ylim=c(0, 0.5), xlab ="X",
ylab="Dichte", col="red", main="Dichtekurven der t-Verteilung")
curve(dt(x, 5), add=T, lty=2, col="blue")
curve(dnorm(x), add=T, lty=3,lw=2, col="black")
text(0, 0.42, col="black", expression("N(0,1)"))
text(0, 0.34, col="blue", expression("t(f=5)"))
text(0, 0.27, col="red", expression("t(f=1)"))
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
22
R-Grafik:
0.5
Dichtekurven der t-Verteilung
0.4
N(0,1)
Dichte
0.3
t(f=5)
0.0
0.1
0.2
t(f=1)
-3
-2
-1
0
1
2
3
X
Beispiel 3.13:
Es sei X normalverteilt mit dem Mittelwert µ und der Varianz σ2. Für den
Mittelwert und die Standardabweichung von X wurden mit Hilfe einer
Stichprobe vom Umfang n=20 die Schätzwerte 25 bzw. 5 bestimmt. Man
bestimme zum Niveau 1-α =0.95 ein Konfidenzintervall (CI) für den
Mittelwert von X.
Lösung
t19,0.975= 2.093; s/√n=1.118; d=2.34
95%-CI für µ: 25 ± 2.34.
Lösung mit R:
> # Beachte: ß-Quantil t_(f, ß) = qt(ß, f)
> #
> # Funktion mit Übergabeparameter:
> # mw (Mittelwert, n (Stichprobenumfang, std (Standardabweichung), alpha
(Irrtumsrisiko)
> CI_mittel <- function(mw, n, std, alpha){
+
d <- std/sqrt(n)*qt((1-alpha/2), n-1)
+
ug <- mw-d
+
og <- mw+d
+
grenzen <- cbind(ug, og)
+
return(grenzen)}
> #
> # Funtionsaufruf mit mw=25, n=20, std=5, alpha=5%
> options(digits=4)
> CI_mittel(25, 20, 5, 0.05)
ug
og
[1,] 22.66 27.34
Hinweis:
Für „große“ Stichproben ist
[X − d , X + d ]
mit d = z1−α / 2
S
n
Ein approximatives (1-α)-CI für µ. Hier ist z1-α/2 das (1-α/2 )-Quantil
der N(0,1)-Verteilung).
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
23
Folgerung:
Faustformel für den Mindeststichprobenumfang zur Schätzung eines
Mittelwerts mit der vorgegebenen Genauigkeit ±d und der vorgegebenen
Sicherheit 1-α :
2
σ
z
n ≈  1−α / 2 
d


Beispiel 3.14:
Der Mittelwert µ einer N(µ, σ2)-verteilten Zufallsvariablen soll mit einer
Genauigkeit von ±0.25 und einer Sicherheit von 99% bestimmt werden.
Von einer Voruntersuchung sei bekannt, dass σ ≤ 1.5 ist.
a) Wie groß ist der erforderliche Mindeststichprobenumfang n zu
planen?
b) Man stelle n in Abhängigkeit von d (0.1 ≤ d≤ 0.3) für 1- α=0.95 und
0.99 dar!
Lösung mit R:
> # Aufgabe a)
> # R-Funktion mit Übergabeparameter:
> # genauigkeit (d), sicherheit (1-alpha), sigma
> n_mindest <- function(genauigkeit, sicherheit, sigma){
+
alpha <- 1-sicherheit
+
n <- (qnorm(1-alpha/2)*sigma/genauigkeit)^2
+
return(n)}
> #
> options(digits=4)
> # Funktionsaufruf mit genauigkeit=0.25, sichheit=0.99, sigma=1.5
> n_mindest(0.25, 0.99, 1.5)
[1] 238.9
>
>
>
>
# Aufgabe b)
# Erzeugen der Folge der d-Werte von 0,1 bis 0,3 in Schritten von 0.01
d <- seq(from=0.1, to=0.3, by=0.01)
d
[1] 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23
0.24
[16] 0.25 0.26 0.27 0.28 0.29 0.30
> #
> # Berechnen der den d-Werten entsprechenden Mindeststichprobenumfänge
> n_mindest_95 <- n_mindest(d, 0.95, 1.5)
> n_mindest_95
[1] 864.33 714.32 600.23 511.44 440.98 384.15 337.63 299.08 266.77 239.43
[11] 216.08 195.99 178.58 163.39 150.06 138.29 127.86 118.56 110.25 102.77
[21] 96.04
> n_mindest_99 <- n_mindest(d, 0.99, 1.5)
> n_mindest_99
[1] 1492.9 1233.8 1036.7 883.3 761.7 663.5 583.1 516.6 460.8 413.5
[11] 373.2 338.5 308.4 282.2 259.2 238.9 220.8 204.8 190.4 177.5
[21] 165.9
> #
> # Grafische Darstellung der Abhängigkeit der
> # Mindeststichprobenumfänge von d
> plot(d, n_mindest_95, type="p", col="blue", xlab="Genauigkeit",
+
ylab="n", main="Mindest-n bei Mittelwertschätzung")
> lines(d, n_mindest_95, col="blue", lty=1, lwd=2)
> lines(d, n_mindest_99, col="red", lty=2, lwd=2)
> text(0.15, 200, col="blue", expression("Sicherheit = 95%"))
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
24
> text(0.25, 400, col="red", expression("Sicherheit = 99%"))
R-Grafik:
400
n
600
800
Mindest-n bei Mittelwertschätzung
200
Sicherheit = 99%
Sicherheit = 95%
0.10
0.15
0.20
0.25
0.30
Genauigkeit
Lernziel 3.6:
Ein (1-α)-Konfidenzintervall für den Parameter p (Wahrscheinlichkeit)
einer Zweipunktverteilung berechnen und interpretieren sowie den
erforderlichen Mindeststichprobenumfang zur Schätzung von p mit der
vorgegebenen Genauigkeit ±d und der vorgegebenen Sicherheit 1-α
abschätzen können.
• Ein approximatives (1-α)-Konfidenzintervall für den Parameter p
(Wahrscheinlichkeit) einer Zweipunktverteilung ist das Agresti-CoullIntervall. Es sei X eine zweistufig skalierte Zufallsvariable mit den
Werten 1 und 0, p = P(X =1) bzw. q = 1-p = P(X=0) die
Wahrscheinlichkeiten, mit denen diese Werte angenommen werden.
Ferner seien x1, x2, ..., xn eine Zufallsstichprobe vom Umfang n und m
die Anzahl der Wiederholungen mit xi = 1 und yn = m/n der Anteil der
Wiederholungen mit xi = 1. Dann sind die untere und obere Grenze uA
bzw. oA eines (1-α) - Konfidenzintervalls für p gegeben durch
u A = mW − l A , o A = mW + l A mit
mW =
m + z12−α / 2 / 2
n + z12−α / 2
und l A = z1−α / 2
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
mW (1 − mW )
n + z12−α / 2
10.03.2014
25
Voraussetzung für die Approximation: nyn(1-yn) > 9
• Ein exaktes (1-α)-Konfidenzintervall für den Parameter p ist das
Clopper-Pearson-Intervall mit den Grenzen
uC =
mqu
, qu = F2 m , 2( n − m +1),α / 2
n − m + 1 + mqu
oC =
( m + 1)qo
, qo = F2( m +1), 2( n − m ),1−α / 2
n − m + ( m + 1)qo
Die Größen Ff1, f2, α/2 und Ff1, f2, 1-α/2 sind das α/2- bzw. (1-α/2)-Quantil der
F-Verteilung mit den Freiheitsgraden f1 und f2.
man beachte, dass Ff1, f2, α = 1/ Ff2, f1, 1-α gilt.
Beispiel 3.15:
Man zeichne unter Verwendung der R-Funktion df() die Dichtekurven der
F-Verteilungen mit den Freiheitsgraden 5 und 2 sowie 10 und 40.
Lösung mit R:
# Dichtekurven von ausgewählten F-Verteilungen
curve(df(x, 5, 2), from=0, to=3, ylim=c(0, 1), xlab ="X",
ylab="Dichte", col="red", main="Dichtekurven der F-Verteilung")
curve(df(x, 10, 40), add=T, lty=2, col="blue")
text(1.8, 0.42, col="blue", expression("F(f=10,40)"))
text(1, 0.42, col="red", expression("F(f=5,2)"))
Dichte
0.6
0.8
1.0
Dichtekurven der F-Verteilung
F(f=10,40)
0.0
0.2
0.4
F(f=5,2)
0.0
0.5
1.0
1.5
2.0
2.5
3.0
X
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
26
Beispiel 3.16:
Es soll die Erfolgsrate p einer neuen Behandlungsmethode, also die
Wahrscheinlichkeit, dass bei einer mit der neuen Methode behandelten
Person eine Verbesserung eintritt, geschätzt und ein 95%iges
Konfidenzintervall für p bestimmt werden. In einer Studie mit n=50
Probanden erwies sich die neue Methode bei m=35 Personen
erfolgreich.
Lösung mit R:
Approximatives Konfidenzintervall (Agresti-Coull-Intervall)
> m <- 35 # Anzahl der Personen mit der interessierenden Merkmalsausprägung
> n <- 50 # Stichprobenumfang
> alpha <- 0.05 Irrtumsrisiko
Fehler: Unerwartete(s) Symbol in "alpha <- 0.05 Irrtumsrisiko"
> y <- m/n # Schätzwert für p
> # Voraussetzung:
> n*y*(1-y) # muss größer als 9 sein!
[1] 10.5
> zq <- qnorm(1-alpha/2)
> mW <- (m+zq^2/2)/(n+zq^2) # Intervallmitte
> lA <- zq*sqrt(mW*(1-mW)/(n+zq^2))
> uA <- mW-lA; oA <- mW+lA
> print(cbind(y, mW, lA, uA, oA))
y
mW
lA
uA
oA
[1,] 0.7 0.6857 0.124 0.5617 0.8097
> #
> # Exakte Rechnung (Pearson/Clopper – Intervall)
> CI_pexakt <- function(m, n, alpha){
+
quantil_1 <- qf(alpha/2, 2*m, 2*(n-m+1))
+
pu <- m*quantil_1/(n-m+1+m*quantil_1)
+
quantil_2 <- qf(1-alpha/2, 2*(m+1), 2*(n-m))
+
po <- (m+1)*quantil_2/(n-m+(m+1)*quantil_2)
+
grenzen <- cbind(pu, po)
+
return(grenzen)}
> # Funktionsaufruf mit m=35, n=50, alpha=5%
> CI_pexakt(35, 50, 0.05)
pu
po
[1,] 0.5539 0.8214
> #
> # Hinweis 1: Das exakte Konfidenzintervall kann direkt mit der
> # R-Funktion binom.test bestimmt werden.
> # Aufruf: binom.test(m, n, 1-alpha)
> binom.test(35, 50, conf.level=0.95)
Exact binomial test
data: 35 and 50
number of successes = 35, number of trials = 50, p-value = 0.0066
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5539 0.8214
sample estimates:
probability of success
0.7
>
>
>
>
>
#
# Hinweis 2: Beide CI können mit der R-Funktion binom.confint()
# im Paket "binom" bestimmt werden
library(binom)
binom.confint(m, n, methods=c("agresti-coull", "exact"))
method x n mean lower upper
1 agresti-coull 35 50 0.7 0.5617 0.8097
2
exact 35 50 0.7 0.5539 0.8214
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
27
Hinweis:
Aus dem approximativen Intervall ergibt sich eine grobe Faustformel für
den Mindeststichprobenumfang zur Schätzung einer Wahrscheinlichkeit
mit der vorgegebenen Genauigkeit ±d und der vorgegebenen
Sicherheit 1-α:
z

n ≈  1− α / 2 
 2d 
2
Beispiel 3.17:
Die Keimfähigkeit p von Blumenzwiebeln (d.h. die Wahrschein-lichkeit,
dass ein ausgesetzter Zwiebel keimt) soll in einem Feldversuch mit der
Genauigkeit ±0.1 und der Sicherheit 1-α= 0.95 geschätzt werden.
Welcher Stichprobenumfang ist zu planen?
Lösung mit R:
> # Approximativer Mindeststichprobenumfang für die Schätzung einer
> # Wahrscheinlichkeit zur vorgegebenen Genauigkeit d und Sicherheit S = 1alpha
> # R-Funktion mit Übergabeparameter:
> # d (Genauigkeit=halbe Intervallbreite), S (Sicherheit)
> n_approx <- function(d, S){
+
alpha <- 1-S
+
quantil <- qnorm(1-alpha/2)
+
n <- (quantil/2/d)^2
+
return(n)}
> #
> # Funktionsaufruf mit d=0.1, S=0.95
> n_approx(0.1, 0.95)
[1] 96.04
Ergänzung:
Wie berechnet man ein (1-α)-Konfidenzintervall für den Parameter λ der
Poisson-Verteilung?
Es seien X eine Poisson-verteilte Zufallsvariable mit dem Parameter λ,
d.h. X ∼ Pλ und x = 0, 1, 2,… die Realisierungen von X.
Dann gilt:
Ein 2-seitiges (1-α)-Konfidenzintervall λu ≤ λ ≤ λo für λ ist ein
Intervall mit der Eigenschaft P(λu ≤ λ ≤ λo) = 1-α; die
Intervallgrenzen sind:
1
2
1
2
λu = χ 22x ,α / 2 und λo = χ 22x+2,1−α / 2
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
28
1-seitige (1-α)-Konfidenzintervalle für λ sind Intervalle der Form
λ ≤ λo bzw. λ ≥ λu mit der Eigenschaft P(λ ≤ λo) =
P(λ ≥ λu) = 1-α; λo und λu heißen obere bzw. untere
Vertrauensschranke für λ zur Sicherheit 1-α und sind zu berechnen
aus:
1
2
1
2
λo = χ 22x+ 2,1−α bzw. λu = χ 22x ,α
Beispiel 3.18:
Nach der ISO-Norm 13408-1 soll in einer Anlage zur aseptischen
Abfüllung bei der Prozessüberprüfung mit nicht weniger als 3000
Einheiten der Ausschussanteil von 0.1% nicht überschritten werden
(Media fill-Forderung).
Bei einem Prüflauf mit 3000 Einheiten wurde eine kontaminierte Einheit
festgestellt. Ist die Media fill-Forderung erfüllt, wenn bei der Schätzung
der Ausschussquote der ungünstigste Wert (d.h. die zu einer
vorgegebenen Sicherheit von 95% berechnete obere
Vertrauensschranke) angenommen wird?
Lösung:
Es sei X die Anzahl der Einheiten, die von den insgesamt n=3000
abgefüllten Einheiten kontaminiert sind.
Approximativ gilt: X ∼ Pλ mit λ = np (p ist der Ausschussanteil, d.h. die
Kontaminierungsrate).
Von X liegt die Realisierung x=1 vor.
Zu berechnen ist die 95%ige obere Vertrauensschranke λo für λ.
Mit 2x+2 = 4 und 1-α = 0.95 ist χ22x+2,1-α = χ24, 0.95 = 9.488
λo = χ24, 0.95/2 = 4.744.
Division durch n ergibt den Schätzwert p̂ = λo/n = 0.158% > 0.1%.
Die Media Fill-Forderung ist daher nicht erfüllt.
3.5 Übungsbeispiele
1. Die nachfolgende Tabelle enthält die Gesamtzahl der bis zum Aussterben
abgelegten Puparien für 40 (mit jeweils 15 geschlüpften Weibchen gebildete)
Kohorten von Tsetsefliegen (Glossina p. palpalis). Man stelle die Verteilung der
Merkmalswerte durch eine Häufigkeitstabelle und ein Histogramm dar. Ferner
bestimme man das arithmetische Mittel und die Standardabweichung sowie den
Median und die Quartile. (Mittelwert/Standardabw./Median/Quartile: 60.38, 9.87,
60, 53, 68)
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
29
55
79
55
61
55
55
40
72
69
54
51
48
53
61
44
62
50
71
72
51
63
86
52
57
73
74
62
66
62
55
63
72
52
53
65
59
53
69
67
54
2. Nach einer Kfz-Unfallstatistik ist die Anzahl X der Unfälle pro Versicherten
innerhalb von 20 Jahren wie folgt verteilt:
X
rel.Häufigk.%
0
1
2
3
10 20 15 10
4
8
5
7
6
6
7
5
8
4
9
3
10 11-20
2
je 1
Welcher Prozentsatz der Fahrer hat eine über dem arithmetischen Mittelwert
(über dem Median) von X liegende Unfallzahl?
3. Man vergleiche die durch die folgenden Stichproben gegebene Variation von X
(Spaltöffnungslänge in µm) bei diploiden und tetraploiden Biscutella laevigata mit
Hilfe der entsprechenden Box-Plots. (Median/Quartile 25, 23, 26; 30, 28, 32)
diploid
27, 25, 23, 27, 23, 25, 25, 22, 25, 23, 26, 23, 24,
26, 26
28, 30, 32, 29, 28, 33, 32, 28, 30, 31, 31, 34, 27,
29, 30
tetraploid
4. Die Messung der Ozonkonzentration während der Sommermonate ergab für eine
Großstadt die in der folgenden Tabelle enthaltenen Werte (Angaben in 10-2 ppm).
Man stelle die Verteilung der Ozonkonzentration dar (tabellarisch, grafisch) und
berechne den Mittelwert, die Standardabweichung, den Median und die Quartile.
(5.21, 1.85, 5.4, 4.1, 6.5)
3.6
1.5
6.6
6.0
4.2
6.7
2.5
5.4
4.5
5.4
2.5
3.0
5.6
4.7
6.5
6.7
1.7
5.3
4.6
7.4
5.4
4.1
5.1
5.6
5.4
6.1
7.6
6.2
6.0
5.5
5.8
8.2
3.1
5.8
2.6
9.5
3.4
8.8
7.3
1.3
6.9
3.2
4.7
3.8
5.9
6.6
4.4
5.7
4.5
7.7
5. Man nehme eine geeignete Klassenbildung vor und stelle die Verteilung von X
(größte Grundblattlänge von Biscutella laevigata in mm) tabellarisch und
graphisch dar. Zusätzlich bestimme man das arithmetische Mittel, den Median
und die Varianz aus den klassierten Daten und vergleiche die erhaltenen
Ergebnisse mit den direkt aus der Beobachtungsreihe berechneten
Kenngrößenwerten. (exakte Werte: 69.13, 28.86, 65)
50
48
75
90
65
50
64
91
32 77 65 85 36 63
26 84 62 137 36 70
48 125 95 51 78 39
52 80 72 67 24 58
97 140
48 63
66 138
70 48
6. Die Sprosshöhe X einer Pflanze sei N(µ, σ2)-verteilt. a) Aus einer Stichprobe vom
Umfang n=25 ergibt sich die Stichprobenvarianz s2=7714. Man gebe ein
Konfidenzintervall zum Niveau 1-α=0.95 für σ an. b) Für den Mittelwert und die
Standardabweichung von X wurden mit Hilfe einer Stichprobe vom Umfang n=40
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
30
die Schätzwerte 296 und 105 für den Mittelwert bzw. die Standardabweichung
bestimmt. Man bestimme zum Niveau 1-α=0.95 ein Konfidenzintervall für den
Mittelwert von X. ([68.6, 122.2]; [262.4, 329.6])
7. Im folgenden wird X als N(µ, σ2)-verteilt vorausgesetzt. Welcher
Stichprobenumfang ist jeweils zu planen?
a) Der mittlere Glykoalkaloidgehalt X (in mg/100 mg Frischgewicht) einer
Kartoffelsorte soll mit einer Genauigkeit von ± 0.4 bei einer Sicherheit von 99%
bestimmt werden. Von einer Voruntersuchung sei bekannt, dass σ ≤ 2 ist.
b) Das Normgewicht von 10-jährigen Knaben soll auf ± 0.5 kg genau mit einer
Sicherheit von 95% bestimmt werden. Für die Standardabweichung möge die
Abschätzung σ ≤ 2.5 kg zutreffen. (167; 96)
8. Für den Mittelwert und die Varianz von einer als normalverteilt angenommenen
Variablen X wurden mit Hilfe einer Stichprobe vom Umfang n=15 die Werte 40
bzw. 10 bestimmt. Man bestimme ein 95%- Konfidenzintervall für den Mittelwert
von X. Um wie viel % größer ist die Intervalllänge eines 99%igen
Konfidenzintervalls? ([38.25, 41.75]; [37.57, 42.43]; 38.8%)
9. Die Masse X (in mg) einer Substanz in einem Präparat soll absolut auf +/-0,5
genau mit einer Sicherheit von 95% bestimmt werden. Für die
Standardabweichung möge die Abschätzung s≤2 zutreffen. Wie viele Proben
müssen untersucht werden, wenn X als normalverteilt vorausgesetzt werden
kann? (62)
10. Von einer Messstelle wurden die folgenden Werte der Variablen X (SO2Konzentration der Luft in mg/m3) gemeldet: 29, 110, 47, 35, 65, 69, 9, 10. a) Man
bestimme ein 95%-Konfidenzintervall für den Mittelwert und die
Standardabweichung von X. b) Welcher Mindest-Stichprobenumfang müsste
geplant werden, um bei gleicher Sicherheit die Mittelwertschätzung mit einer
Genauigkeit von +/-5 durchführen zu können? (a) [18.39, 75.11]; [22.43, 69.05],
b) 177)
11. In einer Studie wurden 33 Personen mit einem Präparat behandelt. Der
Behandlungserfolg wurde auf einer 2-stufigen Skala mit den Skalenwerten
"Verbesserung" und "keine Verbesserung" dargestellt. Es ergab sich bei 13
Personen eine Verbesserung. Man bestimme ein 95%iges Konfidenzintervall für
die Wahrscheinlichkeit p einer Verbesserung. Welcher Stichprobenumfang
müsste geplant werden, um die Wahrscheinlichkeit p mit einer Genauigkeit von
+/- 0,1 und einer Sicherheit von 95% schätzen zu können? ([0.227, 0.561]; 97)
12. In einem Supermarkt wurden 100 Milchpackungen überprüft und dabei
festgestellt, dass in 15 Fällen die Milch im Begriffe war, sauer zu werden. Man
bestimme ein Konfidenzintervall zum Niveau 1-α=95% für den Anteil der sauren
Milchpackungen. ([0.08, 0.22])
13. Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer
Risikogruppe mit einer Sicherheit von 95% und einer vorgegebenen Genauigkeit
von ± 0.05 bestimmt werden. Wie viele Probanden benötigt man für die Studie?
(385)
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
31
14. Von einer Pflanze erhielt Mendel insgesamt 62 Samen, von denen 44 gelb und 18
grün gefärbt waren. Man bestimme ein 95%iges Konfidenzintervall für die
Wahrscheinlichkeit p dafür, dass ein gelber Same gebildet wird. Welcher
Stichprobenumfang müsste geplant werden, um die Wahrscheinlichkeit p mit
einer Genauigkeit von +/- 0,05 und einer Sicherheit von 90% schätzen zu
können? ([0.597, 0.823]; 271)
15. An sieben Patienten wurde der systolische Blutdruck im Sitzen (in mm Hg) vor
einer Behandlung (Variable Xv) und nachher (Variable Xn) gemessen; es ergaben
sich die in der folgenden Tabelle angeführten Werte. Man bestimme den
Mittelwert und die Varianz des durch die Differenz Xn - Xv ausgedrückten
Behandlungseffektes. Wie hängen diese Statistiken mit den Mittelwerten bzw.
Varianzen von Xv und Xn zusammen? (-21, 190)
Xv
Xn
175
140
155
143
195
157
173
170
154
133
180
150
178
170
16. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurden 151
Patienten mit Heparin therapiert, von denen 19 innerhalb von 28 Tagen
verstarben. a) Man schätze die Wahrscheinlichkeit p, dass ein Patient innerhalb
von 28 Tagen nach Herzinfarkt stirbt, und bestimme für p ein 95%Konfidenzintervall. b) Welcher Mindeststichprobenumfang ist notwendig, um bei
gleicher Sicherheit ein halb so großes Konfidenzintervall fü p zu erhalten?
(a) approx. 0.0729, 0.1787; exakt: 0.0775, 0.1895; b) 1373)
17. Von einem metrischen Merkmal X liegt eine (fiktive) Zufallsstichprobe aus 100
Messwerten vor.
3.995 6.622 9.445 6.795 7.075 6.987 6.253 4.709 2.328 4.959
6.246 8.375 6.160 6.307 5.739 3.618 4.118 6.620 5.255 4.413
5.077 7.636 7.939 5.851 5.639 6.099 5.904 6.043 4.869 2.697
3.128 7.219 6.618 6.038 5.131 6.513 3.217 8.669 6.467 5.052
6.897 3.698 3.868 4.547 3.350 8.394 5.527 2.390 3.652 5.520
5.673 5.424 5.820 8.657 4.616 5.848 4.487 3.974 4.176 5.165
5.913 2.393 5.148 3.026 5.987 7.863 6.320 6.371 3.964 7.747
6.672 5.951 7.912 7.283 5.484 3.163 3.916 4.823 3.328 6.217
3.782 7.161 3.904 3.109 5.698 3.317 5.372 6.893 6.325 3.930
5.956 5.886 7.755 6.191 5.734 6.632 6.819 8.910 6.839 4.633
a) Man lege eine geeignet Klasseneinteilung fest und stelle die Verteilung von
X mit einer Häufigkeitstabelle dar, die die Klassengrenzen, die
Klassenmitten, die absoluten und relativen Klassenhäufigkeiten sowie die
Klassenhäufigkeitsdichten enthält.
b) Man veranschauliche die Häufigkeitsverteilung mit einem
flächennormierten Histogramm und zeichne in die Grafik zusätzlich die an
die Daten angepasste Normalverteilungsdichte ein.
c) Man stelle die Variation von X mit Hilfe eines Boxplots dar. Welcher
Prozentsatz der Messwerte liegt innerhalb des 2-fachen
Interquartilabstandes um den Median? Man bestimme den Prozentsatz
empirisch (d.h. aus den Messdaten). Welcher Prozentsatz ergibt mit Hilfe
der angepassten Normalverteilung?
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
32
18. Rutherford und Geiger studierten die Emission von α-Teilchen, indem sie die
Anzahl X der in Zeitintervallen der Länge 7,5s emittierten α-Teilchen zählten. Die
Auswertung von 2608 Zeitintervallen ergab die in der folgenden Tabelle
zusammengefassten Häufigkeiten H. Unter der Annahme, dass X Poisson-verteilt
ist, schätze man den Verteilungsparameter λ und bestimme die erwarteten
Häufigkeiten E. (λ = 3.867, E-Werte: siehe Tabelle)
X
0
1
2
3
4
5
6
7
8
9
10
>10
H
57
203
383
525
532
408
273
139
45
27
16
0
E
54.54
210.94
407.89
525.81
508.37
393.21
253.44
140.02
67.69
29.09
11.25
5.75
19. In einem Simulationsexperiment zum Mendelschen Kreuzungsversuch von
mischerbigen violett-blühenden Erbsen (F1-Generation) wurden 20 Samen
entnommen und die Anzahl X der violett-blühenden F2-Pflanzen gezählt. Bei
80 Wiederholungen des Experimentes ergaben sich folgende Werte für X:
18 19 17 15 12 16 15 15 14 16 14 15 18 14 17 17 15 12 18 18
16 14 16 15 15 14 11 17 14 16 16 15 16 14 17 17 17 15 17 13
17 14 14 16 14 16 14 13 14 13 17 18 15 15 18 15 16 11 13 15
14 13 15 17 17 15 13 11 15 17 15 16 19 13 18 17 13 17 18 16
a) Man beschreibe die Verteilung von X tabellarisch und grafisch.
b) Nach der Mendelschen Spaltungsregel ist X binomialverteilt mit den
Parametern n=20 und p=0.75. Man ergänze die Verteilungsgrafik durch die
theoretische Verteilung von X.
c) Man bestimme aus den Daten den Mittelwert und die Varianz von X und
vergleiche diese Kennwerte der Häufigkeitsverteilung mit den entsprechenden
Kennwerten der theoretischen Verteilung.
3.5 Repetitorium: Begriffe und Methoden
1. Wann ist zur tabellarischen oder grafischen Darstellung der Häufigkeitsverteilung
eines Merkmals X jedenfalls eine Klassenbildung vorzunehmen? Geben Sie an,
unter welchen Bedingungen Sie die Häufigkeitsverteilung mit den relativen
Klassenhäufigkeiten beschreiben! Wann würde Sie die relativen
Klassenhäufigkeitsdichten verwenden?
Antwort:
Bei einem quantitativen, diskreten Merkmal ist eine Klassenbildung vorzunehmen,
wenn es viele verschiedene Merkmalswerte gibt. Bei einem stetigen Merkmal ist
jedenfalls eine Klassenbildung vorzunehmen. In beiden Fällen erhält man nur
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
33
dann Aufschluss über die Verteilung des Merkmals, wenn der Stichprobenumfang
nicht zu klein ist (Richtwert: n>15). Eine Darstellung mit relativen
Klassenhäufigkeiten erlaubt den Vergleich von Verteilungen bei unterschiedlichen
Stichprobenumfängen; die Summe der relativen Klassenhäufigkeiten ist stets 1
(bzw. 100%). Die relative Klassenhäufigkeitsdichte ist so normiert, dass ihre mit
der Klassenbreite multiplizierte Summe gleich 1 ergibt. Ein mit der relativen
Klassenhäufigkeitsdichte erstelltes Histogramm kann wegen dieser Normierung
direkt mit der Wahrscheinlichkeitsdichte eines theoretischen Verteilungsmodells
(z.B. Normalverteilung) verglichen werden. Der Vergleich erlaubt eine
Einschätzung, ob die Merkmalsvariation durch ein bestimmtes Verteilungsmodell
erfasst werden kann.
2. Unter welcher Bedingung würden Sie zur Beschreibung der Häufigkeitsverteilung
eines Merkmals als Lage- und Streuungsmaß den arithmetischen Mittelwert bzw.
die Standardabweichung empfehlen? Welche Alternative dazu gibt es, die
zentrale Lage und die „Breite“ der Verteilung zu kennzeichnen?
Antwort:
Der arithmetische Mittelwert und die Standardabweichung eignen sich als gute
Kennwerte zur Beschreibung der zentralen Lage und der Streuung von
Merkmalswerten, wenn das Merkmal stetig oder quantitativ-diskret vom Typ eines
Zählmerkmals ist und die Häufigkeitsverteilung keine zu „stark“ Asymmetrie
erkennen lässt. Bei starker Asymmetrie verwendet man besser den Median, der
in diesem Fall besser den „mittleren“ Wert einer Messreihe wiedergibt; das
entsprechende Streuungsmaß ist der Interquartilabstand, also die Differenz aus
dem oberen Quartil (75%-Quantil) und dem unteren Quartil (25%). Die
Asymmetrie einer Häufigkeitsverteilung wird numerische durch die sogenannte
Schiefe ausgedrückt; diese besitzt den Wert null für eine symmetrische
Verteilung, ist positiv für eine „linkssteile“ Verteilung und negativ für eine
„rechtssteile“ Verteilung. Für eine linkssteile Verteilung ist der Median kleiner als
der Mittelwert, für eine rechtsteile Verteilung größer; für eine symmetrische
Verteilung fallen der Median und der Mittelwert zusammen.
3. Was versteht man unter Zentrieren einer Messreihe, was unter Standardisieren?
Antwort:
Unter einer Messreihe versteht man eine Stichprobe, die durch wiederholtes
Messen eines metrischen Merkmals X gewonnen wurde. Die Stichprobe heißt
„zentriert“, wenn der arithmetische Mittelwert der Stichprobenwerte gleich null ist.
Dies erreicht man so, dass von jedem Einzelwert der arithmetische Mittelwert
subtrahiert wird. Werden die so gebildeten Abweichungen vom Mittelwert
überdies noch durch die Standardabweichung der Messreihe dividiert, erhält man
die standardisierten Werte der Messreihe. Eine standardisierte Messreihe hat den
Mittelwert 0 und die Standardabweichung 1. Messreihen werden standardisiert,
um sie – durch Normierung der zentralen Lage und der Streuung – in anderen
Verteilungseigenschaften (z.B. der Asymmetrie) vergleichbar zu machen.
4. Mit welcher Stichprobenfunktion wird der Mittelwert einer N(µ, σ2)-verteilten
Zufallsvariablen X geschätzt? Warum sind Stichprobenmittelwerte „gute“
Schätzwerte?
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
34
Antwort:
Zur Schätzung des Verteilungsparameters µ benötigt man eine Zufallsstichprobe
von X, die man durch wiederholtes Messen der Größe X erhält. Wenn wir
insgesamt n-mal messen, können die Ergebnisse der Messvorgänge von X durch
die Zufallsvariablen Xi (i=1,2,...,n) ausgedrückt werden. In diesem Sinne ist z.B.
X1 das Ergebnis des Zufallsexperimentes „1. Messung von X“ usw. Wenn die
Messvorgänge knapp hintereinander erfolgen, kann man annehmen, dass sich
die Verteilung von X nicht verändert hat, d.h. alle Zufallsvariablen sind - wie X –
als normalverteilt mit den Parametern µ und σ2 anzunehmen. Der (arithmetische)
Mittelwert X = (X1 + X2 + ... + Xn)/n der Zufallsvariablen X1, X2, ..., Xn ist eine
sogenannte Stichprobenfunktion, die als Stichprobenmittel bezeichnet wird; durch
die Bezeichnung „Stichprobenfunktion“ wird die Abhängigkeit von den
Messergebnissen zum Ausdruck gebracht. Das Stichprobenmittel ist eine „gute“
Schätzfunktion für µ; von einer guten Schätzfunktion für einen
Verteilungsparameter erwartet man, dass die Werte der Schätzfunktion mit hoher
Wahrscheinlichkeit eng um den zu schätzenden Parameter verteilt sind.
Tatsächlich trifft dies auf das Stichprobenmittel in so ferne zu, als man zeigen
kann, dass X normalverteilt ist mit dem Mittelwert µ und der
Standardabweichung σ/√n, die mit wachsendem n gegen Null strebt. Die
Standardabweichung von X heißt Standardfehler von X. Setzt man die konkret
gemessenen Werte x1, x2, ..., xn für X1, X2, ... , Xn in das Stichprobenmittel ein,
ergibt sich ein Schätzwert x für µ.
5. Mit welcher Stichprobenfunktion wird die Varianz einer N(µ, σ2)-verteilten
Zufallsvariablen X geschätzt?
Antwort:
Wie bei der Mittelwertschätzung bezeichnen die Zufallsvariablen X1, X2, ..., Xn die
Ergebnisse der n Messungen von X. Bildet man damit die Zufallsvariable
[
]
S 2 = ( X 1 − X ) + ( X 2 − X ) + ... + ( X n − X ) /(n − 1) erhält man die als
2
2
2
Stichprobenvarianz bezeichnete Schätzfunktion für die Varianz σ2 der
normalverteilten Zufallsvariablen X. Die Wurzel aus der Stichprobenvarianz ist die
Stichprobenstandardabweichung S. Man kann zeigen, dass der Mittelwert von S2
mit dem zu schätzenden Verteilungsparameter σ2 zusammenfällt und die Varianz
von S2 mit wachsendem n gegen null strebt. Durch Einsetzen der konkret
gemessenen Werte x1, x2, ..., xn für X1, X2, ... , Xn in die Stichprobenvarianz, erhält
man die empirische Varianz s2, die ein Schätzwert für σ2 ist.
6. Wie berechnet man ein 95%iges Konfidenzintervall für den Mittelwert einer
N(µ,σ2)-verteilten Zufallsvariablen? Wie ist das Intervall zu interpretieren?
Antwort:
Das (1-α)-Konfidenzintervall für den Mittelwert µ einer normalverteilten
Zufallsvariablen ist ein symmetrisches Intervall um das Stichprobenmittel X . (Im
Falle 1-α=95% spricht man von einem 95%igem Konfidenzintervall.) Die Breite 2d
des Intervalls ist ein Maß für die Genauigkeit der Schätzung; man erwartet, dass
das Intervall mit wachsendem Stichprobenumfang kleiner wird; die halbe Breite d
des Intervalls ist gleich dem Produkt des Standardfehlers SE = S / n und dem
(1-α/2)-Quantil tn-1, 1-α/2 der t-Verteilung mit n-1 Freiheitsgraden; man beachte
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
35
beim Standardfehler SE, dass die Standardabweichung σ durch die Stichprobenstandardabweichung ersetzt wurde, die eine Zufallsvariable darstellt. Die untere
Grenze des (1-α)-Konfidenzintervalls für µ ist UG= X - d, die obere Grenze
OG= X + d. Die Grenzen UG und OG sind Stichprobenfunktionen (also
Zufallsvariablen) mit der Eigenschaft, dass sie mit der Wahrscheinlichkeit 1-α den
Mittelwert µ einschließen. Für eine konkrete Zufallsstichprobe sind die Grenzen
feste Zahlenwerte; die Wahrscheinlichkeit, mit diesen Zahlenwerten ein Intervall
zu haben, das den Mittelwert µ einschließt, beträgt gerade 1-α.
7. Wodurch erreicht man bei einem Konfidenzintervall für den Mittelwert µ einer
N(µ,σ2)-verteilten Zufallsvariablen eine höhere Genauigkeit (d.h. eine kleinere
Intervallbreite)?
Antwort:
Die halbe Intervallbreite ist verkehrt proportional zu n , d.h. mit wachsendem
Umfang der Zufallsstichprobe wird die Genauigkeit größer. Bei größerem n (etwa
ab n=20) kann mit für die Praxis ausreichender Näherung das Quantil tn-1, 1-α/2
durch das entsprechende (1-α/2)- Quantil z1-α/2 der Standardnormalverteilung
(
)
ersetzt werden, so dass d = s / n z1−α / 2 gilt. Durch Auflösen nach n erhält man
die Formel n = (sz1−α / 2 / d ) , mit der man näherungsweise den erforderlichen
Mindeststichprobenumfang zur Erreichung einer vorgegebenen Genauigkeit d
und einer vorgegebnen Sicherheit 1-α bestimmen kann. Im Besonderen erkennt
man nun, dass eine kleines d (hohe Genauigkeit) ein großes n impliziert; in die
gleiche Richtung wirkt eine große Sicherheit (kleines α).
2
8. Wie bestimmt man einen Näherungswert für den Mindestumfang n einer
Stichprobe, mit der eine Wahrscheinlichkeit p so geschätzt werden soll, dass eine
vorgegebene Sicherheit 1-α und vorgegebene Genauigkeit d (halbe Breites des
(1-α)-Konfidenzintervalls) eingehalten wird?
Antwort:
Die halbe Intervallbreite d des (1-α)-Konfidenzintervalls für p ist durch
d = z1−α / 2 SEh = z1−α / 2 h(1 − h) / n gegeben. Auflösen nach n ergibt wegen
h(1-h)≤ ½ (0 ≤ h ≤ 1) die Abschätzung n =
z2
1− α / 2
d
2
h(1 − h) ≤
z2
1 −α / 2
4d 2
für den
Mindeststichprobenumfang.
W. Timischl: Statistik, Parameterschaetzung_14_Text.doc
10.03.2014
Herunterladen