Teil 3: Schließende Statistik

Werbung
Teil 3: Schließende Statistik
Grundfragen der schließenden Statistik
1. Welcher Parameter passt am besten zu den
Beobachtungen?
2. Welche Parameterwerte sind mit den Beobachtungen vereinbar?
3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar?
Die statistischen Methoden, die auf diese drei
Fragen eine Antwort geben, heißen
(1) Punktschätzungen (Kap. 9)
(2) Intervallschätzungen (Kap. 9)
(3) Tests (ab Kap. 10)
StatBio
218
9 Schätzung von Parametern
9.1 Punkt– und Intervallschätzungen
9.2 Konfidenzintervall für einen Mittelwert
9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte
9.4 Die Bedeutung des Stichprobenumfangs
9.5 Konfidenzintervall für einen Anteilswert
9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte
Die folgenden Aussagen setzen wieder eine einfache Stichprobe x1, . . . , xn voraus (,,Ziehen
mit Zurücklegen” aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen
werden, die durch ,, Ziehung ohne Zurücklegen”
gewonnen wurden. Für den Auswahlsatz muss
dann nur gelten: n/N ≤ 0.05.
StatBio
219
9.1 Punkt– und Intervallschätzungen
Von einer Punktschätzung spricht man, wenn
man sich auf die Bestimmung eines Zahlenwertes
als Schätzwert für einen Parameter beschränkt.
Einer (einfachen) Stichprobe x1, . . . , xn wird ein
Zahlenwert zugeordnet. Dieser Zahlenwert heißt
eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische
Maßzahlen.
Beispiele:
(i) Schätzung µ̂ für den Populations–Mittelwert
µ: der empirische Mittelwert
µ̂ = x̄ =
StatBio
n
X
1
n i=1
xi
220
(ii) Schätzung σ̂ 2 für die Populations–Varianz σ 2:
die empirische Varianz
n
X
1
σ̂ = s =
(xi − x̄)2
n − 1 i=1
2
2
Es gibt verschiedene
Punktschätzer.
Gütekriterien
für
Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung: ,,Im Mittel”
schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte
Schätzungen.
Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden.
Punktschätzungen haben einen entscheidenden
Nachteil: Sie machen keine Aussagen über den
StatBio
221
Schätzfehler. Wie ,,weit” ist das empirische
Stichprobenmittel x̄ von µ entfernt,
x̄ − µ =?
Beachte: x̄ ist ausgesprochen selten gleich µ.
Intuitiv ist klar, dass eine Punktschätzung um so
genauer sein wird, je größer der Stichprobenumfang ist.
Aus theoretischen Überlegungen ist bekannt
(Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung
s
ESEM = √
n
zu erwarten ist. Plausible Schätzwerte für µ sind
demnach alle Werte des Intervalls
s
s
x̄ − √ , x̄ + √
n
n
StatBio
222
also alle Werte zwischen der
√
unteren Grenze = x̄ − s/ n
und der
√
oberen Grenze = x̄ + s/ n
Einer Stichprobe wird somit ein ganzes Intervall
von Parameterwerten zugeordnet, die alle ,,plausibel” (d.h. ,,mit den Daten verträglich”) sind.
Man spricht von einer Intervallschätzung.
Frage: Wie gut ist die ,,Intervallschätzung”?
Präziser gefragt: Mit welcher Zuverlässigkeit
liegt µ in einem solchen Intervall?
Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der
daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die
Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden
StatBio
223
Stichprobe) den Parameter µ enthält, vgl. die
Ausführungen nach Tabelle 6.5.
Der Anteil der Intervalle, die µ enthalten, für die
also
s
s
x̄ − √ < µ < x̄ + √
n
n
gilt, ist gleich dem Anteil der studentisierten
Stichprobenmittel, die zwischen −1 und 1 liegen:
x̄ − µ
−1 < √ < 1
s/ n
Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N (0, 1)–verteiltes Merkmal Z Werte zwischen −1 und 1 annehmen
wird
−1 < Z < 1
StatBio
224
Denn: Für hinreichend große Stichprobenumfänge (n ≥ 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das
studentisierte Stichprobenmittel annähernd verteilt wie Z.
Die Wahrscheinlichkeit beträgt
P (−1 < Z < 1) = Φ(1) − Φ(−1)
= 2 · Φ(1) − 1
= 2 · 0.8413 − 1
= 0.6826
Abbildung 9–1 Fläche unter ϕ im Bereich [−1, 1]
StatBio
225
Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten
etwa 68% der daraus berechneten Intervalle den
wahren Parameter µ.
In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe)
s
s
x̄ − √ , x̄ + √
n
n
den Parameter µ mit einer Vertrauens–
Wahrscheinlichkeit von etwa 68%.
StatBio
226
In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und
das Intervall muss passend gewählt werden.
Dies führt zum Vertrauensintervall (confidence
interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen
Konfidenzniveau.
9.2 Konfidenzintervall für einen Mittelwert
Um eine Vorstellung von der Genauigkeit einer
Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein
Intervall, dessen untere und obere Grenze von der
Stichprobe abhängen. Dieses zufallsabhängige
Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig
mit 0.9, 0.95 oder 0.99.
StatBio
227
Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des
Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto
breiter muss das Konfidenzintervall gewählt werden.
Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen,
muss man den Bereich
s
x̄ ± √
n
vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten
√
Standardfehlers s/ n betrachtet:
s
x̄ ± z · √
n
StatBio
228
Frage: Wie ist der z–Wert – in Abhängigkeit
von der Vertrauenswahrscheinlichkeit 0.95 – zu
wählen?
Aufgrund der Vorüberlegungen in Abschnitt 9.1
ist klar: Der z–Wert muss größer als 1 sein (die
Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%).
Nun: µ liegt im Intervall
s
s
x̄ − z · √ , x̄ + z · √
n
n
wenn
s
s
x̄ − z · √ < µ < x̄ + z · √
n
n
gilt und dies ist gleichbedeutend mit
x̄ − µ
−z < √ < z
s/ n
StatBio
229
Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −z und z liegen, für
die also
x̄ − µ
−z < √ < z
s/ n
gilt. Der Anteil, der aufgrund des zentralen
Grenzwertsatzes erwartet wird, entspricht der
Wahrscheinlichkeit des Ereignisses
−z < Z < z
und diese ist
P (−z < Z < z) = Φ(z) − Φ(−z)
= 2 · Φ(z) − 1
Somit bestimmt sich z als Lösung der Gleichung
2 · Φ(z) − 1 = 0.95
StatBio
230
also
1.95
Φ(z) =
= 0.975
2
Der z–Wert, der diese Gleichung löst, wird als
0.975–Quantil der Standardnormalverteilung
bezeichnet, kurz z0.975 (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 6, Blatt 5).
Das 0.975–Quantil z0.975 ist die eindeutig bestimmte Zahl mit der Eigenschaft
Φ(z0.975) = 0.975
Aus Tab. 7–2 entnimmt man die Lösung
z0.975 = 1.96
d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z0.975 = 1.96 (vgl. Abb. 7–6).
StatBio
231
Somit lauten die Grenzen
Konfidenzintervalls für µ
eines
0.95–
s
x̄ ± 1.96 · √
n
Häufigkeitsinterpretation: Wenn sehr viele
Stichproben (gleichen Umfangs) aus derselben
Grundgesamtheit mit Populationsmittelwert µ
gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren
Parameter µ. Nur etwa 5% aller Stichproben
liefern Intervalle, die den Parameter µ nicht enthalten.
In diesem Sinne enthält ein konkret vorliegendes
Intervall (basierend auf einer einzigen, konkret
vorliegenden Stichprobe)
StatBio
s
s
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
232
den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%.
Konfidenzintervalle für µ zu den (Vertrauens-)
Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält
man mit den Quantilen
z0.950 = 1.645
z0.975 = 1.960
z0.995 = 2.576
Diese Quantile sind die eindeutigen Lösungen
der Gleichungen (in z)
1.90
2 · Φ(z) − 1 = 0.90, also Φ(z) =
= 0.950
2
1.95
2 · Φ(z) − 1 = 0.95, also Φ(z) =
= 0.975
2
1.99
2 · Φ(z) − 1 = 0.99, also Φ(z) =
= 0.995
2
StatBio
233
90%–Konfidenzintervall:
s
s
x̄ − 1.645 · √ , x̄ + 1.645 · √
n
n
Anteil: 5%
Anteil: 90%
(
)
x̄ − 1.645 · √sn
Anteil: 5%
x̄ + 1.645 · √sn
95%–Konfidenzintervall:
s
s
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
Anteil: 2.5%
Anteil: 95%
(
)
x̄ − 1.96 · √sn
StatBio
Anteil: 2.5%
x̄ + 1.960 · √sn
234
99%–Konfidenzintervall:
s
s
x̄ − 2.576 · √ , x̄ + 2.576 · √
n
n
Anteil: 0.5%
Anteil: 99%
(
Anteil: 0.5%
)
x̄ − 2.576 · √sn
x̄ + 2.576 · √sn
Für kleine Stichprobenumfänge (n < 30) lässt
sich die Stichprobenverteilung von
x̄ − µ
√
s/ n
nicht mehr hinreichend gut durch eine Standard–
Normalverteilung beschreiben. Es muss dann
vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die StichproStatBio
235
benverteilung die t–Verteilung mit n − 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies,
dass man den z–Wert durch einen t–Wert zu ersetzen hat. Formal wird in den Intervallgrenzen
s
x̄ ± z · √
n
der z–Wert ersetzt durch einen t–Wert:
s
x̄ ± t · √
n
Man hat also das Quantil der Standard–Normalverteilung durch das entsprechende Quantil der
t–Verteilung mit n − 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab. 9–1.
StatBio
236
Allgemeine Bezeichnungen für Quantile der t–
Verteilung mit df = n − 1 Freiheitsgraden:
Zum Konfidenzniveau 0.9:
tdf ;0.950 = tn−1;0.950
(0.95–Quantil)
Zum Konfidenzniveau 0.95:
tdf ;0.975 = tn−1;0.975
(0.975–Quantil)
Zum Konfidenzniveau 0.99:
tdf ;0.995 = tn−1;0.995
(0.995–Quantil)
Die konkreten Werte sind für df ≤ 30 in Tab.
9.1 zusammengefasst.
StatBio
237
Allgemeine Darstellung der Konfidenzintervalle
zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n:
90%–Konfidenzintervall:
s
s
x̄ − tn−1;0.950 · √ , x̄ + tn−1;0.950 · √
n
n
95%–Konfidenzintervall:
s
s
x̄ − tn−1;0.975 · √ , x̄ + tn−1;0.975 · √
n
n
99%–Konfidenzintervall:
s
s
x̄ − tn−1;0.995 · √ , x̄ + tn−1;0.995 · √
n
n
StatBio
238
Tabelle 9–1 t–Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten
Zeile (df = ∞) sind die entsprechenden z–Werte der
Standard–Normalverteilung)
StatBio
df
1
2
3
4
5
0.90–Niveau
tdf ;0.950
6.314
2.920
2.353
2.132
2.015
0.95–Niveau
tdf ;0.975
12.706
4.303
3.182
2.776
2.571
0.99–Niveau
tdf ;0.995
63.657
9.925
5.841
4.604
4.032
6
7
8
9
10
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.707
3.499
3.355
3.250
3.169
11
12
13
14
15
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
3.106
3.055
3.012
2.977
2.947
239
StatBio
df
16
17
18
19
20
0.90–Niveau
tdf ;0.950
1.746
1.740
1.734
1.729
1.725
0.95–Niveau
tdf ;0.975
2.120
2.110
2.101
2.093
2.086
0.99–Niveau
tdf ;0.995
2.921
2.898
2.878
2.861
2.845
21
22
23
24
25
1.721
1.717
1.714
1.711
1.708
2.080
2.074
2.069
2.064
2.060
2.831
2.819
2.807
2.797
2.787
26
27
28
29
30
1.706
1.703
1.701
1.699
1.697
2.056
2.052
2.048
2.045
2.042
2.779
2.771
2.763
2.756
2.750
∞
1.645
1.960
2.576
240
Aus Tab. 9–1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender
Anzahl der Freiheitsgrade, die Quantile der t–
Verteilung kleiner werden und sich den Quantilen
der Standard–Normalverteilung annähern.
9.1 Beispiel: Bei 30 Studentinnen ergab sich
eine Durchschnittsgröße (in cm) von x̄ = 168.3
und eine Standardabweichung von s = 5.2. Als
Vertrauensniveau sei 0.95 vorgegeben. Der Stichprobenumfang ist n = 30, also
df = n − 1 = 30 − 1 = 29
Nach Tab. 9–1 ist der t–Wert gleich
t29;0.975 = 2.045. Daraus ergibt sich das 0.95–
Konfidenzintervall
StatBio
241
5.2
5.2
168.3 − 2.045 · √ , 168.3 + 2.045 · √
30
30
= (166.4, 170.2)
Interpretation: Mit 95% iger Sicherheit liegt die
durchschnittliche Körpergröße von Studentinnen
zwischen 166 cm und 170 cm.
Verbundene Stichproben
Häufig werden Stichproben in Form von Paaren
(x1i, x2i),
i = 1, . . . , n
erhoben. Paare treten auf bei
• Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den
StatBio
242
beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden.
Ein Paar (x1i, x2i) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus
Stichprobe 1 und den Beobachtungswert des
zugeordneten Merkmalsträgers aus Stichprobe
2.
Beispiel: Methodenvergleich bei benachbarten Feldern.
• Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher–Nachher–
Vergleich). Ein Paar (x1i, x2i) beschreibt dann
die Messwerte des Merkmalsträgers i zu den
beiden Zeitpunkten 1 (vorher) und 2 (nachher).
Beispiel: Körpergewicht vor und nach einer
Diät.
StatBio
243
Stichprobe 1 Stichprobe 2
x11
x21
x12
x22
x13
x23
..
..
x1n
x2n
Die Beobachtungen x1i und x2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der
Stichprobe 2 (und/oder umgekehrt). Man spricht
daher von einer verbundenen Stichprobe oder
einer gepaarten Stichprobe (paired samples).
Aufgrund der Abhängigkeit ist es sinnvoll, nicht
beide Stichproben einzeln zu betrachten, sondern
nur die jeweils zusammengehörenden Paare
(x11, x21), (x12, x22), (x13, x23), . . . , (x1n, x2n)
StatBio
244
Für jedes Paar i bildet man die Differenz
di = x1i − x2i,
i = 1, . . . , n
Häufig ist es gerechtfertigt, die Unabhängigkeit
der Differenzen anzunehmen, so dass
d1, d2, . . . , dn
als eine einfache Stichprobe aufgefasst werden
kann.
Der Mittelwert der Paardifferenzen
n
X
1
d¯ =
di
n i=1
ist ein geeigneter Schätzwert für
µd = µ1 − µ2
(µd ist der Mittelwert der Paardifferenzen in der
Grundgesamtheit).
StatBio
245
Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren
der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität
der Daten zurückzuführen?
Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ1 und µ2 gibt, ist zu
erwarten, dass der Schätzwert µ̂d = d¯ in der
Nähe von 0 liegt.
Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µd ist
hier wesentlich informativer!
Ein 0.95–Konfidenzintervall für µd ist gegeben
durch die Grenzen
sd
¯
d ± 1.96 · √
n
StatBio
246
wobei
v
u
n
u 1 X
¯2
sd = t
(di − d)
n − 1 i=1
die Standardabweichung der Paardifferenzen
d1, . . . , dn bezeichnet.
9.2 Beispiel: Morton et al. (1982), American
Journal of Epidemiology 155, 549–555, untersuchten den Bleigehalt im Blut von Kindern,
deren Eltern in einer Fabrik arbeiteten, die Blei
zu Herstellung von Batterien verwendete. Um
die Fragestellung zu untersuchen, ob die Kinder
einer Bleibelastung ausgesetzt waren, die von ihren Eltern herrührte, wurde der Bleigehalt von
33 Kindern aus verschieden Familien untersucht
und mit demjenigen von 33 jeweils gleichaltrigen und aus der Nachbarschaft stammenden
Kontrollkindern verglichen. Deren Eltern arbeiteten in Industriezweigen, in denen kein Blei
verwendet wurde. Eine Antwort soll ein 95%–
StatBio
247
Konfidenzintervall geben.
Die 33 Paardifferenzen ergaben die Werte
d¯ = 15.96 und sd = 15.86
(Differenz: Bleigehalt Kind – Bleigehalt Kontrollkind).
Als 0.95–Konfidenzintervall für µd erhält man
sd
sd ¯
¯
d − 1.96 · √ , d + 1.96 · √
n
n
15.86
15.86
= 15.96 − 1.96 · √ , 15.96 + 1.96 · √
33
33
= (10.55, 21.37)
StatBio
248
Der Wert 0 liegt nicht im 0.95–
Konfidenzintervall. Interpretation: Mit 95% iger
Sicherheit nehmen Kinder, deren Eltern der oben
beschriebenen Bleibelastung ausgesetzt sind,
ebenfalls Blei auf. Die Belastung liegt mindestens bei 10.5.
Bei kleinen Stichprobenumfängen (n <
30) muss angenommen werden, dass die
Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95–
Konfidenzintervall ist dann gegeben durch
sd
¯
d ± tn−1;0.975 · √
n
Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse.
Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein–
Stichproben–Problem).
StatBio
249
9.3 Konfidenzintervall zum Vergleich zweier
Mittelwerte (Zwei-Stichproben-Problem)
Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ1 und µ2?
Dazu vergleicht man die Mittelwerte zweier
Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben).
Stichprobe aus
Stichprobe aus
Grundgesamtheit 1 Grundgesamtheit 2
x11
x21
x12
x22
x13
x23
..
..
x1n1
x2n2
Beachte: n1 6= n2 ist ausdrücklich zugelassen!
StatBio
250
Man vergleicht die Mittelwerte
n1
n2
X
X
1
1
x̄1 =
x1i und x̄2 =
x2j
n1 i=1
n2 j=1
der beiden Stichproben. Die Differenz der beiden
Mittelwerte
x̄1 − x̄2
ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ1 − µ2.
Neben dieser Punktschätzung für µ1 − µ2
benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung
von x̄1 − x̄2). Man kann zeigen, dass der Standardfehler der Differenz x̄1 − x̄2 gegeben ist
durch
s
σ12 σ22
σx̄1−x̄2 =
+
(9.1)
n1 n2
Annahme: Beide Populationen besitzen die gleiStatBio
251
che Varianz σ 2 (d.h. σ12 = σ22 = σ 2). Man spricht
von Varianzhomogenität.
Unter der Annahme der Varianzhomogenität
geht Formel (9.1) über in
s
σx̄1−x̄2
σ2 σ2
=
+
n1 n2
r
1
1
= σ·
+
n1 n2
r
n1 + n2
= σ·
n1 · n2
(9.2)
Frage: Was ist eine vernünftige Schätzung von
σ 2 (und damit für σ) im Zwei–Stichprobenfall?
Im Fall der Varianzhomogenität ist die
StatBio
252
gepoolte (Stichproben–)Varianz
Pn1
s2gepoolt
i=1
=
x1i − x̄1
2
+
Pn2
j=1
x2j − x̄2
2
n1 − 1 + n2 − 1
eine vernünftige Schätzung für σ 2. Die gepoolte
Varianz lässt sich schreiben in der Form
s2gepoolt
(n1 − 1) · s21 + (n2 − 1) · s22
=
(n1 − 1) + (n2 − 1)
(n1 − 1) · s21 + (n2 − 1) · s22
=
n1 + n2 − 2
Dabei bezeichnen
s21
und
s22
StatBio
n1
X
2
1
=
x1i − x̄1
n1 − 1 i=1
n2
X
2
1
x2j − x̄2
=
n2 − 1 j=1
253
die Varianzen der Stichproben 1 und 2.
Bemerkung: Natürlich sind s21 und s22 ebenfalls
plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz
nimmt hingegen Bezug auf beide Stichproben
und kombiniert in geeigneter Weise die beiden
Schätzungen s21 und s22. Daher ist die gepoolte
Varianz eine genauere Schätzung für σ 2 als die
,,Einzelvarianzen” s21 bzw. s22.
Ersetzt man in (9.2) σ durch sgepoolt, so erhält
man als Schätzung für den Standardfehler
von x̄1 − x̄2
r
sgepoolt ·
n1 + n2
n1 · n2
Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten MittelwertStatBio
254
differenz
x̄1 − x̄2 − (µ1 − µ2)
q
2
sgepoolt · nn11+n
·n2
(9.3)
annähernd eine N (0, 1)–Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend
groß (n1 ≥ 30, n2 ≥ 30).
Für Stichprobenumfänge n1 ≥ 30, n2 ≥ 30
sind die Grenzen eines Konfidenzintervalls
für µ1 −µ2 zur Vertrauenswahrscheinlichkeit
0.90, 0.95, 0.99 gegeben durch
r
x̄1 − x̄2 ± z · sgepoolt ·
n1 + n2
n 1 · n2
mit den z–Werten 1.645, 1.960, 2.576.
StatBio
255
9.3 Beispiel: Es wurden die Körpergrößen von
39 männlichen und von 30 weiblichen Studenten
gemessen. Es ergaben sich die folgenden Werte (Stichprobe 1 = männlich, Stichprobe 2 =
weiblich):
x̄1 = 182.5, s1 = 6.7
x̄2 = 168.3, s2 = 5.2
Ist
µmännlich (µ1) = µweiblich (µ2)?
Die Differenz der Stichprobenmittel beträgt
182.5 − 168.3 = 14.2
Ferner ist
r
sgepoolt =
StatBio
38 · 6.72 + 29 · 5.22
= 6.096
39 + 30 − 2
256
Daraus ergeben sich die folgenden Grenzen eines
0.95–Konfidenzintervalls für µ1 − µ2:
r
182.5 − 168.3 ± 1.96 · 6.096 ·
39 + 30
39 · 30
= 14.2 ± 2.91
Ein 0.95–Konfidenzintervall für µ1 − µ2 ist somit
(11.29, 17.11)
Die Null ist nicht im Konfidenzintervall enthalten! Interpretation: Die Mittelwertsunterschiede in den Körpergrößen lassen sich nicht nur auf
Zufälligkeiten zurückführen.
StatBio
257
Für kleine Stichprobenumfänge (n1 < 30,
n2 < 30) muss vorausgesetzt werden, dass die
Grundgesamtheiten normalverteilt sind. In
diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t–Verteilung mit
Anzahl der Freiheitsgrade (df ) = n1 +n2 −2
Die Grenzen eines Konfidenzintervalls für µ1 −µ2
sind dann gegeben durch
r
x̄1 − x̄2 ± t · sgepoolt ·
n 1 + n2
n1 · n2
Der t–Wert ist das Quantil der t–Verteilung mit
n1 + n2 − 2 Freiheitsgraden. Dieses wird wieder
aus Tab. 9–1 entsprechend der vorgegebenen
Vertrauenswahrscheinlichkeit entnommen.
StatBio
258
Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ1 − µ2 angeben. Der Standardfehler
der Differenz x̄1 − x̄2 ist nach (9.1)
s
und somit ist
σ12 σ22
+
n1 n2
s
s21 s22
+
n1 n2
der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben
durch
s
s21 s22
x̄1 − x̄2 ± t ·
+
n1 n 2
Warum nur approximativ?
StatBio
259
Im Fall heterogener Varianzen ist die (exakte)
Stichprobenverteilung der studentisierten Mittelwertdifferenz
x̄1 − x̄2 − (µ1 − µ2)
q 2
s22
s1
n1 + n2
bis heute nicht bekannt (Behrens–Fisher–
Problem). Man kann aber zeigen, dass die
Stichprobenverteilung näherungsweise eine t–
Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall.
Literatur: Welch, B.L. (1947), The generalization of ”Student’s” problem when several
different population variances are involved, Biometrika 34, 28–35.
StatBio
260
9.4 Die Bedeutung des Stichprobenumfangs
1. Mit zunehmenden Stichprobenumfang nimmt
die Bedeutung von Verteilungsannahmen
(Normalverteilung, Varianzhomogenität) ab.
Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz).
2. Mit zunehmenden Stichprobenumfang erhöht
sich die Schätzgenauigkeit, d.h. die Länge
eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t–Verteilung (Tabelle
9–1) werden mit wachsendem Stichprobenumfang kleiner.
StatBio
261
Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach
dem Mindeststichprobenumfang gestellt:
Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge
eine Konfidenzintervalls mit vorgegebener
Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet?
Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit.
Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung.
StatBio
262
Im Ein–Stichproben–Fall wird das Konfidenzintervall
σ
σ
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
mit der Intervalllänge
σ
2 · 1.96 · √
n
betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung
σ
L ≥ 2 · 1.96 · √
n
Durch ,,Auflösen nach n” erhält man die Ungleichung
4 · 1.962 · σ 2
n≥
L2
StatBio
263
Das minimale n, dass diese Ungleichung erfüllt,
ist dann der Mindeststichprobenumfang:
4 · 1.962 · σ 2
nmin = kleinstes n mit n ≥
L2
(9.4)
Nun ist σ i. A. nicht bekannt. Wie geht man
in der Praxis vor? Entweder liegt bereits eine
zuverlässige Schätzung vor (basierened auf eine
Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder
aber man führt eine Voruntersuchung durch und
schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die
auf der Basis einer umfangreicheren Stichprobe
ermittelt werden würde.
StatBio
264
9.4 Beispiel: In einem bestimmten Bodenhorizont interessiert man sich für eine Schätzung
von extrahierbaren P2O5 (gemessen in mg pro
100 g). Wie groß muss die Anzahl der Bodenproben sein, damit ein 0.95–Konfidenzintervall die
Länge von 0.2 (Schätzgenauigkeit ±0.1) nicht
überschreitet? Aus früheren Forschungen ist bekannt, dass die Standardabweichung von P2O5
bei 0.7 mg liegt.
Lösung: Der z–Wert ist das 0.975–Quantil
z0.975 = 1.96. Der Mindeststichprobenumfang
bestimmt sich aus der Ungleichung
4 · 1.962 · 0.72
n≥
= 188.24
2
(0.2)
Folglich ist nmin = 189.
StatBio
265
Fordert man eine Länge von 0.1 (doppelte
Schätzgenauigkeit), so ergibt sich wegen
4 · 1.962 · 0.72
n≥
= 752.95
2
0.1
ein Mindeststichprobenumfang von 753 (das
Vierfache).
Allgemein gilt: Eine doppelte Schätzgenauigkeit
L/2 erfordert einen vierfachen Mindeststichprobenumfang:
4 · 1.962 · σ 2
4 · 1.962 · σ 2
n≥
=4·
2
(L/2)
L2
StatBio
266
9.5 Konfidenzintervall für einen Anteilswert
Im Folgenden sollen die Aussagen von Abschnitt
9.2 für dichotome Grundgesamtheiten formuliert
werden. Sei X ein 0/1–kodiertes binäres Merkmal.
Nach Abschnitt 7.2 ist X Bernoulli–verteilt zum
Parameter π ∈ (0, 1):
P (X = 1) = π, P (X = 0) = 1 − π
π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit
mit Ausprägung 1:
π = Anteil der Merkmalsträger einer
Grundgesamtheit mit Ausprägung 1
Ziel: Intervallschätzung für den Anteilswert π
StatBio
267
Sei wieder
x1 , . . . , x n
eine Stichprobe vom Umfang n. Eine
Punktschätzung für π ist die relative Trefferhäufigkeit
x̄ = relative Häufigkeit der Ausprägung 1
in der Stichprobe x1, . . . , xn
(zur Erinnerung: xi ist entweder 1 oder 0). Für
die Populationsvarianz gilt:
σ 2 = π · (1 − π)
(vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine
vernünftige Schätzung der Varianz ist somit
σ̂ 2 = x̄ · (1 − x̄)
StatBio
268
Damit ist
r
ESEM =
eine
Schätzung von
p
√
π · (1 − π)/ n.
x̄ · (1 − x̄)
n
SEM
=
√
σ/ n
=
Wenn die Faustregel (8.2) erfüllt ist, d. h.
n · x̄ · (1 − x̄) > 9
so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit
0.9, 0.95, 0.99 gegeben durch
r
x̄ ± z ·
x̄ · (1 − x̄)
n
mit den z–Werten z0.95 = 1.645, z0.975 =
1.96, z0.995 = 2.576.
StatBio
269
9.5 Beispiel: Der plötzliche Kindstod SIDS
(Sudden Infant Death Syndrome) ist ein noch
ungeklärtes Phänomen. Die relative Häufigkeit
(Rate) des SIDS beträgt weltweit im Durchschnitt 4.4 auf 1000 Geburten. Tasmanien wies
zwischen den Jahren 1975 und 1984 24 SIDS
auf 3939 Geburten aus, was einer Rate von 6.1
auf 1000 entspricht. Ist diese Rate 6.1 wesentlich
höher als die Rate von 4.4 oder lässt sich dieser
Unterschied nur durch den Zufall erklären?
Die Punktschätzung (relative Trefferhäufigkeit)
beträgt
24
x̄ =
= 0.0061
3939
Wegen
3939 · 0.0061 · (1 − 0.0061) = 23.88 > 9
ist die Faustregel (8.2) erfüllt.
StatBio
270
untere Grenze:
r
0.0061 − 1.96 ·
0.0061 · (1 − 0.0061)
3939
= 0.0037
obere Grenze:
r
0.0061 + 1.96 ·
0.0061 · (1 − 0.0061)
3939
= 0.0085
Somit ist
(0.0037, 0.0085)
ein 0.95–Konfidenzintervall für π:
Interpretation: Mit 95% iger Sicherheit liegt
der (wahre) Anteilswert π zwischen 3.7h und
8.5h. Da 0.0044 im Konfidenzintervall liegt,
kann der beobachtete Unterschied auch zufällig
begründet sein.
StatBio
271
9.6 Konfidenzintervall zum Vergleich zweier
Anteilswerte (Zwei-Stichproben-Problem)
Im Folgenden sollen die Aussagen von Abschnitt
9.3 für dichotome Grundgesamtheiten formuliert
werden. Sei X ein 0/1–kodiertes binäres Merkmal.
Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die
Grundgesamtheiten hinsichtlich ihrer Anteilswerte π1 und π2 unterscheiden.
Dazu werden zwei unabhängige Stichproben
x11, . . . , x1n1
(Stichprobe 1)
x21, . . . , x2n2
(Stichprobe 2)
und
erhoben.
StatBio
272
Jede Beobachtung besitzt entweder den Wert 1
oder 0. Bezeichnen
n1
X
1
x̄1 =
x1i
n1 i=1
und
n2
X
1
x̄2 =
x2j
n2 j=1
die Anteilswerte der beiden Stichproben
(Schätzungen für π1 bzw. π2). Wegen
σ12 = π1 · (1 − π1) und σ22 = π2 · (1 − π2)
beträgt der Standardfehler der Differenz x̄1 −
x̄2
s
π1 · (1 − π1) π2 · (1 − π2)
+
n1
n2
(dies entspricht (9.1)).
StatBio
273
Damit sind
x̄1 · (1 − x̄1)
und
x̄2 · (1 − x̄2)
(Punkt–)Schätzungen für σ12 bzw. σ22.
Folglich ist
s
x̄1 · (1 − x̄1) x̄2 · (1 − x̄2)
+
n1
n2
eine Schätzung des Standardfehlers von x̄1 −
x̄2.
StatBio
274
Sind die Faustregeln
n1 · x̄1 · (1 − x̄1) > 9
und
n2 · x̄2 · (1 − x̄2) > 9
erfüllt, so sind die Grenzen eines
Konfidenzintervalls für π1 − π2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99
gegeben durch
s
x̄1 − x̄2 ± z ·
x̄1 · (1 − x̄1) x̄2 · (1 − x̄2)
+
n1
n2
mit den z–Werten z0.95 = 1.645, z0.975 =
1.96, z0.995 = 2.576.
StatBio
275
9.6 Beispiel: (Quelle: New England Journal
of Medicine (1992)) Die Sterblichkeit ist bei
schwarzen Säuglingen (Gruppe 1) im ersten Jahr
doppelt so hoch wie bei weißen Säuglingen von
Eltern mit Kollege–Ausbildung (Gruppe 2). Der
Untersuchungszeitraum war von 1983 bis 1985.
Der Stichprobenumfang von Gruppe 1 betrug
42 230 mit einem Anteilswert von 10.2 Promille, der Stichprobenumfang von Gruppe 2 betrug
865 128 mit einem Anteilswert von 5.4 Promille. Kann man behaupten, dass die Sterblichkeitsraten in den zwei Populationen wesentlich
verschieden sind?
Anmerkung: Die unverhältnismäßig unterschiedlichen Stichprobenumfänge fallen auf,
stören aber die statistische Auswertung nicht.
Zunächst gilt
x̄1 = 0.0102 und x̄2 = 0.0054
StatBio
276
Wegen
42230 · 0.0102 · (1 − 0.0102) = 426.4 > 9
und
865128 · 0.0054 · (1 − 0.0054) = 4646.5 > 9
sind obige Faustregeln erfüllt. Ferner beträgt der
geschätzte Standardfehler
s
x̄1 · (1 − x̄1) x̄2 · (1 − x̄2)
+
n1
n2
r
=
0.0102 · 0.9898 0.0054 · 0.9946
+
42230
865128
= 0.000495
StatBio
277
Die Grenzen eines 0.95–Konfidenzintervall sind
gegeben durch
0.0102 − 0.0054 ± 1.96 · 0.000495
0.0048 ± 0.0009
Damit ist
(0.0039, 0.0057)
ein 0.95–Konfidenzintervall für π1 − π2.
Interpretation: Die Null ist nicht im Konfidenzintervall enthalten. Ferner sagt das Konfidenzintervall, dass die Sterblichkeitsrate in Gruppe 1
größer ist als bei Gruppe 2 und dass die Differenz
mindestens 3.9 Promille beträgt.
StatBio
278
Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich,
dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine
Punktschätzung. Während die Bestimmung einer
Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum–
Likelihood–Methode), kann die Bestimmung
eines Konfidenzintervalls äußerst kompliziert
sein, da hierzu Verteilungsaussagen über eine
Punktschätzung benötigt werden.
StatBio
279
Herunterladen