Teil 3: Schließende Statistik

Werbung
Teil 3: Schließende Statistik
Grundfragen der schließenden Statistik
1. Welcher Parameter passt am besten zu den
Beobachtungen?
2. Welche Parameterwerte sind mit den Beobachtungen vereinbar?
3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar?
Die statistischen Methoden, die auf diese drei
Fragen eine Antwort geben, heißen
(1) Punktschätzungen (Kap. 9)
(2) Intervallschätzungen (Kap. 9)
(3) Tests (ab Kap. 10)
StatSoz
219
9 Schätzung von Parametern
9.1 Punkt– und Intervallschätzungen
9.2 Konfidenzintervall für einen Mittelwert
9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte
9.4 Die Bedeutung des Stichprobenumfangs
9.5 Konfidenzintervall für einen Anteilswert
9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte
Die folgenden Aussagen setzen wieder eine einfache Stichprobe x1, . . . , xn voraus (,,Ziehen
mit Zurücklegen” aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen
werden, die durch ,, Ziehung ohne Zurücklegen”
gewonnen wurden. Für den Auswahlsatz muss
dann nur gelten: n/N ≤ 0.05.
StatSoz
220
9.1 Punkt– und Intervallschätzungen
Von einer Punktschätzung spricht man, wenn
man sich auf die Bestimmung eines Zahlenwertes
als Schätzwert für einen Parameter beschränkt.
Einer (einfachen) Stichprobe x1, . . . , xn wird ein
Zahlenwert zugeordnet. Dieser Zahlenwert heißt
eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische
Maßzahlen.
Beispiele:
(i) Schätzung µ̂ für den Populations–Mittelwert
µ: der empirische Mittelwert
µ̂ = x̄ =
StatSoz
n
X
1
n i=1
xi
221
(ii) Schätzung σ̂ 2 für die Populations–Varianz σ 2:
die empirische Varianz
n
X
1
σ̂ = s =
(xi − x̄)2
n − 1 i=1
2
2
Es gibt verschiedene
Punktschätzer.
Gütekriterien
für
Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung: ,,Im Mittel”
schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte
Schätzungen.
Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden.
Punktschätzungen haben einen entscheidenden
Nachteil: Sie machen keine Aussagen über den
StatSoz
222
Schätzfehler. Wie ,,weit” ist das empirische
Stichprobenmittel x̄ von µ entfernt,
x̄ − µ =?
Beachte: x̄ ist ausgesprochen selten gleich µ.
Intuitiv ist klar, dass eine Punktschätzung um so
genauer sein wird, je größer der Stichprobenumfang ist.
Aus theoretischen Überlegungen ist bekannt
(Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung
s
ESEM = √
n
zu erwarten ist. Plausible Schätzwerte für µ sind
demnach alle Werte des Intervalls
s
s
x̄ − √ , x̄ + √
n
n
StatSoz
223
also alle Werte zwischen der
√
unteren Grenze = x̄ − s/ n
und der
√
oberen Grenze = x̄ + s/ n
Einer Stichprobe wird somit ein ganzes Intervall
von Parameterwerten zugeordnet, die alle ,,plausibel” (d.h. ,,mit den Daten verträglich”) sind.
Man spricht von einer Intervallschätzung.
Frage: Wie gut ist die ,,Intervallschätzung”?
Präziser gefragt: Mit welcher Zuverlässigkeit
liegt µ in einem solchen Intervall?
Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der
daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die
Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden
StatSoz
224
Stichprobe) den Parameter µ enthält, vgl. die
Ausführungen nach Tabelle 6.5.
Der Anteil der Intervalle, die µ enthalten, für die
also
s
s
x̄ − √ < µ < x̄ + √
n
n
gilt, ist gleich dem Anteil der studentisierten
Stichprobenmittel, die zwischen −1 und 1 liegen:
x̄ − µ
−1 < √ < 1
s/ n
Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N (0, 1)–verteiltes Merkmal Z Werte zwischen −1 und 1 annehmen
wird
−1 < Z < 1
StatSoz
225
Denn: Für hinreichend große Stichprobenumfänge (n ≥ 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das
studentisierte Stichprobenmittel annähernd verteilt wie Z.
Die Wahrscheinlichkeit beträgt
P (−1 < Z < 1) = Φ(1) − Φ(−1)
= 2 · Φ(1) − 1
= 2 · 0.8413 − 1
= 0.6826
Abbildung 9–1 Fläche unter ϕ im Bereich [−1, 1]
StatSoz
226
Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten
etwa 68% der daraus berechneten Intervalle den
wahren Parameter µ.
In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe)
s
s
x̄ − √ , x̄ + √
n
n
den Parameter µ mit einer Vertrauens–
Wahrscheinlichkeit von etwa 68%.
StatSoz
227
In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und
das Intervall muss passend gewählt werden.
Dies führt zum Vertrauensintervall (confidence
interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen
Konfidenzniveau.
9.2 Konfidenzintervall für einen Mittelwert
Um eine Vorstellung von der Genauigkeit einer
Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein
Intervall, dessen untere und obere Grenze von der
Stichprobe abhängen. Dieses zufallsabhängige
Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig
mit 0.9, 0.95 oder 0.99.
StatSoz
228
Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des
Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto
breiter muss das Konfidenzintervall gewählt werden.
Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen,
muss man den Bereich
s
x̄ ± √
n
vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten
√
Standardfehlers s/ n betrachtet:
s
x̄ ± z · √
n
StatSoz
229
Frage: Wie ist der z–Wert – in Abhängigkeit
von der Vertrauenswahrscheinlichkeit 0.95 – zu
wählen?
Aufgrund der Vorüberlegungen in Abschnitt 9.1
ist klar: Der z–Wert muss größer als 1 sein (die
Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%).
Nun: µ liegt im Intervall
s
s
x̄ − z · √ , x̄ + z · √
n
n
wenn
s
s
x̄ − z · √ < µ < x̄ + z · √
n
n
gilt und dies ist gleichbedeutend mit
x̄ − µ
−z < √ < z
s/ n
StatSoz
230
Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −z und z liegen, für
die also
x̄ − µ
−z < √ < z
s/ n
gilt. Der Anteil, der aufgrund des zentralen
Grenzwertsatzes erwartet wird, entspricht der
Wahrscheinlichkeit des Ereignisses
−z < Z < z
und diese ist
P (−z < Z < z) = Φ(z) − Φ(−z)
= 2 · Φ(z) − 1
Somit bestimmt sich z als Lösung der Gleichung
2 · Φ(z) − 1 = 0.95
StatSoz
231
also
1.95
Φ(z) =
= 0.975
2
Der z–Wert, der diese Gleichung löst, wird als
0.975–Quantil der Standardnormalverteilung
bezeichnet, kurz z0.975 (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 5, Blatt 5).
Das 0.975–Quantil z0.975 ist die eindeutig bestimmte Zahl mit der Eigenschaft
Φ(z0.975) = 0.975
Aus Tab. 7–2 entnimmt man die Lösung
z0.975 = 1.96
d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z0.975 = 1.96 (vgl. Abb. 7–6).
StatSoz
232
Somit lauten die Grenzen
Konfidenzintervalls für µ
eines
0.95–
s
x̄ ± 1.96 · √
n
Häufigkeitsinterpretation: Wenn sehr viele
Stichproben (gleichen Umfangs) aus derselben
Grundgesamtheit mit Populationsmittelwert µ
gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren
Parameter µ. Nur etwa 5% aller Stichproben
liefern Intervalle, die den Parameter µ nicht enthalten.
In diesem Sinne enthält ein konkret vorliegendes
Intervall (basierend auf einer einzigen, konkret
vorliegenden Stichprobe)
StatSoz
s
s
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
233
den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%.
Konfidenzintervalle für µ zu den (Vertrauens-)
Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält
man mit den Quantilen
z0.950 = 1.645
z0.975 = 1.960
z0.995 = 2.576
Diese Quantile sind die eindeutigen Lösungen
der Gleichungen (in z)
1.90
2 · Φ(z) − 1 = 0.90, also Φ(z) =
= 0.950
2
1.95
2 · Φ(z) − 1 = 0.95, also Φ(z) =
= 0.975
2
1.99
2 · Φ(z) − 1 = 0.99, also Φ(z) =
= 0.995
2
StatSoz
234
90%–Konfidenzintervall:
s
s
x̄ − 1.645 · √ , x̄ + 1.645 · √
n
n
Anteil: 5%
Anteil: 90%
(
)
x̄ − 1.645 · √sn
Anteil: 5%
x̄ + 1.645 · √sn
95%–Konfidenzintervall:
s
s
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
Anteil: 2.5%
Anteil: 95%
(
)
x̄ − 1.96 · √sn
StatSoz
Anteil: 2.5%
x̄ + 1.960 · √sn
235
99%–Konfidenzintervall:
s
s
x̄ − 2.576 · √ , x̄ + 2.576 · √
n
n
Anteil: 0.5%
Anteil: 99%
(
x̄ − 2.576 · √sn
Anteil: 0.5%
)
x̄ + 2.576 · √sn
9.1 Beispiel: Man möchte etwas über den
durchschnittlichen Zeitaufwand wissen, die
Hauptschüler täglich für ihre Hausaufgaben aufwenden.
Eine zufällige Stichprobe von 100 Hauptschülern
ergab einen durchschnittlichen Zeitaufwand von
x̄ = 70 Minuten bei einer Standardabweichung von s = 20 Minuten. Ein 95%–
Konfidenzintervall für den durchschnittlichen
StatSoz
236
Zeitaufwand (µ) ist dann durch
s
s
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
20
20
= 70 − 1.96 · √
, 70 + 1.96 · √
100
100
= (66.08, 73.92)
gegeben. Mit 95% iger Sicherheit liegt der durchschnittliche Zeitaufwand zwischen 66 Minuten
und 74 Minuten.
Für kleine Stichprobenumfänge (n < 30) lässt
sich die Stichprobenverteilung von
x̄ − µ
√
s/ n
nicht mehr hinreichend gut durch eine Standard–
Normalverteilung beschreiben. Es muss dann
StatSoz
237
vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die Stichprobenverteilung die t–Verteilung mit n − 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies,
dass man den z–Wert durch einen t–Wert zu ersetzen hat. Formal wird in den Intervallgrenzen
s
x̄ ± z · √
n
der z–Wert ersetzt durch einen t–Wert:
s
x̄ ± t · √
n
Man hat also das Quantil der Standard–Normalverteilung durch das entsprechende Quantil der
t–Verteilung mit n − 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab. 9–1.
StatSoz
238
Allgemeine Bezeichnungen für Quantile der t–
Verteilung mit df = n − 1 Freiheitsgraden:
Zum Konfidenzniveau 0.9:
tdf ;0.950 = tn−1;0.950
(0.95–Quantil)
Zum Konfidenzniveau 0.95:
tdf ;0.975 = tn−1;0.975
(0.975–Quantil)
Zum Konfidenzniveau 0.99:
tdf ;0.995 = tn−1;0.995
(0.995–Quantil)
Die konkreten Werte sind für df ≤ 30 in Tab.
9.1 zusammengefasst.
StatSoz
239
Allgemeine Darstellung der Konfidenzintervalle
zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n:
90%–Konfidenzintervall:
s
s
x̄ − tn−1;0.950 · √ , x̄ + tn−1;0.950 · √
n
n
95%–Konfidenzintervall:
s
s
x̄ − tn−1;0.975 · √ , x̄ + tn−1;0.975 · √
n
n
99%–Konfidenzintervall:
s
s
x̄ − tn−1;0.995 · √ , x̄ + tn−1;0.995 · √
n
n
StatSoz
240
Tabelle 9–1 t–Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten
Zeile (df = ∞) sind die entsprechenden z–Werte der
Standard–Normalverteilung)
StatSoz
df
1
2
3
4
5
0.90–Niveau
tdf ;0.950
6.314
2.920
2.353
2.132
2.015
0.95–Niveau
tdf ;0.975
12.706
4.303
3.182
2.776
2.571
0.99–Niveau
tdf ;0.995
63.657
9.925
5.841
4.604
4.032
6
7
8
9
10
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.707
3.499
3.355
3.250
3.169
11
12
13
14
15
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
3.106
3.055
3.012
2.977
2.947
241
StatSoz
df
16
17
18
19
20
0.90–Niveau
tdf ;0.950
1.746
1.740
1.734
1.729
1.725
0.95–Niveau
tdf ;0.975
2.120
2.110
2.101
2.093
2.086
0.99–Niveau
tdf ;0.995
2.921
2.898
2.878
2.861
2.845
21
22
23
24
25
1.721
1.717
1.714
1.711
1.708
2.080
2.074
2.069
2.064
2.060
2.831
2.819
2.807
2.797
2.787
26
27
28
29
30
1.706
1.703
1.701
1.699
1.697
2.056
2.052
2.048
2.045
2.042
2.779
2.771
2.763
2.756
2.750
∞
1.645
1.960
2.576
242
Aus Tab. 9–1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender Anzahl der Freiheitsgrade, die Quantile der
t–Verteilung kleiner werden und sich den Quantilen der Standard–Normalverteilung annähern.
Verbundene Stichproben
Häufig werden Stichproben in Form von Paaren
(x1i, x2i),
i = 1, . . . , n
erhoben. Paare treten auf bei
• Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den
beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden.
StatSoz
243
Ein Paar (x1i, x2i) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus
Stichprobe 1 und den Beobachtungswert des
zugeordneten Merkmalsträgers aus Stichprobe
2.
Beispiel: Vergleich von männlichen Partnern
mit weiblichen Partnern bei Ehepaaren.
• Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher–Nachher–
Vergleich). Ein Paar (x1i, x2i) beschreibt dann
die Messwerte des Merkmalsträgers i zu den
beiden Zeitpunkten 1 (vorher) und 2 (nachher).
Beispiel: Wissensstand vor und nach einer
Schulungsmaßnahme
StatSoz
244
Stichprobe 1 Stichprobe 2
x11
x21
x12
x22
x13
x23
..
..
x1n
x2n
Die Beobachtungen x1i und x2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der
Stichprobe 2 (und/oder umgekehrt). Man spricht
daher von einer verbundenen Stichprobe oder
einer gepaarten Stichprobe (paired samples).
Aufgrund der Abhängigkeit ist es sinnvoll, nicht
beide Stichproben einzeln zu betrachten, sondern
nur die jeweils zusammengehörenden Paare
(x11, x21), (x12, x22), (x13, x23), . . . , (x1n, x2n)
StatSoz
245
Für jedes Paar i bildet man die Differenz
di = x1i − x2i,
i = 1, . . . , n
Häufig ist es gerechtfertigt, die Unabhängigkeit
der Differenzen anzunehmen, so dass
d1, d2, . . . , dn
als eine einfache Stichprobe aufgefasst werden
kann.
Der Mittelwert der Paardifferenzen
n
X
1
d¯ =
di
n i=1
ist ein geeigneter Schätzwert für
µd = µ1 − µ2
(µd ist der Mittelwert der Paardifferenzen in der
Grundgesamtheit).
StatSoz
246
Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren
der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität
der Daten zurückzuführen?
Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ1 und µ2 gibt, ist zu
erwarten, dass der Schätzwert µ̂d = d¯ in der
Nähe von 0 liegt.
Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µd ist
hier wesentlich informativer!
Ein 0.95–Konfidenzintervall für µd ist gegeben
durch die Grenzen
sd
¯
d ± 1.96 · √
n
StatSoz
247
wobei
v
u
n
u 1 X
¯2
sd = t
(di − d)
n − 1 i=1
die Standardabweichung der Paardifferenzen
d1, . . . , dn bezeichnet.
Bei kleinen Stichprobenumfängen (n <
30) muss angenommen werden, dass die
Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95–
Konfidenzintervall ist dann gegeben durch
sd
¯
d ± tn−1;0.975 · √
n
9.2 Beispiel: Man möchte wissen, inwieweit
Examenskandidaten in der Lage sind, ihre
Prüfungsleistungen richtig zu prognostizieren. 15
zufällig ausgewählte Examenskandidaten wurden befragt, wieviele von 70 Aufgaben sie ihrer Meinung nach richtig lösen werden. Nach
StatSoz
248
dem Examen lagen die Prüfungsresultate vor.
Unterscheiden sich die prognostizierten und die
tatsächlichen Prüfungsleistungen so stark, dass
bei der Interpretation der Differenz der Zufall
ausgeschlossen werden kann?
Annahme: Die Differenzen zwischen prognostizierten Prüfungsleistungen und tatsächlichen
Prüfungsleistungen in der Grundgesamtheit aller
Kandidaten ist (näherungsweise) normalverteilt.
Die Stichprobe der 15 zufällig ausgewählten
Prüfungskandidaten ergab die Werte
d¯ = −6.4 und sd = 7.9
Nach Tab. 9–1 ist
t14;0.975 = 2.145
StatSoz
249
Als 0.95–Konfidenzintervall für µd erhält man
sd ¯
sd
¯
d − 2.145 · √ , d + 2.145 · √
n
n
7.9
7.9
= −6.4 − 2.145 · √ , −6.4 + 2.145 · √
15
15
= (−10.7, −2.0)
Der Wert 0 liegt
Konfidenzintervall.
nicht
im
0.95–
Interpretation: Die tatsächliche Prüfungsleistung ist höher als die prognostizierte Leistung; Prüfungskandidaten unterschätzen tendenziell ihre Leistung (beachte: Differenzbildung
vorher – nachher !). Mit 95% iger Sicherheit liegt
die durchschnittliche Anzahl der tatsächlich richtig gelösten Aufgaben mit 2 bis 10 Aufgaben
über der durchschnittlichen prognostizierten Anzahl.
StatSoz
250
Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse.
Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein–
Stichproben–Problem).
StatSoz
251
9.3 Konfidenzintervall zum Vergleich zweier
Mittelwerte (Zwei-Stichproben-Problem)
Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ1 und µ2?
Dazu vergleicht man die Mittelwerte zweier
Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben).
Stichprobe aus
Stichprobe aus
Grundgesamtheit 1 Grundgesamtheit 2
x11
x21
x12
x22
x13
x23
..
..
x1n1
x2n2
Beachte: n1 6= n2 ist ausdrücklich zugelassen!
StatSoz
252
Man vergleicht die Mittelwerte
n1
n2
X
X
1
1
x̄1 =
x1i und x̄2 =
x2j
n1 i=1
n2 j=1
der beiden Stichproben. Die Differenz der beiden
Mittelwerte
x̄1 − x̄2
ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ1 − µ2.
Neben dieser Punktschätzung für µ1 − µ2
benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung
von x̄1 − x̄2). Man kann zeigen, dass der Standardfehler der Differenz x̄1 − x̄2 gegeben ist
durch
s
σ12 σ22
σx̄1−x̄2 =
+
(9.1)
n1 n2
Annahme: Beide Populationen besitzen die gleiStatSoz
253
che Varianz σ 2 (d.h. σ12 = σ22 = σ 2). Man spricht
von Varianzhomogenität.
Unter der Annahme der Varianzhomogenität
geht Formel (9.1) über in
s
σx̄1−x̄2
σ2 σ2
=
+
n1 n2
r
1
1
= σ·
+
n1 n2
r
n1 + n2
= σ·
n1 · n2
(9.2)
Frage: Was ist eine vernünftige Schätzung von
σ 2 (und damit für σ) im Zwei–Stichprobenfall?
Im Fall der Varianzhomogenität ist die
StatSoz
254
gepoolte (Stichproben–)Varianz
Pn1
s2gepoolt
i=1
=
x1i − x̄1
2
+
Pn2
j=1
x2j − x̄2
2
n1 − 1 + n2 − 1
eine vernünftige Schätzung für σ 2. Die gepoolte
Varianz lässt sich schreiben in der Form
s2gepoolt
(n1 − 1) · s21 + (n2 − 1) · s22
=
(n1 − 1) + (n2 − 1)
(n1 − 1) · s21 + (n2 − 1) · s22
=
n1 + n2 − 2
Dabei bezeichnen
s21
und
s22
StatSoz
n1
X
2
1
=
x1i − x̄1
n1 − 1 i=1
n2
X
2
1
x2j − x̄2
=
n2 − 1 j=1
255
die Varianzen der Stichproben 1 und 2.
Bemerkung: Natürlich sind s21 und s22 ebenfalls
plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz
nimmt hingegen Bezug auf beide Stichproben
und kombiniert in geeigneter Weise die beiden
Schätzungen s21 und s22. Daher ist die gepoolte
Varianz eine genauere Schätzung für σ 2 als die
,,Einzelvarianzen” s21 bzw. s22.
Ersetzt man in (9.2) σ durch sgepoolt, so erhält
man als Schätzung für den Standardfehler
von x̄1 − x̄2
r
sgepoolt ·
n1 + n2
n1 · n2
Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten MittelwertStatSoz
256
differenz
x̄1 − x̄2 − (µ1 − µ2)
q
2
sgepoolt · nn11+n
·n2
(9.3)
annähernd eine N (0, 1)–Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend
groß (n1 ≥ 30, n2 ≥ 30).
Für Stichprobenumfänge n1 ≥ 30, n2 ≥ 30
sind die Grenzen eines Konfidenzintervalls
für µ1 −µ2 zur Vertrauenswahrscheinlichkeit
0.90, 0.95, 0.99 gegeben durch
r
x̄1 − x̄2 ± z · sgepoolt ·
n1 + n2
n 1 · n2
mit den z–Werten 1.645, 1.960, 2.576.
StatSoz
257
Für kleine Stichprobenumfänge (n1 < 30,
n2 < 30) muss vorausgesetzt werden, dass die
Grundgesamtheiten normalverteilt sind. In
diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t–Verteilung mit
Anzahl der Freiheitsgrade (df ) = n1 +n2 −2
Die Grenzen eines Konfidenzintervalls für µ1 −µ2
sind dann gegeben durch
r
x̄1 − x̄2 ± t · sgepoolt ·
n 1 + n2
n1 · n2
Der t–Wert ist das Quantil der t–Verteilung mit
n1 + n2 − 2 Freiheitsgraden. Dieses wird wieder
aus Tab. 9–1 entsprechend der vorgegebenen
Vertrauenswahrscheinlichkeit entnommen.
StatSoz
258
9.3 Beispiel: (vgl. Kap. 1): 12 Kinder reicher Eltern und 12 Kinder armer Eltern werden gebeten,
den Durchmesser (in mm) eines 1 Euro–Stückes
zu schätzen. Die folgenden (als normalverteilt
angenommenen) Schätzungen wurden abgegeben:
reich arm
20
24
23
23
23
26
21
28
22
27
25
27
19
25
24
18
20
21
26
26
24
25
25
29
StatSoz
259
Unterscheidet sich der durchschnittliche Schätzwert armer Kinder von dem durchschnittlichen
Schätzwert reicher Kinder? Zur Vertrauenswahrscheinlichkeit 0.95 soll ein Konfidenzintervall für
µ1 − µ2 bestimmt werden. Unterstellt wird die
Varianzhomogenität.
Zunächst erhält man die Werte
x̄1 = 22.67, s1 = 2.27
x̄2 = 24.92, s2 = 3.09
Die Differenz der Stichprobenmittel beträgt
22.67 − 24.92 = −2.25
Ferner ist
r
sgepoolt =
StatSoz
11 · 2.272 + 11 · 3.092
= 2.71
12 + 12 − 2
260
Aus Tab. 9–1 entnimmt man den Wert
t22;0.975 = 2.074
Daraus ergeben sich die Grenzen eines 95%–
Konfidenzintervalls
r
12 + 12
22.67 − 24.92 ± 2.074 · 2.71 ·
12 · 12
= −2.25 ± 2.29
Die Null ist im Konfidenzintervall
(−4.54, 0.04)
enthalten (wenn auch sehr knapp). Ein rein
zufälliger Unterschied ist somit nicht auszuschließen.
StatSoz
261
Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ1 − µ2 angeben. Der Standardfehler
der Differenz x̄1 − x̄2 ist nach (9.1)
s
und somit ist
σ12 σ22
+
n1 n2
s
s21 s22
+
n1 n2
der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben
durch
s
s21 s22
x̄1 − x̄2 ± t ·
+
n1 n 2
Warum nur approximativ?
StatSoz
262
Im Fall heterogener Varianzen ist die (exakte)
Stichprobenverteilung der studentisierten Mittelwertdifferenz
x̄1 − x̄2 − (µ1 − µ2)
q 2
s22
s1
n1 + n2
bis heute nicht bekannt (Behrens–Fisher–
Problem). Man kann aber zeigen, dass die
Stichprobenverteilung näherungsweise eine t–
Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall.
Literatur: Welch, B.L. (1947), The generalization of ”Student’s” problem when several
different population variances are involved, Biometrika 34, 28–35.
StatSoz
263
9.4 Die Bedeutung des Stichprobenumfangs
1. Mit zunehmenden Stichprobenumfang nimmt
die Bedeutung von Verteilungsannahmen
(Normalverteilung, Varianzhomogenität) ab.
Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz).
2. Mit zunehmenden Stichprobenumfang erhöht
sich die Schätzgenauigkeit, d.h. die Länge
eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t–Verteilung (Tabelle
9–1) werden mit wachsendem Stichprobenumfang kleiner.
StatSoz
264
Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach
dem Mindeststichprobenumfang gestellt:
Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge
eine Konfidenzintervalls mit vorgegebener
Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet?
Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit.
Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung.
StatSoz
265
Im Ein–Stichproben–Fall wird das Konfidenzintervall
σ
σ
x̄ − 1.96 · √ , x̄ + 1.96 · √
n
n
mit der Intervalllänge
σ
2 · 1.96 · √
n
betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung
σ
L ≥ 2 · 1.96 · √
n
Durch ,,Auflösen nach n” erhält man die Ungleichung
4 · 1.962 · σ 2
n≥
L2
StatSoz
266
Das minimale n, dass diese Ungleichung erfüllt,
ist dann der Mindeststichprobenumfang:
4 · 1.962 · σ 2
nmin = kleinstes n mit n ≥
L2
(9.4)
Nun ist σ i. A. nicht bekannt. Wie geht man
in der Praxis vor? Entweder liegt bereits eine
zuverlässige Schätzung vor (basierened auf eine
Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder
aber man führt eine Voruntersuchung durch und
schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die
auf der Basis einer umfangreicheren Stichprobe
ermittelt werden würde.
StatSoz
267
9.4 Beispiel (vgl. Bsp. 9.1): Man möchte den
durchschnittlichen Zeitaufwand für Hausaufgaben von Grundschülern schätzen. Wie groß muss
die Anzahl der Schüler sein, damit ein 0.95–
Konfidenzintervall die Länge von 10 nicht überschreitet (Schätzgenauigkeit ±5)? Eine Voruntersuchung anhand von 30 Grundschülern ergab
einen Schätzwert für σ von 20.
Lösung: Der Mindeststichprobenumfang bestimmt sich aus der Ungleichung
4 · 1.962 · 202
n≥
= 61.46
2
10
Folglich ist nmin = 62.
StatSoz
268
Fordert man eine Länge von 5 (doppelte Schätzgenauigkeit), so ergibt sich wegen
4 · 1.962 · 202
n≥
= 245.86
2
5
ein Mindeststichprobenumfang von 246 (rund
das Vierfache).
Allgemein gilt: Eine doppelte Schätzgenauigkeit
L/2 erfordert einen vierfachen Mindeststichprobenumfang:
4 · 1.962 · σ 2
4 · 1.962 · σ 2
n≥
=4·
2
(L/2)
L2
StatSoz
269
9.5 Konfidenzintervall für einen Anteilswert
Im Folgenden sollen die Aussagen von Abschnitt
9.2 für dichotome Grundgesamtheiten formuliert
werden. Sei X ein 0/1–kodiertes binäres Merkmal.
Nach Abschnitt 7.2 ist X Bernoulli–verteilt zum
Parameter π ∈ (0, 1):
P (X = 1) = π, P (X = 0) = 1 − π
π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit
mit Ausprägung 1:
π = Anteil der Merkmalsträger einer
Grundgesamtheit mit Ausprägung 1
Ziel: Intervallschätzung für den Anteilswert π
StatSoz
270
Sei wieder
x1 , . . . , x n
eine Stichprobe vom Umfang n. Eine
Punktschätzung für π ist die relative Trefferhäufigkeit
x̄ = relative Häufigkeit der Ausprägung 1
in der Stichprobe x1, . . . , xn
(zur Erinnerung: xi ist entweder 1 oder 0). Für
die Populationsvarianz gilt:
σ 2 = π · (1 − π)
(vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine
vernünftige Schätzung der Varianz ist somit
σ̂ 2 = x̄ · (1 − x̄)
StatSoz
271
Damit ist
r
ESEM =
eine
Schätzung von
p
√
π · (1 − π)/ n.
x̄ · (1 − x̄)
n
SEM
=
√
σ/ n
=
Wenn die Faustregel (8.2) erfüllt ist, d. h.
n · x̄ · (1 − x̄) > 9
so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit
0.9, 0.95, 0.99 gegeben durch
r
x̄ ± z ·
x̄ · (1 − x̄)
n
mit den z–Werten z0.95 = 1.645, z0.975 =
1.96, z0.995 = 2.576.
StatSoz
272
9.5 Beispiel: In einen Stadtgebiet beträgt der
Anteilswert der Einwohner, die öffentliche Verkehrsmittel benutzen, 16%. Man vermutet inzwischen einen Anstieg der Benutzer. Eine neue
Umfrage in diesem Stadtgebiet ergab, dass 42
von 200 Einwohnern öffentliche Verkehrsmittel
benutzen. Lässt sich die Vermutung bestätigen?
Die Punktschätzung ergibt den Wert
x̄ = 42/200 = 0.21
ein Anstieg von 5%. Dieser Anstieg kann aber
zufallsbedingt sein, kann also auf die Variabilität der Daten zurückzuführen sein. Ein 0.95–
Konfidenzintervall ist hier informativer. Wegen
200 · 0.21 · 0.79 = 33.18 > 9
ist die Faustregel (8.2) erfüllt.
StatSoz
273
0.95–Konfidenzintervall für π:
r
untere Grenze = 0.21 − 1.96 ·
0.21 · 0.79
200
= 0.15
r
obere Grenze = 0.21 + 1.96 ·
0.21 · 0.79
200
= 0.27
Interpretation: Mit 95% iger Sicherheit liegt der
(wahre) Anteilswert zwischen 15% und 27%. Da
der Wert 0.16 ebenfalls im Konfidenzintervall
liegt und damit (nach wie vor) ein plausibler
Schätzwert ist, kann obige Vermutung nicht
bestätigt werden. Der beobachtete Wert von
21% und damit ein Anstieg um 5% kann auch
durch die Zufälligkeit der Daten erklärt sein.
StatSoz
274
9.6 Konfidenzintervall zum Vergleich zweier
Anteilswerte (Zwei-Stichproben-Problem)
Im Folgenden sollen die Aussagen von Abschnitt
9.3 für dichotome Grundgesamtheiten formuliert
werden. Sei X ein 0/1–kodiertes binäres Merkmal.
Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die
Grundgesamtheiten hinsichtlich ihrer Anteilswerte π1 und π2 unterscheiden.
Dazu werden zwei unabhängige Stichproben
x11, . . . , x1n1
(Stichprobe 1)
x21, . . . , x2n2
(Stichprobe 2)
und
erhoben.
StatSoz
275
Jede Beobachtung besitzt entweder den Wert 1
oder 0. Bezeichnen
n1
X
1
x̄1 =
x1i
n1 i=1
und
n2
X
1
x̄2 =
x2j
n2 j=1
die Anteilswerte der beiden Stichproben
(Schätzungen für π1 bzw. π2). Wegen
σ12 = π1 · (1 − π1) und σ22 = π2 · (1 − π2)
beträgt der Standardfehler der Differenz x̄1 −
x̄2
s
π1 · (1 − π1) π2 · (1 − π2)
+
n1
n2
(dies entspricht (9.1)).
StatSoz
276
Damit sind
x̄1 · (1 − x̄1)
und
x̄2 · (1 − x̄2)
(Punkt–)Schätzungen für σ12 bzw. σ22.
Folglich ist
s
x̄1 · (1 − x̄1) x̄2 · (1 − x̄2)
+
n1
n2
eine Schätzung des Standardfehlers von x̄1 −
x̄2.
StatSoz
277
Sind die Faustregeln
n1 · x̄1 · (1 − x̄1) > 9
und
n2 · x̄2 · (1 − x̄2) > 9
erfüllt, so sind die Grenzen eines
Konfidenzintervalls für π1 − π2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99
gegeben durch
s
x̄1 − x̄2 ± z ·
x̄1 · (1 − x̄1) x̄2 · (1 − x̄2)
+
n1
n2
mit den z–Werten z0.95 = 1.645, z0.975 =
1.96, z0.995 = 2.576.
StatSoz
278
9.6 Beispiel: Präferenzverhalten von Frauen/Männer hinsichtlich einer bestimmten (politischen) Partei A. Von 496 befragten Frauen
(Stichprobe 1) äußerten 200 eine Präferenz für
die Partei A. Unter den 435 befragten Männern
(Stichprobe 2) waren es 144, die eine Präferenz
für die Partei A zeigten. Wegen
200
144
x̄1 =
= 0.4 und x̄2 =
= 0.33
496
435
erhält man für die Grenzen eines 0.95–
Konfidenzintervalls
r
0.4 · 0.6 0.33 · 0.67
0.40 − 0.33 ± 1.96 ·
+
496
435
= 0.07 ± 0.06
Beachte: Die Faustregeln sind wegen
496 · 0.4 · (1 − 0.4) = 119.04 > 9
StatSoz
279
und
435 · 0.33 · (1 − 0.33) = 96.17 > 9
erfüllt.
Das 95%–Konfidenzintervall lautet
(0.01, 0.13)
Die Null ist nicht im Konfidenzintervall enthalten.
Interpretation: Der Präferenzunterschied kann
nicht nur durch Zufälligkeit erklärt werden. Mit
95% iger Sicherheit liegt der Präferenzunterschied bei Frauen und Männer zwischen 1% und
13%.
StatSoz
280
Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich,
dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine
Punktschätzung. Während die Bestimmung einer
Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum–
Likelihood–Methode), kann die Bestimmung
eines Konfidenzintervalls äußerst kompliziert
sein, da hierzu Verteilungsaussagen über eine
Punktschätzung benötigt werden.
StatSoz
281
Herunterladen