8 Stichprobenkennwerteverteilung 8.1 Vorbemerkungen Daten x1

Werbung
8 Stichprobenkennwerteverteilung
8.1 Vorbemerkungen
8.2 Die Normalverteilung: Teil 2
8.3 Die t–Verteilung
8.4 Normalverteilungs–Approximation: Der zentrale
Grenzwertsatz
8.1 Vorbemerkungen
Daten
x1 , . . . , x n
sind die Ausprägungswerte einer (zufälligen)
Auswahl von Merkmalsträgern einer Grundgesamtheit (Stichprobe vom Umfang n). Eine andere (zufällige) Auswahl von Merkmalsträgern
wird im Allgemeinen auch zu anderen Daten
führen. Die Variabilität steckt somit in den Daten.
StatBio
199
Folglich unterliegen auch die Werte empirischer
Kenngrößen (x̄n, sn,...) einer Variabilität.
Würde man alle möglichen Stichproben (zum
Stichprobenumfang n) betrachten, so erhielte
man die Verteilung der Stichprobenkennwerte.
Die Verteilung der möglichen Werte einer statistischen Kenngröße heißt Stichprobenkennwerteverteilung (sampling distribution).
Wichtig(st)es Beispiel: Stichprobenverteilung
des Mittelwertes
x̄n =
n
X
1
n i=1
xi
(kurz: Mittelwerteverteilung)
StatBio
200
Die Verteilung eines Stichprobenkennwertes ist
im Allgemeinen unbekannt. Mit Hilfe wahrscheinlichkeitstheoretischer Überlegungen lassen
sich aus gewissen Rahmenbedingungen und Annahmen Aussagen über die Stichprobenkennwerteverteilung herleiten.
Hinweis: Die folgenden Aussagen setzen eine
homogene Grundgesamtheit und eine einfache
Stichprobe (,,Ziehen mit Zurücklegen”) voraus. Diese Aussagen können in der Praxis auch
für solche Stichproben übernommen werden, die
durch ,, Ziehung ohne Zurücklegen” gewonnen
wurden. Für den Auswahlsatz muss dann nur
gelten: n/N ≤ 0.05.
StatBio
201
8.2 Die Normalverteilung: Teil 2
Annahmen:
(1) Das Merkmal ist normalverteilt. Die Grundgesamtheit ist also normalverteilt (Normalverteilungsannahme).
(2) Die Stichprobe ist einfach.
Unter den Annahmen (1) und (2) gilt:
Die Stichprobenverteilung des standardisierten Stichprobenmittels
x̄n − µ
√
σ/ n
ist die Standard–Normalverteilung N (0, 1).
StatBio
202
Folgerung: In der nicht–standardisierten Version
lautet diese Aussage: Die Stichprobenverteilung
√
von x̄n ist die N (µ, σ/ n)–Verteilung.
Fazit: Ist die Grundgesamtheit normalverteilt,
so ist das (standardisierte) Stichprobenmittel
wieder normalverteilt. Dies ist die sogenannte
Reproduktionseigenschaft der Normalverteilung.
8.3 Die t–Verteilung
Es gelten wie in Abschnitt 8.2 die folgenden
Annahmen:
(1) Das Merkmal ist normalverteilt.
(2) Die Stichprobe ist einfach.
Nach Abschnitt 8.2 ist unter diesen Annahmen
StatBio
203
das standardisierte Stichprobenmittel
x̄n − µ
√
σ/ n
N (0, 1)–verteilt.
Frage: Welche Kennwerteverteilung erhält man,
wenn σ ersetzt wird durch die Stichproben–
Standardabweichung s? (Die Beantwortung dieser Frage ist z. B. für Intervallschätzungen wichtig, vgl. die Ausführungen in Abschnitt 6.3.)
Unter den Annahmen (1) und (2) gilt:
StatBio
204
Die Stichprobenverteilung des studentisierten Stichprobenmittels
x̄n − µ
√
s/ n
ist die t –Verteilung mit n − 1 Freiheitsgraden (degrees of freedom, df ).
Die t–Verteilung, auch Student–Verteilung genannt, hängt vom Stichprobenumfang n ab, wobei für die Freiheitsgrade gilt:
Freiheitsgrad = Stichprobenumfang – 1
df
=
n−1
Die Dichte der t–Verteilung ist symmetrisch um
Null, unimodal und nähert sich mit wachsendem
Stichprobenumfang der Dichte ϕ der Standard–
Normalverteilung recht schnell gut an.
StatBio
205
Abbildung 8–1 Die Dichten der t–Verteilung mit 2
Freiheitsgraden (untere Kurve) und 14 Freiheitsgraden
(mittlere Kurve) sowie die Dichte ϕ (obere Kurve)
Für praktische Zwecke kann ab n ≥ 30 die t–
Verteilung durch die Standard–Normalverteilung
ersetzt werden.
Bemerkung: Wie bei der Normalverteilung lässt
sich die Dichte einer t–Verteilung analytisch, also
durch eine Formel, ausdrücken. Diese Formel ist
recht kompliziert. Da ihre Kenntnis für die praktische Anwendung nicht benötigt wird, soll hier
auf die Angabe der Formel verzichtet werden.
StatBio
206
8.4 Normalverteilungs–Approximation: Der
zentrale Grenzwertsatz
Frage: Was lässt sich über die Stichprobenverteilung von x̄n sagen, wenn die Grundgesamtheit
nicht normalverteilt ist?
Annahme: einfache Stichprobe
Für das standardisierte Stichprobenmittel
x̄n − µ
√
σ/ n
gilt die folgende Verteilungsaussage:
StatBio
207
Zentraler Grenzwertsatz (central limit
theorem) Die Stichprobenverteilung des
standardisierten Stichprobenmittels
x̄n − µ
√
σ/ n
nähert sich mit wachsendem Stichprobenumfang n der Standard–Normalverteilung.
Folgerung: Die Stichprobenverteilung von x̄n
lässt sich für hinreichend große Stichproben-√
umfänge durch eine N (µ, σ/ n)–Verteilung beschreiben.
Der Beweis des zentralen Grenzwertsatzes ist
mathematisch anspruchsvoll.
StatBio
208
Für praktische Zwecke kann die Stichprobenverteilung von
x̄n − µ
√
σ/ n
durch eine N (0, 1)–Verteilung ersetzt werden,
wenn n hinreichend groß ist. Faustregel:
n ≥ 30
(besser: n ≥ 100)
Gemäß der obigen Folgerung kann die Stichpro√
benverteilung von x̄n durch eine N (µ, σ/ n)–
Verteilung ersetzt werden, falls n ≥ 30.
Bemerkung 8.1: Obige Aussagen bleiben gültig,
wenn der Parameter σ ersetzt wird durch die
Stichprobenstandardabweichung s. Damit ist –
aus praktischer Sicht – die Streuung der Mittelwerteverteilung
√
√
SEM = σ/ n ≈ s/ n
StatBio
209
und ihre Form - zumindest bei hinreichend
großen Stichprobenumfängen – bekannt.
Binäre Merkmale
Der zentrale Grenzwertsatz soll speziell für
binäre Merkmale (dichotome Grundgesamtheiten) nochmals formuliert werden. Sei im Folgenden X ein binäres Merkmal. Im allgemeinen
Sprachgebrauch interpretiert man das Eintreten
des Ereignisses X = 1 als ,,Treffer”, das Nichteintreten X = 0 als ,,Niete”:
1, falls Treffer
X=
0, falls Niete
StatBio
210
Die Verteilung eines binären Merkmals X ist
gegeben durch die Bernoulli–Verteilung
P (X = 1) = π
P (X = 0) = 1 − π
0 ≤ π ≤ 1 (Abschnitt 7.2).
Von Interesse ist der Anteilswert π:
π = Anteil der Merkmalsträger einer
Grundgesamtheit mit Ausprägung 1
N
X
1
=
yj
N j=1
Dabei bezeichnen y1, . . . , yN die Ausprägungen
der von 1 bis N durchnummerierten Merkmalsträger einer Grundgesamtheit.
StatBio
211
Beachte: Für die (kodierten) Werte yj einer dichotomen Grundgesamtheit gilt stets
yj = 1 oder yj = 0
und somit
Anteilswert π = Populationsmittelwert µ
Für die Populationsvarianz gilt
σ2
N
X
1
=
(yj − π)2
N j=1
= π · (1 − π)
(Aufgabe 3, Blatt 6).
Das Stichprobenmittel ist die relative Trefferhäufigkeit
Anzahl der Beobachtungen xi mit xi = 1
x̄n =
n
StatBio
212
Wegen
p
µ = π und σ = π · (1 − π)
ergibt sich die folgende Aussage:
Zentraler Grenzwertsatz für binäre
Merkmale (dichotome Grundgesamtheiten) Die Stichprobenverteilung der
standardisierten relativen Trefferhäufigkeit
x̄n − π
p
√
π · (1 − π)/ n
nähert sich mit wachsendem Stichprobenumfang n der Standard–Normalverteilung.
StatBio
213
Folgerung: Die Stichprobenverteilung der relativen Trefferhäufigkeit x̄n lässt sich für
hinreichend p
große Stichprobenumf
änge durch
√ eine N π, π · (1 − π)/ n –Verteilung beschreiben.
Damit diese Annäherung hinreichend gut ist,
muss der Stichprobenumfang n hinreichend groß
sein und π darf nicht zu klein sein, darf also
nicht in der Nähe von 0 liegen bzw. π darf nicht
zu groß sein, darf also nicht in der Nähe von 1
liegen.
Eine geläufige Faustregel lautet: Die Annäherung ist hinreichend gut, wenn
n · π · (1 − π) > 9
(8.1)
gilt. Im Fall π = 1/2 bedeutet dies n > 36.
StatBio
214
Bemerkung 8.3: (vgl. Bem. 8.1) Die Aussage
des zentralen Grenzwertsatzes bleibt gültig, wenn
p
σ = π · (1 − π)
ersetzt wird durch die Stichprobenstandardabweichung
r
n
s=
· x̄n · (1 − x̄n)
n−1
(vgl. Aufgabe 3, Blatt 6). In der Praxis wird aber
meistens die (naheliegende) Schätzung
p
x̄n · (1 − x̄n)
verwendet. Zur Erinnerung: x̄ ist eine plausible
Schätzung von π.
Faustregel: Für binäre Merkmale kann der zentrale Grenzwertsatz angewendet werden, falls
n · x̄n · (1 − x̄n) > 9
StatBio
(8.2)
215
Bemerkung: Im Gegensatz zur Faustregel (8.1)
setzt Bedingung (8.2) nicht voraus, dass π bekannt ist oder hypothetisch als bekannt voraus
gesetzt wird.
Abbildung 8–2 Histogramme von Stichprobenverteilungen der standardisierten relativen Trefferhäufigkeit für
π = 0.3 und n = 5 (oben links), n = 25 (oben rechts),
n = 50 (unten links), n = 100 (unten rechts mit der
Dichte der Standardnormalverteilung ϕ)
StatBio
216
Abschließende Bemerkung: Die Stichprobenverteilung der Trefferhäufigkeit lässt sich mathematisch genau bestimmen. Es ist die sogenannte Binomialverteilung. Der zentrale Grenzwertsatz besagt, dass sich die Binomialverteilung
für hinreichend große Stichprobenumfänge durch
eine Normalverteilung ersetzen lässt (Normalverteilungsapproximation der Binomialverteilung). Da in der Praxis häufig die Binomialverteilung durch eine Normalverteilung ersetzt
werden kann, soll hier auf die Binomialverteilung
nicht näher eingegangen werden.
StatBio
217
Herunterladen