8 Stichprobenkennwerteverteilung 8.1 Vorbemerkungen 8.2 Die Normalverteilung: Teil 2 8.3 Die t–Verteilung 8.4 Normalverteilungs–Approximation: Der zentrale Grenzwertsatz 8.1 Vorbemerkungen Daten x1 , . . . , x n sind die Ausprägungswerte einer (zufälligen) Auswahl von Merkmalsträgern einer Grundgesamtheit (Stichprobe vom Umfang n). Eine andere (zufällige) Auswahl von Merkmalsträgern wird im Allgemeinen auch zu anderen Daten führen. Die Variabilität steckt somit in den Daten. StatBio 199 Folglich unterliegen auch die Werte empirischer Kenngrößen (x̄n, sn,...) einer Variabilität. Würde man alle möglichen Stichproben (zum Stichprobenumfang n) betrachten, so erhielte man die Verteilung der Stichprobenkennwerte. Die Verteilung der möglichen Werte einer statistischen Kenngröße heißt Stichprobenkennwerteverteilung (sampling distribution). Wichtig(st)es Beispiel: Stichprobenverteilung des Mittelwertes x̄n = n X 1 n i=1 xi (kurz: Mittelwerteverteilung) StatBio 200 Die Verteilung eines Stichprobenkennwertes ist im Allgemeinen unbekannt. Mit Hilfe wahrscheinlichkeitstheoretischer Überlegungen lassen sich aus gewissen Rahmenbedingungen und Annahmen Aussagen über die Stichprobenkennwerteverteilung herleiten. Hinweis: Die folgenden Aussagen setzen eine homogene Grundgesamtheit und eine einfache Stichprobe (,,Ziehen mit Zurücklegen”) voraus. Diese Aussagen können in der Praxis auch für solche Stichproben übernommen werden, die durch ,, Ziehung ohne Zurücklegen” gewonnen wurden. Für den Auswahlsatz muss dann nur gelten: n/N ≤ 0.05. StatBio 201 8.2 Die Normalverteilung: Teil 2 Annahmen: (1) Das Merkmal ist normalverteilt. Die Grundgesamtheit ist also normalverteilt (Normalverteilungsannahme). (2) Die Stichprobe ist einfach. Unter den Annahmen (1) und (2) gilt: Die Stichprobenverteilung des standardisierten Stichprobenmittels x̄n − µ √ σ/ n ist die Standard–Normalverteilung N (0, 1). StatBio 202 Folgerung: In der nicht–standardisierten Version lautet diese Aussage: Die Stichprobenverteilung √ von x̄n ist die N (µ, σ/ n)–Verteilung. Fazit: Ist die Grundgesamtheit normalverteilt, so ist das (standardisierte) Stichprobenmittel wieder normalverteilt. Dies ist die sogenannte Reproduktionseigenschaft der Normalverteilung. 8.3 Die t–Verteilung Es gelten wie in Abschnitt 8.2 die folgenden Annahmen: (1) Das Merkmal ist normalverteilt. (2) Die Stichprobe ist einfach. Nach Abschnitt 8.2 ist unter diesen Annahmen StatBio 203 das standardisierte Stichprobenmittel x̄n − µ √ σ/ n N (0, 1)–verteilt. Frage: Welche Kennwerteverteilung erhält man, wenn σ ersetzt wird durch die Stichproben– Standardabweichung s? (Die Beantwortung dieser Frage ist z. B. für Intervallschätzungen wichtig, vgl. die Ausführungen in Abschnitt 6.3.) Unter den Annahmen (1) und (2) gilt: StatBio 204 Die Stichprobenverteilung des studentisierten Stichprobenmittels x̄n − µ √ s/ n ist die t –Verteilung mit n − 1 Freiheitsgraden (degrees of freedom, df ). Die t–Verteilung, auch Student–Verteilung genannt, hängt vom Stichprobenumfang n ab, wobei für die Freiheitsgrade gilt: Freiheitsgrad = Stichprobenumfang – 1 df = n−1 Die Dichte der t–Verteilung ist symmetrisch um Null, unimodal und nähert sich mit wachsendem Stichprobenumfang der Dichte ϕ der Standard– Normalverteilung recht schnell gut an. StatBio 205 Abbildung 8–1 Die Dichten der t–Verteilung mit 2 Freiheitsgraden (untere Kurve) und 14 Freiheitsgraden (mittlere Kurve) sowie die Dichte ϕ (obere Kurve) Für praktische Zwecke kann ab n ≥ 30 die t– Verteilung durch die Standard–Normalverteilung ersetzt werden. Bemerkung: Wie bei der Normalverteilung lässt sich die Dichte einer t–Verteilung analytisch, also durch eine Formel, ausdrücken. Diese Formel ist recht kompliziert. Da ihre Kenntnis für die praktische Anwendung nicht benötigt wird, soll hier auf die Angabe der Formel verzichtet werden. StatBio 206 8.4 Normalverteilungs–Approximation: Der zentrale Grenzwertsatz Frage: Was lässt sich über die Stichprobenverteilung von x̄n sagen, wenn die Grundgesamtheit nicht normalverteilt ist? Annahme: einfache Stichprobe Für das standardisierte Stichprobenmittel x̄n − µ √ σ/ n gilt die folgende Verteilungsaussage: StatBio 207 Zentraler Grenzwertsatz (central limit theorem) Die Stichprobenverteilung des standardisierten Stichprobenmittels x̄n − µ √ σ/ n nähert sich mit wachsendem Stichprobenumfang n der Standard–Normalverteilung. Folgerung: Die Stichprobenverteilung von x̄n lässt sich für hinreichend große Stichproben-√ umfänge durch eine N (µ, σ/ n)–Verteilung beschreiben. Der Beweis des zentralen Grenzwertsatzes ist mathematisch anspruchsvoll. StatBio 208 Für praktische Zwecke kann die Stichprobenverteilung von x̄n − µ √ σ/ n durch eine N (0, 1)–Verteilung ersetzt werden, wenn n hinreichend groß ist. Faustregel: n ≥ 30 (besser: n ≥ 100) Gemäß der obigen Folgerung kann die Stichpro√ benverteilung von x̄n durch eine N (µ, σ/ n)– Verteilung ersetzt werden, falls n ≥ 30. Bemerkung 8.1: Obige Aussagen bleiben gültig, wenn der Parameter σ ersetzt wird durch die Stichprobenstandardabweichung s. Damit ist – aus praktischer Sicht – die Streuung der Mittelwerteverteilung √ √ SEM = σ/ n ≈ s/ n StatBio 209 und ihre Form - zumindest bei hinreichend großen Stichprobenumfängen – bekannt. Binäre Merkmale Der zentrale Grenzwertsatz soll speziell für binäre Merkmale (dichotome Grundgesamtheiten) nochmals formuliert werden. Sei im Folgenden X ein binäres Merkmal. Im allgemeinen Sprachgebrauch interpretiert man das Eintreten des Ereignisses X = 1 als ,,Treffer”, das Nichteintreten X = 0 als ,,Niete”: 1, falls Treffer X= 0, falls Niete StatBio 210 Die Verteilung eines binären Merkmals X ist gegeben durch die Bernoulli–Verteilung P (X = 1) = π P (X = 0) = 1 − π 0 ≤ π ≤ 1 (Abschnitt 7.2). Von Interesse ist der Anteilswert π: π = Anteil der Merkmalsträger einer Grundgesamtheit mit Ausprägung 1 N X 1 = yj N j=1 Dabei bezeichnen y1, . . . , yN die Ausprägungen der von 1 bis N durchnummerierten Merkmalsträger einer Grundgesamtheit. StatBio 211 Beachte: Für die (kodierten) Werte yj einer dichotomen Grundgesamtheit gilt stets yj = 1 oder yj = 0 und somit Anteilswert π = Populationsmittelwert µ Für die Populationsvarianz gilt σ2 N X 1 = (yj − π)2 N j=1 = π · (1 − π) (Aufgabe 3, Blatt 6). Das Stichprobenmittel ist die relative Trefferhäufigkeit Anzahl der Beobachtungen xi mit xi = 1 x̄n = n StatBio 212 Wegen p µ = π und σ = π · (1 − π) ergibt sich die folgende Aussage: Zentraler Grenzwertsatz für binäre Merkmale (dichotome Grundgesamtheiten) Die Stichprobenverteilung der standardisierten relativen Trefferhäufigkeit x̄n − π p √ π · (1 − π)/ n nähert sich mit wachsendem Stichprobenumfang n der Standard–Normalverteilung. StatBio 213 Folgerung: Die Stichprobenverteilung der relativen Trefferhäufigkeit x̄n lässt sich für hinreichend p große Stichprobenumf änge durch √ eine N π, π · (1 − π)/ n –Verteilung beschreiben. Damit diese Annäherung hinreichend gut ist, muss der Stichprobenumfang n hinreichend groß sein und π darf nicht zu klein sein, darf also nicht in der Nähe von 0 liegen bzw. π darf nicht zu groß sein, darf also nicht in der Nähe von 1 liegen. Eine geläufige Faustregel lautet: Die Annäherung ist hinreichend gut, wenn n · π · (1 − π) > 9 (8.1) gilt. Im Fall π = 1/2 bedeutet dies n > 36. StatBio 214 Bemerkung 8.3: (vgl. Bem. 8.1) Die Aussage des zentralen Grenzwertsatzes bleibt gültig, wenn p σ = π · (1 − π) ersetzt wird durch die Stichprobenstandardabweichung r n s= · x̄n · (1 − x̄n) n−1 (vgl. Aufgabe 3, Blatt 6). In der Praxis wird aber meistens die (naheliegende) Schätzung p x̄n · (1 − x̄n) verwendet. Zur Erinnerung: x̄ ist eine plausible Schätzung von π. Faustregel: Für binäre Merkmale kann der zentrale Grenzwertsatz angewendet werden, falls n · x̄n · (1 − x̄n) > 9 StatBio (8.2) 215 Bemerkung: Im Gegensatz zur Faustregel (8.1) setzt Bedingung (8.2) nicht voraus, dass π bekannt ist oder hypothetisch als bekannt voraus gesetzt wird. Abbildung 8–2 Histogramme von Stichprobenverteilungen der standardisierten relativen Trefferhäufigkeit für π = 0.3 und n = 5 (oben links), n = 25 (oben rechts), n = 50 (unten links), n = 100 (unten rechts mit der Dichte der Standardnormalverteilung ϕ) StatBio 216 Abschließende Bemerkung: Die Stichprobenverteilung der Trefferhäufigkeit lässt sich mathematisch genau bestimmen. Es ist die sogenannte Binomialverteilung. Der zentrale Grenzwertsatz besagt, dass sich die Binomialverteilung für hinreichend große Stichprobenumfänge durch eine Normalverteilung ersetzen lässt (Normalverteilungsapproximation der Binomialverteilung). Da in der Praxis häufig die Binomialverteilung durch eine Normalverteilung ersetzt werden kann, soll hier auf die Binomialverteilung nicht näher eingegangen werden. StatBio 217