Teil 3: Schließende Statistik Grundfragen der schließenden Statistik 1. Welcher Parameter passt am besten zu den Beobachtungen? 2. Welche Parameterwerte sind mit den Beobachtungen vereinbar? 3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar? Die statistischen Methoden, die auf diese drei Fragen eine Antwort geben, heißen (1) Punktschätzungen (Kap. 9) (2) Intervallschätzungen (Kap. 9) (3) Tests (ab Kap. 10) StatBio 218 9 Schätzung von Parametern 9.1 Punkt– und Intervallschätzungen 9.2 Konfidenzintervall für einen Mittelwert 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte 9.4 Die Bedeutung des Stichprobenumfangs 9.5 Konfidenzintervall für einen Anteilswert 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte Die folgenden Aussagen setzen wieder eine einfache Stichprobe x1, . . . , xn voraus (,,Ziehen mit Zurücklegen” aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen werden, die durch ,, Ziehung ohne Zurücklegen” gewonnen wurden. Für den Auswahlsatz muss dann nur gelten: n/N ≤ 0.05. StatBio 219 9.1 Punkt– und Intervallschätzungen Von einer Punktschätzung spricht man, wenn man sich auf die Bestimmung eines Zahlenwertes als Schätzwert für einen Parameter beschränkt. Einer (einfachen) Stichprobe x1, . . . , xn wird ein Zahlenwert zugeordnet. Dieser Zahlenwert heißt eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische Maßzahlen. Beispiele: (i) Schätzung µ̂ für den Populations–Mittelwert µ: der empirische Mittelwert µ̂ = x̄ = StatBio n X 1 n i=1 xi 220 (ii) Schätzung σ̂ 2 für die Populations–Varianz σ 2: die empirische Varianz n X 1 σ̂ = s = (xi − x̄)2 n − 1 i=1 2 2 Es gibt verschiedene Punktschätzer. Gütekriterien für Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung: ,,Im Mittel” schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte Schätzungen. Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden. Punktschätzungen haben einen entscheidenden Nachteil: Sie machen keine Aussagen über den StatBio 221 Schätzfehler. Wie ,,weit” ist das empirische Stichprobenmittel x̄ von µ entfernt, x̄ − µ =? Beachte: x̄ ist ausgesprochen selten gleich µ. Intuitiv ist klar, dass eine Punktschätzung um so genauer sein wird, je größer der Stichprobenumfang ist. Aus theoretischen Überlegungen ist bekannt (Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung s ESEM = √ n zu erwarten ist. Plausible Schätzwerte für µ sind demnach alle Werte des Intervalls s s x̄ − √ , x̄ + √ n n StatBio 222 also alle Werte zwischen der √ unteren Grenze = x̄ − s/ n und der √ oberen Grenze = x̄ + s/ n Einer Stichprobe wird somit ein ganzes Intervall von Parameterwerten zugeordnet, die alle ,,plausibel” (d.h. ,,mit den Daten verträglich”) sind. Man spricht von einer Intervallschätzung. Frage: Wie gut ist die ,,Intervallschätzung”? Präziser gefragt: Mit welcher Zuverlässigkeit liegt µ in einem solchen Intervall? Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden StatBio 223 Stichprobe) den Parameter µ enthält, vgl. die Ausführungen nach Tabelle 6.5. Der Anteil der Intervalle, die µ enthalten, für die also s s x̄ − √ < µ < x̄ + √ n n gilt, ist gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −1 und 1 liegen: x̄ − µ −1 < √ < 1 s/ n Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N (0, 1)–verteiltes Merkmal Z Werte zwischen −1 und 1 annehmen wird −1 < Z < 1 StatBio 224 Denn: Für hinreichend große Stichprobenumfänge (n ≥ 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das studentisierte Stichprobenmittel annähernd verteilt wie Z. Die Wahrscheinlichkeit beträgt P (−1 < Z < 1) = Φ(1) − Φ(−1) = 2 · Φ(1) − 1 = 2 · 0.8413 − 1 = 0.6826 Abbildung 9–1 Fläche unter ϕ im Bereich [−1, 1] StatBio 225 Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten etwa 68% der daraus berechneten Intervalle den wahren Parameter µ. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) s s x̄ − √ , x̄ + √ n n den Parameter µ mit einer Vertrauens– Wahrscheinlichkeit von etwa 68%. StatBio 226 In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und das Intervall muss passend gewählt werden. Dies führt zum Vertrauensintervall (confidence interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen Konfidenzniveau. 9.2 Konfidenzintervall für einen Mittelwert Um eine Vorstellung von der Genauigkeit einer Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein Intervall, dessen untere und obere Grenze von der Stichprobe abhängen. Dieses zufallsabhängige Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig mit 0.9, 0.95 oder 0.99. StatBio 227 Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto breiter muss das Konfidenzintervall gewählt werden. Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen, muss man den Bereich s x̄ ± √ n vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten √ Standardfehlers s/ n betrachtet: s x̄ ± z · √ n StatBio 228 Frage: Wie ist der z–Wert – in Abhängigkeit von der Vertrauenswahrscheinlichkeit 0.95 – zu wählen? Aufgrund der Vorüberlegungen in Abschnitt 9.1 ist klar: Der z–Wert muss größer als 1 sein (die Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%). Nun: µ liegt im Intervall s s x̄ − z · √ , x̄ + z · √ n n wenn s s x̄ − z · √ < µ < x̄ + z · √ n n gilt und dies ist gleichbedeutend mit x̄ − µ −z < √ < z s/ n StatBio 229 Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −z und z liegen, für die also x̄ − µ −z < √ < z s/ n gilt. Der Anteil, der aufgrund des zentralen Grenzwertsatzes erwartet wird, entspricht der Wahrscheinlichkeit des Ereignisses −z < Z < z und diese ist P (−z < Z < z) = Φ(z) − Φ(−z) = 2 · Φ(z) − 1 Somit bestimmt sich z als Lösung der Gleichung 2 · Φ(z) − 1 = 0.95 StatBio 230 also 1.95 Φ(z) = = 0.975 2 Der z–Wert, der diese Gleichung löst, wird als 0.975–Quantil der Standardnormalverteilung bezeichnet, kurz z0.975 (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 6, Blatt 5). Das 0.975–Quantil z0.975 ist die eindeutig bestimmte Zahl mit der Eigenschaft Φ(z0.975) = 0.975 Aus Tab. 7–2 entnimmt man die Lösung z0.975 = 1.96 d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z0.975 = 1.96 (vgl. Abb. 7–6). StatBio 231 Somit lauten die Grenzen Konfidenzintervalls für µ eines 0.95– s x̄ ± 1.96 · √ n Häufigkeitsinterpretation: Wenn sehr viele Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren Parameter µ. Nur etwa 5% aller Stichproben liefern Intervalle, die den Parameter µ nicht enthalten. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) StatBio s s x̄ − 1.96 · √ , x̄ + 1.96 · √ n n 232 den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%. Konfidenzintervalle für µ zu den (Vertrauens-) Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält man mit den Quantilen z0.950 = 1.645 z0.975 = 1.960 z0.995 = 2.576 Diese Quantile sind die eindeutigen Lösungen der Gleichungen (in z) 1.90 2 · Φ(z) − 1 = 0.90, also Φ(z) = = 0.950 2 1.95 2 · Φ(z) − 1 = 0.95, also Φ(z) = = 0.975 2 1.99 2 · Φ(z) − 1 = 0.99, also Φ(z) = = 0.995 2 StatBio 233 90%–Konfidenzintervall: s s x̄ − 1.645 · √ , x̄ + 1.645 · √ n n Anteil: 5% Anteil: 90% ( ) x̄ − 1.645 · √sn Anteil: 5% x̄ + 1.645 · √sn 95%–Konfidenzintervall: s s x̄ − 1.96 · √ , x̄ + 1.96 · √ n n Anteil: 2.5% Anteil: 95% ( ) x̄ − 1.96 · √sn StatBio Anteil: 2.5% x̄ + 1.960 · √sn 234 99%–Konfidenzintervall: s s x̄ − 2.576 · √ , x̄ + 2.576 · √ n n Anteil: 0.5% Anteil: 99% ( Anteil: 0.5% ) x̄ − 2.576 · √sn x̄ + 2.576 · √sn Für kleine Stichprobenumfänge (n < 30) lässt sich die Stichprobenverteilung von x̄ − µ √ s/ n nicht mehr hinreichend gut durch eine Standard– Normalverteilung beschreiben. Es muss dann vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die StichproStatBio 235 benverteilung die t–Verteilung mit n − 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies, dass man den z–Wert durch einen t–Wert zu ersetzen hat. Formal wird in den Intervallgrenzen s x̄ ± z · √ n der z–Wert ersetzt durch einen t–Wert: s x̄ ± t · √ n Man hat also das Quantil der Standard–Normalverteilung durch das entsprechende Quantil der t–Verteilung mit n − 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab. 9–1. StatBio 236 Allgemeine Bezeichnungen für Quantile der t– Verteilung mit df = n − 1 Freiheitsgraden: Zum Konfidenzniveau 0.9: tdf ;0.950 = tn−1;0.950 (0.95–Quantil) Zum Konfidenzniveau 0.95: tdf ;0.975 = tn−1;0.975 (0.975–Quantil) Zum Konfidenzniveau 0.99: tdf ;0.995 = tn−1;0.995 (0.995–Quantil) Die konkreten Werte sind für df ≤ 30 in Tab. 9.1 zusammengefasst. StatBio 237 Allgemeine Darstellung der Konfidenzintervalle zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n: 90%–Konfidenzintervall: s s x̄ − tn−1;0.950 · √ , x̄ + tn−1;0.950 · √ n n 95%–Konfidenzintervall: s s x̄ − tn−1;0.975 · √ , x̄ + tn−1;0.975 · √ n n 99%–Konfidenzintervall: s s x̄ − tn−1;0.995 · √ , x̄ + tn−1;0.995 · √ n n StatBio 238 Tabelle 9–1 t–Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten Zeile (df = ∞) sind die entsprechenden z–Werte der Standard–Normalverteilung) StatBio df 1 2 3 4 5 0.90–Niveau tdf ;0.950 6.314 2.920 2.353 2.132 2.015 0.95–Niveau tdf ;0.975 12.706 4.303 3.182 2.776 2.571 0.99–Niveau tdf ;0.995 63.657 9.925 5.841 4.604 4.032 6 7 8 9 10 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.707 3.499 3.355 3.250 3.169 11 12 13 14 15 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 3.106 3.055 3.012 2.977 2.947 239 StatBio df 16 17 18 19 20 0.90–Niveau tdf ;0.950 1.746 1.740 1.734 1.729 1.725 0.95–Niveau tdf ;0.975 2.120 2.110 2.101 2.093 2.086 0.99–Niveau tdf ;0.995 2.921 2.898 2.878 2.861 2.845 21 22 23 24 25 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.831 2.819 2.807 2.797 2.787 26 27 28 29 30 1.706 1.703 1.701 1.699 1.697 2.056 2.052 2.048 2.045 2.042 2.779 2.771 2.763 2.756 2.750 ∞ 1.645 1.960 2.576 240 Aus Tab. 9–1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender Anzahl der Freiheitsgrade, die Quantile der t– Verteilung kleiner werden und sich den Quantilen der Standard–Normalverteilung annähern. 9.1 Beispiel: Bei 30 Studentinnen ergab sich eine Durchschnittsgröße (in cm) von x̄ = 168.3 und eine Standardabweichung von s = 5.2. Als Vertrauensniveau sei 0.95 vorgegeben. Der Stichprobenumfang ist n = 30, also df = n − 1 = 30 − 1 = 29 Nach Tab. 9–1 ist der t–Wert gleich t29;0.975 = 2.045. Daraus ergibt sich das 0.95– Konfidenzintervall StatBio 241 5.2 5.2 168.3 − 2.045 · √ , 168.3 + 2.045 · √ 30 30 = (166.4, 170.2) Interpretation: Mit 95% iger Sicherheit liegt die durchschnittliche Körpergröße von Studentinnen zwischen 166 cm und 170 cm. Verbundene Stichproben Häufig werden Stichproben in Form von Paaren (x1i, x2i), i = 1, . . . , n erhoben. Paare treten auf bei • Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den StatBio 242 beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden. Ein Paar (x1i, x2i) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus Stichprobe 1 und den Beobachtungswert des zugeordneten Merkmalsträgers aus Stichprobe 2. Beispiel: Methodenvergleich bei benachbarten Feldern. • Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher–Nachher– Vergleich). Ein Paar (x1i, x2i) beschreibt dann die Messwerte des Merkmalsträgers i zu den beiden Zeitpunkten 1 (vorher) und 2 (nachher). Beispiel: Körpergewicht vor und nach einer Diät. StatBio 243 Stichprobe 1 Stichprobe 2 x11 x21 x12 x22 x13 x23 .. .. x1n x2n Die Beobachtungen x1i und x2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der Stichprobe 2 (und/oder umgekehrt). Man spricht daher von einer verbundenen Stichprobe oder einer gepaarten Stichprobe (paired samples). Aufgrund der Abhängigkeit ist es sinnvoll, nicht beide Stichproben einzeln zu betrachten, sondern nur die jeweils zusammengehörenden Paare (x11, x21), (x12, x22), (x13, x23), . . . , (x1n, x2n) StatBio 244 Für jedes Paar i bildet man die Differenz di = x1i − x2i, i = 1, . . . , n Häufig ist es gerechtfertigt, die Unabhängigkeit der Differenzen anzunehmen, so dass d1, d2, . . . , dn als eine einfache Stichprobe aufgefasst werden kann. Der Mittelwert der Paardifferenzen n X 1 d¯ = di n i=1 ist ein geeigneter Schätzwert für µd = µ1 − µ2 (µd ist der Mittelwert der Paardifferenzen in der Grundgesamtheit). StatBio 245 Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität der Daten zurückzuführen? Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ1 und µ2 gibt, ist zu erwarten, dass der Schätzwert µ̂d = d¯ in der Nähe von 0 liegt. Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µd ist hier wesentlich informativer! Ein 0.95–Konfidenzintervall für µd ist gegeben durch die Grenzen sd ¯ d ± 1.96 · √ n StatBio 246 wobei v u n u 1 X ¯2 sd = t (di − d) n − 1 i=1 die Standardabweichung der Paardifferenzen d1, . . . , dn bezeichnet. 9.2 Beispiel: Morton et al. (1982), American Journal of Epidemiology 155, 549–555, untersuchten den Bleigehalt im Blut von Kindern, deren Eltern in einer Fabrik arbeiteten, die Blei zu Herstellung von Batterien verwendete. Um die Fragestellung zu untersuchen, ob die Kinder einer Bleibelastung ausgesetzt waren, die von ihren Eltern herrührte, wurde der Bleigehalt von 33 Kindern aus verschieden Familien untersucht und mit demjenigen von 33 jeweils gleichaltrigen und aus der Nachbarschaft stammenden Kontrollkindern verglichen. Deren Eltern arbeiteten in Industriezweigen, in denen kein Blei verwendet wurde. Eine Antwort soll ein 95%– StatBio 247 Konfidenzintervall geben. Die 33 Paardifferenzen ergaben die Werte d¯ = 15.96 und sd = 15.86 (Differenz: Bleigehalt Kind – Bleigehalt Kontrollkind). Als 0.95–Konfidenzintervall für µd erhält man sd sd ¯ ¯ d − 1.96 · √ , d + 1.96 · √ n n 15.86 15.86 = 15.96 − 1.96 · √ , 15.96 + 1.96 · √ 33 33 = (10.55, 21.37) StatBio 248 Der Wert 0 liegt nicht im 0.95– Konfidenzintervall. Interpretation: Mit 95% iger Sicherheit nehmen Kinder, deren Eltern der oben beschriebenen Bleibelastung ausgesetzt sind, ebenfalls Blei auf. Die Belastung liegt mindestens bei 10.5. Bei kleinen Stichprobenumfängen (n < 30) muss angenommen werden, dass die Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95– Konfidenzintervall ist dann gegeben durch sd ¯ d ± tn−1;0.975 · √ n Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse. Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein– Stichproben–Problem). StatBio 249 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte (Zwei-Stichproben-Problem) Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ1 und µ2? Dazu vergleicht man die Mittelwerte zweier Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben). Stichprobe aus Stichprobe aus Grundgesamtheit 1 Grundgesamtheit 2 x11 x21 x12 x22 x13 x23 .. .. x1n1 x2n2 Beachte: n1 6= n2 ist ausdrücklich zugelassen! StatBio 250 Man vergleicht die Mittelwerte n1 n2 X X 1 1 x̄1 = x1i und x̄2 = x2j n1 i=1 n2 j=1 der beiden Stichproben. Die Differenz der beiden Mittelwerte x̄1 − x̄2 ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ1 − µ2. Neben dieser Punktschätzung für µ1 − µ2 benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung von x̄1 − x̄2). Man kann zeigen, dass der Standardfehler der Differenz x̄1 − x̄2 gegeben ist durch s σ12 σ22 σx̄1−x̄2 = + (9.1) n1 n2 Annahme: Beide Populationen besitzen die gleiStatBio 251 che Varianz σ 2 (d.h. σ12 = σ22 = σ 2). Man spricht von Varianzhomogenität. Unter der Annahme der Varianzhomogenität geht Formel (9.1) über in s σx̄1−x̄2 σ2 σ2 = + n1 n2 r 1 1 = σ· + n1 n2 r n1 + n2 = σ· n1 · n2 (9.2) Frage: Was ist eine vernünftige Schätzung von σ 2 (und damit für σ) im Zwei–Stichprobenfall? Im Fall der Varianzhomogenität ist die StatBio 252 gepoolte (Stichproben–)Varianz Pn1 s2gepoolt i=1 = x1i − x̄1 2 + Pn2 j=1 x2j − x̄2 2 n1 − 1 + n2 − 1 eine vernünftige Schätzung für σ 2. Die gepoolte Varianz lässt sich schreiben in der Form s2gepoolt (n1 − 1) · s21 + (n2 − 1) · s22 = (n1 − 1) + (n2 − 1) (n1 − 1) · s21 + (n2 − 1) · s22 = n1 + n2 − 2 Dabei bezeichnen s21 und s22 StatBio n1 X 2 1 = x1i − x̄1 n1 − 1 i=1 n2 X 2 1 x2j − x̄2 = n2 − 1 j=1 253 die Varianzen der Stichproben 1 und 2. Bemerkung: Natürlich sind s21 und s22 ebenfalls plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz nimmt hingegen Bezug auf beide Stichproben und kombiniert in geeigneter Weise die beiden Schätzungen s21 und s22. Daher ist die gepoolte Varianz eine genauere Schätzung für σ 2 als die ,,Einzelvarianzen” s21 bzw. s22. Ersetzt man in (9.2) σ durch sgepoolt, so erhält man als Schätzung für den Standardfehler von x̄1 − x̄2 r sgepoolt · n1 + n2 n1 · n2 Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten MittelwertStatBio 254 differenz x̄1 − x̄2 − (µ1 − µ2) q 2 sgepoolt · nn11+n ·n2 (9.3) annähernd eine N (0, 1)–Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend groß (n1 ≥ 30, n2 ≥ 30). Für Stichprobenumfänge n1 ≥ 30, n2 ≥ 30 sind die Grenzen eines Konfidenzintervalls für µ1 −µ2 zur Vertrauenswahrscheinlichkeit 0.90, 0.95, 0.99 gegeben durch r x̄1 − x̄2 ± z · sgepoolt · n1 + n2 n 1 · n2 mit den z–Werten 1.645, 1.960, 2.576. StatBio 255 9.3 Beispiel: Es wurden die Körpergrößen von 39 männlichen und von 30 weiblichen Studenten gemessen. Es ergaben sich die folgenden Werte (Stichprobe 1 = männlich, Stichprobe 2 = weiblich): x̄1 = 182.5, s1 = 6.7 x̄2 = 168.3, s2 = 5.2 Ist µmännlich (µ1) = µweiblich (µ2)? Die Differenz der Stichprobenmittel beträgt 182.5 − 168.3 = 14.2 Ferner ist r sgepoolt = StatBio 38 · 6.72 + 29 · 5.22 = 6.096 39 + 30 − 2 256 Daraus ergeben sich die folgenden Grenzen eines 0.95–Konfidenzintervalls für µ1 − µ2: r 182.5 − 168.3 ± 1.96 · 6.096 · 39 + 30 39 · 30 = 14.2 ± 2.91 Ein 0.95–Konfidenzintervall für µ1 − µ2 ist somit (11.29, 17.11) Die Null ist nicht im Konfidenzintervall enthalten! Interpretation: Die Mittelwertsunterschiede in den Körpergrößen lassen sich nicht nur auf Zufälligkeiten zurückführen. StatBio 257 Für kleine Stichprobenumfänge (n1 < 30, n2 < 30) muss vorausgesetzt werden, dass die Grundgesamtheiten normalverteilt sind. In diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t–Verteilung mit Anzahl der Freiheitsgrade (df ) = n1 +n2 −2 Die Grenzen eines Konfidenzintervalls für µ1 −µ2 sind dann gegeben durch r x̄1 − x̄2 ± t · sgepoolt · n 1 + n2 n1 · n2 Der t–Wert ist das Quantil der t–Verteilung mit n1 + n2 − 2 Freiheitsgraden. Dieses wird wieder aus Tab. 9–1 entsprechend der vorgegebenen Vertrauenswahrscheinlichkeit entnommen. StatBio 258 Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ1 − µ2 angeben. Der Standardfehler der Differenz x̄1 − x̄2 ist nach (9.1) s und somit ist σ12 σ22 + n1 n2 s s21 s22 + n1 n2 der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben durch s s21 s22 x̄1 − x̄2 ± t · + n1 n 2 Warum nur approximativ? StatBio 259 Im Fall heterogener Varianzen ist die (exakte) Stichprobenverteilung der studentisierten Mittelwertdifferenz x̄1 − x̄2 − (µ1 − µ2) q 2 s22 s1 n1 + n2 bis heute nicht bekannt (Behrens–Fisher– Problem). Man kann aber zeigen, dass die Stichprobenverteilung näherungsweise eine t– Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall. Literatur: Welch, B.L. (1947), The generalization of ”Student’s” problem when several different population variances are involved, Biometrika 34, 28–35. StatBio 260 9.4 Die Bedeutung des Stichprobenumfangs 1. Mit zunehmenden Stichprobenumfang nimmt die Bedeutung von Verteilungsannahmen (Normalverteilung, Varianzhomogenität) ab. Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz). 2. Mit zunehmenden Stichprobenumfang erhöht sich die Schätzgenauigkeit, d.h. die Länge eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t–Verteilung (Tabelle 9–1) werden mit wachsendem Stichprobenumfang kleiner. StatBio 261 Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach dem Mindeststichprobenumfang gestellt: Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge eine Konfidenzintervalls mit vorgegebener Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet? Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit. Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung. StatBio 262 Im Ein–Stichproben–Fall wird das Konfidenzintervall σ σ x̄ − 1.96 · √ , x̄ + 1.96 · √ n n mit der Intervalllänge σ 2 · 1.96 · √ n betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung σ L ≥ 2 · 1.96 · √ n Durch ,,Auflösen nach n” erhält man die Ungleichung 4 · 1.962 · σ 2 n≥ L2 StatBio 263 Das minimale n, dass diese Ungleichung erfüllt, ist dann der Mindeststichprobenumfang: 4 · 1.962 · σ 2 nmin = kleinstes n mit n ≥ L2 (9.4) Nun ist σ i. A. nicht bekannt. Wie geht man in der Praxis vor? Entweder liegt bereits eine zuverlässige Schätzung vor (basierened auf eine Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder aber man führt eine Voruntersuchung durch und schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die auf der Basis einer umfangreicheren Stichprobe ermittelt werden würde. StatBio 264 9.4 Beispiel: In einem bestimmten Bodenhorizont interessiert man sich für eine Schätzung von extrahierbaren P2O5 (gemessen in mg pro 100 g). Wie groß muss die Anzahl der Bodenproben sein, damit ein 0.95–Konfidenzintervall die Länge von 0.2 (Schätzgenauigkeit ±0.1) nicht überschreitet? Aus früheren Forschungen ist bekannt, dass die Standardabweichung von P2O5 bei 0.7 mg liegt. Lösung: Der z–Wert ist das 0.975–Quantil z0.975 = 1.96. Der Mindeststichprobenumfang bestimmt sich aus der Ungleichung 4 · 1.962 · 0.72 n≥ = 188.24 2 (0.2) Folglich ist nmin = 189. StatBio 265 Fordert man eine Länge von 0.1 (doppelte Schätzgenauigkeit), so ergibt sich wegen 4 · 1.962 · 0.72 n≥ = 752.95 2 0.1 ein Mindeststichprobenumfang von 753 (das Vierfache). Allgemein gilt: Eine doppelte Schätzgenauigkeit L/2 erfordert einen vierfachen Mindeststichprobenumfang: 4 · 1.962 · σ 2 4 · 1.962 · σ 2 n≥ =4· 2 (L/2) L2 StatBio 266 9.5 Konfidenzintervall für einen Anteilswert Im Folgenden sollen die Aussagen von Abschnitt 9.2 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1–kodiertes binäres Merkmal. Nach Abschnitt 7.2 ist X Bernoulli–verteilt zum Parameter π ∈ (0, 1): P (X = 1) = π, P (X = 0) = 1 − π π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit mit Ausprägung 1: π = Anteil der Merkmalsträger einer Grundgesamtheit mit Ausprägung 1 Ziel: Intervallschätzung für den Anteilswert π StatBio 267 Sei wieder x1 , . . . , x n eine Stichprobe vom Umfang n. Eine Punktschätzung für π ist die relative Trefferhäufigkeit x̄ = relative Häufigkeit der Ausprägung 1 in der Stichprobe x1, . . . , xn (zur Erinnerung: xi ist entweder 1 oder 0). Für die Populationsvarianz gilt: σ 2 = π · (1 − π) (vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine vernünftige Schätzung der Varianz ist somit σ̂ 2 = x̄ · (1 − x̄) StatBio 268 Damit ist r ESEM = eine Schätzung von p √ π · (1 − π)/ n. x̄ · (1 − x̄) n SEM = √ σ/ n = Wenn die Faustregel (8.2) erfüllt ist, d. h. n · x̄ · (1 − x̄) > 9 so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch r x̄ ± z · x̄ · (1 − x̄) n mit den z–Werten z0.95 = 1.645, z0.975 = 1.96, z0.995 = 2.576. StatBio 269 9.5 Beispiel: Der plötzliche Kindstod SIDS (Sudden Infant Death Syndrome) ist ein noch ungeklärtes Phänomen. Die relative Häufigkeit (Rate) des SIDS beträgt weltweit im Durchschnitt 4.4 auf 1000 Geburten. Tasmanien wies zwischen den Jahren 1975 und 1984 24 SIDS auf 3939 Geburten aus, was einer Rate von 6.1 auf 1000 entspricht. Ist diese Rate 6.1 wesentlich höher als die Rate von 4.4 oder lässt sich dieser Unterschied nur durch den Zufall erklären? Die Punktschätzung (relative Trefferhäufigkeit) beträgt 24 x̄ = = 0.0061 3939 Wegen 3939 · 0.0061 · (1 − 0.0061) = 23.88 > 9 ist die Faustregel (8.2) erfüllt. StatBio 270 untere Grenze: r 0.0061 − 1.96 · 0.0061 · (1 − 0.0061) 3939 = 0.0037 obere Grenze: r 0.0061 + 1.96 · 0.0061 · (1 − 0.0061) 3939 = 0.0085 Somit ist (0.0037, 0.0085) ein 0.95–Konfidenzintervall für π: Interpretation: Mit 95% iger Sicherheit liegt der (wahre) Anteilswert π zwischen 3.7h und 8.5h. Da 0.0044 im Konfidenzintervall liegt, kann der beobachtete Unterschied auch zufällig begründet sein. StatBio 271 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte (Zwei-Stichproben-Problem) Im Folgenden sollen die Aussagen von Abschnitt 9.3 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1–kodiertes binäres Merkmal. Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die Grundgesamtheiten hinsichtlich ihrer Anteilswerte π1 und π2 unterscheiden. Dazu werden zwei unabhängige Stichproben x11, . . . , x1n1 (Stichprobe 1) x21, . . . , x2n2 (Stichprobe 2) und erhoben. StatBio 272 Jede Beobachtung besitzt entweder den Wert 1 oder 0. Bezeichnen n1 X 1 x̄1 = x1i n1 i=1 und n2 X 1 x̄2 = x2j n2 j=1 die Anteilswerte der beiden Stichproben (Schätzungen für π1 bzw. π2). Wegen σ12 = π1 · (1 − π1) und σ22 = π2 · (1 − π2) beträgt der Standardfehler der Differenz x̄1 − x̄2 s π1 · (1 − π1) π2 · (1 − π2) + n1 n2 (dies entspricht (9.1)). StatBio 273 Damit sind x̄1 · (1 − x̄1) und x̄2 · (1 − x̄2) (Punkt–)Schätzungen für σ12 bzw. σ22. Folglich ist s x̄1 · (1 − x̄1) x̄2 · (1 − x̄2) + n1 n2 eine Schätzung des Standardfehlers von x̄1 − x̄2. StatBio 274 Sind die Faustregeln n1 · x̄1 · (1 − x̄1) > 9 und n2 · x̄2 · (1 − x̄2) > 9 erfüllt, so sind die Grenzen eines Konfidenzintervalls für π1 − π2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch s x̄1 − x̄2 ± z · x̄1 · (1 − x̄1) x̄2 · (1 − x̄2) + n1 n2 mit den z–Werten z0.95 = 1.645, z0.975 = 1.96, z0.995 = 2.576. StatBio 275 9.6 Beispiel: (Quelle: New England Journal of Medicine (1992)) Die Sterblichkeit ist bei schwarzen Säuglingen (Gruppe 1) im ersten Jahr doppelt so hoch wie bei weißen Säuglingen von Eltern mit Kollege–Ausbildung (Gruppe 2). Der Untersuchungszeitraum war von 1983 bis 1985. Der Stichprobenumfang von Gruppe 1 betrug 42 230 mit einem Anteilswert von 10.2 Promille, der Stichprobenumfang von Gruppe 2 betrug 865 128 mit einem Anteilswert von 5.4 Promille. Kann man behaupten, dass die Sterblichkeitsraten in den zwei Populationen wesentlich verschieden sind? Anmerkung: Die unverhältnismäßig unterschiedlichen Stichprobenumfänge fallen auf, stören aber die statistische Auswertung nicht. Zunächst gilt x̄1 = 0.0102 und x̄2 = 0.0054 StatBio 276 Wegen 42230 · 0.0102 · (1 − 0.0102) = 426.4 > 9 und 865128 · 0.0054 · (1 − 0.0054) = 4646.5 > 9 sind obige Faustregeln erfüllt. Ferner beträgt der geschätzte Standardfehler s x̄1 · (1 − x̄1) x̄2 · (1 − x̄2) + n1 n2 r = 0.0102 · 0.9898 0.0054 · 0.9946 + 42230 865128 = 0.000495 StatBio 277 Die Grenzen eines 0.95–Konfidenzintervall sind gegeben durch 0.0102 − 0.0054 ± 1.96 · 0.000495 0.0048 ± 0.0009 Damit ist (0.0039, 0.0057) ein 0.95–Konfidenzintervall für π1 − π2. Interpretation: Die Null ist nicht im Konfidenzintervall enthalten. Ferner sagt das Konfidenzintervall, dass die Sterblichkeitsrate in Gruppe 1 größer ist als bei Gruppe 2 und dass die Differenz mindestens 3.9 Promille beträgt. StatBio 278 Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich, dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine Punktschätzung. Während die Bestimmung einer Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum– Likelihood–Methode), kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein, da hierzu Verteilungsaussagen über eine Punktschätzung benötigt werden. StatBio 279