Teil 3: Schließende Statistik Grundfragen der schließenden Statistik 1. Welcher Parameter passt am besten zu den Beobachtungen? 2. Welche Parameterwerte sind mit den Beobachtungen vereinbar? 3. Sind die Beobachtungen mit einem bestimmten Parameterwert vereinbar? Die statistischen Methoden, die auf diese drei Fragen eine Antwort geben, heißen (1) Punktschätzungen (Kap. 9) (2) Intervallschätzungen (Kap. 9) (3) Tests (ab Kap. 10) StatSoz 219 9 Schätzung von Parametern 9.1 Punkt– und Intervallschätzungen 9.2 Konfidenzintervall für einen Mittelwert 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte 9.4 Die Bedeutung des Stichprobenumfangs 9.5 Konfidenzintervall für einen Anteilswert 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte Die folgenden Aussagen setzen wieder eine einfache Stichprobe x1, . . . , xn voraus (,,Ziehen mit Zurücklegen” aus einer homogenen Grundgesamtheit). Diese Aussagen können in der Praxis auch für solche Stichproben übernommen werden, die durch ,, Ziehung ohne Zurücklegen” gewonnen wurden. Für den Auswahlsatz muss dann nur gelten: n/N ≤ 0.05. StatSoz 220 9.1 Punkt– und Intervallschätzungen Von einer Punktschätzung spricht man, wenn man sich auf die Bestimmung eines Zahlenwertes als Schätzwert für einen Parameter beschränkt. Einer (einfachen) Stichprobe x1, . . . , xn wird ein Zahlenwert zugeordnet. Dieser Zahlenwert heißt eine Punktschätzung (point estimation). Plausible Schätzungen für Parameter sind empirische Maßzahlen. Beispiele: (i) Schätzung µ̂ für den Populations–Mittelwert µ: der empirische Mittelwert µ̂ = x̄ = StatSoz n X 1 n i=1 xi 221 (ii) Schätzung σ̂ 2 für die Populations–Varianz σ 2: die empirische Varianz n X 1 σ̂ = s = (xi − x̄)2 n − 1 i=1 2 2 Es gibt verschiedene Punktschätzer. Gütekriterien für Ein Kriterium ist die Unverzerrtheit (Erwartungstreue) einer Punktschätzung: ,,Im Mittel” schätzt man das Richtige. Empirischer Mittelwert und empirische Varianz sind unverzerrte Schätzungen. Bemerkung: Auf weitere Gütekriterien wie Konsistenz und Effizienz soll hier nicht näher eingegangen werden. Punktschätzungen haben einen entscheidenden Nachteil: Sie machen keine Aussagen über den StatSoz 222 Schätzfehler. Wie ,,weit” ist das empirische Stichprobenmittel x̄ von µ entfernt, x̄ − µ =? Beachte: x̄ ist ausgesprochen selten gleich µ. Intuitiv ist klar, dass eine Punktschätzung um so genauer sein wird, je größer der Stichprobenumfang ist. Aus theoretischen Überlegungen ist bekannt (Abschnitt 6.3), dass zufallsbedingt ein Fehler in der Größenordnung s ESEM = √ n zu erwarten ist. Plausible Schätzwerte für µ sind demnach alle Werte des Intervalls s s x̄ − √ , x̄ + √ n n StatSoz 223 also alle Werte zwischen der √ unteren Grenze = x̄ − s/ n und der √ oberen Grenze = x̄ + s/ n Einer Stichprobe wird somit ein ganzes Intervall von Parameterwerten zugeordnet, die alle ,,plausibel” (d.h. ,,mit den Daten verträglich”) sind. Man spricht von einer Intervallschätzung. Frage: Wie gut ist die ,,Intervallschätzung”? Präziser gefragt: Mit welcher Zuverlässigkeit liegt µ in einem solchen Intervall? Wenn alle Zufallsstichproben (gleichen Umfangs) gezogen werden, dann ist der Anteil der daraus berechneten Intervalle, die den Parameter µ enthalten, eine geeignete Maßzahl für die Zuverlässigkeit, dass ein konkretes Intervall (basierend auf einer einzigen, konkret vorliegenden StatSoz 224 Stichprobe) den Parameter µ enthält, vgl. die Ausführungen nach Tabelle 6.5. Der Anteil der Intervalle, die µ enthalten, für die also s s x̄ − √ < µ < x̄ + √ n n gilt, ist gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −1 und 1 liegen: x̄ − µ −1 < √ < 1 s/ n Dieser Anteil ist annähernd gleich der Wahrscheinlichkeit, dass ein N (0, 1)–verteiltes Merkmal Z Werte zwischen −1 und 1 annehmen wird −1 < Z < 1 StatSoz 225 Denn: Für hinreichend große Stichprobenumfänge (n ≥ 30) ist nach dem zentralen Grenzwertsatz (Abschnitt 8.4, Bemerkung 8.1) das studentisierte Stichprobenmittel annähernd verteilt wie Z. Die Wahrscheinlichkeit beträgt P (−1 < Z < 1) = Φ(1) − Φ(−1) = 2 · Φ(1) − 1 = 2 · 0.8413 − 1 = 0.6826 Abbildung 9–1 Fläche unter ϕ im Bereich [−1, 1] StatSoz 226 Fazit: Wenn alle Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, enthalten etwa 68% der daraus berechneten Intervalle den wahren Parameter µ. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) s s x̄ − √ , x̄ + √ n n den Parameter µ mit einer Vertrauens– Wahrscheinlichkeit von etwa 68%. StatSoz 227 In der Praxis ist aber die umgekehrte Vorgehnesweise von Interesse: Eine Vertrauenswahrscheinlichkeit wird vorgegeben, z. B. 0.95, und das Intervall muss passend gewählt werden. Dies führt zum Vertrauensintervall (confidence interval) zu einer vorgegebenen Vertrauenswahrscheinlichkeit. Man spricht auch von einem Konfidenzintervall zu einem vorgegebenen Konfidenzniveau. 9.2 Konfidenzintervall für einen Mittelwert Um eine Vorstellung von der Genauigkeit einer Punktschätzung zu bekommen, wird eine Intervallschätzung durchgeführt. Man bestimmt ein Intervall, dessen untere und obere Grenze von der Stichprobe abhängen. Dieses zufallsabhängige Intervall soll den Parameter µ mit einer vorgegebenen Wahrscheinlichkeit enthalten, häufig mit 0.9, 0.95 oder 0.99. StatSoz 228 Das Konfidenzniveau, die Vertrauenswahrscheinlichkeit (man sagt auch Überdeckungswahrscheinlichkeit) hängt mit der Breite des Konfidenzintervalls (= Intervalllänge) zusammen. Je größer die Sicherheit sein soll, desto breiter muss das Konfidenzintervall gewählt werden. Sei 0.95 die vorgegebene Vertrauenswahrscheinlichkeit. Um ein Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit 0.95 zu bekommen, muss man den Bereich s x̄ ± √ n vergrößern. Am sinnvollsten geschieht dies dadurch, dass man ein Vielfaches des geschätzten √ Standardfehlers s/ n betrachtet: s x̄ ± z · √ n StatSoz 229 Frage: Wie ist der z–Wert – in Abhängigkeit von der Vertrauenswahrscheinlichkeit 0.95 – zu wählen? Aufgrund der Vorüberlegungen in Abschnitt 9.1 ist klar: Der z–Wert muss größer als 1 sein (die Wahl z = 1 führt zu einer Vertrauenswahrscheinlichkeit von lediglich 68%). Nun: µ liegt im Intervall s s x̄ − z · √ , x̄ + z · √ n n wenn s s x̄ − z · √ < µ < x̄ + z · √ n n gilt und dies ist gleichbedeutend mit x̄ − µ −z < √ < z s/ n StatSoz 230 Somit ist der Anteil der Intervalle, die µ enthalten, gleich dem Anteil der studentisierten Stichprobenmittel, die zwischen −z und z liegen, für die also x̄ − µ −z < √ < z s/ n gilt. Der Anteil, der aufgrund des zentralen Grenzwertsatzes erwartet wird, entspricht der Wahrscheinlichkeit des Ereignisses −z < Z < z und diese ist P (−z < Z < z) = Φ(z) − Φ(−z) = 2 · Φ(z) − 1 Somit bestimmt sich z als Lösung der Gleichung 2 · Φ(z) − 1 = 0.95 StatSoz 231 also 1.95 Φ(z) = = 0.975 2 Der z–Wert, der diese Gleichung löst, wird als 0.975–Quantil der Standardnormalverteilung bezeichnet, kurz z0.975 (vgl. Problem 2 aus Abschnitt 7.4, Aufgabe 5, Blatt 5). Das 0.975–Quantil z0.975 ist die eindeutig bestimmte Zahl mit der Eigenschaft Φ(z0.975) = 0.975 Aus Tab. 7–2 entnimmt man die Lösung z0.975 = 1.96 d.h. 97.5% der Gesamtfläche (=1) liegen unterhalb von z0.975 = 1.96 (vgl. Abb. 7–6). StatSoz 232 Somit lauten die Grenzen Konfidenzintervalls für µ eines 0.95– s x̄ ± 1.96 · √ n Häufigkeitsinterpretation: Wenn sehr viele Stichproben (gleichen Umfangs) aus derselben Grundgesamtheit mit Populationsmittelwert µ gezogen werden, überdecken etwa 95% der daraus berechneten Konfidenzintervalle den wahren Parameter µ. Nur etwa 5% aller Stichproben liefern Intervalle, die den Parameter µ nicht enthalten. In diesem Sinne enthält ein konkret vorliegendes Intervall (basierend auf einer einzigen, konkret vorliegenden Stichprobe) StatSoz s s x̄ − 1.96 · √ , x̄ + 1.96 · √ n n 233 den Parameter µ mit einer Vertrauenswahrscheinlichkeit von 95%. Konfidenzintervalle für µ zu den (Vertrauens-) Wahrscheinlichkeiten 0.9, 0.95 und 0.99 erhält man mit den Quantilen z0.950 = 1.645 z0.975 = 1.960 z0.995 = 2.576 Diese Quantile sind die eindeutigen Lösungen der Gleichungen (in z) 1.90 2 · Φ(z) − 1 = 0.90, also Φ(z) = = 0.950 2 1.95 2 · Φ(z) − 1 = 0.95, also Φ(z) = = 0.975 2 1.99 2 · Φ(z) − 1 = 0.99, also Φ(z) = = 0.995 2 StatSoz 234 90%–Konfidenzintervall: s s x̄ − 1.645 · √ , x̄ + 1.645 · √ n n Anteil: 5% Anteil: 90% ( ) x̄ − 1.645 · √sn Anteil: 5% x̄ + 1.645 · √sn 95%–Konfidenzintervall: s s x̄ − 1.96 · √ , x̄ + 1.96 · √ n n Anteil: 2.5% Anteil: 95% ( ) x̄ − 1.96 · √sn StatSoz Anteil: 2.5% x̄ + 1.960 · √sn 235 99%–Konfidenzintervall: s s x̄ − 2.576 · √ , x̄ + 2.576 · √ n n Anteil: 0.5% Anteil: 99% ( x̄ − 2.576 · √sn Anteil: 0.5% ) x̄ + 2.576 · √sn 9.1 Beispiel: Man möchte etwas über den durchschnittlichen Zeitaufwand wissen, die Hauptschüler täglich für ihre Hausaufgaben aufwenden. Eine zufällige Stichprobe von 100 Hauptschülern ergab einen durchschnittlichen Zeitaufwand von x̄ = 70 Minuten bei einer Standardabweichung von s = 20 Minuten. Ein 95%– Konfidenzintervall für den durchschnittlichen StatSoz 236 Zeitaufwand (µ) ist dann durch s s x̄ − 1.96 · √ , x̄ + 1.96 · √ n n 20 20 = 70 − 1.96 · √ , 70 + 1.96 · √ 100 100 = (66.08, 73.92) gegeben. Mit 95% iger Sicherheit liegt der durchschnittliche Zeitaufwand zwischen 66 Minuten und 74 Minuten. Für kleine Stichprobenumfänge (n < 30) lässt sich die Stichprobenverteilung von x̄ − µ √ s/ n nicht mehr hinreichend gut durch eine Standard– Normalverteilung beschreiben. Es muss dann StatSoz 237 vorausgesetzt werden, dass die Grundgesamtheit normalverteilt ist. Dann ist die Stichprobenverteilung die t–Verteilung mit n − 1 Freiheitsgraden (siehe Abschnitt 8.3). Für die Herleitung von Konfidenzintervallen bedeutet dies, dass man den z–Wert durch einen t–Wert zu ersetzen hat. Formal wird in den Intervallgrenzen s x̄ ± z · √ n der z–Wert ersetzt durch einen t–Wert: s x̄ ± t · √ n Man hat also das Quantil der Standard–Normalverteilung durch das entsprechende Quantil der t–Verteilung mit n − 1 Freiheitsgraden zu ersetzen. Diese sind tabelliert, vgl. Tab. 9–1. StatSoz 238 Allgemeine Bezeichnungen für Quantile der t– Verteilung mit df = n − 1 Freiheitsgraden: Zum Konfidenzniveau 0.9: tdf ;0.950 = tn−1;0.950 (0.95–Quantil) Zum Konfidenzniveau 0.95: tdf ;0.975 = tn−1;0.975 (0.975–Quantil) Zum Konfidenzniveau 0.99: tdf ;0.995 = tn−1;0.995 (0.995–Quantil) Die konkreten Werte sind für df ≤ 30 in Tab. 9.1 zusammengefasst. StatSoz 239 Allgemeine Darstellung der Konfidenzintervalle zum Niveau 0.9, 0.95, 0.99 und Stichprobenumfang n: 90%–Konfidenzintervall: s s x̄ − tn−1;0.950 · √ , x̄ + tn−1;0.950 · √ n n 95%–Konfidenzintervall: s s x̄ − tn−1;0.975 · √ , x̄ + tn−1;0.975 · √ n n 99%–Konfidenzintervall: s s x̄ − tn−1;0.995 · √ , x̄ + tn−1;0.995 · √ n n StatSoz 240 Tabelle 9–1 t–Werte für Konfidenzintervalle zum Vertrauensniveau 0.90, 0.95 und 0.99 (die Werte in der letzten Zeile (df = ∞) sind die entsprechenden z–Werte der Standard–Normalverteilung) StatSoz df 1 2 3 4 5 0.90–Niveau tdf ;0.950 6.314 2.920 2.353 2.132 2.015 0.95–Niveau tdf ;0.975 12.706 4.303 3.182 2.776 2.571 0.99–Niveau tdf ;0.995 63.657 9.925 5.841 4.604 4.032 6 7 8 9 10 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.707 3.499 3.355 3.250 3.169 11 12 13 14 15 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 3.106 3.055 3.012 2.977 2.947 241 StatSoz df 16 17 18 19 20 0.90–Niveau tdf ;0.950 1.746 1.740 1.734 1.729 1.725 0.95–Niveau tdf ;0.975 2.120 2.110 2.101 2.093 2.086 0.99–Niveau tdf ;0.995 2.921 2.898 2.878 2.861 2.845 21 22 23 24 25 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.831 2.819 2.807 2.797 2.787 26 27 28 29 30 1.706 1.703 1.701 1.699 1.697 2.056 2.052 2.048 2.045 2.042 2.779 2.771 2.763 2.756 2.750 ∞ 1.645 1.960 2.576 242 Aus Tab. 9–1 ist zu erkennen, dass mit wachsendem Stichprobenumfang, sprich mit wachsender Anzahl der Freiheitsgrade, die Quantile der t–Verteilung kleiner werden und sich den Quantilen der Standard–Normalverteilung annähern. Verbundene Stichproben Häufig werden Stichproben in Form von Paaren (x1i, x2i), i = 1, . . . , n erhoben. Paare treten auf bei • Parallelisierte Stichproben (matched samples), bei denen die Merkmalsträger in den beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet werden. StatSoz 243 Ein Paar (x1i, x2i) beschreibt dann den Beobachtungswert des Merkmalsträgers i aus Stichprobe 1 und den Beobachtungswert des zugeordneten Merkmalsträgers aus Stichprobe 2. Beispiel: Vergleich von männlichen Partnern mit weiblichen Partnern bei Ehepaaren. • Messwiederholungen, wenn bei jedem Merkmalsträger in der Stichprobe zwei Messungen durchgeführt werden (Vorher–Nachher– Vergleich). Ein Paar (x1i, x2i) beschreibt dann die Messwerte des Merkmalsträgers i zu den beiden Zeitpunkten 1 (vorher) und 2 (nachher). Beispiel: Wissensstand vor und nach einer Schulungsmaßnahme StatSoz 244 Stichprobe 1 Stichprobe 2 x11 x21 x12 x22 x13 x23 .. .. x1n x2n Die Beobachtungen x1i und x2i sind dabei typischerweise abhängig. Die Streuung von Stichprobe 1 wird beeinflusst von der Streuung der Stichprobe 2 (und/oder umgekehrt). Man spricht daher von einer verbundenen Stichprobe oder einer gepaarten Stichprobe (paired samples). Aufgrund der Abhängigkeit ist es sinnvoll, nicht beide Stichproben einzeln zu betrachten, sondern nur die jeweils zusammengehörenden Paare (x11, x21), (x12, x22), (x13, x23), . . . , (x1n, x2n) StatSoz 245 Für jedes Paar i bildet man die Differenz di = x1i − x2i, i = 1, . . . , n Häufig ist es gerechtfertigt, die Unabhängigkeit der Differenzen anzunehmen, so dass d1, d2, . . . , dn als eine einfache Stichprobe aufgefasst werden kann. Der Mittelwert der Paardifferenzen n X 1 d¯ = di n i=1 ist ein geeigneter Schätzwert für µd = µ1 − µ2 (µd ist der Mittelwert der Paardifferenzen in der Grundgesamtheit). StatSoz 246 Frage: Gibt es einen systematischen, bedeutsamen Unterschied in den Beobachtungspaaren der einer Interpretation wert ist, oder sind Unterschiede nur auf Zufälligkeiten, auf die Variabilität der Daten zurückzuführen? Wenn es keinen Unterschied zwischen den Populationsmittelwerten µ1 und µ2 gibt, ist zu erwarten, dass der Schätzwert µ̂d = d¯ in der Nähe von 0 liegt. Abweichungen von der Null können zufallsbedingt sein. Ein Konfidenzintervall für µd ist hier wesentlich informativer! Ein 0.95–Konfidenzintervall für µd ist gegeben durch die Grenzen sd ¯ d ± 1.96 · √ n StatSoz 247 wobei v u n u 1 X ¯2 sd = t (di − d) n − 1 i=1 die Standardabweichung der Paardifferenzen d1, . . . , dn bezeichnet. Bei kleinen Stichprobenumfängen (n < 30) muss angenommen werden, dass die Paardifferenzen der zugrundeliegenden Grundgesamtheit normalverteilt sind. Ein 0.95– Konfidenzintervall ist dann gegeben durch sd ¯ d ± tn−1;0.975 · √ n 9.2 Beispiel: Man möchte wissen, inwieweit Examenskandidaten in der Lage sind, ihre Prüfungsleistungen richtig zu prognostizieren. 15 zufällig ausgewählte Examenskandidaten wurden befragt, wieviele von 70 Aufgaben sie ihrer Meinung nach richtig lösen werden. Nach StatSoz 248 dem Examen lagen die Prüfungsresultate vor. Unterscheiden sich die prognostizierten und die tatsächlichen Prüfungsleistungen so stark, dass bei der Interpretation der Differenz der Zufall ausgeschlossen werden kann? Annahme: Die Differenzen zwischen prognostizierten Prüfungsleistungen und tatsächlichen Prüfungsleistungen in der Grundgesamtheit aller Kandidaten ist (näherungsweise) normalverteilt. Die Stichprobe der 15 zufällig ausgewählten Prüfungskandidaten ergab die Werte d¯ = −6.4 und sd = 7.9 Nach Tab. 9–1 ist t14;0.975 = 2.145 StatSoz 249 Als 0.95–Konfidenzintervall für µd erhält man sd ¯ sd ¯ d − 2.145 · √ , d + 2.145 · √ n n 7.9 7.9 = −6.4 − 2.145 · √ , −6.4 + 2.145 · √ 15 15 = (−10.7, −2.0) Der Wert 0 liegt Konfidenzintervall. nicht im 0.95– Interpretation: Die tatsächliche Prüfungsleistung ist höher als die prognostizierte Leistung; Prüfungskandidaten unterschätzen tendenziell ihre Leistung (beachte: Differenzbildung vorher – nachher !). Mit 95% iger Sicherheit liegt die durchschnittliche Anzahl der tatsächlich richtig gelösten Aufgaben mit 2 bis 10 Aufgaben über der durchschnittlichen prognostizierten Anzahl. StatSoz 250 Bemerkung: Bei zwei verbundenen Stichproben sind nur die Paardifferenzen von Interesse. Somit hat man es bei der statistischen Analsyse nur mit einer Stichprobe zu tun (Ein– Stichproben–Problem). StatSoz 251 9.3 Konfidenzintervall zum Vergleich zweier Mittelwerte (Zwei-Stichproben-Problem) Frage: Unterscheiden sich zwei Grundgesamtheiten hinsichtlich ihrer Mittelwerte µ1 und µ2? Dazu vergleicht man die Mittelwerte zweier Stichproben, die als unabhängig angesehen werden können (ungepaarte Stichproben). Stichprobe aus Stichprobe aus Grundgesamtheit 1 Grundgesamtheit 2 x11 x21 x12 x22 x13 x23 .. .. x1n1 x2n2 Beachte: n1 6= n2 ist ausdrücklich zugelassen! StatSoz 252 Man vergleicht die Mittelwerte n1 n2 X X 1 1 x̄1 = x1i und x̄2 = x2j n1 i=1 n2 j=1 der beiden Stichproben. Die Differenz der beiden Mittelwerte x̄1 − x̄2 ist eine (erwartungstreue) Schätzung für die Differenz der Populationsmittelwerte µ1 − µ2. Neben dieser Punktschätzung für µ1 − µ2 benötigt man noch den Standardfehler der Differenz der Mittelwerte (= Standardabweichung von x̄1 − x̄2). Man kann zeigen, dass der Standardfehler der Differenz x̄1 − x̄2 gegeben ist durch s σ12 σ22 σx̄1−x̄2 = + (9.1) n1 n2 Annahme: Beide Populationen besitzen die gleiStatSoz 253 che Varianz σ 2 (d.h. σ12 = σ22 = σ 2). Man spricht von Varianzhomogenität. Unter der Annahme der Varianzhomogenität geht Formel (9.1) über in s σx̄1−x̄2 σ2 σ2 = + n1 n2 r 1 1 = σ· + n1 n2 r n1 + n2 = σ· n1 · n2 (9.2) Frage: Was ist eine vernünftige Schätzung von σ 2 (und damit für σ) im Zwei–Stichprobenfall? Im Fall der Varianzhomogenität ist die StatSoz 254 gepoolte (Stichproben–)Varianz Pn1 s2gepoolt i=1 = x1i − x̄1 2 + Pn2 j=1 x2j − x̄2 2 n1 − 1 + n2 − 1 eine vernünftige Schätzung für σ 2. Die gepoolte Varianz lässt sich schreiben in der Form s2gepoolt (n1 − 1) · s21 + (n2 − 1) · s22 = (n1 − 1) + (n2 − 1) (n1 − 1) · s21 + (n2 − 1) · s22 = n1 + n2 − 2 Dabei bezeichnen s21 und s22 StatSoz n1 X 2 1 = x1i − x̄1 n1 − 1 i=1 n2 X 2 1 x2j − x̄2 = n2 − 1 j=1 255 die Varianzen der Stichproben 1 und 2. Bemerkung: Natürlich sind s21 und s22 ebenfalls plausible Schätzungen für σ 2. Diese Schätzungen beruhen jedoch ausschließlich auf Stichprobe 1 bzw. Stichprobe 2. Die gepoolte Varianz nimmt hingegen Bezug auf beide Stichproben und kombiniert in geeigneter Weise die beiden Schätzungen s21 und s22. Daher ist die gepoolte Varianz eine genauere Schätzung für σ 2 als die ,,Einzelvarianzen” s21 bzw. s22. Ersetzt man in (9.2) σ durch sgepoolt, so erhält man als Schätzung für den Standardfehler von x̄1 − x̄2 r sgepoolt · n1 + n2 n1 · n2 Nach dem zentralen Grenzwertsatz ist die Stichprobenverteilung der studentisierten MittelwertStatSoz 256 differenz x̄1 − x̄2 − (µ1 − µ2) q 2 sgepoolt · nn11+n ·n2 (9.3) annähernd eine N (0, 1)–Verteilung, vorausgesetzt die Stichprobenumfänge sind hinreichend groß (n1 ≥ 30, n2 ≥ 30). Für Stichprobenumfänge n1 ≥ 30, n2 ≥ 30 sind die Grenzen eines Konfidenzintervalls für µ1 −µ2 zur Vertrauenswahrscheinlichkeit 0.90, 0.95, 0.99 gegeben durch r x̄1 − x̄2 ± z · sgepoolt · n1 + n2 n 1 · n2 mit den z–Werten 1.645, 1.960, 2.576. StatSoz 257 Für kleine Stichprobenumfänge (n1 < 30, n2 < 30) muss vorausgesetzt werden, dass die Grundgesamtheiten normalverteilt sind. In diesem Fall besitzt die studentisierte Mittelwertdifferenz (9.3) eine t–Verteilung mit Anzahl der Freiheitsgrade (df ) = n1 +n2 −2 Die Grenzen eines Konfidenzintervalls für µ1 −µ2 sind dann gegeben durch r x̄1 − x̄2 ± t · sgepoolt · n 1 + n2 n1 · n2 Der t–Wert ist das Quantil der t–Verteilung mit n1 + n2 − 2 Freiheitsgraden. Dieses wird wieder aus Tab. 9–1 entsprechend der vorgegebenen Vertrauenswahrscheinlichkeit entnommen. StatSoz 258 9.3 Beispiel: (vgl. Kap. 1): 12 Kinder reicher Eltern und 12 Kinder armer Eltern werden gebeten, den Durchmesser (in mm) eines 1 Euro–Stückes zu schätzen. Die folgenden (als normalverteilt angenommenen) Schätzungen wurden abgegeben: reich arm 20 24 23 23 23 26 21 28 22 27 25 27 19 25 24 18 20 21 26 26 24 25 25 29 StatSoz 259 Unterscheidet sich der durchschnittliche Schätzwert armer Kinder von dem durchschnittlichen Schätzwert reicher Kinder? Zur Vertrauenswahrscheinlichkeit 0.95 soll ein Konfidenzintervall für µ1 − µ2 bestimmt werden. Unterstellt wird die Varianzhomogenität. Zunächst erhält man die Werte x̄1 = 22.67, s1 = 2.27 x̄2 = 24.92, s2 = 3.09 Die Differenz der Stichprobenmittel beträgt 22.67 − 24.92 = −2.25 Ferner ist r sgepoolt = StatSoz 11 · 2.272 + 11 · 3.092 = 2.71 12 + 12 − 2 260 Aus Tab. 9–1 entnimmt man den Wert t22;0.975 = 2.074 Daraus ergeben sich die Grenzen eines 95%– Konfidenzintervalls r 12 + 12 22.67 − 24.92 ± 2.074 · 2.71 · 12 · 12 = −2.25 ± 2.29 Die Null ist im Konfidenzintervall (−4.54, 0.04) enthalten (wenn auch sehr knapp). Ein rein zufälliger Unterschied ist somit nicht auszuschließen. StatSoz 261 Anmerkung: Auch im Fall ungleicher Varianzen lässt sich ein (approximatives) Konfidenzintervall für µ1 − µ2 angeben. Der Standardfehler der Differenz x̄1 − x̄2 ist nach (9.1) s und somit ist σ12 σ22 + n1 n2 s s21 s22 + n1 n2 der geschätzte Standardfehler. Unter der Normalverteilungsannahme sind die Grenzen eines approximativen Konfidenzintervalls gegeben durch s s21 s22 x̄1 − x̄2 ± t · + n1 n 2 Warum nur approximativ? StatSoz 262 Im Fall heterogener Varianzen ist die (exakte) Stichprobenverteilung der studentisierten Mittelwertdifferenz x̄1 − x̄2 − (µ1 − µ2) q 2 s22 s1 n1 + n2 bis heute nicht bekannt (Behrens–Fisher– Problem). Man kann aber zeigen, dass die Stichprobenverteilung näherungsweise eine t– Verteilung ist, wobei die Anzahl der Freiheitsgrade aus den Daten heraus geschätzt werden muss. Statistische Softwarepakete berechnen dieses Konfidenzintervall. Literatur: Welch, B.L. (1947), The generalization of ”Student’s” problem when several different population variances are involved, Biometrika 34, 28–35. StatSoz 263 9.4 Die Bedeutung des Stichprobenumfangs 1. Mit zunehmenden Stichprobenumfang nimmt die Bedeutung von Verteilungsannahmen (Normalverteilung, Varianzhomogenität) ab. Begründung: Für hinreichend große Stichprobenumfänge lassen sich Stichprobenkennwertverteilungen von Mittelwerten durch eine Normalverteilung ersetzen (zentraler Grenzwertsatz). 2. Mit zunehmenden Stichprobenumfang erhöht sich die Schätzgenauigkeit, d.h. die Länge eines Konfidenzintervalls nimmt ab. Begründung: Der Standardfehler des Mittelwertes und die Quantile der t–Verteilung (Tabelle 9–1) werden mit wachsendem Stichprobenumfang kleiner. StatSoz 264 Der Anwender kann die Länge eines Konfidenzintervalls (nur) über die Überdeckungswahrscheinlichkeit und den Stichprobenumfang beeinflussen. In der Praxis wird häufig die Frage nach dem Mindeststichprobenumfang gestellt: Wie groß muss mindestens der Stichprobenumfang n gewählt werden, damit die Länge eine Konfidenzintervalls mit vorgegebener Überdeckungswahrscheinlichkeit einen bestimmten Wert L nicht überschreitet? Sei 0.95 die vorgegebene Überdeckungswahrscheinlichkeit. Wie bestimmt man den Mindeststichprobenumfang? Zunächst eine theoretische Vorüberlegung. StatSoz 265 Im Ein–Stichproben–Fall wird das Konfidenzintervall σ σ x̄ − 1.96 · √ , x̄ + 1.96 · √ n n mit der Intervalllänge σ 2 · 1.96 · √ n betrachtet. Formal ergibt sich der Mindeststichprobenumfang aus der Lösung der Ungleichung σ L ≥ 2 · 1.96 · √ n Durch ,,Auflösen nach n” erhält man die Ungleichung 4 · 1.962 · σ 2 n≥ L2 StatSoz 266 Das minimale n, dass diese Ungleichung erfüllt, ist dann der Mindeststichprobenumfang: 4 · 1.962 · σ 2 nmin = kleinstes n mit n ≥ L2 (9.4) Nun ist σ i. A. nicht bekannt. Wie geht man in der Praxis vor? Entweder liegt bereits eine zuverlässige Schätzung vor (basierened auf eine Paralleluntersuchung) und man ersetzt in Gleichung (9.4) σ durch diesen Schätzwert oder aber man führt eine Voruntersuchung durch und schätzt σ mittels einer Stichprobe von geringem Umfang. Dieser Schätzwert ist normalerweise größer als jede Standardabweichung, die auf der Basis einer umfangreicheren Stichprobe ermittelt werden würde. StatSoz 267 9.4 Beispiel (vgl. Bsp. 9.1): Man möchte den durchschnittlichen Zeitaufwand für Hausaufgaben von Grundschülern schätzen. Wie groß muss die Anzahl der Schüler sein, damit ein 0.95– Konfidenzintervall die Länge von 10 nicht überschreitet (Schätzgenauigkeit ±5)? Eine Voruntersuchung anhand von 30 Grundschülern ergab einen Schätzwert für σ von 20. Lösung: Der Mindeststichprobenumfang bestimmt sich aus der Ungleichung 4 · 1.962 · 202 n≥ = 61.46 2 10 Folglich ist nmin = 62. StatSoz 268 Fordert man eine Länge von 5 (doppelte Schätzgenauigkeit), so ergibt sich wegen 4 · 1.962 · 202 n≥ = 245.86 2 5 ein Mindeststichprobenumfang von 246 (rund das Vierfache). Allgemein gilt: Eine doppelte Schätzgenauigkeit L/2 erfordert einen vierfachen Mindeststichprobenumfang: 4 · 1.962 · σ 2 4 · 1.962 · σ 2 n≥ =4· 2 (L/2) L2 StatSoz 269 9.5 Konfidenzintervall für einen Anteilswert Im Folgenden sollen die Aussagen von Abschnitt 9.2 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1–kodiertes binäres Merkmal. Nach Abschnitt 7.2 ist X Bernoulli–verteilt zum Parameter π ∈ (0, 1): P (X = 1) = π, P (X = 0) = 1 − π π bezeichnet hier den (unbekannten) Anteilswert, also die relative Häufigkeit der Merkmalsträger einer zugrundeliegenden Grundgesamtheit mit Ausprägung 1: π = Anteil der Merkmalsträger einer Grundgesamtheit mit Ausprägung 1 Ziel: Intervallschätzung für den Anteilswert π StatSoz 270 Sei wieder x1 , . . . , x n eine Stichprobe vom Umfang n. Eine Punktschätzung für π ist die relative Trefferhäufigkeit x̄ = relative Häufigkeit der Ausprägung 1 in der Stichprobe x1, . . . , xn (zur Erinnerung: xi ist entweder 1 oder 0). Für die Populationsvarianz gilt: σ 2 = π · (1 − π) (vgl. Abschnitt 8.4, Aufgabe 3, Blatt 6). Eine vernünftige Schätzung der Varianz ist somit σ̂ 2 = x̄ · (1 − x̄) StatSoz 271 Damit ist r ESEM = eine Schätzung von p √ π · (1 − π)/ n. x̄ · (1 − x̄) n SEM = √ σ/ n = Wenn die Faustregel (8.2) erfüllt ist, d. h. n · x̄ · (1 − x̄) > 9 so sind die Grenzen eines Konfidenzintervalls für π zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch r x̄ ± z · x̄ · (1 − x̄) n mit den z–Werten z0.95 = 1.645, z0.975 = 1.96, z0.995 = 2.576. StatSoz 272 9.5 Beispiel: In einen Stadtgebiet beträgt der Anteilswert der Einwohner, die öffentliche Verkehrsmittel benutzen, 16%. Man vermutet inzwischen einen Anstieg der Benutzer. Eine neue Umfrage in diesem Stadtgebiet ergab, dass 42 von 200 Einwohnern öffentliche Verkehrsmittel benutzen. Lässt sich die Vermutung bestätigen? Die Punktschätzung ergibt den Wert x̄ = 42/200 = 0.21 ein Anstieg von 5%. Dieser Anstieg kann aber zufallsbedingt sein, kann also auf die Variabilität der Daten zurückzuführen sein. Ein 0.95– Konfidenzintervall ist hier informativer. Wegen 200 · 0.21 · 0.79 = 33.18 > 9 ist die Faustregel (8.2) erfüllt. StatSoz 273 0.95–Konfidenzintervall für π: r untere Grenze = 0.21 − 1.96 · 0.21 · 0.79 200 = 0.15 r obere Grenze = 0.21 + 1.96 · 0.21 · 0.79 200 = 0.27 Interpretation: Mit 95% iger Sicherheit liegt der (wahre) Anteilswert zwischen 15% und 27%. Da der Wert 0.16 ebenfalls im Konfidenzintervall liegt und damit (nach wie vor) ein plausibler Schätzwert ist, kann obige Vermutung nicht bestätigt werden. Der beobachtete Wert von 21% und damit ein Anstieg um 5% kann auch durch die Zufälligkeit der Daten erklärt sein. StatSoz 274 9.6 Konfidenzintervall zum Vergleich zweier Anteilswerte (Zwei-Stichproben-Problem) Im Folgenden sollen die Aussagen von Abschnitt 9.3 für dichotome Grundgesamtheiten formuliert werden. Sei X ein 0/1–kodiertes binäres Merkmal. Ausgangspunkt: zwei dichotome Grundgesamtheiten. Es soll entschieden werden, ob sich die Grundgesamtheiten hinsichtlich ihrer Anteilswerte π1 und π2 unterscheiden. Dazu werden zwei unabhängige Stichproben x11, . . . , x1n1 (Stichprobe 1) x21, . . . , x2n2 (Stichprobe 2) und erhoben. StatSoz 275 Jede Beobachtung besitzt entweder den Wert 1 oder 0. Bezeichnen n1 X 1 x̄1 = x1i n1 i=1 und n2 X 1 x̄2 = x2j n2 j=1 die Anteilswerte der beiden Stichproben (Schätzungen für π1 bzw. π2). Wegen σ12 = π1 · (1 − π1) und σ22 = π2 · (1 − π2) beträgt der Standardfehler der Differenz x̄1 − x̄2 s π1 · (1 − π1) π2 · (1 − π2) + n1 n2 (dies entspricht (9.1)). StatSoz 276 Damit sind x̄1 · (1 − x̄1) und x̄2 · (1 − x̄2) (Punkt–)Schätzungen für σ12 bzw. σ22. Folglich ist s x̄1 · (1 − x̄1) x̄2 · (1 − x̄2) + n1 n2 eine Schätzung des Standardfehlers von x̄1 − x̄2. StatSoz 277 Sind die Faustregeln n1 · x̄1 · (1 − x̄1) > 9 und n2 · x̄2 · (1 − x̄2) > 9 erfüllt, so sind die Grenzen eines Konfidenzintervalls für π1 − π2 zur Vertrauenswahrscheinlichkeit 0.9, 0.95, 0.99 gegeben durch s x̄1 − x̄2 ± z · x̄1 · (1 − x̄1) x̄2 · (1 − x̄2) + n1 n2 mit den z–Werten z0.95 = 1.645, z0.975 = 1.96, z0.995 = 2.576. StatSoz 278 9.6 Beispiel: Präferenzverhalten von Frauen/Männer hinsichtlich einer bestimmten (politischen) Partei A. Von 496 befragten Frauen (Stichprobe 1) äußerten 200 eine Präferenz für die Partei A. Unter den 435 befragten Männern (Stichprobe 2) waren es 144, die eine Präferenz für die Partei A zeigten. Wegen 200 144 x̄1 = = 0.4 und x̄2 = = 0.33 496 435 erhält man für die Grenzen eines 0.95– Konfidenzintervalls r 0.4 · 0.6 0.33 · 0.67 0.40 − 0.33 ± 1.96 · + 496 435 = 0.07 ± 0.06 Beachte: Die Faustregeln sind wegen 496 · 0.4 · (1 − 0.4) = 119.04 > 9 StatSoz 279 und 435 · 0.33 · (1 − 0.33) = 96.17 > 9 erfüllt. Das 95%–Konfidenzintervall lautet (0.01, 0.13) Die Null ist nicht im Konfidenzintervall enthalten. Interpretation: Der Präferenzunterschied kann nicht nur durch Zufälligkeit erklärt werden. Mit 95% iger Sicherheit liegt der Präferenzunterschied bei Frauen und Männer zwischen 1% und 13%. StatSoz 280 Abschließende Bemerkung: Die in diesem Kapitel aufgeführten Beispiele machen deutlich, dass ein Konfidenzintervall eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine Punktschätzung. Während die Bestimmung einer Punktschätzung (relativ) einfach ist (ein allgemeines Konstruktionsprinzip ist die Maximum– Likelihood–Methode), kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein, da hierzu Verteilungsaussagen über eine Punktschätzung benötigt werden. StatSoz 281