Konfidenzintervall Problem: der wahre Wert M der GG ist nicht bekannt Thema: Konfidenzintervalle und Test Aber: die Wahrscheinlichkeit ist bekannt, mit der der geschätzte Wert in der Nähe des wahren Werts liegt Deshalb: kann man eine Wahrscheinlichkeit angeben dafür, dass der geschätzte Wert der wahre Wert ist? Uminterpretation eines empirischen Datensatzes als Zufallsexperiment: Die festgestellte Häufigkeitsverteilung eines Merkmals bei n Fällen ist der Ausgang von n Zufallsexperimenten, deren Ergebnisse durch diejenige Wahrscheinlichkeitsverteilung bestimmt sind, die durch die Häufigkeitsverteilung der Ausprägung in der Grundgesamtheit gegeben ist. Damit lassen sich Wahrscheinlichkeiten für die aus einer einzigen Stichprobe ermittelbaren Parameter angeben. Müller-Benedict: Statistik I/8 Konfidenzintervall zum Niveau ist ein Intervall [ f/2; f1-/2], das einen aus einer Stichprobe geschätzten Parameter, dessen Wahrscheinlichkeitsverteilung f ist, enthält und in dem der unbekannte wahre Wert sich mit Wahrscheinlichkeit 1- befindet. Man sagt auch „1- %Konfidenzintervall“. P (f/2 < wahrer Wert < f1-/2 ) = 1 - z.B. für Mittelwerte und = 0,05: 1 4. 5. n )) [ 1,96 * s n x; x 1,96 * s n ] Müller-Benedict: Statistik I/8 2 links Vorgehen beim Bestimmen von Konfidenzintervallen für einen Kennwert in einer Stichprobe: Man ermittelt den Kennwert aus der Stichprobe. Man stellt die theoretische Wahrscheinlichkeitsverteilung f eines solchen Kennwerts fest. Man schätzt die Parameter der Wahrscheinlichkeitsverteilung f mit Hilfe von weiteren Angaben aus der Stichprobe. Man setzt ein Niveau für die Fehlerwahrscheinlichkeit fest. Man bestimmt die f/2 und f1-/2 – Werte für diese Wahrscheinlichkeitsverteilung. Das Konfidenzintervall ist dann das Intervall [ f/2 ; f1-/2 ]. 1 2 3 4 5 6 7 8 9 10 rechts Mitte = 5,5 1200 1000 1998 800 Statistiken LINKS-RECHTS-SELBSTEINSTUFUNG, BEFR. N Gültig Fehlend Mittelwert Standardabweichung 600 400 Häufigkeit 3. s Beispiel: Schätzen sich die Deutschen eher links oder rechts ein? Bestimmung des Konfidenzintervalls 1. 2. KI 0,05 (N( x, 200 3056 178 5,02 1,63 Std.abw. = 1,63 Mittel = 5,0 N = 3056,00 0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 LINKS-RECHTS-SELBSTEINSTUFUNG, BEFR. Müller-Benedict: Statistik I/8 3 Müller-Benedict: Statistik I/8 4 Beispiel: Lesekompetenz steigt mit Anzahl Büchern zu Hause Einfacher Test PISA 2000: Gymnasium Unbekannte Varianz bei Mittelwertschätzungen Ist die Varianz 2 der GG unbekannt, wird zur Schätzung von 2 die Stichproben-Varianz s2 genommen. Bei großen Stichproben (n > 30) wird das Konfidenzintervall des Mittelwerts mit der Normalverteilung berechnet, sonst die t-Verteilung genommen. How many books at home None 1-10 11-50 51100 101250 250500 > 500 535 520 547 561 574 586 595 None 1-10 11-50 51100 101250 250500 > 500 Lesekompetenz-Score 427 442 473 487 500 506,6 503,2 n (Anzahl) 84 649 2691 3033 2784 1504 921 69,4 67,2 67,9 65,4 68,7 69,7 71,7 Lesekompetenz-Score PISA 2000: Realschule How many books at home Test zum Niveau Ob sich ein aus einer Stichprobe geschätzter Kennwert einer GG von einem vorgegebenen Wert unterscheidet, wird getestet, indem ermittelt wird, ob sich der vorgegebene Wert innerhalb des Konfidenzintervalls des geschätzten Werts zum Niveau alfa befindet oder nicht. Liegt er innerhalb, so lautet das Test-Ergebnis: Kein Unterschied; liegt er außerhalb, so lautet es: es besteht ein Unterschied (zum Niveau ). Man sagt dann auch, der Unterschied ist signifikant (zum Niveau ). Müller-Benedict: Statistik I/8 s (Standardabweichung) Frage: Über 250 Bücher signifikante Unterschiede? 5 Beispiel: Kein Unterschied über 250 Bücher, Realschule Müller-Benedict: Statistik I/8 6 Beispiel: Signifikanter Unterschied über 250 Bücher, Gymnasium Univariate Statistiken Univariate Statistiken Internat. Lesen PV 1 How many books at home - Q37 251-500 Mittelwert 95% Konfidenzintervall des Mittelwerts More than 500 Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze Untergrenze Obergrenze Statistik 506,6510 503,1277 Standardf ehler 1,79615 Internat. Lesen PV 1 510,1742 503,1859 498,5474 More than 500 2,36353 507,8244 510 Untergrenze Obergrenze Mittelwert 95% Konfidenzintervall des Mittelwerts Untergrenze Obergrenze Statistik 586,3326 583,9510 Standardf ehler 1,21455 588,7142 594,7997 592,1865 1,33256 597,4129 595,0 95% CI Internat. Lesen PV 1 95% CI Internat. Lesen PV 1 Mittelwert 95% Konfidenzintervall des Mittelwerts 597,5 512 508 506 504 502 592,5 590,0 587,5 585,0 500 582,5 498 251-500 251-500 More than 500 More than 500 How many books at home - Q37 How many books at home - Q37 Müller-Benedict: Statistik I/8 How many books at home - Q37 251-500 7 Müller-Benedict: Statistik I/8 8 Konfidenzintervall für Anteile in kleinen Stichproben Konfidenzintervall für Anteile in großen Stichproben In Ihrer Klasse erreichen 6 von 23 Schülern = 26% Niveau 3. Von 316 repräsentativ getesteten Schülern aus Vergleichsklassen erreichen 98 = 31% das Niveau 3. In Ihrer Klasse erreichen 6 von 23 Schülern = ein Anteil von 26% Niveau 3. Die Klasse stelle eine repräsentative Stichprobe aller Ihrer Schüler dar. Der Anteil von 26% kann dann als ein möglicher Indikator Ihrer durchschnittlichen Lehrleistung angenommen werden. In welchen Grenzen liegt mit 95% W. der „wahre“ Wert Ihrer Lehrleistung? Niveau Im Konfidenzintervall zum Niveau für Anteile: KI = [ B(n,p)/2; B(n,p)1-/2]. Hier B(n, p) = B(23; 0,26); = 5% = 0,05. Klasse Häufigkeit Klasse Anteil Kleiner als 3 218 0,69 17 0,74 3 98 0,31 6 0,26 Summe 316 1 23 1 Haben in Ihrer Klasse weniger Schüler das Niveau 3 erreicht als im Durchschnitt aller Vergleichsklassen? Mit Tabelle: B(23; 0,26)0,025 ≈ 1, B(23; 0,26)0,975 ≈ 9 , KI = [ 1 ; 9 ] , mit 95% W. liegt der „wahre“ Wert Ihrer Lehrleistung zwischen 1 und 9 Schülern mit Niveau 3. Müller-Benedict: Statistik I/8 Stichprobe Stichprobe Häufigkeit Anteil Der wahre Wert Ihrer Klasse ist 0,26 (Vollerhebung). Der „wahre“ Wert aller Vergleichsklassen liegt im KI um 0,31. KI für Anteile B(n; p); hier: n = 316, p = 0,31; Niveau = 0,05 KI = [ B( 316; 0,31)0,025; B( 316; 0,31)0,975] 9 Müller-Benedict: Statistik I/8 10 Konfidenzintervall für Anteile, mit Laplace-Approximation Satz von Laplace In Ihrer Klasse erreichen 6 von 23 Schülern = 26% Niveau 3. „Satz von Laplace/DeMoivre“ Sei B( n, ) eine Binomialverteilung und sowohl n >= 5 als auch n(1-) >= 5 und n >= 10. Dann kann B(n, ) durch eine Normalverteilung Der „wahre“ Wert aller Vergleichsklassen liegt mit 95 % W. in KI = [ B( 316; 0,31)0,025; B( 316; 0,31)0,975] approximiert werden. (1 ) ) n für Anteile p: B(n, ) N( ; für absolute Zahlen k: B(n, ) N(n; n(1 ) Müller-Benedict: Statistik I/8 [N( 0,31; 0,31 (1 0,31) 0,31 (1 0,31) )0,025 ; N( 0,31; )0,975 ] 316 316 = [ N( 0,31; 0,026)0,025; N( 0,31; 0,026)0,975 ] = [ -1,96 · 0,026 + 0,31; 0,31 + 1,96 · 0,026 ] = [ -0,051 + 0,31; 0,31 + 0,051] = [ 0,259; 0,361] = [ 25,9%; 36,1%] Test: Der Wert Ihrer Klasse (26%) liegt innerhalb des KI, also: kein signifikanter Unterschied zu den Vergleichsklassen (bei Sicherheitsniveau 95%)! 11 Müller-Benedict: Statistik I/8 12 Beispiel: Anteil Rechtsextremer Bestimmung der Stichprobengröße Wie groß muss eine Stichprobe für eine Anteilsbestimmung sein? Folgende Angaben sind notwendig: LINKS-RECHTS-SELBSTEINSTUFUNG, BEFR. Gültig Fehlend Gesamt LINKS RECHTS Gesamt KA Häufigkeit 45 114 375 525 956 539 283 143 53 23 3056 178 3234 Prozent 1,4 3,5 11,6 16,2 29,6 16,7 8,8 4,4 1,6 ,7 94,5 5,5 100,0 Gültige Prozente 1,5 3,7 12,3 17,2 31,3 17,6 9,3 4,7 1,7 ,8 100,0 Kumulierte Prozente 1,5 5,2 17,5 34,7 65,9 83,6 92,8 97,5 99,2 100,0 Wie genau soll der Anteil angebbar sein? (Länge des Konfidenzintervalls, auf x (rel. Anteil) genau) Anteil „rechts“: 53+23 von 3056 = 2,5% Wie sicher soll diese Genauigkeit sein? (-Niveau des Konfidenzintervalls) In welchem Bereich liegt der Anteil p ungefähr? Dann sollte n mindestens sein: p(1 p) p(1 p) ] p; p 1,96 * n n 0,025(1 0,025 ) 0,025(1 0,025 ) [ 1,96 * 0,025; 0,025 1,96 * ] 3056 3056 KI 0,05 ( Anteil p) [ 1,96 * z n p (1 p ) / 2 x 2 Beispiel: erwarteter Anteil ca. 5%, Genauigkeit soll +/- 1% sein, Sicherheit 95%: 2 1,96 n 0,05 (1 0,05) 0,0475 38416 1824 0,01 = [ 0,0195; 0,0305] = [ 1,95%; 3,05%] Müller-Benedict: Statistik I/8 13 Hausaufgabe: Zum Nacharbeiten der Vorlesung vor den Hausaufgaben: Müller-Benedict, Kap. 9.1 – 9.4 1. In einer Population ziehen Sie eine Stichprobe der Größe 144. In dieser Stichprobe erreicht die Meinung über das "Vertrauen in die Schule" auf einer Skala zwischen 1 = „überhaupt kein Vertrauen“ bis 7 = „vollstes Vertrauen“ einen Mittelwert m von 5,2 bei einer Standardabweichung von s = 1,2. Berechnen Sie ein Konfidenzintervall, in dem der wahre Wert des Vertrauens der gesamten Population in die Schule mit 90% Wahrscheinlichkeit liegt. 2. Die Zahl von Ladendiebstählen liege in den USA bei durchschnittlich 60 (pro Jahr und Geschäft) und sei normalverteilt. In Gotham City ermittelt eine repräsentative Untersuchung an 1000 Läden durchschnittlich 70 mit einer Standardabweichung von 40. Ist der Einsatz von Batman berechtigt, d.h. ist die Ladenkriminalität in Gotham City höher als in den USA insgesamt ? 3. In einer Stichprobe von 100 Personen ergibt sich ein Anteil von 46 Frauen. Stellt diese Anzahl noch eine „zufällige“ Abweichung von den erwarteten gleich viel Männern und Frauen in der Population dar oder ist sie ein Hinweis auf einen tatsächlichen niedrigeren Frauenanteil? Müller-Benedict: Statistik I/8 15 Müller-Benedict: Statistik I/8 14