Querschnittsfach „Epidemiologie, Med. Biometrie und Med. Informatik“ Lösungen zu Seminar 4 Aufgabe 1: Konfidenzintervalle X = Eisenbindungskapazität normalverteilt Erwartungswert µ Standardabweichung Studie mit n = 50 Patienten: Mittelwert empirische Standardabweichung x s = 320 30 1 (µg / 100 ml) Was ist das 95% Konfidenzintervall? (Aufgabe 2) Genauigkeitsmaß für die Schätzung Das 95%-Konfidenzintervall enthält den Erwartungswert µ mit 95%-iger Sicherheit in folgendem Sinn: 100 Stichproben aus derselben Grundgesamtheit 100 mal ein 95%-Konfidenzintervall berechnet näherungsweise 95 der 100 Konfidenzintervalle enthalten den wahren Wert µ 2 95%-Konfidenzinterv.: 20 Simulationen (n=100, p=0,07) 0,07 3 95% Konfidenzinterv.: 20 Simulationen (n=1.485, p=0,07) 0,07 4 Berechnung des 95%-Konfidenzintervalls X normalverteilt Erwartungswert µ Standardabweichung 95%-Konfidenzintervall für µ: [ x 1,96 n ; x 1,96 n ] Mit 95%-iger Wahrscheinlichkeit liegt der Erwartungswert µ in diesem Intervall zur Berechnung: Standardabweichung muss bekannt sein! 5 95%-Konfidenzintervall für µ bei unbekannter Standardabw.: statt die empirische Standardabweichung s s hat zusätzliche Streuung, für die eine Korrektur vorzunehmen ist ersetze 97,5%-Quantil u0,975 1,96 der Standardnormalverteilung durch 97,5%-Quant. der t-Verteilung mit (n1)=49 Freiheitsgraden t t49 0,975 ?? (siehe Tabelle) s s ; x t [ x t ] n n 6 Aufgabe 1. a) 95%-Konfidenzintervall i) bei bekannter Standardabweichung: 320 1,96 30 ; 320 1,96 30 50 50 = 311,68 ; 328,32 ii) bei unbekannter Standardabweichung: t49 0,975 = 2,01 Tabelle (extrapoliert): also: 320 2,01 30 ; 320 2,01 30 50 50 = 311,47 ; 328,53 7 Aufgabe 1 b): Länge des 95%-Konfidenzintervalls aus a) i): 328,32 311,68 = 16,64 Länge des 95%-Konfidenzintervalls bei bekannter Standardabweichung : 2 1,96 n Halbierung der Länge des KIs entspricht Vervierfachung des Stichprobenumfangs !! in Aufgabe 1: Stichprobenumfang von 200 statt 50 95%-Konfidenzintervall ist halb so lang 8 Aufgabe 2: nur Antwort b) ist richtig. Antwort a) ist falsch, Begründung: siehe Antwort c) Antwort c) ist falsch, Begründung: bei grossem n kleines 95%-KI enthält spätere Beob. m. kleiner Wahrsch. Antwort d) ist falsch, Begründung bei Schätzwert aus kleiner Stichprobe ungenaue Schätzung (Extremfall: n = 1 Antwort c)) 9 Aufgabe 3. a) Punktschätzer für die Wahrscheinlichkeit p eines Misserfolges der Therapie: 6 p 0,130 46 (entsprechend dem Mittelwert) empirische Standardabweichung von p : s p p 1 p n 0,130 1 0,130 46 = 0,04966 (entsprechend der empirischen Standardabw. d. Mittelwertes) 10 Aufgabe 3. b) 95%-Konfidenzintervall für die Misserfolgswahrscheinlichkei t p (für n 30): p 1 p p 1 p ; p u0,975 p u0,975 n n = p 1,96 s p ; p 1,96 s p = 0,130 1,96 0,04966 ; 0,130 1,96 0,04966 = [ 0,033 ; 0,227 ] [ 3% ; 23 % ] 11 Ergänzung zu Aufgabe 3 b): Die dargestellte Lösung ist richtig. Eine „andere“ Herleitung der Formel: X = Anzahl der Misserfolge der Therapie X ist binomialverteilt mit n = 46 und unbekannter (Misserfolgs-)wahrscheinlichkeit p Varianz x2 = n * p * (1-p) 12 Bezeichne Y die zugehörige Bernoulliverteilte Zufallsvariable, also Y=1 bei Mißerfolg, Y=0 bei Erfolg. Varianz Y2 = p * (1-p) (Das paßt zu X = Y1+Y2+...Yn) Der Mittelwert von Y ist unser Schätzer für die Misserfolgswahrscheinlichkeit: Anzahl Misserfolge y n 13 Das 95%-Konfidenzintervall ergibt sich nach der Formel aus Aufgabe 1 (i), wenn für x der Mittelwert y und für die Standardabweichung von Y eingesetzt wird, wobei p durch den geschätzten Wert p̂ ersetzt wird: [ x 1,96 [ y 1,96 [ pˆ 1,96 n y n ; x 1,96 ; y 1,96 p(1 p n n y n ] = ] = ; pˆ 1,96 p(1 p n ]= pˆ 1 pˆ pˆ 1 pˆ [ pˆ 1,96 ] ; pˆ 1,96 n n 14 Aufgabe 3.c) 95%-Konfidenzintervall für Misserfolgswahrscheinlichkeit der Therapie mit Spectinomycin: [ 0,033 ; 0,227 ] enthält Misserfolgsrate von 0,10 der Penicillin-G-Therapie Beurteilung: etwas höhere Misserfolgsrate von 0,13 bei Spectinomycin gegenüber 0,10 bei Penicillin G ist als zufällig zu beurteilen keine der Therapien hat eindeutigen Vorteil Länge des Konfidenzintervalls hängt von der Fallzahl ab! 15 Aufgabe 4: Grundgesamtheit: alle Todesfälle in Bevölkerung, Alter 55-64 Anteil Todesfälle aufgrund Tumor 0 = 0,20 Teilpopulation: alle 13 Todesfälle in KKW, Alter 55-64 X = Anzahl Todesfälle wegen Tumor: binomial-verteilt mit n=13 und unbekannter Wahrscheinlichkeit 16 Testproblem: Nullhypothese: H0: tumorbedingte Todesfälle in KKW genauso häufig wie in der Bevölkerung in Formeln: H0: = 0,20 Alternativhypothese: H1: 0,20 Signifikanzniveau (Fehler 1. Art): = 0,05 = P( H0 fälschlicherweise verworfen ) = P( Entscheidung für H1 | H0 ist richtig ) 17 Welcher Test? Approximation durch Normalverteilung entfällt, da n = 13 zu geringe Fallzahl „exakter“ Test: Für 2 fest gewählten Konstanten c1 und c2 wird nach folgender Regel entschieden: Die Nullhypothese wird abgelehnt, wenn X < c1 oder X > c2 c1 und c2 müssen unter der Nullhypothese = 0,20 folgende Bedingungen erfüllen: PH0 ( Entscheidung für H1 ) = PH0 ( X < c1 ) + PH0 ( X > c2 ) < = 0.05 PH0 ( X < c1 ) < /2 = 0,025 PH0 ( X > c2 ) < /2 = 0,025 18 13 PH0 ( X > 7 ) = P X k k 8 13 8 5 13 = 0,2 0,8 0,2 9 0,8 4 ... 8 9 19 X binomialverteilt mit Erfolgswahrscheinlichkeit p = 0,20 und n = 13 k 13 k 0,2 k 0,8n k P(X = k) P(X k) P(X < k) P(X > k) ------------------------------------------------------------------------------------------------------------------------------------0 1 1,000 0,055 0,055 0,055 0,000 0,945 1 13 0,200 0,069 0,179 0,234 0,055 0,766 2 78 0,040 0,086 0,268 0,502 0,234 0,498 3 286 0,008 0,107 0,246 0,747 0,502 0,253 4 715 0,002 0,134 0,154 0,901 0,747 0,099 5 1287 0,000 0,168 0,069 0,970 0,901 0,030 6 1716 0,000 0,210 0,023 0,993 0,970 0,007 7 1716 0,000 0,262 0,006 0,999 0,993 0,001 8 1287 0,000 0,328 0,001 1,000 0,999 0,000 9 715 0,000 0,410 0,000 1,000 1,000 0,000 10 286 0,000 0,512 0,000 1,000 1,000 0,000 11 78 0,000 0,640 0,000 1,000 1,000 0,000 12 13 0,000 0,800 0,000 1,000 1,000 0,000 13 1 0,000 1,000 0,000 1,000 1,000 0,000 20 Bestimmung der Konstanten c1 und c2 aus der Tabelle: c1 = 0 c2 = 6 Testergebnis: X = 5 liegt zwischen 0 und 6 Die Nullhypothese wird beibehalten: Die Häufung der tumorbedingten Todesfälle ist zufällig. (obwohl 5 0,385 ) 13 Irrtumsrisiko = ?? 21 Aufgabe 4, Teil 2: Annahme: 5 0,385 = 13 1 = 0,615 P( Entscheidung für H0 ) = P( 0 X 6 ) 6 = P X k k 0 = 0,385 0,615 0 13 13 0,3851 0,61512 1 13 2 11 13 3 10 0,385 0,615 0,385 0,615 2 3 13 4 9 13 5 8 0,385 0,615 0,385 0,615 4 5 13 6 7 0,385 0,615 6 22 X binomialverteilt mit Erfolgswahrscheinl. p = 0,385 und n = 13 k 13 k 0,385k 0,615n k P(X = k) P(X k) -----------------------------------------------------------------------------------------------------0 1 1.000 0.002 0.002 0.002 1 13 0.385 0.003 0.015 0.017 2 78 0.148 0.005 0.055 0.072 3 286 0.057 0.008 0.127 0.199 4 715 0.022 0.013 0.198 0.397 5 1287 0.008 0.021 0.223 0.619 6 1716 0.003 0.033 0.186 0.805 7 1716 0.001 0.054 0.116 0.921 8 1287 0.000 0.088 0.054 0.976 9 715 0.000 0.143 0.019 0.994 10 286 0.000 0.233 0.005 0.999 11 78 0.000 0.379 0.001 1.000 12 13 0.000 0.615 0.000 1.000 13 1 0.000 1.000 0.000 1.000 23 Also gilt: P( Entscheidung für H0 ) = P( 0 X 6 ) = 0,805 81 % Irrtumsrisiko trotz = 0,385 für die Nullhypothese = 0,2 zu entscheiden (Fehler 2. Art oder -Fehler) 24 Aufgabe 5: Nur Antwort A ist richtig! Fehlerwahrscheinlichkeit 1. Art = P( H0 wird abgelehnt | H0 ist wahr ) andere Antworten: Antwort B: 1 Fehlerw. 2. Art Antwort C: (Aussagefähigkeit des Tests) Antwort D: 1 Fehlerw. 1. Art Antwort E: Fehlerwahrscheinlichkeit 2. Art 25 Aufgabe 6: Nur Antwort D ist richtig! Ein statistischer Test dient dem Prüfen einer Hypothese. 26 Aufgabe 7: Nur Antwort A ist richtig! H0: Patient ist gesund. H1: Patient ist nicht gesund. Wahrscheinlichkeit, dass Patient irrtümlich als gesund eingestuft wird = Wahrsch., dass H0 angenommen wird, obwohl die Alternativhypothese gilt = Wahrscheinlichkeit für Fehler 2. Art 27 Aufgabe 7: andere Antworten: Antwort B: gesunder Patient gesund eingestuft Antwort C: kranker Patient krank eingestuft Antwort D: gesunder Patient krank eingestuft 28