Biostatistik, Winter 2011/12 Konfidenzintervalle und Tests Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 13.01.2012 1/31 Inhalt 1 Konfidenzintervalle Definition Normalverteilung mit bekannter Varianz Normalverteilung mit unbekannter Varianz Binomialverteilung 2 Tests Einführung 2/31 Konfidenzintervalle Definition Grundbegriffe W Wertemenge der einzelnen Beobachtung (oft W = R) X = Wn Menge der Beobachtungen, Stichprobengröße n Θ Parametermenge für die Wahrscheinlichkeitsverteilung Pϑ auf X Wahrer Wert ϑ ∈ Θ ist zu schätzen. 3/31 Konfidenzintervalle Definition Definition Sei α ∈ (0, 1) (typisch: α = 5% oder α = 1%). Sei Θ ⊂ R. Eine Vorschrift x 7→ C(x), die jedem x ∈ X ein Intervall C(x) ⊂ Θ zuordnet mit Pϑ [C(X ) 3 ϑ] ≥ 1 − α für alle ϑ ∈ Θ, heißt Konfidenzintervall zum Konfidenzniveau 1 − α. Sei Θ ⊂ Rk und i = 1, . . . , k fest gewählt. Eine Vorschrift x 7→ C(x), die jedem x ∈ X ein Intervall C(x) zuordnet mit Pϑ [C(X ) 3 ϑi ] ≥ 1 − α für alle ϑ ∈ Θ, heißt Konfidenzintervall für ϑi zum Konfidenzniveau 1 − α. 4/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Normalverteilung mit bekannter Varianz Messgröße streut um wahren Wert µ mit einem Fehler, der normalverteilt ist mit bekannter Varianz σ 2 . W = R, X = Rn , Θ = R Pµ = Nµ,σ2 Konfidenzintervall ist σ σ C(x) = x − √ z1−α/2 , x + √ z1−α/2 . n n Dabei ist z1−α/2 das (1 − α/2)-Quantil der Normalverteilung, x= 1 (x1 + . . . + xn ) Mittelwert der Stichprobe. n 5/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Quantile der Normalverteilung β zβ β zβ 0.8 0.84162 0.995 2.57583 0.9 1.28155 0.9975 2.80703 0.95 1.64485 0.998 2.87816 0.975 1.95996 0.999 3.09023 0.98 2.05375 0.9995 3.29053 0.99 2.32635 6/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Beispiel: Kalorimetrie Im Kalorimeter werden n = 9 Messungen des Energieumsatzes einer Proteinreaktion durchgeführt. Streuung des Messgerätes: σ = 8 cal/mol. Ziel: Konfidenzintervall zum Konfidenzniveau 95% (α = 5%). Messwerte (in cal/mol) i 1 2 3 4 5 6 7 8 9 xi 72.2 72.4 78.4 68.6 61.7 78.7 76.7 86.0 80.0 Mittelwert x = 74.97 7/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Beispiel: Kalorimetrie Rechnung x = 74.97 n=9 σ=8 Konfidenzintervall für α = 0.05 σ σ C(x) = x − √ z1−α/2 , x + √ z1−α/2 n n 8 8 = 74.97 − z0.975 , 74.97 + z0.975 3 3 8/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Quantile der Normalverteilung β = 1 − α/2 = 1 − 5%/2 = 0.975 β zβ β zβ 0.8 0.84162 0.995 2.57583 0.9 1.28155 0.9975 2.80703 0.95 1.64485 0.998 2.87816 0.975 1.95996 0.999 3.09023 0.98 2.05375 0.9995 3.29053 0.99 2.32635 9/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Beispiel: Kalorimetrie Rechnung x = 74.97 n=9 σ=8 Konfidenzintervall für α = 0.05 σ σ C(x) = x − √ z1−α/2 , x + √ z1−α/2 n n 8 8 = 74.97 − z0.975 , 74.97 + z0.975 3 3 8 8 = 74.97 − · 1.95996, 74.97 + · 1.95996 3 3 = [69.74, 80.19] ≈ [69.7, 80.2] 10/31 Konfidenzintervalle Normalverteilung mit bekannter Varianz Beispiel: Kalorimetrie Ergebnis Das Konfidenzintervall zum Konfidenzniveau 95% für den Energieumsatz in cal/mol beträgt C(x) = [69.7, 80.2] . 11/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Normalverteilung mit unbekannter Varianz Messgröße streut um wahren Wert µ mit einem Fehler, der normalverteilt ist mit unbekannter Varianz σ 2 . W = R, X = Rn , Θ = R × [0, ∞) Pµ,σ2 = Nµ,σ2 . σ 2 > 0 unbekannt, µ ∈ R ist zu schätzen. Konfidenzintervall für µ ist sn−1 sn−1 C(x) = x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2 . n n Dabei ist tn−1; 1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit n − 1 Freiheitsgraden und v u n u 1 X sn−1 = t (xi − x)2 Schätzwert für die Streuung. n−1 i=1 12/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Quantile der t-Verteilung n 1 2 3 4 5 tn; 0.9 3.0777 1.8856 1.6377 1.5332 1.4759 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995 6.3138 12.7062 31.8205 63.6567 2.9200 4.3026 6.9646 9.9248 2.3534 3.1824 4.5407 5.8409 2.1318 2.7764 3.7470 4.6041 2.0150 2.5706 3.3649 4.0321 6 7 8 9 10 1.4398 1.4149 1.3968 1.3830 1.3722 1.9432 1.8946 1.8596 1.8331 1.8125 2.4469 2.3646 2.3060 2.2622 2.2281 3.1427 2.9980 2.8965 2.8214 2.7638 3.7074 3.4995 3.3554 3.2498 3.1693 13/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Beispiel: Neuronenaktivierung Ein Neuron wird elektrisch bis zum Feuern“ gereizt. Wie groß ” ist die Aktivierungsspannung? 10 Messungen, Fehler normalverteilt, Varianz unbekannt. Ziel: Konfidenzintervall zum Konfidenzniveau 99% (α = 1%). Messwerte (in mV) i 1 2 3 4 5 6 7 8 9 10 xi 12 12.17 11.55 10.70 12.20 11.63 11.63 10.08 9.98 12.10 Mittelwert x = 11.404 q P 2 Streuung s9 = 19 10 i=1 (xi − x) = 0.8472072 14/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Beispiel: Neuronenaktivierung Rechnung x = 11.404 s9 = 0.8472072 Konfidenzintervall für α = 0.01 n = 10 C(x) sn−1 sn−1 = x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2 n n 0.8472072 0.8472072 √ √ = 11.404 − t9; 0.995 , 11.404 + t9; 0.995 10 10 15/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Quantile der t-Verteilung 1 − α/2 = 1 − 1%/2 = 0.995 n 1 2 3 4 5 tn; 0.9 3.0777 1.8856 1.6377 1.5332 1.4759 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995 6.3138 12.7062 31.8205 63.6567 2.9200 4.3026 6.9646 9.9248 2.3534 3.1824 4.5407 5.8409 2.1318 2.7764 3.7470 4.6041 2.0150 2.5706 3.3649 4.0321 6 7 8 9 10 1.4398 1.4149 1.3968 1.3830 1.3722 1.9432 1.8946 1.8596 1.8331 1.8125 2.4469 2.3646 2.3060 2.2622 2.2281 3.1427 2.9980 2.8965 2.8214 2.7638 3.7074 3.4995 3.3554 3.2498 3.1693 16/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Beispiel: Neuronenaktivierung Rechnung x = 11.404 s9 = 0.8472072 n = 10 Konfidenzintervall für α = 1% (in mV) C(x) sn−1 sn−1 = x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2 n n 0.8472072 0.8472072 √ √ = 11.404 − t9; 0.995 , 11.404 + t9; 0.995 10 10 0.8472072 0.8472072 √ √ = 11.404 − · 3.2498, 11.404 + · 3.2498 10 10 = [10.53, 12.27] ≈ [10.5, 12.3] 17/31 Konfidenzintervalle Normalverteilung mit unbekannter Varianz Beispiel: Neuronenaktivierung Ergebnis Das Konfidenzintervall zum Konfidenzniveau 99% für die Aktivierungsspannung beträgt (in mV) C(x) = [10.5, 12.3] . 18/31 Konfidenzintervalle Binomialverteilung Binomialverteilung Fragestellung Unbekannte Erfolgswahrscheinlichkeit p eines Experiments soll bestimmt werden. n Messungen, davon X Erfolge. X = W = {0, . . . , n} (Anzahl Erfolge), Θ = [0, 1] (Erfolgswahrscheinlichkeit) Pp = bn,p (Binomialverteilung). p ∈ [0, 1] ist zu schätzen. Berechnung des Konfidenzintervalls Normalapproximation, wenn n groß ist. Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist (Tabelle). 19/31 Konfidenzintervalle Binomialverteilung Binomialverteilung, Normalapproximation Beobachtung X ungefähr normalverteilt Nµ,σ2 mit µ = np und σ 2 = np(1 − p). Für p Schätzwert X /n einsetzen: X − pn p X (1 − X /n) ≈p X − pn np(1 − p) ∼ N0,1 . Auflösen nach p liefert: hx i x C(x) = − F, + F n n mit dem Fehler 1 F =√ n r x x 1− z1−α/2 . n n 20/31 Konfidenzintervalle Binomialverteilung Beispiel Anteil der Knaben unter allen Neugeborenen p =? Konfidenzintervall zum Konfidenzniveau 95% (α = 5%). Geburtenregister Stadt Düsseldorf 1999: n = 5234 Geburten, darunter x = 2676 Knaben. 21/31 Konfidenzintervalle Binomialverteilung Rechnung n = 5234, x = 2676, α = 5% Konfidenzintervall hx i x C(x) = − F, + F n n = [0.5113 − F , 0.5113 + F ] = [0.4977, 0.5249] ≈ [0.497, 0.525] mit dem Fehler r 1 x x √ F = 1− z1−α/2 n n n r 2676 1 2676 = √5234 1 − z0.975 5234 5234 = 0.006909438 · z0.975 = 0.006909438 · 1.95996 = 0.0136 β 0.8 0.9 0.95 0.975 0.98 0.99 zβ 0.84162 1.28155 1.64485 1.95996 2.05375 2.32635 22/31 Konfidenzintervalle Binomialverteilung Ergebnis Aus den Daten der Stadt Düsseldorf von 1999 ergibt sich für den Anteil der Knaben unter den Neugeborenen in Deutschland zum Konfidenzniveau 95% das Konfidenzintervall [0.497, 0.535]. 23/31 Konfidenzintervalle Binomialverteilung Binomialverteilung, Exakte Berechnung Fragestellung Unbekannte Erfolgswahrscheinlichkeit p eines Experiments soll bestimmt werden. n Messungen, davon X Erfolge. Exaktes Konfidenzintervall C(x) = 1 − βn−x+1,x;1−α/2 , βx+1,n−x;1−α/2 . Dabei ist βx,n,1−α/2 das (1 − α/2)-Quantil der Beta-Verteilung mit Parametern x und n (Tabelle!). 24/31 Konfidenzintervalle Binomialverteilung Beta-Verteilung: 97.5%-Quantil Tabelliert ist βm,n; 0.975 . m\n 1 2 3 4 5 1 .975 .987 .992 .994 .995 2 .842 .906 .932 .947 .957 3 .708 .806 .853 .882 .901 4 .602 .716 .777 .816 .843 5 .522 .641 .710 .755 .788 6 .459 .579 .651 .701 .738 7 .410 .526 .600 .652 .692 8 .369 .482 .556 .610 .651 9 .336 .445 .518 .572 .614 10 .308 .413 .484 .538 .581 11 .285 .385 .454 .508 .551 12 .265 .360 .428 .481 .524 6 7 8 9 10 .996 .996 .997 .997 .997 .963 .968 .972 .975 .977 .915 .925 .933 .940 .945 .863 .878 .891 .901 .909 .813 .833 .848 .861 .872 .766 .789 .808 .823 .837 .723 .749 .770 .787 .802 .684 .711 .734 .753 .770 .649 .677 .701 .722 .740 .616 .646 .671 .692 .711 .587 .617 .643 .665 .685 .560 .590 .616 .639 .660 11 .998 .979 .950 .916 .882 .848 .816 .785 .756 .728 .702 .678 12 .998 .981 .953 .922 .890 .858 .827 .797 .769 .743 .718 .694 25/31 Konfidenzintervalle Binomialverteilung Beispiel Stichprobe n = 15, x = 4 Erfolge, Konfidenzniveau 95% (α = 5%). C(x) = 1 − βn−x+1,x;1−α/2 , βx+1,n−x;1−α/2 = [1 − β12,4;0.975 , β5,11;0.975 ] = [1 − 0.922, 0.551] = [0.078, 0.551] Tabelle für βm,n; 0.975 m\n 3 4 5 6 . . . 11 12 3 .853 .882 .901 .915 4 .777 .816 .843 .863 5 .710 .755 .788 .813 .950 .953 .916 .922 .882 .890 ··· 10 .484 .538 .581 .616 11 .454 .508 .551 .587 12 .428 .481 .524 .560 .728 .743 .702 .718 .678 .694 Zum Vergleich: Normalapproximation liefert C(x) ≈ [0.042, 0.491]. Abweichung vom exakten Intervall etwa 5%. Bei einem so schlechten Konfidenzintervall ist das aber fast schon egal... 26/31 Konfidenzintervalle Binomialverteilung Fazit Berechnung des Konfidenzintervalls Normalapproximation, wenn n groß ist. Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist (Tabelle). Oft ist dann das Konfidenzintervall so groß, dass es nicht aussagekräftig ist. 27/31 Tests Einführung Beispiel Bohnenlieferant liefert Säcke mit weißen und schwarzen (teuren) Bohnen. Lieferant behauptet: H0 = Anteil schwarzer Bohnen θ = 41“. ” Unser Verdacht: H1 : θ < 14“. ” Stichprobe: n Bohnen, daraus x schwarz. H0 verwerfen, falls x ≤ K . H0 beibehalten, falls x > K . Problem: Wie ist K zu wählen? 28/31 Tests Einführung Beispiel Zwei Fehlermöglichkeiten 1 2 Fehler 1. Art H0 ist wahr, aber (zufälligerweise) ist x ≤ K . [Falsches Verwerfen von H0 ] Fehler 2. Art H0 ist falsch, aber (zufälligerweise) ist x > K . [Ungültigkeit von H0 wird nicht erkannt.] Problem Wie sind n und K zu wählen, damit Wahrscheinlichkeiten für Fehler 1. und 2. Art klein sind? 29/31 Tests Einführung Fahrplan für Testprobleme 1 2 3 Schranke α ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers 1. Art festlegen (Niveau). Typisch: α = 0.05, α = 0.01. n (möglichst groß) wählen (=⇒ Kosten). K wählen, sodass Wahrscheinlichkeit(Fehler 1. Art) ≤ α. 30/31 Tests Einführung Fahrplan für Testprobleme Variante: Fallzahlplanung 1 2 3 Schranke α ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers 1. Art festlegen (Niveau). Schranke β ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers 2. Art festlegen. Minimales n und optimales K berechnen, sodass Wahrscheinlichkeit (Fehler 1. Art) ≤ α Wahrscheinlichkeit (Fehler 2. Art) ≤ β. 31/31