Konfidenzintervalle Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 11. Januar 2013 Stetige Zufallsvariable, Normalverteilungen 1 Stetige Zufallsvariable, Normalverteilungen Standard-Normalverteilung Normalverteilungen Die 3-Sigma Regel Stetige Zufallsvariable, Normalverteilungen Verteilungsfunktion der Standard-Normalverteilung 1.0 Φ(x) 0.8 0.6 0.4 0.2 0.0 3 2 1 0 x 1 2 3 Stetige Zufallsvariable, Normalverteilungen Tabelle der Standard-Normalverteilung, linke Seite u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 0.00 0,500000 ,539828 ,579260 ,617911 ,655422 ,691462 ,725747 ,758036 ,788145 ,815940 ,841345 ,864334 ,884930 ,903200 0,919243 0.01 0,503989 ,543795 ,583166 ,621720 ,659097 ,694974 ,729069 ,761148 ,791030 ,818589 ,843752 ,866500 ,886861 ,904902 0,920730 0.02 0,507978 ,547758 ,587064 ,625516 ,662757 ,698468 ,732371 ,764238 ,793892 ,821214 ,846136 ,868643 ,888768 ,906582 0,922196 0.03 0,511966 ,551717 ,590954 ,629300 ,666402 ,701944 ,735653 ,767305 ,796731 ,823814 ,848495 ,870762 ,890651 ,908241 0,923641 0.04 0,515953 ,555670 ,594835 ,633072 ,670031 ,705401 ,738914 ,770350 ,799546 ,826391 ,850830 ,872857 ,892512 ,909877 0,925066 Stetige Zufallsvariable, Normalverteilungen Tabelle der Standard-Normalverteilung, rechte Seite u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 0.05 0,519939 ,559618 ,598706 ,636831 ,673645 ,708840 ,742154 ,773373 ,802337 ,828944 ,853141 ,874928 ,894350 ,911492 0,926471 0.06 0,523922 ,563559 ,602568 ,640576 ,677242 ,712260 ,745373 ,776373 ,805105 ,831472 ,855428 ,876976 ,896165 ,913085 0,927855 0.07 0,527903 ,567495 ,606420 ,644309 ,680822 ,715661 ,748571 ,779350 ,807850 ,833977 ,857690 ,879000 ,897958 ,914657 0,929219 0.08 0,531881 ,571424 ,610261 ,648027 ,684386 ,719043 ,751748 ,782305 ,810570 ,836457 ,859929 ,881000 ,899727 ,916207 0,930563 0.09 0,535856 ,575345 ,614092 ,651732 ,687933 ,722405 ,754903 ,785236 ,813267 ,838913 ,862143 ,882977 ,901475 ,917736 0,931888 Stetige Zufallsvariable, Normalverteilungen Lesehinweise Auf dem Weblog gibt es die komplette Tabelle im Format A4 unter http://www.math.uni-duesseldorf.de/~braun/ bio1213/tabNorm.pdf Beispiel Φ(0.31) = 0.621720 Wegen der Punktsymmetrie, also wegen Φ(−x) = 1 − Φ(x) kann man die Tabelle auch für negative Argumente verwenden. Also beispielsweise Φ(−1.34) = 1 − Φ(1.34) = 1 − 0.909877 = 0.090123 Durch Aufsuchen des Funktionswertes erhält man die Umkehrfunktion: Gesucht u mit Φ(u) = 0.79. Man liest ab: u = 0.81 Stetige Zufallsvariable, Normalverteilungen Tabelle der Standard-Normalverteilung, linke Seite u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 0.00 0,500000 ,539828 ,579260 ,617911 ,655422 ,691462 ,725747 ,758036 ,788145 ,815940 ,841345 ,864334 ,884930 ,903200 0,919243 0.01 0,503989 ,543795 ,583166 ,621720 ,659097 ,694974 ,729069 ,761148 ,791030 ,818589 ,843752 ,866500 ,886861 ,904902 0,920730 0.02 0,507978 ,547758 ,587064 ,625516 ,662757 ,698468 ,732371 ,764238 ,793892 ,821214 ,846136 ,868643 ,888768 ,906582 0,922196 0.03 0,511966 ,551717 ,590954 ,629300 ,666402 ,701944 ,735653 ,767305 ,796731 ,823814 ,848495 ,870762 ,890651 ,908241 0,923641 0.04 0,515953 ,555670 ,594835 ,633072 ,670031 ,705401 ,738914 ,770350 ,799546 ,826391 ,850830 ,872857 ,892512 ,909877 0,925066 Stetige Zufallsvariable, Normalverteilungen Beispiel Normalverteilungen werden beispielsweise zur Modellierung von Messfehlern benutzt Beispiel: Die Wirkstoffkonzentration in einem Heilmittel soll 4g/l betragen. Herstellungsabhängig beträgt die Streuung 100mg/l Mit welcher Wahrscheinlichkeit liegt die Konzentration über 4.12g/l? Y sei die Konzentration in g/l Dann Y = 4 + 0.1 · X , wobei X standard-normalverteilt ist Gesucht P(Y > 4.12) Das ist P(X > 1.2) = 1 − P(X ≤ 1.2) = 1 − Φ(1.2) = 1 − 0.884930 = 0.115070 Stetige Zufallsvariable, Normalverteilungen Normalverteilungen Die Zufallsvariable X heißt normalverteilt zum Erwartungswert µ und der Varianz σ2 , wenn Y = X −µ σ standard-normalverteilt ist. Man sagt dann, X sei N(µ, σ2 )-verteilt X =µ+σ·Y Y ist die Standardisierung von X Stetige Zufallsvariable, Normalverteilungen Normalverteilungen für verschiedene Erwartungswerte 1.0 µ =0 µ =1 µ =2 F(x) 0.8 0.6 0.4 0.2 0.0 4 3 2 1 0 x 1 2 3 Verteilungsfunktionen für N(µ, 1)-verteilte Zufallsvariable 4 Stetige Zufallsvariable, Normalverteilungen Normalverteilungen für verschiedene Streuungen 1.0 σ =1 σ =1/2 σ =2 F(x) 0.8 0.6 0.4 0.2 0.0 4 3 2 1 0 x 1 2 3 Verteilungsfunktionen für N(0, σ2 )-verteilte Zufallsvariable 4 Stetige Zufallsvariable, Normalverteilungen Umrechnung auf Standardnormalverteilung Die Zufallsvariable X sei N(µ, σ2 )-verteilt. Dann gelten für a < b b−µ a−µ P(a < X ≤ b) = Φ −Φ σ σ a−µ P(a < X ) = 1 − Φ σ b−µ P(X ≤ b) = Φ σ Stetige Zufallsvariable, Normalverteilungen Beispiel: natürliche Variabilitäten Roggenpflanzen erreichen eine mittlere Höhe von 1m. Dabei streut die Höhe um 20cm. Welcher Prozentsatz aller Pflanzen erreicht mindestens 1.10m Höhe? X = Höhe der Pflanze Wir rechnen in Metern. Dann E (X ) = 1 und Var (X ) = 0.04 X = 1 + 0.2 · Y für standard-normalverteiltes Y X ≥ 1.10 bedeutet Y ≥ 0.5 P(Y ≥ 0.5) = 1 − P(Y ≤ 0.5) = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085 ca 31% der Pflanzen sind mindestens 1.10m hoch Stetige Zufallsvariable, Normalverteilungen Kritische Betrachtung des Modells Das Modell erlaubt auch den unsinnigen Fall, dass Roggenpflanzen eine negative Höhe aufweisen Mit welcher Wahrscheinlichkeit geschieht das? X ≤ 0 bedeutet Y ≤ −5 P(Y ≤ −5) = Φ(−5) = 1 − Φ(5) = 1 − (1 − 2.867 · 10−7 ) = 2.867 · 10−7 Das Modell sagt für weniger als eine unter 3 Millionen Pflanzen eine negative Höhe voraus Damit können wir leben Stetige Zufallsvariable, Normalverteilungen Beispiel: IQ-Tests IQ-Tests sind so skaliert, dass die Werte in der Population normalverteilt mit Erwartungswert µ = 100 und Streuung σ = 15 sind Welcher Anteil der Bevölkerung hat einen IQ über 130? X messe den IQ X ist N(100, 225)-verteilt. Also 130 − 100 P(130 < X ) = 1 − Φ 15 = 1 − Φ(2) = 1 − 0.977250 = 0.02275 Ungefähr 2.3% der Population weist einen IQ von mindestens 130 auf Stetige Zufallsvariable, Normalverteilungen Die 3σ-Regel X1 , . . . , Xn unabhängig, alle mit derselben Verteilung µ = E (X1 ) = · · · = E (Xn ) und σ2 = Var (X1 ) = · · · = Var (Xn ) Arithmetisches Mittel der Xj 1 (X1 + X2 + · · · + Xn ) n n ausreichend groß, dann näherungsweise σ 2 ≥ P Y − µ ≤ √ 3 n 2σ P Y − µ ≤ √ ≥ 0.95 n 3σ P Y − µ ≤ √ ≥ 0.99 n Y = Die 3σ-Regel ist nur eine Faustregel. Stetige Zufallsvariable, Normalverteilungen Erläuterung der 3σ-Regel E (Y ) = µ Var (Y ) = nσ2 Also ist n(Y − µ) die Standardisierung von Y Für große n sieht die Standardisierung aus wie Φ Stetige Zufallsvariable, Normalverteilungen 3σ-Regel, Zeichnung 67% µ−σ µ µ +σ 95% µ−2σ µ µ +2σ 99% µ−3σ µ µ +3σ Stetige Zufallsvariable, Normalverteilungen 3σ-Regel, Beispiel Der Wirkstoffgehalt von Düngetabletten wird gemessen (in mg). Die Streuung betrage 8mg Wie viele Messungen schreibt die 3σ-Regel vor, um mit 95% Wahrscheinlichkeit einen Messfehler von weniger als 4mg zu haben? Wir brauchen Also Das bedeutet n = 16 2σ 4= √ n 2·8 4= √ n Konfidenzintervalle Teil III Schließende Statistik Konfidenzintervalle 2 Konfidenzintervalle Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen Quantile Die t-Verteilung Konfidenzintervalle bei unbekannter Varianz Konfidenzintervalle Schätzung eines Konfidenzintervalls mittels der 3σ-Regel X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für bekanntes σ und unbekanntes µ Für µ soll ein Konfidenzintervall zum Konfidenzniveau 95% geschätzt werden. Das ist ein Intervall, welches den wahren Wert mit 95%-tiger Wahrscheinlichkeit enthält Den Mittelpunkt des Konfidenzintervalls bildet das arithmetische Mittel X = 1 (X1 + · · · + Xn ) n Konfidenzintervalle Schätzung eines Konfidenzintervalls mittels der 3σ-Regel, Fortsetzung 3σ-Regel 2σ 2σ P µ− √ ≤X ≤µ+ √ = 0.95 n n Beachte die Gleichwertigkeit der Ungleichungen 2σ 2σ X ≤µ+ √ und µ ≥ X − √ n n Damit sieht die 3σ-Regel so aus 2σ 2σ P X−√ ≤µ≤X+√ = 0.95 n n Also ist folgendes Intervall ein Konfidenzintervall zum Konfidenzniveau 95% 2σ 2σ X−√ , X+√ n n Konfidenzintervalle Beispiel: Roggenpflanzen Gesunde Roggenpflanzen einer bestimmten Art sind im Mittel 102.5 cm lang, wobei die Länge um 7 cm streut. Die Länge sei normalverteilt Durch Umwelteinflüsse änderte sich die mittlere Halmlänge, die Streuung aber nicht Die folgenden Längen wurden gemessen 96.62 94.91 85.05 101.61 109.55 93.05 97.86 96.66 95.08 98.87 Arithmetisches Mittel der Daten x = 96.93 Konfidenzintervalle Roggenpflanzen, Fortsetzung x = 96.93 2σ 14 √ = √ = 4.43 n 10 96.93 − 4.43 = 92.50 und 96.93 + 4.43 = 101.36 Also ergibt sich das folgende Konfidenzintervall zum Konfidenzniveau 95% [92.50, 101.36] Die Länge gesunder Pfanzen beträgt im Mittel 102.5cm. Wir können also mit 95%-tiger Sicherheit feststellen, dass die beobachteten Pflanzen nicht gesund sind. Konfidenzintervalle Definition Es sei Θ eine Menge von Parameterwerten. Zu jedem Parameterwert θ ∈ Θ gebe es eine Verteilung Pθ Von der Zufallsvariablen X sei bekannt, dass ihre Verteilung gleich einem der Pθ ist. Für dieses θ soll ein Konfidenzintervall geschätzt werden Ein Intervall [Gu , Go ] mit der Eigenschaft Pθ (Gu ≤ θ ≤ Go ) = 1 − α heißt Konfidenzintervall für den Parameter θ zum Konfidenzniveau 1 − α Übliche Konfidenzniveaus sind 90%, 95% und 99% Gu und Go sind Zufallsvariable. Man bezeichnet sie als untere und obere Vertrauensgrenze Konfidenzintervalle Quantile Φ die Verteilungsfunktion der Standardnormalverteilung Die Zahl qα mit Φ(qα ) = α heißt α-Quantil der Standardnormalverteilung. Die wichtigsten Quantile der Standardnormalverteilung sind tabelliert Φ(u) 70% 80% 90% 95% 97.5% 99% 99.5% u 0.524 0.842 1.282 1.645 1.960 2.326 2.576 Z. B. ist das 0.975-Quantil gleich 1.960, also näherungsweise gleich 2 Umrechnungsformel qα = −q1−α Beispiel q0.05 = −q0.95 = −1.645 Konfidenzintervalle Schätzung eines Konfidenzintervalls für den Erwartungswert bei bekannter Varianz mittels Quantilen X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für bekanntes σ und unbekanntes µ Für µ soll ein Konfidenzintervall zum Konfidenzniveau 1 − α geschätzt werden Benötigt wird das 1 − α2 -Quantil q1−α/2 der Standardnormalverteilung und das arithmetische Mittel X der Daten Das Konfidenzintervall ist σ · q1−α/2 σ · q1−α/2 √ √ X− ,X + n n Konfidenzintervalle Beispiel: Roggenpflanzen Gesunde Roggenpflanzen einer bestimmten Art sind im Mittel 102.5 cm lang, wobei die Länge um 7 cm streut. Die Länge sei normalverteilt Durch Umwelteinflüsse änderte sich die mittlere Halmlänge, die Streuung aber nicht Die folgenden Längen wurden gemessen 96.62 94.91 85.05 101.61 109.55 93.05 97.86 96.66 95.08 98.87 Arithmetisches Mittel der Daten x = 96.93 Gesucht: Konfidenzintervall zum Konfidenzniveau 90% Konfidenzintervalle Roggenpflanzen, Fortsetzung 1 − α = 0.90, also α = 0.10, also 1 − α/2 = 0.95 q0.95 = 1.645 Konfidenzintervall σ · q1−α/2 σ · q1−α/2 √ √ X− ,X + n n 7 · 1.645 7 · 1.645 = 96.93 − √ , 96.93 + √ 10 10 = [93.29, 100.6] Zum Vergleich: Konfidenzintervall zum Konfidenzniveau 95% [92.50, 101.36] Konfidenzintervalle Schätzung der Varianz Bei den bisherigen Schätzern für Konfidenzintervalle musste die Varianz von vornerein bekannt sein. Das ist unrealistisch Ausweg: Wir schätzen die Varianz durch die empirische Varianz n 1 X (Xk − X )2 S2 = n−1 k=1 Hierbei ist X das arithmetische Mittel Dadurch, dass zweimal geschätzt wird (Erwartungswert und Varianz), sinkt die Genauigkeit Die Konfidenzintervalle werden also größer Statt der Quantile von Φ muss man die Quantile einer anderen Verteilung verwenden. Diese Verteilung hängt von der Anzahl n der Versuche ab Konfidenzintervalle Die t-Verteilung Für n = 2, 3, 4, . . . ist die t-Verteilung (oder Studentsche Verteilung) mit n − 1 Freiheitsgraden gegeben durch die Dichte fn−1 = cn−1 x2 1+ n−1 −n/2 Dabei wird cn−1 bestimmt durch das Erfordernis, dass R ∞ −∞ fn−1 (x) dx = 1 Die t-Verteilungen sind tabelliert Konfidenzintervalle f(x) Graphen von Dichten von t-Verteilungen 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 4 3 2 1 0 x 1 2 3 4 Dichten der Standard-Normalverteilung (blau) und der t-Verteilungen mit 1 (rot), 2 (violett) bzw. 5 (grün) Freiheitsgraden Konfidenzintervalle F(x) Graphen von Verteilungsfunktionen von t-Verteilungen 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 3 2 1 0 x 1 2 3 4 Verteilungsfunktionen der Standard-Normalverteilung (blau) und der t-Verteilungen mit 1 (rot), 2 (violett) bzw. 5 (grün) Konfidenzintervalle Quantile der t-Verteilung f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ∞ 90% 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.282 95% 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.645 97.5% 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 1.960 99% 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.326 99.5% 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.576 99.9% 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.090 Konfidenzintervalle Freiheitsgrade Heuristisch: n Versuche, um einen Parameter θ zu schätzen Jeder andere Parameter, der hilfsweise geschätzt werden muss, verringert die Zahl der Freiheitsgrade um 1 Bei der Schätzung eines Konfidenzintervalls bei unbekannter Varianz verliert man einen Freiheitsgrad durch die Schätzung der Varianz Konfidenzintervalle Schätzung eines Konfidenzintervalls für den Erwartungswert bei unbekannter Varianz X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für unbekanntes σ und unbekanntes µ Für µ soll ein zweiseitiges Konfidenzintervall zum Konfidenzniveau 1 − α geschätzt werden Verwende dazu das arithmetische Mittel X = 1 (X1 + · · · + Xn ) n und die Wurzel aus der empirischen Varianz v u n u 1 X S =t (Xk − X )2 n−1 k=1 Konfidenzintervalle Schätzung eines Konfidenzintervalls, Fortsetzung Benötigt wird das (1 − α2 )-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden; wir bezeichnen es mit tn−1, 1−α/2 Dann ist das Konfidenzintervall zum Konfidenzniveau 1 − α S S X − √ tn−1, 1−α/2 , X + √ tn−1, 1−α/2 n n Konfidenzintervalle Beispiel: Reaktionszeit In einem Versuch wird die Reaktionszeit eines Patienten auf einen Luftstoß am Auge gemessen. Der Versuch wird 20-mal wiederholt Ein Konfidenzintervall zum Konfidenzniveau 95% ist zu schätzen Beispielhafter Datensatz (Zeiten im ms) 43.14 25.60 35.14 65.50 38.29 23.37 11.00 72.65 47.69 33.12 42.18 49.18 27.35 46.40 32.69 61.52 52.54 68.52 58.92 75.74 Arithmetisches Mittel und Stichprobenstreuung dieses Datensatzes sind x = 45.53 s = 17.75 Konfidenzintervalle Reaktionszeit, Fortsetzung 20 Versuche bedeuten 19 Freiheitsgrade 1 − α = 0.95, also 1 − α2 = 0.975. Wir benötigen das 0.975-Quantil der t-Verteilung mit 19 Freiheitsgraden. Konfidenzintervalle Quantile der t-Verteilung f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ∞ 90% 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.282 95% 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.645 97.5% 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 1.960 99% 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.326 99.5% 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.576 99.9% 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.090 Konfidenzintervalle Reaktionszeit, Fortsetzung Erinnerung x = 45.53 s = 17.75 t19, 0.975 = 2.093 Die Realisierung der oberen Vertrauensgrenze ist s Go = x + √ · tn−1, 1−α/2 n 17.75 = 45.53 + √ · 2.093 20 = 45.53 + 8.30 = 53.83 Entsprechend ist Gu = 45.53 − 8.30 = 37.23 die Realisierung der unteren Vertrauensgrenze. Konfidenzintervalle t Reaktionszeit, Skizze 80 70 60 50 40 30 20 10 5 10 n 15 Der grüne Bereich ist das Konfidenzintervall zum Konfidenzniveau 95% 20