Messgenauigkeit Binomialverteilung Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 14. Dezember 2012 Bedingte Wahrscheinlichkeit Messgenauigkeit Binomialverteilung 1 Messgenauigkeit 2 Binomialverteilung Tabellen 3 Bedingte Wahrscheinlichkeit Definition Unabhängigkeit Satz von der totalen Wahrscheinlichkeit Bayessche Formel Bedingte Wahrscheinlichkeit Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Signifikante Stellen Die folgenden Zahlen haben 4 gültige (signifikante) Stellen 1.234 0.001234 123.4 1.234 · 106 Ergebnisse, die auf einer Messung beruhen, können nicht mehr gültige Stellen haben als die ursprüngliche Messung. In der Statistik ist das anders. Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Messwiederholungen Thema der Statistik ist der Einfluss von Messwiederholungen Durch Messwiederholungenen steigt die Genauigkeit Beispiel: Bestimmung der Wahrscheinlichkeit von “Adler” für eine reale Münze: 25 Messungen: Eine gültige Stelle 2 500 Messungen: Zwei gültige Stellen 25 000 000 Messungen: Vier gültige Stellen Fehlerabschätzung bei Messwiederholungenen ist ein wichtiges Thema der Statistik Stichwort: Konfidenzintervalle Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Konkrete (Faust)-Regel Rechnungen im Statistikteil werden auf 4 gültige Stellen durchgeführt Zwischenergebnisse werden nicht jedes Mal gerundet. Das war auch im Analysis-Teil so. Grund: Die Anhäufung von Rundungsfehlern muss vermieden werden. Messgenauigkeit Binomialverteilung Binomialverteilung Bedingte Wahrscheinlichkeit Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Beispiel: fairer Würfel Erfolg: Wurf einer 6 Erfolgswahrscheinlichkeit im Einzelfall: p = 1 6 Misserfolg: Wurf 1,2,3,4,5 Misserfolgswahrscheinlichkeit im Einzelfall: q = 1 − p = 5 6 Gesucht: Wahrscheinlichkeit von A = “genau 2 Erfolge bei 5 Würfen” 1 125 5 2 Antwort B5, 1/6 (2) = p (1 − p)3 = 10 · · = 0.1608 2 36 216 Wie kommt das zustande? Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Binomialverteilung: Beispiel e: Erfolg, m: Misserfolg, P(eemmm) P(ememm) P(emmem) P(emmme) P(meemm) P(memem) P(memme) P(mmeem) P(mmeme) P(mmmee) = = = = = = = = = = q =1−p p·p·q·q·q p·q·p·q·q p·q·q·p·q p·q·q·q·p q·p·p·q·q q·p·q·p·q q·p·q·q·p q·q·p·p·q q·q·p·q·p q·q·q·p·p = = = = = = = = = = p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 p2 · q3 P(A) ist dann die Summe, P(A) = 10 · p 2 · q 3 . Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Antwort: Mit Wahrscheinlichkeit B5, 1/6 (0) + B5, 1/6 (1) + B5, 1/6 (2) = 0.9645 werden nicht mehr als 3 Sechsen beobachtet. Jetzt dasselbe für n = 10 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Stabdiagramm von B10, 1/6 B10, 1/6(k) Rote Fläche ist die Antwort auf die Frage: Mit welcher Wahrscheinlichkeit fallen beim 10-fachen Wurf eines fairen Würfels nicht mehr als 3 Sechsen? 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Kumulierte Binomialverteilung Mit welcher Wahrscheinlichkeit fallen beim 10-fachen Wurf eines fairen Würfels nicht mehr als 3 Sechsen? Antwort: 3 X P= B10, 1/6 (k) = 0.93027 k=0 Für solche Fragen gibt es Tabellen der kumulierten Binomialverteilung r X Bn, p (k) k=0 in Abhängigkeit von r Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Tabelle der kumulierten B10, p Tabelle der Werte r X Bn, p für n = 10 k=0 r 0 1 2 3 4 5 6 7 p 0. 0.15 19687 54430 82020 95003 99013 99862 99987 99999 0.16 17490 50805 79360 93864 98699 99804 99979 99999 1 6 16151 48452 77523 93027 98454 99756 99973 99998 0.17 15516 47296 76587 92585 98320 99729 99970 99998 0.18 13745 43916 73720 91166 97868 99633 99956 99996 0.19 12158 40676 70778 89607 97337 99512 99938 99995 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Lesehinweise für kumulierte Tabellen 3 X B10, 0.18 (k) = 0.91166 k=0 10 X k=4 4 X k=2 B10, 0.17 (k) = 1 − 3 X B10, 0.17 (k) = 1 − 0.92585 = 0.07415 k=0 B10, 0.16 (k) = 4 X B10, 0.16 (k) − k=0 1 X B10, 0.16 (k) = k=0 0.98699 − 0.50805 = 0.47894 freie Felder oberhalb der Tabelle sind 0 im Rahmen der Tabellengenauigkeit freie Felder unterhalb der Tabelle sind 1 im Rahmen der Tabellengenauigkeit Tabellen erhalten Sie von mir Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit B10, 1/6(k) Skizze zum dritten Beispiel 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 k 6 8 10 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Beispiel Parasiten Bestimmte Fische erkranken mit 85% Wahrscheinlichkeit an einem Parasiten 47 Fische werden untersucht. Mit welcher Wahrscheinlichkeit sind höchstens 40 davon erkrankt? Gesucht 40 X k=0 B47, 0.85 (k) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit B47, 0.85(k) Graph von B47, 0.85 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 10 20 k 30 40 Messgenauigkeit Tabelle der Werte r 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 p 0. Pr Binomialverteilung Bedingte Wahrscheinlichkeit k=0 Bn, p (k) 0.85 00001 00002 00008 00029 00093 00274 00742 01832 04128 08463 15768 26660 40904 57047 72665 85309 93639 97931 99552 99952 für n = 47 0.86 0.87 0.88 0.89 00001 00003 00012 00043 00137 00398 01060 02571 05663 11311 20441 33384 49285 65962 80597 91050 96887 99278 99917 00001 00005 00018 00063 00199 00573 01503 03578 07707 14978 26208 41238 58411 74830 87606 95379 98847 99856 00002 00007 00026 00091 00286 00817 02115 04946 10408 19651 33208 50182 67964 83128 93236 98178 99754 00001 00002 00010 00038 00130 00408 01156 02957 06792 13952 25538 41543 60042 77447 90248 97153 99582 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Beispiel Parasiten, Fortsetzung Die Wahrscheinlichkeit, dass höchstens 40 Fische erkrankt sind, ist gleich 0.57047 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Beispiel Pharmapräparat Beispiel: 47 Mäuse sind erkrankt Ein Präparat mit Heilungswahrscheinlichkeit 88% wird eingesetzt Mit welcher Wahrscheinlichkeit werden mindestens 40 Mäuse geheilt? Die Wahrscheinlichkeit, dass genau 40 Mäuse geheilt werden, wird gegeben durch die Binomialverteilung B47, 0.88 (40) Die Wahrscheinlichkeit, dass mindestens 40 Mäuse geheilt werden, beträgt 47 X k=40 B47, 0.88 (k) = 1 − 39 X k=0 B47, 0.88 (k) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit B47, 0.88(k) Graph von B47, 0.88 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 10 20 k 30 40 Messgenauigkeit Tabelle der Werte r 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 p 0. Pr Binomialverteilung Bedingte Wahrscheinlichkeit k=0 Bn, p (k) 0.85 00001 00002 00008 00029 00093 00274 00742 01832 04128 08463 15768 26660 40904 57047 72665 85309 93639 97931 99552 99952 für n = 47 0.86 0.87 0.88 0.89 00001 00003 00012 00043 00137 00398 01060 02571 05663 11311 20441 33384 49285 65962 80597 91050 96887 99278 99917 00001 00005 00018 00063 00199 00573 01503 03578 07707 14978 26208 41238 58411 74830 87606 95379 98847 99856 00002 00007 00026 00091 00286 00817 02115 04946 10408 19651 33208 50182 67964 83128 93236 98178 99754 00001 00002 00010 00038 00130 00408 01156 02957 06792 13952 25538 41543 60042 77447 90248 97153 99582 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Pharmapräparat, Fortsetzung Die Wahrscheinlichkeit, dass mindestens 40 Mäuse geheilt werden, ist 39 X 1− B47, 0.88 (k) = 1 − 0.19651 = 0.80349 k=0 Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Nutzung von Zusatzinfo Die bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit unter Berücksichtigung von Zusatzinformationen Beispielsweise ist für einen 50-jährigen die Wahrscheinlichkeit, 80 Jahre zu werden, (etwas) höher als für ein Neugeborenes Allgemein wird mit P(A|B) die Wahrscheinlichkeit von A bezeichnet, wenn bereits bekannt ist, dass B eingetreten ist Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P(A|B) = P(A ∩ B) P(B) bezeichnet man als bedingte Wahrscheinlichkeit von A unter der Hypothese B Die Hypothese B ist also vorausgesetzt (im Beispiel ist jemand bereits 50 Jahre alt geworden) Das Ereignis A ist das Ereignis, dessen Wahrscheinlichkeit interessiert (im Beispiel ist A das Ereignis, älter als 80 zu werden) Man bezeichnet P(A) auch als totale Wahrscheinlichkeit, wenn man den Unterschied zu einer bedingten Wahrscheinlichkeit verdeutlichen will Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Rechenregeln P(A|B) ist eine Wahrscheinlichkeit für A, erfüllt also die Rechenregeln für Wahrscheinlichkeiten die wichtigste ist die Regel für die Wahrscheinlichkeit des Komplementärereignisses P(Ac |B) = 1 − P(A|B) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Heuristische Begründung der Formel P(A|B) = P(A ∩ B) P(B) unter der Hypothese B ist B sicher, also P(B|B) = 1; daher wird durch P(B) geteilt unter der Hypothese B sind diejenigen Elementarereignisse von A, die nicht in B liegen, irrelevant; daher steht im Zähler P(A ∩ B) und nicht P(A) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Begriffsklärung Ein Spam-Filter unterscheidet zwischen Spam und erwünschter Mail. Dabei kommen Fehler vor. Für eine zufällig ausgewählte Mail interessieren zwei Ereignisse A : “es handelt sich um Spam” B : “der Filter hält sie für Spam” Dann ist P(B|A) die Wahrscheinlichkeit, dass Spam in den Spam-Ordner gelegt wird und P(A|B) ist die Wahrscheinlichkeit, dass im Spam-Ordner aufgefundene Mail tatsächlich Spam ist. Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Beispiel zur bedingten Wahrscheinlichkeit Sei Em50 das Ereignis, dass ein männliches Neugeborenes ein Alter von mindestens 50 Jahren erreichen wird; laut (österreichischer) Sterbetafel ist P(Em50 ) = 0.919 für 80 Jahre P(Em80 ) = 0.365 für weibliche Neugeborene P(Ew 50 ) = 0.958 und P(Ew 80 ) = 0.566 dann wegen Em50 ∩ Em80 = Em80 P(Em80 |Em50 ) = 0.365 = 0.397 0.919 P(Ew 80 |Ew 50 ) = 0.566 = 0.591 0.958 und Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Produktformel P(A ∩ B) = P(A|B) · P(B) Insbesondere sind A und B genau dann unabhängig, wenn P(A|B) = P(A) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Satz von der totalen Wahrscheinlichkeit Bekannt: totale Wahrscheinlichkeit P(B) und damit auch P(B c ) bedingte Wahrscheinlichkeiten P(A|B) und P(A|B c ) Gesucht: totale Wahrscheinlichkeit P(A) P(A) = P(A ∩ B) + P(A ∩ B c ) = P(A|B) · P(B) + P(A|B c ) · P(B c ) = P(A|B) · P(B) + P(A|B c ) · (1 − P(B)) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Röntgenreihenuntersuchung auf TB In den 1960-er Jahren wurden Röntgenreihenuntersuchungen durchgeführt. Beispielhafte Daten: bei 94% aller Erkrankten schlägt der Test an bei 1% der Gesunden schlägt der Test an 99.8% aller Probanden sind gesund Welches Ereignis nennen wir A und welches B? B ist das Ereignis, dessen totale Wahrscheinlichkeit bekannt ist Zufällig herausgegriffener Proband A : “Verdacht auf TB” B : “an TB erkrankt” Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Röntgenreihenuntersuchungen, Fortsetzung P(B) = 0.002 (totale Wahrscheinlichkeit) P(A|B) = 0.94 (bedingte Wahrscheinlichkeit) P(A|B c ) = 0.01 (bedingte Wahrscheinlichkeit) Satz von der totalen Wahrscheinlichkeit P(A) = P(A|B) · P(B) + P(A|B c ) · P(B c ) = 0.94 · 0.002 + 0.01 · 0.998 = 0.00188 + 0.00998 = 0.01186 1.186% aller Probanden verlassen die Untersuchung mit einem Verdacht Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Röntgenreihenuntersuchung, Fortsetzung Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt? Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch? Mit welcher Wahrscheinlichkeit wird eine falsche Diagnose gestellt? Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit Bayessche Formel Bekannt: totale Wahrscheinlichkeit P(B) bedingte Wahrscheinlichkeiten P(A|B) und P(A|B c ) totale Wahrscheinlichkeit P(A) aus dem Satz von der totalen Wahrscheinlichkeit Gesucht: bedingte Wahrscheinlichkeit P(B|A) P(B|A) = P(A|B) · P(B) P(A) Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit erste Frage Mit welcher Wahrscheinlichkeit wird ein Kranker nicht endeckt? P(Ac |B) = 1 − P(A|B) = 1 − 0.94 = 0.06 Die Wahrscheinlichkeit, dass ein Kranker für gesund gehalten wird, beträgt 6% Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit zweite Frage Mit welcher Wahrscheinlichkeit ist eine Verdachtsdiagnose falsch? P(B c |A) = 1 − P(B|A) P(A|B) · P(B) =1− P(A) 0.94 · 0.002 =1− 0.01186 = 1 − 0.1585 = 0.8415 Wer mit Verdachtsdiagnose aus der Röntgenreihenuntersuchung kam, war mit nahezu 85% Wahrscheinlichkeit gesund. Messgenauigkeit Binomialverteilung Bedingte Wahrscheinlichkeit dritte Frage Mit welcher Wahrscheinlichkeit kommt es zu einer Fehldiagnose? Das ist eine totale Wahrscheinlichkeit, nämlich P(A ∩ B c ) + P(Ac ∩ B) = P(A|B c ) · P(B c ) + P(Ac |B) · P(B) = 0.06 · 0.002 + 0.01 · 0.998 = 0.0101 Die Wahrscheinlichkeit einer Fehldiagnose beträgt 1.01%