Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine Universität Düsseldorf 29. Oktober 2009 Mengensprechweise Die Menge aller Elementarereignisse ist der Ereignisraum. Seine Teilmengen heißen (Zufalls)-Ereignisse. Die Mengenlehre dient uns als Sprechweise, Ereignisse kurz und zweifelsfrei zu beschreiben. verbal Ereignisse A und B treffen ein Ereignis A oder Ereignis B trifft ein Ereignis A trifft nicht ein Ereignis A trifft ein, Ereignis B aber nicht unmögliches Ereignis sicheres Ereignis (= Ereignisraum) Elementarereignis ω gehört zu A Elementarereignis ω gehört nicht zu A alle Elementarereignisse von A gehören zu B mathematisch A∩B A∪B Ac A\B ∅ Ω ω∈A ω∈ /A A⊂B Beispiele für Mengensprech A = “ungerade Zahl gewürfelt” = {1, 3, 5} und B = “Zahl kleiner 4 gewürfelt” = {1, 2, 3} I A ∩ B = {1, 3} I A ∪ B = {1, 2, 3, 5} I Ac = {2, 4, 6} I A \ B = {5} I A ∪ B = Ω \ {4, 6} Komplementärereignis Das Ereignis Ac , welches aus allen Elementarereignissen besteht, die nicht zu A gehören, heißt Komplementärereignis zu A. Das Komplementärereignis des sicheren Ereignisses ist das unmögliche Ereignis, in Zeichen Ωc = ∅. Wahrscheinlichkeit I Was ist eine Wahrscheinlichkeit? I Eine Wahrscheinlichkeitverteilung auf einem Ereignisraum ist eine Modellannahme. Die Naturwissenschaften bilden Modelle, also vereinfachte Abbilder der Wirklichkeit. Wenn Zufallsprozesse berücksichtigt werden sollen, gehören zum Modell auch Regeln zur Bestimmung von Wahrscheinlichkeiten. I Dieses Modell kann aus abstrakten Überlegungen stammen; es kann aber auch durch die beobachteten relativen Häufigkeiten früherer Versuche begründet sein I Wie jedes naturwissenschaftliche Modell wird es am Experiment überprüft Konsistenzregeln Für jedes Ereignis A sei eine Zahl P(A) definiert. Sie erfülle (P1) P(A) ≥ 0 für alle A (P2) P(Ω) = 1 (P3) P(A ∪ B) = P(A) + P(B), falls A und B disjunkte Ereignisse sind, also keine gemeinsamen Elementarereignisse enthalten Dann ist P ein Wahrscheinlichkeitsmaß auf Ω, und (Ω, P) ist ein wahrscheinlichkeitstheoretisches Modell des Zufallsexperiments Rechenregeln I P(∅) = 0 I P(Ac ) = 1 − P(A) I P(A ∪ B) = P(A) + P(B) − P(A ∩ B) I A ⊂ B, dann folgt P(A) ≤ P(B) Abschnitt 2.2 Die Laplace-Verteilung Laplace-Verteilung Die Laplace-Verteilung ist diejenige Verteilung, bei der alle Elementarereignisse dieselbe Wahrscheinlichkeit aufweisen. Wir bezeichnen mit |A| die Anzahl der Elemente von A. Dann P(A) = |A| |Ω| Diese Verteilung heißt Laplace-Verteilung auf Ω. Beispiele für die Laplace-Verteilung I Der Würf einer fairen Münze realisiert die Laplace-Verteilung auf dem zweielementigen Ereignisraum Ω = {A, Z }, wobei A=Adler und Z =Zahl I Der Wurf zweier Würfel realisiert die Laplace-Verteilung auf dem Ereignisraum Ω = {1, . . . , 6}2 aller Paare von Zahlen von 1 bis 6. Da es 36 solcher Paare gibt, hat jedes Elementarereignis die Wahrscheinlichkeit 1/36. Also 1 36 2 1 P(“eine 3 und eine 4”) = = 36 18 P(“Sechserpasch”) = Trick: Übergang zum Komplementärereignis Wurf dreier Würfel: Dann Ω = {1, . . . , 6}3 und |Ω| = 216. Bestimme Wahrscheinlichkeit von A = “es wird mindestens eine 6 gewürfelt” Das Komplementärereignis ist das Ereignis, dass alle drei Würfel nur 1, . . . , 5 zeigen. Es gibt 125 derartige Elementarereignisse. Also P(A) = 1 − 125 = 0.42 216 Diversitätsindex nach Simpson Der Diversitätsindex nach Simpson ist die Wahrscheinlichkeit, dass zwei aus einer Artengemeinschaft zufällig ausgewählte Individuen derselben Art angehören. Je näher er bei 1 liegt, umso geringer ist die Biodiversität. Wir berechnen ihn für den Fall zweier Arten S1 und S2 mit n1 bzw. n2 Individuen. Der Ereignisraum Ω besteht aus allen Auswahlen von zwei verschiedenen Individuen aus insgesamt n1 + n2 Individuen. Zur Wahl des ersten gibt es n1 + n2 Möglichkeiten, für das zweite eine weniger. Also |Ω| = (n1 + n2 ) · (n1 + n2 − 1) Diversitätsindex, Fortsetzung Das Ereignis, dessen Wahrscheinlichkeit gesucht ist, ist E =A∪B wobei A = “beide gehören zu S1 ” B = “beide gehören zu S2 ” Wegen A ∩ B = ∅ ist P(E ) = P(A) + P(B). Wie oben sieht man |A| = n1 · (n1 − 1) |B| = n2 · (n2 − 1) also P(E ) = n1 · (n1 − 1) + n2 · (n2 − 1) (n1 + n2 ) · (n1 + n2 − 1) Beispiel zum Diversitätsindex Für ein Waldgebiet wird die Mäusepopulation wie folgt geschätzt I 500 Rötelmäuse I 150 Feldmäuse Der Diversitätsindex ist 0.6444 Abschnitt 2.3 Bedingte Wahrscheinlichkeiten Satz von der totalen Wahrscheinlichkeit Bayessche Formel Unabhängige Ereignisse Nutzung von Zusatzinfo I Die bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit unter Berücksichtigung von Zusatzinformationen I Beispielsweise ist für einen 50-jährigen die Wahrscheinlichkeit, 80 Jahre zu werden, (etwas) höher als für ein Neugeborenes I Allgemein wird mit P(A|B) die Wahrscheinlichkeit von A bezeichnet, wenn bereits bekannt ist, dass B eingetreten ist Bedingte Wahrscheinlichkeit P(A ∩ B) P(B) bezeichnet man als bedingte Wahrscheinlichkeit von A unter der Hypothese B I Die Hypothese B ist also vorausgesetzt (im Beispiel ist jemand bereits 50 Jahre alt geworden) I Das Ereignis A ist das Ereignis, dessen Wahrscheinlichkeit interessiert (im Beispiel ist A das Ereignis, älter als 80 zu werden) I Man bezeichnet P(A) auch als totale Wahrscheinlichkeit, wenn man den Unterschied zu einer bedingten Wahrscheinlichkeit verdeutlichen will I eine bedingte Wahrscheinlichkeit ist eine Wahrscheinlichkeit, erfüllt also die Rechenregeln für Wahrscheinlichkeiten; die wichtigste ist hier P(A|B) = P(Ac |B) = 1 − P(A|B) Heuristische Begründung der Formel I unter der Hypothese B ist B sicher, also P(B|B) = 1; daher wird durch P(B) geteilt I unter der Hypothese B sind diejenigen Elementarereignisse von A, die nicht in B liegen, irrelevant; daher steht im Zähler P(A ∩ B) und nicht P(A) Beispiel zur bedingten Wahrscheinlichkeit I Sei Em50 das Ereignis, dass ein männliches Neugeborenes ein Alter von mindestens 50 Jahren erreichen wird; laut (österreichischer) Sterbetafel ist P(Em50 ) = 0.919 I für 80 Jahre P(Em80 ) = 0.365 I für weibliche Neugeborene P(Ew 50 ) = 0.958 und P(Ew 80 ) = 0.566 I dann wegen Em50 ∩ Em80 = Em80 I P(Em80 |Em50 ) = 0.365 = 0.397 0.919 P(Ew 80 |Ew 50 ) = 0.566 = 0.591 0.958 und Produktformel P(A ∩ B) = P(A|B) · P(B) Röntgenreihenuntersuchung auf TB I bei 94% aller Erkrankten schlägt der Test an I das bedeutet: die bedingte Wahrscheinlichkeit, dass der Test anschlägt, unter der Hypothese, dass der Proband krank ist, beträgt 0.94 I bei 1% der Gesunden schlägt der Test an I das bedeutet: die bedingte Wahrscheinlichkeit, dass der Test anschlägt, unter der Hypothese, dass der Proband gesund ist, beträgt 0.01 I 99.9% aller Probanden sind gesund I das ist eine totale Wahrscheinlichkeit Röntgenreihenuntersuchung, Fortsetzung I nach der Produktformel ist für einen zufällig herausgegriffenen Probanden die Wahrscheinlichkeit, dass er gesund ist und (trotzdem) bei der Reihenuntersuchung als Verdachtsfall festgestellt wurde, gleich 0.999% I die Wahrscheinlichkeit einer Erkrankung ist aber nur 0.100% I das ist ein Problem Satz von der totalen Wahrscheinlichkeit I Version des Satzes für ein Ereignis und sein Komplematärereignis P(A) = P(A|B) · P(B) + P(A|B c ) · P(B c ) I allgemeine Version: Hierbei Ω = B1 ∪ B2 ∪ · · · ∪ Bn , wobei Bj ∩ Bk = ∅ für alle Wahlen von verschiedenen j und k, d. h. die B1 , . . . , Bn bilden eine Zerlegung von Ω. Dann P(A) = P(A|B1 )·P(B1 )+P(A|B2 )·P(B2 )+· · ·+P(A|Bn )·P(Bn ) Röntgenreihenuntersuchung, Fortsetzung I A = “Verdacht auf TB” I B = “Proband gesund” I auf der ersten Folie zum Thema: P(A|B) = 0.01 und P(B) = 0.999 und P(A|B c ) = 0.94 I also P(B c ) = 0.001 I aus dem Satz von der totalen Wahrscheinlichkeit P(A) = 0.01 · 0.999 + 0.94 · 0.001 = 0.01093 I bei ca. 1.1% aller Probanden wird ein Verdacht auf TB ausgesprochen Röntgenreihenuntersuchung, Fortsetzung I bei Herrn K. stellt der Test einen Verdacht auf TB fest. Mit welcher Wahrscheinlichkeit ist er tatsächlich erkrankt? I wir suchen die bedingte Wahrscheinlichkeit P(B c |A) I mit der Produktformel und dem Satz von der totalen Wahrscheinlichkeit kann man das ausrechnen P(B c |A) = P(A|B c ) · P(B c ) P(B c ∩ A) = P(A) P(A|B) · P(B) + P(A|B c ) · P(B c ) 0.94 · 0.001 = = 0.086 0.01 · 0.999 + 0.94 · 0.001 I die Wahrscheinlichkeit, dass Herr K. tatsächlich erkrankt ist, beträgt 8.6% I dieses Problem besteht bei allen seltenen Erkrankungen, deren Tests nicht extrem genau arbeiten