1 1 CHANCEN UND RISKEN: RECHNEN MIT WAHRSCHEINLICHKEITEN Inhalt: 1.1 Zufallsexperimente 1.2 Begriff der Wahrscheinlichkeit 1.3 Bedingte Wahrscheinlichkeit 1.4 Die Formel von Bayes 1.5 Übungsbeispiele 1.6 Repetitorium: Begriffe und Methoden Lernziele: - Beispiele für Zufallsexperimente und Ereignisse angeben können; - Wahrscheinlichkeiten für Laplace-Experimente berechnen können; - die Eigenschaften des Wahrscheinlichkeitsmaßes wiedergeben können; - die Additions- und Multiplikationsregel auf einander ausschließende bzw. unabhängige Ereignisse anwenden können; - einfache Sachverhalte mit Hilfe bedingter Wahrscheinlichkeiten darstellen können; - a-posteriori Wahrscheinlichkeiten mit Hilfe der Bayes’schen Formel berechnen können. W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 2 1.1 ZUFALLSEXPERIMENTE Was versteht man unter einem Zufallsexperiment? Ein Zufallsexperiment ist ein (im Prinzip beliebig oft wiederholbarer) Vorgang mit verschiedenen Ausgängen ω1, ω2, …; welcher Ausgang bei Durchführung des Experimentes eintritt, lässt sich nicht vorhersagen. Die Gesamtheit aller Ausgänge eines Zufallsexperimentes heißt Ergebnismenge Ω = { ω1, ω2, …}, jede Teilmenge E der Ergebnismenge heißt ein Ereignis (kurz E ⊂ Ω). Man sagt „Das Ereignis E ist eingetreten, wenn der beobachtete Ausgang ωi des Zufallsexperimentes ein Element von E ist (kurz ωi ∈ E). Wenn E nicht eintritt, bedeutet dies, dass einer der Ausgänge, die nicht Elemente von E sind, realisiert wurde; die Zusammenfassung dieser Ausgänge zu einer Menge bildet das zu E komplementäre Ereignis Ec = { ωi ∈ Ω | ωi ∉E}. Beispiel 1.1: a) Das Ausspielen eines Würfels ist ein Zufallsexperiment mit den Ausgängen ω1=1, ω2=2, ω3=3, ω4=4, ω5=5, ω6=6; die Ergebnismenge ist Ω ={1, 2, 3, 4, 5, 6}. Die Teilmenge E = {2,4,6} = {ωi ∈ Ω | ωi gerade Zahl} ist das Ereignis, eine gerade Zahl zu würfeln; E ist z.B. eingetreten, wenn eine 6 gewürfelt wird. b) Das folgende Diagramm gibt links Mendels Kreuzungsversuch von reinerbigen Erbsen mit violetter bzw. weißer Blütenfarbe (V und w bezeichnen die Erbanlagen für eine violette bzw. weiße Blütenfarbe, V ist gegenüber w dominant) wieder. Die Entstehung eines Samens aus einer mischerbigen Pflanze der F1-Generation (durch Selbstbestäubung) ist ein Zufallsexperiment mit den in der Ergebnismenge Ω ={VV, Vw, wV, ww} zusammengefassten Ausgängen. Die Teilmenge E={wV, Vw} stellt das Ereignis dar, in der F2-Generation einen mischerbigen Samen zu erhalten. Das zu E komplementäre Ereignis Ec={VV, ww} bedeutet, dass in der F2Generation einen reinerbiger Samen gebildet wird. Kreuzungsschema: VV Ergebnismenge: x ww V Vw wV ww w F1 F2 VV x Vw VV Vw Vw wV ww W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc Ε = {wV, Vw} Ω 20.04.12 3 Das Ereignis Ω tritt bei jeder Durchführung des Zufallsexperimentes ein; es wird daher auch als das sichere Ereignis genannt. Bildet man mit den Teilmengen A⊂ Ω und B⊂ Ω die Vereinigung A ∪ B, so erhält man das kurz als „A oder B“ benannte Ereignis, das genau dann eintritt, wenn wenigstens eines der beiden Ereignisse A bzw. B eintritt. Der Durchschnitt A ∩ B der Teilmengen A und B ist das kurz als „A und B“ benannte Ereignis; dieses tritt genau dann ein, wenn sowohl A als auch B eintreten. Wenn A und B keine Elemente gemeinsam haben (d.h. nicht gleichzeitig eintreten können), spricht man von disjunkten Ereignissen; in diesem Fall ist der Durchschnitt A ∩ B gleich der leeren Menge, die durch {} oder ∅ bezeichnet wird. Das durch die leere Menge symbolisierte Ereignis heißt auch das unmögliche Ereignis, da es nie eintreten kann. Schließlich wird durch die Differenzmenge A – B = { ωi ∈ Ω | ωi ∈ A und ωi ∉B} jenes Ereignis bezeichnet, dass A, jedoch nicht B eintritt. Beispiel 1.2: Es seien A und B zwei Ereignisse eines Zufallsexperimentes mit der Ergebnismenge Ω. Man mache sich mit Hilfe von Mengendiagrammen klar, dass folgende Identitäten gelten: a) A ∪ Ac = Ω, b) A ∩ Ac = ∅, c) Ac = Ω - A, d) (A ∪ B)c = Ac∩ Bc. 1.2 BEGRIFF DER WAHRSCHEINLICHKEIT Wie ist die Wahrscheinlichkeit von Ereignissen bei Zufallsexperimenten mit endlich vielen, gleichwahrscheinlichen Ausgängen definiert? Laplace-Experimente sind Zufallsexperimente mit einer endlichen Anzahl n von gleichwahrscheinlichen Ausgängen. Für diese wurde von Laplace der Begriff der Wahrscheinlichkeit durch folgende Überlegung eingeführt: Wenn alle Ausgänge gleichwahrscheinlich sind, dann ist die Wahrscheinlichkeit P(E) eines Ereignisses E umso größer, je mehr Ausgänge Elemente dieses Ereignisses sind, d.h. P(E) ist proportional zur Anzahl |E| der Ausgänge in E. Mit der Proportionalitätskonstanten c können wir also schreiben P(E) = c |E|. Um einen von der Größe der Ergebnismenge unabhängigen Wahrscheinlichkeitsbegriff zu erhalten, hat Laplace eine Normierung so vorgenommen, dass in jedem Fall die Wahrscheinlichkeit des sicheren Ereignisses Ω gleich 1 sein soll. Wegen P(Ω) = c |Ω| = 1 folgt c = 1/|Ω| und schließlich die folgende Definition der sogenannten Laplace-Wahrscheinlichkeit: P( E ) = Anzahl der für E günstigen Ausgänge | E | = Anzahl der möglichen Ausgänge |Ω| W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 4 Beispiel 1.3: Zwei (symmetrische) Würfel werden ausgespielt. Wie groß ist die Wahrscheinlichkeit des Ereignisses E= “Summe der angezeigten Augenzahlen gleich 7“? Lösung: Jedes Ergebnis kann als Zahlenpaar (i,j) dargestellt werden, wobei i die mit dem ersten und j die mit dem zweiten Würfel erhaltene Zahl bedeutet (i,j =1,2,…, 6). Ordnet man alle möglichen Zahlenpaare in einem aus 6 Zeilen und 6 Spalten bestehenden Schema an, so erhält man folgende Matrix der möglichen sowie für E günstigen Ausgänge: (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) Wegen |Ω|=36 und |E|=6 ist P(E|Ω)=6/36=1/6. Wie wird das Wahrscheinlichkeitsmaß P allgemein definiert? Für die Wahrscheinlichkeit von Ereignissen gelten bei LaplaceExperimenten folgende Aussagen: 1. Für jedes Ereignis A⊂Ω ist P(A) ≥ 0 (Nichtnegativität). 2. Für das sichere Ereignis Ω ist P(Ω)=1 (Normiertheit). 3. Für zwei disjunkte Ereignisse A⊂Ω und B⊂Ω gilt die spezielle Additionsregel: P(A ∪ B) = P(A) + P(B). Diese Aussagen sind Teile des Axiomensystems von Kolomogoroff, in dem die Wahrscheinlichkeit P eines Ereignisses für irgendein Zufallsexperiment mit der (im Allgemeinen unendlichen) Ergebnismenge Ω als eine Abbildung P: {E: E ⊂ Ω} → [0, 1] definiert ist, die jedem Ereignis E ⊂ Ω eine nichtnegative reelle Zahl P(E) kleiner gleich 1 zuordnet. Anmerkung: Tatsächlich ist das Wahrscheinlichkeitsmaß P nur für sogenannte „zufällige Ereignisse“ E ⊂ Ω definiert. Die Gesamtheit aller zufälligen Ereignisse bildet ein Mengensystem, das im Falle einer endlichen oder abzählbar unendlichen Ergebnismenge Ω mit der Potenzmenge von Ω (d.h. der Menge aller Teilmengen von Ω) übereinstimmt. W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 5 Folgerungen aus den Axiomen: Es sei Ω die Ergebnismenge eines Zufallsexperimentes sowie A⊂ Ω und B⊂ Ω zwei Ereignisse. Dann gilt: Für jedes Ereignis A ist 0 ≤ P(A) ≤ 1. P(∅) = 0. Ist P(A) die Wahrscheinlichkeit des Ereignisses A, so ist die Wahrscheinlichkeit des zu A komplementären Ereignisses Ac gleich P(Ac) = 1 – P(A). Für zwei beliebige Ereignisse A und B gilt die allgemeine Additionsregel: P(A ∪ B) = P(A) + P(B) – P(A ∩ B). Begründung: Das Ereignis A ∪ B kann als Summe von 3 disjunkten Ereignissen in der Form A∪B = (A-B)∪(A ∩ B) ∪(B – A) dargestellt werden, woraus P(A∪B) = P(A-B)+P(A ∩ B)+P(B-A) folgt. Wegen A = (A–B)∪(A∩B) gilt P(A-B)= P(A)P(A∩B). Analog ist B = (B–A )∪(A∩B) und folglich P(B-A)= P(B)-P(A∩B). A A∩B Ω B Anmerkungen: Der Bezug zur jeweiligen Ergebnismenge Ω wird gelegentlich durch die ausführlichere Schreibweise P(E|Ω) präzisiert. Das Verhältnis der Wahrscheinlichkeit eines Ereignisses A zur Wahrscheinlichkeit des zu A komplementären Ereignisses Ac P(A):P(Ac) wird auch als Chance (odds) von A gegen Ac bezeichnet. Beispiel 1.4: a) Nach der Sterbetafel 2000/02 für Österreich ist die Wahrscheinlichkeit des Ereignisses Em80, dass ein männlicher Neugeborener das achtzigste Lebensjahr vollendet, durch P(Em80)=0,460 gegeben. Wie groß sind die Wahrscheinlichkeiten P(Em<80), dass ein männlicher Neugeborener vor dem achtzigsten Lebensjahr stirbt? Wie groß ist die Chance des Ereignisses Em80 gegen Em<80? Lösung: P(Em<80) = 1- P(Em80) = 54%; P(Em80):P(Em<80)=1:1,17. b) Einer medizinischen Statistik ist zu entnehmen, dass 30% der Bewohner eines Landes Übergewicht (Ereignis ÜG) und 20% hohen Blutdruck (Ereignis HB) haben; auf 10% trifft beides zu. Man berechne P(ÜG ∪ HB)! Lösung: P(ÜG∪HB)=P(ÜG) + P(HB) - P(ÜG∩HB) = 0,3+0,2-0,1=0,4. W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 6 Wie hängt die relative Häufigkeit eines Ereignisses mit dessen Wahrscheinlichkeit zusammen? Es sei Ω die Ergebnismenge eines Zufallsexperimentes und A⊂ Ω ein Ereignis. Das Experiment wird n-mal ausgeführt. Die Anzahl der Versuche, bei denen A eintritt, heißt die absolute Häufigkeit kn(A) des Ereignisses A. Dividiert man durch n, erhält man die relative Häufigkeit hn(A)=kn(A)/n des Ereignisses A bei n Versuchen. Offensichtlich gilt hn(A) ≥ 0 und hn(Ω) =1. Ferner gilt für zwei disjunkte Ereignisse A⊂ Ω und B⊂ Ω die Additionsregel hn(A ∪ B) = hn(A) + hn(B). Man erkennt, dass bei der Definition des Wahrscheinlichkeitsmaßes P grundlegende Eigenschaften der relativen Häufigkeit nachgebildet wurden. Der Zusammenhang zwischen relativer Häufigkeit und Wahrscheinlichkeit eines Ereignisses wird auch durch folgende Erfahrung begründet: Ein Zufallsexperiment (z.B. das Ausspielen eines Würfels) wird wiederholt ausgeführt, wobei die einzelnen Versuchsausführungen als voneinander unabhängig (d.h. einander nicht beeinflussend) vorausgesetzt werden. Es zeigt sich dann, dass mit wachsender Anzahl n der Versuchsdurchführungen die relativen Häufigkeiten eines Ereignisses A⊂ Ω sich so verhalten, als würden sie sich einem festen Wert nähern. In den Anwendungen wird von diesem empirischen Konvergenzverhalten Gebrauch gemacht, wenn man die Wahrscheinlichkeit P(A) eines Ereignisses A durch dessen relative Häufigkeit hn(A) bei „großem“ n approximiert. Beispiel 1.5: Wenn ein fairer Würfel sehr oft ausgespielt wird, so zeigt die Erfahrung, dass sich die relative Häufigkeit des Ereignisses „6er“ sich bei der Laplace-Wahrscheinlichkeit P(6er) = 1/6 stabilisiert. Dies kann durch eine Simulation veranschaulicht werden. Lösung mit R: R-Script: # Simulation der relativen Häufigkeit der Augenzahl "6" beim wiederholten # Ausspielen eines idealen Würfels n_sim <- 10000 # Anzahl der Simulationen zaehler <- c(1: n_sim) omega <- c(1, 2, 3, 4, 5, 6) # Ergebnismenge wuerfelfolge <- sample(omega, n_sim, replace=T) wuerfelfolge[wuerfelfolge != 6]=0 # Umbezeichnung der "Nicht-6er" auf 0 wuerfelfolge[wuerfelfolge == 6]=1 # Umbezeichnung der "6er" auf 1 h6 <- c() # Anteil der Sechser for (i in zaehler){ k6 <- sum(wuerfelfolge[1:i]) # Anzahl der 6er bis zum i-ten Wurf h6[i] <- k6/i } par(cex.axis=1.2, cex.lab=1.2) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 7 plot(zaehler, h6, xlab="Wurf-Nummer", ylab="Anteil der 6er", main="Relativen Häufigkeit der Augenzahl \"6\" beim Auspielen eines Würfels") lines(zaehler, h6) abline(h=1/6, col="red") text(9000, 0.18, col="red", expression("P(6er)=1/6"), cex=1.2) Relativen Häufigkeit der Augenzahl "6" beim Auspielen eines Würfels Grafik: 0.10 0.00 0.05 Anteil der 6er 0.15 P(6er)=1/6 0 2000 4000 6000 8000 10000 Wurf-Nummer Die „Stabilisierung“ der relativen Häufigkeit um einen festen Wert bezeichnet man auch als empirisches Gesetz der großen Zahlen. So bedeutsam dieser Befund für die Anwendungen ist, die Definition der Wahrscheinlichkeit eines Ereignisses als Grenzwert von relativen Häufigkeiten ist aber in einer mathematisch einwandfreien Weise nicht möglich. 1.3 BEDINGTE WAHRSCHEINLICHKEIT Wie ist die bedingte Wahrscheinlichkeit definiert und wie kann die bedingte Wahrscheinlichkeit für Laplace-Experimente veranschaulicht werden? Definition: Für zwei Ereignisse A ⊂ Ω (A≠∅) und B ⊂ Ω ist die Wahrscheinlichkeit P(B|A) von B unter der Bedingung A (d.h. unter der Voraussetzung, dass A eingetreten ist) definiert durch: P( B | A) = A Β∩Α Ω B P( B ∩ A) P( A) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 8 Veranschaulichung für Laplace-Experimente: Bei der Bestimmung der Wahrscheinlichkeit von B unter der Bedingung A übernimmt A die Rolle der Ergebnismenge (A ist eingetreten bedeutet, dass einer der in A liegenden Ausgänge bei der Durchführung des Zufallsexperimentes realisiert wurde). Von den in B liegenden Ereignissen sind daher nur die für B „günstig“, die auch in A liegen (d.h. in B ∩ A liegen), die möglichen Ausgänge sind die Elemente von A. Somit ist für Laplace-Experimente: P ( B | A) = B ∩ A B ∩ A Ω P ( B ∩ A) = = A A Ω P ( A) Beispiel 1.6: a) Nach der Sterbetafel 2000/02 für Österreich sind die Wahrscheinlichkeiten der Ereignisse Em80 und Em50, dass ein neugeborener Bub das achtzigste bzw. fünfzigste Lebensjahr vollendet, durch P(Em80)=0.460 bzw. P(Em50)= 0,940 gegeben. Man bestimme die Wahrscheinlichkeit P(Em80|Em50), dass eine 50jähriger Mann das achtzigste Lebensjahr vollendet. Lösung: Wegen Em80 ⊂ Em50 ist Em80 ∩ Em50 = Em80 und folglich P(Em80 ∩ Em50)= P(Em80). Somit ist P(Em80|Em50) = P(Em80 ∩ Em50)/P(Em50) = P(Em80)/P(Em50) = 0,460/0,940 = 0,489. b) In der Medizin wird der Zusammenhang zwischen einem interessierenden Risikofaktor R (R+ Risikofaktor vorhanden, R- nicht vorhanden) und einer bestimmten Diagnose D (D+ Krankheit vorhanden, D- Krankheit nicht vorhanden) durch das Chancenverhältnis (Odds-Ratio) ω= P( D+ | R+ ) : P ( D− | R+ ) P( D+ | R− ) : P ( D− | R− ) beschrieben. Man berechne das Odds-Ratio für das Sterberisiko eines Säuglings bei einem Geburtsgewicht m kleiner bzw. größer gleich 2500g. Für Österreich ist die Wahrscheinlichkeit, dass ein Säugling mit m < 2500 (m ≥ 2500) stirbt, gleich 0,0515 (0,0022). Lösung: D+ = „Säugling stirbt“, D-= “Säugling stirbt nicht“; R+= „m<2500“, R- = „m ≥ 2500“; P(D+|R+) = 0,0515, P(D-|R+) = 1- P(D+|R+)=0,9485; P(D+|R-) = 0,0022, P(D-|R-) = 1- P(D+|R-)= 0,9988; ω = [(0,0515: 0,9485):(0,0022: 0,9988)] = 24,7. Anmerkungen: Für festes A ⊂ Ω (A≠∅) und beliebiges B ⊂ Ω gelten für die bedingten Wahrscheinlichkeiten P(B|A) die gleichen Rechenregeln wie für die unbedingten Wahrscheinlichkeiten P(B). W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 9 Aus der Definitionsgleichung für die bedingte Wahrscheinlichkeit P(B|A) folgt unmittelbar die Multiplikationsregel für Wahrscheinlichkeiten: P(B∩A) = P(B|A) P(A). Im Allgemeinen sind die bedingten Wahrscheinlichkeiten P(B|A) und P(A|B) voneinander verschieden. Wegen P(B∩A) = P(A∩B) = P(A|B) P(B) gilt der Zusammenhang: P(B|A) P(A) = P(A|B) P(B). Was versteht man unter der Unabhängigkeit von zwei Ereignissen? Definition: Es seien A (A≠∅) und B zwei Ereignisse eines Zufallsexperimentes mit der Ergebnismenge Ω. Das Ereignis B heißt unabhängig vom Ereignis A, wenn es für die Wahrscheinlichkeit des Ereignisses B ohne Belang ist, ob A eintritt, d.h. wenn P(B) = P(B|A) ist. Folgerungen: Ist das Ereignis B von A unabhängig, ist umgekehrt auch das Ereignis A vom Ereignis B (B≠∅) unabhängig, d.h. P(A)=P(A|B). Das Ereignis B ist genau dann vom Ereignis A unabhängig (und ebenso A von B unabhängig), wenn P(B∩A) = P(B) P(A) gilt. Diese Gleichung wird Multiplikationsregel für unabhängige Ereignisse genannt. Beispiel 1.7: Bei einem Verfahren zur sterilen Abfüllung von Flaschen tritt mit der Wahrscheinlichkeit p=0,1% ein Ausschuss (unsterile Flasche) auf. Es werden n Flaschen zufällig aus einem (sehr großen) Produktionslos entnommen (Prüfstichprobe). Wie viele Flaschen müssen zur Prüfung vorgesehen werden, damit mit mindestens 95%iger Sicherheit (Wahrscheinlichkeit) in der Prüfstichprobe (wenigstens) eine unsterile Flasche auftritt? Lösung: Eic= (i-te Einheit der Prüfstichprobe ist steril), P(Eic) = 1-p (i=1,2,..n); Ec=(E1c und E2c und E3c … und Enc); P(Ec) = (1-p)n; E = (wenigstens eine unsterile Flasche in der Prüfstichprobe); P(E) = 1 - (1-p)n ≥ 0,95 n ≥ ln(0,05)/ln(1-p) = 2994,2 n = 2995. Lösung mit R: R-Script: # Beispiel 1.7 # n = Umfang der Prüfstichprobe # p = Ausschussanteil # alpha = Irrtumsrisiko # # Bestimmung des Umfangs der Prüfstichprobe # options(digits=4) # Festlegung der Anzahl der signifikanten Stellen n <- function(p, alpha){ log(alpha)/log(1-p)} W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 10 # # Abhängigkeit des Umfangs der Prüfstichprobe vom Ausschussanteil # Darstellung durch Wertetabelle p_werte <- seq(from=0.0005, to=0.005, by=0.00025) n_werte <- n(p_werte, 0.05) print(cbind(p_werte, n_werte), digits=4) # Darstellung durch Funktionsgrafen plot(p_werte, n_werte, xlim=c(0.0005, 0.005), xlab="Ausschussanteil p", ylab="n_Prüfstichprobe", main="Mindest-n für wenigstens 1 Unsterilität") lines(p_werte, n_werte) text(0.001,2000, expression(paste("95%"))) Grafik: 95% 1000 2000 3000 4000 5000 6000 Mindest-n für wenigstens 1 Unsterilität n_Prüfstichprobe Ergebnisse: Console: p_werte n_werte [1,] 0.00050 5990.0 [2,] 0.00075 3992.8 [3,] 0.00100 2994.2 [4,] 0.00125 2395.1 [5,] 0.00150 1995.7 [6,] 0.00175 1710.3 [7,] 0.00200 1496.4 [8,] 0.00225 1329.9 [9,] 0.00250 1196.8 [10,] 0.00275 1087.9 [11,] 0.00300 997.1 [12,] 0.00325 920.3 [13,] 0.00350 854.4 [14,] 0.00375 797.4 [15,] 0.00400 747.4 [16,] 0.00425 703.4 [17,] 0.00450 664.2 [18,] 0.00475 629.2 [19,] 0.00500 597.6 0.001 0.002 0.003 0.004 0.005 Ausschussanteil p Hinweis: Der erforderliche Umfang der Prüfstichprobe nimmt mit abnehmender Ausschussanteil p zu; auch eine höhere Sicherheit erfordert ein höheres n! 1.4 DIE FORMEL VON BAYES Wie kann man aus der Kenntnis der Wahrscheinlichkeit eines Ereignisses B die a-posteriori-Wahrscheinlichkeit von B nach Eintreten eines Ereignisses A bestimmen? Es sei A ⊂ Ω (A≠∅, A≠Ω) und Ac das zu A komplementäre Ereignis. Wegen A∪Ac = Ω und A∩Ac= ∅ liegt jedes Element von Ω entweder in A oder in Ac. Jedes beliebige Ereignis B aus Ω kann dann als Vereinigung der disjunkten Ereignisse B∩A und B∩Ac dargestellt werden, d.h. in der Form B = (B∩A) ∪(B∩Ac). Damit erhält man für die Wahrscheinlichkeit von B die Formel: W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 11 P( B) = P( B | A) P( A) + P( B | Ac ) P( Ac ) Diese Formel ist ein Sonderfall des sogenannten Satzes von der totalen Wahrscheinlichkeit. Indem man die Definitionsgleichung der bedingten Wahrscheinlichkeit mit dem Satz von der totalen Wahrscheinlichkeit kombiniert, ergibt sich der folgende Sonderfall P( A | B) = P( A ∩ B) P( B | A) P( A) = P( B) P( B | A) P( A) + P( B | Ac ) P( Ac ) der Bayes’sche Formel. Diese Formel verknüpft im betrachteten Sonderfall die Wahrscheinlichkeit des Ereignisses A unter der Bedingung B (also nach Kenntnis von B) mit der unbedingten Wahrscheinlichkeit von A (vor Kenntnis von B). P(A|B) wird in diesem Zusammenhang a-posteriori-Wahrscheinlichkeit, P(A) a-priori-Wahrscheinlichkeit genannt. Die Berechnung der a-posteriori-Wahrscheinlichkeit setzt die Kenntnis von P(A) und der bedingten Wahrscheinlichkeiten P(B|A) sowie P(B|Ac) voraus. Wie kann man mit Hilfe der Bayes’schen Formel den positiven prädiktiven Wert in der medizinischen Diagnostik bestimmen? Es seien D+ und D- die alternativen Ereignisse, dass eine Erkrankung vorliegt bzw. nicht vorliegt. Die a-priori-Wahrscheinlichkeit P(D+) ist die sogenannte Grundrate (Prävalenz) der Erkrankung in einer bestimmten Zielpopulation. Wenn sich eine Person einem diagnostischen Test unterzieht, kann dieser Test einen positiven Befund (Ereignis T+) oder einen negativen Befund (Ereignis T-) ergeben. Der positive prädiktive Wert ist die Wahrscheinlichkeit P(H+|T+), dass bei positivem Testbefund eine Erkrankung vorliegt. Die Entscheidungssituation beim diagnostischen Test wird durch folgendes Schema dargestellt: Person ist gesund (D-) Person ist krank (D+) Test ist negativ (T-) P(T-|D-) = Spezifität P(T-|D+) (falsch-negatives Ergebnis) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc Test ist positiv (T+) P(T+|D-) (falsch-positives Ergebnis) P(T+|D+)= Sensitivität 20.04.12 12 Für den positiven prädiktiven Wert ergibt sich mit Hilfe der Bayes’schen Formel die Darstellung: P ( D+ | T+ ) = P(T+ | D+ ) P ( D+ ) P(T+ | D+ ) P ( D+ ) + P (T+ | D− ) P( D− ) Beispiel 1.8 (Diagnostischer Test): Wenn eine Person das HIV-Virus in sich hat, beträgt die Wahrscheinlichkeit praktisch 100%, dass der Test (ELISA) bei ihr positiv ausfällt. Wenn die Person nicht infiziert ist, beträgt die Wahrscheinlichkeit 99,8%, dass der Test bei ihr negativ ausfällt. a) Man berechne für Männer, die keiner Risikogruppe angehören (von diesen sind 0,01% mit HIV-infiziert) den positiven prädiktiven Wert, d.h. die Wahrscheinlichkeit, dass bei positivem Testergebnis tatsächlich eine HIVInfektion vorliegt? b) Eine Person mit positivem Testergebnis unterzieht sich dem Test ein zweites Mal. Wie groß ist nun der positive prädiktive Wert, d.h. die Wahrscheinlichkeit, dass die Erkrankung vorliegt, wenn auch der zweite Test positiv ausgeht? Lösung: a) Prävalenz = P(D+) = 0,0001; P(D-) = 1 - P(D+) = 0,9999; P(T+|D+) = 1, P(T-|D+) = 1 - P(T+|D+) = 0; P(T-|D-) = 0,998; P(T+|D-) = 1 - P(T-|DH-) = 1 – 0,998 = 0,002. P(D+|T+) = 1⋅ 0,0001/[1⋅ 0,0001 + 0,002 ⋅ 0,9999] = 0,04762. c) Prävalenz = P(D+|T+) = 0,0476; P(D-|T+) = 1 - P(D+|T+) = 0,95238; P(T+|D+) = 1, P(T-|D-) = 0,998; P(D+|T+) = 1⋅ 0,04762/[1⋅ 0,04762 + 0,002 ⋅ 0,95238] = 0,9615. Lösung mit R: R-Script: # Beispiel 1.8 # PDpos = (unbedingte) Ws einer Erkrankung (positiven Diagnose) # PTpos_Dpos = (bedingte) Ws für positiven Test, wenn Person krank # PTneg_Dneg = (bedingte) Ws für negativen Test, wenn Person gesund # PDpos_Tpos = (bedingte) Ws, dass Person krank, wenn Test positiv # # 1.7a pos_praed_wert <- function(PDpos, PTpos_Dpos, PTneg_Dneg){ PDneg <- 1-PDpos PTpos_Dneg <- 1-PTneg_Dneg PTpos <- PTpos_Dpos*PDpos + PTpos_Dneg*PDneg PDpos_Tpos <- PTpos_Dpos*PDpos/PTpos return(PDpos_Tpos)} PDpos <- 0.0001 PTpos_Dpos <- 1 PTneg_Dneg <- 0.998 P1 <- pos_praed_wert(PDpos, PTpos_Dpos, PTneg_Dneg) print(cbind(PDpos, PTpos_Dpos, PTneg_Dneg,P1), digits=4) # # 1.7b PDpos <- P1 P2 <- pos_praed_wert(PDpos,1,0.998) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 13 print(cbind(PDpos, PTpos_Dpos, PTneg_Dneg,P2), digits=4) Ergebnisse (Console): 1.8a PDpos PTpos_ Dpos PTneg_Dneg [1,] 1e-04 1 0.998 1.8b PDpos P Tpos_Dpos PT neg_Dneg [1,] 0.04762 1 0.998 P1 0.04762 P2 0.9615 1.5 ÜBUNGSBEISPIELE Einfache Übungsbeispiele: 1. Man bestimme für Mendels Kreuzungsversuch von mischerbigen Erbsen vom Genoptyp Vw bzw. wV (V und w bezeichnen die Erbanlagen für eine violette bzw. weiße Blütenfarbe, V ist gegenüber w dominant) die Wahrscheinlichkeit des Versuchsausganges A = {wV, Vw} unter der Annahme, dass alle Ausgänge gleichwahrscheinlich sind. Mit welcher Chance tritt das Ergebnis A gegen Ac ein? (1/2; 1:1) 2. Man gebe unter der Annahme, dass Knaben- und Mädchengeburten gleich wahrscheinlich sind und der Ausgang einer Geburt das Ergebnis der nächsten nicht beeinflußt, die Wahrscheinlichkeit dafür an, dass wenigstens zwei von den drei Kindern einer Familie Mädchen sind! (1/2) 3. Mit welcher Wahrscheinlichkeit ist beim (gleichzeitigen) Ausspielen von 2 Würfeln die Summe der Augenzahlen durch 4 teilbar? (9/36=1/4) 4. Von den 50 Teilnehmern eines Kurses sind 35 weiblich und 10 Raucher/innen. Wie viele nicht-rauchende Teilnehmerinnen sind zu erwarten, wenn die Merkmale „Geschlecht“ und „Rauchverhalten“ unabhängig sind? (28) 5. Von den 50 Müttern einer Geburtenstation waren 35 "Nichtraucherinnen" und 15 "Raucherinnen". Insgesamt wurden 30 Mädchen und 20 Knaben zur Welt gebracht (keine Mehrlingsgeburten). Wie viele Mädchen sind von den „Raucherinnen“ zu erwarten, wenn die Merkmale „Geschlecht des Kindes“ und „Rauchverhalten der Mütter“ unabhängig sind? (9) 6. Bei der Bearbeitung eines Problems sind 3 voneinander unabhängige Entscheidungen zu treffen, von denen jede einzelne mit der Wahrscheinlichkeit 5% eine Fehlentscheidung sein kann. Wie groß ist die simultane Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass wenigstens in einem Fall falsch entschieden wird? (14.3%) 7. Eine Frau hat Blutgruppe 0 (Genotyp 00), ihre Tochter Blutgruppe A (Genotyp AA oder A0). Letztere heiratet einen Mann mit der Blutgruppe AB (Genotyp AB). Wie groß ist die Wahrscheinlichkeit, dass ein Kind mit der Blutgruppe A geboren wird? (1/2) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 14 8. Wie groß ist die Wahrscheinlichkeit, dass die drei Kinder einer Familie Mädchen sind, wenn bekannt ist, dass a) das erste Kind ein Mädchen ist und b) eines der Kinder ein Mädchen ist? (1/4; 1/7) 9. Zwei Testpräparate A und zwei Placebos B werden in einem Doppelblindversuch nacheinander auf 4 Probanden verteilt. Wie groß ist die Wahrscheinlichkeit, dass a) ein Proband ein Testpräparat erhält, b) ein Placebo erhält, c) der vierte Proband ein Textpräparat erhält, wenn durch eine Indiskretion bekannt ist, dass der erste ein Placebo erhalten hat? (1/2; 1/2; 2/3) 10. Bei seinen Versuchen mit der Erbse Pisum sativum führte Mendel u.a. dihybride Kreuzungen durch, also Kreuzungen von Pflanzen, die sich in zwei Merkmalen unterschieden. Eines der betrachteten Merkmalspaare bestand aus der Samenform und der Samenfarbe. Die Samen sind entweder von „runder“ oder „kantiger“ Form und entweder „gelb“ oder „grün“ gefärbt. Mendel kreuzte zuerst zwei bezüglich Samenform und Samenfarbe mischerbige Pflanzen. Wegen der Dominanzbeziehungen – das Gen für die runde Samenform und das Gen für die gelbe Samenfarbe sind dominant über dem Gen für die kantige Form bzw. dem Gen für die gründe Farbe – waren die aus dieser Kreuzung hervorgehenden Samen rund und gelb. Indem Mendel aus diesen Samen gezogene Pflanzen selbstbestäubte, erhielt er runde und gelbe, kantige und gelbe, runde und grüne bzw. kantige und grüne Samen im Verhältnis 9:3:3:1. Hinsichtlich der Samenfarbe allein stellte er ein Aufspaltungsverhältnis von 3:1 zwischen gelb und grün gefärbten Samen fest. Das gleiche Aufspaltungsverhältnis ergab hinsichtlich der Samenform zwischen den runden und kantigen Samen. Man zeige, dass die „Unabhängigkeitsregel“ gilt, d.h., die bedingte Wahrscheinlichkeit P(Samenform = rund| Samenfarbe =gelb) gleich der unbedingten Wahrscheinlichkeit P(Samenform = rund) ist. 11. In einem Unternehmen mit 500 Beschäftigten werden im Zuge einer Grippeimpfung 300 geimpft. In der Folge erkrankten 50 Personen, von denen 15 geimpft waren. Wie groß ist die Wahrscheinlichkeit dafür, dass a) eine Person erkrankt, b) eine geimpfte Person erkrankt, c) eine erkrankte Person zur Gruppe der Geimpften gehört? ( 0,1; 0,05; 0,03) 12. Es seien w(0, a) und m(0, a) die Wahrscheinlichkeiten, dass eine Frau bzw. ein Mann im Alter von null Jahren, das a-te bzw. b-te Lebensjahr erlebt. Die in der folgenden Tabelle angegebenen Erlebenswahrscheinlichkeiten sind der Sterbetafel 1990/92 für Österreich entnommen. Alter m(0, a) a (Männer) 20 0,98319 40 0,95545 45 0,94109 60 0,83586 65 0,76077 80 0,36537 w(0, a) (Frauen) 0,98902 0,97819 0,97077 0,91892 0,88268 0,58483 Wir betrachten ein Ehepaar, in dem der weibliche Partner a = 40 Lebensjahre und der männliche Partner b = 45 Lebensjahre vollendet haben. Die W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 15 entsprechenden Erlebenswahrscheinlichkeiten sind w(0, 40) = 0,97819 bzw. m(0, 45) = 0,94109. a) Man bestimme die Wahrscheinlichkeit w(a, n) dass der (40-jährige) weibliche Partner die nachfolgenden n=20 Jahre überlebt; ebenso die Wahrscheinlichkeit, dass der (45-jährige) männliche Partner die 20 Jahre überlebt. (0,9394, 0,8084) b) Wie groß ist die Wahrscheinlichkeit, dass beide Partner die nachfolgenden 20 Jahre gemeinsam erleben. (0,7594) 13. In einer Population sei die Wahrscheinlichkeit, dass eine Frau (ein Mann) farbenblind ist, gleich 0,03 (0,07). Das Geschlechtsverhältnis sei 1:1,05 (männlich:weiblich). Man berechne a) die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person farbenblind ist, und b) die Wahrscheinlichkeit, dass eine farbenblinde Person eine Frau ist. (4,95%; 31,03%) 14. In der Firma Newbiotech haben 30% der Mitarbeiter/innen einen Universitätsoder Fachhochschulabschluss, 80% davon sind in leitenden Positionen tätig. Von den Mitarbeiter/innen ohne Universitäts- oder Fachhochschulabschluss sind dagegen nur 30% in leitenden Funktionen. Wie groß ist die Wahrscheinlichkeit, dass eine Person in leitender Funktion einen Universitäts- oder Fachhochschulabschluss besitzt? (53,3%) 15. Aus Statistiken sei bekannt, dass eine aus einer gewissen Population nach einem Zufallsverfahren ausgewählte Person mit der Wahrscheinlichkeit 0,3% die Krankheit K1 und mit der Wahrscheinlichkeit 0,5% die Krankheit K2 aufweist. Ferner sei bekannt, dass ein Symptom S bei der Krankheit K1 (K2) mit der Wahrscheinlichkeit 0,75 (0,5) zu erwarten ist. Man bestimme die a posterioriWahrscheinlichkeit für die Krankheiten K1 und K2, wenn das Symptom S beobachtet wurde; dabei wird angenommen, dass die beiden Krankheiten nicht gemeinsam auftreten können und die einzigen Krankheiten sind, die zum betrachteten Symptom führen. (0,474; 0,526) 16. Ein Unternehmen verwendet zur Besetzung einer speziellen Position einen Aufnahmetest. Den Test bestehen 70% der Bewerber/innen, von denen sich 80% in der Probezeit tatsächlich bewähren. Von den Bewerber/innen, die den Test nicht bestehen, bewähren sich erfahrungsgemäß nur 60%. Welcher %-Satz an Bewerber/innen mit erfolgreich absolvierter Probezeit wäre zu erwarten, wenn keine Vorauswahl (d.h. kein Aufnahmetest) stattfindet? (74%) 17. Aufgabe der Diskriminanzanalyse ist es, Objekte auf Grund ihrer Eigenschaften (Merkmalswerte) vorgegebenen Klassen zuzuweisen. Es sei O ein Objekt mit der Eigenschaft A; das Objekt O gehöre einer der Klassen K1 und K2 an. Bekannt ist, dass Objekte der Klasse K1 die beobachtete Eigenschaft A mit der Wahrscheinlichkeit P(A|K1)= 0,7 besitzen; dagegen weisen Objekte der Klasse K2 diese Eigenschaft mit der Wahrscheinlichkeit P(A|K2)= 0,5 auf. Es seien P(K1) =0,5 und P(K2) =0,5 die a priori-Wahrscheinlichkeiten, dass O zu K1 bzw. K2 gehört, d.h., über die Klassenzugehörigkeit ist a priori nichts bekannt ist. Wie groß sind die a-posteriori-Wahrscheinlichkeiten P(K1|A) und P(K2|A), dass O der Klasse K1 bzw. K2 angehört? Welcher Klasse soll O zugewiesen werden? (0,583; 0,417; K1) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 16 18. Es ist in einer bestimmten Region bekannt, dass eine 50-jährige, symptomfreie Person mit einer Wahrscheinlichkeit von 0,3% an Darmkrebs erkrankt. Wenn eine Person Darmkrebs hat, beträgt die Wahrscheinlichkeit 50%, dass der Hämokkulttest positiv ausfällt. Wenn eine Person keinen Darmkrebs hat, liegt die Wahrscheinlichkeit, dass der Test dennoch positiv ausfällt, bei 3%. Angenommen bei einer bestimmten Person (über 50 Jahre, symptomfrei) ist das Testergebnis positiv. Mit welcher Wahrscheinlichkeit hat die Person wirklich Darmkrebs? (4,78%) 19. Ein medizinischer Test zum Nachweis einer Erkrankung K liefert mit 95%-iger Wahrscheinlichkeit ein richtig-positives Ergebnis und mit 5%-iger Wahrscheinlichkeit ein falsch-positives Ergebnis. Wie groß ist die Prävalenz von K (d.h. die Wahrscheinlichkeit, mit der K in der betrachteten Region auftritt), wenn die Wahrscheinlichkeit eines positiven Testausgangs 23% beträgt? (20%) 20. Mit einem statistischen Test soll eine Entscheidung herbeigeführt werden, ob zwei Versuchsbedingungen auf den Mittelwert eines Untersuchungsmerkmals X eine verschiedene (Alternative H1) oder gleichartige (Hypothese H0) Wirkung ausüben. Der Test wurde mit der Irrtumswahrscheinlichkeit P(Entscheidung für H1|H0) = 5% und der Power P(Entscheidung für H1|H1) = 90% geplant. Man stelle die Abhängigkeit der a-posteriori Wahrscheinlichkeit P(H1|Entscheidung für H1) in Abhängigkeit von der a-priori Wahrscheinlichkeit P(H1) dar? Welcher Wert ergibt sich speziell für P(H1) = 10%? (66,7%) 21. Ein einfacher Prüfplan besteht darin, dass n Einheiten aus einem Los zufällig ausgewählt und auf Fehlerhaftigkeit überprüft werden. Das Los wird zurückgewiesen, wenn die Anzahl X der fehlerhaften Einheiten größer als c ist. Wie groß ist die Wahrscheinlichkeit P(X≤c) für eine Annahme des Loses, wenn der Anteil p von fehlerhaften Einheiten (Ausschussanteil) gleich po=0,5% ist? Für die Rechnung sei n=55 und c=1; ferner nehme man an, dass sich der Ausschussanteil während der Entnahme der Prüfstichprobe nicht ändert, was mit guter Näherung der Fall ist, wenn der Umfang N des Prüfloses sehr groß ist (z.B. N=1000). (3,1%) Anspruchsvollere Übungsbeispiele: 22. Wie groß ist die Wahrscheinlichkeit, dass zwei Geschwister bezüglich eines Genortes mit den Allelen A1 und A2 keine abstammungsgleichen Gene besitzen? (Zwei Gene heißen abstammungsgleich, wenn sie Kopien ein und desselben Gens in der Elterngeneration sind. Man setze die Genotypen der Eltern allgemein mit α1α2 und β1β2 an, wobei man sich für α1, α2, β1 bzw. β2 eines der Allele A1 bzw. A2 eingesetzt zu denken hat. Anschließend bilde man alle in der F1Generation möglichen Genotypen und zähle von den 16 möglichen Kombinationen der Genotypen jene ab, die keine abstammungsgleichen Gene tragen.) (1/4) 23. Wie oft muss ein (symmetrischer) Würfel ausgespielt werden, damit die Serie der Ergebnisse mit einer Sicherheit (d.h. Wahrscheinlichkeit) von mindestens 95% einen "Sechser" enthält? (17) 24. Der Diversitätsindex C nach Simpson ist definiert als die Wahrscheinlichkeit, dass zwei aus einer Artengemeinschaft nacheinander zufällig ausgewählte Individuen W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 17 zur selben Art gehören. Man bestimme C für eine Artengemeinschaft aus den zwei Arten S1 und S2 mit n1=50 bzw. n2=100 Individuen. 25. In einer Population sei die Wahrscheinlichkeit, dass in einem Zwillingspaar beide Geschwister weiblich sind, gleich 0,3. Unter Beachtung, dass eineiige Zwillinge stets von gleichem Geschlecht sind, und bei zweieiigen Zwillingen alle Geschlechterkombinationen mit gleicher Wahrscheinlichkeit auftreten können, berechne man die Wahrscheinlichkeit, dass es sich bei einem Zwillingspaar um eineiige Zwillinge handelt? (0,2) 26. Man betrachte die Samenform (Ausprägungen glatt bzw. kantig) der Erbse Pisum sativum. Es sei A das die Ausprägung „glatt“ bestimmende Gen und a das Gen für die Ausprägung „kantig“ (A ist dominant über a). Die aus einem mischerbigen Genotyp durch Selbstbestäubung hervorgehenden Nachkommen (F2-Pflanzen) besitzen entweder glatte Samen (Genotypen AA, Aa bzw. aA) oder kantige Samen (Genotyp aa). Die Genotypen AA, Aa (=aA) und aa treten im Verhältnis 1 : 2:1 auf. Da die Genotypen AA und Aa (=aA) im Phänotyp (glatte Samenform) übereinstimmen, muss man die Reinerbigkeit eines glatten Samens durch ein spezielles Verfahren ermitteln. Jemand schlägt dazu folgende Vorgangsweise vor: Man ziehe aus einem von einer F2-Pflanze stammenden (glatten) Samen eine Tochterpflanze und bezeichne die F2-Pflanze dann als reinerbig, wenn ihre (durch Selbstbestäubung) entstehenden Samen die dominante Merkmalsausprägung (glatte Samenform) zeigen. Wie groß ist die Wahrscheinlichkeit, dass eine nach diesem Verfahren als reinerbig klassifizierte eine F2-Pflanze tatsächlich reinerbig ist? (40%) 27. Im vorhergehenden Beispiel ist die ursprüngliche Wahrscheinlichkeit, dass eine F2-Pflanze mit glatten Samen reinerbig ist, durch 1/3 gegeben (a-prioriWahrscheinlichkeit). Die Wahrscheinlichkeit erhöht sich auf den Wert 0,4 (aposteriori-Wahrscheinlichkeit), wenn eine aus einem Samen gezogene F3-Pflanze wieder Samen mit glatter Form hervorbringt. Indem man den Wert 0,4 als neue apriori-Wahrscheinlichkeit betrachtet, berechne man die Wahrscheinlichkeit, dass eine aus einer F3-Pflanze (mit glatten Samen) gezogene F4-Pflanze reinerbig ist, wenn ihre Samen glatt sind. (57,1%). Welche Wahrscheinlichkeit ergibt sich für die F12-Pflanze? (89,9%) 28. Bei einem Patienten stehen drei Diagnosen A, B oder C zur Wahl. Es wird ein diagnostischer Test angewendet, der bei Vorliegen von A mit 90%iger Wahrscheinlichkeit positiv ausfällt, bei Vorliegen von B mit 20%iger Wahrscheinlichkeit und bei Vorliegen von C mit 10%iger Wahrscheinlichkeit. Das Testresultat für den Patienten ist positiv. Wie groß ist die Wahrscheinlichkeit, dass A vorliegt, wenn alle drei Krankheiten als gleichwahrscheinlich angesehen werden? (75%) 29. Bei einem diagnostischen Verfahren zum Nachweis einer Erkrankung sei die Wahrscheinlichkeit, ein falsch-negatives (falsch-positives) Ergebnis zu erhalten, gleich 0,3% (10%). Die Wahrscheinlichkeit für das Auftreten der Krankheit in einer bestimmten Zielgruppe sei 0,5%. a) Man berechne die Wahrscheinlichkeit, dass bei positivem Ergebnis tatsächlich eine Erkrankung vorliegt. (0,0477) W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 18 b) Eine Person mit positivem Testergebnis unterzieht sich ein zweites Mal dem Test. Wie groß ist die Wahrscheinlichkeit, dass eine Erkrankung vorliegt, wenn der Test positiv ausfällt? (0,3331) 30. Ziegenproblem: In einer populären Fernsehshow bekam ein Kandidat die Chance, eine großen Preis (Auto) zu gewinnen. Dazu musste die richtige Wahl zwischen drei Türen getroffen werden; hinter einer steht ein Auto, hinter den beiden anderen je eine Ziege. Der Kandidat wählt z.B. Tür 1, und der Showmaster (der weiß, was sich hinter jeder Tür befindet) öffnet Tür 3 (wo natürlich - eine Ziege zum Vorschein kommt) und fragt den Kandidaten, ob er sich seine Wahl noch einmal überlegen, also wechseln will. Ist es ein Vorteil, die Wahl der Tür zu ändern? (ja) 1.6 REPETITORIUM: BEGRIFFE UND METHODEN 1. Sie werden gefragt, warum die Wahrscheinlichkeit 1/6 beträgt, beim einmaligen Ausspielen eines Würfels einen Sechser zu erhalten. Wie antworten Sie auf die Frage? Antwort: Beim Ausspielen eines (fairen) Würfels handelt es sich um ein Zufallsexperiment mit 6 gleichwahrscheinlichen Ausgängen. Jede Zusammenfassung von Ausgängen zu einer Menge wird ein Ereignis genannt. Das Ereignis, das alle Ausgänge umfasst, heißt Ergebnismenge Ω des Zufallsexperiments; die 1elementigen Ereignisse entsprechen den verschiedenen Ausgängen des Zufallsexperimentes. Wenn alle Ausgänge gleichwahrscheinlich sind, ist es zweckmäßig, die Wahrscheinlichkeit P(E) eines Ereignisses E mit einem Maß zu erfassen, das proportional zur Anzahl |E| der Ausgänge in E ist, d.h. P(E) = c x |E| mit der Proportionalitätskonstanten c. Um die Wahrscheinlichkeiten von Ereignissen zu Zufallsexperimenten mit verschiedener Anzahl von Ausgängen vergleichen zu können, wird die Normierung P(Ω) = c| Ω | = 1 vorgenommen. Aus dieser Normierungsbedingung ergibt sich die Proportionalitätskonstante c=1/| Ω | und die sogenannte Laplace’sche Definition P(E)=|E|/| Ω | der Wahrscheinlichkeit. Beim Ausspielen eines Würfels ist E={6}, Ω ={1,2,3,4,5,6} und daher P(E) = 1/6. 2. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines Zufallsexperimentes. Was verstehen Sie unter dem Ereignis E = „A oder B“? Mit welcher Regel können Sie die Wahrscheinlichkeit von E auf die Wahrscheinlichkeiten P(A) und P(B) zurückführen. Erläutern Sie die Regel an Hand eines Ereignisses A und des zu A komplementären Ereignisses! Antwort: Das Ereignis E = „A oder B“ tritt genau dann ein, wenn entweder A (und nicht B) oder B (und nicht A) oder sowohl A als auch B eintritt; in anderen Worten umfasst das Ereignis E = „A oder B“ jene Ausgänge von Ω, die in A (und nicht in B) oder in B (und nicht in A) oder sowohl in A als auch in B liegen. Wenn die Ereignisse A und B disjunkt sind, es also keine Ausgänge von Ω gibt, die sowohl in A als auch in B liegen), dann ist die Wahrscheinlichkeit des zusammengesetzten Ereignisses E = „A oder B“ gleich der Summe der Wahrscheinlichkeit von A und der W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 19 Wahrscheinlichkeit von B; diese Aussage heißt Additionsregel für disjunkte Ereignisse dar und wird formelmäßig durch P(A oder B) = P(A) + P(B) ausgedrückt. Ein Paar von speziellen disjunkten Ereignissen sind ein Ereignis E und das zu E komplementäre Ereignis Ec, das alle Ausgänge von Ω enthält, die nicht in E liegen. Die Ausgänge von E und Ec ergeben vereint das sichere Ereignis Ω= „E oder Ec“, das mit der Wahrscheinlichkeit P(Ω)=1 bei jeder Durchführung des Zufallsexperiments eintritt. Es folgt P(Ω)= P(E oder Ec) = P(EX) + P(Ec) = 1. 3. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines Zufallsexperimentes mit endlich vielen, gleichwahrscheinlichen Ausgängen. Was versteht man unter der bedingten Wahrscheinlichkeit P(A|B) und wie bestimmt man diese Wahrscheinlichkeit? Wann sind die Ereignisse A und B voneinander unabhängig? Antwort: Die bedingte Wahrscheinlichkeit P(A|B) ist die Wahrscheinlichkeit des Ereignisses A unter der Voraussetzung, dass B eingetreten ist. Dies bedeutet, dass – bei der Bestimmung der Wahrscheinlichkeit von A – das Ereignis B die Rolle der Ergebnismenge übernimmt, die – unter der Voraussetzung, dass B eingetreten ist – alle nunmehr möglichen Ausgänge (das sind jene Ausgänge in B) umfasst. Die in der Laplace’schen Wahrscheinlichkeitsdefinition angeführte „günstigen Fälle“ sind jene Ausgänge von A, die auch in B liegen. Die Zusammenfassung dieser Ausgänge ist das Ereignis „A und B“. Indem |A und B|, |B| und |Ω| die Anzahl der Elemente in „A und B“, B bzw. Ω ausdrücken, kann die bedingte Wahrscheinlichkeit P(A|B) durch P(A|B) = |A und B|/|B| dargestellt werden. (Hinweis: Dividiert man hier den Zähler und Nenner durch |Ω|, steht im Zähler die Wahrscheinlichkeit P(A und B) und im Nenner die Wahrscheinlichkeit P(B). Die Formel P(A|B)= P(A und B)/ P(B) ist die allgemeingültige Definitionsgleichung der bedingten Wahrscheinlichkeit P(A|B) für den Fall P(B)>0.) Die Ereignisse A und B heißen voneinander unabhängig, wenn P(A) = P(A|B) gilt, d.h., das Eintreten von B keinen Einfluss auf die Wahrscheinlichkeit von A hat. 4. Es seien A und B zwei Ereignisse der Ergebnismenge Ω eines Zufallsexperimentes. Was verstehen Sie unter dem Ereignis E= „A und B“? Wie bestimmen Sie die Wahrscheinlichkeit von E, wenn A und B unabhängige Ereignisse sind? Geben Sie ein Beispiel für die Anwendung der Multiplikationsregel für unabhängige Ereignisse! Antwort: Das Ereignis E=“A und B“ tritt genau dann ein, wenn sowohl A als auch B eintritt, d.h., das Ereignis E umfasst jene Ausgänge von Ω, die sowohl in A als auch in B liegen. Aus der Definitionsgleichung der bedingten Wahrscheinlichkeit P(A|B)= P(A und B)/P(B) ergibt sich durch Umordnen die sogenannte allgemeine Multiplikationsregel P(A und B) = P(A|B) P(B). Wenn die Ereignisse A und B unabhängig sind, gilt P(A|B) = P(A); die allgemeine Multiplikationsegel nimmt für unabhängige Ereignisse die spezielle Gestalt P(A und B) = P(A) P(B) an. Ein einfaches Beispiel für die Anwendung dieser Regel liefert das zweimalige Ausspielen eines Würfels: Die Wahrscheinlichkeit, beim ersten Ausspielen einen 6er zu würfeln (Ereignis A) und ebenso beim zweiten Ausspielen (Ereignis B) ist W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12 20 bei angenommener Unabhängigkeit dieser Ereignisse – durch P(A und B) = P(A) P(B) = 1/6 x 1/6 = 1/36 gegeben. 5. Wie gehen Sie vor, um für eine Person die Wahrscheinlichkeit P(K+|T+) dafür zu bestimmen, dass bei positivem Ausgang (Ereignis T+) eines diagnostischen Tests eine bestimmte Erkrankung wirklich zutrifft (Ereignis K+)? Welche Informationen über den Test und über das Auftreten des Ereignisses K+ in der Population, der die Person angehört, müssen Sie zur Beantwortung der Frage kennen? Antwort: Vom Ereignis K+ muss bekannt sein, mit welcher (a priori-) Wahrscheinlichkeit P(K+) es in der Population eintritt. Vom diagnostischen Test müssen wir zwei Kenngrößen wissen: Die Sensitivität P(T+|K+), d.h. die Wahrscheinlichkeit, dass bei Vorliegen der Erkrankung K+ der Test positiv ausfällt, sowie die Spezifität P(T-|K-), d.h. die Wahrscheinlichkeit, dass der Test ein negatives Ergebnis (Ereignis T-) liefert, wenn die Erkrankung nicht vorliegt (Ereignis K-). Bei der Bestimmung der gesuchten Wahrscheinlichkeit P(K+|T+) ist es nützlich, die Population in „Erkrankte“ und „Nichterkrankte“ zu strukturieren; entsprechend den beiden möglichen Testausgängen, spalten wir die Kategorien „Erkrankte“ und die „Nichterkrankte“ weiter in „Testpositive“ und „Testnegative“ auf, sodass es – nach Durchführung des Tests - vier mögliche Ereignisse gibt: „Erkrankt und Testpositiv“, „Erkrankt und Testnegativ“, „Nichterkrankt und Testnegativ“ sowie „Nichterkrankt und Testnegativ“. Es folgt, dass das Ereignis T+ (positiver Testausgang) genau dann eintritt, wenn entweder die Erkrankung vorliegt und der Test positiv ausfällt (Ereignis „K+ und T+“) oder die Erkrankung nicht vorliegt und der Test positiv ausfällt (Ereignis „K- und T+“ ). Diese beiden Ereignisse sind disjunkt, so dass die Additionsregel in der einfachen Form P(„K+ und T+“ oder „Kund T-„) = P(K+ und T+) + P(K- und T+) angewendet werden kann. Ferner sind die Ereignisse K+ und T+ (und ebenso die Ereignisse K- und T+) sachlogisch unabhängig, denn ob eine Person erkrankt, hat nichts mit einem in der Folge allenfalls angewandten diagnostischen Test zu tun. Die Anwendung der Multiplikationsregel für unabhängige Ereignisse liefert daher für die Wahrscheinlichkeit P(T+) eines positiven Testausgangs: P(T+) = P(T+|K+)P(K+) + P(T+|K-)P(K-). In dieser Formel sind P(T+|K+) die (bekannte) Sensitivität, P(K+) die (bekannte) Wahrscheinlichkeit einer Erkrankung in der Population, P(T+|K-) ist die Gegenwahrscheinlichkeit zur (bekannten) Spezifität P(T-|K-) und P(K-) die Gegenwahrscheinlichkeit zu P(K+). Die gesuchte Wahrscheinlichkeit P(K+|T+) ergibt sich nun aus der Definitionsgleichung der bedingten Wahrscheinlichkeit P(K+|T+) = P(K+ und T+)/P(T+). In dieser Formel haben wir die Nennerwahrscheinlichkeit P(T+) bereits bestimmt und ebenso die Zählerwahrscheinlichkeit P(K+ und T+) = P(T+|K+)P(K+). W. Timischl: Statistik, Wahrscheinlichkeiten_12_Text.doc 20.04.12