Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die Wahrscheinlichkeiten für das Eintreten von Ereignissen durch das Eintreten anderer Ereignisse ändern. Entwicklung anhand eines empirischen Beispiels mit 2 Merkmalen und einer sog. 4-Feldertafel Merkmal: Gesundheitszustand mit den Ausprägungen krank (D+) oder gesund(D-) Merkmal: Testergebnis mit den Ausprägungen Test positiv oder negativ (T+ bzw. T-) Von Interesse ist hier nicht nur die Wahrscheinlichkeit krank zu sein: P(D+) sondern insbesondere die Wahrscheinlichkeit krank zu sein, wenn ein positiver Test vorliegt: P(D+|T+) Statistik für SoziologInnen 1 Bedingte Wahrscheinlichkeiten eines Labortests (Digitalis-Konzentration im Blut) kann das Vorliegen einer bestimmten Herz-Krankheit diagnostiziert werden. 1975 wurde dazu folgende Statistik veröffentlicht: T+...positiver Test T- negativer Test D+...Krankheit D- gesund D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 Statistik für SoziologInnen 2 © Marcus Hudec Beispiel zur bedingten Wahrscheinlichkeit Anhand © Marcus Hudec Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten 1 © Marcus Hudec Randverteilungen D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 Randverteilung (marginale Verteilung): P(D+) = 0,318 P(D-) = 0,682 P(T+) = 0,289 P (T-) = 0,711 Die Randverteilung eines Merkmals ergibt sich jeweils durch Summation über alle Ausprägungen des anderen Merkmals. Statistik für SoziologInnen 3 Bedingte Wahrscheinlichkeiten D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 Wir interessieren uns nun für die Krankheitswahrscheinlichkeit gegeben der Test ist positiv Bedingte Verteilung: © Marcus Hudec Bedingte Verteilungen P(D+|T+) = 25/39 = 0,64 P(D+|T+) = P(D+ ∩ T+)/P(T+)= 0,185/0,289 = 0,64 P(D-|T+) = 14/39 = 1- P(D+|T+) = 0,36 P(D-|T+) = P(D- ∩ T+)/P(T+)= 0,104/0,289 = 0,36 Statistik für SoziologInnen 4 Bedingte Wahrscheinlichkeiten 2 Bedingte Verteilung gegeben ein negativer Test liegt vor: © Marcus Hudec Berechnung von bedingten Wahrscheinlichkeiten P(D-|T-) = 0,578 / 0,711= 0,813 P(D+|T-) = 0,133 / 0,711= 0,187 D+ DTotal T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 In obiger Tabelle sind die bedingten Verteilungen des Gesundheitszustandes bei Kenntnis des Testergebnisses ausgewiesen (Zeilenprozent). Statistik für SoziologInnen 5 Bedingte Wahrscheinlichkeiten Summary © Marcus Hudec Interpretation von bedingten Wahrscheinlichkeiten Offensichtlich verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten: – P(D+) = 0,318 – Bei einem positiven Test gilt P(D+|T+) = 25/39 = 0,64 – Bei einem negativen Test gilt P(D+|T-) = 18/96 = 0,187 d.h. der Test ist informativ für das Merkmal Gesundheitszustand Lesehinweis: P(A|B) … Wahrscheinlichkeit, dass ein Ereignis A eintritt, gegeben [oder unter der Bedingung], das Ereignis B ist eingetreten Statistik für SoziologInnen 6 Bedingte Wahrscheinlichkeiten 3 Bedingte Verteilung gegeben D+ (Person ist krank) liegt vor: © Marcus Hudec Berechnung von bedingten Wahrscheinlichkeiten P(T+|D+) = 25 / 43 = 0,581 P(T+|D-) = 14 / 92 = 0,152 P(T- |D+) = 18 / 43 = 0,419 P(T- |D-) = 78 / 92 = 0,848 D+ DTotal T+ 0,581 0,152 0,289 T- 0,419 0,848 0,711 Total 0,318 0,682 1,000 In obiger Tabelle sind die bedingten Verteilungen des Testergebnisses bei Kenntnis des Gesundheitszustandes ausgewiesen (Spaltenprozent). Statistik für SoziologInnen 7 Bedingte Wahrscheinlichkeiten D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 P(D+) = 0,318 P(T+) = 0,289 Sensitivität des Tests P(T+|D+) = 25/43 = 0,185/0,318=0,581 © Marcus Hudec 2 Maßzahlen für die Güte von diagnostischen Tests Spezifität des Tests P(T-|D-) = 78/92=0,578 / 0,682= 0,848 Statistik für SoziologInnen 8 Bedingte Wahrscheinlichkeiten 4 Von einem guten diagnostischen Test wünschen wir uns, dass er möglichst viele Kranke erkennt, das heißt, diese durch ein positives Ergebnis anzeigt. Der Anteil unter allen Kranken, die positiv getestet werden, heißt Sensitivität, da er angibt, wie sensibel der Test auf das Vorliegen der Krankheit reagiert. Sensitivität: P(T+|D+) … Wahrscheinlichkeit eines positiven Testergebnisses gegeben der Proband ist krank Statistik für SoziologInnen 9 Bedingte Wahrscheinlichkeiten wünschen wir uns, dass der Test möglichst spezifisch ist, also nur auf das Vorliegen der Krankheit anspricht. Jeder nicht Erkrankte, der trotzdem positiv getestet wird, deutet auf einen Mangel an Spezifität [~ P(T+|D-)] hin. Als Spezifität des Tests bezeichnen wir deshalb den Anteil der korrekt negativ Getesteten unter den nicht Erkrankten. Spezifität: P(T-|D-) …Wahrscheinlichkeit eines negativen Testergebnisses gegeben der Proband ist gesund Statistik für SoziologInnen 10 © Marcus Hudec Spezifität Weiters © Marcus Hudec Sensitivität Bedingte Wahrscheinlichkeiten 5 Durch die beiden Kriterien Spezifität und Sensitivität kann die statistische Qualität eines diagnostischen Tests charakterisiert werden. Wünschenswert ist es, wenn ein Test in beiden Kriterien möglich nahe an 100% herankommt. Leider wird dieses Idealziel in der Praxis nicht erreicht. Sowohl Kranke als auch Gesunde können positiv oder negativ getestet werden. Deshalb kann aus dem Testergebnis nicht sicher, sondern nur mit einer bestimmten Wahrscheinlichkeit auf das Vorliegen der Krankheit geschlossen werden. Statistik für SoziologInnen 11 Bedingte Wahrscheinlichkeiten Interesse sind in der Praxis folgende bedingten Wahrscheinlichkeiten: Der positive prädikative Wert oder auch Voraussagewert eines positiven Testergebnisses, gibt die Wahrscheinlichkeit an, krank zu sein, wenn ein positiver Test vorliegt P(D+|T+) Der negative prädikative Wert oder auch Voraussagewert eines negativen Testergebnisses, gibt die Wahrscheinlichkeit an, gesund zu sein, wenn ein negativer Test vorliegt P(D-|T-) Statistik für SoziologInnen 12 © Marcus Hudec Prädikativer Wert Von © Marcus Hudec Statistische Qualität Bedingte Wahrscheinlichkeiten 6 Die Anwendung dieser Überlegungen gehen weit über diagnostische Tests in der Medizin hinaus Beispiele: Alkomat …Test auf Alkoholisierung Lügendetektoren Automatische Erkennung von Falschgeld Tests auf Kreditwürdigkeit etc. Letztlich bei jeder binären Entscheidung unter Unsicherheit auf der Basis empirischer Evidenz Statistik für SoziologInnen 13 © Marcus Hudec Allgemeine Fragestellung Bedingte Wahrscheinlichkeiten © Marcus Hudec Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung, dass das Ereignis B eingetreten ist (wobei P(B)>0 sein muss) ist wie folgt definiert: P(A| B) = P(A ∩ B) ⇒ P(A ∩ B) = P(A| B) ⋅ P(B) P(B) Multiplikationssatz für zwei Ereignisse Statistik für SoziologInnen 14 Bedingte Wahrscheinlichkeiten 7 E A A∩B B P(A|B)~P(A*) Durch die Bedingung kommt es zu einer Einschränkung des Ereignisraumes Statistik für SoziologInnen E*=B A* 15 B Bedingte Wahrscheinlichkeiten Für einen männlichen Österreicher gelten folgende Wahrscheinlichkeiten (Sterbetafel 1980/81): © Marcus Hudec Beispiele © Marcus Hudec Visualisierung des Prinzips der bedingten Wahrscheinlichkeiten – P(Alter ≥ 70) = 0,59 – P(Alter ≥ 80) = 0,28 Wie groß ist die Wahrscheinlichkeit, dass ein Mann, der den 70. Geburtstag feiert, auch den 80. Geburtstag feiern kann ? P(Alter ≥ 80| Alter ≥ 70) = P(Alter ≥ 80 ∩ Alter ≥ 70) / P(Alter ≥ 70) = P(Alter ≥ 80) / P(Alter ≥ 70) = 0,28 / 0,59 = 0,47 – Es ist evident, dass Berechnungen über Prämien von Lebensversicherungen oder Rentensystemen auf bedingten Wahrscheinlichkeiten basieren müssen! Statistik für SoziologInnen 16 Bedingte Wahrscheinlichkeiten 8 D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 © Marcus Hudec Berechnung von marginalen Wahrscheinlichkeiten Durch Summation der gemeinsamen Wahrscheinlichkeiten P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,185 + 0,104 = 0,289 D+ 0,581 0,419 0,318 T+ TTotal DTotal 0,152 0,289 0,848 0,711 0,682 1,000 Durch gewichtete Summation der bedingten Wahrscheinlichkeiten P(T+) = P(T+|D+).P(D+) + P(T+|D-).P(D-)= = 0,581*0,318 + 0,152*0,682= 0,289 Statistik für SoziologInnen 17 Bedingte Wahrscheinlichkeiten © Marcus Hudec Totale Wahrscheinlichkeit A=(A ∩ B) ∪ (A ∩ B') ... Partition von A auf Basis von B P(A) = P(A ∩ B) + P(A ∩ B') = P(A|B).P(B) + P(A|B').P(B') Beantwortung von Wahrscheinlichkeitsaussagen unter Berücksichtigung verschiedener Szenarien Statistik für SoziologInnen 18 Bedingte Wahrscheinlichkeiten 9 Wir verändern die Zahlen des vorigen Beispiels: T+...positiver Test T- negativer Test D+...Krankheit D- gesund D+ DTotal T+ 12 8 20 T48 32 80 Total 60 40 100 P(T+) = 0,2 P(D+)=0,6 P(D+|T+) = 12/20 = 0,6 P(D+|T-) = 48/80 =0,6 P(D+ ∩ T+) = 12/100 = 0,12 = P(D+).P(T+) = 0,2*0,6 STOCHASTISCHE UNABHÄNGIGKEIT Statistik für SoziologInnen 19 Bedingte Wahrscheinlichkeiten In diesem Beispiel verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten nicht: P(D+) = 0,60 Bei einem positiven Test gilt P(D+|T+) = 12/20 = 0,60 Bei einem negativen Test gilt P(D+|T-) = 48/80 = 0,60 © Marcus Hudec Stochastische Unabhängigkeit (Beispiel) D+ DT+ 0,60 0,40 T- 0,60 0,40 Total 0,60 0,40 © Marcus Hudec Beispiel zur bedingten Wahrscheinlichkeit Total 0,20 0,80 1,00 Dieser Test ist nicht informativ für das Merkmal Gesundheitszustand. Die bedingten Wahrscheinlichkeiten und die marginale Wahrscheinlichkeit sind gleich. Statistik für SoziologInnen 20 Bedingte Wahrscheinlichkeiten 10 © Marcus Hudec Stochastische Unabhängigkeit (Beispiel) Man beachte im Beispiel: P(D+ ∩ T+) = 12/100 = 0,12 P(D+ ∩ T+) = P(D+).P(T+|D+) = In diesem Fall P(D+).P(T+) = 0,2*0,6 = 0,12 Die gemeinsame Wahrscheinlichkeit ergibt sich im Fall stochastischer Unabhängigkeit aus dem Produkt der marginalen Wahrscheinlichkeiten. Die gemeinsame absolute Häufigkeit ergibt sich im Fall stochastischer Unabhängigkeit aus dem Produkt der marginalen absoluten Häufigkeiten durch die Gesamtzahl der Beobachtungen. Statistik für SoziologInnen 21 Bedingte Wahrscheinlichkeiten Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn gilt: © Marcus Hudec Stochastische Unabhängigkeit (Theorie) P(A ∩ B) = P(A).P(B) Korollar: Wenn zwei Ereignisse unabhängig sind gilt: P(A|B) = P(A) bzw. P(B|A) = P(B). Statistik für SoziologInnen 22 Bedingte Wahrscheinlichkeiten 11 Information über 2 Produkte (2 univariate Randverteilungen) Produkt A Kauf kein Kauf Produkt B Kauf kein Kauf Statistik für SoziologInnen 700 300 1000 70% 30% 100% 600 400 1000 60% 40% 100% Bedingte Wahrscheinlichkeiten 23 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 © Marcus Hudec Szenario: Keine Assoziation zwischen den Produkten Produkt A © Marcus Hudec Beispiel: Assoziation von Produktkäufen 700 300 1000 Produkt B Kauf kein Kauf 42% 18% 60% 28% 12% 40% 70% 30% 100% Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten aus dem Produkt der Randverteilungen! Statistik für SoziologInnen 24 Bedingte Wahrscheinlichkeiten 12 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 © Marcus Hudec Szenario: Keine Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf 60% 60% 60% 40% 40% 40% 100% 100% 100% P(Kauf von B|Kauf von A) = 420/700 = 0,60 P(Kauf von B|kein Kauf von A) = 180/300 = 0,60 Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 25 Produkt A Kauf kein Kauf Gesamt Produkt A Produkt B Kauf kein Kauf 550 50 600 150 250 400 © Marcus Hudec Szenario: Positive Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% P(Kauf von B|Kauf von A) = 550/700 = 0,79 P(Kauf von B|kein Kauf von A) = 50/300 = 0,17 Statistik für SoziologInnen 26 Bedingte Wahrscheinlichkeiten 13 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 360 240 600 340 60 400 © Marcus Hudec Szenario: Negative Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf 51% 80% 60% 49% 20% 40% 100% 100% 100% P(Kauf von B|Kauf von A) = 360/700 = 0,51 P(Kauf von B|kein Kauf von A) = 240/300 = 0,80 Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 27 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Statistik für SoziologInnen Produkt B Kauf kein Kauf 600 0 600 100 300 400 © Marcus Hudec Szenario: Maximale Positive Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf 86% 0% 60% 14% 100% 40% 28 100% 100% 100% Bedingte Wahrscheinlichkeiten 14 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 300 300 600 400 0 400 700 300 1000 Produkt B Kauf kein Kauf 43% 100% 60% Statistik für SoziologInnen 57% 0% 40% 100% 100% 100% Bedingte Wahrscheinlichkeiten 29 © Marcus Hudec Maßzahlen der Assoziation Wir betrachten 2 binäre Merkmale A (A1, A2) B (B1, B2) A1 A2 Summe B1 a c a+c © Marcus Hudec Szenario: Maximale Negative Assoziation zwischen den Produkten B2 b d b+d Summe a+b c+d N Kreuzproduktverhältnis (cross product ratio) cpr = a*d/b*c Wertebereich: 0 bis +∞ Assoziationskoeffizient nach Yule: Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis +1 Statistik für SoziologInnen 30 Bedingte Wahrscheinlichkeiten 15 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 700 300 1000 Produkt B Kauf kein Kauf 60% 60% 60% 40% 40% 40% cpr=420*120/280*180=1 Statistik für SoziologInnen 100% 100% 100% Q=0 Bedingte Wahrscheinlichkeiten 31 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 550 50 600 150 250 400 © Marcus Hudec Szenario: Positive Assoziation zwischen den Produkten Produkt A © Marcus Hudec Szenario: Keine Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf 79% 17% 60% 21% 83% 40% 100% 100% 100% cpr=250*550/150*50=18,33 Q=0,90 Statistik für SoziologInnen 32 Bedingte Wahrscheinlichkeiten 16 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 360 240 600 340 60 400 700 300 1000 Produkt B Kauf kein Kauf 51% 80% 60% 49% 20% 40% cpr=360*60/340*240=0,26 Statistik für SoziologInnen 100% 100% 100% Q=-0,58 Bedingte Wahrscheinlichkeiten 33 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 600 0 600 100 300 400 700 300 1000 Produkt B Kauf kein Kauf 86% 0% 60% 14% 100% 40% cpr=600*300/0*100=+ ∞ Statistik für SoziologInnen © Marcus Hudec Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt A © Marcus Hudec Szenario: Negative Assoziation zwischen den Produkten 34 100% 100% 100% Q=1 Bedingte Wahrscheinlichkeiten 17 Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 300 300 600 400 0 400 700 300 1000 Produkt B Kauf kein Kauf 43% 100% 60% 57% 0% 40% cpr=300*0/300*400= 0 Statistik für SoziologInnen 35 100% 100% 100% Q=-1 Bedingte Wahrscheinlichkeiten Das Verhältnis von Chance zu Gegenchance nennt man „odds“ odds:= p/(1-p) z.B. Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch die Chancen stehen 1 zu 5 Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt Die Cross Product Ratio ist das Verhältnis der odds (odds-ratio) für zwei unterschiedliche Bedingungen 36 © Marcus Hudec Zur Interpretation der Cross Product Ratio Statistik für SoziologInnen © Marcus Hudec Szenario: Maximale Negative Assoziation zwischen den Produkten Bedingte Wahrscheinlichkeiten 18 © Marcus Hudec Zur Interpretation der Cross Product Ratio D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(D+|T+) = 0,64/0,36 = 1,78 odds(D+|T-) = 0,187/0,813= 0,23 odds-ratio(D+) = 1,78/0,23 = 7,74 Das relative Risiko einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,7 mal so hoch wie bei Vorliegen eines negativen Testbefundes. Statistik für SoziologInnen 37 Bedingte Wahrscheinlichkeiten Aus der Statistik einer Versicherung ist bekannt, dass 10% aller Personen in einem Jahr einen Unfall erleiden. Diskutiere die Wahrscheinlichkeit, dass eine Person in einem Intervall von 2 Jahren unfallfrei ist! Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 1 9 10 kein Unfall 9 81 90 Summe 10 90 100 Uanbhängigkeit Statistik für SoziologInnen Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 10 0 10 kein Unfall 0 90 90 Summe 10 90 100 Pechvogel 38 © Marcus Hudec Beispiel Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 0 10 10 kein Unfall 10 80 90 Summe 10 90 100 Aus Schaden klug Bedingte Wahrscheinlichkeiten 19 In einer Population mit gleichen Anteilen von Männern und Frauen wurde festgestellt, dass 5% der Männer und 1% der Frauen farbenblind sind. Wie groß ist die Wahrscheinlichkeit bei zufälliger Auswahl einer farbenblinden Person, einen Mann bzw. eine Frau zu selektieren? Notation: – F...farbenblind – M...männlich N...normalsichtig W...weiblich Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 39 Population von 1000 Personen: F N Gesamt M 25 475 500 W 5 495 500 30 970 1000 Gesamt © Marcus Hudec Beispiel: Bedingte Wahrscheinlichkeit Fiktive © Marcus Hudec Beispiel: Bedingte Wahrscheinlichkeit Daraus lassen sich folgende Wahrscheinlichkeiten ableiten: Statistik für SoziologInnen 40 Bedingte Wahrscheinlichkeiten 20 © Marcus Hudec Beispiel: Bedingte Wahrscheinlichkeit Wahrscheinlichkeitstabelle: F M W Gesamt N Gesamt 0,025 0,475 M∩F M∩N 0,005 0,495 W∩F M∩N 0,030 0,970 F N 0,500 M 0,500 W 1,000 P(M|F) = P(M∩F)/P(F) = 25/30 = 0.025/0.03 = 5/6 P(W|F) = P(W∩F)/P(F) = 5/30 = 0.005/0.03 = 1/6 Statistik für SoziologInnen 41 Bedingte Wahrscheinlichkeiten In einer Kleinstadt sind folgende Daten bekannt: – Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger ein Sparbuch besitzt = 0,75. P(S) = 0,75 – Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger Aktien besitzt = 0,25. P(A) = 0,25 – Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger Vermögen hat (Besitz eines Sparbuchs oder von Aktien) = 0,775. P(A ∪ S) = 0,775 Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger sowohl Aktien als auch ein Sparbuch besitzt? © Marcus Hudec Beispiele P(A ∩ S) = P(A) + P(S) - P(A ∪ S) = 0,25 + 0,75 - 0,775 = 0,225 Statistik für SoziologInnen 42 Bedingte Wahrscheinlichkeiten 21 Sind die Ereignisse Besitz eines Sparbuchs und Besitz von Aktien stochastisch unabhängig ? © Marcus Hudec Beispiele (A ∩ S) =?= P(A).P(S) 0,225 ≠ 0,75*0,25 ==> Die Ereignisse A und S sind nicht unabhängig Wie groß ist die Wahrscheinlichkeit, dass ein Aktienbesitzer (bzw. ein Nicht-Aktienbesitzer) ein Sparbuch hat? P(S|A) = P(S ∩ A) / P(A) = 0,225 / 0,25 = 0,9 P(S|A') = P(S ∩ A') / P(A') = 0,525 / 0,75 = 0,7 P(S ∩ A') = P(S) - P(S ∩ A) = 0,75-0,225=0,525 P Statistik für SoziologInnen 43 Bedingte Wahrscheinlichkeiten In einem Flugzeug gibt es 2 von einander unabhängige automatische Navigationssysteme A und B. Die Verfügbarkeit für das System A sei 0,99 und für B 0,96. © Marcus Hudec Beispiel: Unabhängige Ereignisse Wie groß ist die Wahrscheinlichkeit, dass der Pilot zu einer manuellen Navigation greifen muss? A ... System A funktioniert P(A) = 0,99 B ... System B funktioniert P(B) = 0,96 P(A ist defekt) = P(A') = 1 - 0,99 = 0,01 P(B ist defekt) = P(B') = 1- 0,96 = 0,04 P(beide Systeme defekt) = P(A' ∩ B') = = 0,01 x 0,04 = 0,0004 Statistik für SoziologInnen 44 Bedingte Wahrscheinlichkeiten 22 Eine Expertenkommission besteht aus 3 Experten A, B, C. Jeder Experte hat eine individuelle Irrtumswahrscheinlichkeit, die wie folgt gegeben ist: – P(A irrt) = P(A) = 0,10 – P(B irrt) = P(B) = 0,15 – P(C irrt) = P(C) = 0,12 Wie groß ist die Wahrscheinlichkeit, dass die Meinung der Mehrheit korrekt ist, wenn die 3 Experten voneinander unabhängig urteilen? P(Mehrheit irrt nicht) = P(A' ∩ B' ∩ C) + P(A' ∩ B ∩ C') + P(A ∩ B' ∩ C') + P(A' ∩ B' ∩ C') = 0,9 x 0,85 x 0,12 + 0,9 x 0,15 x 0,88 + 0,1 x 0,85 x 0,88 + 0,9 x 0,85 x 0,88 = 0,0918 + 0,1188 + 0,0748 + 0,6732 = 0,9586 Statistik für SoziologInnen 45 Bedingte Wahrscheinlichkeiten russischen Roulette mit einem 6-Schuss Revolver befindet sich nur eine scharfe Patrone in der Trommel. Die Wahrscheinlichkeit, dass sich nach zufälliger Wahl der Trommelposition ein Schuss löst ist demnach 1/6. Wie groß ist die Wahrscheinlichkeit, dass ein Hasardeur 2 unabhängige Versuche überlebt? Wie groß ist die Wahrscheinlichkeit, dass ein Hasardeur 6 (n) Versuche überlebt? Statistik für SoziologInnen 46 © Marcus Hudec Russisches Roulette Beim © Marcus Hudec Beispiel: Unabhängige Ereignisse Bedingte Wahrscheinlichkeiten 23 X ein Schuss fällt P(X)=1/6 X‘ kein Schuss fällt P(X‘)=5/6 Kein Schuss bei 2 Versuchen: 5/6*5/6=0,69 ... Hasardeur(2) überlebt Zumindest ein Schuss bei 2 Versuchen: 1- 5/6*5/6=0,31... Hasardeur(2) stirbt Kein Schuss bei 6 Versuchen: (5/6)^6=0,33 Zumindest ein Schuss bei 6 Versuchen: 1- (5/6)^6=0,67 Allgemeine Überlebenschance: (5/6)^n Statistik für SoziologInnen 47 Bedingte Wahrscheinlichkeiten einer Population mit gleichen Anteilen von Männern und Frauen wurde festgestellt, dass 5% der Männer und 1% der Frauen farbenblind sind. Wie groß ist die Wahrscheinlichkeit, dass eine beliebige Person farbenblind ist? Notation: – F...farbenblind – M...männlich © Marcus Hudec Beispiel: Totale Wahrscheinlichkeit In © Marcus Hudec Russisches Roulette N...normalsichtig W...weiblich P(F) = P(F|M).P(M) + P(F|W).P(W)= = 0,05*0,5 + 0,01*0,5=0,03 Statistik für SoziologInnen 48 Bedingte Wahrscheinlichkeiten 24 © Marcus Hudec Beispiel: Theorem von Bayes Daten zur Farbenblindheit M a priori Wahrscheinlichkeiten 0,5 W 0,5 1 Gesamt Wie verändern sich diese Wahrscheinlichkeiten, gegeben die Person ist farbenblind ? Statistik für SoziologInnen 49 Bedingte Wahrscheinlichkeiten © Marcus Hudec Theorem von Bayes P(B| A ) = P(B ∩ A ) P( A ∩ B) P( A| B) ⋅ P(B) = = P( A ) P( A ) P( A ) P(B| A ) = P(B| A ) = Statistik für SoziologInnen P( A| B) ⋅ P(B) P( A ) P( A| B) ⋅ P(B) P( A| B) ⋅ P(B) + P( A| B' ) ⋅ P(B' ) 50 Bedingte Wahrscheinlichkeiten 25 © Marcus Hudec Beispiel: Theorem von Bayes P(M|F) = P(F|M) x P(M) / P(F) P(F) = P(F|M) x P(M) + P(F|W) x P(W) = = 0,05 x 0,5 + 0,01 x 0,5 = 0,03 Satz von der totalen Wahrscheinlichkeit P(M|F) = 0,05 x 0,5 / 0,03 = 5/6 = 0,833 P(W|F) = 1 - P(M|F) = 1 - 5/6 = 1/6 = 0,167 P(M|N) = P(N|M) x P(M) / P(N) = 0,95 x 0,5 / 0,97 = 0,49 P(W|N) = 1- P(M|N) = 0,51 Man beachte den unterschiedlichen Informationsgehalt von F/N in bezug auf M/W Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 51 Zusammenfassung der Daten zur Farbenblindheit a priori Wahrscheinlichkeiten Posterior gegeben Farbenblind Posterior gegeben Normalsichtig M 0,5 0,833 0,49 W 0,5 0,167 0,51 1 1 1 Statistik für SoziologInnen 52 © Marcus Hudec Beispiel: Theorem von Bayes Bedingte Wahrscheinlichkeiten 26 © Marcus Hudec Beispiel: Theorem von Bayes P(D+|T+) = P(T+|D+) x P(D+) / P(T+) P(T+) = 39/135 = 0,289 P(T+|D+) = 25/43 =0,581 P(D+) = 43/135 = 0,318 P(D+|T+) = 0,581 x 0,318 / 0,289 = 0,64 Daten: D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 53 © Marcus Hudec Beispiel: Theorem von Bayes Zusammenfassung der Daten a priori Posterior Posterior Wahrscheingegeben gegeben lichkeiten positiver Test negativer Test D+ 0,318 0,640 0,187 D- 0,682 0,360 0,848 1 1 1 Statistik für SoziologInnen 54 Bedingte Wahrscheinlichkeiten 27 Die Daten stammen aus Kerlinowske et al. 1996, JAMA „Likelihood Ratios for Modern Screening Mammography -Risk of Breast Cancer Based on Age and Mammographic Interpretation“ Die Wahrscheinlichkeit, dass eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat, beträgt 0,6% (d.h. die Prävalenz = P(D+) = 0,006) Statistik für SoziologInnen 55 Bedingte Wahrscheinlichkeiten eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat, dann beträgt die Wahrscheinlichkeit, dass sie einen positiven Mammografie-Befund P(T+) erhält, 94 Prozent. Sensitivität des Tests = 0,94 Wenn eine dieser Frauen jedoch keinen Brustkrebs (D-) hat, dann beträgt die Wahrscheinlichkeit, dass sie dennoch einen positiven Mammografie-Befund erhält nur 7 Prozent. Spezifität des Tests = 0,93 Statistik für SoziologInnen 56 © Marcus Hudec Beispiel Wenn © Marcus Hudec Beispiel: Mammography Bedingte Wahrscheinlichkeiten 28 Eine 55-jährige Frau, ohne einschlägige Symptome, ist dem Rat ihres Arztes gefolgt, im Rahmen der Brustkrebsfrüherkennung jedes Jahr eine Mammografie durchführen zu lassen. Bei einer solchen Untersuchung erhält sie einen positiven Befund. Schockiert über das Ergebnis, fragt sie ihren Arzt: «Heißt das, ich habe Brustkrebs?» © Marcus Hudec Zentrale Frage «Nein, das kann man noch nicht sicher sagen.» «Wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich Brustkrebs habe?» Statistik für SoziologInnen 57 Bedingte Wahrscheinlichkeiten © Marcus Hudec Beispiel Ihre Schätzung für die korrekte Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, lautet __,_% Statistik für SoziologInnen 58 Bedingte Wahrscheinlichkeiten 29 © Marcus Hudec Schema der Diagnostik A priori Wahrscheinlichkeit einer Erkrankung (Prävalenz) Diagnostischer Test P(T-|D-) Spezifität P(T+|D+) Sensitivität Posteriore Wahrscheinlichkeit einer Erkrankung Falls Test positiv ist Falls Test negativ ist P(D+|T+) = ??? P(D-|T-) = ??? Statistik für SoziologInnen 59 Bedingte Wahrscheinlichkeiten Welche korrekte statistische Angabe kann der Arzt der Patientin geben? Prävalenz = P(D+) = 0,006 Sensitivität des Tests P(T+|D+) = 0,94 Spezifität des Tests bzw. 1-Spez P(T-|D-) = 0,93 bzw. P(T+|D-) = 0,07 P(D+|T+) = ??? Statistik für SoziologInnen 60 © Marcus Hudec Beispiel Bedingte Wahrscheinlichkeiten 30 © Marcus Hudec Theorem von Bayes a priori Wahrscheinlichkeit Theorem von Bayes posteriore Wahrscheinlichkeit P (T + | D + ) ⋅ P ( D + ) P (T + ) P (T + ) = P (T + | D + ) ⋅ P ( D + ) + P (T + | D − ) ⋅ P ( D − ) P( D + | T +) = P( D + | T +) = Statistik für SoziologInnen Sens ⋅ Pr äv Sens ⋅ Pr äv + (1 − Spez ) ⋅ (1 − Pr äv ) 61 Bedingte Wahrscheinlichkeiten P(T+) = P(T+|D+)*P(D+) + P(T+|D-)*P(D-)= = 0,94*0,006 + 0,07*0,994 =0,07522 P(D+|T+) = P(T+|D+)*P(D+)/P(T+)= = 0,94*0,006/0,07522=0,07498 © Marcus Hudec Anwendung des Bayes Theorem Die Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, beträgt 7,5% In einer amerikanischen Studie lagen 95 von 100 befragten Ärzten in ihrer Schätzung zwischen 70% und 80%. Statistik für SoziologInnen 62 Bedingte Wahrscheinlichkeiten 31 © Marcus Hudec Formulierung in absoluten Zahlen Brustkrebs (D+) Gesund (D-) Summe Test + Test - 100.000 10.000 Summe Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 63 © Marcus Hudec Formulierung in absoluten Zahlen Brustkrebs (D+) Gesund (D-) Summe 600 99.400 100.000 0,6% <=== Prävalenz Test + Test Summe Statistik für SoziologInnen 64 Bedingte Wahrscheinlichkeiten 32 © Marcus Hudec Formulierung in absoluten Zahlen Brustkrebs (D+) Test + Gesund (D-) Summe 564 94,0% <=== Sensitivität Test Summe 600 99.400 Statistik für SoziologInnen 100.000 Bedingte Wahrscheinlichkeiten 65 © Marcus Hudec Formulierung in absoluten Zahlen Test + Test Summe Brustkrebs (D+) Gesund (D-) 564 6.958 Summe 7,0% <=== 1 minus Spezifität 36 600 Statistik für SoziologInnen 99.400 100.000 66 Bedingte Wahrscheinlichkeiten 33 © Marcus Hudec Formulierung in absoluten Zahlen Test + Test Summe Brustkrebs (D+) Gesund (D-) 564 6.958 36 92.442 600 99.400 Statistik für SoziologInnen Summe 93,0% <=== Spezifität 100.000 Bedingte Wahrscheinlichkeiten 67 © Marcus Hudec Formulierung in absoluten Zahlen Test + Test Summe Statistik für SoziologInnen Brustkrebs (D+) Gesund (D-) Summe 564 6.958 7.522 36 92.442 92.478 600 99.400 100.000 68 Bedingte Wahrscheinlichkeiten 34 © Marcus Hudec Formulierung in absoluten Zahlen Test + Test Summe Brustkrebs (D+) Gesund (D-) Summe 564 6.958 7.522 36 92.442 92.478 600 99.400 100.000 564/7.522= Statistik für SoziologInnen 7,5% 69 Bedingte Wahrscheinlichkeiten Ein ELISA zum Test auf HIV-Antikörper besitze 99.99% Sensitivität und 98% Spezifität. Wir setzen diesen Test nun in zwei Situationen ein. In Population A (“Normalpopulation”) liege die Prävalenz bei 0.01%. Population B („Risiko-Population“) habe eine Prävalenz von 5%. In beiden Fällen wollen wir wissen, wie sicher wir bei einem positiven Test sein können, dass der Proband tatsächlich HIV-positiv ist. © Marcus Hudec Prävalenzabhängigkeit von Tests Ergebnis bei A: P(D+|T+) =0,5% Ergebnis bei B: P(D+|T+) =72% Statistik für SoziologInnen 70 Bedingte Wahrscheinlichkeiten 35 Gastwirth(1978): + ...Test ergibt Person lügt L ... Person lügt in Wirklichkeit P(+|L) = 0,88 P(-|W) = 0,86 © Marcus Hudec Lügendedektoren und das Theorem von Bayes - ... Test zeigt an Person lügt nicht W ... Person spricht die Wahrheit P(-|L) = 0,12 P(+|W) = 0,14 a) Routinetest bei Personalselektion P(W) = 0,99 P(L) = 0,01 P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,99+0,88*0,01=0,1474 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,01/0,1474=0,0597 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,99/0,1474=0,9403 P(W|-) = P(-|W)*P(W)/P(-) = 0,86*0,99/0,853=0,998 P(L|-) = 1 - P(W|-) = 0,002 Statistik für SoziologInnen 71 Bedingte Wahrscheinlichkeiten b) Verändern der subjektiven Wahrscheinlichkeit b1) P(W) = 0,50 P(L) = 0,50 © Marcus Hudec Lügendedektoren und das Theorem von Bayes P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,51 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,5/0,51 = 0,863 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,5/0,51 = 0,137 P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,5/0,49 = 0,122 P(W|-)= 1- P(L|-) = 0,878 b2) P(W) = 0,20 P(L) = 0,80 P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,732 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,8/0,732 = 0,96 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,2/0,732 = 0,04 P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,8/0,268 = 0,36 P(W|-)= 1- P(L|-) = 0,64 Statistik für SoziologInnen 72 Bedingte Wahrscheinlichkeiten 36