Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die Wahrscheinlichkeiten für das Eintreten von Ereignissen durch das Eintreten anderer Ereignisse ändern. Entwicklung anhand eines empirischen Beispiels mit 2 Merkmalen und einer sog. 4-Feldertafel Merkmal: Gesundheitszustand mit den Ausprägungen p g g krank (D+) oder gesund(D-) Merkmal: Testergebnis mit den Ausprägungen Test positiv oder negativ (T+ bzw. T-) Von Interesse ist hier nicht nur die Wahrscheinlichkeit krank zu sein: P(D+) sondern insbesondere die Wahrscheinlichkeit krank zu sein, wenn ein positiver Test vorliegt: P(D+|T+) Statistik für SoziologInnen 1 Bedingte Wahrscheinlichkeiten D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 Randverteilung a d e te u g ((marginale a g a e Verteilung): e te u g) P(D+) = 0,318 P(D-) = 0,682 P(T+) = 0,289 P (T-) = 0,711 3 Bedingte Wahrscheinlichkeiten P(D-|T-) = 0,578 / 0,711= 0,813 P(D+|T-) = 0,133 / 0,711= 0,187 D+ DTotal T 0,64 T+ 0 64 0 0,36 36 0,289 0 289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 5 Bedingte Wahrscheinlichkeiten Bedingte Verteilungen D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 Wir interessieren te ess e e u uns s nun u für ü d die e Krankheitsa e ts wahrscheinlichkeit gegeben der Test ist positiv Bedingte Verteilung: Statistik für SoziologInnen 4 Bedingte Wahrscheinlichkeiten Interpretation von bedingten Wahrscheinlichkeiten Summary Offensichtlich verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten: – P(D+) = 0,318 – Bei einem positiven Test gilt P(D+|T+) = 25/39 = 0,64 – Bei einem negativen Test gilt P(D+|T-) = 18/96 = 0,187 d.h. der Test ist informativ für das Merkmal Gesundheitszustand In obiger Tabelle sind die bedingten Verteilungen des Gesundheitszustandes bei Kenntnis des Testergebnisses ausgewiesen (Zeilenprozent). Statistik für SoziologInnen 2 © Marcus Hudec Bedingte Verteilung gegeben ein negativer Test liegt vor: © Marcus Hudec Berechnung von bedingten Wahrscheinlichkeiten Statistik für SoziologInnen P(D+|T+) = 25/39 = 0,64 P(D+|T+) = P(D+ ∩ T+)/P(T+)= 0,185/0,289 = 0,64 P(D-|T+) = 14/39 = 1- P(D+|T+) = 0,36 P(D-|T+) = P(D- ∩ T+)/P(T+)= 0,104/0,289 = 0,36 Die Randverteilung eines Merkmals ergibt sich jeweils durch Summation über alle Ausprägungen des anderen Merkmals. Statistik für SoziologInnen Anhand eines Labortests (Digitalis-Konzentration im Blut) kann das Vorliegen einer bestimmten Herz-Krankheit diagnostiziert werden. 1975 wurde dazu folgende Statistik veröffentlicht: T+...positiver Test T- negativer Test D+...Krankheit D- gesund D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 © Marcus Hudec © Marcus Hudec Randverteilungen Beispiel zur bedingten Wahrscheinlichkeit © Marcus Hudec © Marcus Hudec Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten Lesehinweis: P(A|B) … Wahrscheinlichkeit, dass ein Ereignis A eintritt, gegeben [oder unter der Bedingung], das Ereignis B ist eingetreten Statistik für SoziologInnen 6 Bedingte Wahrscheinlichkeiten 1 P(T+|D+) = 25 / 43 = 0,581 P(T+|D-) = 14 / 92 = 0,152 P(T- |D+) = 18 / 43 = 0,419 P(T- |D-) = 78 / 92 = 0,848 D+ DTotal T+ 0,581 , 0,152 , 0,289 , T- 0,419 0,848 0,711 Total 0,318 0,682 1,000 In obiger Tabelle sind die bedingten Verteilungen des Testergebnisses bei Kenntnis des Gesundheitszustandes ausgewiesen (Spaltenprozent). Statistik für SoziologInnen 7 9 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 11 Bedingte Wahrscheinlichkeiten 8 Bedingte Wahrscheinlichkeiten Spezifität Weiters wünschen wir uns, dass der Test möglichst spezifisch ist, also nur auf das Vorliegen der Krankheit anspricht. Jeder nicht Erkrankte, der trotzdem positiv getestet wird, deutet auf einen Mangel an Spezifität [~ P(T+|D-)] hin. Als Spezifität des Tests bezeichnen wir deshalb den Anteil der korrekt negativ Getesteten unter den nicht Erkrankten. Spezifität: P(T-|D-) …Wahrscheinlichkeit eines negativen Testergebnisses gegeben der Proband ist gesund Statistik für SoziologInnen 10 Bedingte Wahrscheinlichkeiten Prädikativer Wert Von Interesse sind in der Praxis folgende bedingten Wahrscheinlichkeiten: Der positive prädikative Wert oder auch Voraussagewert eines positiven Testergebnisses, gibt die Wahrscheinlichkeit an, krank zu sein, wenn ein positiver Test vorliegt P(D+|T+) Der negative prädikative Wert oder auch Voraussagewert eines negativen Testergebnisses, gibt die Wahrscheinlichkeit an, gesund zu sein, wenn ein negativer Test vorliegt P(D-|T-) Statistik für SoziologInnen 12 © Marcus Hudec Durch die beiden Kriterien Spezifität und Sensitivität kann die statistische Qualität eines diagnostischen Tests charakterisiert werden. Wünschenswert ist es, wenn ein Test in beiden Kriterien möglich nahe an 100% herankommt. Leider e de wird dd dieses eses Idealziel dea e in de der Praxis a s nicht c t erreicht. Sowohl Kranke als auch Gesunde können positiv oder negativ getestet werden. Deshalb kann aus dem Testergebnis nicht sicher, sondern nur mit einer bestimmten Wahrscheinlichkeit auf das Vorliegen der Krankheit geschlossen werden. © Marcus Hudec Statistische Qualität Statistik für SoziologInnen © Marcus Hudec Statistik für SoziologInnen Spezifität des Tests P(T-|D-) = 78/92=0,578 / 0,682= 0,848 © Marcus Hudec Von einem guten diagnostischen Test wünschen wir uns, dass er möglichst viele Kranke erkennt, das heißt, diese durch ein positives Ergebnis anzeigt. Der Anteil unter allen Kranken, die positiv getestet werden, heißt Sensitivität, da er angibt, wie sensibel der Test auf das Vorliegen der Krankheit reagiert. Sensitivität: P(T+|D+) … Wahrscheinlichkeit eines positiven Testergebnisses gegeben der Proband ist krank D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 P(D+)) = 0,318 P(T P(D P(T+)) = 0,289 Sensitivität des Tests P(T+|D+) = 25/43 = 0,185/0,318=0,581 Bedingte Wahrscheinlichkeiten Sensitivität 2 Maßzahlen für die Güte von diagnostischen Tests © Marcus Hudec Bedingte Verteilung gegeben D+ (Person ist krank) liegt vor: © Marcus Hudec Berechnung von bedingten Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten 2 Statistik für SoziologInnen Statistik für SoziologInnen Multiplikationssatz für zwei Ereignisse A∩B 14 Bedingte Wahrscheinlichkeiten Beispiele B Für einen männlichen Österreicher gelten folgende Wahrscheinlichkeiten (Sterbetafel 1980/81): A* – Es ist evident, dass Berechnungen über Prämien von Lebensversicherungen oder Rentensystemen auf bedingten Wahrscheinlichkeiten basieren müssen! B Bedingte Wahrscheinlichkeiten 15 Wie groß ist die Wahrscheinlichkeit, dass ein Mann, der den 70. Geburtstag feiert, auch den 80. Geburtstag feiern k kann ? P(Alter ≥ 80| Alter ≥ 70) = P(Alter ≥ 80 ∩ Alter ≥ 70) / P(Alter ≥ 70) = P(Alter ≥ 80) / P(Alter ≥ 70) = 0,28 / 0,59 = 0,47 E*=B Durch Summation der gemeinsamen Wahrscheinlichkeiten Statistik für SoziologInnen 16 Bedingte Wahrscheinlichkeiten © Marcus Hudec © Marcus Hudec Berechnung von marginalen Wahrscheinlichkeiten D+ D- Total T+ 0,185 0,104 0,289 T- 0,133 0,578 0,711 Total 0,318 0,682 1,000 Statistik für SoziologInnen – P(Alter ≥ 70) = 0,59 – P(Alter ≥ 80) = 0,28 P(A|B)~P(A*) Durch die Bedingung kommt es zu einer Einschränkung des Ereignisraumes P(A ∩ B) ⇒ P(A ∩ B) = P(A| B) ⋅ P(B) P(B) © Marcus Hudec E A P(A| B) = © Marcus Hudec Visualisierung des Prinzips der bedingten Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung, dass das Ereignis B eingetreten ist (wobei P(B)>0 sein muss) ist wie folgt definiert: Bedingte Wahrscheinlichkeiten 13 © Marcus Hudec Die Anwendung dieser Überlegungen gehen weit über diagnostische Tests in der Medizin hinaus Beispiele: Alkomat …Test auf Alkoholisierung Lügendetektoren Automatische Erkennung von Falschgeld Tests auf Kreditwürdigkeit etc. Letztlich bei jeder binären Entscheidung unter Unsicherheit auf der Basis empirischer Evidenz © Marcus Hudec Allgemeine Fragestellung Totale Wahrscheinlichkeit A=(A ∩ B) ∪ (A ∩ B') ... Partition von A auf Basis von B P(A) = P(A ∩ B) + P(A ∩ B') = P(T+) = P(T+ ∩ D+) + P(T+ ∩ D-) = 0,185 + 0,104 = 0,289 T+ TTotal D+ 0,581 0,419 0,318 DTotal 0,152 0,289 0,848 0,711 0,682 1,000 P(A|B).P(B) + P(A|B').P(B') Durch gewichtete Summation der bedingten Wahrscheinlichkeiten Beantwortung von Wahrscheinlichkeitsaussagen unter Berücksichtigung verschiedener Szenarien P(T+) = P(T+|D+).P(D+) + P(T+|D-).P(D-)= = 0,581*0,318 + 0,152*0,682= 0,289 Statistik für SoziologInnen 17 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 18 Bedingte Wahrscheinlichkeiten 3 Statistik für SoziologInnen P(D+ ∩ T+) = 12/100 = 0,12 P(D+ ∩ T+) = P(D+).P(T+|D+) = In diesem Fall P(D+).P(T+) = 0,2*0,6 = 0,12 Die gemeinsame Wahrscheinlichkeit ergibt sich im Fall stochastischer Unabhängigkeit einfach aus dem Produkt der marginalen Wahrscheinlichkeiten. Die gemeinsame absolute Häufigkeit ergibt sich im Fall stochastischer Unabhängigkeit aus dem Produkt der marginalen absoluten Häufigkeiten durch die Gesamtzahl der Beobachtungen. Statistik für SoziologInnen Produkt A Kauf kein Kauf Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn gilt: Korollar: Wenn zwei Ereignisse unabhängig sind gilt: P(A|B) = P(A) bzw. P(B|A) = P(B). Statistik für SoziologInnen Szenario: Keine Assoziation zwischen den Produkten Produkt A 700 300 1000 70% 30% 100% Kauf kein Kauf Gesamt Produkt A Produkt B Kauf kein Kauf Statistik für SoziologInnen 23 600 400 1000 60% 40% 100% Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten 22 Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 © Marcus Hudec Information über 2 Produkte (2 univariate Randverteilungen) Stochastische Unabhängigkeit (Theorie) © Marcus Hudec Beispiel: Assoziation von Produktkäufen Bedingte Wahrscheinlichkeiten 20 P(A ∩ B) = P(A).P(B) Bedingte Wahrscheinlichkeiten 21 Statistik für SoziologInnen © Marcus Hudec Man beachte im Beispiel: Total 0 20 0,20 0,80 1,00 Dieser Test ist nicht informativ für das Merkmal Gesundheitszustand. Die bedingten Wahrscheinlichkeiten und die marginale Wahrscheinlichkeit sind gleich. © Marcus Hudec Stochastische Unabhängigkeit (Beispiel) In diesem Beispiel verändert die Kenntnis des Testergebnisses meine Krankheitswahrscheinlichkeiten nicht: P(D+) = 0,60 Bei einem positiven Test gilt P(D+|T+) = 12/20 = 0,60 Bei einem negativen Test gilt P(D+|T-) = 48/80 = 0,60 D+ DT+ 0 0,60 60 0 0,40 40 T- 0,60 0,40 Total 0,60 0,40 Bedingte Wahrscheinlichkeiten 19 Stochastische Unabhängigkeit (Beispiel) © Marcus Hudec Wir verändern die Zahlen des vorigen Beispiels: T+...positiver Test T- negativer Test D+...Krankheit D- gesund D+ DTotal T+ 12 8 20 T48 32 80 Total 60 40 100 P(T+) = 0,2 P(D+)=0,6 P(D+|T+) = 12/20 = 0,6 P(D+|T-) = 48/80 =0,6 P(D+ ∩ T+) = 12/100 = 0,12 = P(D+).P(T+) = 0,2*0,6 STOCHASTISCHE UNABHÄNGIGKEIT © Marcus Hudec Beispiel zur bedingten Wahrscheinlichkeit 700 300 1000 Produkt B Kauf kein Kauf 42% 18% 60% 28% 12% 40% 70% 30% 100% Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten aus dem Produkt der Randverteilungen! Statistik für SoziologInnen 24 Bedingte Wahrscheinlichkeiten 4 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 Produkt A 700 300 1000 Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 60% 60% 60% 40% 40% 40% Produkt A 100% 100% 100% Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 25 Produkt A Kauf kein Kauf Gesamt 360 240 600 340 60 400 49% 20% 40% 150 250 400 700 300 1000 Produkt B Kauf kein Kauf Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 26 Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt A 700 300 1000 Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 51% 80% 60% 550 50 600 Produkt A 100% 100% 100% Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf 600 0 600 100 300 400 © Marcus Hudec Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf © Marcus Hudec Szenario: Negative Assoziation zwischen den Produkten Produkt B Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% P(Kauf von B|Kauf von A) = 550/700 = 0,79 P(Kauf von B|kein Kauf von A) = 50/300 = 0,17 P(Kauf von B|Kauf von A) = 420/700 = 0,60 P(Kauf von B|kein Kauf von A) = 180/300 = 0,60 Produkt A Szenario: Positive Assoziation zwischen den Produkten © Marcus Hudec Produkt A © Marcus Hudec Szenario: Keine Assoziation zwischen den Produkten 700 300 1000 Produkt B Kauf kein Kauf 86% 0% 60% 14% 100% 40% 100% 100% 100% P(Kauf von B|Kauf von A) = 360/700 = 0,51 P(Kauf von B|kein Kauf von A) = 240/300 = 0,80 Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 27 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Statistik für SoziologInnen Produkt B Kauf kein Kauf 300 300 600 400 0 400 700 300 1000 Produkt B Kauf kein Kauf 43% 100% 60% 57% 0% 40% 29 100% 100% 100% Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten 28 © Marcus Hudec Produkt A © Marcus Hudec Szenario: Maximale Negative Assoziation zwischen den Produkten Statistik für SoziologInnen Maßzahlen der Assoziation Wir betrachten 2 binäre Merkmale A (A1, A2) B (B1, B2) A1 A2 Summe B1 a c a+c B2 b d b+d Summe a+b c+d N Kreuzproduktverhältnis (cross product ratio) cpr = a*d/b*c Wertebereich: 0 bis +∞ Assoziationskoeffizient nach Yule: Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis +1 Statistik für SoziologInnen 30 Bedingte Wahrscheinlichkeiten 5 Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Produkt B Kauf kein Kauf Gesamt 420 180 600 280 120 400 60% 60% 60% Statistik für SoziologInnen 40% 40% 40% Produkt A Q=0 Bedingte Wahrscheinlichkeiten 49% 20% 40% cpr=360*60/340*240=0,26 100% 100% 100% 57% 0% 40% cpr=300*0/300*400= 0 Statistik für SoziologInnen 700 300 1000 Produkt B Kauf kein Kauf 43% 100% 60% 35 21% 83% 40% 100% 100% 100% Bedingte Wahrscheinlichkeiten Produkt B Kauf kein Kauf 600 0 600 100 300 400 100% 100% 100% Statistik für SoziologInnen 700 300 1000 Produkt B Kauf kein Kauf 86% 0% 60% 14% 100% 40% cpr=600*300/0*100=+ ∞ Q=-0,58 Bedingte Wahrscheinlichkeiten 400 0 400 79% 17% 60% 34 100% 100% 100% Q=1 Bedingte Wahrscheinlichkeiten Zur Interpretation der Cross Product Ratio Das Verhältnis von Chance zu Gegenchance nennt man „odds“ odds:= p/(1-p) z.B. Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch die Chancen stehen 1 zu 5 Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt Die Cross Product Ratio ist das Verhältnis der odds (odds-ratio) für zwei unterschiedliche Bedingungen © Marcus Hudec Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt © Marcus Hudec Produkt A Kauf kein Kauf Gesamt Produkt A Produkt B Kauf kein Kauf 300 300 600 Produkt B Kauf kein Kauf Szenario: Maximale Positive Assoziation zwischen den Produkten 700 300 1000 Szenario: Maximale Negative Assoziation zwischen den Produkten Kauf kein Kauf Gesamt 700 300 1000 32 Produkt A 33 150 250 400 © Marcus Hudec 51% 80% 60% 550 50 600 Statistik für SoziologInnen Produkt B Kauf kein Kauf Statistik für SoziologInnen Produkt A © Marcus Hudec Kauf kein Kauf Gesamt 340 60 400 Produkt B Kauf kein Kauf cpr=250*550/150*50=18,33 Q=0,90 Produkt B Kauf kein Kauf 360 240 600 Kauf kein Kauf Gesamt 100% 100% 100% Szenario: Negative Assoziation zwischen den Produkten Produkt A Kauf kein Kauf Gesamt 700 300 1000 31 Kauf kein Kauf Gesamt Produkt A Produkt B Kauf kein Kauf cpr=420*120/280*180=1 Produkt A Szenario: Positive Assoziation zwischen den Produkten © Marcus Hudec Produkt A © Marcus Hudec Szenario: Keine Assoziation zwischen den Produkten Q=-1 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 36 Bedingte Wahrscheinlichkeiten 6 D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(D+|T+) = 0,64/0,36 = 1,78 odds(D+|T-) ( | ) = 0,187/0,813= / 0,23 odds-ratio(D+) = 1,78/0,23 = 7,74 37 39 Wie groß ist die Wahrscheinlichkeit, dass der Pilot zu einer manuellen Navigation greifen muss? A ... System S stem A funktioniert f nktioniert P(A) = 0 0,99 99 B ... System B funktioniert P(B) = 0,96 P(A ist defekt) = P(A') = 1 - 0,99 = 0,01 P(B ist defekt) = P(B') = 1- 0,96 = 0,04 P(beide Systeme defekt) = P(A' ∩ B') = = 0,01 x 0,04 = 0,0004 Statistik für SoziologInnen 41 Bedingte Wahrscheinlichkeiten Beispiele Sind die Ereignisse Besitz eines Sparbuchs und Besitz von Aktien stochastisch unabhängig ? Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 40 Bedingte Wahrscheinlichkeiten Beispiel: Unabhängige Ereignisse Eine Expertenkommission besteht aus 3 Experten A, B, C. Jeder Experte hat eine individuelle Irrtumswahrscheinlichkeit, die wie folgt gegeben ist: – P(A irrt) = P(A) = 0,10 – P(B irrt) = P(B) = 0,15 – P(C ( irrt)) = P(C) ( ) = 0,12 Wie groß ist die Wahrscheinlichkeit, dass die Meinung der Mehrheit korrekt ist, wenn die 3 Experten voneinander unabhängig urteilen? P(Mehrheit irrt nicht) = P(A' ∩ B' ∩ C) + P(A' ∩ B ∩ C') + P(A ∩ B' ∩ C') + P(A' ∩ B' ∩ C') = 0,9 x 0,85 x 0,12 + 0,9 x 0,15 x 0,88 + 0,1 x 0,85 x 0,88 + 0,9 x 0,85 x 0,88 = 0,0918 + 0,1188 + 0,0748 + 0,6732 = 0,9586 Statistik für SoziologInnen 42 © Marcus Hudec In einem Flugzeug gibt es 2 von einander unabhängige automatische Navigationssysteme A und B. Die Verfügbarkeit für das System A sei 0,99 und für B 0,96. © Marcus Hudec 38 Aus Schaden klug P (A ∩ S) =?= P(A).P(S) 0,225 ≠ 0,75*0,25 ==> Die Ereignisse A und S sind nicht unabhängig Wie groß ist die Wahrscheinlichkeit Wahrscheinlichkeit, dass ein Aktienbesitzer (bzw. ein Nicht-Aktienbesitzer) ein Sparbuch hat? P(S|A) = P(S ∩ A) / P(A) = 0,225 / 0,25 = 0,9 P(S|A') = P(S ∩ A') / P(A') = 0,525 / 0,75 = 0,7 P(S ∩ A') = P(S) - P(S ∩ A) = 0,75-0,225=0,525 Bedingte Wahrscheinlichkeiten Beispiel: Unabhängige Ereignisse Pechvogel Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 0 10 10 kein Unfall 10 80 90 Summe 10 90 100 P(A ∩ S) = P(A) + P(S) - P(A ∪ S) = 0,25 + 0,75 - 0,775 = 0,225 Statistik für SoziologInnen Statistik für SoziologInnen Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 10 0 10 kein Unfall 0 90 90 Summe 10 90 100 © Marcus Hudec In einer Kleinstadt sind folgende Daten bekannt: – Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger ein Sparbuch besitzt = 0,75. P(S) = 0,75 – Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger Aktien besitzt = 0,25. P(A) = 0,25 – Wahrscheinlichkeit, dass ein zufällig g ausgewählter g Bürger Vermögen hat (Besitz eines Sparbuchs oder von Aktien) = 0,775. P(A ∪ S) = 0,775 Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Bürger sowohl Aktien als auch ein Sparbuch besitzt? © Marcus Hudec Uanbhängigkeit Bedingte Wahrscheinlichkeiten Beispiele Aus der Statistik einer Versicherung ist bekannt, dass 10% aller Personen in einem Jahr einen Unfall erleiden. Diskutiere die Wahrscheinlichkeit, dass eine Person in einem Intervall von 2 Jahren unfallfrei ist! Jahr2 Unfall kein Unfall Summe Jahr1 Unfall 1 9 10 kein Unfall 9 81 90 Summe 10 90 100 Das relative Risiko einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,7 mal so hoch wie bei Vorliegen eines negativen Testbefundes. (25*78)/(14*18)=7,7 Statistik für SoziologInnen Beispiel © Marcus Hudec © Marcus Hudec Zur Interpretation der Cross Product Ratio Bedingte Wahrscheinlichkeiten 7 – F...farbenblind – M...männlich Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 43 Daten zur Farbenblindheit M a priori Wahrscheinlichkeiten 0,5 W 0,5 Wie verändern sich diese Wahrscheinlichkeiten, gegeben die Person ist farbenblind ? Statistik für SoziologInnen Wahrscheinlichkeitstabelle: F N Gesamt 25 475 500 M W 5 495 500 W 30 970 1000 Gesamt 45 Bedingte Wahrscheinlichkeiten P(B| A ) = P(B ∩ A ) P( A ∩ B) P( A| B) ⋅ P(B) = = P( A ) P( A ) P( A ) P(B| A ) = P(B| A ) = Statistik für SoziologInnen P( A| B) ⋅ P(B) P( A ) P( A| B) ⋅ P(B) P( A| B) ⋅ P(B) + P( A| B' ) ⋅ P(B' ) 47 0,025 0,475 M∩F M∩N 0 005 0,495 0,005 0 495 W∩F M∩N 0,030 0,970 F N 0,500 M 0 500 0,500 W 1,000 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 46 Bedingte Wahrscheinlichkeiten Beispiel: Theorem von Bayes P(M|F) = P(F|M) x P(M) / P(F) P(F) = P(F|M) x P(M) + P(F|W) x P(W) = = 0,05 x 0,5 + 0,01 x 0,5 = 0,03 Satz von der totalen Wahrscheinlichkeit P(M|F) = 0,05 x 0,5 / 0,03 = 5/6 = 0,833 P(W|F) = 1 - P(M|F) = 1 - 5/6 = 1/6 = 0,167 P(M|N) = P(N|M) x P(M) / P(N) = 0,95 x 0,5 / 0,97 = 0,49 P(W|N) = 1- P(M|N) = 0,51 Man beachte den unterschiedlichen Informationsgehalt von F/N in bezug auf M/W Statistik für SoziologInnen 48 © Marcus Hudec © Marcus Hudec Theorem von Bayes N Gesamt P(M|F) = P(M∩F)/P(F) = 25/30 = 0.025/0.03 = 5/6 P(W|F) = P(W∩F)/P(F) = 5/30 = 0.005/0.03 = 1/6 Daraus lassen sich folgende Wahrscheinlichkeiten ableiten: Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 44 Beispiel: Bedingte Wahrscheinlichkeit M Gesamt 1 © Marcus Hudec © Marcus Hudec Fiktive Population von 1000 Personen: F Gesamt Beispiel: Bedingte Wahrscheinlichkeit Beispiel: Theorem von Bayes N...normalsichtig W...weiblich P(F) = P(F|M).P(M) + P(F|W).P(W)= = 0,05*0,5 + 0,01*0,5=0,03 © Marcus Hudec In einer Population mit gleichen Anteilen von Männern und Frauen wurde festgestellt, dass 5% der Männer und 1% der Frauen farbenblind sind. Wie groß ist die Wahrscheinlichkeit, dass eine beliebige Person farbenblind ist? Notation: © Marcus Hudec Beispiel: Totale Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten 8 Zusammenfassung der Daten zur Farbenblindheit a priori Wahrscheinlichkeiten Posterior gegeben Farbenblind Posterior gegeben Normalsichtig M 0,5 0,833 0,49 W 0,5 0,167 0,51 1 1 1 Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 49 Zusammenfassung der Daten a priori Posterior Posterior Wahrscheingegeben gegeben lichkeiten positiver Test negativer Test D+ 0,318 0,640 0,187 D- 0,682 0,360 0,848 1 1 1 Statistik für SoziologInnen 51 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 53 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 50 Bedingte Wahrscheinlichkeiten Beispiel: Mammography Die Daten stammen aus Kerlinowske et al. 1996, JAMA „Likelihood Ratios for Modern Screening Mammography -Risk of Breast Cancer Based on Age and Mammographic Interpretation“ Die Wahrscheinlichkeit, dass eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat hat, beträgt 0,6% (d.h. die Prävalenz = P(D+) = 0,006) Statistik für SoziologInnen 52 Bedingte Wahrscheinlichkeiten Zentrale Frage Eine 55-jährige Frau, ohne einschlägige Symptome, ist dem Rat ihres Arztes gefolgt, im Rahmen der Brustkrebsfrüherkennung jedes Jahr eine Mammografie durchführen zu lassen. Bei einer solchen Untersuchung erhält sie einen positiven Befund. Schockiert über das Ergebnis, fragt sie ihren Arzt: «Heißt H ißt d das, iich hh habe b B Brustkrebs?» tk b ? © Marcus Hudec Wenn eine symptomfreie Frau im Alter von 55 Jahren Brustkrebs hat, dann beträgt die Wahrscheinlichkeit, dass sie einen positiven Mammografie-Befund P(T+) erhält, 94 Prozent. Sensitivität des Tests = 0,94 Wenn eine dieser Frauen jedoch keinen Brustkrebs (D-) hat, dann beträgt die Wahrscheinlichkeit, dass sie dennoch einen positiven Mammografie-Befund erhält nur 7 Prozent. Spezifität des Tests = 0,93 © Marcus Hudec Beispiel P(D+|T+) = P(T+|D+) x P(D+) / P(T+) P(T+) = 39/135 = 0,289 P(T+|D+) = 25/43 =0,581 P(D+) = 43/135 = 0,318 P(D P(D+|T+) |T ) = 0,581 x 0,318 / 0,289 = 0,64 Daten: D+ DTotal T+ 25 14 39 T18 78 96 Total 43 92 135 © Marcus Hudec © Marcus Hudec Beispiel: Theorem von Bayes Beispiel: Theorem von Bayes © Marcus Hudec © Marcus Hudec Beispiel: Theorem von Bayes «Nein, das kann man noch nicht sicher sagen.» «Wie hoch ist die Wahrscheinlichkeit, dass ich tatsächlich Brustkrebs habe?» Statistik für SoziologInnen 54 Bedingte Wahrscheinlichkeiten 9 Diagnostischer Test P(T-|D-) Spezifität P(T+|D+) Sensitivität Posteriore Wahrscheinlichkeit einer Erkrankung __,_% 55 Bedingte Wahrscheinlichkeiten korrekte statistische Angabe kann der Arzt der Patientin geben? Prävalenz = P(D+) = 0,006 Sensitivität des Tests P(T+|D+) = 0,94 Spezifität des Tests bzw. 1-Spez P(T-|D-) = 0,93 bzw. P(T+|D-) = 0,07 P(D+|T+) = ??? Statistik für SoziologInnen 57 56 Bedingte Wahrscheinlichkeiten Theorem von Bayes posteriore Wahrscheinlichkeit Theorem von Bayes Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 58 Bedingte Wahrscheinlichkeiten © Marcus Hudec Wahrscheinlichkeit Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, beträgt 7,5% In einer amerikanischen Studie lagen 95 von 100 befragten Ärzten in ihrer Schätzung zwischen 70% und 80%. 59 Statistik für SoziologInnen P (T + | D + ) ⋅ P ( D + ) P (T + ) P (T + ) = P (T + | D + ) ⋅ P ( D + ) + P (T + | D − ) ⋅ P ( D − ) Sens ⋅ Pr äv P( D + | T +) = Sens ⋅ Pr äv + (1 − Spez ) ⋅ (1 − Pr äv ) Die Statistik für SoziologInnen P(D-|T-) = ??? P( D + | T +) = © Marcus Hudec P(T+) = P(T+|D+)*P(D+) + P(T+|D-)*P(D-)= = 0,94*0,006 + 0,07*0,994 =0,07522 P(D+|T+) = P(T+|D+)*P(D+)/P(T+)= = 0,94*0,006/0,07522=0,07498 Falls Test negativ ist P(D+|T+) = ??? a priori Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten Anwendung des Bayes Theorem Falls Test positiv ist © Marcus Hudec Welche © Marcus Hudec Beispiel Schema der Diagnostik A priori Wahrscheinlichkeit einer Erkrankung (Prävalenz) Ihre Schätzung für die korrekte Wahrscheinlichkeit, dass die Patientin mit einer positiven Mammographie tatsächlich Brustkrebs hat, lautet Statistik für SoziologInnen © Marcus Hudec © Marcus Hudec Beispiel Formulierung in absoluten Zahlen Brustkrebs (D+) Gesund (D-) Summe Test + Test - 100.000 10.000 Summe Statistik für SoziologInnen 60 Bedingte Wahrscheinlichkeiten 10 Brustkrebs (D+) Gesund (D-) Test + Test + Test - Test - Summe Summe 600 99.400 100.000 0,6% <=== Prävalenz Statistik für SoziologInnen Bedingte Wahrscheinlichkeiten 61 Test Summe Brustkrebs (D+) Gesund (D-) 564 6.958 <=== 1 minus Spezifität 600 Test 99.400 Statistik für SoziologInnen 100.000 Summe Bedingte Wahrscheinlichkeiten 63 Test + Test Summe 600 99.400 100.000 Bedingte Wahrscheinlichkeiten 62 Brustkrebs (D+) Gesund (D-) 564 6.958 36 92.442 600 99.400 Statistik für SoziologInnen Summe 93,0% <=== Spezifität 100.000 Bedingte Wahrscheinlichkeiten 64 Formulierung in absoluten Zahlen Brustkrebs (D+) Gesund (D-) Summe Brustkrebs (D+) Gesund (D-) Summe 564 6.958 7.522 564 6.958 7.522 36 92.442 92.478 36 92.442 92.478 600 99.400 100.000 600 99.400 100.000 Test + Test Summe 564/7.522= Statistik für SoziologInnen <=== Sensitivität © Marcus Hudec © Marcus Hudec Formulierung in absoluten Zahlen 94,0% Formulierung in absoluten Zahlen Test + 36 Summe 564 Statistik für SoziologInnen Summe 7,0% Gesund (D-) © Marcus Hudec © Marcus Hudec Formulierung in absoluten Zahlen Test + Formulierung in absoluten Zahlen Brustkrebs (D+) Summe © Marcus Hudec © Marcus Hudec Formulierung in absoluten Zahlen 65 Bedingte Wahrscheinlichkeiten Statistik für SoziologInnen 7,5% 66 Bedingte Wahrscheinlichkeiten 11 Ein ELISA zum Test auf HIV-Antikörper besitze 99.99% Sensitivität und 98% Spezifität. Wir setzen diesen Test nun in zwei Situationen ein. In Population A (“Normalpopulation”) liege die Prävalenz bei 0.01%. Population B („Risiko-Population“) habe eine Prävalenz von 5%. In beiden Fällen wollen wir wissen, wie sicher wir bei einem positiven Test sein können, dass der Proband tatsächlich HIV-positiv ist. 67 P(+|L) = 0,88 P(-|W) = 0,86 P(-|L) = 0,12 P(+|W) = 0,14 P(W) = 0,99 P(L) = 0,01 P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,99+0,88*0,01=0,1474 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,01/0,1474=0,0597 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,99/0,1474=0,9403 P(W|-) = P(-|W)*P(W)/P(-) = 0,86*0,99/0,853=0,998 P(L|-) = 1 - P(W|-) = 0,002 Statistik für SoziologInnen 68 Bedingte Wahrscheinlichkeiten © Marcus Hudec b) Verändern der subjektiven Wahrscheinlichkeit b1) P(W) = 0,50 P(L) = 0,50 - ... Test zeigt an Person lügt nicht W ... Person spricht die Wahrheit a) Routinetest bei Personalselektion Bedingte Wahrscheinlichkeiten Lügendetektoren und das Theorem von Bayes Gastwirth(1978): + ...Test ergibt Person lügt L ... Person lügt in Wirklichkeit Ergebnis bei A: P(D+|T+) =0,5% Ergebnis bei B: P(D+|T+) =72% Statistik für SoziologInnen Lügendetektoren und das Theorem von Bayes © Marcus Hudec © Marcus Hudec Prävalenzabhängigkeit von Tests P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,51 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,5/0,51 = 0,863 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,5/0,51 = 0,137 P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,5/0,49 = 0,122 P(W| ) 1 P(W|-)= 1- P(L|-) P(L| ) = 0,878 0 878 b2) P(W) = 0,20 P(L) = 0,80 P(+) = P(+|W)P(W) + P(+|L)P(L) =0,14*0,5+0,88*0,5=0,732 P(L|+) = P(+|L)P(L)/P(+) = 0,88*0,8/0,732 = 0,96 P(W|+) = P(+|W)*P(W)/P(+) = 0,14*0,2/0,732 = 0,04 P(L|-) = P(-|L)P(L)/P(-) = 0,12*0,8/0,268 = 0,36 P(W|-)= 1- P(L|-) = 0,64 Statistik für SoziologInnen 69 Bedingte Wahrscheinlichkeiten 12