Bedingte Wahrscheinlichkeiten und diagnostische Tests M. Kresken 1 Die bedingte Wahrscheinlichkeit M. Kresken 2 Die bedingte Wahrscheinlichkeit • Beispiel: - Im Rahmen eines Screeningtests zur Erkennung von Tumorpatienten interessiert beispielsweise die Wahrscheinlichkeit für einen tatsächlich erkrankten Probanden (K+) unter den Testpositiven (T+). - Man beachte, dass möglicherweise auch tatsächlich Gesunde (K–) als testpositiv bzw. tatsächlich Kranke als testnegativ (T–) beurteilt werden können. - Für die Berechnung der obigen Wahrscheinlichkeit ist das Ereignis „tatsächlich krank und testpositiv“ zu betrachten, d.h. die Menge aller Probanden, die einen positiven Test haben und krank sind. - Dies ist ein Teilkollektiv der testpositiven Probanden. M. Kresken 3 Die bedingte Wahrscheinlichkeit • Beispiel: - Die Wahrscheinlichkeit für einen tatsächlich Erkrankten unter den Testpositiven lässt sich als Quotient der Wahrscheinlichkeit für gemeinsames Auftreten von Krankheit und positivem Test (K+ T+)* und der Wahrscheinlichkeit für einen positiven Test (T+) berechnen. P(K+ | T+) = P(K+ T+) +) > 0 , falls P(T P(T+) Symbol „A B“ wird verwendet, um das gemeinsame Auftreten der Ereignisse A und B zu beschreiben. *Das M. Kresken 4 Die bedingte Wahrscheinlichkeit • P(K+ | T+) heißt bedingte Wahrscheinlichkeit für die Krankheit K+ unter der Bedingung, dass ein positives Testresultat T+ vorliegt. • Die allgemein übliche Schreibweise P(K+ | T+) trennt dabei die Bedingung von dem gesuchten Ergebnis. • Rechts von dem senkrechten Strich wird die Bedingung (Bezugsmenge) notiert, links das interessierende Ergebnis. • Intuitiv ermittelt man die bedingte Wahrscheinlichkeit für einen tatsächlich Erkrankten unter den Testpositiven, indem man die Zahl der Testpositiven, die gleichzeitig erkrankt sind, auf die Gesamtzahl der Testpositiven bezieht. M. Kresken 5 Die bedingte Wahrscheinlichkeit (Definition Wikipedia) • Bedingte Wahrscheinlichkeit (auch konditionale Wahrscheinlichkeit) ist die Wahrscheinlichkeit des Eintretens eines Ereignisses A unter der Bedingung, dass ein Ereignis B eintreten wird bzw. bereits eingetreten ist. • Es wird geschrieben als P(A | B), der senkrechte Strich ist als „unter der Voraussetzung“ zu lesen und wie folgt zu verstehen: Wenn das Ereignis B eingetreten ist, ist die Wahrscheinlichkeit für das Ereignis A gegeben durch P(A | B), es handelt sich also nicht um eine (logische) Bedingung für A. M. Kresken 6 Die bedingte Wahrscheinlichkeit Im folgenden werden die Eigenschaften der bedingten Wahrscheinlichkeit an Hand einiger Spezialfälle diskutiert: 1. Im Fall, dass alle Testpositiven zugleich krank sind, ist die Menge (K+ T+) gleich der Menge aller Testpositiven. In diesem Fall gilt, dass die bedingte Wahrscheinlichkeit für Krankheit unter den Testpositiven gleich 1 ist. M. Kresken 7 Die bedingte Wahrscheinlichkeit 2. Würde man an Stelle eines diagnostischen Tests eine Münze werfen, so wäre das Testergebnis sicher unabhängig vom Auftreten der Krankheit. In diesem Fall wäre die bedingte Wahrscheinlichkeit P(K+ | T+) = P(K+), da auf Grund des Multiplikationssatzes die Wahrscheinlichkeit P(K+ T+) für das gemeinsame Auftreten von Krankheit und positivem Test gleich dem Produkt der Wahrscheinlichkeit für positiven Test P(T+) und Krankheit P(K+) ist, P(K+ T+) = P(K+) • P(T+). M. Kresken 8 Die bedingte Wahrscheinlichkeit 3. Für das Verständnis der nächsten Eigenschaft ist zu beachten, dass die Ereignisse K+ und K– sich gegenseitig ausschließen. Addiert man nun die bedingten Wahrscheinlichkeiten für die Ereignisse „krank“ zu sein unter den Testpositiven (P(K+ | T+) und „nicht krank“ zu sein unter den Testpositiven (P(K– | T+), so ergibt sich nach dem Additionssatz*: P(K+ | T+) + P(K– | T+) = P(K+ K– | T+) = P(S+ | T+) = 1 Dabei ist zu beachten, dass alle Testpositiven durch die Ereignisse K+ | T+ und K– | T+ erfasst werden, so dass P(S+ | T+) = 1 ist (S bezeichnet das sichere Ergebnis). Symbol „A B“ wird verwendet, um das Auftreten der Ereignisses A oder B zu beschreiben. *Das M. Kresken 9 Die bedingte Wahrscheinlichkeit Insgesamt resultiert eine häufig verwendete Eigenschaft der bedingten Wahrscheinlichkeit P(K+ | T+) = 1 - P(K– | T+) 4. Die vorangegangene Eigenschaft und die Definition der bedingten Wahrscheinlichkeit können benutzt werden, um den so genannten Satz von Bayes herzuleiten. M. Kresken 10 Satz von Bayes Angenommen, man kennt die Testcharakteristika derart, dass die Wahrscheinlichkeit für einen Testpositiven unter den Erkrankten P(T+ | K+), die Wahrscheinlichkeit für einen Testnegativen unter den Gesunden P(T– | K–) sowie die Wahrscheinlichkeit für einen Erkrankten in der Grundgesamtheit P(K+) bekannt sind. Dann lässt sich die Wahrscheinlichkeit für einen Erkrankten unter den Testpersonen P(K+ | T+) wie folgt berechnen: P(K+ | T+) = M. Kresken P(K+) • P(T+ | K+) P(K+) • P(T+ | K+) + (1 - P(K+)) • (1 - P(T– | K–)) 11 Satz von Bayes M. Kresken 12 Diagnostische Tests • Von spezieller Bedeutung sind bedingte Wahrscheinlichkeiten bei der Bewertung und Konstruktion von diagnostischen Testverfahren. • Man beachte, dass bei der Diagnosestellung (Vorhersage der Realität) die Möglichkeit besteht, dass der Test positiv ausfällt, obwohl die Krankheit nicht vorliegt (falsch-positiv) oder der Test negativ ausfällt, obwohl die Krankheit vorliegt (falsch-negativ). • Im Rahmen der Bewertung der Eigenschaften eines diagnostischen Tests gilt es nun unter anderen Aspekten die Wahrscheinlichkeit für solche Fehlentscheidungen zu quantifizieren. M. Kresken 13 Entscheidungsschema eines diagnostischen Tests Testentscheidung lautet: Realität krank gesund positiv (krank) richtige Entscheidung falsche Entscheidung falsch-positiv „Fehler 1. Art“ negativ (gesund) falsche Entscheidung falsch-negativ „Fehler 2. Art“ M. Kresken richtige Entscheidung 14 Diagnostische Tests • In der vorangegangenen Tabelle sind die Testergebnisse den „realen“ Zuständen des Patienten gegenübergestellt. Dabei sei erwähnt dass der reale Zustand des Patienten (Realität), also das Vorliegen der Erkrankung oder Nicht-Erkrankung, in der praktischen Anwendung häufig nicht ermittelt werden kann. • In solchen Fällen ist man darauf angewiesen, den Zustand der Erkrankung durch ein etabliertes Testverfahren zu ermitteln. Solch ein Testverfahren sollte sich in der Routine langjährig bewährt haben und wird Gold-Standard genannt. • Im Rahmen diagnostischer Studien liegen im allgemeinen Testergebnisse von n Individuen vor, wobei darüber hinaus angenommen wird, dass in allen Fällen die Diagnose durch ein „Außenkriterium“ gesichert werden konnte. M. Kresken 15 Beobachtete Häufigkeiten eines diagnostischen Tests Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 16 Prävalenz • Prävalenz heißt die Wahrscheinlichkeit für eine bestimmte Krankheit in der Grundgesamtheit. Sie wird grob geschätzt durch: P(K+) M. Kresken = Zahl der Erkrankten (an einer bestimmten Krankheit) Gesamtheit der Bevölkerung 17 Prävalenz Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 18 Prävalenz Realität Test gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d P(K+) = a+c n Da die Prävalenz offensichtlich unabhängig vom Test ist, wird sie auch als a-priori Wahrscheinlichkeit oder PrätestWahrscheinlichkeit bezeichnet. M. Kresken 19 Sensitivität • Sensitivität (eines Tests) heißt die (bedingte) Wahrscheinlichkeit für einen positiven Test unter den tatsächlich Kranken. Sie wird geschätzt durch: Zahl der Erkrankten mit positivem Test P(T+ | K+) = Gesamtzahl der Erkrankten M. Kresken 20 Sensitivität Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 21 Sensitivität Realität Test gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d P(T+ | K+) = a a+c Die Sensitivität lässt sich als Empfindlichkeit des Testverfahrens verstehen, da sie die Wahrscheinlichkeit für die richtige Entscheidung unter den Kranken angibt. Ist die Sensitivität des Tests hoch, so wird der Test kaum Kranke übersehen. M. Kresken 22 Spezifität • Spezifität (eines Tests) heißt die (bedingte) Wahrscheinlichkeit für einen negativen Test unter den tatsächlich Gesunden. Sie wird geschätzt durch: P(T– | K–) = Zahl der Gesunden mit negativem Test Gesamtzahl der Gesunden M. Kresken 23 Spezifität Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 24 Spezifität Realität Test gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d P(T– | K–) = d b+d Die Spezifität reflektiert die Treffsicherheit des Testverfahrens insofern, als sie die Wahrscheinlichkeit für die richtige Entscheidung unter den Gesunden quantifiziert. Ein spezifischer Test wird Gesunde kaum als krank fehlklassifizieren. M. Kresken 25 Positiver Vorhersagewert • Der positive Vorhersagewert oder prädiktive Wert des positiven Testresultats gibt die (bedingte) Wahrscheinlichkeit an, krank zu sein, falls ein positives Ergebnis vorliegt. Es wird geschätzt durch: Zahl der Erkankten mit positivem Test P(K+ | T+ ) = Gesamtzahl der testpositiven Fälle M. Kresken 26 Positiver Vorhersagewert Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 27 Positiver Vorhersagewert Realität Test gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d P(K+ | T+) = a a+b Da der positive Vorhersagewert die diagnostische Fähigkeit eines positiven Testergebnisses widerspiegelt, wird er zuweilen auch als a-posteriori Wahrscheinlichkeit für Krankheit bezeichnet. M. Kresken 28 Positiver Vorhersagewert • Sind Prävalenz, Sensitivität und Spezifität eines Testverfahrens bekannt, so lässt sich der prädiktive Wert des positiven Testresultats mittels des Satzes von Bayes berechnen: P(T+ | K+) • P(K+) P(K+ | T+) = P(T+ | K+) • P(K+) + P(T+ | K–) • P(K–) Sensitivität • Prävalenz = Sensitivität • Prävalenz + (1 – Spezifität) • (1 – Prävalenz) An Hand dieses Zusammenhangs lässt sich erkennen, dass der positive Vorhersagewert bei zunehmender Prävalenz steigt. Dieser mathematische Zusammenhang bedingt, dass bei der Anwendung eines diagnostischen Tests in einem Risikokollektiv höhere positive Vorhersagewerte zu erreichen sind. M. Kresken 29 Negativer Vorhersagewert • Der negative Vorhersagewert oder prädiktive Wert des negativen Testresultats gibt die (bedingte) Wahrscheinlichkeit an, gesund zu sein, falls ein negatives Ergebnis vorliegt. Es wird geschätzt durch: P(K– | T–) Zahl der Gesunden mit negativem Test = Gesamtzahl der testnegativen Fälle M. Kresken 30 Negativer Vorhersagewert Test Realität gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d M. Kresken 31 Negativer Vorhersagewert Realität Test gesamt [K+] [K–] [T+] a b a+b [T–] c d c+d Gesamt a+c b+d n=a+b+c+d P(K– | T–) = M. Kresken d c+d 32 Negativer Vorhersagewert • Auch der prädiktive Wert für ein negatives Testresultat lässt sich aus der Prävalenz, Sensitivität und Spezifität mittels des Satzes von Bayes berechnen: P(K– | T–) Spezifität • (1 – Prävalenz) = Spezifität • (1 – Prävalenz) + (1 – Sensitivität) • Prävalenz Für den Zusammenhang zwischen dem negativen Vorhersagewert und der Prävalenz gilt, dass der Vorhersagewert sinkt, wenn die Prävalenz steigt . M. Kresken 33 Beispiel: Bewertung eines (Screening)Tests zur Diagnosestellung HIV • Nach Modellrechnungen betrug vor einigen Jahren die Prävalenz von HIV-Infizierten unter den heterosexuellen Bundesbürgern 0,1%. Für Screening-Untersuchungen steht ein HIV-Test mit einer Sensitivität von 0,98 und einer Spezifität von 0,99 zur Verfügung. • Modellrechnung mit 1.000.000 heterosexueller Bundesbürger M. Kresken 34 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 35 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Prävalenz HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 36 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Prävalenz HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 P(HIV+) = M. Kresken a+c 1.000 = = 0,001 n 1.000.000 37 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Sensitivität HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 38 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Sensitivität HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 P(T+ | HIV+) = M. Kresken a 980 = = 0,98 a+c 1.000 39 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Spezifität HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 40 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Spezifität HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 P(T– | HIV–) = M. Kresken d b+d = 989.010 999.000 = 0,99 41 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Vorhersagewert für das positive Testergebnis (HIV+) HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 42 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Vorhersagewert für das positive Testergebnis (HIV+) HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 P(HIV+ | T+) = M. Kresken a a+b = 980 10.970 = 0,089 43 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Vorhersagewert für das negative Testergebnis (HIV–) HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 M. Kresken 44 Erwartete Häufigkeiten der Diagnose HIV in Abhängigkeit vom Vorliegen der Erkrankung auf der Basis einer Stichprobe von 1.000.000 heterosexuellen Bundesbürgern Vorhersagewert für das negative Testergebnis (HIV–) HIV-positiv Test ja [HIV+] nein [HIV–] gesamt positiv [T+] 980 9.990 10.970 negativ [T–] 20 989.010 989.030 Gesamt 1.000 999.000 1.000.000 P(HIV– | T–) = M. Kresken d c+d = 989.010 989.030 = 0,999 45 Beispiel: Bewertung eines (Screening)Tests zur Diagnosestellung HIV - Vorhersagewert für das positive Testergebnis (HIV+) Berechnung der Prävalenz mit dem Satz von Bayes: P(T+ | HIV+) • P(HIV+) P(HIV+ | T+) = P(T+ | HIV+) • P(HIV+) + P(T+ | HIV–) • P(HIV–) Sensitivität • Prävalenz = Sensitivität • Prävalenz + (1 – Spezifität) • (1 – Prävalenz) 0,98 • 0,001 = 0,98 • 0,001 + (1 – 0,99) • (1 – 0,001) 0,00098 = M. Kresken 0,00098 + 0,01 • 0,999 0,000980 = = 0,0893 0,00098 + 0,00999 46 Beispiel: Bewertung eines (Screening)Tests zur Diagnosestellung HIV - Vorhersagewert für das positive Testergebnis (HIV+) Wie hoch ist bei gleicher Sensitivität und Spezifiztät dieser Vorhersagewert, wenn der Test für die Screening-Untersuchung der Heterosexuellen eines zentralafrikanischen Endemiegebietes bei einer geschätzten Prävalenz von 30%? Sensitivität • Prävalenz = Sensitivität • Prävalenz + (1 – Spezifität) • (1 – Prävalenz) 0,98 • 0,3 = 0,98 • 0,3 + (1 – 0,99) • (1 – 0,3) 0,294 = M. Kresken 0,294 + 0,01 • 0,7 0,294 = = 0,9767 0,294 + 0,007 47