Methoden der KI in der Biomedizin Unsicheres Schließen Karl D. Fritscher Motivation Insofern sich die Gesetze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher. Und insofern sie sich sicher sind, beziehen sie sich nicht auf die Wirklichkeit. Albert Einstein Motivation • Formulierungen/Regeln mit Hilfe der klassischen Prädikatenlogik sind für reale Probleme oft unzureichend: ∀ p Symptom(p, Zahnschmerzen) ⇒ Krankheit(p, Loch) Diese Aussage ist aber nicht immer richtig: nicht alle Patienten mit Zahnschmerzen haben Löcher. Manche Patienten haben Zahnfleischprobleme oder einen Abszess oder eines von mehreren anderen Problemen Um diese Aussage wahr zu machen müsste man eine nahezu unbegrenzte Liste möglicher Ursachen einfügen. Umkehrung: ∀ p Krankheit(p, Loch) ⇒ Symptom(p, Zahnschmerzen) Ebenfalls unrichtig, weil nicht alle Löcher Zahnschmerzen verursachen. Repräsentation von Unsicherheit in logischen Aussagen Lösung Fuzzy Logic ?? Fuzzy-Logik ● ● ● Die Unschärfe ist eine Form der Ungenauigkeit bei der Abbildung bzw. Wiedergabe eines Sachverhalts. Repräsentation und Verarbeitung von ungenauen Daten („fuzzy“) Beschäftigt sich mit Wahrheitsgraden Probabilistisches Schließen ● ● ● Die Wahrscheinlichkeit ist eine Einstufung von Aussagen und Urteilen nach dem Grad der Gewissheit. Repräsentation und Verarbeitung von Unsicherheit Beschäftigt sich mit Glaubensgraden Ursachen für Unsicherheit • Faulheit: Es macht zu viel Arbeit, die vollständige Menge an Antezendenzen oder Konsequenzen aufzulisten • Theoretisches Unwissen: Viele Dinge sind auch theoretisch unbekannt (zB Medizin) • Praktisches Unwissen: Selbst wenn alle Regeln bekannt sind, kann man z.B. bei einem Patienten immer noch bzgl. einer Diagnose unsicher sein, weil nicht alle erforderlichen Tests ausgeführt wurden oder ausgeführt werden konnten. Woher kommen Wahrscheinlichkeiten? Verschiedene Standpuntke: Frequentisten: Zahlen können nur aus Experimenten stammen: Wenn von 100 Menschen 1 Mensch ein Loch im Zahn hat, beträgt die Wahrscheinlichkeit für das Auftreten 0.1 0.1 ist der Bruchteil der im Rahmen von unendlich vielen Stichproben beobachtet wird Objektivisten: Wahrscheinlichkeiten sind reale Aspekte des Universums, Tendenzen von Objekten sich auf eine bestimmte Weise zu verhalten und nicht nur Beschreibung des Glaubensgrades eines Beobachters Die Maße des Frequentisten sind Versuche diese Tendenzen zu beobachten (Quantenphänomene ?) Woher kommen Wahrscheinlichkeiten? Subjektivisten: Beschreiben Wahrscheinlichkeiten als Möglichkeit, den Glauben (an eine Sache) ohne physische Bedeutung zu charakterisieren („Ich sehe ein 90% Chance das BMI Studium innerhalb der nächsten X Jahre erfolgreich abzuschliessen“) Letztendlich beinhaltet auch eine streng frequentistische Position eine subjektive Analyse. Das wir im Referenzklassenproblem deutlich: Damit ein frequentistischer Arzt Wahrscheinlichkeiten ermitteln kann, muss er eine bestimmte Anzahl von Patienten beobachten, die relevante Ähnlichkeiten aufweisen. Was aber sind relevante Ähnlichkeiten?? Grundlagen diskreter Wahrscheinlichkeitstheorie • Zufallsvariable: verweist auf einen Teil der Welt, dessen Zustand anfänglich unbekannt ist • Domäne: Werte, welche ein Zufallsvariable annehmen kann Boolsche Zufallsvariable: Domäne 〈true,false〉 (zB Zahnschmerz) Diskrete Zufallsvariable: übernehmen Werte aus einer abzählbaren Domäne (z.B. Wetter 〈wolkenlos, regnerisch, wolkig, schneefall〉, Würfel). Werte in der Domäne müssen sich gegenseitig ausschließen. Stetige Zufallsvariablen: nehmen als Werte reelle Zahlen an z.B. Temperatur [-20,40] Grundlagen diskreter Wahrscheinlichkeitstheorie • Atomare Ereignisse: vollständige Spezifikation des Zustands der Welt, über den ein Agent unsicher ist. Besteht meine Welt z.B. nur aus den boolschen Variablen Loch und Zahnschmerzen, dann gibt es nur 4 versch. atomare Ereignisse. Ein solches Ereignis wäre z.B. „Loch = false ⋀ Zahnschmerzen = true“ Eigenschaften atomarer Ereignisse: 1. Atom. Ereignisse schließen sich gegenseitig aus 2. Die Menge aller atomarer Ereignisse ist erschöpfend und es muss mindestens eines der Fall sein (d.h. die Disjunktion aller atomaren Ereignisse ist logisch äquivalent mit true) 3. Aus jedem atomaren Ereignis folgt logisch die Wahrheit oder Falschheit jeder Aussage, ob einfach oder komplex. (zB hat das atomare Ereignis Loch ⋀ ⌝ Zahnschmerzen die Wahrheit von Loch und Falschheit von Loch ⇒ Zahnschmerzen als logische Konsequenz) Grundlagen diskreter Wahrscheinlichkeitstheorie 4. Jede Aussage ist logisch äquivalent mit der Disjunktion aller atomaren Ereignisse, aus denen die Wahrheit der Aussage logisch folgt (z.B. die Aussage Loch ist äquivalent mit der Disjunktion der atomaren Ereignisse Loch ⋀ Zahnschmerzen und Loch ⋀ ⌝Zahnschmerzen ) Unbedingte Wahrscheinlichkeit • Die unbedingte (=a-priori) Wahrscheinlichkeit , die einer Aussage a zugeordnet ist, ist der Glaubensgrad, der Ihr bei Fehlen einer anderen Information zugeordnet wird; sie wird als P(a) geschrieben. Anstatt von P(Wetter=sonnig) = 0.7, P(Wetter=regnerisch) = 0.02 P(Wetter=wolkig) = 0.2, P(Wetter=schneefall) = 0.08 wird P(Wetter)= (0.7, 0.2, 0.02, 0.08) geschrieben. Diese Aussage definiert die unbedingte Wahrscheinlichkeitsverteilung für die Zufallsvariable Wetter. • Für Ausdrücke wie P(Wetter, Loch) wird eine 4 x 2 Tabelle zur Repräsentation der gemeinsamen Wahrscheinlichkeitsverteilung von Wetter und Loch benutzt. Unbedingte Wahrscheinlichkeit • Für stetige Zufallsvariablen wir die Wahrscheinlichkeit, dass die Variable den Wert x annimmt, als parametrisierte Funktion von x dargestellt: P(X=x) = U[18,26](x) Die Maximaltemperatur für den nächsten Tag ist gleichmäßig zwischen 18 und 26 Grad verteilt. • Wahrscheinlichkeitsverteilungen für stetige Variablen werden als probabilistische Dichtefunktionen (=Wahrscheinlichkeitsdichtefunktion) bezeichnet. Dichtefunktionen unterscheiden sich in Ihrer Bedeutung von diskreten Verteilungen: Die Dichtefunktion f(x) ist die erste Ableitung der Verteilungsfunktion, falls diese an der Stelle x differenzierbar ist. Bedingte Wahrscheinlichkeit • Die bedingte (a-posteriori) Wahrscheinlichkeit von X=x, bei bekanntem Y=y ist: Für Verteilungen: Bayes Regel: Kettenregel: Bedingte Wahrscheinlichkeit • Bedingte Wahrscheinlichkeiten sind nicht einfach logische Implikationen mit zusätzlicher Unsicherheit: P(loch | zahnschmerzen) = 0.8 sagt nur etwas über die Wahrscheinlichkeit eines Loches aus, wenn „zahnschmerzen“ der einzig vorhandene Hinweis ist. • Zusätzliche Information kann die Wahrscheinlichkeit für ein Loch erhöhen: P(loch | zahnschmerzen, loch) = 1 vermindern : P(loch | zahnschmerzen, zahnfleischprobleme) = 0.1 irrelevante Information: P(loch | zahnschmerzen, regen) =0.8 Marginalisierung Gemeinsame Verteilung von (Wetter, Loch): Randwahrscheinlichkeit(=Marginale Wahrscheinlichkeit) von P(wetter=regnerisch) = P(Wetter=regnerisch ⋀ loch) + P(Wetter=regnerisch ⋀ ⌝ loch) Marginalisierung allgemein: Statistische Unabhängigkeit von Variablen X und Y sind genau dann statistisch unabhängig wenn gilt: Unabhängigkeit führt zur Verkleinerung der Tabelle zur Repräsentation der gemeinsamen Wahrscheinlichkeitsverteilung: • Mit Wetter gleich 〈sonnig, wolkig, regnerisch, schneefall〉, hat die Tabelle zur Darstellung der gemeinsamen Wahrscheinlichkeitsverteilung von (Wetter, Zahnschmerzen, Verfangen, Loch), 4 x 2 x 2 x 2 = 32 Einträge Statistische Unabhängigkeit von Variablen • Mit dem Wissen, dass das Wetter unabhängig vom Rest der Variablen ist, kann die Kettenregel verwendet werden um die gemeinsame Wahrscheinlichkeitsverteilung auf P(Wetter, Zahnschmerzen, Verfangen, Loch) = P(Wetter) P(Zahnschmerz, Verfangen, Loch) zu reduzieren und bekommt so 2 Tabellen mit 4 bzw. 8 Einträgen, anstatt von einer Tabelle mit 32 Einträgen Bedingte Unabhängigkeit von Variablen • Bedingte Unabhängigkeit: (Zwei) nicht von einander unabhängige Variablen können durch Vorwissen unabhängig werden • Beispiel: Wahrscheinlichkeit P(Erkältung | Schnupfen, Husten) • Einfach bei Vorliegen einer vollständigen, gemeinsamen Wahrscheinlichkeitsverteilung (was für eine große Anzahl an Variablen jedoch ungeeignet bzw. unrealistisch ist) • Verwendung der Bayes Regel: P(Erkältung | Schnupfen, Husten) = α P(Husten, Schnupfen| Erkältung) P(Erkältung) Bei genauerer Überlegung, merkt man, dass Schnupfen und Heiserkeit nicht voneinander unabhängig sind, aber unabhängig werden, wenn man weiß, ob eine Erkältung vorliegt oder nicht! Bedingte Unabhängigkeit von Variablen • X und Y sind bei bekanntem Z bedingt unabhängig wenn gilt: P(X,Y | Z) = P(X|Z) ⇔ P(Y,Z | Z) P(Y|Z) ⇔ P(X,Y | Z) = P(X|Z) P(Y|Z) • Husten und Schnupfen sind also bei bekannter Erkältung bedingt unabhängig: P(Schnupfen, Husten |Erkältung) = P(Husten| Erkältung) P(Schnupfen | Erkältung) • Daraus ergibt sich: P(Erkältung | Schnupfen, Husten) = α P(Husten, Schnupfen | Erkältung) P(Erkältung)= α P(Husten | Erkältung) P(Schnupfen | Erkältung) P(Erkältung) Bedingte Unabhängigkeit von Variablen P(Erkältung | Schnupfen, Husten) = α P(Husten, Schnupfen | Erkältung) P(Erkältung)= α P(Husten | Erkältung) P(Schnupfen | Erkältung) P(Erkältung) • Durch Anwendung der Bayes Regel wird eine diagnostische Schlussfolgerung (Symptome Ursache) in kausalen Schlussfolgerungen (Ursache Symptome) transformiert, welche im allgemeinen robuster sind: Die kausale Information P(Husten, Schnupfen | Erkältung) ist unabhängig von der Prävalenz der Erkrankung. Die Prävalenz der Erkrankung wird aber durch Miteinbeziehen von P (Erkältung) für die Schlussfolgerung P(Erkältung | Schnupfen, Husten) sehr wohl berücksichtigt. Vorteile der bedingten Unabhängigkeit ?? • Die Größe der Repräsentation für n Symptome, welche alle bedingt unabhängig sind, wächst linear anstatt exponentiell Naive Bayes Modelle • Wahrscheinlichkeitsverteilungen der Form P(Ursache, Effekt 1 , , Effekt n ) P Ursache P(Effekt i | Ursache) i unter Annahme bedingter Unabhängigkeit werden häufig auch dann verwendet, wenn die „Effekt“-Variablen bei gegebener „Ursache“Variable nicht bedingt unabhängig sind ( naiv ). • In der Praxis funktionieren diese „naiven“ Bayes-Schemata jedoch außerordentlich gut, selbst wenn die Unabhängigkeitsannahme nicht wahr ist. Zusammenfassung • Vollständige gemeinsame Verteilungsfunktionen enthalten vollständige Informationen über die Wahrscheinlichkeiten aller Kombinationen einer Menge von Zufallsvariablen • Miteinbeziehen von zusätzlichem Wissen führt zu bedingten Wahrscheinlichkeiten • Bayes Regel wird benutzt um diagnostische Schlussfolgerungen mittels kausalem Wissen zu tätigen • Unabhängigkeit und bedingte Unabhängigkeit erlauben eine vereinfachte Repräsentation gemeinsamer Verteilungsfunktionen • Naive Bayes Modelle setzen die bedingte Unabhängigkeit der „Effekt“Variablen bei gegebener Ursache voraus