Grundlagen der KI 14. Verarbeitung unsicheren Wissens Wahrscheinlichkeitstheorie, Bayessche Netze, andere Ans ätze Michael Beetz 353 Viele Abbildungen sind dem Buch “Artificial Intelligence: A Modern Approach” entnommen. Viele Folien beruhen auf Vorlagen von Prof. Bernhard Nebel, Dr. Jana Köhler (Universität Freiburg) und Prof. Gerhard Lakemeyer, (RWTH Aachen). 354 Inhalt Motivation Grundlagen der Wahrscheinlichkeitstheorie Probabilistische Inferenzen bayessche Netze Alternative Ansätze 355 Motivation In vielen Fällen ist unser Wissen über die Welt unvollständig (nicht genug Information) oder unsicher (Sensoren sind unzuverlässig). Oft sind Gesetzmäßigkeiten nur unvollständig bekannt oder sogar inkorrekt – z.B. das Qualifikationsproblem: was sind die Vorbedingungen einer Aktion? Wir müssen trotzdem agieren! Schließen unter Unsicherheit Nicht-monotones Schließen Schließen über Eintrittswahrscheinlichkeiten und Kosten/Nutzen 356 Beispiel Ziel: Um 9:15 Uhr in München sein, um eine Vorlesung zu halten. Es gibt mehrere Pläne, um das Ziel zu erreichen: – – : 7:00 aufstehen, 8:15 den Bus nehmen, 8:30 den Zug . . . : 6:00 aufstehen, 7:15 den Bus nehmen, 7:30 den Zug . . . – ... Alle Pläne sind korrekt, aber sie implizieren verschiedene Kosten und verschiedene Wahrscheinlichkeiten, das Ziel tatsächlich zu erreichen. wäre der Plan der Wahl, da Vorlesungen halten (verglichen mit z.B. Gremiensitzungen) sehr wichtig ist, und die Erfolgsrate bei nur bei ca. 90–95% liegt. 357 Unsicherheiten bei Regeln (1) Beispiel: Diagnose-Expertensystem für Zahnärzte. Diese Regel ist inkorrekt! Besser: . . . aber wir kennen gar nicht alle Ursachen Vielleicht besser die kausale Regel? Auch nicht korrekt! 358 Unsicherheiten bei Regeln (2) Probleme mit der Logik: Wir können nicht alle möglichen Ursachen aufzählen, und selbst wenn . . . Wir kennen nicht die Gesetzmäßigkeiten (in der Medizin) . . . und selbst wenn, bleibt Unsicherheit über den Patienten bestehen (Karies und Zahnschmerzen zufällig gleichzeitig, nicht alle Untersuchungen) ohne perfektes Wissen keine korrekten logischen Regeln! 359 Unsicherheit bei Fakten Nehmen wir an, wir wollten die Lokalisation eines Roboters durch (unveränderliche) Landmarken unterstützen. Aus dem Vorhandensein von Landmarken können wir auf den Raum schließen. Problem: Sensoren kann sind ungenau. Aus der Tatsache, dass eine Landmarke erkannt wurde, kann man nicht mit Sicherheit schließen, dass der Roboter sich in dem entsprechenden Raum befindet. Gleiches gilt, falls eine Landmarke nicht wahrgenommen wird. Es wird lediglich die Wahrscheinlichkeit erhöht oder erniedrigt. 360 Grade der Überzeugung und Wahrscheinlichkeitstheorie (1) Wir (oder andere Agenten) sind von Regeln und Fakten nur bis zu einem gewissen Grad überzeugt (subjektive Wahrscheinlichkeit). Eine Möglichkeit, den Grad der Überzeugung auszudrücken ist, Wahrscheinlichkeiten zu benutzen. Der Agent ist von der Sensorinformation zu überzeugt Fällen ist die Information richtig (glaubt der Agent). in 9 von 10 Wahrscheinlichkeiten fassen die Unsicherheit“ bedingt durch Unwissen ” zusammen. Wahrscheinlichkeiten sind nicht mit Vagheit zu verwechseln. Das Pr ädikat groß ist vage; die Aussage ein Mann hat eine Größe von 1.75–1.85m“ ist ” unsicher. 361 Rationale Entscheidungen unter Unsicherheit Wir haben verschiedene Aktionen (oder Pläne) zur Auswahl Diese können zu verschiedenen Ergebnissen führen mit verschiedenen Wahrscheinlichkeiten Die Aktionen verursachen verschiedene (subjektive) Kosten Die Ergebnisse haben verschiedenen (subjektiven) Nutzen Rational wäre es, die Aktion zu wählen, die den größten zu erwartenden Gesamtnutzen hat! Entscheidungstheorie = Nutzentheorie + Wahrscheinlichkeitstheorie 362 Entscheidungstheoretischer Agent function DT-AGENT( percept) returns an action static: a set probabilistic beliefs about the state of the world calculate updated probabilities for current state based on available evidence including current percept and previous action calculate outcome probabilities for actions, given action descriptions and probabilities of current states select action with highest expected utility given probabilities of outcomes and utility information return action Entscheidungstheorie: Ein Agent ist rational genau dann, wenn er die Aktion wählt, die den größten erwarteten Nutzen gemittelt über alle möglichen Ergebnisse von Aktionen hat. 363 Numerische Masse für den Grad der Überzeugung Der Grad der Überzeugung bzgl. einer Aussage kann durch eine Zahl zwischen 0 und 1 gemessen werden — das ist die Wahrscheinlichkeit von – Die Wahrscheinlichkeit von Aussage ist definitiv falsch. = 0 bedeutet: der Agent glaubt die – Die Wahrscheinlichkeit von Aussage ist definitiv richtig. = 1 bedeutet: der Agent glaubt die hat eine Wahrscheinlichkeit zwischen 0 und 1 bedeutet nicht dass zu einem gewissen Grad wahr ist sondern dass der Agent den Wahrheitswert von 364 nicht kennt! Zufallsvariablen Eine Zufallsvariable ist ein Term in einer Sprache, der verschiedene Werte annehmen kann. . den Wert bedeutet dass die Zufallsvariable Eine Zuweisung ist eine komplexe Ein Tupel von Zufallsvariablen Zufallsvariable mit dem Wertebereich , ist die Menge Der Wertebereich einer Variablen , geschrieben von Werten, die annehmen kann. hat. Eine Proposition ist eine boolesche Formel, die aus Wertebelegungen von Zufallsvariablen besteht. 365 Mögliche Welten Semantik Eine mögliche Welt spezifiziert eine Wertebelegung für jede Zufallsvariable. hat in der Welt den Wert . Logische Operatoren haben ihre Standardbedeutungen: if or if – – and if – 366 bedeutet die Variable Semantik von Wahrscheinlichkeiten Für eine endliche Anzahl von Zufallsvariablen mit endlichen Wertebereichen: für jede Welt sodass sich – Definiere ein nichtnegatives Mass die Wahrscheinlichkeiten der möglichen Welten zu 1 summieren. Dieses Mass repräsentiert den Grad der Überzeugung des Agenten dass der realen Welt entspricht Die Wahrscheinlichkeit einer Proposition ist definiert durch: 367 Unbedingte Wahrscheinlichkeiten (1) bezeichnet die unbedingte oder a priori Wahrscheinlichkeit, dass eintreten wird im Fall, dass keine zusätzliche Information verfügbar ist, z.B. Cavity ist eine Proposition. A priori Wahrscheinlichkeiten gewinnt man durch statistische Analyse oder aus allgemeinen Regeln. 368 Unbedingte Wahrscheinlichkeiten (2) Im allgemeinen kann eine Zufallsvariable nicht nur die Werte wahr und falsch sondern mehrere Werte annehmen: Sunny Weather Rain Weather Cloudy Weather Snow Weather TRUE Headache Propositionen können auch Gleichungen über Zufallsvariablen enthalten. Logische Konnektoren können zur Bildung von Propositionen verwendet Insured . werden, z.B. Cavity 369 Unbedingte Wahrscheinlichkeiten (3) bezeichnet den Vektor der Wahrscheinlichkeiten für den (geordneten) Wertebereich der Zufallsvariable : Weather Headache definieren die Wahrscheinlichkeitsverteilung der Zufallsvariablen Headache und Weather. Headache Weather ist eine Tabelle von Wahrscheinlichkeiten aller Kombinationen der Werte einer Zufallsvariablen. Headache = TRUE Weather = Snow 370 Headache Weather = Cloudy Sunny Weather = Rain Headache Sunny Weather = Sunny Headache = FALSE Bedingte Wahrscheinlichkeiten (1) Neue Information kann die Wahrscheinlichkeit ändern. Beispiel: Die Wahrscheinlichkeit von Zahnlöchern erhöht sich, wenn man weiß, dass der Patient von Zahnschmerzen hat. Liegt Zusatzinformation vor, darf nicht mehr mit a priori Wahrscheinlichkeiten gerechnet werden! bezeichnet die bedingte oder a posteriori Wahrscheinlichkeit von gegeben die alleinige Beobachtung (die Evidenz) : Cavity Toothache ist die Tabelle aller bedingter Wahrscheinlichkeiten über alle Werte von und . 371 Bedingte Wahrscheinlichkeiten (2) Weather Headache ist eine Tabelle von bedingten Wahrscheinlichkeiten aller Kombinationen der Werte einer Zufallsvariablen. Headache = TRUE Sunny Weather = Cloudy Weather = Snow Bedingte Wahrscheinlichkeiten ergeben sich aus unbedingten ) (per Definition): Wahrscheinlichkeiten (falls 372 Headache Weather = Rain Sunny Headache Weather = Sunny Headache = FALSE Bedingte Wahrscheinlichkeiten (3) entspricht einem Gleichungssystem: Sunny Headache Headache Headache Sunny Headache Snow Rain Headache Headache Rain Headache 373 Headache Headache .. . Snow .. . Bedingte Wahrscheinlichkeiten (4) B Produktregel: A Analog: 374 und heißen unabhängig voneinander, falls . Dann (und nur dann) gilt und Axiomatische Wahrscheinlichkeitstheorie ist ein Eine Funktion von aussagenlogischen Formeln in die Menge Wahrscheinlichkeitsmaß, falls für alle Aussagen gilt: 1. 4. 3. 2. Alle anderen Eigenschaften lassen sich aus diesen Axiomen ableiten, z.B. 375 . und folgt aus Wieso sind die Axiome sinnvoll? Wenn eine objektiv beobachtbare Wahrscheinlichkeit bezeichnet, machen die Axiome natürlich Sinn. Aber wieso sollte ein Agent diese Axiome beachten, wenn er den Grad seiner Überzeugung modelliert? Objektive vs. subjektive Wahrscheinlichkeiten Die Axiome schränken die Menge der Überzeugungen ein, die ein Agent aufrechterhalten kann. Eines der überzeugendsten Argumente, warum subjektive Überzeugungen die Axiome respektieren sollten, wurde 1931 von de Finetti gegeben. Es basiert auf dem Zusammenhang zwischen Aktionen und dem Grad der Überzeugung. Sind die Überzeugungen widersprüchlich, dann wird der Agent auf lange Sicht in seiner Umwelt scheitern! 376 Das Wettmodell (1) Agent 1 hat die Überzeugung . Agent 2 kann für oder gegen wetten, sein Einsatz muss jedoch konsistent mit der Überzeugung von Agent 1 sein. Beispiel: Agent 2 setzt 4 zu 6 auf , d.h. tritt auf, muss Agent 1 den Betrag von 6 Pf. an Agent 2 zahlen, sonst zahlt Agent 2 den Betrag von 4 Pf. an Agent 1. Agent 1 muss diese Wette akzeptieren (fair) Eine Wettstrategie ist eine Menge von Wetten auf Ereignisse. Annahme: Agent 1 habe die folgenden Grade von Überzeugungen: 377 Das Wettmodell (2) und setzt 4 zu 6 auf Agent 2 hat Wettstrategie und 2 zu 8 auf : , 3 zu 7 auf B 4 to 6 3 to 7 2 to 8 B A B (A B) B A 0.4 0.3 0.8 A Outcome for Agent 1 A B A B A A B Agent 2 Bet Stakes Agent 1 Proposition Belief -6 -7 2 -6 3 2 4 -7 2 4 3 -8 -11 -1 -1 -1 Wegen des inkonsistenten Beliefs verliert Agent 1 in allen möglichen Situationen. 378 gewinnt Agent 1 in der Situation Bei der Wettstrategie . Verbundwahrscheinlichkeit Wahrscheinlichkeit, die ein Agent jeder Proposition in der Domäne zuordnet. Ein atomares Ereignis ist eine Zuweisung von Werten an alle Zufallsvariablen (= vollständige Spezifikation eines Zustands). boolesche Variablen. Dann gibt es die folgenden 4 Beispiel: Seien , , , . atomaren Ereignisse: weist jedem Cavity Toothache Cavity Die Verbundwahrscheinlichkeitsverteilung atomaren Ereignis eine Wahrscheinlichkeit zu: Toothache 0.04 0.06 0.01 0.89 Da alle atomaren Ereignisse disjunkt sind, ist die Summe über alle Felder 1 (Disjunktion der Ereignisse). Die Konjunktion ist notwendigerweise falsch. 379 Rechnen mit der Verbundwahrscheinlichkeit Alle interessanten Wahrscheinlichkeiten lassen sich aus der Verbundwahrscheinlichkeit errechnen, indem wir sie als Disjunktion von atomaren Ereignissen formulieren. Beispiele: Unbedingte Wahrscheinlichkeiten erhält man durch Aufsummieren von Zeile oder Spalte: 380 Probleme mit der Verbundwahrscheinlichkeit Aus der Verbundwahrscheinlichkeit lassen sich alle Wahrscheinlichkeiten einfach ermitteln. Werte, wenn es Allerdings umfasst die Verbundwahrscheinlichkeit Zufallsvariablen mit Werten gibt. Schwierig darzustellen Schwierig zu ermitteln Fragen: 1. Gibt es eine dichtere Darstellung von Verbundwahrscheinlichkeiten? 2. Gibt es eine effiziente Methode, diese Darstellung zu verarbeiten? I.allg. nicht, aber in vielen Fällen geht es. Moderne Systeme arbeiten direkt mit bedingten Wahrscheinlichkeiten (Diagnose-Kausalität) und machen Annahmen über die Unabhängigkeit von Variablen, um Rechnungen zu vereinfachen. 381 Die Bayessche Regel Wir wissen (Produktregel): und Verallgemeinerung (bzgl. Hintergrundevidenzen): 382 Für mehrwertige Variablen (Menge von Gleichungen): Durch Gleichsetzen der rechten Seiten folgt: Anwendung der Bayesschen Regel Toothache Cavity Cavity Toothache Cavity Toothache Warum nicht gleich schätzen? (kausal) ist robuster als (diagnostisch): Toothache Cavity unabhängig von den a priori Wahrscheinlichkeiten Toothache und Cavity . Nimmt 383 bei einer Karies-Epidemie zu, so bleibt unverändert, während sich proportional ändern werden. und Relative Wahrscheinlichkeit Annahme: Wir wollen auch die Wahrscheinlichkeit der Diagnose GumDisease betrachten. Toothache GumDisease GumDisease Welche Diagnose ist wahrscheinlicher? oder 384 Wichtig, um mögliche Diagnosen auszuschließen. Wenn uns nur die relative Wahrscheinlichkeit interessiert, brauchen wir nicht zu schätzen: Normalisierung (1) Wenn wir die absolute Wahrscheinlichkeit von bestimmen wollen und nicht kennen, können wir auch eine vollständige Fallanalyse ) und den Zusammenhang durchführen (z.B. für und (hier boolesche Variable) ausnutzen: 385 Normalisierung (2) Durch Einsetzen in die oberste Gleichung: Für mehrwertige Zufallsvariablen: zu 1 386 wobei eine Normalisierungskonstante ist, welche die Werte in . aufsummieren lässt, z.B. Beispiel Ihr Arzt hat einen Test mit Ihnen durchgeführt, der eine sehr seltene Krankheit (1 in 10000) zu 99% korrekt diagnostiziert (1% falsche positive & 1% falsche negative Ergebnisse). Der Test war positiv. Was bedeutet das für Sie? Moral: Wenn die Testungenauigkeit sehr viel größer als die Häufigkeit der Krankheit ist, ist ein positives Ergebnis nicht sehr bedrohlich. 387 Multiple Evidenzen (1) Nach der Frage nach den Zahnschmerzen hat der Zahnarzt etwas aus den Zähnen herausgeholt (Catch) und hat mit der Bayesschen Regel berechnet: Cavity Catch Aber was bringt die kombinierte Evidenz? Mit der Bayesschen Regel könnte er ermitteln: 388 Cav Catch Cav Tooth Catch Catch Cav Tooth Tooth Multiple Evidenzen (2) Problem: Er braucht Tooth Catch Cav , d.h. Diagnosewissen für alle Kombinationen von Symptomen im allgemeinen Fall. Besser ist es, Evidenzen mit Hilfe der Evidenzenregel schrittweise hinzuzunehmen. Mit einer bestimmten a priori Wahrscheinlichkeit hat der Patient ein Loch: Cav . Er berichtet von Zahnschmerzen (Bayessche Regel): Cav Cav Tooth Tooth Cav Tooth 389 (3) Multiple Evidenzen (3) (4) Cav Tooth (5) Tooth Cav Tooth Cav Cav Tooth Die Untersuchung ergibt Catch, also Catch Cav Tooth Catch Tooth Cav Catch Tooth (4) in (5) einsetzen ergibt Catch Cav Tooth Cav Cav Catch Tooth Tooth Cav Tooth Catch Tooth 390 Multiple Evidenzen (4) Annahme bedingter Unabhängigkeit von Toothache und Catch gegeben Cavity (vereinfachtes Diagnosewissen): Catch Cav Catch Cav Tooth Tooth Cav Tooth Cav Catch Catch Cav Tooth Cav Tooth Cav Cav Catch Tooth Catch Tooth 391 Multiple Evidenzen (5) Catch Cav Cav Cav Catch Tooth Tooth Cav Tooth Catch Tooth Wie sollen wir Catch Tooth bestimmen? Beachte die Nenner in den Brüchen (Produktregel!): Tooth Catch Tooth Tooth Catch Catch Cav und Diesen können wir eliminieren, sofern wir ebenfalls Tooth Cav kennen. 392 Catch bestimmen Cav Tooth ist ein Normalisierungsfaktor, wenn wir wollen. Zusammenfassung Multiple Evidenzen Mehrfache Evidenzen können durch Reduktion auf a priori Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten für eine Evidenz berechnet werden (unter Annahme der Unabhängigkeit). und Allgemeine Kombinationsregel, falls sind: gegeben bedingt unabh ängig 393 Normalisierungskonstante ist. wobei Zusammenfassung Unsicherheit ist unvermeidbar in komplexen und dynamischen Welten, in denen Agenten zur Ignoranz gezwungen sind. Wahrscheinlichkeiten formulieren die Unfähigkeit eines Agenten, eine definitive Entscheidung zu fällen. Sie drücken den Grad seiner Überzeugung aus. Bedingte und unbedingte Wahrscheinlichkeiten können über Propositionen formuliert werden. Verletzt ein Agent die wahrscheinlichkeitstheoretischen Axiome, so wird er unter bestimmten Umständen irrationales Verhalten zeigen. Die Bayessche Regel ermöglicht es, unbekannte Wahrscheinlichkeiten aus bekannten Wahrscheinlichkeiten zu berechnen. Multiple Evidenzen können bei bedingter Unabhängigkeit effektiv in die Berechnung einbezogen werden. 394 Bayessche Netzwerke (auch belief networks, probabilistic networks, causal networks) 1. Die Zufallsvariablen bilden die Knoten. 2. Gerichtete Kanten zwischen Knoten symbolisieren direkten Einfluss. 3. Mit jedem Knoten ist eine Tabelle der bedingten Wahrscheinlichkeiten (CPT) assoziiert, die den Effekt der Eltern auf den Knoten quantifiziert. 4. Der Graph ist azyklisch (ein DAG). Burglary Earthquake Alarm JohnCalls MaryCalls 395 Die Bedeutung bayesscher Netze Burglary Earthquake Alarm JohnCalls MaryCalls Alarm hängt von Burglary und Earthquake ab. MaryCalls hängt nur von Alarm ab. MarryCalls Alarm Burglary MarryCalls Alarm Bayessche Netze können als Menge von Unabhängigkeitsannahmen aufgefasst werden. 396 Bayessche Netzwerke und die Verbundwahrscheinlichkeit Bayessche Netzwerke können auch als dichte Repräsentation der Verbundwahrscheinlichkeit aufgefasst werden. Seien alle Knoten angeordnet (so dass die Ordnung die Pfeile im Netz nicht . Seien Werte der Variablen. Mit der verletzt wird): Produktregel gilt: 397 D.h. mit der Netztopologie und den CPTs können wir die Verbundwahrscheinlichkeit berechnen! parents Wegen der Unabhängigkeitsannahmen ist dies äquivalent zu: Beispiel Burglary P(B) Earthquake .001 Alarm JohnCalls P(E) A P(J) T F .90 .05 B E P(A) T T F F T F T F .95 .94 .29 .001 .002 MaryCalls A P(M) T F .70 .01 Es sind nur die Wahrscheinlichkeiten für die positiven Ereignisse angegeben. . Die negativen ergeben sich als 398 Kompaktheit bayesscher Netze Zur expliziten Repräsentation der Verbundwahrscheinlichkeit brauchen bei Variablen. wir eine Tabelle der Größe Falls in einem Netz jeder Knoten max. Eltern hat, brauchen wir nur Tabellen der Größe bei booleschen Variablen. und und Wahrscheinlichkeiten! Beispiel: verschiedene explizit repräsentierte Im schlechtesten Fall kann natürlich auch ein bayessches Netz exponentiell groß werden, z.B. wenn jede Variable von jeder anderen direkt beeinflusst wird. abhängig von der Anwendungsdomäne (lokale vs. globale Interaktion) und dem Geschick des Designers. 399 Definitionen (1) 1. Eine bayessche Netzstruktur G ist ein gericteter azyklischer Graph, repräsentieren. Sei dessen Knoten die Zufallsvariablen die Elternknoten von in und die Zufallsvariablen sind. Dann repräsentiert die im Graph, die keine Nachfolger von nachfolgende Menge von Unabhängigkeitsannahmen, die wir nennen: haben wir das heisst, ist unabhängig von seinen Nichtnachfolgern, gegeben seine Elternknoten. 400 Für jede Variable Definitionen (2) 1. Wir bezeichnen eine BN Struktur als eine (Unabhängigkeitsabbildung) einer Wahrscheinlichkeitsverteilung . , falls X Y 0.32 0.08 2. 0.48 0.12 . Leerer Graph ist 401 und sind unabhängig voneinander: I-map von . 3. P(X,Y) Definitionen (3) 1. Faktorisierung: Sei ein BN Graph über den Variablen . Wir sagen, dass eine Verteilung über den gleichen Variablen bezüglich faktorisiert, falls durch das folgende Produkt beschrieben wird: Diese Gleichung wird die Kettenregel für bayessche Netze genannt. Die einzelnen Faktoren werden die bedingten Wahrscheinlichkeitsvertielungen (CPDs) oder lokalen probabilistischen Modelle genannt. 402 Definitionen (4) 1. bayessches Netz: Ein Graph und eine Verteilung , die über faktorisiert, wobei durch eine Menge von CPDs definiert wird, die mit den Knoten in assoziiert sind, wird bayessches Netz genannt. 2. Theorem: Sei ein BN Graph über einer Menge von Zufallsvariablen X und sei eine Verbundwahrscheinlichkeit über den selben Variablen. ist eine I-map für gdw entsprechend von faktorisiert. 403 Das Design eines Netzes 1. Ordne alle Variablen. 2. Nimm die erste von den übriggebliebenen. 3. Gib alle direkten Einflüsse von Knoten, die schon im Netz sind, auf den neuen Knoten an (Kanten + CPT). 4. Falls noch Variablen in der Liste, mache bei Schritt 2 weiter. 404 Beispiel Links = M,J,A,B,E, rechts = M,J,E,B,A MaryCalls MaryCalls JohnCalls JohnCalls Earthquake Alarm Burglary Burglary Alarm Earthquake Versuch, ein diagnostisches Modell von Symptomen zu Ursachen zu bauen, der immer zu Abhängigkeiten zwischen eigentlich unabhängigen Ursachen und separat auftretenden Symptomen führt. 405 Inferenz in bayesschen Netzen (1) Instantiieren einiger Variablen (Evidenzen) und Abfragen von anderen Knoten. Burglary P(B) .001 Alarm JohnCalls P(E) Earthquake A P(J) T F .90 .05 B E P(A) T T F F T F T F .95 .94 .29 .001 MaryCalls 406 .002 A P(M) T F .70 .01 Inferenz in bayesschen Netzen (2) Burglary JohnCalls ? Der Alarm ist ziemlich zuverlässig und John ruft in 9 von 10 Fällen an, wenn ein Alarm vorliegt. Tatsächlich findet ein Einbruch nur alle 1000 Tage statt, aber John ruft 50 mal in 1000 Tagen an, d.h. auf einen Einbruch kommen 50 Fehlalarme. Burglary JohnCalls ! 407 Burglary JohnCalls MaryCalls . Typen von Inferenzen E Q Q E E Q E E Q Diagnostic Causal (Explaining Away) Intercausal Mixed 1. Diagnostisch: Von Effekten zu Ursachen Burglary JohnCalls 2. Kausal: Von Ursachen zu Effekten JohnCalls Burglary 3. Interkausal: Zwischen Ursachen eines gemeinsamen Effekts Burglary Alarm , aber Burglary Alarm Earthquake . 4. Gemischt: Kombination von 1.-3. Alarm JohnCalls Earthquake 408 Unabhängigkeiten: D-Separierung (1) in . blockiert, falls es einen Knoten auf dem einen eingehenden und einen ausgehenden Teilpfad liegt und beide Teilpfade sind ausgehend, oder nicht in liegt, beide Teilpfade eingehend sind und kein Nachfolger von in liegt. 3. 2. in liegt und besitzt, oder ist durch , falls jeder sind bedingt unabhängig, gegeben Ein Pfad von nach Pfad gibt, so dass 1. d-separiert die Mengen und nach durch blockiert ist. und Eine Menge von Knoten (ungerichtete) Pfad von 409 Unabhängigkeiten: d-Separation (2) X E (1) Z (2) Z (3) Z 410 Y Beispiele für d-Separierung Battery Radio Ignition Gas Starts Moves 2. 1. Ignition d-separiert Gas und Radio Battery d-separiert Gas und Radio 3. Gas und Radio sind (ohne Evidenz) unabhängig, aber nicht mehr, falls Starts oder Moves. 411 Inferenzmechanismen in bayesschen Netzen (1) Grundannahme: Das Netz ist ein Polytree, d.h., falls man die Kantenrichtung ignoriert, bildet das Netz einen ungerichteten Baum. + EX U1 Um ... X − EX Z 1j Z nj Y1 ... 412 Yn Herleitung des Algorithmus B ELIEF -N ET-A SK (1) Ziel: bestimme Betrachte Knoten hat Nachfolgerknotenknoten hat Elternknoten – – Da das Netz ein Polytree ist, sind alle Boxen disjunkt und haben keine Kanten untereinander Notation: – kausale Unterstützung: alle Evidenz verbunden mit 413 – – diagnostische Unterstützung: ausser der über den Pfad Herleitung des Algorithmus B ELIEF -N ET-A SK (2) Ziel: rekursive Organisation der Berechnung grobe Lösungsidee: und durch die Beiträge von aus 1. drücke aus, indem der Effekt von auf die 2. berechne den Beitrag von Elternknoten von berechnet wird (rekursiver Aufruf) und dann an weiterleiten aus, indem der Effekt von 414 3. berechne den Beitrag von Nachfolgerknoten auf die Herleitung des Algorithmus B ELIEF -N ET-A SK (3) 1. Ausgangspunkt: und 2. isoliere die Beiträge von und d-separiert 3. enthalten. 415 ist als konstanter Faktor in der Normalisierungskonstanten Herleitung des Algorithmus B ELIEF -N ET-A SK (4) 1. Bestimmung von Betrachte alle möglichen Konfigurationen der Elternknoten von deren Wahrscheinlichkeit gegeben die Evidenz der Vektor der Elternknoten und eine Belegung von Sei (a) Betrachte: : von d-separiert (b) (c) die Wahrscheinlichkeit einer Verbundwahrscheinlichkeit von unabhängigen Variablen ist gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Variablen: 416 und d-separiert 417 und vereinfache ( ): (d) partitioniere in von der restlichen Evidenz in Herleitung des Algorithmus B ELIEF -N ET-A SK (5) 1. Daraus ergibt sich: ist durch die CPDs gegeben ist der rekursive Aufruf (b) wobei (a) P(u 418 Inferenzmechanismen in bayesschen Netzen (2) Wir können berechnen, in dem wir das aufsplitten in untere“ ” und obere“ Variablen (die bedingt unabhängig, gegeben , sind!). Das ” machen wir rekursiv! Polynomieller Algorithmus mit Bayesscher Regel Für Netze, die keine Polytrees sind, muss man Transformationen vornehmen, die exponentiell werden können. I.allg. ist die Inferenz in bayesschen Netzen NP-vollständig. 419 Der Algorithmus function BELIEF-NET-ASK(X) returns a probability distribution over the values of X inputs: X, a random variable SUPPORT-EXCEPT(X, null) function SUPPORT-EXCEPT(X, V) returns P(X EX V) if EVIDENCE?(X) then return observed point distribution for X else calculate P(EX V X) = EVIDENCE-EXCEPT(X, V) U PARENTS[X] if U is empty then return P(EX V X) P(X) else for each Ui in U calculate and store P(Ui EUi X ) = SUPPORT-EXCEPT(Ui , X) return P(EX V X) P(X u) P(Ui Eui X ) u i function EVIDENCE-EXCEPT(X, V) returns P(EX V X) V Y CHILDREN[X] if Y is empty then return a uniform distribution else for each Yi in Y do calculate P(EYi yi) = EVIDENCE-EXCEPT(Yi , null) X Zi PARENTS[Yi ] for each Zij in Zi calculate P(Zij EZij Yi ) = SUPPORT-EXCEPT(Zij , Yi ) return P(EYi yi ) P(yi X, zi ) P(zij EZij Yi ) zi yi i j 420 Systeme Das bekannteste medizinische Expertensystem, das bayessche Netze einsetzt, ist PATHFINDER IV. Deckt ca. 60 Lymphknotenkrankheiten und 100 Symptome und Testergebnisse ab. Es waren 14000 Schätzungen von Wahrscheinlichkeiten erforderlich, die in 40 Stunden Arbeit erstellt wurden Besser als Weltklasse-Experten. Viele kommerzielle und PD-Tools für bayessche Netze und Erweiterungen erhältlich: http://bayes.stat.washington.edu/almond/belief.html 421 Andere Ansätze (1) Nicht-monotone Logik – kann als qualitative Variante aufgefasst werden. – Tatsächlich sind einige NM-Logiken (die Ordnungen auf den Modellen betrachten) in einer Nicht-Standard Wahrscheinlichkeitstheorie rekonstruierbar ( -Semantik mit verschwindend kleinen Wahrscheinlichkeiten). 422 Andere Ansätze (2) Regelbasierte Systeme mit certainty factors“. ” – Logikbasierte Systeme mit Regelgewichten, die bei der Inferenz kombiniert werden. – Sind vom Berechenbarkeitsaufwand einfacher, können aber entweder nur kausale oder nur diagnostische Regeln verarbeiten, akzeptieren Evidenzen nur an den Wurzeln“. ” – Liefern inkorrekte Ergebnisse, falls die Regelmenge mehrfach verbunden“ ” ist. – Der Einsatz wird heute nicht mehr empfohlen. 423 Andere Ansätze (3) Dempster-Shafer Theorie – erlaubt neben der Repräsentation von Unsicherheit auch die Repräsentation von Ignoranz. – Beispiel: Bei einer fairen Münze würden wir von 0.5 für Kopf ausgehen. Wenn wir aber nicht wissen, ob die Münze fair ist? Bel Kopf , Bel Zahl . Ist die Münze 90% fair, , d.h. Bel Kopf mit. ohne Wissen, 424 Intervall von Wahrscheinlichkeiten Andere Ansätze (4) Fuzzy-Logik und Fuzzy-Mengen – Dient zur Repräsentation und Verarbeitung von Vagheit, nicht Unsicherheit. – Beispiel: das Auto fährt schnell. – Einsatz insbesondere im Bereich Steuerung und Regelung. – Dort interpretierbar als Interpolationstechnik. 425 Zusammenfassung bayessche Netze Bayessche Netze erlauben eine kompakte Repräsentation der Verbundwahrscheinlichkeit. Dies wird erreicht durch Unabhängigkeitsannahmen. Sie unterstützen verschiedene Formen des Schließens gegeben Evidenzen: kausal, diagnostisch, interkausal, gemischt. Inferenz bedeutet dabei die Berechnung der Verteilung einer Menge von Variablen gegeben die Evidenzen. Die Komplexität der Inferenz in bayesschen Netzen hängt von der Struktur des Netzwerkes ab. I.allg. ist die Inferenz in bayesschen Netzen NP-vollständig. Für Polytrees ist die Komplexität polynomiell in der Größe des Netwerks. 426