Einführung in die Künstliche Intelligenz Seite 105 11. Unsicherheit 11.1. Handeln unter Unsicherheit Agenten haben in der realen Welt fast nie Zugang zu der vollständigen Wahrheit über ihre Umgebung. Diese ist aber eigentlich für einen logikbasierten Agenten notwendig, denn er speichert sein Wissen in Form von logischen Sätzen, und diese sind entweder wahr oder falsch. Einige Sätze können direkt durch die Wahrnehmung des Agenten bestätigt werden, andere können aus der jetzigen und früheren Wahrnehmungen und dem Wissen über die Eigenschaften der Umgebung abgeleitet werden. Fast immer gibt es aber wichtige Fragen, die nicht kategorisch beantwortet werden können. Deshalb muss der Agent in der Lage sein, unter Unsicherheit zu handeln. Unsicherheit kann auch dadurch entstehen, dass der Agent die Eigenschaften der Umgebung unvollständig oder inkorrekt versteht. Viele Regeln über den Anwendungsbereich können unvollständig sein, weil die Zahl der Bedingungen zu groß ist um alle aufzählen zu können oder weil einige der Bedingungen unbekannt sind. Dieser Sachverhalt wird als das Qualifikationsproblem bezeichnet. Die Auswahl der richtigen Handlung, d.h. also die rationale Entscheidung, hängt von der relativen Wichtigkeit verschiedener Ziele und der Wahrscheinlichkeit, dass sie und bis zu welchem Grad sie erreicht werden, ab. 11.1.1. Die Behandlung unsicheren Wissens Die Behandlung eines Anwendungsbereichs, das einen hohen Anteil unsicheren Wissens besitzt, wie z.B. die medizinische Diagnose, mittels Logik scheitert aus drei Hauptgründen: Faulheit: Es ist zu viel Arbeit die vollständige Menge von Voraussetzungen und Konsequenzen, die zur Formulierung einer Regel ohne Ausnahmen notwendig sind, aufzuführen und zu schwer, die ungeheuer großen Regeln, die sich ergeben würden, zu benutzen. Theoretische Unwissenheit: Die medizinische Wissenschaft hat keine vollständige Theorie für ihr Gebiet. Praktische Unwissenheit: Selbst wenn alle Regeln bekannt wären, könnte Unsicherheit über einen einzelnen Patienten bestehen, weil nicht alle notwendigen Tests ausgeführt wurden oder ausgeführt werden konnten. Die Verknüpfung von Symptomen und Ursachen bei der Diagnose ist keine logische Konsequenz, weder in der einen, noch in der anderen Richtung. Das ist typisch für Domänen, in denen Dinge beurteilt werden, z.B. Rechtsprechung, Betriebswirtschaft, Entwurf und Konstruktion, Autoreparatur u.a. In solchen Domänen kann die Wissensbasis des Agenten bestenfalls einen Grad an Überzeugung von den relevanten Sätzen liefern. Das Hauptwerkzeug zur Behandlung von Graden an Überzeugung ist die Wahrscheinlichkeitstheorie, die jedem Satz einen numerischen Grad an Überzeugung zwischen 0 und 1 zuordnet. Die Wahrscheinlichkeit ist eine Möglichkeit die Unsicherheit, die aus der Faulheit und Unwissenheit resultiert, zusammenzufassen. In der Wahrscheinlichkeitstheorie wird, wie in der klassischen Logik, angenommen, dass ein Satz entweder wahr oder falsch ist. Aufgrund beschränkten Wissens weiß man aber nicht, was wirklich gilt, deshalb versieht man jeden Satz mit einem Grad an Überzeugung, mit dem ein Agent ihn für wahr hält. Bei der Wahrscheinlichkeit 0 ist der Agent fest überzeugt, dass der Satz falsch ist (er könnte aber trotzdem wahr sein), und bei der Wahrscheinlichkeit 1 ist er überzeugt, dass der Satz Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 106 wahr ist, entsprechend für die Zwischenwerte. Etwas anderes sind Grade an Wahrheit für Sätze, die subjektiv oder durch Vereinbarung festgelegt sind. Diese werden in der Fuzzy-Logik behandelt. Die Wahrscheinlichkeit, die ein Agent einem Satz zuordnet, hängt von den Wahrnehmungen ab, die der Agent bis zum aktuellen Zeitpunkt gemacht hat. Diesen Sachverhalt nennt man Evidenz. Da die gemachten Wahrnehmungen Bestandteil der Wissensbasis sind, entspricht die Zuordnung einer Wahrscheinlichkeit zu einem Satz der Möglichkeit, zu der ein Satz oder seine Negation aus der Wissensbasis folgt. So wie sich der Status der Folgerbarkeit ändern kann, wenn mehr Sätze zur Wissensbasis hinzugefügt werden, können sich Wahrscheinlichkeiten ändern, wenn mehr Evidenz gewonnen wird. Alle Wahrscheinlichkeitsaussagen müssen deshalb einen Hinweis auf die Evidenz enthalten, mit Bezug auf welche die Wahrscheinlichkeit festgestellt wurde. Nach neuen Wahrnehmungen müssen die Wahrscheinlichkeiten aktualisiert werden. Die Wahrscheinlichkeiten vor Erhalt einer Evidenz heißen a priori- oder unbedingte Wahrscheinlichkeiten, nach Erhalt der Evidenz heißen sie a posteriori- oder bedingte Wahrscheinlichkeiten. Diese Begriffe sind also relativ zu Evidenzen definiert. 11.1.2. Unsicherheit und rationale Entscheidungen Um gute Entscheidungen zu treffen muss ein Agent unterschiedliche Präferenzen für die möglichen Ergebnisse verschiedener Pläne haben. Ein Ergebnis ist ein vollständig spezifizierter Zustand. Zur Repräsentation von Präferenzen und zum Schlussfolgern über sie wird die Nutzentheorie verwendet. Der Nutzen einer Sache ist ihre Eigenschaft nützlich zu sein. Die Nutzentheorie besagt, dass jeder Zustand einen bestimmten Grad an Nützlichkeit oder Nutzen für einen Agenten hat und dass der Agent Zustände mit höherem Nutzen bevorzugt. Der Nutzen eines Zustands ist immer relativ zu dem Agenten, dessen Nutzenfunktion er repräsentiert, bestimmt. Typische Nutzenfunktionen sind die Auszahlungsfunktionen bei Spielen. Die Präferenzen verschiedener Agenten können sehr unterschiedlich sein, sie lassen sich nicht qualifizieren. Aber jeder Agent, der gemäß seiner eigenen Nutzenfunktion entscheidet, handelt rational. Die Nutzentheorie schließt Altruismus nicht aus. Ein Agent kann einem Zustand einen hohen Nutzen zuordnen, bei dem er einen Nachteil hat und andere profitieren. Dann verhält er sich altruistisch. Präferenzen, ausgedrückt durch Nutzen, werden mit Wahrscheinlichkeiten in der allgemeinen Theorie rationaler Entscheidungen, genannt Entscheidungstheorie, kombiniert: Entscheidungstheorie = Wahrscheinlichkeitstheorie + Nutzentheorie Die grundlegende Idee der Entscheidungstheorie ist, dass ein Agent rational ist genau dann, wenn er immer die Aktion wählt, die ihm den höchsten erwarteten Nutzen bringt, gemittelt über alle möglichen Ergebnisse der Aktion. Dies ist das Prinzip des maximalen erwarteten Nutzens (maximum expected utility, MEU). Der Nutzen eines Ergebnisses wird dabei mit der Wahrscheinlichkeit seines Eintretens gewichtet. 11.1.3. Entwurf eines entscheidungstheoretischen Agenten Die Struktur des entscheidungstheoretischen Agenten ist ähnlich der des logikbasierten Agenten von Kapitel 6. Die folgende Funktion implementiert diesen Agententyp. function DT-AGENT(Wahrnehmung) returns eine Aktion static: eine Menge probabilistischer Annahmen über den Zustand der Welt Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 107 berechne aktualisierte Wahrscheinlichkeiten für den aktuellen Zustand auf der Grundlage der erhältlichen Evidenz einschließlich der aktuellen Wahrnehmung und der vorherigen Aktion berechne die Ergebniswahrscheinlichkeiten für Aktionen bei gegebenen Aktionsbeschreibungen und Wahrscheinlichkeiten der aktuellen Zustände wähle die Aktion mit dem größten erwarteten Nutzen bei gegebenen Wahrscheinlichkeiten der Ergebnisse und Nutzeninformationen return Aktion 11.2. Grundlegende Notationen für Wahrscheinlichkeit 11.2.1. A priori-Wahrscheinlichkeit Die Notation P(A) bezeichnet die unbedingte oder a priori-Wahrscheinlichkeit, dass die Aussage A wahr ist. Die Aussage P(A) kann nur gemacht werden, wenn keine andere Information vorliegt. Sobald eine neue Information B bekannt wird, kann man nur noch die bedingte Wahrscheinlichkeit von A bei gegebenem B anstelle von P(A) behaupten. Die Aussage eines Wahrscheinlichkeitsstatements kann durch ein Aussagensymbol repräsentiert werden oder durch eine Gleichung mit sogenannten Zufallsvariablen. Eine Zufallsvariable X hat einen Wertebereich x1, ..., xn, der meistens als Menge diskreter Werte angenommen wird. Eine Gleichung mit der Zufallsvariablen X hat die Form X = xi. Aussagensymbole können als Zufallsvariablen mit dem Wertebereich wahr, falsch, d.h. als Boolesche Zufallsvariablen betrachtet werden. Die Notation P(A) ist damit eine Abkürzung für P(A = wahr), entsprechend P(A) eine Abkürzung für P(A = falsch). Die Buchstaben A, B, ... werden für Boolesche Zufallsvariable verwendet, die Buchstaben X, Y, ... für mehrwertige Zufallsvariable. Zur Bezeichnung der Wahrscheinlichkeiten aller möglichen Werte einer Zufallsvariablen X wird das Symbol P verwendet. Es ist also P(X) = w1, ..., wn, wobei P(X = xi) = wi. Diese Gleichung definiert die Wahrscheinlichkeitsverteilung der Zufallsvariablen X. Abkürzend wird die Notation P(X, Y) verwendet. Sie bezeichnet alle Kombinationen der Wahrscheinlichkeiten der Werte von X und Y, d.h. eine Matrix mit den Elementen (wi, vi), wobei vi die Wahrscheinlichkeiten der Werte von Y sind. Auch komplexeren Sätzen, gebildet aus elementaren Aussagen mittels Junktoren, können Wahrscheinlichkeiten zugeordnet werden. 11.2.2. Bedingte Wahrscheinlichkeit Sobald der Agent Evidenz über eine bisher unbekannte Aussage seiner Domäne erhält, kann er keine a priori-Wahrscheinlichkeiten mehr zuordnen. Statt dessen werden bedingte oder a posteriori-Wahrscheinlichkeiten verwendet, geschrieben P(A|B) und gelesen „die Wahrscheinlichkeit von A unter der Voraussetzung, dass B alles ist, was bekannt ist“. Bei der Formulierung P(A|B) ist genau zu beachten, dass keine andere Information außer B vorliegt. Ist z.B. auch die Information C gegeben, dann kann man nur die bedingte Wahrscheinlichkeit P(A|B C) angeben. Die a priori-Wahrscheinlichkeit P(A) kann als Spezialfall der bedingten Wahrscheinlichkeit P(A| ) aufgefasst werden, bei der die Wahrscheinlichkeit durch keine Evidenz bedingt ist. Die P-Notation kann auch für bedingte Wahrscheinlichkeiten verwendet werden. P(X|Y) stellt eine zweidimensionale Matrix mit den Werten von P(X = xi|Y = yi) für jedes Paar i, j dar. Bedingte Wahrscheinlichkeiten können durch unbedingte definiert werden. Es gilt Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 108 P( A | B) P( A B) P( B) (11.1) wenn P(B) > 0. Diese Gleichung kann umgeschrieben werden in P( A B) P( A | B) P( B) Diese Gleichung heißt die Produktregel. Vertauscht man in der Gleichung (11.1) A und B, dann erhält man wegen der Kommutativität der Konjunktion die Produktregel P( A B) P( B | A) P( A) Die P-Notation kann auch auf Gleichungen der Art der Produktregel angewendet werden. Man kann z.B. schreiben P(X, Y) = P(X|Y)P(Y) Diese Gleichung stellt eine Menge von Gleichungen dar, die die einander entsprechenden Einträge in den zugrundeliegenden Tabellen zueinander in Beziehung setzen. Sie stellt keine Matrixmultiplikation dar. Eine dieser Gleichungen hat z.B. die Form P(X = x1 Y = y2) = P(X = x1|Y = y2)P(Y = y2) 11.3. Die Wahrscheinlichkeitsaxiome 1. Alle Wahrscheinlichkeiten liegen zwischen 0 und 1. 0 P(A) 1 2. Notwendigerweise wahre Aussagen haben die Wahrscheinlichkeit 1, notwendigerweise falsche Aussagen haben die Wahrscheinlichkeit 0. P(wahr) = 1 P(falsch) = 0 3. Die Wahrscheinlichkeit einer Disjunktion ist definiert durch P(A B) = P(A) + P(B) – P(A B) 11.3.1. Warum die Wahrscheinlichkeitsaxiome vernünftig sind de Finetti bewies: Wenn in einer Wettsituation Agent 1 eine Menge von Graden an Überzeugung angibt, die die Wahrscheinlichkeitsaxiome verletzen, dann gibt es eine Wettstrategie für Agent 2, die garantiert, dass Agent 1 Geld verliert. Wenn sich also ein Agent bei seinen Handlungen nach seinen Graden an Überzeugung richtet (z.B. indem er Geld bei Wetten einsetzt), dann handelt er irrational, wenn er Überzeugungen hat, die die Wahrscheinlichkeitsaxiome verletzen. Das folgende Beispiel illustriert de Finettis Theorem. Angenommen Agent 1 habe die folgende Menge von Graden an Überzeugung: P(A) = 0.4 P(B) = 0.3 P(A B) = 0.8 Agent 2 wettet 4 € auf A, 3 € auf B und 2 € auf (A B). Die folgende Tabelle zeigt, dass Agent 1 immer Geld verliert, unabhängig von den Ergebnissen für A und B. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 109 Agent 1 Agent 2 Aussage Überzeugung Wette Einsatz A 0.4 A 4 zu 6 B 0.3 B 3 zu 7 0.8 2 zu 8 AB (A B) AB -6 -7 2 -11 Ergebnis für Agent 1 A B A B -6 4 3 -7 2 2 -1 -1 A B 4 3 -8 -1 11.3.2. Die kombinierte Wahrscheinlichkeitsverteilung Ein probabilistisches Modell einer Domäne besteht aus einer Menge von Zufallsvariablen, die einzelne Werte mit bestimmten Wahrscheinlichkeiten annehmen können. Die Variablen seien X1, ..., Xn. Ein atomares Ereignis ist eine Zuordnung einzelner Werte zu allen Variablen, d.h. eine vollständige Spezifikation des Zustands der Domäne. Die kombinierte Wahrscheinlichkeitsverteilung P(X1, ..., Xn) (kurz: Kombination) ordnet allen möglichen atomaren Ereignissen Wahrscheinlichkeiten zu. P(Xi) ist ein eindimensionaler Vektor von Wahrscheinlichkeiten für die möglichen Werte der Variablen Xi. Damit ist die Kombination eine n-dimensionale Tabelle mit einem Wert in jedem Feld, der die Wahrscheinlichkeit des jeweiligen Zustands angibt. Da die atomaren Ereignisse sich gegenseitig ausschließen, ist jede Konjunktion atomarer Ereignisse notwendigerweise falsch. Da sie gemeinsam erschöpfend sind, ist ihre Disjunktion notwendigerweise wahr. Deshalb folgt aus dem zweiten und dritten Wahrscheinlichkeitsaxiom, dass sich die Einträge in der Tabelle zu 1 aufsummieren. Die kombinierte Wahrscheinlichkeitsverteilung kann auch dazu benutzt werden, jede Wahrscheinlichkeitsaussage in einer gegebenen Domäne zu berechnen. Die Aussage wird dazu als Disjunktion der entsprechenden atomaren Ereignisse dargestellt und es werden die Wahrscheinlichkeiten der einzelnen Ereignisse addiert. Addiert man speziell über eine Zeile oder eine Spalte der Tabelle, dann erhält man die unbedingte Wahrscheinlichkeit einer Variablen. Aus der kombinierten Wahrscheinlichkeitsverteilung können auch die Werte für bedingte Wahrscheinlichkeiten bestimmt werden. Dazu wird die Gleichung (11.1) benutzt. 11.4. Die Bayessche Regel und ihre Verwendung Ausgehend von den beiden Formen der Produktregel P( A B) P( A | B) P( B) P( A B) P( B | A) P( A) erhält man durch Gleichsetzen die Gleichung P( B | A) P( A | B) P( B) P( A) (11.2) Diese Gleichung heißt Bayessche Regel (oder Bayessches Gesetz oder Bayessches Theorem). Alle modernen KI-Systeme für das probabilistische Schließen basieren auf ihr. Für den allgemeineren Fall mehrwertiger Zufallsvariablen kann es mittels der P-Notation so geschrieben werden: P(Y | X ) Technische Universität Chemnitz P( X | Y )P(Y ) P( X ) Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 110 Diese Gleichung repräsentiert wieder eine Menge von Gleichungen, die die entsprechenden Elemente der Tabellen zueinander in Beziehung setzen. Es wird im Folgenden noch eine etwas allgemeinere Form dieser Regel benutzt, bei der die Aussagen durch eine Hintergrundevidenz bedingt sind: P(Y | X , E ) P( X | Y , E )P(Y | E ) P( X | E ) (11.3) 11.4.1. Eine einfache Anwendung der Bayesschen Regel Es ist bekannt, dass Meningitis in 50% der Fälle einen steifen Hals verursacht. Außerdem sind einige unbedingte Tatsachen bekannt: Die a priori-Wahrscheinlichkeit, dass ein Patient Meningitis hat, ist 1/50000, und die a priori-Wahrscheinlichkeit, dass ein Patient einen steifen Nacken hat, ist 1/20. S bedeute, dass der Patient einen steifen Nacken hat, und M, dass er Meningitis hat. Damit lässt sich die Bayessche Regel wie folgt anwenden: P(S|M) = 0.5 P(M) = 1/50000 P(S) = 1/20 P( S | M ) P( M ) 0.5 1 / 50000 P( M | S ) 0.0002 P( S ) 1 / 20 11.4.2. Normalisierung Durch Normalisierung ist es möglich, in einer durch ein Symptom bedingten Wahrscheinlichkeit die a priori-Wahrscheinlichkeit des Symptoms zu eliminieren. Ist P(U | S ) P( S | U ) P(U ) P( S ) die Wahrscheinlichkeit der Ursache U, bedingt durch das Symptom S, dann kann man mittels der Normalisierungskonstanten 1/P(S) die a priori-Wahrscheinlichkeit P(S) beseitigen. P(S) kann durch eine erschöpfende Betrachtung von Fällen ermittelt werden. Gibt es z.B. nur die beiden Fälle U und U, dann ist P(S) = P(S|U)P(U) + P(S |U)P(U) Daraus ergibt sich P(U | S ) P( S | U ) P(U ) P( S | U ) P(U ) P( S | U ) P(U ) Im allgemeinen mehrwertigen Fall erhält man P(Y|X) = P(X|Y)P(Y) wobei die Normalisierungskonstante ist, die dafür sorgt, dass sich die Einträge in der Tabelle P(Y|X) zu 1 addieren. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 111 11.4.3. Benutzung der Bayesschen Regel: Kombination von Evidenzen In vielen Anwendungsbereichen kann die Anwendung der Bayesschen Regel zu einer Form vereinfacht werden, die weniger Wahrscheinlichkeiten benötigt um ein Ergebnis zu produzieren. Ein erster Schritt dazu ist der Prozess der Bayesschen Aktualisierung. Danach wird Evidenz schrittweise in die bisherige Annahme über eine unbekannte Variable eingebaut. Der Vorgang wird am Zahnweh-Beispiel demonstriert. Er beginnt mit P( LochImZahn | Zahnweh) P( LochImZahn) P( Zahnweh | LochImZahn) P( Zahnweh) Kommt nun eine neue Beobachtung hinzu, z.B. Häkchenprobe, dann wird darauf die Bayessche Regel angewandt, wobei Zahnweh als fester bedingender Kontext verwendet wird. P( LochImZahn | Zahnweh Häkchenprobe) P( LochImZahn | Zahnweh) P( LochImZahn) P( Häkchenprobe | Zahnweh LochImZahn) P( Häkchenprobe | Zahnweh) P( Zahnweh | LochImZahn) P( Häkchenprobe | Zahnweh LochImZahn) P( Zahnweh) P( Häkchenprobe | Zahnweh) Haben verschiedene Symptome dieselbe direkte Ursache, dann sind sie bedingungsunabhängig voneinander. Die Gleichung für die Bayessche Aktualisierung kann dann vereinfacht werden, indem in einer Und-Verknüpfung von Symptom und Ursache das Symptom weggelassen wird. Man kann die Bedingungsunabhängigkeit auch im mehrwertigen Fall verwenden. Die Unabhängigkeit von X und Y bei gegebenem Z wird notiert durch P(X|Y, Z) = P(X|Z) Diese Gleichung repräsentiert eine Menge von Bedingungsunabhängigkeits-Statements. Die entsprechende Vereinfachung der Bayesschen Regel ist P(Z|X, Y) = P(Z)P(X|Z)P(Y|Z) 11.5. Woher kommen die Wahrscheinlichkeiten? Bezüglich der Frage, woher die Wahrscheinlichkeiten kommen, gibt es drei verschiedene Positionen: Nach der frequentistischen Position kommen sie nur durch Experimente, d.h. durch statistische Untersuchungen zustande. Die objektivistische Position behauptet, dass die Wahrscheinlichkeiten reale Aspekte der Welt sind, nämlich die Tendenz von Objekten, sich in bestimmter Weise zu verhalten, und nicht nur Beschreibungen des Überzeugungsgrades eines Beobachters. Aus dieser Sicht sind die frequentistischen Messungen Versuche die realen Wahrscheinlichkeitswerte zu beobachten. Die subjektivistische Sicht beschreibt die Wahrscheinlichkeiten als einen Weg, die Überzeugungen eines Agenten zu charakterisieren. Sie müssen keine externe physikalische Bedeutung haben. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 112 Das Referenzklassenproblem besteht darin, eine adäquate Vergleichsklasse von Beispielen für einen Fall zu finden. Diese Klasse sollte nicht zu allgemein sein, sonst erlaubt sie keine substantielle Aussage mehr, aber auch nicht zu eingeschränkt, sonst ist kein Vergleich mit ähnlichen Fällen möglich. 11.6. Zusammenfassung Es wurde gezeigt, dass Wahrscheinlichkeit der richtige Weg ist um über Unsicherheit zu schlussfolgern. Die wichtigsten Punkte sind: Unsicherheit entsteht durch Faulheit und Unwissenheit. Sie ist in komplexen, dynamischen oder unzugänglichen Welten unvermeidbar. Unsicherheit bedeutet, dass viele der Vereinfachungen, die bei deduktiver Inferenz möglich sind, nicht mehr gelten. Wahrscheinlichkeiten drücken die Unfähigkeit des Agenten aus eine definite Entscheidung bezüglich der Wahrheit eines Satzes zu treffen und fassen die Überzeugungen des Agenten zusammen. Atomare Wahrscheinlichkeitsaussagen umfassen a priori-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten über einfache und zusammengesetzte Aussagen. Die Wahrscheinlichkeitsaxiome definieren Einschränkungen für eine vernünftige Zuordnung von Wahrscheinlichkeiten zu Aussagen. Ein Agent, der sie verletzt, verhält sich in gewissen Umständen irrational. Die kombinierte Wahrscheinlichkeitsverteilung spezifiziert die Wahrscheinlichkeit jeder vollständigen Zuordnung von Werten zu Zufallsvariablen. Sie ist normalerweise viel zu groß um konstruiert oder benutzt werden zu können. Die Bayessche Regel erlaubt die Berechnung unbekannter Wahrscheinlichkeiten aus bekannten, fest etablierten. Das Kombinieren verschiedener Teile von Evidenz erfordert im Allgemeinen die Ermittlung einer großen Zahl bedingter Wahrscheinlichkeiten. Lässt sich in einem Anwendungsbereich Bedingungsunabhängigkeit aufgrund direkter kausaler Beziehungen feststellen, dann erlaubt die Bayessche Aktualisierung den effektiven Umgang mit verschiedenen Teilen von Evidenz. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz 12. Seite 113 Probabilistische Schlussfolgerungssysteme 12.1. Repräsentation von Wissen in unsicheren Domänen Zur Repräsentation von Abhängigkeiten zwischen Variablen und zur Spezifikation der kombinierten Wahrscheinlichkeitsverteilung wird die Datenstruktur Bayessches Netz (belief network) verwendet. Ein Bayessches Netz ist ein Graph mit folgenden Eigenschaften: 1. Die Knotenmenge ist eine Menge von Zufallsvariablen. 2. Die Kanten sind gerichtet. Eine Kante vom Knoten X zum Knoten Y bedeutet, dass X einen direkten Einfluss auf Y hat. 3. Jeder Knoten hat eine Tabelle bedingter Wahrscheinlichkeiten. In ihr ist die Wirkung, die seine Vorgängerknoten auf ihn haben, quantifiziert. 4. Der Graph enthält keine Zyklen (er ist also ein DAG). Ein Experte in einer Domäne kann meistens viel leichter entscheiden, welche direkten Bedingungsabhängigkeiten in der Domäne gelten, als die Wahrscheinlichkeiten selbst feststellen. Liegt die Struktur eines Bayesschen Netzes fest, dann müssen nur noch die bedingten Wahrscheinlichkeiten der Knoten, die an den direkten Abhängigkeiten beteiligt sind, spezifiziert werden. Mit ihnen können dann alle anderen Wahrscheinlichkeitswerte berechnet werden. Ein Bayessches Netz kann als eine abstrakte Wissensbasis betrachtet werden, die auf verschiedene Anwendungen zutrifft, denn sie repräsentiert die allgemeine Struktur der kausalen Prozesse, die in der Domäne ablaufen, und nicht oder weniger Details über die in der Domäne vorkommenden Individuen. Die Tabelle bedingter Wahrscheinlichkeiten für die Knoten eines Bayesschen Netzes ist folgendermaßen aufgebaut: Eine Zeile der Tabelle enthält für jeden Knotenwert die bedingte Wahrscheinlichkeit für einen bedingenden Fall. Ein bedingender Fall ist eine mögliche Kombination von Werten für die Vorgängerknoten. Er stellt also gewissermaßen ein elementares Ereignis dar. Die Werte jeder Reihe einer Tabelle bedingter Wahrscheinlichkeiten müssen sich zu 1 aufsummieren lassen, denn die Einträge repräsentieren eine erschöpfende Menge von Fällen für die Variable. Eine Tabelle für eine Boolesche Variable mit n Booleschen Vorgängerknoten enthält deshalb 2n unabhängig spezifizierbarer Wahrscheinlichkeiten. Ein Knoten ohne Vorgängerknoten hat eine Tabelle mit nur einer Zeile. Sie gibt die a priori-Wahrscheinlichkeiten jedes möglichen Werts der Variablen wieder. 12.2. Die Semantik der Bayesschen Netze 12.2.1. Bayessche Netze als Repräsentationen kombinierter Wahrscheinlichkeitsverteilungen Ein Bayessches Netz stellt eine vollständige Beschreibung einer Domäne dar. Jeder Eintrag in der kombinierten Wahrscheinlichkeitsverteilung kann aus den im Netz enthaltenen Informationen berechnet werden. Ein generischer Eintrag in die Kombination ist die Wahrscheinlichkeit der Konjunktion einzelner Wertzuordnungen zu jeder Variablen, etwa P(X1 = x1 ... Xn = xn). Dieser Ausdruck wird durch die Notation P(x1, ..., xn) abgekürzt. Der Wert des Ausdrucks ergibt sich aus Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 114 den durch die unmittelbaren Vorgängerknoten bedingten Wahrscheinlichkeiten nach folgender Formel: n P( x1 ,..., xn ) P( xi | Vorgänger ( X i )) (12.1) i 1 Das heißt, jeder Eintrag in der Kombination ist durch das Produkt der entsprechenden Elemente in den Tabellen bedingter Wahrscheinlichkeiten im Bayesschen Netz repräsentiert. Die Tabellen stellen damit eine zerlegte Repräsentation der Kombination dar. 12.2.2. Ein Verfahren zur Konstruktion Bayesscher Netze Zur Konstruktion eines Bayesschen Netzes aus der Gleichung (12.1) wird diese durch Ausnutzung der Wahrscheinlichkeit für Konjunktionen (vgl. Produktregel, Abschnitt 11.2.2) folgendermaßen umgeschrieben: n P( x1 ,..., xn ) P( xn | xn1 ,..., x1 ) P( xn1 | xn 2 ,..., x1 ) P( x2 | x1 ) P( x1 ) P( xi | xi 1 ,..., x1 ) i 1 Zusammen mit Gleichung (12.1) ergibt sich daraus P(Xi | Xi-1, ..., X1) = P(Xi | Vorgänger(Xi)) (12.2) vorausgesetzt es ist Vorgänger(Xi) {xi-1, ..., x1}. Dies lässt sich bei Bedarf durch eine topologische Sortierung der Knoten erreichen. Nach dieser Gleichung ist ein Bayessches Netz eine korrekte Repräsentation einer Domäne wenn jeder Knoten bedingungsunabhängig von seinen Vorgängerknoten in der entsprechenden Knotensortierung ist, wenn seine unmittelbaren Vorgänger gegeben sind. Zur Konstruktion eines korrekten Bayesschen Netzes müssen also für jeden Knoten unmittelbare Vorgänger gewählt werden, die diese Eigenschaft haben. Das heißt praktisch, für einen Knoten Xi sollten alle Knoten X1, ..., Xi-1 als unmittelbare Vorgänger gewählt werden, die diesen Knoten direkt beeinflussen. Eine allgemeine Prozedur zum inkrementellen Aufbau Bayesscher Netze verläuft folgendermaßen: 1. Wähle eine Menge relevanter Variablen Xi, die die Domäne beschreiben. 2. Wähle eine Ordnung auf den Variablen. 3. So lange Variable vorhanden sind führe die folgenden Schritte durch: (a) Wähle eine Variable Xi, entferne sie aus der Menge und füge einen Knoten für Xi in das Netz ein. (b) Wähle eine minimale Menge von schon im Netz befindlichen Knoten, für die bedingte Unabhängigkeit (12.2) gilt und definiere sie als Vorgänger(Xi). (c) Definiere die Tabelle bedingter Wahrscheinlichkeiten für Xi. 12.2.3. Kompaktheit und Knotenordnung Die Kompaktheit der Bayesschen Netze ist ein gutes Beispiel für die allgemeine Eigenschaft der lokalen Strukturiertheit von Systemen (sparse systems). In einem lokal strukturierten System interagiert jede Komponente nur mit einer beschränkten Anzahl anderer Komponenten, unabhängig von der Gesamtzahl der Komponenten. Das hat in der Regel nur ein lineares Wachstum der Komplexität eines Netzes zur Folge, im Unterschied zu üblichem exponentiellen Wachstum. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 115 Bei der Konstruktion eines lokal strukturierten Bayesschen Netzes ist zu beachten, dass die Variablen, die eine Variable X direkt beeinflussen, im Netz durch die Vorgängerknoten des zu X konstruierten Knotens repräsentiert werden müssen. Das heißt, diese Variablen müssen schon in das Netz eingefügt worden sein, bevor X eingefügt wird. Bei der Konstruktion des Netzes muss also mit den „Wurzelursachen“ begonnen werden, dann können die Variablen eingefügt werden, die von diesen beeinflusst werden usw. bis zu den Blättern. Wenn man versucht ein diagnostisches Modell mit Kanten von Symptomen zu Ursachen aufzubauen (z.B. im Einbruch-Beispiel eine Kante von EvaRuftAn zu Alarm oder von Alarm zu Einbruch), dann muss man irgendwann zusätzliche Abhängigkeiten zwischen andernfalls unabhängigen Ursachen einführen und oft auch zwischen gesondert voneinander auftretenden Symptomen. Wenn man bei einem kausalen Modell bleibt, muss man weniger Zahlen spezifizieren und diese sind leichter festzulegen. Im Bereich der Medizin wurde z.B. festgestellt, dass Ärzte lieber Wahrscheinlichkeitsurteile für kausale Regeln als für diagnostische Regeln abgeben. 12.2.4. Repräsentation von Tabellen bedingter Wahrscheinlichkeiten Im ungünstigsten Fall, wenn die Beziehungen zwischen den Vorgängern und den Nachfolgern völlig beliebig ist, ist der Aufwand zum Erstellen der Tabellen bedingter Wahrscheinlichkeiten sehr hoch. Üblicherweise fallen aber diese Beziehungen in eine von mehreren Kategorien mit kanonischen Verteilungen, d.h. sie passen zu einem Standardmuster. Ist das der Fall, dann kann die Tabelle einfach dadurch spezifiziert werden, dass man den Namen des Musters und vielleicht noch ein paar Parameter angibt. Das einfachste Beispiel für kanonische Verteilungen sind deterministische Knoten. Ein deterministischer Knoten hat einen Wert, der durch die Werte der Vorgängerknoten exakt spezifiziert ist, ohne Ungewissheit. Diese Beziehung kann logisch oder numerisch sein. Bei unsicheren Relationen können keine deterministischen Knoten angegeben werden. Sie können aber oft durch so genannte verrauschte logische Relationen beschrieben werden. Das Standardbeispiel für eine solche Relation ist die verrauschte ODER-Relation, eine Verallgemeinerung des logischen ODER. In der Aussagenlogik kann man z.B. formulieren Fieber Erkältung Grippe Malaria. Die verrauschte ODER-Relation geht von drei Annahmen aus. Erstens, jede Ursache hat eine Chance zur Verursachung der Wirkung, die unabhängig ist von den anderen. Zweitens, alle möglichen Ursachen sind erwähnt (im Bedarfsfall kann ein Defaultknoten eingeführt werden, der „sonstige Ursachen“ repräsentiert). Drittens, was eine Ursache an der Verursachung der Wirkung hindern kann, ist unabhängig von dem, was eine andere Ursache hindern kann. Die behindernden Phänomene werden als Rauschparameter zusammengefasst. Das folgende Zahlenbeispiel illustriert die verrauschte ODER-Relation. Es sei P(Fieber | Erkältung) = 0.4, P(Fieber | Grippe) = 0.8 und P(Fieber | Malaria) = 0.9. Dann sind die Rauschparameter 0.6, 0.2 und 0.1. Wenn keiner der Vorgängerknoten wahr ist, dann ist der Ausgabeknoten mit hundertprozentiger Sicherheit falsch. Ist genau ein Vorgängerknoten wahr dann ist der Ausgabeknoten mit der Wahrscheinlichkeit des zugehörigen Rauschparameters falsch. Allgemein ist die Wahrscheinlichkeit, dass die Ausgabe falsch ist, das Produkt der Rauschparameter derjenigen Eingabeknoten, die wahr sind. Für das Beispiel ergibt sich für alle Kombinationen von Wahrheitswerten die Tabelle 12.1. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Erkältung F F F F T T T T Grippe F F T T F F T T Seite 116 Malaria F T F T F T F T P(Fieber) 0.0 0.9 0.8 0.98 0.4 0.94 0.88 0.988 P(Fieber) 1.0 0.1 0.2 0.02 = 0.20.1 0.6 0.06 = 0.60.1 0.12 = 0.60.2 0.012 = 0.60.20.1 Tabelle 12.1 12.2.5. Bedingte Unabhängigkeitsbeziehungen in Bayesschen Netzen Für die Durchführung von Inferenzen in einem Bayesschen Netz ist es wichtig, möglichst viel über die Unabhängigkeit von Knoten voneinander zu wissen. Die Fragestellung ist, ob man feststellen kann, ob eine Knotenmenge X unabhängig von einer Knotenmenge Y bei einer gegebenen Menge von Evidenzknoten E ist. Dies leistet die so genannte richtungsabhängige Separierung oder kurz d-Separierung. Eine Knotenmenge E d-separiert zwei Knotenmengen X und Y wenn jeder ungerichtete Pfad von einem Knoten in X zu einem Knoten in Y durch E blockiert wird. Ein Pfad wird durch die Knotenmenge E blockiert, wenn es auf dem Pfad einen Knoten z gibt, für den eine der folgenden drei Bedingungen gilt: 1. z E und eine Kante des Pfads führt in z hinein und eine Kante des Pfads führt aus z heraus. 2. z E und beide Pfadkanten führen aus z heraus. 3. Weder z noch ein Nachfolger von z liegen in E und beide Pfadkanten führen in z hinein. Abbildung 12.1 illustriert die drei Fälle. (1) X E Y z (2) z (3) z Abbildung 12.1 12.3. Inferenzen in Bayesschen Netzen Prinzipiell hat jedes probabilistische Inferenzsystem die Aufgabe die Wahrscheinlichkeitsverteilung für eine Menge von Fragevariablen, ausgehend von genauen Werten für einige Evidenzvariablen, zu berechnen, d.h. es muss P(Frage | Evidenz) berechnen. Ein Agent bekommt Werte für Evidenzvariable durch Wahrnehmung oder durch Schlussfolgerung und fragt nach möglichen Werten anderer Variablen um entscheiden zu können, welche Aktion er ausführen soll. Dazu benötigt er zwei Funktionen, BELIEF-NET-TELL für die Eingabe von Werten und BELIEF-NET-ASK zur Berechnung der daraus folgenden Wahrscheinlichkeitsverteilung für eine Fragevariable. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 117 12.3.1. Das Wesen probabilistischer Inferenzen Bayessche Netze erlauben vier verschiedene Arten des Schlussfolgerns: Diagnostische Inferenz (Schließen von den Wirkungen auf die Ursachen) Beispiel: Wenn HansRuftAn wahr ist, wird geschlossen, dass P(Einbruch | HansRuftAn) = 0.016. Kausale Inferenz (Schließen von den Ursachen auf die Wirkungen) Beispiel: Wenn Einbruch wahr ist, wird geschlossen, dass P(HansRuftAn | Einbruch) = 0.86 und P(EvaRuftAn | Einbruch) = 0.67. Interkausale Inferenz (Schließen zwischen den Ursachen einer gemeinsamen Wirkung) Beispiel: Wenn Alarm wahr ist, dann ist P(Einbruch | Alarm) = 0.376. Ist zusätzlich auch noch Erdbeben wahr, dann verringert sich die Wahrscheinlichkeit des Einbruchs beträchtlich und es ist P(Einbruch | Alarm Erdbeben) = 0.003. Obwohl Einbruch und Erdbeben voneinander unabhängig sind, macht das Vorliegen von einem der beiden das andere weniger wahrscheinlich. Dieses Schlussfolgerungsmuster wird auch als Wegerklären (explaining away) bezeichnet. Gemischte Inferenzen (Kombinationen von zwei der obigen Inferenzen oder allen drei) Beispiel: Eine Kombination von diagnostischer und kausaler Inferenz ist die Berechnung P(Alarm | HansRuftAn Erdbeben) = 0.03. Eine Kombination von diagnostischer und interkausaler Inferenz ist die Berechnung P(Einbruch | HansRuftAn Erdbeben) = 0.017. Die vier Schlussfolgerungsarten sind in Abbildung 12.f illustriert. Frage Evidenz Frage Evidenz Evidenz Frage Evidenz Frage diagnostisch kausal Evidenz interkausal gemischt Abbildung 12.f Bayessche Netze können auch noch für andere Zwecke verwendet werden, nämlich für die folgenden: Entscheidungsfindung auf der Basis der Wahrscheinlichkeiten im Netz und der Nutzenwerte des Agenten. Entscheiden, welche Evidenzvariablen zusätzlich betrachtet werden sollten um nützliche Informationen zu bekommen. Durchführen einer Sensibilitätsanalyse um herauszufinden, welche Aspekte des Modells die größte Auswirkung auf die Wahrscheinlichkeiten der Fragevariablen haben. Erklärung der Ergebnisse einer probabilistischen Inferenz. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 118 12.3.2. Ein Algorithmus zur Beantwortung von Fragen Der Algorithmus zur Beantwortung von Fragen mit einem Bayesschen Netz arbeitet nach dem Prinzip der Rückwärtsverkettung. Er beginnt bei einer Fragevariablen und verfolgt die Pfade, die von dieser Variablen ausgehen bis er zu Evidenzvariablen kommt. Laufen zwei Pfade in einem Knoten zusammen, dann kann es Schwierigkeiten geben. Deshalb arbeitet die hier entwickelte Variante des Algorithmus nur auf einfach verbundenen Netzen, die auch Polybäume genannt werden. In solchen Netzen gibt es höchstens einen ungerichteten Pfad zwischen je zwei Knoten. Algorithmen für allgemeine Netze benutzen den Polybaum-Algorithmus als wichtigstes Unterprogramm. In Abbildung 12.2 ist ein generisches einfach verbundenes Netz dargestellt. + EX U1 Um X EX Znj Z1j Y1 Yn Abbildung 12.2 Der Knoten X hat die Vorgängerknoten U = U1, ..., Um und die Nachfolgerknoten Y = Y1, ..., Yn. Die Rechtecke um diese Knoten sollen bedeuten, dass darin alle Vorgänger und Nachfolger der jeweiligen Knoten enthalten sind, mit Ausnahme von X. Die einfache Verbundenheit des Netzes bedeutet, dass die Rechtecke disjunkt sind und dass es keine Kanten zwischen ihnen gibt. Es wird angenommen, dass X eine Fragevariable ist und dass es eine Menge E von Evidenzvariablen gibt, in der X nicht enthalten ist. Das Ziel ist P(X | E) zu berechnen. Zur Ableitung des Algorithmus ist es hilfreich, verschiedene Teile der vollständigen Evidenz für eine Variable zu unterscheiden. In Abbildung 12.2 sind die Knoten außer X in zwei Teilmengen EX+ und EX unterteilt. Die Menge EX+ stellt die kausale Unterstützung für X dar, also die Evidenzvariablen „oberhalb“ von X, die mit X durch seine Vorgängerknoten verbunden sind. Die Menge EX stellt die Evidenzunterstützung für X dar, also die Evidenzvariablen „unterhalb“ von X, die mit X durch seine Nachfolgerknoten verbunden sind. Manchmal will man einzelne Pfade bei der Betrachtung der Evidenzen für eine Variable ausschließen. Dies wird notiert durch EU i X . Diese Notation bezeichnet alle Evidenzen, die mit dem Knoten Ui verbunden sind außer über einen Pfad durch X. In entsprechender Weise bezeichnet EYi X alle Evidenzen die mit Yi über dessen Vorgängerknoten verbunden sind, mit Ausnahme von X. Die vollständige Evidenz kann mit Hilfe dieser Notation durch EX oder EX beschrieben werden. Die Berechnung von P(X | E) erfolgt nun in drei Schritten: Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 119 Beschreibe P(X | E) durch das, was die beiden Mengen EX+ und EX dazu beitragen. Berechne den Beitrag von EX+ durch Berechnung seiner Wirkung auf die Vorgänger von X und Fortsetzung dieser Wirkung auf X. Durch diese Vorgehensweise entsteht eine rekursive Berechnung des Gesamtproblems. Berechne den Beitrag von EX durch Berechnung seiner Wirkung auf die Nachfolger von X und Fortsetzung dieser Wirkung auf X. Durch diese Vorgehensweise entsteht ebenfalls eine rekursive Berechnung des Gesamtproblems. Da X selbst nicht in E liegt, besteht die gesamte Evidenz aus den Knoten oberhalb und unterhalb von X. Also gilt P(X | E) = P(X | EX+, EX) Um die Beiträge von EX+ und EX voneinander zu trennen, wird die bedingte Version der Bayesschen Regel (Gleichung (10.3)) mit EX+ als Hintergrundevidenz angewendet: P( E X | X , E X )P( X | E X ) P( X | E , E ) P( E X | E X ) X X X d-separiert EX+ von EX im Netz, deshalb kann man die bedingte Unabhängigkeit dazu verwenden, den ersten Term im Zähler zu vereinfachen. Außerdem kann der Anteil 1 / P( E X | E X ) als normalisierende Konstante betrachtet werden und wird mit bezeichnet. Das ergibt insgesamt P( X | E ) P( E X | X )P( X | E X ) Es müssen also nur noch die beiden Terme P( E X | X ) und P( X | E X ) berechnet werden. Zur Berechnung von P( X | E X ) werden alle möglichen Konfigurationen der Vorgänger von X betrachtet und festgestellt, wie wahrscheinlich sie bei gegebenem E X sind. Sei U = U1, ..., Um der Vektor der Vorgängerknoten von X und u eine Zuordnung von Werten zu diesen Knoten. Dann ist P( X | E X ) P( X | u, E X )P(u |E X ) u Da U X vom Rest von E X d-separiert, kann der erste Term zu P(X | u) vereinfacht werden. Der zweite Term kann vereinfacht werden weil E X jedes Ui von den anderen d-separiert und weil die Wahrscheinlichkeit einer Konjunktion unabhängiger Variablen gleich dem Produkt ihrer individuellen Wahrscheinlichkeiten ist. Das ergibt P( X | E X ) P( X | u) P(ui | E X ) u i Nun kann man noch den letzten Term dieser Gleichung vereinfachen, indem man E X in EU1 X , ..., EU mi X aufteilt und beachtet, dass EU i X Ui von allen anderen Evidenzen in E X d-separiert. das ergibt P( X | E X ) P( X | u) P(ui | EU i X ) u Technische Universität Chemnitz i Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 120 Durch Einsetzen in die Gleichung für P ( X | E ) erhält man P( X | E ) P( E X | X ) P( X | u) P(U i | Eui X ) u (12.3) i Zur Berechnung von P( E X | X ) muss über die Werte der Nachfolgerknoten Yi gemittelt werden, aber man muss auch die Vorgängerknoten der Yi in die Betrachtung einbeziehen. Jede Variable Yi hat einen Vektor Zi von Vorgängerknoten, unter Ausschluss von X. zi ist eine Zuordnung von Werten zu den Knoten Zi. Die Evidenz in jedem Yi-Rechteck ist, bei gegebenem X, unabhängig von den anderen. Deshalb ist P( E X | X ) P( EYi X | X ) i Durch Mitteln über Yi und zi erhält man P( E X | X ) P( EYi X | X , yi , z i )P( yi , z i | X ) yi i zi EYi X lässt sich in die beiden unabhängigen Komponenten EYi und EYi X aufteilen. Das ergibt P( E X | X ) P( EYi | X , yi , z i )P( EYi X | X , yi , z i )P( yi , z i | X ) yi i zi EYi ist bei gegebenem yi unabhängig von X und zi, und EYi X ist unabhängig von X und yi. In einem Teil des Ausdrucks wird nicht über zi summiert, deshalb kann er aus der zi-Summation heraus genommen werden. Das ergibt P( E X | X ) P( EYi | yi ) P( EYi X | z i )P( yi , z i | X ) yi i zi Nun wendet man die Bayessche Regel auf P( EYi X | z i ) an und erhält P( E | X ) P( E | yi ) X Yi i yi P(z i | EYi X ) P( EYi X ) P(z i ) zi P( yi , z i | X ) Die Konjunktion yi, zi kann umgeschrieben werden, so dass aus P( yi , z i | X ) zwei Terme entstehen: P( E | X ) P( E | yi ) X Yi i yi P(z i | EYi X ) P( EYi X ) P(z i ) zi P( y i | X , z i )P(z i | X ) Da Z und X d-separiert sind, ist P(z i | X ) P(z i ) , also kann man diesen Term wegkürzen. Der Term P( EYi X ) kann durch eine normalisierende Konstante i ersetzt werden. Das ergibt P( E X | X ) P( EYi | yi ) i P(z i | EYi X )P( yi | X , z i ) i yi zi Im letzten Schritt werden die Vorgänger von Yi, also die Zij, miteinander multipliziert, da sie unabhängig voneinander sind. Die Konstanten i werden zu einer normalisierenden Konstanten zusammengefasst. Man erhält als Ergebnis der Umformungen P( E X | X ) P( EYi | yi ) P( yi | X , z i ) P( zij | EZij Yi ) i Technische Universität Chemnitz yi zi (12.4) j Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 121 function BELIEF-NET-ASK(X) returns eine Wahrscheinlichkeitsverteilung über den Werten von X inputs: X, eine zufällig gewählte Variable SUPPORT-EXCEPT(X, null) function SUPPORT-EXCEPT(X, V) returns P(X | EX-V) if EVIDENCE?(X) then return festgestellte Wahrscheinlichkeitsverteilung für X else berechne P ( E X V | X ) = EVIDENCE-EXCEPT(X, V) U PARENTS[X] if U ist leer then return P ( E X V | X )P ( X ) else for each Ui U berechne und speichere P(U i | EU i X ) = SUPPORT-EXCEPT(Ui, X) return P( E X V | X ) P( X | u) P(U i | Eui X ) u i function EVIDENCE-EXCEPT(X, V) returns P ( E X V | X ) Y CHILDREN[X] V if Y ist leer then return eine gleichmäßige Wahrscheinlichkeitsverteilung else for each Yi Y do berechne P( EYi | yi ) = EVIDENCE-EXCEPT(Yi, null) Zi PARENTS[Yi] X for each Zij Zi berechne P(Z ij | EZij Yi ) = SUPPORT-EXCEPT(Zij, Yi) return P( EYi | yi ) P( yi | X , z i ) P( zij | EZij Yi ) i yi zi j 12.4. Andere Ansätze zum Schlussfolgern mit unsicherem Wissen In der KI-Forschung wurde nach ersten, nicht sehr erfolgreichen Versuchen mit der Repräsentation von Wahrscheinlichkeiten eine Reihe von Alternativen verfolgt: Default-Logik Die Wahrscheinlichkeitstheorie basiert auf der Verarbeitung exakter Zahlen. Menschen dagegen urteilen und schlussfolgern eher „qualitativ“. In der Default-Logik werden Schlussfolgerungen nicht als bis zu einem bestimmten Grad wahr angenommen, sondern werden so lange als gültig angenommen, bis ein überzeugender Grund gefunden wird etwas Anderes als gültig anzunehmen. Regelbasierte Ansätze basieren auf den logischen regelbasierten Systemen, sie fügen aber zu jeder Regel einen „Vagheitsfaktor“ hinzu um damit die Unsicherheit zu berücksichtigen. Sie wurden vor allem bei der Entwicklung von Expertensystemen in den 70-er Jahren verwendet. Dempster-Shafer-Theorie In dieser Theorie werden intervallwertige Grade von Überzeugtheit verwendet um das Wissen eines Agenten über die Wahrscheinlichkeit einer Aussage zu repräsentieren. Fuzzy-Logik Mit Hilfe der Fuzzy-Logik können Aussagen mit einer gewissen Vagheit gemacht werden, d.h. eine Aussage kann bis zu einem gewissen Grad wahr sein. In der Logik und in der Wahrscheinlichkeitstheorie sind Aussagen immer nur wahr oder falsch, auch dann, wenn ein Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 122 Agent unsicher ist, welches von beiden der Fall ist. Vagheit ist ein grundlegend anderes Konzept als Wahrscheinlichkeit, beide stehen orthogonal zueinander. 12.4.1. Default Reasoning Es gibt verschiedene Kalküle für das nichtmonotone Schlussfolgern: Default-Logik (Reiter), nichtmonotone Logik (McDermott und Doyle) und Circumscription (McCarthy). Alle erlauben das Schlussfolgern mit Default-Regeln und das Zurücknehmen von Annahmen. Einige wesentliche Schwierigkeiten des nichtmonotonen Schlussfolgerns haben alle drei gemeinsam: Welchen semantischen Status haben Default-Regeln? Wenn eine Aussage falsch sein kann (z.B. „Autos haben vier Räder“), was bedeutet es dann, sie in der Wissensbasis zu haben? Was ist eine brauchbare Menge von Default-Regeln? Was geschieht, wenn die Prämissen zweier Default-Regeln mit widersprüchlichen Konklusionen erfüllt sind? In manchen Systemen wird dieser Fall durch Angabe von Prioritätsregeln ausgeschlossen. Eine solche Priorität ist die Spezifizitätspräferenz. Bei ihr hat eine speziellere Regel höhere Priorität gegenüber einer allgemeineren. Ein System des nichtmonotonen Schlussfolgerns kann aus Annahmen Schlüsse ziehen. Was geschieht, wenn diese Annahmen später teilweise oder ganz wieder zurückgezogen werden? Wie kann man feststellen, welche Schlüsse wegen der revidierten Annahmen ebenfalls zurückgezogen werden müssen? Wenn nur wenige der Annahmen für eine Schlussfolgerung zurückgezogen werden möchte man sie beibehalten, in anderen Fällen dagegen muss man sie verwerfen. Für diesen Zweck wurden so genannte Truth Maintenance-Systeme entwickelt. Wie können Annahmen, die Default-Status haben, zur Entscheidungsfindung benutzt werden? Bei Entscheidungen muss man oft einen Kompromiss zwischen verschiedenen Möglichkeiten finden und dazu benötigt man die Stärke von Annahmen. Diese ist aber kontextabhängig. 12.4.2. Regelbasierte Methoden für das unsichere Schlussfolgern Abgesehen von der Monotonie haben logische Schlussfolgerungssysteme noch drei andere Eigenschaften, die probabilistische Schlussfolgerungssysteme nicht haben: Lokalität Ist in einem logischen System eine Regel der Form A B sowie die Evidenz A gegeben, dann kann man auf B schließen ohne die anderen Regeln zu berücksichtigen. In probabilistischen Systemen muss man immer alle vorhandenen Evidenzen betrachten. Abtrennung Wenn in einem logischen System eine Ableitung für eine Aussage B gefunden worden ist, kann diese losgelöst von ihrer Herleitung verwendet werden, d.h. sie kann von ihrer Rechtfertigung abgetrennt werden. In probabilistischen Systemen ist der Ursprung der Evidenz für eine Annahme wichtig für das weitere Schlussfolgern. Kompositionalität In der Logik kann die (wahrheitsfunktionale) Bedeutung eines Satzes aus den Bedeutungen seiner Bestandteile berechnet werden. In probabilistischen Systemen ist das im Allgemeinen nicht möglich, vielmehr nur unter starken Unabhängigkeitsannahmen. Wegen der offenkundigen Vorteile der logischen Systeme wurde versucht, unsicheres Schlussfolgern auf der Basis solcher Systeme zu realisieren. Das Prinzip dabei ist, den Grad an Überzeugung für eine Aussage als verallgemeinerten Wahrheitswert aufzufassen. Jeder atomaren Aussage wird ein verallgemeinerter Wahrheitswert zugeordnet und für zusammengesetzte Aussagen werden Regeln für die Berechnung des Wahrheitswerts aus den Werten ihrer Komponenten festgelegt. Bei Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 123 näherer Betrachtung zeigt sich aber, dass die Prinzipien der Lokalität, Abtrennung und Kompositionalität für das unsichere Schlussfolgern nicht adäquat sind. Bei der Verkettung von Evidenzen in einer Ableitung entstehen noch mehr Probleme. Kompositionale Systeme besitzen Regeln der Form A B mit denen man den Wahrheitswert von B als Funktion der Wahrheitswerte von A und der ganzen Regel berechnen kann. Der Wahrheitswert der Regel wird als konstant betrachtet und wird vom Entwickler vorgegeben, z.B. in der Form A 0.9 B . Dabei kann es passieren, dass man in einen zirkulären Schluss gerät, und zwar dadurch, dass Regeln für das kausale und für das diagnostische Schlussfolgern vorhanden sind. Dann kann es sein, dass der Wahrheitswert der abgeleiteten Aussage sich aufschaukelt oder gegen Null geht. Das interkausale Schlussfolgern kann bei Vorliegen kausaler und diagnostischer Regeln ebenfalls zu unsinnigen Schlüssen führen. Trotz dieser Schwierigkeiten wurden wahrheitsfunktionale Systeme für das unsichere Schlussfolgern als brauchbar betrachtet. Das erste System dieser Art war MYCIN, und nach ihm wurden noch mehrere Expertensysteme auf der Basis der Sicherheitsfaktoren von MYCIN entwickelt. Dass sie einigermaßen funktionierten, liegt daran, dass ihr Einsatzgebiet stark eingeschränkt war und dass die Wissensbasis sehr sorgfältig aufgebaut wurde. Die Regeln waren entweder rein diagnostisch oder rein kausal, Evidenzen wurden nur Aussagen gegeben, die am Anfang von Ableitungsketten standen und die Regelmengen waren einfach verknüpft. Es kann gezeigt werden, dass unter diesen Voraussetzungen dass Schlussfolgern mit Sicherheitsfaktoren äquivalent ist zum Bayesschen Schlussfolgern auf Polybäumen. 12.4.3. Repräsentation von Unwissen: Die Dempster-Shafer-Theorie Die Dempster-Shafer-Theorie beschäftigt sich mit dem Unterschied zwischen Unsicherheit und Unwissen. Es wird nicht die Wahrscheinlichkeit einer Aussage berechnet, sondern die Wahrscheinlichkeit, mit der eine Evidenz eine Aussage stützt. Dies wird durch so genannte Belief-Funktionen ausgedrückt, geschrieben Bel(X). Die Dempster-Shafer-Theorie erlaubt in vielen Fällen keine definitive Entscheidung zwischen verschiedenen Aktionen, in denen die probabilistische Inferenz eine solche Entscheidung liefert. Das liegt daran, dass das Prinzip des Nutzens in der Dempster-Shafer-Theorie nicht klar ist, teilweise deshalb, weil die Semantik des Operators Bel nicht präzise im Hinblick auf Entscheidungsfindung definiert ist. Die Dempster-Shafer-Theorie kann auch so interpretiert werden, dass sie ein Wahrscheinlichkeitsintervall definiert. Die Größe des Intervalls ist ein Hinweis darauf, ob mehr Evidenz für eine Entscheidung erforderlich ist. 12.5.4. Repräsentation von Vagheit: Unscharfe Mengen und Fuzzy Logic Mit der Theorie unscharfer Mengen (Fuzzy set theory) ist es möglich zu spezifizieren, wie gut eine vage Beschreibung auf ein Objekt zutrifft. Ist z.B. die Aussage „Hans ist groß“ gegeben und man weiß, das Hans 1,80 m groß ist, dann wird man die Aussage „Hans ist groß“ weder für wahr noch für falsch halten, vielmehr wird man sagen, sie treffe auf Hans bis zu einem gewissen Grad zu. Das kommt daher, dass der sprachliche Ausdruck „groß“ nicht scharf definiert ist. Deshalb wird die Fuzzy Logic oft nicht als eine Form des unsicheren Schließens betrachtet. Die Theorie unscharfer Mengen wird dieser Sachverhalt in folgender Weise repräsentiert: Man betrachtet den Ausdruck GroßePerson als unscharfes Prädikat und legt fest, dass der Wahrheitswert Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 124 des Satzes GroßePerson(Hans) eine Zahl zwischen 0 und 1 ist und nicht nur einer der Werte wahr oder falsch. Ein unscharfes Prädikat repräsentiert eine Menge, und zwar die Menge der Objekte, auf die das Prädikat bis zu einem gewissen Grad zutrifft. Dies Menge hat deshalb keinen scharfen Rand. Streng genommen gehören alle Objekte des betrachteten Universums zu der Menge, die meisten aber mit dem Zugehörigkeitsgrad 0. Diese werden oft als nicht zu der Menge gehörend betrachtet. Die Fuzzy Logic ist kompositional. Der Wahrheitswert einer zusammengesetzten Aussage wird mittels einer Funktion ermittelt. Es gibt eine große Zahl von Funktionen für diesen Zweck, für die Junktoren , und sind die Folgenden am gebräuchlichsten: T(A B) = min(T(A), T(B)) T(A B) = max(T(A), T(B)) T(A) = 1 T(A) Ein Problem der Fuzzy Logic ist, dass sie inkonsistent mit der Aussagenlogik und der Logik erster Ordnung ist. In der Standardlogik gilt z.B. A A Wahr, in der Fuzzy Logic gilt dagegen, dass T(A A) T(Wahr). 12.6. Zusammenfassung In diesem Kapitel ging es wie in Kapitel 7 um richtiges Schlussfolgern. Aber der Begriff hat in beiden Fällen unterschiedliche Bedeutung. In der Logik erster Ordnung bedeutet er, dass aus Prämissen Konklusionen folgen. Wenn die Prämissen adäquate Repräsentationen der Welt sind, dann sind es auch die Konklusionen. In der Probabilistik geht es um Annahmen, nicht um Weltzustände. Richtiges Schlussfolgern bedeutet hier, dass ein Agent die richtigen Annahmen hat, die es ihm erlauben, rational zu handeln. Das Schlussfolgern mit Wahrscheinlichkeiten ist ein ziemlich neues Gebiet und es gibt im wesentlichen nur einen Formalismus dafür, die Bayesschen Netze. Die wichtigsten Punkte sind: Informationen über eine unsichere Domäne lassen sich gut mittels bedingter Wahrscheinlichkeiten strukturieren. Bayessche Netze sind eine natürliche Möglichkeit bedingte Wahrscheinlichkeiten zu repräsentieren. Die Kanten zwischen den Knoten repräsentieren die qualitativen Aspekte der Domäne und die Tabellen bedingter Wahrscheinlichkeiten repräsentieren die quantitativen Aspekte. Ein Bayessches Netz ist eine vollständige Repräsentation für die kombinierte Wahrscheinlichkeitsverteilung der Domäne, aber es hat oft exponentiell kleineren Umfang. Inferieren in Bayesschen Netzen bedeutet die Wahrscheinlichkeitsverteilung einer Menge von Fragevariablen bei gegebenen Evidenzvariablen zu berechnen. Bayessche Netze können kausal, diagnostisch, gemischt oder interkausal schlussfolgern. Kein anderer Mechanismus für unsicheres Schlussfolgern beherrscht alle diese Modi. Die Komplexität des Schlussfolgerns in Bayesschen Netzen hängt von der Netzstruktur ab. In Polybäumen ist der Zeitbedarf linear mit der Größe des Netzes. Es gibt verschiedene Inferenzverfahren für allgemeine Bayessche Netze, die alle exponentielle Komplexität haben. In realen Anwendungsbereichen macht die lokale Struktur die Dinge im Allgemeinen einfacher, aber bei einer Größenordnung von mehr als 100 Knoten lässt nur schwer ein handhabbares Netz herstellen. Technische Universität Chemnitz Sommersemester 2006 Einführung in die Künstliche Intelligenz Seite 125 Man kann auch Näherungsverfahren verwenden, u.a. stochastische Simulation, um eine Schätzung der wirklichen Wahrscheinlichkeiten mit weniger Rechenaufwand zu bekommen. Verschiedene alternative Systeme für das Schlussfolgern mit unsicherem Wissen sind vorgeschlagen worden. Es handelt sich um wahrheitsfunktionale Systeme, die Probleme mit dem gemischten und interkausalen Schlussfolgern haben. Technische Universität Chemnitz Sommersemester 2006