11. Unsicherheit

Werbung
Einführung in die Künstliche Intelligenz
Seite 105
11. Unsicherheit
11.1. Handeln unter Unsicherheit
Agenten haben in der realen Welt fast nie Zugang zu der vollständigen Wahrheit über ihre
Umgebung. Diese ist aber eigentlich für einen logikbasierten Agenten notwendig, denn er speichert
sein Wissen in Form von logischen Sätzen, und diese sind entweder wahr oder falsch. Einige Sätze
können direkt durch die Wahrnehmung des Agenten bestätigt werden, andere können aus der
jetzigen und früheren Wahrnehmungen und dem Wissen über die Eigenschaften der Umgebung
abgeleitet werden. Fast immer gibt es aber wichtige Fragen, die nicht kategorisch beantwortet
werden können. Deshalb muss der Agent in der Lage sein, unter Unsicherheit zu handeln.
Unsicherheit kann auch dadurch entstehen, dass der Agent die Eigenschaften der Umgebung unvollständig oder inkorrekt versteht. Viele Regeln über den Anwendungsbereich können unvollständig
sein, weil die Zahl der Bedingungen zu groß ist um alle aufzählen zu können oder weil einige der
Bedingungen unbekannt sind. Dieser Sachverhalt wird als das Qualifikationsproblem bezeichnet.
Die Auswahl der richtigen Handlung, d.h. also die rationale Entscheidung, hängt von der relativen
Wichtigkeit verschiedener Ziele und der Wahrscheinlichkeit, dass sie und bis zu welchem Grad sie
erreicht werden, ab.
11.1.1. Die Behandlung unsicheren Wissens
Die Behandlung eines Anwendungsbereichs, das einen hohen Anteil unsicheren Wissens besitzt,
wie z.B. die medizinische Diagnose, mittels Logik scheitert aus drei Hauptgründen:

Faulheit: Es ist zu viel Arbeit die vollständige Menge von Voraussetzungen und Konsequenzen, die zur Formulierung einer Regel ohne Ausnahmen notwendig sind, aufzuführen und zu
schwer, die ungeheuer großen Regeln, die sich ergeben würden, zu benutzen.

Theoretische Unwissenheit: Die medizinische Wissenschaft hat keine vollständige Theorie für
ihr Gebiet.

Praktische Unwissenheit: Selbst wenn alle Regeln bekannt wären, könnte Unsicherheit über
einen einzelnen Patienten bestehen, weil nicht alle notwendigen Tests ausgeführt wurden oder
ausgeführt werden konnten.
Die Verknüpfung von Symptomen und Ursachen bei der Diagnose ist keine logische Konsequenz,
weder in der einen, noch in der anderen Richtung. Das ist typisch für Domänen, in denen Dinge
beurteilt werden, z.B. Rechtsprechung, Betriebswirtschaft, Entwurf und Konstruktion, Autoreparatur u.a. In solchen Domänen kann die Wissensbasis des Agenten bestenfalls einen Grad an Überzeugung von den relevanten Sätzen liefern. Das Hauptwerkzeug zur Behandlung von Graden an
Überzeugung ist die Wahrscheinlichkeitstheorie, die jedem Satz einen numerischen Grad an Überzeugung zwischen 0 und 1 zuordnet. Die Wahrscheinlichkeit ist eine Möglichkeit die Unsicherheit,
die aus der Faulheit und Unwissenheit resultiert, zusammenzufassen.
In der Wahrscheinlichkeitstheorie wird, wie in der klassischen Logik, angenommen, dass ein Satz
entweder wahr oder falsch ist. Aufgrund beschränkten Wissens weiß man aber nicht, was wirklich
gilt, deshalb versieht man jeden Satz mit einem Grad an Überzeugung, mit dem ein Agent ihn für
wahr hält. Bei der Wahrscheinlichkeit 0 ist der Agent fest überzeugt, dass der Satz falsch ist (er
könnte aber trotzdem wahr sein), und bei der Wahrscheinlichkeit 1 ist er überzeugt, dass der Satz
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 106
wahr ist, entsprechend für die Zwischenwerte. Etwas anderes sind Grade an Wahrheit für Sätze, die
subjektiv oder durch Vereinbarung festgelegt sind. Diese werden in der Fuzzy-Logik behandelt.
Die Wahrscheinlichkeit, die ein Agent einem Satz zuordnet, hängt von den Wahrnehmungen ab, die
der Agent bis zum aktuellen Zeitpunkt gemacht hat. Diesen Sachverhalt nennt man Evidenz. Da die
gemachten Wahrnehmungen Bestandteil der Wissensbasis sind, entspricht die Zuordnung einer
Wahrscheinlichkeit zu einem Satz der Möglichkeit, zu der ein Satz oder seine Negation aus der
Wissensbasis folgt. So wie sich der Status der Folgerbarkeit ändern kann, wenn mehr Sätze zur
Wissensbasis hinzugefügt werden, können sich Wahrscheinlichkeiten ändern, wenn mehr Evidenz
gewonnen wird.
Alle Wahrscheinlichkeitsaussagen müssen deshalb einen Hinweis auf die Evidenz enthalten, mit
Bezug auf welche die Wahrscheinlichkeit festgestellt wurde. Nach neuen Wahrnehmungen müssen
die Wahrscheinlichkeiten aktualisiert werden. Die Wahrscheinlichkeiten vor Erhalt einer Evidenz
heißen a priori- oder unbedingte Wahrscheinlichkeiten, nach Erhalt der Evidenz heißen sie a
posteriori- oder bedingte Wahrscheinlichkeiten. Diese Begriffe sind also relativ zu Evidenzen
definiert.
11.1.2. Unsicherheit und rationale Entscheidungen
Um gute Entscheidungen zu treffen muss ein Agent unterschiedliche Präferenzen für die möglichen Ergebnisse verschiedener Pläne haben. Ein Ergebnis ist ein vollständig spezifizierter Zustand.
Zur Repräsentation von Präferenzen und zum Schlussfolgern über sie wird die Nutzentheorie
verwendet. Der Nutzen einer Sache ist ihre Eigenschaft nützlich zu sein. Die Nutzentheorie besagt,
dass jeder Zustand einen bestimmten Grad an Nützlichkeit oder Nutzen für einen Agenten hat und
dass der Agent Zustände mit höherem Nutzen bevorzugt.
Der Nutzen eines Zustands ist immer relativ zu dem Agenten, dessen Nutzenfunktion er repräsentiert, bestimmt. Typische Nutzenfunktionen sind die Auszahlungsfunktionen bei Spielen. Die Präferenzen verschiedener Agenten können sehr unterschiedlich sein, sie lassen sich nicht qualifizieren.
Aber jeder Agent, der gemäß seiner eigenen Nutzenfunktion entscheidet, handelt rational. Die
Nutzentheorie schließt Altruismus nicht aus. Ein Agent kann einem Zustand einen hohen Nutzen
zuordnen, bei dem er einen Nachteil hat und andere profitieren. Dann verhält er sich altruistisch.
Präferenzen, ausgedrückt durch Nutzen, werden mit Wahrscheinlichkeiten in der allgemeinen
Theorie rationaler Entscheidungen, genannt Entscheidungstheorie, kombiniert:
Entscheidungstheorie = Wahrscheinlichkeitstheorie + Nutzentheorie
Die grundlegende Idee der Entscheidungstheorie ist, dass ein Agent rational ist genau dann, wenn er
immer die Aktion wählt, die ihm den höchsten erwarteten Nutzen bringt, gemittelt über alle möglichen Ergebnisse der Aktion. Dies ist das Prinzip des maximalen erwarteten Nutzens (maximum
expected utility, MEU). Der Nutzen eines Ergebnisses wird dabei mit der Wahrscheinlichkeit seines
Eintretens gewichtet.
11.1.3. Entwurf eines entscheidungstheoretischen Agenten
Die Struktur des entscheidungstheoretischen Agenten ist ähnlich der des logikbasierten Agenten
von Kapitel 6. Die folgende Funktion implementiert diesen Agententyp.
function DT-AGENT(Wahrnehmung) returns eine Aktion
static: eine Menge probabilistischer Annahmen über den Zustand der Welt
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 107
berechne aktualisierte Wahrscheinlichkeiten für den aktuellen Zustand auf der Grundlage
der erhältlichen Evidenz einschließlich der aktuellen Wahrnehmung und der vorherigen
Aktion
berechne die Ergebniswahrscheinlichkeiten für Aktionen bei gegebenen
Aktionsbeschreibungen und Wahrscheinlichkeiten der aktuellen Zustände
wähle die Aktion mit dem größten erwarteten Nutzen bei gegebenen Wahrscheinlichkeiten
der Ergebnisse und Nutzeninformationen
return Aktion
11.2. Grundlegende Notationen für Wahrscheinlichkeit
11.2.1. A priori-Wahrscheinlichkeit
Die Notation P(A) bezeichnet die unbedingte oder a priori-Wahrscheinlichkeit, dass die Aussage
A wahr ist. Die Aussage P(A) kann nur gemacht werden, wenn keine andere Information vorliegt.
Sobald eine neue Information B bekannt wird, kann man nur noch die bedingte Wahrscheinlichkeit
von A bei gegebenem B anstelle von P(A) behaupten.
Die Aussage eines Wahrscheinlichkeitsstatements kann durch ein Aussagensymbol repräsentiert
werden oder durch eine Gleichung mit sogenannten Zufallsvariablen. Eine Zufallsvariable X hat
einen Wertebereich x1, ..., xn, der meistens als Menge diskreter Werte angenommen wird. Eine
Gleichung mit der Zufallsvariablen X hat die Form X = xi.
Aussagensymbole können als Zufallsvariablen mit dem Wertebereich wahr, falsch, d.h. als
Boolesche Zufallsvariablen betrachtet werden. Die Notation P(A) ist damit eine Abkürzung für P(A
= wahr), entsprechend P(A) eine Abkürzung für P(A = falsch). Die Buchstaben A, B, ... werden
für Boolesche Zufallsvariable verwendet, die Buchstaben X, Y, ... für mehrwertige Zufallsvariable.
Zur Bezeichnung der Wahrscheinlichkeiten aller möglichen Werte einer Zufallsvariablen X wird
das Symbol P verwendet. Es ist also P(X) = w1, ..., wn, wobei P(X = xi) = wi. Diese Gleichung
definiert die Wahrscheinlichkeitsverteilung der Zufallsvariablen X.
Abkürzend wird die Notation P(X, Y) verwendet. Sie bezeichnet alle Kombinationen der Wahrscheinlichkeiten der Werte von X und Y, d.h. eine Matrix mit den Elementen (wi, vi), wobei vi die
Wahrscheinlichkeiten der Werte von Y sind. Auch komplexeren Sätzen, gebildet aus elementaren
Aussagen mittels Junktoren, können Wahrscheinlichkeiten zugeordnet werden.
11.2.2. Bedingte Wahrscheinlichkeit
Sobald der Agent Evidenz über eine bisher unbekannte Aussage seiner Domäne erhält, kann er
keine a priori-Wahrscheinlichkeiten mehr zuordnen. Statt dessen werden bedingte oder a posteriori-Wahrscheinlichkeiten verwendet, geschrieben P(A|B) und gelesen „die Wahrscheinlichkeit
von A unter der Voraussetzung, dass B alles ist, was bekannt ist“.
Bei der Formulierung P(A|B) ist genau zu beachten, dass keine andere Information außer B vorliegt.
Ist z.B. auch die Information C gegeben, dann kann man nur die bedingte Wahrscheinlichkeit P(A|B
 C) angeben. Die a priori-Wahrscheinlichkeit P(A) kann als Spezialfall der bedingten Wahrscheinlichkeit P(A| ) aufgefasst werden, bei der die Wahrscheinlichkeit durch keine Evidenz bedingt ist.
Die P-Notation kann auch für bedingte Wahrscheinlichkeiten verwendet werden. P(X|Y) stellt eine
zweidimensionale Matrix mit den Werten von P(X = xi|Y = yi) für jedes Paar i, j dar. Bedingte
Wahrscheinlichkeiten können durch unbedingte definiert werden. Es gilt
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 108
P( A | B) 
P( A  B)
P( B)
(11.1)
wenn P(B) > 0. Diese Gleichung kann umgeschrieben werden in
P( A  B)  P( A | B) P( B)
Diese Gleichung heißt die Produktregel. Vertauscht man in der Gleichung (11.1) A und B, dann
erhält man wegen der Kommutativität der Konjunktion die Produktregel
P( A  B)  P( B | A) P( A)
Die P-Notation kann auch auf Gleichungen der Art der Produktregel angewendet werden. Man kann
z.B. schreiben
P(X, Y) = P(X|Y)P(Y)
Diese Gleichung stellt eine Menge von Gleichungen dar, die die einander entsprechenden Einträge
in den zugrundeliegenden Tabellen zueinander in Beziehung setzen. Sie stellt keine Matrixmultiplikation dar. Eine dieser Gleichungen hat z.B. die Form
P(X = x1  Y = y2) = P(X = x1|Y = y2)P(Y = y2)
11.3. Die Wahrscheinlichkeitsaxiome
1.
Alle Wahrscheinlichkeiten liegen zwischen 0 und 1.
0  P(A)  1
2.
Notwendigerweise wahre Aussagen haben die Wahrscheinlichkeit 1, notwendigerweise falsche
Aussagen haben die Wahrscheinlichkeit 0.
P(wahr) = 1
P(falsch) = 0
3.
Die Wahrscheinlichkeit einer Disjunktion ist definiert durch
P(A  B) = P(A) + P(B) – P(A  B)
11.3.1. Warum die Wahrscheinlichkeitsaxiome vernünftig sind
de Finetti bewies: Wenn in einer Wettsituation Agent 1 eine Menge von Graden an Überzeugung
angibt, die die Wahrscheinlichkeitsaxiome verletzen, dann gibt es eine Wettstrategie für Agent 2,
die garantiert, dass Agent 1 Geld verliert. Wenn sich also ein Agent bei seinen Handlungen nach
seinen Graden an Überzeugung richtet (z.B. indem er Geld bei Wetten einsetzt), dann handelt er
irrational, wenn er Überzeugungen hat, die die Wahrscheinlichkeitsaxiome verletzen.
Das folgende Beispiel illustriert de Finettis Theorem. Angenommen Agent 1 habe die folgende
Menge von Graden an Überzeugung:
P(A) = 0.4
P(B) = 0.3
P(A  B) = 0.8
Agent 2 wettet 4 € auf A, 3 € auf B und 2 € auf (A  B). Die folgende Tabelle zeigt, dass Agent 1
immer Geld verliert, unabhängig von den Ergebnissen für A und B.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 109
Agent 1
Agent 2
Aussage Überzeugung
Wette
Einsatz
A
0.4
A
4 zu 6
B
0.3
B
3 zu 7
0.8
2 zu 8
AB
(A  B)
AB
-6
-7
2
-11
Ergebnis für Agent 1
A  B
A  B
-6
4
3
-7
2
2
-1
-1
A  B
4
3
-8
-1
11.3.2. Die kombinierte Wahrscheinlichkeitsverteilung
Ein probabilistisches Modell einer Domäne besteht aus einer Menge von Zufallsvariablen, die
einzelne Werte mit bestimmten Wahrscheinlichkeiten annehmen können. Die Variablen seien X1,
..., Xn. Ein atomares Ereignis ist eine Zuordnung einzelner Werte zu allen Variablen, d.h. eine
vollständige Spezifikation des Zustands der Domäne. Die kombinierte Wahrscheinlichkeitsverteilung P(X1, ..., Xn) (kurz: Kombination) ordnet allen möglichen atomaren Ereignissen Wahrscheinlichkeiten zu. P(Xi) ist ein eindimensionaler Vektor von Wahrscheinlichkeiten für die möglichen Werte der Variablen Xi. Damit ist die Kombination eine n-dimensionale Tabelle mit einem
Wert in jedem Feld, der die Wahrscheinlichkeit des jeweiligen Zustands angibt.
Da die atomaren Ereignisse sich gegenseitig ausschließen, ist jede Konjunktion atomarer Ereignisse
notwendigerweise falsch. Da sie gemeinsam erschöpfend sind, ist ihre Disjunktion notwendigerweise wahr. Deshalb folgt aus dem zweiten und dritten Wahrscheinlichkeitsaxiom, dass sich die
Einträge in der Tabelle zu 1 aufsummieren. Die kombinierte Wahrscheinlichkeitsverteilung kann
auch dazu benutzt werden, jede Wahrscheinlichkeitsaussage in einer gegebenen Domäne zu berechnen. Die Aussage wird dazu als Disjunktion der entsprechenden atomaren Ereignisse dargestellt und
es werden die Wahrscheinlichkeiten der einzelnen Ereignisse addiert. Addiert man speziell über
eine Zeile oder eine Spalte der Tabelle, dann erhält man die unbedingte Wahrscheinlichkeit einer
Variablen.
Aus der kombinierten Wahrscheinlichkeitsverteilung können auch die Werte für bedingte Wahrscheinlichkeiten bestimmt werden. Dazu wird die Gleichung (11.1) benutzt.
11.4. Die Bayessche Regel und ihre Verwendung
Ausgehend von den beiden Formen der Produktregel
P( A  B)  P( A | B) P( B)
P( A  B)  P( B | A) P( A)
erhält man durch Gleichsetzen die Gleichung
P( B | A) 
P( A | B) P( B)
P( A)
(11.2)
Diese Gleichung heißt Bayessche Regel (oder Bayessches Gesetz oder Bayessches Theorem). Alle
modernen KI-Systeme für das probabilistische Schließen basieren auf ihr. Für den allgemeineren
Fall mehrwertiger Zufallsvariablen kann es mittels der P-Notation so geschrieben werden:
P(Y | X ) 
Technische Universität Chemnitz
P( X | Y )P(Y )
P( X )
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 110
Diese Gleichung repräsentiert wieder eine Menge von Gleichungen, die die entsprechenden Elemente der Tabellen zueinander in Beziehung setzen. Es wird im Folgenden noch eine etwas allgemeinere Form dieser Regel benutzt, bei der die Aussagen durch eine Hintergrundevidenz bedingt
sind:
P(Y | X , E ) 
P( X | Y , E )P(Y | E )
P( X | E )
(11.3)
11.4.1. Eine einfache Anwendung der Bayesschen Regel
Es ist bekannt, dass Meningitis in 50% der Fälle einen steifen Hals verursacht. Außerdem sind
einige unbedingte Tatsachen bekannt: Die a priori-Wahrscheinlichkeit, dass ein Patient Meningitis
hat, ist 1/50000, und die a priori-Wahrscheinlichkeit, dass ein Patient einen steifen Nacken hat, ist
1/20. S bedeute, dass der Patient einen steifen Nacken hat, und M, dass er Meningitis hat. Damit
lässt sich die Bayessche Regel wie folgt anwenden:
P(S|M) = 0.5
P(M) = 1/50000
P(S) = 1/20
P( S | M ) P( M ) 0.5  1 / 50000
P( M | S ) 

 0.0002
P( S )
1 / 20
11.4.2. Normalisierung
Durch Normalisierung ist es möglich, in einer durch ein Symptom bedingten Wahrscheinlichkeit
die a priori-Wahrscheinlichkeit des Symptoms zu eliminieren. Ist
P(U | S ) 
P( S | U ) P(U )
P( S )
die Wahrscheinlichkeit der Ursache U, bedingt durch das Symptom S, dann kann man mittels der
Normalisierungskonstanten 1/P(S) die a priori-Wahrscheinlichkeit P(S) beseitigen. P(S) kann durch
eine erschöpfende Betrachtung von Fällen ermittelt werden. Gibt es z.B. nur die beiden Fälle U und
U, dann ist
P(S) = P(S|U)P(U) + P(S |U)P(U)
Daraus ergibt sich
P(U | S ) 
P( S | U ) P(U )
P( S | U ) P(U )  P( S | U ) P(U )
Im allgemeinen mehrwertigen Fall erhält man
P(Y|X) = P(X|Y)P(Y)
wobei  die Normalisierungskonstante ist, die dafür sorgt, dass sich die Einträge in der Tabelle
P(Y|X) zu 1 addieren.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 111
11.4.3. Benutzung der Bayesschen Regel: Kombination von Evidenzen
In vielen Anwendungsbereichen kann die Anwendung der Bayesschen Regel zu einer Form vereinfacht werden, die weniger Wahrscheinlichkeiten benötigt um ein Ergebnis zu produzieren. Ein
erster Schritt dazu ist der Prozess der Bayesschen Aktualisierung. Danach wird Evidenz schrittweise in die bisherige Annahme über eine unbekannte Variable eingebaut. Der Vorgang wird am
Zahnweh-Beispiel demonstriert. Er beginnt mit
P( LochImZahn | Zahnweh)  P( LochImZahn)
P( Zahnweh | LochImZahn)
P( Zahnweh)
Kommt nun eine neue Beobachtung hinzu, z.B. Häkchenprobe, dann wird darauf die Bayessche
Regel angewandt, wobei Zahnweh als fester bedingender Kontext verwendet wird.
P( LochImZahn | Zahnweh  Häkchenprobe)
 P( LochImZahn | Zahnweh)
 P( LochImZahn)
P( Häkchenprobe | Zahnweh  LochImZahn)
P( Häkchenprobe | Zahnweh)
P( Zahnweh | LochImZahn) P( Häkchenprobe | Zahnweh  LochImZahn)
P( Zahnweh)
P( Häkchenprobe | Zahnweh)
Haben verschiedene Symptome dieselbe direkte Ursache, dann sind sie bedingungsunabhängig
voneinander. Die Gleichung für die Bayessche Aktualisierung kann dann vereinfacht werden,
indem in einer Und-Verknüpfung von Symptom und Ursache das Symptom weggelassen wird.
Man kann die Bedingungsunabhängigkeit auch im mehrwertigen Fall verwenden. Die Unabhängigkeit von X und Y bei gegebenem Z wird notiert durch
P(X|Y, Z) = P(X|Z)
Diese Gleichung repräsentiert eine Menge von Bedingungsunabhängigkeits-Statements. Die entsprechende Vereinfachung der Bayesschen Regel ist
P(Z|X, Y) = P(Z)P(X|Z)P(Y|Z)
11.5. Woher kommen die Wahrscheinlichkeiten?
Bezüglich der Frage, woher die Wahrscheinlichkeiten kommen, gibt es drei verschiedene Positionen:

Nach der frequentistischen Position kommen sie nur durch Experimente, d.h. durch statistische
Untersuchungen zustande.

Die objektivistische Position behauptet, dass die Wahrscheinlichkeiten reale Aspekte der Welt
sind, nämlich die Tendenz von Objekten, sich in bestimmter Weise zu verhalten, und nicht nur
Beschreibungen des Überzeugungsgrades eines Beobachters. Aus dieser Sicht sind die frequentistischen Messungen Versuche die realen Wahrscheinlichkeitswerte zu beobachten.

Die subjektivistische Sicht beschreibt die Wahrscheinlichkeiten als einen Weg, die Überzeugungen eines Agenten zu charakterisieren. Sie müssen keine externe physikalische Bedeutung
haben.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 112
Das Referenzklassenproblem besteht darin, eine adäquate Vergleichsklasse von Beispielen für
einen Fall zu finden. Diese Klasse sollte nicht zu allgemein sein, sonst erlaubt sie keine substantielle Aussage mehr, aber auch nicht zu eingeschränkt, sonst ist kein Vergleich mit ähnlichen Fällen
möglich.
11.6. Zusammenfassung
Es wurde gezeigt, dass Wahrscheinlichkeit der richtige Weg ist um über Unsicherheit zu schlussfolgern. Die wichtigsten Punkte sind:

Unsicherheit entsteht durch Faulheit und Unwissenheit. Sie ist in komplexen, dynamischen oder
unzugänglichen Welten unvermeidbar.

Unsicherheit bedeutet, dass viele der Vereinfachungen, die bei deduktiver Inferenz möglich
sind, nicht mehr gelten.

Wahrscheinlichkeiten drücken die Unfähigkeit des Agenten aus eine definite Entscheidung
bezüglich der Wahrheit eines Satzes zu treffen und fassen die Überzeugungen des Agenten
zusammen.

Atomare Wahrscheinlichkeitsaussagen umfassen a priori-Wahrscheinlichkeiten und bedingte
Wahrscheinlichkeiten über einfache und zusammengesetzte Aussagen.

Die Wahrscheinlichkeitsaxiome definieren Einschränkungen für eine vernünftige Zuordnung
von Wahrscheinlichkeiten zu Aussagen. Ein Agent, der sie verletzt, verhält sich in gewissen
Umständen irrational.

Die kombinierte Wahrscheinlichkeitsverteilung spezifiziert die Wahrscheinlichkeit jeder
vollständigen Zuordnung von Werten zu Zufallsvariablen. Sie ist normalerweise viel zu groß
um konstruiert oder benutzt werden zu können.

Die Bayessche Regel erlaubt die Berechnung unbekannter Wahrscheinlichkeiten aus bekannten,
fest etablierten.

Das Kombinieren verschiedener Teile von Evidenz erfordert im Allgemeinen die Ermittlung
einer großen Zahl bedingter Wahrscheinlichkeiten.

Lässt sich in einem Anwendungsbereich Bedingungsunabhängigkeit aufgrund direkter kausaler Beziehungen feststellen, dann erlaubt die Bayessche Aktualisierung den effektiven Umgang
mit verschiedenen Teilen von Evidenz.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
12.
Seite 113
Probabilistische Schlussfolgerungssysteme
12.1. Repräsentation von Wissen in unsicheren Domänen
Zur Repräsentation von Abhängigkeiten zwischen Variablen und zur Spezifikation der kombinierten Wahrscheinlichkeitsverteilung wird die Datenstruktur Bayessches Netz (belief network) verwendet. Ein Bayessches Netz ist ein Graph mit folgenden Eigenschaften:
1.
Die Knotenmenge ist eine Menge von Zufallsvariablen.
2.
Die Kanten sind gerichtet. Eine Kante vom Knoten X zum Knoten Y bedeutet, dass X einen
direkten Einfluss auf Y hat.
3.
Jeder Knoten hat eine Tabelle bedingter Wahrscheinlichkeiten. In ihr ist die Wirkung, die
seine Vorgängerknoten auf ihn haben, quantifiziert.
4.
Der Graph enthält keine Zyklen (er ist also ein DAG).
Ein Experte in einer Domäne kann meistens viel leichter entscheiden, welche direkten Bedingungsabhängigkeiten in der Domäne gelten, als die Wahrscheinlichkeiten selbst feststellen. Liegt die
Struktur eines Bayesschen Netzes fest, dann müssen nur noch die bedingten Wahrscheinlichkeiten
der Knoten, die an den direkten Abhängigkeiten beteiligt sind, spezifiziert werden. Mit ihnen
können dann alle anderen Wahrscheinlichkeitswerte berechnet werden.
Ein Bayessches Netz kann als eine abstrakte Wissensbasis betrachtet werden, die auf verschiedene
Anwendungen zutrifft, denn sie repräsentiert die allgemeine Struktur der kausalen Prozesse, die in
der Domäne ablaufen, und nicht oder weniger Details über die in der Domäne vorkommenden Individuen.
Die Tabelle bedingter Wahrscheinlichkeiten für die Knoten eines Bayesschen Netzes ist folgendermaßen aufgebaut: Eine Zeile der Tabelle enthält für jeden Knotenwert die bedingte Wahrscheinlichkeit für einen bedingenden Fall. Ein bedingender Fall ist eine mögliche Kombination von
Werten für die Vorgängerknoten. Er stellt also gewissermaßen ein elementares Ereignis dar.
Die Werte jeder Reihe einer Tabelle bedingter Wahrscheinlichkeiten müssen sich zu 1 aufsummieren lassen, denn die Einträge repräsentieren eine erschöpfende Menge von Fällen für die Variable.
Eine Tabelle für eine Boolesche Variable mit n Booleschen Vorgängerknoten enthält deshalb 2n
unabhängig spezifizierbarer Wahrscheinlichkeiten. Ein Knoten ohne Vorgängerknoten hat eine
Tabelle mit nur einer Zeile. Sie gibt die a priori-Wahrscheinlichkeiten jedes möglichen Werts der
Variablen wieder.
12.2. Die Semantik der Bayesschen Netze
12.2.1. Bayessche Netze als Repräsentationen kombinierter Wahrscheinlichkeitsverteilungen
Ein Bayessches Netz stellt eine vollständige Beschreibung einer Domäne dar. Jeder Eintrag in der
kombinierten Wahrscheinlichkeitsverteilung kann aus den im Netz enthaltenen Informationen
berechnet werden. Ein generischer Eintrag in die Kombination ist die Wahrscheinlichkeit der Konjunktion einzelner Wertzuordnungen zu jeder Variablen, etwa P(X1 = x1  ...  Xn = xn). Dieser
Ausdruck wird durch die Notation P(x1, ..., xn) abgekürzt. Der Wert des Ausdrucks ergibt sich aus
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 114
den durch die unmittelbaren Vorgängerknoten bedingten Wahrscheinlichkeiten nach folgender
Formel:
n
P( x1 ,..., xn )   P( xi | Vorgänger ( X i ))
(12.1)
i 1
Das heißt, jeder Eintrag in der Kombination ist durch das Produkt der entsprechenden Elemente in
den Tabellen bedingter Wahrscheinlichkeiten im Bayesschen Netz repräsentiert. Die Tabellen
stellen damit eine zerlegte Repräsentation der Kombination dar.
12.2.2. Ein Verfahren zur Konstruktion Bayesscher Netze
Zur Konstruktion eines Bayesschen Netzes aus der Gleichung (12.1) wird diese durch Ausnutzung
der Wahrscheinlichkeit für Konjunktionen (vgl. Produktregel, Abschnitt 11.2.2) folgendermaßen
umgeschrieben:
n
P( x1 ,..., xn )  P( xn | xn1 ,..., x1 ) P( xn1 | xn 2 ,..., x1 )  P( x2 | x1 ) P( x1 )   P( xi | xi 1 ,..., x1 )
i 1
Zusammen mit Gleichung (12.1) ergibt sich daraus
P(Xi | Xi-1, ..., X1) = P(Xi | Vorgänger(Xi))
(12.2)
vorausgesetzt es ist Vorgänger(Xi)  {xi-1, ..., x1}. Dies lässt sich bei Bedarf durch eine topologische
Sortierung der Knoten erreichen. Nach dieser Gleichung ist ein Bayessches Netz eine korrekte
Repräsentation einer Domäne wenn jeder Knoten bedingungsunabhängig von seinen Vorgängerknoten in der entsprechenden Knotensortierung ist, wenn seine unmittelbaren Vorgänger gegeben
sind. Zur Konstruktion eines korrekten Bayesschen Netzes müssen also für jeden Knoten unmittelbare Vorgänger gewählt werden, die diese Eigenschaft haben. Das heißt praktisch, für einen Knoten
Xi sollten alle Knoten X1, ..., Xi-1 als unmittelbare Vorgänger gewählt werden, die diesen Knoten
direkt beeinflussen.
Eine allgemeine Prozedur zum inkrementellen Aufbau Bayesscher Netze verläuft folgendermaßen:
1. Wähle eine Menge relevanter Variablen Xi, die die Domäne beschreiben.
2. Wähle eine Ordnung auf den Variablen.
3. So lange Variable vorhanden sind führe die folgenden Schritte durch:
(a) Wähle eine Variable Xi, entferne sie aus der Menge und füge einen Knoten für Xi in das Netz
ein.
(b) Wähle eine minimale Menge von schon im Netz befindlichen Knoten, für die bedingte
Unabhängigkeit (12.2) gilt und definiere sie als Vorgänger(Xi).
(c) Definiere die Tabelle bedingter Wahrscheinlichkeiten für Xi.
12.2.3. Kompaktheit und Knotenordnung
Die Kompaktheit der Bayesschen Netze ist ein gutes Beispiel für die allgemeine Eigenschaft der
lokalen Strukturiertheit von Systemen (sparse systems). In einem lokal strukturierten System interagiert jede Komponente nur mit einer beschränkten Anzahl anderer Komponenten, unabhängig von
der Gesamtzahl der Komponenten. Das hat in der Regel nur ein lineares Wachstum der Komplexität
eines Netzes zur Folge, im Unterschied zu üblichem exponentiellen Wachstum.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 115
Bei der Konstruktion eines lokal strukturierten Bayesschen Netzes ist zu beachten, dass die Variablen, die eine Variable X direkt beeinflussen, im Netz durch die Vorgängerknoten des zu X konstruierten Knotens repräsentiert werden müssen. Das heißt, diese Variablen müssen schon in das Netz
eingefügt worden sein, bevor X eingefügt wird. Bei der Konstruktion des Netzes muss also mit den
„Wurzelursachen“ begonnen werden, dann können die Variablen eingefügt werden, die von diesen
beeinflusst werden usw. bis zu den Blättern.
Wenn man versucht ein diagnostisches Modell mit Kanten von Symptomen zu Ursachen aufzubauen (z.B. im Einbruch-Beispiel eine Kante von EvaRuftAn zu Alarm oder von Alarm zu Einbruch), dann muss man irgendwann zusätzliche Abhängigkeiten zwischen andernfalls unabhängigen Ursachen einführen und oft auch zwischen gesondert voneinander auftretenden Symptomen.
Wenn man bei einem kausalen Modell bleibt, muss man weniger Zahlen spezifizieren und diese
sind leichter festzulegen. Im Bereich der Medizin wurde z.B. festgestellt, dass Ärzte lieber Wahrscheinlichkeitsurteile für kausale Regeln als für diagnostische Regeln abgeben.
12.2.4. Repräsentation von Tabellen bedingter Wahrscheinlichkeiten
Im ungünstigsten Fall, wenn die Beziehungen zwischen den Vorgängern und den Nachfolgern
völlig beliebig ist, ist der Aufwand zum Erstellen der Tabellen bedingter Wahrscheinlichkeiten sehr
hoch. Üblicherweise fallen aber diese Beziehungen in eine von mehreren Kategorien mit kanonischen Verteilungen, d.h. sie passen zu einem Standardmuster. Ist das der Fall, dann kann die
Tabelle einfach dadurch spezifiziert werden, dass man den Namen des Musters und vielleicht noch
ein paar Parameter angibt. Das einfachste Beispiel für kanonische Verteilungen sind deterministische Knoten. Ein deterministischer Knoten hat einen Wert, der durch die Werte der Vorgängerknoten exakt spezifiziert ist, ohne Ungewissheit. Diese Beziehung kann logisch oder numerisch sein.
Bei unsicheren Relationen können keine deterministischen Knoten angegeben werden. Sie können
aber oft durch so genannte verrauschte logische Relationen beschrieben werden. Das Standardbeispiel für eine solche Relation ist die verrauschte ODER-Relation, eine Verallgemeinerung des
logischen ODER. In der Aussagenlogik kann man z.B. formulieren Fieber  Erkältung  Grippe 
Malaria. Die verrauschte ODER-Relation geht von drei Annahmen aus. Erstens, jede Ursache hat
eine Chance zur Verursachung der Wirkung, die unabhängig ist von den anderen. Zweitens, alle
möglichen Ursachen sind erwähnt (im Bedarfsfall kann ein Defaultknoten eingeführt werden, der
„sonstige Ursachen“ repräsentiert). Drittens, was eine Ursache an der Verursachung der Wirkung
hindern kann, ist unabhängig von dem, was eine andere Ursache hindern kann. Die behindernden
Phänomene werden als Rauschparameter zusammengefasst.
Das folgende Zahlenbeispiel illustriert die verrauschte ODER-Relation. Es sei P(Fieber | Erkältung)
= 0.4, P(Fieber | Grippe) = 0.8 und P(Fieber | Malaria) = 0.9. Dann sind die Rauschparameter 0.6,
0.2 und 0.1. Wenn keiner der Vorgängerknoten wahr ist, dann ist der Ausgabeknoten mit hundertprozentiger Sicherheit falsch. Ist genau ein Vorgängerknoten wahr dann ist der Ausgabeknoten mit
der Wahrscheinlichkeit des zugehörigen Rauschparameters falsch. Allgemein ist die Wahrscheinlichkeit, dass die Ausgabe falsch ist, das Produkt der Rauschparameter derjenigen Eingabeknoten,
die wahr sind. Für das Beispiel ergibt sich für alle Kombinationen von Wahrheitswerten die Tabelle
12.1.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Erkältung
F
F
F
F
T
T
T
T
Grippe
F
F
T
T
F
F
T
T
Seite 116
Malaria
F
T
F
T
F
T
F
T
P(Fieber)
0.0
0.9
0.8
0.98
0.4
0.94
0.88
0.988
P(Fieber)
1.0
0.1
0.2
0.02 = 0.20.1
0.6
0.06 = 0.60.1
0.12 = 0.60.2
0.012 = 0.60.20.1
Tabelle 12.1
12.2.5. Bedingte Unabhängigkeitsbeziehungen in Bayesschen Netzen
Für die Durchführung von Inferenzen in einem Bayesschen Netz ist es wichtig, möglichst viel über
die Unabhängigkeit von Knoten voneinander zu wissen. Die Fragestellung ist, ob man feststellen
kann, ob eine Knotenmenge X unabhängig von einer Knotenmenge Y bei einer gegebenen Menge
von Evidenzknoten E ist. Dies leistet die so genannte richtungsabhängige Separierung oder kurz
d-Separierung.
Eine Knotenmenge E d-separiert zwei Knotenmengen X und Y wenn jeder ungerichtete Pfad von
einem Knoten in X zu einem Knoten in Y durch E blockiert wird. Ein Pfad wird durch die
Knotenmenge E blockiert, wenn es auf dem Pfad einen Knoten z gibt, für den eine der folgenden
drei Bedingungen gilt:
1. z  E und eine Kante des Pfads führt in z hinein und eine Kante des Pfads führt aus z heraus.
2. z  E und beide Pfadkanten führen aus z heraus.
3. Weder z noch ein Nachfolger von z liegen in E und beide Pfadkanten führen in z hinein.
Abbildung 12.1 illustriert die drei Fälle.
(1)
X
E
Y
z
(2)
z
(3)
z
Abbildung 12.1
12.3. Inferenzen in Bayesschen Netzen
Prinzipiell hat jedes probabilistische Inferenzsystem die Aufgabe die Wahrscheinlichkeitsverteilung
für eine Menge von Fragevariablen, ausgehend von genauen Werten für einige Evidenzvariablen,
zu berechnen, d.h. es muss P(Frage | Evidenz) berechnen. Ein Agent bekommt Werte für Evidenzvariable durch Wahrnehmung oder durch Schlussfolgerung und fragt nach möglichen Werten
anderer Variablen um entscheiden zu können, welche Aktion er ausführen soll. Dazu benötigt er
zwei Funktionen, BELIEF-NET-TELL für die Eingabe von Werten und BELIEF-NET-ASK zur Berechnung der daraus folgenden Wahrscheinlichkeitsverteilung für eine Fragevariable.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 117
12.3.1. Das Wesen probabilistischer Inferenzen
Bayessche Netze erlauben vier verschiedene Arten des Schlussfolgerns:

Diagnostische Inferenz (Schließen von den Wirkungen auf die Ursachen)
Beispiel: Wenn HansRuftAn wahr ist, wird geschlossen, dass P(Einbruch | HansRuftAn) =
0.016.

Kausale Inferenz (Schließen von den Ursachen auf die Wirkungen)
Beispiel: Wenn Einbruch wahr ist, wird geschlossen, dass P(HansRuftAn | Einbruch) = 0.86 und
P(EvaRuftAn | Einbruch) = 0.67.

Interkausale Inferenz (Schließen zwischen den Ursachen einer gemeinsamen Wirkung)
Beispiel: Wenn Alarm wahr ist, dann ist P(Einbruch | Alarm) = 0.376. Ist zusätzlich auch noch
Erdbeben wahr, dann verringert sich die Wahrscheinlichkeit des Einbruchs beträchtlich und es
ist P(Einbruch | Alarm  Erdbeben) = 0.003. Obwohl Einbruch und Erdbeben voneinander
unabhängig sind, macht das Vorliegen von einem der beiden das andere weniger wahrscheinlich. Dieses Schlussfolgerungsmuster wird auch als Wegerklären (explaining away) bezeichnet.

Gemischte Inferenzen (Kombinationen von zwei der obigen Inferenzen oder allen drei)
Beispiel: Eine Kombination von diagnostischer und kausaler Inferenz ist die Berechnung
P(Alarm | HansRuftAn  Erdbeben) = 0.03. Eine Kombination von diagnostischer und interkausaler Inferenz ist die Berechnung P(Einbruch | HansRuftAn  Erdbeben) = 0.017.
Die vier Schlussfolgerungsarten sind in Abbildung 12.f illustriert.
Frage
Evidenz
Frage
Evidenz
Evidenz
Frage
Evidenz
Frage
diagnostisch
kausal
Evidenz
interkausal
gemischt
Abbildung 12.f
Bayessche Netze können auch noch für andere Zwecke verwendet werden, nämlich für die folgenden:

Entscheidungsfindung auf der Basis der Wahrscheinlichkeiten im Netz und der Nutzenwerte des
Agenten.

Entscheiden, welche Evidenzvariablen zusätzlich betrachtet werden sollten um nützliche Informationen zu bekommen.

Durchführen einer Sensibilitätsanalyse um herauszufinden, welche Aspekte des Modells die
größte Auswirkung auf die Wahrscheinlichkeiten der Fragevariablen haben.

Erklärung der Ergebnisse einer probabilistischen Inferenz.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 118
12.3.2. Ein Algorithmus zur Beantwortung von Fragen
Der Algorithmus zur Beantwortung von Fragen mit einem Bayesschen Netz arbeitet nach dem
Prinzip der Rückwärtsverkettung. Er beginnt bei einer Fragevariablen und verfolgt die Pfade, die
von dieser Variablen ausgehen bis er zu Evidenzvariablen kommt. Laufen zwei Pfade in einem
Knoten zusammen, dann kann es Schwierigkeiten geben. Deshalb arbeitet die hier entwickelte
Variante des Algorithmus nur auf einfach verbundenen Netzen, die auch Polybäume genannt
werden. In solchen Netzen gibt es höchstens einen ungerichteten Pfad zwischen je zwei Knoten.
Algorithmen für allgemeine Netze benutzen den Polybaum-Algorithmus als wichtigstes Unterprogramm.
In Abbildung 12.2 ist ein generisches einfach verbundenes Netz dargestellt.
+
EX
U1

Um
X
EX
Znj
Z1j
Y1

Yn
Abbildung 12.2
Der Knoten X hat die Vorgängerknoten U = U1, ..., Um und die Nachfolgerknoten Y = Y1, ..., Yn. Die
Rechtecke um diese Knoten sollen bedeuten, dass darin alle Vorgänger und Nachfolger der jeweiligen Knoten enthalten sind, mit Ausnahme von X. Die einfache Verbundenheit des Netzes bedeutet,
dass die Rechtecke disjunkt sind und dass es keine Kanten zwischen ihnen gibt. Es wird
angenommen, dass X eine Fragevariable ist und dass es eine Menge E von Evidenzvariablen gibt, in
der X nicht enthalten ist. Das Ziel ist P(X | E) zu berechnen.
Zur Ableitung des Algorithmus ist es hilfreich, verschiedene Teile der vollständigen Evidenz für
eine Variable zu unterscheiden. In Abbildung 12.2 sind die Knoten außer X in zwei Teilmengen EX+
und EX unterteilt. Die Menge EX+ stellt die kausale Unterstützung für X dar, also die Evidenzvariablen „oberhalb“ von X, die mit X durch seine Vorgängerknoten verbunden sind. Die Menge
EX stellt die Evidenzunterstützung für X dar, also die Evidenzvariablen „unterhalb“ von X, die mit
X durch seine Nachfolgerknoten verbunden sind.
Manchmal will man einzelne Pfade bei der Betrachtung der Evidenzen für eine Variable ausschließen. Dies wird notiert durch EU i  X . Diese Notation bezeichnet alle Evidenzen, die mit dem Knoten
Ui verbunden sind außer über einen Pfad durch X. In entsprechender Weise bezeichnet EYi  X alle
Evidenzen die mit Yi über dessen Vorgängerknoten verbunden sind, mit Ausnahme von X. Die
vollständige Evidenz kann mit Hilfe dieser Notation durch EX oder EX beschrieben werden.
Die Berechnung von P(X | E) erfolgt nun in drei Schritten:
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 119

Beschreibe P(X | E) durch das, was die beiden Mengen EX+ und EX dazu beitragen.

Berechne den Beitrag von EX+ durch Berechnung seiner Wirkung auf die Vorgänger von X und
Fortsetzung dieser Wirkung auf X. Durch diese Vorgehensweise entsteht eine rekursive Berechnung des Gesamtproblems.

Berechne den Beitrag von EX durch Berechnung seiner Wirkung auf die Nachfolger von X und
Fortsetzung dieser Wirkung auf X. Durch diese Vorgehensweise entsteht ebenfalls eine rekursive Berechnung des Gesamtproblems.
Da X selbst nicht in E liegt, besteht die gesamte Evidenz aus den Knoten oberhalb und unterhalb
von X. Also gilt
P(X | E) = P(X | EX+, EX)
Um die Beiträge von EX+ und EX voneinander zu trennen, wird die bedingte Version der Bayesschen Regel (Gleichung (10.3)) mit EX+ als Hintergrundevidenz angewendet:
P( E X | X , E X )P( X | E X )
P( X | E , E ) 
P( E X | E X )

X

X
X d-separiert EX+ von EX im Netz, deshalb kann man die bedingte Unabhängigkeit dazu
verwenden, den ersten Term im Zähler zu vereinfachen. Außerdem kann der Anteil 1 / P( E X | E X )
als normalisierende Konstante betrachtet werden und wird mit  bezeichnet. Das ergibt insgesamt
P( X | E )  P( E X | X )P( X | E X )
Es müssen also nur noch die beiden Terme P( E X | X ) und P( X | E X ) berechnet werden. Zur
Berechnung von P( X | E X ) werden alle möglichen Konfigurationen der Vorgänger von X betrachtet und festgestellt, wie wahrscheinlich sie bei gegebenem E X sind. Sei U = U1, ..., Um der Vektor
der Vorgängerknoten von X und u eine Zuordnung von Werten zu diesen Knoten. Dann ist
P( X | E X )   P( X | u, E X )P(u |E X )
u
Da U X vom Rest von E X d-separiert, kann der erste Term zu P(X | u) vereinfacht werden. Der
zweite Term kann vereinfacht werden weil E X jedes Ui von den anderen d-separiert und weil die
Wahrscheinlichkeit einer Konjunktion unabhängiger Variablen gleich dem Produkt ihrer
individuellen Wahrscheinlichkeiten ist. Das ergibt
P( X | E X )   P( X | u) P(ui | E X )
u
i
Nun kann man noch den letzten Term dieser Gleichung vereinfachen, indem man E X in EU1  X , ...,
EU mi  X aufteilt und beachtet, dass EU i  X Ui von allen anderen Evidenzen in E X d-separiert. das
ergibt
P( X | E X )   P( X | u) P(ui | EU i  X )
u
Technische Universität Chemnitz
i
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 120
Durch Einsetzen in die Gleichung für P ( X | E ) erhält man
P( X | E )  P( E X | X ) P( X | u) P(U i | Eui  X )
u
(12.3)
i
Zur Berechnung von P( E X | X ) muss über die Werte der Nachfolgerknoten Yi gemittelt werden,
aber man muss auch die Vorgängerknoten der Yi in die Betrachtung einbeziehen. Jede Variable Yi
hat einen Vektor Zi von Vorgängerknoten, unter Ausschluss von X. zi ist eine Zuordnung von
Werten zu den Knoten Zi. Die Evidenz in jedem Yi-Rechteck ist, bei gegebenem X, unabhängig von
den anderen. Deshalb ist
P( E X | X )   P( EYi  X | X )
i
Durch Mitteln über Yi und zi erhält man
P( E X | X )   P( EYi  X | X , yi , z i )P( yi , z i | X )
yi
i
zi
EYi  X lässt sich in die beiden unabhängigen Komponenten EYi und EYi X aufteilen. Das ergibt
P( E X | X )   P( EYi | X , yi , z i )P( EYi  X | X , yi , z i )P( yi , z i | X )
yi
i
zi
EYi ist bei gegebenem yi unabhängig von X und zi, und EYi X ist unabhängig von X und yi. In einem
Teil des Ausdrucks wird nicht über zi summiert, deshalb kann er aus der zi-Summation heraus
genommen werden. Das ergibt
P( E X | X )   P( EYi | yi ) P( EYi  X | z i )P( yi , z i | X )
yi
i
zi
Nun wendet man die Bayessche Regel auf P( EYi  X | z i ) an und erhält
P( E | X )   P( E | yi )

X

Yi
i
yi
P(z i | EYi  X ) P( EYi  X )
P(z i )
zi
P( yi , z i | X )
Die Konjunktion yi, zi kann umgeschrieben werden, so dass aus P( yi , z i | X ) zwei Terme entstehen:
P( E | X )   P( E | yi )

X

Yi
i
yi
P(z i | EYi  X ) P( EYi  X )
P(z i )
zi
P( y i | X , z i )P(z i | X )
Da Z und X d-separiert sind, ist P(z i | X )  P(z i ) , also kann man diesen Term wegkürzen. Der
Term P( EYi X ) kann durch eine normalisierende Konstante i ersetzt werden. Das ergibt
P( E X | X )   P( EYi | yi )  i P(z i | EYi  X )P( yi | X , z i )
i
yi
zi
Im letzten Schritt werden die Vorgänger von Yi, also die Zij, miteinander multipliziert, da sie unabhängig voneinander sind. Die Konstanten i werden zu einer normalisierenden Konstanten  zusammengefasst. Man erhält als Ergebnis der Umformungen
P( E X | X )    P( EYi | yi ) P( yi | X , z i ) P( zij | EZij Yi )
i
Technische Universität Chemnitz
yi
zi
(12.4)
j
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 121
function BELIEF-NET-ASK(X) returns eine Wahrscheinlichkeitsverteilung über den Werten
von X
inputs: X, eine zufällig gewählte Variable
SUPPORT-EXCEPT(X, null)
function SUPPORT-EXCEPT(X, V) returns P(X | EX-V)
if EVIDENCE?(X) then return festgestellte Wahrscheinlichkeitsverteilung für X
else berechne P ( E X V | X ) = EVIDENCE-EXCEPT(X, V)
U  PARENTS[X]
if U ist leer
then return P ( E X V | X )P ( X )
else
for each Ui  U berechne und speichere P(U i | EU i  X ) = SUPPORT-EXCEPT(Ui, X)
return P( E X V | X ) P( X | u) P(U i | Eui  X )
u
i
function EVIDENCE-EXCEPT(X, V) returns P ( E X V | X )
Y  CHILDREN[X]  V
if Y ist leer then return eine gleichmäßige Wahrscheinlichkeitsverteilung
else for each Yi  Y do
berechne P( EYi | yi ) = EVIDENCE-EXCEPT(Yi, null)
Zi  PARENTS[Yi]  X
for each Zij  Zi berechne P(Z ij | EZij Yi ) = SUPPORT-EXCEPT(Zij, Yi)
return   P( EYi | yi ) P( yi | X , z i ) P( zij | EZij Yi )
i
yi
zi
j
12.4. Andere Ansätze zum Schlussfolgern mit unsicherem Wissen
In der KI-Forschung wurde nach ersten, nicht sehr erfolgreichen Versuchen mit der Repräsentation
von Wahrscheinlichkeiten eine Reihe von Alternativen verfolgt:

Default-Logik Die Wahrscheinlichkeitstheorie basiert auf der Verarbeitung exakter Zahlen.
Menschen dagegen urteilen und schlussfolgern eher „qualitativ“. In der Default-Logik werden
Schlussfolgerungen nicht als bis zu einem bestimmten Grad wahr angenommen, sondern
werden so lange als gültig angenommen, bis ein überzeugender Grund gefunden wird etwas
Anderes als gültig anzunehmen.

Regelbasierte Ansätze basieren auf den logischen regelbasierten Systemen, sie fügen aber zu
jeder Regel einen „Vagheitsfaktor“ hinzu um damit die Unsicherheit zu berücksichtigen. Sie
wurden vor allem bei der Entwicklung von Expertensystemen in den 70-er Jahren verwendet.

Dempster-Shafer-Theorie In dieser Theorie werden intervallwertige Grade von Überzeugtheit
verwendet um das Wissen eines Agenten über die Wahrscheinlichkeit einer Aussage zu repräsentieren.

Fuzzy-Logik Mit Hilfe der Fuzzy-Logik können Aussagen mit einer gewissen Vagheit gemacht
werden, d.h. eine Aussage kann bis zu einem gewissen Grad wahr sein. In der Logik und in der
Wahrscheinlichkeitstheorie sind Aussagen immer nur wahr oder falsch, auch dann, wenn ein
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 122
Agent unsicher ist, welches von beiden der Fall ist. Vagheit ist ein grundlegend anderes
Konzept als Wahrscheinlichkeit, beide stehen orthogonal zueinander.
12.4.1. Default Reasoning
Es gibt verschiedene Kalküle für das nichtmonotone Schlussfolgern: Default-Logik (Reiter), nichtmonotone Logik (McDermott und Doyle) und Circumscription (McCarthy). Alle erlauben das
Schlussfolgern mit Default-Regeln und das Zurücknehmen von Annahmen. Einige wesentliche
Schwierigkeiten des nichtmonotonen Schlussfolgerns haben alle drei gemeinsam:

Welchen semantischen Status haben Default-Regeln? Wenn eine Aussage falsch sein kann (z.B.
„Autos haben vier Räder“), was bedeutet es dann, sie in der Wissensbasis zu haben? Was ist
eine brauchbare Menge von Default-Regeln?

Was geschieht, wenn die Prämissen zweier Default-Regeln mit widersprüchlichen Konklusionen erfüllt sind? In manchen Systemen wird dieser Fall durch Angabe von Prioritätsregeln
ausgeschlossen. Eine solche Priorität ist die Spezifizitätspräferenz. Bei ihr hat eine speziellere
Regel höhere Priorität gegenüber einer allgemeineren.

Ein System des nichtmonotonen Schlussfolgerns kann aus Annahmen Schlüsse ziehen. Was
geschieht, wenn diese Annahmen später teilweise oder ganz wieder zurückgezogen werden?
Wie kann man feststellen, welche Schlüsse wegen der revidierten Annahmen ebenfalls zurückgezogen werden müssen? Wenn nur wenige der Annahmen für eine Schlussfolgerung zurückgezogen werden möchte man sie beibehalten, in anderen Fällen dagegen muss man sie
verwerfen. Für diesen Zweck wurden so genannte Truth Maintenance-Systeme entwickelt.

Wie können Annahmen, die Default-Status haben, zur Entscheidungsfindung benutzt werden?
Bei Entscheidungen muss man oft einen Kompromiss zwischen verschiedenen Möglichkeiten
finden und dazu benötigt man die Stärke von Annahmen. Diese ist aber kontextabhängig.
12.4.2. Regelbasierte Methoden für das unsichere Schlussfolgern
Abgesehen von der Monotonie haben logische Schlussfolgerungssysteme noch drei andere Eigenschaften, die probabilistische Schlussfolgerungssysteme nicht haben:

Lokalität Ist in einem logischen System eine Regel der Form A  B sowie die Evidenz A
gegeben, dann kann man auf B schließen ohne die anderen Regeln zu berücksichtigen. In probabilistischen Systemen muss man immer alle vorhandenen Evidenzen betrachten.

Abtrennung Wenn in einem logischen System eine Ableitung für eine Aussage B gefunden
worden ist, kann diese losgelöst von ihrer Herleitung verwendet werden, d.h. sie kann von ihrer
Rechtfertigung abgetrennt werden. In probabilistischen Systemen ist der Ursprung der Evidenz
für eine Annahme wichtig für das weitere Schlussfolgern.

Kompositionalität In der Logik kann die (wahrheitsfunktionale) Bedeutung eines Satzes aus
den Bedeutungen seiner Bestandteile berechnet werden. In probabilistischen Systemen ist das
im Allgemeinen nicht möglich, vielmehr nur unter starken Unabhängigkeitsannahmen.
Wegen der offenkundigen Vorteile der logischen Systeme wurde versucht, unsicheres Schlussfolgern auf der Basis solcher Systeme zu realisieren. Das Prinzip dabei ist, den Grad an Überzeugung
für eine Aussage als verallgemeinerten Wahrheitswert aufzufassen. Jeder atomaren Aussage wird
ein verallgemeinerter Wahrheitswert zugeordnet und für zusammengesetzte Aussagen werden
Regeln für die Berechnung des Wahrheitswerts aus den Werten ihrer Komponenten festgelegt. Bei
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 123
näherer Betrachtung zeigt sich aber, dass die Prinzipien der Lokalität, Abtrennung und Kompositionalität für das unsichere Schlussfolgern nicht adäquat sind.
Bei der Verkettung von Evidenzen in einer Ableitung entstehen noch mehr Probleme. Kompositionale Systeme besitzen Regeln der Form A  B mit denen man den Wahrheitswert von B als Funktion der Wahrheitswerte von A und der ganzen Regel berechnen kann. Der Wahrheitswert der Regel
wird als konstant betrachtet und wird vom Entwickler vorgegeben, z.B. in der Form A  0.9 B .
Dabei kann es passieren, dass man in einen zirkulären Schluss gerät, und zwar dadurch, dass Regeln
für das kausale und für das diagnostische Schlussfolgern vorhanden sind. Dann kann es sein, dass
der Wahrheitswert der abgeleiteten Aussage sich aufschaukelt oder gegen Null geht.
Das interkausale Schlussfolgern kann bei Vorliegen kausaler und diagnostischer Regeln ebenfalls
zu unsinnigen Schlüssen führen.
Trotz dieser Schwierigkeiten wurden wahrheitsfunktionale Systeme für das unsichere Schlussfolgern als brauchbar betrachtet. Das erste System dieser Art war MYCIN, und nach ihm wurden noch
mehrere Expertensysteme auf der Basis der Sicherheitsfaktoren von MYCIN entwickelt. Dass sie
einigermaßen funktionierten, liegt daran, dass ihr Einsatzgebiet stark eingeschränkt war und dass
die Wissensbasis sehr sorgfältig aufgebaut wurde. Die Regeln waren entweder rein diagnostisch
oder rein kausal, Evidenzen wurden nur Aussagen gegeben, die am Anfang von Ableitungsketten
standen und die Regelmengen waren einfach verknüpft. Es kann gezeigt werden, dass unter diesen
Voraussetzungen dass Schlussfolgern mit Sicherheitsfaktoren äquivalent ist zum Bayesschen
Schlussfolgern auf Polybäumen.
12.4.3. Repräsentation von Unwissen: Die Dempster-Shafer-Theorie
Die Dempster-Shafer-Theorie beschäftigt sich mit dem Unterschied zwischen Unsicherheit und
Unwissen. Es wird nicht die Wahrscheinlichkeit einer Aussage berechnet, sondern die Wahrscheinlichkeit, mit der eine Evidenz eine Aussage stützt. Dies wird durch so genannte Belief-Funktionen
ausgedrückt, geschrieben Bel(X).
Die Dempster-Shafer-Theorie erlaubt in vielen Fällen keine definitive Entscheidung zwischen verschiedenen Aktionen, in denen die probabilistische Inferenz eine solche Entscheidung liefert. Das
liegt daran, dass das Prinzip des Nutzens in der Dempster-Shafer-Theorie nicht klar ist, teilweise
deshalb, weil die Semantik des Operators Bel nicht präzise im Hinblick auf Entscheidungsfindung
definiert ist.
Die Dempster-Shafer-Theorie kann auch so interpretiert werden, dass sie ein Wahrscheinlichkeitsintervall definiert. Die Größe des Intervalls ist ein Hinweis darauf, ob mehr Evidenz für eine Entscheidung erforderlich ist.
12.5.4. Repräsentation von Vagheit: Unscharfe Mengen und Fuzzy Logic
Mit der Theorie unscharfer Mengen (Fuzzy set theory) ist es möglich zu spezifizieren, wie gut eine
vage Beschreibung auf ein Objekt zutrifft. Ist z.B. die Aussage „Hans ist groß“ gegeben und man
weiß, das Hans 1,80 m groß ist, dann wird man die Aussage „Hans ist groß“ weder für wahr noch
für falsch halten, vielmehr wird man sagen, sie treffe auf Hans bis zu einem gewissen Grad zu. Das
kommt daher, dass der sprachliche Ausdruck „groß“ nicht scharf definiert ist. Deshalb wird die
Fuzzy Logic oft nicht als eine Form des unsicheren Schließens betrachtet.
Die Theorie unscharfer Mengen wird dieser Sachverhalt in folgender Weise repräsentiert: Man
betrachtet den Ausdruck GroßePerson als unscharfes Prädikat und legt fest, dass der Wahrheitswert
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 124
des Satzes GroßePerson(Hans) eine Zahl zwischen 0 und 1 ist und nicht nur einer der Werte wahr
oder falsch. Ein unscharfes Prädikat repräsentiert eine Menge, und zwar die Menge der Objekte, auf
die das Prädikat bis zu einem gewissen Grad zutrifft. Dies Menge hat deshalb keinen scharfen
Rand. Streng genommen gehören alle Objekte des betrachteten Universums zu der Menge, die
meisten aber mit dem Zugehörigkeitsgrad 0. Diese werden oft als nicht zu der Menge gehörend
betrachtet.
Die Fuzzy Logic ist kompositional. Der Wahrheitswert einer zusammengesetzten Aussage wird
mittels einer Funktion ermittelt. Es gibt eine große Zahl von Funktionen für diesen Zweck, für die
Junktoren ,  und  sind die Folgenden am gebräuchlichsten:
T(A  B) = min(T(A), T(B))
T(A  B) = max(T(A), T(B))
T(A) = 1  T(A)
Ein Problem der Fuzzy Logic ist, dass sie inkonsistent mit der Aussagenlogik und der Logik erster
Ordnung ist. In der Standardlogik gilt z.B. A  A  Wahr, in der Fuzzy Logic gilt dagegen, dass
T(A  A)  T(Wahr).
12.6. Zusammenfassung
In diesem Kapitel ging es wie in Kapitel 7 um richtiges Schlussfolgern. Aber der Begriff hat in
beiden Fällen unterschiedliche Bedeutung. In der Logik erster Ordnung bedeutet er, dass aus
Prämissen Konklusionen folgen. Wenn die Prämissen adäquate Repräsentationen der Welt sind,
dann sind es auch die Konklusionen. In der Probabilistik geht es um Annahmen, nicht um
Weltzustände. Richtiges Schlussfolgern bedeutet hier, dass ein Agent die richtigen Annahmen hat,
die es ihm erlauben, rational zu handeln. Das Schlussfolgern mit Wahrscheinlichkeiten ist ein
ziemlich neues Gebiet und es gibt im wesentlichen nur einen Formalismus dafür, die Bayesschen
Netze. Die wichtigsten Punkte sind:

Informationen über eine unsichere Domäne lassen sich gut mittels bedingter Wahrscheinlichkeiten strukturieren.

Bayessche Netze sind eine natürliche Möglichkeit bedingte Wahrscheinlichkeiten zu repräsentieren. Die Kanten zwischen den Knoten repräsentieren die qualitativen Aspekte der Domäne
und die Tabellen bedingter Wahrscheinlichkeiten repräsentieren die quantitativen Aspekte.

Ein Bayessches Netz ist eine vollständige Repräsentation für die kombinierte Wahrscheinlichkeitsverteilung der Domäne, aber es hat oft exponentiell kleineren Umfang.

Inferieren in Bayesschen Netzen bedeutet die Wahrscheinlichkeitsverteilung einer Menge von
Fragevariablen bei gegebenen Evidenzvariablen zu berechnen.

Bayessche Netze können kausal, diagnostisch, gemischt oder interkausal schlussfolgern. Kein
anderer Mechanismus für unsicheres Schlussfolgern beherrscht alle diese Modi.

Die Komplexität des Schlussfolgerns in Bayesschen Netzen hängt von der Netzstruktur ab. In
Polybäumen ist der Zeitbedarf linear mit der Größe des Netzes.

Es gibt verschiedene Inferenzverfahren für allgemeine Bayessche Netze, die alle exponentielle
Komplexität haben. In realen Anwendungsbereichen macht die lokale Struktur die Dinge im
Allgemeinen einfacher, aber bei einer Größenordnung von mehr als 100 Knoten lässt nur
schwer ein handhabbares Netz herstellen.
Technische Universität Chemnitz
Sommersemester 2006
Einführung in die Künstliche Intelligenz
Seite 125

Man kann auch Näherungsverfahren verwenden, u.a. stochastische Simulation, um eine Schätzung der wirklichen Wahrscheinlichkeiten mit weniger Rechenaufwand zu bekommen.

Verschiedene alternative Systeme für das Schlussfolgern mit unsicherem Wissen sind vorgeschlagen worden. Es handelt sich um wahrheitsfunktionale Systeme, die Probleme mit dem
gemischten und interkausalen Schlussfolgern haben.
Technische Universität Chemnitz
Sommersemester 2006
Herunterladen