Grundlagen der KI 14. Verarbeitung unsicheren Wissens

Werbung
Grundlagen der KI
14. Verarbeitung unsicheren Wissens
Wahrscheinlichkeitstheorie, Bayessche Netze, andere Ans ätze
Michael Beetz
353
Viele Abbildungen sind dem Buch “Artificial Intelligence: A Modern Approach” entnommen. Viele Folien beruhen auf Vorlagen von Prof. Bernhard Nebel, Dr.
Jana Köhler (Universität Freiburg) und Prof. Gerhard Lakemeyer, (RWTH Aachen).
354
Inhalt
Motivation
Grundlagen der Wahrscheinlichkeitstheorie
Probabilistische Inferenzen
bayessche Netze
Alternative Ansätze
355
Motivation
In vielen Fällen ist unser Wissen über die Welt unvollständig (nicht genug
Information) oder unsicher (Sensoren sind unzuverlässig).
Oft sind Gesetzmäßigkeiten nur unvollständig bekannt oder sogar
inkorrekt – z.B. das Qualifikationsproblem: was sind die Vorbedingungen
einer Aktion?
Wir müssen trotzdem agieren!
Schließen unter Unsicherheit
Nicht-monotones Schließen
Schließen über Eintrittswahrscheinlichkeiten
und Kosten/Nutzen
356
Beispiel
Ziel: Um 9:15 Uhr in München sein, um eine Vorlesung zu halten.
Es gibt mehrere Pläne, um das Ziel zu erreichen:
–
–
: 7:00 aufstehen, 8:15 den Bus nehmen, 8:30 den Zug . . .
: 6:00 aufstehen, 7:15 den Bus nehmen, 7:30 den Zug . . .
– ...
Alle Pläne sind korrekt, aber
sie implizieren verschiedene Kosten und verschiedene
Wahrscheinlichkeiten, das Ziel tatsächlich zu erreichen.
wäre der Plan der Wahl, da Vorlesungen halten (verglichen mit
z.B. Gremiensitzungen) sehr wichtig ist, und die Erfolgsrate bei
nur bei
ca. 90–95% liegt.
357
Unsicherheiten bei Regeln (1)
Beispiel: Diagnose-Expertensystem für Zahnärzte.
Diese Regel ist inkorrekt! Besser:
. . . aber wir kennen gar nicht alle Ursachen
Vielleicht besser die kausale Regel?
Auch nicht korrekt!
358
Unsicherheiten bei Regeln (2)
Probleme mit der Logik:
Wir können nicht alle möglichen Ursachen aufzählen, und selbst wenn . . .
Wir kennen nicht die Gesetzmäßigkeiten (in der Medizin)
. . . und selbst wenn, bleibt Unsicherheit über den Patienten bestehen (Karies und
Zahnschmerzen zufällig gleichzeitig, nicht alle Untersuchungen)
ohne perfektes Wissen keine korrekten logischen Regeln!
359
Unsicherheit bei Fakten
Nehmen wir an, wir wollten die Lokalisation eines Roboters durch
(unveränderliche) Landmarken unterstützen. Aus dem Vorhandensein von
Landmarken können wir auf den Raum schließen.
Problem: Sensoren kann sind ungenau.
Aus der Tatsache, dass eine Landmarke erkannt wurde, kann man nicht
mit Sicherheit schließen, dass der Roboter sich in dem entsprechenden
Raum befindet.
Gleiches gilt, falls eine Landmarke nicht wahrgenommen wird.
Es wird lediglich die Wahrscheinlichkeit erhöht oder erniedrigt.
360
Grade der Überzeugung
und Wahrscheinlichkeitstheorie (1)
Wir (oder andere Agenten) sind von Regeln und Fakten nur bis zu einem
gewissen Grad überzeugt (subjektive Wahrscheinlichkeit).
Eine Möglichkeit, den Grad der Überzeugung auszudrücken ist,
Wahrscheinlichkeiten zu benutzen.
Der Agent ist von der Sensorinformation zu
überzeugt
Fällen ist die Information richtig (glaubt der Agent).
in 9 von 10
Wahrscheinlichkeiten fassen die Unsicherheit“ bedingt durch Unwissen
”
zusammen.
Wahrscheinlichkeiten sind nicht mit Vagheit zu verwechseln. Das Pr ädikat
groß ist vage; die Aussage ein Mann hat eine Größe von 1.75–1.85m“ ist
”
unsicher.
361
Rationale Entscheidungen
unter Unsicherheit
Wir haben verschiedene Aktionen (oder Pläne) zur Auswahl
Diese können zu verschiedenen Ergebnissen führen mit verschiedenen
Wahrscheinlichkeiten
Die Aktionen verursachen verschiedene (subjektive) Kosten
Die Ergebnisse haben verschiedenen (subjektiven) Nutzen
Rational wäre es, die Aktion zu wählen, die den größten zu erwartenden
Gesamtnutzen hat!
Entscheidungstheorie = Nutzentheorie + Wahrscheinlichkeitstheorie
362
Entscheidungstheoretischer Agent
function DT-AGENT( percept) returns an action
static: a set probabilistic beliefs about the state of the world
calculate updated probabilities for current state based on
available evidence including current percept and previous action
calculate outcome probabilities for actions,
given action descriptions and probabilities of current states
select action with highest expected utility
given probabilities of outcomes and utility information
return action
Entscheidungstheorie: Ein Agent ist rational genau dann, wenn er die Aktion
wählt, die den größten erwarteten Nutzen gemittelt über alle möglichen
Ergebnisse von Aktionen hat.
363
Numerische Masse für den Grad der Überzeugung
Der Grad der Überzeugung bzgl. einer Aussage kann durch eine Zahl
zwischen 0 und 1 gemessen werden — das ist die
Wahrscheinlichkeit von
– Die Wahrscheinlichkeit von
Aussage ist definitiv falsch.
= 0 bedeutet: der Agent glaubt die
– Die Wahrscheinlichkeit von
Aussage ist definitiv richtig.
= 1 bedeutet: der Agent glaubt die
hat eine Wahrscheinlichkeit zwischen 0 und 1
bedeutet nicht dass
zu einem gewissen Grad wahr ist
sondern dass der Agent den Wahrheitswert von
364
nicht kennt!
Zufallsvariablen
Eine Zufallsvariable ist ein Term in einer Sprache, der verschiedene
Werte annehmen kann.
.
den Wert
bedeutet dass die Zufallsvariable
Eine Zuweisung
ist eine komplexe
Ein Tupel von Zufallsvariablen
Zufallsvariable mit dem Wertebereich
, ist die Menge
Der Wertebereich einer Variablen , geschrieben
von Werten, die annehmen kann.
hat.
Eine Proposition ist eine boolesche Formel, die aus Wertebelegungen
von Zufallsvariablen besteht.
365
Mögliche Welten Semantik
Eine mögliche Welt spezifiziert eine Wertebelegung für jede
Zufallsvariable.
hat in der Welt
den Wert .
Logische Operatoren haben ihre Standardbedeutungen:
if
or
if
–
–
and
if
–
366
bedeutet die Variable
Semantik von Wahrscheinlichkeiten
Für eine endliche Anzahl von Zufallsvariablen mit endlichen
Wertebereichen:
für jede Welt sodass sich
– Definiere ein nichtnegatives Mass
die Wahrscheinlichkeiten der möglichen Welten zu 1 summieren.
Dieses Mass repräsentiert den Grad der Überzeugung des Agenten
dass der realen Welt entspricht
Die Wahrscheinlichkeit einer Proposition
ist definiert durch:
367
Unbedingte Wahrscheinlichkeiten (1)
bezeichnet die unbedingte oder a priori Wahrscheinlichkeit, dass
eintreten wird im Fall, dass keine zusätzliche Information verfügbar ist, z.B.
Cavity ist eine Proposition. A priori Wahrscheinlichkeiten gewinnt man durch
statistische Analyse oder aus allgemeinen Regeln.
368
Unbedingte Wahrscheinlichkeiten (2)
Im allgemeinen kann eine Zufallsvariable nicht nur die Werte wahr und falsch
sondern mehrere Werte annehmen:
Sunny
Weather
Rain
Weather
Cloudy
Weather
Snow
Weather
TRUE
Headache
Propositionen können auch Gleichungen über Zufallsvariablen enthalten.
Logische Konnektoren können zur Bildung von Propositionen verwendet
Insured
.
werden, z.B. Cavity
369
Unbedingte Wahrscheinlichkeiten (3)
bezeichnet den Vektor der Wahrscheinlichkeiten für den (geordneten)
Wertebereich der Zufallsvariable :
Weather
Headache
definieren die Wahrscheinlichkeitsverteilung der Zufallsvariablen Headache
und Weather.
Headache Weather ist eine
Tabelle von Wahrscheinlichkeiten aller
Kombinationen der Werte einer Zufallsvariablen.
Headache = TRUE
Weather = Snow
370
Headache
Weather = Cloudy
Sunny
Weather = Rain
Headache
Sunny
Weather = Sunny
Headache = FALSE
Bedingte Wahrscheinlichkeiten (1)
Neue Information kann die Wahrscheinlichkeit ändern.
Beispiel: Die Wahrscheinlichkeit von Zahnlöchern erhöht sich, wenn man
weiß, dass der Patient von Zahnschmerzen hat.
Liegt Zusatzinformation vor, darf nicht mehr mit a priori Wahrscheinlichkeiten
gerechnet werden!
bezeichnet die bedingte oder a posteriori Wahrscheinlichkeit von
gegeben die alleinige Beobachtung (die Evidenz) :
Cavity Toothache
ist die Tabelle aller bedingter Wahrscheinlichkeiten über alle
Werte von und .
371
Bedingte Wahrscheinlichkeiten (2)
Weather Headache ist eine
Tabelle von bedingten
Wahrscheinlichkeiten aller Kombinationen der Werte einer Zufallsvariablen.
Headache = TRUE
Sunny
Weather = Cloudy
Weather = Snow
Bedingte Wahrscheinlichkeiten ergeben sich aus unbedingten
) (per Definition):
Wahrscheinlichkeiten (falls
372
Headache
Weather = Rain
Sunny Headache
Weather = Sunny
Headache = FALSE
Bedingte Wahrscheinlichkeiten (3)
entspricht einem Gleichungssystem:
Sunny Headache
Headache
Headache
Sunny
Headache
Snow
Rain Headache
Headache
Rain
Headache
373
Headache
Headache
..
.
Snow
..
.
Bedingte Wahrscheinlichkeiten (4)
B
Produktregel:
A
Analog:
374
und
heißen unabhängig voneinander, falls
. Dann (und nur dann) gilt
und
Axiomatische Wahrscheinlichkeitstheorie
ist ein
Eine Funktion von aussagenlogischen Formeln in die Menge
Wahrscheinlichkeitsmaß, falls für alle Aussagen
gilt:
1.
4.
3.
2.
Alle anderen Eigenschaften lassen sich aus diesen Axiomen ableiten, z.B.
375
.
und
folgt aus
Wieso sind die Axiome sinnvoll?
Wenn eine objektiv beobachtbare Wahrscheinlichkeit bezeichnet,
machen die Axiome natürlich Sinn.
Aber wieso sollte ein Agent diese Axiome beachten, wenn er den Grad
seiner Überzeugung modelliert?
Objektive vs. subjektive Wahrscheinlichkeiten
Die Axiome schränken die Menge der Überzeugungen ein, die ein Agent
aufrechterhalten kann.
Eines der überzeugendsten Argumente, warum subjektive Überzeugungen
die Axiome respektieren sollten, wurde 1931 von de Finetti gegeben. Es
basiert auf dem Zusammenhang zwischen Aktionen und dem Grad der
Überzeugung.
Sind die Überzeugungen widersprüchlich, dann wird der Agent auf lange
Sicht in seiner Umwelt scheitern!
376
Das Wettmodell (1)
Agent 1 hat die Überzeugung
.
Agent 2 kann für oder gegen wetten, sein Einsatz muss jedoch konsistent mit der
Überzeugung von Agent 1 sein.
Beispiel: Agent 2 setzt 4 zu 6 auf , d.h. tritt auf, muss Agent 1 den Betrag von 6
Pf. an Agent 2 zahlen, sonst zahlt Agent 2 den Betrag von 4 Pf. an Agent 1.
Agent 1 muss diese Wette akzeptieren (fair)
Eine Wettstrategie ist eine Menge von Wetten auf Ereignisse.
Annahme: Agent 1 habe die folgenden Grade von Überzeugungen:
377
Das Wettmodell (2)
und setzt 4 zu 6 auf
Agent 2 hat Wettstrategie
und 2 zu 8 auf
:
, 3 zu 7 auf
B
4 to 6
3 to 7
2 to 8
B
A
B
(A B)
B
A
0.4
0.3
0.8
A
Outcome for Agent 1
A
B
A B
A
A
B
Agent 2
Bet
Stakes
Agent 1
Proposition Belief
-6
-7
2
-6
3
2
4
-7
2
4
3
-8
-11
-1
-1
-1
Wegen des inkonsistenten Beliefs verliert Agent 1 in allen möglichen
Situationen.
378
gewinnt Agent 1 in der Situation
Bei der Wettstrategie
.
Verbundwahrscheinlichkeit
Wahrscheinlichkeit, die ein Agent jeder Proposition in der Domäne zuordnet.
Ein atomares Ereignis ist eine Zuweisung von Werten an alle Zufallsvariablen
(= vollständige Spezifikation eines Zustands).
boolesche Variablen. Dann gibt es die folgenden 4
Beispiel: Seien
,
,
,
.
atomaren Ereignisse:
weist jedem
Cavity
Toothache
Cavity
Die Verbundwahrscheinlichkeitsverteilung
atomaren Ereignis eine Wahrscheinlichkeit zu:
Toothache
0.04
0.06
0.01
0.89
Da alle atomaren Ereignisse disjunkt sind, ist die Summe über alle Felder 1
(Disjunktion der Ereignisse). Die Konjunktion ist notwendigerweise falsch.
379
Rechnen mit der Verbundwahrscheinlichkeit
Alle interessanten Wahrscheinlichkeiten lassen sich aus der
Verbundwahrscheinlichkeit errechnen, indem wir sie als Disjunktion von
atomaren Ereignissen formulieren.
Beispiele:
Unbedingte Wahrscheinlichkeiten erhält man durch Aufsummieren von Zeile oder
Spalte:
380
Probleme mit der Verbundwahrscheinlichkeit
Aus der Verbundwahrscheinlichkeit lassen sich alle Wahrscheinlichkeiten
einfach ermitteln.
Werte, wenn es
Allerdings umfasst die Verbundwahrscheinlichkeit
Zufallsvariablen mit Werten gibt.
Schwierig darzustellen
Schwierig zu ermitteln
Fragen:
1. Gibt es eine dichtere Darstellung von Verbundwahrscheinlichkeiten?
2. Gibt es eine effiziente Methode, diese Darstellung zu verarbeiten?
I.allg. nicht, aber in vielen Fällen geht es. Moderne Systeme arbeiten direkt
mit bedingten Wahrscheinlichkeiten (Diagnose-Kausalität) und machen
Annahmen über die Unabhängigkeit von Variablen, um Rechnungen zu
vereinfachen.
381
Die Bayessche Regel
Wir wissen (Produktregel):
und
Verallgemeinerung (bzgl. Hintergrundevidenzen):
382
Für mehrwertige Variablen (Menge von Gleichungen):
Durch Gleichsetzen der rechten Seiten folgt:
Anwendung der Bayesschen Regel
Toothache Cavity
Cavity
Toothache
Cavity Toothache
Warum nicht gleich
schätzen?
(kausal) ist robuster als
(diagnostisch):
Toothache Cavity unabhängig von den a priori Wahrscheinlichkeiten
Toothache und Cavity .
Nimmt
383
bei einer Karies-Epidemie zu, so bleibt
unverändert, während sich
proportional ändern werden.
und
Relative Wahrscheinlichkeit
Annahme: Wir wollen auch die Wahrscheinlichkeit der Diagnose GumDisease
betrachten.
Toothache GumDisease
GumDisease
Welche Diagnose ist wahrscheinlicher?
oder
384
Wichtig, um mögliche Diagnosen auszuschließen.
Wenn uns nur die relative Wahrscheinlichkeit interessiert, brauchen wir
nicht zu schätzen:
Normalisierung (1)
Wenn wir die absolute Wahrscheinlichkeit von
bestimmen wollen
und
nicht kennen, können wir auch eine vollständige Fallanalyse
) und den Zusammenhang
durchführen (z.B. für und
(hier boolesche Variable) ausnutzen:
385
Normalisierung (2)
Durch Einsetzen in die oberste Gleichung:
Für mehrwertige Zufallsvariablen:
zu 1
386
wobei eine Normalisierungskonstante ist, welche die Werte in
.
aufsummieren lässt, z.B.
Beispiel
Ihr Arzt hat einen Test mit Ihnen durchgeführt, der eine sehr seltene
Krankheit (1 in 10000) zu 99% korrekt diagnostiziert (1% falsche positive &
1% falsche negative Ergebnisse). Der Test war positiv.
Was bedeutet das für Sie?
Moral: Wenn die Testungenauigkeit sehr viel größer als die Häufigkeit der
Krankheit ist, ist ein positives Ergebnis nicht sehr bedrohlich.
387
Multiple Evidenzen (1)
Nach der Frage nach den Zahnschmerzen hat der Zahnarzt etwas aus den
Zähnen herausgeholt (Catch) und hat mit der Bayesschen Regel berechnet:
Cavity Catch
Aber was bringt die kombinierte Evidenz?
Mit der Bayesschen Regel könnte er ermitteln:
388
Cav
Catch Cav
Tooth Catch
Catch
Cav Tooth
Tooth
Multiple Evidenzen (2)
Problem: Er braucht Tooth Catch Cav , d.h. Diagnosewissen für alle
Kombinationen von Symptomen im allgemeinen Fall.
Besser ist es, Evidenzen mit Hilfe der Evidenzenregel schrittweise
hinzuzunehmen.
Mit einer bestimmten a priori Wahrscheinlichkeit hat der Patient ein Loch:
Cav . Er berichtet von Zahnschmerzen (Bayessche Regel):
Cav
Cav Tooth
Tooth Cav
Tooth
389
(3)
Multiple Evidenzen (3)
(4)
Cav Tooth
(5)
Tooth Cav
Tooth
Cav
Cav Tooth
Die Untersuchung ergibt Catch, also
Catch Cav Tooth
Catch Tooth
Cav Catch Tooth
(4) in (5) einsetzen ergibt
Catch Cav Tooth
Cav
Cav Catch Tooth
Tooth Cav
Tooth
Catch Tooth
390
Multiple Evidenzen (4)
Annahme bedingter Unabhängigkeit von Toothache und Catch gegeben
Cavity (vereinfachtes Diagnosewissen):
Catch Cav
Catch Cav Tooth
Tooth Cav
Tooth Cav Catch
Catch Cav
Tooth Cav
Tooth
Cav
Cav Catch Tooth
Catch Tooth
391
Multiple Evidenzen (5)
Catch Cav
Cav
Cav Catch Tooth
Tooth Cav
Tooth
Catch Tooth
Wie sollen wir
Catch Tooth bestimmen?
Beachte die Nenner in den Brüchen (Produktregel!):
Tooth
Catch Tooth
Tooth
Catch
Catch
Cav und
Diesen können wir eliminieren, sofern wir ebenfalls
Tooth Cav kennen.
392
Catch bestimmen
Cav Tooth
ist ein Normalisierungsfaktor, wenn wir
wollen.
Zusammenfassung Multiple Evidenzen
Mehrfache Evidenzen können durch Reduktion auf a priori
Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten für eine Evidenz
berechnet werden (unter Annahme der Unabhängigkeit).
und
Allgemeine Kombinationsregel, falls
sind:
gegeben
bedingt unabh ängig
393
Normalisierungskonstante ist.
wobei
Zusammenfassung
Unsicherheit ist unvermeidbar in komplexen und dynamischen Welten, in
denen Agenten zur Ignoranz gezwungen sind.
Wahrscheinlichkeiten formulieren die Unfähigkeit eines Agenten, eine
definitive Entscheidung zu fällen. Sie drücken den Grad seiner
Überzeugung aus.
Bedingte und unbedingte Wahrscheinlichkeiten können über
Propositionen formuliert werden.
Verletzt ein Agent die wahrscheinlichkeitstheoretischen Axiome, so wird
er unter bestimmten Umständen irrationales Verhalten zeigen.
Die Bayessche Regel ermöglicht es, unbekannte Wahrscheinlichkeiten aus
bekannten Wahrscheinlichkeiten zu berechnen.
Multiple Evidenzen können bei bedingter Unabhängigkeit effektiv in die
Berechnung einbezogen werden.
394
Bayessche Netzwerke
(auch belief networks, probabilistic networks, causal networks)
1. Die Zufallsvariablen bilden die Knoten.
2. Gerichtete Kanten zwischen Knoten symbolisieren direkten Einfluss.
3. Mit jedem Knoten ist eine Tabelle der bedingten Wahrscheinlichkeiten
(CPT) assoziiert, die den Effekt der Eltern auf den Knoten quantifiziert.
4. Der Graph ist azyklisch (ein DAG).
Burglary
Earthquake
Alarm
JohnCalls
MaryCalls
395
Die Bedeutung bayesscher Netze
Burglary
Earthquake
Alarm
JohnCalls
MaryCalls
Alarm hängt von Burglary und Earthquake ab.
MaryCalls hängt nur von Alarm ab.
MarryCalls Alarm Burglary
MarryCalls Alarm
Bayessche Netze können als Menge von Unabhängigkeitsannahmen
aufgefasst werden.
396
Bayessche Netzwerke und die Verbundwahrscheinlichkeit
Bayessche Netzwerke können auch als dichte Repräsentation der
Verbundwahrscheinlichkeit aufgefasst werden.
Seien alle Knoten angeordnet (so dass die Ordnung die Pfeile im Netz nicht
. Seien
Werte der Variablen. Mit der
verletzt wird):
Produktregel gilt:
397
D.h. mit der Netztopologie und den CPTs können wir die
Verbundwahrscheinlichkeit berechnen!
parents
Wegen der Unabhängigkeitsannahmen ist dies äquivalent zu:
Beispiel
Burglary
P(B)
Earthquake
.001
Alarm
JohnCalls
P(E)
A
P(J)
T
F
.90
.05
B
E
P(A)
T
T
F
F
T
F
T
F
.95
.94
.29
.001
.002
MaryCalls
A
P(M)
T
F
.70
.01
Es sind nur die Wahrscheinlichkeiten für die positiven Ereignisse angegeben.
.
Die negativen ergeben sich als
398
Kompaktheit bayesscher Netze
Zur expliziten Repräsentation der Verbundwahrscheinlichkeit brauchen
bei Variablen.
wir eine Tabelle der Größe
Falls in einem Netz jeder Knoten max. Eltern hat, brauchen wir nur
Tabellen der Größe
bei booleschen Variablen.
und
und
Wahrscheinlichkeiten!
Beispiel:
verschiedene explizit repräsentierte
Im schlechtesten Fall kann natürlich auch ein bayessches Netz
exponentiell groß werden, z.B. wenn jede Variable von jeder anderen
direkt beeinflusst wird.
abhängig von der Anwendungsdomäne (lokale vs. globale Interaktion)
und dem Geschick des Designers.
399
Definitionen (1)
1. Eine bayessche Netzstruktur G ist ein gericteter azyklischer Graph,
repräsentieren. Sei
dessen Knoten die Zufallsvariablen
die Elternknoten von
in und
die Zufallsvariablen
sind. Dann repräsentiert die
im Graph, die keine Nachfolger von
nachfolgende Menge von Unabhängigkeitsannahmen, die wir
nennen:
haben wir
das heisst,
ist unabhängig von seinen Nichtnachfolgern,
gegeben seine Elternknoten.
400
Für jede Variable
Definitionen (2)
1. Wir bezeichnen eine BN Struktur als eine
(Unabhängigkeitsabbildung) einer Wahrscheinlichkeitsverteilung
.
, falls
X
Y
0.32
0.08
2.
0.48
0.12
. Leerer Graph ist
401
und sind unabhängig voneinander:
I-map von .
3.
P(X,Y)
Definitionen (3)
1. Faktorisierung: Sei ein BN Graph über den Variablen
. Wir
sagen, dass eine Verteilung über den gleichen Variablen bezüglich
faktorisiert, falls durch das folgende Produkt beschrieben wird:
Diese Gleichung wird die Kettenregel für bayessche Netze genannt. Die
einzelnen Faktoren
werden die bedingten
Wahrscheinlichkeitsvertielungen (CPDs) oder lokalen probabilistischen
Modelle genannt.
402
Definitionen (4)
1. bayessches Netz: Ein Graph und eine Verteilung , die über
faktorisiert, wobei durch eine Menge von CPDs definiert wird, die mit
den Knoten in assoziiert sind, wird bayessches Netz genannt.
2. Theorem: Sei ein BN Graph über einer Menge von Zufallsvariablen X
und sei eine Verbundwahrscheinlichkeit über den selben Variablen.
ist eine I-map für gdw entsprechend von faktorisiert.
403
Das Design eines Netzes
1. Ordne alle Variablen.
2. Nimm die erste von den übriggebliebenen.
3. Gib alle direkten Einflüsse von Knoten, die schon im Netz sind, auf den
neuen Knoten an (Kanten + CPT).
4. Falls noch Variablen in der Liste, mache bei Schritt 2 weiter.
404
Beispiel
Links = M,J,A,B,E, rechts = M,J,E,B,A
MaryCalls
MaryCalls
JohnCalls
JohnCalls
Earthquake
Alarm
Burglary
Burglary
Alarm
Earthquake
Versuch, ein diagnostisches Modell von Symptomen zu Ursachen zu
bauen, der immer zu Abhängigkeiten zwischen eigentlich unabhängigen
Ursachen und separat auftretenden Symptomen führt.
405
Inferenz in bayesschen Netzen (1)
Instantiieren einiger Variablen (Evidenzen) und Abfragen von anderen
Knoten.
Burglary
P(B)
.001
Alarm
JohnCalls
P(E)
Earthquake
A
P(J)
T
F
.90
.05
B
E
P(A)
T
T
F
F
T
F
T
F
.95
.94
.29
.001
MaryCalls
406
.002
A
P(M)
T
F
.70
.01
Inferenz in bayesschen Netzen (2)
Burglary JohnCalls ?
Der Alarm ist ziemlich zuverlässig und John ruft in 9 von 10 Fällen an,
wenn ein Alarm vorliegt.
Tatsächlich findet ein Einbruch nur alle 1000 Tage statt, aber John ruft 50
mal in 1000 Tagen an, d.h. auf einen Einbruch kommen 50 Fehlalarme.
Burglary JohnCalls
!
407
Burglary JohnCalls MaryCalls
.
Typen von Inferenzen
E
Q
Q
E
E
Q
E
E
Q
Diagnostic
Causal
(Explaining Away)
Intercausal
Mixed
1. Diagnostisch: Von Effekten zu Ursachen
Burglary JohnCalls
2. Kausal: Von Ursachen zu Effekten
JohnCalls Burglary
3. Interkausal: Zwischen Ursachen eines gemeinsamen Effekts
Burglary Alarm
, aber
Burglary Alarm Earthquake
.
4. Gemischt: Kombination von 1.-3.
Alarm JohnCalls Earthquake
408
Unabhängigkeiten: D-Separierung (1)
in
.
blockiert, falls es einen Knoten
auf dem
einen eingehenden und einen ausgehenden Teilpfad
liegt und beide Teilpfade sind ausgehend, oder
nicht in liegt, beide Teilpfade eingehend sind und kein Nachfolger
von in liegt.
3.
2.
in liegt und
besitzt, oder
ist durch
, falls jeder
sind bedingt unabhängig, gegeben
Ein Pfad von nach
Pfad gibt, so dass
1.
d-separiert die Mengen und
nach durch blockiert ist.
und
Eine Menge von Knoten
(ungerichtete) Pfad von
409
Unabhängigkeiten: d-Separation (2)
X
E
(1)
Z
(2)
Z
(3)
Z
410
Y
Beispiele für d-Separierung
Battery
Radio
Ignition
Gas
Starts
Moves
2.
1.
Ignition d-separiert Gas und Radio
Battery d-separiert Gas und Radio
3. Gas und Radio sind (ohne Evidenz) unabhängig, aber nicht mehr, falls
Starts oder
Moves.
411
Inferenzmechanismen in bayesschen Netzen (1)
Grundannahme: Das Netz ist ein Polytree, d.h., falls man die Kantenrichtung
ignoriert, bildet das Netz einen ungerichteten Baum.
+
EX
U1
Um
...
X
−
EX
Z 1j
Z nj
Y1
...
412
Yn
Herleitung des Algorithmus B ELIEF -N ET-A SK (1)
Ziel: bestimme
Betrachte Knoten
hat Nachfolgerknotenknoten
hat Elternknoten
–
–
Da das Netz ein Polytree ist, sind alle Boxen disjunkt und haben keine
Kanten untereinander
Notation:
– kausale Unterstützung:
alle Evidenz verbunden mit
413
–
– diagnostische Unterstützung:
ausser der über den Pfad
Herleitung des Algorithmus B ELIEF -N ET-A SK (2)
Ziel: rekursive Organisation der Berechnung
grobe Lösungsidee:
und
durch die Beiträge von
aus
1. drücke
aus, indem der Effekt von
auf die
2. berechne den Beitrag von
Elternknoten von berechnet wird (rekursiver Aufruf) und dann an
weiterleiten
aus, indem der Effekt von
414
3. berechne den Beitrag von
Nachfolgerknoten
auf die
Herleitung des Algorithmus B ELIEF -N ET-A SK (3)
1. Ausgangspunkt:
und
2. isoliere die Beiträge von
und
d-separiert
3.
enthalten.
415
ist als konstanter Faktor in der Normalisierungskonstanten
Herleitung des Algorithmus B ELIEF -N ET-A SK (4)
1. Bestimmung von
Betrachte alle möglichen Konfigurationen der Elternknoten von
deren Wahrscheinlichkeit gegeben die Evidenz
der Vektor der Elternknoten und
eine Belegung von
Sei
(a) Betrachte:
:
von
d-separiert
(b)
(c) die Wahrscheinlichkeit einer Verbundwahrscheinlichkeit von
unabhängigen Variablen ist gleich dem Produkt der
Wahrscheinlichkeiten der einzelnen Variablen:
416
und
d-separiert
417
und vereinfache (
):
(d) partitioniere
in
von der restlichen Evidenz in
Herleitung des Algorithmus B ELIEF -N ET-A SK (5)
1. Daraus ergibt sich:
ist durch die CPDs gegeben
ist der rekursive Aufruf
(b)
wobei
(a)
P(u
418
Inferenzmechanismen in bayesschen Netzen (2)
Wir können
berechnen, in dem wir das aufsplitten in untere“
”
und obere“ Variablen (die bedingt unabhängig, gegeben , sind!). Das
”
machen wir rekursiv!
Polynomieller Algorithmus mit Bayesscher Regel
Für Netze, die keine Polytrees sind, muss man Transformationen
vornehmen, die exponentiell werden können. I.allg. ist die Inferenz in
bayesschen Netzen NP-vollständig.
419
Der Algorithmus
function BELIEF-NET-ASK(X) returns a probability distribution over the values of X
inputs: X, a random variable
SUPPORT-EXCEPT(X, null)
function SUPPORT-EXCEPT(X, V) returns P(X EX
V)
if EVIDENCE?(X) then return observed point distribution for X
else
calculate P(EX V X) = EVIDENCE-EXCEPT(X, V)
U PARENTS[X]
if U is empty
then return P(EX V X) P(X)
else
for each Ui in U
calculate and store P(Ui EUi X ) = SUPPORT-EXCEPT(Ui , X)
return P(EX V X)
P(X u)
P(Ui Eui X )
u
i
function EVIDENCE-EXCEPT(X, V) returns P(EX
V
X)
V
Y CHILDREN[X]
if Y is empty
then return a uniform distribution
else
for each Yi in Y do
calculate P(EYi yi) = EVIDENCE-EXCEPT(Yi , null)
X
Zi PARENTS[Yi ]
for each Zij in Zi
calculate P(Zij EZij Yi ) = SUPPORT-EXCEPT(Zij , Yi )
return
P(EYi yi )
P(yi X, zi )
P(zij EZij Yi )
zi
yi
i
j
420
Systeme
Das bekannteste medizinische Expertensystem, das bayessche Netze
einsetzt, ist PATHFINDER IV.
Deckt ca. 60 Lymphknotenkrankheiten und 100 Symptome und
Testergebnisse ab.
Es waren 14000 Schätzungen von Wahrscheinlichkeiten erforderlich, die
in 40 Stunden Arbeit erstellt wurden
Besser als Weltklasse-Experten.
Viele kommerzielle und PD-Tools für bayessche Netze und
Erweiterungen erhältlich:
http://bayes.stat.washington.edu/almond/belief.html
421
Andere Ansätze (1)
Nicht-monotone Logik
– kann als qualitative Variante aufgefasst werden.
– Tatsächlich sind einige NM-Logiken (die Ordnungen auf den Modellen
betrachten) in einer Nicht-Standard Wahrscheinlichkeitstheorie
rekonstruierbar ( -Semantik mit verschwindend kleinen
Wahrscheinlichkeiten).
422
Andere Ansätze (2)
Regelbasierte Systeme mit certainty factors“.
”
– Logikbasierte Systeme mit Regelgewichten, die bei der Inferenz
kombiniert werden.
– Sind vom Berechenbarkeitsaufwand einfacher, können aber entweder nur
kausale oder nur diagnostische Regeln verarbeiten, akzeptieren
Evidenzen nur an den Wurzeln“.
”
– Liefern inkorrekte Ergebnisse, falls die Regelmenge mehrfach verbunden“
”
ist.
– Der Einsatz wird heute nicht mehr empfohlen.
423
Andere Ansätze (3)
Dempster-Shafer Theorie
– erlaubt neben der Repräsentation von Unsicherheit auch die
Repräsentation von Ignoranz.
– Beispiel: Bei einer fairen Münze würden wir von 0.5 für Kopf
ausgehen. Wenn wir aber nicht wissen, ob die Münze fair ist?
Bel Kopf
, Bel Zahl
. Ist die Münze 90% fair,
,
d.h. Bel Kopf
mit.
ohne Wissen,
424
Intervall von Wahrscheinlichkeiten
Andere Ansätze (4)
Fuzzy-Logik und Fuzzy-Mengen
– Dient zur Repräsentation und Verarbeitung von Vagheit, nicht Unsicherheit.
– Beispiel: das Auto fährt schnell.
– Einsatz insbesondere im Bereich Steuerung und Regelung.
– Dort interpretierbar als Interpolationstechnik.
425
Zusammenfassung bayessche Netze
Bayessche Netze erlauben eine kompakte Repräsentation der
Verbundwahrscheinlichkeit.
Dies wird erreicht durch Unabhängigkeitsannahmen.
Sie unterstützen verschiedene Formen des Schließens gegeben
Evidenzen: kausal, diagnostisch, interkausal, gemischt.
Inferenz bedeutet dabei die Berechnung der Verteilung einer Menge von
Variablen gegeben die Evidenzen.
Die Komplexität der Inferenz in bayesschen Netzen hängt von der
Struktur des Netzwerkes ab.
I.allg. ist die Inferenz in bayesschen Netzen NP-vollständig.
Für Polytrees ist die Komplexität polynomiell in der Größe des Netwerks.
426
Herunterladen