Bayes`sche Netze Bayes sche Netze

Werbung
Elektrotechnik und Informationstechnik Institut für Automatisierungstechnik, Professur Prozessleittechnik
Bayes'sche
Bayes
sche Netze
VL PLT2
Professur für Prozessleittechnik
Prof Leon Urbas,
Prof.
Urbas Dipl.-Ing.
Dipl Ing Johannes Pfeffer,
Pfeffer Dipl
Dipl.-Ing.
Ing Annett Krause
Übersicht
• Bayes'sche Netze
–
–
–
–
(heute)
Einführung
Modellierungsansatz
Berechnung
Typische Fragestellungen an ein Bayes'sches Netz
• Hidden Markov Modelle (nächste Woche)
• Dynamische Bayes'sche Netze (04.07.2012)
– Erweiterung um die Dimension Zeit
– DBN = Generalisierung von Markov Modellen und
Hidden Markov Modellen
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
2
Thomas Bayes
Thomas Bayes [bɛi:z]
* um 1702 in London
† 7. April 1761
•
Bayestheorem (Satz von Bayes)
•
Bayesscher
Wahrscheinlichkeitsbegriff
•
Bayessche Statistik
•
Bayes-Klassifikator
l
fk
•
Bayessches Filter
•
Bayes'sches Netz
•
Bayessche Ökonometrie
•
Perfektes Bayessches
Gleichgewicht (Spieltheorie)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
3
Problemstellung
• Wie kann Wissen über zufällige Ereignisse und
kausale Zusammenhänge zwischen diesen
mathematisch effizient gefasst werden um
– aus Beobachtung auf die Wahrscheinlichkeit einer Folge
zu schließen (Deduktion)
– aus Beobachtung (Symptomen) auf die
Wahrscheinlichkeit bekannter Ursachen zu schließen
(Induktion)
– aus Beobachtungen und grundlegendem Wissen über
Zusammenhänge die Verbundwahrscheinlichkeit zu
lernen?
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
4
Bayes'sche Netze
„Sssst“
kein „Sssst“
0,05
0,95
Chinesische Vase
auf schiefer Ebene
• Graphentheorie + Wahrscheinlichkeitsrechnung
• Gerichteter azyklischer Graph (DAG) mit
– Knoten: diskretwertige Zufallsvariablen
– Kanten: direkte stochastische Abhängigkeiten
zwischen Variablen
• Knoten ohne Eltern
– Wahrscheinlichkeit: P(A=i)  i
(i z.B. true, false oder Ssst, kein Ssst)
„Bumm“
• Knoten mit Eltern
– Bedingte Wahrscheinlichkeit: P(A=i|B=j,C=k)  i,j,k
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
5
1. Beispiel
• Ich wohne in Philippsburg und bin nicht zu
Hause.
Hause
• Mein Nachbarin Hillary und/oder mein
Nachbar Steve rufen mich an,, wenn sie die
Alarmanlage meines Hauses hören.
• Die Alarmanlage wird nicht nur durch
Ei b
Einbruch
h sondern
d
manchmal
h
l auch
h durch
d
h
leichte Erdbeben ausgelöst.
• Hillary und Steve rufen auch ohne Alarm
bei mir an.
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
6
Modellierung eines Bayes‘schen Netzes
• Bestimmung der Variablen = Knoten
– Erdbeben, Einbruch, Alarm, Anruf Steve und Anruf
Hillary
• Identifizieren der Zusammenhänge = Kanten
– Erdbeben oder Einbruch führen unabhängig
voneinander mit bestimmten Wahrscheinlichkeiten
zu einem
i
Alarm
Al
– Alarm/Kein Alarm führen mit bestimmten
Wahrscheinlichkeiten zu Anrufen der Nachbarn
• Aufstellen der bedingten Wahrscheinlichkeitstabellen
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
7
Zusammenhänge
• Erdbeben & Einbruch sind unabhängig
– P(Erdbeben|Einbruch) = P(Erdbeben)
– P(Einbruch|Erdbeben) = P(Einbruch)
• Kausale Zusammenhänge
– Erdbeben oder Einbruch führen unabhängig
voneinander mit bestimmten Wahrscheinlichkeiten
zu einem Alarm
– Alarm/Kein
Al
/K i Al
Alarm führen
füh
mit
it bestimmten
b ti
t
Wahrscheinlichkeiten zu Anrufen der Nachbarn.
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
8
Bayes'sches Netz
P(Einbruch) 0,001
P(Erdbeben) 0,002
Einbruch
Erdbeben
Alarm
Alarm
True
F l
False
P(Anruf Hillary)
0,9
0 05
0,05
06.06.2012
Anruf Hillary
Einbruch Erdbeben
T
T
T
F
F
T
F
F
Anruf Steve
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
Alarm
True
F l
False
P(Alarm)
0 95
0,95
0,94
0,29
0,001
P(Anruf Steve)
0,7
0 01
0,01
9
Probabilistische Inferenzen
• Diagnostische Inferenz (=Induktion)
– Geg.: Effekt
– Ges.: Ursache
– P(Alarm | Anruf Steve)
• Kausale Inferenz ((=Deduktion)
Deduktion)
– Geg.: Ursache
– Ges.: Effekt
– P(Anruf Steve | Einbruch)
• Interkausale Inferenz
– Geg.: eine mögliche Ursache, Effekt
Ges : andere Ursache
– Ges.:
– P(Einbruch | Anruf Steve, Erdbeben)
• + Kombination aus diagnostischer, kausaler und
interkausaler Inferenz
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
10
Inferenz nach Beobachtungen
Diagnostisch
Kausal
Interkausal
(Ursache)
Einbruch
Erdbeben
Einbruch
? (Ursache)
Anruf
Hillary
Anruf
Steve
(Effekt)
06.06.2012
Erdbeben
(Ursache)
?
Einbruch
Alarm
Alarm
Anruf
Hillary
(Ursache)
Erdbeben
Alarm
?
Anruf
Steve
(Effekt)
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
Anruf
Hillary
Anruf
Steve
(Effekt)
11
2. Beispiel
• Hebebühne
– Batterie (Battery), hebbares Teil (Liftable)
– Batterieanzeige (Gauge), Bewegung (Moves)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
12
(Evidenz)
(Query)
?
Kausale Inferenz
• Wie wahrscheinlich ist es, dass wir das Teil
b
bewegen
kö
können,
wenn es hebbar
h bb ist?
i t?
• P(M|L)
• Allgemeiner
ll
Ansatz ((Produktregel)
d k
l)
– Q=Query, E=Evidenz
– P(Q|E)=ΣP(Q,R=r
P(Q|E)=ΣP(Q R=ri|E)
mit R = Eltern von Q, ohne Evidenzen
– ΣP(Q,R=r
(Q,
|E)) = ΣP(Q|R=r
(Q|
,E)P(R=r
) (
|E))
i|
i,
i|
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
13
(Query)
?
(Evidenz)
Diagnostische Inferenz
• Wie wahrscheinlich ist es
es, dass das Teil zu
schwer ist, wenn wir sehen, dass sich nichts
bewegt?
• P(¬L | ¬M)
g
Ansatz ((Bayes'sche
y
Regel)
g )
• Allgemeiner
– P(Q|E)= P(E|Q)P(Q)/P(E)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
14
(Evidenz)
(Query)
?
(Evidenz)
Interkausale Inferenz
• Wie wahrscheinlich ist es, dass das Teil nicht
angehoben
g
werden kann,, wenn wir sehen,,
dass sich nichts bewegt und die Batterie leer
ist?
• P(¬L|¬B, ¬M)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
15
Berechnung d. bedingten Wahrscheinlichkeit eines
Knotens in einem einfach verbundenen Netz (1/2)
• Gesucht: P(X|E)
• Vereinfachung: Netz nur
einfach verbunden
(Polytree)
• Aufteilung in
diagnostische und kausale
Evidenz (unabhängig!)
P(X|E) =  P(E-|X) P(X|E+)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
16
Berechnung d. bedingten Wahrscheinlichkeit eines
Knotens in einem einfach verbundenen Netz (2/2)
• …
• Berechnung
B
h
di
diagnostische
ti h E
Evidenz
id
P(X|E )
P(X|E+)
– Alle Kombinationen der Werte der Elternknoten
gemäß WS-Tabelle von X betrachten und mit ihren
g
WS gewichten, die rekursiv auf gleiche Weise
berechnet werden.
• Berechnung kausale Evidenz P(E
P(E-|X)
|X)
– Alle Kombinationen der Werte der Kindknoten
gemäß WS-Tabelle von X betrachten und mit ihren
WS gewichten
gewichten, die rekursiv auf gleiche Weise
berechnet werden.
• Algorithmus
06.06.2012
Є
O(n)
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
17
Kausale Verbindungen in BN
• Seriell
A
B
C
– B bekannt 
A, C unabhängig
• Divergent
– A bekannt 
B, C bedingt unabhängig
C
A
B
B
• Konvergent
– C unbekannt 
A B unabhängig
A,
bhä i
– C bekannt 
A,, B bedingt
g abhängig
gg
06.06.2012
C
B
A
C
A
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
18
D-Separation - Begriff / Definition
• D-Separation erlaubt eine allgemeine
A
Aussage
darüber,
d üb
ob
b eine
i
K t
Knotenmenge
X
unabhängig von einer Knotenmenge Y ist
(bei gegebener Evidenzknotenmenge E)
• Zwei Knoten X und Y sind d-separiert durch
eine Menge von Evidenzvariablen (Variablen,
deren Belegung bekannt ist), wenn jeder
ungerichtete Pfad zwischen X und Y blockiert
ist.
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
19
Abhängigkeiten in Bayes'schen Netzen
• Zwei verschiedene Variablen X und Y sind dseparated
t d (direction-dependent-separated),
(di
ti
d
d t
t d)
falls auf allen (ungerichteten) Pfaden
zwischen X und Y eine Variable Z existiert
existiert, so
dass entweder
• die Verbindung
g seriell oder divergent
g
und Z
ein Evidenzknoten ist oder
• die Verbindung konvergent und weder Z noch
Z's
Z
s Nachfahren Evidenzknoten sind
• Sind zwei Knoten nicht d-separated, werden
sie auch als d
d-connected
connected bezeichnet
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
20
Topologische Interpretation
• Ein Pfad ist blockiert durch einen Knoten z,
wenn
– z  E und z ein- und ausgehenden Unterpfad hat
– z  E und beide Unterpfade ausgehend sind
– z  E, beide Pfade eingehend und  Nachfolger z‘
von z gilt: z‘  E
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
21
D-Separation - Beispiel
A
F
C
G
B
D
H
E
Welche Aussagen sind wahr?
1) F d
d-separated
separated von H bei geg. G
2) C d-separated von G bei geg. F
3) A d-separated von B bei geg. D
4) A d-separated von B
5) D d-separated von F bei geg. C, G
6) F d
d-separated
separated von E bei geg
geg. C
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
22
Topologie: Mehrfach verbundene Netze
Eine Ursache kann mehrere Effekte bewirken
P(wolkig)
wolkig P(Sprinkler)
True
0,1
False
0,9
0,5
wolkig
Sprinkler
Regen
wolkig P(Regen)
True
0,8
False
0,2
nasses
Gras
Sprinkler Regen P(nasses Gras)
T
T
0,99
T
F
0,9
F
T
0,9
F
F
0 00
0,00
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
23
Effizienzsteigerung der Berechnung (1/3)
• Cluster Methode
P(w)
0,5
P(w)
wolkig
w P(S)
T 0,1
F 0,9
S
T
T
F
F
Sprinkler
R P(nG)
T 0,99
0 99
F 0,9
T 0,9
F 0,00
06.06.2012
0,5
wolkig
Regen
w P(R)
T 0,8
F 0,2
nasses
Gras
Sprinkler
und
Regen
nasses
Gras
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
S + R P(nG)
T T 0,99
0 99
TF
0,9
FT
0,9
FF
0,00
24
Effizienzsteigerung der Berechnung (2/3)
• Konditionale Methode
P(w)
wolkig = F
wolkig = F
Sprinkler
0,5
Regen
wolkig
w P(S)
T 0,1
F 0,9
Sprinkler
Regen
nasses
Gras
w P(R)
T 0,8
F 0,2
wolkig = T
S
T
T
F
F
R P(nG)
T 0,99
0 99
F 0,9
T 0,9
F 0,00
wolkig = T
nasses
Gras
Sprinkler
Regen
nasses
Gras
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
25
Effizienzsteigerung der Berechnung (3/3)
• Stochastische Simulationsmethode
P(w)
wolkig=T
0,5
Wolkig=F
wolkig
w P(S)
T 0,1
F 0,9
Sprinkler
Wolkig=F
Regen
w P(R)
T 0,8
F 0,2
Sprinkler=F
Sprinkler=T
R P(nG)
T 0,99
0 99
F 0,9
T 0,9
F 0,00
06.06.2012
?
nasses
Gras
P (nG | E i ) 
Regen=T
Sprinkler=T
nasses
Gras
S
T
T
F
F
Wolkig=T
Regen=T
1
n
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
Regen=T
Sprinkler=F
nasses
Gras
?
nasses
Gras
?
n
 P (nG | R ,E )
j
j
i
Regen=T
nasses
Gras
?
j 1
26
Literatur & Bibliotheken
• Literatur
– Pearl, J. (1988) Probabilistic Reasoning in Intelligent
Systems Morgan Kaufmann
Systems.
– Charniak, E. (1991) Bayesian Networks without Tears.
AI Magazine. 1991. 50-63.
– Korb, K. and Nicholson, A. (2003) Bayesian Artificial
Intelligence, Chapman&Hall
• Bibliotheken
– Kevin Murphy's
p y Bayesian
y
Network Toolbox for MatLab:
http://bnt.sourceforge.net
– Lernen von Bayesschen Netzen in R
http://www.mascherini.org/Mastino.html
– Bayesian network tools in Java:
http://bnj.sourceforge.net/
– Tutorial: http://aispace.org/bayes/
– AIspace Java-Applet:
Java Applet: http://aispace.org/bayes/
http://aispace org/bayes/
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
27
Darstellung kausaler Beziehungen durch
bedingte Wahrscheinlichkeiten
• Produktregel:
g
Von der Ursache zur
(wahrscheinlichen) Wirkung
 P(A,B|C)= P(A|B,C)*P(B|C) = P(B|A,C)*P(A|C)
• Bayes'sche
Bayes sche Regel: Von der Wirkung zur
(wahrscheinlichen) Ursache
 P(B|A,C)= P(A|B,C)*P(B|C) / P(A,C)
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
28
06.06.2012
PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause
29
Herunterladen