Elektrotechnik und Informationstechnik Institut für Automatisierungstechnik, Professur Prozessleittechnik Bayes'sche Bayes sche Netze VL PLT2 Professur für Prozessleittechnik Prof Leon Urbas, Prof. Urbas Dipl.-Ing. Dipl Ing Johannes Pfeffer, Pfeffer Dipl Dipl.-Ing. Ing Annett Krause Übersicht • Bayes'sche Netze – – – – (heute) Einführung Modellierungsansatz Berechnung Typische Fragestellungen an ein Bayes'sches Netz • Hidden Markov Modelle (nächste Woche) • Dynamische Bayes'sche Netze (04.07.2012) – Erweiterung um die Dimension Zeit – DBN = Generalisierung von Markov Modellen und Hidden Markov Modellen 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 2 Thomas Bayes Thomas Bayes [bɛi:z] * um 1702 in London † 7. April 1761 • Bayestheorem (Satz von Bayes) • Bayesscher Wahrscheinlichkeitsbegriff • Bayessche Statistik • Bayes-Klassifikator l fk • Bayessches Filter • Bayes'sches Netz • Bayessche Ökonometrie • Perfektes Bayessches Gleichgewicht (Spieltheorie) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 3 Problemstellung • Wie kann Wissen über zufällige Ereignisse und kausale Zusammenhänge zwischen diesen mathematisch effizient gefasst werden um – aus Beobachtung auf die Wahrscheinlichkeit einer Folge zu schließen (Deduktion) – aus Beobachtung (Symptomen) auf die Wahrscheinlichkeit bekannter Ursachen zu schließen (Induktion) – aus Beobachtungen und grundlegendem Wissen über Zusammenhänge die Verbundwahrscheinlichkeit zu lernen? 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 4 Bayes'sche Netze „Sssst“ kein „Sssst“ 0,05 0,95 Chinesische Vase auf schiefer Ebene • Graphentheorie + Wahrscheinlichkeitsrechnung • Gerichteter azyklischer Graph (DAG) mit – Knoten: diskretwertige Zufallsvariablen – Kanten: direkte stochastische Abhängigkeiten zwischen Variablen • Knoten ohne Eltern – Wahrscheinlichkeit: P(A=i) i (i z.B. true, false oder Ssst, kein Ssst) „Bumm“ • Knoten mit Eltern – Bedingte Wahrscheinlichkeit: P(A=i|B=j,C=k) i,j,k 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 5 1. Beispiel • Ich wohne in Philippsburg und bin nicht zu Hause. Hause • Mein Nachbarin Hillary und/oder mein Nachbar Steve rufen mich an,, wenn sie die Alarmanlage meines Hauses hören. • Die Alarmanlage wird nicht nur durch Ei b Einbruch h sondern d manchmal h l auch h durch d h leichte Erdbeben ausgelöst. • Hillary und Steve rufen auch ohne Alarm bei mir an. 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 6 Modellierung eines Bayes‘schen Netzes • Bestimmung der Variablen = Knoten – Erdbeben, Einbruch, Alarm, Anruf Steve und Anruf Hillary • Identifizieren der Zusammenhänge = Kanten – Erdbeben oder Einbruch führen unabhängig voneinander mit bestimmten Wahrscheinlichkeiten zu einem i Alarm Al – Alarm/Kein Alarm führen mit bestimmten Wahrscheinlichkeiten zu Anrufen der Nachbarn • Aufstellen der bedingten Wahrscheinlichkeitstabellen 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 7 Zusammenhänge • Erdbeben & Einbruch sind unabhängig – P(Erdbeben|Einbruch) = P(Erdbeben) – P(Einbruch|Erdbeben) = P(Einbruch) • Kausale Zusammenhänge – Erdbeben oder Einbruch führen unabhängig voneinander mit bestimmten Wahrscheinlichkeiten zu einem Alarm – Alarm/Kein Al /K i Al Alarm führen füh mit it bestimmten b ti t Wahrscheinlichkeiten zu Anrufen der Nachbarn. 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 8 Bayes'sches Netz P(Einbruch) 0,001 P(Erdbeben) 0,002 Einbruch Erdbeben Alarm Alarm True F l False P(Anruf Hillary) 0,9 0 05 0,05 06.06.2012 Anruf Hillary Einbruch Erdbeben T T T F F T F F Anruf Steve PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause Alarm True F l False P(Alarm) 0 95 0,95 0,94 0,29 0,001 P(Anruf Steve) 0,7 0 01 0,01 9 Probabilistische Inferenzen • Diagnostische Inferenz (=Induktion) – Geg.: Effekt – Ges.: Ursache – P(Alarm | Anruf Steve) • Kausale Inferenz ((=Deduktion) Deduktion) – Geg.: Ursache – Ges.: Effekt – P(Anruf Steve | Einbruch) • Interkausale Inferenz – Geg.: eine mögliche Ursache, Effekt Ges : andere Ursache – Ges.: – P(Einbruch | Anruf Steve, Erdbeben) • + Kombination aus diagnostischer, kausaler und interkausaler Inferenz 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 10 Inferenz nach Beobachtungen Diagnostisch Kausal Interkausal (Ursache) Einbruch Erdbeben Einbruch ? (Ursache) Anruf Hillary Anruf Steve (Effekt) 06.06.2012 Erdbeben (Ursache) ? Einbruch Alarm Alarm Anruf Hillary (Ursache) Erdbeben Alarm ? Anruf Steve (Effekt) PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause Anruf Hillary Anruf Steve (Effekt) 11 2. Beispiel • Hebebühne – Batterie (Battery), hebbares Teil (Liftable) – Batterieanzeige (Gauge), Bewegung (Moves) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 12 (Evidenz) (Query) ? Kausale Inferenz • Wie wahrscheinlich ist es, dass wir das Teil b bewegen kö können, wenn es hebbar h bb ist? i t? • P(M|L) • Allgemeiner ll Ansatz ((Produktregel) d k l) – Q=Query, E=Evidenz – P(Q|E)=ΣP(Q,R=r P(Q|E)=ΣP(Q R=ri|E) mit R = Eltern von Q, ohne Evidenzen – ΣP(Q,R=r (Q, |E)) = ΣP(Q|R=r (Q| ,E)P(R=r ) ( |E)) i| i, i| 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 13 (Query) ? (Evidenz) Diagnostische Inferenz • Wie wahrscheinlich ist es es, dass das Teil zu schwer ist, wenn wir sehen, dass sich nichts bewegt? • P(¬L | ¬M) g Ansatz ((Bayes'sche y Regel) g ) • Allgemeiner – P(Q|E)= P(E|Q)P(Q)/P(E) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 14 (Evidenz) (Query) ? (Evidenz) Interkausale Inferenz • Wie wahrscheinlich ist es, dass das Teil nicht angehoben g werden kann,, wenn wir sehen,, dass sich nichts bewegt und die Batterie leer ist? • P(¬L|¬B, ¬M) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 15 Berechnung d. bedingten Wahrscheinlichkeit eines Knotens in einem einfach verbundenen Netz (1/2) • Gesucht: P(X|E) • Vereinfachung: Netz nur einfach verbunden (Polytree) • Aufteilung in diagnostische und kausale Evidenz (unabhängig!) P(X|E) = P(E-|X) P(X|E+) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 16 Berechnung d. bedingten Wahrscheinlichkeit eines Knotens in einem einfach verbundenen Netz (2/2) • … • Berechnung B h di diagnostische ti h E Evidenz id P(X|E ) P(X|E+) – Alle Kombinationen der Werte der Elternknoten gemäß WS-Tabelle von X betrachten und mit ihren g WS gewichten, die rekursiv auf gleiche Weise berechnet werden. • Berechnung kausale Evidenz P(E P(E-|X) |X) – Alle Kombinationen der Werte der Kindknoten gemäß WS-Tabelle von X betrachten und mit ihren WS gewichten gewichten, die rekursiv auf gleiche Weise berechnet werden. • Algorithmus 06.06.2012 Є O(n) PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 17 Kausale Verbindungen in BN • Seriell A B C – B bekannt A, C unabhängig • Divergent – A bekannt B, C bedingt unabhängig C A B B • Konvergent – C unbekannt A B unabhängig A, bhä i – C bekannt A,, B bedingt g abhängig gg 06.06.2012 C B A C A PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 18 D-Separation - Begriff / Definition • D-Separation erlaubt eine allgemeine A Aussage darüber, d üb ob b eine i K t Knotenmenge X unabhängig von einer Knotenmenge Y ist (bei gegebener Evidenzknotenmenge E) • Zwei Knoten X und Y sind d-separiert durch eine Menge von Evidenzvariablen (Variablen, deren Belegung bekannt ist), wenn jeder ungerichtete Pfad zwischen X und Y blockiert ist. 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 19 Abhängigkeiten in Bayes'schen Netzen • Zwei verschiedene Variablen X und Y sind dseparated t d (direction-dependent-separated), (di ti d d t t d) falls auf allen (ungerichteten) Pfaden zwischen X und Y eine Variable Z existiert existiert, so dass entweder • die Verbindung g seriell oder divergent g und Z ein Evidenzknoten ist oder • die Verbindung konvergent und weder Z noch Z's Z s Nachfahren Evidenzknoten sind • Sind zwei Knoten nicht d-separated, werden sie auch als d d-connected connected bezeichnet 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 20 Topologische Interpretation • Ein Pfad ist blockiert durch einen Knoten z, wenn – z E und z ein- und ausgehenden Unterpfad hat – z E und beide Unterpfade ausgehend sind – z E, beide Pfade eingehend und Nachfolger z‘ von z gilt: z‘ E 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 21 D-Separation - Beispiel A F C G B D H E Welche Aussagen sind wahr? 1) F d d-separated separated von H bei geg. G 2) C d-separated von G bei geg. F 3) A d-separated von B bei geg. D 4) A d-separated von B 5) D d-separated von F bei geg. C, G 6) F d d-separated separated von E bei geg geg. C 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 22 Topologie: Mehrfach verbundene Netze Eine Ursache kann mehrere Effekte bewirken P(wolkig) wolkig P(Sprinkler) True 0,1 False 0,9 0,5 wolkig Sprinkler Regen wolkig P(Regen) True 0,8 False 0,2 nasses Gras Sprinkler Regen P(nasses Gras) T T 0,99 T F 0,9 F T 0,9 F F 0 00 0,00 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 23 Effizienzsteigerung der Berechnung (1/3) • Cluster Methode P(w) 0,5 P(w) wolkig w P(S) T 0,1 F 0,9 S T T F F Sprinkler R P(nG) T 0,99 0 99 F 0,9 T 0,9 F 0,00 06.06.2012 0,5 wolkig Regen w P(R) T 0,8 F 0,2 nasses Gras Sprinkler und Regen nasses Gras PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause S + R P(nG) T T 0,99 0 99 TF 0,9 FT 0,9 FF 0,00 24 Effizienzsteigerung der Berechnung (2/3) • Konditionale Methode P(w) wolkig = F wolkig = F Sprinkler 0,5 Regen wolkig w P(S) T 0,1 F 0,9 Sprinkler Regen nasses Gras w P(R) T 0,8 F 0,2 wolkig = T S T T F F R P(nG) T 0,99 0 99 F 0,9 T 0,9 F 0,00 wolkig = T nasses Gras Sprinkler Regen nasses Gras 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 25 Effizienzsteigerung der Berechnung (3/3) • Stochastische Simulationsmethode P(w) wolkig=T 0,5 Wolkig=F wolkig w P(S) T 0,1 F 0,9 Sprinkler Wolkig=F Regen w P(R) T 0,8 F 0,2 Sprinkler=F Sprinkler=T R P(nG) T 0,99 0 99 F 0,9 T 0,9 F 0,00 06.06.2012 ? nasses Gras P (nG | E i ) Regen=T Sprinkler=T nasses Gras S T T F F Wolkig=T Regen=T 1 n PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause Regen=T Sprinkler=F nasses Gras ? nasses Gras ? n P (nG | R ,E ) j j i Regen=T nasses Gras ? j 1 26 Literatur & Bibliotheken • Literatur – Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems Morgan Kaufmann Systems. – Charniak, E. (1991) Bayesian Networks without Tears. AI Magazine. 1991. 50-63. – Korb, K. and Nicholson, A. (2003) Bayesian Artificial Intelligence, Chapman&Hall • Bibliotheken – Kevin Murphy's p y Bayesian y Network Toolbox for MatLab: http://bnt.sourceforge.net – Lernen von Bayesschen Netzen in R http://www.mascherini.org/Mastino.html – Bayesian network tools in Java: http://bnj.sourceforge.net/ – Tutorial: http://aispace.org/bayes/ – AIspace Java-Applet: Java Applet: http://aispace.org/bayes/ http://aispace org/bayes/ 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 27 Darstellung kausaler Beziehungen durch bedingte Wahrscheinlichkeiten • Produktregel: g Von der Ursache zur (wahrscheinlichen) Wirkung P(A,B|C)= P(A|B,C)*P(B|C) = P(B|A,C)*P(A|C) • Bayes'sche Bayes sche Regel: Von der Wirkung zur (wahrscheinlichen) Ursache P(B|A,C)= P(A|B,C)*P(B|C) / P(A,C) 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 28 06.06.2012 PLT2 (c) 2009-2012, Urbas, Pfeffer, Krause 29