Bayessche Graphen Ein Konzept zur effektiven Darstellung von Information und Inferenz Jan Simon RWTH Aachen Aufbau des Vortrags I Wahrscheinlichkeitstheoretische Grundlagen Bedingtheit und Unabhängigkeit in der Stochastik II Was sind Bayessche Graphen? Definition Konstruktion III Bedingte Unabhängigkeiten: die d-Separation Informationsflüsse IV Inferenz: Was uns Bayessche Graphen sagen Marginalisierung Message-Passing V Kausalität: Eine Frage der Reihenfolge I Wahrscheinlichkeitstheoretische Grundlagen Zufallsvariable X Kann gewisse Werte x1, …, xn annehmen Wahrscheinlichkeit P(X=x) Eine Zahl zwischen 0 und 1 als Maß der (Un-)Sicherheit des Ereignisses X=x Bedingte Wahrscheinlichkeit P(X=x|Y=y) Information ändert die Einschätzung der Situation P(X x | Y y) P(X x, Y y) P(Y y) I Wahrscheinlichkeitstheoretische Grundlagen Gemeinsame Verteilung der Variablen X1, X2, …, Xn Statt P(X1=x1, X2=x2, …, Xn=xn) schreibt man P(x1, x2, …, xn) Die Kettenregel Eine gemeinsame Verteilung wird „faktorisiert“ Interpretation als zeitliche Reihenfolge P(x1 , x 2 , ..., x n ) P(x1 ) P(x 2 | x 1 ) P(x 3 | x 1 , x 2 ) ... P(x n | x 1 , x 2 , ..., x n -1 ) Stochastische Unabhängigkeit von Zufallsvariablen X, Y P(X=x, Y=y) = P(X=x) P(Y=y) für alle möglichen Werte x, y P(X=x|Y=y)=P(X=x) Den Wert einer der beiden Variabel zu erfahren, ändert nichts an der Wahrscheinlichkeitsverteilung der anderen Variable I Wahrscheinlichkeitstheoretische Grundlagen Bedingte Unabhängigkeit von Variablen X, Y gegeben Z P(X=x|Y=y, Z=z)=P(X=x|Z=z) für alle möglichen Werte x, y, z Das Bekanntwerden von Z sorgt dafür, dass X und Y unabhängig voneinander werden (Beispiele später) Bedingte Unabhängigkeit ist symmetrisch II Was sind Bayessche Graphen? Ein „ gerichteter Graph“ G=(V, E) besteht aus Einer Knotenmenge V=(v1, v2, …, vn) Einer Menge E geordneter Knotenpaare, wie (v1, v2) Knotenpaare (vi, vj) sind als Pfeile von vi nach vi zu interpretieren Weitere Begriffe bei Graphen Wurzelknoten Eltern, Kinder eines Knotens Vorfahren, Nachfahren eines Knotens II Was sind Bayessche Graphen ? Gegeben: Variablen X1, X2, …, Xn mit gemeinsamer Verteilung P(x1, x2, …, xn)=P(x1) P(x2|x1) P(x3|x1, x2) … P(xn|x1, …, xn) Idee: Bedingte Unabhängigkeiten ausnutzen Jede Variable Xi hat eine minimale Teilmenge Pai von {X1, X2, …, Xi-1}, sodass P(xi|x1, x2, …, xi-1)=P(xi|pai) Diese Markov-Eltern machen Xi bedingt unabhängig von den übrigen Variablen aus {X1, X2, …, Xi-1} P(x1, x2, …, xn)=P(x1|pa1) P(x2|pa2) … P(xn|pan) Die Struktur der gegenseitigen Bedingtheiten lassen sich als Graph darstellen II Was sind Bayessche Graphen ? Definition des Bayesschen Graphen Ein gerichteter, azyklischer Graph Die Knoten sind Zufallsvariablen X1, X2, …, Xn Für jeden Knoten Xi sind die Eltern im Graph seine MarkovEltern, also eine minimale Teilmenge Pai von {X1, X2, …, Xi-1}, von der Xi abhängig ist Bayessche Graphen vereinen stochastische und graphentheoretische Konzepte In der Praxis Jeder Knoten enthält eine Tabelle der auf seine Eltern bedingten Wahrscheinlichkeiten (außer Wurzelknoten) Anwendungsgebiet: zufallsbehaftete Situationen mit kompliziertem Bedingtheitsgefüge darstellen II Was sind Bayessche Graphen ? Ein Beispiel aus der Medizin X1=Schrumpfniere X2=Arteriosklerose X3=Hypertonie X4=arterielle Embolie X5=Schlaganfall X6=Taubheit einer Körperseite X7=einseitige Lähmung Konstruktion des Graphen X1 einfügen Sukzessive die Xi einfügen und Pfeile von den Markov-Eltern Pai zu Xi zeichnen, also nur von den direkten Einflüssen II Was sind Bayessche Graphen ? Die elternbedingten Wahrscheinlichkeitsverteilungen unseres Beispiels Bayessche Graphen nutzen Speicherplatz effektiv Hier: 32 Zahlen anstatt 27=128 (bei der gemeinsamen Verteilung) III Bedingte Unabhängigkeiten: die d-Separation Blockade durch Variablen Z={Z1, …, Zn} Seriell Divergent Konvergent (weder N noch ein Nachfolger von N ist in Z) Interpretation als Unterbrechung des Flusses von Information Durch Z blockierter Weg Mindestens eine der drei Blockadearten kommt vor Freier Weg (frei in Bezug auf Z) Ein Weg, der nicht blockiert ist Durch Z blockierte Variablenmengen X={X1, …, Xm}, Y={Y1, …, Yk} Jeder beliebige Weg von einem Xi aus X zu einem Yj aus Y ist blockiert Freie Variablenmengen X, Y (frei in Bezug auf Z) Es gibt einen freien Weg von einem Xi aus X zu einem Yj aus Y III Bedingte Unabhängigkeiten: die d-Separation {X3} und {X4} sind von {X2} blockiert Die Wege X3 <- X2 -> X4 und X3 -> X5 <- X4 sind blockiert {X1} und {X6, X7} sind von {X3} nicht blockiert Es gibt den freien Weg X1 -> X3 <- X2 -> X4 -> X5 -> X6 III Bedingte Unabhängigkeiten: die d-Separation Was bedeutet die Grapheneigenschaft der Blockiertheit für die Wahrscheinlichkeitsverteilungen? Das d-Separations-Kriterium (X, Y, Z seien verschiedene Knoten eines Bayesschen Graphen G) Sind X und Y von Z blockiert, so sind sie bedingt unabhängig gegeben Z bezüglich jeder gemeinsamen Verteilung, deren Bedingtheitsstruktur von G dargestellt wird Sind X und Y bezüglich Z frei, so sind sie abhängig gegeben Z bezüglich vieler gemeinsamer Verteilungen, deren Bedingtheitsstruktur von G dargestellt wird Verallgemeinerung auf Variablenmengen X, Y, Z ist möglich Legitimation des Begriffs „Blockiertheit“ IV Inferenz: Was uns Bayessche Graphen sagen Gesucht ist die Wahrscheinlichkeitsverteilung P(X|E) eines Knotens X bei gegebener Evidenz E Zum Beispiel P(X5=„ja“|X1=„nein“, X6=„ja“) Die Tabellen in den Knoten enthalten vollständige Information der gemeinsamen Verteilung IV Inferenz: Was uns Bayessche Graphen sagen Erste Methode: Die Marginalisierung P( X 5 1 | X 1 0, X 6 1) P( X 1 0, X 5 1, X 6 1) P( X 1 0, X 6 1) P ( X 1 0, X2 x 2 , X 3 x 3 , X 4 x 4 , X 5 1, X6 1, X7 x 7 ) x 2 , x 3 , x 4 , x 7 {0,1} P ( X 1 0, X2 x 2 , X 3 x 3 , X 4 x 4 , X 5 x 5 , X6 1, X7 x 7 ) x 2 , x 3 , x 4 , x 5 , x 7 {0,1} P( X 1 0) P( X 2 x 2 ) P( X 3 x 3 | X 1 0, X2 x 2 ) P( X 4 x 4 | X 2 x 2 ) P( X 5 1| X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 1) P( X 7 x 2 ,x 3 ,x 4 ,x 7 {0,1} x 7 | X 5 1) P( X 1 0) P(X2 x 2 ) P( X 3 x 3 | X 1 0, X2 x 2 ) P( X 4 x 4 | X 2 x 2 ) P( X 5 x 5 | X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 x 5 ) P( X 7 x 2 ,x 3 ,x 4 ,x 5 ,x 7 {0,1} x7 | X5 x 5 ) P ( X 1 0) P( X 6 1| X 5 1) P ( X 2 x 2 ) P ( X 3 x 3 | X1 0, X2 x 2 ) P( X 4 x 4 | X2 x 2 ) P( X 5 1| X 3 x 3 , X 4 x 4 ) P ( X 7 x 7 | X 5 1) x 2 {0,1} x 3 {0,1} x 4 {0,1} x 7 {0,1} P ( X 1 0) P ( X 2 x 2 ) P( X 3 x 3 | X1 0, X2 x 2 ) P( X 4 | X2 ) P ( X 5 | X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 x 5 ) P( X 7 x 7 | X 5 x 5 ) x 2 {0,1} x 3{0,1} x 4 {0,1} x 5 {0,1} x 7 {0,1} IV Inferenz: Was uns Bayessche Graphen sagen Geht das auch anders? Oft ja, und zwar mit message-passing Zweite Methode: Das message-passing Ein algorithmischer Ansatz Möglich in Bäumen (gerichtete Graphen, in denen jeder Knoten höchstens ein Elternteil hat) Wir beschränken uns auf Ketten IV Inferenz: Was uns Bayessche Graphen sagen Die Grundidee: Unterscheidung zwischen Kausaler Evidenz E+ und Diagnostischer Evidenz E- Für jeden Knoten X definieren wir Kausale Unterstützung π(X):=P(x|e+) Diagnostische Unterstützung λ(X):=P(e-|x) π(X) und λ(X) sind Vektoren z. B.: π(X)=(1/4; 3/4) erste Zahl: X=„ja“, zweite Zahl: X=„nein“ Normierungskonstante α Z. B. α(2/5; 6/5)=(1/4; 3/4) IV Inferenz: Was uns Bayessche Graphen sagen Vorteil von π und λ: Sie sind unabhängig voneinander π propagiert von Eltern- zu Kindknoten in Pfeilrichtung λ propagiert von Kind- zu Elternknoten gegen die Pfeilrichtung ( x ) P( x | y ) (y) y (x) P(z | x) (z) z Sind π-Vektor und λ-Vektor eines Knotens X bekannt, lässt sich die gesuchte Wahrscheinlichkeit ausrechnen P(X |E , E - ) (X) (X) IV Inferenz: Was uns Bayessche Graphen sagen Nachweis von P(X|E+, E-)= α π(X) λ(X) Da X die Knoten E+ und E- seriell blockiert, gilt P( x, e , e - ) P( x, e ) P(x, e - ) P(x, e ) P(e | x, e ) P(e | x ) , d. h. P(x, e , e ) P( x ) P(x) P( x, e - ) - Damit folgt - P( x | e , e ) P( x, e , e - ) P(e , e - ) P(e ) P( x, e , e - ) P(e , e - ) P(e ) P(x, e ) P(x, e - ) 1 (x)(x) P(e | e ) P(e ) P(x) P(e | e ) 1 IV Inferenz: Was uns Bayessche Graphen sagen Initialisierung (message-passing ohne Evidenz) π(Wurzel)=P(Wurzel) λ(Ende)=(1; 1; …; 1) Message passing ergibt dann für alle Knoten X π(X)=P(X) ohne Bedingtheiten! λ(X)=(1; 1; …; 1) P(X|E+, E-) ist also bei E+=E-={} gerade P(X) Initialisierung der Evidenzknoten π(E)=(0; …; 0; 1; 0; …; 0) λ(E)=(0; …; 0; 1; 0; …; 0) IV Inferenz: Was uns Bayessche Graphen sagen P(X5=1|X1=1) =? λ(X5)=(1; 1), da keine diagnostische Evidenz vorliegt π(X1)=(1; 0) =>π(X3)=(0,8; 0,2) Propagationsregeln π(X3)=(0,8; 0,2) =>π(X5)=(0,0163; 0,9838) ( x ) P( x | y ) (y) P(X5|X1=1)= α(0,0163; 0,9838) (1; 1) y =(0,0163; 0,9838) P(X5=1|X1=1)=(0,0163) (x) P(z | x) (z) z IV Inferenz: Was uns Bayessche Graphen sagen P(X5=1|X6=1) =? λ(X6)=(1; 0) =>λ(X5)=(0,7; 0,001) π(X1)=(0,01; 0,99) =>π(X5)=(0,003033; 0,996967) P(X5|X6=1) =α(0,003033; 0,996967) (0,01; 0,99) =(0,68047; 0,31953) P(X5=1|X6=1)=0,68047 Propagationsregeln ( x ) P( x | y ) (y) y (x) P(z | x) (z) z IV Inferenz: Was uns Bayessche Graphen sagen P(X5=1|X1=0, X6=1) λ(X5)=(0,7; 0,001) aus dem letzten Beispiel π(X1)=(0; 1) =>π(X5)=(0,0029; 0,9971) P(X5|X1=0, X6=1) =α(0,0029; 0,9971) (0,7; 0,001) =(0,67061; 0,32939) P(X5=1|X6=1)=0,67061 Propagationsregeln ( x ) P( x | y ) (y) y (x) P(z | x) (z) z IV Inferenz: Was uns Bayessche Graphen sagen Message-Passing in allgemeineren Graphen Gleiches Prinzip von entkoppeltem π- und λ-Fluss Auftretende Fragen: Wie teilt sich der π-Fluss an Knoten mit mehreren Kindern auf? Wie teilt sich der λ-Fluss an Knoten mit mehreren Eltern auf? V Kausalität: Eine Frage der Reihenfolge Die Pfeilrichtung in Bayesschen Graphen ist nur abhängig von der Variablenreihenfolge Pfeile sind überflüssig Die Wahrscheinlichkeitsrechnung kennt keine Kausalität Stochastische Unabhängigkeit und Inversionsformel sind symmetrisch d-Separationskriterium benötigt die Pfeile nicht V Kausalität: Eine Frage der Reihenfolge Vorteile von kausalen Bayesschen Graphen Glaubwürdigkeit des Modells, Erklärbarkeit der Resultate Leichtere Konstruktion des Graphen Einfachere Struktur des Graphen Leichtere Anpassung des Graphen bei veränderter Situation V Kausalität: Eine Frage der Reihenfolge Was ist Kausalität? Eine menschliche Interpretation der Welt? Kausalität ist praktisch Minimale Abhängigkeiten Änderungen bleiben lokal begrenzt Das war‘s! Vielen Dank für eure Aufmerksamkeit!