Bayessche Graphen
Ein Konzept zur effektiven Darstellung
von Information und Inferenz
Jan Simon
RWTH Aachen
Aufbau des Vortrags
I Wahrscheinlichkeitstheoretische Grundlagen
Bedingtheit und Unabhängigkeit in der Stochastik
II Was sind Bayessche Graphen?
Definition
Konstruktion
III Bedingte Unabhängigkeiten: die d-Separation
Informationsflüsse
IV Inferenz: Was uns Bayessche Graphen sagen
Marginalisierung
Message-Passing
V Kausalität: Eine Frage der Reihenfolge
I Wahrscheinlichkeitstheoretische
Grundlagen
Zufallsvariable X
Kann gewisse Werte x1, …, xn annehmen
Wahrscheinlichkeit P(X=x)
Eine Zahl zwischen 0 und 1
als Maß der (Un-)Sicherheit des Ereignisses X=x
Bedingte Wahrscheinlichkeit P(X=x|Y=y)
Information ändert die Einschätzung der Situation
P(X x | Y y)
P(X x, Y y)
P(Y y)
I Wahrscheinlichkeitstheoretische
Grundlagen
Gemeinsame Verteilung der Variablen X1, X2, …, Xn
Statt P(X1=x1, X2=x2, …, Xn=xn) schreibt man P(x1, x2, …, xn)
Die Kettenregel
Eine gemeinsame Verteilung wird „faktorisiert“
Interpretation als zeitliche Reihenfolge
P(x1 , x 2 , ..., x n ) P(x1 ) P(x 2 | x 1 ) P(x 3 | x 1 , x 2 ) ... P(x n | x 1 , x 2 , ..., x n -1 )
Stochastische Unabhängigkeit von Zufallsvariablen X, Y
P(X=x, Y=y) = P(X=x) P(Y=y) für alle möglichen Werte x, y
P(X=x|Y=y)=P(X=x)
Den Wert einer der beiden Variabel zu erfahren, ändert nichts
an der Wahrscheinlichkeitsverteilung der anderen Variable
I Wahrscheinlichkeitstheoretische
Grundlagen
Bedingte Unabhängigkeit von Variablen X, Y gegeben Z
P(X=x|Y=y, Z=z)=P(X=x|Z=z) für alle möglichen Werte x, y, z
Das Bekanntwerden von Z sorgt dafür, dass X und Y
unabhängig voneinander werden (Beispiele später)
Bedingte Unabhängigkeit ist symmetrisch
II Was sind Bayessche Graphen?
Ein „ gerichteter Graph“ G=(V, E) besteht aus
Einer Knotenmenge V=(v1, v2, …, vn)
Einer Menge E geordneter Knotenpaare, wie (v1, v2)
Knotenpaare (vi, vj) sind als Pfeile von vi nach vi zu
interpretieren
Weitere Begriffe bei Graphen
Wurzelknoten
Eltern, Kinder eines Knotens
Vorfahren, Nachfahren eines Knotens
II Was sind Bayessche Graphen ?
Gegeben:
Variablen X1, X2, …, Xn mit gemeinsamer Verteilung
P(x1, x2, …, xn)=P(x1) P(x2|x1) P(x3|x1, x2) … P(xn|x1, …, xn)
Idee: Bedingte Unabhängigkeiten ausnutzen
Jede Variable Xi hat eine minimale Teilmenge Pai
von {X1, X2, …, Xi-1}, sodass P(xi|x1, x2, …, xi-1)=P(xi|pai)
Diese Markov-Eltern machen Xi bedingt unabhängig von den
übrigen Variablen aus {X1, X2, …, Xi-1}
P(x1, x2, …, xn)=P(x1|pa1) P(x2|pa2) … P(xn|pan)
Die Struktur der gegenseitigen Bedingtheiten lassen sich
als Graph darstellen
II Was sind Bayessche Graphen ?
Definition des Bayesschen Graphen
Ein gerichteter, azyklischer Graph
Die Knoten sind Zufallsvariablen X1, X2, …, Xn
Für jeden Knoten Xi sind die Eltern im Graph seine MarkovEltern, also eine minimale Teilmenge Pai von {X1, X2, …, Xi-1}, von
der Xi abhängig ist
Bayessche Graphen vereinen stochastische und
graphentheoretische Konzepte
In der Praxis
Jeder Knoten enthält eine Tabelle der auf seine Eltern bedingten
Wahrscheinlichkeiten (außer Wurzelknoten)
Anwendungsgebiet: zufallsbehaftete Situationen mit
kompliziertem Bedingtheitsgefüge darstellen
II Was sind Bayessche Graphen ?
Ein Beispiel aus der Medizin
X1=Schrumpfniere
X2=Arteriosklerose
X3=Hypertonie
X4=arterielle Embolie
X5=Schlaganfall
X6=Taubheit einer Körperseite
X7=einseitige Lähmung
Konstruktion des Graphen
X1 einfügen
Sukzessive die Xi einfügen und Pfeile von den Markov-Eltern Pai
zu Xi zeichnen, also nur von den direkten Einflüssen
II Was sind Bayessche Graphen ?
Die elternbedingten Wahrscheinlichkeitsverteilungen
unseres Beispiels
Bayessche Graphen nutzen Speicherplatz effektiv
Hier: 32 Zahlen anstatt 27=128 (bei der gemeinsamen Verteilung)
III Bedingte Unabhängigkeiten:
die d-Separation
Blockade durch Variablen Z={Z1, …, Zn}
Seriell
Divergent
Konvergent
(weder N noch ein Nachfolger von N ist in Z)
Interpretation als Unterbrechung des Flusses von Information
Durch Z blockierter Weg
Mindestens eine der drei Blockadearten kommt vor
Freier Weg (frei in Bezug auf Z)
Ein Weg, der nicht blockiert ist
Durch Z blockierte Variablenmengen X={X1, …, Xm}, Y={Y1, …, Yk}
Jeder beliebige Weg von einem Xi aus X zu einem Yj aus Y ist blockiert
Freie Variablenmengen X, Y (frei in Bezug auf Z)
Es gibt einen freien Weg von einem Xi aus X zu einem Yj aus Y
III Bedingte Unabhängigkeiten:
die d-Separation
{X3} und {X4} sind von {X2} blockiert
Die Wege X3 <- X2 -> X4 und X3 -> X5 <- X4 sind blockiert
{X1} und {X6, X7} sind von {X3} nicht blockiert
Es gibt den freien Weg
X1 -> X3 <- X2 -> X4 -> X5 -> X6
III Bedingte Unabhängigkeiten:
die d-Separation
Was bedeutet die Grapheneigenschaft der Blockiertheit für die
Wahrscheinlichkeitsverteilungen?
Das d-Separations-Kriterium (X, Y, Z seien verschiedene
Knoten eines Bayesschen Graphen G)
Sind X und Y von Z blockiert, so sind sie bedingt unabhängig gegeben
Z bezüglich jeder gemeinsamen Verteilung, deren
Bedingtheitsstruktur von G dargestellt wird
Sind X und Y bezüglich Z frei, so sind sie abhängig gegeben Z
bezüglich vieler gemeinsamer Verteilungen, deren
Bedingtheitsstruktur von G dargestellt wird
Verallgemeinerung auf Variablenmengen X, Y, Z ist möglich
Legitimation des Begriffs „Blockiertheit“
IV Inferenz: Was uns Bayessche
Graphen sagen
Gesucht ist die
Wahrscheinlichkeitsverteilung
P(X|E) eines Knotens X bei
gegebener Evidenz E
Zum Beispiel
P(X5=„ja“|X1=„nein“, X6=„ja“)
Die Tabellen in den Knoten
enthalten vollständige Information
der gemeinsamen Verteilung
IV Inferenz: Was uns Bayessche
Graphen sagen
Erste Methode: Die Marginalisierung
P( X 5 1 | X 1 0, X 6 1)
P( X 1 0, X 5 1, X 6 1)
P( X 1 0, X 6 1)
P ( X 1 0, X2 x 2 , X 3 x 3 , X 4 x 4 , X 5 1, X6 1, X7 x 7 )
x 2 , x 3 , x 4 , x 7 {0,1}
P ( X 1 0, X2 x 2 , X 3 x 3 , X 4 x 4 , X 5 x 5 , X6 1, X7 x 7 )
x 2 , x 3 , x 4 , x 5 , x 7 {0,1}
P( X 1 0) P( X 2 x 2 ) P( X 3 x 3 | X 1 0, X2 x 2 ) P( X 4 x 4 | X 2 x 2 ) P( X 5 1| X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 1) P( X 7
x 2 ,x 3 ,x 4 ,x 7 {0,1}
x 7 | X 5 1)
P( X 1 0) P(X2 x 2 ) P( X 3 x 3 | X 1 0, X2 x 2 ) P( X 4 x 4 | X 2 x 2 ) P( X 5 x 5 | X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 x 5 ) P( X 7
x 2 ,x 3 ,x 4 ,x 5 ,x 7 {0,1}
x7 | X5 x 5 )
P ( X 1 0) P( X 6 1| X 5 1) P ( X 2 x 2 ) P ( X 3 x 3 | X1 0, X2 x 2 ) P( X 4 x 4 | X2 x 2 ) P( X 5 1| X 3 x 3 , X 4 x 4 ) P ( X 7 x 7 | X 5 1)
x 2 {0,1}
x 3 {0,1}
x 4 {0,1}
x 7 {0,1}
P ( X 1 0) P ( X 2 x 2 ) P( X 3 x 3 | X1 0, X2 x 2 ) P( X 4 | X2 ) P ( X 5 | X 3 x 3 , X 4 x 4 ) P( X 6 1| X 5 x 5 ) P( X 7 x 7 | X 5 x 5 )
x 2 {0,1}
x 3{0,1}
x 4 {0,1}
x 5 {0,1}
x 7 {0,1}
IV Inferenz: Was uns Bayessche
Graphen sagen
Geht das auch anders?
Oft ja, und zwar mit message-passing
Zweite Methode: Das message-passing
Ein algorithmischer Ansatz
Möglich in Bäumen (gerichtete Graphen, in denen
jeder Knoten höchstens ein Elternteil hat)
Wir beschränken uns auf Ketten
IV Inferenz: Was uns Bayessche
Graphen sagen
Die Grundidee: Unterscheidung zwischen
Kausaler Evidenz E+ und
Diagnostischer Evidenz E-
Für jeden Knoten X definieren wir
Kausale Unterstützung
π(X):=P(x|e+)
Diagnostische Unterstützung
λ(X):=P(e-|x)
π(X) und λ(X) sind Vektoren
z. B.: π(X)=(1/4; 3/4) erste Zahl: X=„ja“, zweite Zahl: X=„nein“
Normierungskonstante α
Z. B. α(2/5; 6/5)=(1/4; 3/4)
IV Inferenz: Was uns Bayessche
Graphen sagen
Vorteil von π und λ: Sie sind unabhängig voneinander
π propagiert von Eltern- zu Kindknoten in Pfeilrichtung
λ propagiert von Kind- zu Elternknoten gegen die Pfeilrichtung
( x ) P( x | y ) (y)
y
(x) P(z | x) (z)
z
Sind π-Vektor und λ-Vektor eines Knotens X bekannt,
lässt sich die gesuchte Wahrscheinlichkeit ausrechnen
P(X |E , E - ) (X) (X)
IV Inferenz: Was uns Bayessche
Graphen sagen
Nachweis von P(X|E+, E-)= α π(X) λ(X)
Da X die Knoten E+ und E- seriell blockiert, gilt
P( x, e , e - )
P( x, e )
P(x, e - ) P(x, e )
P(e | x, e ) P(e | x )
, d. h. P(x, e , e )
P( x )
P(x)
P( x, e - )
-
Damit folgt
-
P( x | e , e )
P( x, e , e - )
P(e , e - )
P(e ) P( x, e , e - )
P(e , e - )
P(e )
P(x, e ) P(x, e - )
1
(x)(x)
P(e | e ) P(e ) P(x) P(e | e )
1
IV Inferenz: Was uns Bayessche
Graphen sagen
Initialisierung (message-passing ohne Evidenz)
π(Wurzel)=P(Wurzel)
λ(Ende)=(1; 1; …; 1)
Message passing ergibt dann für alle Knoten X
π(X)=P(X) ohne Bedingtheiten!
λ(X)=(1; 1; …; 1)
P(X|E+, E-) ist also bei E+=E-={} gerade P(X)
Initialisierung der Evidenzknoten
π(E)=(0; …; 0; 1; 0; …; 0)
λ(E)=(0; …; 0; 1; 0; …; 0)
IV Inferenz: Was uns Bayessche
Graphen sagen
P(X5=1|X1=1) =?
λ(X5)=(1; 1), da keine
diagnostische Evidenz
vorliegt
π(X1)=(1; 0) =>π(X3)=(0,8; 0,2)
Propagationsregeln
π(X3)=(0,8; 0,2) =>π(X5)=(0,0163; 0,9838)
( x ) P( x | y ) (y)
P(X5|X1=1)= α(0,0163; 0,9838) (1; 1)
y
=(0,0163; 0,9838)
P(X5=1|X1=1)=(0,0163)
(x) P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
P(X5=1|X6=1) =?
λ(X6)=(1; 0)
=>λ(X5)=(0,7; 0,001)
π(X1)=(0,01; 0,99)
=>π(X5)=(0,003033; 0,996967)
P(X5|X6=1)
=α(0,003033; 0,996967) (0,01; 0,99)
=(0,68047; 0,31953)
P(X5=1|X6=1)=0,68047
Propagationsregeln
( x ) P( x | y ) (y)
y
(x) P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
P(X5=1|X1=0, X6=1)
λ(X5)=(0,7; 0,001)
aus dem letzten Beispiel
π(X1)=(0; 1)
=>π(X5)=(0,0029; 0,9971)
P(X5|X1=0, X6=1)
=α(0,0029; 0,9971) (0,7; 0,001)
=(0,67061; 0,32939)
P(X5=1|X6=1)=0,67061
Propagationsregeln
( x ) P( x | y ) (y)
y
(x) P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
Message-Passing in allgemeineren Graphen
Gleiches Prinzip von entkoppeltem π- und λ-Fluss
Auftretende Fragen:
Wie teilt sich der π-Fluss an Knoten mit mehreren Kindern
auf?
Wie teilt sich der λ-Fluss an Knoten mit mehreren Eltern auf?
V Kausalität:
Eine Frage der Reihenfolge
Die Pfeilrichtung in Bayesschen Graphen ist nur
abhängig von der Variablenreihenfolge
Pfeile sind überflüssig
Die Wahrscheinlichkeitsrechnung kennt keine Kausalität
Stochastische Unabhängigkeit und Inversionsformel sind
symmetrisch
d-Separationskriterium benötigt die Pfeile nicht
V Kausalität:
Eine Frage der Reihenfolge
Vorteile von kausalen Bayesschen Graphen
Glaubwürdigkeit des Modells, Erklärbarkeit der Resultate
Leichtere Konstruktion des Graphen
Einfachere Struktur des Graphen
Leichtere Anpassung des Graphen bei veränderter Situation
V Kausalität:
Eine Frage der Reihenfolge
Was ist Kausalität?
Eine menschliche Interpretation der Welt?
Kausalität ist praktisch
Minimale Abhängigkeiten
Änderungen bleiben lokal begrenzt
Das war‘s!
Vielen Dank für eure Aufmerksamkeit!