Bayessche Graphen

Werbung
Bayessche Graphen
Ein Konzept zur effektiven Darstellung
von Information und Inferenz
Jan Simon
RWTH Aachen
Aufbau des Vortrags
 I Wahrscheinlichkeitstheoretische Grundlagen

Bedingtheit und Unabhängigkeit in der Stochastik
 II Was sind Bayessche Graphen?


Definition
Konstruktion
 III Bedingte Unabhängigkeiten: die d-Separation

Informationsflüsse
 IV Inferenz: Was uns Bayessche Graphen sagen


Marginalisierung
Message-Passing
 V Kausalität: Eine Frage der Reihenfolge
I Wahrscheinlichkeitstheoretische
Grundlagen
 Zufallsvariable X

Kann gewisse Werte x1, …, xn annehmen
 Wahrscheinlichkeit P(X=x)

Eine Zahl zwischen 0 und 1
als Maß der (Un-)Sicherheit des Ereignisses X=x
 Bedingte Wahrscheinlichkeit P(X=x|Y=y)

Information ändert die Einschätzung der Situation
P(X  x | Y  y) 
P(X  x, Y  y)
P(Y  y)
I Wahrscheinlichkeitstheoretische
Grundlagen
 Gemeinsame Verteilung der Variablen X1, X2, …, Xn

Statt P(X1=x1, X2=x2, …, Xn=xn) schreibt man P(x1, x2, …, xn)
 Die Kettenregel


Eine gemeinsame Verteilung wird „faktorisiert“
Interpretation als zeitliche Reihenfolge
P(x1 , x 2 , ..., x n )  P(x1 ) P(x 2 | x 1 ) P(x 3 | x 1 , x 2 ) ... P(x n | x 1 , x 2 , ..., x n -1 )
 Stochastische Unabhängigkeit von Zufallsvariablen X, Y



P(X=x, Y=y) = P(X=x) P(Y=y) für alle möglichen Werte x, y
P(X=x|Y=y)=P(X=x)
Den Wert einer der beiden Variabel zu erfahren, ändert nichts
an der Wahrscheinlichkeitsverteilung der anderen Variable
I Wahrscheinlichkeitstheoretische
Grundlagen
 Bedingte Unabhängigkeit von Variablen X, Y gegeben Z



P(X=x|Y=y, Z=z)=P(X=x|Z=z) für alle möglichen Werte x, y, z
Das Bekanntwerden von Z sorgt dafür, dass X und Y
unabhängig voneinander werden (Beispiele später)
Bedingte Unabhängigkeit ist symmetrisch
II Was sind Bayessche Graphen?
 Ein „ gerichteter Graph“ G=(V, E) besteht aus



Einer Knotenmenge V=(v1, v2, …, vn)
Einer Menge E geordneter Knotenpaare, wie (v1, v2)
Knotenpaare (vi, vj) sind als Pfeile von vi nach vi zu
interpretieren
 Weitere Begriffe bei Graphen



Wurzelknoten
Eltern, Kinder eines Knotens
Vorfahren, Nachfahren eines Knotens
II Was sind Bayessche Graphen ?
 Gegeben:
Variablen X1, X2, …, Xn mit gemeinsamer Verteilung
P(x1, x2, …, xn)=P(x1) P(x2|x1) P(x3|x1, x2) … P(xn|x1, …, xn)
 Idee: Bedingte Unabhängigkeiten ausnutzen


Jede Variable Xi hat eine minimale Teilmenge Pai
von {X1, X2, …, Xi-1}, sodass P(xi|x1, x2, …, xi-1)=P(xi|pai)
Diese Markov-Eltern machen Xi bedingt unabhängig von den
übrigen Variablen aus {X1, X2, …, Xi-1}
P(x1, x2, …, xn)=P(x1|pa1) P(x2|pa2) … P(xn|pan)
 Die Struktur der gegenseitigen Bedingtheiten lassen sich
als Graph darstellen
II Was sind Bayessche Graphen ?
 Definition des Bayesschen Graphen



Ein gerichteter, azyklischer Graph
Die Knoten sind Zufallsvariablen X1, X2, …, Xn
Für jeden Knoten Xi sind die Eltern im Graph seine MarkovEltern, also eine minimale Teilmenge Pai von {X1, X2, …, Xi-1}, von
der Xi abhängig ist
 Bayessche Graphen vereinen stochastische und
graphentheoretische Konzepte
 In der Praxis


Jeder Knoten enthält eine Tabelle der auf seine Eltern bedingten
Wahrscheinlichkeiten (außer Wurzelknoten)
Anwendungsgebiet: zufallsbehaftete Situationen mit
kompliziertem Bedingtheitsgefüge darstellen
II Was sind Bayessche Graphen ?
 Ein Beispiel aus der Medizin







X1=Schrumpfniere
X2=Arteriosklerose
X3=Hypertonie
X4=arterielle Embolie
X5=Schlaganfall
X6=Taubheit einer Körperseite
X7=einseitige Lähmung
 Konstruktion des Graphen


X1 einfügen
Sukzessive die Xi einfügen und Pfeile von den Markov-Eltern Pai
zu Xi zeichnen, also nur von den direkten Einflüssen
II Was sind Bayessche Graphen ?
 Die elternbedingten Wahrscheinlichkeitsverteilungen
unseres Beispiels
 Bayessche Graphen nutzen Speicherplatz effektiv
 Hier: 32 Zahlen anstatt 27=128 (bei der gemeinsamen Verteilung)
III Bedingte Unabhängigkeiten:
die d-Separation
 Blockade durch Variablen Z={Z1, …, Zn}



Seriell
Divergent
Konvergent
(weder N noch ein Nachfolger von N ist in Z)
 Interpretation als Unterbrechung des Flusses von Information
 Durch Z blockierter Weg

Mindestens eine der drei Blockadearten kommt vor
 Freier Weg (frei in Bezug auf Z)

Ein Weg, der nicht blockiert ist
 Durch Z blockierte Variablenmengen X={X1, …, Xm}, Y={Y1, …, Yk}

Jeder beliebige Weg von einem Xi aus X zu einem Yj aus Y ist blockiert
 Freie Variablenmengen X, Y (frei in Bezug auf Z)

Es gibt einen freien Weg von einem Xi aus X zu einem Yj aus Y
III Bedingte Unabhängigkeiten:
die d-Separation
 {X3} und {X4} sind von {X2} blockiert

Die Wege X3 <- X2 -> X4 und X3 -> X5 <- X4 sind blockiert
 {X1} und {X6, X7} sind von {X3} nicht blockiert

Es gibt den freien Weg
X1 -> X3 <- X2 -> X4 -> X5 -> X6
III Bedingte Unabhängigkeiten:
die d-Separation
 Was bedeutet die Grapheneigenschaft der Blockiertheit für die
Wahrscheinlichkeitsverteilungen?
 Das d-Separations-Kriterium (X, Y, Z seien verschiedene
Knoten eines Bayesschen Graphen G)


Sind X und Y von Z blockiert, so sind sie bedingt unabhängig gegeben
Z bezüglich jeder gemeinsamen Verteilung, deren
Bedingtheitsstruktur von G dargestellt wird
Sind X und Y bezüglich Z frei, so sind sie abhängig gegeben Z
bezüglich vieler gemeinsamer Verteilungen, deren
Bedingtheitsstruktur von G dargestellt wird
 Verallgemeinerung auf Variablenmengen X, Y, Z ist möglich
 Legitimation des Begriffs „Blockiertheit“
IV Inferenz: Was uns Bayessche
Graphen sagen
 Gesucht ist die
Wahrscheinlichkeitsverteilung
P(X|E) eines Knotens X bei
gegebener Evidenz E
 Zum Beispiel
P(X5=„ja“|X1=„nein“, X6=„ja“)
 Die Tabellen in den Knoten
enthalten vollständige Information
der gemeinsamen Verteilung
IV Inferenz: Was uns Bayessche
Graphen sagen
 Erste Methode: Die Marginalisierung
P( X 5  1 | X 1  0, X 6  1) 
P( X 1  0, X 5  1, X 6  1)
P( X 1  0, X 6  1)
 P ( X 1  0, X2  x 2 , X 3  x 3 , X 4  x 4 , X 5  1, X6  1, X7  x 7 )

x 2 , x 3 , x 4 , x 7 {0,1}
 P ( X 1  0, X2  x 2 , X 3  x 3 , X 4  x 4 , X 5  x 5 , X6  1, X7  x 7 )
x 2 , x 3 , x 4 , x 5 , x 7 {0,1}


P( X 1  0) P( X 2  x 2 ) P( X 3  x 3 | X 1  0, X2  x 2 ) P( X 4  x 4 | X 2  x 2 ) P( X 5  1| X 3  x 3 , X 4  x 4 ) P( X 6  1| X 5  1) P( X 7
x 2 ,x 3 ,x 4 ,x 7 {0,1}

 x 7 | X 5  1)
P( X 1  0) P(X2  x 2 ) P( X 3  x 3 | X 1  0, X2  x 2 ) P( X 4  x 4 | X 2  x 2 ) P( X 5  x 5 | X 3  x 3 , X 4  x 4 ) P( X 6  1| X 5  x 5 ) P( X 7
x 2 ,x 3 ,x 4 ,x 5 ,x 7 {0,1}
 x7 | X5  x 5 )
P ( X 1  0) P( X 6  1| X 5  1)  P ( X 2  x 2 )  P ( X 3  x 3 | X1  0, X2  x 2 )  P( X 4  x 4 | X2  x 2 ) P( X 5  1| X 3  x 3 , X 4  x 4 )  P ( X 7  x 7 | X 5  1)

x 2 {0,1}
x 3 {0,1}
x 4 {0,1}
x 7 {0,1}
P ( X 1  0)  P ( X 2  x 2 )  P( X 3  x 3 | X1  0, X2  x 2 )  P( X 4 | X2 )  P ( X 5 | X 3  x 3 , X 4  x 4 ) P( X 6  1| X 5  x 5 )  P( X 7  x 7 | X 5  x 5 )
x 2 {0,1}
x 3{0,1}
x 4 {0,1}
x 5 {0,1}
x 7 {0,1}
IV Inferenz: Was uns Bayessche
Graphen sagen
 Geht das auch anders?
 Oft ja, und zwar mit message-passing
 Zweite Methode: Das message-passing



Ein algorithmischer Ansatz
Möglich in Bäumen (gerichtete Graphen, in denen
jeder Knoten höchstens ein Elternteil hat)
Wir beschränken uns auf Ketten
IV Inferenz: Was uns Bayessche
Graphen sagen
 Die Grundidee: Unterscheidung zwischen


Kausaler Evidenz E+ und
Diagnostischer Evidenz E-
 Für jeden Knoten X definieren wir



Kausale Unterstützung
π(X):=P(x|e+)
Diagnostische Unterstützung
λ(X):=P(e-|x)
π(X) und λ(X) sind Vektoren
z. B.: π(X)=(1/4; 3/4) erste Zahl: X=„ja“, zweite Zahl: X=„nein“
 Normierungskonstante α

Z. B. α(2/5; 6/5)=(1/4; 3/4)
IV Inferenz: Was uns Bayessche
Graphen sagen
 Vorteil von π und λ: Sie sind unabhängig voneinander


π propagiert von Eltern- zu Kindknoten in Pfeilrichtung
λ propagiert von Kind- zu Elternknoten gegen die Pfeilrichtung
( x )   P( x | y ) (y)
y
(x)  P(z | x) (z)
z
 Sind π-Vektor und λ-Vektor eines Knotens X bekannt,
lässt sich die gesuchte Wahrscheinlichkeit ausrechnen
P(X |E  , E - )    (X)  (X)
IV Inferenz: Was uns Bayessche
Graphen sagen
 Nachweis von P(X|E+, E-)= α π(X) λ(X)

Da X die Knoten E+ und E- seriell blockiert, gilt
P( x, e  , e - )
P( x, e  )
P(x, e - ) P(x, e  )

 P(e | x, e )  P(e | x ) 
, d. h. P(x, e , e ) 
P( x )
P(x)
P( x, e - )



-
Damit folgt

-
P( x | e , e ) 
P( x, e  , e - )
P(e  , e - )

P(e  ) P( x, e  , e - )
P(e  , e - )
P(e  )
P(x, e  ) P(x, e - )
1


(x)(x)
P(e  | e  ) P(e  ) P(x) P(e  | e  )
1
IV Inferenz: Was uns Bayessche
Graphen sagen
 Initialisierung (message-passing ohne Evidenz)


π(Wurzel)=P(Wurzel)
λ(Ende)=(1; 1; …; 1)
 Message passing ergibt dann für alle Knoten X



π(X)=P(X) ohne Bedingtheiten!
λ(X)=(1; 1; …; 1)
P(X|E+, E-) ist also bei E+=E-={} gerade P(X)
 Initialisierung der Evidenzknoten


π(E)=(0; …; 0; 1; 0; …; 0)
λ(E)=(0; …; 0; 1; 0; …; 0)
IV Inferenz: Was uns Bayessche
Graphen sagen
 P(X5=1|X1=1) =?
λ(X5)=(1; 1), da keine
diagnostische Evidenz
vorliegt
π(X1)=(1; 0) =>π(X3)=(0,8; 0,2)
Propagationsregeln
π(X3)=(0,8; 0,2) =>π(X5)=(0,0163; 0,9838)
( x )   P( x | y ) (y)
P(X5|X1=1)= α(0,0163; 0,9838) (1; 1)
y
=(0,0163; 0,9838)
P(X5=1|X1=1)=(0,0163)
(x)  P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
 P(X5=1|X6=1) =?
λ(X6)=(1; 0)
=>λ(X5)=(0,7; 0,001)
π(X1)=(0,01; 0,99)
=>π(X5)=(0,003033; 0,996967)
P(X5|X6=1)
=α(0,003033; 0,996967) (0,01; 0,99)
=(0,68047; 0,31953)
P(X5=1|X6=1)=0,68047
Propagationsregeln
( x )   P( x | y ) (y)
y
(x)  P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
 P(X5=1|X1=0, X6=1)
λ(X5)=(0,7; 0,001)
aus dem letzten Beispiel
π(X1)=(0; 1)
=>π(X5)=(0,0029; 0,9971)
P(X5|X1=0, X6=1)
=α(0,0029; 0,9971) (0,7; 0,001)
=(0,67061; 0,32939)
P(X5=1|X6=1)=0,67061
Propagationsregeln
( x )   P( x | y ) (y)
y
(x)  P(z | x) (z)
z
IV Inferenz: Was uns Bayessche
Graphen sagen
 Message-Passing in allgemeineren Graphen

Gleiches Prinzip von entkoppeltem π- und λ-Fluss
 Auftretende Fragen:


Wie teilt sich der π-Fluss an Knoten mit mehreren Kindern
auf?
Wie teilt sich der λ-Fluss an Knoten mit mehreren Eltern auf?
V Kausalität:
Eine Frage der Reihenfolge
 Die Pfeilrichtung in Bayesschen Graphen ist nur
abhängig von der Variablenreihenfolge

Pfeile sind überflüssig
 Die Wahrscheinlichkeitsrechnung kennt keine Kausalität

Stochastische Unabhängigkeit und Inversionsformel sind
symmetrisch
 d-Separationskriterium benötigt die Pfeile nicht
V Kausalität:
Eine Frage der Reihenfolge
 Vorteile von kausalen Bayesschen Graphen




Glaubwürdigkeit des Modells, Erklärbarkeit der Resultate
Leichtere Konstruktion des Graphen
Einfachere Struktur des Graphen
Leichtere Anpassung des Graphen bei veränderter Situation
V Kausalität:
Eine Frage der Reihenfolge
 Was ist Kausalität?

Eine menschliche Interpretation der Welt?
 Kausalität ist praktisch


Minimale Abhängigkeiten
Änderungen bleiben lokal begrenzt
Das war‘s!
Vielen Dank für eure Aufmerksamkeit!
Herunterladen