Document

Werbung
Genetische Netzwerke
Wintersemester 2012/13
Lecture 8: 12-Dec-12
Marco Grzegorczyk
Static Bayesian networks
NODES
A
B
EDGES
•Directed acyclic graph (DAG)
represents conditional independence
relations.
F
•Markov assumption leads to a
factorization of the joint probability
distribution:
C
D
E
•Marriage between graph theory and
probability theory.
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
2
Equivalence classes of BNs
A
P( A)  P( B | C )  P(C | A)
C
 P( A)  P( B, C )  P(C ) 1  P(C , A)  P( A) 1
B
A
A
C
 P(C | B)  P( B)  P(C ) 1  P( A | C )  P(C )
 P( A | C )  P( B)  P(C | B)
B
C
B
P(A,B)≠P(A)·P(B)
P(A,B|C)=P(A|C)·P(B|C)
A
C
B
A
v-structure
C
B
 P ( A | C )  P ( B, C )
 P( A | C )  P( B | C )  P(C )
completed partially
directed graphs
(CPDAGs)
A
P( A)  P( B)  P(C | A, B)
P(A,B)=P(A)·P(B)
C
B
P(A,B|C)≠P(A|C)·P(B|C)
3
DAG and its CPDAG
NODES
A
NODES
A
B
C
EDGES
B
C
D
EDGES
D
E
F
Directed Acyclic Graph
(DAG)
E
F
CPDAG of the DAG on the left
4
Static Bayesian networks
NODES
A
B
•Marriage between graph theory and
probability theory.
•Directed acyclic graph (DAG) represents
conditional independence relations.
C
EDGES
D
•Markov assumption leads to a factorization
of the joint probability distribution:
•Ist diese Annahme überhaupt plausibel?
E
F
•Was genau unterstellt diese Markov
Annahme eigentlich?
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
5
Graphentheorie
Definition: Gegeben ein gerichteter azyklischer Graph G
für die n Knoten X1,…,Xn.
Die lokale Markov Annahme in Bayesschen
Netzwerken besagt:
„Bedingt auf seine Elternknoten ist jeder Knoten Xi
stochastisch unabhängig von seinen Nicht-Nachfahren.“
Ein Knoten Xk (k≠i) ist ein Nachfahre vom Knoten Xi,
wenn es einen Pfad gerichteter Kanten gibt, der von Xi
nach Xk führt.
Xk (k≠i) ist also ein Nachfahre von Xi, genau dann wenn
Xi ein Vorfahre von Xk ist.
6
Graphentheorie
Satz: Die lokale Markov Annahme in Bayesschen
Netzwerken impliziert die Zerlegung:
n
P( X 1 ,..., X n )   P( X i | pa ( X i ))
i 1
wobei pa(Xi) die Menge der Elternknoten von Xi bezeichnet.
Beweis: Für jede gemeinsame Verteilung gilt:
n
P( X 1 ,..., X n )  P( X 1 )  P( X 2 | X 1 )   P( X i | X 1 ,..., X i 1 )
i 3
7
o.B.d.A. sei X1,…,Xn eine toplogische Ordnung der n Knoten.
Dann folgt:
1) X1,…,Xi-1 sind Nicht-Nachfahren von Xi
2) Jeder Elternknoten von Xi ist in der Menge
{X1,…,Xi-1} enthalten.
Und insbesondere gilt:
X1 kann keine Eltern haben, d.h. pa(X1)={}.
X2 kann nur den Elternknoten X1 haben, d.h.
pa(X2)={ } oder pa(X2) = {X1}.
Die allgemeingültige Faktorisierung zusammen mit der
lokalen Markov-Annahme impliziert dann:
n
P( X 1 ,..., X n )  P( X 1 )  P( X 2 | X 1 )   P( X i | X 1 ,..., X i 1 )
i 3
n
 P( X 1 | {})  P( X 2 | pa ( X 2 ))   P( X i | pa( X i ))
n
  P( X i | pa ( X i ))
i 1
i 3
8
Graphentheorie
Definition: Markov Blanket eines Knoten:
Gegeben ein Graph G für die n Knoten X1,…,Xn.
Die Markov Blanket des Knoten Xi (i=1,…,n) beinhaltet:
-alle Elternknoten (parent nodes) von Xi,
-alle Kinderknoten (child nodes) von Xi
-und alle „Co-Elternknoten“ (coparent nodes) von Xi
Der Knoten Xj (j≠i) ist ein Co-Elternknoten von Xi, genau
dann wenn Xj und Xi einen gemeinsamen Kinderknoten
haben. D.h. andere Eltern der Kinder von Xi sind CoElternknoten von Xi.
Die Markov Blanket von Xi bezeichnen wir symbolisch
mit MB(Xi).
9
Graphentheorie
NODES
A
B
C
EDGES
D
E
- Die Knoten B und C haben einen
gemeinsamen Kinderknoten D.
- Also ist C ein Co-Elternknoten von B und
umgekehrt ist B auch ein Co-Elternknoten
von C.
- Auch C und D sind Co-Elternknoten, da sie
den gemeinsamen Kinderknoten F haben.
F
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
10
Graphentheorie
NODES
A
Es gilt:
MB(A) = {B,C}
B
C
MB(B) = {A,C,D,}
EDGES
D
E
MB(C) = {A,B,D}
F
MB(D) = {B,C,E,F}
MB(E) = {D}
MB(F) = {C,D}
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
11
Graphentheorie
Satz: Gegeben ein gerichteter azyklischer Graph G für
die Knoten X1,…,Xn, dann gilt in Bayesschen Netzwerken
für i=1,…,n:
P( X i | X 1,..., X i 1, X i 1,..., X n )  P( X i | MB( X i ))
D.h. Bedingt auf seine Markov Blanket MB(Xi) ist Xi
stochastisch unabhängig von allen anderen Knoten des
Graphen.
Den allgemeinen Beweis dieses Satzes führen wir nicht.
12
Graphentheorie
NODES
A
B
C
EDGES
Wir zeigen nur beispielhaft, dass die
Faktorisierung der gemeinsamen
Verteilung (siehe unten) zum Beispiel
P(A|B,C,D,E,F) = P(A|MB(A))=P(A|B,C)
D
impliziert.
E
F
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
13
z.z. : P( A | B, C, D, E, F )  P( A | B, C )
P ( A | B, C , D , E , F ) 
P( A, B, C , D, E , F )
P( A, B, C , D, E , F )

P ( B, C , D , E , F )
 P( A, B, C, D, E, F )
A

P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C, D)
A

P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
P( D | B, C )  P( E | D )  P( F | C , D ) P( A)  P( B | A)  P(C | A)
A
P( A)  P( B | A)  P(C | A)

 P( A)  P( B | A)  P(C | A)
A
…und da dieser letzte Ausdruck offensichtlich nicht von D, E, oder F
abhängt, folgt unmittelbar der obige Zusammenhang.
14
Graphentheorie
NODES
A
Es gilt also:
P(A|B,C,D,E,F) = P(A|B,C)
B
C
P(B|A,C,D,E,F) = P(B|A,C,D)
EDGES
D
E
P(C|A,B,D,E,F) = P(C|A,B,D)
F
P(D|A,B,C,E,F) = P(D|B,C,E,F)
P(E|A,B,C,D,F) = P(E|D)
P(F|A,B,C,D,E) = P(F|C,D)
P( A, B, C , D, E , F )
 P( A)  P( B | A)  P(C | A)  P( D | B, C )  P( E | D)  P( F | C , D)
15
Graphentheorie
Satz: Gegeben ein gerichteter azyklischer Graph G für die
Knoten X1,…,Xn, dann sind in einem Bayesschen Netzwerk
die bedingten Unabhängigkeitsaussagen:
P( X i | X 1,..., X i 1, X i 1,..., X n )  P( X i | MB( X i ))
(i=1,…,n)
äquivalent zu der Faktorisierung der gemeinsamen
Verteilung:
n
P( X 1 ,..., X n )   P( X i | pa ( X i ))
i 1
bzw. äquivalent
zur lokalen Markov Annahme.
Den Beweis dieser Äquivalenzaussagen führen wir nicht.
16
Anschauliches Beispiel 1
Die beiden Variablen Cloudy und Grass wet sind stochastisch
abhängig voneinander. „Bewölkung erhöht die Wahrscheinlichkeit
für Regen und somit indirekt die Wahrscheinlichkeit für
Bodennässe.“
Bedingt auf die Variable Rain werden die beiden Variablen Cloudy
und Grass wet jedoch stochastisch unabhängig voneinander.
1) „Wenn bekannt ist, ob es regnet oder nicht, hat der Zustand der
Bewölkung keinen Einfluss mehr auf die Wahrscheinlichkeit, dass
der Boden nass ist.“
2) „Wenn bekannt ist, ob es regnet oder nicht, hat der Zustand des
Bodens keinen Einfluss mehr auf die Wahrscheinlichkeit, dass es
17
bewölkt ist.“
Anschauliches Beispiel 2
Die binäre Variable Battery gibt an, ob die Autobatterie funktioniert
oder nicht.
Die binäre Variable Fuel gibt an, ob der Tank des Autos leer ist oder
nicht.
Die binäre Variable Engine gibt an, ob das Auto gestartet werden
kann oder nicht.
18
Anschauliches Beispiel 2
Es ist plausibel anzunehmen, dass die beiden Variablen Battery
und Fuel stochatisch unabhängig voneinander sind.
Bedingt auf die Variable Engine werden die beiden Variablen
Battery und Fuel jedoch stochastisch abhängig voneinander.
„Unter der Bedingung, dass das Auto nicht gestartet werden kann,
steigt mit der Information, dass die Batterie funktioniert, die
Wahrscheinlichkeit, dass der Tank des Autos leer ist.“
19
Anschauliches Beispiel 3
Die binäre Variable Babies gibt an, wie viele Babys in einem
Zeitraum geboren werden.
Die binäre Variable Storks gibt an, wie viele Störche in diesem
Zeitraum beobachtet wurden.
Die binäre Variable Environment misst einen bestimmten
Umwelfaktor zu diesem Zeitpunkt.
20
Anschauliches Beispiel 3
Die beiden Variablen Babies und Storks sind stochastisch
abhängig voneinander. „Beide Variablen haben offenbar dieselbe
Ursache und sind daher (indirekt) korreliert.“
Bedingt auf die Variable Environment werden die beiden Variablen
Babies und Storks jedoch stochastisch abhängig voneinander.
„Erst unter derselben Umweltbedingung zeigt sich, dass es in
Wirklichkeit keinen Zusammenhang zwischen der Anzahl der
Storch-Sichtungen und der Anzahl neugeborener Babys gibt.“
21
Erläuterung zum letzten Beispiel
Eine Korrelation zwischen der „Storchenpopulation“ und der „Anzahl der
Neugeborenen“ wurde tatsächlich u.a. in Schweden (aber auch in anderen
Ländern) in einer langen Zeitreihe beobachtet. Die Zeitreihenmessungen in
Schweden begannen am Anfang des 19-ten Jahrhunderts.
Tatsächlich fand in dem Zeitraum der Messung aber auch eine zunehmende
Konversion von der ruralen Gesellschaft zur Industriegesellschaft statt.
Die Industrialisierung führte einerseits zur Vertreibung und Ausrottung von
Störchen und damit zu einer zunehmenden Verringerung der
Storchenpopulation.
Andererseits führte die Industrialisierung aber auch zu neuen Lebensformen
in Kernfamilien mit weniger Kindern. (Zuvor in der ruralen Gesellschaft war
das Zusammenleben in Großfamilien mit vielen Kindern üblich. Die
Verstädterung führt zur Bildung von Kernfamilien und somit indirekt zu einer
Abnahme der Anzahl der Neugeborenen.)
Beide Variablen „Storks“ und „Babies“ unterliegen bzw. unterlagen also
demselben Trend, welcher durch die Industrialisierung verursacht wird bzw.
wurde.
d-Separation
In Bayesschen Netzwerken können die
bedingten (Un-)Abhängigkeitsrelationen
zwischen den Knoten (bzw. Variablen) mit
Hilfe des Konzepts der d-Separation sehr
einfach vom Graphen abgelesen werden.
23
Definition: „gerichteter Pfad“ (directed path)
In einem Graphen gibt es einen gerichteten Pfad (directed
path) vom Knoten Xi zum Knoten Xj, wenn man gerichteten
Kanten -- in Kantenrichtung -- folgend von Xi nach Xj
kommen kann. Ein gerichteter Pfad von Xi nach Xj
impliziert, dass Xi ein Vorfahre von Xj ist.
Definition: „beliebiger Pfad“ (path, trail)
In einem Graphen gibt es eine „beliebigen Pfad“ (path, trail)
zwischen den Knoten Xi und Knoten Xj, wenn die beiden
Knoten irgendwie über eine Folge von Kanten miteinander
verbunden sind. Hier spielt es keine Rolle, in welche
Richtung die Kanten zeigen.
In einem path bzw. trail darf jeder Knoten nur ein einziges
mal vorkommen; dies gilt auch für die beiden äußeren
Knoten Xi und Xj.
24
Beispiel
Beispiele für gerichtete Pfade:
A→B→D→F
A→C→D
NODES
A
B
A→C→F
Beliebige Pfade (trails, paths) sind neben den
gerichteten Pfaden zum Beispiel noch:
C
A→B→D←C
EDGES
D
B→D← C
F←C→D
E
F
A→C→F←D←B
Kein zulässiger Pfad ist z.B.:
A→C→F←D←B←A←C da der Knoten A in diesem
(beliebigen) Pfad zweimal vorkommt.
Im Netzwerk links sind alle Knotenpaare durch
beliebige Pfade miteinander verbunden.
25
Beispiel
NODES
Im modifizierten Netzwerk links gibt es keine
“beliebigen Pfade” (trails) zwischen den
beiden Subgraphen.
A
B
C
EDGES
Es gibt z.B. keinen Trail von A nach F.
D
E
F
Es gibt keine stochastischen Abhängigkeiten
zwischen den Variablen A und B des ersten
Subgraphen und den Variablen C,D,E und F
des zweiten Subgraphen.
26
Definition: collider
In einem trail/path ist der Knoten Xi (i=1,…,n) ein collider,
wenn von links und rechts jeweils eine Kante auf ihn zeigt.
z.B.: Xw → Xk → Xi ← Xj → Xm
Wichtig: Hier muss nicht unbedingt eine v-Struktur
vorliegen. Obige Definition verlangt nicht, dass
Xk → Xi ← Xj
eine v-Struktur ist. Die Knoten Xk und Xj können also auch
in einer Eltern-Kind-Beziehung stehen.
27
Definition: collider
In einem trail/path ist der Knoten Xi (i=1,…,n) ein collider,
wenn von links und rechts jeweils eine Kante auf ihn zeigt.
z.B.: Xw → Xk → Xi ← Xj → Xm
Definition: blocked path
Gegeben ein Graph mit den Knoten X1,…,Xn. Wir
betrachten die Knoten Xi und Xj (i≠j) und eine Teilmenge Z
von {X1,…,Xn}, wobei Xi und Xj nicht in Z liegen.
Ein path/trail zwischen Xi und Xj ist blockiert bezüglich der
Menge Z, wenn der trail über einen Knoten Xk führt
- der kein collider ist und Element von Z ist.
- der ein collider ist, und wenn zusätzlich gilt: (i) Xk ist nicht
Element von Z und (ii) keiner der Nachfahren von Xk ist
Element von Z.
28
Bemerkung: Die Aussage:
Ein path/trail zwischen Xi und Xj ist blockiert (nicht offen)
bezüglich der Menge Z, wenn der trail über einen Knoten
Xk führt
- der ein collider ist, und wenn zusätzlich gilt: (i) Xk ist
nicht Element von Z und (ii) keiner der Nachfahren von
Xk ist Element von Z.
ist äquivalent zu der Aussage:
Ein path/trail zwischen Xi und Xj ist offen (nicht blockiert)
bezüglich der Menge Z, wenn der trail über einen Knoten
Xk führt
- der ein Collider ist, und wenn zusätzlich gilt, dass Xk
und/oder Nachfahren von Xk Elemente von Z sind.
29
Veranschaulichung
blockierte Pfade
zwischen A und B
„offene“ Pfade
zwischen A und B
Die gefüllten (grauen) Knoten sind Elemente der Menge Z.
Die leeren (weißen) Knoten sind keine Elemente von Z.
30
Definition: d-Separiertheit
Gegeben ein Graph mit den Knoten X1,…,Xn. Wir betrachten
die Knoten Xi und Xj (i≠j) und eine Teilmenge Z von
{X1,…,Xn}, wobei Xi und Xj nicht in Z liegen.
Die Knoten Xi und Xj sind d-separiert bezüglich der Menge Z,
wenn jeder Pfad/Trail zwischen Xi und Xj bzgl. Z blockiert ist.
Satz: Wenn Xi und Xj bzgl. einer Knotenmenge Z d-separiert
sind, gilt in Bayesschen Netzwerken, dass Xi und Xj bedingt
auf die Menge Z stochastisch unabhängig voneinander sind.
31
Beispiele
A und D sind d-separiert bzgl. Z={B,C}
NODES
A
A und F sind d-separiert bzgl. Z={D,C}
B und C sind d-separiert bzgl. Z={A}
B
C
E und F sind d-separiert bzgl Z={D}
EDGES
D
B und C sind nicht d-separiert bzgl. Z={A,D}
E
F
B und C sind nicht d-separiert bzgl. Z={A,F}
32
Herunterladen