Genetische Netzwerke Wintersemester 2012/13 Lecture 8: 12-Dec-12 Marco Grzegorczyk Static Bayesian networks NODES A B EDGES •Directed acyclic graph (DAG) represents conditional independence relations. F •Markov assumption leads to a factorization of the joint probability distribution: C D E •Marriage between graph theory and probability theory. P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 2 Equivalence classes of BNs A P( A) P( B | C ) P(C | A) C P( A) P( B, C ) P(C ) 1 P(C , A) P( A) 1 B A A C P(C | B) P( B) P(C ) 1 P( A | C ) P(C ) P( A | C ) P( B) P(C | B) B C B P(A,B)≠P(A)·P(B) P(A,B|C)=P(A|C)·P(B|C) A C B A v-structure C B P ( A | C ) P ( B, C ) P( A | C ) P( B | C ) P(C ) completed partially directed graphs (CPDAGs) A P( A) P( B) P(C | A, B) P(A,B)=P(A)·P(B) C B P(A,B|C)≠P(A|C)·P(B|C) 3 DAG and its CPDAG NODES A NODES A B C EDGES B C D EDGES D E F Directed Acyclic Graph (DAG) E F CPDAG of the DAG on the left 4 Static Bayesian networks NODES A B •Marriage between graph theory and probability theory. •Directed acyclic graph (DAG) represents conditional independence relations. C EDGES D •Markov assumption leads to a factorization of the joint probability distribution: •Ist diese Annahme überhaupt plausibel? E F •Was genau unterstellt diese Markov Annahme eigentlich? P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 5 Graphentheorie Definition: Gegeben ein gerichteter azyklischer Graph G für die n Knoten X1,…,Xn. Die lokale Markov Annahme in Bayesschen Netzwerken besagt: „Bedingt auf seine Elternknoten ist jeder Knoten Xi stochastisch unabhängig von seinen Nicht-Nachfahren.“ Ein Knoten Xk (k≠i) ist ein Nachfahre vom Knoten Xi, wenn es einen Pfad gerichteter Kanten gibt, der von Xi nach Xk führt. Xk (k≠i) ist also ein Nachfahre von Xi, genau dann wenn Xi ein Vorfahre von Xk ist. 6 Graphentheorie Satz: Die lokale Markov Annahme in Bayesschen Netzwerken impliziert die Zerlegung: n P( X 1 ,..., X n ) P( X i | pa ( X i )) i 1 wobei pa(Xi) die Menge der Elternknoten von Xi bezeichnet. Beweis: Für jede gemeinsame Verteilung gilt: n P( X 1 ,..., X n ) P( X 1 ) P( X 2 | X 1 ) P( X i | X 1 ,..., X i 1 ) i 3 7 o.B.d.A. sei X1,…,Xn eine toplogische Ordnung der n Knoten. Dann folgt: 1) X1,…,Xi-1 sind Nicht-Nachfahren von Xi 2) Jeder Elternknoten von Xi ist in der Menge {X1,…,Xi-1} enthalten. Und insbesondere gilt: X1 kann keine Eltern haben, d.h. pa(X1)={}. X2 kann nur den Elternknoten X1 haben, d.h. pa(X2)={ } oder pa(X2) = {X1}. Die allgemeingültige Faktorisierung zusammen mit der lokalen Markov-Annahme impliziert dann: n P( X 1 ,..., X n ) P( X 1 ) P( X 2 | X 1 ) P( X i | X 1 ,..., X i 1 ) i 3 n P( X 1 | {}) P( X 2 | pa ( X 2 )) P( X i | pa( X i )) n P( X i | pa ( X i )) i 1 i 3 8 Graphentheorie Definition: Markov Blanket eines Knoten: Gegeben ein Graph G für die n Knoten X1,…,Xn. Die Markov Blanket des Knoten Xi (i=1,…,n) beinhaltet: -alle Elternknoten (parent nodes) von Xi, -alle Kinderknoten (child nodes) von Xi -und alle „Co-Elternknoten“ (coparent nodes) von Xi Der Knoten Xj (j≠i) ist ein Co-Elternknoten von Xi, genau dann wenn Xj und Xi einen gemeinsamen Kinderknoten haben. D.h. andere Eltern der Kinder von Xi sind CoElternknoten von Xi. Die Markov Blanket von Xi bezeichnen wir symbolisch mit MB(Xi). 9 Graphentheorie NODES A B C EDGES D E - Die Knoten B und C haben einen gemeinsamen Kinderknoten D. - Also ist C ein Co-Elternknoten von B und umgekehrt ist B auch ein Co-Elternknoten von C. - Auch C und D sind Co-Elternknoten, da sie den gemeinsamen Kinderknoten F haben. F P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 10 Graphentheorie NODES A Es gilt: MB(A) = {B,C} B C MB(B) = {A,C,D,} EDGES D E MB(C) = {A,B,D} F MB(D) = {B,C,E,F} MB(E) = {D} MB(F) = {C,D} P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 11 Graphentheorie Satz: Gegeben ein gerichteter azyklischer Graph G für die Knoten X1,…,Xn, dann gilt in Bayesschen Netzwerken für i=1,…,n: P( X i | X 1,..., X i 1, X i 1,..., X n ) P( X i | MB( X i )) D.h. Bedingt auf seine Markov Blanket MB(Xi) ist Xi stochastisch unabhängig von allen anderen Knoten des Graphen. Den allgemeinen Beweis dieses Satzes führen wir nicht. 12 Graphentheorie NODES A B C EDGES Wir zeigen nur beispielhaft, dass die Faktorisierung der gemeinsamen Verteilung (siehe unten) zum Beispiel P(A|B,C,D,E,F) = P(A|MB(A))=P(A|B,C) D impliziert. E F P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 13 z.z. : P( A | B, C, D, E, F ) P( A | B, C ) P ( A | B, C , D , E , F ) P( A, B, C , D, E , F ) P( A, B, C , D, E , F ) P ( B, C , D , E , F ) P( A, B, C, D, E, F ) A P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C, D) A P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) P( D | B, C ) P( E | D ) P( F | C , D ) P( A) P( B | A) P(C | A) A P( A) P( B | A) P(C | A) P( A) P( B | A) P(C | A) A …und da dieser letzte Ausdruck offensichtlich nicht von D, E, oder F abhängt, folgt unmittelbar der obige Zusammenhang. 14 Graphentheorie NODES A Es gilt also: P(A|B,C,D,E,F) = P(A|B,C) B C P(B|A,C,D,E,F) = P(B|A,C,D) EDGES D E P(C|A,B,D,E,F) = P(C|A,B,D) F P(D|A,B,C,E,F) = P(D|B,C,E,F) P(E|A,B,C,D,F) = P(E|D) P(F|A,B,C,D,E) = P(F|C,D) P( A, B, C , D, E , F ) P( A) P( B | A) P(C | A) P( D | B, C ) P( E | D) P( F | C , D) 15 Graphentheorie Satz: Gegeben ein gerichteter azyklischer Graph G für die Knoten X1,…,Xn, dann sind in einem Bayesschen Netzwerk die bedingten Unabhängigkeitsaussagen: P( X i | X 1,..., X i 1, X i 1,..., X n ) P( X i | MB( X i )) (i=1,…,n) äquivalent zu der Faktorisierung der gemeinsamen Verteilung: n P( X 1 ,..., X n ) P( X i | pa ( X i )) i 1 bzw. äquivalent zur lokalen Markov Annahme. Den Beweis dieser Äquivalenzaussagen führen wir nicht. 16 Anschauliches Beispiel 1 Die beiden Variablen Cloudy und Grass wet sind stochastisch abhängig voneinander. „Bewölkung erhöht die Wahrscheinlichkeit für Regen und somit indirekt die Wahrscheinlichkeit für Bodennässe.“ Bedingt auf die Variable Rain werden die beiden Variablen Cloudy und Grass wet jedoch stochastisch unabhängig voneinander. 1) „Wenn bekannt ist, ob es regnet oder nicht, hat der Zustand der Bewölkung keinen Einfluss mehr auf die Wahrscheinlichkeit, dass der Boden nass ist.“ 2) „Wenn bekannt ist, ob es regnet oder nicht, hat der Zustand des Bodens keinen Einfluss mehr auf die Wahrscheinlichkeit, dass es 17 bewölkt ist.“ Anschauliches Beispiel 2 Die binäre Variable Battery gibt an, ob die Autobatterie funktioniert oder nicht. Die binäre Variable Fuel gibt an, ob der Tank des Autos leer ist oder nicht. Die binäre Variable Engine gibt an, ob das Auto gestartet werden kann oder nicht. 18 Anschauliches Beispiel 2 Es ist plausibel anzunehmen, dass die beiden Variablen Battery und Fuel stochatisch unabhängig voneinander sind. Bedingt auf die Variable Engine werden die beiden Variablen Battery und Fuel jedoch stochastisch abhängig voneinander. „Unter der Bedingung, dass das Auto nicht gestartet werden kann, steigt mit der Information, dass die Batterie funktioniert, die Wahrscheinlichkeit, dass der Tank des Autos leer ist.“ 19 Anschauliches Beispiel 3 Die binäre Variable Babies gibt an, wie viele Babys in einem Zeitraum geboren werden. Die binäre Variable Storks gibt an, wie viele Störche in diesem Zeitraum beobachtet wurden. Die binäre Variable Environment misst einen bestimmten Umwelfaktor zu diesem Zeitpunkt. 20 Anschauliches Beispiel 3 Die beiden Variablen Babies und Storks sind stochastisch abhängig voneinander. „Beide Variablen haben offenbar dieselbe Ursache und sind daher (indirekt) korreliert.“ Bedingt auf die Variable Environment werden die beiden Variablen Babies und Storks jedoch stochastisch abhängig voneinander. „Erst unter derselben Umweltbedingung zeigt sich, dass es in Wirklichkeit keinen Zusammenhang zwischen der Anzahl der Storch-Sichtungen und der Anzahl neugeborener Babys gibt.“ 21 Erläuterung zum letzten Beispiel Eine Korrelation zwischen der „Storchenpopulation“ und der „Anzahl der Neugeborenen“ wurde tatsächlich u.a. in Schweden (aber auch in anderen Ländern) in einer langen Zeitreihe beobachtet. Die Zeitreihenmessungen in Schweden begannen am Anfang des 19-ten Jahrhunderts. Tatsächlich fand in dem Zeitraum der Messung aber auch eine zunehmende Konversion von der ruralen Gesellschaft zur Industriegesellschaft statt. Die Industrialisierung führte einerseits zur Vertreibung und Ausrottung von Störchen und damit zu einer zunehmenden Verringerung der Storchenpopulation. Andererseits führte die Industrialisierung aber auch zu neuen Lebensformen in Kernfamilien mit weniger Kindern. (Zuvor in der ruralen Gesellschaft war das Zusammenleben in Großfamilien mit vielen Kindern üblich. Die Verstädterung führt zur Bildung von Kernfamilien und somit indirekt zu einer Abnahme der Anzahl der Neugeborenen.) Beide Variablen „Storks“ und „Babies“ unterliegen bzw. unterlagen also demselben Trend, welcher durch die Industrialisierung verursacht wird bzw. wurde. d-Separation In Bayesschen Netzwerken können die bedingten (Un-)Abhängigkeitsrelationen zwischen den Knoten (bzw. Variablen) mit Hilfe des Konzepts der d-Separation sehr einfach vom Graphen abgelesen werden. 23 Definition: „gerichteter Pfad“ (directed path) In einem Graphen gibt es einen gerichteten Pfad (directed path) vom Knoten Xi zum Knoten Xj, wenn man gerichteten Kanten -- in Kantenrichtung -- folgend von Xi nach Xj kommen kann. Ein gerichteter Pfad von Xi nach Xj impliziert, dass Xi ein Vorfahre von Xj ist. Definition: „beliebiger Pfad“ (path, trail) In einem Graphen gibt es eine „beliebigen Pfad“ (path, trail) zwischen den Knoten Xi und Knoten Xj, wenn die beiden Knoten irgendwie über eine Folge von Kanten miteinander verbunden sind. Hier spielt es keine Rolle, in welche Richtung die Kanten zeigen. In einem path bzw. trail darf jeder Knoten nur ein einziges mal vorkommen; dies gilt auch für die beiden äußeren Knoten Xi und Xj. 24 Beispiel Beispiele für gerichtete Pfade: A→B→D→F A→C→D NODES A B A→C→F Beliebige Pfade (trails, paths) sind neben den gerichteten Pfaden zum Beispiel noch: C A→B→D←C EDGES D B→D← C F←C→D E F A→C→F←D←B Kein zulässiger Pfad ist z.B.: A→C→F←D←B←A←C da der Knoten A in diesem (beliebigen) Pfad zweimal vorkommt. Im Netzwerk links sind alle Knotenpaare durch beliebige Pfade miteinander verbunden. 25 Beispiel NODES Im modifizierten Netzwerk links gibt es keine “beliebigen Pfade” (trails) zwischen den beiden Subgraphen. A B C EDGES Es gibt z.B. keinen Trail von A nach F. D E F Es gibt keine stochastischen Abhängigkeiten zwischen den Variablen A und B des ersten Subgraphen und den Variablen C,D,E und F des zweiten Subgraphen. 26 Definition: collider In einem trail/path ist der Knoten Xi (i=1,…,n) ein collider, wenn von links und rechts jeweils eine Kante auf ihn zeigt. z.B.: Xw → Xk → Xi ← Xj → Xm Wichtig: Hier muss nicht unbedingt eine v-Struktur vorliegen. Obige Definition verlangt nicht, dass Xk → Xi ← Xj eine v-Struktur ist. Die Knoten Xk und Xj können also auch in einer Eltern-Kind-Beziehung stehen. 27 Definition: collider In einem trail/path ist der Knoten Xi (i=1,…,n) ein collider, wenn von links und rechts jeweils eine Kante auf ihn zeigt. z.B.: Xw → Xk → Xi ← Xj → Xm Definition: blocked path Gegeben ein Graph mit den Knoten X1,…,Xn. Wir betrachten die Knoten Xi und Xj (i≠j) und eine Teilmenge Z von {X1,…,Xn}, wobei Xi und Xj nicht in Z liegen. Ein path/trail zwischen Xi und Xj ist blockiert bezüglich der Menge Z, wenn der trail über einen Knoten Xk führt - der kein collider ist und Element von Z ist. - der ein collider ist, und wenn zusätzlich gilt: (i) Xk ist nicht Element von Z und (ii) keiner der Nachfahren von Xk ist Element von Z. 28 Bemerkung: Die Aussage: Ein path/trail zwischen Xi und Xj ist blockiert (nicht offen) bezüglich der Menge Z, wenn der trail über einen Knoten Xk führt - der ein collider ist, und wenn zusätzlich gilt: (i) Xk ist nicht Element von Z und (ii) keiner der Nachfahren von Xk ist Element von Z. ist äquivalent zu der Aussage: Ein path/trail zwischen Xi und Xj ist offen (nicht blockiert) bezüglich der Menge Z, wenn der trail über einen Knoten Xk führt - der ein Collider ist, und wenn zusätzlich gilt, dass Xk und/oder Nachfahren von Xk Elemente von Z sind. 29 Veranschaulichung blockierte Pfade zwischen A und B „offene“ Pfade zwischen A und B Die gefüllten (grauen) Knoten sind Elemente der Menge Z. Die leeren (weißen) Knoten sind keine Elemente von Z. 30 Definition: d-Separiertheit Gegeben ein Graph mit den Knoten X1,…,Xn. Wir betrachten die Knoten Xi und Xj (i≠j) und eine Teilmenge Z von {X1,…,Xn}, wobei Xi und Xj nicht in Z liegen. Die Knoten Xi und Xj sind d-separiert bezüglich der Menge Z, wenn jeder Pfad/Trail zwischen Xi und Xj bzgl. Z blockiert ist. Satz: Wenn Xi und Xj bzgl. einer Knotenmenge Z d-separiert sind, gilt in Bayesschen Netzwerken, dass Xi und Xj bedingt auf die Menge Z stochastisch unabhängig voneinander sind. 31 Beispiele A und D sind d-separiert bzgl. Z={B,C} NODES A A und F sind d-separiert bzgl. Z={D,C} B und C sind d-separiert bzgl. Z={A} B C E und F sind d-separiert bzgl Z={D} EDGES D B und C sind nicht d-separiert bzgl. Z={A,D} E F B und C sind nicht d-separiert bzgl. Z={A,F} 32