Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs Probabilistische Graphische Modelle Sven Wachsmuth Universität Bielefeld, Technische Fakultät, AG Angewandte Informatik WS 2006/2007 Probabilistische Graphische Modelle 1 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs Übersicht über die Vorlesung 1 Bedingte Unabhängigkeit und Faktorisierung 2 Inferenz in PGMs Probabilistische Graphische Modelle 2 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.1 Bed. Unabh. und Faktorisierung – I-maps Fragestellungen des Kapitels: I Welche Unanhängigkeitsannahmen werden in einem PGM wie kodiert? I Wann lassen sich gerichtete PGMs und ungerichtete PGMs ineinander überführen? I Falls nicht immer, gibt es eine Obermenge? Wie können wir diese darstellen? Probabilistische Graphische Modelle 3 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.1 Bed. Unabh. und Faktorisierung – I-maps I-maps PGMs sind independency-maps (I-map) von einem Abhängigkeitsmodell M der modellierten Verbundwahrscheinlichkeit, falls für alle disjunkten Knotenmengen X , Y, Z des Graphen G gilt: < X |Z|Y >G ⇒ {X ⊥Y|Z}M I Ein vollständiger Graph ist eine triviale I-map. Probabilistische Graphische Modelle 4 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.1 Bed. Unabh. und Faktorisierung – I-maps I-maps von ungerichtete Graphen < X |Z|Y >G : Alle Pfade im Graphen G zwischen Knoten aus X und Knoten aus Y haben einen Knoten in der Teilmenge Z. Probabilistische Graphische Modelle 5 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.1 Bed. Unabh. und Faktorisierung – I-maps I-maps von gerichtete Graphen < X |Z|Y >D : Knotenmenge Z d-separiert X von Y, d.h. entlang eines Pfades zwischen Knoten aus X und Knoten aus Y gibt es einen Knoten W , der die folgenden Bedingungen erfüllt: 1 W hat zusammenlaufende Kanten und weder W noch ein Nachfolgeknoten (entlang der Pfeilrichtung) ist in Z; 2 W hat keine zusammenlaufenden Kanten und ist in Z. Probabilistische Graphische Modelle 6 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.1 Bed. Unabh. und Faktorisierung – I-maps Bemerkungen: I Eine fehlende Kante von X zu Y impliziert eine bedingte Unabhängigkeit für alle durch dieses Modell beschriebenen Verbundverteilungen. I Die vorhandenden Kanten im Modell implizieren keine Abhängigkeit zwischen ZV, aber sie erlauben eine solche Abhängigkeit. (D.h. in der Menge der beschriebenen Verbundverteilungen existieren solche mit einer Abhängigkeit zwischen den verbundenen ZV). I Die Menge der von dem Modell beschriebenen Verbundverteilungen werden vollst. über die Menge der (bed.) Unabhängigkeitsannahmen charakterisiert. Probabilistische Graphische Modelle 7 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Wann lassen sich sich gerichtete Graphen in ungerichtete Graphen mit identischem Abhängigkeitsmodell übersetzen? Markov Blanket BLI (Y) Das Markov Blanket einer Teilmenge von ZV Y ⊆ X ist jede Teilmenge Z ⊆ X − Y für die gilt I (Y, Z, X − Z − Y) = {Y⊥X − Z − Y|Z} Ein Markov Blanket Z wird als Markov boundary BI (Y) = Z von Y bezeichnet, falls Z minimal ist. Probabilistische Graphische Modelle 8 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Die Menge von Markov boundaries definert ein Nachbarschaftssystem in einem ungerichteten Graphen, der eine minimale I-map des Abhängigkeitsmodells ist. I Damit können wir lokal testen, ob ein ungerichteter Graph eine I-map von einem Abhängigkeitsmodell ist. I Dies gibt uns zudem eine systematische Möglichkeit, gerichtete Graphen in ungerichtete zu übersetzen. I Wann bleibt dabei die I-map erhalten? I Welche ungerichteten Graphen sind nicht durch eine solche Übersetzung darstellbar? Probabilistische Graphische Modelle 9 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Def. Chordaler Graph Ein ungerichteter Graph G ist chordal genau dann wenn jeder Zyklus der Länge vier oder mehr mindestens einen Chord hat, d.h. eine Kante zwischen zwei nicht aufeinander folgenden Knoten entlang des Zyklus. I Was bedeutet ein chordaler Graph für die Faktorisierung der Verbundverteilung? Probabilistische Graphische Modelle 10 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Def. dekomponierbare Verteilungen Ein Wahrscheinlichkeitsmodell ist dekomponierbar, wenn es eine minimale I-map (minimale Menge von Kanten) hat, die chordal ist. D.h. die Faktoren (od. Kompatibilitätsfunktionen) in der Faktorisierung des entsprechenden MRF P(x) = 1 Y ψC (xC ) Z C ∈Q stehen in einer direkten Relation zu den Marginalverteilungen über den ZV in jeder Clique P(xC ). Probabilistische Graphische Modelle 11 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Eine wichtige Methode um die Relation zwischen chordalen Graphen und dekomponierbaren Verteilungen explizit zu machen, ist die Konstruktion von Join-Trees Konstruktion von Join-Trees Vorraussetzung: der ungerichtete Graph G = (X , E) ist chordal. 1 Identifiziere alle (maximalen) Cliquen in G . 2 Ordne die Cliquen über den Rang des höchsten Knotens in der Clique: C1 , C2 , . . . , Cm . 3 Bilde einen Join-Tree durch das Ziehen einer (ungerichteten) Kante von jeder Clique Ci zu einer Vorgänger-Clique Cj (mit j < i) mit den meisten gemeinsamen Knoten. Probabilistische Graphische Modelle 12 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Bemerkungen I Wir erhalten immer dann eine Faktorisierung in Marginalverteilungen, wenn die Cliquen in dem ungerichteten Graphen so zusammengefasst werden können, dass der resultierende Graph ein Baum ist, d.h. Es gibt einen Baum, der eine I-map der Verbundverteilung ist, wobei die Knoten die Cliquen von Graph G sind. I Die Produktform kann dadurch hergeleitet werden, dass der Zähler ein Produkt der Verteilungen über die Cliquen ist und der Nenner ein Produkt der Verteilungen über die Schnittmengen der Cliquen ist. I Für jede dekomponierbare Verteilung existiert sowohl ein gerichteter als auch ein ungerichteter Graph, die beide eine minimale I-map der Verteilung repräsentieren. Probabilistische Graphische Modelle 13 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.2 Bed. Unabh. und Faktorisierung – chordale Graphen Warum sind dekomponierbare Verteilungen (chordale Graphen) interessant? I Es gibt einen Weg die Parameter des zugehörigen MRFs aufgrund einer lokalen Datenauswertung zu bestimmen. (Modularität des Parameterlernens) I Inferenzalgorithmen können auf Baumstrukturen abgebildet werden. Probabilistische Graphische Modelle 14 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.3 Bed. Unabh. und Faktorisierung – nicht dekomp. Modelle Ansatz für nicht dekomp. Modelle: Anstatt eine Problemstellung (z.B. Inferenz) über eine nicht-chodale minimale I-map zu lösen, können wir auch ein dekomponierbares Modell nehmen, in das wir Abhängigkeiten hinzugefügt haben. Probabilistische Graphische Modelle 15 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.3 Bed. Unabh. und Faktorisierung – nicht dekomp. Modelle Was ist der “nächstgelegene” chordale Graph? Triangulation durch Graph-Elimination . Sei G = (X , E) ein ungerichteter Graph; . Sei I = Xi1 , Xi2 , . . . , XiN eine Ordnung über X ; . Für alle Knoten Xi , i ∈ I . Verbinde alle verbliebenen Nachbarknoten untereinander . Lösche Xi aus dem Graphen G . . Der triangulierte Graph ergibt sich durch Hinzufügen aller neu eingeführter Kanten. I ACHTUNG: die Anzahl der eingefügten Kanten hängt von der Reihenfolge der Knoten ab. Probabilistische Graphische Modelle 16 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.3 Bed. Unabh. und Faktorisierung – nicht dekomp. Modelle Triangulation durch Graph-Elimination: Die optimale Reihenfolge der Knoten zu finden (minimale Anzahl hinzugefügter Kanten) ist NP-hart. I Heuristik (greedy Verfahren): wähle jeweils den Knoten mit minimalem Grad (Anzahl der Nachbarn) I Eingeführte Kanten werden auch als induzierte Abhängigkeiten bezeichnet. Probabilistische Graphische Modelle 17 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.3 Bed. Unabh. und Faktorisierung – nicht dekomp. Modelle Gerichtete Graphen Verfahren zur Umsetzung in einen ungerichteten Graphen (Nutzung der Markov boundary): . Sei G = (X , E) ein gerichteter Graph. . Für alle Knoten Xi ∈ X . verbinde alle Elternknoten von Xi (moralize) . Ersetze alle gerichteten Kanten durch ungerichtete Eventuell muss der resultierende Moralgraph noch trianguliert werden. Probabilistische Graphische Modelle 18 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.4 Bed. Unabh. und Faktorisierung – Factor Graphs Gibt es einen Typ von graphischen Modellen, der kausale Modelle (gerichtete Graphen) und Markov Felder (ungerichtete Graphen) einschließt? Def. Factor Graph ein Factor Graph beschreibt eine faktorisierte Funktion Y f (x1 , x2 , . . . , xN ) ≡ fY (xY ) Y∈Q wobei Y jeweils eine Teilmenge der ZVen X ist. Probabilistische Graphische Modelle 19 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.4 Bed. Unabh. und Faktorisierung – Factor Graphs Def. Factor Graph (Fortsetzung) Ein Factor Graph besitzt zwei verschiedene Knotentypen 1 einen Knoten für jede ZV; 2 einen Knoten für jeden Faktor. Jeder Typ-2 Knoten wird mit allen Typ-1 Knoten verbunden, deren ZV Argument der Faktorfunktion fY (xY ) ist (gerichtet oder ungerichtet). I Eine gerichtete Kante zum Knoten Xi repräsentiert eine Normalisierungsbedingung: X fY (Xi = x, xY−{i} ) = 1, ∀xY : fY (xY ) ≥ 0. x I Es gelten die gleichen I-map Regeln wie bei Bayes-Netzen. Probabilistische Graphische Modelle 20 Bedingte Unabhängigkeit und Faktorisierung Inferenz in PGMs 3.5 Bed. Unabh. und Faktorisierung – Zusammenfassung Zusammenfassung I DAGs und ungerichtete Graphen beschreiben zwei sich gegenseitig überlappende Mengen von Wahrscheinlichkeitsmodellen. I Jedes Wahrscheinlichkeitsmodell kann auf einen chordalen Graphen abgebildet werden (unter Verlust von Unabhängigkeitsannahmen) I Chordale Graphen beschreiben die Basis für eine einheitliche exakte Inferenzalgorithmik. I Chordale Graphen bieten eine Modularität beim Parameterlernen. I Factor Graphs stellen einen einheitlichen Repräsentationsformalismus für PGMs dar, der zusätzliche Unabhängigkeitsannahmen modellieren kann. Probabilistische Graphische Modelle 21