Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten Sa awade/Landwehr/Sccheffer, Maschinelle es Lernen II 2 Überblick Gerichtete Graphische Modelle: Bayessche Netze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Ungerichtete Graphische Modelle: Markov Netze Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II 3 Überblick Gerichtete Graphische Modelle: Bayessche Netze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Ungerichtete Graphische Modelle: Markov Netze Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II 4 Zufallsvariablen Verteilungen Zufallsvariablen, Zufallsvariable: Abbildung eines Ereignisses auf reelle Zahl X : Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Raum der Elementarereignisse Verteilung über ZV: wie wahrscheinlich, bestimmte Werte zu beobachten? Diskrete Zufallsvariablen: diskreter Wertebereich (z.B. Münzwurf) Diskrete Wahrscheinlichkeit p ( x) [0,1], p( x)=1 x Wert der ZV x Kontinuierliche Zufallsvariablen: kontinuierlicher Wertebereich (z.B. Körpergröße) Di ht f kti p( x) 0 , Dichtefunktion d 1 p( x)dx x Wert der d ZV 5 Zufallsvariablen Verteilungen Zufallsvariablen, Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B i i l fü Beispiele für di diskrete/kontinuierliche k t /k ti i li h Verteilungen V t il Bernoulli-Verteilung: binäre ZV X {0,1} Parameter p ( X 1| ) X ~ Bern( X | ) X (1 )1 X Normalverteilung: kontinuierliche ZV X N ( x | , 2 ) 1 2 exp 2 (x ) 2 1/2 (2 ) 2 1 Mittelwert Standardabweichung 6 Zufallsvariablen Verteilungen Zufallsvariablen, Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Z Zusammenhang h Di Dichte/Wahrscheinlichkeit ht /W h h i li hk it p ( X [ x , x ]) x p( z )dz x p ( X [ x , x ]) ist (diskrete) Wahrscheinlichkeit Oftt abstrahieren O abst a e e wir vom o Typ yp de der Zufallsvariable u a s a ab e Rechenregeln sind im Wesentlichen gleich für diskrete/kontinuierliche Variablen („ersetze Summe durch Integral“) Integral ) Grundlegende Begriffe wie Abhängigkeit, Erwartungswert, Varianz sind auf beide Typen von Variablen anwendbar 7 Gemeinsame Verteilung, g bedingte g V t il Verteilung G Gemeinsame i V Verteilung t il p(X,Y) über üb ZV X,Y p ( x, y ) [0,1], p ( x, y ) 1 p ( x, y ) 0 , x, y Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II p( x, y)dxdy 1 Bedingte Verteilung p( X | Y ) p( X , Y ) p (Y ) diskret oder kontinuierlich Für p ( y ) 0 ist p ( X | y ) wieder eine Verteilung über X : p( x | y) 1 für p( y) 0 (diskret) x p( x | y)dx 1 für p( y) 0 (kontinuierlich) 8 Unabhängigkeit von Zufallsvariablen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Unabhängigkeit (diskret ( oder kontinuierlich)) X,Y unabhängig genau dann wenn p ( X , Y ) p ( X ) p (Y ) X Y unabhängig X,Y bhä i genau dann d wenn p ( X | Y ) p ( X ) X,Y unabhängig genau dann wenn p (Y | X ) p (Y ) Bedingte Unabhängigkeit (diskret oder kontinuierlich) X,Y unabhängig gegeben Z genau dann wenn p ( X , Y | Z ) p ( X | Z ) p (Y | Z ) X,Y unabhängig gegeben Z genau dann wenn p (Y | X , Z ) p (Y | Z ) X,Y unabhängig gegeben Z genau dann wenn p ( X | Y , Z ) p ( X | Z ) ... einfach Anwendung des Unabhängigkeitsbegriffs auf die bedingte gemeinsame Verteilung p(X,Y|Z) 9 Rechenregeln Verteilungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Rechenregeln Wahrscheinlichkeiten/Verteilungen / Summenregel p ( x ) p ( x, y ) diskrete Verteilungen y p ( x) p( x, y)dyy kontinuierliche Verteilungen g p( X ) heisst auch Randverteilung, Marginalverteilung Produktregel p( X , Y ) p ( X | Y ) p(Y ) diskret oder kontinuierlich Wahrscheinlichkeitsrechnungen beruhen auf Anwendungen dieser beiden Regeln 10 Graphische Modelle: Idee/Ziel Ziel: Modellierung der gemeinsame Verteilung p(X1,…,XN) einer Menge von ZV X1,…,XN Aus p(X1,…,XN) lassen sich berechnen… Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Alle Randverteilungen (Summenregel) p( X i1 ,..., X im ), {i1 ,..., im } {1,..., N } Alle bedingten Verteilungen (aus Randverteilungen) p( X i1 ,..., X im | X im1 ,..., X imk ), {i1 ,., im k } {1,..., N } Damit lassen sich alle probabilistischen Fragestellungen (Inferenzprobleme) über X1,…,XN beantworten 11 Graphische Modelle: Idee/Ziel Graphische Modelle: Kombination von Wahrscheinlichkeitstheorie und Graphentheorie Kompakte, intuitive Modellierung von p(X1,…,XN) Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Graphstruktur repräsentiert Abhängigkeiten zwischen Variablen X1,…,XN Einsicht in Struktur des Modells; einfach, einfach Vorwissen einzubringen Effiziente Algorithmen für Inferenz, die Graphstruktur ausnutzen Viele Methoden des maschinellen Lernens lassen sich in Form von GM darstellen Fragestellungen wie MAP Lernen, Bayessche Vorhersage g lassen sich als Inferenzprobleme p in GM formulieren 12 Graphische Modelle: Beispiel Beispiel: „Alarm Alarm“ Szenario Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hö t Wenn hört. W eingebrochen i b h wurde, d wollen ll wir i zurück ü k kkommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B Burglary g y – Einbruch hat stattgefunden g E Earthquake – Erdbeben hat stattgefunden A Alarm – Alarmanlage geht los N NeighborCalls – Nachbar ruft an R RadioReport – Bericht über Erdbeben im Radio 13 Graphische Modelle: Beispiel Zufallsvariablen haben eine gemeinsame Verteilung p(B,E,A,N,R). Wie angeben? Welche Abhängigkeiten gelten? Beispiel für Inferenzproblem: Nachbar hat angerufen (N=1), wie wahrscheinlich ist Einbruch (B=1)? Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Hängt von verschiedenen Faktoren ab Wie wahrscheinlich Einbruch a priori? Wie wahrscheinlich Erdbeben a priori? Wie wahrscheinlich, dass Alarmanlage auslöst? … p( B 1, 1 N 1) (Naive) Inferenz: p( B 1| N 1) p( N 1) p( B 1, E, A, N 1, R) p( B, E, A, N 1, R) E A R B E A R 14 Graphische Modelle: Beispiel Wie modellieren wir p(B,E,A,N,R)? p(B E A N R)? 2 N 1. Versuch: vollständige Tabelle B E A N R P(B,E,A,N,R) 0 0 0 0 0 0.6 1 0 0 0 0 0.005 0 1 0 0 0 0.01 … … … … … … +Alle Verteilungen p( B, E, A, N , R) können repräsentiert werden - Anzahl Parameter exponentiell - Schwierig anzugeben 2. Versuch: alles unabhängig p( B, E, A, N , R) p( B) p( E ) p( A) p( N ) p( R) +Anzahl Parameter linear - Zu Z restriktiv, t ikti Unabhängigkeitsannahme U bhä i k it h erlaubt l bt keine k i sinnvolle i ll Inferenz I f 15 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Graphische Modelle: Beispiel Graphisches Modell: Selektive Unabhängigkeitsannahmen Unabhängigkeitsannahmen, durch Vorwissen motiviert Wähle Variablenordnung: z.B. B<E<A<N<R Produktregel: p( B, E, A, N , R) p( B, E , A, N ) p( R | B, E, A, N ) p( B, E, A) p( N | B, E , A) p( R | B, E , A, N ) p( B, E ) p( A | B, E ) p( N | B, E, A) p( R | B, E, A, N ) p( B) p( E | B) p( A | B, E ) p( N | B, E, A) p( R | B, E, A, N ) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. Können wir diese Faktoren vereinfachen? Welche dieser Abhängigkeiten bestehen wirklich? 16 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Graphische Modelle: Beispiel Zerlegung in Faktoren nach Produktregel: Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II p( B, E, A, N , R) p( B) p( E | B) p( A | B, E ) p( N | B, E, A) p( R | B, E, A, N ) Annahme bedingter Unabhängigkeiten (Entfernen von Variablen aus Bedingungsteil) p ( E | B) p ( E ) p( A | B, E ) p( A | B, E ) Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab p( N | B, E, A) p( N | A) Anruff von Nachbar hängt g nur von Alarm ab p( R | B, E, A, N ) p( R | E ) Nachricht im Radio hängt nur Erdbeben ab Vereinfachte Darstellung g der g gemeinsamen Verteilung: g p( B, E, A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) Vereinfachte Faktoren 17 Graphische Modelle: Beispiel P(B=1) P(E=1) Modellierte Verteilung: 0.1 0.2 p( B, E, A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) B B E P(A=1|B E) P(A=1|B,E) 0 0 0.01 0 1 0.5 1 0 0.9 1 1 0.95 E A E P(R=1|E) 0 0.01 1 0.5 R Graphisches Modell: N A P(N=1|A) 0 0.1 1 07 0.7 - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X | X1 ,..., X k ) fügen wir gerichtete Kanten von den X i zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen il p( X | X1 ,..., X k ) 18 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Graphisches Modell für „Alarm Alarm“ Szenario Graphische Modelle: Beispiel Graphisches Modell für „Alarm Alarm“ Szenario Sa awade/Landwehr/Sccheffer, Maschinelle es Lernen II Anzahl Parameter: O(N*2K), K= max. Anzahl von Elternknoten Hier 1+1+2+2+4 statt 25-1 Parameter Gerichtete g graphische p Modelle heißen auch Bayessche y Netze 19 Bayessche Netze: Definition Gegeben eine Menge von ZV {X1,…,X XN} Ein Bayessches Netz über den ZV {X1,…,XN} ist ein gerichteter Graph mit Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Knotenmenge X1,…,XN Es gibt keine gerichteten Zyklen X i X i ... X i X i K t sind Knoten i d mit it parametrisierten ti i t b bedingten di t V Verteilungen t il p( X i | pa( X i )) assoziiert, wobei pa( X i ) { X j | X j X i } die Menge der Elternknoten eines Knoten ist 1 2 k 1 Das Bayessche Netz modelliert eine gemeinsame V t il Verteilung üb über X1,…,X XN durch d h N p( X 1 ,..., X N ) p( X i | pa( X i )) i1 20 Bayessche Netze: Definition Warum muss der Graph azyklisch sein? Satz aus der Graphentheorie: G ist azyklisch y es gibt g Ordnung g G der Knoten,, so dass ggerichtete Kanten die Ordnung respektieren (N N ' N G N ') Damit ergibt sich N p( X 1 ,..., X N ) p( X i | pa( X i )) i 1 aus Produktregel + bedingten Unabhängigkeitsannahmen (Variablen entsprechend G umsortieren) Gegenbeispiel (kein Bayessches Netz): X Y p( X , Y ) p( X | Y ) p(Y | X ) 21 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Bayessche Netze: Unabhängigkeit Die Graphstruktur eines Bayesschen Netzes impliziert (bedingte) Unabhängigkeiten zwischen ZV Notation: Für Variablen X, Y, Z schreiben wir Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II X Y | Z p( X | Y , Z ) p( X | Z ) "X unabhängig von Y gegeben Z" Erweiterung auf disjunkte Mengen A, B, C von ZV | C p ( A | B, C ) p ( A | C ) 22 Bayessche Netze: Unabhängigkeit Welche Unabhängigkeiten der Form | C werden durch die Graphstruktur modelliert? Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Im Prinzip auszurechnen durch Summen/Produktregel aus der gemeinsamen Verteilung Bei graphischen Modellen aber direkt aus der Graphstruktur ableitbar ableitbar→ viel einfacher „D-separation“: Menge einfacher Regeln, nach denen sich alle Unabhängigkeiten ableiten lassen 23 Bayessche Netze: Unabhängigkeit D separation: Welche Unabhängigkeiten der Form | C D-separation: werden durch die Graphstruktur modelliert? Wichtige Rolle spielen Pfade im Graphen, die ZV verbinden Notation: … … … X Y Z … … … … X Y Z … … … … X Y Z … Pfad Pf d zwischen i h X und d Z hat h t eine i „konvergierende“ Verbindung bei Y („head to head“) Pfad zwischen X und Z hat eine „serielle“ Verbindung bei Y („head to tail“) Pfad zwischen X und Z hat eine „divergierende“ Verbindung bei Y („tail-to-tail“ ) 24 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Divergierende Verbindungen N Gemeinsame Verteilung: E A Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B p( B, E, A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) R B=„Einbruch“ E=„Erdbeben“ A Al A=„Alarm“ “ N=„Nachbar ruft an“ R=„Radio Bericht“ Betrachte Pfad A←E→R. Gilt R | ? 25 Divergierende Verbindungen E A Gemeinsame Verteilung: p( B, E, A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) R B=„Einbruch“ E=„Erdbeben“ A Al A=„Alarm“ “ N Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B N=„Nachbar ruft an“ R=„Radio Bericht“ Betrachte Pfad A←E→R. Gilt R | ? Nein, p( A | R) p( A) Intuitiv: [Ausrechnen mit gemeinsamer Verteilung] RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm p( A 1| R 1) p( A 1| R 0) ZV R beeinflusst ZV A über die divergierende Verbindung R E A 26 Divergierende Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A N R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad A←E→R. Gilt R | E ? 27 Divergierende Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A R N p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad A←E→R. Gilt R | E ? Ja, p( A | R, E ) p( A | E ) Intuitiv: [Ausrechnen mit gemeinsamer Verteilung] Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport D di Der divergierende i d Pfad Pf d R E A wird i d durch d h Beobachtung B b ht von E blockiert bl ki t 28 Serielle Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) N Betrachte Pfad N ← A ← B. Gilt | ? 29 Serielle Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) R N Betrachte Pfad N ← A ← B. Gilt | ? Nein, p( B | N ) p( B) Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary [Ausrechnen mit gemeinsamer Verteilung] p( B 1| N 1) p( B 1| N 0) ZV N bbeeinflusst i fl ZV B über üb den d seriellen i ll Pfad Pf d N A B 30 Serielle Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A N R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad N ← A ← B. Gilt | A ? 31 Serielle Verbindungen Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A R N p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad N ← A ← B. Gilt | A ? Ja, p( B | N , A) p( B | A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft D serielle Der i ll Pfad Pf d N A B wird i d durch d h Beobachtung B b h von A blockiert. bl ki 32 Konvergierende Verbindung Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) N Betrachte Pfad B → A ← E. Gilt | ? 33 Konvergierende Verbindung E Gemeinsame Verteilung: A R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) N Betrachte Pfad B → A ← E. Gilt | ? Ja, p( B | E ) p( B) Intuitiv: Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben [Ausrechnen mit gemeinsamer Verteilung] Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 34 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B Konvergierende Verbindung Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A N R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad B → A ← E. Gilt | A ? 35 Konvergierende Verbindung E Gemeinsame Verteilung: A R N p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad B → A ← E. Gilt | A ? Nein, p( B | E , A) p( B | A) Intuitiv: Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). D kkonvergierende Der i d Pfad Pf d B A E wird i d freigegeben durch d h Beobachtung B b ht von A [Ausrechnen mit gemeinsamer Verteilung] 36 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B Konvergierende Verbindung E Gemeinsame Verteilung: A R N p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) beobachteter Knoten Betrachte Pfad B → A ← E. Gilt | N ? Nein, p( B | N , A) p( B | A) Intuitiv: NeighborCalls indirekte Beobachtung von Alarm. Erdbebenbeobachtung erklärt den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B A E wird freigegeben durch Beobachtung von N [Ausrechnen mit gemeinsamer Verteilung] 37 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B Zusammenfassung Pfade Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II B E Gemeinsame Verteilung: A R p( B, E , A, N , R) p( B) p( E ) p( A | E, B) p( N | A) p( R | E ) N Zusammenfassung: ein Pfad …-X-Y-Z-… ist Blockiert bei Y , wenn Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner Nachfahren Y‘ אDescendants(Y) beobachtet Descendants(Y)={Y‘|es gibt gerichteten Pfad von Y zu Y‘} Sonst ist der Pfad frei bei Y 38 D-Separation: Blockierte Pfade D-Separation basiert auf blockierten Pfaden: Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Seien X,X‘ ZV, C eine beobachtete Menge g von ZV, X,X‘ בC Ein ungerichteter Pfad X – X1 – … – Xn – X‘ zwischen X und d X‘ ist i t bl blockiert ki t gegeben b C gdw d es einen i K Knoten t Xi gibt so dass Pfad bei Xi blockiert ist gegeben C Seien A,B,C , , disjunkte j Mengen g von ZV. Definition: A und B sind d-separiert durch C gdw jeder Pfad von einem Knoten X אA zu einem Knoten Y אB blockiert ist gegeben C. C 39 D-Separation: Korrektheit Gegeben ein Bayessches Netz über {X1,…,X XN} mit Graphstruktur G. Das Bayessche Netz modelliert eine Verteilung durch N p( X1 ,..., X N ) p( X i | pa( X i )) i 1 abhängig von den bedingten Verteilungen p( X n | pa( X n )) . Theorem (Korrektheit, Vollständigkeit d-separation) p( A | B, C ) p( A | C ) Falls F ll A,B A B d-separiert d i t gegeben b C in i G, G dann d Es gibt keine anderen Unabhängigkeiten, die für jede p( X i | pa( X i )) g Wahl der bedingten g Verteilungen g gelten. 40 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II D-Separation: Beispiel Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II A B Gilt B H | E ? D C F Gilt A H | F ? Gilt C | ? E G H Ein Pfad …-X-Y-ZX Y Z … ist Blockiert bei Y , wenn Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner ( ) beobachtet Nachfahren Y‘ אDescendants(Y) Sonst ist der Pfad frei bei Y 41 D-Separation: Beispiel D C F B E G Gilt B H | E ? Ja Gilt A H | F ? Gilt C | ? Nein: A D B E H Nein: C F D B E H Ein Pfad …-X-Y-ZX Y Z … ist Blockiert bei Y , wenn Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner ( ) beobachtet Nachfahren Y‘ אDescendants(Y) Sonst ist der Pfad frei bei Y 42 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II A Bayessche Netze: Kausalität Oft werden Bayessche Netze so konstruiert konstruiert, dass gerichtete Kanten kausalen Einflüssen entsprechen G A „Erdbeben Erdbeben lösen die Alarmanlage aus aus“ Äquivalentes Modell G‘ E Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II E A „die Alarmanlage löst Erdbeben aus“ Definition: I(G) ={ (A | C ) : A und B sind d-separiert gegeben C in G} „Alle Unabhängigkeitsannahmen, die durch G kodiert werden“ I (G) I (G ') : Keine statistischen Gründe, eines der Modelle vorzuziehen Kann nicht aufgrund von Daten zwischen Modellen unterscheiden Aber „kausale“ Modelle oft besser verständlich 43 Netze Unterschiedlicher Komplexität Komplexität: bestimmt durch Menge der Kanten im Graph Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Beeinflusst die Anzahl der Parameter im Modell. Für binäre ZV gilt: Anzahl Parameter in O(N*2K), K max i | pa( X i ) | Hinzufügen von Kanten: Familie der darstellbare Verteilungen wird grösser, I(G) wird kleiner Extremfälle: Graph ohne Kanten, (ungerichtet) vollständig verbundener Graph B A N Parameter B E A R N I (G) {( A | C ) : A, B, C disj. Mengen von ZV} E R N N 2 -1 1 Parameter I (G) 44 Überblick Gerichtete Graphische Modelle: Bayessche Netze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Ungerichtete Graphische Modelle: Markov Netze Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II 45 Erinnerung: Lernproblem Erinnerung: Lernproblem Trainingsdaten L (x1 , y1 ),..., ) (x N , y N ) M ti Matrixschreibweise h ib i Merkmalsvektoren X x1 Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II xi m Merkmalsvektoren yi {0,1} binäre Klassenlabel yi reelles Label Zugehörige Klassenlabels x11 xN 1 ... x N x xNm 1 N 1m y1 y ... y N Ziel: Vorhersage des Klassenlabels für Testinstanz x x y 46 Erinnerung: Lernen Annahme: gemeinsame Verteilung p(x,y) p(x y) (unbekannt) i.i.d. Trainingsdaten ( x i , yi ) ~ p ( x, y ) Testinstanzen (x, y ) ~ p(x, y ) Wir betrachten probabilistische Modelle p( y| x, ) [diskriminativ] p(x, y | ) [generativ] A-priori A priori Verteilung über Modelle p( ) (bekannt) Vorhersageproblem: MAP Lösung * arg max p( | L) Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II y* arg max y p ( y| x,* ) Vorhersageproblem: Bayes Lösung y* arg max y p ( y | x, L) arg max y p ( y| x, ) p ( | L)d 47 Erinnerung: g Parameterschätzung g Mü Münzwurf f Erinnerung: Münzwurf Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Einzelner Münzwurf Bernouilli-verteilt mit Parameter μ X ~ Bern( X | ) X (1 )1 X p ( X 1| ) unbekannter Parameter Parameterschätzproblem: Wir haben N unabhängige Münzwürfe gesehen, als Ausprägung L L={x {x1,…, xN } der ZV X1,…, XN Der echte Parameter μ ist unbekannt, wir wollen eine Schätzung ̂ bzw. eine posterior-Verteilung p ( | L) Bayesscher Ansatz: Posterior Prior x Likelihood p( | L) p( L | ) p( ) posterior likelihood prior 48 Erinnerung: g Parameterschätzung g Mü Münzwurf f Prior: Beta-Verteilung Beta Verteilung über Münzparameter μ Beta ( | 2 2 p ( | k z ) Beta ( | k z Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II k z k 1 (1 z 1 k z Likelihood N unabhängige Münzwürfe: N P ( X 1 ,..., X N | ) p ( X n | ) i.i.d. n 1 N Bern( X n | ) n 1 N X n (1 )1 X n n 1 49 Erinnerung: g Parameterschätzung g Mü Münzwurf f Zufallsvariablen in Münzwurfszenario sind X 1 ,..., X N , Gemeinsame Verteilung von Daten und Parameter (gegeben „Hyperparameter“ k , z ): Prior x Likelihood Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II N p k z ( X 1 ,..., X N , ) p k z ( p ( X i | ) i 1 i Bernoulli Darstellung als graphisches Modell: pa ( ) pa ( X i ) {} … X1 X2 X3 … XN 50 Schätzung g eines Münzparameters p als G hi h M Graphisches Modell d ll Unabhängige Münzwürfe: Darstellung als graphisches Modell Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II … X1 X2 X3 … XN D-separation Gilt X N X1 ,..., X N 1 | ? 51 Schätzung g eines Münzparameters p als G hi h M Graphisches Modell d ll Unabhängige Münzwürfe: Darstellung als graphisches Modell Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II … X1 X2 X3 … XN D-separation Gilt X N X1 ,..., X N 1 | ? Nein, Pfad durch μ ist nicht blockiert. Intuitiv: X 1 X 2 ... X N 1 1 Wahrscheinlich 0.5 Wahrscheinlich X N 1 Der versteckte Parameter μ koppelt ZV X1,…, XN. Aber es gilt X N X1 ,..., X N 1 | 52 Parameterschätzung als Inferenzproblem MAP Parameterschätzung Münzwurf MAP-Parameterschätzung arg max p k z ( | x1 ,..., xN ) Sa awade/Landwehr/Sccheffer, M Maschinelle es Lernen II Inferenzproblem: p k , z ( ) … p( X | ) X 1 X2 X3 … XN p( X | ) Evidenz auf den Knoten X1,…, XN Wahrscheinlichster Zustand des Knotens μ gegeben X1,…, XN 53