Commonsense Reasoning Gabriele Kern-Isberner LS 1 – Information Engineering TU Dortmund Sommersemester 2017 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 1 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Kapitel 4 4. Probabilistische Folgerungsmodelle und -strategien 4.3 Grundideen probabilistischen Schlussfolgerns G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 31 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s Regel 1/4 Seien B1 , . . . , Bn disjunkte Aussagen, über die zunächst Wahrscheinlichkeiten P (B1 ), . . . , P (Bn ) bekannt sind; wir können annehmen, dass B1 , . . . , Bn auch erschöpfend sind, d.h. dass gilt P (B1 ) + . . . + P (Bn ) = 1. Wie verändert sich die gesamte Verteilung P , wenn nun neue Informationen über die Wahrscheinlichkeiten der Bi bekannt werden? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 45 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s Regel 2/4 Die Lösung zu diesem Problem liefert eine Annahme, die man als probability kinematics bezeichnet – nämlich, dass die neuen Wahrscheinlichkeiten der Bi keine der unter Bi bedingten Wahrscheinlichkeiten ändern sollte: P ∗ (A|Bi ) = P (A|Bi ) Daraus ergibt sich sofort mit dem Satz von der totalen Wahrscheinlichkeit P ∗ (A) = n X P ∗ (A|Bi )P ∗ (Bi ) i=1 die Regel von Jeffrey: P ∗ (A) = n X P (A|Bi )P ∗ (Bi ). i=1 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 47 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Beispiel Kerzenlicht Ein Agent untersucht ein Stück Stoff bei schummeriger Beleuchtung; er schätzt die Farbe des Stoffes wie folgt ein: P (grün) = 0.30, P (blau) = 0.30, P (lila) = 0.40; er zündet nun eine Kerze an und revidiert nun seine Entscheidung: P ∗ (grün) = 0.70, P ∗ (blau) = 0.25, P ∗ (lila) = 0.05. Im Prinzip ist P ∗ = P (·|e), wobei e die visuelle Wahrnehmung des Agenten bei Kerzenlicht repräsentiert, die sich jedoch in der Regel weder explizit beschreiben lässt noch überhaupt syntaktischer Bestandteil der Problemsprache ist. Frage: Wie lässt sich dennoch P ∗ bestimmen? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 46 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s und Bayes Regel Jeffrey’s Regel verallgemeinert die Konditionalisierung nach Bayes: Liegt nämlich nur ein Ereignis B mit Wahrscheinlichkeit P ∗ (B) = 1 vor, so ergibt Jeffrey’s Regel: P ∗ (A) = P (A|B)P ∗ (B) = P (A|B), d.h. die posteriori Wahrscheinlichkeit ist nichts anderes als die nach B konditionalisierte priori Wahrscheinlichkeit; G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 48 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s und Bayes Regel Jeffrey’s Regel verallgemeinert die Konditionalisierung nach Bayes: Liegt nämlich nur ein Ereignis B mit Wahrscheinlichkeit P ∗ (B) = 1 vor, so ergibt Jeffrey’s Regel: P ∗ (A) = P (A|B)P ∗ (B) = P (A|B), d.h. die posteriori Wahrscheinlichkeit ist nichts anderes als die nach B konditionalisierte priori Wahrscheinlichkeit; umgekehrt erhält man die bedingte Wahrscheinlichkeit als Spezialfall der Regel von Jeffrey, wenn die neue Information sicher ist, also Wahrscheinlichkeit 1 besitzt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 48 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s Regel 3/4 Die Anwendbarkeit von Jeffrey’s Regel hängt jedoch entscheidend von der Anwendbarkeit der probability kinematics-Annahme ab; wenn wir den Ansatz P ∗ = P (·|e) verwenden, können wir den folgenden Vergleich ziehen: P ∗ (A) = n X P (A|Bi )P ∗ (Bi ) (Satz von Jeffrey) i=1 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 49 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s Regel 3/4 Die Anwendbarkeit von Jeffrey’s Regel hängt jedoch entscheidend von der Anwendbarkeit der probability kinematics-Annahme ab; wenn wir den Ansatz P ∗ = P (·|e) verwenden, können wir den folgenden Vergleich ziehen: P ∗ (A) = P (A|e) = n X i=1 n X i=1 P (A|Bi )P ∗ (Bi ) (Satz von Jeffrey) P (A|Bi , e)P (Bi |e) (Satz v.d. totalen bed. W’keit). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 49 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Jeffrey’s Regel 4/4 Dieser Vergleich ist jedoch nur haltbar, wenn gilt P (A|Bi ) = P (A|Bi , e), d.h. wenn A und e bedingt unabhängig unter Bi sind, d.h. e soll keinen direkten Einfluss auf A haben. Dies ist eine wichtige Voraussetzung für Jeffrey’s Regel! G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 50 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Bedingte Unabhängigkeit 1/2 ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen von mehrwertigen Aussagevariablen mit P (c) > 0 für alle Vollkonjunktionen c über C. A gdw. G. Kern-Isberner (TU Dortmund) |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B | C, P (a|c ∧ b) = P (a|c). Commonsense Reasoning 51 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Bedingte Unabhängigkeit 1/2 ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen von mehrwertigen Aussagevariablen mit P (c) > 0 für alle Vollkonjunktionen c über C. A gdw. |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B | C, P (a|c ∧ b) = P (a|c). Das ist äquivalent zu P (a ∧ b|c) = P (a|c) · P (b|c). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 51 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Bedingte Unabhängigkeit 2/2 G. Kern-Isberner (TU Dortmund) P B | C und A |= • A = ∅ oder B = ∅: ∅ |= A, B, C müssen nicht unbedingt 6= ∅ sein: Commonsense Reasoning P ∅ | C gelten immer! 52 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Bedingte Unabhängigkeit 2/2 P B | C und A |= • A = ∅ oder B = ∅: ∅ |= A, B, C müssen nicht unbedingt 6= ∅ sein: • C = ∅ → statistische Unabhängigkeit G. Kern-Isberner (TU Dortmund) Commonsense Reasoning P ∅ | C gelten immer! 52 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Beispiel Kerzenlicht (Forts.) Nehmen wir an, dass die Chancen des Verkaufs des Stoffes (A) ausschließlich von seiner Farbe abhängen, und zwar wie folgt: P rob(A|grün) = 0.40, P rob(A|blau) = 0.40, P rob(A|lila) = 0.80, wobei P rob jede der beiden Wahrscheinlichkeiten P und P ∗ bezeichnet. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 53 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Beispiel Kerzenlicht (Forts.) Wir können nun die Wahrscheinlichkeit, dass der Stoff am nächsten Tag verkauft werden kann, als priori- und als posteriori-Wahrscheinlichkeit berechnen: P (A) = P (A|grün)P (grün) + P (A|blau)P (blau) +P (A|lila)P (lila) = 0.40 · 0.30 + 0.40 · 0.30 + 0.80 · 0.40= 0.56; G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 54 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Beispiel Kerzenlicht (Forts.) Wir können nun die Wahrscheinlichkeit, dass der Stoff am nächsten Tag verkauft werden kann, als priori- und als posteriori-Wahrscheinlichkeit berechnen: P (A) = P (A|grün)P (grün) + P (A|blau)P (blau) +P (A|lila)P (lila) = 0.40 · 0.30 + 0.40 · 0.30 + 0.80 · 0.40= 0.56; P ∗ (A) = 0.40 · 0.70 + 0.40 · 0.25 + 0.80 · 0.05= 0.42 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 54 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Beispiel Kerzenlicht (Forts.) Die probability kinematics-Annahme, die in diesem Beispiel überprüft werden muss, ist die folgende P (A|Farbe, e) = P (A|Farbe). Da wir annehmen, dass die Möglichkeit des Verkaufs ausschließlich von der Farbe abhängt, ist die Annahme gerechtfertigt, wir konnten also die Regel von Jeffrey anwenden. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 55 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht Nehmen wir an, das Hauptinteresse des Betrachters gilt gar nicht dem Stoff, sondern der Kerze selbst – es sei bekannt, dass ein bestimmtes billiges Wachs eine Flamme hervorbringt, deren Licht Lila-Töne verfälscht. A Die Kerze ist aus dem billigen Wachs. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 56 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht Nehmen wir an, das Hauptinteresse des Betrachters gilt gar nicht dem Stoff, sondern der Kerze selbst – es sei bekannt, dass ein bestimmtes billiges Wachs eine Flamme hervorbringt, deren Licht Lila-Töne verfälscht. A Die Kerze ist aus dem billigen Wachs. Die Voraussetzungen seien wie oben: P (grün) = 0.30, P ∗ (grün) = 0.70, P (blau) = 0.30, P ∗ (blau) = 0.25, P (lila) = 0.40; P ∗ (lila) = 0.05. Kann man nun P ∗ (A) mit Jeffrey’s Regel berechnen? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 56 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht (Forts.) In diesem Fall sind nun sicherlich vor dem Anzünden der Kerze (d.h. in P ) A und Farbe voneinander unabhängig, d.h. es gilt P (A|Bi ) = P (A); G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 57 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht (Forts.) In diesem Fall sind nun sicherlich vor dem Anzünden der Kerze (d.h. in P ) A und Farbe voneinander unabhängig, d.h. es gilt P (A|Bi ) = P (A); Die Anwendung von Jeffrey’s Regel ergibt dann ∗ P (A) = 3 X P (A)P ∗ (Bi ) = P (A), i=1 d.h. das Anzünden der Kerze würde keine neuen Erkenntnisse über A bringen ! G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 57 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht (Forts.) Die Ursache dieses kontraintuitiven Ergebnisses liegt darin, dass hier die probability kinematics-Annahme P (A|Bi , e) = P (A|Bi ) nicht haltbar ist, da die Farben im Kerzenlicht (Bi ∧ e) Rückschlüsse auf das Kerzenwachs erlauben, die Farben alleine (Bi ) jedoch nicht. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 58 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Modifiziertes Beispiel Kerzenlicht (Forts.) Die Ursache dieses kontraintuitiven Ergebnisses liegt darin, dass hier die probability kinematics-Annahme P (A|Bi , e) = P (A|Bi ) nicht haltbar ist, da die Farben im Kerzenlicht (Bi ∧ e) Rückschlüsse auf das Kerzenwachs erlauben, die Farben alleine (Bi ) jedoch nicht. Das Konzept der bedingten Unabhängigkeit ist also von entscheidender Bedeutung für das Schlussfolgern mit Wahrscheinlichkeiten. → Probabilistische Netzwerke (Netzwerktopologie drückt bedingte Unabhängigkeiten aus) G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 58 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 58 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Markov- und Bayes-Netze – Rückblick (DVEW) Die bedingte Unabhängigkeit zwischen Variablen ist eine wichtige qualitative Information zur Strukturierung probabilistischer Information in Netzwerken: • In (ungerichteten) Markov-Netzen zeigt die globale G. Kern-Isberner (TU Dortmund) G B | C impliziert A Commonsense Reasoning |= A |= Markov-Eigenschaft bedingte Unabhängigkeiten an: P B|C 59 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Markov- und Bayes-Netze – Rückblick (DVEW) Die bedingte Unabhängigkeit zwischen Variablen ist eine wichtige qualitative Information zur Strukturierung probabilistischer Information in Netzwerken: • In (ungerichteten) Markov-Netzen zeigt die globale G B | C impliziert A |= A |= Markov-Eigenschaft bedingte Unabhängigkeiten an: P B|C • In (gerichteten) Bayes-Netzen schirmen die Elternknoten die Ai |= Kindknoten gegen direkte Einflüsse ab: G. Kern-Isberner (TU Dortmund) P nd(Ai ) | pa(Ai ) für alle i = 1, . . . , n Commonsense Reasoning 59 / 232 Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns Markov- und Bayes-Netze – Rückblick (DVEW) Die bedingte Unabhängigkeit zwischen Variablen ist eine wichtige qualitative Information zur Strukturierung probabilistischer Information in Netzwerken: • In (ungerichteten) Markov-Netzen zeigt die globale G B | C impliziert A |= A |= Markov-Eigenschaft bedingte Unabhängigkeiten an: P B|C • In (gerichteten) Bayes-Netzen schirmen die Elternknoten die Ai |= Kindknoten gegen direkte Einflüsse ab: P nd(Ai ) | pa(Ai ) für alle i = 1, . . . , n Zunächst einmal beschäftigen wir uns intensiver mit dem qualitativen Phänomen der bedingten Unabhängigkeit. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 59 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Übersicht Kapitel 4 – Probabilistik 4.1 Einführung und Übersicht 4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning 4.3 Grundideen probabilistischen Schlussfolgerns 4.4 Schlussfolgern über Unabhängigkeiten 4.5 Propagation in baumartigen Netzen 4.6 Probabilistische Inferenz auf der Basis optimaler Entropie 4.7 Schlussworte und Zusammenfassung G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 60 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Kapitel 4 4. Probabilistische Folgerungsmodelle und -strategien 4.4 Schlussfolgern über Unabhängigkeiten G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 61 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 1/3 Einer der wichtigsten Aspekte des menschlichen Schlussfolgern ist die Fähigkeit, relevante Informationen für einen Kontext zu erkennen und irrelevante Details auszublenden. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 62 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 1/3 Einer der wichtigsten Aspekte des menschlichen Schlussfolgern ist die Fähigkeit, relevante Informationen für einen Kontext zu erkennen und irrelevante Details auszublenden. Relevanz 6= Abhängigkeit Es ist wichtig, Relevanz und Abhängigkeit voneinander zu unterscheiden. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 62 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 2/3 • Relevanz impliziert immer Abhängigkeit Beispiel: Die Lesefähigkeit eines Kindes hängt von seiner Körpergröße ab. ♣ G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 63 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 2/3 • Relevanz impliziert immer Abhängigkeit Beispiel: Die Lesefähigkeit eines Kindes hängt von seiner Körpergröße ab. ♣ • Abhängigkeit impliziert aber nicht immer Relevanz, sondern hängt von der verfügbaren Information ab. Beispiel: Ist das Lebensalter eines Kindes bekannt, so ist die Körpergröße irrelevant für seine Lesefähigkeit. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning ♣ 63 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 3/3 Relevanz von Informationen (informational relevance) zu erkennen ist eine qualitative Eigenschaft des Commonsense Reasoning, die sich aber quantitativ abbilden lässt durch die probabilistische Eigenschaft der bedingten Unabhängigkeit: P (A|K, B) = P (A|K) (K = Kontext) Im Kontext K liefert B keine zusätzliche Information für A. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 64 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 3/3 Relevanz von Informationen (informational relevance) zu erkennen ist eine qualitative Eigenschaft des Commonsense Reasoning, die sich aber quantitativ abbilden lässt durch die probabilistische Eigenschaft der bedingten Unabhängigkeit: P (A|K, B) = P (A|K) (K = Kontext) Im Kontext K liefert B keine zusätzliche Information für A. Beispiel: A = Lesefähigkeit, B = Körpergröße, K = Lebensalter. Dann ist P (A ∧ B) 6= P (A) · P (B) A und B sind abhängig G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 64 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Relevanz und Abhängigkeit 3/3 Relevanz von Informationen (informational relevance) zu erkennen ist eine qualitative Eigenschaft des Commonsense Reasoning, die sich aber quantitativ abbilden lässt durch die probabilistische Eigenschaft der bedingten Unabhängigkeit: P (A|K, B) = P (A|K) (K = Kontext) Im Kontext K liefert B keine zusätzliche Information für A. Beispiel: A = Lesefähigkeit, B = Körpergröße, K = Lebensalter. Dann ist P (A ∧ B) 6= P (A) · P (B) A und B sind abhängig, aber P (A|B ∧ K) = P (A|K) A und B sind bedingt unabhängig im Kontext K. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning ♣ 64 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Netze – Rückblick (DVEW) Die bedingte Unabhängigkeit zwischen Variablen ist eine wichtige qualitative Information zur Strukturierung probabilistischer Information (z.B.) in Markov-Netzwerken. Markov-Netze sind ungerichtete, minimale Unabhängigkeitsgraphen, d.h. • es gilt die globale Markov-Eigenschaft G. Kern-Isberner (TU Dortmund) Commonsense Reasoning |= |= A G B | C impliziert A P B | C, d.h. fehlende Kanten zeigen bedingte Unabhängigkeiten an. 65 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Netze – Rückblick (DVEW) Die bedingte Unabhängigkeit zwischen Variablen ist eine wichtige qualitative Information zur Strukturierung probabilistischer Information (z.B.) in Markov-Netzwerken. Markov-Netze sind ungerichtete, minimale Unabhängigkeitsgraphen, d.h. • es gilt die globale Markov-Eigenschaft |= |= A G B | C impliziert A P B | C, d.h. fehlende Kanten zeigen bedingte Unabhängigkeiten an. • Es gibt keine überflüssige Kanten, d.h. besteht zwischen zwei Knoten A, B eine Kante, so sind A, B nicht bedingt unabhängig im Kontext der restlichen Knoten. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 65 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Separation in ungerichteten Graphen 1/2 (DVEW) Sei G = GV ein ungerichteter Graph mit Knotenmenge V. Separation in G: • paarweise disjunkte Teilmengen A, B, C von V; Schreibweise: A |= • C separiert A und B, G B|C gdw. jeder Weg zwischen einem Knoten in A und einem Knoten in B mindestens einen Knoten von C enthält. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 66 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Separation in ungerichteten Graphen 2/2 C A G. Kern-Isberner (TU Dortmund) |= A G B B|C Commonsense Reasoning 67 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Bedingte Unabhängigkeit und Separation 1/2 Graphen sind also wichtige qualitative Mittel, um • allgemeine Abhängigkeiten → Zusammenhang im Graphen und gleichzeitig • bedingte Unabhängigkeiten → fehlende Kanten auszudrücken. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 68 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Bedingte Unabhängigkeit und Separation 2/2 G B | C impliziert A G. Kern-Isberner (TU Dortmund) |= • A |= |= |= Aber: Graphische Separation und bedingte Unabhängigkeit sind ähnliche, aber keine äquivalenten Konzepte, d.h. A P B | C gdw. A G B | C ist (im Allgemeinen) nicht möglich, denn G B | (C ∪ C0 ); Commonsense Reasoning 69 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Bedingte Unabhängigkeit und Separation 2/2 B | C impliziert A G A |= • es ist jedoch möglich, dass A P B | (C ∪ G. Kern-Isberner (TU Dortmund) C0 ). B | (C ∪ C0 ); |= G |= • A |= |= |= Aber: Graphische Separation und bedingte Unabhängigkeit sind ähnliche, aber keine äquivalenten Konzepte, d.h. A P B | C gdw. A G B | C ist (im Allgemeinen) nicht möglich, denn P B | C gilt, nicht aber Commonsense Reasoning 69 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Bedingte Unabhängigkeit und Separation 2/2 B | C impliziert A G A |= • es ist jedoch möglich, dass A P B | (C ∪ G. Kern-Isberner (TU Dortmund) C0 ). B | (C ∪ C0 ); |= G |= • A |= |= |= Aber: Graphische Separation und bedingte Unabhängigkeit sind ähnliche, aber keine äquivalenten Konzepte, d.h. A P B | C gdw. A G B | C ist (im Allgemeinen) nicht möglich, denn P B | C gilt, nicht aber Commonsense Reasoning 69 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Beispiel – (bedingte) Unabhängigkeit G = {f em, mal} M = {mar, mar} P = {preg, preg} Geschlecht (f em = female, mal = male) verheiratet (married) schwanger (pregnant) mar preg preg mar preg preg mal 0.00 0.20 0.00 0.30 f em 0.06 0.14 0.02 0.28 |= Die Variablen Geschlecht und verheiratet sind statistisch unabhängig: gender P marriage | ∅ , |= aber sie sind bedingt abhängig gegeben Schwangerschaft: nicht ( gender P marriage | pregnancy ) !!! G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 70 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 70 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 70 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Eigenschaften der bedingten Unabhängigkeit Welche qualitativen Eigenschaften hat die bedingte Unabhängigkeit? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 71 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Eigenschaften der bedingten Unabhängigkeit D.h. was lässt sich (logisch) über die Relation A G. Kern-Isberner (TU Dortmund) Commonsense Reasoning |= Welche qualitativen Eigenschaften hat die bedingte Unabhängigkeit? P B | C sagen? 71 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Eigenschaften der bedingten Unabhängigkeit D.h. was lässt sich (logisch) über die Relation A |= Welche qualitativen Eigenschaften hat die bedingte Unabhängigkeit? P B | C sagen? |= Wenn A P B | C, dann auch A A ∈ A, B ∈ B. G. Kern-Isberner (TU Dortmund) |= Sicherlich gilt: P B | C für jedes Paar von Variablen Commonsense Reasoning 71 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Eigenschaften der bedingten Unabhängigkeit D.h. was lässt sich (logisch) über die Relation A |= Welche qualitativen Eigenschaften hat die bedingte Unabhängigkeit? P B | C sagen? |= Wenn A P B | C, dann auch A A ∈ A, B ∈ B. |= Sicherlich gilt: P B | C für jedes Paar von Variablen |= Allerdings gilt hier nicht die Umkehrung – d.h. es gibt Beispiele mit Variablenmengen A, B, C so dass für jedes Paar von Variablen A ∈ A, B ∈ B A und B bedingt unabhängig sind gegeben C, aber trotzdem gilt nicht A P B | C. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 71 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 71 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 1/3 Seien A, B, C, D disjunkte Teilmengen von V. G. Kern-Isberner (TU Dortmund) |= |= B | C gdw. B A | C Im Kontext C soll gelten: Wenn A uns nichts Neues über B sagt, dann sagt uns auch B nichts Neues über A. • Symmetrie: A Commonsense Reasoning 72 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 1/3 Seien A, B, C, D disjunkte Teilmengen von V. |= |= B | C gdw. B A | C Im Kontext C soll gelten: Wenn A uns nichts Neues über B sagt, dann sagt uns auch B nichts Neues über A. • Symmetrie: A |= |= |= (B ∪ D) | C impliziert A B | C und A D|C Ist die Gesamtinformation B ∪ D (im Kontext C) irrelevant für A, so ist auch jede einzelne Information irrelevant für A. • Zerlegung: A G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 72 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 1/3 Seien A, B, C, D disjunkte Teilmengen von V. |= |= B | C gdw. B A | C Im Kontext C soll gelten: Wenn A uns nichts Neues über B sagt, dann sagt uns auch B nichts Neues über A. • Symmetrie: A |= |= |= (B ∪ D) | C impliziert A B | C und A D|C Ist die Gesamtinformation B ∪ D (im Kontext C) irrelevant für A, so ist auch jede einzelne Information irrelevant für A. • Zerlegung: A • Schwache Vereinigung: G. Kern-Isberner (TU Dortmund) |= |= A (B ∪ D) | C impliziert A B | (C ∪ D) Der Relevanz-Kontext C kann vergrößert werden um Information, die schon als irrelevant eingestuft wurde. Commonsense Reasoning 72 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 72 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 2/3 • Kontraktion: G. Kern-Isberner (TU Dortmund) Commonsense Reasoning |= |= |= A B | C und A D | (C ∪ B) impliziert A (B ∪ D) | C Schätzen wir D als irrelevant ein, nachdem wir irrelevante Information B gelernt haben, dann muss D schon vorher irrelevant gewesen sein. 73 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 2/3 • Kontraktion: |= |= |= A B | C und A D | (C ∪ B) impliziert A (B ∪ D) | C Schätzen wir D als irrelevant ein, nachdem wir irrelevante Information B gelernt haben, dann muss D schon vorher irrelevant gewesen sein. Schwache Vereinigung und Kontraktion besagen, dass irrelevante Informationen nicht die Relevanzbeziehungen anderer Aussagen füreinander beeinflussen – • relevante Aussagen bleiben relevant füreinander, • irrelevante Aussagen bleiben irrelevant füreinander. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 73 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 3/3 |= |= |= B | (C ∪ D) und A D | (C ∪ B) impliziert A (B ∪ D) | C Ist jede der Informationen B, D im jeweils um die andere Information vergrößerten Kontext C irrelevant für A, so ist auch die Gesamtinformation B ∪ D im Kontext C irrelevant für A. • Schnitt: A G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 74 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften 3/3 |= |= |= B | (C ∪ D) und A D | (C ∪ B) impliziert A (B ∪ D) | C Ist jede der Informationen B, D im jeweils um die andere Information vergrößerten Kontext C irrelevant für A, so ist auch die Gesamtinformation B ∪ D im Kontext C irrelevant für A. • Schnitt: A Proposition 1 |= |= Ist P eine Verteilung über V, so erfüllt · P · | · die Eigenschaften Symmetrie, Zerlegung, Schwache Vereinigung und Kontraktion. Ist P außerdem noch strikt positiv (d.h. P (v) > 0 für alle v), so erfüllt · P · | · auch Schnitt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 74 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften – Anmerkungen |= |= B | (C ∪ D) besagt dasselbe wie A B | (C, D). Wichtig ist, dass C ∪ D nicht etwa C ∨ D bedeutet, sondern hier werden die Variablenmengen vereinigt, über die dann Vollkonjunktionen bzw. Konfigurationen gebildet werden. • Die Schreibweise A G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 75 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Formale Eigenschaften – Anmerkungen |= |= B | (C ∪ D) besagt dasselbe wie A B | (C, D). Wichtig ist, dass C ∪ D nicht etwa C ∨ D bedeutet, sondern hier werden die Variablenmengen vereinigt, über die dann Vollkonjunktionen bzw. Konfigurationen gebildet werden. • Die Schreibweise A • Alle genannten Eigenschaften werden auch von graphischer Separation erfüllt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 75 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Disjunkte Variablenmengen? Die beteiligten Variablenmengen müssen nicht unbedingt disjunkt sein. Für allgemeine Variablenmengen muss man noch die folgende Eigenschaft beachten: G. Kern-Isberner (TU Dortmund) B|B |= A Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Disjunkte Variablenmengen? Die beteiligten Variablenmengen müssen nicht unbedingt disjunkt sein. Für allgemeine Variablenmengen muss man noch die folgende Eigenschaft beachten: B|B |= A Dann gilt (gemeinsam mit den restlichen Eigenschaften): G. Kern-Isberner (TU Dortmund) B−C|C |= B | C gdw. A − C |= A Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Disjunkte Variablenmengen? Die beteiligten Variablenmengen müssen nicht unbedingt disjunkt sein. Für allgemeine Variablenmengen muss man noch die folgende Eigenschaft beachten: B|B |= A Dann gilt (gemeinsam mit den restlichen Eigenschaften): B−C|C |= B | C gdw. A − C |= A Alle genannten Eigenschaften sind von den anderen unabhängig, d.h. keine der Eigenschaften ist überflüssig. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 76 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Strikte Positivität bei Schnitt 1/2 Die Voraussetzung der strikten Positivität von P ist für den Nachweis der Schnitteigenschaft notwendig, wie das folgende Beispiel zeigt: Beispiel “Ausflug”: A = {A}, B = {B}, C = ∅, D = {D} mit den folgenden Bedeutungen A B D Wir machen einen Ausflug. Das Wetter ist schön. Es ist warm und sonnig. A B D P (ω) A B D P (ω) 0 0 0 0 1 1 1 1 G. Kern-Isberner (TU Dortmund) 0 0 1 1 0 1 0 1 0.7 0 0 0.09 0 0 1 1 Commonsense Reasoning 0 1 0 1 0.01 0 0 0.2 77 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Strikte Positivität bei Schnitt 2/2 P (b|d)=P (b|d)=P (d|b)=P (d|b)=1, P (b|d)=P (b|d)=P (d|b)=P (d|b)=0 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 78 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Strikte Positivität bei Schnitt 2/2 P (b|d)=P (b|d)=P (d|b)=P (d|b)=1, P B | D und A G. Kern-Isberner (TU Dortmund) |= Daher A |= P (b|d)=P (b|d)=P (d|b)=P (d|b)=0 P D | B; Commonsense Reasoning 78 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Strikte Positivität bei Schnitt 2/2 P (b|d)=P (b|d)=P (d|b)=P (d|b)=1, P (b|d)=P (b|d)=P (d|b)=P (d|b)=0 |= |= |= Daher A P B | D und A P D | B; die Schnitteigenschaft würde aber nun implizieren: {A} P {B, D} | ∅; G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 78 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Strikte Positivität bei Schnitt 2/2 P (b|d)=P (b|d)=P (d|b)=P (d|b)=1, P (b|d)=P (b|d)=P (d|b)=P (d|b)=0 |= |= |= Daher A P B | D und A P D | B; die Schnitteigenschaft würde aber nun implizieren: {A} P {B, D} | ∅; es gilt aber P (abd) = 0.2, P (a)P (bd) = 0.21 · 0.29 = 0.0609 und daher P (abd) 6= P (a)P (bd). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 78 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 78 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen |= |= Ein Markov-Graph G zu einer Wahrscheinlichkeitsverteilung P ist ein minimaler Unabhängigkeitsgraph bezgl. P , d.h., es gilt die globale Markov-Eigenschaft: A G B | C impliziert A P B | C, und G enthält keine überflüssigen Kanten. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 79 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen |= |= Ein Markov-Graph G zu einer Wahrscheinlichkeitsverteilung P ist ein minimaler Unabhängigkeitsgraph bezgl. P , d.h., es gilt die globale Markov-Eigenschaft: A G B | C impliziert A P B | C, und G enthält keine überflüssigen Kanten. Es gelten die folgenden Resultate: • Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen |= (eindeutig bestimmten) Markov-Graph G0 = hV, E0 i, so dass (A, B) ∈ / E0 gdw. A P B | (V − {A, B}). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 79 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen |= |= Ein Markov-Graph G zu einer Wahrscheinlichkeitsverteilung P ist ein minimaler Unabhängigkeitsgraph bezgl. P , d.h., es gilt die globale Markov-Eigenschaft: A G B | C impliziert A P B | C, und G enthält keine überflüssigen Kanten. Es gelten die folgenden Resultate: • Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen |= (eindeutig bestimmten) Markov-Graph G0 = hV, E0 i, so dass (A, B) ∈ / E0 gdw. A P B | (V − {A, B}). • Andererseits lässt sich zu jedem ungerichteten Graphen G eine Verteilung P angeben, so dass G ein Unabhängigkeitsgraph von P ist. P heißt dann Markov-Feld bezgl. G. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 79 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Verteilung → Markov-Graph: |= Ausgehend von einem vollständigen Graphen auf V entfernt man alle Kanten (A, B), für die A P B | (V − {A, B}) gilt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 80 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Verteilung → Markov-Graph: |= Ausgehend von einem vollständigen Graphen auf V entfernt man alle Kanten (A, B), für die A P B | (V − {A, B}) gilt. |= Umgekehrt kann man natürlich auch von einem leeren Graphen starten und nur die Knoten verbinden, bei denen A P B | (V − {A, B}) für die entsprechenden Variablen falsch ist. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 80 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Verteilung → Markov-Graph: |= Ausgehend von einem vollständigen Graphen auf V entfernt man alle Kanten (A, B), für die A P B | (V − {A, B}) gilt. |= Umgekehrt kann man natürlich auch von einem leeren Graphen starten und nur die Knoten verbinden, bei denen A P B | (V − {A, B}) für die entsprechenden Variablen falsch ist. Theorem 1 Jede strikt positive Wahrscheinlichkeitsverteilung P besitzt einen eindeutig bestimmten Markov-Graphen G0 = hV, E0 i mit |= (A, B) ∈ / E0 gdw. A P B | (V − {A, B}) paarweise Markov-Eigenschaft Auf die Voraussetzung der strikten Positivität von P kann hier nicht verzichtet werden kann. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 80 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen – Beispiel Vier (binäre) Variablen A1 , A2 , A3 , A4 mit 0.5 wenn a˙1 = a˙2 = a˙3 = a˙4 P (a˙1 a˙2 a˙3 a˙4 ) = 0 sonst G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 81 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen – Beispiel Vier (binäre) Variablen A1 , A2 , A3 , A4 mit 0.5 wenn a˙1 = a˙2 = a˙3 = a˙4 P (a˙1 a˙2 a˙3 a˙4 ) = 0 sonst Ai G. Kern-Isberner (TU Dortmund) |= Es gelten die folgenden bedingten Unabhängigkeiten: P Aj | {Ak , Al } Commonsense Reasoning 81 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen – Beispiel Vier (binäre) Variablen A1 , A2 , A3 , A4 mit 0.5 wenn a˙1 = a˙2 = a˙3 = a˙4 P (a˙1 a˙2 a˙3 a˙4 ) = 0 sonst Ai |= Es gelten die folgenden bedingten Unabhängigkeiten: P Aj | {Ak , Al } Der nach der obigen Idee konstruierte Graph besitzt also gar keine Kanten, besteht folglich aus vier isolierten Knoten. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 81 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Graphen – Beispiel Vier (binäre) Variablen A1 , A2 , A3 , A4 mit 0.5 wenn a˙1 = a˙2 = a˙3 = a˙4 P (a˙1 a˙2 a˙3 a˙4 ) = 0 sonst Ai |= Es gelten die folgenden bedingten Unabhängigkeiten: P Aj | {Ak , Al } Der nach der obigen Idee konstruierte Graph besitzt also gar keine Kanten, besteht folglich aus vier isolierten Knoten. Dies ist jedoch kein Unabhängigkeitsgraph für P , da die vier Variablen natürlich nicht unabhängig voneinander sind. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 81 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 1/2 A G. Kern-Isberner (TU Dortmund) |= Als Markov-Decke (Markov blanket), bl(A), von A ∈ V wird jede Variablenmenge B ⊆ V bezeichnet, für die gilt: P [V − (B ∪ {A})] | B Commonsense Reasoning 82 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 1/2 A |= Als Markov-Decke (Markov blanket), bl(A), von A ∈ V wird jede Variablenmenge B ⊆ V bezeichnet, für die gilt: P [V − (B ∪ {A})] | B Ein Markov-Rand (Markov boundary), br (A), von A ist eine minimale Markov-Decke von A. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 82 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 1/2 A |= Als Markov-Decke (Markov blanket), bl(A), von A ∈ V wird jede Variablenmenge B ⊆ V bezeichnet, für die gilt: P [V − (B ∪ {A})] | B Ein Markov-Rand (Markov boundary), br (A), von A ist eine minimale Markov-Decke von A. |= Da trivialerweise A P ∅ | (V − {A}) gilt, ist die Existenz von Markov-Decken und damit auch von Markov-Rändern gesichert. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 82 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 1/2 A |= Als Markov-Decke (Markov blanket), bl(A), von A ∈ V wird jede Variablenmenge B ⊆ V bezeichnet, für die gilt: P [V − (B ∪ {A})] | B Ein Markov-Rand (Markov boundary), br (A), von A ist eine minimale Markov-Decke von A. |= Da trivialerweise A P ∅ | (V − {A}) gilt, ist die Existenz von Markov-Decken und damit auch von Markov-Rändern gesichert. Für strikt positive Verteilungen besitzen Markov-Ränder eine anschauliche graphische Interpretation: G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 82 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 2/2 Theorem 2 Ist P eine strikt positive Wahrscheinlichkeitsverteilung, so besitzt jedes Element A ∈ V einen eindeutig bestimmten Markov-Rand br(A), der gerade aus den Nachbarknoten nb(A) von A im Markov-Graphen G0 besteht; es gilt also [V − (nb(A) ∪ {A})] | nb(A) lokale Markov-Eigenschaft |= A P Es gilt die folgende Implikationskette: global Markov ⇒ lokal Markov ⇒ paarweise Markov G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 83 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Markov-Decke und Markov-Rand 2/2 Theorem 2 Ist P eine strikt positive Wahrscheinlichkeitsverteilung, so besitzt jedes Element A ∈ V einen eindeutig bestimmten Markov-Rand br(A), der gerade aus den Nachbarknoten nb(A) von A im Markov-Graphen G0 besteht; es gilt also [V − (nb(A) ∪ {A})] | nb(A) lokale Markov-Eigenschaft |= A P Es gilt die folgende Implikationskette: global Markov ⇒ lokal Markov ⇒ paarweise Markov Im Allgemeinen sind die drei Markov-Eigenschaften unterschiedlich, unter gewissen Bedingungen (insbesondere für alle strikt positiven Verteilungen) besteht jedoch Äquivalenz. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 83 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Notizen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 83 / 232 Probabilistische Folgerungsmodelle und -strategien Schlussfolgern über Unabhängigkeiten Wichtig: Potentialdarstellungen (→ DVEW) Sei P eine gemeinsame Verteilung über den Variablen in V; sei Sp {Wi | 1 ≤ i ≤ p} eine Menge von Teilmengen von V mit i=1 Wi = V; seien ψi : {wi | wi ist Vollkonjunktion über Wi , 1 ≤ i ≤ p} → IR≥0 Funktionen, die jeder Vollkonjunktion von Variablen in Wi (1 ≤ i ≤ p) eine nicht-negative reelle Zahl zuordnen. Gilt nun P (V) = K · Qp i=1 ψi (Wi ) so heißt {W1 , . . . , Wp ; ψi } eine Potentialdarstellung von P . G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 84 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Übersicht Kapitel 4 – Probabilistik 4.1 Einführung und Übersicht 4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning 4.3 Grundideen probabilistischen Schlussfolgerns 4.4 Schlussfolgern über Unabhängigkeiten 4.5 Propagation in baumartigen Netzen 4.6 Probabilistische Inferenz auf der Basis optimaler Entropie 4.7 Schlussworte und Zusammenfassung G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 85 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Kapitel 4 4. Probabilistische Folgerungsmodelle und -strategien 4.5 Propagation in baumartigen Netzen G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 86 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in probabilistischen Netzen – Übersicht Die Wissenspropagation in probabilistischen Netzen wird realisiert durch Update-Regeln, die Belief-Parameter mittels lokaler Kommunikation verändern, so dass sich im Netz ein Gleichgewichtszustand etabliert, der die posteriori-Wahrscheinlichkeiten korrekt wiedergibt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 87 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in probabilistischen Netzen – Übersicht Die Wissenspropagation in probabilistischen Netzen wird realisiert durch Update-Regeln, die Belief-Parameter mittels lokaler Kommunikation verändern, so dass sich im Netz ein Gleichgewichtszustand etabliert, der die posteriori-Wahrscheinlichkeiten korrekt wiedergibt. Wir werden Wissenspropagation in folgenden Typen probabilistischer Netze betrachten: • Ketten und • Bäume. • (DAG → Bayes-Netze in DVEW) G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 87 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Basis-Ideen • Neue Information über einen Knoten des Netzwerks soll entlang der Kanten durch das ganze Netzwerk propagiert werden, so dass sich neue, passende Wahrscheinlichkeiten an den Knoten einstellen. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Basis-Ideen • Neue Information über einen Knoten des Netzwerks soll entlang der Kanten durch das ganze Netzwerk propagiert werden, so dass sich neue, passende Wahrscheinlichkeiten an den Knoten einstellen. • Der Update-Prozess soll lokal erfolgen, d.h. jeder Knoten kommuniziert nur mit seinen Nachbarn, mit minimaler externer Überwachung. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Basis-Ideen • Neue Information über einen Knoten des Netzwerks soll entlang der Kanten durch das ganze Netzwerk propagiert werden, so dass sich neue, passende Wahrscheinlichkeiten an den Knoten einstellen. • Der Update-Prozess soll lokal erfolgen, d.h. jeder Knoten kommuniziert nur mit seinen Nachbarn, mit minimaler externer Überwachung. • Jeder Knoten wird damit als autonomer, informationsverarbeitender Prozessor betrachtet. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Basis-Ideen • Neue Information über einen Knoten des Netzwerks soll entlang der Kanten durch das ganze Netzwerk propagiert werden, so dass sich neue, passende Wahrscheinlichkeiten an den Knoten einstellen. • Der Update-Prozess soll lokal erfolgen, d.h. jeder Knoten kommuniziert nur mit seinen Nachbarn, mit minimaler externer Überwachung. • Jeder Knoten wird damit als autonomer, informationsverarbeitender Prozessor betrachtet. • Strikte Trennung von Bereichs- und Kontrollwissen; G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Basis-Ideen • Neue Information über einen Knoten des Netzwerks soll entlang der Kanten durch das ganze Netzwerk propagiert werden, so dass sich neue, passende Wahrscheinlichkeiten an den Knoten einstellen. • Der Update-Prozess soll lokal erfolgen, d.h. jeder Knoten kommuniziert nur mit seinen Nachbarn, mit minimaler externer Überwachung. • Jeder Knoten wird damit als autonomer, informationsverarbeitender Prozessor betrachtet. • Strikte Trennung von Bereichs- und Kontrollwissen; • Der Propagationsprozess verläuft prinzipiell regelbasiert, d.h. unter Verwendung bedingter Wahrscheinlichkeiten. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Vergleich mit MYCIN 1/2 (s. DVEW) MYCIN war – wie gewünscht – regelbasiert, und die Informationsverarbeitung wurde weitgehend entlang der Kanten eines Regelnetzwerkes durch die folgenden Propagationsregeln realisiert: 1 Konjunktion: CF [A ∧ B] = min{CF [A], CF [B]}. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 89 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Vergleich mit MYCIN 1/2 (s. DVEW) MYCIN war – wie gewünscht – regelbasiert, und die Informationsverarbeitung wurde weitgehend entlang der Kanten eines Regelnetzwerkes durch die folgenden Propagationsregeln realisiert: 1 2 Konjunktion: CF [A ∧ B] = min{CF [A], CF [B]}. Disjunktion: CF [A ∨ B] = max{CF [A], CF [B]}. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 89 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Vergleich mit MYCIN 1/2 (s. DVEW) MYCIN war – wie gewünscht – regelbasiert, und die Informationsverarbeitung wurde weitgehend entlang der Kanten eines Regelnetzwerkes durch die folgenden Propagationsregeln realisiert: 1 2 3 Konjunktion: CF [A ∧ B] = min{CF [A], CF [B]}. Disjunktion: CF [A ∨ B] = max{CF [A], CF [B]}. serielle Kombination: CF [B, {A}] = CF (A → B) · max{0, CF [A]}. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 89 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Vergleich mit MYCIN 1/2 (s. DVEW) MYCIN war – wie gewünscht – regelbasiert, und die Informationsverarbeitung wurde weitgehend entlang der Kanten eines Regelnetzwerkes durch die folgenden Propagationsregeln realisiert: 1 2 3 Konjunktion: CF [A ∧ B] = min{CF [A], CF [B]}. Disjunktion: CF [A ∨ B] = max{CF [A], CF [B]}. serielle Kombination: CF [B, {A}] = CF (A → B) · max{0, CF [A]}. 4 parallele Kombination: Für n > 1 ist CF [B, {A1 , . . . , An }] = f (CF [B, {A1 , . . . , An−1 }], CF [B, {An }]). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 89 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 C 0.5 0.8 B 0.5 D G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B @ @ B∧D C 0.5 0.9 E 0.5 D G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B @ @ B∧D C 0.5 0.5 D 0.9 E @ @ E∨F 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.9 H @ @ B∧D C 0.5 0.5 D 0.9 E @ @ E∨F 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B @ @ B∧D C 0.5 0.5 D 0.9 H Q 0.9 E @ @ E∨F Q 0.3 Q Q Q sG 3 0.25 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.8 @ @ B∧D C 0.5 0.5 D 0.25 0.9 H Q 0.9 E @ @ E∨F Q 0.3 Q Q Q sG 3 0.25 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.8 @ @ 0.25 B ∧ D C 0.5 0.5 D 0.25 0.9 H Q 0.9 E @ @ E∨F Q 0.3 Q Q Q sG 3 0.25 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.8 @ @ 0.25 B ∧ D C 0.5 0.5 D 0.25 0.9 H Q 0.9 E 0.225 @ @ E∨F Q 0.3 Q Q Q sG 3 0.25 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.8 @ @ 0.25 B ∧ D C 0.5 0.5 D 0.25 0.9 H Q 0.9 E 0.225 @ @ 0.8 E ∨ F Q 0.3 Q Q Q sG 3 0.25 0.8 F G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Beispiel MYCIN (Whlg.) A 1.0 0.8 B 0.8 @ @ 0.25 B ∧ D C 0.5 0.5 D 0.25 0.9 H Q 0.9 E 0.225 @ @ 0.8 E ∨ F Q 0.3 Q Q Q sG 0.416 3 0.25 0.8 F f (0.3 · 0.9, 0.25 · 0.8) = 0.27 + 0.2 − 0.27 · 0.2 = 0.416 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Vergleich mit MYCIN 2/2 Allerdings waren die MYCIN-Regeln evidenzbasiert, d.h. von der Form Beobachtung → Ursache, während die Regeln in probabilistischen (z.B. Bayesschen) Netzen meistens kausale Beziehungen der Form Ursache → Wirkung kodieren. Außerdem gibt es zu MYCIN keine klare (probabilistische) Semantik, d.h., die Bedeutung der Zahlen ist nicht klar. Evidenz = neue Information im Sinne von: Beobachtung, Indiz, Beweis etc. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 91 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 1/5 Wie können/sollen Wahrscheinlichkeiten propagiert werden? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 92 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 1/5 Wie können/sollen Wahrscheinlichkeiten propagiert werden? Im einfachsten Fall haben wir eine Regel der Form A → B, bei der wir die (bedingten) Wahrscheinlichkeiten P (A) und P (B|A) kennen. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 92 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 1/5 Wie können/sollen Wahrscheinlichkeiten propagiert werden? Im einfachsten Fall haben wir eine Regel der Form A → B, bei der wir die (bedingten) Wahrscheinlichkeiten P (A) und P (B|A) kennen. Daraus können wir jedoch nicht die Wahrscheinlichkeit von B ableiten, es gilt lediglich P (B) ≥ P (AB) = P (A)P (B|A). G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 92 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 2/5 Ist auch die Wahrscheinlichkeit P (B|A) bekannt, so erhalten wir wenigstens P (B) = P (B|A)P (A) + P (B|A)P (A), so dass sich P (B) nun berechnen lässt. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 93 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 2/5 Ist auch die Wahrscheinlichkeit P (B|A) bekannt, so erhalten wir wenigstens P (B) = P (B|A)P (A) + P (B|A)P (A), so dass sich P (B) nun berechnen lässt. Was passiert jedoch, wenn neue Evidenz e bekannt wird und die Wahrscheinlichkeit P (B|e) berechnet werden soll? G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 93 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 3/5 Die Gleichung P (B|e) = P (B|A, e)P (A|e) + P (B|A, e)P (A|e) zeigt, dass die gesuchte Wahrscheinlichkeit von einer Fülle anderer Wahrscheinlichkeiten abhängt, sich also nicht mehr direkt lokal berechnen lässt; sie kann sich zudem drastisch von der ursprünglichen Wahrscheinlichkeit unterscheiden. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 94 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 3/5 Die Gleichung P (B|e) = P (B|A, e)P (A|e) + P (B|A, e)P (A|e) zeigt, dass die gesuchte Wahrscheinlichkeit von einer Fülle anderer Wahrscheinlichkeiten abhängt, sich also nicht mehr direkt lokal berechnen lässt; sie kann sich zudem drastisch von der ursprünglichen Wahrscheinlichkeit unterscheiden. Damit wird die Information P (B|A) nutzlos – es müssen nicht nur die Knotenwahrscheinlichkeiten, sondern auch die Kantenwahrscheinlichkeiten (d.h. bedingte Wahrscheinlichkeiten) angepasst werden, was der Idee der lokalen Propagation widerspricht. G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 94 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 4/5 Ein anderes Problem ist das der ungerechtfertigten verstärkenden Rückkoppelung. Beispiel 1: Nehmen wir an, Agent A verbreitet ein Gerücht, das er irgendwo aufgeschnappt hat. Nach einigen Tagen erzählt ihm Agent B dasselbe Gerücht. Die Frage, ob A nun seinen Glauben in die Richtigkeit dieses Gerüchts verstärken soll, hängt entscheidend davon ab, ob B das Gerücht noch aus einer anderen Quelle (unter transitivem Abschluss!) gehört hat oder nicht, lässt sich also nicht lokal entscheiden. ♣ G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 95 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in prob. Netzen – Probleme 5/5 Beispiel 2: Feuer verursacht Rauch, Rauch lässt auf Feuer schließen – beide Evidenzen verstärken den Glauben in die jeweils andere. Eine festimplementierte, lokale positive Verstärkung kann dann dazu führen, dass am Ende sowohl Feuer als auch Rauch (unbegründet) fast sicher geglaubt werden. ♣ G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 96 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel A, B, C, D sollen Farbe so wählen, dass diese verschieden von der aller Nachbarknoten ist. @ @ @ A @ @ @ B D C (a) Initialer Zustand G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 97 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel A, B, C, D sollen Farbe so wählen, dass diese verschieden von der aller Nachbarknoten ist. @ @ @ @ @ @ A @ @ @ B D C @ @ @ B D C (b) (a) A–B–C –D Initialer Zustand G. Kern-Isberner (TU Dortmund) A Commonsense Reasoning 97 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel (Forts.) @ @ @ A @ @ @ B D C (c) A–C –B–D Deadlock! G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 98 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel (Forts.) @ @ @ A @ @ @ B D C (c) @ @ @ A @ @ @ B D C (d) A–C –B–D Deadlock! G. Kern-Isberner (TU Dortmund) B wechselt Farbe beliebig Commonsense Reasoning 98 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel (Forts.) @ @ @ A @ @ @ B D C (d) B wechselt Farbe beliebig G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 99 / 232 Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen Propagation in Netzen – Beispiel (Forts.) @ @ @ @ @ @ A @ @ @ B D C (d) A @ @ @ B D C (e) B wechselt Farbe beliebig globale Lösung Probleme lokaler Propagation bei konfluenten Kanten G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 99 / 232