Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 – Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Kapitel 4 4. Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. 4.1.3 Gerichtete Netzwerke – Bayes-Netze G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 47 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Separatoren und Residuen Proposition 4 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V. Sei {Ci | 1 ≤ i ≤ p} eine Menge von Teilmengen von V mit Separatoren Si = Ci ∩ (C1 ∪ . . . ∪ Ci−1 ). Für 1 ≤ i ≤ p seien die Residuen Ri wie folgt definiert: Ri = Ci − Si Dann gilt für 1 ≤ i ≤ p: P (Ci | Si ) = P (Ri | Si ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – “Blue Babies” • Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] • 20 (mehrwertige) Variablen, darunter • Laborwerte (z.B. CO2-Werte) • Röntgenbefund und andere Befunde • Diagnose (6 mögliche Krankheiten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – “Blue Babies” • Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] • 20 (mehrwertige) Variablen, darunter • Laborwerte (z.B. CO2-Werte) • Röntgenbefund und andere Befunde • Diagnose (6 mögliche Krankheiten) • 114 lokale Verteilungen mit insgesamt 230 bedingten Wahrscheinlichkeiten G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – “Blue Babies” Birth asphyxia ? LVH ? LVH report - Age Disease PPX X PX @X I @ X P PX @ PX @ X PX P R @ q XX P ) @ XX z 9 Cardiac Lung Duct Lung Sick mixing parenchyma flow flow X HXXX HX H X X H ? j ? X H ? ? ? X z X Chest Hypoxia Hypoxia Grunting CO2 X-ray in O2 distribution ? ? ? ? ? Lower CO2 X-ray Grunting RUQ O2 body O2 report report report G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 94 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus . . . auch genannt Lauritzen-Spiegelhalter-Algorithmus nach S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2):415–448, 1988. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus . . . auch genannt Lauritzen-Spiegelhalter-Algorithmus nach S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2):415–448, 1988. Ziel: • Berechnung der Randverteilungen auf den einzelnen Cliquen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus . . . auch genannt Lauritzen-Spiegelhalter-Algorithmus nach S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2):415–448, 1988. Ziel: • Berechnung der Randverteilungen auf den einzelnen Cliquen; • insbesondere: Berechnung der Wahrscheinlichkeit der einzelnen Aussagenvariablen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Wissenspropagation in Bayesschen Netzen Ausgangspunkt des LS-Algorithmus: Sei (C1 , . . . , Cq ; ψ) der Cliquenbaum mit Potentialdarstellung, der aus einem Bayesschen Netz gewonnen wurde. Die Separatoren Si := Ci ∩ (C1 ∪ . . . ∪ Ci−1 )⊆ Cj(i) sind als Label an den Kanten des Cliquenbaumes notiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 96 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C1 , . . . , Cp ; ψ}. Die Ordnung (C1 , C2 , . . . , Cp ) besitze die RIP, und Ri bzw. Si seien die Residuen bzw. Separatoren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C1 , . . . , Cp ; ψ}. Die Ordnung (C1 , C2 , . . . , Cp ) besitze die RIP, und Ri bzw. Si seien die Residuen bzw. Separatoren. 1 ψ(Cp ) . Rp ψ(Cp ) Dann gilt P (Rp |Sp ) = P G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit Sp = Cp ∩ (C1 ∪ C2 ∪ . . . ∪ Cp−1 ) ⊆ Cj Sei ψ (1) (Ci ) = ψ(Ci ) P wenn 1 ≤ i ≤ p − 1 und i 6= j ψ(Cj ) Rp ψ(Cp ) wenn i=j Dann ist {C1 , . . . , Cp−1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C1 ∪ C2 ∪ . . . ∪ Cp−1 . G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit Sp = Cp ∩ (C1 ∪ C2 ∪ . . . ∪ Cp−1 ) ⊆ Cj Sei ψ (1) (Ci ) = ψ(Ci ) P wenn 1 ≤ i ≤ p − 1 und i 6= j ψ(Cj ) Rp ψ(Cp ) wenn i=j Dann ist {C1 , . . . , Cp−1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C1 ∪ C2 ∪ . . . ∪ Cp−1 . Damit wurde die Information der letzten Clique von ihrer Elternclique absorbiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 1/3 • Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C1 , . . . , Cp ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C1 , C2 , . . . , Cp ) die RIP besitze. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 1/3 • Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C1 , . . . , Cp ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C1 , C2 , . . . , Cp ) die RIP besitze. • Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (Ci ) und damit (leicht) die Wahrscheinlichkeiten P (Aj ) der Variablen Aj berechnen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 1/3 • Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C1 , . . . , Cp ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C1 , C2 , . . . , Cp ) die RIP besitze. • Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (Ci ) und damit (leicht) die Wahrscheinlichkeiten P (Aj ) der Variablen Aj berechnen kann. Wegen Si ⊆ Ci gilt P (Ci ) = P (Ci |Si )P (Si ) = P (Ri |Si )P (Si ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 1/3 • Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C1 , . . . , Cp ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C1 , C2 , . . . , Cp ) die RIP besitze. • Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (Ci ) und damit (leicht) die Wahrscheinlichkeiten P (Aj ) der Variablen Aj berechnen kann. Wegen Si ⊆ Ci gilt P (Ci ) = P (Ci |Si )P (Si ) = P (Ri |Si )P (Si ) • Aufgabe: Bestimmung der Wahrscheinlichkeiten P (Ri |Si ) und P (Si ) für jedes i ∈ {1, . . . , p}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Ri |Si ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (Rp | Sp ) = P ψ(Cp ) Rp ψ(Cp ) in der letzten Clique Cp ; setze ψ neu (Cp ) := P (Rp | Sp ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 100 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Ri |Si ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (Rp | Sp ) = P ψ(Cp ) Rp ψ(Cp ) in der letzten Clique Cp ; setze ψ neu (Cp ) := P (Rp | Sp ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C1 ∪ . . . ∪ Cp−1 durch Modifikation von ψ gemäß Proposition 5 (2). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 100 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Ri |Si ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (Rp | Sp ) = P ψ(Cp ) Rp ψ(Cp ) in der letzten Clique Cp ; setze ψ neu (Cp ) := P (Rp | Sp ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C1 ∪ . . . ∪ Cp−1 durch Modifikation von ψ gemäß Proposition 5 (2). 3 Wiederhole Schritte 1. und 2., bis alle bedingten Wahrscheinlichkeiten berechnet sind. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 100 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Si ): • Für die Wurzelclique C1 ist S1 = ∅ und daher P (C1 ) = ψ neu (C1 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 101 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Si ): • Für die Wurzelclique C1 ist S1 = ∅ und daher P (C1 ) = ψ neu (C1 ). • Die Wahrscheinlichkeiten P (C1 ), . . . , P (Ci−1 ) seien schon berechnet; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 101 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Si ): • Für die Wurzelclique C1 ist S1 = ∅ und daher P (C1 ) = ψ neu (C1 ). • Die Wahrscheinlichkeiten P (C1 ), . . . , P (Ci−1 ) seien schon berechnet; es ist P (Ci ) = P (Ri | Si )P (Si ) = ψ neu (Ci )P (Si ) und es gibt j < i mit Si ⊆ Cj G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 101 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (Si ): • Für die Wurzelclique C1 ist S1 = ∅ und daher P (C1 ) = ψ neu (C1 ). • Die Wahrscheinlichkeiten P (C1 ), . . . , P (Ci−1 ) seien schon berechnet; es ist P (Ci ) = P (Ri | Si )P (Si ) = ψ neu (Ci )P (Si ) und es gibt j < i mit Si ⊆ Cj → P (Si ) kann also aus P (Cj ) durch Aufsummieren berechnet werden: X P (Si ) = P (Cj ) Cj −Si G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 101 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Modifizierte Potentialdarstellung Proposition 6 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C1 , . . . , Cp ; ψ}. Wir nehmen weiterhin an, dass die Ordnung (C1 , . . . , Cp ) der fortlaufenden Schnitteigenschaft RIP genügt. Dann gilt P (V) = P (C1 ) p Y i=2 P (Ri |Si ) wobei die Mengen Ri bzw. Si die zugehörigen Residuen bzw. Separatoren sind. D.h. {C1 , . . . , Cp ; ψ neu } mit ψ neu (Ci ) = P (Ri |Si ) ist eine Potentialdarstellung von P . G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 102 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden @ R @ A @ @ R @ R @ B C D G. Kern-Isberner (TU Dortmund) DVEW E WiSe 2016/17 103 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden @ R @ A @ @ R @ R @ B C D E P (A, B, C, D, E) = P (A)P (B|A)P (C|A)P (D|BC)P (E|C) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 103 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Durch die folgenden (bedingten) Wahrscheinlichkeiten wird P vollständig festgelegt: P (a) = 0.20 P (b | a) = 0.80 P (b | ā) = 0.20 P (c | a) = 0.20 P (c | ā) = 0.05 P (d | bc) = 0.80 P (d | b̄c) = 0.70 P (d | bc̄) = 0.90 P (d | b̄c̄) = 0.05 P (e | c) = 0.80 G. Kern-Isberner (TU Dortmund) P (e | c̄) = 0.60 DVEW WiSe 2016/17 104 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) clq : clq(A) = clq(B) = clq(C) = C1 clq(D) = C2 clq(E) = C3 ψ: ψ(A, B, C) = P (A)P (B | A)P (C | A) ψ(B, C, D) = P (D | B, C) ψ(C, E) = P (E | C) Wir erhalten die Potentialdarstellung P (A, B, C, D, E) = ψ(A, B, C)ψ(B, C, D)ψ(C, E) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 105 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – die vollständige Potentialdarstellung 1/2 i Ci Ri Si Konjunktion ψ(Ci ) 1 {A, B, C} {A, B, C} ∅ abc abc̄ ab̄c ab̄c̄ ābc ābc̄ āb̄c āb̄c̄ G. Kern-Isberner (TU Dortmund) DVEW 0.032 0.128 0.008 0.032 0.008 0.152 0.032 0.608 WiSe 2016/17 106 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – die vollständige Potentialdarstellung 2/2 i Ci Ri Si Konjunktion ψ(Ci ) 2 {B, C, D} {D} {B, C} 3 {C, E} {E} {C} bcd bcd¯ bc̄d bc̄d¯ b̄cd b̄cd¯ b̄c̄d b̄c̄d¯ ce cē c̄e c̄ē G. Kern-Isberner (TU Dortmund) DVEW 0.8 0.2 0.9 0.1 0.7 0.3 0.05 0.95 0.8 0.2 0.6 0.4 WiSe 2016/17 107 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) C1 = {A, B, C} S1 = ∅ R1 = {A, B, C} C2 = {B, C, D} S2 = {B, C} R2 = {D} C3 = {C, E} S3 = {C} R3 = {E} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 108 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) C1 = {A, B, C} S1 = ∅ R1 = {A, B, C} C2 = {B, C, D} S2 = {B, C} R2 = {D} C3 = {C, E} S3 = {C} R3 = {E} Schritt 1: Berechnung von P (R3 | S3 ) P (R3 | S3 ) = ψ(C3 ) R3 ψ(C3 ) P ψ(C, E) P E ψ(C, E) P (E | C) = P E P (E | C) = P (E | C) = ψ neu (C3 ) = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 108 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S3 ⊆ C2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 109 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S3 ⊆ C2 ⇒ Es ist {C1 , C2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C1 ∪ C2 , wobei ψ(C1 ) P wenn i = 1 (1) ψ (Ci ) = ψ(C2 ) R3 ψ(C3 ) wenn i = 2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 109 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S3 ⊆ C2 ⇒ Es ist {C1 , C2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C1 ∪ C2 , wobei ψ(C1 ) P wenn i = 1 (1) ψ (Ci ) = ψ(C2 ) R3 ψ(C3 ) wenn i = 2 also ψ (1) (C1 ) = P (A)P (B | A)P (C | A) X ψ(C3 ) und ψ (1) (C2 ) = ψ(C2 ) R3 X = ψ(B, C, D) ψ(C, E) E X = P (D | B, C) P (E | C) = P (D | B, C) E G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 109 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 3: Berechnung von P (R2 | S2 ) P (R2 | S2 ) = ψ (1) (C2 ) (1) R2 ψ (C2 ) P = ψ(B, C, D) =: ψ neu (C2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 110 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 3: Berechnung von P (R2 | S2 ) P (R2 | S2 ) = ψ (1) (C2 ) (1) R2 ψ (C2 ) P = ψ(B, C, D) =: ψ neu (C2 ) Schritt 4: Verkürzung der Potentialdarstellung und Berechnung der ersten Cliquenwahrscheinlichkeit: Schließlich ist {C1 , ψ (2) } mit ψ (2) (C1 ) = ψ(C1 ) eine Potentialdarstellung der Randverteilung auf C1 , und es ist ψ (2) (C1 ) = P (C1 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 110 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.: P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 111 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.: P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04 P (bc̄) = 0.128 + 0.152 = 0.28 P (b̄c) = 0.04 P (b̄c̄) = 0.64 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 111 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.: P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04 P (bc̄) = 0.128 + 0.152 = 0.28 P (b̄c) = 0.04 P (b̄c̄) = 0.64 Nun erhalten wir P (C2 ) aus P (C2 ) = ψ(C2 )P (S2 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 111 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.: P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04 P (bc̄) = 0.128 + 0.152 = 0.28 P (b̄c) = 0.04 P (b̄c̄) = 0.64 Nun erhalten wir P (C2 ) aus P (C2 ) = ψ(C2 )P (S2 ). Schritt 6: Berechnung der dritten Cliquenwahrscheinlichkeit: Analog gehen wir bei der Berechnung von P (C3 ) = ψ(C3 )P (S3 ) vor. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 111 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – modifizierte Potentialdarstellung 1/2 i Ci Konjunktion ψ neu (Ci ) P (Ci ) 1 {A, B, C} abc abc̄ ab̄c ab̄c̄ ābc ābc̄ āb̄c āb̄c̄ 0.032 0.128 0.008 0.032 0.008 0.152 0.032 0.608 G. Kern-Isberner (TU Dortmund) DVEW 0.032 0.128 0.008 0.032 0.008 0.152 0.032 0.608 WiSe 2016/17 112 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 112 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Beispiel – modifizierte Potentialdarstellung 2/2 i Ci Konjunktion ψ neu (Ci ) P (Ci ) 2 {B, C, D} bcd bcd¯ bc̄d bc̄d¯ b̄cd b̄cd¯ b̄c̄d b̄c̄d¯ 0.8 0.2 0.9 0.1 0.7 0.3 0.05 0.95 0.032 0.008 0.252 0.028 0.028 0.012 0.032 0.608 3 {C, E} ce cē c̄e c̄ē 0.8 0.2 0.6 0.4 0.064 0.016 0.552 0.368 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 113 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 113 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U ⊆ V. U∗ enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U∗ eine Instantiierung von U: U := U∗ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 114 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U ⊆ V. U∗ enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U∗ eine Instantiierung von U: U := U∗ Beispiel: Sei V = {A, B, C, D} und U = {B, D} mit der Instantiierung U∗ = {b, d}. {B, D} = {b, d} ist dann eine abkürzende Schreibweise für B = b, D = d. ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 114 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Berücksichtigung fallspezifischer Daten 2/2 Proposition 7 Sei V Menge von Aussagenvariablen, sei P gemeinsame Verteilung über V mit Potentialdarstellung {W1 , . . . , Wp ; ψ}. Sei U∗ eine Instantiierung von U ⊆ V. ψU:=U∗ (Wi ) ist das Ergebnis der Auswertung von ψ auf Wi , wobei die Variablen in Wi ∩ U mit ihren Werten aus U∗ instantiiert sind. Dann ist {W1 − U, . . . , Wp − U; ψU:=U∗ } eine Potentialdarstellung der auf V0 = V − U definierten Verteilung P̂ (V0 ) = P (V0 | U∗ ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 115 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel Wir setzen das Sturm-Beispiel fort; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 116 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} G. Kern-Isberner (TU Dortmund) und U∗ = {d} DVEW WiSe 2016/17 116 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U∗ = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung P̂ (A, B, C, E) := P (A, B, C, E | d) bestimmen: G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 116 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U∗ = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung P̂ (A, B, C, E) := P (A, B, C, E | d) bestimmen: Cliquen: Ĉ1 Ĉ2 Ĉ3 G. Kern-Isberner (TU Dortmund) = = = C1 − {D} = {A, B, C}(= C1 ) C2 − {D} = {B, C} C3 − {D} = {C, E}(= C2 ) DVEW WiSe 2016/17 116 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Potentialfunktionen: ψ̂ = ψD:=d : ψ̂(Ĉ1 ) = ψ(C1 ) ψ̂(Ĉ2 ) = ψ̂(B, C) = ψ(B, C, d) ψ̂(Ĉ3 ) = ψ(C3 ) also z.B. ψ̂(bc) = ψ(bcd). Separatoren und Residuen: Ŝ1 = S1 − {D} = ∅ Ŝ2 = S2 − {D} = {B, C} Ŝ3 = S3 − {D} = {C} G. Kern-Isberner (TU Dortmund) R̂1 = R1 − {D} = {A, B, C} R̂2 = R2 − {D} = ∅ R̂3 = R3 − {D} = {E} DVEW WiSe 2016/17 117 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch Anwendung der passenden Propositionen: G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 118 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch Anwendung der passenden Propositionen: P̂ (R̂3 | Ŝ3 ) = = P ψ̂(Ĉ3 ) R̂3 ψ̂(Ĉ3 ) ψ(C3 ) R3 ψ(C3 ) P = P (R3 | S3 ) = ψ(C3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 118 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch Anwendung der passenden Propositionen: P̂ (R̂3 | Ŝ3 ) = = P ψ̂(Ĉ3 ) R̂3 ψ̂(Ĉ3 ) ψ(C3 ) R3 ψ(C3 ) P = P (R3 | S3 ) = ψ(C3 ) und daher ψ̂ neu (Ĉ3 ) = P̂ (R̂3 | Ŝ3 ) = ψ(C3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 118 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ), X ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 ) ψ̂(Ĉ3 ) = ψ̂(Ĉ2 ) R̂3 eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 119 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ), X ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 ) ψ̂(Ĉ3 ) = ψ̂(Ĉ2 ) R̂3 eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}. Daher ist wegen R̂2 = ∅; P̂ (R̂2 | Ŝ2 ) = P G. Kern-Isberner (TU Dortmund) ψ̂ (1) (Ĉ2 ) R̂2 DVEW ψ̂ (1) (Ĉ2 ) =1 WiSe 2016/17 119 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ), X ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 ) ψ̂(Ĉ3 ) = ψ̂(Ĉ2 ) R̂3 eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}. Daher ist P̂ (R̂2 | Ŝ2 ) = P ψ̂ (1) (Ĉ2 ) R̂2 ψ̂ (1) (Ĉ2 ) =1 wegen R̂2 = ∅; setze also ψ̂ neu (Ĉ2 ) = 1. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 119 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von P̂ auf Ĉ1 = {A, B, C} mittels {Ĉ1 ; ψ̂ (2) } mit X ψ̂ (2) (Ĉ1 ) = ψ̂ (1) (Ĉ1 ) ψ̂ (1) (Ĉ2 ) = ψ̂ (1) (Ĉ1 )ψ̂ (1) (Ĉ2 ), R̂2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 120 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von P̂ auf Ĉ1 = {A, B, C} mittels {Ĉ1 ; ψ̂ (2) } mit X ψ̂ (2) (Ĉ1 ) = ψ̂ (1) (Ĉ1 ) ψ̂ (1) (Ĉ2 ) = ψ̂ (1) (Ĉ1 )ψ̂ (1) (Ĉ2 ), R̂2 also z.B. ψ̂ (2) (abc) = ψ̂ (1) (abc)ψ̂ (1) (bc) = 0.032 · 0.8 = 0.0256 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 120 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Zunächst muss P̂ (Ĉ1 ) aus ψ̂ (2) berechnet werden. Mit Proposition 5 ist P̂ (Ĉ1 ) = P̂ (R̂1 | Ŝ1 ) = P ψ̂ (2) (Ĉ1 ) R̂1 ψ̂ (2) (Ĉ1 ) Durch Aufsummieren ergibt sich X ψ̂ (2) (Ĉ1 ) = 0.344 R̂1 also z.B. P̂ (abc) = G. Kern-Isberner (TU Dortmund) ψ̂ (2) (abc) 0.0256 = ≈ 0.074 0.344 0.344 DVEW WiSe 2016/17 121 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Für Ĉ2 ist P̂ (Ĉ2 ) = ψ̂ neu (Ĉ2 )P̂ (Ŝ2 ) bzw. P̂ (B, C) = ψ̂ neu (B, C)P̂ (B, C) und P̂ (B, C) kann aus P̂ (Ĉ1 ) berechnet werden. Es ist z.B. P̂ (bc) = 0.074 + 0.019 = 0.093 Schließlich ist P̂ (Ĉ3 ) = ψ̂ neu (Ĉ3 )P̂ (Ŝ3 ) also z.B. P̂ (ce) = ψ̂ neu (ce)P̂ (c) = 0.8 · (0.093 + 0.081) ≈ 0.139 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 122 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) i Ĉi Konjunktion ψ̂ neu (Ĉi ) P̂ (Ĉi ) 1 {A, B, C} abc abc̄ ab̄c ab̄c̄ ābc ābc̄ āb̄c āb̄c̄ 0.074 0.335 0.016 0.005 0.019 0.398 0.065 0.088 G. Kern-Isberner (TU Dortmund) DVEW 0.074 0.335 0.016 0.005 0.019 0.398 0.065 0.088 WiSe 2016/17 123 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 123 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Instantiierung – Beispiel (Forts.) Konjunktion ψ̂ neu (Ĉi ) P̂ (Ĉi ) i Ĉi 2 {B, C} bc bc̄ b̄c b̄c̄ 1.0 1.0 1.0 1.0 0.093 0.733 0.081 0.093 3 {C, E} 0.8 0.2 0.6 0.4 0.139 0.035 0.496 0.330 G. Kern-Isberner (TU Dortmund) ce cē c̄e c̄ē DVEW WiSe 2016/17 124 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 124 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 1/2 • HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 125 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 1/2 • HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. • BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 125 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 1/2 • HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. • BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. • VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 125 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 1/2 • HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. • BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. • VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. • CHILD hilft bei der Diagnose angeborener Herzfehler G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 125 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 1/2 • HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. • BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. • VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. • CHILD hilft bei der Diagnose angeborener Herzfehler • MUNIN wird zur Diagnose neuromuskulärer Erkrankungen eingesetzt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 125 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 2/2 • SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 126 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 2/2 • SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. • Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 126 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 2/2 • SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. • Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. • FRAIL interpretiert literarische Prosa. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 126 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 2/2 • SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. • Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. • FRAIL interpretiert literarische Prosa. • Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 126 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Anwendungen Bayesscher Netze 2/2 • SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. • Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. • FRAIL interpretiert literarische Prosa. • Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. • Im e-Commerce können Bayessche Netze zur Erstellung individueller Kundenprofile im Online-Betrieb benutzt werden. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 126 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Vor- und Nachteile Bayesscher Netze Vorteile: • starke kausale Semantik, im Prinzip regelbasiert; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 128 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Vor- und Nachteile Bayesscher Netze Vorteile: • starke kausale Semantik, im Prinzip regelbasiert; • gute visuelle Darstellung von Zusammenhängen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 128 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Vor- und Nachteile Bayesscher Netze Vorteile: • starke kausale Semantik, im Prinzip regelbasiert; • gute visuelle Darstellung von Zusammenhängen; • sehr effiziente Propagationsalgorithmen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 128 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Vor- und Nachteile Bayesscher Netze Vorteile: • starke kausale Semantik, im Prinzip regelbasiert; • gute visuelle Darstellung von Zusammenhängen; • sehr effiziente Propagationsalgorithmen. Nachteile: • bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 128 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze Vor- und Nachteile Bayesscher Netze Vorteile: • starke kausale Semantik, im Prinzip regelbasiert; • gute visuelle Darstellung von Zusammenhängen; • sehr effiziente Propagationsalgorithmen. Nachteile: • bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); • immer noch sind sehr viele Wahrscheinlichkeiten zu spezifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 128 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie 4.3 Fuzzy-Logik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 129 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Kapitel 4 4. Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. 4.1.4 Probabilistik und Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 130 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4.1.4 • Motivation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 131 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4.1.4 • Motivation • Entropie – ein Maß für fehlende Information G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 131 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4.1.4 • Motivation • Entropie – ein Maß für fehlende Information • Informationsfluss zwischen Variablen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 131 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4.1.4 • Motivation • Entropie – ein Maß für fehlende Information • Informationsfluss zwischen Variablen • Das MaxEnt-Prinzip (ME-Prinzip) und Implementation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 131 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Übersicht Kapitel 4.1.4 • Motivation • Entropie – ein Maß für fehlende Information • Informationsfluss zwischen Variablen • Das MaxEnt-Prinzip (ME-Prinzip) und Implementation • Probabilistische ME-Inferenz G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 131 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eine Alternative zu Bayesschen Netzen • Bayessche Netze: • Vorteile: Hohe Effizienz, starke (kausale) Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 132 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eine Alternative zu Bayesschen Netzen • Bayessche Netze: • Vorteile: Hohe Effizienz, starke (kausale) Semantik • Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 132 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eine Alternative zu Bayesschen Netzen • Bayessche Netze: • Vorteile: Hohe Effizienz, starke (kausale) Semantik • Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden • Informationstheoretische Methodik: • Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 132 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eine Alternative zu Bayesschen Netzen • Bayessche Netze: • Vorteile: Hohe Effizienz, starke (kausale) Semantik • Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden • Informationstheoretische Methodik: • Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise • Nachteile: weniger effizient, schwächere Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 132 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 1/2 G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 133 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 1/2 G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k|g) = P (k|gs) = 1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 133 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 1/2 G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k|g) = P (k|gs) = 1 aber (i.Allg.) P (k|g) < P (k|gs) nicht K G. Kern-Isberner (TU Dortmund) |= also sind Kranksein und Kopfschmerzen haben nicht etwa bedingt unabhängig, wenn Grippe gegeben ist, d.h. es gilt P DVEW S|G WiSe 2016/17 133 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 2/2 Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇) ohne dass eine Reduktion der Komplexität erfolgt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 134 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 2/2 Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen – P (s|g) = 0.9 im Grippebeispiel realistisch, G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 134 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Beispiel 2/2 Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen – P (s|g) = 0.9 im Grippebeispiel realistisch, aber wie soll man P (s|g) schätzen? ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 134 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Ein informationstheoretischer Ansatz . . . . . . liefert eine Methode, die • die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 135 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Ein informationstheoretischer Ansatz . . . . . . liefert eine Methode, die • die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und • auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 135 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Ein informationstheoretischer Ansatz . . . . . . liefert eine Methode, die • die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und • auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens • selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 135 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Ein informationstheoretischer Ansatz . . . . . . liefert eine Methode, die • die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und • auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens • selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. Grundlegende Idee: Fehlende Information wird informationstheoretisch optimal aufgefüllt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 135 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 136 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. Eine probabilistische Regel hat die Form (B|A)[x], A, B aussagenlogische Formeln, x ∈ [0, 1] mit der Bedeutung “Wenn A wahr ist, dann ist auch B wahr mit Wahrscheinlichkeit x” oder “Ein A ist zu x · 100 % ein B”. (s. Folie über Probabilistische Logik) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 136 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B|A)[x], P |= (B|A)[x] gdw. P (A) > 0 und P (B|A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 137 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B|A)[x], P |= (B|A)[x] gdw. P (A) > 0 und P (B|A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. Die Wissensbasis hat also die Form einer Regelmenge R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 137 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]} erfüllen – die durch R spezifizierte Information ist unvollständig! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 138 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]} erfüllen – die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn P (C|A) = x, P (C|B) = y; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 138 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]} erfüllen – die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn P (C|A) = x, P (C|B) = y; P kann so gewählt werden, dass (insbesondere) P (C|A ∧ B) = z (für beliebiges z ∈ [0, 1]) ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 138 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]} erfüllen – die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn P (C|A) = x, P (C|B) = y; P kann so gewählt werden, dass (insbesondere) P (C|A ∧ B) = z (für beliebiges z ∈ [0, 1]) ist. Es gibt also unendlich viele Modelle von R! ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 138 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Auswahl-Inferenz? • Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 139 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Auswahl-Inferenz? • Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! • Gibt es besonders gute Modelle? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 139 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Auswahl-Inferenz? • Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! • Gibt es besonders gute Modelle? • Philosophie: Nimm diejenige Verteilung P ∗ , die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 139 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Probabilistische Auswahl-Inferenz? • Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! • Gibt es besonders gute Modelle? • Philosophie: Nimm diejenige Verteilung P ∗ , die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. → Minimiere zusätzliche Information in P ∗ ≡ Maximiere Unbestimmtheit in P ∗ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 139 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, 1976. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 140 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, 1976. Lehrbücher über Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 140 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ G. Kern-Isberner (TU Dortmund) DVEW ↔ Information ↓ WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ ↔ Information ↓ Information(Nachricht) = Inf (P (Nachricht)) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ ↔ Information ↓ Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: • Inf : [0, 1] → R>0 ∪ {∞}; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ ↔ Information ↓ Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: • Inf : [0, 1] → R>0 ∪ {∞}; • Normierung: Inf (0.5) = 1; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ ↔ Information ↓ Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: • Inf : [0, 1] → R>0 ∪ {∞}; • Normierung: Inf (0.5) = 1; • Sind N1 und N2 zwei unabhängige Nachrichten, so gilt Inf (P (N1 ∧ N2 )) = Inf (P (N1 )) + Inf (P (N2 )), G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit ↑ ↔ Information ↓ Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: • Inf : [0, 1] → R>0 ∪ {∞}; • Normierung: Inf (0.5) = 1; • Sind N1 und N2 zwei unabhängige Nachrichten, so gilt Inf (P (N1 ∧ N2 )) = Inf (P (N1 )) + Inf (P (N2 )), d.h. Inf (x1 x2 ) = Inf (x1 ) + Inf (x2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 141 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 2/2 Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = − log2 x (log2 x = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 logb x logb 2 ) 142 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 2/2 Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = − log2 x (log2 x = logb x logb 2 ) Insbesondere gilt Inf (0) = ∞, G. Kern-Isberner (TU Dortmund) DVEW Inf (1) = 0 WiSe 2016/17 142 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information 2/2 Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = − log2 x (log2 x = logb x logb 2 ) Insbesondere gilt Inf (0) = ∞, Inf (1) = 0 Der in bit gemessene Informationsgehalt einer Nachricht gibt die (durchschnittliche) Anzahl der Ja/Nein-Antworten an, die bei einer optimalen Fragestrategie (im Grenzwert) nötig sind, um diese Nachricht zu isolieren. 1 bit entspricht dabei dem Informationsgehalt einer Ja/Nein-Antwort. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 142 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information – Beispiel In einer Urne befinden sich insgesamt 8 Kugeln: 4 1 weiße Kugeln blaue Kugel 2 1 rote Kugeln grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 143 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information – Beispiel In einer Urne befinden sich insgesamt 8 Kugeln: 4 1 weiße Kugeln blaue Kugel 2 1 rote Kugeln grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 12 ) = 1 bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 143 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Information – Beispiel In einer Urne befinden sich insgesamt 8 Kugeln: 4 1 weiße Kugeln blaue Kugel 2 1 rote Kugeln grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 12 ) = 1 bit Information(rot) = Inf ( 14 ) = 2 bit Information(blau) = Inf ( 81 ) = 3 bit Information(grün) = Inf ( 18 ) = 3 bit ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 143 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie Mittlerer Informationsgehalt einer Verteilung P : H(P ) = − P P (ω) log P (ω) ω∈Ω Entropie einer Verteilung P (misst den Grad der mittleren Unbestimmtheit von P ) Der Begriff Entropie stammt aus der Thermodynamik, wurde von Shannon später als fundamentales Maß für die Unordnung (= fehlende Struktur) in einem System gedeutet und damit als Maß für die Informativität (= Strukturiertheit) erkannt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 144 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 144 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: 1 n für ω ∈ Ω, wobei • H(P0 ) = log2 n; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: • H(P0 ) = log2 n; (“Beweis”: G. Kern-Isberner (TU Dortmund) 1 n für ω ∈ Ω, wobei 1 1 H(P0 ) = H( , . . . , ) n n DVEW WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: • H(P0 ) = log2 n; (“Beweis”: 1 n für ω ∈ Ω, wobei 1 1 H(P0 ) = H( , . . . , ) n n n X 1 1 = − log n n i=1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: • H(P0 ) = log2 n; (“Beweis”: 1 n für ω ∈ Ω, wobei 1 1 H(P0 ) = H( , . . . , ) n n n X 1 1 = − log n n i=1 = (−n) · G. Kern-Isberner (TU Dortmund) DVEW 1 (− log n) n WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: • H(P0 ) = log2 n; (“Beweis”: 1 n für ω ∈ Ω, wobei 1 1 H(P0 ) = H( , . . . , ) n n n X 1 1 = − log n n i=1 1 (− log n) n = log n ) = (−n) · G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Eigenschaften der Entropie Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) = |Ω| = n; dann gilt: • H(P0 ) = log2 n; (“Beweis”: 1 n für ω ∈ Ω, wobei 1 1 H(P0 ) = H( , . . . , ) n n n X 1 1 = − log n n i=1 1 (− log n) n = log n ) = (−n) · • Für jede beliebige Wahrscheinlichkeitsverteilung P über Ω gilt H(P ) ≤ H(P0 ), d.h. die Entropie der Gleichverteilung ist maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 145 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 1/5 Sei A eine Aussagenvariable mit den Werten {a(1) , . . . , a(n) }. Die Entropie von A wird definiert als H(A) = − Pn (i) (i) i=1 P (a ) log P (a ) H(A) ≡ mittlere Unsicherheit darüber, welchen Wert A annehmen wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 146 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 2/5 Bedingte Entropie von A bzgl. B (mit Werten {. . . , b(j) , . . .}): P P (b(j) )P (a(i) |b(j) ) log P (a(i) |b(j) ) P P = − j P (b(j) ) i P (a(i) |b(j) ) log P (a(i) |b(j) ) P (j) (j) = j P (b )H(P (A|b )) H(A|B) = − i,j ≡ erwartete Unbestimmtheit von A nach der Beobachtung von B. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 147 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße Urne 2: 6 weiße G. Kern-Isberner (TU Dortmund) 3 rote 2 rote DVEW 1 schwarze 0 schwarze Kugel(n) WiSe 2016/17 148 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße Urne 2: 6 weiße 3 rote 2 rote Variablenbeschreibung Variable A: Urne Variable B: Farbe G. Kern-Isberner (TU Dortmund) 1 schwarze 0 schwarze Kugel(n) Kugel(n) Werte 1, 2 weiss (1), rot (2), schwarz (3) DVEW WiSe 2016/17 148 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße Urne 2: 6 weiße 3 rote 2 rote Variablenbeschreibung Variable A: Urne Variable B: Farbe 1 schwarze 0 schwarze Kugel(n) Kugel(n) Werte 1, 2 weiss (1), rot (2), schwarz (3) Die Verteilung P beschreibe die Wahrscheinlichkeit des Ereignisses Ziehe Kugel der Farbe b aus Urne mit Nummer a G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 148 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 2/7 Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2: P (A = 1) = P (A = 2) = 0.5 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 149 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 2/7 Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2: P (A = 1) = P (A = 2) = 0.5 Die bedingten Verteilungen von B gegeben A sind wie folgt: 1 3 1 P (B|A = 1) = , , 2 8 8 3 1 , ,0 P (B|A = 2) = 4 4 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 149 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 3/7 Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit folgende Wahrscheinlichkeiten für die Ausprägungen von B: P (B = 1) = P (B = 1|A = 1)P (A = 1) +P (B = 1|A = 2)P (A = 2) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 150 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 3/7 Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit folgende Wahrscheinlichkeiten für die Ausprägungen von B: P (B = 1) = P (B = 1|A = 1)P (A = 1) = G. Kern-Isberner (TU Dortmund) +P (B = 1|A = 2)P (A = 2) 1 1 3 1 5 · + · = 2 2 4 2 8 DVEW WiSe 2016/17 150 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 3/7 Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit folgende Wahrscheinlichkeiten für die Ausprägungen von B: P (B = 1) = P (B = 1|A = 1)P (A = 1) = P (B = 2) = P (B = 3) = G. Kern-Isberner (TU Dortmund) +P (B = 1|A = 2)P (A = 2) 1 1 3 1 5 · + · = 2 2 4 2 8 5 16 1 16 DVEW WiSe 2016/17 150 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 4/7 Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen von A gegeben B: P (A = 1|B = 1) = P (B = 1|A = 1) · G. Kern-Isberner (TU Dortmund) DVEW P (A=1) P (B=1) = 2 5 WiSe 2016/17 151 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 4/7 Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen von A gegeben B: P (A = 1|B = 1) = P (B = 1|A = 1) · P (A=1) P (B=1) = 2 5 also P (A|B = 1) = G. Kern-Isberner (TU Dortmund) DVEW 2 3 , 5 5 WiSe 2016/17 151 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 4/7 Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen von A gegeben B: P (A = 1|B = 1) = P (B = 1|A = 1) · P (A=1) P (B=1) = 2 5 also 2 3 P (A|B = 1) = , 5 5 3 2 P (A|B = 2) = , 5 5 P (A|B = 3) = (1, 0) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 151 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 5/7 Für die Entropien von A und B ergibt sich 1 1 1 1 · log2 + · log2 H(A) = − 2 2 2 2 = −(−1) = 1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 152 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 5/7 Für die Entropien von A und B ergibt sich 1 1 1 1 · log2 + · log2 H(A) = − 2 2 2 2 = −(−1) = 1 5 5 5 5 1 1 H(B) = − log2 + log2 + log2 8 8 16 16 16 16 = 0.4238 + 0.5244 + 0.25 = 1.1982 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 152 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 6/7 Die bedingte Entropie von A bzgl. B berechnet sich zu 5 2 3 5 3 2 1 H(A|B) = ·H , + ·H , + · H(1, 0) 8 5 5 16 5 5 16 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 153 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 6/7 Die bedingte Entropie von A bzgl. B berechnet sich zu 5 2 3 5 3 2 1 H(A|B) = ·H , + ·H , + · H(1, 0) 8 5 5 16 5 5 16 15 2 3 = ·H , = 0.91 16 5 5 ≈ erwartete Unbestimmtheit von Urne nach der Beobachtung von Farbe G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 153 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 3/5 Verbundentropie von A und B = Entropie der gemeinsamen Verteilung von A und B: H(A, B) = − G. Kern-Isberner (TU Dortmund) P i,j P (a(i) b(j) ) log P (a(i) b(j) ) DVEW WiSe 2016/17 154 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 4/5 Zwischen Verbundentropie und bedingter Entropie besteht der folgende Zusammenhang: H(A, B) = H(B) + H(A|B) = H(A) + H(B|A) Information ist grundsätzlich additiv! (wobei Abhängigkeiten berücksichtigt werden müssen) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 155 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 4/5 Zwischen Verbundentropie und bedingter Entropie besteht der folgende Zusammenhang: H(A, B) = H(B) + H(A|B) = H(A) + H(B|A) Information ist grundsätzlich additiv! (wobei Abhängigkeiten berücksichtigt werden müssen) Sind A und B unabhängig, so gilt H(A, B) = H(A) + H(B) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 155 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 155 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 5/5 Maß für den Informationsfluss zwischen A und B: Inf (A k B) = H(A) − H(A|B) X = P (a(i) b(j) ) log i,j P (a(i) b(j) ) P (a(i) )P (b(j) ) gegenseitige Information (mutual information) von A und B G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 156 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 5/5 Maß für den Informationsfluss zwischen A und B: Inf (A k B) = H(A) − H(A|B) X = P (a(i) b(j) ) log i,j P (a(i) b(j) ) P (a(i) )P (b(j) ) gegenseitige Information (mutual information) von A und B • Inf (A k B) ist symmetrisch in A und B; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 156 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen 5/5 Maß für den Informationsfluss zwischen A und B: Inf (A k B) = H(A) − H(A|B) X = P (a(i) b(j) ) log i,j P (a(i) b(j) ) P (a(i) )P (b(j) ) gegenseitige Information (mutual information) von A und B • Inf (A k B) ist symmetrisch in A und B; • Wenn A und B unabhängig sind, so ist Inf (A k B) = 0 – in diesem Fall liefert keine der beiden Variablen irgendwelche Information über die andere. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 156 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Informationstheorie Entropie von Aussagevariablen – Beispiel 7/7 In dem obigen Urne-Kugeln-Beispiel beträgt die Information, die B (= Farbe) und A (= Urne) füreinander bereithalten, Inf (A k B) = H(A) − H(A|B) = 1 − 0.91 = 0.09 ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 157 / 267