Darstellung, Verarbeitung und Erwerb von Wissen - LS1

Werbung
Darstellung, Verarbeitung und Erwerb von Wissen
Gabriele Kern-Isberner
LS 1 – Information Engineering
TU Dortmund
Wintersemester 2015/16
WS 2015/16
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
1 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Kapitel 4
4. Quantitative Unsicherheit –
Wahrscheinlichkeiten & Co.
4.1.3 Gerichtete Netzwerke – Bayes-Netze
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
47 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Forward-Backward-Algorithmus 1/3
• Ausgangspunkt: Permanenter Cliquenbaum, d.h.:
Sei {C1 , . . . , Cp ; ψ} eine Potentialdarstellung der gemeinsamen
Verteilung P auf V, wobei die Cliquen-Ordnung (C1 , C2 , . . . , Cp ) die
RIP besitze.
• Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der
man direkt die Cliquenwahrscheinlichkeiten P (Ci ) und damit (leicht)
die Wahrscheinlichkeiten P (Aj ) der Variablen Aj berechnen kann.
Wegen Si ⊆ Ci gilt
P (Ci ) = P (Ci |Si )P (Si ) = P (Ri |Si )P (Si )
• Aufgabe: Bestimmung der Wahrscheinlichkeiten P (Ri |Si ) und P (Si )
für jedes i ∈ {1, . . . , p}.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
99 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Forward-Backward-Algorithmus 2/3
Grundidee zur Berechnung der Wahrscheinlichkeiten P (Ri |Si ):
Benutze Proposition 5 wiederholt in der folgenden Weise:
1
Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit
P (Rp | Sp ) = P
ψ(Cp )
Rp ψ(Cp )
in der letzten Clique Cp ; setze ψ neu (Cp ) := P (Rp | Sp ).
2
Berechne Potentialdarstellung ψ (1) auf der verkleinerten
Variablenmenge C1 ∪ . . . ∪ Cp−1 durch Modifikation von ψ gemäß
Proposition 5 (2).
3
Wiederhole Schritte 1. und 2., bis alle bedingten Wahrscheinlichkeiten
berechnet sind.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
100 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Forward-Backward-Algorithmus 3/3
Grundidee zur Berechnung der Wahrscheinlichkeiten P (Si ):
• Für die Wurzelclique C1 ist S1 = ∅ und daher P (C1 ) = ψ neu (C1 ).
• Die Wahrscheinlichkeiten P (C1 ), . . . , P (Ci−1 ) seien schon berechnet;
es ist
P (Ci ) = P (Ri | Si )P (Si ) = ψ neu (Ci )P (Si )
und es gibt j < i mit Si ⊆ Cj
→ P (Si ) kann also aus P (Cj ) durch Aufsummieren berechnet
werden:
X
P (Si ) =
P (Cj )
Cj −Si
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
101 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Modifizierte Potentialdarstellung
Proposition 6
Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine
gemeinsame Verteilung über V mit Potentialdarstellung {C1 , . . . , Cp ; ψ}.
Wir nehmen weiterhin an, dass die Ordnung (C1 , . . . , Cp ) der
fortlaufenden Schnitteigenschaft RIP genügt. Dann gilt
P (V) = P (C1 )
p
Y
i=2
P (Ri |Si )
wobei die Mengen Ri bzw. Si die zugehörigen Residuen bzw. Separatoren
sind.
D.h. {C1 , . . . , Cp ; ψ neu } mit ψ neu (Ci ) = P (Ri |Si ) ist eine
Potentialdarstellung von P .
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
102 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
clq :
clq(A) = clq(B) = clq(C) = C1
clq(D) = C2
clq(E) = C3
ψ:
ψ(A, B, C) = P (A)P (B | A)P (C | A)
ψ(B, C, D) = P (D | B, C)
ψ(C, E) = P (E | C)
Wir erhalten die Potentialdarstellung
P (A, B, C, D, E) = ψ(A, B, C)ψ(B, C, D)ψ(C, E)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
105 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel – die vollständige Potentialdarstellung 1/2
i
Ci
Ri
Si
Konjunktion ψ(Ci )
1
{A, B, C}
{A, B, C}
∅
abc
abc̄
ab̄c
ab̄c̄
ābc
ābc̄
āb̄c
āb̄c̄
G. Kern-Isberner (TU Dortmund)
DVEW
0.032
0.128
0.008
0.032
0.008
0.152
0.032
0.608
WS 2015/16
106 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel – die vollständige Potentialdarstellung 2/2
i
Ci
Ri
Si
Konjunktion ψ(Ci )
2
{B, C, D}
{D}
{B, C}
3
{C, E}
{E}
{C}
bcd
bcd¯
bc̄d
bc̄d¯
b̄cd
b̄cd¯
b̄c̄d
b̄c̄d¯
ce
cē
c̄e
c̄ē
G. Kern-Isberner (TU Dortmund)
DVEW
0.8
0.2
0.9
0.1
0.7
0.3
0.05
0.95
0.8
0.2
0.6
0.4
WS 2015/16
107 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
C1 = {A, B, C} S1 = ∅
R1 = {A, B, C}
C2 = {B, C, D} S2 = {B, C} R2 = {D}
C3 = {C, E}
S3 = {C}
R3 = {E}
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
108 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
C1 = {A, B, C} S1 = ∅
R1 = {A, B, C}
C2 = {B, C, D} S2 = {B, C} R2 = {D}
C3 = {C, E}
S3 = {C}
R3 = {E}
Schritt 1: Berechnung von P (R3 | S3 )
P (R3 | S3 ) =
ψ(C3 )
R3 ψ(C3 )
P
ψ(C, E)
P
E ψ(C, E)
P (E | C)
= P
E P (E | C)
= P (E | C) = ψ neu (C3 )
=
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
108 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 2: Verkürzung der Potentialdarstellung:
S3 ⊆ C2
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
109 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 2: Verkürzung der Potentialdarstellung:
S3 ⊆ C2 ⇒ Es ist {C1 , C2 ; ψ (1) } eine Potentialdarstellung der
Randverteilung von P auf C1 ∪ C2 , wobei
ψ(C1 ) P
wenn i = 1
(1)
ψ (Ci ) =
ψ(C2 ) R3 ψ(C3 ) wenn i = 2
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
109 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 2: Verkürzung der Potentialdarstellung:
S3 ⊆ C2 ⇒ Es ist {C1 , C2 ; ψ (1) } eine Potentialdarstellung der
Randverteilung von P auf C1 ∪ C2 , wobei
ψ(C1 ) P
wenn i = 1
(1)
ψ (Ci ) =
ψ(C2 ) R3 ψ(C3 ) wenn i = 2
also ψ (1) (C1 ) = P (A)P (B | A)P (C | A)
X
ψ(C3 )
und ψ (1) (C2 ) = ψ(C2 )
R3
X
ψ(C, E)
= ψ(B, C, D)
E
X
= P (D | B, C)
P (E | C) = P (D | B, C)
E
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
109 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 3: Berechnung von P (R2 | S2 )
P (R2 | S2 ) =
ψ (1) (C2 )
(1)
R2 ψ (C2 )
P
= ψ(B, C, D) =: ψ neu (C2 )
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
110 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 3: Berechnung von P (R2 | S2 )
P (R2 | S2 ) =
ψ (1) (C2 )
(1)
R2 ψ (C2 )
P
= ψ(B, C, D) =: ψ neu (C2 )
Schritt 4: Verkürzung der Potentialdarstellung und Berechnung der ersten
Cliquenwahrscheinlichkeit:
Schließlich ist {C1 , ψ (2) } mit ψ (2) (C1 ) = ψ(C1 ) eine Potentialdarstellung
der Randverteilung auf C1 , und es ist
ψ (2) (C1 ) = P (C1 )
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
110 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit:
Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.:
P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
111 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit:
Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.:
P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04
P (bc̄) = 0.128 + 0.152 = 0.28
P (b̄c) = 0.04
P (b̄c̄) = 0.64
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
111 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit:
Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.:
P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04
P (bc̄) = 0.128 + 0.152 = 0.28
P (b̄c) = 0.04
P (b̄c̄) = 0.64
Nun erhalten wir P (C2 ) aus P (C2 ) = ψ(C2 )P (S2 ).
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
111 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel (Forts.)
Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit:
Wegen S2 = {B, C} ⊂ C1 lässt sich auch P (S2 ) bestimmen, z.B.:
P (bc) = P (abc) + P (abc) = 0.032 + 0.008 = 0.04
P (bc̄) = 0.128 + 0.152 = 0.28
P (b̄c) = 0.04
P (b̄c̄) = 0.64
Nun erhalten wir P (C2 ) aus P (C2 ) = ψ(C2 )P (S2 ).
Schritt 6: Berechnung der dritten Cliquenwahrscheinlichkeit:
Analog gehen wir bei der Berechnung von P (C3 ) = ψ(C3 )P (S3 ) vor.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
111 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel – modifizierte Potentialdarstellung 1/2
i
Ci
Konjunktion
ψ neu (Ci ) P (Ci )
1
{A, B, C}
abc
abc̄
ab̄c
ab̄c̄
ābc
ābc̄
āb̄c
āb̄c̄
0.032
0.128
0.008
0.032
0.008
0.152
0.032
0.608
G. Kern-Isberner (TU Dortmund)
DVEW
0.032
0.128
0.008
0.032
0.008
0.152
0.032
0.608
WS 2015/16
112 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
112 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Beispiel – modifizierte Potentialdarstellung 2/2
i
Ci
Konjunktion
ψ neu (Ci ) P (Ci )
2
{B, C, D}
bcd
bcd¯
bc̄d
bc̄d¯
b̄cd
b̄cd¯
b̄c̄d
b̄c̄d¯
0.8
0.2
0.9
0.1
0.7
0.3
0.05
0.95
0.032
0.008
0.252
0.028
0.028
0.012
0.032
0.608
3
{C, E}
ce
cē
c̄e
c̄ē
0.8
0.2
0.6
0.4
0.064
0.016
0.552
0.368
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
113 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
113 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Berücksichtigung fallspezifischer Daten 1/2
Instantiierung von Knoten in Bayesschen Netzen:
Sei V Menge von Aussagenvariablen, sei U ⊆ V. U∗ enthalte zu jeder
Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der
Variablen. Dann heißt U∗ eine Instantiierung von U:
U := U∗
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
114 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Berücksichtigung fallspezifischer Daten 1/2
Instantiierung von Knoten in Bayesschen Netzen:
Sei V Menge von Aussagenvariablen, sei U ⊆ V. U∗ enthalte zu jeder
Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der
Variablen. Dann heißt U∗ eine Instantiierung von U:
U := U∗
Beispiel: Sei V = {A, B, C, D} und U = {B, D} mit der Instantiierung
U∗ = {b, d}. {B, D} = {b, d} ist dann eine abkürzende Schreibweise für
B = b, D = d.
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
114 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Berücksichtigung fallspezifischer Daten 2/2
Proposition 7
Sei V Menge von Aussagenvariablen, sei P gemeinsame Verteilung über V
mit Potentialdarstellung {W1 , . . . , Wp ; ψ}. Sei U∗ eine Instantiierung von
U ⊆ V. ψU:=U∗ (Wi ) ist das Ergebnis der Auswertung von ψ auf Wi ,
wobei die Variablen in Wi ∩ U mit ihren Werten aus U∗ instantiiert sind.
Dann ist {W1 − U, . . . , Wp − U; ψU:=U∗ } eine Potentialdarstellung der
auf V0 = V − U definierten Verteilung P̂ (V0 ) = P (V0 | U∗ ).
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
115 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel
Wir setzen das Sturm-Beispiel fort;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
116 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel
Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h.
D = d, also
U = {D}
G. Kern-Isberner (TU Dortmund)
und U∗ = {d}
DVEW
WS 2015/16
116 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel
Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h.
D = d, also
U = {D}
und U∗ = {d}
Wir wollen eine Potentialdarstellung der bedingten Verteilung
P̂ (A, B, C, E) := P (A, B, C, E | d)
bestimmen:
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
116 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel
Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h.
D = d, also
U = {D}
und U∗ = {d}
Wir wollen eine Potentialdarstellung der bedingten Verteilung
P̂ (A, B, C, E) := P (A, B, C, E | d)
bestimmen:
Cliquen:
Ĉ1
Ĉ2
Ĉ3
G. Kern-Isberner (TU Dortmund)
=
=
=
C1 − {D} = {A, B, C}(= C1 )
C2 − {D} = {B, C}
C3 − {D} = {C, E}(= C2 )
DVEW
WS 2015/16
116 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Potentialfunktionen:
ψ̂ = ψD:=d : ψ̂(Ĉ1 ) = ψ(C1 )
ψ̂(Ĉ2 ) = ψ̂(B, C) = ψ(B, C, d)
ψ̂(Ĉ3 ) = ψ(C3 )
also z.B. ψ̂(bc) = ψ(bcd).
Separatoren und Residuen:
Ŝ1 = S1 − {D} = ∅
Ŝ2 = S2 − {D} = {B, C}
Ŝ3 = S3 − {D} = {C}
G. Kern-Isberner (TU Dortmund)
R̂1 = R1 − {D} = {A, B, C}
R̂2 = R2 − {D} = ∅
R̂3 = R3 − {D} = {E}
DVEW
WS 2015/16
117 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch
Anwendung der passenden Propositionen:
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
118 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch
Anwendung der passenden Propositionen:
P̂ (R̂3 | Ŝ3 ) =
=
P
ψ̂(Ĉ3 )
R̂3
ψ̂(Ĉ3 )
ψ(C3 )
R3 ψ(C3 )
P
= P (R3 | S3 )
= ψ(C3 )
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
118 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Wir berechnen nun die Wahrscheinlichkeiten P̂ (R̂i | Ŝi ) wieder durch
Anwendung der passenden Propositionen:
P̂ (R̂3 | Ŝ3 ) =
=
P
ψ̂(Ĉ3 )
R̂3
ψ̂(Ĉ3 )
ψ(C3 )
R3 ψ(C3 )
P
= P (R3 | S3 )
= ψ(C3 )
und daher
ψ̂ neu (Ĉ3 ) = P̂ (R̂3 | Ŝ3 ) = ψ(C3 )
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
118 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit
ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ),
X
ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 )
ψ̂(Ĉ3 ) = ψ̂(Ĉ2 )
R̂3
eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
119 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit
ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ),
X
ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 )
ψ̂(Ĉ3 ) = ψ̂(Ĉ2 )
R̂3
eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}. Daher ist
wegen R̂2 = ∅;
P̂ (R̂2 | Ŝ2 ) = P
G. Kern-Isberner (TU Dortmund)
ψ̂ (1) (Ĉ2 )
R̂2
DVEW
ψ̂ (1) (Ĉ2 )
=1
WS 2015/16
119 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Dann ist {Ĉ1 , Ĉ2 ; ψ̂ (1) } mit
ψ̂ (1) (Ĉ1 ) = ψ̂(Ĉ1 ),
X
ψ̂ (1) (Ĉ2 ) = ψ̂(Ĉ2 )
ψ̂(Ĉ3 ) = ψ̂(Ĉ2 )
R̂3
eine Potentialdarstellung von P̂ auf Ĉ1 ∪ Ĉ2 = {A, B, C}. Daher ist
P̂ (R̂2 | Ŝ2 ) = P
ψ̂ (1) (Ĉ2 )
R̂2
ψ̂ (1) (Ĉ2 )
=1
wegen R̂2 = ∅; setze also ψ̂ neu (Ĉ2 ) = 1.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
119 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Wir erhalten eine Potentialdarstellung von P̂ auf Ĉ1 = {A, B, C} mittels
{Ĉ1 ; ψ̂ (2) } mit
X
ψ̂ (2) (Ĉ1 ) = ψ̂ (1) (Ĉ1 )
ψ̂ (1) (Ĉ2 ) = ψ̂ (1) (Ĉ1 )ψ̂ (1) (Ĉ2 ),
R̂2
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
120 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Wir erhalten eine Potentialdarstellung von P̂ auf Ĉ1 = {A, B, C} mittels
{Ĉ1 ; ψ̂ (2) } mit
X
ψ̂ (2) (Ĉ1 ) = ψ̂ (1) (Ĉ1 )
ψ̂ (1) (Ĉ2 ) = ψ̂ (1) (Ĉ1 )ψ̂ (1) (Ĉ2 ),
R̂2
also z.B.
ψ̂ (2) (abc) = ψ̂ (1) (abc)ψ̂ (1) (bc)
= 0.032 · 0.8
= 0.0256
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
120 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Zunächst muss P̂ (Ĉ1 ) aus ψ̂ (2) berechnet werden. Mit Proposition 5 ist
P̂ (Ĉ1 ) = P̂ (R̂1 | Ŝ1 ) = P
ψ̂ (2) (Ĉ1 )
R̂1
ψ̂ (2) (Ĉ1 )
Durch Aufsummieren ergibt sich
X
ψ̂ (2) (Ĉ1 ) = 0.344
R̂1
also z.B.
P̂ (abc) =
G. Kern-Isberner (TU Dortmund)
ψ̂ (2) (abc)
0.0256
=
≈ 0.074
0.344
0.344
DVEW
WS 2015/16
121 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Für Ĉ2 ist
P̂ (Ĉ2 ) = ψ̂ neu (Ĉ2 )P̂ (Ŝ2 )
bzw. P̂ (B, C) = ψ̂ neu (B, C)P̂ (B, C)
und P̂ (B, C) kann aus P̂ (Ĉ1 ) berechnet werden. Es ist z.B.
P̂ (bc) = 0.074 + 0.019 = 0.093
Schließlich ist
P̂ (Ĉ3 ) = ψ̂ neu (Ĉ3 )P̂ (Ŝ3 )
also z.B.
P̂ (ce) = ψ̂ neu (ce)P̂ (c) = 0.8 · (0.093 + 0.081) ≈ 0.139
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
122 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
i
Ĉi
Konjunktion
ψ̂ neu (Ĉi ) P̂ (Ĉi )
1
{A, B, C}
abc
abc̄
ab̄c
ab̄c̄
ābc
ābc̄
āb̄c
āb̄c̄
0.074
0.335
0.016
0.005
0.019
0.398
0.065
0.088
G. Kern-Isberner (TU Dortmund)
DVEW
0.074
0.335
0.016
0.005
0.019
0.398
0.065
0.088
WS 2015/16
123 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
123 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Instantiierung – Beispiel (Forts.)
Konjunktion
ψ̂ neu (Ĉi ) P̂ (Ĉi )
i
Ĉi
2
{B, C} bc
bc̄
b̄c
b̄c̄
1.0
1.0
1.0
1.0
0.093
0.733
0.081
0.093
3
{C, E}
0.8
0.2
0.6
0.4
0.139
0.035
0.496
0.330
G. Kern-Isberner (TU Dortmund)
ce
cē
c̄e
c̄ē
DVEW
WS 2015/16
124 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
124 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 1/2
• HUGIN ist eine System-Shell für Bayessche Netze mit Editor und
Verarbeitung.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
125 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 1/2
• HUGIN ist eine System-Shell für Bayessche Netze mit Editor und
Verarbeitung.
• BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei
Jersey- Vieh eingesetzt wird.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
125 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 1/2
• HUGIN ist eine System-Shell für Bayessche Netze mit Editor und
Verarbeitung.
• BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei
Jersey- Vieh eingesetzt wird.
• VISTA ist ein System, das von der NASA beim Start von Raumfähren
zur Steuerung des Antriebssystems eingesetzt wird.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
125 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 1/2
• HUGIN ist eine System-Shell für Bayessche Netze mit Editor und
Verarbeitung.
• BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei
Jersey- Vieh eingesetzt wird.
• VISTA ist ein System, das von der NASA beim Start von Raumfähren
zur Steuerung des Antriebssystems eingesetzt wird.
• CHILD hilft bei der Diagnose angeborener Herzfehler (s. DVEW).
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
125 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 1/2
• HUGIN ist eine System-Shell für Bayessche Netze mit Editor und
Verarbeitung.
• BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei
Jersey- Vieh eingesetzt wird.
• VISTA ist ein System, das von der NASA beim Start von Raumfähren
zur Steuerung des Antriebssystems eingesetzt wird.
• CHILD hilft bei der Diagnose angeborener Herzfehler (s. DVEW).
• MUNIN wird zur Diagnose neuromuskulärer Erkrankungen eingesetzt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
125 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 2/2
• SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von
Diabetes-Patienten.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
126 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 2/2
• SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von
Diabetes-Patienten.
• Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur
Behebung von Druckerproblemen ein.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
126 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 2/2
• SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von
Diabetes-Patienten.
• Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur
Behebung von Druckerproblemen ein.
• FRAIL interpretiert literarische Prosa.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
126 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 2/2
• SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von
Diabetes-Patienten.
• Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur
Behebung von Druckerproblemen ein.
• FRAIL interpretiert literarische Prosa.
• Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen
Colorado.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
126 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Anwendungen Bayesscher Netze 2/2
• SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von
Diabetes-Patienten.
• Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur
Behebung von Druckerproblemen ein.
• FRAIL interpretiert literarische Prosa.
• Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen
Colorado.
• Im e-Commerce können Bayessche Netze zur Erstellung individueller
Kundenprofile im Online-Betrieb benutzt werden.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
126 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Der nordische Gott Odin auf seinem Thron, flankiert von seinen Wölfen Geri and
Freki und seinen Raben Huginn and Muninn, seinen Speer Gungnir in der Hand2
2
Quelle: Wikipedia
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
127 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Vor- und Nachteile Bayesscher Netze
Vorteile:
• starke kausale Semantik, im Prinzip regelbasiert;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
128 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Vor- und Nachteile Bayesscher Netze
Vorteile:
• starke kausale Semantik, im Prinzip regelbasiert;
• gute visuelle Darstellung von Zusammenhängen;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
128 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Vor- und Nachteile Bayesscher Netze
Vorteile:
• starke kausale Semantik, im Prinzip regelbasiert;
• gute visuelle Darstellung von Zusammenhängen;
• sehr effiziente Propagationsalgorithmen.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
128 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Vor- und Nachteile Bayesscher Netze
Vorteile:
• starke kausale Semantik, im Prinzip regelbasiert;
• gute visuelle Darstellung von Zusammenhängen;
• sehr effiziente Propagationsalgorithmen.
Nachteile:
• bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden
(großer statistischer Aufwand!);
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
128 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Bayes-Netze
Vor- und Nachteile Bayesscher Netze
Vorteile:
• starke kausale Semantik, im Prinzip regelbasiert;
• gute visuelle Darstellung von Zusammenhängen;
• sehr effiziente Propagationsalgorithmen.
Nachteile:
• bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden
(großer statistischer Aufwand!);
• immer noch sind sehr viele Wahrscheinlichkeiten zu spezifizieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
128 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4
4.1 Wahrscheinlichkeiten und probabilistische Netzwerke
4.1.1
4.1.2
4.1.3
4.1.4
Grundlagen
Ungerichtete Netzwerke – Markov-Graphen
Gerichtete Netzwerke – Bayes-Netze
Probabilistik und Informationstheorie
4.2 Dempster-Shafer/Evidenz-Theorie
4.3 Fuzzy-Logik
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
129 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Kapitel 4
4. Quantitative Unsicherheit –
Wahrscheinlichkeiten & Co.
4.1.4 Probabilistik und
Informationstheorie
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
130 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4.1.4
• Motivation
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
131 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4.1.4
• Motivation
• Entropie – ein Maß für fehlende Information
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
131 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4.1.4
• Motivation
• Entropie – ein Maß für fehlende Information
• Informationsfluss zwischen Variablen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
131 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4.1.4
• Motivation
• Entropie – ein Maß für fehlende Information
• Informationsfluss zwischen Variablen
• Das MaxEnt-Prinzip (ME-Prinzip) und Implementation
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
131 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Übersicht Kapitel 4.1.4
• Motivation
• Entropie – ein Maß für fehlende Information
• Informationsfluss zwischen Variablen
• Das MaxEnt-Prinzip (ME-Prinzip) und Implementation
• Probabilistische ME-Inferenz
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
131 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eine Alternative zu Bayesschen Netzen
• Bayessche Netze:
• Vorteile: Hohe Effizienz, starke (kausale) Semantik
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
132 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eine Alternative zu Bayesschen Netzen
• Bayessche Netze:
• Vorteile: Hohe Effizienz, starke (kausale) Semantik
• Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss
vollständig spezifiziert werden
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
132 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eine Alternative zu Bayesschen Netzen
• Bayessche Netze:
• Vorteile: Hohe Effizienz, starke (kausale) Semantik
• Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss
vollständig spezifiziert werden
• Informationstheoretische Methodik:
• Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen,
vervollständigt Wissen selbständig in informationstheoretisch-optimaler
Weise
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
132 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eine Alternative zu Bayesschen Netzen
• Bayessche Netze:
• Vorteile: Hohe Effizienz, starke (kausale) Semantik
• Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss
vollständig spezifiziert werden
• Informationstheoretische Methodik:
• Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen,
vervollständigt Wissen selbständig in informationstheoretisch-optimaler
Weise
• Nachteile: weniger effizient, schwächere Semantik
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
132 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 1/2
G : Grippe; S : Kopfschmerzen; K : Krank
Bedingte Unabhängigkeiten?
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
133 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 1/2
G : Grippe; S : Kopfschmerzen; K : Krank
Bedingte Unabhängigkeiten?
P (k|g) = P (k|gs) = 1
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
133 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 1/2
G : Grippe; S : Kopfschmerzen; K : Krank
Bedingte Unabhängigkeiten?
P (k|g) = P (k|gs) = 1
aber (i.Allg.) P (k|g) < P (k|gs)
nicht K
G. Kern-Isberner (TU Dortmund)
|=
also sind Kranksein und Kopfschmerzen haben nicht etwa bedingt
unabhängig, wenn Grippe gegeben ist, d.h. es gilt
P
DVEW
S|G
WS 2015/16
133 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 2/2
Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem
vollständigen Graphen, und die Produktdarstellung von P entspricht der
Kettenregel
P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇)
ohne dass eine Reduktion der Komplexität erfolgt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
134 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 2/2
Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem
vollständigen Graphen, und die Produktdarstellung von P entspricht der
Kettenregel
P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇)
ohne dass eine Reduktion der Komplexität erfolgt.
Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer
leicht schätzen – P (s|g) = 0.9 im Grippebeispiel realistisch,
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
134 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Beispiel 2/2
Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem
vollständigen Graphen, und die Produktdarstellung von P entspricht der
Kettenregel
P (ġ k̇ ṡ) = P (ġ)P (k̇|ġ)P (ṡ|ġ k̇)
ohne dass eine Reduktion der Komplexität erfolgt.
Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer
leicht schätzen – P (s|g) = 0.9 im Grippebeispiel realistisch, aber wie soll
man P (s|g) schätzen?
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
134 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Ein informationstheoretischer Ansatz . . .
. . . liefert eine Methode, die
• die Modellierung allgemeiner Abhängigkeiten (nicht notwendig
kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den
Vordergrund stellt
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
135 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Ein informationstheoretischer Ansatz . . .
. . . liefert eine Methode, die
• die Modellierung allgemeiner Abhängigkeiten (nicht notwendig
kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den
Vordergrund stellt und
• auf der Basis des verfügbaren (auch unvollständigen!)
probabilistischen Wissens
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
135 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Ein informationstheoretischer Ansatz . . .
. . . liefert eine Methode, die
• die Modellierung allgemeiner Abhängigkeiten (nicht notwendig
kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den
Vordergrund stellt und
• auf der Basis des verfügbaren (auch unvollständigen!)
probabilistischen Wissens
• selbständig ein probabilistisches Netz zu Inferenz- und
Propagationszwecken aufbaut.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
135 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Ein informationstheoretischer Ansatz . . .
. . . liefert eine Methode, die
• die Modellierung allgemeiner Abhängigkeiten (nicht notwendig
kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den
Vordergrund stellt und
• auf der Basis des verfügbaren (auch unvollständigen!)
probabilistischen Wissens
• selbständig ein probabilistisches Netz zu Inferenz- und
Propagationszwecken aufbaut.
Grundlegende Idee:
Fehlende Information wird informationstheoretisch optimal aufgefüllt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
135 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Regelbasen 1/2
Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit
denen der Experte wichtige Zusammenhänge des zu behandelnden
Problembereichs beschreibt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
136 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Regelbasen 1/2
Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit
denen der Experte wichtige Zusammenhänge des zu behandelnden
Problembereichs beschreibt.
Eine probabilistische Regel hat die Form
(B|A)[x],
A, B aussagenlogische Formeln, x ∈ [0, 1]
mit der Bedeutung “Wenn A wahr ist, dann ist auch B wahr mit
Wahrscheinlichkeit x” oder “Ein A ist zu x · 100 % ein B”.
(s. Folie über Probabilistische Logik)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
136 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Regelbasen 2/2
Eine Verteilung P erfüllt eine probabilistische Regel (B|A)[x],
P |= (B|A)[x] gdw. P (A) > 0 und P (B|A) = x
d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten
interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle
probabilistischer Regeln.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
137 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Regelbasen 2/2
Eine Verteilung P erfüllt eine probabilistische Regel (B|A)[x],
P |= (B|A)[x] gdw. P (A) > 0 und P (B|A) = x
d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten
interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle
probabilistischer Regeln.
Die Wissensbasis hat also die Form einer Regelmenge
R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]}
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
137 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Klassische probabilistische Semantik
Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen
geben, die eine probabilistische Wissensbasis
R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]}
erfüllen – die durch R spezifizierte Information ist unvollständig!
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
138 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Klassische probabilistische Semantik
Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen
geben, die eine probabilistische Wissensbasis
R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]}
erfüllen – die durch R spezifizierte Information ist unvollständig!
Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn
P (C|A) = x, P (C|B) = y;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
138 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Klassische probabilistische Semantik
Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen
geben, die eine probabilistische Wissensbasis
R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]}
erfüllen – die durch R spezifizierte Information ist unvollständig!
Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn
P (C|A) = x, P (C|B) = y; P kann so gewählt werden, dass
(insbesondere) P (C|A ∧ B) = z (für beliebiges z ∈ [0, 1]) ist.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
138 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Klassische probabilistische Semantik
Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen
geben, die eine probabilistische Wissensbasis
R = {(B1 |A1 )[x1 ], . . . , (Bn |An )[xn ]}
erfüllen – die durch R spezifizierte Information ist unvollständig!
Beispiel: P ist Modell von R = {(C|A)[x], (C|B)[y]}, wenn
P (C|A) = x, P (C|B) = y; P kann so gewählt werden, dass
(insbesondere) P (C|A ∧ B) = z (für beliebiges z ∈ [0, 1]) ist. Es gibt also
unendlich viele Modelle von R!
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
138 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Auswahl-Inferenz?
• Probabilistisches Schließen auf der Basis aller Modelle (i.e.
Verteilungen) ist daher meistens viel zu schwach!
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
139 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Auswahl-Inferenz?
• Probabilistisches Schließen auf der Basis aller Modelle (i.e.
Verteilungen) ist daher meistens viel zu schwach!
• Gibt es besonders gute Modelle?
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
139 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Auswahl-Inferenz?
• Probabilistisches Schließen auf der Basis aller Modelle (i.e.
Verteilungen) ist daher meistens viel zu schwach!
• Gibt es besonders gute Modelle?
• Philosophie: Nimm diejenige Verteilung P ∗ , die nur das Wissen in R
und seine probabilistischen Konsequenzen darstellt und sonst keine
Information hinzufügt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
139 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Probabilistische Auswahl-Inferenz?
• Probabilistisches Schließen auf der Basis aller Modelle (i.e.
Verteilungen) ist daher meistens viel zu schwach!
• Gibt es besonders gute Modelle?
• Philosophie: Nimm diejenige Verteilung P ∗ , die nur das Wissen in R
und seine probabilistischen Konsequenzen darstellt und sonst keine
Information hinzufügt.
→
Minimiere zusätzliche Information in P ∗
≡
Maximiere Unbestimmtheit in P ∗
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
139 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Literatur Informationstheorie
C.E. Shannon and W. Weaver.
Mathematische Grundlagen der Informationstheorie.
Oldenbourg, München, Wien, 1976.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
140 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Literatur Informationstheorie
C.E. Shannon and W. Weaver.
Mathematische Grundlagen der Informationstheorie.
Oldenbourg, München, Wien, 1976.
Lehrbücher über Informationstheorie
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
140 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
G. Kern-Isberner (TU Dortmund)
DVEW
↔
Information ↓
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
↔
Information ↓
Information(Nachricht) = Inf (P (Nachricht))
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
↔
Information ↓
Information(Nachricht) = Inf (P (Nachricht))
Die Funktion Inf soll folgende Eigenschaften erfüllen:
• Inf : [0, 1] → R>0 ∪ {∞};
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
↔
Information ↓
Information(Nachricht) = Inf (P (Nachricht))
Die Funktion Inf soll folgende Eigenschaften erfüllen:
• Inf : [0, 1] → R>0 ∪ {∞};
• Normierung: Inf (0.5) = 1;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
↔
Information ↓
Information(Nachricht) = Inf (P (Nachricht))
Die Funktion Inf soll folgende Eigenschaften erfüllen:
• Inf : [0, 1] → R>0 ∪ {∞};
• Normierung: Inf (0.5) = 1;
• Sind N1 und N2 zwei unabhängige Nachrichten, so gilt
Inf (P (N1 ∧ N2 )) = Inf (P (N1 )) + Inf (P (N2 )),
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 1/2
Je wahrscheinlicher eine Nachricht ist, desto weniger
informativ ist sie.
Wahrscheinlichkeit ↑
↔
Information ↓
Information(Nachricht) = Inf (P (Nachricht))
Die Funktion Inf soll folgende Eigenschaften erfüllen:
• Inf : [0, 1] → R>0 ∪ {∞};
• Normierung: Inf (0.5) = 1;
• Sind N1 und N2 zwei unabhängige Nachrichten, so gilt
Inf (P (N1 ∧ N2 )) = Inf (P (N1 )) + Inf (P (N2 )),
d.h. Inf (x1 x2 ) = Inf (x1 ) + Inf (x2 )
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
141 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 2/2
Diese Eigenschaften charakterisieren die Informationsfunktion Inf
eindeutig:
Inf (x) = − log2 x
(log2 x =
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
logb x
logb 2 )
142 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 2/2
Diese Eigenschaften charakterisieren die Informationsfunktion Inf
eindeutig:
Inf (x) = − log2 x
(log2 x =
logb x
logb 2 )
Insbesondere gilt
Inf (0) = ∞,
G. Kern-Isberner (TU Dortmund)
DVEW
Inf (1) = 0
WS 2015/16
142 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information 2/2
Diese Eigenschaften charakterisieren die Informationsfunktion Inf
eindeutig:
Inf (x) = − log2 x
(log2 x =
logb x
logb 2 )
Insbesondere gilt
Inf (0) = ∞,
Inf (1) = 0
Der in bit gemessene Informationsgehalt einer Nachricht gibt die
(durchschnittliche) Anzahl der Ja/Nein-Antworten an, die bei einer
optimalen Fragestrategie (im Grenzwert) nötig sind, um diese Nachricht zu
isolieren. 1 bit entspricht dabei dem Informationsgehalt einer
Ja/Nein-Antwort.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
142 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information – Beispiel
In einer Urne befinden sich insgesamt 8 Kugeln:
4
1
weiße Kugeln
blaue Kugel
2
1
rote Kugeln
grüne Kugel
In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
143 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information – Beispiel
In einer Urne befinden sich insgesamt 8 Kugeln:
4
1
weiße Kugeln
blaue Kugel
2
1
rote Kugeln
grüne Kugel
In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem
Ausgang eines Zuges verbundene Information lässt sich berechnen als
Information(weiss) = Inf ( 12 ) = 1 bit
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
143 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Information – Beispiel
In einer Urne befinden sich insgesamt 8 Kugeln:
4
1
weiße Kugeln
blaue Kugel
2
1
rote Kugeln
grüne Kugel
In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem
Ausgang eines Zuges verbundene Information lässt sich berechnen als
Information(weiss) = Inf ( 12 ) = 1 bit
Information(rot)
= Inf ( 14 ) = 2 bit
Information(blau)
= Inf ( 81 ) = 3 bit
Information(grün) = Inf ( 18 ) = 3 bit
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
143 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie
Mittlerer Informationsgehalt einer Verteilung P :
H(P ) = −
P
P (ω) log P (ω)
ω∈Ω
Entropie einer Verteilung P
(misst den Grad der mittleren Unbestimmtheit von P )
Der Begriff Entropie stammt aus der Thermodynamik, wurde von Shannon
später als fundamentales Maß für die Unordnung (= fehlende Struktur) in
einem System gedeutet und damit als Maß für die Informativität (=
Strukturiertheit) erkannt.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
144 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
144 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
1
n
für ω ∈ Ω, wobei
• H(P0 ) = log2 n;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
• H(P0 ) = log2 n;
(“Beweis”:
G. Kern-Isberner (TU Dortmund)
1
n
für ω ∈ Ω, wobei
1
1
H(P0 ) = H( , . . . , )
n
n
DVEW
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
• H(P0 ) = log2 n;
(“Beweis”:
1
n
für ω ∈ Ω, wobei
1
1
H(P0 ) = H( , . . . , )
n
n
n
X
1
1
= −
log
n
n
i=1
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
• H(P0 ) = log2 n;
(“Beweis”:
1
n
für ω ∈ Ω, wobei
1
1
H(P0 ) = H( , . . . , )
n
n
n
X
1
1
= −
log
n
n
i=1
= (−n) ·
G. Kern-Isberner (TU Dortmund)
DVEW
1
(− log n)
n
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
• H(P0 ) = log2 n;
(“Beweis”:
1
n
für ω ∈ Ω, wobei
1
1
H(P0 ) = H( , . . . , )
n
n
n
X
1
1
= −
log
n
n
i=1
1
(− log n)
n
= log n )
= (−n) ·
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Eigenschaften der Entropie
Sei P0 die Gleichverteilung über Ω, d. h. P0 (ω) =
|Ω| = n; dann gilt:
• H(P0 ) = log2 n;
(“Beweis”:
1
n
für ω ∈ Ω, wobei
1
1
H(P0 ) = H( , . . . , )
n
n
n
X
1
1
= −
log
n
n
i=1
1
(− log n)
n
= log n )
= (−n) ·
• Für jede beliebige Wahrscheinlichkeitsverteilung P über Ω gilt
H(P ) ≤ H(P0 ),
d.h. die Entropie der Gleichverteilung ist maximal.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
145 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 1/5
Sei A eine Aussagenvariable mit den Werten {a(1) , . . . , a(n) }. Die Entropie
von A wird definiert als
H(A) = −
Pn
(i)
(i)
i=1 P (a ) log P (a )
H(A) ≡ mittlere Unsicherheit darüber, welchen Wert A annehmen wird.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
146 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 2/5
Bedingte Entropie von A bzgl. B (mit Werten {. . . , b(j) , . . .}):
P
P (b(j) )P (a(i) |b(j) ) log P (a(i) |b(j) )
P
P
= − j P (b(j) ) i P (a(i) |b(j) ) log P (a(i) |b(j) )
P
(j)
(j)
=
j P (b )H(P (A|b ))
H(A|B) = −
i,j
≡ erwartete Unbestimmtheit von A nach der Beobachtung von B.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
147 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 1/7
Zwei Urnen enthalten Kugeln:
Urne 1: 4 weiße
Urne 2: 6 weiße
G. Kern-Isberner (TU Dortmund)
3 rote
2 rote
DVEW
1 schwarze
0 schwarze
Kugel(n)
WS 2015/16
148 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 1/7
Zwei Urnen enthalten Kugeln:
Urne 1: 4 weiße
Urne 2: 6 weiße
3 rote
2 rote
Variablenbeschreibung
Variable A: Urne
Variable B: Farbe
G. Kern-Isberner (TU Dortmund)
1 schwarze
0 schwarze
Kugel(n)
Kugel(n)
Werte
1, 2
weiss (1), rot (2), schwarz (3)
DVEW
WS 2015/16
148 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 1/7
Zwei Urnen enthalten Kugeln:
Urne 1: 4 weiße
Urne 2: 6 weiße
3 rote
2 rote
Variablenbeschreibung
Variable A: Urne
Variable B: Farbe
1 schwarze
0 schwarze
Kugel(n)
Kugel(n)
Werte
1, 2
weiss (1), rot (2), schwarz (3)
Die Verteilung P beschreibe die Wahrscheinlichkeit des Ereignisses
Ziehe Kugel der Farbe b aus Urne mit Nummer a
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
148 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 2/7
Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2:
P (A = 1) = P (A = 2) = 0.5
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
149 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 2/7
Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2:
P (A = 1) = P (A = 2) = 0.5
Die bedingten Verteilungen von B gegeben A sind wie folgt:
1 3 1
P (B|A = 1) =
, ,
2 8 8
3 1
, ,0
P (B|A = 2) =
4 4
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
149 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 3/7
Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit
folgende Wahrscheinlichkeiten für die Ausprägungen von B:
P (B = 1) = P (B = 1|A = 1)P (A = 1)
+P (B = 1|A = 2)P (A = 2)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
150 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 3/7
Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit
folgende Wahrscheinlichkeiten für die Ausprägungen von B:
P (B = 1) = P (B = 1|A = 1)P (A = 1)
=
G. Kern-Isberner (TU Dortmund)
+P (B = 1|A = 2)P (A = 2)
1 1 3 1
5
· + · =
2 2 4 2
8
DVEW
WS 2015/16
150 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 3/7
Mit der Formel von der totalen Wahrscheinlichkeit ergeben sich damit
folgende Wahrscheinlichkeiten für die Ausprägungen von B:
P (B = 1) = P (B = 1|A = 1)P (A = 1)
=
P (B = 2) =
P (B = 3) =
G. Kern-Isberner (TU Dortmund)
+P (B = 1|A = 2)P (A = 2)
1 1 3 1
5
· + · =
2 2 4 2
8
5
16
1
16
DVEW
WS 2015/16
150 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 4/7
Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen
von A gegeben B:
P (A = 1|B = 1) = P (B = 1|A = 1) ·
G. Kern-Isberner (TU Dortmund)
DVEW
P (A=1)
P (B=1)
=
2
5
WS 2015/16
151 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 4/7
Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen
von A gegeben B:
P (A = 1|B = 1) = P (B = 1|A = 1) ·
P (A=1)
P (B=1)
=
2
5
also
P (A|B = 1) =
G. Kern-Isberner (TU Dortmund)
DVEW
2 3
,
5 5
WS 2015/16
151 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 4/7
Mit dem Satz von Bayes erhält man dann für die bedingten Verteilungen
von A gegeben B:
P (A = 1|B = 1) = P (B = 1|A = 1) ·
P (A=1)
P (B=1)
=
2
5
also
2 3
P (A|B = 1) =
,
5 5
3 2
P (A|B = 2) =
,
5 5
P (A|B = 3) = (1, 0)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
151 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 5/7
Für die Entropien von A und B ergibt sich
1
1 1
1
H(A) = −
· log2 + · log2
2
2 2
2
= −(−1) = 1
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
152 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 5/7
Für die Entropien von A und B ergibt sich
1
1 1
1
H(A) = −
· log2 + · log2
2
2 2
2
= −(−1) = 1
5
5
5
5
1
1
H(B) = −
log2 +
log2
+
log2
8
8 16
16 16
16
= 0.4238 + 0.5244 + 0.25
= 1.1982
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
152 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 6/7
Die bedingte Entropie von A bzgl. B berechnet sich zu
5
2 3
5
3 2
1
H(A|B) =
·H
,
+
·H
,
+
· H(1, 0)
8
5 5
16
5 5
16
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
153 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 6/7
Die bedingte Entropie von A bzgl. B berechnet sich zu
5
2 3
5
3 2
1
H(A|B) =
·H
,
+
·H
,
+
· H(1, 0)
8
5 5
16
5 5
16
15
2 3
=
·H
,
= 0.91
16
5 5
≈ erwartete Unbestimmtheit von Urne nach der Beobachtung von Farbe
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
153 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 3/5
Verbundentropie von A und B
= Entropie der gemeinsamen Verteilung von A und B:
H(A, B) = −
G. Kern-Isberner (TU Dortmund)
P
i,j
P (a(i) b(j) ) log P (a(i) b(j) )
DVEW
WS 2015/16
154 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 4/5
Zwischen Verbundentropie und bedingter Entropie besteht der folgende
Zusammenhang:
H(A, B) = H(B) + H(A|B) = H(A) + H(B|A)
Information ist grundsätzlich additiv!
(wobei Abhängigkeiten berücksichtigt werden müssen)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
155 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 4/5
Zwischen Verbundentropie und bedingter Entropie besteht der folgende
Zusammenhang:
H(A, B) = H(B) + H(A|B) = H(A) + H(B|A)
Information ist grundsätzlich additiv!
(wobei Abhängigkeiten berücksichtigt werden müssen)
Sind A und B unabhängig, so gilt
H(A, B) = H(A) + H(B)
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
155 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
155 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 5/5
Maß für den Informationsfluss zwischen A und B:
Inf (A k B) = H(A) − H(A|B)
X
=
P (a(i) b(j) ) log
i,j
P (a(i) b(j) )
P (a(i) )P (b(j) )
gegenseitige Information (mutual information) von A und B
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
156 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 5/5
Maß für den Informationsfluss zwischen A und B:
Inf (A k B) = H(A) − H(A|B)
X
=
P (a(i) b(j) ) log
i,j
P (a(i) b(j) )
P (a(i) )P (b(j) )
gegenseitige Information (mutual information) von A und B
• Inf (A k B) ist symmetrisch in A und B;
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
156 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen 5/5
Maß für den Informationsfluss zwischen A und B:
Inf (A k B) = H(A) − H(A|B)
X
=
P (a(i) b(j) ) log
i,j
P (a(i) b(j) )
P (a(i) )P (b(j) )
gegenseitige Information (mutual information) von A und B
• Inf (A k B) ist symmetrisch in A und B;
• Wenn A und B unabhängig sind, so ist Inf (A k B) = 0 – in diesem
Fall liefert keine der beiden Variablen irgendwelche Information über
die andere.
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
156 / 267
Quantitative Unsicherheit
Wahrscheinlichk. und prob. Netzwerke – Informationstheorie
Entropie von Aussagevariablen – Beispiel 7/7
In dem obigen Urne-Kugeln-Beispiel beträgt die Information, die B (=
Farbe) und A (= Urne) füreinander bereithalten,
Inf (A k B) = H(A) − H(A|B) = 1 − 0.91 = 0.09
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WS 2015/16
157 / 267
Herunterladen