Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 – Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Übersicht Kapitel 3 3.1 Default-Logiken nach Reiter und Poole 3.2 Inferenzrelationen für Default-Logiken 3.3 Answer Set Programming (Antwortmengenprogrammierung) 3.4 Basiseigenschaften nichtklassischer Inferenzsysteme G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 182 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kapitel 3 3. Qualitative Unsicherheit – Default-Logiken 3.4 Basiseigenschaften nichtklassischer Inferenzsysteme G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 183 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. Gemeinsame Techniken: G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. Gemeinsame Techniken: • Verwendung von negation as failure (bei Reiter’scher Default-Logik: mittels Syntax; bei ASP: mittels not-Operator); G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. Gemeinsame Techniken: • Verwendung von negation as failure (bei Reiter’scher Default-Logik: mittels Syntax; bei ASP: mittels not-Operator); • Filtern von Lösungen/Modellen mittels constraints (Poole’sche Default-Logik und ASP); G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. Gemeinsame Techniken: • Verwendung von negation as failure (bei Reiter’scher Default-Logik: mittels Syntax; bei ASP: mittels not-Operator); • Filtern von Lösungen/Modellen mittels constraints (Poole’sche Default-Logik und ASP); • Fixpunktkonstruktionen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 184 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; • Maxikonsistenz fordert weitestgehende Verträglichkeit mit den klassischen Logiken. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; • Maxikonsistenz fordert weitestgehende Verträglichkeit mit den klassischen Logiken. Bisher: • Vergleich im Prinzip nur möglich auf Basis der Modelle; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; • Maxikonsistenz fordert weitestgehende Verträglichkeit mit den klassischen Logiken. Bisher: • Vergleich im Prinzip nur möglich auf Basis der Modelle; • Sichtbarmachen von Unterschieden anhand geeigneter Beispiele (benchmark examples). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; • Maxikonsistenz fordert weitestgehende Verträglichkeit mit den klassischen Logiken. Bisher: • Vergleich im Prinzip nur möglich auf Basis der Modelle; • Sichtbarmachen von Unterschieden anhand geeigneter Gesucht: Beispiele (benchmark examples). formale Vergleichskriterien für nichtklassische Inferenzrelationen. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 185 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 186 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) • skeptische Inferenz: der Durchschnitt aller passenden Modelle wird betrachtet ( ∼ | Reiter , ∼ | Poole , |=stab , |=as ); ∆ D G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 186 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) • skeptische Inferenz: der Durchschnitt aller passenden Modelle wird betrachtet ( ∼ | Reiter , ∼ | Poole , |=stab , |=as ); ∆ D • leichtgläubige Inferenz: die Vereinigung aller passenden Modelle wird betrachtet (oft inkonsistent); G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 186 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) • skeptische Inferenz: der Durchschnitt aller passenden Modelle wird betrachtet ( ∼ | Reiter , ∼ | Poole , |=stab , |=as ); ∆ D • leichtgläubige Inferenz: die Vereinigung aller passenden Modelle wird betrachtet (oft inkonsistent); • leichtgläubige Auswahl-Inferenz: irgendein passendes Modell wird ausgewählt; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 186 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) • skeptische Inferenz: der Durchschnitt aller passenden Modelle wird betrachtet ( ∼ | Reiter , ∼ | Poole , |=stab , |=as ); ∆ D • leichtgläubige Inferenz: die Vereinigung aller passenden Modelle wird betrachtet (oft inkonsistent); • leichtgläubige Auswahl-Inferenz: irgendein passendes Modell wird ausgewählt; • optimierte Auswahl-Inferenz: nur ein “besonders gutes” passendes Modell wird betrachtet (Auswahl z.B. durch Prioritäten). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 186 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 187 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, • und lassen sich durch unterschiedliche Eigenschaften beschreiben. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 187 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, • und lassen sich durch unterschiedliche Eigenschaften beschreiben. Nicht zu erwarten ist die Bestimmung • einer besten Inferenzoperation; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 187 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, • und lassen sich durch unterschiedliche Eigenschaften beschreiben. Nicht zu erwarten ist die Bestimmung • einer besten Inferenzoperation; • einer besten Methodik; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 187 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, • und lassen sich durch unterschiedliche Eigenschaften beschreiben. Nicht zu erwarten ist die Bestimmung • einer besten Inferenzoperation; • einer besten Methodik; • einer optimalen Menge von Eigenschaften. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 187 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Konsequenz- und Inferenzoperationen Eine Inferenzoperation ist eine Abbildung C : 2Form(Σ) → 2Form(Σ) , die einer Menge von Formeln die Menge aller Formeln zuordnet, die sich aus ihr (logisch, plausibel, etc.) schlussfolgern lässt, d.h. C(F ) = {G ∈ Form(Σ) | F |∼ G} G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 188 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Konsequenz- und Inferenzoperationen Eine Inferenzoperation ist eine Abbildung C : 2Form(Σ) → 2Form(Σ) , die einer Menge von Formeln die Menge aller Formeln zuordnet, die sich aus ihr (logisch, plausibel, etc.) schlussfolgern lässt, d.h. C(F ) = {G ∈ Form(Σ) | F |∼ G} Die Inferenzoperation C beschreibt also die Inferenzrelation |∼ und umgekehrt. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 188 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Konsequenz- und Inferenzoperationen Eine Inferenzoperation ist eine Abbildung C : 2Form(Σ) → 2Form(Σ) , die einer Menge von Formeln die Menge aller Formeln zuordnet, die sich aus ihr (logisch, plausibel, etc.) schlussfolgern lässt, d.h. C(F ) = {G ∈ Form(Σ) | F |∼ G} Die Inferenzoperation C beschreibt also die Inferenzrelation |∼ und umgekehrt. Eine spezielle Inferenzoperation ist die Konsequenzoperation Cn : 2Form(Σ) → 2Form(Σ) Cn(F ) = {G ∈ Form(Σ) | F |= G}, die die logische Folgerungsrelation |= beschreibt. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 188 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Charakteristika monotoner Logiken Die klassische Folgerungsoperation Cn erfüllt drei zentrale Bedingungen (wobei A , B Mengen von Formeln sind): • Inklusion bzw. Reflexivität: A ⊆ Cn(A ) bzw. G. Kern-Isberner (TU Dortmund) DVEW A |= a ∀a ∈ A WS 2015/16 189 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Charakteristika monotoner Logiken Die klassische Folgerungsoperation Cn erfüllt drei zentrale Bedingungen (wobei A , B Mengen von Formeln sind): • Inklusion bzw. Reflexivität: A ⊆ Cn(A ) bzw. A |= a ∀a ∈ A • Schnitteigenschaft: bzw. G. Kern-Isberner (TU Dortmund) A ⊆ B ⊆ Cn(A ) impliziert Cn(B) ⊆ Cn(A ) aus A |= b und A ∪ {b} |= c folgt A |= c DVEW WS 2015/16 189 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Charakteristika monotoner Logiken Die klassische Folgerungsoperation Cn erfüllt drei zentrale Bedingungen (wobei A , B Mengen von Formeln sind): • Inklusion bzw. Reflexivität: A ⊆ Cn(A ) bzw. A |= a ∀a ∈ A • Schnitteigenschaft: A ⊆ B ⊆ Cn(A ) impliziert Cn(B) ⊆ Cn(A ) aus A |= b und A ∪ {b} |= c folgt A |= c bzw. • Monotonie: bzw. G. Kern-Isberner (TU Dortmund) A ⊆ B impliziert Cn(A ) ⊆ Cn(B) aus A |= c folgt A ∪ {b} |= c DVEW WS 2015/16 189 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Notizen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 189 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Vergleichskriterien für nichtmonotone Logiken 1/2 Sinnvoll für nichtmonotone Inferenzoperationen C: • Inklusion bzw. Reflexivität: A ⊆ C(A ) bzw. G. Kern-Isberner (TU Dortmund) DVEW A |∼ a ∀a ∈ A WS 2015/16 190 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Vergleichskriterien für nichtmonotone Logiken 1/2 Sinnvoll für nichtmonotone Inferenzoperationen C: • Inklusion bzw. Reflexivität: A ⊆ C(A ) bzw. A |∼ a ∀a ∈ A • Schnitteigenschaft: bzw. G. Kern-Isberner (TU Dortmund) A ⊆ B ⊆ C(A ) impliziert C(B) ⊆ C(A ) aus A |∼ b und A ∪ {b} |∼ c folgt A |∼ c DVEW WS 2015/16 190 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Vergleichskriterien für nichtmonotone Logiken 1/2 Sinnvoll für nichtmonotone Inferenzoperationen C: • Inklusion bzw. Reflexivität: A ⊆ C(A ) bzw. A |∼ a ∀a ∈ A • Schnitteigenschaft: bzw. A ⊆ B ⊆ C(A ) impliziert C(B) ⊆ C(A ) aus A |∼ b und A ∪ {b} |∼ c folgt A |∼ c • vorsichtige Monotonie: bzw. G. Kern-Isberner (TU Dortmund) A ⊆ B ⊆ C(A ) impliziert C(A ) ⊆ C(B) aus A |∼ b und A |∼ c folgt A ∪ {b} |∼ c DVEW WS 2015/16 190 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Vergleichskriterien für nichtmonotone Logiken 2/2 Kumulativität = Inklusion, vorsichtige Monotonie + Schnitt A ⊆ B ⊆ C(A ) impliziert C(B) = C(A ) d.h. wenn A |∼ b gilt, dann ist A |∼ c gdw. A ∪ {b} |∼ c Kumulativität besagt also, dass die Hinzunahme ableitbaren Wissens die Menge der Inferenzen nicht verändert. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 191 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Bedeutung der Kumulativität • Kumulativität verleiht dem Inferenzprozess eine gewisse Stabilität – unsichere Schlussfolgerungen können dem Wissen hinzugefügt werden, ohne dass sich das Inferenzverhalten ändert. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 192 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Bedeutung der Kumulativität • Kumulativität verleiht dem Inferenzprozess eine gewisse Stabilität – unsichere Schlussfolgerungen können dem Wissen hinzugefügt werden, ohne dass sich das Inferenzverhalten ändert. • Die Schnitteigenschaft sichert die Qualität von Schlussfolgerungsketten, ohne dass sich die “Inferenzstärke” verliert. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 192 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Bedeutung der Kumulativität • Kumulativität verleiht dem Inferenzprozess eine gewisse Stabilität – unsichere Schlussfolgerungen können dem Wissen hinzugefügt werden, ohne dass sich das Inferenzverhalten ändert. • Die Schnitteigenschaft sichert die Qualität von Schlussfolgerungsketten, ohne dass sich die “Inferenzstärke” verliert. • Vorsichtige Monotonie schützt abgeleitetes Wissen vor dem Einfluss anderer Schlussfolgerungen. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 192 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Bedeutung der Kumulativität • Kumulativität verleiht dem Inferenzprozess eine gewisse Stabilität – unsichere Schlussfolgerungen können dem Wissen hinzugefügt werden, ohne dass sich das Inferenzverhalten ändert. • Die Schnitteigenschaft sichert die Qualität von Schlussfolgerungsketten, ohne dass sich die “Inferenzstärke” verliert. • Vorsichtige Monotonie schützt abgeleitetes Wissen vor dem Einfluss anderer Schlussfolgerungen. • Allerdings: Kumulativität (bzw. Schnitt) Transitivität a |∼ b, {a, b} |∼ c a |∼ b, b |∼ c a |∼ c a |∼ c impliziert G. Kern-Isberner (TU Dortmund) 6= DVEW impliziert WS 2015/16 192 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 1/2 Beispiel: T: W = 0, / ∆ = {δ1 = G. Kern-Isberner (TU Dortmund) > : a a ∨ b : ¬a , δ2 = } a ¬a DVEW WS 2015/16 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 1/2 Beispiel: T: W = 0, / ∆ = {δ1 = > : a a ∨ b : ¬a , δ2 = } a ¬a C∆Reiter (0) / = Cn({a}) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 1/2 Beispiel: T: W = 0, / ∆ = {δ1 = > : a a ∨ b : ¬a , δ2 = } a ¬a C∆Reiter (0) / = Cn({a}) 3 a ∨ b. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 1/2 Beispiel: T: W = 0, / ∆ = {δ1 = > : a a ∨ b : ¬a , δ2 = } a ¬a C∆Reiter (0) / = Cn({a}) 3 a ∨ b. Wir erweitern nun W = 0/ um diese nichtmonotone Folgerung a ∨ b: T 0 = (W 0 , ∆) mit W 0 = {a ∨ b} hat zwei Extensionen: E1 = Cn({a ∨ b, a}) = Cn({a}) E2 = Cn({a ∨ b, ¬a}) = Cn({¬a, b}) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 1/2 Beispiel: T: W = 0, / ∆ = {δ1 = > : a a ∨ b : ¬a , δ2 = } a ¬a C∆Reiter (0) / = Cn({a}) 3 a ∨ b. Wir erweitern nun W = 0/ um diese nichtmonotone Folgerung a ∨ b: T 0 = (W 0 , ∆) mit W 0 = {a ∨ b} hat zwei Extensionen: E1 = Cn({a ∨ b, a}) = Cn({a}) E2 = Cn({a ∨ b, ¬a}) = Cn({¬a, b}) also C∆Reiter (W 0 ) = E1 ∩ E2 6= Cn({a}) = C∆Reiter (W) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 ♣ 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Notizen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 193 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 2/2 ⇒ Die Reiter’sche Default-Logik ist also nicht kumulativ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 194 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Reiter’sche Default-Logik 2/2 ⇒ Die Reiter’sche Default-Logik ist also nicht kumulativ – genauer: sie ist nicht vorsichtig monoton, denn: Proposition 40 (Reiter, 1980; Makinson, 1994) Die Reiter’sche Inferenzoperation C∆Reiter erfüllt die Schnitteigenschaft. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 194 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Antwortmengensemantik und TMS Die Antwortmengensemantik ist ebenfalls nicht vorsichtig monoton: Beispiel: P : P(a) ← not P(b). P(b) ← P(c), not P(a). P(c) ← P(a). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 195 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Antwortmengensemantik und TMS Die Antwortmengensemantik ist ebenfalls nicht vorsichtig monoton: Beispiel: P : P(a) ← not P(b). P(b) ← P(c), not P(a). P(c) ← P(a). Einzige Antwortmenge: S1 = {P(a), P(c)}, G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 195 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Antwortmengensemantik und TMS Die Antwortmengensemantik ist ebenfalls nicht vorsichtig monoton: Beispiel: P : P(a) ← not P(b). P(b) ← P(c), not P(a). P(c) ← P(a). Einzige Antwortmenge: S1 = {P(a), P(c)}, also P |=as P(a), P(c) P 0 := P ∪ {P(c).} G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 195 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Antwortmengensemantik und TMS Die Antwortmengensemantik ist ebenfalls nicht vorsichtig monoton: Beispiel: P : P(a) ← not P(b). P(b) ← P(c), not P(a). P(c) ← P(a). Einzige Antwortmenge: S1 = {P(a), P(c)}, also P |=as P(a), P(c) P 0 := P ∪ {P(c).} – 2 Antwortmengen: S1 und S2 = {P(b), P(c)} P 0 6|=as P(a) ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 195 / 196 Klassische und nichtklassische Inferenzsysteme Basiseigenschaften nichtklassischer Inferenzsysteme Kumulativität – Poole’sche Default-Logik Poole hingegen erfüllt sowohl die Die Poole’sche Inferenzoperation CD Schnitteigenschaft als auch die vorsichtige Monotonie: Proposition 41 Poole ist kumulativ. CD G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 196 / 196 Struktur der DVEW 1 2 3 4 5 6 7 8 Einführung und Motivation Klassische und regelbasierte Wissensrepräsentation Qualitative Unsicherheit – Default-Logiken Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. Wissenserwerb und Wissensentdeckung Agenten, Aktionen und Planen Wissensrevision Wiederholung und Fragestunde G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 2 / 267 Quantitative Unsicherheit Kapitel 4 4. Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 3 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen 4.1.2 Ungerichtete Netzwerke – Markov-Graphen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen 4.1.2 Ungerichtete Netzwerke – Markov-Graphen 4.1.3 Gerichtete Netzwerke – Bayes-Netze G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichkeiten – Grundlagen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie 4.3 Fuzzy-Logik G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 4 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Kapitel 4 4. Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 5 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Wahrscheinlichkeitstheorie Σ Ω endliche Menge von Atomen (Aussagenvariable) Menge von Modellen (Interpretationen) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 6 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Wahrscheinlichkeitstheorie Σ Ω endliche Menge von Atomen (Aussagenvariable) Menge von Modellen (Interpretationen) Eine Wahrscheinlichkeitsfunktion ist eine Abbildung P : 2Ω → [0, 1] mit (P1) P (Ω) = 1, und (P2) sind M1 , M2 ⊆ Ω disjunkte Mengen (i.e. M1 ∩ M2 = ∅), dann gilt P (M1 ∪ M2 ) = P (M1 ) + P (M2 ). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 6 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Wahrscheinlichkeitstheorie Σ Ω endliche Menge von Atomen (Aussagenvariable) Menge von Modellen (Interpretationen) Eine Wahrscheinlichkeitsfunktion ist eine Abbildung P : 2Ω → [0, 1] mit (P1) P (Ω) = 1, und (P2) sind M1 , M2 ⊆ Ω disjunkte Mengen (i.e. M1 ∩ M2 = ∅), dann gilt P (M1 ∪ M2 ) = P (M1 ) + P (M2 ). Wahrscheinlichkeitsraum (Ω, 2Ω , P ) mit Elementarereignissen ω ∈ Ω. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 6 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Von Ereignissen zu logischen Formeln Für eine Formel A über Σ definiere P (A) := P (Mod (A)) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 7 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Von Ereignissen zu logischen Formeln Für eine Formel A über Σ definiere P (A) := P (Mod (A)) (P1)’ P (⊥) = 0, P (>) = 1, und (P2)’ sind A, B widersprüchliche Formeln (i.e. A∧B = ⊥), dann gilt P (A ∨ B) = P (A) + P (B). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 7 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Von Ereignissen zu logischen Formeln Für eine Formel A über Σ definiere P (A) := P (Mod (A)) (P1)’ P (⊥) = 0, P (>) = 1, und (P2)’ sind A, B widersprüchliche Formeln (i.e. A∧B = ⊥), dann gilt P (A ∨ B) = P (A) + P (B). P (A) = P P (ω) ω|=A G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 7 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel – Wahrscheinlichkeiten Σ = {D, S1 , S2 } G. Kern-Isberner (TU Dortmund) D S1 S2 abs. Häufigkeit rel. Häufigkeit 0 0 0 19 0.19 0 0 1 8 0.08 11 0.11 0 1 0 2 0.02 0 1 1 1 0 0 15 0.15 1 0 1 14 0.14 1 1 0 20 0.20 1 1 1 11 0.11 100 1.00 DVEW WS 2015/16 8 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel – Wahrscheinlichkeiten Σ = {D, S1 , S2 } D S1 S2 abs. Häufigkeit rel. Häufigkeit 0 0 0 19 0.19 0 0 1 8 0.08 11 0.11 0 1 0 2 0.02 0 1 1 1 0 0 15 0.15 1 0 1 14 0.14 1 1 0 20 0.20 1 1 1 11 0.11 100 1.00 P (D ∧ S1 ) = 0.20 + 0.11 = 0.31 G. Kern-Isberner (TU Dortmund) ♣ DVEW WS 2015/16 8 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Randwahrscheinlichkeiten . . . erhält man, indem man Teilmengen Σ0 ⊆ Σ mit entsprechenden Modellen ω 0 ∈ Ω0 betrachtet: P 0 (ω 0 ) := P (ω 0 ) = Beispiel: Σ0 = {D, S1 } G. Kern-Isberner (TU Dortmund) D S1 0 0 0 1 1 0 1 1 DVEW P P (ω) ω|=ω 0 P0 0.27 0.13 0.29 0.31 WS 2015/16 ♣ 9 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit von B gegeben A (für P (A) > 0) P (B|A) = G. Kern-Isberner (TU Dortmund) P (A ∧ B) P (A) DVEW WS 2015/16 10 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit von B gegeben A (für P (A) > 0) P (B|A) = P (A ∧ B) P (A) Beispiel: P (D | S1 ) = P (D | S2 ) = P (D ∧ S1 ) 0.31 = = 0.705 P (S1 ) 0.44 P (D ∧ S2 ) 0.14 + 0.11 = = 0.714 P (S2 ) 0.35 ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 10 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen Wahrscheinlichkeit 1/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 11 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen Wahrscheinlichkeit 1/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > Dann gilt für beliebiges A (P (Bi ) > 0): P (A) = G. Kern-Isberner (TU Dortmund) Pn i=1 P (A|Bi ) DVEW · P (Bi ) WS 2015/16 11 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen Wahrscheinlichkeit 1/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > Dann gilt für beliebiges A (P (Bi ) > 0): P (A) = Pn i=1 P (A|Bi ) · P (Bi ) Für B, ¬B ergibt sich insbesondere P (A) = P (A|B)P (B) + P (A|¬B)P (¬B) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 11 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen bedingten Wahrscheinlichkeit 2/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 12 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen bedingten Wahrscheinlichkeit 2/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > Dann gilt für beliebiges A, C (P (Bi ∧ C) > 0): P (A|C) = G. Kern-Isberner (TU Dortmund) Pn i=1 P (A|Bi DVEW ∧ C) · P (Bi |C) WS 2015/16 12 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Formel von der totalen bedingten Wahrscheinlichkeit 2/2 B1 , . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > Dann gilt für beliebiges A, C (P (Bi ∧ C) > 0): P (A|C) = Pn i=1 P (A|Bi ∧ C) · P (Bi |C) Für B, ¬B ergibt sich insbesondere P (A|C) = P (A|B ∧ C)P (B|C) + P (A|¬B ∧ C)P (¬B|C) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 12 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Satz von Bayes P (B|A) = G. Kern-Isberner (TU Dortmund) P (A|B)P (B) P (A) DVEW WS 2015/16 13 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Satz von Bayes P (B|A) = P (A|B)P (B) P (A) Beispiel: Ein Arzt schätzt die folgenden Wahrscheinlichkeiten: P (D) = 0.3 P (S1 | D) = 0.6 P (S1 ∧ S2 | D) = 0.4 P (S1 | ¬D) = 0.2 P (S1 ∧ S2 | ¬D) = 0.1 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 13 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Satz von Bayes P (B|A) = P (A|B)P (B) P (A) Beispiel: Ein Arzt schätzt die folgenden Wahrscheinlichkeiten: P (D) = 0.3 P (S1 | D) = 0.6 P (S1 ∧ S2 | D) = 0.4 P (S1 | ¬D) = 0.2 P (S1 ∧ S2 | ¬D) = 0.1 P (S1 ) = P (S1 | D)P (D) + P (S1 | ¬D)P (¬D) = 0.32 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 13 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Satz von Bayes P (B|A) = P (A|B)P (B) P (A) Beispiel: Ein Arzt schätzt die folgenden Wahrscheinlichkeiten: P (D) = 0.3 P (S1 | D) = 0.6 P (S1 ∧ S2 | D) = 0.4 P (S1 | ¬D) = 0.2 P (S1 ∧ S2 | ¬D) = 0.1 P (S1 ) = P (S1 | D)P (D) + P (S1 | ¬D)P (¬D) = 0.32 P (S1 | D)P (D) 0.6 · 0.3 = P (S1 ) 0.32 P (S1 ∧ S2 | D)P (D) 0.4 · 0.3 P (D | S1 ∧ S2 ) = = P (S1 ∧ S2 ) 0.19 P (D | S1 ) = G. Kern-Isberner (TU Dortmund) DVEW ≈ 0.563 ≈ 0.632 WS 2015/16 ♣ 13 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L G. Kern-Isberner (TU Dortmund) aussagenlogische Sprache (über Σ) DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L L prob G. Kern-Isberner (TU Dortmund) aussagenlogische Sprache (über Σ) = {A[x] | A ∈ L, x ∈ [0, 1]} DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L (L|L) L prob prob G. Kern-Isberner (TU Dortmund) aussagenlogische Sprache (über Σ) = {A[x] | A ∈ L, x ∈ [0, 1]} = {(B|A)[x] | A, B ∈ L, x ∈ [0, 1]} DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L (L|L) L prob prob aussagenlogische Sprache (über Σ) = {A[x] | A ∈ L, x ∈ [0, 1]} = {(B|A)[x] | A, B ∈ L, x ∈ [0, 1]} Semantik – Interpretationen sind die Wahrscheinlichkeitsfunktionen über der Signatur Σ. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L (L|L) L prob prob aussagenlogische Sprache (über Σ) = {A[x] | A ∈ L, x ∈ [0, 1]} = {(B|A)[x] | A, B ∈ L, x ∈ [0, 1]} Semantik – Interpretationen sind die Wahrscheinlichkeitsfunktionen über der Signatur Σ. Semantik – Erfüllungsrelation: P |= A[x] gdw. P (A) = x G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Logik Syntax: L (L|L) L prob prob aussagenlogische Sprache (über Σ) = {A[x] | A ∈ L, x ∈ [0, 1]} = {(B|A)[x] | A, B ∈ L, x ∈ [0, 1]} Semantik – Interpretationen sind die Wahrscheinlichkeitsfunktionen über der Signatur Σ. Semantik – Erfüllungsrelation: P |= A[x] gdw. P (A) = x P |= (B|A)[x] gdw. P (B|A) = x G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 14 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 15 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? P (B|A) ≤ P (A ⇒ B) = P (¬A ∨ B) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 15 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? P (B|A) ≤ P (A ⇒ B) = P (¬A ∨ B) Beispiel: A B 0 0 0 1 1 0 1 1 G. Kern-Isberner (TU Dortmund) P (·) 0.04 0.95 0.01 0 DVEW WS 2015/16 15 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? P (B|A) ≤ P (A ⇒ B) = P (¬A ∨ B) Beispiel: A B 0 0 0 1 1 0 1 1 P (·) 0.04 0.95 0.01 0 P (B|A) = 0, aber P (A ⇒ B) = 0.99! G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 15 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? P (B|A) ≤ P (A ⇒ B) = P (¬A ∨ B) Beispiel: A B 0 0 0 1 1 0 1 1 P (·) 0.04 0.95 0.01 0 P (B|A) = 0, aber P (A ⇒ B) = 0.99! Probabilistische Regeln werden im Folgenden immer durch bedingte Wahrscheinlichkeiten interpretiert! G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 ♣ 15 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Statistische Unabhängigkeit Zwei Formeln A und B sind (statistisch) unabhängig gdw. P (A ∧ B) = P (A) · P (B) Dies ist äquivalent zu P (A|B) = P (A). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 16 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Statistische Unabhängigkeit Zwei Formeln A und B sind (statistisch) unabhängig gdw. P (A ∧ B) = P (A) · P (B) Dies ist äquivalent zu P (A|B) = P (A). Zwei (disjunkte) Mengen A, B atomarer Propositionen heißen (statistisch) unabhängig gdw. P (a ∧ b) = P (a) · P (b) für alle Vollkonjunktionen a, b über A, B. (Vollkonjunktionen enthalten alle Atome in positiver oder negierter Form.) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 16 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen atomarer Propositionen mit P (c) > 0 für alle Vollkonjunktionen c über C G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen atomarer Propositionen mit P (c) > 0 für alle Vollkonjunktionen c über C A |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B|C gdw. P (a ∧ b|c) = P (a|c) · P (b|c) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen atomarer Propositionen mit P (c) > 0 für alle Vollkonjunktionen c über C A |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B|C gdw. P (a ∧ b|c) = P (a|c) · P (b|c) äquivalent zu G. Kern-Isberner (TU Dortmund) P (a|c ∧ b) = P (a|c) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen atomarer Propositionen mit P (c) > 0 für alle Vollkonjunktionen c über C A |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B|C gdw. P (a ∧ b|c) = P (a|c) · P (b|c) äquivalent zu P (a|c ∧ b) = P (a|c) Bedingte Unabhängigkeit gegeben ∅ = statistische Unabhängigkeit G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Notizen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 17 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel – (bedingte) Unabhängigkeit G = {f em, mal} S = {sm, sm} M = {mar, mar} P = {preg, preg} Geschlecht (f em = female, mal = male) Raucher (smoker) verheiratet (married) schwanger (pregnant) mar preg preg mar preg preg G. Kern-Isberner (TU Dortmund) mal sm sm 0.00 0.00 0.04 0.16 0.00 0.00 0.10 0.20 DVEW f em sm sm 0.01 0.05 0.02 0.12 0.01 0.01 0.07 0.21 WS 2015/16 18 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel (Forts.) P (f em)=0.5 = P (mal), P (preg)=0.08, G. Kern-Isberner (TU Dortmund) DVEW P (sm)=0.25, P (mar)=0.4 WS 2015/16 19 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel (Forts.) P (f em)=0.5 = P (mal), P (preg)=0.08, P (sm)=0.25, P (mar)=0.4 P (f em|sm) = 0.44 6= P (f em) ⇒ Geschlecht und Raucher sind nicht unabhängig; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 19 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel (Forts.) P (f em)=0.5 = P (mal), P (preg)=0.08, P (sm)=0.25, P (mar)=0.4 P (f em|sm) = 0.44 6= P (f em) ⇒ Geschlecht und Raucher sind nicht unabhängig; Geschlecht und verheiratet sind (statistisch) unabhängig, G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 19 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel (Forts.) P (f em)=0.5 = P (mal), P (preg)=0.08, P (sm)=0.25, P (mar)=0.4 P (f em|sm) = 0.44 6= P (f em) ⇒ Geschlecht und Raucher sind nicht unabhängig; Geschlecht und verheiratet sind (statistisch) unabhängig, aber bedingt abhängig gegeben schwanger , denn: P (f em ∧ mar|preg) ≈ 0.152 6= 0.169 ≈ P (f em|preg) · P (mar|preg) ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 19 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 1/2 Sie sind Kandidat in einer Spielshow, und Sie müssen eine von drei Türen auswählen. Hinter einer Tür ist ein Porsche (den Sie gewinnen können), hinter den anderen beiden Türen sind Ziegen. Sie wählen eine Tür, und der Quizmaster Monty Hall (der weiß, was hinter den Türen ist), öffnet eine andere, hinter der sich eine Ziege befindet. Monty Hall gibt Ihnen danach die Möglichkeit, Ihre Entscheidung zu revidieren und die dritte Tür zu nehmen. Sollten Sie Ihre Entscheidung revidieren oder nicht? Marylin Vos Savant in ihrer Rätsel-Kolumne in der New York Times G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 20 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) = P (A|R) = P (A) = 2/3 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) = P (A|R) = P (A) = 2/3 P (G|R) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) = P (A|R) = P (A) = 2/3 P (G|R) = P (G|RA)P (A|R) + P (G|R A)P (A|R) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist (und bleibt) der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) = P (A|R) = P (A) = 2/3 P (G|R) = P (G|RA)P (A|R) + P (G|R A)P (A|R) = 1 · P (A|R) + 0 · P (A|R) = P (A|R) = P (A) = 1/3 Die Chance zu gewinnen ist also doppelt so groß, wenn Sie Ihre Entscheidung revidieren. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 ♣ 21 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel: Mord in Florida 1/2 Dieses Beispiel basiert auf einer realen statistischen Untersuchung, die in Florida in den Jahren 1973-79 durchgeführt wurde. 5000 Mordfälle wurden erfasst, und die folgende Wahrscheinlichkeitsverteilung P spiegelt die Praxis der damaligen gerichtlichen Verurteilungen wider. Betrachtete Aussagenvariablen: V = Mordopfer (Victim) ist schwarz/weiß M = Mörder ist schwarz/weiß D = Todesstrafe (Death) verhängt G. Kern-Isberner (TU Dortmund) DVEW v̇ ∈ {vb , vw } ṁ ∈ {mb , mw } ¯ d˙ ∈ {d, d} WS 2015/16 22 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel: Mord in Florida 2/2 ω P (ω) vw mw d 0.0151 vw mb d 0.0101 vb mw d 0 vb mb d 0.0023 ω P (ω) vw mw d vw mb d vb m w d vb mb d 0.4353 0.0502 0.0233 0.4637 P (d|mw ) = 0.0319 und P (d|mb ) = 0.0236 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 23 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel: Mord in Florida 2/2 ω P (ω) vw mw d 0.0151 vw mb d 0.0101 vb mw d 0 vb mb d 0.0023 ω P (ω) vw mw d vw mb d vb m w d vb mb d 0.4353 0.0502 0.0233 0.4637 P (d|mw ) = 0.0319 und P (d|mb ) = 0.0236 P (d|vw mw ) = 0.0335, P (d|vw mb ) = 0.1675, G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 23 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel: Mord in Florida 2/2 ω P (ω) vw mw d 0.0151 vw mb d 0.0101 vb mw d 0 vb mb d 0.0023 ω P (ω) vw mw d vw mb d vb m w d vb mb d 0.4353 0.0502 0.0233 0.4637 P (d|mw ) = 0.0319 und P (d|mb ) = 0.0236 P (d|vw mw ) = 0.0335, P (d|vw mb ) = 0.1675, P (d|vb mw ) = 0, P (d|vb mb ) = 0.0049 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 23 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Beispiel: Mord in Florida 2/2 ω P (ω) vw mw d 0.0151 vw mb d 0.0101 vb mw d 0 vb mb d 0.0023 ω P (ω) vw mw d vw mb d vb m w d vb mb d 0.4353 0.0502 0.0233 0.4637 P (d|mw ) = 0.0319 und P (d|mb ) = 0.0236 P (d|vw mw ) = 0.0335, P (d|vw mb ) = 0.1675, P (d|vb mw ) = 0, P (d|vb mb ) = 0.0049 D und V sind also nicht bedingt unabhängig gegeben M . ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 23 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Simpson’s Paradoxon P (E|C) > P (E|¬C), G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 24 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Simpson’s Paradoxon P (E|C) > P (E|¬C), aber möglich: P (E|C, M ) < P (E|¬C, M ), P (E|C, ¬M ) < P (E|¬C, ¬M ) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 24 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Simpson’s Paradoxon P (E|C) > P (E|¬C), aber möglich: P (E|C, M ) < P (E|¬C, M ), P (E|C, ¬M ) < P (E|¬C, ¬M ) Beispiel: C = Medikamenteneinnahme, E = Gesundung Gesamt C ¬C G. Kern-Isberner (TU Dortmund) E 20 16 36 ¬E 20 24 44 Σ 40 40 80 DVEW Gesundungsrate 50 % 40 % WS 2015/16 24 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Simpson’s Paradoxon P (E|C) > P (E|¬C), aber möglich: P (E|C, M ) < P (E|¬C, M ), P (E|C, ¬M ) < P (E|¬C, ¬M ) Beispiel: C = Medikamenteneinnahme, E = Gesundung Gesamt C ¬C Männer C ¬C E 18 7 25 ¬E 12 3 15 Σ 30 10 40 E 20 16 36 ¬E 20 24 44 Σ 40 40 80 Gesund. 60 % 70 % Gesundungsrate 50 % 40 % Frauen C ¬C E 2 9 11 ¬E 8 21 29 Σ 10 30 40 Gesund. 20 % 30 % ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 24 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] • P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] • P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ [0, 1]! ⇒ Probabilistische Logik ist nicht wahrheitsfunktional! G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] • P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ [0, 1]! ⇒ Probabilistische Logik ist nicht wahrheitsfunktional! • Zentrales Problem: Wie wirkt sich zusätzliche Information aus? – d.h.: Wenn P (B|A) bekannt ist, was kann man dann über P (B|A ∧ C) sagen? G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] • P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ [0, 1]! ⇒ Probabilistische Logik ist nicht wahrheitsfunktional! • Zentrales Problem: Wie wirkt sich zusätzliche Information aus? – d.h.: Wenn P (B|A) bekannt ist, was kann man dann über P (B|A ∧ C) sagen? • Hohe Komplexität (n Aussagen → 2n Vollkonjunktionen) G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistisches Schließen • Probabilistisches Schließen ist schwierig und oft unergiebig • P (A ∧ B) wird nicht eindeutig durch P (A) und P (B) bestimmt z.B. P (A) = P (B) = 0.5 ⇒ P (A ∧ B) ∈ [0, 0.5] • P (C|A) = x, P (C|B) = y ⇒ P (C|A ∧ B) ∈ [0, 1]! ⇒ Probabilistische Logik ist nicht wahrheitsfunktional! • Zentrales Problem: Wie wirkt sich zusätzliche Information aus? – d.h.: Wenn P (B|A) bekannt ist, was kann man dann über P (B|A ∧ C) sagen? • Hohe Komplexität (n Aussagen → 2n Vollkonjunktionen) • Wahrscheinlichkeiten sind schwierig zu spezifizieren. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 25 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 1/2 Grundlegende Ideen: • Quantitatives probabilistisches Schließen wird mit qualitativer Information über Strukturen (i.e. Abhängigkeiten und Unabhängigkeiten von Variablen) kombiniert G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 26 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 1/2 Grundlegende Ideen: • Quantitatives probabilistisches Schließen wird mit qualitativer Information über Strukturen (i.e. Abhängigkeiten und Unabhängigkeiten von Variablen) kombiniert • Man benutzt graphische Mittel zur Darstellung: Zu jeder Aussage A1 , . . . , An in Σ wird ein Knoten assoziiert, so dass V = {A1 , . . . , An } die Menge der Ecken eines Graphen G = GV ist. Die Kanten von G sollen direkte Abhängigkeiten unter den Ai repräsentieren. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 26 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 27 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: Ungerichtete Graphen: (Markov-Netze) • Eine ungerichtete Kante zwischen A und B drückt aus, dass A und B direkt voneinander abhängig sind. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 27 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: Ungerichtete Graphen: (Markov-Netze) • Eine ungerichtete Kante zwischen A und B drückt aus, dass A und B direkt voneinander abhängig sind. Gerichtete Graphen: (Bayes-Netze) • Eine gerichtete Kante von A nach B drückt aus, dass B direkt von A abhängig ist; G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 27 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: Ungerichtete Graphen: (Markov-Netze) • Eine ungerichtete Kante zwischen A und B drückt aus, dass A und B direkt voneinander abhängig sind. Gerichtete Graphen: (Bayes-Netze) • Eine gerichtete Kante von A nach B drückt aus, dass B direkt von A abhängig ist; A wird oft auch als kausale Ursache von B betrachtet. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 27 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke 2/2 Probabilistische Netzwerke können gerichtete oder ungerichtete Graphen sein: Ungerichtete Graphen: (Markov-Netze) • Eine ungerichtete Kante zwischen A und B drückt aus, dass A und B direkt voneinander abhängig sind. Gerichtete Graphen: (Bayes-Netze) • Eine gerichtete Kante von A nach B drückt aus, dass B direkt von A abhängig ist; A wird oft auch als kausale Ursache von B betrachtet. In beiden Graphentypen werden indirekte Abhängigkeiten mittels Pfaden im Graphen repräsentiert. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 27 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke – Beispiel Ungerichteter Graph A v B v C v A und B bzw. B und C hängen direkt voneinander ab; A und C hängen indirekt voneinander ab. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 28 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Grundlagen Probabilistische Netzwerke – Beispiel Ungerichteter Graph Gerichteter Graph A v A v B v B ? v C v C ? v A und B bzw. B und C hängen direkt voneinander ab; A und C hängen indirekt voneinander ab. G. Kern-Isberner (TU Dortmund) DVEW B hängt direkt von A ab, C hängt direkt von B ab; C hängt indirekt von A ab. WS 2015/16 28 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Übersicht Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie 4.3 Fuzzy-Logik G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 29 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Kapitel 4 4. Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. 4.1.2 Ungerichtete Netzwerke – Markov-Graphen G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 30 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation in ungerichteten Graphen 1/2 Sei P Wahrscheinlichkeitsfunktion über V, sei G = GV ein ungerichteter Graph mit Knotenmenge V. Idee: Direkt abhängige Aussagen sollen Nachbarn in G sein, während indirekt abhängige Variablen durch Wege der Länge ≥ 2 verbunden sind. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 31 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation in ungerichteten Graphen 1/2 Sei P Wahrscheinlichkeitsfunktion über V, sei G = GV ein ungerichteter Graph mit Knotenmenge V. Idee: Direkt abhängige Aussagen sollen Nachbarn in G sein, während indirekt abhängige Variablen durch Wege der Länge ≥ 2 verbunden sind. Separation: • paarweise disjunkte Teilmengen A, B, C von V; Schreibweise: A |= • C separiert A und B, G B|C gdw. jeder Weg zwischen einem Knoten in A und einem Knoten in B mindestens einen Knoten von C enthält. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 31 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation in ungerichteten Graphen 2/2 C A G. Kern-Isberner (TU Dortmund) |= A G B B|C DVEW WS 2015/16 32 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation und bedingte Unabhängigkeit Graphische Separation und probabilistische bedingte Unabhängigkeit sind ähnliche Konzepte, aber . . . G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 33 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation und bedingte Unabhängigkeit G B | C impliziert A G. Kern-Isberner (TU Dortmund) |= |= • A |= |= Graphische Separation und probabilistische bedingte Unabhängigkeit sind ähnliche Konzepte, aber . . . A P B | C gdw. A G B | C ist nicht möglich, denn G B | (C ∪ C0 ); DVEW WS 2015/16 33 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Separation und bedingte Unabhängigkeit B | C impliziert A G A |= • es ist jedoch möglich, dass A P B | (C ∪ C0 ). B | (C ∪ C0 ); |= G |= |= • A |= |= Graphische Separation und probabilistische bedingte Unabhängigkeit sind ähnliche Konzepte, aber . . . A P B | C gdw. A G B | C ist nicht möglich, denn P B | C gilt, nicht aber |= Beispiel: Im Raucher-Beispiel sind Geschlecht und verheiratet statistisch unabhängig: gender P marriage | ∅, aber bedingt abhängig gegeben Schwangerschaft: nicht (gender P marriage | pregnancy) !!! |= ♣ G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 33 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 1/3 Graph G mit Knotenmenge V, Verteilung P über V G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 34 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 1/3 Graph G mit Knotenmenge V, Verteilung P über V G heißt Unabhängigkeitsgraph zu P , wenn gilt: |= G B | C impliziert A P B|C (globale Markov-Eigenschaft) |= A d.h. Unabhängigkeiten in G implizieren Unabhängigkeiten in P . G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 34 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 1/3 Graph G mit Knotenmenge V, Verteilung P über V G heißt Unabhängigkeitsgraph zu P , wenn gilt: |= G B | C impliziert A P B|C (globale Markov-Eigenschaft) |= A d.h. Unabhängigkeiten in G implizieren Unabhängigkeiten in P . Unabhängigkeitsgraphen stellen i.Allg. zu viele Abhängigkeiten dar, d.h. einige (bedingte) Unabhängigkeiten werden möglicherweise nicht repräsentiert. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 34 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 1/3 Graph G mit Knotenmenge V, Verteilung P über V G heißt Unabhängigkeitsgraph zu P , wenn gilt: |= G B | C impliziert A P B|C (globale Markov-Eigenschaft) |= A d.h. Unabhängigkeiten in G implizieren Unabhängigkeiten in P . Unabhängigkeitsgraphen stellen i.Allg. zu viele Abhängigkeiten dar, d.h. einige (bedingte) Unabhängigkeiten werden möglicherweise nicht repräsentiert. Unabhängigkeitsgraphen, die dieses Fehlverhalten auf ein Minimum reduzieren, sind von besonderem Interesse. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 34 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 2/3 Ein Unabhängigkeitsgraph G heißt minimaler Unabhängigkeitsgraph oder Markov-Graph zu P , wenn G keine überflüssigen Kanten enthält, d.h., wenn G nach Entfernen einer beliebigen Kante kein Unabhängigkeitsgraph mehr zu P ist. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 35 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 2/3 Ein Unabhängigkeitsgraph G heißt minimaler Unabhängigkeitsgraph oder Markov-Graph zu P , wenn G keine überflüssigen Kanten enthält, d.h., wenn G nach Entfernen einer beliebigen Kante kein Unabhängigkeitsgraph mehr zu P ist. Markov-Graph zu P (A, B) ∈ / E0 gdw. A |= Der Markov-Graph zu einer Wahrscheinlichkeitsverteilung P wird definiert durch die Bedingunga P B | (V − {A, B}) (A, B) ∈ E0 gdw. nicht gilt A |= bzw. P B | (V − {A, B}). a Beachten Sie, dass hier eine ganz spezielle bedingte Unabhängigkeitsbedingung überprüft wird. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 35 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 3/3 Es gelten die folgenden Resultate: • Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen |= (eindeutig bestimmten) Markov-Graph G0 = hV, E0 i, so dass (A, B) ∈ / E0 gdw. A P B | (V − {A, B}). G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 36 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Markov-Graphen 3/3 Es gelten die folgenden Resultate: • Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen |= (eindeutig bestimmten) Markov-Graph G0 = hV, E0 i, so dass (A, B) ∈ / E0 gdw. A P B | (V − {A, B}). • Andererseits lässt sich zu jedem ungerichteten Graphen G eine Verteilung P angeben, so dass G ein Unabhängigkeitsgraph von P ist. P heißt dann Markov-Feld bezgl. G. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 36 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Beispiel Infektion At @ B t @ @ @ @ @ @ @ @tC @t Personen A, B, C, D haben sich infiziert – die Kanten geben die Kontakte innerhalb dieser Gruppe wieder. D G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 37 / 267 Quantitative Unsicherheit Wahrscheinlichk. und prob. Netzwerke – Markov-Graphen Beispiel Infektion At @ B t @ @ @ @ @ @ @ @tC @t Personen A, B, C, D haben sich infiziert – die Kanten geben die Kontakte innerhalb dieser Gruppe wieder. D |= |= Es gilt A G D | {B, C}, in einem Unabhängigkeitsgraph gilt dann auch A P D | {B, C}. G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 37 / 267