Darstellung, Verarbeitung und Erwerb von Wissen 3.Inferenzsysteme 3.4 Logische Programme und Antwortmengensemantik DVEW – WS 2004/05 – c Gabriele Kern-Isberner 1 Implementation: smodels • 2-Schichten-Architektur : – Front-end lparse, das (normale) logische Programme einliest und in sog. Kernsprache (kernel language, bestehend aus basic constraint rules) übersetzt; – das eigentliche Kernsystem, das Regeln der Kernsprache verarbeitet. • Berechnung der Antwortmengen durch Erzeugung und Überprüfung von Kandidatenmengen • Zentrales Problem: Beschränkung des Suchraumes für Kandidatenmengen durch – geschickte Grundinstantiierung; – Einschränkung des Raumes der Kandidatenmengen durch Abschätzung unvermeidbarer und möglicher Konsequenzen. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 2 Anwendungen ASP implementiert allgemeine Problemlösungsstrategien; besonders geeignet für: • Kombinatorische und graphentheoretische Probleme; • Konfigurations- und Schedulingaufgaben; • Planen (und Aktionen). DVEW – WS 2004/05 – c Gabriele Kern-Isberner 3 Anwendung: Scheduling 1/2 cs : Computer Science Department in Universität u Informationen über CS-Angehörige und -Kurse (vollständig): member(sam,cs). course(java,cs). course(ai,cs). member(bob,cs). course(c,cs). course(logic,cs). member(tom,cs). CWA: ¬ member(P ,cs) ← not member(P ,cs) ¬ course(C,cs) ← not course(C,cs) Informationen über Lehrangebot (unvollständig): teaches(sam,java). teaches(bob,ai). ? member(mary,cs) ? teaches(mary,c) DVEW – WS 2004/05 – no unknown c Gabriele Kern-Isberner 4 Anwendung: Scheduling 2/2 Programmerweiterung: Normalerweise werden CS-Kurse nur von CS-Professoren gehalten mit Ausnahme des Logik-Kurses, der auch von Math-Professoren gehalten werden kann. ¬ teaches(P ,C) ← ¬ member(P ,cs), course(C,cs), not ab(P ,C), not teaches(P ,C). ab(P ,logic) ← not ¬ member(P ,math). member(mary,math). ? teaches(mary,c) ? teaches(mary,logic) DVEW – WS 2004/05 – c Gabriele Kern-Isberner no unknown 5 Vergleich Reiter ↔ ASP Sei P ein erweitertes logisches Programm. Zu jeder Regel r : H ← A1, . . . , An, not B1, . . . , not Bm. definiere man den Default A1 ∧ . . . ∧ An : B1, . . . , Bm def (r) := H def (P) := (∅, {def (r) | r ∈ P}) Reiter’sche Default-Theorie zu P Theorem 1. [Gelfond & Lifschitz, 1991] Sei P ein erweitertes logisches Programm. • Ist S eine Antwortmenge von P, so ist ihr deduktiver Abschluss Cn(S) eine Extension von def(P). • Ist E eine Extension von def(P), so gibt es genau eine Antwortmenge S von P mit E = Cn(S). DVEW – WS 2004/05 – c Gabriele Kern-Isberner 6 Vergleich TMS ↔ ASP Theorem 2. [Elkan, 1990] Sei T = (N, J ) ein JTMS, und sei PT das normale logische Programm, das entsteht, wenn man jede Begründung h{A1, . . . , An} | {B1, . . . , Bm} → Hi aus T in die Regel H ← A1, . . . , An, not B1, . . . , not Bm. transformiert. Eine Menge S von Atomen aus N ist ein zulässiges Modell bzgl. T genau dann, wenn S ein stabiles Modell von PT ist. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 7 Darstellung, Verarbeitung und Erwerb von Wissen 3.Inferenzsysteme 3.5 Basiseigenschaften nichtklassischer Inferenzsysteme DVEW – WS 2004/05 – c Gabriele Kern-Isberner 8 Default-Logik, ASP & Co. 1/2 Gemeinsame Ziele: • realisieren revidierbares Schlussfolgern • unter Berücksichtigung der Unvollständigkeit von Information; • entweder CWA oder Unterscheidung zwischen Unwissen und Nichtwissen. Gemeinsame Techniken: • Verwendung von negation as failure (bei TMS und Reiter’scher Default-Logik: mittels Syntax; bei ASP: mittels not-Operator); • Filtern von Lösungen/Modellen mittels constraints (Poole’sche Default-Logik und ASP); • Fixpunktkonstruktionen DVEW – WS 2004/05 – c Gabriele Kern-Isberner 9 Default-Logik, ASP & Co. 2/2 Typische Paradigmen zur Realisierung des nichtmonotonen Schließens: • Beschränkung auf besonders gute Modelle findet sich in allen vorgestellten Methoden; • Fixpunkt-Gedanke realisiert formale Abgeschlossenheit und verallgemeinert deduktive Abgeschlossenheit; • Maxikonsistenz fordert weitestgehende Verträglichkeit mit den klassischen Logiken. Bisher: • Vergleich im Prinzip nur möglich auf Basis der Modelle; • Sichtbarmachen von Unterschieden anhand geeigneter Beispiele (benchmark examples). Gesucht: formale Vergleichskriterien für nichtklassische Inferenzrelationen. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 10 Methodik nichtmonotoner Inferenzoperationen 1/2 (Modelle = zulässige Modelle, Extensionen, stabile Modelle, Antwortmengen etc.) • skeptische Inferenz: der Durchschnitt aller passenden Modelle wird Reiter P oole , |=stab, |=as); betrachtet ( |∼∆ , |∼D • leichtgläubige Inferenz: die Vereinigung aller passenden Modelle wird betrachtet (oft inkonsistent); • Auswahl-Inferenz: nur ein ausgewähltes passendes Modell wird betrachtet (Auswahl z.B. durch Prioritäten). DVEW – WS 2004/05 – c Gabriele Kern-Isberner 11 Methodik nichtmonotoner Inferenzoperationen 2/2 Nichtmonotone Logiken • bieten eine Vielfalt von Methoden, • die verschiedene Aspekte des unsicheren Schlussfolgerns implementieren, • und lassen sich durch unterschiedliche Eigenschaften beschreiben. Nicht zu erwarten ist die Bestimmung • einer besten Inferenzoperation; • einer besten Methodik; • einer optimalen Menge von Eigenschaften. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 12 Konsequenz- und Inferenzoperationen Eine Inferenzoperation ist eine Abbildung C : 2Form(Σ) → 2Form(Σ), die einer Menge von Formeln die Menge aller Formeln zuordnet, die sich aus ihr (logisch, plausibel, etc.) schlussfolgern lässt, d.h. C(F) = {G ∈ Form(Σ) | F |∼ G} Die Inferenzoperation C beschreibt also die Inferenzrelation |∼ und umgekehrt. Eine spezielle Inferenzoperation ist die Konsequenzoperation Cn : 2Form(Σ) → 2Form(Σ) Cn(F) = {G ∈ Form(Σ) | F |= G}, die die logische Folgerungsrelation |= beschreibt. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 13 Charakteristika monotoner Logiken Die klassische Folgerungsoperation Cn erfüllt drei zentrale Bedingungen (wobei A, B Mengen von Formeln sind): • Inklusion bzw. Reflexivität: A ⊆ Cn(A) bzw. A |= a ∀a ∈ A • Schnitteigenschaft: A ⊆ B ⊆ Cn(A) impliziert Cn(B) ⊆ Cn(A) bzw. aus A |= b und A ∪ {b} |= c folgt A |= c • Monotonie: A ⊆ B impliziert Cn(A) ⊆ Cn(B) bzw. DVEW – WS 2004/05 – aus A |= c folgt A ∪ {b} |= c c Gabriele Kern-Isberner 14 Vergleichskriterien für nichtmonotone Logiken 1/2 Sinnvoll für nichtmonotone Inferenzoperationen C: • Inklusion bzw. Reflexivität: A ⊆ C(A) bzw. A |∼ a ∀a ∈ A • Schnitteigenschaft: A ⊆ B ⊆ C(A) impliziert C(B) ⊆ C(A) bzw. aus A |∼ b und A ∪ {b} |∼ c folgt A |∼ c • vorsichtige Monotonie: A ⊆ B ⊆ C(A) impliziert C(A) ⊆ C(B) bzw. DVEW – WS 2004/05 – aus A |∼ b und A |∼ c folgt A ∪ {b} |∼ c c Gabriele Kern-Isberner 15 Vergleichskriterien für nichtmonotone Logiken 2/2 Kumulativität = vorsichtige Monotonie + Schnitt A ⊆ B ⊆ C(A) impliziert C(B) = C(A) d.h. wenn A |∼ b gilt, dann ist A |∼ c gdw. A ∪ {b} |∼ c Kumulativität besagt also, dass die Hinzunahme ableitbaren Wissens die Menge der Inferenzen nicht verändert. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 16 Bedeutung der Kumulativität • Kumulativität verleiht dem Inferenzprozess eine gewisse Stabilität – unsichere Schlussfolgerungen können dem Wissen hinzugefügt werden, ohne dass sich das Inferenzverhalten ändert. • Die Schnitteigenschaft sichert die Qualität von Schlussfolgerungsketten, ohne dass sich die “Inferenzstärke” verliert. • Vorsichtige Monotonie schützt abgeleitetes Wissen vor dem Einfluss anderer Schlussfolgerungen. • Allerdings: DVEW – WS 2004/05 – Kumulativität (bzw. Schnitt) 6= Transitivität a |∼ b, {a, b} |∼ c a |∼ b, b |∼ c impliziert impliziert a |∼ c a |∼ c c Gabriele Kern-Isberner 17 Kumulativität – Reiter’sche Default-Logik T : a ∨ b : ¬a > : a W = ∅, ∆ = {δ1 = , δ2 = } a ¬a Reiter C∆ (∅) = Cn({a}) 3 a ∨ b T 0 = (W 0, ∆) mit W 0 = W ∪ {a ∨ b} = {a ∨ b} ⇒ 2 Extensionen E1 = Cn({a ∨ b, a}) = Cn({a}) E2 = Cn({a ∨ b, ¬a}) = Cn({¬a, b}) Reiter Reiter also C∆ (W 0) = E1 ∩ E2 6= Cn({a}) = C∆ (W ) ⇒ Die Reiter’sche Default-Logik ist nicht kumulativ – genauer: sie ist nicht vorsichtig monoton, denn: Proposition 1. [Reiter, 1980; Makinson, 1994] Die Reiter’sche Reiter Inferenzoperation C∆ erfüllt die Schnitteigenschaft. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 18 Kumulativität – Antwortmengensemantik und TMS Die Antwortmengensemantik ist ebenfalls nicht vorsichtig monoton: P: P (a) ← not P (b). P (b) ← P (c), not P (a). P (c) ← P (a). Einzige Antwortmenge: S1 = {P (a), P (c)}, also P |=as P (a), P (c) P 0 := P ∪ {P (c).} – 2 Antwortmengen: S1 und S2 = {P (b), P (c)} P 0 6|=as P (a) Analoges Gegenbeispiel zeigt, dass auch TMS-Inferenz nicht vorsichtig monoton ist. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 19 Kumulativität – Poole’sche Default-Logik P oole Die Poole’sche Inferenzoperation CD hingegen erfüllt sowohl die Schnitteigenschaft als auch die vorsichtige Monotonie: P oole Proposition 2. CD ist kumulativ. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 20 Darstellung, Verarbeitung und Erwerb von Wissen Kapitel 4. Unsicheres und vages Wissen DVEW – WS 2004/05 – c Gabriele Kern-Isberner 21 Überblick Kapitel 4 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 4.1.2 4.1.3 4.1.4 Grundlagen Ungerichtete Netzwerke – Markov-Graphen Gerichtete Netzwerke – Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer-Theorie 4.3 Fuzzy-Logik DVEW – WS 2004/05 – c Gabriele Kern-Isberner 22 Darstellung, Verarbeitung und Erwerb von Wissen 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke 4.1.1 Grundlagen DVEW – WS 2004/05 – c Gabriele Kern-Isberner 23 Wahrscheinlichkeitstheorie Σ Ω endliche Menge von Atomen (Aussagenvariable) Menge von Modellen (Interpretationen) Eine Wahrscheinlichkeitsfunktion ist eine Abbildung P : 2Ω → [0, 1] mit (P1) P (Ω) = 1, und (P2) sind M1, M2 ⊆ Ω disjunkte Mengen (i.e. M1 ∩ M2 = ∅), dann gilt P (M1 ∪ M2) = P (M1) + P (M2). Wahrscheinlichkeitsraum (Ω, 2Ω, P ) mit Elementarereignissen ω ∈ Ω. DVEW – WS 2004/05 – c Gabriele Kern-Isberner 24 Von Ereignissen zu logischen Formeln Für eine Formel A über Σ definiere P (A) := P (Mod(A)) (P1)’ P (⊥) = 0, P (>) = 1, und (P2)’ sind A, B widersprüchliche Formeln (i.e. A ∧ B = ⊥), dann gilt P (A ∨ B) = P (A) + P (B). P (A) = P P (ω) ω|=A DVEW – WS 2004/05 – c Gabriele Kern-Isberner 25 Beispiel – Wahrscheinlichkeiten Σ = {D, S1, S2} D S1 S2 abs. Häufigkeit rel. Häufigkeit 0 0 0 19 0.19 0 0 1 8 0.08 0 1 0 11 0.11 0 1 1 2 0.02 1 0 0 15 0.15 1 0 1 14 0.14 1 1 0 20 0.20 1 1 1 11 0.11 100 1.00 P (D ∧ S1) = 0.20 + 0.11 = 0.31 DVEW – WS 2004/05 – c Gabriele Kern-Isberner 26 Randwahrscheinlichkeiten . . . erhält man, indem man Teilmengen Σ0 ⊆ Σ mit entsprechenden Modellen ω 0 ∈ Ω0 betrachtet: 0 0 0 P (ω ) := P (ω ) = P P (ω) ω|=ω 0 Beispiel: Σ0 = {D, S1} D S1 0 0 0 1 1 0 1 1 DVEW – WS 2004/05 – c Gabriele Kern-Isberner P0 0.27 0.13 0.29 0.31 27 Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit von B gegeben A (für P (A) > 0) P (A ∧ B) P (B|A) = P (A) Beispiel: DVEW – WS 2004/05 – P (D ∧ S1) 0.31 P (D | S1) = = = 0.705 P (S1) 0.44 P (D ∧ S2) 0.14 + 0.11 P (D | S2) = = = 0.714 P (S2) 0.35 c Gabriele Kern-Isberner 28 Formel von der totalen Wahrscheinlichkeit: B1, . . . , Bn seien paarweise inkonsistent und ausschöpfend, d.h. es gilt: Bi ∧ Bj ≡ ⊥ für i 6= j B1 ∨ . . . ∨ Bn ≡ > Dann gilt für beliebiges A: P (A) = Pn i=1 P (A|Bi) · P (Bi) Für B, ¬B ergibt sich insbesondere P (A) = P (A|B)P (B) + P (A|¬B)P (¬B) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 29 Satz von Bayes P (A|B)P (B) P (B|A) = P (A) Beispiel: Ein Arzt schätzt die folgenden Wahrscheinlichkeiten: P (D) = 0.3 P (S1 | D) = 0.6 P (S1 ∧ S2 | D) = 0.4 P (S1 | ¬D) = 0.2 P (S1 ∧ S2 | ¬D) = 0.1 P (S1) = P (S1 | D)P (D) + P (S1 | ¬D)P (¬D) = 0.32 P (S1 | D)P (D) 0.6 · 0.3 P (D | S1) = = P (S1) 0.32 P (S1 ∧ S2 | D)P (D) 0.4 · 0.3 P (D | S1 ∧ S2) = = P (S1 ∧ S2) 0.19 DVEW – WS 2004/05 – c Gabriele Kern-Isberner ≈ 0.563 ≈ 0.632 30 Probabilistische Logik Syntax: L aussagenlogische Sprache (über Σ) Lprob = {A[x] | A ∈ L, x ∈ [0, 1]} (L|L)prob = {(B|A)[x] | A, B ∈ L, x ∈ [0, 1]} Semantik – Interpretationen sind die Wahrscheinlichkeitsfunktionen über der Signatur Σ. Semantik – Erfüllungsrelation: P |= A[x] gdw. P (A) = x P |= (B|A)[x] gdw. P (B|A) = x DVEW – WS 2004/05 – c Gabriele Kern-Isberner 31 Probabilistische Regeln Regeln in der Probabilistik – Wahrscheinlichkeit von Implikationen oder bedingte Wahrscheinlichkeiten? P (B|A) ≤ P (A ⇒ B) = P (¬A ∨ B) A B P (·) 0 0 0.04 0 1 0.95 1 0 0.01 1 1 0 P (B|A) = 0, aber P (A ⇒ B) = 0.99! Probabilistische Regeln werden im Folgenden immer durch bedingte Wahrscheinlichkeiten interpretiert! DVEW – WS 2004/05 – c Gabriele Kern-Isberner 32 Statistische Unabhängigkeit Zwei Formeln A und B sind (statistisch) unabhängig gdw. P (A ∧ B) = P (A) · P (B) gdw. P (A|B) = P (A) Zwei (disjunkte) Mengen A, B atomarer Propositionen heißen (statistisch) unabhängig gdw. P (a ∧ b) = P (a) · P (b) für alle Vollkonjunktionen a, b über A, B. (Vollkonjunktionen enthalten alle Atome in positiver oder negierter Form.) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 33 Bedingte Unabhängigkeit ≈ Unabhängigkeit unter gewissen Umständen A, B, C (disjunkte) Mengen atomarer Propositionen mit P (c) > 0 für alle Vollkonjunktionen c über C A |= A und B heißen bedingt unabhängig gegeben C, in Zeichen P B|C gdw. P (a ∧ b|c) = P (a|c) · P (b|c) gdw. P (a|c ∧ b) = P (a|c) Bedingte Unabhängigkeit gegeben ∅ = statistische Unabhängigkeit DVEW – WS 2004/05 – c Gabriele Kern-Isberner 34 Beispiel – (bedingte) Unabhängigkeit G = {f em, mal} S = {sm, sm} M = {mar, mar} P = {preg, preg} Geschlecht (f em = female, mal = male) Raucher (smoker) verheiratet (married) schwanger (pregnant) mar preg preg mar preg preg DVEW – WS 2004/05 – c Gabriele Kern-Isberner mal sm sm 0.00 0.00 0.04 0.16 0.00 0.00 0.10 0.20 f em sm sm 0.01 0.05 0.02 0.12 0.01 0.01 0.07 0.21 35 Beispiel (Forts.) P (f em)=0.5 = P (mal), P (sm)=0.25, P (preg)=0.08, P (mar)=0.4 P (f em|sm) = 0.44 6= P (f em) ⇒ Geschlecht und Raucher sind nicht unabhängig; Geschlecht und verheiratet sind (statistisch) unabhängig, aber bedingt abhängig gegeben schwanger , denn: P (f em ∧ mar|preg) ≈ 0.152 6= 0.169 ≈ P (f em|preg) · P (mar|preg) DVEW – WS 2004/05 – c Gabriele Kern-Isberner 36 Monty Hall Puzzle 1/2 Sie sind Kandidat in einer Spielshow, und Sie müssen eine von drei Türen auswählen. Hinter einer Tür ist ein Porsche (den Sie gewinnen können), hinter den anderen beiden Türen sind Ziegen. Sie wählen eine Tür, und der Quizmaster Monty Hall (der weiß, was hinter den Türen ist), öffnet eine andere, hinter der sich eine Ziege befindet. Monty Hall gibt Ihnen danach die Möglichkeit, Ihre Entscheidung zu revidieren und die dritte Tür zu nehmen. Sollten Sie Ihre Entscheidung revidieren oder nicht? Marylin Vos Savant in ihrer Rätsel-Kolumne in der New York Times DVEW – WS 2004/05 – c Gabriele Kern-Isberner 37 Monty Hall Puzzle 2/2 G R A Sie gewinnen den Porsche Sie revidieren Ihre Entscheidung Hinter Ihrer vorher ausgewählten Tür ist der Porsche P (G|R) = P (G|RA)P (A|R) + P (G|RA)P (A|R) = 0 · P (A|R) + 1 · P (A|R) = P (A|R) = P (A) = 2/3 P (G|R) = P (G|RA)P (A|R) + P (G|R A)P (A|R) = 1 · P (A|R) + 0 · P (A|R) = P (A|R) = P (A) = 1/3 DVEW – WS 2004/05 – c Gabriele Kern-Isberner 38