Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik !"$# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung % Vorbemerkungen % Wissen % Wissensverarbeitung % Wissensmanagement % Data Mining Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1 1. Einführung Vorbemerkungen Allgemeines zur Vorlesung % Es gibt eine Homepage zur Vorlesung: &('*))+++,-./"0&/&!10#)23 ,45)6+5678:9 :;!:) % Die Vorlesung wird folienbasiert gehalten. % Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der Vorlesung zur Verfügung. % Format: PDF, zwei- und vierseitig % Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen. % Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 2 Vorbemerkungen Übungen % In die Vorlesung integriert % Das erste Übungsblatt gibt es am zweiten Vorlesungstermin. % Bearbeitungszeit: abhängig von den Aufgaben, i.d.R. eine oder zwei Wochen % Theorie- und Programmieraufgaben Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3 1. Einführung Vorbemerkungen TB, LN, Prüfung % TB: Anwesenheit, ein paar Übungsaufgaben demonstrieren % LN: Übungsaufgaben ++, (Richtlinie 50% der zu vergebenden Punkte) % Prüfung Diplom: Zusammen mit dem Stoff aus dem 6. Semester für “Ausgewählte Kapitel ...” % Prüfungsform: mündlich (Witt/Becker) % Prüfungstermine: 7.2.2001 und 3.4.2001 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 4 Vorbemerkungen Literatur C. Beierle, G. Kern-Isberner, Methoden wissensbasierter Systeme, Vieweg, 2000. J. Heinsohn, R. Socher-Ambrosius, Wissensverarbeitung: Eine Einführung, Spektrum Akademischer Verlag, 1999. K. W. Tracy, P. Bouthoorn, Object-oriented Artificial Intelligence Using C++, Computer Science Press, 1997. E. Rich, Artificial Intelligence, McGraw-Hill, 1983. M. R. Genesereth, N. J. Nilsson, Logische Grundlagen der Künstlichen Intelligenz, Vieweg, 1989. T. A. Runkler, Information Mining, Vieweg, 2000. M. Ester, J. Sander, Knowledge Discovery in Databases, Springer, 2000. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5 1. Einführung Vorbemerkungen Inhalt (geplant) 1. Einführung 2. Intelligente Suchverfahren 3. Aussagen- und Prädikatenlogik 4. Regelsysteme und Regelinterpreter 5. Induktion von Regeln 6. Clusteranalyse 7. Probabilistische Netze Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 6 1. Einführung Wissen Daten, Information, Wissen Auswirkungen von 1 Euro = 0.96 Dollar auf Zinsen und Aktienkurse Devisenkurs 1 Euro = 0.96 Dollar Wissen Ergebnis eines Lernvorgangs Information Kontext 0.96 Daten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 7 1. Einführung Wissen Wissen: Versuche einer Definition % Knowledge is organized information applicable to problem solving. (Woolf) % Knowledge is information that has been organized and analyzed to make it understandable and applicable to problem solving or decision making. (Turban) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 8 Wissen Wissen, Kennen, Können Umgangssprachlich bezeichnet man das Ergebnis eines Lernvorgangs als % wissen, wenn es sich um sprachlich-begriffliche Fähigkeiten handelt, % kennen, wenn es sich um sinnliche Wahrnehmung handelt, % können, wenn es sich um motorische Fähigkeiten handelt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 9 1. Einführung Wissen Arten von Wissen explizit implizit Ableitung präzise unsicher Wissen Art unvollständig vage Repräsentation Kontollstrategie Regeln Fakten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 10 Wissensverarbeitung Wissensebenen % kognitive Ebene (z.B. Erfahrung von Experten, Arbeitsanweisungen) % Repräsentationsebene (z.B. Aussagenlogik, Prädikatenlogik) % Implementierungsebene (z.B. Prolog-Statements) ☞ Bei der Wissensverarbeitung und der Künstlichen Intelligenz stehen die Repräsentationsebene und die Implementierungsebene im Vordergrund (Schließen der KI-Lücke). ☞ Beim Wissensmanagement stehen die kognitive Ebene und die Repräsentationsebene im Vordergrund. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 11 1. Einführung Wissensverarbeitung Daten- vs. Wissensverarbeitung Algorithmische Problembeschreibung Daten Software− Entwickler Programm Anwendungsspezifisches Wissen Wissen (Fakten und Regeln) Wissens− ingenieur Inferenz− maschine Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 12 Wissensmanagement Wissensmanagement Versuch von Definitionen: % Wissensmanagement ist ein ganzheitliches, integratives Konzept, das psychologische, organisatorische und informationstechnologische Faktoren beinhaltet, um die effektive Erschließung und den Transfer von Wissen zu gewährleisten. (Wilkens, 1997) % Sammlung von Techniken, um Wissen in einem Unternehmen effizienter zu erfassen, zu organisieren und zugänglich zu machen. (Reimann et al., 2000) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 13 1. Einführung Wissensmanagement Aufgaben des Wissensmanagements Wissensmanagement Knowledge management Wissenserschließung Wissensverteilung Knowledge Capture Knowledge Dissemination Data Warehouse Knowlede Discovery Data Mining Dokumentenanalyse Multimedia Discovery XML und KM WWW und KM Information Retrieval Wissensportale Wissenslandkarten Dokumenten−Management Workflow Management Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 14 Wissensmanagement Data Warehouse, Online Analytical Processing und Knowledge Discovery in Databases KDD OLAP strukturelle Analysen Assoziationsregeln 1 1,2 Multidimensionale Sichten Analysen, Kalkulationen 1,2,3,4,5 2 3,4,5 3 4 5 Data Warehouse Informationsspeicherung Informationsverdichtung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 15 1. Einführung Data Mining Knowledge Discovery in Databases Wissensentdeckung in Datenbanken ist % ein nichttrivialer Prozeß, % um Beziehungsmuster in den Daten zu entdecken, % die für einen großen Teil des Datenbestandes gültige, % bislang unbekannte, % potentiell nützliche und % leicht verständliche Zusammenhänge zum Ausdruck bringen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 16 1. Einführung Data Mining Prozeß des Knowledge Discovery in Databases Wissen Rohdaten Selektion Vorverar− beitung Transfor− mation Data Mining Interpre− tation Cluster−Analyse Klassifikation Mustersuche Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 17 1. Einführung Data Mining Cluster-Analyse: Technik des Data Mining Gegeben sei eine Menge von Punkten im IR < . Wie kann man die Häufungen algorithmisch erkennen? ☞ Berechnung eines minimal spannenden Baums und ☞ Elimination zu langer Kanten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 18 Einführung 2 Suchverfahren % Sehr viele Probleme der Wissensverarbeitung lassen sich auf ein Suchproblem zurückführen. % Die Eigenschaften und Lösungsverfahren von Suchproblemen sind daher von grundlegender Bedeutung für die Wissensverarbeitung. % Suchverfahren sind ein klassisches Kapitel innerhalb der Wissensverarbeitung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 19 2. Suchverfahren Einführung Färbeproblem B C D E A Beispiel 2.1. Die angegebene Landkarte mit den Ländern A, B, C, D und E ist so mit den Farben rot, blau, gelb und orange zu färben, daß keine zwei benachbarten Länder die gleiche Farbe haben. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 20 Einführung Färbeproblem (2) % Ein naives generate-and-test Verfahren würde => mögliche Farbkonstellationen prüfen. % Allgemein sind ?A@ Farbkonstellationen zu prüfen, mit ? der Farben und EFBGC Anzahl der Länder. BDC Anzahl ☞ Ineffizient! Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 21 [b,g,o,r,g] 23 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 22 Die Schritte im Laufe der Problemlösung lassen sich durch Zustandsübergangsoperatoren beschreiben. H Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 [b,g,r,o,g] E −> g [b,g,o,r,−] H E −> g [b,g,r,o,−] H Ziel ist es, eine komplette zulässige Färbung zu erreichen. XI D −> r Die Problemlösung startet mit der leeren Färbung . QRDS K D −> o [b,g,o,−,−] H Nach der Zuordnung man direkt abbrechen. kann So kann man Zwischenzustände bei der Problemlösung durch Teilfärbungen beschreiben, etwa H TO [b,g,r,−,−] [o,−,−,−,−] IJ IJ C −> o [g,−,−,−,−] Einführung Es scheint sinnvoller zu sein, die Länder der Reihe nach zu färben. Färbeproblem (3) TO C −> r [b,o,−,−,−] [r,−,−,−,−] A −> g 2. Suchverfahren QRDS K P NM O KL [b,g,−,−,−] B −> g B −> o [b,−,−,−,−] A −> r A −> b A −> o [−,−,−,−,−,] Suchbaum Einführung U RW KV [b,r,−,−,−] B −> r 2. Suchverfahren H XQ XT RDQ S K P 2. Suchverfahren Einführung Suchbaum (2) % Die Lösung des Färbeproblems läßt sich als Suchbaum darstellen. % Die Knoten des Suchbaums entsprechen den Zuständen (zulässige Teilfärbungen). % Die Kanten entsprechen den Operatoren. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 24 2. Suchverfahren Einführung Routenproblem B E A Ziel F Start C D Beispiel 2.2. Gegeben ist eine Karte mit Städten und Straßen, die die Städte miteinander verbinden. Gesucht ist eine Route von einem Startort zu einem Zielort. Suchbaum: Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 25 Zustandsraum Zustandsraum Ein Zustand stellt das Wissen zu einem bestimmten Zeitpunkt der Lösungsfindung dar. Für Suchproblem läßt sich das Wissen repräsentieren durch: 2. Suchverfahren Der Zustandsraum ist die Menge aller Zustände. H Zustandsübergangsoperatoren beschreiben, wie ausgehend von einem Zustand andere Zustände des Zustandsraums erreicht werden können. H Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Der Startzustand ist der Zustand, der zu Beginn der Lösungsfindung vorliegt. Er läßt sich explizit angeben. H 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 H 26 Die Menge der Zielzustände charakterisiert die Lösungen des Problems. Zielzustände lassen sich in der Regel nur implizit angeben, z.B. über ein Testprädikat. H Zustandsraum Zustandsraum und Suchbaum % Die Knoten eines Suchbaums stellen die Zustände dar. % Die Kanten entsprechen den Zustandsübergangsoperatoren. % Die Wurzel entspricht dem Startzustand. % Die Zielknoten sind die Zielzustände. % Die Berechnung der Nachfolger eines Knotens Y wird als Expansion des Knotens Y bezeichnet. 27 2. Suchverfahren Zustandsraum Zustandsraum und Suchbaum (2) % Der Zustandsraum beschreibt nur, wie man prinzipiell zu einer Lösung gelangen kann, % aber nicht, wie man effizient zu dieser kommt. % Ganz wesentlich für eine effiziente Problemsösung sind: ☞ das Verfahren, das festlegt, in welcher Reihenfolge die Zustände untersucht bzw. expandiert werden sowie ☞ die Bewertung der einzelnen Zustände. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 28 Uninformierte Suchverfahren Uninformierte Suchverfahren % Suchverfahren, die über die Beschreibung des Zustandsraums hinaus keine Zusatzinformation benutzen, heißen uninformierte Suchverfahren. % Insbesondere findet keine Bewertung der einzelnen Zustände statt. % Dementsprechend unterscheiden sich die Verfahren im wesentlichen darin, in welcher Reihenfolge die Zustände expandiert werden. % Die wichtigsten Vertreter der uninformierten Suchverfahren sind die Breitensuche und die Tiefensuche. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 29 2. Suchverfahren Uninformierte Suchverfahren Uninformierte Suchverfahren (2) Z Ausgehend von der Wurzel des Suchbaums (Startzustand) werden die Knoten sukzessive expandiert. Z Später wird man von den Nachfolgern des expandierten Knotens weiterarbeiten, solange bis man einen Zielknoten gefunden hat. Z Die Liste der Knoten, die gerade in Bearbeitung sind, heißt Agenda (open list). Z Knoten der Agenda sind generiert, aber noch nicht expandiert. Z Expandierte Knoten werden auch als closed bezeichnet. _` \^] [ _` \^] [ 31 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 [ \] _` \^] Breiten- und Tiefensuche unterscheiden sich darin, wo die Nachfolger in die Agenda eingefügt werden. _` 30 Ist kein Zielzustand, so wird expandiert, werden in die Agend.h. alle Nachfolger von da eingefügt. [ _` \^] Wenn ein Zielzustand ist, hat man eine Lösung gefunden. [ In einer beliebigen Iteration wird der erste Knoten aus der Agenda genommen. [ Zu Beginn der Suche besteht die Agenda aus dem Startzustand. Breitensuche und Tiefensuche laufen nach dem gleichen Schema ab. Uninformierte Suchverfahren (3) 2. Suchverfahren Uninformierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Uninformierte Suchverfahren Tiefensuche ☞ Bei der Tiefensuche werden die Nachfolger eines expandierten Knotens abced an den Anfang der Agenda eingefügt. Z Die Agenda entspricht einem Kellerspeicher (Stack). Z Liefert ein Knoten, der kein Zielknoten ist, keine neuen Knoten, so wird die Suche fortgesetzt an dem nächstgelegenen Knoten, für den noch nicht alle Nachfolger expandiert wurden. Z Dies entspricht einem Backtracking. 33 A B E K F C G Agenda (A) (B,C,D) (E,F,C,D) (K,F,C,D) (F,C,D) (C,D) (G,H,D) Schritt 1 2 3 4 5 6 7 G K F Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 I D H \] C B A E 2. Suchverfahren 32 _` Tiefensuche (2) Uninformierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Uninformierte Suchverfahren Breitensuche ☞ Bei der Breitensuche werden die Nachfolger eines expandierten Knotens ab/cfd an das Ende der Agenda eingefügt. Z Die Agenda entspricht einer Warteschlange (Queue). 35 Schritt 1 2 3 4 5 6 7 G K F Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Agenda (A) (B,C,D) (C,D,E,F) (D,E,F,G,H) (E,F,G,H,I) (F,G,H,I,K) (G,H,I,K) H A B C D E F G I D C B E 2. Suchverfahren 34 _` \] A Breitensuche (2) Uninformierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Uninformierte Suchverfahren Algorithmen Algorithmus 2.1. [Tiefensuche] g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~ i & g h:jklnq rt|: oDq tx u3rgihjkmln|e~ a b/cfd a Entferne a b/cfd aus der Agenda; 6 6 d ist gihjakmbceld nistoDqZielknoten n377{^hj/ xr ab/|}cf g h:Ljösung; kln5~ STOP; abced Problem hat keine Lösung; STOP; Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 36 Uninformierte Suchverfahren Algorithmus 2.2. [Breitensuche] g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~ i & g h:jklnq rt|: oDq tx u3rgihjkmln|e~ ab/cfd a Entferne a b/cfd aus der Agenda; 6 6 gihjakmbceld nistoDqZielknoten g h:jkln n/7a5b/{cfdhist jxrLösung; |f~ STOP; ab/cfd Problem hat keine Lösung; STOP; Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 37 Uninformierte Suchverfahren 39 Beispiele c h g f l k e n m Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Tafel ✎. a b j d i nach 38 mit Uninformierte Suchverfahren Beispiel 2.3. Suche einen Weg von Tiefensuche bzw. Breitensuche. 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Tafel ✎. Die Krüge sollen so umgefüllt werden, daß der 9Liter-Krug sechs Liter und der 4-Liter-Krug drei Liter enthält. Der 9-Liter-Krug ist gefüllt, die anderen sind leer. Auf den Krügen sind keine Litermarkierungen angebracht. Beispiel 2.4. Ein Weinhändler hat drei Krüge, einen von 9 Liter, einen von 7 Liter und einen von 4 Liter Inhalt. 2. Suchverfahren 2. Suchverfahren Uninformierte Suchverfahren Eigenschaften von Suchverfahren Definition 2.1. Ein Suchverfahren heißt vollständig, wenn für jeden Suchbaum jeder Knoten expandiert werden könnte, solange noch kein Zielknoten gefunden wurde. Z Ein vollständiges Suchverfahren ist fair in dem Sinne, daß jeder Knoten die Chance hat, expandiert zu werden. Z Ein vollständiges Sucherfahren findet auch bei unendlichen Suchbäumen stets eine Lösung, falls eine existiert. Z Breitensuche ist vollständig. Z Tiefensuche ist nur bei endlichen Suchbäumen vollständig. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 40 Uninformierte Suchverfahren Eigenschaften von Suchverfahren (2) Definition 2.2. Für ein uninformiertes Suchverfahren heißt eine Lösung optimal, wenn sie unter allen Lösungen die geringste Tiefe im Suchbaum aufweist. Breitensuche findet eine optimale Lösung (falls existent), Tiefensuche nicht. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 41 2. Suchverfahren Uninformierte Suchverfahren Eigenschaften von Suchverfahren (3) Komplexitäten: Z Für Breiten- und Tiefensuche ist der ungünstigste Fall, daß die Lösung in der “äußersten rechten Ecke” des Suchbaums liegt. Z q Zeitkomplexität des Zielknotens. r¡ d | ¢q u£q , mit Verzweigungsrate und Tiefe Z Bei der Tiefensuche enthält die Agenda die Knoten des aktuellen q ¡r ¤uz| Platzkomplexität . Suchpfades sowie deren Nachfolger Z Bei der Breitensuche kann die Agenda eine komplette Ebene des q ¡r d | Platzkomplexität . Suchbaums enthalten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 42 Informierte Suchverfahren Informierte Suchverfahren Z Für größere Suchbäume sind Breiten- und Tiefesuche nicht effizient genug. Z Vielversprechender sind Ansätze, bei denen Problemwissen zur Steuerung des Suchprozesses eingesetzt wird. Z Dies kann dadurch geschehen, daß die Zustände (Knoten) danach bewertet werden, wie erfolgversprechend sie sind. Z Man schätzt beispielsweise für jeden Knoten, wie nahe er an einem Zielknoten liegt. Z Solch eine Bewertung nennt man heuristische Funktion. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 43 2. Suchverfahren Informierte Suchverfahren Heuristische Funktion Definition 2.3. Eine Funktion, die jedem Zustand (Knoten) a eines Zu¥r | standsraums (Suchbaums) eine nichtnegative Zahl a zuordnet, ¥r |"q ¦ heißt heuristische Funktion. Für einen Zielzustand a gilt dabei a . Ein Suchverfahren, das eine heuristische Funktion zur Auswahl der zu expandierenden Zustände einsetzt, heißt informiertes Suchverfahren oder auch heuristisches Suchverfahren. ® « \¬ ª ¨*° [ 45 . ® ± µ² ±² ´² ±² ³² ³² ±² ® «\ ª ¨*° Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 . «\ ª ¨*© ¶· Hier: «­\¬ ª ¨*© [ ® Summe der Entfernungen aller Plättchen von der Zielposition. ® ¯ Hier: stand Startzustand Mögliche heuristische Funktionen: 6 8 2 4 1 3 44 Anzahl der Plättchen, die nicht an der richtigen Stelle liegen. Endzu3 4 5 2 1 8 7 § 5 6 7 Beispiel 2.5. [Schiebepuzzle] Heuristische Funktion (2) 2. Suchverfahren Informierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Informierte Suchverfahren Heuristische Funktion (3) m¸"q ¹ º»q ¼ 2 7 8 1 6 m¸q ¹ º¾q ¿ 3 ½ 4 5 8 2 7 1 6 m¸1q ¹ ºiqÀ 3 ½ 4 5 8 2 7 1 6 m¸1q ¹ ºiq ¹ 3 ½ 4 5 8 7 1 2 6 3 4 5 Á 1 8 7 2 m¸"6q ¦ º»q ¦ 3 4  5 1 8 7 2 6 m¸q à º¾q à 3 4  5 8 7 1 2 6 m¸1q Ä ºiq Ä 3 4 5 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 46 Informierte Suchverfahren Heuristische Funktion (3) Z Die heuristische Funktion º differenziert stärker als m¸ , d.h. Z º kann Zustände unterscheiden, die von Ÿ gleich bewertet werden. Z Eine heuristische Funktion ist um so brauchbarer, je mehr Zustände sie unterschiedlich bewertet. Z Eine heuristische Funktion, die alle Zustände gleich bewertet, ist unbrauchbar. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 47 2. Suchverfahren Informierte Suchverfahren Bestensuche Z Bei der Bestensuche erfolgt die Expansion eines Knotens auf Basis der heuristischen Funktion. Z Hierzu werden in der Agenda die Knoten zusammen mit ihrer Bewertung abgelegt. Z Es wird nun jeweils der Knoten der Agenda expandiert, der die geringste Bewertung aufweist. Z Die Agenda hat also die Form einer Prioritätswarteschlange (priority queue). Z Ansonsten ist die Bestensuche analog zur Tiefen- und Breitensuche. K:− A B C G Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 G:0 F:8 E:7 Schritt 1 2 3 4 H:2 Agenda A:9 B:4, C:5, D:6 C:5, D:6, E:7, F:8 G:0, H:2, D:6, E:7, F:8 I:− _` \^] C:5 B:4 A:9 Bestensuche (2) D:6 Informierte Suchverfahren 2. Suchverfahren 48 49 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Informierte Suchverfahren Algorithmus zur Bestensuche Algorithmus 2.3. [Bestensuche] g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~ i & g h:jklnq rt|: oDq tx u3rgihjkmln|e~ ab/cfd a Entferne ab/cfd aus der Agenda; 6 6 gihjakmbceld nistoDq Zielknoten jtkÆÇjÈh:jk" r­g h:jkab/lcfn5d ÉÊist nL/ösung; 75{^h:jxSTOP; r |z|f~ a / b f c d Problem hat keine Lösung; STOP; Beispiel 2.6. Suchbaum für Beispiel 2.5 mit Bestensuche. Tafel ✎ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 50 Informierte Suchverfahren Eigenschaften der Bestensuche Definition kÌËͦ 2.4. Eine heuristische Funktion ¥heißt r |1ÎÍfair k gdw. es zu jenur endlich viele Knoten a gibt mit a . dem Z Fairness entspricht der Vollständigkeit bei uninformierten Suchverfahren. Z Ist eine heuristische Funktion fair, so wird ein Zielknoten gefunden, falls ein solcher existiert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 51 Die Kosten Informierte Suchverfahren aÐ a aÒ eine Folge von Zuständen Definition ¸ 2.5. Es sei Ï und aÓÕÔ sei durch Anwendung eines Zustandsübergangsoperators auf aÓ erreichbar. q r Beim Übergang von aÓ nach aÓ^Ô an. [ 2. Suchverfahren É ¸fÉ/Ñ/Ñ/Ñ3É ¸ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 fallen Kosten in Höhe von C D Ziel yÅr Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 52 Bestensuche wählt A,B,D, obwohl A,C,D kürzer ist. Start A Beispiel 2.7. Routenproblem: Man finde einen kürzesten Weg von A nach B. Die heuristische Funktion sei als die Luftlinienentfernung zum Zielknoten definiert. B Wird die Güte einer Lösung charakterisiert durch diese Operatorkosten, so findet die Bestensuche allgemein keine optimale Lösung. Die Bestensuche vernachlässigt die “Kosten” bei der Anwendnung der Operatoren. Bestensuche und Optimalität 2. Suchverfahren [ Informierte Suchverfahren Bewertung von Lösungen | É ¸z| aÓ a Ó^Ô yÅr | Ï der Zustandsfolge seien definiert durch: ¸ Ò3Ö yÅr |(oDq ymr É ¸z| Ï aÓ aÓÕÔ ÓÕ×Ð 53 Zulässiger Schätzer Informierte Suchverfahren à ¨ «\ ª¨ \ «\ ª ¨á [ die Luftlinienentfernung beim Routenproblem. [ [ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 55 Bei kombinatorischen Optimierungsproblemen werden als zulässige Schätzer häufig effizient lösbare Relaxationen des Problems verwendet. Beispiel: minimaler Spannbaum als Relaxation für die Berechnung eines minimalen Hamiltonschen Weges. Problem: Finde (falls möglich) eine Zustandsfolge Ï vom Startzustand aÐ in einen Zielzustand ß , die minimale Kosten aufweist, d.h. | die heuristischen Funktionen aus Beispiel 2.3 für das Schiebepuzzle und ymr Ø " | q Ø r Ï aÐ ymr Ø " | q ÙÚ ÛfÜ3h Ï oDq oDq Beispiel 2.8. Zulässige Schätzer sind: h Ør | a Ør | a Definition 2.6. Eine heuristische Funktion heißt zulässiger Schätzer bzw. zulässig gdw. für alle Zustände des Zustandsraums. 2. Suchverfahren 2. Suchverfahren Informierte Suchverfahren Für einen Zustand a sei: ÙÚÛfÜyÅr | Ý Ï Ï ist Weg vom Startzustand nach aÞ ÙÚÛfÜyÅr |Ý Ï Ï ist Weg von a zu einem Zielzustand Þ Ø bzw. Ø r /| Ý ß ß ist Zielzustand Þ . 54 Informierte Suchverfahren Der A*-Algorithmus Der A*-Algorithmus basiert auf: 2. Suchverfahren ªâ 1. einer Bewertung für die Zustände, wobei die bisher geringsten Kosten zur Erreichung des Zustands angibt, «\ «\ ªâ 2. einer (üblicherweise zulässigen) heuristischen zur Schätzung der Restkosten und Funktion \ «²\ ªâ «\ ªã Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ® 2. Suchverfahren «\ ªã Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 56 ☞ Es wird der Knoten der Agenda expandiert, der die geringste Bewertung aufweist. Steuerung der Suche bei A*: , die 3. einer Bewertungsfunktion zur Auswahl des zu expandierenden Zustandes dient. «\ ª¨ «\ ª¨ Informierte Suchverfahren Der A*-Algorithmus (2) Folgende Punkte sind beim A*-Algorithmus zu berücksichtigen: Z Durch eine Verringerung von hÅr a | für einen Zustand a kann auch eine r | Verringerung von ä a auftreten. Z Dies kann im allgemeinen auch für schon expandierte Knoten der Fall sein! Z Deshalb werden schon expandierte Knoten in einer speziellen Liste Closed verwaltet. Z Bewertungen sind dementsprechend anzupassen. 57 2. Suchverfahren Füge ý ûü ûü ûü 59 Informierte Suchverfahren Der A*-Algorithmus (3) Algorithmus 2.4. [A*] 2. Suchverfahren ýþ ÿ ý^þ «­í æ í ø ð ñ ë é æì µ í ® ï ® «ª ÷ é ê « ¬ « ö ® ª è é æ æ ç ® é é æ â ç ¬ ë æì ë æì å ê ê æâ é é ðñõô å ªè é â ªè é î ó ò «­í ç æâ å ª ùú éê \ _` \] ® ¬ _` \^] _` ý ý \^] ÿ üû ýÕþ ûü ü ý ý ý ýþ "! ! ý ÿ $ '& % ýþ ÿ ý^þ ÿ ( # # ) ý ý + ûü ý - % $ ý ý ( ýþ ÿ ý^þ ÿ ý ý^þ ÿ ,& ýþ ý ÿ ýþ ÿ & % $ # # ! ! ) ý ûü ý ý aus Closed; "( Entferne * 58 ý Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 "( in die Agenda mit Bewertung Füge ein; Entferne aus der Agenda; Füge in Closed ein; ist Zielknoten ist Lösung; STOP; Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Problem hat keine Lösung; STOP; in die Agenda ein; Informierte Suchverfahren ÿ A*-Anwendungsbeispiel Informierte Suchverfahren 9 9 9 61 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 9 – Für eine Tour muß man jede Stadt mindestens einmal Anfahren bzw. sie verlassen. – Summe der Zeilenminima der Entfernungsmatrix plus Summe der Spaltenminima einer reduzierten Matrix ist ein zulässiger Schätzer. Schätzung: . Den bisher besten Weg zu einem Knoten erhält man also, in dem man von sukzessive den Verweisen folgt. 0213/54 enthaltene Kanten Für einen Knoten besten Weg an. gibt Zielzustand: / . / Zustandsübergang: Ein- bzw. Ausschluß einer Kante Zustand: Menge von Kanten, die enthalten bzw. ausgeschlossen sind Asymetrisches Traveling Salesman Problem: 2. Suchverfahren 2. Suchverfahren Informierte Suchverfahren Der A*-Algorithmus (4) den Vorgängerknoten auf dem bisher / 061874 . Alternativ kann man an jedem Knoten den kompletten bisher optimalen Pfad speichern. . Der notwendige Speicherplatzverbrauch für die Pfade ist dann aber quadratisch in der Länge des Suchpfades. 60 ; < & ; & & : < : : 113 0 0 6 6 12 63 4 45 39 28 3 17 90 46 88 2 3 3 93 77 80 88 18 4 13 42 36 33 46 : : 0 29 32 3 0 1 83 21 85 2 0 3 75 58 58 48 0 4 2 30 12 0 35 5 33 21 16 56 5 30 17 0 49 92 89 6 9 16 28 7 25 6 6 12 12 0 0 62 Informierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1 2 3 4 5 6 1 Reduzierte Matrix: Erste Abschätzung: 81 1 2 3 4 5 6 1 Entfernungsmatrix: 2. Suchverfahren : : : Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 0 5 30 17 0 ; : 1 21 = 4 2 30 & 2 0 = : 81 und mit 5 30 17 0 49 ; : 0 29 3 < 1 : und ohne 0 4 2 30 12 : 1 2 3 5 : 1 83 21 : : Mit & : Mit ; 0 29 32 3 1 2 3 4 5 & 2 0 : 129 Informierte Suchverfahren : 1 ; : 18 + 63 = 81 < Mit Kante Ohne Kante 2. Suchverfahren : : : : : 64 & ; & 1 3 5 & < ; & ; & : 114 , ohne , ohne @ & & & & & < ? & ; = ; ; & = & < & Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2 ; Mit & Mit ; & < & & > @ & ? & ? ; = & & & < ; & = & & < ; & Mit : ? Mit 5 28 0 & < ? = & > & & = & ? ; Mit & < & & = & ; 0 20 & = @ & & ? & > ; : 4 0 & & > ; = : & ? Mit & ; & ? & , ohne & Mit & ? ? @ > & , ohne & > & ? = ? & > ? < = 0 : 84 ? & @ : 84 : 101 = & > Mit & , ohne @ ? : 127 : 103 > 2. Suchverfahren : 104 : 104 Informierte Suchverfahren 2. Suchverfahren Informierte Suchverfahren A* und andere Suchverfahren Bemerkung 2.1. Der A*-Algorithmus enthält die folgenden Algorithmen als Spezialfälle: . Für ACBED und . Für AIG erhält man die Bestensuche. . Für AIG . Für und erhält man die Tiefensuche, wenn man Wiederbelebungen verbietet (Übergang von Closed in die Agenda). AKG D J und LMJ erhält man den Dijkstra-Algorithmus. FHG FHG D D FNG erhält man die Breitensuche. D Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 65 V V V . . F ausgehend von den. Eigenschaften von A* Informierte Suchverfahren 021"W\4 es existiere , so daß für die Kosten einem Zustandsübergang stets gilt und ý % ý P Q ý ý % & O 9 R O & 9 die minimalen Kosten ergeben sich durch Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 T XY1ZW[4 U 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 66 Bemerkung 2.2. Unter den gegebenen Voraussetzungen endet die Suche u.U. in einem nicht optimalen Zielzustand. Beweis. Tafel ✎. Dann terminiert A* nach endlich vielen Schritten mit dem Erreichen eines Zielzustandes. es gibt einen erreichbaren Zielzustand. bei Jeder Zustand besitzt nur endlich viele Nachfolgerzustände, Satz 2.1. [Terminierung, Fairness] Es gelte: 2. Suchverfahren 9 P S Informierte Suchverfahren Eigenschaften von A* (2) Satz 2.2. [Optimalität] Es gelte: Gegeben sind die Voraussetzungen von Satz 2.1 und ist zulässig. Dann ist der Zielknoten , mit dem A* terminiert, ein optimaler Zielknoten, W und kann eine optimale Zustandsfolge ermittelt wer- 67 2. Suchverfahren Beweis. Tafel ✎. Informierte Suchverfahren ] Korollar 2.3. Gegeben seien die Voraussetzungen von Satz 2.2. Der gefundene optimale Zielknoten sei . Dann wurden während des Laufs expandiert. von A* nur Zustände mit W / ^_1`/a4cbdXe1ZW\4 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 68 2. Suchverfahren Informierte Suchverfahren Wahl guter Schätzer . Die Eigenschaften der heuristischen Funktion haben einen wesentlichen Einfluß auf die Performanz der Suche mit A*. . Eine zulässige heuristische Funktion ist um so besser, je näher sie dem Optimalwert zur Erreichung eines Zielzustandes kommt. Definition 2.7. Für zwei zulässige Schätzer . F f . f besser informiert als F / F gdw. Fh13/54cijF nicht schlechter informiert als gilt. F gdw. f 13/a4 F und heißt: für alle Zustände Fh13/54kbjF Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Fgf f 13/a4 / gilt. für alle Zustände 69 2. Suchverfahren Informierte Suchverfahren Wahl guter Schätzer (2) Satz 2.4. Es gelte: . Gegeben sind die Voraussetzungen von Satz 2.2, .ml l bzw. seien A*-Algorithmen, die zulässige Schätzer verwenden und . f V F f F bzw. f F sei besser informiert als . F Dann wird jeder Zustand , der von expandiert. / Beweis. Tafel ✎. l f expandiert wird, auch von l ] Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 70 2. Suchverfahren Informierte Suchverfahren Monotone Schätzer Definition 2.8. Gegeben sei eine nichtnegative Kostenfunktion . Eine heuristische Funktion heißt monotoner Schätzer gdw. gilt: A F . . Fh1ZW\4on D für alle Zielzustände . Für alle Zustände / W und alle Nachfolger Fh13/54kbjAY13/rqs/ /pf von f 4utvFh13/ / gilt: f 4 Beispiel 2.9. Alle Schätzer aus Beispiel 2.8 sind auch monotone Schätzer. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 71 * w P ý * ý T T 3. Suchverfahren 72 U Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 P Es gibt keine Wiederbelebung von Zuständen, d.h. ein Knoten, der expandiert wurde, wird nie mehr selektiert. auch ein zulässiger Schätzer. T ý Beweis. Tafel ✎. 9 Ist der Knoten durch Expansion des Knotens entstanden, so gilt . Dann ist sei ein monotoner Schätzer. Gegeben sind die Voraussetzungen von Satz 2.1 und Satz 2.5. Es gelte: Monotone Schätzer (2) Informierte Suchverfahren 2. Suchverfahren 9 ý Informierte Suchverfahren Zusammenfassung des Kapitels . Zustandsraum: Zustände, Zustandsübergänge, Startzustand, Zielzustände . Systematische Suche im Zustandsraum: Breitensuche, Tiefensuche . Heuristische Funktionen: Schätzung der Entfernung zum Ziel . Bestensuche garantiert keine Optimalität . A*: Operatorkosten plus heuristischer Funktion . A* liefert optimale Lösungen bzgl. Operatorkosten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 73 Zielrichtungen der Inferenz Inferenz und Regeln gegeben. Was Es ist Fakten kann daraus gefolgert werden? Beispiel: Wenn es regnet, dann ist die Straße naß. Was kann aus der Tatsache, daß es regnet, gefolgert werden? Prognosen, logische Ableitungen erstellen 3. Logik 9 x y 9 y x 9 9 y x z Programmverifikation automatisches Beweisen Logikprogrammierung, deduktive Datenbanken Inferenz in Expertensystemen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 9 75 9 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 9 Können aus den Fakten und den Regeln die Hypothesen hergeleitet werden? Beipiel: Wenn es regnet, dann ist die Straße naß. Es regnet. Ist die Straße dann naß? Hypothesen prüfen Herleitung (Inferenz) von neuem Wissen auf Basis der Kalküls. Repräsentation von Wissen durch Formeln eines adäquaten Logikkalküls Inferenz 74 Anwendungsgebiete der Logik in der Wissensverarbeitung: 9 mit Hilfe der Regeln Wie läßt sich ein Fakt erklären? Beispiel: Die Straße ist naß. Wie kann das sein? Erklärungen finden 3 Logik Gegenstand der Logik: 3. Logik 9 Arten der Inferenz Inferenz 9 3. Logik . Qualifikationsproblem . unpräzise Angaben . probabilistische Aussagen und Regeln . räumlich-zeitliches Wissen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 9 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 76 Zum Starten eines Autos ist eine aufgeladene Batterie notwendig. Unser Auto läßt sich nicht starten. Wir schließen, daß die Batterie leer ist. Abduktion Wir haben wiederholt beobachtet, daß ein Auto nicht startet und die Batterie leer ist. Wir haben noch nie beobachtet, daß ein Auto mit leerer Batterie gestartet werden konnte. Wir schließen daraus, daß ein Auto, das eine leere Batterie hat, nicht gestartet werden kann. Induktion Zum Starten eines Autos ist eine aufgeladene Batterie notwendig. Bei unserem Auto ist die Batterie leer. Wir schließen, daß wir unser Auto nicht starten können. Deduktion 3. Logik 9 Inferenz Weitere Aspekte bei der Wissensverarbeitung mit Logik 77 3. Logik Aussagenlogik Signatur Am Beispiel der Aussagenlogik erklären wir schrittweise wichtige Elemente eines logischen Systems. . Zunächst benötigt ein logisches System ein Vokabular, . d.h. eine Menge von Namen, die Dinge der realen Welt beschreiben können. . Eine derartige Menge von Namen wird als Signatur bezeichnet und üblicherweise durch gekennzeichnet. { . Den Namen ist i.d.R. eine gewisse Stelligkeit zugeordnet. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 78 3. Logik Aussagenlogik Aussagenlogische Signatur Definition 3.1. Eine aussagenlogische Signatur ist eine Menge von (nullstelligen) Bezeichnern, den Aussagenvariablen. { Beispiel 3.1. Die Menge {}|u~n \g5 q[p\[5\ q[p[\ 5 a a [¡ ist eine aussagenlogische Signatur, die drei Aussagenvariablen zur Verfügung stellt. Im folgenden benutzen wir üblicherweise Großbuchstaben als Aussagenvariablen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 79 3. Logik Aussagenlogik Formeln . Formeln ermöglichen es, Dinge der repräsentierten Welt auszudrücken. . Formeln entsprechen einer gewissen Syntax (sie sind wohlgeformt). . Diese Syntax legt eine Wissensrepräsentationssprache fest. . Formeln sind üblicherweise rekursiv aufgebaut. . Die atomaren Formeln ergeben sich aus der Signatur. . Mit logischen Verknüpfungsoperatoren (den Junktoren) werden aus atomaren Formeln schrittweise komplexere Formeln aufgebaut. ¤ 3. Logik ¢ £ ¦ ¥ ¨ § ¥ 81 80 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¢ Falls und aussagenlogische Formeln sind, dann sind auch die folgenden Konstrukte aussagenlogische Formeln: Die Elemente der Menge sind aussagenlogische Formeln, die sogenannten atomaren Formeln. Definition 3.2. Für eine aussagenlogische Signaist die Menge der aussagenlogitur schen Formeln wie folgt definiert: Aussagenlogische Formeln Aussagenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¬ ¨ ¨ ¨ ¯ ¬ ° § ° §­ ©«ª © §® © § © Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¬ ¬ ¨ 82 Bemerkung 3.1. Zur Vereinfachung der Schreibweise verzichten wir i.d.R. auf die Klammerung und benutzen statt dessen die folgenden Bindungsprioritäten: . Negation Konjunktion Disjunktion Implikation Äquivalenz Aussagenlogik ¬ § ¯ © ± ± ® ± ­ 3. Logik ª± 3. Logik Aussagenlogik ² -Interpretation ³ Die Syntax einer Logik legt ausschließlich deren äußere Form fest, sie sagt aber nichts über die Bedeutung der Formeln aus. ³ Benötigt wird eine Verbindung zwischen den syntaktischen Elementen der Logik und den Objekten der zu repräsentierenden Welt. ³ Diese Verbindung wird durch eine sogenannte gestellt. ³ Eine -Interpretation einer Signatur ist die Zuordnung von den Elementen der Signatur (Namen) zu den Elementen der zu repräsentierenden Welt. ´ -Interpretation her- ´ ´ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 83 Erfüllungsrelation Aussagenlogik ¥ ¬ © ¦ À É ÇÓ ¾Ô § Ò bereit. º"» ¯ ¦¹¸ ¬ ¦ © ¥ Æ ¦ Ä,Å ¥ Ë Õ ¦ ¥ µ ¥ µ ¦ § » Ë ¾ © µ ¥ Ë ¿Ð ¬ Æ ÁÏ Å Ê ¬ Í É ¼Å È Ê ÇÈÉ Ì ¾ É Î ¾ ½ Æ Æ Æ ¼ © È µ Á © È µ Á À Á ¿ ¼ » Ë ¬ ½ÈÑ ¼ ¥ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 eine mögliche Belegung. 84 Beispiel 3.2. Für die Signatur aus Beispiel 3.1 ist definiert durch für . bezeichnet die Menge der Belegungen µ·¶ ½,¾ ¼ 85 ½,¾ ± ¼ ½,¾ ¼ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¼ Eine Erfüllungsrelation definiert hierzu im wesentlichen die Semantik der Junktoren. ¿ sie ordnet einer Interpretation und einer Formel einen Wahrheitswert zu. ÀÁ Eine Abbildung heißt aussagenlogische Interpretation oder Belegung für . ½ Durch solch eine Erfüllungsrelation ist definiert, ob eine Formel in einer -Interpretation wahr ist oder nicht, d.h. Dieses stellt uns eine Erfüllungsrelation Aussagenlogik eine aussagenlogische Belegung Definition 3.3. Es sei Signatur. 3. Logik ¦ Wir benötigen eine Ausdehnung der Semantik . auf alle Formeln Die Interpretation liefert uns nur einen Wahrheitswert für die atomaren Formeln. 3. Logik ¥ à ½ 86 ¬ ¨ ¯ ¿ µ É ¬ ¾Ô ¨ ¦ ¬ © © ¬ § © © § Ò ¿ » » » §­ © » µ ¬ ¬ µ ¨ § ¿ © ¿ µ © Æ » » µ Ë Õ ¦ ¨ Ä Å ¬ § ¦ © ¿ ¿ » µ » µ Ò Für 3. Logik § É ¿ µ Ë À » ÇÓ ¬ É ¾Ô » © ¾Ô ± Ç Ó ¦ ¿ µ » ©«ª µ ½,¾ ¼ ¬ ¿ À § ¿ §® § ¦ ¨ Ò ¬ ¿ ¬ » gelte: © » Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 À Ç Ó » § und © ¦ gdw. (nichtDefinition 3.4. Es seien atomare) aussagenlogische Formeln. Durch die folgenden Wahrheitstafel wird eine -Interpretation von auf die Menge ausgedehnt: ¬ Semantik der Aussagenlogik Aussagenlogik µ 3. Logik Aussagenlogik Modell Definition 3.5. Es seien so sagen wir ³ “ erfüllt ³ bezeichnen Ö ØÙÚÛ3´ÝÜ und Þ . Gilt ×àßáâãåä[æÛ3´ÝÜ Öèç é als -Modell für Ö ´ ØðÙ\ÚÛ3´ÝÜ Þ . bezeichnet die Menge aller -Modelle für ´ Þ . von Formeln gelte gdw. Für eine Menge für alle . ist dann ein Modell für die Formelmenge . ñ Þ , Þ ” und Þ ê áë[ìíÛZÞîÜcï ÖN× ×ôñ ò ßáâã ä\æÛ3´ÝÜ Ö Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Öóç é ñ Öóç é Þ ñ 87 Erfüllbarkeit Aussagenlogik § ¥ ö ÷ú5Ú[þ\âø ä÷5Ú úÿÙ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¥ ¥ ¥ © ¬ ¦ À Ç Ó É ¾Ô 89 ÷[úpÚ\û[â Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Ú\ßg÷ä5ø äâîù Die Begriffe werden in analoger Weise für Formelverwendet. mengen õ ö falsifizierbar gdw. es eine Interpretation gibt, die kein Modell für die Formel ist. Ù[üýù Ö allgemeingültig (Tautologie) gdw. jede Interpretation ein Modell für die Formel ist. Beispiel 3.3. Die Interpretation Formel unerfüllbar (Kontradiktion) gdw. es kein Modell für die Formel gibt. ÷[úpÚ\û[â erfüllbar gdw. es ein Modell für die Formel gibt. heißt Ö Definition 3.6. Eine Formel Dagegen ist “Kräht der Hahn auf dem Mist, ändert sich das Wetter oder es bleibt wie es ist” Besonders interessant sind Formeln, die für alle Interpretationen wahr bzw. falsch sind. 3. Logik 3. Logik Aussagenlogik Modell (2) aus Beispiel 3.2 ist ein Modell für die ö Ù\ü kein Modell für die Formel ö5õ ÷ Beweis mit Wahrheitstafeln ✎. 88 Semantische Folgerung Aussagenlogik ¥ § § © §­ ¥ ¥ ¨® ª ¯ ¬ © ¬ © ¯ © § © ¥ ¦ À É Ç Ó ¾Ô à º § ± ¥ Ë § ­ ­ ¬ ¯ ¨ © §­ ¥ § ± § ¥ ¨ ¬ ­ ¨ ¬ ¬ § ¥ ¨ ¨ Õ ¥ © §® ¯ ¯ § ©«ª ¬ ­ ¨ ¯ © § © ¥ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 © 91 ¨ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ª Resolutionsregel § Ë Damit können wir die Erfüllungsrelation auf eine Beziehung zwischen Formeln und Formelmengen ausdehnen. ¯ Oder-Introduktion ¨ ¨ Unser übliches Verständnis von Folgerung läßt sich so ausdrücken: Ist eine Formel immer dann wahr, wenn alle Formeln aus wahr sind, dann folgt aus . ¬ . ¬ Und-Elimination ¯ entspricht Modus Tollens Modus Ponens ¯ Eine solche Menge der Konjunktion Tautologie Beispiel 3.4. Wichtige Tautologien sind: 3. Logik ¬ Wir können eine Wissensbasis als eine Menge betrachten. In einem wissensbasierten System wollen wir Fakten aus anderen Fakten und Regeln herleiten. 3. Logik 90 Aussagenlogik ¬ § ± . § ¥ ¥ ¨ ¥ ± § 92 gdw. Ë Õ ¨ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¨ Ò Ë Õ gelte Ç Ó ¨ Für Formelmengen für alle gilt. ¾Ô Ë Õ Wir sagen auch “ folgt logisch aus folgt semantisch ”. É ¨ § In diesem Fall schreiben wir À Für eine Formelmenge gelte gdw. jedes Modell für auch ein Modell für G ist. § © Definition 3.7. Es seien genlogische Formeln. Semantische Folgerung (2) 3. Logik ¦ ” bzw. “aus G heißt semantische Folgerung von gdw. jedes Modell für F auch ein Modell für G ist. aussa- Aussagenlogik ¬ Ë Õ ¨ Ò ¨ ¥ ¥ 3. Logik Aussagenlogik Semantische Folgerung (3) Beispiel 3.5. Gegeben sei die Formelmenge õ ö ñ ö Ú\ßg÷ä5 ö ø äâ ÷[ö úpÚ\û[â õ é ñ Ù\ü ÷ú5Ú[û\â Ù\ü ö5õ ÷ú5Ú[þ\âøgä÷pÚåúðÿ[Ù Ú\ßg÷ä5ø äâ ÷ ö5õ Kann aus ñ çé ñ die Aussage ö5õ ? ÷ú5Ú[þ\âø ä÷pÚåúðÿ[Ù gefolgert werden, d.h. gilt ÷[úpÚ\þ[âøgä÷pÚåúðÿ[Ù ÷ ÷ Ja! Beweis mit Wahrheitstafeln ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 93 3. Logik Aussagenlogik Semantische Folgerung (4) Beispiel 3.6. Wir wollen uns ein Haustier anschaffen und machen folgende Überlegungen: 1. Es sollte nur ein Hund ( ), eine Katze ( ) oder ein Hamster ( sein. ) 2. Besitzer wertvoller Möbel ( ) sollten keine Katze anschaffen, da diese die Möbel zerkratzen würde. 3. Ein Hund erfordert ein freistehendes Haus ( ), damit sich kein Nachbar durch das Bellen gestört fühlt. Þ Wir vermuten: Für einen Besitzer wertvoller Möbel ohne freistehendes Haus kommt nur ein Hamster in Frage. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 94 Aussagenlogik Beweis mit Wahrheitstafeln ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 95 3. Logik Aussagenlogik Semantische Folgerung (5) Satz 3.1. Es seien ! aussagenlogische Formeln. Dann gilt: Þ ist Tautologie gdw. " ³ Þ ³ íÞ çé Þ çé ³ Þ gdw. Þ ù gdw. $#%"& Þ ist unerfüllbar. ist Tautologie. ist unerfüllbar. Bemerkung 3.2. Die Äquivalenzen können auf Formelmengen %(' ausgedehnt werden. ñ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 96 Aussagenlogik Kalkül ³ Schon das kleine Beispiel 3.6 verdeutlichte, daß Inferenz auf Basis der Definition der semantischen Folgerung ineffizient ist. Allgemein müssen für eine Formelmenge mit ) verschiedenen Aussagevariablen *,+ Belegungen getestet werden. ³ ñ ³ Daher benutzt man für die maschinelle Inferenz Techniken, die allein auf der Syntax der Formeln beruhen. ³ Statt alle möglichen Belegungen zu testen, sucht man nach einer Folge von syntaktischen Umformungen, die die Hypothese zu beweisen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 97 § ± § Aussagenlogik Dies besagt, daß aus den Formeln (der syntaktischen Form) (Bedingungen) eine Formel der Form (Schlussfolgerung) abgeleitet werden kann. 3. Logik ± § So können aus den Tautologien von Beispiel 3.4 Inferenzregeln gebildet werden. Aus dem Modus Ponens ergibt sich die Inferenzregel: ¥ § ¨ ¯ ¨ § § ± § § ¥ 99 ¥ ¥ ± - § § § ± ± Sie werden in der folgenden Form notiert: 98 Die Inferenzregeln sind Vorschriften, nach denen aus Formeln andere Formeln abgeleitet werden können. eine Menge von elementaren Widersprüchen (negativer Kalkül). Die Axiome sind entweder eine Menge von elementaren Tautologien (positiver Kalkül) oder ± ± § Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¥ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¥ ± Ist eine Formel aus den Formeln durch eine Folge von Anwendungen der Inferenzregeln ableitbar, so schreibt man Kalkül (2) Aussagenlogik Ein Kalkül besteht aus einer Menge von logischen Axiomen und Inferenzregeln. 3. Logik ¥ § § Eigenschaften von Kalkülen Aussagenlogik ö ¥ Ù\ü 0 K÷ú5Ú[þ\âø ä÷5Ú úÿÙ ¨ § ¨ Ë Õ § ¨ - § Ú[ß ÷äaøg ö äâMù ÷[úpÚ\û[â . ÷[úpÚ\û[â Ù\üýù ÷ú5Ú[þ\âø ä÷pÚåúðÿ[Ù ¥ ÷[úpÚ[û\â ö ö ÷ú5Ú[þ\ ä÷5Ú úðÿ[Ù ö âø õ ä § / ¨ ¨ § ¨ Õ Ë § ¥ ä 3 § 101 ñ õgö Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 - ¨ Õ § 3 ¨ ª §­ ¨ Ë Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ñ impliziert Beispiel 3.7. Gegeben sei die Formelmenge der Inferenzregel Modus Ponens leiten wir ab: Ein Kalkül ist widerlegungsvollständig gdw. aus allen semantischen Folgerungen eine unerfüllbare Formel abgeleitet werden kann, d.h. für Formeln und gilt: Ú[ß ÷äaøgäâ impliziert õgö Ein Kalkül ist vollständig gdw. alle semantischen Folgerungen auch syntaktisch abgeleitet werden können, d.h. für Formeln und gilt: ÷ú5Ú[û\â impliziert Also gilt: Ein Kalkül ist korrekt gdw. alle syntaktischen Ableitungen auch semantische Folgerungen sind, d.h. für Formeln und gilt: 3. Logik 3. Logik Aussagenlogik Kalkül (3) aus Beispiel 3.5. Mit ö Ù[ü Ù\ü Nochmals angewandt ergibt sich: õ ÷ / ÷ ö5õ 12 . ÷ 100 3. Logik Aussagenlogik Semantische Äquivalenz Beispiel 3.8. Syntaktisch unterschiedliche Formel können identische Wahrheitswerte haben. Man betrachte die Formeln " 546 und " 5# "7 : ÛZÞ : Þ ; : ; ; " 8; 49 : : : : ; }ÛZÞ : Ü Þ " 8; #%"& : : : Ü íÞ Definition 3.8. Zwei aussagenlogische Formeln ! heißen semantisch äquivalent gdw. < für jede Belegung gilt. Þ ÖÛ × é ÖÛZÞ ßáâã ä\æÛ3´ÝÜ Ü ØðÙ\ÚÛ3´ÝÜ Wenn Þ und semantisch äquivalent sind, schreiben wir hierfür ¬ ­ ¨ ¬ ® ¨ §® ª ª ¬ § ¬ > @> § ¨ ª §® ª © §­ ª © > § ¯ § § § ¨® ¨­ § §­ §­ §® © © ¬ ® ¨ ¬ ­ ¨ §® > § ¬ > §­ ¨ ¨ §­ © §­ §­ © §® © © > ?> ?> > > > > ¨ §® © ª ¬ §® © ª > ¨ § §® § ?> § ª §­ ¨ ¬ ¨ ¨ ª ¨ §® ¬ ¬ ¬ ¬ §­ ¨­ © §® . 103 Distributivität Absorption Assoziativität ¬ ¨ = 102 Kommutativität Implikation DeMorgan Dop. Negation Idempotenz Semantische Äquivalenz (2) Lemma 3.2. Wichtige semantische Äquivalenzen sind: 3. Logik Aussagenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Þ ¨® © §­ ¨® © §® ¨­ © §­ §® Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Ö MÜ × 3. Logik Aussagenlogik Normalformen Für die maschinelle Inferenz ist die Darstellung einer Formel in einer standardisierten und möglichst einfachen Form wichtig. Definition 3.9. ³ Eine Formel ist ein Literal gdw. eine atomare Formel oder die Negation einer atomaren Formel ist. ³ Eine Formel ist in konjunktiver Normalform (KNF) gdw. junktion von Disjunktionen von Literalen ist, d.h. Þ Þ Þ Þ eine KonÞ BADC(E?CF4HGIGJG/46ACKEMLON F#PGJGJG/# BARQE?CS4PGJGJG/46ATQEULWV é Û Û Ü Û Ü Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 104 3. Logik ³ Aussagenlogik Eine Formel ist in disjunktiver Normalform DNF gdw. junktion von Konjunktionen von Literalen ist, d.h. Þ Þ é Û BA C(E?C #HGIGJG/#6A CKEML N F4PGJGJG/4 BA QE?C #PGJGJG/#6A QEUL V Û Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Û eine DisÞ Ü Ü 105 3. Logik Aussagenlogik Normalformen Beispiel 3.9. Die Formeln 849"7546 F#YX und " $#9 ÛZÞ Ü íÞ sind in KNF. Die Formeln <" 8#Z S4 <"[ Û Þ MÜ #%"RX Û und $4%"& 2Ü Þ sind in DNF. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 106 3. Logik Aussagenlogik Transformation in Normalform Umformungsregeln für KNF/DNF-Transformation: Schritt 1 Þ \ " 849 ù ù " " ] Schritt 2 " 8#9 " 849 Schritt 3 (KNF) $4 <^#Z $#9 F46 Schritt 3 (DNF) $# <^4Z $49 F#6 Þ \ íÞ ù Ü }ÛZÞ Ü \ }ÛZÞ Þ ù Þ ù ÛZÞ Þ \ Ü ù ÛZÞ \ Ü Û Ü " 84%"& " 8#%"& 84% F# 846 84Z F# _846 8#% F4 86 # 8#Z F4 _8#6 Þ \ Û ÛZÞ Þ ù Ü ÛZÞ ÛZÞ \ Ü ù ÛZÞ \ ù Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ÛZÞ Ü Ü Ü Û Ü ÛZÞ Û Ü Ü Ü 107 3. Logik Aussagenlogik Klauselform Für die maschinelle Inferenz benutzt man eine Mengendarstellung der KNF, die sogenannte Klauselform. Definition 3.10. Eine Klausel ist eine Menge von Literalen `ACaJGJGJGJbATQdc , die der Disjunktion A C 4PGJGJG/4eA Q entspricht. ³ Die Klausel `,c ist die leere Klausel. Sie wird in der : Form f geschriehg ( (i ). ben und entspricht dem Wahrheitswert ³ ö õ æ\ú Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 108 3. Logik ³ Aussagenlogik Die Klauselform einer Formel Þ é in KNF mit Þ BA C(E?C 4HGIGJG/46A CKEML N F#PGJGJG/# BA QE?C 4PGJGJG/46A QEUL V Û Û Ü Û Ü Ü ist die Menge Þ é `,` jA C(E?C IGkGIGJKA C(EML NlcmIGJGJGJa`A QE?C kGIGJGJ(A QEML V c,c \Û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 109 Resolution (2) Aussagenlogik Definition 3.11. Seien eine atomare Formel mit Dann heißt die Klausel mit Für die maschinelle Inferenz benutzt man Resolution in Verbindung mit Klauselform. 3. Logik r o q o ± r ª o Ò n à ¬ oq 111 n ª p ¬ à º s r s n t º o Ë ), gehe ich ins . Hieraus folgt, daß ich ins Kino oder ins Schwimmbad gehe, also ¯ ¥ Ò r ª © o q o q © o o Õ Ã vxw ® Ë p ¯ n o ª ± ¯ º n ¥ ¯ § ¨ ª ¯ § u ± ¨® Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 110 Als Inferenzregel geschrieben lautet die Resolution wie folgt: p Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¥ p Ein Resolutionsschritt wird wie folgt dargestellt: n . ¯ Wenn es nicht regnet ( Schwimmbad ( ), also Wenn es regnet ( ), gehe ich ins Kino ( ), also . o ª und Resolution Aussagenlogik Beispiel 3.10. Resolution basiert auf folgendem Schema: 3. Logik n n Resolvente von Klauseln und sei und . r o vxy 3. Logik Aussagenlogik Resolution (3) Beispiel 3.11. Modus Ponens und Modus Tollens können als Spezialfall der Resolution dargestellt werden: zk|~} z{S| } z/{} z{S| } z/} z/{S|~} Die Resolvente zweier widersprüchlicher Klauseln ist die leere Klausel: zk|~} z{S|~} Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 112 3. Logik Aussagenlogik Resolution (4) Beispiel 3.12. Herleitung der Aussage aus Beispiel 3.6 mit der ResoKW B b_< lutiosregel: b_< (~< (~_. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 113 Resolution (6) Aussagenlogik ¥ Satz 3.3. Es sei eine Klauselmenge und es sei. Für eine Resolvente von und en gilt . 3. Logik ¥ ¤ £ ¦ § ¢¡ £ genau dann erfüllbar, wenn Insbesondere ist erfüllbar ist. ¨ © ª¥ « Dies nutzt man im Resolutionskalkül aus. Um zu zeigen, daß eine Klauselmenge unerfüllbar ist, bildet man solange Resolventen und fügt sie der Klauselmenge hinzu, bis irgendwann eine Menge entsteht, die die leere Klausel enthält. « ¬ ¬ « Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 115 Diese Klauselmenge ist unerfüllbar, also muß auch die ursprüngliche Klauselmenge unerfüllbar sein. D.h., man beweist Satz 3.3 sagt aus, daß durch die Hinzunahme von Resolventen die Erfüllbarkeitseigenschaft einer Klauselmenge nicht beeinträchtigt wird. 3. Logik Aussagenlogik Resolution (5) Das letzte Beispiel zeigt den direkten Beweis einer Formel mit Hilfe der Resolutionsregeln. Beim Resolutionskalkül führt man stattdessen einen Widerspruchsbeweis. , in dem man zeigt, daß 56& unerfüllbar ist (vgl. Satz 3.1). Dies bedeutet, man leitet aus den Klauseln von vereinigt mit den Klauseln, die sich aus & ergeben, die leere Klausel ab. 114 3. Logik Aussagenlogik Resolution (7) Beispiel 3.13. Herleitung der Aussage aus Beispiel 3.6 mit dem Resolutionskalkül: Klauselmenge ­ der Voraussetzungen: ®,®¯±°(²³°´ µm°a® ´¶° · ² µm°a® ¯Y° µ,µ Klauselmenge ¸ der negierten zu beweisenden Aussage: ®,®¹´ µm°® [ µm°a® »º µ,µ Es gilt, aus ­$¼6¸ die leere Klausel abzuleiten. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik b<< ( 116 KB ( (_ Aussagenlogik (D ( (~ (Z (Z ½ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 117 3. Logik Aussagenlogik Eigenschaften der Resolution Satz 3.4. Eine Klauselmenge ist unerfüllbar genau dann, wenn die leere Klausel ¾ mit einer endlichen Anzahl von Resolutionsschritten aus abgeleitet werden kann. Bemerkung 3.3. Aus Satz 3.4 folgt die Korrektheit und (Widerlegungs)Vollständigkeit des Resolutionskalküls: Die leere Klausel kann nur dann abgeleitet werden, wenn die ursprüngliche Klauselmenge unerfüllbar ist À¿ Korrektheit Das Resolutionskalkül findet für jede unerfüllbare Klauselmenge eine Widerlegung, d.h. die leere Klausel wird abgeleitet À¿ Vollständigkeit Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 118 Aussagenlogik Eigenschaften der Resolution (2) Im Fall der Aussagenlogik ist es entscheidbar, ob die leere Klausel abgeleitet werden kann. Für Á Aussagenvariablen gibt es höchstens ÂÄà verschiedene Klauseln, die aus diesen Aussagenvariablen gebildet werden können. Der Prozess der Resolventenbildung ist also endlich, d.h. irgendwann können keine neuen Resolventen mehr gebildet werden. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 119 3. Logik Aussagenlogik Lemma 3.5. Es sei eine Klauselmenge. ÆÅ sei eine Klauselmenge, die durch sukzessive Resolventenbildung aus entstanden ist. Å enthalte nicht die leere Klausel und aus ÆÅ kann keine neue Resolvente erzeugt werden. Dann ist Å und somit auch erfüllbar. Beweis. Tafel ✎. ¾ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 120 Aussagenlogik Fazit zur Aussagenlogik Eine Signatur legt die Variablen der Sprache fest. Aus den Variablen entsteht durch Festlegung einer Syntax eine Wissensrepräsentationssprache (Menge der Formeln). Eine Interpretation gibt den Variablen eine Bedeutung. Die Erfüllungsrelation dehnt diese Bedeutung auf alle Formeln aus Über die Erfüllungsrelation wird der Begriff der semantischen Folgerung festgelegt. Ein Kalkül stellt die Äquivalenz zwischen semantischer Folgerung und syntaktischen Operationen her. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 121 3. Logik Prädikatenlogik Prädikatenlogik In der Aussagenlogik ist es nicht möglich, Aussagen über ganze Klassen von Objekten zu machen, so daß Schlußfolgerungen für individuelle Objekte möglich sind. Es sei gegeben: Martin ist ein Informatiker. Peter ist ein Informatiker. Jeder Informatiker kann programmieren. Wir wollen folgern: Martin kann programmieren. Peter kann programmieren. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 122 Prädikatenlogik Prädikatenlogische Signatur Mit der Prädikatenlogik (1. Stufe) wollen wir Sachverhalte beschreiben, die folgendes enthalten können. Objekte, z.B. Personen oder Sachen Funktionen auf den Objekten, z.B. Größe, Gewicht, Hochzeitstag Eigenschaften von Objekten Beziehungen zwischen Objekten Aussagen über Objekte, auch quantifizierende Wie in der Aussagenlogik brauchen wir dazu zunächst einen Vorrat an Bezeichnern. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 123 3. Logik Prädikatenlogik Prädikatenlogische Signatur (2) Definition 3.12. Eine (PL1-)Signatur Ç^ ÈjÉËÊhÌÎÍ °lÏÐÑ,ÒmÓ besteht aus einer Menge ÉËÊhÌÎÍ von Funktionssymbolen und einer Menge ÏÐÑËÒ von Prädikatensymbolen. Jedes Symbol ÔÆÕ%É,ÊmÌ2ÍW¼ ÏÐÑ,Ò hat eine feste Stelligkeit Ö5× . Ein Funktionssymbol mit der Stelligkeit × heißt Konstante. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 124 Prädikatenlogik PL1-Terme Funktionssymbole dienen zur Beschreibung von funktionalen Eigenschaften der Objekte. In Verbindung mit Variablen zur Darstellung von Objekte werden Terme gebildet. Definition Es sei ­ eine Menge von Variablensymbolen °lÏÐÑ,Òm3.13. Ó ÑËйÚdÛ undÓ ÇØ ÈjÉËÊhÌÎÍ È­ der sei eine PL1-Signatur. Dann ist die Menge Ù (PL1-)Terme wie folgt definiert: 1. Jedes Variablensymbol ÜYÕH­ ist ein PL1-Term. 2. Jedes nullstellige Funktionssymbol aus ÝÞÕ±ÉËÊhÌÎÍ ist ein PL1-Term. 3. Ist°JJã ß ãJãJ° Õ áâ á (Á Ö à ) und sind É,ÊmÌ2Í ein Á -stelliges Funktionssymbol áäâ °JãJãIãk° á Ó Ã PL1-Terme, so ist auch ßÈ Ã ein PL1-Term. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 125 PL1-Formeln (2) Prädikatenlogik eine Menge von VariaDefinition 3.15. Es sei blensymbolen und sei eine PL1der PL1Signatur. Dann ist die Menge Formeln wie folgt definiert: 3. Logik òå å ç èêé æ§ 2. Ist ñ íî ¤ ö ó õ ¡ ¡ ¡ ¡ ÷ ¢ ø¡ø ø ¡ å ¤ ÷/ù ÷ç ¢ø¡ø ó ð ô ø ¡ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 eine atomare Formel. 126 ein -stelliges Prädikatensymbol mit und gilt , so ist auch ô ò 127 æ òå ¡ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 å ç Pl1-Formeln. æ§ , dann sind auch ç èêé ú ðîû ü ¤ /÷ ù eine PL1-Formel und ð ïí î ìë ¡ 1. Jedes nullstellige Prädikatensymbol eine atomare Formel. ist eine Menge von VariaDefinition 3.14. Es sei blensymbolen und sei eine PL1Signatur. Dann ist die Menge der atomaren Formeln über und wie folgt definiert: òñ 3. Ist ist eine PL1- PL1-Formeln Prädikatenlogik Auf Basis der Terme können wir nun die Formeln der Prädikatenlogik definieren. 3. Logik ð ïí î ¤ ó PL1-Formeln. æ PL1-Formeln, dann sind auch und å und 1. Jede atomare Formel über Formel. ð ü ïí î îû ìë ¡ þè ý ÿð 2. Sind òñ ç å ñ 3. Logik Prädikatenlogik PL1-Formeln (3) Beispiel 3.14. Den anfangs dargestellten Sachverhalt könnten wir durch folgende Formeln ausdrücken. ÐÚ.ÑËÐ á Ó Ì Ð Ú.ÑËÐ ÈBº Ó Á á Ì È " Ï Ð ÐÚhÚ&,ÑËÐÑ Ð¹Ú ! .ÑËÐ Ó# Ó Ü Ì ÈxÜ % $ ÌÈjÜ Die Frage, ob Martin und Peter programmieren können, würde dann als PL1-Formel lauten: %$ ÐÚhÚ&,ÑËÐÑ Ì ÈBº á' Ó Ï Ð ÐÚmÚ(ËÑ,ÐÑ á Ó Á ! $ Ì È) * æ , - « ô ô ì .- ë è¤ é / , - ù - , ò1/ 0 « ç. 129 ei- ñ ð íî ¤ ó jedem -stelligen Prädikatensymbol zuordnet. ne -stellige Relation ð -¡ ïí î ç , ìë ¡ +§ ç èêé æ§ 128 sowie einer Abbildung , die jedem -stelligen eine -stellige FunktiFunktionssymbol zuordnet und on ò. einer nichtleeren Menge , der Trägermenge (Grundbereich, Universum), eine PL1besteht òñ Definition 3.16. Es sei Signatur. Eine -Interpretation aus: Bisher haben wir wieder nur die syntaktische Struktur von Formeln festgelegt. Wir müssen nun die Funktion-, Prädikaten- und Variablensymbole mit einer Bedeutng belegen. 3. Logik Interpretation Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 , ù - ò2 ó ç. ô « ô Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ÏÐ å - , å 30 +§ - , å 30 æ òå ç ú ðîû ü 3 òå ç + ÷ 54 ú ðîû ü 08 -76 å ¤ ò ç3 § 54 § 8 -76 ò5 130 ist die wie : - Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 + § ç, ò 8 -76 5÷ ù 4 ¡ ø 8 ø¡ø -6 5÷ 4ç ò/ ç. für ç, -¡ , unter -¡ ò. in ò. ÷ Die Termauswertung von folgt definierte Funktion 3 ¤ Definition 3.18. Gegeben sein ein Term , eine -Interpretation und ei. ne Variablenbelegung eine Definition 3.17. Es sei Interpretation und eine Menge von Variablensymbolen. Dann ist eine Variablenbelegung eine . Funktion Es sind noch nicht alle sprachlichen Symbole der PL mit einer Bedeutung belegt, es fehlen noch die Variablen. Termauswertung Prädikatenlogik 3. Logik æ 8 -76 ÷ ù ¡ ø ø ç / ÷ ¡ø 3. Logik 4 Prädikatenlogik PL1-Semantik °A@ Ó Definition 3.19. Es sei 9;: È=<?> > eine Ç -Interpretation, B eine Menge von Variablensymbolen und CEDFB G(H I < > eine Variablenbelegung. CKJMLON;DB G&H <?> bezeichne die Modifikation von C an der Stelle P zu Q , d.h: V S für PX:Y W S CKJML7NRTS7U#: Q für PZ:YS Dann ist der Wahrheitswert einer Formel [ \E]^`_abcdeRfBU in 9 unter C (geschrieben g h[ji ik>mlon ) wie folgt definiert: p Für eine atomare Formel qKRkSsrut*v*v*v*tSxwU gilt: g g qKRkS r t*v*v*v*tS w U=i i >mlon :YyF_%z{b|D~} ROg gS r i >mlon tmvvmv*tg gS w i i >*ln U\ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 @ > Rq&U 131 3. Logik p Für [X| |t7[X| |t7[ H Prädikatenlogik und [ gelten die selben Regeln wie in der Aussagenlogik. p Für eine Formel P[ gilt: g &P[ji ik>mlon:YyF_%z{b|D} für jedes Q\<?> gilt g gh[ji k>mlonx:y_!z{b p Für eine Formel FP[ gilt: g P[ji ik>*ln:Yy_!z bD} es gibt ein Q\<?> mit g go[i ik>mlonxf:YyF_%z{b Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 132 Prädikatenlogik Variablenbindungen Definition 3.20. Tritt eine Variable P in einer Formel [ in einer Teilformel der Form &P& oder P& auf, so ist P eine gebundene Variable. Tritt P in einer Formel ohne umgebenden Quantor auf, so ist P eine freie Variable. Eine PL1-Formel [ auftritt. heißt geschlossen gdw. in [ keine freie Variable Wenn Prut*vmvvmtPw die in einer Formel [ frei auftretenden Variablen sind, dann heißt die Formel &Pr&vvmv&Pw[ der Allabschluss von [ . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 133 3. Logik Prädikatenlogik Variablenbindungen (2) Beispiel 3.15. Es sei P eine Variable und Q eine Konstante. p P nur frei: R1P&U?H R1P&U p P nur gebunden (Allabschluss): P¡R1P&U#H R¢P(U p P sowohl frei als auch gebunden: R¢P(U£R¤P¥ R1P&UU p P nur gebunden (Allabschluss): PRR1P&UR¤FP¦ R1P&UUU p Grundformel: R1QU?H RQU Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 134 Prädikatenlogik PL1-Semantik (2) p Hat eine PL1-Signatur § -stellige Prädikatensymbole, so ist ihr Wahrheitswert unabhängig von einer Variablenbelegung. p Der Wahrheitswert einer geschlossenen Formel ist ebenfalls undabhängig von einer Variablenbelegung. p Um dies auch bei einer beliebigen Formel zu erreichen, werden alle frei auftretenden Variablen wie allquantifizierte Variablen behandelt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 135 3. Logik Prädikatenlogik @ Definition 3.21. Es sei ¨ : R=<?>t >mU eine ¨ -Interpretation und [ ]« ^`_abc!d©RfBªU sei eine PL1-Formel. Dann ist der Wahrheitswert von [ (geschrieben g h[ji iT¬ ) gegeben durch die Funktion g ­i i ¬ D`]^`_abc d RfBªU®G(H \ in ¯y_!z bFtO°±FcF²`b³ mit g o[i k¬µ´Yy_!z bD} g o[i ik¬mlon¶´·yF_%z{b für jede Variablenbelegung C 136 137 ¼ º und heiDefinition 3.22. Zwei PL1-Formeln ßen semantisch äquivalent gdw. für alle Interpretationen und alle Variablenbelegungen gilt: ʹ ¸ » ¾ ÎÍ ¸ ¸ ¸Ë ¸Ì ¸ ¸ ½ Æ Ä Ä É É ÅÆ È Æ ¸ È Æ Å Æ ÅÆ È Æ ÅÍ È Í ÅÍ Â ¾¹ ¿ Á ½ ʹ à  ¾À¸ ¿7Á ½ ¸ Ç ¸ Ç Ê ¹ Ç ÅÆ È Æ Å Æ Ä Ä É Ê¸ Ë ÅÆ É ¾ ÎÍ ½¸ Æ ÈÍ É Ê ¹ Ç ¸ Ç ¸ Ç ¸ Ç ¸ Ç È Æ ÅÍ È Í ÅÆ È Æ É ÅÆ ÈÆ Ê¸ Ì ÈÆ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Äquivalenzen für PL1-Formeln ¹ Lemma 3.6. 3. Logik Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Skolemisierung Prädikatenlogik Skolemisierung dient der Elimination von Existenzquantoren. Wir betrachten eine Pränexform: 3. Logik Ê Ò Í ÒÒ É ¸ ÔÒ Ò ÍÈ Ò Å ÆÓ Ô ÅÆ ÑhÒ ÒÒ Ö Õ aus der Pränexform. ÈÍ 2. Ersetze in der verbleibenden Formel . Stellen durch 1. Streiche ÈÍ Ê ÉÕ Æ Ñ Ò Ô Í Ê Ê ÒÒ Ò ÆÓ Ô ÒÔÒ ÆÓ ÉÕ Æ Ñ Ò Ô ÒÔÒ É ¸ ÔÒ ÒÒ ÅÆ Ó ÅÆ Ñ ÒÒ Ò Die Funktion heißt Skolemfunktion bzw. für Skolemkonstante. × Ö Õ 139 à Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 und . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 138 4. Die Quantoren werden ganz nach außen geschoben. 3. Die Negation wird ganz nach innen gezogen, so daß sie nur noch unmittelbar vor Atomen auftritt. 2. Beseitigung der Junktoren 1. Umbennung von Variablen derart, daß keine Variable sowohl frei als auch gebunden auftritt und hinter allen vorkommenden Quantoren stehen verschiedene Variablen. Mit folgenden Schritten kann jede PL1-Formel in eine äquivalente Formel in VNF überführt werden: Eine Pränexform, die als Junktor nur noch Konjunktion, Disjunktion und Negation enthält, wobei die Negation nur unmittelbar vor Atomen auftritt, heißt vereinigungstechnische Normalform (VNF). Ï Wir erhalten somit an allen Zum Ersatz von wählen wir ein neues Funktionszeichen der Stelligkeit und führen folgende Operation aus: Normalformen Prädikatenlogik Definition 3.23. Eine Formel , in der alle Quantoren außen stehen, heißt Pränexform. 3. Logik ¸ Ð 3. Logik Prädikatenlogik Normalformen (2) 5. Alle Existenzquantoren werden durch Skolemisierung entfernt. 6. Jetzt können alle Allquantoren entfernt werden. 7. Mit Hilfe der de Morganschen Regeln können disjunktive Normalform DNF bzw. konjunktive Normalform KNF analog zur Aussagenlogik erzeugt werden. Ebenfalls analog zur Aussagenlogik kann eine PL1-Formel in KNF in Klauselform dargestellt werden. ä Æ für für É Æ Ê Þßàá â Ï ã ØsÝ Ê É ÆÛ Æ Ã Ê É ÆÛ Durch ÛÜ æà ÉkæÛ Û Ê ÔÒÒ É ç Û Ñ ÒÔ ÉÕ Ã Þ ßàá â ÊÊ Ü çè Û ÉÕ ç Ñ Ò ÉÛÔ ÒÔÒ ÊÚ É Þ ßàá â 141 Û ê Îç Ó ÆÓ Îç Ñ Ò Ô é ÆÑ ÒÔÒ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Û É çÛ è É an. ä Ú ÊÊ geben wir in der Form ÊÚ å Ý ÊÚ erhält man eine Abbildung . Ø Ø Ï Eine Substitution Ú Ú ØÙ 140 wird der Definitionsbereich von zunächst auf ausgedehnt. Durch für Konstanten und die rekursive Anwendung von in der Form Definition 3.24. Es sei eine endliche Teilmenge von Variablensymbolen von . Dann ist eine eine Substitution. Abbildung 3. Logik Substitution Für die maschinelle Inferenz mit PL wird noch ein Mechanismus zur Instanziierung von Variablen benötigt. Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Prädikatenlogik Unifikation Die Unifikation ist eine Substitution, bei der Terme gleichgemacht werden. Definition 3.25. Eine Substitution ë heißt Unifikator der Terme ì und S gdw. ë?RfìUI´ ë?RkSU gilt. ì und S sind dann unifizierbar. Beispiel 3.16. Sind Pít7ît7ï Variablensymbole und QtOðtñt Konstanten, so sind die Terme òKR1PítAðuU und òKRQt7ñ*U nicht unifizierbar. Die Terme òKR1PítAðuU und òKRQtOðuU sind unifizierbar mit ëó´ ¯­P(ôQ ³ . Die Substitutionen ë ´ ¯­P&ô%ðtîô!Qt7ïFô­õ(RQtOQUA³ und ö ´ ¯­P&ô%ðMtOïô­õ÷RQtxîUA³ sind Unifikatoren für die Terme òR1Pítõ÷R1QtîUU und òKRðt7ïU . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 142 Prädikatenlogik Allgemeinster Unifikator Definition 3.26. Eine Sustitution ë heißt allgemeinster Unifikator für die Terme ì und S gdw. p ë ist Unifikator von ì und S und p Für jeden Unifikator ø von ì und S existiert eine Substitution ù , so daß øZ´·ùúë gilt. Bemerkung 3.4. Es gibt einen Algorithmus, der für zwei Terme ì und S entscheidet, ob sie unifizierbar sind und gegebenenfalls einen allgemeinsten Unifikator berechnet. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 143 Allgemeinster Unifikator (2) Prädikatenlogik êé Û Regel (d) (c) (c) (b) à und Konstanten, so sind sie unifizierbar gleich ist. û ç û ç û (b) Ist eine Variable und eine Konstante, so sind und unifizierbar. Man erweitere hierzu um . (a) Sind gdw. Gegeben seien zwei Terme und . Die Berechung des allgemeinsten Unifikators geschieht wie folgt: als allgemeinsten Unifikator Man startet mit und wendet sukzessive die folgenden Regeln an: 3. Logik ç û ç ê û é ò R1PítAýíR1îUÀtîUÿòKRTõ÷RïUÀt7ï{tQU P&ÿuõ÷RïUÀtAýíR1îUÿ­ï{tîÿ­Q ýíR1îUÿ­ï{tîÿ­Q îÿQ ç Ungelöste Unifikationen ë eine Variable und ein Term der Form , so sind sie unifizierbar gdw. nicht . in vorkommt. Man erweitere hierzu um Îç û (c) Ist Û Îç û û é Û ç Ê û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ç è ÉÕ ç Ñ Ò ç Ô ÒÔÒ (d) Sind und zusammengesetzte Terme, so sind , sie unifizierbar gdw. und wenn jeweils und unifizierbar sind. Man erweitere um die Substitutionen, die sich aus der Unifikation der und ergeben. ê Ê ûè ç Ê û 3. Logik çü ÒÔ ûÉ Ñ ÒÒ û ü Õ Ô Ã û çü ûü Û ç è ÉÕ ç Ñ Ò ÒÔÒ Ô Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 144 à ç Prädikatenlogik Allgemeinster Unifikator (3) Beispiel 3.17. Es seien PítîtOï Variablensymbole. Sind die Terme òKR1PítAýíR1îUÀtîU und òRTõ(RïFUstOïþt7QU unifizierbar? ¯`³ `¯ ³ ¯­P&ô­õ÷R1ïFUA³ ¯­P&ô­õ÷RýíR1îUxUÀtOïFô`ýíR1îUA³ ¯­P&ô­õ÷RýíRQUUÀtOïFô`ýíR1QUstîô!Q{³ 145 3. Logik Prädikatenlogik Resolution in PL1 Bemerkung 3.5. Die Begriffe Klausel, Klauselform und Literal werden in PL1 analog zur Aussagenlogik definiert. Bemerkung 3.6. Wir dehnen die Unifikation auf atomare PL1-Formeln aus. Zwei atomare Formeln Rfì`rÀtmvvmv*tAìwU und RkSÀrÀt*vmvv*t'S'wU sind unifizierbar gdw. ì und S für ´ `t*v*v*vmt unifizierbar sind. Ñ 147 Ñ ä å Ó ÒÔ ÒÒ Ñ Û Ô É Êê Ó Ô Ò Ò ä ÑÒ Ô Ä Ä é Ó ÒÔ ÒÒ Ñ é Ô å ÉÉ Ñ Û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ê hat die folgende Form: 146 ÊÊ (c) Ô , ein ne(b) Es gibt positive Literale gatives Literal und einen allgemeinsten . Unifikator von Ñ und Ñ (a) Resolution in PL1 (2) 3. Logik Definition 3.27. Es seien PL1-Klauseln. und Die Klausel heißt PL1-Resolvente von gdw. folgendes gilt: Prädikatenlogik haben keine gemeinsamen Variablen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Prädikatenlogik Resolution in PL1 (3) Beispiel 3.18. Darstellung der Resolution für PL1: J lkl N lkl J l "!#$&% l'(kl ! 'Kl % )+* JL7N l L xl % L7N l' L N l kl ! N l Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 148 3. Logik Logikprogrammierung Logikprogrammierung Das Idealbild der Logikprogrammierung: Algorithmus = Logik ↑ “Was?” ↑ reine Problemspezifikation Aufgabe des Programmierers + Kontrolle ↑ “Wie?” ↑ System Die vollständige Trennung von Logik und Kontrolle ist in den heutigen Sprachen zur Logikprogrammierung aus Effizienzgründen noch nicht realisiert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 149 3. Logik Logikprogrammierung Hornklauseln Für viele Anwendungen reichen drei Arten logischer Formeln aus: (a) Formeln der Form ,.-0/ 121213/ ,$4 5 798 8 ,.-:;1<1;12: ,$4=:>6@? , die Regeln darstellen. 6 bzw. als Klausel 7 (b) Ein Faktum wir durch eine einelementige Klausel ,A? ausgedrückt. (c) Eine Anfrage der Form “Folgt , - / 121;1B/ , 4 aus den Fakten und Regeln?” wird als Klausel in negierter Form geschrieben: 798 8 ,.-:;1<1;12: ,$4C? . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 150 Logikprogrammierung Definition 3.28. Eine Hornklausel ist eine Klausel mit höchstens einem positiven Literal. D Eine Klausel der Form (a) heißt Regel, D eine Klausel der Form (b) heißt Faktum und D eine Klausel der Form (c) heißt Zielklausel. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 151 3. Logik Logikprogrammierung Prolog-Notation von Hornklauseln In der Programmiersprache P ROLOG werden Hornklauseln wie folgt geschrieben: (a) Regeln in der Form: E FGIHKJKLHNMOL#PQPRPSLHSTUP (b) Fakten in der Form: H.P (c) Zielklauseln in der Form: FGSHKJKLHNMOLNPRPQPVLHSTUP Das positive Literal einer Regel heißt Kopf. Definition 3.29. Ein logisches Programm ist eine endliche Menge von Regeln und Fakten. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 152 Logikprogrammierung Prolog Beispiel 3.19. Ein Logikprogramm zur Berechnung von Pfaden in einem Graphen: WNXNYVZ[\ ^L ]K_ WNXNYVZ[\ L h=_ ` Y b T adc Y ` Tbadc ` Y Tbadc ` Y Tbadc FG0` Y b T adc [ \ eL ]f_gP FG0` Y b T adc [ \ eL ]f_iL WCX#YSZ$[ ]jLhd_gP [>Y ^L kK_gP >[ Y L lQ_gP [ kmL Z _gP [ liL Z _gP Anfrage: FG WNXNYVZ$[>Y L Z _ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 153 3. Logik Logikprogrammierung Auswertung von Logikprogrammen D D Für Logikprogramme wird eine spezielle und effizientere Form der Resolution verwendet, die sogenannte SLD-Resolution (Linear Resolution with Selection Function for Definite Clauses). D Hierzu wird jeweils das erste Literal der Zielklausel mit einem Regelkopf oder einem Faktum resolviert. D Hieraus ergibt sich eine neue Zielklausel, für die das gleiche Prinzip angewendet wird. Scheitert irgendwann die Resolvierung, findet ein Backtracking statt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 154 3. Logik Logikprogrammierung Beispiel 3.20. :− Pfad(a,d) {X/a, Y/d} :− Kante(a,d) {X/a, Z/d} :− Kante(a,Y), Pfad(Y,d) {Y/b} fail :− Pfad(b,d) {X/b, Y/d} :− Kante(b,d) OK Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 155 3. Logik Logikprogrammierung Crashkurs Prolog Beispiel 3.21. Gesucht sind alle dreistellgen Zahlen, die durch 5 und 6 teilbar sind und bei der Division durch 9 den Rest 3 liefern. ndo XRX cVp [ h=_ FGrqsctqQkscVp [ hLdu^vOL<JfLM$LwLxyLzOL{OL|L}$L~Vs_P cN2Kl2#aCc h Y s [ h Y b_ FG X X cVp ndo R h Y s o v o h v o h w o h [ _iL n=o Q X X cSp [ d X X cSp [ _iL n o Q h _iL = L JvQv t J v h Y qs Z $ z L Y qs Z $ { L Y qs Z ~ P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 156 Logikprogrammierung Prolog-Grundlagen D Konstanten und Prädikate beginnen in Prolog mit einem Kleinbuchstaben. D Variablen beginnen mit einem Großbuchstaben. D In Anfragen sind Variablen existenzquantifiziert. G Y aCcSp [\ LT o #Q_gP bedeutet: Existiert ein X, so daß X Vater von Nils ist? D In Fakten sind Variablen allquantifiziert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 157 3. Logik D Logikprogrammierung Anfrage in Prolog bedeutet: Exsistiert eine Variablenbelegung, so daß ... gilt? D Bei der Lösungssuche werden Variablenbelegungen generiert. D Hierbei wird die Unifikation durchgeführt. a cVp ^[ W c aCcSpL^T o bQ_P Fakt: Y d a cVp [\ L^T o bb_P Anfrage: G0 Y d Unifikation: \ W c9aCcSp Mit dieser Unifikation kann die Anfrage bewiesen werden. D a cVp [\ LT o #Q_iL Y aCcSp [\ L Y pdQ_gP Unifikationen werden übernommen: G Y d Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 158 Logikprogrammierung Beispiel 3.22. Lösung des Färbeproblems aus Kapitel 2: X#Y cVpVkRQT [ LLyLejL _ X#Y X Y # X Y # X Y # p9ksc p9ksc p9ksc p9ksc FG XNY V X Y pVk=c [ _L # X Y p9ksc [ = p k=c [ _iL N _iL X Y V N [ X N Y [ p k=c _iL pVk=c _L SR L V Q yL V Q L VQ L SR yL¡ SR L L SR jL¢ VQI SR P [ # p 9a_gP [ ks Y (_P [ cbk(_P [ Vp Y T cC_P Anfrage: G X#Y cVp9kQRT [ LyLLyL _P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 159 3. Logik Logikprogrammierung Arithmetik und Unifikation D D Der Operator = steht für die Unifikation. X = Y bedeutet: Können X und Y unifiziert werden. D Der Operator == steht für die Identität. is/2 wertet einen arithmetischen Ausdruch aus und unifiziert das Ergebnis mit einer Variablen. \ \ G G ¤ c# \ z o rx JiP o rx JKL] o J xyL \ Q ]£P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 160 Logikprogrammierung Datentypen in Prolog Integer und Float ( -1, 1, -8.23) D Zeichenketten ¥>=cbRRr¦dSpN Z ¥ D D Atome: Bezeichner beginnend mit einem Kleinbuchstaben ( p#9aL Y p= ). D Konstanten sind Zahlen, Zeichenketten oder Atome. D Atomare Terme: Konstanten oder Variablen D Terme: einfache Terme oder Strukturen ( §V YSZ p Y a [ vOL¨v$L©JKLJI_ ) D Listen: u"JKLM$LpNc Z L§V YSZ p Y a [ vOLªv$LJfLJI_« Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 161 3. Logik Logikprogrammierung Listen in Prolog Mit dem Relistoperator kann eine Liste aufgeteilt werden: u Y L kmLl« Y G \ ] \ G u \+¬ ]NjP u­kmL®l u Y L kmLliL Z L"cV uliL Z LcV u Y Lk ¬ \ j P Es gibt eine Fülle von vordefinierten Prädikaten für Listen, z.B. append/3: YtWQW « Z [ u L°¯yL¡¯_P c T YtWQW « Z [ u+ ¬± yL¯L u +¬³² =_ c T FG Y«WRW ctT Z$[± L¯yL ² _P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 162 3. Logik Logikprogrammierung Steuerung der Abarbeitung X#Y ` [´ L¡H Y ` X#Y ` [ vOL<JV_gP _ FG ´ J o ´ G JfL XNY ` [´ f J L¡H Y ` JS_L Y Y o H ` rH `i J ´ P Die Anfrage X#Y ` [ |L \ _ führt zu einem Fehler. Prolog läuft in einen unendlichen Rekursionszyklus, weil die erste Regel immer wieder anwendbar ist. Grund: unvollständige Spezifikation Abhilfe: Erweiterung der Regel: o Tbadc cVp [ ´ i _ L ´ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 µ JfL ´ J o PQPRP 163 3. Logik Logikprogrammierung Mit dem Cut wird Backtracking verhindert. Sei eine Klausel der folgenden Struktur gegeben: ¶9L JKL#PQPRPVL q+P FGIKJKL#PQPRPVL¡VT.L Sind (JfLNPRPQPVL¡VT erfüllt, so werden alle eventuell noch anwendbaren Regeln zum Beweis für (JfLNPRPQPVL¡VT und abgeschnitten. X X V ndo R c p [ = h _ F GrqsctqQkscVp [ h L u^vOL<JfLMOLwyLxLz$L{$L|yL}yL~ =_P Q X X n Y s [ h Y # = n o _ F G cSp [ d h _iL n=o XQX cSp [ _iL¡h Y s o Jtv Ih P `dc o Tsc W p o q n Y [ d h _ F G n Y s [ ± _iLªcNl2#aCcSp ± c o cVp [± Lhd_gP c#l<badcVp ± c o R cVp [± L h=_ F G ± µ K J L ± · h$Lv o 0 hq Z ± P W p o q n Y s [ = h _ W p o q n Y s [ = h _ FG0`dc o s T c W p o q n Y [ hd_LC¶9L X#Y o $P FGh µ i J P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 164 Logikprogrammierung Prolog genutzt Negation as failure, d.h. eine negierte Anfrage ist wahr, wenn sie nicht bewiesen werden kann. not/1 liefert keine Variablenbelegung und entspricht somit nicht der logischen Negation. Die Verwendung des Cut im letzten Beispiel entsprach genau der Negation in Prolog. X X V ndo R c p [ = h _ F GrqsctqQkscVp [ h L u^vOL<JfLMOLwyLxLz$L{$L|yL}yL~ =_P Q X X n Y s [ h Y # = n o _ F G cSp [ d h _iL n=o XQX cSp [ _iL¡h Y s o Jtv Ih P `dc o Tsc W p o q n Y [ d h _ F G n Y s [ ± _iLªcNl2#aCcSp ± c o cVp [± Lhd_gP c#l<badcVp ± c o R cVp [± L h=_ F G ± µ K J L ± · h$Lv o 0 hq Z ± P W p o q n Y s [ h=_ FGh µ JKL V `=c o T=c W p o q n Y [ hd_gP Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 165 3. Logik Logikprogrammierung Zusammenfassung des Kapitels Ein logisches System besteht aus: D D Signatur ¸ Syntax aufbauend auf ¸ (Menge der Formeln), wodurch die Wissensrepräsentationssprache festgelegt ist. D ¸ -Interpretation, die für die Elemente aus ¸ D Erfüllungsrelation ¹ º , die die Semantik von Formeln festlegt. eine Semantik festlegt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik D 166 Logikprogrammierung D Klauselform zur kanonischen Darstellung von Formeln Kalkül zur Durchführung der maschinellen Inferenz (Vollständigkeit, Korrektheit) Resolution als Inferenzverfahren in Aussagen- und Prädikatenlogik D Unifikation in der Prädikatenlogik D D Logikprogramm: eingeschränkte Prädikatenlogik und angepaßtes Resolutionsverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 167 4. Induktion von Regeln Lernen von Entscheidungsbäumen 4 Induktion von Regeln D D Gegeben sei eine Menge von Objekten, die durch Attribut/WertPaare beschrieben sind. D Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist. Beispiel 4.1. Gegeben seien die Beschreibungen von Bankkunden. Die Bankkunden können in die beiden Klassen “kreditwürdig” und “nicht kreditwürdig” eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 168 Lernen von Entscheidungsbäumen Entscheidungsbaum Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften: Ein Blatt repräsentiert eine der Klassen. D Ein innerer Knoten repräsentiert ein Attribut. D D Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens. ☞ Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 169 4. Induktion von Regeln Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert, D D indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und D so lange den Kanten folgt, die mit den Attributwerten des Objekts markiert sind, D bis man einen Blattknoten erreicht. Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der das Objekt zugeordnet wird. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 170 Lernen von Entscheidungsbäumen Beispiel 4.2. Ein Entscheidungsbaum zur Risikoabschätzung für eine KFZ-Versicherung: Autotyp = LKW <> LKW Risikoklasse = niedrig Alter > 60 Risikoklasse = niedrig Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 <= 60 Risikoklasse = hoch 171 4. Induktion von Regeln Lernen von Entscheidungsbäumen Entscheidungsbäume und Regeln D D Entscheidungsbäume repräsentieren Regeln in kompakter Form. Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-Regel. Beispiel 4.3. Der Entscheidungsbaum aus Beispiel 4.2 entspricht den folgenden Regeln: if Autotyp º LKW then Risikoklasse = niedrig, if Autotyp º » LKW and Alter ¼ 60 then Risikoklasse = niedrig, if Autotyp º » LKW and Alter ½ 60 then Risikoklasse hoch. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 172 Lernen von Entscheidungsbäumen Problem der Generierung von Entscheidungsbäumen D D Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren. D Ein Beispiel der Trainingsmenge besteht aus einer Menge von Attribut/Wert-Paaren zusammen mit der Klassifikation. D Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen, der die Beispiele richtig klassifiziert. Für so einen generierten Entscheidungsbaum hofft man, daß dieser auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 173 4. Induktion von Regeln Lernen von Entscheidungsbäumen Beispiel 4.4. Trainingsmenge für den Baum aus Beispiel 4.2: ID 1 2 3 4 5 Alter 23 18 43 68 32 Autotyp Familie Sport Sport Familie LKW Risikoklasse hoch hoch hoch niedrig niedrig Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 174 Lernen von Entscheidungsbäumen Naiver Ansatz der Generierung: Man entscheidet streng sequentiell anhand der Attribute. D Jeder Baumebene ist ein Attribut zugeordnet. D D Der Baum wird dann konstruiert, in dem für jedes Beispiel ein Pfad erzeugt wird. Tafel ✎. ☞ Keine sinnvolle Generalisierung auf andere Fälle ☞ Overfitting ☞ Entscheidungsbaum mit vielen Knoten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 175 4. Induktion von Regeln Lernen von Entscheidungsbäumen Beispiel 4.5. Zwei Entscheidungsbäume für die Trainingsmenge aus Beispiel 4.4: Alter Autotyp > 60 < 30 = LKW <> LKW >= 30 and <= 60 Risikoklasse = niedrig Risikoklasse = hoch Alter > 60 Risikoklasse = niedrig <= 60 Autotyp <> LKW Risikoklasse = niedrig = LKW Risikoklasse = hoch Risikoklasse = hoch Risikoklasse = niedrig Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 176 Lernen von Entscheidungsbäumen Ziel der Generierung ist es, einen Baum aufzubauen, D D der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert und der möglichst kompakt ist. ☞ Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. Occam’s Razor (William of Occam, 1285–1349): One should not increase, beyond what is necessary, the number of entities required to explain anything. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 177 4. Induktion von Regeln Lernen von Entscheidungsbäumen Prinzip der Generierung Man teste das “wichtigste” Attribut zuerst! D Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab. D D D Die Beispielmenge wird gemäß der Attributwerte des ausgewählten Attributs auf die Söhne verteilt. Man setze dieses Prinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 178 4. Induktion von Regeln Lernen von Entscheidungsbäumen Trainingsmenge zum Thema “Kinobesuch”: Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Attr. + o o o + o o o + o + o o Preis $$ $ $ $ $ $$ $ $ $ $ $ $ $$ $ $ Loge ja ja nein ja ja ja ja nein ja ja ja nein ja ja ja Wetter o o o o + + + o o + - Warten ja nein ja ja nein nein nein ja nein nein ja ja ja ja nein Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Bes. + o o o o + o o o o + o o + o Kat. AC KO DR SF DR SF KO AC KO KO DR AC SF DR AC Land int int int int int int nat int nat int int nat int int int Res. ja nein nein nein nein ja nein nein nein nein nein nein nein ja nein Gr. F P F a P F F F F P P a a F P 179 Kino? ja ja nein nein ja ja ja ja nein nein ja nein nein nein ja 4. Induktion von Regeln Lernen von Entscheidungsbäumen Attributauswahl für das Kinoproblem: ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Gruppe P F a ja: 1, 6, 7, 8 nein: 3, 9, 14 ja: − nein: 4, 12, 13 ja: 2, 5, 11, 15 nein: 10 ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Kategorie DR ja: 5, 11 nein: 3, 14 AC ja: 1, 8, 15 nein: 12 SF KO ja: 2, 7 nein: 9, 10 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln ja: 6 nein: 4, 13 180 Lernen von Entscheidungsbäumen Bei der rekursiven Konstruktion können die folgenden Situationen auftreten: 1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation. Dann wird der Knoten mit der entsprechenden Klasse markiert und die Rekursion beendet. 2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten vorkommt. 3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut ¾ gemäß seiner Wichtigkeit aus. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 181 4. Induktion von Regeln Lernen von Entscheidungsbäumen Generiere für jeden möglichen Attributwert einen Nachfolgerknoten und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts. Setze das Verfahren für jeden Nachfolger fort. 4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent. Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der Klassifikation von den Attributen existiert. Beispiel 4.6. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert werden. Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 182 Lernen von Entscheidungsbäumen Algorithmus zur Konstruktion Algorithmus 4.1. [Entscheidungsbaum-Konstruktion] W N p #lSc Z N pNc Entscheidungsbaum( ¿À:ÁÂ:Äà ) o X ¿ º Æ Å aSsctT markiere à mit einer Default-Klasse; p#c9aSCp9T cQ#Vc o XÈÇÉUÊ ¿ Ë ÌÎÍ­¾NÏtÏtÐQÑ ÉÒ º Ó£a =c«T markiere à mit Ó ; p#c9aSCp9T cQ#Vc o X Á ºaSsctT cVpQp#Sp cQ#Vc Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 183 4. Induktion von Regeln X Sp ctT Z Lernen von Entscheidungsbäumen c Y 2l A¾ Ê Á Z X Sp c Y l2 mögliche Partition Ô von ¾ Z o X Ѿ:Ô Ò besser als ÕÐ«Ï É aSsctT ÕÐ«Ï É ËÖº Ѿ:"Ô Ò ctT Z ctT Z Sei ÕÐtÏ É º Ѿ:Ô Ò ; Seien Ô.-:;1<1;12:Ô$4 die Teilmengen von Ô ; X SpØ×mËÖº ctT Z ctT Z ÙÚaCÆÛ Z ÌÜ als Sohn von à ; erzeuge 7 ÉÝÊ Knoten É ¿ Ü ËÖº ¿A¹ fällt in Ô Ü ? 7 Entscheidungsbaum( ¿(Ü:ÁÞ ¾s? :"ÌÜ ) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 184 4. Induktion von Regeln Lernen von Entscheidungsbäumen Partitionen für Attribute Typen von Partitionen fuer nominale Attribute Attribut =a1 =a2 Attribut =a3 in A1 Attribut <a1 <=a2 in A2 Attribut <=a3 <a >= a Typen von Partitiionen fuer numerische Attribute Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 185 4. Induktion von Regeln Lernen von Entscheidungsbäumen Attributauswahl D D Die auf Algorithmus 4.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert. D Der Kern eines TDIDT-Verfahrens ist die Attributauswahl. D Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge exakt auf verschiedene Klassen aufteilen. Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 186 Lernen von Entscheidungsbäumen Informationsgehalt und Informationsgewinn Die mit einem Ereignis verbundene Information wird logarithmisch aus dessen Wahrscheinlichkeit berechnet. Den mittleren Informationsgehalt ßrÑÔ Ò einer Wahrscheinlichkeitsverteilung Ô über einer endlichen Menge à bezeichnet man als die Entropie von Ô : ßáÑÔ Ò º â ãäSåÀÔÑçæ Ò#èêéSëbì Ôѳæ Ò Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 187 4. Induktion von Regeln Lernen von Entscheidungsbäumen Demnach ist der Informationsgehalt íKÑî Ò einer Beispielmenge î positiven und Û negativen Beispielen (genau zwei Klassen) í(Ñî Ò ËÖº ß ð ï Û ïAñáÛ+ò ïAñáÛyó º ï ï èéSë ì ï@ñrÛ ïAñrÛ â â mit ï Û Û èêéSë ì bit ïAñáÛ ïAñáÛ Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs ô noch benötigen. Jedes Attribut ô teilt die Trainingsmenge õ in ö disjunkte Teilmenge õø÷ù2ú2ý ú2ú2ùõÈû auf, wobei ö die Anzahl der verschiedenen Werte üý ÷ù;ú<ú2ú2ù ûtþ ist, die ô annehmen kann. Teilmenge õÀÿ habe ÿ positive und ÿ negative Beispiele. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 188 Lernen von Entscheidungsbäumen Der mittlere Informationsgehalt von õ ÿ ist also ü õÀÿþ ÿ ÿ þ bit ÿC ñ ÿ>ò ÿCñÿ ü Der mittlere Informationsgehalt der Antowrt, nachdem wir Attribut ô getestet haben ist: ü õ ô bekannt þ û ÿ ÷ ü ô ý ÿ­þ ü û ÿCñiÿ ÿ÷ Añ õBÿ­þ ü sÿ iÿ þ bit ÿC ñ iÿ>ò ÿCñÿ ü Um den Informationsgewinn Nô ôNþ von Attribut ô zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von ô ) und der Restinformation (nach dem Test von ô ): Nô ü ôNþ ü õ@þ ü õ ô bekannt þ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 189 4. Induktion von Regeln Lernen von Entscheidungsbäumen Der ID3-Algorithmus Algorithmus 4.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die Relation “besser” für die Attributausü wahl auf dem Informationsgewinn #ô ôNþ basiert. ü ô ôNþ maxiID3 wählt als nächstes Attribut ô dasjenige aus, bei dem N mal ist. Beispiel 4.7. Für die Wurzel des Kinoproblems haben wir ü #ô Gruppe þ ü õ@þ ü õ Gruppe bekannt þ "$# & % ú! %'& ü)(#+*-,# þ/. %'& ü0(& * & þ1. %', & % * þ)2 ü 4ú 35 ( Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 190 Nô ü Kategorie þ Lernen von Entscheidungsbäumen ü õ@þ ú46 ú ( , ü " õ Kategorie bekannt þ ( '% & ü % , * þ/. '% ( & ( ( ü % % * /þ . %'( & 3 3 ü % % * /þ . %', & 3 3 ü Beispiel 4.8. Man berechne Nô ôNþ für alle Attribute und zeige damit, daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem als Attribut für den Wurzelknoten selektiert würde. Tafel ✎. Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 191 ü % 3 * þ2 , , 4. Induktion von Regeln Lernen von Entscheidungsbäumen Bemerkung 4.1. 7 7 In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer BernoulliVerteilung. 7 Dies Konzept wird mit Hilfe der Entropie auf ö Klassen verallgemeinert. Der Informationsgehalt einer Beispielmenge õ mit ö Klassen 8 ÿ und û ÿ Beispielen in Klasse 8ÿ (9: ; ÿ ÷ ÿ ) ist dann: ü õ@þ<:= ü ÷ù;ú<ú;ú2ù>Kûþ? û ÿ ÷ ÿA@CBDEsÿ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 192 4. Induktion von Regeln Lernen von Entscheidungsbäumen Beispiel 4.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren: ID Größe Beine Tier 1 0.1 0 F 2 0.2 2 V ü õ Beine ü õ Beine 3 1.8 2 M 4 0.2 4 K 5 2.1 4 P 6 1.7 2 M 7 0.1 4 K % @CBDE % þ F ÷ @CBDGE F ÷ IFH C@ BDJEFH ü õ Beine ( þ ÷ @CBDGE ÷ E @CBDJE E H H H H % ü ü ( Nô Beine þ? õ@þ ú4 %% , , 3 þ 8 1.6 2 M ú4 bit ú4 % % , ú4 % Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 % , bit bit % Kú 3 % % , bit 193 4. Induktion von Regeln Lernen von Entscheidungsbäumen Der C4.5-Algorithmus 7 ü 7 Der (absolute) Informationsgewinn #ô ôNþ hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt. Dies kann im Extremfall zu unsinnigen Ergebnissen führen. Beispiel 4.10. 7 7 Bei einer medizinischen Diagnose werde als eines der Attribute die PIN eines Patienten benutzt. Dieses Attribut habe soviele Werte, wie es Patienten in der Datei gibt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 194 4. Induktion von Regeln 7 Lernen von Entscheidungsbäumen 7 Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die aus genau einem Patienten bestehen. Die bedingte mittlere Information ist also ü õ PIN bekannt þ? û ÿ÷ ü *%? þ und damit ist der Informationsgewinn maximal. 7 Für die Diagnose ist die PIN dagegen nutzlos. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 195 4. Induktion von Regeln Lernen von Entscheidungsbäumen Algorithmus 4.3. Der C4.5-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die Relation “besser” für die Attributauswahl auf ü dem sogenannten normierten Informationsgewinn #ôML9ôON)QP ôNþ basiert. ü ô ôNþ ü N Nô+LVôONRQP ôNþ? S UTV>N)1WXP ôNþ ü Hierbei ist S YTV>N)1WYP ôNþ die Entropie des Attributs ô . Es sei õ die Kardinalität der es gebe L verschiedene Werteý für ý ü Beispielmenge, ÿþ sei die relative Häufigkeit von Attributwert ÿ . Attribut ô und ôZ ü S YTV>NRWYP ü ôNþ[ ü ôNþ \ ÿ$÷ ü ô ý ÿþJ@CBD E ü ô ý ÿþ ü ô+L9ôON)QP ôNþ C4.5 wählt als nächstes Attribut ô dasjenige aus, bei dem # maximal ist. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 196 Generieren von Assoziationsregeln Assoziationsregeln 7 7 Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.B. den Artikeln eines Warenhauses. 7 Die Zusammenhänge sind allgemeiner Art und nicht notwendigerweise kausal bedingt. 7 Man unterstellt aber, daß implizite strukturelle Abhängigkeiten vorliegen. Diese möchte man erkennen. Typischer Anwendungsbereich: Verkaufsdatenanalyse Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 197 4. Induktion von Regeln Generieren von Assoziationsregeln Itemmenge, Transaktion und Datenbasis Definition 4.1. Die Dinge, deren Beziehungen zueinander analysiert werden sollen, werden als Items bezeichnet. Es sei ] ^'÷ù;ú<ú;ú2ù_Q`ba eine endliche Menge von Items. Eine Teilmenge c d ] heißt Itemmenge. Eine ö -Itemmenge ist eine Itemmenge mit ö Elementen. Eine Transaktion Die Datenbasis Nedf] ist eine Itemmenge. g ^Ah=÷ù;ú<ú;ú2ùihj!a ist eine Menge von Transaktionen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 198 Generieren von Assoziationsregeln Support Definition 4.2. Es sei c dk] eine Itemmenge. Der Support von der Anteil aller Transaktionen aus g , die c enthalten: c ist K^oN<p$g q c dkNraG S-l YPmLAN ü ® c þn: sgt Beispiel 4.11. Bei der Verkaufsdatenanalyse eines Supermarktes sind Items die Artikel aus dem Sortiment. Die Transaktionen entsprechen den Einkäufen von Kunden. Die Datenbasis besteht aus den Einkäufen der Kunden eines bestimmten Zeitraums. Der Support der Itemmenge ^Au QTwvyx+a ist dann der Anteil der Einkäufe, bei denen u.a. Milch gekauft wurde. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 199 4. Induktion von Regeln Generieren von Assoziationsregeln Assoziationsregel Definition 4.3. Gegeben seien zwei disjunkte Itemmengen c ù_z , also cù_z df] und c {z | . Eine Assoziationsregel hat die Form c } z Eine Transaktion erfüllt die Regel c } enthält alle Items der Assoziationsregel. Der Support von c } z z . gdw. c ~z d N ist der Support der Itemmenge gilt, d.h. N c ~z ü S-l YPLN ü c } z < þ oS l OYPLN c ~zAþ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 200 Generieren von Assoziationsregeln Konfidenz Definition 4.4. Gegeben seiü die Assoziationsregel c } denz von c } z vP1WYQh-Mvy c } zAþ ist definiert durch ü vP1WYQh-Mvy c } zAþ z . Die Konfi- K^oN<p$gtc ~z d NraG K^oN<p$gtc dkNa S-l OUPmLAN ü c } A z þ S-l OUPmLAN ü c®þ Bemerkung 4.2. Die Konfidenz ist eine bedingte Häufigkeit bzw. bedingte Wahrscheinlichkeit. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 201 4. Induktion von Regeln Generieren von Assoziationsregeln Beispiel 4.12. Transaktion 1 2 3 4 5 6 Items Brot, Kaffee, Milch, Kuchen Kaffee, Milch, Kuchen Brot, Butter, Kaffee, Milch Milch, Kuchen Brot, Kuchen Brot S-l YPmLAN ü ^ Kaffee, Milch aþ S-l OYPLAN ü ^ Kaffee, Kuchen, Milch aþ S-l OUPmLAN ü ^ Milch, Kaffee a6} ^ Kuchen aþ ü vPm1WUQhJov ^ Milch, Kaffee a6} ^ Kuchen aþ ú & & ú ú ,, ,, ú4,,# , ,# Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 202 Generieren von Assoziationsregeln Suche nach Assoziationsregeln 7 Support und Konfidenz sind Parameter mit denen die Relevanz einer Regel beurteilt wird. 7 Beide Maßzahlen sollten möglichst groß sein. 7 Finde alle Assoziationsregeln, die in der betrachteten Datenbasis – einen Support I S-l O und – eine Konfidenz IMvPW haben. Die Werte $ S-l und MvPm1W sind dabei benutzerdefiniert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 203 4. Induktion von Regeln Generieren von Assoziationsregeln Das Problem wird in zwei Teilprobleme zerlegt: 7 7 Finde alle Itemmengen, deren Support S-l ist. Diese Itemmengen heißen häufige Itemmengen (frequent itemsets). Finde in jeder häufigen Itemmenge J mit U und mit Konfidenz } alle Assoziationsregeln eJ MvPW . Die wesentliche Schwierigkeit besteht in der Lösung des ersten Teilproblems. Enthält die Menge ] insgesamt Items, so sind prinzipiell gen auf ihren Support hin zu untersuchen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3` Itemmen- 204 4. Induktion von Regeln Generieren von Assoziationsregeln Apriori-Algorithmus Der sogenannte Apriori-Algorithmus nutzt folgendes bei der Suche nach häufigen Itemmengen aus: E mit ÷ d E gilt S-l OUPmLAN ü E þ< S-l YPmLAN ü Für zwei Itemmengen ÷ ù ÷þ Somit folgt: 7 7 Alle Teilmengen einer häufigen Itemmenge sind ebenfalls häufige Itemmengen. Alle Obermengen einer nicht häufigen Itemmenge sind ebenfalls nicht häufig. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 205 4. Induktion von Regeln Generieren von Assoziationsregeln Grober Ablauf des Apriori-Algorithmus: 7 Der Apriori-Algorithmus bestimmt zunächst die einelementigen häufigen Itemmengen. % 7 7 In jedem weiteren Durchlauf werden die Obermengen mit ö. Elementen von häufigen ö -Itemmengen darauf untersucht, ob sie ebenfalls häufig sind. 7 Die Obermengen der häufigen ö -Itemmengen werden mit dem Algorithmus G5bGA ermittelt. Werden keine häufigen ö. Algorithmus ab. % -Itemmengen mehr gefunden, bricht der ☞ Voraussetzung: Itemmengen sind lexikographisch geordnet. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 206 Generieren von Assoziationsregeln Algorithmus 4.4. [Apriori-Algorithmus] ÷: ^ % häufige -Itemmengen a ö : 3 O ¡ ûA¢g÷ £ |6¤G ü ¥ û¦:=5§b5GA û¢÷þ ¨ ©¡¡ Transaktionen N<pg ¤J ¥<ª ¥ p û«v¬d­Na ¥eª ¨ : ©¡^A¡vKandidaten vp % ¤J v úvP l ®N[ v úvP l ®N. A§¤ ¥ A§¤ û ^Av¬p û «vú4v¯P l XNe °gt±o oS l Oa % ö: ö¦. A§¤ J³²´§³Z~ û û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 207 4. Induktion von Regeln Generieren von Assoziationsregeln Algorithmus 4.5. [AprioriGen] ¥ ¨ û¦ : © ¡| ¡nù¶µ·p û¢÷ mit ¸£ µ!¤J ¨ ¹{ µ öº3»©A§¤[ ^S÷ù2ú2ú2ú2ù¶«û¢ E iù ¼a6©AG¤µ¦ ^S÷ù;ú<ú;ú<ù¶«ûA¢ E ¶ù '½-a¾² A ¥ ¥ û û ~¿^ ÷ ù2ú2ú2ú2ù¶ û¢ E ùi ¼ ùi ½ a ¨A§¤ ©¡¡!vp ¥ û¾¤J ¨ ©¡¡ ü öº % þ -Teilmengen S von v¤J ¨ SÁ¥ p À ûAg¢ ¥ ÷² û û ^AvAa A§¤ A§¤ ¥ J³²´§³ û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Beispiel 4.13. Transaktion 1 2 3 4 Generieren von Assoziationsregeln oS l O ( Items ACD BCE ABCE BE ®} 208 ¥ Itemm. ^ Aa ^ Ba ^ Ca ^ Da ^ Ea ÷ Support 50% 75% 75% 25% 75% Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Itemm. ^ Aa ^ Ba ^ Ca ^ Ea ÷ Support 50% 75% 75% 75% 209 ¥ E ¥ E 4. Induktion von Regeln Itemm. ^ A,B a ^ A,C a ^ A,E a ^ B,C a ^ B,E a ^ C,E a Itemm. ^ B,C,E a Support ¥ ®} H Support ®} Itemm. ^ A,B a ^ A,C a ^ A,E a ^ B,C a ^ B,E a ^ C,E a Itemm. ^ B,C,E a ¥ Generieren von Assoziationsregeln Support 25% 50% 25% 50% 75% 50% H Support 50% E Itemm. ^ A,C a ^ B,C a ^ B,E a ^ C,E a Support 50% 50% 75% 50% Itemm. ^ B,C,E a Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln H Support 50% 210 Generieren von Assoziationsregeln Unterstützung der Teilmengenoperation 7 7 Im Apriori- und im AprioriGen-Algorithmus werden sehr häufig Teilmengen überprüft. 7 Um diese Tests effizient durchführen zu können, werden die Kandidatenmengen in einem Hash-Baum verwaltet. Struktur eines Hash-Baums: – Innerer Knoten: Hashtabelle bezüglich Hashfunktion x ; Buckets der Hashtabelle verweisen auf die Sohnknoten. – Blattknoten: enthält Liste von Itemmengen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 211 4. Induktion von Regeln 7 Generieren von Assoziationsregeln c '^ ÷ù;ú<ú2ú;ù¶eû³a : Innerer Knoten auf Ebene h : Anwendung der Hashfunktion x auf Q Das Ergebnis von x legt den Zweig fest, der weiter verfolgt wird. Suchen einer Itemmenge – – – Blatt: Suche in der Liste der Itemmengen 7 c ^'÷ù2ú2ú2ú2ù0eû5a : Zunächst erfolgt eine Suche für c bis zu einem Blatt, in das die Einfügen einer Itemmenge – Itemmenge eingefügt werden soll. – Ist in dem Blatt Platz für eine weitere Itemmenge vorhanden, dann wird c dort eingefügt. – Kann das Blatt keine Itemmenge mehr aufnehmen, dann wird es zu einem inneren Knoten und die Einträge werden gemäß x auf neue Blätter verteilt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Generieren von Assoziationsregeln Kapazität der Blätter = 3 0 1 2 h(K) = K mod 3 0 1 2 0 1 2 {3,6,7} 212 0 1 2 0 1 2 {3,5,7} {7,9,12} {1,4,11} {7,8,9} {2,3,8} {3,5,11} {1,6,11} {1,7,9} {1,8,11} {5,6,7} 0 1 2 {2,5,6} {2,5,7} {5,8,11} {3,4,15} {3,7,11} {3,4,11} {2,4,6} {2,4,7} {2,7,9} {5,7,10} {3,4,8} Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 213 4. Induktion von Regeln Generieren von Assoziationsregeln Suchen aller Itemmengen erfüllt werden: c , die von einer Transaktion Nn ^yN÷ù;ú<ú;ú2ù0N)j6a 7 Wurzel: Für jedes NÿpÃN wird x Nÿþ bestimmt und in den resultierenden Söhnen wird weitergesucht. 7 Innerer Knoten: Hat man den Knoten durch x ü x NQÄ;þ für jedes NQÄ mit ÅÇÆI bestimmt. ü ü Nÿþ erreicht, dann wird Auf die so resultierenden Söhne wird das Verfahren in gleicher Weise fortgesetzt, bis ein Blatt erreicht wird. 7 Blatt: Prüfung, welche der in dem Blatt enthaltenen Itemmengen die Transaktion N erfüllen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Generieren von Assoziationsregeln t = {1, 3, 7, 9, 12} {3,4,15} 0 1 2 h(K) = K mod 3 0 1 2 0 1 2 {3,6,7} 214 0 1 2 0 1 2 {3,5,7} {7,9,12} {1,4,11} {7,8,9} {2,3,8} {3,5,11} {1,6,11} {1,7,9} {1,8,11} {5,6,7} 0 1 2 {2,5,7} {5,8,11} {3,7,11} {2,4,6} {2,4,7} {3,4,11} {3,4,8} {2,7,9} {5,7,10} Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 {2,5,6} 215 4. Induktion von Regeln Generieren von Assoziationsregeln Bestimmung der Assoziationsregeln Nach der Bestimmung der häufigen Itemmengen müssen noch die Assoziationsregeln mit einer Konfidenz IMvPW bestimmt werden. Diese werden aus den häufigen Itemmengen generiert. c ù_z Gegeben seien Itemmengen mit z c . Dann gilt: üü vPWUQh-v c z þÈü} ü z þn MvP W É vPWUQh-v c z þ?} z þnMvPW für alle z dz Bei der Regelgenerierung nutzt man wiederum die Umkehrung aus. Man beginnt mit einer möglichst kleinen Menge z und schließt alle Obermengen von z aus, falls gilt: üü vP1WYQh-Mvy c z þ?} z < þ Êv¯Pm1W Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 7 216 Generieren von Assoziationsregeln 7 Man erzeugt aus einer häufigen Itemmenge c zunächst alle Assoziationsregeln mit einelementiger Konklusion (rechter Seite). 7 Alle Regeln mit Konfidenz MvPW werden ausgegeben. 7 Sei Zj die Menge der Konklusionen häufiger Itemmengen mit ü Elementen. Wir setzen ËjÌ÷e Í?ULmQPmLmqÎÏ- Ëj þ . xjÌ÷<pÐZj[Ì$÷ überprüft man nun, ob üü vPWUQh-Mvy c xjÌ ÷þ?} x j[Ì÷þn$MvP1W Für alle Konklusionen gilt. Falls ja, dann wird die Regel ausgegeben, ansonsten wird aus j[Ì÷ entfernt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 xjÌ÷ 217 4. Induktion von Regeln Generieren von Assoziationsregeln Warenkorbanalyse Beispiel 4.14. [Warenkorbanalyse] ID A B C D E F G H J K L Artikel Seife Shampoo Haarspülung Duschgel Zahnpasta Zahnbürste Haarfärbung Haargel Deodorant Parfüm Kosmetikartikel N÷ x x NE x x x x NH NF x x x x x N_Ó x x x x x x N)Ô N)Õ x x x x x x x x x x x x N0Ò x x x x x N_Ñ N÷×Ö x x x x x Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 x x x x x x x x support 0.4 0.8 0.6 0.6 0.4 0.2 0.3 0.1 0.6 0.2 0.5 218 Generieren von Assoziationsregeln # Wir setzen: oS l O ú ( ù_MvPWØ ú ¥ ÷Ù ^^AÍ a ùy^AÚÇRa ù^ Ra ù^AÛtRa ùt^ õZRa ù^³ÜÝRa ùy^ aa ¥ E Tafel ✎. ¥ ¥ ¥ E ^^A Ú ù Ra ù^A Ú ù_ÛtRa ù¯^A Ú ùrÜÝRa ù^A Ú ù a ù^ ù¯ÜÝaRù^ ù aa ¥ vor¥ Teilmengencheck: ¥ ¥ ¥ H ^^A Ú ù ù_ÛtRa ù¯^A Ú ù ù¯ÜÝ a ùy^AÚ ù ù Ra ùy^' Ú ù¶¨ Û ù¯ÜÝaRù^AÚ ù_Ûù aRù^AÚù¯Üdù aRù^ ù¯Üdù aa ¥ ¥ ¥ a ù^A Ú ù ù aa nach Teilmengencheck: ^^AÚ ù ùrÜÝR H ¥ ¥ ^ A ^ Ú ù ù¯ÜÝR a ù^AÚ ù ù aa H ¥ F F | 4. Induktion von Regeln Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 219 4. Induktion von Regeln E . Wir Generieren von Assoziationsregeln Für die Generierung wir mit ¥ ¥ der Assoziationsregeln ¥ beginnen erhalten: Ú } ù } Úù0Û } Úù } Ú ù } ¥ ergeben ùrÜÝ#Aa ß aus ß (Konfidenz in Klammern): ¥ % ß ¥ sich die Regeln ¥ % H Ú } Ü<Þ ú4 ùiÚËÜà} Þ ú ù Ü} ÚØÞ ú und °÷Ù ^^AÚáaRù¯^ aa #'ß ü ¥ ¥ E ÍÙL³QPL³qÎÏ- °÷þn ^^AÚù aa , aber Ü9} Ú Þ ú4 erfüllt nicht das Aus ¥ ^AÚ ù Konfidenzkriterium. ¥ ß die ¥ sich ¥ Regeln:% ß ù #Aa ß ergeben Ú } Þ ú4 ù¶Ú } Þ ú4 ù } ÚØÞ ú ¥ ¥ ß Þ ú4 Mit E ^^AÚù aa ergibt sich } Ú Aus ¥ ^AÚù Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 220 Generieren von Assoziationsregeln Regel Shampoo Haarspülung Duschgel Kosmetik Kosmetik Shampoo, Deodorant Haarspülung, Deodorant Shampoo, Kosmetik Haarspülung, Kosmetik Kosmetik } } } } } } } } } } Haarspülung Shampoo Shampoo Shampoo Haarspülung Haarspülung Shampoo Haarspülung Shampoo Shampoo, Haarspülung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Support 0.6 0.6 0.5 0.5 0.4 0.4 0.4 0.4 0.4 0.4 Konfidenz 0.75 1.00 0.83 1.00 0.80 1.00 1.00 0.80 1.00 0.80 221 4. Induktion von Regeln Generieren von Assoziationsregeln Zusammenfassung 7 Entscheidungsbäume – – – – 7 Aufbau einer Klassifikationshierarchie für eine Trainingsmenge top-down, rekursives Verfahren Wesentlich ist die Attributauswahl ID3-Algorithmus: Attributauswahl auf Basis der Entropie Assoziationsregeln – – – – Wesentlich: Berechnung häufiger Itemmengen Apriori-Algorithmus zur Berechnung häufiger Itemmengen Unterstützung des Apriori-Algorithmus durch Hash-Trees Aus den häufigen Itemmengen werden unter Einsatz von AprioriGen die Assoziationsregeln generiert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse 222 Vorbemerkungen 5 Clusteranalyse 7 7 Bei der Generierung von Entscheidungsbäumen im vorigen Kapitel wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. 7 In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. 7 Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie sie charakterisiert werden könnten. Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 223 5. Clusteranalyse Vorbemerkungen ãä ¼ Eine Zerlegung einer Datenmenge g ^'â ÷ù<ú;ú2ú2ù_âY`ba in seine Clusterstruktur ist definiert als eine Zerlegung von g in ö disjunkte Teilmengen Û°÷ù<ú;ú2ú2ù¶Ûû mit g Û ÿ £ 3 Û3ÿb{Û·Ä Û ÷ Î ~ ú;ú2ú~Û û å % ù2ú2ú2ú2ù>ö | für ùQŹ % ù<ú;ú2ú2ù>öKù0æ £ Å | für Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse 224 Vorbemerkungen Die Cluster Û ÿ sind genau dann eine gute Repräsentation der Clusterstruktur von g , falls 7 7 alle Datensätze innerhalb der Cluster einen geringen Abstand und alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. 7 kleiner Abstand bedeutet ähnliche Objekte und 7 großer Abstand bedeutet unähnliche Objekte. Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 225 5. Clusteranalyse Vorbemerkungen Metrik Definition 5.1. Es sei u eine Menge. Eine Funktion h heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. ü h âù0çNþ< â ù_çáp¿u für alle 2. ü h âù0çNþ? genau dann, wenn 3. h âù0çNþ? h çfù_âKþ 4. h âù_èbþnIh âù_çCþ/.éh çfù¶èbþ ü ü ü Das Tupel ü ü u ¶ù h#þ +} ãä . für alle â ù_çápÐu ü u â ç . . für alle g â ù_çù¶èZpÐu . heißt metrischer Raum. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse 226 Vorbemerkungen Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): 7 7 euklidische Norm: ü ü h âù0çCþ? ê ; ¼ ÿ÷ â ÿ ¸ ç ÿþE Anzahl verschiedener Attributwerte: ü ë âÿù_çVÿþ? ì % 7 Für Mengen c und z ü ü h âù¶çNþ ; ¼ ÿ÷Jë â ÿ^ù_çVÿþ mit falls âÿM=çVÿ sonst ü : h c¨ù¶zAþ c ~zA c {z c ~z Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 227 5. Clusteranalyse SAHN-Clustering Hierarchische agglomerative Verfahren 7 Hierarchische Clusteranalyseverfahren liefern einen Hierarchie von Clustern. 7 Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. 7 Agglomerative Verfahren bauen dabei die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge g als Cluster. 7 Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup die Hierarchie. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse 228 SAHN-Clustering Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) 1. Setze í9: 2. 3. ^^'â ¯÷ aRù;ú<ú;ú2ù^'âY`baa und ö:= . ü¥ ü¥ ¥ ¥ ¥ ¥ ÿù Ä2þ? îïñð÷iò ò û h ù Bestimme ÿ und Ä mit h ü¥ ¥ _\ óõô ó \ö ô \ ô ÿ^ù 2Ä þ<ÆIh¢ ôâ gehe zu 4. Falls h ü ¥ ü¥ ¥ ¥ í9: í ^ ÿ^ù ÄAa þ/~ ÿ§~ 2Ä þ und ö ö· % % öÇ Falls þ gehe zu 4. Sonst weiter mit 2. 4. Ausgabe von ö und í . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 229 5. Clusteranalyse 7 ü ¥ ¥ SAHN-Clustering In dem Algorithmus wird ein Abstandsmaß h ÿù Ä;þ für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.Typischerweise benutzt man: – Minimalabstand (Single Linkage): ¥ ü h ¥ ü Ä2þ ÷5øOùîú ïñð øOùJü h âù¶çNþ óû ÿ^ù – Maximalabstand (Complete Linkage): h ¥ ü ÿ^ù ¥ ü Ä2þ ÷5øOùîËú ýþ øOù ü h âù¶çNþ óû – mittlerer Abstand (Average Linkage): h ü ¥ ÿ^ù ¥ Ä2þÈ ¥ % ¥ 0ÿ ñ OÄ ÷ øùú Oø ùJü óû Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ü h âù_çNþ 230 5. Clusteranalyse SAHN-Clustering 7 Der Parameter h¢ôâ legt fest, bis zu welchem Abstand Cluster verschmolzen werden. 7 Schritt 3 bedeutet: Die einzelnen Cluster ÿ^ù Ä werden aus der Clusterstruktur entfernt und ein neues Cluster ¥ ¥ mit den Datensätzen aus ÿ vereinigt mit den Datensätzen aus Ä wird in die Clusterstruktur eingefügt. 7 ¥ ¥ Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 231 5. Clusteranalyse SAHN-Clustering Dendogramm 7 Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. 7 Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man h¢ôâ variiert. b a g f e c e g f a b c d d Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 232 5. Clusteranalyse c-Means c-Means Verfahren 7 Cluster können auch durch ihre Zentren 9ÿ ÿ charakterisiert werden. 7 Die Zuordnung der einzelnen Datensätze â ÿ zu den ö Clustern kann dann¥ mit der Nächste-Nachbar-Regel erfolgen, d.h. âKû gehört zu Cluster ÿ genau dann, wenn gilt: ü 7 ü h â û ù_ÿ ÿ þ? Ä îZ÷ ïñð û h â û ù0ÿ Ä ó ó þ Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: ÿ9ÿ % ¥ âKû ÿ ÷ ¯øOùú Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 233 5. Clusteranalyse c-Means Algorithmus 5.2. Gegeben Datenmenge g , eine gewünschte Clusteranzahl ö , eine maximale Anzahl von Iterationen N)¢ôâ . ÿ ÷ù2ú2ú2ú;ù¶ÿSû . 1. Initialisiere Prototypen b 2. Ordne die Datensätze âÿ gemäß der Nächste-Nachbar-Regel den ö ¥ ¥ Zentren zu. So entstehen neue Cluster ÷ ù;ú<ú;ú2ù û . 3. NIN1. % . Falls N?IN)¢ôâ gehe zu 4. Berechne die Zentren Vÿ ÿ von ¥ ÿ neu. 4. Ausgabe der Clusterstruktur und der Zentren # ÿ ÷ù2ú2ú2ú2ù0ÿ û . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 234