Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik Wissensverarbeitung Wissen 1 Einführung Vorlesung Wintersemester 2001/02 Wissensmanagement Data Mining Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1 Vorbemerkungen Einführung in die Wissensverarbeitung und Data Mining Vorbemerkungen 1. Einführung Format: PDF, zwei- und vierseitig Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen. Vorbemerkungen 2 Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes. Übungen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung In die Vorlesung integriert Das erste Übungsblatt gibt es am zweiten Vorlesungstermin. Bearbeitungszeit: abhängig von den Aufgaben, i.d.R. eine oder zwei Wochen Theorie- und Programmieraufgaben 3 Vorbemerkungen Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der Vorlesung zur Verfügung. Allgemeines zur Vorlesung Die Vorlesung wird folienbasiert gehalten. 1. Einführung Es gibt eine Homepage zur Vorlesung: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 TB, LN, Prüfung Prüfungsform: mündlich (Witt/Becker) Prüfungstermine: 7.2.2001 und 3.4.2001 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Vorbemerkungen Vorbemerkungen 5 M. Ester, J. Sander, Knowledge Discovery in Databases, Springer, 2000. T. A. Runkler, Information Mining, Vieweg, 2000. M. R. Genesereth, N. J. Nilsson, Logische Grundlagen der Künstlichen Intelligenz, Vieweg, 1989. E. Rich, Artificial Intelligence, McGraw-Hill, 1983. K. W. Tracy, P. Bouthoorn, Object-oriented Artificial Intelligence Using C++, Computer Science Press, 1997. J. Heinsohn, R. Socher-Ambrosius, Wissensverarbeitung: Eine Einführung, Spektrum Akademischer Verlag, 1999. C. Beierle, G. Kern-Isberner, Methoden wissensbasierter Systeme, Vieweg, 2000. Literatur 4 Prüfung Diplom: Zusammen mit dem Stoff aus dem 6. Semester für “Ausgewählte Kapitel ...” LN: Übungsaufgaben ++, (Richtlinie 50% der zu vergebenden Punkte) TB: Anwesenheit, ein paar Übungsaufgaben demonstrieren 1. Einführung 1. Einführung 1. Einführung Inhalt (geplant) 2. Intelligente Suchverfahren 3. Aussagen- und Prädikatenlogik 4. Regelsysteme und Regelinterpreter 5. Induktion von Regeln 6. Clusteranalyse 7. Probabilistische Netze Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Wissen Information Daten Kontext Ergebnis eines Lernvorgangs Daten, Information, Wissen Auswirkungen von 1 Euro = 0.96 Dollar auf Zinsen und Aktienkurse Devisenkurs 1 Euro = 0.96 Dollar 0.96 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Vorbemerkungen 6 Wissen 7 1. Einführung Wissen: Versuche einer Definition Wissen Knowledge is organized information applicable to problem solving. (Woolf) Wissen 8 Knowledge is information that has been organized and analyzed to make it understandable and applicable to problem solving or decision making. (Turban) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Wissen, Kennen, Können Umgangssprachlich bezeichnet man das Ergebnis eines Lernvorgangs als 9 wissen, wenn es sich um sprachlich-begriffliche Fähigkeiten handelt, kennen, wenn es sich um sinnliche Wahrnehmung handelt, können, wenn es sich um motorische Fähigkeiten handelt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung explizit implizit Fakten Art Arten von Wissen Ableitung Regeln Repräsentation Wissen Kontollstrategie Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wissensebenen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 präzise unsicher unvollständig vage Wissen 10 Wissensverarbeitung 11 ☞ Beim Wissensmanagement stehen die kognitive Ebene und die Repräsentationsebene im Vordergrund. ☞ Bei der Wissensverarbeitung und der Künstlichen Intelligenz stehen die Repräsentationsebene und die Implementierungsebene im Vordergrund (Schließen der KI-Lücke). Implementierungsebene (z.B. Prolog-Statements) Repräsentationsebene (z.B. Aussagenlogik, Prädikatenlogik) kognitive Ebene (z.B. Erfahrung von Experten, Arbeitsanweisungen) 1. Einführung 1. Einführung Inferenz− maschine Wissen (Fakten und Regeln) Wissensverarbeitung Wissens− ingenieur Wissensmanagement 12 Anwendungsspezifisches Wissen Daten- vs. Wissensverarbeitung Daten Algorithmische Problembeschreibung Software− Entwickler Programm Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Wissensmanagement Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 13 Sammlung von Techniken, um Wissen in einem Unternehmen effizienter zu erfassen, zu organisieren und zugänglich zu machen. (Reimann et al., 2000) Wissensmanagement ist ein ganzheitliches, integratives Konzept, das psychologische, organisatorische und informationstechnologische Faktoren beinhaltet, um die effektive Erschließung und den Transfer von Wissen zu gewährleisten. (Wilkens, 1997) Versuch von Definitionen: 1. Einführung 3 1 2 OLAP Multidimensionale Sichten Analysen, Kalkulationen Wissensmanagement 14 15 Wissensmanagement Aufgaben des Wissensmanagements Wissensmanagement Wissensverteilung Knowledge management Wissenserschließung Knowledge Dissemination Information Retrieval Wissensportale Wissenslandkarten Dokumenten−Management Workflow Management Knowledge Capture Data Warehouse Knowlede Discovery Data Mining Dokumentenanalyse Multimedia Discovery XML und KM WWW und KM Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung 1,2 4 Data Warehouse, Online Analytical Processing und Knowledge Discovery in Databases KDD strukturelle Analysen Assoziationsregeln 1,2,3,4,5 3,4,5 5 Data Warehouse Informationsspeicherung Informationsverdichtung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Knowledge Discovery in Databases Wissensentdeckung in Datenbanken ist ein nichttrivialer Prozeß, um Beziehungsmuster in den Daten zu entdecken, die für einen großen Teil des Datenbestandes gültige, bislang unbekannte, Data Mining 1. Einführung Cluster-Analyse: Technik des Data Mining Gegeben sei eine Menge von Punkten im IR . Wie kann man die Häufungen algorithmisch erkennen? ☞ Berechnung eines minimal spannenden Baums und Data Mining Wissen Interpre− tation 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Data Mining 18 Einführung 19 Suchverfahren sind ein klassisches Kapitel innerhalb der Wissensverarbeitung Die Eigenschaften und Lösungsverfahren von Suchproblemen sind daher von grundlegender Bedeutung für die Wissensverarbeitung. Sehr viele Probleme der Wissensverarbeitung lassen sich auf ein Suchproblem zurückführen. 2 Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 potentiell nützliche und Transfor− mation 17 Data Mining ☞ Elimination zu langer Kanten 16 leicht verständliche Zusammenhänge zum Ausdruck bringen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 1. Einführung Vorverar− beitung Prozeß des Knowledge Discovery in Databases Rohdaten Selektion Cluster−Analyse Klassifikation Mustersuche Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Färbeproblem Einführung Es scheint sinnvoller zu sein, die Länder der Reihe nach zu färben. ( So kann man Zwischenzustände bei der Problemlösung durch Teilfärbungen beschreiben, et)+*-,/.103254768,:95;=<?>@47AB,DCFEG;+9IH wa ( Nach der Zuordnung man direkt abbrechen. ( Die Probleml ösung startet mit der leeren )!H Färbung . ( Ziel ist es, eine komplette zulässige Färbung zu erreichen. ( Die Schritte im Laufe der Problemlösung lassen sich durch Zustandsübergangsoperatoren beschreiben. A −> g [r,−,−,−,−] C B −> r ( A −> o A −> r Einführung Färbeproblem (3) [−,−,−,−,−,] [b,−,−,−,−] B 2. Suchverfahren Suchbaum A −> b E Einführung 20 Einführung Anzahl 21 2. Suchverfahren D %& A " Beispiel 2.1. Die angegebene Landkarte mit den Ländern A, B, C, D und E ist so mit den Farben rot, blau, gelb und orange zu färben, daß keine zwei benachbarten Länder die gleiche Farbe haben. Färbeproblem (2) ! mögliche Farbkon- Farbkonstellationen zu prüfen, mit Anzahl der Länder. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 %& 2. Suchverfahren "$# ' Ein naives generate-and-test Verfahren würde stellationen prüfen. Allgemein sind der Farben und Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ☞ Ineffizient! [g,−,−,−,−] [o,−,−,−,−] B −> o B −> g [b,r,−,−,−] C −> r [b,g,−,−,−] C −> o [b,g,o,−,−] [b,g,r,−,−] D −> o D −> r [b,g,r,o,−] E −> g [b,g,r,o,g] )J*-,:95;+<1>K476L,:95;+<1>MH [b,o,−,−,−] [b,g,o,r,−] E −> g [b,g,o,r,g] Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 23 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 kann 22 2. Suchverfahren Ziel Einführung 24 Einführung Der Zustandsraum ist die Menge aller Zustände. ( Zustandsübergangsoperatoren beschreiben, wie ausgehend von einem Zustand andere Zustände des Zustandsraums erreicht werden können. ( Der Startzustand ist der Zustand, der zu Beginn der Lösungsfindung vorliegt. Er läßt sich explizit angeben. ( Die Menge der Zielzustände charakterisiert die Lösungen des Problems. Zielzustände lassen sich in der Regel nur implizit angeben, z.B. über ein Testprädikat. Die Wurzel entspricht dem Startzustand. Die Zielknoten sind die Zielzustände. Die Berechnung der Nachfolger eines Knotens des Knotens bezeichnet. 27 wird als Expansion Die Kanten entsprechen den Zustandsübergangsoperatoren. Zustandsraum ( Zustandsraum und Suchbaum Ein Zustand stellt das Wissen zu einem bestimmten Zeitpunkt der Lösungsfindung dar. Die Knoten eines Suchbaums stellen die Zustände dar. 2. Suchverfahren Zustandsraum Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 26 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Suchbaum (2) Die Lösung des Färbeproblems läßt sich als Suchbaum darstellen. E D F Die Knoten des Suchbaums entsprechen den Zuständen (zulässige Teilfärbungen). Die Kanten entsprechen den Operatoren. B Routenproblem Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren A Start C 25 ( N Beispiel 2.2. Gegeben ist eine Karte mit Städten und Straßen, die die Städte miteinander verbinden. Gesucht ist eine Route von einem Startort zu einem Zielort. Suchbaum: Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Für Suchproblem läßt sich das Wissen repräsentieren durch: N Zustandsraum 2. Suchverfahren 2. Suchverfahren Uninformierte Suchverfahren Ist OGPRQTS kein Zielzustand, so wird OGPRQ7S expandiert, d.h. alle Nachfolger von OGPRQ7S werden in die Agenda eingefügt. ( Breiten- und Tiefensuche unterscheiden sich darin, wo die Nachfolger in die Agenda eingefügt werden. Zustandsraum ( 2. Suchverfahren Uninformierte Suchverfahren (2) Wenn OGPRQ7S ein Zielzustand ist, hat man eine Lösung gefunden. Zustandsraum und Suchbaum (2) Ausgehend von der Wurzel des Suchbaums (Startzustand) werden die Knoten sukzessive expandiert. ( Der Zustandsraum beschreibt nur, wie man prinzipiell zu einer Lösung gelangen kann, Später wird man von den Nachfolgern des expandierten Knotens weiterarbeiten, solange bis man einen Zielknoten gefunden hat. In einer beliebigen Iteration wird der erste Knoten O3PRQTS aus der Agenda genommen. aber nicht, wie man effizient zu dieser kommt. ( Ganz wesentlich für eine effiziente Problemsösung sind: Zu Beginn der Suche besteht die Agenda aus dem Startzustand. 30 Die Liste der Knoten, die gerade in Bearbeitung sind, heißt Agenda (open list). Knoten der Agenda sind generiert, aber noch nicht expandiert. ( ☞ das Verfahren, das festlegt, in welcher Reihenfolge die Zustände untersucht bzw. expandiert werden sowie ☞ die Bewertung der einzelnen Zustände. Expandierte Knoten werden auch als closed bezeichnet. Breitensuche und Tiefensuche laufen nach dem gleichen Schema ab. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ( 28 Uninformierte Suchverfahren Uninformierte Suchverfahren (3) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Uninformierte Suchverfahren Suchverfahren, die über die Beschreibung des Zustandsraums hinaus keine Zusatzinformation benutzen, heißen uninformierte Suchverfahren. Insbesondere findet keine Bewertung der einzelnen Zustände statt. Dementsprechend unterscheiden sich die Verfahren im wesentlichen darin, in welcher Reihenfolge die Zustände expandiert werden. 29 Die wichtigsten Vertreter der uninformierten Suchverfahren sind die Breitensuche und die Tiefensuche. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 31 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Uninformierte Suchverfahren 2. Suchverfahren Uninformierte Suchverfahren 2. Suchverfahren Uninformierte Suchverfahren Breitensuche 2. Suchverfahren Tiefensuche ☞ Bei der Breitensuche werden die Nachfolger eines expandierten Knotens an das Ende der Agenda eingefügt. K UVW A B C D E F G Die Agenda entspricht einer Warteschlange (Queue). 35 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 33 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 K 34 ☞ Bei der Tiefensuche werden die Nachfolger eines expandierten Knotens an den Anfang der Agenda eingefügt. N A Die Agenda entspricht einem Kellerspeicher (Stack). A B E K F C G Liefert ein Knoten, der kein Zielknoten ist, keine neuen Knoten, so wird die Suche fortgesetzt an dem nächstgelegenen Knoten, für den noch nicht alle Nachfolger expandiert wurden. I Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 O PRQTS Agenda (A) (B,C,D) (C,D,E,F) (D,E,F,G,H) (E,F,G,H,I) (F,G,H,I,K) (G,H,I,K) Schritt 1 2 3 4 5 6 7 I H G F E D C B O PRQTS Dies entspricht einem Backtracking. A 32 Breitensuche (2) N UVW Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Tiefensuche (2) Uninformierte Suchverfahren 2. Suchverfahren D C B H G F E Agenda (A) (B,C,D) (E,F,C,D) (K,F,C,D) (F,C,D) (C,D) (G,H,D) Schritt 1 2 3 4 5 6 7 Uninformierte Suchverfahren 2. Suchverfahren \i UVW YZ ` cd N ] ^_\ _` N ] f X YZ '[\ cd & _ ` ] a c 'b_ Z cd ' N N UVW %& UVW \i jk g bl YZ ] N %& YZ %& '[\ gh N ` '[\ X ] ^_\ _` N & f ] X YZ '[\ _ ` ] a c 'b_ Z cd cd ' UVW UVW cm X YZ '[\ d N Uninformierte Suchverfahren Uninformierte Suchverfahren '[\ N UVW 36 Uninformierte Suchverfahren 37 2. Suchverfahren N 2. Suchverfahren Uninformierte Suchverfahren Beispiel 2.4. Ein Weinhändler hat drei Krüge, einen von 9 Liter, einen von 7 Liter und einen von 4 Liter Inhalt. Beispiele < Auf den Krügen sind keine Litermarkierungen angebracht. Algorithmen g bl UVW gh jk ] %& '[\ X YZ YZ e 2. Suchverfahren m YZ X Algorithmus 2.1. [Tiefensuche] '[\ %& Entferne aus der Agenda; ist Zielknoten ist Lösung; STOP; X YZ UVW '[\ X Problem hat keine Lösung; STOP; UVW %& N UVW N Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 '[\ e 2. Suchverfahren YZ Algorithmus 2.2. [Breitensuche] X YZ X Entferne aus der Agenda; ist Zielknoten ist Lösung; STOP; Problem hat keine Lösung; STOP; Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Beispiel 2.3. Suche einen Weg von Tiefensuche bzw. Breitensuche. E nach mit Der 9-Liter-Krug ist gefüllt, die anderen sind leer. i Die Krüge sollen so umgefüllt werden, daß der 9Liter-Krug sechs Liter und der 4-Liter-Krug drei Liter enthält. b Tafel ✎. m d j e k f a g l n c h Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 39 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 38 Uninformierte Suchverfahren 2. Suchverfahren Uninformierte Suchverfahren o 2. Suchverfahren Eigenschaften von Suchverfahren (3) & ]qp_ Eigenschaften von Suchverfahren & Tiefe 42 Informierte Suchverfahren Solch eine Bewertung nennt man heuristische Funktion. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 43 Man schätzt beispielsweise für jeden Knoten, wie nahe er an einem Zielknoten liegt. Dies kann dadurch geschehen, daß die Zustände (Knoten) danach bewertet werden, wie erfolgversprechend sie sind. Vielversprechender sind Ansätze, bei denen Problemwissen zur Steuerung des Suchprozesses eingesetzt wird. Für größere Suchbäume sind Breiten- und Tiefesuche nicht effizient genug. 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 & Komplexitäten: Verzweigungsrate und _ Für Breiten- und Tiefensuche ist der ungünstigste Fall, daß die Lösung in der “äußersten rechten Ecke” des Suchbaums liegt. , mit & Definition 2.1. Ein Suchverfahren heißt vollständig, wenn für jeden Suchbaum jeder Knoten expandiert werden könnte, solange noch kein Zielknoten gefunden wurde. Zeitkomplexität des Zielknotens. c n Ein vollständiges Suchverfahren ist fair in dem Sinne, daß jeder Knoten die Chance hat, expandiert zu werden. p Bei der Tiefensuche enthält die Agenda die Knoten des aktuellen Suchpfades sowie deren Nachfolger Platzkomplexität . n Bei der Breitensuche kann die Agenda eine komplette Ebene des Suchbaums enthalten Platzkomplexität . o ]qp W Ein vollständiges Sucherfahren findet auch bei unendlichen Suchbäumen stets eine Lösung, falls eine existiert. Breitensuche ist vollständig. 40 Uninformierte Suchverfahren c n Informierte Suchverfahren c Tiefensuche ist nur bei endlichen Suchbäumen vollständig. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Eigenschaften von Suchverfahren (2) Definition 2.2. Für ein uninformiertes Suchverfahren heißt eine Lösung optimal, wenn sie unter allen Lösungen die geringste Tiefe im Suchbaum aufweist. 41 Breitensuche findet eine optimale Lösung (falls existent), Tiefensuche nicht. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 o ]qp W & H}z~ 44 2 7 8 1 6 2 6 3 4 5 2. Suchverfahren 8 2 7 1 8 7 3 4 5 3 4 5 8 2 7 8 7 1 6 1 2 6 3 4 5 3 4 5 Heuristische Funktion (3) 1 6 2 6 k kann Zustände unterscheiden, die von 8 7 1 2 6 3 4 5 Informierte Suchverfahren 46 Informierte Suchverfahren , d.h. gleich bewertet werden. differenziert stärker als Heuristische Funktion (3) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3 4 5 k 2. Suchverfahren k k 1 8 7 Die heuristische Funktion k & & Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 47 Eine heuristische Funktion, die alle Zustände gleich bewertet, ist unbrauchbar. Eine heuristische Funktion ist um so brauchbarer, je mehr Zustände sie unterschiedlich bewertet. k & & & & & & & k k k & k k k k & & & & r r Informierte Suchverfahren H}z- u u uuu zG k 45 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 k 2. Suchverfahren Mögliche heuristische Funktionen: Heuristische Funktion stand k Endzu- k Definition 2.3. Eine Funktion, die jedem Zustand (Knoten) eines Zustandsraums (Suchbaums) eine nichtnegative Zahl zuordnet, heißt heuristische Funktion. Für einen Zielzustand gilt dabei . Beispiel 2.5. [Schiebepuzzle] r . O t Hier: & Summe der Entfernungen aller Plättchen von der Zielposition. ) k Hier: k ] Ein Suchverfahren, das eine heuristische Funktion zur Auswahl der zu expandierenden Zustände einsetzt, heißt informiertes Suchverfahren oder auch heuristisches Suchverfahren. Heuristische Funktion (2) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Anzahl der Plättchen, die nicht an der richtigen Stelle liegen. ) . O t|v 6 3 4 5 2 1 8 7 s 8 2 4 1 3 5 6 7 Startzustand N c k H-xz ) O (ut Hyx{z ) N N c ] N O (utwv Informierte Suchverfahren 2. Suchverfahren 2. Suchverfahren YZ jk ` N Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Informierte Suchverfahren 50 Definition 2.4. Eine heuristische Funktion heißt fair gdw. es zu jedem nur endlich viele Knoten gibt mit . Eigenschaften der Bestensuche Informierte Suchverfahren Beispiel 2.6. Suchbaum für Beispiel 2.5 mit Bestensuche. Tafel ✎ g bl UVW N '[\ X ] YZ ' Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 51 Ist eine heuristische Funktion fair, so wird ein Zielknoten gefunden, falls ein solcher existiert. Fairness entspricht der Vollständigkeit bei uninformierten Suchverfahren. ' Informierte Suchverfahren Z Z 2. Suchverfahren Algorithmus zur Bestensuche g Bestensuche 'b_ Algorithmus 2.3. [Bestensuche] a ' Entferne aus der Agenda; ist Zielknoten ist Lösung; STOP; h Problem hat keine Lösung; STOP; cd c %& Bei der Bestensuche erfolgt die Expansion eines Knotens auf Basis der heuristischen Funktion. _ UVW Z Hierzu werden in der Agenda die Knoten zusammen mit ihrer Bewertung abgelegt. %& r Es wird nun jeweils der Knoten der Agenda expandiert, der die geringste Bewertung aufweist. ] ^_\ ' cd cd '[\ c YZ ` ] f N ] X & _` N '[\ gh '[\ N UVW YZ %& UVW '[\ 48 X N e X X YZ UVW c 49 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ] N ] A B C G YZ ' Die Agenda hat also die Form einer Prioritätswarteschlange (priority queue). K:− YZ k k I:− \ i N O3PRQTS Ansonsten ist die Bestensuche analog zur Tiefen- und Breitensuche. A:9 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Bestensuche (2) D:6 C:5 B:4 H:2 G:0 F:8 E:7 Agenda A:9 B:4, C:5, D:6 C:5, D:6, E:7, F:8 G:0, H:2, D:6, E:7, F:8 Schritt 1 2 3 4 Informierte Suchverfahren 2. Suchverfahren ¢¦ ¡¤ ¥ a ] N ¢ £ c ¢ N £ 53 c & ] N ¢ N ¢ N N c ¡ N Bestensuche und Optimalität ( Die Bestensuche vernachlässigt die “Kosten” bei der Anwendnung der Operatoren. ( Wird die Güte einer Lösung charakterisiert durch diese Operatorkosten, so findet die Bestensuche allgemein keine optimale Lösung. B Ziel A Y¯§ ] c¬ ® ­ ® c ] N k § ] YK§ ] N c %& %& ¨©ª ¨©ª « a ] c¬ N c « ® ] c¬ ­ N N § a ­ N Informierte Suchverfahren 54 55 « § sei: Bei kombinatorischen Optimierungsproblemen werden als zulässige Schätzer häufig effizient lösbare Relaxationen des Problems verwendet. Beispiel: minimaler Spannbaum als Relaxation für die Berechnung eines minimalen Hamiltonschen Weges. & k ¨©ª 52 Für einen Zustand ¸ c & N § ist Weg vom Startzustand nach die Luftlinienentfernung beim Routenproblem. c a ] § zu einem Zielzustand ¸ a ] ist Weg von die heuristischen Funktionen aus Beispiel 2.3 für das Schiebepuzzle und Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Beispiel 2.8. Zulässige Schätzer sind: Bestensuche wählt A,B,D, obwohl A,C,D kürzer ist. ist Zielzustand . ²µ´ Definition 2.6. Eine heuristische Funktion )!±³heißt ±G² ± zul)·ässiger Schätzer bzw. zulässig gdw. ° °¯¶ für alle Zustände des Zustandsraums. C bzw. t D Start Problem: Finde (falls möglich) eine Zustandsfolge vom Startzustand in einen Zielzustand , die minimale Kosten aufweist, d.h. Informierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Informierte Suchverfahren Beispiel 2.7. Routenproblem: Man finde einen kürzesten Weg von A nach B. Die heuristische Funktion sei als die Luftlinienentfernung zum Zielknoten definiert. Zulässiger Schätzer ¸ 2. Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Informierte Suchverfahren a ] N ¢ fallen Kosten in Höhe von N ¢ £ £ Bewertung von Lösungen %& nach c der Zustandsfolge seien definiert durch: a ] N ¢ 2. Suchverfahren c N eine Folge von Zuständen Definition 2.5. Es sei und sei durch Anwendung eines Zustandsübergangsoperators auf erreichbar. a Beim Übergang von an. Die Kosten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ] ¢ ¾ ÀqÁ  ¿ ÀqÁ  Á )!±³² 1. einer )!±G² Bewertung ¹ für die Zustände, wobei die bisher± geringsten Kosten zur Erreichung ¹ des Zustands angibt, )!±³² 2. einer (üblicherweise zulässigen) heuristischen Funktion ° zur Schätzung der Restkosten und )!±³²¼» )!±³²½ )!±³² 3. einer Bewertungsfunktion º , die ¹ ° zur Auswahl des zu expandierenden Zustandes dient. Steuerung der Suche bei A*: Informierte Suchverfahren Füge Informierte Suchverfahren Der A*-Algorithmus )!±³² ☞ Es wird der Knoten der Agenda expandiert, der aufweist. die geringste Bewertung º Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Informierte Suchverfahren ± ݳÖÔáØGé 2. Suchverfahren Der A*-Algorithmus basiert auf: Der A*-Algorithmus (2) Durch eine Verringerung von für einen Zustand kann auch eine Verringerung von auftreten. Dies kann im allgemeinen auch für schon expandierte Knoten der Fall sein! Deshalb werden schon expandierte Knoten in einer speziellen Liste Closed verwaltet. 57 2. Suchverfahren à 2. Suchverfahren ¾ Folgende Punkte sind beim A*-Algorithmus zu berücksichtigen: ¾ Bewertungen sind dementsprechend anzupassen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ 2. Suchverfahren 56 Informierte Suchverfahren Der A*-Algorithmus (3) in die Agenda ein; ݳÖFáسé Algorithmus 2.4. [A*] ݳÖFáسé ݳÖFá * ݳÖFá »8)·Ì@Í ÍÐÏ Í ² È?Î »ÅÇ ÓÔÒ Ñ ÄRÍ ÅÇÆÉÈË )!¹F ÌK ÍÐÏ Ê )!ÌKÍ È1Î ÍÐÏ ÅÇÑ Í ÄRÅ ¹ Problem hat keine Lösung; STOP; Õ ØÚÙ?È? ÝÞ Î * Û?Ü ÅÇÑ ±GäRå7æ Í ²TÒ ÄRÅ ²}»× Ö¯ØÚÙÔÒ Ê ÄRÅ »8)!²âáÔã ¹F » ÄRÅÇ çÆÉ è Èà ±Iß ÍR)+* Ê ±3 Î äRåTæ ²TÒ ¹FÄRÅÇÆÉÈ ± äRå7æ Entferne aus der Agenda; in Closed ein;ݳÖì±GäRå7æ F üge ØGéê ±GäRå7æ Ü éÔã1íÔîÔÙ?Ùïist ±ïðà Zielknoten ñ ç ë )!± äRå7æ ²öáFã ist Lösung; STOP; ØGéê±øà ÷ð * ÈÉòR° Ñôóõ¹F ±ø ÄRû Î ÷ð ú ± Ý³Ö Ü æÿÆü þ ±³ë ²TÒ ¹Ô » ÄRÅÇÆÉ )·ÈÞ ± äRù åTæ ²M½ýÏ|)!ó=± Ñ äRåTÄG )!±³² ¹ Ê »-¹ ± äRåTæ Ò )!±³² Õ Ê ± Füge in die Agenda mit Bewertung ÝÉÙ ÚÝ )·± äRåTæ ²M½ýÏ|)!± äRåTæÿþ ±³² ØGé )·±G² ¹ ¹ Õ )!±³² » )·±3äRåTæ·²M½ýÏ|)!±3äR ¹ åTæ þ ±³²T ë Ò ± Ü ÝôÖ ÄGÆ ± ë Entferne 59 ein; Ý³Ö Ê »-¹ ±GäRåTæÿÒ ØGéê±ÞÊ ðûú ó+Ñ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 )!±³² )·±G² º Ü aus Closed; Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 58 Zielzustand: Å enthaltene Kanten ¸ Schätzung: þ 2. Suchverfahren ) Informierte Suchverfahren ² Ohne Kante þ ) 1 2 0 0 29 32 3 þ 1 83 21 ) Mit þ ) Mit 1 2 3 5 4 2 30 12 5 30 17 0 49 0 0 29 3 0 0 1 21 4 2 30 0 2 3 4 45 39 28 3 17 90 46 88 3 93 77 4 13 42 36 80 88 18 5 33 21 16 56 33 46 92 6 6 12 12 0 0 6 9 16 28 7 25 Erste Abschätzung: 81 ) Informierte Suchverfahren : 113 þ ? ² ² 1 2 3 4 5 6 þ 1 ² ) und mit Á 2. Suchverfahren 1 6 6 12 und ohne 2 0  ² ² 1 À Entfernungsmatrix: : 129 : 18 + 63 = 81 Mit Kante 1 2 3 4 5 61 60 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02  Informierte Suchverfahren – Für eine Tour muß man jede Stadt mindestens einmal Anfahren bzw. sie verlassen. – Summe der Zeilenminima der Entfernungsmatrix plus Summe der Spaltenminima einer reduzierten Matrix ist ein zulässiger Schätzer. ÀqÁ Der A*-Algorithmus (4) ¸ Á den Vorgängerknoten auf dem bisher Zustandsübergang: Ein- bzw. Ausschluß einer Kante Á gibt ¸ Für einen Knoten besten Weg an. Zustand: Menge von Kanten, die enthalten bzw. ausgeschlossen sind ¾ Den bisher besten Weg zu einem Knoten erhält man also, in dem man von sukzessive den Verweisen folgt. ¸ ¾ Alternativ kann man an jedem Knoten den kompletten bisher optimalen Pfad speichern. Asymetrisches Traveling Salesman Problem: ¾ Der notwendige Speicherplatzverbrauch für die Pfade ist dann aber quadratisch in der Länge des Suchpfades. A*-Anwendungsbeispiel ¾ 2. Suchverfahren Informierte Suchverfahren Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren Reduzierte Matrix: : 81 1 5 30 17 0 1 2 3 4 5 6 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 63 0 29 32 3 0 2 0 1 83 21 85 3 75 58 4 2 30 12 58 48 0 5 30 17 0 49 0 35 89 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 62 2. Suchverfahren þ 1 ² þ ) þ 2. Suchverfahren þ ) ² þ ) Mit þ ) Informierte Suchverfahren ² : 84 þ þ 1 ² ² þ ) ) ² , ohne Mit 2 1 3 5 A* und andere Suchverfahren 0 20 þ ² þ ) ) þ ² þ ) ) þ ² þ ) þ ² þ ) ² þ ) 1þ Ô² þ ) Ôþ ) þ 1 ² þ ) þ ² þ ) Mit Mit ) Mit þ ) 5 28 0 ² þ ) 1þ Ô² þ Mit 4 0 : 101 0 þ 1 ² þ ) þ ) Mit þ 1 ² þ 1 ² ² þ ) ² þ ) , ohne þ ) Ôþ : 104 ² ) , ohne þ ) Ôþ ² þ ) Fþ 1² þ ² þ 1 ² þ 1 ² : 84 þ ) Ôþ Mit Informierte Suchverfahren ² þ ) Fþ : 103 : 127 þ ² þ ) 1þ Ô² ) , ohne þ ² ) , ohne ² : 104 ² þ ) Úþ Ô² : 114 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren ¾ 2. Suchverfahren 64 Informierte Suchverfahren Eigenschaften von A* Satz 2.1. [Terminierung, Fairness] Es gelte: Eigenschaften von A* (2) Satz 2.2. [Optimalität] Es gelte: ¾ ¸ Jeder Zustand besitzt nur endlich viele Nachfolgerzustände, ¸ Ï|)!± þ ± ² es existiere , so daß für die Kosten einem Zustandsübergang stets gilt und ² Ï|)!± þ ± ¸ " ! beiÓ es gibt einen erreichbaren Zielzustand. Dann terminiert A* nach endlich vielen Schritten mit dem Erreichen eines Zielzustandes. Beweis. Tafel ✎. # Informierte Suchverfahren Gegeben sind die Voraussetzungen von Satz 2.1 und % % ist zulässig.  und 67 kann eine optimale Zustandsfolge ermittelt wer- ¿ À erhält man den Dijkstra-Algorithmus. % Dann ist der Zielknoten , mit dem A* terminiert, ein optimaler Zielknoten,  $ die minimalen Kosten ergeben sich durch ausgehend von den. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 $ und erhält man die Breitensuche. 65 $ Für erhält man die Bestensuche. À und ¾ Für Für ¾ Bemerkung 2.1. Der A*-Algorithmus enthält die folgenden Algorithmen als Spezialfälle: ¾ Für und erhält man die Tiefensuche, wenn man Wiederbelebungen verbietet (Übergang von Closed in die Agenda). Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ Bemerkung 2.2. Unter den gegebenen Voraussetzungen endet die Suche u.U. in einem nicht optimalen Zielzustand. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 66 2. Suchverfahren Beweis. Tafel ✎. Informierte Suchverfahren Informierte Suchverfahren 68 Korollar 2.3. Gegeben seien die Voraussetzungen von Satz 2.2. Der gefundene optimale Zielknoten sei . Dann wurden während des Laufs von A* nur Zustände mit expandiert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2. Suchverfahren 2. Suchverfahren Satz 2.4. Es gelte: Wahl guter Schätzer (2) Gegeben sind die Voraussetzungen von Satz 2.2, Informierte Suchverfahren bzw. expandiert wird, auch von bzw. seien A*-Algorithmen, die zulässige Schätzer verwenden und sei besser informiert als . Dann wird jeder Zustand , der von expandiert. Beweis. Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Monotone Schätzer gilt: 70 Informierte Suchverfahren Definition 2.8. Gegeben sei eine nichtnegative Kostenfunktion . Eine heuristische Funktion heißt monotoner Schätzer gdw. gilt: 2. Suchverfahren Wahl guter Schätzer Die Eigenschaften der heuristischen Funktion haben einen wesentlichen Einfluß auf die Performanz der Suche mit A*. von Á für alle Zielzustände . und alle Nachfolger Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 71 Beispiel 2.9. Alle Schätzer aus Beispiel 2.8 sind auch monotone Schätzer. ÀqÁ Für alle Zustände ( Á Eine zulässige heuristische Funktion ist um so besser, je näher sie dem Optimalwert zur Erreichung eines Zielzustandes kommt. +( ¾ ¾ + ¾ ( ( + % (  ÀqÁ heißt: & +( .Á ( /  und gilt. 69 für alle Zustände für alle Zustände Á Á Â' Definition 2.7. Für zwei zulässige Schätzer gdw.  Á à besser informiert als ( ÀqÁ )( ÀqÁ Á Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 gdw.  '  ( $ & nicht schlechter informiert als gilt. ÀqÁ ÀqÁ À % Â-, ÀqÁ ¾ % %  *  ¾ '  ¿ À ÀqÁ ¾ ¾ ¾ ¾ ( ( Á ¾ ¾ ¾ ¾ 2. Suchverfahren Monotone Schätzer (2) ¸ ¸ Gegeben sind die Voraussetzungen von Satz 2.1 und " ° auch ein zulässiger Schätzer. )!±³² Expansion ´ )!± ² Ist der Knoten durch des Knotens º entstanden, so gilt º . " ± Es gibt keine Wiederbelebung von Zuständen, d.h. ein Knoten, der expandiert wurde, wird nie mehr selektiert. Beweis. Tafel ✎. # Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 72 Inferenz 3 Logik Gegenstand der Logik: Prognosen, logische Ableitungen erstellen ¸ Repräsentation von Wissen durch Formeln eines adäquaten Logikkalküls ¸ Herleitung (Inferenz) von neuem Wissen auf Basis der Kalküls. Es ist Fakten 0 und Regeln 1 gegeben. Was kann daraus gefolgert werden? Beispiel: Wenn es regnet, dann ist die Straße naß. Was kann aus der Tatsache, daß es regnet, gefolgert werden? ¸ ° ± " Inferenz sei ein monotoner Schätzer. Dann ist Zielrichtungen der Inferenz ¸ Informierte Suchverfahren Satz 2.5. Es gelte: Informierte Suchverfahren Zusammenfassung des Kapitels Zustandsraum: Zustände, Zustandsübergänge, Startzustand, Zielzustände Systematische Suche im Zustandsraum: Breitensuche, Tiefensuche Heuristische Funktionen: Schätzung der Entfernung zum Ziel Bestensuche garantiert keine Optimalität A*: Operatorkosten plus heuristischer Funktion 73 3. Logik 3. Suchverfahren ¾ A* liefert optimale Lösungen bzgl. Operatorkosten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ Erklärungen finden Wie läßt sich ein Fakt 0 mit Hilfe der Regeln 1 erklären? Beispiel: Die Straße ist naß. Wie kann das sein? ¸ Anwendungsgebiete der Logik in der Wissensverarbeitung: Inferenz in Expertensystemen ¸ Logikprogrammierung, deduktive Datenbanken ¸ automatisches Beweisen ¸ Programmverifikation Hypothesen prüfen ¸ Können aus den Fakten 0 und den Regeln 1 die Hypothesen 2 hergeleitet werden? Beipiel: Wenn es regnet, dann ist die Straße naß. Es regnet. Ist die Straße dann naß? Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 75 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 74 3. Logik Zum Starten eines Autos ist eine aufgeladene Batterie notwendig. Unser Auto läßt sich nicht starten. Wir schließen, daß die Batterie leer ist. Inferenz Weitere Aspekte bei der Wissensverarbeitung mit Logik 3. Logik Signatur Aussagenlogik Am Beispiel der Aussagenlogik erklären wir schrittweise wichtige Elemente eines logischen Systems. Zunächst benötigt ein logisches System ein Vokabular, d.h. eine Menge von Namen, die Dinge der realen Welt beschreiben können. Aussagenlogik 78 Eine derartige Menge von Namen wird als Signatur bezeichnet und üblicherweise durch gekennzeichnet. Den Namen ist i.d.R. eine gewisse Stelligkeit zugeordnet. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Aussagenlogische Signatur Definition 3.1. Eine aussagenlogische Signatur ist eine Menge von (nullstelligen) Bezeichnern, den Aussagenvariablen. 3 .< @:D >? =: < @EBF Beispiel 3.1. Die Menge ? Qualifikationsproblem unpräzise Angaben 9BC Wir haben wiederholt beobachtet, daß ein Auto nicht startet und die Batterie leer ist. Wir haben noch nie beobachtet, daß ein Auto mit leerer Batterie gestartet werden konnte. Wir schließen daraus, daß ein Auto, das eine leere Batterie hat, nicht gestartet werden kann. probabilistische Aussagen und Regeln ¾ ¾ ¾ ¾ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 79 Im folgenden benutzen wir üblicherweise Großbuchstaben als Aussagenvariablen. ist eine aussagenlogische Signatur, die drei Aussagenvariablen zur Verfügung stellt. =? .< @:A Abduktion ¸ 3 >=< Zum Starten eines Autos ist eine aufgeladene Batterie notwendig. Bei unserem Auto ist die Batterie leer. Wir schließen, daß wir unser Auto nicht starten können. räumlich-zeitliches Wissen 78 9:; Induktion ¸ 76 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 77 6, Arten der Inferenz Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 98 G H< I 3 45 Deduktion ¸ Inferenz 3. Logik ¾ ¾ ¾ ¾ 3. Logik Aussagenlogik 82 Aussagenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Formeln 80 Aussagenlogik 3. Logik ² Negation Konjunktion Disjunktion Implikation Äquivalenz ² Formeln ermöglichen es, Dinge der repräsentierten Welt auszudrücken. Falls 0 und P aussagenlogische Formeln sind, dann sind auch die folgenden Konstrukte aussagenlogische Formeln: ² Formeln entsprechen einer gewissen Syntax (sie sind wohlgeformt). Diese Syntax legt eine Wissensrepräsentationssprache fest. ¸ ² -Interpretation her- Benötigt wird eine Verbindung zwischen den syntaktischen Elementen der Logik und den Objekten der zu repräsentierenden Welt. Diese Verbindung wird durch eine sogenannte gestellt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 83 Eine -Interpretation einer Signatur ist die Zuordnung von den Elementen der Signatur (Namen) zu den Elementen der zu repräsentierenden Welt. 3 Formeln sind üblicherweise rekursiv aufgebaut. Die Elemente der Menge J sind aussagenlogische Formeln, die sogenannten atomaren Formeln. ² N 0 N× 0 ùRP N 0TSRP N 0VUWP 0VXWP Die Syntax einer Logik legt ausschließlich deren äußere Form fest, sie sagt aber nichts über die Bedeutung der Formeln aus. -Interpretation Bemerkung 3.1. Zur Vereinfachung der Schreibweise verzichten wir i.d.R. auf die Klammerung und þ þ dessen þ benutzen die folgenden BindungsprioQ þ statt ritäten: ù S U X . Y 3 Die atomaren Formeln ergeben sich aus der Signatur. ¸ NQ 3 Mit logischen Verknüpfungsoperatoren (den Junktoren) werden aus atomaren Formeln schrittweise komplexere Formeln aufgebaut. Definition 3.2. Für eine SignaãÚíMLaussagenlogische ÝÔÙON ² tur J ist die Menge K J der aussagenlogischen Formeln wie folgt definiert: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Aussagenlogische Formeln 3. Logik ¾ ¾ ¾ ¾ 81 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ ¾ ¾ ¾ ¾ ¾ Aussagenlogik 3. Logik 3. Logik Aussagenlogik 3. Logik Aussagenlogik Belegung Erfüllungsrelation ¸ Die Interpretation liefert uns nur einen Wahrheitswert für die atomaren Formeln. Definition 3.3. Es sei J Signatur. eine aussagenlogische î ¸ Wir benötigen eineð Ausdehnung der Semantik ãÚíMLÝÉÙrN ² auf alle Formeln 0 K J . ¸ Dieses stellt uns eine Erfüllungsrelation s ¸ » bereit. Durch solch eine Erfüllungsrelation ist definiert, ob eine Formel 0 in einer J -Interpretation Z wahr ist oder nicht, d.h. ¸ ed N Ö ¸ Eine Erfüllungsrelation definiert hierzu im wesentlichen die Semantik der Junktoren. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3 Beispiel 3.2. Für die Signatur aus Beispiel 3.1 ist Z definiert durch N î ØÚÝhgÝÚí?² Z $N Ü Øi ëfK íFî³Ö`kÔ² Z $N Øi ëfj íig Ý Ø nm?ÖFépî o Ø q1² Ü Z ëfl ë N Z éP ² Für Z z tL ð ON ãÚí ÝÉÙ ² ² Z NQ Û ² 0 é N Z 0 é ùRP ² ² N Z e 0 é SRP N Z u 0 UWP ² Û é ² Û é Û é é Û Û w, 84 Semantik der Aussagenlogik Û Û ð d Ö ë N J Û ² Zvs , Aussagenlogik ~ Ü Aussagenlogik N Z é0 3 z í ``a Ü éFîÉÙ 3. Logik Û Â Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 é À Û » í î Û z 3 î Û » eine mögliche Belegung. N Z é0 x; {?| =} . Gilt 87 z w,  . ~ 3 À und z » K J (nichtDefinition 3.4. Es seien 0 P atomare) aussagenlogische Formeln. Durch die folítLÝÉÙOeine N ² J -Interpretation Z genden WahrheitstafelãÚwird von J auf die Menge K J ausgedehnt: w xy :B . w, ~ 3 bezeichnet die Menge der Belegungen für J . þ Modell  3  3. Logik =} À w À z Definition 3.5. Es seien so sagen wir {?| :B w ” und ; y als -Modell für z  ¾ “ erfüllt w bezeichnen ¾ bezeichnet die Menge aller -Modelle für Für eine Menge von Formeln gelte gdw. . ist dann ein Modell für die Formelmenge . für alle Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 x z À { 85 ² J ë sie ordnet einer Interpretation und einer Formel einen Wahrheitswert zu. ¸ ``a þ éFîÉÙ í Ücb Eine Abbildung Z-Ê[J]\^U _ Û Ü heißt aussagenlogische Interpretation oder Belegung für J . ¸ und 0 » ð K tL Û ON ã1í ÝÔÙ N 0 gdw. Z 0 Û J ² ²}» gelte: î Û í Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 86 unerfüllbar (Kontradiktion) gdw. es kein Modell für die Formel gibt. ¸ allgemeingültig (Tautologie) gdw. jede Interpretation ein Modell für die Formel ist. ¸ falsifizierbar gdw. es eine Interpretation gibt, die kein Modell für die Formel ist. :@<D >? =: < @EBF 8 9:; >=< =? w :@<A ? 9BC 98 G H< ã1ítLÝÉÙONin ² analoger Weise für FormelDie Begriffe werden J verwendet. mengen K 3. Logik 89 Aussagenlogik 88 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Aussagenlogik aus Beispiel 3.2 ist ein Modell für die ¸ erfüllbar gdw. es ein Modell für die Formel gibt. ? 9BC Modell (2) ¸ heißt :@<A 3. Logik Definition 3.6. Eine Formel 0 Beispiel 3.3. Die Interpretation Formel “Kräht der Hahn auf dem Mist, ändert sich das Wetter oder es bleibt wie es ist” w kein Modell für die Formel Besonders interessant sind Formeln, die für alle Interpretationen wahr bzw. falsch sind. Dagegen ist Erfüllbarkeit Beweis mit Wahrheitstafeln ✎. Aussagenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 3. Logik Aussagenlogik Tautologie Semantische Folgerung Beispiel 3.4. Wichtige Tautologien sind: ¸ ¸ Modus Ponens N In einem wissensbasierten System wollen wir Fakten aus anderen Fakten und Regeln herleiten. ¸ NN » Rþ þ Eine solche Menge _n0 ù!0 . der Konjunktion 0Çù ¸ ¸ 0 b entspricht ¸ 0uUWP Unser übliches Verständnis von Folgerung läßt sich so ausdrücken: Ist eine Formel P immer dann wahr, wenn alle Formeln aus wahr sind, dann folgt P aus . Und-Elimination ¸ N Q ² ù ² 0×ùRP Oder-Introduktion 0uU ²Ð² 0uUWP Modus Tollens Wir können Wissensbasis als eine Menge ã1ítLÝÔÙON eine ² K J betrachten. ¸ N 0×ù N P UWP ² Q U 0 U0 ² 0TSRP » ¸ Damit können wir die Erfüllungsrelation s auf eine Beziehung zwischen Formeln und Formelmengen ausdehnen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 91 ¸ Resolutionsregel NN 0VUWP NQ ² ù 0VU2 ² ² U N PS!2 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ² 90 G heißt semantische Folgerung von 0 gdw. jedes Modell für F auch ein Modell für G ist. ¸ In diesem Fall schreiben wir 0s ¸ Wir sagen auch “ P folgt logisch aus 0 ” bzw. “aus 0 folgt semantisch P ”. ¸ Für eine Formelmenge gelte s P gdw. jedes Modell für auch ein Modell für G ist. ¸ ð Für Formelmengen P für alle P gilt. » Semantische Folgerung (3) die Aussage ? >? :@<D :@<A =:< 9BC Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Aussagenlogik 93 3. Logik Semantische Folgerung (4) Aussagenlogik ) Beispiel 3.6. Wir wollen uns ein Haustier anschaffen und machen folgende Überlegungen: 1. Es sollte nur ein Hund ( ), eine Katze ( ) oder ein Hamster ( sein. 2. Besitzer wertvoller Möbel ( ) sollten keine Katze anschaffen, da diese die Möbel zerkratzen würde. 3. Ein Hund erfordert ein freistehendes Haus ( ), damit sich kein Nachbar durch das Bellen gestört fühlt. ¡ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Beweis mit Wahrheitstafeln ✎. 3. Logik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 95 Aussagenlogik 94 Wir vermuten: Für einen Besitzer wertvoller Möbel ohne freistehendes Haus kommt nur ein Hamster in Frage. z 92 gefolgert werden, d.h. gilt @EFB . ? >? 98 G H< @EBF =? 9BC @:<D 8 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 » gdw. s gelte s » þ P . >=< ? 98 G H< =:< 9:; Ja! Beweis mit Wahrheitstafeln ✎. =: < Kann aus @:<A 8 9:; =>< =? @EBF , Beispiel 3.5. Gegeben sei die Formelmenge 3. Logik ¸ ) K ML P » aussa- J ² rN ãÚí ÝÉÙ þ ð Definition 3.7. Es seien 0 genlogische Formeln. >? Semantische Folgerung (2) :@<D 98 G H< . Aussagenlogik 3. Logik , ~ 3. Logik .¢ z Semantische Folgerung (5) ist Tautologie. z £ Aussagenlogik aussagenlogische Formeln. Dann gilt: ¢ ist unerfüllbar. ¢ Satz 3.1. Es seien ist Tautologie gdw. gdw. z ist unerfüllbar. Aussagenlogik Die Axiome sind entweder eine Menge von elementaren Tautologien (positiver Kalkül) oder ¸ eine Menge von elementaren Widersprüchen (negativer Kalkül). ¸ Die Inferenzregeln sind Vorschriften, nach denen aus Formeln andere Formeln abgeleitet werden können. ¸ Sie werden in der folgenden Form notiert: Rþ 0 Ist eine Formel 0 aus den Formeln 0 durch eine Folge von Anwendungen der Inferenzregeln ableitbar, so schreibt man 0 z ¤£ ¢ ¸ þ Rþ ~ Ein Kalkül besteht aus einer Menge von logischen Axiomen und Inferenzregeln. 0uUWP P þ ¢ ¸ þ ¸ ~ ¾ z Kalkül (2) So können aus den Tautologien von Beispiel 3.4 Inferenzregeln gebildet werden. Aus dem Modus Ponens ergibt sich die Inferenzregel: 0 ¾ z, 3. Logik þaus Iþ den Formeln (der syntaktiDies besagt, daß schen Form) 0 0 (Bedingungen) eine Formel der Form 0 (Schlussfolgerung) abgeleitet werden kann. ¸ ¾ z, gdw. Aussagenlogik .¥ 96 Aussagenlogik verschiedenen 3. Logik Bemerkung 3.2. Die Äquivalenzen können auf Formelmengen ausgedehnt werden. Kalkül Schon das kleine Beispiel 3.6 verdeutlichte, daß Inferenz auf Basis der Definition der semantischen Folgerung ineffizient ist. Allgemein müssen für eine Formelmenge mit Aussagevariablen Belegungen getestet werden. ¦¨§ ¾ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ 3. Logik ¾ Daher benutzt man für die maschinelle Inferenz Techniken, die allein auf der Syntax der Formeln beruhen. 97 Statt alle möglichen Belegungen zu testen, sucht man nach einer Folge von syntaktischen Umformungen, die die Hypothese zu beweisen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ 0 ª© 0 Rþ þ 0 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 99 0 0 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 98 © P impliziert 0s 0 P 0¬s ¸ » © P P impliziert 0 =: 9BC < @EBF .< @:A @:<D ? >? 98 G H< 9BC =: < @EBF . Ein Kalkül ist vollständig gdw. alle semantischen Folgerungen auch syntaktisch abgeleitet werden können, d.h. für Formeln 0 und P gilt: ? >? 9= Q ù 101 8 0 0 ° ² 0 Absorption ° ° ° ² ° ² ° ² ² ° ° 0 PS³0 N ù³0 Pý 0 ùRP N× N 0TSRP N× 0 ùRP 0TSRP Kommutativität ² ³2 S³2 N S N 0 ù!2 ù 0eS!2 Assoziativität ù ² ² ² ² ² Distributivität ¢ . 103 102 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3 ¯ ¯ ® ¯ ® ¢ ® ¯ ® £ ¯ ® ,   À w z z .¢ x; {?|  À =} 3 z À ® ­¢ ¢w À z ® ®  ® ® ¯ z ¢ ¤£ £ £ z À ­¢  ¤ z £ Aussagenlogik z  £ 3. Logik ° Implikation DeMorgan Dop. Negation Idempotenz ° ² Q 0eSRQP Q 0 ù Q P 0eS P ¢ ¢ Semantische Äquivalenz 0 8 Beispiel 3.8. Syntaktisch unterschiedliche Formel können identische Wahrheitswerte haben. Man betrachte die Formeln und : ° 9BC Definition 3.8. Zwei aussagenlogische Formeln heißen semantisch äquivalent gdw. für jede Belegung gilt. ° ? E@BF xy :B À semantisch äquivalent sind, schreiben wir hierfür ° :@<A w z und Lemma 3.2. Wichtige semantische Äquivalenzen sind: ² =? H< Wenn Semantische Äquivalenz (2) Q =:< H< 9= Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Aussagenlogik ° 9BC 100 3. Logik ² >=< ? @:<D © # P Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Q±N 0VUWP Q±N 0TSvP 0 Q² × ùvQ P 0 0eS!0 N 0 ù!0 0 ù N 0TSvP 0eS × 0 ùvP 0TSRP N × 0 ùRP 0×ù N ý P ù!2 0TS N PS!2 0 ù N PS!2 × 0TS ý P ù!2 :@<A Aussagenlogik P impliziert 0 =? .8 9:; aus Beispiel 3.5. Mit » >=< >? Ein Kalkül ist widerlegungsvollständig gdw. aus allen semantischen Folgerungen eine unerfüllbare Formel # abgeleitet werden kann, d.h. für Formeln 0 und P gilt: 0s 8 9:; Kalkül (3) ¸ » :@<A :@<D 3. Logik Ein Kalkül ist korrekt gdw. alle syntaktischen Ableitungen auch semantische Folgerungen sind, d.h. für Formeln 0 und P gilt: « Beispiel 3.7. Gegeben sei die Formelmenge der Inferenzregel Modus Ponens leiten wir ab: ¸ Nochmals angewandt ergibt sich: Eigenschaften von Kalkülen Also gilt: Aussagenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik 3. Logik Normalformen Aussagenlogik 3. Logik Normalformen und £ Beispiel 3.9. Die Formeln ­ Für die maschinelle Inferenz ist die Darstellung einer Formel in einer standardisierten und möglichst einfachen Form wichtig. sind in KNF. Die Formeln ¢ 3. Logik Schritt 3 (DNF) Schritt 3 (KNF) Schritt 2 Schritt 1 und Umformungsregeln für KNF/DNF-Transformation: Transformation in Normalform Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 sind in DNF. ¤» » ¤£ Definition 3.9. Eine Formel ist ein Literal gdw. eine atomare Formel oder die Negation einer atomaren Formel ist. eine Kon- 104 Aussagenlogik £ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Aussagenlogik 106 107 Aussagenlogik eine Dis- 105   ¤ z ­ ¤ ¤ À z ­ À ¢ À  ¤   ­ ­¢ ­ ¤¢ ¤ ­ ¢ À ­¢ ¢ ­£ ¤£ ¢  À ¤¢ ¢ z z z z z À z À z À z À Eine Formel ist in konjunktiver Normalform (KNF) gdw. junktion von Disjunktionen von Literalen ist, d.h. ¶· ºÂ z ­£ £ £ z £ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¹ ´ ¤ ¤ ¶µ ´  ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¼ ¹ À     ´ ­  À ¢ z ¤ £ ­ ¸Â ´ ­ ¤¢ ­ ¤ À 3. Logik ¶ ·µ  z £ £ z À z ­¢ ¤ ­ ¢ À ¢ À   z ¤ ­ ­ ¶µ ´ ¤  ¹ À z ­£ ¤¢ ­ ¤¢ £ £ z ­ z À ¶ ·µ ¸Â ´ ¶ µµ ¤ Eine Formel ist in disjunktiver Normalform DNF gdw. junktion von Konjunktionen von Literalen ist, d.h. À Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 À À z ¤ z ­¢   z, z À ´ ¶ µµ ­ z ¶· ºÂ  z À z À z ´ ¹ z z, ¾ ¾ ¾ ´ ¶ ·µ z ¸Â ¤ in KNF mit ¤ 7. ´ À ¹ ¶µ . ´ ¹ ¶µ ­ ¹ 9} @½8 ® ´ 7´ .µ I .´ ¹ Aussagenlogik Aussagenlogik geschrie- 3. Logik 108 109 Aussagenlogik  ´ . & ¶· ºÂ , die der Dis- .´ ¹ ¶· ºI I ­ F ¹ Klauselform .´ ¶ ·µ ¸I . ­ ­ 3. Logik ­ ´ µ Für die maschinelle Inferenz benutzt man eine Mengendarstellung der KNF, die sogenannte Klauselform. 7I Definition 3.10. À ¾ Eine Klausel ist eine Menge von Literalen entspricht. junktion ´ ¶ µµ . À ¾ Die Klausel ist die leere Klausel. Sie wird in der Form ben und entspricht dem Wahrheitswert ( ). ´ ¶ µµ ­ À Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 z, 3. Logik 77 Die Klauselform einer Formel z, ist die Menge Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ 3. Logik Aussagenlogik Resolution (2) Resolution Für die maschinelle Inferenz benutzt man Resolution in Verbindung mit Klauselform. Beispiel 3.10. Resolution basiert auf folgendem Schema: þ * * ð sei Definition 3.11. Seien ¾R * ¾³ð  Klauseln Qöund eine atomare Formel mit ¾ und ¾ Â. Dann heißt die Klausel 1 mit 1 ÃN » ¾vÅÄÆ_ * ÈÇÉN b ² ¾ÂÊÄË_ Qö* b Wenn es regnet (1 ), gehe ich ins Kino (¾ ), also 1¿U¾ . ¸ Wenn es nicht Ì regnet Q ( 1 Ì ), gehe ich ins Schwimmbad ( ), also 1ÀU . ¸ Hieraus folgt, daß ich ins Kino oder ins Schwimmbad gehe, also Q ² Resolvente von ¾ und ¾  . Ein Resolutionsschritt wird wie folgt dargestellt: ÍÏÎ ¸ ÍÑÐ þ _1ÀU¾ Q Ì 1ÀU b s » ¾ÁS Ì Als Inferenzregel geschrieben lautet die Resolution þ Q wie folgt: Ì 0uUWP 0uU2 PS!2 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 111 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 110 3. Logik Resolution (3) Aussagenlogik Beispiel 3.11. Modus Ponens und Modus Tollens können als Spezialfall der Resolution dargestellt werden: Ö Resolution (5) , in dem man zeigt, daß Aussagenlogik unerfüllbar 114 Dies bedeutet, man leitet aus den Klauseln von vereinigt mit den Klauseln, die sich aus ergeben, die leere Klausel ab. D.h., man beweist ist (vgl. Satz 3.1). Beim Resolutionskalkül führt man stattdessen einen Widerspruchsbeweis. Das letzte Beispiel zeigt den direkten Beweis einer Formel mit Hilfe der Resolutionsregeln. 3. Logik ¾ ¾ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Diese Klauselmenge 0 ist unerfüllbar, also muß auch die ursprüngliche Klauselmenge 0 unerfüllbar sein. Ö Die Resolvente zweier widersprüchlicher Klauseln ist die leere Klausel: 112 Dies nutzt man im Resolutionskalkül aus. Um zu zeigen, daß eine Klauselmenge 0 unerfüllbar ist, bildet man solange Resolventen und fügt sie der Klauselmenge hinzu, bis irgendwann eine Menge 0 entsteht, die die leere Klausel enthält. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¸ Ò× ØÓ Õ Aussagenlogik 115 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik ¢ ¸ Resolution (4) z ¤£ Satz 3.3 sagt aus, daß durch die Hinzunahme von Resolventen die Erfüllbarkeitseigenschaft einer Klauselmenge nicht beeinträchtigt wird. z ¸ Ö Beispiel 3.12. Herleitung der Aussage aus Beispiel 3.6 mit der Resolutiosregel: 113 ¢ ¢ ÒÔÓ Õ Þ ~ Ö Ö Þ Úàß â ¶ß Ü Þ £ ÒÔÓ × ÒÔÓ Õ Úàß Û ¶á Ç Ö Ù Þ Úß â ¶á ¶Ý genau dann erfüllbar, wenn 0 Insbesondere ist 0 _n1 b erfüllbar ist. Ö Úá ¶Ü ¶Ý z, þ ð Satz 3.3. Es sei 0 eine Klauselmenge und es seien ¾R ¾Â » 0 . Für eine Resolvente 1 von ¾R und ¾  gilt 0s 1 . Ö Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Resolution (6) ÒÓ Õ Ø× ÒÕ Þ ¾ Ò× ÚÛ ¶Ü ¶Ý ¾ Aussagenlogik 3. Logik ÒÕ 3. Logik Aussagenlogik Eigenschaften der Resolution Aussagenlogik Resolution (7) Satz 3.4. Eine Klauselmenge ist unerfüllbar genau dann, wenn die leere Klausel mit einer endlichen Anzahl von Resolutionsschritten aus abgeleitet werden kann. 3. Logik Beispiel 3.13. Herleitung der Aussage aus Beispiel 3.6 mit dem Resolutionskalkül: & z Die leere Klausel kann nur dann abgeleitet werden, wenn die ursprüngliche Klauselmenge unerfüllbar ist Korrektheit Bemerkung 3.3. Aus Satz 3.4 folgt die Korrektheit und (Widerlegungs)Vollständigkeit des Resolutionskalküls: z Aussagenlogik 118 Das Resolutionskalkül findet für jede unerfüllbare Klauselmenge eine Widerlegung, d.h. die leere Klausel wird abgeleitet Vollständigkeit Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Eigenschaften der Resolution (2) Für Aussagenvariablen gibt es höchstens verschiedene Klauseln, die aus diesen Aussagenvariablen gebildet werden können. Im Fall der Aussagenlogik ist es entscheidbar, ob die leere Klausel abgeleitet werden kann. 3. Logik , $ der Voraussetzungen: ¶á Þ , Klauselmenge ÚàÛ ß Þ $ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 119 Der Prozess der Resolventenbildung ist also endlich, d.h. irgendwann können keine neuen Resolventen mehr gebildet werden. ç¹ der negierten zu beweisenden Aussage: ÚÜ 116 Aussagenlogik 117 æ Klauselmenge Þ Úâ die leere Klausel abzuleiten. Þ Es gilt, aus Þ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik å I. ¡ Úß Ý ¾ 77 Þ ¾ II Úàß á Þ II Ú Ûß Þ ¾ ¾ ¾ .¡ I. 7£ z I. 7£ Úàß â Þ ÚÛ ¶Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Þ . 77 ã + + 7£ ¡ .£ I. 7£ .z Úàß â ¶ß Ü ãä ÚÛ ¶Ü ¶Ý 3. Logik Lemma 3.5. Es sei eine Klauselmenge. erfüllbar. Aussagenlogik 120 sei eine Klauselmenge, Fazit zur Aussagenlogik 3. Logik Prädikatenlogik Prädikatenlogik Prädikatenlogik 122 In der Aussagenlogik ist es nicht möglich, Aussagen über ganze Klassen von Objekten zu machen, so daß Schlußfolgerungen für individuelle Objekte möglich sind. Es sei gegeben: Martin ist ein Informatiker. Peter ist ein Informatiker. Jeder Informatiker kann programmieren. Martin kann programmieren. Peter kann programmieren. Wir wollen folgern: Eine Interpretation gibt den Variablen eine Bedeutung. 121 Prädikatenlogische Signatur Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Die Erfüllungsrelation dehnt diese Bedeutung auf alle Formeln aus Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Funktionen auf den Objekten, z.B. Größe, Gewicht, Hochzeitstag Eigenschaften von Objekten Beziehungen zwischen Objekten Aussagen über Objekte, auch quantifizierende Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 123 Wie in der Aussagenlogik brauchen wir dazu zunächst einen Vorrat an Bezeichnern. ¾ Objekte, z.B. Personen oder Sachen Mit der Prädikatenlogik (1. Stufe) wollen wir Sachverhalte beschreiben, die folgendes enthalten können. Über die Erfüllungsrelation wird der Begriff der semantischen Folgerung festgelegt. ¾ Ein Kalkül stellt die Äquivalenz zwischen semantischer Folgerung und syntaktischen Operationen her. ¾ Aus den Variablen entsteht durch Festlegung einer Syntax eine Wissensrepräsentationssprache (Menge der Formeln). Aussagenlogik entstanden ist. kann keine neue Resolvente erzeugt werden. und somit auch Beweis. Tafel ✎. Dann ist aus enthalte nicht die leere Klausel und die durch sukzessive Resolventenbildung aus z( Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 z Eine Signatur legt die Variablen der Sprache fest. 3. Logik z z ¾ ¾ & z( z( ¾ ¾ z( ¾ ¾ ¾ ¾ ¾ ¾ ¾ 3. Logik Prädikatenlogische Signatur (2) ½ . è? =  Prädikatenlogik besteht aus ist eine PL1- Prädikatenlogik Auf Basis der Terme können wir nun die Formeln der Prädikatenlogik definieren. »N í m?eine Öîa þï íF ÝÚáÔ² Menge von VariaDefinition 3.14. Es sei K sei eine PL1blensymbolen und J Signatur. Dann ist die Menge der atomaren Formeln über J und í wie folgt definiert: ð 1. Jedes nullstellige Prädikatensymbol Õ eine atomare Formel. PL1-Formeln, dann sind auch þ 0 Definition 3.12. Eine (PL1-)Signatur Q ; EB À PL1-Formeln Definition 3.15. Es sei Menge von Varia»N í m?eine Öîa þï íF ÝÚáÔ² blensymbolen und J K ã1ítLÝÔÙtñ sei N ² eine PL1Signatur. Dann ist die Menge K í der PL1Formeln wie folgt definiert: und P 3, 3. Logik PL1-Formeln (2) 2. Sind 0 è? von Funktionssymbolen und Prädikatenlogik 1. Jede atomare Formel über J und í Formel. ½ ; EB 124 125 3. Logik einer Menge 3, = è? von Prädikatensymbolen. ã = einer Menge  Prädikatenlogik À x; EB ä½ ¾ . =?| Á hat eine feste Stelligkeit é ¾ Jedes Symbol æ heißt Konstante. ë x; EB ½ ist ein PL1-Term. ã Ein Funktionssymbol mit der Stelligkeit ã ê Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 .ì ¹  3. Logik  ì . µ . è? = PL1-Terme ® À x Funktionssymbole dienen zur Beschreibung von funktionalen Eigenschaften der Objekte. In Verbindung mit Variablen zur Darstellung von Objekte werden Terme gebildet. æ ½ ist ein PL1-Term. ein -stelliges Funktionssymbol ( ) und sind PL1-Terme, so ist auch ein PL1-Term. x; EB ½ Definition 3.13. Es sei eine Menge von Variablensymbolen und sei eine PL1-Signatur. Dann ist die Menge der (PL1-)Terme wie folgt definiert: ® .ì ¹ 1. Jedes Variablensymbol . 2. Jedes nullstellige Funktionssymbol aus 3. Ist Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 µì ; EB À þ 0×ùvP þ 0eSRP þ 0VUWP 0VXWP 2. Ist Õ PL1-Formeln. Å 3. Ist 0 eine PL1-Formel und ò ó õô ð í , dann sind auch ð ï ï íÔÝ1á ist íÔÝ1á þÅ -stelliges Rþ Í ðRð Pr ein Í ÝÚítLr ñN ² ädikatensymbol mit und gilt í , so ist auch Õ N Í þRþ Í ² þ ò^0 ò^0 eine atomare Formel. Pl1-Formeln. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 127 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 126 aus: ý þ ¸ einer nichtleeren Menge , der Trägermenge (Grundbereich, Universum), ¸ çàð m?Ö^a , die jedem Å -stelligen sowie einer Abbildung Ì þ N!ç|² ý þ ý þ K Funktionssymbol eine Å -stellige Funkti U Ê on zuordnet und =B ö÷ ìø æ ¤è  ? H {? 9|| ÿþ Ì ð ¸ ï  . ã w 131 ì ê zu , unter  ì ö  3 {?| 9:C 9:C < =? =? Àù ú À ê ìú÷   è? H {? 9|| =<? =B À ê =? < 9:C < À ö÷ ìø  æ  3. Logik Prädikatenlogik Termauswertung N¨ý þ þ Ì þ ² eine J Definition 3.17. Es sei Z Interpretation und í eine Menge von Variablený þ eine Variablenbelegung eine symbolen. Dann ist Funktion Ê`íVU . Í ð þ Ì þ ² ðFÝ1ítL ñ N ² 3.18. Gegeben sein » ein N¨ý þ Term Definition í , eine J -InterpretationýÊZ þ und eine Variablenbelegung Ê`í U . Í Z ð ÝÚunter íMLOñÊN ² ist die ýÊþ wie Die Termauswertung von þ in folgt definierte Funktion : Ê í U ã Prädikatenlogik À  x; {?| =} an der Stelle À  ê, ê, À . ã6 {?| » w, ì ö z in ¹ ì ¶ x gilt: . -ì , À {?| Es sind noch nicht alle sprachlichen Symbole der PL mit einer Bedeutung belegt, es fehlen noch die Variablen. PL1-Semantik  .ì ¹  µì . À eine -Interpretation, eine Meneine Variablenbelegung. ì µ ¶ À 129  BF BF Prädikatenlogik ¶ , :? E = 6 z ¶ ei- 3. Logik .ì ¹ 6 ã Definition 3.19. Es sei ge von Variablensymbolen und ì . µ À bezeichne die Modifikation von d.h: für für Dann ist der Wahrheitswert einer Formel (geschrieben ) wie folgt definiert: Für eine atomare Formel Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 =B ù úì ú÷ À 128 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ¾ =<? íFÝÚá Ì þ N ² ý þ jedem Å -stelligen Prädikatensymbol zuordnet. Õ ne Å -stellige Relation Õ À y BF PL1-Formeln (3) ÃN Ém Öîa þï íÔÝ1áɲ K »üN¨ý²þ þ ÌÿþIeine ² PL1Definition 3.16. Es sei J Signatur. Eine J -Interpretation Z besteht » =<? y ûy ê 3. Logik Bisher haben wir wieder nur die syntaktische Struktur von Formeln festgelegt. Wir müssen nun die Funktion-, Prädikaten- und Variablensymbole mit einer Bedeutng belegen. è? H {? 9|| Beispiel 3.14. Den anfangs dargestellten Sachverhalt könnten wir durch folgende Formeln ausdrücken. Interpretation Die Frage, ob Martin und Peter programmieren können, würde dann als PL1-Formel lauten: Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik N Í þIþ ç Í þ ò þ ² N » » ÿþtò N Ì ² ð für ò þ í þ Rþ !ç|²N Í Í Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 þ ² 130 3. Logik Für Aussagenlogik. Für eine Formel gilt: und Prädikatenlogik gelten die selben Regeln wie in der 3. Logik eine Variable und eine Konstante. Variablenbindungen (2) Beispiel 3.15. Es sei nur frei: nur gebunden (Allabschluss):  sowohl frei als auch gebunden: nur gebunden (Allabschluss): Grundformel: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik PL1-Semantik (2)   À Prädikatenlogik 134 Prädikatenlogik Hat eine PL1-Signatur -stellige Prädikatensymbole, so ist ihr Wahrheitswert unabhängig von einer Variablenbelegung.  ê  ê  À ê ê ­ À À ê ö  ê À À ­  À ê  êù ê ù À û ù ê û gilt eine freie 133 ö   À ù À ù ê ê  ê À À ¾ ê ¾ ê ¾ ê  ö À für jedes 132 Prädikatenlogik = keine freie Variable z ¾ gilt: mit z ê = E :? Für eine Formel z ¾ es gibt ein Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ê heißt geschlossen gdw. in û ê ¹z Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 135 Um dies auch bei einer beliebigen Formel zu erreichen, werden alle frei auftretenden Variablen wie allquantifizierte Variablen behandelt. Der Wahrheitswert einer geschlossenen Formel ist ebenfalls undabhängig von einer Variablenbelegung. Variablenbindungen ê Tritt in einer Formel ohne umgebenden Quantor auf, so ist Variable. Eine PL1-Formel auftritt. ê ¢ê ê µ ¾ E :? , z , z ¶ z ¶ ö x ö = 6 £ 6 = E û ¾ 3. Logik ¢ê Definition 3.20. Tritt eine Variable in einer Formel in einer Teilformel der Form oder auf, so ist eine gebundene Variable. û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ê z ê Wenn die in einer Formel frei auftretenden Variablen sind, dann heißt die Formel der Allabschluss von . . µ .ê ¹ ¾ :? z x .z ¢ ê û E :? ê z ê z z .z ­¢ ¶ , ¶ , ê z z ¤¢ û ¾ ¾ ¾ 0 Lemma 3.6. P Q ô ² Nó ^ ò 0 ò^0 ² ° ó ô ò Q ô ò N ó ò N ôiò ô ° ó ô ° ° ² ° ² ° ° ó ° 0 0 0×ùvP 0TSvP ó ò^0 ò^0 ÷ 0 ò ÷ 0 ò ² ² :?  E = 6 6 {?| :? E = À  ã 7 :? E F .= 9} @ I=  x z Prädikatenlogik z 3. Logik . 3 in Prädikatenlogik , À 136 3. Logik 137 ã 3 =} Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 =} z ; z ¶ , für jede Variablenbelegung Nô Q ó ^ ò 0 Nô ^ ò 0 ù N ó òpP ô òp P S ô òó ó 0 ò ô 0 ó ò^0 ò^0 Q À 3. Logik Definition 3.22. Zwei PL1-Formeln 0 und P heißen semantisch äquivalent gdw. für alle J Interpretationen Z und alle Variablenbelegungen þ » þ gilt: z , {?| Definition 3.21. Es sei eine -Interpretation und sei eine PL1-Formel. Dann ist der Wahrheitswert von (geschrieben ) gegeben durch die Funktion Äquivalenzen für PL1-Formeln mit Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik ; w Prädikatenlogik Normalformen Skolemisierung Definition 3.23. Eine Formel 0 , in der alle Quantoren außen stehen, heißt Pränexform. Skolemisierung dient der Elimination von Existenzquantoren. Wir betrachten eine Pränexform: ô -ô òÈ ó ò å ó 0 N Rþ!¯þ ² Zum Ersatz ç von wählen Ï wir ein neues Funktionszeichen der Stelligkeit und führen folgende Operation aus: 1. Streiche ó aus der Pränexform. N þIþ åG² 2. Ersetze in derçverbleibenden Formel ò . Stellen durch òÈ Wir erhalten somit ô òÿ ô ò å 0 N Rþ ç N Rþ þ òÿ ò an allen 1. Umbennung von Variablen derart, daß keine Variable sowohl frei als auch gebunden auftritt und hinter allen vorkommenden Quantoren stehen verschiedene Variablen. und X . 3. Die Negation wird ganz nach innen gezogen, so daß sie nur noch unmittelbar vor Atomen auftritt. ² Ï »BÓ Die Funktion heißt Skolemfunktion bzw. für Skolemkonstante. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Mit folgenden Schritten kann jede PL1-Formel in eine äquivalente Formel in VNF überführt werden: 2. Beseitigung der Junktoren U åG² þ ç Eine Pränexform, die als Junktor nur noch Konjunktion, Disjunktion und Negation enthält, wobei die Negation nur unmittelbar vor Atomen auftritt, heißt vereinigungstechnische Normalform (VNF). 139 4. Die Quantoren werden ganz nach außen geschoben. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 138 Normalformen (2) Prädikatenlogik 3. Logik Unifikation Prädikatenlogik Die Unifikation ist eine Substitution, bei der Terme gleichgemacht werden. Definition 3.25. Eine Substitution heißt Unifikator der Terme und gdw. gilt. und sind dann unifizierbar. Variablensymbole und Beispiel 3.16. Sind sind die Terme und nicht unifizierbar. Die Terme und und und sind unifizierbar mit Die Substitutionen sind Unifikatoren für die Terme Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 . Konstanten, so . Á 140 142 Prädikatenlogik heißt allgemeinster Unifikator für von und existiert eine Substitution , so daß Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 143 Bemerkung 3.4. Es gibt einen Algorithmus, der für zwei Terme und entscheidet, ob sie unifizierbar sind und gegebenenfalls einen allgemeinsten Unifikator berechnet. . 3. Logik ì I ).  ö Á ö ¿ À .% I . +* +ö  7ê .* * , , Allgemeinster Unifikator Definition 3.26. Eine Sustitution die Terme und gdw. und und ( ì Á ist Unifikator von Für jeden Unifikator gilt. ì + 7ê .ë ® .%  ê ö .¿ + . % À ö ¿ .) À ö .ö    I À  À .ë ( (, ì ® À 7ê À +* . +) ö ). .* ® ö ì .% Á .* À Â ê ® .* À ê ì  ê ( À -,  ®  ® - 141 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 (, Á \^U ² í Ê # erh eine Abbildung ðFÝ1ítält LOñÊN man ² í . Á 3. Logik Definition 3.24. Es sei " eine endliche Teilmenge von Variablensymbolen ð ÝÚíMLOñÊN ² von í . Dann ist eine Abbildung # Ê$" \^U í eine Substitution. ÀqÁ 5. Alle Existenzquantoren werden durch Skolemisierung entfernt. Substitution ( ( ¾ ¾ 6. Jetzt können alle Allquantoren entfernt werden. ò ( geben wir in der Form # ²Ð² ðFÝ1ítLrñN NÍ # Rþ ² þ # N NÍ ç ² ²}» ð für ò für ò ò ò ò &% # # -, ./ 7. Mit Hilfe der de Morganschen Regeln können disjunktive Normalform DNF bzw. konjunktive Normalform KNF analog zur Aussagenlogik erzeugt werden. N ² » wird der Definitionsbereich von # zunächst auf í ò für Konstanten und die ausgedehnt. Durch # ò rekursive Anwendung von # in der Form N!çN Í þIþ Í # ì Ebenfalls analog zur Aussagenlogik kann eine PL1-Formel in KNF in Klauselform dargestellt werden. Für die maschinelle Inferenz mit PL wird noch ein Mechanismus zur Instanziierung von Variablen benötigt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Durch í Ä'" " ð ² N » ² N b an. Iþ å ÷GÍ å Eine÷GÍ þ Substitution _ò Prädikatenlogik 3. Logik À ¿  À À   À À   R ¿ À    ML  K O À N ¿ À LN   LQ MLL N Variablensymbole. ¿ À U VU UV K VW N  À ¿ M  unifizierbar? 145 0 eine Variable und 1 ein Term der Form 1:>@?BABABAB?!1!CED , so sind sie unifizierbar gdw. 0 nicht in 1 vorkommt. Man erweitere hierzu 2 um 5F0781:6 . i hat die folgende Form: 2 <n< < fj>yxz59lm>?BABABAB?gloF6FD|{ f h xz5Ft=lm6FDnD _ Prädikatenlogik sind unifizierbar 147 146 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 X Y[` L \ ]] ] L` ^ 3. Logik (c) bc L d]] X ] L e Y[\ Z L ]] ] LZ _^ und unifizierbar sind. (b) Es gibt positive Literale lm>?BABABAB?nlporqsfk> , ein negatives Literal t=luqvf h und einen allgemeinsten Unifikator 2 von lw?glw>@?BABABAglo . a` 144 Resolution in PL1 haben keine gemeinsamen Variablen. Z a Bemerkung 3.5. Die Begriffe Klausel, Klauselform und Literal werden in PL1 analog zur Aussagenlogik definiert. h Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Bemerkung 3.6. Wir dehnen die Unifikation auf atomare PL1-Formeln aus. und f (d) Sind 0 und 1 zusammengesetzte ;=< Terme, so sind sie unifizierbar gdw. G 0 3 0H>?ABABAB?:0BCED , 1I3 ;=< 1:>@?BABABAB?!1!CED und wenn jeweils 0BJ und 1!J unifizierbar sind. Man erweitere 2 um die Substitutionen, die sich aus der Unifikation der 0J und 1!J ergeben. Zwei atomare Formeln gdw. und für Prädikatenlogik Definition 3.27. Es seien f > ?gf h PL1-Klauseln. Die Klausel i heißt PL1-Resolvente von fj> und f h gdw. folgendes gilt: fk> und 1 Konstanten, so sind sie unifizierbar gleich 1 ist. (c) Ist ;=< Resolution in PL1 (2) (a) 0 0 (b) Ist 0 eine Variable und 1 eine Konstante, so sind 0 und 1 unifizierbar. Man erweitere hierzu 2 um 5707891:6 . Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Allgemeinster Unifikator (2) (a) Sind gdw. Prädikatenlogik U U WK WK P P Q M LN LN W P VW P Q M V ML WQ À  3. Logik  À Prädikatenlogik Gegeben seien zwei Terme 0 und 1 . Die Berechung des allgemeinsten Unifikators geschieht wie folgt: Man startet mit 243&5$6 als allgemeinsten Unifikator und wendet sukzessive die folgenden Regeln an: Allgemeinster Unifikator (3)  À L KP Beispiel 3.17. Es seien À O À und M L TM S O N LN LQ  Sind die Terme À L KP À ¿  Ungelöste Unifikationen À O Regel (d) (c) (c) (b) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 M QS P KS MS N N ML Q S L P TM NS ML Q S 3. Logik Prädikatenlogik 3. Logik V U ] Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ^ eine Klausel der Form (c) heißt Zielklausel. eine Klausel der Form (b) heißt Faktum und Eine Klausel der Form (a) heißt Regel, Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Logikprogrammierung bzw. als Klausel ausgedrückt. Logikprogrammierung 151 Definition 3.28. Eine Hornklausel ist eine Klausel mit höchstens einem positiven Literal. 3. Logik 150 (c) Eine Anfrage der Form “Folgt aus den Fakten und Regeln?” wird als Klausel in negierter Form geschrieben: . ]] \ 3. Logik Hornklauseln ^ Für viele Anwendungen reichen drei Arten logischer Formeln aus: (a) Formeln der Form , die Regeln darstellen. ]] (b) Ein Faktum wir durch eine einelementige Klausel ] Resolution in PL1 (3) 148 Logikprogrammierung Kontrolle ↑ “Wie?” ↑ System \ Beispiel 3.18. Darstellung der Resolution für PL1: + Logikprogrammierung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik = Das Idealbild der Logikprogrammierung: Algorithmus Logik ↑ “Was?” ↑ reine Problemspezifikation Aufgabe des Programmierers Die vollständige Trennung von Logik und Kontrolle ist in den heutigen Sprachen zur Logikprogrammierung aus Effizienzgründen noch nicht realisiert. 149 V^ L ^ V } Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 L \ ]] ] L L\ ]] ] L }[~ } U U }~ ~ 3. Logik Prolog-Notation von Hornklauseln Logikprogrammierung In der Programmiersprache P ROLOG werden Hornklauseln wie folgt geschrieben: 3. Logik Prolog Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Logikprogrammierung 152 Definition 3.29. Ein logisches Programm ist eine endliche Menge von Regeln und Fakten. Das positive Literal einer Regel heißt Kopf. (a) Regeln in der Form: (b) Fakten in der Form: (c) Zielklauseln in der Form: Anfrage: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 153 Logikprogrammierung Auswertung von Logikprogrammen :− Pfad(a,d) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Beispiel 3.20. {X/a, Y/d} :− Kante(a,d) fail Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 OK 154 155 Logikprogrammierung :− Kante(b,d) {X/b, Y/d} :− Pfad(b,d) {Y/b} :− Kante(a,Y), Pfad(Y,d) {X/a, Z/d} Scheitert irgendwann die Resolvierung, findet ein Backtracking statt. Hieraus ergibt sich eine neue Zielklausel, für die das gleiche Prinzip angewendet wird. Hierzu wird jeweils das erste Literal der Zielklausel mit einem Regelkopf oder einem Faktum resolviert. Für Logikprogramme wird eine spezielle und effizientere Form der Resolution verwendet, die sogenannte SLD-Resolution (Linear Resolution with Selection Function for Definite Clauses). 3. Logik ¢¨ ¢¨ ©ª ©ª ¤¥ ¤¥ ¦ ¦ § § ¡ ¢£ ¤¦ « § ¡ ¢£ ¤¢ £ § Beispiel 3.19. Ein Logikprogramm zur Berechnung von Pfaden in einem Graphen: ¡ ¢£ ¤¥ ¦ § ¡ ¢£ ¤¥ « § ¢¨ ¢¨ ©ª ©ª ¤¢ ¤¢ ­ ¬ § § ¢¨ ¢¨ ©ª ©ª ¤­ ¤¬ £ £ § § 3. Logik Logikprogrammierung 3. Logik Logikprogrammierung Anfrage in Prolog bedeutet: Exsistiert eine Variablenbelegung, so daß ... gilt? Bei der Lösungssuche werden Variablenbelegungen generiert. Fakt: Hierbei wird die Unifikation durchgeführt. Anfrage: Unifikation: Mit dieser Unifikation kann die Anfrage bewiesen werden. Unifikationen werden übernommen: Anfrage: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 158 159 Logikprogrammierung ¤¥ À ½¯ § Ç¢ ©ª° Beispiel 3.22. Lösung des Färbeproblems aus Kapitel 2: 3. Logik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ©ª° Crashkurs Prolog 156 Logikprogrammierung Beispiel 3.21. Gesucht sind alle dreistellgen Zahlen, die durch 5 und 6 teilbar sind und bei der Division durch 9 den Rest 3 liefern. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Prolog-Grundlagen Konstanten und Prädikate beginnen in Prolog mit einem Kleinbuchstaben. Variablen beginnen mit einem Großbuchstaben. 157 Ç¢ Æ ÌÈ ËÈ ÊÈ ÍÈ ÍÈ ÍÈ Â Ì Ë Ë Ê È È È ÍÈ Í Â Ì ¼ ¤É Ê Ë Ì Â § In Anfragen sind Variablen existenzquantifiziert. bedeutet: Existiert ein X, so daß X Vater von Nils ist? In Fakten sind Variablen allquantifiziert. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 À¯ ½ § ©ª° ¤¥ À¯ ½ § ©ª° ©ª° ª ¬ ¢ª¾° ¤¥ À ½¢° § ¤ª ©ª° Æ ¥È ¡ É È ¡° Í È ¢¬ª Ê ¤Ì É § È ¡ Í È ¢¬° Ë ¤ ªÂ É § È ÍÈ Ì É È ÍÈ Â Ç¢ Ç¢ ¼ ¤É Ê Ë Ì Â § ¡ ¢¬° ª ¤É § ¡ ¢¬° ª ¤Ê § ¡ ¢¬° ª ¤Ë § ¤« ²³ À ½¯ § ´ µ ¶ · ¸ ¹ º »§ ³ « ½¯ ¢À¿ ®¯¡¡ «¿À ½¯ ª° ¢ ³ ¤ Á ³ à § ±Å£ ®¯¡ Á Ä ¶ ª¡° ³ à ¤ « § « Ä ®¯¡ ¡  ª° ¤Â § § ¤¥ Æ ª± ©ª° Ç¢ ¬ ¬ª±° ¤ «¿À ¢ ¢¿À Æ ¡ § ¤« ­¿ ¢ª¾° ¡ ¡ ¡ ¡ ¢¬° ¢¬° ¢¬° ¢¬° ª ª ª ª ¤ Å° ¼ ¤ ªÀ ¤ ¬¾À ¤ ° ¢ ¬ ¢ § Å© ¼ ª § § § ª¡° ©ª« ´ ³ ½¯ ½¯ « « ¢¿À ¢¿À Å£± Å£± º · ®¯¡ ¼ ª½¾ 3. Logik Arithmetik und Unifikation Logikprogrammierung Der Operator = steht für die Unifikation. X = Y bedeutet: Können X und Y unifiziert werden. Der Operator == steht für die Identität. is/2 wertet einen arithmetischen Ausdruch aus und unifiziert das Ergebnis mit einer Variablen. 3. Logik Listen in Prolog Mit dem Relistoperator kann eine Liste aufgeteilt werden: Logikprogrammierung Logikprogrammierung 162 Es gibt eine Fülle von vordefinierten Prädikaten für Listen, z.B. append/3: Steuerung der Abarbeitung führt zu einem Fehler. Grund: unvollständige Spezifikation Abhilfe: Erweiterung der Regel:̄ 163 Prolog läuft in einen unendlichen Rekursionszyklus, weil die erste Regel immer wieder anwendbar ist. Die Anfrage § Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik ¢¨ 160 Logikprogrammierung ). ¦È ¥È Æ ²¬ ¢ ²¢ ¬ ­ ­ È » » ²¥ Ò¦ » ¥È Æ ²­ ²¢ £ ¬­ ª £ » » ª È ² ¢¬ Ò¥ » ¢ ¤ ¨Ö Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 3. Logik Zeichenketten § Datentypen in Prolog Atome: Bezeichner beginnend mit einem Kleinbuchstaben ( ¤ ³© ³ ¡ ¡ Integer und Float ( -1, 1, -8.23) Konstanten sind Zahlen, Zeichenketten oder Atome. ¢ ¢£° ¢ª ¢ª £ £ ¤² Á ¤² » ÒÔ Ó » Ó Ó ² § Á ÒÕ »§ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Atomare Terme: Konstanten oder Variablen ) 161 ¾ Ñ §» ¤Ô Ó Õ § Terme: einfache Terme oder Strukturen ( Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Ö ½¯ Listen: ³ £ ¼ ª° ¤Ö § Ö× £ ¤³ ¤¸ ¥ § Å°À Ï ¢© ¡ ÅÐ ¢£° ¢¨ ¿ Ñ § ªÀÀ ° ª £¾ ¢ ¤ ³¨ Ï ¢ª Å ©À ½¢° Î ª½ Æ ¥ È Æ ¥ ¥ ½¯ ¶ ½¯ µÄ µÄ ¦ ½¯ Ä µ ¥ È È ² ¡ Ö ¢¨ ¢¨ ½¯ ½¯ ¤ Ö Ö ¢ à ¨ ¢¨ Ö § ©ª ° ¦ 3. Logik Mit dem Cut wird Backtracking verhindert. Sei eine Klausel der folgenden Struktur gegeben: Logikprogrammierung Logikprogrammierung 164 Sind erfüllt, so werden alle eventuell noch anwendbaren Regeln zum Beweis für und abgeschnitten. ± not/1 liefert keine Variablenbelegung und entspricht somit nicht der logischen Negation. Die Verwendung des Cut im letzten Beispiel entsprach genau der Negation in Prolog. 165 3. Logik Zusammenfassung des Kapitels Ein logisches System besteht aus: Signatur Logikprogrammierung eine Semantik festlegt. Syntax aufbauend auf (Menge der Formeln), wodurch die Wissensrepräsentationssprache festgelegt ist. -Interpretation, die für die Elemente aus , die die Semantik von Formeln festlegt. 166 Logikprogrammierung Resolution als Inferenzverfahren in Aussagen- und Prädikatenlogik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 167 Logikprogramm: eingeschränkte Prädikatenlogik und angepaßtes Resolutionsverfahren Unifikation in der Prädikatenlogik Kalkül zur Durchführung der maschinellen Inferenz (Vollständigkeit, Korrektheit) Klauselform zur kanonischen Darstellung von Formeln 3. Logik Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Erfüllungsrelation Ú Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Ú Prolog genutzt Negation as failure, d.h. eine negierte Anfrage ist wahr, wenn sie nicht bewiesen werden kann. 3. Logik   Ûc Á ¡À ¢¯ Ú Ê § Ø É ¤« Ê ± É ¢¿À® Ú «Ä «Ä Ø « × ª¨ ¯ ª° ¯ Ä Í ª¨¯ ª° ¯ ± ¢®¿À ¤« § Ê «× Ê § ¤« ¤« § § ¤« Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ± Ê Ê ¢¿À® Á ¢¿À® ¯®¡¡ ¤ «¿À ª° ¢ ¤« § § ®¯¡ ª¬±± ª¡° ª° ¤ « ¤ « § ²³ ®¯¡ ª¡° ´ ¤Â µ § « ¶· ¢¿À ¸ ½¯ ¹ º ³ à »§ ª­ ª¨ ¿ ¯ ©ª° ª° ªÔÀ¯ ¯ ª° ¢±¿À® ¤Ô « ¤§ « § Ô × ¢®¿À ¤Ô ÔÙ § ª­ ¿ « ©ª° ³ Ô ½¯ ªÀ¯ « ª° ¤Ô Å£± « Ô § °¯ °¯ ± ± ¢¿À® ¢¿À® ¢¿À® ¯®¡¡ ¤ «¿À ª° ¢ ¤« § § ®¯¡ ª¬±± ª¡° ª° ¤ « ¤ « § ²³ ®¯¡ ª¡° ´ ¤Â µ § « ¶· ¢¿À ¸ ½¯ ¹ º ³ à »§ ª­ ª¨ ¿ ¯ ©ª° ª° ªÔÀ¯ ¯ ª° ¢±¿À® ¤Ô « ¤§ « § Ô × ¢®¿À ¤Ô ÔÙ § ª­ ¿ « ©ª° ³ Ô ½¯ ªÀ¯ « ª° ¤Ô Å£± « Ô § °¯ 4. Induktion von Regeln 4 Induktion von Regeln Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/WertPaare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. 169 4. Induktion von Regeln Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen = LKW Risikoklasse = niedrig Autotyp > 60 Risikoklasse = niedrig <> LKW Alter Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 170 Lernen von Entscheidungsbäumen <= 60 Risikoklasse = hoch 171 Beispiel 4.2. Ein Entscheidungsbaum zur Risikoabschätzung für eine KFZ-Versicherung: 4. Induktion von Regeln Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der das Objekt zugeordnet wird. bis man einen Blattknoten erreicht. so lange den Kanten folgt, die mit den Attributwerten des Objekts markiert sind, indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert, Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist. Lernen von Entscheidungsbäumen 168 Beispiel 4.1. Gegeben seien die Beschreibungen von Bankkunden. Die Bankkunden können in die beiden Klassen “kreditwürdig” und “nicht kreditwürdig” eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Entscheidungsbaum Ein Blatt repräsentiert eine der Klassen. Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften: Ein innerer Knoten repräsentiert ein Attribut. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ☞ Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion. Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens. 4. Induktion von Regeln Lernen von Entscheidungsbäumen Entscheidungsbäume und Regeln Entscheidungsbäume repräsentieren Regeln in kompakter Form. Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-Regel. LKW then Risikoklasse = niedrig, LKW and Alter 60 then Risikoklasse = niedrig, LKW and Alter 60 then Risikoklasse hoch. Beispiel 4.3. Der Entscheidungsbaum aus Beispiel 4.2 entspricht den folgenden Regeln: if Autotyp if Autotyp if Autotyp 172 Lernen von Entscheidungsbäumen Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen, der die Beispiele richtig klassifiziert. Ein Beispiel der Trainingsmenge besteht aus einer Menge von Attribut/Wert-Paaren zusammen mit der Klassifikation. Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren. Problem der Generierung von Entscheidungsbäumen 4. Induktion von Regeln Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Þ Ý Für so einen generierten Entscheidungsbaum hofft man, daß dieser auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert. 173 Alter 23 18 43 68 32 Autotyp Familie Sport Sport Familie LKW Lernen von Entscheidungsbäumen 174 Lernen von Entscheidungsbäumen Risikoklasse hoch hoch hoch niedrig niedrig Beispiel 4.4. Trainingsmenge für den Baum aus Beispiel 4.2: 4. Induktion von Regeln ID 1 2 3 4 5 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Man entscheidet streng sequentiell anhand der Attribute. Naiver Ansatz der Generierung: Jeder Baumebene ist ein Attribut zugeordnet. ☞ Keine sinnvolle Generalisierung auf andere Fälle ☞ Overfitting ☞ Entscheidungsbaum mit vielen Knoten Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 175 Der Baum wird dann konstruiert, in dem für jedes Beispiel ein Pfad erzeugt wird. Tafel ✎. c c c Ü Ü Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Autotyp <> LKW Alter Risikoklasse = hoch Lernen von Entscheidungsbäumen < 30 <> LKW Risikoklasse = hoch Alter >= 30 and <= 60 Autotyp > 60 Risikoklasse = niedrig = LKW Risikoklasse = niedrig 4. Induktion von Regeln Lernen von Entscheidungsbäumen Man teste das “wichtigste” Attribut zuerst! Prinzip der Generierung Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab. Attr. + o o o + o o o + o + o o Preis $$ $ $ $ $ $$ $ $ $ $ $ $ $$ $ $ Loge ja ja nein ja ja ja ja nein ja ja ja nein ja ja ja Wetter o o o o + + + o o + - Warten ja nein ja ja nein nein nein ja nein nein ja ja ja ja nein Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Bes. + o o o o + o o o o + o o + o Trainingsmenge zum Thema “Kinobesuch”: 4. Induktion von Regeln Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Kat. AC KO DR SF DR SF KO AC KO KO DR AC SF DR AC Land int int int int int int nat int nat int int nat int int int Res. ja nein nein nein nein ja nein nein nein nein nein nein nein ja nein 179 Gr. F P F a P F F F F P P a a F P Lernen von Entscheidungsbäumen 178 Man setze dieses Prinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort. Die Beispielmenge wird gemäß der Attributwerte des ausgewählten Attributs auf die Söhne verteilt. Beispiel 4.5. Zwei Entscheidungsbäume für die Trainingsmenge aus Beispiel 4.4: = LKW Risikoklasse = niedrig <= 60 Risikoklasse = hoch 176 Lernen von Entscheidungsbäumen > 60 Risikoklasse = niedrig Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Occam’s Razor (William of Occam, 1285–1349): One should not increase, beyond what is necessary, the number of entities required to explain anything. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 177 ☞ Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. der möglichst kompakt ist. der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert und Ziel der Generierung ist es, einen Baum aufzubauen, Kino? ja ja nein nein ja ja ja ja nein nein ja nein nein nein ja F AC KO Kategorie ja: 1, 8, 15 nein: 12 P ja: 2, 7 nein: 9, 10 ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 ja: − nein: 4, 12, 13 a Gruppe ja: 1, 2, 5, 6, 7, 8, 11, 15 nein: 3, 4, 9, 10, 12, 13, 14 Attributauswahl für das Kinoproblem: 4. Induktion von Regeln ja: 1, 6, 7, 8 nein: 3, 9, 14 DR ja: 5, 11 nein: 3, 14 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Lernen von Entscheidungsbäumen ja: 2, 5, 11, 15 nein: 10 SF ja: 6 nein: 4, 13 180 Lernen von Entscheidungsbäumen 4. Induktion von Regeln Lernen von Entscheidungsbäumen Generiere für jeden möglichen Attributwert einen Nachfolgerknoten und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts. Setze das Verfahren für jeden Nachfolger fort. 4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent. Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der Klassifikation von den Attributen existiert. markiere mit ; ) Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 183 Lernen von Entscheidungsbäumen 182 Beispiel 4.6. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert werden. Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Algorithmus zur Konstruktion ß Algorithmus 4.1. [Entscheidungsbaum-Konstruktion] Là Lá mit einer Default-Klasse; Entscheidungsbaum( markiere ¯¡ ° ß c Å­¾ª ª¾ £° ©° â¿ ª ©ª á Bei der rekursiven Konstruktion können die folgenden Situationen auftreten: 1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation. Dann wird der Knoten mit der entsprechenden Klasse markiert und die Rekursion beendet. ° ª½À ° ª ª°° ª ¾ª ª ¯ ¯¡ Å° ¡à ©° ã` c ä á åæß ©ª¿ é çQZ Zè Y` _c é©¿ ª ª½À ª½À 2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten vorkommt. 181 3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut gemäß seiner Wichtigkeit aus. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Q 4. Induktion von Regeln Sei Seien mögliche Partition besser als von £ Å ; die Teilmengen von erzeuge Knoten als Sohn von fällt in Entscheidungsbaum( Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln ) ; ; Q <=a3 =a3 <a in A1 184 Lernen von Entscheidungsbäumen >= a in A2 Lernen von Entscheidungsbäumen Attribut Attribut Partitionen für Attribute Attribut =a2 Attribut <=a2 4. Induktion von Regeln Attributauswahl Lernen von Entscheidungsbäumen Die auf Algorithmus 4.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert. Der Kern eines TDIDT-Verfahrens ist die Attributauswahl. Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge exakt auf verschiedene Klassen aufteilen. Lernen von Entscheidungsbäumen 186 Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Informationsgehalt und Informationsgewinn einer Wahrscheinlichkeitsverteibezeichnet man als die Entropie Die mit einem Ereignis verbundene Information wird logarithmisch aus dessen Wahrscheinlichkeit berechnet. Den mittleren Informationsgehalt lung über einer endlichen Menge von : Y[ó _Tô õ ÷ö X Y[ó Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 187 Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat. _ ì X í YX _ ñ ðò ï Typen von Partitionen fuer nominale Attribute =a1 <a1 Typen von Partitiionen fuer numerische Attribute 185 _ cî X V a X aL ßà a UV ë Qæ L á a Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ì YX X Z` \L ] c ]] Y Q LX LX ^ _ X X èê bå c d ©Å e £ Å åß Ua c ` ä ß Û` æ ¡ £ ª £ ª ¯ £ è ¡ êZ Y L Q `å c X _ QY LX _ èê Z` ©ª¿ £ ª £ X ° ¡° Ū Å ¢­¿ ª ¢­¿ Q äà £ Å ª ¡ Å° ª 4. Induktion von Regeln negative Beispiele. Lernen von Entscheidungsbäumen Der ID3-Algorithmus 4. Induktion von Regeln mit dasjenige aus, bei dem Gruppe bekannt Beispiel 4.7. Für die Wurzel des Kinoproblems haben wir Gruppe 190 Lernen von Entscheidungsbäumen Kategorie bekannt Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln maxi- bit Lernen von Entscheidungsbäumen Demnach ist der Informationsgehalt einer Beispielmenge positiven und negativen Beispielen (genau zwei Klassen) positive und ID3 wählt als nächstes Attribut mal ist. Algorithmus 4.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die Relation “besser” für die Attributauswahl auf dem Informationsgewinn basiert. Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs noch benötigen. habe 188 Lernen von Entscheidungsbäumen Kategorie _ ÿ _ teilt die Trainingsmenge in disjunkte TeilmenJedes Attribut ge auf, wobei die Anzahl der verschiedenen Werte ist, die annehmen kann. Teilmenge Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln ge- bit be Beispiel 4.8. Man berechne für alle Attribute und zeige damit, daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem als Attribut für den Wurzelknoten selektiert würde. Tafel ✎. 191 YQ d Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel ✎. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Yý d ÿ _ ì d ì Yý d _ü d bit bekannt _ YQ _ü d _ Yý d _ü ì Yý d _ü d _ d Yý ì Û Yý ì be ì Û be Q ú 189 Yý d Q _ Q TY øù ûd ì _ î Q YQ _ü d d TY øù ûd _ ] ] î _ be Y c TY øù î TY øù î ] ] ist also Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Q Q YTøù ÛQ Der mittlere Informationsgehalt von _ _ Q e úü e îú Der mittlere Informationsgehalt der Antowrt, nachdem wir Attribut testet haben ist: YQ c Um den Informationsgewinn von Attribut zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von ) und der Restinformation (nach dem Test von ): be Q _ bekannt _c YTøù î Y _ úü ù e a ù a úa úa ü Y e a ý úa ü e a _ _a ø YTù _a c a ï \ ú ú ü aü e e ìa Yú ü a ú e a a ý úa ü e e a a _ _ Y Qå TY øù _a c ì be ÿ cî ù e ô õ ÷ú ü ö e e Q e a ù a Q úa Q a ï \ X Y Qc Q eb Q L\ ]] ù ] \ L L ]]] _ Lù _c Q TY øù e ú ô ö÷ õ úü e úü e e _ åc ì ûú ü eþý ú Y øù Y TY øù ÛQ Q 4. Induktion von Regeln Bemerkung 4.1. Lernen von Entscheidungsbäumen Klassen Lernen von Entscheidungsbäumen 192 und Klassen verallgemei- In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer BernoulliVerteilung. Dies Konzept wird mit Hilfe der Entropie auf nert. Der Informationsgehalt einer Beispielmenge mit Beispielen in Klasse ( ) ist dann: 3 1.8 2 M 4 0.2 4 K 5 2.1 4 P 6 1.7 2 M 7 0.1 4 K 8 1.6 2 M 4. Induktion von Regeln Der C4.5-Algorithmus Lernen von Entscheidungsbäumen Der (absolute) Informationsgewinn hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt. Dies kann im Extremfall zu unsinnigen Ergebnissen führen. Beispiel 4.10. Bei einer medizinischen Diagnose werde als eines der Attribute die PIN eines Patienten benutzt. Lernen von Entscheidungsbäumen 194 Dieses Attribut habe soviele Werte, wie es Patienten in der Datei gibt. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 195 Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die aus genau einem Patienten bestehen. Die bedingte mittlere Information ist also PIN bekannt und damit ist der Informationsgewinn maximal. Für die Diagnose ist die PIN dagegen nutzlos. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 2 0.2 2 V be 4. Induktion von Regeln 1 0.1 0 F bit _ YQ Q a ï \ ì Yý _ dc _c Beispiel 4.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren: ID Größe Beine Tier Beine bit bit 193 Û a bit d TY øù æ dd d Beine ] d ] d] d ] c ÷ ÷ ÷ ô öõ ô÷ Beine Beine öõ \ \ dd î ] ÷d öõ dô ô\ õö î ÷ Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 _ î c î îd ô\ õö î ÷ î c c _ aô õ ÷ öú a a _ cî åc ae _ åc ì Yú L\ ]] ] Lú _ _ Û Û Û c c c _c ì YTù î TY øù TY øù TY øù be Y Q ù a \ú a ï \ ú æ TY øù úa YQ b _c Z Q dasjenige aus, bei dem Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 C4.5 wählt als nächstes Attribut maximal ist. 196 Generieren von Assoziationsregeln Man unterstellt aber, daß implizite strukturelle Abhängigkeiten vorliegen. Diese möchte man erkennen. Die Zusammenhänge sind allgemeiner Art und nicht notwendigerweise kausal bedingt. Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.B. den Artikeln eines Warenhauses. 4. Induktion von Regeln b Q` a ï \ X Y Qc Assoziationsregeln _a _c ì YQ 4. Induktion von Regeln Generieren von Assoziationsregeln Itemmenge, Transaktion und Datenbasis Definition 4.1. Die Dinge, deren Beziehungen zueinander analysiert werden sollen, werden als Items bezeichnet. Es sei eine endliche Menge von Items. Uc b L \ ]] V] Lb ^ Eine Transaktion Die Datenbasis ist eine Itemmenge. 199 Beispiel 4.11. Bei der Verkaufsdatenanalyse eines Supermarktes sind Items die Artikel aus dem Sortiment. Die Transaktionen entsprechen den Einkäufen von Kunden. Die Datenbasis besteht aus den Einkäufen der Kunden eines bestimmten Zeitraums. ist dann der Anteil der Einkäufe, Der Support der Itemmenge bei denen u.a. Milch gekauft wurde. ist Generieren von Assoziationsregeln ist eine Menge von Transaktionen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Definition 4.2. Es sei eine Itemmenge. Der Support von der Anteil aller Transaktionen aus , die enthalten: Support 198 Eine Teilmenge heißt Itemmenge. Eine -Itemmenge ist eine Itemmenge mit Elementen. Lernen von Entscheidungsbäumen Û b _ c be _ Hierbei ist die Entropie des Attributs . Es sei die Kardinalität der Beispielmenge, es gebe verschiedene Werte für Attribut und sei die relative Häufigkeit von Attributwert . _ Q 4. Induktion von Regeln Algorithmus 4.3. Der C4.5-Algorithmus ist eine Spezialisierung von Algorithmus 4.1, bei der die Relation “besser” für die Attributauswahl auf dem sogenannten normierten Informationsgewinn basiert. úç be Q YQ Y Qå Typischer Anwendungsbereich: Verkaufsdatenanalyse ` V Û Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 çéP Ûù 197 b O Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Û` ä Û Û Û U VL Y YQ eå _a be b`e X Y Qc b ]] U Z a YQ _ L\ ] Z Q úç b`e Q b be O YQ YQ _ _a ô õ ÷ö X Y Qc Q ` úç b`e O Q` Q` _ cî Q Uc Z úú ` _ åc Vb 4. Induktion von Regeln Assoziationsregel . gilt, d.h. , also Generieren von Assoziationsregeln Definition 4.3. Gegeben seien zwei disjunkte Itemmengen und . Eine Assoziationsregel hat die Form gdw. ist der Support der Itemmenge 200 Generieren von Assoziationsregeln Beispiel 4.12. 4. Induktion von Regeln Transaktion 1 2 3 4 5 6 Items Brot, Kaffee, Milch, Kuchen Kaffee, Milch, Kuchen Brot, Butter, Kaffee, Milch Milch, Kuchen Brot, Kuchen Brot Kaffee, Milch Kaffee, Kuchen, Milch Milch, Kaffee Milch, Kaffee Kuchen Kuchen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Generieren von Assoziationsregeln 202 Generieren von Assoziationsregeln Suche nach Assoziationsregeln Beide Maßzahlen sollten möglichst groß sein. sind dabei benutzerdefiniert. und haben. Finde alle Assoziationsregeln, die in der betrachteten Datenbasis – einen Support – eine Konfidenz und 203 Support und Konfidenz sind Parameter mit denen die Relevanz einer Regel beurteilt wird. 4. Induktion von Regeln Eine Transaktion erfüllt die Regel enthält alle Items der Assoziationsregel. Der Support von Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Konfidenz L . Die Konfi- Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Die Werte O ée Definition 4.4. Gegeben sei die Assoziationsregel denz von ist definiert durch Bemerkung 4.2. Die Konfidenz ist eine bedingte Häufigkeit bzw. bedingte Wahrscheinlichkeit. 201 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 " " " " c ] c c c ] ] c _ c _ c _ V V V ] c _ V Y U U Y Y Z úú U` be Û U` ` _ ` _ Z ! ! ` V e Y Z V ! _ Y eè Z be ebZ ée ú O ú $ ée ` O bè é Y #$ úú U` #$ ée O èb U èé úú úú beZ c c úú â Y é _å ée O èb $ ! eè Y U Z U Û úú Û ` ä` ` ä Û Y Û V V _ ` Y c Z _ åc Z úú ` úú ` L Das Problem wird in zwei Teilprobleme zerlegt: 4. Induktion von Regeln und mit Konfidenz Generieren von Assoziationsregeln alle Assoziationsregeln . Grober Ablauf des Apriori-Algorithmus: 4. Induktion von Regeln Generieren von Assoziationsregeln Der Apriori-Algorithmus bestimmt zunächst die einelementigen häufigen Itemmengen. In jedem weiteren Durchlauf werden die Obermengen mit Elementen von häufigen -Itemmengen darauf untersucht, ob sie ebenfalls häufig sind. Werden keine häufigen Algorithmus ab. 207 Generieren von Assoziationsregeln ☞ Voraussetzung: Itemmengen sind lexikographisch geordnet. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Algorithmus 4.4. [Apriori-Algorithmus] 206 -Itemmengen mehr gefunden, bricht der Die Obermengen der häufigen -Itemmengen werden mit dem Algoermittelt. rithmus d Finde alle Itemmengen, deren Support ist. Diese Itemmengen heißen häufige Itemmengen (frequent itemsets). Finde in jeder häufigen Itemmenge mit Generieren von Assoziationsregeln 204 Itemmen- Die wesentliche Schwierigkeit besteht in der Lösung des ersten Teilproblems. Enthält die Menge insgesamt Items, so sind prinzipiell gen auf ihren Support hin zu untersuchen. Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Apriori-Algorithmus häufige -Itemmengen , Der sogenannte Apriori-Algorithmus nutzt folgendes bei der Suche nach häufigen Itemmengen aus: Transaktionen + .$ - Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 gilt V ` \ ä _ £ Å mit Für zwei Itemmengen VÛ é Kandidaten + ) d + ` # Somit folgt: + * * , úú beZ Alle Teilmengen einer häufigen Itemmenge sind ebenfalls häufige Itemmengen. ü #$ Alle Obermengen einer nicht häufigen Itemmenge sind ebenfalls nicht häufig. 205 ü d É ) '% Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ) ^ °¯ Å°¯ ª Ü + \c ⣠Šå Uc é ä ÷ø &% ø &% e \ø ` Yø _÷ ÞZ úú ` Yø _\ ) ! ÅÀ å c ¢À É° ¯ Å°¯ ª Y ø ) ¡° L\ ø ÷ À¯ å c \ å Uc ª Z úú п ° ¾ª ª£ ©° å c å ª ¡ U c £ ª Å°À £ ü é ] ¢À é é d ä e`å Û é] c é é] e` é e ü` é Û ä Û d £ ebZ Å V úú ø ø be ø #$ ø ë ée O ø ( Generieren von Assoziationsregeln Support + Itemm. A,B A,C A,E B,C B,E C,E Itemm. B,C,E Support 25% 50% 25% 50% 75% 50% Support 50% Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Generieren von Assoziationsregeln Itemm. A,C B,C B,E C,E Itemm. B,C,E Support 50% 50% 75% 50% Support 50% 210 Generieren von Assoziationsregeln 211 – Innerer Knoten: Hashtabelle bezüglich Hashfunktion ; Buckets der Hashtabelle verweisen auf die Sohnknoten. – Blattknoten: enthält Liste von Itemmengen Struktur eines Hash-Baums: Um diese Tests effizient durchführen zu können, werden die Kandidatenmengen in einem Hash-Baum verwaltet. Im Apriori- und im AprioriGen-Algorithmus werden sehr häufig Teilmengen überprüft. Unterstützung der Teilmengenoperation 4. Induktion von Regeln ) ÷ 4. Induktion von Regeln Itemm. A,B A,C A,E B,C B,E C,E Support + Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Itemm. B,C,E î + + ÷ Algorithmus 4.5. [AprioriGen] 208 Support 50% 75% 75% 75% U U U U U U V V V V V V 4. Induktion von Regeln von * Generieren von Assoziationsregeln Itemm. A B C E 209 U mit -Teilmengen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Items ACD BCE ABCE BE Support 50% 75% 75% 25% 75% ©ª¿ 1 + Beispiel 4.13. Transaktion 1 2 3 4 Itemm. A B C D E / ÷ ¢£ 0 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 U U U U V V V V V U U U U U U V V V V V V V ) P + \ " c úú U * Å / UV UV UV UV UV î 1 é£ ¢£ é 0 Vè L úc Uú c Ü è £ Å L\ ]] ] Lè V÷ è L Z ) ) $ V + L÷ è \ ë UV + åc * * ! + + * beZ î U ) \ + / / Uc è \L ] ]] Lè V÷ è L UV UV UV UV + ¡° Å ¯¡ ÀÀ å c ¢ â Ûú úL Û cî ä ¡° ª Å ¡° ÀÀ £ ¯¡ ÅÀÀ ¢ åc Z ¢ äé î Wä Y £ U d è \ ©¿ _ Å ª \L ] ]] Lè ° ¾ª ª£ ©° ª £ : : Generieren von Assoziationsregeln auf 212 Generieren von Assoziationsregeln h(K) = K mod 3 0 1 2 {2,5,6} {2,5,7} {5,8,11} 4. Induktion von Regeln Suchen aller Itemmengen erfüllt werden: 0 1 2 Generieren von Assoziationsregeln , die von einer Transaktion {1,6,11} {7,9,12} {1,7,9} {1,4,11} {1,8,11} {7,8,9} 0 1 2 0 1 2 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 0 1 2 {3,5,7} {3,7,11} {3,5,11} t = {1, 3, 7, 9, 12} 4. Induktion von Regeln {3,6,7} {3,4,15} {3,4,8} {3,4,11} Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 {5,7,10} {2,4,7} 0 1 2 h(K) = K mod 3 0 1 2 {2,3,8} {2,4,6} {5,6,7} {2,7,9} 215 {5,8,11} {2,5,7} {2,5,6} Generieren von Assoziationsregeln 214 Blatt: Prüfung, welche der in dem Blatt enthaltenen Itemmengen die Transaktion erfüllen. Auf die so resultierenden Söhne wird das Verfahren in gleicher Weise fortgesetzt, bis ein Blatt erreicht wird. erreicht, dann wird bestimmt und in den resultieren- Innerer Knoten: Hat man den Knoten durch für jedes mit bestimmt. Wurzel: Für jedes wird den Söhnen wird weitergesucht. 4. Induktion von Regeln 0 1 2 {2,3,8} 0 1 2 {7,8,9} 0 1 2 {1,4,11} {5,6,7} U `c ` L\ ]] V L `] _ _ Suchen einer Itemmenge {7,9,12} {1,8,11} {2,4,7} {1,7,9} {2,4,6} {5,7,10} P P – Innerer Knoten auf Ebene : Anwendung der Hashfunktion {3,5,7} {1,6,11} 0 1 2 {3,5,11} {2,7,9} Y[a ` Y[a ` P P – Das Ergebnis von legt den Zweig fest, der weiter verfolgt wird. – Blatt: Suche in der Liste der Itemmengen Einfügen einer Itemmenge b Ý 4 V] Lb a` ä` 3 ` ` b L \ ]] – Zunächst erfolgt eine Suche für bis zu einem Blatt, in das die Itemmenge eingefügt werden soll. – Ist in dem Blatt Platz für eine weitere Itemmenge vorhanden, dann wird dort eingefügt. – Kann das Blatt keine Itemmenge mehr aufnehmen, dann wird es zu einem inneren Knoten und die Einträge werden gemäß auf neue Blätter verteilt. 4. Induktion von Regeln 0 1 2 Kapazität der Blätter = 3 {3,6,7} {3,4,15} {3,4,8} {3,7,11} {3,4,11} 213 _ Uc Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Y[` 3 Uc b L\ ]] V] Lb P P b 2 Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Generieren von Assoziationsregeln Bestimmung der Assoziationsregeln mit Nach der Bestimmung der häufigen Itemmengen müssen noch die Assoziationsregeln mit einer Konfidenz bestimmt werden. Diese werden aus den häufigen Itemmengen generiert. Gegeben seien Itemmengen . Dann gilt: für alle Generieren von Assoziationsregeln 216 Bei der Regelgenerierung nutzt man wiederum die Umkehrung aus. und schließt alle Man beginnt mit einer möglichst kleinen Menge aus, falls gilt: Obermengen von Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln 4. Induktion von Regeln Artikel Seife Shampoo Haarspülung Duschgel Zahnpasta Zahnbürste Haarfärbung Haargel Deodorant Parfüm Kosmetikartikel Warenkorbanalyse Beispiel 4.14. [Warenkorbanalyse] ID A B C D E F G H J K L x x x x x x x x x x x x x x x x x x x x x x x x Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln x x x x x x x x x x x x x x x x support 0.4 0.8 0.6 0.6 0.4 0.2 0.3 0.1 0.6 0.2 0.5 Generieren von Assoziationsregeln x x x x x x x 218 Generieren von Assoziationsregeln ) Wir setzen: + Man erzeugt aus einer häufigen Itemmenge zunächst alle Assoziationsregeln mit einelementiger Konklusion (rechter Seite). @ 219 L @ UL Tafel ✎. > werden ausgegeben. ` VL vor Teilmengencheck: nach Teilmengencheck: Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 ` \ = ` < ) L VV L ) ; ` ) UL Alle Regeln mit Konfidenz 217 L Sei die Menge der Konklusionen häufiger Itemmengen mit Elementen. Wir setzen . überprüft man nun, ob Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 L : L ` 8 @ 9 + VV UL L L ` @ > VV L + VL ) + L V ? UL L ? ` Oc ] VL @ L + VL ` @ ée ) UL ) > > UV UL V UL ) ` ÷ eb UV ù L L VL UU ) L > ` VL > V > L + VV L VL @ UL > > > @ % \ ] $ U L ? VL UL + VL @ c úú U + ? L UL + beZ U VL > L V $ + L + P > L > be Uà VL UL Für alle Konklusionen #$ gilt. Falls ja, dann wird die Regel ausgegeben, ansonsten wird aus entfernt. _\ UL $ 7 V â ée O P ? > VL O eb Yì _ b V 6 bè + ée ( #$ % \ 7 e O ée ú 7 _\ UL _ ée O _ % be ì ) be é \åc à ä 7 \ UU \ c #$ 7 + é P ÷ é VL ) c ) O bè UU ÷ c eè ì ëP + #$ _ Oe be ée O % Y be L #$ % _ ée ée > % O èb eè YY + ) e ì \ c $ \ 7 UU c + 5 7 ì UU ë _ ë % c O bè ée èé O bè YY eè ë é Y _ YY ée > > ) > ) + aus . Wir erfüllt nicht das 220 Konfidenz 0.75 1.00 0.83 1.00 0.80 1.00 1.00 0.80 1.00 0.80 Generieren von Assoziationsregeln Support 0.6 0.6 0.5 0.5 0.4 0.4 0.4 0.4 0.4 0.4 221 – – – – Zusammenfassung Generieren von Assoziationsregeln Aufbau einer Klassifikationshierarchie für eine Trainingsmenge top-down, rekursives Verfahren Wesentlich ist die Attributauswahl ID3-Algorithmus: Attributauswahl auf Basis der Entropie 5. Clusteranalyse Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 222 Vorbemerkungen 223 Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie sie charakterisiert werden könnten. In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. Bei der Generierung von Entscheidungsbäumen im vorigen Kapitel wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. 5 Clusteranalyse Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Wesentlich: Berechnung häufiger Itemmengen Apriori-Algorithmus zur Berechnung häufiger Itemmengen Unterstützung des Apriori-Algorithmus durch Hash-Trees Aus den häufigen Itemmengen werden unter Einsatz von AprioriGen die Assoziationsregeln generiert. Assoziationsregeln – – – – Entscheidungsbäume 4. Induktion von Regeln Generieren von Assoziationsregeln + ÷ ergeben sich die Regeln (Konfidenz in Klammern): und ergibt sich Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 4. Induktion von Regeln Regel > VV L U B V Haarspülung Shampoo Shampoo Shampoo Haarspülung Haarspülung Shampoo Haarspülung Shampoo Shampoo, Haarspülung Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 Shampoo Haarspülung Duschgel Kosmetik Kosmetik Shampoo, Deodorant Haarspülung, Deodorant Shampoo, Kosmetik Haarspülung, Kosmetik Kosmetik > UU \ c A ] + Aus , aber ergeben sich die Regeln: Konfidenzkriterium. Aus Mit B ì L d] A B + d] A + > > @ @ L + + ) ) L B ) ) 4. Induktion von Regeln + Für die Generierung der Assoziationsregeln beginnen wir mit erhalten: ? L B L > VV L d] A + U + > e > > > ] A B ] B L + L B bè ) L @ L Yì _U \ c ) > + b A VV > + L ] VL ) ì UU ÷ c A A ] L @ > > ú > + VL @ U + ì ÷c à U + 5. Clusteranalyse Eine Zerlegung einer Datenmenge Clusterstruktur ist definiert als eine Zerlegung von mit mengen für für in Vorbemerkungen in seine disjunkte Teil- 224 Vorbemerkungen sind genau dann eine gute Repräsentation der Cluster, falls Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse Die Cluster struktur von 0 alle Datensätze innerhalb der Cluster einen geringen Abstand und . Metrik . Anzahl verschiedener Attributwerte: und : . falls sonst Vorbemerkungen mit 227 Vorbemerkungen 226 D 5. Clusteranalyse für alle genau dann, wenn für alle für alle heißt metrischer Raum. . Definition 5.1. Es sei eine Menge. Eine Funktion heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. 2. 3. 4. Das Tupel Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse euklidische Norm: Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): YK a ML a D alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Für Mengen Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 0 C å GF \ a Ma (C Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. kleiner Abstand bedeutet ähnliche Objekte und aKc ÷ Û Û d ! H Û î Û ! großer Abstand bedeutet unähnliche Objekte. M ML N ä 0 \Y î aK M _a Û _c YK L _M c E _c Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. 225 Kc LK a Û L ? Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 K ML ä _ LN F î _ ä ML # K L _K _ 4 YM YK L _M c YK a ML a L YM Lbc Ü L ? ] YK L _M ] ! YK L _M c Y â Uc K L \ ]] VL ] ^K ]] ! bc L d]] ] L d]] ? â Ü c ? \ Lbc 4 ? c ac 3 ? L ? a YK L _M c L ? a YK LN _ Þ ] L\ ]] YK L _M ü Y 5. Clusteranalyse SAHN-Clustering 5. Clusteranalyse + – Minimalabstand (Single Linkage): – Maximalabstand (Complete Linkage): – mittlerer Abstand (Average Linkage): SAHN-Clustering SAHN-Clustering 230 In dem Algorithmus wird ein Abstandsmaß für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.Typischerweise benutzt man: + 3 _ La Schritt 3 bedeutet: Die einzelnen Cluster werden aus der Clusterstruktur entfernt und ein neues Cluster mit den Datensätzen aus vereinigt mit den Datensätzen aus wird in die Clusterstruktur eingefügt. legt fest, bis zu welchem Abstand Cluster ver- Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse Hierarchische agglomerative Verfahren Hierarchische Clusteranalyseverfahren liefern einen Hierarchie von Clustern. Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. P P Y Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 231 Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. 3 + La Agglomerative Verfahren bauen dabei die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge als Cluster. + YK L _M YK L _M R + 3 228 + P ST Q ï ñ d + Û P K YK L _M R J P ñ ñ Q + _c 3 + _c 3 La + Y Q Der Parameter schmolzen werden. R Q ñ P JKL ñ _c 3 La + Y + Y La Û Ûa 3 ñ + SAHN-Clustering 229 $ Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup die Hierarchie. . a Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 und 5. Clusteranalyse mit Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) und gehe zu 4. und _ + e + N + L 1. Setze Falls 2. Bestimme 3. und . gehe zu 4. Sonst weiter mit 2. 4. Ausgabe von Falls \ I Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 N d N Y O M e JKL åc î + La + _ M åc _c 3 + Y 3 K + Y a ! 3 I + U L ]]] VV L ^K + _ 3 3 V La Q ! \K Ý a + _ + $ + V å UU c La + ë Y I UY c d åc I g g a b c d 233 5. Clusteranalyse U ] $ ` Q K . c-Means Algorithmus 5.2. Gegeben Datenmenge , eine gewünschte Clusteranzahl , eine maximale Anzahl von Iterationen . U 3. . Falls Berechne die Zentren neu. gehe zu 4. von 4. Ausgabe der Clusterstruktur und der Zentren + Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 U L + L ] K aK Q ] U $ L \ ]] L\ ]] ` . 234 2. Ordne die Datensätze gemäß der Nächste-Nachbar-Regel den Zentren zu. So entstehen neue Cluster . 1. Initialisiere Prototypen L \ ]] L a `c SAHN-Clustering 232 c-Means Clustern kann gehört zu Clu- charakterisiert werden. d Dendogramm f U _ YK L P ü` 5. Clusteranalyse f V ñ + `å c Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. b e e VV W Q d Ûa ï Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 U + Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man variiert. a c d Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02 5. Clusteranalyse \ 3 JKL 3 aK a U c-Means Verfahren U ac U K Cluster können auch durch ihre Zentren a Q Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: K + a $ Die Zuordnung der einzelnen Datensätze zu den dann mit der Nächste-Nachbar-Regel erfolgen, d.h. ster genau dann, wenn gilt: YK L _a c Û K