DATABASE SYSTEMS GROUP Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript p zur Vorlesung g Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel 1: Einleitung Vorlesung+Übungen: PD Dr. Peer Kröger, Dr. Arthur Zimek Skript © 2003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, Eshref Januzaj, Karin Kailing, Peer Kröger, Jörg Sander, Matthias Schubert, Arthur Zimek http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I) Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 1 Organisatorisches • Aktuelles – – Vorlesung: Donnerstag, 9.30-12.00 Uhr (Raum 002 Schellingstr.) Übung: Freitag, 12 12-14 14 Uhr (Raum M 001 Hauptgebäude) Freitag, 14-16 Uhr (Raum M 001 Hauptgebäude) • Anmeldung für fü die i Klausur auff der Homepage unter http://www.dbs.ifi.lmu.de/cms/Knowledge_Discovery_in_Databases_I_(KDD_I) • Klausur: Der Stoff der Klausur wird in der Vorlesung und in den Übungen besprochen. besprochen (Das Skript ist lediglich eine Lernhilfe) Knowledge Discovery in Databases I: Einführung 2 DATABASE SYSTEMS GROUP Motivation Digitalkameras g Kreditkarten Scanner-Kassen Scanner Kassen Astronomie Telefongesellschaft WWW • Riesige Datenmengen werden in Datenbanken gesammelt • Analysen können nicht mehr manuell durchgeführt werden Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 3 Von den Daten zum Wissen Daten Methode Wissen Verbindungsd. Rechnungserst Rechnungserst. Outlier Detection Betrug Transaktionen Abrechnung Klassifikation Kreditwürdigkeit Transaktionen L Lagerhaltung h lt Assoziationsregeln g Gemeinsam gekaufte k ft Produkte P d kt Bilddaten Kataloge Klassifikation Klasse eines Sterns Knowledge Discovery in Databases I: Einführung 4 DATABASE SYSTEMS GROUP Definition KDD [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das • gültig • bisher unbekannt • und potentiell nützlich ist. Bemerkungen: • (semi-) ( i ) automatisch: i h im i Unterschied U t hi d zu manueller ll Analyse. A l Häufig ist trotzdem Interaktion mit dem Benutzer nötig. • gültig: ülti im i statistischen t ti ti h Sinn. Si • bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“. • potentiell nützlich: für eine gegebene Anwendung Anwendung. Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 5 Teilbereiche KDD Statistik modellbasierte Inferenzen Schwerpunkt auf numerischen Daten [Berthold & Hand 1999] Machine Learning Such-/Optimierungsverfahren Schwerpunkt auf symbolischen Daten [Mitchell 1997] KDD Datenbanksysteme Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays, ...) Integration mit kommerziellen Datenbanksystemen [[Chen,, Han & Yu 1996]] Knowledge Discovery in Databases I: Einführung 6 DATABASE SYSTEMS GROUP Das KDD-Prozessmodell Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth Fokussieren Vorverarbeitung Transformation • Bewertu B ung der Interesssanthheit durch den B Benutzeer •V Validierrung: Staatistischhe Prüfungg der Moodelle P Wissen Evvaluatiion • Generie G erung deer Musteer bbzw. Moodelle Data Miining • Diskreti D isierungg numeriisscher M Merkmalee •A Ableitunng neueer Merkm male •S Selektioon relevaanter M Merkm. Trransforrmationn • Integrat I tion vonn Daten aaus uunterschhiedlichhen Quelllen •V Vervollsständiguung •K Konsistenzprüffung Vorverarrbeitunng: Vo •B Beschafffung deer Datenn •V Verwalttung (Fille/DB) •S Selektioon relevaanter Daaten Evaluation Muster D t b k Datenbank Fookussieeren: Data Mining Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 7 Data Mining Aufgaben Die wichtigsten Data-Mining-Techniken: Supervised: z.B. Klassifikation, Regression, Outlier Detection Ein Ergebnis Ergebnis-Merkmal Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden. Das Vorwissen steht typischerweise als Trainingsdaten bereit. Unsupervised: z.B. z B Clustering, Clustering Outlier Detection, Detection Assoziationsregeln Die Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden. Die Gruppen haben je nach Aufgabe unterschiedliche Charakteristika. Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber hinaus gibt es zahlreiche Verfahren, Verfahren die nicht auf Merkmalsvektoren Merkmalsvektoren, sondern z.B. auf Texten, Mengen, Graphen arbeiten. Knowledge Discovery in Databases I: Einführung 8 Clustering Höhe [cm H m] DATABASE SYSTEMS GROUP Cluster 2: Nägel Cluster 1: Klammern Breite [cm] Clustering Cl t i heißt: h ißt Zerlegung Z l einer i Menge M von Objekten Obj kt (bzw. (b FeatureF t Vektoren) in Teilmengen (Cluster) ähnlicher Objekte Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen Knowledge Discovery in Databases I: Einführung Anwendung: Thematische Karten Aufnahme der Erdoberfläche in 5 verschiedenen Spektren Wert in Band d2 DATABASE SYSTEMS GROUP 9 Pixel (x1,y1) Pixel (x2,y2) Wert in Band 1 Wert iin Band d2 Cluster-Analyse Rücktransformation in xy-Koordinaten Farbcodierung F b di nachh Cluster-Zugehörigkeit W t in Wert i Band B d1 Knowledge Discovery in Databases I: Einführung 10 DATABASE SYSTEMS GROUP Outlier Detection Datenfehler? Betrug? Outlier O tli Detection D t ti bedeutet: b d t t Ermittlung von untypischen Daten Idee: Outlier könnten hindeuten auf • Missbrauch etwa bei • Kreditkarten • Telekommunikation • Datenfehler Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 11 Anwendung • Analyse der SAT SAT.1 1-Ran-Fußball-Datenbank Ran Fußball Datenbank (Saison 1998/99) – 375 Spieler – Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart, Abwehr, Mittelfeld, Sturm), – Abgeleitetes Attribut: Tore pro Spiel – Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel) • Ergebnis: g Top p 5 Outliers Rang Name Einsätze Tore Position 1 Michael Preetz 34 23 Sturm 2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten Toren 3 Hans-Jörg Butt 34 7 Torwart Torwart mit den meisten Toren 4 Ulf Kirsten 31 19 Sturm 2. Torschützenkönig 5 Giovanne Elber 21 13 Sturm Hohe Tore-pro-Spiel Quote Knowledge Discovery in Databases I: Einführung Erklärung Torschützenkönig 12 DATABASE SYSTEMS GROUP Klassifikation Schrauben Nägel Kl Klammern Trainingsdaten Neue Objekte j Aufgabe: Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren D E Das Ergebnismerkmal b i k l (Klassenvariable) (Kl i bl ) ist i nominal i l (kategorisch) (k h) Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 13 Anwendung: Neugeborenen-Screening Blutprobe p des Neugeborenen Massenspektrometrie p Metabolitenspektrum p 14 analysierte Aminosäuren: alanine arginine argininosuccinate citrulline glutamate glycine methionine phenylalanine pyroglutamate serine tyrosine valine leucine+isoleucine ornitine Knowledge Discovery in Databases I: Einführung Datenbank 14 DATABASE SYSTEMS GROUP Anwendung: Neugeborenen-Screening E b i Ergebnis: • Neuer diagnostischer Test • Glutamin als bisher unbekannter Marker Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 15 Anwendung: Gewebeklassifikation CBV • • • • • Schwarz: Blau: Grün: Rot: Dunkelrot: Ventrikel + Hintergrund Gewebe 1 Gewebe 2 Gewebe 3 Große Gefäße Blau TTP RVRV Grün Rot 18.5 16.5 TTP (s) 20.5 CBV (ml/100g) 3.0 3.1 3.6 CBF 18 (ml/100g/min) 21 28 RV 23 21 30 Ergebnis: g s Klassifikation a a o cerebralen b a Gewebes b anhand a a d funktioneller Parameter mittels dynamic CT möglich. Knowledge Discovery in Databases I: Einführung 16 DATABASE SYSTEMS GROUP Regression 0 Grad der Erkrankung 5 Neue Objekte Aufgabe: A f b Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt b bzw. geschätzt hät t werden d soll, ll ist i t metrisch ti h Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 17 Anwendung: Precision Farming Ertrag Bodenparameter Wetter Düngemittel g … 2D Ertragskurve Wasserkapazität Düngemittel • Erstellen einer Ertragskurve, die von mehreren Parametern wie Bodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt. • Erst eine geeignete Anpassung der Düngemittelausbringung kann eine ertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken. • Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig. Knowledge Discovery in Databases I: Einführung 18 DATABASE SYSTEMS GROUP Assoziationsregeln aa,b,c,d,e b,c,d e b,c,d a,b,c,d a,b,c,d,e a,c,e,f dcef d,c,e,f a,b,c,d,f In 5 von 7 (ca. 71 %) der Fälle kommt b,c,d zusammen vor. In 5 von 5 Fällen (100 %) gilt: Wenn b,c in der Menge, dann ist auch d in der Menge Menge. Aufgabe: Finde alle Regeln in einer Datenbank von diskreten Mengen der folgenden Art: Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer W h h i li hk i vom >X Wahrscheinlichkeit X % iin der d Menge M enthalten. h l Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 19 Anwendung: Warenkorbanalyse evtl. Verallgemeinerung: • Paprika-Chips ik hi Knabbereien bb i • Anreichern mit Kundendaten Data Warehouse Ergebnis: Warenkorb = Menge der gleichzeitig bezahlten Waren Assoziationsregeln • Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinander positioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft => Positioniere Bier auf dem Weg von Windeln zur Kasse • Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe: Kunden die „Krieg der Sterne“ I-VI gekauft haben, sind vielleicht auch an „Herr der Ringe“ I-III interessiert. Knowledge Discovery in Databases I: Einführung 20 Überblick über die Vorlesung (Momentaner Stand der DATABASE SYSTEMS GROUP g Planung) 1. Einleitung 6. Outlier Detection 2. Merkmalsräume 7. Assoziationsregeln 3. Klassifikation 8 Data Warehousing 8. und Generalisierung 4 Regression 4. 5. Clustering g 9. High-Performance Data Mining 10 Ausblick 10. Knowledge Discovery in Databases I: Einführung DATABASE SYSTEMS GROUP 21 Literatur Lehrbuch zur Vorlesung (deutsch): Ester M M., Sander JJ. Knowledge Discovery in Databases: Techniken und Anwendungen Springer Verlag, September 2000 Weitere Bücher (englisch): Han J., Kamber M. Data Mining: Concepts and Techniques Morgan Kaufmann Publishers, March 2006 Tan P.-N., Steinbach M., Kumar V. Introduction to Data Mining Addison-Wesley, 2006 Mitchell T. M. Machine Learning McGraw-Hill, 1997 Witten II. H H., Frank E. E Data Mining: Practical Machine Learning Tools and Techniques 2. Auflage. Morgan Kaufmann Publishers, 2005 Knowledge Discovery in Databases I: Einführung 22