Seminar im Sommersemester 2005 „DATA WAREHOUSING“ Data Mining Christian Knappe Fachrichtung Wirtschaftsinformatik Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken und Informationssysteme Lehrstuhlinhaber Prof. Dr. Klaus Küspert Betreuung Dipl. –Inf. Thomas Müller Inhalt III. IV. V. VI. 1. 2. 1. 2. 3. 4. 1. 2. 3. 4. Einführung und Motivation Daten und Technik Was ist Data Mining? Data Mining im Überblick DM und Data Warehousing DM vs. OLAP Was leistet DM? Anwendungsgebiete Prozessmodelle im DM KDD als Ausgangspunkt? DM - Teil des Ganzen CRISP-DM als moderne Referenz Weitere Vorgehensweisen Anwendungsübergreifend dank PMML [email protected] // 2005 Montag, 13. Juni 2005 I. Einführung und Motivation 1. Daten und Technik - Hohes Datenaufkommen • Daten werden in riesigen Datenbanken gesammelt • Manuelle Auswertung kaum noch möglich [http://www.dbs.informatik.uni-muenchen.de/Lehre/KDD/index.html] [email protected] // 2005 Montag, 13. Juni 2005 I. Einführung und Motivation 1. Daten und Technik - Leistungsfähige Hardware • steigende Geschwindigkeit • steigende Kapazität • relativ kostengünstig [Grafik und mehr: Hans Moravec http://www.frc.ri.cmu.edu/users/hpm/] [email protected] // 2005 Montag, 13. Juni 2005 I. Einführung und Motivation 1. Daten und Technik - Komplexe Strukturen „Von Matt Loney ZDNet 31. Januar 2005, 09:37 Uhr Urs Hölzle, Google VP of Engineering Die Zahlen an sich sind schon überwältigend: - Über vier Milliarden Webseiten, jede mit durchschnittlich 10 KByte, alle komplett indiziert - Bis zu 2000 Rechner in einem Cluster - Über 30 Cluster - Ein Petabyte Daten pro Cluster -Oberfläche in 104 Sprachen, unter anderem in Klingonisch und Tagalogisch - Kontinuierlicher Durchsatz von 2 Gbit/s in einem Cluster - Die Erwartung, dass pro Tag in jedem der größeren Cluster zwei Rechner ausfallen (…)“ [email protected] // 2005 Montag, 13. Juni 2005 I. Einführung und Motivation 1) Was ist Data Mining? - 2 Sichtweisen [HaKa2000] • DM als Teil eines Gesamtprozesses (KDD) - Relativ „begrenzte“ Sicht auf DM - Meist technisch • DM als Gesamtprozess (moderne Definition) - DM synonym für KDD - CRISP-DM als Beispiel - DM als Synergie aus Verfahren, Methoden und Vorgehensweise [email protected] // 2005 Montag, 13. Juni 2005 I. Einführung und Motivation 1) Was ist Data Mining? - Definitionsansätze „Data mining is a problemsolving methodology that finds a logical or mathematical description, eventually of a complex nature, of patterns and regularities in a set of data.“[DeFo95] „Data mining is a multidisciplinary field, drawing work from areas including database technology, articial intelligence, machine learning, neural networks, statistics, pattern recognition, knowledge based systems, knowledge acquisition, information retrieval, high performance computing, and data visualization.“[HaKa2000] [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick 1. DM und Data Warehousing - Datengrundlage aus Data Warehouse [TCC] • Unt. Datenquellen werden im Data Warehouse integriert • Teile des DW (logisch oder physisch) werden für das Data Mining genutzt [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick 1. DM und Data Warehousing - Data Mining auch ohne Data Warehouse [TCC] • DW ist nicht zwangsläufig Voraussetzung für DM • Unt. Datenquellen können auch direkt in einen Data Mart überführt werden Fazit: • Wahl je nach Anwendungsproblem und -umgebung • Aufwand – Nutzen Fragestellung [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick 1) DM vs. OLAP - induktiv vs. deduktiv [TCC] OLAP Data Mining • Ausgehend von Hypothese • Daten werden genutzt um Hypothesen aufzustellen • Verifizierung der Hypothese durch Anfragen auf den Daten • Problematisch bei vielen Variablen • Findet evtl. Ansätze die Analyst nicht bedacht hätte Fazit • Beide Vorgehensweisen können sich ergänzen • DM findet Hypothesen – per OLAP können diese verifiziert werden [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick 1. Was leistet DM? - Most Common Data Mining Tasks 1 [Larose2005] • Description (Beschreibung) - Beschreibung von Mustern und Trends in Daten - Transparenz der Muster (Einfachheit) - Intuitive Interpretation und Erklärung möglich • Classification (Klassifikation) - Nominale Zielvariable (Kategorie) - Neues Objekt wird entsprechend klassifiziert (einer Kategorie zugeordnet) - Klassifikationsregel wird auf Trainingsdaten erlernt • Estimation (Schätzungen) - Ähnlich Classification, jedoch ist Zielvariable numerisch - „Punktschätzungen, Intervallschätzungen, lineare Regression, multiple Regression“ [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick 1. Was leistet DM? - Most Common Data Mining Tasks 2 [Larose2005] • Prediction (Vorhersage) - Spezielle Ausprägung von Classification und Estimation - Ergebnisse liegen in der Zukunft • Clustering (Gruppenbildung) - Gruppierung der Daten - Innerhalb der Gruppen kleinstmögliche Differenz - Zwischen den Gruppen größtmögliche Differenz (Abstand) • Association (Verbindung/Kontakt/Zusammenarbeit) - Aufdecken von Beziehungen zwischen Attributen - Welche Attribute „hängen zusammen“ [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick (i) Anwendungsgebiete [DF95] - Chemie und Pharmazie • Entwicklungsprozess ist stark auf Suche ausgerichtet • Feldforschung - Im Einzelhandel • Marktsegmentierungen • Kundenanalysen • Marketingaktionen [email protected] // 2005 Montag, 13. Juni 2005 1) Data Mining im Überblick (i) Anwendungsgebiete [DF95] - Finanzwesen • Kundenmanagement • Vorhersage von Finanzentwicklungen -„Remotely sensed Data“ (Messtechnik) • Größter Datenumfang • Mustererkennung - Und weitere? [email protected] // 2005 Montag, 13. Juni 2005 1. Prozessmodelle im DM 1. KDD als Ausgangspunkt - Knowledge Discovery in (large) Databases [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, welches - gültig (im statistischen Sinn), - bisher unbekannt (nicht explizit, kein „Allgemeinwissen“) und - potentiell nützlich ist. (für eine gegebene Anwendung) [email protected] // 2005 Montag, 13. Juni 2005 1. Prozessmodelle im DM 1) DM als Teil des Ganzen Fokussieren: Transformation: Evaluation: • Beschaffung der Daten • Ableitung neuer Merkmale • Verwaltung der Daten • Selektion relevanter Merkmale • Bewertung der Interessantheit durch den Nutzer • Selektion relevanter Daten • Statistische Prüfung der Modelle Vorverarbeitung: Data Mining: • Datenintegration • Suche nach Mustern bzw. • Konsistenzprüfung [email protected] // 2005 Modellen (techn. Def.) Montag, 13. Juni 2005 1. Prozessmodelle im DM 1. CRISP-DM als moderne Referenz - Ein einheitlicher Standard • CRoss- Industrie Standart Process for Data Mining • Seit 1997 Konsortium aus Data Mining Anbietern und Nutzern - DaimlerChrysler AG, Germany - OHRA Verzekering en Bankk Groep B.V., Netherlands - NCR Systems Engineering Copenhagen , Denmark - SPSS Inc. seit 1998 über Integral Solutions Limited, UK - Europäische Union im Rahmen des ESPRIT-Programms [email protected] // 2005 Montag, 13. Juni 2005 1. Prozessmodelle im DM 1. CRISP-DM als moderne Referenz • Data Mining Lebenszyklus • Phasenorientiert • Iteratives Vorgehen möglich • Zielorientiert [http://www.crisp-dm.org/index.htm] [email protected] // 2005 Montag, 13. Juni 2005 1. Prozessmodelle im DM (i) Weitere Vorgehensweisen SPSS bedient sich der „5 A‘s“ SAS benutzt „SEMMA“ • Assess • Access • Analyze • Act • Automate • Sample • Explore • Modify • Model • Assess [email protected] // 2005 Montag, 13. Juni 2005 (i) Anwendungsübergreifend dank PMML - Predictive Modelling Markup Language • Modellbeschreibungssprache (Definition eines Modells) • Bietet einheitlichen Standard • Einfache Weitergabe und Nutzbarkeit der Modelle • XML- Basiert [http://www.dmg.org/index.html] [email protected] // 2005 Montag, 13. Juni 2005 Literatur [1] Daniel T. Larose „Discovering Knowledge in Data, An Intoduction in Data Mining“ Verlag Wiley 2005 [2] J. Han, M. Kamber „Data Mining: Concepts and Techniques “ Verlag Morgan Kaufmann Publishers 2000 [3] Two Crows Cooperation „Introduction to Data Mining and Knowledge Discovery“ Third Edition 1999 [4] K. M. Decker, S. Focardi „Technology Overview: A report on Data Mining “ CSCS-ETH 1995 [email protected] // 2005 Montag, 13. Juni 2005