Einführung Data Mining P k i h Anwendungen Praktische A d für fü automatisierte i i und d lernende Informationsverarbeitung Wolfgang Konen, FH Köln November 2009 Seite - 1 informatiK K Köln K öln W. Konen – DMC – WS2009 Data Mining (DM): Entdecken von Wissen in Datenbanken W. Konen – DMC – WS2009 Wissen Seite - 2 informatiK K Köln K öln Daten Unternehmen und Institutionen sammeln ungeheure Datenmengen Data Mining: Identifikation von wettbewerbsrelevantem Wissen aus grossen Datenbanken Automatische Erkennung von Mustern ¾ nicht-trivial c tt a ¾ bisher unbekannt ¾ potentiell nützlich [Fayyad, 1996] Analysebeispiel: Mobiltelefonie Ein Problem ... ¾ Sie sind Marketingmanager im Mobilfunk • • • • Problem: zu viele Abgänge bei Vertragsende: 40% Neukunden erhalten kostenlos ein Telefon Ih Unternehmen Ihr U t h zahlt hlt 250 EUR P Provision i i pro Ab Abschluss hl Jedem Kunden bei Vertragsende eine neues Telefon zu geben ist zu teuer Eine Lösung ... ©Plambeck/ PIXELIO ¾ Drei Monate vor Vertragsende vorhersagen, welche K d nicht Kunden i ht verlängern lä • Den Kunden, die man behalten will, bietet man ein neues Telefon an Wie kann man künfiges Verhalten vorhersagen? ¾ Kartenlegen? ¾ Würfeln? ¾ Data Mining? Seite - 3 informatiK K Köln K öln W. Konen – DMC – WS2009 Beispiel aus der Automobilindustrie Daten über 7 - 10 Jahre Historie für 7 Mio. Fahrzeuge g ¾ Fahrzeugdaten (Produktionsdaten; Daten über Motor, Getriebe, ...) ¾ Beanstandungen (Schadensteil, (Schadensteil Schadensart Schadensart, ...)) ¾ Werkstattaufenthalte Frage: Wie kann man das Auto zuverlässiger machen? Mustererkennung: Suche in Datenbank nach möglichen Gründen für Ausfälle Umsetzung des Wissens: ¾ Änderung in Konstruktion ¾ Wechsel des Zulieferers ¾ Kundendienst: vorbeugende Wartung ¾ usw. usw © Glathe / PIXELIO Seite - 4 informatiK K Köln K öln W. Konen – DMC – WS2009 Beispiel Umweltanwendung: Data Mining für ökologische Standortbewertung Pflanzen „„Wo o wächst äc st was?“ as – relevant e e a t für ü Umweltverträglichkeitsprüfung bisher: aufwendig g manuell erstellte Ökodiagramme multifaktorielle Daten: ¾ Wasser, Säuregehalt, Nährstoffe, Lichtintensität,... mit i D Data Mi Mining i kö können vergleichbare Ergebnisse umfassender schneller umfassender, (aktueller) und kostensparender erzielt werden [Kirsten,Wrobel,Dahmen,Dahmen, 1996] Seite - 5 informatiK K Köln K öln W. Konen – DMC – WS2009 Beispiel Wassermanagement Vorhersage Füllstand RÜB (Regenüberlaufbecken) Modellbildung für Forecast, Output abhängig von ¾ Regenmenge ¾ Bodenzustand & Grundwasser (hidden states) [Konen, Zimmer, Bartz-Beielstein, 2009] Seite - 6 informatiK K Köln K öln W. Konen – DMC – WS2009 Weitere Anwendungsbeispiele Betrugserkennung ¾ B Beispiel: i i l E Erkennung k ttypische i h M Muster t zur Id Identifikation tifik ti von Kreditkartenbetrug. Kreditbeurteilung ¾ Identifikation von Kriterien für Kreditwürdigkeit von Kunden Nachfrageprognose ¾ Wieviele Einheiten von Produkt X setzen wir in der KW42 ab? ⇒Computerwoche 03/2007: „Zweiter Frühling Data Mining“ Mining http://www.computerwoche.de/produkte_technik/business_intelligence/590688 Seite - 7 informatiK K Köln K öln W. Konen – DMC – WS2009 Der CRISPCRISP-DM Standard CRISP-DM: Cross-Industry Standard Process for Data Mining Entwickelt im Rahmen eines EU-Projekts von 1996-99 ¾ Partner: DaimlerChrysler (Deutschland) NCR Systems Copenhagen (USA, (USA Dänemark) OHRA Bank Groep B.V. (Niederlande) SPSS Inc. (USA) ¾ Gründung Gü d einer i S Special i l IInterest t tG Group Der CRISP-DM 1.0 Report beschreibt ¾ die CRISP-DM Methodology gy ¾ das CRISP-DM Referenzmodell ¾ den CRISP-DM User Guide ¾ den d jjeweiligen ili R Resultate/Reports lt t /R t d der einzelnen i l Ph Phasen Für Informationen zu CRISP-DM siehe http://www.crisp-dm.org Seite - 8 informatiK K Köln K öln W. Konen – DMC – WS2009 Das CRISPCRISP-DM Referenzmodell Business understanding Data understanding Data preparation Data Deployment p y Modelling Evaluation Seite - 9 informatiK K Köln K öln W. Konen – DMC – WS2009 Die 6 Schritte des KDDKDD-Prozesses Business Understanding Data Understandi ng Data Prepap ration Model ling Eval u uation Deployp y ment Wichtig: Jeder Schritt ist zu dokumentieren! Seite - 10 informatiK K Köln K öln W. Konen – DMC – WS2009 1. Schritt: Geschäftsmodell verstehen Determine Business Objectives Assess Situation Determine Data Mining Goals Produce Project Plan W. Konen – DMC – WS2009 Data Preparation Mod M d eling Eva luatio n Deplo p yme nt Geschäftsmodell / -ziele verstehen (z.B. Abwanderung von Kunden verhindern) Ressourcen, Zeit, Risiken, Chancen Genaue Spezifikation der Ziele (z.B. 70% der Abwanderer erkennen bei 20% Fehlalarmen) Projektplan mit Meilensteinen Seite - 11 informatiK K Köln K öln Business Understanding Data U d Understandi ng 2. Schritt: Daten verstehen Collect Initial Data Describe Data Explore Data Verify Data Quality W. Konen – DMC – WS2009 Data Preparation Mod M d eling Eva luatio n Deplo p yme nt Wo kommen die Daten her? Wie? Joins üb mehrere über h DB DBs notwendig? t di ? Metadaten (Anzahl Attribute, Werte, Format,Typen, , yp , Mengen) g ) Beispiele anschauen, Visualisierung (z.B. Verteilungen, Korrelationen) D t Datenqualität lität b bestimmen, ti F Fehler hl erkennen, Vollständigkeit Seite - 12 informatiK K Köln K öln Business Understanding Data U d Understandi ng 3. Schritt: Daten aufbereiten Select Data Clean Data Construct Data Integrate Data Format & TransformData W. Konen – DMC – WS2009 Data Preparation Mod M d eling Eva luatio n Deplo p yme nt Auswahl der (wichtigen) Variablen, ggf. S Sampling li der d Records R d Ausreisser erkennen, fehlende Werte behandeln Abgeleitete Variablen (z.B. Summe oder logische Verknüpfungen) D t aus verschiedenen Daten hi d T Tabellen b ll zusammenführen Formatierung g ((z.B. Datum), ), Transformation (z.B. normierte Verteilung oder PCA) Seite - 13 informatiK K Köln K öln Business Understanding Data U d Understandi ng 4. Schritt: Modellierung Select Modeling Technique Generate Test Design Build Model Assess Model W. Konen – DMC – WS2009 Data Preparation Mod M d eling Eva luatio n Deplo p yme nt Auswahl der Methode, ggf. mehrfach Wie messen wir Modellgüte? Aufteilung g der Daten in Trainings-, g Test- und Validierungsmenge Modell bauen, Parameter einstellen und begründen Technische Bewertung der Modellgüte, ggf. mit anderen Parametern wdh. Seite - 14 informatiK K Köln K öln Business Understanding Data U d Understandi ng 5. Schritt: Evaluation Evaluate Results Review Process D t Determine i N Nextt St Steps W. Konen – DMC – WS2009 Data Preparation Mod M d eling Evall E uation Deplo p yme nt Bewertung aller Resultate in Bezug auf betriebswirtschaftliche Ziele Begutachtung aller Schritte. Wurden nur Daten verwendet verwendet, die auch in Zukunft verfügbar sind? Was wurde übersehen? Wi geht Wie ht es weiter? it ? Seite - 15 informatiK K Köln K öln Business Understanding Data U d Understandi ng 6. Schritt: Einsatz Data U d Understandi ng Plan Deployment Plan Monitoring and Maintenance Produce Final Report Review Project W. Konen – DMC – WS2009 Data Preparation Mod M d eling Evall E uation Deployment Implementierungsstrategie, Einsatz DM in P i ggf. Praxis, f Mitarbeiterschulung Mit b it h l Überwachung der Gültigkeit der Modelle, Strategie g für Überarbeitungen g Zusammenfassender Bericht / Präsentation B Begutachtung t ht des d G Gesamtprojektes. t j kt Lessons Learned (f. weitere Projekte): Was lief schief? Was lief gut? Seite - 16 informatiK K Köln K öln Business Understanding Data Mining ist eine Phase im Prozess der Wissensentdeckung g aus Datenbanken Evaluierung / Deployment Wissen Data Mining Prozesse & Daten verstehen Vorverar beitung Transformation / Selektion Muster --- --- ----- --- ----- --- --- Task-Relevante Daten Vorverarbeitete Daten Zieldaten Daten Seite - 17 informatiK K Köln K öln W. Konen – DMC – WS2009 Prozeßschritte der Wissensentdeckung Prozesse und Daten verstehen ¾ Geschäftsprozesse p mit den Anwendern besprechen p ¾ Fokussierung, Auswahl relevanter Daten Vorverarbeitung g / Transformation ¾ Bereinigung der Daten, z.B. was tun mit leeren Feldern, ¾ Verdichtung der Daten durch Datenreduktion und -projektion ¾ Datenformat vereinheitlichen Data Mining ¾ Auswahl von Techniken und Methoden ¾ evtl. viele Testläufe mit verschiedenen Parametern Evaluierung ¾ Beurteilung der Ergebnisse bzgl. festgelegter Kriterien ¾ Dokumentation, Visualisierung der Ergebnisse Deployment ¾ Überführung in die Anwendung Seite - 18 informatiK K Köln K öln W. Konen – DMC – WS2009 Warum Data Mining? Vereinfachung e e ac u g u und d Automatisierung uto at s e u g stat statistischer st sc e Prozesse ¾ Datenanalyse ¾ Anwendung der Modelle Bessere, verständlichere Modelle Data Mining bringt viele Verfahren und Werkzeuge Data Mining bringt erprobte statistische Verfahren ins Spiel (wo vorher evtl. noch wenig Statistik vorkam) ¾ Data Mining Verfahren basieren auf statistischen V f h Verfahren Seite - 19 informatiK K Köln K öln W. Konen – DMC – WS2009 Welche Formen von Daten kann Data Mining analysieren? strukturierte Daten (Data Warehouses, DWH) ¾ z.B. Zeit-/Messreihen, Kundendaten Multimedia-Daten M lti di D t (Bild, (Bild T Ton)) Geografische G fi h Daten D t (GIS (GIS, Spatial S ti l Databases) D t b ) Seite - 20 informatiK K Köln K öln W. Konen – DMC – WS2009 Welche Formen von Daten kann Data Mining analysieren? Zeitreihen Seite - 21 informatiK K Köln K öln W. Konen – DMC – WS2009 Welche Formen von Daten kann Data Mining analysieren? Textdokumente (Text Mining) Web Mining (z.B. Klickpfad-Analysen) Seite - 22 informatiK K Köln K öln W. Konen – DMC – WS2009 Wichtige Methoden des Data Mining Entscheidungsbäume Neuronale Netze IF ... THEN ... Regelinduktion Nearest Neighbor Genetische Algorithmen Seite - 23 informatiK K Köln K öln W. Konen – DMC – WS2009 Taxonomie von Aufgaben im Data Mining (Auszug) Klassifikation f ¾ Lernen, die Datensätze aufgrund ihrer Attribute vorgegebenen Klassen zuzuordnen ¾ Beispiel: Klassifikation von Bankkunden ob kreditwürdig oder nicht Regression und Vorhersage ¾ Modellierung einer kontinuierlichen Outputgröße, z.B. zeitliche Veränderungen ¾ Beispiele: Zeitreihenanalyse, Zeitreihenanalyse Aktienkurse Aktienkurse, Vorhersage von Systemausfällen auf Basis von Messdaten Clustering ¾ Aufteilung einer Datenmenge in disjunkte Gruppen ähnlicher Objekte ¾ Beispiel: Gruppen von Autos mit ähnlichen Ausfällen, Kundengruppierung für CRM (customer relationship mngmt) Seite - 24 informatiK K Köln K öln W. Konen – DMC – WS2009 Übungen Ü Ü Welches sind die 6 wichtigen Phasen in einem Data Mining Projekt? Welche Typen (Formen) von Daten? Welche Gründe können den Einsatz von Data Mining motivieren? W. Konen – DMC – WS2009 Seite - 25 informatiK K Köln K öln Ü Technologie ist nicht alles Daten sammeln Daten organisieren Integration in Anwendung Neu? Modell anwenden Nützlich? DM Seite - 26 informatiK K Köln K öln W. Konen – DMC – WS2009 Technologie ist nicht alles Data Mining ist ein kreativer Prozess ¾ es reicht nicht: Datenbank + Softwaretool = fertig Wichtig für erfolgreiche Data-Mining-Projekte ¾ gesunder d M Menschenverstand h t db beii d der P Prüfung üf d der D Daten t auf Plausibilität / Validität ¾ gutes Verständnis der Prozesse, Prozesse der Teilnehmer und deren Ziele ¾ dies alles kreativ einbauen in die Modellbildung, die für aktuellen Prozess betrieben wird ⇒ Data Mining macht Spass ! Seite - 27 informatiK K Köln K öln W. Konen – DMC – WS2009