Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Motivation Data Mining mit RapidMiner • CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben • Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess • Systematische Evaluationen erfordern flexible und strukturierte Experimentierumgebung • Ggf. periodische Wiederholungen von Analysen notwendig Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz 1 Anforderungen • Einfache wiederverwendbare Spezifikation von DM-Prozessen • Austauschbarkeit von Lern-Verfahren, insbesondere: • 2 Konzept Data Mining Aufgaben Kombination/Verschachtelung von Verfahren • Verfahren zur Merkmalsauswahl und generierung MetaDaten Entwurf Anpassung des Entwurfes Durchführen von Verfahrensvergleichen • Daten Data Mining Experiment Durchführung Data-Mining Experiment 3 Ergebnis 4 Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining Aufgaben • • • • • • • • RapidMiner Klassifikation/Regression Transduktion Merkmalsextraktion Merkmalsgenerierung Merkmalsselektion Concept Drift Zeitreihenanalyse • Modellierung von DM-Prozessen als Abfolge von Operatoren (Ketten) • • • • • Verschachtelung von Operatoren Transparente/effiziente Datenhaltung Leichte Erweiterbarkeit GUI-Modus/Batch-Modus Einbindung externer Programme (z.B. Weka, SVM-Imlementierungen) Text-Mining Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz 5 Integrierte Operatoren • • • Operatoren zur Ein-/Ausgabe 6 Information Open-Source (GPL-Lizenz) Datenvorverarbeitung • • Zahlreiche Lernverfahren (Weka-Lerner, Clustering, ...) • • Performanzbewertung von Lernverfahren Weltweite Verbreitung (Anwender und Forscher in über 30 Ländern) • • Verwaltung/Ausgabe von Lernergebnissen Dokumentation/Download/uvm unter http://rapid-i.com 7 Erfolgreiche Anwendung auf unterschiedliche Lernaufgaben 8 Fakultät Informatik Lehrstuhl für Künstliche Intelligenz DM-Experiment • • • • Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Operator/OperatorChain Laden der Daten • Laden der Daten • Datenbank, Datei Transformieren und Lernen • Fehlende Werte? Normierung? Klassifikation? Clustering? Optimierung: • • Transformieren und Lernen IOObjects Performanz, Regeln, Cluster Operator IOObjects Parameter • Evaluieren Verfahrensauswahl, Parameter Ausgabe der Ergebnisse Operator: Typ, Name, Eingabe, Ausgabe, Parameter OperatorChain: Verkettung von Operatoren IOObjects Darstellung der Ergebnisse Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Operator Operator Parameter Parameter IOObjects Fakultät Informatik Lehrstuhl für Künstliche Intelligenz 9 Beispiel: Operatorbaum 10 Aufbau/ Ablauf Parameter Logfenster 11 12 Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz IOObject • • ExampleSet (IOObject) Objekte, die zwischen Operatoren ausgetauscht werden • Beispiele: • • • • • • ExampleSet (eine Menge von Daten) Model (gelerntes Model) PerformanceVector (Menge von Leistungsmaßen) Ähnlichkeit Merkmalsgewichte • ... Beschreibung der Attribute (Metadaten): • • • • • Name Skala: nominal, integer, real, ... Einheit Typ: Einzelwert, Zeitreihe, ... Position (Spalte) in der Datendatei Sicht auf Daten Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz 13 ExampleSet (IOObject) ExampleSet (IOObject) • • 14 Spezielle Attribute: • • • • Label Predicted label Id Cluster Beliebig erweiterbar... 15 16 Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Fakultät Informatik Lehrstuhl für Künstliche Intelligenz IOObjects/Resultate ExampleSource (Operator) • Input: • Output: ExampleSet • Parameter: Attributdatei, Datendatei, Sampling, ... 17 18