Data Mining mit RapidMiner

Werbung
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Motivation
Data Mining
mit RapidMiner
•
CRISP: DM-Prozess besteht aus
unterschiedlichen Teilaufgaben
•
Datenvorverarbeitung spielt wichtige
Rolle im DM-Prozess
•
Systematische Evaluationen erfordern
flexible und strukturierte
Experimentierumgebung
•
Ggf. periodische Wiederholungen von
Analysen notwendig
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
1
Anforderungen
•
Einfache wiederverwendbare
Spezifikation von DM-Prozessen
•
Austauschbarkeit von Lern-Verfahren,
insbesondere:
•
2
Konzept
Data Mining
Aufgaben
Kombination/Verschachtelung von
Verfahren
•
Verfahren zur Merkmalsauswahl und generierung
MetaDaten
Entwurf
Anpassung des
Entwurfes
Durchführen von
Verfahrensvergleichen
•
Daten
Data Mining Experiment
Durchführung
Data-Mining
Experiment
3
Ergebnis
4
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Data Mining Aufgaben
•
•
•
•
•
•
•
•
RapidMiner
Klassifikation/Regression
Transduktion
Merkmalsextraktion
Merkmalsgenerierung
Merkmalsselektion
Concept Drift
Zeitreihenanalyse
•
Modellierung von DM-Prozessen als
Abfolge von Operatoren (Ketten)
•
•
•
•
•
Verschachtelung von Operatoren
Transparente/effiziente Datenhaltung
Leichte Erweiterbarkeit
GUI-Modus/Batch-Modus
Einbindung externer Programme (z.B.
Weka, SVM-Imlementierungen)
Text-Mining
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
5
Integrierte Operatoren
•
•
•
Operatoren zur Ein-/Ausgabe
6
Information
Open-Source (GPL-Lizenz)
Datenvorverarbeitung
•
•
Zahlreiche Lernverfahren
(Weka-Lerner, Clustering, ...)
•
•
Performanzbewertung von
Lernverfahren
Weltweite Verbreitung (Anwender und
Forscher in über 30 Ländern)
•
•
Verwaltung/Ausgabe von
Lernergebnissen
Dokumentation/Download/uvm unter
http://rapid-i.com
7
Erfolgreiche Anwendung auf
unterschiedliche Lernaufgaben
8
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
DM-Experiment
•
•
•
•
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Operator/OperatorChain
Laden der Daten
•
Laden der Daten
•
Datenbank, Datei
Transformieren und Lernen
•
Fehlende Werte? Normierung?
Klassifikation? Clustering?
Optimierung:
•
•
Transformieren
und Lernen
IOObjects
Performanz, Regeln, Cluster
Operator
IOObjects
Parameter
•
Evaluieren
Verfahrensauswahl, Parameter
Ausgabe der Ergebnisse
Operator: Typ, Name, Eingabe, Ausgabe, Parameter
OperatorChain: Verkettung von Operatoren
IOObjects
Darstellung der
Ergebnisse
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Operator
Operator
Parameter
Parameter
IOObjects
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
9
Beispiel: Operatorbaum
10
Aufbau/
Ablauf
Parameter
Logfenster
11
12
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
IOObject
•
•
ExampleSet (IOObject)
Objekte, die zwischen Operatoren ausgetauscht werden
•
Beispiele:
•
•
•
•
•
•
ExampleSet (eine Menge von Daten)
Model (gelerntes Model)
PerformanceVector (Menge von Leistungsmaßen)
Ähnlichkeit
Merkmalsgewichte
•
...
Beschreibung der Attribute (Metadaten):
•
•
•
•
•
Name
Skala: nominal, integer, real, ...
Einheit
Typ: Einzelwert, Zeitreihe, ...
Position (Spalte) in der Datendatei
Sicht auf Daten
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
13
ExampleSet (IOObject)
ExampleSet (IOObject)
•
•
14
Spezielle Attribute:
•
•
•
•
Label
Predicted label
Id
Cluster
Beliebig erweiterbar...
15
16
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
Fakultät Informatik
Lehrstuhl für Künstliche
Intelligenz
IOObjects/Resultate
ExampleSource (Operator)
• Input: • Output: ExampleSet
• Parameter: Attributdatei, Datendatei, Sampling, ...
17
18
Zugehörige Unterlagen
Herunterladen