Yale – Yet Another Learning Environment Motivation • Datenvorverarbeitung spielt eine wichtige Rolle im Maschinellen Lernen • Data Mining-Ketten bestehen oft aus mehreren kombinierten, bzw. verschachtelten Vorverarbeitungs- und Lernverfahren • Systematische Evaluationen unterschiedlicher Vorverarbeitungs-Ketten benötigen eine flexible, erweiterbare Umgebung Anforderungen an eine Lernumgebung • Einfache Spezifikation und automatische Ausführung von Verfahrens-Ketten • Verschachtelbarkeit von Verfahren • Einfache Austauschbarkeit einzelner Verfahren Durchführbarkeit systematischer Verfahrensvergleiche • Skalierbarkeit (transparente Datenhaltung) • Portierbarkeit • Verfahren zur Merkmalsauswahl/generierung Konzept Data Mining Daten Aufgaben MetaDaten Entwurf Data Mining Experiment Durchführung Anpassung des Entwurfes Data Mining Aufgaben – Klassifikation / Regression – Transduktion – Merkmalsextraktion – Merkmalsgenerierung – Merkmalsselektion – Concept Drift – Zeitreihenanalyse Integrierte Operatoren – Operatoren zur Ein-/Ausgabe von Daten – Operatoren zur Datenvorverarbeitung (Generieren von Wordvektoren, Audiofeatures) – Zahlreiche Lernverfahren (inkl. WekaLerner/Clusterer/Assoziationsregellerner) – Operatoren zur Performanzbewertung – Operatoren zur Ausgabe/Verwaltung von Experimentergebnissen – Concept-Drift-Operatoren Features – Modellierung von Data Mining Prozessen als Operatorbäume (Beschreibung der Bäume in XML) – Beliebige Schachtelbarkeit der Operatoren/Op.-Bäume – Transparente und effiziente Datenhaltung – Leichte Erweiterbarkeit – Ontologiebasierte Merkmalsbeschreibung (Meta-Daten) – GUI-Modus, Batch-Modus, Anwendungsschnittstelle – Einbindung externer Programme (Weka, diverse SVMImplementierungen etc.) – Plattformunabhängig durch Realisierung in Java Information – Open-Source Software (GPL-Lizenz) – Erfolgreiche Anwendung auf unterschiedlichen Lernaufgaben – Weltweite Verbreitung (Anwender und Forscher aus über 20 Ländern) – Dokumentationen/Software/FAQs auf der YALE Homepage http://yale.cs.unidortmund.de Grundaufbau eines Experiments Laden der Daten Datei, Datenbank Transformieren + Lernen Klassifikation, Clustering, Regellernen,... Optimieren (Parameter, Attributauswahl,...) Evaluieren Darstellung/ Ausgabe der Ergebnisse Gelerntes Modell, Optimale Parameter, Geschätzter Fehler, ... Operator/OperatorChain • Operator: Typ, Name, Eingabe, Ausgabe, Parameter IOObjects IOObjects Parameter • OperatorChain: Verkettung von Operatoren IOObjects IOObjects Parameter Parameter Parameter Beispiel: Operatorbaum IOObject • Objekte, die zwischen den Operatoren ausgetauscht werden • Beispiele: – – – – – ClusterModel ExampleSet (eine Menge von Daten) Model (gelerntes Model) PerformanceVector (Menge von Leistungsmaßen) Ähnlichkeit Experimentaufbau Aufbau/ Ablauf Parameter Logfenster IOObjects/Resultate ExampleSet (IOObject) • Beschreibung der Attribute: – – – – – Name Skala: nominal, integer, real, ... Einheit Typ: Einzelwert, Zeitreihe, ... Position (Spalte) in der Datendatei • Daten ExampleSet (IOObject) • Spezielle Attribute: – – – – Label Predicted label Id Cluster ExampleSet (IOObject) ExampleSource (Operator) • Input: • Output: ExampleSet • Parameters: Attributdatei, Datendatei, Sampling, ...