Yale – Yet Another Learning Environment

Werbung
Yale – Yet Another Learning
Environment
Motivation
• Datenvorverarbeitung spielt eine wichtige Rolle
im Maschinellen Lernen 
• Data Mining-Ketten bestehen oft aus mehreren
kombinierten, bzw. verschachtelten
Vorverarbeitungs- und Lernverfahren 
• Systematische Evaluationen unterschiedlicher
Vorverarbeitungs-Ketten benötigen eine flexible,
erweiterbare Umgebung
Anforderungen an eine Lernumgebung
• Einfache Spezifikation und automatische
Ausführung von Verfahrens-Ketten
• Verschachtelbarkeit von Verfahren
• Einfache Austauschbarkeit einzelner Verfahren 
Durchführbarkeit systematischer
Verfahrensvergleiche
• Skalierbarkeit (transparente Datenhaltung)
• Portierbarkeit
• Verfahren zur Merkmalsauswahl/generierung
Konzept
Data Mining
Daten
Aufgaben
MetaDaten
Entwurf
Data Mining Experiment
Durchführung
Anpassung des
Entwurfes
Data Mining Aufgaben
– Klassifikation / Regression
– Transduktion
– Merkmalsextraktion
– Merkmalsgenerierung
– Merkmalsselektion
– Concept Drift
– Zeitreihenanalyse
Integrierte Operatoren
– Operatoren zur Ein-/Ausgabe von Daten
– Operatoren zur Datenvorverarbeitung (Generieren von
Wordvektoren, Audiofeatures)
– Zahlreiche Lernverfahren (inkl. WekaLerner/Clusterer/Assoziationsregellerner)
– Operatoren zur Performanzbewertung
– Operatoren zur Ausgabe/Verwaltung von
Experimentergebnissen
– Concept-Drift-Operatoren
Features
– Modellierung von Data Mining Prozessen als
Operatorbäume (Beschreibung der Bäume in XML)
– Beliebige Schachtelbarkeit der Operatoren/Op.-Bäume
– Transparente und effiziente Datenhaltung
– Leichte Erweiterbarkeit
– Ontologiebasierte Merkmalsbeschreibung (Meta-Daten)
– GUI-Modus, Batch-Modus, Anwendungsschnittstelle
– Einbindung externer Programme (Weka, diverse SVMImplementierungen etc.)
– Plattformunabhängig durch Realisierung in Java
Information
– Open-Source Software (GPL-Lizenz)
– Erfolgreiche Anwendung auf unterschiedlichen
Lernaufgaben
– Weltweite Verbreitung (Anwender und Forscher
aus über 20 Ländern)
– Dokumentationen/Software/FAQs auf der
YALE Homepage http://yale.cs.unidortmund.de
Grundaufbau eines Experiments
Laden der Daten
Datei, Datenbank
Transformieren
+ Lernen
Klassifikation, Clustering, Regellernen,...
Optimieren (Parameter, Attributauswahl,...)
Evaluieren
Darstellung/
Ausgabe der
Ergebnisse
Gelerntes Modell, Optimale Parameter,
Geschätzter Fehler, ...
Operator/OperatorChain
• Operator: Typ, Name, Eingabe, Ausgabe,
Parameter
IOObjects
IOObjects
Parameter
• OperatorChain: Verkettung von Operatoren
IOObjects
IOObjects
Parameter
Parameter
Parameter
Beispiel: Operatorbaum
IOObject
• Objekte, die zwischen den Operatoren
ausgetauscht werden
• Beispiele:
–
–
–
–
–
ClusterModel
ExampleSet (eine Menge von Daten)
Model (gelerntes Model)
PerformanceVector (Menge von Leistungsmaßen)
Ähnlichkeit
Experimentaufbau
Aufbau/
Ablauf
Parameter
Logfenster
IOObjects/Resultate
ExampleSet (IOObject)
• Beschreibung der Attribute:
–
–
–
–
–
Name
Skala: nominal, integer, real, ...
Einheit
Typ: Einzelwert, Zeitreihe, ...
Position (Spalte) in der Datendatei
• Daten
ExampleSet (IOObject)
• Spezielle Attribute:
–
–
–
–
Label
Predicted label
Id
Cluster
ExampleSet (IOObject)
ExampleSource (Operator)
• Input: • Output: ExampleSet
• Parameters: Attributdatei, Datendatei, Sampling, ...
Zugehörige Unterlagen
Herunterladen