Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Data Mining Cup 2012 Bearbeiter: Maren Sötebier, Hannes Neumann, Oliver Böhm Ausgangsszenario • 570 Produkte mit Informationen über: • • • • Tag Produkt ID Verkaufspreis verkauft Menge an diesem Tag • Trainingsdaten: 42 Tage (intern 28) • Validierungsdaten: 14 Tage Analyse der gegebenen Daten • Aufbereitung und Vorbetrachtung der Daten in MATLAB • Sortierung und statistische Analyse • Ermitteln der Korrelationskoeffizienten zwischen Preis und Verkaufsmenge Ergebnisse der Analyse (1) • keine Anhaltspunkte für Clustering durch: • fehlende Produktbezeichnungen • „unrealistische Schwankungen“ • unbekannter Wochenrhythmus • Preis und Verkauf zeigen keinerlei direkte Wechselwirkung • geringe Beeinflussung des Verkaufsverlaufes eines Produktes durch den Preis- oder Verkaufsverlauf eines anderen Produktes • ø Abhängigkeit vom Preisverlauf: ≈ 0,39 • ø Abhängigkeit vom Verkaufsverlauf: ≈ 0,45 Ergebnisse der Analyse (2) • Preisverläufe zwischen Trainings- und Validierungsdaten teilweise sehr unterschiedlich • Vermutung: • 7-Tage Rhythmus (beginnend mit Freitag) Erreichte Resultate in MATLAB Erreichte Resultate in KNIME Gewonnene Erkenntnisse • 28 Datensätze mit 3 Informationen pro Produkt nicht ausreichend für treffsichere Vorhersage • keine Abhängigkeiten zwischen Preisverlauf und Mengenverlauf erkennbar • Zufallsbasierte Vorhersage mit akzeptablen Ergebnissen Endergebnis • Beste erreichte Punktzahl: 477.36 • Manhattan-Distanz: 20628.24 Vielen Dank für Ihre Aufmerksamkeit!