Data Mining Cup 2012

Werbung
Hochschule Wismar
University of Applied Sciences
Technology, Business and Design
Fakultät für Ingenieurwissenschaften, Bereich EuI
Data Mining Cup
2012
Bearbeiter:
Maren Sötebier, Hannes Neumann, Oliver Böhm
Ausgangsszenario
• 570 Produkte mit Informationen über:
•
•
•
•
Tag
Produkt ID
Verkaufspreis
verkauft Menge an diesem Tag
• Trainingsdaten: 42 Tage (intern 28)
• Validierungsdaten: 14 Tage
Analyse der gegebenen Daten
• Aufbereitung und Vorbetrachtung der Daten in MATLAB
• Sortierung und statistische Analyse
• Ermitteln der Korrelationskoeffizienten zwischen Preis und
Verkaufsmenge
Ergebnisse der Analyse (1)
• keine Anhaltspunkte für Clustering durch:
• fehlende Produktbezeichnungen
• „unrealistische Schwankungen“
• unbekannter Wochenrhythmus
• Preis und Verkauf zeigen keinerlei direkte Wechselwirkung
• geringe Beeinflussung des Verkaufsverlaufes eines Produktes
durch den Preis- oder Verkaufsverlauf eines anderen
Produktes
• ø Abhängigkeit vom Preisverlauf: ≈ 0,39
• ø Abhängigkeit vom Verkaufsverlauf: ≈ 0,45
Ergebnisse der Analyse (2)
• Preisverläufe zwischen Trainings- und Validierungsdaten
teilweise sehr unterschiedlich
• Vermutung:
• 7-Tage Rhythmus (beginnend mit Freitag)
Erreichte Resultate in
MATLAB
Erreichte Resultate in
KNIME
Gewonnene Erkenntnisse
• 28 Datensätze mit 3 Informationen pro Produkt nicht
ausreichend für treffsichere Vorhersage
• keine Abhängigkeiten zwischen Preisverlauf und
Mengenverlauf erkennbar
• Zufallsbasierte Vorhersage mit akzeptablen Ergebnissen
Endergebnis
• Beste erreichte Punktzahl:
477.36
• Manhattan-Distanz:
20628.24
Vielen Dank für Ihre
Aufmerksamkeit!
Herunterladen