Projekt Data Mining Cup 2012 Von: Kowalski Sven ([email protected]) Radom Alexander ([email protected]) Gliederung 1. Aufgabe 2. Voranalyse der Daten 2.1 Aufbau eines Datensatzes 2.2 Beobachtung der Werteverteilung 3. Data-Mining 3.1 Entscheidungsbaum 3.2 Zyklus-Theorie 3.3 Klassifizierung und Clustering 3.4 Neuronale Netze 3.5 Logische Regeln 4. Fazit Data Mining Cup 2012 Montag, 14.05.2012 Folie 02 / 13 1. Aufgabe Unter Verwendung der gegebenen Verkaufsstatistik für 570 Produkte über 42 Tage soll eine Vorhersage der Verkaufszahlen über 14 weitere Tage gegeben werden. Dabei ist der Preis in den 14 zukünftigen Tagen bekannt. Data Mining Cup 2012 Montag, 14.05.2012 Folie 03 / 13 2.1 Datensatz ● Produkt ID (itemID) Als Zahl von 1 bis 570 ● Tag (day) Als ganze Zahl ● Preis (price) Als Fließkommazahl beschreibt den Preis des Produktes an dem Tag ● Anzahl der verkauften Einheiten (quantity) Als Fließkommazahl an dem Tag zu dem gesetzten Preis Data Mining Cup 2012 Montag, 14.05.2012 Folie 04 / 13 2.1 Datensatz ● Produkt ID (itemID) Als Zahl von 1 bis 570 ● Tag (day) Als absolute Zahl ● Preis (price) Als Fließkomma-Zahl beschreibt den Preis des Produktes an dem Tag ● Anzahl der verkauften Einheiten (quantity) Als absolute Zahl an dem Tag zu dem gesetzten Preis Ziel-Attribut Data Mining Cup 2012 Montag, 14.05.2012 Folie 04 / 13 2.2 Voranalyse der Daten ● Aufgabe ist eine numerische Vorhersage ● Keine einfachen Zyklen vorhanden ● ● Aber ein Wochenzyklus ist scheinbar erkennbar ● Ein Preiszyklus scheint zu existieren Viele Datensätze mit Verkaufsmenge 0 ( über 30 Prozent ) ● Einige Datensätze mit Verkaufsmenge über 50 ( ca. 100 Datensätze ) Data Mining Cup 2012 Montag, 14.05.2012 Folie 05 / 13 3.1 Entscheidungsbaum ● Anwendung des ID3 Algorithmus ● Regelbasiert ● Datensatz musste Klassifiziert werden ● ● Preis ( Min/Max ) ● Tag ( 1-7 Wochentag ) ● Verkaufsmenge ( Nur Trainingsmenge ) Fast genau so effektiv wie das arithmetische Mittel Data Mining Cup 2012 Montag, 14.05.2012 Folie 06 / 13 3.2 Zyklen ● Leichter Wochenzyklus erkennbar ● Erhöhte Verkaufsmenge ● von Freitag bis Montag Data Mining Cup 2012 Montag, 14.05.2012 Folie 07 / 13 3.2 Zyklen #2 ● Modifikation des errechneten Durchschnittswertes ● Verwendung der Standardabweichung ● Erkennungsmuster für zu korrigierende Werte problematisch Data Mining Cup 2012 Montag, 14.05.2012 Folie 08 / 13 3.3 Klassifizierung und Clustering ● Klassifizierung von Preisen und Mengen ● Suche der Verkaufsmengen über Cluster ● ● K-Means ● K-Nearest-Neighbour Hoher Informationsverlust beim Zurückrechnen der Klassen Data Mining Cup 2012 Montag, 14.05.2012 Folie 09 / 13 3.4 Neuronale Netze ● ● Schwer sichtbare Gemeinsamkeiten zwischen Datensätzen finden MLP Algorithmus & PNN Algorithmus ● Besser als die zykl. Prognosen ● Schlechter als arithmetische Mittel Data Mining Cup 2012 Montag, 14.05.2012 Folie 10 / 13 3.5 Logische Regeln ● ● ● Aufbauend auf den erw. Durchschnittsalgorithmus Vorhersagen bis 10 Mengeneinheiten sind i.d.R. fast richtig ( nicht weiter modifizieren ) Wenn der Preis auf ein Minimum fällt, steigt die Menge rasant an ( Menge an die höchste Verkaufsmenge angleichen ) Data Mining Cup 2012 Montag, 14.05.2012 Folie 11 / 13 4. Fazit Data Mining Cup 2012 Montag, 14.05.2012 Folie 12 / 13 4. Fazit #2 ● Das arithmetische Mittel bietet ein gutes Ergebnis ● Fehlende Zyklen erschweren andere Verfahren ● ● Neuronale Netze könnten durchaus noch bessere Ergebnisse liefern Den Logik Algorithmus erweitern ● Ausreißer als Maximalwerte ignorieren ● Preisfall erkennen Data Mining Cup 2012 Montag, 14.05.2012 Folie 13 / 13