Projekt Data Mining Cup 2012

Werbung
Projekt
Data Mining Cup
2012
Von:
Kowalski Sven ([email protected])
Radom Alexander ([email protected])
Gliederung
1. Aufgabe
2. Voranalyse der Daten
2.1 Aufbau eines Datensatzes
2.2 Beobachtung der Werteverteilung
3. Data-Mining
3.1 Entscheidungsbaum
3.2 Zyklus-Theorie
3.3 Klassifizierung und Clustering
3.4 Neuronale Netze
3.5 Logische Regeln
4. Fazit
Data Mining Cup 2012
Montag, 14.05.2012
Folie 02 / 13
1. Aufgabe
Unter Verwendung der gegebenen
Verkaufsstatistik für 570 Produkte über 42 Tage
soll eine Vorhersage der Verkaufszahlen über
14 weitere Tage gegeben werden. Dabei ist der
Preis in den 14 zukünftigen Tagen bekannt.
Data Mining Cup 2012
Montag, 14.05.2012
Folie 03 / 13
2.1 Datensatz
●
Produkt ID (itemID)
Als Zahl von 1 bis 570
●
Tag (day)
Als ganze Zahl
●
Preis (price)
Als Fließkommazahl beschreibt den Preis des Produktes
an dem Tag
●
Anzahl der verkauften Einheiten (quantity)
Als Fließkommazahl an dem Tag zu dem gesetzten Preis
Data Mining Cup 2012
Montag, 14.05.2012
Folie 04 / 13
2.1 Datensatz
●
Produkt ID (itemID)
Als Zahl von 1 bis 570
●
Tag (day)
Als absolute Zahl
●
Preis (price)
Als Fließkomma-Zahl beschreibt den Preis des Produktes
an dem Tag
●
Anzahl der verkauften Einheiten (quantity)
Als absolute Zahl an dem Tag zu dem gesetzten Preis
Ziel-Attribut
Data Mining Cup 2012
Montag, 14.05.2012
Folie 04 / 13
2.2 Voranalyse der Daten
●
Aufgabe ist eine numerische Vorhersage
●
Keine einfachen Zyklen vorhanden
●
●
Aber ein Wochenzyklus ist scheinbar erkennbar
●
Ein Preiszyklus scheint zu existieren
Viele Datensätze mit Verkaufsmenge 0
( über 30 Prozent )
●
Einige Datensätze mit Verkaufsmenge über 50
( ca. 100 Datensätze )
Data Mining Cup 2012
Montag, 14.05.2012
Folie 05 / 13
3.1 Entscheidungsbaum
●
Anwendung des ID3 Algorithmus
●
Regelbasiert
●
Datensatz musste Klassifiziert werden
●
●
Preis ( Min/Max )
●
Tag ( 1-7 Wochentag )
●
Verkaufsmenge ( Nur Trainingsmenge )
Fast genau so effektiv wie das arithmetische Mittel
Data Mining Cup 2012
Montag, 14.05.2012
Folie 06 / 13
3.2 Zyklen
●
Leichter Wochenzyklus erkennbar
●
Erhöhte Verkaufsmenge
●
von Freitag bis Montag
Data Mining Cup 2012
Montag, 14.05.2012
Folie 07 / 13
3.2 Zyklen #2
●
Modifikation des errechneten Durchschnittswertes
●
Verwendung der Standardabweichung
●
Erkennungsmuster für zu korrigierende Werte
problematisch
Data Mining Cup 2012
Montag, 14.05.2012
Folie 08 / 13
3.3 Klassifizierung und Clustering
●
Klassifizierung von Preisen und Mengen
●
Suche der Verkaufsmengen über Cluster
●
●
K-Means
●
K-Nearest-Neighbour
Hoher Informationsverlust beim Zurückrechnen der
Klassen
Data Mining Cup 2012
Montag, 14.05.2012
Folie 09 / 13
3.4 Neuronale Netze
●
●
Schwer sichtbare Gemeinsamkeiten zwischen
Datensätzen finden
MLP Algorithmus & PNN Algorithmus
●
Besser als die zykl. Prognosen
●
Schlechter als arithmetische Mittel
Data Mining Cup 2012
Montag, 14.05.2012
Folie 10 / 13
3.5 Logische Regeln
●
●
●
Aufbauend auf den erw. Durchschnittsalgorithmus
Vorhersagen bis 10 Mengeneinheiten sind i.d.R. fast
richtig
( nicht weiter modifizieren )
Wenn der Preis auf ein Minimum fällt, steigt die Menge
rasant an
( Menge an die höchste Verkaufsmenge angleichen )
Data Mining Cup 2012
Montag, 14.05.2012
Folie 11 / 13
4. Fazit
Data Mining Cup 2012
Montag, 14.05.2012
Folie 12 / 13
4. Fazit #2
●
Das arithmetische Mittel bietet ein gutes Ergebnis
●
Fehlende Zyklen erschweren andere Verfahren
●
●
Neuronale Netze könnten durchaus noch bessere
Ergebnisse liefern
Den Logik Algorithmus erweitern
●
Ausreißer als Maximalwerte ignorieren
●
Preisfall erkennen
Data Mining Cup 2012
Montag, 14.05.2012
Folie 13 / 13
Herunterladen