Business Intelligence Vorstellung der Ergebnisse des Business Intelligence Projekts Master Digitale Logistik und Management Präsentiert von: Maxim Beifert, Mohamed Oukettou Gliederung Ist-Situation und Datenvorbereitung • Datensäberung • Datenreduktion Data Mining Verfahren • Naive Bayes • Clustering mit K-Means • J48/ ID3 • Schlussfolgerung Ist-Situation und Datenvorbereitung Ist-Situation: Insgesamt 54 und 234 Datensätze. Verschiedene Themen (Finanzen, Wohnsituation, Studium, Freizeit, Verkehrsmittel, Zufriedenheit). Datenvorbereitung • Datensäuberung: fehlende Daten manuell einfügen. inkonsistente Daten Betriebswirtschaft- Bachelor BW Wirtschaftsinformatik- Bachelor WI Datenvorbereitung • Datenreduktion (Ausgangspunkt 54*234= 12636) auf 34 Spalten und Datensätze von 234 auf 229 (34*229= 7786) Ausblenden von Attributen: z.B wie bewegst dich in Wismar (Anderes und Motorad) fast 100% benutzen kein Motorad sowie keinen anderen Verkehrsmittel Entfernen von Datensätze Zusammenfassen von Attributen: – In welchen Wohnverhältnissen lebst du (Eigentumswohnung- Mietwohnung- Wohngemeinschaft- Studentenwohnheim- Eltern) – wie kommst Du zur Hochschule (Bahn, Bus, Auto, Fahrrad, ZuFuß) – Wie bewegst Du Dich in Wismar (Bus- Auto- Fahrrad- Zu Fuß) Datenvorbereitung Finanzen Wohnsituation Studium Freizeit Verkehrsmittel Zufriedenheit -Bafög - finanzielle Unterstützung - Arbeit - Budget -Wohnverhältnis - Fläche -Studiengang - Semester - Erstsudium - Grund für S in Wismar -Leistung im S -Fernseher - Fernseh (Std) - Onlinespiele - (Std) -Sport -WE in Wismar -Ankunft nach Wismar - Bewegung in Wismar -Zufriedenheit mit der Lebenssituation - Zufriedenheit mit der S Leistung Ziel: Zufriedenheit mit der aktuellen Lebenssituation als Student in Wismar vorhersagen Data Mining Verfahren • Naive Bayes: Am Anfang wählen wir alle Kategorien Und erzielen wir die Ergebnisse: Data Mining Verfahren • In einer anderen Vorgehensweise nehmen wir die Kategorien im einzelnen Die Tabelle zeigt die erzielten Ergebnisse Themen Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Finanzen 45,6 ; 21 54,3 ; 25 Studium 41,3 ; 19 58,6 ; 27 Wohnsituation 52,1 ; 24 47,8 ; 22 Freizeit 45,6 ; 21 54,3 ; 25 Zufriedenheit 52,1 ; 24 47,8 ; 22 Verkehrsmittel 58,6 ; 27 41,3 ; 19 Data Mining Verfahren • Clustering K-Means • K= 5 k= 4 Data Mining Verfahren • Clustering K-Means Data Mining Verfahren • Entscheidungsbaum mit J48 und ID3 • J48 Data Mining Verfahren • J 48 Themen Accuracy % ; Anzahl von Daten Error % ; Anzahl von Daten Finanzen 47,8 ; 22 52,17; 24 Studium 30,4; 14 69,5%; 32 Wohnsituation 47,8; 22 52,1; 24 Freizeit 54,3; 25 45,6; 21 Zufriedenheit 47,8; 22 52,1; 24 Verkehrsmittel 43,4; 20 56,5; 26 Data Mining Verfahren • ID3 • Im allgemein das Verfahren von ID 3 Algorithmus sieht aus wie J48 Schlussfolgerung • Umsetzung die Theorie in der Praxis • Verwendung von verschiedenen Verfahren des Data Mining • mit dem Naive Bayes Verfahren erzielt man die besten Ergebnisse • J48 und ID3 sind Verfahren zur Generierung von Entscheidungsbäume und liefern fast die gleiche Egebnisse