Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der OpenSource Software KNIME Zur Veranstaltung Business Intelligence Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve Datum: 07.01.2013 Gliederung 1. Datenvorbereitung 2. Data Mining - Clustering - Klassifikation - Assoziationsanalyse 3. Fazit Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 2 Datenvorbereitung Überprüfung auf Vollständigkeit Ermittlung fehlender Werte mithilfe von kNN Vollständigkeit Datensatz 22 62 64 87 110 170 190 Ergebnis Fr.13 WS 5 33% 5 32% Konsistenz Ergebnis Fr. 15 2 1 0 WS 60% 41% 54% 2 0 38% 70 Ergebnis Fr. 23 WS 0 54% Widersprüche identifizieren Wenn möglich korrigieren ggf. als fehlerhaft markieren Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 3 Datenvorbereitung Detaillierungsgrad Detaillierungsgrad reduzieren Fragen zusammenfassen Antwortmöglichkeiten zusammenfassen Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 13+14 (Arbeit und Stundenzahl) Frage 22+23 (Fernseher und Stundenzahl) Frage 24+25 (Videospiele und Stundenzahl) Frage 16 Transformation Frage 6 Erststudium Frage 6.2 nominal Erststudium Frage 13 Arbeit Frage 22 Fernseher Frage 24 Videospiele Antwortmöglichkeit WG in Mietwohnung ergänzt Umwandlung in numerische Daten Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 4 Gliederung 1. Datenvorbereitung 2. Data Mining - Clustering - Klassifikation - Assoziationsanalyse 3. Fazit Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 5 Data Mining Clustering k-Means Keine sinnvollen Ergebnisse Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 6 Data Mining Klassifikation Entscheidungsbaum Fehlerfreiheit > 80 Prozent Vergleich Decision Tree Learner – Node (GiniIndex, Gain-Ratio) mit dem J48-Node (C4.5Algorithmus) Attribut Fehlerfreiheit in Prozent Erststudium Studium an der Hochschule Wismar aufgrund der Empfehlung Studium an der Hochschule Wismar aufgrund im Fragebogen nicht aufgeführter Gründe 90,425 Zur Hochschule mit der Bahn 95,745 Zur Hochschule mit dem Bus 94,681 Zur Hochschule mit dem Auto 81,915 Zur Hochschule mit dem Motorrad 98,936 Fortbewegung in Wismar mit dem Bus 92,553 Fortbewegung in Wismar mit dem Fahrrad 86,17 84,043 96,17 Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 7 Data Mining Klassifikation k- Nearest Neighbor Fehlerfreiheit Überprüfung auf Vollständigkeit Ermittlung fehlender Wert emit Hilfe von kNN Spanne von 25% bis 100% In Summe 61% Höchste Genauigkeit bei Multiple-Choice Fragen Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 8 Data Mining Klassifikation Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich Naive Bayes Naive Bayes Bestimmung des Attributs Leistung Datensätze 100 50 Gesamt Bestimmt 0 Attribut: Leistung Fehlerfreiheit 61% Distanz 74 Durchschnittliche Distanz 1,17 Fehlerfreiheit Gesamt: 63% Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 9 Data Mining Assoziationsanalyse A-Priori Assoziationsregeln Bsp.: Interessantheitsmaße: Konfidenz + Support Ausgabe in Assoziationsregeln 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97) 2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS) ==> finanz. Unterstützung=ja (37 DS) Conf:(0.97) Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 10 Gliederung 1. Datenvorbereitung 2. Data Mining - Clustering - Klassifikation - Assoziationsanalyse 3. Fazit Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 11 Fazit Auswahl des richtigen Verfahrens von großer Bedeutung. Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist, muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht. Algorithmus Durchschnittliche Fehlerfreiheit in Prozent k-Means 0 k-Nearest Neighbor 61 NaiveBayes 63 C4.5 67 Apriori ---- Data Mining als unterstützendes Werkzeug Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft Sina Viehhofer; Sophie Wieckowski 12 Danke für die Aufmerksamkeit