Praesentation_Wieckowski.Viehhofer

Werbung
Data Mining
Untersuchung der Umfragedaten der Direktstudenten im
Bereich Wirtschaft der Hochschule Wismar mit der OpenSource Software KNIME
Zur Veranstaltung Business Intelligence
Vorgetragen von: Sina Maria Viehhofer
Sophie Wieckowski
Betreuer:
Prof. Dr. Jürgen Cleve
Datum:
07.01.2013
Gliederung
1. Datenvorbereitung
2. Data Mining
-
Clustering
-
Klassifikation
-
Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
2
Datenvorbereitung
Überprüfung auf Vollständigkeit
Ermittlung fehlender Werte mithilfe von
kNN
Vollständigkeit
Datensatz
22
62
64
87
110
170
190
Ergebnis Fr.13
WS
5
33%
5
32%
Konsistenz
Ergebnis Fr. 15
2
1
0
WS
60%
41%
54%
2
0
38%
70
Ergebnis Fr. 23
WS
0
54%
Widersprüche identifizieren
Wenn möglich korrigieren
ggf. als fehlerhaft markieren
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
3
Datenvorbereitung
Detaillierungsgrad
Detaillierungsgrad reduzieren
Fragen zusammenfassen
Antwortmöglichkeiten zusammenfassen
Frage 6+7 (Erststudium und vorheriger Studiengang)
Frage 13+14 (Arbeit und Stundenzahl)
Frage 22+23 (Fernseher und Stundenzahl)
Frage 24+25 (Videospiele und Stundenzahl)
Frage 16
Transformation
Frage 6 Erststudium
Frage 6.2 nominal Erststudium
 Frage 13 Arbeit
 Frage 22 Fernseher
 Frage 24 Videospiele
 Antwortmöglichkeit WG in
Mietwohnung ergänzt
Umwandlung in numerische Daten
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
4
Gliederung
1. Datenvorbereitung
2. Data Mining
-
Clustering
-
Klassifikation
-
Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
5
Data Mining
Clustering
k-Means
Keine sinnvollen Ergebnisse
Sinnvolle Kategorisierung bereits bei der
Erstellung des Fragebogens vorgenommen
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
6
Data Mining
Klassifikation
Entscheidungsbaum
Fehlerfreiheit > 80 Prozent
Vergleich Decision Tree Learner – Node (GiniIndex, Gain-Ratio) mit dem J48-Node (C4.5Algorithmus)
Attribut
Fehlerfreiheit
in Prozent
Erststudium
Studium an der Hochschule Wismar aufgrund
der Empfehlung
Studium an der Hochschule Wismar aufgrund
im Fragebogen nicht aufgeführter Gründe
90,425
Zur Hochschule mit der Bahn
95,745
Zur Hochschule mit dem Bus
94,681
Zur Hochschule mit dem Auto
81,915
Zur Hochschule mit dem Motorrad
98,936
Fortbewegung in Wismar mit dem Bus
92,553
Fortbewegung in Wismar mit dem Fahrrad
86,17
84,043
96,17
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
7
Data Mining
Klassifikation
k- Nearest
Neighbor
Fehlerfreiheit
Überprüfung auf Vollständigkeit
Ermittlung fehlender Wert emit Hilfe von kNN
Spanne von 25% bis 100%
In Summe 61%
Höchste Genauigkeit bei Multiple-Choice Fragen
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
8
Data Mining
Klassifikation
Attribute müssen voneinander unabhängig sein
Ausgabe über Scorer möglich
Naive Bayes
Naive Bayes Bestimmung des Attributs
Leistung
Datensätze
100
50
Gesamt
Bestimmt
0
Attribut: Leistung
Fehlerfreiheit 61%
Distanz 74
Durchschnittliche Distanz 1,17
Fehlerfreiheit Gesamt: 63%
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
9
Data Mining
Assoziationsanalyse
A-Priori
Assoziationsregeln Bsp.:
Interessantheitsmaße: Konfidenz + Support
Ausgabe in Assoziationsregeln
1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS)
==> Erststudium=ja
conf:(0.97)
2. Alter=21-25 + Bafög=nein + Mit Leistung
zufrieden=ja + ausreichend?=ja (38 DS)
==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
10
Gliederung
1. Datenvorbereitung
2. Data Mining
-
Clustering
-
Klassifikation
-
Assoziationsanalyse
3. Fazit
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
11
Fazit
Auswahl des richtigen Verfahrens von großer Bedeutung.
Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist,
muss individuell anhand der Daten und des Verfahrens
erfolgen. Eine allgemeingültige Definition existiert nicht.
Algorithmus
Durchschnittliche Fehlerfreiheit in Prozent
k-Means
0
k-Nearest Neighbor
61
NaiveBayes
63
C4.5
67
Apriori
----
Data Mining als unterstützendes Werkzeug
Data Mining – Untersuchung der Direktstudenten im Bereich Wirtschaft
Sina Viehhofer; Sophie Wieckowski
12
Danke für die Aufmerksamkeit
Zugehörige Unterlagen
Herunterladen