Hochschule Wismar Projektbericht - Hochschule Wismar

Werbung
Hochschule Wismar
Fakultät für Wirtschaftswissenschaften
Projektbericht
“Evaluation und Ableitung von Ergebnissen
anhand eines Fragebogens zur Studentensituation
an der Hochschule Wismar“
zur
VERANSTALTUNG
Business Intelligence
im Master Digitale Logistik und Management
der Hochschule Wismar
eingereicht von:
Matthias Säger (111506)
Stefan Wagner (120477)
Betreuer:
Prof. Dr. J. Cleve
Wismar, 07. Januar 2013
Inhaltsverzeichnis
Inhaltsverzeichnis
II
Abbildungsverzeichnis
III
Tabellenverzeichnis
V
Abkürzungsverzeichnis
VI
1
2
3
4
Gegenstand des Berichtes
1
1.1
Prolog und Zielstellung
1
1.2
Vorgehensweise
2
Projektmanagement
3
2.1
Projektstrukturplan / Objektplan
3
2.2
Projektterminplan
4
Datenvorbereitung
5
3.1
Datenselektion
5
3.2
Datensäuberung
6
3.3
Datenreduktion und -transformation
9
Data Mining
12
4.1
Allgemeiner Aufbau in KNIME
13
4.2
Assoziationsanalyse - A Priori
14
4.3
Grundsätzliches Vorgehen Data Mining-Verfahren
18
4.3.1
Naive Bayes
20
4.3.2
Decision Tree
23
4.3.3
J 48 - Algorithmus
25
4.3.4
kMeans - Algorithmus
27
4.4
Gesamtergebnisse und Interpration
31
5
Grundlegende Konflikte
33
6
Gesamtfazit
34
Quellenverzeichnis
Anlagen
II
Abbildungsverzeichnis
Abbildung 1:
Projektstrukturplan / Objektplan
3
Abbildung 2:
Projektterminplan
4
Abbildung 3:
Ablauf eines Data-Mining-Prozesses
5
Abbildung 4:
kNN-Berechnung,
8
Datensatz: „Arbeit während des Studiums in Std. / Woche“
Abbildung 5:
kNN-Berechnung,
8
Datensatz: „Verfügung über monatliches Budget“
Abbildung 6:
kNN-Berechnung,
8
Datensatz: „Video- / Onlinespiele in Std. / Woche“
Abbildung 7:
Ablauf eines Data-Mining-Prozesses
12
Abbildung 8:
Grundaufbau für das Projekt „Fragebogen HS Wismar“
13
Abbildung 9:
A-Priori-Algorithmus
14
Abbildung 10: Ergebnis Assoziationsregeln Klasse 2
16
Abbildung 11: Beispiel Attribute der Klasse 2 zu 3 (exemplarisch)
17
Abbildung 12: Ergebnisse der Data Mining-Verfahren
20
Abbildung 13: Modellierung Naive Bayes
20
Abbildung 14: Knoten „Scorer“ Naive Bayes
22
Abbildung 15: Modellierung Decision Tree
23
Abbildung 16: Knoten „Scorer“ Decision Tree
24
III
Abbildung 17: Modellierung J 48 - Algorithmus
25
Abbildung 18: Weka Node View - J48 - Algorithmus
26
Abbildung 19: Modellierung Naive Bayes mit kMeans Algorithmus
28
Abbildung 20: Cluster-Bildung mit kMeans - Algorithmus
29
Abbildung 21: Knoten „Scorer“ von allen 3 Data Mining - Verfahren
29
IV
Tabellenverzeichnis
Tabelle 1:
Datensäuberung - Falsche Daten
6
Tabelle 2:
Datensäuberung - Fehlende Daten
7
Tabelle 3:
Datenreduktion u. -transformation,
9
(Daten)-Aggregation, Datenkompression u -kombination
Tabelle 4:
Bildung von Klassen
11
Tabelle 5:
Relevante "Fragestellungen" bzw. Zielattribute
18
Tabelle 6:
Fragestellungen 9 und 10 mit Cluster
27
Tabelle 7:
Fragestellungen 9 und 10 mit und ohne Cluster
28
Tabelle 8:
Beste Gesamtvorhersageergebnisse aller Tests
31
V
Abkürzungsverzeichnis
KNIME
Konstanz Information Miner
kNN
k-Nearest-Neighbor
VI
1
Gegenstand des Berichtes
1.1
Prolog und Zielstellung
Gerade in Zeiten der Globalisierung der Märkte sowie der Ausdehnung der Unternehmensaktivitäten aufgrund des zunehmenden Kostendrucks, ist es für Unternehmen immens
wichtig die stetig steigende Informationsflut durch entsprechende Methoden bzw. Verfahren
effizient zu sammeln, zu analysieren, zu verwalten sowie effektiv zu nutzen.
Business Intelligence, als Begrifflichkeit aus der Wirtschaftsinformatik, gilt dabei als eine
moderne Zusammenfassung dieser Techniken bzw. Verfahren mit den Hauptaufgaben der
Wissensgewinnung, Wissensverwaltung und Wissensverarbeitung. Ziel dabei ist es,
hinreichende Ergebnisse in Hinsicht auf operative oder strategische Entscheidungsmöglichkeiten neu zu gewinnen oder direkt abzuleiten. Dieses kann bspw. die bereits
angesprochene Kostensenkung, aber auch eine Optimierung der Geschäftsabläufe, eine
intelligente Bewertung der Kunden- und Lieferantendaten oder auch einfach die Risikominimierung sein.
Eine Technik des Business Intelligence ist das Data Mining. Unter Data Mining versteht man
das Schürfen nach Daten, wobei die zentrale Aussage beinhaltet: „[…] dass es sich um
einen nichttrivialen Prozess handelt, dessen Ziel es ist, Muster aus großen Datenbeständen
zu extrahieren. 1 Kurzum, es werden wertvolle Informationen aus einer großen Menge von
Daten gezogen.
Ziel dieses Berichtes und somit Inhalt des vorliegenden Projekt „Evaluation und Ableitung
von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule
Wismar“ ist die Auswertung von 54 vorab gestellten Fragen an die Studenten der
Hochschule Wismar, wobei versucht wird, durch entsprechende Data Mining-Verfahren die
verschiedenen Möglichkeiten bzw. Situationen sowie das Verhalten eines Studenten in
Wismar abzubilden, zu interpretieren sowie mit einer hohen Wahrscheinlichkeit vorherzusagen. Um sinnvolle Aussagen treffen zu können, sind dabei die auftretenden Konflikte
sowie die Ergebnisinterpretation für den Bericht kennzeichnend.
1
Chamoni, P., 2012.
1
1.2
Vorgehensweise
Nachdem im ersten Kapitel der Prolog mit der Zielsetzung des Berichtes aufgeführt wird,
beschäftigt sich das zweite Kapitel mit dem Projektmanagement. Zum einen werden dabei
der Projektstrukturplan sowie der Objektplan, der die eigentliche Arbeit des Projektes
beinhaltet, dargestellt und zum zweiten der Projektterminplan, der den Verlauf der Projektarbeit terminiert, abgebildet. Diese beiden Instrumente fungieren auf Metaebene und bilden
den Rahmen des Gesamtprojektes.
Im dritten Kapitel wird auf die grundlegende Datenvorbereitung eingegangen. Diese dient als
Basis für alle folgenden Techniken, da diese auf die notwendig fehlerlosen Daten zugreifen.
Um eine hohe Ergebnisqualität bei der Datenanalyse zu erreichen, werden dabei die
verschiedenen Stadien der Vorbereitung (Datenselektion, Datensäuberung, Datenreduktion
und -transformation) durchlaufen. Grunddaten und Ausgangsdaten für das Data Mining
sowie etwaige Ergebnisse von Algorithmen werden entweder im Bericht oder in der Anlage
aufgeführt.
Die für das Projekt als sinnvoll erachteten Techniken bzw. Methoden des Data Mining
werden im vierten Kapitel auf- und durchgeführt. Von Interesse sind dabei die
Assoziationsanalyse A Priori, das Naive Bayes, der Decision Tree, J48 - Algorithmus sowie
das Clustering mit kMeans. Der Schwerpunkt wird dabei insbesondere auf die Zielbeschreibung des Verfahrens, auf die Beschreibung des jeweiligen Verfahrens an sich, auf
die Durchführung der Anwendung, auf die auftretenden speziellen Konflikte sowie auf die
Ergebnisse und deren Interpretation gelegt.
Das letzte Hauptkapitel stellt abschließend kurz die Grundkonflikte dieses Projektes dar.
Ein Gesamtfazit mit kritischer Hinterfragung der Zielerreichung sowie eine Bewertung der
Modelle schließen den Bericht ab.
2
2
Projektmanagement
2.1
Projektstrukturplan / Objektplan
Projektbericht
Business Intelligence
Definitionsphase
Planungsphase
Teilaufgabe 1:
Grundlagen und
Zieldefinition
Teilaufgabe 2:
AP-Planung und
Festlegung
AP I:
- Themenvorgabe
und Gruppenwahl
- Säger / Wagner
AP II:
- Besprechung und
Definierung der
Ziele (Projekt und
Objekt)
- Säger / Wagner
AP III:
- Skizzierung der
Projektmanagement- und der
Objektstrukturen
- Säger / Wagner
AP IV:
- Besprechung,
Festlegung und
Verteilung der
Projektmanagementelemente
- Säger / Wagner
Realisierungsphase
Objektplan:
Ausarbeitung
Projektbericht
Teilaufgabe 3:
Ausarbeitung
Planunterlagen
AP VII:
AP VI:
- Projektstruktur- u.
Objektplan,
Projektterminplan
- Säger
- Gegenstand des
Berichtes
- Säger
AP VIII:
AP V:
- Besprechung,
Festlegung und
Verteilung der
Objektelemente
- Säger / Wagner
Assoziationanalyse
- Wagner
Clustering - kMeans
- Wagner
AP XII:
AP XVI:
- Data Mining:
- Data Mining:
Datenselektion
- Säger
Naive Bayes
- Wagner
Ergeb.-Interpretation
- Säger / Wagner
AP XIII:
- Datenvorbereitung:
- Data Mining:
Datensäuberung
- Säger
Decision Tree
- Wagner
AP X:
3
AP XV:
- Data Mining:
- Datenvorbereitung:
AP IX:
Abb. 1: Projektstrukturplan / Objektplan
(Quelle: eigene Darstellung)
AP XI:
- Data Mining:
AP XIV:
- Datenvorbereitung:
- Data Mining:
Datenreduktion
und -transformation
- Säger
J48 - Algorithmus
- Wagner
AP XVII:
- Grundleg. Konflikte
- Säger
AP XVIII:
- Gesamtfazit
- Säger / Wagner
AP XIX:
- Präsentation
- Säger / Wagner
2.2
Projektterminplan
Abb. 2: Projektterminplan
(Quelle: eigene Darstellung)
4
3
Datenvorbereitung
Nachdem die Projektplanung abgeschlossen ist, werden in diesem Kapitel die für eine
Datenvorbereitung benötigten spezifischen Elemente aufgezeigt und im weiteren Verlauf
explizit sowie unter Berücksichtigung von entsprechender Methodik so bearbeitet, dass eine
Verarbeitung in KNIME und infolgedessen eine einheitliche Interpretation stattfinden kann. Die
Vorgehensweise beruht dabei auf der Grundlage des folgenden Modelles.
Datenvorbereitung
Datenselektion
Datensäuberung
Datenreduktion
Datentransformation
Data-Mining
Evaluation
Abb. 3: Ablauf eines Data-Mining-Prozesses
(Quelle: eigene Darstellung in Anlehnung an Fayyad et al 1996)
3.1
Datenselektion
Die Datenselektion (Datenintegration) hat zur Aufgabe, einen schlüssigen Datensatz aus
den vorgegebenen oder ermittelten Daten anzulegen. Als Grundlage diente dabei die
Auswertung eines Fragebogens. Durch die Datentransformation der vorab eingelesenen
Bewertung der einzelnen Teilnehmer (Studenten) in das von MS Excel genutzte Format,
konnten drei Datenbanken generiert und anschließend zu einer Datenbank (Anlage I,
„Projekt BI Fragenbogen HS Wismar  Daten/  „Umfrage“, Tabellenblatt
„Ausgangsdaten“) zusammengefügt werden:
Datenbank 1 (127 Datensätze)
Datenbank 2 (17 Datensätze)
Datenbank 3 (90 Datensätze)
zu
Datenbank (234 Datensätze)
Die folgenden Attribute wurden aufgrund ihrer Irrelevanz für die Auswertung gelöscht:
Spalte B „Benutzername“
Spalte C „Nachname“
Spalte D „Vorname“
5
3.2
Datensäuberung
Dieser Abschnitt ist von hoher Relevanz für alle nachfolgenden Analyseprozesse, da hierbei
der Datenbestand verändert wird. Durch die vielfältigen Anpassungen der Daten, Expertenschätzung nach ca. 80 % der für den Data Mining Prozess bereitgestellten technischen,
personellen und zeitlichen Ressourcen 2, werden fehlende-, verrauschte-, falsche- und
inkonsistente Daten nur in dem Maße geändert, dass minimale Ergebnisabweichungen
erreicht werden. Als Basis dient hier ebenfalls die Datenbank:
Anlage I, „Projekt BI Fragenbogen HS Wismar  Daten/  „Umfrage“, Tabellenblatt
„Ausgangsdaten“
sowie
infolge
die
geänderte
Fassung
nach
Datensäuberung:
Tabellenblatt „Da. mit Klassen komp. bereinigt“
Falsche Daten:
Falsche Daten
Attribut
(Frage in
Kurzform)
Fehler
geprüfte /
genutzte
Methode
Ergebnis
K8, K106,
K111, K152 vorhandenes
in Bezug auf Erststudium
Attribut J
Falsche
Attribute
Datenlöschung
Entfernung der Antworten, da hier ein
konsekutives Studium nicht beachtet worden
ist und somit die Antworten zu dem
Erststudium falsch sind.
Attribut /
Datensatz
K234 in
Bezug auf
Attribut J
vorhandenes
Erststudium
Falsche
Attribute
Datenlöschung
Entfernung der Antwort, da hier ein falsches
Attribut "keinen" als Antwort gegeben
wurde.
X227 in
Bezug auf
Attribut W
Arbeit während
Falsches
des Studiums
Attribut
in Std. / Woche
Datenlöschung
Entfernung der Antwort, da hier ein falscher
Wert "0" als Antwort gegeben wurde.
AM1, AM74,
TV schauen auf
AM79,
Falsche
AM216 in eigenen TV in
Attribute
Bezug auf Std. / Woche
Attribut AL
Datenlöschung
Entfernung der Antworten, da hier ein
falscher Wert "0" als Antwort gegeben
wurde.
AM161 in
Bezug auf
Attribut AL
TV schauen auf
Falsches
eigenen TV in
Attribut
Std. / Woche
Datenlöschung
Entfernung der Antwort, da hier ein falscher
Wert "1" als Antwort gegeben wurde.
AO190 in
Bezug auf
Attribut AN
VideoFalsches
/Onlinespiele in
Attribut
Std. / Woche
Datenlöschung
Entfernung der Antwort, da hier ein falscher
Wert "0" als Antwort gegeben wurde.
Tab. 1:
2
Datensäuberung - Falsche Daten
(Quelle: eigene Darstellung)
Gabriel, R.; Gluchowski, P.; Pastwa, A., 2009, S. 129
6
Fehlende Daten:
Fehlende Daten
Attribut /
Datensatz
K
Attribut
(Frage in
Kurzform)
Fehler
geprüfte /
genutzte
Methode
vorhandenes Fehlende
Erststudium Attribute
Hinzufügen
eines
Attributs
K92,
K104,
vorhandenes Fehlende
K229 in
Erststudium Attribute
Bezug auf
Attribut J
Arbeit
X in Bezug während des Fehlende
auf W
Studiums in Attribute
Std. / Woche
X64, X87
in Bezug
auf Attribut
W
Arbeit
während des Fehlende
Studiums in Attribute
Std. / Woche
kNN
Ergebnis
Hinzufügen und Kennzeichnung des Attributs
"keinen (0)" zur Vermeidung von Leerstellen
bei Antwort "Erststudium ja (0)".
Aufgrund der geringen Datenmenge ist die
kNN-Methode zur Wertbestimmung nicht
geeignet.
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des Attributs
"keine Angabe (6)" zur Vermeidung von
Leerstellen bei Nichtbeantwortung der Frage
Attribut J.
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des
Attributes "keine Arbeit (5)" zur Vermeidung
von Leerstellen bei Antwort Attribut W
"Arbeit nein (1)".
kNN
Aufgrund des schlechten
Vorhersageergebnisses von kNN=12,5 % bei
5 Attributen ist diese Methode nicht geeignet
(siehe Seite 8, Abb. 4).
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des Attributs
"keine Angabe (6)" zur Vermeidung von
Leerstellen bei Nichtbeantwortung der Frage
Attribut X.
kNN
Aufgrund des schlechten
Vorhersageergebnisses von kNN=21,0 % bei
5 Attributen ist diese Methode nicht geeignet
(siehe Seite 8, Abb. 5).
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des Attributs
"keine Angabe (5)" zur Vermeidung von
Leerstellen bei Nichtbeantwortung der Frage
Attribut Y.
Verfügung
Y22, Y62,
über
Y64, Y110,
monatliches
Y170
Budget
Fehlende
Attribute
AM in
TV schauen
Bezug auf in Std. pro
Attribut AL Woche
Fehlende
Attribute
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des
Attributes "kein TV (5)" zur Vermeidung von
Leerstellen bei Antwort Attribut AL
"Fernseher nein (1)".
VideoAO in
/Onlinespiele Fehlende
Bezug auf
in Std. /
Attribute
Attribut AN
Woche
Hinzufügen
eines
Attributs
Hinzufügen und Kennzeichnung des
Attributes "keine Video-/OL-Spiele (4)" zur
Vermeidung von Leerstellen bei Antwort
Attribut AN "Video-/OL-spiele nein (1)".
VideoAO190 in
/Onlinespiele Fehlendes
Bezug auf
kNN
in Std. /
Attribut
Attribut AN
Woche
Finanzierung Fehlende
BE
Löschung
Auto
Attribute
Tab. 2: Datensäuberung - Fehlende Daten
(Quelle: eigene Darstellung)
7
Ermittlung des höchsten Wertes von
kNN=100 % bei 4 Attributen (siehe Seite 8,
Abb. 6). Eintragung einer "0" für "1-10h".
Löschung der Spalte BE "Finanzierung
Auto" aufgrund fehlender Daten.
kNN - k-Nearest-Neighbor
Das kNN-Verfahren (kNN-Algorithmus) ist eine Technik des (hier vorgegriffenen) Data
Mining, wobei eine Klassenzuordnung unter Berücksichtigung des „nächsten Nachbarn“ = k
erfolgt. Von den hier unbekannten, genauer fehlenden Daten wird eine Affinität zu bereits
bestehenden Daten berechnet und den Daten mit der höchsten Ähnlichkeit zugeordnet.
Berechnung des kNN-Wertes für Tab. 2, Datensäuberung - Fehlende Daten:
Für alle kNN-Berechnungen gilt eine Partitionierung von 70 % / 30 %.
Abb. 4: kNN-Berechnung, Datensatz: „Arbeit während des Studiums in Std. / Woche“
(Quelle: eigene Darstellung)
Ergebnis: kNN-Wert = 12,5 % (2 Datensätze / 16 Datensätze)
Abb. 5: kNN-Berechnung, Datensatz: „Verfügung über monatliches Budget“
(Quelle: eigene Darstellung)
Ergebnis: kNN-Wert = 21,0 % (14 Datensätze / 66 Datensätze)
Abb. 6: kNN-Berechnung, Datensatz: „Video- / Onlinespiele in Std. / Woche“
(Quelle: eigene Darstellung)
Ergebnis: kNN-Wert = 100 % (3 Datensätze / 3 Datensätze) bei k = 3
Das Ergebnis wurde durch Part. 10 % / 90 % (mehr Datensätze) nur bestätigt.
8
3.3
Datenreduktion und -transformation
Da die Datensätze sehr umfangreich sind, ist das Data Mining ebenfalls umfassend und
daher sehr aufwendig. Um dieses zu verhindern, wird versucht, ein sinnvolles Zusammenfassen von Datensätzen oder Attributen durchzuführen. Die hierbei verwendeten Strategien
sind (Daten)-Aggregation, Datenkompression sowie die Datenkombination.
Als Basis dient hier wiederum die Datenbank:
Anlage I, „Projekt BI Fragenbogen HS Wismar  Daten/  „Umfrage“, Tabellenblatt
„Ausgangsdaten“ sowie infolge die geänderte Fassung nach Datenreduktion: Tabellenblatt
„Da. mit Klassen komp. bereinigt“
(Daten)-Aggregation, Datenkompression und -kombination
(Daten)-Aggregation, Datenkompression und -kombination
Attribut /
Datensatz
E
Attribut
(Frage in
Kurzform)
Momentaner
Studiengang
geprüfte /
genutzte
Methode
ZusammenZusammenfassen der jeweiligen Studiengangsattribute
fassung
"Bachelor (0, 1, 2, 3)" und "Master (4, 5, 6, 7, 8, 9)" zu
(Aggregation)
neuen Attributen "Bachelor (1)" und "Master (2)".
von Attributen
Löschung
K
Vorherige
Studiengangsbelegung
Ergebnis
Löschung des Attributs "anderer (10)", da dieses nicht
gewählt wurde und infolge irrelevant zu der
vorhergegangenen Datenverdichtung ist.
Zusammenfassung und Kodierung der jeweiligen
Studiengangsattribute "Bachelor Wirtschaftsrecht",
"Betriebswirtschaft", "Bachelor BW", "Bachelor WI",
"WI Bachelor", "Wirtschaftsinformatik", "VWL" zu
Zusammenneuem Attribut "Wirtschaftswissenschaften (1)";
fassung
"Jura Uni Rostock" zu neuem Attribut
(Aggregation)
"Rechtswissenschaften (2)"; "Multimediatechnik",
und
"Verfahrens- und Umwelttechnik",
Kodierung
"Bauingenieurwesen", "dual Maschinenbau",
(Daten"Maschinenbau" zu neuem Attribut
kompression)
"Ingenieurwissenschaften (3)"; "Lehramt
von Attributen
AWT/Informatik" zu neuem Attribut
"Erziehungswissenschaften (4)" und "Agrarökologie
Uni Rostock" zu neuem Attribut "Agrar- und
Forstwissenschaften (5)".
Datenkombination
und
Kodierung
Arbeitsmarkt- (DatenS und R
möglichkeiten kompression)
von Attributen
Löschung
Kombination der Spaltenattribute "sehr gut (0)", "gut
(1)", "okay (2)", "mäßig (3)", "schlecht (4)" sowie des
Spaltenattributs "weiß nicht" mit nachfolgender
Kodierung "weiß nicht (5)".
Entfernen der Spalte R "weiß nicht".
9
Z - AD
AE und
AF
AG und
AH
AP
Momentane
Wohnungsverhältnisse
Verfügbarkeit
über alleinige
Wohnfläche
in m²
Einschätzung
Studiumsleistung
Wochenenden in
Wismar
Zusammenfassung der jeweiligen Wohnverhältnisattribute "Eigentumswohnung/-haus", "Eltern" zu
neuem Attribut "private Wohnverhältnisse: ja (1), nein
Zusammen(0); "Mietwohnung" zu neuem Attribut "öffentliche
fassung
(Aggregation) Wohnverhältnisse: ja (1), nein (0)";
von Attributen "Wohngemeinschaft", "Studentenwohnheim" zu
neuem Attribut "gemeinschaftliche
Wohnverhältnisse: ja (1), nein (0)".
Datenkombination
und
Kodierung
(Datenkompression)
von Attributen
Kombination der Spaltenattribute "< 10m² (0)", "11-20
m² (1)", "21-30 m² (2)", "> 30m² (3)" sowie des
Spaltenattributs "weiß nicht" mit nachfolgender
Kodierung "weiß nicht (4)".
Löschung
Entfernen des Spaltenattributs AE "weiß nicht".
Datenkombination
und
Kodierung
(Datenkompression)
von Attributen
Kombination der Spaltenattribute "sehr gut (0)", "gut
(1)", "okay (2)", "mäßig (3)", "schlecht (4)" sowie des
Spaltenattributs "weiß nicht" mit nachfolgender
Kodierung "weiß nicht (5)".
Löschung
Entfernen des Spaltenattributs AH "weiß nicht".
Kodierung des jeweiligen Wochenendattributs
Kodierung
"Alle" zu neuem Attribut "Alle (1)";
(Daten"Jedes dritte" zu neuem Attribut "Jedes dritte (2)";
kompression)
"Jedes zweite" zu neuem Attribut "Jedes zweite (3)"
von Attributen
und "Keins" zu neuem Attribut "Keines (4)".
Zusammenfassung
Zusammenfassung und Kodierung der jeweiligen
Nutzung
(Aggregation)
Verkehrsmittelattribute "Bahn", "Bus" zu neuem
Verkehrsund
Attribut "öffentliche Verkehrsmittel: ja (1), nein (0);
AR - AW
mittel zur
Kodierung
"Auto", "Motorrad", "Fahrrad", "zu Fuß" zu neuem
Hochschule (DatenAttribut "private Verkehrsmittel: ja (1), nein (0)".
kompression)
von Attributen
Zusammenfassung
Zusammenfassung und Kodierung der jeweiligen
Nutzung
(Aggregation)
Verkehrsmittelattribute "Bus" zu neuem Attribut
Verkehrsund
"öffentliche Verkehrsmittel: ja (1), nein (0);
AY - BC
mittel in
Kodierung
"Auto", "Motorrad", "Fahrrad", "zu Fuß" zu neuem
Wismar
(DatenAttribut "private Verkehrsmittel: ja (1), nein (0)".
kompression)
von Attributen
Zusammenfassung
Zusammenfassung und Kodierung der jeweiligen
(Aggregation)
Zufriedenheit
Situationsattribute "Sehr zufrieden", " Zufrieden",
und
Lebens"Eher zufrieden" zu neuem Attribut "Zufrieden (1);
BE
Kodierung
situation
"Eher unzufrieden", "Unzufrieden" zu neuem Attribut
(Daten"Unzufrieden (2)".
kompression)
von Attributen
Tab. 3: Datenreduktion und -transformation - (Daten)-Aggregation, Datenkompression u -kombination
(Quelle: eigene Darstellung)
10
Des Weiteren wurden alle 54 Datensätze (Fragen) entsprechenden Klassen zugeordnet.
Dieses hat den Zweck, die jeweils anders gearteten Bereiche (Klassen), im Data Mining
bspw. bei der Assoziationsanalyse - A Priori so miteinander zu kombinieren, um gezielt die
Abhängigkeiten von allen Attributen der verschiedenen Klassen untereinander untersuchen
zu können (siehe Data Mining, S. 16).
Bildung von Klassen:
Nr.
1.
Einteilung Klassen
Datensatz
(Spalte)
G
H
Persönliche Daten
Attribut
(Frage in Kurzform)
Geschlecht
Alter
2.
Schule / Ausbildung / Arbeitsmarkt
E
F
I
J, K
L-T
3.
Finanzierung
U-Y
4.
Einschätzung Leistung Studium
AG - AK
Studienleistung
5.
Interessen
AL - AO
AQ
TV, Videospiele
Sport
Persönliches Umfeld / Situation
Z - AF
AP
AR - AX
AY - BD
BE
Wohnung (eigene, Größe)
Wochenenden in Wismar
Verkehrsmittel zur HS
Verkehrsmittel in HWI
Lebenssituation
6.
Studiengang
Semester
Berufsausbildung
Erststudium
Hochschule
Arbeit, Finanzielle Mittel
Tab. 4: Bildung von Klassen
(Quelle: eigene Darstellung)
Für nachstehende Datenänderung wurde auf folgende Datenbank zugegriffen:
Anlage I, „Projekt BI Fragenbogen HS Wismar  Daten/  „Umfrage“, Tabellenblatt
„Ausgangsdaten“ sowie infolge die geänderte Fassung nach Datenreduktion: Tabellenblatt
„Daten mit Klassen be. Knime“
Um eine problemlose Bearbeitung der Daten in KNIME zu gewährleisten, ist die
Umwandlung der Umlaute ä, ö und ü in ae, oe und ue vorgenommen worden. Ebenso
wurden die Attribute (Fragen / Datensätze) sinnvoll gekürzt, um eine hinreichend genaue
Bearbeitung in den KNIME-Verfahren im Data Mining zu ermöglichen.
Die Datenvorbereitung ist somit abgeschlossen. Als Ausgangsbasis dient nunmehr:
Anlage I, „Projekt BI Fragenbogen HS Wismar  Daten/  „Umfrage“, Tabellenblatt
„Daten mit Klassen be. Knime“ bzw. Anlage II
11
4
Data Mining
Nachdem die Datenvorbereitung abgeschlossen ist, kann mit der Datenanalyse, speziell mit
dem Data Mining und infolge der Ergebnisinterpretation begonnen werden.
Datenselektion
Datensäuberung
Datenreduktion
Datentransformation
Data-Mining
Evaluation
Datenanalyse
Abb. 7: Ablauf eines Data-Mining-Prozesses
(Quelle: eigene Darstellung in Anlehnung an Fayyad et al 1996)
Um Wissen aus Daten extrahieren zu können, nutzen wir für unser Data Mining - Projekt
ausschließlich das Data Mining-Werkzeug KNIME. Wir möchten dennoch kurz darauf
hinweisen, dass der aktuelle Markt von automatisierten Analysewerkzeugen aufgrund der
zunehmenden Bedeutung von Business Intelligence eine breite Palette von Data Mining
Tools zur Verfügung stellt. So gibt es momentan über 150 verschiedene Werkzeuge für die
Analyse von Daten. 3
In Anlage II befinden sich nochmal alle Attribute mit deren Ausprägungen, die wir innerhalb
unseres Projektes in KNIME zur Daten-Extrahierung verwendet haben. Besonders die
Festlegung der Ausprägungen von den Attributen ist zu beachten, da diese letztendlich nach
Auswertung der Daten in KNIME die Ergebnisse wiederspiegeln.
3
Vgl. Neckel, 2012.
12
4.1
Allgemeiner Aufbau in KNIME
Für eine erfolgreiche Umsetzung von Data Mining-Projekten in KNIME, muss der folgende
grundsätzliche Aufbau beachtet werden. Dieser ist jedoch als allgemeingültiger Aufbau für
unser Projekt anzusehen, da sich dieser beim Einlesen anderer Daten bzw. Datentypen oder
der Auswahl von weiteren Data Mining-Verfahren unterscheiden kann. 4
Abb. 8: Grundaufbau für das Projekt „Fragebogen HS Wismar“
(Quelle: KNIME)
Als erstes müssen in KNIME die zu bearbeitenden Ausgangsdaten (siehe Ordner „Daten“)
über den Knoten „XLS Reader“ eingelesen werden. Im darauffolgenden Knoten „Number To
String“ werden die Spaltenwerte selektiert, die von numerischen Integer-Werten zu dem
Datentyp String umgewandelt werden sollen. Da unsere Daten aus dem Fragebogen alles
numerische Integer-Datentypen waren, mussten alle Attribute in den Datentyp String
umgewandelt werden. Dies war auch dazu notwendig, um mit den von uns ausgewählten
Data Mining-Verfahren arbeiten zu können. Ohne die Umwandlung der Daten in den
Datentyp String funktionierte kein Data Mining-Verfahren in KNIME.
Im Knoten „Column Filter“ wurde dann eine Datenselektion vorgenommen. Das heißt, hier
besteht die Möglichkeit Attribute in die Analyse ein- oder auszuschließen. Anschließend
erfolgte die Analyse der Daten mit den verschiedenen Verfahren.
4
Besonderheiten im Aufbau von KNIME werden in den einzelnen Data-Mining-Verfahren im
Abschnitt 4.3 gesondert dargestellt.
13
4.2
Assoziationsanalyse - A Priori
Im ersten Schritt nach der Datenvorbereitung sollten auf Grundlage der vorliegenden Daten
aus der Befragung der Studenten von der Hochschule Wismar mit Hilfe einer
Assoziationsanalyse Abhängigkeiten zwischen den Datensätzen des Datenbestandes
entdeckt werden. Hierzu wird das Augenmerk nicht nur auf das Zielattribut gelegt, wie beim
Erstellen von Klassifikationsregeln, stattdessen ist es beim Aufstellen von Assoziationsregeln
wichtig, auch die Zusammenhänge bzw. Abhängigkeiten zwischen beliebigen Attributen zu
betrachten. Beschrieben werden diese Abhängigkeiten der Attribute über Wenn-dannRegeln. 5 Das heißt „Wenn Item A vorkommt, dann tritt auch Item B auf“ 6. Eine weitere
Möglichkeit wäre zum Beispiel „Wenn Item A vorkommt, dann tritt auch Item B und Item C
auf“. Die Ausprägung eines Attributwertes eines Datensatzes ist dabei immer ein Item.
Wichtig ist es an dieser Stelle festzuhalten, dass die aufgedeckten Beziehungen nicht als
Vermutungen angenommen werden, sondern anhand einer ausführlichen Assoziationsanalyse der vorliegenden Daten entdeckt und als Resultat die dafür entsprechenden
Assoziationsregeln aufgestellt werden. 7 Eine Bewertung der Assoziationsregeln erfolgt über
den Support und deren Konfidenz. Der Support gibt dabei Auskunft darüber, „[…] wie viele
Datensätze im Verhältnis zu den Gesamtdaten diese Regel unterstützen.“ 8. Die Konfidenz
hingegen gibt an, „[…] wie viele Datensätze diese Regel unterstützten, im Verhältnis zu den
Datensätzen die nur die Prämisse der Regel supporten.“ 9
Wie in jedem Data Mining-Vorhaben, war es auch für unser Projekt wichtig anhand einer
ausführlichen
Assoziationsanalyse
Abhängigkeiten
unter
den
aus
der
Befragung
hervorgehenden Attributen und deren Ausprägungen zu finden. Dazu wurde der durch
KNIME zur Verfügung gestellte A-Priori-Algorithmus eingesetzt. Mit deren Hilfe sollten
Frequent Itemsets (Kandidaten) mit ausreichendem Support und Konfidenz gefunden sowie
die daraus resultierenden Assoziationsregeln aus allen Frequent Itemsets ausgeben
werden. 10 Der Aufbau des A-Priori-Algorithmus in KNIME stellt sich wie folgt dar:
Abb. 9: A-Priori-Algorithmus
(Quelle: KNIME)
5
6
7
8
9
10
Vgl. TecChannel, 2009, S. 309.
TecChannel, 2009, S. 309.
Vgl. TecChannel, 2009, S. 309.
TecChannel, 2009, S. 309.
TecChannel, 2009, S. 309.
Vgl. Cleve, J., 2012, S.44.
14
Um eine erste Übersicht von möglichst vielen guten Assoziationsregeln zu erhalten, wurden
im Knoten „Column Filter“ (Knoten zur expliziten Auswahl von Attributen) zuerst alle Attribute
und deren Ausprägungen (Grundlage siehe Anlage II) ausgewählt und eine Konfidenz /
Support von 0,8 im Knoten „Apriori“ eingestellt. Als Resultat gab der A-Priori-Algorithmus
7.698 Assoziationsregeln aus. Die besten 300 Regeln sind dem Ordner „Assoziationsregeln
 Best Rules (1 - 300) bei Supp. 0,8 und Conf. 0,8“ 11 zu entnehmen. Aus diesem geht
hervor, dass besonders die Attribute sowie deren Ausprägungen „Erststudium“, „Öffentliche
und Private Verkehrsmittel zur Hochschule“, „Verkehrsmittel zur Hochschule: Anders“,
„Öffentliche und Private Verkehrsmittel in Wismar“, „Bewegung in Wismar: Anders“ und
„Zufriedenheit Lebenssituation“ in einem sehr großen Teil der Assoziationsregeln
vorkommen. Das ist an dieser Stelle auch nicht verwunderlich, da die soeben erwähnten
Attribute alle nur zwei Ausprägungen (Ja / Nein) haben und schon aus logischer Sicht große
Abhängigkeiten untereinander bestehen.
Das folgende Beispiel verdeutlicht dies nochmal:
Nutzt ein Student nicht die Öffentlichen Verkehrsmittel oder kommt nicht „Anders“ zur
Hochschule, muss er in jedem Fall mit Privaten Verkehrsmitteln zur Hochschule kommen.
{Öffentliche Verkehrsmittel zur Hochschule = 0;
{Private Verkehrsmittel zur Hochschule=1;}
Verkehrsmittel zur Hochschule: Anders = 0}
Weitere Konstellationen die in den 7.698 Assoziationsregeln sehr häufig vorkamen waren
unter anderem:

{Private Wohnverhaeltnisse = 0}
{Oeffentliche Wohnverhaeltnisse = 1;
Gemeinschaftliche Wohnverhaeltnisse = 1}
{Erststudium=0}

{Vorherige Studiengangsbelegung = 0}
{Private Verkehrsmittel zur Hochschule = 1}

{Zufriedenheit Lebenssituation = 1}
11
Daten per CD übergeben.
15
Da es uns aber nicht möglich war alle 7.698 Assoziationsregeln im Detail anzuschauen und
wir trotzdem wissen wollten, wie sich einzelne Attribute mit deren Ausprägungen zueinander
verhalten, haben wir wie bereits im Kapital 3 erwähnt, alle Attribute in für uns schlüssige
Klassen eingeteilt. Als Ergebnis kamen 6 verschiedene Klassen raus (siehe Tabelle 4).
Kerngedanke dahinter war, die Daten zu strukturieren und somit die Möglichkeit zu haben,
gezielt die Abhängigkeiten von allen Attributen der verschiedenen Klassen untereinander zu
untersuchen. Außerdem war es wichtig auch die Assoziationsregeln herauszufiltern, die nur
minimal unter der von uns geforderten Konfidenz sowie einem Support von 0,8 lagen. Ein
weiterer Effekt der Strukturierung, auf diesen jedoch erst später eingegangen wird, war die
Vereinfachung bei den Tests mit den Data Mining-Verfahren Decision Tree, J48 - Algorithmus
und Naive Bayes.
Anhand
eines
Beispiels
soll
unsere
Vorgehensweise
für
die
Aufstellung
der
Assoziationsregeln verdeutlicht werden. Die gesamten Ergebnisse sind in den Ordnern
„Assoziationsregeln  1. Persönliche Daten - 6. Persönliches Umfeld und Situation“ zu
finden.
Beispiel: 2. Schule, Ausbildung und Arbeitsmarkt
Ziel unserer Assoziationsanalyse war es, alle Attribute jeder Klasse mit denen der anderen
Klassen zu vergleichen, um jeweils die Top 20 Assoziationsregeln bestimmen zu können.
Abb. 10:
Ergebnis Assoziationsregeln Klasse 2
(Quelle: eigene Darstellung)
16
Anhand der Abbildung 10 ist zu erkennen, dass alle Attribute der Klasse 2 mit den Attributen
der anderen Klassen für eine Assoziationsanalyse in Verbindung gesetzt wurden. Zusätzlich
ist zu erwähnen, dass eine Betrachtung nur auf die Attribute innerhalb der Klasse 2 erfolgte
(siehe 2 zu 2) und in der Klasse 6 die 3 Attribute Verkehrsmittel, Wohnen und Zufriedenheit
einzeln ausgewertet wurden. Dies ist darauf zurückzuführen, dass der A-Priori-Algorithmus in
KNIME 12 die einzelnen Attribute automatisch innerhalb der Klassen in Verbindung setzt und
somit Assoziationsregeln in Zusammenhang mit Verkehrsmitteln alle anderen Attribute
dominieren würde. Das heißt, Assoziationsregeln für die Attribute Zufriedenheit und Wohnen
und auch alle anderen Attribute würden demzufolge immer im hinteren Ranking der Best
Rules liegen, die der A-Priori-Algorithmus in KNIME ausgibt. Daher haben wir bei dem
Attribut Verkehrsmittel immer 2 Ergebnissteile ausgegeben. Der erste Teil sieht bei allen
Klassen gleich aus, da das Attribut Verkehrsmittel immer die ersten 20 Plätze der Best Rules
einnimmt. Im zweiten Ergebnisteil ist dann mindestens ein Attribut aus der Klasse zu finden
zu welcher wir es in Verbindung gesetzt haben.
Abb. 11:
12
Beispiel Attribute der Klasse 2 zu 3 (exemplarisch)
(Quelle: KNIME)
Das ist aber nicht nur in KNIME so, sondern in allen Data Mining-Werkzeugen. Schließlich ist es
auch das Ziel, nur die Besten Assoziationsregeln zu finden und wenn diese innerhalb einer Klasse
sind, kann das letztendlich auch das beste Ergebnis sein.
17
Eine weitere Besonderheit unserer durchgeführten Assoziationsanalyse ist in der Abbildung
11 zu erkennen. In diesem Fall haben wir den minimalen Support und die Konfidenz auf 0,55
festgelegt. Das liegt daran, dass wir bei der Assoziationsanalyse als Ziel ausgegeben haben
immer mindestens ein Attribut bzw. eine Assoziationsregel aus beiden ausgewählten
Klassen innerhalb der 20 Best Rules zu haben (außer Verkehrsmittel, da war dies nicht
möglich). In dem Beispiel aus der Abbildung 11 wäre das die Regel 18 (Erststudium = 0 ist
Klasse 2; Finanzielle Unterstützung Eltern = 0 ist Klasse 3 und Vorherige Studiengangsbelegung = 0 ist Klasse 2). An dieser Stelle ist festzuhalten, dass uns schon bewusst ist dass
die Aussagekraft dieser Assoziationsregel bei einem Support von 0,55 eher gering ist. Aber
somit wussten wir genau, dass bei diesen Attributen eine geringe Abhängigkeit besteht und
konnten somit für die bevorstehenden Data Mining-Verfahren unsere Schlussfolgerungen
ziehen.
4.3
Grundsätzliches Vorgehen Data Mining-Verfahren
Aufgrund dessen, das in unserem Data Mining-Projekt keine expliziten Zielattribute
vorgegeben wurden, war es uns möglich den vorhandenen Datenbestand in alle nur
erdenkliche Richtungen auszuwerten. Das heißt, die Festlegung welche genauen Daten
analysiert werden sollten erfolgte durch uns. Durch die große Anzahl von Attributen des
Fragenbogens und der daraus resultierenden großen Vielfalt an Möglichkeiten von
Ergebnissen aus der Daten-Extrahierung, haben wir uns auf 10 unterschiedliche Fragestellungen bzw. Zielattribute vor der Durchführung der Data Mining-Verfahren festgelegt.
Diese sind der Tabelle 5 zu entnehmen:
Relevante „Fragenstellungen“ für die Durchführung der Data Mining-Verfahren
(Zielattribute sind fett gedruckt)
1.
2.
3.
4.
5.
6.
Kommen die Studenten aufgrund einer Empfehlung an die Hochschule Wismar?
Ist das Studium an der HS Wismar für männliche Studenten das Erststudium?
Ist das Studium an der HS Wismar für weibliche Studenten das Erststudium?
Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule Wismar?
Nutzen die Studenten private Verkehrsmittel zur Hochschule Wismar?
Sind Studierende mit ihrer aktuellen Lebenssituation als Student an der Hochschule Wismar
zufrieden?
7. Bevorzugen Studenten der Hochschule Wismar in gemeinschaftlichen Wohnverhältnissen zu
leben?
8. Sind Studenten der Hochschule Wismar mit ihren erbrachten Leistungen im Studium
zufrieden?
9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen
(Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein?
10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem
Arbeitsmarkt ein?
Tab. 5: Relevante "Fragestellungen" bzw. Zielattribute
(Quelle: eigene Darstellung)
18
Die Auswahl der 10 unterschiedlichen Fragestellungen bzw. Zielattribute erfolgte dabei nicht
rein zufällig, sondern anhand des vorhandenen Datenbestandes und der vorher
durchgeführten Assoziationsanalyse. Genauer gesagt, unser Ziel war es nicht so viele
Zielattribute wie möglich mit guten Vorhersagewerten zu finden, sondern aufgrund des
Umfangs des Projektes und der begrenzten Zeit eher allgemeingültige Ergebnisse bzw.
Aussagen für die Auswertung des Fragebogens zu finden. Daher haben wir uns 8
Zielattribute (Fragestellungen 1 - 8) mit nur 2 Ausprägungen rausgesucht, bei denen die
Wahrscheinlichkeit
aufgrund
der
sehr
allgemeingehaltenen
Fragestellungen,
der
vorgenommenen Assoziationsanalyse sowie der akzeptablen Qualität der Daten sehr hoch
war, gute Vorhersagewerte erreichen zu können. Bei den Fragestellungen 9 und 10 haben
wir speziellere Fragen genommen, bei denen das Zielattribut auch noch mehrere
Ausprägungen hat und es somit wahrscheinlich zu eher schlechteren Vorhersagewerten
kommen dürfte. Um auch hier allgemeingültige Aussagen treffen zu können, wurde das
Zielattribut „Arbeitsmarktmoeglichkeiten“ einmal ohne und einmal mit Clusterung betrachtet
(mit Cluster-Bildung siehe Abschnitt 4.3.4).
Im Folgenden sollten unsere Annahmen hinsichtlich der Auswahl von Zielattributen (zu dem
derzeitigen Stand des Projektes) anhand der Data Mining-Verfahren mit den Decision Tree,
J48 - Algorithmus und Naive Bayes analysiert bzw. bewiesen werden. Dazu wurden zu jeder
der 10 Fragestellungen maximal 10 Tests 13 mit dem jeweiligen Verfahren gemacht. Als Ziel
wurde ein Gesamtvorhersageergebnis von mindestens 80 % für das ausgewählte Zielattribut
ausgegeben.
Für die Betrachtung der Vorgehensweise sowie deren Besonderheiten von den drei Data
Mining-Verfahren Decision Tree, J48 - Algorithmus und Naive Bayes wird das Zielattribut
„Oeffentliche Verkehrsmittel zur HS“ im Folgenden exemplarisch dargestellt. Die gesamten
Ergebnisse aller in Tabelle 5 angegebenen Fragestellungen sind in den Ordnern „Projekt BI
Fragenbogen HS Wismar  Naive Bayes/  Decision Tree/  J48 - Algorithmus“ zu finden.
13
Konnte schon vor Ablauf der 10 Tests ein Gesamtvorhersageergebnis von 100 % erreicht werden,
wurden keine weiteren Tests mehr durchgeführt.
19
Die darin enthaltenen Excel-Tabellen stellen sich für jedes Zielattribut wie folgt dar:
Rote Zeile =
Zielattribut
Korrekte Gesamtvorhersage
Ergebnisverteilung der
Entscheidungen (einzelne
Vorhersageergebnisse)
Grüne Zeile =
Hinzufügen eines
Attributes
Weiße Zeile = Nicht
ausgewählte Attribute
Bestes Testergebnis für das
Zielattribut (rot markiert)
Anzahl Tests pro Zielattribut
Abb. 12:
4.3.1
Ergebnisse der Data Mining-Verfahren
(Quelle: eigene Darstellung)
Naive Bayes
Ziel dieses Verfahren ist es, die wahrscheinlichste Klasse vorherzusagen. Dabei wird davon
ausgegangen, dass alle Attribute unabhängig voneinander sind. 14 In KNIME stellt sich die
Modellierung des Naive Bayes Verfahrens folgendermaßen dar:
Abb. 13:
14
Modellierung Naive Bayes
(Quelle: KNIME)
Vgl. Cleve, J., 2012, S.55.
20
Nach Abschluss der Grundeinstellungen in KNIME (siehe Abschnitt 4.1) und der passenden
Auswahl von Attributen über den Knoten „Column Filter“ ist es für einige Fragestellungen
notwendig über den Knoten „Nominal Value Row Filter“ nur einzelne Ausprägungen der
Attribute auszuwählen. Ein Beispiel dafür ist die Wahl des Geschlechtes (m/w) oder auch die
Festlegung von Master- und Bachelorstudium (siehe Fragestellung 10 in Tabelle 5). Daher
muss dieser bei Bedarf vor den Knoten „Partitioning“ gelegt werden (siehe rote Pfeile in der
Abbildung 13). Nachdem alle Grundeinstellungen erfolgt sind, werden im ersten Knoten des
Verfahrens die eingelesenen Daten prozentual in zwei Teilmengen (Trainings- und
Testmenge) geteilt. Wir haben dafür eine Einteilung von 70:30 in KNIME über den Knoten
„Partitioning“ vorgenommen. Das heißt, 70 % der Datenmenge gehen in den Knoten „Naive
Bayes Learner“ und werden zum Lernen von eventuell vorhandenen Mustern in den Daten
verwendet. Die restlichen 30 % der Datenmenge gehen in den Knoten „Naive Bayes
Predictor“, in welchem die erlernten Erkenntnisse aus dem Knoten „Naive Bayes Learner“
angewendet werden. Im letzten Knoten, dem sogenannten „Scorer“ werden die
Vorhersageergebnisse ausgegeben.
Die 10 Tests für das Zielattribut „Oeffentliche Verkehrsmittel zur HS“ (wie auch für alle
anderen Zielattribute) erfolgte bei allen drei Data Mining-Verfahren unter Anwendung unserer
6 zuvor eingeteilten Klassen. Das bedeutet, es wurden progressive immer mehr Attribute aus
den
jeweiligen
Klassen
in
die
Analyse
mit
einbezogen,
um
Gesamtvorhersageergebnisses von mindestens 80 % zu erreichen.
15
das
Ziel
eines
Dabei wurden aber
nicht immer alle Attribute einer Klasse gleichzeitig ausgewählt, sondern zum Teil auch nur
einzelne Attribute aus einer Klasse zu den schon in KNIME ausgewählten Attributen dazu
gegeben (siehe Excel Tabellen). Wie bereits erwähnt, stellte dabei die Einteilung in Klassen
für die Anwendung in den Data Mining-Verfahren nur ein Hilfswerkzeug dar. So konnten wir
in allen 3 Verfahren ähnlich strukturiert vorgehen. Einen besonderen Hintergrund im Sinne
des Data Minings hatte diese Einteilung in Klassen jedoch nicht, weil es vorher kaum
möglich ist, vorherzusagen unter welcher Konstellation von Attributen die besten
Gesamtvorhersageergebnisse erzielt werden können. Ausgenommen ist die Auswahl von
Attributen die starke Abhängigkeiten untereinander haben, da diese den Vorhersagewert
zum Teil erheblich beeinflussen können (siehe Beispiele im Abschnitt 4.2, Assoziationsregeln).
Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im 9. Test
bei Auswahl fast aller Attribute (nur „Zufriedenheit Lebenssituation“ wurde nicht ausgewählt)
erzielt und ist der Abbildung 14 zu entnehmen.
15
Ein Gesamtvorhersageergebnis von mind. 80 % wurde aber auch schon im 1. oder 2. Test erreicht.
D. h., ein gutes Ergebnis war nicht von einer hohen Anzahl an ausgewählten Attributen abhängig.
21
Abb. 14:
Knoten „Scorer“ Naive Bayes
(Quelle: KNIME)
Bei der Fragestellung „Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule
Wismar?“ und den Attributen 0 = Nein / 1 = Ja stellt sich folgendes Ergebnis dar:
Insgesamt wurde ein Gesamtvorhersageergebnis von 95,78 % (68 Datensätze wurden
richtig und 3 Datensätze wurden falsch vorhergesagt) erreicht. Somit lässt sich unter einem
sehr guten Gesamtvorhersagewert von 95,78 % die Aussage treffen: „Nein, die Studenten
der Hochschule Wismar nutzen zu 92,96 % 16 nicht die öffentlichen Verkehrsmitteln zur
Hochschule.“ (zu dieser Prozentzahl wurde die Entscheidung 0 = 0 richtig vorhergesagt).
Generell lässt sich zu dem Naive Bayes Verfahren in KNIME sagen, dass dieses Verfahren
stets konstant gute Vorhersagewerte lieferte, zumindest bei den zu erwarteten Zielattributen
bzw. Fragestellungen 1 bis 8, und es bei allen Tests keinerlei Probleme bei der Modellierung
sowie Ausführung gab.
16
66 Datensätze / 71 Datensätze = 92,96 %.
22
4.3.2
Decision Tree
Bei einem Entscheidungsbaum werden die Ergebnisse einer Bedingung verzweigt und in
repräsentativer Form dargestellt. Aus diesen Verzweigungen können wiederum weitere
Verzweigungen
erzeugt
werden.
Aufgrund
der
sehr
guten
Möglichkeit
mit
Entscheidungsbäumen Ergebnisse zu visualisieren, sind diese ausgezeichnet dafür geeignet
Entscheidungen besser zu verstehen bzw. zu begründen. 17
In
dem
Data
Mining-Verfahren
Decision
Tree
bzw.
Entscheidungsbaum
ist
die
Vorgehensweise dem des Naive Bayes Verfahrens sehr ähnlich. Nachdem alle
Grundeinstellungen und die passenden Attribute bzw. deren Ausprägungen über den Knoten
„Column Filter“ und „Nominal Value Row Filter“ (nur wenn notwendig) ausgewählt wurden,
erfolgt wiederum eine Partitionierung über den Knoten „Partitioning“. Auch in diesem Fall
haben wir die Trainings- und Testmenge in einem Verhältnis 70:30 geteilt und somit 70 %
zum Lernen in den Knoten „Decision Tree Learner“ sowie 30 % zur Anwendung in den
Knoten „Decision Tree Learner Predictor“ gegeben. Im Knoten „Scorer“ erfolgte dann wieder
die Ausgabe der Vorhersageergebnisse. In der Abbildung 15 ist die dazugehörige
Modellierung des Decision Tree Verfahrens in KNIME dargestellt.
Abb. 15:
Modellierung Decision Tree
(Quelle: KNIME)
Auch in diesem Verfahren sind wir mit Hilfe der 6 zuvor eingeteilten Klassen ähnlich
strukturiert vorgegangen. Die gesamten Ergebnisse sind in den einzelnen Excel-Tabellen zu
finden. Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im
10. Test erzielt und ist der Abbildung 16 zu entnehmen. In diesem wurden alle Attribute
außer „Grund Studium: Ruf der Hochschule“, „Grund Studium: Empfehlung“, „Grund
Studium:
Wohnortnähe“,
„Grund
Studium:
Finanzielle
Gründe“,
Studiengangsbedingt“ und „Grund Studium: Andere Gründe“ ausgewählt.
17
Vgl. Cleve, J., 2012, S.23.
23
„Grund
Studium:
Abb. 16:
Knoten „Scorer“ Decision Tree
(Quelle: KNIME)
In diesem Verfahren war das beste Gesamtvorhersageergebnis 92,96 % (66 Datensätze
wurden richtig und 5 Datensätze wurden falsch vorhergesagt). Somit lässt sich diesmal „nur“
(aber immer noch sehr gut) unter einem Gesamtvorhersagewert von 92,96 % die Aussage
treffen: „Nein, die Studenten der Hochschule Wismar nutzen zu 87,32 % 18 nicht die
öffentlichen
Verkehrsmitteln
zur
Hochschule.“
(zu
dieser
Prozentzahl
wurde
die
Entscheidung 0 = 0 richtig vorhergesagt).
Abschließend ist zu dem Decision Tree Verfahren in KNIME zu sagen, dass dieses
Verfahren bei der Auswahl bestimmter Attribute keine Ergebnisse geliefert hat (bei allen
Zielattributen und den jeweiligen Tests). Vor allem die Attribute „Grund Studium: Ruf der
Hochschule“, „Grund Studium: Empfehlung“, „Grund Studium: Wohnortnähe“, „Grund
Studium: Finanzielle Gründe“, „Grund Studium: Studiengangsbedingt“ und „Grund Studium:
Andere Gründe“ konnten in fast keinem Test ausgewählt werden, da ansonsten keine
Ergebnisausgabe im Knoten „Scorer“ erfolgte. Ein Grund dafür könnte natürlich darin liegen,
dass unter Herannahme dieser Attribute keine Ergebnisse einer Bedingung innerhalb eines
Entscheidungsbaums verzweigt werden konnten und somit auch das Verfahren Decision
Tree in KNIME keine Ergebnisse ausgeben konnte. Wenn aber im Knoten „Scorer“
Ergebnisse ausgegeben wurden, waren die Vorhersagewerte wiederum kontinuierlich auf
hohem Niveau (zumindest bei den zu erwarteten Zielattributen bzw. Fragestellungen 1 bis 8).
18
62 Datensätze / 71 Datensätze = 87,32 %.
24
4.3.3
J48 - Algorithmus
Ein weiteres Verfahren, das für die Erzeugung eines Entscheidungsbaums in KNIME zur
Verfügung steht, ist der J48 - Algorithmus, wobei die Vorgehensweise der Modellierung in
KNIME mit den beiden vorherigen Verfahren fast identisch ist. Auch in diesem Verfahren
wurde die Partitionierung über den Knoten „Partitioning“ der Trainings- und Testmenge von
70:30 beibehalten. Diesmal gingen 70 % der Daten zum Lernen in den Knoten „J48“ und die
anderen 30 % zur Anwendung in den Knoten „Weka Predictor“. Im Knoten „Scorer“ erfolgte
dann wiederum die Ausgabe der Vorhersageergebnisse. In der Abbildung 17 ist die
dazugehörige Modellierung des J48 - Algorithmus in KNIME zu sehen.
Abb. 17:
Modellierung J 48 - Algorithmus
(Quelle: KNIME)
Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im 8. Test
erzielt und ist der Abbildung 18 zu entnehmen. In diesem wurden die Attribute „Geschlecht“,
„Alter“,
„Momentaner
Studiengang“,
„Semester“,
„Berufsausbildung“,
„Erststudium“,
„Vorherige Studiengangsbelegung“, „Private Verkehrsmittel zur HS“, „Verkehrsmittel zur
Hochschule: Anders“, „Oeffentliche Verkehrsmittel in Wismar“, „Private Verkehrsmittel in
Wismar“, „Bewegung in Wismar: Anders“ ausgewählt.
Abb. 18:
Knoten „Scorer“ J 48 - Algorithmus
(Quelle: KNIME)
25
Das beste Gesamtvorhersageergebnis lag beim J48 - Algorithmus bei 94,37 % (67 Datensätze wurden richtig und 4 Datensätze wurden falsch vorhergesagt). Daher lässt sich auch
hier auf einer sehr guten Gesamtvorhersagewert von 94,37 % folgende Aussage treffen:
„Nein, die Studenten der Hochschule Wismar nutzen zu 92,96 % 19 nicht die öffentlichen
Verkehrsmitteln zur Hochschule.“ (zu dieser Prozentzahl wurde die Entscheidung 0 = 0
richtig vorhergesagt).
Allgemein lässt sich letztendlich zu dem J48 - Algorithmus in KNIME sagen, dass dieses
Verfahren bei allen ausgewählten Attributen im Knoten „Scorer“ Ergebnisse ausgegeben hat.
An dieser Stelle ist jedoch anzumerken, dass beim J48 - Algorithmus im Gegensatz zum
Decision Tree zwar immer Ergebnisse im Knoten „Scorer“ ausgegeben wurden, diese aber
zum Teil über mehrere Tests gleich waren, obwohl weitere Attribute dazu genommen
wurden. Auch hier vermuten wir, dass der Grund dafür ähnlich wie beim Decision Tree darin
liegen
könnte,
dass
sich
keine
Ergebnisse
einer
Bedingung
innerhalb
eines
Entscheidungsbaums verzweigen lassen. Im Fall des J48 - Algorithmus werden dann einfach
die ausgewählten Daten wie folgt dargestellt.
Abb. 18:
Weka Node View - J48 - Algorithmus
(Quelle: KNIME)
Daher haben wir zum Teil in diesem Verfahren andere Attribute miteinander kombiniert als in
den beiden vorherigen Verfahren, um zu gucken unter welchen Konstellationen ein
Entscheidungsbaum generiert wurde. Insgesamt waren die Vorhersagewerte ebenfalls auf
einem permanent hohem Niveau (zumindest bei den zu erwarteten Zielattributen bzw. Fragestellungen 1 bis 8).
19
66 Datensätze / 71 Datensätze = 92,95 %.
26
4.3.4
kMeans - Algorithmus
Eigentlich sollten in den ersten Schritten jedes Data Mining-Projektes grundlegende Data
Mining-Aufgaben erledigt werden, wie beispielsweise die Cluster-Bildung. Erst daran schließt
sich die Auswahl eines geeigneten Data Mining-Verfahrens an. 20 Aufgrund unserer
speziellen Vorgehensweise zum Treffen allgemeingültiger Aussagen betrachten wir den
kMeans Algorithmus 21, ein Verfahren zur Clusteranalyse, erst an dieser Stelle. Zum Teil
haben wir diese grundlegenden Data Mining-Aufgaben auch schon manuell in der
Datenvorbereitung gemacht (siehe Attribute „Momentaner Studiengang“ und „Zufriedenheit
Lebenssituation“). Dennoch wollten wir nochmal genau wissen, wie sich das Bilden von
Clustern auf die Vorhersageergebnisse auswirkt. Daher haben wir die Fragestellungen
9 und 10 mit dem Zielattribut „Arbeitsmarktmoeglichkeiten“ nochmal mit Hilfe des
kMeans - Algorithmus ausgewertet, da diese Fragestellungen bei den vorherigen Tests in
den Abschnitten 4.3.1 bis 4.3.3 eher mittelmäßige Gesamtvorhersageergebnisse hatten. Die
Fragestellung ist dabei bei beiden gleich geblieben, wie der Tabelle 6 zu entnehmen ist.
9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen
(Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster)
10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem
Arbeitsmarkt ein? (Mit Cluster)
Tab. 6: Fragestellungen 9 und 10 mit Cluster
(Quelle: eigene Darstellung)
Aufgrund der 6 Ausprägungen des Zielattributes „Arbeitsmarktmoeglichkeiten“ wurde für
dieses Attribut eine Cluster-Bildung vorgenommen und mit den 3 bereits verwendeten Data
Mining-Verfahren Decision Tree, J48 - Algorithmus und Naive Bayes Tests durchgeführt.
20
21
Vgl. Cleve, J., 2012, S.10.
Erklärung kMeans Algorithmus: Die Anzahl der gesuchten Cluster wird vorgegeben, deren Zentren
zunächst zufällig festgelegt und iterativ adaptiert werden. Die Cluster werden durch den Centroid
(Schwerpunkt) repräsentiert.
27
Die Modellierung des Naive Bayes Verfahrens mit dem kMeans Algorithmus in KNIME ist der
Abbildung 19 zu entnehmen. Die fast identischen Modellierungen für die Verfahren Decision
Tree und J48 - Algorithmus in KNIME sind in Anlage III aufgeführt.
Abb. 19:
Modellierung Naive Bayes mit kMeans Algorithmus
(Quelle: KNIME)
Die Knoten in dem rot markierten Kasten kommen bei der Modellierung mit kMeans
Algorithmus zum ursprünglich modellierten Naive Bayes Verfahren mit hinzu (ist bei den
anderen beiden Verfahren identisch). Der Knoten „Nominal Value Row Filter“ wird dazu
eingesetzt, um die Ausprägung „weiß nicht (5)“ aus der Auswahl für die Clusterung des
Zielattributs „Arbeitsmarktmoeglichkeiten“ zu entfernen. Somit werden nur aus den restlichen
5 Ausprägungen („sehr gut(0)“, „gut(1)“, „okay(2)“, „mäßig(3)“ und „schlecht(4)“) Cluster
gebildet. Der Grund dafür lag darin, dass wir die Ausprägung „weiß nicht (5)“ schlecht in ein
sinnvolles Cluster einteilen konnten. KNIME würde diese Ausprägung, bei einer
Clustervorgabe von 3 sowie 4, mit den Ausprägungen „okay(2)“, „mäßig(3)“ und „schlecht(4)“
in ein Cluster eingruppieren. Das ist im Sinne der Fragestellung (siehe Tabelle 6) bzw. für die
Ergebnisaussage allerdings eher nicht so sinnvoll. Des Weiteren gab es insgesamt nur 7
Datensätze mit der Ausprägung „weiß nicht (5)“, was gerade einmal ca. 3 % des gesamten
Datenbestandes 22 ausmachte. Daher haben wir diese Ausprägung entfernt, da sie keinen
wesentlichen Einfluss auf die Ergebnisausgabe hatte und somit eine aussagekräftigere
Cluster-Bildung erzielt werden konnte. Im Knoten „String to Number“ wurde das zu clusterne
Zielattribut „Arbeitsmarktmoeglichkeiten“ vom Datentyp String in den numerischen Datentyp
Double umgewandelt, da der kMeans Algorithmus nur mit numerischen Datenwerten
arbeiten kann. Die restlichen Attribute blieben weiterhin im Datentyp String. Der zweite
Knoten „Nominal Value Row Filter“ wurde dafür eingesetzt, um entsprechend der
Fragestellung 9 und 10 zwischen den Ausprägungen der jeweiligen benötigten Attributen
wählen zu können („Momentaner Studiengang = Ausprägung 2“  Fragestellung 10 und
„Einschaetzung Leistung = Ausprägung 0 und 1“  Fragestellung 9). Diese Einstellungen
wären aber auch ohne den kMeans Algorithmus notwendig gewesen.
22
7 Datensätze/ 234 Datensätze = 2,99 %.
28
Nach Abschluss aller nötigen Einstellungen, ergab die Cluster-Bildung anhand des kMeans Algorithmus folgendes Ergebnis (siehe Abbildung 20).
Abb. 20:
Cluster-Bildung mit kMeans - Algorithmus
(Quelle: KNIME)
•
Im Cluster 0 befinden sich die Ausprägungen „okay(2)“, „mäßig(3)“ und „schlecht(4)“
•
Im Cluster 1 befindet sich die Ausprägung „sehr gut(0)“
•
Im Cluster 2 befindet sich die Ausprägung „gut(1)“
Da sich im Cluster 0 der Centroid (Schwerpunkt) bei 2,134 befindet, kann gesagt werden
dass dieses Cluster repräsentativ für die Ausprägung „okay(2)“ steht. Eine weitere
Möglichkeit wäre, das Cluster aufgrund der 3 enthaltenen Ausprägungen als „mittelmäßig“ zu
bezeichnen. Wir haben uns jedoch dafür entschieden, die Bezeichnung „okay(2)“ für dieses
Cluster zu lassen, da der Großteil der Datensätze diese Ausprägung hatte.
Nach Abschluss der Cluster-Bildung konnten die Tests mit den 3 bereits erwähnten Data
Mining-Verfahren beginnen. Die dazugehörigen Testergebnisse sind dem Ordner „kMeans Algorithmus  Naive Bayes/  Decision Tree/  J48 - Algorithmus“ zu entnehmen. Die
Ergebnisse aus beiden Fragestellungen mit dem geclusterten Zielattribut „Arbeitsmarktmoeglichkeiten“ von dem Knoten „Scorer“ sind der Abbildung 21 zu entnehmen.
Abb. 21:
Knoten „Scorer“ von allen 3 Data Mining-Verfahren
(Quelle: KNIME)
29
Wie zu erkennen ist, lag bei beiden Fragestellungen und allen Verfahren das beste Gesamtvorhersageergebnis bei 100 % (alle Datensätze wurden richtig vorhergesagt). Welche
genauen Aussagen anhand dieser Ergebnisse getroffen werden können, sind der Anlage IV
zu entnehmen. Bemerkenswert ist, dass diese Ergebnisse mit maximal zwei Tests erreicht
werden konnten (dies kann natürlich ein Zufall gewesen sein konnte). Anhand dieser
Ergebnisse wird deutlich, dass eine gut durchdachte Cluster-Bildung für das Erzielen
verbesserter Vorhersagewerte in Data Mining-Projekten sehr wichtig sein kann. Dies
verdeutlicht auch nochmal der folgende Vergleich der Fragestellungen 9 und 10 mit und
ohne Clusterung.
Ergebnisse
Naive Bayes
Ergebnisse
Decision Tree
Ergebnisse
J48 - Algorithmus
Fragestellung 9 ohne Cluster
50 %
46,67 %
50 %
Fragestellung 9 mit Cluster
100 %
100 %
100 %
65,22 %
56,52 %
56,52 %
100 %
100 %
100 %
Fragestellung 10 ohne
Cluster
Fragestellung 10 mit Cluster
Tab. 7:
Fragestellungen 9 und 10 mit und ohne Cluster
(Quelle: eigene Darstellung)
Mit großer Sicherheit wird das Clustern nicht immer, wie in unserem Einzelfall, zu dem
Gesamtvorhersageergebnis von 100 % führen. 23 Aber eine generelle Verbesserung der
Vorhersageergebnisse kann damit gut möglich sein (muss jedoch nicht immer so sein). Bei
den folgenden Attributen mit deren Ausprägungen aus unserem Fragebogen würde es auch
noch
Sinn
ergeben,
Studiengangsbelegung“,
eine
Cluster-Bildung
„Std./Woche
(Arbeit)“,
vorzunehmen:
„Semester“,
„Woechentlicher
Zeitanspruch“,
Std./Woche“, „Video- /Ol-spiele Std./Woche“ und „m² allein zur Verfuegung“.
23
Da dies natürlich auch von der Qualität des Datenbestandes abhängig ist.
30
„Vorherige
„TV
4.4
Gesamtergebnisse und Interpretation
Um die Ergebnisse aller analysierten Fragestellungen bzw. Zielattribute mit den Data MiningVerfahren Decision Tree, J48 - Algorithmus und Naive Bayes vergleichbar zu machen,
werden die besten Gesamtvorhersageergebnisse aus den Tests (rot markiert) in der Tabelle
8 nochmal übersichtlich dargestellt.
Fragestellung /
Verfahren
Ergebnisse
Naive Bayes
Ergebnisse
Decision Tree
Ergebnisse
J48 - Algorithmus
Fragestellung 1
Fragestellung 2
Fragestellung 3
Fragestellung 4
Fragestellung 5
Fragestellung 6
Fragestellung 7
Fragestellung 8
Fragestellung 9 ohne Cluster
Fragestellung 9 mit Cluster
83,10 %
100 %
97,44 %
95,78 %
98,59 %
90,14 %
88,73 %
77,47 %
50 %
100 %
83,10 %
100 %
94,87 %
92,96 %
97,18 %
88,73 %
95,78 %
83,10 %
46,67 %
100 %
83,10 %
100 %
97,43 %
94,34 %
97,18 %
88,73 %
98,59 %
84,51 %
50 %
100 %
Fragestellung 10 ohne
Cluster
65,22 %
56,52 %
56,52 %
100 %
100 %
Fragestellung 10 mit Cluster
100 %
Tab. 8: Beste Gesamtvorhersageergebnisse aller Tests
(Quelle: eigene Darstellung)
Anhand der Ergebnisse der Tabelle 8 ist zu erkennen, dass größtenteils hervorragende
Vorhersageergebnisse erzielt werden konnten und sich somit vermuten lässt, dass die
Qualität des Datenbestandes sehr gut ist. Gleichzeitig muss diese Aussage jedoch, aufgrund
der Vielzahl an Möglichkeiten der Daten - Extrahierung aus dem Datenbestand vom Projekt
„Fragebogen HS Wismar“, etwas relativiert werden, da dies nicht bei allen denkbaren
Vorhersageergebnissen zu realisieren sein wird. In diesem Zusammenhang muss auch
nochmal klar gesagt werden, dass unsere Fragestellungen bzw. Zielattribute gezielt
ausgesucht wurden und eventuell das Bild der tatsächlichen Gesamtqualität des
Datenbestandes etwas verzehrt wird. Inwieweit die Qualität des Datenbestandes sehr gut
oder gar schlecht ist, lässt sich aber erst nach intensiverer Analyse des Datenbestandes
endgültig feststellen.
31
Abschließend ist zu allen zur Anwendung gekommenen Data Mining-Verfahren in KNIME zu
sagen, dass die Ergebnisse der Vorhersagewerte bei allen 3 Verfahren auf ähnlichem
Niveau lagen. Es gab zwar marginale Unterschiede in den Ergebnissen, aber aus unserer
Sicht lässt sich keine generelle Aussage treffen, welches Verfahren besser oder schlechter
ist (Grundlage sind die gewonnenen Erkenntnisse aus unserem Projekt). Im Sinne des Data
Minings sollten unserer Meinung nach immer mehrere Verfahren zur Auswertung der Daten
genommen werden, um Ergebnisse in einer anderen Form darzustellen (z. B.
Entscheidungsbäume) oder bisherige Ergebnisse evtl. zu bestätigen bzw. sogar noch zu
verbessern. Jedoch empfiehlt es sich aufgrund der problemlosen Modellierung des Naive
Bayes-Verfahrens in KNIME, sowie der konstanten Ausgabe von sehr guten bis guten
Vorhersagewerten, mit diesem Verfahren zu beginnen.
In Anlage IV befindet sich nochmal eine Übersicht zu allen Aussagen, die anhand der
Gesamtvorhersageergebnisse zu den jeweiligen Fragestellungen bzw. Zielattributen
getroffen werden konnten.
32
5
Grundlegende Konflikte
Einen Konflikt mit großen Auswirkungen ergab sich bei der Umwandlung des Formates bzw.
die Umwandlung der Daten aus der Stud.IP Datenbank der Hochschule Wismar in korrekte
sowie sinnvolle Datensätze. Durch mehrmalige Umsetzung entsprechender Einstellungsmöglichkeiten wurde dieser Konflikt durch Prof. Dr. Cleve behoben und die Daten konnten in
ein fehlerfreies MS Excel-Format gespeichert werden.
Für KNIME:
Aufgrund der geringen Datenmenge gab es keinerlei Probleme beim Einlesen der Daten
über den Knoten „XLS-Reader“.
Die Verarbeitungsgeschwindigkeit zeichnete sich aufgrund dieser geringen Datenmengen als
sehr gut aus.
Teilweise ist KNIME aus unerklärlichen Gründen beim Bearbeiten der Daten mit den
Verfahren abgestürzt.
Die von uns angewandten Methoden bzw. Verfahren in KNIME greifen auf Daten zu, die
vorab partitioniert werden. Davon ausgehend, dass immer eine gleiche Datenteilung erfolgt,
ist uns folgender Konflikt erst später aufgefallen. Durch die unterschiedliche Partitionierung
der Trainingsdaten werden bei KNIME bei jedem Durchlauf mit dem gleichen Datenbestand
teilweise andere Ergebnisse erzielt. Eine Veränderung der Vorgaben erfolgte hierbei aber
nicht. Der Konflikt konnte nicht behoben werden, so dass sich die Ergebnisse folglich
teilweise unterschieden.
33
6
Gesamtfazit
Durch das Projekt „Fragebogen HS Wismar“ ist deutlich geworden, wie aufwendig es ist
anhand des Data Minings Informationen bzw. Muster aus einem vorhandenen Datenbestand
extrahieren zu können. Vor allem die Datenvorbereitung ist sehr zeitintensiv, da sie das
Fundament für die nachfolgenden Data Mining-Verfahren darstellt und dementsprechend von
Grund auf gut durchdacht sein muss. Dadurch dass bei uns keine expliziten Zielattribute
vorgegeben wurden, standen wir vor dem Problem, nahezu in alle nur erdenkliche
Richtungen der Datenauswertung Überlegungen anzustellen. Daher war uns durch die
begrenzte Zeit relativ schnell klar, dass nur einige gezielte Fragestellungen bzw. Zielattribute
Gegenstand dieser Datenanalyse bzw. des Projektes werden konnten. Ziel war es dann,
allgemeingültige Aussagen aus der Auswertung der ausgewählten Zielattribute zu erhalten.
In diesem Zusammenhang ist die Wichtigkeit einer Assoziationsanalyse in einem Data
Mining-Projekt deutlich geworden, da durch diese Analyse erste Schlussfolgerungen
hinsichtlich einer guten Wahl der Fragenstellungen bzw. Zielattribute gezogen werden
konnte. Das bedeutet, wir wollten von Beginn an Zielattribute haben die uns gute
Vorhersagewerte liefern. Daher ist es auch in jedem Data Mining-Projekt elementar eine
Assoziationsanalyse des vorhandenen Datenbestandes vorzunehmen, um überhaupt
Abhängigkeiten von Attributen sowie deren Ausprägungen erkennen zu können. Erst wenn
die Abhängigkeiten bekannt sind, ist auch das Grundgerüst dafür geschaffen, mit den
entsprechenden Data Mining-Verfahren gute Vorhersagen erzielen zu können.
Nach Festlegung der Fragestellungen (Zielattribute), konnten diese mit den 3 Data MiningVerfahren Decision Tree, J48 - Algorithmus und Naive Bayes ausgewertet werden. Innerhalb
dieser Tests bzw. Auswertung ist offensichtlich geworden, dass die durch uns
vorgenommene Einteilung der Attribute in 6 Klassen eine gute Entscheidung war. Durch die
gezielte Selektion von Attributen war es uns schließlich möglich, einen roten Faden bei der
Durchführung der Tests zu erhalten. Dennoch ist es insgesamt nicht möglich, eine
allgemeingültige Aussage bezüglich der Auswahl von Attributen treffen zu können, da es
sehr schwer ist zu entscheiden, welches Attribut verzichtbar sowie unverzichtbar für ein
gutes Vorhersageergebnis ist.
Abschließend ist festzuhalten, dass wir durch das Projekt „Fragebogen HS Wismar“ viele
praxisrelevante Erfahrungen sammeln konnten und dadurch ein erstes grundlegendes
Verständnis im Bereich des Data Minings erhalten haben.
34
Quellenverzeichnis
Cleve, J., 2012, Vorlesungsskript Business Intelligence / Data Mining, Wintersemester
2012/13
Ertel, W., 2009, Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung,
2. Auflage, Vieweg+Teubner I GWV Fachverlage GmbH
Fayyad, U.-M.; Peatetsky-Shapiro, G.; Smyth, P., 1996, Advances in Knowledge Discovery
and Data Mining, MIT Press
Gabriel, R.; Gluchowski, P.; Pastwa, A., 2009, Datawarehouse & Data Mining, w3l GmbH
TecChannel, 2009, Basiswissen SOA - BI - CRM - ECM: Grundlagen, Methoden, Praxis,
tedition-Verlag
Chamoni,
P.,
2012,
Data
Mining,
verfügbar
unter:
http://www.enzyklopaedie-der-
wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/BusinessIntelligence/Analytische-Informationssysteme--Methoden-der-/Data-Mining/index.html,
(letzter Zugriff: 27.12.2012)
Neckel,
P.,
2012,
Alles
über
Data
Mining,
verfügbar
unter:
http://www.pc-
magazin.de/ratgeber/alles-ueber-data-mining-1333685.html, (letzter Zugriff: 30.12.2012)
EHRENWÖRTLICHE ERKLÄRUNG
Ehrenwörtliche Erklärung
Wir erklären hiermit ehrenwörtlich, dass wir die vorliegende Arbeit selbständig angefertigt
haben. Die aus fremden Quellen direkt oder indirekt übernommenen Gedanken sind als
solche kenntlich gemacht. Es wurden keine anderen als die angegebenen Quellen und
Hinweise verwandt.
Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen Form
verwendet wurden, sind der Arbeit beigefügt. Der Durchführung einer elektronischen
Plagiatsprüfung stimmen wir hiermit zu. Die eingereichte Datei entspricht der eingereichten
Druckfassung.
Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und auch
noch nicht veröffentlicht.
Wismar, 07.01.2013
Datum
Matthias Säger
Stefan Wagner
Anlagen
Anlage I:
Projekt BI Fragebogen HS Wismar
Anlage II:
Alle Attribute mit Ausprägungen aus der Befragung
Anlage III:
Decision Tree und J48 - Algorithmus mit kMeans - Algorithmus
in KNIME
Anlage IV:
Aussagen zu den Fragestellungen anhand der
Vorhersageergebnisse
siehe CD
Anlage I:
Anlage II:
Alle Attribute mit Ausprägungen aus der Befragung.
Attribute mit Ausprägungen
Geschlecht: weiblich(0), männlich(1)
Alter: 17-20(0), 21-25(1), 26-30(2), 31+(3)
Momentaner Studiengang: Bachelor (1), Master (2)
Semester: 1(0), 2(1), 3(2), 4(3), 5(4), 6(5), 7(6), 8(7), 9(8), 10+(9)
Berufsausbildung vor Studium: ja(0), nein(1)
Ist dies Dein Erststudium: ja(0), nein(1)
Falls NEIN,
welche vorherige Studiengangsbelegung:
Keinen (0), Wirtschaftswissenschaften (1),
Rechtswissenschaften (2), Ingenieurwissenschaften ) (3),
Lehramt und Erziehungswissenschaften (4),
Agrar- und Forstwissenschaften (5), Keine Angabe (6)
Warum Studium in Wismar: Ruf der Hochschule: ja(1), nein(0)
Warum Studium in Wismar: Empfehlung: ja(1), nein(0)
Warum Studium in Wismar: Wohnortnähe: ja(1), nein(0)
Warum Studium in Wismar: Finanzielle Gründe: ja(1), nein(0)
Warum Studium in Wismar: Studiengangsbedingt: ja(1), nein(0)
Warum Studium in Wismar: Andere Gründe: ja(1), nein(0)
Wismar Wunschstudienort?: ja(0), nein(1)
Arbeitsmarktmöglichkeiten nach Studium:
sehr gut(0), gut(1), okay(2), mäßig(3), schlecht(4), weiß nicht(5)
Erhältst Du BAföG: ja(0), nein(1)
Finanzielle Unterstützung von Deinen Eltern: ja(0), nein(1)
Zusätzlich arbeiten: ja(0), nein(1)
Wenn JA, wie viele Std./Woche:
1-5h(0), 6-10h(1), 11-15h(2), 16-20h(3), 21+ h(4), Keine Arbeit(5), Keine Angabe (6)
Wie viele finanzielle Mittel stehen monatl. zur Verfügung (inkl. aller Kosten):
0-500€(0), 501-700€(1), 701-900€(2), 901-1100€(3), 1100+€(4), Keine Angabe(5)
Einschätzung Leistung im Studium:
sehr gut(0), gut(1), okay(2), mäßig(3), schlecht(4), weiß nicht(5)
Damit zufrieden: ja(0), nein(1)
Wie viel Zeit beansprucht das wöchentl. Studium (inkl. Lehrveranstaltungen):
< 20 h(0), 20-30 h(1), 31-40 h(2), 41-50 h(3), 51-60 h(4), 61-70 h(5), 71+ h(6)
Ist das ausreichend: ja(0), nein(1)
Besitzt Du einen TV: ja(0), nein(1)
Wenn Ja, wie viele Std./Woche schaust Du:
0h(0), 1-10h(1), 11-20h(2), 21-30(3), 31+h(4), kein TV(5)
Spielst Du Video-/Onlinespiele: ja(0), nein(1)
Wenn Ja, wie viele Std./Woche:
1-10h(0), 11-20h(1), 21-30h(2), 31+ h(3), keine Video- /Ol-spiele(4)
Treibst Du regelmäßig Sport: ja(0), nein(1)
Lebst du in privaten Wohnverhältnissen (Eigentumswohnung/-haus, Eltern): ja(1), nein(0)
Lebst du in öffentlichen Wohnverhältnissen (Mietwohnung): ja(1), nein(0)
Lebst du in gemeinschaftlichen Wohnverhältnissen (Wohngemeinschaft,
Studentenwohnheim):
ja(1), nein(0)
Wie viele m² stehen Dir alleine zur Verfügung:
< 10m²(0), 11-20 m²(1), 21-30 m²(2), > 30m²(3), weiß nicht(4)
Wie viele WE verbringst Du in Wismar: Alle(1), Jedes dritte(2), Jedes zweite(3), Keines (4)
Nutzt Du öffentliche Verkehrsmittel zur Hochschule (Bahn, Bus): ja(1), nein(0)
Nutzt Du private Verkehrsmittel zur Hochschule (Auto, Motorrad, Fahrrad, zu Fuß): ja(1),
nein(0)
Wie kommst Du zur Hochschule?: Anders: ja(1), nein(0)
Nutzt Du öffentliche Verkehrsmittel in Wismar (Bus): ja(1), nein(0)
Nutzt Du private Verkehrsmittel in Wismar (Auto, Motorrad, Fahrrad, zu Fuß): ja (1), nein(0)
Wie bewegst Du Dich **in** Wismar?: Anders: ja(1), nein(0)
Zufriedenheit Lebenssituation als Student: Zufrieden(1), Unzufrieden(2)
(Quelle: eigene Darstellung)
Anlage III:
Decision Tree und J48 - Algorithmus mit kMeans - Algorithmus in KNIME
Modellierung Decision Tree mit dem kMeans - Algorithmus in KNIME:
(Quelle: KNIME)
Modellierung J48 - Algorithmus mit dem kMeans - Algorithmus in KNIME:
(Quelle: KNIME)
Anlage IV: Aussagen zu den Fragestellungen anhand der Vorhersageergebnisse
Relevante „Fragenstellungen“ für die Durchführung der Data
Mining-Verfahren (Zielattribute sind fett gedruckt)
Aussagen die anhand der besten Vorhersageergebnisse aus den Data
Mining-Verfahren getroffen werden können
1. Kommen die Studenten aufgrund einer Empfehlung an die Hochschule
Wismar?
2. Ist das Studium an der HS Wismar für männliche Studenten das
Erststudium?
3. Ist das Studium an der HS Wismar für weibliche Studenten das
Erststudium?
4. Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule
Wismar?
Gesamtvorhersagewert 83,10 %; Aussage: „Die Studenten der HS Wismar
kommen zu 2,82 % aufgrund einer Empfehlung zur HS Wismar.“
Gesamtvorhersagewert 100 %; Aussage: „Für 87,5 % der männlichen Studenten
der HS Wismar ist es das Erststudium an der HS Wismar.“
Gesamtvorhersagewert 97,44 %; Aussage: „Für 94,87 % der weiblichen Studenten
der HS Wismar ist es das Erststudium an der HS Wismar.“
Gesamtvorhersagewert 95,78 %; Aussage: „Nein, die Studenten der HS Wismar
nutzen zu 92,96 % nicht die öffentlichen Verkehrsmitteln zur Hochschule.“
Gesamtvorhersagewert 98,59 %; Aussage: „Ja, die Studenten der HS Wismar
nutzen zu 97,18 % die privaten Verkehrsmittel zur Hochschule.“
Gesamtvorhersagewert 90,14 %; Aussage: „84,59 % der Studenten der HS Wismar
sind mit ihrer aktuellen Lebenssituation als Student an der HS Wismar zufrieden.“
Gesamtvorhersagewert 98,59 %; Aussage: „Nein, die Studenten der HS Wismar
bevorzugen es zu 66,20 % nicht in gemeinschaftlichen Wohnverhältnissen zu
leben.“
Gesamtvorhersagewert 84,51 %; Aussage: „Die Studenten der HS Wismar sind zu
53,52 % mit ihren erbrachten Leistungen im Studium zufrieden.“
Gesamtvorhersagewert 50 %; Aussage: „Die Studenten der HS Wismar mit sehr
guten bis guten Leistungen im Studium schätzen ihre Möglichkeiten auf dem
Arbeitsmarkt zu 50 % mit gut ein.“
Gesamtvorhersagewert 100 %; Aussage: „Die Studenten der HS Wismar mit sehr
guten bis guten Leistungen im Studium schätzen ihre Möglichkeiten auf dem
Arbeitsmarkt zu 52,27 % mit gut ein.“
Gesamtvorhersagewert 65,22 %; Aussage: „Die Studenten im Masterstudium der
HS Wismar schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 56,52 % mit gut
ein.“
Gesamtvorhersagewert 100 %; Aussage: „Die Studenten im Masterstudium der HS
Wismar schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 59,10 % mit gut ein.“
5. Nutzen die Studenten private Verkehrsmittel zur Hochschule Wismar?
6. Sind Studierende mit ihrer aktuellen Lebenssituation als Student an der
Hochschule Wismar zufrieden?
7. Bevorzugen Studenten der Hochschule Wismar in gemeinschaftlichen
Wohnverhältnissen zu leben?
8. Sind Studenten der Hochschule Wismar mit ihren erbrachten Leistungen
im Studium zufrieden?
9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium
erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt
ein?
9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium
erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt
ein? (Mit Cluster)
10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre
Möglichkeiten auf dem Arbeitsmarkt ein?
10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre
Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster)
(Quelle: eigene Darstellung)
Ergänzung: Wie wir auf diese Ergebnisse gekommen sind, ist exemplarisch dem Zielattribut „Oeffentliche Verkehrsmittel zur HS“ den Abschnitten 4.3.1 bis 4.3.4 zu entnehmen. Die in der
Aussage stehenden Prozentangaben beziehen sich dabei immer auf die richtig vorhergesagte Entscheidung der jeweiligen Ausprägung des Zielattributes.
Herunterladen