Wissensextraktion Wissensextraktion

Werbung
Hochschule Wismar
University of Technology, Business and Design
Fakultät für Ingenieurwissenschaften
Wissensextraktion
Clusterbildung mit KNIME
von:
Gunnar Keuer
Mike Gehrhardt
Aufgabenstellung
1
Mit dem Data-Mining Tool KNIME (Konstanz Information Miner) soll ein Datensatz
untersucht werden. Dieser Datensatz beruht auf Befragungen von Studenten der
Hochschule Wismar und beinhaltet, in verschiedenen Kategorien unterteilt, Fragen über
die Hochschule, die Stadt Wismar und zur Person.
Ziel ist es herauszufinden, ob es einen Zusammenhang gibt zwischen den absolvierten
Semestern der Studenten und ihrer Zufriedenheit gegenüber der Hochschule Wismar.
Lassen sich Thesen wie: „Je länger Studenten studieren, desto unzufriedener werden
sie“ aus dieser Umfrage mit Zahlen belegen?
1
KINME 2.1.1 http://www.knime.org/
Inhalt
Inhalt
1 Beschreibung des Datensatzes ........................................................................................................... 4
1.1
Inhalt des Fragebogens ........................................................................................................... 4
1.2
Bewertung des Datensatzes..................................................................................................... 6
1.2.1
Skalierte Fragen........................................................................................................... 6
1.2.2
„weiß nicht“ Option ..................................................................................................... 7
1.2.3
Undefinierte Felder ...................................................................................................... 7
2 Datenvorverarbeitung........................................................................................................................ 9
2.1
Daten einlesen in KNIME....................................................................................................... 9
2.2
Datenauswahl ......................................................................................................................... 9
3 Data Mining.................................................................................................................................... 10
3.1
Clusterbildung mit Weka SimpleKMeans ............................................................................. 10
3.1.1
Clusteranzahl: 4 ......................................................................................................... 10
3.1.2
Clusteranzahl: 3 ......................................................................................................... 11
3.2
Zufriedenheit berechnen mit Java Snippet Node .................................................................... 13
3.3
Clusterbildung mit k-Means für Semester & Zufriedenheit .................................................... 14
3.3.1
k-Means ohne Behandlung der fehlerhaften Werte...................................................... 14
3.3.2
k-Means nach Ersetzen der fehlerhaften Werte durch Null .......................................... 16
3.3.3
k-Means ohne Reihen mit fehlerhaften Werten ........................................................... 17
3.3.4
k-Means mit wiederhergestellten Centroiden und ohne fehlerhafte Reihen .................. 18
4 Interpretation .................................................................................................................................. 20
5 Bilderverzeichnis ............................................................................................................................ 22
3
Beschreibung des Datensatzes
1 Beschreibung des Datensatzes
1.1 Inhalt des Fragebogens
Der vorliegende Datensatz, in Form einer Excel-Tabelle, umfasst die Befragung von
211 Studenten der Hochschule Wismar. Die Inhalte des Fragebogens sind in sieben
Kategorien unterteilt.
[1]
Organisation (10 Themen)
[2]
Ausstattung / Infrastruktur (10 Themen)
[3]
Verwaltung (5 Themen)
[4]
Freizeit (3 Themen)
[5]
Stadt und Umgebung (9 Themen)
[6]
Gesamturteil über Wismar, HS Wismar (2 Themen)
[7]
Persönliche Angaben, wie Studiengang, Alter, Semester.. (6 Fragen)
In Kategorie 1 bis 5 werden je 10 bis 3 Themen aufgelistet. Je Thema werden die
gleichen zwei Fragen gestellt. Die Fragen lauten:
[1]
"Wie wichtig ist dir dieser Punkt?"
[2]
"Wie beurteilst du diesen Punkt?"
2
Diese beiden skalierten Fragen können mittels Ankreuzen von Feldern beantwortet
werden. Es gibt pro Frage sechs Möglichkeiten zur Antwort. Auf Frage eins kann mit
"sehr wichtig" (Note 1) bis "völlig unwichtig" (Note 5) eingegangen werden. Frage zwei
wird beantwortet mit "sehr gut" (Note 1) bis "sehr schlecht" (Note 5). Außerdem gibt es
die Möglichkeit beide Fragen mit "weiß nicht" zu beantworten.
In Kategorie 6 kann nur die zweite Frage ("Wie beurteilst du diesen Punkt?")
beantwortet werden.
2
4
Marktpsychologie. Skalierte Fragen http://www.wpgs.de/content/view/463/355/
Beschreibung des Datensatzes
Kategorie 7 bezieht sich auf persönliche Daten des Befragten. Hier beantwortet der
Auszufüllende eine Reihe unterschiedlicher Fragen. Diese W-Fragen (welchen
Studiengang, welches Semester, aus welchem Bundesland…) gliedern sich in Fragen
mit Einzel- und Mehrfachauswahl3.
Die Fragen mit den möglichen Antworten lauten:
Welchen Studiengang belegst du?
[1]
Design
[2]
Innenarchitektur
[3]
Kommunikationsdesign
[4]
Arch. Light Design
[5]
Architektur
[6]
Bauingenieurwesen
[7]
Pflege des Bauerbes
[8]
Int. Cruise Ship Management
[9]
Wirtschaftsrecht
[10] Wirtschaftsinformatik
[11] Betriebswirtschaft
[12] Umwelt/ Verfahrenstechnik
[13] Maschinenbau
[14] Multimediatechnik
[15] Elektrotechnik
[16]
In welchem Semester bist du?
….
3
Marktpsychologie, Fragen mit Einfachauswahl oder Mehrfachauswahl
http://www.wpgs.de/content/view/461/355/
5
Beschreibung des Datensatzes
Abschluss mit:
[1]
Bachelor
[2]
Diplom
[3]
Master
Aus welchem Bundesland kommst du?
[1]
Baden-Würt.
[2]
Bayern
[3]
Berlin
[4]
Brandenburg
[5]
Bremen
[6]
Hamburg
[7]
Hessen
[8]
Meck.-Vorp.
[9]
Niedersachsen
[10] Nordrhein-West.
[11] Rheinland-Pfalz
[12] Sachsen
[13] Sachsen-Anhalt
[14] Saarland
[15] Schleswig-Holstein
[16] Thüringen
[17] Ausland
1.2 Bewertung des Datensatzes
1.2.1 Skalierte Fragen
Die Kategorien 1 bis 6 werden mittels einer Skala beantwortet. Es gibt fünf
Möglichkeiten eine Bewertung abzugeben (Note 1, sehr gut bis Note 5, sehr schlecht).
Da eine ungerade Skaleneinteilung gewählt wurde, gibt es die Möglichkeit eine neutrale
Antwort (Note 3, weder gut noch schlecht) abzugeben. Der Befragte muss hier, im
Gegensatz zu einer graden Anzahl der Skalenelemente, keine eindeutige Bewertung
abgeben. Unter Umständen muss darauf geachtet werden, dass nicht übermäßig das
neutrale Feld angekreuzt wurde, da die betreffende Datenreihe dann nur eingeschränkte
Aussagerelevanz besitzt und unter Umständen das Ergebnis der „ernsthaften“
6
Beschreibung des Datensatzes
Antworten anderer Reihen verfälscht. Die Verwendung einer mittleren Antwortoption
hat somit sowohl Nach- als auch Vorteile4.
1.2.2 „weiß nicht“ Option
Eine zusätzliche sechste Möglichkeit besteht in der Beantwortung der beiden Fragen mit
5
"weiß nicht". Diese Antwort kann mehrere Schlüsse nach sich ziehen . Gegebenenfalls
kommt der Befragte zu keinem endgültigen Entschluss. Er nutzt diese
Auswahlmöglichkeit nach einer gewissen Nachdenkzeit als „Ausgang“, um dieses Frage
zu „umgehen“. Der Befragte kann auch eine Irrelevanz-Antwort mit „weiß nicht“
geben, da er diese Frage für nicht erachtenswert betrachtet. Eine dritte Möglichkeit
besteht darin, dass der Befragte eine Protestantwort gibt und mit der Option „weiß
nicht“ seinen Widerstand ausdrückt. Gleiches ist möglich wenn gehäuft neutrale
Bewertungen (Note 3) abgegeben werden. Unter Umständen ist „weiß nicht“ mit „mir
egal“ zu übersetzen, was in den skalierten Fragen der Option Note 3 (neutral) gleich
kommt.
1.2.3 Undefinierte Felder
Der Fragebogen wurde in Form von zwei DIN-A4 Seiten ausgegeben. Der Befragte
kreuzte mit einem Stift die Antworten an und im Folgenden mussten diese
Informationen in die EDV übernommen werden. Da keine weiteren Angaben zur
Übertragung vorhanden sind, kann davon ausgegangen werden, dass die Daten per
Hand in die vorliegende Excel-Tabelle eingetragen wurden. Damit besteht die
Möglichkeit, dass sich fehlerhafte Eintragungen einschleichen. Bei 211*82=17302
Feldern ist dies sehr wahrscheinlich. In der Tabelle dürfen für die ersten sechs
Kategorien nur folgende Werte auftauchen:
[1]
(sehr wichtig / sehr gut)
[2]
(wichtig / gut)
4
Marktpsychologie, Mittlere Alternative bei Auswahlstufen von skalierten Fragen
http://www.wpgs.de/content/view/464/355/
5
Der Fragebogen, Antwortkategorie
http://arbeitsblaetter.stangl-taller.at/FORSCHUNGSMETHODEN/Fragebogen.shtml
7
Beschreibung des Datensatzes
[3]
(neutral / neutral)
[4]
(unwichtig / schlecht)
[5]
(völlig unwichtig / sehr schlecht)
[x]
(weiß nicht / weiß nicht)
In der gesamten Excel-Tabelle ist kein „x“ für die Ankreuzoption „weiß nicht“ zu
finden. Stattdessen tritt gehäuft die Null auf. Es ist somit davon auszugehen, dass bei
dem Übertragen der Fragebögen das „x“ durch eine „0“ ersetzt wurde. Desweiteren
sind Felder in der Tabelle frei gelassen worden oder mit einem Strich versehen. Auch
für diese Eintragungen gibt es keine Beschreibung. Da diese Inhalte aber nur
vereinzelnd auftreten, müssen sie später gesondert behandelt werden. Möglicherweise
sind sie mit der Option „weiß nicht“ gleichzusetzen.
8
Datenvorverarbeitung
2 Datenvorverarbeitung
Der Datensatz liegt als Excel-Tabelle vor. Mit einem aktuellen Microsoft Excel kann
die Tabelle geöffnet werden. Excel wird nur benutzt um die Daten in eine .csv Datei
abzulegen. Dies erleichtert das weitere Verarbeiten, da die Daten nun in einem
Microsoft unabhängigen Format gespeichert sind. Jedes Feld ist über ein Semikolon
getrennt. Alle weiteren Schritte werden mit KNIME (Konstanz Information Miner)
vorgenommen.
2.1 Daten einlesen in KNIME
Im ersten Schritt in KNIME wird mittels einer „File Reader“ Node die neu erzeugte .csv
Datei eingelesen. In der Konfiguration der Node muss der Pfad angegeben und weitere
einfache Einstellungen vorgenommen werden. Wichtig ist es die IDs der Zeilen
einzulesen und das Kopffeld einer jeden Spalte. Weiterhin muss hier das Semikolon als
Trennzeichen übernommen werden. Die „File Table“ Option gibt die Möglichkeit zur
Einsicht des Datensatzes. Nun wird über einen „Column Filter“ in der nächsten Node
die leere „Interviewer“ Spalte und die Reihe mit der Nummerierung (1.1 W; 1.1 B; 1.2
W; 1.2 B …) gelöscht. Das Ergebnis sind 82 Spalten und 211 Reihen mit denen
gearbeitet werden kann. Der Datentyp aller Spalten ist Integer.
2.2 Datenauswahl
Ziel ist es herauszufinden ob es einen Zusammenhang gibt zwischen den absolvierten
Semestern der Studenten und ihrer Zufriedenheit gegenüber der Hochschule Wismar.
Infolge dessen sind alle Fragen zur Stadt Wismar, über Kulturangebote und Events
herauszufiltern. Das betrifft die gesamte Kategorie 4 (Freizeit) und Kategorie 5 (Stadt
und Umgebung). In Kategorie 6 (Gesamturteil) wird die Frage über das Gesamturteil
der Stadt Wismar entfernt. Eine weitere „Column Filter“ Node nimmt diese
Einstellungen vor und entfernt die angesprochenen Spalten. Die Spaltenanzahl ist nun
von 82 auf 57 gesunken. Eine weitere prinzipielle Vorverarbeitung, wie das Behandeln
der undefinierten Felder, wird je nach Bedarf später durchgeführt.
9
Data Mining
3 Data Mining
3.1 Clusterbildung mit Weka SimpleKMeans
Zu Beginn soll herausgefunden werden, ob es eine Sinn macht die Studenten nach ihren
absolvierten Semestern zu Gruppieren. Die entsprechende Spalte enthält Werte von 1
bis 8 Semester. Über eine weitere „Column Filter“ Node wird der Datensatz für die
„Weka SimpleKMeans“ Node vorbereitet. Da die Weka Node alle vorhandenen Spalten
in die Bearbeitung einfließen lässt müssen alle Spalten, bis auf die der Semester,
entfernt werden.
Für den KMeans Algorithmus wird die Anzahl der gesuchten Cluster vorgegeben.
Zunächst werden über ein initiales Clustering die Cluster bestimmt. Dann wird der
jeweilige Mittelpunkt eines Clusters berechnet. Die daraus entstandenen Centroiden
repräsentieren das jeweilige Cluster. Iterativ werden die Centroiden neu berechnet und
6
verschoben, bis Cluster entstehen, welche relativ gut voneinander abgetrennt sind .
3.1.1 Clusteranzahl: 4
Im ersten Schritt wird eine Clusteranzahl von vier vorgegeben. Dies würde die
Semesteranzahl auf die Hälfte reduzieren. Über die Option Weka Node View sind die
Ergebnisse, siehe Abbildung 1, zu begutachten.
Von den vier Clustern gibt es nur eins, in welches Werte integriert sind, die vom
Mittelpunkt abweichen. Cluster 0 enthält ausschließlich alle Studenten des zweiten
Semesters. In dieses Cluster fallen 98 der Befragten, was 46% entspricht. Cluster 1
enthält alle Studenten des vierten Semesters. Mit 84 Mitgliedern ist dies das
zweitstärkste Cluster (40%). In Cluster 2 sind Studenten aus verschiedenen Semestern.
Der Durchschnitt liegt bei 6.43 mit einer Abweichung von 0.86. In dieser Gruppe sind
13% der Befragten, was 28 Studenten bedeutet. Cluster 3 enthält eine Person im ersten
Semester (unter 1%). Da es ein Cluster gibt, welches nahezu keine Werte enthält ist es
sinnvoll die Clusteranzahl zu überdenken. Eine „Sorter“ Node gibt Aufschluss darüber,
welche Studenten im Cluster 2 vertreten sind. Über die Configure Option der Node
können einige Einstellungen vorgenommen werden. Das Ergebnis: Cluster 2 enthält
6
Prof. Dr. J. Cleve, Wissensextraktion / Data Mining, Clustering mit kMeans, Seite 38-39
10
Data Mining
sowohl Studenten aus dem 8. als auch aus dem 6. Semester, was zu einem Mittel von
6.43 führt.
Abbildung 1 Weka KMeans Clusterbildung der Semesteranzahl
3.1.2 Clusteranzahl: 3
Die Clusteranzahl wird nun reduziert, um das nahezu leere Cluster auf die anderen
aufzuteilen. Die „Weka SimpleKMeans“ Node wird dementsprechend neu konfiguriert
und ausgeführt. Das Ergebnis sind folgende drei Cluster nach zwei Durchläufen:
11
Data Mining
Cluster centroids:
Cluster 0
Mean/Mode: 1.9899
Std Devs: 0.1005
Cluster 1
Mean/Mode: 4
Std Devs: 0
Cluster 2
Mean/Mode: 6.4286
Std Devs: 0.8357
Clustered Instances
0
99 ( 47%)
1
84 ( 40%)
2
28 ( 13%)
Cluster 3 wurde nun in Cluster 0 mit integriert. Es gibt folgende Aufteilung:
Cluster 0: Studenten im 1. und 2. Semester (Studienstarter)
Cluster 1: Studenten im 4. Semester (Mitten im Studium)
Cluster 2: Studenten im 6. und 8. Semester (Kurz vor Studienabschluss)
Abbildung 2 KNIME Workflow: Clusterbildung mit Weka SimpleKMeans
Abbildung 2 zeigt den finalen KNIME Workflow, vom Einlesen der Daten bis zur
Gruppierung der Semesterspalte in 3 Cluster. Die entstandenen 3 Cluster dienen nun als
Ausgangsbasis für die weitere Berechnung und werden so beibehalten.
12
Data Mining
3.2 Zufriedenheit berechnen mit Java Snippet Node
Da nun die Studenten in 3 signifikante Gruppen (Studienstarter, Mitten im Studium,
Kurz vor Studienabschluss) eingeteilt sind muss die Zufriedenheit berechnet werden.
Dazu wird der Ausgangsdatensatz weiter selektiert. In Kategorie 1 (Organisation), 2
(Ausstattung / Infrastruktur) und 3 (Verwaltung) geben die Studenten ihre Bewertungen
zur Hochschule Wismar ab. Zum einen geben sie bekannt, wie wichtig ihnen der Punkt
ist und zum anderen, wie sie ihn Beurteilen. Da nur die Beurteilungen wichtig sind
werden erneut über eine „Column Filter“ Node alle Spalten zur Wichtigkeit entfernt.
Als Ergebnis bleiben 32 Spalten, welche Beurteilungen und persönliche Informationen
der 211 Befragten enthalten.
Um eigene Funktionen in KNIME einzubinden und die Felder des Datensatzes zu
manipulieren gibt es die Möglichkeit Java-Programmcode einzufügen. Dies passiert
über die „Java Snippet“ Node. Über die Option „Configure“ gelangt man in die
Eingabe-Dialogbox für den Java Code. Das dort eingefügte Programm arbeitet sich
durch Zeilen und kann in einer neuen Spalte am Ende das Ergebnis einfügen. Alternativ
kann auch eine Spalte ersetzt werden. Findet eine Auswertung zeilenübergreifend statt
wird mit globalen Variablen gearbeitet.
Es soll nun der Durchschnitt aus allen Beurteilungen berechnet werden. Dies wird mit
einem kleinen Programm umgesetzt.
// Berechnung der Gesamtzufriedenheit pro Zeile
double i=0;
i= (double) ($Beurteilung 1$ + $Beurteilung 2$ + …) / Anzahl der
Beurteilungen;
return i;
Das vollständige Java-Programm ist in der „Java Snippet“ Node zu finden. Die „Java
Snippet“ Node erzeugt eine neue Spalte „Zufriedenheit“ mit dem Datentyp Double.
Dort sind die Mittelwerte der Beurteilungen enthalten. Zu beachten ist, dass hier für
korrekte Mittelwerte explizit auf den Datentyp Double gecastet werden muss, da sonst
die Werte gerundet werden.
13
Data Mining
Abbildung 3 Neue Spalte: Gesamtzufriedenheit pro Person
Die neue Spalte, grün umrandet, siehe Abbildung 3, enthält die errechneten Werte.
Möglich sind Inhalte von 1 (sehr zufrieden) bis 5 (sehr unzufrieden). Dies ist die erste
Spalte mit dem Datentyp Double in dieser Tabelle. Leider gibt es einige Felder in den
Beurteilungen, welche keine Integerwerte enthalten. Sofern ein Feld frei gelassen wurde
oder es einen Strich beinhaltet ersetzt KNIME den Inhalt mit einem Fragezeichen und
kann folglich keine Werte für die Spalte Zufriedenheit errechnen (siehe Abbildung 3,
roter Pfeil). Die fehlenden Werte werden im Folgenden besonders beachtet.
3.3 Clusterbildung mit k-Means für Semester & Zufriedenheit
3.3.1 k-Means ohne Behandlung der fehlerhaften Werte
Im ersten Schritt wurde die Anzahl der sinnvollen Cluster berechnet. Als zweites folgte
die Berechnung der Gesamtzufriedenheit je Reihe. Nun soll überprüft werden ob es
einen Zusammenhang zwischen den Semester-Clustern und der Zufriedenheit gibt.
Dazu werden erneut Cluster gebildet, nun aber die Daten der Zufriedenheit mit
hinzugezogen. Im ersten Versuch werden die fehlerhaften Felder, welche mit einem „?“
markiert sind nicht gesondert betrachtet. Die benötigten Berechnungen führt die „kMeans“ Node durch. Zu finden ist sie in der „Node Repository“ unter „Mining >
Clustering > k-Means“. Über die Option „Configure“ gelangt der Anwender in die
Dialogbox um festzulegen, welche Spalten in die Berechnung einfließen sollen. Es
14
Data Mining
werden alle Spalten entfernt und nur die Spalte „Semester“ und die neu erstellte Spalte
„Zufriedenheit“ hinzugefügt. „Execute“ führt die Node aus. Der Eintrag „Cluster View“
zeigt die Ergebnisse an, siehe Abbildung 4.
Abbildung 4 k-Means ohne Behandlung der fehlerhaften Felder
Zu sehen sind die ähnlichen Cluster aus dem Kapitel 3.1 der „Weka SimpleKMeans“
Node. Neu hinzu gekommen sind die Werte über die Zufriedenheit. Alle Studenten des
ersten und zweiten Semesters sind in Cluster 0 zu finden. Insgesamt 99 Reihen. Für
diese Gruppe wurde eine Gesamtzufriedenheit von 2,04 berechnet. Die 84 Studenten der
zweiten Gruppe sind im vierten Semester. Ihre berechnete Zufriedenheit liegt bei 2,16.
Studenten des Semesters sechs und acht sind in Cluster 2 zusammengefasst. Ihre
durchschnittliche Zufriedenheit wurde mit 2,26 berechnet. Daraus kann abgeleitet
werden, dass mit zunehmendem Semester die Beurteilung der Studenten, und damit ihre
Zufriedenheit, schlechter wird. Von Semester zwei zu Semester vier gibt es einen
Unterschied von 0,12 Punkten, was 0,06 Punkte pro Semester entsprechen würde. Der
Unterschied von Semester vier bis Semester 6,5 beläuft sich auf 0,10 Punkten, was 0,04
Punkte Verschlechterung pro Semester bedeutet.
Abbildung 5 zeigt den KNIME Workflow für die Berechnung der Cluster mittels des KMeans Algorithmus ohne gesonderte Behandlung der fehlerhaften Werte. Die Daten
werden über die „File Reader“ eingelesen und mit verschiedenen Filtern bearbeitet, Die
„Java Snippet“ Node fügt die neue Spalte „Zufriedenheit“ hinzu. Die k-Means
Berechnungen werden in der grünen Node durchgeführt.
15
Data Mining
Abbildung 5 K-Means Workflow
3.3.2 k-Means nach Ersetzen der fehlerhaften Werte durch Null
In Kapitel 1.2.3 wurde auf die Felder mit undefiniertem Inhalt eingegangen. Bislang
waren diese Felder Teil der Berechnung und somit bestand eine Möglichkeit, dass diese
Felder auch die Ergebnisse negativ beeinflussen. Um das Ergebnis aus Kapitel 3.3.1 zu
verifizieren wird die k-Means Berechnung wiederholt. Hinzu kommt eine
Fehlerbehandlung der unbekannten Werte. In Abbildung 6 ist der KNIME Workflow
dargestellt.
Abbildung 6 K-Means Workflow mit Ersetzen der unbekannten Werte
Hinzu gekommen ist eine neue Node. Die „Missing Value“ Node gibt dem Anwender
die Möglichkeit bestimmte Werte zu ersetzen. Über die „Configure“ Option lassen sich
Einstellungen vornehmen. In allen Integer-Spalten sollen die fehlenden Werte durch
eine Null ersetzt werden. Diese Änderung betritt die Berechnung der Zufriedenheit,
daher muss die Node vor der „Java Snippet“ Node integriert werden Die
Gegenüberstellung des neuen Ergebnis der „k-Means“ Node ist in Abbildung 7 zu
sehen.
16
Data Mining
Abbildung 7 Links: ohne Fehlerbehandlung, Rechts mit "Missing Value" Node
In der Zuweisung der Reihen zu den Clustern gab es keine Veränderung. Links sind die
bekannten Ergebnisse aus Kapitel 3.3.1 zu sehen. Rechts die neuen Werte, welche das
Ersetzen der unbekannten Felder mit Null beinhalten. Es sind neue Reihen verwertbar
geworden. Da in die Berechnung nun einige neue Felder eingegangen sind hat sich die
Zufriedenheit leicht verändert. Die neuen Reihen haben die Zufriedenheit in allen drei
Clustern gesenkt. Dies lässt darauf schließen, dass die neu verfügbar gemachten Reihen
überdurchschnittlich schlechte Bewertungen beinhalten. Der Abwärtstrend mit
aufsteigenden Semestern ist dennoch deutlich zu erkennen.
3.3.3 k-Means ohne Reihen mit fehlerhaften Werten
Das Ergebnis aus der ersten k-Means Clusterbildung wurde in der zweiten Berechnung
bestätigt. Da jedoch Werte ersetzt wurden und es keine Informationen darüber gibt wie
die fehlenden Werte zustande kamen, wird eine dritte Berechnung durchgeführt. Nun
werden die Ausgangswerte nicht verändert. Alle Reihen mit fehlerhaften Angaben
werden aussortiert.
Abbildung 8Aussortieren fehlerhafter Reihen: k-Means Workflow
Abbildung 8 zeigt den KNIME Workflow der erneuten k-Means Berechnung. Die
„Sorter“ Node wurde verwendet um abzuschätzen wie viele Reihen entfernt werden
17
Data Mining
müssen. Insgesamt sind 15 Reihen mit einem „?“ versehen. Diese werden mit der „Row
Splitter“ Node aussortiert. Die „k-Means“ Node berechnet die Werte, welche in
Abbildung 9 zu sehen sind.
Abbildung 9 Rechts: Neue k-Means Clusterbildung ohne fehlerhafte Reihen
Die erneute Berechnung der Cluster zeigt ein unvermutetes Ergebnis. Die Centroiden
haben sich stark verschoben und die Werte sind weder zum Stützen noch zur
Widerlegung verwertbar. Offensichtlich wurden die Studenten des vierten Semesters in
Cluster 2 eingeordnet. Cluster 0 und Cluster 1 beinhalten wahrscheinlich ausschließlich
Studenten des ersten und zweiten Semesters.
3.3.4 k-Means mit wiederhergestellten Centroiden und ohne fehlerhafte Reihen
Die Entfernung der Reihen mit unbekannten Feldern hat das Gleichgewicht der
Clusterbildung gestört. Die Werte sind weder zur Widerlegung noch zur Verifizierung
der bisherigen Ergebnisse einsetzbar. Abbildung 10 zeigt den neuen KNIME Workflow.
Nun wird gezielt darauf geachtet, dass die Studenten in den jeweiligen Gruppen sind.
Die erste „Row Splitter“ Node entfernt alle Reihen, welche fehlende Werte beinhalten.
Die zwei folgenden „Row Splitter“ Nodes separieren die Studenten des ersten und
zweiten Semesters. Über eine „Concatenate“ Node werden die Daten wieder verdichtet
und der k-Means Berechnung für das Cluster 0 zugeführt. Die vierte „Row Splitter“
Node teilt die verbliebenden Reihen in zwei Gruppen auf. Ausgang „0 Filtered“
beinhaltet alle Studenten des vierten Semesters. Ausgang „1 Filtered out“ (unterer
Ausgang) enthält alle Studenten des sechsten und achten Semesters. Entsprechende „kMeans“ Noden berechnen die Zufriedenheit für die Studenten der jeweiligen Cluster.
Somit ist sichergestellt, dass in den jeweiligen Clustern nur die Studenten der Semester
vorhanden sind, wie in den ersten beiden Berechnungen.
18
Data Mining
Abbildung 10 Workflow: Berechnung der Centroiden mit k-Means
.Abbildung 11 zeigt das Ergebnis
der Berechnung der „k-Means“
Noden. Deutlich ist zu erkennen,
dass Studenten des ersten und
zweiten Semesters wieder dem
Cluster 0 (Cluster View 0:45)
zugeordnet wurden. In diesem
Cluster fehlen 9 Reihen aufgrund
der Aus-sortierung. Cluster 1
(Cluster View 0:51) enthält die
Studenten des vierten Semesters.
Hier reduzierten sich die Reihen
von 84 auf 79. Cluster View 0:47
zeigt die Studenten des sechsten
und achten Semesters. In diesem
Cluster gab es eine Reihe mit
fehlenden Angaben. Der Trend der
abfallenden Zufriedenheit ist auch
hier deutlich zu erkennen und
stützt die bisherigen Ergebnisse.
Abbildung 11 k-Means Cluster
19
/ Interpretation
4 Interpretation
Abbildung 12 Finale Auswertung der korrekten drei Durchläufe
In Abbildung 12 sind alle Erbennisse der k-Means Durchläufe mit Semester und
Zufriedenheit dargestellt, welche das Ergebnis stützen oder widerlegen können. Cluster
View 0:8 (oben rechts) zeigt die Clusterbildung ohne Behandlung der unbekannten
Felder. Cluster View 0:19 (unten rechts) zeigt die Clusterbildung nachdem die
unbekannten Felder mit dem wahrscheinlichten Wert, einer Null für die Option „weiß
nicht“, ersetzt wurden. Cluster 0 repräsentiert alle Studienanfänger (Studenten des
ersten und zweiten Semesters). Cluster 1 mit 84 Reihen stellt die Studenten des vierten
Semesters dar. Cluster 2 beinhaltet alle Studenten im sechsten und achten Semester und
repräsentiert die Studenten kurz vor ihrem Abschluss. Obwohl beide Berechnungen, wie
zu erwarten war, recht ähnlich sind, gibt es leichte Unterschiede in der Zufriedenheit je
Cluster. Auch die letzte Berechnung stützt den Abwärtstrend-Trend in der
Zufriedenheit. In der Folgenden Tabelle sind alle Berechneten Werte der Zufriedenheit
aufgelistet.
20
/ Interpretation
Zufriedenheit
Zufriedenheit
Cluster
0 Cluster 1
(Studienanfänger)
(Mitten
Studium)
Zufriedenheit
Cluster 2
im (Kurz vor
Studienende)
Ohne Behandlung 2.04
der
unbekannten
Werte
2.16
2.26
Ersetzen
der 2.26
unbekannten Werte
mit 0
2.29
2.32
Entfernen
Reihen
unbekannten
Werten
2.30
2.35
der 2.25
mit
Deutlich ist in dieser Tabelle zu erkennen, dass sie die Werte je nach Fehlerbehandlung
leicht verändern. Ein prinzipieller Trend ist jedoch in jeder Reihe zu erkennen. Von
Cluster 0 (Studienanfänger) bis Cluster 2 (Studenten kurz vor dem Abschluss) sinkt
stetig die Zufriedenheit. Möglicherweise ist das damit zu erklären, dass die Studenten
einfach nur kritischer werden.
21
Bilderverzeichnis
5 Bilderverzeichnis
Abbildung 1 Weka KMeans Clusterbildung der Semesteranzahl ................................. 11
Abbildung 2 KNIME Workflow: Clusterbildung mit Weka SimpleKMeans ............... 12
Abbildung 3 Neue Spalte: Gesamtzufriedenheit pro Person......................................... 14
Abbildung 4 k-Means ohne Behandlung der fehlerhaften Felder ................................. 15
Abbildung 5 K-Means Workflow ................................................................................ 16
Abbildung 6 K-Means Workflow mit Ersetzen der unbekannten Werte ....................... 16
Abbildung 7 Links: ohne Fehlerbehandlung, Rechts mit "Missing Value" Node.......... 17
Abbildung 8Aussortieren fehlerhafter Reihen: k-Means Workflow ............................. 17
Abbildung 9 Rechts: Neue k-Means Clusterbildung ohne fehlerhafte Reihen .............. 18
Abbildung 10 Workflow: Berechnung der Centroiden mit k-Means ............................ 19
Abbildung 11 k-Means Cluster................................................................................... 19
Abbildung 12 Finale Auswertung der korrekten drei Durchläufe ................................. 20
22
Herunterladen