Hochschule Wismar University of Technology, Business and Design Fakultät für Ingenieurwissenschaften Wissensextraktion Clusterbildung mit KNIME von: Gunnar Keuer Mike Gehrhardt Aufgabenstellung 1 Mit dem Data-Mining Tool KNIME (Konstanz Information Miner) soll ein Datensatz untersucht werden. Dieser Datensatz beruht auf Befragungen von Studenten der Hochschule Wismar und beinhaltet, in verschiedenen Kategorien unterteilt, Fragen über die Hochschule, die Stadt Wismar und zur Person. Ziel ist es herauszufinden, ob es einen Zusammenhang gibt zwischen den absolvierten Semestern der Studenten und ihrer Zufriedenheit gegenüber der Hochschule Wismar. Lassen sich Thesen wie: „Je länger Studenten studieren, desto unzufriedener werden sie“ aus dieser Umfrage mit Zahlen belegen? 1 KINME 2.1.1 http://www.knime.org/ Inhalt Inhalt 1 Beschreibung des Datensatzes ........................................................................................................... 4 1.1 Inhalt des Fragebogens ........................................................................................................... 4 1.2 Bewertung des Datensatzes..................................................................................................... 6 1.2.1 Skalierte Fragen........................................................................................................... 6 1.2.2 „weiß nicht“ Option ..................................................................................................... 7 1.2.3 Undefinierte Felder ...................................................................................................... 7 2 Datenvorverarbeitung........................................................................................................................ 9 2.1 Daten einlesen in KNIME....................................................................................................... 9 2.2 Datenauswahl ......................................................................................................................... 9 3 Data Mining.................................................................................................................................... 10 3.1 Clusterbildung mit Weka SimpleKMeans ............................................................................. 10 3.1.1 Clusteranzahl: 4 ......................................................................................................... 10 3.1.2 Clusteranzahl: 3 ......................................................................................................... 11 3.2 Zufriedenheit berechnen mit Java Snippet Node .................................................................... 13 3.3 Clusterbildung mit k-Means für Semester & Zufriedenheit .................................................... 14 3.3.1 k-Means ohne Behandlung der fehlerhaften Werte...................................................... 14 3.3.2 k-Means nach Ersetzen der fehlerhaften Werte durch Null .......................................... 16 3.3.3 k-Means ohne Reihen mit fehlerhaften Werten ........................................................... 17 3.3.4 k-Means mit wiederhergestellten Centroiden und ohne fehlerhafte Reihen .................. 18 4 Interpretation .................................................................................................................................. 20 5 Bilderverzeichnis ............................................................................................................................ 22 3 Beschreibung des Datensatzes 1 Beschreibung des Datensatzes 1.1 Inhalt des Fragebogens Der vorliegende Datensatz, in Form einer Excel-Tabelle, umfasst die Befragung von 211 Studenten der Hochschule Wismar. Die Inhalte des Fragebogens sind in sieben Kategorien unterteilt. [1] Organisation (10 Themen) [2] Ausstattung / Infrastruktur (10 Themen) [3] Verwaltung (5 Themen) [4] Freizeit (3 Themen) [5] Stadt und Umgebung (9 Themen) [6] Gesamturteil über Wismar, HS Wismar (2 Themen) [7] Persönliche Angaben, wie Studiengang, Alter, Semester.. (6 Fragen) In Kategorie 1 bis 5 werden je 10 bis 3 Themen aufgelistet. Je Thema werden die gleichen zwei Fragen gestellt. Die Fragen lauten: [1] "Wie wichtig ist dir dieser Punkt?" [2] "Wie beurteilst du diesen Punkt?" 2 Diese beiden skalierten Fragen können mittels Ankreuzen von Feldern beantwortet werden. Es gibt pro Frage sechs Möglichkeiten zur Antwort. Auf Frage eins kann mit "sehr wichtig" (Note 1) bis "völlig unwichtig" (Note 5) eingegangen werden. Frage zwei wird beantwortet mit "sehr gut" (Note 1) bis "sehr schlecht" (Note 5). Außerdem gibt es die Möglichkeit beide Fragen mit "weiß nicht" zu beantworten. In Kategorie 6 kann nur die zweite Frage ("Wie beurteilst du diesen Punkt?") beantwortet werden. 2 4 Marktpsychologie. Skalierte Fragen http://www.wpgs.de/content/view/463/355/ Beschreibung des Datensatzes Kategorie 7 bezieht sich auf persönliche Daten des Befragten. Hier beantwortet der Auszufüllende eine Reihe unterschiedlicher Fragen. Diese W-Fragen (welchen Studiengang, welches Semester, aus welchem Bundesland…) gliedern sich in Fragen mit Einzel- und Mehrfachauswahl3. Die Fragen mit den möglichen Antworten lauten: Welchen Studiengang belegst du? [1] Design [2] Innenarchitektur [3] Kommunikationsdesign [4] Arch. Light Design [5] Architektur [6] Bauingenieurwesen [7] Pflege des Bauerbes [8] Int. Cruise Ship Management [9] Wirtschaftsrecht [10] Wirtschaftsinformatik [11] Betriebswirtschaft [12] Umwelt/ Verfahrenstechnik [13] Maschinenbau [14] Multimediatechnik [15] Elektrotechnik [16] In welchem Semester bist du? …. 3 Marktpsychologie, Fragen mit Einfachauswahl oder Mehrfachauswahl http://www.wpgs.de/content/view/461/355/ 5 Beschreibung des Datensatzes Abschluss mit: [1] Bachelor [2] Diplom [3] Master Aus welchem Bundesland kommst du? [1] Baden-Würt. [2] Bayern [3] Berlin [4] Brandenburg [5] Bremen [6] Hamburg [7] Hessen [8] Meck.-Vorp. [9] Niedersachsen [10] Nordrhein-West. [11] Rheinland-Pfalz [12] Sachsen [13] Sachsen-Anhalt [14] Saarland [15] Schleswig-Holstein [16] Thüringen [17] Ausland 1.2 Bewertung des Datensatzes 1.2.1 Skalierte Fragen Die Kategorien 1 bis 6 werden mittels einer Skala beantwortet. Es gibt fünf Möglichkeiten eine Bewertung abzugeben (Note 1, sehr gut bis Note 5, sehr schlecht). Da eine ungerade Skaleneinteilung gewählt wurde, gibt es die Möglichkeit eine neutrale Antwort (Note 3, weder gut noch schlecht) abzugeben. Der Befragte muss hier, im Gegensatz zu einer graden Anzahl der Skalenelemente, keine eindeutige Bewertung abgeben. Unter Umständen muss darauf geachtet werden, dass nicht übermäßig das neutrale Feld angekreuzt wurde, da die betreffende Datenreihe dann nur eingeschränkte Aussagerelevanz besitzt und unter Umständen das Ergebnis der „ernsthaften“ 6 Beschreibung des Datensatzes Antworten anderer Reihen verfälscht. Die Verwendung einer mittleren Antwortoption hat somit sowohl Nach- als auch Vorteile4. 1.2.2 „weiß nicht“ Option Eine zusätzliche sechste Möglichkeit besteht in der Beantwortung der beiden Fragen mit 5 "weiß nicht". Diese Antwort kann mehrere Schlüsse nach sich ziehen . Gegebenenfalls kommt der Befragte zu keinem endgültigen Entschluss. Er nutzt diese Auswahlmöglichkeit nach einer gewissen Nachdenkzeit als „Ausgang“, um dieses Frage zu „umgehen“. Der Befragte kann auch eine Irrelevanz-Antwort mit „weiß nicht“ geben, da er diese Frage für nicht erachtenswert betrachtet. Eine dritte Möglichkeit besteht darin, dass der Befragte eine Protestantwort gibt und mit der Option „weiß nicht“ seinen Widerstand ausdrückt. Gleiches ist möglich wenn gehäuft neutrale Bewertungen (Note 3) abgegeben werden. Unter Umständen ist „weiß nicht“ mit „mir egal“ zu übersetzen, was in den skalierten Fragen der Option Note 3 (neutral) gleich kommt. 1.2.3 Undefinierte Felder Der Fragebogen wurde in Form von zwei DIN-A4 Seiten ausgegeben. Der Befragte kreuzte mit einem Stift die Antworten an und im Folgenden mussten diese Informationen in die EDV übernommen werden. Da keine weiteren Angaben zur Übertragung vorhanden sind, kann davon ausgegangen werden, dass die Daten per Hand in die vorliegende Excel-Tabelle eingetragen wurden. Damit besteht die Möglichkeit, dass sich fehlerhafte Eintragungen einschleichen. Bei 211*82=17302 Feldern ist dies sehr wahrscheinlich. In der Tabelle dürfen für die ersten sechs Kategorien nur folgende Werte auftauchen: [1] (sehr wichtig / sehr gut) [2] (wichtig / gut) 4 Marktpsychologie, Mittlere Alternative bei Auswahlstufen von skalierten Fragen http://www.wpgs.de/content/view/464/355/ 5 Der Fragebogen, Antwortkategorie http://arbeitsblaetter.stangl-taller.at/FORSCHUNGSMETHODEN/Fragebogen.shtml 7 Beschreibung des Datensatzes [3] (neutral / neutral) [4] (unwichtig / schlecht) [5] (völlig unwichtig / sehr schlecht) [x] (weiß nicht / weiß nicht) In der gesamten Excel-Tabelle ist kein „x“ für die Ankreuzoption „weiß nicht“ zu finden. Stattdessen tritt gehäuft die Null auf. Es ist somit davon auszugehen, dass bei dem Übertragen der Fragebögen das „x“ durch eine „0“ ersetzt wurde. Desweiteren sind Felder in der Tabelle frei gelassen worden oder mit einem Strich versehen. Auch für diese Eintragungen gibt es keine Beschreibung. Da diese Inhalte aber nur vereinzelnd auftreten, müssen sie später gesondert behandelt werden. Möglicherweise sind sie mit der Option „weiß nicht“ gleichzusetzen. 8 Datenvorverarbeitung 2 Datenvorverarbeitung Der Datensatz liegt als Excel-Tabelle vor. Mit einem aktuellen Microsoft Excel kann die Tabelle geöffnet werden. Excel wird nur benutzt um die Daten in eine .csv Datei abzulegen. Dies erleichtert das weitere Verarbeiten, da die Daten nun in einem Microsoft unabhängigen Format gespeichert sind. Jedes Feld ist über ein Semikolon getrennt. Alle weiteren Schritte werden mit KNIME (Konstanz Information Miner) vorgenommen. 2.1 Daten einlesen in KNIME Im ersten Schritt in KNIME wird mittels einer „File Reader“ Node die neu erzeugte .csv Datei eingelesen. In der Konfiguration der Node muss der Pfad angegeben und weitere einfache Einstellungen vorgenommen werden. Wichtig ist es die IDs der Zeilen einzulesen und das Kopffeld einer jeden Spalte. Weiterhin muss hier das Semikolon als Trennzeichen übernommen werden. Die „File Table“ Option gibt die Möglichkeit zur Einsicht des Datensatzes. Nun wird über einen „Column Filter“ in der nächsten Node die leere „Interviewer“ Spalte und die Reihe mit der Nummerierung (1.1 W; 1.1 B; 1.2 W; 1.2 B …) gelöscht. Das Ergebnis sind 82 Spalten und 211 Reihen mit denen gearbeitet werden kann. Der Datentyp aller Spalten ist Integer. 2.2 Datenauswahl Ziel ist es herauszufinden ob es einen Zusammenhang gibt zwischen den absolvierten Semestern der Studenten und ihrer Zufriedenheit gegenüber der Hochschule Wismar. Infolge dessen sind alle Fragen zur Stadt Wismar, über Kulturangebote und Events herauszufiltern. Das betrifft die gesamte Kategorie 4 (Freizeit) und Kategorie 5 (Stadt und Umgebung). In Kategorie 6 (Gesamturteil) wird die Frage über das Gesamturteil der Stadt Wismar entfernt. Eine weitere „Column Filter“ Node nimmt diese Einstellungen vor und entfernt die angesprochenen Spalten. Die Spaltenanzahl ist nun von 82 auf 57 gesunken. Eine weitere prinzipielle Vorverarbeitung, wie das Behandeln der undefinierten Felder, wird je nach Bedarf später durchgeführt. 9 Data Mining 3 Data Mining 3.1 Clusterbildung mit Weka SimpleKMeans Zu Beginn soll herausgefunden werden, ob es eine Sinn macht die Studenten nach ihren absolvierten Semestern zu Gruppieren. Die entsprechende Spalte enthält Werte von 1 bis 8 Semester. Über eine weitere „Column Filter“ Node wird der Datensatz für die „Weka SimpleKMeans“ Node vorbereitet. Da die Weka Node alle vorhandenen Spalten in die Bearbeitung einfließen lässt müssen alle Spalten, bis auf die der Semester, entfernt werden. Für den KMeans Algorithmus wird die Anzahl der gesuchten Cluster vorgegeben. Zunächst werden über ein initiales Clustering die Cluster bestimmt. Dann wird der jeweilige Mittelpunkt eines Clusters berechnet. Die daraus entstandenen Centroiden repräsentieren das jeweilige Cluster. Iterativ werden die Centroiden neu berechnet und 6 verschoben, bis Cluster entstehen, welche relativ gut voneinander abgetrennt sind . 3.1.1 Clusteranzahl: 4 Im ersten Schritt wird eine Clusteranzahl von vier vorgegeben. Dies würde die Semesteranzahl auf die Hälfte reduzieren. Über die Option Weka Node View sind die Ergebnisse, siehe Abbildung 1, zu begutachten. Von den vier Clustern gibt es nur eins, in welches Werte integriert sind, die vom Mittelpunkt abweichen. Cluster 0 enthält ausschließlich alle Studenten des zweiten Semesters. In dieses Cluster fallen 98 der Befragten, was 46% entspricht. Cluster 1 enthält alle Studenten des vierten Semesters. Mit 84 Mitgliedern ist dies das zweitstärkste Cluster (40%). In Cluster 2 sind Studenten aus verschiedenen Semestern. Der Durchschnitt liegt bei 6.43 mit einer Abweichung von 0.86. In dieser Gruppe sind 13% der Befragten, was 28 Studenten bedeutet. Cluster 3 enthält eine Person im ersten Semester (unter 1%). Da es ein Cluster gibt, welches nahezu keine Werte enthält ist es sinnvoll die Clusteranzahl zu überdenken. Eine „Sorter“ Node gibt Aufschluss darüber, welche Studenten im Cluster 2 vertreten sind. Über die Configure Option der Node können einige Einstellungen vorgenommen werden. Das Ergebnis: Cluster 2 enthält 6 Prof. Dr. J. Cleve, Wissensextraktion / Data Mining, Clustering mit kMeans, Seite 38-39 10 Data Mining sowohl Studenten aus dem 8. als auch aus dem 6. Semester, was zu einem Mittel von 6.43 führt. Abbildung 1 Weka KMeans Clusterbildung der Semesteranzahl 3.1.2 Clusteranzahl: 3 Die Clusteranzahl wird nun reduziert, um das nahezu leere Cluster auf die anderen aufzuteilen. Die „Weka SimpleKMeans“ Node wird dementsprechend neu konfiguriert und ausgeführt. Das Ergebnis sind folgende drei Cluster nach zwei Durchläufen: 11 Data Mining Cluster centroids: Cluster 0 Mean/Mode: 1.9899 Std Devs: 0.1005 Cluster 1 Mean/Mode: 4 Std Devs: 0 Cluster 2 Mean/Mode: 6.4286 Std Devs: 0.8357 Clustered Instances 0 99 ( 47%) 1 84 ( 40%) 2 28 ( 13%) Cluster 3 wurde nun in Cluster 0 mit integriert. Es gibt folgende Aufteilung: Cluster 0: Studenten im 1. und 2. Semester (Studienstarter) Cluster 1: Studenten im 4. Semester (Mitten im Studium) Cluster 2: Studenten im 6. und 8. Semester (Kurz vor Studienabschluss) Abbildung 2 KNIME Workflow: Clusterbildung mit Weka SimpleKMeans Abbildung 2 zeigt den finalen KNIME Workflow, vom Einlesen der Daten bis zur Gruppierung der Semesterspalte in 3 Cluster. Die entstandenen 3 Cluster dienen nun als Ausgangsbasis für die weitere Berechnung und werden so beibehalten. 12 Data Mining 3.2 Zufriedenheit berechnen mit Java Snippet Node Da nun die Studenten in 3 signifikante Gruppen (Studienstarter, Mitten im Studium, Kurz vor Studienabschluss) eingeteilt sind muss die Zufriedenheit berechnet werden. Dazu wird der Ausgangsdatensatz weiter selektiert. In Kategorie 1 (Organisation), 2 (Ausstattung / Infrastruktur) und 3 (Verwaltung) geben die Studenten ihre Bewertungen zur Hochschule Wismar ab. Zum einen geben sie bekannt, wie wichtig ihnen der Punkt ist und zum anderen, wie sie ihn Beurteilen. Da nur die Beurteilungen wichtig sind werden erneut über eine „Column Filter“ Node alle Spalten zur Wichtigkeit entfernt. Als Ergebnis bleiben 32 Spalten, welche Beurteilungen und persönliche Informationen der 211 Befragten enthalten. Um eigene Funktionen in KNIME einzubinden und die Felder des Datensatzes zu manipulieren gibt es die Möglichkeit Java-Programmcode einzufügen. Dies passiert über die „Java Snippet“ Node. Über die Option „Configure“ gelangt man in die Eingabe-Dialogbox für den Java Code. Das dort eingefügte Programm arbeitet sich durch Zeilen und kann in einer neuen Spalte am Ende das Ergebnis einfügen. Alternativ kann auch eine Spalte ersetzt werden. Findet eine Auswertung zeilenübergreifend statt wird mit globalen Variablen gearbeitet. Es soll nun der Durchschnitt aus allen Beurteilungen berechnet werden. Dies wird mit einem kleinen Programm umgesetzt. // Berechnung der Gesamtzufriedenheit pro Zeile double i=0; i= (double) ($Beurteilung 1$ + $Beurteilung 2$ + …) / Anzahl der Beurteilungen; return i; Das vollständige Java-Programm ist in der „Java Snippet“ Node zu finden. Die „Java Snippet“ Node erzeugt eine neue Spalte „Zufriedenheit“ mit dem Datentyp Double. Dort sind die Mittelwerte der Beurteilungen enthalten. Zu beachten ist, dass hier für korrekte Mittelwerte explizit auf den Datentyp Double gecastet werden muss, da sonst die Werte gerundet werden. 13 Data Mining Abbildung 3 Neue Spalte: Gesamtzufriedenheit pro Person Die neue Spalte, grün umrandet, siehe Abbildung 3, enthält die errechneten Werte. Möglich sind Inhalte von 1 (sehr zufrieden) bis 5 (sehr unzufrieden). Dies ist die erste Spalte mit dem Datentyp Double in dieser Tabelle. Leider gibt es einige Felder in den Beurteilungen, welche keine Integerwerte enthalten. Sofern ein Feld frei gelassen wurde oder es einen Strich beinhaltet ersetzt KNIME den Inhalt mit einem Fragezeichen und kann folglich keine Werte für die Spalte Zufriedenheit errechnen (siehe Abbildung 3, roter Pfeil). Die fehlenden Werte werden im Folgenden besonders beachtet. 3.3 Clusterbildung mit k-Means für Semester & Zufriedenheit 3.3.1 k-Means ohne Behandlung der fehlerhaften Werte Im ersten Schritt wurde die Anzahl der sinnvollen Cluster berechnet. Als zweites folgte die Berechnung der Gesamtzufriedenheit je Reihe. Nun soll überprüft werden ob es einen Zusammenhang zwischen den Semester-Clustern und der Zufriedenheit gibt. Dazu werden erneut Cluster gebildet, nun aber die Daten der Zufriedenheit mit hinzugezogen. Im ersten Versuch werden die fehlerhaften Felder, welche mit einem „?“ markiert sind nicht gesondert betrachtet. Die benötigten Berechnungen führt die „kMeans“ Node durch. Zu finden ist sie in der „Node Repository“ unter „Mining > Clustering > k-Means“. Über die Option „Configure“ gelangt der Anwender in die Dialogbox um festzulegen, welche Spalten in die Berechnung einfließen sollen. Es 14 Data Mining werden alle Spalten entfernt und nur die Spalte „Semester“ und die neu erstellte Spalte „Zufriedenheit“ hinzugefügt. „Execute“ führt die Node aus. Der Eintrag „Cluster View“ zeigt die Ergebnisse an, siehe Abbildung 4. Abbildung 4 k-Means ohne Behandlung der fehlerhaften Felder Zu sehen sind die ähnlichen Cluster aus dem Kapitel 3.1 der „Weka SimpleKMeans“ Node. Neu hinzu gekommen sind die Werte über die Zufriedenheit. Alle Studenten des ersten und zweiten Semesters sind in Cluster 0 zu finden. Insgesamt 99 Reihen. Für diese Gruppe wurde eine Gesamtzufriedenheit von 2,04 berechnet. Die 84 Studenten der zweiten Gruppe sind im vierten Semester. Ihre berechnete Zufriedenheit liegt bei 2,16. Studenten des Semesters sechs und acht sind in Cluster 2 zusammengefasst. Ihre durchschnittliche Zufriedenheit wurde mit 2,26 berechnet. Daraus kann abgeleitet werden, dass mit zunehmendem Semester die Beurteilung der Studenten, und damit ihre Zufriedenheit, schlechter wird. Von Semester zwei zu Semester vier gibt es einen Unterschied von 0,12 Punkten, was 0,06 Punkte pro Semester entsprechen würde. Der Unterschied von Semester vier bis Semester 6,5 beläuft sich auf 0,10 Punkten, was 0,04 Punkte Verschlechterung pro Semester bedeutet. Abbildung 5 zeigt den KNIME Workflow für die Berechnung der Cluster mittels des KMeans Algorithmus ohne gesonderte Behandlung der fehlerhaften Werte. Die Daten werden über die „File Reader“ eingelesen und mit verschiedenen Filtern bearbeitet, Die „Java Snippet“ Node fügt die neue Spalte „Zufriedenheit“ hinzu. Die k-Means Berechnungen werden in der grünen Node durchgeführt. 15 Data Mining Abbildung 5 K-Means Workflow 3.3.2 k-Means nach Ersetzen der fehlerhaften Werte durch Null In Kapitel 1.2.3 wurde auf die Felder mit undefiniertem Inhalt eingegangen. Bislang waren diese Felder Teil der Berechnung und somit bestand eine Möglichkeit, dass diese Felder auch die Ergebnisse negativ beeinflussen. Um das Ergebnis aus Kapitel 3.3.1 zu verifizieren wird die k-Means Berechnung wiederholt. Hinzu kommt eine Fehlerbehandlung der unbekannten Werte. In Abbildung 6 ist der KNIME Workflow dargestellt. Abbildung 6 K-Means Workflow mit Ersetzen der unbekannten Werte Hinzu gekommen ist eine neue Node. Die „Missing Value“ Node gibt dem Anwender die Möglichkeit bestimmte Werte zu ersetzen. Über die „Configure“ Option lassen sich Einstellungen vornehmen. In allen Integer-Spalten sollen die fehlenden Werte durch eine Null ersetzt werden. Diese Änderung betritt die Berechnung der Zufriedenheit, daher muss die Node vor der „Java Snippet“ Node integriert werden Die Gegenüberstellung des neuen Ergebnis der „k-Means“ Node ist in Abbildung 7 zu sehen. 16 Data Mining Abbildung 7 Links: ohne Fehlerbehandlung, Rechts mit "Missing Value" Node In der Zuweisung der Reihen zu den Clustern gab es keine Veränderung. Links sind die bekannten Ergebnisse aus Kapitel 3.3.1 zu sehen. Rechts die neuen Werte, welche das Ersetzen der unbekannten Felder mit Null beinhalten. Es sind neue Reihen verwertbar geworden. Da in die Berechnung nun einige neue Felder eingegangen sind hat sich die Zufriedenheit leicht verändert. Die neuen Reihen haben die Zufriedenheit in allen drei Clustern gesenkt. Dies lässt darauf schließen, dass die neu verfügbar gemachten Reihen überdurchschnittlich schlechte Bewertungen beinhalten. Der Abwärtstrend mit aufsteigenden Semestern ist dennoch deutlich zu erkennen. 3.3.3 k-Means ohne Reihen mit fehlerhaften Werten Das Ergebnis aus der ersten k-Means Clusterbildung wurde in der zweiten Berechnung bestätigt. Da jedoch Werte ersetzt wurden und es keine Informationen darüber gibt wie die fehlenden Werte zustande kamen, wird eine dritte Berechnung durchgeführt. Nun werden die Ausgangswerte nicht verändert. Alle Reihen mit fehlerhaften Angaben werden aussortiert. Abbildung 8Aussortieren fehlerhafter Reihen: k-Means Workflow Abbildung 8 zeigt den KNIME Workflow der erneuten k-Means Berechnung. Die „Sorter“ Node wurde verwendet um abzuschätzen wie viele Reihen entfernt werden 17 Data Mining müssen. Insgesamt sind 15 Reihen mit einem „?“ versehen. Diese werden mit der „Row Splitter“ Node aussortiert. Die „k-Means“ Node berechnet die Werte, welche in Abbildung 9 zu sehen sind. Abbildung 9 Rechts: Neue k-Means Clusterbildung ohne fehlerhafte Reihen Die erneute Berechnung der Cluster zeigt ein unvermutetes Ergebnis. Die Centroiden haben sich stark verschoben und die Werte sind weder zum Stützen noch zur Widerlegung verwertbar. Offensichtlich wurden die Studenten des vierten Semesters in Cluster 2 eingeordnet. Cluster 0 und Cluster 1 beinhalten wahrscheinlich ausschließlich Studenten des ersten und zweiten Semesters. 3.3.4 k-Means mit wiederhergestellten Centroiden und ohne fehlerhafte Reihen Die Entfernung der Reihen mit unbekannten Feldern hat das Gleichgewicht der Clusterbildung gestört. Die Werte sind weder zur Widerlegung noch zur Verifizierung der bisherigen Ergebnisse einsetzbar. Abbildung 10 zeigt den neuen KNIME Workflow. Nun wird gezielt darauf geachtet, dass die Studenten in den jeweiligen Gruppen sind. Die erste „Row Splitter“ Node entfernt alle Reihen, welche fehlende Werte beinhalten. Die zwei folgenden „Row Splitter“ Nodes separieren die Studenten des ersten und zweiten Semesters. Über eine „Concatenate“ Node werden die Daten wieder verdichtet und der k-Means Berechnung für das Cluster 0 zugeführt. Die vierte „Row Splitter“ Node teilt die verbliebenden Reihen in zwei Gruppen auf. Ausgang „0 Filtered“ beinhaltet alle Studenten des vierten Semesters. Ausgang „1 Filtered out“ (unterer Ausgang) enthält alle Studenten des sechsten und achten Semesters. Entsprechende „kMeans“ Noden berechnen die Zufriedenheit für die Studenten der jeweiligen Cluster. Somit ist sichergestellt, dass in den jeweiligen Clustern nur die Studenten der Semester vorhanden sind, wie in den ersten beiden Berechnungen. 18 Data Mining Abbildung 10 Workflow: Berechnung der Centroiden mit k-Means .Abbildung 11 zeigt das Ergebnis der Berechnung der „k-Means“ Noden. Deutlich ist zu erkennen, dass Studenten des ersten und zweiten Semesters wieder dem Cluster 0 (Cluster View 0:45) zugeordnet wurden. In diesem Cluster fehlen 9 Reihen aufgrund der Aus-sortierung. Cluster 1 (Cluster View 0:51) enthält die Studenten des vierten Semesters. Hier reduzierten sich die Reihen von 84 auf 79. Cluster View 0:47 zeigt die Studenten des sechsten und achten Semesters. In diesem Cluster gab es eine Reihe mit fehlenden Angaben. Der Trend der abfallenden Zufriedenheit ist auch hier deutlich zu erkennen und stützt die bisherigen Ergebnisse. Abbildung 11 k-Means Cluster 19 / Interpretation 4 Interpretation Abbildung 12 Finale Auswertung der korrekten drei Durchläufe In Abbildung 12 sind alle Erbennisse der k-Means Durchläufe mit Semester und Zufriedenheit dargestellt, welche das Ergebnis stützen oder widerlegen können. Cluster View 0:8 (oben rechts) zeigt die Clusterbildung ohne Behandlung der unbekannten Felder. Cluster View 0:19 (unten rechts) zeigt die Clusterbildung nachdem die unbekannten Felder mit dem wahrscheinlichten Wert, einer Null für die Option „weiß nicht“, ersetzt wurden. Cluster 0 repräsentiert alle Studienanfänger (Studenten des ersten und zweiten Semesters). Cluster 1 mit 84 Reihen stellt die Studenten des vierten Semesters dar. Cluster 2 beinhaltet alle Studenten im sechsten und achten Semester und repräsentiert die Studenten kurz vor ihrem Abschluss. Obwohl beide Berechnungen, wie zu erwarten war, recht ähnlich sind, gibt es leichte Unterschiede in der Zufriedenheit je Cluster. Auch die letzte Berechnung stützt den Abwärtstrend-Trend in der Zufriedenheit. In der Folgenden Tabelle sind alle Berechneten Werte der Zufriedenheit aufgelistet. 20 / Interpretation Zufriedenheit Zufriedenheit Cluster 0 Cluster 1 (Studienanfänger) (Mitten Studium) Zufriedenheit Cluster 2 im (Kurz vor Studienende) Ohne Behandlung 2.04 der unbekannten Werte 2.16 2.26 Ersetzen der 2.26 unbekannten Werte mit 0 2.29 2.32 Entfernen Reihen unbekannten Werten 2.30 2.35 der 2.25 mit Deutlich ist in dieser Tabelle zu erkennen, dass sie die Werte je nach Fehlerbehandlung leicht verändern. Ein prinzipieller Trend ist jedoch in jeder Reihe zu erkennen. Von Cluster 0 (Studienanfänger) bis Cluster 2 (Studenten kurz vor dem Abschluss) sinkt stetig die Zufriedenheit. Möglicherweise ist das damit zu erklären, dass die Studenten einfach nur kritischer werden. 21 Bilderverzeichnis 5 Bilderverzeichnis Abbildung 1 Weka KMeans Clusterbildung der Semesteranzahl ................................. 11 Abbildung 2 KNIME Workflow: Clusterbildung mit Weka SimpleKMeans ............... 12 Abbildung 3 Neue Spalte: Gesamtzufriedenheit pro Person......................................... 14 Abbildung 4 k-Means ohne Behandlung der fehlerhaften Felder ................................. 15 Abbildung 5 K-Means Workflow ................................................................................ 16 Abbildung 6 K-Means Workflow mit Ersetzen der unbekannten Werte ....................... 16 Abbildung 7 Links: ohne Fehlerbehandlung, Rechts mit "Missing Value" Node.......... 17 Abbildung 8Aussortieren fehlerhafter Reihen: k-Means Workflow ............................. 17 Abbildung 9 Rechts: Neue k-Means Clusterbildung ohne fehlerhafte Reihen .............. 18 Abbildung 10 Workflow: Berechnung der Centroiden mit k-Means ............................ 19 Abbildung 11 k-Means Cluster................................................................................... 19 Abbildung 12 Finale Auswertung der korrekten drei Durchläufe ................................. 20 22