Hochschule Wismar Fakultät für Wirtschaftswissenschaften Projektbericht “Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar“ zur VERANSTALTUNG Business Intelligence im Master Digitale Logistik und Management der Hochschule Wismar eingereicht von: Matthias Säger (111506) Stefan Wagner (120477) Betreuer: Prof. Dr. J. Cleve Wismar, 07. Januar 2013 Inhaltsverzeichnis Inhaltsverzeichnis II Abbildungsverzeichnis III Tabellenverzeichnis V Abkürzungsverzeichnis VI 1 2 3 4 Gegenstand des Berichtes 1 1.1 Prolog und Zielstellung 1 1.2 Vorgehensweise 2 Projektmanagement 3 2.1 Projektstrukturplan / Objektplan 3 2.2 Projektterminplan 4 Datenvorbereitung 5 3.1 Datenselektion 5 3.2 Datensäuberung 6 3.3 Datenreduktion und -transformation 9 Data Mining 12 4.1 Allgemeiner Aufbau in KNIME 13 4.2 Assoziationsanalyse - A Priori 14 4.3 Grundsätzliches Vorgehen Data Mining-Verfahren 18 4.3.1 Naive Bayes 20 4.3.2 Decision Tree 23 4.3.3 J 48 - Algorithmus 25 4.3.4 kMeans - Algorithmus 27 4.4 Gesamtergebnisse und Interpration 31 5 Grundlegende Konflikte 33 6 Gesamtfazit 34 Quellenverzeichnis Anlagen II Abbildungsverzeichnis Abbildung 1: Projektstrukturplan / Objektplan 3 Abbildung 2: Projektterminplan 4 Abbildung 3: Ablauf eines Data-Mining-Prozesses 5 Abbildung 4: kNN-Berechnung, 8 Datensatz: „Arbeit während des Studiums in Std. / Woche“ Abbildung 5: kNN-Berechnung, 8 Datensatz: „Verfügung über monatliches Budget“ Abbildung 6: kNN-Berechnung, 8 Datensatz: „Video- / Onlinespiele in Std. / Woche“ Abbildung 7: Ablauf eines Data-Mining-Prozesses 12 Abbildung 8: Grundaufbau für das Projekt „Fragebogen HS Wismar“ 13 Abbildung 9: A-Priori-Algorithmus 14 Abbildung 10: Ergebnis Assoziationsregeln Klasse 2 16 Abbildung 11: Beispiel Attribute der Klasse 2 zu 3 (exemplarisch) 17 Abbildung 12: Ergebnisse der Data Mining-Verfahren 20 Abbildung 13: Modellierung Naive Bayes 20 Abbildung 14: Knoten „Scorer“ Naive Bayes 22 Abbildung 15: Modellierung Decision Tree 23 Abbildung 16: Knoten „Scorer“ Decision Tree 24 III Abbildung 17: Modellierung J 48 - Algorithmus 25 Abbildung 18: Weka Node View - J48 - Algorithmus 26 Abbildung 19: Modellierung Naive Bayes mit kMeans Algorithmus 28 Abbildung 20: Cluster-Bildung mit kMeans - Algorithmus 29 Abbildung 21: Knoten „Scorer“ von allen 3 Data Mining - Verfahren 29 IV Tabellenverzeichnis Tabelle 1: Datensäuberung - Falsche Daten 6 Tabelle 2: Datensäuberung - Fehlende Daten 7 Tabelle 3: Datenreduktion u. -transformation, 9 (Daten)-Aggregation, Datenkompression u -kombination Tabelle 4: Bildung von Klassen 11 Tabelle 5: Relevante "Fragestellungen" bzw. Zielattribute 18 Tabelle 6: Fragestellungen 9 und 10 mit Cluster 27 Tabelle 7: Fragestellungen 9 und 10 mit und ohne Cluster 28 Tabelle 8: Beste Gesamtvorhersageergebnisse aller Tests 31 V Abkürzungsverzeichnis KNIME Konstanz Information Miner kNN k-Nearest-Neighbor VI 1 Gegenstand des Berichtes 1.1 Prolog und Zielstellung Gerade in Zeiten der Globalisierung der Märkte sowie der Ausdehnung der Unternehmensaktivitäten aufgrund des zunehmenden Kostendrucks, ist es für Unternehmen immens wichtig die stetig steigende Informationsflut durch entsprechende Methoden bzw. Verfahren effizient zu sammeln, zu analysieren, zu verwalten sowie effektiv zu nutzen. Business Intelligence, als Begrifflichkeit aus der Wirtschaftsinformatik, gilt dabei als eine moderne Zusammenfassung dieser Techniken bzw. Verfahren mit den Hauptaufgaben der Wissensgewinnung, Wissensverwaltung und Wissensverarbeitung. Ziel dabei ist es, hinreichende Ergebnisse in Hinsicht auf operative oder strategische Entscheidungsmöglichkeiten neu zu gewinnen oder direkt abzuleiten. Dieses kann bspw. die bereits angesprochene Kostensenkung, aber auch eine Optimierung der Geschäftsabläufe, eine intelligente Bewertung der Kunden- und Lieferantendaten oder auch einfach die Risikominimierung sein. Eine Technik des Business Intelligence ist das Data Mining. Unter Data Mining versteht man das Schürfen nach Daten, wobei die zentrale Aussage beinhaltet: „[…] dass es sich um einen nichttrivialen Prozess handelt, dessen Ziel es ist, Muster aus großen Datenbeständen zu extrahieren. 1 Kurzum, es werden wertvolle Informationen aus einer großen Menge von Daten gezogen. Ziel dieses Berichtes und somit Inhalt des vorliegenden Projekt „Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar“ ist die Auswertung von 54 vorab gestellten Fragen an die Studenten der Hochschule Wismar, wobei versucht wird, durch entsprechende Data Mining-Verfahren die verschiedenen Möglichkeiten bzw. Situationen sowie das Verhalten eines Studenten in Wismar abzubilden, zu interpretieren sowie mit einer hohen Wahrscheinlichkeit vorherzusagen. Um sinnvolle Aussagen treffen zu können, sind dabei die auftretenden Konflikte sowie die Ergebnisinterpretation für den Bericht kennzeichnend. 1 Chamoni, P., 2012. 1 1.2 Vorgehensweise Nachdem im ersten Kapitel der Prolog mit der Zielsetzung des Berichtes aufgeführt wird, beschäftigt sich das zweite Kapitel mit dem Projektmanagement. Zum einen werden dabei der Projektstrukturplan sowie der Objektplan, der die eigentliche Arbeit des Projektes beinhaltet, dargestellt und zum zweiten der Projektterminplan, der den Verlauf der Projektarbeit terminiert, abgebildet. Diese beiden Instrumente fungieren auf Metaebene und bilden den Rahmen des Gesamtprojektes. Im dritten Kapitel wird auf die grundlegende Datenvorbereitung eingegangen. Diese dient als Basis für alle folgenden Techniken, da diese auf die notwendig fehlerlosen Daten zugreifen. Um eine hohe Ergebnisqualität bei der Datenanalyse zu erreichen, werden dabei die verschiedenen Stadien der Vorbereitung (Datenselektion, Datensäuberung, Datenreduktion und -transformation) durchlaufen. Grunddaten und Ausgangsdaten für das Data Mining sowie etwaige Ergebnisse von Algorithmen werden entweder im Bericht oder in der Anlage aufgeführt. Die für das Projekt als sinnvoll erachteten Techniken bzw. Methoden des Data Mining werden im vierten Kapitel auf- und durchgeführt. Von Interesse sind dabei die Assoziationsanalyse A Priori, das Naive Bayes, der Decision Tree, J48 - Algorithmus sowie das Clustering mit kMeans. Der Schwerpunkt wird dabei insbesondere auf die Zielbeschreibung des Verfahrens, auf die Beschreibung des jeweiligen Verfahrens an sich, auf die Durchführung der Anwendung, auf die auftretenden speziellen Konflikte sowie auf die Ergebnisse und deren Interpretation gelegt. Das letzte Hauptkapitel stellt abschließend kurz die Grundkonflikte dieses Projektes dar. Ein Gesamtfazit mit kritischer Hinterfragung der Zielerreichung sowie eine Bewertung der Modelle schließen den Bericht ab. 2 2 Projektmanagement 2.1 Projektstrukturplan / Objektplan Projektbericht Business Intelligence Definitionsphase Planungsphase Teilaufgabe 1: Grundlagen und Zieldefinition Teilaufgabe 2: AP-Planung und Festlegung AP I: - Themenvorgabe und Gruppenwahl - Säger / Wagner AP II: - Besprechung und Definierung der Ziele (Projekt und Objekt) - Säger / Wagner AP III: - Skizzierung der Projektmanagement- und der Objektstrukturen - Säger / Wagner AP IV: - Besprechung, Festlegung und Verteilung der Projektmanagementelemente - Säger / Wagner Realisierungsphase Objektplan: Ausarbeitung Projektbericht Teilaufgabe 3: Ausarbeitung Planunterlagen AP VII: AP VI: - Projektstruktur- u. Objektplan, Projektterminplan - Säger - Gegenstand des Berichtes - Säger AP VIII: AP V: - Besprechung, Festlegung und Verteilung der Objektelemente - Säger / Wagner Assoziationanalyse - Wagner Clustering - kMeans - Wagner AP XII: AP XVI: - Data Mining: - Data Mining: Datenselektion - Säger Naive Bayes - Wagner Ergeb.-Interpretation - Säger / Wagner AP XIII: - Datenvorbereitung: - Data Mining: Datensäuberung - Säger Decision Tree - Wagner AP X: 3 AP XV: - Data Mining: - Datenvorbereitung: AP IX: Abb. 1: Projektstrukturplan / Objektplan (Quelle: eigene Darstellung) AP XI: - Data Mining: AP XIV: - Datenvorbereitung: - Data Mining: Datenreduktion und -transformation - Säger J48 - Algorithmus - Wagner AP XVII: - Grundleg. Konflikte - Säger AP XVIII: - Gesamtfazit - Säger / Wagner AP XIX: - Präsentation - Säger / Wagner 2.2 Projektterminplan Abb. 2: Projektterminplan (Quelle: eigene Darstellung) 4 3 Datenvorbereitung Nachdem die Projektplanung abgeschlossen ist, werden in diesem Kapitel die für eine Datenvorbereitung benötigten spezifischen Elemente aufgezeigt und im weiteren Verlauf explizit sowie unter Berücksichtigung von entsprechender Methodik so bearbeitet, dass eine Verarbeitung in KNIME und infolgedessen eine einheitliche Interpretation stattfinden kann. Die Vorgehensweise beruht dabei auf der Grundlage des folgenden Modelles. Datenvorbereitung Datenselektion Datensäuberung Datenreduktion Datentransformation Data-Mining Evaluation Abb. 3: Ablauf eines Data-Mining-Prozesses (Quelle: eigene Darstellung in Anlehnung an Fayyad et al 1996) 3.1 Datenselektion Die Datenselektion (Datenintegration) hat zur Aufgabe, einen schlüssigen Datensatz aus den vorgegebenen oder ermittelten Daten anzulegen. Als Grundlage diente dabei die Auswertung eines Fragebogens. Durch die Datentransformation der vorab eingelesenen Bewertung der einzelnen Teilnehmer (Studenten) in das von MS Excel genutzte Format, konnten drei Datenbanken generiert und anschließend zu einer Datenbank (Anlage I, „Projekt BI Fragenbogen HS Wismar Daten/ „Umfrage“, Tabellenblatt „Ausgangsdaten“) zusammengefügt werden: Datenbank 1 (127 Datensätze) Datenbank 2 (17 Datensätze) Datenbank 3 (90 Datensätze) zu Datenbank (234 Datensätze) Die folgenden Attribute wurden aufgrund ihrer Irrelevanz für die Auswertung gelöscht: Spalte B „Benutzername“ Spalte C „Nachname“ Spalte D „Vorname“ 5 3.2 Datensäuberung Dieser Abschnitt ist von hoher Relevanz für alle nachfolgenden Analyseprozesse, da hierbei der Datenbestand verändert wird. Durch die vielfältigen Anpassungen der Daten, Expertenschätzung nach ca. 80 % der für den Data Mining Prozess bereitgestellten technischen, personellen und zeitlichen Ressourcen 2, werden fehlende-, verrauschte-, falsche- und inkonsistente Daten nur in dem Maße geändert, dass minimale Ergebnisabweichungen erreicht werden. Als Basis dient hier ebenfalls die Datenbank: Anlage I, „Projekt BI Fragenbogen HS Wismar Daten/ „Umfrage“, Tabellenblatt „Ausgangsdaten“ sowie infolge die geänderte Fassung nach Datensäuberung: Tabellenblatt „Da. mit Klassen komp. bereinigt“ Falsche Daten: Falsche Daten Attribut (Frage in Kurzform) Fehler geprüfte / genutzte Methode Ergebnis K8, K106, K111, K152 vorhandenes in Bezug auf Erststudium Attribut J Falsche Attribute Datenlöschung Entfernung der Antworten, da hier ein konsekutives Studium nicht beachtet worden ist und somit die Antworten zu dem Erststudium falsch sind. Attribut / Datensatz K234 in Bezug auf Attribut J vorhandenes Erststudium Falsche Attribute Datenlöschung Entfernung der Antwort, da hier ein falsches Attribut "keinen" als Antwort gegeben wurde. X227 in Bezug auf Attribut W Arbeit während Falsches des Studiums Attribut in Std. / Woche Datenlöschung Entfernung der Antwort, da hier ein falscher Wert "0" als Antwort gegeben wurde. AM1, AM74, TV schauen auf AM79, Falsche AM216 in eigenen TV in Attribute Bezug auf Std. / Woche Attribut AL Datenlöschung Entfernung der Antworten, da hier ein falscher Wert "0" als Antwort gegeben wurde. AM161 in Bezug auf Attribut AL TV schauen auf Falsches eigenen TV in Attribut Std. / Woche Datenlöschung Entfernung der Antwort, da hier ein falscher Wert "1" als Antwort gegeben wurde. AO190 in Bezug auf Attribut AN VideoFalsches /Onlinespiele in Attribut Std. / Woche Datenlöschung Entfernung der Antwort, da hier ein falscher Wert "0" als Antwort gegeben wurde. Tab. 1: 2 Datensäuberung - Falsche Daten (Quelle: eigene Darstellung) Gabriel, R.; Gluchowski, P.; Pastwa, A., 2009, S. 129 6 Fehlende Daten: Fehlende Daten Attribut / Datensatz K Attribut (Frage in Kurzform) Fehler geprüfte / genutzte Methode vorhandenes Fehlende Erststudium Attribute Hinzufügen eines Attributs K92, K104, vorhandenes Fehlende K229 in Erststudium Attribute Bezug auf Attribut J Arbeit X in Bezug während des Fehlende auf W Studiums in Attribute Std. / Woche X64, X87 in Bezug auf Attribut W Arbeit während des Fehlende Studiums in Attribute Std. / Woche kNN Ergebnis Hinzufügen und Kennzeichnung des Attributs "keinen (0)" zur Vermeidung von Leerstellen bei Antwort "Erststudium ja (0)". Aufgrund der geringen Datenmenge ist die kNN-Methode zur Wertbestimmung nicht geeignet. Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributs "keine Angabe (6)" zur Vermeidung von Leerstellen bei Nichtbeantwortung der Frage Attribut J. Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributes "keine Arbeit (5)" zur Vermeidung von Leerstellen bei Antwort Attribut W "Arbeit nein (1)". kNN Aufgrund des schlechten Vorhersageergebnisses von kNN=12,5 % bei 5 Attributen ist diese Methode nicht geeignet (siehe Seite 8, Abb. 4). Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributs "keine Angabe (6)" zur Vermeidung von Leerstellen bei Nichtbeantwortung der Frage Attribut X. kNN Aufgrund des schlechten Vorhersageergebnisses von kNN=21,0 % bei 5 Attributen ist diese Methode nicht geeignet (siehe Seite 8, Abb. 5). Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributs "keine Angabe (5)" zur Vermeidung von Leerstellen bei Nichtbeantwortung der Frage Attribut Y. Verfügung Y22, Y62, über Y64, Y110, monatliches Y170 Budget Fehlende Attribute AM in TV schauen Bezug auf in Std. pro Attribut AL Woche Fehlende Attribute Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributes "kein TV (5)" zur Vermeidung von Leerstellen bei Antwort Attribut AL "Fernseher nein (1)". VideoAO in /Onlinespiele Fehlende Bezug auf in Std. / Attribute Attribut AN Woche Hinzufügen eines Attributs Hinzufügen und Kennzeichnung des Attributes "keine Video-/OL-Spiele (4)" zur Vermeidung von Leerstellen bei Antwort Attribut AN "Video-/OL-spiele nein (1)". VideoAO190 in /Onlinespiele Fehlendes Bezug auf kNN in Std. / Attribut Attribut AN Woche Finanzierung Fehlende BE Löschung Auto Attribute Tab. 2: Datensäuberung - Fehlende Daten (Quelle: eigene Darstellung) 7 Ermittlung des höchsten Wertes von kNN=100 % bei 4 Attributen (siehe Seite 8, Abb. 6). Eintragung einer "0" für "1-10h". Löschung der Spalte BE "Finanzierung Auto" aufgrund fehlender Daten. kNN - k-Nearest-Neighbor Das kNN-Verfahren (kNN-Algorithmus) ist eine Technik des (hier vorgegriffenen) Data Mining, wobei eine Klassenzuordnung unter Berücksichtigung des „nächsten Nachbarn“ = k erfolgt. Von den hier unbekannten, genauer fehlenden Daten wird eine Affinität zu bereits bestehenden Daten berechnet und den Daten mit der höchsten Ähnlichkeit zugeordnet. Berechnung des kNN-Wertes für Tab. 2, Datensäuberung - Fehlende Daten: Für alle kNN-Berechnungen gilt eine Partitionierung von 70 % / 30 %. Abb. 4: kNN-Berechnung, Datensatz: „Arbeit während des Studiums in Std. / Woche“ (Quelle: eigene Darstellung) Ergebnis: kNN-Wert = 12,5 % (2 Datensätze / 16 Datensätze) Abb. 5: kNN-Berechnung, Datensatz: „Verfügung über monatliches Budget“ (Quelle: eigene Darstellung) Ergebnis: kNN-Wert = 21,0 % (14 Datensätze / 66 Datensätze) Abb. 6: kNN-Berechnung, Datensatz: „Video- / Onlinespiele in Std. / Woche“ (Quelle: eigene Darstellung) Ergebnis: kNN-Wert = 100 % (3 Datensätze / 3 Datensätze) bei k = 3 Das Ergebnis wurde durch Part. 10 % / 90 % (mehr Datensätze) nur bestätigt. 8 3.3 Datenreduktion und -transformation Da die Datensätze sehr umfangreich sind, ist das Data Mining ebenfalls umfassend und daher sehr aufwendig. Um dieses zu verhindern, wird versucht, ein sinnvolles Zusammenfassen von Datensätzen oder Attributen durchzuführen. Die hierbei verwendeten Strategien sind (Daten)-Aggregation, Datenkompression sowie die Datenkombination. Als Basis dient hier wiederum die Datenbank: Anlage I, „Projekt BI Fragenbogen HS Wismar Daten/ „Umfrage“, Tabellenblatt „Ausgangsdaten“ sowie infolge die geänderte Fassung nach Datenreduktion: Tabellenblatt „Da. mit Klassen komp. bereinigt“ (Daten)-Aggregation, Datenkompression und -kombination (Daten)-Aggregation, Datenkompression und -kombination Attribut / Datensatz E Attribut (Frage in Kurzform) Momentaner Studiengang geprüfte / genutzte Methode ZusammenZusammenfassen der jeweiligen Studiengangsattribute fassung "Bachelor (0, 1, 2, 3)" und "Master (4, 5, 6, 7, 8, 9)" zu (Aggregation) neuen Attributen "Bachelor (1)" und "Master (2)". von Attributen Löschung K Vorherige Studiengangsbelegung Ergebnis Löschung des Attributs "anderer (10)", da dieses nicht gewählt wurde und infolge irrelevant zu der vorhergegangenen Datenverdichtung ist. Zusammenfassung und Kodierung der jeweiligen Studiengangsattribute "Bachelor Wirtschaftsrecht", "Betriebswirtschaft", "Bachelor BW", "Bachelor WI", "WI Bachelor", "Wirtschaftsinformatik", "VWL" zu Zusammenneuem Attribut "Wirtschaftswissenschaften (1)"; fassung "Jura Uni Rostock" zu neuem Attribut (Aggregation) "Rechtswissenschaften (2)"; "Multimediatechnik", und "Verfahrens- und Umwelttechnik", Kodierung "Bauingenieurwesen", "dual Maschinenbau", (Daten"Maschinenbau" zu neuem Attribut kompression) "Ingenieurwissenschaften (3)"; "Lehramt von Attributen AWT/Informatik" zu neuem Attribut "Erziehungswissenschaften (4)" und "Agrarökologie Uni Rostock" zu neuem Attribut "Agrar- und Forstwissenschaften (5)". Datenkombination und Kodierung Arbeitsmarkt- (DatenS und R möglichkeiten kompression) von Attributen Löschung Kombination der Spaltenattribute "sehr gut (0)", "gut (1)", "okay (2)", "mäßig (3)", "schlecht (4)" sowie des Spaltenattributs "weiß nicht" mit nachfolgender Kodierung "weiß nicht (5)". Entfernen der Spalte R "weiß nicht". 9 Z - AD AE und AF AG und AH AP Momentane Wohnungsverhältnisse Verfügbarkeit über alleinige Wohnfläche in m² Einschätzung Studiumsleistung Wochenenden in Wismar Zusammenfassung der jeweiligen Wohnverhältnisattribute "Eigentumswohnung/-haus", "Eltern" zu neuem Attribut "private Wohnverhältnisse: ja (1), nein Zusammen(0); "Mietwohnung" zu neuem Attribut "öffentliche fassung (Aggregation) Wohnverhältnisse: ja (1), nein (0)"; von Attributen "Wohngemeinschaft", "Studentenwohnheim" zu neuem Attribut "gemeinschaftliche Wohnverhältnisse: ja (1), nein (0)". Datenkombination und Kodierung (Datenkompression) von Attributen Kombination der Spaltenattribute "< 10m² (0)", "11-20 m² (1)", "21-30 m² (2)", "> 30m² (3)" sowie des Spaltenattributs "weiß nicht" mit nachfolgender Kodierung "weiß nicht (4)". Löschung Entfernen des Spaltenattributs AE "weiß nicht". Datenkombination und Kodierung (Datenkompression) von Attributen Kombination der Spaltenattribute "sehr gut (0)", "gut (1)", "okay (2)", "mäßig (3)", "schlecht (4)" sowie des Spaltenattributs "weiß nicht" mit nachfolgender Kodierung "weiß nicht (5)". Löschung Entfernen des Spaltenattributs AH "weiß nicht". Kodierung des jeweiligen Wochenendattributs Kodierung "Alle" zu neuem Attribut "Alle (1)"; (Daten"Jedes dritte" zu neuem Attribut "Jedes dritte (2)"; kompression) "Jedes zweite" zu neuem Attribut "Jedes zweite (3)" von Attributen und "Keins" zu neuem Attribut "Keines (4)". Zusammenfassung Zusammenfassung und Kodierung der jeweiligen Nutzung (Aggregation) Verkehrsmittelattribute "Bahn", "Bus" zu neuem Verkehrsund Attribut "öffentliche Verkehrsmittel: ja (1), nein (0); AR - AW mittel zur Kodierung "Auto", "Motorrad", "Fahrrad", "zu Fuß" zu neuem Hochschule (DatenAttribut "private Verkehrsmittel: ja (1), nein (0)". kompression) von Attributen Zusammenfassung Zusammenfassung und Kodierung der jeweiligen Nutzung (Aggregation) Verkehrsmittelattribute "Bus" zu neuem Attribut Verkehrsund "öffentliche Verkehrsmittel: ja (1), nein (0); AY - BC mittel in Kodierung "Auto", "Motorrad", "Fahrrad", "zu Fuß" zu neuem Wismar (DatenAttribut "private Verkehrsmittel: ja (1), nein (0)". kompression) von Attributen Zusammenfassung Zusammenfassung und Kodierung der jeweiligen (Aggregation) Zufriedenheit Situationsattribute "Sehr zufrieden", " Zufrieden", und Lebens"Eher zufrieden" zu neuem Attribut "Zufrieden (1); BE Kodierung situation "Eher unzufrieden", "Unzufrieden" zu neuem Attribut (Daten"Unzufrieden (2)". kompression) von Attributen Tab. 3: Datenreduktion und -transformation - (Daten)-Aggregation, Datenkompression u -kombination (Quelle: eigene Darstellung) 10 Des Weiteren wurden alle 54 Datensätze (Fragen) entsprechenden Klassen zugeordnet. Dieses hat den Zweck, die jeweils anders gearteten Bereiche (Klassen), im Data Mining bspw. bei der Assoziationsanalyse - A Priori so miteinander zu kombinieren, um gezielt die Abhängigkeiten von allen Attributen der verschiedenen Klassen untereinander untersuchen zu können (siehe Data Mining, S. 16). Bildung von Klassen: Nr. 1. Einteilung Klassen Datensatz (Spalte) G H Persönliche Daten Attribut (Frage in Kurzform) Geschlecht Alter 2. Schule / Ausbildung / Arbeitsmarkt E F I J, K L-T 3. Finanzierung U-Y 4. Einschätzung Leistung Studium AG - AK Studienleistung 5. Interessen AL - AO AQ TV, Videospiele Sport Persönliches Umfeld / Situation Z - AF AP AR - AX AY - BD BE Wohnung (eigene, Größe) Wochenenden in Wismar Verkehrsmittel zur HS Verkehrsmittel in HWI Lebenssituation 6. Studiengang Semester Berufsausbildung Erststudium Hochschule Arbeit, Finanzielle Mittel Tab. 4: Bildung von Klassen (Quelle: eigene Darstellung) Für nachstehende Datenänderung wurde auf folgende Datenbank zugegriffen: Anlage I, „Projekt BI Fragenbogen HS Wismar Daten/ „Umfrage“, Tabellenblatt „Ausgangsdaten“ sowie infolge die geänderte Fassung nach Datenreduktion: Tabellenblatt „Daten mit Klassen be. Knime“ Um eine problemlose Bearbeitung der Daten in KNIME zu gewährleisten, ist die Umwandlung der Umlaute ä, ö und ü in ae, oe und ue vorgenommen worden. Ebenso wurden die Attribute (Fragen / Datensätze) sinnvoll gekürzt, um eine hinreichend genaue Bearbeitung in den KNIME-Verfahren im Data Mining zu ermöglichen. Die Datenvorbereitung ist somit abgeschlossen. Als Ausgangsbasis dient nunmehr: Anlage I, „Projekt BI Fragenbogen HS Wismar Daten/ „Umfrage“, Tabellenblatt „Daten mit Klassen be. Knime“ bzw. Anlage II 11 4 Data Mining Nachdem die Datenvorbereitung abgeschlossen ist, kann mit der Datenanalyse, speziell mit dem Data Mining und infolge der Ergebnisinterpretation begonnen werden. Datenselektion Datensäuberung Datenreduktion Datentransformation Data-Mining Evaluation Datenanalyse Abb. 7: Ablauf eines Data-Mining-Prozesses (Quelle: eigene Darstellung in Anlehnung an Fayyad et al 1996) Um Wissen aus Daten extrahieren zu können, nutzen wir für unser Data Mining - Projekt ausschließlich das Data Mining-Werkzeug KNIME. Wir möchten dennoch kurz darauf hinweisen, dass der aktuelle Markt von automatisierten Analysewerkzeugen aufgrund der zunehmenden Bedeutung von Business Intelligence eine breite Palette von Data Mining Tools zur Verfügung stellt. So gibt es momentan über 150 verschiedene Werkzeuge für die Analyse von Daten. 3 In Anlage II befinden sich nochmal alle Attribute mit deren Ausprägungen, die wir innerhalb unseres Projektes in KNIME zur Daten-Extrahierung verwendet haben. Besonders die Festlegung der Ausprägungen von den Attributen ist zu beachten, da diese letztendlich nach Auswertung der Daten in KNIME die Ergebnisse wiederspiegeln. 3 Vgl. Neckel, 2012. 12 4.1 Allgemeiner Aufbau in KNIME Für eine erfolgreiche Umsetzung von Data Mining-Projekten in KNIME, muss der folgende grundsätzliche Aufbau beachtet werden. Dieser ist jedoch als allgemeingültiger Aufbau für unser Projekt anzusehen, da sich dieser beim Einlesen anderer Daten bzw. Datentypen oder der Auswahl von weiteren Data Mining-Verfahren unterscheiden kann. 4 Abb. 8: Grundaufbau für das Projekt „Fragebogen HS Wismar“ (Quelle: KNIME) Als erstes müssen in KNIME die zu bearbeitenden Ausgangsdaten (siehe Ordner „Daten“) über den Knoten „XLS Reader“ eingelesen werden. Im darauffolgenden Knoten „Number To String“ werden die Spaltenwerte selektiert, die von numerischen Integer-Werten zu dem Datentyp String umgewandelt werden sollen. Da unsere Daten aus dem Fragebogen alles numerische Integer-Datentypen waren, mussten alle Attribute in den Datentyp String umgewandelt werden. Dies war auch dazu notwendig, um mit den von uns ausgewählten Data Mining-Verfahren arbeiten zu können. Ohne die Umwandlung der Daten in den Datentyp String funktionierte kein Data Mining-Verfahren in KNIME. Im Knoten „Column Filter“ wurde dann eine Datenselektion vorgenommen. Das heißt, hier besteht die Möglichkeit Attribute in die Analyse ein- oder auszuschließen. Anschließend erfolgte die Analyse der Daten mit den verschiedenen Verfahren. 4 Besonderheiten im Aufbau von KNIME werden in den einzelnen Data-Mining-Verfahren im Abschnitt 4.3 gesondert dargestellt. 13 4.2 Assoziationsanalyse - A Priori Im ersten Schritt nach der Datenvorbereitung sollten auf Grundlage der vorliegenden Daten aus der Befragung der Studenten von der Hochschule Wismar mit Hilfe einer Assoziationsanalyse Abhängigkeiten zwischen den Datensätzen des Datenbestandes entdeckt werden. Hierzu wird das Augenmerk nicht nur auf das Zielattribut gelegt, wie beim Erstellen von Klassifikationsregeln, stattdessen ist es beim Aufstellen von Assoziationsregeln wichtig, auch die Zusammenhänge bzw. Abhängigkeiten zwischen beliebigen Attributen zu betrachten. Beschrieben werden diese Abhängigkeiten der Attribute über Wenn-dannRegeln. 5 Das heißt „Wenn Item A vorkommt, dann tritt auch Item B auf“ 6. Eine weitere Möglichkeit wäre zum Beispiel „Wenn Item A vorkommt, dann tritt auch Item B und Item C auf“. Die Ausprägung eines Attributwertes eines Datensatzes ist dabei immer ein Item. Wichtig ist es an dieser Stelle festzuhalten, dass die aufgedeckten Beziehungen nicht als Vermutungen angenommen werden, sondern anhand einer ausführlichen Assoziationsanalyse der vorliegenden Daten entdeckt und als Resultat die dafür entsprechenden Assoziationsregeln aufgestellt werden. 7 Eine Bewertung der Assoziationsregeln erfolgt über den Support und deren Konfidenz. Der Support gibt dabei Auskunft darüber, „[…] wie viele Datensätze im Verhältnis zu den Gesamtdaten diese Regel unterstützen.“ 8. Die Konfidenz hingegen gibt an, „[…] wie viele Datensätze diese Regel unterstützten, im Verhältnis zu den Datensätzen die nur die Prämisse der Regel supporten.“ 9 Wie in jedem Data Mining-Vorhaben, war es auch für unser Projekt wichtig anhand einer ausführlichen Assoziationsanalyse Abhängigkeiten unter den aus der Befragung hervorgehenden Attributen und deren Ausprägungen zu finden. Dazu wurde der durch KNIME zur Verfügung gestellte A-Priori-Algorithmus eingesetzt. Mit deren Hilfe sollten Frequent Itemsets (Kandidaten) mit ausreichendem Support und Konfidenz gefunden sowie die daraus resultierenden Assoziationsregeln aus allen Frequent Itemsets ausgeben werden. 10 Der Aufbau des A-Priori-Algorithmus in KNIME stellt sich wie folgt dar: Abb. 9: A-Priori-Algorithmus (Quelle: KNIME) 5 6 7 8 9 10 Vgl. TecChannel, 2009, S. 309. TecChannel, 2009, S. 309. Vgl. TecChannel, 2009, S. 309. TecChannel, 2009, S. 309. TecChannel, 2009, S. 309. Vgl. Cleve, J., 2012, S.44. 14 Um eine erste Übersicht von möglichst vielen guten Assoziationsregeln zu erhalten, wurden im Knoten „Column Filter“ (Knoten zur expliziten Auswahl von Attributen) zuerst alle Attribute und deren Ausprägungen (Grundlage siehe Anlage II) ausgewählt und eine Konfidenz / Support von 0,8 im Knoten „Apriori“ eingestellt. Als Resultat gab der A-Priori-Algorithmus 7.698 Assoziationsregeln aus. Die besten 300 Regeln sind dem Ordner „Assoziationsregeln Best Rules (1 - 300) bei Supp. 0,8 und Conf. 0,8“ 11 zu entnehmen. Aus diesem geht hervor, dass besonders die Attribute sowie deren Ausprägungen „Erststudium“, „Öffentliche und Private Verkehrsmittel zur Hochschule“, „Verkehrsmittel zur Hochschule: Anders“, „Öffentliche und Private Verkehrsmittel in Wismar“, „Bewegung in Wismar: Anders“ und „Zufriedenheit Lebenssituation“ in einem sehr großen Teil der Assoziationsregeln vorkommen. Das ist an dieser Stelle auch nicht verwunderlich, da die soeben erwähnten Attribute alle nur zwei Ausprägungen (Ja / Nein) haben und schon aus logischer Sicht große Abhängigkeiten untereinander bestehen. Das folgende Beispiel verdeutlicht dies nochmal: Nutzt ein Student nicht die Öffentlichen Verkehrsmittel oder kommt nicht „Anders“ zur Hochschule, muss er in jedem Fall mit Privaten Verkehrsmitteln zur Hochschule kommen. {Öffentliche Verkehrsmittel zur Hochschule = 0; {Private Verkehrsmittel zur Hochschule=1;} Verkehrsmittel zur Hochschule: Anders = 0} Weitere Konstellationen die in den 7.698 Assoziationsregeln sehr häufig vorkamen waren unter anderem: {Private Wohnverhaeltnisse = 0} {Oeffentliche Wohnverhaeltnisse = 1; Gemeinschaftliche Wohnverhaeltnisse = 1} {Erststudium=0} {Vorherige Studiengangsbelegung = 0} {Private Verkehrsmittel zur Hochschule = 1} {Zufriedenheit Lebenssituation = 1} 11 Daten per CD übergeben. 15 Da es uns aber nicht möglich war alle 7.698 Assoziationsregeln im Detail anzuschauen und wir trotzdem wissen wollten, wie sich einzelne Attribute mit deren Ausprägungen zueinander verhalten, haben wir wie bereits im Kapital 3 erwähnt, alle Attribute in für uns schlüssige Klassen eingeteilt. Als Ergebnis kamen 6 verschiedene Klassen raus (siehe Tabelle 4). Kerngedanke dahinter war, die Daten zu strukturieren und somit die Möglichkeit zu haben, gezielt die Abhängigkeiten von allen Attributen der verschiedenen Klassen untereinander zu untersuchen. Außerdem war es wichtig auch die Assoziationsregeln herauszufiltern, die nur minimal unter der von uns geforderten Konfidenz sowie einem Support von 0,8 lagen. Ein weiterer Effekt der Strukturierung, auf diesen jedoch erst später eingegangen wird, war die Vereinfachung bei den Tests mit den Data Mining-Verfahren Decision Tree, J48 - Algorithmus und Naive Bayes. Anhand eines Beispiels soll unsere Vorgehensweise für die Aufstellung der Assoziationsregeln verdeutlicht werden. Die gesamten Ergebnisse sind in den Ordnern „Assoziationsregeln 1. Persönliche Daten - 6. Persönliches Umfeld und Situation“ zu finden. Beispiel: 2. Schule, Ausbildung und Arbeitsmarkt Ziel unserer Assoziationsanalyse war es, alle Attribute jeder Klasse mit denen der anderen Klassen zu vergleichen, um jeweils die Top 20 Assoziationsregeln bestimmen zu können. Abb. 10: Ergebnis Assoziationsregeln Klasse 2 (Quelle: eigene Darstellung) 16 Anhand der Abbildung 10 ist zu erkennen, dass alle Attribute der Klasse 2 mit den Attributen der anderen Klassen für eine Assoziationsanalyse in Verbindung gesetzt wurden. Zusätzlich ist zu erwähnen, dass eine Betrachtung nur auf die Attribute innerhalb der Klasse 2 erfolgte (siehe 2 zu 2) und in der Klasse 6 die 3 Attribute Verkehrsmittel, Wohnen und Zufriedenheit einzeln ausgewertet wurden. Dies ist darauf zurückzuführen, dass der A-Priori-Algorithmus in KNIME 12 die einzelnen Attribute automatisch innerhalb der Klassen in Verbindung setzt und somit Assoziationsregeln in Zusammenhang mit Verkehrsmitteln alle anderen Attribute dominieren würde. Das heißt, Assoziationsregeln für die Attribute Zufriedenheit und Wohnen und auch alle anderen Attribute würden demzufolge immer im hinteren Ranking der Best Rules liegen, die der A-Priori-Algorithmus in KNIME ausgibt. Daher haben wir bei dem Attribut Verkehrsmittel immer 2 Ergebnissteile ausgegeben. Der erste Teil sieht bei allen Klassen gleich aus, da das Attribut Verkehrsmittel immer die ersten 20 Plätze der Best Rules einnimmt. Im zweiten Ergebnisteil ist dann mindestens ein Attribut aus der Klasse zu finden zu welcher wir es in Verbindung gesetzt haben. Abb. 11: 12 Beispiel Attribute der Klasse 2 zu 3 (exemplarisch) (Quelle: KNIME) Das ist aber nicht nur in KNIME so, sondern in allen Data Mining-Werkzeugen. Schließlich ist es auch das Ziel, nur die Besten Assoziationsregeln zu finden und wenn diese innerhalb einer Klasse sind, kann das letztendlich auch das beste Ergebnis sein. 17 Eine weitere Besonderheit unserer durchgeführten Assoziationsanalyse ist in der Abbildung 11 zu erkennen. In diesem Fall haben wir den minimalen Support und die Konfidenz auf 0,55 festgelegt. Das liegt daran, dass wir bei der Assoziationsanalyse als Ziel ausgegeben haben immer mindestens ein Attribut bzw. eine Assoziationsregel aus beiden ausgewählten Klassen innerhalb der 20 Best Rules zu haben (außer Verkehrsmittel, da war dies nicht möglich). In dem Beispiel aus der Abbildung 11 wäre das die Regel 18 (Erststudium = 0 ist Klasse 2; Finanzielle Unterstützung Eltern = 0 ist Klasse 3 und Vorherige Studiengangsbelegung = 0 ist Klasse 2). An dieser Stelle ist festzuhalten, dass uns schon bewusst ist dass die Aussagekraft dieser Assoziationsregel bei einem Support von 0,55 eher gering ist. Aber somit wussten wir genau, dass bei diesen Attributen eine geringe Abhängigkeit besteht und konnten somit für die bevorstehenden Data Mining-Verfahren unsere Schlussfolgerungen ziehen. 4.3 Grundsätzliches Vorgehen Data Mining-Verfahren Aufgrund dessen, das in unserem Data Mining-Projekt keine expliziten Zielattribute vorgegeben wurden, war es uns möglich den vorhandenen Datenbestand in alle nur erdenkliche Richtungen auszuwerten. Das heißt, die Festlegung welche genauen Daten analysiert werden sollten erfolgte durch uns. Durch die große Anzahl von Attributen des Fragenbogens und der daraus resultierenden großen Vielfalt an Möglichkeiten von Ergebnissen aus der Daten-Extrahierung, haben wir uns auf 10 unterschiedliche Fragestellungen bzw. Zielattribute vor der Durchführung der Data Mining-Verfahren festgelegt. Diese sind der Tabelle 5 zu entnehmen: Relevante „Fragenstellungen“ für die Durchführung der Data Mining-Verfahren (Zielattribute sind fett gedruckt) 1. 2. 3. 4. 5. 6. Kommen die Studenten aufgrund einer Empfehlung an die Hochschule Wismar? Ist das Studium an der HS Wismar für männliche Studenten das Erststudium? Ist das Studium an der HS Wismar für weibliche Studenten das Erststudium? Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule Wismar? Nutzen die Studenten private Verkehrsmittel zur Hochschule Wismar? Sind Studierende mit ihrer aktuellen Lebenssituation als Student an der Hochschule Wismar zufrieden? 7. Bevorzugen Studenten der Hochschule Wismar in gemeinschaftlichen Wohnverhältnissen zu leben? 8. Sind Studenten der Hochschule Wismar mit ihren erbrachten Leistungen im Studium zufrieden? 9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein? 10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem Arbeitsmarkt ein? Tab. 5: Relevante "Fragestellungen" bzw. Zielattribute (Quelle: eigene Darstellung) 18 Die Auswahl der 10 unterschiedlichen Fragestellungen bzw. Zielattribute erfolgte dabei nicht rein zufällig, sondern anhand des vorhandenen Datenbestandes und der vorher durchgeführten Assoziationsanalyse. Genauer gesagt, unser Ziel war es nicht so viele Zielattribute wie möglich mit guten Vorhersagewerten zu finden, sondern aufgrund des Umfangs des Projektes und der begrenzten Zeit eher allgemeingültige Ergebnisse bzw. Aussagen für die Auswertung des Fragebogens zu finden. Daher haben wir uns 8 Zielattribute (Fragestellungen 1 - 8) mit nur 2 Ausprägungen rausgesucht, bei denen die Wahrscheinlichkeit aufgrund der sehr allgemeingehaltenen Fragestellungen, der vorgenommenen Assoziationsanalyse sowie der akzeptablen Qualität der Daten sehr hoch war, gute Vorhersagewerte erreichen zu können. Bei den Fragestellungen 9 und 10 haben wir speziellere Fragen genommen, bei denen das Zielattribut auch noch mehrere Ausprägungen hat und es somit wahrscheinlich zu eher schlechteren Vorhersagewerten kommen dürfte. Um auch hier allgemeingültige Aussagen treffen zu können, wurde das Zielattribut „Arbeitsmarktmoeglichkeiten“ einmal ohne und einmal mit Clusterung betrachtet (mit Cluster-Bildung siehe Abschnitt 4.3.4). Im Folgenden sollten unsere Annahmen hinsichtlich der Auswahl von Zielattributen (zu dem derzeitigen Stand des Projektes) anhand der Data Mining-Verfahren mit den Decision Tree, J48 - Algorithmus und Naive Bayes analysiert bzw. bewiesen werden. Dazu wurden zu jeder der 10 Fragestellungen maximal 10 Tests 13 mit dem jeweiligen Verfahren gemacht. Als Ziel wurde ein Gesamtvorhersageergebnis von mindestens 80 % für das ausgewählte Zielattribut ausgegeben. Für die Betrachtung der Vorgehensweise sowie deren Besonderheiten von den drei Data Mining-Verfahren Decision Tree, J48 - Algorithmus und Naive Bayes wird das Zielattribut „Oeffentliche Verkehrsmittel zur HS“ im Folgenden exemplarisch dargestellt. Die gesamten Ergebnisse aller in Tabelle 5 angegebenen Fragestellungen sind in den Ordnern „Projekt BI Fragenbogen HS Wismar Naive Bayes/ Decision Tree/ J48 - Algorithmus“ zu finden. 13 Konnte schon vor Ablauf der 10 Tests ein Gesamtvorhersageergebnis von 100 % erreicht werden, wurden keine weiteren Tests mehr durchgeführt. 19 Die darin enthaltenen Excel-Tabellen stellen sich für jedes Zielattribut wie folgt dar: Rote Zeile = Zielattribut Korrekte Gesamtvorhersage Ergebnisverteilung der Entscheidungen (einzelne Vorhersageergebnisse) Grüne Zeile = Hinzufügen eines Attributes Weiße Zeile = Nicht ausgewählte Attribute Bestes Testergebnis für das Zielattribut (rot markiert) Anzahl Tests pro Zielattribut Abb. 12: 4.3.1 Ergebnisse der Data Mining-Verfahren (Quelle: eigene Darstellung) Naive Bayes Ziel dieses Verfahren ist es, die wahrscheinlichste Klasse vorherzusagen. Dabei wird davon ausgegangen, dass alle Attribute unabhängig voneinander sind. 14 In KNIME stellt sich die Modellierung des Naive Bayes Verfahrens folgendermaßen dar: Abb. 13: 14 Modellierung Naive Bayes (Quelle: KNIME) Vgl. Cleve, J., 2012, S.55. 20 Nach Abschluss der Grundeinstellungen in KNIME (siehe Abschnitt 4.1) und der passenden Auswahl von Attributen über den Knoten „Column Filter“ ist es für einige Fragestellungen notwendig über den Knoten „Nominal Value Row Filter“ nur einzelne Ausprägungen der Attribute auszuwählen. Ein Beispiel dafür ist die Wahl des Geschlechtes (m/w) oder auch die Festlegung von Master- und Bachelorstudium (siehe Fragestellung 10 in Tabelle 5). Daher muss dieser bei Bedarf vor den Knoten „Partitioning“ gelegt werden (siehe rote Pfeile in der Abbildung 13). Nachdem alle Grundeinstellungen erfolgt sind, werden im ersten Knoten des Verfahrens die eingelesenen Daten prozentual in zwei Teilmengen (Trainings- und Testmenge) geteilt. Wir haben dafür eine Einteilung von 70:30 in KNIME über den Knoten „Partitioning“ vorgenommen. Das heißt, 70 % der Datenmenge gehen in den Knoten „Naive Bayes Learner“ und werden zum Lernen von eventuell vorhandenen Mustern in den Daten verwendet. Die restlichen 30 % der Datenmenge gehen in den Knoten „Naive Bayes Predictor“, in welchem die erlernten Erkenntnisse aus dem Knoten „Naive Bayes Learner“ angewendet werden. Im letzten Knoten, dem sogenannten „Scorer“ werden die Vorhersageergebnisse ausgegeben. Die 10 Tests für das Zielattribut „Oeffentliche Verkehrsmittel zur HS“ (wie auch für alle anderen Zielattribute) erfolgte bei allen drei Data Mining-Verfahren unter Anwendung unserer 6 zuvor eingeteilten Klassen. Das bedeutet, es wurden progressive immer mehr Attribute aus den jeweiligen Klassen in die Analyse mit einbezogen, um Gesamtvorhersageergebnisses von mindestens 80 % zu erreichen. 15 das Ziel eines Dabei wurden aber nicht immer alle Attribute einer Klasse gleichzeitig ausgewählt, sondern zum Teil auch nur einzelne Attribute aus einer Klasse zu den schon in KNIME ausgewählten Attributen dazu gegeben (siehe Excel Tabellen). Wie bereits erwähnt, stellte dabei die Einteilung in Klassen für die Anwendung in den Data Mining-Verfahren nur ein Hilfswerkzeug dar. So konnten wir in allen 3 Verfahren ähnlich strukturiert vorgehen. Einen besonderen Hintergrund im Sinne des Data Minings hatte diese Einteilung in Klassen jedoch nicht, weil es vorher kaum möglich ist, vorherzusagen unter welcher Konstellation von Attributen die besten Gesamtvorhersageergebnisse erzielt werden können. Ausgenommen ist die Auswahl von Attributen die starke Abhängigkeiten untereinander haben, da diese den Vorhersagewert zum Teil erheblich beeinflussen können (siehe Beispiele im Abschnitt 4.2, Assoziationsregeln). Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im 9. Test bei Auswahl fast aller Attribute (nur „Zufriedenheit Lebenssituation“ wurde nicht ausgewählt) erzielt und ist der Abbildung 14 zu entnehmen. 15 Ein Gesamtvorhersageergebnis von mind. 80 % wurde aber auch schon im 1. oder 2. Test erreicht. D. h., ein gutes Ergebnis war nicht von einer hohen Anzahl an ausgewählten Attributen abhängig. 21 Abb. 14: Knoten „Scorer“ Naive Bayes (Quelle: KNIME) Bei der Fragestellung „Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule Wismar?“ und den Attributen 0 = Nein / 1 = Ja stellt sich folgendes Ergebnis dar: Insgesamt wurde ein Gesamtvorhersageergebnis von 95,78 % (68 Datensätze wurden richtig und 3 Datensätze wurden falsch vorhergesagt) erreicht. Somit lässt sich unter einem sehr guten Gesamtvorhersagewert von 95,78 % die Aussage treffen: „Nein, die Studenten der Hochschule Wismar nutzen zu 92,96 % 16 nicht die öffentlichen Verkehrsmitteln zur Hochschule.“ (zu dieser Prozentzahl wurde die Entscheidung 0 = 0 richtig vorhergesagt). Generell lässt sich zu dem Naive Bayes Verfahren in KNIME sagen, dass dieses Verfahren stets konstant gute Vorhersagewerte lieferte, zumindest bei den zu erwarteten Zielattributen bzw. Fragestellungen 1 bis 8, und es bei allen Tests keinerlei Probleme bei der Modellierung sowie Ausführung gab. 16 66 Datensätze / 71 Datensätze = 92,96 %. 22 4.3.2 Decision Tree Bei einem Entscheidungsbaum werden die Ergebnisse einer Bedingung verzweigt und in repräsentativer Form dargestellt. Aus diesen Verzweigungen können wiederum weitere Verzweigungen erzeugt werden. Aufgrund der sehr guten Möglichkeit mit Entscheidungsbäumen Ergebnisse zu visualisieren, sind diese ausgezeichnet dafür geeignet Entscheidungen besser zu verstehen bzw. zu begründen. 17 In dem Data Mining-Verfahren Decision Tree bzw. Entscheidungsbaum ist die Vorgehensweise dem des Naive Bayes Verfahrens sehr ähnlich. Nachdem alle Grundeinstellungen und die passenden Attribute bzw. deren Ausprägungen über den Knoten „Column Filter“ und „Nominal Value Row Filter“ (nur wenn notwendig) ausgewählt wurden, erfolgt wiederum eine Partitionierung über den Knoten „Partitioning“. Auch in diesem Fall haben wir die Trainings- und Testmenge in einem Verhältnis 70:30 geteilt und somit 70 % zum Lernen in den Knoten „Decision Tree Learner“ sowie 30 % zur Anwendung in den Knoten „Decision Tree Learner Predictor“ gegeben. Im Knoten „Scorer“ erfolgte dann wieder die Ausgabe der Vorhersageergebnisse. In der Abbildung 15 ist die dazugehörige Modellierung des Decision Tree Verfahrens in KNIME dargestellt. Abb. 15: Modellierung Decision Tree (Quelle: KNIME) Auch in diesem Verfahren sind wir mit Hilfe der 6 zuvor eingeteilten Klassen ähnlich strukturiert vorgegangen. Die gesamten Ergebnisse sind in den einzelnen Excel-Tabellen zu finden. Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im 10. Test erzielt und ist der Abbildung 16 zu entnehmen. In diesem wurden alle Attribute außer „Grund Studium: Ruf der Hochschule“, „Grund Studium: Empfehlung“, „Grund Studium: Wohnortnähe“, „Grund Studium: Finanzielle Gründe“, Studiengangsbedingt“ und „Grund Studium: Andere Gründe“ ausgewählt. 17 Vgl. Cleve, J., 2012, S.23. 23 „Grund Studium: Abb. 16: Knoten „Scorer“ Decision Tree (Quelle: KNIME) In diesem Verfahren war das beste Gesamtvorhersageergebnis 92,96 % (66 Datensätze wurden richtig und 5 Datensätze wurden falsch vorhergesagt). Somit lässt sich diesmal „nur“ (aber immer noch sehr gut) unter einem Gesamtvorhersagewert von 92,96 % die Aussage treffen: „Nein, die Studenten der Hochschule Wismar nutzen zu 87,32 % 18 nicht die öffentlichen Verkehrsmitteln zur Hochschule.“ (zu dieser Prozentzahl wurde die Entscheidung 0 = 0 richtig vorhergesagt). Abschließend ist zu dem Decision Tree Verfahren in KNIME zu sagen, dass dieses Verfahren bei der Auswahl bestimmter Attribute keine Ergebnisse geliefert hat (bei allen Zielattributen und den jeweiligen Tests). Vor allem die Attribute „Grund Studium: Ruf der Hochschule“, „Grund Studium: Empfehlung“, „Grund Studium: Wohnortnähe“, „Grund Studium: Finanzielle Gründe“, „Grund Studium: Studiengangsbedingt“ und „Grund Studium: Andere Gründe“ konnten in fast keinem Test ausgewählt werden, da ansonsten keine Ergebnisausgabe im Knoten „Scorer“ erfolgte. Ein Grund dafür könnte natürlich darin liegen, dass unter Herannahme dieser Attribute keine Ergebnisse einer Bedingung innerhalb eines Entscheidungsbaums verzweigt werden konnten und somit auch das Verfahren Decision Tree in KNIME keine Ergebnisse ausgeben konnte. Wenn aber im Knoten „Scorer“ Ergebnisse ausgegeben wurden, waren die Vorhersagewerte wiederum kontinuierlich auf hohem Niveau (zumindest bei den zu erwarteten Zielattributen bzw. Fragestellungen 1 bis 8). 18 62 Datensätze / 71 Datensätze = 87,32 %. 24 4.3.3 J48 - Algorithmus Ein weiteres Verfahren, das für die Erzeugung eines Entscheidungsbaums in KNIME zur Verfügung steht, ist der J48 - Algorithmus, wobei die Vorgehensweise der Modellierung in KNIME mit den beiden vorherigen Verfahren fast identisch ist. Auch in diesem Verfahren wurde die Partitionierung über den Knoten „Partitioning“ der Trainings- und Testmenge von 70:30 beibehalten. Diesmal gingen 70 % der Daten zum Lernen in den Knoten „J48“ und die anderen 30 % zur Anwendung in den Knoten „Weka Predictor“. Im Knoten „Scorer“ erfolgte dann wiederum die Ausgabe der Vorhersageergebnisse. In der Abbildung 17 ist die dazugehörige Modellierung des J48 - Algorithmus in KNIME zu sehen. Abb. 17: Modellierung J 48 - Algorithmus (Quelle: KNIME) Das beste Ergebnis des Zielattributs „Oeffentliche Verkehrsmittel zur HS“ wurde im 8. Test erzielt und ist der Abbildung 18 zu entnehmen. In diesem wurden die Attribute „Geschlecht“, „Alter“, „Momentaner Studiengang“, „Semester“, „Berufsausbildung“, „Erststudium“, „Vorherige Studiengangsbelegung“, „Private Verkehrsmittel zur HS“, „Verkehrsmittel zur Hochschule: Anders“, „Oeffentliche Verkehrsmittel in Wismar“, „Private Verkehrsmittel in Wismar“, „Bewegung in Wismar: Anders“ ausgewählt. Abb. 18: Knoten „Scorer“ J 48 - Algorithmus (Quelle: KNIME) 25 Das beste Gesamtvorhersageergebnis lag beim J48 - Algorithmus bei 94,37 % (67 Datensätze wurden richtig und 4 Datensätze wurden falsch vorhergesagt). Daher lässt sich auch hier auf einer sehr guten Gesamtvorhersagewert von 94,37 % folgende Aussage treffen: „Nein, die Studenten der Hochschule Wismar nutzen zu 92,96 % 19 nicht die öffentlichen Verkehrsmitteln zur Hochschule.“ (zu dieser Prozentzahl wurde die Entscheidung 0 = 0 richtig vorhergesagt). Allgemein lässt sich letztendlich zu dem J48 - Algorithmus in KNIME sagen, dass dieses Verfahren bei allen ausgewählten Attributen im Knoten „Scorer“ Ergebnisse ausgegeben hat. An dieser Stelle ist jedoch anzumerken, dass beim J48 - Algorithmus im Gegensatz zum Decision Tree zwar immer Ergebnisse im Knoten „Scorer“ ausgegeben wurden, diese aber zum Teil über mehrere Tests gleich waren, obwohl weitere Attribute dazu genommen wurden. Auch hier vermuten wir, dass der Grund dafür ähnlich wie beim Decision Tree darin liegen könnte, dass sich keine Ergebnisse einer Bedingung innerhalb eines Entscheidungsbaums verzweigen lassen. Im Fall des J48 - Algorithmus werden dann einfach die ausgewählten Daten wie folgt dargestellt. Abb. 18: Weka Node View - J48 - Algorithmus (Quelle: KNIME) Daher haben wir zum Teil in diesem Verfahren andere Attribute miteinander kombiniert als in den beiden vorherigen Verfahren, um zu gucken unter welchen Konstellationen ein Entscheidungsbaum generiert wurde. Insgesamt waren die Vorhersagewerte ebenfalls auf einem permanent hohem Niveau (zumindest bei den zu erwarteten Zielattributen bzw. Fragestellungen 1 bis 8). 19 66 Datensätze / 71 Datensätze = 92,95 %. 26 4.3.4 kMeans - Algorithmus Eigentlich sollten in den ersten Schritten jedes Data Mining-Projektes grundlegende Data Mining-Aufgaben erledigt werden, wie beispielsweise die Cluster-Bildung. Erst daran schließt sich die Auswahl eines geeigneten Data Mining-Verfahrens an. 20 Aufgrund unserer speziellen Vorgehensweise zum Treffen allgemeingültiger Aussagen betrachten wir den kMeans Algorithmus 21, ein Verfahren zur Clusteranalyse, erst an dieser Stelle. Zum Teil haben wir diese grundlegenden Data Mining-Aufgaben auch schon manuell in der Datenvorbereitung gemacht (siehe Attribute „Momentaner Studiengang“ und „Zufriedenheit Lebenssituation“). Dennoch wollten wir nochmal genau wissen, wie sich das Bilden von Clustern auf die Vorhersageergebnisse auswirkt. Daher haben wir die Fragestellungen 9 und 10 mit dem Zielattribut „Arbeitsmarktmoeglichkeiten“ nochmal mit Hilfe des kMeans - Algorithmus ausgewertet, da diese Fragestellungen bei den vorherigen Tests in den Abschnitten 4.3.1 bis 4.3.3 eher mittelmäßige Gesamtvorhersageergebnisse hatten. Die Fragestellung ist dabei bei beiden gleich geblieben, wie der Tabelle 6 zu entnehmen ist. 9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster) 10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster) Tab. 6: Fragestellungen 9 und 10 mit Cluster (Quelle: eigene Darstellung) Aufgrund der 6 Ausprägungen des Zielattributes „Arbeitsmarktmoeglichkeiten“ wurde für dieses Attribut eine Cluster-Bildung vorgenommen und mit den 3 bereits verwendeten Data Mining-Verfahren Decision Tree, J48 - Algorithmus und Naive Bayes Tests durchgeführt. 20 21 Vgl. Cleve, J., 2012, S.10. Erklärung kMeans Algorithmus: Die Anzahl der gesuchten Cluster wird vorgegeben, deren Zentren zunächst zufällig festgelegt und iterativ adaptiert werden. Die Cluster werden durch den Centroid (Schwerpunkt) repräsentiert. 27 Die Modellierung des Naive Bayes Verfahrens mit dem kMeans Algorithmus in KNIME ist der Abbildung 19 zu entnehmen. Die fast identischen Modellierungen für die Verfahren Decision Tree und J48 - Algorithmus in KNIME sind in Anlage III aufgeführt. Abb. 19: Modellierung Naive Bayes mit kMeans Algorithmus (Quelle: KNIME) Die Knoten in dem rot markierten Kasten kommen bei der Modellierung mit kMeans Algorithmus zum ursprünglich modellierten Naive Bayes Verfahren mit hinzu (ist bei den anderen beiden Verfahren identisch). Der Knoten „Nominal Value Row Filter“ wird dazu eingesetzt, um die Ausprägung „weiß nicht (5)“ aus der Auswahl für die Clusterung des Zielattributs „Arbeitsmarktmoeglichkeiten“ zu entfernen. Somit werden nur aus den restlichen 5 Ausprägungen („sehr gut(0)“, „gut(1)“, „okay(2)“, „mäßig(3)“ und „schlecht(4)“) Cluster gebildet. Der Grund dafür lag darin, dass wir die Ausprägung „weiß nicht (5)“ schlecht in ein sinnvolles Cluster einteilen konnten. KNIME würde diese Ausprägung, bei einer Clustervorgabe von 3 sowie 4, mit den Ausprägungen „okay(2)“, „mäßig(3)“ und „schlecht(4)“ in ein Cluster eingruppieren. Das ist im Sinne der Fragestellung (siehe Tabelle 6) bzw. für die Ergebnisaussage allerdings eher nicht so sinnvoll. Des Weiteren gab es insgesamt nur 7 Datensätze mit der Ausprägung „weiß nicht (5)“, was gerade einmal ca. 3 % des gesamten Datenbestandes 22 ausmachte. Daher haben wir diese Ausprägung entfernt, da sie keinen wesentlichen Einfluss auf die Ergebnisausgabe hatte und somit eine aussagekräftigere Cluster-Bildung erzielt werden konnte. Im Knoten „String to Number“ wurde das zu clusterne Zielattribut „Arbeitsmarktmoeglichkeiten“ vom Datentyp String in den numerischen Datentyp Double umgewandelt, da der kMeans Algorithmus nur mit numerischen Datenwerten arbeiten kann. Die restlichen Attribute blieben weiterhin im Datentyp String. Der zweite Knoten „Nominal Value Row Filter“ wurde dafür eingesetzt, um entsprechend der Fragestellung 9 und 10 zwischen den Ausprägungen der jeweiligen benötigten Attributen wählen zu können („Momentaner Studiengang = Ausprägung 2“ Fragestellung 10 und „Einschaetzung Leistung = Ausprägung 0 und 1“ Fragestellung 9). Diese Einstellungen wären aber auch ohne den kMeans Algorithmus notwendig gewesen. 22 7 Datensätze/ 234 Datensätze = 2,99 %. 28 Nach Abschluss aller nötigen Einstellungen, ergab die Cluster-Bildung anhand des kMeans Algorithmus folgendes Ergebnis (siehe Abbildung 20). Abb. 20: Cluster-Bildung mit kMeans - Algorithmus (Quelle: KNIME) • Im Cluster 0 befinden sich die Ausprägungen „okay(2)“, „mäßig(3)“ und „schlecht(4)“ • Im Cluster 1 befindet sich die Ausprägung „sehr gut(0)“ • Im Cluster 2 befindet sich die Ausprägung „gut(1)“ Da sich im Cluster 0 der Centroid (Schwerpunkt) bei 2,134 befindet, kann gesagt werden dass dieses Cluster repräsentativ für die Ausprägung „okay(2)“ steht. Eine weitere Möglichkeit wäre, das Cluster aufgrund der 3 enthaltenen Ausprägungen als „mittelmäßig“ zu bezeichnen. Wir haben uns jedoch dafür entschieden, die Bezeichnung „okay(2)“ für dieses Cluster zu lassen, da der Großteil der Datensätze diese Ausprägung hatte. Nach Abschluss der Cluster-Bildung konnten die Tests mit den 3 bereits erwähnten Data Mining-Verfahren beginnen. Die dazugehörigen Testergebnisse sind dem Ordner „kMeans Algorithmus Naive Bayes/ Decision Tree/ J48 - Algorithmus“ zu entnehmen. Die Ergebnisse aus beiden Fragestellungen mit dem geclusterten Zielattribut „Arbeitsmarktmoeglichkeiten“ von dem Knoten „Scorer“ sind der Abbildung 21 zu entnehmen. Abb. 21: Knoten „Scorer“ von allen 3 Data Mining-Verfahren (Quelle: KNIME) 29 Wie zu erkennen ist, lag bei beiden Fragestellungen und allen Verfahren das beste Gesamtvorhersageergebnis bei 100 % (alle Datensätze wurden richtig vorhergesagt). Welche genauen Aussagen anhand dieser Ergebnisse getroffen werden können, sind der Anlage IV zu entnehmen. Bemerkenswert ist, dass diese Ergebnisse mit maximal zwei Tests erreicht werden konnten (dies kann natürlich ein Zufall gewesen sein konnte). Anhand dieser Ergebnisse wird deutlich, dass eine gut durchdachte Cluster-Bildung für das Erzielen verbesserter Vorhersagewerte in Data Mining-Projekten sehr wichtig sein kann. Dies verdeutlicht auch nochmal der folgende Vergleich der Fragestellungen 9 und 10 mit und ohne Clusterung. Ergebnisse Naive Bayes Ergebnisse Decision Tree Ergebnisse J48 - Algorithmus Fragestellung 9 ohne Cluster 50 % 46,67 % 50 % Fragestellung 9 mit Cluster 100 % 100 % 100 % 65,22 % 56,52 % 56,52 % 100 % 100 % 100 % Fragestellung 10 ohne Cluster Fragestellung 10 mit Cluster Tab. 7: Fragestellungen 9 und 10 mit und ohne Cluster (Quelle: eigene Darstellung) Mit großer Sicherheit wird das Clustern nicht immer, wie in unserem Einzelfall, zu dem Gesamtvorhersageergebnis von 100 % führen. 23 Aber eine generelle Verbesserung der Vorhersageergebnisse kann damit gut möglich sein (muss jedoch nicht immer so sein). Bei den folgenden Attributen mit deren Ausprägungen aus unserem Fragebogen würde es auch noch Sinn ergeben, Studiengangsbelegung“, eine Cluster-Bildung „Std./Woche (Arbeit)“, vorzunehmen: „Semester“, „Woechentlicher Zeitanspruch“, Std./Woche“, „Video- /Ol-spiele Std./Woche“ und „m² allein zur Verfuegung“. 23 Da dies natürlich auch von der Qualität des Datenbestandes abhängig ist. 30 „Vorherige „TV 4.4 Gesamtergebnisse und Interpretation Um die Ergebnisse aller analysierten Fragestellungen bzw. Zielattribute mit den Data MiningVerfahren Decision Tree, J48 - Algorithmus und Naive Bayes vergleichbar zu machen, werden die besten Gesamtvorhersageergebnisse aus den Tests (rot markiert) in der Tabelle 8 nochmal übersichtlich dargestellt. Fragestellung / Verfahren Ergebnisse Naive Bayes Ergebnisse Decision Tree Ergebnisse J48 - Algorithmus Fragestellung 1 Fragestellung 2 Fragestellung 3 Fragestellung 4 Fragestellung 5 Fragestellung 6 Fragestellung 7 Fragestellung 8 Fragestellung 9 ohne Cluster Fragestellung 9 mit Cluster 83,10 % 100 % 97,44 % 95,78 % 98,59 % 90,14 % 88,73 % 77,47 % 50 % 100 % 83,10 % 100 % 94,87 % 92,96 % 97,18 % 88,73 % 95,78 % 83,10 % 46,67 % 100 % 83,10 % 100 % 97,43 % 94,34 % 97,18 % 88,73 % 98,59 % 84,51 % 50 % 100 % Fragestellung 10 ohne Cluster 65,22 % 56,52 % 56,52 % 100 % 100 % Fragestellung 10 mit Cluster 100 % Tab. 8: Beste Gesamtvorhersageergebnisse aller Tests (Quelle: eigene Darstellung) Anhand der Ergebnisse der Tabelle 8 ist zu erkennen, dass größtenteils hervorragende Vorhersageergebnisse erzielt werden konnten und sich somit vermuten lässt, dass die Qualität des Datenbestandes sehr gut ist. Gleichzeitig muss diese Aussage jedoch, aufgrund der Vielzahl an Möglichkeiten der Daten - Extrahierung aus dem Datenbestand vom Projekt „Fragebogen HS Wismar“, etwas relativiert werden, da dies nicht bei allen denkbaren Vorhersageergebnissen zu realisieren sein wird. In diesem Zusammenhang muss auch nochmal klar gesagt werden, dass unsere Fragestellungen bzw. Zielattribute gezielt ausgesucht wurden und eventuell das Bild der tatsächlichen Gesamtqualität des Datenbestandes etwas verzehrt wird. Inwieweit die Qualität des Datenbestandes sehr gut oder gar schlecht ist, lässt sich aber erst nach intensiverer Analyse des Datenbestandes endgültig feststellen. 31 Abschließend ist zu allen zur Anwendung gekommenen Data Mining-Verfahren in KNIME zu sagen, dass die Ergebnisse der Vorhersagewerte bei allen 3 Verfahren auf ähnlichem Niveau lagen. Es gab zwar marginale Unterschiede in den Ergebnissen, aber aus unserer Sicht lässt sich keine generelle Aussage treffen, welches Verfahren besser oder schlechter ist (Grundlage sind die gewonnenen Erkenntnisse aus unserem Projekt). Im Sinne des Data Minings sollten unserer Meinung nach immer mehrere Verfahren zur Auswertung der Daten genommen werden, um Ergebnisse in einer anderen Form darzustellen (z. B. Entscheidungsbäume) oder bisherige Ergebnisse evtl. zu bestätigen bzw. sogar noch zu verbessern. Jedoch empfiehlt es sich aufgrund der problemlosen Modellierung des Naive Bayes-Verfahrens in KNIME, sowie der konstanten Ausgabe von sehr guten bis guten Vorhersagewerten, mit diesem Verfahren zu beginnen. In Anlage IV befindet sich nochmal eine Übersicht zu allen Aussagen, die anhand der Gesamtvorhersageergebnisse zu den jeweiligen Fragestellungen bzw. Zielattributen getroffen werden konnten. 32 5 Grundlegende Konflikte Einen Konflikt mit großen Auswirkungen ergab sich bei der Umwandlung des Formates bzw. die Umwandlung der Daten aus der Stud.IP Datenbank der Hochschule Wismar in korrekte sowie sinnvolle Datensätze. Durch mehrmalige Umsetzung entsprechender Einstellungsmöglichkeiten wurde dieser Konflikt durch Prof. Dr. Cleve behoben und die Daten konnten in ein fehlerfreies MS Excel-Format gespeichert werden. Für KNIME: Aufgrund der geringen Datenmenge gab es keinerlei Probleme beim Einlesen der Daten über den Knoten „XLS-Reader“. Die Verarbeitungsgeschwindigkeit zeichnete sich aufgrund dieser geringen Datenmengen als sehr gut aus. Teilweise ist KNIME aus unerklärlichen Gründen beim Bearbeiten der Daten mit den Verfahren abgestürzt. Die von uns angewandten Methoden bzw. Verfahren in KNIME greifen auf Daten zu, die vorab partitioniert werden. Davon ausgehend, dass immer eine gleiche Datenteilung erfolgt, ist uns folgender Konflikt erst später aufgefallen. Durch die unterschiedliche Partitionierung der Trainingsdaten werden bei KNIME bei jedem Durchlauf mit dem gleichen Datenbestand teilweise andere Ergebnisse erzielt. Eine Veränderung der Vorgaben erfolgte hierbei aber nicht. Der Konflikt konnte nicht behoben werden, so dass sich die Ergebnisse folglich teilweise unterschieden. 33 6 Gesamtfazit Durch das Projekt „Fragebogen HS Wismar“ ist deutlich geworden, wie aufwendig es ist anhand des Data Minings Informationen bzw. Muster aus einem vorhandenen Datenbestand extrahieren zu können. Vor allem die Datenvorbereitung ist sehr zeitintensiv, da sie das Fundament für die nachfolgenden Data Mining-Verfahren darstellt und dementsprechend von Grund auf gut durchdacht sein muss. Dadurch dass bei uns keine expliziten Zielattribute vorgegeben wurden, standen wir vor dem Problem, nahezu in alle nur erdenkliche Richtungen der Datenauswertung Überlegungen anzustellen. Daher war uns durch die begrenzte Zeit relativ schnell klar, dass nur einige gezielte Fragestellungen bzw. Zielattribute Gegenstand dieser Datenanalyse bzw. des Projektes werden konnten. Ziel war es dann, allgemeingültige Aussagen aus der Auswertung der ausgewählten Zielattribute zu erhalten. In diesem Zusammenhang ist die Wichtigkeit einer Assoziationsanalyse in einem Data Mining-Projekt deutlich geworden, da durch diese Analyse erste Schlussfolgerungen hinsichtlich einer guten Wahl der Fragenstellungen bzw. Zielattribute gezogen werden konnte. Das bedeutet, wir wollten von Beginn an Zielattribute haben die uns gute Vorhersagewerte liefern. Daher ist es auch in jedem Data Mining-Projekt elementar eine Assoziationsanalyse des vorhandenen Datenbestandes vorzunehmen, um überhaupt Abhängigkeiten von Attributen sowie deren Ausprägungen erkennen zu können. Erst wenn die Abhängigkeiten bekannt sind, ist auch das Grundgerüst dafür geschaffen, mit den entsprechenden Data Mining-Verfahren gute Vorhersagen erzielen zu können. Nach Festlegung der Fragestellungen (Zielattribute), konnten diese mit den 3 Data MiningVerfahren Decision Tree, J48 - Algorithmus und Naive Bayes ausgewertet werden. Innerhalb dieser Tests bzw. Auswertung ist offensichtlich geworden, dass die durch uns vorgenommene Einteilung der Attribute in 6 Klassen eine gute Entscheidung war. Durch die gezielte Selektion von Attributen war es uns schließlich möglich, einen roten Faden bei der Durchführung der Tests zu erhalten. Dennoch ist es insgesamt nicht möglich, eine allgemeingültige Aussage bezüglich der Auswahl von Attributen treffen zu können, da es sehr schwer ist zu entscheiden, welches Attribut verzichtbar sowie unverzichtbar für ein gutes Vorhersageergebnis ist. Abschließend ist festzuhalten, dass wir durch das Projekt „Fragebogen HS Wismar“ viele praxisrelevante Erfahrungen sammeln konnten und dadurch ein erstes grundlegendes Verständnis im Bereich des Data Minings erhalten haben. 34 Quellenverzeichnis Cleve, J., 2012, Vorlesungsskript Business Intelligence / Data Mining, Wintersemester 2012/13 Ertel, W., 2009, Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung, 2. Auflage, Vieweg+Teubner I GWV Fachverlage GmbH Fayyad, U.-M.; Peatetsky-Shapiro, G.; Smyth, P., 1996, Advances in Knowledge Discovery and Data Mining, MIT Press Gabriel, R.; Gluchowski, P.; Pastwa, A., 2009, Datawarehouse & Data Mining, w3l GmbH TecChannel, 2009, Basiswissen SOA - BI - CRM - ECM: Grundlagen, Methoden, Praxis, tedition-Verlag Chamoni, P., 2012, Data Mining, verfügbar unter: http://www.enzyklopaedie-der- wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/BusinessIntelligence/Analytische-Informationssysteme--Methoden-der-/Data-Mining/index.html, (letzter Zugriff: 27.12.2012) Neckel, P., 2012, Alles über Data Mining, verfügbar unter: http://www.pc- magazin.de/ratgeber/alles-ueber-data-mining-1333685.html, (letzter Zugriff: 30.12.2012) EHRENWÖRTLICHE ERKLÄRUNG Ehrenwörtliche Erklärung Wir erklären hiermit ehrenwörtlich, dass wir die vorliegende Arbeit selbständig angefertigt haben. Die aus fremden Quellen direkt oder indirekt übernommenen Gedanken sind als solche kenntlich gemacht. Es wurden keine anderen als die angegebenen Quellen und Hinweise verwandt. Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen Form verwendet wurden, sind der Arbeit beigefügt. Der Durchführung einer elektronischen Plagiatsprüfung stimmen wir hiermit zu. Die eingereichte Datei entspricht der eingereichten Druckfassung. Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht. Wismar, 07.01.2013 Datum Matthias Säger Stefan Wagner Anlagen Anlage I: Projekt BI Fragebogen HS Wismar Anlage II: Alle Attribute mit Ausprägungen aus der Befragung Anlage III: Decision Tree und J48 - Algorithmus mit kMeans - Algorithmus in KNIME Anlage IV: Aussagen zu den Fragestellungen anhand der Vorhersageergebnisse siehe CD Anlage I: Anlage II: Alle Attribute mit Ausprägungen aus der Befragung. Attribute mit Ausprägungen Geschlecht: weiblich(0), männlich(1) Alter: 17-20(0), 21-25(1), 26-30(2), 31+(3) Momentaner Studiengang: Bachelor (1), Master (2) Semester: 1(0), 2(1), 3(2), 4(3), 5(4), 6(5), 7(6), 8(7), 9(8), 10+(9) Berufsausbildung vor Studium: ja(0), nein(1) Ist dies Dein Erststudium: ja(0), nein(1) Falls NEIN, welche vorherige Studiengangsbelegung: Keinen (0), Wirtschaftswissenschaften (1), Rechtswissenschaften (2), Ingenieurwissenschaften ) (3), Lehramt und Erziehungswissenschaften (4), Agrar- und Forstwissenschaften (5), Keine Angabe (6) Warum Studium in Wismar: Ruf der Hochschule: ja(1), nein(0) Warum Studium in Wismar: Empfehlung: ja(1), nein(0) Warum Studium in Wismar: Wohnortnähe: ja(1), nein(0) Warum Studium in Wismar: Finanzielle Gründe: ja(1), nein(0) Warum Studium in Wismar: Studiengangsbedingt: ja(1), nein(0) Warum Studium in Wismar: Andere Gründe: ja(1), nein(0) Wismar Wunschstudienort?: ja(0), nein(1) Arbeitsmarktmöglichkeiten nach Studium: sehr gut(0), gut(1), okay(2), mäßig(3), schlecht(4), weiß nicht(5) Erhältst Du BAföG: ja(0), nein(1) Finanzielle Unterstützung von Deinen Eltern: ja(0), nein(1) Zusätzlich arbeiten: ja(0), nein(1) Wenn JA, wie viele Std./Woche: 1-5h(0), 6-10h(1), 11-15h(2), 16-20h(3), 21+ h(4), Keine Arbeit(5), Keine Angabe (6) Wie viele finanzielle Mittel stehen monatl. zur Verfügung (inkl. aller Kosten): 0-500(0), 501-700(1), 701-900(2), 901-1100(3), 1100+(4), Keine Angabe(5) Einschätzung Leistung im Studium: sehr gut(0), gut(1), okay(2), mäßig(3), schlecht(4), weiß nicht(5) Damit zufrieden: ja(0), nein(1) Wie viel Zeit beansprucht das wöchentl. Studium (inkl. Lehrveranstaltungen): < 20 h(0), 20-30 h(1), 31-40 h(2), 41-50 h(3), 51-60 h(4), 61-70 h(5), 71+ h(6) Ist das ausreichend: ja(0), nein(1) Besitzt Du einen TV: ja(0), nein(1) Wenn Ja, wie viele Std./Woche schaust Du: 0h(0), 1-10h(1), 11-20h(2), 21-30(3), 31+h(4), kein TV(5) Spielst Du Video-/Onlinespiele: ja(0), nein(1) Wenn Ja, wie viele Std./Woche: 1-10h(0), 11-20h(1), 21-30h(2), 31+ h(3), keine Video- /Ol-spiele(4) Treibst Du regelmäßig Sport: ja(0), nein(1) Lebst du in privaten Wohnverhältnissen (Eigentumswohnung/-haus, Eltern): ja(1), nein(0) Lebst du in öffentlichen Wohnverhältnissen (Mietwohnung): ja(1), nein(0) Lebst du in gemeinschaftlichen Wohnverhältnissen (Wohngemeinschaft, Studentenwohnheim): ja(1), nein(0) Wie viele m² stehen Dir alleine zur Verfügung: < 10m²(0), 11-20 m²(1), 21-30 m²(2), > 30m²(3), weiß nicht(4) Wie viele WE verbringst Du in Wismar: Alle(1), Jedes dritte(2), Jedes zweite(3), Keines (4) Nutzt Du öffentliche Verkehrsmittel zur Hochschule (Bahn, Bus): ja(1), nein(0) Nutzt Du private Verkehrsmittel zur Hochschule (Auto, Motorrad, Fahrrad, zu Fuß): ja(1), nein(0) Wie kommst Du zur Hochschule?: Anders: ja(1), nein(0) Nutzt Du öffentliche Verkehrsmittel in Wismar (Bus): ja(1), nein(0) Nutzt Du private Verkehrsmittel in Wismar (Auto, Motorrad, Fahrrad, zu Fuß): ja (1), nein(0) Wie bewegst Du Dich **in** Wismar?: Anders: ja(1), nein(0) Zufriedenheit Lebenssituation als Student: Zufrieden(1), Unzufrieden(2) (Quelle: eigene Darstellung) Anlage III: Decision Tree und J48 - Algorithmus mit kMeans - Algorithmus in KNIME Modellierung Decision Tree mit dem kMeans - Algorithmus in KNIME: (Quelle: KNIME) Modellierung J48 - Algorithmus mit dem kMeans - Algorithmus in KNIME: (Quelle: KNIME) Anlage IV: Aussagen zu den Fragestellungen anhand der Vorhersageergebnisse Relevante „Fragenstellungen“ für die Durchführung der Data Mining-Verfahren (Zielattribute sind fett gedruckt) Aussagen die anhand der besten Vorhersageergebnisse aus den Data Mining-Verfahren getroffen werden können 1. Kommen die Studenten aufgrund einer Empfehlung an die Hochschule Wismar? 2. Ist das Studium an der HS Wismar für männliche Studenten das Erststudium? 3. Ist das Studium an der HS Wismar für weibliche Studenten das Erststudium? 4. Nutzen die Studenten die öffentlichen Verkehrsmittel zur Hochschule Wismar? Gesamtvorhersagewert 83,10 %; Aussage: „Die Studenten der HS Wismar kommen zu 2,82 % aufgrund einer Empfehlung zur HS Wismar.“ Gesamtvorhersagewert 100 %; Aussage: „Für 87,5 % der männlichen Studenten der HS Wismar ist es das Erststudium an der HS Wismar.“ Gesamtvorhersagewert 97,44 %; Aussage: „Für 94,87 % der weiblichen Studenten der HS Wismar ist es das Erststudium an der HS Wismar.“ Gesamtvorhersagewert 95,78 %; Aussage: „Nein, die Studenten der HS Wismar nutzen zu 92,96 % nicht die öffentlichen Verkehrsmitteln zur Hochschule.“ Gesamtvorhersagewert 98,59 %; Aussage: „Ja, die Studenten der HS Wismar nutzen zu 97,18 % die privaten Verkehrsmittel zur Hochschule.“ Gesamtvorhersagewert 90,14 %; Aussage: „84,59 % der Studenten der HS Wismar sind mit ihrer aktuellen Lebenssituation als Student an der HS Wismar zufrieden.“ Gesamtvorhersagewert 98,59 %; Aussage: „Nein, die Studenten der HS Wismar bevorzugen es zu 66,20 % nicht in gemeinschaftlichen Wohnverhältnissen zu leben.“ Gesamtvorhersagewert 84,51 %; Aussage: „Die Studenten der HS Wismar sind zu 53,52 % mit ihren erbrachten Leistungen im Studium zufrieden.“ Gesamtvorhersagewert 50 %; Aussage: „Die Studenten der HS Wismar mit sehr guten bis guten Leistungen im Studium schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 50 % mit gut ein.“ Gesamtvorhersagewert 100 %; Aussage: „Die Studenten der HS Wismar mit sehr guten bis guten Leistungen im Studium schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 52,27 % mit gut ein.“ Gesamtvorhersagewert 65,22 %; Aussage: „Die Studenten im Masterstudium der HS Wismar schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 56,52 % mit gut ein.“ Gesamtvorhersagewert 100 %; Aussage: „Die Studenten im Masterstudium der HS Wismar schätzen ihre Möglichkeiten auf dem Arbeitsmarkt zu 59,10 % mit gut ein.“ 5. Nutzen die Studenten private Verkehrsmittel zur Hochschule Wismar? 6. Sind Studierende mit ihrer aktuellen Lebenssituation als Student an der Hochschule Wismar zufrieden? 7. Bevorzugen Studenten der Hochschule Wismar in gemeinschaftlichen Wohnverhältnissen zu leben? 8. Sind Studenten der Hochschule Wismar mit ihren erbrachten Leistungen im Studium zufrieden? 9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein? 9. Wie schätzen Studenten, die sehr gute bis gute Leistungen im Studium erbringen (Selbsteinschätzung), ihre Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster) 10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem Arbeitsmarkt ein? 10. Wie schätzen Studenten, die sich im Masterstudium befinden, ihre Möglichkeiten auf dem Arbeitsmarkt ein? (Mit Cluster) (Quelle: eigene Darstellung) Ergänzung: Wie wir auf diese Ergebnisse gekommen sind, ist exemplarisch dem Zielattribut „Oeffentliche Verkehrsmittel zur HS“ den Abschnitten 4.3.1 bis 4.3.4 zu entnehmen. Die in der Aussage stehenden Prozentangaben beziehen sich dabei immer auf die richtig vorhergesagte Entscheidung der jeweiligen Ausprägung des Zielattributes.