Ludwig-Maximilians-Universität München Schriften zur Empirischen Forschung und Quantitativen Unternehmensplanung Heft 15 / 2003 Data Mining in Forschung und Lehre in Deutschland Dr. Matthias Meyer, Max Lüling Ludwig-Maximilians-Universität München Institut für Unternehmensentwicklung und Organisation Seminar für Empirische Forschung und Unternehmensplanung Prof. Dr. Manfred Schwaiger Kaulbachstr. 45 / I D-80539 München Tel.: (089) 2180 5640 Fax: (089) 2180 5651 e-mail: [email protected] http://www.efoplan.de Data Mining in Forschung und Lehre in Deutschland Dr. Matthias Meyer Ludwig-Maximilians-Universität München Seminar für Empirische Forschung und Unternehmensplanung Kaulbachstraße 45 / I 80539 München E-Mail: [email protected] Max Lüling Gustav-Heinemann-Ring 50 81739 München E-Mail: [email protected] Inhaltsübersicht 1 Einleitung ........................................................................................... 1 1.1 Zielsetzung und Struktur des Arbeitsberichts .................................... 1 1.2 Relevante Grundlagen des Data Mining ............................................ 2 1.2.1 Begriffe .............................................................................................. 2 1.2.2 Methoden ........................................................................................... 3 1.2.3 Softwaretools ..................................................................................... 4 2 Angaben zur Durchführung der Erhebung......................................... 7 3 Ergebnisse .......................................................................................... 7 3.1 Zusammensetzung der Stichprobe ..................................................... 7 3.2 Data Mining in Forschung und Lehre ................................................ 8 3.2.1 Data Mining in der Forschung ........................................................... 8 3.2.2 Data Mining in der Lehre................................................................. 11 3.2.3 Kombinierte Betrachtungen ............................................................. 14 3.3 Data Mining in der Unternehmenspraxis ......................................... 16 3.3.1 Praxisorientierung der Befragten ..................................................... 16 3.3.2 Bedeutung des Data Mining in der Unternehmenspraxis ................ 16 3.4 Nutzen und Bedeutung des Web Mining und des Text Mining....... 19 4 Fazit und Ausblick ........................................................................... 20 Literatur ....................................................................................................... 23 Anhang I: Adressen der Softwareanbieter............................................... 26 Anhang II: Ankündigungsschreiben bzw. -E-Mail ................................... 27 Anhang III: Interviewleitfaden................................................................... 28 Anhang IV: Liste der angefragten Lehrstühle ............................................ 36 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 1 1 Einleitung 1.1 Zielsetzung und Struktur des Arbeitsberichts Die enorme Zunahme verfügbarer Daten und Informationen (siehe zur Unterscheidung der Begriffe z. B. [FiSV01, 68; VoGu01, 24]) in den letzten Jahrzehnten ist vor allem das Ergebnis einer Verbesserung elektronischer Speichermedien [StHa02, 57f.], immer höher entwickelter Datenbankmanagementsysteme [StHa02, 545ff.] und eines Ausbaus der automatisierten Datenerfassung. Dies hat zur Entstehung riesiger Datenbanken in vielen Bereichen geführt, wie z. B. im Handel durch den Einsatz von Scannerkassen, in der Biologie durch die Automatisierung der Gensequenzierung oder in der Geologie durch Satellitenaufnahmen der Erdbewegungen. Da nicht alle erfassten Daten einen Nutzen generieren, gilt es die potenziell nützlichen Daten aus der Gesamtheit der Daten herauszufiltern. War dies früher manuell möglich, so ist dies auf Grund der Größe der Datenbanken meist nicht mehr zu bewältigen [EsSa00, 1]. Daher werden zunehmend unter dem Begriff Data Mining (siehe Kapitel 1.2) zusammengefasste Methoden eingesetzt, von denen man sich eine effiziente Datenverarbeitung und vereinfachte Analysemöglichkeiten verspricht, d. h. es soll einem breiten Kreis von Anwendern die Möglichkeit gegeben werden, in akzeptablen Rechenzeiten zu (individuell) neuen Erkenntnissen zu gelangen. Der einschlägigen Literatur zufolge ist das Data Mining sowohl für die Forschung als auch für die Unternehmenspraxis von Interesse [Deck03, 49; Haus03, 17; Küpp99, 17]. Allerdings gibt es bis dato nur wenige empirische Untersuchungen, die derartige Aussagen umfassend überprüfen. Existierende Studien konzentrieren sich auf die Data Mining-Nutzung und -Erfahrungen in der Unternehmenspraxis (z. B. [MeGr97; HiMW02a-c]), auf Erfolgsfaktoren des Data Mining-Einsatzes [Hilb02] und auf Einsatzgebiete des Data Mining [Küpp99, 123ff.]. [HiMW02a-c] und [Hilb02] haben Unternehmensbefragungen durchgeführt. [Küpp99] stützt sich dagegen auf Angaben von Softwareherstellern, auf Expertengespräche während Messen und Konferenzen sowie auf Recherchen im Internet. Im Gegensatz zu diesen Untersuchungen wurden für die hier behandelte Erhebung ausschließlich Wissenschaftler aus dem Data Mining-Bereich (siehe Anhang) nach Einschätzungen und Meinungen in Bezug auf das Data Mining befragt. Eine vergleichbare Herangehensweise wurde bislang in keiner Untersuchung in diesem Bereich gewählt. Bei der Untersuchung standen die folgenden Fragestellungen im Mittelpunkt: - Welche gegenwärtige und künftige Bedeutung hat das Data Mining in Forschung und Lehre aus Sicht der ausgewählten bzw. befragten Lehrstühle? - Wie schätzen die Lehrstühle die gegenwärtige und die künftige Bedeutung des Data Mining in der Unternehmenspraxis ein? - Wie beurteilen die befragten Lehrstühle die aktuelle und künftige Bedeutung des Web Mining und des Text Mining? Grund für die dritte Fragestellung war, dass es sich mit dem Web Mining und dem Text Mining um relativ neuartige Spezialisierungen bzw. Erweiterungen des Data Mining handelt, deren Anwendungs- und Nutzenpotenziale intensiv untersucht und diskutiert werden. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 2 Kapitel 1.2 enthält ausgewählte Grundlagen des Data Mining. Zunächst werden in Kapitel 1.2.1 relevante Begriffe des Data Mining behandelt, die Kapitel 1.2.2 und 1.2.3 geben eine grobe Übersicht über Data Mining-Methoden und -Softwaretools. In Kapitel 2 wird die Durchführung der Befragung beschrieben. Die dabei erzielten Ergebnisse sind Gegenstand von Kapitel 3. In Kapitel 3.1 wird auf die Zusammensetzung der Stichprobe eingegangen, während die Kapitel 3.2, 3.3. und 3.4 Detailergebnisse zu den eingangs genannten Fragestellungen umfassen. Zum Abschluss der Arbeit befinden sich in Kapitel 4 einige zusammenfassende Bemerkungen und Schlussfolgerungen. Der Anhang enthält eine Liste der Internet-Adressen der vorgestellten Softwarelösungen, das Anschreiben, den Interviewleitfaden und eine Liste der in Betracht gezogenen Lehrstühle. 1.2 Relevante Grundlagen des Data Mining 1.2.1 Begriffe Um bei Befragungen valide Aussagen zu erhalten, bedarf es einheitlicher Auffassungen zentraler Begriffe. Insbesondere für den Begriff des Data Mining gibt es unterschiedliche Abgrenzungen und Auslegungen. Für die Durchführung der Interviews wurden folgende Definitionen zugrunde gelegt (für eine ausführliche Behandlung der Grundlagen des Data Mining siehe z. B. [HaTF01; BeLi00; BeHa99; BeST00; WiFr00; Hand02]): - Unter Knowledge Discovery in Databases (KDD) wird in Anlehnung an [FPSU96] der nichttriviale Prozess der Identifikation gültiger, neuartiger, potenziell nützlicher und letztlich verständlicher Muster in (großen) Datenbeständen verstanden. - Data Mining lässt sich als ein Schritt im KDD-Prozess betrachten, in dem Data Mining-Methoden zur Musterentdeckung eingesetzt werden. Vielfach wird Data Mining ebenfalls als ein Prozess beschrieben, der sich im Wesentlichen mit dem des KDD deckt. Zahlreiche Autoren verwenden die Begriffe KDD und Data Mining synonym (siehe dazu [AdZa96, 5; CHSV97, 12; BeST00, 116; Säub00, 9]). Um Missverständnisse und Abgrenzungsprobleme zu vermeiden, wurde für die Befragung eine weite Begriffsauslegung gewählt, d. h. die Begriffe wurden ebenfalls synonym verwendet. - Unter Web Mining wird allgemein die Anwendung von Data Mining-Methoden auf im Web erfasste Daten verstanden [BeWe99, 426]. Dabei wird in der Regel zwischen Web Content Mining, Web Structure Mining und Web Usage Mining unterschieden, wobei zahlreiche Autoren sich auf das Web Usage Mining konzentrieren. Oftmals werden die Begriffe Web Mining und Web Usage Mining synonym verwendet (z. B. [Deck03, 67; SäHu03]), sodass auch hier von einer engen Begriffsauslegung abgesehen wurde. - Beim Text Mining handelt es sich um eine vergleichsweise junge Forschungsrichtung [MeBe00, 165]. Hierunter fasst man Ansätze zur Analyse von in Texten enthaltenen Informationen zusammen [DöGS01, 466]. Eine zentrale Rolle spielt dabei die sog. Feature Extraction, d. h. die Zerlegung von Texten in Worte, die Reduktion der Worte auf Stammformen, die Normalisierung mit Hilfe linguistisch motivierter Heuristiken etc. [DöGS01, 469f.; MeBe00, 166]. Im Anschluss an die Extraktion von Informationselementen können dann Data Mining-Methoden zur Anwendung kommen, um beispielsweise Texte zu gruppieren oder zu klassifizieren. Im Gegensatz zum Web Mining ist Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 3 das Text Mining noch nicht so weit entwickelt und bekannt (siehe auch die Ergebnisse in Kapitel 3.4). 1.2.2 Methoden Das Gebiet des Data Mining kann als sehr breit gefächert bezeichnet werden. Entsprechend umfangreich ist das Spektrum der Methoden, die dem Data Mining zugerechnet werden können. [Küst01, 95f.] unterscheidet allein sechs Disziplinen, aus denen die Methoden stammen: - Traditionelle Statistik und Datenanalyse, insbesondere die Regressions-, Faktoren-, Cluster-, Diskriminanz- und Zeitreihenanalyse einschließlich der Prognostik und der robusten Statistik. - Künstliche Intelligenz, insbesondere das maschinelle Lernen, künstliche neuronale Netze, evolutionäre Algorithmen, intelligente Agentensysteme und probabilistische Expertensysteme (bayesianische Netze). - Traditionelle Mustererkennung (Pattern Recognition). - Datenbanktheorie und -praxis, insbesondere Assoziationsnetze und On-Line Analytical Processing (OLAP). - Computerlinguistik und Information Retrieval, insbesondere Text Mining und fallbasiertes Schließen. - Computergraphik, insbesondere Visualisierungsmethoden. Data Mining-Methoden stellen demzufolge nicht zwingend Neuentwicklungen dar, sondern sind in der Regel konsequente Weiterentwicklungen bekannter Ansätze, die auf umfangreiche Datensätze aus bestehenden Datenbanken angewendet werden [Küst01, 124]. Auf Grund der großen und sich ständig verändernden Anzahl an Methoden bietet es sich an, die Methoden anhand der jeweiligen Zielsetzung zu gruppieren. Zentrale Bedeutung haben dabei die folgenden Gruppen: - Assoziations- und Sequenzanalyse: Mit Hilfe von Assoziationsanalysen lassen sich sog. Assoziationsregeln generieren, anhand derer sich Zusammenhänge zwischen Objekten erkennen und beschreiben lassen. Mit Hilfe spezieller Maße – in den meisten Fällen werden der Support-, der Confidence- und der Lift-Wert verwendet – lässt sich beurteilen, inwieweit die gefundenen Zusammenhänge als auffällig angesehen werden können (siehe ergänzend [Boll96; HeHi01; Adam01]). Ein typisches Anwendungsgebiet sind Warenkorbanalysen. Sofern Objekte bzw. Objektkombinationen mit Zeitstempeln versehen sind, lassen sich Sequenzanalysen durchführen, d. h. es werden zeitbezogene bzw. zeitraumbezogene Zusammenhänge aufgedeckt (siehe zur Vertiefung z. B. [Zaki01; SrAg96; PHMZ00; Adam01]). Ein typischer Anwendungsfall ist die Untersuchung von Nutzungsdaten aus dem Internet. - Gruppierung bzw. Clustering: Hierunter versteht man Verfahren zur Zusammenfassung ähnlicher Objekte zu Gruppen. Ziel ist es, dass sich die Objekte innerhalb der Gruppen möglichst ähnlich sind und sich zwischen den Gruppen möglichst stark unterscheiden. Für die Bestimmung der Ähnlichkeiten gibt es eine Vielzahl von Maßen und Metriken, Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 4 die je nach verfolgtem Analyseziel und je nach Datencharakteristik zum Einsatz kommen. Ähnlich vielfältig ist die Menge vorhandener Clusterverfahren (siehe zur Vertiefung z. B. [BEPW00; Bach02]). Die mit Hilfe von Clusteranalysen ermittelten Gruppen können entweder zur Datenbeschreibung eingesetzt werden oder dienen als Basis für weitere, gruppenspezifische Auswertungen. - Klassifikation: Ziel der Klassifikation ist es, Modelle bzw. Funktionen zu finden, mit deren Hilfe Datenobjekte vorher identifizierten Klassen zugeordnet werden können. Die Ableitung eines Modells basiert in der Regel auf einer Menge von Objekten, für die die jeweilige Klassenzuordnung bekannt ist (siehe zur Vertiefung z. B. [BoAr01; HaTF01]). Mit Hilfe des zu ermittelnden Modells sollen Objekte klassifiziert werden, für die keine Klassenzuordnung bekannt ist. Die Modelle können mit Hilfe von Diskriminanzanalysen (siehe z. B. [BoAr01]), Entscheidungsbäumen (siehe z. B. [BFOS84; HaTF01]) oder neuronalen Netzen (siehe z. B. [PoSi01]) ermittelt werden. - Regression: Mit Hilfe der Regressionsanalyse sollen funktionale Abhängigkeiten zwischen den Variablen eines Datensatzes bestimmt werden. Die derart ermittelten Modelle dienen der Schätzung bzw. der Vorhersage von Variablenwerten. Zur Repräsentation der Abhängigkeiten gibt es neben linearen auch nicht-lineare (z. B. quadratische, logistische oder Poisson) Regressionsansätze (siehe zur Vertiefung [ChHP00; AlSk99; Kraf99]). Neben den hier genannten Gruppen von Methoden gibt es weitere Ansätze aus den Bereichen Zeitreihenanalyse, Visualisierung und bzw. Evolutionäre Algorithmen (einen Überblick gibt beispielsweise [Küst01]). Als typische Data Mining-Methoden werden in der Literatur üblicherweise Verfahren der Regressions-, der Cluster- und der Diskriminanzanalyse sowie Entscheidungsbaumverfahren bzw. maschinelles Lernen, künstliche neuronale Netze und Assoziationsanalyseverfahren genannt (siehe zu den Grundlagen der Methoden beispielsweise [BEPW00; BeLi97; HaKa01]). Dies bestätigen auch die Ergebnisse der vorliegenden Befragung – jede dieser Methoden wird von mindestens fünf der befragten Lehrstühle in der Forschung und/oder in der Lehre eingesetzt (siehe auch Kapitel 3.2.3). 1.2.3 Softwaretools Parallel zur Neu- und Weiterentwicklung von Data Mining-Methoden wurden von mehreren Anbietern entsprechende Software-Produkte entwickelt. Grundsätzlich lässt sich dabei unterscheiden zwischen von Grund auf neu entwickelten bzw. eigenständigen Data Mining-Produkten (z. B. IBM Intelligent Miner, SPSS Clementine, SPSS AnswerTree, Prudsys Discoverer, WEKA) und Produkten, in die Data Mining-Methoden integriert wurden oder die um neue Schnittstellen und Benutzeroberflächen ergänzt wurden (z. B. SAS Enterprise Miner, Insightful Miner). Bei einer weiteren Gruppe von Produkten handelt es sich um klassische Statistik-Pakete, die für Data Mining-Aufgaben eingesetzt werden (z. B. SPSS, S-PLUS). Auf die genannten Produkte wird im Folgenden jeweils kurz eingegangen. Die Angaben basieren zum Teil auf einer Internet-Recherche. Die entsprechenden Internet-Adressen befinden sich im Anhang. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 5 Vollständig neu entwickelte Produkte - Mit dem IBM Intelligent Miner for Data handelt es sich um eine ursprünglich auf DB2 aufsetzende Lösung für komplexe Analysen großer Datenmengen, die für eine Vielzahl an Plattformen verfügbar ist (u. a. Windows NT/2000, AIX, OS/400, OS/390). Folgende Methoden stehen u. a. zur Verfügung: Neuronale Netze, Clustering-Verfahren, Assoziations-/Sequenzanalyse, Radial Basis-Funktionen, Entscheidungsbäume. Endbenutzerschnittstellen und programmierbare Schnittstellen ermöglichen die Anpassung des Mining-Prozesses an verschiedene Benutzergruppen. Darüber hinaus bietet IBM Anwendungslösungen an, die auf dem Intelligent Miner aufbauen und vorgefertigte Spezialisierungen beinhalten. - SPSS Clementine ist eine Data Mining-Plattform, die den gesamten Analyseprozess durch eine grafische Programmieroberfläche unterstützt. Das Tool läuft auf zahlreichen Plattformen (u. a. Windows NT/2000, Windows XP, Sun Solaris, HP UX, AIX HP 9000, AS400). Neben umfangreichen Datenimport- und Aufbereitungsprozeduren stehen Neuronale Netze, Entscheidungsbäume, Regressionsanalyse, Faktorenanalyse, Assoziations-/Sequenzanalyse und Clustering-Verfahren zur Verfügung. Für die Verarbeitung großer Datenmengen gibt es eine Client/Server-Version. - SPSS AnswerTree ist ein relativ verbreitetes Tool zur Erstellung von Entscheidungsbäumen. Es stehen insgesamt vier Algorithmen zur Verfügung. Das Tool bietet verschiedene Datenimport-Möglichkeiten und Schnittstellen an und steht auch als Client/Server-Version zur Verfügung. - Der Prudsys Discoverer bietet in erster Linie einen universellen Ansatz zur Erzeugung von linearen und nichtlinearen Entscheidungsbäumen (siehe dazu [ItST01]) sowie ein Sparse Grids-Klassifikationsverfahren vor allem für große Datenmengen. Das Tool unterstützt verschiedene Datenbankformate und läuft ausschließlich auf WindowsSystemen. Mit dem Discoverer können sowohl automatisch als auch interaktiv Data Mining-Modelle erstellt werden. Weitere Verfahren, wie z. B. Clustering-Verfahren, Zeitreihenanalyse und Assoziations-/Sequenzanalyse, sind in weiteren PrudsysProdukten enthalten. - Die Java-basierte Entwicklungsumgebung WEKA (The Waikato Environment for Knowledge Analysis) stellt als open source-Software eine Besonderheit unter den Software-Produkten dar (siehe auch [WiFr00]). Sie bestand unrsprünglich aus einer Ansammlung von Algorithmen aus dem Bereich des maschinellen Lernens für die Lösung von Data Mining-Problemen. WEKA beinhaltet Tools zur Datenaufbereitung, Klassifikation, Regression, Clustering, Assoziationsanalyse und Visualisierung. Die Algorithmen können entweder direkt auf einen Datensatz angewendet werden oder über Java Code aufgerufen werden. Zudem können eigene Ansätze des maschinellen Lernens implementiert werden. In jedem Fall benötigt WEKA eine Java RuntimeUmgebung. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 6 Um Data Mining-Funktionalitäten erweiterte Produkte - Der SAS Enterprise Miner ist eine Data Mining-Lösung, die auf verschiedenen Modulen des sog. SAS-Systems basiert. Die Definition von Data Mining-Prozessen wird durch eine grafische Benutzeroberfläche unterstützt, wobei die Struktur an die sog. SEMMA-Methodologie angelehnt ist. Zusammen mit SAS Data Warehouse-Lösungen und OLAP-Techniken entsteht eine Lösung, die das gesamte Spektrum des Knowledge Discovery abdeckt. Als Methoden stehen u. a. Neuronale Netze, Entscheidungsbäume, Regressionsanalyse, Memory Based Reasoning, Clustering-Verfahren, Assoziations-/Sequenzanalyse und Zeitreihenanalyse zur Verfügung. Darüber hinaus kann auf zahlreiche weitere statistische Verfahren, wie z. B. Verfahren der deskriptiven Statistik, multivariate Verfahren und Visualisierungsmöglichkeiten zurückgegriffen werden. Das Programmpaket ist individuell anpassbar bzw. programmierbar, läuft unter verschiedenen Betriebssystemen und kann sowohl auf PCs, auf Großrechnern und in ClientServer-Umgebungen genutzt werden. - Der Insightful Miner ist ebenfalls eine prozessorientierte Data Mining-Lösung, die auf dem Statistikpaket S-PLUS basiert und um weitere Funktionalitäten ergänzt wurde. Der Insightful Miner ist für Windows- und Unix-Systeme verfügbar (u. a. Windows NT/2000/XP, Sun Solaris) und bietet zahlreiche Datenbank-Schnittstellen sowie Import-Möglichkeiten für verschiedene Dateiformate. Das Programm ermöglicht die Erstellung neuer Anwendungen und die Anpassung an individuelle Bedürfnisse. Als Methoden stehen u. a. Neuronale Netze, Entscheidungsbäume, Regressionsanalyse, Clustering-Verfahren, Assoziations-/Sequenzanalyse und Zeitreihenanalyse zur Verfügung. Darüber hinaus kann weitere in S-PLUS verfügbare Verfahren zurückgegriffen werden. Statistik-Pakete - SPSS ist eine weit verbreitete Statistik-Software, die aus verschiedenen Modulen besteht und als Einzelplatzversion unter verschiedenen Windows-Systemen lauffähig ist. Ähnlich wie SAS umfasst SPSS eine Fülle statistischer Analysemethoden. Neben Verfahren der Regressions-, Cluster- und Diskriminanzanalyse steht eine Vielzahl weiterer statistischer Methoden zur Verfügung, wie z. B. Verfahren der deskriptiven Statistik, multivariate Verfahren und Visualisierungsmöglichkeiten. Als Client Server-Version läuft die Software unter Windows und Unix (z. B. Sun Solaris, Linux). Zusätzlich gibt es Programmiermöglichkeiten, um Analyseschritte (teilweise) zu automatisieren. Darüber hinaus bietet SPSS vorgefertigte Spezialisierungen bzw. Branchenlösungen an. - S-PLUS ist ein Statistik-Paket, das unter Windows- und Unix-Systemen genutzt werden kann. Schnittstellen zu zahlreichen, verbreiteten Datenbanken- und Dateiformaten sind vorhanden. Ähnlich wie SAS und SPSS stellt S-PLUS neben Verfahren der Regressions-, Cluster- und Diskriminanzanalyse eine Vielzahl statistischer Methoden zur Verfügung, wie z. B. Verfahren der deskriptiven Statistik, multivariate Verfahren und Visualisierungsmöglichkeiten. Bereits existierende Methoden können modifiziert werden, neue Methoden können in einer speziellen Programmiersprache implementiert werden. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 7 2 Angaben zur Durchführung der Erhebung Als Auskunftspersonen wurden ausschließlich Wissenschaftler aus der Betriebswirtschaftslehre, der Wirtschaftsinformatik, der Informatik und der Statistik in Betracht gezogen, da nach Einschätzung der Autoren in diesen Fachrichtungen ein erheblicher Anteil der Entwicklung und Anwendung von Data Mining-Methoden stattfindet. Forscher anderer Fachrichtungen, wie z. B. Medizin, Biologie (Genomforschung) und Astronomie, wurden nicht befragt, da die Data Mining-Fragestellungen dieser Bereiche zum Teil innerhalb der Statistik und der allgemeinen Informatik bzw. in Spezialgebieten (z. B. Bio- und MedizinInformatik) behandelt werden. Zudem wurde unterstellt, dass die auf die Unternehmenspraxis bezogenen Fragen bereits von Vertretern der hier betrachteten Fachrichtungen beantwortet werden können. Für die Befragung von Wissenschaftlern sprach, dass sich diese generell mit dem Einsatz und Nutzen von Data Mining-Methoden beschäftigen und sich eher mit der Bedeutung des Data Mining als Disziplin auseinandersetzen, als es von Vertretern aus der Unternehmenspraxis zu erwarten wäre. Nachteilig ist möglicherweise, dass sich die Ergebnisse nur auf relativ wenige Auskunftspersonen stützen, die zudem nicht die Bedeutung für die Unternehmenspraxis abschätzen können. Den Ergebnissen in Kapitel 3.3 kann jedoch entnommen werden, dass die befragten Personen überwiegend Praxiserfahrungen vorweisen können. Als Erhebungsform wurde die Durchführung telefonischer Interviews mit schriftlicher Ankündigung bzw. Terminvereinbarung gewählt (siehe Anhang). Dadurch konnte die Antwortbereitschaft positiv beeinflusst werden. Zudem konnten während der Interviews einzelne Fragen erläutert und somit Missverständnisse ausgeräumt werden. In zwei Fällen wurde aus Termingründen der Interviewleitfaden (siehe Anhang) als Fragebogen versendet und von den Auskunftspersonen schriftlich beantwortet. Die Befragung wurde ab Mitte November 2002 bis Mitte Januar 2003 durchgeführt. 3 Ergebnisse 3.1 Zusammensetzung der Stichprobe Insgesamt wurden 51 Lehrstühle aus den Bereichen Betriebswirtschaft, Wirtschaftsinformatik, Informatik und Statistik ausgewählt (siehe Anhang). Ausschlaggebend für die Auswahl war die Forschungs- und Lehrtätigkeit im Bereich Data Mining, d. h. ein Lehrstuhl gelangte genau dann in die Auswahl, wenn zwischen dem WS 2000/01 und dem WS 2002/03 Lehrveranstaltungen (Vorlesungen, Übungen, Seminare) mit Bezug zum Data Mining stattgefunden haben bzw. von Mitarbeitern des Lehrstuhls einschlägige Publikationen erschienen sind. Von den ausgewählten Lehrstühlen nahmen 22 an der Befragung teil, wobei entweder der Lehrstuhlinhaber oder ein benannter Mitarbeiter die Antworten gegeben hat. Dies entspricht einem Rücklauf von 43%. Die Verteilung auf die einzelnen Bereiche kann Tabelle 1 entnommen werden (aus Anonymitätsgründen wurden die Lehrstühle in Gruppen zusammengefasst). Für die Überprüfung, ob die Häufigkeiten von den erwarteten Häufigkeiten abweichen (H1-Hypothese) oder nicht (H0-Hypothese), wurde ein Chi- 8 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Quadrat-Anpassungstest durchgeführt. Da in drei der fünf Gruppen die erwartete Häufigkeit weniger als fünf beträgt und damit eine wesentliche Voraussetzung der asymptotischen Standardmethode nicht erfüllt ist, wurde die in dem SPSS-Zusatzmodul „Exact Tests“ implementierte Variante verwendet. Dabei ergab sich ein Chi-Quadrat-Wert von 0,425 und eine exakte Signifikanz von 0,983, sodass die H0-Hypothese nicht abgelehnt werden kann. Daher wird davon ausgegangen, dass die Stichprobe für die zugrunde gelegte Grundgesamtheit repräsentativ ist. Informatik Tabelle 1: Stichprobenzusammensetzung Lehrstuhlbezeichnung Statistik Betriebswirtschaft Wirtschaftsinformatik Datenbanken Künstliche Intelligenz, Neuroinformatik, Natürlichsprachliche Systeme etc. Gesamt N 10 4 9 12 Erwartete Häufigkeit 4,314 1,725 3,882 5,177 Stichprobenhäufigkeit 5 2 4 4 16 6,902 7 51 22 22 Im Weiteren werden die Ergebnisse der Befragung vorgestellt und diskutiert. Es handelt sich in erster Linie um deskriptive Auswertungen zur Beschreibung des Meinungsbilds zum Data Mining und des Status quo. Da nur eine relativ kleine Stichprobe vorliegt, wurde von der Anwendung komplexerer Auswertungsmethoden abgesehen. 3.2 Data Mining in Forschung und Lehre 3.2.1 Data Mining in der Forschung Um die Bedeutung des Data Mining aus Sicht der Befragten zu erfahren, sollten diese die Relevanz für die Forschung insgesamt und für die eigene Forschung bewerten (Bild 1). Erwartungsgemäß stellte sich heraus, dass 12 von 22 Befragten die Bedeutung des Data Mining in der eigenen Forschung als eher oder als sehr bedeutend betrachten und weitere fünf Befragte zumindest eine mittlere Bedeutung angeben. In Bezug auf die gesamte Forschungslandschaft liegt der Schwerpunkt der Einschätzungen bei einer mittleren Bedeutung. Dies lässt auf eine Spezialisierung der befragten Lehrstühle in Richtung Data Mining schließen. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 9 Bedeutung der Data Mining-Forschung 10 8 6 insgesamt am Lehrstuhl 4 2 feh len d M itte l Eh er be de ute nd Se hr be de ute nd Eh er ge rin g Se hr ge rin g 0 Bild 1: Bedeutung der Data Mining-Forschung Neben der aktuellen Bedeutung sollten die Befragten auch die künftige Bedeutung des Data Mining in der Forschung (und der Lehre) einschätzen (siehe Tabelle 2). Nahezu einhellig sind die Befragten der Meinung, dass die Bedeutung leicht zunehmen wird. Als Gründe für die leichte Zunahme wurden weiterhin steigende Datenmengen, Verbesserungen der Methoden und die Orientierung des Forschungs- und Lehrangebots an der (steigenden) Nachfrage aus der Unternehmenspraxis angegeben. Gegen ein starkes Wachstum wurde angeführt, dass die Bedeutung bereits als hoch anzusehen sei und daher nicht mehr stark wachsen könne. Entsprechend könne davon ausgegangen werden, dass im Bereich des Data Mining keine neuen Stellen an den Lehr- und Forschungseinrichtungen geschaffen werden, da das Hochschulangebot schon weitgehend ausreiche, um den Bedarf in der Lehre zu decken. Tabelle 2: Künftige Bedeutung des Data Mining in Forschung und Lehre „[...] Die Bedeutung des Data Mining an den Lehr- und ForHäufigkeit schungseinrichtungen wird ...“ Prozent Stark zurückgehen 0 0,0 Leicht abnehmen 2 9,1 Gleich bleiben 2 9,1 Leicht zunehmen 16 72,7 Stark wachsen 1 4,5 Fehlend 1 4,5 22 100,0 10 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Um die Bedeutung des Data Mining für die eigene Forschungsarbeit durch zusätzliche Indikatoren zu erfassen, sollten die Befragten angeben, wie viele Diplomarbeiten bzw. Dissertationen im Bereich des Data Mining betreut wurden (Tabelle 3) und ob bzw. in welchem Ausmaß publiziert wird (Tabelle 4). Tabelle 3: Anzahl Diplomarbeiten und Dissertationen in den letzten zwei Jahren Maximum Mittelwert N Minimum Anzahl Diplomarbeiten 20 0 20 Anzahl Dissertationen 20 0 7 Median Modus 6 4 5 1,8 1 1 Im Schnitt ergeben sich pro Lehrstuhl in etwa drei Diplomarbeiten und eine Dissertation pro Jahr (Anm.: Die Angaben bezogen sich auf einen Zeitraum von zwei Jahren). Auf Grund der erheblichen Spannweite bei den Angaben, die sich vermutlich auf die unterschiedliche Auslegung des Begriffes Data Mining zurückführen lässt, bietet sich die Betrachtung des Medians und des Modus an. Diesen beiden, gegen Extremwerte deutlich unempfindlicheren Maßzahlen zufolge wurden an den befragten Lehrstühlen in einem Zeitraum von zwei Jahren im Bereich des Data Mining ca. vier bis fünf Diplomarbeiten und eine Dissertation betreut. Dies ist aus Sicht der Autoren ein durchaus plausibles Bild. Tabelle 4: Publikationsaktivitäten im Bereich des Data Mining „Werden an Ihrem Lehrstuhl Publikationen zu diesem Thema [Data Mining] erstellt?“ Häufigkeit Prozent Gar nicht 1 4,5 Selten 6 27,3 Regelmäßig 7 31,8 Häufig 6 27,3 Durchgehend 1 4,5 Fehlend 1 4,5 22 100,0 Die Forschungsaktivitäten lassen sich zusätzlich an der Anzahl der Publikationen in diesem Bereich ablesen (siehe Tabelle 4). Bei der entsprechenden Frageformulierung wurde bewusst nicht danach gefragt, auf welchen Zeitraum sich die Angaben beziehen, um Zuordnungsprobleme zu vermeiden. Trotz der dadurch verursachten Unschärfe lässt sich feststellen, dass der Großteil der befragten Lehrstühle regelmäßig oder häufig zu diesem Thema publiziert. Dieses Ergebnis deckt sich mit der Feststellung von Säuberlich, dass die Veröffentlichungsaktivitäten im Bereich des Data Mining stark zunehmen bzw. zugenommen haben [Säub00, 51]. Somit verwundert es nicht, dass lediglich ein Lehrstuhl nicht zu diesem Thema publiziert hat. Um einen Eindruck zu erhalten, inwieweit im Rahmen der Forschungsarbeit SoftwareTools eingesetzt werden, sollten die Befragten entsprechende Angaben zum SoftwareEinsatz machen. Dabei stellte sich heraus, dass bei 20 Lehrstühlen ein oder mehrere Tools Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 11 verwendet werden. Ein Lehrstuhl setzt keine Software ein, da keine adäquate Software für die Textanalyse existiert. An einem weiteren Lehrstuhl wird keine aktive Forschung im Bereich des Data Mining betrieben und somit keine Software für diesen Zweck eingesetzt. Offensichtlich beschränken sich die befragten Lehrstühle nicht ausschließlich auf die Behandlung theoretischer Aspekte des Data Mining, sondern wenden mit Hilfe geeigneter Tools Data Mining-Methoden an (siehe zum Softwareeinsatz und zu präferierten Methoden Kapitel 3.2.3). Zum Einsatz kommen dabei neben Standardapplikationen (siehe Kapitel 3.2.3) auffällig oft auch Eigenentwicklungen, wobei diese vor allem im Bereich der Informatik verbreitet sind. Dort setzen sieben von elf Lehrstühlen Eigenentwicklungen ein, während es nur zwei von elf Lehrstühlen in den anderen Disziplinen sind. Auf Nachfrage wurde dies damit begründet, dass vorhandene Software-Produkte entweder methodische Defizite aufweisen oder nicht erschwinglich sind. 3.2.2 Data Mining in der Lehre Ähnlich wie zu der Bedeutung des Data Mining in der (eigenen) Forschung sollten die Befragten einschätzen, welche Rolle das Data Mining in der Lehre einnimmt (siehe Tabelle 5). Dabei stellte sich heraus, dass weniger als ein Fünftel der Befragten die Bedeutung als gering oder sehr gering und die Hälfte als eher oder sehr bedeutend beurteilt. Erwartungsgemäß hat das Data Mining für die befragten Lehrstühle eine tendenziell höhere Bedeutung. Tabelle 5: Bedeutung des Data Mining in der Lehre „Welchen Stellenwert räumen Sie der Data Mining Lehre an Ihrem Lehrstuhl ein?“ Häufigkeit Prozent Sehr gering 1 4,5 Eher gering 3 13,6 Mittel 7 31,8 Eher bedeutend 8 36,4 Sehr bedeutend 3 13,6 22 100,0 Um die Bedeutung des Data Mining in der Lehre mit Hilfe zusätzlicher Fragestellungen ermessen zu können, wurden entsprechende (offene) Fragen zum zeitlichen Umfang Data Mining-bezogener Lehrveranstaltungen und zur Lehrerfahrung (Anzahl der Jahre seit erstmaligem Angebot einer einschlägigen Lehrveranstaltung) gestellt (Tabelle 6). Dabei stellte sich heraus, dass an den Lehrstühlen im Mittel vor 5,09 Jahren die erste Lehrveranstaltung mit Bezug zum Data Mining angeboten wurde. Bezüglich der Summe der Semesterwochenstunden, die die Lehrstühle im Bereich des Data Mining anbieten, ergibt sich ein Mittelwert von 5,00 bzw. ein Median von 4,00 Stunden (Tabelle 6). Auf Grund der Verzerrung des Mittelwerts durch Extremwerte wird für die vorliegenden Daten der Median präferiert. Der Wert von 4 Semesterwochenstunden korrespondiert mit den Angaben zum Lehrveranstaltungsangebot. Wie Bild 2 entnommen 12 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland werden kann, handelt es sich bei den Lehrveranstaltungen in erster Linie um Vorlesungen zum Data Mining mit dazugehöriger Übung. In wenigen Fällen beschränkt sich das Angebot auf Vorlesungen ohne Übung (inkl. Schwerpunktübungen mit Vorlesungscharakter) bzw. in einem Fall um eine Übung ohne Vorlesung. Einige Lehrstühle bieten zusätzlich oder alternativ Veranstaltungen zur explorativen Datenanalyse und zur multivariaten Statistik an, die jedoch einen Bezug zum Data Mining aufweisen. Unter Sonstiges wurden in erster Linie Seminarveranstaltungen zum Data Mining zusammengefasst. Derartige Veranstaltungen boten 9 der 22 Lehrstühle an. Tabelle 6: Lehrerfahrungen und Lehrumfang Anz. gültige Minimum Maximum Mittelwert Werte Lehrerfahrung in Jahren 22 1 12 5,09 Semesterwochenstunden 22 1 18 5,00 Median Modus 5,00 4,00 5 4 22 20 18 16 14 12 10 8 6 4 2 0 nur VL nur Übung VL+Übung Veranstaltung mit Data Mining-Bezug Sonstiges Bild 2: Lehrveranstaltungstypen im Bereich Data Mining Die Lehrveranstaltungen werden überwiegend entweder jedes (11 Lehrstühle) oder zumindest jedes zweite Semester (9 Lehrstühle) angeboten (Fragestellung „In welchem Semesterrhythmus werden diese Veranstaltungen angeboten?“). Tabelle 7: Adressatenkreise von Lehrveranstaltungen zum Data Mining „Sind diese Veranstaltungen an Ihrem Lehrstuhl für alle Studenten Ihrer Fakultät belegbar oder handelt es sich um Spezialveranstaltungen?“ Häufigkeit Prozent Schwerpunktintern 3 13,6 Fakultätsintern 6 27,3 Fakultätsübergreifend 13 59,1 22 100,0 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 13 Nur selten werden die Data Mining-Veranstaltungen als Spezialveranstaltungen einem begrenzten Kreis von Studierenden zugänglich gemacht. Mehr als vier Fünftel der befragten Lehrstühle bieten die Lehrveranstaltungen entweder innerhalb der eigenen Fakultät oder sogar fakultätsübergreifend an. Dies weist darauf hin, dass das Data Mining als für einen breiten Hörerkreis relevant betrachtet wird. Ähnlich wie im Bereich der Forschung sollten die Befragten angeben, welche Data Mining-Methoden und welche Software-Tools im Rahmen der Lehre behandelt bzw. eingesetzt werden. Die Ergebnisse werden ausführlich in Kapitel 3.2.3 behandelt. Hervorzuheben ist, dass von den 22 befragten Lehrstühlen insgesamt 90 Methoden genannt wurden (Mehrfachnennungen möglich). Dies entspricht vier bis fünf unterrichteten Methoden je Lehrstuhl. Typische Methoden eines BWL-Lehrstuhls sind beispielsweise die Assoziationsanalyse, Entscheidungsbäume, die Clusteranalyse und neuronale Netze. Bezüglich der eingesetzten Software-Produkte konnte festgestellt werden, dass in der Lehre die Rolle kommerzieller Produkte deutlich größer ist als in der Forschung (siehe zu den weiteren Ergebnissen Kapitel 3.2.3). Der Einsatz von Software-Produkten in der Lehre setzt die Verwendung geeigneter Beispiele bzw. Datensätze voraus. Daher sollten die Befragten angeben, welcher Art die für Lehrzwecke verwendeten Daten sind (siehe Tabelle 8). Während zwei Lehrstühle keinerlei Beispiele benutzen, da keine Software eingesetzt wird, kommen bei 20 Lehrstühlen mehr oder weniger große Datensätze bzw. Zahlenbeispiele zum Einsatz. Bei mehr als der Hälfte der Lehrstühle werden Datensätze mit mehreren Tausend Beobachtungen bearbeitet. Sechs Lehrstühle setzen Datensätze mit immerhin bis zu tausend Beobachtungen ein und zwei Lehrstühle beschränken sich auf die Verwendung von Zahlenbeispielen. Als Gründe für die Verwendung von Zahlenbeispielen bzw. die Beschränkung auf kleine Datensätze wurden in vier Fällen zeitliche Restriktionen und in zwei Fällen ein erwarteter geringer Nutzen angeführt. In zwei Fällen befand sich die Verwendung von konkreten, größeren Datensätzen in der Planung. Tabelle 8: Verwendung von Datensätzen in der Lehre „In welchem Umfang wird bei Ihnen eine Bearbeitung konkreter Datensätze im Unterricht durchgeführt?“ Häufigkeit Prozent Keine Beispiele 2 9,1 Zahlenbeispiele 2 9,1 Kleine Datensätze 6 27,3 Große Datensätze 12 54,5 22 100,0 14 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 3.2.3 Kombinierte Betrachtungen Im Folgenden wird genauer auf den Einsatz von Methoden und Software-Produkten eingegangen, wobei eine kombinierte Betrachtung von Forschung und Lehre erfolgt. Bei den Methoden gibt es sowohl in der Forschung als auch in der Lehre eindeutige Favoriten (Bild 3). Offensichtlich kommt Clusteranalyseverfahren, Ansätzen der Assoziationsanalyse, Entscheidungsbäumen und Neuronalen Netzen eine zentrale Bedeutung zu. Interessanterweise hat die Diskriminanzanalyse bei acht Lehrstühlen einen festen Platz in der Lehre, spielt aber keine Rolle im Rahmen der Forschung. In Bezug auf die Rolle der Data Mining-Methoden in der Forschung wurde bei der Befragung nicht hinterfragt, welchen Anteil dabei die (Weiter-)Entwicklung von Methoden und welchen Anteil die Anwendung bzw. der Vergleich von Methoden ausmacht. Für weitere Untersuchungen ergibt sich daraus beispielsweise die Frage, bei welchen Methoden große (Weiter-)Entwicklungspotenziale gesehen werden. 22 20 18 16 14 12 Forschung 10 Lehre 8 6 4 2 So ns tig es Cl us ter As an so aly zia se tio En ns a tsc na he lys idu e ng sb äu Ne m e ur on ale Ne tze Re ge Re lba gr sie es sio rte n Ve Di rfa sk h re rim n ina Ba nz ye an s-N aly etz se Ev e/ol. V /G er fah en et. re n Alg Ne ori uo thm -F en uz zy -M Vi eth su od ali en sie ru ng sm eth . 0 Bild 3: Data Mining-Methoden in Forschung und Lehre Wie Bild 4 entnommen werden kann, ergibt sich bezüglich des Software-Einsatzes im Gegensatz zum Methodeneinsatz ein etwas ausgeglicheneres Bild. Während in der Forschung auffällig häufig eigene Software-Entwicklungen zum Einsatz kommen, dominieren in Lehre und Forschung der SAS Enterprise Miner, der IBM Intelligent Miner, S-PLUS und SPSS Clementine. Bemerkenswert ist zudem der relativ häufige Einsatz der Open SourceSoftware WEKA für Forschungszwecke. 15 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 10 8 6 Forschung Lehre 4 2 W Eig ek a en eS oft wa re ke ine So ftw are Plu s S R M atl ab Cl em en tin En e ter pr ise M ine Int r ell ige nt M ine r Ca rt 0 Bild 4: Software-Einsatz in Forschung und Lehre Vier Lehrstühle setzen in der Lehre keine Software ein. Als Gründe gaben zwei Lehrstühle in einer zusätzlichen offenen Frage an, dass der Einsatz geplant sei. Ein Lehrstuhl hält die Nutzung für zu zeitaufwändig, und ein weiterer gab als Gründe hohen Zeitaufwand und hohe Kosten an. Ein Lehrstuhl nutzt keine Software in der Forschung und gab als Grund an, dass es keine passende Software für spezielle Textanwendungen gäbe. Dass die meisten Lehrstühle im Rahmen der Lehre Software-Produkte einsetzen, deutet auf eine überwiegend anwendungsorientierte Ausbildung hin. Dies bestätigen auch die Angaben zu der Frage, ob im Rahmen der Lehre größere Datensätze bearbeitet werden (siehe Kapitel 3.2.2). Aus der Vielzahl der existierenden Methoden im Data Mining bzw. in der Datenanalyse wird in Zukunft einigen eine zunehmende oder abnehmende Rolle zukommen. Auf die entsprechende Frage, welche Methoden in Zukunft an Bedeutung gewinnen oder verlieren werden, wurde allen voran Neuronalen Netzen (fünf Mal), außerdem der Assoziationsanalyse und den Entscheidungsbäumen (je drei Mal) sowie Visualisierungsmethoden (zwei mal) eine steigende Bedeutung bescheinigt. Als Gründe wurden unter anderem Veränderungen hinsichtlich Datenqualität und Rechnerleistung sowie Neu- und Weiterentwicklungen von Methoden genannt. Eine abnehmende Bedeutung wurde lediglich bei der Diskriminanzanalyse gesehen. Begründet wurde dies unter anderem damit, dass die „klassische“ Diskriminanzanalyse durch neuere und bezüglich der Anwendung und Interpretation einfachere Verfahren ersetzt werden wird. Im Rahmen einer offenen Frage wurden die Befragungsteilnehmer gebeten, interessante bzw. künftige Anwendungsgebiete des Data Mining zu nennen. Eine Übersicht über die Antworten enthält Tabelle 9. Neben den auch in der Literatur häufig genannten Anwendungen fiel bei den Antworten auf, dass mehrfach die Auswertung von Bilddaten genannt wurde. 16 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Tabelle 9: Anwendungsgebiete des Data Mining Fachrichtung Anwendungsgebiet Astronomie Satellitenaufnahmen Biologie Biotechnologie, Proteinanalyse, Genomanalyse/DNA Wirtschaftswissenschaften Scannerdatenanalyse, Frühwarnsysteme, Prognostik, Marketinganalysen, Kundenbewertung, Qualitätssicherung, Finanzdatenanalyse, E-Commerce Medizin Diagnostik, Auswertung medizinischer Bilder Chemie Analyse chemischer Reaktionsdaten Informatik Softwareentwicklung, Bild-/Personenerkennung, Webdatenanalyse Übergreifende Anwendungen Dokumentenrecherche, Auswertung von Experimenten, Visualisierung 3.3 Data Mining in der Unternehmenspraxis Zur Beantwortung der eingangs gestellten Frage zur Rolle des Data Mining in der Unternehmenspraxis sollten die Auskunftspersonen Angaben zu eigenen Praxiserfahrungen machen, die Praxisrelevanz des Data Mining beurteilen und zu einigen Aussagen Stellung nehmen. 3.3.1 Praxisorientierung der Befragten Zunächst wurden die Interviewteilnehmer gefragt, ob und wie häufig sie mit Unternehmen zusammenarbeiten (Tabelle 10). Da zu vermuten war, dass die Personen die Frage nach der konkreten Anzahl durchgeführter Projekte nur recht ungenau oder überhaupt nicht beantworten, wurde eine unscharfe Formulierung gewählt. Auch wenn dadurch die genaue Anzahl durchgeführter Praxisprojekte offen bleibt, wird deutlich, dass die befragten Personen nahezu durchweg über Praxiserfahrungen verfügen. Daher kann davon ausgegangen werden, dass die Wissenschaftler in der Lage sind, die Rolle des Data Mining in der Unternehmenspraxis zu beurteilen. Tabelle 10: Projekte in Zusammenarbeit mit der Praxis Bearbeiten Sie Projekte in Zusammenarbeit mit der Praxis? Anzahl sehr selten 3 gelegentlich 5 regelmäßig 10 häufig 2 ständig 1 keine Angabe 1 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 3.3.2 17 Bedeutung des Data Mining in der Unternehmenspraxis Die Befragten bescheinigen dem Data Mining überwiegend eine mittlere Bedeutung in der Unternehmenspraxis (Tabelle 11). Mögliche Ursachen für diese Einschätzung sind die mangelnde Verfügbarkeit geeigneter, strukturierter Daten, die falsche Einschätzung der Anforderungen und Potenziale des Data Mining und Enttäuschungen über erzielte Resultate (siehe dazu auch die Begründungen zur Einschätzung der künftigen Bedeutung des Data Mining in Kapitel 4). Zudem ist davon auszugehen, dass das Data Mining nur für spezielle Aufgabenstellungen und -bereiche der Unternehmenspraxis besonders geeignet ist. Auch dies dürfte ein Grund für die geschätzte mittlere Bedeutung in der Unternehmenspraxis sein. Die vorliegende Befragung beantwortet jedoch nicht abschließend, für welche Praxisanwendungen das Data Mining als besonders bedeutend angesehen wird. Diesbezüglich müsste eine gezielte Befragung durchgeführt werden bzw. kann auf die eingangs erwähnten Untersuchungen von [Hilb02; HiMW02a-c; Küpp99] zurückgegriffen werden. Tabelle 11: Rolle des Data Mining in der Praxis Die Rolle des Data Mining in der Praxis ist... Anzahl kaum wahrnehmbar 0 eher untergeordnet 4 mittel 14 bedeutend 4 sehr bedeutend 0 10 8 ist nur eine Modeerscheinung 6 es wird mehr versprochen als gehalten werden kann 4 kann mehr als Praktiker denken 2 0 Absolut nicht Eigentlicht Teils, teils nicht Im Absolut ja Großen und Ganzen ja Bild 5: Aussagen zur Rolle des Data Mining in der Unternehmenspraxis Zusätzlich sollten die Auskunftspersonen angeben, inwieweit sie ausgewählten Aussagen zur Praxistauglichkeit des Data Mining zustimmen (Bild 5). Auffällig ist, dass immerhin 18 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland acht Personen sowohl der Aussage, dass beim Data Mining mehr versprochen wird als gehalten werden kann, als auch der Aussage, dass Data Mining mehr kann als Praktiker denken, zustimmen (gekennzeichneter Bereich in Tabelle 12). Die Zustimmung zu beiden Aussagen stellt jedoch keinen Widerspruch dar, sondern legt eher die Vermutung nahe, dass zumindest aus Sicht dieser Personen bislang über das Data Mining ein falsches Bild vermittelt wurde. Diese Vermutung wird dadurch relativiert, dass sich die Wissenschaftler überwiegend nicht der Aussage anschlossen, dass es sich mit dem Data Mining um eine Modeerscheinung handelt (Bild 5). Dies deckt sich mit der überwiegend getroffenen Einschätzung, dass die Bedeutung des Data Mining entweder zunehmen oder zumindest gleich bleiben wird (Bild 6). Tabelle 12: Ausgewählte Aussagen zur Rolle des Data Mining in der Unternehmenspraxis Data Mining kann mehr als die meisten Praktiker denken. Absolut Eigentlich Teils, teils Im Großen Absolut ja nicht nicht und Ganzen ja Es wird oft Absolut nicht mehr versprochen als Eigentlich nicht gehalten werden kann. Teils, teils 1 1 Im Großen und Ganzen ja 2 Absolut ja 2 Gesamt 0 4 2 2 2 6 2 3 2 9 1 2 5 6 7 22 5 10 8 6 4 2 0 Leicht abnehmen Gleich bleiben 1 1 Die Bedeutung des Data Mining in der Praxis wird ... Stark zurückgehen Gesamt Leicht zunehmen Stark wachsen Bild 6: Künftige Bedeutung des Data Mining in der Unternehmenspraxis 19 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 3.4 Nutzen und Bedeutung des Web Mining und des Text Mining Sowohl in der Forschung als auch in der Unternehmenspraxis wird gegenwärtig der Nutzen des Web Mining und des Text Mining untersucht und diskutiert. Daher wurden die Wissenschaftler zu ihrer Meinung zur aktuellen und zur künftigen Bedeutung dieser Spezialisierungen bzw. Erweiterungen des Data Mining befragt. Auffällig ist, dass sieben Personen die Frage, ob sie sich bereits einmal mit dem Text Mining beschäftigt haben, verneinten (siehe Bild 7). Mit dem Web Mining haben sich dagegen zwei Personen noch nicht beschäftigt. Bei der Beurteilung des Nutzens des Web Mining fällt auf, dass immerhin acht Personen dem Web Mining eindeutig einen Nutzen bescheinigen, weitere sechs Personen sehen nur teilweise einen Nutzen. Demgegenüber schätzen sechs Personen den Nutzen als gering bis sehr gering ein. Bei der Beurteilung des Text Mining scheint – unabhängig von der großen Anzahl an Personen, die kein Urteil abgeben konnten – Unsicherheit zu herrschen, da zwar sieben Personen teilweise einen Nutzen darin sehen, sich aber jeweils vier Personen für einen eher geringen Nutzen bzw. für einen eher positiven Nutzen aussprechen (Bild 7). 10 8 6 Web Mining Text Mining 4 2 0 Sehr geringer Eher geringer Teilweise von Durchaus Nutzen Nutzen Nutzen von Nutzen Von großem Nutzen noch nicht damit beschäftigt Bild 7: Nutzen des Web Mining und des Text Mining In Bezug auf die Bewertung der künftigen Bedeutung des Web Mining und des Text Mining ist festzustellen, dass immerhin elf Befragte einen Nutzenzuwachs für das Web Mining sehen, während sieben Personen eine gleich bleibende Bedeutung erwarten (Bild 8). Beim Text Mining sprechen sich ebenfalls die meisten Befragten für eine zunehmende bzw. gleich bleibende Bedeutung aus. Vermutlich ist aus Sicht der Befragten die Forschung und Entwicklung beim Web Mining im Gegensatz zum Text Mining weiter fortgeschritten, sodass sich die Mehrheit eine Meinung zur aktuellen und künftigen Bedeutung des Web Mining gebildet hat, während ein Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 20 großer Teil noch keine Meinung zum Text Mining äußern konnte. Nach Einschätzung der Befragten wird die Bedeutung des Web Mining und des Text Mining in Zukunft deutlich bzw. leicht zunehmen. Dies legt die Vermutung nahe, dass die Befragten zurzeit noch nicht endgültig vom Nutzen des Web Mining und des Text Mining überzeugt sind, aber von der Weiterentwicklung der Methoden und von erfolgreichen Anwendungen ausgehen, sodass der Nutzen bzw. die Bedeutung wachsen wird. 10 8 Bedeutung des Web Mining wird ... 6 4 Bedeutung des Text Mining wird ... 2 feh len d St ark zu rüc kg eh en Le ich ta bn eh m en Gl eic hb lei be Le n ich tz un eh m en no St ch ark nic wa ht ch da se m it b n es ch äft igt 0 Bild 8: Künftige Bedeutung des Web Mining und des Text Mining 4 Fazit und Ausblick Die vorgestellten Ergebnisse zeigen, dass sich das Data Mining in Forschung und Lehre sowie in der Unternehmenspraxis etabliert (hat). In Anbetracht zahlreicher Forschungsprojekte, Publikationen und Softwaretools, die in den 90er Jahren im Bereich des Data Mining zu verzeichnen waren, entstand zunächst der Eindruck einer „Anfangseuphorie“. Einschlägigen Publikationen (z. B. [BeLi00]) zufolge eröffneten sich völlig neue Möglichkeiten, um beispielsweise aus Kunden- und Zugriffsdaten im Web Einsichten in Verhaltensweisen und Wirkungszusammenhänge zu erhalten. Allerdings lassen sich auch mit Hilfe von Data Mining-Ansätzen nicht ohne Weiteres automatisch vollkommen neue Erkenntnisse gewinnen [Deck03, 76ff.], sodass sich mittlerweile eine Zurückhaltung bei den Versprechungen und Erwartungen beobachten lässt. Dies bestätigen die vorliegenden Befragungsergebnisse, insbesondere die Einschätzungen zum Web Mining und zum Text Mining. Auch die Aussagen der befragten Lehrstühle in Bezug auf die künftige Bedeutung des Data Mining insgesamt und in Bezug auf Forschung und Lehre sind eher zurückhaltend (siehe Bild 9). In einer offenen Frage wurden zusätzlich die Gründe für die jeweiligen Urteile abgefragt, Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 21 die Tabelle 13 entnommen werden können. Bemerkenswert ist, dass trotz der Vielfalt der Argumente nahezu einhellig die Meinung herrscht, dass die Bedeutung des Data Mining tendenziell zunehmen oder zumindest gleich bleiben wird. 22 20 18 16 14 insgesamt 12 10 in Forschung und Lehre 8 6 4 2 Bild 9: Künftige Bedeutung des Data Mining feh len d St ark zu rüc kg eh en Le ich ta bn eh m en G lei ch ble ibe n Le ich tz un eh m en St ark wa ch se n 0 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 22 Tabelle 13: Begründungen für die Einschätzung der künftigen Bedeutung des Data Mining Die Bedeutung des Data Mining Begründung insgesamt wird ... stark zurückgehen Es fehlt ein gemeinsames Verständnis, was Data Mining eigentlich ist, deshalb bleibt Data Mining ein typischer Hype-Begriff. gleich bleiben Wer es einsetzt, wird die Grenzen erkennen, wer noch nicht, wird sich viel versprechen. Die Wirkung hält sich die Waage. gleich bleiben Data Mining kehrt wieder zurück zur Statistik. gleich bleiben Die Euphorie sinkt, Arbeit an Etablierung in Softwaretools und Realisierung. gleich bleiben Nichts wirklich neues, Verfahren sind mathematisch lange bekannt. leicht zunehmen Hängt von der Anwendungsentwicklung ab, im Kontext wichtig. leicht zunehmen Datenmengen steigen. leicht zunehmen Versprechungen können durch verfügbare Produkte nicht gehalten werden, automatische Analyse nicht machbar, mehr Handarbeit, als die meisten Anwender glauben. leicht zunehmen noch kein Flächendeckender Einsatz, Daten nicht in guter Form, mit zunehmender Eignung steigt Bedeutung sprunghaft an. leicht zunehmen Menge der erfassten Daten steigt immer weiter an. leicht zunehmen Expertenwissen nötig, Datenmengen, -wissen steigt. leicht zunehmen Datenmengen steigen, Handhabung der Software wird besser. leicht zunehmen Datenverarbeitungsentwicklung, leistungsfähige Algorithmen, gute Interpretierbarkeit. leicht zunehmen Bedeutung kommt in Wellen, Konkretisierung in Spezialgebieten, Verfahrensforschung. leicht zunehmen Optimierungszwang für Unternehmen aus der Kostensituation. stark wachsen In vielen Anwendungsgebieten, insbesondere in der Wirtschaft, hat man das Potenzial noch nicht erkannt. stark wachsen Entwicklung des Internets (Suchmaschinen), der Fernerkundung (z. B. Kontrollen durch Satelliten), Automatisierung in der Medizin, Prognosen in der Wirtschaft. stark wachsen Datenmengen steigen, daher Bedarf nach effizienten Analyseinstrumenten größer. stark wachsen Bessere Definition sorgt für Gesamtansicht, bessere Datenerfassung, Ausbau der Thematik. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 23 Literatur [Adam01] Adamo, J.-M.: Data Mining for Association Rules and Sequential Patterns. Berlin 2001. [AdZa96] Adriaans, P.; Zantinge, D.: Data Mining. Harlow 1996. [AlSk99] Albers, S.; Skiera, B.: Regressionsanalyse. In : Hermann, A.; Homburg, C. (Hrsg.): Marktforschung: Methoden – Anwendungen – Praxisbeispiele. Wiesbaden 1999, S. 203-236. [Bach02] Bacher, J.: Clusteranalyse: anwendungsorientierte Einführung. 2. Aufl. , München 2002. [BEPW00] Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R.: Multivariate Analysemethoden – Eine anwendungsorientierte Einführung. 9. Auflage, Berlin 2000. [BeWe99] Bensberg, F.; Weiß, T.: Web Log Mining als Marktforschungsinstrument für das World Wide Web. In: Wirtschaftsinformatik 41 (1999) 5, S. 426-432. [BeLi97] Berry, M. J. A.; Linoff, G.: Data Mining Techniques – For Marketing, Sales, and Customer Support. New York et al. 1997. [BeLi00] Berry, M. J. A.; Linoff, G. S.: Mastering Data Mining. New York et al. 2000. [BeST00] Berson, A.; Smith, S.; Thearling, K.: Building Data Mining Applications for CRM. New York et al. 2000. [BeHa99] Berthold, M.; Hand, D. J. (eds.): Intelligent Data Analysis – An Introduction. Berlin et al. 1999. [Boll96] Bollinger, T.: Assoziationsregeln – Analyse eines Data Mining Verfahrens. In: Zeitschrift Informatik Spektrum, 19 (1996), S. 257-261. [BoAr01] Bonne, T.; Arminger, G.: Diskriminanzanalyse. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K. D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 193-239. [BFOS84] Breiman, L.; Friedman, J. H.; Olshen, R. A.; Stone, C. J.: Classification and Regression Trees. Belmont, CA, 1984. [CHSV97] Cabena, P.; Hadjnian, P.; Stadler, R.; Verhees, J.: Discovering Data Mining – From Concept to Implementation. Upper Saddle River 1997. [ChHP00] Chatterjee, S.; Hadi, A. S.; Price, B.: Regression Analysis by Example. 3rd Edition, New York 2000. [Deck03] Decker, R.: Data Mining und Datenexploration in der Betriebswirtschaft. In: Schwaiger, M.; Harhoff, D. (Hrsg.): Empirie und Betriebswirtschaft. Stuttgart 2003, S. 47-82. [DöGS01] Dörre, J.; Gerstl, P.; Seiffert, R.: Text Mining. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K. D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 465-488. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 24 [EsSa00] Ester, M.; Sander, J.: Knowledge Discovery in Databases – Techniken und Anwendungen. Berlin et al. 2000. [FiSV01] Fink, A.; Schneidereit, G.; Voß, S.: Grundlagen der Wirtschaftsinformatik. Heidelberg 2001. [FPSU96] Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. (eds.): Advances in Knowledge Discovery and Data Mining. Menlo Park 1996. [HaKa01] Han, J.; Kamber, M.: Data Mining – Concepts and Techniques. San Francisco et al. 2001. [Hand02] Hand, D. J.: Modern Data Analysis: A Clash of Paradigms. In: Gaul, W.; Ritter, G. (eds.): Classification, Automation, and New Media. Berlin et al. 2002, S. 75-85. [HaTF01] Hastie, T.; Tibshirani, R.; Friedman, J.: The elements of statistical learning: data mining, inference, and prediction. New York et al. 2001. [Haus03] Hauschildt, J.: Zum Stellenwert der empirischen betriebswirtschaftlichen Forschung. In: Schwaiger, M.; Harhoff, D. (Hrsg.): Empirie und Betriebswirtschaft. Stuttgart 2003, S. 3-24. [HeHi01] Hettich, S.; Hippner, H.: Assoziationsanalyse. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 427-463. [Hilb02] Hilbert, A.: Data Mining Projekte im unternehmerischen Umfeld: Eine empirische Untersuchung deutscher Unternehmen. Arbeitspapiere zur mathematischen Wirtschaftsforschung, Heft 183/2002, Universität Augsburg. [HiMW02a] Hippner, H.; Merzenich, M.; Wilde, K. D.: Data Mining im Marketing: Anwendungspraxis in deutschen Unternehmen. In: Hippner, H.; Merzenich, M.; Wilde, K. D. (Hrsg.): Markstudie Data Mining. Düsseldorf 2002, S. 127-143. [HiMW02b] Hippner, H.; Merzenich, M.; Wilde, K. D.: Web Mining in der Praxis. in: Hippner, H.; Merzenich, M.; Wilde, K. D. (Hrsg.): Markstudie Web Mining. Düsseldorf 2002, S. 81-93. [HiMW02c] Hippner, H.; Merzenich, M.; Wilde, K. D.: Web Mining in der Praxis – eine empirische Untersuchung. In: Hippner, H.; Merzenich, M.; Wilde, K. D. (Hrsg.): Handbuch Web Mining im Marketing. Wiesbaden 2002, S. 311-336. [ItST01] Ittner, A.; Sieber, H.; Trautzsch, S.: Nichtlineare Entscheidungsbäume zur Optimierung von Direktmailingaktionen. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 707-723. [Kraf99] Krafft, M.: Logistische Regression. In: Hermann, A.; Homburg, C. (Hrsg.): Marktforschung: Methoden – Anwendungen – Praxisbeispiele. Wiesbaden 1999, S. 237-264. [Küpp99] Küppers, B.: Data Mining in der Praxis. Frankfurt u. a. 1999. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 25 [Küst01] Küsters, U.: Data Mining Methoden: Einordnung und Überblick. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 95-130. [MeBe00] Meier, M.; Beckh, M.: Text Mining. In: Wirtschaftsinformatik 42 (2000) 2, S. 165-167. [MeGr97] Meta Group: Data Mining: Trends, Technology, and Implementation Imperatives. Meta Group Study 1997, http://www.hpcwire.com/dsstar/97/1104/100028.html, Abruf am: 24.07.2003. [PHMZ00] Pei, J.; Han, J.; Mortazavi-Asl, B.; Zhu, H.: Mining Access Patterns Efficiently from Web Logs. In: Proc. Pacific-Asia Conference on Knowledge Discovery and Data Mining 2000. [PoSi01] Poddig, T.; Sidorovitch, I.: Künstliche Neuronale Netze: Überblick, Einsatzmöglichkeiten und Anwendungsprobleme. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K. D. (Hrsg.): Handbuch Data Mining im Marketing. Wiesbaden 2001, S. 363-402. [Säub00] Säuberlich, F.: KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung. Frankfurt u. a. 2000. [SäHu03] Säuberlich, F.; Huber, K.-P.: A Framework for Web Usage Mining Anonymous Logfile Data. In: Schwaiger, M.; Opitz, O. (eds.): Exploratory Data Analysis in Empirical Research. Berlin et al. 2003, S. 309-318. [SrAg96] Srikant, R.; Agrawal, R.: Mining Sequential Patterns: Generalizations and Performance Improvements. In: Proc. of the Fifth Internationall Conference on Extending Database Technology (EDBT), Avignon, France 1996. [StHa02] Stahlknecht, P.; Hasenkamp, U.: Einführung in die Wirtschaftsinformatik. Berlin 2000. [VoGu01] Voß, S.; Gutenschwager, K.: Informationsmanagement. Berlin et al. 2001. [WiFr00] Witten, I. H.; Frank, E.: Data Mining – Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco 2000. [Zaki01] Zaki, M. J.: SPADE: An Efficient Algorithm for Mining Frequent Sequences. In: Machine Learning, 42 (2001) 1/2, S. 31-60. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Anhang I: Adressen der Softwareanbieter (letzer Abruf am 26.08.2003) - IBM Intelligent Miner http://www-5.ibm.com/de/entwicklung/produkte/im4d.html - SAS Enterprise Miner http://www.sas.com/technologies/analytics/datamining/miner/ - SPSS http://www.spss.com/de/module/base.htm - SPSS Clementine http://www.spss.com/de/module/clement.htm - SPSS Answer Tree http://www.spss.com/de/module/answer.htm - S-Plus http://www.s-plus.com/products/splus/default.asp - S-Plus Insightful Miner http://www.s-plus.com/products/iminer/default.asp - Prudsys Discoverer http://www.prudsys.de/Produkte/Softwarepakete/Discoverer/ - WEKA http://www.cs.waikato.ac.nz/~ml/weka/ 26 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 27 Anhang II: Ankündigungsschreiben bzw. -E-Mail Sehr geehrte/-r /Frau/Herr Professor .................., ich schreibe zurzeit an meiner Diplomarbeit zum Thema „Data Mining in Forschung und Lehre im deutschsprachigen Raum1“ am Lehrstuhl für empirische Forschung und quantitative Unternehmensplanung (Professor Manfred Schwaiger) an der LMU München unter der Betreuung von Dr. Matthias Meyer. In diesem Zusammenhang möchte ich mit ausgewiesenen Experten dieses Themengebietes ein Telefoninterview durchführen. Mit Hilfe dieser Studie sollen Aussagen zur zukünftigen Bedeutung des Data Mining gewonnen werden. Hierbei bitte ich Sie um Ihre Unterstützung bei der Durchführung dieses Projektes. Die Fragen, die gestellt werden sollen, beziehen sich zum einen auf die Gestaltung der Lehre, zum anderen auf die gegenwärtige Forschung, sowie auf Ihre ganz persönliche Meinung nach der zukünftigen Entwicklung des Data Mining. Selbstverständlich wird Ihre Anonymität gewahrt. Das Telefoninterview wird ca. 20 Minuten in Anspruch nehmen. Für Ihre Unterstützung wäre ich sehr dankbar. Ich werde versuchen, Sie in den nächsten Tagen telefonisch zu erreichen. Sollten Sie selbst verhindert sein oder aus anderen Gründen an der Befragung nicht teilnehmen können, wäre ich Ihnen dankbar, wenn Sie mir einen geeigneten Ansprechpartner nennen könnten. Terminwünsche oder inhaltliche Fragen nehme ich jederzeit gerne entgegen ([email protected]). Bei Interesse lasse ich Ihnen die Ergebnisse der Studie gerne zukommen. Mit freundlichen Grüßen Max Lüling 1 Anmerkung: Das Thema wurde im Laufe der Arbeit in „Data Mining in Forschung und Lehre in Deutschland“ geändert. 28 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Anhang III: Interviewleitfaden Teil 1: Lehre Zunächst möchte ich Ihnen einige Fragen zur Lehre im Bereich Data Mining an Ihrem Lehrstuhl stellen. 1. Wurde an Ihrem Lehrstuhl in jüngerer Vergangenheit wenigstens eine Lehrveranstaltung mit Data Mining bezogenem Inhalt angeboten? ja nein Falls ja => 2., falls nein => Ende Teil 1, weiter mit Teil 2A 2. Wann wurde an Ihrem Lehrstuhl die erste Data Mining bezogene Lehrveranstaltung angeboten? ................................................................................................................................. 3. Welcher Art sind die Data Mining bezogenen Veranstaltungen Ihres Lehrstuhls? Data Mining-Vorlesung Data Mining verwandte Vorlesung Übungsveranstaltung sonstige, nämlich .......................................... 4. Welche Methoden behandeln Sie in der Lehre schwerpunktmäßig? Entscheidungsbäume Assoziationsanalyse Regression Clusteranalyse neuronale Netze Diskriminanzanalyse Regelbasierte Verfahren ................................ ................................... 5. Welchen Stellenwert räumen Sie der Data Mining-Lehre an Ihrem Lehrstuhl ein? sehr gering eher gering mittel eher bedeutend sehr bedeutend 6. Wie viele Semesterwochenstunden umfassen alle Data Mining bezogenen Veranstaltungen Ihres Lehrstuhls zusammen? ................................................................................................................................. 7. In welchem Semesterrhythmus werden diese Veranstaltungen angeboten? jedes Semester alle zwei Semester alle drei Semester sonstiges, nämlich ........................................................................................... 29 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 8. Sind diese Veranstaltungen an Ihrem Lehrstuhl für alle Studenten Ihrer Fakultät belegbar oder handelt es sich um Spezialveranstaltungen? für Studenten aller Fakultäten nur für Fakultätsangehörige nur für Fakultätsangehörige innerhalb eines bestimmten Schwerpunktes ............................................ 9. Wird bei Ihnen im Unterricht mit Software gearbeitet? ja nein Falls ja => 10., falls nein => 11. 10. Welche Software verwenden Sie in der Lehre? Clementine (SPSS) Enterprise Miner (SAS) Darwin (Th.Mach.) Intelligent Miner (IBM) S Plus Cart Insightful Miner Dicoverer (PrudSys) ................................ Weiter mit 12. 11. Warum verwenden Sie keine Software im Unterricht? zu geringer Leistungsumfang zu hohe Kosten zu zeitaufwendig sonstiges, nämlich ............................................................................................ 12. In welchem Umfang wird bei Ihnen eine Bearbeitung konkreter Datensätze im Unterricht durchgeführt? gar nicht Zahlenbeispiele zum Verständnis kleinere Datensätze als Beispiel Datensätze mehrerer Tausend Daten zur Bearbeitung Falls Letzteres => Ende Teil 1 und weiter mit Teil 2A, sonst => 13. 13. Warum führen Sie keine Bearbeitung größerer Datensätze im Unterricht durch? ................................................................................................................................. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 30 Teil 2: Forschung Im zweiten Teil will ich Ihnen einige Fragen in Bezug auf die Forschung im Bereich Data Mining, im besonderen an Ihrem Lehrstuhl, sowie über Ihre ganz persönliche Meinung über eine mögliche zukünftige Rolle des Data Mining stellen. A: Aktuell Zuerst werde ich Sie über die momentane Rolle der Arbeit im Forschungsgebiet Data Mining, insbesondere an Ihrem Lehrstuhl, fragen. 1. Beschäftigt sich Ihr Lehrstuhl auch über die Lehre hinaus mit dem Themenkomplex Data Mining? ja nein Falls ja => 2., falls nein => Ende Teil 2A, weiter mit 2B 2. Wurden zu diesem Thema in den letzten zwei Jahren Diplomarbeiten oder sogar Dissertationen an Ihrem Lehrstuhl durchgeführt? ja nein Falls ja => 3., falls nein => 4. 3. Wie viele Diplomarbeiten und wie viele Dissertationen wurden in den letzten zwei Jahren an Ihrem Lehrstuhl durchgeführt? .... Diplomarbeiten .... Dissertationen 4. Werden an Ihrem Lehrstuhl Publikationen zu diesem Thema erstellt? Gar nicht selten regelmäßig häufig durchgehend 5. Wie beurteilen Sie die Bedeutung der Data Mining-Forschung an Ihrem Lehrstuhl? sehr gering eher gering mittel eher bedeutend sehr bedeutend 6. Wie beurteilen Sie die Bedeutung der Data Mining-Forschung in der gesamten Forschungslandschaft? sehr gering eher gering mittel eher bedeutend sehr bedeutend 7. Verwenden Sie Software in Ihrer Forschungsarbeit im Data Mining? ja nein Falls ja => 8., falls nein => 9. 31 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 8. Welche Software verwenden Sie? Clementine (SPSS) Enterprise Miner (SAS) Intelligent Miner (IBM) S Plus Insightful Miner Weiter mit 10. Dicoverer (PrudSys) Darwin Cart ................................ 9. Warum verwenden Sie keine Software in der Data Mining-Forschung? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. 10. Welchen Methoden des Data Mining sprechen Sie eine besonders wichtige Rolle in der Forschung Ihres Lehrstuhl zu? Entscheidungsbäume Assoziationsanalyse Regression Clusteranalyse neuronale Netze Diskriminanzanalyse Regelbasierte Verfahren ................................. ................................. 11. Welche Anwendungsbereiche spielen Ihrer Meinung nach in der Forschung eine besonders wichtige Rolle? ................................................................................................................................. ................................................................................................................................. 12. Bearbeiten Sie Projekte in Zusammenarbeit mit der Praxis? sehr selten gelegentlich regelmäßig häufig ständig Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 32 Teil 2: Forschung B: Zukünftig Dann würde ich gerne Ihre ganz persönliche Meinung über eine mögliche zukünftige Rolle des Data Mining erfragen. 1. Einerseits wird dem Data Mining in der Literatur vielfach ein Bedeutungszuwachs für die Zukunft prognostiziert, andererseits wird gesagt, Data Mining wäre in seinen Möglichkeiten schon jetzt überschätzt. Wie ist Ihre Meinung dazu? Die Bedeutung des Data Mining wird insgesamt... stark zurückgehen leicht abnehmen leicht zunehmen stark wachsen in etwa gleich bleiben 2. Aus welchem Grund sind Sie dieser Auffassung? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. 3. Zwar wird bereits an vielen Universitäten im Themenkomplex Data Mining gelehrt und geforscht, dennoch stellen diese zahlenmäßig bei weitem den geringeren Teil aller Universitäten. Was denken Sie über die zukünftige Entwicklung der Bedeutung des Data Mining an den Lehr- und Forschungseinrichtungen? Die Bedeutung des Data Mining an den Lehr und Forschungseinrichtungen wird... stark zurückgehen leicht abnehmen leicht zunehmen stark wachsen in etwa gleich bleiben 4. Aus welchem Grund sind Sie dieser Auffassung? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 33 5. Können Sie sich Methoden des Data Mining vorstellen, denen in Zukunft eine bedeutend größere oder geringere Aufmerksamkeit zukommen wird? ja nein Falls ja => 6., falls nein => 7. 6. Welche Methoden werden Ihrer Meinung nach in Zukunft an Bedeutung gewinnen oder verlieren und aus welchem Grund? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. 7. Können Sie sich Anwendungsbereiche (beispielsweise Medizin, Biologie, Wirtschaftswissenschaften, Astronomie) vorstellen, in denen Data Mining in Zukunft eine bedeutend größere Rolle zukommt? ja nein Falls ja => 8., falls nein => Ende Teil 2 und weiter mit Teil 3 8. Welche Anwendungsbereiche könnten Sie sich vorstellen und aus welchem Grund? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. 9. Denken Sie dabei an bestimmte Fachgebiete (beispielsweise Marketing als Fachgebiet innerhalb der Wirtschaftswissenschaften, oder Pharmazie als Fachgebiet innerhalb der Medizin)? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. 34 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Teil 3: Data Mining in der Praxis, Web Mining und Text Mining Im dritten und letzten Teil möchte ich Ihre Meinung über Web Mining und Text Mining einholen, da diese Themen in der jüngeren Literatur besonders oft erwähnt werden. Außerdem würde ich gerne Ihre Meinung über die Rolle des Data Mining in der Praxis erfahren. 1. Haben Sie sich schon einmal mit Web Mining beschäftigt? ja nein Falls ja => 2., falls nein => 5. 2. Wie schätzen Sie den momentanen Nutzen des Web Mining ein? sehr geringer Nutzen eher geringer Nutzen teilweise von Nutzen durchaus von Nutzen von großem Nutzen 3. Wie ist Ihre Meinung über die zukünftige Rolle des Web Mining? Die Bedeutung des Web Mining [in der Praxis] wird... stark zurückgehen leicht abnehmen leicht zunehmen stark wachsen in etwa gleich bleiben 4. Aus welchem Grund sind Sie dieser Auffassung? ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. Durch Text Mining werden die, typischerweise unstrukturierten, Daten eines Textes analysiert, um nützliche Informationen zu extrahieren. 5. Haben Sie sich schon einmal mit Text Mining beschäftigt? ja nein Falls ja => 6., falls nein => 9. 6. Wie schätzen Sie den momentanen Nutzen des Text Mining ein? sehr geringer Nutzen eher geringer Nutzen teilweise von Nutzen durchaus von Nutzen von großem Nutzen 35 Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 7. Wie ist Ihre Meinung über die zukünftige Rolle des Text Mining? Die Bedeutung des Text Mining [in der Praxis] wird... stark zurückgehen leicht abnehmen leicht zunehmen stark wachsen in etwa gleich bleiben 8. Aus welchem Grund sind Sie dieser Auffassung? ...................................................................................................................................... ...................................................................................................................................... ...................................................................................................................................... Zum Abschluss ist noch Ihre persönliche Meinung zum Data Mining in der Praxis gefragt. 9. Wie beurteilen Sie die momentane Rolle des Data Mining in der Praxis? Die Rolle des Data Mining in der Praxis ist... kaum wahrnehmbar eher untergeordnet keine unwichtige, aber auch keine wichtige eine bedeutende eine sehr bedeutende 10. Über Data Mining in der Praxis gibt es sehr verschiedene Meinungen. Bitte äußern Sie Ihre Zustimmung oder Ablehnung zu den folgenden. + Data Mining in der Praxis ist nur eine Modeerscheinung. Mit Data Mining wird oft mehr versprochen, als gehalten werden kann. Data Mining kann mehr, als die meisten Praktiker denken. stimme voll zu / stimme im Großen und Ganzen zu / teils, teils / stimme eigentlich nicht zu / stimme absolut nicht zu 11. Was denken Sie über die zukünftige Rolle des Data Mining in der Praxis? Die Bedeutung des Data Mining in der Praxis wird... stark zurückgehen leicht abnehmen leicht zunehmen stark wachsen Ende des Interviews in etwa gleich bleiben Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland 36 Anhang IV: Liste der angefragten Lehrstühle Prof. Dr. Hans-Jürgen Appelrath, Informationssysteme, Universität Oldenburg Prof. Dr. Michael Bastian, Wirtschaftsinformatik und Operations Research, RWTH Aachen Prof. Dr. Ralph Bergmann, Daten und Wissensmanagement, Universität Hildesheim Prof. Dr. Wilfried Brauer, Theoretische Informatik u. Grundlagen der Künstlichen Intelligenz, TU München Prof. Dr. Alejandro Buchmann, Datenbanken und verteilte Systeme, TU Darmstadt Prof. Dr. Joachim Buhmann, Mustererkennung und Bildverarbeitung, Universität Bonn Prof. Dr. Peter Chamoni, Wirtschaftsinformatik und Operation Research, Universität Duisburg Prof. Dr. Reinhold Decker, Betriebswirtschaftslehre und Marketing, Universität Bielefeld Prof. Dr. Horst Degen, Statistik und Ökonometrie, Universität Düsseldorf Prof. Dr. Werner Dilger, Künstliche Intelligenz, TU Chemnitz Prof. Dr. Bernd Erichson, Marketing, Universität Magdeburg Prof. Dr. Roland Gabriel, Wirtschaftsinformatik, Universität Bochum Prof. Dr. Wolfgang Gaul, Marketing, Marktforschung und Unternehmensplanung, TU Karlsruhe Prof. Dr. Ulrich Güntzer, Datenbanken und Informationssysteme, Universität Tübingen Prof. Dr. Wolfgang Härdle, Statistik und Ökonometrie, HU Berlin Prof. Dr. Matthias Jarke, Informationssysteme, RWTH Aachen Prof. Dr. Daniel A. Keim, Datenbanken und Visualisierung, Universität Konstanz Prof. Dr. Ulrich Kockelkorn, Statistik und Wirtschaftsmathematik, TU Berlin Prof. Dr. Rudolph Kruse, Neuronale Netze und Fuzzy Systeme, Universität Magdeburg Prof. Dr. Ulrich Küsters, Statistik und quantitative Methoden der Wirtschaftswissenschaften, KU Eichstätt Prof. Dr. Egbert Lehmann, Abteilung für Intelligente Systeme, Universität Stuttgart Prof. Dr. Hans-Joachim Lenz, Produktion, Wirtschaftsinformatik und Operations Research, FU Berlin Prof. Dr. Peter Lockemann, Systeme der Informationsverwaltung, TU Karlsruhe Prof. Dr. Wolfgang Menzel, Natürlichsprachige Systeme, Universität Hamburg Prof. Dr. Katharina Morik, Künstliche Intelligenz, Universität Dortmund Prof. Dr. Werner Neubauer, Statistik und Mathematik, Universität Frankfurt Prof. Dr. Otto Opitz, Statistik und mathematische Wirtschaftstheorie, Universität Augsburg Prof. Dr. Günther Palm, Neuroinformatik, Universität Ulm Prof. Dr. Frank Puppe, Künstliche Intelligenz und angewandte Informatik, Universität Würzburg Prof. Dr. Svetlozar Rachev, Ökonometrie und Statistik, TU Karlsruhe Prof. Dr. Luc de Raedt, Maschinelles Lernen und Natürlichsprachliche Systeme, Universität Freiburg Prof. Dr. Rolf-Dieter Reiss, Statistik und Data Mining, Universität Siegen Prof. Dr. Ulrich Rendtel, Statistik und Mathematik, Universität Frankfurt Prof. Dr. Michael M. Richter, Künstliche Intelligenz: Wissensbasierte Systeme, Universität Kaiserslautern Prof. Dr. Helge Ritter, Neuroinformatik, Universität Bielefeld Prof. Dr. Johannes Ruhland, Wirtschaftsinformatik, Universität Jena Prof. Dr. Torsten Schaub, Wissensverarbeitung und Informationssysteme, Universität Potsdam Prof. Dr. Manfred Schwaiger, Empirische Forschung und Unternehmensplanung, Universität München Prof. Dr. Myra Spiliopoulou, Wirtschaftsinformatik des E-Business, Handelshochschule Leipzig Prof. Dr. Rudi Studer, Wissensmanagement, TU Karlsruhe Prof. Dr. Bernhard Thalheim, Datenbank- und Informationssysteme, BTU Cottbus Prof. Dr. Rainer Thome, Wirtschaftsinformatik, Universität Würzburg Prof. Dr. Alfred Ultsch, Neuroinformatik und Künstliche Intelligenz, Universität Marburg Prof. Dr. Antony Unwin, Rechnerorientierte Statistik und Datenanalyse, Universität Augsburg Meyer, M.; Lüling, M.: Data Mining in Forschung und Lehre in Deutschland Prof. Dr. Bernd Walter, Datenbanken und Informationssysteme, Universität Trier Prof. Dr. Gerhard Weikum, Database and Information Systems, Universität Saarbrücken Prof. Dr. Klaus D. Wilde, Wirtschaftsinformatik, KU Eichstätt Prof. Dr. Manfred Wolff, Wirtschaftsinformatik, Universität Wuppertal Prof. Dr. Stefan Wrobel, Wissensentdeckung und maschinelles Lernen, Universität Bonn Prof. Dr. Fritz Wysotzki, Methoden der künstlichen Intelligenz, TU Berlin Prof. Dr. Roberto Zicari, Datenbanken und Informationssysteme, Universität Frankfurt 37 Schriften zur Empirischen Forschung und Quantitativen Unternehmensplanung Heft 1/1999 Rennhak, Carsten H.: Die Wirkungsweise vergleichender Werbung unter besonderer Berücksichtigung der rechtlichen Rahmenbedingungen in Deutschland Heft 2/2000 Rennhak, Carsten H. / Kapfelsberger, Sonja: Eine empirische Studie zur Einschätzung vergleichender Werbung durch Werbeagenturen und werbetreibende Unternehmen in Deutschland Heft 3/2001 Schwaiger, Manfred: Messung der Wirkung von Sponsoringaktivitäten im Kulturbereich – Zwischenbericht über ein Projekt im Auftrag des AKS / Arbeitskreis Kultursponsoring Heft 4/2001 Zinnbauer, Markus / Bakay, Zoltàn: Preisdiskriminierung mittels internetbasierter Auktionen Heft 5/2001 Meyer, Matthias, / Weingärtner, Stefan / Jahke, Thilo / Lieven, Oliver: Web Mining und Personalisierung in Echtzeit Heft 6/2002 Meyer, Matthias / Müller, Verena / Heinold, Peter: Internes Marketing im Rahmen der Einführung von Wissensmanagement Heft 7/2002 Meyer, Matthias / Brand, Florin: Kundenbewertung mit Methoden des Data Mining (Arbeitstitel) Heft 8/2002 Schwaiger, Manfred: Die Wirkung des Kultursponsoring auf die Mitarbeitermotivation – 2. Zwischenbericht über ein Projekt im Auftrag des AKS / Arbeitskreis Kultursponsoring Heft 9/2002 Schwaiger, Manfred: Die Zufriedenheit mit dem Studium der Betriebswirtschaftslehre an der Ludwig-Maximilians- Universität München – eine empirische Untersuchung Heft 10/2002 Eberl, Markus / Zinnbauer, Markus / Heim, Martina: Entwicklung eines Scoring-Tools zur Messung des Umsetzungsgrades von CRM-Aktivitäten – Design des Messinstrumentes und Ergebnisse der Erstmessung am Beispiel des deutschen Automobilmarktes – Heft 11/2002 Festge, Fabian / Schwaiger, Manfred: Direktinvestitionen der deutschen Bau- und Baustoffmaschinenindustrie in China – eine Bestandsaufnahme Heft 12/2002 Zinnbauer, Markus / Eberl, Markus: Bewertung von CRM-Aktivitäten aus Kundensicht Heft 13/2002 Zinnbauer, Markus / Thiem, Alexander: e-Paper: Kundenanforderungen an das Zeitungsmedium von morgen – eine empirische Studie Heft 14/2003 Bakay, Zoltàn / Zinnbauer, Markus: Der Einfluss von E-Commerce auf den Markenwert Heft 15/2003 Meyer, Matthias / Lüling, Max: Data Mining in Forschung und Lehre in Deutschland Heft 16/2003 Steiner-Kogrina, Anastasia / Schwaiger, Manfred: Eine empirische Untersuchung der Wirkung des Kultursponsorings auf die Bindung von Bankkunden ISSN 1438-6925