Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy 'DV'DWD:DUHKRXVH.RQ]HSW'DWD0LQLQJ Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining INHALTSVERZEICHNIS '$7$:$5(+286,1*81''$7$0,1,1*$/6%(67$1'7(,/( '(6:,66(160$1$*(0(176 %86,1(66,17(//,*(1&( 027,9$7,21 (,1)h+581*23(5$7,9(6<67(0( '$6'$7$:$5(+286(.21=(37 5.1 DEFINITION 5.2 ARCHITEKTURANSÄTZE 5.2.1 Das zentrale Data Warehouse 5.2.2 Das virtuelle Data Warehouse 5.2.3 Data Marts 5.3 TRANSFORMATION DER DATEN (ETL-PROZESS) 5.4 ONLINE ANALYTICAL PROCESSING (OLAP) 5.4.1 Definition 5.4.2 OLAP-Funktionen 5.5 ZUR NUTZUNG VON DATA W AREHOUSE-SYSTEMEN IN DEUTSCHEN UNTERNEHMEN 6 7 7 8 9 9 11 11 12 14 6.1 MOTIVATION 6.2 DEFINITION 6.3 TYPEN DER DATENANALYSE 6.4 ZIELSETZUNG DES DATA MINING 6.5 AUFGABEN UND MUSTERTYPEN DES DATA MINING 6.5.1 Erläuterungen zu den Aufgaben und Mustertypen 6.5.2 Generieren von Prognosemodellen 6.5.3 Abweichungsanalyse 6.5.4 Aufdecken von Beziehungsmustern 6.5.5 Datenbanksegmentierung 6.6 PHASEN DES KNOWLEDGE DISCOVERY IN DATABASES 6.6.1 Erläuterungen zum KDD-Prozess 6.6.2 Selektion der Daten 6.6.3 Exploration der Daten 6.6.4 Manipulation der Daten 6.6.5 Analyse der Daten 6.6.6 Interpretation der Ergebnisse 6.7 DATA W AREHOUSING & DATA MINING 15 15 16 17 18 18 18 19 19 21 22 22 23 23 23 24 24 25 '$7$0,1,1* =86$00(1)$6681*81')$=,7 /,7(5$785 1 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Ä:HOLYHLQDQH[SDQGLQJXQLYHUVHRIGDWD LQZKLFKWKHUHLVWRRPXFKGDWDDQGWRROLWWOHLQIRUPDWLRQ³ 1 (P. Adriaans, D. Zantinge) 'DWD:DUHKRXVHVXQG'DWD0LQLQJDOV%HVWDQGWHLOH GHV:LVVHQVPDQDJHPHQWV Betrachtet man einschlägige Literatur zum Thema Wissensmanagement, so ist auffällig, dass eine beträchtliche Anzahl von Definitionen dieses Begriffes existieren. Eine Gemeinsamkeit vieler dieser Definition manifestiert sich in der Zielsetzung des Wissensmanagements, nämlich in der Mobilisierung des gesamten Wissens einer Gruppe, Organisation oder eines Unternehmens und die adäquate Bereitstellung dieses Wissens2. Bei der Benutzung von Systemen der Informationstechnik zur Unterstützung des Wissensmanagements stellen Daten die Basis von Wissen dar, z. B. in Form von Werten oder Größen, die durch Beobachtungen, Befragungen und Messungen erhoben worden sind. Diese Daten werden beispielsweise als Zahlentabellen, Texte oder Bilder festgehalten und können durch angemessene Auswertung zu Informationen werden3. Von Information kann gesprochen werden, wenn die oben genannten Daten Handlungsrelevanz für Personen haben, d. h. für das Treffen von Entscheidungen oder das Vornehmen von Handlungen von Bedeutung sind4. Wissen entsteht aus Information zu dem Zeitpunkt, an dem ein Mensch diese Informationen in sein Gedächtnis aufnimmt und verarbeitet5. Das Zugänglichmachen von potenziellen Informationen zur Unterstützung von Entscheidungen und der Wissensgenerierung in Organisationen kann durch geeignete Werkzeuge aus dem Bereich der Informationstechnologie bewerkstelligt werden6. 1 Adriaans, Zantinge, 1996, 2. vgl. Hendrichs, 2002, 55. 3 vgl. ebenda. 4 vgl. Kuhlen, 2004, 3. 5 vgl. Glowalla, 2004, 711. 6 vgl. Hendrichs, 2002, 56. 2 2 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Folgende Ausführungen befassen sich mit zwei Konzepten und konkreten Anwendungen aus dem Bereich der Informationstechnologie, die den Informationsund Wissensmanagementprozess in Organisationen unterstützen sollen, nämlich den Konzepten des „Data Warehousing“ und „Data Mining“. Im Wissensmanagementverständnis von Lüthy, Voit und Wehner sind die Konzepte von Data Warehousing und Data Mining dem Handlungsfeld der IT- und Mediennutzung zuzuordnen7. Zunächst soll eine Einführung in den Themenkomplex gegeben werden, der die Notwendigkeit für den Einsatz der bereits erwähnten Technologien erklärt. Darauffolgend soll der mit dem Thema im Zusammenhang stehende Oberbegriff „Business Intelligence“ definiert und erläutert werden, bevor auf wichtige Grundlagen für ein tiefergehendes Verständnis von organisationaler IT-Infrastruktur eingegangen wird. Dieses Verständnis stellt sich als essentiell für weitere Betrachtung von Data Warehouse-Konzepten dar. Im Kern der vorliegenden Arbeit findet sich eine Auswahl detailliert dargestellter Aspekte des Data Warehousing (Definitionen, Architekturansätze, Datentransformationsprozess (ETL-Prozess), OLAP, Aspekte der Nutzung von Data Warehouse-Systemen in deutschen Unternehmen) und Data Mining (Definition, Typen der Datenanalyse, Ziele der Anwendung, Typen zu entdeckender Muster, Beschreibung des Analyseprozesses, Synergiepotentiale der gemeinsamen Nutzung von Data Warehouse- und Data Mining-Systemen). Zum Abschluss der Ausführungen soll eine Zusammenfassung und ein Fazit zum Thema gegeben werden. 0RWLYDWLRQ Durch den steigenden Wettbewerbsdruck, welchem heutige Unternehmen ausgesetzt sind, sind die schnelle und effektive Umsetzung von Informationen in Entscheidungen und Handlungsmaßnahmen unerlässlich, wenn es um die Sicherung von Wettbewerbsvorteilen geht. Im Unternehmen vorhandene Daten, die bei der Abwicklung des operativen Geschäfts entstehen, spielen in diesem Zusammenhang 7 vgl. Clases, Wehner, 2002, 45-52. 3 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining eine wesentliche Rolle, weil sie die vorliegende Unternehmenssituation wiederspiegeln, auf deren Grundlage sämtliche Entscheidungen des Unternehmens getroffen werden sollten8. Durch das ständige Wachstum des Datenvolumens in Organisationen und beruhend auf der Tatsache, dass die Daten aus der operativen Geschäftsabwicklung ausschlaggebend für die Entscheidungsprozesse der Organisation sind, ist es von Bedeutung, diese Daten in übersichtlicher Weise den jeweiligen Entscheidungsträgern zur Verfügung zu stellen. Weiterhin ist zu vermerken, dass die vorhandenen Datenmengen auch Informationen enthalten können, die durch menschliche Auswertung, z. B. aufgrund ihrer Komplexität, nicht erfassbar sind. Daherkommend ist der Wunsch nach computergestützten Verfahren entstanden, die automatisch interessante Muster in großen Datenbeständen entdecken und diese herausfiltern9. Die gezeigten Bedürfnisse nach übersichtlicher Darstellung von Informationen für Entscheidungsträger und dem automatischen Entdecken interessanter Informationen lassen sich durch den Einsatz von Data Warehouse- und Data Mining-Konzepten befriedigen, denen sich die nachfolgenden Ausführungen widmen. Zunächst soll der Begriff Business Intelligence definiert und in den Kontext eingeordnet werden. %XVLQHVV,QWHOOLJHQFH Unter dem Begriff Business Intelligence lassen sich analytische Konzepte, Prozesse und Werkzeuge zur Transformation von Unternehmensdaten in entscheidungsrelevantes Wissen und zur Unterstützung von Entscheidungen subsumieren10. Unter diesen Oberbegriff fallen auch Konzepte wie Data Warehousing und Data Mining. „Intelligence“ ist dabei nach Hansen und Neumann im Sinne von „Nachrichtendienst“ zu verstehen (so wie bei CIA: &HQWUDO,QWHOOLJHQFH$JHQF\)11. In der Literatur zu diesem Thema wird allerdings des öfteren darauf hingewiesen, dass es sich dabei um ein Schlagwort handelt, unter dem Software vermarktet werden soll. Durch neue Bezeichnungen werde der Eindruck innovativer, bahn8 vgl. Knobloch, 2001, 1. vgl. Küppers, 1999, 13. 10 vgl. Vitt, Luckevich, Misner, 2002, 9f. 11 vgl. Hansen, Neumann, 2001, 514. 9 4 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining brechender Lösungen vermittelt, obwohl das dahinter liegende Prinzip älteren Ursprungs sei12. Nichtsdestotrotz beschreibt die Literatur gleichzeitig einen größeren Funktionsumfang, über den neuere Konzepte unter dem Namen Business Intelligence im Gegensatz zu den Vorgängerkonzepten verfügten13. Es bleibt zu vermerken, dass es sich bei diesem Sachverhalt um ein Thema handelt, welches nicht unumstritten ist, aber auch, dass die hinter all diesen Konzeptnamen stehenden Ziele, nämlich die Unterstützung und Versorgung von Entscheidungsträgern mit relevanten Informationen, unabhängig von ihrem Implementierungsgrad, in allen Konzepten angestrebt werden. (LQIKUXQJ2SHUDWLYH6\VWHPH Wo und wie in Unternehmen und Organisationen Daten entstehen, ist wesentlich für das Verständnis des Zweckes und der Funktionsweise von Data Warehouse- und Data Mining-Systemen. Deshalb soll an dieser Stelle am Beispiel des integrierten Anwendungssystems SAP R/3 kurz verdeutlicht werden, wie die IT-Infrastruktur, d.h. alle informationstechnischen Einrichtungen, in Unternehmen gestaltet sein kann, wie sie oftmals in der Realität vorliegt und welche Konsequenzen sich daraus ergeben. Mit integrierten betriebswirtschaftlichen Anwendungssystemen lassen sich viele Funktionsbereiche des Unternehmens abbilden. Die Unterstützung der Geschäftsprozesse heutiger Unternehmen anhand von Informationstechnologie ist aufgrund der hohen Komplexität dieser Prozesse und der anfallenden Datenmengen erforderlich14. SAP R/3 umfasst u. a. Module für internes und externes Rechnungswesen, Materialwirtschaft, Vertrieb, Qualitätsmanagement, Personalwirtschaft, etc. Das System versucht, um die Anforderungen einer Standardsoftware zu erfüllen, möglichst viele Funktionsbereiche, über die ein Unternehmen verfügen kann, abzudecken15. 12 vgl. Hansen, Neumann, 2001, 514. vgl. ebenda, 509. 14 vgl. ebenda, 523. 15 vgl. Schwarze, 2000, 282. 13 5 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Allerdings ist der Einsatz sämtlicher Module in einem Unternehmen nicht immer gegeben. In der Unternehmensrealität zeigen sich oftmals stark heterogene Systemlandschaften. Neben den betriebswirtschaftlichen Anwendungssystemen sind zudem andere Anwendungstypen im Einsatz, wie z. B. Groupware in Form von Microsoft Outlook oder Lotus Notes, Bürosoftware wie die Komponenten des Microsoft Office-Paketes und anderer Anwendungssoftware. Zusätzlich nutzen einige Unternehmen das Internet, um relevante Wirtschaftsinformationen zu erlangen, oder sie kaufen interessante Daten bei statistischen Ämtern oder Marktforschungsinstituten ein16. Der Grund für heterogene Systemlandschaften in Unternehmen ist in vielen Fällen das ständige Wachstum dieser Infrastruktur über mehrere Jahre. Diese heterogene Systemlandschaft enthält Daten in unterschiedlichen Formaten. Eine einheitliche Sichtweise aller vorhandenen Daten und die Vergleichbarkeit der Inhalte ist dadurch eingeschränkt17. Im Folgenden wird das Data Warehouse-Konzept näher erläutert, das Entscheidungsträgern die Möglichkeit bieten soll, trotz der großen Mengen an uneinheitlich gespeicherten Daten Entscheidungen auf Basis deren Inhalte zu treffen. 'DV'DWD:DUHKRXVH.RQ]HSW 'HILQLWLRQ „(LQ 'DWD :DUHKRXVH IDW GLH 'DWHQ GHV JDQ]HQ 8QWHUQHKPHQV ]XVDPPHQ XQG HUP|JOLFKW HLQHQ HLQKHLWOLFKHQ %OLFN DXI VLH 'DEHL ZHUGHQ GLH XUVSUQJOLFKHQ RSHUDWLYHQ'DWHQDXVGHQXQWHUVFKLHGOLFKHQ9HUIDKUHQH[WUDKLHUWLQHLQHLQKHLWOLFKHV )RUPDW NRQYHUWLHUW XQG VR ]XVDPPHQJHIDW GD XPIDVVHQGH $XVZHUWXQJHQ P|JOLFKZHUGHQ“18 Diese Definition von Königer & Reithmayer stellt den Vereinheitlichungsaspekt in den Vordergrund. Folgende Definition von Immon ist eine sehr häufig zitierte Definition. 16 vgl. Bold, Hoffmann, Scheer, 1997, 5. vgl. Bager, Becker, Munz, 1997. 18 Königer, Reithmayer, 1998, 271. 17 6 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining “$ 'DWD :DUHKRXVH LV D VXEMHFWRULHQWHG LQWHJUDWHG QRQYRODWLOH DQG WLPHYDULDQW FROOHFWLRQRIGDWDLQVXSSRUWRIPDQDJHPHQW¶VGHFLVLRQV”19 Innerhalb dieser Definition versteht Immon unter „subject-oriented“, dass die im Data Warehouse enthaltenen Daten an den Hauptinteressen des jeweiligen Unternehmens orientiert sein sollen. „Integrated“ steht dafür, dass die Datensammlung im Data Warehouse Daten aus vielen unterschiedlichen Quellen enthalten kann. „Nonvolatile“ beschreibt, dass die bereits vorhandenen Daten im Data Warehouse nicht durch aktuellere Daten ausgetauscht werden, sondern der Datenbestand stets erweitert wird. „Time-variant“ bedeutet, dass das Data Warehouse Zustandsinformationen zum Unternehmen zu vielen unterschiedlichen Zeitpunkten in der Vergangenheit bieten soll. Außerdem beschreibt diese Definition nochmals, dass das Data Warehouse Entscheidungen unterstützen soll. Data Warehouses können deshalb auch als Informationsdatenbanken bezeichnet werden. Diese unterscheiden sich aufgrund ihrer Aufgabe von den operativen Datenbanken, die die Daten für die operativen Anwendungssysteme bereitstellen20. $UFKLWHNWXUDQVlW]H 5.2.1 Das zentrale Data Warehouse Es gibt mehrere Architekturansätze für die Strukturierung von Data Warehouses. Den eigentlichen Data Warehouse-Begriff spiegelt das zentrale Data Warehouse wieder. Dabei handelt es sich um eine von den operativen Systemen entkoppelte Datenbank, die zwar durch die eigens bereitzustellende IT-Infrastruktur Kosten verursacht, aber bei größeren Auswertungen die Leistungsfähigkeit der operativen Systeme nicht einschränkt. 19 20 Immon, 2002, 31. vgl. Bold, Hoffmann, Scheer, 1997, 6. 7 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Abbildung 1: Zentrale Data Warehouse-Architektur Quelle: Schwarze, 2000 Abbildung 1 zeigt den Aufbau eines zentralen Data Warehouses. Operative und externe Datenbestände werden durch die Anwendung von Transformationsprozessen (siehe 5.3 Transformation der Daten (ETL-Prozess)) umgewandelt und in die Datenbasis des Data Warehouses geladen. Außerdem gehört zu einem zentralen Data Warehouse eine Metadatenbank mit Informationen zur Datenbasis und ein Archivsystem, das solche Daten verwaltet, auf die seltener zugegriffen wird. Dies führt zu einer Verringerung des Bestandes in der Datenbasis und beschleunigt den Zugriff auf oft benötigte Daten21. 5.2.2 Das virtuelle Data Warehouse Von einem virtuellen Data Warehouse spricht man dann, wenn Software die einheitliche Sicht auf den Bestand der operativen Daten simuliert. Dabei greift die Software direkt auf die operativen Systeme zu. Es wird keine gesonderte Informationsdatenbank neben der operativen Datenbank aufgebaut und es kann somit durch den intensiven Zugriff zu einer Minderung der Leistungsfähigkeit der operativen Systeme kommen. Dagegen sind solche Lösungen wesentlich weniger kostenintensiv in der Beschaffung als ein zentrales Data Warehouse. Einschränkungen gibt es bei diesen Konzepten sowohl hinsichtlich der geringeren Performance, d.h. dass Analysen bei diesem Konzept wesentlich länger dauern, als auch hinsichtlich der historischen 21 vgl. Schwarze, 2000, 261. 8 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Analysefähigkeit, da die operativen Systeme immer die aktuelle Unternehmenssituation wiederspiegeln und keine historischen Daten vorhalten22. 5.2.3 Data Marts „Data Marts“ sind kleine Data Warehouses, deren Inhalte sich nur auf bestimmte Betriebsbereiche beziehen. Sie stellen Informationen zur Verfügung, die nicht unternehmensweit benötigt werden. Außerdem erlauben Data Marts ein sukzessives Aufbauen eines unternehmensweiten Data Warehouses. Besteht eine ausreichende Anzahl von in separaten Projekten aufgebauten Data Marts, so können diese in einem Integrationsprojekt zusammengefasst werden. In Unternehmen wird diese Vorgehensweise der sofortigen Einführung eines zentralen Data Warehouses vorgezogen. Der Aufbau eines Data Marts in einem bestimmten Bereich ist weniger kostenintensiv und kann schneller abgeschlossen werden. Da bei diesen Projekten Erfahrungen gesammelt werden23 und Wissen zum Aufbau von Data Warehouses entsteht, können in den später folgenden Integrationsprojekten durch die Nutzung diese Wissens Kostenersparnisse realisiert werden24. 7UDQVIRUPDWLRQGHU'DWHQ(7/3UR]HVV Um bei der Anwendung von Analysemethoden auf die Datenbestände befriedigende Ergebnisse zu erhalten, müssen die Daten bestimmte Qualitätsanforderungen erfüllen25. Das Erreichen dieser Qualitätsanforderungen wird durch den Datentransformationsprozess („ETL“ – Extraktion, Transformation, Laden) bewerkstelligt. Dieser wird von Transformationsprogrammen vorgenommen, die zu bestimmten Zeiten, beispielsweise nachts oder am Wochenende, die Daten aus den operativen Systemen extrahieren, um die Abwicklung von Geschäftsprozessen in den 22 vgl. Bold, Hoffmann, Scheer, 1997, 11f. vgl. Schmidt, Grimm, 2002, 255. 24 vgl. Bold, Hoffamnn, Scheer, 1997, 9f. 25 vgl. Knobloch, 2001, 31. 23 9 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Hauptzeiten nicht zu stören und eine Leistungsbeeinflussung der operativen Systeme auszuschließen26. Die Daten aus den unterschiedlichen Quellen werden transformiert, also gewissermaßen vereinheitlicht, um sie für die gemeinsame Datenbasis kompatibel zu gestalten27. Das Erreichen der erforderlichen Datenqualität geschieht durch Anreicherung der Daten um nicht direkt enthaltene aber in anderen Quellen verfügbare Informationen, durch Bereinigung fehlerhafter Datenbestände, Konsolidierung redundant vorhandener Daten und durch Anpassung der Formate, d.h. der Darstellungsform der Daten28. Eine genauere Betrachtung dieser Transformationsprozesse soll in dieser Arbeit nicht stattfinden. Bei tiefergehendem Interesse sei auf das entsprechende Kapitel in Immons „Building the Data Warehouse“ (S.118-122) oder auf den Aufsatz „Transformationsprogramme und Extraktionsprozesse entscheidungsrelevanter Basisdaten“ von Joachim Kirchner in Mucksch/Behme: „Das Data WarehouseKonzept“ verwiesen, die jeweils auch in der Literaturliste dieser Arbeit genauer aufgeführt sind. Besonders wichtig ist die Ausgangsqualität dieser Daten, da sie die Grundlagen für die Gewinnung verwertbarer Informationen durch das Data Warehouse bildet. Da für die Umsetzung der Transformationsprozesse und der Datenbereinigung bis zu 80% der gesamten Projektdauer anzusetzen sind, ist die Qualität der „Rohdaten“ von großer Bedeutung und kann sich spürbar auf den Projekterfolg auswirken29. Nach der Extraktion und Transformation der Daten bildet der Ladeprozess den dritten Schritt des ETL-Prozesses, bei dem die Daten in die Data WarehouseDatenbank aufgenommen werden. Typischerweise werden sie zunächst in eine Art Zwischenspeicher („Staging Area“) geladen, bevor sie in die Data WarehouseDatenbank eingegliedert werden. In diesem Zwischenspeicher werden bereits 26 vgl. Jung, 2001, 29. vgl. Schwarze, 2000, 261. 28 vgl. Knobloch, 2001, 31ff. 29 vgl. Pantelic, Nohr, 2000, 6. 27 10 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining transformierte Daten „gelagert“, bis alle zusammengehörigen Daten aus allen operativen Teilsystemen transformiert und für den Ladeprozess verfügbar sind30. Die nachfolgende Abbildung visualisiert den ETL-Prozess: Abbildung 2: Der ETL-Prozess Quelle: Jung, 2001 2QOLQH$QDO\WLFDO3URFHVVLQJ2/$3 5.4.1 Definition Unter “Online Analytical Processing” oder kurz OLAP versteht man eine Softwaretechnologie, die eine schnelle, interaktive und vielseitige Auswertung der Datenbestände einer Data Warehouse-Datenbank ermöglicht31. OLAP ermöglicht individuell gewünschte unterschiedliche Sichten auf die Daten des Data Warehouses, die in einem multidimensionalen Würfel („Hypercube“) zusammengefasst werden. Eine Dimension stellt in diesem Fall ein für den Betrachter interessantes Kriterium dar, wie z. B. betriebswirtschaftliche Variablen Zeit, Absatzregion, Produkt. Der Betrachter kann sich seinen gewünschten Datenwürfel zusammenstellen und daraus interessante handlungsrelevante Informationen erhalten, z. B. das gewinnträchtigste Produkt ermitteln32. 30 vgl. Jung, 2001, 32. vgl. Chamoni, Gluchowski, 1997, 394. 32 vgl. Pantelic, Nohr, 2000, 7. 31 11 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Abbildung 3 zeigt einen dreidimensionalen Datenwürfel: Abbildung 3: Dimensionen eines Datenwürfels Quelle: Hansen, Neumann, 2001 5.4.2 OLAP-Funktionen An dieser Stelle soll eine Auswahl von möglichen OLAP-Funktionen gegeben werden. Die hier vorgestellten Funktionen stellen die gebräuchlichsten im Umgang mit OLAP-Systemen dar. Durch bestimmte Funktionen, die OLAP-Software zur Verfügung stellt, ist es dem Anwender möglich, beliebige Schnitte durch den multidimensionalen Datenbestand zu machen und sich so die für ihn interessanten Sichten zu generieren. So kann sowohl auf verdichtetes als auch auf detailliertes betriebswirtschaftliches Datenmaterial zugegriffen werden33. Eine aufgefächerte Ansicht zunächst aggregierter Informationen ermöglicht die „Drill down“-Funktion. Der Drill down ermöglicht eine detailliertere Ansicht auf einzelne Quartale oder Monate in der zeitlichen Dimension eines bestimmten Datenbestandes, wenn diese zunächst eine Aufteilung in ganze Jahre vorsieht, dadurch aber die vom Anwender gewünschte Information nicht zu erhalten ist. 33 vgl. Gluchowski, 2001, 11. 12 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Die Umkehrung dieser Funktion ist der sogenannte „Roll up“. Hierbei werden angezeigte Daten verdichtet. Die Analogie zum oben genannten Fall wäre eine gegebene aber nicht gewünschte Sicht auf Monate. Durch einen Roll up könnte der Anwender gegebenenfalls eine von ihm gewünschte Sicht auf komplette Jahre erhalten. Eine weitere wichtige OLAP-Funktion ist das „Slicing“ (engl. für „in Scheiben schneiden“). Beim Slicing wird eine Dimension komplett auf eine Ausprägung beschränkt. Beispielsweise werden sämtliche ausgewählte Informationen eines Datenwürfels nur für die Warengruppe „Gemüse“ angezeigt. Die Dimension der Warengruppe ist auf die Ausprägung „Gemüse“ beschränkt. Folgende Abbildung visualisiert das Slicing: Abbildung 4: Slicing Quelle: Hansen, Neumann, 2001 Ebenfalls wichtig für die Navigation durch den Datenwürfel ist die „Dicing“-Funktion. Dicing (engl. für „würfeln, in Würfel aufteilen“) bedeutet, dass aus dem vorhandenen Datenwürfel ein kleinerer Würfel „herausgeschnitten“ wird, der vom Anwender gewünschte Informationen enthält. Dies führt zu einer leichter überschaubaren Sicht und vereinfacht die Analyse34. Nachfolgend soll auf die konkrete Anwendung von Data Warehouses zur Unterstützung der Entscheidungen in Unternehmen eingegangen werden. 34 vgl. Hansen, Neumann, 2001, 480f. 13 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining =XU1XW]XQJYRQ'DWD:DUHKRXVH6\VWHPHQLQGHXWVFKHQ8QWHUQHKPHQ „0DQDJHPHQWLQIRUPDWLRQVV\VWHPH0,6LPZHLWHUHQ6LQQHZHUGHQPLWWOHUZHLOHLQVR JXWMHGHPJU|HUHQ8QWHUQHKPHQHLQJHVHW]W“35. Das Institut für Managementinformationssysteme e. V. in Ludwigshafen hat sich nach eigenen Angaben die Aufgabe gesetzt, den Markt für Data Warehousing und Business Intelligence zu untersuchen und transparenter zu machen. Folgende Angaben stützen sich auf in regelmäßigen Abständen stattfindende Studien dieses Institutes zur Nutzung von Data Warehouses und Business Intelligence in deutschen Unternehmen. Grundlagen der Studien stellen Anwenderbefragungen dar. Bei den dargestellten Befragung aus dem Jahr 2001 nahmen 93 deutsche Unternehmen aus den Bereichen Industrie, Handel, Dienstleistung, öffentlicher Dienst und anderen Bereichen teil. Im Wesentlichen ist ein gestiegener Anteil von Unternehmen in Deutschland zu verzeichnen, die MIS und Data Warehouse-Lösungen im Vergleich zur vorangegangenen Studie im Vorjahr nutzen. Über die Hälfte der befragten Unternehmen gaben an, zentrale Data WarehouseLösungen zu benutzen36. Aus diesen Studien lassen sich nicht nur ein steigendes Interesse der Unternehmen an Data Warehouses und Business Intelligence erkennen, sondern auch der verstärkten Einsatz solcher Konzepte in Unternehmen zur Unterstützung der Unternehmenstätigkeit. Da die komplette Studie an dieser Stelle nicht vorgestellt werden soll, sei bei tiefergehendem Interesse auf den zitierten Aufsatz von Hannig und Hahn und auf die Internetpräsenz des Institutes für Managementinformationssysteme (http://imis.de) verwiesen. 35 36 Hannig, Hahn, 2002, 219. vgl. Hannig, Hahn, 2002, 219f. 14 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining 'DWD0LQLQJ 0RWLYDWLRQ Im heutigen Unternehmen sind in der Regel großen Datenmengen vorhandenen. Diese sind in den operativen Systeme oder in Informationsdatenbanken in Form von Data Warehouses zu finden. Data Warehouses dienen vornehmlich der Unterstützung von Entscheidungen, vor die der Anwender aufgrund von konkreten Anlässen gestellt wird. Im Gegensatz dazu ist das Auffinden verborgener Muster oder Gesetzmäßigkeiten innerhalb der Daten durch menschliche Interaktion mit dem System als ein nicht besonders effektives und effizientes Vorhaben anzusehen. Trotz alledem kann man davon auszugehen, dass sich in den Daten Muster verbergen, die nach adäquater Interpretation zu interessantem Wissen zum eigene Unternehmen führen können37. Mit Ansätzen, die das Herausfiltern bisher unbekannter Sachverhalte aus größeren Datenmengen unterstützen sollen, beschäftigt sich der Begriff des Data Mining, der in diesem Abschnitt näher betrachtet werden soll. 'HILQLWLRQ Wie bei vielen Forschungsgebieten entwickelte sich die Definition und das Verständnis von Data Mining über einen längeren Zeitraum. Folgende oft zitierte Definition stammt von Fayyad et al. aus dem Jahre 1996 und leitet sich aus einer Defintion von Frawley aus dem Jahre 1991 ab. „.QRZOHGJH GLVFRYHU\ LQ GDWDEDVHV LV WKH QRQWULYLDO SURFHVV RI LGHQWLI\LQJ YDOLG QRYHOSRWHQWLDOO\XVHIXODQGXOWLPDWHO\XQGHUVWDQGDEOHSDWWHUQVLQGDWD“38 Die Termini „Knowledge Discovery“ und Data Mining sollen an dieser Stelle synonym verstanden werden. Eine angemessene Übersetzung für diese Definition könnte folgendermaßen gegeben werden. 37 38 vgl. Gluchowski, 2001, 8. Fayyad, Piatetsky-Shapiro, Smyth, 1996, 6. 15 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining „'DWD 0LQLQJ LVW GHU QLFKWWULYLDOH (QWGHFNXQJVSUR]HVV JOWLJHU QHXHU SRWHQ]LHOO QW]OLFKHUXQGYHUVWlQGOLFKHU0XVWHULQ'DWHQEHVWlQGHQ“39 Diese Definition geht von einem Entdeckungsprozess aus, weil sich nutzbare Erkenntnisse erst nach der Vorverarbeitung und nach menschlicher Analyse der Ergebnisse des Data Mining herausstellen40. Das Attribut der „Nicht-Trivialität“ beschreibt, dass Data Mining-Verfahren ein gewisses Maß an Suchautonomie aufbringen und die Ergebnisse nicht ohne weiteres ersichtlich sein sollten41. „Gültig“ bedeutet, dass die ermittelten Ergebnisse mit einer bestimmten statistischen Sicherheit zutreffen. „Neuigkeit“ drückt die Forderung aus, dass die ermittelten Ergebnisse zu neuen Erkenntnissen führen sollen. Da in der Bewertung der „Nützlichkeit“ eines Ergebnisses für menschliche Handlungen durch einen Computer gewisse Schwierigkeiten liegt, verwendet die Definition „potenziell nützlich“. Nützlich sollten die ermittelten Ergebnisse sein, weil der Anwender diese verwerten möchte. Dass der Anwender die ermittelten Ergebnisse verstehen kann, ist insofern von Bedeutung und in diese Definition aufgenommen worden, als frühe Systeme in manchen Fällen zwar richtige Ergebnisse ermittelt haben, diese aber in nicht immer für den Menschen verständlicher Weise ausgaben und somit die gewonnenen Inhalte nicht genutzt werden konnten42. 7\SHQGHU'DWHQDQDO\VH Wie bereits erwähnt, handelt es sich bei Data Mining um Verfahren zur Analyse von Datenbeständen. Grundsätzlich können mehrere Typen der Datenanalyse unterschieden werden. Die zwei hier betrachteten Typen behandeln entweder hypothesegetriebene Fragestellungen oder eher hypothesefreie Fragestellungen. Eine Hypothese kann als Erklärungsvorschlag oder als Annahme zu einem bestimmten Sachverhalt beschrieben werden, dessen Gültigkeit zu überprüfen ist. 39 Knobloch, 2001, 14. vgl. Küppers, 1999, 24. 41 vgl. Knobloch, 2001, 15. 42 vgl. Küppers, 1999, 24f. 40 16 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Der hypothesegetriebene Datenanalysetyp beschäftigt sich mit Fragestellungen, die eine bestimmte Annahme voraussetzen. Eine solche Fragestellung, die eine Annahme enthält, wäre beispielsweise die Frage „Wie viel Prozent der Käufer von Produkt A kaufen auch Produkt B?“. Dabei wird davon ausgegangen, dass zwischen den Käufen der beiden Produkten eine bestimmte Beziehung besteht. Das Ziel dieses Datenanalysetyp ist die Verifikation oder Falsifikation der Hypothese. Ein solches Datenanalyseproblem wird durch sein „Top-Down“-Vorgehensweise, also durch das Ausgehen von einer Hypothese, spezifiziert. Der eher hypothesefreie Datenanalysetyp, der für Data Mining-Verfahren eine Rolle spielt, untersucht Datenbestände ohne das Zugrundelegen einer konkreten Annahme über die Eigenschaften der untersuchten Daten. Eine dementsprechende Fragestellung wäre „Welche Artikel werden gemeinsam gekauft?“, was zu einem bedeutend komplexeren Suchraum für die Untersuchung führt, als die oben genannte Fragestellung. Grundlage für diesen Datenanalysetyp und die Generierung neuer Erkenntnisse sind die vorhandenen Daten und nicht eine Hypothese. Diese Vorgehensweise wird „Bottom-Up“-Vorgehensweise genannt. Im Gegensatz zum ersten Typ, der gewissermaßen nach der Fragestellung „Welche Daten passen zu diesem Muster?“ arbeitet, verfährt der zweite Typ, der die Grundlage für das Data Mining darstellt, nach der Frage „Welches Muster passt zu diesen Daten?“43. Anhand der Erkenntnis, dass sich aus dieser Fragestellung sehr komplexe Suchvorgänge ergeben müssen, zeigt sich erneut, dass sich der Einsatz von computergestützten Data Mining-Anwendungen für solche Aufgaben anbietet. =LHOVHW]XQJGHV'DWD0LQLQJ Das Ziel des Data Mining ist die Entdeckung bisher unbekannter Muster in großen Datenmengen, genauer gesagt die datengetriebene und hypothesefreie Aufdeckung unbekannter Muster und Beziehung unter Verwendung der Bottom-up-Vorgehensweise44. Die ermittelten Muster können durch menschliche Interpretation zu relevanten betriebswirtschaftlichen Informationen werden und die erfolgreiche 43 44 vgl. Knobloch, 2001, 8. vgl. ebenda, 9f. 17 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Geschäftstätigkeit von Unternehmen unterstützen45. Hierbei geht es vor allem um die Prognose zukünftiger Entwicklungen zur Unterstützung von Entscheidungen und die Beschreibung von Datenbeständen, die den aktuellen Zustand des Unternehmens repräsentieren. Aus dieser Beschreibung lassen sich konkrete betriebswirtschaftliche Handlungsmaßnahmen ableiten46. $XIJDEHQXQG0XVWHUW\SHQGHV'DWD0LQLQJ 6.5.1 Erläuterungen zu den Aufgaben und Mustertypen Zum Erreichen der oben genannten Ziele lassen sich beim Data Mining vier grundlegende Aufgaben spezifizieren, die durch unterschiedliche Mustertypen beschrieben werden können. Im Folgenden werden diese Aufgaben und die zugehörigen Muster vorgestellt. 6.5.2 Generieren von Prognosemodellen Bei der Generierung von Prognosemodellen spielen die .ODVVLILNDWLRQ und das Ermitteln von 9RUKHUVDJHUHJHOQ eine große Rolle. Unter Klassifikation versteht man das Zusammenfassen von Objekten in vordefinierten Klassen, die diesen Klassen aufgrund bestimmter Merkmalsausprägungen oder Eigenschaften zugeordnet werden47. Anwendung findet die Klassifikation z. B. im Finanzsektor im Rahmen der Kreditwürdigkeitsuntersuchung bei Kreditvergaben48. Die Objekte innerhalb der einzelnen Klassen können so anhand ihrer Eigenschaften identifiziert und nach bestimmten Kriterien behandelt werden. Denkbar ist in diesem Zusammenhang auch die unterschiedliche Behandlung bestimmter Kundenklassen, die anhand des von ihnen verursachten Umsatzes in Klassen eingeteilt werden können. Dies stellt sich in Hinsicht auf den 45 vgl. Küppers, 1999, 13. vgl. Knobloch, 2001, 16f. 47 vgl. Pantelic, Nohr, 2000, 8. 48 vgl. Gluchowski, 2001, 9. 46 18 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining effizienten Einsatz werbewirksamer Maßnahmen (z. B. Werbegeschenke, etc.) als nützlich dar. Unter der Aufgabe der Erstellung von Prognosemodellen wird auch die Ermittlung von erfahrungsbasierten Regeln zur Vorhersagen des zukünftigen Verhaltens von Objekten oder der Entwicklung bestimmter Kennzahlen verstanden. Der Einsatz solcher Muster soll beispielsweise zu einer Verbesserung der Möglichkeiten der Prognose von Aktienkursentwicklungen führen49. 6.5.3 Abweichungsanalyse Bei der Abweichungsanalyse geht es um das Aufspüren signifikanter Veränderungen bestimmter Kennzahlen verglichen mit früheren Werten oder Sollwerten. Darauf aufbauend soll eine menschliche Prüfung stattfinden, ob die Abweichungen durch kausale Zusammenhänge zu erklären sind. Ein Anwendungsbeispiel dieses Bereichs stellt die automatisierte Untersuchung von betriebswirtschaftlichen Controllingdaten dar, bei denen aufgrund von Kostensteigerungen auf der Unternehmensebene sämtliche unterstellten Bereiche untersucht werden, um den Ursprung des aufgetretenen Phänomens aufzuspüren50. 6.5.4 Aufdecken von Beziehungsmustern Beim Aufdecken von Beziehungsmustern unterscheidet man das „Aufspüren“ von 9HUNQSIXQJHQ,$EKlQJLJNHLWHQ und 6HTXHQ]HQ. Verknüpfungen zwischen Objekten liegen dann vor, wenn die Objekte in irgendeiner Art und Weise in Beziehung stehen, z. B. zusammen an einem Ereignis beteiligt sind. Untersucht man sämtliche Verknüpfungen im gesamten Datenbestand, so lassen sich sogenannte Verknüpfungsmuster entdecken. Auf dem Anwendungsgebiet der Telekommunikation können anhand gespeicherter Telefongesprächsdaten Ver- 49 50 vgl. Knobloch, 2001, 17. vgl. ebenda, 18. 19 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining knüpfungsmuster entdeckt werden, die in der Verbrechensbekämpfung zur Aufklärung von Kriminaldelikten benutzt werden können51. Im Hinblick auf betriebswirtschaftliche Anwendungsmöglichkeiten solcher Verknüpfungen können aus in der Vergangenheit beobachteten Kundenpräferenzen neue Produkte oder Dienstleistungen entwickelt oder speziell für Handelsbetriebe wertvolle Informationen für die Weiterentwicklung der Angebotsstruktur und der Regalgestaltung ermittelt werden52. Abhängigkeiten grenzen sich zu Verknüpfungen insofern ab, als sie nicht nur das Vorhandensein einer Beziehung ausdrücken, sondern auch angeben, welche Größe von welcher abhängt. Eine Möglichkeit des Ausdrucks von Abhängigkeiten ist die Darstellung der Beziehung durch sogenannte Assoziationsregeln (z. B. „Wenndann“-Beziehungen), die auf Basis statistischer Informationen gebildet werden können. Ein Beispiel wäre die sogenannte Warenkorbanalyse, bei der der gemeinsame Kauf von Produkten innerhalb einer Transaktion untersucht wird. In dieser Domäne aufgestellte Assoziationsregeln könnten beispielsweise folgendermaßen lauten: „In 20 % der Fälle, in denen Produkt A gekauft wird, wird auch Artikel B gekauft“53. Aus solchen Erkenntnissen lassen sich bestimmte Geschäftsstrategien ableiten. Angenommen, es hat sich herausgestellt, dass 75% der Kunden eines Handelsbetriebes, die einen Drucker gekauft haben, in der gleichen Transaktion auch Papier und Toner gekauft haben, so liegt der Vorschlag nahe, die Kunden mit einem Sonderangebotspreis für den Drucker „anzulocken“ und die Preise für Papier und Toner so zu gestalten, dass sich aus der Situation ein Gewinn für den Handelsbetrieb ergibt54. Sequenzen bezeichnen Muster, die das Verhalten von Objekten im Zeitverlauf beschreiben und dabei das Auftreten regelmäßig wiederkehrender Ereignisfolgen 51 vgl. Knobloch, 2001, 18. vgl. Gluchowski, 2001, 9. 53 vgl. Knobloch, 2001, 18. 54 vgl. Kemper, Eickler, 2001, 510. 52 20 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining darstellen. Für das Aufspüren von Sequenzmustern ist ein historischer Datenbestand notwendig, z. B. ein Data Warehouse. Aus der Entdeckung von Sequenzen können sich so Erkenntnisse über das Kaufverhalten von Kunden im Zeitverlauf ergeben. Auf Basis dieser Kenntnisse können angepasste, auf bestimmte Zeitpunkte zugeschnittene Handlungsmaßnahmen im Bereich der Werbung oder Preisgestaltung zu positiven betriebswirtschaftlichen Effekten, wie z. B. Umsatzsteigerungen führen55. 6.5.5 Datenbanksegmentierung Die letzte hier beschriebene Aufgabe des Data Mining stellt die Segmentierung von Datenbeständen dar. Dieses Verfahren wird auch „Clustering“ genannt. Das Clustering teilt die Objekte einer Datenbank dergestalt in eine Menge sinnvoller Teilmengen („Cluster“), dass sich die einzelnen Elemente eines Clusters so ähnlich wie möglich und die Objekte verschiedener Cluster so verschieden wie möglich sind. Das Clustering dient der Aufteilung des Datenbestandes in einzelne homogene Bereiche, um die Handhabbarkeit der Daten zu steigern und weiterführende Analysen zu erleichtern56. Der Unterschied zwischen Clustering und der Klassifikation besteht in der Bildung der Klassen, bzw. Teilmengen. Bei der Klassifikation werden vom Anwender Klassen definiert, in die die Objekte des Datenbestandes aufgrund der Ausprägung eines bestimmten Attributs eingeordnet werden. Beim Clustering bilden sich diese Teilmengen aus dem Datenmaterial während der Zerlegung selbst. Die Segmentierung der Datenbank steht oft am Anfang einer Untersuchungsreihe. Die ermittelten Segmente werden dann oft anhand weiterführender Verfahren genauer analysiert57. 55 vgl. Knobloch, 2001, 19. vgl. Pantelic, Nohr, 2001, 8. 57 vgl. Knobloch, 2001, 20. 56 21 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining 3KDVHQGHV.QRZOHGJH'LVFRYHU\LQ'DWDEDVHV 6.6.1 Erläuterungen zum KDD-Prozess Die im vorangegangenen Abschnitt besprochenen Muster stellen an sich noch kein Wissen dar. Es sind zunächst menschliche Interpretationsprozesse notwendig, um zu entscheiden, ob es sich bei den ermittelten Ergebnissen um interessante Informationen handelt. Außerdem ist es wichtig, dass das Data Mining auf qualitativ hochwertigen Daten ausgeführt wird, um für ebenso hochwertige Analyseergebnisse zu sorgen. Es wird also ersichtlich, dass sowohl vor als auch nach der Anwendung der eigentlichen „Data Mining-Algorithmen“, den konkreten Arbeitsprozessen, die von einem Rechner zur Erreichung der definierten Ziele ausgeführt werden, bestimmte Arbeitsschritte auszuführen sind, um eine Qualität der Analyseergebnisse zu erreichen, auf die man wichtige Entscheidungen aufbauen kann. Alle notwendigen Arbeitsschritte dieses Prozesses der Wissensentdeckung werden unter dem Begriff „Knowledge Discovery in Databases“ (KDD) zusammengefasst. Der komplette KDD-Prozess bildet den allgemeinen Rahmen für umfassende Analysen in großen Datenbeständen. Bei der nachfolgenden Beschreibung wird generell nicht davon ausgegangen, dass der KDD-Prozess auf den Daten eines Data Warehouse ausgeführt wird. Es bleibt allerdings schon im Voraus zu erwähnen, dass durch die Nutzung von Data Warehouses als Datenbasis für Datenanalysen einige der gleich vorgestellten Teilschritte entfallen können, da diese schon während des ETL-Prozesses (siehe 5.3) beim Laden der Daten in das Data Warehouse ausgeführt worden sind58. Der KDD-Prozess wird in fünf Teilschritte oder Phasen zerlegt59, die nicht in jedem Falle sukzessiv durchlaufen werden müssen. Es sind auch Rücksprünge auf vorangegangene Schritte möglich: 58 59 vgl. Knobloch, 2001, 26f. vgl. Gluchowski, 2001, 9. 22 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining 6.6.2 Selektion der Daten Im ersten Schritt des KDD-Prozesses sollen geeignete Datenquellen für eine Analyse identifiziert werden. Wie bereits erwähnt, ist an dieser Stelle die Qualität der Daten besonders wichtig, da sie die Grundlage für den Erfolg der Datenanalyse darstellt. Prinzipiell ist es möglich, Data Mining auf beliebigen Daten durchzuführen. Allerdings stellen die bereits bereinigten und konsolidierten Daten eines Data Warehouses eine ideale Datenquelle dar. Die Auswahl der Datensätze orientiert sich an den für als relevant für die Analyse angesehenen Teilmengen des Datenbestandes. Sollen Analysen zum Kundenverhalten in einer bestimmten Region durchgeführt werden, so werden nur diejenigen Daten untersucht, die Informationen zu diesem Thema liefern könnten60. 6.6.3 Exploration der Daten Das ausgewählte Datenmaterial wird vor der eigentlichen Analyse auf Fehler und Mängel durchsucht, um diese frühzeitig zu entdecken und spätere Fehlinterpretationen zu vermeiden. Die Zuverlässigkeit der Daten ist von großer Wichtigkeit für die Resultate der Analyse. Die Prüfung der Korrektheit der Daten soll zudem verhindern, dass später folgende zeitintensive Teilprozesse aufgrund von Fehlern in der Datenbasis wiederholt werden müssen. In diesem Prozessschritt sollten sowohl die Syntax als auch die Semantik der Daten auf ihre Richtigkeit überprüft werden. Eine weitere Aufgabe der Datenexploration ist es, die Struktur des Datenbestandes und ein grundlegendes Verständnis der Daten zu vermitteln, um die letztendliche Interpretation der Daten zu unterstützen61. 6.6.4 Manipulation der Daten Die Datenbestände in Unternehmen sind in ihrer Ursprungsform oft nicht für Data Mining geeignet. Das liegt meistens an den Datenschemata operativer Systeme, die 60 61 vgl. Knobloch, 2001, 29f. vgl. ebenda, 2001, 30f. 23 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining nicht auf analytische Zwecke ausgerichtet sind. „Manipulation“ bezeichnet den Prozess der Anpassung der Daten an die Qualitätsanforderungen der Datenanalyse. Es handelt sich bei der Manipulation im wesentlichen um die bereits im Rahmen des ETL-Prozesses beschriebene Transformation (siehe 5.3), die die Anreicherung der Daten, die Bereinigung fehlerhafter Datenbestände, die Konsolidierung redundant vorhandener Daten und die Anpassung der Datenformate umfasst62. 6.6.5 Analyse der Daten Sobald die Daten in einem für die Analyse geeigneten Format vorliegen, kann der eigentliche Data Mining-Prozess durchgeführt werden63. In diesem Teilschritt des KDD-Prozesses werden konkrete Data Mining-Algorithmen angewendet, die im Rahmen dieser Arbeit aufgrund der weitführenden technischen Orientierung der Beschreibung der Algorithmen und ihrer Implementierung allerdings nicht vertieft dargestellt werden sollen. 6.6.6 Interpretation der Ergebnisse Die Interpretation der Analyseergebnisse stellt einen wichtigen Faktor innerhalb des KDD-Prozesses dar. Durch sie werden aus erkannten Mustern handlungsrelevante Erkenntnisse und dadurch konkrete Handlungen unterstützt. Die Definition von Data Mining hat an die Daten den Anspruch der Gültigkeit, Neuartigkeit, Nützlichkeit und Verständlichkeit. Oft ermitteln Data Mining-Verfahren allerdings triviale, bzw. bereits bekannte Muster oder solche, aus denen das Unternehmen keinen ökonomischen Nutzen ziehen kann. Auch deshalb ist die Bewertung und die Interpretation der Ergebnisse des Data Mining-Prozesses von Bedeutung. Um korrekte Interpretationen durchführen zu können, ist es wichtig zu beachten, dass tiefgreifende Kenntnisse des untersuchten Themengebietes nötig sind64. 62 vgl. Knobloch, 2001, 31ff. vgl. ebenda, 37ff. 64 vgl. ebenda, 39ff. 63 24 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining 'DWD:DUHKRXVLQJ'DWD0LQLQJ Das Konzept des Data Mining wird oft mit dem des Data Warehousing in Verbindung gebracht. Dadurch könnte angenommen werden, dass ein Data Warehouse-System die Grundlage zur Anwendung von Data Mining-Verfahren ist. Dies ist nicht der Fall. Data Mining-Verfahren können auf beliebige Datenbestände angewandt werden. Wie allerdings schon im vorangegangenen Abschnitt angedeutet, bietet die Nutzung eines Data Warehouse im Verbindung mit Data Mining einige Vorteile und zusätzliche Potentiale. Da der größte Anteil des Aufwandes bei Data Mining-Analysen auf die Datenvorbereitung entfällt, bietet die Anwendung eines Data Warehouses deutliche Synergieeffekte. Die im Data Warehouse vorgehaltenen Daten haben die notwendigen Vorbereitungsschritte bereits während des ETL-Prozesses durchlaufen. Die Nutzung dieser Daten für Data Mining-Zwecke stellt sich im Vergleich zum Zugriff auf operative Datenbestände, die vor der Analyse transformiert werden müssen, als kostengünstiger heraus. Außerdem bieten die bereinigten Daten des Data Warehouses aufgrund ihrer Qualität die Voraussetzungen für zuverlässige Analyseresultate65. Aufgrund der zentralen Datenspeicherung und -vorhaltung, die ein Data Warehouse in der Regel bietet, können die Data Mining-Analysen an diesem einen Punkt ansetzen und machen die Analyseprozesse zu einem effizient durchführbaren Vorhaben. Weiterhin begünstigt ein Data Warehouse durch die Eigenschaft der Losgelöstheit von den operativen Systemen die verhältnismäßig rechenintensiven Analyseoperationen des Data Mining, ohne dabei den operativen Betrieb zu stören66. 65 66 vgl. Knobloch, 2001, 49f. vgl. Bissantz, Hagedorn, Mertens, 1997, 451. 25 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining =XVDPPHQIDVVXQJXQG)D]LW Diese Arbeit beschäftigt sich mit Aspekten des Data Warehousing und des Data Mining. Sie versucht einen Überblick über diese beiden Themen zu geben. Aufgrund der Weite der Themenfelder und der Vielzahl konkreter Anwendungsmöglichkeiten bleibt an dieser Stelle zu vermerken, dass im Rahmen dieser Arbeit nicht alle Aspekte beschrieben werden konnten. Zunächst wurde eine Verbindung zum Thema Wissensmanagement hergestellt und eine nötige Einführung in die Materie gegeben, die zum Verständnis der nachfolgenden Konzepterläuterung notwendig ist. Innerhalb des Themas Data Warehousing wurde zunächst eine Definition des Begriffes gegeben, die Data Warehouses als Instrumente erklärt, die vor allem eine einheitliche Sicht auf historisch gespeicherte und konsolidierte Daten einer Organisation bieten und Entscheidungen unterstützen sollen. Bei der Beschreibung einiger der möglichen Architekturen eines Data Warehouses unterscheidet diese Arbeit zentrale und virtuelle Data Warehouses und speziell für einzelne Unternehmensbereiche angelegte Data Marts. Danach wird der ETLProzess als Prozess der Datenreinigung und Datenvorbereitung für das Data Warehouse beschrieben. Es folgen Ausführungen zum Online Analytical Processing (OLAP), das eine Softwaretechnologie zur Analyse der Daten des Data Warehouses darstellt und diese Analysen beispielsweise anhand der vorgestellten OLAPFunktionen Roll up, Drill down, Slicing und Dicing unterstützen. Die sich in den letzten Jahren verstärkende Nutzung von Data Warehouse-Systemen in deutschen Unternehmen wird anhand der gezeigten Studie des Institutes für Managementinformationssysteme verdeutlicht. Darauffolgend schließt sich eine Einführung in das Gebiete des Data Mining und eine Definition dieses Begriffes an, die dieses Konzept hauptsächlich als automatischen Entdeckungsprozess von Mustern in Datenbeständen beschreibt, der zu nützlichen und vorher unbekannten Erkenntnissen führen soll. Die Beschreibung unterschiedlicher Datenanalysetypen soll das Verständnis für Data Mining als eher hypothesefreie und datengetriebene Analyseart nochmals unterstützen, bevor die Ziele, 26 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining Aufgaben und die unterschiedlichen zu ermittelnden Mustertypen des Data Mining gezeigt werden. Der vorletzte Abschnitt beschäftigt sich mit den Phasen des KDDProzesses und vor der Zusammenfassung folgt eine Beschreibung der Potentiale der gemeinsamen Nutzung von Data Warehouse- und Data Mining-Systeme, die vor allem in der Ersparnis von Zeit und Kosten für die nur einmal durchzuführende Datentransformation liegen. Die inhaltlichen Darstellungen in dieser Arbeit zeigen, dass die beiden untersuchten Konzepte eine Unterstützung des Managements von Daten und Informationen bieten und durch die Beschleunigung der Datenverarbeitungsprozesse und die Möglichkeit der Unterstützung von Entscheidungen anhand einer problemadäquaten Informationsbereitstellung Wissensmanagementprozesse in Unternehmen effektiv unterstützen können. Es werden durch den Einsatz dieser Konzepte, wie die Anwendungsbeispiele verdeutlichen, Umsatzsteigerungen und Kostensenkungen möglich. Dem gegenüber stehen die Kosten, die die Benutzung solcher Lösungen verursacht. Ein zunehmender Einsatz solcher Systeme in Unternehmen könnte dafür sprechen, dass sich der Einsatz auszahlt. 27 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining /LWHUDWXU P. Adriaans, D. Zantinge: 'DWD0LQLQJ, Harlow 1996 J. Bager, J. Becker, R. Munz: 'DWD:DUHKRXVH±]HQWUDOH6DPPHOVWHOOHIU ,QIRUPDWLRQHQ, in: c‘t (1997) 3, S. 284, in elektronischer Form: URL: http://www.heise.de/ct/97/03/284. Klick-Datum: 6.6.2005 C. Bange: %XVLQHVV,QWHOOLJHQFHDXV.HQQ]DKOHQXQG'RNXPHQWHQ,QWHJUDWLRQ VWUXNWXULHUWHUXQGXQVWUXNWXULHUWHU'DWHQLQHQWVFKHLGXQJVXQWHUVWW]HQGHQ ,QIRUPDWLRQVV\VWHPHQ, Hamburg 2004 N. Bissantz, J. Hagedorn: 'DWD0LQLQJ'DWHQPXVWHUHUNHQQXQJ, in: Wirtschaftsinformatik 35 (1993) 5, S. 481-487 N. Bissantz, J. Hagedorn, P. Mertens: 'DWD0LQLQJ, in: H. Mucksch, W. Behme (Hrsg.): Das Data Warehouse-Konzept. Architektur – Datenmodelle – Anwendung, 2. vollst. überarb. und erw. Aufl., Wiesbaden 1997, S.437 - 463 M. Bold, M. Hoffmann, A.-W. Scheer: 'DWHQPRGHOOLHUXQJIUGDV'DWD :DUHKRXVH, in: IWi-Heft 139 (1997), elektronische Publikation des Instituts für Wirtschaftsinformatik, Saarbrücken, URL: http://iwi.uni-sb.de/Download/iwihefte/heft139.pdf, Klick-Datum: 19.6.2005 M. Böhnlein, A. Ulbrich-vom Ende: *UXQGODJHQGHV'DWD:DUHKRXVLQJ± 0RGHOOLHUXQJXQG$UFKLWHNWXU, in: E. J. Sinz, et al. (Hrsg.): Bamberger Beiträge zur Wirtschaftsinformatik, Nr. 55, Bamberg 2000 P. Chamoni, P. Gluchowski: 2QOLQH$QDO\WLFDO3URFHVVLQJ2/$3, in: H. Mucksch, W. Behme (Hrsg.): Das Data Warehouse-Konzept. Architektur – Datenmodelle – Anwendung, 2. vollst. überarb. und erw. Aufl., Wiesbaden 1997, S. 393 – 436 C. Clases, T. Wehner: +DQGOXQJVIHOGHULP:LVVHQVPDQDJHPHQW, in: W. Lüthy, et al. (Hrsg.): Wissensmanagement –Praxis. Einführung, Handlungsfelder und Fallbeispiele, Zürich 2002 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth: )URP'DWD0LQLQJWR.QRZOHGJH 'LVFRYHU\ in: U. Fayyad, et al. (Hrsg.): Advances in Knowldege Discovery and Data Mining, Menlo Park (CA) 1996 28 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining U. Glowalla: ,QIRUPDWLRQXQG/HUQHQ, in: R. Kuhlen, T.Seeger, D. Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation, 5., völlig neu gefasste Ausgabe, Band 1, München 2004 P. Gluchowski: %XVLQHVV,QWHOOLJHQFH±.RQ]HSWH7HFKQRORJLHQXQG (LQVDW]EHUHLFKH, in: K. Hildebrand (Hrsg.): Business Intelligence, HMD – Praxis der Wirtschaftsinformatik 222, 38. Jahrgang, Heidelberg 2001, S.5-15 U. Hannig, A. Hahn: 'HUGHXWVFKH0DUNWIU'DWD:DUHKRXVLQJXQG%XVLQHVV ,QWHOOLJHQFH, in: U. Hannig (Hrsg.): Knowledge Management und Business Intelligence, Berlin [u.a.] 2002 H. R. Hansen, G. Neumann: :LUWVFKDIWVLQIRUPDWLN, 8. Auflage, Stuttgart 2001 M. Hendrichs: .ULWLVFKHU(UIROJVIDNWRU:LVVHQVPDQDJHPHQW, in: U. Hannig (Hrsg.): Knowledge Management und Business Intelligence, Berlin [u.a.] 2002 W. H. Immon: %XLOGLQJWKH'DWD:DUHKRXVH, 3. Auflage, New York [u.a.] 2002 R. Jung: *HVWDOWXQJHLQHUGDWHQLQWHJULHUHQGHQ$UFKLWHNWXUIUGLVSRVLWLYHXQG RSHUDWLYH=ZHFNH, in: K. Hildebrand (Hrsg.): Business Intelligence, HMD – Praxis der Wirtschaftsinformatik 222, 38. Jahrgang, Heidelberg 2001, S.29-37 A. Kemper, A. Eickler: 'DWHQEDQNV\VWHPHHLQH(LQIKUXQJ, 4., überarb. und erw. Auflage, München [u.a.] 2001 J. Kirchner: 7UDQVIRUPDWLRQVSURJUDPPHXQG([WUDNWLRQVSUR]HVVHHQWVFKHLGXQJV UHOHYDQWHU%DVLVGDWHQ, in: H. Mucksch, W. Behme (Hrsg.): Das Data Warehouse-Konzept. Architektur – Datenmodelle – Anwendung, 2. vollst. überarb. und erw. Aufl., Wiesbaden 1997, S. 237 - 265 B. Knobloch: 'HU'DWD0LQLQJ$QVDW]]XU$QDO\VHEHWULHEVZLUWVFKDIWOLFKHU'DWHQ, in: W. Augsburger, et al. (Hrsg.): Bamberger Beiträge zur Wirtschaftsinformatik, Nr. 58, Bamberg 2001 P. Königer, W. Reithmayer: 0DQDJHPHQWXQVWUXNWXULHUWHU,QIRUPDWLRQHQ:LH 8QWHUQHKPHQGLH,QIRUPDWLRQVIOXWEHKHUUVFKHQN|QQHQ, Frankfurt / Main 1998 H.-P. Kriegel: 'DWHQEDQNWHFKQLN]XU8QWHUVWW]XQJGHV:LVVHQVHUZHUEV, in: H. Mandl, G. Reinmann-Rothmeier (Hrsg.): Wissensmanagement: Informationszuwachs – Wissensschwund? Die strategische Bedeutung des Wissensmanagements, München [u.a.] 2000 29 Universität des Saarlandes – FR 5.6 I nformationswissenschaft 3URMHNW:LVVHQVPDQDJHPHQW PD Dr. I lse Harms Constantin Houy: Das Data Warehouse-Konzept & Data Mining R. Kuhlen: ,QIRUPDWLRQ, in: R. Kuhlen, T.Seeger, D. Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation, 5., völlig neu gefasste Ausgabe, Band 1, München 2004 B. Küppers: 'DWDPLQLQJLQGHU3UD[LVHLQ$QVDW]]XU1XW]XQJGHU3RWHQWLDOHYRQ 'DWDPLQLQJLPEHWULHEOLFKHQ8PIHOG, in: Europäische Hochschulschriften: Reihe 5, Volks- und Betriebswirtschaft; Bd. 2373, Frankfurt / Main. [u.a.] 1999 M. Pantelic, H. Nohr: 'DWD:DUHKRXVLQJ, in: H. Nohr (Hrsg.): Arbeitsberichte Wissensmanagement, 9 / 2000. URL: http://www.iuk.hdmstuttgart.de/nohr/Km/KmAP/KmAP.html, Klick-Datum: 6.6.2005 M. P. Schmidt, M. Grimm: 'DWD0DUWVDOV%DVLVGHV:LVVHQVPDQDJHPHQWV, in: U. Hannig (Hrsg.): Knowledge Management und Business Intelligence, Berlin [u.a.] 2002 J. Schwarze: (LQIKUXQJLQGLH:LUWVFKDIWVLQIRUPDWLN, 5., völlig überarb. Aufl., Herne [u.a.] 2000 E. Vitt, M. Luckevich, S. Misner: %XVLQHVV,QWHOOLJHQFH, Redmond [u.a.] 2002 30