FH Potsdam Fachbereich A-B-D WS 1999/2000 Hausarbeit Data Mining / Data Warehouse Kurs: Einführung in das Wissenschaftliche Arbeiten Dozent: Prof. Dr. H.-C. Hobohm vorgelegt von: Jürgen Promeuschel 01. Sem. (Bibliothek) [email protected] Abgabetermin: 05.01.2000 Data Mining / Data Warehouse 2 Inhaltsübersicht 0. 1. 2. 3. 4. 5. 6. Einleitung Das Data Warehouse-Konzept: Grundlage für Data Mining Der Data-Mining-Prozeß Der Einsatz in der Praxis Data Warehouse und Data Mining versus Datenschutz Schlußüberlegung Literatur 0. Einleitung Softwarevertreter wittern einen baldigen Goldrausch in Datenspeichern von Unternehmen1, Wissenschaftler sprechen von 'Schwarzer Magie'2 und kritische Seher in der Datenwüste warnen, der Mensch der Zukunft sei 'gläsern'... Was ist der Anlaß für solche Aufregung? Die folgenden Seiten stellen einen kurzen Versuch dar, die Konzepte 'Data Mining' und 'Data Warehouse' zu erläutern, sie in einen Begriffskontext einzuordnen und grundlegende Arbeitsabläufe zu beschreiben. Nach Beispielen vom Einsatz in der Praxis wird auf Probleme im Zusammenhang mit dem Datenschutz hingewiesen. Abschließend wird eine kurze Bewertung des Phänomens mit Ausblick versucht. 1. Das Data Warehouse-Konzept: Grundlage für Data Mining Die seit Jahren anhaltende Computerisierung der Gesellschaft ließ insbesondere im Wirtschaftsleben schnell große Datenmengen entstehen, die zunächst kaum genutzt 'auf Halde' lagen. Durch fortschrittsbedingte Weiterentwicklung von Speichermedien sank zwar der Platzbedarf für Speichergut, andererseits wurde die Recherche nach Daten vor neue Herausforderungen gestellt. Zugleich forderten Entwicklungen der Märkte eine forcierte Nutzung von Informationen zur Sicherung der Wettbewerbsfähigkeit. Klußmann zufolge3 prägte Bill Inmons 19924 den Begriff Data Warehouse (deutsch etwa: 'Daten-Lagerhaus') bei seinem Versuch bisherige 'Managementinformationssysteme' in Unternehmen weiterzuentwickeln. Ein Data Warehouse bezeichnet einen (nicht notwendigerweise) zentralen Speicherort für Daten aus allen Bereichen eines Unternehmens. Idee ist hierbei, Daten unabhängig von ihrer bisherigen Betriebsumgebung 1 vgl. Schumacher, 52 Moerkotte; Westmann, 132. 3 Klußmann, Lexikon, 106 -107 4 abweichend hiervon: Groffmann, 10 2 WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 3 oder ihres unmittelbaren ('transaktionsorientierten') Zwecks ('operativer Bestand') und unabhängig von Datenart oder Zugriffssprache zu verwalten. Zusätzlich sollen externe Daten (wie etwa Fachzeitschriften oder andere 'Business-Informationen') und Metadaten (Angaben über die gespeicherten Daten, wie Herkunft, Speicherort, Erhebungsturnus etc.) enthalten sein. Als Ziel steht die schnelle, unkomplizierte Abfrage der (durch gewisse Arbeitsschritte vereinheitlichten) Informationen mit Hilfe von Such- und Statistikwerkzeugen über grafische Benutzeroberflächen, ohne daß hierfür spezielle Maschinensprachkenntnisse nötig wären. Die gefundenen Informationen sollten als Grundlage für unternehmerische Entscheidungen oder zur Erfolgskontrolle dienen; insofern ist Data Warehouse Teil eines sog. Entscheidungshilfesystems (engl: 'decision support system', DSS). Im Englischen bezeichnet der Begriff Data Warehouse auch ein Verb und steht somit als Überbegriff für alle Integrationsprozesse5 der Daten von ihrer Gewinnung bis zu ihrer Auswertung. Kurz zusammengefaßt besteht der Aufbau eines Data Warehouse aus der Gewinnung der 'Rohdaten' nach Trennung vom 'operativen Bestand' (dem zweckgebundenen Einsatzort), ihrer Bereinigung um (management-) irrelevante Anteile, ihrer Konvertierung in ein einheitliches Format, (unter Umständen ihrer Integration, also die Zusammenführung bisher getrennter Dateien) und schließlich ihrer Transformation in ein Warehouse ('Riesendatenbank') mit zusätzlicher Beigabe von Metadaten. Aus den so gewonnen Daten werden u.a. mit Hilfe von Suchwerkzeugen Abfragen erstellt und Berichte erzeugt. Neben 'Information Retrieval' und 'OLAP' (Online Analytical Processing), mit denen vor allem schon bekannte Informationen dargestellt werden können, oder solche, von denen bekannt ist, daß sie existieren, ist hierbei vor allem die Methode des Data Mining interessant, die neues Wissen 'schaffen' soll, indem sie bisher nicht bekannte Beziehung von Daten untereinander ausfindig macht. 2. Der Data Mining-Prozeß Im wissenschaftlichen Rahmen existieren viele Überschneidungen im Bereich maschineller Verfahren der Wissensextraktion (z. B. zwischen der Künstlichen-Intelligenz-Forschung mit dem Maschinellen Lernen, der Statistik, der Informatik, usw...); hier stellt Data Mining (deutsch auch: Datenmustererkennung 6) einen Teilbereich des 'Knowledge Discovery in Databases' (KDD) dar (im kommerziellen Bereich werden beide Begriffe oft 5 Klußmann, a.a.O, 107.; Groffmann, a.a.O., 12 -13; Jakisch, KDD, 10-12. a.a.O., 4 6Jakisch, WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 4 auch synonym gebraucht 7). Beide Methoden zielen darauf ab, mit Hilfe von Algorithmen, die selbständig Hypothesen erzeugen und validieren "völlig neue[r] und abweichende[r] Muster, Zusammenhänge und Aussagen mit entscheidungsrelevantem Informationsgehalt"8 zwischen Datensätzen einer Datenbank aufzufinden. Die so erschlossenen 'Wissensmuster' (z. B. Häufigkeitsverteilungen, Abweichungen, Ähnlichkeiten) sollen bisher unbekannt sein und einen Prognosewert besitzen9 (also Aussagen für zukünftiges Verhalten beispielsweise von Märkten erlauben). Data Mining ist ein schrittweiser Prozeß, bei dem neben Softwarewerkzeugen die (menschliche) Planung und Entscheidung über den Einsatz von Methoden unverzichtbar ist10. Moerkotte und Westmann erwähnen folgende Einzelschritte11: 1. Sammlung, Integration und Bereinigung vorhandener Daten; 2. Datenextraktion; 3. Datentransformation; 4. Hypothesengenerierung; [zusammen mit] 5. Hypothesenvalidierung [das eigentliche Data Mining]; 6. Interpretation und Modellbildung. Bei unerwarteten Ergebnissen sind Teile des Prozesses evtl. zu wiederholen oder Parameter zu verändern: "[...] der Mensch entscheidet aufgrund der innerhalb der Teilschritte erzielten Ergebnisse, welche nächsten Schritte sinnvoll sind, und der Computer nähert sich schrittweise in automatisch wiederholenden Rechengängen der exakten Lösung"12, bevor schließlich die Ergebnisse (in Form von 'Clustern', 'Klassifikationen', oder 'Entscheidungsbaum') interpretiert und bildlich dargestellt als Grundlage für betriebliche Entscheidungen (oder im wissenschaftlichen Bereich etwa zur Entwicklung neuer Algorithmen) dienen können. 3. Der Einsatz in der Praxis Seit Entwicklung der Verfahren profitierten bereits viele unterschiedliche Bereiche von Data Mining: In der Medizin beispielsweise kommen Mining-Verfahren zum Einsatz, wenn es gilt, eine Prognose über den Eintritt von Komplikationen bei Erkrankungen oder über Krankheitsrisiken zu erstellen13. Daneben bestehen Einsatzmöglichkeiten bei der Verbrechensbekämpfung (Entdeckung von Geldwäscheaktivitäten), in der Fertigungsindustrie (Materialprüfung), und im Steinkohlebergbau, wo ein differenzierteres Meßsystem von CO-Konzentrationen aufgrund von Data Mining7 Wrobel, 6 Jakisch,a.a.O., 3 9 a.a.O., 4 10 a.a.O., 13 11 Moerkotte; Westmann, a.a.O., 129 12 Jakisch, a.a.O., 5 13 vgl. Dürer u.a. 8 WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 5 Verfahren eine bessere Brandfrüherkennung in Stollen ermöglicht 14. 'Klassische' Einsatzgebiete für Data Mining-Verfahren liegen aber vor allem in der Wirtschaft: In der Finanzanalyse (Börsentendenzen, Anlageberatung) und im Handel. Hier z. B. bei der 'Warenkorbanalyse' ("welche Waren werden zusammen gekauft"), der Analyse von Abweichungen vom üblichen Einkaufsverhalten (zur frühzeitigen 'Trenderkennung')15 oder der Frage, wie sich die Kundschaft z. B. nach Einkommen verteilt (für gezieltere Werbemaßnahmen) 16; vor allem die Erstellung solcher 'Kundenprofile' aus einzelnen Datenbeständen und ihre Zusammenführung sind jedoch nicht unumstritten. 4. Data Warehouse und Data Mining versus Datenschutz Solange chemischen Verbindungen oder Unregelmäßigkeiten in Werkstoffverbindungen nachgespürt wird, erweist sich Data Mining als nützlich. Sobald aber mit personenbezogenen Daten operiert wird, diese systematisch gesammelt werden (z. B. über Kundenbefragungen oder 'Kundenkarten') und schließlich Kundenprofile als Verhaltensanalysen realer Personen zusammengeführt werden, scheinen Data Warehouse und Data Mining auf Kollisionskurs mit Persönlichkeitsrechten und Datenschutzbestimmungen zu gehen. So stellt Möller fest, "daß das Data Warehouse mit personenbezogenen Daten in der Bundesrepublik nach geltendem Recht schlicht verboten ist"17; er fährt fort "Seit dem Volkszählungsurteil des BVerfG aus dem Jahre 1984 ist [...] klar, daß die Sammlung von personenbezogenen Daten auf Vorrat zu unbestimmten oder noch nicht bestimmbaren Zwecken nicht zulässig sein kann [...]" und schließt mit der Auffassung, Data Warehouse sei nur ein neuer "Begriff für eine Idee, die durch höchstrichterliche Entscheidung in Bezug auf personenbezogene Daten längst verworfen und ausgeschlossen wurde"18. Besondere Kritik erweckt hier die Analyse mit Hilfe von Bewertungsmodellen (sog. 'Scoring-Verfahren'), bei denen der "Kundenwert" eines Menschen für ein Unternehmen oder seine Kreditwürdigkeit ermittelt werden soll19. Negative gruppenstatistische Resultate könnten somit einer Einzelperson auch ganz ohne deren eigenes Zutun und ungeachtet ihrer realen 14 Burgard u.a., 46ff Moerkotte; Westmann, a.a.O., 132 16 a.a.O., 130 17 Möller, 555 18 Möller, 558 19 Möller a.a.O., 557; s.a.: "Die mysteriöse Zahl". in: Finanztest (1999) 1, 25; s.a.: Schufa. 15 WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 6 Verhältnisse zugeschrieben und gespeichert20. werden. (Vor diesem Hintergrund sei etwa auch an den 'Fall Intel' erinnert [PC-Prozessor mit einmaliger Seriennummer, der potentiell den Nutzer im Internet als Person identifizieren könnte; die Presse berichtete] und zumindest der Möglichkeit, Kundenprofile quasi gleich 'online' zu erstellen und zu vervollkommnen.) 5. Schlußüberlegung Data Warehouse und Data Mining haben sich innerhalb kurzer Zeit zu vielversprechenden Anwendungen für die maschinelle Informationserschließung entwickelt, insbesondere für die Aufdeckung unbekannter Korrelationen, und mittlerweile einen festen Stellenwert in wirtschaftlichen Entscheidungsfindungsprozessen. Die weitergehende Entwicklung von Benutzerschnittstellen und Algorithmen lassen eine große Zukunft für diese Verfahren erwarten. Nichtsdestoweniger stimmt es nachdenklich, wenn der Markt für Datenbanksysteme boomt 21; kritische Stimmen, auch unabhängig von Datenschutzbedenken, mahnen, daß Softwareeinsatz insbesondere kein Ersatz für analytisches Wissen und Handeln (bereits beim Erstellen von Warehouses) sei. Uthurusamy merkt in diesem Zusammenhang deutlich an: "[...] the recent popularity of the seemingly new trend of data warehousing is mainly dew to the vendors' push and not to the advent of any new and significant advances in database technology"22. Moerkotte und Westmann weisen unverhohlen auf die möglicherweise 'schlampige' Vorgehensweise analytisch-technisch wenig vertrauter 'Goldgräber' hin23. Der Nutzen (hauptsächlich für die Wirtschaft) von Data Mining und Data Warehouse kann kaum bestritten werden. Nichtsdestotrotz stellt sich die Frage nach der Technikfolgenabschätzung insbesondere im Bereich des Datenschutzes noch nicht laut genug: Was sollte kommerziellen Anwendern (unter dem Druck einen Wettbewerbsvorteil erringen oder die eigene (Arbeits) Marktposition rechtfertigen zu müssen) im Zweifelsfall, also im Umgang mit sensiblen Daten, Einhalt gebieten, wenn doch das Werkzeug selbst zum genauen Gegenteil von Anonymisieren geschaffen ist? Es sind weniger Bedenken vor einem 'Großen Bruder' Orwellscher Prägung, auch nicht Furcht 'gläsern' zu werden. Es ist eher das Unbehagen, einseitig fixierte Datenjäger schüfen Fakten die es, bei sorgfältigerer (oder 20 Möller a.a.O.: "Dabei dürfte eine Stigmatisierung nicht nur auf finanzielle Bereiche des Lebens beschränkt bleiben. Das Bild vom "globalen Dorf" bedeutet auch, daß ein Mensch und das kann jeden von uns treffen - u. U. zum globalen Dorftrottel (gemacht) wird." 21 Henkel, 66 22 Uthurusamy in: Fayyad (u.a.), Advances, 563. 23 Moerkotte; Westmann, a.a.O. WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 7 nichtkommerzieller) Arbeitsweise, nicht gäbe.... Hierzu lassen Moerkotte und Westmann abschließend an Deutlichkeit nichts vermissen: Konsequenz: Knowledge Discovery in Databases und Data Mining sind noch Schwarze Künste, die Experten die Zauberlehrlinge. Von denen gibt es bisher nur sehr wenige. Wissen und Erfahrung über statistische Analysen ist zwar meist vorhanden, es hapert aber oft bei den KDD-Techniken. Dieser Mangel kann zu falschen Modellen führen. Darauf basierende Entscheidungen fallen oftmals nicht viel besser aus als solche aus dem hohlen Bauch. (a.a.O., 132) WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten Data Mining / Data Warehouse 6. 8 Literatur Burgard, Wolfram u.a.: "Verbesserte Brandfrüherkennung im Steinkohlebergbau durch Vorhersage von CO-Konzentrationen". in: KI Künstliche Intelligenz. 12 (1998) 1, 46 - 53. "Die mysteriöse Zahl. Ein neues Schufa-Verfahren [...]". in: Finanztest (1999) 1, 25. Dürer, H. u.a.: "Einsatz von Data Mining-Verfahren in der Kardiologie". in: KI Künstliche Intelligenz. 11 (1997) 3, 37 - 41. Fayyad, Usama M. (u.a.) (Hrsg.): Advances in Knowledge Discovery and Data Mining. Menlo Park, CA: AAAI Press, 1996. Groffmann, Hans-Dieter: "Das Data-Warehouse Konzept". in: HMD - Theorie und Praxis der Wirtschaftsinformatik. (1997) 195, 8 - 17. Henkel, Norbert: "Mit Data-Mining im Datenwust die Kundenwünsche aufspüren". in: Computerwoche (1998) 49, 66 - 70. Jakisch, Elgin: Knowledge Discovery in Databases (KDD) und Data Mining. Diplomarbeit. (Fachhochschule Potsdam: Dokumentationswesen). Potsdam, 1998. Klußmann, Nils: Lexikon der Kommunikations- und Informationstechnik. Heidelberg: Hüthig, 1997. Moerkotte, Guido; Westmann, Till: "Schwarze Magie. Knowledge Discovery: Suche nach verborgenen Schätzen". in: iX (1997) 8, 128 - 133. Möller, Frank: "Data Warehouse als Warnsignal an die Datenschutzbeauftragten". in: DuD - Datenschutz und Datensicherheit 22 (1998) 10, 555 - 560. SCHUFA: "Information. Was Sie über SCHUFA wissen sollten". Faltblatt der SCHUFA - Ostdeutsche Schutzgemeinschaft für allgemeine Kreditsicherung GmbH, Berlin. (Stand: Okt. ‘98). Schumacher, Manfred: "Aus Daten Gold machen". in: info21 24: 4 (1998), 52 - 56. Uthurusamy, Ramasamy: "From Data Mining to Knowledge Discovery: Current Challenges and Future Directions". in: Fayyad (u.a.) 1996, 561 569. Wrobel, Stefan: "Data Mining und Wissensentdeckung in Datenbanken". in: KI - Künstliche Intelligenz. 12 (1998) 1, 6 - 10. WS 1999/2000 01. Sem.Kurs: Wiss. Arbeiten