Datamining und Data-Warehouse

Werbung
FH Potsdam
Fachbereich A-B-D
WS 1999/2000
Hausarbeit
Data Mining / Data Warehouse
Kurs:
Einführung in das Wissenschaftliche Arbeiten
Dozent:
Prof. Dr. H.-C. Hobohm
vorgelegt von:
Jürgen Promeuschel
01. Sem. (Bibliothek)
[email protected]
Abgabetermin:
05.01.2000
Data Mining / Data Warehouse
2
Inhaltsübersicht
0.
1.
2.
3.
4.
5.
6.
Einleitung
Das Data Warehouse-Konzept: Grundlage für Data Mining
Der Data-Mining-Prozeß
Der Einsatz in der Praxis
Data Warehouse und Data Mining versus Datenschutz
Schlußüberlegung
Literatur
0.
Einleitung
Softwarevertreter wittern einen baldigen Goldrausch in Datenspeichern
von Unternehmen1, Wissenschaftler sprechen von 'Schwarzer Magie'2 und
kritische Seher in der Datenwüste warnen, der Mensch der Zukunft sei
'gläsern'... Was ist der Anlaß für solche Aufregung?
Die folgenden Seiten stellen einen kurzen Versuch dar, die Konzepte
'Data Mining' und 'Data Warehouse' zu erläutern, sie in einen Begriffskontext
einzuordnen und grundlegende Arbeitsabläufe zu beschreiben. Nach
Beispielen vom Einsatz in der Praxis wird auf Probleme im Zusammenhang mit
dem Datenschutz hingewiesen. Abschließend wird eine kurze Bewertung des
Phänomens mit Ausblick versucht.
1.
Das Data Warehouse-Konzept: Grundlage für Data Mining
Die seit Jahren anhaltende Computerisierung der Gesellschaft ließ
insbesondere im Wirtschaftsleben schnell große Datenmengen entstehen, die
zunächst kaum genutzt 'auf Halde' lagen. Durch fortschrittsbedingte
Weiterentwicklung von Speichermedien sank zwar der Platzbedarf für
Speichergut, andererseits wurde die Recherche nach Daten vor neue
Herausforderungen gestellt. Zugleich forderten Entwicklungen der Märkte eine
forcierte Nutzung von Informationen zur Sicherung der Wettbewerbsfähigkeit.
Klußmann zufolge3 prägte Bill Inmons 19924 den Begriff Data Warehouse
(deutsch etwa: 'Daten-Lagerhaus') bei seinem Versuch bisherige
'Managementinformationssysteme' in Unternehmen weiterzuentwickeln.
Ein Data Warehouse bezeichnet einen (nicht notwendigerweise)
zentralen Speicherort für Daten aus allen Bereichen eines Unternehmens.
Idee ist hierbei, Daten unabhängig von ihrer bisherigen Betriebsumgebung
1
vgl. Schumacher, 52
Moerkotte; Westmann, 132.
3 Klußmann, Lexikon, 106 -107
4 abweichend hiervon: Groffmann, 10
2
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
3
oder ihres unmittelbaren ('transaktionsorientierten') Zwecks ('operativer
Bestand') und unabhängig von Datenart oder Zugriffssprache zu verwalten.
Zusätzlich sollen externe Daten (wie etwa Fachzeitschriften oder andere
'Business-Informationen') und Metadaten (Angaben über die gespeicherten
Daten, wie Herkunft, Speicherort, Erhebungsturnus etc.) enthalten sein. Als
Ziel steht die schnelle, unkomplizierte Abfrage der (durch gewisse Arbeitsschritte vereinheitlichten) Informationen mit Hilfe von Such- und Statistikwerkzeugen über grafische Benutzeroberflächen, ohne daß hierfür spezielle
Maschinensprachkenntnisse nötig wären. Die gefundenen Informationen
sollten als Grundlage für unternehmerische Entscheidungen oder zur
Erfolgskontrolle dienen; insofern ist Data Warehouse Teil eines sog.
Entscheidungshilfesystems (engl: 'decision support system', DSS). Im
Englischen bezeichnet der Begriff Data Warehouse auch ein Verb und steht
somit als Überbegriff für alle Integrationsprozesse5 der Daten von ihrer
Gewinnung bis zu ihrer Auswertung.
Kurz zusammengefaßt besteht der Aufbau eines Data Warehouse aus
der Gewinnung der 'Rohdaten' nach Trennung vom 'operativen Bestand' (dem
zweckgebundenen Einsatzort), ihrer Bereinigung um (management-)
irrelevante Anteile, ihrer Konvertierung in ein einheitliches Format, (unter
Umständen ihrer Integration, also die Zusammenführung bisher getrennter
Dateien) und schließlich ihrer Transformation in ein Warehouse ('Riesendatenbank') mit zusätzlicher Beigabe von Metadaten.
Aus den so gewonnen Daten werden u.a. mit Hilfe von Suchwerkzeugen Abfragen erstellt und Berichte erzeugt. Neben 'Information Retrieval'
und 'OLAP' (Online Analytical Processing), mit denen vor allem schon
bekannte Informationen dargestellt werden können, oder solche, von denen
bekannt ist, daß sie existieren, ist hierbei vor allem die Methode des Data
Mining interessant, die neues Wissen 'schaffen' soll, indem sie bisher nicht
bekannte Beziehung von Daten untereinander ausfindig macht.
2.
Der Data Mining-Prozeß
Im wissenschaftlichen Rahmen existieren viele Überschneidungen im
Bereich maschineller Verfahren der Wissensextraktion (z. B. zwischen der
Künstlichen-Intelligenz-Forschung mit dem Maschinellen Lernen, der Statistik,
der Informatik, usw...); hier stellt Data Mining (deutsch auch:
Datenmustererkennung 6) einen Teilbereich des 'Knowledge Discovery in
Databases' (KDD) dar (im kommerziellen Bereich werden beide Begriffe oft
5
Klußmann, a.a.O, 107.; Groffmann, a.a.O., 12 -13; Jakisch, KDD, 10-12.
a.a.O., 4
6Jakisch,
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
4
auch synonym gebraucht 7). Beide Methoden zielen darauf ab, mit Hilfe von
Algorithmen, die selbständig Hypothesen erzeugen und validieren "völlig
neue[r] und abweichende[r] Muster, Zusammenhänge und Aussagen mit
entscheidungsrelevantem Informationsgehalt"8 zwischen Datensätzen einer
Datenbank aufzufinden. Die so erschlossenen 'Wissensmuster' (z. B.
Häufigkeitsverteilungen, Abweichungen, Ähnlichkeiten) sollen bisher unbekannt
sein und einen Prognosewert besitzen9 (also Aussagen für zukünftiges
Verhalten beispielsweise von Märkten erlauben).
Data Mining ist ein schrittweiser Prozeß, bei dem neben Softwarewerkzeugen die (menschliche) Planung und Entscheidung über den Einsatz
von Methoden unverzichtbar ist10. Moerkotte und Westmann erwähnen
folgende Einzelschritte11: 1. Sammlung, Integration und Bereinigung
vorhandener Daten; 2. Datenextraktion; 3. Datentransformation; 4.
Hypothesengenerierung; [zusammen mit] 5. Hypothesenvalidierung [das
eigentliche Data Mining]; 6. Interpretation und Modellbildung.
Bei unerwarteten Ergebnissen sind Teile des Prozesses evtl. zu
wiederholen oder Parameter zu verändern: "[...] der Mensch entscheidet aufgrund der innerhalb der Teilschritte erzielten Ergebnisse, welche nächsten
Schritte sinnvoll sind, und der Computer nähert sich schrittweise in automatisch wiederholenden Rechengängen der exakten Lösung"12, bevor
schließlich die Ergebnisse (in Form von 'Clustern', 'Klassifikationen', oder
'Entscheidungsbaum') interpretiert und bildlich dargestellt als Grundlage für
betriebliche Entscheidungen (oder im wissenschaftlichen Bereich etwa zur
Entwicklung neuer Algorithmen) dienen können.
3.
Der Einsatz in der Praxis
Seit Entwicklung der Verfahren profitierten bereits viele unterschiedliche Bereiche von Data Mining: In der Medizin beispielsweise kommen
Mining-Verfahren zum Einsatz, wenn es gilt, eine Prognose über den Eintritt
von Komplikationen bei Erkrankungen oder über Krankheitsrisiken zu erstellen13. Daneben bestehen Einsatzmöglichkeiten bei der Verbrechensbekämpfung (Entdeckung von Geldwäscheaktivitäten), in der Fertigungsindustrie (Materialprüfung), und im Steinkohlebergbau, wo ein differenzierteres Meßsystem von CO-Konzentrationen aufgrund von Data Mining7
Wrobel, 6
Jakisch,a.a.O., 3
9 a.a.O., 4
10 a.a.O., 13
11 Moerkotte; Westmann, a.a.O., 129
12 Jakisch, a.a.O., 5
13 vgl. Dürer u.a.
8
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
5
Verfahren eine bessere Brandfrüherkennung in Stollen ermöglicht 14.
'Klassische' Einsatzgebiete für Data Mining-Verfahren liegen aber vor
allem in der Wirtschaft: In der Finanzanalyse (Börsentendenzen, Anlageberatung) und im Handel. Hier z. B. bei der 'Warenkorbanalyse' ("welche
Waren werden zusammen gekauft"), der Analyse von Abweichungen vom
üblichen Einkaufsverhalten (zur frühzeitigen 'Trenderkennung')15 oder der
Frage, wie sich die Kundschaft z. B. nach Einkommen verteilt (für gezieltere
Werbemaßnahmen) 16; vor allem die Erstellung solcher 'Kundenprofile' aus
einzelnen Datenbeständen und ihre Zusammenführung sind jedoch nicht
unumstritten.
4.
Data Warehouse und Data Mining versus Datenschutz
Solange chemischen Verbindungen oder Unregelmäßigkeiten in
Werkstoffverbindungen nachgespürt wird, erweist sich Data Mining als
nützlich. Sobald aber mit personenbezogenen Daten operiert wird, diese
systematisch gesammelt werden (z. B. über Kundenbefragungen oder
'Kundenkarten') und schließlich Kundenprofile als Verhaltensanalysen realer
Personen zusammengeführt werden, scheinen Data Warehouse und Data
Mining auf Kollisionskurs mit Persönlichkeitsrechten und Datenschutzbestimmungen zu gehen. So stellt Möller fest, "daß das Data Warehouse mit
personenbezogenen Daten in der Bundesrepublik nach geltendem Recht
schlicht verboten ist"17; er fährt fort "Seit dem Volkszählungsurteil des BVerfG
aus dem Jahre 1984 ist [...] klar, daß die Sammlung von personenbezogenen
Daten auf Vorrat zu unbestimmten oder noch nicht bestimmbaren Zwecken
nicht zulässig sein kann [...]" und schließt mit der Auffassung, Data
Warehouse sei nur ein neuer "Begriff für eine Idee, die durch
höchstrichterliche Entscheidung in Bezug auf personenbezogene Daten längst
verworfen und ausgeschlossen wurde"18.
Besondere Kritik erweckt hier die Analyse mit Hilfe von Bewertungsmodellen (sog. 'Scoring-Verfahren'), bei denen der "Kundenwert" eines
Menschen für ein Unternehmen oder seine Kreditwürdigkeit ermittelt werden
soll19. Negative gruppenstatistische Resultate könnten somit einer Einzelperson auch ganz ohne deren eigenes Zutun und ungeachtet ihrer realen
14
Burgard u.a., 46ff
Moerkotte; Westmann, a.a.O., 132
16 a.a.O., 130
17 Möller, 555
18 Möller, 558
19 Möller a.a.O., 557; s.a.: "Die mysteriöse Zahl". in: Finanztest (1999) 1, 25; s.a.: Schufa.
15
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
6
Verhältnisse zugeschrieben und gespeichert20. werden. (Vor diesem
Hintergrund sei etwa auch an den 'Fall Intel' erinnert [PC-Prozessor mit
einmaliger Seriennummer, der potentiell den Nutzer im Internet als Person
identifizieren könnte; die Presse berichtete] und zumindest der Möglichkeit,
Kundenprofile quasi gleich 'online' zu erstellen und zu vervollkommnen.)
5.
Schlußüberlegung
Data Warehouse und Data Mining haben sich innerhalb kurzer Zeit zu
vielversprechenden Anwendungen für die maschinelle Informationserschließung entwickelt, insbesondere für die Aufdeckung unbekannter
Korrelationen, und mittlerweile einen festen Stellenwert in wirtschaftlichen
Entscheidungsfindungsprozessen. Die weitergehende Entwicklung von
Benutzerschnittstellen und Algorithmen lassen eine große Zukunft für diese
Verfahren erwarten.
Nichtsdestoweniger stimmt es nachdenklich, wenn der Markt für
Datenbanksysteme boomt 21; kritische Stimmen, auch unabhängig von
Datenschutzbedenken, mahnen, daß Softwareeinsatz insbesondere kein
Ersatz für analytisches Wissen und Handeln (bereits beim Erstellen von
Warehouses) sei. Uthurusamy merkt in diesem Zusammenhang deutlich an:
"[...] the recent popularity of the seemingly new trend of data warehousing is
mainly dew to the vendors' push and not to the advent of any new and
significant advances in database technology"22. Moerkotte und Westmann
weisen unverhohlen auf die möglicherweise 'schlampige' Vorgehensweise
analytisch-technisch wenig vertrauter 'Goldgräber' hin23.
Der Nutzen (hauptsächlich für die Wirtschaft) von Data Mining und Data
Warehouse kann kaum bestritten werden. Nichtsdestotrotz stellt sich die
Frage nach der Technikfolgenabschätzung insbesondere im Bereich des
Datenschutzes noch nicht laut genug: Was sollte kommerziellen Anwendern
(unter dem Druck einen Wettbewerbsvorteil erringen oder die eigene (Arbeits) Marktposition rechtfertigen zu müssen) im Zweifelsfall, also im Umgang mit
sensiblen Daten, Einhalt gebieten, wenn doch das Werkzeug selbst zum
genauen Gegenteil von Anonymisieren geschaffen ist?
Es sind weniger Bedenken vor einem 'Großen Bruder' Orwellscher
Prägung, auch nicht Furcht 'gläsern' zu werden. Es ist eher das Unbehagen,
einseitig fixierte Datenjäger schüfen Fakten die es, bei sorgfältigerer (oder
20
Möller a.a.O.: "Dabei dürfte eine Stigmatisierung nicht nur auf finanzielle Bereiche des
Lebens beschränkt bleiben. Das Bild vom "globalen Dorf" bedeutet auch, daß ein Mensch und das kann jeden von uns treffen - u. U. zum globalen Dorftrottel (gemacht) wird."
21 Henkel, 66
22 Uthurusamy in: Fayyad (u.a.), Advances, 563.
23 Moerkotte; Westmann, a.a.O.
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
7
nichtkommerzieller) Arbeitsweise, nicht gäbe....
Hierzu lassen Moerkotte und Westmann abschließend an Deutlichkeit
nichts vermissen:
Konsequenz: Knowledge Discovery in Databases und Data Mining sind noch Schwarze
Künste, die Experten die Zauberlehrlinge. Von denen gibt es bisher nur sehr wenige.
Wissen und Erfahrung über statistische Analysen ist zwar meist vorhanden, es hapert
aber oft bei den KDD-Techniken. Dieser Mangel kann zu falschen Modellen führen.
Darauf basierende Entscheidungen fallen oftmals nicht viel besser aus als solche aus
dem hohlen Bauch.
(a.a.O., 132)
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Data Mining / Data Warehouse
6.
8
Literatur
Burgard, Wolfram u.a.: "Verbesserte Brandfrüherkennung im
Steinkohlebergbau durch Vorhersage von CO-Konzentrationen". in: KI Künstliche Intelligenz. 12 (1998) 1, 46 - 53.
"Die mysteriöse Zahl. Ein neues Schufa-Verfahren [...]". in: Finanztest (1999)
1, 25.
Dürer, H. u.a.: "Einsatz von Data Mining-Verfahren in der Kardiologie". in: KI Künstliche Intelligenz. 11 (1997) 3, 37 - 41.
Fayyad, Usama M. (u.a.) (Hrsg.): Advances in Knowledge Discovery and
Data Mining. Menlo Park, CA: AAAI Press, 1996.
Groffmann, Hans-Dieter: "Das Data-Warehouse Konzept". in: HMD - Theorie
und Praxis der Wirtschaftsinformatik. (1997) 195, 8 - 17.
Henkel, Norbert: "Mit Data-Mining im Datenwust die Kundenwünsche aufspüren". in: Computerwoche (1998) 49, 66 - 70.
Jakisch, Elgin: Knowledge Discovery in Databases (KDD) und Data Mining.
Diplomarbeit. (Fachhochschule Potsdam: Dokumentationswesen).
Potsdam, 1998.
Klußmann, Nils: Lexikon der Kommunikations- und Informationstechnik.
Heidelberg: Hüthig, 1997.
Moerkotte, Guido; Westmann, Till: "Schwarze Magie. Knowledge Discovery:
Suche nach verborgenen Schätzen". in: iX (1997) 8, 128 - 133.
Möller, Frank: "Data Warehouse als Warnsignal an die
Datenschutzbeauftragten". in: DuD - Datenschutz und Datensicherheit
22 (1998) 10, 555 - 560.
SCHUFA: "Information. Was Sie über SCHUFA wissen sollten". Faltblatt der
SCHUFA - Ostdeutsche Schutzgemeinschaft für allgemeine
Kreditsicherung GmbH, Berlin. (Stand: Okt. ‘98).
Schumacher, Manfred: "Aus Daten Gold machen". in: info21 24: 4 (1998), 52
- 56.
Uthurusamy, Ramasamy: "From Data Mining to Knowledge Discovery:
Current Challenges and Future Directions". in: Fayyad (u.a.) 1996, 561 569.
Wrobel, Stefan: "Data Mining und Wissensentdeckung in Datenbanken". in: KI
- Künstliche Intelligenz. 12 (1998) 1, 6 - 10.
WS 1999/2000
01. Sem.Kurs: Wiss. Arbeiten
Herunterladen