weiterlesen als pdf

Werbung
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy
'DV'DWD:DUHKRXVH.RQ]HSW'DWD0LQLQJ
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
INHALTSVERZEICHNIS
'$7$:$5(+286,1*81''$7$0,1,1*$/6%(67$1'7(,/(
'(6:,66(160$1$*(0(176
%86,1(66,17(//,*(1&(
027,9$7,21
(,1)h+581*23(5$7,9(6<67(0(
'$6'$7$:$5(+286(.21=(37
5.1 DEFINITION
5.2 ARCHITEKTURANSÄTZE
5.2.1 Das zentrale Data Warehouse
5.2.2 Das virtuelle Data Warehouse
5.2.3 Data Marts
5.3 TRANSFORMATION DER DATEN (ETL-PROZESS)
5.4 ONLINE ANALYTICAL PROCESSING (OLAP)
5.4.1 Definition
5.4.2 OLAP-Funktionen
5.5 ZUR NUTZUNG VON DATA W AREHOUSE-SYSTEMEN IN DEUTSCHEN UNTERNEHMEN
6
7
7
8
9
9
11
11
12
14
6.1 MOTIVATION
6.2 DEFINITION
6.3 TYPEN DER DATENANALYSE
6.4 ZIELSETZUNG DES DATA MINING
6.5 AUFGABEN UND MUSTERTYPEN DES DATA MINING
6.5.1 Erläuterungen zu den Aufgaben und Mustertypen
6.5.2 Generieren von Prognosemodellen
6.5.3 Abweichungsanalyse
6.5.4 Aufdecken von Beziehungsmustern
6.5.5 Datenbanksegmentierung
6.6 PHASEN DES KNOWLEDGE DISCOVERY IN DATABASES
6.6.1 Erläuterungen zum KDD-Prozess
6.6.2 Selektion der Daten
6.6.3 Exploration der Daten
6.6.4 Manipulation der Daten
6.6.5 Analyse der Daten
6.6.6 Interpretation der Ergebnisse
6.7 DATA W AREHOUSING & DATA MINING
15
15
16
17
18
18
18
19
19
21
22
22
23
23
23
24
24
25
'$7$0,1,1*
=86$00(1)$6681*81')$=,7
/,7(5$785
1
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Ä:HOLYHLQDQH[SDQGLQJXQLYHUVHRIGDWD
LQZKLFKWKHUHLVWRRPXFKGDWDDQGWRROLWWOHLQIRUPDWLRQ³
1
(P. Adriaans, D. Zantinge)
'DWD:DUHKRXVHVXQG'DWD0LQLQJDOV%HVWDQGWHLOH
GHV:LVVHQVPDQDJHPHQWV
Betrachtet man einschlägige Literatur zum Thema Wissensmanagement, so ist
auffällig, dass eine beträchtliche Anzahl von Definitionen dieses Begriffes existieren.
Eine Gemeinsamkeit vieler dieser Definition manifestiert sich in der Zielsetzung des
Wissensmanagements, nämlich in der Mobilisierung des gesamten Wissens einer
Gruppe, Organisation oder eines Unternehmens und die adäquate Bereitstellung
dieses Wissens2.
Bei der Benutzung von Systemen der Informationstechnik zur Unterstützung des
Wissensmanagements stellen Daten die Basis von Wissen dar, z. B. in Form von
Werten oder Größen, die durch Beobachtungen, Befragungen und Messungen
erhoben worden sind. Diese Daten werden beispielsweise als Zahlentabellen, Texte
oder Bilder festgehalten und können durch angemessene Auswertung zu
Informationen werden3. Von Information kann gesprochen werden, wenn die oben
genannten Daten Handlungsrelevanz für Personen haben, d. h. für das Treffen von
Entscheidungen oder das Vornehmen von Handlungen von Bedeutung sind4. Wissen
entsteht aus Information zu dem Zeitpunkt, an dem ein Mensch diese Informationen
in sein Gedächtnis aufnimmt und verarbeitet5.
Das Zugänglichmachen von potenziellen Informationen zur Unterstützung von
Entscheidungen und der Wissensgenerierung in Organisationen kann durch
geeignete Werkzeuge aus dem Bereich der Informationstechnologie bewerkstelligt
werden6.
1
Adriaans, Zantinge, 1996, 2.
vgl. Hendrichs, 2002, 55.
3
vgl. ebenda.
4
vgl. Kuhlen, 2004, 3.
5
vgl. Glowalla, 2004, 711.
6
vgl. Hendrichs, 2002, 56.
2
2
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Folgende Ausführungen befassen sich mit zwei Konzepten und konkreten
Anwendungen aus dem Bereich der Informationstechnologie, die den Informationsund Wissensmanagementprozess in Organisationen unterstützen sollen, nämlich
den Konzepten des „Data Warehousing“ und „Data Mining“. Im Wissensmanagementverständnis von Lüthy, Voit und Wehner sind die Konzepte von Data
Warehousing und Data Mining dem Handlungsfeld der IT- und Mediennutzung
zuzuordnen7.
Zunächst soll eine Einführung in den Themenkomplex gegeben werden, der die
Notwendigkeit für den Einsatz der bereits erwähnten Technologien erklärt.
Darauffolgend soll der mit dem Thema im Zusammenhang stehende Oberbegriff
„Business Intelligence“ definiert und erläutert werden, bevor auf wichtige Grundlagen
für ein tiefergehendes Verständnis von organisationaler IT-Infrastruktur eingegangen
wird. Dieses Verständnis stellt sich als essentiell für weitere Betrachtung von Data
Warehouse-Konzepten dar.
Im Kern der vorliegenden Arbeit findet sich eine Auswahl detailliert dargestellter
Aspekte des Data Warehousing (Definitionen, Architekturansätze, Datentransformationsprozess
(ETL-Prozess),
OLAP,
Aspekte
der
Nutzung
von
Data
Warehouse-Systemen in deutschen Unternehmen) und Data Mining (Definition,
Typen der Datenanalyse, Ziele der Anwendung, Typen zu entdeckender Muster,
Beschreibung des Analyseprozesses, Synergiepotentiale der gemeinsamen Nutzung
von Data Warehouse- und Data Mining-Systemen). Zum Abschluss der Ausführungen soll eine Zusammenfassung und ein Fazit zum Thema gegeben werden.
0RWLYDWLRQ
Durch den steigenden Wettbewerbsdruck, welchem heutige Unternehmen ausgesetzt sind, sind die schnelle und effektive Umsetzung von Informationen in Entscheidungen und Handlungsmaßnahmen unerlässlich, wenn es um die Sicherung
von Wettbewerbsvorteilen geht. Im Unternehmen vorhandene Daten, die bei der
Abwicklung des operativen Geschäfts entstehen, spielen in diesem Zusammenhang
7
vgl. Clases, Wehner, 2002, 45-52.
3
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
eine wesentliche Rolle, weil sie die vorliegende Unternehmenssituation wiederspiegeln, auf deren Grundlage sämtliche Entscheidungen des Unternehmens
getroffen werden sollten8. Durch das ständige Wachstum des Datenvolumens in
Organisationen und beruhend auf der Tatsache, dass die Daten aus der operativen
Geschäftsabwicklung
ausschlaggebend
für
die
Entscheidungsprozesse
der
Organisation sind, ist es von Bedeutung, diese Daten in übersichtlicher Weise den
jeweiligen Entscheidungsträgern zur Verfügung zu stellen.
Weiterhin ist zu vermerken, dass die vorhandenen Datenmengen auch Informationen
enthalten können, die durch menschliche Auswertung, z. B. aufgrund ihrer
Komplexität, nicht erfassbar sind. Daherkommend ist der Wunsch nach computergestützten Verfahren entstanden, die automatisch interessante Muster in großen
Datenbeständen entdecken und diese herausfiltern9.
Die gezeigten Bedürfnisse nach übersichtlicher Darstellung von Informationen für
Entscheidungsträger und dem automatischen Entdecken interessanter Informationen
lassen sich durch den Einsatz von Data Warehouse- und Data Mining-Konzepten
befriedigen, denen sich die nachfolgenden Ausführungen widmen. Zunächst soll der
Begriff Business Intelligence definiert und in den Kontext eingeordnet werden.
%XVLQHVV,QWHOOLJHQFH
Unter dem Begriff Business Intelligence lassen sich analytische Konzepte, Prozesse
und Werkzeuge zur Transformation von Unternehmensdaten in entscheidungsrelevantes Wissen und zur Unterstützung von Entscheidungen subsumieren10. Unter
diesen Oberbegriff fallen auch Konzepte wie Data Warehousing und Data Mining.
„Intelligence“ ist dabei nach Hansen und Neumann im Sinne von „Nachrichtendienst“
zu verstehen (so wie bei CIA: &HQWUDO,QWHOOLJHQFH$JHQF\)11.
In der Literatur zu diesem Thema wird allerdings des öfteren darauf hingewiesen,
dass es sich dabei um ein Schlagwort handelt, unter dem Software vermarktet
werden soll. Durch neue Bezeichnungen werde der Eindruck innovativer, bahn8
vgl. Knobloch, 2001, 1.
vgl. Küppers, 1999, 13.
10
vgl. Vitt, Luckevich, Misner, 2002, 9f.
11
vgl. Hansen, Neumann, 2001, 514.
9
4
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
brechender Lösungen vermittelt, obwohl das dahinter liegende Prinzip älteren
Ursprungs sei12. Nichtsdestotrotz beschreibt die Literatur gleichzeitig einen größeren
Funktionsumfang, über den neuere Konzepte unter dem Namen Business
Intelligence im Gegensatz zu den Vorgängerkonzepten verfügten13.
Es bleibt zu vermerken, dass es sich bei diesem Sachverhalt um ein Thema handelt,
welches nicht unumstritten ist, aber auch, dass die hinter all diesen Konzeptnamen
stehenden Ziele, nämlich die Unterstützung und Versorgung von Entscheidungsträgern mit relevanten Informationen, unabhängig von ihrem Implementierungsgrad,
in allen Konzepten angestrebt werden.
(LQIKUXQJ2SHUDWLYH6\VWHPH
Wo und wie in Unternehmen und Organisationen Daten entstehen, ist wesentlich für
das Verständnis des Zweckes und der Funktionsweise von Data Warehouse- und
Data Mining-Systemen. Deshalb soll an dieser Stelle am Beispiel des integrierten
Anwendungssystems SAP R/3 kurz verdeutlicht werden, wie die IT-Infrastruktur, d.h.
alle informationstechnischen Einrichtungen, in Unternehmen gestaltet sein kann, wie
sie oftmals in der Realität vorliegt und welche Konsequenzen sich daraus ergeben.
Mit integrierten betriebswirtschaftlichen Anwendungssystemen lassen sich viele
Funktionsbereiche des Unternehmens abbilden. Die Unterstützung der Geschäftsprozesse heutiger Unternehmen anhand von Informationstechnologie ist aufgrund
der hohen Komplexität dieser Prozesse und der anfallenden Datenmengen
erforderlich14.
SAP R/3 umfasst u. a. Module für internes und externes Rechnungswesen,
Materialwirtschaft, Vertrieb, Qualitätsmanagement, Personalwirtschaft, etc. Das
System versucht, um die Anforderungen einer Standardsoftware zu erfüllen,
möglichst viele Funktionsbereiche, über die ein Unternehmen verfügen kann,
abzudecken15.
12
vgl. Hansen, Neumann, 2001, 514.
vgl. ebenda, 509.
14
vgl. ebenda, 523.
15
vgl. Schwarze, 2000, 282.
13
5
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Allerdings ist der Einsatz sämtlicher Module in einem Unternehmen nicht immer
gegeben. In der Unternehmensrealität zeigen sich oftmals stark heterogene
Systemlandschaften. Neben den betriebswirtschaftlichen Anwendungssystemen sind
zudem andere Anwendungstypen im Einsatz, wie z. B. Groupware in Form von
Microsoft Outlook oder Lotus Notes, Bürosoftware wie die Komponenten des Microsoft Office-Paketes und anderer Anwendungssoftware. Zusätzlich nutzen einige
Unternehmen das Internet, um relevante Wirtschaftsinformationen zu erlangen, oder
sie kaufen interessante Daten bei statistischen Ämtern oder Marktforschungsinstituten ein16.
Der Grund für heterogene Systemlandschaften in Unternehmen ist in vielen Fällen
das ständige Wachstum dieser Infrastruktur über mehrere Jahre. Diese heterogene
Systemlandschaft enthält Daten in unterschiedlichen Formaten. Eine einheitliche
Sichtweise aller vorhandenen Daten und die Vergleichbarkeit der Inhalte ist dadurch
eingeschränkt17. Im Folgenden wird das Data Warehouse-Konzept näher erläutert,
das Entscheidungsträgern die Möglichkeit bieten soll, trotz der großen Mengen an
uneinheitlich gespeicherten Daten Entscheidungen auf Basis deren Inhalte zu treffen.
'DV'DWD:DUHKRXVH.RQ]HSW
'HILQLWLRQ
„(LQ 'DWD :DUHKRXVH ID‰W GLH 'DWHQ GHV JDQ]HQ 8QWHUQHKPHQV ]XVDPPHQ XQG
HUP|JOLFKW HLQHQ HLQKHLWOLFKHQ %OLFN DXI VLH 'DEHL ZHUGHQ GLH XUVSUQJOLFKHQ
RSHUDWLYHQ'DWHQDXVGHQXQWHUVFKLHGOLFKHQ9HUIDKUHQH[WUDKLHUWLQHLQHLQKHLWOLFKHV
)RUPDW NRQYHUWLHUW XQG VR ]XVDPPHQJHID‰W GD‰ XPIDVVHQGH $XVZHUWXQJHQ
P|JOLFKZHUGHQ“18
Diese Definition von Königer & Reithmayer stellt den Vereinheitlichungsaspekt in den
Vordergrund. Folgende Definition von Immon ist eine sehr häufig zitierte Definition.
16
vgl. Bold, Hoffmann, Scheer, 1997, 5.
vgl. Bager, Becker, Munz, 1997.
18
Königer, Reithmayer, 1998, 271.
17
6
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
“$ 'DWD :DUHKRXVH LV D VXEMHFWRULHQWHG LQWHJUDWHG QRQYRODWLOH DQG WLPHYDULDQW
FROOHFWLRQRIGDWDLQVXSSRUWRIPDQDJHPHQW¶VGHFLVLRQV”19
Innerhalb dieser Definition versteht Immon unter „subject-oriented“, dass die im Data
Warehouse enthaltenen Daten an den Hauptinteressen des jeweiligen Unternehmens orientiert sein sollen. „Integrated“ steht dafür, dass die Datensammlung im
Data Warehouse Daten aus vielen unterschiedlichen Quellen enthalten kann.
„Nonvolatile“ beschreibt, dass die bereits vorhandenen Daten im Data Warehouse
nicht durch aktuellere Daten ausgetauscht werden, sondern der Datenbestand stets
erweitert wird. „Time-variant“ bedeutet, dass das Data Warehouse Zustandsinformationen zum Unternehmen zu vielen unterschiedlichen Zeitpunkten in der
Vergangenheit bieten soll. Außerdem beschreibt diese Definition nochmals, dass das
Data Warehouse Entscheidungen unterstützen soll.
Data Warehouses können deshalb auch als Informationsdatenbanken bezeichnet
werden. Diese unterscheiden sich aufgrund ihrer Aufgabe von den operativen
Datenbanken, die die Daten für die operativen Anwendungssysteme bereitstellen20.
$UFKLWHNWXUDQVlW]H
5.2.1 Das zentrale Data Warehouse
Es gibt mehrere Architekturansätze für die Strukturierung von Data Warehouses.
Den eigentlichen Data Warehouse-Begriff spiegelt das zentrale Data Warehouse
wieder. Dabei handelt es sich um eine von den operativen Systemen entkoppelte
Datenbank, die zwar durch die eigens bereitzustellende IT-Infrastruktur Kosten
verursacht, aber bei größeren Auswertungen die Leistungsfähigkeit der operativen
Systeme nicht einschränkt.
19
20
Immon, 2002, 31.
vgl. Bold, Hoffmann, Scheer, 1997, 6.
7
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Abbildung 1: Zentrale Data Warehouse-Architektur
Quelle: Schwarze, 2000
Abbildung 1 zeigt den Aufbau eines zentralen Data Warehouses. Operative und
externe Datenbestände werden durch die Anwendung von Transformationsprozessen (siehe 5.3 Transformation der Daten (ETL-Prozess)) umgewandelt und in
die Datenbasis des Data Warehouses geladen. Außerdem gehört zu einem zentralen
Data Warehouse eine Metadatenbank mit Informationen zur Datenbasis und ein
Archivsystem, das solche Daten verwaltet, auf die seltener zugegriffen wird. Dies
führt zu einer Verringerung des Bestandes in der Datenbasis und beschleunigt den
Zugriff auf oft benötigte Daten21.
5.2.2 Das virtuelle Data Warehouse
Von einem virtuellen Data Warehouse spricht man dann, wenn Software die
einheitliche Sicht auf den Bestand der operativen Daten simuliert. Dabei greift die
Software direkt auf die operativen Systeme zu. Es wird keine gesonderte
Informationsdatenbank neben der operativen Datenbank aufgebaut und es kann
somit durch den intensiven Zugriff zu einer Minderung der Leistungsfähigkeit der
operativen Systeme kommen.
Dagegen sind solche Lösungen wesentlich weniger kostenintensiv in der
Beschaffung als ein zentrales Data Warehouse. Einschränkungen gibt es bei diesen
Konzepten sowohl hinsichtlich der geringeren Performance, d.h. dass Analysen bei
diesem Konzept wesentlich länger dauern, als auch hinsichtlich der historischen
21
vgl. Schwarze, 2000, 261.
8
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Analysefähigkeit, da die operativen Systeme immer die aktuelle Unternehmenssituation wiederspiegeln und keine historischen Daten vorhalten22.
5.2.3 Data Marts
„Data Marts“ sind kleine Data Warehouses, deren Inhalte sich nur auf bestimmte
Betriebsbereiche beziehen. Sie stellen Informationen zur Verfügung, die nicht
unternehmensweit benötigt werden. Außerdem erlauben Data Marts ein sukzessives
Aufbauen eines unternehmensweiten Data Warehouses. Besteht eine ausreichende
Anzahl von in separaten Projekten aufgebauten Data Marts, so können diese in
einem Integrationsprojekt zusammengefasst werden. In Unternehmen wird diese
Vorgehensweise der sofortigen Einführung eines zentralen Data Warehouses
vorgezogen. Der Aufbau eines Data Marts in einem bestimmten Bereich ist weniger
kostenintensiv und kann schneller abgeschlossen werden. Da bei diesen Projekten
Erfahrungen gesammelt werden23 und Wissen zum Aufbau von Data Warehouses
entsteht, können in den später folgenden Integrationsprojekten durch die Nutzung
diese Wissens Kostenersparnisse realisiert werden24.
7UDQVIRUPDWLRQGHU'DWHQ(7/3UR]HVV
Um bei der Anwendung von Analysemethoden auf die Datenbestände befriedigende
Ergebnisse zu erhalten, müssen die Daten bestimmte Qualitätsanforderungen
erfüllen25. Das Erreichen dieser Qualitätsanforderungen wird durch den Datentransformationsprozess („ETL“ – Extraktion, Transformation, Laden) bewerkstelligt. Dieser
wird von Transformationsprogrammen vorgenommen, die zu bestimmten Zeiten,
beispielsweise nachts oder am Wochenende, die Daten aus den operativen
Systemen extrahieren, um die Abwicklung von Geschäftsprozessen in den
22
vgl. Bold, Hoffmann, Scheer, 1997, 11f.
vgl. Schmidt, Grimm, 2002, 255.
24
vgl. Bold, Hoffamnn, Scheer, 1997, 9f.
25
vgl. Knobloch, 2001, 31.
23
9
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Hauptzeiten nicht zu stören und eine Leistungsbeeinflussung der operativen
Systeme auszuschließen26.
Die Daten aus den unterschiedlichen Quellen werden transformiert, also gewissermaßen vereinheitlicht, um sie für die gemeinsame Datenbasis kompatibel zu
gestalten27. Das Erreichen der erforderlichen Datenqualität geschieht durch
Anreicherung der Daten um nicht direkt enthaltene aber in anderen Quellen
verfügbare Informationen, durch Bereinigung fehlerhafter Datenbestände, Konsolidierung redundant vorhandener Daten und durch Anpassung der Formate, d.h. der
Darstellungsform der Daten28.
Eine genauere Betrachtung dieser Transformationsprozesse soll in dieser Arbeit
nicht stattfinden. Bei tiefergehendem Interesse sei auf das entsprechende Kapitel in
Immons „Building the Data Warehouse“ (S.118-122) oder auf den Aufsatz
„Transformationsprogramme
und
Extraktionsprozesse
entscheidungsrelevanter
Basisdaten“ von Joachim Kirchner in Mucksch/Behme: „Das Data WarehouseKonzept“ verwiesen, die jeweils auch in der Literaturliste dieser Arbeit genauer
aufgeführt sind.
Besonders wichtig ist die Ausgangsqualität dieser Daten, da sie die Grundlagen für
die Gewinnung verwertbarer Informationen durch das Data Warehouse bildet. Da für
die Umsetzung der Transformationsprozesse und der Datenbereinigung bis zu 80%
der gesamten Projektdauer anzusetzen sind, ist die Qualität der „Rohdaten“ von
großer Bedeutung und kann sich spürbar auf den Projekterfolg auswirken29.
Nach der Extraktion und Transformation der Daten bildet der Ladeprozess den
dritten Schritt des ETL-Prozesses, bei dem die Daten in die Data WarehouseDatenbank aufgenommen werden. Typischerweise werden sie zunächst in eine Art
Zwischenspeicher („Staging Area“) geladen, bevor sie in die Data WarehouseDatenbank eingegliedert werden. In diesem Zwischenspeicher werden bereits
26
vgl. Jung, 2001, 29.
vgl. Schwarze, 2000, 261.
28
vgl. Knobloch, 2001, 31ff.
29
vgl. Pantelic, Nohr, 2000, 6.
27
10
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
transformierte Daten „gelagert“, bis alle zusammengehörigen Daten aus allen
operativen Teilsystemen transformiert und für den Ladeprozess verfügbar sind30.
Die nachfolgende Abbildung visualisiert den ETL-Prozess:
Abbildung 2: Der ETL-Prozess
Quelle: Jung, 2001
2QOLQH$QDO\WLFDO3URFHVVLQJ2/$3
5.4.1 Definition
Unter “Online Analytical Processing” oder kurz OLAP versteht man eine
Softwaretechnologie, die eine schnelle, interaktive und vielseitige Auswertung der
Datenbestände einer Data Warehouse-Datenbank ermöglicht31. OLAP ermöglicht
individuell
gewünschte
unterschiedliche
Sichten
auf
die
Daten
des
Data
Warehouses, die in einem multidimensionalen Würfel („Hypercube“) zusammengefasst werden.
Eine Dimension stellt in diesem Fall ein für den Betrachter interessantes Kriterium
dar, wie z. B. betriebswirtschaftliche Variablen Zeit, Absatzregion, Produkt. Der
Betrachter kann sich seinen gewünschten Datenwürfel zusammenstellen und daraus
interessante handlungsrelevante Informationen erhalten, z. B. das gewinnträchtigste
Produkt ermitteln32.
30
vgl. Jung, 2001, 32.
vgl. Chamoni, Gluchowski, 1997, 394.
32
vgl. Pantelic, Nohr, 2000, 7.
31
11
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Abbildung 3 zeigt einen dreidimensionalen Datenwürfel:
Abbildung 3: Dimensionen eines Datenwürfels
Quelle: Hansen, Neumann, 2001
5.4.2 OLAP-Funktionen
An dieser Stelle soll eine Auswahl von möglichen OLAP-Funktionen gegeben
werden. Die hier vorgestellten Funktionen stellen die gebräuchlichsten im Umgang
mit OLAP-Systemen dar.
Durch bestimmte Funktionen, die OLAP-Software zur Verfügung stellt, ist es dem
Anwender möglich, beliebige Schnitte durch den multidimensionalen Datenbestand
zu machen und sich so die für ihn interessanten Sichten zu generieren. So kann
sowohl auf verdichtetes als auch auf detailliertes betriebswirtschaftliches Datenmaterial zugegriffen werden33.
Eine aufgefächerte Ansicht zunächst aggregierter Informationen ermöglicht die „Drill
down“-Funktion. Der Drill down ermöglicht eine detailliertere Ansicht auf einzelne
Quartale oder Monate in der zeitlichen Dimension eines bestimmten Datenbestandes, wenn diese zunächst eine Aufteilung in ganze Jahre vorsieht, dadurch
aber die vom Anwender gewünschte Information nicht zu erhalten ist.
33
vgl. Gluchowski, 2001, 11.
12
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Die Umkehrung dieser Funktion ist der sogenannte „Roll up“. Hierbei werden
angezeigte Daten verdichtet. Die Analogie zum oben genannten Fall wäre eine
gegebene aber nicht gewünschte Sicht auf Monate. Durch einen Roll up könnte der
Anwender gegebenenfalls eine von ihm gewünschte Sicht auf komplette Jahre
erhalten.
Eine weitere wichtige OLAP-Funktion ist das „Slicing“ (engl. für „in Scheiben
schneiden“). Beim Slicing wird eine Dimension komplett auf eine Ausprägung
beschränkt. Beispielsweise werden sämtliche ausgewählte Informationen eines
Datenwürfels nur für die Warengruppe „Gemüse“ angezeigt. Die Dimension der
Warengruppe ist auf die Ausprägung „Gemüse“ beschränkt. Folgende Abbildung
visualisiert das Slicing:
Abbildung 4: Slicing
Quelle: Hansen, Neumann, 2001
Ebenfalls wichtig für die Navigation durch den Datenwürfel ist die „Dicing“-Funktion.
Dicing (engl. für „würfeln, in Würfel aufteilen“) bedeutet, dass aus dem vorhandenen
Datenwürfel ein kleinerer Würfel „herausgeschnitten“ wird, der vom Anwender
gewünschte Informationen enthält. Dies führt zu einer leichter überschaubaren Sicht
und vereinfacht die Analyse34.
Nachfolgend soll auf die konkrete Anwendung von Data Warehouses zur
Unterstützung der Entscheidungen in Unternehmen eingegangen werden.
34
vgl. Hansen, Neumann, 2001, 480f.
13
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
=XU1XW]XQJYRQ'DWD:DUHKRXVH6\VWHPHQLQGHXWVFKHQ8QWHUQHKPHQ
„0DQDJHPHQWLQIRUPDWLRQVV\VWHPH0,6LPZHLWHUHQ6LQQHZHUGHQPLWWOHUZHLOHLQVR
JXWMHGHPJU|‰HUHQ8QWHUQHKPHQHLQJHVHW]W“35.
Das Institut für Managementinformationssysteme e. V. in Ludwigshafen hat sich nach
eigenen Angaben die Aufgabe gesetzt, den Markt für Data Warehousing und
Business Intelligence zu untersuchen und transparenter zu machen.
Folgende Angaben stützen sich auf in regelmäßigen Abständen stattfindende
Studien dieses Institutes zur Nutzung von Data Warehouses und Business
Intelligence in deutschen Unternehmen. Grundlagen der Studien stellen Anwenderbefragungen dar. Bei den dargestellten Befragung aus dem Jahr 2001 nahmen 93
deutsche Unternehmen aus den Bereichen Industrie, Handel, Dienstleistung,
öffentlicher Dienst und anderen Bereichen teil. Im Wesentlichen ist ein gestiegener
Anteil von Unternehmen in Deutschland zu verzeichnen, die MIS und Data
Warehouse-Lösungen im Vergleich zur vorangegangenen Studie im Vorjahr nutzen.
Über die Hälfte der befragten Unternehmen gaben an, zentrale Data WarehouseLösungen zu benutzen36.
Aus diesen Studien lassen sich nicht nur ein steigendes Interesse der Unternehmen
an Data Warehouses und Business Intelligence erkennen, sondern auch der
verstärkten Einsatz solcher Konzepte in Unternehmen zur Unterstützung der
Unternehmenstätigkeit.
Da die komplette Studie an dieser Stelle nicht vorgestellt werden soll, sei bei
tiefergehendem Interesse auf den zitierten Aufsatz von Hannig und Hahn und auf die
Internetpräsenz des Institutes für Managementinformationssysteme (http://imis.de)
verwiesen.
35
36
Hannig, Hahn, 2002, 219.
vgl. Hannig, Hahn, 2002, 219f.
14
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
'DWD0LQLQJ
0RWLYDWLRQ
Im heutigen Unternehmen sind in der Regel großen Datenmengen vorhandenen.
Diese sind in den operativen Systeme oder in Informationsdatenbanken in Form von
Data Warehouses zu finden. Data Warehouses dienen vornehmlich der Unterstützung von Entscheidungen, vor die der Anwender aufgrund von konkreten
Anlässen gestellt wird. Im Gegensatz dazu ist das Auffinden verborgener Muster
oder Gesetzmäßigkeiten innerhalb der Daten durch menschliche Interaktion mit dem
System als ein nicht besonders effektives und effizientes Vorhaben anzusehen. Trotz
alledem kann man davon auszugehen, dass sich in den Daten Muster verbergen, die
nach adäquater Interpretation zu interessantem Wissen zum eigene Unternehmen
führen können37. Mit
Ansätzen,
die das Herausfiltern bisher unbekannter
Sachverhalte aus größeren Datenmengen unterstützen sollen, beschäftigt sich der
Begriff des Data Mining, der in diesem Abschnitt näher betrachtet werden soll.
'HILQLWLRQ
Wie bei vielen Forschungsgebieten entwickelte sich die Definition und das
Verständnis von Data Mining über einen längeren Zeitraum. Folgende oft zitierte
Definition stammt von Fayyad et al. aus dem Jahre 1996 und leitet sich aus einer
Defintion von Frawley aus dem Jahre 1991 ab.
„.QRZOHGJH GLVFRYHU\ LQ GDWDEDVHV LV WKH QRQWULYLDO SURFHVV RI LGHQWLI\LQJ YDOLG
QRYHOSRWHQWLDOO\XVHIXODQGXOWLPDWHO\XQGHUVWDQGDEOHSDWWHUQVLQGDWD“38
Die Termini „Knowledge Discovery“ und Data Mining sollen an dieser Stelle synonym
verstanden werden. Eine angemessene Übersetzung für diese Definition könnte
folgendermaßen gegeben werden.
37
38
vgl. Gluchowski, 2001, 8.
Fayyad, Piatetsky-Shapiro, Smyth, 1996, 6.
15
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
„'DWD 0LQLQJ LVW GHU QLFKWWULYLDOH (QWGHFNXQJVSUR]HVV JOWLJHU QHXHU SRWHQ]LHOO
QW]OLFKHUXQGYHUVWlQGOLFKHU0XVWHULQ'DWHQEHVWlQGHQ“39
Diese Definition geht von einem Entdeckungsprozess aus, weil sich nutzbare
Erkenntnisse erst nach der Vorverarbeitung und nach menschlicher Analyse der
Ergebnisse des Data Mining herausstellen40. Das Attribut der „Nicht-Trivialität“
beschreibt, dass Data Mining-Verfahren ein gewisses Maß an Suchautonomie
aufbringen und die Ergebnisse nicht ohne weiteres ersichtlich sein sollten41. „Gültig“
bedeutet, dass die ermittelten Ergebnisse mit einer bestimmten statistischen
Sicherheit zutreffen. „Neuigkeit“ drückt die Forderung aus, dass die ermittelten
Ergebnisse zu neuen Erkenntnissen führen sollen.
Da in der Bewertung der „Nützlichkeit“ eines Ergebnisses für menschliche
Handlungen durch einen Computer gewisse Schwierigkeiten liegt, verwendet die
Definition „potenziell nützlich“. Nützlich sollten die ermittelten Ergebnisse sein, weil
der Anwender diese verwerten möchte. Dass der Anwender die ermittelten
Ergebnisse verstehen kann, ist insofern von Bedeutung und in diese Definition
aufgenommen worden, als frühe Systeme in manchen Fällen zwar richtige
Ergebnisse ermittelt haben, diese aber in nicht immer für den Menschen
verständlicher Weise ausgaben und somit die gewonnenen Inhalte nicht genutzt
werden konnten42.
7\SHQGHU'DWHQDQDO\VH
Wie bereits erwähnt, handelt es sich bei Data Mining um Verfahren zur Analyse von
Datenbeständen.
Grundsätzlich
können
mehrere
Typen
der
Datenanalyse
unterschieden werden. Die zwei hier betrachteten Typen behandeln entweder
hypothesegetriebene Fragestellungen oder eher hypothesefreie Fragestellungen.
Eine Hypothese kann als Erklärungsvorschlag oder als Annahme zu einem
bestimmten Sachverhalt beschrieben werden, dessen Gültigkeit zu überprüfen ist.
39
Knobloch, 2001, 14.
vgl. Küppers, 1999, 24.
41
vgl. Knobloch, 2001, 15.
42
vgl. Küppers, 1999, 24f.
40
16
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Der hypothesegetriebene Datenanalysetyp beschäftigt sich mit Fragestellungen, die
eine bestimmte Annahme voraussetzen. Eine solche Fragestellung, die eine
Annahme enthält, wäre beispielsweise die Frage „Wie viel Prozent der Käufer von
Produkt A kaufen auch Produkt B?“. Dabei wird davon ausgegangen, dass zwischen
den Käufen der beiden Produkten eine bestimmte Beziehung besteht. Das Ziel
dieses Datenanalysetyp ist die Verifikation oder Falsifikation der Hypothese. Ein
solches Datenanalyseproblem wird durch sein „Top-Down“-Vorgehensweise, also
durch das Ausgehen von einer Hypothese, spezifiziert.
Der eher hypothesefreie Datenanalysetyp, der für Data Mining-Verfahren eine Rolle
spielt, untersucht Datenbestände ohne das Zugrundelegen einer konkreten Annahme
über die Eigenschaften der untersuchten Daten. Eine dementsprechende Fragestellung wäre „Welche Artikel werden gemeinsam gekauft?“, was zu einem
bedeutend komplexeren Suchraum für die Untersuchung führt, als die oben
genannte Fragestellung. Grundlage für diesen Datenanalysetyp und die Generierung
neuer Erkenntnisse sind die vorhandenen Daten und nicht eine Hypothese. Diese
Vorgehensweise wird „Bottom-Up“-Vorgehensweise genannt. Im Gegensatz zum
ersten Typ, der gewissermaßen nach der Fragestellung „Welche Daten passen zu
diesem Muster?“ arbeitet, verfährt der zweite Typ, der die Grundlage für das Data
Mining darstellt, nach der Frage „Welches Muster passt zu diesen Daten?“43. Anhand
der Erkenntnis, dass sich aus dieser Fragestellung sehr komplexe Suchvorgänge
ergeben müssen, zeigt sich erneut, dass sich der Einsatz von computergestützten
Data Mining-Anwendungen für solche Aufgaben anbietet.
=LHOVHW]XQJGHV'DWD0LQLQJ
Das Ziel des Data Mining ist die Entdeckung bisher unbekannter Muster in großen
Datenmengen, genauer gesagt die datengetriebene und hypothesefreie Aufdeckung
unbekannter Muster und Beziehung unter Verwendung der Bottom-up-Vorgehensweise44. Die ermittelten Muster können durch menschliche Interpretation zu
relevanten betriebswirtschaftlichen Informationen werden und die erfolgreiche
43
44
vgl. Knobloch, 2001, 8.
vgl. ebenda, 9f.
17
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Geschäftstätigkeit von Unternehmen unterstützen45. Hierbei geht es vor allem um die
Prognose zukünftiger Entwicklungen zur Unterstützung von Entscheidungen und die
Beschreibung von Datenbeständen, die den aktuellen Zustand des Unternehmens
repräsentieren. Aus dieser Beschreibung lassen sich konkrete betriebswirtschaftliche
Handlungsmaßnahmen ableiten46.
$XIJDEHQXQG0XVWHUW\SHQGHV'DWD0LQLQJ
6.5.1 Erläuterungen zu den Aufgaben und Mustertypen
Zum Erreichen der oben genannten Ziele lassen sich beim Data Mining vier
grundlegende Aufgaben spezifizieren, die durch unterschiedliche Mustertypen
beschrieben werden können. Im Folgenden werden diese Aufgaben und die
zugehörigen Muster vorgestellt.
6.5.2 Generieren von Prognosemodellen
Bei der Generierung von Prognosemodellen spielen die .ODVVLILNDWLRQ und das
Ermitteln von 9RUKHUVDJHUHJHOQ eine große Rolle.
Unter
Klassifikation
versteht
man das
Zusammenfassen
von
Objekten
in
vordefinierten Klassen, die diesen Klassen aufgrund bestimmter Merkmalsausprägungen oder Eigenschaften zugeordnet werden47. Anwendung findet die
Klassifikation z. B. im Finanzsektor im Rahmen der Kreditwürdigkeitsuntersuchung
bei Kreditvergaben48. Die Objekte innerhalb der einzelnen Klassen können so
anhand ihrer Eigenschaften identifiziert und nach bestimmten Kriterien behandelt
werden. Denkbar ist in diesem Zusammenhang auch die unterschiedliche
Behandlung bestimmter Kundenklassen, die anhand des von ihnen verursachten
Umsatzes in Klassen eingeteilt werden können. Dies stellt sich in Hinsicht auf den
45
vgl. Küppers, 1999, 13.
vgl. Knobloch, 2001, 16f.
47
vgl. Pantelic, Nohr, 2000, 8.
48
vgl. Gluchowski, 2001, 9.
46
18
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
effizienten Einsatz werbewirksamer Maßnahmen (z. B. Werbegeschenke, etc.) als
nützlich dar.
Unter der Aufgabe der Erstellung von Prognosemodellen wird auch die Ermittlung
von erfahrungsbasierten Regeln zur Vorhersagen des zukünftigen Verhaltens von
Objekten oder der Entwicklung bestimmter Kennzahlen verstanden. Der Einsatz
solcher Muster soll beispielsweise zu einer Verbesserung der Möglichkeiten der
Prognose von Aktienkursentwicklungen führen49.
6.5.3 Abweichungsanalyse
Bei der Abweichungsanalyse geht es um das Aufspüren signifikanter Veränderungen
bestimmter Kennzahlen verglichen mit früheren Werten oder Sollwerten. Darauf
aufbauend soll eine menschliche Prüfung stattfinden, ob die Abweichungen durch
kausale Zusammenhänge zu erklären sind. Ein Anwendungsbeispiel dieses Bereichs
stellt die automatisierte Untersuchung von betriebswirtschaftlichen Controllingdaten
dar, bei denen aufgrund von Kostensteigerungen auf der Unternehmensebene
sämtliche unterstellten Bereiche untersucht werden, um den Ursprung des
aufgetretenen Phänomens aufzuspüren50.
6.5.4 Aufdecken von Beziehungsmustern
Beim Aufdecken von Beziehungsmustern unterscheidet man das „Aufspüren“ von
9HUNQSIXQJHQ,$EKlQJLJNHLWHQ und 6HTXHQ]HQ.
Verknüpfungen zwischen Objekten liegen dann vor, wenn die Objekte in irgendeiner
Art und Weise in Beziehung stehen, z. B. zusammen an einem Ereignis beteiligt sind.
Untersucht man sämtliche Verknüpfungen im gesamten Datenbestand, so lassen
sich sogenannte Verknüpfungsmuster entdecken. Auf dem Anwendungsgebiet der
Telekommunikation können anhand gespeicherter Telefongesprächsdaten Ver-
49
50
vgl. Knobloch, 2001, 17.
vgl. ebenda, 18.
19
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
knüpfungsmuster entdeckt werden, die in der Verbrechensbekämpfung zur Aufklärung von Kriminaldelikten benutzt werden können51.
Im Hinblick auf betriebswirtschaftliche Anwendungsmöglichkeiten solcher Verknüpfungen können aus in der Vergangenheit beobachteten Kundenpräferenzen
neue Produkte oder Dienstleistungen entwickelt oder speziell für Handelsbetriebe
wertvolle Informationen für die Weiterentwicklung der Angebotsstruktur und der
Regalgestaltung ermittelt werden52.
Abhängigkeiten grenzen sich zu Verknüpfungen insofern ab, als sie nicht nur das
Vorhandensein einer Beziehung ausdrücken, sondern auch angeben, welche Größe
von welcher abhängt. Eine Möglichkeit des Ausdrucks von Abhängigkeiten ist die
Darstellung der Beziehung durch sogenannte Assoziationsregeln (z. B. „Wenndann“-Beziehungen), die auf Basis statistischer Informationen gebildet werden
können. Ein Beispiel wäre die sogenannte Warenkorbanalyse, bei der der
gemeinsame Kauf von Produkten innerhalb einer Transaktion untersucht wird. In
dieser Domäne aufgestellte Assoziationsregeln könnten beispielsweise folgendermaßen lauten: „In 20 % der Fälle, in denen Produkt A gekauft wird, wird auch Artikel
B gekauft“53.
Aus solchen Erkenntnissen lassen sich bestimmte Geschäftsstrategien ableiten.
Angenommen, es hat sich herausgestellt, dass 75% der Kunden eines Handelsbetriebes, die einen Drucker gekauft haben, in der gleichen Transaktion auch Papier
und Toner gekauft haben, so liegt der Vorschlag nahe, die Kunden mit einem
Sonderangebotspreis für den Drucker „anzulocken“ und die Preise für Papier und
Toner so zu gestalten, dass sich aus der Situation ein Gewinn für den
Handelsbetrieb ergibt54.
Sequenzen bezeichnen Muster, die das Verhalten von Objekten im Zeitverlauf
beschreiben und dabei das Auftreten regelmäßig wiederkehrender Ereignisfolgen
51
vgl. Knobloch, 2001, 18.
vgl. Gluchowski, 2001, 9.
53
vgl. Knobloch, 2001, 18.
54
vgl. Kemper, Eickler, 2001, 510.
52
20
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
darstellen. Für das Aufspüren von Sequenzmustern ist ein historischer Datenbestand
notwendig, z. B. ein Data Warehouse. Aus der Entdeckung von Sequenzen können
sich so Erkenntnisse über das Kaufverhalten von Kunden im Zeitverlauf ergeben. Auf
Basis dieser Kenntnisse können angepasste, auf bestimmte Zeitpunkte zugeschnittene Handlungsmaßnahmen im Bereich der Werbung oder Preisgestaltung zu
positiven betriebswirtschaftlichen Effekten, wie z. B. Umsatzsteigerungen führen55.
6.5.5 Datenbanksegmentierung
Die letzte hier beschriebene Aufgabe des Data Mining stellt die Segmentierung von
Datenbeständen dar. Dieses Verfahren wird auch „Clustering“ genannt. Das
Clustering teilt die Objekte einer Datenbank dergestalt in eine Menge sinnvoller
Teilmengen („Cluster“), dass sich die einzelnen Elemente eines Clusters so ähnlich
wie möglich und die Objekte verschiedener Cluster so verschieden wie möglich sind.
Das Clustering dient der Aufteilung des Datenbestandes in einzelne homogene
Bereiche, um die Handhabbarkeit der Daten zu steigern und weiterführende
Analysen zu erleichtern56.
Der Unterschied zwischen Clustering und der Klassifikation besteht in der Bildung
der Klassen, bzw. Teilmengen. Bei der Klassifikation werden vom Anwender Klassen
definiert, in die die Objekte des Datenbestandes aufgrund der Ausprägung eines
bestimmten Attributs eingeordnet werden. Beim Clustering bilden sich diese
Teilmengen
aus
dem
Datenmaterial
während
der
Zerlegung
selbst.
Die
Segmentierung der Datenbank steht oft am Anfang einer Untersuchungsreihe. Die
ermittelten Segmente werden dann oft anhand weiterführender Verfahren genauer
analysiert57.
55
vgl. Knobloch, 2001, 19.
vgl. Pantelic, Nohr, 2001, 8.
57
vgl. Knobloch, 2001, 20.
56
21
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
3KDVHQGHV.QRZOHGJH'LVFRYHU\LQ'DWDEDVHV
6.6.1 Erläuterungen zum KDD-Prozess
Die im vorangegangenen Abschnitt besprochenen Muster stellen an sich noch kein
Wissen dar. Es sind zunächst menschliche Interpretationsprozesse notwendig, um
zu entscheiden, ob es sich bei den ermittelten Ergebnissen um interessante
Informationen handelt. Außerdem ist es wichtig, dass das Data Mining auf qualitativ
hochwertigen Daten ausgeführt wird, um für ebenso hochwertige Analyseergebnisse
zu sorgen. Es wird also ersichtlich, dass sowohl vor als auch nach der Anwendung
der eigentlichen „Data Mining-Algorithmen“, den konkreten Arbeitsprozessen, die von
einem Rechner zur Erreichung der definierten Ziele ausgeführt werden, bestimmte
Arbeitsschritte auszuführen sind, um eine Qualität der Analyseergebnisse zu
erreichen, auf die man wichtige Entscheidungen aufbauen kann.
Alle notwendigen Arbeitsschritte dieses Prozesses der Wissensentdeckung werden
unter dem Begriff „Knowledge Discovery in Databases“ (KDD) zusammengefasst.
Der komplette KDD-Prozess bildet den allgemeinen Rahmen für umfassende
Analysen in großen Datenbeständen. Bei der nachfolgenden Beschreibung wird
generell nicht davon ausgegangen, dass der KDD-Prozess auf den Daten eines Data
Warehouse ausgeführt wird. Es bleibt allerdings schon im Voraus zu erwähnen, dass
durch die Nutzung von Data Warehouses als Datenbasis für Datenanalysen einige
der gleich vorgestellten Teilschritte entfallen können, da diese schon während des
ETL-Prozesses (siehe 5.3) beim Laden der Daten in das Data Warehouse ausgeführt
worden sind58.
Der KDD-Prozess wird in fünf Teilschritte oder Phasen zerlegt59, die nicht in jedem
Falle sukzessiv durchlaufen werden müssen. Es sind auch Rücksprünge auf
vorangegangene Schritte möglich:
58
59
vgl. Knobloch, 2001, 26f.
vgl. Gluchowski, 2001, 9.
22
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
6.6.2 Selektion der Daten
Im ersten Schritt des KDD-Prozesses sollen geeignete Datenquellen für eine Analyse
identifiziert werden. Wie bereits erwähnt, ist an dieser Stelle die Qualität der Daten
besonders wichtig, da sie die Grundlage für den Erfolg der Datenanalyse darstellt.
Prinzipiell ist es möglich, Data Mining auf beliebigen Daten durchzuführen. Allerdings
stellen die bereits bereinigten und konsolidierten Daten eines Data Warehouses eine
ideale Datenquelle dar.
Die Auswahl der Datensätze orientiert sich an den für als relevant für die Analyse
angesehenen Teilmengen des Datenbestandes. Sollen Analysen zum Kundenverhalten in einer bestimmten Region durchgeführt werden, so werden nur diejenigen
Daten untersucht, die Informationen zu diesem Thema liefern könnten60.
6.6.3 Exploration der Daten
Das ausgewählte Datenmaterial wird vor der eigentlichen Analyse auf Fehler und
Mängel durchsucht, um diese frühzeitig zu entdecken und spätere Fehlinterpretationen zu vermeiden. Die Zuverlässigkeit der Daten ist von großer Wichtigkeit
für die Resultate der Analyse. Die Prüfung der Korrektheit der Daten soll zudem
verhindern, dass später folgende zeitintensive Teilprozesse aufgrund von Fehlern in
der Datenbasis wiederholt werden müssen. In diesem Prozessschritt sollten sowohl
die Syntax als auch die Semantik der Daten auf ihre Richtigkeit überprüft werden.
Eine weitere Aufgabe der Datenexploration ist es, die Struktur des Datenbestandes
und ein grundlegendes Verständnis der Daten zu vermitteln, um die letztendliche
Interpretation der Daten zu unterstützen61.
6.6.4 Manipulation der Daten
Die Datenbestände in Unternehmen sind in ihrer Ursprungsform oft nicht für Data
Mining geeignet. Das liegt meistens an den Datenschemata operativer Systeme, die
60
61
vgl. Knobloch, 2001, 29f.
vgl. ebenda, 2001, 30f.
23
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
nicht auf analytische Zwecke ausgerichtet sind. „Manipulation“ bezeichnet den
Prozess der Anpassung der Daten an die Qualitätsanforderungen der Datenanalyse.
Es handelt sich bei der Manipulation im wesentlichen um die bereits im Rahmen des
ETL-Prozesses beschriebene Transformation (siehe 5.3), die die Anreicherung der
Daten, die Bereinigung fehlerhafter Datenbestände, die Konsolidierung redundant
vorhandener Daten und die Anpassung der Datenformate umfasst62.
6.6.5 Analyse der Daten
Sobald die Daten in einem für die Analyse geeigneten Format vorliegen, kann der
eigentliche Data Mining-Prozess durchgeführt werden63. In diesem Teilschritt des
KDD-Prozesses werden konkrete Data Mining-Algorithmen angewendet, die im
Rahmen dieser Arbeit aufgrund der weitführenden technischen Orientierung der
Beschreibung der Algorithmen und ihrer Implementierung allerdings nicht vertieft
dargestellt werden sollen.
6.6.6 Interpretation der Ergebnisse
Die Interpretation der Analyseergebnisse stellt einen wichtigen Faktor innerhalb des
KDD-Prozesses dar. Durch sie werden aus erkannten Mustern handlungsrelevante
Erkenntnisse und dadurch konkrete Handlungen unterstützt. Die Definition von Data
Mining hat an die Daten den Anspruch der Gültigkeit, Neuartigkeit, Nützlichkeit und
Verständlichkeit. Oft ermitteln Data Mining-Verfahren allerdings triviale, bzw. bereits
bekannte Muster oder solche, aus denen das Unternehmen keinen ökonomischen
Nutzen ziehen kann. Auch deshalb ist die Bewertung und die Interpretation der
Ergebnisse des Data Mining-Prozesses von Bedeutung. Um korrekte Interpretationen durchführen zu können, ist es wichtig zu beachten, dass tiefgreifende
Kenntnisse des untersuchten Themengebietes nötig sind64.
62
vgl. Knobloch, 2001, 31ff.
vgl. ebenda, 37ff.
64
vgl. ebenda, 39ff.
63
24
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
'DWD:DUHKRXVLQJ'DWD0LQLQJ
Das Konzept des Data Mining wird oft mit dem des Data Warehousing in Verbindung
gebracht. Dadurch könnte angenommen werden, dass ein Data Warehouse-System
die Grundlage zur Anwendung von Data Mining-Verfahren ist. Dies ist nicht der Fall.
Data Mining-Verfahren können auf beliebige Datenbestände angewandt werden. Wie
allerdings schon im vorangegangenen Abschnitt angedeutet, bietet die Nutzung
eines Data Warehouse im Verbindung mit Data Mining einige Vorteile und zusätzliche Potentiale.
Da der größte Anteil des Aufwandes bei Data Mining-Analysen auf die Datenvorbereitung entfällt, bietet die Anwendung eines Data Warehouses deutliche
Synergieeffekte. Die im Data Warehouse vorgehaltenen Daten haben die notwendigen Vorbereitungsschritte bereits während des ETL-Prozesses durchlaufen.
Die Nutzung dieser Daten für Data Mining-Zwecke stellt sich im Vergleich zum Zugriff
auf operative Datenbestände, die vor der Analyse transformiert werden müssen, als
kostengünstiger heraus. Außerdem bieten die bereinigten Daten des Data
Warehouses aufgrund ihrer Qualität die Voraussetzungen für zuverlässige Analyseresultate65.
Aufgrund der zentralen Datenspeicherung und -vorhaltung, die ein Data Warehouse
in der Regel bietet, können die Data Mining-Analysen an diesem einen Punkt
ansetzen und machen die Analyseprozesse zu einem effizient durchführbaren
Vorhaben. Weiterhin begünstigt ein Data Warehouse durch die Eigenschaft der
Losgelöstheit von den operativen Systemen die verhältnismäßig rechenintensiven
Analyseoperationen des Data Mining, ohne dabei den operativen Betrieb zu stören66.
65
66
vgl. Knobloch, 2001, 49f.
vgl. Bissantz, Hagedorn, Mertens, 1997, 451.
25
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
=XVDPPHQIDVVXQJXQG)D]LW
Diese Arbeit beschäftigt sich mit Aspekten des Data Warehousing und des Data
Mining. Sie versucht einen Überblick über diese beiden Themen zu geben. Aufgrund
der Weite der Themenfelder und der Vielzahl konkreter Anwendungsmöglichkeiten
bleibt an dieser Stelle zu vermerken, dass im Rahmen dieser Arbeit nicht alle
Aspekte beschrieben werden konnten.
Zunächst wurde eine Verbindung zum Thema Wissensmanagement hergestellt und
eine nötige Einführung in die Materie gegeben, die zum Verständnis der
nachfolgenden Konzepterläuterung notwendig ist. Innerhalb des Themas Data
Warehousing wurde zunächst eine Definition des Begriffes gegeben, die Data
Warehouses als Instrumente erklärt, die vor allem eine einheitliche Sicht auf
historisch gespeicherte und konsolidierte Daten einer Organisation bieten und
Entscheidungen unterstützen sollen.
Bei der Beschreibung einiger der möglichen Architekturen eines Data Warehouses
unterscheidet diese Arbeit zentrale und virtuelle Data Warehouses und speziell für
einzelne Unternehmensbereiche angelegte Data Marts. Danach wird der ETLProzess als Prozess der Datenreinigung und Datenvorbereitung für das Data
Warehouse beschrieben. Es folgen Ausführungen zum Online Analytical Processing
(OLAP), das eine Softwaretechnologie zur Analyse der Daten des Data Warehouses
darstellt und diese Analysen beispielsweise anhand der vorgestellten OLAPFunktionen Roll up, Drill down, Slicing und Dicing unterstützen. Die sich in den
letzten Jahren verstärkende Nutzung von Data Warehouse-Systemen in deutschen
Unternehmen wird anhand der gezeigten Studie des Institutes für Managementinformationssysteme verdeutlicht.
Darauffolgend schließt sich eine Einführung in das Gebiete des Data Mining und eine
Definition dieses Begriffes an, die dieses Konzept hauptsächlich als automatischen
Entdeckungsprozess von Mustern in Datenbeständen beschreibt, der zu nützlichen
und vorher unbekannten Erkenntnissen führen soll. Die Beschreibung unterschiedlicher Datenanalysetypen soll das Verständnis für Data Mining als eher hypothesefreie und datengetriebene Analyseart nochmals unterstützen, bevor die Ziele,
26
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
Aufgaben und die unterschiedlichen zu ermittelnden Mustertypen des Data Mining
gezeigt werden. Der vorletzte Abschnitt beschäftigt sich mit den Phasen des KDDProzesses und vor der Zusammenfassung folgt eine Beschreibung der Potentiale der
gemeinsamen Nutzung von Data Warehouse- und Data Mining-Systeme, die vor
allem in der Ersparnis von Zeit und Kosten für die nur einmal durchzuführende
Datentransformation liegen.
Die inhaltlichen Darstellungen in dieser Arbeit zeigen, dass die beiden untersuchten
Konzepte eine Unterstützung des Managements von Daten und Informationen bieten
und durch die Beschleunigung der Datenverarbeitungsprozesse und die Möglichkeit
der
Unterstützung
von
Entscheidungen
anhand
einer
problemadäquaten
Informationsbereitstellung Wissensmanagementprozesse in Unternehmen effektiv
unterstützen können. Es werden durch den Einsatz dieser Konzepte, wie die
Anwendungsbeispiele verdeutlichen, Umsatzsteigerungen und Kostensenkungen
möglich. Dem gegenüber stehen die Kosten, die die Benutzung solcher Lösungen
verursacht. Ein zunehmender Einsatz solcher Systeme in Unternehmen könnte dafür
sprechen, dass sich der Einsatz auszahlt.
27
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
/LWHUDWXU
ƒP. Adriaans, D. Zantinge: 'DWD0LQLQJ, Harlow 1996
ƒJ. Bager, J. Becker, R. Munz: 'DWD:DUHKRXVH±]HQWUDOH6DPPHOVWHOOHIU
,QIRUPDWLRQHQ, in: c‘t (1997) 3, S. 284, in elektronischer Form: URL:
http://www.heise.de/ct/97/03/284. Klick-Datum: 6.6.2005
ƒC. Bange: %XVLQHVV,QWHOOLJHQFHDXV.HQQ]DKOHQXQG'RNXPHQWHQ,QWHJUDWLRQ
VWUXNWXULHUWHUXQGXQVWUXNWXULHUWHU'DWHQLQHQWVFKHLGXQJVXQWHUVWW]HQGHQ
,QIRUPDWLRQVV\VWHPHQ, Hamburg 2004
ƒN. Bissantz, J. Hagedorn: 'DWD0LQLQJ'DWHQPXVWHUHUNHQQXQJ, in:
Wirtschaftsinformatik 35 (1993) 5, S. 481-487
ƒN. Bissantz, J. Hagedorn, P. Mertens: 'DWD0LQLQJ, in: H. Mucksch,
W. Behme (Hrsg.): Das Data Warehouse-Konzept. Architektur – Datenmodelle
– Anwendung, 2. vollst. überarb. und erw. Aufl., Wiesbaden 1997, S.437 - 463
ƒM. Bold, M. Hoffmann, A.-W. Scheer: 'DWHQPRGHOOLHUXQJIUGDV'DWD
:DUHKRXVH, in: IWi-Heft 139 (1997), elektronische Publikation des Instituts für
Wirtschaftsinformatik, Saarbrücken, URL:
http://iwi.uni-sb.de/Download/iwihefte/heft139.pdf, Klick-Datum: 19.6.2005
ƒM. Böhnlein, A. Ulbrich-vom Ende: *UXQGODJHQGHV'DWD:DUHKRXVLQJ±
0RGHOOLHUXQJXQG$UFKLWHNWXU, in: E. J. Sinz, et al. (Hrsg.): Bamberger Beiträge
zur Wirtschaftsinformatik, Nr. 55, Bamberg 2000
ƒP. Chamoni, P. Gluchowski: 2QOLQH$QDO\WLFDO3URFHVVLQJ2/$3, in:
H. Mucksch, W. Behme (Hrsg.): Das Data Warehouse-Konzept. Architektur –
Datenmodelle – Anwendung, 2. vollst. überarb. und erw. Aufl.,
Wiesbaden 1997, S. 393 – 436
ƒC. Clases, T. Wehner: +DQGOXQJVIHOGHULP:LVVHQVPDQDJHPHQW, in: W. Lüthy, et
al. (Hrsg.): Wissensmanagement –Praxis. Einführung, Handlungsfelder und
Fallbeispiele, Zürich 2002
ƒU. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth: )URP'DWD0LQLQJWR.QRZOHGJH
'LVFRYHU\ in: U. Fayyad, et al. (Hrsg.): Advances in Knowldege Discovery and
Data Mining, Menlo Park (CA) 1996
28
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
ƒU. Glowalla: ,QIRUPDWLRQXQG/HUQHQ, in: R. Kuhlen, T.Seeger, D. Strauch (Hrsg.):
Grundlagen der praktischen Information und Dokumentation, 5., völlig neu
gefasste Ausgabe, Band 1, München 2004
ƒP. Gluchowski: %XVLQHVV,QWHOOLJHQFH±.RQ]HSWH7HFKQRORJLHQXQG
(LQVDW]EHUHLFKH, in: K. Hildebrand (Hrsg.): Business Intelligence, HMD –
Praxis der Wirtschaftsinformatik 222, 38. Jahrgang, Heidelberg 2001, S.5-15
ƒU. Hannig, A. Hahn: 'HUGHXWVFKH0DUNWIU'DWD:DUHKRXVLQJXQG%XVLQHVV
,QWHOOLJHQFH, in: U. Hannig (Hrsg.): Knowledge Management und Business
Intelligence, Berlin [u.a.] 2002
ƒH. R. Hansen, G. Neumann: :LUWVFKDIWVLQIRUPDWLN, 8. Auflage, Stuttgart 2001
ƒM. Hendrichs: .ULWLVFKHU(UIROJVIDNWRU:LVVHQVPDQDJHPHQW, in: U. Hannig
(Hrsg.): Knowledge Management und Business Intelligence, Berlin [u.a.] 2002
ƒW. H. Immon: %XLOGLQJWKH'DWD:DUHKRXVH, 3. Auflage, New York [u.a.] 2002
ƒR. Jung: *HVWDOWXQJHLQHUGDWHQLQWHJULHUHQGHQ$UFKLWHNWXUIUGLVSRVLWLYHXQG
RSHUDWLYH=ZHFNH, in: K. Hildebrand (Hrsg.): Business Intelligence, HMD –
Praxis der Wirtschaftsinformatik 222, 38. Jahrgang, Heidelberg 2001, S.29-37
ƒA. Kemper, A. Eickler: 'DWHQEDQNV\VWHPHHLQH(LQIKUXQJ, 4., überarb. und
erw. Auflage, München [u.a.] 2001
ƒJ. Kirchner: 7UDQVIRUPDWLRQVSURJUDPPHXQG([WUDNWLRQVSUR]HVVHHQWVFKHLGXQJV
UHOHYDQWHU%DVLVGDWHQ, in: H. Mucksch, W. Behme (Hrsg.): Das Data
Warehouse-Konzept. Architektur – Datenmodelle – Anwendung, 2. vollst.
überarb. und erw. Aufl., Wiesbaden 1997, S. 237 - 265
ƒB. Knobloch: 'HU'DWD0LQLQJ$QVDW]]XU$QDO\VHEHWULHEVZLUWVFKDIWOLFKHU'DWHQ,
in: W. Augsburger, et al. (Hrsg.): Bamberger Beiträge zur Wirtschaftsinformatik, Nr. 58, Bamberg 2001
ƒP. Königer, W. Reithmayer: 0DQDJHPHQWXQVWUXNWXULHUWHU,QIRUPDWLRQHQ:LH
8QWHUQHKPHQGLH,QIRUPDWLRQVIOXWEHKHUUVFKHQN|QQHQ, Frankfurt / Main 1998
ƒH.-P. Kriegel: 'DWHQEDQNWHFKQLN]XU8QWHUVWW]XQJGHV:LVVHQVHUZHUEV, in: H.
Mandl, G. Reinmann-Rothmeier (Hrsg.): Wissensmanagement:
Informationszuwachs – Wissensschwund? Die strategische Bedeutung des
Wissensmanagements, München [u.a.] 2000
29
Universität des Saarlandes – FR 5.6 I nformationswissenschaft
3URMHNW:LVVHQVPDQDJHPHQW
PD Dr. I lse Harms
Constantin Houy: Das Data Warehouse-Konzept & Data Mining
ƒR. Kuhlen: ,QIRUPDWLRQ, in: R. Kuhlen, T.Seeger, D. Strauch (Hrsg.): Grundlagen
der praktischen Information und Dokumentation, 5., völlig neu gefasste
Ausgabe, Band 1, München 2004
ƒB. Küppers: 'DWDPLQLQJLQGHU3UD[LVHLQ$QVDW]]XU1XW]XQJGHU3RWHQWLDOHYRQ
'DWDPLQLQJLPEHWULHEOLFKHQ8PIHOG, in: Europäische Hochschulschriften:
Reihe 5, Volks- und Betriebswirtschaft; Bd. 2373, Frankfurt / Main. [u.a.] 1999
ƒM. Pantelic, H. Nohr: 'DWD:DUHKRXVLQJ, in: H. Nohr (Hrsg.): Arbeitsberichte
Wissensmanagement, 9 / 2000. URL: http://www.iuk.hdmstuttgart.de/nohr/Km/KmAP/KmAP.html, Klick-Datum: 6.6.2005
ƒM. P. Schmidt, M. Grimm: 'DWD0DUWVDOV%DVLVGHV:LVVHQVPDQDJHPHQWV, in: U.
Hannig (Hrsg.): Knowledge Management und Business Intelligence, Berlin
[u.a.] 2002
ƒJ. Schwarze: (LQIKUXQJLQGLH:LUWVFKDIWVLQIRUPDWLN, 5., völlig überarb. Aufl.,
Herne [u.a.] 2000
ƒE. Vitt, M. Luckevich, S. Misner: %XVLQHVV,QWHOOLJHQFH, Redmond [u.a.] 2002
30
Herunterladen