Anwendung von OLAP-basiertem Preprocessing und Data

Werbung
Anwendung von OLAP-basiertem Preprocessing und
Data-Mining zur Gewinnung von Kommunikationsprolen
Alexander Madche1 , Andreas Hotho1 , and Markus Wiese2
1
Institut AIFB, Universitat Karlsruhe, D-76128 Karlsruhe,
fmaedche, [email protected],
2
http://www.aifb.uni-karlsruhe.de/
Deutsche Telekom AG , D-76646 Bruchsal,
[email protected],
http://www.telekom.de/
Zusammenfassung Die Anwendung von Data-Mining-Algorithmen in der Praxis erfor-
dert immer eine zielgerichtete Vorverarbeitung von Daten. Dieses Preprocessing nimmt beim
Aufbau von Data-Mining-Anwendungen einen nicht unbetrachtlichen Zeitanteil ein und hat
einen entscheidenden Einu auf die Qualitat der generierten Modelle. Ausgehend von einem umfassenden Prozemodell fur das Knowledge-Discovery wird in diesem Papier speziell
fur das Preprocessing von Daten ein neuer Ansatz beschrieben. Dabei wird auf Basis eines
Data-Marts und darauf aufsetzender OLAP-Funktionalitat ein Rahmen fur OLAP-basiertes
Preprocessing aufgebaut, welcher die notwendige Interaktivitat und Iterativitat unterstutzt.
In einer Fallstudie aus dem Bereich der Telekommunikation wird der vorgestellte Ansatz
konkretisiert und durch die Bildung von Kommunikationsprolen erlautert. Die gebildeten
Kommunikationsprole werden dann mit Data-Mining-Algorithmen untersucht.
1 Einfuhrung
Im Bereich der Telekommunikation fallen taglich groe Mengen an Daten in Form sogenannter
Kommunikationsdatensatze aus unterschiedlichen operativen Systemen an. Die Deutsche Telekom
AG sammelt diese Daten, speichert sie in verschiedenen Formen auf unterschiedlichsten Medien
und wertet sie zusammen mit anderen Daten aus. Die Komplexitat und das Volumen der Daten
sowie die Heterogenitat der Quellen erschweren den Zugri und die Analyse der Daten und damit
die Denition eines Knowledge-Discovery-Prozesses mittels klassischer, clientbasierter Systeme.
Trotz der beschriebenen Beschrankungen kann man durch die Kombination von Standardanwendungen aus den Bereichen Datenbanksysteme, On-Line-Analytical-Processing (OLAP), Statistik und Data-Mining einen Knowledge-Discovery-Proze denieren, der den Austausch von Daten
zwischen den einzelnen Softwarepaketen auf ein Minimum reduziert und die jeweiligen Vorzuge der
verschiedenen Anwendungen fur den Knowledge-Discovery-Proze nutzt. In der Regel sind beim
Aufbau eines Knowledge-Discovery-Prozesses die Analysen durch viele aufwendige Einzelschritte
gepragt, die sich hauptsachlich mit der Datenanbindung und -integration, dem Datenverstandnis
und Preprocessing beschaftigen. Die eigentliche Ausfuhrung von Data-Mining-Algorithmen kostet
dabei nur einen Bruchteil der fur die verfahrensvorbereitenden Schritte benotigten Zeit. Um den
Anforderungen nach schnelleren und exibleren Analysen genugen zu konnen, mu die Zeit fur
die Datenvorverarbeitung reduziert werden. Dazu wird generell eine konsistente Art der Datenspeicherung benotigt, wie sie beispielsweise ein Data-Mart (vgl. Abschnitt 4.1) erlaubt. Weiterhin
ist es aufgrund der betrachteten groen Datenmenge von ca. 100 GB notwendig, verschiedene
Schritte zur Datenreduktion, wie sie gewohnlich in Data-Mining-Tools implementiert sind, noch
vor der Anwendung eines Data-Mining-Verfahrens zu vollziehen. Diese Datenreduktion wurde auf
Basis einer OLAP-Anwendung realisiert und stellt den Kern unseres Ansatzes fur OLAP-basiertes
Preprocessing dar. Auerdem nutzen wir die Funktionalitat von OLAP- und Datenbanksoftware
auch fur alle anderen, realisierbaren Preprocessing-Operationen. Mit einer solchen Vorgehensweise
kann die Zeit fur Analysen drastisch reduziert werden.
Die dabei verwendeten kommerziellen Anwendungen Business Objects 4.0 (OLAP) und Oracle
8.0 erlauben einen schnellen Zugri auf groe Datenmengen (in unserer Fallstudie ca. 100 GB).
Sie bilden die Grundlage fur den benotigten Data-Mart und stellen implizit die benotigte Funktionalitat fur unser ezientes OLAP-Preprocessing bereit. Die nach der Vorverarbeitung nur noch
etwa 400 KB groe Datenmenge konnte ohne Schwierigkeiten mit Clementine 5.0 oder SPSS 8.0
analysiert werden.
Das Paper ist folgendermaen gegliedert. Abschnitt 2 stellt die Grundlagen fur OLAP-basiertes
Preprocessing vor. Dabei wird zum einen auf den Gesamtrahmen des Knowledge-Discovery-Prozemodells eingegangen, welcher den Ausgangspunkt unseres Ansatzes darstellt. Zum anderen werden
das Konzept der mehrdimensionalen Datenmodellierung und die wichtigsten Funktionalitaten von
OLAP in Abschnitt 2.2 erlautert, bevor in Abschnitt 3 unser Ansatz fur den Einsatz von OLAP
zum ezienten Preprocessing im Knowledge-Discovery-Proze erklart wird. An einem konkreten Anwendungsbeispiel aus der Telekommunikation werden die sich bietenden Moglichkeiten in
Abschnitt 4 vorgestellt. Abschnitt 5 beinhaltet einen Vergleich existierender Ansatze zum Preprocessing, Abschnitt 6 fat die beschriebenen Inhalte zusammen und liefert einen Ausblick auf
weitere Arbeiten.
2 Grundlagen fur OLAP-basiertes Preprocessing
2.1 Ein Knowledge-Discovery-Prozemodell
Die Entwicklung einer Data-Mining-Anwendung ist ein komplexer, interaktiver und iterativer Proze. Gesteuert wird dieser Proze vom konkreten Geschaftsproblem, von der Anwendungsaufgabe,
der Domane und den Daten sowie von der zur Verfugung stehenden Hard- und Software. In Abbildung 1 ist das Prozemodell mit den unterschiedlichen Phasen dargestellt (vergleiche [4] fur eine
umfassende Darstellung).
Data
Business
Problem
analysis
1
Deployment
??
Problem
Task
Knowledge
Generation
analysis
Phase
Phase
KnowlDepedge
Gener- loytion
ment
Model DepDocumentation
Data
Gener- loytion
ment
2
Model DepData
Gener- loyDocumentation
tion
ment
3
Documentation
Data
Documentation
Data
KnowlDepedge
Gener- loytion
ment
n
Defined Process
Definition
Documentation
Application
Abbildung1. Integriertes Knowledge-Discovery-Prozemodell.
Dabei wird generell zwischen einem Denitions- und Anwendungsteil unterschieden. Der Denitionsteil entspricht der Entwicklung und der Anwendungsteil der Ausfuhrung einer Data-MiningAnwendung. Beim Denitionsteil eines Knowledge-Discovery-Prozesses geht man typischerweise
prototypisch vor. Der Denitionsteil wird in Zusammenarbeit eines Data-Mining-Experten mit
einem unternehmensinternen Domanenexperten durchgefuhrt.
In [4] wird beschrieben, wie im Denitionsteil des Prozesses das Geschaftsproblem in Abstimmung mit der Aufgabenanalyse in eine Sammlung denierter Teilaufgaben zerlegt wird. Aus
Abbildung 1 ist ersichtlich, da zwischen die Phasen der Geschaftsproblemanalyse, Aufgabenanalyse, Wissensgenerierung, Dokumentation und Wissensanwendung unterschieden wird. Wahrend
fur den Denitionsteil kein fester Ablauf zwischen den einzelnen Phasen denierbar ist, kann im
Anwendungsteil ein sequentieller Ablauf zwischen den einzelnen Phasen festgelegt werden.
In der Phase der Geschaftsproblemanalyse wird grundsatzlich uber das eigentliche Geschaftsproblem nachgedacht und entsprechende Szenarien entwickelt. Dabei werden sowohl funktionale
als auch nichtfunktionale Anforderungen an das Ergebnis des Prozesses erhoben sowie physische
Beschrankungen gepruft und eine prazise Problembeschreibung formuliert. Die Phase der Aufgabenanalyse stellt im Denitionsteil den Kern des weiteren Vorgehens dar. In dieser Phase wird
die komplexe Aufgabenstellung iterativ in kleinere Teilaufgaben verfeinert. Die Phasen der Wissensanwendung und -generierung greifen hier ineinander. Die Wissensgenerierungsphase ist der
zentrale Kern des Prozesses. Sie enthalt die Teilphasen der Datenanbindung und -integration,
Verstandnis und Exploration der Daten, Preprocessing, Modellgenerierung und -evaluierung. In
der Phase der Wissensanwendung wird das Ergebnis der Wissensgenerierungsphase interpretiert
und mit den Anforderungen aus der Geschaftsproblemstellung abgeglichen. Die Dokumentationsphase wird, wie aus Abbildung 1 ersichtlich, phasenubergreifend sowohl im Denitions- als auch im
Anwendungsteil ausgefuhrt. Dokumentation macht das Vorgehen nachvollziehbar und erleichtert
die Wiederverwendung.
2.2 OLAP
On-Line-Analytical-Processing (OLAP) bietet mit seiner mehrdimensionalen Sicht auf verschiedene zu bestimmende Kennzahlen (numerische Variablen) eines Unternehmens eine typische Sichtweise fur eine Analyse. Durch OLAP-Systeme wird ein schneller, komfortabler und interaktiver
Zugri auf beliebige Perspektiven des Datenmaterials ermoglicht [1]. Dabei hangen Kennzahlen,
wie z.B. Anzahl von Telefonverbindungen, oder die mittlere Gesprachsdauer von verschiedensten
Dimensionen, wie z.B. Zeit, Tarifzone, Kundenart, ab. Betrachtet man nicht nur die Auspragung
einer Dimension, sondern mehrerer und das in bezug auf Kommunikationsdaten, so bezeichnen
wir dies im folgenden als Kommunikationsmerkmal. Die Dimensionen konnen auerdem uber eine
Hierarchie miteinander verbunden sein. Dadurch lassen sich die gleichen Kennzahlen fur verschiedene Aggregationniveaus bestimmen und visualisieren. Die mehrdimensionale Sichtweise bezeichnet
man auch als Hyper-Wurfel (Hyper Cube).
Folgendes Beispiel aus dem Telekommunikationsbereich verdeutlicht kurz die Moglichkeiten von
OLAP: Fur eine gegebene Gruppe von Kunden mochte man wissen, wie lang durchschnittlich die
Gesprache dauern. Angenommen, es handelt sich dabei um Privatkunden, bei denen die Gesprache
im Ortsbereich und an Feiertagen am Abend von Interesse sind. Entlang einer vorgegebenen
Hierarchie, z.B: Monat - Quartal - Jahr fur die Dimension Zeit, kann man sich die Kennzahl
"durchschnittliche Gesprachsdauer" berechnen. Die Hierarchie lat sich nun zur Ermittlung der
Kennzahl fur verschiedenste Aggregationsstufen, z.B. nur einen Feiertag oder alle Feiertage in
einem Monat bzw. auch alle Feiertage eines Quartals oder Jahres, nutzen. Die verschiedenen Werte
konnen miteinander verglichen werden und zeigen das unterschiedliche Verhalten der einzelnen
Kunden an Feiertagen.
Der Einsatz von OLAP-Systemen als Analyse-Tools erfolgt haug in Verbindung mit einem
Data-Warehouse bzw. Data-Mart als Front-End. Diese Art der Datenhaltung bietet eine konsistente und integrierte Datengrundlage. Um die mehrdimensionale Sicht auf eine relationale Datenbanksicht abzubilden, verwendet man in der Regel das sogenannte Stern-Schema. Alle Kennzahlen werden in einer oder mehreren Haupt- bzw. Faktentabellen zusammengefat. Die Dimensionen
werden in eigenen Relationen, den Nebentabellen, abgelegt. Jeder Eintrag in der Faktentabelle
enthalt sowohl den numerischen Wert als auch die Zeiger auf die ihn bestimmenden Dimensionen.
Das Schneeocken-Schema stellt eine Erweiterung des Stern-Schemas zur expliziten Abbildung
von Hierarchien im relationalen Modell dar.
Neben unterschiedlichen graschen Visualisierungen prasentieren OLAP-Systeme die Informationen haug in Tabellenform, woraus sich verschiedene Operationen ableiten lassen. Die Pivotisierung stellt die Fakten mittels einer Kreuztabelle fur eine ausgewahlte Aggregationsebene ubersichtlich dar. Mit den Funktionen Drill-Down und Roll-Up hat man die Moglichkeit, sich entlang
einer Dimension innerhalb verschiedener Aggregationsstufen zu bewegen. Der Detaillierungsgrad
wird mittels Drill-Down erhoht, wahrend Roll-Up eine weitere Verdichtung ermoglicht. Legt man
fur eine Menge von Dimensionen Bedingungen fest, d.h. mochte man nur noch einen bestimmten
Ausschnitt des Hyper-Cube betrachten, so spricht man von Slice&Dice. Sie reduziert die Dimensionalitat des Datenwurfels, schneidet also bildlich gesprochen eine Scheibe aus dem Hyper-Cube
heraus. Bildet man kleine Aggregate, sprich man fat verschiedene Auspragungen einer oder mehrerer Dimensionen zusammen, so ist dies auch durch Gruppieren moglich. Dabei bestimmt der
Endanwender selbst die Zusammensetzung der einzelnen Gruppen.
Neben den beschriebenen Fahigkeiten stellen die meisten Tools weitere Grundfunktionen, wie
z.B. Sortieren oder arithmetische Operationen, zur Verfugung, die sich beliebig mit den anderen
kombinieren lassen. Ein ausfuhrliches Anwendungsbeispiel, anhand dessen man die Moglichkeiten
der beschriebenen OLAP-Funktionalitaten gut erkennen kann, ist in Abschnitt 4.2 zu nden.
2.3 Weitere Vorgehensweise
Im weiteren wird aus dem Gesamtrahmen des Prozemodells (Abschnitt 2.1) speziell die Wissensgenerierungsphase im Denitionsteil herausgegrien. Einen wichtigen Punkt stellt dabei die
verfahrensspezische Vorverarbeitung der zu untersuchenden Daten dar. Dabei wird speziell fur
komplexe Massendaten eine anwendungsorientierte Vorgehensweise vorgestellt, welche mit Integration von den in Abschnitt 2.2 beschriebenen OLAP-Methoden eziente Preprocessing-Schritte
auf den Daten ermoglicht. Die Exploration der Daten und das damit einhergehende Verstandnis
ndet in Form der mehrdimensionalen Datenmodellierung statt. Das Preprocessing in Form der
OLAP-Funktionalitat ermoglicht eine geschickte Verarbeitung von Massendaten und der darauf
aufsetzenden Ausfuhrung von Data-Mining-Verfahren.
3 Preprocessing-Proze mit OLAP-Unterstutzung
Praktische Erfahrungen bei der Entwicklung von Data-Mining-Anwendungen haben gezeigt, da
die Teilphasen Datenanbindung und -integration, Datenverstandnis und Preprocessing einen Groteil der gesamten Entwicklungszeit in Anspruch nehmen. Die Ausfuhrung von Data-Mining-Algorithmen nimmt dagegen in der Praxis typischerweise nur sehr wenig Zeit in Anspruch, wobei die
Qualitat der generierten Modelle entscheidend von der verfahrensabhangigen Vorbereitung der
Daten beeinut wird. Dabei mangelt es jedoch speziell beim Preprocessing von Daten an einer
methodischen, prozeorientierten Vorgehensweise.
Abbildung 2 stellt den Gesamtrahmen zum Preprocessing von Daten dar. Grundlage fur alle
weiteren Beschreibungen ist eine integriert vorliegende und zugreifbare Datenmenge, wie man sie
sich zum Beispiel in einem Data-Warehouse bzw. Data-Mart (vgl. Abschnitt 4.1) vorliegend vorstellen kann. Dabei mu betont werden, da eine direkte Anwendung eines Data-Mining-Verfahrens
auf diese Datenmenge in der Realitat wenig vielversprechend ist. Typischerweise mussen die Daten
problem- und aufgabenspezisch fur die Anwendung eines konkreten Verfahrens angepat werden.
Als klassische Preprocessing-Operationen sind in Abbildung 2 die horizontale und vertikale
Reduktion und Ableitung sowie die Transformationen (wie zum Beispiel Skalierung, Normalisierung, Diskretisierung) aufgefuhrt. Da eine Automatisierung dieser Operationen schwierig ist, hat
sich in der praktischen Erfahrung herausgestellt, da die Anwendung dieser Operationen in der
‘‘Klassisches - Preprocessing‘‘
Datenverständnis
und
Exploration
Ausgangsdaten
Datencharakteristiken mittels
statistischer Verfahren
Explorative Visualisierung
Abgeleitete
PreprocessingSchritte
Reduktion
(horizontal und vertikal)
Zieldaten
Ableitung
(horizontal und vertikal)
Data Mining
Verfahren
Transformation
(Skalierung, Diskretisierung,
Normalisierung)
Mehrdimensionale
Datenmodellierung
‘‘OLAP - Preprocessing‘‘
Meta-Daten
Abbildung2. Erweiterter Ablauf des Preprocessing.
Regel auf einem Datenverstandnis und auf Erfahrung mit dem Umgang der Datenmengen beruht. Verstandnis und Preprocessing stehen in Interaktion und sind in der Regel durch eine recht
unsysthematische Vorgehensweise gekennzeichnet. Diese Vorgehensweise untersutzen die OLAPSysteme, die fur Analysen eingesetzt werden, schon seit Jahren. Aus diesem Grund bietet sich die
Nutzung der Funktionalitat von OLAP-Systemen an.
Abbildung 2 stellt eine Erweiterung des Preprocessing mit OLAP-Funktionalitat dar, im folgenden OLAP-Preprocessing genannt, welche durch die Ansatze im Bereich des sogenannten OLAPMining (vgl. [7], [12]) motiviert sind. Ausgehend von einer integrierten Ausgangsdatenmenge stellt
die mehrdimensionale Datenmodellierung die Basis fur ein Verstandnis der Daten dar. Die Attribute der "achen" relationalen Datenbank werden mittels einer Metadaten-Anreicherung in eine
strukturierte Hierarchie gebracht. Auf Basis dieser Datenmodellierung wird dann der fur OLAPAnwendungen grundlegende Hyper-Cube aufgesetzt. Mit dem neuen OLAP-Preprocessing sind dabei alle OLAP-Operationen auf dem Hyper-Cube gemeint, welche in Analogie zu den klassischen
Operationen des Preprocessing zu sehen sind. Dabei wird explizit der Punkt der Interaktivitat
betont, da vom Analytiker verschiedene Zieldatensatze auf verschiedenen Aggregationsniveaus efzient abgeleitet werden konnen. In Abhangigkeit der Funktionalitat des jeweiligen OLAP-Systems
konnen neben Reduktionsoperationen (z.B. \Slice&Dice") auch Transformationsoperationen zum
Preprocessing genutzt werden. Funktionalitaten, welche nicht durch das OLAP-System abgedeckt
werden, mussen in der Data-Mining-Umgebung vollzogen werden.
4 Anwendungsstudie
Die Deutsche Telekom AG fuhrt schon seit knapp 5 Jahren ein Telekommunikationspanel durch,
um das Kommunikationsverhalten ihrer Kunden besser erforschen zu konnen. Mit Einverstandnis
von ca. 5000 privaten Haushalte und ca. 6000 Arbeitsstatten werden deren Telefonanschlusse gemessen und wichtige Informationen uber die Anzahl der aufkommenden Verbindungen, die Dauer
der Verbindungen, die Art der Verbindungen (zum Beispiel Orts-, Regional-, Deutschland-, Auslandsgesprach oder Internetverbindung, etc.), der Wochentag, die Tageszeit (aufgeteilt in Stundenfenster) sowie einige weitere Kennzahlen in anonymisierter Form gespeichert. Zusatzlich werden
von 2 renommierten Marktforschungsinstituten regelmaig Befragungen bei den Haushalten und
Arbeitsstatten durchgefuhrt, um mit Hilfe der erhobenen soziodemographischen Merkmale Kundengruppen besser beschreiben zu konnen. Damit hot man, gerade in der Zeit des auerst dynamischen Wettbewerbs ein Instrumentarium zu besitzen, mit dem gezieltere Marketingaktionen
und eine innovative Preisgestaltung moglich werden.
Um der gewunschten Anforderung an eziente Auswertemoglichkeiten gerecht zu werden, wurde ein Panelanalysesystem (kurz PAS) in Form eines \Data-Mart" entwickelt, welches im folgenden Abschnitt beschrieben wird. Aufsetzend auf der konsistenten Datenhaltung sollten u.a. DataMining-Verfahren angewendet werden, um eine Entscheidungsgrundlage fur Marketingaktionen
und Preisgestaltung zu liefern. Dabei wurde das Ziel verfolgt, jeden Panelteilnehmer durch ein
Kommunikationsprol zu beschreiben. In dem Kommunikationsprol sollten charakteristische Eigenschaften des Kommunikationsverhaltens abgelegt werden. Die Ableitung der gewunschten Kommunikationsprole wurde mit dem in Abschnitt 3 vorgestellten Ansatz fur OLAP-Preprocessing
realisiert und ist im Abschnitt 4.2 beschrieben. Ausgehend von den in Form von Kommunikationsprolen vorverarbeiteten Daten konnten nun geeigneter Data-Mining-Algorithmen angewendet
werden. Beispielhaft stellt Abschnitt 4.3 ein Segmentierungsansatz fur Kommunikationsprole mit
einer regelbasierten Charakterisierung der Segmente vor.
4.1 Das Data-Mart PAS
Zum Aufbau eines OLAP-fahigen Panelanalysesystems wurde zunachst ein mehrdimensionales
konzeptuelles Datenmodell, realisiert durch ein Stern-Schema, erstellt. Das Stern-Schema besteht
dabei aus mehreren Faktentabellen (Befragung Haushalte, Befragung Arbeitsstatten, Kommunikationsdaten etc.), die teilweise mit denselben Dimensionstabellen (insgesamt uber 60!) verbunden
sind, weil zum Beispiel die wichtigsten Befragungsmerkmale zur Beschleunigung von Abfragen in
die Kommunikationsdaten mit integriert wurden. Diese Redundanz wurde bewut wahrend der
Erstellung des Datenmodells in Kauf genommen, um eine gute Performance fur spatere Abfragen
zu erhalten.
Dimensionstabellen
Faktentabellen
Dimensionstabellen
Kundensegment
Befragung
Haushalte
Haushalt (PK)
Arbeitsstätte (GK)
Beruf
Tarifzone
Ort
Regional
Deutschland
...
Tagart
Mo - Fr
Sa, So, Fe
Zeit
Stunde (0 .. 23)
Tag
Monat
Jahr
Beruf_Code
Teilnehmer_ID
Beruf_Code
Kommunikationsdaten
Haushaltsgröße
Teilnehmer_ID
...
Kundensegment
Tarifzone
Tagart
Zeit
Befragung
Arbeitsstätten
Branche_Code
Branche
Teilnehmer_ID
...
Branche_Code
Kennzahlen
(Verb. minuten )
Branche
Anzahl Mitarbeiter
...
Wirtschaftszweig
(fein gegliedert)
Wirtschaftszweig
(fein gegliedert)
Wirtschaftszweig
(grob gegliedert)
Abbildung3. Auszug aus dem Stern-Schema des Panelanalysesystems.
Eine Modellierung in 3. Normalform konnte daher nicht mehr realisiert werden. Des weiteren
verdichteten wir die Dimensionstabellen, was durch explizite Merkmalshierarchien reprasentiert
wurde. Beispielsweise sind die Branchen der Arbeitsstatten in 2 Hierarchiestufen, eine feinere und
eine grobere Struktur der Wirtschaftszweige, zusammengefat. Aus dem Stern-Schema wurde zur
Realisierung des PAS ein relationales logisches Datenmodell abgeleitet. Hierzu legt man jede Faktentabelle in einer eigenen Tabelle ab. Jede Dimensionstabelle wurde { falls vorhanden { mit den
jeweiligen Hierarchiestufen zusammen in einer eigenen Relation beziehungsweise Tabelle abgelegt. Da mehrere Faktentabellen die gleichen Dimensionstabellen gemeinsam benutzen, sind noch
verschiedene Kontexte deniert worden, damit innerhalb eines Kontextes eine Dimensionstabelle
eindeutig zuzuordnen ist, um so Konikte bei der Ausfuhrung von Datenbankabfragen zu verhindern. Realisiert wurde das logische Datenmodell schlielich auf einem Oracle-8-Datenbank-System.
Fur die gewunschte OLAP-Funktionalitat wurde das Tool Business Objects von der gleichnamigen
Firma als Front-End auf die Datenbank aufgesetzt.
4.2 Anwendung des OLAP-Preprocessings
Der in Abschnitt 3 vorgestellte Ansatz wurde exemplarisch auf Grundlage des beschriebenen Panelanalysesystems und des OLAP-Tools Business Objects angewendet. Dafur wurden zur Ableitung
einer Zieldatenmenge die wichtigsten Schritte des Preprocessing durch die Anwendung verschiedener OLAP-Funktionen vollzogen. Die gut vorverarbeitete Zieldatenmenge stand dann fur die
weitere Untersuchung den Tools Clementine 5.0 bzw. SPSS 8.0 zur Verfugung.
Grundlage fur alle nachfolgend beschriebenen Analysen bildeten ca. 1400 Privatkunden. Der
Analysezeitraum beschrankt sich auf das letzte Quartal 1998. In einem ersten Ansatz wurde fur
jeden dieser Kunden die Summe aller Verbindungsminuten fur eine bestimmte Stunde in einer
Tarifzone an einem Wochentag ermittelt, was ca. 1000 Kommunikationsmerkmalen entspricht.
Die explorative Analyse mit Business Objects zeigte, da eine zu feine Aggregierungsstufe vorlag.
Daraufhin wurden die Stunden in 4 Gruppen mit jeweils 6 Stunden (die erste Gruppe ging von
0 bis 6 Uhr, die zweite von 6 bis 12.00 Uhr usw.) zusammengefat. Bei den Wochentagen ist
nur noch zwischen Werktagen und Samstag, Sonn- und Feiertagen unterschieden. Aus den so
gebildeten Aggregaten konnten mittels der OLAP-Operation \Slice&Dice" alle Tarifzonen entfernt
werden, die nicht innerhalb des Festnetzes der Deutschen Telekom lagen, wodurch sich die Anzahl
der Auspragungen dieser Dimension auf 3 reduzierte. Fur jeden Kunden ergaben sich dadurch
24 Kommunikationsmerkmale, die das Kommunikationsverhalten eines jeden (zu allen anderen
betrachteten) Kunden innerhalb des Festnetzes der Deutschen Telekom beschreiben.
Business Objects lieferte nach der Datenbankabfrage die gewunschten Informationen in einer
Tabelle, welche die Kommunikationstransaktionen aller Panelteilnehmer im untersuchten Zeitraum
darstellt. Die anschlieende Pivotisierung der Daten erhohte nicht nur die U bersichtlichkeit, sondern brachte die Daten auch gleich in eine Form, die SPSS 8.0 und Clementine 5.0 weiterverarbeiten
konnen. Jede Spalte enthalt ein Kommunikationsmerkmal, das die Summe aller Verbindungsminuten dieses Kommunikationsmerkmales fur das letzte Quartal 1998 widergibt, so da jedem Kunden
die 24 Kommunikationsmerkmale innerhalb einer Zeile zugeordnet werden.
Visualisiert man die Auspragungen eines Kommunikationsmerkmals mittels einer Haugkeitsverteilung, so erkennt man eine linksschiefe Verteilung. Business Objects bietet die Moglichkeit,
Operationen wie Logarithmieren anzuwenden. Fur die Anwendung eines Clusterverfahrens mute
die linksschiefe zu einer symetrischen Verteilung hin verandert werden. Dazu wurden die Verbindungsminuten mit der Funktion ln(x +1) transformiert. Die sich daraus ergebende Tabelle konnte
ohne weitere Veranderungen in Clementine 5.0 bzw. SPSS genutzt werden.
4.3 Clustering und Interpretation
Mit den gezielt vorverarbeiteten Daten konnte die Aufgabe der Kundensegmentierung in Form
ihres konkreten Telekommunikationsverhaltens angegangen werden. Im folgenden wurde das weit
1
0
1
0
Kommunikationsmerkmal
Abbildung4. Visualisierung von Kommunikationsprolen (links: Gesamtmenge, rechts: ein Cluster).
verbreitete und erprobte k-Means-Clusterverfahren verwendet (vgl. [5]), welches sowohl im StatistikTool SPSS 8.0 als auch in Clementine 5.0 implementiert ist. Die Anzahl der Cluster wurde mit 10
vorgegeben.
Die absoluten Haugkeiten an Clustermitgliedern in den 10 berechneten Clustern schwanken
von minimal einem Privatkunden bis zu maximal 267 Privatkunden. Dabei konnte der kleinste Cluster mit einem fur Privatkunden uberdurchschnittlichen Kommunikationsvolumen als Ausreier
identiziert werden. Die restlichen 9 Cluster lieferten jeweils eine Zusammenfassung von Privatkunden mit ahnlichem Kommunikationsverhalten. Diese Zusammenfassung bildet eine gute Grundlage fur die Segmentierung von Privatkunden. Die gefundenen Cluster mit ihren durchschnittlichen
Prolen konnten mittels sogenannter Fehlerdiagramme in SPSS 8.0 visualisiert werden (siehe Abbildung 4). Dabei werden alle 24 Kommunikationsmerkmale mit einem 95-%-Kondenzintervall um
den Mittelwert fur jeden Cluster abgetragen. Mit dieser einfachen Visualisierung lieen sich bereits
wesentliche Unterschiede der Cluster bezuglich der Nutzung spezieller Kommunikationsmerkmale
erkennen. Zum Beispiel wurde ein Cluster (vgl. rechter Teil der Abbildung 4) identiziert, dessen
Mittelwerte fur die Kommunikationsmerkmale aus dem Ortsbereich sich nur geringfugig von der
untersuchten Gesamtmenge (vgl. linker Teil der Abbildung 4) unterscheiden. Gleichzeitig wiesen
sie aber bei allen ubrigen Kommunikationsmerkmalen fast kein Kommunikationsaufkommen auf.
Wie schon in Abschnitt 4.1 erwahnt, beinhaltet das Data-Mart "PAS" zusatzlich sozio-demographische Daten in Form von Befragungsdaten. Diese geben unter anderem Auskunft uber die
Haushaltsgroe und das Nettoeinkommen der Teilnehmer. Die Daten konnen wie die Kommunikationsdaten auch mit Business Objects abgefragt werden und stehen dann in der schon beschriebenen Tabelle (siehe Abschnitt 4.2) als eine Spalte fur weitere Analysen zur Verfugung.
Um mehr Informationen uber die gefundenen Cluster zu erhalten, sollte im folgenden das weit
verbreitete und in Clementine implementierte C5.0-Entscheidungsbaumverfahren zur Beschreibung
verwendet werden. Dabei wurden einfache und interpretierbare Klassenbeschreibungen erzeugt, die
das konkrete Kommunikationsverhalten in Beziehung zum sozio-demographischen Status setzten.
Beispielsweise konnten fur den im vorletzten Absatz beschriebenen Cluster die Regel gefunden
werden, die besagte, da die im Cluster bendlichen Teilnehmer haug Haushalten mit 4 oder
mehr Mitgliedern darstellen und gleichzeitig das Nettoeinkommen des Haushaltsvorstandes gering
ist. Eine Reihe weiterer solcher entsprechender Regeln konnte gefunden werden, wodurch sich die
einzelnen Cluster gut beschreiben und interpretieren lieen.
5 Vergleichbare Ansatze
Die Preprocessing-Aufgabe ist bisher nur wenig methodisch fundiert, obwohl das Problem des Preprocessing in praktischen Data Mining Anwendungen auerst dringlich ist. In [3] wird beschrieben,
wie auf Basis der Berechnung von Datencharakteristiken fur Klassikationsprobleme Empfehlungen fur Preprocessing-Operationen gegeben werden konnen. Bei komplexen Massendaten stellt
sich die Berechnung von Datencharakteristiken jedoch als besonders schwierig heraus. Die berechneten Datencharakteristiken beruhen teilweise auf statistischen Annahmen, welche nicht immer
erfullt sind. Staudt et al. ([13]) beschreiben aus der Sicht einer Anwendung von Data-Mining im
Versicherungsbereich die Probleme des Preprocessing und bauen eine Architektur zum Metadatengestutzten Preprocessing-Support auf. Metadaten werden sowohl zur Informationsintegration als
auch fur die Data-Mining-Umgebung genutzt.
Auf die Beziehung zwischen OLAP und Data-Mining geht Parsaye (vgl. [12]) ein. Er beschreibt eine Architektur zur kombinierten Anwendung von OLAP und Data-Mining und zeigt
anhand von Beispielen auf, inwiefern Data-Mining-Analysen abhangig von unterschiedliche Aggregationsniveaus sind. Die Gruppe von J. Han (vgl. [7]) forscht schon seit mehreren Jahren im
Bereich OLAP-Mining. Als Argument fur OLAP-Mining wird ebenfalls die Notwendigkeit einer
Musteranalyse auf verschiedenen Abstraktionsniveaus betont. Zusatzlich wird die Moglichkeit eines interaktiven Data-Mining hervorgehoben. Beide Ansatze konzentrieren sich primar auf die
Data-Mining-Verfahren und nicht auf andere Teile des Knowledge-Discovery-Prozesses.
Unser vorgestellter Ansatz versucht auf Basis einer bestehenden OLAP{Umgebung das Problem des Preprocessing zu vereinfachen. An dieser Stelle sei noch einmal erwahnt, da dieser
Ansatz nicht nur methodische, sondern auch rein anwendungsorientierte Vorteile bietet. Durch die
konsistente und integrierte Datengrundlage, die die meist schon vorhandenen OLAP-Systeme auf
der Grundlage von Data-Warehouse/Data-Mart bieten (siehe Abschnitt 2.2), entfallen verschiedenste Datenaufbereitungsoperationen, die fur eine Denition des Data Mining Prozesses existenziell
sind. Weiterhin steht von Beginn der Denitionsphase an ein ezientzer Datenzugi bereit, der
leicht Beispielabfragen und verschiedenste Preprocessing-Schritte auf den realen Daten ermoglicht.
Bei der konkreten Anwendung erlaubt unser Ansatz durch die darunterliegende Datenbank einen
performanten Zugri auch auf aktualisierte Datenbestande. Zu beachten ist aber, da die mittels
OLAP-System denierbaren Preprocessingschritte auf den Funktionsumfang von Datenbank und
OLAP-System begrenzt bleiben. Dadurch mussen evtl. einige Preprocessingschritte erst im Data
Mining Tool vollzogen werden.
Die meisten beschriebenen Vorteile beruhen auf der im Vorfeld geleisteten Arbeit an der Datenquelle, welche gleichzeitig auch einen Kritikpunkt des hier vorgestellten OLAP-Preprocessing
betrit. Kann man nicht auf ein Data-Warehouse/Data-Mart mit mehrdimensionalen Datenmodell
aufbauen, sondern mu dieses erst erstellen, ist eine entsprechender Aufwand notwendig. Fur groe
Datenmenge wird sich die Bereitstellung eines perfomanten Zugries und der damit einhergehende
Aufwand jedoch immer lohnen.
6 Fazit und weitere Arbeiten
Auf Basis eines Prozemodells fur das Knowledge Discovery wurde ein anwendungsorientierter Ansatz zum ezienten Preprocessing vorgestellt. Das Preprocessing von Daten zur Anwendung eines
Data-Mining-Verfahrens ist typischerweise durch Interaktivitat und Iterativitat gekennzeichnet.
Mit der Anwendung der OLAP-Techniken konnen verschiedene Synergien genutzt werden: OLAPAnwendungen sind fur ein interaktives Vorgehen gebaut und kommen mit groen Datenmengen gut
zurecht. Zusatzlich konnte auf die bereits bestehenden und laufenden Umgebungen (Data-Mart,
OLAP) aufgebaut und dadurch die Einfuhrung von Data-Mining-Technologien besser realisiert
werden.
Ein weiterer wichtiger Punkt, welcher bereits im Abschnitt 2.1 betont wurde, ist die Trennung zwischen Denition und Anwendung einer Data-Mining-Losung. Sowohl die Denition als
auch die Anwendung einer Data-Mining-Losung mu im Kontext eines unternehmensweiten Wissensmanagement gesehen werden. Dabei spielen sowohl technische Fragestellungen als auch die
Unternehmenskultur eine Rolle.
Die Denition einer Data-Mining-Losung betrachten wir analog zu [13] als eine Wissensmodellierungsaufgabe, wie sie aus dem Bereich des Knowledge-Engineering bekannt ist. Die Anwendung
wird vom Data-Mining-Experten in Abstimmung mit Fachabteilungen und Domanenexperten realisiert. Diese Interaktion gilt es zu unterstutzen, wobei wir speziell fur unsere zukunftigen Arbeiten Ontologien einsetzen wollen. Unter dem Begri der Ontologie verstehen wir nach Gruber
([6]) eine \explizite Spezikation einer Konzeptualisierung". Mit diesem expliziten Modell eines
Weltausschnitts wird der gesamte Knowledge-Discovery-Proze durchgehend mit auf der Ontologie beruhenden Metadaten angereichert. Der hier vorgestellte Ansatz beschreibt dabei nur einen
kleinen Ausschnitt. Dabei werden die Metadaten des mehrdimensionalen Datenmodells fur die
Datenvorverarbeitung genutzt. Entsprechende Metadaten sind auch fur Data-Mining-Algorithmen
(beispielsweise ILP, Assoziationsregeln mit Taxonomien, . . . ) und zur Modellinterpretation verwendbar.
Bei der Anwendung einer Data-Mining-Losung in den Fachabteilungen ist der Einsatz der Ontologie ebenfalls nutzlich. Durch die Adaption der Begriichkeiten (beispielsweise der Telekommunikationsdomane) ist die Anwendung leichter nutzbar und wird positiv akzeptiert. Aus Data-MiningAnalysen generierte Berichte konnen uber ein Intranet mit Metadaten annotiert verfugbar gemacht
werden (vgl. [2]). Dadurch wird ein schnelles Feedback auf Data-Mining-Analysen moglich. Unsere
praktischen Erfahrungen haben gezeigt, da speziell der Aspekt der Integration bei Einfuhrung
von Data-Mining-Technologien fur deren Erfolg wichtig ist.
Danksagungen. Die in diesem Paper vorgestellten Arbeiten sind im Rahmen eines von der
Deutschen Telekom AG nanzierten Promotionsstipendiums entstanden.
Literatur
1. S. Chaudhuri und U. Dayal: An Overview of Data Warehousing and OLAP Technology. SIGMOD
Record, Volume 26, S.65-74, 1997.
2. S. Decker, M. Erdmann, D. Fensel und R. Studer: OntoBroker: Ontology-based Access to Distributed
and Semi-Structured Information. in: R. Meersman et al. (eds.): Semantic Issues in Multimedia Systems,
Kluwer Academic Publisher, Boston 1999.
3. R. Engels und C. Theusinger: Using a Data Metric for Oering Preprocessing Advice in Data Mining
Applications. ECAI 98 | Proceedings of the the 13th European Conference on Articial Intelligence,
Springer, Brighton, S. 430-434, 1998.
4. R. Engels: Component-based User Guidance for Knowledge Discovery and Data Mining Processes.
Dissertation, Universitat Karlsruhe, 1999.
5. K. Fukunaga: Introduction to Statistical Pattern Recognition. San Diego, CA, Academic Press, 1990.
6. T. R. Gruber: A Translation Approach to Portable Ontology Specications. in: Knowledge Acquisition.
vol. 6, no. 2, 1993.
7. J. Han: OLAP Mining: An Integration of OLAP with Data Mining. Conference on Data Semantics
(DS-7), 1997.
8. J. Hartung und B. Elpelt: Multivariate Statistik. Oldenbourg Verlag, 1995.
9. W. H. Inmon: Building the Data Warehouse, John Wiley & Sons, New York, 1996.
10. G. Nakhaeizadeh: Data Mining { Theoretische Aspekte und Anwendungen. Physica-Verlag, 1998.
11. L. Kaufman und P.J. Rousseeuw: Finding Groups in Data: An Introduction to Cluster Analysis. New
York, Wiley, 1990.
12. K. Parsaye: OLAP and Data Mining: Bridging the Gap. Database Programming and Design, Volume
10, S.30-37, 1998.
13. M. Staudt, J.-U. Kietz und U. Reimer: ADLER: An Environment for Mining Insurance Data. In
Proceedings KRDB'97, 1997.
Herunterladen