Anwendung von OLAP-basiertem Preprocessing und Data-Mining zur Gewinnung von Kommunikationsprolen Alexander Madche1 , Andreas Hotho1 , and Markus Wiese2 1 Institut AIFB, Universitat Karlsruhe, D-76128 Karlsruhe, fmaedche, [email protected], 2 http://www.aifb.uni-karlsruhe.de/ Deutsche Telekom AG , D-76646 Bruchsal, [email protected], http://www.telekom.de/ Zusammenfassung Die Anwendung von Data-Mining-Algorithmen in der Praxis erfor- dert immer eine zielgerichtete Vorverarbeitung von Daten. Dieses Preprocessing nimmt beim Aufbau von Data-Mining-Anwendungen einen nicht unbetrachtlichen Zeitanteil ein und hat einen entscheidenden Einu auf die Qualitat der generierten Modelle. Ausgehend von einem umfassenden Prozemodell fur das Knowledge-Discovery wird in diesem Papier speziell fur das Preprocessing von Daten ein neuer Ansatz beschrieben. Dabei wird auf Basis eines Data-Marts und darauf aufsetzender OLAP-Funktionalitat ein Rahmen fur OLAP-basiertes Preprocessing aufgebaut, welcher die notwendige Interaktivitat und Iterativitat unterstutzt. In einer Fallstudie aus dem Bereich der Telekommunikation wird der vorgestellte Ansatz konkretisiert und durch die Bildung von Kommunikationsprolen erlautert. Die gebildeten Kommunikationsprole werden dann mit Data-Mining-Algorithmen untersucht. 1 Einfuhrung Im Bereich der Telekommunikation fallen taglich groe Mengen an Daten in Form sogenannter Kommunikationsdatensatze aus unterschiedlichen operativen Systemen an. Die Deutsche Telekom AG sammelt diese Daten, speichert sie in verschiedenen Formen auf unterschiedlichsten Medien und wertet sie zusammen mit anderen Daten aus. Die Komplexitat und das Volumen der Daten sowie die Heterogenitat der Quellen erschweren den Zugri und die Analyse der Daten und damit die Denition eines Knowledge-Discovery-Prozesses mittels klassischer, clientbasierter Systeme. Trotz der beschriebenen Beschrankungen kann man durch die Kombination von Standardanwendungen aus den Bereichen Datenbanksysteme, On-Line-Analytical-Processing (OLAP), Statistik und Data-Mining einen Knowledge-Discovery-Proze denieren, der den Austausch von Daten zwischen den einzelnen Softwarepaketen auf ein Minimum reduziert und die jeweiligen Vorzuge der verschiedenen Anwendungen fur den Knowledge-Discovery-Proze nutzt. In der Regel sind beim Aufbau eines Knowledge-Discovery-Prozesses die Analysen durch viele aufwendige Einzelschritte gepragt, die sich hauptsachlich mit der Datenanbindung und -integration, dem Datenverstandnis und Preprocessing beschaftigen. Die eigentliche Ausfuhrung von Data-Mining-Algorithmen kostet dabei nur einen Bruchteil der fur die verfahrensvorbereitenden Schritte benotigten Zeit. Um den Anforderungen nach schnelleren und exibleren Analysen genugen zu konnen, mu die Zeit fur die Datenvorverarbeitung reduziert werden. Dazu wird generell eine konsistente Art der Datenspeicherung benotigt, wie sie beispielsweise ein Data-Mart (vgl. Abschnitt 4.1) erlaubt. Weiterhin ist es aufgrund der betrachteten groen Datenmenge von ca. 100 GB notwendig, verschiedene Schritte zur Datenreduktion, wie sie gewohnlich in Data-Mining-Tools implementiert sind, noch vor der Anwendung eines Data-Mining-Verfahrens zu vollziehen. Diese Datenreduktion wurde auf Basis einer OLAP-Anwendung realisiert und stellt den Kern unseres Ansatzes fur OLAP-basiertes Preprocessing dar. Auerdem nutzen wir die Funktionalitat von OLAP- und Datenbanksoftware auch fur alle anderen, realisierbaren Preprocessing-Operationen. Mit einer solchen Vorgehensweise kann die Zeit fur Analysen drastisch reduziert werden. Die dabei verwendeten kommerziellen Anwendungen Business Objects 4.0 (OLAP) und Oracle 8.0 erlauben einen schnellen Zugri auf groe Datenmengen (in unserer Fallstudie ca. 100 GB). Sie bilden die Grundlage fur den benotigten Data-Mart und stellen implizit die benotigte Funktionalitat fur unser ezientes OLAP-Preprocessing bereit. Die nach der Vorverarbeitung nur noch etwa 400 KB groe Datenmenge konnte ohne Schwierigkeiten mit Clementine 5.0 oder SPSS 8.0 analysiert werden. Das Paper ist folgendermaen gegliedert. Abschnitt 2 stellt die Grundlagen fur OLAP-basiertes Preprocessing vor. Dabei wird zum einen auf den Gesamtrahmen des Knowledge-Discovery-Prozemodells eingegangen, welcher den Ausgangspunkt unseres Ansatzes darstellt. Zum anderen werden das Konzept der mehrdimensionalen Datenmodellierung und die wichtigsten Funktionalitaten von OLAP in Abschnitt 2.2 erlautert, bevor in Abschnitt 3 unser Ansatz fur den Einsatz von OLAP zum ezienten Preprocessing im Knowledge-Discovery-Proze erklart wird. An einem konkreten Anwendungsbeispiel aus der Telekommunikation werden die sich bietenden Moglichkeiten in Abschnitt 4 vorgestellt. Abschnitt 5 beinhaltet einen Vergleich existierender Ansatze zum Preprocessing, Abschnitt 6 fat die beschriebenen Inhalte zusammen und liefert einen Ausblick auf weitere Arbeiten. 2 Grundlagen fur OLAP-basiertes Preprocessing 2.1 Ein Knowledge-Discovery-Prozemodell Die Entwicklung einer Data-Mining-Anwendung ist ein komplexer, interaktiver und iterativer Proze. Gesteuert wird dieser Proze vom konkreten Geschaftsproblem, von der Anwendungsaufgabe, der Domane und den Daten sowie von der zur Verfugung stehenden Hard- und Software. In Abbildung 1 ist das Prozemodell mit den unterschiedlichen Phasen dargestellt (vergleiche [4] fur eine umfassende Darstellung). Data Business Problem analysis 1 Deployment ?? Problem Task Knowledge Generation analysis Phase Phase KnowlDepedge Gener- loytion ment Model DepDocumentation Data Gener- loytion ment 2 Model DepData Gener- loyDocumentation tion ment 3 Documentation Data Documentation Data KnowlDepedge Gener- loytion ment n Defined Process Definition Documentation Application Abbildung1. Integriertes Knowledge-Discovery-Prozemodell. Dabei wird generell zwischen einem Denitions- und Anwendungsteil unterschieden. Der Denitionsteil entspricht der Entwicklung und der Anwendungsteil der Ausfuhrung einer Data-MiningAnwendung. Beim Denitionsteil eines Knowledge-Discovery-Prozesses geht man typischerweise prototypisch vor. Der Denitionsteil wird in Zusammenarbeit eines Data-Mining-Experten mit einem unternehmensinternen Domanenexperten durchgefuhrt. In [4] wird beschrieben, wie im Denitionsteil des Prozesses das Geschaftsproblem in Abstimmung mit der Aufgabenanalyse in eine Sammlung denierter Teilaufgaben zerlegt wird. Aus Abbildung 1 ist ersichtlich, da zwischen die Phasen der Geschaftsproblemanalyse, Aufgabenanalyse, Wissensgenerierung, Dokumentation und Wissensanwendung unterschieden wird. Wahrend fur den Denitionsteil kein fester Ablauf zwischen den einzelnen Phasen denierbar ist, kann im Anwendungsteil ein sequentieller Ablauf zwischen den einzelnen Phasen festgelegt werden. In der Phase der Geschaftsproblemanalyse wird grundsatzlich uber das eigentliche Geschaftsproblem nachgedacht und entsprechende Szenarien entwickelt. Dabei werden sowohl funktionale als auch nichtfunktionale Anforderungen an das Ergebnis des Prozesses erhoben sowie physische Beschrankungen gepruft und eine prazise Problembeschreibung formuliert. Die Phase der Aufgabenanalyse stellt im Denitionsteil den Kern des weiteren Vorgehens dar. In dieser Phase wird die komplexe Aufgabenstellung iterativ in kleinere Teilaufgaben verfeinert. Die Phasen der Wissensanwendung und -generierung greifen hier ineinander. Die Wissensgenerierungsphase ist der zentrale Kern des Prozesses. Sie enthalt die Teilphasen der Datenanbindung und -integration, Verstandnis und Exploration der Daten, Preprocessing, Modellgenerierung und -evaluierung. In der Phase der Wissensanwendung wird das Ergebnis der Wissensgenerierungsphase interpretiert und mit den Anforderungen aus der Geschaftsproblemstellung abgeglichen. Die Dokumentationsphase wird, wie aus Abbildung 1 ersichtlich, phasenubergreifend sowohl im Denitions- als auch im Anwendungsteil ausgefuhrt. Dokumentation macht das Vorgehen nachvollziehbar und erleichtert die Wiederverwendung. 2.2 OLAP On-Line-Analytical-Processing (OLAP) bietet mit seiner mehrdimensionalen Sicht auf verschiedene zu bestimmende Kennzahlen (numerische Variablen) eines Unternehmens eine typische Sichtweise fur eine Analyse. Durch OLAP-Systeme wird ein schneller, komfortabler und interaktiver Zugri auf beliebige Perspektiven des Datenmaterials ermoglicht [1]. Dabei hangen Kennzahlen, wie z.B. Anzahl von Telefonverbindungen, oder die mittlere Gesprachsdauer von verschiedensten Dimensionen, wie z.B. Zeit, Tarifzone, Kundenart, ab. Betrachtet man nicht nur die Auspragung einer Dimension, sondern mehrerer und das in bezug auf Kommunikationsdaten, so bezeichnen wir dies im folgenden als Kommunikationsmerkmal. Die Dimensionen konnen auerdem uber eine Hierarchie miteinander verbunden sein. Dadurch lassen sich die gleichen Kennzahlen fur verschiedene Aggregationniveaus bestimmen und visualisieren. Die mehrdimensionale Sichtweise bezeichnet man auch als Hyper-Wurfel (Hyper Cube). Folgendes Beispiel aus dem Telekommunikationsbereich verdeutlicht kurz die Moglichkeiten von OLAP: Fur eine gegebene Gruppe von Kunden mochte man wissen, wie lang durchschnittlich die Gesprache dauern. Angenommen, es handelt sich dabei um Privatkunden, bei denen die Gesprache im Ortsbereich und an Feiertagen am Abend von Interesse sind. Entlang einer vorgegebenen Hierarchie, z.B: Monat - Quartal - Jahr fur die Dimension Zeit, kann man sich die Kennzahl "durchschnittliche Gesprachsdauer" berechnen. Die Hierarchie lat sich nun zur Ermittlung der Kennzahl fur verschiedenste Aggregationsstufen, z.B. nur einen Feiertag oder alle Feiertage in einem Monat bzw. auch alle Feiertage eines Quartals oder Jahres, nutzen. Die verschiedenen Werte konnen miteinander verglichen werden und zeigen das unterschiedliche Verhalten der einzelnen Kunden an Feiertagen. Der Einsatz von OLAP-Systemen als Analyse-Tools erfolgt haug in Verbindung mit einem Data-Warehouse bzw. Data-Mart als Front-End. Diese Art der Datenhaltung bietet eine konsistente und integrierte Datengrundlage. Um die mehrdimensionale Sicht auf eine relationale Datenbanksicht abzubilden, verwendet man in der Regel das sogenannte Stern-Schema. Alle Kennzahlen werden in einer oder mehreren Haupt- bzw. Faktentabellen zusammengefat. Die Dimensionen werden in eigenen Relationen, den Nebentabellen, abgelegt. Jeder Eintrag in der Faktentabelle enthalt sowohl den numerischen Wert als auch die Zeiger auf die ihn bestimmenden Dimensionen. Das Schneeocken-Schema stellt eine Erweiterung des Stern-Schemas zur expliziten Abbildung von Hierarchien im relationalen Modell dar. Neben unterschiedlichen graschen Visualisierungen prasentieren OLAP-Systeme die Informationen haug in Tabellenform, woraus sich verschiedene Operationen ableiten lassen. Die Pivotisierung stellt die Fakten mittels einer Kreuztabelle fur eine ausgewahlte Aggregationsebene ubersichtlich dar. Mit den Funktionen Drill-Down und Roll-Up hat man die Moglichkeit, sich entlang einer Dimension innerhalb verschiedener Aggregationsstufen zu bewegen. Der Detaillierungsgrad wird mittels Drill-Down erhoht, wahrend Roll-Up eine weitere Verdichtung ermoglicht. Legt man fur eine Menge von Dimensionen Bedingungen fest, d.h. mochte man nur noch einen bestimmten Ausschnitt des Hyper-Cube betrachten, so spricht man von Slice&Dice. Sie reduziert die Dimensionalitat des Datenwurfels, schneidet also bildlich gesprochen eine Scheibe aus dem Hyper-Cube heraus. Bildet man kleine Aggregate, sprich man fat verschiedene Auspragungen einer oder mehrerer Dimensionen zusammen, so ist dies auch durch Gruppieren moglich. Dabei bestimmt der Endanwender selbst die Zusammensetzung der einzelnen Gruppen. Neben den beschriebenen Fahigkeiten stellen die meisten Tools weitere Grundfunktionen, wie z.B. Sortieren oder arithmetische Operationen, zur Verfugung, die sich beliebig mit den anderen kombinieren lassen. Ein ausfuhrliches Anwendungsbeispiel, anhand dessen man die Moglichkeiten der beschriebenen OLAP-Funktionalitaten gut erkennen kann, ist in Abschnitt 4.2 zu nden. 2.3 Weitere Vorgehensweise Im weiteren wird aus dem Gesamtrahmen des Prozemodells (Abschnitt 2.1) speziell die Wissensgenerierungsphase im Denitionsteil herausgegrien. Einen wichtigen Punkt stellt dabei die verfahrensspezische Vorverarbeitung der zu untersuchenden Daten dar. Dabei wird speziell fur komplexe Massendaten eine anwendungsorientierte Vorgehensweise vorgestellt, welche mit Integration von den in Abschnitt 2.2 beschriebenen OLAP-Methoden eziente Preprocessing-Schritte auf den Daten ermoglicht. Die Exploration der Daten und das damit einhergehende Verstandnis ndet in Form der mehrdimensionalen Datenmodellierung statt. Das Preprocessing in Form der OLAP-Funktionalitat ermoglicht eine geschickte Verarbeitung von Massendaten und der darauf aufsetzenden Ausfuhrung von Data-Mining-Verfahren. 3 Preprocessing-Proze mit OLAP-Unterstutzung Praktische Erfahrungen bei der Entwicklung von Data-Mining-Anwendungen haben gezeigt, da die Teilphasen Datenanbindung und -integration, Datenverstandnis und Preprocessing einen Groteil der gesamten Entwicklungszeit in Anspruch nehmen. Die Ausfuhrung von Data-Mining-Algorithmen nimmt dagegen in der Praxis typischerweise nur sehr wenig Zeit in Anspruch, wobei die Qualitat der generierten Modelle entscheidend von der verfahrensabhangigen Vorbereitung der Daten beeinut wird. Dabei mangelt es jedoch speziell beim Preprocessing von Daten an einer methodischen, prozeorientierten Vorgehensweise. Abbildung 2 stellt den Gesamtrahmen zum Preprocessing von Daten dar. Grundlage fur alle weiteren Beschreibungen ist eine integriert vorliegende und zugreifbare Datenmenge, wie man sie sich zum Beispiel in einem Data-Warehouse bzw. Data-Mart (vgl. Abschnitt 4.1) vorliegend vorstellen kann. Dabei mu betont werden, da eine direkte Anwendung eines Data-Mining-Verfahrens auf diese Datenmenge in der Realitat wenig vielversprechend ist. Typischerweise mussen die Daten problem- und aufgabenspezisch fur die Anwendung eines konkreten Verfahrens angepat werden. Als klassische Preprocessing-Operationen sind in Abbildung 2 die horizontale und vertikale Reduktion und Ableitung sowie die Transformationen (wie zum Beispiel Skalierung, Normalisierung, Diskretisierung) aufgefuhrt. Da eine Automatisierung dieser Operationen schwierig ist, hat sich in der praktischen Erfahrung herausgestellt, da die Anwendung dieser Operationen in der ‘‘Klassisches - Preprocessing‘‘ Datenverständnis und Exploration Ausgangsdaten Datencharakteristiken mittels statistischer Verfahren Explorative Visualisierung Abgeleitete PreprocessingSchritte Reduktion (horizontal und vertikal) Zieldaten Ableitung (horizontal und vertikal) Data Mining Verfahren Transformation (Skalierung, Diskretisierung, Normalisierung) Mehrdimensionale Datenmodellierung ‘‘OLAP - Preprocessing‘‘ Meta-Daten Abbildung2. Erweiterter Ablauf des Preprocessing. Regel auf einem Datenverstandnis und auf Erfahrung mit dem Umgang der Datenmengen beruht. Verstandnis und Preprocessing stehen in Interaktion und sind in der Regel durch eine recht unsysthematische Vorgehensweise gekennzeichnet. Diese Vorgehensweise untersutzen die OLAPSysteme, die fur Analysen eingesetzt werden, schon seit Jahren. Aus diesem Grund bietet sich die Nutzung der Funktionalitat von OLAP-Systemen an. Abbildung 2 stellt eine Erweiterung des Preprocessing mit OLAP-Funktionalitat dar, im folgenden OLAP-Preprocessing genannt, welche durch die Ansatze im Bereich des sogenannten OLAPMining (vgl. [7], [12]) motiviert sind. Ausgehend von einer integrierten Ausgangsdatenmenge stellt die mehrdimensionale Datenmodellierung die Basis fur ein Verstandnis der Daten dar. Die Attribute der "achen" relationalen Datenbank werden mittels einer Metadaten-Anreicherung in eine strukturierte Hierarchie gebracht. Auf Basis dieser Datenmodellierung wird dann der fur OLAPAnwendungen grundlegende Hyper-Cube aufgesetzt. Mit dem neuen OLAP-Preprocessing sind dabei alle OLAP-Operationen auf dem Hyper-Cube gemeint, welche in Analogie zu den klassischen Operationen des Preprocessing zu sehen sind. Dabei wird explizit der Punkt der Interaktivitat betont, da vom Analytiker verschiedene Zieldatensatze auf verschiedenen Aggregationsniveaus efzient abgeleitet werden konnen. In Abhangigkeit der Funktionalitat des jeweiligen OLAP-Systems konnen neben Reduktionsoperationen (z.B. \Slice&Dice") auch Transformationsoperationen zum Preprocessing genutzt werden. Funktionalitaten, welche nicht durch das OLAP-System abgedeckt werden, mussen in der Data-Mining-Umgebung vollzogen werden. 4 Anwendungsstudie Die Deutsche Telekom AG fuhrt schon seit knapp 5 Jahren ein Telekommunikationspanel durch, um das Kommunikationsverhalten ihrer Kunden besser erforschen zu konnen. Mit Einverstandnis von ca. 5000 privaten Haushalte und ca. 6000 Arbeitsstatten werden deren Telefonanschlusse gemessen und wichtige Informationen uber die Anzahl der aufkommenden Verbindungen, die Dauer der Verbindungen, die Art der Verbindungen (zum Beispiel Orts-, Regional-, Deutschland-, Auslandsgesprach oder Internetverbindung, etc.), der Wochentag, die Tageszeit (aufgeteilt in Stundenfenster) sowie einige weitere Kennzahlen in anonymisierter Form gespeichert. Zusatzlich werden von 2 renommierten Marktforschungsinstituten regelmaig Befragungen bei den Haushalten und Arbeitsstatten durchgefuhrt, um mit Hilfe der erhobenen soziodemographischen Merkmale Kundengruppen besser beschreiben zu konnen. Damit hot man, gerade in der Zeit des auerst dynamischen Wettbewerbs ein Instrumentarium zu besitzen, mit dem gezieltere Marketingaktionen und eine innovative Preisgestaltung moglich werden. Um der gewunschten Anforderung an eziente Auswertemoglichkeiten gerecht zu werden, wurde ein Panelanalysesystem (kurz PAS) in Form eines \Data-Mart" entwickelt, welches im folgenden Abschnitt beschrieben wird. Aufsetzend auf der konsistenten Datenhaltung sollten u.a. DataMining-Verfahren angewendet werden, um eine Entscheidungsgrundlage fur Marketingaktionen und Preisgestaltung zu liefern. Dabei wurde das Ziel verfolgt, jeden Panelteilnehmer durch ein Kommunikationsprol zu beschreiben. In dem Kommunikationsprol sollten charakteristische Eigenschaften des Kommunikationsverhaltens abgelegt werden. Die Ableitung der gewunschten Kommunikationsprole wurde mit dem in Abschnitt 3 vorgestellten Ansatz fur OLAP-Preprocessing realisiert und ist im Abschnitt 4.2 beschrieben. Ausgehend von den in Form von Kommunikationsprolen vorverarbeiteten Daten konnten nun geeigneter Data-Mining-Algorithmen angewendet werden. Beispielhaft stellt Abschnitt 4.3 ein Segmentierungsansatz fur Kommunikationsprole mit einer regelbasierten Charakterisierung der Segmente vor. 4.1 Das Data-Mart PAS Zum Aufbau eines OLAP-fahigen Panelanalysesystems wurde zunachst ein mehrdimensionales konzeptuelles Datenmodell, realisiert durch ein Stern-Schema, erstellt. Das Stern-Schema besteht dabei aus mehreren Faktentabellen (Befragung Haushalte, Befragung Arbeitsstatten, Kommunikationsdaten etc.), die teilweise mit denselben Dimensionstabellen (insgesamt uber 60!) verbunden sind, weil zum Beispiel die wichtigsten Befragungsmerkmale zur Beschleunigung von Abfragen in die Kommunikationsdaten mit integriert wurden. Diese Redundanz wurde bewut wahrend der Erstellung des Datenmodells in Kauf genommen, um eine gute Performance fur spatere Abfragen zu erhalten. Dimensionstabellen Faktentabellen Dimensionstabellen Kundensegment Befragung Haushalte Haushalt (PK) Arbeitsstätte (GK) Beruf Tarifzone Ort Regional Deutschland ... Tagart Mo - Fr Sa, So, Fe Zeit Stunde (0 .. 23) Tag Monat Jahr Beruf_Code Teilnehmer_ID Beruf_Code Kommunikationsdaten Haushaltsgröße Teilnehmer_ID ... Kundensegment Tarifzone Tagart Zeit Befragung Arbeitsstätten Branche_Code Branche Teilnehmer_ID ... Branche_Code Kennzahlen (Verb. minuten ) Branche Anzahl Mitarbeiter ... Wirtschaftszweig (fein gegliedert) Wirtschaftszweig (fein gegliedert) Wirtschaftszweig (grob gegliedert) Abbildung3. Auszug aus dem Stern-Schema des Panelanalysesystems. Eine Modellierung in 3. Normalform konnte daher nicht mehr realisiert werden. Des weiteren verdichteten wir die Dimensionstabellen, was durch explizite Merkmalshierarchien reprasentiert wurde. Beispielsweise sind die Branchen der Arbeitsstatten in 2 Hierarchiestufen, eine feinere und eine grobere Struktur der Wirtschaftszweige, zusammengefat. Aus dem Stern-Schema wurde zur Realisierung des PAS ein relationales logisches Datenmodell abgeleitet. Hierzu legt man jede Faktentabelle in einer eigenen Tabelle ab. Jede Dimensionstabelle wurde { falls vorhanden { mit den jeweiligen Hierarchiestufen zusammen in einer eigenen Relation beziehungsweise Tabelle abgelegt. Da mehrere Faktentabellen die gleichen Dimensionstabellen gemeinsam benutzen, sind noch verschiedene Kontexte deniert worden, damit innerhalb eines Kontextes eine Dimensionstabelle eindeutig zuzuordnen ist, um so Konikte bei der Ausfuhrung von Datenbankabfragen zu verhindern. Realisiert wurde das logische Datenmodell schlielich auf einem Oracle-8-Datenbank-System. Fur die gewunschte OLAP-Funktionalitat wurde das Tool Business Objects von der gleichnamigen Firma als Front-End auf die Datenbank aufgesetzt. 4.2 Anwendung des OLAP-Preprocessings Der in Abschnitt 3 vorgestellte Ansatz wurde exemplarisch auf Grundlage des beschriebenen Panelanalysesystems und des OLAP-Tools Business Objects angewendet. Dafur wurden zur Ableitung einer Zieldatenmenge die wichtigsten Schritte des Preprocessing durch die Anwendung verschiedener OLAP-Funktionen vollzogen. Die gut vorverarbeitete Zieldatenmenge stand dann fur die weitere Untersuchung den Tools Clementine 5.0 bzw. SPSS 8.0 zur Verfugung. Grundlage fur alle nachfolgend beschriebenen Analysen bildeten ca. 1400 Privatkunden. Der Analysezeitraum beschrankt sich auf das letzte Quartal 1998. In einem ersten Ansatz wurde fur jeden dieser Kunden die Summe aller Verbindungsminuten fur eine bestimmte Stunde in einer Tarifzone an einem Wochentag ermittelt, was ca. 1000 Kommunikationsmerkmalen entspricht. Die explorative Analyse mit Business Objects zeigte, da eine zu feine Aggregierungsstufe vorlag. Daraufhin wurden die Stunden in 4 Gruppen mit jeweils 6 Stunden (die erste Gruppe ging von 0 bis 6 Uhr, die zweite von 6 bis 12.00 Uhr usw.) zusammengefat. Bei den Wochentagen ist nur noch zwischen Werktagen und Samstag, Sonn- und Feiertagen unterschieden. Aus den so gebildeten Aggregaten konnten mittels der OLAP-Operation \Slice&Dice" alle Tarifzonen entfernt werden, die nicht innerhalb des Festnetzes der Deutschen Telekom lagen, wodurch sich die Anzahl der Auspragungen dieser Dimension auf 3 reduzierte. Fur jeden Kunden ergaben sich dadurch 24 Kommunikationsmerkmale, die das Kommunikationsverhalten eines jeden (zu allen anderen betrachteten) Kunden innerhalb des Festnetzes der Deutschen Telekom beschreiben. Business Objects lieferte nach der Datenbankabfrage die gewunschten Informationen in einer Tabelle, welche die Kommunikationstransaktionen aller Panelteilnehmer im untersuchten Zeitraum darstellt. Die anschlieende Pivotisierung der Daten erhohte nicht nur die U bersichtlichkeit, sondern brachte die Daten auch gleich in eine Form, die SPSS 8.0 und Clementine 5.0 weiterverarbeiten konnen. Jede Spalte enthalt ein Kommunikationsmerkmal, das die Summe aller Verbindungsminuten dieses Kommunikationsmerkmales fur das letzte Quartal 1998 widergibt, so da jedem Kunden die 24 Kommunikationsmerkmale innerhalb einer Zeile zugeordnet werden. Visualisiert man die Auspragungen eines Kommunikationsmerkmals mittels einer Haugkeitsverteilung, so erkennt man eine linksschiefe Verteilung. Business Objects bietet die Moglichkeit, Operationen wie Logarithmieren anzuwenden. Fur die Anwendung eines Clusterverfahrens mute die linksschiefe zu einer symetrischen Verteilung hin verandert werden. Dazu wurden die Verbindungsminuten mit der Funktion ln(x +1) transformiert. Die sich daraus ergebende Tabelle konnte ohne weitere Veranderungen in Clementine 5.0 bzw. SPSS genutzt werden. 4.3 Clustering und Interpretation Mit den gezielt vorverarbeiteten Daten konnte die Aufgabe der Kundensegmentierung in Form ihres konkreten Telekommunikationsverhaltens angegangen werden. Im folgenden wurde das weit 1 0 1 0 Kommunikationsmerkmal Abbildung4. Visualisierung von Kommunikationsprolen (links: Gesamtmenge, rechts: ein Cluster). verbreitete und erprobte k-Means-Clusterverfahren verwendet (vgl. [5]), welches sowohl im StatistikTool SPSS 8.0 als auch in Clementine 5.0 implementiert ist. Die Anzahl der Cluster wurde mit 10 vorgegeben. Die absoluten Haugkeiten an Clustermitgliedern in den 10 berechneten Clustern schwanken von minimal einem Privatkunden bis zu maximal 267 Privatkunden. Dabei konnte der kleinste Cluster mit einem fur Privatkunden uberdurchschnittlichen Kommunikationsvolumen als Ausreier identiziert werden. Die restlichen 9 Cluster lieferten jeweils eine Zusammenfassung von Privatkunden mit ahnlichem Kommunikationsverhalten. Diese Zusammenfassung bildet eine gute Grundlage fur die Segmentierung von Privatkunden. Die gefundenen Cluster mit ihren durchschnittlichen Prolen konnten mittels sogenannter Fehlerdiagramme in SPSS 8.0 visualisiert werden (siehe Abbildung 4). Dabei werden alle 24 Kommunikationsmerkmale mit einem 95-%-Kondenzintervall um den Mittelwert fur jeden Cluster abgetragen. Mit dieser einfachen Visualisierung lieen sich bereits wesentliche Unterschiede der Cluster bezuglich der Nutzung spezieller Kommunikationsmerkmale erkennen. Zum Beispiel wurde ein Cluster (vgl. rechter Teil der Abbildung 4) identiziert, dessen Mittelwerte fur die Kommunikationsmerkmale aus dem Ortsbereich sich nur geringfugig von der untersuchten Gesamtmenge (vgl. linker Teil der Abbildung 4) unterscheiden. Gleichzeitig wiesen sie aber bei allen ubrigen Kommunikationsmerkmalen fast kein Kommunikationsaufkommen auf. Wie schon in Abschnitt 4.1 erwahnt, beinhaltet das Data-Mart "PAS" zusatzlich sozio-demographische Daten in Form von Befragungsdaten. Diese geben unter anderem Auskunft uber die Haushaltsgroe und das Nettoeinkommen der Teilnehmer. Die Daten konnen wie die Kommunikationsdaten auch mit Business Objects abgefragt werden und stehen dann in der schon beschriebenen Tabelle (siehe Abschnitt 4.2) als eine Spalte fur weitere Analysen zur Verfugung. Um mehr Informationen uber die gefundenen Cluster zu erhalten, sollte im folgenden das weit verbreitete und in Clementine implementierte C5.0-Entscheidungsbaumverfahren zur Beschreibung verwendet werden. Dabei wurden einfache und interpretierbare Klassenbeschreibungen erzeugt, die das konkrete Kommunikationsverhalten in Beziehung zum sozio-demographischen Status setzten. Beispielsweise konnten fur den im vorletzten Absatz beschriebenen Cluster die Regel gefunden werden, die besagte, da die im Cluster bendlichen Teilnehmer haug Haushalten mit 4 oder mehr Mitgliedern darstellen und gleichzeitig das Nettoeinkommen des Haushaltsvorstandes gering ist. Eine Reihe weiterer solcher entsprechender Regeln konnte gefunden werden, wodurch sich die einzelnen Cluster gut beschreiben und interpretieren lieen. 5 Vergleichbare Ansatze Die Preprocessing-Aufgabe ist bisher nur wenig methodisch fundiert, obwohl das Problem des Preprocessing in praktischen Data Mining Anwendungen auerst dringlich ist. In [3] wird beschrieben, wie auf Basis der Berechnung von Datencharakteristiken fur Klassikationsprobleme Empfehlungen fur Preprocessing-Operationen gegeben werden konnen. Bei komplexen Massendaten stellt sich die Berechnung von Datencharakteristiken jedoch als besonders schwierig heraus. Die berechneten Datencharakteristiken beruhen teilweise auf statistischen Annahmen, welche nicht immer erfullt sind. Staudt et al. ([13]) beschreiben aus der Sicht einer Anwendung von Data-Mining im Versicherungsbereich die Probleme des Preprocessing und bauen eine Architektur zum Metadatengestutzten Preprocessing-Support auf. Metadaten werden sowohl zur Informationsintegration als auch fur die Data-Mining-Umgebung genutzt. Auf die Beziehung zwischen OLAP und Data-Mining geht Parsaye (vgl. [12]) ein. Er beschreibt eine Architektur zur kombinierten Anwendung von OLAP und Data-Mining und zeigt anhand von Beispielen auf, inwiefern Data-Mining-Analysen abhangig von unterschiedliche Aggregationsniveaus sind. Die Gruppe von J. Han (vgl. [7]) forscht schon seit mehreren Jahren im Bereich OLAP-Mining. Als Argument fur OLAP-Mining wird ebenfalls die Notwendigkeit einer Musteranalyse auf verschiedenen Abstraktionsniveaus betont. Zusatzlich wird die Moglichkeit eines interaktiven Data-Mining hervorgehoben. Beide Ansatze konzentrieren sich primar auf die Data-Mining-Verfahren und nicht auf andere Teile des Knowledge-Discovery-Prozesses. Unser vorgestellter Ansatz versucht auf Basis einer bestehenden OLAP{Umgebung das Problem des Preprocessing zu vereinfachen. An dieser Stelle sei noch einmal erwahnt, da dieser Ansatz nicht nur methodische, sondern auch rein anwendungsorientierte Vorteile bietet. Durch die konsistente und integrierte Datengrundlage, die die meist schon vorhandenen OLAP-Systeme auf der Grundlage von Data-Warehouse/Data-Mart bieten (siehe Abschnitt 2.2), entfallen verschiedenste Datenaufbereitungsoperationen, die fur eine Denition des Data Mining Prozesses existenziell sind. Weiterhin steht von Beginn der Denitionsphase an ein ezientzer Datenzugi bereit, der leicht Beispielabfragen und verschiedenste Preprocessing-Schritte auf den realen Daten ermoglicht. Bei der konkreten Anwendung erlaubt unser Ansatz durch die darunterliegende Datenbank einen performanten Zugri auch auf aktualisierte Datenbestande. Zu beachten ist aber, da die mittels OLAP-System denierbaren Preprocessingschritte auf den Funktionsumfang von Datenbank und OLAP-System begrenzt bleiben. Dadurch mussen evtl. einige Preprocessingschritte erst im Data Mining Tool vollzogen werden. Die meisten beschriebenen Vorteile beruhen auf der im Vorfeld geleisteten Arbeit an der Datenquelle, welche gleichzeitig auch einen Kritikpunkt des hier vorgestellten OLAP-Preprocessing betrit. Kann man nicht auf ein Data-Warehouse/Data-Mart mit mehrdimensionalen Datenmodell aufbauen, sondern mu dieses erst erstellen, ist eine entsprechender Aufwand notwendig. Fur groe Datenmenge wird sich die Bereitstellung eines perfomanten Zugries und der damit einhergehende Aufwand jedoch immer lohnen. 6 Fazit und weitere Arbeiten Auf Basis eines Prozemodells fur das Knowledge Discovery wurde ein anwendungsorientierter Ansatz zum ezienten Preprocessing vorgestellt. Das Preprocessing von Daten zur Anwendung eines Data-Mining-Verfahrens ist typischerweise durch Interaktivitat und Iterativitat gekennzeichnet. Mit der Anwendung der OLAP-Techniken konnen verschiedene Synergien genutzt werden: OLAPAnwendungen sind fur ein interaktives Vorgehen gebaut und kommen mit groen Datenmengen gut zurecht. Zusatzlich konnte auf die bereits bestehenden und laufenden Umgebungen (Data-Mart, OLAP) aufgebaut und dadurch die Einfuhrung von Data-Mining-Technologien besser realisiert werden. Ein weiterer wichtiger Punkt, welcher bereits im Abschnitt 2.1 betont wurde, ist die Trennung zwischen Denition und Anwendung einer Data-Mining-Losung. Sowohl die Denition als auch die Anwendung einer Data-Mining-Losung mu im Kontext eines unternehmensweiten Wissensmanagement gesehen werden. Dabei spielen sowohl technische Fragestellungen als auch die Unternehmenskultur eine Rolle. Die Denition einer Data-Mining-Losung betrachten wir analog zu [13] als eine Wissensmodellierungsaufgabe, wie sie aus dem Bereich des Knowledge-Engineering bekannt ist. Die Anwendung wird vom Data-Mining-Experten in Abstimmung mit Fachabteilungen und Domanenexperten realisiert. Diese Interaktion gilt es zu unterstutzen, wobei wir speziell fur unsere zukunftigen Arbeiten Ontologien einsetzen wollen. Unter dem Begri der Ontologie verstehen wir nach Gruber ([6]) eine \explizite Spezikation einer Konzeptualisierung". Mit diesem expliziten Modell eines Weltausschnitts wird der gesamte Knowledge-Discovery-Proze durchgehend mit auf der Ontologie beruhenden Metadaten angereichert. Der hier vorgestellte Ansatz beschreibt dabei nur einen kleinen Ausschnitt. Dabei werden die Metadaten des mehrdimensionalen Datenmodells fur die Datenvorverarbeitung genutzt. Entsprechende Metadaten sind auch fur Data-Mining-Algorithmen (beispielsweise ILP, Assoziationsregeln mit Taxonomien, . . . ) und zur Modellinterpretation verwendbar. Bei der Anwendung einer Data-Mining-Losung in den Fachabteilungen ist der Einsatz der Ontologie ebenfalls nutzlich. Durch die Adaption der Begriichkeiten (beispielsweise der Telekommunikationsdomane) ist die Anwendung leichter nutzbar und wird positiv akzeptiert. Aus Data-MiningAnalysen generierte Berichte konnen uber ein Intranet mit Metadaten annotiert verfugbar gemacht werden (vgl. [2]). Dadurch wird ein schnelles Feedback auf Data-Mining-Analysen moglich. Unsere praktischen Erfahrungen haben gezeigt, da speziell der Aspekt der Integration bei Einfuhrung von Data-Mining-Technologien fur deren Erfolg wichtig ist. Danksagungen. Die in diesem Paper vorgestellten Arbeiten sind im Rahmen eines von der Deutschen Telekom AG nanzierten Promotionsstipendiums entstanden. Literatur 1. S. Chaudhuri und U. Dayal: An Overview of Data Warehousing and OLAP Technology. SIGMOD Record, Volume 26, S.65-74, 1997. 2. S. Decker, M. Erdmann, D. Fensel und R. Studer: OntoBroker: Ontology-based Access to Distributed and Semi-Structured Information. in: R. Meersman et al. (eds.): Semantic Issues in Multimedia Systems, Kluwer Academic Publisher, Boston 1999. 3. R. Engels und C. Theusinger: Using a Data Metric for Oering Preprocessing Advice in Data Mining Applications. ECAI 98 | Proceedings of the the 13th European Conference on Articial Intelligence, Springer, Brighton, S. 430-434, 1998. 4. R. Engels: Component-based User Guidance for Knowledge Discovery and Data Mining Processes. Dissertation, Universitat Karlsruhe, 1999. 5. K. Fukunaga: Introduction to Statistical Pattern Recognition. San Diego, CA, Academic Press, 1990. 6. T. R. Gruber: A Translation Approach to Portable Ontology Specications. in: Knowledge Acquisition. vol. 6, no. 2, 1993. 7. J. Han: OLAP Mining: An Integration of OLAP with Data Mining. Conference on Data Semantics (DS-7), 1997. 8. J. Hartung und B. Elpelt: Multivariate Statistik. Oldenbourg Verlag, 1995. 9. W. H. Inmon: Building the Data Warehouse, John Wiley & Sons, New York, 1996. 10. G. Nakhaeizadeh: Data Mining { Theoretische Aspekte und Anwendungen. Physica-Verlag, 1998. 11. L. Kaufman und P.J. Rousseeuw: Finding Groups in Data: An Introduction to Cluster Analysis. New York, Wiley, 1990. 12. K. Parsaye: OLAP and Data Mining: Bridging the Gap. Database Programming and Design, Volume 10, S.30-37, 1998. 13. M. Staudt, J.-U. Kietz und U. Reimer: ADLER: An Environment for Mining Insurance Data. In Proceedings KRDB'97, 1997.