Westfälische Wilhelms-Universität Münster Ausarbeitung Data Warehouse, Data Mining, Weblog Mining im Rahmen des Seminars „Informatik und Recht“ Tobias Gerke Themensteller: Prof. Dr. Herbert Kuchen Betreuer: Dipl.-Wirt.Inform. Christoph Lembeck Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft Abgabetermin: 18. Dezember 2003 Inhaltsverzeichnis 1 Einleitung................................................................................................................... 1 2 Das Data Warehouse-Konzept................................................................................... 2 3 2.1 Notwendigkeit einer separaten Datenhaltung ................................................... 2 2.2 Begriffsdefinition Data Warehouse.................................................................. 3 2.3 Data Warehouse als Architekturkomponente ................................................... 4 Datenanalyse.............................................................................................................. 7 3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.2 3.2.1 3.2.2 4 Data Mining ...................................................................................................... 7 Assoziationsanalyse ...................................................................................... 8 Sequenzanalyse........................................................................................... 10 Entscheidungsbauminduktion..................................................................... 11 Clusteranalyse............................................................................................. 12 Web Log Mining............................................................................................. 13 Aufbereitung der Protokolldateien.............................................................. 15 Informationsgewinnung aus den Protokoll-Daten ...................................... 16 Fazit ......................................................................................................................... 19 Literaturverzeichnis ........................................................................................................ 21 II Kapitel 1: Einleitung 1 Einleitung In jüngster Zeit ist in der Wirtschaft ein struktureller Wandel zu erkennen, der sich insbesondere in geänderten Führungsprinzipien, optimierten Geschäftsprozessen und der Entwicklung neuer Konzepte, wie z.B. dem Total Quality Management (TQM) oder dem Just-in-Time-Prinzip, manifestiert. Viele Unternehmen sehen sich u.a. durch Produkthomogenisierung, Ressourcenverknappung, immer kürzere Innovations- und Produktlebenszyklen sowie insbesondere den Wandel von Verkäufer- zu Käufermärkten einem immer härter werdenden Wettbewerb ausgesetzt [Mu97, S. 4]. Unternehmerischer Erfolg hängt immer mehr von Informationsvorsprüngen ab, im Idealfall sollte die richtige Information immer zur richtigen Zeit am richtigen Ort sein. Gleichzeitig mit der Entwicklung der Information zum wichtigsten Produktionsfaktor in Unternehmen geht eine steigende Datenflut einher, die insbesondere in den operativen Bereichen der Unternehmen entsteht. Diese sind jedoch oftmals nicht in der Lage, die anfallenden Daten sinnvoll zu nutzen und die verborgenen, wichtigen Informationen hieraus zu extrahieren. Hinzu kommt, dass auch die Datenmenge der unternehmensexternen Quellen ständig zunimmt, so dass es auch hier schwieriger wird, die relevanten Informationen aus den Daten herauszufiltern. Aus diesem Grund sind einige Konzepte und Methoden entwickelt worden, mit denen versucht wird, den Informationsdefiziten zu entgegnen, indem aus den verfügbaren, riesigen Datenmengen möglichst automatisch Informationen extrahiert und dem Benutzer in geeigneter Weise präsentiert werden. In Kapitel 2 wird zunächst die Notwendigkeit diskutiert, alle verfügbaren Daten zu Analysezwecken in einer zentralen, integrierten Datenbank, dem sogenannten Data Warehouse zu verwalten. Hier wird außerdem auf die Architektur und die Arbeitsweise eines idealtypischen Data Warehouse eingegangen. In Kapitel 3 wird dann auf Möglichkeiten eingegangen, aus den Daten des Data Warehouse Informationen zu extrahieren. So wird zunächst das Data Mining als das allgemeine Anwendungsgebiet beschrieben, mit dem Muster in einem gegebenen Datenbestand entdeckt werden können. Einige der wichtigsten, konkreten Data Mining Methoden werden dann schließlich näher vorgestellt. Als letztes wird auf das Web Log Mi1 Kapitel 2: Das Data Warehouse-Konzept ning, ein Spezialgebiet des Data Mining, näher eingegangen, das das Verhalten von Konsumenten in internetbasierten Markapplikationen untersucht und Muster aufdeckt. Im Kapitel 4 wird dann abschließend noch mal eine Zusammenfassung der vorgestellten Konzepte und Methoden dargeboten. 2 Das Data Warehouse-Konzept 2.1 Notwendigkeit einer separaten Datenhaltung Wie im einleitenden Kapitel erwähnt, hat sich die Information zu einem der wichtigsten Produktionsfaktoren in Unternehmen entwickelt. Es besteht das Bestreben, möglichst schnell die richtigen Informationen aus den vorhandenen Daten abzuleiten, um so dem Management eine Entscheidungsunterstützung zu geben. Außerdem ist im Laufe der Jahre die Menge der anfallenden Daten in den operationalen Datenbanken der Unternehmen immer größer geworden, so dass es geeigneter Analysemethoden bedarf, um die in den Daten verborgenen Informationen zu extrahieren. Denkbar wäre es, diese Analysemethoden direkt auf die operationalen Datenbanken anzuwenden, doch dieser Vorgehensweise stehen eine Menge von Nachteilen gegenüber: Die als Online Transaction Processing (OLTP) bezeichneten Anwendungen der täglichen Datenverarbeitung, die auf den operationalen Datenbanken durchgeführt werden, sind durch ein hohes Transaktionsaufkommen gekennzeichnet. Beispiele für solche Anwendungen sind das Buchen eines Fluges in einem Flugreservierungssystem oder das Verarbeiten einer Bestellung in einem Handelsunternehmen. Derartige Transaktionen sind im allgemeinen strukturiert, repetitiv, erfordern aktuelle Daten und greifen auf geringe Datenmengen zu. Datenbank-Größen liegen im Bereich vieler MB bis einiger GB [Vo00, S. 674]. Es sollte vor allem eine schnelle Transaktionsabwicklung und eine Minimierung der Konflikte zwischen den Transaktionen gewährleistet sein. Anwendungen zur Analyse von Daten hingegen erfordern meist eine komplexe Auswertung. Würden solche Anwendungen auf den operationalen Datenbanken ausgeführt, würde dies die Performance dieser Datenbanken stark beeinträchtigen. Außerdem sind für bestimmte Fragestellungen historische Daten bei der Datenanalyse von Belang, die in den OLTP-Anwendungen nicht benötigt werden und aus Performancegründen daher 2 Kapitel 2: Das Data Warehouse-Konzept auch nicht in den operationalen Datenbanken gespeichert werden. Ferner ist festzustellen, dass die verschiedenen operationalen Datenquellen eines Unternehmens einen heterogenen Charakter besitzen: Unterschiedliche Datenbanktypen und –schemata werden verwendet und inkonsistente Datenrepräsentationen und –formate sind anzutreffen. Da jedoch die aus den Daten abzuleitenden Informationen der Entscheidungsunterstützung dienen, ist eine einheitliche, gehobene Datenqualität unabdingbar. Häufig ist es auch wünschenswert, neben den operationalen Datenbanken externe Datenquellen als Datengrundlage in die Analyse einzubeziehen. Insgesamt scheint es also am geeignetsten zu sein, eine Trennung von den operationalen Datenbanken und den Daten zur Analyse vorzunehmen. Zu diesem Zweck werden Letztere in einem sogenannten Data Warehouse vorbehalten, dessen Aufbau und Funktionen im nachfolgenden Kapitel kurz beschrieben wird. 2.2 Begriffsdefinition Data Warehouse Der Begriff des Data Warehouse wurde vor allem von INMON geprägt, so dass in der Literatur meist auch eine von ihm stammende Definition angeführt wird: A data warehouse is a subject oriented, integrated, non-volatile, and time variant collection of data in support of management’s decisions [In96, S. 33]. Die Eigenschaft der Themenorientierung besagt, dass nicht alle verfügbaren Daten in das Data Warehouse übernommen werden, sondern nur solche, die von den Führungskräften im Rahmen der Planungs-, Entscheidungs- und Steuerungsaufgaben auch benötigt werden. Die Daten des Data Warehouse entstammen vielen, verschiedenen, völlig heterogenen Datenquellen, in denen beispielsweise die Merkmalsausprägungen unterschiedlich kodiert sein können: So könnte zur Angabe des Geschlechts in einer Datenquelle m und w verwendet werden, während in einer anderen hierfür 0 und 1 benutzt werden. Auch unterschiedliche Maßeinheiten (z.B. Meter vs. Zentimeter für eine Längenangabe) können für das gleiche Attribut anzutreffen sein. Um dem Entscheidungsträger die Daten in einheitlicher Form zur Verfügung zu stellen, sind sie daher zu integrieren und in das Data Warehouse zu überführen. Eine weitere wichtige Eigenschaft eines Data Warehouse ist die Nicht-Flüchtigkeit der Daten. Da Entscheidungsträger bei der Analyse der Geschäftsdaten daran interessiert 3 Kapitel 2: Das Data Warehouse-Konzept sind, die Entwicklung bestimmter Kenngrößen im zeitlichen Verlauf zu überprüfen, sind auch historische Daten von besonderem Interesse. Nach dem einmaligen Einfügen von Daten in das Data Warehouse werden diese später i.d.R. nicht mehr aktualisiert oder gelöscht. Die Hauptoperation, die auf ein Data Warehouse angewendet wird, ist somit das Lesen der Daten. Eng mit der Eigenschaft der Nicht-Flüchtigkeit zusammen hängt das Charakteristikum der zeitlichen Varianz: Im Gegensatz zu den operationalen Datenbanken, bei denen zu jedem Zeitpunkt nur der aktuelle Zustand der Daten abgefragt werden kann, spiegeln die Daten des Data Warehouse die Ausprägungen der interessierenden Unternehmensdaten jeweils zu einem festen Zeitpunkt wieder (snapshot data). Der Zeitraumbezug der Daten ist dabei immer impliziter oder expliziter Bestandteil des Elementschlüssels der Daten im Data Warehouse [Sc01, S. 6]. Nach MUCKSCH, BEHME beträgt der abgebildete Zeithorizont in einem Data Warehouse in Abhängigkeit von der unternehmensindividuellen Anforderung bis zu zehn Jahre [Mu97, S.37]. 2.3 Data Warehouse als Architekturkomponente Innerhalb des betrieblichen Informationssystems kann das Data Warehouse als die zentrale Architekturkomponente aufgefasst werden, die alle analyserelevanten Daten in geeigneter Form vorbehält. Die Positionierung des Data Warehouse innerhalb dieses betrieblichen Informationssystems wird in Abb. 2.1 anhand eines Schichtenmodells verdeutlicht. Die unterste Schicht des Management-Informationssystems bilden die heterogenen Datenquellen. Diese können einerseits einen unternehmensinternen Ursprung haben und den operationalen Datenbanken oder aber auch unstrukturierten Daten wie Textdateien oder Bildern entstammen. All diese Daten fallen bei der täglichen Durchführung von Geschäftsprozessen an. Anderseits können auch Daten aus unternehmensexternen Quellen bei der Entscheidungsunterstützung von Interesse sein, so dass beispielsweise Daten von Nachrichtendiensten, von Marktforschungsinstituten oder von anderen internetbasierten Quellen Eingang in das betriebliche Informationssystem finden. Die Funktion, Daten aus den heterogenen Datenquellen in einheitlicher Form im Data Warehouse bereitzustellen, übernehmen die ETL-Werkzeuge (Abk. für Extraktion, Transformation, Loading). Sie stellen somit die Importschicht des ManagementInformationssystems dar. Ihre Aufgabe ist es, die entscheidungsrelevanten Daten aus 4 Kapitel 2: Das Data Warehouse-Konzept den heterogenen Datenquellen zu selektieren, sie in eine einheitliche Form zu transformieren, Unreinheiten zu beseitigen und die bereinigten, einheitlichen und konsistenten Daten in das Data Warehouse zu laden. Nach einem einmaligen, initialen Laden der Daten in das Data Warehouse, erfolgt i.d.R. eine periodische Aktualisierung, die z.B. täglich, wöchentlich oder monatlich durchgeführt werden kann. Dabei ist zu beachten, dass durch den Aktualisierungsvorgang das Antwortzeitverhalten der operationalen Datensysteme u.U. stark beeinträchtigt werden kann, so dass eine solche Aktualisierung nach Möglichkeit zu niederlastigen Operationszeiten, z.B. im Batch-Betrieb über Nacht, durchgeführt werden sollte [Vo00, S. 677]. Analyse- und Präsentationsschicht Zentrales Data Warehouse Data Mining Tools EIS Spreadsheet MIS/ Reportsysteme MetaDaten Archivierungssystem Data Warehouse Management Tool Data Mart Data Warehouse Data Mart Extraktion, Transformation, Loading (ETL) Importschicht Interne Datenquellen Datenquellen der operativen Systeme OLAP-Tools Operative DB unstrukturierte Daten (Textfiles, Bilder …) Externe Datenquellen WWW Nachrichten -dienste Quelle: Vgl. Schütte et al., S. 8. Abb. 2.1: Schichtenmodell eines Management-Informationssystems. Die zentrale Schicht des betrieblichen Informationssystems bildet das Data Warehouse selbst, das eine enorme Größe von einigen Terabyte in Anspruch nehmen kann. SCHÜT5 Kapitel 2: Das Data Warehouse-Konzept TE ET AL. führen an, dass das Data Warehouse von WAL*MART 1999 eine Bestandsgrö- ße von etwa 25 Terabyte hatte [Sc01, S. 10]. Aufgrund der mit der Größe des Data Warehouse steigenden Anfragezeiten und aufgrund der Tatsache, dass Adressaten bei Analysen immer nur einen Teilbereich des gesamten Datenbestandes abfragen, werden neben dem Data Warehouse noch kleinere, adressatenspezifische Datenbestände geführt, die Kopien von Teilbereichen des Data Warehouse darstellen. Abfragen werden dann direkt auf diesen sogenannten Data Marts ausgeführt, wodurch kürzere Antwortzeiten erreicht werden. Um dem Anwender Informationen bereitzustellen, welche Art von Daten wo im Data Warehouse gespeichert sind und wie diese abgefragt werden können, ist zum Data Warehouse eine Metadatenbank bereit zu stellen. Als Letztes befindet sich auf der zentralen Data Warehouse Schicht noch ein Data Warehouse Management Tool zur Administration und Konfiguration des Data Warehouse sowie ein Archivierungssystem zur Datensicherung und –archivierung. Die Datensicherung dient der Wiederherstellung des Data Warehouse im Fall eines Hard- oder Softwarefehlers. Bei der DatenArchivierung werden in Abhängigkeit der festgelegten Verdichtungsstufen und -frequenzen Daten der untersten Detaillierungsstufen aus dem Data Warehouse ausgelagert und auf Offline-Datenträgern archiviert. Diese Reduzierung des Datenvolumens im Data Warehouse dient der Performancesteigerung [Mu97, S. 57]. Die oberste Schicht des Management-Informationssystems beinhaltet Werkzeuge zur Analyse der Daten und Präsentation der gefundenen Zusammenhänge. Auch Komponenten zur Navigation durch den Datenbestand sind hierzu zu zählen. Neben Werkzeugen zur tabellarischen Auflistung und graphischen Aufbereitung von Daten sind hier als wichtigste Analyseinstrumente die Online-Analytical-Processing (OLAP)-Systeme, die eine geeignete Navigation durch den Datenbestand ermöglichen, mit der Möglichkeit, Daten in verschiedenen Verdichtungsstufen darzustellen und die verschiedenen Methoden des Data Mining zu nennen, durch die Muster und Zusammenhänge im Datenbestand aufgedeckt und verifiziert werden können. Da das Data Mining einen besonderen Stellenwert bei der Unterstützung von Management-Entscheidungen einnimmt, ist dieses Teilgebiet der betrieblichen Informationssysteme im folgenden Kapitel näher zu erläutern. 6 Kapitel 3: Datenanalyse 3 Datenanalyse 3.1 Data Mining Für den Begriff des Data Mining hat sich weder eine allgemein anerkannte Definition noch ein deutscher Terminus durchgesetzt. Die meisten in der Literatur zu findenden Definitionen ähneln der von BERRY, LINOFF, die Data Mining definieren als Exploration und Analyse großer Datenmengen mit automatischen oder semiautomatischen Werkzeugen, um bedeutungsvolle Muster und Regeln aufzufinden [Be97, S. 5]. Es sind also mit möglichst geringer Benutzerinteraktion in Datenbeständen vormals unbekannte Zusammenhänge aufzudecken und in weiteren Analysen auf ihre Richtigkeit hin zu überprüfen. Das Data Mining ist Bestandteil des KDD-Prozesses (Knowledge Discovery in Databases), der als integrierter Prozess verstanden wird, und alle Phasen der Wissensentdeckung, von der Auswahl, Extraktion und Vorbereitung der Daten über die Mustererkennung und Evaluation bis hin zur Präsentation und Interpretation umfasst. Eine schematische Darstellung des KDD-Prozesses ist Abb. 3.1 zu entnehmen. Quelle: Bensberg (2001), S. 72. Abb. 3.1: Graphische Darstellung des KDD-Prozesses Die ersten drei Phasen des abgebildeten KDD-Prozesses ähneln sehr den in Kapitel 2.3 beschriebenen Schritten der Datenextraktion und -aufbereitung im ManagementInformationssystem: Aus den Quelldatenbeständen werden relevante Daten selektiert 7 Kapitel 3: Datenanalyse und extrahiert (Phase 1), in ein einheitliches, konsistentes Format transformiert und in einer Zieldatenbank abgelegt (Phase 2). Beim beschriebenen, idealtypischen Management-Informationssystem wird hierfür ein Data Warehouse verwendet. Beim KDDProzess ist die Verwendung eines Data Warehouse zwar nicht zwingend vorgeschrieben, in der Praxis jedoch häufig anzutreffen. VOSSEN merkt hierzu an, dass man Data Mining unabhängig von einem Data Warehouse betreiben kann, dass allerdings ein Data Warehouse das Data Mining leichter sowie billiger macht [Vo00, S. 705]. Die Phase 3 des KDD-Prozesses, die Mustererkennung, entspricht der Anwendung verschiedener Data Mining Methoden. Hier wird der Datenbestand durchgescannt und nach auffälligen Mustern durchsucht. In der Phase der Evaluation (Phase 4) wird für jedes entdeckte Muster geprüft, ob es sich um einen neuen Zusammenhang handelt. Ist dies der Fall, findet das Muster Eingang in die sogenannte Hypothesenbank. Widerspricht ein gefundenes Muster einer bereits gespeicherten Hypothese der Hypothesenbank, so sind beide näher zu überprüfen und zu verifizieren. In der Phase der Präsentation (Phase 5) werden die entdeckten Muster in eine für den Benutzer geeignete Form überführt. Hierbei werden häufig tabellarische Darstellungen, Diagramme oder sonstige graphische Präsentationen verwendet. Dem Benutzer wird somit ein intuitiver Zugang zu den gefundenen Zusammenhängen geboten. Die Phase der Interpretation (Phase 6) stellt den Abschluss des KDD-Prozesses dar. Hier erfolgt eine Interaktion mit dem Anwender, indem dieser die u.U. graphisch aufbereiteten Zusammenhänge interpretiert und es somit potentiell zu einer Veränderung seines Domänenwissens kommt. Es sind in dem Bereich des Data Mining eine ganze Reihe von Methoden entwickelt worden, von denen im Folgenden die wichtigsten und meistverwendeten vorgestellt werden sollen. 3.1.1 Assoziationsanalyse Unter der Assoziationsanalyse versteht man die Ermittlung von Abhängigkeiten zwischen Teilmengen eines Datenbestandes. Sie wird häufig in der Warenkorbanalyse eingesetzt: Angenommen, es sei eine endliche Menge von Produkten (oder allgemeiner: Items) I = {i1, i2, ..., im} gegeben. Alle Kaufabwicklungen werden laufend in einer Transaktionsdatenbank T = {t1, t2, ..., tn} abgespeichert, wobei jede Transaktion ti eine Teilmenge von I darstellt, sich also aus einem oder mehreren Produkten zusammensetzt. 8 Kapitel 3: Datenanalyse Nun wird in der Transaktionsdatenbank nach Assoziationsregeln gesucht, die die Struktur und Signifikanz der Abhängigkeit einer Prämisse zu einer Konsequenz beschreiben. Prämisse und Konsequenz sind dabei Teilmengen des Datenbestandes und werden auch als linke und rechte Seiten einer Assoziationsregel bezeichnet. Als Kennzahlen dienen der Assoziationsanalyse der Supportfaktor, der Aussagen über die Häufigkeit einer entdeckten Regel macht, und der Konfidenzfaktor, der Aufschluss über die Zuverlässigkeit der Regel gibt. Um das Vorgehen der Assoziationsanalyse zu verdeutlichen, wird im Folgenden ein einfaches Beispiel einer Warenkorbanalyse erläutert. Gegeben sei die in Tab. 3.1 aufgeführte Transaktionsdatenbank. TID 134 134 134 134 135 135 135 136 136 137 137 137 Tab. 3.1: KID 246 246 246 246 355 355 355 15 15 246 246 246 Position 1 2 3 4 1 2 3 1 2 1 2 3 Produkt Füller Tinte Heft Seife Füller Tinte Heft Füller Heft Füller Tinte Seife Beispiel einer Transaktionsdatenbank Nun kann z.B. eine einfache Assoziationsregel der Form Tinte Æ Füller gebildet werden, die Aufschluss über den gemeinsamen Kauf beider Artikel gibt. Der Supportfaktor ist nun definiert als die Wahrscheinlichkeit, dass eine Transaktion sowohl die Prämisse (in diesem Fall die Tinte), als auch die Konsequenz (Füller) beinhaltet. Für obige Assoziationsregel „Tinte Æ Füller“ beträgt der Support also 0,75 (Tinte und Füller tauchen in 3 von 4 Transaktionen auf, also 3/4 = 0,75). Der Konfidenzfaktor gibt die bedingte Wahrscheinlichkeit dafür an, dass eine Transaktion, die die Prämisse (Tinte) enthält, auch die Konsequenz (Füller) beinhaltet. Für die Assoziationsregel beträgt der Konfidenzfaktor daher 1 (in allen Transaktionen, in denen Tinte gekauft wurde, wurde auch ein Füller gekauft, also 3/3 = 1). 9 Kapitel 3: Datenanalyse In der Praxis sind in der Regel eine sehr große Anzahl von Produkten und eine riesige Transaktionsdatenbank anzutreffen. Daher können hieraus eine noch größere Anzahl potenzieller Assoziationsregeln gebildet werden (Anzumerken ist hierbei, dass nicht nur Regeln bestehend aus einelementigen Mengen gebildet werden können, sondern z.B. auch solche der Form „Tinte, Füller Æ Seife, Heft“. Hierdurch steigt die Anzahl möglicher Regeln nochmals). Um jedoch nur aussagekräftige Regeln zu generieren, wird meist ein kritischer Support- und ein kritischer Konfidenzfaktor angegeben, so dass nur noch solche Regeln ausgegeben werden, die diese Werte überschreiten. Da die Assoziationsanalyse Aufschluss über korrelierte Produkte gibt, kann sie als Entscheidungsgrundlage zur bedarfsgerechten Ausgestaltung marketingpolitischer Maßnahmen herangezogen werden. So können Maßnahmen der Verkaufsraumgestaltung und der Produktplatzierung daraus abgeleitet werden [Be01, S. 107]. 3.1.2 Sequenzanalyse Mit der Assoziationsanalyse methodisch sehr verwandt ist die Sequenzanalyse. Auch hier werden Abhängigkeiten zwischen Teilmengen eines Datenbestandes ermittelt, allerdings unter Berücksichtigung eines meist zeitlichen Ordnungskriteriums. Hier interessiert nicht die Information, welche Produkte häufig gemeinsam in einer Transaktion auftauchen, sondern wie groß die Wahrscheinlichkeit ist, dass ein Kunde, der ein Produkt A gekauft hat, innerhalb eines bestimmten Zeitraums auch ein bestimmtes Produkt B kauft. Hierfür ist die Transaktionsdatenbank nach Kundennummern zu sortieren und in eine Datenbank bestehend aus Konsumentensequenzen zu überführen (In Tab. 3.2 ist eine solche Datenbank für die Transaktionsdatenbank aus Tab. 3.1 abgebildet). Aus dieser sind dann alle Sequenzen zu bestimmen, deren Supportfaktor einen gewissen Schwellenwert (Mindestsupport) überschreitet. Hierbei ist zu beachten, dass eine Sequenz nicht aus unmittelbar hintereinander folgenden Items bestehen muss, es ist lediglich die zeitliche Reihenfolge einzuhalten. Beispielsweise würde in Tab. 3.2 die Sequenzregel Füller Æ Heft einen Support von 1 aufweisen, da diese Sequenz in allen Kundensequenzen aufzufinden ist. 10 Kapitel 3: Datenanalyse TID 136 136 134 134 134 134 137 137 137 135 135 135 KID 15 15 246 246 246 246 246 246 246 355 355 355 Tab. 3.2: Position 1 2 1 2 3 4 1 2 3 1 2 3 Produkt Füller Heft Füller Tinte Heft Seife Füller Tinte Seife Füller Tinte Heft Sequenzdatenbank Eingesetzt werden kann die Sequenzanalyse bei der Gestaltung kundenindividueller Marketinginstrumente. So können einem Kunden nach einem Einkauf durch die Prognose seines zukünftigen Verhaltens auf geeignete Weise weitere Produkte angeboten werden, so dass auf diese Weise eine stärkere Kundenbindung möglich wird. Dies ist besonders geeignet für den Einsatz im internetbasierten Handel und wird beispielsweise von der Firma AMAZON.COM angewendet, um kundenindividuelle Angebote zu offerieren. 3.1.3 Entscheidungsbauminduktion Die Entscheidungsbauminduktion ist ein weit verbreitetes Verfahren zur Klassifikation von Objekten. Hierzu wird eine baumartige Struktur, bestehend aus Knoten und Kanten, gebildet. Jeder innere Knoten (incl. der Wurzel) stellt eine Testklasse für ein Attribut der zugrundeliegenden Analyseobjekte dar. Die möglichen Ergebnisse sind an den nachfolgenden Kanten eines Knotens abgetragen. In den Blättern des Entscheidungsbaumes sind schließlich die klassifizierten Merkmale abzulesen. Abb. 3.2 zeigt den Aufbau eines solchen Baumes. Durch Traversierung durch den Entscheidungsbaum lassen sich dann Produktionsregeln ablesen, die zur Klassifikation von Objekten benutzt werden können, wie z.B.: Wenn (Verschuldungsgrad < 40%) und (Einkommen < 40.000) dann (nicht kreditwürdig). Erzeugt wird solch ein Entscheidungsbaum für einen gegebenen Datenbestand durch Anwendung geeigneter Verfahren, die in einer Lernphase einen Trainingsdatenbestand 11 Kapitel 3: Datenanalyse vorklassifizierter Objekte analysieren. Die Güte des erzeugten Entscheidungsbaumes wird dann anhand von Testdaten überprüft und deren Fehlerrate bestimmt. Verschuldungsgrad < 40% Einkommen < 40.000 nicht kreditwürdig Wurzel >= 40% Innere Knoten Einkommen >= 40.000 kreditwürdig < 40.000 nicht kreditwürdig >= 40.000 kreditwürdig Blätter Quelle: Bensberg (2001), S. 110 Abb. 3.2: Darstellung eines Entscheidungsbaumes Durch die anschauliche, graphische Repräsentation der Objektklassifikationen bietet der Entscheidungsbaum eine hohe Transparenz für den Anwender. 3.1.4 Clusteranalyse Durch die Clusteranalyse wird eine große Menge ungeordneter Objekte in kleinere, homogene Teilmengen gruppiert. Objekte innerhalb eines solchen Clusters weisen zueinander homogene Merkmalsausprägungen auf, während sie zu Objekten eines anderen Clusters heterogen sind. Zur Gruppierung werden sämtliche Merkmale der Objekte herangezogen. Zur Durchführung sind zwei Schritte notwendig: Zunächst ist ein geeignetes Proximitätsmaß zu wählen, welches die Ähnlichkeit der einzelnen Objekte zueinander angibt. Dabei werden die Ausprägungen aller Merkmale miteinander verglichen und zu einer Ähnlichkeitskennzahl aggregiert. Als zweites ist ein Fusionierungsalgorithmus anzuwenden, der die Objekte nach ihren Ähnlichkeitswerten zu Gruppen zusammenfasst. Hierbei ist zwischen hierarchischen und partitionierenden Verfahren zu unterscheiden. Das agglomerative hierarchische Verfahren beginnt mit einelementigen Partitionen, d.h. jedes Objekt stellt ein Cluster dar. Durch sukzessive Fusionierung, also durch kontinuierliche Erhöhung des Distanzniveaus werden Cluster zu einem neuen Cluster zusammengefasst. Bei den divisiven hierarchischen Verfahren beginnt man mit der gesamten Objektmenge als einziges Cluster. Durch sukzessive Minderung des Distanzniveaus wird dann ein 12 Kapitel 3: Datenanalyse Cluster in immer kleinere Cluster aufgeteilt. In Abb. 3.3 ist die Arbeitsweise der hierarchischen Verfahren dargestellt. Quelle: Bensberg (2001), S. 119. Abb. 3.3: Dendogramm zur Clusterbildung mittels hierarchischer Verfahren Die partitionierenden Verfahren erwarten eine initiale Gruppenaufteilung der Objekte und versuchen dann hieraus kontinuierlich die Ausgangslösung zu verbessern. Die Clusteranalyse wird häufig als erstes Verfahren zur Hypothesengenerierung verwendet, da es aus umfangreichen Datenmengen komplexe Strukturen aufdecken kann. Auf den Ergebnissen der Clusteranalyse aufbauend sollten dann weitere Verfahren des Data Mining angewendet werden. 3.2 Web Log Mining Der elektronische Handel ist besonders geeignet, Geschäfts- und insbesondere Kundendaten elektronisch aufzubereiten und hieraus marketingrelevante Entscheidungen abzuleiten. Denn neben der Aufzeichnung von Kaufabwicklungen besteht hierbei auch die Möglichkeit, das Verhalten der Kunden zu beobachten, zu speichern und hieraus weitere Informationen abzuleiten. Die Aufgabe der Speicherung des Kundenverhaltens im internetbasierten Handel übernimmt die Protokollkomponente des Webservers, die in nahezu allen heutzutage eingesetzten Webservern verfügbar ist. Die vom Nutzer bzw. Kunden über einen Browser getätigten Anforderungen werden dabei ebenso gespeichert, wie der Vorgang der Bear13 Kapitel 3: Datenanalyse beitung einer Anforderung vom Webserver. Abb. 3.4 zeigt eine schematische Darstellung der serverbasierten Protokollaufzeichnung. WWW-Server WWW-Client (Browser) REQUEST RESPONSE Protokollkomponente Abb. 3.4: Log Protokolldatei Serverbasierte Protokollaufzeichnung. Welche und wie viele Attribute bei der Serverinteraktion in die Protokolldatei übernommen werden, hängt von der Konfiguration des verwendeten Webservers ab. Es gibt hierzu eine Reihe verschiedener standardisierter Log File-Formate, wie z.B. das Common Log File Format oder das W3C Extended Format. Alle sind im Aufbau ähnlich, unterscheiden sich aber in Umfang und Codierung der protokollierten Daten. Der Aufbau der häufig verwendeten Erweiterung des älteren Common Log File Format, des Combined Log File Formates soll im Folgenden vorgestellt werden: Jede Zeile einer Protokolldatei weist dabei die gleiche Struktur auf und besitzt die folgenden, durch Leerzeichen getrennten Elemente: Attribut Beschreibung Internetadresse Eindeutige Rechneradresse des anfragenden Clients, entweder als symbolische DNS-Adresse (z.B. pcwi012.uni-muenster.de) oder als numerische IPAdresse (z.B. 80.129.240.65). Anmeldekennung Kann nur dann erfasst werden, wenn auf dem Clientrechner ein entsprechender Identifikationsdienst installiert ist. Findet in der Praxis jedoch kaum Anwendung. Authentifizierungskennung Kennung, mit der sich ein Nutzer am Server angemeldet hat. Dies ist üblich, um bestimmte Ressourcen des Rechners zu schützen. Zeit Zusammengesetztes Attribut aus dem Datum, der Uhrzeit und der Zeitzone des Serverstandortes. HTTP-Anforderung Zusammengesetztes Attribut, bestehend aus • Zugriffsmethode - GET für das Anfordern einer Ressource, POST für das Zusenden von Daten, wie es z.B. bei Formularen benutzt wird • Adresse der angeforderten Ressource • HTTP-Version – zur Synchronisation von Client und Server 14 Kapitel 3: Datenanalyse Status Zeigt den Status der Anfrage-Verarbeitung an. Einige wichtige Stati: • 200 – OK: Daten können gesendet werden • 401 – Unauthorized: Die angeforderte Ressource ist zugangsgeschützt, der Browser zeigt daraufhin ein Log-In Fenster an. • 403 – Forbidden: Der Zugang zu einer geschützten Ressource mit der eingegebenen Nutzername/Passwort Kombination wurde verweigert. • 404 – Not Found: Die angeforderte Ressource ist nicht vorhanden Umfang Menge an Bytes, die zum anfragenden Client übertragen wurde. Tritt kein Fehler auf, entspricht dies der Größe der angeforderten Ressource. Browsertyp Herstellerspezifischer Browsername und häufig auch die Versionsnummer Betriebssystemtyp Betriebssystem, das vom anfragenden Client verwendet wird. Referent Adresse der Ressource, die der Konsument in der vorangehenden Interaktion angefordert hat. Fehlermeldung Meldungen, die der Fehleranalyse und Administration des WWW-Servers dienen. Tab. 3.3: Attribute des Combined Log File Format. Zur Veranschaulichung wird nachfolgend ein Auszug aus einer solchen Protokolldatei angegeben: 80.129.240.65 - - [28/Nov/2003:10:53:27 +0100] "GET /produktkatalog/VR33381.php HTTP/1.1" 200 15135 "http://www.google.de/search?..." "Mozilla/4.0 (compatible; MSIE 5.01; Windows 98)" 80.129.240.65 - - [28/Nov/2003:10:53:28 +0100] "GET /Background-lg.gif HTTP/1.1" 200 159 "http://www.mein-server.de/produktkatalog/VR33381.php" "Mozilla/4.0 (compatible; MSIE 5.01; Windows 98)" ... 129.206.114.31 - - [28/Nov/2003:11:36:56 +0100] "GET /produktkatalog/EU50088.php HTTP/1.1" 200 15748 "http://de.search.yahoo.com/search/de?..." "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 129.206.114.31 - - [28/Nov/2003:11:36:56 +0100] "GET /Background-lg.gif HTTP/1.1" 200 159 "http://www.mein-server.de/produktkatalog/EU50088.php" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" Die Intention des Web Log Mining als Spezialgebiet des Data Mining ist es nun, durch Anwendung geeigneter Methoden auf Webserver-Protokolldateien Muster zu entdecken. Hierdurch kann Aufschluss über das Kundenverhalten erlangt und so die internetbasierte Marktapplikation hieran adäquat angepasst werden. Analog zum Data Mining sind hierzu die Daten zunächst zu bereinigen und aufzubereiten und anschließend geeignete Analysemethoden anzuwenden. 3.2.1 Aufbereitung der Protokolldateien Wie aus obigem Beispielauszug aus einer Protokolldatei ersichtlich wird, protokolliert ein Webserver nicht nur die vom Konsumenten getätigten Anforderungen von beispielsweise HTML-Seiten, sondern er generiert auch für jedes eingebettete Element innerhalb dieser Seite, wie z.B. Grafiken, einen eigenständigen Logeintrag. Da bei der 15 Kapitel 3: Datenanalyse Analyse des Kundenverhaltens jedoch nur die besuchten Seiten der Konsumenten von Interesse sind, müssen alle Einträge herausgefiltert werden, die keine HTML-Seite oder dynamische Seite einer Skriptsprache, wie z.B. PHP darstellen. Außerdem sollen nur Ressourcenanforderungen in die Analyse eingehen, so dass alle Protokollzeilen, deren HTTP-Anforderung nicht GET lautet, ebenfalls gelöscht werden. Ebenfalls nicht von Interesse sind fehlerhafte Anforderungen oder unvollständige Übertragungen, da in diesen Fällen davon auszugehen ist, dass der Benutzer die angeforderte Ressource nicht wahrnehmen konnte. Diese sind anhand des Status-Attributes zu identifizieren. Als Letztes ist darauf zu achten, dass auch nur wirkliche Konsumentenzugriffe berücksichtigt werden. Neben Konsumenten greifen jedoch auch die Betreiber der Marktapplikation zu administrativen Zwecken sowie regelmäßig automatische SuchmaschinenRoboter zur Indizierung der Webseiten auf die Webpräsenz zu. Administratorzugriffe sind anhand der Authentifizierungskennung zu erkennen, während SuchmaschinenRoboter sich über den Browsertyp identifizieren lassen. Nachfolgend sind zwei Protokollzeilen abgedruckt, die Anfragen solcher Roboter beinhalten. Die erste ist eine Anfrage der Suchmaschine GOOGLE, die zweite wurde durch die Suchmaschine INKTOMI generiert, die zur Firma YAHOO! gehört: 64.68.80.10 - - [28/Nov/2003:19:13:00 +0100] "GET /produktkatalog/MV00341.php HTTP/1.0" 200 9973 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 66.196.72.16 - - [28/Nov/2003:19:14:18 +0100] HTTP/1.0" 200 10848 "-" "Mozilla/5.0 http://www.inktomi.com/slurp.html)" "GET /produktkatalog/FT11411.php (Slurp/cat; [email protected]; Administratorzugriffe und Suchmaschinen-Roboter-Anforderungen sind also ebenfalls nicht in die Analyse des Kundenverhaltens zu übernehmen. 3.2.2 Informationsgewinnung aus den Protokoll-Daten Nachdem im letzten Schritt die Protokolldaten bereinigt wurden, so dass sie nun in einer zu Analysezwecken geeigneten Form vorliegen, ist zu diskutieren, wie nun Informationen aus diesen Daten extrahiert werden können. Um Aussagen über das Kundenverhalten tätigen zu können, sind zunächst die einzelnen Kundentransaktionen zu ermitteln. Darunter versteht man sämtliche Interaktionen eines Konsumenten mit der Marktapplikation, die einen zeitlichen Zusammenhang aufweisen [Be01, S. 138]. Da das HTTP ein verbindungsloses Protokoll darstellt, ist die Ermittlung der Transaktionen keine triviale Angelegenheit. 16 Kapitel 3: Datenanalyse Die fehlerfreiste und sicherste Methode der Transaktionsableitung und damit auch der Zuordnung einzelner Logzeilen zu einem Benutzer ist die Benutzer-Authentifizierung. Falls sich jeder Benutzer einer internetbasierten Marktapplikation zunächst am Webserver mit einem eindeutigen Benutzernamen anmelden muss, wird diese daraufhin auch in den entsprechenden Zeilen der Protokolldatei mitgeführt, so dass die Transaktionen eindeutig ableitbar sind. Dieses Vorgehen trifft allerdings auf wenig Akzeptanz seitens der Konsumenten, da diese ein möglichst bequemes und anonymes Durchsuchen des Informationsangebotes bevorzugen. Eine weitere Möglichkeit der Transaktionsableitung ist der Einsatz von sogenannten Cookies. Dies sind kleine Textdateien, deren Inhalt meist nur aus einem eindeutigen Schlüssel besteht. Greift ein Benutzer erstmalig auf eine Internetpräsenz zu, so wird solch ein Cookie erzeugt und auf den Rechner des anfragenden Clients übertragen. Bei allen weiteren Interaktionen dieses Benutzers mit dem Webserver lädt der Webserver den Cookie vom Rechner des Benutzers, liest dessen Inhalt aus und kann den Benutzer auf diese Weise authentifizieren. Eine Logzeile kann um die ausgelesene Identifikationskennung erweitert werden, so dass die einzelnen Transaktionen leicht abgeleitet werden können. Kaum anwendbar wird diese Methode, da der Browser des Nutzers so konfiguriert werden kann, dass er jegliche Cookies ablehnt. Außerdem können diese auch leicht per Hand gelöscht werden. Als letzte Methode bleibt schließlich noch die direkte Ableitung von Transaktionen aus den Attributen der Protokolldatei: Die Internetadresse scheint eine erste Möglichkeit zur Differenzierung unterschiedlicher Nutzer zu sein. Es ist jedoch zu bedenken, dass die eindeutige Identifikation des Clients über die Internetadresse nur bei direkter Kommunikation mit dem Server möglich ist. Wird vom Client ein Proxyserver verwendet, so wird die Adresse des Proxys protokolliert. Da ein Proxyserver viele Benutzer gleichzeitig bedienen kann, ist es möglich, dass verschiedene Benutzer mit der gleichen Internetadresse in der Protokolldatei verzeichnet sind. Außerdem ist zu beachten, dass Nutzer bei Einwahl ins Internet häufig eine temporäre IP-Adresse zugewiesen bekommen, so dass ihre Internetadresse zur Authentifizierung nur temporäre Gültigkeit besitzt. Neben der Internetadresse werden daher noch die Browser- und Betriebssystemdaten betrachtet, da nicht davon auszugehen ist, dass ein Benutzer während einer Transaktion unterschiedliche Browser benutzt. Da Transaktionen zudem zeitlich begrenzt sind, werden nur dann zeitlich aufeinanderfol17 Kapitel 3: Datenanalyse gende Elementaroperationen zu einer Transaktion zusammengefasst, wenn ihre zeitliche Distanz einen kritischen Wert nicht überschreitet [Be01, S. 140]. Auf diese Weise, durch Berücksichtigung von Internetadresse, Browser- und Betriebsystemdaten und der Zeit können Transaktionen hinreichend genau abgeleitet und so das Kundenverhalten analysiert werden. Für jede isolierte Transaktion kann dann beispielsweise über das Referent-Attribut der initialen Interaktion abgelesen werden, über welche externe Webseite der Benutzer auf die aktuelle Internetpräsenz navigiert ist. Ebenfalls über das Referent-Attribut sowie die HTTP-Anforderung kann der komplette Navigationspfad des Benutzers nachvollzogen werden. Das Zeitattribut schließlich gibt Aufschluss über die ungefähre Verweildauer auf den einzelnen Seiten sowie die Dauer der gesamten Transaktion. In Tab. 3.4 sind einige Attribute einer Transaktion aufgelistet, aus der die Ermittlung der erwähnten Kennzahlen hervorgeht. Internetadresse Zeit HTTP-Anforderung Referent 194.232.66.25 [28/Nov/2003:14:26:47 +0100] GET A.html Extern.html 194.232.66.25 [28/Nov/2003:14:28:25 +0100] GET B.html A.html 194.232.66.25 [28/Nov/2003:14:28:39 +0100] GET C.html B.html 194.232.66.25 [28/Nov/2003:14:28:59 +0100] GET B.html C.html 194.232.66.25 [28/Nov/2003:14:29:44 +0100] GET D.html B.html Tab. 3.4: Pfadableitung aus einer Transaktion Im Rahmen des Web Log Mining können nahezu alle allgemeinen Data Mining Methoden angewandt werden. Einzige Voraussetzung, die erfüllt sein muss, um die festgestellten Muster sinnvoll interpretieren zu können, ist ein geeignetes Domänenwissen über die Inhalte der einzelnen Dokumente. So können beispielsweise durch Anwendung der Assoziationsanalyse Verbundbeziehungen zwischen einzelnen Informationsangeboten bzw. Dokumenten der Marktapplikation aufgezeigt werden. Hieraus können dann Anpassungen der Markapplikation abgeleitet werden, indem z.B. durch Verweisintegrationen weitere Komplementärbeziehungen geschaffen werden. Die Sequenzanalyse im eigentlichen Sinne kann im Web Log Mining nicht angewendet werden, da nicht ohne weiteres mehrere Transaktionen einem Benutzer zugeordnet werden können. Wie bereits erwähnt, wäre dies nur über den Einsatz von Cookies oder die Benutzerauthentifizierung möglich. Es ist aber eine Beschränkung auf einzelne Trans18 Kapitel 4: Fazit aktionen möglich. Hierdurch können signifikante Navigationspfade ermittelt werden, weshalb die Sequenzanalyse im Bereich des Web Log Mining auch als Pfadanalyse bezeichnet wird [Be01, S. 149]. Als Letztes sei darauf hingewiesen, dass auch clusteranalytische Verfahren eine große Bedeutung im Bereich des Web Log Mining besitzen. Als klassifizierende Merkmale können hier alle in der Protokolldatei verfügbaren Attribute benutzt werden. Anzumerken ist hierbei, dass die Internetadresse einen Anhaltspunkt zur geographischen Herkunft des Konsumenten geben kann: Die Endung de deutet darauf hin, dass der Konsument möglicherweise aus Deutschland stammt. Allerdings ist hierbei wiederum der mögliche Einsatz eines Proxyservers zu berücksichtigen, wodurch die Information der Herkunft verfälscht würde. Als nützliche Information könnte die Clusteranalyse beispielsweise hervorbringen, dass fremdsprachliche Konsumenten (also Internetadressen mit einer anderen Endung als .de für Deutschland, .ch für die Schweiz oder .at für Österreich) eine sehr kurze Verweildauer aufweisen. Hieraus könnte man schließen, dass der Grund hierfür in der reinen Informationspräsentation in deutscher Sprache liegt. Zur Verlängerung der Verweildauer dieser Konsumenten könnte man das Informationsangebot zusätzlich zur deutschen Sprache auch in weiteren Sprachen, z.B. in englisch anbieten. 4 Fazit Es wurden eine Reihe von Möglichkeiten aufgezeigt, die sich Unternehmen bieten, um der zunehmenden Datenflut zu entkommen und relevante Informationen aus den riesigen Datenbeständen interner und externer Quellen herauszufiltern. Diese Methoden erlangen gerade deshalb eine solch große Bedeutung, da die hieraus gewonnen Informationen der Entscheidungsunterstützung des Managements dienen und damit indirekten Einfluss auf die ökonomischen Zielgrößen der Unternehmen haben. Es wurde zunächst die Notwendigkeit einer separaten Datenhaltung aller analyserelevanten Daten erörtert. Das Data Warehouse wurde dann als zentrale Komponente eines Management-Informationssystems vorgestellt, um diese Aufgabe der zentralen Datenhaltung zu übernehmen. Anschließend wurden Möglichkeiten der Datenanalyse beschrieben. Es wurden sowohl allgemeine Methoden des Data Mining erklärt, als auch im speziellen auf das Gebiet 19 Kapitel 4: Fazit des Web Log Mining eingegangen, welches Methoden zur Analyse von Mustern in Transaktionsdatenbanken internetbasierter Märkte bereitstellt. Zusammenfassend ist festzustellen, dass eine Vielzahl unterschiedlicher Methoden existiert, mit denen in geeigneter Weise automatisch oder semiautomatisch Muster in großen Datenbeständen entdeckt und hieraus wiederum marketingstrategische Entscheidungen abgeleitet werden können. Insgesamt wirkt sich die effiziente Anwendung solcher Methoden positiv auf die ökonomischen Zielgrößen einer Unternehmung aus. Zu beachten sind bei der Errichtung eines Management-Informationssystems und der Anwendung von Methoden des Data Mining allerdings die datenschutzrechtlichen Besonderheiten, die bei der Erfassung und Verarbeitung personenbezogener Daten bestehen. Im Einzelfall ist daher zu untersuchen, welche Datenspeicherung und Methodenanwendung datenschutzrechtlich zulässig ist. 20 Literaturverzeichnis [Be97] M. J. A. Berry, G. Linoff: Data Mining Techniques: For Marketing, Sales and Customer Support. John Wiley & Sons, New York et al., 1997. [Be01] F. Bensberg: Web Log Mining als Instrument der Marketingforschung – Ein systemgestaltender Ansatz für internetbasierte Märkte. Gabler, Wiesbaden, 2001. [In96] W.H. Inmon: Building the Data Warehouse. 2. Aufl., John Wiley & Sons, New York et al., 1996. [Mu97] H. Mucksch, W.Behme: Das Data-Warehouse Konzept: Architektur – Datenmodelle – Anwendungen. 2. Aufl., Gabler, Wiesbaden, 1997. [Sc01] R. Schütte, T. Rotthowe, R. Holten: Data Warehouse Management Handbuch - Konzepte, Software, Erfahrungen. Springer-Verlag, Berlin et al., 2001. [Vo00] G. Vossen: Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme. 4. Aufl., Oldenbourg, München, Wien, 2000.