Ludwig-Maximilians-Universität München Schriften zur Empirischen Forschung und Quantitativen Unternehmensplanung Heft 5 / 2001 Web Mining und Personalisierung in Echtzeit Dr. Matthias Meyer, Stefan Weingärtner, Thilo Jahke, Oliver Lieven Ludwig-Maximilians-Universität München Institut für Organisation Seminar für Empirische Forschung und Quantitative Unternehmensplanung Prof. Dr. Manfred Schwaiger Kaulbachstr. 45 / I D-80539 München Tel.: (089) 2180 5640 Fax: (089) 2180 5651 e-mail: [email protected] http://www.efoplan.de Web Mining und Personalisierung in Echtzeit Dr. Matthias Meyer Ludwig-Maximilians-Universität München Seminar für Empirische Forschung und Quantitative Unternehmensplanung Kaulbachstraße 45 / I 80539 München E-Mail: [email protected] Stefan Weingärtner DYMATRIX CONSULTING GROUP GmbH Postfach 10 11 28 70010 Stuttgart E-Mail: [email protected] Thilo Jahke, Oliver Lieven provantis IT Solutions OHG Siemensstr. 1 71254 Ditzingen E-Mail: {thilo.jahke|oliver.lieven}@provantis.de Zusammenfassung Dieses Arbeitspapier behandelt Ansätze zur Personalisierung von Websites. Die in diesem Zusammenhang entscheidenden Web Mining-Analysen verwenden dabei in der Regel Daten, die aus Webserver-Logfiles gewonnen werden. Zur Vermeidung dieser aufwändigen und nicht unproblematischen Vorgehensweise stellen die Autoren einen alternativen Ansatz vor, der eine wesentlich schnellere Datenbereitstellung und -aufbereitung gestattet. Ein geschlossener Analysekreislauf stellt zudem die umgehende Umsetzung der gewonnenen Ergebnisse sicher. Inhaltsübersicht 1 Einleitung.............................................................................................. 1 2 Logfile-Analyse, Personalisierung und Web Mining ........................... 3 2.1 Logfile-Analyse .................................................................................... 3 2.2 Personalisierung.................................................................................... 7 2.3 Web Mining und Collaborative Filtering ............................................. 8 3 DynaMine – Zielgerichtete Vorgehensweise zur Personalisierung.... 10 3.1 Zieldefinition ...................................................................................... 11 3.2 Realtime Tracking – Aufbau des Data Mart....................................... 11 3.3 Web Controlling ................................................................................. 13 3.4 DynaMine-Personalisierungskreislauf................................................ 15 4 Zusammenfassung und Ausblick........................................................ 16 Literaturhinweise.......................................................................................... 17 Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 1 1 Einleitung Die gegenwärtige und künftige Bedeutung des E-Commerce, im Sinne von Ansätzen zur Unterstützung von Markttransaktionen auf elektronischen Märkten, wird sicher niemand ernsthaft bestreiten können (siehe auch [BlFa99; ZePi99; Lamp98]). Eine entscheidende Rolle kommt in diesem Zusammenhang dem Internet zu, wobei aktuelle und geplante Forschungs- und Entwicklungsanstrengungen gerade im Bereich des B2C-Marketing zeigen, welche Nutzenpotenziale erwartet werden bzw. noch zu erschließen sind. Die Vielfalt der Informations- und Nutzungsangebote im Internet macht deutlich, dass Websites grundsätzlich Nutzer mit unterschiedlichsten Interessen und Hintergründen ansprechen (sollen). Die Vielfalt kommerzieller Websites zeigt sich insbesondere an der enormen Menge an Produkten, Dienstleistungen und Informationen, die dort angeboten wird. Fraglich ist allerdings, durch wen diese Angebote in welcher Weise und mit welchem Ergebnis genutzt werden. Die Herausforderung besteht daher darin, • entweder mit seinem Angebot die „richtigen“ Nutzer gezielt zu erreichen oder • den Nutzern die „richtigen“ Angebote gezielt zu unterbreiten. In beiden Fällen ist damit zu klären, wer mit dem Webauftritt erreicht wird und wie dieser genutzt wird. Im Gegensatz zum „klassischen“ Handel bieten Websites dabei die Möglichkeit, die Nutzung des Angebots genauer zu analysieren und unter Umständen nutzerspezifisch auszugestalten. Wesentliche Grundlage für die Untersuchung der Nutzung von Websites stellen in der Regel Webserver-Logfiles dar, in denen eine Vielzahl relevanter Informationen protokolliert wird (siehe dazu im Einzelnen Abschnitt 2.1.1). Je nach Komplexität der Website und Zugriffshäufigkeit können sich dabei pro Tag Logfiles mit einer Größe von mehreren Gigabyte ergeben. Mittlerweile gibt es zahlreiche Tools zur Auswertung von Logfiles, wie z.B. FastStats Analyzer, WebTrends, WebSuxess und LogAnalyzer. Diese Tools sollen Antworten auf folgende Fragestellungen liefern (Auswahl): • Wer besucht die Website (Herkunft: Land, Provider, Unternehmen etc.)? • Wann wird die Website am häufigsten besucht? • Wie oft wird auf welche Seite zugegriffen? • Welche Seiten werden von welchen Besuchern (Kunden, Konkurrenten) abgerufen? • Welche Browser (Typ und Version) verwenden die Besucher der Website? Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 2 Es handelt sich somit vorwiegend um rein deskriptive Analysen zur Nutzung der Website unabhängig vom Verhalten einzelner Besucher. Will man dagegen nutzerspezifische Aussagen gewinnen, ist man auf tiefergehende Analysen angewiesen, die üblicherweise unter dem Begriff Web Mining zusammengefasst werden. Allgemein unterscheidet man drei Ausprägungen des Web Mining [KoBl00]: • Web Content Mining umfasst die Suche bzw. Entdeckung nützlicher Informationen zu Inhalten, Daten und Dokumenten im Web, wobei Informationen aus verschiedenen Datenquellen (http, FTP, Gopher etc.) und mit unterschiedlichsten Formaten (Text, Audio, Video, PDF, PS, Hyperlinks, Metadaten) in Frage kommen können. • Web Structure Mining bezeichnet Ansätze zur Untersuchung von Linkstrukturen im Internet und basiert auf der Topologie von Hyperlinks. Ergebnisse dienen der Kategorisierung von Web-Seiten und liefern u.a. Angaben zur Ähnlichkeit von Websites [KoBl00]. • Web Usage Mining beschäftigt sich mit der Untersuchung der Daten, die während der Benutzung einer Website innerhalb einer Session oder über mehrere Sessions aufgezeichnet werden. „While the Web content and structure mining utilize the real or primary data on the Web, Web usage mining mines the secondary data derived from the interactions of the users while interacting with the Web. The Web usage data includes the data from Web server access logs, proxy server logs, browser logs, user profiles, registration data, user sessions or transactions, cookies, user queries, bookmark data, mouse clicks and scrolls, and any other data as results of interactions.” [KoBl00] Die weiteren Ausführungen in 2.3 konzentrieren sich auf das Web Usage Mining, wobei die Begriffe Web Usage Mining und Web Mining synonym verwendet werden. Abbildung 1: Web Usage Mining-Prozess [SrCo00] Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 3 Zentrale Bedeutung für die Analyse von Nutzungsdaten im Web hat eine geeignete Bereitstellung und Aufbereitung entsprechender Daten (Abbildung 1). Wie die weiteren Ausführungen zeigen werden, konzentrieren sich dabei die meisten Publikationen auf die Analyse von Logfiles (z.B. [SrCo00; SrCo00; ZaXi98]), deren geeignete Aufbereitung erheblichen Aufwand verursachen kann. Gegenstand dieses Beitrags ist nun ein neuer Ansatz und ein entsprechendes Produkt, bei dem anstelle der Analyse von bereits generierten Web Server Logs in den Entstehungsprozess von Nutzungsdaten eingegriffen wird. Somit stehen qualitativ höherwertigere Logs für den Web Mining Prozess zur Verfügung. Dieser Ansatz ermöglicht die Generierung von Regelwerken aus protokollierten Benutzeraktivitäten, aus denen sich die Präferenzen unterschiedlicher Besuchergruppen ableiten lassen. Die Regelwerke dienen als Basis für die zielgruppenorientierte Kundenansprache und ermöglichen somit die Personalisierung (siehe 2.2) des Webauftrittes im Sinne eines effizienten One-to-One-Marketing. Im Einzelnen lassen sich folgende Nutzungsmöglichkeiten unterscheiden: • Unterstützung bei der Konzeption und Umsetzung des Web-Auftritts bzw. der Optimierung des Contentmanagements. • Anwendung zum Marketing-Controlling. • Generierung aussagekräftiger Besucherprofile und Extraktion typischer Klickpfade auf der Webseite (Click Stream Behaviour). • Ableitung von Geschäftsregeln als Voraussetzung für die Personalisierung der Webseiten. 2 Logfile-Analyse, Personalisierung und Web Mining 2.1 Logfile-Analyse 2.1.1 Grundlagen und Ziele Die Nutzung einer Website wird in der Regel durch den Webserver protokolliert, indem sämtliche Zugriffsinformationen in einem Logfile gespeichert werden. Die Einträge des Logfiles bestehen dabei aus (i) der IP-Adresse des Nutzers, (ii) der Zugriffszeit, (iii) HTML-Befehlen („GET“, „POST“ etc.), (iv) der URL der aufgerufenen Seite, (v) der referrer-URL, (vi) dem Protokoll (normalerweise http), (vii) Statuscode Feld, (viii) der Anzahl übertragener Bytes und (ix) unter Umständen einer UserID [JoJo00; ZaXi98]. Zur Untersuchung des Nutzerverhaltens sind nicht alle Informationen relevant. Beispielsweise wird beim Aufruf einer Seite für jede darin eingebettete Grafik ein Logfile-Eintrag erzeugt. Da derartige Logfile-Einträge nicht das eigentliche Nutzerverhalten wiedergeben, werden sie in einem Preprocessing-Schritt herausgefiltert. Analog werden Error Codes entfernt. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 4 Voraussetzung für die Untersuchung des Nutzerverhaltens ist allerdings die eindeutige Identifizierung von Benutzern bzw. von Sessions, worauf im folgenden Abschnitt eingegangen wird (siehe dazu auch [SrCo00; CoMo00]). 2.1.2 Mechanismen zur Benutzer- bzw. Session-Identifikation Typischerweise steht in Logfiles des Web Servers zur Benutzeridentifikation nur die IPAdresse zur Verfügung. Da heute jedoch jedes Unternehmen über Firewalls an das Internet angebunden ist, werden normalerweise die internen IP-Adressen verborgen. Es ist im Allgemeinen daher nicht möglich, anhand der IP-Adresse auf einzelne Benutzer zurückzuschließen. Um aber das Verhalten von sämtlichen Benutzern analysieren zu können, ist es unbedingt erforderlich, die Aktionen eines Benutzers während einer Session zusammen betrachten zu können. Eine Session ist ein zusammenhängender Besuch eines Benutzers auf einer Website – vergleichbar mit einem Besuch eines (potenziellen) Käufers in einem Laden. Durch den Sessionbezug lassen sich Click-Streams ermitteln, die Verweildauer auf der Site bestimmen, typische Benutzergruppen ermitteln usw. Ziel der nachfolgend beschriebenen Ansätze – Cookies, URL Rewriting, Java Applets, Session Tracking auf Application Server Ebene und Reverse Proxy Web Server – ist daher die Vergabe eindeutiger Session ID’s, die letztlich eine Reihe von Zugriffen in einer Session „zusammenhalten“. Cookies Der Web Server oder ein zusätzlich vorgeschalteter Server können im Browser des Benutzers ein Cookie setzten. Dieses Cookie wird dann bei jedem Request des Benutzers mitübertragen und erlaubt so das Tracking einer Session ID. Dabei können zwei Varianten unterschieden werden: • Transiente Cookies werden vom Browser nicht abgespeichert und gelten daher nur, solange der Browser geöffnet ist, d.h. innerhalb einer Session. • Persistente Cookies werden auf dem Rechner des Benutzers abgespeichert. Dadurch kann ein Benutzer bei jedem neuen Besuch wiedererkannt werden, d.h. auch sessionübergreifend. URL Rewriting Voraussetzung für die Verwendung von Cookies ist die Akzeptanz durch den Benutzer. Oftmals werden Cookies grundsätzlich nicht oder nur in bestimmten Fällen akzeptiert. Anstelle von Cookies kann die notwendige Session ID auch als zusätzlicher Parameter bei jeder aufgerufenen URL angehängt werden. Auch dadurch wird erreicht, dass sich bei jedem Request die Session ID mitprotokollieren lässt. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 5 Java Applets Eine eindeutige Benutzeridentifikation wird ebenfalls mit Hilfe spezieller Java Applets ermöglicht. Diese können neben einer ID weitere nutzerspezifische Informationen übermitteln. Voraussetzung ist – ähnlich wie bei Cookies – die explizite Kooperationsbereitschaft und Einwilligung des Benutzers, da die Funktionalität dieser Java Applets weit über die der Cookies hinausgeht (siehe dazu auch [CoMo00; SrCo00]). Ein Vorteil der Verwendung von Java Applets ist unter anderem, dass sie Aktionen weiterer Java Applets aufzeichnen können, die im Logfile des Web Servers nicht protokolliert werden können, da man dort höchstens noch den Aufruf dieser Applets sehen kann. Hier ist ein applikatorisches Tracking erforderlich, was eine entsprechende Erweiterung der Applets voraussetzt. Zudem entsteht das Problem, dass die applikatorischen LogInformationen des Applets und Log-Informationen des Web Servers wieder zusammengeführt werden müssen. Session Tracking auf Application Server Ebene Hinter großen Websites, Portalen oder Shop-Lösungen verbergen sich meist komplexe Anwendungen, die oft unter Einsatz von Application Servern realisiert werden. Hier wird die komplexe Logik z.B. in Java-Programmen abgebildet. Um das Verhalten eines Benutzers in einer solchen Anwendung protokollieren zu können, ist es erforderlich, an relevanten Punkten der Anwendung entsprechende Aufrufe des Tracking Servers zu integrieren. Dabei handelt es sich um sogenannte Business Events, also Ereignisse, die entscheidend für den Ablauf der Anwendung sind. Hier hat man dann auch die Möglichkeit, sowohl Session IDs als auch Benutzernamen zu tracken. Reverse Proxy Web Server Reverse Proxy Server werden in Unternehmen gerne eingesetzt, um verschiedene interne Web Server vor dem Internet zu verbergen und so problemlos eine Lastverteilung zu erreichen. Für den Client stellt sich die Website des Unternehmens wie ein einziger Web Server dar, er erkennt dadurch nicht, dass sich einzelne Teile der Site oder verschiedene Anwendungen tatsächlich auf unterschiedlichen Servern befinden. In Hinblick auf Session IDs und Tracking sind zwei Punkte zu beachten: • Der Reverse Proxy Server kann eingesetzt werden, um Log Files zu erzeugen, die an einer Stelle entstehen und alle Seiten beinhalten, da alle Requests beim Reverse Proxy durchgereicht werden. Somit lassen sich an alle Requests Session IDs anhängen. • Die Web Server, die sich hinter dem Reverse Proxy verbergen, können in der Regel nicht mehr den Absender des Original Requests ermitteln, da für sie alle Anfragen vom Reverse Proxy kommen. Dadurch werden die Log-Möglichkeiten hier eingeschränkt. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 6 WWW WWW SessionMaker SessionMaker • Zusätzlich Business Events • Bezug zu Session und Benutzer • Direkt als Eingabe für Data Mining nutzbar Web Web Server Server Application Application Tracker Tracker Session Log • Zusätzlich Session ID über Cookie oder URL-Parameter • Bezug zu einem Benutzer • Click Stream Analyse möglich Application Log Server Log • Nur IPAdresse, URL, Timestamp, Request Parameter • Kein Bezug zu einem Benutzer • Problematisch bei dynamischen Websites • Umfangreiche Datenbereinigung notwendig Abbildung 2: Tracking-Varianten im Überblick 2.1.3 Grenzen der Logfile-Analyse Unabhängig von der Problematik einer eindeutigen Benutzeridentifikation während einer Session sind Caching und dynamische Webseiten unter Umständen Ursache für unvollständige Informationen über das Benutzerverhalten (siehe auch [SrCo00; CoMo00]). Caching Für eine vollständige Log-Auswertung stellen die im Internet weit verbreiteten ProxyCache-Server ein Problem dar [BeWe99]. Diese cachen eine Menge von Seiten, so dass die Requests bereits aus dem Cache bedient werden können. Damit hat aber der Betreiber der Site nicht mehr die Möglichkeit, die Requests zu tracken, d.h. sie werden im Logfile nicht aufgezeichnet. Um jetzt wieder alle Requests tracken zu können, ist es erforderlich, die wesentlichen oder sogar alle Seiten entweder im http-Header als NO-CACHE zu spezifizieren oder künstlich um einen eindeutigen Zähler als Parameter zu ergänzen, damit sichergestellt ist, dass die Seite nicht zwischengespeichert wird. Dadurch erhöht sich allerdings die Server- und Netzauslastung und damit die Wartezeit für den Benutzer unter Umständen erheblich. Dynamische Webseiten Heute entstehen immer mehr Websites, die fast ausschließlich aus dynamisch erzeugten Webseiten bestehen. Dies ist insbesondere bei Portalen zu beobachten, bei denen sich ein Benutzer sowohl Inhalt als auch Layout selbst konfigurieren kann. Das Logfile des Web Servers enthält hier oft nur noch eine einzige URL und nur sehr wenige Request-Parameter, aus denen nicht auf den aktuell vom Benutzer betrachteten Inhalt geschlossen werden kann, da dieser eben dynamisch ermittelt wird. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 7 Die Lösung ist auch hier, zusätzlich zum Web Server Log einen applikatorischen Log einzuführen, wiederum verbunden mit der Problematik, den applikatorischen Log und den Log des Web Servers zusammenzuführen und dabei den Bezug zu einer Session nicht zu verlieren. 2.2 Personalisierung Die Untersuchung des Such- und Entscheidungsverhaltens von (potenziellen) Kunden ist seit jeher zentraler Forschungsgegenstand im Bereich Handel und Marketing. Stets geht es um eine optimale Kundenansprache, sei es mit der Laden- oder Regalgestaltung im stationären Handel oder mit Werbeanzeigen und -spots in verschiedenen Medien. Betrachtet man das Medium Internet als weiteren Vertriebskanal, eröffnen sich vergleichbare und auch neue Möglichkeiten zur personalisierten Benutzeransprache [Röde99; ZePi99]. Unter Personalisierung versteht man dabei das Anzeigen von Inhalten abgestimmt auf den jeweiligen Benutzer, basierend auf über den Benutzer gespeicherten Informationen. Solche Informationen können dabei z.B. eine Kaufhistorie, Benutzerverhalten auf der Website oder sonstige personenbezogene Daten sein. Personalisierung durch den Benutzer Bestimmte Websites bieten Benutzern die Möglichkeit, sich die Gestaltung und/oder das gewünschte Informationsangebot der Seiten selbst zu definieren und damit an ihre Bedürfnisse anzupassen. Beispiele sind Websites von Direct Brokern, wie z.B. Comdirect, bei denen sich der Benutzer ein Musterdepot einrichten und Informationsangebote zum Marktgeschehen auswählen kann. Diese Form der Personalisierung wird gelegentlich auch als explizite Profilerstellung oder Individualisierung bezeichnet [IBM00]. Sessionbezogene Personalisierung durch den Anbieter Während einer Session lässt sich das (Informations-)Angebot an das Suchverhalten des Benutzers anpassen. Beispielsweise nennt der Online-Buchhändler Amazon nach Abschluss einer Suche nach einem Buchtitel weitere Titel, die andere Käufer des gesuchten Buchtitels ebenfalls gekauft haben [ZePi99]. Regeln, die zur Anzeige derartiger, auf die aktuelle Suche bezogenen Informationen führen, werden üblicherweise offline auf der Basis von Logfiles und Warenkörben generiert. In Anlehnung an [IBM00] soll dies als implizite Profilerstellung während einer Session bezeichnet werden. Sessionübergreifende Personalisierung durch den Anbieter Eine weitere Möglichkeit der Personalisierung des Angebots einer Website ergibt sich, sofern sich der Benutzer per Login und Passwort identifizieren kann und/oder muss. Dies ist beispielsweise beim Internetbanking der Fall. Hier bietet sich die Möglichkeit, neben den angeforderten Informationen, z.B. Kontostand, weitere auf den Kunden zugeschnittene Informationen, z.B. Angebote für Geldanlagen, zu integrieren. Dies setzt unter Umständen die Berücksichtigung weiterer über den Kunden gespeicherter Informationen, d.h. die Integration der aktuellen Session-Daten mit kundenspezifischen Informationen aus einem bestehenden Data Warehouse voraus, um daraus Regeln zur personifizierten Kundenan- Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 8 sprache abzuleiten. Diese Form der Personaliserung wird in Anlehnung an [IBM00] als implizite Profilerstellung unter Verwendung älterer Daten bezeichnet. Zu beachten ist, dass bei sämtlichen Aktivitäten der Personalisierung datenschutzrechtlichen Aspekten eine entscheidende Rolle zukommt. In Anbetracht der technischen Möglichkeiten liegt natürlich die Befürchtung nahe, dass personenbezogene Daten, die dem besonderen Schutz des Bundesdatenschutzgesetzes (BDSG) unterliegen, missbraucht werden könnten (dieser Schutz betrifft in erster Linie personenbezogene Daten, die Rückschlüsse auf persönliche oder sachliche Verhältnisse einer Person zulassen) [BeWe99; Lamp98]. Ein wesentlicher Punkt bei Personalisierungsaktivitäten ist, dass personenbezogene Daten und Nutzungsmuster gemäß dem Teledienstedatenschutzgesetz (TDDSG) nicht zusammen gespeichert werden und damit die Anonymisierung gespeicherter Daten gewährleistet ist. Allgemein und unabhängig davon gibt es zudem Bestrebungen zum Schutz vor Missbrauch von Kundendaten, die Anbieter und/oder Nutzer von Websites selbst beeinflussen können. Konsumenten können dabei ihr eigenes Profil zusammenstellen und dabei kontrollieren, an wen sie diese Daten weitergeben, Anbieter können ihre Website-Praktiken zertifizieren lassen und z.B. durch TrustMarks kennzeichnen lassen. 2.3 Web Mining und Collaborative Filtering Um den Webauftritt personalisieren zu können, sind die Bedürfnisse der jeweiligen Besucher zu antizipieren. Dabei sind mögliche Navigationsmuster, Informationsrecherchen aber auch Kaufabsichten von Online-Besuchern zu prognostizieren. Da jede Navigation und jede Transaktion ein Business Event darstellt und über applikatorische Logs (Session Tracking auf Application Server Ebene) in strukturierter Form in Datenbanken vorgehalten wird, werden diese gesammelten Informationen dazu benutzt, dem Online-Besucher mit gezielten Personalisierungsaktivitäten in Form von individualisierten Produktangeboten, adaptiven Anpassungen der Website oder zielgruppengerechten Werbebannern zu begegnen. Da es praktisch unmöglich ist, derartige Empfehlungen 'fest zu verdrahten', werden adaptive Data Mining Techniken angewandt, wie z.B. neuronale Netzwerke, Entscheidungsbaum-Algorithmen oder multivariate statistische Methoden, um aus der üblicherweise sehr großen Datenmenge typische Navigationsmuster und Besucherprofile zu extrahieren und anzupassen. Die Besucherprofile werden durch Regelwerke beschrieben und ermöglichen für jedes Besucherprofil zielgruppenspezifische Aktivitäten in Echtzeit (z.B. Anzeigen eines bestimmten Werbebanners). 2.3.1 Web Mining Unter Web Mining versteht man die Anwendung von Data Mining-Algorithmen auf applikatorische Logs (siehe auch Abschnitt 1 und [BeLi00; HiKü01] zu den Grundlagen des Data Mining), welche die Aktivitäten und Transaktionen von Online-Besuchern protokollieren. Diese Logs werden in einem Web Data Mart strukturiert abgespeichert und in Abhängigkeit vom gewählten Data Mining-Algorithmus in geeigneter Form bereitgestellt. Je nach Fragestellung und Analyseschwerpunkt können beispielsweise die nachfolgend erläu- Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 9 terten Algorithmen für Web Mining-Analysen eingesetzt werden [Wein01; SrCo00; BeWe99]: Sequenzanalyse zur Untersuchung des Click Stream Behaviours Durch den Einsatz von Sequenzanalyse-Algorithmen lassen sich typische Navigationsmuster aus protokollierten Log-Daten extrahieren. Somit lassen sich präferierte Klickpfade zur optimalen Positionierung von Werbebannern evaluieren. Weitere Anwendungsgebiete von Sequenzanalysen finden sich in der Optimierung der Ergonomie von Webauftritten [Wein01]. Clustering zur Ableitung von Besucherprofilen Kombiniert mit einer geeigneten Aufbereitung der applikatorischen Logs lassen sich mit Hilfe von Clusteranalysen spezifische Besucherprofile extrahieren. Die unterschiedlichen Profile sind die Basis für die Personalisierung des Online-Auftrittes. Die Profile oder Cluster werden durch Regelwerke beschrieben, welche auf dem Application Server hinterlegt werden. Sobald ein Online-Besucher als Mitglied eines Profils erkannt wird, bekommt er den für dieses Profil zielgruppenspezifischen Content zugewiesen. Entscheidungsbaum-Algorithmen Zur Aufdeckung komplexer Zusammenhänge auf einer Website bieten sich Entscheidungsbaum-Algorithmen an. Mit Hilfe von Entscheidungsbäumen lassen sich mächtige Klassifikations- und Prognosemodelle erstellen, welche eine Menge von Datensätzen in einer baumähnlichen Struktur darstellen und in Form von ’IF-THEN-Statements’ beschreiben. In einem Kundenprojekt bei einem führenden Online-Software-Retailer konnten dadurch Aussagen auf Kaufwahrscheinlichkeiten in Abhängigkeit von verschiedenen Parametern, wie Klickpfad, Sessionlänge, Verweildauer und Art der Referrer getroffen werden [Wein01]. 2.3.2 Collaborative Filtering Collaborative Filtering bzw. Recommender-Systeme gehören ebenfalls zu den adaptiven Techniken, die Online-Besuchern in Form von personalisierten Inhalten bei der Informationsbeschaffung oder bei einem Kaufvorgang helfen sollen. Basierend auf dem Verhalten von vorherigen Besuchern macht das System Vorschläge, die mit hoher Wahrscheinlichkeit den Präferenzen des Besuchers genügen sollen [IBM00; ZePi99]. Collaborative Filtering benötigt eine Startperiode, bis genügend Daten vorhanden sind, um die Präferenzen eines individuellen Besuchers bestimmen zu können. In vielen Fällen kann das Clustering von Besuchern zu Besucherprofilen helfen, diese Startphase zu verkürzen: Sobald ein Besucher als einer Gruppe zugehörig erkannt wird, können bei ihm als anfängliche Präferenzen die der Gruppe verwendet werden. Gelegentlich unterscheidet man vom Collaborative Filtering das Rule-based Filtering, bei dem – basierend auf über gezielte Fragen erhobenen Präferenzen – Produkte vorgeschlagen werden. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 10 3 DynaMine – Zielgerichtete Vorgehensweise zur Personalisierung Der intensive Wettbewerb und die hohe Dynamik im Zeitalter der New Economy stellt neue Anforderungen an IT-Systeme, Organisationsstrukturen und die zugrundeliegenden Prozesse. Da kürzere Reaktionszeiten oft über den Wettbewerbsvorsprung eines Unternehmens entscheiden, ist die Einbeziehung aktueller und qualitativ hochwertiger Informationen zur Entscheidungsunterstützung unabdingbar. Die Bereitstellung dieser erfolgskritischen Informationen und somit die Reaktionsfähigkeit eines Unternehmens werden jedoch in der Regel durch unzureichend integrierte Insellösungen behindert. Die Mehrheit aller Unternehmen nutzt zur Effektivitätsmessung der Online-Präsenz Analysewerkzeuge, die den Anforderungen für fundierte Entscheidungsgrundlagen zur Planung, Steuerung und Erfolgskontrolle im E-Commerce nicht mehr genügen. Als Datenbasis dieser Werkzeuge dienen in der Regel die Logfiles der eingesetzten Web-Server, die Analysen beschränken sich oft auf deskriptive Statistiken, wie z.B. Anzahl der Hits oder Anzahl der PageImpressions. Aufgrund der eingeschränkten Analysemöglichkeiten bleiben wichtige Zusammenhänge, wie beispielsweise das Navigationsverhalten der Online-Besucher, unentdeckt. Zudem lassen sich Logfiles aufgrund ihrer Datenqualität nur unzureichend in eine Data Warehouse-Architektur einbinden. DynaMine ist ein implementiertes Vorgehensmodell, das mit Hilfe applikatorischer Logs eine Datenbasis generiert, um das Verhalten der Online-Besucher und der OnlineTransaktionen zu protokollieren. Die Datenqualität der applikatorischen Logs und die Echtzeit-Bereitstellung der Logs in einem Datenbank-Managementsystem gewährleisten eine Basis für aussagekräftige Reports und qualitativ hochwertige Web Mining-Analysen. Somit steht ein Framework bereit, um Website-Personalisierung mit Unterstützung von intelligenten Data Mining-Algorithmen umzusetzen. Die folgende Abbildung skizziert die einzelnen Komponenten der DynaMine-Architektur. WWW WWW Log Web Server Data Warehouse Web Data Mart DynaTracker DynaTracker Application Business Events DynaExecutor DynaExecutor Business Data DynaBase Data Data Mining Mining System System XML XML DynaGenerator DynaGenerator Regeln (Java, XML) Realtime Loop Abbildung 3: Die DynaMine-Architektur Analytical Loop Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 11 3.1 Zieldefinition Ein wesentlicher Erfolgsfaktor bei der Personaliserung von Websites ist eine zielorientierte Vorgehensweise. Zu Beginn jeglicher Personalisierungs-Aktivitäten ist festzulegen, was mit Hilfe der Personalisierung erreicht werden soll. Dabei ist es erfahrungsgemäß sinnvoll, nicht den gesamten Webauftritt personalisieren zu wollen, sondern mit dem Ausschnitt der Website zu beginnen, der für die Zielerreicherung die wesentliche Rolle einnimmt. Der Vorteil dieser modularen Vorgehensweise liegt darin, dass die Umsetzung der Personalisierung in relativ kurzer Zeit möglich ist. Die Ergebnisse und Erfahrungen können dann beim weiteren Ausbau der Personalisierungs-Aktivitäten eingebracht werden. Hat man den zu personalisierenden Ausschnitt des Webauftrittes bestimmt, ist im Folgeschritt zu definieren, welches Verhalten der Onlinebesucher letztendlich personalisierte Aktivitäten auslösen soll. Die Definition von Business Events und deren Detaillierungsniveau bestimmt letztendlich, aufgrund welchen Besucherverhaltens eine Aktivität in Form eines Werbebanners oder individuellen Produktangebotes auf der Website erscheint. Dazu sind die einzelnen Business Events während einer Session mit Hilfe eines intelligenten Trackingmechanismus zu protokollieren. Business Events stellen fachlich relevante Ereignisse dar, z.B. die Aufnahme einer Aktie in ein Musterdepot oder ein Kaufauftrag einer Aktie. Die DynaMine-Vorgehensweise ermöglicht es, mit definierten Schritten zu einem geschlossenen Personalisierungs-Kreislauf zu gelangen, angefangen beim User-Tracking über die Datenaggregation und das Web Mining, bis hin zur Regelerstellung und -anwendung und schließlich zur Personalisierung der Website. 3.2 Realtime Tracking – Aufbau des Web Data Mart Mit der Definition der Ziele und der Spezifikation der Business Events ist genau festgelegt, welche Informationen einer Web-Anwendung benötigt werden und somit mit Hilfe des DynaTrackers zu protokollieren sind. Die dabei entstehenden applikatorischen Logs stehen im Web Data Mart zur Verfügung, wo die Daten aggregiert und historisiert werden. Der Web Data Mart ist die Datenbasis für Web Mining-Analysen und zudem die Basis für ein umfassendes Web Controlling. 3.2.1 Tracking Sind genau spezifizierte Ereignisse innerhalb der Anwendung als Business Events definiert worden, müssen diese aus der Anwendung heraus an den DynaTracker weitergegeben werden. Zu beachten ist an dieser Stelle, dass die Performance der Website durch die Ergänzung von Tracking möglichst nicht beeinflusst werden darf. Daher muss bereits hier eine Client/Server Lösung realisiert werden, die mit möglichst wenig Overhead für den Client alle benötigten Daten zum Tracking-Server übermittelt. Daher kommen hier Protokolle wie Datagramme (UDP), Sockets (TCP) oder Messaging Systeme wie IBM MQSeries zum Einsatz. Der DynaTracker hat die Aufgabe, die aus verschiedenen Systemen gelieferten Daten, wie z.B. Web Anwendungen und Web Server Logs, zusammenzuführen und in passende Da- Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 12 tenbanktabellen zu verteilen. Dabei können bereits erste Filterungen, Datenkonvertierungen und eine Aufteilung in verschiedene Ziel-Datenbanken vorgenommen werden. Entscheidend dabei ist, dass Daten unterschiedlicher Quellen, die von einer Session stammen, auch mit der dazugehörigen eindeutigen Session ID versehen sind und dadurch in einen Zusammenhang gebracht werden können. So ist gewährleistet, dass Web Server Logs von statischen Seiten, Logs des Application Servers und Logs von in den Seiten integrierten Java-Applets zusammengeführt und in Echtzeit in den Web Data Mart geschrieben werden. WWW WWW Log Web Server DynaTracker DynaTracker Client Client Protokolle UDP, TCP, MQ Application DynaTracker DynaTracker Server Server Web Data Mart DynaTracker DynaTracker Client Client Business Data Business Events Abbildung 4: Performance-optimiertes Tracking mit dem DynaTracker 3.2.2 Web Data Mart Die Datenmodellierung des Web Data Marts erfolgt nach dem Star-Schema, um der Notwendigkeit zur Abbildung multidimensionaler Datenstrukturen Rechnung zu tragen. Der Begriff Star-Schema leitet sich aus der sternförmigen Anordnung der Dimensionstabellen um eine zentrale Fakttabelle ab. In der zentralen Fakttabelle befinden sich die relevanten Kennzahlen (z.B. Anzahl der Klicks pro Session, Dauer einer Session, Anzahl der Transaktionen pro Session), in den Dimensionstabellen sind die kennzahlenbeschreibenden Attribute abgespeichert. Eine derartige Datenmodellierung erleichtert einerseits die Präsentation und das Verständnis der Datenstrukturen im Web Data Mart, andererseits werden durch die denormalisierte Datenhaltung Performancevorteile bei der Datenabfrage erreicht. Durch eine anpassbare Konformität der Dimensionstabellen an eine bereits bestehende unternehmensweite Data Warehouse Architektur kann die Integrität des Web Data Marts garantiert werden. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit Calendar Date Dimension Customer Dimension 13 Time of Day Dimension Clickstream Sessions Page Dimension Fact Table Session Dimension Referrer Dimension Causal Dimension Abbildung 5: Vereinfachtes Datenmodell eines Web Data Marts [KiMe00] Web Data Mart als Basis für OLAP Mit Hilfe von OLAP-Werkzeugen können die im Web Data Mart abgespeicherten Kennzahlen aus verschiedenen Sichten (Dimensionen) und Aggregationsstufen analysiert werden. Per Mausklick haben Endanwender die Möglichkeit intuitiv und interaktiv durch die Daten zu navigieren. Da Web Data Marts ihren Zusatznutzen gegenüber herkömmlichen Logfile-Analyse-Lösungen vor allem dann generieren, wenn der Web Data Mart in die unternehmensweite Data Warehouse-Architektur eingebettet wird, stehen den Endanwendern für ihre OLAP-Analysen bereits vertraute Lösungen zu Verfügung. Web Data Mart als Basis für Web Mining Da in Abhängigkeit vom eingesetzten Data Mining-Algorithmus unterschiedliche Anforderungen an die Struktur der Ausgangsdatenbasis gestellt werden, stellt der Web Data Mart die passenden Konfigurationsmöglichkeiten bereit. Mit Hilfe von Web Mining lassen sich Zusammenhänge ermitteln, die über die Analysefunktionalitäten von OLAP hinausgehen (siehe dazu im Einzelnen Abschnitt 2.3.1). 3.3 Web Controlling Der Web Data Mart in Verbindung mit den aufsetzenden OLAP-Technologien und Web Mining-Analysen bereitet das Framework für ein ganzheitliches Web Controlling sämtlicher Online-Aktivitäten. Mit Hilfe von DynaMine ist es möglich, sämtliche erfolgskritischen Daten der Wertschöpfungskette in die Analyseprozesse einzubeziehen und miteinander zu verknüpfen. Da die Qualität der Reports und Prognosen immer nur so gut sein kann wie die zugrundeliegende Datenbasis, bietet DynaMine gegenüber klassischen logfilebasierten isolierten Lösungen aufgrund qualitativ hochwertigerer Daten, der Integrationsmöglichkeit in Data Warehouse-Architekturen und der Datenbereitstellung in Echtzeit erhebliche Vorteile. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 3.3.1 14 Zero Latency Web Controlling Die DynaMine-Architektur ermöglicht durch den Zero Latency Access auf erfolgskritische Informationen die Überwachung der E-Commerce-Aktivitäten in Echtzeit. ReportingLösungen greifen direkt auf die Echtzeit-Komponente im Web Data Mart zu und ermöglichen dadurch die Steuerung der Online-Aktivitäten. Beispielsweise kann der Webauftritt durch Realtime-Web Controlling permanent auf eventuelle Systemausfälle oder Lastprobleme überwacht werden. 3.3.2 Web Scorecard Die Grundidee der Web Scorecard beruht auf der Annahme, dass eine rein quantitative Analyse von Hits und Page-Impressions, wie sie die meisten herkömmlichen LogfileAnalyse-Tools anbieten, zur Beschreibung und Steuerung der E-Business-Aktivitäten der Realität nicht gerecht werden. Die Web Scorecard stellt einen Rahmen für ein strategisches Leistungsmessungs- und Managementsystem dar, um aus der E-Business-Strategie klar formulierte, messbare und kontrollierbare Steuerungsgrößen abzuleiten. Da unterschiedliche Einflussfaktoren den Erfolg der E-Business-Strategie bedingen, werden die zur Steuerung benötigten Informationen über verschiedene Sichtweisen (Dimensionen) abgebildet und in Form von Kennzahlen bereitgestellt. Die folgenden Abbildung beschreibt eine beispielhafte Web Scorecard für einen Online Retailer. System Dimension Kunden Dimension Web Web Scorecard Scorecard Finanzielle Dimension Kampagnen Dimension Abbildung 6: Beispiel für eine Web Scorecard für einen Online Retailer Die als relevant zu erachtenden Dimensionen lassen sich wie folgt beschreiben: • Die System Dimension stellt Informationen über die Verfügbarkeit, Performance und Ergonomie des Online-Auftrittes zur Verfügung. • Aus der Kunden Dimension lassen sich Informationen über Kundenzufriedenheit und Kundenbindung gewinnen. • Die Kampagnen Dimension stellt Kennzahlen bereit, die Aussagen über die Wirkung von Personalisierungsaktivitäten und Werbebannern ermöglichen. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit • 15 Die Finanzielle Dimension einer Web Scorecard stellt Kennzahlen über die Profitabilität und Rentabilität der E-Business-Aktivitäten bereit. Die Kennzahlen der einzelnen Dimensionen der Web Scorecard sind jedoch keinesfalls isoliert zu betrachten. Erst durch die Verknüpfung der einzelnen Dimensionen mit Hilfe der OLAP-Technologie und Web Mining können die Ursache-Wirkungs-Ketten und somit die Beziehungen der einzelnen Dimensionen transparent gemacht werden und ermöglichen somit Aussagen über die wirklichen Werttreiber der E-Business-Aktivitäten. 3.4 DynaMine-Personalisierungskreislauf Die Realisierung des Personalisierungskreislaufes und dessen Wirkungsweise in der Praxis ist mit Hilfe eines Analytical Loops und eines Realtime Loops umgesetzt worden. Die folgende Abbildung beschreibt die einzelnen betroffenen Komponenten und deren Position innerhalb der Personalisierungsapplikation. DynaTracker Web Data Mart Application Server DynaExecutor DynaBase Data Mining System Analytical Loop Realtime Loop DynaGenerator Abbildung 7: DynaMine - Analytical Loop und Realtime Loop 3.4.1 Analytical Loop Der Analytical Loop ist verantwortlich für die Aufbereitung der Application Logs und deren Analyse mit Hilfe von Web Mining. Ergebnis der Web Mining-Analysen sind Regelwerke, die typische Besucherprofile von Onlinebesuchern beschreiben. Diese Regelwerke erlauben die Echtzeit-Klassifizierung eines aktiven Benutzers zu den ermittelten Kundengruppen. Diese Regeln können mehr oder weniger direkt in bestehende Anwendungen aufgenommen werden, um diese zu personalisieren. Damit können beispielsweise für die ermittelte Benutzergruppe passende Produkte angeboten werden, oder es kann das gesamte Layout der Site automatisch an ein ermitteltes Besucherprofil angepasst werden. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 16 Die aus dem Web Mining ermittelten Regeln basieren allerdings auf transformierten und aggregierten Daten, die der Anwendung nicht direkt zur Verfügung stehen. Der Versuch, die ursprünglichen Logfiles in Echtzeit zu transformieren und die Regeln bei jedem Click anzuwenden, ist zum Scheitern verurteilt, da der Zeitaufwand hierfür immens ist. 3.4.2 Realtime Loop Der Realtime Loop ist verantwortlich für die Personalisierung in Echtzeit. Über den DynaGenerator, einem Wizzard, der die gewonnenen Data Mining-Ergebnisse in XML transformiert, werden die Regelwerke aus dem Analytical Loop in den Realtime Loop überführt. Dazu stehen für verschiedene Systeme entsprechende Adapter (DynaExecutor) zur Verfügung, welche die Regeldefinition in XML auf die DynaBase anwenden (siehe auch Abbildung 3). Der DynaExecutor klassifiziert den aktuellen Besucher in ein zuvor ermitteltes Besucherprofil und reagiert mit zielgruppenspezifischem Content. Damit hat sich der Kreis geschlossen, da die personalisierte Website natürlich wiederum Tracking-Daten liefert, die in einen nächsten Data Mining-Prozess eingehen. Die Ergebnisse des Data Mining sind jedoch nicht nur die Regelwerke selbst, sondern auch die Definition der Variablen, die für die Regeln relevant sind. Oft sind nur wenige der getrackten Variablen ausschlaggebend für die Zuordnung eines Benutzers zu einer Benutzergruppe. Um Personalisierung in Echtzeit zu realisieren, werden die Informationen über die relevanten Daten benutzt, um den DynaTracker-Server so zu konfigurieren, dass dieser sofort entsprechend transformierte und aggregierte Daten in eine spezielle Datenbank schreibt (DynaBase). Dies bietet entscheidende Vorteile: • Es müssen wesentlich weniger Daten protokolliert werden (Performanceoptimierung). • Die Regeln können in Echtzeit angewendet werden, da die notwendigen Daten bereits genau passend aufbereitet sind. 4 Zusammenfassung und Ausblick In dem vorliegenden Arbeitspapier wurden typische Formen der Personalisierung von Websites erläutert. Schwerpunkt der weiteren Ausführungen war das Web (Usage) Mining, mit dessen Hilfe Aussagen über das Such- und Entscheidungsverhalten von Besuchern einer Website gewonnen werden sollen. Als Datengrundlage werden dabei in der Regel Webserver-Logfiles und – falls vorhanden – weitere kundenspezifische Informationen verwendet. Aufgrund des Umfangs und der Struktur von Logfiles kann sich dabei ein erheblicher Aufwand für das Preprocessing der Daten ergeben. Zudem erweist sich unter Umständen die eindeutige Identifizierung des Benutzers während einer Session als problematisch. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 17 Diesen Einschränkungen bzw. Nachteilen begegnen die Autoren mit dem neu entwickelten und implementierten Ansatz DynaMine. DynaMine gestattet neben einer strukturierten Datenbereitstellung die Analyse von Webnutzungsdaten und Rückkopplung der gewonnenen Regeln, um eine umgehende personalisierte Ansprache der Besucher zu realisieren. Neben der Personalisierung des Webauftritts auf der Basis der gewonnenen benutzerspezifischen Webnutzungsinformationen ergibt sich darüber hinaus die Möglichkeit einer Einbindung in Content-Managementsysteme, um auf der Basis von Nutzertypologien wesentlich flexibler Inhalte für verschiedene Zielgruppen aktuell zur Verfügung zu stellen. Speziell bei dynamischen Web-Content-Management-Systemen, bei denen Änderungen am Content sofort auf dem Live-Server sichtbar werden (die Webseiten werden erst zur Laufzeit generiert), wird dadurch ständige Aktualität der Inhalte gewährleistet. Literaturhinweise [BeLi00] Berry, M.J.A.; Linoff, G.S.: Mastering Data Mining. Wiley, New York 2000. [BeWe99] Bensberg, F.; Weiß, T.: Web Log Mining als Marktforschungsinstrument für das World Wide Web. In: Wirtschaftsinformatik 41 (1999), S. 426-432. [BlFa99] Bliemel, F.; Fassott, G.; Theobald, A.: Einleitung – Das Phänomen Electronic Commerce. In: Bliemel, F.; Fassott, G.; Theobald, A. (Hrsg.): Electronic Commerce. Gabler, Wiesbaden 1999, S. 1-7. [CoMo99] Cooley, R.; Mobasher, B.; Srivastan, J.: Data Preparation for Mining World Wide Web Browsing Patterns. In: Knowledge and Information Systems, Vol. 1, 1/1999, S. 5-32. [HiKü01] Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001. [IBM00] IBM High-Volume Website-Team: Personalisierung von Websites. http://www-106.ibm.com/developerworks/edeu/library /personalization.htm (Zugriff am 28.02.2001). [KiMe00] Kimball, R.; Merz, R.: The Data Webhouse Toolkit. Wiley, New York 2000. [KoJä00] Koop, H.J.; Jäckel, K.K.; Heinold E.F.: Business E-volution. Vieweg/Gabler, Wiesbaden 2000. [KoBl00] Kosala, R.; Blockeel, H.: Web Mining Research: A Survey. In: SIGKDD Explorations, Vol. 2, No. 1/2000, S. 1-15. [Lamp98] Lampe, F.: Unternehmenserfolg im Internet. 2. Aufl., Vieweg/Gabler, Wiesbaden 1998. Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit 18 [Meye01] Meyer, M.: Data Mining im Marketing: Einordnung und Überblick. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 563-588. [Röde99] Röder, H.: Electronic Commerce und One to One-Marketing. In: Bliemel, F.; Fassott, G.; Theobald, A. (Hrsg.): Electronic Commerce. Gabler, Wiesbaden 1999, S. 213-224. [ShVa99] Shapiro, C.; Varian, H.R.: Online zum Erfolg – Strategie für das InternetBusiness. Wirtschaftsverlag Langen Müller/Herbig, München 1999. [Spi01a] Spiliopoulou, M.: Web Usage Mining: Data Mining über die Nutzung des Web. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 489-510. [Spi01b] Spiliopoulou, M.: Kontrolle der Präsentation und Vermarktung von Gütern im WWW. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 855-873. [SrCo00] Srivastava, J.; Cooley, R.; Deshpande, M.; Tan, P.-N.: Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. In: SIGKDD Explorations, Vol. 1, No. 2/2000, S. 12-23. [Wein01] Weingärtner, S.: Web Mining – Ein Erfahrungsbericht. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 889-903. [ZaXi98] Zaïane, O.R.; Xin, M.; Han, J.: Discovering Web Access Patters and Trends by Applying OLAP and Data Mining Technology on Web Logs. In: Proc. ADL'98 (Advances in Digital Libraries), Santa Barbara, April 1998. [ZePi99] Zerdick, A.; Picot, A.; Schrape, K.; Artopé, A.; Goldhammer, K.; Lange, U.T.; Vierkant, E.; López-Escobar, E.; Silverstone, R.: Die InternetÖkonomie – Strategien für die digitale Wirtschaft. Springer, Berlin u.a. 1999. ISSN 1862-9059