Web Mining und Personalisierung in Echtzeit

Ludwig-Maximilians-Universität München
Schriften zur Empirischen Forschung und Quantitativen Unternehmensplanung
Heft 5 / 2001
Web Mining und Personalisierung
in Echtzeit
Dr. Matthias Meyer, Stefan Weingärtner,
Thilo Jahke, Oliver Lieven
Ludwig-Maximilians-Universität
München
Institut für Organisation
Seminar für Empirische Forschung und
Quantitative Unternehmensplanung
Prof. Dr. Manfred Schwaiger
Kaulbachstr. 45 / I
D-80539 München
Tel.:
(089) 2180 5640
Fax:
(089) 2180 5651
e-mail: [email protected]
http://www.efoplan.de
Web Mining und Personalisierung in Echtzeit
Dr. Matthias Meyer
Ludwig-Maximilians-Universität München
Seminar für Empirische Forschung und Quantitative Unternehmensplanung
Kaulbachstraße 45 / I
80539 München
E-Mail: [email protected]
Stefan Weingärtner
DYMATRIX CONSULTING GROUP GmbH
Postfach 10 11 28
70010 Stuttgart
E-Mail: [email protected]
Thilo Jahke, Oliver Lieven
provantis IT Solutions OHG
Siemensstr. 1
71254 Ditzingen
E-Mail: {thilo.jahke|oliver.lieven}@provantis.de
Zusammenfassung
Dieses Arbeitspapier behandelt Ansätze zur Personalisierung von
Websites. Die in diesem Zusammenhang entscheidenden Web Mining-Analysen verwenden dabei in der Regel Daten, die aus Webserver-Logfiles gewonnen werden. Zur Vermeidung dieser aufwändigen
und nicht unproblematischen Vorgehensweise stellen die Autoren einen alternativen Ansatz vor, der eine wesentlich schnellere Datenbereitstellung und -aufbereitung gestattet. Ein geschlossener Analysekreislauf stellt zudem die umgehende Umsetzung der gewonnenen Ergebnisse sicher.
Inhaltsübersicht
1
Einleitung.............................................................................................. 1
2
Logfile-Analyse, Personalisierung und Web Mining ........................... 3
2.1
Logfile-Analyse .................................................................................... 3
2.2
Personalisierung.................................................................................... 7
2.3
Web Mining und Collaborative Filtering ............................................. 8
3
DynaMine – Zielgerichtete Vorgehensweise zur Personalisierung.... 10
3.1
Zieldefinition ...................................................................................... 11
3.2
Realtime Tracking – Aufbau des Data Mart....................................... 11
3.3
Web Controlling ................................................................................. 13
3.4
DynaMine-Personalisierungskreislauf................................................ 15
4
Zusammenfassung und Ausblick........................................................ 16
Literaturhinweise.......................................................................................... 17
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
1
1 Einleitung
Die gegenwärtige und künftige Bedeutung des E-Commerce, im Sinne von Ansätzen zur
Unterstützung von Markttransaktionen auf elektronischen Märkten, wird sicher niemand
ernsthaft bestreiten können (siehe auch [BlFa99; ZePi99; Lamp98]). Eine entscheidende
Rolle kommt in diesem Zusammenhang dem Internet zu, wobei aktuelle und geplante
Forschungs- und Entwicklungsanstrengungen gerade im Bereich des B2C-Marketing
zeigen, welche Nutzenpotenziale erwartet werden bzw. noch zu erschließen sind.
Die Vielfalt der Informations- und Nutzungsangebote im Internet macht deutlich, dass
Websites grundsätzlich Nutzer mit unterschiedlichsten Interessen und Hintergründen ansprechen (sollen). Die Vielfalt kommerzieller Websites zeigt sich insbesondere an der
enormen Menge an Produkten, Dienstleistungen und Informationen, die dort angeboten
wird. Fraglich ist allerdings, durch wen diese Angebote in welcher Weise und mit welchem
Ergebnis genutzt werden.
Die Herausforderung besteht daher darin,
•
entweder mit seinem Angebot die „richtigen“ Nutzer gezielt zu erreichen oder
•
den Nutzern die „richtigen“ Angebote gezielt zu unterbreiten.
In beiden Fällen ist damit zu klären, wer mit dem Webauftritt erreicht wird und wie dieser
genutzt wird. Im Gegensatz zum „klassischen“ Handel bieten Websites dabei die Möglichkeit, die Nutzung des Angebots genauer zu analysieren und unter Umständen nutzerspezifisch auszugestalten.
Wesentliche Grundlage für die Untersuchung der Nutzung von Websites stellen in der
Regel Webserver-Logfiles dar, in denen eine Vielzahl relevanter Informationen protokolliert wird (siehe dazu im Einzelnen Abschnitt 2.1.1). Je nach Komplexität der Website und
Zugriffshäufigkeit können sich dabei pro Tag Logfiles mit einer Größe von mehreren
Gigabyte ergeben.
Mittlerweile gibt es zahlreiche Tools zur Auswertung von Logfiles, wie z.B. FastStats
Analyzer, WebTrends, WebSuxess und LogAnalyzer. Diese Tools sollen Antworten auf
folgende Fragestellungen liefern (Auswahl):
•
Wer besucht die Website (Herkunft: Land, Provider, Unternehmen etc.)?
•
Wann wird die Website am häufigsten besucht?
•
Wie oft wird auf welche Seite zugegriffen?
•
Welche Seiten werden von welchen Besuchern (Kunden, Konkurrenten) abgerufen?
•
Welche Browser (Typ und Version) verwenden die Besucher der Website?
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
2
Es handelt sich somit vorwiegend um rein deskriptive Analysen zur Nutzung der Website
unabhängig vom Verhalten einzelner Besucher. Will man dagegen nutzerspezifische Aussagen gewinnen, ist man auf tiefergehende Analysen angewiesen, die üblicherweise unter
dem Begriff Web Mining zusammengefasst werden.
Allgemein unterscheidet man drei Ausprägungen des Web Mining [KoBl00]:
•
Web Content Mining umfasst die Suche bzw. Entdeckung nützlicher Informationen
zu Inhalten, Daten und Dokumenten im Web, wobei Informationen aus verschiedenen Datenquellen (http, FTP, Gopher etc.) und mit unterschiedlichsten Formaten
(Text, Audio, Video, PDF, PS, Hyperlinks, Metadaten) in Frage kommen können.
•
Web Structure Mining bezeichnet Ansätze zur Untersuchung von Linkstrukturen im
Internet und basiert auf der Topologie von Hyperlinks. Ergebnisse dienen der Kategorisierung von Web-Seiten und liefern u.a. Angaben zur Ähnlichkeit von Websites
[KoBl00].
•
Web Usage Mining beschäftigt sich mit der Untersuchung der Daten, die während
der Benutzung einer Website innerhalb einer Session oder über mehrere Sessions
aufgezeichnet werden. „While the Web content and structure mining utilize the real
or primary data on the Web, Web usage mining mines the secondary data derived
from the interactions of the users while interacting with the Web. The Web usage
data includes the data from Web server access logs, proxy server logs, browser
logs, user profiles, registration data, user sessions or transactions, cookies, user queries, bookmark data, mouse clicks and scrolls, and any other data as results of interactions.” [KoBl00]
Die weiteren Ausführungen in 2.3 konzentrieren sich auf das Web Usage Mining, wobei
die Begriffe Web Usage Mining und Web Mining synonym verwendet werden.
Abbildung 1: Web Usage Mining-Prozess [SrCo00]
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
3
Zentrale Bedeutung für die Analyse von Nutzungsdaten im Web hat eine geeignete Bereitstellung und Aufbereitung entsprechender Daten (Abbildung 1). Wie die weiteren Ausführungen zeigen werden, konzentrieren sich dabei die meisten Publikationen auf die Analyse
von Logfiles (z.B. [SrCo00; SrCo00; ZaXi98]), deren geeignete Aufbereitung erheblichen
Aufwand verursachen kann.
Gegenstand dieses Beitrags ist nun ein neuer Ansatz und ein entsprechendes Produkt, bei
dem anstelle der Analyse von bereits generierten Web Server Logs in den Entstehungsprozess von Nutzungsdaten eingegriffen wird. Somit stehen qualitativ höherwertigere Logs für
den Web Mining Prozess zur Verfügung. Dieser Ansatz ermöglicht die Generierung von
Regelwerken aus protokollierten Benutzeraktivitäten, aus denen sich die Präferenzen unterschiedlicher Besuchergruppen ableiten lassen. Die Regelwerke dienen als Basis für die
zielgruppenorientierte Kundenansprache und ermöglichen somit die Personalisierung
(siehe 2.2) des Webauftrittes im Sinne eines effizienten One-to-One-Marketing.
Im Einzelnen lassen sich folgende Nutzungsmöglichkeiten unterscheiden:
•
Unterstützung bei der Konzeption und Umsetzung des Web-Auftritts bzw. der Optimierung des Contentmanagements.
•
Anwendung zum Marketing-Controlling.
•
Generierung aussagekräftiger Besucherprofile und Extraktion typischer Klickpfade
auf der Webseite (Click Stream Behaviour).
•
Ableitung von Geschäftsregeln als Voraussetzung für die Personalisierung der
Webseiten.
2 Logfile-Analyse, Personalisierung und Web Mining
2.1 Logfile-Analyse
2.1.1 Grundlagen und Ziele
Die Nutzung einer Website wird in der Regel durch den Webserver protokolliert, indem
sämtliche Zugriffsinformationen in einem Logfile gespeichert werden. Die Einträge des
Logfiles bestehen dabei aus (i) der IP-Adresse des Nutzers, (ii) der Zugriffszeit, (iii)
HTML-Befehlen („GET“, „POST“ etc.), (iv) der URL der aufgerufenen Seite, (v) der
referrer-URL, (vi) dem Protokoll (normalerweise http), (vii) Statuscode Feld, (viii) der
Anzahl übertragener Bytes und (ix) unter Umständen einer UserID [JoJo00; ZaXi98].
Zur Untersuchung des Nutzerverhaltens sind nicht alle Informationen relevant. Beispielsweise wird beim Aufruf einer Seite für jede darin eingebettete Grafik ein Logfile-Eintrag
erzeugt. Da derartige Logfile-Einträge nicht das eigentliche Nutzerverhalten wiedergeben,
werden sie in einem Preprocessing-Schritt herausgefiltert. Analog werden Error Codes
entfernt.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
4
Voraussetzung für die Untersuchung des Nutzerverhaltens ist allerdings die eindeutige
Identifizierung von Benutzern bzw. von Sessions, worauf im folgenden Abschnitt eingegangen wird (siehe dazu auch [SrCo00; CoMo00]).
2.1.2 Mechanismen zur Benutzer- bzw. Session-Identifikation
Typischerweise steht in Logfiles des Web Servers zur Benutzeridentifikation nur die IPAdresse zur Verfügung. Da heute jedoch jedes Unternehmen über Firewalls an das Internet
angebunden ist, werden normalerweise die internen IP-Adressen verborgen. Es ist im
Allgemeinen daher nicht möglich, anhand der IP-Adresse auf einzelne Benutzer zurückzuschließen.
Um aber das Verhalten von sämtlichen Benutzern analysieren zu können, ist es unbedingt
erforderlich, die Aktionen eines Benutzers während einer Session zusammen betrachten zu
können. Eine Session ist ein zusammenhängender Besuch eines Benutzers auf einer Website – vergleichbar mit einem Besuch eines (potenziellen) Käufers in einem Laden. Durch
den Sessionbezug lassen sich Click-Streams ermitteln, die Verweildauer auf der Site
bestimmen, typische Benutzergruppen ermitteln usw.
Ziel der nachfolgend beschriebenen Ansätze – Cookies, URL Rewriting, Java Applets,
Session Tracking auf Application Server Ebene und Reverse Proxy Web Server – ist daher
die Vergabe eindeutiger Session ID’s, die letztlich eine Reihe von Zugriffen in einer Session „zusammenhalten“.
Cookies
Der Web Server oder ein zusätzlich vorgeschalteter Server können im Browser des Benutzers ein Cookie setzten. Dieses Cookie wird dann bei jedem Request des Benutzers mitübertragen und erlaubt so das Tracking einer Session ID. Dabei können zwei Varianten
unterschieden werden:
•
Transiente Cookies werden vom Browser nicht abgespeichert und gelten daher nur,
solange der Browser geöffnet ist, d.h. innerhalb einer Session.
•
Persistente Cookies werden auf dem Rechner des Benutzers abgespeichert. Dadurch kann ein Benutzer bei jedem neuen Besuch wiedererkannt werden, d.h. auch
sessionübergreifend.
URL Rewriting
Voraussetzung für die Verwendung von Cookies ist die Akzeptanz durch den Benutzer.
Oftmals werden Cookies grundsätzlich nicht oder nur in bestimmten Fällen akzeptiert.
Anstelle von Cookies kann die notwendige Session ID auch als zusätzlicher Parameter bei
jeder aufgerufenen URL angehängt werden. Auch dadurch wird erreicht, dass sich bei
jedem Request die Session ID mitprotokollieren lässt.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
5
Java Applets
Eine eindeutige Benutzeridentifikation wird ebenfalls mit Hilfe spezieller Java Applets
ermöglicht. Diese können neben einer ID weitere nutzerspezifische Informationen übermitteln. Voraussetzung ist – ähnlich wie bei Cookies – die explizite Kooperationsbereitschaft
und Einwilligung des Benutzers, da die Funktionalität dieser Java Applets weit über die der
Cookies hinausgeht (siehe dazu auch [CoMo00; SrCo00]).
Ein Vorteil der Verwendung von Java Applets ist unter anderem, dass sie Aktionen weiterer Java Applets aufzeichnen können, die im Logfile des Web Servers nicht protokolliert
werden können, da man dort höchstens noch den Aufruf dieser Applets sehen kann. Hier
ist ein applikatorisches Tracking erforderlich, was eine entsprechende Erweiterung der
Applets voraussetzt. Zudem entsteht das Problem, dass die applikatorischen LogInformationen des Applets und Log-Informationen des Web Servers wieder zusammengeführt werden müssen.
Session Tracking auf Application Server Ebene
Hinter großen Websites, Portalen oder Shop-Lösungen verbergen sich meist komplexe
Anwendungen, die oft unter Einsatz von Application Servern realisiert werden. Hier wird
die komplexe Logik z.B. in Java-Programmen abgebildet.
Um das Verhalten eines Benutzers in einer solchen Anwendung protokollieren zu können,
ist es erforderlich, an relevanten Punkten der Anwendung entsprechende Aufrufe des
Tracking Servers zu integrieren. Dabei handelt es sich um sogenannte Business Events,
also Ereignisse, die entscheidend für den Ablauf der Anwendung sind. Hier hat man dann
auch die Möglichkeit, sowohl Session IDs als auch Benutzernamen zu tracken.
Reverse Proxy Web Server
Reverse Proxy Server werden in Unternehmen gerne eingesetzt, um verschiedene interne
Web Server vor dem Internet zu verbergen und so problemlos eine Lastverteilung zu erreichen. Für den Client stellt sich die Website des Unternehmens wie ein einziger Web Server
dar, er erkennt dadurch nicht, dass sich einzelne Teile der Site oder verschiedene Anwendungen tatsächlich auf unterschiedlichen Servern befinden.
In Hinblick auf Session IDs und Tracking sind zwei Punkte zu beachten:
•
Der Reverse Proxy Server kann eingesetzt werden, um Log Files zu erzeugen, die
an einer Stelle entstehen und alle Seiten beinhalten, da alle Requests beim Reverse
Proxy durchgereicht werden. Somit lassen sich an alle Requests Session IDs anhängen.
•
Die Web Server, die sich hinter dem Reverse Proxy verbergen, können in der Regel
nicht mehr den Absender des Original Requests ermitteln, da für sie alle Anfragen
vom Reverse Proxy kommen. Dadurch werden die Log-Möglichkeiten hier eingeschränkt.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
6
WWW
WWW
SessionMaker
SessionMaker
• Zusätzlich Business Events
• Bezug zu Session und Benutzer
• Direkt als Eingabe für Data Mining nutzbar
Web
Web Server
Server
Application
Application
Tracker
Tracker
Session Log
• Zusätzlich Session ID über
Cookie oder URL-Parameter
• Bezug zu einem Benutzer
• Click Stream Analyse möglich
Application Log
Server Log
• Nur IPAdresse, URL, Timestamp, Request Parameter
• Kein Bezug zu einem Benutzer
• Problematisch bei dynamischen Websites
• Umfangreiche Datenbereinigung notwendig
Abbildung 2: Tracking-Varianten im Überblick
2.1.3 Grenzen der Logfile-Analyse
Unabhängig von der Problematik einer eindeutigen Benutzeridentifikation während einer
Session sind Caching und dynamische Webseiten unter Umständen Ursache für unvollständige Informationen über das Benutzerverhalten (siehe auch [SrCo00; CoMo00]).
Caching
Für eine vollständige Log-Auswertung stellen die im Internet weit verbreiteten ProxyCache-Server ein Problem dar [BeWe99]. Diese cachen eine Menge von Seiten, so dass die
Requests bereits aus dem Cache bedient werden können. Damit hat aber der Betreiber der
Site nicht mehr die Möglichkeit, die Requests zu tracken, d.h. sie werden im Logfile nicht
aufgezeichnet.
Um jetzt wieder alle Requests tracken zu können, ist es erforderlich, die wesentlichen oder
sogar alle Seiten entweder im http-Header als NO-CACHE zu spezifizieren oder künstlich
um einen eindeutigen Zähler als Parameter zu ergänzen, damit sichergestellt ist, dass die
Seite nicht zwischengespeichert wird. Dadurch erhöht sich allerdings die Server- und
Netzauslastung und damit die Wartezeit für den Benutzer unter Umständen erheblich.
Dynamische Webseiten
Heute entstehen immer mehr Websites, die fast ausschließlich aus dynamisch erzeugten
Webseiten bestehen. Dies ist insbesondere bei Portalen zu beobachten, bei denen sich ein
Benutzer sowohl Inhalt als auch Layout selbst konfigurieren kann.
Das Logfile des Web Servers enthält hier oft nur noch eine einzige URL und nur sehr
wenige Request-Parameter, aus denen nicht auf den aktuell vom Benutzer betrachteten
Inhalt geschlossen werden kann, da dieser eben dynamisch ermittelt wird.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
7
Die Lösung ist auch hier, zusätzlich zum Web Server Log einen applikatorischen Log
einzuführen, wiederum verbunden mit der Problematik, den applikatorischen Log und den
Log des Web Servers zusammenzuführen und dabei den Bezug zu einer Session nicht zu
verlieren.
2.2 Personalisierung
Die Untersuchung des Such- und Entscheidungsverhaltens von (potenziellen) Kunden ist
seit jeher zentraler Forschungsgegenstand im Bereich Handel und Marketing. Stets geht es
um eine optimale Kundenansprache, sei es mit der Laden- oder Regalgestaltung im stationären Handel oder mit Werbeanzeigen und -spots in verschiedenen Medien.
Betrachtet man das Medium Internet als weiteren Vertriebskanal, eröffnen sich vergleichbare und auch neue Möglichkeiten zur personalisierten Benutzeransprache [Röde99; ZePi99]. Unter Personalisierung versteht man dabei das Anzeigen von Inhalten abgestimmt
auf den jeweiligen Benutzer, basierend auf über den Benutzer gespeicherten Informationen. Solche Informationen können dabei z.B. eine Kaufhistorie, Benutzerverhalten auf der
Website oder sonstige personenbezogene Daten sein.
Personalisierung durch den Benutzer
Bestimmte Websites bieten Benutzern die Möglichkeit, sich die Gestaltung und/oder das
gewünschte Informationsangebot der Seiten selbst zu definieren und damit an ihre Bedürfnisse anzupassen. Beispiele sind Websites von Direct Brokern, wie z.B. Comdirect, bei
denen sich der Benutzer ein Musterdepot einrichten und Informationsangebote zum Marktgeschehen auswählen kann. Diese Form der Personalisierung wird gelegentlich auch als
explizite Profilerstellung oder Individualisierung bezeichnet [IBM00].
Sessionbezogene Personalisierung durch den Anbieter
Während einer Session lässt sich das (Informations-)Angebot an das Suchverhalten des
Benutzers anpassen. Beispielsweise nennt der Online-Buchhändler Amazon nach Abschluss einer Suche nach einem Buchtitel weitere Titel, die andere Käufer des gesuchten
Buchtitels ebenfalls gekauft haben [ZePi99]. Regeln, die zur Anzeige derartiger, auf die
aktuelle Suche bezogenen Informationen führen, werden üblicherweise offline auf der
Basis von Logfiles und Warenkörben generiert. In Anlehnung an [IBM00] soll dies als
implizite Profilerstellung während einer Session bezeichnet werden.
Sessionübergreifende Personalisierung durch den Anbieter
Eine weitere Möglichkeit der Personalisierung des Angebots einer Website ergibt sich,
sofern sich der Benutzer per Login und Passwort identifizieren kann und/oder muss. Dies
ist beispielsweise beim Internetbanking der Fall. Hier bietet sich die Möglichkeit, neben
den angeforderten Informationen, z.B. Kontostand, weitere auf den Kunden zugeschnittene
Informationen, z.B. Angebote für Geldanlagen, zu integrieren. Dies setzt unter Umständen
die Berücksichtigung weiterer über den Kunden gespeicherter Informationen, d.h. die
Integration der aktuellen Session-Daten mit kundenspezifischen Informationen aus einem
bestehenden Data Warehouse voraus, um daraus Regeln zur personifizierten Kundenan-
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
8
sprache abzuleiten. Diese Form der Personaliserung wird in Anlehnung an [IBM00] als
implizite Profilerstellung unter Verwendung älterer Daten bezeichnet.
Zu beachten ist, dass bei sämtlichen Aktivitäten der Personalisierung datenschutzrechtlichen Aspekten eine entscheidende Rolle zukommt. In Anbetracht der technischen Möglichkeiten liegt natürlich die Befürchtung nahe, dass personenbezogene Daten, die dem
besonderen Schutz des Bundesdatenschutzgesetzes (BDSG) unterliegen, missbraucht
werden könnten (dieser Schutz betrifft in erster Linie personenbezogene Daten, die Rückschlüsse auf persönliche oder sachliche Verhältnisse einer Person zulassen) [BeWe99;
Lamp98]. Ein wesentlicher Punkt bei Personalisierungsaktivitäten ist, dass personenbezogene Daten und Nutzungsmuster gemäß dem Teledienstedatenschutzgesetz (TDDSG) nicht
zusammen gespeichert werden und damit die Anonymisierung gespeicherter Daten gewährleistet ist.
Allgemein und unabhängig davon gibt es zudem Bestrebungen zum Schutz vor Missbrauch
von Kundendaten, die Anbieter und/oder Nutzer von Websites selbst beeinflussen können.
Konsumenten können dabei ihr eigenes Profil zusammenstellen und dabei kontrollieren, an
wen sie diese Daten weitergeben, Anbieter können ihre Website-Praktiken zertifizieren
lassen und z.B. durch TrustMarks kennzeichnen lassen.
2.3 Web Mining und Collaborative Filtering
Um den Webauftritt personalisieren zu können, sind die Bedürfnisse der jeweiligen Besucher zu antizipieren. Dabei sind mögliche Navigationsmuster, Informationsrecherchen aber
auch Kaufabsichten von Online-Besuchern zu prognostizieren. Da jede Navigation und
jede Transaktion ein Business Event darstellt und über applikatorische Logs (Session
Tracking auf Application Server Ebene) in strukturierter Form in Datenbanken vorgehalten
wird, werden diese gesammelten Informationen dazu benutzt, dem Online-Besucher mit
gezielten Personalisierungsaktivitäten in Form von individualisierten Produktangeboten,
adaptiven Anpassungen der Website oder zielgruppengerechten Werbebannern zu begegnen. Da es praktisch unmöglich ist, derartige Empfehlungen 'fest zu verdrahten', werden
adaptive Data Mining Techniken angewandt, wie z.B. neuronale Netzwerke, Entscheidungsbaum-Algorithmen oder multivariate statistische Methoden, um aus der üblicherweise sehr großen Datenmenge typische Navigationsmuster und Besucherprofile zu extrahieren und anzupassen. Die Besucherprofile werden durch Regelwerke beschrieben und ermöglichen für jedes Besucherprofil zielgruppenspezifische Aktivitäten in Echtzeit (z.B.
Anzeigen eines bestimmten Werbebanners).
2.3.1
Web Mining
Unter Web Mining versteht man die Anwendung von Data Mining-Algorithmen auf applikatorische Logs (siehe auch Abschnitt 1 und [BeLi00; HiKü01] zu den Grundlagen des
Data Mining), welche die Aktivitäten und Transaktionen von Online-Besuchern protokollieren. Diese Logs werden in einem Web Data Mart strukturiert abgespeichert und in Abhängigkeit vom gewählten Data Mining-Algorithmus in geeigneter Form bereitgestellt. Je
nach Fragestellung und Analyseschwerpunkt können beispielsweise die nachfolgend erläu-
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
9
terten Algorithmen für Web Mining-Analysen eingesetzt werden [Wein01; SrCo00; BeWe99]:
Sequenzanalyse zur Untersuchung des Click Stream Behaviours
Durch den Einsatz von Sequenzanalyse-Algorithmen lassen sich typische Navigationsmuster aus protokollierten Log-Daten extrahieren. Somit lassen sich präferierte Klickpfade
zur optimalen Positionierung von Werbebannern evaluieren. Weitere Anwendungsgebiete
von Sequenzanalysen finden sich in der Optimierung der Ergonomie von Webauftritten
[Wein01].
Clustering zur Ableitung von Besucherprofilen
Kombiniert mit einer geeigneten Aufbereitung der applikatorischen Logs lassen sich mit
Hilfe von Clusteranalysen spezifische Besucherprofile extrahieren. Die unterschiedlichen
Profile sind die Basis für die Personalisierung des Online-Auftrittes. Die Profile oder
Cluster werden durch Regelwerke beschrieben, welche auf dem Application Server hinterlegt werden. Sobald ein Online-Besucher als Mitglied eines Profils erkannt wird, bekommt
er den für dieses Profil zielgruppenspezifischen Content zugewiesen.
Entscheidungsbaum-Algorithmen
Zur Aufdeckung komplexer Zusammenhänge auf einer Website bieten sich Entscheidungsbaum-Algorithmen an. Mit Hilfe von Entscheidungsbäumen lassen sich mächtige
Klassifikations- und Prognosemodelle erstellen, welche eine Menge von Datensätzen in
einer baumähnlichen Struktur darstellen und in Form von ’IF-THEN-Statements’ beschreiben. In einem Kundenprojekt bei einem führenden Online-Software-Retailer konnten
dadurch Aussagen auf Kaufwahrscheinlichkeiten in Abhängigkeit von verschiedenen
Parametern, wie Klickpfad, Sessionlänge, Verweildauer und Art der Referrer getroffen
werden [Wein01].
2.3.2 Collaborative Filtering
Collaborative Filtering bzw. Recommender-Systeme gehören ebenfalls zu den adaptiven
Techniken, die Online-Besuchern in Form von personalisierten Inhalten bei der Informationsbeschaffung oder bei einem Kaufvorgang helfen sollen. Basierend auf dem Verhalten
von vorherigen Besuchern macht das System Vorschläge, die mit hoher Wahrscheinlichkeit den Präferenzen des Besuchers genügen sollen [IBM00; ZePi99]. Collaborative Filtering benötigt eine Startperiode, bis genügend Daten vorhanden sind, um die Präferenzen
eines individuellen Besuchers bestimmen zu können. In vielen Fällen kann das Clustering
von Besuchern zu Besucherprofilen helfen, diese Startphase zu verkürzen: Sobald ein
Besucher als einer Gruppe zugehörig erkannt wird, können bei ihm als anfängliche Präferenzen die der Gruppe verwendet werden. Gelegentlich unterscheidet man vom Collaborative Filtering das Rule-based Filtering, bei dem – basierend auf über gezielte Fragen erhobenen Präferenzen – Produkte vorgeschlagen werden.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
10
3 DynaMine – Zielgerichtete Vorgehensweise zur Personalisierung
Der intensive Wettbewerb und die hohe Dynamik im Zeitalter der New Economy stellt
neue Anforderungen an IT-Systeme, Organisationsstrukturen und die zugrundeliegenden
Prozesse. Da kürzere Reaktionszeiten oft über den Wettbewerbsvorsprung eines Unternehmens entscheiden, ist die Einbeziehung aktueller und qualitativ hochwertiger Informationen zur Entscheidungsunterstützung unabdingbar. Die Bereitstellung dieser erfolgskritischen Informationen und somit die Reaktionsfähigkeit eines Unternehmens werden
jedoch in der Regel durch unzureichend integrierte Insellösungen behindert. Die Mehrheit
aller Unternehmen nutzt zur Effektivitätsmessung der Online-Präsenz Analysewerkzeuge,
die den Anforderungen für fundierte Entscheidungsgrundlagen zur Planung, Steuerung und
Erfolgskontrolle im E-Commerce nicht mehr genügen. Als Datenbasis dieser Werkzeuge
dienen in der Regel die Logfiles der eingesetzten Web-Server, die Analysen beschränken
sich oft auf deskriptive Statistiken, wie z.B. Anzahl der Hits oder Anzahl der PageImpressions. Aufgrund der eingeschränkten Analysemöglichkeiten bleiben wichtige Zusammenhänge, wie beispielsweise das Navigationsverhalten der Online-Besucher, unentdeckt. Zudem lassen sich Logfiles aufgrund ihrer Datenqualität nur unzureichend in eine
Data Warehouse-Architektur einbinden.
DynaMine ist ein implementiertes Vorgehensmodell, das mit Hilfe applikatorischer Logs
eine Datenbasis generiert, um das Verhalten der Online-Besucher und der OnlineTransaktionen zu protokollieren. Die Datenqualität der applikatorischen Logs und die
Echtzeit-Bereitstellung der Logs in einem Datenbank-Managementsystem gewährleisten
eine Basis für aussagekräftige Reports und qualitativ hochwertige Web Mining-Analysen.
Somit steht ein Framework bereit, um Website-Personalisierung mit Unterstützung von
intelligenten Data Mining-Algorithmen umzusetzen. Die folgende Abbildung skizziert die
einzelnen Komponenten der DynaMine-Architektur.
WWW
WWW
Log
Web Server
Data Warehouse
Web Data
Mart
DynaTracker
DynaTracker
Application
Business Events
DynaExecutor
DynaExecutor
Business
Data
DynaBase
Data
Data Mining
Mining
System
System
XML
XML
DynaGenerator
DynaGenerator
Regeln (Java, XML)
Realtime Loop
Abbildung 3: Die DynaMine-Architektur
Analytical Loop
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
11
3.1 Zieldefinition
Ein wesentlicher Erfolgsfaktor bei der Personaliserung von Websites ist eine zielorientierte
Vorgehensweise. Zu Beginn jeglicher Personalisierungs-Aktivitäten ist festzulegen, was
mit Hilfe der Personalisierung erreicht werden soll. Dabei ist es erfahrungsgemäß sinnvoll,
nicht den gesamten Webauftritt personalisieren zu wollen, sondern mit dem Ausschnitt der
Website zu beginnen, der für die Zielerreicherung die wesentliche Rolle einnimmt. Der
Vorteil dieser modularen Vorgehensweise liegt darin, dass die Umsetzung der Personalisierung in relativ kurzer Zeit möglich ist. Die Ergebnisse und Erfahrungen können dann
beim weiteren Ausbau der Personalisierungs-Aktivitäten eingebracht werden. Hat man den
zu personalisierenden Ausschnitt des Webauftrittes bestimmt, ist im Folgeschritt zu definieren, welches Verhalten der Onlinebesucher letztendlich personalisierte Aktivitäten
auslösen soll. Die Definition von Business Events und deren Detaillierungsniveau bestimmt letztendlich, aufgrund welchen Besucherverhaltens eine Aktivität in Form eines
Werbebanners oder individuellen Produktangebotes auf der Website erscheint. Dazu sind
die einzelnen Business Events während einer Session mit Hilfe eines intelligenten Trackingmechanismus zu protokollieren. Business Events stellen fachlich relevante Ereignisse
dar, z.B. die Aufnahme einer Aktie in ein Musterdepot oder ein Kaufauftrag einer Aktie.
Die DynaMine-Vorgehensweise ermöglicht es, mit definierten Schritten zu einem geschlossenen Personalisierungs-Kreislauf zu gelangen, angefangen beim User-Tracking
über die Datenaggregation und das Web Mining, bis hin zur Regelerstellung und -anwendung und schließlich zur Personalisierung der Website.
3.2 Realtime Tracking – Aufbau des Web Data Mart
Mit der Definition der Ziele und der Spezifikation der Business Events ist genau festgelegt,
welche Informationen einer Web-Anwendung benötigt werden und somit mit Hilfe des
DynaTrackers zu protokollieren sind. Die dabei entstehenden applikatorischen Logs stehen
im Web Data Mart zur Verfügung, wo die Daten aggregiert und historisiert werden. Der
Web Data Mart ist die Datenbasis für Web Mining-Analysen und zudem die Basis für ein
umfassendes Web Controlling.
3.2.1 Tracking
Sind genau spezifizierte Ereignisse innerhalb der Anwendung als Business Events definiert
worden, müssen diese aus der Anwendung heraus an den DynaTracker weitergegeben
werden. Zu beachten ist an dieser Stelle, dass die Performance der Website durch die
Ergänzung von Tracking möglichst nicht beeinflusst werden darf. Daher muss bereits hier
eine Client/Server Lösung realisiert werden, die mit möglichst wenig Overhead für den
Client alle benötigten Daten zum Tracking-Server übermittelt. Daher kommen hier Protokolle wie Datagramme (UDP), Sockets (TCP) oder Messaging Systeme wie IBM MQSeries zum Einsatz.
Der DynaTracker hat die Aufgabe, die aus verschiedenen Systemen gelieferten Daten, wie
z.B. Web Anwendungen und Web Server Logs, zusammenzuführen und in passende Da-
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
12
tenbanktabellen zu verteilen. Dabei können bereits erste Filterungen, Datenkonvertierungen und eine Aufteilung in verschiedene Ziel-Datenbanken vorgenommen werden.
Entscheidend dabei ist, dass Daten unterschiedlicher Quellen, die von einer Session stammen, auch mit der dazugehörigen eindeutigen Session ID versehen sind und dadurch in
einen Zusammenhang gebracht werden können. So ist gewährleistet, dass Web Server
Logs von statischen Seiten, Logs des Application Servers und Logs von in den Seiten
integrierten Java-Applets zusammengeführt und in Echtzeit in den Web Data Mart geschrieben werden.
WWW
WWW
Log
Web Server
DynaTracker
DynaTracker
Client
Client
Protokolle
UDP, TCP, MQ
Application
DynaTracker
DynaTracker
Server
Server
Web Data
Mart
DynaTracker
DynaTracker
Client
Client
Business
Data
Business Events
Abbildung 4: Performance-optimiertes Tracking mit dem DynaTracker
3.2.2 Web Data Mart
Die Datenmodellierung des Web Data Marts erfolgt nach dem Star-Schema, um der Notwendigkeit zur Abbildung multidimensionaler Datenstrukturen Rechnung zu tragen. Der
Begriff Star-Schema leitet sich aus der sternförmigen Anordnung der Dimensionstabellen
um eine zentrale Fakttabelle ab. In der zentralen Fakttabelle befinden sich die relevanten
Kennzahlen (z.B. Anzahl der Klicks pro Session, Dauer einer Session, Anzahl der Transaktionen pro Session), in den Dimensionstabellen sind die kennzahlenbeschreibenden Attribute abgespeichert.
Eine derartige Datenmodellierung erleichtert einerseits die Präsentation und das Verständnis der Datenstrukturen im Web Data Mart, andererseits werden durch die denormalisierte
Datenhaltung Performancevorteile bei der Datenabfrage erreicht. Durch eine anpassbare
Konformität der Dimensionstabellen an eine bereits bestehende unternehmensweite Data
Warehouse Architektur kann die Integrität des Web Data Marts garantiert werden.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
Calendar Date
Dimension
Customer
Dimension
13
Time of Day
Dimension
Clickstream
Sessions
Page Dimension
Fact Table
Session Dimension
Referrer Dimension
Causal Dimension
Abbildung 5: Vereinfachtes Datenmodell eines Web Data Marts [KiMe00]
Web Data Mart als Basis für OLAP
Mit Hilfe von OLAP-Werkzeugen können die im Web Data Mart abgespeicherten Kennzahlen aus verschiedenen Sichten (Dimensionen) und Aggregationsstufen analysiert werden. Per Mausklick haben Endanwender die Möglichkeit intuitiv und interaktiv durch die
Daten zu navigieren. Da Web Data Marts ihren Zusatznutzen gegenüber herkömmlichen
Logfile-Analyse-Lösungen vor allem dann generieren, wenn der Web Data Mart in die
unternehmensweite Data Warehouse-Architektur eingebettet wird, stehen den Endanwendern für ihre OLAP-Analysen bereits vertraute Lösungen zu Verfügung.
Web Data Mart als Basis für Web Mining
Da in Abhängigkeit vom eingesetzten Data Mining-Algorithmus unterschiedliche Anforderungen an die Struktur der Ausgangsdatenbasis gestellt werden, stellt der Web Data Mart
die passenden Konfigurationsmöglichkeiten bereit. Mit Hilfe von Web Mining lassen sich
Zusammenhänge ermitteln, die über die Analysefunktionalitäten von OLAP hinausgehen
(siehe dazu im Einzelnen Abschnitt 2.3.1).
3.3 Web Controlling
Der Web Data Mart in Verbindung mit den aufsetzenden OLAP-Technologien und Web
Mining-Analysen bereitet das Framework für ein ganzheitliches Web Controlling sämtlicher Online-Aktivitäten. Mit Hilfe von DynaMine ist es möglich, sämtliche erfolgskritischen Daten der Wertschöpfungskette in die Analyseprozesse einzubeziehen und miteinander zu verknüpfen. Da die Qualität der Reports und Prognosen immer nur so gut sein
kann wie die zugrundeliegende Datenbasis, bietet DynaMine gegenüber klassischen logfilebasierten isolierten Lösungen aufgrund qualitativ hochwertigerer Daten, der Integrationsmöglichkeit in Data Warehouse-Architekturen und der Datenbereitstellung in Echtzeit
erhebliche Vorteile.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
3.3.1
14
Zero Latency Web Controlling
Die DynaMine-Architektur ermöglicht durch den Zero Latency Access auf erfolgskritische
Informationen die Überwachung der E-Commerce-Aktivitäten in Echtzeit. ReportingLösungen greifen direkt auf die Echtzeit-Komponente im Web Data Mart zu und ermöglichen dadurch die Steuerung der Online-Aktivitäten. Beispielsweise kann der Webauftritt
durch Realtime-Web Controlling permanent auf eventuelle Systemausfälle oder Lastprobleme überwacht werden.
3.3.2 Web Scorecard
Die Grundidee der Web Scorecard beruht auf der Annahme, dass eine rein quantitative
Analyse von Hits und Page-Impressions, wie sie die meisten herkömmlichen LogfileAnalyse-Tools anbieten, zur Beschreibung und Steuerung der E-Business-Aktivitäten der
Realität nicht gerecht werden. Die Web Scorecard stellt einen Rahmen für ein strategisches
Leistungsmessungs- und Managementsystem dar, um aus der E-Business-Strategie klar
formulierte, messbare und kontrollierbare Steuerungsgrößen abzuleiten. Da unterschiedliche Einflussfaktoren den Erfolg der E-Business-Strategie bedingen, werden die zur Steuerung benötigten Informationen über verschiedene Sichtweisen (Dimensionen) abgebildet
und in Form von Kennzahlen bereitgestellt. Die folgenden Abbildung beschreibt eine
beispielhafte Web Scorecard für einen Online Retailer.
System
Dimension
Kunden
Dimension
Web
Web Scorecard
Scorecard
Finanzielle
Dimension
Kampagnen
Dimension
Abbildung 6: Beispiel für eine Web Scorecard für einen Online Retailer
Die als relevant zu erachtenden Dimensionen lassen sich wie folgt beschreiben:
•
Die System Dimension stellt Informationen über die Verfügbarkeit, Performance
und Ergonomie des Online-Auftrittes zur Verfügung.
•
Aus der Kunden Dimension lassen sich Informationen über Kundenzufriedenheit
und Kundenbindung gewinnen.
•
Die Kampagnen Dimension stellt Kennzahlen bereit, die Aussagen über die Wirkung von Personalisierungsaktivitäten und Werbebannern ermöglichen.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
•
15
Die Finanzielle Dimension einer Web Scorecard stellt Kennzahlen über die Profitabilität und Rentabilität der E-Business-Aktivitäten bereit.
Die Kennzahlen der einzelnen Dimensionen der Web Scorecard sind jedoch keinesfalls
isoliert zu betrachten. Erst durch die Verknüpfung der einzelnen Dimensionen mit Hilfe
der OLAP-Technologie und Web Mining können die Ursache-Wirkungs-Ketten und somit
die Beziehungen der einzelnen Dimensionen transparent gemacht werden und ermöglichen
somit Aussagen über die wirklichen Werttreiber der E-Business-Aktivitäten.
3.4 DynaMine-Personalisierungskreislauf
Die Realisierung des Personalisierungskreislaufes und dessen Wirkungsweise in der Praxis
ist mit Hilfe eines Analytical Loops und eines Realtime Loops umgesetzt worden. Die
folgende Abbildung beschreibt die einzelnen betroffenen Komponenten und deren Position
innerhalb der Personalisierungsapplikation.
DynaTracker
Web Data Mart
Application
Server
DynaExecutor
DynaBase
Data Mining
System
Analytical Loop
Realtime Loop
DynaGenerator
Abbildung 7: DynaMine - Analytical Loop und Realtime Loop
3.4.1 Analytical Loop
Der Analytical Loop ist verantwortlich für die Aufbereitung der Application Logs und
deren Analyse mit Hilfe von Web Mining. Ergebnis der Web Mining-Analysen sind Regelwerke, die typische Besucherprofile von Onlinebesuchern beschreiben. Diese Regelwerke erlauben die Echtzeit-Klassifizierung eines aktiven Benutzers zu den ermittelten
Kundengruppen.
Diese Regeln können mehr oder weniger direkt in bestehende Anwendungen aufgenommen werden, um diese zu personalisieren. Damit können beispielsweise für die ermittelte
Benutzergruppe passende Produkte angeboten werden, oder es kann das gesamte Layout
der Site automatisch an ein ermitteltes Besucherprofil angepasst werden.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
16
Die aus dem Web Mining ermittelten Regeln basieren allerdings auf transformierten und
aggregierten Daten, die der Anwendung nicht direkt zur Verfügung stehen. Der Versuch,
die ursprünglichen Logfiles in Echtzeit zu transformieren und die Regeln bei jedem Click
anzuwenden, ist zum Scheitern verurteilt, da der Zeitaufwand hierfür immens ist.
3.4.2 Realtime Loop
Der Realtime Loop ist verantwortlich für die Personalisierung in Echtzeit. Über den DynaGenerator, einem Wizzard, der die gewonnenen Data Mining-Ergebnisse in XML transformiert, werden die Regelwerke aus dem Analytical Loop in den Realtime Loop überführt. Dazu stehen für verschiedene Systeme entsprechende Adapter (DynaExecutor) zur
Verfügung, welche die Regeldefinition in XML auf die DynaBase anwenden (siehe auch
Abbildung 3). Der DynaExecutor klassifiziert den aktuellen Besucher in ein zuvor ermitteltes Besucherprofil und reagiert mit zielgruppenspezifischem Content. Damit hat sich der
Kreis geschlossen, da die personalisierte Website natürlich wiederum Tracking-Daten
liefert, die in einen nächsten Data Mining-Prozess eingehen.
Die Ergebnisse des Data Mining sind jedoch nicht nur die Regelwerke selbst, sondern auch
die Definition der Variablen, die für die Regeln relevant sind. Oft sind nur wenige der
getrackten Variablen ausschlaggebend für die Zuordnung eines Benutzers zu einer Benutzergruppe.
Um Personalisierung in Echtzeit zu realisieren, werden die Informationen über die relevanten Daten benutzt, um den DynaTracker-Server so zu konfigurieren, dass dieser sofort
entsprechend transformierte und aggregierte Daten in eine spezielle Datenbank schreibt
(DynaBase).
Dies bietet entscheidende Vorteile:
•
Es müssen wesentlich weniger Daten protokolliert werden (Performanceoptimierung).
•
Die Regeln können in Echtzeit angewendet werden, da die notwendigen Daten bereits genau passend aufbereitet sind.
4 Zusammenfassung und Ausblick
In dem vorliegenden Arbeitspapier wurden typische Formen der Personalisierung von
Websites erläutert. Schwerpunkt der weiteren Ausführungen war das Web (Usage) Mining,
mit dessen Hilfe Aussagen über das Such- und Entscheidungsverhalten von Besuchern
einer Website gewonnen werden sollen. Als Datengrundlage werden dabei in der Regel
Webserver-Logfiles und – falls vorhanden – weitere kundenspezifische Informationen
verwendet. Aufgrund des Umfangs und der Struktur von Logfiles kann sich dabei ein
erheblicher Aufwand für das Preprocessing der Daten ergeben. Zudem erweist sich unter
Umständen die eindeutige Identifizierung des Benutzers während einer Session als problematisch.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
17
Diesen Einschränkungen bzw. Nachteilen begegnen die Autoren mit dem neu entwickelten
und implementierten Ansatz DynaMine. DynaMine gestattet neben einer strukturierten
Datenbereitstellung die Analyse von Webnutzungsdaten und Rückkopplung der gewonnenen Regeln, um eine umgehende personalisierte Ansprache der Besucher zu realisieren.
Neben der Personalisierung des Webauftritts auf der Basis der gewonnenen benutzerspezifischen Webnutzungsinformationen ergibt sich darüber hinaus die Möglichkeit einer Einbindung in Content-Managementsysteme, um auf der Basis von Nutzertypologien wesentlich flexibler Inhalte für verschiedene Zielgruppen aktuell zur Verfügung zu stellen.
Speziell bei dynamischen Web-Content-Management-Systemen, bei denen Änderungen
am Content sofort auf dem Live-Server sichtbar werden (die Webseiten werden erst zur
Laufzeit generiert), wird dadurch ständige Aktualität der Inhalte gewährleistet.
Literaturhinweise
[BeLi00]
Berry, M.J.A.; Linoff, G.S.: Mastering Data Mining. Wiley, New York
2000.
[BeWe99]
Bensberg, F.; Weiß, T.: Web Log Mining als Marktforschungsinstrument
für das World Wide Web. In: Wirtschaftsinformatik 41 (1999), S. 426-432.
[BlFa99]
Bliemel, F.; Fassott, G.; Theobald, A.: Einleitung – Das Phänomen Electronic Commerce. In: Bliemel, F.; Fassott, G.; Theobald, A. (Hrsg.): Electronic Commerce. Gabler, Wiesbaden 1999, S. 1-7.
[CoMo99]
Cooley, R.; Mobasher, B.; Srivastan, J.: Data Preparation for Mining World
Wide Web Browsing Patterns. In: Knowledge and Information Systems,
Vol. 1, 1/1999, S. 5-32.
[HiKü01]
Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data
Mining im Marketing, Wiesbaden 2001.
[IBM00]
IBM High-Volume Website-Team: Personalisierung von Websites.
http://www-106.ibm.com/developerworks/edeu/library /personalization.htm
(Zugriff am 28.02.2001).
[KiMe00]
Kimball, R.; Merz, R.: The Data Webhouse Toolkit. Wiley, New York
2000.
[KoJä00]
Koop, H.J.; Jäckel, K.K.; Heinold E.F.: Business E-volution. Vieweg/Gabler, Wiesbaden 2000.
[KoBl00]
Kosala, R.; Blockeel, H.: Web Mining Research: A Survey. In: SIGKDD
Explorations, Vol. 2, No. 1/2000, S. 1-15.
[Lamp98]
Lampe, F.: Unternehmenserfolg im Internet. 2. Aufl., Vieweg/Gabler, Wiesbaden 1998.
Meyer, Weingärtner, Jahke, Lieven: Web Mining und Personalisierung in Echtzeit
18
[Meye01]
Meyer, M.: Data Mining im Marketing: Einordnung und Überblick. In:
Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data
Mining im Marketing, Wiesbaden 2001, S. 563-588.
[Röde99]
Röder, H.: Electronic Commerce und One to One-Marketing. In: Bliemel,
F.; Fassott, G.; Theobald, A. (Hrsg.): Electronic Commerce. Gabler, Wiesbaden 1999, S. 213-224.
[ShVa99]
Shapiro, C.; Varian, H.R.: Online zum Erfolg – Strategie für das InternetBusiness. Wirtschaftsverlag Langen Müller/Herbig, München 1999.
[Spi01a]
Spiliopoulou, M.: Web Usage Mining: Data Mining über die Nutzung des
Web. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 489-510.
[Spi01b]
Spiliopoulou, M.: Kontrolle der Präsentation und Vermarktung von Gütern
im WWW. In: Hippner, H.; Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.):
Handbuch Data Mining im Marketing, Wiesbaden 2001, S. 855-873.
[SrCo00]
Srivastava, J.; Cooley, R.; Deshpande, M.; Tan, P.-N.: Web Usage Mining:
Discovery and Applications of Usage Patterns from Web Data. In: SIGKDD
Explorations, Vol. 1, No. 2/2000, S. 12-23.
[Wein01]
Weingärtner, S.: Web Mining – Ein Erfahrungsbericht. In: Hippner, H.;
Küsters, U.; Meyer, M.; Wilde, K.D. (Hrsg.): Handbuch Data Mining im
Marketing, Wiesbaden 2001, S. 889-903.
[ZaXi98]
Zaïane, O.R.; Xin, M.; Han, J.: Discovering Web Access Patters and Trends
by Applying OLAP and Data Mining Technology on Web Logs. In: Proc.
ADL'98 (Advances in Digital Libraries), Santa Barbara, April 1998.
[ZePi99]
Zerdick, A.; Picot, A.; Schrape, K.; Artopé, A.; Goldhammer, K.; Lange,
U.T.; Vierkant, E.; López-Escobar, E.; Silverstone, R.: Die InternetÖkonomie – Strategien für die digitale Wirtschaft. Springer, Berlin u.a.
1999.
ISSN 1862-9059