Anwendung von Webminingmethoden zur Analyse eines Logfiles

Werbung
Fakultät Wirtschaftswissenschaften
Professur für Wirtschaftsinformatik, insbes. Informationssysteme im Dienstleistungsbereich
Anwendung von Webminingmethoden zur
Analyse eines Logfiles
- Projektarbeit zur Rechnerübung Text- und Webmining -
Projektseminar
Vorgelegt von:
Matrikel-Nr.:
Michael Mohaupt 3047323
Sandro Kürschner 3047127
Prüfer: Prof. Dr. Andreas Hilbert
Betreuer: Dipl.-Kffr. Karoline Schönbrunn
Bearbeitungszeitraum: 30.10.2007 - 11.01.2008
Dresden, 11. Januar 2008
INHALTSVERZEICHNIS
II
Inhaltsverzeichnis
Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IV
Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V
Abkürzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Listingsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1 Vorgehensmodell
3
2 Analyse des Logfiles
4
2.1
2.2
2.3
2.4
Business Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.1.1
Determine Business Objectives . . . . . . . . . . . . . . . . . . . . . . . .
4
2.1.2
Assess Situation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1.3
Data Mining Goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Data Understanding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.1
Initial Data Collection . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.2
Describe Data
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.1
Select Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.2
Data Cleaning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.3
Construct Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.3.4
Merge Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.3.5
Format Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.3.6
Zusammenfassung Data Preparation Nodes . . . . . . . . . . . . . . . . .
32
Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.4.1
34
Select Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INHALTSVERZEICHNIS
2.4.2
2.5
2.6
III
Build Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.5.1
Evaluate Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
Deployment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3 Fazit
58
A Verzeichnis wichtiger Fachbegriffe der Domäne
61
TABELLENVERZEICHNIS
IV
Tabellenverzeichnis
1
Abbildung der Webminingprozessschritte nach Cooley in CRISP-DM . . . . . .
3
2
Übersetzung der Ziele des Data Mining in technische Fragestellungen . . . . . . .
7
3
Spalten innerhalb der Logfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
4
Wertebereiche der Spalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
5
Datentypen der Protokollspalten . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
6
Modellrollen für Sequenzanalyse (Klickpfade) . . . . . . . . . . . . . . . . . . . .
34
7
Häufige REFERER-Domains (Liste) . . . . . . . . . . . . . . . . . . . . . . . . .
50
8
/index.html und /downloads.html als Ein- bzw. Ausstiegsseite . . . . . . . . . . .
55
9
Abbildung der Webminingprozessschritte nach Cooley in CRISP-DM . . . . . .
61
ABBILDUNGSVERZEICHNIS
V
Abbildungsverzeichnis
1
Iteratives Vorgehen von CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . .
4
2
Datenkategorien bezüglich Personenbezug . . . . . . . . . . . . . . . . . . . . . .
6
3
Vollständige Vorbereitungsschritte im Enterprise Miner
. . . . . . . . . . . . . .
16
4
Anteil MIME-Daten im Rohdatensatz . . . . . . . . . . . . . . . . . . . . . . . .
19
5
Aggregationsstufen von Logfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
6
Ermittlung der Anzahl der Sessions in Abhängigkeit vom gewählten Timeout . .
26
7
Überblick Data Preparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
8
Einstellungen des Association Node für Klickpfad-Analyse . . . . . . . . . . . . .
35
9
/downloads.html und /index.html als häufiger Klickpfad . . . . . . . . . . . . . .
35
10
Ausschnitt häufiger Klickpfade . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
11
Weitere Klickpfade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
12
Einstellung der Modellrollen zur Assoziationsanalyse Suchbegriffe . . . . . . . . .
37
13
Einstellung der Assoziationsanalyse Suchbegriffe . . . . . . . . . . . . . . . . . .
38
14
Assoziation von Suchbegriffen aus Google mit gefundenen Seiten . . . . . . . . .
38
15
Zusammenhang von Vorlesungsbeginn Entscheidungslehre und anfallenden GoogleAnfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
16
Erklärungsbeitrag einzelner Clustervariablen . . . . . . . . . . . . . . . . . . . . .
41
17
Cluster 6 - Onlineumfragen- und Downloadinteressierte
. . . . . . . . . . . . . .
42
18
Ermittlung der Verweildauer
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
19
Analyse der Gesamtverweildauer . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
20
Klassenweise Analyse der Gesamtverweildauer . . . . . . . . . . . . . . . . . . . .
45
21
Analyse der durchschnittlichen Verweildauer pro Seite . . . . . . . . . . . . . . .
46
22
Durchschnittliche Verweildauer pro Seite . . . . . . . . . . . . . . . . . . . . . . .
47
ABBILDUNGSVERZEICHNIS
VI
23
Top 5 Verweildauer pro Seite . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
24
Übersicht Browserkennungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
25
Top 10 der meistgenutzten Browser . . . . . . . . . . . . . . . . . . . . . . . . . .
49
26
Häufigste REFERER-Domains . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
27
Verteilung der Zugriffe über die Zeit . . . . . . . . . . . . . . . . . . . . . . . . .
51
28
Pageviews nach Uhrzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
29
Pageviews nach Wochentag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
30
Verteilung der Herkunft der Besucher (Liste) . . . . . . . . . . . . . . . . . . . .
53
31
Verteilung der Herkunft der Besucher (Grafik)
. . . . . . . . . . . . . . . . . . .
53
32
Analyse der Aufrufmethode im bereinigten und unbereinigten Datensatz . . . . .
54
33
Häufigste Einstiegsseiten (nach Download/Index) . . . . . . . . . . . . . . . . . .
57
34
Häufigste Ausstiegsseiten (nach Download/Index) . . . . . . . . . . . . . . . . . .
57
35
Vollständiges Data Mining-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . .
60
LISTINGS
1
Listings
1
Vorbereitung des Imports der Logfiles nach SAS . . . . . . . . . . . . . . . . . .
8
2
Erstellen der Zieltabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3
Einlesen der nicht umgestellten Protokolldateien . . . . . . . . . . . . . . . . . .
10
4
Einlesen der umgestellten Protokolldateien . . . . . . . . . . . . . . . . . . . . . .
11
5
Ausführung und Löschen Kommentarzeilen . . . . . . . . . . . . . . . . . . . . .
12
6
Rumpfcode zur Extraktion der Indikatorvariablen . . . . . . . . . . . . . . . . . .
18
7
Berechnung der MIME-Spalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
8
Berechnung der FAILED-Spalte . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
9
Berechnung der SPIDER-Spalte . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
10
Berechnung der ADMIN-Spalte . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
11
Aktivierung der Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
12
Extraktion der Herkunft nach IP . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
13
Identifikation der Benutzer
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
14
Sortierung zur Berechnung der Sessions . . . . . . . . . . . . . . . . . . . . . . .
25
15
Berechnung der Verweildauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
16
Extraktion der aufgerufenen Verzeichnisebenen . . . . . . . . . . . . . . . . . . .
29
17
Extraktion des Domainstrings aus dem Referer . . . . . . . . . . . . . . . . . . .
30
18
Extraktion der Suchbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
19
Vorbereitung Assoziationsanalyse Suchbegriffe . . . . . . . . . . . . . . . . . . . .
31
20
Zusammenführung der Spalten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
21
Formatieren der Eingangsdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
22
Entfernen von Klickpfaden zur besseren Übersicht . . . . . . . . . . . . . . . . .
36
23
Zusammenführung der Spalten . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
24
SQL: Zusätzliche Variablen für Clusteranalyse . . . . . . . . . . . . . . . . . . . .
40
25
SQL: Berechnung der Gesamtverweildauer . . . . . . . . . . . . . . . . . . . . . .
43
26
SQL: Analyse der durchschnittlichen Verweildauer pro Seite . . . . . . . . . . . .
46
27
SQL: Ermittlung verschiedener Browserkennungen . . . . . . . . . . . . . . . . .
48
28
SQL: Anzahl der Referer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
LISTINGS
2
29
SQL: Verteilung der Herkunft . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
30
Filterung der beliebtesten Einstiegsseiten . . . . . . . . . . . . . . . . . . . . . .
56
1
VORGEHENSMODELL
1
3
Vorgehensmodell
Zur Analyse von Logfiles wird von Cooley et al. (1997) ein aus den Phasen Data Cleaning, Transaction Identification, Data Integration, Transformation, Pattern Discovery und Pattern Analysis bestehendes Vorgehensmodell vorgeschlagen. Zwei Jahre später wurde von dem
CRISP-DM Konsortium (vgl. Chapman et al. (2000), S. 4) das Vorgehensmodell CRISPDM vorgestellt, welches in kommerziellen Webminingprojekten eingesetzt wird (vgl. Dellmann
et al. (2003), S. 715) eingesetzt wird.
Alle Prozessschritte des Modells von Cooley lassen sich in dem allgemeiner gehaltenen CRISPDM abbilden (siehe Tab. 1). Da dieses auch die davor und danach liegenden Phasen abbildet,
wird in dieser Projektarbeit nach CRISP-DM (siehe Chapman et al. (2000)) vorgegangen. Bei
Rückgriff auf das spezifischere Modell von Cooley wird an den entsprechenden Stellen darauf
hingewiesen. Auf das vorliegende Projekt nicht anwendbare Schritte des CRISP-DM werden
weggelassen.
Tabelle 1: Abbildung der Webminingprozessschritte nach Cooley in CRISP-DM
Schritt nach Cooley
Data Cleaning
Transaction Identification
Data Integration
Transformation
Pattern Discovery
Pattern Analysis
Entsprechung in CRISP-DM
3.2 Clean Data
3.3 Construct Data - Das Zusammenfassen mehrerer Seitenaufrufe zu einer Transaktion erzeugt ein neues Attribut zur Kennzeichnung der Zugehörigkeit mehrerer einzelner Logfileeinträge zu einer
gemeinsamen Transaktion.
3.4 Integrate Data
3.5 Format Data
4.1 - 4.3 Select Modeling Technique, Generate Test Design und
Build Model
4.4 - 5.1 Assess Model und Evaluate Results
Zu beachten ist dabei, dass CRISP-DM ein stark iterativ orientiertes Vorgehensmodell ist (vgl.
Abb. 1). Durch den Fortschritt des Data Mining-Prozesses werden neue Fragestellungen erkannt,
wodurch Rücksprünge in die vorherigen Schritte notwendig werden.
Aus lizenzrechtlichen Gründen kann dieser Teil der Arbeit nicht online gestellt werden. Bitte wenden Sie sich direkt an mich. A
A
VERZEICHNIS WICHTIGER FACHBEGRIFFE DER DOMÄNE
61
Verzeichnis wichtiger Fachbegriffe der Domäne
Tabelle 9: Abbildung der Webminingprozessschritte nach Cooley in CRISP-DM
Homepage
Logische Einheit einer Summe von Webseiten, die durch den selben Anbieter zur Verfügung gestellt wird.
Request-URI
Setzt sich zusammen aus der Domain des Webservers sowie dem Inhalt
des Feldes cs uri stem.
Webseite
Eine im Internet unter einer bestimmten Adresse aufrufbare Seite
LITERATUR
62
Literatur
Arndt, K. D., D. (2002): Handbuch Web Mining im Marketing - Konzepte, Systeme, Fallstudien,
Kap. Datenschutz im Web Mining - Rechtliche Aspekte des Umgangs mit Nutzerdaten, Vieweg
Verlag, 77–103.
Bensberg, F.; Weiss, T. (1999): Web Log Mining als Marktsforschungsinstrument fuer das World
Wide Web, Wirtschaftsinformatik , Bd. 41, Nr. 5, 426–432.
Berendt, M., B.; Spiliopoulou (2002): Handbuch Web Mining im Marketing - Konzepte, Systeme,
Fallstudien, Kap. Assoziations- und Pfadanalyse - Entdeckung von Abhängigkeiten, Vieweg
Verlag, 143–161.
Catledge, L.; Pitkow, J. (1995): Characterizing browsing strategies in the World-Wide web,
Computer Networks and ISDN Systems, Bd. 27, Nr. 6, 1065–1073.
Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Shearer, C.; Wirth, R. (2000):
CRISP-DM 1.0: Step-by-step data mining guide, SPSS Inc, 78, URL http://www.crisp-dm.
org/CRISPWP-0800.pdf.
Cooley, R.; Mobasher, B.; Srivastava, J. (1997): Grouping Web Page References into Transactions
for Mining World Wide Web Browsing Patterns, IEEE Knowledge and Data Engineering
Exchange Workshop, Bd. 00, 2.
Cooley, R.; Mobasher, B.; Srivastava, J.; et al. (1999): Data Preparation for Mining World Wide
Web Browsing Patterns, Knowledge and Information Systems, Bd. 1, Nr. 1, 5–32.
Dellmann, F.; Wulff, H.; Schmitz, S. (2003): Findings from a practical project concerning Web
usage mining, Data Mining, 2003. ICDM 2003. Third IEEE International Conference on,
715–718.
Fielding, R.; Mogul, J. C.; Frystyk, H.; Masinter, L.; Leach, P.; Berners-Lee, T. (1999): Hypertext
Transfer Protocol – HTTP/1.1 , Nr. 2616 in RFC, Internet Engineering Task Force.
Goland, Y.; Whitehead, E.; Faizi, A.; Carter, S.; Jensen, D. (1999): HTTP Extensions for Distributed Authoring – WEBDAV , Nr. 2518 in RFC, Internet Engineering Task Force.
LITERATUR
63
Hippner, M. M. W. K. D., H. (2002): Handbuch Web Mining im Marketing -Konzepte, Systeme,
Fallstudien, Kap. Grundlagen des Web Mining - Prozessen, Methoden und praktischer Einsatz,
Vieweg Verlag, 1–31.
IP2Location.com (2008): URL http://www.ip2location.com/.
Microsoft Corp. (2007): IIS-Statuscodes, URL http://support.microsoft.com/kb/318380.
Microsoft Corp. (2008): W3C Extended Log File Format (IIS 6.0), URL http:
//www.microsoft.com/technet/prodtechnol/WindowsServer2003/Library/IIS/
676400bc-8969-4aa7-851a-9319490a9bbb.mspx?mfr=true.
Pohle, C. (2003): Integrating and Updating Domain Knowledge with Data Mining, Proceeding
of the VLDB 2003 PhD Workshop, Berlin, Germany, September , 12–16.
Réseaux IP Européens (2008): RIPE Database Copyright, URL http://www.ripe.net/db/
copyright.html.
SAS Institute Inc. (2006): Sample 24707: Reading multiple files with PROC IMPORT, URL
http://support.sas.com/kb/24/707.html.
Spiderhunter (2008): SpiderList, URL http://spiderhunter.com/category/spiderhunter/.
Srikant, R.; Yang, Y. (2001): Mining web logs to improve website organization, Proceedings of
the 10th international conference on World Wide Web, 430–437.
Staeding, A. (2008): List of User-Agents (Spiders, Robots, Crawler, Browser), URL http://
www.user-agents.org/.
Säuberlich, F. (2002): Handbuch Web Mining im Marketing -Konzepte, Systeme, Fallstudien,
Kap. Vorverarbeitung von Web-Daten - Pre-Processing, Vieweg Verlag, 107–123.
Yang, Q.; Zhang, H.; Li, T. (2001): Mining web logs for prediction models in WWW caching and
prefetching, Proceedings of the seventh ACM SIGKDD international conference on Knowledge
discovery and data mining, 473–478.
Herunterladen