Wenn die Normalform nicht stimmt

Werbung
Wenn die Normalform
nicht stimmt...
Optimierungsaspekte und Multidimensionalität von
Portalstatistik-Datenbanken
Ein Bericht aus der Praxis -
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 1
Wenn die Normalform nicht stimmt...
Gliederung:
1. WebTraffic-Analyse in Portalen
•
•
•
•
Anwendung und Kundennutzen
Architektur der Lösung
Datenschutz
Kennzahlen der Lösung
2. Datenbehandlung in WebTraffic
•
•
•
•
•
Der ETL-Prozess (Extract-Transform-Load)
Statische und Dynamische Reports
Das Datenmodell
Datenreduktion und weitere Optimierungsansätze
OLAP-Support und MDDB-Ansätze
3. Fazit
•
Einordnung und Ausblick
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 2
1. Wenn die Normalform stimmt...
Credits.
• Präsentation entstand in Zusammenarbeit mit meinen
Kollegen Tilman Prang, Udo Meister, Steffen Scheller,
Andre Müller (FH Schmalkalden)
• sowie unter Verwendung einer T-Com Präsentation
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 3
1. WebTraffic Analyse in Portalen.
Der Service-Kanal im Internet von T-Com.
Unter www.t-com.de bietet die T-Com ein nutzerorientiertes Portfolio
für Produkte der Deutschen Telekom, von Informationen, Services
und Einkaufsmöglichkeiten mit Schwerpunkt Festnetz.
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 4
www.t-com.de
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 5
1. WebTraffic Analyse in Portalen.
Fakten von September 2003.
n
Über 1,7 Millionen unique visitors (Nielsen Webratings)
n
etwa 25 Millionen page views
n
1,5 TeraBytes an ausgelieferten Daten
n
ungefähr 200.000 transactions (in one month)(Sell, Using of services)
n
Fester Platz unter den 10 meist besuchten Shops in D (Nielsen Webratings)
n
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 6
1. WebTraffic Analyse in Portalen.
Wie findet ein Suchender die T-Com?
Anfragen externer Suchmaschinen:
Welche Suchbegriffe gaben die Nutzer ein, um zur T-Com zu gelangen?
(KW 37 2003).
n telekom
9.538
n auskunft
2.520
n tarife
2.437
n Telekom
2.383
n deutsche telekom 2.170
n Tarife
1.589
n rechnung
1.460
n telecom
1.433
n Auskunft
1.302
n dsl
1.282
n www.telekom.de
n adressen
n Deutsche Telekom
n fastpath
n telekom.de
n telefonauskunft
n Rechnung
n t-dsl
n rechnung online
n Telefonauskunft
1.119
1.024
973
762
700
677
661
579
555
528
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 7
1. WebTraffic Analyse in Portalen.
Was lernt die T-Com aus der Analyse?
Den Nutzer auf den Einstiegsseiten abholen durch prominentes
Platzieren der häufig gesuchten Begriffe!
Beispiel:
n
n
n
Tarife
Auskunft
Rechnung Online
Suchmaschinen Marketing mit Informationen "füttern" zu
welchen Begriffen die T-Com gefunden werden will
n
n
n
XXL
ISDN
Flatrate
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 8
1. WebTraffic Analyse in Portalen.
Was sucht ein Suchender auf den Seiten der T-Com?
Anfragen interne Suchmaschinen:
Welche Suchkategorien nutzen die Anfrager? (KW 37 2003).
Kategorien
n Software / Treiber
n DSL
n Telefonauskunft
n T-Net Box
n An-, Ab-, Ummelden
n Sinus Familie
n Eumex allg.
n Telefontarife allg.
n Eumex 504PC USB
n Anrufweiterschaltung
2.752
2.542
2.238
2.107
1.559
1.286
1.252
1.187
964
770
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 9
1. WebTraffic Analyse in Portalen.
Was lernt die T-Com aus der Analyse der internen
Suchbegriffe?
n
n
n
Ausgewählte Themen werden zu TOP-Links
Bereitstellen von Content zu den beratungsintensiven Themen
(z.B. Eumex Telefonanlagen)
Für komplexe Suchanfragen wird eine spezielle Suchfunktion
angeboten (auf Basis Q-Go)
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 10
1. WebTraffic Analyse in Portalen.
Q-Go - eine Suche der anderen Art.
n
Die Suche über nur einen Begriff (z.B. "DSL") kann für den
Nutzer eine unbefriedigende Fülle an Informationen geben.
Das Angebot: Q-Go fragt nach, was der Nutzer eigentlich
wissen wollte. Ein Beispiel:
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 11
1. WebTraffic Analyse in Portalen.
Was wollen die Kunden? T-Com weiß jetzt mehr!
Von der Gestaltung der Startseite über die Nutzung der
Suchmaschine, den Einsatz neuer Technologien bis hin zu
konsequent einfachen Bestellmodulen werden die Analysen der
Logfiles genutzt, die die WebTraffic Lösung zur Verfügung stellt.
Quelle: DISK 2003, Peter Klingenburg, T-Com
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 12
1. WebTraffic Analyse in Portalen.
Lösungsarchitektur.
Sniffer Logs (HTTP/SSL)
www.telekom.de*
www.dtag.de*
Intershop
Enfinity
Shop
Vignette
CM S
www1.t-versand.de*
search.mesch.telekom.de
Intershop
MultiSite
Shop/CMS
Oracle View
www.t-punkt.de*
www.t-com.de*
FAQ
ISCI-Logfiles
Application Logs
SSI Logs (Component of
authentification from EKI2
Vignette Bridge
Enfinity Bridge
Logs of purchase order status
T-DSL Logs (availability check)
SAS Base
MultiSite Bridge
SAS Webhound
CSS (Smile) applicationlog
Logs of customer data
(modification data of
connection)
======!"§==Systems=
SAS Information Delivery Portal
SearchstringCategory
System
Enterprise Guide
ad hoc
queries
Frank Schönefeld DB-Stammtisch 06/04
Seite 13
1. WebTraffic Analyse in Portalen.
Datenschutz.
======!"§==Systems=
n
Erfassung und
Bearbeitung
personenbezogener
Daten entsprechend
der Gesetze.
n
Versendung und
Weitergabe
n
Entscheidung des
Kunden
n
Sicherheit
n
Informationsfreiheit
Frank Schönefeld DB-Stammtisch 06/04
Seite 14
1. WebTraffic Analyse in Portalen.
Kennzahlen der Lösung.
§ Performance:
• Datenvolumen > 4GByte pro Tag (bis zu 6 GByte)
• Automatische Über-Nacht Verarbeitung
• Tägliche Report Veröffentlichung
§ Reports:
• ca. 250 Reports täglich in den Kategorien:
• …siehe folgende Seiten
• Visualisierung aller Standard und OLAP Reports
• Erzeugung verschiedener Dateiformate (html, xls , pdf...)
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 15
1. WebTraffic Analyse in Portalen.
Kennzahlen der Lösung.
§ Reports:
• ca. 250 Reports täglich in den Kategorien:
• Standard Reports
• Hits, Pages, Bytes, Entry Points
• Page Views (Top25)
• Entry Points(erster Seitenaufruf einer Session), Exit
Points (Top10)
• Referrer Domains (woher kamst du?)
• Clickstream
• Statuscodes (html-Übertragungsqualität 404)
• Browsers, Platforms, Services (Antwortzeiten Server)
• Visitors (unique visitors)
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 16
1. WebTraffic Analyse in Portalen.
Kennzahlen der Lösung.
§ Reports:
• ca. 250 Reports täglich in den Kategorien:
• Suchmaschinenreports
• Interne SM-Reports
• Externe SM-Reports
• Shop-Reports
• Funnelreport
• Pageviews until Basket (beim wievielten Klick wird ein
Warenkorb erstellt)
• Produkts in Basket (Anzahl, Art, Top100, 2 Products
combined, erstellt/abgesendet, durchschnittl.
Warenwert)
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 17
1. WebTraffic Analyse in Portalen.
Kennzahlen der Lösung.
§ Reports:
• ca. 250 Reports täglich in den Kategorien:
• Dynamic Reports
• Point-to-Point (Startpunkt – Endpunkt; Pfadlänge 10)
• Clickstream before Exit (über welchen Weg verlassen
Kunden das Portal)
• Statistics per VPNR (Kampagnenanalyse)
• Individual Reports (200)
• URL-Gruppen (Maskierung), Analysevariablen (hits,
pageviews, visits), Zeitraum
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 18
Wenn die Normalform nicht stimmt...
Gliederung:
1. WebTraffic-Analyse für Portale der Deutschen Telekom
•
•
•
•
Anwendung und Kundennutzen
Architektur der Lösung
Datenschutz
Kennzahlen der Lösung
2. Datenbehandlung in WebTraffic
•
•
•
•
•
Der ETL-Prozess (Extract-Transform-Load)
Statische und Dynamische Reports
Das Datenmodell
Datenreduktion und weitere Optimierungsansätze
OLAP-Support und MDDB-Ansätze
3. Fazit
•
Einordnung und Ausblick
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 19
2. Datenbehandlung in WebTraffic
Der ETL-Prozess (Extract-Transform-Load).
• Datenreduktion(Gruppierung)
• Summieren Hits
• Aggregation (nach Datum,
nach Pfad; Zählen, Summieren
(Zugriffe und Bytes))
Sniffer-Logs
ApplicationLogs
Extract/
Transform
Shop-Data
Content Data
• Formattransformationen (unixtimestamp à
data)
======!"§==Systems=
Internal Data
Representation
Load
Summaries
• Statische
Reports
• Dynamische
Reports
• Gruppierung nach
Teilbereichen/Konzernbereichen; nach Tag, Woche,
Monat; nach Seite;
• Ermittlung Netzwerk-Latenz
Frank Schönefeld DB-Stammtisch 06/04
Seite 20
2. Datenbehandlung in WebTraffic.
Das Datenmodell.
n
SAS interner DB-Engine
n
Ca. 45 „Tabellen“ mit je 20 Attributen
n
Tabellen auf Reports optimiert (nicht auf Redundanzfreiheit,
Abhängigkeitserhaltung oder Verlustfreiheit)
n
API mit ca. 60 Zugriffs- (Berechnungsprozeduren)
n
Tabellen-Indizierung möglich (rare Nutzung bisher)
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 21
2. Datenbehandlung in WebTraffic.
Das Datenmodell - API.
n
Report-Writing:
• CALENDAR, MEANS* , SQL* , CHART* , PLOT, SUMMARY*
• FORMS, PRINT, TABULATE * , FREQ* , REPORT* , TIMEPLOT
n
Statistics:
• CHART, RANK, SUMMARY, CORR, REPORT, TABULATE
• FREQ, SQL, UNIVARIATE, MEANS, STANDARD
n
Utilities (30)
• APPEND, SORT, COPY, IMPORT, EXPORT,...
* Report and Statistics
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 22
2. Datenbehandlung in WebTraffic.
Das Datenmodell – Unterstützung von SQL.
Input
======!"§==Systems=
Output
Frank Schönefeld DB-Stammtisch 06/04
Seite 23
2. Datenbehandlung in WebTraffic.
Beispiel für Datenreduktion – Clickstreamanalyse (1)
n
n
n
n
n
Ein Clickstream ist eine Folge von 1..n (Mouse-)Clicks eines
Nutzers, wobei jeder Click durch Quelle(-seite) und Ziel(-seite)
charakterisiert wird.
Pro Session eines Nutzers kann ein Clickstream verfolgt werden
(bei ca. 130.000 sessions/day sind das 130.000 Clickstreams).
Ein Clickstream setzt sich aus (Teil-)Pfaden zusammen
(Quellseite à Zielseite). Zur Clickstreamanalyse werden diese
Teilpfade betrachtet. (Ein Clickstream der Länge n hat
bekanntermaßen (n*(n-1))/2) gegangene Teilpfade (bei
unidirektionaler Betrachtung).
Ein Portal der Größe K hat potentiell KK Pfade der Länge K. (K –
Anzahl der Knoten im „Portalgraphen“).
Clickstreamanalyse heisst jetzt, aus den 130.000 Clickstreams
die identisch gegangenen Teilpfade herauszufinden und zu
aggregieren.
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 24
2. Datenbehandlung in WebTraffic.
Beispiel für Datenreduktion – Clickstreamanalyse (2)
n
Datenreduktion:
• Es werden nur Pfadlängen bis 10 (also 45 Teilpfade je
Clickstream) betrachtet.
• Längere Pfade werden in Teilpfade bis zur Länge 10
unterteilt.
• Eine Aufsummierung findet nur statt, wenn mindestens 3
Nutzer einen Teilpfad gegangen sind.
• Reduktion (empirisch) auf ca. 1/3 der
Ausgangsdatenmenge, also ca. 45.000 Clickstreams).
• Verteilungsanalysen haben gezeigt, dass ca. 40% der Pfade
unique sind.
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 25
2. Datenbehandlung in WebTraffic.
Clickstreamanalyse – Datenmodell (1).
n
n
Die Darstellung der Pfade erfolgt in folgender Datenstruktur:
Summary_sequence_by_day (seq_lgth, clickno1....clickno10,
vpnr, referrer_domain, ..., count).
seq_ clickno1
lgth
1
1
1
...
2
2
....
clickno2
/
/rechnung
/rechnung
/
/
/rechnung
/tarife
======!"§==Systems=
. clickno10 referrer_domain
.
.
google
telekom.de
Google
count
...
...
17.124
34.456
130.000
40.004
20.472
Frank Schönefeld DB-Stammtisch 06/04
Seite 26
2. Datenbehandlung in WebTraffic.
Zeitliche Aggregation.
2. Woche Juni
Weblogdetail
Montag
Montag
Dienstag
Sequence_by
_day
Sequence_by
_day
Sequence_by
_week
Sequence_by
_week
Sequence_by
_month
Sequence_by
_month
Weblogdetail
Dienstag
Summaries
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 27
2. Datenbehandlung in WebTraffic.
Clickstream-Analyse.
======!"§==Systems=
n
„Wirkungsgrad“ eines
Portals
n
Verhältnis genutzter
Pfade zu angebotenen
Pfaden
n
Hauptpfade vs
Nebenpfade
Frank Schönefeld DB-Stammtisch 06/04
Seite 28
2. Datenbehandlung in WebTraffic.
Statische Reports.
======!"§==Systems=
n
Statische Reports
werden einmal täglich
berechnet.
n
Aggregierung erfolgt
je nach Kategorie
wöchentlich und
monatlich.
Frank Schönefeld DB-Stammtisch 06/04
Seite 29
2. Datenbehandlung in WebTraffic.
Dynamische Reports.
n
Dynamische Reports werden on-demand aus den (festen)
Summaries berechnet .
n
Beispiele für dynamische Reports
• Point-to-Point (Startpunkt – Endpunkt; Pfadlänge 10)
• Clickstream before Exit (über welchen Weg verlassen
Kunden das Portal)
• Statistics per VPNR (Kampagnenanalyse)
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 30
2. Datenbehandlung in WebTraffic
Dynamischer Report - Clickstream Point to Point.
======!"§==Systems=
n
Dynamische Reports
stellen eine Selektion
aus vorberechneten
Summaries dar.
n
Beispiel Clickstream
Point to Point.
Frank Schönefeld DB-Stammtisch 06/04
Seite 31
Re
gio
n
2. Datenbehandlung in WebTraffic.
Operationen für MDDBs.
Produkte
drill down
roll up
Quartale
Monate
Slice
(Region = West)
Quartale
Re
gio
n
Dice
Produkte
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 32
2. Datenbehandlung in WebTraffic.
OLAP Support: Top Entry Points à Referring Domains.
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 33
2. Datenbehandlung in WebTraffic.
EntryPoints à Referring Domains: Slice&Dice.
EntryPoints
======!"§==Systems=
SessionStarts
Re
fer
rin
g
SessionStarts
Do
ma
in
Dice
Slice
(EntryPoint = faq)
Referring
Domains
Frank Schönefeld DB-Stammtisch 06/04
Seite 34
Wenn die Normalform nicht stimmt...
Gliederung:
1. WebTraffic-Analyse für Portale der Deutschen Telekom
•
•
•
•
Anwendung und Kundennutzen
Architektur der Lösung
Datenschutz
Kennzahlen der Lösung
2. Datenbehandlung in WebTraffic
•
•
•
•
•
Der ETL-Prozess (Extract-Transform-Load)
Statische und Dynamische Reports
Das Datenmodell
Datenreduktion und weitere Optimierungsansätze
OLAP-Support und MDDB-Ansätze
3. Fazit
•
Einordnung und Ausblick
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 35
3. Fazit.
Einordnung und Ausblick.
n
Einordnung
n
Erfahrungen
n
Ausbau des OLAP Ansatzes
n
Data Mining
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 36
3. Fazit.
Einordnung und Ausblick.
n
Einordnung
Intelligence
Intelligence
Innovation
Innovation
Operational
Business
Operational
Business
Entwicklung eines IT-Projektportfolios in Unternehmen in den
nächsten 5 Jahren
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 37
3. Fazit.
Erfahrungen.
n
Erfahrungen:
n Datenreduktion, Datenreduktion, Datenreduktion
n Zeitig, zeitig, zeitig
n
Abgestimmter Ausbau von Hardware-Kapazität und parallelen
Report (Summary)-Berechnungen
n
Interferenz von Ad-hoc Abfragen, Reports und Datensicherung
n
Projektmanagement
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 38
3. Fazit.
Erweiterung des OLAP-Ansatzes.
Produktart
Verfügbarkeit/Returncode
Ortskennzahl
T-DSL
Datum
======!"§==Systems=
Vertriebspartner
Frank Schönefeld DB-Stammtisch 06/04
Seite 39
Zukunftschancen.
Ausblick - Data Mining.
n
Welches Navigationsverhalten führt zu einem Kauf?
n
Gibt es Kundensegmente mit unterschiedlichen Interessen bzw.
Kaufverhalten?
n
Was unterscheidet einen Besucher von einem Käufer?
n
Welches sind die profitabelsten Kunden?
n
Welche Cross- und Up-Selling Potentiale existieren?
n
Consumer Lifetime Value Analysen
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 40
Danke für Ihre
Aufmerksamkeit.
Dreierlei Wege klug zu handeln: Durch Nachdenken, das ist
der Edelste. Durch Nachahmen, das ist der Leichteste. Durch
Erfahrung, das ist der Bitterste.
(Konfuzius)
======!"§==Systems=
======!"§==Systems=
Frank Schönefeld DB-Stammtisch 06/04
Seite 41
Herunterladen