Wenn die Normalform nicht stimmt... Optimierungsaspekte und Multidimensionalität von Portalstatistik-Datenbanken Ein Bericht aus der Praxis - ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 1 Wenn die Normalform nicht stimmt... Gliederung: 1. WebTraffic-Analyse in Portalen • • • • Anwendung und Kundennutzen Architektur der Lösung Datenschutz Kennzahlen der Lösung 2. Datenbehandlung in WebTraffic • • • • • Der ETL-Prozess (Extract-Transform-Load) Statische und Dynamische Reports Das Datenmodell Datenreduktion und weitere Optimierungsansätze OLAP-Support und MDDB-Ansätze 3. Fazit • Einordnung und Ausblick ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 2 1. Wenn die Normalform stimmt... Credits. • Präsentation entstand in Zusammenarbeit mit meinen Kollegen Tilman Prang, Udo Meister, Steffen Scheller, Andre Müller (FH Schmalkalden) • sowie unter Verwendung einer T-Com Präsentation ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 3 1. WebTraffic Analyse in Portalen. Der Service-Kanal im Internet von T-Com. Unter www.t-com.de bietet die T-Com ein nutzerorientiertes Portfolio für Produkte der Deutschen Telekom, von Informationen, Services und Einkaufsmöglichkeiten mit Schwerpunkt Festnetz. Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 4 www.t-com.de ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 5 1. WebTraffic Analyse in Portalen. Fakten von September 2003. n Über 1,7 Millionen unique visitors (Nielsen Webratings) n etwa 25 Millionen page views n 1,5 TeraBytes an ausgelieferten Daten n ungefähr 200.000 transactions (in one month)(Sell, Using of services) n Fester Platz unter den 10 meist besuchten Shops in D (Nielsen Webratings) n Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 6 1. WebTraffic Analyse in Portalen. Wie findet ein Suchender die T-Com? Anfragen externer Suchmaschinen: Welche Suchbegriffe gaben die Nutzer ein, um zur T-Com zu gelangen? (KW 37 2003). n telekom 9.538 n auskunft 2.520 n tarife 2.437 n Telekom 2.383 n deutsche telekom 2.170 n Tarife 1.589 n rechnung 1.460 n telecom 1.433 n Auskunft 1.302 n dsl 1.282 n www.telekom.de n adressen n Deutsche Telekom n fastpath n telekom.de n telefonauskunft n Rechnung n t-dsl n rechnung online n Telefonauskunft 1.119 1.024 973 762 700 677 661 579 555 528 Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 7 1. WebTraffic Analyse in Portalen. Was lernt die T-Com aus der Analyse? Den Nutzer auf den Einstiegsseiten abholen durch prominentes Platzieren der häufig gesuchten Begriffe! Beispiel: n n n Tarife Auskunft Rechnung Online Suchmaschinen Marketing mit Informationen "füttern" zu welchen Begriffen die T-Com gefunden werden will n n n XXL ISDN Flatrate Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 8 1. WebTraffic Analyse in Portalen. Was sucht ein Suchender auf den Seiten der T-Com? Anfragen interne Suchmaschinen: Welche Suchkategorien nutzen die Anfrager? (KW 37 2003). Kategorien n Software / Treiber n DSL n Telefonauskunft n T-Net Box n An-, Ab-, Ummelden n Sinus Familie n Eumex allg. n Telefontarife allg. n Eumex 504PC USB n Anrufweiterschaltung 2.752 2.542 2.238 2.107 1.559 1.286 1.252 1.187 964 770 Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 9 1. WebTraffic Analyse in Portalen. Was lernt die T-Com aus der Analyse der internen Suchbegriffe? n n n Ausgewählte Themen werden zu TOP-Links Bereitstellen von Content zu den beratungsintensiven Themen (z.B. Eumex Telefonanlagen) Für komplexe Suchanfragen wird eine spezielle Suchfunktion angeboten (auf Basis Q-Go) Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 10 1. WebTraffic Analyse in Portalen. Q-Go - eine Suche der anderen Art. n Die Suche über nur einen Begriff (z.B. "DSL") kann für den Nutzer eine unbefriedigende Fülle an Informationen geben. Das Angebot: Q-Go fragt nach, was der Nutzer eigentlich wissen wollte. Ein Beispiel: Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 11 1. WebTraffic Analyse in Portalen. Was wollen die Kunden? T-Com weiß jetzt mehr! Von der Gestaltung der Startseite über die Nutzung der Suchmaschine, den Einsatz neuer Technologien bis hin zu konsequent einfachen Bestellmodulen werden die Analysen der Logfiles genutzt, die die WebTraffic Lösung zur Verfügung stellt. Quelle: DISK 2003, Peter Klingenburg, T-Com ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 12 1. WebTraffic Analyse in Portalen. Lösungsarchitektur. Sniffer Logs (HTTP/SSL) www.telekom.de* www.dtag.de* Intershop Enfinity Shop Vignette CM S www1.t-versand.de* search.mesch.telekom.de Intershop MultiSite Shop/CMS Oracle View www.t-punkt.de* www.t-com.de* FAQ ISCI-Logfiles Application Logs SSI Logs (Component of authentification from EKI2 Vignette Bridge Enfinity Bridge Logs of purchase order status T-DSL Logs (availability check) SAS Base MultiSite Bridge SAS Webhound CSS (Smile) applicationlog Logs of customer data (modification data of connection) ======!"§==Systems= SAS Information Delivery Portal SearchstringCategory System Enterprise Guide ad hoc queries Frank Schönefeld DB-Stammtisch 06/04 Seite 13 1. WebTraffic Analyse in Portalen. Datenschutz. ======!"§==Systems= n Erfassung und Bearbeitung personenbezogener Daten entsprechend der Gesetze. n Versendung und Weitergabe n Entscheidung des Kunden n Sicherheit n Informationsfreiheit Frank Schönefeld DB-Stammtisch 06/04 Seite 14 1. WebTraffic Analyse in Portalen. Kennzahlen der Lösung. § Performance: • Datenvolumen > 4GByte pro Tag (bis zu 6 GByte) • Automatische Über-Nacht Verarbeitung • Tägliche Report Veröffentlichung § Reports: • ca. 250 Reports täglich in den Kategorien: • …siehe folgende Seiten • Visualisierung aller Standard und OLAP Reports • Erzeugung verschiedener Dateiformate (html, xls , pdf...) ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 15 1. WebTraffic Analyse in Portalen. Kennzahlen der Lösung. § Reports: • ca. 250 Reports täglich in den Kategorien: • Standard Reports • Hits, Pages, Bytes, Entry Points • Page Views (Top25) • Entry Points(erster Seitenaufruf einer Session), Exit Points (Top10) • Referrer Domains (woher kamst du?) • Clickstream • Statuscodes (html-Übertragungsqualität 404) • Browsers, Platforms, Services (Antwortzeiten Server) • Visitors (unique visitors) ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 16 1. WebTraffic Analyse in Portalen. Kennzahlen der Lösung. § Reports: • ca. 250 Reports täglich in den Kategorien: • Suchmaschinenreports • Interne SM-Reports • Externe SM-Reports • Shop-Reports • Funnelreport • Pageviews until Basket (beim wievielten Klick wird ein Warenkorb erstellt) • Produkts in Basket (Anzahl, Art, Top100, 2 Products combined, erstellt/abgesendet, durchschnittl. Warenwert) ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 17 1. WebTraffic Analyse in Portalen. Kennzahlen der Lösung. § Reports: • ca. 250 Reports täglich in den Kategorien: • Dynamic Reports • Point-to-Point (Startpunkt – Endpunkt; Pfadlänge 10) • Clickstream before Exit (über welchen Weg verlassen Kunden das Portal) • Statistics per VPNR (Kampagnenanalyse) • Individual Reports (200) • URL-Gruppen (Maskierung), Analysevariablen (hits, pageviews, visits), Zeitraum ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 18 Wenn die Normalform nicht stimmt... Gliederung: 1. WebTraffic-Analyse für Portale der Deutschen Telekom • • • • Anwendung und Kundennutzen Architektur der Lösung Datenschutz Kennzahlen der Lösung 2. Datenbehandlung in WebTraffic • • • • • Der ETL-Prozess (Extract-Transform-Load) Statische und Dynamische Reports Das Datenmodell Datenreduktion und weitere Optimierungsansätze OLAP-Support und MDDB-Ansätze 3. Fazit • Einordnung und Ausblick ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 19 2. Datenbehandlung in WebTraffic Der ETL-Prozess (Extract-Transform-Load). • Datenreduktion(Gruppierung) • Summieren Hits • Aggregation (nach Datum, nach Pfad; Zählen, Summieren (Zugriffe und Bytes)) Sniffer-Logs ApplicationLogs Extract/ Transform Shop-Data Content Data • Formattransformationen (unixtimestamp à data) ======!"§==Systems= Internal Data Representation Load Summaries • Statische Reports • Dynamische Reports • Gruppierung nach Teilbereichen/Konzernbereichen; nach Tag, Woche, Monat; nach Seite; • Ermittlung Netzwerk-Latenz Frank Schönefeld DB-Stammtisch 06/04 Seite 20 2. Datenbehandlung in WebTraffic. Das Datenmodell. n SAS interner DB-Engine n Ca. 45 „Tabellen“ mit je 20 Attributen n Tabellen auf Reports optimiert (nicht auf Redundanzfreiheit, Abhängigkeitserhaltung oder Verlustfreiheit) n API mit ca. 60 Zugriffs- (Berechnungsprozeduren) n Tabellen-Indizierung möglich (rare Nutzung bisher) ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 21 2. Datenbehandlung in WebTraffic. Das Datenmodell - API. n Report-Writing: • CALENDAR, MEANS* , SQL* , CHART* , PLOT, SUMMARY* • FORMS, PRINT, TABULATE * , FREQ* , REPORT* , TIMEPLOT n Statistics: • CHART, RANK, SUMMARY, CORR, REPORT, TABULATE • FREQ, SQL, UNIVARIATE, MEANS, STANDARD n Utilities (30) • APPEND, SORT, COPY, IMPORT, EXPORT,... * Report and Statistics ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 22 2. Datenbehandlung in WebTraffic. Das Datenmodell – Unterstützung von SQL. Input ======!"§==Systems= Output Frank Schönefeld DB-Stammtisch 06/04 Seite 23 2. Datenbehandlung in WebTraffic. Beispiel für Datenreduktion – Clickstreamanalyse (1) n n n n n Ein Clickstream ist eine Folge von 1..n (Mouse-)Clicks eines Nutzers, wobei jeder Click durch Quelle(-seite) und Ziel(-seite) charakterisiert wird. Pro Session eines Nutzers kann ein Clickstream verfolgt werden (bei ca. 130.000 sessions/day sind das 130.000 Clickstreams). Ein Clickstream setzt sich aus (Teil-)Pfaden zusammen (Quellseite à Zielseite). Zur Clickstreamanalyse werden diese Teilpfade betrachtet. (Ein Clickstream der Länge n hat bekanntermaßen (n*(n-1))/2) gegangene Teilpfade (bei unidirektionaler Betrachtung). Ein Portal der Größe K hat potentiell KK Pfade der Länge K. (K – Anzahl der Knoten im „Portalgraphen“). Clickstreamanalyse heisst jetzt, aus den 130.000 Clickstreams die identisch gegangenen Teilpfade herauszufinden und zu aggregieren. ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 24 2. Datenbehandlung in WebTraffic. Beispiel für Datenreduktion – Clickstreamanalyse (2) n Datenreduktion: • Es werden nur Pfadlängen bis 10 (also 45 Teilpfade je Clickstream) betrachtet. • Längere Pfade werden in Teilpfade bis zur Länge 10 unterteilt. • Eine Aufsummierung findet nur statt, wenn mindestens 3 Nutzer einen Teilpfad gegangen sind. • Reduktion (empirisch) auf ca. 1/3 der Ausgangsdatenmenge, also ca. 45.000 Clickstreams). • Verteilungsanalysen haben gezeigt, dass ca. 40% der Pfade unique sind. ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 25 2. Datenbehandlung in WebTraffic. Clickstreamanalyse – Datenmodell (1). n n Die Darstellung der Pfade erfolgt in folgender Datenstruktur: Summary_sequence_by_day (seq_lgth, clickno1....clickno10, vpnr, referrer_domain, ..., count). seq_ clickno1 lgth 1 1 1 ... 2 2 .... clickno2 / /rechnung /rechnung / / /rechnung /tarife ======!"§==Systems= . clickno10 referrer_domain . . google telekom.de Google count ... ... 17.124 34.456 130.000 40.004 20.472 Frank Schönefeld DB-Stammtisch 06/04 Seite 26 2. Datenbehandlung in WebTraffic. Zeitliche Aggregation. 2. Woche Juni Weblogdetail Montag Montag Dienstag Sequence_by _day Sequence_by _day Sequence_by _week Sequence_by _week Sequence_by _month Sequence_by _month Weblogdetail Dienstag Summaries ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 27 2. Datenbehandlung in WebTraffic. Clickstream-Analyse. ======!"§==Systems= n „Wirkungsgrad“ eines Portals n Verhältnis genutzter Pfade zu angebotenen Pfaden n Hauptpfade vs Nebenpfade Frank Schönefeld DB-Stammtisch 06/04 Seite 28 2. Datenbehandlung in WebTraffic. Statische Reports. ======!"§==Systems= n Statische Reports werden einmal täglich berechnet. n Aggregierung erfolgt je nach Kategorie wöchentlich und monatlich. Frank Schönefeld DB-Stammtisch 06/04 Seite 29 2. Datenbehandlung in WebTraffic. Dynamische Reports. n Dynamische Reports werden on-demand aus den (festen) Summaries berechnet . n Beispiele für dynamische Reports • Point-to-Point (Startpunkt – Endpunkt; Pfadlänge 10) • Clickstream before Exit (über welchen Weg verlassen Kunden das Portal) • Statistics per VPNR (Kampagnenanalyse) ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 30 2. Datenbehandlung in WebTraffic Dynamischer Report - Clickstream Point to Point. ======!"§==Systems= n Dynamische Reports stellen eine Selektion aus vorberechneten Summaries dar. n Beispiel Clickstream Point to Point. Frank Schönefeld DB-Stammtisch 06/04 Seite 31 Re gio n 2. Datenbehandlung in WebTraffic. Operationen für MDDBs. Produkte drill down roll up Quartale Monate Slice (Region = West) Quartale Re gio n Dice Produkte ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 32 2. Datenbehandlung in WebTraffic. OLAP Support: Top Entry Points à Referring Domains. ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 33 2. Datenbehandlung in WebTraffic. EntryPoints à Referring Domains: Slice&Dice. EntryPoints ======!"§==Systems= SessionStarts Re fer rin g SessionStarts Do ma in Dice Slice (EntryPoint = faq) Referring Domains Frank Schönefeld DB-Stammtisch 06/04 Seite 34 Wenn die Normalform nicht stimmt... Gliederung: 1. WebTraffic-Analyse für Portale der Deutschen Telekom • • • • Anwendung und Kundennutzen Architektur der Lösung Datenschutz Kennzahlen der Lösung 2. Datenbehandlung in WebTraffic • • • • • Der ETL-Prozess (Extract-Transform-Load) Statische und Dynamische Reports Das Datenmodell Datenreduktion und weitere Optimierungsansätze OLAP-Support und MDDB-Ansätze 3. Fazit • Einordnung und Ausblick ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 35 3. Fazit. Einordnung und Ausblick. n Einordnung n Erfahrungen n Ausbau des OLAP Ansatzes n Data Mining ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 36 3. Fazit. Einordnung und Ausblick. n Einordnung Intelligence Intelligence Innovation Innovation Operational Business Operational Business Entwicklung eines IT-Projektportfolios in Unternehmen in den nächsten 5 Jahren ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 37 3. Fazit. Erfahrungen. n Erfahrungen: n Datenreduktion, Datenreduktion, Datenreduktion n Zeitig, zeitig, zeitig n Abgestimmter Ausbau von Hardware-Kapazität und parallelen Report (Summary)-Berechnungen n Interferenz von Ad-hoc Abfragen, Reports und Datensicherung n Projektmanagement ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 38 3. Fazit. Erweiterung des OLAP-Ansatzes. Produktart Verfügbarkeit/Returncode Ortskennzahl T-DSL Datum ======!"§==Systems= Vertriebspartner Frank Schönefeld DB-Stammtisch 06/04 Seite 39 Zukunftschancen. Ausblick - Data Mining. n Welches Navigationsverhalten führt zu einem Kauf? n Gibt es Kundensegmente mit unterschiedlichen Interessen bzw. Kaufverhalten? n Was unterscheidet einen Besucher von einem Käufer? n Welches sind die profitabelsten Kunden? n Welche Cross- und Up-Selling Potentiale existieren? n Consumer Lifetime Value Analysen ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 40 Danke für Ihre Aufmerksamkeit. Dreierlei Wege klug zu handeln: Durch Nachdenken, das ist der Edelste. Durch Nachahmen, das ist der Leichteste. Durch Erfahrung, das ist der Bitterste. (Konfuzius) ======!"§==Systems= ======!"§==Systems= Frank Schönefeld DB-Stammtisch 06/04 Seite 41