Diplomarbeit Michael Becker SAP AG Betreuer: Sven Helmer Überblick Einführung 1 2 Themen der Diplomarbeit 3 Die Suchmaschine der SAP 4 5 6 SAP AG 2003, Title of Presentation, Speaker Name / 2 TCL-Algorithmus Testergebnisse Fazit & Ausblick Einführung Titel der Diplomarbeit: Analyse und Auswertung von User-Logs im Umfeld der SAPSuchmaschine Status: Nutzerverhalten geht nicht in Suchvorgang ein -> Durchführung eines impliziten Relevance Feedback Ziel: Implizite Relevance Feedback zur Verbesserung von Precision & Recall (Query-Expansion) Anpassung des Internetportals (Navigationsanalyse) Leistungsanalyse von der Suchmaschine Verbesserung des Dokumentenkorpus (Info an Administrator) SAP AG 2003, Title of Presentation, Speaker Name / 3 Themen der Diplomarbeit (1) Navigations-Analyse 1. Ziel: Internet-Portal benutzer-freundlich gestalten Allgemeine Sicht Benutzer-Spezifische Sicht 2. Vorgehensweise: 1. 2. 3. 4. Clusterbildung Aufzeichnung der Suchen Untersuchung der Links zwischen den Clustern Benutzersicht abbilden SAP AG 2003, Title of Presentation, Speaker Name / 4 Themen der Diplomarbeit (2) Statistische Auswertungen Bestehende Programme Open Source (Loganalyzer 6.00 Komerzielle (WebTrends Log Analyzer Series von netIQ ) (Python-) Skripte Meistbenutzten Queries Meistgelesenen Dokumente Suchen ohne Treffer SAP-BW Data Mining Verfahren SAP AG 2003, Title of Presentation, Speaker Name / 5 Themen der Diplomarbeit (3) Algorithmen Ziel: Verbesserung der Retrievalperformance Durchführung: Nutzung von Vergangenheitsdaten Annahme: Die betrachteten Dokumente zu einer Suchanfrage sind auch die relevanten Dokumente Methode: Benutze vorherige „gute“ Anfragen Benutze Query-Expansion SAP AG 2003, Title of Presentation, Speaker Name / 6 Themen der Diplomarbeit - Architektur TREX Webserver (Suchoberfläche) Python Extension Proxy Query Expansion Logs Preprocessing AdminOberfläche Analyse SAP BW Stores SAP AG 2003, Title of Presentation, Speaker Name / 7 Navigationsanalyse Statistiken Die SAP-Suchmaschine TREX (1) Search and Classification (TREX) Einsatz mit dem SAP Enterprise Portal … Besteht aus den Servern: 1. Nameserver 2. Präprozessor 3. Indexserver 4. Queueserver SAP AG 2003, Title of Presentation, Speaker Name / 8 Die SAP-Suchmaschine TREX (2) Der Indexserver besteht wiederum aus Search Engine Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche Text Mining Engine Suche nach ähnlichen Termen Suche nach ähnlichen Dokumenten Bestimmungf von Schlüsselwörtern (Feature Extraktion) Klassifikation von Dokumenten (Erstellen von Taxonomien) Clustern von Dokumenten Attribute Engine Attribut-Suche Guided Navigation SAP AG 2003, Title of Presentation, Speaker Name / 9 TCL-Algorithmus Term Concept Based Learning –An Approach for Learning Meanings of Queries in Information Retrieval Systems: Ziel: Verlängerung der Such-Begriffe Anpassen der Suchbegriffe an die Terminologie Lern-Phase: Suche zu jedem Query-Term „ähnliche“ Queries Hole alle relevanten Dokumente dieser Queries Bilde die „Konzept-Terme“ Expansion-Phase Erweitere neue Query um die Konzept-Terme SAP AG 2003, Title of Presentation, Speaker Name / 10 Testergebnisse - Testszenario SAP Help Portal (http://help.sap.com) 6 Indexe ~11 Mio Dokumente ~3,5 Mio Terme in 6 Sprachen ~70 GB Plattenplatz ~200 000 Suchen zu 85 % ein oder zwei Dokumente betrachtet 2/3 aller Suchen haben ein oder zwei Queryterme Benutze „90/10“-Methode Berechnung der mittleren Precision bei Recall =1 Parameter: Feste Anzahl DocFeatures Benutze nur DocFeatures über Schwellwert SAP AG 2003, Title of Presentation, Speaker Name / 11 Testergebnisse - Auswertung Precision: Index: CORE Standardsuche 57,4 % Anzahl DocFeatures 1 57,9 % 2 60,3 % 3 61,0 % 4 61,2 % 5 59,8 % Threshhold SAP AG 2003, Title of Presentation, Speaker Name / 12 0,1 57,3 % 0,2 60,8 % 0,3 61,4 % 0,4 60,9 % 0,5 58,2 % 0,9 58,6 % Fazit & Ausblick Verbesserung der Precision wird erreicht ! Optimierungsmöglichkeiten Auswahl der Suchen Linguistische Methoden kurze Queries verwerfen Bewertung der Suchen Verwendung von Dokumentpassagen „Manuelle“ Bewertung von Fällen Datenbasis „verbessert“ sich Täglich ~15 000 Suchen Rollierender Abgleich SAP AG 2003, Title of Presentation, Speaker Name / 13 Fragen Fragen??? SAP AG 2003, Title of Presentation, Speaker Name / 14