Michael Becker

Werbung
Diplomarbeit
Michael Becker
SAP AG
Betreuer: Sven Helmer
Überblick
Einführung
1
2
Themen der Diplomarbeit
3 Die Suchmaschine der SAP
4
5
6
 SAP AG 2003, Title of Presentation, Speaker Name / 2
TCL-Algorithmus
Testergebnisse
Fazit & Ausblick
Einführung
Titel der Diplomarbeit:
Analyse und Auswertung von User-Logs im Umfeld der SAPSuchmaschine
Status:
Nutzerverhalten geht nicht in Suchvorgang ein
-> Durchführung eines impliziten Relevance Feedback
Ziel:
Implizite Relevance Feedback zur




Verbesserung von Precision & Recall (Query-Expansion)
Anpassung des Internetportals (Navigationsanalyse)
Leistungsanalyse von der Suchmaschine
Verbesserung des Dokumentenkorpus (Info an Administrator)
 SAP AG 2003, Title of Presentation, Speaker Name / 3
Themen der Diplomarbeit (1)
Navigations-Analyse
1. Ziel: Internet-Portal benutzer-freundlich gestalten
 Allgemeine Sicht
 Benutzer-Spezifische Sicht
2. Vorgehensweise:
1.
2.
3.
4.
Clusterbildung
Aufzeichnung der Suchen
Untersuchung der Links zwischen den Clustern
Benutzersicht abbilden
 SAP AG 2003, Title of Presentation, Speaker Name / 4
Themen der Diplomarbeit (2)
Statistische Auswertungen

Bestehende Programme
 Open Source (Loganalyzer 6.00
 Komerzielle (WebTrends Log Analyzer Series von netIQ )

(Python-) Skripte
 Meistbenutzten Queries
 Meistgelesenen Dokumente
 Suchen ohne Treffer

SAP-BW
 Data Mining Verfahren
 SAP AG 2003, Title of Presentation, Speaker Name / 5
Themen der Diplomarbeit (3)
Algorithmen
Ziel: Verbesserung der Retrievalperformance
Durchführung:
 Nutzung von Vergangenheitsdaten
 Annahme: Die betrachteten Dokumente zu einer Suchanfrage
sind auch die relevanten Dokumente
 Methode: Benutze vorherige „gute“ Anfragen
 Benutze Query-Expansion
 SAP AG 2003, Title of Presentation, Speaker Name / 6
Themen der Diplomarbeit - Architektur
TREX
Webserver
(Suchoberfläche)
Python
Extension
Proxy
Query Expansion
Logs
Preprocessing
AdminOberfläche
Analyse
SAP BW
Stores
 SAP AG 2003, Title of Presentation, Speaker Name / 7
Navigationsanalyse
Statistiken
Die SAP-Suchmaschine TREX (1)
Search and Classification (TREX)
 Einsatz mit dem SAP Enterprise Portal …
 Besteht aus den Servern:
1. Nameserver
2. Präprozessor
3. Indexserver
4. Queueserver
 SAP AG 2003, Title of Presentation, Speaker Name / 8
Die SAP-Suchmaschine TREX (2)
Der Indexserver besteht wiederum aus
Search Engine
 Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche
Text Mining Engine
 Suche nach ähnlichen Termen
 Suche nach ähnlichen Dokumenten
 Bestimmungf von Schlüsselwörtern (Feature Extraktion)
 Klassifikation von Dokumenten (Erstellen von Taxonomien)
 Clustern von Dokumenten
Attribute Engine
 Attribut-Suche
 Guided Navigation
 SAP AG 2003, Title of Presentation, Speaker Name / 9
TCL-Algorithmus
Term Concept Based Learning –An Approach for Learning
Meanings of Queries in Information Retrieval Systems:
Ziel:
 Verlängerung der Such-Begriffe
 Anpassen der Suchbegriffe an die Terminologie
Lern-Phase:
 Suche zu jedem Query-Term „ähnliche“ Queries
 Hole alle relevanten Dokumente dieser Queries
 Bilde die „Konzept-Terme“
Expansion-Phase
 Erweitere neue Query um die Konzept-Terme
 SAP AG 2003, Title of Presentation, Speaker Name / 10
Testergebnisse - Testszenario
SAP Help Portal (http://help.sap.com)
 6 Indexe

~11 Mio Dokumente
 ~3,5 Mio Terme in 6 Sprachen
 ~70 GB Plattenplatz
 ~200 000 Suchen

zu 85 % ein oder zwei Dokumente betrachtet
 2/3 aller Suchen haben ein oder zwei Queryterme
Benutze „90/10“-Methode
Berechnung der mittleren Precision bei Recall =1
Parameter:
 Feste Anzahl DocFeatures
 Benutze nur DocFeatures über Schwellwert
 SAP AG 2003, Title of Presentation, Speaker Name / 11
Testergebnisse - Auswertung
Precision:
Index: CORE
Standardsuche
57,4 %
Anzahl DocFeatures
1
57,9 %
2
60,3 %
3
61,0 %
4
61,2 %
5
59,8 %
Threshhold
 SAP AG 2003, Title of Presentation, Speaker Name / 12
0,1
57,3 %
0,2
60,8 %
0,3
61,4 %
0,4
60,9 %
0,5
58,2 %
0,9
58,6 %
Fazit & Ausblick
Verbesserung der Precision wird erreicht !
Optimierungsmöglichkeiten
 Auswahl der Suchen

Linguistische Methoden

kurze Queries verwerfen
 Bewertung der Suchen
 Verwendung von Dokumentpassagen
 „Manuelle“ Bewertung von Fällen
Datenbasis „verbessert“ sich
 Täglich ~15 000 Suchen
 Rollierender Abgleich
 SAP AG 2003, Title of Presentation, Speaker Name / 13
Fragen
Fragen???
 SAP AG 2003, Title of Presentation, Speaker Name / 14
Herunterladen