Relevanz Ranking bei der Suche

Werbung
Relevanz Ranking
Bisher:
• Sind wir davon ausgegangen, dass das
Ergebnis des Rankings des
statistischen Verfahrens in den Index
geschrieben wird und dem Dokument
zugeordnet wird:
– Das Wort x hat im Dokument y ein Gewicht
von xx
• Es ist aber auch möglich, dass das
Ranking ‚on the fly‘ während des
Rechercheprozesses durchgeführt wird
Ein Beispiel
Frage ☻
Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in
Korallenriffs" in einer großen umweltwissenschaftlichen
Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält
•
•
•
•
40.000 Datensätze mit dem Wort 'Tiere'
30.000 Datensätze mit dem Wort 'Pflanzen'
50 Datensätze mit dem Wort 'Korallenriffs'
10 Datensätze mit Wort 'Seeanemone'
Was meinen Sie spontan?
Sollen beim best match alle Datensätze mit Tiere und Pflanzen
angezeigt werden?
Lösung:
Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini
nach der Formel:
G = ln(N/n)
Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl
Treffer Suchbegriff)
Tiere: ln(1.000.000 / 40.000) =
Pflanzen: ln(1.000.000 / 30.000) =
Korallenriff: ln(1.000.000 / 50) =
Seeanemone: ln( 1.000.000 / 10) =
ln 25 = 3,2 (abgerundet)
ln 33,3 = 3,5 (abgerundet)
ln 20.000 = 9,9 (abgerundet)
ln 100.000 = 11,51 (abgerundet
Lösung:
Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und
und minimal akzeptabler Gewichtung
MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten,
um überhaupt für die Recherche als relevant angezeigt zu werden.
MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm
enthalten sind.
Formeln für die Gewichtung der Datensätze
•
Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG
•
Für Suchfomulierungen mit genau 2 Suchtermini:
a) 2 häufig vorkommende Termini (z.B. Tiere von Pflanzen): MAG = Summe der Gewichte
beider Suchtermini)
b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff'):
MAG = Gewicht des seltenen Suchterminus)
c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone'): MAG = Gewicht
von einem der beiden Suchtermini
•
Für Suchformulierungen mit mehr als 2 Suchtermini
MAG = MMG / 2
Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich
um eine Suchformulierung mit mehr als 2 Suchtermini.
MMG = 3,2 + 3,5 + 9,9 = 16,6
MAG = MMG / 2
(16,6 / 2 = 8,3)
Lösung:
Schritt 3: Ermittlung, welche Kombination den Schwellenwert
erreichen
MAG = MMG / 2
(16,6 / 2 = 8,3)
Tiere: = 3,2
Pflanzen:= 3,5
Korallenriff: = 9,9
Ranking-Reihenfolge
1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6)
2) dann alle Datensätze mit 'Korallenriffs + Pflanzen' (9,9 + 3,5 = 13,4)
3) dann Datensätze mit 'Korallenriff + Tiere' (9,9 + 3,2)
4) dann alle Datensätze mit 'Korallenriff' (Gewichtung = 9,9).
Nicht angezeigt: Tiere und Pflanzen (3,2 + 3,5 = 6,7); Tiere =3,2; Pflanzen=3,5
Relevanz Feedback
Ziele:
• Automatische Erweiterung des Query
(der Suchanfrage) um geeignete
Suchterme
• Annahme: geeignete Suchterme
kommen in relevanten Treffern häufig
vor und in nicht relevanten Treffern
selten
Relevanz Feedback
☻
Dumme Frage
Suche: Ozonloch + Erderwärmung
20 Treffer, davon 8 relevant (also 12 nicht relevant)
Häufigstes Wort in relevanten
Dokumenten:
Häufigstes Wort in nicht
relevanten Dokumenten:
6 x Treibhaus
2 x Treibhaus
3 x Gewächshaus
8 x Gewächshaus
Würden Sie eine Erweiterung der Suchanfrage durch
Gewächshaus empfehlen?
Relevanz Feedback
Suche: Ozonloch + Erderwärmung
20 Treffer
8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus
6/2 = 3
= Relevanz von Treibhaus für gute Dokumente ist also 3
12 nicht relevante
Davon 2 mit Treibhaus, 10 ohne Treibhaus
2/10 = 0,2
= Relevanz von Treibhaus für schlechte Dokumente ist als 0,2
Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt
=3,0 / 0,2 15 Gewicht für Treibhaus
Relevanz Feedback
Suche: Ozonloch + Erderwärmung
20 Treffer
8 relevante
Davon 3 mit Gewächshaus, 5 ohne Gewächshaus
Rechnung 3/5
= Relevanz von Gewächshaus für gute Dokumente ist also 0,6
12 nicht relevante
Davon 8 mit Gewächshaus, 4 ohne Gewächshaus
Rechnung 8/4
= Relevanz von Gewächshaus für schlechte Dokumente ist also 2
Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt
=0,6 / 2  0,3 Gewicht für Gewächshaus bei der
Suchverfeinerung.
 Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl
eher nicht zu empfehlen.
Herunterladen