Relevanz Ranking Bisher: • Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: – Das Wort x hat im Dokument y ein Gewicht von xx • Es ist aber auch möglich, dass das Ranking ‚on the fly‘ während des Rechercheprozesses durchgeführt wird Ein Beispiel Frage ☻ Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen umweltwissenschaftlichen Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält • • • • 40.000 Datensätze mit dem Wort 'Tiere' 30.000 Datensätze mit dem Wort 'Pflanzen' 50 Datensätze mit dem Wort 'Korallenriffs' 10 Datensätze mit Wort 'Seeanemone' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Tiere und Pflanzen angezeigt werden? Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Tiere: ln(1.000.000 / 40.000) = Pflanzen: ln(1.000.000 / 30.000) = Korallenriff: ln(1.000.000 / 50) = Seeanemone: ln( 1.000.000 / 10) = ln 25 = 3,2 (abgerundet) ln 33,3 = 3,5 (abgerundet) ln 20.000 = 9,9 (abgerundet) ln 100.000 = 11,51 (abgerundet Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. Formeln für die Gewichtung der Datensätze • Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG • Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Tiere von Pflanzen): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone'): MAG = Gewicht von einem der beiden Suchtermini • Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 MAG = MMG / 2 (16,6 / 2 = 8,3) Lösung: Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen MAG = MMG / 2 (16,6 / 2 = 8,3) Tiere: = 3,2 Pflanzen:= 3,5 Korallenriff: = 9,9 Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit 'Korallenriffs + Pflanzen' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit 'Korallenriff + Tiere' (9,9 + 3,2) 4) dann alle Datensätze mit 'Korallenriff' (Gewichtung = 9,9). Nicht angezeigt: Tiere und Pflanzen (3,2 + 3,5 = 6,7); Tiere =3,2; Pflanzen=3,5 Relevanz Feedback Ziele: • Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme • Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten Relevanz Feedback ☻ Dumme Frage Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: Häufigstes Wort in nicht relevanten Dokumenten: 6 x Treibhaus 2 x Treibhaus 3 x Gewächshaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen? Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Relevanz von Treibhaus für gute Dokumente ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Relevanz von Treibhaus für schlechte Dokumente ist als 0,2 Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Relevanz von Gewächshaus für gute Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Relevanz von Gewächshaus für schlechte Dokumente ist also 2 Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt =0,6 / 2 0,3 Gewicht für Gewächshaus bei der Suchverfeinerung. Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.