4. Spezielle Techniken im Information Retrieval Relevance Feedback Relevance Feedback Relevance Feedback ist eine Technik zur Unterstützung der Reformulierung von Anfragen. Ist man mit mit einer Antwortmenge nicht zufrieden, kann man versuchen, die ursprüngliche Anfrage in die “gewünschte Richtung” zu ändern. Die Reformulierung von Anfragen beinhaltet dabei zwei Aspekte: 1. Hinzunahme weiterer Terme 2. Änderung der Termgewichte Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 4. Spezielle Techniken im Information Retrieval 197 Relevance Feedback Zur Umsetzung dieser Aspekte existieren verschiedene Ansätze, die auf folgenden Techniken basieren: Relevanzbeurteilungen des Nutzers Dies ist die Technik des Relevance Feedback. Analyse der Dokumente der Resultatsmenge (Local Analysis) Analyse der Dokumentkollektion (Global Analysis) Local und Global Analysis basieren stark auf Verfahren der Clusterana lyse ( Text Mining). Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 198 4. Spezielle Techniken im Information Retrieval Relevance Feedback Grundidee zum Relevance Feedback: Iteratives Verfahren In einem Zyklus werden dem Nutzer Dokumente vorgeschlagen. Der Nutzer gibt zu jedem Dokument an, ob es relevant ist oder nicht. Bei einer geordneten Antwortmenge betrachtet man typischerweise nur die ersten 10 bis 20 Dokumente. Idee: Aus den relevanten Dokumenten Terme erkennen, die spezifisch für die relevanten Dokumente sind (bzw. umgekehrt). Daraus wird eine neue Anfrage kontruiert, die sich weg von den nicht relevanten und hin zu den relevanten Dokumenten bewegt. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 199 4. Spezielle Techniken im Information Retrieval Relevance Feedback Hierbei nutzt man aus, daß sowohl die Dokument- als auch die Anfragen als Vektoren repräsentiert werden können. Verfahren: Aus den Relevanzbeurteilungen des Nutzers ergibt sich die Menge der relevanten Dokumente und die Menge der nicht relevanten Dokumente. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 200 4. Spezielle Techniken im Information Retrieval Relevance Feedback Zur Definition einer reformulierten Anfrage im Vektorraummodell werden die folgenden klassischen Formeln benutzt: Standard Rochio: !#" % , $ $ & )+* . &(' /213 /0' Ide Regular: !#" &4' &5)+* / /6' Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 4. Spezielle Techniken im Information Retrieval 201 Ide DecHi: Relevance Feedback !7" &4' &5)+*98;:=< >@? A Bemerkungen: Wenn man annimmt, daß sich verschiedene Themen an verschiednenen Orten im Vektorraum der Dokumente befinden, so wird durch die Reformulierung der neue Anfragevektor hin zu den relevanten und weg von den nicht relevanten Dokumenten bewegt. B sind hierbei Tuning Parameter, mit denen definiert werden kann, wie stark die ursprüngliche Anfrage, die relevanten Dokumente bzw. die nicht relevanten Dokumente in die reformulierte Anfrage eingehen. " * Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 202 4. Spezielle Techniken im Information Retrieval Relevance Feedback Gewöhnlich sind die relevanten Dokumente für die Reformulierung wichtiger als die nicht relevanten, daher gilt typischerweise "7C * . Während die relevanten Dokumente im Vektorraum typischerweise nahe zusammen liegen, können die nicht relevanten beliebig über den Raum verstreut sein. D Daher kann auch * sinnvoll sein (positive feedback strategy ). D Setzt man , so werden mit Dokumente gesucht, die denen aus der Menge ähnlich sind (Ähnlichkeitssuche, Query by example). * Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 203 4. Spezielle Techniken im Information Retrieval Relevance Feedback Bemerkungen zur Implementierung: Für Relevance Feedback benötigt man die Terme (sowie deren Gewichte) zu einem Dokument. Die invertierte Liste unterstützt nur die umgekehrte Richtung, nämlich zu Termen Dokumente bestimmen zu können, die diese Terme enthalten. Relevance Feedback ist enthalten in Term [1,*] [1,*] Dokument Invertierte Liste Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 204 4. Spezielle Techniken im Information Retrieval Relevance Feedback Für kleine Dokumentkollektionen können zu jedem Dokument die zugehörigen Terme gespeichert werden. Bei großen Dokumentkollektionen bietet es sich an, bei der Relevanzbeurteilung das Dokument wie bei der Indexierung auf Terme zu analysieren. Weiteres Problem: Die Anzahl der Terme nach der Reformulierung kann drastisch ansteigen. Lösungsansatz: Auswertung analog zum Vektorraummodell bei großen Dokumentkollektionen. Beschränkung auf die wichtigsten Terme. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 4. Spezielle Techniken im Information Retrieval 205 Probabilistisches Retrieval Probabilistisches Retrieval Im Gegensatzt zum Faktenretrieval sucht man im IR nach den relativ besten Lösungen bzw. Antworten. Daher liegt ein probabilistisches Modell nahe. ☞ Wie groß ist die Wahrscheinlichkeit, daß ein gegebenes Dokument als relevant zu einer Anfrage eingeschätzt wird? Wäre diese Wahrscheinlichkeit für alle Dokumente bekannt, würde sich aus diesen Wahrscheinlichkeiten eine Rangfolge der Dokumente ergeben. Da unbekannt, werden diese Wahrscheinlichkeiten geschätzt. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 206 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Wahrscheinlichkeiten Definition 4.6. Es sei E eine abzählbare Menge und FHGIEKJ sei die Potenzmenge von E . Eine Funktion L DQ FMGNEOJ ) $SR P heißt Wahrscheinlichkeitsfunktion gdw. die folgenden Bedingungen erfüllt sind: L 1. $ GNEOJ 2. Für alle paarweisen disjunkten Teilmengen L L YX X GWT J U L gilt: TVU T T GWT JY[ZZZ GWT U J Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 207 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Weitere Begriffe: heißt Grundraum, jede Teilmenge L E T heißt Ereignis. \[E GNE J heißt (diskreter) Wahrscheinlichkeitsraum. Die einelementigen Teilmengen von sind die Elementarereignisse. E Die Menge T^] ist das zu E`_BT komplementäre Ereignis. T ba EreignisDefinition 4.7.L [Bedingte Wahrscheinlichkeit] Seien T E . Dann ist a die bedingte Wahrse eines Wahrscheinlichkeitsraumes a scheinlichkeit GWTdc J von T unter der Bedingung definiert durch: L L a GWTdc a L GWT ae J G Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 J J 208 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Zwei Ereignisse heißenL unabhängig,L falls gilt: L a GWT e a J GWT+JfZ G J a Lemma 4.2. Für unabhängige Ereignisse L L a T \[E gilt: GWTdc J GWT+J Generell gilt die (vereinfachte) Bayes-Regel: L L L a a GgThc L G ciT+Jf a Z J G GgTjJ J Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 209 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Retrieval-Status-Wert Wir wollen die Wahrscheinlichkeit schätzen, daß ein Dokument relevant für eine (feste) Anfrage angesehen wird. Grundraum: E k l^m L gesuchte Wahrscheinlichkeit: G k c J Dokumente werden als Termmengen modelliert. Sei n die Menge der Terme. Dann gilt für ein Dokumente L Statt der Wahrscheinlichkeit als GWT+J wird die Chance Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 o popq \dn . rsGgTjJ eines Er210 4. Spezielle Techniken im Information Retrieval eignisses Probabilistisches Retrieval betrachtet: T L L L L GWT+J GWT+J rtGWT+J $ GWT ) J ] GWT+J Damit nehmen wir als Bewertungsmaß: L k rsG c L k G J c G J k c ] J Mit Anwendnung des Bayes-Regel erhalten wir: L L k rtG c k L [ k G J c G L JZ c G JZ ] J G J ] Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 L 211 L 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Die Größe G Ju G ]vJ ist unabhängig von einem Dokument und kann daher aus dem Bewertungsmaß entfernt werden. Es wird nun die Annahme gemacht, daß das Auftreten von Termen Dokumenten in unabhängig ist. Wir haben damit w Zufallsvariablen k bkVq o & & (für jeden Term eine) und gebe an, ob in enthalten ist oder nicht. q L L k G c L ] J k kVqy &Qx G q x c k z J G & & c J &(' Wir erhalten: L q rtG c k J rtG k L z Gk J &4' Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 & G & & & c c ] J J 212 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Weitere Annahme: Für alle Terme, die nicht in der Anfrage auftreten, L gilt: k L & Gk & & G & c J c $ J ] D.h., die Wahrscheinlichkeit, daß die Terme in einem relevanten Dokument auftreten ist gleich der Wahrscheinlichkeit, daß sie in einem nicht relevanten Dokument auftreten. L L {% & k G $ & c rtG und J k c | k & G J rtG $ & ] c . Damit: J % & z J Z & | } &N~ ? > $ z % & ) $ ) } &N~ ?b> & | Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 213 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Umformung ergibt: rtG c k J rtG $ % & z J } &~ ? > | ) G & & $ | Z % & ) G $ z J J $ } &~ ?6 % & ) ) | & Nur der mittlere Faktor ist noch vom Dokument abhängig aund somit für eine Rangfolge relevant. Auf den mittleren Faktor wendet man den Logarithmus an und erhält damit den Retrieval-Status-Wert: $ % & } &~ ? > | & Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 $ ) & ) | % & 214 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Relevance Feedback mit dem probabilistischen Modell Um den Retrieval-Status-Wert für die Bildung einer Rangfolge zu nutzen, müssen Werte für % & und | & geschätzt werden. o {% & & ist die Wahrscheinlichkeit, daß der Term ge relevanten Dokument auftritt, in einem für eine Anfra- & ist die Wahrscheinlichkeit, daß der Term in einem nicht relevanten Dokument auftritt. | Um die Werte zu schätzen, kann eine Dokumentmenge verwendet werden, für die Relevanzurteile vorliegen, typischerweise durch Relevance Feedback ermittelt. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 215 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Als Schätzung für % & bzw. | & nimmt man die relative Häufigkeit des Auftretens der Terme in den relevanten bzw. nicht relevanten Dokumenten. {%@ & o Anzahl der relevanten Dokumente, die Term & enthalten. %@ %@ & Anzahl der relevanten Dokumente. Anzahl der nicht | o % @ Anzahl der relevanten Dokumente, die Term & enthalten. | nicht relevanten Dokumente. % & %@ & % | & %@ & | | %@ o Ein Term & wirkt sich positiv auf den Retrieval-Status-Wert aus, wenn seine relative Häufigkeit in relevanten Dokumenten größer ist als in nicht relevanten Dokumenten. Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 216 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Ein (neues) Dokument, das viele Terme enthält, die spezifisch für relevante Dokumente sind, enthält einen hohen Statuswert. o op o o o R 1 1 1 1 0 0 0 0[ 1 1 0 0 0 0 1 0 2 1 3 Beispiel 4.7. o %@ & %@ & | ¡ b U b b ¢ U b ¡ U p 0 1 0 0 0 0 1 0 1 1 1 1 0 1 1 0 1 1 0 3 2 3 1 1 0 1 1 0 0 0 3 1 9 0 1 0 1 1 0 0 1 3 2 3 0 0 1 1 0 0 1 0 2 1 3 %@ | y % Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 217 4. Spezielle Techniken im Information Retrieval Probabilistisches Retrieval Diese Dokumente dienen als Trainingsmenge, um die Werte für % & und & zu schätzen. Neue Dokumente können daraufhin in eine Rangfolge | gebracht werden: o op o o o o Retrieval-Status-Wert [DQ©¨«ª £ ­¬ 1 0 1 0 1 1 0 0 0 0 1 1 0 1 1 0 0 0 1 1 1 0 1 0 $ G¥¤¦JY $ G J® G JY J ¯¨«ª G¥¤¦DQ ¨ § J¨ G § § Z G¥¤¦JY G § § G¥¤¦J® G¥¤¦J § § Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03 J °¯±² DQ¯¨«ª 218