6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q αQ Q βQ QD ρ rel. R IR judg. D αD D βD q ∈ Q Anfrage qk ∈ Q: DD d ∈ D Dokument dm ∈ D: Anfragerepräsentation qkD ∈ QD : Dokumentrepräsentation D dm Anfragebeschreibung R: Relevanzskala %: Retrievalfunktion ∈ DD : Dokumentbeschreibung Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t1 , . . . , tn } Menge der Terme in einer Kollektion qk ∈ Q: Anfragerepräsentation qkT : Menge von Fragetermen dm ∈ D: T : Menge von dm Dokumentrepräsentation Dokumenttermen einfache Retrievalfunktion: Coordination level match T %COORD (qk , dm ) = |qkT ∩ dm | Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu X %BIR (qk , dm ) = cik T ti ∈qkT ∩dm Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: 1. Anwendung des Bayes’schen Theorems: P(a|b) = P(a, b) P(b|a) · P(a) = , P(b) P(b) 2. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei O(y ) = P(y ) P(y ) = . P(ȳ ) 1 − P(y ) Herleitung des BIR-Modells T) Abschätzung von O(R|qk , dm T = Chance, dass ein Dokument mit einer Menge von Termen dm relevant zur Anfrage qk ist Repräsentation des Dokumentes dm als binären Vektor T 1, falls ti ∈ dm ~x = (x1 , . . . , xn ) mit xi = 0, sonst Anwenden des Bayes’schen Theorems: O(R|qk , ~x ) = P(R|qk , ~x ) P(R̄|qk , ~x ) = P(R|qk ) P(~x |R, qk ) P(~x |qk ) · · P(R̄|qk ) P(~x |R̄, qk ) P(~x |qk ) P(R|qk ): W., dass ein arbiträres Dokument relevant ist zu qk P(~xm |R, qk ): W., dass ein arbiträres, relevantes Dokument den Termvektor ~x besitzt P(~xm |R̄, qk ): W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor ~x besitzt Annahme der “Linked dependence”: P(~x |R, qk ) P(~x |R̄, qk ) = n Y P(xi |R, qk ) i=1 P(xi |R̄, qk ) O(R|qk , ~x ) = O(R|qk ) n Y P(xi |R, qk ) i=1 P(xi |R̄, qk ) Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: Y P(xi =1|R, qk ) Y P(xi =0|R, qk ) O(R|qk , ~x ) = O(R|qk ) · . P(x =1| R̄, q ) P(x =0| R̄, q ) i i k k x =1 x =0 i i pik = P(xi =1|R, qk ): Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt. qik = P(xi =1|R̄, qk ): Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten Dokument vorkommt Annahme, dass pik = qik für alle ti ∈ / qkT T O(R|qk , dm ) = O(R|qk ) Y T ∩q T ti dm k = O(R|qk ) Y T ∩q T ti dm k · Y T ∩q T ti dm k = O(R|qk ) pik · qik pik · qik 1 − pik · 1 − qik Y T ∩q T ti dm k Y T ti qkT \dm Y T ∩q T ti dm k Y T ti qkT \dm 1 − pik 1 − qik 1 − qik 1 − pik 1 − pik 1 − qik pik (1 − qik ) Y 1 − pik · qik (1 − pik ) 1 − qik T ti qk Nur das erste Produkt ist bezüglich einer gegebenen Anfrage qk für unterschiedliche Dokumente nicht konstant −→ Betrachte daher nur dieses Produkt für das Ranking Übergang zum Logarithmus (ordnungserhaltend): cik = log pik (1 − qik ) qik (1 − pik ) Retrievalfunktion: %BIR (qk , dm ) = X T ∩q T ti dm k cik Anwendung des BIR-Modells Parameterabschätzung für qik qik = P(xi =1|R̄, qk ): (Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten Dokument vorkommt) Annahme: Anzahl der nicht-relevanten Dokumente ≈ Größe der Kollektion N – Kollektionsgröße ni – # Dokumente mit dem Term ti qik = nNi Parameterabschätzung für pik pik = P(xi =1|R, qk ): (Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle pik s −→ Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) cik %IDF (qk , dm ) = P p 1 − qik + log 1−p qik N − ni = cp + log ni = log T (cp ti ∈qkT ∩dm i + log N−n ni ) oft benutzt: p = 0.5 −→ cp = 0 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa 10 . . . 20) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant r : # als relevant beurteilte Dokumente zur Anfrage qk ri : # relevante Dokumente mit dem Term ti pik = P(ti |R, qk ) ≈ ri r verbesserte Abschätzungen (mehr in späterem Abschnitt): pik ≈ ri + 0.5 r +1 Beispiel für BIR dm d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 r (dm ) R R R R N R R R R N N x1 1 1 1 1 1 1 1 1 1 1 1 x2 1 1 1 1 1 0 0 0 0 0 0 P(R|~x ) 0.80 0.67 BIR 0.76 0.69 dm d12 d13 d14 d15 d16 d17 d18 d19 d20 r (dm ) R R R N N N R N N x1 0 0 0 0 0 0 0 0 0 x2 1 1 1 1 1 1 0 0 0 P(R|~x ) BIR 0.50 0.48 0.33 0.40 Das Probability-Ranking-Principle (PRP) Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion möglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz Entscheidungstheoretische Rechtfertigung des PRP C̄ : Kosten für Retrieval eines nicht-relevanten Dokumentes C : Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments dj : EC (q, dj ) = C · P(R|q, dj ) + C̄ (1 − P(R|q, dj )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r (i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i EC (q, l ) = EC (q, dr (1) , dr (2) , . . . , dr (l) ) = l X EC (q, dr (i) ) i=1 P Mimimale Gesamtkosten → minimiere li=1 EC (q, dr (i) ) → r (i) sollte Dokumente nach aufsteigenden Kosten sortieren Entscheidungstheoretische Regel: EC (q, dr (i) ) ≤ EC (q, dr (i+1) ) ⇐⇒ C · P(R|q, dr (i) ) + C̄ (1 − P(R|q, dr (i) )) ≤ C · P(R|q, dr (i+1) ) + C̄ 1 − P(R|q, dr (i+1) ) ⇐⇒ (da C < C̄ ): P(R|q, dr (i) ) ≥ P(R|q, dr (i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! Rechtfertigung über Effektivitätsmaße für je zwei Ereignisse a, b, liefert das Bayes’sche Theorem die folgenden monotonen Transformationen von P(a|b): (siehe Herleitung des BIR-Modells) P(b|a)P(a) P(b|ā)P(ā) P(b|a) log O(a|b) = log + log O(a) P(b|ā) P(b|a) logit P(a|b) = log + logit P(a) P(b|ā) O(a|b) = mit logit P(x) = log O(x) ρ = P(gef. Dokument|rel. Dokument) φ = P(gef. Dokument|nichtrel. Dokument) π = P(rel. Dokument|gef. Dokument) γ = P(rel. Dokument) ρ(di ) = P(Dokument ist di |rel. Dokument) φ(di ) = P(Dokument ist di |nichtrel. Dokument) π(di ) = P(rel. Dokument|Dokument ist di ) (Wahrscheinlichkeit der Relevanz) S Menge der gefundenen Dokumente ρ = X ρ(di ) di ∈S φ = X φ(di ) di ∈S P(di |rel.) + logit P(rel.) P(di |nichtrel.) ρ(di ) logit π(di ) = log + logit γ φ(di ) ρ(di ) = xi · φ(di ) mit logit P(rel.|di ) = log xi = exp(logit π(di ) − logit γ) 1. Abbruch vorgegeben durch φ (Fallout) X φ = φ(di ) di ∈S ρ = X di ∈S ρ(di ) = X φ(di ) · exp(logit π(di ) − logit γ) di ∈S maximiere ρ (Recall) durch Hinzunahme der Dokumente mit den höchsten Werten für π(di ) = ˆ ordne nach Wahrscheinlichkeit der Relevanz 2. Abbruch durch # Dokumente gefunden maximiere erwarteten Recall, minimiere erwarteten Fallout 3. Abbruch vorgegeben durch ρ (Recall) minimiere Fallout P(ret.|rel.) + logit P(rel) P(ret.|nonrel.) logit π = log(ρ/φ) + logit γ logit P(rel|ret) = log logit π = log(ρ/φ) + logit γ 4. erwartete Precision wird für gegebenen Recall / Fallout / # gefundener Dokumente maximiert PRP für mehrwertige Relevanzskalen n Relevanzwerte R1 < R2 < . . . < Rn entsprechende Kosten für das Retrieval eines Dokuments: C1 , C2 , . . . , Cn . ordne Dokumente nach ihren erwarteten Kosten EC (q, dm ) = n X Cl · P(Rl |q, dm ). l=1 Vergleich mit dem binären Fall: I nicht-binäre Skala entspricht eher dem Benutzerempfinden I n − 1 Schätzungen P(Rl |q, dm ) werden benötigt I Kostenfaktoren Cl müssen bekannt sein I widerspricht bisher experimentellen Ergebnissen Kombination von probabilistischen und Fuzzy-Retrieval Fuzzy-Retrieval: I benutzt Grad der Relevanz statt binärer Skala I System versucht Grad der Relevanz für ein Anfrage-Dokument-Paar zu berechnen Kombination: I kontinuierliche Relevanzskala: r [0, 1] I ersetze Wahrscheinlichkeitsverteilung P(Rl |q, dm ) durch Dichtefunktion p(r |q, dm ) I ersetze Kostenfaktoren Cl durch Kostenfunktion c(r ). Konzeptuelles Modell Q R αQ Q βQ QD ρ rel. judg. D αD D βD DD IR Repräsentationen und Beschreibungen im BIR-Modell I Anfragerepräsentationen qk = (qkT , qkJ ): Menge von Anfragetermen qkT + Menge von Rlevanzurteilen qkJ = {(dm , r (dm , qk ))} I Anfragebeschreibungen qkD = {(ti , cik )}: Menge der Anfrageterme mit zugehörigen Gewichten I T Dokumentenrepräsentation dm = dm Menge der Terme I D = Dokumentenrepräsentation Dokumentenbeschreibung dm T dm Entwicklungsrichtungen für probabilistische IR-Modelle: 1. Optimierung der Retrievalqualität für feste Repräsentationen (z.B. durch andere Abhängigkeitsannahmen als im BIR-Modell) 2. Modelle für detaillierte Repräsentationen (z.B. Dokumente als Multimengen von Termen, Phrasen zusätzlich zu Worten) Parameterlernen im IR terms terms terms d documents documents documents learning q learning application appli− cation application queries queries query−related learning Lernansätze im IR learning queries document−related learning description−related learning Ereignisraum Ereignisraum: Q × D einzelnes Element: Frage-Dokument-Paar (qk , dm ) alle Elemente sind gleichwahrscheinlich Relevanzurteile (qk , dm )R Relevanzurteile für verschiedene Dokumente bzgl. der gleichen Anfrage sind unabhängig voneinander Wahrscheinlichkeit der Relevanz P(R|qk , dm ): Wahrscheinlichkeit, dass ein Element (qk , dm ) relevant ist I betrachte Kollektionen als Ausschnitt von möglicherweise unendlichen Mengen I schlechte Repräsentation von gefundenen Objekten: eine einzelne Repräsentation kann für mehrere verschiedene Objekte stehen D qk q k Q dm dm Ereignisraum der Relevanzmodelle