6. Probabilistische Retrievalmodelle

Werbung
6. Probabilistische Retrievalmodelle
Norbert Fuhr
Notationen
Q
αQ
Q
βQ
QD
ρ
rel.
R
IR
judg.
D
αD
D
βD
q ∈ Q Anfrage
qk ∈ Q:
DD
d ∈ D Dokument
dm ∈ D:
Anfragerepräsentation
qkD
∈
QD :
Dokumentrepräsentation
D
dm
Anfragebeschreibung
R: Relevanzskala
%: Retrievalfunktion
∈
DD :
Dokumentbeschreibung
Retrievalfunktionen für binäre Indexierung
repräsentiere Anfragen und Dokumente als Mengen von Termen
T = {t1 , . . . , tn } Menge der Terme in einer Kollektion
qk ∈ Q:
Anfragerepräsentation
qkT : Menge von
Fragetermen
dm ∈ D:
T : Menge von
dm
Dokumentrepräsentation
Dokumenttermen
einfache Retrievalfunktion: Coordination level match
T
%COORD (qk , dm ) = |qkT ∩ dm
|
Binary-Independence-Retrieval-Modell (BIR):
weise Fragetermen Gewichte zu
X
%BIR (qk , dm ) =
cik
T
ti ∈qkT ∩dm
Probabilistische Grundlagen des BIR-Modells
Grundlegende mathematische Techniken zur Herleitung der
probabilistischen Retrievalmodelle:
1. Anwendung des Bayes’schen Theorems:
P(a|b) =
P(a, b)
P(b|a) · P(a)
=
,
P(b)
P(b)
2. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei
O(y ) =
P(y )
P(y )
=
.
P(ȳ )
1 − P(y )
Herleitung des BIR-Modells
T)
Abschätzung von O(R|qk , dm
T
= Chance, dass ein Dokument mit einer Menge von Termen dm
relevant zur Anfrage qk ist
Repräsentation des Dokumentes dm als binären Vektor
T
1, falls ti ∈ dm
~x = (x1 , . . . , xn )
mit
xi =
0, sonst
Anwenden des Bayes’schen Theorems:
O(R|qk , ~x ) =
P(R|qk , ~x )
P(R̄|qk , ~x )
=
P(R|qk ) P(~x |R, qk ) P(~x |qk )
·
·
P(R̄|qk ) P(~x |R̄, qk ) P(~x |qk )
P(R|qk ): W., dass ein arbiträres Dokument relevant ist zu qk
P(~xm |R, qk ): W., dass ein arbiträres, relevantes Dokument den
Termvektor ~x besitzt
P(~xm |R̄, qk ): W., dass ein arbiträres, nicht-relevantes Dokument
den Termvektor ~x besitzt
Annahme der “Linked dependence”:
P(~x |R, qk )
P(~x |R̄, qk )
=
n
Y
P(xi |R, qk )
i=1
P(xi |R̄, qk )
O(R|qk , ~x ) = O(R|qk )
n
Y
P(xi |R, qk )
i=1
P(xi |R̄, qk )
Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen
Dokument:
Y P(xi =1|R, qk ) Y P(xi =0|R, qk )
O(R|qk , ~x ) = O(R|qk )
·
.
P(x
=1|
R̄,
q
)
P(x
=0|
R̄,
q
)
i
i
k
k
x =1
x =0
i
i
pik = P(xi =1|R, qk ): Wahrscheinlichkeit, dass ti in einem
arbiträren relevanten Dokument vorkommt.
qik = P(xi =1|R̄, qk ): Wahrscheinlichkeit, dass ti in einem
arbiträren nicht-relevanten Dokument vorkommt
Annahme, dass pik = qik für alle ti ∈
/ qkT
T
O(R|qk , dm
) = O(R|qk )
Y
T ∩q T
ti dm
k
= O(R|qk )
Y
T ∩q T
ti dm
k
·
Y
T ∩q T
ti dm
k
= O(R|qk )
pik
·
qik
pik
·
qik
1 − pik
·
1 − qik
Y
T ∩q T
ti dm
k
Y
T
ti qkT \dm
Y
T ∩q T
ti dm
k
Y
T
ti qkT \dm
1 − pik
1 − qik
1 − qik
1 − pik
1 − pik
1 − qik
pik (1 − qik ) Y 1 − pik
·
qik (1 − pik )
1 − qik
T
ti qk
Nur das erste Produkt ist bezüglich einer gegebenen Anfrage qk für
unterschiedliche Dokumente nicht konstant −→
Betrachte daher nur dieses Produkt für das Ranking
Übergang zum Logarithmus (ordnungserhaltend):
cik = log
pik (1 − qik )
qik (1 − pik )
Retrievalfunktion:
%BIR (qk , dm ) =
X
T ∩q T
ti dm
k
cik
Anwendung des BIR-Modells
Parameterabschätzung für qik
qik = P(xi =1|R̄, qk ):
(Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten
Dokument vorkommt)
Annahme:
Anzahl der nicht-relevanten Dokumente ≈ Größe der Kollektion
N – Kollektionsgröße
ni – # Dokumente mit dem Term ti
qik = nNi
Parameterabschätzung für pik
pik = P(xi =1|R, qk ):
(Wahrscheinlichkeit, dass ti in einem arbiträren relevanten
Dokument vorkommt)
1. benutze globalen Wert p für alle pik s
−→ Termgewichtung nach inverser Dokumentenhäufigkeit (IDF)
cik
%IDF (qk , dm ) =
P
p
1 − qik
+ log
1−p
qik
N − ni
= cp + log
ni
= log
T (cp
ti ∈qkT ∩dm
i
+ log N−n
ni )
oft benutzt: p = 0.5 −→ cp = 0
2. Relevance Feedback:
initiale Rangordnung nach IDF-Formel
präsentiere höchstgerankte Dokumente dem Benutzer
(etwa 10 . . . 20)
Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant
r : # als relevant beurteilte Dokumente zur Anfrage qk
ri : # relevante Dokumente mit dem Term ti
pik = P(ti |R, qk ) ≈
ri
r
verbesserte Abschätzungen (mehr in späterem Abschnitt):
pik ≈
ri + 0.5
r +1
Beispiel für BIR
dm
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
d11
r (dm )
R
R
R
R
N
R
R
R
R
N
N
x1
1
1
1
1
1
1
1
1
1
1
1
x2
1
1
1
1
1
0
0
0
0
0
0
P(R|~x )
0.80
0.67
BIR
0.76
0.69
dm
d12
d13
d14
d15
d16
d17
d18
d19
d20
r (dm )
R
R
R
N
N
N
R
N
N
x1
0
0
0
0
0
0
0
0
0
x2
1
1
1
1
1
1
0
0
0
P(R|~x )
BIR
0.50
0.48
0.33
0.40
Das Probability-Ranking-Principle (PRP)
Perfektes Retrieval:
ordne alle relevanten Dokumenten vor allen nicht-relevanten an
bezieht sich auf die Retrievalobjekte selbst, und ist nur bei
vollständiger Relevanzbeurteilung der Kollektion möglich
Optimales Retrieval:
bezieht sich auf die Repräsentationen (wie jedes IR-System)
Probability Ranking Principle (PRP)
definiert optimales Retrieval für probabilistische Modelle:
ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der
Relevanz
Entscheidungstheoretische Rechtfertigung des PRP
C̄ : Kosten für Retrieval eines nicht-relevanten Dokumentes
C : Kosten für Retrieval eines relevanten Dokumentes
erwartete Kosten für das Retrieval eines Dokuments dj :
EC (q, dj ) = C · P(R|q, dj ) + C̄ (1 − P(R|q, dj ))
Gesamtkosten für das Retrieval:
(angenommen, der Benutzer betrachtet die ersten l Dokumente,
wobei l nicht im Voraus bekannt ist)
r (i): Ranking-Funktion, bestimmt den Index des Dokuments für
den Rang i
EC (q, l ) = EC (q, dr (1) , dr (2) , . . . , dr (l) )
=
l
X
EC (q, dr (i) )
i=1
P
Mimimale Gesamtkosten → minimiere li=1 EC (q, dr (i) ) →
r (i) sollte Dokumente nach aufsteigenden Kosten sortieren
Entscheidungstheoretische Regel:
EC (q, dr (i) ) ≤ EC (q, dr (i+1) ) ⇐⇒
C · P(R|q, dr (i) ) + C̄ (1 − P(R|q, dr (i) )) ≤
C · P(R|q, dr (i+1) ) + C̄ 1 − P(R|q, dr (i+1) )
⇐⇒ (da C < C̄ ):
P(R|q, dr (i) ) ≥ P(R|q, dr (i+1) ).
ordne Dokumente nach der absteigenden Wahrscheinlichkeit der
Relevanz!
Rechtfertigung über Effektivitätsmaße
für je zwei Ereignisse a, b, liefert das Bayes’sche Theorem
die folgenden monotonen Transformationen von P(a|b):
(siehe Herleitung des BIR-Modells)
P(b|a)P(a)
P(b|ā)P(ā)
P(b|a)
log O(a|b) = log
+ log O(a)
P(b|ā)
P(b|a)
logit P(a|b) = log
+ logit P(a)
P(b|ā)
O(a|b) =
mit logit P(x) = log O(x)
ρ = P(gef. Dokument|rel. Dokument)
φ = P(gef. Dokument|nichtrel. Dokument)
π = P(rel. Dokument|gef. Dokument)
γ = P(rel. Dokument)
ρ(di ) = P(Dokument ist di |rel. Dokument)
φ(di ) = P(Dokument ist di |nichtrel. Dokument)
π(di ) = P(rel. Dokument|Dokument ist di )
(Wahrscheinlichkeit der Relevanz)
S Menge der gefundenen Dokumente
ρ =
X
ρ(di )
di ∈S
φ =
X
φ(di )
di ∈S
P(di |rel.)
+ logit P(rel.)
P(di |nichtrel.)
ρ(di )
logit π(di ) = log
+ logit γ
φ(di )
ρ(di ) = xi · φ(di )
mit
logit P(rel.|di ) = log
xi
= exp(logit π(di ) − logit γ)
1. Abbruch vorgegeben durch φ (Fallout)
X
φ =
φ(di )
di ∈S
ρ =
X
di ∈S
ρ(di ) =
X
φ(di ) · exp(logit π(di ) − logit γ)
di ∈S
maximiere ρ (Recall) durch Hinzunahme der Dokumente
mit den höchsten Werten für π(di )
=
ˆ ordne nach Wahrscheinlichkeit der Relevanz
2. Abbruch durch # Dokumente gefunden
maximiere erwarteten Recall, minimiere erwarteten Fallout
3. Abbruch vorgegeben durch ρ (Recall)
minimiere Fallout
P(ret.|rel.)
+ logit P(rel)
P(ret.|nonrel.)
logit π = log(ρ/φ) + logit γ
logit P(rel|ret) = log
logit π = log(ρ/φ) + logit γ
4. erwartete Precision wird für gegebenen Recall / Fallout / #
gefundener Dokumente maximiert
PRP für mehrwertige Relevanzskalen
n Relevanzwerte R1 < R2 < . . . < Rn
entsprechende Kosten für das Retrieval eines Dokuments:
C1 , C2 , . . . , Cn .
ordne Dokumente nach ihren erwarteten Kosten
EC (q, dm ) =
n
X
Cl · P(Rl |q, dm ).
l=1
Vergleich mit dem binären Fall:
I
nicht-binäre Skala entspricht eher dem Benutzerempfinden
I
n − 1 Schätzungen P(Rl |q, dm ) werden benötigt
I
Kostenfaktoren Cl müssen bekannt sein
I
widerspricht bisher experimentellen Ergebnissen
Kombination von probabilistischen und Fuzzy-Retrieval
Fuzzy-Retrieval:
I
benutzt Grad der Relevanz statt binärer Skala
I
System versucht Grad der Relevanz für ein
Anfrage-Dokument-Paar zu berechnen
Kombination:
I
kontinuierliche Relevanzskala: r [0, 1]
I
ersetze Wahrscheinlichkeitsverteilung P(Rl |q, dm ) durch
Dichtefunktion p(r |q, dm )
I
ersetze Kostenfaktoren Cl durch Kostenfunktion c(r ).
Konzeptuelles Modell
Q
R
αQ
Q
βQ
QD
ρ
rel.
judg.
D
αD
D
βD
DD
IR
Repräsentationen und Beschreibungen im BIR-Modell
I
Anfragerepräsentationen qk = (qkT , qkJ ):
Menge von Anfragetermen qkT +
Menge von Rlevanzurteilen qkJ = {(dm , r (dm , qk ))}
I
Anfragebeschreibungen qkD = {(ti , cik )}:
Menge der Anfrageterme mit zugehörigen Gewichten
I
T
Dokumentenrepräsentation dm = dm
Menge der Terme
I
D = Dokumentenrepräsentation
Dokumentenbeschreibung dm
T
dm
Entwicklungsrichtungen für probabilistische IR-Modelle:
1. Optimierung der Retrievalqualität für feste Repräsentationen
(z.B. durch andere Abhängigkeitsannahmen als im BIR-Modell)
2. Modelle für detaillierte Repräsentationen
(z.B. Dokumente als Multimengen von Termen, Phrasen
zusätzlich zu Worten)
Parameterlernen im IR
terms
terms
terms
d
documents
documents
documents
learning
q
learning
application
appli−
cation
application
queries
queries
query−related
learning
Lernansätze im IR
learning
queries
document−related
learning
description−related
learning
Ereignisraum
Ereignisraum: Q × D
einzelnes Element: Frage-Dokument-Paar (qk , dm )
alle Elemente sind gleichwahrscheinlich
Relevanzurteile (qk , dm )R
Relevanzurteile für verschiedene Dokumente bzgl. der gleichen
Anfrage sind unabhängig voneinander
Wahrscheinlichkeit der Relevanz P(R|qk , dm ):
Wahrscheinlichkeit, dass ein Element (qk , dm ) relevant ist
I
betrachte Kollektionen als Ausschnitt von möglicherweise
unendlichen Mengen
I
schlechte Repräsentation von gefundenen Objekten:
eine einzelne Repräsentation kann für mehrere verschiedene
Objekte stehen
D
qk q
k
Q
dm
dm
Ereignisraum der
Relevanzmodelle
Herunterladen