Relevance Feedback

4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Relevance Feedback
Relevance Feedback ist eine Technik zur Unterstützung der Reformulierung von Anfragen.
Ist man mit mit einer Antwortmenge nicht zufrieden, kann man versuchen, die ursprüngliche Anfrage in die “gewünschte Richtung” zu
ändern.
Die Reformulierung von Anfragen beinhaltet dabei zwei Aspekte:
1. Hinzunahme weiterer Terme
2. Änderung der Termgewichte
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
197
Relevance Feedback
Zur Umsetzung dieser Aspekte existieren verschiedene Ansätze, die auf
folgenden Techniken basieren:
Relevanzbeurteilungen des Nutzers
Dies ist die Technik des Relevance Feedback.
Analyse der Dokumente der Resultatsmenge
(Local Analysis)
Analyse der Dokumentkollektion
(Global Analysis)
Local und Global Analysis basieren stark auf Verfahren der Clusterana
lyse (
Text Mining).
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
198
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Grundidee zum Relevance Feedback:
Iteratives Verfahren
In einem Zyklus werden dem Nutzer Dokumente vorgeschlagen.
Der Nutzer gibt zu jedem Dokument an, ob es relevant ist oder nicht.
Bei einer geordneten Antwortmenge betrachtet man typischerweise
nur die ersten 10 bis 20 Dokumente.
Idee: Aus den relevanten Dokumenten Terme erkennen, die spezifisch für die relevanten Dokumente sind (bzw. umgekehrt).
Daraus wird eine neue Anfrage kontruiert, die sich weg von den nicht
relevanten und hin zu den relevanten Dokumenten bewegt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
199
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Hierbei nutzt man aus, daß sowohl die Dokument- als auch die Anfragen als Vektoren repräsentiert werden können.
Verfahren: Aus den Relevanzbeurteilungen des Nutzers ergibt sich die
Menge
der relevanten Dokumente und die Menge
der nicht relevanten Dokumente.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
200
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Zur Definition einer reformulierten Anfrage im Vektorraummodell werden die folgenden klassischen Formeln benutzt:
Standard Rochio:
!#"
%
,
$
$
&
)+*
.
&('
/213
/0'
Ide Regular:
!#"
&4'
&5)+*
/
/6'
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
201
Ide DecHi:
Relevance Feedback
!7"
&4'
&5)+*98;:=<
>@?
A
Bemerkungen:
Wenn man annimmt, daß sich verschiedene Themen an verschiednenen Orten im Vektorraum der Dokumente befinden, so wird durch
die Reformulierung der neue Anfragevektor hin zu den relevanten
und weg von den nicht relevanten Dokumenten bewegt.
B
sind hierbei Tuning Parameter, mit denen definiert werden
kann, wie stark die ursprüngliche Anfrage, die relevanten Dokumente bzw. die nicht relevanten Dokumente in die reformulierte Anfrage
eingehen.
"
*
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
202
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Gewöhnlich sind die relevanten Dokumente für die Reformulierung
wichtiger als die nicht relevanten, daher gilt typischerweise "7C * .
Während die relevanten Dokumente im Vektorraum typischerweise
nahe zusammen liegen, können die nicht relevanten beliebig über
den Raum verstreut sein.
D
Daher kann auch *
sinnvoll sein (positive feedback strategy ).
D
Setzt man
, so werden mit Dokumente gesucht, die
denen aus der Menge ähnlich sind (Ähnlichkeitssuche, Query by
example).
*
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
203
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Bemerkungen zur Implementierung:
Für Relevance Feedback benötigt man die Terme (sowie deren Gewichte) zu einem Dokument.
Die invertierte Liste unterstützt nur die umgekehrte Richtung, nämlich
zu Termen Dokumente bestimmen zu können, die diese Terme enthalten.
Relevance Feedback
ist enthalten in
Term
[1,*]
[1,*]
Dokument
Invertierte Liste
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
204
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Für kleine Dokumentkollektionen können zu jedem Dokument die zugehörigen Terme gespeichert werden.
Bei großen Dokumentkollektionen bietet es sich an, bei der Relevanzbeurteilung das Dokument wie bei der Indexierung auf Terme
zu analysieren.
Weiteres Problem: Die Anzahl der Terme nach der Reformulierung
kann drastisch ansteigen.
Lösungsansatz: Auswertung analog zum Vektorraummodell bei
großen Dokumentkollektionen. Beschränkung auf die wichtigsten
Terme.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
205
Probabilistisches Retrieval
Probabilistisches Retrieval
Im Gegensatzt zum Faktenretrieval sucht man im IR nach den relativ
besten Lösungen bzw. Antworten.
Daher liegt ein probabilistisches Modell nahe.
☞ Wie groß ist die Wahrscheinlichkeit, daß ein gegebenes Dokument
als relevant zu einer Anfrage eingeschätzt wird?
Wäre diese Wahrscheinlichkeit für alle Dokumente bekannt, würde
sich aus diesen Wahrscheinlichkeiten eine Rangfolge der Dokumente ergeben.
Da unbekannt, werden diese Wahrscheinlichkeiten geschätzt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
206
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Wahrscheinlichkeiten
Definition 4.6. Es sei E eine abzählbare Menge und FHGIEKJ sei die Potenzmenge von E . Eine Funktion
L
DQ
FMGNEOJ
)
$SR
P
heißt Wahrscheinlichkeitsfunktion gdw. die folgenden Bedingungen
erfüllt
sind:
L
1.
$
GNEOJ
2. Für alle paarweisen
disjunkten Teilmengen
L
L
YX
X
GWT
J
U
L
gilt:
TVU
T
T
GWT
JY[ZZZ
GWT
U
J
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
207
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Weitere Begriffe:
heißt
Grundraum, jede Teilmenge
L
E
T
heißt Ereignis.
\[E
GNE
J
heißt (diskreter) Wahrscheinlichkeitsraum.
Die einelementigen Teilmengen von
sind die Elementarereignisse.
E
Die Menge
T^]
ist das zu
E`_BT
komplementäre Ereignis.
T
ba
EreignisDefinition 4.7.L [Bedingte Wahrscheinlichkeit] Seien T
E . Dann ist a die bedingte Wahrse eines Wahrscheinlichkeitsraumes
a
scheinlichkeit GWTdc J von T unter der
Bedingung definiert durch:
L
L
a
GWTdc
a
L
GWT
ae
J
G
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
J
J
208
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Zwei Ereignisse heißenL unabhängig,L falls gilt:
L
a
GWT
e
a
J
GWT+JfZ
G
J
a
Lemma 4.2. Für unabhängige
Ereignisse
L
L
a
T
\[E
gilt:
GWTdc
J
GWT+J
Generell gilt die (vereinfachte) Bayes-Regel:
L
L
L
a
a
GgThc
L
G
ciT+Jf
a Z
J
G
GgTjJ
J
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
209
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Retrieval-Status-Wert
Wir wollen die Wahrscheinlichkeit schätzen, daß ein Dokument
relevant für eine (feste) Anfrage angesehen wird.
Grundraum:
E
k
l^m
L
gesuchte Wahrscheinlichkeit:
G
k
c
J
Dokumente werden als Termmengen modelliert. Sei n
die Menge der Terme. Dann gilt
für ein Dokumente
L
Statt der Wahrscheinlichkeit
als
GWT+J
wird die Chance
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
o popq
\dn
.
rsGgTjJ
eines Er210
4. Spezielle Techniken im Information Retrieval
eignisses
Probabilistisches Retrieval
betrachtet:
T
L
L
L
L
GWT+J
GWT+J
rtGWT+J
$
GWT
)
J
]
GWT+J
Damit nehmen wir als Bewertungsmaß:
L
k
rsG
c
L
k
G
J
c
G
J
k
c
]
J
Mit Anwendnung des Bayes-Regel
erhalten wir:
L
L
k
rtG
c
k
L
[
k G
J
c
G
L
JZ
c
G JZ
]
J
G
J
]
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
L
211
L
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Die Größe G Ju G ]vJ ist unabhängig von einem Dokument und
kann daher aus dem Bewertungsmaß entfernt werden.
Es wird nun die Annahme gemacht, daß das Auftreten von Termen
Dokumenten
in
unabhängig ist. Wir haben
damit w Zufallsvariablen
k
bkVq
o
&
&
(für jeden Term eine) und gebe an, ob in enthalten
ist oder nicht.
q
L
L
k
G
c
L
]
J
k
kVqy
&Qx
G
q
x
c
k
z
J
G
&
&
c
J
&('
Wir erhalten:
L
q
rtG
c
k
J
rtG
k
L
z
Gk
J
&4'
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
&
G
&
&
&
c
c
]
J
J
212
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Weitere Annahme: Für alle Terme, die nicht in der Anfrage auftreten,
L
gilt:
k
L
&
Gk
&
&
G
&
c
J
c
$
J
]
D.h., die Wahrscheinlichkeit, daß die Terme in einem relevanten Dokument auftreten ist gleich der Wahrscheinlichkeit, daß sie in einem
nicht relevanten Dokument auftreten.
L
L
{% &
k
G
$
&
c
rtG
und
J
k
c
|
k
&
G
J
rtG
$
&
]
c
. Damit:
J
% &
z
J
Z
&
|
} &N~ ?
>
$
z
% &
)
$
)
} &N~ ?b>
&
|
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
213
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Umformung ergibt:
rtG
c
k
J
rtG
$
% &
z
J
} &~ ?
>
|
)
G
&
&
$
|
Z
% &
)
G
$
z
J
J
$
} &~ ?6
% &
)
)
|
&
Nur der mittlere Faktor ist noch vom Dokument abhängig aund somit
für eine Rangfolge relevant.
Auf den mittleren Faktor wendet man den Logarithmus an und erhält
damit den Retrieval-Status-Wert:
$
% &
} &~ ?>
|
&
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
$
)

&
)
|
% &
214
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Relevance Feedback mit dem probabilistischen Modell
Um den Retrieval-Status-Wert für die Bildung einer Rangfolge zu nutzen, müssen Werte für % & und | & geschätzt werden.
o
{% &
&
ist die Wahrscheinlichkeit, daß der Term
ge relevanten Dokument auftritt,
in einem für eine Anfra-
&
ist die Wahrscheinlichkeit, daß der Term in einem nicht relevanten
Dokument auftritt.
|
Um die Werte zu schätzen, kann eine Dokumentmenge verwendet
werden, für die Relevanzurteile vorliegen, typischerweise durch Relevance Feedback ermittelt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
215
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Als Schätzung für % & bzw. | & nimmt man die relative Häufigkeit des
Auftretens der Terme in den relevanten bzw. nicht relevanten Dokumenten.
{%@ &
o
Anzahl der relevanten Dokumente, die Term & enthalten.
%@
%@ &
Anzahl der relevanten Dokumente.
Anzahl
der nicht
|
o

%
@

Anzahl der
relevanten Dokumente, die Term & enthalten. |
nicht relevanten Dokumente.
% &
%@ &
%
|
&
%@ &
|
|
%@
o
Ein Term & wirkt sich positiv auf den Retrieval-Status-Wert aus, wenn
seine relative Häufigkeit in relevanten Dokumenten größer ist als in
nicht relevanten Dokumenten.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
216
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Ein (neues) Dokument, das viele Terme enthält, die spezifisch für
relevante Dokumente sind, enthält einen hohen Statuswert.
o op
o
o
o
R
1
1
1
1
0
0
0
0[
1
1
0
0
0
0
1
0
2
1
3

Beispiel 4.7.
o

%@ &
%@ &
|
¡
b U b

b ¢
U
b

¡
U p
0
1
0
0
0
0
1
0
1
1
1
1
0
1
1
0
1
1
0
3
2
3
1
1
0
1
1
0
0
0
3
1
9
0
1
0
1
1
0
0
1
3
2
3
0
0
1
1
0
0
1
0
2
1
3
%@
|
y
%
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
217
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Diese Dokumente dienen als Trainingsmenge, um die Werte für % & und
&
zu schätzen. Neue Dokumente können daraufhin in eine Rangfolge
|
gebracht werden:
o op
o
o
o
o
Retrieval-Status-Wert
[DQ©¨«ª
£
¬

1
0
1
0
1
1
0
0
0
0
1
1
0
1
1
0
0
0
1
1
1
0
1
0
$
G¥¤¦JY

$
G
J®
G
JY
J ¯¨«ª
G¥¤¦DQ
¨
§
J¨
G
§

§
Z
G¥¤¦JY
G
§
§
G¥¤¦J®
G¥¤¦J
§

§
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
J
°¯±²
DQ¯¨«ª
218

Relevance Feedback

Produkte

Unterstützung

Relevance Feedback

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können