Relevance Feedback

Werbung
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Relevance Feedback
Relevance Feedback ist eine Technik zur Unterstützung der Reformulierung von Anfragen.
Ist man mit mit einer Antwortmenge nicht zufrieden, kann man versuchen, die ursprüngliche Anfrage in die “gewünschte Richtung” zu
ändern.
Die Reformulierung von Anfragen beinhaltet dabei zwei Aspekte:
1. Hinzunahme weiterer Terme
2. Änderung der Termgewichte
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
197
Relevance Feedback
Zur Umsetzung dieser Aspekte existieren verschiedene Ansätze, die auf
folgenden Techniken basieren:
Relevanzbeurteilungen des Nutzers
Dies ist die Technik des Relevance Feedback.
Analyse der Dokumente der Resultatsmenge
(Local Analysis)
Analyse der Dokumentkollektion
(Global Analysis)
Local und Global Analysis basieren stark auf Verfahren der Clusterana
lyse (
Text Mining).
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
198
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Grundidee zum Relevance Feedback:
Iteratives Verfahren
In einem Zyklus werden dem Nutzer Dokumente vorgeschlagen.
Der Nutzer gibt zu jedem Dokument an, ob es relevant ist oder nicht.
Bei einer geordneten Antwortmenge betrachtet man typischerweise
nur die ersten 10 bis 20 Dokumente.
Idee: Aus den relevanten Dokumenten Terme erkennen, die spezifisch für die relevanten Dokumente sind (bzw. umgekehrt).
Daraus wird eine neue Anfrage kontruiert, die sich weg von den nicht
relevanten und hin zu den relevanten Dokumenten bewegt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
199
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Hierbei nutzt man aus, daß sowohl die Dokument- als auch die Anfragen als Vektoren repräsentiert werden können.
Verfahren: Aus den Relevanzbeurteilungen des Nutzers ergibt sich die
Menge
der relevanten Dokumente und die Menge
der nicht relevanten Dokumente.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
200
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Zur Definition einer reformulierten Anfrage im Vektorraummodell werden die folgenden klassischen Formeln benutzt:
Standard Rochio:
!#"
%
,
$
$
&
)+*
.
&('
/213
/0'
Ide Regular:
!#"
&4'
&5)+*
/
/6'
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
201
Ide DecHi:
Relevance Feedback
!7"
&4'
&5)+*98;:=<
>@?
A
Bemerkungen:
Wenn man annimmt, daß sich verschiedene Themen an verschiednenen Orten im Vektorraum der Dokumente befinden, so wird durch
die Reformulierung der neue Anfragevektor hin zu den relevanten
und weg von den nicht relevanten Dokumenten bewegt.
B
sind hierbei Tuning Parameter, mit denen definiert werden
kann, wie stark die ursprüngliche Anfrage, die relevanten Dokumente bzw. die nicht relevanten Dokumente in die reformulierte Anfrage
eingehen.
"
*
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
202
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Gewöhnlich sind die relevanten Dokumente für die Reformulierung
wichtiger als die nicht relevanten, daher gilt typischerweise "7C * .
Während die relevanten Dokumente im Vektorraum typischerweise
nahe zusammen liegen, können die nicht relevanten beliebig über
den Raum verstreut sein.
D
Daher kann auch *
sinnvoll sein (positive feedback strategy ).
D
Setzt man
, so werden mit Dokumente gesucht, die
denen aus der Menge ähnlich sind (Ähnlichkeitssuche, Query by
example).
*
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
203
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Bemerkungen zur Implementierung:
Für Relevance Feedback benötigt man die Terme (sowie deren Gewichte) zu einem Dokument.
Die invertierte Liste unterstützt nur die umgekehrte Richtung, nämlich
zu Termen Dokumente bestimmen zu können, die diese Terme enthalten.
Relevance Feedback
ist enthalten in
Term
[1,*]
[1,*]
Dokument
Invertierte Liste
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
204
4. Spezielle Techniken im Information Retrieval
Relevance Feedback
Für kleine Dokumentkollektionen können zu jedem Dokument die zugehörigen Terme gespeichert werden.
Bei großen Dokumentkollektionen bietet es sich an, bei der Relevanzbeurteilung das Dokument wie bei der Indexierung auf Terme
zu analysieren.
Weiteres Problem: Die Anzahl der Terme nach der Reformulierung
kann drastisch ansteigen.
Lösungsansatz: Auswertung analog zum Vektorraummodell bei
großen Dokumentkollektionen. Beschränkung auf die wichtigsten
Terme.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
4. Spezielle Techniken im Information Retrieval
205
Probabilistisches Retrieval
Probabilistisches Retrieval
Im Gegensatzt zum Faktenretrieval sucht man im IR nach den relativ
besten Lösungen bzw. Antworten.
Daher liegt ein probabilistisches Modell nahe.
☞ Wie groß ist die Wahrscheinlichkeit, daß ein gegebenes Dokument
als relevant zu einer Anfrage eingeschätzt wird?
Wäre diese Wahrscheinlichkeit für alle Dokumente bekannt, würde
sich aus diesen Wahrscheinlichkeiten eine Rangfolge der Dokumente ergeben.
Da unbekannt, werden diese Wahrscheinlichkeiten geschätzt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
206
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Wahrscheinlichkeiten
Definition 4.6. Es sei E eine abzählbare Menge und FHGIEKJ sei die Potenzmenge von E . Eine Funktion
L
DQ
FMGNEOJ
)
$SR
P
heißt Wahrscheinlichkeitsfunktion gdw. die folgenden Bedingungen
erfüllt
sind:
L
1.
$
GNEOJ
2. Für alle paarweisen
disjunkten Teilmengen
L
L
YX
X
GWT
J
U
L
gilt:
TVU
T
T
GWT
JY[ZZZ
GWT
U
J
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
207
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Weitere Begriffe:
heißt
Grundraum, jede Teilmenge
L
E
T
heißt Ereignis.
\[E
GNE
J
heißt (diskreter) Wahrscheinlichkeitsraum.
Die einelementigen Teilmengen von
sind die Elementarereignisse.
E
Die Menge
T^]
ist das zu
E`_BT
komplementäre Ereignis.
T
ba
EreignisDefinition 4.7.L [Bedingte Wahrscheinlichkeit] Seien T
E . Dann ist a die bedingte Wahrse eines Wahrscheinlichkeitsraumes
a
scheinlichkeit GWTdc J von T unter der
Bedingung definiert durch:
L
L
a
GWTdc
a
L
GWT
ae
J
G
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
J
J
208
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Zwei Ereignisse heißenL unabhängig,L falls gilt:
L
a
GWT
e
a
J
GWT+JfZ
G
J
a
Lemma 4.2. Für unabhängige
Ereignisse
L
L
a
T
\[E
gilt:
GWTdc
J
GWT+J
Generell gilt die (vereinfachte) Bayes-Regel:
L
L
L
a
a
GgThc
L
G
ciT+Jf
a Z
J
G
GgTjJ
J
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
209
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Retrieval-Status-Wert
Wir wollen die Wahrscheinlichkeit schätzen, daß ein Dokument
relevant für eine (feste) Anfrage angesehen wird.
Grundraum:
E
k
l^m
L
gesuchte Wahrscheinlichkeit:
G
k
c
J
Dokumente werden als Termmengen modelliert. Sei n
die Menge der Terme. Dann gilt
für ein Dokumente
L
Statt der Wahrscheinlichkeit
als
GWT+J
wird die Chance
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
o popq
\dn
.
rsGgTjJ
eines Er210
4. Spezielle Techniken im Information Retrieval
eignisses
Probabilistisches Retrieval
betrachtet:
T
L
L
L
L
GWT+J
GWT+J
rtGWT+J
$
GWT
)
J
]
GWT+J
Damit nehmen wir als Bewertungsmaß:
L
k
rsG
c
L
k
G
J
c
G
J
k
c
]
J
Mit Anwendnung des Bayes-Regel
erhalten wir:
L
L
k
rtG
c
k
L
[
k G
J
c
G
L
JZ
c
G JZ
]
J
G
J
]
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
L
211
L
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Die Größe G Ju G ]vJ ist unabhängig von einem Dokument und
kann daher aus dem Bewertungsmaß entfernt werden.
Es wird nun die Annahme gemacht, daß das Auftreten von Termen
Dokumenten
in
unabhängig ist. Wir haben
damit w Zufallsvariablen
k
bkVq
o
&
&
(für jeden Term eine) und gebe an, ob in enthalten
ist oder nicht.
q
L
L
k
G
c
L
]
J
k
kVqy
&Qx
G
q
x
c
k
z
J
G
&
&
c
J
&('
Wir erhalten:
L
q
rtG
c
k
J
rtG
k
L
z
Gk
J
&4'
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
&
G
&
&
&
c
c
]
J
J
212
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Weitere Annahme: Für alle Terme, die nicht in der Anfrage auftreten,
L
gilt:
k
L
&
Gk
&
&
G
&
c
J
c
$
J
]
D.h., die Wahrscheinlichkeit, daß die Terme in einem relevanten Dokument auftreten ist gleich der Wahrscheinlichkeit, daß sie in einem
nicht relevanten Dokument auftreten.
L
L
{% &
k
G
$
&
c
rtG
und
J
k
c
|
k
&
G
J
rtG
$
&
]
c
. Damit:
J
% &
z
J
Z
&
|
} &N~€‚ ?„ƒ†…
>‡
$
z
% &
)
$
)
} &N~€‚ ?„ƒ†ˆb>‡
&
|
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
213
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Umformung ergibt:
rtG
c
k
J
rtG
$
% &
z
J
} &‰~€  ?„ƒ†…
>‡
|
)
G
&
&
$
|
Z
% &
)
G
$
z
J
J
$
} &‰~Š  ?„ƒ6‡
% &
)
)
|
&
Nur der mittlere Faktor ist noch vom Dokument abhängig aund somit
für eine Rangfolge relevant.
Auf den mittleren Faktor wendet man den Logarithmus an und erhält
damit den Retrieval-Status-Wert:
$
% &
} &‰~Š‹ ?„ƒ†…Œ>‡Ž„‘
|
&
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
$
)
„‘
&
)
|
% &
214
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Relevance Feedback mit dem probabilistischen Modell
Um den Retrieval-Status-Wert für die Bildung einer Rangfolge zu nutzen, müssen Werte für % & und | & geschätzt werden.
o
{% &
&
ist die Wahrscheinlichkeit, daß der Term
ge relevanten Dokument auftritt,
in einem für eine Anfra-
&
ist die Wahrscheinlichkeit, daß der Term in einem nicht relevanten
Dokument auftritt.
|
Um die Werte zu schätzen, kann eine Dokumentmenge verwendet
werden, für die Relevanzurteile vorliegen, typischerweise durch Relevance Feedback ermittelt.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
215
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Als Schätzung für % & bzw. | & nimmt man die relative Häufigkeit des
Auftretens der Terme in den relevanten bzw. nicht relevanten Dokumenten.
{%„’@“ &
o
Anzahl der relevanten Dokumente, die Term & enthalten.
%„’@“
%”’@“ &
Anzahl der relevanten Dokumente.
Anzahl
der nicht
|
o
”
%
@
’
“
Anzahl der
relevanten Dokumente, die Term & enthalten. |
nicht relevanten Dokumente.
% &
%”’@“ &
%„’“
|
&
%”’@“ &
|
|
%”’@“
o
Ein Term & wirkt sich positiv auf den Retrieval-Status-Wert aus, wenn
seine relative Häufigkeit in relevanten Dokumenten größer ist als in
nicht relevanten Dokumenten.
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
216
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Ein (neues) Dokument, das viele Terme enthält, die spezifisch für
relevante Dokumente sind, enthält einen hohen Statuswert.
o op–
o˜—
o™
o˜š
R
1
1
1
1
0
0
0
0[
1
1
0
0
0
0
1
0
2
1
3
•
Œ–
—
™
Œš
Beispiel 4.7.
o•
›
Œœ
%”’@“ &
%”’@“ &
|
 ¡
bž˜Ÿ ‹ U b
ž˜Ÿ
bž˜Ÿ ¢
U
 b
ž˜Ÿ
ž˜Ÿ  ¡
U žpŸ
0
1
0
0
0
0
1
0
1
1
1
1
0
1
1
0
1
1
0
3
2
3
1
1
0
1
1
0
0
0
3
1
9
0
1
0
1
1
0
0
1
3
2
3
0
0
1
1
0
0
1
0
2
1
3
%”’@“
|
y
%„’“
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
217
4. Spezielle Techniken im Information Retrieval
Probabilistisches Retrieval
Diese Dokumente dienen als Trainingsmenge, um die Werte für % & und
&
zu schätzen. Neue Dokumente können daraufhin in eine Rangfolge
|
gebracht werden:
o op•
o˜–
o˜—
o™
o˜š
Retrieval-Status-Wert
[DQ©¨«ª
£
­¬
†
•
1
0
1
0
1
1
0
0
0
0
1
1
0
1
1
0
0
0
1
1
1
0
1
0
$
G¥¤¦JY
„‘

$ „‘
G
J®
G
JY
J ¯¨«ª
G¥¤¦DQ
¨
§„‘
J¨
G
§„‘
 „‘
§
Z
G¥¤¦JY
G
§„‘
§„‘
G¥¤¦J®
G¥¤¦J
§„‘
 „‘
§
Information Retrieval und Text Mining — FH Bonn-Rhein-Sieg, SS 03
J
°Ž¯±„²
DQ¯¨«ª
218
Herunterladen
Explore flashcards