Erweitertes boolsches Retrieval Modelle f ¨ur das erweiterte

Werbung
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Erweitertes boolsches Retrieval
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Modelle für das erweiterte boolsche Retrieval
• In diesem Unterabschnitt werden andere Ansätze zur Verbesserung
des boolschen Retrievals vorgestellt.
• Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht, die Dichotomie der boolschen Logik “aufzuweichen”.
• gemischtes Min-Max-Modell
• Paice-Modell
• P-Norm-Modell
• Man betrachte eine Anfrage der Art
A and B and C and D and E,
wobei A bis E Anfrageterme sind. Ein Dokument, das alle diese Anfrageterme bis auf einen enthält, könnte u.U. auch für die Anfrage
relevant sein.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
134
Erweitertes boolsches Retrieval
• Analog wird im boolschen Retrieval ein Dokument, das für die Anfrage
A or B or C or D or E
nur einen der Terme enthält, als genauso relevant angesehen wie ein
Dokument, das alle diese Terme enthält.
• Die Grundidee besteht nun darin, die Operatoren and und or aufzuweichen, d.h. and soll sich ein wenig wie or verhalten und umgekehrt.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
136
Erweitertes boolsches Retrieval
Eigenschaften dieser Modelle
• Weniger strikte Interpretation der boolschen Operatoren
• Ranking der Dokumente im Anfrageergebnis
• Gewichtung der Dokumentterme (Gewichte wi,k )
• Im P-Norm-Modell können auch die Anfrageterme gewichtet werden.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
135
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
137
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Grundideen
• O.b.d.A. liegen die wi,k im Intervall [0, 1].
• Das Retrieval basiert auf der Berechnung des Werts einer Ähnlichkeitsfunktion zwischen der Anfrage und den Dokumenten.
Sämtliche Modelle orientieren sich an grundlegenden Konzepten für sogenannte unscharfe Mengen (fuzzy sets).
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Unscharfe und herkömmliche Mengen
• Das Gewicht wi,k ist ein Maß dafür, wie stark der Term tk das Dokument di charakterisiert.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
138
Erweitertes boolsches Retrieval
• Herkömmliche Mengen (scharfe Mengen) lassen sich als Spezialfall
einer unscharfen Menge schreiben.
• Hierzu wählt man für eine scharfe Menge X die charakteristische
Funktion als µX , d.h.:
1 falls d ∈ X
µX (d) =
0 sonst
• Darstellung der leeren Menge: µ∅ ≡ 0
• Darstellung der Grundmenge: µD ≡ 1
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
140
Erweitertes boolsches Retrieval
Unscharfe Mengen
Operationen für unscharfe Mengen
Definition 3.11. [Unscharfe Menge] Es sei D eine Menge. Eine unscharfe Menge X über dem Grundbereich D ist eine Abbildung:
Definition 3.12. Es seien X und Y unscharfe Mengen über einer
Grundmenge D. Dann werden Vereinigung X ∪ Y , Durchschnitt X ∩ Y
und Komplement X c wie folgt definiert:
µX (d) : D −→ [0, 1]
µX∪Y (d) := max{µX (d), µY (d)}
Für ein d ∈ D drückt dabei µX (d) ∈ [0, 1] den Grad der Zugehörigkeit
von d zu X aus.
µX∩Y (d) := min{µX (d), µY (d)}
µX c (d) := 1 − µX (d)
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
139
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
141
3. Retrievalmodelle
Erweitertes boolsches Retrieval
3. Retrievalmodelle
Erweitertes boolsches Retrieval
ge Dr ∩ Ds zugeordnet werden, wobei:
Bemerkungen:
• Die meisten Gesetze der boolschen Algebra bzw. Mengenlehre sind
auch für unscharfe Mengen gültig: Kommutativität, Assoziativität,
Idempotenz, Monotonie, Distributivität, deMorgansche Regeln.
• Nicht erfüllt sind teilweise Gesetze, die sich auf die Komplementbildung beziehen. So sind für unscharfe Mengen beispielsweise die beiden folgenden Gesetze der Mengenlehre i. A. nicht gültig:
µDr ∩Ds (d) = min{µDr (d), µDs (d)}
• Ebenso könnte einer disjunktiven Anfrage tr orts die unscharfe Menge Dr ∪ Ds zugeordnet werden, mit:
µDr ∪Ds (d) = max{µDr (d), µDs (d)}
☞ Das gemischte Min-Max-Modell versucht neben der Verwendung
von unscharfen Mengen, die sich in den Dokumentgewichten niederschlagen, auch die boolschen Operatoren “aufzuweichen”.
Xc ∩ X = ∅
Xc ∪ X = D
☞ Dies geschieht durch die Bildung einer Linearkombination von min
und max.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
142
Erweitertes boolsches Retrieval
Das gemischte Min-Max-Modell
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
144
Erweitertes boolsches Retrieval
Definition 3.13. [gemischtes Min-Max-Modell] Gegeben seien die
Anfragen
Qor = t1 or t2 or . . . or tr
und
Grundideen:
Qand = t1 and t2 and . . . and tr
• Jedem Indexterm tk wird eine unscharfe Menge Dk an Dokumenten
zugeordnet.
• Die Funktion µDk : D −→ [0, 1] gibt für jedes Dokument den Grad der
Zugehörigkeit zur Menge der Dokumente an, die durch den Term tk
charakterisiert werden.
• Die Gewichte wi,k entsprechen somit den Werten µk (di).
wi,k ∈ [0, 1] sei das Gewicht von Term tk (1 ≤ k ≤ r) im Dokument
di ∈ D.
Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und
den Anfragen wie folgt definiert:
SIM (Qor , di) = Cor max{wi,1, . . . , wi,r } + (1 − Cor ) min{wi,1, . . . , wi,r }
SIM (Qand, di) = Cand min{wi,1, . . . , wi,r }+(1−Cand) max{wi,1, . . . , wi,r }
• Einer konjunktiven Anfrage tr and ts könnte nun die unscharfe MenInformation Retrieval — FH Bonn-Rhein-Sieg, SS 06
143
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
145
3. Retrievalmodelle
Erweitertes boolsches Retrieval
3. Retrievalmodelle
Erweitertes boolsches Retrieval
wi,k ∈ [0, 1] sei das Gewicht von Term tk (1 ≤ k ≤ r) im Dokument
di ∈ D.
Bemerkungen:
• Cor und Cand sind die sogenannten “Softness”-Koeffizienten für den
Or- bzw. And-Operator.
Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und
den Anfragen wie folgt definiert:
• Für die Koeffizienten gilt: 0 ≤ Cand, Cor ≤ 1.
• Für Cand = Cor = 1 ergeben sich die Operationen der unscharfen
Mengen.
• Gemäß der Vorgehensweise bei unscharfen Mengen sollte für den
Or-Operator dem Maximum ein stärkere Bedeutung zukommen, also: Cor > 1/2.
• Analog erhält beim And-Operator das Minimum ein stärkere Bedeutung, d.h. Cand > 1/2.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
146
Erweitertes boolsches Retrieval
SIM (Qor , di) =
Pr
i=1
P
r
0
λi−1 wi,k
i=1 λ
i−1
Pr
i−1 00
wi,k
i=1 λ
SIM (Qand, di) = Pr
i−1
i=1 λ
Hierbei ergeben sich die Gewichte
0
durch eine absteigende Sortierung der wi,k und
• wi,k
00
durch eine aufsteigende Sortierung der wi,k .
• wi,k
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
148
Erweitertes boolsches Retrieval
Bemerkungen:
Das Paice-Modell
• Für λ sollte gelten: 0 ≤ λ ≤ 1.
Grundideen:
• Beim gemischten Min-Max-Modell wirken sich nur die maximalen
bzw. minimalen Dokumentgewichte auf den Ähnlichkeitswert aus.
• Beim Paice-Modell wird versucht, alle Dokumentgewichte in den
Ähnlichkeitswert einfließen zu lassen.
• Durch die Sortierung in Verbindung mit den Termen λi−1 werden
beim Or-Operator größere Gewichte stärker berücksichtigt, beim
And-Operator dagegen kleinere Gewichte.
• Für λ = 0 entspricht das Paice-Modell den Operationen bei unscharfen Mengen.
Definition 3.14. [Paice-Modell] Gegeben seien die Anfragen
• Für r = 2 verhält sich das Paice-Modell wie das gemischte Min-MaxModell.
Qor = t1 or t2 or . . . or tr
und
Qand = t1 and t2 and . . . and tr
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
147
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
149
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Das P-Norm-Modell
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Anfragen: Anfragen im P-Norm-Modell haben die folgende Form:
Qor = (t1, q1) or (t1, q2) or . . . or (tr , qr )
Grundideen:
Qand = (t1, q1) and (t1, q2) and . . . and (tr , qr )
• Beim P-Norm-Modell können auch die Anfrageterme gewichtet werden.
• Die Dokumentgewichte wi,1, . . . , wi,r zu den Anfragetermen t1, . . . , tr
werden als Punkte in einem r-dimensionalen Raum aufgefaßt.
• Man betrachte nun eine disjunktive Anfrage der Form
3. Retrievalmodelle
Die qi sind hierbei die Gewichte der Anfrageterme.
Definition 3.15. [P-Norm-Modell] Gegeben seien Anfragen Qor , Qand
und Qnot wie oben. wi,k ∈ [0, 1] sei das Gewicht von Term tk im Dokument di ∈ D.
Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und
t1 or t2 or . . . or tr .
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
Qnot = not Q
150
Erweitertes boolsches Retrieval
Der ungünstigste Punkt für diese Anfrage ist der Ursprung des rdimensionalen Raums.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
3. Retrievalmodelle
Erweitertes boolsches Retrieval
den Anfragen wie folgt definiert:
SIM (Qor , di) =
• Für eine konjunktive Anfrage der Form
t1 and t2 and . . . and tr
152
SIM (Qand, di) = 1 −
ist der Punkt (1, 1, . . . , 1) am günstigsten.
Pr
p p
k=1 qi wi,k
Pr
p
k=1 qi
! p1
1
qip(1 − wi,k )p p
k=1P
r
p
k=1 qi
Pr
SIM (Qnot, di) = 1 − SIM (Q, di)
• Dementsprechend bietet es sich an, für disjunktive Anfragen die Dokumente absteigend nach der Distanz zum Ursprung zu reihen
Bemerkungen:
• Der Parameter p gibt die Striktheit des Operators or bzw. and an.
• und für konjunktive Anfragen aufsteigend nach der Distanz zum
Punkt (1, 1, . . . , 1).
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
151
• Der Wert für p reicht
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
153
3. Retrievalmodelle
Erweitertes boolsches Retrieval
3. Retrievalmodelle
Erweitertes boolsches Retrieval
• Die Anfrageterme befinden sich an den Blättern, die inneren Knoten
enthalten die Operatoren.
– von 1 (am wenigsten strikt)
– bis ∞ (am striktesten).
• p = 2 entspricht einer (gewichteten) euklidischen Norm bei der Abstandsberechnung, p = ∞ einer (gewichteten) Maximumsnorm.
• Die Festlegung auf ein geeignetes p kann auch durch das Retrievalsystem erfolgen. p = 2 hat sich als i.d.R. geeignet erwiesen.
• Nachteil des P-Norm-Modells: Für p > 1 sind durch die Exponentenberechnung viele aufwendige Gleitkommaoperationen notwendig.
• Der Operatorbaum wird bottom-up ausgewertet.
• Zunächst werden über eine invertierte Liste die Dokumentgewichte
zu den in den Blättern verzeichneten Termen ermittelt.
• An den inneren Knoten müssen die verschiedenen Gewichte zu einem Dokument gemäß den Formeln des zugrundeliegenden Modells
akkumuliert werden.
• Es ist hilfreich, wenn die Fundstellen sortiert vorliegen (vgl. Vektorraummodell). Dann können an einem inneren Knoten die Gewichte
zu einem Dokument einfacher akkumuliert werden.
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
154
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Implementierung des erweiterten boolschen Retrievals
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
156
3. Retrievalmodelle
Erweitertes boolsches Retrieval
Veranschaulichung: Auswertung der Anfrage (t1 or t2 or t3) and (t4 or t5)
für ein Dokument di nach dem gemischten Min-Max-Modell (Cand =
Cor = 0.75):
w(i, (t1 or t2 or t3) and (t4 or t5) ) = 0.625
• Aus der Anfrage wird ein Operatorbaum aufgebaut:
w(i, t1 or t2 or t3 ) = 0.7
w(i, t4 or t5 ) = 0.6
and
w(i,1) = 0.7
or
Operatorbaum
Anfrage:
or
zu
der
(t1 or t2 or t3) and (t4 or t5)
t1
t2
t3
t4
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
w(i,3) = 0.8
w(i,t4) = 0.8
w(i,2) = 0.4
t1
t2
t3
t4
w(i,t5) = 0
t5
• Bei inneren Knoten, die als Söhne keine Terme haben, werden die
Formeln der Modelle analog angewendet (siehe Beispiel).
t5
155
Information Retrieval — FH Bonn-Rhein-Sieg, SS 06
157
Herunterladen