3. Retrievalmodelle Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval 3. Retrievalmodelle Erweitertes boolsches Retrieval Modelle für das erweiterte boolsche Retrieval • In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. • Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht, die Dichotomie der boolschen Logik “aufzuweichen”. • gemischtes Min-Max-Modell • Paice-Modell • P-Norm-Modell • Man betrachte eine Anfrage der Art A and B and C and D and E, wobei A bis E Anfrageterme sind. Ein Dokument, das alle diese Anfrageterme bis auf einen enthält, könnte u.U. auch für die Anfrage relevant sein. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 134 Erweitertes boolsches Retrieval • Analog wird im boolschen Retrieval ein Dokument, das für die Anfrage A or B or C or D or E nur einen der Terme enthält, als genauso relevant angesehen wie ein Dokument, das alle diese Terme enthält. • Die Grundidee besteht nun darin, die Operatoren and und or aufzuweichen, d.h. and soll sich ein wenig wie or verhalten und umgekehrt. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 136 Erweitertes boolsches Retrieval Eigenschaften dieser Modelle • Weniger strikte Interpretation der boolschen Operatoren • Ranking der Dokumente im Anfrageergebnis • Gewichtung der Dokumentterme (Gewichte wi,k ) • Im P-Norm-Modell können auch die Anfrageterme gewichtet werden. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 135 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 137 3. Retrievalmodelle Erweitertes boolsches Retrieval Grundideen • O.b.d.A. liegen die wi,k im Intervall [0, 1]. • Das Retrieval basiert auf der Berechnung des Werts einer Ähnlichkeitsfunktion zwischen der Anfrage und den Dokumenten. Sämtliche Modelle orientieren sich an grundlegenden Konzepten für sogenannte unscharfe Mengen (fuzzy sets). 3. Retrievalmodelle Erweitertes boolsches Retrieval Unscharfe und herkömmliche Mengen • Das Gewicht wi,k ist ein Maß dafür, wie stark der Term tk das Dokument di charakterisiert. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 138 Erweitertes boolsches Retrieval • Herkömmliche Mengen (scharfe Mengen) lassen sich als Spezialfall einer unscharfen Menge schreiben. • Hierzu wählt man für eine scharfe Menge X die charakteristische Funktion als µX , d.h.: 1 falls d ∈ X µX (d) = 0 sonst • Darstellung der leeren Menge: µ∅ ≡ 0 • Darstellung der Grundmenge: µD ≡ 1 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 140 Erweitertes boolsches Retrieval Unscharfe Mengen Operationen für unscharfe Mengen Definition 3.11. [Unscharfe Menge] Es sei D eine Menge. Eine unscharfe Menge X über dem Grundbereich D ist eine Abbildung: Definition 3.12. Es seien X und Y unscharfe Mengen über einer Grundmenge D. Dann werden Vereinigung X ∪ Y , Durchschnitt X ∩ Y und Komplement X c wie folgt definiert: µX (d) : D −→ [0, 1] µX∪Y (d) := max{µX (d), µY (d)} Für ein d ∈ D drückt dabei µX (d) ∈ [0, 1] den Grad der Zugehörigkeit von d zu X aus. µX∩Y (d) := min{µX (d), µY (d)} µX c (d) := 1 − µX (d) Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 139 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 141 3. Retrievalmodelle Erweitertes boolsches Retrieval 3. Retrievalmodelle Erweitertes boolsches Retrieval ge Dr ∩ Ds zugeordnet werden, wobei: Bemerkungen: • Die meisten Gesetze der boolschen Algebra bzw. Mengenlehre sind auch für unscharfe Mengen gültig: Kommutativität, Assoziativität, Idempotenz, Monotonie, Distributivität, deMorgansche Regeln. • Nicht erfüllt sind teilweise Gesetze, die sich auf die Komplementbildung beziehen. So sind für unscharfe Mengen beispielsweise die beiden folgenden Gesetze der Mengenlehre i. A. nicht gültig: µDr ∩Ds (d) = min{µDr (d), µDs (d)} • Ebenso könnte einer disjunktiven Anfrage tr orts die unscharfe Menge Dr ∪ Ds zugeordnet werden, mit: µDr ∪Ds (d) = max{µDr (d), µDs (d)} ☞ Das gemischte Min-Max-Modell versucht neben der Verwendung von unscharfen Mengen, die sich in den Dokumentgewichten niederschlagen, auch die boolschen Operatoren “aufzuweichen”. Xc ∩ X = ∅ Xc ∪ X = D ☞ Dies geschieht durch die Bildung einer Linearkombination von min und max. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 142 Erweitertes boolsches Retrieval Das gemischte Min-Max-Modell Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 144 Erweitertes boolsches Retrieval Definition 3.13. [gemischtes Min-Max-Modell] Gegeben seien die Anfragen Qor = t1 or t2 or . . . or tr und Grundideen: Qand = t1 and t2 and . . . and tr • Jedem Indexterm tk wird eine unscharfe Menge Dk an Dokumenten zugeordnet. • Die Funktion µDk : D −→ [0, 1] gibt für jedes Dokument den Grad der Zugehörigkeit zur Menge der Dokumente an, die durch den Term tk charakterisiert werden. • Die Gewichte wi,k entsprechen somit den Werten µk (di). wi,k ∈ [0, 1] sei das Gewicht von Term tk (1 ≤ k ≤ r) im Dokument di ∈ D. Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und den Anfragen wie folgt definiert: SIM (Qor , di) = Cor max{wi,1, . . . , wi,r } + (1 − Cor ) min{wi,1, . . . , wi,r } SIM (Qand, di) = Cand min{wi,1, . . . , wi,r }+(1−Cand) max{wi,1, . . . , wi,r } • Einer konjunktiven Anfrage tr and ts könnte nun die unscharfe MenInformation Retrieval — FH Bonn-Rhein-Sieg, SS 06 143 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 145 3. Retrievalmodelle Erweitertes boolsches Retrieval 3. Retrievalmodelle Erweitertes boolsches Retrieval wi,k ∈ [0, 1] sei das Gewicht von Term tk (1 ≤ k ≤ r) im Dokument di ∈ D. Bemerkungen: • Cor und Cand sind die sogenannten “Softness”-Koeffizienten für den Or- bzw. And-Operator. Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und den Anfragen wie folgt definiert: • Für die Koeffizienten gilt: 0 ≤ Cand, Cor ≤ 1. • Für Cand = Cor = 1 ergeben sich die Operationen der unscharfen Mengen. • Gemäß der Vorgehensweise bei unscharfen Mengen sollte für den Or-Operator dem Maximum ein stärkere Bedeutung zukommen, also: Cor > 1/2. • Analog erhält beim And-Operator das Minimum ein stärkere Bedeutung, d.h. Cand > 1/2. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 146 Erweitertes boolsches Retrieval SIM (Qor , di) = Pr i=1 P r 0 λi−1 wi,k i=1 λ i−1 Pr i−1 00 wi,k i=1 λ SIM (Qand, di) = Pr i−1 i=1 λ Hierbei ergeben sich die Gewichte 0 durch eine absteigende Sortierung der wi,k und • wi,k 00 durch eine aufsteigende Sortierung der wi,k . • wi,k Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle 148 Erweitertes boolsches Retrieval Bemerkungen: Das Paice-Modell • Für λ sollte gelten: 0 ≤ λ ≤ 1. Grundideen: • Beim gemischten Min-Max-Modell wirken sich nur die maximalen bzw. minimalen Dokumentgewichte auf den Ähnlichkeitswert aus. • Beim Paice-Modell wird versucht, alle Dokumentgewichte in den Ähnlichkeitswert einfließen zu lassen. • Durch die Sortierung in Verbindung mit den Termen λi−1 werden beim Or-Operator größere Gewichte stärker berücksichtigt, beim And-Operator dagegen kleinere Gewichte. • Für λ = 0 entspricht das Paice-Modell den Operationen bei unscharfen Mengen. Definition 3.14. [Paice-Modell] Gegeben seien die Anfragen • Für r = 2 verhält sich das Paice-Modell wie das gemischte Min-MaxModell. Qor = t1 or t2 or . . . or tr und Qand = t1 and t2 and . . . and tr Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 147 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 149 3. Retrievalmodelle Erweitertes boolsches Retrieval Das P-Norm-Modell 3. Retrievalmodelle Erweitertes boolsches Retrieval Anfragen: Anfragen im P-Norm-Modell haben die folgende Form: Qor = (t1, q1) or (t1, q2) or . . . or (tr , qr ) Grundideen: Qand = (t1, q1) and (t1, q2) and . . . and (tr , qr ) • Beim P-Norm-Modell können auch die Anfrageterme gewichtet werden. • Die Dokumentgewichte wi,1, . . . , wi,r zu den Anfragetermen t1, . . . , tr werden als Punkte in einem r-dimensionalen Raum aufgefaßt. • Man betrachte nun eine disjunktive Anfrage der Form 3. Retrievalmodelle Die qi sind hierbei die Gewichte der Anfrageterme. Definition 3.15. [P-Norm-Modell] Gegeben seien Anfragen Qor , Qand und Qnot wie oben. wi,k ∈ [0, 1] sei das Gewicht von Term tk im Dokument di ∈ D. Für ein Dokument di ∈ D wird die Ähnlichkeit SIM zwischen di und t1 or t2 or . . . or tr . Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 Qnot = not Q 150 Erweitertes boolsches Retrieval Der ungünstigste Punkt für diese Anfrage ist der Ursprung des rdimensionalen Raums. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 3. Retrievalmodelle Erweitertes boolsches Retrieval den Anfragen wie folgt definiert: SIM (Qor , di) = • Für eine konjunktive Anfrage der Form t1 and t2 and . . . and tr 152 SIM (Qand, di) = 1 − ist der Punkt (1, 1, . . . , 1) am günstigsten. Pr p p k=1 qi wi,k Pr p k=1 qi ! p1 1 qip(1 − wi,k )p p k=1P r p k=1 qi Pr SIM (Qnot, di) = 1 − SIM (Q, di) • Dementsprechend bietet es sich an, für disjunktive Anfragen die Dokumente absteigend nach der Distanz zum Ursprung zu reihen Bemerkungen: • Der Parameter p gibt die Striktheit des Operators or bzw. and an. • und für konjunktive Anfragen aufsteigend nach der Distanz zum Punkt (1, 1, . . . , 1). Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 151 • Der Wert für p reicht Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 153 3. Retrievalmodelle Erweitertes boolsches Retrieval 3. Retrievalmodelle Erweitertes boolsches Retrieval • Die Anfrageterme befinden sich an den Blättern, die inneren Knoten enthalten die Operatoren. – von 1 (am wenigsten strikt) – bis ∞ (am striktesten). • p = 2 entspricht einer (gewichteten) euklidischen Norm bei der Abstandsberechnung, p = ∞ einer (gewichteten) Maximumsnorm. • Die Festlegung auf ein geeignetes p kann auch durch das Retrievalsystem erfolgen. p = 2 hat sich als i.d.R. geeignet erwiesen. • Nachteil des P-Norm-Modells: Für p > 1 sind durch die Exponentenberechnung viele aufwendige Gleitkommaoperationen notwendig. • Der Operatorbaum wird bottom-up ausgewertet. • Zunächst werden über eine invertierte Liste die Dokumentgewichte zu den in den Blättern verzeichneten Termen ermittelt. • An den inneren Knoten müssen die verschiedenen Gewichte zu einem Dokument gemäß den Formeln des zugrundeliegenden Modells akkumuliert werden. • Es ist hilfreich, wenn die Fundstellen sortiert vorliegen (vgl. Vektorraummodell). Dann können an einem inneren Knoten die Gewichte zu einem Dokument einfacher akkumuliert werden. Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 154 3. Retrievalmodelle Erweitertes boolsches Retrieval Implementierung des erweiterten boolschen Retrievals Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 156 3. Retrievalmodelle Erweitertes boolsches Retrieval Veranschaulichung: Auswertung der Anfrage (t1 or t2 or t3) and (t4 or t5) für ein Dokument di nach dem gemischten Min-Max-Modell (Cand = Cor = 0.75): w(i, (t1 or t2 or t3) and (t4 or t5) ) = 0.625 • Aus der Anfrage wird ein Operatorbaum aufgebaut: w(i, t1 or t2 or t3 ) = 0.7 w(i, t4 or t5 ) = 0.6 and w(i,1) = 0.7 or Operatorbaum Anfrage: or zu der (t1 or t2 or t3) and (t4 or t5) t1 t2 t3 t4 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 w(i,3) = 0.8 w(i,t4) = 0.8 w(i,2) = 0.4 t1 t2 t3 t4 w(i,t5) = 0 t5 • Bei inneren Knoten, die als Söhne keine Terme haben, werden die Formeln der Modelle analog angewendet (siehe Beispiel). t5 155 Information Retrieval — FH Bonn-Rhein-Sieg, SS 06 157