Information Retrieval (SS 2011) - IR

Werbung
3. IR-­‐Modelle
Rückblick
✦
Vielfalt und Vagheit natürlicher Sprache
✦
Tokenisierung und Normalisierung
✦
Stamm-­‐ und Grundformreduk7on
✦
Komposita und Wortgruppen
✦
Synonyme und Polyseme
✦
Rechtschreibekorrektur und Edi7erdistanz nach Levenshtein
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
2
Mo1va1on
All models are wrong
but some are useful
[George Box]
IR-­‐Modelle formalisieren den Vorgang gemäß dem ein Benutzer entscheidet, inwiefern ein Dokument zu einem Informa7onsbedürfnis relevant ist
✦
Dabei beantworten sie folgende elementare Fragestellungen
✦
✦
Wie werden Dokumente und Anfragen formal repräsen7ert?
✦
Welche Dokumente sind zu einer Anfrage wie relevant?
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
3
Inhalt
(1) Boolesches Retrieval
(2) Vektorraum-­‐Modell
(3) Probabilis1sches IR
(4) Language Models
(5) Latent Seman1c Indexing
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
4
3.1 Boolesches Retrieval
✦
✦
Dokumente werden als Mengen von Termen repräsen1ert
Anfragen werden als Boolesche Ausdrücke bestehend aus Termen und den Operatoren AND, OR und NOT formuliert (george AND clooney) OR (danny AND ocean)
✦
✦
Eindeu7ge Seman7k: Dokument erfüllt Anfrage oder nicht
(Immer noch) verbreitet in der Praxis und häufig auch unterstützt von modernen Systemen (z.B. Google und Bing)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
5
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfragebearbeitung
✦
Paarweises Zusammenführen von Indexlisten
(george AND clooney) OR (danny AND ocean)
✦
Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george
d1 d7 d9 d12 d19
clooney
d4 d7 d8 d12 d20
Informa1on Retrieval (SS 2011)
…
…
3. IR-­‐Modelle
6
Anfrageop1mierung
✦
✦
Anfragen können durch Umformen und Klammern op1miert werden (vgl. Op1mierung der Join-­‐Reihenfolge in RDBMS) Kommt movie in 1,000, george in 100 und clooney in 10 Dokumenten vor, so gibt es u.a. folgende Op1onen
(movie AND george) AND clooney
1,210
movie AND (george AND clooney)
1,210
george AND (movie AND clooney)
1,120
mit jeweils maximaler Anzahl von Vergleichsopera1onen
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
7
Erweiterung & Kri1k
Boolesches Retrieval kann erweitert werden durch
✦
✦
✦
✦
Zusätzliche Operatoren basierend auf Term-­‐Posi1onen (z.B. NEAR)
Eliminieren von Stoppwörtern (z.B. a, the, this, of )
Reduk1on von Wörtern auf ihre Stammformen (Stemming)
(z.B. criminal → crimin, criminals → crimin) ✦
Keine Rangfolge (ranking) der Treffer ✦
Term-­‐Häufigkeit und Term-­‐Reihenfolge spielen keine Rolle
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
8
3.2 Vektorraum-­‐Modell
✦
✦
✦
✦
✦
Modell liefert Ergebnisse in einer Rangfolge (ranked retrieval)
Dokumente und Anfragen werden als Mul7mengen von Termen (bag of words) betrachtet
Dokumente und Anfragen werden auf Vektoren im einem hochdimensionalen Vektorraum abgebildet
Eine Dimension pro Term in der Dokumentensammlung
Wert einer Vektorkomponente gibt Gewicht des Terms an und wird, in der Regel, miiels einer Variante von \.idf bes1mmt
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
9
j.idf
Intui1on: Ein Term t
✦
✦
✦
✦
✦
soll mehr Gewicht haben, wenn er häufig in d vorkommt
soll weniger Gewicht haben, wenn er in vielen Dokumenten vorkommt und damit wenig trennscharf (discrimina6ve) ist
Term-­‐Häufigkeit (term frequency) als Anzahl der Vorkommen von Term t im Dokument d
Inverse Dokumenten-­‐Häufigkeit (inverse document frequency) von Term t in den N Dokumenten der Kollek1on
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
10
j.idf
Term-­‐Häufigkeit (j) und inverse Dokumenten-­‐Häufigkeit (idf) werden in einem Vektor V(d) für Dokument d kombiniert als
✦
Zahlreiche Varianten von j.idf exis1eren, z.B. mit
✦
✦
✦
✦
✦
logarithmisch transformierter Term-­‐Häufigkeit: 1 + log 2t,d
rela1ver anstai absoluter Term-­‐Häufigkeit: 2t,d / Ld
max-­‐normalisierter Term-­‐Häufigkeit: 2t,d / max-­‐2d
Manche weniger heuris7schen Modelle (z.B. Unigram Language Model) lassen sich in „\.idf-­‐Variante“ umformen
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
11
Distanzen von Vektoren
✦
Wie bringt man Dokumente in Rangfolge zu Anfrage q?
✦
Idee: Ordne Dokumente nach ihrer Nähe oder Distanz zu q
✦
Manha_an (L1) Distanz
✦
clooney
V(d1)
Euklidische (L2) Distanz
V(d2) V(q)
george
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
12
Kosinus-­‐Ähnlichkeit
✦
✦
Manhaian Distanz und Euklidische Distanz ungeeignet, da sie von der Länge der Vektoren (und damit der Länge der Dokumente) abhängig sind
Kosinus-­‐Ähnlichkeit (cosine similarity) als Kosinus des Winkels zwischen den Vektoren ist nur von ihrer Richtung abhängig
clooney
V(d1)
V(d2) V(q)
george
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
Beispiel zu Vektorraum-­‐Modell
car
auto
insurance
has
Informa1on Retrieval (SS 2011)
d1
10
2
10
1
3. IR-­‐Modelle
d2
2
0
0
2
d3
5
0
5
2
d4
2
0
0
1
d5
0
5
5
1
14
Beispiel zu Vektorraum-­‐Modell
car
auto
insurance
has
Informa1on Retrieval (SS 2011)
d1
10
2
10
1
3. IR-­‐Modelle
d2
2
0
0
2
d3
5
0
5
2
d4
2
0
0
1
d5
0
5
5
1
dft
4
2
3
5
14
Beispiel zu Vektorraum-­‐Modell
car
auto
insurance
has
Informa1on Retrieval (SS 2011)
d1
10
2
10
1
3. IR-­‐Modelle
d2
2
0
0
2
d3
5
0
5
2
d4
2
0
0
1
d5
0
5
5
1
dft
4
2
3
5
idft
0.01
0.40
0.22
0.00
14
Beispiel zu Vektorraum-­‐Modell
car
auto
insurance
has
car
auto
insurance
has
Informa1on Retrieval (SS 2011)
d1
10
2
10
1
V(d1 )
0.10
0.80
2.20
0.00
3. IR-­‐Modelle
d2
2
0
0
2
d3
5
0
5
2
V(d2 )
0.02
0.00
0.00
0.00
d4
2
0
0
1
V(d3 )
0.05
0.00
1.10
0.00
d5
0
5
5
1
dft
4
2
3
5
V(d4 )
0.02
0.00
0.00
0.00
idft
0.01
0.40
0.22
0.00
V(d5 )
0.00
2.00
1.10
0.00
14
Beispiel zu Vektorraum-­‐Modell
car
auto
insurance
has
car
auto
insurance
has
✦
d1
10
2
10
1
V(d1 )
0.10
0.80
2.20
0.00
d2
2
0
0
2
d3
5
0
5
2
V(d2 )
0.02
0.00
0.00
0.00
d4
2
0
0
1
V(d3 )
0.05
0.00
1.10
0.00
Für die Anfrage auto insurance erhält man miiels Kosinus-­‐Ähnlichkeit
als Rangfolge
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
d5
0
5
5
1
dft
4
2
3
5
V(d4 )
0.02
0.00
0.00
0.00
d5
d1
d3
d4
d2
idft
0.01
0.40
0.22
0.00
V(d5 )
0.00
2.00
1.10
0.00
sim(q, d)
0.96
0.91
0.71
0.00
0.00
14
Anfragebearbeitung
Effiziente Anfragebearbeitung dank folgender Beobachtungen ✦
✦
Kosinus-­‐Ähnlichkeit lässt sich als Skalarprodukt von L2-­‐normalisierten Vektoren darstellen
V(d)t
V(d)t
�
v(d)t =
= �
|V(d)|
2
V(d)
t
t
sim(q, d) = v(q) · v(d)
✦
✦
Vektoren können bereits L2-­‐normalisiert indexiert werden
Es reicht aus, nur Terme aus der Anfrage zu betrachten sim(q, d) =
�
v(q)t v(d)t
t∈q
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
15
Erweiterungen & Kri1k
✦
✦
✦
Rocchios Algorithmus verwendet Feedback des Benutzers über relevante und nicht-­‐relevante Dokumente (relevance feedback), um den Anfragevektor anzupassen
Varianten des Vektorraum-­‐Modells finden sich in vielen exis7erenden Systemen (z.B. Apache Lucene) und liefern gute Ergebnisse auf verschiedensten Dokumentensammlungen Häufiger Kri1kpunkt am Vektorraum-­‐Modell ist seine mangelnde theore7sche Fundierung – jedoch lassen sich einige der vorgeblich fundierteren Ansätze darauf abbilden
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
16
3.3 Probabilis7sches IR
✦
✦
✦
Boolesches Retrieval und Vektorraum-­‐Modell bes1mmen heuris7sch ob/wie relevant ein Dokument d zur Anfrage q ist
Wahrscheinlichkeitstheorie (probability theory) bietet ein theore1sches Fundament, um über die Wahrscheinlichkeiten von Ereignissen zu reden und damit umzugehen
Probabilis7sches IR bes1mmt die Wahrscheinlichkeit des Ereignis “Dokument d ist zur Anfrage q relevant”
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
17
Wahrscheinlichkeitsrechnung
✦
Gemeinsame Wahrscheinlichkeit der zwei Ereignisse A und B
P(A ∩ B) = P(B ∩ A)
✦
Bedingte Wahrscheinlichkeit für Ereignis A gegeben Ereignis B
P(A | B)
✦
Für gemeinsame Wahrscheinlichkeit (joint probability) und bedingte Wahrscheinlichkeiten (condi6onal probability) gilt
P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A) = P(B ∩ A)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
18
Wahrscheinlichkeitsrechnung
✦
Sind zwei Ereignisse A und B voneinander unabhängig gilt
P(A ∩ B) = P(A) P(B)
P(B | A) = P(B)
P(A | B) = P(A)
✦
Satz von Bayes zum Umkehren bedingter Wahrscheinlichkeiten
P(B | A) P(A)
P(A | B) =
P(B)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
19
Probabilis1c Ranking Principle (PRP)
✦
Probabilis1c Ranking Principle (PRP) schlägt vor, Dokumente in absteigender Rangfolge ihrer Wahrscheinlichkeit zur Anfrage relevant zu sein zu ordnen
P(R = 1 | d, q)
✦
✦
Man kann zeigen, dass das PRP zu op7maler Precision führt, wenn man annimmt dass die Wahrscheinlichkeiten genau bekannt und unabhängig voneinander sind
Beide Annahmen sind in der Realität fragwürdig z.B. aufgrund von Duplikaten in der Dokumentensammlung
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
20
Binary Independence Model
✦
✦
✦
Binary Independence Model (BIM) betrachtet Dokumente und Anfragen als Mengen von Termen, d.h. es wird –binär– festgehalten, ob ein Term vorhanden ist oder nicht
Eine grundlegende Annahme des BIM ist, dass Terme unabhängig voneinander in Dokumenten vorkommen
Rangfolge der Dokumente gemäß des PRP nach ihrer Relevanz-­‐Wahrscheinlichkeit P(R = 1 | d, q), für die gilt:
P(R = 1 | d, q) + P(R = 0 | d, q) = 1
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
21
Binary Independence Model
✦
Die gleiche Rangfolge der Dokumente erhält man, wenn man stai Wahrscheinlichkeiten deren Quoten (odds) betrachtet
P(R = 1 | d, q)
O(R | d, q) =
P(R = 0 | d, q)
✦
Durch Anwendung des Satz von Bayes erhält man
P(R = 1 | q) P(d | R = 1, q)
O(R | d, q) =
·
P(R = 0 | q) P(d | R = 0, q)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
22
Binary Independence Model
✦
Die gleiche Rangfolge der Dokumente erhält man, wenn man stai Wahrscheinlichkeiten deren Quoten (odds) betrachtet
P(R = 1 | d, q)
O(R | d, q) =
P(R = 0 | d, q)
✦
Durch Anwendung des Satz von Bayes erhält man
P(R = 1 | q) P(d | R = 1, q)
O(R | d, q) =
·
P(R = 0 | q) P(d | R = 0, q)
Kann ignoriert werden,
da konstant für Anfrage q
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
22
Binary Independence Model
✦
Unter der Annahme unabhängiger Termvorkommen
P(d | R = 1, q) � P(t | R = 1, q)
=
P(d | R = 0, q)
P(t | R = 0, q)
t∈V
✦
Unter der Annahme, dass nur Anfrageterme eine Rolle spielen
P(d | R = 1, q) � P(t | R = 1, q)
≈
P(d | R = 0, q) t∈q P(t | R = 0, q)
✦
Auseilung in vorhandene und fehlende Anfrageterme
� P(t | R = 1, q) � P(t | R = 1, q)
P(d | R = 1, q)
≈
·
P(d | R = 0, q)
P(t | R = 0, q) t∈q P(t | R = 0, q)
t∈q
t�∈d
t∈d
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
23
Binary Independence Model
✦
Definiere pt und ut als die Wahrscheinlichkeit, dass Term t in einem relevanten bzw. nicht-­‐relevanten Dokument vorkommt
� pt � 1 − pt
P(d | R = 1, q)
≈
·
P(d | R = 0, q)
ut t∈q 1 − ut
t∈q
t∈d
✦
t�∈d
Durch einfaches Umformen erhält man
� pt (1 − ut ) � 1 − pt
P(d | R = 1, q)
≈
·
P(d | R = 0, q)
ut (1 − pt ) t∈q 1 − ut
t∈q
t∈d
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
24
Binary Independence Model
✦
Definiere pt und ut als die Wahrscheinlichkeit, dass Term t in einem relevanten bzw. nicht-­‐relevanten Dokument vorkommt
� pt � 1 − pt
P(d | R = 1, q)
≈
·
P(d | R = 0, q)
ut t∈q 1 − ut
t∈q
t∈d
✦
t�∈d
Durch einfaches Umformen erhält man
� pt (1 − ut ) � 1 − pt
P(d | R = 1, q)
≈
·
P(d | R = 0, q)
ut (1 − pt ) t∈q 1 − ut
t∈q
t∈d
Kann ignoriert werden,
da konstant für Anfrage q
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
24
Binary Independence Model
✦
✦
Beim Mul1plizieren kleiner Wahrscheinlichkeiten ist es, um numerische Ungenauigkeit zu vermeiden, os empfehlenswert staidessen die Summe ihrer Logarithmen zu betrachten
Der sogenannte Retrieval-­‐Status-­‐Wert (retrieval status value) liefert die gleiche Rangfolge und ist definiert als
� pt (1 − ut ) �
pt (1 − ut )
RSVd = log
=
log
ut (1 − pt )
ut (1 − pt )
t∈q
t∈q
t∈d
Informa1on Retrieval (SS 2011)
t∈d
3. IR-­‐Modelle
25
Schätzen der Wahrscheinlichkeiten pt und ut
✦
Unter der Annahme, dass die Zahl der relevanten Dokumente im Vergleich zur Dokumentensammlung klein ist, schätzt man
dft
ut =
N
✦
Mangels Wissen über die Menge der zur Anfrage relevanten Dokumente schätzt man
pt = 1 − pt = 0.5
✦
Damit entspricht das BIM folgender “\.idf-­‐Variante”
�
�
(1 − ut ) �
N − dft
N
RSVd =
log
=
log
≈
log
ut
dft
dft
t∈q
t∈q
t∈q
t∈d
Informa1on Retrieval (SS 2011)
t∈d
3. IR-­‐Modelle
t∈d
26
Erweiterungen & Kri1k
✦
✦
✦
Feedback des Benutzers über relevante und nicht-­‐relevante Dokumente (relevance feedback) kann bei Schätzung von pt und ut einfließen und direkt vom BIM verwendet werden BIM liefert tendenziell gute Ergebnisse auf Sammlungen von Dokumenten homogener Länge, überzeugt jedoch nicht bei heterogener Dokumentenlänge (z.B. World Wide Web)
Theore7sch fundierter Ansatz, welcher jedoch einige in der Realität fragwürdige Annahmen triu (z.B. Unabhängigkeit)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
27
Okapi BM25
✦
✦
Okapi BM25 ist ein probabilis1sches IR-­‐Modell, welches auf dem BIM auvaut, jedoch Term-­‐Häufigkeiten berücksich1gt
Für die Verteilung der Term-­‐Häufigkeiten in relevanten und nicht-­‐relevanten Dokumenten (analog zu pt und ut) wird angenommen, dass sie Poisson-­‐verteilt sind
P(tft,d
Informa1on Retrieval (SS 2011)
λk −λ
= k) =
e
k!
3. IR-­‐Modelle
28
Okapi BM25
�
(k1 + 1) tft,d
N − dft + 0.5
RSVd =
· log
k ((1 − b) + b (Ld /Lave )) + tft,d
dft + 0.5
t∈q 1
Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦
✦
✦
für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM
in der Praxis liefert k1 = 1.2 gute Ergebnisse
Parameter b kontrolliert Normalisierung der Term-­‐
Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave
✦
✦
✦
für b = 0.0 spielt die Länge des Dokumentes keine Rolle
in der Praxis liefert b = 0.75 gute Ergebnisse
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
29
Okapi BM25
�
(k1 + 1) tft,d
N − dft + 0.5
RSVd =
· log
k ((1 − b) + b (Ld /Lave )) + tft,d
dft + 0.5
t∈q 1
~ \
Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦
✦
✦
für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM
in der Praxis liefert k1 = 1.2 gute Ergebnisse
Parameter b kontrolliert Normalisierung der Term-­‐
Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave
✦
✦
✦
für b = 0.0 spielt die Länge des Dokumentes keine Rolle
in der Praxis liefert b = 0.75 gute Ergebnisse
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
29
Okapi BM25
�
(k1 + 1) tft,d
N − dft + 0.5
RSVd =
· log
k ((1 − b) + b (Ld /Lave )) + tft,d
dft + 0.5
t∈q 1
~ \
~ idf
Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦
✦
✦
für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM
in der Praxis liefert k1 = 1.2 gute Ergebnisse
Parameter b kontrolliert Normalisierung der Term-­‐
Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave
✦
✦
✦
für b = 0.0 spielt die Länge des Dokumentes keine Rolle
in der Praxis liefert b = 0.75 gute Ergebnisse
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
29
Erweiterungen & Kri1k
✦
✦
✦
Okapi BM25F (F steht für fields) als eine Erweiterung zur separaten Betrachtung und Gewichtung unterschiedlicher Bereiche (fields) eines Dokumentes z.B. Titel (6tle), Inhalt (body) und Verweistexte (anchor texts)
Okapi BM25 liefert sehr gute Ergebnisse auf verschiedensten Dokumentensammlungen und gilt als “Stand der Technik”
Theore7sch fundierter Ansatz, welcher jedoch einige in der Realität fragwürdige Annahmen triu (z.B. Unabhängigkeit)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
30
3.4 Language Models
Probabilis1c Language Models beschreiben die Generierung einer (formalen) Sprache (z.B. Folge von Termen)
✦
dog : 0.3 / cat : 0.3 / bird : 0.4
s
0.9
0.1
t
P(dog) = 0.3 × 0.1 = 0.03
P(dog cat) = 0.3 × 0.9 × 0.3 × 0.1 = 0.0081
P(cat bird) = 0.3 × 0.9 × 0.4 × 0.1 = 0.0108
Anwendungsbeispiele im Umgang mit natürlicher Sprache
✦
✦
✦
✦
Spracherkennung: Wähle sinnvolleren aus phone1sch ähnlichen Sätzen (z.B. “get up at 8 o’clock” und “get a potato clock”)
Maschinelles Übersetzen: Wähle sinnvollere aus möglichen Übersetzungen (z.B. “logic closing” und “logical reasoning”)
Informa7on Retrieval: Ordne Dokumente danach wie sinnvoll sie für eine vorliegende Anfrage erscheinen
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
31
Query-­‐Likelihood
✦
✦
✦
✦
Intui1on: Benutzer hat Vorstellung vom idealen Dokument d und formuliert eine Anfrage q um genau dieses zu finden
Modell beschreibt wie Benutzer eine Anfrage q anhand von Dokument d formuliert (z.B. zufällige Auswahl von Termen)
Als Vorberechnung wird für jedes Dokument solch ein generierendes Modell u.a. anhand seines Inhalts geschätzt
Zur Anfragezeit präsen1ert man Dokumente in der Reihenfolge von P(q|d) – der Wahrscheinlichkeit dass die Anfrage q anhand vom jeweiligen Dokument formuliert wurde
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
32
Unigram Language Models
✦
✦
Dokumente und Anfragen sind Mul7mengen von Termen
Benutzer formuliert Anfrage durch Ziehen (mit Zurücklegen) einzelner Terme (Unigramme) aus dem Dokument
� tft,d
Lq !
P(q | d) = �
t∈q tft,q ! t∈q Ld
∝
✦
� tft,d
t∈q
Ld
Mögliche Erweiterung durch a-­‐priori Wahrscheinlichkeit P(d) für Dokument d, die z.B. von dessen Popularität abhängt
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
33
Smoothing
✦
✦
✦
Bisher beschrieber Ansatz hat konjunk7ve Seman7k, d.h., nur für Dokumente die alle Anfrageterme enthalten gilt P(q|d) > 0
Smoothing (GläFen) eliminiert Nullwahrscheinlichkeiten durch Einbeziehen von Sta1s1ken über die Dokumentenkollek1on
Jelinek-­‐Mercer Smoothing (Lineare Interpola1on): Benutzer zieht Term mit Wahrscheinlichkeit α aus Dokument und mit Wahrscheinlichkeit (1 -­‐ α) aus Dokumentenkollek1on
tft,d
tft,D
P(t | d) = α
+ (1 − α)
Ld
LD
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
34
Smoothing
✦
Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme
P(t | d) =
✦
tft,d + κ tfLt,D
D
Ld + κ
Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante”
�
�
�
α
tft,d LD
sim(q, d) =
log 1 +
1 − α Ld tft,D
t∈q
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
35
Smoothing
✦
Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme
P(t | d) =
✦
tft,d + κ tfLt,D
D
Ld + κ
Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante”
�
�
�
α
tft,d LD
sim(q, d) =
log 1 +
1 − α Ld tft,D
t∈q
~ \
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
35
Smoothing
✦
Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme
P(t | d) =
✦
tft,d + κ tfLt,D
D
Ld + κ
Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante”
�
�
�
α
tft,d LD
sim(q, d) =
log 1 +
1 − α Ld tft,D
t∈q
~ \
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
~ idf
35
Beispiel Unigram LM mit JM Smoothing
car
auto
insurance
has
car
auto
insurance
has
P(t | d1 )
10 / 23
2 / 23
10 / 23
1 / 23
Informa1on Retrieval (SS 2011)
P(t | d2 )
1/2
0
0
1/2
P(t | d3 )
5 / 12
0
5 / 12
1/6
3. IR-­‐Modelle
d1
10
2
10
1
P(t | d4 )
2/3
0
0
1/3
d2
2
0
0
2
d3
5
0
5
2
d4
2
0
0
1
d5
0
5
5
1
P(t | d5 )
0
5 / 11
5 / 11
1/11
P(t | D)
19 / 53
7 / 53
20 / 53
7 / 53
d5
d1
d3
d4
d2
P(q | d)
0.15
0.04
0.01
0.00
0.00
36
Beispiel Unigram LM mit JM Smoothing
car
auto
insurance
has
car
auto
insurance
has
P(t | d1 )
10 / 23
2 / 23
10 / 23
1 / 23
P(t | d2 )
1/2
0
0
1/2
✦
Informa1on Retrieval (SS 2011)
P(t | d3 )
5 / 12
0
5 / 12
1/6
d1
10
2
10
1
P(t | d4 )
2/3
0
0
1/3
d2
2
0
0
2
P(t | d5 )
0
5 / 11
5 / 11
1/11
Für die Anfrage auto insurance
und α = 0.7 erhält man
als Rangfolge
3. IR-­‐Modelle
d3
5
0
5
2
d5
d1
d3
d4
d2
d4
2
0
0
1
d5
0
5
5
1
P(t | D)
19 / 53
7 / 53
20 / 53
7 / 53
P(q | d)
0.15
0.04
0.01
0.00
0.00
36
n-­‐Gram Language Models
✦
✦
Term-­‐Reihenfolge wird ignoriert in Unigram Language Models
➔ Anfragen paris hilton und hilton paris nicht unterscheidbar
n-­‐Gramm ist eine Folge von n Termen
the hilton paris close
to the eiffel tower
✦
✦
1-Gramme: 〈the〉 〈hilton〉 〈paris〉 …
2-Gramme: 〈the, hilton〉 〈hilton, paris〉 …
3-Gramme: 〈the, hilton, paris〉 〈hilton, paris, close〉 …
Dokumente und Anfragen betrachtet als Folgen von Termen
Benutzer formuliert seine Anfrage durch zufälliges Ziehen von Termen unter Berücksich1gung der bis zu (n-­‐1) zuvor bereits gezogenen Terme
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
37
n-­‐Gram Language Models
✦
Für n = 3 erhalten wir folgendes Trigram Language Model P(�q1 . . . qm � | d) = P(q1 ) P(q2 | q1 )
✦
✦
m
�
P(qi | qi−2 qi−1 )
i=3
Smoothing wird umso wich1ger je höher die Ordnung (d.h. der Wert von n) des verwendeten Language Models ist
Language Models höherer Ordnung (d.h. n > 1) sind gängig für Spracherkennung und maschinelles Übersetzen; im Informa1on Retrieval werden sie meist nicht verwendet
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
38
Transla1on Language Models
Umgang mit Synonymen (z.B. automobile und car) sowie seman7sch ähnlichen Termen (z.B. tiger und lion)
��
P(q | d) =
P(t | v) P(v | d)
✦
t∈q v∈d
Wahrscheinlichkeit P(t|v) dass Term v aus Dokument in Anfrageterm t übersetzt wird geschätzt anhand von
✦
✦
Thesaurus (z.B. WordNet)
Sta1s1ken über gemeinsam vorkommende Terme
(z.B. tiger und lion kommen beide os mit zoo und cat vor)
✦
Query logs (d.h. von Benutzern formulierte Anfragen)
✦
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
39
Erweiterungen & Kri1k
✦
Zahlreiche Erweiterungen von Language Models fürs IR z.B.
✦ mit term-­‐spezifischem Smoothing (d.h. wir haben α und κ )
t
t
✦
✦
✦
personalisiert durch Benutzerverhalten und -­‐kontext (abgeleitet aus Query-­‐ oder Click-­‐Logs)
cross-­‐lingual um mit Anfrage in einer Sprache (z.B. Deutsch) Dokumente in einer anderen Sprache (z.B. Englisch) zu finden
für Informa7onsbedürfnisse mit Zeitbezug durch Berücksich1gung von Zeitreferenzen in Dokumenten (z.B. im Mai 2011)
✦
Rich1ge Wahl der Parameter ist essen1ell aber schwierig
✦
Unabhängigkeitsannahmen sind in der Realität fragwürdig
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
40
3.5 Latent Seman7c Indexing
✦
✦
✦
✦
Bisher besprochene IR-­‐Modelle sind term-­‐orien7ert und betrachten bekannte Terme unabhängig voneinander Vektorraum-­‐Modell z.B. betrachtet einen m-­‐dimensionalen Vektorraum mit einer Dimension pro bekanntem Term
Synonyme (z.B. car und automobile) und Polyseme (z.B. bank) führen zu einer Verringerung der Ergebnisgüte
Latent Seman7c Indexing bildet Dokumente und Anfragen in einen k-­‐dimensionalen Vektorraum (k << n) ab, dessen Dimensionen verborgenen (latent) Konzepten entsprechen
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
41
Lineare Unabhängigkeit und Rang einer Matrix
✦
✦
✦
Defini1on: Die Vektoren v1 … vn sind linear unabhängig, wenn sich kein vi als Linearkombina7on der anderen Vektoren darstellen lässt
Defini1on: Der Rang rank(C) einer m x n Matrix C ist die maximale Anzahl ihrer linear unabhängigen Zeilen-­‐ oder Spaltenvektoren
Defini1on: Eine n x n Matrix C heisst Diagonalmatrix, wenn nur für i = j gilt Cij ≠ 0 Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
42
Eigenvektoren und Eigenwerte
✦
Defini1on: Gilt für eine reelle m x m Matrix C, einen Wert λ und einen m x 1 Vektor x
Cx = λx
so ist x ein (rechter) Eigenvektor und λ ein Eigenwert von C
✦
Intui1on: Eigenvektoren sind die Vektoren, deren Richtung bei der durch C beschriebenen Transforma1on erhalten bleibt
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
43
Beispiel Eigenvektoren und Eigenwerte
✦
Die Matrix C beschreibt Illustrat
eine aion
ffine Transforma7on x → C x
of Eigenvec
tors
§ 2 1·
Matrix A ¨
¸
©1 3 ¹
C=
�
describes
affine transformation
x Ax
2 1
1 3
Eigenvector
�
x1 = (0.52 0.85)T
for Eigenvalue O1=3.62
Eigenvector
x2 = (0.85 -0.52)T
for Eigenvalue O2=1.38
IRDM WS 2009
✦
✦
4-70
Eigenwert λ1 = 3.62 mit Eigenvektor Eigenwert λ2 = 1.38 mit Eigenvektor Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
�
�
0.62
−1.62
1.00
�T
1.00
�T
44
Singulärwertzerlegung
Theorem: Für jede reelle m x n Matrix C mit Rang r gibt es eine Singulärwertzerlegung (singular value decomposi6on) der Form
✦
C = U Σ VT
mit den Faktoren
✦
✦
✦
✦
U als eine m x r Matrix bestehend aus den Eigenvektoren der Matrix CCT Σ als eine r x r Diagonalmatrix mit den Singulärwerten σi der Matrix C auf der Diagonalen
V als eine n x r Matrix bestehend aus den Eigenvektoren
der Matrix CTC Singulärwertzerlegung (SVD) ist eindeu7g unter Voraussetzung dass Singulärwerte σi in Σ absteigend nach Größe geordnet sind
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
45
Singulärwertzerlegung
n
m
�
r
=
C
3.00
0.00
0.00
2.00
1.00
3.00
�
�
m
0.52
0.85
U
−0.85
0.53
r
X
r
n
Σ
X
�
3. IR-­‐Modelle
V T
�
3.85
0.00
0.00
2.85
�
Informa1on Retrieval (SS 2011)
r
�
0.41
−0.89
0.44
0.37
0.80
0.25
46
�
Singulärwertzerlegung zur Approxima1on
Theorem: Für die m x n Matrix C mit Rang r sei Ck definiert als
✦
C k = U k Σ k Vk T
mit den Faktoren
✦
✦
✦
Σk als k x k Diagonalmatrix der k größten Singulärwerte von C
Uk als m x k Matrix der entsprechenden Eigenvektoren aus U
Vk als k x n Matrix der entsprechenden Eigenvektoren aus V
Unter allen m x n Matrizen mit einem Rang von höchstens k minimiert Ck die Frobenius-­‐Norm
�
��
n
�m �
�
�2
�C − Ck �F = �
Cij − Ck ij
i=1 j=1
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
47
Singulärwertzerlegung zur Approxima1on
k
n
m
�
=
Ck
0.82
1.34
0.88
1.44
1.60
2.61
�
k
k
m
�
Uk
0.52
0.85
n
Σk
k
X
X
�
�
3.85
�
�
Informa1on Retrieval (SS 2011)
Vk T
3. IR-­‐Modelle
0.41
0.44
0.80
48
�
Latent Seman1c Indexing
✦
✦
Ausgangspunkt ist eine m x n Term-­‐Dokumenten-­‐Matrix C, deren Komponente Cij das Gewicht (z.B. bes1mmt
miiels j.idf) des i-­‐ten Terms im j-­‐ten Dokument angibt
Latent Seman1c Indexing (LSI) wendet SVD auf die Matrix C an und bes1mmt eine Approxima1on Ck vom Rang k als
C k = U k Σ k Vk T
✦
Anfrage q im m-­‐dimensionalen Term-­‐Vektorraum wird in k-­‐dimensionalen Konzept-­‐Vektorraum abgebildet als
qk = Σk −1 Uk T q
und dort mit den k-­‐dimensionalen Abbildungen der Dokumente verglichen (z.B. miiels Kosinus-­‐Ähnlichkeit)
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
49
Latent Seman1c Indexing
✦
Term-­‐Dokument Matrix C

d1
10
car
auto 
 2
insurance  10
has
1
✦
Term-­‐Term Matrix CCT 
133
 20

 125
26
20
29
45
7
Informa1on Retrieval (SS 2011)
125
45
150
25

26
7 

25 
11
d2
d3
d4
2
0
0
2
5
0
5
2
2
0
0
1
d5

0
5 

5 
1
Dokument-­‐Dokument-­‐Matrix CTC






205
22
102
21
61
3. IR-­‐Modelle
22
8
14
6
2
102
14
54
12
27
21 61
6 2
12 27
5 1
1 51






50
Beispiel Latent Seman1c Indexing

10
 2
C=
 10
1
Informa1on Retrieval (SS 2011)
2
0
0
2
5
0
5
2
3. IR-­‐Modelle
2
0
0
1

0
5 

5 
1
Term-­‐Dokument (m x n)
51
Beispiel Latent Seman1c Indexing


0.66
 0.18
U=
 0.72
0.13
Informa1on Retrieval (SS 2011)
10
 2
C=
 10
1
0.58
−0.73
−0.35
0.05
2
0
0
2
0.07
0.26
−0.30
0.91
5
0
5
2
0
5 

5 
1

−0.48
−0.60 

0.52 
0.38
3. IR-­‐Modelle
2
0
0
1

Term-­‐Dokument (m x n)
Term-­‐Konzept (m x r)
51
Beispiel Latent Seman1c Indexing

10
 2
C=
 10
1
0
5 

5 
1


0.66 0.58
0.07 −0.48
 0.18 −0.73 0.26 −0.60 

U=
 0.72 −0.35 −0.30 0.52 
0.13 0.05
0.91
0.38


16.75
0
0
0
 0
5.85
0
0 


Σ=
0
0
2.59
0 
0
0
0
1.21
Informa1on Retrieval (SS 2011)
2
0
0
2
5
0
5
2
3. IR-­‐Modelle
2
0
0
1

Term-­‐Dokument (m x n)
Term-­‐Konzept (m x r)
Konzept-­‐Konzept (r x r)
51
Beispiel Latent Seman1c Indexing

10
 2
C=
 10
1


V =

T
0
5 

5 
1


0.66 0.58
0.07 −0.48
 0.18 −0.73 0.26 −0.60 

U=
 0.72 −0.35 −0.30 0.52 
0.13 0.05
0.91
0.38


16.75
0
0
0
 0
5.85
0
0 


Σ=
0
0
2.59
0 
0
0
0
1.21

0.85
0.09 0.43 0.09
0.28
0.15
0.21 0.21 0.21 −0.92 

−0.34 0.76 0.26 0.41
0.27 
−0.33 −0.16 0.80 −0.47 −0.01
Informa1on Retrieval (SS 2011)
2
0
0
2
5
0
5
2
3. IR-­‐Modelle
2
0
0
1

Term-­‐Dokument (m x n)
Term-­‐Konzept (m x r)
Konzept-­‐Konzept (r x r)
Konzept-­‐Dokument (r x n)
51
Beispiel Latent Seman1c Indexing
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
52
Beispiel Latent Seman1c Indexing
Σ2 =
Informa1on Retrieval (SS 2011)
�
16.75
0
3. IR-­‐Modelle
0
5.85
�
Konzept-­‐Konzept (k x k)
52
Beispiel Latent Seman1c Indexing

0.66
 0.18
U2 = 
 0.72
0.13
Σ2 =
Informa1on Retrieval (SS 2011)
�

0.58
−0.73 

−0.35 
0.05
16.75
0
3. IR-­‐Modelle
0
5.85
�
Term-­‐Konzept (m x k)
Konzept-­‐Konzept (k x k)
52
Beispiel Latent Seman1c Indexing

0.66
 0.18
U2 = 
 0.72
0.13
Σ2 =
V2 T =
�
0.85
0.15
Informa1on Retrieval (SS 2011)
0.09
0.21
�
0.43
0.21

0.58
−0.73 

−0.35 
0.05
Term-­‐Konzept (m x k)
0
5.85
�
Konzept-­‐Konzept (k x k)
0.09 0.28
0.21 −0.92
�
Konzept-­‐Dokument (k x n)
16.75
0
3. IR-­‐Modelle
52
Beispiel Latent Seman1c Indexing

9.91
 1.92
C2 = 
 9.94
1.90
1.71
−0.63
0.66
0.26
1.71 −0.03
−0.63 4.77 

0.66
5.26 
0.26
0.34


0.66 0.58
 0.18 −0.73 

U2 = 
 0.72 −0.35 
0.13 0.05
5.47
0.40
4.76
1.00
Σ2 =
V2 T =
�
0.85
0.15
Informa1on Retrieval (SS 2011)

0.09
0.21
�
0.43
0.21
Term-­‐Dokument (m x n)
Term-­‐Konzept (m x k)
0
5.85
�
Konzept-­‐Konzept (k x k)
0.09 0.28
0.21 −0.92
�
Konzept-­‐Dokument (k x n)
16.75
0
3. IR-­‐Modelle
52
Beispiel Latent Seman1c Indexing
✦
Die Anfrage auto insurance wird abgebildet als

0.00
�
�

0.05
−1
T  1.00
q2 =
= Σ 2 U2 
1.00
−0.18
0.00
✦
Informa1on Retrieval (SS 2011)
Bei Verwendung der
Kosinus-­‐Ähnlichkeit erhält man die Rangfolge
3. IR-­‐Modelle
d5
d1
d3
d2
d4




sim(q, d)
1.00
0.10
-0.18
-0.78
-0.78
53
Erweiterungen & Kri1k
✦
✦
✦
✦
Probabilis7c Latent Seman7c Indexing (pLSI) ist ein verwandter probabilis1scher Ansatz, welcher jedoch auf nicht-­‐nega7ver Matrixzerlegung (anstelle von SVD) basiert Latent Seman1c Indexing liefert tendenziell gute Ergebnisse auf homogenen Dokumentensammlungen (z.B. TREC); auf heterogenen (z.B. World Wide Web) überzeugt es nicht
In der Praxis ist die Berechnung der Singulärwertzerlegung sehr rechenintensiv und die Wahl des Parameters k schwierig
Theore7sch fundierter algebraischer Ansatz, der jedoch aufgrund seiner Einschränkungen wenig Anwendung findet
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
54
Zusammenfassung
✦
✦
IR-­‐Modelle bieten formale Repräsenta7on von Anfragen und Dokumenten und bes1mmen, welche Dokumente zu einer Anfrage in welcher Reihenfolge zurückgeliefert werden
In der Praxis wird häufig eine Kombina7on von Booleschem Retrieval und einem weiteren IR-­‐Modell zur Bes1mmung der Rangfolge (z.B. Okapi BM25) verwendet
Beispiel: Eine Anfrage wie
george AND clooney AND NOT friends
wird zuerst als Boolesche Anfrage interpre1ert; die Rangfolge der Treffer wird dann miiels Okapi BM25 für die Anfrage george clooney bes1mmt
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
55
Quellen & Literatur
[1] K. Berberich, S. Bedathur, O. Alonso, G. Weikum: A Language Modeling Approach for Temporal Informa6on Needs, ECIR 2010.
[2] W. B. Cros, D. Metzler and T. Strohman: Search Engines Informa6on Retrieval in Prac6ce
Addison Wesley, 2010. (Kapitel 7)
[3] A. Henrich: Informa6on Retrieval 1 Grundlagen, Modelle und Anwendungen,
Oio-­‐Friedrich-­‐Universität Bamberg, 2008. (Kapitel 4 + 5 + 7)
[4] T. Hoffmann: Probabilis6c Seman6c Indexing, SIGIR 1999
[5] D. Hiemstra: Using Language Models for Informa6on Retrieval, Disserta1on, 2001
[6] J. Luxenburger, S. Elbassuoni, G. Weikum: Matching Task Profiles and User Needs in Personalized Web Search, CIKM 2009.
[7] C. D. Manning, P. Raghavan and H. Schütze: Introduc_on to Informa_on Retrieval, Cambridge University Press, 2008. (Kapitel 6 + 11 + 12 + 18)
[8] S. E. Robertson, H. Zaragoza and M. J. Taylor: Simple BM25 extension to mul6ple weighted fields, CIKM 2004
[9] C. Zhai and J. Lafferty: A Study of Smoothing Methods for Language Models Applied to Informa6on Retrieval, TOIS 22(2):179-­‐214, 2004.
[10] C. Zhai: Sta6s6cal Language Models for Informa6on Retrieval A Cri6cal Review,
Founda1ons and Trends in Informa1on Retrieval 2(3):137-­‐213, 2008.
Informa1on Retrieval (SS 2011)
3. IR-­‐Modelle
56
Herunterladen