Rückblick

Werbung
Rückblick
§ Probabilistisches IR bestimmt die Wahrscheinlichkeit,
dass ein Dokument d zur Anfrage q relevant ist
§ Probabilistic Ranking Principle besagt, dass Rangfolge
gemäß dieser Wahrscheinlichkeiten optimal ist
§ Binary Independence Model betrachtet binäre
Termvorkommen und nimmt deren Unabhängigkeit an
§ Okapi BM25 betrachtet Termhäufigkeiten und nimmt
Unabhängigkeit von Termvorkommen an
Information Retrieval / Kapitel 3: IR-Modelle
53
3.4 Statistical Language Models
§ Statistical Language Models beschreiben die Generierung
einer (formalen) Sprache (z.B. Folge von Termen)
dog : 0.3 / cat : 0.3 / bird : 0.4
s
0.1
t
0.9
P [ dog ] = 0.3 · 0.1
P [ dog cat ] = 0.3 · 0.9 · 0.3 · 0.1
P [ cat bird ] = 0.3 · 0.9 · 0.4 · 0.1
§ Anwendungsbeispiele im Umgang mit natürlicher Sprache
§ Spracherkennung: Wähle sinnvolleren aus phonetisch ähnlichen
Sätzen (z.B. „get up at 8 o‘clock“ vs. „get a potato clock“)
§ Maschinelles Übersetzen: Wähle sinnvollere aus möglichen
Übersetzungen (z.B. „logic closing“ vs. „logic reasoning“)
§ Information Retrieval
Information Retrieval / Kapitel 3: IR-Modelle
54
Query-Likelihood Model
§ Intuition: Benutzer hat eine Vorstellung von einem idealen
Dokument d und formuliert Anfrage q um dieses zu finden
§ Modell beschreibt wie der Benutzer eine Anfrage q anhand
vom Dokument d formuliert (z.B. durch zufälliges
Auswählen von Termen)
§ Rangfolge der Dokumente zur Anfragezeit gemäß der
Wahrscheinlichkeit P[q|d], dass die Anfrage q
anhand vom Dokument d formuliert wurde
Information Retrieval / Kapitel 3: IR-Modelle
55
Unigram Language Model
§ Dokumente und Anfrage als Multimengen von Termen
mit |d| und |q| als Längen, d.h. Anzahl Termvorkommen
§ Benutzer formuliert Anfrage durch zufälliges Ziehen
(mit Zurücklegen) einzelner Terme (Unigramme)
aus dem Dokument
Ÿ
|q|!
P[q | d] = r
P[v | d]
vœq tf (v, q)! vœq
Ÿ tf (v, d) Ÿ tf (v, d)
|q|!
=r
Ã
|d|
|d|
vœq tf (v, q)! vœq
vœq
Information Retrieval / Kapitel 3: IR-Modelle
56
Intuition: Dokumente und Anfrage als Urnen
§ Dokumente und Anfrage als Urnen bunter Kugeln
§ jeder Term entspricht einer Farbe
§ je Termvorkommen eine Kugel der jeweiligen Farbe
§ Es gibt
3
4
3
3!
=
=6
1, 1, 1
1! · 1! · 1!
q
Möglichkeiten, eine rote,
eine gelbe und eine blaue
d
Kugel aus der Urne d zu ziehen
Information Retrieval / Kapitel 3: IR-Modelle
57
Intuition: Dokumente und Anfrage als Urnen
§ Wir ziehen aus der Urne d
§ eine rote Kugel mit Wahrscheinlichkeit 4 / 9
§ eine gelbe Kugel mit Wahrscheinlichkeit 1 / 9
§ eine blaue Kugel mit Wahrscheinlichkeit 2 / 9
§ Damit ergibt sich sich als
q
Wahrscheinlichkeit, dass
wir die Kugeln in der
Urne q ziehen
4 1 2
6 · · · ¥ 0.066
9 9 9
Information Retrieval / Kapitel 3: IR-Modelle
d
58
Statistische Glättung
§ Kommt ein Anfrageterm nicht im Dokument d vor,
so schätzen wir die Wahrscheinlichkeit P[q|d] = 0, d.h.
wir können die Anfrage nicht anhand
des Dokumentes d formulieren
§ In der Praxis wünscht man sich eine tolerantere
Vorgehensweise, so dass auch Dokumente,
die nicht alle Anfrageterme enthalten,
im Ergebnis vorkommen können
§ Statistische Glättungsverfahren (smoothing)
vermeiden solche Nullwahrscheinlichkeiten
Information Retrieval / Kapitel 3: IR-Modelle
59
Statistische Glättung
§ Jelinek-Mercer Smoothing lässt den Benutzer einen Term
mit Wahrscheinlichkeit α aus dem Dokument und mit
Wahrscheinlichkeit (1 - α) aus der gesamten
Dokumentensammlung ziehen
tf (v, d)
tf (v, D)
P[v | d] = – ·
+ (1 ≠ –) ·
|d|
|D|
mit D als einem virtuellen Dokument, welches man
durch Zusammenfügen aller Dokumente enthält
Information Retrieval / Kapitel 3: IR-Modelle
60
Statistische Glättung
§ Dirichlet Smoothing lässt den Benutzer das Dokument d
zuerst um µ zufällig aus der gesamten
Dokumentensammlung gezogene
Terme erweitern
P[v | d] =
tf (v, d) + µ ·
|d| + µ
tf (v,D)
|D|
mit D als einem virtuellen Dokument, welches man
durch Zusammenfügen aller Dokumente enthält
Information Retrieval / Kapitel 3: IR-Modelle
61
Unigram Language Model als tf.idf-Variante
§ Unigram Language Model mit Jelinek-Mercer Smoothing
kann als Variante der tf.idf-Termgewichtung
interpretiert werden
3
4
{
{
– tf (v, d) |D|
P[q | d] Ã
log 1 +
1 ≠ – |d| tf (v, D)
vœq
ÿ
~ tf
~ idf
§ Smoothing hat einen IDF-ähnlichen Effekt, da
insgesamt häufige Terme aus allen Dokumente
mit höherer Wahrscheinlichkeit
gezogen werden
Information Retrieval / Kapitel 3: IR-Modelle
62
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
d1
d2
d3
d4
d5
d6
D
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
6
5
11
9
7
1
6
6
|di |
9
8
5
9
9
11
51
§ Anfrage amusement park gothenburg
Information Retrieval / Kapitel 3: IR-Modelle
63
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
d1
d2
d3
d4
d5
d6
D
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
6
5
11
9
7
1
6
6
|di |
9
8
5
9
9
11
51
P [ amusement | d1 ] = 0.8 ·
Information Retrieval / Kapitel 3: IR-Modelle
2
6
+ 0.2 ·
¥ 0.20
9
51
64
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
d1
d2
d3
d4
d5
d6
D
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
6
5
11
9
7
1
6
6
|di |
9
8
5
9
9
11
51
P [ park | d1 ] = 0.8 ·
Information Retrieval / Kapitel 3: IR-Modelle
0
5
+ 0.2 ·
¥ 0.02
9
51
65
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
d1
d2
d3
d4
d5
d6
D
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
6
5
11
9
7
1
6
6
|di |
9
8
5
9
9
11
51
P [ gothenburg | d1 ] = 0.8 ·
Information Retrieval / Kapitel 3: IR-Modelle
3
11
+ 0.2 ·
¥ 0.31
9
51
66
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
d1
d2
d3
d4
d5
d6
D
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
6
5
11
9
7
1
6
6
|di |
9
8
5
9
9
11
51
P [ q | d1 ] ¥ 0.001223
Information Retrieval / Kapitel 3: IR-Modelle
67
Unigram Language Model am Beispiel
§ Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8)
P [ q | di ]
d1
d2
d3
d4
d5
d6
0.001223
0.001247
0.000168
0.000521
0.001165
0.000143
§ Rangfolge der Dokumente: d2, d1, d5, d4, d3, d6
Information Retrieval / Kapitel 3: IR-Modelle
68
3.5 Latent Semantic Indexing
§ Vektorraummodell z.B. betrachtet einen m-dimensionalen
Vektorraum mit einer Dimension pro bekanntem Term
§ Synonyme (z.B. car und automobile) und Polyseme
(z.B. bank) führen zu Verringerung der Ergebnisgüte
§ Latent Semantic Indexing bildet Anfrage und Dokumente
in einem k-dimensionalen Vektorraum (k << m) ab;
die Dimensionen entsprechen dabei
verborgenen (latenten) Konzepte
Information Retrieval / Kapitel 3: IR-Modelle
69
Mathematische Grundlagen: Lineare Algebra
§ Definition: Die Vektoren v1,…, vn sind linear unabhängig,
wenn sich kein vi als Linearkombination der anderen
Vektoren darstellen lässt
§ Definition: Der Rang rank(M) einer m × n-Matrix M ist die
maximale Anzahl ihrer linear unabhängigen Zeilenoder Spaltenvektoren
§ Definition: Eine Matrix M heißt Diagonalmatrix,
wenn nur für i = j gilt Mij ≠ 0
Information Retrieval / Kapitel 3: IR-Modelle
70
Mathematische Grundlagen: Lineare Algebra
§ Theorem: Für jede m × n-Matrix M mit Rang r gibt es eine
Singulärwertzerlegung (singular value decomposition)
der Form
M =U
VT
mit den Faktoren
§ U als m × r-Matrix
§ Σ als r × r-Diagonalmatrix
§ V als n × r-Matrix
§ Singulärwertzerlegung (SVD) ist eindeutig, wenn man die
Diagonaleinträge Σ absteigend nach Größe sortiert
Information Retrieval / Kapitel 3: IR-Modelle
71
Mathematische Grundlagen: Lineare Algebra
n
m
5
3.00
0.00
r
=
M
6
5
0.00 1.00
0.52
=
2.00 3.00
.85
Information Retrieval / Kapitel 3: IR-Modelle
m
U
6
r
r
×
5
≠0.85
3.85
◊
0.53
0.00
n
Σ
6
r
×
5
VT
0.00
0.41 0.44 0.80
◊
2.85
≠0.89 0.37 0.25
6
72
Mathematische Grundlagen: Lineare Algebra
§ Theorem: Für m × n-Matrix M mit Rang r sei Mk definiert als
Mk = Uk
mit den Faktoren
T
k Vk
§ Uk als m × k-Matrix bestehend aus den ersten k Spalten von U
§ Σk als k × k-Diagonalmatrix mit den ersten k Einträgen aus Σ
§ Vk als n × k-Matrix bestehend aus den ersten k Spalten von V
§ Unter allen m × n-Matrizen mit Rang von höchstens k
minimiert Mk die Frobenius-Norm
ı̂ÿ
n
ım ÿ
ÎM ≠ Mk ÎF = Ù
(Mij ≠ Mkij )2
i=1 j=1
Information Retrieval / Kapitel 3: IR-Modelle
73
Mathematische Grundlagen: Lineare Algebra
k
n
k
n
k Σk
m
=
Mk
5
0.82 0.88
1.34 1.44
×
VkT
×
5
6
#
$ #
1.60
0.52
=
◊ 3.85 ◊ 0.41
2.61
0.85
Information Retrieval / Kapitel 3: IR-Modelle
6
m Uk
k
0.44
0.80
$
74
Latent Semantic Indexing
§ Ausgangspunkt ist eine m × n-Matrix M, deren Komponenten
Mij das Gewicht (z.B. mittels tf.idf-Termgewichtung)
von Term i im Dokument j angeben
§ Latent Semantic Indexing (LSI) wendet SVD auf die Matrix
M an und bestimmt Approximation Mk vom Rang k
Mk = Uk
T
V
k k
§ Uk als Term-Konzept-Matrix
§ Σk als Konzept-Matrix
§ Vk als Dokument-Konzept-Matrix
Information Retrieval / Kapitel 3: IR-Modelle
75
Latent Semantic Indexing
§ Anfragevektor q in m-dimensionalen Vektorraum wird in
k-dimensionalen Konzept-Vektorraum abgebildet als
qk =
≠1 T
k Uk q
und dort mit den k-dimensionalen Dokumentvektoren
(d.h. Zeilen von V ) z.B. mittels Kosinusähnlichkeit verglichen
Information Retrieval / Kapitel 3: IR-Modelle
76
Latent Semantic Indexing am Beispiel
§ Term-Dokument Matrix M
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
d1
d2
d3
d4
d5
d6
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
Information Retrieval / Kapitel 3: IR-Modelle
S
2
W0
W
W3
W
W1
M =W
W0
W
W0
W
U1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
T
2
0X
X
0X
X
4X
X
1X
X
0X
X
0V
4
77
Latent Semantic Indexing am Beispiel
S
≠0.34726
W≠0.18146
W
W≠0.51667
W
W≠0.48799
U =W
W≠0.37453
W
W≠0.03026
W
U≠0.23601
≠0.38015
0.18536
≠0.58287
≠0.27281
0.33915
0.00863
0.00389
≠0.54472
0.37369
≠0.07466
≠0.32682
0.52442
≠0.19064
0.46277
0.03484
≠0.37268
≠0.47116
≠0.25139
≠0.02526
0.58453
0.10833
≠0.71542
0.10933
≠0.20436
0.13119
≠0.55545
0.30338
≠0.18790
0.62224
0.17027
0.22300
≠0.19574
≠0.24477
0.31716
≠0.37329
≠0.05654
0.26447
≠0.21743
0.53343
0.39402
≠0.44705
≠0.56041
≠0.53712
0.05720
0.07589
0.11623
≠0.26616
0.52282
0.17526
S
T
8.21007
0
0
0
0
0
W 0
5.92330
0
0
0
0 X
W
X
W 0
X
0
4.48994
0
0
0
W
X
=W
0
0
3.69793
0
0 X
W 0
X
U 0
0
0
0
2.21256
0 V
0
0
0
0
0
1.33401
S
T
≠0.45418 0.01589 ≠0.01819 0.38324 ≠0.78535 0.17173
W≠0.42450 ≠0.22246 0.55809
0.26782
0.23257 ≠0.57709X
W
X
W≠0.24842 0.02306
0.15644
0.40430
0.49340
0.71160 X
W
X
V =W
X
W≠0.41818 ≠0.01235 0.37035 ≠0.77772 ≠0.08642 0.27477 X
U≠0.26633 ≠0.80752 ≠0.50637 ≠0.09031 0.10967
0.01978 V
≠0.55317 0.54543 ≠0.51977 ≠0.07033 0.25729 ≠0.23495
Information Retrieval / Kapitel 3: IR-Modelle
≠0.2304
≠0.0007
≠0.0124
≠0.3686
0.20952
0.76209
0.00385
0.43147
78
Latent Semantic Indexing am Beispiel
S
≠0.34726
W≠0.18146
W
W≠0.51667
W
W≠0.48799
U3 = W
W≠0.37453
W
W≠0.03026
W
U≠0.23601
≠0.38015
3
S
8.21007
=U 0
0
S
≠0.45418
W≠0.42450
W
W≠0.24842
V3 = W
W≠0.41818
W
U≠0.26633
≠0.55317
0.18536
≠0.58287
≠0.27281
0.33915
0.00863
0.00389
≠0.54472
0.37369
0
5.92330
0
T
0
0 V
4.48994
0.01589
≠0.22246
0.02306
≠0.01235
≠0.80752
0.54543
Information Retrieval / Kapitel 3: IR-Modelle
T
≠0.07466
≠0.32682X
X
0.52442 X
X
≠0.19064X
X
0.46277 X
X
0.03484 X
X
≠0.37268V
≠0.47116
T
≠0.01819
0.55809 X
X
0.15644 X
X
0.37035 X
X
≠0.50637V
≠0.51977
79
Latent Semantic Indexing am Beispiel
amusement
park
gothenburg
sweden
museum
shopping
liseberg
art
d1
d2
d3
d4
d5
d6
2
0
3
1
0
0
1
2
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0
4
1
0
0
0
4
0
2
0
0
4
1
0
0
4
S
1.31844
W0.64848
W
W1.85806
W
W1.86711
M3 = W
W1.35956
W
W0.11035
W
U0.85922
1.49117
0.77895
0.58154
3.47425
0.77612
2.45353
0.18763
0.60645
≠0.34814
Information Retrieval / Kapitel 3: IR-Modelle
0.68114
0.06093
1.38488
0.90770
1.09011
0.08672
0.14518
0.49543
S
2
W0
W
W3
W
W1
M =W
W0
W
W0
W
U1
2
1.05456
0.12219
2.66588
1.33360
2.05476
0.16154
0.23042
0.49437
0
1
4
1
2
0
0
0
0
0
2
2
0
1
0
0
2
0
1
1
4
0
1
0
0.04246
3.92780
1.24229
≠0.12179
≠0.27450
≠0.03168
3.96885
0.11500
0
4
1
0
0
0
4
0
T
2
0X
X
0X
X
4X
X
1X
X
0X
X
0V
4
T
2.35022
≠0.29627X
X
0.24127 X
X
3.75685 X
X
0.64885 X
X
0.06868 X
X
0.18178 V
4.03334
80
Latent Semantic Indexing am Beispiel
§ Anfrage amusement park gothenburg abgebildet als
q3 =
≠1 T
3 U3
#
1
1
1
0
0
0
0
S
T
≠0.12733
q3 = U≠0.11317V
0.02738
sim(q3 , di )
0
$T
d1
d2
d3
d4
d5
d6
0.70768
0.74460
0.65551
0.67202
0.65258
-0.034232
§ Rangfolge der Dokumente: d2, d1, d4, d3, d5, d6
Information Retrieval / Kapitel 3: IR-Modelle
81
3.6 Relevance Feedback
§ Wie lassen sich Rückmeldungen des Nutzers (relevance
feedback) über relevante/irrelevante Ergebnisse ausnutzen?
§ Rocchios Algorithmus wurde im Rahmen des SMARTProjektes entwickelt und ermöglicht Rückmeldungen
des Nutzers im Vektorraummodell
§ q als initialer Anfragevektor
§ Dr als Menge der als relevant markierten Dokumente
§ Dn als Menge der als irrelevant markierten Dokumente
Information Retrieval / Kapitel 3: IR-Modelle
82
Rocchios Algorithmus
§ Idee: Bestimme einen neuen Anfragevektor q‘, der näher
an relevanten und entfernt von irrelevanten Dokumenten liegt
ÿ
1 ÿ
1
q = –q + —
dr ≠ “
dn
|Dr |
|Dn |
Õ
dr œDr
dn œDn
mit Gewichtungsparametern α, β und γ
- - Information Retrieval / Kapitel 3: IR-Modelle
q
+
qÕ
+
+
+
+
+ Dr
- Dn
+ +
83
Pseudo-Relevance Feedback
§ Pseudo-Relevance Feedback verzichtet auf eine explizite
Rückmeldung des Nutzers und nimmt an, dass die
ersten k Ergebnisse relevant sind
Information Retrieval / Kapitel 3: IR-Modelle
84
3.7 Query Expansion
§ Wie kann die Anfrage automatisch durch zusätzliche
Terme erweitert werden (query expansion)?
§ Globale Verfahren basierend auf Thesaurus (vgl. Kapitel 2)
fügen Synonyme oder verwandte Terme hinzu
§ manuell erstellt (z.B. WordNet oder GermaNet)
§ automatisch ermittelt durch Analyse der Dokumente
Information Retrieval / Kapitel 3: IR-Modelle
85
Automatische Ermittlung von verwandten Termen
§ Definiere Ähnlichkeit zwischen zwei Termen u und v
anhand der sie enthaltenden Dokumente als Kontext
§ docs(u) und docs(v) als Mengen der Dokumente,
welche die Terme u bzw. v enthalten
§ Jaccard-Koeffizient zweier Mengen A und B definiert als
|A fl B|
Jaccard(A, B) =
|A fi B|
§ Ähnlichkeit zwischen den beiden Termen u und v
|docs(u) fl docs(v)|
sim(u, v) =
|docs(u) fi docs(v)|
Information Retrieval / Kapitel 3: IR-Modelle
86
Query Expansion
§ Lokale Verfahren analysieren die ersten k Ergebnisse
und extrahieren aus ihnen verwandte Terme
§ Rk als Menge der ersten k Ergebnisse zur Anfrage
§ Gewicht des Terms u lässt sich dann z.B. ermitteln als
A
B
ÿ
tf (u, d) · idf (u)
dœRk
§ Intuition: Ein Term u ist ein guter Term zur Erweiterung der
Anfrage, wenn er in den ersten k Ergebnissen häufiger
als erwartet vorkommt
Information Retrieval / Kapitel 3: IR-Modelle
87
Zusammenfassung
§ Query-Likelihood Model modelliert wie der Benutzer eine
Anfrage anhand eines idealen Dokuments formuliert
§ Jelinek-Mercer Smoothing und Dirichlet Smoothing
eliminieren als Glättungsverfahren Nullwahrscheinlichkeiten
§ Latent Semantic Indexing bildet Anfrage und Dokumente
in einen Vektorraum ab, dessen Dimensionen
verborgenen Konzepten entsprechen
§ Relevance Feedback und Query Expansion
Information Retrieval / Kapitel 3: IR-Modelle
88
Literatur
[1]
C. D. Manning, P. Raghavan, H. Schütze:
Introduction to Information Retrieval,
Cambridge University Press, 2008 (Kapitel 9, 12 & 18)
[2]
W. B. Croft, D. Metzler, T. Strohman: Search Engines –
Information Retrieval in Practice, Addison Wesley, 2010 (Kapitel 6 & 7)
Information Retrieval / Kapitel 3: IR-Modelle
89
Herunterladen