Rückblick § Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist § Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist § Binary Independence Model betrachtet binäre Termvorkommen und nimmt deren Unabhängigkeit an § Okapi BM25 betrachtet Termhäufigkeiten und nimmt Unabhängigkeit von Termvorkommen an Information Retrieval / Kapitel 3: IR-Modelle 53 3.4 Statistical Language Models § Statistical Language Models beschreiben die Generierung einer (formalen) Sprache (z.B. Folge von Termen) dog : 0.3 / cat : 0.3 / bird : 0.4 s 0.1 t 0.9 P [ dog ] = 0.3 · 0.1 P [ dog cat ] = 0.3 · 0.9 · 0.3 · 0.1 P [ cat bird ] = 0.3 · 0.9 · 0.4 · 0.1 § Anwendungsbeispiele im Umgang mit natürlicher Sprache § Spracherkennung: Wähle sinnvolleren aus phonetisch ähnlichen Sätzen (z.B. „get up at 8 o‘clock“ vs. „get a potato clock“) § Maschinelles Übersetzen: Wähle sinnvollere aus möglichen Übersetzungen (z.B. „logic closing“ vs. „logic reasoning“) § Information Retrieval Information Retrieval / Kapitel 3: IR-Modelle 54 Query-Likelihood Model § Intuition: Benutzer hat eine Vorstellung von einem idealen Dokument d und formuliert Anfrage q um dieses zu finden § Modell beschreibt wie der Benutzer eine Anfrage q anhand vom Dokument d formuliert (z.B. durch zufälliges Auswählen von Termen) § Rangfolge der Dokumente zur Anfragezeit gemäß der Wahrscheinlichkeit P[q|d], dass die Anfrage q anhand vom Dokument d formuliert wurde Information Retrieval / Kapitel 3: IR-Modelle 55 Unigram Language Model § Dokumente und Anfrage als Multimengen von Termen mit |d| und |q| als Längen, d.h. Anzahl Termvorkommen § Benutzer formuliert Anfrage durch zufälliges Ziehen (mit Zurücklegen) einzelner Terme (Unigramme) aus dem Dokument Ÿ |q|! P[q | d] = r P[v | d] vœq tf (v, q)! vœq Ÿ tf (v, d) Ÿ tf (v, d) |q|! =r à |d| |d| vœq tf (v, q)! vœq vœq Information Retrieval / Kapitel 3: IR-Modelle 56 Intuition: Dokumente und Anfrage als Urnen § Dokumente und Anfrage als Urnen bunter Kugeln § jeder Term entspricht einer Farbe § je Termvorkommen eine Kugel der jeweiligen Farbe § Es gibt 3 4 3 3! = =6 1, 1, 1 1! · 1! · 1! q Möglichkeiten, eine rote, eine gelbe und eine blaue d Kugel aus der Urne d zu ziehen Information Retrieval / Kapitel 3: IR-Modelle 57 Intuition: Dokumente und Anfrage als Urnen § Wir ziehen aus der Urne d § eine rote Kugel mit Wahrscheinlichkeit 4 / 9 § eine gelbe Kugel mit Wahrscheinlichkeit 1 / 9 § eine blaue Kugel mit Wahrscheinlichkeit 2 / 9 § Damit ergibt sich sich als q Wahrscheinlichkeit, dass wir die Kugeln in der Urne q ziehen 4 1 2 6 · · · ¥ 0.066 9 9 9 Information Retrieval / Kapitel 3: IR-Modelle d 58 Statistische Glättung § Kommt ein Anfrageterm nicht im Dokument d vor, so schätzen wir die Wahrscheinlichkeit P[q|d] = 0, d.h. wir können die Anfrage nicht anhand des Dokumentes d formulieren § In der Praxis wünscht man sich eine tolerantere Vorgehensweise, so dass auch Dokumente, die nicht alle Anfrageterme enthalten, im Ergebnis vorkommen können § Statistische Glättungsverfahren (smoothing) vermeiden solche Nullwahrscheinlichkeiten Information Retrieval / Kapitel 3: IR-Modelle 59 Statistische Glättung § Jelinek-Mercer Smoothing lässt den Benutzer einen Term mit Wahrscheinlichkeit α aus dem Dokument und mit Wahrscheinlichkeit (1 - α) aus der gesamten Dokumentensammlung ziehen tf (v, d) tf (v, D) P[v | d] = – · + (1 ≠ –) · |d| |D| mit D als einem virtuellen Dokument, welches man durch Zusammenfügen aller Dokumente enthält Information Retrieval / Kapitel 3: IR-Modelle 60 Statistische Glättung § Dirichlet Smoothing lässt den Benutzer das Dokument d zuerst um µ zufällig aus der gesamten Dokumentensammlung gezogene Terme erweitern P[v | d] = tf (v, d) + µ · |d| + µ tf (v,D) |D| mit D als einem virtuellen Dokument, welches man durch Zusammenfügen aller Dokumente enthält Information Retrieval / Kapitel 3: IR-Modelle 61 Unigram Language Model als tf.idf-Variante § Unigram Language Model mit Jelinek-Mercer Smoothing kann als Variante der tf.idf-Termgewichtung interpretiert werden 3 4 { { – tf (v, d) |D| P[q | d] à log 1 + 1 ≠ – |d| tf (v, D) vœq ÿ ~ tf ~ idf § Smoothing hat einen IDF-ähnlichen Effekt, da insgesamt häufige Terme aus allen Dokumente mit höherer Wahrscheinlichkeit gezogen werden Information Retrieval / Kapitel 3: IR-Modelle 62 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) d1 d2 d3 d4 d5 d6 D amusement park gothenburg sweden museum shopping liseberg art 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 6 5 11 9 7 1 6 6 |di | 9 8 5 9 9 11 51 § Anfrage amusement park gothenburg Information Retrieval / Kapitel 3: IR-Modelle 63 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) d1 d2 d3 d4 d5 d6 D amusement park gothenburg sweden museum shopping liseberg art 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 6 5 11 9 7 1 6 6 |di | 9 8 5 9 9 11 51 P [ amusement | d1 ] = 0.8 · Information Retrieval / Kapitel 3: IR-Modelle 2 6 + 0.2 · ¥ 0.20 9 51 64 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) d1 d2 d3 d4 d5 d6 D amusement park gothenburg sweden museum shopping liseberg art 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 6 5 11 9 7 1 6 6 |di | 9 8 5 9 9 11 51 P [ park | d1 ] = 0.8 · Information Retrieval / Kapitel 3: IR-Modelle 0 5 + 0.2 · ¥ 0.02 9 51 65 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) d1 d2 d3 d4 d5 d6 D amusement park gothenburg sweden museum shopping liseberg art 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 6 5 11 9 7 1 6 6 |di | 9 8 5 9 9 11 51 P [ gothenburg | d1 ] = 0.8 · Information Retrieval / Kapitel 3: IR-Modelle 3 11 + 0.2 · ¥ 0.31 9 51 66 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) d1 d2 d3 d4 d5 d6 D amusement park gothenburg sweden museum shopping liseberg art 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 6 5 11 9 7 1 6 6 |di | 9 8 5 9 9 11 51 P [ q | d1 ] ¥ 0.001223 Information Retrieval / Kapitel 3: IR-Modelle 67 Unigram Language Model am Beispiel § Unigram LM mit Jelinek-Mercer Smoothing (α = 0.8) P [ q | di ] d1 d2 d3 d4 d5 d6 0.001223 0.001247 0.000168 0.000521 0.001165 0.000143 § Rangfolge der Dokumente: d2, d1, d5, d4, d3, d6 Information Retrieval / Kapitel 3: IR-Modelle 68 3.5 Latent Semantic Indexing § Vektorraummodell z.B. betrachtet einen m-dimensionalen Vektorraum mit einer Dimension pro bekanntem Term § Synonyme (z.B. car und automobile) und Polyseme (z.B. bank) führen zu Verringerung der Ergebnisgüte § Latent Semantic Indexing bildet Anfrage und Dokumente in einem k-dimensionalen Vektorraum (k << m) ab; die Dimensionen entsprechen dabei verborgenen (latenten) Konzepte Information Retrieval / Kapitel 3: IR-Modelle 69 Mathematische Grundlagen: Lineare Algebra § Definition: Die Vektoren v1,…, vn sind linear unabhängig, wenn sich kein vi als Linearkombination der anderen Vektoren darstellen lässt § Definition: Der Rang rank(M) einer m × n-Matrix M ist die maximale Anzahl ihrer linear unabhängigen Zeilenoder Spaltenvektoren § Definition: Eine Matrix M heißt Diagonalmatrix, wenn nur für i = j gilt Mij ≠ 0 Information Retrieval / Kapitel 3: IR-Modelle 70 Mathematische Grundlagen: Lineare Algebra § Theorem: Für jede m × n-Matrix M mit Rang r gibt es eine Singulärwertzerlegung (singular value decomposition) der Form M =U VT mit den Faktoren § U als m × r-Matrix § Σ als r × r-Diagonalmatrix § V als n × r-Matrix § Singulärwertzerlegung (SVD) ist eindeutig, wenn man die Diagonaleinträge Σ absteigend nach Größe sortiert Information Retrieval / Kapitel 3: IR-Modelle 71 Mathematische Grundlagen: Lineare Algebra n m 5 3.00 0.00 r = M 6 5 0.00 1.00 0.52 = 2.00 3.00 .85 Information Retrieval / Kapitel 3: IR-Modelle m U 6 r r × 5 ≠0.85 3.85 ◊ 0.53 0.00 n Σ 6 r × 5 VT 0.00 0.41 0.44 0.80 ◊ 2.85 ≠0.89 0.37 0.25 6 72 Mathematische Grundlagen: Lineare Algebra § Theorem: Für m × n-Matrix M mit Rang r sei Mk definiert als Mk = Uk mit den Faktoren T k Vk § Uk als m × k-Matrix bestehend aus den ersten k Spalten von U § Σk als k × k-Diagonalmatrix mit den ersten k Einträgen aus Σ § Vk als n × k-Matrix bestehend aus den ersten k Spalten von V § Unter allen m × n-Matrizen mit Rang von höchstens k minimiert Mk die Frobenius-Norm ı̂ÿ n ım ÿ ÎM ≠ Mk ÎF = Ù (Mij ≠ Mkij )2 i=1 j=1 Information Retrieval / Kapitel 3: IR-Modelle 73 Mathematische Grundlagen: Lineare Algebra k n k n k Σk m = Mk 5 0.82 0.88 1.34 1.44 × VkT × 5 6 # $ # 1.60 0.52 = ◊ 3.85 ◊ 0.41 2.61 0.85 Information Retrieval / Kapitel 3: IR-Modelle 6 m Uk k 0.44 0.80 $ 74 Latent Semantic Indexing § Ausgangspunkt ist eine m × n-Matrix M, deren Komponenten Mij das Gewicht (z.B. mittels tf.idf-Termgewichtung) von Term i im Dokument j angeben § Latent Semantic Indexing (LSI) wendet SVD auf die Matrix M an und bestimmt Approximation Mk vom Rang k Mk = Uk T V k k § Uk als Term-Konzept-Matrix § Σk als Konzept-Matrix § Vk als Dokument-Konzept-Matrix Information Retrieval / Kapitel 3: IR-Modelle 75 Latent Semantic Indexing § Anfragevektor q in m-dimensionalen Vektorraum wird in k-dimensionalen Konzept-Vektorraum abgebildet als qk = ≠1 T k Uk q und dort mit den k-dimensionalen Dokumentvektoren (d.h. Zeilen von V ) z.B. mittels Kosinusähnlichkeit verglichen Information Retrieval / Kapitel 3: IR-Modelle 76 Latent Semantic Indexing am Beispiel § Term-Dokument Matrix M amusement park gothenburg sweden museum shopping liseberg art d1 d2 d3 d4 d5 d6 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 Information Retrieval / Kapitel 3: IR-Modelle S 2 W0 W W3 W W1 M =W W0 W W0 W U1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 T 2 0X X 0X X 4X X 1X X 0X X 0V 4 77 Latent Semantic Indexing am Beispiel S ≠0.34726 W≠0.18146 W W≠0.51667 W W≠0.48799 U =W W≠0.37453 W W≠0.03026 W U≠0.23601 ≠0.38015 0.18536 ≠0.58287 ≠0.27281 0.33915 0.00863 0.00389 ≠0.54472 0.37369 ≠0.07466 ≠0.32682 0.52442 ≠0.19064 0.46277 0.03484 ≠0.37268 ≠0.47116 ≠0.25139 ≠0.02526 0.58453 0.10833 ≠0.71542 0.10933 ≠0.20436 0.13119 ≠0.55545 0.30338 ≠0.18790 0.62224 0.17027 0.22300 ≠0.19574 ≠0.24477 0.31716 ≠0.37329 ≠0.05654 0.26447 ≠0.21743 0.53343 0.39402 ≠0.44705 ≠0.56041 ≠0.53712 0.05720 0.07589 0.11623 ≠0.26616 0.52282 0.17526 S T 8.21007 0 0 0 0 0 W 0 5.92330 0 0 0 0 X W X W 0 X 0 4.48994 0 0 0 W X =W 0 0 3.69793 0 0 X W 0 X U 0 0 0 0 2.21256 0 V 0 0 0 0 0 1.33401 S T ≠0.45418 0.01589 ≠0.01819 0.38324 ≠0.78535 0.17173 W≠0.42450 ≠0.22246 0.55809 0.26782 0.23257 ≠0.57709X W X W≠0.24842 0.02306 0.15644 0.40430 0.49340 0.71160 X W X V =W X W≠0.41818 ≠0.01235 0.37035 ≠0.77772 ≠0.08642 0.27477 X U≠0.26633 ≠0.80752 ≠0.50637 ≠0.09031 0.10967 0.01978 V ≠0.55317 0.54543 ≠0.51977 ≠0.07033 0.25729 ≠0.23495 Information Retrieval / Kapitel 3: IR-Modelle ≠0.2304 ≠0.0007 ≠0.0124 ≠0.3686 0.20952 0.76209 0.00385 0.43147 78 Latent Semantic Indexing am Beispiel S ≠0.34726 W≠0.18146 W W≠0.51667 W W≠0.48799 U3 = W W≠0.37453 W W≠0.03026 W U≠0.23601 ≠0.38015 3 S 8.21007 =U 0 0 S ≠0.45418 W≠0.42450 W W≠0.24842 V3 = W W≠0.41818 W U≠0.26633 ≠0.55317 0.18536 ≠0.58287 ≠0.27281 0.33915 0.00863 0.00389 ≠0.54472 0.37369 0 5.92330 0 T 0 0 V 4.48994 0.01589 ≠0.22246 0.02306 ≠0.01235 ≠0.80752 0.54543 Information Retrieval / Kapitel 3: IR-Modelle T ≠0.07466 ≠0.32682X X 0.52442 X X ≠0.19064X X 0.46277 X X 0.03484 X X ≠0.37268V ≠0.47116 T ≠0.01819 0.55809 X X 0.15644 X X 0.37035 X X ≠0.50637V ≠0.51977 79 Latent Semantic Indexing am Beispiel amusement park gothenburg sweden museum shopping liseberg art d1 d2 d3 d4 d5 d6 2 0 3 1 0 0 1 2 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0 4 1 0 0 0 4 0 2 0 0 4 1 0 0 4 S 1.31844 W0.64848 W W1.85806 W W1.86711 M3 = W W1.35956 W W0.11035 W U0.85922 1.49117 0.77895 0.58154 3.47425 0.77612 2.45353 0.18763 0.60645 ≠0.34814 Information Retrieval / Kapitel 3: IR-Modelle 0.68114 0.06093 1.38488 0.90770 1.09011 0.08672 0.14518 0.49543 S 2 W0 W W3 W W1 M =W W0 W W0 W U1 2 1.05456 0.12219 2.66588 1.33360 2.05476 0.16154 0.23042 0.49437 0 1 4 1 2 0 0 0 0 0 2 2 0 1 0 0 2 0 1 1 4 0 1 0 0.04246 3.92780 1.24229 ≠0.12179 ≠0.27450 ≠0.03168 3.96885 0.11500 0 4 1 0 0 0 4 0 T 2 0X X 0X X 4X X 1X X 0X X 0V 4 T 2.35022 ≠0.29627X X 0.24127 X X 3.75685 X X 0.64885 X X 0.06868 X X 0.18178 V 4.03334 80 Latent Semantic Indexing am Beispiel § Anfrage amusement park gothenburg abgebildet als q3 = ≠1 T 3 U3 # 1 1 1 0 0 0 0 S T ≠0.12733 q3 = U≠0.11317V 0.02738 sim(q3 , di ) 0 $T d1 d2 d3 d4 d5 d6 0.70768 0.74460 0.65551 0.67202 0.65258 -0.034232 § Rangfolge der Dokumente: d2, d1, d4, d3, d5, d6 Information Retrieval / Kapitel 3: IR-Modelle 81 3.6 Relevance Feedback § Wie lassen sich Rückmeldungen des Nutzers (relevance feedback) über relevante/irrelevante Ergebnisse ausnutzen? § Rocchios Algorithmus wurde im Rahmen des SMARTProjektes entwickelt und ermöglicht Rückmeldungen des Nutzers im Vektorraummodell § q als initialer Anfragevektor § Dr als Menge der als relevant markierten Dokumente § Dn als Menge der als irrelevant markierten Dokumente Information Retrieval / Kapitel 3: IR-Modelle 82 Rocchios Algorithmus § Idee: Bestimme einen neuen Anfragevektor q‘, der näher an relevanten und entfernt von irrelevanten Dokumenten liegt ÿ 1 ÿ 1 q = –q + — dr ≠ “ dn |Dr | |Dn | Õ dr œDr dn œDn mit Gewichtungsparametern α, β und γ - - Information Retrieval / Kapitel 3: IR-Modelle q + qÕ + + + + + Dr - Dn + + 83 Pseudo-Relevance Feedback § Pseudo-Relevance Feedback verzichtet auf eine explizite Rückmeldung des Nutzers und nimmt an, dass die ersten k Ergebnisse relevant sind Information Retrieval / Kapitel 3: IR-Modelle 84 3.7 Query Expansion § Wie kann die Anfrage automatisch durch zusätzliche Terme erweitert werden (query expansion)? § Globale Verfahren basierend auf Thesaurus (vgl. Kapitel 2) fügen Synonyme oder verwandte Terme hinzu § manuell erstellt (z.B. WordNet oder GermaNet) § automatisch ermittelt durch Analyse der Dokumente Information Retrieval / Kapitel 3: IR-Modelle 85 Automatische Ermittlung von verwandten Termen § Definiere Ähnlichkeit zwischen zwei Termen u und v anhand der sie enthaltenden Dokumente als Kontext § docs(u) und docs(v) als Mengen der Dokumente, welche die Terme u bzw. v enthalten § Jaccard-Koeffizient zweier Mengen A und B definiert als |A fl B| Jaccard(A, B) = |A fi B| § Ähnlichkeit zwischen den beiden Termen u und v |docs(u) fl docs(v)| sim(u, v) = |docs(u) fi docs(v)| Information Retrieval / Kapitel 3: IR-Modelle 86 Query Expansion § Lokale Verfahren analysieren die ersten k Ergebnisse und extrahieren aus ihnen verwandte Terme § Rk als Menge der ersten k Ergebnisse zur Anfrage § Gewicht des Terms u lässt sich dann z.B. ermitteln als A B ÿ tf (u, d) · idf (u) dœRk § Intuition: Ein Term u ist ein guter Term zur Erweiterung der Anfrage, wenn er in den ersten k Ergebnissen häufiger als erwartet vorkommt Information Retrieval / Kapitel 3: IR-Modelle 87 Zusammenfassung § Query-Likelihood Model modelliert wie der Benutzer eine Anfrage anhand eines idealen Dokuments formuliert § Jelinek-Mercer Smoothing und Dirichlet Smoothing eliminieren als Glättungsverfahren Nullwahrscheinlichkeiten § Latent Semantic Indexing bildet Anfrage und Dokumente in einen Vektorraum ab, dessen Dimensionen verborgenen Konzepten entsprechen § Relevance Feedback und Query Expansion Information Retrieval / Kapitel 3: IR-Modelle 88 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 (Kapitel 9, 12 & 18) [2] W. B. Croft, D. Metzler, T. Strohman: Search Engines – Information Retrieval in Practice, Addison Wesley, 2010 (Kapitel 6 & 7) Information Retrieval / Kapitel 3: IR-Modelle 89