3. IR-­‐Modelle Rückblick ✦ Vielfalt und Vagheit natürlicher Sprache ✦ Tokenisierung und Normalisierung ✦ Stamm-­‐ und Grundformreduk7on ✦ Komposita und Wortgruppen ✦ Synonyme und Polyseme ✦ Rechtschreibekorrektur und Edi7erdistanz nach Levenshtein Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 2 Mo1va1on All models are wrong but some are useful [George Box] IR-­‐Modelle formalisieren den Vorgang gemäß dem ein Benutzer entscheidet, inwiefern ein Dokument zu einem Informa7onsbedürfnis relevant ist ✦ Dabei beantworten sie folgende elementare Fragestellungen ✦ ✦ Wie werden Dokumente und Anfragen formal repräsen7ert? ✦ Welche Dokumente sind zu einer Anfrage wie relevant? Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 3 Inhalt (1) Boolesches Retrieval (2) Vektorraum-­‐Modell (3) Probabilis1sches IR (4) Language Models (5) Latent Seman1c Indexing Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 4 3.1 Boolesches Retrieval ✦ ✦ Dokumente werden als Mengen von Termen repräsen1ert Anfragen werden als Boolesche Ausdrücke bestehend aus Termen und den Operatoren AND, OR und NOT formuliert (george AND clooney) OR (danny AND ocean) ✦ ✦ Eindeu7ge Seman7k: Dokument erfüllt Anfrage oder nicht (Immer noch) verbreitet in der Praxis und häufig auch unterstützt von modernen Systemen (z.B. Google und Bing) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 5 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfragebearbeitung ✦ Paarweises Zusammenführen von Indexlisten (george AND clooney) OR (danny AND ocean) ✦ Effiziente Bearbeitung von (george AND clooney) auf nach Dokumenten sor1erten Indexlisten in Zeitkomplexität O(m + n) george d1 d7 d9 d12 d19 clooney d4 d7 d8 d12 d20 Informa1on Retrieval (SS 2011) … … 3. IR-­‐Modelle 6 Anfrageop1mierung ✦ ✦ Anfragen können durch Umformen und Klammern op1miert werden (vgl. Op1mierung der Join-­‐Reihenfolge in RDBMS) Kommt movie in 1,000, george in 100 und clooney in 10 Dokumenten vor, so gibt es u.a. folgende Op1onen (movie AND george) AND clooney 1,210 movie AND (george AND clooney) 1,210 george AND (movie AND clooney) 1,120 mit jeweils maximaler Anzahl von Vergleichsopera1onen Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 7 Erweiterung & Kri1k Boolesches Retrieval kann erweitert werden durch ✦ ✦ ✦ ✦ Zusätzliche Operatoren basierend auf Term-­‐Posi1onen (z.B. NEAR) Eliminieren von Stoppwörtern (z.B. a, the, this, of ) Reduk1on von Wörtern auf ihre Stammformen (Stemming) (z.B. criminal → crimin, criminals → crimin) ✦ Keine Rangfolge (ranking) der Treffer ✦ Term-­‐Häufigkeit und Term-­‐Reihenfolge spielen keine Rolle Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 8 3.2 Vektorraum-­‐Modell ✦ ✦ ✦ ✦ ✦ Modell liefert Ergebnisse in einer Rangfolge (ranked retrieval) Dokumente und Anfragen werden als Mul7mengen von Termen (bag of words) betrachtet Dokumente und Anfragen werden auf Vektoren im einem hochdimensionalen Vektorraum abgebildet Eine Dimension pro Term in der Dokumentensammlung Wert einer Vektorkomponente gibt Gewicht des Terms an und wird, in der Regel, miiels einer Variante von \.idf bes1mmt Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 9 j.idf Intui1on: Ein Term t ✦ ✦ ✦ ✦ ✦ soll mehr Gewicht haben, wenn er häufig in d vorkommt soll weniger Gewicht haben, wenn er in vielen Dokumenten vorkommt und damit wenig trennscharf (discrimina6ve) ist Term-­‐Häufigkeit (term frequency) als Anzahl der Vorkommen von Term t im Dokument d Inverse Dokumenten-­‐Häufigkeit (inverse document frequency) von Term t in den N Dokumenten der Kollek1on Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 10 j.idf Term-­‐Häufigkeit (j) und inverse Dokumenten-­‐Häufigkeit (idf) werden in einem Vektor V(d) für Dokument d kombiniert als ✦ Zahlreiche Varianten von j.idf exis1eren, z.B. mit ✦ ✦ ✦ ✦ ✦ logarithmisch transformierter Term-­‐Häufigkeit: 1 + log 2t,d rela1ver anstai absoluter Term-­‐Häufigkeit: 2t,d / Ld max-­‐normalisierter Term-­‐Häufigkeit: 2t,d / max-­‐2d Manche weniger heuris7schen Modelle (z.B. Unigram Language Model) lassen sich in „\.idf-­‐Variante“ umformen Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 11 Distanzen von Vektoren ✦ Wie bringt man Dokumente in Rangfolge zu Anfrage q? ✦ Idee: Ordne Dokumente nach ihrer Nähe oder Distanz zu q ✦ Manha_an (L1) Distanz ✦ clooney V(d1) Euklidische (L2) Distanz V(d2) V(q) george Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 12 Kosinus-­‐Ähnlichkeit ✦ ✦ Manhaian Distanz und Euklidische Distanz ungeeignet, da sie von der Länge der Vektoren (und damit der Länge der Dokumente) abhängig sind Kosinus-­‐Ähnlichkeit (cosine similarity) als Kosinus des Winkels zwischen den Vektoren ist nur von ihrer Richtung abhängig clooney V(d1) V(d2) V(q) george Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle Beispiel zu Vektorraum-­‐Modell car auto insurance has Informa1on Retrieval (SS 2011) d1 10 2 10 1 3. IR-­‐Modelle d2 2 0 0 2 d3 5 0 5 2 d4 2 0 0 1 d5 0 5 5 1 14 Beispiel zu Vektorraum-­‐Modell car auto insurance has Informa1on Retrieval (SS 2011) d1 10 2 10 1 3. IR-­‐Modelle d2 2 0 0 2 d3 5 0 5 2 d4 2 0 0 1 d5 0 5 5 1 dft 4 2 3 5 14 Beispiel zu Vektorraum-­‐Modell car auto insurance has Informa1on Retrieval (SS 2011) d1 10 2 10 1 3. IR-­‐Modelle d2 2 0 0 2 d3 5 0 5 2 d4 2 0 0 1 d5 0 5 5 1 dft 4 2 3 5 idft 0.01 0.40 0.22 0.00 14 Beispiel zu Vektorraum-­‐Modell car auto insurance has car auto insurance has Informa1on Retrieval (SS 2011) d1 10 2 10 1 V(d1 ) 0.10 0.80 2.20 0.00 3. IR-­‐Modelle d2 2 0 0 2 d3 5 0 5 2 V(d2 ) 0.02 0.00 0.00 0.00 d4 2 0 0 1 V(d3 ) 0.05 0.00 1.10 0.00 d5 0 5 5 1 dft 4 2 3 5 V(d4 ) 0.02 0.00 0.00 0.00 idft 0.01 0.40 0.22 0.00 V(d5 ) 0.00 2.00 1.10 0.00 14 Beispiel zu Vektorraum-­‐Modell car auto insurance has car auto insurance has ✦ d1 10 2 10 1 V(d1 ) 0.10 0.80 2.20 0.00 d2 2 0 0 2 d3 5 0 5 2 V(d2 ) 0.02 0.00 0.00 0.00 d4 2 0 0 1 V(d3 ) 0.05 0.00 1.10 0.00 Für die Anfrage auto insurance erhält man miiels Kosinus-­‐Ähnlichkeit als Rangfolge Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle d5 0 5 5 1 dft 4 2 3 5 V(d4 ) 0.02 0.00 0.00 0.00 d5 d1 d3 d4 d2 idft 0.01 0.40 0.22 0.00 V(d5 ) 0.00 2.00 1.10 0.00 sim(q, d) 0.96 0.91 0.71 0.00 0.00 14 Anfragebearbeitung Effiziente Anfragebearbeitung dank folgender Beobachtungen ✦ ✦ Kosinus-­‐Ähnlichkeit lässt sich als Skalarprodukt von L2-­‐normalisierten Vektoren darstellen V(d)t V(d)t � v(d)t = = � |V(d)| 2 V(d) t t sim(q, d) = v(q) · v(d) ✦ ✦ Vektoren können bereits L2-­‐normalisiert indexiert werden Es reicht aus, nur Terme aus der Anfrage zu betrachten sim(q, d) = � v(q)t v(d)t t∈q Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 15 Erweiterungen & Kri1k ✦ ✦ ✦ Rocchios Algorithmus verwendet Feedback des Benutzers über relevante und nicht-­‐relevante Dokumente (relevance feedback), um den Anfragevektor anzupassen Varianten des Vektorraum-­‐Modells finden sich in vielen exis7erenden Systemen (z.B. Apache Lucene) und liefern gute Ergebnisse auf verschiedensten Dokumentensammlungen Häufiger Kri1kpunkt am Vektorraum-­‐Modell ist seine mangelnde theore7sche Fundierung – jedoch lassen sich einige der vorgeblich fundierteren Ansätze darauf abbilden Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 16 3.3 Probabilis7sches IR ✦ ✦ ✦ Boolesches Retrieval und Vektorraum-­‐Modell bes1mmen heuris7sch ob/wie relevant ein Dokument d zur Anfrage q ist Wahrscheinlichkeitstheorie (probability theory) bietet ein theore1sches Fundament, um über die Wahrscheinlichkeiten von Ereignissen zu reden und damit umzugehen Probabilis7sches IR bes1mmt die Wahrscheinlichkeit des Ereignis “Dokument d ist zur Anfrage q relevant” Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 17 Wahrscheinlichkeitsrechnung ✦ Gemeinsame Wahrscheinlichkeit der zwei Ereignisse A und B P(A ∩ B) = P(B ∩ A) ✦ Bedingte Wahrscheinlichkeit für Ereignis A gegeben Ereignis B P(A | B) ✦ Für gemeinsame Wahrscheinlichkeit (joint probability) und bedingte Wahrscheinlichkeiten (condi6onal probability) gilt P(A ∩ B) = P(A | B) P(B) = P(B | A) P(A) = P(B ∩ A) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 18 Wahrscheinlichkeitsrechnung ✦ Sind zwei Ereignisse A und B voneinander unabhängig gilt P(A ∩ B) = P(A) P(B) P(B | A) = P(B) P(A | B) = P(A) ✦ Satz von Bayes zum Umkehren bedingter Wahrscheinlichkeiten P(B | A) P(A) P(A | B) = P(B) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 19 Probabilis1c Ranking Principle (PRP) ✦ Probabilis1c Ranking Principle (PRP) schlägt vor, Dokumente in absteigender Rangfolge ihrer Wahrscheinlichkeit zur Anfrage relevant zu sein zu ordnen P(R = 1 | d, q) ✦ ✦ Man kann zeigen, dass das PRP zu op7maler Precision führt, wenn man annimmt dass die Wahrscheinlichkeiten genau bekannt und unabhängig voneinander sind Beide Annahmen sind in der Realität fragwürdig z.B. aufgrund von Duplikaten in der Dokumentensammlung Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 20 Binary Independence Model ✦ ✦ ✦ Binary Independence Model (BIM) betrachtet Dokumente und Anfragen als Mengen von Termen, d.h. es wird –binär– festgehalten, ob ein Term vorhanden ist oder nicht Eine grundlegende Annahme des BIM ist, dass Terme unabhängig voneinander in Dokumenten vorkommen Rangfolge der Dokumente gemäß des PRP nach ihrer Relevanz-­‐Wahrscheinlichkeit P(R = 1 | d, q), für die gilt: P(R = 1 | d, q) + P(R = 0 | d, q) = 1 Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 21 Binary Independence Model ✦ Die gleiche Rangfolge der Dokumente erhält man, wenn man stai Wahrscheinlichkeiten deren Quoten (odds) betrachtet P(R = 1 | d, q) O(R | d, q) = P(R = 0 | d, q) ✦ Durch Anwendung des Satz von Bayes erhält man P(R = 1 | q) P(d | R = 1, q) O(R | d, q) = · P(R = 0 | q) P(d | R = 0, q) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 22 Binary Independence Model ✦ Die gleiche Rangfolge der Dokumente erhält man, wenn man stai Wahrscheinlichkeiten deren Quoten (odds) betrachtet P(R = 1 | d, q) O(R | d, q) = P(R = 0 | d, q) ✦ Durch Anwendung des Satz von Bayes erhält man P(R = 1 | q) P(d | R = 1, q) O(R | d, q) = · P(R = 0 | q) P(d | R = 0, q) Kann ignoriert werden, da konstant für Anfrage q Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 22 Binary Independence Model ✦ Unter der Annahme unabhängiger Termvorkommen P(d | R = 1, q) � P(t | R = 1, q) = P(d | R = 0, q) P(t | R = 0, q) t∈V ✦ Unter der Annahme, dass nur Anfrageterme eine Rolle spielen P(d | R = 1, q) � P(t | R = 1, q) ≈ P(d | R = 0, q) t∈q P(t | R = 0, q) ✦ Auseilung in vorhandene und fehlende Anfrageterme � P(t | R = 1, q) � P(t | R = 1, q) P(d | R = 1, q) ≈ · P(d | R = 0, q) P(t | R = 0, q) t∈q P(t | R = 0, q) t∈q t�∈d t∈d Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 23 Binary Independence Model ✦ Definiere pt und ut als die Wahrscheinlichkeit, dass Term t in einem relevanten bzw. nicht-­‐relevanten Dokument vorkommt � pt � 1 − pt P(d | R = 1, q) ≈ · P(d | R = 0, q) ut t∈q 1 − ut t∈q t∈d ✦ t�∈d Durch einfaches Umformen erhält man � pt (1 − ut ) � 1 − pt P(d | R = 1, q) ≈ · P(d | R = 0, q) ut (1 − pt ) t∈q 1 − ut t∈q t∈d Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 24 Binary Independence Model ✦ Definiere pt und ut als die Wahrscheinlichkeit, dass Term t in einem relevanten bzw. nicht-­‐relevanten Dokument vorkommt � pt � 1 − pt P(d | R = 1, q) ≈ · P(d | R = 0, q) ut t∈q 1 − ut t∈q t∈d ✦ t�∈d Durch einfaches Umformen erhält man � pt (1 − ut ) � 1 − pt P(d | R = 1, q) ≈ · P(d | R = 0, q) ut (1 − pt ) t∈q 1 − ut t∈q t∈d Kann ignoriert werden, da konstant für Anfrage q Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 24 Binary Independence Model ✦ ✦ Beim Mul1plizieren kleiner Wahrscheinlichkeiten ist es, um numerische Ungenauigkeit zu vermeiden, os empfehlenswert staidessen die Summe ihrer Logarithmen zu betrachten Der sogenannte Retrieval-­‐Status-­‐Wert (retrieval status value) liefert die gleiche Rangfolge und ist definiert als � pt (1 − ut ) � pt (1 − ut ) RSVd = log = log ut (1 − pt ) ut (1 − pt ) t∈q t∈q t∈d Informa1on Retrieval (SS 2011) t∈d 3. IR-­‐Modelle 25 Schätzen der Wahrscheinlichkeiten pt und ut ✦ Unter der Annahme, dass die Zahl der relevanten Dokumente im Vergleich zur Dokumentensammlung klein ist, schätzt man dft ut = N ✦ Mangels Wissen über die Menge der zur Anfrage relevanten Dokumente schätzt man pt = 1 − pt = 0.5 ✦ Damit entspricht das BIM folgender “\.idf-­‐Variante” � � (1 − ut ) � N − dft N RSVd = log = log ≈ log ut dft dft t∈q t∈q t∈q t∈d Informa1on Retrieval (SS 2011) t∈d 3. IR-­‐Modelle t∈d 26 Erweiterungen & Kri1k ✦ ✦ ✦ Feedback des Benutzers über relevante und nicht-­‐relevante Dokumente (relevance feedback) kann bei Schätzung von pt und ut einfließen und direkt vom BIM verwendet werden BIM liefert tendenziell gute Ergebnisse auf Sammlungen von Dokumenten homogener Länge, überzeugt jedoch nicht bei heterogener Dokumentenlänge (z.B. World Wide Web) Theore7sch fundierter Ansatz, welcher jedoch einige in der Realität fragwürdige Annahmen triu (z.B. Unabhängigkeit) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 27 Okapi BM25 ✦ ✦ Okapi BM25 ist ein probabilis1sches IR-­‐Modell, welches auf dem BIM auvaut, jedoch Term-­‐Häufigkeiten berücksich1gt Für die Verteilung der Term-­‐Häufigkeiten in relevanten und nicht-­‐relevanten Dokumenten (analog zu pt und ut) wird angenommen, dass sie Poisson-­‐verteilt sind P(tft,d Informa1on Retrieval (SS 2011) λk −λ = k) = e k! 3. IR-­‐Modelle 28 Okapi BM25 � (k1 + 1) tft,d N − dft + 0.5 RSVd = · log k ((1 − b) + b (Ld /Lave )) + tft,d dft + 0.5 t∈q 1 Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦ ✦ ✦ für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM in der Praxis liefert k1 = 1.2 gute Ergebnisse Parameter b kontrolliert Normalisierung der Term-­‐ Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave ✦ ✦ ✦ für b = 0.0 spielt die Länge des Dokumentes keine Rolle in der Praxis liefert b = 0.75 gute Ergebnisse Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 29 Okapi BM25 � (k1 + 1) tft,d N − dft + 0.5 RSVd = · log k ((1 − b) + b (Ld /Lave )) + tft,d dft + 0.5 t∈q 1 ~ \ Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦ ✦ ✦ für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM in der Praxis liefert k1 = 1.2 gute Ergebnisse Parameter b kontrolliert Normalisierung der Term-­‐ Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave ✦ ✦ ✦ für b = 0.0 spielt die Länge des Dokumentes keine Rolle in der Praxis liefert b = 0.75 gute Ergebnisse Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 29 Okapi BM25 � (k1 + 1) tft,d N − dft + 0.5 RSVd = · log k ((1 − b) + b (Ld /Lave )) + tft,d dft + 0.5 t∈q 1 ~ \ ~ idf Parameter k1 kontrolliert den Einfluss der Term-­‐Häufigkeiten ✦ ✦ ✦ für k1 = 0.0 erhält man ein binäres Modell ähnlich dem BIM in der Praxis liefert k1 = 1.2 gute Ergebnisse Parameter b kontrolliert Normalisierung der Term-­‐ Häufigkeiten anhand durchschniilicher Dokumentenlänge Lave ✦ ✦ ✦ für b = 0.0 spielt die Länge des Dokumentes keine Rolle in der Praxis liefert b = 0.75 gute Ergebnisse Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 29 Erweiterungen & Kri1k ✦ ✦ ✦ Okapi BM25F (F steht für fields) als eine Erweiterung zur separaten Betrachtung und Gewichtung unterschiedlicher Bereiche (fields) eines Dokumentes z.B. Titel (6tle), Inhalt (body) und Verweistexte (anchor texts) Okapi BM25 liefert sehr gute Ergebnisse auf verschiedensten Dokumentensammlungen und gilt als “Stand der Technik” Theore7sch fundierter Ansatz, welcher jedoch einige in der Realität fragwürdige Annahmen triu (z.B. Unabhängigkeit) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 30 3.4 Language Models Probabilis1c Language Models beschreiben die Generierung einer (formalen) Sprache (z.B. Folge von Termen) ✦ dog : 0.3 / cat : 0.3 / bird : 0.4 s 0.9 0.1 t P(dog) = 0.3 × 0.1 = 0.03 P(dog cat) = 0.3 × 0.9 × 0.3 × 0.1 = 0.0081 P(cat bird) = 0.3 × 0.9 × 0.4 × 0.1 = 0.0108 Anwendungsbeispiele im Umgang mit natürlicher Sprache ✦ ✦ ✦ ✦ Spracherkennung: Wähle sinnvolleren aus phone1sch ähnlichen Sätzen (z.B. “get up at 8 o’clock” und “get a potato clock”) Maschinelles Übersetzen: Wähle sinnvollere aus möglichen Übersetzungen (z.B. “logic closing” und “logical reasoning”) Informa7on Retrieval: Ordne Dokumente danach wie sinnvoll sie für eine vorliegende Anfrage erscheinen Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 31 Query-­‐Likelihood ✦ ✦ ✦ ✦ Intui1on: Benutzer hat Vorstellung vom idealen Dokument d und formuliert eine Anfrage q um genau dieses zu finden Modell beschreibt wie Benutzer eine Anfrage q anhand von Dokument d formuliert (z.B. zufällige Auswahl von Termen) Als Vorberechnung wird für jedes Dokument solch ein generierendes Modell u.a. anhand seines Inhalts geschätzt Zur Anfragezeit präsen1ert man Dokumente in der Reihenfolge von P(q|d) – der Wahrscheinlichkeit dass die Anfrage q anhand vom jeweiligen Dokument formuliert wurde Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 32 Unigram Language Models ✦ ✦ Dokumente und Anfragen sind Mul7mengen von Termen Benutzer formuliert Anfrage durch Ziehen (mit Zurücklegen) einzelner Terme (Unigramme) aus dem Dokument � tft,d Lq ! P(q | d) = � t∈q tft,q ! t∈q Ld ∝ ✦ � tft,d t∈q Ld Mögliche Erweiterung durch a-­‐priori Wahrscheinlichkeit P(d) für Dokument d, die z.B. von dessen Popularität abhängt Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 33 Smoothing ✦ ✦ ✦ Bisher beschrieber Ansatz hat konjunk7ve Seman7k, d.h., nur für Dokumente die alle Anfrageterme enthalten gilt P(q|d) > 0 Smoothing (GläFen) eliminiert Nullwahrscheinlichkeiten durch Einbeziehen von Sta1s1ken über die Dokumentenkollek1on Jelinek-­‐Mercer Smoothing (Lineare Interpola1on): Benutzer zieht Term mit Wahrscheinlichkeit α aus Dokument und mit Wahrscheinlichkeit (1 -­‐ α) aus Dokumentenkollek1on tft,d tft,D P(t | d) = α + (1 − α) Ld LD Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 34 Smoothing ✦ Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme P(t | d) = ✦ tft,d + κ tfLt,D D Ld + κ Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante” � � � α tft,d LD sim(q, d) = log 1 + 1 − α Ld tft,D t∈q Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 35 Smoothing ✦ Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme P(t | d) = ✦ tft,d + κ tfLt,D D Ld + κ Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante” � � � α tft,d LD sim(q, d) = log 1 + 1 − α Ld tft,D t∈q ~ \ Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 35 Smoothing ✦ Dirichlet Smoothing: Benutzer erweitert Dokument zuerst um κ zufällig aus der Dokumentenkollek1on gezogene Terme P(t | d) = ✦ tft,d + κ tfLt,D D Ld + κ Unigram Language Model mit Jelinek-­‐Mercer Smoothing liefert Ergebnisse in gleicher Rangfolge wie folgende “\.idf-­‐Variante” � � � α tft,d LD sim(q, d) = log 1 + 1 − α Ld tft,D t∈q ~ \ Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle ~ idf 35 Beispiel Unigram LM mit JM Smoothing car auto insurance has car auto insurance has P(t | d1 ) 10 / 23 2 / 23 10 / 23 1 / 23 Informa1on Retrieval (SS 2011) P(t | d2 ) 1/2 0 0 1/2 P(t | d3 ) 5 / 12 0 5 / 12 1/6 3. IR-­‐Modelle d1 10 2 10 1 P(t | d4 ) 2/3 0 0 1/3 d2 2 0 0 2 d3 5 0 5 2 d4 2 0 0 1 d5 0 5 5 1 P(t | d5 ) 0 5 / 11 5 / 11 1/11 P(t | D) 19 / 53 7 / 53 20 / 53 7 / 53 d5 d1 d3 d4 d2 P(q | d) 0.15 0.04 0.01 0.00 0.00 36 Beispiel Unigram LM mit JM Smoothing car auto insurance has car auto insurance has P(t | d1 ) 10 / 23 2 / 23 10 / 23 1 / 23 P(t | d2 ) 1/2 0 0 1/2 ✦ Informa1on Retrieval (SS 2011) P(t | d3 ) 5 / 12 0 5 / 12 1/6 d1 10 2 10 1 P(t | d4 ) 2/3 0 0 1/3 d2 2 0 0 2 P(t | d5 ) 0 5 / 11 5 / 11 1/11 Für die Anfrage auto insurance und α = 0.7 erhält man als Rangfolge 3. IR-­‐Modelle d3 5 0 5 2 d5 d1 d3 d4 d2 d4 2 0 0 1 d5 0 5 5 1 P(t | D) 19 / 53 7 / 53 20 / 53 7 / 53 P(q | d) 0.15 0.04 0.01 0.00 0.00 36 n-­‐Gram Language Models ✦ ✦ Term-­‐Reihenfolge wird ignoriert in Unigram Language Models ➔ Anfragen paris hilton und hilton paris nicht unterscheidbar n-­‐Gramm ist eine Folge von n Termen the hilton paris close to the eiffel tower ✦ ✦ 1-Gramme: 〈the〉 〈hilton〉 〈paris〉 … 2-Gramme: 〈the, hilton〉 〈hilton, paris〉 … 3-Gramme: 〈the, hilton, paris〉 〈hilton, paris, close〉 … Dokumente und Anfragen betrachtet als Folgen von Termen Benutzer formuliert seine Anfrage durch zufälliges Ziehen von Termen unter Berücksich1gung der bis zu (n-­‐1) zuvor bereits gezogenen Terme Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 37 n-­‐Gram Language Models ✦ Für n = 3 erhalten wir folgendes Trigram Language Model P(�q1 . . . qm � | d) = P(q1 ) P(q2 | q1 ) ✦ ✦ m � P(qi | qi−2 qi−1 ) i=3 Smoothing wird umso wich1ger je höher die Ordnung (d.h. der Wert von n) des verwendeten Language Models ist Language Models höherer Ordnung (d.h. n > 1) sind gängig für Spracherkennung und maschinelles Übersetzen; im Informa1on Retrieval werden sie meist nicht verwendet Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 38 Transla1on Language Models Umgang mit Synonymen (z.B. automobile und car) sowie seman7sch ähnlichen Termen (z.B. tiger und lion) �� P(q | d) = P(t | v) P(v | d) ✦ t∈q v∈d Wahrscheinlichkeit P(t|v) dass Term v aus Dokument in Anfrageterm t übersetzt wird geschätzt anhand von ✦ ✦ Thesaurus (z.B. WordNet) Sta1s1ken über gemeinsam vorkommende Terme (z.B. tiger und lion kommen beide os mit zoo und cat vor) ✦ Query logs (d.h. von Benutzern formulierte Anfragen) ✦ Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 39 Erweiterungen & Kri1k ✦ Zahlreiche Erweiterungen von Language Models fürs IR z.B. ✦ mit term-­‐spezifischem Smoothing (d.h. wir haben α und κ ) t t ✦ ✦ ✦ personalisiert durch Benutzerverhalten und -­‐kontext (abgeleitet aus Query-­‐ oder Click-­‐Logs) cross-­‐lingual um mit Anfrage in einer Sprache (z.B. Deutsch) Dokumente in einer anderen Sprache (z.B. Englisch) zu finden für Informa7onsbedürfnisse mit Zeitbezug durch Berücksich1gung von Zeitreferenzen in Dokumenten (z.B. im Mai 2011) ✦ Rich1ge Wahl der Parameter ist essen1ell aber schwierig ✦ Unabhängigkeitsannahmen sind in der Realität fragwürdig Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 40 3.5 Latent Seman7c Indexing ✦ ✦ ✦ ✦ Bisher besprochene IR-­‐Modelle sind term-­‐orien7ert und betrachten bekannte Terme unabhängig voneinander Vektorraum-­‐Modell z.B. betrachtet einen m-­‐dimensionalen Vektorraum mit einer Dimension pro bekanntem Term Synonyme (z.B. car und automobile) und Polyseme (z.B. bank) führen zu einer Verringerung der Ergebnisgüte Latent Seman7c Indexing bildet Dokumente und Anfragen in einen k-­‐dimensionalen Vektorraum (k << n) ab, dessen Dimensionen verborgenen (latent) Konzepten entsprechen Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 41 Lineare Unabhängigkeit und Rang einer Matrix ✦ ✦ ✦ Defini1on: Die Vektoren v1 … vn sind linear unabhängig, wenn sich kein vi als Linearkombina7on der anderen Vektoren darstellen lässt Defini1on: Der Rang rank(C) einer m x n Matrix C ist die maximale Anzahl ihrer linear unabhängigen Zeilen-­‐ oder Spaltenvektoren Defini1on: Eine n x n Matrix C heisst Diagonalmatrix, wenn nur für i = j gilt Cij ≠ 0 Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 42 Eigenvektoren und Eigenwerte ✦ Defini1on: Gilt für eine reelle m x m Matrix C, einen Wert λ und einen m x 1 Vektor x Cx = λx so ist x ein (rechter) Eigenvektor und λ ein Eigenwert von C ✦ Intui1on: Eigenvektoren sind die Vektoren, deren Richtung bei der durch C beschriebenen Transforma1on erhalten bleibt Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 43 Beispiel Eigenvektoren und Eigenwerte ✦ Die Matrix C beschreibt Illustrat eine aion ffine Transforma7on x → C x of Eigenvec tors § 2 1· Matrix A ¨ ¸ ©1 3 ¹ C= � describes affine transformation x Ax 2 1 1 3 Eigenvector � x1 = (0.52 0.85)T for Eigenvalue O1=3.62 Eigenvector x2 = (0.85 -0.52)T for Eigenvalue O2=1.38 IRDM WS 2009 ✦ ✦ 4-70 Eigenwert λ1 = 3.62 mit Eigenvektor Eigenwert λ2 = 1.38 mit Eigenvektor Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle � � 0.62 −1.62 1.00 �T 1.00 �T 44 Singulärwertzerlegung Theorem: Für jede reelle m x n Matrix C mit Rang r gibt es eine Singulärwertzerlegung (singular value decomposi6on) der Form ✦ C = U Σ VT mit den Faktoren ✦ ✦ ✦ ✦ U als eine m x r Matrix bestehend aus den Eigenvektoren der Matrix CCT Σ als eine r x r Diagonalmatrix mit den Singulärwerten σi der Matrix C auf der Diagonalen V als eine n x r Matrix bestehend aus den Eigenvektoren der Matrix CTC Singulärwertzerlegung (SVD) ist eindeu7g unter Voraussetzung dass Singulärwerte σi in Σ absteigend nach Größe geordnet sind Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 45 Singulärwertzerlegung n m � r = C 3.00 0.00 0.00 2.00 1.00 3.00 � � m 0.52 0.85 U −0.85 0.53 r X r n Σ X � 3. IR-­‐Modelle V T � 3.85 0.00 0.00 2.85 � Informa1on Retrieval (SS 2011) r � 0.41 −0.89 0.44 0.37 0.80 0.25 46 � Singulärwertzerlegung zur Approxima1on Theorem: Für die m x n Matrix C mit Rang r sei Ck definiert als ✦ C k = U k Σ k Vk T mit den Faktoren ✦ ✦ ✦ Σk als k x k Diagonalmatrix der k größten Singulärwerte von C Uk als m x k Matrix der entsprechenden Eigenvektoren aus U Vk als k x n Matrix der entsprechenden Eigenvektoren aus V Unter allen m x n Matrizen mit einem Rang von höchstens k minimiert Ck die Frobenius-­‐Norm � �� n �m � � �2 �C − Ck �F = � Cij − Ck ij i=1 j=1 Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 47 Singulärwertzerlegung zur Approxima1on k n m � = Ck 0.82 1.34 0.88 1.44 1.60 2.61 � k k m � Uk 0.52 0.85 n Σk k X X � � 3.85 � � Informa1on Retrieval (SS 2011) Vk T 3. IR-­‐Modelle 0.41 0.44 0.80 48 � Latent Seman1c Indexing ✦ ✦ Ausgangspunkt ist eine m x n Term-­‐Dokumenten-­‐Matrix C, deren Komponente Cij das Gewicht (z.B. bes1mmt miiels j.idf) des i-­‐ten Terms im j-­‐ten Dokument angibt Latent Seman1c Indexing (LSI) wendet SVD auf die Matrix C an und bes1mmt eine Approxima1on Ck vom Rang k als C k = U k Σ k Vk T ✦ Anfrage q im m-­‐dimensionalen Term-­‐Vektorraum wird in k-­‐dimensionalen Konzept-­‐Vektorraum abgebildet als qk = Σk −1 Uk T q und dort mit den k-­‐dimensionalen Abbildungen der Dokumente verglichen (z.B. miiels Kosinus-­‐Ähnlichkeit) Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 49 Latent Seman1c Indexing ✦ Term-­‐Dokument Matrix C d1 10 car auto 2 insurance 10 has 1 ✦ Term-­‐Term Matrix CCT 133 20 125 26 20 29 45 7 Informa1on Retrieval (SS 2011) 125 45 150 25 26 7 25 11 d2 d3 d4 2 0 0 2 5 0 5 2 2 0 0 1 d5 0 5 5 1 Dokument-­‐Dokument-­‐Matrix CTC 205 22 102 21 61 3. IR-­‐Modelle 22 8 14 6 2 102 14 54 12 27 21 61 6 2 12 27 5 1 1 51 50 Beispiel Latent Seman1c Indexing 10 2 C= 10 1 Informa1on Retrieval (SS 2011) 2 0 0 2 5 0 5 2 3. IR-­‐Modelle 2 0 0 1 0 5 5 1 Term-­‐Dokument (m x n) 51 Beispiel Latent Seman1c Indexing 0.66 0.18 U= 0.72 0.13 Informa1on Retrieval (SS 2011) 10 2 C= 10 1 0.58 −0.73 −0.35 0.05 2 0 0 2 0.07 0.26 −0.30 0.91 5 0 5 2 0 5 5 1 −0.48 −0.60 0.52 0.38 3. IR-­‐Modelle 2 0 0 1 Term-­‐Dokument (m x n) Term-­‐Konzept (m x r) 51 Beispiel Latent Seman1c Indexing 10 2 C= 10 1 0 5 5 1 0.66 0.58 0.07 −0.48 0.18 −0.73 0.26 −0.60 U= 0.72 −0.35 −0.30 0.52 0.13 0.05 0.91 0.38 16.75 0 0 0 0 5.85 0 0 Σ= 0 0 2.59 0 0 0 0 1.21 Informa1on Retrieval (SS 2011) 2 0 0 2 5 0 5 2 3. IR-­‐Modelle 2 0 0 1 Term-­‐Dokument (m x n) Term-­‐Konzept (m x r) Konzept-­‐Konzept (r x r) 51 Beispiel Latent Seman1c Indexing 10 2 C= 10 1 V = T 0 5 5 1 0.66 0.58 0.07 −0.48 0.18 −0.73 0.26 −0.60 U= 0.72 −0.35 −0.30 0.52 0.13 0.05 0.91 0.38 16.75 0 0 0 0 5.85 0 0 Σ= 0 0 2.59 0 0 0 0 1.21 0.85 0.09 0.43 0.09 0.28 0.15 0.21 0.21 0.21 −0.92 −0.34 0.76 0.26 0.41 0.27 −0.33 −0.16 0.80 −0.47 −0.01 Informa1on Retrieval (SS 2011) 2 0 0 2 5 0 5 2 3. IR-­‐Modelle 2 0 0 1 Term-­‐Dokument (m x n) Term-­‐Konzept (m x r) Konzept-­‐Konzept (r x r) Konzept-­‐Dokument (r x n) 51 Beispiel Latent Seman1c Indexing Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 52 Beispiel Latent Seman1c Indexing Σ2 = Informa1on Retrieval (SS 2011) � 16.75 0 3. IR-­‐Modelle 0 5.85 � Konzept-­‐Konzept (k x k) 52 Beispiel Latent Seman1c Indexing 0.66 0.18 U2 = 0.72 0.13 Σ2 = Informa1on Retrieval (SS 2011) � 0.58 −0.73 −0.35 0.05 16.75 0 3. IR-­‐Modelle 0 5.85 � Term-­‐Konzept (m x k) Konzept-­‐Konzept (k x k) 52 Beispiel Latent Seman1c Indexing 0.66 0.18 U2 = 0.72 0.13 Σ2 = V2 T = � 0.85 0.15 Informa1on Retrieval (SS 2011) 0.09 0.21 � 0.43 0.21 0.58 −0.73 −0.35 0.05 Term-­‐Konzept (m x k) 0 5.85 � Konzept-­‐Konzept (k x k) 0.09 0.28 0.21 −0.92 � Konzept-­‐Dokument (k x n) 16.75 0 3. IR-­‐Modelle 52 Beispiel Latent Seman1c Indexing 9.91 1.92 C2 = 9.94 1.90 1.71 −0.63 0.66 0.26 1.71 −0.03 −0.63 4.77 0.66 5.26 0.26 0.34 0.66 0.58 0.18 −0.73 U2 = 0.72 −0.35 0.13 0.05 5.47 0.40 4.76 1.00 Σ2 = V2 T = � 0.85 0.15 Informa1on Retrieval (SS 2011) 0.09 0.21 � 0.43 0.21 Term-­‐Dokument (m x n) Term-­‐Konzept (m x k) 0 5.85 � Konzept-­‐Konzept (k x k) 0.09 0.28 0.21 −0.92 � Konzept-­‐Dokument (k x n) 16.75 0 3. IR-­‐Modelle 52 Beispiel Latent Seman1c Indexing ✦ Die Anfrage auto insurance wird abgebildet als 0.00 � � 0.05 −1 T 1.00 q2 = = Σ 2 U2 1.00 −0.18 0.00 ✦ Informa1on Retrieval (SS 2011) Bei Verwendung der Kosinus-­‐Ähnlichkeit erhält man die Rangfolge 3. IR-­‐Modelle d5 d1 d3 d2 d4 sim(q, d) 1.00 0.10 -0.18 -0.78 -0.78 53 Erweiterungen & Kri1k ✦ ✦ ✦ ✦ Probabilis7c Latent Seman7c Indexing (pLSI) ist ein verwandter probabilis1scher Ansatz, welcher jedoch auf nicht-­‐nega7ver Matrixzerlegung (anstelle von SVD) basiert Latent Seman1c Indexing liefert tendenziell gute Ergebnisse auf homogenen Dokumentensammlungen (z.B. TREC); auf heterogenen (z.B. World Wide Web) überzeugt es nicht In der Praxis ist die Berechnung der Singulärwertzerlegung sehr rechenintensiv und die Wahl des Parameters k schwierig Theore7sch fundierter algebraischer Ansatz, der jedoch aufgrund seiner Einschränkungen wenig Anwendung findet Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 54 Zusammenfassung ✦ ✦ IR-­‐Modelle bieten formale Repräsenta7on von Anfragen und Dokumenten und bes1mmen, welche Dokumente zu einer Anfrage in welcher Reihenfolge zurückgeliefert werden In der Praxis wird häufig eine Kombina7on von Booleschem Retrieval und einem weiteren IR-­‐Modell zur Bes1mmung der Rangfolge (z.B. Okapi BM25) verwendet Beispiel: Eine Anfrage wie george AND clooney AND NOT friends wird zuerst als Boolesche Anfrage interpre1ert; die Rangfolge der Treffer wird dann miiels Okapi BM25 für die Anfrage george clooney bes1mmt Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 55 Quellen & Literatur [1] K. Berberich, S. Bedathur, O. Alonso, G. Weikum: A Language Modeling Approach for Temporal Informa6on Needs, ECIR 2010. [2] W. B. Cros, D. Metzler and T. Strohman: Search Engines Informa6on Retrieval in Prac6ce Addison Wesley, 2010. (Kapitel 7) [3] A. Henrich: Informa6on Retrieval 1 Grundlagen, Modelle und Anwendungen, Oio-­‐Friedrich-­‐Universität Bamberg, 2008. (Kapitel 4 + 5 + 7) [4] T. Hoffmann: Probabilis6c Seman6c Indexing, SIGIR 1999 [5] D. Hiemstra: Using Language Models for Informa6on Retrieval, Disserta1on, 2001 [6] J. Luxenburger, S. Elbassuoni, G. Weikum: Matching Task Profiles and User Needs in Personalized Web Search, CIKM 2009. [7] C. D. Manning, P. Raghavan and H. Schütze: Introduc_on to Informa_on Retrieval, Cambridge University Press, 2008. (Kapitel 6 + 11 + 12 + 18) [8] S. E. Robertson, H. Zaragoza and M. J. Taylor: Simple BM25 extension to mul6ple weighted fields, CIKM 2004 [9] C. Zhai and J. Lafferty: A Study of Smoothing Methods for Language Models Applied to Informa6on Retrieval, TOIS 22(2):179-­‐214, 2004. [10] C. Zhai: Sta6s6cal Language Models for Informa6on Retrieval A Cri6cal Review, Founda1ons and Trends in Informa1on Retrieval 2(3):137-­‐213, 2008. Informa1on Retrieval (SS 2011) 3. IR-­‐Modelle 56