Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Die einzelnen Schritte (1) Texte auswählen Boolesches Modell Erzeugung der Dokumentvektoren Erzeugung der disjunktiven Normalform der Anfrage Vergleich von Dokument- und Anfragevektoren Vektormodell Erzeugung der Dokumentvektoren (Termfrequenz, normalisierte Termfrequenz, Termgewichtung) Berechnung der Ähnlichkeit zwischen Dokument und Anfragevektor nach der Cosinusformel 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Die einzelnen Schritte (2) Probabilistisches Modell Auswahl eines Trainingscorpus Ermittlung der Beobachtungswerte rel (Anzahl relevanter Dokumente) nrel (Anzahl nicht-relevanter Dokumente) reli (Anzahl rel. Dok. mit Termi) nreli (Anzahl nicht rel. Dok. mit Termi) Berechnung der Termstatuswerte Berechnung der Retrievalstatuswerte für neue Dokumente 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (1) 03.08.2001 09:48 MEZ 1) Weiter Stabilisierung an der Weichsel Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise bereits unter den Alarmpegel gesunken, berichtet der polnische Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um 124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen Straßen und Ackerland unter Wasser. 02.08.2001 15:07 MEZ 2) Russische Behörden melden Cholera-Erkrankungen im Wolga-Gebiet Moskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen Angaben gab es keine Todesopfer. Angehörige der Opfer seien vorsorglich in Quarantänestationen gebracht worden, meldete die Agentur Interfax. Zudem werden Bahn-Reisende aus Kasan auf Cholera- Symptome untersucht, berichtete ein Radiosender. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (2) 02.08.2001 14:57 MEZ 3) «Feuerpause» am Ätna Catania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause» eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200 Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als zwei Wochen. Menschen kamen bislang nicht zu Schaden. 02.08.2001 09:46 MEZ 4) Ätna auf Sizilien speit Wasser Catania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein solches Phänomen ist laut italienischen Fernsehberichten seit 15 000 Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses enthalte Wasser in seiner kristallinen Struktur und erwärme sich, sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt. Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu Schaden. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (3) 02.08.2001 09:23 MEZ 5) Weiterer Deichabschnitt gesprengt Warschau (dpa) - Im Osten Polens haben Pioniere der Armee einen weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des Hochwassers ermöglicht werden. Außerdem kommen heute auch Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich werfen, um Risse zu schaffen und den Abfluss des Wassers zu beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50 Meter breite Lücke in den so genannten Sommerdeich der Weichsel südlich von Kazimierz Dolny gesprengt worden. 01.08.2001 08:29 MEZ 6) Millionen-Schaden durch Feuer in Wyoming Jackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle. Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den Brand einzudämmen. Das Feuer, das vermutlich durch menschliches Verschulden auf einem Campingplatz entstand, vernichtete 1800 Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (4) 01.08.2001 08:01 MEZ 7) Angriff von Computerwurm «Code Red» offenbar abgewehrt Washington (dpa) - Der Angriff des weltweit mit Sorge erwarteten Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um 2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte Juli hatte «Code Red» unter anderem die Webseiten des Weißen Hauses angegriffen. 01.08.2001 07:31 MEZ 8) Polnische Pioniere beginnen kontrollierten Deichbruch Warschau (dpa) - Polnische Pioniere haben im Osten des Landes mit einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr gehe nicht von der Höhe der Flutwelle aus, sondern von der ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das Hochwasser an der Weichsel erstreckt sich mittlerweile über 350 Kilometer. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (5) 30.07.2001 09:52 MEZ 9) Immer mehr Deiche in Polen undicht Warschau (dpa) - In den polnischen Hochwassergebieten ist in der Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich gebrochen. Das berichtet der polnische Rundfunk. Damit sind an Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen sind die durchweichten Deiche nach Angaben der Krisenstäbe mittlerweile löchrig und undicht. Bisher wurden rund 12 000 Menschen in Sicherheit gebracht. 27.07.2001 12:49 MEZ 10) Neue Überschwemmungen in Zentralpolen Warschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz. Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Texte (6) 27.07.2001 08:41 MEZ 11) Lage in Südpolen bleibt weiter dramatisch Warschau - Die Lage in den Hochwassergebieten im Süden und Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11 Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die Wasserstände wieder. 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrievalaufgabe Retrievalaufgabe Welche Dokumente benennen einen Schaden, der durch Feuer oder Wasser entstanden ist? 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Gewünschtes Ergebnis Relevanzbegriff? Dokument relevant benannte Schäden 1) Weiter Stabilisierung an der Weichsel 0|1 Straßen und Ackerland unter Wasser (Schaden impliziert) 2) Russische Behörden melden Cholera 1 3) «Feuerpause» am Ätna 0 4) Ätna auf Sizilien speit Wasser 0 5) Weiterer Deichabschnitt gesprengt 0|1 6) Millionen-Schaden durch Feuer in Wyoming 1 50 Menschen an Cholera erkrankt Deichabschnitt gesprengt Millionen-Schaden, 400 Hektar Wald verbrannt 7) Angriff von Computerwurm «Code Red» 0 8) Polnische Pioniere beginnen Deichbruch 0|1 Hochwasser (Schaden impliziert) 9) Immer mehr Deiche in Polen undicht 1 Deich gebrochen, Deich geborsten, Dörfer, Bauernhöfe unter Wasser 10) Neue Überschwemmungen in 1 11 Todesopfer 11) Lage in Südpolen bleibt weiter dramatisch 1 11 Todesopfer Zentralpolen 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Lösungsansatz Lösungsansatz hilfsweise Ansatz des Queryvektors: Feuer, Opfer, Schaden, Wasser 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Boolesches Modell Anfrage (Feuer | Wasser) & (Opfer | Schaden) Dokument Feuer Opfer Schaden Wasser Rang 1) Weiter Stabilisierung an der Weichsel 2) Russische Behörden melden Cholera 3) «Feuerpause» am Ätna 1 1 1 5) Weiterer Deichabschnitt gesprengt 1 7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch - 1 + 1 4) Ätna auf Sizilien speit Wasser 6) Millionen-Schaden durch Feuer in Wyoming 1 1 9) Immer mehr Deiche in Polen undicht + 1 + 1 - 1 + 1 1 - 1 - 10) Neue Überschwemmungen in Zentralpolen 1 1 + 11) Lage in Südpolen bleibt weiter dramatisch 1 1 + 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Vektormodell: Termfrequenz Dokument Feuer Opfer Schaden Wasser 1) Weiter Stabilisierung an der Weichsel 4 2) Russische Behörden melden Cholera 3) «Feuerpause» am Ätna 3 2 1 1 4) Ätna auf Sizilien speit Wasser 1 5) Weiterer Deichabschnitt gesprengt 6) Millionen-Schaden durch Feuer in Wyoming 2 6 2 7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch 3 2 1 2 9) Immer mehr Deiche in Polen undicht 2 10) Neue Überschwemmungen in Zentralpolen 1 1 11) Lage in Südpolen bleibt weiter dramatisch 1 4 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) freqi , m tfi , m max l freql , m Vektormodell: normalisierte Termfrequenz: maxl Dokument max. Frequenz eine Terms im Dokument 1) Weiter Stabilisierung an der Weichsel 4 (Wasser) 2) Russische Behörden melden Cholera 3 (Cholera) 3) «Feuerpause» am Ätna 2 (Ätna, Vulkan, Feuerpause) 4) Ätna auf Sizilien speit Wasser 3 (Wasser) 5) Weiterer Deichabschnitt gesprengt 4 (Deichabschnitt / Deich / Sommerdeich) 6) Millionen-Schaden durch Feuer in Wyoming 6 (Feuer) 7) Angriff von Computerwurm «Code Red» 3 (Angriff, Code Red) 8) Polnische Pioniere beginnen Deichbruch 3 (Deichbruch / Deich, Weichsel) 9) Immer mehr Deiche in Polen undicht 4 (Deich) 10) Neue Überschwemmungen in Zentralpolen 2 (Überschwemmungen, Zentralpolen) 11) Lage in Südpolen bleibt weiter dramatisch 4 (Wasser) 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Vektormodell: normalisierte Termfrequenz Dokument Feuer Opfer Schaden 1) Weiter Stabilisierung an der Weichsel 1 2) Russische Behörden melden Cholera 3) «Feuerpause» am Ätna 1 1 0.33 0.5 4) Ätna auf Sizilien speit Wasser 0.33 5) Weiterer Deichabschnitt gesprengt 6) Millionen-Schaden durch Feuer in Wyoming 1 0.5 1 0.33 7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch Wasser 0.66 0.33 0.66 9) Immer mehr Deiche in Polen undicht 0.5 10) Neue Überschwemmungen in Zentralpolen 0.5 0.5 11) Lage in Südpolen bleibt weiter dramatisch 0.25 1 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) wi ,m N tfi ,m .idf i tfi ,m log ni Vektormodell: Termgewichtung idf Feuer log 11 .56 3 idf Opfer log 11 .56 3 Dokument idf Schaden log Feuer 11 .44 4 Opfer idf W asser log Schaden 1) Weiter Stabilisierung an der Weichsel 0.56 0.56 0.0462 0.22 4) Ätna auf Sizilien speit Wasser 0.1452 5) Weiterer Deichabschnitt gesprengt 6) Millionen-Schaden durch Feuer in Wyoming 0.14 0.07 0.56 0.1452 7) Angriff von Computerwurm «Code Red» 8) Polnische Pioniere beginnen Deichbruch Wasser 0.14 2) Russische Behörden melden Cholera 3) «Feuerpause» am Ätna 11 .14 8 0.2904 0.1848 0.0924 9) Immer mehr Deiche in Polen undicht 0.07 10) Neue Überschwemmungen in Zentralpolen 0.28 0.07 05.02.2008,01.11.2007,05. 11) Lage in Südpolen bleibt weiter dramatisch 0.14 0.14 11.2006,05.11.2005 (1:26.10.2003) Vektormodell: Ähnlichkeit von Dokument und Query w w w w x sim (dm, q) i 1 i, m i, q x 2 x 2 i 1 i ,m i 1 i ,q Dokument Feuer Opfer 4) Ätna auf Sizilien speit Wasser sim (d 4, q) (0 1) (0 1) (0.1452 1) (0.14 1) 0 0 0.1452 0.14 1 1 1 1 2 2 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) 2 2 2 2 2 2 0.70698 Schaden Wasser 0.1452 0.14 Vektormodell: Ergebnisse Dokument sim(d,q) Rang Frequenz sim(d,q) Rang norm.Freq sim(d,q) Rang tf.idf 1) Weiter Stabilisierung an der Weichsel 0.50000 5 0.50000 5 0.50000 8 2) Russische Behörden melden Cholera 0.63245 3 0.63150 3 0.53941 7 3) «Feuerpause» am Ätna 0.67082 2 0.67082 2 0.64820 4 4) Ätna auf Sizilien speit Wasser 0.63245 3 0.63150 3 0.70698 2 5) Weiterer Deichabschnitt gesprengt 0.50000 5 0.50000 5 0.50000 8 6) Millionen-Schaden durch Feuer in W. 0.63245 3 0.63150 3 0.60948 5 7) Angriff v. Computerwurm «Code Red» 0.50000 5 0.50000 5 0.50000 8 8) Poln. Pioniere beginnen Deichbruch 0.67082 2 0.67082 2 0.67082 3 9) Immer mehr Deiche in Polen undicht 0.50000 5 0.50000 5 0.50000 8 10) Neue Überschwemmungen in 0.70710 1 0.70710 1 0.60633 6 0.60633 4 0.60633 4 0.70710 1 Zentralpolen 11) Lage in Südpolen bleibt weiter dramatisch 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Vektormodell: Ergebnisse 0 1 2 3 4 5 6 7 8 9 10 11 -1 -2 Freq -3 -4 -5 -6 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) normFreq Gewicht tf.idf Vektormodell: Ergebnisse - Analyse Dokument Rangtf Rangtf.idf 1 ? 5 5 2 + 3 4 3 3 1 4 3 1 5 ? 5 5 6 + 3 3 7 5 5 8 ? 2 2 9 + 5 5 10 + 1 4 11 + 4 1 idf-Werte tf-Werte .56 Feuer 1 1 1 0.33 .56 Opfer 1 0.5 0.25 .44 Schaden 0.5 0.33 0.33 0.66 .14 Wasser 1 0.33 0.5 0.66 0.5 0.5 1 Rang 5 nach tf und idf: Dokumente, in denen nur 1 Term vorkommt 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Probabilistisches Modell Trainingscorpus Dokument Feuer Opfer Schaden Wasser relevant 1) Weiter Stabilisierung an der Weichsel 2) Russische Behörden melden Cholera 3) «Feuerpause» am Ätna 1 1 1 0 1 1 1 4) Ätna auf Sizilien speit Wasser 1 5) Weiterer Deichabschnitt gesprengt 6) Millionen-Schaden durch Feuer in Wyoming 1 0 1 0 1 0 1 1 reli 1 1 1 1 rel = 2 nreli 1 0 2 3 nrel = 4 exp(svi) 2.33 9 1 0.43 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Probabilistisches Modell: Termstatuswerte reli nreli (1 ) nrel log rel nreli reli (1 ) nrel rel Korrekturfaktoren: reli + 0.5, nreli + 0.5, rel + 1, nrel +1 1 0.5 1 0.5 (1 ) 4 1 2.33 Feuer 2 1 1 0.5 1 0.5 (1 ) 4 1 2 1 1 0.5 2 0.5 (1 ) 4 1 1 Schaden 2 1 2 0.5 1 0.5 (1 ) 4 1 2 1 1 0.5 0 0.5 (1 ) 4 1 9 Opfer 2 1 0 0.5 1 0.5 (1 ) 4 1 2 1 1 0.5 3 0.5 (1 ) 4 1 0.4288 Wasser 2 1 3 0.5 0 0.5 (1 ) 4 1 11 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Probabilistisches Modell: Neue Dok.: Retrievalstatuswert Dokument Feuer Opfer Schaden Wasser 7) Angriff von 0 0 1 0 Computerwurm 8) Pioniere beginnen 1 0 0 1 Deichbruch 9) Deiche in Polen 0 undicht 10) Neue 0 Überschwemmungen 11) Lage in 0 Südpolen dramatisch 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) 0 0 1 RSV = log(1.00) 0 log(2.33) 0 + log(0.43) log(0.43) -0.366 1 0 1 1 0 1 log(9) + log(0.43) 0.588 log(9) + log(0.43) 0.588 Vergleich der Ergebnisse Dokument 1) Stabilisierung an der Weichsel Juror Boole Freq norm. tf.idf Gewicht 0 0 0 0 0 2) Russ. Behörd. melden Cholera 1 1 1 1 0 0 3) «Feuerpause» am Ätna 0 0 1 1 1 0 4) Ätna auf Sizilien speit Wasser 0 1 1 1 1 1 5) Deichabschnitt gesprengt 0|1 0 0 0 0 0 6) Millionen-Schaden durch Feuer 1 1 1 1 1 1 7) Angriff von Computerwurm 0 0 0 0 0 1 0 8) Pioniere beginnen Deichbruch 0|1 0 1 1 1 1 0 9) Deiche in Polen undicht 1 0 0 0 0 0 0 10) Neue Überschwemmungen 1 1 1 1 1 1 1 11) Lage in Südpolen dramatisch 1 1 1 1 1 1 1 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) 0|1 Freq probab Pooling Literatur und Danksagung Karin Haenelt (2002) Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel. Kursskript. 12.12.2001. (letzte Änderung 05.11.2002) 15 S. kontext.fraunhofer.de/haenelt/kurs/folien/RankingUebung.pdf Vielen Dank für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Olena Beck 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003)