ppt

Werbung
Retrieval und Ranking von
Dokumenten
Kursfolien
Karin Haenelt
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Die einzelnen Schritte (1)
 Texte auswählen
 Boolesches Modell
 Erzeugung der Dokumentvektoren
 Erzeugung der disjunktiven Normalform der
Anfrage
 Vergleich von Dokument- und Anfragevektoren
 Vektormodell
 Erzeugung der Dokumentvektoren
(Termfrequenz, normalisierte Termfrequenz,
Termgewichtung)
 Berechnung der Ähnlichkeit zwischen Dokument
und Anfragevektor nach der Cosinusformel
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Die einzelnen Schritte (2)
 Probabilistisches Modell
 Auswahl eines Trainingscorpus
 Ermittlung der Beobachtungswerte




rel (Anzahl relevanter Dokumente)
nrel (Anzahl nicht-relevanter Dokumente)
reli (Anzahl rel. Dok. mit Termi)
nreli (Anzahl nicht rel. Dok. mit Termi)
 Berechnung der Termstatuswerte
 Berechnung der Retrievalstatuswerte für
neue Dokumente
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (1)

03.08.2001 09:48 MEZ
1) Weiter Stabilisierung an der Weichsel
Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat
sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise
bereits unter den Alarmpegel gesunken, berichtet der polnische
Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern
Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in
Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um
124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen
Straßen und Ackerland unter Wasser.

02.08.2001 15:07 MEZ
2) Russische Behörden melden Cholera-Erkrankungen im Wolga-Gebiet
Moskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an
Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit
den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das
teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen
Angaben gab es keine Todesopfer. Angehörige der Opfer seien
vorsorglich in Quarantänestationen gebracht worden, meldete die
Agentur Interfax. Zudem werden Bahn-Reisende aus Kasan auf
Cholera- Symptome untersucht, berichtete ein Radiosender.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (2)

02.08.2001 14:57 MEZ
3) «Feuerpause» am Ätna
Catania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause»
eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein
Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten
die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September
wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200
Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum
Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als
zwei Wochen. Menschen kamen bislang nicht zu Schaden.

02.08.2001 09:46 MEZ
4) Ätna auf Sizilien speit Wasser
Catania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein
solches Phänomen ist laut italienischen Fernsehberichten seit 15 000
Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis
damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses
enthalte Wasser in seiner kristallinen Struktur und erwärme sich,
sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei
Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt.
Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu
Schaden.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (3)

02.08.2001 09:23 MEZ
5) Weiterer Deichabschnitt gesprengt
Warschau (dpa) - Im Osten Polens haben Pioniere der Armee einen
weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des
Hochwassers ermöglicht werden. Außerdem kommen heute auch
Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich
werfen, um Risse zu schaffen und den Abfluss des Wassers zu
beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50
Meter breite Lücke in den so genannten Sommerdeich der Weichsel
südlich von Kazimierz Dolny gesprengt worden.

01.08.2001 08:29 MEZ
6) Millionen-Schaden durch Feuer in Wyoming
Jackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe
Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle.
Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den
Brand einzudämmen. Das Feuer, das vermutlich durch menschliches
Verschulden auf einem Campingplatz entstand, vernichtete 1800
Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten
Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute
im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (4)

01.08.2001 08:01 MEZ
7) Angriff von Computerwurm «Code Red» offenbar abgewehrt
Washington (dpa) - Der Angriff des weltweit mit Sorge erwarteten
Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach
ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde
aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig
sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die
Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um
2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte
Juli hatte «Code Red» unter anderem die Webseiten des Weißen
Hauses angegriffen.

01.08.2001 07:31 MEZ
8) Polnische Pioniere beginnen kontrollierten Deichbruch
Warschau (dpa) - Polnische Pioniere haben im Osten des Landes mit
einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser
der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die
Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der
Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr
gehe nicht von der Höhe der Flutwelle aus, sondern von der
ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das
Hochwasser an der Weichsel erstreckt sich mittlerweile über 350
Kilometer.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (5)

30.07.2001 09:52 MEZ
9) Immer mehr Deiche in Polen undicht
Warschau (dpa) - In den polnischen Hochwassergebieten ist in der
Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich
gebrochen. Das berichtet der polnische Rundfunk. Damit sind an
Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von
Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier
Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen
sind die durchweichten Deiche nach Angaben der Krisenstäbe
mittlerweile löchrig und undicht. Bisher wurden rund 12 000 Menschen
in Sicherheit gebracht.

27.07.2001 12:49 MEZ
10) Neue Überschwemmungen in Zentralpolen
Warschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und
im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere
vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz.
Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische
Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der
Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter
Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen
auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Texte (6)

27.07.2001 08:41 MEZ
11) Lage in Südpolen bleibt weiter dramatisch
Warschau - Die Lage in den Hochwassergebieten im Süden und
Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11
Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere
hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden
durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder
schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die
Wasserstände wieder.
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Retrievalaufgabe
 Retrievalaufgabe
 Welche Dokumente benennen einen
Schaden, der durch Feuer oder Wasser
entstanden ist?
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Gewünschtes Ergebnis
Relevanzbegriff?
Dokument
relevant benannte Schäden
1) Weiter Stabilisierung an der Weichsel
0|1
Straßen und Ackerland unter
Wasser (Schaden impliziert)
2) Russische Behörden melden Cholera
1
3) «Feuerpause» am Ätna
0
4) Ätna auf Sizilien speit Wasser
0
5) Weiterer Deichabschnitt gesprengt
0|1
6) Millionen-Schaden durch Feuer in Wyoming 1
50 Menschen an Cholera erkrankt
Deichabschnitt gesprengt
Millionen-Schaden, 400 Hektar
Wald verbrannt
7) Angriff von Computerwurm «Code Red»
0
8) Polnische Pioniere beginnen Deichbruch
0|1
Hochwasser (Schaden impliziert)
9) Immer mehr Deiche in Polen undicht
1
Deich gebrochen, Deich geborsten,
Dörfer, Bauernhöfe unter Wasser
10) Neue Überschwemmungen in
1
11 Todesopfer
11) Lage in Südpolen bleibt weiter dramatisch 1
11 Todesopfer
Zentralpolen
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Lösungsansatz
 Lösungsansatz
 hilfsweise Ansatz des Queryvektors:
 Feuer, Opfer, Schaden, Wasser
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Boolesches Modell

Anfrage (Feuer | Wasser) & (Opfer | Schaden)
Dokument
Feuer
Opfer
Schaden Wasser Rang
1) Weiter Stabilisierung an der Weichsel
2) Russische Behörden melden Cholera
3) «Feuerpause» am Ätna
1
1
1
5) Weiterer Deichabschnitt gesprengt
1
7) Angriff von Computerwurm «Code Red»
8) Polnische Pioniere beginnen Deichbruch
-
1
+
1
4) Ätna auf Sizilien speit Wasser
6) Millionen-Schaden durch Feuer in Wyoming
1
1
9) Immer mehr Deiche in Polen undicht
+
1
+
1
-
1
+
1
1
-
1
-
10) Neue Überschwemmungen in Zentralpolen
1
1
+
11) Lage in Südpolen bleibt weiter dramatisch
1
1
+
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Vektormodell: Termfrequenz
Dokument
Feuer
Opfer
Schaden Wasser
1) Weiter Stabilisierung an der Weichsel
4
2) Russische Behörden melden Cholera
3) «Feuerpause» am Ätna
3
2
1
1
4) Ätna auf Sizilien speit Wasser
1
5) Weiterer Deichabschnitt gesprengt
6) Millionen-Schaden durch Feuer in Wyoming
2
6
2
7) Angriff von Computerwurm «Code Red»
8) Polnische Pioniere beginnen Deichbruch
3
2
1
2
9) Immer mehr Deiche in Polen undicht
2
10) Neue Überschwemmungen in Zentralpolen
1
1
11) Lage in Südpolen bleibt weiter dramatisch
1
4
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
freqi , m
tfi , m 
max l freql , m
Vektormodell:
normalisierte Termfrequenz: maxl
Dokument
max. Frequenz eine Terms im Dokument
1) Weiter Stabilisierung an der Weichsel
4 (Wasser)
2) Russische Behörden melden Cholera
3 (Cholera)
3) «Feuerpause» am Ätna
2 (Ätna, Vulkan, Feuerpause)
4) Ätna auf Sizilien speit Wasser
3 (Wasser)
5) Weiterer Deichabschnitt gesprengt
4 (Deichabschnitt / Deich / Sommerdeich)
6) Millionen-Schaden durch Feuer in Wyoming
6 (Feuer)
7) Angriff von Computerwurm «Code Red»
3 (Angriff, Code Red)
8) Polnische Pioniere beginnen Deichbruch
3 (Deichbruch / Deich, Weichsel)
9) Immer mehr Deiche in Polen undicht
4 (Deich)
10) Neue Überschwemmungen in Zentralpolen
2 (Überschwemmungen, Zentralpolen)
11) Lage in Südpolen bleibt weiter dramatisch
4 (Wasser)
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Vektormodell:
normalisierte Termfrequenz
Dokument
Feuer
Opfer
Schaden
1) Weiter Stabilisierung an der Weichsel
1
2) Russische Behörden melden Cholera
3) «Feuerpause» am Ätna
1
1
0.33
0.5
4) Ätna auf Sizilien speit Wasser
0.33
5) Weiterer Deichabschnitt gesprengt
6) Millionen-Schaden durch Feuer in Wyoming
1
0.5
1
0.33
7) Angriff von Computerwurm «Code Red»
8) Polnische Pioniere beginnen Deichbruch
Wasser
0.66
0.33
0.66
9) Immer mehr Deiche in Polen undicht
0.5
10) Neue Überschwemmungen in Zentralpolen
0.5
0.5
11) Lage in Südpolen bleibt weiter dramatisch
0.25
1
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
wi ,m
N
 tfi ,m .idf i  tfi ,m  log
ni
Vektormodell: Termgewichtung
idf Feuer  log
11
 .56
3
idf Opfer  log
11
 .56
3
Dokument
idf Schaden  log
Feuer
11
 .44
4
Opfer
idf W asser  log
Schaden
1) Weiter Stabilisierung an der Weichsel
0.56
0.56
0.0462
0.22
4) Ätna auf Sizilien speit Wasser
0.1452
5) Weiterer Deichabschnitt gesprengt
6) Millionen-Schaden durch Feuer in Wyoming
0.14
0.07
0.56
0.1452
7) Angriff von Computerwurm «Code Red»
8) Polnische Pioniere beginnen Deichbruch
Wasser
0.14
2) Russische Behörden melden Cholera
3) «Feuerpause» am Ätna
11
 .14
8
0.2904
0.1848
0.0924
9) Immer mehr Deiche in Polen undicht
0.07
10) Neue Überschwemmungen in Zentralpolen
0.28
0.07
05.02.2008,01.11.2007,05.
11)
Lage in Südpolen bleibt weiter dramatisch
0.14
0.14
11.2006,05.11.2005
(1:26.10.2003)
Vektormodell: Ähnlichkeit von
Dokument und Query
 w w
 w   w
x
sim (dm, q) 
i 1
i, m
i, q
x
2
x
2
i 1
i ,m
i 1
i ,q
Dokument
Feuer
Opfer
4) Ätna auf Sizilien speit Wasser
sim (d 4, q) 
(0 1)  (0 1)  (0.1452 1)  (0.14 1)
0  0  0.1452  0.14  1  1  1  1
2
2
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
2
2
2
2
2
2
 0.70698
Schaden
Wasser
0.1452
0.14
Vektormodell: Ergebnisse
Dokument
sim(d,q)
Rang
Frequenz
sim(d,q)
Rang
norm.Freq
sim(d,q)
Rang
tf.idf
1) Weiter Stabilisierung an der Weichsel
0.50000
5
0.50000
5
0.50000
8
2) Russische Behörden melden Cholera
0.63245
3
0.63150
3
0.53941
7
3) «Feuerpause» am Ätna
0.67082
2
0.67082
2
0.64820
4
4) Ätna auf Sizilien speit Wasser
0.63245
3
0.63150
3
0.70698
2
5) Weiterer Deichabschnitt gesprengt
0.50000
5
0.50000
5
0.50000
8
6) Millionen-Schaden durch Feuer in W.
0.63245
3
0.63150
3
0.60948
5
7) Angriff v. Computerwurm «Code Red» 0.50000
5
0.50000
5
0.50000
8
8) Poln. Pioniere beginnen Deichbruch
0.67082
2
0.67082
2
0.67082
3
9) Immer mehr Deiche in Polen undicht
0.50000
5
0.50000
5
0.50000
8
10) Neue Überschwemmungen in
0.70710
1
0.70710
1
0.60633
6
0.60633
4
0.60633
4
0.70710
1
Zentralpolen
11) Lage in Südpolen bleibt weiter
dramatisch
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Vektormodell: Ergebnisse
0
1
2
3
4
5
6
7
8
9
10
11
-1
-2
Freq
-3
-4
-5
-6
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
normFreq
Gewicht tf.idf
Vektormodell: Ergebnisse - Analyse
Dokument
Rangtf
Rangtf.idf
1
?
5
5
2
+
3
4
3
3
1
4
3
1
5
?
5
5
6
+
3
3
7
5
5
8
?
2
2
9
+
5
5
10
+
1
4
11
+
4
1
idf-Werte
tf-Werte
.56 Feuer
1
1
1
0.33
.56 Opfer
1
0.5 0.25
.44 Schaden
0.5 0.33
0.33 0.66
.14 Wasser 1 0.33
0.5
0.66 0.5 0.5 1
Rang 5 nach tf und idf: Dokumente, in denen nur 1 Term vorkommt
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Probabilistisches Modell
Trainingscorpus
Dokument
Feuer
Opfer
Schaden Wasser relevant
1) Weiter Stabilisierung an der Weichsel
2) Russische Behörden melden Cholera
3) «Feuerpause» am Ätna
1
1
1
0
1
1
1
4) Ätna auf Sizilien speit Wasser
1
5) Weiterer Deichabschnitt gesprengt
6) Millionen-Schaden durch Feuer in Wyoming 1
0
1
0
1
0
1
1
reli
1
1
1
1
rel = 2
nreli
1
0
2
3
nrel = 4
exp(svi)
2.33
9
1
0.43
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Probabilistisches Modell:
Termstatuswerte
reli
nreli
(1 
)
nrel
log rel
nreli
reli
(1 
)
nrel
rel
Korrekturfaktoren:
reli + 0.5, nreli + 0.5, rel + 1, nrel +1
1  0.5
1  0.5
(1 
)
4  1  2.33
Feuer 2  1
1  0.5
1  0.5
(1 
)
4 1
2 1
1  0.5
2  0.5
(1 
)
4 1  1
Schaden 2  1
2  0.5
1  0.5
(1 
)
4 1
2 1
1  0.5
0  0.5
(1 
)
4 1  9
Opfer 2  1
0  0.5
1  0.5
(1 
)
4 1
2 1
1  0.5
3  0.5
(1 
)
4  1  0.4288
Wasser 2  1
3  0.5
0  0.5
(1 
)
4 1
11
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Probabilistisches Modell:
Neue Dok.: Retrievalstatuswert
Dokument
Feuer Opfer Schaden Wasser
7) Angriff von
0
0
1
0
Computerwurm
8) Pioniere beginnen 1
0
0
1
Deichbruch
9) Deiche in Polen
0
undicht
10) Neue
0
Überschwemmungen
11) Lage in
0
Südpolen dramatisch
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
0
0
1
RSV
=
log(1.00) 0
log(2.33) 0
+
log(0.43)
log(0.43)
-0.366
1
0
1
1
0
1
log(9) +
log(0.43) 0.588
log(9) +
log(0.43) 0.588
Vergleich der Ergebnisse
Dokument
1) Stabilisierung an der Weichsel
Juror Boole Freq norm. tf.idf
Gewicht
0
0
0
0
0
2) Russ. Behörd. melden Cholera 1
1
1
1
0
0
3) «Feuerpause» am Ätna
0
0
1
1
1
0
4) Ätna auf Sizilien speit Wasser
0
1
1
1
1
1
5) Deichabschnitt gesprengt
0|1
0
0
0
0
0
6) Millionen-Schaden durch Feuer 1
1
1
1
1
1
7) Angriff von Computerwurm
0
0
0
0
0
1
0
8) Pioniere beginnen Deichbruch
0|1
0
1
1
1
1
0
9) Deiche in Polen undicht
1
0
0
0
0
0
0
10) Neue Überschwemmungen
1
1
1
1
1
1
1
11) Lage in Südpolen dramatisch
1
1
1
1
1
1
1
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
0|1
Freq
probab Pooling
Literatur und Danksagung
 Karin Haenelt (2002)
 Retrieval und Ranking von Dokumenten. Ein
Übungsbeispiel. Kursskript. 12.12.2001. (letzte
Änderung 05.11.2002) 15 S.
kontext.fraunhofer.de/haenelt/kurs/folien/RankingUebung.pdf
 Vielen Dank
für das Aufspüren von Fehlern in früheren
Versionen und für Verbesserungsvorschläge
danke ich
 Olena Beck
05.02.2008,01.11.2007,05.
11.2006,05.11.2005
(1:26.10.2003)
Herunterladen