Experimente

Werbung
Experimente
Seminar "Experimentielle Evaluierung im IR"
28.02.2006
Ebru Iscan, Andrea Kováčová
Aufgabe 1

DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs

BM 25 vs. TF.IDF

c=1

P0=0.5 vs. P0=1
28.02.2006
Ebru Iscan, Andrea Kováčová
ExpUtils.java
Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault)
Parameter der Aufgabe werden durch die Kommandozeile übergeben
Parameter dtf:
Syntax: -dtf <Anzahl>
Default: 0 (DTFRS)
In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder
MaxNumDTFRS(10)
Indexierungsfunktionen:
Syntax: -type plain|stemen_bm25|stemen_tfidf
Default: plain
In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf
Also muss angegeben werden
Parameter c:
Syntax: -c <Wert>
Default: 1.0
In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden
Parameter P0:
Syntax: -p0 <Wert>
Default: 1.0
In der Aufgabe 1 wahlweise 0.5 oder 1.0
Wesentliche Funktionen:
parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile
getDB() – Baut die Verbindung automatisch auf
createPIRE(<KollektionsName>) – registriet jeweilige Operatoren und bildet
ihre Attribute im PIRE
createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS
oder MaxNumDTFRS(n)
28.02.2006
Ebru Iscan, Andrea Kováčová
Indexierung






Die allgemeine Indexierung der Dokumenteninhalte wird
ausgeführt
Operatoren über den Textinhalt und ihre interne Konfiguration
werden mit den Parameter aus der Kommandozeile gesetzt
Die Indexierung wurde auf alle Kollektionen ausgeweitet
Für jede Kollektion wird ein PIRE-Objekt gebildet
Aus allen *.gz-Dateien in der jeweiligen Kollektion werden
anhand der vordefinierten Trennzeichen Dok-Ids extrahiert,
danach wird der Dokumenteninhalt als TextAttribut für die
Indexierung registriet
Danach werden alle Indexe der Kollektion/PIRE-Objekt
berechnet
28.02.2006
Ebru Iscan, Andrea Kováčová
Indexierung
28.02.2006
Ebru Iscan, Andrea Kováčová
Aufbau der digitalen Bibliothek




Die Resource Description nach dem allgemeinen Format für
Digitale Bibliotheken wird erstellt
Die digitale Bibliothek wird 24 mal (pro Kollektion) durch
Verwendung des zustänidgen PIRE-Objekts gebaut
Standardkonfiguration für DTF wird verwendet
Interne Konfigurationswerte (c und P0) werden anschliessend
gespeichert
28.02.2006
Ebru Iscan, Andrea Kováčová
Resource Description
28.02.2006
Ebru Iscan, Andrea Kováčová
Abfragekosten bestimmen





Die Kosten der Abfragen werden im bestimmt
Immer pro Kollektion mit dem zuständigen PIRE-Objekt
Konfiguration der digitalen Bibliothek wird dazu geladen
Die Kosten werden immer einzeln für die jeweilige digitale
Bibliothek berechnet
In dem aktuellen Verzeichnis wird die Datei 51.costs mit den
Ergebnissen gebildet
28.02.2006
Ebru Iscan, Andrea Kováčová
Kosten berechnen
28.02.2006
Ebru Iscan, Andrea Kováčová
Vorbereitung der Abfrage





Die berechneten Abfragekosten werden ausgewert
Die Resource Selection untersucht alle digitalen Bibliotheken
Die entsprechenden Abfragekosten werden aus der vorher
angelegten Datei geladen
Resource Selection wird auf 300 relevante Dokumente
begrenzt
Ergebnise sind auch auf dem Bilschirm sichtbar
28.02.2006
Ebru Iscan, Andrea Kováčová
Resource Selection
28.02.2006
Ebru Iscan, Andrea Kováčová
Retrieval durchführen




Retrieval der Dokumente wird ausgeführt
Alle Kollektionen mit vorberechneten Abfragekosten werden
dazu genommen
Ergebnis wird in die Datei result im aktuellen Verzeichnis
gespeichert
Ergebnisse im standarden TREC-Format
28.02.2006
Ebru Iscan, Andrea Kováčová
Retrieval
28.02.2006
Ebru Iscan, Andrea Kováčová
Probleme
ERROR unidu.db - select
count(distinct
concat(concat(prob,concat('@@@',arg0)),concat('@@@',ar
g1))) from ap88_1a_text_plain_df java.sql.SQLException:
General error message from server:
"Table 'exp_f.ap88_1a_text_plain_df' doesn't exist“
Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle
Konfigurierung notwendig, damit nich „plain“ als Default,
sondern je nach Experiment stemen_bm25 oder stemen_tfidf
gewählt wird

java.io.FileNotFoundException: conf/trec123.topics
(No such file or directory)
Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern
im aktuellen Verzeichnis erwartet
Umgehungslösung: Konfiguration ins aktuelle Verzeichnis
kopieren oder ein Link setzen

Unter Eclipse ist kein Debuggen möglich, weil die
Zeitmessung beim Start FileNotFoundException wirft

28.02.2006
Ebru Iscan, Andrea Kováčová
Tabelle in DB
Beispiel: Werte in der
Datenbank –
Document Frequency
einzelner nach
stemen() extrahierten
Wörter mit
Gewichtung
28.02.2006
Ebru Iscan, Andrea Kováčová
Aufgabe 2

DTF max. 10 DLs vs. DTF max. 20 DLs

c=1

P0=0.25 vs. P0=0.75
28.02.2006
Ebru Iscan, Andrea Kováčová
ComputeForTopic
28.02.2006
Ebru Iscan, Andrea Kováčová
ComputeForTopic
28.02.2006
Ebru Iscan, Andrea Kováčová
Herunterladen