Evaluierung der Text Retrievalsysteme Domestic, Intelligent Miner

Werbung
%VALUIERUNG DER 4EXT2ETRIEVALSYSTEME
$OMESTIC )NTELLIGENT -INER FOR 4EXT ,ARS ))
UND 4EXT%XTENDER
4 +¤TER
- 2ITTBERGER # 7OMSER(ACKER
Informationswissenschaft
Universität Konstanz
78457 Konstanz
[email protected]
:USAMMENFASSUNG
Bedingt durch die zunehmende Bedeutung der Verarbeitung textueller,
unstrukturierter Informationen gewinnen Information Retrieval Systeme immer
größere Bedeutung. Ausgehend von den Zielen der TREC-Konferenzen werden
im Rahmen der GIRT-Initiative deutschsprachige Texte zur Evaluierung von
Information Retrieval Systemen angeboten. Diese Texte wurden verwendet, um
die Leistungsfähigkeit der vier kommerziellen Information Retrieval Systeme
Domestic, Intelligent Miner for Text, Lars II und Text Extender zu untersuchen.
Die ausgeglichenste Retrievalleistung zeigt der Intelligent Miner for Text,
dessen Leistungsfähigkeit auch sonst sehr hoch eingeschätzt werden kann. Die
Ergebnisse lassen die Folgerung zu, daß die Retrievalschnittstelle ein wichtiges
Merkmal für den Erfolg einer Suche sein kann.
!BSTRACT:
Information retrieval systems become more important as the significance of
working with textuell or unstructered information grows. Comparable to the
TREC-conference series the GIRT-initiative offers german texts to evaluate
information retrieval systems. These texts were used to evaluate the
commercially available retrieval systems Domestic, Intelligent Miner for Text,
Lars II, and Text Extender. The most balanced results are schown by the
Intelligent Miner for Text, whose retrieval power is estimated high. The overall
*
DEBIS AG, # ,Universität Konstanz & Universität Hildesheim
results let us suppose, that the user interface may play an important role for the
succes of a search.
%INLEITUNG
Der Übergang in die Informationsgesellschaft bedingt den sorgsamen und
kontrollierten Umgang mit Informationen. Einen der wichtigsten Aspekte
betrifft den Zugriff auf relevante Information aus dem großen Angebot
verfügbarer Informationen. Dabei spielt die Ordnung und das Strukturieren von
Information, sowie der kontrollierte Zugriff auf die Information eine tragende
Rolle. Im Information Retrieval wird versucht, mit unstrukturierten Daten,
vorwiegend Texten, optimale Lösungen für diese Fragestellungen anzubieten.
Ein wesentlicher Bestandteil der Forschungsaktivitäten im Information Retrieval
konzentriert sich dabei auf die Evaluierung und Überprüfung von
Suchleistungen der Retrievalsysteme [Spark Jones 1981, Womser-Hacker 1989,
Tague-Sutcliff 1995]. Diese Aktivitäten erhielten durch die seit 1992
durchgeführten Text-REtrieval-Conferences [Vorhees & Harman 1998]
erhebliche Bedeutung, da in dieser Initiative die Suche in großen
Datenbeständen mit verschiedenen Systemen und Aufgaben unter gleichen
Testbedingungen im Vordergrund steht. Da die TREC-Initiative zunächst nur
auf englischsprachige Dokumente beschränkt war und der Bedarf vergleichende
Ergebnisse auch im Umfeld anderer Sprachen vorhanden war, wurde vom IZSozialwissenschaften eine deutsche Testdatenbank GIRT (German Indexing and
Retrieval Testdatabase) angeboten. Das Ziel der GIRT-Initiative war es, „...
einen Rahmen für einen aussagefähigen Vergleich moderner, intelligenter
Indexierungs- und Retrievalsysteme zu schaffen, auf deren Basis die
Leistungsfähigkeit dieser Systeme gegenüber herkömmlichen Standardsystemen
beurteilt werden kann.“ [Frisch/Kluck 1997]
An der Universität Konstanz wurde die Leistungsfähigkeit von vier
Retrievalsystemen, DOMESTIC, Lars II, Intelligent Miner for Text und
TextExtender, unter Nutzung der GIRT-Daten untersucht. Schwerpunkt der
Evaluierung waren Unterschiede der auf boolescher Logik aufbauenden Systeme
DOMESTIC und LARS II gegenüber den Ranking-Systemen TextExtender und
Im Detail lassen sich die Ergebnisse in [Käter 1999] nachlesen, dessen Arbeit auf eine
Projektkursarbeit des Aufbausstudienganges Informationswissenschaft an der Universität
Konstanz aufbaut. Der Schwerpunkt der Projektkursarbeit lag dabei auf den Systemen
DOMESTIC, LARS II und TextExtender. In [Käter 1999] wurden diese Untersuchung durch
den Intelligent Miner for Text ergänzt und die vier verschiedenen Systeme vergleichend
untersucht.
Intelligent Miner for Text zu identifizieren und den Wert von graphischen
Benutzeroberflächen zu untersuchen. Wir werden im folgenden zunächst die
vier beteiligten Systeme vorstellen, die Datenbank, Aufgaben und Testpersonen
beschreiben. Im Anschluß werden der Retrievaltest und dessen Ergebnisse
diskutiert.
%VALUIERTE 2ETRIEVAL 3YSTEME
- $/-%34)# ist ein Dokumenterfassungs- und Retrieval-System der Firma
KTS Informationssysteme München. Mit diesem System lassen sich
beliebige Informationen (Texte, Graphiken, Bilder, ...) im Dialog erfassen,
aktualisieren und verwalten. Es erlaubt branchenneutral den Aufbau, die
Pflege und die Nutzung unternehmenseigener Datenbanken und eine
leistungsstarke Suche zur Auffindung relevanter Dokumente über
verschiedene Gesichtspunkte hinweg.
Die Möglichkeit, einen integrierten, dynamisch fortschreibbaren Thesaurus
zur Inhaltserschließung zu verwenden, stellt ein wesentliches
Charakteristikum dieses Systems dar. Auf den Einsatz eines Thesaurus mußte
jedoch bei der vorliegenden Evaluierung aus technischen Gründen bei allen
vier Systemen verzichtet werden. Bei DOMESTIC handelt es sich um ein
rein boolesches System, bei dem weder eine Rankingkomponente enthalten
ist, noch die Möglichkeit einer Relevanzbewertung als Recherchehilfe
vorgesehen ist.
- ,ARS )) ist ein allgemein einsetzbares, datenbankbasiertes Informations- und
Retrievalsystem der Firma LARS GmbH in Frankfurt/Main, welches
schwerpunktmäßig im Bereich Dokumentation und Literaturarchivierung
Verwendung findet. Bei diesem System handelt es sich um eine Kombination
aus einem relationalen Datenbanksystem und einem Volltextretrievalsystem.
Es ist als Transaktionssystem (Dialogsystem) konzipiert und soll so eine
komfortable Bedienung gewährleisten. Die graphische Benutzeroberfläche,
die auf der Windowsphilosophie beruht, soll dabei die Handhabung
erleichtern. Im Modus der Expertenrecherche werden Hilfsmittel angeboten,
die eine syntaxkonforme Zusammenstellung von Suchanfragen unterstützen.
Lars II ist ebenfalls ein rein boolesches System, so daß auch hier kein
Ranking-Verfahren oder andere Relevanzbewertungen genutzt werden
können.
- 4EXT%XTENDER: IBM ergänzt sein Datenbanksystem DB2 um verschiedene
Extender, mittels derer den Anwendern die Möglichkeit geboten wird, eine
Datenbasis, neben relationalen Datentypen, um komplexe Datentypen (Text,
Video,...) zu erweitern. Diese Extender erlauben es, komplexe Datentypen
innerhalb einer Datenbank mit Hilfe von SQL-Abfragen in einer Datenbank
zu manipulieren bzw. abzufragen. Diese relationalen Extender sind modulare
Erweiterungen, die auf dem objekt-relationalen Ansatz basieren und die
DB2-Systeme um Funktionalitäten hinsichtlich des Umgangs mit jeweils
einem bestimmten Datentyp erweitern und dessen adäquate Behandlung
sicherstellen.
Der TextExtender erlaubt es dabei, SQL-Abfragen für unstrukturierte
Textdokumente in die Anwendungen einzubetten. Er unterstützt die
Volltextindexierung, eine linguistische Suche und die Synonymsuche in
insgesamt 17 Sprachen und erweitert DB2 so um die Fähigkeit des
Erkennens von Textstrukturen und des Volltextretrievals. Dabei unterstützt er
nicht nur die Suche nach explizit abgesetzten Deskriptoren, sondern auch die
Suche nach deren Wortvarianten und Synonymen. Er beinhaltet die
Retrievalmöglichkeiten der Wort- und der Wortgruppensuche, die Suche mit
Hilfe von Trunkierungen, die „proximity“-Suche sowie die Suche anhand
boolescher Operatoren. Ein besonderes Leistungsmerkmal des Extenders ist
die Fähigkeit gefundene Dokumente entsprechend ihrer Übereinstimmung
mit den Suchkriterien zu bewerten und diese als Rankingliste auszugeben.
- Der )NTELLIGENT -INER FOR 4EXT, ein Rankingsystem der Firma IBM, besteht
aus drei Komponenten: dem TextMiner, als eigentliche Suchmaschine, den
Text Analyse Tools und den Web Access Tools.
Der TextMiner ist eine Client-Server-Suchmaschine in Form einer
Anwendungsschnittstelle, die leistungsfähige, linguistische Möglichkeiten
beinhaltet. Dabei handelt es sich um ein inhaltsbasiertes Retrievalsystem,
welches die Volltextsuche, die Indexierung in 16 Sprachen, das Indexieren
von Dokumenten in etlichen Formaten (z.B. HTML-Dateien, unstrukturierte
ASCII-Dateien, sowie diverse Textverarbeitungsformate etc.), die Suche
nach groben Übereinstimmungen, boolesche Abfragen, die Freitextsuche und
Hybridabfragen unterstützt. Ferner läßt sich, zum Zweck der
Anfrageerweiterung, ein vordefinierter oder ein benutzerdefinierter
Thesaurus integrieren bzw. die Möglichkeit des Relevanz Feedback nutzen.
Um die Aufgaben des Minings zu erfüllen, bedient sich der TextMiner
verschiedener Text Analyse Tools (Topic Categorization Tool, Clustering
Tool, Feature Extraction Tool, Language Identification Tool), die den
Benutzer bei der Formulierung der Suchanfrage unterstützen sollen, sich mit
dem Erkennen und Extrahieren von (Schlüssel-) Informationen aus
Textdokumenten befassen und Dokumente hinsichtlich ihres Inhaltes
organisieren oder behandelte Themengebiete einer Sammlung aufdecken.
Einige dieser Tools sind ausschließlich für die englische Sprache konzipiert.
4ESTDESIGN
Für die vorliegende Evaluierung diente das Testdesign von GIRT als Grundlage.
Im wesentlichen besteht die verwendete "Retrievalkollektion" aus drei
Elementen: den Dokumenten bzw. der Datenbank, den Fragen bzw. Aufgaben
und den Relevanzurteilen.
$ATENBANK
Für den Retrievaltest wurde die Datenbank SOLFOR des IZ
Sozialwissenschaften in Bonn, die eigens für den Zweck der Schaffung einer
besseren Vergleichbarkeit von deutschsprachigen Information Retrieval
Systemen angelegt wurde, verwendet. Diese enthält Auszüge aus den
Datenbanken FORIS (Forschungsinformationssystem Sozialwissenschaften) und
SOLIS (Sozialwissenschaftliches Literaturinformationssystem). Für nahezu alle
13.000 Dokumente, die in dieser Datenbank enthalten sind liegen Titel,
Untertitel, Abstract, Autor, Klassifizierung, Zeitraum und bei FORIS zusätzlich
geographischer Raum vor. Thematisch stammen die erfaßten Dokumente aus
den Bereichen „Industrie- und Betriebssoziologie“, „Frauenförderung“ und
„Migration und ethnische Minderheiten“, aus den gedruckten Ausgaben des
"sozialwissenschaftlichen Fachinformationsdienstes" (soFid) und den
Zeitschriften „soziale Welt“ und „Kölner Zeitschrift für Soziologie und
Sozialpsychologie".
!UFGABEN
Bei GIRT wurden neun Fragen als Grundlage für den Retrievaltest verwendet,
von denen sechs für die vorliegende Evaluierung ausgewählt wurden. Gestrichen
wurden die Fragen T1-T3, zum einen aus Zeitgründen und zum anderen, weil
sich diese beim GIRT-Pretest als problematisch erwiesen hatten:
4
4
4
4
4
4
7ELCHE )NSTRUMENTARIEN INSBESONDERE DER 0ERSONALPOLITIK UND DER 7EITERQUALIFIKATION GIBT ES IN
DEN "ETRIEBEN UND 5NTERNEHMEN DER 7IRTSCHAFT UND DES ¶FFENTLICHEN $IENSTES ZUR &¶RDERUNG
VON &RAUEN IN &¼HRUNGSPOSITIONEN
7ELCHE %INKOMMENSQUELLEN HABEN DIE AUSL¤NDISCHEN -ITB¼RGER IN DER "UNDESREPUBLIK
$EUTSCHLAND
7ELCHE %INWANDERUNGSPOLITIK BETREIBEN DIE "2 $EUTSCHLAND UND DIE %UROP¤ISCHE 5NION
7ELCHE 5RSACHEN UND &ORMEN HABEN DIE &REMDENFEINDLICHKEIT UND DER 2ASSISMUS BEI
*UGENDLICHEN
7ELCHE 3TUDIEN BEFASSEN SICH MIT DER !RMUT ALS SOZIALEM 0ROBLEM IN $EUTSCHLAND UNTER
BESONDERER "ER¼CKSICHTIGUNG DER NEUEN "UNDESL¤NDER
7ELCHE 0RODUKTIONSKONZEPTE UND 2ATIONALISIERUNGSSTRATEGIEN WERDEN IN DEN "ETRIEBEN UND
5NTERNEHMEN EINGESETZT
Die Eingabe der Suchterme wurde während des Tests durch einen Mittler
vorgenommen, der die Anfragen der jeweiligen Versuchsperson in die jeweilige
Querystruktur transformierte (boolesche Operatoren, Trunkierungen etc.). Die
Einschaltung des Mittlers erfolgte, da die Umsetzung von natürlichsprachlichen
Suchanfragen in eine adäquate, zum Teil recht komplexe Querystruktur bei
ungeübten Probanden zu erheblichen Schwierigkeiten und zahlreichen
Syntaxfehlern hätte führen können.
4ESTPERSONEN
Ein Aspekt der Evaluierungen zielte darauf ab zu untersuchen, wie gut
unerfahrene Nutzer im Vergleich zu Erfahrenen mit den verschiedenen
Retrievalsystemen umgehen können.
Für die Rekrutierung der Versuchspersonen standen, da es sich um eine
sozialwissenschaftliche Datenbank handelt und Verständnisschwierigkeiten
hinsichtlich der Testaufgaben ausgeschlossen werden sollten, die
sozialwissenschaftlichen Kenntnisse der Probanden im Vordergrund.
Recherchekenntnisse und die Erfahrungen im Umgang mit Retrievalsystemen
sollten von "keiner Erfahrung" bis hin zum "geübten, regelmäßigen Nutzer"
diverser Datenbanksysteme bzw. Internetrecherchen reichen. Für die
Evaluierung des Intelligent Miner for Text standen nicht dieselben zwölf
Probanden zur Verfügung wie für die erste Evaluierung, jedoch wurde darauf
geachtet, daß sie dieselben Kriterien erfüllten.
2ETRIEVALTEST
Ausgangspunkt jedes Tests war eine Einführung der Testpersonen in die
Thematik des Information Retrieval, deren Umfang in Abhängigkeit zu den
Retrievalkenntnissen des jeweiligen Probanden stand. Angesprochen wurden
Grundzüge der Freitext-Suche, der booleschen-Suche und der Hybrid-Suche.
Als besonders wichtig erwies sich die Einweisung der Probanden in die
boolesche Logik und die damit einhergehenden Möglichkeiten. Hier wurde
anhand kurzer Beispiele ein Schwerpunkt auf die Darstellung der Blockbildung
gelegt. Ferner wurden die morphologischen Eigenschaften der linguistischen
Verarbeitung bzw. des verwendeten linguistischen Index dargestellt.
Zudem wurde der Einsatz zeichenkettenorientierter Operatoren für die Rechts-,
Linkstrunkierung und die Maskierung innerhalb von Begriffen erläutert, bevor
die Testpersonen die Testfragen erhielten. Die vom Probanden formulierte
Anfrage wurde vom Mittler in die entsprechende Querysyntax übersetzt und
eingegeben. Während die Testperson die Möglichkeit hatte, sich die
resultierende Trefferliste anzuschauen und sich einzelne Dokumente anzeigen
zulassen, wurden vom Mittler bzw. einem Protokollanten Notizen zu besonderen
Rückfragen und Auffälligkeiten gemacht. Zusätzlich wurden alle
Rechercheschritte mittels der Lotus ScreenCam dokumentiert.
Für die Bearbeitung von jeweils zwei Aufgaben standen jedem Probanden je
Frage ca. 25 min zur Verfügung. Der exakte Zeitverbrauch wurde vom Mittler
auf dem Protokollbogen notiert. Ferner wurden hier Suchfrage,
Reformulierungsschritte, verwendete Deskriptoren und Anzahl der gefundenen
bzw. ausgegebenen Dokumente festgehalten. Auf die Festsetzung eines
generellen Cut-off Wertes wurde, aufgrund schlechter Erfahrungen aus GIRT
verzichtet. Dennoch erfolgte bei den Rankingsystemen bei ca. der Hälfte der
Recherchen die endgültige Einschränkung der Treffermenge über das Setzen
eines Cut-off Wertes, d.h. die Dokumente wurden nur dann als Treffer
ausgegeben, wenn sie einen vom Probanden festgelegten Rang- bzw.
Rankingwert erreichten.
Alle Probanden erhielten nach der Durchführung ihrer Recherchen einen
Fragebogen, in dem sie neben ihren Retrievalerfahrungen persönliche Eindrücke
und Einschätzungen bezüglich des Recherchetests dokumentieren sollten. Diese
Angaben waren Ausgangspunkt für die spätere statistische Auswertung, bei der
die Teilnehmer aufgrund ihrer Angaben in Gruppen eingeteilt und Hypothesen
aufgestellt werden konnten.
%RGEBNISSE DER %VALUIERUNGEN
Anhand der ermittelten absoluten Zahlen und den daraus errechneten
Effektivitätsmaßen konnten für jedes System Kennwerte gewonnen werden, die
seine Retrievalleistung charakterisieren und somit einen Vergleich ermöglichten.
Als Kenngröße zur Bewertung der Retrievaleffektivität der einzelnen Systeme
wurden die Standardmaße Recall und Precision herangezogen.
Zur Bestimmung der Mittelwerte der Ergebnisse wurde die Makromethode
angewandt. Bei dieser Methode wird das gewählte Bewertungsmaß für jedes
Retrievalergebnis getrennt berechnet; anschließend werden die Werte
arithmetisch gemittelt, um die Vergleichbarkeit der Recherche in ihrer
Gesamtheit und nicht die einzelner Dokumente zu erhalten.
Betrachtet man innerhalb der statistischen Auswertung die gemittelten Recallund Precisionwerte der einzelnen Systeme, fällt es schwer eine eindeutige
Aussage bezüglich des "besser seins" des einen oder anderen Retrievalsystems
bzw. Modells zu treffen.
Einzig das schwache Abschneiden des TextExtenders, bei dem sowohl der
Recall als auch die Precision am geringsten ausfielen, läßt eine negative
Beurteilung zu. Bei DOMESTIC fiel eine durchgehend inverse Relation
zwischen schlechtem Recall und überdurchschnittlicher Precision auf. Lars II
lag mit seinen Effektivitätswerten "unspektakulär" im Mittelfeld. Nur der
Intelligent Miner for Text konnte über den gesamten Test hinweg, im Vergleich
zu den übrigen Systemen, eine ausgeglichen gute Retrievalleistung erbringen.
Bei der Betrachtung der Ergebnisse der jeweiligen Systeme in Bezug auf die
einzelnen Testaufgaben, fiel der Intelligent Miner for Text, sowohl beim Recall
als auch der Precision positiv auf.
Eine Zusammenfassung der Testpersonen in potentiell homogene Blöcke, die
durch inhaltliche Kriterien basierend auf einem Fragebogen definiert wurden,
ergab erstaunlicherweise bei keinem System einen aussagekräftigen, qualitativen
Unterschied. Ein Grund für die fehlenden signifikanten Unterschiede zwischen
den Testpersonen mit und ohne Retrievalerfahrung, die bei dieser Evaluierung
aufgetreten sind, mag die Tatsache sein, daß die eigentliche Eingabe der
Suchanfrage von den eingesetzten Mittlern übernommen wurde und von den
Probanden keine dahingehenden Kenntnisse gefordert waren. Hier muß die
Frage gestellt werden, ob sich das Einschalten eines Mittlers nicht doch
ausgleichend zwischen erfahrenen und unerfahrenen Probanden auswirkte und
die Ergebnisse nachhaltig beeinflußte.
Vergleicht man die Ergebnisse der Rankingsysteme Intelligent Miner for Text
und TextExtender mit denen der booleschen Systeme kann keine klare Aussage
getroffen werden, mit welchem Modell letztlich effektiver gesucht wurde. Auch
konnte die Fähigkeit der linguistischen Verarbeitung dieser beiden Systeme
gemeinsam betrachtet keinen Effektivitätsvorsprung gegenüber den beiden
anderen Systemen verzeichnen.
Zu berücksichtigen ist hierbei, daß der TextExtender innerhalb der
Evaluierungen das einzige System ohne graphische Benutzeroberfläche war.
Durch den Einsatz der Mittler konnte zwar das Problem seitens der Eingabe der
Suchanfrage eliminiert werden, doch die unübersichtliche Präsentation der
Ergebnislisten konnte damit nicht behoben werden. Dieser Sachverhalt
erschwerte die Recherche für die Probanden um ein Vielfaches und schränkt die
Vergleichbarkeit der Ergebnisse erheblich ein, da die Bearbeitung der Aufgaben
zumeist auf einem mehrstufigen Interaktionsprozeß mit den Systemen basierte.
Klammert man aus diesen Gründen die Resultate des TextExtenders aus der
Analyse aus, erhält man ein völlig anderes, kontroverses Bild.
Werden lediglich die Ergebnisse des Intelligent Miner for Text und die der
beiden booleschen Systemen betrachtet, so erreichte das Rankingsystem mit
seiner linguistischen Verarbeitung sehr wohl effektivere Rechercheergebnisse.
Es handelte sich jedoch auch hier um keine statistisch nachweisbaren
Differenzen.
Abschließend wurden die Ergebnisse auf Signifikanz getestet. Da es sich bei der
Evaluierungsstudie des Intelligent Miner for Text nicht um dieselben Probanden
handelte wie bei der Untersuchung der drei anderern Retrievalsysteme, wurde
der Signifikanztest hier nach dem Wilcoxon/Kruskan-Wallis Verfahren
durchgeführt und die Ergebnisse der ersten Studie paarweise mit denen des
Intelligent Miner for Text geprüft.
Anhand dieser Berechnung kann die generalisierte Aussage getroffen werden,
daß der Intelligent Miner for Text signifikant besser bzw. effektiver ist als der
TextExtender. Gegenüber dem booleschen System Lars II waren die Differenzen
innerhalb der Ergebnisse wohl nur rein zufällig, zumindest erbrachten die
Berechnungen keine statistisch signifikanten Unterschiede. Bei der Betrachtung
des Intelligent Miner for Text, gepaart mit den Resultaten von DOMESTIC,
liegt bezüglich der Precision keine statistische Signifikanz vor, jedoch scheint
das Rankingsystem im Hinblick auf den Recall DOMESTIC signifikant
überlegen zu sein. Somit ließ sich ein signifikanter Unterschied lediglich
gegenüber dem TextExtender ermittelt. Gegenüber den beiden anderen
Systemen lassen sich zwar Tendenzen erkennen, die jedoch stochastisch nicht
belegbar sind.
Aufgabe eines Retrievalsystems ist der Nachweis relevanter Dokumente für den
Benutzer. Die Ausgabe einer ungeordneten Liste, wie dies bei booleschen
Systemen üblich ist, ist insbesonders bei großen Datenmengen unbefriedigend
und für Reformulierungen nicht sonderlich hilfreich. Mit der Ausgabe einer
sortierten Liste, wie es bei den Rankingsystemen der Fall ist, wird dem Benutzer
zusätzlich die Möglichkeit gegeben zu entscheiden, ob er einen niedrigen Recall
mit gegebenenfalls einer hohen Precision anstrebt, sprich sein Augenmerk
vornehmlich auf die vorderen Ränge legt, oder ihm ein hoher Recall wichtiger
ist und er sich auch am unteren Teil der Dokumentenliste orientiert.
Um die Effektivität der Rankingkomponente verschiedener Retrievalsysteme
miteinander vergleichen zu können, wurde Recall-Precision-Graphen benutzt.
Hierbei wird jeder ausgegebene Rang als Cut-off genutzt und die jeweiligen
Wertepaare berechnet. Anhand dieses Graphen, sowie der Berechnung des
normalisierten Recall - hier erfolgt ein Vergleich mit einem „optimalen System“
- konnte für den Intelligent Miner for Text ein deutlicher Effektivitätsvorteil
gegenüber dem Textextender nachgewiesen werden.
2ES¼MEE UND !USBLICK
Betrachtet man die Ergebnisse, so lassen sich zwei wichtige Tendenzen
erkennen. Zum einen ist ein wesentlicher Unterschied zwischen den beiden
Ranking-Systemen TextExtender und Intelligent Miner for Text sichtbar. Es
liegt die Vermutung nahe, daß diese signifikanten Unterschiede auch ihre
Ursache in der Benutzerschnittstelle haben, da die sonstigen Funktionalitäten der
Systeme vergleichbar sind. Die Vergleiche zwischen booleschen und RankingSystemen haben zunächst keine signifikanten Unterschiede gezeigt, sehr wohl
aber die Einzelbetrachtungen zwischen TextExtender und Intelligent Miner for
Text mit den booleschen Systemen. Auch hier liegt die Vermutung nahe, daß die
Benutzerschnittstelle erheblichen Einfluß auf diese Ergebnisse hatte. Um diese
Vermutungen zu verifizieren muß ein umfangreicherer Test wie der hier
beschriebene durchgeführt werden. Dabei sollte zum einen die Zahl der
Testpersonen vergrößert werden und zum anderen die Anzahl der
unterschiedlichen Parameter möglichst auf die Schnittstelle beschränkt bleibt.
Die hier vorliegende Untersuchung beinhaltet noch zu viele Freiheitsgrade, als
daß der Einfluß der Benutzerschnittstelle oder Teile der Benutzerschnittstelle
signifikant festgestellt werden konnte.
,ITERATUR
[Frisch & Kluck 1997] E. Frisch, M. Kluck. Pretest zum Projekt German
Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der
Retrievalsysteme Messenger und freeWAISsf. Bonn 1997
[Käter 1999] T. Käter. Evaluierung des Text-Retrievalsystems „Intelligent
Miner for Text“ von IBM. Eine Studie im Vergleich zur Evaluierung anderer
Systeme. Diplomarbeit Informationswissenschaft, Universität Konstanz. 1999
[Sparck Jones 1981] K. Sparck Jones. Information retrieval experiment.
Butterworths, 1981
[Tague-Sutcliffe 1995] J. Tague-Sutcliffe. Measuring information. An
information services perspective. Academic Press: San Diego, London, 1995
[Voorhees & Harman 1998] E.M Voorhees, D.K. Harman. Sixth Text Retrieval
Conference (TREC-6) (NIST SP 500-240). Gaithersburg, MD, USA. 1998.
[Womser-Hacker 1989] C. Womser-Hacker. Der PADOK-Retrievaltest. Zur
Methode und Verwendung statistischer Verfahren bei der Bewertung von
Information-Retrieval-Systemen. Olms. 1989
Herunterladen