%VALUIERUNG DER 4EXT2ETRIEVALSYSTEME $OMESTIC )NTELLIGENT -INER FOR 4EXT ,ARS )) UND 4EXT%XTENDER 4 +¤TER - 2ITTBERGER # 7OMSER(ACKER Informationswissenschaft Universität Konstanz 78457 Konstanz [email protected] :USAMMENFASSUNG Bedingt durch die zunehmende Bedeutung der Verarbeitung textueller, unstrukturierter Informationen gewinnen Information Retrieval Systeme immer größere Bedeutung. Ausgehend von den Zielen der TREC-Konferenzen werden im Rahmen der GIRT-Initiative deutschsprachige Texte zur Evaluierung von Information Retrieval Systemen angeboten. Diese Texte wurden verwendet, um die Leistungsfähigkeit der vier kommerziellen Information Retrieval Systeme Domestic, Intelligent Miner for Text, Lars II und Text Extender zu untersuchen. Die ausgeglichenste Retrievalleistung zeigt der Intelligent Miner for Text, dessen Leistungsfähigkeit auch sonst sehr hoch eingeschätzt werden kann. Die Ergebnisse lassen die Folgerung zu, daß die Retrievalschnittstelle ein wichtiges Merkmal für den Erfolg einer Suche sein kann. !BSTRACT: Information retrieval systems become more important as the significance of working with textuell or unstructered information grows. Comparable to the TREC-conference series the GIRT-initiative offers german texts to evaluate information retrieval systems. These texts were used to evaluate the commercially available retrieval systems Domestic, Intelligent Miner for Text, Lars II, and Text Extender. The most balanced results are schown by the Intelligent Miner for Text, whose retrieval power is estimated high. The overall * DEBIS AG, # ,Universität Konstanz & Universität Hildesheim results let us suppose, that the user interface may play an important role for the succes of a search. %INLEITUNG Der Übergang in die Informationsgesellschaft bedingt den sorgsamen und kontrollierten Umgang mit Informationen. Einen der wichtigsten Aspekte betrifft den Zugriff auf relevante Information aus dem großen Angebot verfügbarer Informationen. Dabei spielt die Ordnung und das Strukturieren von Information, sowie der kontrollierte Zugriff auf die Information eine tragende Rolle. Im Information Retrieval wird versucht, mit unstrukturierten Daten, vorwiegend Texten, optimale Lösungen für diese Fragestellungen anzubieten. Ein wesentlicher Bestandteil der Forschungsaktivitäten im Information Retrieval konzentriert sich dabei auf die Evaluierung und Überprüfung von Suchleistungen der Retrievalsysteme [Spark Jones 1981, Womser-Hacker 1989, Tague-Sutcliff 1995]. Diese Aktivitäten erhielten durch die seit 1992 durchgeführten Text-REtrieval-Conferences [Vorhees & Harman 1998] erhebliche Bedeutung, da in dieser Initiative die Suche in großen Datenbeständen mit verschiedenen Systemen und Aufgaben unter gleichen Testbedingungen im Vordergrund steht. Da die TREC-Initiative zunächst nur auf englischsprachige Dokumente beschränkt war und der Bedarf vergleichende Ergebnisse auch im Umfeld anderer Sprachen vorhanden war, wurde vom IZSozialwissenschaften eine deutsche Testdatenbank GIRT (German Indexing and Retrieval Testdatabase) angeboten. Das Ziel der GIRT-Initiative war es, „... einen Rahmen für einen aussagefähigen Vergleich moderner, intelligenter Indexierungs- und Retrievalsysteme zu schaffen, auf deren Basis die Leistungsfähigkeit dieser Systeme gegenüber herkömmlichen Standardsystemen beurteilt werden kann.“ [Frisch/Kluck 1997] An der Universität Konstanz wurde die Leistungsfähigkeit von vier Retrievalsystemen, DOMESTIC, Lars II, Intelligent Miner for Text und TextExtender, unter Nutzung der GIRT-Daten untersucht. Schwerpunkt der Evaluierung waren Unterschiede der auf boolescher Logik aufbauenden Systeme DOMESTIC und LARS II gegenüber den Ranking-Systemen TextExtender und Im Detail lassen sich die Ergebnisse in [Käter 1999] nachlesen, dessen Arbeit auf eine Projektkursarbeit des Aufbausstudienganges Informationswissenschaft an der Universität Konstanz aufbaut. Der Schwerpunkt der Projektkursarbeit lag dabei auf den Systemen DOMESTIC, LARS II und TextExtender. In [Käter 1999] wurden diese Untersuchung durch den Intelligent Miner for Text ergänzt und die vier verschiedenen Systeme vergleichend untersucht. Intelligent Miner for Text zu identifizieren und den Wert von graphischen Benutzeroberflächen zu untersuchen. Wir werden im folgenden zunächst die vier beteiligten Systeme vorstellen, die Datenbank, Aufgaben und Testpersonen beschreiben. Im Anschluß werden der Retrievaltest und dessen Ergebnisse diskutiert. %VALUIERTE 2ETRIEVAL 3YSTEME - $/-%34)# ist ein Dokumenterfassungs- und Retrieval-System der Firma KTS Informationssysteme München. Mit diesem System lassen sich beliebige Informationen (Texte, Graphiken, Bilder, ...) im Dialog erfassen, aktualisieren und verwalten. Es erlaubt branchenneutral den Aufbau, die Pflege und die Nutzung unternehmenseigener Datenbanken und eine leistungsstarke Suche zur Auffindung relevanter Dokumente über verschiedene Gesichtspunkte hinweg. Die Möglichkeit, einen integrierten, dynamisch fortschreibbaren Thesaurus zur Inhaltserschließung zu verwenden, stellt ein wesentliches Charakteristikum dieses Systems dar. Auf den Einsatz eines Thesaurus mußte jedoch bei der vorliegenden Evaluierung aus technischen Gründen bei allen vier Systemen verzichtet werden. Bei DOMESTIC handelt es sich um ein rein boolesches System, bei dem weder eine Rankingkomponente enthalten ist, noch die Möglichkeit einer Relevanzbewertung als Recherchehilfe vorgesehen ist. - ,ARS )) ist ein allgemein einsetzbares, datenbankbasiertes Informations- und Retrievalsystem der Firma LARS GmbH in Frankfurt/Main, welches schwerpunktmäßig im Bereich Dokumentation und Literaturarchivierung Verwendung findet. Bei diesem System handelt es sich um eine Kombination aus einem relationalen Datenbanksystem und einem Volltextretrievalsystem. Es ist als Transaktionssystem (Dialogsystem) konzipiert und soll so eine komfortable Bedienung gewährleisten. Die graphische Benutzeroberfläche, die auf der Windowsphilosophie beruht, soll dabei die Handhabung erleichtern. Im Modus der Expertenrecherche werden Hilfsmittel angeboten, die eine syntaxkonforme Zusammenstellung von Suchanfragen unterstützen. Lars II ist ebenfalls ein rein boolesches System, so daß auch hier kein Ranking-Verfahren oder andere Relevanzbewertungen genutzt werden können. - 4EXT%XTENDER: IBM ergänzt sein Datenbanksystem DB2 um verschiedene Extender, mittels derer den Anwendern die Möglichkeit geboten wird, eine Datenbasis, neben relationalen Datentypen, um komplexe Datentypen (Text, Video,...) zu erweitern. Diese Extender erlauben es, komplexe Datentypen innerhalb einer Datenbank mit Hilfe von SQL-Abfragen in einer Datenbank zu manipulieren bzw. abzufragen. Diese relationalen Extender sind modulare Erweiterungen, die auf dem objekt-relationalen Ansatz basieren und die DB2-Systeme um Funktionalitäten hinsichtlich des Umgangs mit jeweils einem bestimmten Datentyp erweitern und dessen adäquate Behandlung sicherstellen. Der TextExtender erlaubt es dabei, SQL-Abfragen für unstrukturierte Textdokumente in die Anwendungen einzubetten. Er unterstützt die Volltextindexierung, eine linguistische Suche und die Synonymsuche in insgesamt 17 Sprachen und erweitert DB2 so um die Fähigkeit des Erkennens von Textstrukturen und des Volltextretrievals. Dabei unterstützt er nicht nur die Suche nach explizit abgesetzten Deskriptoren, sondern auch die Suche nach deren Wortvarianten und Synonymen. Er beinhaltet die Retrievalmöglichkeiten der Wort- und der Wortgruppensuche, die Suche mit Hilfe von Trunkierungen, die „proximity“-Suche sowie die Suche anhand boolescher Operatoren. Ein besonderes Leistungsmerkmal des Extenders ist die Fähigkeit gefundene Dokumente entsprechend ihrer Übereinstimmung mit den Suchkriterien zu bewerten und diese als Rankingliste auszugeben. - Der )NTELLIGENT -INER FOR 4EXT, ein Rankingsystem der Firma IBM, besteht aus drei Komponenten: dem TextMiner, als eigentliche Suchmaschine, den Text Analyse Tools und den Web Access Tools. Der TextMiner ist eine Client-Server-Suchmaschine in Form einer Anwendungsschnittstelle, die leistungsfähige, linguistische Möglichkeiten beinhaltet. Dabei handelt es sich um ein inhaltsbasiertes Retrievalsystem, welches die Volltextsuche, die Indexierung in 16 Sprachen, das Indexieren von Dokumenten in etlichen Formaten (z.B. HTML-Dateien, unstrukturierte ASCII-Dateien, sowie diverse Textverarbeitungsformate etc.), die Suche nach groben Übereinstimmungen, boolesche Abfragen, die Freitextsuche und Hybridabfragen unterstützt. Ferner läßt sich, zum Zweck der Anfrageerweiterung, ein vordefinierter oder ein benutzerdefinierter Thesaurus integrieren bzw. die Möglichkeit des Relevanz Feedback nutzen. Um die Aufgaben des Minings zu erfüllen, bedient sich der TextMiner verschiedener Text Analyse Tools (Topic Categorization Tool, Clustering Tool, Feature Extraction Tool, Language Identification Tool), die den Benutzer bei der Formulierung der Suchanfrage unterstützen sollen, sich mit dem Erkennen und Extrahieren von (Schlüssel-) Informationen aus Textdokumenten befassen und Dokumente hinsichtlich ihres Inhaltes organisieren oder behandelte Themengebiete einer Sammlung aufdecken. Einige dieser Tools sind ausschließlich für die englische Sprache konzipiert. 4ESTDESIGN Für die vorliegende Evaluierung diente das Testdesign von GIRT als Grundlage. Im wesentlichen besteht die verwendete "Retrievalkollektion" aus drei Elementen: den Dokumenten bzw. der Datenbank, den Fragen bzw. Aufgaben und den Relevanzurteilen. $ATENBANK Für den Retrievaltest wurde die Datenbank SOLFOR des IZ Sozialwissenschaften in Bonn, die eigens für den Zweck der Schaffung einer besseren Vergleichbarkeit von deutschsprachigen Information Retrieval Systemen angelegt wurde, verwendet. Diese enthält Auszüge aus den Datenbanken FORIS (Forschungsinformationssystem Sozialwissenschaften) und SOLIS (Sozialwissenschaftliches Literaturinformationssystem). Für nahezu alle 13.000 Dokumente, die in dieser Datenbank enthalten sind liegen Titel, Untertitel, Abstract, Autor, Klassifizierung, Zeitraum und bei FORIS zusätzlich geographischer Raum vor. Thematisch stammen die erfaßten Dokumente aus den Bereichen „Industrie- und Betriebssoziologie“, „Frauenförderung“ und „Migration und ethnische Minderheiten“, aus den gedruckten Ausgaben des "sozialwissenschaftlichen Fachinformationsdienstes" (soFid) und den Zeitschriften „soziale Welt“ und „Kölner Zeitschrift für Soziologie und Sozialpsychologie". !UFGABEN Bei GIRT wurden neun Fragen als Grundlage für den Retrievaltest verwendet, von denen sechs für die vorliegende Evaluierung ausgewählt wurden. Gestrichen wurden die Fragen T1-T3, zum einen aus Zeitgründen und zum anderen, weil sich diese beim GIRT-Pretest als problematisch erwiesen hatten: 4 4 4 4 4 4 7ELCHE )NSTRUMENTARIEN INSBESONDERE DER 0ERSONALPOLITIK UND DER 7EITERQUALIFIKATION GIBT ES IN DEN "ETRIEBEN UND 5NTERNEHMEN DER 7IRTSCHAFT UND DES ¶FFENTLICHEN $IENSTES ZUR &¶RDERUNG VON &RAUEN IN &¼HRUNGSPOSITIONEN 7ELCHE %INKOMMENSQUELLEN HABEN DIE AUSL¤NDISCHEN -ITB¼RGER IN DER "UNDESREPUBLIK $EUTSCHLAND 7ELCHE %INWANDERUNGSPOLITIK BETREIBEN DIE "2 $EUTSCHLAND UND DIE %UROP¤ISCHE 5NION 7ELCHE 5RSACHEN UND &ORMEN HABEN DIE &REMDENFEINDLICHKEIT UND DER 2ASSISMUS BEI *UGENDLICHEN 7ELCHE 3TUDIEN BEFASSEN SICH MIT DER !RMUT ALS SOZIALEM 0ROBLEM IN $EUTSCHLAND UNTER BESONDERER "ER¼CKSICHTIGUNG DER NEUEN "UNDESL¤NDER 7ELCHE 0RODUKTIONSKONZEPTE UND 2ATIONALISIERUNGSSTRATEGIEN WERDEN IN DEN "ETRIEBEN UND 5NTERNEHMEN EINGESETZT Die Eingabe der Suchterme wurde während des Tests durch einen Mittler vorgenommen, der die Anfragen der jeweiligen Versuchsperson in die jeweilige Querystruktur transformierte (boolesche Operatoren, Trunkierungen etc.). Die Einschaltung des Mittlers erfolgte, da die Umsetzung von natürlichsprachlichen Suchanfragen in eine adäquate, zum Teil recht komplexe Querystruktur bei ungeübten Probanden zu erheblichen Schwierigkeiten und zahlreichen Syntaxfehlern hätte führen können. 4ESTPERSONEN Ein Aspekt der Evaluierungen zielte darauf ab zu untersuchen, wie gut unerfahrene Nutzer im Vergleich zu Erfahrenen mit den verschiedenen Retrievalsystemen umgehen können. Für die Rekrutierung der Versuchspersonen standen, da es sich um eine sozialwissenschaftliche Datenbank handelt und Verständnisschwierigkeiten hinsichtlich der Testaufgaben ausgeschlossen werden sollten, die sozialwissenschaftlichen Kenntnisse der Probanden im Vordergrund. Recherchekenntnisse und die Erfahrungen im Umgang mit Retrievalsystemen sollten von "keiner Erfahrung" bis hin zum "geübten, regelmäßigen Nutzer" diverser Datenbanksysteme bzw. Internetrecherchen reichen. Für die Evaluierung des Intelligent Miner for Text standen nicht dieselben zwölf Probanden zur Verfügung wie für die erste Evaluierung, jedoch wurde darauf geachtet, daß sie dieselben Kriterien erfüllten. 2ETRIEVALTEST Ausgangspunkt jedes Tests war eine Einführung der Testpersonen in die Thematik des Information Retrieval, deren Umfang in Abhängigkeit zu den Retrievalkenntnissen des jeweiligen Probanden stand. Angesprochen wurden Grundzüge der Freitext-Suche, der booleschen-Suche und der Hybrid-Suche. Als besonders wichtig erwies sich die Einweisung der Probanden in die boolesche Logik und die damit einhergehenden Möglichkeiten. Hier wurde anhand kurzer Beispiele ein Schwerpunkt auf die Darstellung der Blockbildung gelegt. Ferner wurden die morphologischen Eigenschaften der linguistischen Verarbeitung bzw. des verwendeten linguistischen Index dargestellt. Zudem wurde der Einsatz zeichenkettenorientierter Operatoren für die Rechts-, Linkstrunkierung und die Maskierung innerhalb von Begriffen erläutert, bevor die Testpersonen die Testfragen erhielten. Die vom Probanden formulierte Anfrage wurde vom Mittler in die entsprechende Querysyntax übersetzt und eingegeben. Während die Testperson die Möglichkeit hatte, sich die resultierende Trefferliste anzuschauen und sich einzelne Dokumente anzeigen zulassen, wurden vom Mittler bzw. einem Protokollanten Notizen zu besonderen Rückfragen und Auffälligkeiten gemacht. Zusätzlich wurden alle Rechercheschritte mittels der Lotus ScreenCam dokumentiert. Für die Bearbeitung von jeweils zwei Aufgaben standen jedem Probanden je Frage ca. 25 min zur Verfügung. Der exakte Zeitverbrauch wurde vom Mittler auf dem Protokollbogen notiert. Ferner wurden hier Suchfrage, Reformulierungsschritte, verwendete Deskriptoren und Anzahl der gefundenen bzw. ausgegebenen Dokumente festgehalten. Auf die Festsetzung eines generellen Cut-off Wertes wurde, aufgrund schlechter Erfahrungen aus GIRT verzichtet. Dennoch erfolgte bei den Rankingsystemen bei ca. der Hälfte der Recherchen die endgültige Einschränkung der Treffermenge über das Setzen eines Cut-off Wertes, d.h. die Dokumente wurden nur dann als Treffer ausgegeben, wenn sie einen vom Probanden festgelegten Rang- bzw. Rankingwert erreichten. Alle Probanden erhielten nach der Durchführung ihrer Recherchen einen Fragebogen, in dem sie neben ihren Retrievalerfahrungen persönliche Eindrücke und Einschätzungen bezüglich des Recherchetests dokumentieren sollten. Diese Angaben waren Ausgangspunkt für die spätere statistische Auswertung, bei der die Teilnehmer aufgrund ihrer Angaben in Gruppen eingeteilt und Hypothesen aufgestellt werden konnten. %RGEBNISSE DER %VALUIERUNGEN Anhand der ermittelten absoluten Zahlen und den daraus errechneten Effektivitätsmaßen konnten für jedes System Kennwerte gewonnen werden, die seine Retrievalleistung charakterisieren und somit einen Vergleich ermöglichten. Als Kenngröße zur Bewertung der Retrievaleffektivität der einzelnen Systeme wurden die Standardmaße Recall und Precision herangezogen. Zur Bestimmung der Mittelwerte der Ergebnisse wurde die Makromethode angewandt. Bei dieser Methode wird das gewählte Bewertungsmaß für jedes Retrievalergebnis getrennt berechnet; anschließend werden die Werte arithmetisch gemittelt, um die Vergleichbarkeit der Recherche in ihrer Gesamtheit und nicht die einzelner Dokumente zu erhalten. Betrachtet man innerhalb der statistischen Auswertung die gemittelten Recallund Precisionwerte der einzelnen Systeme, fällt es schwer eine eindeutige Aussage bezüglich des "besser seins" des einen oder anderen Retrievalsystems bzw. Modells zu treffen. Einzig das schwache Abschneiden des TextExtenders, bei dem sowohl der Recall als auch die Precision am geringsten ausfielen, läßt eine negative Beurteilung zu. Bei DOMESTIC fiel eine durchgehend inverse Relation zwischen schlechtem Recall und überdurchschnittlicher Precision auf. Lars II lag mit seinen Effektivitätswerten "unspektakulär" im Mittelfeld. Nur der Intelligent Miner for Text konnte über den gesamten Test hinweg, im Vergleich zu den übrigen Systemen, eine ausgeglichen gute Retrievalleistung erbringen. Bei der Betrachtung der Ergebnisse der jeweiligen Systeme in Bezug auf die einzelnen Testaufgaben, fiel der Intelligent Miner for Text, sowohl beim Recall als auch der Precision positiv auf. Eine Zusammenfassung der Testpersonen in potentiell homogene Blöcke, die durch inhaltliche Kriterien basierend auf einem Fragebogen definiert wurden, ergab erstaunlicherweise bei keinem System einen aussagekräftigen, qualitativen Unterschied. Ein Grund für die fehlenden signifikanten Unterschiede zwischen den Testpersonen mit und ohne Retrievalerfahrung, die bei dieser Evaluierung aufgetreten sind, mag die Tatsache sein, daß die eigentliche Eingabe der Suchanfrage von den eingesetzten Mittlern übernommen wurde und von den Probanden keine dahingehenden Kenntnisse gefordert waren. Hier muß die Frage gestellt werden, ob sich das Einschalten eines Mittlers nicht doch ausgleichend zwischen erfahrenen und unerfahrenen Probanden auswirkte und die Ergebnisse nachhaltig beeinflußte. Vergleicht man die Ergebnisse der Rankingsysteme Intelligent Miner for Text und TextExtender mit denen der booleschen Systeme kann keine klare Aussage getroffen werden, mit welchem Modell letztlich effektiver gesucht wurde. Auch konnte die Fähigkeit der linguistischen Verarbeitung dieser beiden Systeme gemeinsam betrachtet keinen Effektivitätsvorsprung gegenüber den beiden anderen Systemen verzeichnen. Zu berücksichtigen ist hierbei, daß der TextExtender innerhalb der Evaluierungen das einzige System ohne graphische Benutzeroberfläche war. Durch den Einsatz der Mittler konnte zwar das Problem seitens der Eingabe der Suchanfrage eliminiert werden, doch die unübersichtliche Präsentation der Ergebnislisten konnte damit nicht behoben werden. Dieser Sachverhalt erschwerte die Recherche für die Probanden um ein Vielfaches und schränkt die Vergleichbarkeit der Ergebnisse erheblich ein, da die Bearbeitung der Aufgaben zumeist auf einem mehrstufigen Interaktionsprozeß mit den Systemen basierte. Klammert man aus diesen Gründen die Resultate des TextExtenders aus der Analyse aus, erhält man ein völlig anderes, kontroverses Bild. Werden lediglich die Ergebnisse des Intelligent Miner for Text und die der beiden booleschen Systemen betrachtet, so erreichte das Rankingsystem mit seiner linguistischen Verarbeitung sehr wohl effektivere Rechercheergebnisse. Es handelte sich jedoch auch hier um keine statistisch nachweisbaren Differenzen. Abschließend wurden die Ergebnisse auf Signifikanz getestet. Da es sich bei der Evaluierungsstudie des Intelligent Miner for Text nicht um dieselben Probanden handelte wie bei der Untersuchung der drei anderern Retrievalsysteme, wurde der Signifikanztest hier nach dem Wilcoxon/Kruskan-Wallis Verfahren durchgeführt und die Ergebnisse der ersten Studie paarweise mit denen des Intelligent Miner for Text geprüft. Anhand dieser Berechnung kann die generalisierte Aussage getroffen werden, daß der Intelligent Miner for Text signifikant besser bzw. effektiver ist als der TextExtender. Gegenüber dem booleschen System Lars II waren die Differenzen innerhalb der Ergebnisse wohl nur rein zufällig, zumindest erbrachten die Berechnungen keine statistisch signifikanten Unterschiede. Bei der Betrachtung des Intelligent Miner for Text, gepaart mit den Resultaten von DOMESTIC, liegt bezüglich der Precision keine statistische Signifikanz vor, jedoch scheint das Rankingsystem im Hinblick auf den Recall DOMESTIC signifikant überlegen zu sein. Somit ließ sich ein signifikanter Unterschied lediglich gegenüber dem TextExtender ermittelt. Gegenüber den beiden anderen Systemen lassen sich zwar Tendenzen erkennen, die jedoch stochastisch nicht belegbar sind. Aufgabe eines Retrievalsystems ist der Nachweis relevanter Dokumente für den Benutzer. Die Ausgabe einer ungeordneten Liste, wie dies bei booleschen Systemen üblich ist, ist insbesonders bei großen Datenmengen unbefriedigend und für Reformulierungen nicht sonderlich hilfreich. Mit der Ausgabe einer sortierten Liste, wie es bei den Rankingsystemen der Fall ist, wird dem Benutzer zusätzlich die Möglichkeit gegeben zu entscheiden, ob er einen niedrigen Recall mit gegebenenfalls einer hohen Precision anstrebt, sprich sein Augenmerk vornehmlich auf die vorderen Ränge legt, oder ihm ein hoher Recall wichtiger ist und er sich auch am unteren Teil der Dokumentenliste orientiert. Um die Effektivität der Rankingkomponente verschiedener Retrievalsysteme miteinander vergleichen zu können, wurde Recall-Precision-Graphen benutzt. Hierbei wird jeder ausgegebene Rang als Cut-off genutzt und die jeweiligen Wertepaare berechnet. Anhand dieses Graphen, sowie der Berechnung des normalisierten Recall - hier erfolgt ein Vergleich mit einem „optimalen System“ - konnte für den Intelligent Miner for Text ein deutlicher Effektivitätsvorteil gegenüber dem Textextender nachgewiesen werden. 2ES¼MEE UND !USBLICK Betrachtet man die Ergebnisse, so lassen sich zwei wichtige Tendenzen erkennen. Zum einen ist ein wesentlicher Unterschied zwischen den beiden Ranking-Systemen TextExtender und Intelligent Miner for Text sichtbar. Es liegt die Vermutung nahe, daß diese signifikanten Unterschiede auch ihre Ursache in der Benutzerschnittstelle haben, da die sonstigen Funktionalitäten der Systeme vergleichbar sind. Die Vergleiche zwischen booleschen und RankingSystemen haben zunächst keine signifikanten Unterschiede gezeigt, sehr wohl aber die Einzelbetrachtungen zwischen TextExtender und Intelligent Miner for Text mit den booleschen Systemen. Auch hier liegt die Vermutung nahe, daß die Benutzerschnittstelle erheblichen Einfluß auf diese Ergebnisse hatte. Um diese Vermutungen zu verifizieren muß ein umfangreicherer Test wie der hier beschriebene durchgeführt werden. Dabei sollte zum einen die Zahl der Testpersonen vergrößert werden und zum anderen die Anzahl der unterschiedlichen Parameter möglichst auf die Schnittstelle beschränkt bleibt. Die hier vorliegende Untersuchung beinhaltet noch zu viele Freiheitsgrade, als daß der Einfluß der Benutzerschnittstelle oder Teile der Benutzerschnittstelle signifikant festgestellt werden konnte. ,ITERATUR [Frisch & Kluck 1997] E. Frisch, M. Kluck. Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und freeWAISsf. Bonn 1997 [Käter 1999] T. Käter. Evaluierung des Text-Retrievalsystems „Intelligent Miner for Text“ von IBM. Eine Studie im Vergleich zur Evaluierung anderer Systeme. Diplomarbeit Informationswissenschaft, Universität Konstanz. 1999 [Sparck Jones 1981] K. Sparck Jones. Information retrieval experiment. Butterworths, 1981 [Tague-Sutcliffe 1995] J. Tague-Sutcliffe. Measuring information. An information services perspective. Academic Press: San Diego, London, 1995 [Voorhees & Harman 1998] E.M Voorhees, D.K. Harman. Sixth Text Retrieval Conference (TREC-6) (NIST SP 500-240). Gaithersburg, MD, USA. 1998. [Womser-Hacker 1989] C. Womser-Hacker. Der PADOK-Retrievaltest. Zur Methode und Verwendung statistischer Verfahren bei der Bewertung von Information-Retrieval-Systemen. Olms. 1989