"Future Information Harvesting and Processing on the Web" Conference “European Telematics: advancing the information society” Barcelona, 4-7 February 1998 Christian Gütl Keith Andrews Herman Maurer* IICM, Graz University of Technology, Austria Keywords: Hierarchical Search Index, Catalogue, Internet, Search Engine, Knowledge Discovery Kurzfassung Die Entwicklung der einfach benutzbaren Web-Browser führt zu einem rapiden Anwachsen der Daten am Web und damit auch der zur Verfügung stehenden Informationen. Die Anzahl der Web-Server kann mit 300.000 angenommen werden und die Anzahl der Dokumente erreicht 150 Millionen. Die Menge der über das Internet zugreifbaren Informationen wächst weiter an und es wird zunehmend schwieriger, relevante Information aufzufinden. Gegenwärtige Katalogsysteme und Suchmaschinen genügen den Anforderungen der Benutzer nach nachgefragter Information und zuverlässigem Wissen nicht. Weitere Suchroboter der Suchdienste verursachen eine Menge an Netz- und Serverbelastung. Es gilt neue Strategien aus dem gegenwärtigen Standard und zukunftsorientierte Technologien zu entwickeln. Es gilt viele Fragen zu klären: „Wo bekomme ich Informationen zu einem bestimmten Thema? Habe ich die richtige (relevante) Information? Wie ist die Qualität der erhaltenen Information? Wie kann ich eine bestimmte Information wieder finden?“ Wir müssen auf diese Fragen Antworten finden um Millionen von Benutzern Werkzeuge zu geben, damit diese die Information finden, nach der sie suchen. Abstract The development of easy-to-use web clients and servers is leading to a rapid growth of available information on the web. The number of web servers can be estimated at 300,000 and the number of documents around 150 million. The volume of internet-accessible information continues to grow and it is becoming increasingly difficult to locate relevant information. Present indexing systems and search engines do not satisfy users’ needs for information and reliable knowledge. Additionally, search engine robots are responsible for a great deal of network traffic and server load. Some new strategies have to be developed based on present standards and future technologies. Appropriate questions include: "Where can I get information about a particular topic? Have I found the right (relevant) information? What is the quality of the received information? How can I find a certain document again?" Answers have to be found to these questions, if millions of users are to easily find the information they are looking for. * [email protected], [email protected], [email protected] IICM, Schießstattgasse 4a, A-8020 Graz, Austria. Future Information Harvesting and Processing on the Web 1. Das Internet als Wissensspeicher Der erste Schritt zum heute weltweit boomenden Internet wurde bereits Anfang der 60er Jahre mit der Idee der Vernetzung von amerikanischen Forschungseinrichtungen gesetzt. Aber erst mit der Integration des Internetprotokolls TCP/IP (Transmission Control Protocol / Internet Protocol) in der Berkeley UNIX Distribution (1983) beginnt die Erfolgsgeschichte des Internets [7]. Bereits zwei Jahre später unterstützte diese Technologie Wissenschafter und Forscher beim Informationsaustausch und stellt somit den Beginn der heutigen computerbasierten Kommunikation dar. Gerade der freie, offene Zugriff auf Informationen kann als ein Schlüsselfaktor genannt werden, der zum rapid Anwachsenden Internet beigetragen hat. Eine zaghafte Kommerzialisierung des Internets fand schon in den frühen 80er Jahren statt. Unternehmungen integrierten erste Internetfunktionalität (TCP/IP) in ihren kommerziellen Produkten. In den letzten Jahren entstand ein wahrer Boom und insbesondere das World Wide Web entwickelt sich zu einem Medium für alle. Dies kann auf die leichte Handhabung der zur Verfügung stehenden Browser zurückgeführt werden. [10] Das Internet ist gegenwärtig durch ein rapides Wachstum gekennzeichnet. Nachfolgend soll die Entwicklung der letzten Jahre und die gegenwärtige Bedeutung aufgezeigt werden. Network Wizard [12] gibt die Anzahl der Hosts1 weltweit für Juli 1995 mit 6,6 Millionen und für Juli 1997 mit 19,5 Millionen an, davon sind jeweils durch Ping etwa 25% erreichbar. Verfolgt man die Entwicklung, so ist bis jetzt ein annähernd exponentieller Anstieg erkennbar. Bei PIPE NCC [14] findet man entsprechende europäische Daten: für Juli 1995 sind 1,7 Millionen Hosts und für Juli 1997 sind 4,8 Millionen Hosts angegeben; der Verlauf ist ebenfalls annähernd exponentiell. Die Anzahl der frei verfügbaren Dokumente im WWW ist nur durch wage Schätzungen anzugeben. Man könnte jedoch annehmen, daß sich der Verlauf der Zunahme ähnlich verhalten wird. Bei David Brake [2] findet man für das Jahr 1995 Angaben von 50 Millionen Seiten und für Mitte 1997 sollen es an die 150 Millionen sein. Laut Search Engine Watch [16] hat Alta Vista2, einer der größten Informationsdienste, gegenwärtig etwa 100 Millionen Seiten indiziert. Aufgrund Hardware- und Funktionseinschränkungen (Frames, Imagemaps sowie dynamischen Webseiten) können nie alle Seiten von einem Informationsdienst erfaßt werden [16]. Wenn man davon ausgeht, daß Alta Vista nur sehr frequentierte Websites vollständig zu erfassen versucht [2], und daß eine typische, durchschnittliche Indexaktualisierung eines bestimmten Webangebotes bei einem Monat liegt [19], kann man davon ausgehen, daß die tatsächliche Seitenanzahl über 150 Millionen liegen wird. Die oben genannten Zahlen lassen erkennen, daß im Internet, respektive im WWW, ein riesiger Informationsspeicher vorhanden ist. Jeusfeld und Jarke [8] sprechen von einem großen, dynamischen und unstrukturierten Informationsmarkt. Die Dynamik kann durch die ständige Änderung von Inhalten (aktualisieren, löschen, erstellen) verstanden werden. Durchschnittlich ändert sich eine Web-Seite alle 75 Tage [2]. Hier gilt es Methoden zu entwickeln, damit Wissen nicht unwiederbringlich verloren geht. Eine große Zahl von Informationsanbietern und –nachfragern treffen im Internet aufeinander. Diese Informationsvielfalt läßt sich in einer groben Gliederung folgend angeben: 1. Wissenschafts- und Forschungsinformationen Datenbereitstellung, aufbereitete Ergebnisse 2. Kommerzieller Bereich Unternehmensinformationen, Dienstleistungen 3. Nonprofit Bereich Plattform für Organisationen, Homepages Privater Personen Das Georgia Institute of Technology in Atlanta [6] hat in seiner letzten Studie herausgefunden, daß bei der Nutzung des WWW die Informationsnachfrage an oberster Stelle steht. Die meistgenannte WebAktivität unter den Befragten ist mit 86% Informationen zu sammeln, gefolgt von Informationssuche mit 63%. Durch diese Bedeutung der Informationsnachfrage kommt dem Internet eine wichtige Rolle als Network Wizard [12] definiert einen Host wie folgt: „Ein Host ist ein Domain-Name dem eine IPAdresse zugeordnet ist. Das wäre jedes mit dem Internet verbundene Computersystem ...“. 1 2 http://www.altivista.digital.com/ Gütl, Andrews, Maurer 1998 Seite 2 Future Information Harvesting and Processing on the Web Wissensspeicher zu. Die Aufgabe der Informationsdienste liegt in der Vermittlung hin zu den Informationsnachfragern.3 Die Unstrukturiertheit der angebotenen Informationen, deren Vielfalt und die rasche Zunahme an Information macht eine Hilfe zum Auffinden von gewünschten Informationen unerläßlich. In unserer Gesellschaft wird das rasche Erfassen und zuverlässige Suchen nach gezieltem Wissen zunehmende Bedeutung erlangen, doch wir müssen von der Informationsgesellschaft hin zu Wissensgesellschaft gelangen. Diese ist dadurch gekennzeichnet, daß „neben Beschaffung von Informationen auch nach der Bedeutung der Inhalte gefragt wird ...“ [13]. In dem nachfolgenden Abschnitt sollen die gegenwärtigen Werkzeuge zur Wissensauffindung untersucht werden. 2. Gegenwärtige Suchdienste – Nutzen und Grenzen Dieser Abschnitt beschäftigt sich mit der Untersuchung von gegenwärtigen Suchdiensten, deren Möglichkeiten und Nachteilen. David Brake [2] schreibt: „Eine Bibliothek ist gerade so gut wie der Index, der die Bücher enthält, und das World Wide Web ist nur so nützlich, wie die angebotenen Suchmaschinen“. Eine generelle Unterscheidung der Suchdienste läßt sich nach der Form der Datenakquisition treffen: Automatische Datenakquisition Manuelle Datenakquisition durch Anmelden Die automatische Datenakquisition erfolgt durch einen Roboter bzw. Bots und Spider, die Webinhalte extrahieren sowie weiterführende Verknüpfungen zu anderen Inhalten verfolgen. Die erhaltenen Informationen werden in einen Datenbankindex aufgenommen [21][2]. Mit dieser Methode wird es möglich, einen umfangreichen Datenindex von bis zu 100 Millionen Seiteninformationen aufzubauen [20] (siehe auch Tabelle 1). Nachteile sind u.a. die geringe Relevanz des Suchergebnisses [18] (siehe auch Tabelle 1) sowie ein unvollständiges, unaktuelles Abbild von Web-Sites (vgl. Abschnitt 1). Suchdienst Seiten in Mil. Relevanzkennziffer Exite Infoseek Lycos Alta Vista Web Crawler 55 9 30 7,8 30 5,9 100 4,3 2 3,2 Tabelle 1: Auswahl von Major Players: Anzahl der indizierten Seiten und Angaben über die Relevanz der Suchergebnisse Die Verschiedenheit der Dokumente, unzureichende Benutzerschnittstellen und angewandte Techniken (Suche mit logischen Verknüpfungen, kein oder unzureichendes Einbeziehen von inhaltlichen Zusammenhängen) führt oftmals zu unbefriedigenden Ergebnissen. Fichtinger [5] bringt es auf den Punkt: „90% aller Such-Versuche führen zu nicht endenwollenden Auflistungen der unmöglichsten Webseiten, die rein zufällig das angegebene Stichwort enthalten, die mit dem gewünschten Thema jedoch nichts zu tun haben – Treffer sind reine Glückssache.“ Weitere Nachteile sind durch veraltete Duplikate und Phantomkopien gegeben (ein und das selbe Dokument ist über mehrere URL-Adressen zugreifbar) [8]. Suchroboter belasten jedoch auch das Netz und die jeweiligen Server. In einer Auflistung von Kostner [9] sind 160 Suchrobots genannt. Durch das parallele Absuchen des Internets von zunehmend vielen Suchrobotern würde die Netzbelastung aber auch die Serverbelastung in dramatischem Ausmaß zunehmen. Die manuelle Datenakquisition der Web-Inhalte erfolgt durch Anmelden neuer Seiten von den Autoren selbst oder durch Lektoren. Diese Verzeichnisbasierten Suchdienste bieten die Möglichkeit zur Stichwortsuche in hierarchisch aufgebauten Themenlisten [21]. Ein typischer Vertreter dafür ist der Suchdienst Yahoo4. Entsprechend einer Untersuchung von Media Metrix [17] liegt Yahoo mit einer Nutzungshäufigkeit von 40% an erster Stelle vor den roboterbasierten Suchdiensten. Die 3 Die vorhandenen Publish-Tools ermöglichen das einfache Publizieren im WWW. Netscape und Microsoft liefern bereits Tools mit ihren 4.x-Webclients mit [3]. 4 http://www.yahoo.com/ Gütl, Andrews, Maurer 1998 Seite 3 Future Information Harvesting and Processing on the Web Relevanzkennziffer wird von Media Metrix [18] mit 17 angegeben und liegt auch damit an erster Stelle. Nachteile dieses Systems sind Unvollständigkeit und manuelle Bearbeitung. Die Vorteile sind durch die Möglichkeit der hierarchischen Wissensauffindung und durch gezielte Suche einschlägiger Information in speziellen Katalogen [21] gegeben. Die hohe Nutzungshäufigkeit und hohe Relevanzkennziffer deuten darauf hin, daß die Benutzer lieber durch Informationsverzeichnisse navigieren. (vgl. auch [4] ) Darüber hinaus gibt es Metasuchdienste, die ihre Informationen aus mehreren Suchdiensten zusammenfassen und diese zur Verfügung stellen. Ein weiterer interessanter Ansatz ist ALIWEB. Dieser Dienst basiert auf der Kombination von manueller Erstellung von lokalen Indizes und der automatischen Suche dieser von ALIWEB [21]. In der letzen Zeit haben sich vermehrt personalisierte Suchdienste etabliert. Dieses System basiert auf Kenntnissen über Interessen der Benutzer (Persönlichkeitsprofil, Bewertungssysteme bzw. Collaborative Filtering) [21]. Des weiteren werden vermehrt Intelligente Agenten zur Suche im WWW eingesetzt (siehe Hotbot5). Insbesondere die beiden letztgenannten Ansätze scheinen in Richtung Wissensgesellschaft zu weisen. Die rasante Zunahme von potentieller Information im Web sowie die Beschränkungen bei der vollständigen und rechtzeitigen Erfassung durch Hardware und angewandte Technologien (siehe Abschnitt 1), die relativ geringe Trefferrelevanz und die immer stärker werdenden Netz- und Serverbelastungen verlangen nach neuen Verfahren. Mit einbezogen werden sollten Möglichkeiten zur Qualitätsbeurteilung der jeweiligen Wissensquelle und die Berücksichtigung der Vielzahl an Sprachen. Jeusfeld und Jarke [8] schreiben in der Betrachtung zum globalen Informationsmarkt abschließend: „Heutige Suchmaschinen und Informationskataloge sind nur ein erster Schritt, Ordnung in das Informationschaos zu bringen“. Mögliche weitere Schritte hin zur Wissensgesellschaft sind im Abschnitt 3 aufgezeigt. 3. Zukunftsorientierte intelligente Wissensauffindung Dieser Abschnitt zeigt Arbeiten und Vorschläge im Bereich intelligenter Wissenserfassung und Wissensauffindung am IICM6. Das vorliegende System wird Hiks genannt. Ausgangspunkt der Überlegungen sind die ansteigenden Netz- und Serverbelastungen, die durch die gegenwärtigen Suchroboter hervorgerufen werden. Es muß vermieden werden, daß ein und dieselben Webinhalte von mehr und mehr Robots abgesucht werden. Die Antwort ist ein verteilter Suchindex, der kaskadierbar Informationen weiterreicht. Damit ist ein hierarchisches Wissenssystem möglich, das Hierarchische Suchindexverfahren. Diese Technik baut auf dem Harvest-Forschungsprojekt [15] auf. Grundidee des Hierarchischen Suchindexverfahren (siehe Abbildung 1) ist es, daß lokale Serverinhalte mittels Local Gatherers abgesucht und indiziert werden bzw. daß Area Gatherers mehrere Webserver in einem begrenzten Bereich absuchen und indizieren. Diese Indizes stehen dann auf Abruf den nachfolgenden Einheiten - den Knowledge Brokern - zur Verfügung. Knowledge Broker können ihrerseits wieder Informationen an weitere Einheiten weiterreichen, es liegt also ein kaskadierbares System vor. Mit diesem Verfahren wird es damit möglich die Netz- und Serverbelastungen zu reduzieren, da jeder Web-Server nur noch einmal durchsucht werden muß. Die Funktionsweise soll an Hand des Local Gatherer‘s besprochen werden, für den Area Gatherer gilt Analoges. Ausgangspunkt der Betrachtung ist ein lokaler Web-Server. Dessen Inhalt wird in periodischen Abständen vom Local Gatherer abgesucht. Neue Dokumente werden in einen Dokumentenindex mit der entsprechenden Gültigkeitsdauer eingetragen und die Dokumentdaten werden ebenfalls indiziert. Ändert sich das Dokument bei weiteren Durchläufen nicht, so wird nur jeweils die Gültigkeitsdauer angepaßt, bei Veränderungen wird zusätzlich der Datenindex aktualisiert. Wird ein Dokument vom Server gelöscht, so werden dessen Daten durch Ablauf der Gültigkeitsdauer vom Datenindex entfernt. Im Datenindex sind neben den Dokumentinhalten7 zusätzliche Informationen hinzugefügt, die sich aus den Metadaten des Dokumentes (z.B. Titel, Autor, Erstellungsdatum), aus den Systemdaten (z.B. Indizierungszeitpunkt, ObjektID) und zusätzlich generierte Daten zusammensetzen. Der Keyword Builder extrahiert aus dem Inhalt (z.B. Überschriften, Titel) 5 http://www.botspot.com/ 6 http.//www.iicm.edu/ 7 Zur Zeit werden nur HTML und Textdokumente indiziert. Durch Aufsetzen entsprechender Filter können jedoch leicht weitere Dokumenttypen indiziert werden. Gütl, Andrews, Maurer 1998 Seite 4 Future Information Harvesting and Processing on the Web Schlüsselwörter, die beispielsweise auch zur automatische Beschlagwortung von Dokumenten verwendet werden können. Der Description Builder extrahiert aus dem Inhalt eine Kurzbeschreibung. Die beiden zusätzlich gewonnenen Informationen stehen bei den Suchanfragen und auch bei der Resultatsdarstellung zur Verfügung. Zusätzlich werden auf den Seiten enthaltene Linkdaten sowie Informationen über Bilder und sonstige eingebundene Objekte in den Index aufgenommen. Des weiteren werden auch Javascript, Javaappletes und Active-X-Controls berücksichtigt. Damit wird es möglich, auch diese Informationen in die Suchabfragen zu integrieren und in den Suchergebnissen zu visualisieren. Abbildung 1: Das Hierarchische Suchindexverfahren läßt sich in Kaskaden anordnen. Grundelemente sind der Local Gatherer für einzelne Server und der Area Gatherer für Web-Server eines bestimmten Bereiches. Knowledge Broker (siehe Abbildung 2) können nun auf den Datenindex zugreifen. Es können entweder alle Daten des Gatherer Indexes übertragen werden oder nur die Veränderungen seit eines definierten Zeitpunktes (inkrementeller Wissens-Up-Date). Die Übertragung kann zusätzlich komprimiert erfolgen und erwirkt eine zusätzliche Verringerung der Netzbelastung. Der Vorteil dieses Systems ist es jedenfalls, daß der Knowledge Broker immer aktuelle Daten haben kann. Die Daten werden wahlweise in einem erweiterten SOIF-Format (basierend auf Summary Object Interchange Format [15] ) oder in einem XML-basierten bzw. MCF-basierten Format zu Verfügung gestellt. Der Knowledge Broker faßt die Daten aus mehreren Gatherern bzw. auch anderen Brokern in seinem lokalen Index zusammen und hält sie für Anfragen bereit. Der Relevance Keyword Builder filtert in Abhängigkeit von dem Dokumentenbestand die relevanten Schlüsselwörter je Dokument aus und stellt diese für Suchanfragen und weitere Anwendungen zu Verfügung. Es wird neben den Dokumentdaten zusätzliche Information über die einzelnen Web-Server bzw. die einzelnen Web-Sites indiziert. Diese Informationen ermöglichen eine gezielte Suche nach Servern mit besonderen Inhalten bzw. kann für einen dynamisch erstellten Serverindex verwendet werden. In dem vorgestellten Projekt werden diese Informationen auch bei der Ergebnisvisualiserung verwendet. Eine geplante Erweiterung zur intelligenten Wissensauffindung ist das Hyperwave Based Intelligent Knowledge System. Hyperwave8 ist ein objektorientiertes Dokument- und Datenverwaltungssystem. Neben einer lokalen Volltextsuche (alle Objekte sind in einer Datenbank und volltext-indiziert) bietet Hyperwave ein intelligentes Strukturmanagement (Collectionstruktur), die es gestattet, einen hirarchischen Suchkatalog aufzubauen. Benutzer bevorzugen die Wissensauffindung durch navigieren (siehe Abschnitt 2). Die konkrete Umsetzung könnte durch vordefinierte Suchabfragen in den jeweiligen Collections erfolgen, dem Information Strukture Navigation. Um den Wartungsaufwand zu reduzieren, ist es notwendig die Struktur automatisiert aufzubauen und zu aktualisieren. Diese Aufgabe kommt den Strukture Builder Agent zu. Dieser wertet die relevanten Keywords aus und wartet damit die Wissensstruktur. Neben einer Suche nach lokalen Dokumenten ermöglicht das Hyperwave- 8 http://www.hyperwave.com/ Gütl, Andrews, Maurer 1998 Seite 5 Future Information Harvesting and Processing on the Web Basierte System auch eine intelligentere Wissensauffindung der in Keywords und Volltext der indizierten Gatherer-Daten. Abbildung 2: Intelligentes Wissenssystem durch Kombination des Knowledge Brokers mit dem Hyperwave Based Intelligent Knowledge System. Die Wissensauffindung kann u.a. durch Navigieren in orthogonalen Informationsstrukturen erfolgen. Zu umfangreiche Suchresultate frustrieren den Benutzer (siehe Abschnitt 2). Das vorgestellte System erlaubt es, nur die Anzahl der Treffer nach Server zu unterteilen und weiterführende Hinweise der einzelnen Server anzugeben. Die Praxis zeigt, daß das gesuchte Wissen nicht unbedingt auf einem Dokument zu finden ist. Informationen zu verknüpften Dokumenten müssen berücksichtigt werden, der Hyperrelationalen Information verknüpfter W3-Dokumente. Diese Methode wird im Rahmen dieses Systems ebenfalls integriert. Im Bereich der Ergebnisdarstellung wird am IICM neben den schon genannten zusätzlichen Serverinformationen und der Navigation durch die Informationsstruktur an Visualisierungsmöglichkeiten der Suchergebnisse gearbeitet. Eine Entwicklung von Andrews sind die Information Pyramids [1], die der Visualisierung von großen Hierarchien dienen. Das Plateau stellt das Root-Verzeichnis dar, Unterverzeichnisse stellen sich als aufgesetzte Pyramidenstümpfe dar. Die Größe ist durch die Anzahl der beinhalteten Objekte bestimmt. Die Ähnlichkeit von Dokumenten (Documentcluster) läßt den Wissensraum in Wissensgebiete unterteilen. Mayr zeigt in ihrer Arbeit [11] eine grafische Möglichkeit der Visualisierung von solchen Documentcluster. 4. Ausblick Für den Schritt von der Informationsgesellschaft hin zur Wissensgesellschaft gibt es noch viele Probleme zu lösen. Ein wesentlicher Schritt könnte es sein, das Hierarchische Suchindexverfahren dazu zu verwenden, um über die Nationalen Grenzen hinaus eine EU-weite Wissensdatenbank aufzubauen. Des weiteren wäre es denkbar, durch die verwendeten Metadaten spezialisierte Wissenskataloge zu realisieren. Es muß das Ziel erreicht werden, daß der Benutzer das Wissen erhält, das er nachgefragt hat. 5. Danksagungen Wir danken unseren Kollegen am IICM für Ihre Unterstützung und ihre Beiträge zu dieser Arbeit. Ein besondere Dank gilt Irene Isser, Maria-Luis Lampl, Vanessa Keitl, Bernhard Knögler und Dietmar Neussl. Gütl, Andrews, Maurer 1998 Seite 6 Future Information Harvesting and Processing on the Web Literaturliste [1] Andrews, K.; Wolte, J.; Pichler, M.: Information Pyramids. A New Approach to Visualising Large Hierarchies; Late-Breaking Hot Topic Paper, IEEE Visualization’97, Phoenix, Arizona, Oct. 1997. ftp://ftp.iicm.edu/pub/pabers/ipyr.pdf [2] Brake, D.: Lost in Cyperspace. Networld; New Scientist, IPC Magazines Limited, 28. Jun 1997, http://www.newscientist.com/keysites/networld/lost.html [3] Clyman, J.: Face-Off. Internet Explorer 4.0 vs. Communicator; PC Magazine, 18. Nov 1997, S. 102 [4] Egger, I.: Usability Evaluation of an Instrumented Version of the Harmony Internet Browser; Masters Thesis, IICM, Graz University of Technology, Nov: 1997. ftp://ftp.iicm.edu/pub/papers/iegger.pdf [5] Fichtner, M.: Präzisieren Sie Ihre Anfrage! Internet Professionell, Okt 1997, S. 20 [6] GVU: GUV's 8th WWW User Survey; Graphics, Visualization & Usability Center, College of Computing, Georgia Institute of Technology, Atlanta, http://www.gvu.gatech.edu/user_surveys/ [7] internet magazin: Die Geschichte des Internet; internet magazin, Markt Schwaben Events & Hagedorn GmbH, Jan 1996, S. 100 ff [8] Jeusfeld, M.; Jarke, M.: Suchhilfe für das World Wide Web. Funktionsweise und Metadatenstruktur Wirtschaftsinformatik, Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden, 39 / 1997, S. 491 ff, http://www-i5.informatik.rwth-aachen.de [9] Kostner, M.: The Web Robot Database; http://info.webcrawler.com/mak/projects/robots/active.html (Stand 5.1.98) [10] Leiner, B.; Cerf, V.; Clark, D.; et al: A Brief History of the Internet. Version 3.1, Feb 97 http://info.isoc.org/internet-history/ [11] Mayr, S.: SearchVis: Visualising Search Result Sets Using a Force-Based Method to Form Clusters of Similar Documents; Masters Thesis, IICM, Graz University of Technology, Oct. 1997. [12] Network Wizard: Internet Domain Survey. Number of Hosts and Domains advertised in the DNS; Network Wizard, Jul 97, http://nw.com/zone/WWW/report.html [13] Rieder, J.: Found highway, lost memory; Internet Professionell, Nov 1997, S. 111 [14] RIPE: European Hostcount; RIPE Network Coordination Center, Dez 97, http://www.ripe.net/statistics/hostcount.html [15] Schwartz, M.; Bowman, C.; Danzig, P.: Harvest: A Scalable, Customizable Discovery and Access System. Technical Report CU-CS-732-94; Department of Computer Science University of Colerado, Mrz 1997 Gütl, Andrews, Maurer 1998 Seite 7 Future Information Harvesting and Processing on the Web [16] Search Engine Watch: How Big Are The Search Engines? Search Engine Watch, 13. Jun 97, http://www.searchenginewatch.com/size.htm [17] Search Engine Watch: Media Metrix Search Engine Ratings; Search Engine Watch, Nov 97, http://www.searchenginewatch.com/mediametrix.htm [18] Search Engine Watch: Relevant Knowledge Search Engine Ratings; Search Engine Watch, Nov 97, http://www.searchenginewatch.com/relevant.htm [19] Search Engine Watch: Search EKGs. Site #1; Search Engine Watch, Dez 97, http://www.searchenginewatch.com/ekg1.htm [20] Search Engine Watch: Search Engine Feature Chart; Search Engine Watch, Nov 97, http://www.searchenginewatch.com/features.htm [21] Teuteberg, F.: Effektives Suchen im World Wide Web. Suchdienste und Suchmethoden; Wirtschaftsinformatik, Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden, 39 / 1997, S. 373 ff, http://viadrina.euv-frankfurt-o.de/wi-www/ Gütl, Andrews, Maurer 1998 Seite 8