Word Dokument D[..] - Das IICM - Graz University of Technology

"Future Information Harvesting and Processing
on the Web"
Conference “European Telematics: advancing the information society”
Barcelona, 4-7 February 1998
Christian Gütl Keith Andrews Herman Maurer*
IICM, Graz University of Technology, Austria
Keywords: Hierarchical Search Index, Catalogue, Internet, Search Engine, Knowledge Discovery
Kurzfassung
Die Entwicklung der einfach benutzbaren Web-Browser führt zu einem rapiden Anwachsen der Daten
am Web und damit auch der zur Verfügung stehenden Informationen. Die Anzahl der Web-Server
kann mit 300.000 angenommen werden und die Anzahl der Dokumente erreicht 150 Millionen. Die
Menge der über das Internet zugreifbaren Informationen wächst weiter an und es wird zunehmend
schwieriger, relevante Information aufzufinden. Gegenwärtige Katalogsysteme und Suchmaschinen
genügen den Anforderungen der Benutzer nach nachgefragter Information und zuverlässigem Wissen
nicht. Weitere Suchroboter der Suchdienste verursachen eine Menge an Netz- und Serverbelastung.
Es gilt neue Strategien aus dem gegenwärtigen Standard und zukunftsorientierte Technologien zu
entwickeln. Es gilt viele Fragen zu klären: „Wo bekomme ich Informationen zu einem bestimmten
Thema? Habe ich die richtige (relevante) Information? Wie ist die Qualität der erhaltenen Information?
Wie kann ich eine bestimmte Information wieder finden?“ Wir müssen auf diese Fragen Antworten
finden um Millionen von Benutzern Werkzeuge zu geben, damit diese die Information finden, nach der
sie suchen.
Abstract
The development of easy-to-use web clients and servers is leading to a rapid growth of available information on the web. The number of web servers can be estimated at 300,000 and the number of
documents around 150 million. The volume of internet-accessible information continues to grow and it
is becoming increasingly difficult to locate relevant information. Present indexing systems and search
engines do not satisfy users’ needs for information and reliable knowledge. Additionally, search engine
robots are responsible for a great deal of network traffic and server load. Some new strategies have to
be developed based on present standards and future technologies. Appropriate questions include:
"Where can I get information about a particular topic? Have I found the right (relevant) information?
What is the quality of the received information? How can I find a certain document again?" Answers
have to be found to these questions, if millions of users are to easily find the information they are looking for.
*
[email protected], [email protected], [email protected]
IICM, Schießstattgasse 4a, A-8020 Graz, Austria.
Future Information Harvesting and Processing on the Web
1. Das Internet als Wissensspeicher
Der erste Schritt zum heute weltweit boomenden Internet wurde bereits Anfang der 60er Jahre mit der
Idee der Vernetzung von amerikanischen Forschungseinrichtungen gesetzt. Aber erst mit der
Integration des Internetprotokolls TCP/IP (Transmission Control Protocol / Internet Protocol) in der
Berkeley UNIX Distribution (1983) beginnt die Erfolgsgeschichte des Internets [7]. Bereits zwei Jahre
später unterstützte diese Technologie Wissenschafter und Forscher beim Informationsaustausch und
stellt somit den Beginn der heutigen computerbasierten Kommunikation dar. Gerade der freie, offene
Zugriff auf Informationen kann als ein Schlüsselfaktor genannt werden, der zum rapid Anwachsenden
Internet beigetragen hat. Eine zaghafte Kommerzialisierung des Internets fand schon in den frühen
80er Jahren statt. Unternehmungen integrierten erste Internetfunktionalität (TCP/IP) in ihren
kommerziellen Produkten. In den letzten Jahren entstand ein wahrer Boom und insbesondere das
World Wide Web entwickelt sich zu einem Medium für alle. Dies kann auf die leichte Handhabung der
zur Verfügung stehenden Browser zurückgeführt werden. [10]
Das Internet ist gegenwärtig durch ein rapides Wachstum gekennzeichnet. Nachfolgend soll die
Entwicklung der letzten Jahre und die gegenwärtige Bedeutung aufgezeigt werden. Network Wizard
[12] gibt die Anzahl der Hosts1 weltweit für Juli 1995 mit 6,6 Millionen und für Juli 1997 mit 19,5
Millionen an, davon sind jeweils durch Ping etwa 25% erreichbar. Verfolgt man die Entwicklung, so ist
bis jetzt ein annähernd exponentieller Anstieg erkennbar. Bei PIPE NCC [14] findet man
entsprechende europäische Daten: für Juli 1995 sind 1,7 Millionen Hosts und für Juli 1997 sind 4,8
Millionen Hosts angegeben; der Verlauf ist ebenfalls annähernd exponentiell. Die Anzahl der frei
verfügbaren Dokumente im WWW ist nur durch wage Schätzungen anzugeben. Man könnte jedoch
annehmen, daß sich der Verlauf der Zunahme ähnlich verhalten wird. Bei David Brake [2] findet man
für das Jahr 1995 Angaben von 50 Millionen Seiten und für Mitte 1997 sollen es an die 150 Millionen
sein. Laut Search Engine Watch [16] hat Alta Vista2, einer der größten Informationsdienste,
gegenwärtig etwa 100 Millionen Seiten indiziert. Aufgrund Hardware- und Funktionseinschränkungen
(Frames, Imagemaps sowie dynamischen Webseiten) können nie alle Seiten von einem
Informationsdienst erfaßt werden [16]. Wenn man davon ausgeht, daß Alta Vista nur sehr frequentierte
Websites vollständig zu erfassen versucht [2], und daß eine typische, durchschnittliche
Indexaktualisierung eines bestimmten Webangebotes bei einem Monat liegt [19], kann man davon
ausgehen, daß die tatsächliche Seitenanzahl über 150 Millionen liegen wird.
Die oben genannten Zahlen lassen erkennen, daß im Internet, respektive im WWW, ein riesiger
Informationsspeicher vorhanden ist. Jeusfeld und Jarke [8] sprechen von einem großen, dynamischen
und unstrukturierten Informationsmarkt. Die Dynamik kann durch die ständige Änderung von Inhalten
(aktualisieren, löschen, erstellen) verstanden werden. Durchschnittlich ändert sich eine Web-Seite alle
75 Tage [2]. Hier gilt es Methoden zu entwickeln, damit Wissen nicht unwiederbringlich verloren geht.
Eine große Zahl von Informationsanbietern und –nachfragern treffen im Internet aufeinander. Diese
Informationsvielfalt läßt sich in einer groben Gliederung folgend angeben:
1. Wissenschafts- und Forschungsinformationen
Datenbereitstellung, aufbereitete Ergebnisse
2. Kommerzieller Bereich
Unternehmensinformationen, Dienstleistungen
3. Nonprofit Bereich
Plattform für Organisationen, Homepages Privater Personen
Das Georgia Institute of Technology in Atlanta [6] hat in seiner letzten Studie herausgefunden, daß bei
der Nutzung des WWW die Informationsnachfrage an oberster Stelle steht. Die meistgenannte WebAktivität unter den Befragten ist mit 86% Informationen zu sammeln, gefolgt von Informationssuche mit
63%. Durch diese Bedeutung der Informationsnachfrage kommt dem Internet eine wichtige Rolle als
Network Wizard [12] definiert einen Host wie folgt: „Ein Host ist ein Domain-Name dem eine IPAdresse zugeordnet ist. Das wäre jedes mit dem Internet verbundene Computersystem ...“.
1
2
http://www.altivista.digital.com/
Gütl, Andrews, Maurer
1998
Seite 2
Future Information Harvesting and Processing on the Web
Wissensspeicher zu. Die Aufgabe der Informationsdienste liegt in der Vermittlung hin zu den
Informationsnachfragern.3
Die Unstrukturiertheit der angebotenen Informationen, deren Vielfalt und die rasche Zunahme an
Information macht eine Hilfe zum Auffinden von gewünschten Informationen unerläßlich. In unserer
Gesellschaft wird das rasche Erfassen und zuverlässige Suchen nach gezieltem Wissen zunehmende
Bedeutung erlangen, doch wir müssen von der Informationsgesellschaft hin zu Wissensgesellschaft
gelangen. Diese ist dadurch gekennzeichnet, daß „neben Beschaffung von Informationen auch nach
der Bedeutung der Inhalte gefragt wird ...“ [13]. In dem nachfolgenden Abschnitt sollen die
gegenwärtigen Werkzeuge zur Wissensauffindung untersucht werden.
2. Gegenwärtige Suchdienste – Nutzen und Grenzen
Dieser Abschnitt beschäftigt sich mit der Untersuchung von gegenwärtigen Suchdiensten, deren
Möglichkeiten und Nachteilen. David Brake [2] schreibt: „Eine Bibliothek ist gerade so gut wie der
Index, der die Bücher enthält, und das World Wide Web ist nur so nützlich, wie die angebotenen
Suchmaschinen“.
Eine generelle Unterscheidung der Suchdienste läßt sich nach der Form der Datenakquisition treffen:


Automatische Datenakquisition
Manuelle Datenakquisition durch Anmelden
Die automatische Datenakquisition erfolgt durch einen Roboter bzw. Bots und Spider, die
Webinhalte extrahieren sowie weiterführende Verknüpfungen zu anderen Inhalten verfolgen. Die
erhaltenen Informationen werden in einen Datenbankindex aufgenommen [21][2]. Mit dieser Methode
wird es möglich, einen umfangreichen Datenindex von bis zu 100 Millionen Seiteninformationen
aufzubauen [20] (siehe auch Tabelle 1). Nachteile sind u.a. die geringe Relevanz des Suchergebnisses
[18] (siehe auch Tabelle 1) sowie ein unvollständiges, unaktuelles Abbild von Web-Sites (vgl. Abschnitt
1).
Suchdienst
Seiten in Mil.
Relevanzkennziffer
Exite
Infoseek
Lycos
Alta Vista
Web Crawler
55
9
30
7,8
30
5,9
100
4,3
2
3,2
Tabelle 1: Auswahl von Major Players: Anzahl der indizierten Seiten und Angaben über die Relevanz der
Suchergebnisse
Die Verschiedenheit der Dokumente, unzureichende Benutzerschnittstellen und angewandte
Techniken (Suche mit logischen Verknüpfungen, kein oder unzureichendes Einbeziehen von
inhaltlichen Zusammenhängen) führt oftmals zu unbefriedigenden Ergebnissen. Fichtinger [5] bringt es
auf den Punkt: „90% aller Such-Versuche führen zu nicht endenwollenden Auflistungen der
unmöglichsten Webseiten, die rein zufällig das angegebene Stichwort enthalten, die mit dem
gewünschten Thema jedoch nichts zu tun haben – Treffer sind reine Glückssache.“ Weitere Nachteile
sind durch veraltete Duplikate und Phantomkopien gegeben (ein und das selbe Dokument ist über
mehrere URL-Adressen zugreifbar) [8]. Suchroboter belasten jedoch auch das Netz und die jeweiligen
Server. In einer Auflistung von Kostner [9] sind 160 Suchrobots genannt. Durch das parallele
Absuchen des Internets von zunehmend vielen Suchrobotern würde die Netzbelastung aber auch die
Serverbelastung in dramatischem Ausmaß zunehmen.
Die manuelle Datenakquisition der Web-Inhalte erfolgt durch Anmelden neuer Seiten von den
Autoren selbst oder durch Lektoren. Diese Verzeichnisbasierten Suchdienste bieten die Möglichkeit
zur Stichwortsuche in hierarchisch aufgebauten Themenlisten [21]. Ein typischer Vertreter dafür ist der
Suchdienst Yahoo4. Entsprechend einer Untersuchung von Media Metrix [17] liegt Yahoo mit einer
Nutzungshäufigkeit von 40% an erster Stelle vor den roboterbasierten Suchdiensten. Die
3
Die vorhandenen Publish-Tools ermöglichen das einfache Publizieren im WWW. Netscape und
Microsoft liefern bereits Tools mit ihren 4.x-Webclients mit [3].
4
http://www.yahoo.com/
Gütl, Andrews, Maurer
1998
Seite 3
Future Information Harvesting and Processing on the Web
Relevanzkennziffer wird von Media Metrix [18] mit 17 angegeben und liegt auch damit an erster Stelle.
Nachteile dieses Systems sind Unvollständigkeit und manuelle Bearbeitung. Die Vorteile sind durch die
Möglichkeit der hierarchischen Wissensauffindung und durch gezielte Suche einschlägiger Information
in speziellen Katalogen [21] gegeben. Die hohe Nutzungshäufigkeit und hohe Relevanzkennziffer
deuten darauf hin, daß die Benutzer lieber durch Informationsverzeichnisse navigieren. (vgl. auch [4] )
Darüber hinaus gibt es Metasuchdienste, die ihre Informationen aus mehreren Suchdiensten
zusammenfassen und diese zur Verfügung stellen. Ein weiterer interessanter Ansatz ist ALIWEB.
Dieser Dienst basiert auf der Kombination von manueller Erstellung von lokalen Indizes und der
automatischen Suche dieser von ALIWEB [21]. In der letzen Zeit haben sich vermehrt personalisierte
Suchdienste etabliert. Dieses System basiert auf Kenntnissen über Interessen der Benutzer
(Persönlichkeitsprofil, Bewertungssysteme bzw. Collaborative Filtering) [21]. Des weiteren werden
vermehrt Intelligente Agenten zur Suche im WWW eingesetzt (siehe Hotbot5). Insbesondere die
beiden letztgenannten Ansätze scheinen in Richtung Wissensgesellschaft zu weisen.
Die rasante Zunahme von potentieller Information im Web sowie die Beschränkungen bei der
vollständigen und rechtzeitigen Erfassung durch Hardware und angewandte Technologien (siehe
Abschnitt 1), die relativ geringe Trefferrelevanz und die immer stärker werdenden Netz- und
Serverbelastungen verlangen nach neuen Verfahren. Mit einbezogen werden sollten Möglichkeiten zur
Qualitätsbeurteilung der jeweiligen Wissensquelle und die Berücksichtigung der Vielzahl an Sprachen.
Jeusfeld und Jarke [8] schreiben in der Betrachtung zum globalen Informationsmarkt abschließend:
„Heutige Suchmaschinen und Informationskataloge sind nur ein erster Schritt, Ordnung in das
Informationschaos zu bringen“. Mögliche weitere Schritte hin zur Wissensgesellschaft sind im
Abschnitt 3 aufgezeigt.
3. Zukunftsorientierte intelligente Wissensauffindung
Dieser Abschnitt zeigt Arbeiten und Vorschläge im Bereich intelligenter Wissenserfassung und
Wissensauffindung am IICM6. Das vorliegende System wird Hiks genannt. Ausgangspunkt der
Überlegungen sind die ansteigenden Netz- und Serverbelastungen, die durch die gegenwärtigen
Suchroboter hervorgerufen werden. Es muß vermieden werden, daß ein und dieselben Webinhalte
von mehr und mehr Robots abgesucht werden. Die Antwort ist ein verteilter Suchindex, der
kaskadierbar Informationen weiterreicht. Damit ist ein hierarchisches Wissenssystem möglich, das
Hierarchische Suchindexverfahren. Diese Technik baut auf dem Harvest-Forschungsprojekt [15] auf.
Grundidee des Hierarchischen Suchindexverfahren (siehe Abbildung 1) ist es, daß lokale
Serverinhalte mittels Local Gatherers abgesucht und indiziert werden bzw. daß Area Gatherers
mehrere Webserver in einem begrenzten Bereich absuchen und indizieren. Diese Indizes stehen dann
auf Abruf den nachfolgenden Einheiten - den Knowledge Brokern - zur Verfügung. Knowledge Broker
können ihrerseits wieder Informationen an weitere Einheiten weiterreichen, es liegt also ein
kaskadierbares System vor. Mit diesem Verfahren wird es damit möglich die Netz- und
Serverbelastungen zu reduzieren, da jeder Web-Server nur noch einmal durchsucht werden muß. Die
Funktionsweise soll an Hand des Local Gatherer‘s besprochen werden, für den Area Gatherer gilt
Analoges. Ausgangspunkt der Betrachtung ist ein lokaler Web-Server. Dessen Inhalt wird in
periodischen Abständen vom Local Gatherer abgesucht. Neue Dokumente werden in einen
Dokumentenindex mit der entsprechenden Gültigkeitsdauer eingetragen und die Dokumentdaten
werden ebenfalls indiziert. Ändert sich das Dokument bei weiteren Durchläufen nicht, so wird nur
jeweils die Gültigkeitsdauer angepaßt, bei Veränderungen wird zusätzlich der Datenindex aktualisiert.
Wird ein Dokument vom Server gelöscht, so werden dessen Daten durch Ablauf der Gültigkeitsdauer
vom Datenindex entfernt. Im Datenindex sind neben den Dokumentinhalten7 zusätzliche Informationen
hinzugefügt, die sich aus den Metadaten des Dokumentes (z.B. Titel, Autor, Erstellungsdatum), aus
den Systemdaten (z.B. Indizierungszeitpunkt, ObjektID) und zusätzlich generierte Daten
zusammensetzen. Der Keyword Builder extrahiert aus dem Inhalt (z.B. Überschriften, Titel)
5
http://www.botspot.com/
6
http.//www.iicm.edu/
7
Zur Zeit werden nur HTML und Textdokumente indiziert. Durch Aufsetzen entsprechender Filter
können jedoch leicht weitere Dokumenttypen indiziert werden.
Gütl, Andrews, Maurer
1998
Seite 4
Future Information Harvesting and Processing on the Web
Schlüsselwörter, die beispielsweise auch zur automatische Beschlagwortung von Dokumenten
verwendet werden können. Der Description Builder extrahiert aus dem Inhalt eine Kurzbeschreibung.
Die beiden zusätzlich gewonnenen Informationen stehen bei den Suchanfragen und auch bei der
Resultatsdarstellung zur Verfügung. Zusätzlich werden auf den Seiten enthaltene Linkdaten sowie
Informationen über Bilder und sonstige eingebundene Objekte in den Index aufgenommen. Des
weiteren werden auch Javascript, Javaappletes und Active-X-Controls berücksichtigt. Damit wird es
möglich, auch diese Informationen in die Suchabfragen zu integrieren und in den Suchergebnissen zu
visualisieren.
Abbildung 1: Das Hierarchische Suchindexverfahren läßt sich in Kaskaden anordnen. Grundelemente sind der
Local Gatherer für einzelne Server und der Area Gatherer für Web-Server eines bestimmten
Bereiches.
Knowledge Broker (siehe Abbildung 2) können nun auf den Datenindex zugreifen. Es können entweder
alle Daten des Gatherer Indexes übertragen werden oder nur die Veränderungen seit eines definierten
Zeitpunktes (inkrementeller Wissens-Up-Date). Die Übertragung kann zusätzlich komprimiert erfolgen
und erwirkt eine zusätzliche Verringerung der Netzbelastung. Der Vorteil dieses Systems ist es
jedenfalls, daß der Knowledge Broker immer aktuelle Daten haben kann. Die Daten werden wahlweise
in einem erweiterten SOIF-Format (basierend auf Summary Object Interchange Format [15] ) oder in
einem XML-basierten bzw. MCF-basierten Format zu Verfügung gestellt. Der Knowledge Broker faßt
die Daten aus mehreren Gatherern bzw. auch anderen Brokern in seinem lokalen Index zusammen
und hält sie für Anfragen bereit. Der Relevance Keyword Builder filtert in Abhängigkeit von dem
Dokumentenbestand die relevanten Schlüsselwörter je Dokument aus und stellt diese für
Suchanfragen und weitere Anwendungen zu Verfügung. Es wird neben den Dokumentdaten
zusätzliche Information über die einzelnen Web-Server bzw. die einzelnen Web-Sites indiziert. Diese
Informationen ermöglichen eine gezielte Suche nach Servern mit besonderen Inhalten bzw. kann für
einen dynamisch erstellten Serverindex verwendet werden. In dem vorgestellten Projekt werden diese
Informationen auch bei der Ergebnisvisualiserung verwendet.
Eine geplante Erweiterung zur intelligenten Wissensauffindung ist das Hyperwave Based Intelligent
Knowledge System. Hyperwave8 ist ein objektorientiertes Dokument- und Datenverwaltungssystem.
Neben einer lokalen Volltextsuche (alle Objekte sind in einer Datenbank und volltext-indiziert) bietet
Hyperwave ein intelligentes Strukturmanagement (Collectionstruktur), die es gestattet, einen
hirarchischen Suchkatalog aufzubauen. Benutzer bevorzugen die Wissensauffindung durch navigieren
(siehe Abschnitt 2). Die konkrete Umsetzung könnte durch vordefinierte Suchabfragen in den
jeweiligen Collections erfolgen, dem Information Strukture Navigation. Um den Wartungsaufwand zu
reduzieren, ist es notwendig die Struktur automatisiert aufzubauen und zu aktualisieren. Diese Aufgabe
kommt den Strukture Builder Agent zu. Dieser wertet die relevanten Keywords aus und wartet damit
die Wissensstruktur. Neben einer Suche nach lokalen Dokumenten ermöglicht das Hyperwave-
8
http://www.hyperwave.com/
Gütl, Andrews, Maurer
1998
Seite 5
Future Information Harvesting and Processing on the Web
Basierte System auch eine intelligentere Wissensauffindung der in Keywords und Volltext der
indizierten Gatherer-Daten.
Abbildung 2: Intelligentes Wissenssystem durch Kombination des Knowledge Brokers mit dem Hyperwave
Based Intelligent Knowledge System. Die Wissensauffindung kann u.a. durch Navigieren in
orthogonalen Informationsstrukturen erfolgen.
Zu umfangreiche Suchresultate frustrieren den Benutzer (siehe Abschnitt 2). Das vorgestellte System
erlaubt es, nur die Anzahl der Treffer nach Server zu unterteilen und weiterführende Hinweise der
einzelnen Server anzugeben. Die Praxis zeigt, daß das gesuchte Wissen nicht unbedingt auf einem
Dokument zu finden ist. Informationen zu verknüpften Dokumenten müssen berücksichtigt werden, der
Hyperrelationalen Information verknüpfter W3-Dokumente. Diese Methode wird im Rahmen dieses
Systems ebenfalls integriert.
Im Bereich der Ergebnisdarstellung wird am IICM neben den schon genannten zusätzlichen
Serverinformationen
und
der
Navigation
durch
die
Informationsstruktur
an
Visualisierungsmöglichkeiten der Suchergebnisse gearbeitet. Eine Entwicklung von Andrews sind die
Information Pyramids [1], die der Visualisierung von großen Hierarchien dienen. Das Plateau stellt
das Root-Verzeichnis dar, Unterverzeichnisse stellen sich als aufgesetzte Pyramidenstümpfe dar. Die
Größe ist durch die Anzahl der beinhalteten Objekte bestimmt. Die Ähnlichkeit von Dokumenten
(Documentcluster) läßt den Wissensraum in Wissensgebiete unterteilen. Mayr zeigt in ihrer Arbeit [11]
eine grafische Möglichkeit der Visualisierung von solchen Documentcluster.
4. Ausblick
Für den Schritt von der Informationsgesellschaft hin zur Wissensgesellschaft gibt es noch viele
Probleme zu lösen. Ein wesentlicher Schritt könnte es sein, das Hierarchische Suchindexverfahren
dazu zu verwenden, um über die Nationalen Grenzen hinaus eine EU-weite Wissensdatenbank
aufzubauen. Des weiteren wäre es denkbar, durch die verwendeten Metadaten spezialisierte
Wissenskataloge zu realisieren. Es muß das Ziel erreicht werden, daß der Benutzer das Wissen
erhält, das er nachgefragt hat.
5. Danksagungen
Wir danken unseren Kollegen am IICM für Ihre Unterstützung und ihre Beiträge zu dieser Arbeit. Ein
besondere Dank gilt Irene Isser, Maria-Luis Lampl, Vanessa Keitl, Bernhard Knögler und Dietmar
Neussl.
Gütl, Andrews, Maurer
1998
Seite 6
Future Information Harvesting and Processing on the Web
Literaturliste
[1]
Andrews, K.; Wolte, J.; Pichler, M.:
Information Pyramids. A New Approach to Visualising Large Hierarchies;
Late-Breaking Hot Topic Paper, IEEE Visualization’97, Phoenix, Arizona, Oct. 1997.
ftp://ftp.iicm.edu/pub/pabers/ipyr.pdf
[2]
Brake, D.:
Lost in Cyperspace. Networld;
New Scientist, IPC Magazines Limited, 28. Jun 1997,
http://www.newscientist.com/keysites/networld/lost.html
[3]
Clyman, J.:
Face-Off. Internet Explorer 4.0 vs. Communicator;
PC Magazine, 18. Nov 1997, S. 102
[4]
Egger, I.:
Usability Evaluation of an Instrumented Version of the Harmony Internet Browser;
Masters Thesis, IICM, Graz University of Technology, Nov: 1997.
ftp://ftp.iicm.edu/pub/papers/iegger.pdf
[5]
Fichtner, M.:
Präzisieren Sie Ihre Anfrage!
Internet Professionell, Okt 1997, S. 20
[6]
GVU:
GUV's 8th WWW User Survey;
Graphics, Visualization & Usability Center, College of Computing, Georgia Institute of Technology, Atlanta,
http://www.gvu.gatech.edu/user_surveys/
[7]
internet magazin:
Die Geschichte des Internet;
internet magazin, Markt Schwaben Events & Hagedorn GmbH, Jan 1996, S. 100 ff
[8]
Jeusfeld, M.; Jarke, M.:
Suchhilfe für das World Wide Web. Funktionsweise und Metadatenstruktur
Wirtschaftsinformatik, Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden, 39 / 1997, S.
491 ff, http://www-i5.informatik.rwth-aachen.de
[9]
Kostner, M.:
The Web Robot Database;
http://info.webcrawler.com/mak/projects/robots/active.html (Stand 5.1.98)
[10] Leiner, B.; Cerf, V.; Clark, D.; et al:
A Brief History of the Internet. Version 3.1, Feb 97
http://info.isoc.org/internet-history/
[11] Mayr, S.:
SearchVis: Visualising Search Result Sets Using a Force-Based Method to Form Clusters of Similar
Documents;
Masters Thesis, IICM, Graz University of Technology, Oct. 1997.
[12] Network Wizard:
Internet Domain Survey. Number of Hosts and Domains advertised in the DNS;
Network Wizard, Jul 97, http://nw.com/zone/WWW/report.html
[13] Rieder, J.:
Found highway, lost memory;
Internet Professionell, Nov 1997, S. 111
[14] RIPE:
European Hostcount; RIPE Network Coordination Center, Dez 97,
http://www.ripe.net/statistics/hostcount.html
[15] Schwartz, M.; Bowman, C.; Danzig, P.:
Harvest: A Scalable, Customizable Discovery and Access System. Technical Report CU-CS-732-94;
Department of Computer Science University of Colerado, Mrz 1997
Gütl, Andrews, Maurer
1998
Seite 7
Future Information Harvesting and Processing on the Web
[16] Search Engine Watch:
How Big Are The Search Engines?
Search Engine Watch, 13. Jun 97, http://www.searchenginewatch.com/size.htm
[17] Search Engine Watch:
Media Metrix Search Engine Ratings;
Search Engine Watch, Nov 97, http://www.searchenginewatch.com/mediametrix.htm
[18] Search Engine Watch:
Relevant Knowledge Search Engine Ratings;
Search Engine Watch, Nov 97, http://www.searchenginewatch.com/relevant.htm
[19] Search Engine Watch:
Search EKGs. Site #1;
Search Engine Watch, Dez 97, http://www.searchenginewatch.com/ekg1.htm
[20] Search Engine Watch:
Search Engine Feature Chart;
Search Engine Watch, Nov 97, http://www.searchenginewatch.com/features.htm
[21] Teuteberg, F.:
Effektives Suchen im World Wide Web. Suchdienste und Suchmethoden;
Wirtschaftsinformatik, Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden, 39 / 1997, S.
373 ff, http://viadrina.euv-frankfurt-o.de/wi-www/
Gütl, Andrews, Maurer
1998
Seite 8