Analyse gegenwärtiger Suchdienste und Konzepte für künftige Wissensauffindung Diplomarbeit von Harald Erich Forstinger Juli 1999 Begutachter: o.Univ.-Prof. Dr. phil. Dr. h.c. Hermann Maurer Betreuer: Dipl.-Ing. Christian Gütl Institut für Informationsverarbeitung und Computergestützte neue Medien der Technischen Universität Graz Kurzfassung Das WWW stellt ein gewaltiges, globales Informationsnetz dar, deren Größe und unstrukturierter Aufbau es nahezu unmöglich machen, auf herkömmliche Weise zu relevanten Informationen zu kommen. Im Verlauf dieser Arbeit werden die unterschiedlichen Lösungsansätze für Suchhilfen im WWW aufgezeigt und deren Eigenschaften beschrieben. Im Zuge dessen werden wichtige Begriffe aus dem Umfeld dieses Gebietes erklärt und allgemeingültige Probleme, mit denen jede mögliche Realisierung einer Suchhilfe konfrontiert ist, aufgezeigt. Ein besonderer Augenmerk soll dabei auf existierende Suchhilfen fallen, die als Beispiele im jeweiligen Abschnitt vorgestellt werden. Soweit möglich wird dabei auf technische Details eingegangen. Die besprochenen Ansätze zeigen große Unterschiede in Hinsicht von Eigenschaften wie etwa Aktualität, Datenaufbereitung, Datenumfang oder Qualität und Relevanz der Suchergebnisse. Durch die Betrachtung der unterschiedlichen Lösungsansätze für Suchhilfen im WWW und deren Schwachstellen sollen die weitgestreuten Möglichkeiten, die dem Benutzer gegeben sind, aufgezeigt werden. Aus der Analyse dieser Möglichkeiten ergibt sich somit ein Bild der sinnvollen Weiterentwicklung für die nahe Zukunft. Daran anschließend sollen als Ausblick mögliche Szenarien diskutiert werden. Abstract The WWW represents a huge, global information network. Its amorphous structure makes it more and more impossible to find relevant information in a conventional way. During this work, different approaches for search services and their features will be introduced. Important terms will be explained und important problems will be shown. As far as possible, technical details will be discussed. The attention will be directed on existing search services, and each chapter will contain examples. As far as possible, technical details will be shown. The presented approaches differ one below the other regarding to their characteristics e.g., topicality, data preparation, data size, relevance or quality of service. Looking at these approaches for search services in the WWW and their weak points, users can overlook the wide possibilities. Analysing these approaches, a scene of the near future and the necessary improvements can be drawn. Following, a probable scenario for the far future will be shown. Ich versichere diese Arbeit selbständig verfaßt, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu haben. Danksagung An dieser Stelle möchte ich mich bei all jenen Bedanken, die mir beim Erstellen dieser Arbeit mit Trost und Hilfe zur Seite standen: Allen voran o.Univ.-Prof. Dr. phil. Dr. h.c. Hermann Maurer, Leiter des Instituts für Informationsverarbeitung und computergestützte neue Medien (IICM) und Begutachter dieser Arbeit sowie mein Betreuer Dipl.-Ing. Christian Gütl, der mir durch wiederholtes Korrekturlesen und durch die Beschaffung von neuen Informationsmaterialien unsägliche "Suchdienste" geleistet hat. Mein Dank gilt auch allen Mitarbeitern des Institutes, die mich mit Rat und Tat unterstützt haben. Besonderen Dank gilt auch meiner Mutter, Meralinde Forstinger, die mein Studium erst ermöglichte, und meiner besseren Hälfte Melanie. Ressourcen im Internet Diese Arbeit beruht fast vollständig auf Referenzen, die aus dem WWW stammen. Auch alle Konzepte und Beispiele für Suchdienste, die in dieser Arbeit vorgestellt werden, stammen aus dem WWW und sind dort frei abrufbar. Da sich darunter auch Quellen befinden, bei denen nicht sichergestellt werden kann, daß eine nicht-elektronisch gespeicherte Kopie existiert und eventuell verfügbart ist, sind diese Quellen im Anhang beigefügt. Inhaltsverzeichnis 1. Einleitung ...........................................................................................................1 2. Statistische Daten und grundlegende Begriffe ............................................... 3 2.1 Statistik .................................................................................................. 3 2.1.1 Internet in Zahlen ................................................................ 3 2.1.2 Sozialdemographie der Interntuser ......................................6 2.2 Begriffserklärung ................................................................................. 9 2.2.1 Grundbegriffe ...................................................................... 9 2.2.2 Weitere suchdienstrelevante Begriffe und Definitionen .... 12 2.2.3 Einteilung von gängigen Suchdiensten ............................... 16 2.2.4 Übersicht von weiterführend behandelten Suchhilfen ........ 17 2.3 Zusammenfassung ................................................................................. 20 3. Roboterbasierte Suchdienste ........................................................................... 21 3.1 Einleitung .............................................................................................. 21 3.1.1 Allgemeiner Datenzugriff ...................................................... 21 3.1.2 Automatisches Indexieren ...................................................... 21 3.1.3 Suchabfrage ............................................................................ 22 3.2 Anforderungen und Bewertungskriterien .............................................. 23 3.2.1 Kritikpunkte und Probleme existierender Suchdienste .......... 23 3.2.2 Kriterien zur Auswahl von Suchdiensten ............................... 27 3.3 Übersicht der wichtigsten roboterbasierten Suchdienste ..................... 28 3.3.1 Alta Vista ............................................................................... 29 3.3.2 Excite ..................................................................................... 32 3.3.3 Google .................................................................................... 34 3.3.4 Hotbot .....................................................................................38 3.3.5 Infoseek .................................................................................. 41 3.3.6 Lycos ...................................................................................... 43 3.3.7 Northern Light ........................................................................45 3.4 Übersichtstabelle .................................................................................. 47 3.5 Zusammenfassung ................................................................................. 50 4. Recommendation Systems ............................................................................... 51 4.1 Einleitung .............................................................................................. 51 4.2 Collaborative Filtering ......................................................................... 52 4.2.1 Automated Collaborative Filtering (ACF) ............................. 52 4.2.2 Perspektiven ........................................................................... 53 4.3 Anbieter und Anwendungen .................................................................. 53 4.3.1 Firefly Network ...................................................................... 54 4.3.2 LikeMinds Preference Server .................................................55 4.3.3 GroupLens Recommendation Engine .................................... 56 4.3.4 WiseWire ............................................................................... 58 4.3.5 Weitere Ansätze ..................................................................... 60 4.3.6 Censorship Systems (Schutz Minderjähriger) ........................ 62 4.4 Zusammenfassung ................................................................................. 65 5. Intelligente Agenten .......................................................................................... 66 5.1 Einleitung .............................................................................................. 66 5.1.1 Ansätze zur Definition Intelligenter Agenten ........................ 66 5.1.2 Anwendungsgebiete Intelligenter Agenten ............................ 68 5.2 Agenten zur Wissensauffindung im WWW ............................................ 69 5.2.1 Browsing-Assistenten ............................................................ 69 5.2.2 Building Agents und Informationsfilter ................................. 70 5.3 Beispiele von Agenten zur Wissensauffindung ...................................... 70 5.3.1 BASAR .................................................................................. 70 5.3.2 Letizia ..................................................................................... 72 5.3.3 Webmate ................................................................................ 74 5.3.4 Webwatcher ........................................................................... 75 5.4 Zusammenfassung ................................................................................. 76 6. Push-Technologie .............................................................................................. 78 6.1 Einleitung .............................................................................................. 78 6.2 Funktionsweise ......................................................................................79 6.2.1 Einleitung ............................................................................... 79 6.2.2 Unicast-Verfahren .................................................................. 80 6.2.3 Multicast-Verfahren ............................................................... 82 6.2.4 Einsatz anderer Übertragungsverfahren ................................. 84 6.3 Eigenschaften von Push-Applikationen ................................................ 86 6.3.1 Vergleichskriterien ................................................................. 86 6.3.2 Eigenschaften und Vorteile .................................................... 87 6.4 Zusammenfassung ................................................................................. 91 7. Weitere Ansätze zur Wissensauffindung ........................................................ 92 7.1 Einleitung .............................................................................................. 92 7.2 Clearinghouses ..................................................................................... 92 7.2.1 Einleitung ............................................................................... 92 7.2.2 Merkmale eines Clearinghouses ............................................ 93 7.2.3 Zusammenfassung .................................................................. 95 7.3 Datamining ........................................................................................... 96 7.3.1 Einleitung ............................................................................... 96 7.3.2 Aspekte und Modelle des Datamining ................................... 96 7.3.3 Datamining im WWW ........................................................... 98 7.3.4 Zusammenfassung .................................................................. 99 7.4 Katalogsuchdienste ............................................................................... 99 7.4.1 Einleitung ............................................................................... 99 7.4.2 Charakteristika von Katalogsuchdiensten .............................. 101 7.4.3 Zusammenfassung .................................................................. 105 8. Perspektiven für zukünftige Systeme ............................................................. 106 8.1 Einleitung .............................................................................................. 106 8.2 Entwicklung neuer Datennetze ............................................................. 108 8.2.1 Einleitung ............................................................................... 108 8.2.2 Initiativen für leistungsfähigere Datennetze .......................... 109 8.3 Zukunftsperspektiven ............................................................................ 110 8.3.1 Der Lebenszyklus einer Technologie ..................................... 110 8.3.2 Die nahe Zukunft ................................................................... 111 8.3.3 Mediennutzung in der Zukunft .............................................. 112 8.3.4 Theorien für künftige Computerentwicklungen ..................... 112 8.4 Zusammenfassung ................................................................................. 115 9. Zusammenfassung ............................................................................................ 117 10. Anhang ............................................................................................................ 121 10.1 Quellenverzeichnis .............................................................................. 121 10.2 Bildverzeichnis .................................................................................... 127 10.3 Tabellenverzeichnis .............................................................................130