Ressourcen im Internet

Werbung
Analyse gegenwärtiger Suchdienste und
Konzepte für künftige Wissensauffindung
Diplomarbeit von Harald Erich Forstinger
Juli 1999
Begutachter: o.Univ.-Prof. Dr. phil. Dr. h.c. Hermann Maurer
Betreuer:
Dipl.-Ing. Christian Gütl
Institut für Informationsverarbeitung und
Computergestützte neue Medien der
Technischen Universität Graz
Kurzfassung
Das WWW stellt ein gewaltiges, globales Informationsnetz dar, deren Größe und
unstrukturierter Aufbau es nahezu unmöglich machen, auf herkömmliche Weise zu relevanten
Informationen zu kommen. Im Verlauf dieser Arbeit werden die unterschiedlichen
Lösungsansätze für Suchhilfen im WWW aufgezeigt und deren Eigenschaften beschrieben.
Im Zuge dessen werden wichtige Begriffe aus dem Umfeld dieses Gebietes erklärt und
allgemeingültige Probleme, mit denen jede mögliche Realisierung einer Suchhilfe
konfrontiert ist, aufgezeigt.
Ein besonderer Augenmerk soll dabei auf existierende Suchhilfen fallen, die als Beispiele im
jeweiligen Abschnitt vorgestellt werden. Soweit möglich wird dabei auf technische Details
eingegangen. Die besprochenen Ansätze zeigen große Unterschiede in Hinsicht von
Eigenschaften wie etwa Aktualität, Datenaufbereitung, Datenumfang oder Qualität und
Relevanz der Suchergebnisse.
Durch die Betrachtung der unterschiedlichen Lösungsansätze für Suchhilfen im WWW und
deren Schwachstellen sollen die weitgestreuten Möglichkeiten, die dem Benutzer gegeben
sind, aufgezeigt werden. Aus der Analyse dieser Möglichkeiten ergibt sich somit ein Bild der
sinnvollen Weiterentwicklung für die nahe Zukunft. Daran anschließend sollen als Ausblick
mögliche Szenarien diskutiert werden.
Abstract
The WWW represents a huge, global information network. Its amorphous structure makes it
more and more impossible to find relevant information in a conventional way. During this
work, different approaches for search services and their features will be introduced. Important
terms will be explained und important problems will be shown. As far as possible, technical
details will be discussed.
The attention will be directed on existing search services, and each chapter will contain
examples. As far as possible, technical details will be shown. The presented approaches differ
one below the other regarding to their characteristics e.g., topicality, data preparation, data
size, relevance or quality of service.
Looking at these approaches for search services in the WWW and their weak points, users can
overlook the wide possibilities. Analysing these approaches, a scene of the near future and the
necessary improvements can be drawn. Following, a probable scenario for the far future will
be shown.
Ich versichere diese Arbeit selbständig verfaßt, andere als die angegebenen Quellen und
Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu
haben.
Danksagung
An dieser Stelle möchte ich mich bei all jenen Bedanken, die mir beim Erstellen dieser Arbeit
mit Trost und Hilfe zur Seite standen:
Allen voran o.Univ.-Prof. Dr. phil. Dr. h.c. Hermann Maurer, Leiter des Instituts für
Informationsverarbeitung und computergestützte neue Medien (IICM) und Begutachter dieser
Arbeit sowie mein Betreuer Dipl.-Ing. Christian Gütl, der mir durch wiederholtes
Korrekturlesen und durch die Beschaffung von neuen Informationsmaterialien unsägliche
"Suchdienste" geleistet hat. Mein Dank gilt auch allen Mitarbeitern des Institutes, die mich
mit Rat und Tat unterstützt haben.
Besonderen Dank gilt auch meiner Mutter, Meralinde Forstinger, die mein Studium erst
ermöglichte, und meiner besseren Hälfte Melanie.
Ressourcen im Internet
Diese Arbeit beruht fast vollständig auf Referenzen, die aus dem WWW stammen. Auch alle
Konzepte und Beispiele für Suchdienste, die in dieser Arbeit vorgestellt werden, stammen aus
dem WWW und sind dort frei abrufbar.
Da sich darunter auch Quellen befinden, bei denen nicht sichergestellt werden kann, daß eine
nicht-elektronisch gespeicherte Kopie existiert und eventuell verfügbart ist, sind diese
Quellen im Anhang beigefügt.
Inhaltsverzeichnis
1. Einleitung ...........................................................................................................1
2. Statistische Daten und grundlegende Begriffe ............................................... 3
2.1 Statistik .................................................................................................. 3
2.1.1 Internet in Zahlen ................................................................ 3
2.1.2 Sozialdemographie der Interntuser ......................................6
2.2 Begriffserklärung ................................................................................. 9
2.2.1 Grundbegriffe ...................................................................... 9
2.2.2 Weitere suchdienstrelevante Begriffe und Definitionen .... 12
2.2.3 Einteilung von gängigen Suchdiensten ............................... 16
2.2.4 Übersicht von weiterführend behandelten Suchhilfen ........ 17
2.3 Zusammenfassung ................................................................................. 20
3. Roboterbasierte Suchdienste ........................................................................... 21
3.1 Einleitung .............................................................................................. 21
3.1.1 Allgemeiner Datenzugriff ...................................................... 21
3.1.2 Automatisches Indexieren ...................................................... 21
3.1.3 Suchabfrage ............................................................................ 22
3.2 Anforderungen und Bewertungskriterien .............................................. 23
3.2.1 Kritikpunkte und Probleme existierender Suchdienste .......... 23
3.2.2 Kriterien zur Auswahl von Suchdiensten ............................... 27
3.3 Übersicht der wichtigsten roboterbasierten Suchdienste ..................... 28
3.3.1 Alta Vista ............................................................................... 29
3.3.2 Excite ..................................................................................... 32
3.3.3 Google .................................................................................... 34
3.3.4 Hotbot .....................................................................................38
3.3.5 Infoseek .................................................................................. 41
3.3.6 Lycos ...................................................................................... 43
3.3.7 Northern Light ........................................................................45
3.4 Übersichtstabelle .................................................................................. 47
3.5 Zusammenfassung ................................................................................. 50
4. Recommendation Systems ............................................................................... 51
4.1 Einleitung .............................................................................................. 51
4.2 Collaborative Filtering ......................................................................... 52
4.2.1 Automated Collaborative Filtering (ACF) ............................. 52
4.2.2 Perspektiven ........................................................................... 53
4.3 Anbieter und Anwendungen .................................................................. 53
4.3.1 Firefly Network ...................................................................... 54
4.3.2 LikeMinds Preference Server .................................................55
4.3.3 GroupLens Recommendation Engine .................................... 56
4.3.4 WiseWire ............................................................................... 58
4.3.5 Weitere Ansätze ..................................................................... 60
4.3.6 Censorship Systems (Schutz Minderjähriger) ........................ 62
4.4 Zusammenfassung ................................................................................. 65
5. Intelligente Agenten .......................................................................................... 66
5.1 Einleitung .............................................................................................. 66
5.1.1 Ansätze zur Definition Intelligenter Agenten ........................ 66
5.1.2 Anwendungsgebiete Intelligenter Agenten ............................ 68
5.2 Agenten zur Wissensauffindung im WWW ............................................ 69
5.2.1 Browsing-Assistenten ............................................................ 69
5.2.2 Building Agents und Informationsfilter ................................. 70
5.3 Beispiele von Agenten zur Wissensauffindung ...................................... 70
5.3.1 BASAR .................................................................................. 70
5.3.2 Letizia ..................................................................................... 72
5.3.3 Webmate ................................................................................ 74
5.3.4 Webwatcher ........................................................................... 75
5.4 Zusammenfassung ................................................................................. 76
6. Push-Technologie .............................................................................................. 78
6.1 Einleitung .............................................................................................. 78
6.2 Funktionsweise ......................................................................................79
6.2.1 Einleitung ............................................................................... 79
6.2.2 Unicast-Verfahren .................................................................. 80
6.2.3 Multicast-Verfahren ............................................................... 82
6.2.4 Einsatz anderer Übertragungsverfahren ................................. 84
6.3 Eigenschaften von Push-Applikationen ................................................ 86
6.3.1 Vergleichskriterien ................................................................. 86
6.3.2 Eigenschaften und Vorteile .................................................... 87
6.4 Zusammenfassung ................................................................................. 91
7. Weitere Ansätze zur Wissensauffindung ........................................................ 92
7.1 Einleitung .............................................................................................. 92
7.2 Clearinghouses ..................................................................................... 92
7.2.1 Einleitung ............................................................................... 92
7.2.2 Merkmale eines Clearinghouses ............................................ 93
7.2.3 Zusammenfassung .................................................................. 95
7.3 Datamining ........................................................................................... 96
7.3.1 Einleitung ............................................................................... 96
7.3.2 Aspekte und Modelle des Datamining ................................... 96
7.3.3 Datamining im WWW ........................................................... 98
7.3.4 Zusammenfassung .................................................................. 99
7.4 Katalogsuchdienste ............................................................................... 99
7.4.1 Einleitung ............................................................................... 99
7.4.2 Charakteristika von Katalogsuchdiensten .............................. 101
7.4.3 Zusammenfassung .................................................................. 105
8. Perspektiven für zukünftige Systeme ............................................................. 106
8.1 Einleitung .............................................................................................. 106
8.2 Entwicklung neuer Datennetze ............................................................. 108
8.2.1 Einleitung ............................................................................... 108
8.2.2 Initiativen für leistungsfähigere Datennetze .......................... 109
8.3 Zukunftsperspektiven ............................................................................ 110
8.3.1 Der Lebenszyklus einer Technologie ..................................... 110
8.3.2 Die nahe Zukunft ................................................................... 111
8.3.3 Mediennutzung in der Zukunft .............................................. 112
8.3.4 Theorien für künftige Computerentwicklungen ..................... 112
8.4 Zusammenfassung ................................................................................. 115
9. Zusammenfassung ............................................................................................ 117
10. Anhang ............................................................................................................ 121
10.1 Quellenverzeichnis .............................................................................. 121
10.2 Bildverzeichnis .................................................................................... 127
10.3 Tabellenverzeichnis .............................................................................130
Herunterladen