doc - Fakultät für Mathematik und Informatik - Friedrich

Friedrich-Schiller-Universität Jena
Fakultät für Mathematik und Informatik
Lehrstuhl für Datenbanken und Informationssysteme
Hausarbeit
Seminar: Web 2.0 und autonomes Datenbank-Tuning
Betreuer: Gennadi Rabinovitch
Thema: Tagging und Folksonomien
Verfasser: Swen Hermeth
Erfurt, den 30.06.2009
Inhaltsverzeichnis
1. Einleitung
3
2. Tagging
4
2.1 Einführung
4
2.2 Arten von Tags
5
2.3 Probleme beim Tagging
7
2.4 Lösungsansätze
10
3. Folksonomie
11
3.1 Einführung
11
3.2 Strukturen von Folksonomien
11
3.3 Visualisierung
15
4. Fazit
17
5. Quellen
19
2
1
Einführung
Tags und Folksonomien bekommen in den Zeiten des WEB 2.0 immer mehr
Bedeutung und Beachtung. Wenn die Internet Nutzer heutzutage in der Lage sind
selber Inhalte im Netz zu erstellen, fällt es schwer bei der Masse an Nutzern und
ihrer „Kreativität“ den Überblick zu behalten. Wobei es bei der Suche nach
Information auch darauf ankommt, das entsprechende Ergebnis möglichst genau zu
beschreiben und somit die Menge an gefundenen Inhalten überschaubar gering zu
halten. Neue Webangebote die es dem Nutzer erlauben eigene Inhalte zu erstellen
bieten meist auch die Möglichkeit zum Taggen dieser Dokumente. Die Masse der
Tags bildet dann eine so genannte Folksonomie. Oder mit anderen Worten, die
Nutzer einer Community erschaffen sich, durch die Vergabe von Tags, eine eigene
Ordnung bzw. Struktur ihrer Inhalte. In dieser Ausarbeitung will ich im ersten Teil auf
die Tags an sich und das Tagging als Prozess eingehen. Probleme die hier
entstehen können zeigen sowie einige Lösungsansätze vorstellen.
Im zweiten Teil, dann geh ich auf Folksonomien ein. Was Folksonomien sind, welche
Strukturen sie bilden können und wie sie im Internet dargestellt werden.
3
2
Tagging
2.1
Einführung
Laut dem Oxford Dictionary ist ein Tag ein Etikett oder ein Anhänger[1]. Also etwas
das ein Objekt näher beschreibt. In der Informatik kennen wir Tags ebenfalls als
Informationsbausteine, die uns Informationen über Dokumente und gespeicherte
Inhalte liefern. Man könnte also auch sagen, Tags sind Daten über Daten
(Metadaten). Demzufolge ist das Tagging der dazugehörige Prozess, also das
Verteilen von Tags auf bestimmte Ressourcen und Daten einer Quelle.
Warum aber wird das Tagging heute immer wichtiger in der Informatik und im
Internet? Betrachten wir das Internet in der heutigen Zeit, so zeigt sich ein großer
und entscheidender Wandel, der mit dem Begriff Web 2.0 beschrieben wird. In der
Entstehungsphase des Internets hatten nur wenige Webmaster und Administratoren
die Möglichkeit Inhalte für eine (noch) kleine Masse an Nutzern (Consumern) bereit
zu stellen. Heute allerdings hat jeder Nutzer auf den verschiedensten Seiten die
Gelegenheit seine Ideen, Gedanken und Meinungen zu verkünden und mit andern
Nutzern zu teilen. Aus dem reinen Konsumenten ist nun auch ein Produzent
geworden. Einige Quellen bezeichnen diesen neuen User als Prosumer (einer
Mischung aus Produzent und Konsument)[2]. Zu fast jedem Thema und zu fast jeder
Gesinnung kann man heute im Internet eine entsprechende Community finden, in der
sich Gleichgesinnte treffen und austauschen können. Auf Flickr können Nutzer ihre
Fotos austauschen und auf YouTube besteht die Möglichkeiten, Videos online zu
stellen. Der Web-Service Delicious bietet die an seine persönlichen Lesezeichen
online abzuspeichern, so dass sie nicht nur auf jedem Rechner mit Internetzugang
parat sind, sondern auch mit anderen Nutzern abgeglichen werden können. Dadurch
erhält man die Möglichkeit neue interessante Inhalte im Netz zu finden.
Dieses riesige Mitmachpotential birgt allerdings auch einige Probleme. Unmengen an
mehr oder weniger guten Inhalten werden tagtäglich verfasst. 65.000 Videos werden
allein auf YouTube jeden Tag online gestellt[3]. Da fällt es schwer, genau das zu
finden, was man sucht. Heutige Suchmaschinen bieten mit ihrer Volltextsuche zwar
die Möglichkeit schnell und einfach Webinhalte zu finden, doch meist sind diese zu
ungenau und der Suchende muss sich durch hunderte oder gar tausende von
Resultaten kämpfen bis er das gewünschte Objekt gefunden hat. Besonders
4
schwierig wird es, wenn das Dokument der Begierde ein Foto, Video oder ein
Musikstück ist. Sind diese schlecht bezeichnet oder in einem falschen Kontext im
Internet dargestellt, hat jede Suchmaschine Probleme diese zu finden. Versieht man
solche Webinhalte allerdings mit den entsprechenden Tags und bietet man dem
Nutzer darüber hinaus die Möglichkeit nach solchen zu suchen, können sehr schnell
und sehr einfach genaue Resultate erzielt werden. Natürlich ist es auch hier nicht
immer so einfach wie es hier wohl klingt. Wie später noch gezeigt werden wird, treten
gerade bei der Vergabe von Tagnamen große Probleme auf, die das Finden von
Inhalten deutlich erschweren können.
Das Suchen von Inhalten und Dokumenten ist allerdings nicht nur allein ein Problem
des Internets. Viele Privatpersonen oder Firmen haben dieselben Probleme, wenn es
darum Dateien zu finden die nicht per Volltextsuche gefunden werden können. Wenn
man zum Beispiel sehr viele Fotos in seinem Urlauben macht und diese dann zu
Hause auf dem Computer archiviert, kann man noch so gründlich Ordner-
und
Dateinamen erstellen. Beim Suchen nach einem bestimmten Motiv wird man immer
an mehreren Stellen suchen beziehungsweise das gesamte Archiv durch gehen
müssen. Sucht man zum Beispiel das Foto von einem Hund, der gerade in die Luft
springt und nach einem Ball schnappt, so wird dies sehr schwer, wenn man nicht
mehr genau weiß, wann und wo das Foto gemacht wurde. Hätte man dieses Bild
allerdings mit den Schlagworten „Hund“, „springen“ und „Ball“ getagt. So könnte man
nach diesen drei Wörtern suchen. Das System würde darauf hin nur Dokumente
zurückgeben,
die
mit
diesen
Tags
versehen
wurden.
Das
bedeutet
die
Ergebnismenge wird deutlich kleiner ausfallen und das gesuchte Element wird
schneller und leichter gefunden. Immer natürlich unter der Voraussetzung, dass die
Tags mit einer gewissen Sorgfalt und Ordnung vergeben wurden. Auch die beste
Suche bringt keine guten Resultate wenn die Grundlage (hier die Schlagwörter)
schlecht erstellt wurde.
2.2
Arten von Tags
Scott A. Golder und Bernado A. Hubermann haben bei ihrer Forschung für die HP
Labs sieben Arten von Tags festgestellt[4]. Ihre Nachforschungen beruhen vor allem
auf dem Bookmark-Service Delicious, der als erster 2003 ein Tagging – System
präsentierte. Bei der Untersuchung der dort verwendeten Tags kamen die beiden
Forscher auf folgende Klassifikation.
5
1. Wer oder was wird beschrieben
Die Hauptzahl der verwendeten Tags fällt in diese Kategorie. Hier wird auf den
Inhalt des Dokuments Bezug genommen, was oder wer wird in dieser
Ressource beschrieben.
2. Was für ein Dokument wird beschrieben
Dies sind Tags, die keinen Bezug zum konkreten Inhalt haben, sondern nur
beschreiben um was für ein Dokument es sich handelt. Zum Beispiel eine
Textdatei, ein Foto oder ein Video und so weiter.
3. Wer hat es erstellt
Diese Art der Tags erklären wer den (Web)Inhalt erstellt hat. Das können
Personen, Gruppen oder auch Firmen sein.
4. Präzisierende Tags
Hier hinein fallen Schlagwörter welche, die Tags aus der ersten Kategorie
genauer beschrieben. Allein stehend betrachtet haben diese Tags wenig
Aussagekraft. Sie kommen meist auch nicht allein stehend vor. Zum Beispiel
„schwarz-weiß“ und „ISO100“ für Fotos oder „Klassik“ und „Rock“ für
Musikdateien.
5. Qualitäts- / Charakterbeschreibende Tags
Diese Tags bestehen meist aus Adjektiven wie „schön“, „bemerkenswert“,
„umfangreich“, „großartig“ und geben nur einen Eindruck über die Ressource
wieder.
6. Tags mit einer Referenz zum Tagger
Diese Gruppe von Tags beginnt meist mit „mein….“ oder im englischen mit
„my….“ Hier nimmt der Tagger (also nicht unbedingt der Ersteller) Bezug zum
Inhalt. Zum Beispiel kann man die Lebenseinstellung und Meinung eines
Nutzers erkennen indem man sich die Inhalte und Dokumente ansieht, die der
Nutzer mit „myopinion“ oder „meinemeinung“ getagt hat.
6
7. Tags mit Aufgabenorientierung
Mit Hilfe dieser Art von Tags versucht ein Tagger Vorschläge zu machen wie
mit dem Dokument umzugehen ist. Diese Tags beginnen meist mit „to….“
beziehungsweise „zu…..“ Als Beispiel hierfür können „toread“, „toprint“,
„tostore“ oder aber auch „jobsearch“ verwendet werden. Diese Tags können
sowohl für einen Nutzer selber gemeint sein. Als Notiz oder Erinnerung was er
selber mit der Ressource tun wollte. Aber auch ein Hinweis für Dritte, in
diesem Fall eher als Vorschlag zu verstehen.
Die letzten drei Kategorien dieser Liste zeigen schon ein erstes Problem, dass mit
dem Einführen von Tags entsteht. Diese Arten von Schlagwörtern sind sehr
subjektiv. Während die Inhalte in den ersten vier Kategorien von allen klar
beschrieben werden können (z.B. ist der Ersteller einer Ressource eindeutig), kann
man sich über Qualität und Charakter einer Ressource sehr gut streiten. Ein Lied,
das beim Internet-Radio-Anbieter last.fm vom Nutzer x als „schön“ und „romantisch“
getaggt wurde, kann von Nutzer y schon wieder als „schnöde“ und „langweilig“
abgetan werden. Webinhalte, die mit Tags aus der siebten Kategorie versehen sind,
schlagen vor, wie mit der Ressource umzugehen ist. Einige Nutzer könnten hier
empfehlen das Dokument zu speichern oder auszudrucken, weil sie den Artikel für
etwas ganz Besonderes und sehr gut ausgearbeitet halten. Andere Nutzer wiederum
könnten aber auch der Meinung sein, dass dies ein sehr schlechter Artikel ist, und er
es auf jeden Fall nicht Wert ist gespeichert oder gar gedruckt zu werden. Ebenfalls
zu beachten ist, ob der Tagger und der Ersteller ein und dieselbe Person sind. Denn,
natürlich wird ein Nutzer seine eigenen Artikel besonders gut aussehen lassen
wollen.
2.3
Probleme beim Tagging
Wie
bereits
im
vorangegangenen
Kapitel
kurz
erläutert,
gibt
es
einige
Schwierigkeiten, die bei der Vergabe von Tags auftreten können. Die Problemfelder
umfassen nicht nur die Subjektivität von Tags, sondern auch die Schwierigkeiten in
Bezug auf Doppeldeutigkeiten und Rechtschreibefehler sowie Fremdsprachen und
Abkürzungen. Auf all diese Gebiete soll nachfolgend etwas genauer eingegangen
werden.
7
Subjektivität der Tags
Wie schon mehrmals angedeutet wurde, können einige Tags für verschiedene Nutzer
unterschiedliche Bedeutungen haben. Man findet Dokumente unter den Tags, die ein
anderer Nutzer dort gespeichert hat, man selber hätte sie vielleicht mit anderen
Schlagwörtern
versehen.
Dies
muss
nicht
immer
auf
unterschiedlichen
Qualitätsstandards beruhen. Da sich im Internet alle Bevölkerungssichten, alle
Altersgruppen und alle Berufssichten ohne große Trennung treffen können, kann
allein der unterschiedliche Bildungsstandard dazu führen, dass ein Dokument von
Nutzer A mit dem Tag „hübsch“ belegt wird und vom Nutzer B wiederum mit dem Tag
„hässlich“.
Ein
Biologe
wird
einen
Artikel
über
„Schmetterlinge
und
ihr
Paarungsverhalten“ anders bewerten, als ein Schüler, der in der Schule einen
Vortrag darüber halten soll. Genauso wie eine Diplomarbeit wohl immer größer und
tiefgehender Ausgearbeitet ist, wie ein Vortrag in der Schule.
Homonymität der Begriffe
Große Probleme bringt auch die Mehrdeutigkeit der einzelnen Worte mit sich. So
kann zum Beispiel der Tag „JAVA“ für die Urlaubsinsel auf der einen Seite und
natürlich die Programmiersprache auf der anderen Seite stehen. Auf der FotoCommunity Flickr bekommt man unter dem Suchwort Java einerseits Urlaubs- und
Kaffeefotos und andererseits Bilder von Siegern bei Programmierwettbewerben. Ein
anderes Beispiel wäre „Tau“ für das Seil oder den griechischen Buchstaben oder den
morgendlichen Niederschlagi
Ebenfalls ein Problem ist, dass im Internet unterschiedlichste Sprachen aufeinander
treffen. Wenn nun ein englisch- und ein deutschsprachiger Nutzer den Tag „gift“
vergeben, so meinen beide in ihrer Sprache etwas völlig anderes und andere Nutzer
werden bei der Verwendung dieses Tags sich wundern, dass bei Geschenken auch
kleine Fläschchen mit Totenköpfen dabei sind.
Auch können sich Tags die aus Homonymen bestehen im Laufe der Zeit in ihrer
Bedeutung ändern. So könnte der Tag „CarlZeiss“ zu beginn durchaus auf den
Mechaniker und Unternehmer Bezug genommen habenii. Das heißt zum Beispiel
viele Bookmarks zu seinem Leben und Wirken oder das Unternehmen in Jena. Doch
später haben immer mehr Fußball-Fans ihre Internetseiten hinzugefügt, so dass nun
vor allem Sportseiten unter diesem Schlagwort gefunden werden. Das heißt ein Tag
i
ii
http://de.wikipedia.org/wiki/Homonym
http://de.wikipedia.org/wiki/Carl_Zeiss
8
kann durch hinzufügen von neuen Ressourcen seine ursprüngliche Bedeutung völlig
verändern.
Syntax / Schreibfehler
In der heutigen Gesellschaft muss immer alles schnell gehen und so sind auch viele
Nutzer bei der Tag-Vergabe sehr kurz angebunden. Durch das schnelle Tippen und
Schreiben kommt es auch sehr schnell zu Fehlern, die meist durch eine
Autokorrektur abgefangen werden. Doch beim Taggen im Internet fehlen solche
Hilfssysteme. So kann sehr schnell passieren, dass sich ein Schreibfehler
einschleicht und zu einem bereits vorhandenen Tag kommt ein neuer hinzu, der zwar
das Gleiche bedeutet, aber die Ressourcenmenge aufteilt. Für den Suchenden
bedeutet dies, das er an mehreren Stellen suchen muss beziehungsweise, mit einem
Tag nicht alle relevanten Objekte finden zu können. Auch besteht die Gefahr das
Ressourcen durch unterschiedliche Schreibweisen völlig falsch verknüpft werden.
Wenn ein Nutzer eine Internetseite zur Wiedervereinigung speichern möchte, seinen
Tag aber nicht „Wende“ sondern „Wände“ schreibt. So taucht die Ressource später
in einem völlig falschen Zusammenhang wieder auf.
Weitere syntaktische Fehler treten in der deutschen Sprache bei der Verwendung
von Umlauten oder „ß“ auf. Einige Nutzer schreiben „ü“, „ö“, „ä“ und „ß“ andere
hingegen nutzen „ae“, „ue“, „oe“ und „ss“. Ein ähnliches Problem ist die Verwendung
von Plural oder Singular der Wörter als Tags. So bedeutet Auto und Autos
logischerweise dasselbe, aber trotzdem sind es zwei verschiedene Tags, welche die
relevante Ergebnismenge aufspalten.
Zusammengesetzte Tags
Für die Verwendung von Tags, die sich aus mehreren Wörtern zusammensetzten,
fehlen Konventionen wie diese zu verbinden sind. Delicious zum Beispiel erlaubt in
seinen Tags keine Leerzeichen, so dass ein Tag wie Open Source oder Entity
Relationship nicht existieren kann. Durch fehlende Vorschriften könnte nun
„Open_Source“, „Open+Source“, „Open/Source“ oder auch Open-Source verwendet
werden. Wie auch schon bei den vorangegangenen Fehlern führt das zur Aufteilung
der Webinhalte eines Themas auf verschieden Tags, die doch alle dasselbe
bedeuten.
9
2.4 Lösungsansätze
Die einfachste Methode sich vor Fehlern, die mit der Rechtschreibung einhergehen,
zu schützen, ist das Vorschlagen von Tags durch das System. Wenn ein Objekt oder
Webinhalt getaggt werden soll, dann gibt das System dem Nutzer einen Tag als
Möglichkeit vor. Der kann sich für diesen entscheiden und damit wird verhindert,
dass Schreibfehler das System überfluten. Das System müsste dabei die bisher
gespeicherten Ressourcen durchsuchen und den Tag der am häufigsten vorkommt
dem Nutzer vorgeschlagen.
Ebenfalls möglich ist das Einhalten von Standards, wie striktes Kleinschreiben von
Tags oder die ausschließliche Verwendung von Pluralformen. Hier bei kann auf die
Mithilfe der Nutzer gesetzt werden. So das die Systempflegen und Fehlerbeseitigung
hauptsächlich manuell geschieht.. Das Problem hierbei ist allerdings, dass solche
Konventionen nirgends festgeschrieben sind und sich von System zu System stark
unterscheiden können. Der neue Nutzer erfährt erst nach und nach welche Fehler er
bei seiner Vergabe der Tags verursacht hat. Hier sind die vor allem die erfahrenen
Nutzer aufgerufen, den anderen zu helfen, um das System sauber zu halten. Für den
Nutzer erfreulicher sind Hilfsmittel wie Normalisierung und Lemmatisierung. Hierbei
ermittelt das System automatisch den Wortstamm eines Tags und „normalisiert“ die
Nutzereingabe. So das im Endeffekt festgestellt werden kann zu welcher Taggruppe
die Ressource gehört. Wobei die Normalisierung auch benutzt werden kann um
zusammengesetzten Tags eindeutige Trennzeichen zu geben. So das sie zum
Beispiel
immer
mit
einem
Unterstiche
verbunden
werden.
Alle
anderen
Sonderzeichen werden dabei ersetzt.
Natürlich gibt es auch Ansätze Tagging - Strukturen automatisch zu erstellen.
Textanalysetools können dabei helfen geeignete Tags zu finden, indem sie das
Dokument nach häufig vorkommenden Worten durchsuchen. Aus den gefundenen
Wörtern werden dem Nutzer daraufhin Vorschläge unterbreitet die er nutzen kann um
seine Ressource zu taggen.
Besonders aufwendig aber doch sehr hilfreich, wäre das Einführen von Ontologieni.
Mit ihrer Hilfe könnten automatisch Beziehungen und Ableitungsregeln zwischen den
Tags etabliert werden. Um so noch besser die Verwandtschaften zwischen den
Schlagwörtern nutzen zu können.
i
http://de.wikipedia.org/wiki/Ontologie
10
3
Folksonomien
3.1
Einführung
Thomas Vander Wal hat das Kunstwort geprägt, das sich aus den Wörtern Folk (also
das Volk, die Menschen) und Nomos (das Gesetz) zusammensetzt i. Eine
Folksonomie steht im Gegensatz zu einer Taxonomie. Während hier wenige
Wissenschaftler und Gelehrte sich eine Klassifizierung und Gesetzmäßigkeiten
überlegen, kann bei einer Folksonomie die gesamte Community mitwirken. Nach und
nach werden die Inhalte getaggt und es werden Verbindungen oder Beziehungen
zwischen den einzelnen Tags aufgebaut, so das auch hier alle Inhalte klassifiziert
werden und eine Ordnung entsteht, die auf der Grundlage der Intelligenz der Masse
beruht. Eine Folksonomie ist also die freie Verschlagwortung von Inhalten im Web
durch die Nutzer selbst. Die entstehende Struktur beruht also auf den Tags und
deren Beziehungen zueinander.
Folksonomien sind noch nicht allzu lang ein Thema in der Informatik. Zum ersten Mal
wurden sie, wie bereits erwähnt, vom Bookmark-Service Delicious eingeführt. Hier
vor allem um es dem Nutzer zu erleichtern neue Webinhalte zu erschließen, indem er
seine Tags (und mit ihnen die verbundenen Ressourcen) mit denen von andern
Nutzer vergleichen kann und so schneller neue Seiten entdeckt, die seinen
Interessen am ähnlichsten sind. Schnell wurde dieses System von anderen
Communitys übernommen und fand auch bei deren Nutzern reges Interesse.
Allerdings steckt die Forschung hier noch in den Anfängen, so dass noch nicht alle
Beobachtungen auch erklärbar sind.
3.2
Strukturen von Folksonomien
Bei einer Untersuchung der Verteilungen von Tags innerhalb einer Folksonomie
haben Isabella Peters und Wolfgang G. Stock vor allem zwei häufig vorkommende
Strukturen ausgemacht: die „Long-Tail“- und die „invers-logistische“-Verteilung[2].
Auch Sie arbeiteten auf der Grundlage von Delicious-Daten.
Die häufigste Struktur, die Peters & Stock bei ihren Nachforschungen ermittelten, war
die so genannte „Long-Tail“ - Verteilung.
i
Http://de.wikipedia.org/wiki/Folksonomie
11
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
Verteilung
Abbildung 1 Beispiel einer Long-Tail Verteilung
Bei dieser Darstellungsform werden auf der X-Achse die einzelnen Tags dargestellt,
die einer bestimmten Ressource zugeteilt wurden. In unserem Beispiel in Abbildung
1 sind dies 10 verschiedene Tags. Auf der Y-Achse wird die Häufigkeit der
Vorkommen des entsprechenden Tags abgetragen. So das man eine Verteilung der
Ressource innerhalb der Folksonomie ablesen kann. Etwa 80 Prozent aller
Folksonomien bei Delicious haben die Form des „langen Schwanzes“. Das heißt je
häufiger ein Tag bereits vorkommt, also einem Inhalt zugewiesen wurde, desto höher
ist die Wahrscheinlichkeit, dass der Inhalt wieder mit ihr getaggt wird. Man sieht in
Abbildung 1 auch, dass etwa 20 Prozent aller Tags (hier also die ersten zwei) fast 80
Prozent des gesamten Vorkommens ausmachen. Das Beispiel aus Abbildung 2 soll
diesen
Sachverhalt
nochmals
verdeutlichen.
So
wird
hier
die
Ressource
www.bundestag.de von 60 Nutzern getaggt. Dabei nutzen zirka 27 von ihnen das
Schlagwort „politik“ und weitere 11 „bundestag“ als Tag. Man sieht auch hier sehr
deutlich den langen Schwanz den diese Folksonomie bildet.
12
Abbildung 2 Tagverteilung zur Webseite www.bundestag.de (aus [2] Abbildung 4)
Warum sich diese Form der Verteilung so häufig heraus gebildet hat, lässt sich
bisher leider nur vermuten. Aber man geht davon aus, dass bei der kleinen Anzahl
an Nutzern (hier nur 60) viele sich an die vom System vorgeschlagenen Tags halten.
Da das System immer die Tags vorschlägt, die bereits häufig auf diese Ressource
verteilt wurden, ist es nur logisch das deren Benutzung deutlicher höher liegt als die
der anderen.
2
5
2
3
2
1
1
9
1
7
1
5
1
3
1
1
9
7
5
3
1
10
9
8
7
6
5
4
3
2
1
0
Verteilung
Abbildung 3 Beispiel einer invers-logistischen Verteilung
Die zweite häufig vorkommende Struktur ist die so genannte invers-logistisch
Verteilung. Eine Mischung von „Long Trunk“ und „Long Tail“ Verteilung.
13
In Abbildung 3 auf der linken Seite der Verteilungskurve sieht man den „long trunk“,
also den langen Rüssel. Hier sind sehr viele Tags vertreten, die beinah dieselbe
Anzahl an Vorkommen haben. Dem langen Rüssel schließt sich dann der bereits
bekannte lange Schwanz an (in der Abbildung 3 ab etwa Tag Nummer 9). Warum
diese Häufigkeitsverteilung so ist, ist ebenfalls nicht genau ergründet. Es wird
vermutet, dass es an der deutlich größeren Anzahl an Nutzern liegt, die solch eine
Ressource getagt haben. Allerdings gibt es auch hier Beispiele, die das Gegenteil
beweisen könnten.
Abbildung 4 Tagverteilung zur Webseite www.asis.org (aus [2] Abbildung 7)
Auch hier ein Beispiel aus Delicious. In Abbildung 4 wird die Verteilung der Tags auf
die Webseite www.asis.org angezeigt, die von 293 Nutzern getaggt wurde. Deutlich
zusehen ist, dass die ersten 4 bis 5 Tags sehr häufig vorkommen und dann erst die
Verteilung deutlich abnimmt. Ebenfalls in diesem Beispiel zu sehen sind die bereits
besprochenen Probleme der Schreibweise. So stehen information_architecture,
informationarchitecture und ia für ein und dasselbe, bilden aber unterschiedliche
Tags mit deutlich unterschiedlicher Verteilung.
14
3.3
Visualisierung
Abbildung 5 Cloud der popluärsten Tag auf del.icio.us Stand Juni 2009
Um solche Folksonomien graphisch und für den Nutzer leicht verständlich
aufzubereiten, wurden so genannte Tag-Clouds eingeführti. Also eine Wolke in der
die am häufigsten verwendeten Tags eingetragen sind. Um ein Ranking sichtbar zu
machen werden die Tag-Namen, die am häufigsten in dieser Gruppe vorkommen,
größer geschrieben. Das führt zu einer sehr übersichtlichen und intuitiv zu
verstehenden Übersicht. In Abbildung 5 ist, als Beispiel, die Tag-Cloud von Delicious
dargestellt. Hier kann man auch sehr schön die Long Tail-Struktur der Folksonomy
ablesen. Es gibt nur zwei Tags (design und blog), die in der größten Schriftgröße
dargestellt sind. Während sehr viele in der kleinsten Größe erscheinen. Diese Form
der Visualisierung hat sich sehr schnell verbreitet. So das fast alle Web2.0-Anieter
heute eine solche Tag-Cloud in ihrem Angebot haben.
Eine weitere, graphisch sehr gelungene Darstellungsform nennt sich Delicious Soup.
Hier werden die Tags als einzelne Blasen dargestellt. Die Größe der Blase zeigt die
Häufigkeit des Auftretens eines bestimmten Tags. Also je größer die Blase, umso
öfter kommt der Tag vor. Des Weiteren werden hier auch Beziehungen zwischen den
Tags dargestellt. Je näher sich die Blasen stehen, desto häufiger werden sie
zusammen vom Nutzer verwendet. Ein kleines Beispiel zu Delicious Soup findet sich
in Abbildung 6. Hier kann man sehen das „Java“ ein Tag ist, der nicht so oft
Verwendung findet. Wenn, dann aber vor allem in Verbindung mit den Schlagwörtern
„Design“ und „Interaction“. Ganz deutlich zu erkennen ist, dass das Schlagwort
„Design“, meisten Verwendung findet. Leider lies sich nicht feststellen, ob diese
Darstellungsform auch für andere Web-Services als Delicious angeboten wird.
Anderseits ist aber davon auszugehen, dass sich solch eine Visualisierung leicht
auch auf anderen Web-Angeboten einbinden lässt.
i
http://de.wikipedia.org/wiki/Tag_cloud
15
Abbildung 6 Delicious Soup Quelle http://www.zitvogel.com/delicioussoup/demo.html Stand Juni 2009
16
4.
Fazit
Es sollte nun deutlich geworden sein, wie eng Folksonomien und Tags zusammen
gehören. Ein Tag wir noch keine aussagekräftige Folksonomie bilden, auch wenn es,
rein theoretisch wenigstens, schon als solch ein gilt. Erst eine große Masse von
Schlagwörtern führt zu einer Struktur mit deren Hilfe man in der Lage ist
Verbindungen zwischen Webinhalten und Dokumenten aufzuzeigen. Sie helfen dabei
gleichartige Dokumente zu finden. Fotos mit denselben Motiven, Lieder von der
gleichen Band oder auch Webseiten zum selben Thema.
Gerade, weil das Tagging so leicht verständlich und anwendbar für den Nutzer ist,
besteht die Möglichkeit Folksonomien zu entwickeln und zu benutzten. Jeder Nutzer
kann, je nach Service, intuitiv verstehen was Tags bedeuten und wie sie zu
verwenden sind. Taxonomien waren bisher für viele „normale“ Nutzer nur relativ
schwer zu verstehen. Weil sie von Wissenschaftler oder zumindest von Experten
erstellt wurden. Während Folksonomien vor allem auf der Intelligenz der Masse
beruhen.i
Auch für Webanbieter ist diese Form der Intelligenz besonders günstige Form
lukrativ. So bietet Amazon seinen Kunden die Möglichkeit Produkte mit Tags zu
versehen. Die Nutzer erstellten somit eine Struktur unter den verschiedenen Artikeln,
die bisher von Amazon - Mitarbeitern erstellt werden musste. Nun bräuchte das
Online-Kaufhaus nur noch neue Artikel in das System einstellen und die Käufer
würden selber eine Zuordnung zu ähnlichen Produkten vornehmen. Selbst Fehler im
System könnten die Nutzer selber reparieren. Womit sich Amazon auch Wartung und
Pflege sparen könnte.
Ebenfalls voll auf die Intelligenz seiner Nutzer setzt die Online – Enzyklopädie
Wikipedia. Hier wurde es geschafft, nur aus Beiträgen und Artikel der Nutzer das
weltweit umfangreichste Lexikon zu erstellen, das fast keine Fehler aufweist und
immer aktuell gehalten wird.
Aber der größte Vorteil, den Tags und Folksonomien liefern, ist wohl das konkrete
Suchen und Browsen nach bestimmten Objekten. Gerade in Bereichen, in denen die
Volltextsuche der großen Suchmaschinen nur ungenaue Ergebnisse liefert, wie die
Bilder- oder Musiksuche. Dadurch das Folksonomien erst in neuster Zeit groß in
Mode gekommen sind, besteht hier noch viel Forschungsbedarf. Viele Fragen zu
i
http://de.wikipedia.org/wiki/Die_Weisheit_der_Vielen
17
diesem Thema sind bisher ungeklärt vor allem was die Strukturen betrifft. Warum und
wieso sich diese bilden wissen wir bis heute noch nicht. Oder ob noch ganz andere
Verteilungsarten existieren? Auch besteht die Möglichkeit eine „gute“ Folksonomie,
die wenige Fehler aufweist zu nutzen um daraus eine Ontologien zu erstellen, die
wiederum auch in anderen Gebieten der Informatik eingesetzt werden kann.
Tagging und Folksonomie versteht sich nicht als neuer endgültiger Weg der Suche
im
Internet.
Vielmehr
steht
es als
Erweiterung
der bereits
bestehenden
Suchalgorithmen. Tags wollen und sollen das Internet noch einfacher und
Nutzerfreundlicher machen.
18
5.
Quellen
[1] Oxford Advanced Learner’s Dictionary, Fifth Edition, Oxford University Press,
1995
[2] Isabella Peters und Wolfgang G. Stock: „Folksonomies in Wissensrepräsentation
und Information Retrieval“ in Information Wissenschaft & Praxis 59(2008) Seite 77-90
[3] Jakob Vicari, „Wie man im Internet berühmt wird“ in P.M. Juni 2009 Seite 84-88
[4] Golder, Scott & Huberman, Bernado A.: The Structure of Collaborative Tagging
Systems. Information Dynamics Lab, HP Labs. Paper, Online: http://www.hpl.hp.com
/research/idl/papers/tags/tags.pdf Stand Juni 2009
[5] Wolfgang G. Stock: Folksonomies and science communication. Information
Services & Use 27 (2007) 97–103
[6] Jakob Voß: Tagging, Folksonomy & Co – Renaissance of Manual Indexing?,
Januar 2007 Paper, Online http://arxiv.org/PS_cache/cs/pdf/0701/0701072v2.pdf
Stand Juni 2009
[7] Sascha Carlin, Schlagwortvergabe durch Nutzende (Tagging) als Hilfsmittel zur
Suche im Web, Hochschule Darmstadt, Diplomarbeit, 2006, Online: http://itst.net/wpcontent/uploads/2007/02/diplomarbeit-tagging-sascha-a-carlin-volltext.pdf
19