Friedrich-Schiller-Universität Jena Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken und Informationssysteme Hausarbeit Seminar: Web 2.0 und autonomes Datenbank-Tuning Betreuer: Gennadi Rabinovitch Thema: Tagging und Folksonomien Verfasser: Swen Hermeth Erfurt, den 30.06.2009 Inhaltsverzeichnis 1. Einleitung 3 2. Tagging 4 2.1 Einführung 4 2.2 Arten von Tags 5 2.3 Probleme beim Tagging 7 2.4 Lösungsansätze 10 3. Folksonomie 11 3.1 Einführung 11 3.2 Strukturen von Folksonomien 11 3.3 Visualisierung 15 4. Fazit 17 5. Quellen 19 2 1 Einführung Tags und Folksonomien bekommen in den Zeiten des WEB 2.0 immer mehr Bedeutung und Beachtung. Wenn die Internet Nutzer heutzutage in der Lage sind selber Inhalte im Netz zu erstellen, fällt es schwer bei der Masse an Nutzern und ihrer „Kreativität“ den Überblick zu behalten. Wobei es bei der Suche nach Information auch darauf ankommt, das entsprechende Ergebnis möglichst genau zu beschreiben und somit die Menge an gefundenen Inhalten überschaubar gering zu halten. Neue Webangebote die es dem Nutzer erlauben eigene Inhalte zu erstellen bieten meist auch die Möglichkeit zum Taggen dieser Dokumente. Die Masse der Tags bildet dann eine so genannte Folksonomie. Oder mit anderen Worten, die Nutzer einer Community erschaffen sich, durch die Vergabe von Tags, eine eigene Ordnung bzw. Struktur ihrer Inhalte. In dieser Ausarbeitung will ich im ersten Teil auf die Tags an sich und das Tagging als Prozess eingehen. Probleme die hier entstehen können zeigen sowie einige Lösungsansätze vorstellen. Im zweiten Teil, dann geh ich auf Folksonomien ein. Was Folksonomien sind, welche Strukturen sie bilden können und wie sie im Internet dargestellt werden. 3 2 Tagging 2.1 Einführung Laut dem Oxford Dictionary ist ein Tag ein Etikett oder ein Anhänger[1]. Also etwas das ein Objekt näher beschreibt. In der Informatik kennen wir Tags ebenfalls als Informationsbausteine, die uns Informationen über Dokumente und gespeicherte Inhalte liefern. Man könnte also auch sagen, Tags sind Daten über Daten (Metadaten). Demzufolge ist das Tagging der dazugehörige Prozess, also das Verteilen von Tags auf bestimmte Ressourcen und Daten einer Quelle. Warum aber wird das Tagging heute immer wichtiger in der Informatik und im Internet? Betrachten wir das Internet in der heutigen Zeit, so zeigt sich ein großer und entscheidender Wandel, der mit dem Begriff Web 2.0 beschrieben wird. In der Entstehungsphase des Internets hatten nur wenige Webmaster und Administratoren die Möglichkeit Inhalte für eine (noch) kleine Masse an Nutzern (Consumern) bereit zu stellen. Heute allerdings hat jeder Nutzer auf den verschiedensten Seiten die Gelegenheit seine Ideen, Gedanken und Meinungen zu verkünden und mit andern Nutzern zu teilen. Aus dem reinen Konsumenten ist nun auch ein Produzent geworden. Einige Quellen bezeichnen diesen neuen User als Prosumer (einer Mischung aus Produzent und Konsument)[2]. Zu fast jedem Thema und zu fast jeder Gesinnung kann man heute im Internet eine entsprechende Community finden, in der sich Gleichgesinnte treffen und austauschen können. Auf Flickr können Nutzer ihre Fotos austauschen und auf YouTube besteht die Möglichkeiten, Videos online zu stellen. Der Web-Service Delicious bietet die an seine persönlichen Lesezeichen online abzuspeichern, so dass sie nicht nur auf jedem Rechner mit Internetzugang parat sind, sondern auch mit anderen Nutzern abgeglichen werden können. Dadurch erhält man die Möglichkeit neue interessante Inhalte im Netz zu finden. Dieses riesige Mitmachpotential birgt allerdings auch einige Probleme. Unmengen an mehr oder weniger guten Inhalten werden tagtäglich verfasst. 65.000 Videos werden allein auf YouTube jeden Tag online gestellt[3]. Da fällt es schwer, genau das zu finden, was man sucht. Heutige Suchmaschinen bieten mit ihrer Volltextsuche zwar die Möglichkeit schnell und einfach Webinhalte zu finden, doch meist sind diese zu ungenau und der Suchende muss sich durch hunderte oder gar tausende von Resultaten kämpfen bis er das gewünschte Objekt gefunden hat. Besonders 4 schwierig wird es, wenn das Dokument der Begierde ein Foto, Video oder ein Musikstück ist. Sind diese schlecht bezeichnet oder in einem falschen Kontext im Internet dargestellt, hat jede Suchmaschine Probleme diese zu finden. Versieht man solche Webinhalte allerdings mit den entsprechenden Tags und bietet man dem Nutzer darüber hinaus die Möglichkeit nach solchen zu suchen, können sehr schnell und sehr einfach genaue Resultate erzielt werden. Natürlich ist es auch hier nicht immer so einfach wie es hier wohl klingt. Wie später noch gezeigt werden wird, treten gerade bei der Vergabe von Tagnamen große Probleme auf, die das Finden von Inhalten deutlich erschweren können. Das Suchen von Inhalten und Dokumenten ist allerdings nicht nur allein ein Problem des Internets. Viele Privatpersonen oder Firmen haben dieselben Probleme, wenn es darum Dateien zu finden die nicht per Volltextsuche gefunden werden können. Wenn man zum Beispiel sehr viele Fotos in seinem Urlauben macht und diese dann zu Hause auf dem Computer archiviert, kann man noch so gründlich Ordner- und Dateinamen erstellen. Beim Suchen nach einem bestimmten Motiv wird man immer an mehreren Stellen suchen beziehungsweise das gesamte Archiv durch gehen müssen. Sucht man zum Beispiel das Foto von einem Hund, der gerade in die Luft springt und nach einem Ball schnappt, so wird dies sehr schwer, wenn man nicht mehr genau weiß, wann und wo das Foto gemacht wurde. Hätte man dieses Bild allerdings mit den Schlagworten „Hund“, „springen“ und „Ball“ getagt. So könnte man nach diesen drei Wörtern suchen. Das System würde darauf hin nur Dokumente zurückgeben, die mit diesen Tags versehen wurden. Das bedeutet die Ergebnismenge wird deutlich kleiner ausfallen und das gesuchte Element wird schneller und leichter gefunden. Immer natürlich unter der Voraussetzung, dass die Tags mit einer gewissen Sorgfalt und Ordnung vergeben wurden. Auch die beste Suche bringt keine guten Resultate wenn die Grundlage (hier die Schlagwörter) schlecht erstellt wurde. 2.2 Arten von Tags Scott A. Golder und Bernado A. Hubermann haben bei ihrer Forschung für die HP Labs sieben Arten von Tags festgestellt[4]. Ihre Nachforschungen beruhen vor allem auf dem Bookmark-Service Delicious, der als erster 2003 ein Tagging – System präsentierte. Bei der Untersuchung der dort verwendeten Tags kamen die beiden Forscher auf folgende Klassifikation. 5 1. Wer oder was wird beschrieben Die Hauptzahl der verwendeten Tags fällt in diese Kategorie. Hier wird auf den Inhalt des Dokuments Bezug genommen, was oder wer wird in dieser Ressource beschrieben. 2. Was für ein Dokument wird beschrieben Dies sind Tags, die keinen Bezug zum konkreten Inhalt haben, sondern nur beschreiben um was für ein Dokument es sich handelt. Zum Beispiel eine Textdatei, ein Foto oder ein Video und so weiter. 3. Wer hat es erstellt Diese Art der Tags erklären wer den (Web)Inhalt erstellt hat. Das können Personen, Gruppen oder auch Firmen sein. 4. Präzisierende Tags Hier hinein fallen Schlagwörter welche, die Tags aus der ersten Kategorie genauer beschrieben. Allein stehend betrachtet haben diese Tags wenig Aussagekraft. Sie kommen meist auch nicht allein stehend vor. Zum Beispiel „schwarz-weiß“ und „ISO100“ für Fotos oder „Klassik“ und „Rock“ für Musikdateien. 5. Qualitäts- / Charakterbeschreibende Tags Diese Tags bestehen meist aus Adjektiven wie „schön“, „bemerkenswert“, „umfangreich“, „großartig“ und geben nur einen Eindruck über die Ressource wieder. 6. Tags mit einer Referenz zum Tagger Diese Gruppe von Tags beginnt meist mit „mein….“ oder im englischen mit „my….“ Hier nimmt der Tagger (also nicht unbedingt der Ersteller) Bezug zum Inhalt. Zum Beispiel kann man die Lebenseinstellung und Meinung eines Nutzers erkennen indem man sich die Inhalte und Dokumente ansieht, die der Nutzer mit „myopinion“ oder „meinemeinung“ getagt hat. 6 7. Tags mit Aufgabenorientierung Mit Hilfe dieser Art von Tags versucht ein Tagger Vorschläge zu machen wie mit dem Dokument umzugehen ist. Diese Tags beginnen meist mit „to….“ beziehungsweise „zu…..“ Als Beispiel hierfür können „toread“, „toprint“, „tostore“ oder aber auch „jobsearch“ verwendet werden. Diese Tags können sowohl für einen Nutzer selber gemeint sein. Als Notiz oder Erinnerung was er selber mit der Ressource tun wollte. Aber auch ein Hinweis für Dritte, in diesem Fall eher als Vorschlag zu verstehen. Die letzten drei Kategorien dieser Liste zeigen schon ein erstes Problem, dass mit dem Einführen von Tags entsteht. Diese Arten von Schlagwörtern sind sehr subjektiv. Während die Inhalte in den ersten vier Kategorien von allen klar beschrieben werden können (z.B. ist der Ersteller einer Ressource eindeutig), kann man sich über Qualität und Charakter einer Ressource sehr gut streiten. Ein Lied, das beim Internet-Radio-Anbieter last.fm vom Nutzer x als „schön“ und „romantisch“ getaggt wurde, kann von Nutzer y schon wieder als „schnöde“ und „langweilig“ abgetan werden. Webinhalte, die mit Tags aus der siebten Kategorie versehen sind, schlagen vor, wie mit der Ressource umzugehen ist. Einige Nutzer könnten hier empfehlen das Dokument zu speichern oder auszudrucken, weil sie den Artikel für etwas ganz Besonderes und sehr gut ausgearbeitet halten. Andere Nutzer wiederum könnten aber auch der Meinung sein, dass dies ein sehr schlechter Artikel ist, und er es auf jeden Fall nicht Wert ist gespeichert oder gar gedruckt zu werden. Ebenfalls zu beachten ist, ob der Tagger und der Ersteller ein und dieselbe Person sind. Denn, natürlich wird ein Nutzer seine eigenen Artikel besonders gut aussehen lassen wollen. 2.3 Probleme beim Tagging Wie bereits im vorangegangenen Kapitel kurz erläutert, gibt es einige Schwierigkeiten, die bei der Vergabe von Tags auftreten können. Die Problemfelder umfassen nicht nur die Subjektivität von Tags, sondern auch die Schwierigkeiten in Bezug auf Doppeldeutigkeiten und Rechtschreibefehler sowie Fremdsprachen und Abkürzungen. Auf all diese Gebiete soll nachfolgend etwas genauer eingegangen werden. 7 Subjektivität der Tags Wie schon mehrmals angedeutet wurde, können einige Tags für verschiedene Nutzer unterschiedliche Bedeutungen haben. Man findet Dokumente unter den Tags, die ein anderer Nutzer dort gespeichert hat, man selber hätte sie vielleicht mit anderen Schlagwörtern versehen. Dies muss nicht immer auf unterschiedlichen Qualitätsstandards beruhen. Da sich im Internet alle Bevölkerungssichten, alle Altersgruppen und alle Berufssichten ohne große Trennung treffen können, kann allein der unterschiedliche Bildungsstandard dazu führen, dass ein Dokument von Nutzer A mit dem Tag „hübsch“ belegt wird und vom Nutzer B wiederum mit dem Tag „hässlich“. Ein Biologe wird einen Artikel über „Schmetterlinge und ihr Paarungsverhalten“ anders bewerten, als ein Schüler, der in der Schule einen Vortrag darüber halten soll. Genauso wie eine Diplomarbeit wohl immer größer und tiefgehender Ausgearbeitet ist, wie ein Vortrag in der Schule. Homonymität der Begriffe Große Probleme bringt auch die Mehrdeutigkeit der einzelnen Worte mit sich. So kann zum Beispiel der Tag „JAVA“ für die Urlaubsinsel auf der einen Seite und natürlich die Programmiersprache auf der anderen Seite stehen. Auf der FotoCommunity Flickr bekommt man unter dem Suchwort Java einerseits Urlaubs- und Kaffeefotos und andererseits Bilder von Siegern bei Programmierwettbewerben. Ein anderes Beispiel wäre „Tau“ für das Seil oder den griechischen Buchstaben oder den morgendlichen Niederschlagi Ebenfalls ein Problem ist, dass im Internet unterschiedlichste Sprachen aufeinander treffen. Wenn nun ein englisch- und ein deutschsprachiger Nutzer den Tag „gift“ vergeben, so meinen beide in ihrer Sprache etwas völlig anderes und andere Nutzer werden bei der Verwendung dieses Tags sich wundern, dass bei Geschenken auch kleine Fläschchen mit Totenköpfen dabei sind. Auch können sich Tags die aus Homonymen bestehen im Laufe der Zeit in ihrer Bedeutung ändern. So könnte der Tag „CarlZeiss“ zu beginn durchaus auf den Mechaniker und Unternehmer Bezug genommen habenii. Das heißt zum Beispiel viele Bookmarks zu seinem Leben und Wirken oder das Unternehmen in Jena. Doch später haben immer mehr Fußball-Fans ihre Internetseiten hinzugefügt, so dass nun vor allem Sportseiten unter diesem Schlagwort gefunden werden. Das heißt ein Tag i ii http://de.wikipedia.org/wiki/Homonym http://de.wikipedia.org/wiki/Carl_Zeiss 8 kann durch hinzufügen von neuen Ressourcen seine ursprüngliche Bedeutung völlig verändern. Syntax / Schreibfehler In der heutigen Gesellschaft muss immer alles schnell gehen und so sind auch viele Nutzer bei der Tag-Vergabe sehr kurz angebunden. Durch das schnelle Tippen und Schreiben kommt es auch sehr schnell zu Fehlern, die meist durch eine Autokorrektur abgefangen werden. Doch beim Taggen im Internet fehlen solche Hilfssysteme. So kann sehr schnell passieren, dass sich ein Schreibfehler einschleicht und zu einem bereits vorhandenen Tag kommt ein neuer hinzu, der zwar das Gleiche bedeutet, aber die Ressourcenmenge aufteilt. Für den Suchenden bedeutet dies, das er an mehreren Stellen suchen muss beziehungsweise, mit einem Tag nicht alle relevanten Objekte finden zu können. Auch besteht die Gefahr das Ressourcen durch unterschiedliche Schreibweisen völlig falsch verknüpft werden. Wenn ein Nutzer eine Internetseite zur Wiedervereinigung speichern möchte, seinen Tag aber nicht „Wende“ sondern „Wände“ schreibt. So taucht die Ressource später in einem völlig falschen Zusammenhang wieder auf. Weitere syntaktische Fehler treten in der deutschen Sprache bei der Verwendung von Umlauten oder „ß“ auf. Einige Nutzer schreiben „ü“, „ö“, „ä“ und „ß“ andere hingegen nutzen „ae“, „ue“, „oe“ und „ss“. Ein ähnliches Problem ist die Verwendung von Plural oder Singular der Wörter als Tags. So bedeutet Auto und Autos logischerweise dasselbe, aber trotzdem sind es zwei verschiedene Tags, welche die relevante Ergebnismenge aufspalten. Zusammengesetzte Tags Für die Verwendung von Tags, die sich aus mehreren Wörtern zusammensetzten, fehlen Konventionen wie diese zu verbinden sind. Delicious zum Beispiel erlaubt in seinen Tags keine Leerzeichen, so dass ein Tag wie Open Source oder Entity Relationship nicht existieren kann. Durch fehlende Vorschriften könnte nun „Open_Source“, „Open+Source“, „Open/Source“ oder auch Open-Source verwendet werden. Wie auch schon bei den vorangegangenen Fehlern führt das zur Aufteilung der Webinhalte eines Themas auf verschieden Tags, die doch alle dasselbe bedeuten. 9 2.4 Lösungsansätze Die einfachste Methode sich vor Fehlern, die mit der Rechtschreibung einhergehen, zu schützen, ist das Vorschlagen von Tags durch das System. Wenn ein Objekt oder Webinhalt getaggt werden soll, dann gibt das System dem Nutzer einen Tag als Möglichkeit vor. Der kann sich für diesen entscheiden und damit wird verhindert, dass Schreibfehler das System überfluten. Das System müsste dabei die bisher gespeicherten Ressourcen durchsuchen und den Tag der am häufigsten vorkommt dem Nutzer vorgeschlagen. Ebenfalls möglich ist das Einhalten von Standards, wie striktes Kleinschreiben von Tags oder die ausschließliche Verwendung von Pluralformen. Hier bei kann auf die Mithilfe der Nutzer gesetzt werden. So das die Systempflegen und Fehlerbeseitigung hauptsächlich manuell geschieht.. Das Problem hierbei ist allerdings, dass solche Konventionen nirgends festgeschrieben sind und sich von System zu System stark unterscheiden können. Der neue Nutzer erfährt erst nach und nach welche Fehler er bei seiner Vergabe der Tags verursacht hat. Hier sind die vor allem die erfahrenen Nutzer aufgerufen, den anderen zu helfen, um das System sauber zu halten. Für den Nutzer erfreulicher sind Hilfsmittel wie Normalisierung und Lemmatisierung. Hierbei ermittelt das System automatisch den Wortstamm eines Tags und „normalisiert“ die Nutzereingabe. So das im Endeffekt festgestellt werden kann zu welcher Taggruppe die Ressource gehört. Wobei die Normalisierung auch benutzt werden kann um zusammengesetzten Tags eindeutige Trennzeichen zu geben. So das sie zum Beispiel immer mit einem Unterstiche verbunden werden. Alle anderen Sonderzeichen werden dabei ersetzt. Natürlich gibt es auch Ansätze Tagging - Strukturen automatisch zu erstellen. Textanalysetools können dabei helfen geeignete Tags zu finden, indem sie das Dokument nach häufig vorkommenden Worten durchsuchen. Aus den gefundenen Wörtern werden dem Nutzer daraufhin Vorschläge unterbreitet die er nutzen kann um seine Ressource zu taggen. Besonders aufwendig aber doch sehr hilfreich, wäre das Einführen von Ontologieni. Mit ihrer Hilfe könnten automatisch Beziehungen und Ableitungsregeln zwischen den Tags etabliert werden. Um so noch besser die Verwandtschaften zwischen den Schlagwörtern nutzen zu können. i http://de.wikipedia.org/wiki/Ontologie 10 3 Folksonomien 3.1 Einführung Thomas Vander Wal hat das Kunstwort geprägt, das sich aus den Wörtern Folk (also das Volk, die Menschen) und Nomos (das Gesetz) zusammensetzt i. Eine Folksonomie steht im Gegensatz zu einer Taxonomie. Während hier wenige Wissenschaftler und Gelehrte sich eine Klassifizierung und Gesetzmäßigkeiten überlegen, kann bei einer Folksonomie die gesamte Community mitwirken. Nach und nach werden die Inhalte getaggt und es werden Verbindungen oder Beziehungen zwischen den einzelnen Tags aufgebaut, so das auch hier alle Inhalte klassifiziert werden und eine Ordnung entsteht, die auf der Grundlage der Intelligenz der Masse beruht. Eine Folksonomie ist also die freie Verschlagwortung von Inhalten im Web durch die Nutzer selbst. Die entstehende Struktur beruht also auf den Tags und deren Beziehungen zueinander. Folksonomien sind noch nicht allzu lang ein Thema in der Informatik. Zum ersten Mal wurden sie, wie bereits erwähnt, vom Bookmark-Service Delicious eingeführt. Hier vor allem um es dem Nutzer zu erleichtern neue Webinhalte zu erschließen, indem er seine Tags (und mit ihnen die verbundenen Ressourcen) mit denen von andern Nutzer vergleichen kann und so schneller neue Seiten entdeckt, die seinen Interessen am ähnlichsten sind. Schnell wurde dieses System von anderen Communitys übernommen und fand auch bei deren Nutzern reges Interesse. Allerdings steckt die Forschung hier noch in den Anfängen, so dass noch nicht alle Beobachtungen auch erklärbar sind. 3.2 Strukturen von Folksonomien Bei einer Untersuchung der Verteilungen von Tags innerhalb einer Folksonomie haben Isabella Peters und Wolfgang G. Stock vor allem zwei häufig vorkommende Strukturen ausgemacht: die „Long-Tail“- und die „invers-logistische“-Verteilung[2]. Auch Sie arbeiteten auf der Grundlage von Delicious-Daten. Die häufigste Struktur, die Peters & Stock bei ihren Nachforschungen ermittelten, war die so genannte „Long-Tail“ - Verteilung. i Http://de.wikipedia.org/wiki/Folksonomie 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 Verteilung Abbildung 1 Beispiel einer Long-Tail Verteilung Bei dieser Darstellungsform werden auf der X-Achse die einzelnen Tags dargestellt, die einer bestimmten Ressource zugeteilt wurden. In unserem Beispiel in Abbildung 1 sind dies 10 verschiedene Tags. Auf der Y-Achse wird die Häufigkeit der Vorkommen des entsprechenden Tags abgetragen. So das man eine Verteilung der Ressource innerhalb der Folksonomie ablesen kann. Etwa 80 Prozent aller Folksonomien bei Delicious haben die Form des „langen Schwanzes“. Das heißt je häufiger ein Tag bereits vorkommt, also einem Inhalt zugewiesen wurde, desto höher ist die Wahrscheinlichkeit, dass der Inhalt wieder mit ihr getaggt wird. Man sieht in Abbildung 1 auch, dass etwa 20 Prozent aller Tags (hier also die ersten zwei) fast 80 Prozent des gesamten Vorkommens ausmachen. Das Beispiel aus Abbildung 2 soll diesen Sachverhalt nochmals verdeutlichen. So wird hier die Ressource www.bundestag.de von 60 Nutzern getaggt. Dabei nutzen zirka 27 von ihnen das Schlagwort „politik“ und weitere 11 „bundestag“ als Tag. Man sieht auch hier sehr deutlich den langen Schwanz den diese Folksonomie bildet. 12 Abbildung 2 Tagverteilung zur Webseite www.bundestag.de (aus [2] Abbildung 4) Warum sich diese Form der Verteilung so häufig heraus gebildet hat, lässt sich bisher leider nur vermuten. Aber man geht davon aus, dass bei der kleinen Anzahl an Nutzern (hier nur 60) viele sich an die vom System vorgeschlagenen Tags halten. Da das System immer die Tags vorschlägt, die bereits häufig auf diese Ressource verteilt wurden, ist es nur logisch das deren Benutzung deutlicher höher liegt als die der anderen. 2 5 2 3 2 1 1 9 1 7 1 5 1 3 1 1 9 7 5 3 1 10 9 8 7 6 5 4 3 2 1 0 Verteilung Abbildung 3 Beispiel einer invers-logistischen Verteilung Die zweite häufig vorkommende Struktur ist die so genannte invers-logistisch Verteilung. Eine Mischung von „Long Trunk“ und „Long Tail“ Verteilung. 13 In Abbildung 3 auf der linken Seite der Verteilungskurve sieht man den „long trunk“, also den langen Rüssel. Hier sind sehr viele Tags vertreten, die beinah dieselbe Anzahl an Vorkommen haben. Dem langen Rüssel schließt sich dann der bereits bekannte lange Schwanz an (in der Abbildung 3 ab etwa Tag Nummer 9). Warum diese Häufigkeitsverteilung so ist, ist ebenfalls nicht genau ergründet. Es wird vermutet, dass es an der deutlich größeren Anzahl an Nutzern liegt, die solch eine Ressource getagt haben. Allerdings gibt es auch hier Beispiele, die das Gegenteil beweisen könnten. Abbildung 4 Tagverteilung zur Webseite www.asis.org (aus [2] Abbildung 7) Auch hier ein Beispiel aus Delicious. In Abbildung 4 wird die Verteilung der Tags auf die Webseite www.asis.org angezeigt, die von 293 Nutzern getaggt wurde. Deutlich zusehen ist, dass die ersten 4 bis 5 Tags sehr häufig vorkommen und dann erst die Verteilung deutlich abnimmt. Ebenfalls in diesem Beispiel zu sehen sind die bereits besprochenen Probleme der Schreibweise. So stehen information_architecture, informationarchitecture und ia für ein und dasselbe, bilden aber unterschiedliche Tags mit deutlich unterschiedlicher Verteilung. 14 3.3 Visualisierung Abbildung 5 Cloud der popluärsten Tag auf del.icio.us Stand Juni 2009 Um solche Folksonomien graphisch und für den Nutzer leicht verständlich aufzubereiten, wurden so genannte Tag-Clouds eingeführti. Also eine Wolke in der die am häufigsten verwendeten Tags eingetragen sind. Um ein Ranking sichtbar zu machen werden die Tag-Namen, die am häufigsten in dieser Gruppe vorkommen, größer geschrieben. Das führt zu einer sehr übersichtlichen und intuitiv zu verstehenden Übersicht. In Abbildung 5 ist, als Beispiel, die Tag-Cloud von Delicious dargestellt. Hier kann man auch sehr schön die Long Tail-Struktur der Folksonomy ablesen. Es gibt nur zwei Tags (design und blog), die in der größten Schriftgröße dargestellt sind. Während sehr viele in der kleinsten Größe erscheinen. Diese Form der Visualisierung hat sich sehr schnell verbreitet. So das fast alle Web2.0-Anieter heute eine solche Tag-Cloud in ihrem Angebot haben. Eine weitere, graphisch sehr gelungene Darstellungsform nennt sich Delicious Soup. Hier werden die Tags als einzelne Blasen dargestellt. Die Größe der Blase zeigt die Häufigkeit des Auftretens eines bestimmten Tags. Also je größer die Blase, umso öfter kommt der Tag vor. Des Weiteren werden hier auch Beziehungen zwischen den Tags dargestellt. Je näher sich die Blasen stehen, desto häufiger werden sie zusammen vom Nutzer verwendet. Ein kleines Beispiel zu Delicious Soup findet sich in Abbildung 6. Hier kann man sehen das „Java“ ein Tag ist, der nicht so oft Verwendung findet. Wenn, dann aber vor allem in Verbindung mit den Schlagwörtern „Design“ und „Interaction“. Ganz deutlich zu erkennen ist, dass das Schlagwort „Design“, meisten Verwendung findet. Leider lies sich nicht feststellen, ob diese Darstellungsform auch für andere Web-Services als Delicious angeboten wird. Anderseits ist aber davon auszugehen, dass sich solch eine Visualisierung leicht auch auf anderen Web-Angeboten einbinden lässt. i http://de.wikipedia.org/wiki/Tag_cloud 15 Abbildung 6 Delicious Soup Quelle http://www.zitvogel.com/delicioussoup/demo.html Stand Juni 2009 16 4. Fazit Es sollte nun deutlich geworden sein, wie eng Folksonomien und Tags zusammen gehören. Ein Tag wir noch keine aussagekräftige Folksonomie bilden, auch wenn es, rein theoretisch wenigstens, schon als solch ein gilt. Erst eine große Masse von Schlagwörtern führt zu einer Struktur mit deren Hilfe man in der Lage ist Verbindungen zwischen Webinhalten und Dokumenten aufzuzeigen. Sie helfen dabei gleichartige Dokumente zu finden. Fotos mit denselben Motiven, Lieder von der gleichen Band oder auch Webseiten zum selben Thema. Gerade, weil das Tagging so leicht verständlich und anwendbar für den Nutzer ist, besteht die Möglichkeit Folksonomien zu entwickeln und zu benutzten. Jeder Nutzer kann, je nach Service, intuitiv verstehen was Tags bedeuten und wie sie zu verwenden sind. Taxonomien waren bisher für viele „normale“ Nutzer nur relativ schwer zu verstehen. Weil sie von Wissenschaftler oder zumindest von Experten erstellt wurden. Während Folksonomien vor allem auf der Intelligenz der Masse beruhen.i Auch für Webanbieter ist diese Form der Intelligenz besonders günstige Form lukrativ. So bietet Amazon seinen Kunden die Möglichkeit Produkte mit Tags zu versehen. Die Nutzer erstellten somit eine Struktur unter den verschiedenen Artikeln, die bisher von Amazon - Mitarbeitern erstellt werden musste. Nun bräuchte das Online-Kaufhaus nur noch neue Artikel in das System einstellen und die Käufer würden selber eine Zuordnung zu ähnlichen Produkten vornehmen. Selbst Fehler im System könnten die Nutzer selber reparieren. Womit sich Amazon auch Wartung und Pflege sparen könnte. Ebenfalls voll auf die Intelligenz seiner Nutzer setzt die Online – Enzyklopädie Wikipedia. Hier wurde es geschafft, nur aus Beiträgen und Artikel der Nutzer das weltweit umfangreichste Lexikon zu erstellen, das fast keine Fehler aufweist und immer aktuell gehalten wird. Aber der größte Vorteil, den Tags und Folksonomien liefern, ist wohl das konkrete Suchen und Browsen nach bestimmten Objekten. Gerade in Bereichen, in denen die Volltextsuche der großen Suchmaschinen nur ungenaue Ergebnisse liefert, wie die Bilder- oder Musiksuche. Dadurch das Folksonomien erst in neuster Zeit groß in Mode gekommen sind, besteht hier noch viel Forschungsbedarf. Viele Fragen zu i http://de.wikipedia.org/wiki/Die_Weisheit_der_Vielen 17 diesem Thema sind bisher ungeklärt vor allem was die Strukturen betrifft. Warum und wieso sich diese bilden wissen wir bis heute noch nicht. Oder ob noch ganz andere Verteilungsarten existieren? Auch besteht die Möglichkeit eine „gute“ Folksonomie, die wenige Fehler aufweist zu nutzen um daraus eine Ontologien zu erstellen, die wiederum auch in anderen Gebieten der Informatik eingesetzt werden kann. Tagging und Folksonomie versteht sich nicht als neuer endgültiger Weg der Suche im Internet. Vielmehr steht es als Erweiterung der bereits bestehenden Suchalgorithmen. Tags wollen und sollen das Internet noch einfacher und Nutzerfreundlicher machen. 18 5. Quellen [1] Oxford Advanced Learner’s Dictionary, Fifth Edition, Oxford University Press, 1995 [2] Isabella Peters und Wolfgang G. Stock: „Folksonomies in Wissensrepräsentation und Information Retrieval“ in Information Wissenschaft & Praxis 59(2008) Seite 77-90 [3] Jakob Vicari, „Wie man im Internet berühmt wird“ in P.M. Juni 2009 Seite 84-88 [4] Golder, Scott & Huberman, Bernado A.: The Structure of Collaborative Tagging Systems. Information Dynamics Lab, HP Labs. Paper, Online: http://www.hpl.hp.com /research/idl/papers/tags/tags.pdf Stand Juni 2009 [5] Wolfgang G. Stock: Folksonomies and science communication. Information Services & Use 27 (2007) 97–103 [6] Jakob Voß: Tagging, Folksonomy & Co – Renaissance of Manual Indexing?, Januar 2007 Paper, Online http://arxiv.org/PS_cache/cs/pdf/0701/0701072v2.pdf Stand Juni 2009 [7] Sascha Carlin, Schlagwortvergabe durch Nutzende (Tagging) als Hilfsmittel zur Suche im Web, Hochschule Darmstadt, Diplomarbeit, 2006, Online: http://itst.net/wpcontent/uploads/2007/02/diplomarbeit-tagging-sascha-a-carlin-volltext.pdf 19