4 Recommender Systeme in digitalen Bibliotheken

Werbung
Empfehlungssysteme in digitalen Bibliotheken
Ein Vergleich unterschiedlicher Zugänge zur Empfehlungsgenerierung
Recommender systems in digital libraries
A comparison of different approaches of generating recommendations
Bakkalaureatsarbeit
von
Stefan Millonig, 0052480
[email protected]
betreut und beurteilt von:
Dr. Michael Hahsler
Abteilung für Informationswirtschaft
Institut für Informationsverarbeitung und Informationswirtschaft
Wirtschaftsuniversität Wien
Augasse 2-6
A-1090 Wien, AUSTRIA
-1-
Inhaltsverzeichnis
1
EINLEITUNG ............................................................................................................................................. 6
2
DIGITALE BIBLIOTHEKEN ................................................................................................................... 7
3
RECOMMENDER SYSTEME ................................................................................................................ 10
4
RECOMMENDER SYSTEME IN DIGITALEN BIBLIOTHEKEN ................................................... 12
4.1
GRUNDLAGEN
12
4.2 TECHNIKEN DER EMPFEHLUNGSGENERIERUNG
4.2.1
Ähnlichkeit
13
14
4.2.1.1
Collaborative Filtering......................................................................................................................... 14
4.2.1.2
Content-Based Filtering....................................................................................................................... 15
4.2.1.3
Hybride Techniken .............................................................................................................................. 16
4.2.1.3.1
Fab ................................................................................................................................................. 17
4.2.1.3.2
Graph-Based Approach .................................................................................................................. 17
4.2.2
Interesse
4.2.2.1
4.2.2.2
4.2.3
19
Degree of Interest ................................................................................................................................ 19
Latent Interest Analysis ....................................................................................................................... 21
Vergleich der Techniken
23
4.3
NUTZEN VON RECOMMENDER SYSTEMEN IN DIGITALEN BIBLIOTHEKEN
24
4.4
PROBLEME
24
4.5 ZUSÄTZLICHE VALUE ADDED SERVICES FÜR DIGITALE BIBLIOTHEKEN
4.5.1
AVANTI Browser
4.5.2
MyLibrary
25
25
26
5
UMSETZUNGSBEISPIEL AUS DER PRAXIS ..................................................................................... 27
6
KONKLUSIO ............................................................................................................................................ 29
7
LITERATURVERZEICHNIS ................................................................................................................. 30
-2-
Bildverzeichnis
Bild 1 Prinzip des Co-Usage .................................................................................................... 16
Bild 2 Modell des Graph-Based Approach .............................................................................. 18
Bild 3 User Information Needs Model ..................................................................................... 21
Bild 4 LIA Architektur ............................................................................................................. 23
Bild 5 Architektur des Recommender Systems des Bibliotheksportals Karlsruhe .................. 27
-3-
Empfehlungssysteme in digitalen Bibliotheken
Ein Vergleich unterschiedlicher Zugänge zur Empfehlungsgenerierung
Recommender systems in digital libraries
A comparison of different approaches of generating recommendations
Stichworte: digitale Bibliothek, Recommender System, Empfehlungsgenerierung,
Collaborative Filtering, Content-Based Filtering, Hybride Techniken, Nutzen, Value Added
Services
Keywords: digital library, recommender system, recommendation generation, collaborative
filtering, content-based filtering, hybrid approaches, benefit, value added services
Zusammenfassung
Der Überfluss an Informationsträgern in Beständen von digitalen Bibliotheken bringt, neben
dem Vorteil der großen Menge an Information, die Unannehmlichkeit einer komplexeren
Suche für Benutzer mit sich. Traditionelle elektronische Kataloge stellen zwar ein
brauchbares Hilfsmittel beim Suchvorgang dar, sind aber nicht frei von Problemfeldern.
Unterschiedliche Interessensgebiete oder individuelle Suchhistorien im Dokumentenbestand
finden dabei nämlich keinerlei Berücksichtigung. Unterschiedliche Benutzer werden ohne
Rücksicht auf ihre persönlichen Gegebenheiten, lediglich aufgrund von gleichen
Abfragetermen, mit gleichem Informationsmaterial versorgt. In den Datenbeständen von
digitalen Bibliotheken finden sich zahlreiche Informationen über Benutzer, deren
Suchhistorien, Inhalte von digitalen Dokumenten, etc., um so genannte „Value Added
Services“ anzubieten, die den Benutzern zusätzlichen Nutzen stiften. Ein wichtiges Service
dieser Art in digitalen Bibliotheken sind Recommender Systeme. Die Techniken der
Generierung von Empfehlungen für Benutzer sind vielfältig. Sie reichen von Techniken, die
auf Ähnlichkeiten zwischen Benutzern oder digitalen Dokumenten basieren, bis hin zu
Techniken, die versuchen, das tatsächliche Interesse der einzelnen Benutzer individuell zu
berücksichtigen.
Abstract
Though the over abundance of informative material in digital libraries seems to be a great
advantage, it has to be considered that searching for appropriate information objects becomes
more complex. Electronic catalogues can be a suitable aid for users but there are still many
unsolved problems. Users’ different areas of interests or different search histories are not
taken into consideration. Different users might get the same information objects
corresponding to their query terms without respect of their individual characteristics. In
digital libraries there is enough information about users’ demographic data, their search
histories, document content information etc. to provide value added services to the users to
improve users’ benefits. An important value added service is a recommender system.
Recommendations can be generated in various ways. Recommendations techniques can be
-4-
based on similarities between users or content similarities between documents or they can try
to consider what the real individual information needs of the different users might be.
Kernpunkte für das Management
Um den Benutzer einer digitalen Bibliothek zufrieden stellende Suchergebnisse zu
ermöglichen, und ihn somit langfristig als „Kunden“ zu gewinnen können, sind
Recommender Systeme in digitalen Bibliotheken von essentieller Bedeutung. Diese Arbeit
stellt einen Vergleich unterschiedlicher Möglichkeiten der Generierung von Empfehlungen in
Recommender Systemen in digitalen Bibliotheken dar. Bei der Implementierung von
Recommender Systemen in digitalen Bibliotheken muss beachtet werden, dass zwischen den
einzelnen Techniken große Qualitätsunterschiede in Bezug auf Precision und Recall
feststellbar sind. Precision und Recall beeinflussen den Nutzen für Benutzer digitaler
Bibliotheken und somit deren Zufriedenheit und „Markentreue“. Um den Nutzen der Benutzer
weiter zu steigern empfiehlt es sich für Betreiber digitaler Bibliotheken sich auch mit den
Thema MyLibrary oder mit dem AVANTI Browser auseinanderzusetzen. Bei der
Entscheidung Recommender Systeme in digitalen Bibliotheken einzusetzen, muss auf hohe
Qualität geachtet werden, denn noch schlechter als der Verzicht auf dieses Service ist eine
Entwicklung, die unpassende Empfehlungen generiert.
-5-
1 Einleitung
Recommender Systeme sind einer breiten Masse der Internetbenutzer (bewusst oder auch
unbewusst) vor allem aufgrund der Verwendung bei Amazon.com bekannt. Ein sinnvoller
Einsatz von Recommender Systemen zu Gunsten des Anwenders ist aber keinesfalls bloß auf
den E-Commerce beschränkt. Aufgrund der großen Menge an Informationsobjekten in
digitalen Bibliotheken und den damit verbundenen Unannehmlichkeiten beim Suchen von
geeigneten Informationen, finden Recommender Systeme vor allem auch in digitalen
Bibliotheken weite Verbreitung. Welche Techniken bei der Generierung der Empfehlungen
zum Einsatz kommen, und welchen Nutzen Benutzer digitaler Bibliotheken aus diesem
Service ziehen, soll in der vorliegenden Arbeit ausgearbeitet werden.
Die Arbeit ist folgender Maßen gegliedert:
Zunächst werden die Grundlagen von digitalen Bibliotheken und mögliche Probleme
erläutert. Wie viele dieser Probleme durch den Einsatz von Recommender Systemen gelöst
werden können, soll in weiterer Folge der Arbeit deutlich werden. Dazu werden zunächst
Recommender Systeme losgelöst von digitalen Bibliotheken beschrieben, um in weiter Folge
genauer auf Techniken der Empfehlungsgenerierung aufgrund von Informationen, welche in
digitalen Bibliotheken vorhanden sind, einzugehen. Schließlich wird der Nutzen, der für
Benutzer digitaler Bibliotheken durch Recommender Systeme entstehen kann, analysiert und
weitere mögliche Value Added Services in digitalen Bibliotheken erwähnt. Zum Abschluss
wird eine Implementierungsvariante anhand des Beispiels des Recommender Systems des
Bibliotheksportals Karlsruhe beschrieben.
-6-
2 Digitale Bibliotheken
“A digital library is an organized and focused collection of digital objects, including text,
images, video and audio, along with methods for access and retrieval, and for selection,
creation, organization, maintenance and sharing of the collection.” [Raja04]
Ian Witten, David Bainbridge
„Digital libraries are organisations that provide the resources, including the specialized
staff, to select, structure, offer intellectual access to, interpret, distribute, preserve the
integrity of, and insure the persistence over time of collections of digital works so that they
are readily and economically available for use by a defined community or set of
communities.” [Raja04]
Digital Library Federation
Diese beiden Definitionen von digitalen Bibliotheken stehen stellvertretend für viele, die
digitale Bibliotheken ähnlich definieren.
Dass digitale Bibliotheken als eine Sammlung digitaler Dokumente bzw. Objekte
verschiedenster Art bezeichnet werden, kommt in der Definition von Witten und Bainbridge
gut zum Ausdruck. Digitale Bibliotheken sind jedoch mehr als eine bloße Aggregation
digitaler Daten. Digitale Informationsobjekte bilden lediglich den „Content“, der die Basis
einer digitalen Bibliothek darstellt. [Lein98] Hinzu kommen zahlreiche Eigenschaften und
Services, die teilweise auch in physischen Bibliotheken vorkommen, teilweise aber auch
aufgrund des weiten Fortschritts und des großen Potentials der Informationstechnologie
darüber hinausgehen können. Beispielhaft seien hier eine Strukturierung der Daten,
Suchmöglichkeiten mit Hilfe von Katalogen, Individualisierungsmöglichkeiten, eine
Benutzer-Community, die Wartung der Datenbestände, oder Services wie
Empfehlungssysteme zu nennen. Auf die eben genannten Empfehlungssysteme wird im
weiteren Verlauf der Arbeit noch genauer eingegangen. Um diese Eigenschaften zu
unterstreichen, soll an dieser Stelle William Arms kurz zitiert werden: „A stream of data sent
to earth from a satellite is not a digital library. The same data, when organized systematically,
becomes a digital library”. [Raja04]
Die hiervon alternative Auffassung der Digital Library Federation unterstreicht den
institutionellen Charakter digitaler Bibliotheken als eine dynamische Organisation. [Raja04]
Oftmals wird in Definitionen der Begriff „virtuelle Bibliothek“ als Synonym für „digitale
Bibliothek“ verwendet (siehe [Wiki05b]). Dies ist aus Sicht des Autors der vorliegenden
Arbeit allerdings etwas kritisch. Während die digitalen Objekte einer digitalen Bibliothek
nicht notwendigerweise über das Internet abrufbar sein müssen, sondern beispielsweise auch
auf Datenträgen gespeichert werden könnten, wird mit dem Begriff der virtuellen Bibliothek
eher eine reine Abrufbarkeit der Daten über das Internet assoziiert. Somit könnte eine
virtuelle Bibliothek, zur deutlicheren Abgrenzung zur digitalen Bibliothek, als eine digitale
Bibliothek im Internet definiert werden.
Das Entstehen sowie die Weiterentwicklung von digitalen Bibliotheken sind untrennbar
mit der zunehmenden Popularität des Internets in den 90er Jahren verbunden. Die ersten
großen Projekte wurden in den USA initiiert. 1994 wurde das erste Großprojekt, in dem sechs
digitale Bibliotheken aufgebaut wurden, von der National Science Foundation (NSF),
-7-
Department of Defense Advanced Research Projects Agency (ARPA), sowie der National
Aeronautics and Space Administation (NASA) durchgeführt. Ein zweiter Meilenstein in der
Entwicklung von digitalen Bibliotheken war das National Digital Library Federation
Agreement im Jahr 1995, mit dem Ziel möglichst viele digitale Dokumente bzw. andere
digitale Objekte zusammenzufassen, und diese möglichst jedem, vor allem aber Personen im
universitären Bereich, zugänglich zu machen. [Raja04]
Wie zuvor bereits kurz erwähnt, besitzen digitale Bibliotheken eine Vielzahl der
Merkmale, die auch physische Bibliotheken besitzen: [SAPN99]
Auch wenn die Mitarbeiter einer digitalen Bibliothek für den Benutzer nicht offensichtlich
sichtbar sind, kommen ihnen doch die gleichen, oder zumindest ähnlichen Aufgaben zu, die
auch Mitarbeiter von klassischen Büchereien erfüllen müssen. Dazu gehört das Aggregieren,
sowie das Klassifizieren, Indexieren, die Aufbewahrung, etc. von Informationsträgern
unterschiedlichster Art (Bücher, Zeitschriften, Tonträger, Filme, …).
Eine der Kernanforderungen sowohl in physischen als auch in digitalen Bibliotheken ist
natürlich die Gewährleistung von zufrieden stellenden Suchergebnissen. Ab einem gewissen
Umfang an Informationsträgern entsteht in beiden Bibliothekstypen die Notwendigkeit von
Maßnahmen, die das Finden von geeigneten Informationen ermöglicht. Hier haben digitale
Bibliotheken aufgrund der existierenden technischen Möglichkeiten mit Sicherheit große
Vorteile gegenüber physischen Bibliotheken. Um diese Anforderung erfüllen zu können sind
Maßnahmen und Tools erforderlich, die das Indexieren, Speichern, Suchen, Präsentieren etc.
optimieren können. Hierzu zählen unter anderem Metadaten, Content Repositories,
elektronische Kataloge, sowie effiziente Suchalgorithmen, um einen schnellen und
befriedigenden Zugriff auf die Daten zu gewährleisten. Zur Gewährleistung zufrieden
stellender Suchergebnisse sind Recommender Systeme ebenfalls von großer Bedeutung. In
den weiteren Abschnitten der Arbeit wird darauf noch ausführlich eingegangen.
Alle bisher beschriebenen Anforderungen beziehen sich auf die Informationsobjekte an
sich. Es gibt allerdings auch zahlreiche essentielle Anforderungen, die an digitale
Bibliotheken gestellt werden, die mit den eigentlichen Trägern der Information nichts zu tun
haben.
Digitale Bibliotheken sind kein statisches Gebilde, sondern wachsen stetig. Vergleicht man
digitale Bibliotheken mit konventionellen Bibliotheken, so haben Erstere ein viel größeres
Potential an Besuchern bzw. Zugriffen. Auch die Anzahl an Dokumenten, welche dem
Benutzer verfügbar gemacht werden könnten ist in digitalen Bibliotheken ungleich größer als
in traditionellen Bibliotheken. Die Modifizierbarkeit ist daher eine wichtige Voraussetzung.
Darunter fällt die Fähigkeit, die Funktionalität, den Content oder das User-Interface falls
notwendig jederzeit an geänderte Rahmenbedingungen oder Anforderungen unterschiedlicher
Benutzergruppen anpassen zu können.
Versteht man digitale Bibliotheken als elektronisches Pendant zu physischen Bibliotheken,
darf man daher einen Punkt sicher nicht außer Acht lassen. Digitale Bibliotheken müssen
nämlich mehr als bloße Information bieten. [SAPN99] An dieser Stelle lässt sich eine
Parallele zu einem Problem des E-Commerce ziehen. Für eine Vielzahl der Konsumenten
geht durch das Kaufen von Waren im Internet ein gewisses Einkaufserlebnis verloren, auf das
sie oftmals nicht verzichten wollen. Auch das Aufsuchen von physischen Bibliotheken ist
oftmals mit einem sozialen Erlebnis verbunden. Diese soziale Komponente muss in digitalen
Bibliotheken versucht werden zu kompensieren. Dies kann durch den Aufbau einer
Community, in der die Benutzer ihre Erfahrungen austauschen können oder durch
Individualisierungsmaßnahmen, geschehen.
-8-
Digitale Bibliotheken können den Benutzern in vielerlei Hinsicht zusätzlichen Nutzen
stiften. [Raja04] Der Zugriff auf die vorhandenen Ressourcen ist unabhängig von Ort und Zeit
möglich. Der Aufwand, der mit dem „Besuch“ einer digitalen Bibliothek verbunden ist, ist im
Vergleich zu physischen Bibliotheken weitaus geringer, denn eine „DL brings the library to
the user“. [Raja04] Außerdem kann es nie zu einer Situation kommen, dass die Nutzung einer
digitalen Ressource durch eine Person, die Nutzung derselben Ressource durch eine andere
Person einschränkt. Es können sich theoretisch unzählige Benutzer das gleiche digitale
Dokument gleichzeitig ausborgen, ohne dass dieses jemals vergriffen ist. Die Menge an
Information, die zur Verfügung gestellt werden kann ist zum einen ungleich größer, und zum
anderen in unterschiedlichsten multimedialen Formaten möglich.
Es soll aber nicht unerwähnt bleiben, dass sich Betreiber von digitalen Bibliotheken auch
mit durchaus ernsten Problemen auseinandersetzen müssen. [Raja04] Mit der zuvor
erwähnten Möglichkeit der Multimedialität der Inhalte geht das Problem einer notwendigen
Mindestbandbreite, um auf diese Inhalte zugreifen zu können, einher.
Aufgrund der digitalen Form der vorhandenen Ressourcen und der damit einfachen
Möglichkeit des illegalen Vervielfältigens, ist das Thema Copyright ein sehr ernstes. In
diesem Zusammenhang sei auf die freie digitale Bibliothek „DigBib.Org“ hingewiesen, die
sich zum Ziel gesetzt hat „Werke, auf die es nach Erlöschen des Urheberrechts keine
Copyrightansprüche mehr gibt, der Öffentlichkeit frei zugänglich zu machen, als HTMLVersion internetgerecht aufzuarbeiten, zum Download im Ganzen bereitzustellen und die
Inhalte verlinkbar zu machen, sodass von anderen Webseiten auf Werke, Kapitel oder
Passagen verwiesen werden kann.“ [DigB05] Grundgedanke hierbei ist der des „Open
Content“, bei dem die Weiterverbreitung von Schriftstücken, Bild- und Tonwerken
ausdrücklich erwünscht ist. [Wiki05c]
Auch die große Anzahl der zur Verfügung stehenden Ressourcen kann ein Problem darstellen.
Mit der größeren Quantität an Ressourcen ist das Problem verbunden, dass Benutzer
überfordert sind, in den vorhandenen Informationsmengen ihren Informationsbedürfnis
entsprechende Ressourcen zu finden. [NiTP04]
-9-
3 Recommender Systeme
Eine sehr viel versprechende Möglichkeit, die am Ende des vorigen Abschnitts beschriebene
Informationsüberflutung für den Benutzer einzudämmen, und somit gezielteres Suchen in
digitalen Bibliotheken zu ermöglichen, ist der Einsatz von Recommender Systemen.
Definiert man das Internet als Sonderfall einer großen digitalen Bibliothek, lässt sich
dieses Problem der Informationsüberflutung auch in einem Zitat von Patrick Casey sehr schön
verdeutlichen:
The internet is the world´s greatest library - with all the books on the floor." [o.A.a]
Patrick Casey
Unter Recommender Systemen (Empfehlungssystemen) versteht man Programme, welche
einem Benutzer beim Suchen nach Information eine, seinen Bedürfnissen entsprechende,
gezieltere Suche ermöglichen soll. Dabei wird allgemein formuliert versucht, Informationen,
die über einen konkreten Benutzer vorhanden sind, mit Basisinformationen zu vergleichen
und somit Gegenstände vorauszusagen, die für das Informationsbedürfnis des Benutzers
relevant sein könnten. Diese vorhandenen Basisinformationen der Benutzer können explizit
oder implizit gesammelt worden sein. Explizite Methoden der Informationssammlung sind
davon abhängig, dass Benutzer das System mit Feedback (beispielsweise Beurteilung der
Relevanz für ihr Informationsbedürfnis) über Gegenstände versorgen. Die Abgabe dieser
Beurteilung ist für den Benutzer, der diese abgibt, mit einem Aufwand und damit mit Kosten
verbunden. Die Qualität, der in Zukunft generierten Empfehlungen ist, wie man sich leicht
vorstellen kann, von der Güte der Beurteilungen abhängig. Implizite Methoden haben den
Vorteil, dass die relevanten Daten (beispielsweise wie lange und wie oft ein Benutzer z.B. ein
digitales Dokument betrachtet, etc.) automatisch gesammelt werden, und somit nicht von den
Beurteilungen der Benutzer abhängig sind. Auf die Ergebnisse der Analyse, wo
Übereinstimmungen vorhanden sind, wird der Benutzer schließlich hingewiesen. [Wiki05a]
Es lassen sich zwei verschiedene Typen von Recommender Systemen unterscheiden:
Während nicht-personalisierte Recommender Systeme unabhängig von einem Benutzer, der
Empfehlungen benötigt, die gleichen Empfehlungen vorschlagen, generieren personalisierte
Recommender Systeme dynamische Empfehlungen, abhängig vom konkreten Benutzer.
[FabroJ]
Die den Recommender Systemen zugrunde liegenden Algorithmen können
unterschiedlichster Natur sein. Die zwei wohl bekanntesten Vorgehensweisen sind die des
Collaborative Filtering sowie die des Content-Based Filtering. Deren Prinzip wird im Rahmen
des Kapitels 4.2.1 näher erklärt.
Zum Abschluss dieses Kapitels soll noch kurz auf einige Probleme eingegangen werden,
auf die beim Einsatz von Recommender Systemen Rücksicht genommen werden muss.
Es stellt sich bei expliziten Methoden der Sammlung von Empfehlungen die Frage, wie
man die Benutzer dazu motivieren kann, qualitativ hochwertige Bewertungen abzugeben.
Außerdem muss man sich (wiederum speziell bei expliziten Methoden) mit der Frage
beschäftigen, wie man das Vertrauen der Benutzer in die vom Recommender System
generierten Empfehlungen gewinnt. Es könnte speziell im E-Commerce teilweise die Gefahr
bestehen, dass Anbieter eigener Waren versuchen könnten, das Ergebnis der Empfehlungen
- 10 -
gezielt zugunsten ihrer eigenen Produkte zu beeinflussen. Es müssen hierfür Maßnahmen
getroffen werden, um solche gezielten Manipulationen bestmöglich zu vermeiden. Auf Seiten
des Händlers könnte ebenfalls ein gewisser Anreiz bestehen, Empfehlungen für Produkte zu
generieren, die schon lange auf Lager liegen und sich als schlecht verkäuflich heraus gestellt
haben.
- 11 -
4 Recommender Systeme in digitalen Bibliotheken
In den folgenden Abschnitten sollen, nachdem kurz auf Grundlagen von Recommender
Systemen in digitalen Bibliotheken wurde, unterschiedliche Techniken der
Empfehlungsgenerierung vorgestellt und verglichen werden. Dabei soll auch der Nutzen, den
Recommender Systeme in digitalen Bibliotheken stiften können, verdeutlicht werden.
4.1 Grundlagen
Empfehlungssysteme im E-Commerce sind dem geübten Nutzer des Internets aufgrund des
mittlerweile breiten Einsatzes bewusst oder unbewusst bekannt. Deren Nutzen, das Geben
von zusätzlichen oder alternativen Kaufoptionen, ist für den Anwender offensichtlich. Auch
in digitalen Bibliotheken stellen Empfehlungssysteme ein sehr nützliches Zusatzfeature dar.
[GeNT04]
Digitale Bibliotheken bieten also, verglichen mit deren physischen Pendants, dem Benutzer
die Möglichkeit des Zugriffs auf größere Mengen an Ressourcen. Diese Ressourcen können in
vielfältiger Form in Wort, Ton oder/und Bild gespeichert sein1. Aus Sicht des Besuchers mag
eine größere Auswahl an digitalen Dokumenten natürlich als großer Vorteil erscheinen, da die
Chance, dass unter diesen ein, seinem Informationsbedürfnis entsprechendes Dokument,
vorhanden ist, ansteigt. Dabei sollte aber keinesfalls vergessen werden, dass damit die Gefahr
steigt, sich in diesem dichter gewordenen Informationsdschungel zu verirren. Aufgrund der
großen Anzahl an digitalen Dokumenten wird das Finden relevanter Dokumente erheblich
erschwert und aufwendiger. Dieser auf den ersten Blick erscheinende Vorteil kann daher nur
dann wirklich auch zum Vorteil für den Benutzer werden, wenn entsprechende Maßnahmen
getroffen werden, um diese Informationsüberflutung einzudämmen, und um somit ein
gezielteres, effizienteres, und weniger zeitintensives Suchen zu ermöglichen. Der Fortschritt
auf dem Gebiet der Informationstechnologie bietet die Möglichkeit genau an diesem Punkt
anzusetzen um die dafür notwendigen Maßnahmen zu ergreifen.
Analog zu traditionellen physischen Bibliotheken, in denen ein Bibliothekar aufgrund
seines Wissens bzw. aufgrund seiner Erfahrung den Besucher über alternative Bücher, etc.
informieren kann, sollen in digitalen Bibliotheken Recommender Systeme solche
Empfehlungen generieren können. [Fisc03]
Vielfach erfolgt die Generierung von Empfehlungen in digitalen Bibliotheken lediglich auf
Basis der Informationen im Inhalt der digitalen Dokumente. [HCOC02] Damit wird das
Potential der Empfehlungsgenerierung in digitalen Bibliotheken bei weitem nicht ausgenützt.
Ganz im Gegenteil: Der zuvor angesprochene Bibliothekar bräuchte demnach keinen
Vergleich mit einem Recommender System zu scheuen, denn aufgrund seiner Erfahrungen
über den Inhalt sowie die Eignung diverser Bücher für das Informationsbedürfnis von
Besuchern wäre er einem Recommender System in dieser Form sogar überlegen. In digitalen
Bibliotheken verbirgt sich viel mehr als nur diese Informationen über den Inhalt der
Dokumente. [GeMG01] klassifiziert vier Kategorien von Daten, die für Recommender
Systeme in digitalen Bibliotheken relevant sein können:
1
Im Folgenden wird der Term „digitales Dokument“ oder nur „Dokument“ stellvertretend für alle Formen der in
digitalen Bibliotheken vorhandenen digitalen Ressourcenobjekte verwendet.
- 12 -
Resource characteristics: Alle vorhandenen Dokumente können durch Metadaten
beschrieben werden, die einzelne Elemente (Titel, etc.) der Dokumente beschreiben.
Resource quality judgements: Rezensionen oder Expertenurteile können brauchbare
Informationen für andere Benutzer liefern.
Resource use: Durch die Analyse der Server Log-Daten2 erhält man Informationen
bezüglich der Häufigkeit des Zugriffs auf Dokumente von einzelnen Benutzern in Form
von Downloads, Lesezeiten, etc. Mit Hilfe dieser resource use Daten können
Benutzerprofile erstellt werden aus denen Usage Modelle entwickelt werden können.
User profile: Aufgrund von Registrierungserfordernissen können demographische Daten
oder Informationen über persönliche Präferenzen von Benutzern vorliegen, auf Basis derer
Benutzergruppen gebildet werden können.
Diese Vielfalt geht über die Möglichkeiten in konventionellen Bibliotheken hinaus, denn
dort kann beispielsweise die Benutzung von Dokumenten bzw. Büchern vom Benutzer nur
aufgrund deren Abgenutztheit, und auch das nur sehr vage, beurteilt werden.
Alle eben erwähnten Daten können bei der Empfehlungsgenerierung sehr hilfreich sein,
jedoch kann die Verfügbarkeit oder die Qualität der einzelnen Daten beispielsweise aufgrund
von fehlenden Angaben oder Falschinformationen bei persönlichen Präferenzen oder bei
Rezensionen sehr unterschiedlich sein. Man muss sich daher Gedanken machen, welche
Datenkategorien man für ein Recommender System heranzieht. Interessant ist die Frage, ob
die Qualität des Empfehlungssystems durch Verwendung möglichst vieler Datenressourcen
steigt. Konzentriert man sich lediglich auf Daten, von denen man ausgehen kann, dass sie von
hoher Güte und hoher Verfügbarkeit sind (beispielsweise Server Log-Daten), riskiert man
andere, möglicherweise qualitativ sehr hochwertige Daten zu ignorieren. Verwendet man
andererseits alle potentiellen Datenquellen, um einen möglichst geringen Verlust an
brauchbaren Daten zu haben, steht man vor dem Problem, wie man so große und
unterschiedliche Informationsmengen sinnvoll kombinieren kann. Außerdem läuft man dabei
Gefahr, dass mögliche Falschinformationen oder manipulierte Daten die Qualität und
Brauchbarkeit des gesamten Empfehlungssystems gefährden. [GeMG01]
Damit eine digitale Bibliothek gegenüber einer physischen Bibliothek keine Einbußen
verzeichnet, sei an dieser Stelle noch die Notwendigkeit erwähnt, dass Besucher bzw.
Benutzer miteinander in Kontakt treten können und persönliche Erfahrungen austauschen
können, sodass Empfehlungen nicht nur automatisch generiert werden, sondern auch explizit
ausgesprochen werden können. Es müssen also Rahmenbedingungen geschaffen werden, um
ein Community entstehen lassen zu können. [SAPN99]
4.2 Techniken der Empfehlungsgenerierung
In digitalen Bibliotheken besteht die Möglichkeit eine Vielzahl von Daten bzw.
Informationen über die Benutzer sowie über die vorhandenen digitalen Dokumente zu
sammeln. Beispielsweise seien hier die Häufigkeit sowie die Dauer der Nutzung von bzw. der
Zugriff auf bestimmte Dokumente von bestimmten Benutzern, über welche wiederum eine
2
Im Folgenden werden diese so zur Verfügung stehenden Daten in Anlehnung an die englischsprachige
Originalliteratur sowie in Ermangelung eines geeigneten deutschen Wortes als „Usage-Daten“ bezeichnet.
- 13 -
Vielzahl an Informationen vorhanden sein können, etc. angeführt. Aufgrund dieser
Informationen kann bei der Empfehlungsgenerierung auf unterschiedliches und
vielschichtiges Datenmaterial zugegriffen werden. Wie im folgenden Abschnitt zu sehen
seihen wird, gibt es in der Praxis diverse unterschiedliche Ansätze, wie diese Daten
tatsächlich in Recommender Systemen in digitalen Bibliotheken genutzt und verarbeitet
werden. [YaLi05]
4.2.1 Ähnlichkeit
In digitalen Bibliotheken kann mit dem Begriff „Ähnlichkeit“ sowohl die Ähnlichkeit
zwischen einzelnen digitalen Dokumenten, als auch die Ähnlichkeit zwischen Benutzern
verstanden werden. Auf Grundlage dieser Ähnlichkeiten basieren auch die vermutlich
bekanntesten Techniken der Empfehlungsgenerierung, nämlich die des Collaborative
Filterings sowie die des Content-Based Filterings.
4.2.1.1 Collaborative Filtering
Beim Collaborative Filtering werden Empfehlungen vereinfacht gesagt aufgrund von
Ähnlichkeiten zwischen Benutzern, die nach Informationen suchen, generiert. Einem
konkreten Benutzer werden in digitalen Bibliotheken, welche Empfehlungen mit dieser
Technik generieren, daher digitale Dokumente empfohlen, die andere Benutzer, die ähnliche
Präferenzen wie dieser haben, als gut befunden haben. [FabroJ] Die Profile auf deren
Grundlage die Benutzer verglichen werden, können implizit auf Basis deren in der
Vergangenheit getätigten Verhaltens [HCOC02] und/oder auf Basis demographischer
Informationen oder Interessen, die vom Benutzer explizit angegeben wurden, erstellt werden.
Bei der Generierung der Vorschläge kann man das manuelle, sowie das automatische
Benutzermatching unterscheiden. Während bei Ersterem vom Empfehlenden Vorschläge
verteilt werden, bzw. dieser von Empfehlungsnachfragern befragt wird, geschieht Zweiteres
automatisiert. Dabei kann das Benutzermatching entweder aufgrund eines zuvor geschätzten
Modells (man spricht dabei vom „Model-Based Collaborative Filtering“) oder aufgrund eines
direkten Vergleichs, der implizit oder explizit erhobenen Benutzerdaten (was als „MemoryBased Collaborative Filtering“ bezeichnet wird) durchgeführt werden. [o.A.c]
Amazon ist zwar ein Beispiel aus dem E-Commerce, es stellt aber wohl das bekannteste
Beispiel dar, das sein Empfehlungssystem mit dieser Technik betreibt. Der Grund könnte
vermutlich jener sein, dass Empfehlungen, die scheinbar von anderen Benutzern stammen,
relativ glaubwürdig erscheinen.
Beim Collaborative Filtering müssen jedoch auch einige Schwachpunkte erwähnt werden.
Ist die Menge der Benutzer der digitalen Bibliothek, die die Technik des Collaborate Filtering
verwendet, im Verhältnis zu den vorhandenen Dokumenten relativ klein, besteht die Gefahr,
dass Empfehlungen nur in sehr spärlicher Dichte verfügbar sind. Man braucht also eine
gewisse kritische Masse an Benutzern, auf Basis deren abgegebenen Beurteilungen oder
Verhalten die Empfehlungen generiert werden. Weiters bestehen Probleme, einem Benutzer
mit ungewöhnlichen Interessen, geeignete Empfehlungen zu geben, da es möglicherweise
keine anderen Benutzer gibt, die diesem Benutzer ähnlich sind. Wird ein neues Dokument in
den Bestand der digitalen Bibliothek aufgenommen, ist es vorerst, bis Beurteilungen über
dieses Dokument vorliegen, von den Empfehlungen ausgeschlossen.
- 14 -
4.2.1.2 Content-Based Filtering
Beim Content-Based Filtering wird versucht, die Präferenz eines Benutzers aufgrund von
Ähnlichkeiten zwischen Produkten (Dokumenten) abzuleiten.
Ähnlichkeiten zwischen Dokumenten in digitalen Bibliotheken können aufgrund
unterschiedlicher Techniken beurteilt werden: [CrKr02]
Die Latente Semantische Analyse, die im Kapitel 4.2.2.2 näher erklärt wird, versucht
semantische Ähnlichkeiten zwischen Dokumenten zu analysieren.
Eine andere Möglichkeit besteht darin, Dokumente aufgrund von Expertenurteilen zu
klassifizieren. Dies ist zwar eine qualitativ sehr hochwertige Methode, allerdings sind der
Aufwand und die damit verbundenen Kosten beachtlich.
Die Analyse von Zitaten und Verweisen auf andere Dokumente ist auch eine Methode um
Ähnlichkeiten zwischen Dokumenten zu beurteilen. Die Annahme, die dieser Methode zu
Grunde liegt, ist die, dass ein Dokument D1, das im Dokument D2 zitiert wird mit diesem eine
gewisse Ähnlichkeit hat.
Die Vorgehensweise zur Beurteilung der Ähnlichkeit von Dokumenten, die hier etwas
genauer beschrieben werden soll, ist jene des Co-Usage. Dies ist auch der Basisgedanke, der
dem Bibliotheksportal Karlsruhe, das im Kapitel 5 genauer beschrieben wird, zu Grunde liegt.
Die Idee hinter dem Konzept des Co-Usage ist, dass sich zwei (oder mehrere) Dokumente
ähnlich sind, wenn sie von mehreren Benutzern jeweils in Kombination betrachtet wurden.
Wichtiges Rohmaterial zur Analyse des Co-Usage sind die Log-Daten des Webservers, der
das Verhalten der Benutzer mitprotokolliert. Erster Anhaltspunkt bei der Analyse der LogDaten sind die IP-Adressen der Benutzer. Blindes Vertrauen in die IP-Adresse kann aber zu
unbefriedigenden Ergebnissen führen. Es ist nämlich nicht garantierbar, dass eine IP-Adresse
einem Benutzer eindeutig zuordenbar ist (z.B.: mehrere Benutzer benutzen einen Rechner,…).
Selbst wenn dies der Fall wäre, stünde man vor dem Problem, dass man einem Benutzer ein
konstantes Informationsbedürfnis unterstellen müsste. Dieses Problem soll an folgendem
Beispiel verdeutlicht werden: Benutzer Bert ist ein abenteuerlustiger Mensch. Bevor er im
Jänner eine Reise nach Sibirien angetreten hat, hat er sich in der digitalen Bibliothek zum
Thema Eisfischen Informationen besorgt. Im Frühling ist er beim Marathon des Sables in
Marokko eine Woche quer durch die Wüste gelaufen und hat sich vorher über gefährliche
Kleintiere in der Wüste informiert. Sucht nun Benutzerin Berta ebenfalls
Informationsmaterial zum Thema Eisfischen, so würden Dokumente, die Bert vor seiner
Marokkoreise betrachtet hat, als ähnlich mit den von ihm betrachteten Dokumenten zum
Thema Eisfischen beurteilt werden. So würden für Berta völlig unbrauchbare Empfehlungen
generiert werden. Daher ist es nahe liegend sich bei der Analyse der Log-Daten auf jene
Einträge zu konzentrieren, welche aus einer Session stammen.
| u (d i , d j ) | 2
[CrKr02] definiert Co-Usage formal als: c(d i , d j ) 
,
| u (d i ) || u (d j ) |
wobei |u(di,dj)| die Anzahl der Sessions bezeichnet in denen die Dokumente di und dj
gleichzeitig vorkommen und c(di,dj) als Co-Usage-Koeffizient bezeichnet wird.
Um die Generierung von Empfehlungen nach dem Prinzip des Co-Usage zu
veranschaulichen, soll an dieser Stelle eine vereinfachte Darstellung mit acht Dokumenten,
vier aufgezeichneten Sessions und einer aktuellen Session Sn des Prinzips in Anlehnung an
[NiTP04] dargestellt werden.
- 15 -
D1
S1
D2
x
S2
S3
x
D3
D4
D5
D6
D7
x
x
x
x
x
x
x
x
S4
x
Sn
x
D8
x
x
x
x
Bild 1 Prinzip des Co-Usage [NiTP04]
In der aktuellen Session S* hat der Benutzer bereits auf die Dokumente D2 und D3
zugegriffen und will sich nun weitere Dokumente empfehlen lassen. Bei dem nun
ablaufenden Algorithmus wird zunächst eine Liste erstellt, die die aufgezeichneten Sessions
nach höchster Ähnlichkeit absteigend ordnet. Die ähnlichste Session (im Beispielfall wäre
dies S2) wird nun herangezogen und Dokumente empfohlen, auf die in der aktuellen Session
noch nicht zugegriffen wurden (D5). Sind diese Empfehlungen unbrauchbar für den Benutzer
erfolgt die Empfehlung nach Vergleich mit der zweit-ähnlichsten Session usw.
Vergleicht man beide eben geschilderten Techniken, so lassen sich als Vorteile von
Content-Based Filtering Methoden festhalten, dass man beispielsweise auf keine Angaben der
Benutzer angewiesen ist. Dadurch gewinnt das System an Glaubwürdigkeit, da niemand
durch Empfehlungen eigene Interessen verfolgen kann. Außerdem ist die Sammlung von
Usage-Daten schon möglich, bevor das Recommender System tatsächlich eingesetzt wird. Es
kann dadurch das so genannte „cold-start“-Problem verhindert werden. Das Collaborative
Filtering hat allerdings den Vorteil, dass es von Produkteigenschaften unabhängig ist. Somit
besteht einerseits keine Notwendigkeit der Beschreibbarkeit der Produkte (was abseits von
digitalen Bibliotheken beispielsweise bei Düften, Bildern etc. nur sehr schwer möglich ist)
und andererseits können auch nicht-ähnliche Produkte (Dokumente) sowie neue Produkte
(Dokumente) in die Empfehlung miteinbezogen werden. [o.A.c], [NiTP04]
4.2.1.3 Hybride Techniken
Weiters existieren auch Ansätze, die versuchen beide Varianten zu kombinieren, um
schließlich Empfehlungen generieren, in die beide Methoden einfließen. Dadurch soll es
möglich werden, noch passendere Empfehlungen zu generieren. Die hybriden Ansätze
unterscheiden sich allerdings wiederum in ihrer Komplexität, sodass man sie differenziert
betrachten muss. Eine Möglichkeit besteht, ähnlich wie zuvor beschrieben, die beiden nichthybriden Ansätze einzeln anzuwenden, und die daraus resultierenden Ergebnisse zu einer
Empfehlung zu kombinieren. [HCOC02] In diesem Fall kann man allerdings noch nicht von
einem hybriden Ansatz im engeren Sinn sprechen Die andere Technik setzt einen Schritt
früher an, und generiert die Empfehlungen auf einer gemeinsamen Repräsentationsebene von
Dokumenten und Benutzern. [YaLi05] Hybride Techniken finden sich beispielsweise in Fab,
das im Folgenden kurz vorgestellt werden soll.
- 16 -
4.2.1.3.1
Fab
Fab ist ein Recommender System für Web-Seiten, das im Rahmen des Stanford Digital
Library Project entwickelt wurde. Benutzerprofile werden dabei auf Basis von Daten, die sich
aus den in der Vergangenheit betrachteten Dokumenten ergeben, erstellt. Diese
Benutzerprofile werden in weiterer Folge mit anderen Benutzerprofilen verglichen.
Empfehlungen für ein bestimmtes Dokument werden dann ausgesprochen, wenn dieses
Dokument den Daten im Benutzerprofil ähnlich ist, oder wenn Benutzer mit ähnlichen
Benutzerprofilen dieses Dokument als relevant bewertet haben. Sowohl die Repräsentation
der Benutzerinteressen, als auch die der Dokumente (der Web-Seite) erfolgt in Form von
Vektoren. Zunächst suchen „collection agents“ nach Dokumenten und gruppieren diese in
bestimmte Themengruppen. In weiterer Folge greifen „selection agents“ je nach
Benutzerprofilen auf diese Themencluster zu um Dokumente für einen speziellen Benutzer zu
finden. [BaSh97]
Das Besondere an Fab ist dessen Adaptivität, wodurch die Empfehlungen personalisiert
werden können. Benutzer können die „selection agents“ als auch die „collection agents“ mit
Feedback in Form einer 7-stufigen Beurteilung (3…excellent, 0…neutral, -3…terrible)
[BalaoJ]der Relevanz des Dokuments updaten, wodurch das ganze System lernt. [BaSh97]
Die „collection agents“ werden darauf trainiert, die Bedürfnisse einer Benutzergruppe zu
lernen, und die „selection agents“ der Benutzer sollen deren individuelle Bedürfnisse kennen
lernen. [Chee00] Man geht weiters davon aus, dass sich Benutzerinteressen im Laufe der Zeit
ändern. Daher werden die Gewichte der Benutzerinteressensvektoren täglich mit 0,97
multipliziert. [BalaoJ]
4.2.1.3.2
Graph-Based Approach
Während in Fab die Beziehungen zwischen Dokumenten und Benutzern jeweils einzeln
analysiert werden, liefert ein graphen-basierter Ansatz von [HCOC02] ein Modell, das auf
einer Ebene Ähnlichkeiten zwischen Dokumenten (typisch für das Content-Based Filtering),
auf einer zweiten Ebene Ähnlichkeiten zwischen Benutzern (typisch für das Collaborative
Filtering) und zusätzlich zwischen diesen beiden Ebenen Beziehungen zwischen Dokumenten
und Benutzern berücksichtigt.
Auch hier erfolgt die Repräsentation der Benutzer und der Dokumente durch Vektoren.
Die Vektoren zur Beschreibung der Benutzer ergeben sich aus den jeweiligen
demographischen Daten und jene der Dokumente enthalten sowohl Informationen zum Inhalt
als auch Informationen über einzelne Attribute der Dokumente.
- 17 -
0,8
Dokument-Ebene
D1
D2
0,8
0,5
0,8
D3
0,5
0,5
B1
0,7
B2
Benutzer-Ebene
Bild 2 Modell des Graph-Based Approach [HCOC02]
Jede Ebene des Modells besteht aus Knoten, die je nach Ebene in der sie vorkommen einen
Benutzer oder ein Dokument darstellen. Die Kanten zwischen den Knoten drücken aus, dass
sich die verbundenen Knoten ähnlich sind. Die Gewichtungen der Kanten drücken die Stärke
der Ähnlichkeit aus. Auf der Ebene der Dokumente muss erwähnt werden, dass
Ähnlichkeiten, die auf Inhalten von Dokumenten basieren, keinesfalls symmetrisch sein
müssen. Während bei Attributen wie Autor, Erscheinungsjahr oder Kategorie entweder eine
(symmetrische) Übereinstimmung zwischen zwei Dokumenten gegeben ist oder nicht, kann
die Gewichtung der Ähnlichkeit auf Basis des Inhalts von Dokument D1 zu D2 anders sein als
die Ähnlichkeit von D2 zu D1. Die endgültige Gewichtung zwischen Dokumenten wird
aufgrund aller Attribute (Inhalt, Autor, Kategorie,…) ermittelt. Die Gewichtung der
Ähnlichkeiten zwischen Benutzern wird auf Basis der demographischen Daten berechnet. Die
Beziehungen zwischen den beiden Ebenen ergeben sich durch den Zugriff der Benutzer auf
Dokumente.
Die Empfehlungen werden nun auf Basis der Gewichtungen der Verbindungen zwischen
den Benutzern und den Dokumenten generiert. Das Dokument, das die stärkste Verbindung
mit einem Benutzer aufweisen kann, und das von diesem Benutzer noch nicht gelesen wurde,
wird in der Liste der Empfehlungen an oberster Stelle gereiht. Je nachdem über wie viele
Kanten man die Ähnlichkeit transitiv ableitet, umso komplexer werden die Berechnungen.
Gibt es im oberen Bild zwischen Benutzer B1 und Dokument D1 noch keine direkte
Verbindung, ergeben sich, wenn man die Ähnlichkeit über drei Kanten transitiv ableitet, vier
Möglichkeiten (B1-D2-D1, B1-B2-D1-D2, B1-D2-D3-D1, und B1-B2-D3-D4). Den Wert der
Ähnlichkeit nach diesem Modell errechnet sich durch Multiplikation der Werte der Kanten
zwischen den Knoten und anschließender Addition (0,3[=0,5*0,6]+0,21+0,12+0,28=0,91)
Für komplexere Berechnungen eignet sich der Einsatz von Techniken der künstlichen
Intelligenz in Form eines Hopfield-Netz Algorithmus3.
Die Stärken dieser Technik der Empfehlungsgenerierung sind vielfältig. Einerseits gilt
dieses Modell als flexibel, da die Gewichte, mit der die einzelnen Attribute gewichtet werden,
3
Zur genaueren Beschreibung darf auf [HCOC02] verwiesen werden.
- 18 -
je nach Bedeutung einzelner Attribute geändert werden können. Will man Empfehlungen
beispielsweise stärker aufgrund von Ähnlichkeiten zwischen Autoren generieren, so muss
man lediglich die Gewichtungen des Attributs „Autor“ erhöhen. Weiters können in diesem
hybriden Modell neben der hybriden Technik beide zugrunde liegenden Techniken auch
einzeln angewandt werden. Beschränkt man sich auf die Ebene der Dokumente und generiert
man Empfehlungen lediglich auf Basis von Ähnlichkeiten zwischen Dokumenten, so kann
man von Content-Based Filtering sprechen. Basieren die Empfehlungen lediglich auf
Grundlage von Ähnlichkeiten auf Benutzerebene, verwendet man reines Collaborative
Filtering. Da diese beiden Ebenen außerdem unabhängig voneinander sind und auf beiden
Ebenen unterschiedliche Algorithmen angewendet werden können, kann man die Modularität
als weitere Stärke bezeichnen.
4.2.2 Interesse
Leider liefern Recommender Systeme, welche ihre Empfehlungen auf Basis der Analyse
von Ähnlichkeiten generieren, nicht immer passende oder sinnvolle Ergebnisse. Folgende
Beispiele sollen dies verdeutlichen: [YaLi05]
In einer digitalen Bibliothek besteht die Möglichkeit auf die Datenbanken mehrerer
Bibliotheken zuzugreifen. Dadurch besteht die Möglichkeit, dass in dieser digitalen
Bibliothek zwei Exemplare des gleichen Dokuments existieren. Logischerweise haben diese
beiden Dokumente (D1, D2) die höchste Ähnlichkeit. Es gibt also kein Dokument Dn, das dem
Dokument D1 ähnlicher ist als D2. Will sich der Benutzer von einem solchen Recommender
System weitere Dokumente empfehlen lassen, wird als Empfehlung D2 (also das idente
Dokument) generiert.
Ein ähnliches Problem ergibt sich, wenn in dieser digitalen Bibliothek von einem
Dokument unterschiedliche Versionen (V1, V2) vorhanden sind und jeweils spätere Versionen
mehr Informationen beinhalten als frühere Versionen. Wiederum ist die Ähnlichkeit zwischen
diesen Dokumenten am größten. Das Recommender System würde einem Benutzer, der
zusätzliche Informationen zu V2 sucht, das ältere, weniger Information beinhaltende
Dokument V1 vorschlagen, was für den Benutzer allerdings keinen Zusatznutzen stiftet.
Weiters werden bei den bisherigen Ansätzen die eigentlichen Interessen der Benutzer in
keinster Weise berücksichtigt. Es befinden sich beispielsweise in einer digitalen Bibliothek
zwei Dokumente (D1, D2) zum Thema „Kernspaltung“, wobei Dokument D1 dieses Thema für
Kinder verständlich aufbereitet und D2 eine wissenschaftliche Abhandlung eines bekannten
Professors ist. Der Physikstudent Albert, der Informationen für seine Diplomarbeit sucht, wird
vermutlich großes Interesse an D2 haben. Hat D1 allerdings eine größere Ähnlichkeit zu
Dokument Dn, das der Physikstudent zuvor betrachtet hat, wird ihm von einem Recommender
System, das auf Ähnlichkeiten beruht, D1 empfohlen werden, das ihm allerdings nicht
weiterhilft.
4.2.2.1 Degree of Interest
Davon auszugehen, dass Dokumente, die mit einem konkreten Dokument gewisse
Ähnlichkeiten haben, dem tatsächlichen Informationsbedürfnis eines Benutzers entsprechen,
ist also ein Irrglaube. Daher muss man sich die Frage stellen, welche Eigenschaften ein
Dokument zusätzlich zur Ähnlichkeit haben muss, um als eine brauchbare Empfehlung zu
gelten. [YaLi05] stellen daher das Konzept des „degree of interest“ vor. Dadurch soll das
- 19 -
wahre Informationsbedürfnis eines Benutzers bezüglich eines Dokuments ausgedrückt und
bei der Generierung von Empfehlungen berücksichtigt werden können. Ein Recommender
System, das auf diesem Prinzip beruht, wurde in der „Unlimited Digital Library“ des Harbin
Institute od Technology“ (HIT) in China implementiert. Dieses Konzept beruht auf drei
Säulen: Die erste Säule ist die bereits beschriebene Ähnlichkeit zwischen einem Dokument
und anderen bereits betrachteten Dokumenten. Dazu kommen mit dem Informationsgehalt
eines Dokuments sowie der Neuigkeit der darin enthaltenen Informationen zwei weitere
wichtige Säulen dieses Konzepts.
In Experimenten konnte man deutliche Beziehungen zwischen diesen Faktoren
beobachten. Dokumente, deren Ähnlichkeit gleich „1“ (maximale Ähnlichkeit) ist, haben
einen Gehalt von Neuigkeit von „0“ (minimale Neuigkeit). Diese Dokumente waren, wie im
zuvor geschilderten Beispiel, entweder Duplikate oder unterschiedliche Versionen eines
Dokuments. Nimmt die Ähnlichkeit der Dokumente ab, steigt der Neuigkeitsgehalt. Der
Informationsgehalt bleibt aber auch bei hoher Ähnlichkeit unverändert. [YaLi05]
Das Interesse eines Benutzers i bezüglich des Dokuments j wird in [YaLi05] formal
definiert als: interest ij  max{ Rsim jj}  Info j , novu ij  ; j   knowledge i
Demnach würden nun Dokumente mit größerer Ähnlichkeit (Rsimjj’), größerem
Informationsgehalt (Infoj) und einem einen Grenzwert (  ) überschreitenden Grad an
Neuigkeit (novuij) bei der Empfehlungsgenerierung bevorzugt werden.
Wie können nun der Informationsgehalt und die Neuheit eines Dokuments gemessen
werden?
Um den Informationsgehalt eines Dokuments D1 zu ermitteln, sind die Anzahl der
unterschiedlichen Worte in D1 sowie die Länge von D1 entscheidende Parameter. Diese
werden nämlich mit der Anzahl an unterschiedlichen Worten im Dokumentenbestand sowie
mit der Länge des längsten Dokuments Dn in Beziehung gesetzt. Dokumente mit einem sich
so ergebenden Informationsgehalt würden somit zuerst empfohlen werden. Sind also in einer
digitalen Bibliothek mehrere gleiche Dokumente unterschiedlicher Version, wird die Version
empfohlen, welche den größten Informationsgehalt beinhaltet.
Um die Menge an Neuigkeit, die ein Dokument einem Benutzer bieten kann, berechnen zu
können, muss man zuerst den bereits vorhandenen Wissensstand des Benutzers kennen. Bei
der Ermittlung des Wissensstand eines Benutzers geht man davon aus, dass dieser den Inhalt
von Dokument Dn umfasst, wenn er Dn in der Vergangenheit schon aus der digitalen
Bibliothek downgeloadet hat, oder in Dn für eine gewisse, einen bestimmten Grenzwert
überschreitende Zeit darin gestöbert hat. Weitere wichtige Einflussgrößen bei der Ermittlung
der Neuheit eines Dokuments sind die darin vorkommenden Terme bzw. deren Gewichtung
im Dokument sowie der Zeitpunkt, wann das Dokument veröffentlicht wurde.
Das System der zuvor erwähnten „Unlimited Digital Library“ beinhaltet unterschiedliche
Module um die dafür notwendigen Informationen zu extrahieren.
Somit ist es möglich die generierten Empfehlungen besser auf die einzelnen Benutzer
abzustimmen. Dadurch würden Dokumente, welche dem Benutzer nicht ausreichend neue
Information liefern würden, nicht berücksichtigt werden. Dadurch ließe sich vermeiden, dass
Dokumente, die wie in den ersten beiden oben beschriebenen Beispielen entweder weniger
Information als das Ausgangsdokument haben oder die mit dem Ausgangsdokument sogar
ident sind, in der Empfehlungsliste aufscheinen. Die Kinderlektüre hätte somit vermutlich für
den Physikstudenten im dritten Beispiel keinerlei Neuheitswert und würde somit ebenfalls in
der Empfehlung nicht aufscheinen. Die Priorität der verbleibenden Dokumente ist schließlich
- 20 -
abhängig von deren Ähnlichkeiten mit dem Ausgangsdokument sowie von deren
Informationsgehalt. Je größer die Ähnlichkeit sowie der Informationsgehalt von Dokument
D1, desto eher wird angenommen, dass D1 dem wahren Informationsbedürfnis eines
Benutzers entspricht.
4.2.2.2 Latent Interest Analysis
In [ShDA02] wird auf Grundlage des von Michael Polanyi vorgestellten Konzepts des
„tacid knowledge“ die Technik der „Latent Interest Analysis“ (LIA) vorgestellt. Das Konzept
des „tacid knowledge“ besagt, dass beispielsweise Benutzer von digitalen Bibliotheken, die
nach bestimmten Themen suchen, nicht ihr ganzes vorhandenes Wissen explizit ausdrücken
können. Das Ziel der „Latent Interest Analysis“ ist es, aufgrund des „tacid knowledge“ die
Interessen bzw. das tatsächliche Informationsbedürfnis des Benutzers herauszufinden. Auf
Grundlage dieses Informationsbedürfnisses sollen in weiter Folge geeignete Empfehlungen
für diesen Benutzer generiert werden können.
Mit Hilfe welcher Methoden kann nun das implizite Wissen und das implizite
Informationsbedürfnis ermittelt werden?
Um das implizite Wissen zu ermitteln, kann man sich der Analyse der Log-Files bedienen.
Je nachdem welche Querys der Benutzer formuliert hat, auf welche Dokumente ein Benutzer
zugegriffen hat und wie lange dieser Benutzer diese Dokumente gelesen hat oder ob er sie
gespeichert, gedruckt, etc. hat, kann man davon ausgehen, ob er Kenntnis von den darin
behandelten Themen hat oder nicht, wie intensiv er sich mit diesem Thema beschäftigt hat
oder wie wichtig ihm das Thema ist. [ShDA02] rechtfertigt diese Annahme mit Bezug auf
empirische Ergebnisse, in welchen eine starke Beziehung zwischen der Lesezeit eines
Dokuments und dessen Relevanz für den Benutzer erkennbar ist. Bild 3 zeigt das „User
Information Needs Model“ als gewichteten Graphen.
Bild 3 User Information Needs Model [ShDA02]
Auch die Annahmen von Cooper, wonach sich Personen nur mit dem Erwerb von
Informationen beschäftigen, die auch ihrem Informationsbedürfnis entsprechen, rechtfertigen
diese These. Die Analyse des „tacid knowledge“, das sich in den gelesenen Dokumenten
- 21 -
verbirgt sowie andere Verhaltensweisen wie drucken, speichern, downloaden, etc., sind also
wichtig, um das Informationsbedürfnis des Benutzers festzustellen.
Um ausgehend vom impliziten Wissen Dokumente zu finden, die den impliziten Interessen
bzw. dem impliziten Informationsbedürfnis entsprechen, wurde in [ShDA02] die „Latente
Semantische Analyse“ als Technik für diesen Zweck vorgestellt. Bei der „Latenten
Semantischen Analyse“ wird im Gegensatz zu konventionellen Information Retrieval
Techniken nicht auf wörtliche Übereinstimmung der Abfragen mit den in den Dokumenten
vorkommenden Termen, sondern auf inhaltliche (semantische) Übereinstimmung geachtet.
Dadurch kann beispielsweise das Problem von Homographen (das sind Worte mit gleicher
Schreibweise, allerdings mit unterschiedlicher Bedeutung) ausgeschaltet werden, das bei
Abfragen, die auf wörtliche Übereinstimmungen achten, auftritt. Die „Latente Semantische
Analyse“ repräsentiert jedes Wort in einem k-dimensionalen „semantic space“, wobei k sehr
hoch ist (z.B.: 50-1500). [LaFL98] Ausgangspunkt der „Latenten Semantischen Analyse“ ist
eine Term-Dokument-Matrix. Das Element En,m dieser Matrix repräsentiert dabei die
Häufigkeit des Terms Tn in Dokument Dm. Wendet man auf diese Matrix die so genannte
„Singular Value Decomposition“ (SVD) Operation4, eine mathematisch-statistische
Operation, auf die an dieser Stelle allerdings nicht genauer eingegangen werden soll, an,
gelingt es, die im Text verborgenen semantischen Strukturen aufzudecken.
Formal kann der Informationsbedarf Q folgendermaßen ausgedrückt werden:
n
Q  0 q    j d j ,
j 1
dj
n

j 0
j
1
ist dabei der j-te Dokumentvektor (k-dimensional) von allen n betrachteten
Dokumenten,  j ist dessen Gewichtung aufgrund der Relevanz für den Benutzer und q ist
der (ebenfalls k-dimensionale) Queryvektor.
Die LIA Architektur (siehe Bild 4) besteht aus den beiden eben beschriebenen Modulen
der Analyse der Log-Daten, und der Latenten Semantischen Analyse, welche aufgrund der
hohen Rechenaufwände nur periodisch durchgeführt wird. Im Zentrum der Architektur steht
die „search/recommendation engine“ die Abfragen von Benutzern verarbeitet und relevante
Dokumente durch paarweise Vergleiche der Vektoren d j und Q ermittelt.
4
Ausführliche Informationen zur „Singular Value Decomposition“ finden Interessierte in [LaFL98]
- 22 -
Bild 4 LIA Architektur [ShDA02]
4.2.3 Vergleich der Techniken
Zum Abschluss dieses Abschnittes sollen die vorgestellten ähnlichkeitsbasierten Ansätze
sowie die beiden hybriden Ansätze („Graph-Based Approach“ und „Degree of Interest“) zur
Generierung von Empfehlungen in Bezug auf deren Recall und Precision verglichen werden.
Die zu Grunde liegenden Erkenntnisse wurden im Rahmen einer Testphase in der schon zuvor
erwähnten „Unlimited Digital Library“ gewonnen. [YaLi05]
Zunächst sollen Recall und Precision kurz definiert werden. [Pann04] Der Recall
(„Ausbeute“, „Nachweisquote“, „Vollständigkeitsquote“) gibt an, welcher Anteil der als
relevant geltenden Dokumente gefunden bzw. im Sinne eines Recommender Systems dem
Benutzer empfohlen wurden. Die Precision hingegen gibt an, welchen Anteil an den
empfohlenen Dokumenten die tatsächlich relevanten ausmachen. Ein hoher Recall bedeutet
demnach eine geringe Auswahl nicht relevanter Dokumente und eine hohe Precision lässt auf
einen geringen Ablehnungsgrad relevanter Dokumente schließen. Beides ist für die Qualität
eines Recommender Systems in digitalen Bibliotheken wichtig. Formal lassen sich die beiden
Größen folgendermaßen beschreiben.
Recall 
ausgewählt e relevante Dokumente
ausgewählt e relevante Dokumente
Precision 
alle relevanten Dokumente
alle ausgewählten Dokumente
Bei den in [YaLi05] durchgeführten Studien kam man zu folgenden Ergebnissen:
Unabhängig vom Wissensstand der Benutzer konnte das „degree of interest“-Konzept die
best geeigneten Empfehlungen generieren. Die Precision ist bei diesem Ansatz also
durchwegs am größten, während sie bei einfachen ähnlichkeitsbasierten Ansätzen
vergleichsweise am geringsten ist. Auffallend ist, dass die Precision aller Ansätze der
- 23 -
Empfehlungsgenerierung mit zunehmender Anzahl der Dokumente, auf die ein Benutzer mit
Fortdauer der Zeit zugreift, zunimmt. Allerdings wird der Qualitätsunterschied der
unterschiedlichen Konzepte hinsichtlich der Precision ebenfalls immer deutlicher. Eine zweite
Erkenntnis, die man aus den Untersuchungen gewinnen konnte, war, dass unabhängig von der
Anzahl der Empfehlungen, die man den Benutzern vorschlägt, ebenfalls die Precision des
„degree of interest“ am höchsten ist. Zwischen 5 und 10 Vorschlägen hat dieses Konzept die
höchste Precision, es nimmt mit zunehmender Anzahl allerdings stärker ab als die Precision
des „graph-based“ und des „similarity-based“ Konzepts. Grund für die hohe Precision des
„degree of interest“ ist, dass durch die Berücksichtigung des Grads an Neuigkeit des
Informationgehaltes wiederholte Empfehlungen von gleichen Dokumenten oder Dokumenten
unterschiedlicher Versionen vermieden wird. Nicht nur bei den Resultaten der Precision,
sondern auch bei denen des Recall konnte das Konzept von IBR die besten Ergebnisse
erzielen.
Diese Ergebnisse lassen den Schluss vermuten, dass je mehr ein Recommender System
über einen Benutzer weiß, desto geeigneter die generierten Empfehlungen in Hinblick auf
Precision und Recall sind.
4.3 Nutzen von Recommender Systemen in digitalen Bibliotheken
Zusammengefasst kann gesagt werden, dass der Nutzen für den Benutzer digitaler
Bibliotheken vielfältig ist:
Aufgrund der für den Benutzer möglicherweise zu großen verfügbaren Datenmengen wird
es durch Recommender Systeme möglich, diese Informationsüberflutung für den Benutzer
einzudämmen. Dadurch wird es für den Benutzer möglich, die große Menge an digitalen
Informationsträgern gezielter nach geeigneten Informationen zu durchsuchen. Damit
verbunden ist aufgrund der geringeren Zeit, die für einen erfolgreichen Suchvorgang
aufgewendet werden muss, eine Senkung der Suchkosten. Dadurch wird die Sucheffektivität
gesteigert. Außerdem wird es durch Recommender Systeme, die das wahre Interesse eines
Benutzers herauszufinden versuchen, ermöglicht, dass Benutzer, die Dokumente zum
gleichen Thema suchen, zu unterschiedlichen, ihren tatsächlichen persönlichen Interessen
entsprechenden Suchergebnissen, kommen können. Außerdem konnte gezeigt werden, dass
bestimmte Techniken der Empfehlungsgenerierung zu äußerst guten Ergebnissen bei
Precision und Recall führen können. Der Nutzen für den Benutzer besteht darin, dass er
soweit Sicherheit hat, dass zum einen nur wenige nicht-relevante Dokumente in den
Empfehlungen enthalten sind und zum anderen, dass nur wenige relevante Dokumente nicht
in der Empfehlungsliste aufscheinen.
Wenn auch Recommender Systeme einen wichtigen Baustein zur Steigerung des Nutzens
in digitalen Bibliotheken darstellen, existieren zahlreiche andere Bausteine, die digitale
Bibliotheken für den Benutzer sinnvoll erweitern können. Auf weitere Möglichkeiten wird
abschließend in Abschnitt 4.5 kurz eingegangen.
4.4 Probleme
Trotz der breiten Akzeptanz sowie des erfolgreichen Einsatzes von Empfehlungssystemen
wie beispielsweise im E-Commerce (siehe Amazon), muss man sich mit der Frage
beschäftigen, warum der Einsatz von solchen Systemen in digitalen Bibliotheken noch nicht
- 24 -
in ähnlicher Weise verbreitet ist. Auf der Suche nach Antworten wurden drei Ursachen
herausgearbeitet: [GeNT04], [NiTP04]

Privatsphäre und Datenschutz:
In digitalen Bibliotheken fällt aufgrund der zur Generierung der Empfehlungen
vielfach erforderlichen Log-Daten sowie der gespeicherten personenbezogenen Daten
viel Datenmaterial an, das Schutz erfordert. Im Rahmen der Recherchearbeiten zu
dieser Arbeit wurden die Schutzvorschriften offensichtlich, als versucht wurde, LogDaten der digitalen Bibliothek der Universität Karlsruhe zu erhalten, um die Struktur
dieser Bibliotheks-Log-Daten zu studieren. Man kann im Allgemeinen von einem
Tradeoff zwischen erweiteter Funktionalität zum Nutzen des Benutzers und Aufgabe
eines Teils seiner Privatsphäre sprechen. Es erscheint logisch, dass die Analyse von
nicht-anonymen Log-Daten mächtigere Ergebnisse liefern kann, als dies bei
anonymisierten Daten der Fall sein kann. An dieser Stelle ist durchaus auch ein
Vergleich zu aktuellen Diskussionen bezüglich des Einsatzes der RFID-Technik im
stationären Handel angebracht. Auch dort scheint der Einsatz dieser mächtigen
Technik am Widerstand von Datenschützern vorerst zu scheitern.
Es erfordert also ein gewisses Vertrauen seitens der Benutzer gegenüber den
Betreibern der digitalen Bibliothek, dass Daten nicht missbraucht werden. Dieses
Vertrauen kann durch Aufklärungsmaßnahmen bezüglich der Art der Verwendung der
Daten gewonnen werden. Außerdem kann es ratsam sein, wenn man dem Benutzer
eine gewisse Kontrolle über die Verwendungsart der von ihm zur Verfügung gestellten
Daten überlässt.

Budgetbeschränkungen:
Vielfach verfügen Bibliotheken lediglich über mangelnde finanzielle Mittel. Dies
scheint ein Grund dafür zu sein, warum IT-Investitionen und damit der Aufbau
digitaler Bibliotheken, geschweige denn Recommender Systeme, vielfach
unterbleiben. Allerdings zeigt das Beispiel des Bibliotheksportals Karlsruhe (siehe
Kapitel 5), dass durchaus auch kostengünstige Möglichkeiten vorhanden sind.

Datenmenge:
Die großen Datenmengen in digitalen Bibliotheken erfordern eine geeignete
Organisation der Daten, die vielfach nicht in der erforderlichen Struktur vorhanden ist.
4.5 Zusätzliche Value Added Services für digitale Bibliotheken
Recommender Systeme können wie beschrieben den Nutzen für Benutzer digitaler
Bibliotheken deutlich steigern. Neben Recommender Systemen existieren in digitalen
Bibliotheken an der Schnittstelle zum Benutzer auch andere Maßnahmen und Tools zur
Individualisierung und zur Abstimmung digitaler Bibliotheken an individuelle Anforderungen
und Präferenzen der Benutzer.
4.5.1 AVANTI Browser
Setzt man sich als Betreiber einer digitalen Bibliothek zum Ziel eine größtmögliche
Benutzergruppe anzusprechen, müssen die Funktionen der digitalen Bibliothek für jedermann,
beispielsweise ältere oder behinderte Menschen, nutzbar sein. Ein Tool, das für Benutzer
- 25 -
digitaler Bibliotheken sehr nützlich sein kann, ist der im Rahmen des ACTS-AVANTI
Projekts entwickelte AVANTI Browser. Folgend dem Prinzip des „Unified User Interface
Development“ (U²ID) wurde der AVANTI Browser mit einheitlichem („unified“) User
Interface für alle Benutzergruppen entwickelt, verfügt aber über alternative adaptierbare
sowie adaptive Komponenten zur Interaktion für unterschiedliche Benutzergruppen.
Beispielsweise gibt es nicht-visuelle Hilfsmittel für blinde Benutzer. Für Benutzer digitaler
Bibliotheken sind die möglichen kontextbezogenen Adaptionen, die das Finden von
relevanter Information erleichtern sollen, interessant. [SAPN99]
4.5.2 MyLibrary
Der Begriff „MyLibrary“ steht für die Möglichkeit, sich in einer digitalen Bibliothek durch
eine Vielzahl von Tools seinen eigenen, individuellen Benutzerbereich - „seine eigene
Bibliothek“ - nach individuellen Vorstellungen einzurichten.
Es existieren zahlreiche MyLibrary Projekte (siehe [o.A.c]), wobei auf die Funktionen des
MyLibrary Systems, welches am Los Alamos National Laboratory („MyLibrary @LANL“)
verwirklicht wurde, genauer eingegangen werden soll. Dort haben Benutzer die Möglichkeit,
gefundene Informationen zu kategorisieren sowie Links zu den Ressourcen in diesen
Kategorien abzulegen. Dies ist vergleichbar mit Bookmarks in Web-Browsern. Als
zusätzliches Feature beinhaltet MyLibrary @LANL einen Mechanismus, der regelmäßig
überprüft, ob die Links zu den Ressourcen noch gültig sind. Falls nicht, wird der Benutzer
sofort davon unterrichtet. Weiters besteht die Möglichkeit das User Interface individuell zu
verändern. Dazu gehören Änderungen der Themes oder Änderungen in der Kategorisierung
der Informationsressourcen, etc. Eine weitere Möglichkeit besteht darin, je nach
Interessensgebieten Benutzergruppen zu bilden und Ressourcen jedem in der Gruppe
zugänglich zu machen. Außerdem werden Benutzer über ein Message-Fenster über
Neuigkeiten, die seine Interessen betreffen, verständigt. [GMBMoJ]
- 26 -
5 Umsetzungsbeispiel aus der Praxis
Zum Abschluss der Arbeit soll noch ein Anwendungsbeispiel aus der Praxis den Aufbau
einer Architektur eines Empfehlungssystems erläutern. [GeNT04]
Das Recommender System, das auf der Universität Karlsruhe entwickelt wurde, findet
nicht nur in der digitalen Universitätsbibliothek Anwendung, sondern versorgt das
südwestdeutsche Bibliotheksnetzwerk, welches 25 Bibliotheken umfasst, mit diesem Service.
Die Architektur umfasst drei Ebenen:
Bild 5 Architektur des Recommender Systems des Bibliotheksportals Karlsruhe [GeNT04]
Die unterste Ebene repräsentiert die unterschiedlichen Datenquellen. Dazu zählen die
Daten, welche aus dem ursprünglichen Bibliothekssystem (ohne Empfehlungssystem)
stammen, aus den Daten, die für die Empfehlungsgenerierung relevant sind, sowie aus den
Daten der Kataloge der externen Bibliotheken.
Die mittlere Ebene ist jene der Agenten. Durch das Zusammenwirken der Agenten wird die
Generierung der Empfehlungen ermöglicht. Die Agenten reagieren auf Veränderungen und
erfüllen daraufhin ihre jeweiligen Teilaufgaben.
Auf der obersten Ebene findet sich das User Interface.
Stellt nun ein Benutzer eine Suchanfrage an das System, wird zunächst der „OPAC-agent“
(Online Public Access Catalog) tätig, sucht nach relevanten Ressourcen und liefert die
Ergebnisse zurück an den Benutzer. Gleichzeitig erfolgt ein Eintrag in den Log-Files, um
später Analysen durchführen zu können.
Ausgangspunkt im Prozess der Empfehlungsgenerierung ist der „transaction agent“. Dieser
sendet in regelmäßigen Abständen die Log-Daten an das „Recommendation System“, wo
zunächst der „aggregation agent“ tätig wird, die Log-Daten auswertet und alle relevanten
Empfehlungen generiert. Diese Empfehlungen werden in einem Repository gespeichert.
Wichtig ist es an dieser Stelle zu erwähnen, dass die Empfehlungen ohne Wissen über den
Inhalt der Dokumente generiert werden. Die einzige Information, die im Rahmen der
Empfehlungsgenerierung benötigt wird, ist eine eindeutige Identifikation für jedes Dokument,
welche sich aus einer Dokument-ID und einer ID der Bibliothek zusammensetzt, aus der das
- 27 -
Dokument stammt. Die Beschreibung der Dokumente erfolgt durch das StandardMetadatenformat in deutschen Bibliotheken, das so genannte „Maschinelle Austauschformat
für Bibliotheken“ (MAB).
Der „pre-generation agent“ hat die Aufgabe, die generierten Empfehlungen auf
Übereinstimmung mit dem MAB zu prüfen. Fällt bei der Überprüfung auf, dass die
Bibliotheks-ID fehlt, kommuniziert der „pre-generation agent“ mit dem „doc-info agent“ der
lokalen Bibliothek, welcher die MAB Daten extrahiert und an den „pre-generation agent“
zurück sendet. Diese aktualisierten Daten werden im Repository wiederum gespeichert. Sind
die Empfehlungen korrekt, werden Webseiten mit Empfehlungslisten generiert und im „web
page repository“ für mögliche Abrufe bereitgehalten.
Um den Benutzer gleichzeitig zu seiner Abfrage die für ihn relevanten Empfehlungen
vorzuschlagen, überprüft der „visualization agent“ das „web page repository“, ob für das
gerade abgefragte Dokument relevante Empfehlungswebseiten vorliegen und liefert einen
Link zu dieser Seite oder direkt die Liste der Empfehlungen zurück an den Benutzer.
Unabhängig von allen anderen Agenten sammelt schließlich der „evaluation agent“
Beurteilungen von Experten oder anderen Benutzern und speichert diese Beurteilungen für
spätere Analysen.
Das Prinzip, das der Generierung der Empfehlungen zu Grunde liegt, ist „Ehrenbergs’s
Repeat-Buying Theorie“. Vorwiegend findet diese Theorie im Marketing Anwendung. Damit
kann in digitalen Bibliotheken die Häufigkeitsverteilung von gemeinsam (in einer Session)
betrachteten digitalen Dokumenten beschrieben werden. Dokumente, die in einer Session
häufiger als erwartet gemeinsam auftreten, werden bei der Empfehlungsgenerierung
berücksichtigt. Nicht zufällig gemeinsam auftretende Dokumente bzw. nicht zufällig
gemeinsam gekaufte Produkte wie „a six-pack of beer, spare-ribs, potatoes, and barbecuesauce for dinner“ werden nicht berücksichtigt.
Eine interessante Frage, die beim Einsatz von Recommender Systemen auftritt, ist die
Frage der anfallenden Kosten.
Da die Software ausschließlich aus frei verfügbaren Open-Source Quellen stammt, fallen
softwareseitig keine Kosten an.
Die Kosten der Hardware halten sich mit $2500 für einen mit einem 1,2 GHz AMD Athlon
Prozessor sowie einem 1,5 GB großen Hauptspeicher ausgestatteten PC auch im Rahmen.
Somit sollte die Leistbarkeit des Systems für digitale Bibliotheken keinen allzu großen
Hemmschuh für den Einsatz dieses Empfehlungssystems darstellen.
Somit löst diese Variante auch einige Probleme aus Kapitel 4.4 Die Datenmenge ist auf
mehrere Systeme aufgeteilt und die Kosten konnten gering gehalten werden.
- 28 -
6 Konklusio
Recommender Systeme können in digitalen Bibliotheken ein hilfreiches Service darstellen
und den Nutzen und die Zufriedenheit der Benutzer der digitalen Bibliothek positiv
beeinflussen. Dies allerdings nur dann, wenn die vom Recommender System generierten
Empfehlungen dem Benutzer brauchbar erscheinen. Andernfalls wird der Benutzer der
digitalen Bibliothek möglicherweise den Rücken kehren.
Festzuhalten bleibt, dass je mehr ein System über einen Benutzer weiß, desto bessere
Empfehlungen können generiert werden. Das sieht man auch an den Ergebnissen in Bezug auf
Precision und Recall, bei dem hybride Techniken klare Vorteile gegenüber „klassischen“
ähnlichkeitsbasierten Techniken haben. Kann man das wahre Interesse der einzelnen Benutzer
ermitteln, können die Empfehlungen noch präziser und individueller gestaltet werden. Es
muss also getrachtet werden, so viele Informationen über Benutzer zu gewinnen wie möglich.
Um noch individueller auf einzelne Benutzer der digitalen Bibliothek sowie auf deren
Anforderungen (beispielsweise aufgrund Behinderungen) einzugehen und deren Nutzen
weiter zu steigern, gibt es weitere brauchbare Tools.
Jedoch existieren auch teilweise ernsthafte Probleme bzw. Bedenken, die in digitalen
Bibliotheken im Allgemeinen sowie beim Einsatz von Recommender Systemen in digitalen
Bibliotheken im Speziellen entstehen können. Diese müssen jedenfalls beachtet und geklärt
werden.
Machen Recommender Systeme in digitalen Bibliotheken Sinn? Recommender Systeme in
digitalen Bibliotheken machen jedenfalls Sinn, wenn es gelingt, Empfehlungen mit hoher
Precision und hohem Recall zu generieren, da der Nutzen für Benutzer hoch ist und Kosten
für das System relativ niedrig gering gehalten werden können (siehe Bibliotheksportal
Karlsruhe).
Trotzdem bleibt aus Sicht des Autors festzuhalten: Lieber auf Recommender Systeme in
digitalen Bibliotheken verzichten, als eine nicht ausgereifte Entwicklung zum Einsatz
bringen.
- 29 -
7 Literaturverzeichnis
[BalaoJ] Balabanovic, M.: An Adaptive Web Page Recommendation Service. Stanford.
[BaSh97] Balabanovic, M.; Shoham Y.: Fab: Content-Based, Collaborative Recommendation.
Stanford.
[Chee00] Sonny Hang Seng Chee: Rec Tree: A Linear Collaborative Filtering Algorithm.
Toronto 2000.
[CrKr02] Barrueco Cruz, J.; Krichel, T.: Co-usage of documents in a large digital library.
2002.
[DigB05] DigBib.org: Die freie digitale Bibliothek. http://www.digbib.org, abgerufen am
2005-03-27.
[FabroJ] Fabrizcek, S.: Personalisierung und Recommender Systeme - Einführung und
Überblick. München.
[Fisc03] Fischer, M.: Ein Beitrag zu Ähnlichkeitsmaßen im Kontext von
Wissensmanagement-Systemen. Graz. 2003.
[GeMG01] Geisler G.; McArthur, D.; Giersch, S.:: Developing Recommendation Services for
a Digital Library with Uncertain and Changing Data. Roanoke 2001.
[GeNT04] Geyer-Schulz, A; Neumann, A.; Thede, A.: An Architecture for Behavior-Based
Library Recommender Systems.
http://www.ala.org/ala/lita/litapublications/ital/2204geyer.htm, abgerufen am 2004-03-22.
[GMBMoJ] Di Giacomo, M.; Mahoney D.; Bollen J.; Monory-Hernandez, A.; Ruiz Meraz
C.M.: MyLibrary, A Personalization Service for Digital Library Environments. Los Alamos.
[HCOC02] Huang, Z.; Chung, W.; Ong, T.-H.; Chen,H.: A Graph-based Recommender
System for Digital Library. Tucson 2002.
[LaFL98] Laundauer T.K.; Flotz, P.W.; Laham, D.: An Introduction to Latent Semantic
Analysis. 1998.
[Lein98] Leiner B. M.: The Scope of the Digital Library.
http://www.diglib.org/metrics/public/papers/dig-lib-scope.html , abgerufen am 2005-03-27.
[NiTP04] Nichols, D.M; Twidale, M.B.; Paice, C.D.: Recommendation and Usage in the
Digital Library. http://www.comp.lancs.ac.uk/computing/research/cseg/projects/adriane/docs/
recommend.html, abgerufen am 2004-03-22.
[o.A.a] o.V.: http://www.worldwideachives.de/i_impressum.htm, abgerufen am 2005-04-02.
[o.A.b] o.V.: http://www.software-kompetenz.de/?15854, abgerufen am 2005-03-27.
- 30 -
[o.A.c] o.V.: http://www.library.vcu.edu/mylibrary/cil99.html, abgerufen am 2005-05-10.
[Pann04] Panny, W.: Information Retrieval. Wien. 2004.
[Raja04] Rajashekar T. B.: Digital Library and Information Services in Enterprises.
http://144.16.72.189/is214-2005-01-04/topic-1.htm, abgerufen am 2005-03-27.
[SAPN99] Stephanidis, D.; Akoumianakis, D.; Paramythis, A.; Nikolaou, C.: User interaction
in digital libraries: coping with diversity through adaptation. Springer-Verlag, 2000.
[ShDA02] Shuang, S.; Dong, A.; Agogino, A.: Modeling Information Needs in Engineering
Databases Using Tacid Knowlede. Berkeley 2002.
[Wiki05a] Wikipedia: Recommender System.
http://en.wikipedia.org/wiki/Recommender_system, abgerufen am 2005-03-27.
[Wiki05b] Wikipedia: Digitale Bibliothek. http://de.wikipedia.org/wiki/Digitale_Bibliothek,
abgerufen am 2005-03-27.
[Wiki05c] Wikipedia: Freie Inhalte. http://de.wikipedia.org/wiki/Freie_Inhalte, abgerufen am
2005-03-27.
[YaLi05] Yang, Y.; Li J. Z.: Interest-based Recommendation in Digital Library. 2005.
- 31 -
Herunterladen