3 Recommender Systeme in digitalen Bibliotheken

Recommender Systeme in digitalen
Bibliotheken
Bakkalaureatsarbeit
Betreuer:
Dr. Michael Hahsler
Institut für Informationsverarbeitung und Informationswirtschaft
Abteilung für Informationswirtschaft
Wirtschaftsuniversität Wien
Augasse 2-6
A-1090 Wien, AUSTRIA
von:
Richard Brand-Haushofer
Studienrichtung: Wirtschaftsinformatik
Matrikelnummer: 0250109
Recommendersysteme in digitalen Bibliotheken
Stichworte:
digitale Bibliothek, Recommender Systeme, Collaborative Filtering, Content-based Filtering,
Benutzerprofile, Hybride Recommender Systeme, Fab, LIBRA, Anforderungen
Keywords:
digital library, recommender systems, collaborative filtering, content-based filtering, user
profiles, hybrid recommender systems, Fab, LIBRA, requirements,
Zusammenfassung:
Diese Arbeit beschreibt im Allgemeinen den Einsatz von Recommender Systemen in digitalen
Bibliotheken. Nach einer kurzen Einleitung, in der diverse Anforderungen an Recommender
Systeme und digitale Bibliotheken beschrieben werden, behandelt diese Arbeit die beiden
Filtermethoden Content-based filtering und Collaborative filtering. Das Hauptaugenmerk liegt
dabei auf der Kombination dieser Methoden und deren Einsatz im Bibliothekswesen.
Abstract:
This paper describes the deployment of recommender systems in digital libraries. According
to a short prelude, in which miscellaneous requests at recommender systems and digital
libraries are described, this work explains the two filter methods content-based filtering and
collaborative filtering. The main part of this work concentrates on how these two filtering
methods are used in libraries.
Kernpunkte für das Management:
Dieser Beitrag beschreibt, wie Recommender Systeme in digitalen Bibliotheken eingesetzt
werden können, und welchen Nutzen ein Anwender daraus ziehen kann. Es werden
Möglichkeiten aufgezeigt, wie Benutzerprofile erstellt und von den Filtermethoden verwendet
werden können.

Content-based Filtering: Vergleicht die Inhalte der einzelnen Items und generiert daraus
Empfehlungen

Collaborative Filtering: Generiert Empfehlungen aufgrund von Ähnlichkeiten in den
Benutzerprofilen der einzelnen User.

Hybride Filtermethoden: Kombiniert die Vorteile der beiden Ansätze um so bessere
Recommendations zu ermitteln. Als Beispiele für hybride Systeme werden die Systeme
„Fab“ und „LIBRA“ näher erläutert.
- II -
Recommendersysteme in digitalen Bibliotheken
Inhaltsverzeichnis
Inhaltsverzeichnis ................................................................................................................... III
Abbildungsverzeichnis ........................................................................................................... IV
Tabellenverzeichnis ................................................................................................................ IV
1 Bibliotheken .......................................................................................................................... 1
1.1 konventionelle Bibliotheken ........................................................................................... 1
1.1.1 Entwicklung von wissenschaftlichen Bibliotheken .............................................. 1
1.2 digitale Bibliotheken ...................................................................................................... 2
1.2.1 digitale vs. virtuelle Bibliotheken ........................................................................ 2
1.2.2 technische und nicht-technische Aspekte ............................................................. 3
1.2.3 Chancen und Gefahren ......................................................................................... 3
1.2.4 funktionale und nicht-funktionale Anforderungen ............................................... 4
2 Recommender Systeme ........................................................................................................ 5
2.1 Allgemeines .................................................................................................................... 5
2.1.1 Definition - Entwicklung ...................................................................................... 5
2.1.2 Modell eines Recommendation Prozesses ........................................................... 7
2.2 Klassifizierung von Recommendersystemen .................................................................. 8
3 Recommender Systeme in digitalen Bibliotheken ............................................................. 9
3.1 Benutzerprofile ............................................................................................................... 9
3.1.1 Schritte der Informationserschließung................................................................ 10
3.1.2 Identifikation des Benutzers ............................................................................... 11
3.1.3 Profildatengewinnung......................................................................................... 12
3.2 Content-Based Recommendation ................................................................................. 13
3.2.1 Methode .............................................................................................................. 13
3.2.2 Kategorisierung der Content-Based Filtering Methoden.................................... 14
3.2.3 Probleme............................................................................................................. 16
3.3 Collaborative Filters ..................................................................................................... 16
3.3.1 Methode .............................................................................................................. 16
3.3.2 Kategorisierung der Collaborative Filtering Methoden...................................... 17
3.3.3 Probleme............................................................................................................. 18
3.4 Kombination von Content-Based und Collaborative Filtering ..................................... 19
3.4.1 Vorteile eines Hybrid-Systems ........................................................................... 19
3.4.2 System „Fab“ ...................................................................................................... 19
3.4.3 System „LIBRA“ ................................................................................................ 21
3.4.4 Hierarchical Bayesian Recommender System .................................................... 26
3.5 Probleme - Datenschutz ................................................................................................ 27
3.6 Fazit .............................................................................................................................. 28
Literaturverzeichnis ............................................................................................................... 29
- III -
Recommendersysteme in digitalen Bibliotheken
Abbildungsverzeichnis
Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01] ....................................... 8
Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02] .................... 17
Tabellenverzeichnis
Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01] ........................... 6
Tabelle 2 – Discovery Model - Quelle: [NTP97] ..................................................................... 10
- IV -
Recommendersysteme in digitalen Bibliotheken
1
-1-
Bibliotheken
„The digital age offers libraries an opportunity to shape
the future of knowledge management in the networked
community of the World Wide Web. “
Jay Jordan, Präsident von OCLC im Jahresbericht 1998/99
1.1 konventionelle Bibliotheken
1.1.1 Entwicklung von wissenschaftlichen Bibliotheken
Konventionelle Bibliotheken konzentrieren sich auf das Sammeln und Ausleihen analoger
Bestände wie zum Beispiel Zeitschriften, Bücher, Videoaufzeichnungen usw. Die
Entwicklung von Bibliotheken hat sich durch Innovationen in mehreren Stufen vollzogen, um
so auf die Herausforderungen, die der Wandel von der Industrie- zur Informationsgesellschaft
mit sich brachte, zu reagieren. Bibliotheken und diverse Informationseinrichtungen sind
entstanden, um den Bedarf an Informationen und Wissen der Gesellschaft zu befriedigen. Die
Entwicklung neuer Speichermedien, vom Buch bis hin zur digitalen Speicherung, hat
Bibliotheken und ihre konzeptionellen Grundlagen schon immer verändert. Die steigende
Verbreitung wissenschaftlicher Zeitschriften im 17. und 18. Jahrhundert führte dazu, dass sich
im 18. und 19. Jahrhundert die wissenschaftliche Gebrauchsbibliothek entwickelte. Der
gegenwärtige, durch die digitale Revolution ausgelöste, Wandel von der Industrie- zur
Informationsgesellschaft bringt eine Verkürzung der Innovationszyklen mit sich, was klar als
Strukturmerkmal der Informationsgesellschaft angesehen werden kann [GP99]. Derzeit
erkennt
man
einen
dreistufigen
Entwicklungsprozess,
welcher
durch
Informationstechnologien ausgelöst wurde:
1.1.1.1 Automatisierung
Die Automatisierung begann in den 60er Jahren und bezieht sich hauptsächlich auf die
automatische Erschließung und Bereitstellung von Informationsmaterial. Dadurch wurden
Vorgänge in Bibliotheken rationalisiert und beschleunigt. In Folge dessen entstanden die
ersten OPACs (Online Public Access Catalog), digitale Kataloge, welche Metadaten über
Bücher usw. beinhalten, die den Benutzern zugänglich gemacht wurden. [RH02]
Recommendersysteme in digitalen Bibliotheken
1.1.1.2 Digitalisierung
In den 80er Jahren folgte dann die Digitalisierung. Man ging dazu über, nicht nur Metadaten,
sondern die Medien selbst in digitaler Form zu speichern und den Benutzern zur Verfügung
zu stellen. Man fand nun auch multimediale CD-ROMs und digitale Volltexte in den
Beständen wissenschaftlicher Bibliotheken. Mit der Zeit wuchs der Anteil dieser Medien
zusehends an. [RFD99]
1.1.1.3 Virtualisierung
Die Anfänge der Virtualisierung sind in den Anfängen der 90er Jahre zu suchen. Man versteht
darunter, dass die Informationsversorgung aus verteilten Ressourcen in digitaler Form erfolgt.
Dabei kann es sich entweder um externe oder um interne Ressourcen handeln, die über
Netzwerke verbreitet und unter einheitlichen Gesichtspunkten aufbereitet werden. [OA95]
1.2 digitale Bibliotheken
1.2.1 digitale vs. virtuelle Bibliotheken
Im Zusammenhang mit der oben genannten Virtualisierung werden oft die Begriffe „digitale
Bibliothek“ und „virtuelle Bibliothek“ verwendet. Eine eindeutige Abgrenzung bzw.
Definition dieser Terme hat sich bislang noch nicht durchgesetzt. Sie werden daher oft in
einer nicht genau erläuterten Bedeutung gebraucht, was leicht zu Fehlinterpretationen führen
kann. Digitale Bibliotheken könnte man folgendermaßen charakterisieren: „Bibliotheken, die
sich auf das Sammeln und Ausleihen digitaler Medien konzentrieren.“ [KH04] Unter
virtuellen Bibliotheken versteht man oft „Bibliotheken, die ortsgebundene sowie
ortsunabhängige Daten verwalten und anbieten“. [KH04] Der Nachteil dieser oben genannten
Begriffe besteht jedoch darin, dass sie sich ausschließlich auf digitale Medien beziehen.
Digitale Medien machen in der Praxis jedoch nur einen Teil des gesamten Bestandes an
Informationsmaterial aus. Deshalb wurde als weitere Bezeichnung 1997 im Rahmen des
britischen eLib-Programms der Begriff „Hybrid Library“ eingeführt. [RC98] Hierunter
versteht man im Allgemeinen „Bibliotheken, die sich auf das Sammeln und Ausleihen sowohl
analoger Bestände, als auch digitaler Medien konzentrieren.“ [KH04] Damit wird man der
Einsicht gerecht, dass in absehbarer Zeit auch physische Dokumente in Bibliotheken weiterhin
Bestand haben werden. Alle diese Begriffe von digitaler über virtueller bis hin zu hybrider
Bibliothek bleiben jedoch medien-, also bestandsbezogen. Es kommt damit jedoch nicht zum
Ausdruck, dass Bibliotheken nicht nur Medien aufbewahren und bereitstellen, sondern
-2-
Recommendersysteme in digitalen Bibliotheken
-3-
darüber hinaus auch als Dienstleistungseinrichtungen für ihre Besucher agieren. Dieser Aspekt
gewinnt in der heutigen Informationsgesellschaft immer mehr an Bedeutung. [RH02]
1.2.2 technische und nicht-technische Aspekte
Der Hauptzweck digitaler Bibliotheken ist natürlich das Sammeln, Speichern, Indexieren und
Präsentieren digitaler Dokumente. Diese Daten sind zumeist in unterschiedlichen Formaten
wie Text, Video oder Ton vorhanden, und müssen oftmals in verteilten Datenbanken
gespeichert werden. Damit wird ein gutes Datenbankmanagement unumgänglich. Außerdem
müssen digitale Bibliotheken für ihre Benutzer mehr als nur eine Informationsquelle
darstellen. Sie müssen ihnen auch die Möglichkeit bieten, untereinander in Kontakt zu treten
um Informationen auszutauschen. [SPAN98]
Zu den nicht-technischen Aspekten gehören vor allem Fragen wie jene nach dem geistigen
Eigentum an Dokumenten. Wer besitzt die Urheberrechte auf welche Informationsquellen und
inwieweit
dürfen
Unterschiedliche
diese
Benutzer
Dokumente
stellen
veröffentlicht
natürlich
auch
bzw.
heruntergeladen
unterschiedliche
werden.
nicht-technische
Anforderungen an ein Bibliothekssystem. So werden zum Beispiel Professoren oder Experten
eher daran interessiert sein, Dokumente zu veröffentlichen, während für Studenten eher das
rasche Auffinden relevanter Informationen im Vordergrund stehen wird. Vor allem die
unterschiedlichen nicht-technischen Aspekte digitaler Bibliotheken erhöhen die Komplexität
in der Entwicklung solcher Systeme und den Wartungsaufwand in der Praxis. [SPAN98]
1.2.3 Chancen und Gefahren
Zu den großen Chancen digitaler Bibliotheken zählen vor allem, dass immense Mengen an
unterschiedlichen Informationen von verschiedenen Benutzergruppen an fast jedem Ort der
Welt abgerufen werden können. Um bei dieser Informationsflut den Usern das Durchsuchen
der Datenmengen zu erleichtern, bieten digitale Bibliotheken, im Gegensatz zu
konventionellen Bibliotheken, die Möglichkeit, Recommendersysteme einzusetzen. Den
Benutzern wird damit das Auffinden und Bewerten relevanter Dokumente erleichtert.
Außerdem kann den Usern die Möglichkeit geboten werden, selbst ein Urteil über die
Relevanz eines Dokumentes abzugeben, oder eine Empfehlung zu einem bestimmten
Dokument zu schreiben. In digitalen Bibliotheken steigt weiters die Gefahr an, dass Artikel
oder Unterlagen veröffentlicht werden, die nicht einem gewissen Qualitätsstandart
entsprechen, da sie oftmals nicht mehr von Experten bewertet und beurteilt werden, sondern
Recommendersysteme in digitalen Bibliotheken
-4-
automatisch vom Bibliothekssystem beschrieben und in den Bestand eingeordnet werden.
[SAPN98]
1.2.4 funktionale und nicht-funktionale Anforderungen
Jede Bibliothek ist natürlich inhaltlich durch die Unterlagen, die ihr zugrunde liegen,
begrenzt. Da bei digitalen Bibliotheken die räumliche bzw. örtliche Begrenzung
konventioneller Bibliotheken wegfällt, ergeben sich noch weitere funktionale und nichtfunktionale Anforderungen. Die Hauptaufgaben, das Indexieren, Suchen, Finden und
Präsentieren von Dokumenten müssen jedoch beide Arten von Bibliotheken erfüllen, wenn
auch
in
unterschiedlicher Art
und Weise.
Zudem
benötigen die verschiedenen
Personengruppen, die mit digitalen Bibliotheken zu tun haben, unterschiedliche Tools, um
ihre Aufgaben bzw. Bedürfnisse zu erfüllen. So sind zum Beispiel Mitarbeiter hauptsächlich
dafür zuständig, alles in einer den Anforderungen der Benutzer entsprechender Form zu
organisieren. Dies beinhaltet Tätigkeiten wie das Erwerben, Lagern und Aufbewahren,
Klassifizieren und Indexieren von Materialien. Wobei die Klassifizierung und Indexierung
oftmals schon maschinell erfolgen. Mitarbeiter benötigen daher Content Management
Systeme zur Verwaltung und Strukturierung der verschiedenen Informationsquellen. Die
zweite Personengruppe, nämlich die Benutzer, sind hauptsächlich an der Verwendung dieser
Unterlagen und an der raschen Gewinnung relevanter Informationen interessiert. Um dies zu
ermöglichen, benötigen digitale Bibliotheken Kataloge über Meta-Daten von Dokumenten,
Content Repositories und elektronische Kataloge, um die gewünschten Dokumente schneller
wieder zu finden. Digitale Bibliotheken sollten Benutzern außerdem auch die Funktionalität
bieten, miteinander in Interaktion zu treten, um so Erfahrungen und Informationen
auszutauschen. Dies können Meeting Rooms und weitere diverse Human-to-Human
Interaction Möglichkeiten bieten. [SAPN98]
Zu den nicht-funktionalen Anforderungen zählen generell einmal all jene Anforderungen, die
im Allgemeinen an Softwaresysteme generell gestellt werden. Dazu zählen zum Beispiel
Aspekte wie die Performance oder eine klare Strukturierung des Quellcodes. Darüber hinaus
müssen
digitale
Bibliotheken
ihren
Benutzern
universelle
Zugangs-
bzw.
Zugriffsmöglichkeiten bieten. Das heißt, dass sie für eine größtmögliche Benutzergruppe, die
jeweils unterschiedliche Fähigkeiten, Anforderungen und Kenntnisse besitzt, entworfen
werden muss. Daraus lassen sich unterschiedliche Anforderungen an den Inhalt und an das
Human-Computer-Interface Design ableiten. Benutzer sollen außerdem die Möglichkeit
Recommendersysteme in digitalen Bibliotheken
haben, auf die von ihnen gewünschten Informationen in einer möglichst effektiven und
effizienten Weise zuzugreifen. Des Weiteren sollte ein digitales Bibliothekssystem
modifizierbar sein. Darunter versteht man vor allem die Fähigkeit des Systems, dass
bestimmte Funktionalitäten erweitert werden können, um so über längere Zeit Bestand zu
haben. Die Anforderung der Platform Scalability einer digitalen Bibliothek bedeutet, dass
zukünftige Technologien jederzeit integrierbar sein sollten, und dass die Benutzer auch mit
unterschiedlich technisch ausgestatteten Systemen auf die digitale Bibliothek zugreifen
können, und die Informationen in einer für sie angepassten Form erhalten. [SAPN98]
2
Recommender Systeme
2.1 Allgemeines
2.1.1 Definition - Entwicklung
Unter Recommender Systemen versteht man Systeme, die für Benutzer automatisch
Empfehlungen generieren. Diese Empfehlungen können sich im Zusammenhang mit einem
Online-Shop zum Beispiel auf ähnliche Produkte beziehen, oder im Kontext von Bibliotheken
eben auf Bücher oder Dokumente zu ähnlichen relevanten Themen. Diese Systeme sollen also
den Benutzer bzw. Kunden bei der Produkt- bzw. Informationssuche unterstützen. Generell
kann man zwischen personalisierten und nicht-personalisierten Recommender Systemen
unterscheiden. Der Unterschied besteht darin, dass nicht-personalisierte Recommender
Systeme für jeden Benutzer dieselben Empfehlungen aussprechen. Als Beispiel hierfür seien
Bestsellerlisten genannt. Im Gegensatz dazu richten sich personalisierte Recommender
Systeme nach den Bedürfnissen oder Gewohnheiten der einzelnen Benutzer. In digitalen
Bibliotheken sollen personalisierte Recommender Systeme dem User also helfen, Dokumente
zu finden, die zu seiner Suchanfrage am besten passen, und die für das System am
relevantesten erscheinen. [FS02]
In den 1990er wurden verschiedene Typen von Recommender Systemen entwickelt, die sich
grob in vier Klassen unterteilen lassen: [TLH01]

Content-based systems: Diese Systeme empfehlen Items, von denen sie aufgrund
vorhergegangener Erfahrungen glauben, dass sie für den User relevant sind. Der Focus
liegt bei diesen Systemen auf den Algorithmen, welche die Benutzerprofile erlernen und
-5-
Recommendersysteme in digitalen Bibliotheken
-6-
neue Items herausfiltern, deren Inhalte am besten mit den Benutzerpräferenzen
korrelieren.

Recommendation
support
systems:
Support
Systeme
automatisieren
den
Recommendationprozess nicht, sondern unterstützen nur die einzelnen Benutzer
Empfehlungen abzugeben bzw. zu erhalten.

Social data mining systems: Beziehen die User-Präferenzen implizit aus den Interaktionen
des Benutzers mit dem System, oder aus diversen Usenet Messages usw. Diese Systeme
fokussieren sich auf HCI Komponenten, welche die Resultate von Empfehlungsprozessen
visualisieren, womit die Navigation im Informationsraum erleichtert werden soll.

Collaborative filtering systems: Collaborative filtering setzt ebenfalls auf den
Benutzerprofilen auf und versucht, mit Hilfe von Algorithmen, Benutzer Präferenzen zu
matchen, um so Items zu empfehlen. Items die ein Benutzer als interessant bewertet hat,
werden auch jenen Benutzern empfohlen, deren Benutzerprofile am besten mit dem des
aktiven Benutzers korrelieren.
Approaches
Issues
Preferences
Content-based
Seeker’s
preferences only
System automates
Roles &
Communication
Role asymmetry
Algorithms
HCI
Rec. Support
Machine learning;
information
retrieval
Social Data
Mining
Mines preferences;
seeker’s preferences
typically not used
System supports
human
recommenders and
seekers
Collaborative
Filtering
Seekers must state
preferences
System automates
High potential for community; raises
significant privacy concerns
Role asymmetry vs. Role uniformity
Data mining
Preference
matching and
weighting
Visualization;
visual annotation
Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01]
Die Geschichte von Recommender Systemen ist noch relativ jung und ging aus der
Entwicklung von Decision Support Systeme (DSS) heraus. Decision Support Systeme, welche
vor allem im Management Bereich ihren Einsatz finden, wurden Ende der 50er und Anfang
der 60er Jahre entwickelt. Es sind dies Werkzeuge, die die Entscheidungsträger bei der
Entscheidungsfindung unterstützen sollen. Im Gegensatz zu Recommender Systemen wird
aber keine Bewertung der einzelnen Möglichkeiten vorgenommen.
Recommendersysteme in digitalen Bibliotheken
Als den Erfinder des Collaborative Filterings kann man John Hey bezeichnen. Dieser
beschrieb im Jahre 1987 in einem ersten Patent grob das Verfahren von Collaborative
Filtering und in einem zweiten Patent im Jahre 1989 den Zusammenhang dieses Algorithmus
mit der automatischen Generierung von Empfehlungen. Er nannte diesen Begriff jedoch noch
nicht Collaborative Filtering, welcher erst in einem Aufsatz über „Tapestry“, einem
Mailfiltersystem der XEROX Palo Alto Research Group, erwähnt wurde [RM00]. Im Jahr
1992 startete an der University of Minnesota das Forschungsprojekt „GroupLens“, mit dem es
erstmals möglich war, automatisch ähnliche Benutzer zu finden, wodurch das Recommender
System nicht mehr auf Netzwerke begrenzt war, in dem jeder jeden kennt. Ein weiterer
Meilenstein war das im Jahr 1993 ins Leben gerufene Forschungsprojekt namens
„OpenSesame!“, bei dem es sich um einen lernenden Agenten handelt, der das
Benutzerverhalten aufzeichnete und nach wiederkehrenden Mustern suchte. Das Produkt
daraus wird heute unter dem Name „LearnSesame!“ angeboten. Ein letzter Schritt war die
Portierung von „GroupLens“ auf das Usenet zur Bildung von Communities im Jahre 1996.
[FS02]
2.1.2 Modell eines Recommendation Prozesses
Abbildung 1 zeigt ein sehr allgemeines Modell eines Recommendationprozesses. Ein
Empfehlungssuchender fragt um eine Empfehlung an, oder ein Empfehlender übermittelt ohne
Anfrage automatisch eine Empfehlung. Empfehlungssuchende stellen dem System
möglicherweise Daten über sich zu Verfügung, oder das System erhebt diese implizit.
Basierend auf den Informationen über den Benutzer, aber auch anhand von Informationen
über andere Benutzer, schlägt das Recommender System dann dem User entsprechende
Objekte vor, welche dem System als relevant erscheinen, und zu den Interessen des Users
passen könnten. Ein User wird dann entweder das Objekt auswählen und weiter verwenden,
oder er wird möglicherweise Kontakt zu anderen Usern aufnehmen, die ähnliche Interessen
besitzen. [THL01]
-7-
Recommendersysteme in digitalen Bibliotheken
-8-
Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01]
2.2 Klassifizierung von Recommendersystemen
Nach P. Resnick und H. R. Varian [RV97] kann man Recommendersysteme anhand der
folgenden 5 Dimensionen klassifizieren. [GHJ]
1. Was stellt den Inhalt einer Empfehlung dar? Der Inhalt einer Empfehlung kann in
unterschiedlichen Formen dargestellt werden, zum Beispiel als ein einzelnes Bit
(1=empfohlen, 0=nicht empfohlen) oder in Form einer Schulnote, oder es kann auch
nur unstrukturierter Text sein, oder eine URL, welche auf eine andere
Informationsquelle verweist.
2. Basiert die Empfehlung auf der Meinung von Benutzern oder auf beobachtetem
Benutzerverhalten? Die Betonung liegt hier vor allem auf dem Unterschied zwischen
expliziten Empfehlungen, welche die Meinung der Benutzer widerspiegeln, und auf
implizit beobachtetem Benutzerverhalten. Die auf dem Internet basierende
Infrastruktur von digitalen Bibliotheken bietet eine Reihe von unterschiedlichen
Indikatoren, aus denen implizit Benutzerdaten gewonnen werden können.
3. Ist der Benutzer anonym? In digitalen Bibliotheken sind Benutzer nur bis zu einem
gewissen Grad anonym. So können User zum Beispiel über Sessions, Pseudonyme
oder Logins identifiziert werden.
4. Wie werden Empfehlungen aggregiert? Recommendations können beispielsweise
anhand einzelner Personen, Usergruppen (clusters) oder für alle User (globally)
aggregiert werden.
5. Wie werden Empfehlungen im System verwendet? Empfehlungen können zum einen
dazu verwendet werden, um Bucher zu bewerten (z.B.: mittels Sterne) oder um
Rankings zu erstellen. Außerdem können sie auch dazu dienen, um negativ bewertete
Bücher aus einer Anfrage herauszufiltern.
Recommendersysteme in digitalen Bibliotheken
Auf der Seite der Produkte (Informationsquellen) sollten noch bestimmte Eigenschaften dieser
berücksichtigt werden:
1. Was soll bewertet werden? Zum Beispiel Bücher, Zeitschriften, Newsgroup Artikel,
Videos, usw.
2. Wie viele Objekte müssen bewertet werden? Die Anzahl der zu bewerteten Objekte ist
natürlich durch die Menge der einer Bibliothek zugrunde liegenden Dokumente
beschränkt.
3. Wie groß ist die Lebensdauer eines Objekts? Bei Dokumenten mit einer kurzen
Bestandsdauer, wie zum Beispiel bei Newsgroup Artikeln, ist es sehr wichtig, die
Empfehlungen rechtzeitig abzugeben.
4. Welche Gewinne oder Verluste entstehen durch „falsche“ Produktauswahl für
Benutzer von Recommendersystemen? Man bedenke nur, man müsste das „Rad neu
erfinden“, nur weil man einen relevanten Artikel übersehen hat.
Fragen, welche die Teilnehmer an Recommendersystemen betreffen, lauten folgendermaßen:
1. Wer produziert die Empfehlungen?
2. Wer konsumiert bzw. erhält diese Empfehlungen?
3. Welche „Dichte“ von Empfehlungen wird erreicht?
4. Wie schnell ändern sich die Voraussetzungen der Konsumenten?
All diese Fragen haben wesentlichen Einfluss auf das technische Design von Recommender
Systemen. [GHJ01]
3
Recommender Systeme in digitalen Bibliotheken
3.1 Benutzerprofile
Die Basis vieler Recommender Systeme bilden die so genannten Benutzerprofile, in denen
Daten gespeichert werden, die zur Identifikation eines Benutzers notwendig sind, die aber
auch soziodemographische (Alter, Geschlecht, usw.) und psychographische (Interessen, usw.)
Informationen enthalten. Diese Daten bilden die Grundlage zur Erstellung personalisierter
Recommendations.
-9-
Recommendersysteme in digitalen Bibliotheken
- 10 -
3.1.1 Schritte der Informationserschließung
Wichtige Informationen über das Interesse eines Benutzers, beziehungsweise über die
Relevanz eines bestimmten Dokumentes für die Bedürfnisse des Users, lassen sich aus den
einzelnen Schritten ableiten, die ein Benutzer bei der Suche nach Informationen durchläuft.
Tabelle 1 zeigt nun in einzelnen Schritten, wie ein Besucher einer digitalen Bibliothek
vorgeht, wenn er sich über ein bestimmtes Thema informieren möchte, und dazu Unterlagen
sucht. [NTP97]
Activity
Response
glimpse
is aware of the existence
focus or ignore
consider
looks at summary information
select or reject
examine
looks at detailed information
adopt or reject
use
varies with the nature
assess
evaluates the experience using the document
endorse
Tabelle 2 – Discovery Model - Quelle: [NTP97]
Geht ein Benutzer durch jede dieser Phasen, um ein Dokument zu bewerten, werden ihm nach
jedem Schritt mehr Details zu dem betreffenden Dokument bekannt, und er bekommt ein
Gefühl für die Relevanz dieses Dokuments für seine Informationsbedürfnisse. In einem ersten
Schritt erhält der Benutzer die Information, dass ein bestimmtes Dokument überhaupt
existiert. Diese Information kann zum Beispiel aus dem Ergebnis einer Suchanfrage abgeleitet
werden. Weiters wird er sich eine kurze Zusammenfassung über das Dokument durchlesen
und danach entscheiden, ob er es weiter betrachten soll oder nicht. Scheint ein Dokument für
die Informationsbedürfnisse eines Users relevant zu sein, wird er dieses weiter durcharbeiten
und die darin enthaltenen Informationen für sich verwenden. Wie er diese neu gewonnene
Information für seine Zwecke anwendet, unterscheidet sich von Fall zu Fall. Am Ende dieser
Kette erfolgt meist eine Beurteilung, indem der Benutzer beispielsweise die in dem Dokument
enthaltenen Informationen oder Meinungen bejaht oder ablehnt.
Für Recommender Systeme kann man aus jeder dieser Phasen Informationen über die
Relevanz eines Dokumentes für einen Benutzer ableiten. Wurde ein Dokument öfter
durchsucht oder länger betrachtet, ist dies ein Indiz dafür, dass es möglicherweise
Informationen enthält, die für den Benutzer von Nutzen sein können. [NTP97]
Recommendersysteme in digitalen Bibliotheken
3.1.2 Identifikation des Benutzers
Idealerweise sollte ein System einen Benutzer bei betreten der Bibliothek sofort erkennen und
dessen Profil abrufen können. Ein Profil über mehrere Sessions hinweg aufzubauen und zu
vervollständigen kann jedoch nur dann erfolgen, wenn die Möglichkeit besteht, die Benutzer
eindeutig zu identifizieren. Folgende Verfahren können dabei unterschieden werden:
3.1.2.1 Public Key Verfahren
Die sicherste Methode einen Benutzer eindeutig zu identifizieren bietet das Public Key
Verfahren. Dabei meldet sich der User bei einer Website durch Austausch von Schlüsseln an,
womit die Identität eindeutig festgestellt wird. Die hohe Sicherheit bringt jedoch auch einen
sehr hohen administrativen Aufwand für die Zertifizierungsstelle (Certification Authority,
CA) mit sich, da mit diesem Verfahren auch digitale Signaturen erstellt werden können. Es
kann also nicht wie beim Login ein beliebiger anonymer Deckname vergeben werden, sondern
es muss die reale Identität der betreffenden Personen vor der Vergabe des Schlüssels
sichergestellt werden. [RBF03]
3.1.2.2 Login und Passwort
Eine weitere Variante Personen exakt zu erkennen, besteht darin, von den Anwendern explizit
die Eingabe von Benutzernamen und Passwort zu verlangen. Diese Methode bringt allerdings
wieder einigen Aufwand für die User mit sich. Viele scheuen davor zurück sich mit Hilfe
eines Anmeldungsprozesses zu registrieren und auch für jede neue Sitzung Benutzername und
Passwort einzugeben. Anonymität kann in diesem Fall gewährt werden, indem der User einen
Decknamen verwendet, und das System beim Registrierungsprozess ansonst keine
persönlichen Daten verlangt. [PR02] Ein Sicherheitsrisiko bei diesem Verfahren stellen
jedoch Browser dar, die sich Passwörter merken. So könnte sich jeder beliebige Nutzer des
Rechners als eine bestimmte Person ausgeben. [RBF03]
3.1.2.3 Cookies
Eine Möglichkeit die Benutzererkennung zu automatisieren ist die Verwendung von Cookies,
die beim ersten Besuch eines Benutzers lokal auf dessen Rechner gespeichert werden.
Problematisch hierbei ist jedoch, dass eigentlich nur der Browser identifiziert wird, und nicht
zwischen den einzelnen Benutzern selbst unterschieden wird. Wechselt ein User den Rechner,
erkennt ihn das System nicht mehr als dieselbe Person, sondern stuft ihn als neuen Nutzer ein.
Außerdem bieten neue Systeme den Benutzern oftmals die Möglichkeit die Speicherung von
- 11 -
Recommendersysteme in digitalen Bibliotheken
Cookies zu deaktivieren. Sind Cookies also deaktiviert, ist keine Identifikation des Benutzers
mehr möglich. [RBF03]
3.1.2.4 IP-Adresse
Computer können im Internet über ihre IP-Adressen erkannt werden. Der Nachteil hierbei
liegt jedoch darin, dass heutzutage die meisten Internet Provider die IP-Adressen beim
Einwählen eines Rechners dynamisch vergeben. Das heißt, ein und derselbe Computer, an
dem eine bestimmte Person arbeitet, erscheint nach jeder neuen Einwahl ins Internet mit einer
neuen IP-Adresse. Auf Seiten eines Bibliothekssystems bedeutet dies, dass dieselbe Person als
eine Vielzahl unterschiedlicher Personen interpretiert wird, was natürlich zu einer
Sinnlosigkeit der Personalisierung führen würde. Das andere Extrem dazu wäre, dass ein
System eine Vielzahl an verschiedenen Benutzern als ein und denselben interpretiert.
Firmennetzwerke sind zum Schutz vor Angriffen durch Viren oder Hacker mittels Firewalls
geschützt. Dadurch kommunizieren die User einer Firma nur indirekt über einen Proxy Server
mit dem Internet, wodurch sie als nur ein einziger Benutzer erkannt werden. Aus diesen
Gründen eignet sich die Benutzererkennung mittels IP-Adresse nur sehr beschränkt zur
Identifikation von Personen. [PR02]
3.1.3 Profildatengewinnung
Wissen über User kann mit unterschiedlichen Methoden gewonnen werden. Zum einen gibt es
die Möglichkeit, das Verhalten des Benutzers bei der Informationssuche, wie in 3.1.1
beschrieben, zu beobachten. Man kann dadurch feststellen, wie lange ein bestimmtes
Dokument und welche Dokumente betrachtet wurden, und welche Suchbegriffe ein User
eingegeben hat, um bestimmte Objekte zu finden. Diese Art der Informationsgewinnung wird
auch als implizite Profildatengewinnung bezeichnet. Außerdem kann man dem Benutzer die
Möglichkeit geben, sein Profil nach den eigenen Wünschen zu ändern, wobei man jedoch
darauf achten sollte, dass ein User seine Daten nur dann preisgeben wird, wenn er eine
angemessene Gegenleistung, im Fall einer digitalen Bibliothek gute Recommendations,
erhalten wird. Solche Varianten werden unter dem Begriff explizite Profildatengewinnung
zusammengefasst. Da die Profile laufend erweitert werden, wie zum Beispiel durch die
Analyse des Benutzerverhaltens, ist „der Vorgang der Erhebung von […] Benutzerprofilen
keine einmalige und abgeschlossene Aktion“ [PF01], sondern vielmehr „ein kontinuierlicher
Lernprozess, bei dem das Wissen über den Kunden […] ständig erweitert und aktualisiert
wird.“ [KGL00]
- 12 -
Recommendersysteme in digitalen Bibliotheken
3.1.3.1 explizite Profildatengewinnung
Wie schon erwähnt, gibt der User bei der expliziten Profildatengewinnung, Informationen
bewusst preis. Ihm können dabei Fragen gestellt werden, deren Antworten direkt in das
Benutzerprofil übernommen werden können. Beispiele dafür sind die Gewichtung von
Interessen, das Angeben von Keywords oder die Angabe von Personendaten. Die Fragen
können von den Betreibern frei gewählt werden, wodurch sofort ein vollständiges Profil
abgeleitet werden kann. Der große Nachteil besteht allerdings darin, dass die Angst der
Benutzer, Informationen über sich preiszugeben, sehr leicht zu Falschaussagen führen kann.
Außerdem besteht die Gefahr, dass die Profile leicht veraltern, da eine Aktualisierung nur
durch Interaktion mit dem Benutzer durchgeführt werden kann.
3.1.3.2 implizite Profildatengewinnung
Bei der impliziten Profildatengewinnung werden alle Informationen aus den durchgeführten
Aktionen der Benutzer abgeleitet. Das heißt, man protokolliert sämtliche Bewegungen und
Aktionen eines Benutzers mit, und wertet diese anschließend aus. Das ständige Sammeln von
Informationen über Anwender oder Kunden führt zu einer laufenden Verbesserung des
Benutzerprofils. Durch diesen „Customer Lifetime Cycle“ lernt das System den Benutzer bei
jedem Besuch besser kennen, wodurch schon nach einiger Zeit qualitativ gute
Recommendations gegeben werden können. Die Vorteile dieses Verfahrens liegen vor allem
darin, dass der Benutzer nicht direkt mit dem System in Interaktion treten muss um Angaben
über sich abzugeben. Weiters wird es bei diesem Verfahren den Usern erschwert, gezielte
Falschangaben über sich zu machen, da sie die Auswertungsroutinen nicht einsehen können.
[OWDJK]
3.2 Content-Based Recommendation
3.2.1 Methode
Beim Content Based Recommendation oder auch eigenschaftsbasierten Filtern in digitalen
Bibliotheken wird nach Ähnlichkeiten zwischen Objekten bzw. Büchern gesucht. Das heißt,
Metadaten über Titel, Autor oder Inhalt werden miteinander verglichen. Um die Relevanz
eines aktuellen Objekts zu beurteilen, wird es meist in Beziehung zu anderen Objekten
gesetzt, für die der Benutzer Interesse gezeigt hat. Diese Beziehung basiert auf der Theorie des
repeat-buyings und kann entweder wegen eines konstanten Verhaltens eines Benutzers
automatisch, oder durch explizite Angaben von Interessen manuell erstellt werden. Zwei
- 13 -
Recommendersysteme in digitalen Bibliotheken
Dokumente kann man also ähnlich bezeichnen, wenn sie Informationen enthalten, die mit dem
Informationsbedürfnis des Benutzers korrespondieren. [CK02] Basiert ein Recommender
System auf Content Based Recommendation, werden einem User, der nach einem bestimmten
Buch eines Autors sucht, auch andere Bücher desselben Autors vorgeschlagen. Das
Hauptanwendungsgebiet für Recommender Systeme dieser Art liegen vor allem in Gebieten in
denen textbasierte Objekte eine Rolle spielen, also in Bibliotheken, Informationsportalen,
Webseiten oder Newsgroups. [JA04]
3.2.2 Kategorisierung der Content-Based Filtering Methoden
Bei Content-Based Systemen unterscheidet man zwischen verschiednen Methoden, nämlich
zwischen dem einfachen Boolean-Matching, der Vector-Space Methode und den
probabilistischen Methoden. [OWM97]
Boolean-Matching
Beim Boolean-Matching ist die Relevanz eines Dokuments davon abhängig, ob es ein
bestimmtes Feature enthält oder nicht. Als Feature kann man zum Beispiel Wörter,
Wortstämme, Wortketten oder Sätze betrachten. Diese Methode heißt Boolean, da hier mit
Hilfe der einfachen Boole’schen Operatoren „Und“ bzw. „Oder“ gearbeitet wird. Ein
Dokument kann also den Wert Eins (enthält das Feature) oder den Wert Null (enthält das
Feature nicht) erhalten. Man spricht daher auch von einer binären Beurteilung eines
Dokumentes. Außerdem wird diese Methode auch als Exact-Match Methode bezeichnet, im
Gegensatz zu den folgenden, bei denen man von Best-Match Methoden spricht. [MK00]
Da in dieser Form kein Ranking aufgrund der Relevanz des Dokuments für den
Informationsbedarf des Nutzers möglich ist, wird meistens der daraus abgeleitete WinnowAlgorithmus, bei dem die Relevanz eines jeden Wortes gewichtet wird, verwendet: [JK00]
w x
i
i
  mit:
xi : Wort oder angrenzende Wortbedeutungen (i=1,…I)
wi : Gewicht des Wortes i (i=1,…I)
 : Schwelle ab der ein Dokument dem Nutzer vorgeschlagen wird.
- 14 -
Recommendersysteme in digitalen Bibliotheken
- 15 -
Vector-Space Methode
Beim Vector Space Modell werden die komplexen Inhalte von Dokumenten in einem String
dargestellt, der jeweils angibt, in welcher Häufigkeit bestimmte Wörter, Wortphrasen,
grammatikalisch verwandte Wörter, Namen, Daten oder charakteristische Redewendungen in
einem
Text
vorkommen.
[FD92]
Anschließend
werden
diese,
ebenso
wie
das
Eigenschaftsprofil des Nutzers, als Vektoren in einem Vektorraum dargestellt. Jedes Wort
wird durch eine Dimension repräsentiert; die Distanz zum Ursprung gibt den jeweiligen
Gewichtungsfaktor des Wortes wider. Es wird angenommen, dass, wenn ein Dokument im
Vektorraum
einem
Eigenschaftsprofil
sehr
nahe
liegt,
dieses
Dokument
den
Informationsbedarf des Nutzers befriedigen könnte. [TF97] Eine sehr weit verbreitete
Ausprägung des Vektor Space Models ist das so genannte TFIDF-Schema. [KPB00]
Das TFIDF-Schema (term frequency times inverse document frequency) dient der
Evaluierung der Relevanz bestimmter Dokumente. Für jedes Dokument kann ein Vektor V
gebildet werden, dessen Element vi den Bewertungen der Wörter d i im Feature-Vektor D
entsprechen:
vi  tf (i) log
n
df (i)
Dabei sind:
tf (i ) : Häufigkeit des Wortes d i im Dokument oder im Profil des Nutzers
df (i ) : Dokumentenanzahl, in denen d i vorkommt
n : Gesamtzahl der durchsuchten und analysierten Dokumente
Probabilistische Methode
Die probabilistische Methode errechnet nicht die Ähnlichkeit zwischen Dokumenten, sondern
die Wahrscheinlichkeit, dass ein Dokument für eine bestimmte Suchanfrage relevant ist.
Ermittelt wird dies über die bedingte Wahrscheinlichkeit für das Ergebnis „Dokument ist
relevant“, unter der Voraussetzung, dass bestimmte Ausdrücke mit einer bestimmten
Häufigkeit darin vorkommen. Diese bedingten Wahrscheinlichkeiten können mit so
genannten Bayes’schen Belief-Netzen modelliert werden. [MK00]
Recommendersysteme in digitalen Bibliotheken
- 16 -
3.2.3 Probleme
Bei Content Based Recommendations treten vor allem folgende Probleme auf: [WG02]
1. Generell kann beim Content-Based Filtering nur eine oberflächliche Analyse von
bestimmten Arten von Inhalten erfolgen. Einige Inhalte wie zum Beispiel Bilder,
Filme oder Musik sind für die klassischen Extraktionsalgorithmen eines ContentBased Systems nicht zugänglich. Es gibt also Bereiche für die keine inhaltlichen
Informationen oder Metadaten erhoben werden können.
2. Es kann nicht alles was den User in seiner Entscheidung über die Relevanz eines
Dokumentes beeinflusst, wie zum Beispiel Aktualität und Qualität der Information,
Ästhetik, oder im Dokument integrierte Bilder, beachtet werden. Zum Erfassen dieser
Merkmale müssen diese in „pseudo-quantitative Merkmale“ umgewandelt werden.
Diese Transformation wird jedoch meist unvollständig und unvollkommen bleiben.
Trotzdem ist es unumgänglich solche qualitativen Merkmale zu berücksichtigen, wenn
das Recommender System zur Zufriedenheit der Benutzer arbeiten soll.
3. Es werden nur Items empfohlen, deren Beschreibung am besten mit dem
Benutzerprofil
übereinstimmen.
Dieses
Problem
nennt
man
auch
„Überspezialisierung“; Objekte die nicht dem Profil des Benutzers ähnlich sind, diesen
aber trotzdem interessieren könnten, werden dem User vorenthalten.
3.3 Collaborative Filters
3.3.1 Methode
Im Gegensatz zur vorherigen Methode wird beim Collaborative Filtering nicht direkt nach
ähnlichen Objekten gesucht, sondern es werden Personen gesucht, die ähnliche Präferenzen
haben, um sodann Objekte zu empfehlen, die diese Personen auch für gut befunden haben. Es
steht also nicht die Klassifizierung von Objekten im Vordergrund, sondern die Beziehung der
Nutzer zu den einzelnen Objekten, die entweder durch implizite oder explizite Bewertung der
Inhalte entsteht. Implizit erfolgt eine Bewertung dann, wenn sie vom System automatisch auf
Grund des Userverhaltens vorgenommen wird. Eine explizite Bewertung nimmt der User
selbst vor, indem er mit dem System in Interaktion tritt und diesem seine Bewertung mitteilt.
Dokumente die von Usern gleich bewertet wurden, werden also als ähnlich eingestuft.
Beispielsweise kann eine lange Betrachtung oder der Download eines Dokumentes als
positive Wertung interpretiert werden. Dieses Verfahren macht es möglich, dass auch
subjektive Empfindungen in die Empfehlungen mit einfließen. Der große Vorteil dieser
Recommendersysteme in digitalen Bibliotheken
- 17 -
Methode liegt darin, dass sie auch einsetzbar ist, wenn keine Beschreibungen oder Metadaten
über ein Objekt vorliegen. [JA04]
3.3.2 Kategorisierung der Collaborative Filtering Methoden
Collaborative Filtering (CF)
Interaktives (aktives) CF
Automatisches (passives) CF
User-based CF
Memory-based CF
Item-based CF
Model-based CF
Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02]
Interaktives (aktives) CF:
Aktives Collaborative Filtering baut darauf auf, dass sich Gruppenteilnehmer interessante
Informationen gegenseitig, zum Beispiel durch Senden von URL’s usw., mitteilen. Dieser
Ansatz unterstützt die Divergenz von Information, da er Empfehlungen von hoher Qualität
generiert, welche auch subjektive Einschätzungen enthalten können.
Automatisches (passives) CF:
„Diese Methode stützt sich auf die Annahme, dass Personen die in der Vergangenheit gleicher
Meinung waren, voraussichtlich auch zukünftig gleicher Meinung sein werden.“ [SSU01]
Jeder Benutzer ist dabei durch sein Profil gekennzeichnet. Bei der Betrachtung eines Objekts
gibt der Nutzer eine Bewertung ab, aus der das System ableitet, wie interessant dieses Objekt
für andere ist. Es geht also darum, Nutzer zu vergleichen, um ähnliche Nutzer zu finden.
Item-based CF:
Da die Nutzer-Item Tabelle eine niedrige Informationsdichte aufweist, erhöht sich der
Aufwand zu Errechnung von Empfehlungen mit wachsender Anzahl von Nutzern. Die Itembased Methode analysiert nun die Nutzer-Item Tabelle um Ähnlichkeiten oder
Ähnlichkeitswerte zwischen Items zu errechnen. Danach werden Vorhersagen für ein Item
erzeugt, also wie sehr der aktive Nutzer das Item mögen wird.
Recommendersysteme in digitalen Bibliotheken
User-based CF:
User-based Collaborative Filtering geht nach folgendem Schema vor:
1. Suche nach Personen mit gleicher Meinung.
2. Suche nach Dokument, die diese Personen für relevant befunden haben.
3. Schlage diese Dokumente dem aktiven User vor.
Hier geht es also darum, Nutzer zu vergleichen, um „ähnliche“ Nutzer zu finden.
Memory-based CF:
In diesem Ansatz werden alle Daten aus der Nutzer-Item Tabelle ausgewertet, um
Vorhersagen zu machen. Statistische Techniken werden dann genutzt, um eine Gruppe von
Nachbarn zu finden, welche bis jetzt die gleichen Präferenzen hatten wie der aktive User, dem
eine Empfehlung gemacht werden soll. Verschiedene Algorithmen fassen die Bewertungen
zusammen und erstellen eine Top-Liste für den Nutzer. Dieses Verfahren wird auch nearestneightbour CF genannt.
Model-based CF:
Hier werden nur Teile der zugrunde liegenden Daten aus der User-Item Tabelle genutzt, um
Vorhersagen zu machen. Modelle auf Bewertungen anhand denen Empfehlungen gemacht
werden, werden durch lernende Algorithmen wie Bayesianische Netzwerke oder Clustering
Methoden erzeugt. [ÖS02]
3.3.3 Probleme
Folgende Probleme können jedoch beim Collaborative Filtering auftreten: [ÖS02]
1. cold start Problem: In der Startphase eines Systems liegen noch nicht genügend Daten
über Benutzer vor, um diese miteinander sinnvoll zu vergleichen. Kommt ein neuer
Benutzer hinzu, benötigt das System ebenfalls einige Zeit, bis es die genauen
Vorlieben des neuen Nutzers kennt.
2. sparsity Problem: Die User-Item-Rating Matrix ist im Allgemeinen nur sehr spärlich
gefüllt, da Recommender Systeme hauptsächlich in Bereichen zum Einsatz kommen,
in denen eine große Auswahl an Items existieren. Dieser Umstand macht es daher sehr
schwierig hoch korrelierte Benutzer zu finden
3. first rater Problem: Wird ein neues Item in ein System eingefügt, so kann es solange
nicht empfohlen werden, bis es von Usern bewertet wurde.
- 18 -
Recommendersysteme in digitalen Bibliotheken
4. Black-Box-Charakter: Das System ist für die Betreiber eines Recommender Systems
nicht transparent genug; die Ausgabe des Systems kann nicht wie bei Content-Based
Filtering gesteuert werden.
3.4 Kombination von Content-Based und Collaborative Filtering
3.4.1 Vorteile eines Hybrid-Systems
Sowohl Content Based als auch Collaborative Filtering Systeme haben neben ihren Vorteilen
auch nicht zu vernachlässigende Nachteile, die in den Abschnitten 3.2.3 und 3.3.3 bereits
besprochen wurden.
Beim Content-Based System wird das cold start Problem nur dann zum Problem, wenn sich
der aktive Benutzer in der Startphase der Benützung befindet. Das sparsity und first rater
Problem des Collaborative Filtering sind hingegen keine Probleme für ein Content-Based
System, da diese nicht versuchen, Ähnlichkeiten zwischen Benutzern zu finden.
Sind für Objekte keine Inhaltsbeschreibungen oder Metadaten verfügbar, stellt dies für
Content-Based Systeme ein Problem dar, für Collaborative Filtering Systeme jedoch nicht, da
diese nicht auf die Inhalte von Dokumenten achten. Das zweite angesprochene Problem von
Content-Based Systemen wird durch Collaborative Filtering teilweise gelöst, indem
Ansprüche wie Geschmack und Qualität durch Ratings der Benutzer gut wiedergegeben
werden können. Collaborative Filtering löst auch das dritte Problem von Content Based
Systemen, nämlich dass nur Items empfohlen werden können, deren Beschreibung mit dem
Benutzerprofil übereinstimmen, indem es auch Items findet, die zwar mit dem Profil des
aktiven Benutzers nicht übereinstimmen, die aber auf Profile der „benachbarten“ Benutzer
zutreffen. Man kann also sehen, dass die Nachteile der jeweiligen Systeme sich durch die
Vorteile des jeweils anderen Systems ergänzen. [JA04]
3.4.2 System „Fab“
Eine mögliche Kombinationsform für ein hybrides System ist das System „Fab“, welches im
Rahmen des Digital Library Project an der Stanford University entwickelt wurde. Fab
kombiniert das Collaborative Filtering mit den Inhaltsanalysen des Conent-Based Filterings,
um so Webseiten zu filtern. [GNT04] Dabei sollen die Vorteile beider Ansätze genutzt und
die Nachteile ausgeschlossen werden. Dokumente beurteilt das System zum einen indem es
auf Informationen und Beurteilungen von Dokumenten durch die betrachtende Person in der
Vergangenheit zurückgreift, und zum anderen indem es Bewertungen anderer Personen mit
- 19 -
Recommendersysteme in digitalen Bibliotheken
einem ähnlichen Profil zu Rate zieht. [BS97] Es werden danach nur noch Dokumente
empfohlen, die in beiden Beurteilungsvorgängen einen hohen Relevanzwert aufweisen.
Das Benutzerprofil besteht in Fab aus einem gewichteten Termvektor. Verwaltet werden die
Profile mit Hilfe von selection agents, welche die Benutzerprofile speichern, und aufgrund
von Relevanzbewertungen anpassen. Der für diese Anpassung verwendete Algorithmus ist der
Rocchios Algorithmus [ROC71]. Alle Relevanzkategorien werden in Fab natürlichsprachlich
repräsentiert und intern dann auf ganzzahlige Werte von 3 bis -3 abgebildet. Jeweils in der
Nacht werden alle Gewichte der Benutzerprofile mit 0,97 multipliziert, um den Verfall bzw.
die Veränderung der Benutzerinteressen abzubilden.
Die Dokumente werden ebenfalls durch einen gewichteten Termvektor dargestellt, der die
Dimension 100 besitzt. Um die Dokumente zu repräsentieren wird zunächst eine
Wortstammreduktion durchgeführt und anschließend werden alle Stoppwörter entfernt. Die
Gewichte der Terme werden danach mit Hilfe der bereits erwähnten TFIDF-Formel errechnet.
Jeweils die 100 Terme mit den größten Gewichten werden für die Beschreibung eines
Dokuments berücksichtigt. Experimente hatten gezeigt, dass eine optimale Performanz mit 30
bis 100 Termen erzielt werden kann, und dass mehr als 100 Terme ein System mit
überwachten Lernmethoden übertrainiert. [BAL97]
Das Suchen und Indexieren von Dokumenten erfolgt in Fab durch die so genannten collection
agents, welche permanent die besten Seiten zu den gegebenen Profilen ermitteln und diese
dem System an zentraler Stelle (central repository) bekannt geben. Die Agenten aktualisieren
ihr Suchprofil kontinuierlich gemäß den Bewertungen der Benutzer, wodurch sie die
Interessensprofile der Nutzer stets abdecken. Agenten, die Dokumente liefern, die von den
Benutzern als eher schlecht bewertet werden, werden kontinuierlich durch Agenten ersetzt,
die für den Benutzer bessere Dokumente liefern. Jeder Suchagent spezialisiert sich dadurch
zunehmend auf einen Themenbereich.
Die Ähnlichkeit zwischen den Benutzerprofilen und den Dokumenten wird mit Hilfe des
Kosinus-Maßes berechnet. Es fließen aber auch gleichzeitig die am besten bewerteten
Dokumente der nächsten Nachbarn in die Empfehlungen mit ein. Damit wird zum einen der
Content-Based Ansatz und zum anderen auch der Ansatz des Collaborative Filterings
umgesetzt.
Der Empfehlungsprozess im System Fab lässt sich, wie aus obiger Beschreibung bereits
überblicksmäßig hervorgeht, in drei Phasen einteilen: [BS97]
- 20 -
Recommendersysteme in digitalen Bibliotheken
1. Sammlung der Daten: Diese Phase beinhaltet das Sammeln von Informationen um
eine entsprechende Datengrundlage zu erhalten. Der „collection agent“ hat dabei, wie
schon oben beschrieben, die Aufgabe, Dokumente für bestimmte Interessensfelder zu
suchen. Diese sollen wenn möglich alle Interessensgebiete der User abdecken.
2. Auswahl der Daten: Der „selection agent“ sucht aus den Dokumenten die passenden
für einen spezifischen User heraus. Weiters wird überprüft, ob der entsprechende User
dieses Dokument schon einmal gelesen hat. Ist dies der Fall, wird es aus der Auswahl
entfernt.
3. Ausgabe der Informationen: Der „central router“ erhält vom „selection agent“ die
ausgewählten Dokumente und leitet diese mit weiteren spezifischen Informationen,
wie zum Beispiel Anzahl der gefundenen Dokumente usw. an den jeweiligen User
weiter.
3.4.3 System „LIBRA“
Ein für digitale Bibliotheken entwickeltes Recommender System ist das System LIBRA. Es ist
dies ein System für die personalisierte Suche nach Büchern. Die Abkürzung steht für
„Learning Intelligent Book Recommending Agent“ [MR00]. LIBRA ist für Anfragen
geeignet, die große Ergebnismengen zurückliefern, von denen der Benutzer die ersten zehn
Treffer bewertet, woraufhin die gesamte Ergebnismenge gemäß den Vorlieben des Benutzers
umsortiert werden.
LIBRA besitzt als Datenbasis Informationen zu Büchern, die zuvor aus amazon.com
extrahiert. Es wurden dabei nur Bücher berücksichtigt, von denen Zusatzinformationen wie
zum Beispiel eine Zusammenfassung, eine Rezension oder ein Kundenkommentar vorlagen.
Folgende Beschreibungsmerkmale wurden daraufhin für jedes Buch extrahiert: Titel, Autor,
Zusammenfassung, Rezensionen, Kundenkommentare, verwandte Autoren, verwandte Titel
und Schlagworte. Weiters wurden auch Angaben zu ISBN, Datum, Preis, Verlag usw.
extrahiert, welche aber nicht zu Generierung von Empfehlungen verwendet wurden. Während
der Extraktion der Daten wurde für jedes Buch eine Menge von so genannten Slots befüllt.
Diese Slots enthalten alle oben genannten Informationen, außer Angaben zu ISBN, Datum,
Preis und Verlag. Der Text in jedem Slot wird dann in eine ungeordnete Liste von Wörtern
(bag of words) umgewandelt, und jeder Buchtitel wird dann durch einen Vektor von „bag of
words“ repräsentiert. Die dadurch aufgebaute Datenbasis enthält 3061 Bücher aus dem
- 21 -
Recommendersysteme in digitalen Bibliotheken
Bereich Erzählungen, 3813 Science Fiction Bücher, 7285 Krimis und 6177 wissenschaftliche
Bücher.
Zur Erstellung seines Benutzerprofils muss der User zehn Bücher mit Werten von 1 (schlecht)
bis 10 (gut) bewerten. Aus diesen Angaben und den Informationen zu den Büchern lernt
LIBRA dann das jeweilige Benutzerprofil. Um die Benutzerprofile zu erstellen, verwendet
LIBRA die Technik der Bayes’schen Textkategorisierung, die allerdings für diesen Ansatz
speziell vom Umgang mit Wortmengen auf den Umgang mit Vektoren und Wortmengen
erweitert wurde. Als Benutzerprofil erhält man dann eine Liste von denjenigen
Beschreibungsmerkmalen, die am ehesten auf eine positive oder negative Bewertung
hindeuten. Dazu gibt ein Wert an, um wie viel wahrscheinlicher es ist, dass ein bestimmtes
Wort in der Beschreibung eines positiv bewerteten Buches auftaucht. Die absoluten Werte
dieser Wahrscheinlichkeiten sind weniger bedeutend, da LIBRA nicht den absoluten
Interessantheitswert eines Buches berechnet, sondern lediglich eine Reihenfolge erzeugt.
Durch zusätzliche Bewertungen im laufenden Betrieb kann das Benutzerprofil jederzeit weiter
angepasst und präzisiert werden.
LIBRA erlaubt es seinen Benutzern außerdem sein Profil einzusehen. Des Weiteren kann sich
jeder Benutzer auch erklären lassen, wie das System zu den konkreten Empfehlungen kommt.
Dies geschieht dadurch, dass LIBRA jene früheren Bewertungen des Benutzers anzeigt, die
diese Wahrscheinlichkeit am meisten beeinflusst haben. Generell waren die Benutzer nach 20
Bewertungen mit den Top-3 und Top-10 Empfehlungen von LIBRA sehr zufrieden
(Bewertungen von über 0,8). Weiters wurde in Experimenten versucht, inwieweit die
kollaborative Ausrichtung der Merkmale „verwandte Title“ und „verwandte Autoren“ zur
Qualität der Empfehlungen beigetragen haben. Es wurden dazu die gleichen Experimente
ohne Berücksichtigung dieser beiden Merkmale durchgeführt. Diese lieferten zwar keine
deutlich schlechteren, aber dennoch statistisch signifikant schlechtere Ergebnisse. Damit
wurde das Potential der kollaborativen Ansätze klarer und es drängt sich zugleicht die
Vermutung auf, dass eine Kombination der beiden eingangs beschriebenen Filterverfahren
eine Verbesserung gegenüber den Einzelverfahren bringt. [SB03]
3.4.3.1 Lernen des Benutzerprofils in LIBRA
Wie schon oben erwähnt bewertet der Benutzer eine Menge von Trainingsbeispielen mittels
einer Punktvergabe von 1 bis 10 für jedes Buch. Der Lernalgorithmus Naiv-Bayes
Textklassifizierer, [MCN98] welcher LIBRA verwendet, wurde um die Möglichkeit erweitert
- 22 -
Recommendersysteme in digitalen Bibliotheken
- 23 -
auch Vektoren von „bag of words“ verarbeiten zu können. Wie schon beschrieben, soll jedoch
nicht ein exaktes Rating eines Titels vorhergesagt, sonder lediglich ein Ranking erstellt
werden. Durch weitere Reduzierung auf ein binäres Klassifikationssystem wird vorhergesagt,
ob ein Buch als positiv oder als negativ bewertet werden würde.
In dem multinomialen Textmodell, welches LIBRA verwendet, wird ein Dokument als eine
geordnete Sequenz von Wörtern über ein Vokabular V repräsentiert. Die „naive Bayes“
Annahme besagt nun, dass die Wahrscheinlichkeit für jedes Wortvorkommen abhängig von
der Klasse, aber unabhängig vom Kontext und der Position ist. Es werden nun die
Wahrscheinlichkeiten P c j  und P wk | c j  für jede Klasse c j und jedes Wort wk  V
anhand der Trainingsbeispiele geschätzt. Nun kann die Posteriori Wahrscheinlichkeit jeder
Klasse gegeben ein Dokument D mittels der Bayes’schen Formel berechnet werden.
Pc j | D  
Pc j 
P D 
 Pa
D
i
| cj 
i 1
Wobei a i das i-te Wort im Dokument und D die Länge des Dokuments in Wörtern ist. Da
der Prior P(D) ein konstanter Faktor ist, kann er bei der Berechnung vernachlässigt werden,
wenn es allein darum geht, ein Ranking zu berechnen. Das Ranking wird abgebildet, indem
alle Dokumente nach ihren OddsRatio sortiert werden.
OddsRatio ( D) 
Pc1 | D 
Pc0 | D 
c1 repräsentiert eine positive Klasse und c0 die negative Klasse. Dabei wird ein Beispiel als
positiv klassifiziert, wenn der OddsRatio größer 1 ist.
Im Falle von LIBRA handelt es sich um Bücher, welche als ein Vektor von Dokumenten d m ,
eines für jeden Slot, repräsentiert wird. Nun müssen die Wahrscheinlichkeiten für jedes Wort
gegeben die Klasse und den Slot Pwk | c j , s m  geschätzt werden. Danach wird die Posterior
Wahrscheinlichkeit jeder Klasse gegeben ein Buch B berechnet.
Pc j | B  
Pc j 
P B 
 Pa
S
dm
mi
| c j , sm 
m 1 i 1
S ist dabei die Anzahl der Slots und a mi das i-te Wort im m-ten Slot.
Recommendersysteme in digitalen Bibliotheken
- 24 -
Nun werden die Parameter des Modells wie folgt aus den Trainingsbeispielen geschätzt. Jedes
der N Trainingsbücher Be 1  e  N  erhält zwei relative Gewichte 0   ej  1 basierend auf
den Benutzerbewertungen r 1  r  10 : ein positives Gewicht  e1  r  1 / 9 und ein
negatives Gewicht  e 0  1   e1 . In einem Beispiel Be wird ein Wort, welches n-mal in einem
Dokument vorkommt, mit  e1n mal als Vorkommen in einem positiven Beispiel und  e0 n
mal als Vorkommen in einem negativem Beispiel gezählt. Die Modellparameter werden nun
wie folgt ermittelt:
Pc j     ej / N
N
e 1
P wk | c j , s m     ej nkem / Lc j , s m 
N
e 1
Wobei nkem die Anzahl der Vorkommnisse des Wortes wk im Beispiel Be im Slot s m ist. Die
gewichtete Länge der Dokumente in der Klasse c j und Slot s m wird folgendermaßen
berechnet:
Lc j , s m     ej | d m|
N
e 1
Diese Normierung hebt den Effekt von verschieden langen Sloteinträgen auf.
Um nullwertigen Wahrscheinlichkeiten vorzubeugen, werden die Parameter zusätzlich mittels
Laplaceglättung geglättet. Die Komplexität der Berechnung ist dabei linear zur Größe der
Trainingsmenge. [MCN98]
Ein Benutzerprofil kann sehr gut veranschaulicht werden, indem man die Features auflistet,
die den stärksten negativen bzw. positiven Einfluss (strength) auf eine Bewertung haben. Der
Strength-Wert gibt an, um wie viel mehr ein Wort in einem Slot dazu beiträgt eine positive
Bewertung für ein Buch zu erhalten, als eine negative. Dieser Wert wird wie folgt errechnet:
 Pwk | c1 , s m  

Strengthwk , s m   log 


P
w
|
c
,
s
k
0
m 

Mit Hilfe eines solchen Benutzerprofils ist es nun möglich, ein Ranking über alle Bücher zu
berechnen und dem Benutzer die positiv klassifizierten Bücher mit einem hohen OddsRatio zu
empfehlen. Darüber hinaus kann LIBRA dem Benutzer auf eine sehr einfache Art und Weise
Recommendersysteme in digitalen Bibliotheken
- 25 -
erklären, warum gerade diese Empfehlung zustande gekommen ist. Dies ist kein unwichtiger
Aspekt eines Recommender Systems, da es sich gezeigt hat, dass der Erfolg solcher Systeme
oft stark davon abhängt, wie weit der Benutzer dem System vertraut, und die Empfehlungen
nachvollziehen kann. [JA04]
3.4.3.2 Aufbau des Systems
Das System LIBRA gliedert sich in drei Hauptkomponenten, deren Funktionsweise im
Folgenden näher erläutert wird. [JA04]
Content Based Ranker
Nachdem der aktive Benutzer einige Trainingsbeispiele bewertet hat, kann aus dieser User
Ratings Matrix ein Ranking der Items berechnet werden. Die so genannte Ranked Items
Tabelle ergibt sich aus der Sortierung der Items nach deren OddsRatio.
Rating Translator
Aufgabe des Rating Translators ist es, die Tabelle mit den Ranked Items in eine Tabelle mit
Ratings der Items zu überführen. Diese Rated Items Tabelle nutzt der Collaborative Filterer
sodann, um unterschiedliche Benutzer anhand ihrer Ratings zu vergleichen.
Für jeden aktiven Benutzer wird mittels einer Rating Percentage Tabelle ermittelt, wie dessen
Ratings verteilt sind. Da Benutzer jedoch eher dazu neigen, Titel zu bewerten, die sie mögen,
anstatt eine zufällige Anzahl an Titeln zu bewerten, wird die Rating Percentage Tabelle noch
geglättet. Dazu verwendet man eine empirisch gefundene Smoother Rating Percentage
Tabelle, welche die Ratingverteilungen von Testpersonen auf zufällig gezogene Items enthält.
Die Glättung wird wie folgt berechnet:
smoothed[i ] 
ratingpercentages[i ]  w  smoother[i ]
, für1  i  5
1 w
Wobei w die Glättungskonstante ist. Die Ratings der Items werden dann wie folgt berechnet:
Bei angenommenen x Items werden nun gemäß der Smoothed Verteilung die Items auf die
Intervalle aufgeteilt. Also x * smoothed[i]/100 der Items fallen in das Intervall [i,i-1). Das
genaue Rating für das y-te Item im Intervall [i,i-1) ergibt sich dann wie folgt:
Rating ( y, i)  i 
y 1
x  smoothed[i] / 100
Recommendersysteme in digitalen Bibliotheken
- 26 -
Collaborative Filterer
In LIBRA wird ein Collaborative Filterer benutzt, welcher ursprünglich von Herlocker
[HKBR99] für Nachrichten Recommender Systeme implementiert wurde. Das Collaborative
Filtering setzt sich aus den folgenden drei Schritten zusammen:
1. Berechnung der Korrelation zwischen dem aktiven Benutzer und den anderen
Benutzern des Systems
2. Auswahl der besten n Benutzer (Nachbarn), welche am stärksten mit dem aktiven
Nutzer korrelieren. Um die Ähnlichkeit von Benutzern zu ermitteln, wird der Pearsche
Produkt-Moment Korrelationskoeffizient verwendet:
 r
m
Pa ,u 
a ,i
i 1
 r
m
i 1
a ,i
 ra   ru ,i  ru 
 ra    ru ,i  ru 
m
2
2
i 1
In diesem Fall ist m die Anzahl der Items, ra ,i ist das Rating des aktiven Benutzers für
das Item i und ra ist das arithmetische Mittel über allen Ratings des aktiven Benutzers.
Für ru ,i und ru gilt das Gleich jeweils für die anderen Benutzer.
3. Berechnung der Vorhersagen für Items mit Hilfe der Ratings der Nachbarn. Die
Vorhersage der Items berechnet sich wie folgt:
 r
n
Pa ,i  ra 
u 1
u ,i
 ru  Pa ,u
n
P
u 1
a ,u
Hierbei ist n die Anzahl an Nachbarn und Pa ,u ist die Pearson Korrelation. Die Items
werden nun nach den vorhergesagten Ratings geordnet und dem Benutzer ausgegeben.
3.4.4 Hierarchical Bayesian Recommender System
Einen Schritt weiter geht das Hierarchical Bayesian Recommender System. Es verwendet
anstatt der bei den beiden traditionellen Filtermethoden genutzten zwei Arten von
Informationen, fünf verschiedene Informationsquellen:
1. die von einem Nutzer geäußerte Präferenz oder Auswahl alternativer Items
2. die vom Nutzer geäußerte Präferenz bezüglich der Itemeigenschaften
Recommendersysteme in digitalen Bibliotheken
- 27 -
3. die Präferenz anderer Nutzer
4. Expertenurteile
5. andere individuelle Itemeigenschaften, die Präferenzen ausdrücken können.
Anhand dieser Informationen wird versucht, den Empfehlungsprozess noch präziser zu
gestalten.
Mit
Hilfe
einer
Funktion,
die
Itemeigenschaften,
Benutzerratings
und
Expertenevaluationen als Parameter enthält, wird eine Möglichkeit geschaffen, gute
Empfehlungsergebnisse zu erhalten, ohne vom Nutzer übermäßig viele Informationen zu
benötigen. [AEK00]
3.5 Probleme - Datenschutz
Wie eben beschrieben schließen Recommender Systeme auf ihre Empfehlungen mit Hilfe von
aufgezeichneten Benutzerprofilen. Viele User wissen aber oft gar nicht, welche Daten ein
Webserver alles aufzeichnet und welche Informationen sich daraus generieren lassen. Die
Möglichkeit, des Schutzes vor solchen Überwachungen und Informationsaufzeichnungen
benötigt heute schon einiges an Fachwissen von den Usern. Abschalten bzw. Selektive
Ablehnung von Cookies, Verwendung von Proxies, oder absichtliche Desinformation des
Anbieters sind Möglichkeiten der User diesen Datenaufzeichnungen zu entgehen.
Professionelle Anbieter von Recommender Systemen sollten aber den User zumindest
aufklären, was mit seinen Nutzungsdaten geschieht, und wie diese verarbeitet werden.
Außerdem sollte dem Benutzer ein gewisser Grad an Kontrolle über seine aufgezeichneten
Daten ermöglicht werden. [NTP97]
Der vom W3C-Konsortium entwickelte Vorschlag „Platform for Privacy Preferences“ (P3P)
soll dem Benutzer mehr Kontrolle über die Nutzung seiner persönlichen Informationen geben.
Die persönlichen Daten werden auf dem Computer des Users gespeichert und definierte
Regeln bestimmen, welche Daten preisgegeben werden dürfen und welche nicht. Meldet zum
Beispiel eine Website, dass sie Informationen aus den Log-Dateien sammeln und auswerten
möchte, überprüft der P3P-Agent, ob dies mit den Regeln des Benutzers im Einklang steht
oder nicht. Sowohl die vom Benutzer eingegebenen Regeln, als auch die Anforderungen einer
Website werden als Klartext in XML gespeichert und können daher vom Anwender jederzeit
gelesen werden. [KM03]
Recommendersysteme in digitalen Bibliotheken
3.6 Fazit
Es reicht also keineswegs, neue Medien in das alte Tätigkeitsspektrum von Bibliotheken zu
inkludieren. Wenn wissenschaftliche Bibliotheken in der Informationsgesellschaft keinen
Bedeutungsverlust erlangen wollen, müssen sie neue Konzeptionen entwickeln und ihr
Tätigkeitsprofil und Dienstleistungsangebot deutlich erweitern, um dem technischen,
medialen wie kulturellen Wandel gerecht werden zu können. So lautete etwa das Motto des
deutschen Bibliothekartages im April 2001 in Bielefeld: „Bibliotheken – Portale zum globalen
Wissen“. [RH02]
- 28 -
Recommendersysteme in digitalen Bibliotheken
Literaturverzeichnis
[AEK00]
Ansari A./Essegaier S./Kohli R. (2000): Internet Recommendation Systems.
In: Journal of Marketing Research, Vol. 37, S. 363-375
[BAL97]
Balabanovic M. (1997): An Adaptive Web Page Recommendation Service.
In: Procceedings of the 1st International Conference on Autonomous Agents, S. 378-385
[BS97]
Balabanovic M./Shoham Y. (1997): Fab: Content-based, collaborative recommendation.
In: Communications of the ACM, March 1997, Volume 40, No. 3, S. 66-72
[CK02]
Cruz J.M.B./Krichel T. (2002): Co-usage of documents in a large digital library
[FS02]
Fabrizek S. (2002): Personalisierung und Recommender Systeme – Einführung und
Überblick, Seminararbeit, TU-München
[FD92]
Foltz P./Dumais S. T. (1992): Personalized Information Delivery: An Analysis of
Information Filtering Methods.
In: Communications of the ACM, Dezember 1992, Vol. 35, No. 12, S. 51-60.
[GHJ]
Geyer-Schulz A./Hahsler M./Jahn M.: Educational and Scientific Recommender
Systems: Designing the Information Channels of the Virtual University.
[GHJ01]
Geyer-Schulz A./Hahsler M./Jahn M.: Wissenschaftliche Recommendersysteme in
Virtuellen Universitäten
[GNT04]
Geyer-Schulz A./Neumann A./Thede A. (2004): An Architecture for Behavior Based
Library Recommender Systems
[GP99]
Glotz P. (1999): Die beschleunigte Gesellschaft. Kulturkämpfe im digitalen Kapitalismus.
[HKBR99]
Herlocker L. J./Konstan A. J./Borchers A./Riedl J. (1999): An algorithmic framework
for performing collaborative filtering.
In: Proceedings of the 22nd Annual International ACM SIGIR Conference. S. 230-237
[JA04]
Janz A. (2004): Text Mining und Anwendungen - Recommender Systems, Seminararbeit,
Humbold-Universität, Berlin
[JK00]
Jostock K (2000): Personalisierung auf Basis von Content-Based Filtering: Theoretische
Grundlage, Seminararbeit, Johann Wolfgang Goethe-Universität, Frankfurt am Main
- 29 -
Recommendersysteme in digitalen Bibliotheken
[KPB00]
Kantor P. B. (2000): Capturing Human Intelligence in the Net,
In: Communications of the ACM, August 2000, Vol. 42, No. 8, S. 112-115
[KGL00]
Klein S./Güler S./Lederbogen K. (2000): Personalisierung im elektronische Handel.
WISU 29 (2000) 1, S. 88-94
[KH04]
Kristen H. (2004): Auf dem Weg zur Digitalen Bibliothek
URL: http://www.ubka.uni-karlsruhe.de/vvv/2004/zentral/digibib/02-Kristen/02Kristen.pdf
[KM03]
Krueger M. (2003): Personalisierung und Recommender Systeme – Modellierung von
Benutzerprofilen in der KI und im E-Commerce.
[MK00]
Maus K. (2000): Funktionsweisen und Schwächen von Textfiltern in
Internetanwendungen. Seminararbeit, Johann Wolfgang Goethe-Universität
[MCN98]
McCallum A./Nigam K. (1998): A comparison of event models for naive Bayes text
classification.
[MR00]
Mooney R. J./Roy L. (2000): Content-Based Book Recommending Using Learning for
Text Categorization.
In: Proceedings of the 5th ACM Conference on Digital Libraries, S. 195-204
[NTP97]
Nichols D.M./Twidale M.B./Paice C.D. (1997): Recommendation and Usage in the
Digital Library
[OWDJK]
Oard W.D./Jinmook K.: Implicit Feedback for Recommender Systems.
URL:http://citeseer.ist.psu.edu/cache/papers/cs/728/http:zSzzSzwww.clis.umd.eduzSzdlrgz
SzfilterzSzpaperszSzrecommender.pdf/oard98implicit.pdf
[OWM97]
Oard W.D./Marchionini G. (1997): A Conceptual Framework for Text Filtering.
URL: http://www.ee.umd.edu/medlab/filter/papers/filter/filter.html
[ÖS02]
Ökmen S. (2002): Personalisierung und Recommender Systeme - Kollaborative
Filterverfahren
[OA95]
Oßwald A. (1995): Die virtuelle Bibliothek: Konzeptionelle Grundlagen und praktischer
Nutzen.
[PF01]
Pilgrim F: Personalisierung auf der Basis von Benutzerprofilen, Seminararbeit, Universität
Münster,
URL: http://www.wi.uni-muenster.de/wi/lehre/sel/ws00-01/Referate/Pilgrim.pdf
- 30 -
Recommendersysteme in digitalen Bibliotheken
[PR02]
Pregernig R./Rappold A. (2002): Personalisierung. Seminararbeit, Universität Wien
[RV97]
Resnick P./Varian H. R. (1997): Recommender Systems.
In: Communications of the ACM, Vol. 40(3), S. 56-58.
[RBF03]
Riethmayer B. F. (2003): Gewinnen von Profilinformationen und damit verbundene
Probleme
[ROC71]
Rocchio J. J. (1971): Relevance feedback in information retrieval in the SMART system.
Prentice Hall, S. 313-323
[RH02]
Rösch H. (2002): Wissenschaftsportal – bibliothekarische Konzeption in der
Informationsgesellschaft
[RM00]
Runte M (2000): Personalisierung im Internet – Individualisierte Angebote mit
Collaborative Filtering. Dissertation, Universität Kiel,
URL: http://www.runte.de/matthias/publications/personalisierung im internet.pdf
[RC98]
Rusbridge C. (1998): Towards the Hybrid Library.
In: D-Lib Magazine. Vol 4, July/August 1998.
[RFD99]
Rusch-Feja D. (1999): Digital Libraries. Informationsform der Zukunft für die
Informationsversorgung und Informationsbereitstellung?
[SB03]
Schmitt B. (2003): Benutzerprofile für die Anfrageverarbeitung in verteilten Digitalen
Bibliotheken, Dissertation, Universität Fridericiana zu Karlsruhe
[SSU01]
Schwabe G./Streitz N./Unland R. (2001): CSCW-Kompendium, Springer Verlag
[SAPN98]
Stephanidis, C./Akoumianakis D./Paramythis A./Nikolau C. (1998): User interaction in
digital libraries: coping with diversity through adaption
[TLH01]
Terveen L./Hill W. (2001): Beyond Recommender Systems: Helping People Help Each
Other, In: HCI in the New Millennium, Jack Carroll, ed., Addison-Wesley, 2001
[TF97]
Teuteberg F. (1997): Effektives Suchen im World Wide Web: Suchdienste und
Suchmethoden
[WG02]
Weng G. (2002): Personalisierung und Recommender Systeme – Probleme verschiedener
Filterverfahren und Lösungsideen
- 31 -