Recommender Systeme in digitalen Bibliotheken Bakkalaureatsarbeit Betreuer: Dr. Michael Hahsler Institut für Informationsverarbeitung und Informationswirtschaft Abteilung für Informationswirtschaft Wirtschaftsuniversität Wien Augasse 2-6 A-1090 Wien, AUSTRIA von: Richard Brand-Haushofer Studienrichtung: Wirtschaftsinformatik Matrikelnummer: 0250109 Recommendersysteme in digitalen Bibliotheken Stichworte: digitale Bibliothek, Recommender Systeme, Collaborative Filtering, Content-based Filtering, Benutzerprofile, Hybride Recommender Systeme, Fab, LIBRA, Anforderungen Keywords: digital library, recommender systems, collaborative filtering, content-based filtering, user profiles, hybrid recommender systems, Fab, LIBRA, requirements, Zusammenfassung: Diese Arbeit beschreibt im Allgemeinen den Einsatz von Recommender Systemen in digitalen Bibliotheken. Nach einer kurzen Einleitung, in der diverse Anforderungen an Recommender Systeme und digitale Bibliotheken beschrieben werden, behandelt diese Arbeit die beiden Filtermethoden Content-based filtering und Collaborative filtering. Das Hauptaugenmerk liegt dabei auf der Kombination dieser Methoden und deren Einsatz im Bibliothekswesen. Abstract: This paper describes the deployment of recommender systems in digital libraries. According to a short prelude, in which miscellaneous requests at recommender systems and digital libraries are described, this work explains the two filter methods content-based filtering and collaborative filtering. The main part of this work concentrates on how these two filtering methods are used in libraries. Kernpunkte für das Management: Dieser Beitrag beschreibt, wie Recommender Systeme in digitalen Bibliotheken eingesetzt werden können, und welchen Nutzen ein Anwender daraus ziehen kann. Es werden Möglichkeiten aufgezeigt, wie Benutzerprofile erstellt und von den Filtermethoden verwendet werden können. Content-based Filtering: Vergleicht die Inhalte der einzelnen Items und generiert daraus Empfehlungen Collaborative Filtering: Generiert Empfehlungen aufgrund von Ähnlichkeiten in den Benutzerprofilen der einzelnen User. Hybride Filtermethoden: Kombiniert die Vorteile der beiden Ansätze um so bessere Recommendations zu ermitteln. Als Beispiele für hybride Systeme werden die Systeme „Fab“ und „LIBRA“ näher erläutert. - II - Recommendersysteme in digitalen Bibliotheken Inhaltsverzeichnis Inhaltsverzeichnis ................................................................................................................... III Abbildungsverzeichnis ........................................................................................................... IV Tabellenverzeichnis ................................................................................................................ IV 1 Bibliotheken .......................................................................................................................... 1 1.1 konventionelle Bibliotheken ........................................................................................... 1 1.1.1 Entwicklung von wissenschaftlichen Bibliotheken .............................................. 1 1.2 digitale Bibliotheken ...................................................................................................... 2 1.2.1 digitale vs. virtuelle Bibliotheken ........................................................................ 2 1.2.2 technische und nicht-technische Aspekte ............................................................. 3 1.2.3 Chancen und Gefahren ......................................................................................... 3 1.2.4 funktionale und nicht-funktionale Anforderungen ............................................... 4 2 Recommender Systeme ........................................................................................................ 5 2.1 Allgemeines .................................................................................................................... 5 2.1.1 Definition - Entwicklung ...................................................................................... 5 2.1.2 Modell eines Recommendation Prozesses ........................................................... 7 2.2 Klassifizierung von Recommendersystemen .................................................................. 8 3 Recommender Systeme in digitalen Bibliotheken ............................................................. 9 3.1 Benutzerprofile ............................................................................................................... 9 3.1.1 Schritte der Informationserschließung................................................................ 10 3.1.2 Identifikation des Benutzers ............................................................................... 11 3.1.3 Profildatengewinnung......................................................................................... 12 3.2 Content-Based Recommendation ................................................................................. 13 3.2.1 Methode .............................................................................................................. 13 3.2.2 Kategorisierung der Content-Based Filtering Methoden.................................... 14 3.2.3 Probleme............................................................................................................. 16 3.3 Collaborative Filters ..................................................................................................... 16 3.3.1 Methode .............................................................................................................. 16 3.3.2 Kategorisierung der Collaborative Filtering Methoden...................................... 17 3.3.3 Probleme............................................................................................................. 18 3.4 Kombination von Content-Based und Collaborative Filtering ..................................... 19 3.4.1 Vorteile eines Hybrid-Systems ........................................................................... 19 3.4.2 System „Fab“ ...................................................................................................... 19 3.4.3 System „LIBRA“ ................................................................................................ 21 3.4.4 Hierarchical Bayesian Recommender System .................................................... 26 3.5 Probleme - Datenschutz ................................................................................................ 27 3.6 Fazit .............................................................................................................................. 28 Literaturverzeichnis ............................................................................................................... 29 - III - Recommendersysteme in digitalen Bibliotheken Abbildungsverzeichnis Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01] ....................................... 8 Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02] .................... 17 Tabellenverzeichnis Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01] ........................... 6 Tabelle 2 – Discovery Model - Quelle: [NTP97] ..................................................................... 10 - IV - Recommendersysteme in digitalen Bibliotheken 1 -1- Bibliotheken „The digital age offers libraries an opportunity to shape the future of knowledge management in the networked community of the World Wide Web. “ Jay Jordan, Präsident von OCLC im Jahresbericht 1998/99 1.1 konventionelle Bibliotheken 1.1.1 Entwicklung von wissenschaftlichen Bibliotheken Konventionelle Bibliotheken konzentrieren sich auf das Sammeln und Ausleihen analoger Bestände wie zum Beispiel Zeitschriften, Bücher, Videoaufzeichnungen usw. Die Entwicklung von Bibliotheken hat sich durch Innovationen in mehreren Stufen vollzogen, um so auf die Herausforderungen, die der Wandel von der Industrie- zur Informationsgesellschaft mit sich brachte, zu reagieren. Bibliotheken und diverse Informationseinrichtungen sind entstanden, um den Bedarf an Informationen und Wissen der Gesellschaft zu befriedigen. Die Entwicklung neuer Speichermedien, vom Buch bis hin zur digitalen Speicherung, hat Bibliotheken und ihre konzeptionellen Grundlagen schon immer verändert. Die steigende Verbreitung wissenschaftlicher Zeitschriften im 17. und 18. Jahrhundert führte dazu, dass sich im 18. und 19. Jahrhundert die wissenschaftliche Gebrauchsbibliothek entwickelte. Der gegenwärtige, durch die digitale Revolution ausgelöste, Wandel von der Industrie- zur Informationsgesellschaft bringt eine Verkürzung der Innovationszyklen mit sich, was klar als Strukturmerkmal der Informationsgesellschaft angesehen werden kann [GP99]. Derzeit erkennt man einen dreistufigen Entwicklungsprozess, welcher durch Informationstechnologien ausgelöst wurde: 1.1.1.1 Automatisierung Die Automatisierung begann in den 60er Jahren und bezieht sich hauptsächlich auf die automatische Erschließung und Bereitstellung von Informationsmaterial. Dadurch wurden Vorgänge in Bibliotheken rationalisiert und beschleunigt. In Folge dessen entstanden die ersten OPACs (Online Public Access Catalog), digitale Kataloge, welche Metadaten über Bücher usw. beinhalten, die den Benutzern zugänglich gemacht wurden. [RH02] Recommendersysteme in digitalen Bibliotheken 1.1.1.2 Digitalisierung In den 80er Jahren folgte dann die Digitalisierung. Man ging dazu über, nicht nur Metadaten, sondern die Medien selbst in digitaler Form zu speichern und den Benutzern zur Verfügung zu stellen. Man fand nun auch multimediale CD-ROMs und digitale Volltexte in den Beständen wissenschaftlicher Bibliotheken. Mit der Zeit wuchs der Anteil dieser Medien zusehends an. [RFD99] 1.1.1.3 Virtualisierung Die Anfänge der Virtualisierung sind in den Anfängen der 90er Jahre zu suchen. Man versteht darunter, dass die Informationsversorgung aus verteilten Ressourcen in digitaler Form erfolgt. Dabei kann es sich entweder um externe oder um interne Ressourcen handeln, die über Netzwerke verbreitet und unter einheitlichen Gesichtspunkten aufbereitet werden. [OA95] 1.2 digitale Bibliotheken 1.2.1 digitale vs. virtuelle Bibliotheken Im Zusammenhang mit der oben genannten Virtualisierung werden oft die Begriffe „digitale Bibliothek“ und „virtuelle Bibliothek“ verwendet. Eine eindeutige Abgrenzung bzw. Definition dieser Terme hat sich bislang noch nicht durchgesetzt. Sie werden daher oft in einer nicht genau erläuterten Bedeutung gebraucht, was leicht zu Fehlinterpretationen führen kann. Digitale Bibliotheken könnte man folgendermaßen charakterisieren: „Bibliotheken, die sich auf das Sammeln und Ausleihen digitaler Medien konzentrieren.“ [KH04] Unter virtuellen Bibliotheken versteht man oft „Bibliotheken, die ortsgebundene sowie ortsunabhängige Daten verwalten und anbieten“. [KH04] Der Nachteil dieser oben genannten Begriffe besteht jedoch darin, dass sie sich ausschließlich auf digitale Medien beziehen. Digitale Medien machen in der Praxis jedoch nur einen Teil des gesamten Bestandes an Informationsmaterial aus. Deshalb wurde als weitere Bezeichnung 1997 im Rahmen des britischen eLib-Programms der Begriff „Hybrid Library“ eingeführt. [RC98] Hierunter versteht man im Allgemeinen „Bibliotheken, die sich auf das Sammeln und Ausleihen sowohl analoger Bestände, als auch digitaler Medien konzentrieren.“ [KH04] Damit wird man der Einsicht gerecht, dass in absehbarer Zeit auch physische Dokumente in Bibliotheken weiterhin Bestand haben werden. Alle diese Begriffe von digitaler über virtueller bis hin zu hybrider Bibliothek bleiben jedoch medien-, also bestandsbezogen. Es kommt damit jedoch nicht zum Ausdruck, dass Bibliotheken nicht nur Medien aufbewahren und bereitstellen, sondern -2- Recommendersysteme in digitalen Bibliotheken -3- darüber hinaus auch als Dienstleistungseinrichtungen für ihre Besucher agieren. Dieser Aspekt gewinnt in der heutigen Informationsgesellschaft immer mehr an Bedeutung. [RH02] 1.2.2 technische und nicht-technische Aspekte Der Hauptzweck digitaler Bibliotheken ist natürlich das Sammeln, Speichern, Indexieren und Präsentieren digitaler Dokumente. Diese Daten sind zumeist in unterschiedlichen Formaten wie Text, Video oder Ton vorhanden, und müssen oftmals in verteilten Datenbanken gespeichert werden. Damit wird ein gutes Datenbankmanagement unumgänglich. Außerdem müssen digitale Bibliotheken für ihre Benutzer mehr als nur eine Informationsquelle darstellen. Sie müssen ihnen auch die Möglichkeit bieten, untereinander in Kontakt zu treten um Informationen auszutauschen. [SPAN98] Zu den nicht-technischen Aspekten gehören vor allem Fragen wie jene nach dem geistigen Eigentum an Dokumenten. Wer besitzt die Urheberrechte auf welche Informationsquellen und inwieweit dürfen Unterschiedliche diese Benutzer Dokumente stellen veröffentlicht natürlich auch bzw. heruntergeladen unterschiedliche werden. nicht-technische Anforderungen an ein Bibliothekssystem. So werden zum Beispiel Professoren oder Experten eher daran interessiert sein, Dokumente zu veröffentlichen, während für Studenten eher das rasche Auffinden relevanter Informationen im Vordergrund stehen wird. Vor allem die unterschiedlichen nicht-technischen Aspekte digitaler Bibliotheken erhöhen die Komplexität in der Entwicklung solcher Systeme und den Wartungsaufwand in der Praxis. [SPAN98] 1.2.3 Chancen und Gefahren Zu den großen Chancen digitaler Bibliotheken zählen vor allem, dass immense Mengen an unterschiedlichen Informationen von verschiedenen Benutzergruppen an fast jedem Ort der Welt abgerufen werden können. Um bei dieser Informationsflut den Usern das Durchsuchen der Datenmengen zu erleichtern, bieten digitale Bibliotheken, im Gegensatz zu konventionellen Bibliotheken, die Möglichkeit, Recommendersysteme einzusetzen. Den Benutzern wird damit das Auffinden und Bewerten relevanter Dokumente erleichtert. Außerdem kann den Usern die Möglichkeit geboten werden, selbst ein Urteil über die Relevanz eines Dokumentes abzugeben, oder eine Empfehlung zu einem bestimmten Dokument zu schreiben. In digitalen Bibliotheken steigt weiters die Gefahr an, dass Artikel oder Unterlagen veröffentlicht werden, die nicht einem gewissen Qualitätsstandart entsprechen, da sie oftmals nicht mehr von Experten bewertet und beurteilt werden, sondern Recommendersysteme in digitalen Bibliotheken -4- automatisch vom Bibliothekssystem beschrieben und in den Bestand eingeordnet werden. [SAPN98] 1.2.4 funktionale und nicht-funktionale Anforderungen Jede Bibliothek ist natürlich inhaltlich durch die Unterlagen, die ihr zugrunde liegen, begrenzt. Da bei digitalen Bibliotheken die räumliche bzw. örtliche Begrenzung konventioneller Bibliotheken wegfällt, ergeben sich noch weitere funktionale und nichtfunktionale Anforderungen. Die Hauptaufgaben, das Indexieren, Suchen, Finden und Präsentieren von Dokumenten müssen jedoch beide Arten von Bibliotheken erfüllen, wenn auch in unterschiedlicher Art und Weise. Zudem benötigen die verschiedenen Personengruppen, die mit digitalen Bibliotheken zu tun haben, unterschiedliche Tools, um ihre Aufgaben bzw. Bedürfnisse zu erfüllen. So sind zum Beispiel Mitarbeiter hauptsächlich dafür zuständig, alles in einer den Anforderungen der Benutzer entsprechender Form zu organisieren. Dies beinhaltet Tätigkeiten wie das Erwerben, Lagern und Aufbewahren, Klassifizieren und Indexieren von Materialien. Wobei die Klassifizierung und Indexierung oftmals schon maschinell erfolgen. Mitarbeiter benötigen daher Content Management Systeme zur Verwaltung und Strukturierung der verschiedenen Informationsquellen. Die zweite Personengruppe, nämlich die Benutzer, sind hauptsächlich an der Verwendung dieser Unterlagen und an der raschen Gewinnung relevanter Informationen interessiert. Um dies zu ermöglichen, benötigen digitale Bibliotheken Kataloge über Meta-Daten von Dokumenten, Content Repositories und elektronische Kataloge, um die gewünschten Dokumente schneller wieder zu finden. Digitale Bibliotheken sollten Benutzern außerdem auch die Funktionalität bieten, miteinander in Interaktion zu treten, um so Erfahrungen und Informationen auszutauschen. Dies können Meeting Rooms und weitere diverse Human-to-Human Interaction Möglichkeiten bieten. [SAPN98] Zu den nicht-funktionalen Anforderungen zählen generell einmal all jene Anforderungen, die im Allgemeinen an Softwaresysteme generell gestellt werden. Dazu zählen zum Beispiel Aspekte wie die Performance oder eine klare Strukturierung des Quellcodes. Darüber hinaus müssen digitale Bibliotheken ihren Benutzern universelle Zugangs- bzw. Zugriffsmöglichkeiten bieten. Das heißt, dass sie für eine größtmögliche Benutzergruppe, die jeweils unterschiedliche Fähigkeiten, Anforderungen und Kenntnisse besitzt, entworfen werden muss. Daraus lassen sich unterschiedliche Anforderungen an den Inhalt und an das Human-Computer-Interface Design ableiten. Benutzer sollen außerdem die Möglichkeit Recommendersysteme in digitalen Bibliotheken haben, auf die von ihnen gewünschten Informationen in einer möglichst effektiven und effizienten Weise zuzugreifen. Des Weiteren sollte ein digitales Bibliothekssystem modifizierbar sein. Darunter versteht man vor allem die Fähigkeit des Systems, dass bestimmte Funktionalitäten erweitert werden können, um so über längere Zeit Bestand zu haben. Die Anforderung der Platform Scalability einer digitalen Bibliothek bedeutet, dass zukünftige Technologien jederzeit integrierbar sein sollten, und dass die Benutzer auch mit unterschiedlich technisch ausgestatteten Systemen auf die digitale Bibliothek zugreifen können, und die Informationen in einer für sie angepassten Form erhalten. [SAPN98] 2 Recommender Systeme 2.1 Allgemeines 2.1.1 Definition - Entwicklung Unter Recommender Systemen versteht man Systeme, die für Benutzer automatisch Empfehlungen generieren. Diese Empfehlungen können sich im Zusammenhang mit einem Online-Shop zum Beispiel auf ähnliche Produkte beziehen, oder im Kontext von Bibliotheken eben auf Bücher oder Dokumente zu ähnlichen relevanten Themen. Diese Systeme sollen also den Benutzer bzw. Kunden bei der Produkt- bzw. Informationssuche unterstützen. Generell kann man zwischen personalisierten und nicht-personalisierten Recommender Systemen unterscheiden. Der Unterschied besteht darin, dass nicht-personalisierte Recommender Systeme für jeden Benutzer dieselben Empfehlungen aussprechen. Als Beispiel hierfür seien Bestsellerlisten genannt. Im Gegensatz dazu richten sich personalisierte Recommender Systeme nach den Bedürfnissen oder Gewohnheiten der einzelnen Benutzer. In digitalen Bibliotheken sollen personalisierte Recommender Systeme dem User also helfen, Dokumente zu finden, die zu seiner Suchanfrage am besten passen, und die für das System am relevantesten erscheinen. [FS02] In den 1990er wurden verschiedene Typen von Recommender Systemen entwickelt, die sich grob in vier Klassen unterteilen lassen: [TLH01] Content-based systems: Diese Systeme empfehlen Items, von denen sie aufgrund vorhergegangener Erfahrungen glauben, dass sie für den User relevant sind. Der Focus liegt bei diesen Systemen auf den Algorithmen, welche die Benutzerprofile erlernen und -5- Recommendersysteme in digitalen Bibliotheken -6- neue Items herausfiltern, deren Inhalte am besten mit den Benutzerpräferenzen korrelieren. Recommendation support systems: Support Systeme automatisieren den Recommendationprozess nicht, sondern unterstützen nur die einzelnen Benutzer Empfehlungen abzugeben bzw. zu erhalten. Social data mining systems: Beziehen die User-Präferenzen implizit aus den Interaktionen des Benutzers mit dem System, oder aus diversen Usenet Messages usw. Diese Systeme fokussieren sich auf HCI Komponenten, welche die Resultate von Empfehlungsprozessen visualisieren, womit die Navigation im Informationsraum erleichtert werden soll. Collaborative filtering systems: Collaborative filtering setzt ebenfalls auf den Benutzerprofilen auf und versucht, mit Hilfe von Algorithmen, Benutzer Präferenzen zu matchen, um so Items zu empfehlen. Items die ein Benutzer als interessant bewertet hat, werden auch jenen Benutzern empfohlen, deren Benutzerprofile am besten mit dem des aktiven Benutzers korrelieren. Approaches Issues Preferences Content-based Seeker’s preferences only System automates Roles & Communication Role asymmetry Algorithms HCI Rec. Support Machine learning; information retrieval Social Data Mining Mines preferences; seeker’s preferences typically not used System supports human recommenders and seekers Collaborative Filtering Seekers must state preferences System automates High potential for community; raises significant privacy concerns Role asymmetry vs. Role uniformity Data mining Preference matching and weighting Visualization; visual annotation Tabelle 1 Recommender Systems Issues and Approaches – Quelle [TLH01] Die Geschichte von Recommender Systemen ist noch relativ jung und ging aus der Entwicklung von Decision Support Systeme (DSS) heraus. Decision Support Systeme, welche vor allem im Management Bereich ihren Einsatz finden, wurden Ende der 50er und Anfang der 60er Jahre entwickelt. Es sind dies Werkzeuge, die die Entscheidungsträger bei der Entscheidungsfindung unterstützen sollen. Im Gegensatz zu Recommender Systemen wird aber keine Bewertung der einzelnen Möglichkeiten vorgenommen. Recommendersysteme in digitalen Bibliotheken Als den Erfinder des Collaborative Filterings kann man John Hey bezeichnen. Dieser beschrieb im Jahre 1987 in einem ersten Patent grob das Verfahren von Collaborative Filtering und in einem zweiten Patent im Jahre 1989 den Zusammenhang dieses Algorithmus mit der automatischen Generierung von Empfehlungen. Er nannte diesen Begriff jedoch noch nicht Collaborative Filtering, welcher erst in einem Aufsatz über „Tapestry“, einem Mailfiltersystem der XEROX Palo Alto Research Group, erwähnt wurde [RM00]. Im Jahr 1992 startete an der University of Minnesota das Forschungsprojekt „GroupLens“, mit dem es erstmals möglich war, automatisch ähnliche Benutzer zu finden, wodurch das Recommender System nicht mehr auf Netzwerke begrenzt war, in dem jeder jeden kennt. Ein weiterer Meilenstein war das im Jahr 1993 ins Leben gerufene Forschungsprojekt namens „OpenSesame!“, bei dem es sich um einen lernenden Agenten handelt, der das Benutzerverhalten aufzeichnete und nach wiederkehrenden Mustern suchte. Das Produkt daraus wird heute unter dem Name „LearnSesame!“ angeboten. Ein letzter Schritt war die Portierung von „GroupLens“ auf das Usenet zur Bildung von Communities im Jahre 1996. [FS02] 2.1.2 Modell eines Recommendation Prozesses Abbildung 1 zeigt ein sehr allgemeines Modell eines Recommendationprozesses. Ein Empfehlungssuchender fragt um eine Empfehlung an, oder ein Empfehlender übermittelt ohne Anfrage automatisch eine Empfehlung. Empfehlungssuchende stellen dem System möglicherweise Daten über sich zu Verfügung, oder das System erhebt diese implizit. Basierend auf den Informationen über den Benutzer, aber auch anhand von Informationen über andere Benutzer, schlägt das Recommender System dann dem User entsprechende Objekte vor, welche dem System als relevant erscheinen, und zu den Interessen des Users passen könnten. Ein User wird dann entweder das Objekt auswählen und weiter verwenden, oder er wird möglicherweise Kontakt zu anderen Usern aufnehmen, die ähnliche Interessen besitzen. [THL01] -7- Recommendersysteme in digitalen Bibliotheken -8- Abb. 1 Modell eines Recommendation Prozesses - Quelle: [THL01] 2.2 Klassifizierung von Recommendersystemen Nach P. Resnick und H. R. Varian [RV97] kann man Recommendersysteme anhand der folgenden 5 Dimensionen klassifizieren. [GHJ] 1. Was stellt den Inhalt einer Empfehlung dar? Der Inhalt einer Empfehlung kann in unterschiedlichen Formen dargestellt werden, zum Beispiel als ein einzelnes Bit (1=empfohlen, 0=nicht empfohlen) oder in Form einer Schulnote, oder es kann auch nur unstrukturierter Text sein, oder eine URL, welche auf eine andere Informationsquelle verweist. 2. Basiert die Empfehlung auf der Meinung von Benutzern oder auf beobachtetem Benutzerverhalten? Die Betonung liegt hier vor allem auf dem Unterschied zwischen expliziten Empfehlungen, welche die Meinung der Benutzer widerspiegeln, und auf implizit beobachtetem Benutzerverhalten. Die auf dem Internet basierende Infrastruktur von digitalen Bibliotheken bietet eine Reihe von unterschiedlichen Indikatoren, aus denen implizit Benutzerdaten gewonnen werden können. 3. Ist der Benutzer anonym? In digitalen Bibliotheken sind Benutzer nur bis zu einem gewissen Grad anonym. So können User zum Beispiel über Sessions, Pseudonyme oder Logins identifiziert werden. 4. Wie werden Empfehlungen aggregiert? Recommendations können beispielsweise anhand einzelner Personen, Usergruppen (clusters) oder für alle User (globally) aggregiert werden. 5. Wie werden Empfehlungen im System verwendet? Empfehlungen können zum einen dazu verwendet werden, um Bucher zu bewerten (z.B.: mittels Sterne) oder um Rankings zu erstellen. Außerdem können sie auch dazu dienen, um negativ bewertete Bücher aus einer Anfrage herauszufiltern. Recommendersysteme in digitalen Bibliotheken Auf der Seite der Produkte (Informationsquellen) sollten noch bestimmte Eigenschaften dieser berücksichtigt werden: 1. Was soll bewertet werden? Zum Beispiel Bücher, Zeitschriften, Newsgroup Artikel, Videos, usw. 2. Wie viele Objekte müssen bewertet werden? Die Anzahl der zu bewerteten Objekte ist natürlich durch die Menge der einer Bibliothek zugrunde liegenden Dokumente beschränkt. 3. Wie groß ist die Lebensdauer eines Objekts? Bei Dokumenten mit einer kurzen Bestandsdauer, wie zum Beispiel bei Newsgroup Artikeln, ist es sehr wichtig, die Empfehlungen rechtzeitig abzugeben. 4. Welche Gewinne oder Verluste entstehen durch „falsche“ Produktauswahl für Benutzer von Recommendersystemen? Man bedenke nur, man müsste das „Rad neu erfinden“, nur weil man einen relevanten Artikel übersehen hat. Fragen, welche die Teilnehmer an Recommendersystemen betreffen, lauten folgendermaßen: 1. Wer produziert die Empfehlungen? 2. Wer konsumiert bzw. erhält diese Empfehlungen? 3. Welche „Dichte“ von Empfehlungen wird erreicht? 4. Wie schnell ändern sich die Voraussetzungen der Konsumenten? All diese Fragen haben wesentlichen Einfluss auf das technische Design von Recommender Systemen. [GHJ01] 3 Recommender Systeme in digitalen Bibliotheken 3.1 Benutzerprofile Die Basis vieler Recommender Systeme bilden die so genannten Benutzerprofile, in denen Daten gespeichert werden, die zur Identifikation eines Benutzers notwendig sind, die aber auch soziodemographische (Alter, Geschlecht, usw.) und psychographische (Interessen, usw.) Informationen enthalten. Diese Daten bilden die Grundlage zur Erstellung personalisierter Recommendations. -9- Recommendersysteme in digitalen Bibliotheken - 10 - 3.1.1 Schritte der Informationserschließung Wichtige Informationen über das Interesse eines Benutzers, beziehungsweise über die Relevanz eines bestimmten Dokumentes für die Bedürfnisse des Users, lassen sich aus den einzelnen Schritten ableiten, die ein Benutzer bei der Suche nach Informationen durchläuft. Tabelle 1 zeigt nun in einzelnen Schritten, wie ein Besucher einer digitalen Bibliothek vorgeht, wenn er sich über ein bestimmtes Thema informieren möchte, und dazu Unterlagen sucht. [NTP97] Activity Response glimpse is aware of the existence focus or ignore consider looks at summary information select or reject examine looks at detailed information adopt or reject use varies with the nature assess evaluates the experience using the document endorse Tabelle 2 – Discovery Model - Quelle: [NTP97] Geht ein Benutzer durch jede dieser Phasen, um ein Dokument zu bewerten, werden ihm nach jedem Schritt mehr Details zu dem betreffenden Dokument bekannt, und er bekommt ein Gefühl für die Relevanz dieses Dokuments für seine Informationsbedürfnisse. In einem ersten Schritt erhält der Benutzer die Information, dass ein bestimmtes Dokument überhaupt existiert. Diese Information kann zum Beispiel aus dem Ergebnis einer Suchanfrage abgeleitet werden. Weiters wird er sich eine kurze Zusammenfassung über das Dokument durchlesen und danach entscheiden, ob er es weiter betrachten soll oder nicht. Scheint ein Dokument für die Informationsbedürfnisse eines Users relevant zu sein, wird er dieses weiter durcharbeiten und die darin enthaltenen Informationen für sich verwenden. Wie er diese neu gewonnene Information für seine Zwecke anwendet, unterscheidet sich von Fall zu Fall. Am Ende dieser Kette erfolgt meist eine Beurteilung, indem der Benutzer beispielsweise die in dem Dokument enthaltenen Informationen oder Meinungen bejaht oder ablehnt. Für Recommender Systeme kann man aus jeder dieser Phasen Informationen über die Relevanz eines Dokumentes für einen Benutzer ableiten. Wurde ein Dokument öfter durchsucht oder länger betrachtet, ist dies ein Indiz dafür, dass es möglicherweise Informationen enthält, die für den Benutzer von Nutzen sein können. [NTP97] Recommendersysteme in digitalen Bibliotheken 3.1.2 Identifikation des Benutzers Idealerweise sollte ein System einen Benutzer bei betreten der Bibliothek sofort erkennen und dessen Profil abrufen können. Ein Profil über mehrere Sessions hinweg aufzubauen und zu vervollständigen kann jedoch nur dann erfolgen, wenn die Möglichkeit besteht, die Benutzer eindeutig zu identifizieren. Folgende Verfahren können dabei unterschieden werden: 3.1.2.1 Public Key Verfahren Die sicherste Methode einen Benutzer eindeutig zu identifizieren bietet das Public Key Verfahren. Dabei meldet sich der User bei einer Website durch Austausch von Schlüsseln an, womit die Identität eindeutig festgestellt wird. Die hohe Sicherheit bringt jedoch auch einen sehr hohen administrativen Aufwand für die Zertifizierungsstelle (Certification Authority, CA) mit sich, da mit diesem Verfahren auch digitale Signaturen erstellt werden können. Es kann also nicht wie beim Login ein beliebiger anonymer Deckname vergeben werden, sondern es muss die reale Identität der betreffenden Personen vor der Vergabe des Schlüssels sichergestellt werden. [RBF03] 3.1.2.2 Login und Passwort Eine weitere Variante Personen exakt zu erkennen, besteht darin, von den Anwendern explizit die Eingabe von Benutzernamen und Passwort zu verlangen. Diese Methode bringt allerdings wieder einigen Aufwand für die User mit sich. Viele scheuen davor zurück sich mit Hilfe eines Anmeldungsprozesses zu registrieren und auch für jede neue Sitzung Benutzername und Passwort einzugeben. Anonymität kann in diesem Fall gewährt werden, indem der User einen Decknamen verwendet, und das System beim Registrierungsprozess ansonst keine persönlichen Daten verlangt. [PR02] Ein Sicherheitsrisiko bei diesem Verfahren stellen jedoch Browser dar, die sich Passwörter merken. So könnte sich jeder beliebige Nutzer des Rechners als eine bestimmte Person ausgeben. [RBF03] 3.1.2.3 Cookies Eine Möglichkeit die Benutzererkennung zu automatisieren ist die Verwendung von Cookies, die beim ersten Besuch eines Benutzers lokal auf dessen Rechner gespeichert werden. Problematisch hierbei ist jedoch, dass eigentlich nur der Browser identifiziert wird, und nicht zwischen den einzelnen Benutzern selbst unterschieden wird. Wechselt ein User den Rechner, erkennt ihn das System nicht mehr als dieselbe Person, sondern stuft ihn als neuen Nutzer ein. Außerdem bieten neue Systeme den Benutzern oftmals die Möglichkeit die Speicherung von - 11 - Recommendersysteme in digitalen Bibliotheken Cookies zu deaktivieren. Sind Cookies also deaktiviert, ist keine Identifikation des Benutzers mehr möglich. [RBF03] 3.1.2.4 IP-Adresse Computer können im Internet über ihre IP-Adressen erkannt werden. Der Nachteil hierbei liegt jedoch darin, dass heutzutage die meisten Internet Provider die IP-Adressen beim Einwählen eines Rechners dynamisch vergeben. Das heißt, ein und derselbe Computer, an dem eine bestimmte Person arbeitet, erscheint nach jeder neuen Einwahl ins Internet mit einer neuen IP-Adresse. Auf Seiten eines Bibliothekssystems bedeutet dies, dass dieselbe Person als eine Vielzahl unterschiedlicher Personen interpretiert wird, was natürlich zu einer Sinnlosigkeit der Personalisierung führen würde. Das andere Extrem dazu wäre, dass ein System eine Vielzahl an verschiedenen Benutzern als ein und denselben interpretiert. Firmennetzwerke sind zum Schutz vor Angriffen durch Viren oder Hacker mittels Firewalls geschützt. Dadurch kommunizieren die User einer Firma nur indirekt über einen Proxy Server mit dem Internet, wodurch sie als nur ein einziger Benutzer erkannt werden. Aus diesen Gründen eignet sich die Benutzererkennung mittels IP-Adresse nur sehr beschränkt zur Identifikation von Personen. [PR02] 3.1.3 Profildatengewinnung Wissen über User kann mit unterschiedlichen Methoden gewonnen werden. Zum einen gibt es die Möglichkeit, das Verhalten des Benutzers bei der Informationssuche, wie in 3.1.1 beschrieben, zu beobachten. Man kann dadurch feststellen, wie lange ein bestimmtes Dokument und welche Dokumente betrachtet wurden, und welche Suchbegriffe ein User eingegeben hat, um bestimmte Objekte zu finden. Diese Art der Informationsgewinnung wird auch als implizite Profildatengewinnung bezeichnet. Außerdem kann man dem Benutzer die Möglichkeit geben, sein Profil nach den eigenen Wünschen zu ändern, wobei man jedoch darauf achten sollte, dass ein User seine Daten nur dann preisgeben wird, wenn er eine angemessene Gegenleistung, im Fall einer digitalen Bibliothek gute Recommendations, erhalten wird. Solche Varianten werden unter dem Begriff explizite Profildatengewinnung zusammengefasst. Da die Profile laufend erweitert werden, wie zum Beispiel durch die Analyse des Benutzerverhaltens, ist „der Vorgang der Erhebung von […] Benutzerprofilen keine einmalige und abgeschlossene Aktion“ [PF01], sondern vielmehr „ein kontinuierlicher Lernprozess, bei dem das Wissen über den Kunden […] ständig erweitert und aktualisiert wird.“ [KGL00] - 12 - Recommendersysteme in digitalen Bibliotheken 3.1.3.1 explizite Profildatengewinnung Wie schon erwähnt, gibt der User bei der expliziten Profildatengewinnung, Informationen bewusst preis. Ihm können dabei Fragen gestellt werden, deren Antworten direkt in das Benutzerprofil übernommen werden können. Beispiele dafür sind die Gewichtung von Interessen, das Angeben von Keywords oder die Angabe von Personendaten. Die Fragen können von den Betreibern frei gewählt werden, wodurch sofort ein vollständiges Profil abgeleitet werden kann. Der große Nachteil besteht allerdings darin, dass die Angst der Benutzer, Informationen über sich preiszugeben, sehr leicht zu Falschaussagen führen kann. Außerdem besteht die Gefahr, dass die Profile leicht veraltern, da eine Aktualisierung nur durch Interaktion mit dem Benutzer durchgeführt werden kann. 3.1.3.2 implizite Profildatengewinnung Bei der impliziten Profildatengewinnung werden alle Informationen aus den durchgeführten Aktionen der Benutzer abgeleitet. Das heißt, man protokolliert sämtliche Bewegungen und Aktionen eines Benutzers mit, und wertet diese anschließend aus. Das ständige Sammeln von Informationen über Anwender oder Kunden führt zu einer laufenden Verbesserung des Benutzerprofils. Durch diesen „Customer Lifetime Cycle“ lernt das System den Benutzer bei jedem Besuch besser kennen, wodurch schon nach einiger Zeit qualitativ gute Recommendations gegeben werden können. Die Vorteile dieses Verfahrens liegen vor allem darin, dass der Benutzer nicht direkt mit dem System in Interaktion treten muss um Angaben über sich abzugeben. Weiters wird es bei diesem Verfahren den Usern erschwert, gezielte Falschangaben über sich zu machen, da sie die Auswertungsroutinen nicht einsehen können. [OWDJK] 3.2 Content-Based Recommendation 3.2.1 Methode Beim Content Based Recommendation oder auch eigenschaftsbasierten Filtern in digitalen Bibliotheken wird nach Ähnlichkeiten zwischen Objekten bzw. Büchern gesucht. Das heißt, Metadaten über Titel, Autor oder Inhalt werden miteinander verglichen. Um die Relevanz eines aktuellen Objekts zu beurteilen, wird es meist in Beziehung zu anderen Objekten gesetzt, für die der Benutzer Interesse gezeigt hat. Diese Beziehung basiert auf der Theorie des repeat-buyings und kann entweder wegen eines konstanten Verhaltens eines Benutzers automatisch, oder durch explizite Angaben von Interessen manuell erstellt werden. Zwei - 13 - Recommendersysteme in digitalen Bibliotheken Dokumente kann man also ähnlich bezeichnen, wenn sie Informationen enthalten, die mit dem Informationsbedürfnis des Benutzers korrespondieren. [CK02] Basiert ein Recommender System auf Content Based Recommendation, werden einem User, der nach einem bestimmten Buch eines Autors sucht, auch andere Bücher desselben Autors vorgeschlagen. Das Hauptanwendungsgebiet für Recommender Systeme dieser Art liegen vor allem in Gebieten in denen textbasierte Objekte eine Rolle spielen, also in Bibliotheken, Informationsportalen, Webseiten oder Newsgroups. [JA04] 3.2.2 Kategorisierung der Content-Based Filtering Methoden Bei Content-Based Systemen unterscheidet man zwischen verschiednen Methoden, nämlich zwischen dem einfachen Boolean-Matching, der Vector-Space Methode und den probabilistischen Methoden. [OWM97] Boolean-Matching Beim Boolean-Matching ist die Relevanz eines Dokuments davon abhängig, ob es ein bestimmtes Feature enthält oder nicht. Als Feature kann man zum Beispiel Wörter, Wortstämme, Wortketten oder Sätze betrachten. Diese Methode heißt Boolean, da hier mit Hilfe der einfachen Boole’schen Operatoren „Und“ bzw. „Oder“ gearbeitet wird. Ein Dokument kann also den Wert Eins (enthält das Feature) oder den Wert Null (enthält das Feature nicht) erhalten. Man spricht daher auch von einer binären Beurteilung eines Dokumentes. Außerdem wird diese Methode auch als Exact-Match Methode bezeichnet, im Gegensatz zu den folgenden, bei denen man von Best-Match Methoden spricht. [MK00] Da in dieser Form kein Ranking aufgrund der Relevanz des Dokuments für den Informationsbedarf des Nutzers möglich ist, wird meistens der daraus abgeleitete WinnowAlgorithmus, bei dem die Relevanz eines jeden Wortes gewichtet wird, verwendet: [JK00] w x i i mit: xi : Wort oder angrenzende Wortbedeutungen (i=1,…I) wi : Gewicht des Wortes i (i=1,…I) : Schwelle ab der ein Dokument dem Nutzer vorgeschlagen wird. - 14 - Recommendersysteme in digitalen Bibliotheken - 15 - Vector-Space Methode Beim Vector Space Modell werden die komplexen Inhalte von Dokumenten in einem String dargestellt, der jeweils angibt, in welcher Häufigkeit bestimmte Wörter, Wortphrasen, grammatikalisch verwandte Wörter, Namen, Daten oder charakteristische Redewendungen in einem Text vorkommen. [FD92] Anschließend werden diese, ebenso wie das Eigenschaftsprofil des Nutzers, als Vektoren in einem Vektorraum dargestellt. Jedes Wort wird durch eine Dimension repräsentiert; die Distanz zum Ursprung gibt den jeweiligen Gewichtungsfaktor des Wortes wider. Es wird angenommen, dass, wenn ein Dokument im Vektorraum einem Eigenschaftsprofil sehr nahe liegt, dieses Dokument den Informationsbedarf des Nutzers befriedigen könnte. [TF97] Eine sehr weit verbreitete Ausprägung des Vektor Space Models ist das so genannte TFIDF-Schema. [KPB00] Das TFIDF-Schema (term frequency times inverse document frequency) dient der Evaluierung der Relevanz bestimmter Dokumente. Für jedes Dokument kann ein Vektor V gebildet werden, dessen Element vi den Bewertungen der Wörter d i im Feature-Vektor D entsprechen: vi tf (i) log n df (i) Dabei sind: tf (i ) : Häufigkeit des Wortes d i im Dokument oder im Profil des Nutzers df (i ) : Dokumentenanzahl, in denen d i vorkommt n : Gesamtzahl der durchsuchten und analysierten Dokumente Probabilistische Methode Die probabilistische Methode errechnet nicht die Ähnlichkeit zwischen Dokumenten, sondern die Wahrscheinlichkeit, dass ein Dokument für eine bestimmte Suchanfrage relevant ist. Ermittelt wird dies über die bedingte Wahrscheinlichkeit für das Ergebnis „Dokument ist relevant“, unter der Voraussetzung, dass bestimmte Ausdrücke mit einer bestimmten Häufigkeit darin vorkommen. Diese bedingten Wahrscheinlichkeiten können mit so genannten Bayes’schen Belief-Netzen modelliert werden. [MK00] Recommendersysteme in digitalen Bibliotheken - 16 - 3.2.3 Probleme Bei Content Based Recommendations treten vor allem folgende Probleme auf: [WG02] 1. Generell kann beim Content-Based Filtering nur eine oberflächliche Analyse von bestimmten Arten von Inhalten erfolgen. Einige Inhalte wie zum Beispiel Bilder, Filme oder Musik sind für die klassischen Extraktionsalgorithmen eines ContentBased Systems nicht zugänglich. Es gibt also Bereiche für die keine inhaltlichen Informationen oder Metadaten erhoben werden können. 2. Es kann nicht alles was den User in seiner Entscheidung über die Relevanz eines Dokumentes beeinflusst, wie zum Beispiel Aktualität und Qualität der Information, Ästhetik, oder im Dokument integrierte Bilder, beachtet werden. Zum Erfassen dieser Merkmale müssen diese in „pseudo-quantitative Merkmale“ umgewandelt werden. Diese Transformation wird jedoch meist unvollständig und unvollkommen bleiben. Trotzdem ist es unumgänglich solche qualitativen Merkmale zu berücksichtigen, wenn das Recommender System zur Zufriedenheit der Benutzer arbeiten soll. 3. Es werden nur Items empfohlen, deren Beschreibung am besten mit dem Benutzerprofil übereinstimmen. Dieses Problem nennt man auch „Überspezialisierung“; Objekte die nicht dem Profil des Benutzers ähnlich sind, diesen aber trotzdem interessieren könnten, werden dem User vorenthalten. 3.3 Collaborative Filters 3.3.1 Methode Im Gegensatz zur vorherigen Methode wird beim Collaborative Filtering nicht direkt nach ähnlichen Objekten gesucht, sondern es werden Personen gesucht, die ähnliche Präferenzen haben, um sodann Objekte zu empfehlen, die diese Personen auch für gut befunden haben. Es steht also nicht die Klassifizierung von Objekten im Vordergrund, sondern die Beziehung der Nutzer zu den einzelnen Objekten, die entweder durch implizite oder explizite Bewertung der Inhalte entsteht. Implizit erfolgt eine Bewertung dann, wenn sie vom System automatisch auf Grund des Userverhaltens vorgenommen wird. Eine explizite Bewertung nimmt der User selbst vor, indem er mit dem System in Interaktion tritt und diesem seine Bewertung mitteilt. Dokumente die von Usern gleich bewertet wurden, werden also als ähnlich eingestuft. Beispielsweise kann eine lange Betrachtung oder der Download eines Dokumentes als positive Wertung interpretiert werden. Dieses Verfahren macht es möglich, dass auch subjektive Empfindungen in die Empfehlungen mit einfließen. Der große Vorteil dieser Recommendersysteme in digitalen Bibliotheken - 17 - Methode liegt darin, dass sie auch einsetzbar ist, wenn keine Beschreibungen oder Metadaten über ein Objekt vorliegen. [JA04] 3.3.2 Kategorisierung der Collaborative Filtering Methoden Collaborative Filtering (CF) Interaktives (aktives) CF Automatisches (passives) CF User-based CF Memory-based CF Item-based CF Model-based CF Abb. 2 Kategorisierung der Collaborative Filtering Methoden - Quelle: [ÖS02] Interaktives (aktives) CF: Aktives Collaborative Filtering baut darauf auf, dass sich Gruppenteilnehmer interessante Informationen gegenseitig, zum Beispiel durch Senden von URL’s usw., mitteilen. Dieser Ansatz unterstützt die Divergenz von Information, da er Empfehlungen von hoher Qualität generiert, welche auch subjektive Einschätzungen enthalten können. Automatisches (passives) CF: „Diese Methode stützt sich auf die Annahme, dass Personen die in der Vergangenheit gleicher Meinung waren, voraussichtlich auch zukünftig gleicher Meinung sein werden.“ [SSU01] Jeder Benutzer ist dabei durch sein Profil gekennzeichnet. Bei der Betrachtung eines Objekts gibt der Nutzer eine Bewertung ab, aus der das System ableitet, wie interessant dieses Objekt für andere ist. Es geht also darum, Nutzer zu vergleichen, um ähnliche Nutzer zu finden. Item-based CF: Da die Nutzer-Item Tabelle eine niedrige Informationsdichte aufweist, erhöht sich der Aufwand zu Errechnung von Empfehlungen mit wachsender Anzahl von Nutzern. Die Itembased Methode analysiert nun die Nutzer-Item Tabelle um Ähnlichkeiten oder Ähnlichkeitswerte zwischen Items zu errechnen. Danach werden Vorhersagen für ein Item erzeugt, also wie sehr der aktive Nutzer das Item mögen wird. Recommendersysteme in digitalen Bibliotheken User-based CF: User-based Collaborative Filtering geht nach folgendem Schema vor: 1. Suche nach Personen mit gleicher Meinung. 2. Suche nach Dokument, die diese Personen für relevant befunden haben. 3. Schlage diese Dokumente dem aktiven User vor. Hier geht es also darum, Nutzer zu vergleichen, um „ähnliche“ Nutzer zu finden. Memory-based CF: In diesem Ansatz werden alle Daten aus der Nutzer-Item Tabelle ausgewertet, um Vorhersagen zu machen. Statistische Techniken werden dann genutzt, um eine Gruppe von Nachbarn zu finden, welche bis jetzt die gleichen Präferenzen hatten wie der aktive User, dem eine Empfehlung gemacht werden soll. Verschiedene Algorithmen fassen die Bewertungen zusammen und erstellen eine Top-Liste für den Nutzer. Dieses Verfahren wird auch nearestneightbour CF genannt. Model-based CF: Hier werden nur Teile der zugrunde liegenden Daten aus der User-Item Tabelle genutzt, um Vorhersagen zu machen. Modelle auf Bewertungen anhand denen Empfehlungen gemacht werden, werden durch lernende Algorithmen wie Bayesianische Netzwerke oder Clustering Methoden erzeugt. [ÖS02] 3.3.3 Probleme Folgende Probleme können jedoch beim Collaborative Filtering auftreten: [ÖS02] 1. cold start Problem: In der Startphase eines Systems liegen noch nicht genügend Daten über Benutzer vor, um diese miteinander sinnvoll zu vergleichen. Kommt ein neuer Benutzer hinzu, benötigt das System ebenfalls einige Zeit, bis es die genauen Vorlieben des neuen Nutzers kennt. 2. sparsity Problem: Die User-Item-Rating Matrix ist im Allgemeinen nur sehr spärlich gefüllt, da Recommender Systeme hauptsächlich in Bereichen zum Einsatz kommen, in denen eine große Auswahl an Items existieren. Dieser Umstand macht es daher sehr schwierig hoch korrelierte Benutzer zu finden 3. first rater Problem: Wird ein neues Item in ein System eingefügt, so kann es solange nicht empfohlen werden, bis es von Usern bewertet wurde. - 18 - Recommendersysteme in digitalen Bibliotheken 4. Black-Box-Charakter: Das System ist für die Betreiber eines Recommender Systems nicht transparent genug; die Ausgabe des Systems kann nicht wie bei Content-Based Filtering gesteuert werden. 3.4 Kombination von Content-Based und Collaborative Filtering 3.4.1 Vorteile eines Hybrid-Systems Sowohl Content Based als auch Collaborative Filtering Systeme haben neben ihren Vorteilen auch nicht zu vernachlässigende Nachteile, die in den Abschnitten 3.2.3 und 3.3.3 bereits besprochen wurden. Beim Content-Based System wird das cold start Problem nur dann zum Problem, wenn sich der aktive Benutzer in der Startphase der Benützung befindet. Das sparsity und first rater Problem des Collaborative Filtering sind hingegen keine Probleme für ein Content-Based System, da diese nicht versuchen, Ähnlichkeiten zwischen Benutzern zu finden. Sind für Objekte keine Inhaltsbeschreibungen oder Metadaten verfügbar, stellt dies für Content-Based Systeme ein Problem dar, für Collaborative Filtering Systeme jedoch nicht, da diese nicht auf die Inhalte von Dokumenten achten. Das zweite angesprochene Problem von Content-Based Systemen wird durch Collaborative Filtering teilweise gelöst, indem Ansprüche wie Geschmack und Qualität durch Ratings der Benutzer gut wiedergegeben werden können. Collaborative Filtering löst auch das dritte Problem von Content Based Systemen, nämlich dass nur Items empfohlen werden können, deren Beschreibung mit dem Benutzerprofil übereinstimmen, indem es auch Items findet, die zwar mit dem Profil des aktiven Benutzers nicht übereinstimmen, die aber auf Profile der „benachbarten“ Benutzer zutreffen. Man kann also sehen, dass die Nachteile der jeweiligen Systeme sich durch die Vorteile des jeweils anderen Systems ergänzen. [JA04] 3.4.2 System „Fab“ Eine mögliche Kombinationsform für ein hybrides System ist das System „Fab“, welches im Rahmen des Digital Library Project an der Stanford University entwickelt wurde. Fab kombiniert das Collaborative Filtering mit den Inhaltsanalysen des Conent-Based Filterings, um so Webseiten zu filtern. [GNT04] Dabei sollen die Vorteile beider Ansätze genutzt und die Nachteile ausgeschlossen werden. Dokumente beurteilt das System zum einen indem es auf Informationen und Beurteilungen von Dokumenten durch die betrachtende Person in der Vergangenheit zurückgreift, und zum anderen indem es Bewertungen anderer Personen mit - 19 - Recommendersysteme in digitalen Bibliotheken einem ähnlichen Profil zu Rate zieht. [BS97] Es werden danach nur noch Dokumente empfohlen, die in beiden Beurteilungsvorgängen einen hohen Relevanzwert aufweisen. Das Benutzerprofil besteht in Fab aus einem gewichteten Termvektor. Verwaltet werden die Profile mit Hilfe von selection agents, welche die Benutzerprofile speichern, und aufgrund von Relevanzbewertungen anpassen. Der für diese Anpassung verwendete Algorithmus ist der Rocchios Algorithmus [ROC71]. Alle Relevanzkategorien werden in Fab natürlichsprachlich repräsentiert und intern dann auf ganzzahlige Werte von 3 bis -3 abgebildet. Jeweils in der Nacht werden alle Gewichte der Benutzerprofile mit 0,97 multipliziert, um den Verfall bzw. die Veränderung der Benutzerinteressen abzubilden. Die Dokumente werden ebenfalls durch einen gewichteten Termvektor dargestellt, der die Dimension 100 besitzt. Um die Dokumente zu repräsentieren wird zunächst eine Wortstammreduktion durchgeführt und anschließend werden alle Stoppwörter entfernt. Die Gewichte der Terme werden danach mit Hilfe der bereits erwähnten TFIDF-Formel errechnet. Jeweils die 100 Terme mit den größten Gewichten werden für die Beschreibung eines Dokuments berücksichtigt. Experimente hatten gezeigt, dass eine optimale Performanz mit 30 bis 100 Termen erzielt werden kann, und dass mehr als 100 Terme ein System mit überwachten Lernmethoden übertrainiert. [BAL97] Das Suchen und Indexieren von Dokumenten erfolgt in Fab durch die so genannten collection agents, welche permanent die besten Seiten zu den gegebenen Profilen ermitteln und diese dem System an zentraler Stelle (central repository) bekannt geben. Die Agenten aktualisieren ihr Suchprofil kontinuierlich gemäß den Bewertungen der Benutzer, wodurch sie die Interessensprofile der Nutzer stets abdecken. Agenten, die Dokumente liefern, die von den Benutzern als eher schlecht bewertet werden, werden kontinuierlich durch Agenten ersetzt, die für den Benutzer bessere Dokumente liefern. Jeder Suchagent spezialisiert sich dadurch zunehmend auf einen Themenbereich. Die Ähnlichkeit zwischen den Benutzerprofilen und den Dokumenten wird mit Hilfe des Kosinus-Maßes berechnet. Es fließen aber auch gleichzeitig die am besten bewerteten Dokumente der nächsten Nachbarn in die Empfehlungen mit ein. Damit wird zum einen der Content-Based Ansatz und zum anderen auch der Ansatz des Collaborative Filterings umgesetzt. Der Empfehlungsprozess im System Fab lässt sich, wie aus obiger Beschreibung bereits überblicksmäßig hervorgeht, in drei Phasen einteilen: [BS97] - 20 - Recommendersysteme in digitalen Bibliotheken 1. Sammlung der Daten: Diese Phase beinhaltet das Sammeln von Informationen um eine entsprechende Datengrundlage zu erhalten. Der „collection agent“ hat dabei, wie schon oben beschrieben, die Aufgabe, Dokumente für bestimmte Interessensfelder zu suchen. Diese sollen wenn möglich alle Interessensgebiete der User abdecken. 2. Auswahl der Daten: Der „selection agent“ sucht aus den Dokumenten die passenden für einen spezifischen User heraus. Weiters wird überprüft, ob der entsprechende User dieses Dokument schon einmal gelesen hat. Ist dies der Fall, wird es aus der Auswahl entfernt. 3. Ausgabe der Informationen: Der „central router“ erhält vom „selection agent“ die ausgewählten Dokumente und leitet diese mit weiteren spezifischen Informationen, wie zum Beispiel Anzahl der gefundenen Dokumente usw. an den jeweiligen User weiter. 3.4.3 System „LIBRA“ Ein für digitale Bibliotheken entwickeltes Recommender System ist das System LIBRA. Es ist dies ein System für die personalisierte Suche nach Büchern. Die Abkürzung steht für „Learning Intelligent Book Recommending Agent“ [MR00]. LIBRA ist für Anfragen geeignet, die große Ergebnismengen zurückliefern, von denen der Benutzer die ersten zehn Treffer bewertet, woraufhin die gesamte Ergebnismenge gemäß den Vorlieben des Benutzers umsortiert werden. LIBRA besitzt als Datenbasis Informationen zu Büchern, die zuvor aus amazon.com extrahiert. Es wurden dabei nur Bücher berücksichtigt, von denen Zusatzinformationen wie zum Beispiel eine Zusammenfassung, eine Rezension oder ein Kundenkommentar vorlagen. Folgende Beschreibungsmerkmale wurden daraufhin für jedes Buch extrahiert: Titel, Autor, Zusammenfassung, Rezensionen, Kundenkommentare, verwandte Autoren, verwandte Titel und Schlagworte. Weiters wurden auch Angaben zu ISBN, Datum, Preis, Verlag usw. extrahiert, welche aber nicht zu Generierung von Empfehlungen verwendet wurden. Während der Extraktion der Daten wurde für jedes Buch eine Menge von so genannten Slots befüllt. Diese Slots enthalten alle oben genannten Informationen, außer Angaben zu ISBN, Datum, Preis und Verlag. Der Text in jedem Slot wird dann in eine ungeordnete Liste von Wörtern (bag of words) umgewandelt, und jeder Buchtitel wird dann durch einen Vektor von „bag of words“ repräsentiert. Die dadurch aufgebaute Datenbasis enthält 3061 Bücher aus dem - 21 - Recommendersysteme in digitalen Bibliotheken Bereich Erzählungen, 3813 Science Fiction Bücher, 7285 Krimis und 6177 wissenschaftliche Bücher. Zur Erstellung seines Benutzerprofils muss der User zehn Bücher mit Werten von 1 (schlecht) bis 10 (gut) bewerten. Aus diesen Angaben und den Informationen zu den Büchern lernt LIBRA dann das jeweilige Benutzerprofil. Um die Benutzerprofile zu erstellen, verwendet LIBRA die Technik der Bayes’schen Textkategorisierung, die allerdings für diesen Ansatz speziell vom Umgang mit Wortmengen auf den Umgang mit Vektoren und Wortmengen erweitert wurde. Als Benutzerprofil erhält man dann eine Liste von denjenigen Beschreibungsmerkmalen, die am ehesten auf eine positive oder negative Bewertung hindeuten. Dazu gibt ein Wert an, um wie viel wahrscheinlicher es ist, dass ein bestimmtes Wort in der Beschreibung eines positiv bewerteten Buches auftaucht. Die absoluten Werte dieser Wahrscheinlichkeiten sind weniger bedeutend, da LIBRA nicht den absoluten Interessantheitswert eines Buches berechnet, sondern lediglich eine Reihenfolge erzeugt. Durch zusätzliche Bewertungen im laufenden Betrieb kann das Benutzerprofil jederzeit weiter angepasst und präzisiert werden. LIBRA erlaubt es seinen Benutzern außerdem sein Profil einzusehen. Des Weiteren kann sich jeder Benutzer auch erklären lassen, wie das System zu den konkreten Empfehlungen kommt. Dies geschieht dadurch, dass LIBRA jene früheren Bewertungen des Benutzers anzeigt, die diese Wahrscheinlichkeit am meisten beeinflusst haben. Generell waren die Benutzer nach 20 Bewertungen mit den Top-3 und Top-10 Empfehlungen von LIBRA sehr zufrieden (Bewertungen von über 0,8). Weiters wurde in Experimenten versucht, inwieweit die kollaborative Ausrichtung der Merkmale „verwandte Title“ und „verwandte Autoren“ zur Qualität der Empfehlungen beigetragen haben. Es wurden dazu die gleichen Experimente ohne Berücksichtigung dieser beiden Merkmale durchgeführt. Diese lieferten zwar keine deutlich schlechteren, aber dennoch statistisch signifikant schlechtere Ergebnisse. Damit wurde das Potential der kollaborativen Ansätze klarer und es drängt sich zugleicht die Vermutung auf, dass eine Kombination der beiden eingangs beschriebenen Filterverfahren eine Verbesserung gegenüber den Einzelverfahren bringt. [SB03] 3.4.3.1 Lernen des Benutzerprofils in LIBRA Wie schon oben erwähnt bewertet der Benutzer eine Menge von Trainingsbeispielen mittels einer Punktvergabe von 1 bis 10 für jedes Buch. Der Lernalgorithmus Naiv-Bayes Textklassifizierer, [MCN98] welcher LIBRA verwendet, wurde um die Möglichkeit erweitert - 22 - Recommendersysteme in digitalen Bibliotheken - 23 - auch Vektoren von „bag of words“ verarbeiten zu können. Wie schon beschrieben, soll jedoch nicht ein exaktes Rating eines Titels vorhergesagt, sonder lediglich ein Ranking erstellt werden. Durch weitere Reduzierung auf ein binäres Klassifikationssystem wird vorhergesagt, ob ein Buch als positiv oder als negativ bewertet werden würde. In dem multinomialen Textmodell, welches LIBRA verwendet, wird ein Dokument als eine geordnete Sequenz von Wörtern über ein Vokabular V repräsentiert. Die „naive Bayes“ Annahme besagt nun, dass die Wahrscheinlichkeit für jedes Wortvorkommen abhängig von der Klasse, aber unabhängig vom Kontext und der Position ist. Es werden nun die Wahrscheinlichkeiten P c j und P wk | c j für jede Klasse c j und jedes Wort wk V anhand der Trainingsbeispiele geschätzt. Nun kann die Posteriori Wahrscheinlichkeit jeder Klasse gegeben ein Dokument D mittels der Bayes’schen Formel berechnet werden. Pc j | D Pc j P D Pa D i | cj i 1 Wobei a i das i-te Wort im Dokument und D die Länge des Dokuments in Wörtern ist. Da der Prior P(D) ein konstanter Faktor ist, kann er bei der Berechnung vernachlässigt werden, wenn es allein darum geht, ein Ranking zu berechnen. Das Ranking wird abgebildet, indem alle Dokumente nach ihren OddsRatio sortiert werden. OddsRatio ( D) Pc1 | D Pc0 | D c1 repräsentiert eine positive Klasse und c0 die negative Klasse. Dabei wird ein Beispiel als positiv klassifiziert, wenn der OddsRatio größer 1 ist. Im Falle von LIBRA handelt es sich um Bücher, welche als ein Vektor von Dokumenten d m , eines für jeden Slot, repräsentiert wird. Nun müssen die Wahrscheinlichkeiten für jedes Wort gegeben die Klasse und den Slot Pwk | c j , s m geschätzt werden. Danach wird die Posterior Wahrscheinlichkeit jeder Klasse gegeben ein Buch B berechnet. Pc j | B Pc j P B Pa S dm mi | c j , sm m 1 i 1 S ist dabei die Anzahl der Slots und a mi das i-te Wort im m-ten Slot. Recommendersysteme in digitalen Bibliotheken - 24 - Nun werden die Parameter des Modells wie folgt aus den Trainingsbeispielen geschätzt. Jedes der N Trainingsbücher Be 1 e N erhält zwei relative Gewichte 0 ej 1 basierend auf den Benutzerbewertungen r 1 r 10 : ein positives Gewicht e1 r 1 / 9 und ein negatives Gewicht e 0 1 e1 . In einem Beispiel Be wird ein Wort, welches n-mal in einem Dokument vorkommt, mit e1n mal als Vorkommen in einem positiven Beispiel und e0 n mal als Vorkommen in einem negativem Beispiel gezählt. Die Modellparameter werden nun wie folgt ermittelt: Pc j ej / N N e 1 P wk | c j , s m ej nkem / Lc j , s m N e 1 Wobei nkem die Anzahl der Vorkommnisse des Wortes wk im Beispiel Be im Slot s m ist. Die gewichtete Länge der Dokumente in der Klasse c j und Slot s m wird folgendermaßen berechnet: Lc j , s m ej | d m| N e 1 Diese Normierung hebt den Effekt von verschieden langen Sloteinträgen auf. Um nullwertigen Wahrscheinlichkeiten vorzubeugen, werden die Parameter zusätzlich mittels Laplaceglättung geglättet. Die Komplexität der Berechnung ist dabei linear zur Größe der Trainingsmenge. [MCN98] Ein Benutzerprofil kann sehr gut veranschaulicht werden, indem man die Features auflistet, die den stärksten negativen bzw. positiven Einfluss (strength) auf eine Bewertung haben. Der Strength-Wert gibt an, um wie viel mehr ein Wort in einem Slot dazu beiträgt eine positive Bewertung für ein Buch zu erhalten, als eine negative. Dieser Wert wird wie folgt errechnet: Pwk | c1 , s m Strengthwk , s m log P w | c , s k 0 m Mit Hilfe eines solchen Benutzerprofils ist es nun möglich, ein Ranking über alle Bücher zu berechnen und dem Benutzer die positiv klassifizierten Bücher mit einem hohen OddsRatio zu empfehlen. Darüber hinaus kann LIBRA dem Benutzer auf eine sehr einfache Art und Weise Recommendersysteme in digitalen Bibliotheken - 25 - erklären, warum gerade diese Empfehlung zustande gekommen ist. Dies ist kein unwichtiger Aspekt eines Recommender Systems, da es sich gezeigt hat, dass der Erfolg solcher Systeme oft stark davon abhängt, wie weit der Benutzer dem System vertraut, und die Empfehlungen nachvollziehen kann. [JA04] 3.4.3.2 Aufbau des Systems Das System LIBRA gliedert sich in drei Hauptkomponenten, deren Funktionsweise im Folgenden näher erläutert wird. [JA04] Content Based Ranker Nachdem der aktive Benutzer einige Trainingsbeispiele bewertet hat, kann aus dieser User Ratings Matrix ein Ranking der Items berechnet werden. Die so genannte Ranked Items Tabelle ergibt sich aus der Sortierung der Items nach deren OddsRatio. Rating Translator Aufgabe des Rating Translators ist es, die Tabelle mit den Ranked Items in eine Tabelle mit Ratings der Items zu überführen. Diese Rated Items Tabelle nutzt der Collaborative Filterer sodann, um unterschiedliche Benutzer anhand ihrer Ratings zu vergleichen. Für jeden aktiven Benutzer wird mittels einer Rating Percentage Tabelle ermittelt, wie dessen Ratings verteilt sind. Da Benutzer jedoch eher dazu neigen, Titel zu bewerten, die sie mögen, anstatt eine zufällige Anzahl an Titeln zu bewerten, wird die Rating Percentage Tabelle noch geglättet. Dazu verwendet man eine empirisch gefundene Smoother Rating Percentage Tabelle, welche die Ratingverteilungen von Testpersonen auf zufällig gezogene Items enthält. Die Glättung wird wie folgt berechnet: smoothed[i ] ratingpercentages[i ] w smoother[i ] , für1 i 5 1 w Wobei w die Glättungskonstante ist. Die Ratings der Items werden dann wie folgt berechnet: Bei angenommenen x Items werden nun gemäß der Smoothed Verteilung die Items auf die Intervalle aufgeteilt. Also x * smoothed[i]/100 der Items fallen in das Intervall [i,i-1). Das genaue Rating für das y-te Item im Intervall [i,i-1) ergibt sich dann wie folgt: Rating ( y, i) i y 1 x smoothed[i] / 100 Recommendersysteme in digitalen Bibliotheken - 26 - Collaborative Filterer In LIBRA wird ein Collaborative Filterer benutzt, welcher ursprünglich von Herlocker [HKBR99] für Nachrichten Recommender Systeme implementiert wurde. Das Collaborative Filtering setzt sich aus den folgenden drei Schritten zusammen: 1. Berechnung der Korrelation zwischen dem aktiven Benutzer und den anderen Benutzern des Systems 2. Auswahl der besten n Benutzer (Nachbarn), welche am stärksten mit dem aktiven Nutzer korrelieren. Um die Ähnlichkeit von Benutzern zu ermitteln, wird der Pearsche Produkt-Moment Korrelationskoeffizient verwendet: r m Pa ,u a ,i i 1 r m i 1 a ,i ra ru ,i ru ra ru ,i ru m 2 2 i 1 In diesem Fall ist m die Anzahl der Items, ra ,i ist das Rating des aktiven Benutzers für das Item i und ra ist das arithmetische Mittel über allen Ratings des aktiven Benutzers. Für ru ,i und ru gilt das Gleich jeweils für die anderen Benutzer. 3. Berechnung der Vorhersagen für Items mit Hilfe der Ratings der Nachbarn. Die Vorhersage der Items berechnet sich wie folgt: r n Pa ,i ra u 1 u ,i ru Pa ,u n P u 1 a ,u Hierbei ist n die Anzahl an Nachbarn und Pa ,u ist die Pearson Korrelation. Die Items werden nun nach den vorhergesagten Ratings geordnet und dem Benutzer ausgegeben. 3.4.4 Hierarchical Bayesian Recommender System Einen Schritt weiter geht das Hierarchical Bayesian Recommender System. Es verwendet anstatt der bei den beiden traditionellen Filtermethoden genutzten zwei Arten von Informationen, fünf verschiedene Informationsquellen: 1. die von einem Nutzer geäußerte Präferenz oder Auswahl alternativer Items 2. die vom Nutzer geäußerte Präferenz bezüglich der Itemeigenschaften Recommendersysteme in digitalen Bibliotheken - 27 - 3. die Präferenz anderer Nutzer 4. Expertenurteile 5. andere individuelle Itemeigenschaften, die Präferenzen ausdrücken können. Anhand dieser Informationen wird versucht, den Empfehlungsprozess noch präziser zu gestalten. Mit Hilfe einer Funktion, die Itemeigenschaften, Benutzerratings und Expertenevaluationen als Parameter enthält, wird eine Möglichkeit geschaffen, gute Empfehlungsergebnisse zu erhalten, ohne vom Nutzer übermäßig viele Informationen zu benötigen. [AEK00] 3.5 Probleme - Datenschutz Wie eben beschrieben schließen Recommender Systeme auf ihre Empfehlungen mit Hilfe von aufgezeichneten Benutzerprofilen. Viele User wissen aber oft gar nicht, welche Daten ein Webserver alles aufzeichnet und welche Informationen sich daraus generieren lassen. Die Möglichkeit, des Schutzes vor solchen Überwachungen und Informationsaufzeichnungen benötigt heute schon einiges an Fachwissen von den Usern. Abschalten bzw. Selektive Ablehnung von Cookies, Verwendung von Proxies, oder absichtliche Desinformation des Anbieters sind Möglichkeiten der User diesen Datenaufzeichnungen zu entgehen. Professionelle Anbieter von Recommender Systemen sollten aber den User zumindest aufklären, was mit seinen Nutzungsdaten geschieht, und wie diese verarbeitet werden. Außerdem sollte dem Benutzer ein gewisser Grad an Kontrolle über seine aufgezeichneten Daten ermöglicht werden. [NTP97] Der vom W3C-Konsortium entwickelte Vorschlag „Platform for Privacy Preferences“ (P3P) soll dem Benutzer mehr Kontrolle über die Nutzung seiner persönlichen Informationen geben. Die persönlichen Daten werden auf dem Computer des Users gespeichert und definierte Regeln bestimmen, welche Daten preisgegeben werden dürfen und welche nicht. Meldet zum Beispiel eine Website, dass sie Informationen aus den Log-Dateien sammeln und auswerten möchte, überprüft der P3P-Agent, ob dies mit den Regeln des Benutzers im Einklang steht oder nicht. Sowohl die vom Benutzer eingegebenen Regeln, als auch die Anforderungen einer Website werden als Klartext in XML gespeichert und können daher vom Anwender jederzeit gelesen werden. [KM03] Recommendersysteme in digitalen Bibliotheken 3.6 Fazit Es reicht also keineswegs, neue Medien in das alte Tätigkeitsspektrum von Bibliotheken zu inkludieren. Wenn wissenschaftliche Bibliotheken in der Informationsgesellschaft keinen Bedeutungsverlust erlangen wollen, müssen sie neue Konzeptionen entwickeln und ihr Tätigkeitsprofil und Dienstleistungsangebot deutlich erweitern, um dem technischen, medialen wie kulturellen Wandel gerecht werden zu können. So lautete etwa das Motto des deutschen Bibliothekartages im April 2001 in Bielefeld: „Bibliotheken – Portale zum globalen Wissen“. [RH02] - 28 - Recommendersysteme in digitalen Bibliotheken Literaturverzeichnis [AEK00] Ansari A./Essegaier S./Kohli R. (2000): Internet Recommendation Systems. In: Journal of Marketing Research, Vol. 37, S. 363-375 [BAL97] Balabanovic M. (1997): An Adaptive Web Page Recommendation Service. In: Procceedings of the 1st International Conference on Autonomous Agents, S. 378-385 [BS97] Balabanovic M./Shoham Y. (1997): Fab: Content-based, collaborative recommendation. In: Communications of the ACM, March 1997, Volume 40, No. 3, S. 66-72 [CK02] Cruz J.M.B./Krichel T. (2002): Co-usage of documents in a large digital library [FS02] Fabrizek S. (2002): Personalisierung und Recommender Systeme – Einführung und Überblick, Seminararbeit, TU-München [FD92] Foltz P./Dumais S. T. (1992): Personalized Information Delivery: An Analysis of Information Filtering Methods. In: Communications of the ACM, Dezember 1992, Vol. 35, No. 12, S. 51-60. [GHJ] Geyer-Schulz A./Hahsler M./Jahn M.: Educational and Scientific Recommender Systems: Designing the Information Channels of the Virtual University. [GHJ01] Geyer-Schulz A./Hahsler M./Jahn M.: Wissenschaftliche Recommendersysteme in Virtuellen Universitäten [GNT04] Geyer-Schulz A./Neumann A./Thede A. (2004): An Architecture for Behavior Based Library Recommender Systems [GP99] Glotz P. (1999): Die beschleunigte Gesellschaft. Kulturkämpfe im digitalen Kapitalismus. [HKBR99] Herlocker L. J./Konstan A. J./Borchers A./Riedl J. (1999): An algorithmic framework for performing collaborative filtering. In: Proceedings of the 22nd Annual International ACM SIGIR Conference. S. 230-237 [JA04] Janz A. (2004): Text Mining und Anwendungen - Recommender Systems, Seminararbeit, Humbold-Universität, Berlin [JK00] Jostock K (2000): Personalisierung auf Basis von Content-Based Filtering: Theoretische Grundlage, Seminararbeit, Johann Wolfgang Goethe-Universität, Frankfurt am Main - 29 - Recommendersysteme in digitalen Bibliotheken [KPB00] Kantor P. B. (2000): Capturing Human Intelligence in the Net, In: Communications of the ACM, August 2000, Vol. 42, No. 8, S. 112-115 [KGL00] Klein S./Güler S./Lederbogen K. (2000): Personalisierung im elektronische Handel. WISU 29 (2000) 1, S. 88-94 [KH04] Kristen H. (2004): Auf dem Weg zur Digitalen Bibliothek URL: http://www.ubka.uni-karlsruhe.de/vvv/2004/zentral/digibib/02-Kristen/02Kristen.pdf [KM03] Krueger M. (2003): Personalisierung und Recommender Systeme – Modellierung von Benutzerprofilen in der KI und im E-Commerce. [MK00] Maus K. (2000): Funktionsweisen und Schwächen von Textfiltern in Internetanwendungen. Seminararbeit, Johann Wolfgang Goethe-Universität [MCN98] McCallum A./Nigam K. (1998): A comparison of event models for naive Bayes text classification. [MR00] Mooney R. J./Roy L. (2000): Content-Based Book Recommending Using Learning for Text Categorization. In: Proceedings of the 5th ACM Conference on Digital Libraries, S. 195-204 [NTP97] Nichols D.M./Twidale M.B./Paice C.D. (1997): Recommendation and Usage in the Digital Library [OWDJK] Oard W.D./Jinmook K.: Implicit Feedback for Recommender Systems. URL:http://citeseer.ist.psu.edu/cache/papers/cs/728/http:zSzzSzwww.clis.umd.eduzSzdlrgz SzfilterzSzpaperszSzrecommender.pdf/oard98implicit.pdf [OWM97] Oard W.D./Marchionini G. (1997): A Conceptual Framework for Text Filtering. URL: http://www.ee.umd.edu/medlab/filter/papers/filter/filter.html [ÖS02] Ökmen S. (2002): Personalisierung und Recommender Systeme - Kollaborative Filterverfahren [OA95] Oßwald A. (1995): Die virtuelle Bibliothek: Konzeptionelle Grundlagen und praktischer Nutzen. [PF01] Pilgrim F: Personalisierung auf der Basis von Benutzerprofilen, Seminararbeit, Universität Münster, URL: http://www.wi.uni-muenster.de/wi/lehre/sel/ws00-01/Referate/Pilgrim.pdf - 30 - Recommendersysteme in digitalen Bibliotheken [PR02] Pregernig R./Rappold A. (2002): Personalisierung. Seminararbeit, Universität Wien [RV97] Resnick P./Varian H. R. (1997): Recommender Systems. In: Communications of the ACM, Vol. 40(3), S. 56-58. [RBF03] Riethmayer B. F. (2003): Gewinnen von Profilinformationen und damit verbundene Probleme [ROC71] Rocchio J. J. (1971): Relevance feedback in information retrieval in the SMART system. Prentice Hall, S. 313-323 [RH02] Rösch H. (2002): Wissenschaftsportal – bibliothekarische Konzeption in der Informationsgesellschaft [RM00] Runte M (2000): Personalisierung im Internet – Individualisierte Angebote mit Collaborative Filtering. Dissertation, Universität Kiel, URL: http://www.runte.de/matthias/publications/personalisierung im internet.pdf [RC98] Rusbridge C. (1998): Towards the Hybrid Library. In: D-Lib Magazine. Vol 4, July/August 1998. [RFD99] Rusch-Feja D. (1999): Digital Libraries. Informationsform der Zukunft für die Informationsversorgung und Informationsbereitstellung? [SB03] Schmitt B. (2003): Benutzerprofile für die Anfrageverarbeitung in verteilten Digitalen Bibliotheken, Dissertation, Universität Fridericiana zu Karlsruhe [SSU01] Schwabe G./Streitz N./Unland R. (2001): CSCW-Kompendium, Springer Verlag [SAPN98] Stephanidis, C./Akoumianakis D./Paramythis A./Nikolau C. (1998): User interaction in digital libraries: coping with diversity through adaption [TLH01] Terveen L./Hill W. (2001): Beyond Recommender Systems: Helping People Help Each Other, In: HCI in the New Millennium, Jack Carroll, ed., Addison-Wesley, 2001 [TF97] Teuteberg F. (1997): Effektives Suchen im World Wide Web: Suchdienste und Suchmethoden [WG02] Weng G. (2002): Personalisierung und Recommender Systeme – Probleme verschiedener Filterverfahren und Lösungsideen - 31 -