Grundlagen des Information Retrieval

Werbung
Information Retrieval
HHU Düsseldorf, SS 2003
Information Retrieval
1
Information Retrieval
Wer befasst sich mit Information Retrieval?
Konferenzen – Messen
Zeitschriften
Wie findet man Literatur?
Kurze Geschichte des Information Retrieval
Grundlagen:
Relevanz – Pull / Push – konkreter vs. problemorientierter
Informationsbedarf – Recall und Precision – Suche nach
Datensätzen („Nadel-im-Heuhaufen“-Syndrom) – Berrypicking informetrische Suchen – Informationsfilter –
Informationsbarrieren – Typologie von Retrievalsystemen:
Boolesche Systeme und natürlichsprachige Systeme –
Weltregionen im Internet - invertierte Dateien
HHU Düsseldorf, SS 2003
Information Retrieval
2
Information Retrieval
Funktionalität Boolescher Retrievalsysteme:
Datenbankaufruf - feldspezifische Suche - Suche im Basic Index Blättern im Wörterbuch - Fragmentierung - mengentheoretische
Operatoren - Abstandsoperatoren - Häufigkeitsoperatoren hierarchische Suche – datenbankübergreifende Suche Umformulierung von Suchergebnissen zu Suchargumenten –
Anzeigen von Suchergebnissen - Bestellen von Volltexten Suchprofile / SDI – Menüführung vs. Befehlssprache
Gewichtetes Retrieval:
Intellektuelles Gewichten von Schlagworten – Gewichten durch
„Cracken“ von Ketten beim syntaktischen Indexieren –
Termähnlichkeiten – Themencluster – variierbarer Thesaurus
HHU Düsseldorf, SS 2003
Information Retrieval
3
Information Retrieval
Informationslinguistik:
Erkennen von Worten – Stoppworte – Wortstammanalyse –
Lemmatisierung - Phrasenerkennung – Homonyme – Synonyme
– Pronomina-Analysen – Fehlertoleranz – SOUNDEX Besonderheiten der deutschen Sprache – MILOS/KASCADE
Textstatistik (Relevance Ranking I):
Worthäufigkeiten – dokumentspezifische Wortgewichtung –
Position im Dokument – inverse Dokumenthäufigkeit –
FREESTYLE - Vektorraummodell – probabilistisches Modell –
INQUERY – Anreichern von Suchargumenten - ALTAVISTA Relevance Feedback
HHU Düsseldorf, SS 2003
Information Retrieval
4
Information Retrieval
Link-Topologie (Relevance Ranking II):
Zitationsindexierung - Link-Analyse – Hubs und Authorities PageRank – kontextspezifischer PageRank – Nutzungsanalyse GOOGLE
Automatische Indexierung mit Vorzugsbennungen:
Indexierung mit Deskriptoren und Notationen – FACTIVA ortsabhängiges Ranking (GIS / regionale Klassifikation)
Automatische Indexierung mit freien Schlagworten:
Schlagwortvergabe bei SMART – automatische Klassifikation –
Northern Light
Assoziative Suche / „More like this“:
linguistische Variante – zitatenanalytische Variante
HHU Düsseldorf, SS 2003
Information Retrieval
5
Information Retrieval
Informationsextraktion:
bereichsspezifisches Retrieval – Faktenextraktion aus Volltexten –
Faktenextraktion aus Literaturdatenbanken
CLIR (Cross-Language Information Retrieval):
Sprachidentifikation – maschinelles Übersetzen –
wörterbuchunabhängige Verfahren
Sponsored Links („Einkaufen“ in Ausgabelisten):
Ersteigern von Listenpositionen – AdWords (GOOGLE) OVERTURE
Informationsvisualisierung:
Formulierung des Sucharguments – Ausgabe von Nicht-WWWDokumenten – Ausgabe von WWW-Dokumenten – KARTOO Ausgabe informetrischer Ergebnisse
HHU Düsseldorf, SS 2003
Information Retrieval
6
Information Retrieval
Basisliteratur:
Reginald Ferber: Information Retrieval. Suchmodelle und Data-MiningVerfahren für Textsammlungen und das Web. – Heidelberg: dpunkt.verlag,
2003.
William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval. Data
Structure & Algorithms. – Upper Saddle River, NJ: Prentice Hall, 1992.
Eleonore Poetzsch: Information Retrieval. Einführung in Grundlagen und
Methoden. – Potsdam: Verl. für Berlin-Brandenburg, 3. Aufl., 2002.
Eleonore Poetzsch: Wirtschaftsinformation. Online – CD-ROM - Internet. –
Potsdam: Verl. für Berlin-Brandenburg, 2001.
Karen Sparck-Jones; Peter Willett (Hrsg.): Readings in Information
Retrieval. – San Francisco: Morgan Kaufmann, 1997.
Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens.
– München; Wien: Oldenbourg, 2000.
HHU Düsseldorf, SS 2003
Information Retrieval
7
Information Retrieval
Wer befasst sich mit
Information Retrieval?
HHU Düsseldorf, SS 2003
Information Retrieval
8
Information Retrieval
Linguistik
Informatik
Retrievalsoftware
Kommerzielle Datenbanken
und Hosts
Suchmaschinen im Internet
Informationswissenschaft
HHU Düsseldorf, SS 2003
Information Retrieval
9
Information Retrieval
Konferenzen
• ACM SIGIR Conference on Research and Development in
Information Retrieval (seit 1977; Fokus: informatische,
computerlinguistische und informationswissenschaftliche
Grundlagen) – ACM: Association for Computing Machinery
– SIGIR: Special Interest Group on Information Retrieval
• TREC (seit 1992; Fokus: Evaluation von Retrievalsystemen)
– Text REtrieval Conference
• World Wide Web Conference (seit 1994; Fokus: Retrievalsysteme im Internet)
HHU Düsseldorf, SS 2003
Information Retrieval
10
Information Retrieval
Messen (mit Tagungen)
• Online Information (London)
• National Online Meeting (USA)
• ComInfo / DGI-Online-Tagung (Frankfurt/M.) (Fokus: jeweils
auf kommerzielle Datenbanken und Hosts)
Verbände in Deutschland
• Fachgruppe Information Retrieval der Gesellschaft für
Informatik
• Online-Benutzergruppe in der DGI (OLBG) – DGI: Deutsche
Gesellschaft für Informationswissenschaft und
Informationspraxis
HHU Düsseldorf, SS 2003
Information Retrieval
11
Information Retrieval
Zeitschriften:
• Journal of the American Society for Information Science
and Technology (JASIST)
• Communications of the ACM
• Information Processing & Management
• Information Retrieval
• Journal of Documentation
Spezialsuchmaschine:
• CiteSeer von NEC Research
Institute (citeseer.com)
C. Lee Giles; Kurt D. Bollacker; Steve Lawrence: CiteSeer: An Automatic Citation Indexing System. – In:
HHU Düsseldorf, SS 2003
Information Retrieval
12
Digital Libraries 98. – New York: ACM, 1998, 89-98.
Information Retrieval
Eine kurze Geschichte des Information Retrieval:
Beginn der Forschungen: Anfang der 60er Jahre
– Experimente mit natürlichsprachigen Systemen:
Gerard Salton (1927 – 1995) – Vektorraummodell,
SMART
– Vorbereitungen kommerzieller Online-Systeme:
Roger Kent Summit (geb. 1930) – DIALOG
HHU Düsseldorf, SS 2003
Information Retrieval
13
Information Retrieval
Eine kurze Geschichte des Information Retrieval:
Theoriebildungen / erste Anwendungen: 70er Jahre
– Erstes Online-System: DIALOG 1972
– Theoretische Grundlagen, Gewichtungsverfahren: Karen SparckJones / Donna Harman / C.J. „Keith“ van Rijsbergen (geb. 1943)
– Probabilistisches Modell: Stephen E. Robertson
van
Rijsbergen
Robertson
Sparck-Jones
HHU Düsseldorf, SS 2003
Information Retrieval
14
Information Retrieval
Eine kurze Geschichte des Information Retrieval:
Erfolg der Booleschen Online-Systeme
in Praxis einsetzbare natürlichsprachige Systeme (nur
moderat erfolgreich): 80er Jahre
– diverse Online-Hosts, auch in Deutschland: GENIOS, GBI u.a.
– natürlichsprachige Systeme: OKAPI, INQUERY; in
Deutschland: AIR/PHYS: Gerhard Lustig, Norbert Fuhr,
Gerhard Knorz
Fuhr
HHU Düsseldorf, SS 2003
Knorz
Information Retrieval
15
Information Retrieval
Eine kurze Geschichte des Information Retrieval:
Boom durch Word Wide Web: 90er Jahre
– großangelegte Retrievaltests: TREC (Donna Harman)
– natürlichsprachige Oberflächen auch bei Online-Hosts: Freestyle, WIN
– Retrievaltechniken für‘s Web: Technologieführer bei „klassisch“
orientierten Systemen: AltaVista (Louis Monier)
– Technologieführer bei Systemen unter Nutzung der Web-Topologie:
Google (Lawrence „Larry“ Page; Sergey Brin; Monika R. Henzinger)
Monier
Brin (li.)
Page
Henzinger
HHU Düsseldorf, SS 2003
Information Retrieval
16
Grundlagen des Information Retrieval
HHU Düsseldorf, SS 2003
Information Retrieval
17
Grundlagen des
Information Retrieval
DE
Treffer
Informationsbedarf
DBE
Dok.
Bezugseinheiten
Frage
Information
Retrieval
HHU Düsseldorf, SS 2003
Dokumentationseinheiten
Vergleich
der
Begriffe
Information
Indexing
Information Retrieval
18
Grundlagen des Information Retrieval
Relevanz - Pertinenz
Relevanz: Wann ist ein Dokument für ein Suchargument
relevant?
– (1) wenn es objektiv zur Vorbereitung einer Entscheidung dient
– (2) wenn es objektiv eine Wissenslücke schließt
– (3) wenn es objektiv eine Frühwarnfunktion erfüllt
Pertinenz: Wann ist ein Dokument für einen Nutzer
pertinent?
– (1) wenn es subjektiv zur Vorbereitung der Entscheidung eines
Nutzers dient
– (2) wenn es subjektiv eine Wissenslücke des Nutzers schließt
– (3) wenn es subjektiv eine Frühwarnfunktion für den Nutzer
erfüllt
HHU Düsseldorf, SS 2003
Information Retrieval
19
Grundlagen des Information Retrieval
Relevanz - Pertinenz
Ziele des Information Retrieval:
– Gewinnung relevanter / pertinenter Dokumente, die
objektives Wissen enthalten
– Umwandlung des gefundenen objektiven Wissens in
subjektives Wissen beim Nutzer (was auch heißt: der
Nutzer muss die Fähigkeit haben, das entsprechende
Wissen zu verstehen)
– Ableitung von Handlungen – aus dem gefundenen
Wissen auf der Basis der eigenen Vorkenntnisse neues,
handlungsrelevantes Wissen zu kreieren
HHU Düsseldorf, SS 2003
Information Retrieval
20
Grundlagen des Information Retrieval
Relevanz - Pertinenz
Voraussetzungen für erfolgreiches Retrieval:
–
–
–
–
–
–
das richtige Wissen
zum richtigen Zeitpunkt („just in time“)
am richtigen Ort
im richtigen Umfang
in der richtigen Form
mit der richtigen Qualität,
wobei „richtig“ heißt:
– (1) Wissen, Zeitpunkt usw. haben (objektiv betrachtet)
Relevanz
– (2) Wissen, Zeitpunkt usw. werden vom Nutzer (subjektiv
betrachtet) als passend eingeschätzt: haben Pertinenz
HHU Düsseldorf, SS 2003
Information Retrieval
21
Grundlagen des Information Retrieval
Retrieval: Pull und Push
– Pull-Service: zur Befriedigung von ad-hoc auftretendem
Informationsbedarf sucht ein Nutzer aktiv in
Informationssystemen nach Wissen
– Push-Service: zur Befriedigung eines (über einen
gewissen Zeitraum) andauernden Informationsbedarf
wird ein Nutzer vom Informationssystem mit jeweils
aktuellem, neuem Wissen versorgt. Push-Services
sorgen für current awareness
• Arbeitsschritt 1: Festlegen eines Informationsprofils (führt
Nutzer durch)
• Arbeitsschritt 2: Periodische Lieferung von Wissen (führt
Informationssystem automatisch durch) – „SDI“ (selective
dissemination of information) oder „Alert“
HHU Düsseldorf, SS 2003
Information Retrieval
22
Grundlagen des Information Retrieval
PullService
freier
Zugang
Passwörter
Benutzersichten
allgemeine
Informationen
exklusive
Informationen
zielgruppenspezifische
Informationen
(a) E-Mail-Verteiler
(b) personalisiert
auf Homepage
PushService
HHU Düsseldorf, SS 2003
Information Retrieval
23
Grundlagen des Information Retrieval
t2
erhalten durch
Push-Service
t1
bekannte Informationen
gedeckter Informationsbedarf
erhalten durch
Pull-Service
unbekannte Informationen
ungedeckter Informationsbedarf
Themenbearbeitungszeit
R.Schönfelder:
Inhaltliche
einer rationellen
HHU Düsseldorf,
SS 2003und methodische Probleme
Information
Retrieval Informationsplanung in Forschung und
24
Entwicklung. – In: Informatik 22 (1975) 6, 49-52.
Grundlagen des Information Retrieval
Frage- und Antworttypen
– Konkreter Informationsbedarf (Faktenfrage)
• Welchen Umsatz hatte Unternehmen X im Dezember 1998
in der Region Z?
• Wo liegt der Schmelzpunkt von Kupfer?
• Wie schloß der Dollarkurs letzten Freitag an der
Frankfurter Börse?
• Wann hat mein Geschäftspartner X Geburtstag?
– Problemorientierter Informationsbedarf (Literatur)
• Welche Methoden der fuzzy logic lassen sich beim Data
Mining einsetzen?
• Wie hängen Marketing und Qualitätsmanagement
zusammen?
• Wie bewerten Analysten das Unternehmen X?
• Wie beschreiben Marktforscher das Konsumklima für
ausländischen Wein in Ungarn?
Valery I. Frants; Jacob Shapiro; Vladimir G. Voiskunskii: Automated Information Retrieval. – San Diego [u.a.]:
Press, 1997. - Kap.
2.3: TheRetrieval
information need, 34-40.
HHU Düsseldorf, SS Academic
2003
Information
25
Grundlagen des Information Retrieval
Problemorientierter
Informationsbedarf
Konkreter
Informationsbedarf
– 1. Thematische Grenzen
sind klar angesteckt.
– 2. Die Suchfrageformulierung ist durch exakte
Terme ausdrückbar.
– 3. Eine Faktenfrage reicht
aus, um den Bedarf zu
decken.
– 4. Mit der Übermittlung der
Fakteninformation ist das
Informationsproblem
erledigt.
HHU Düsseldorf, SS 2003
– 1. Thematische Grenzen sind
nicht exakt.
– 2. Die Suchfrageformulierung läßt terminologische
Varianten zu.
– 3. Es müssen diverse Dokumente aus unterschiedlichen
Quellen beschafft werden.
– 4. Mit der Übermittlung der
Literaturinformation wird ggf.
das Informationsproblem
modifiziert oder ein neuer
Bedarf entdeckt.
Information Retrieval
26
Grundlagen des Information Retrieval
Aspekte der Relevanz:
– Haben wir alle Datensätze gefunden, die handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)
Recall = a / a + c
– Haben wir nur solche Datensätze gefunden?
(Genauigkeit, Precision)
Precision = a / a + b
a =: gefundene relevante Treffer
b =: nichtrelevante Datensätze, die in der Treffermenge
enthalten sind (Ballast)
c =: relevante Datensätze in der Datenbank, die nicht
gefunden wurden
HHU Düsseldorf, SS 2003
Information Retrieval
27
Grundlagen des Information Retrieval
• Recall und Precision beim konkreten
Informationsbedarf
Recall = 1
Precision = 1
• Recall und Precision beim problemorientierten
Informationsbedarf
inverse Relation zwischen Recall und Precision
– bei Erhöhung des Recall: Absinken der Precision
– bei Erhöhung der Precision: Absinken des Recall
empirischer Schätzwert: Recall + Precision = 1
• Achtung Problem: dies ist ein theoretisches Modell; genaue
Messergebnisse sind unmöglich, da der Wert c in großen
Datenbanken prinzipiell unbekannt ist.
HHU Düsseldorf, SS 2003
Information Retrieval
28
Grundlagen des Information Retrieval
Der “heilige
Gral” der
Rechercheure
100
R
e
c
a
l
l
Zugewinn
durch
elaborierte
„durchschnittliches“
Information Retrieval
P r e c i s i o n
Suche
100
Ross Evans: Beyond Boolean: Relevance ranking, natural language and the New Search Paradigm. – In:
Proceedings
of the
National Online Meeting.
– Medford:
HHU Düsseldorf,
SSFifteenth
2003
Information
RetrievalLearned Information, 1994, 121-128. 29
Grundlagen des Information Retrieval
Suchansätze
– (1) Suche nach Datensätzen (oder Teilen davon)
„Nadel-im-Heuhaufen-Syndrom“
– Strategie beim problemorientierten Informationsbedarf:
Berrypicking
Informationsbedarf
Ausgangsformulierung des
Informationsbedarf
Marcia J. Bates: The design of
browsing and berrypicking
techniques for the online search
interface. – In: Online Review
13 (1989), 407-424.
Treffermenge 2
Datenbank 1
Reformulierung der
Suchfrage
Treffermenge 1
Datenbank i
Reformulierung der
Suchfrage
HHU Düsseldorf, SS 2003
Datenbank 2
Information Retrieval
Treffermenge i
30
Grundlagen des Information Retrieval
Suchansätze
– (2) informetrische Suche
Charakterisierung ganzer „Heuhaufen“, d.h. von
Treffermengen
– Faktenextraktion aus Datenbanken. Generierung von
neuartigen Informationen durch das Retrieval
•
•
•
•
Rangordnungen
Zeitreihen
semantische Netze
Informationsflussgraphen
• Hinweis: informetrische Suchen werden in der Vorlesung
„Empirische Informationswissenschaft“ behandelt.
Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In:
Nachrichten für Dokumentation 43 (1992), 301-315.
HHU Düsseldorf, SS 2003
Information Retrieval
31
Grundlagen des Information Retrieval
Informationsfilterung (erwünschte Einschränkung
auf relevante / pertinente Dokumente)
• durch Strukturierung der Dokumente
• durch Indexieren (Informationsfilter i.e.S.)
–
–
–
–
–
Thesaurus
Klassifikation
Textwortmethode
Zitationsindexierung
usw.
• durch Informationsverdichtung
– Abstracts
– Ontologien
– Topic Maps
HHU Düsseldorf, SS 2003
Information Retrieval
32
Grundlagen des Information Retrieval
Informationsbarrieren (unerwünschte Einschränkung
auf Teilmengen der relevanten / pertinenten
Dokumente)
•
•
•
•
•
•
•
•
•
•
•
•
politisch-ideologische Barriere
Eigentumsbarriere
Gesetzesbarriere
Zeitbarriere
Effektivitätsbarriere
Heinz Engelbert: Der Informationsbedarf in der
Finanzierungsbarriere
Wissenschaft. – Leipzig: Bibliographisches Institut, 1976. –
Terminologiebarriere
Kap. 4: Informationsbarrieren, 59-72.
Fremdsprachenbarriere
Zugangsbarriere
Barrieren durch Mängel beim Information Retrieval
Bewusstheitsbarriere
Resonanzbarriere
HHU Düsseldorf, SS 2003
Information Retrieval
33
Grundlagen des Information Retrieval
Informationsbarrieren
HHU Düsseldorf, SS 2003
Wolfgang G. Stock: Informationswissenschaft
und –praxis in der
Deutschen Demokratischen Republik. – Frankfurt:
IDD Verl. Werner Flach, 1986, S. 64. 34
Information Retrieval
Grundlagen des Information Retrieval
• Typologie von Retrievalsystemen
– (1) Boolesche Systeme
George Boole (1815 – 1864), englischer
Mathematiker und Logiker
(„Boolesche Algebra“)
– Boolesche Systeme erfordern
die Übersetzung einer Anfrage
in eine formale Sprache.
– Country AND Western ANDNOT
„Garth Brooks“
HHU Düsseldorf, SS 2003
Information Retrieval
35
Grundlagen des Information Retrieval
• Typologie von Retrievalsystemen
– (2) Natürlichsprachige Systeme
Natürlichsprachige Systeme erwarten Anfragen in
gewöhnlicher Sprache (mittels ganzer Sätze, einzelner
Terme oder auch ganzer Musterdokumente).
Beispiele: kommerzielle Content-Aggregatoren mit
natürlichsprachiger Suche: WIN (Westlaw), Target (DIALOG),
Freestyle (Lexis-Nexis); Content-Aggregatoren mit
natürlichsprachiger automatischer Indexierung: FACTIVA, Dialog
Profound, Dialog NewsEdge; alle Suchmaschinen im WWW
Komponenten:
a) Informationslinguistik (Abgleich Suchargument –
Dokumente)
b) Informationsstatistik (Relevance Ranking)
c) nicht immer: Ordnungssysteme (terminologische
Kontrolle)
HHU Düsseldorf, SS 2003
Information Retrieval
36
Grundlagen des Information Retrieval
• Typologie von Retrievalsystemen
– (3) Kombinierte Systeme
Boolesches und natürlichsprachiges Retrieval in
Kombination
(a) zuerst Boolesches Retrieval, danach in Treffermenge
Relevance Ranking
Beispiele: diverse Content-Aggregatoren, AltaVista
(b) zuerst Informationslinguistik, danach in Treffermenge
Feinrecherche mittels Boolescher Operatoren
Beispiel: Lexis-Nexis
HHU Düsseldorf, SS 2003
Information Retrieval
37
Grundlagen des Information Retrieval
Weltregionen des Internet:
Die „Oberfläche“
– digitale Dokumente im Web
– (prinzipiell) auffindbar durch Suchwerkzeuge
– Dokumente sind u.U. unerwünschter Ballast („Spam“)
• Suchwerkzeuge / Typen:
–
–
–
–
Suchmaschinen
Webkataloge
Meta-Suchmaschinen
Portale
HHU Düsseldorf, SS 2003
Information Retrieval
38
Grundlagen des Information Retrieval
Suchmaschinen (Search Engines)
Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und
-statistik: AltaVista, FAST und Northern Light. – In: Password Nr.
1 (2001), 16-24. - Mechtild Stock; Wolfgang G. Stock: Relevance
Ranking nach „Popularität“ von Webseiten: Google. – In: Password
Nr. 2 (2001), 20-27.
HHU Düsseldorf, SS 2003
Information Retrieval
39
Grundlagen des Information Retrieval
Suchmaschinen (Search Engines)
• Gegenstand: Dokumente im Internet (WWW, Newsgroups),
gerichtet auf einzelne Webseiten
• automatisches Einsammeln der Dokumente mittels Crawler
• automatisches Aktualisieren der Datenbasis
• Kopieren der Dokumente (oder von Teilen) in die eigene
Datenbank
• automatisches Indexieren der kopierten Dokumente
• eher große Datenbasis (mehrere Mrd. Dokumente)
• Suchsystem mit natürlichsprachiger Eingabe und mit ProfiOberfläche
HHU Düsseldorf, SS 2003
Information Retrieval
40
Grundlagen des Information Retrieval
Webkataloge (Web-Directories)
Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologische Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich. –
In: Password Nr. 12 (2000), 26-33.
HHU Düsseldorf, SS 2003
Information Retrieval
41
Grundlagen des Information Retrieval
Webkataloge (Web-Directories)
• Gegenstand: Dokumente im WWW (z.T. zusätzlich exklusive
Dokumente, z.B. News), gerichtet vor allem auf Einstiegsseiten in Websites
• intellektuelle Auswahl
• intellektuelles Indexieren (i.d.R. Klassifikation)
• Datenbasis: „Titel“ der Dokumente (vom Webkatalog oder
vom Anmeldenden vergeben) und URL
• eher kleine Datenbasis (einige Mio. Dokumente)
• unregelmäßiges Update
• Suchsysteme mit Klassifikationshierarchien und
natürlichsprachiger Suche (über die Klassenbezeichnungen
und die Dokumenten“titel“)
HHU Düsseldorf, SS 2003
Information Retrieval
42
Grundlagen des Information Retrieval
Meta-Suchmaschinen
HHU Düsseldorf, SS 2003
Information Retrieval
43
Grundlagen des Information Retrieval
Meta-Suchmaschinen
• keine Datenbasis; greifen auf die Datenbasen anderer
Suchwerkzeuge zurück („Schmarotzer“)
– a) Metasuchmaschinen ohne eigenen informationellen
Mehrwert (außer der Abfrage diverser Suchwerkzeuge
und ggf. Dublettenelimination)
– b) Metasuchmaschinen mit Angebot von
Dokumentationssprachen (z.B. Thesaurus)
– c) mit Bearbeitung eingesammelter Dokumente
HHU Düsseldorf, SS 2003
Information Retrieval
44
Grundlagen des Information Retrieval
Portal
•
•
•
•
•
•
•
einheitlicher Einstiegspunkt in das WWW
(allgemein: „horizontales Portal“; fachspezifisch:
„vertikales“ Portal)
Simplizität
Bereitstellung von Suchwerkzeugen
(Suchmaschine und Katalog)
allgemein interessierende bzw. fachspezifische
(möglichst) exklusive Inhalte (News, Aktienkurse)
Zusatzfunktionalitäten (Tools mit
benutzerspezifischem Gebrauchswert, z.B.
Übersetzungsprogramme, Kalender, Adressbuch)
Personalisierung (Verwalten von
Informationsprofilen – „MyXXX“)
Hermann Rösch: Internetportal, Unternehmensportal,
Kommunikation (E-Mail-Accounts,
Wissenschaftsportal. – In: Gerhard Knorz; Rainer Kuhlen
(Hrsg.): Informationskompetenz – Basiskompetenz in
themenspezifische Chatrooms, Platz
für benutzereigene Homepage o.ä.)
HHU Düsseldorf, SS 2003
der Informationsgesellschaft. – Konstanz: UVK, 2000,
245-264.
Information Retrieval
45
Grundlagen des Information Retrieval
Weltregionen des Internet: Das „Deep Web“ (oder „Invisible Web“)
– digitale Dokumente, die nicht direkt im Web liegen, aber via Web
erreichbar sind
– derzeit nicht auffindbar durch Suchwerkzeuge
– Dokumente sind (meist) qualitätsgeprüft
– Terminologie: „invisible Web“ – Sherman & Price
„Deep Web“ – Bergman (Schätzung: Deep Web ist 500mal größer als
das Oberflächenweb – wahrscheinlich stark überschätzt)
• Typen:
– Kostenfreie singuläre Datenbanken
– Kommerzielle Informationsanbieter
• Selbstvermarkter
• Content-Aggregatoren (Online-Hosts)
Chris Sherman; Gary Price: The Invisible Web. – Medford: Information Today, 2001.
Michael K. Bergman: The Deep Web: Surfacing Hidden Value. – In: The Journal of Electronic Publishing
7 (2001) Iss.1
HHU Düsseldorf, SS 2003
Information Retrieval
46
Grundlagen des Information Retrieval
(Kostenfreie) Singuläre Datenbanken im Web
– thematisch orientierte Datenbanken
– (i.d.R.) aufgebaut von öffentlichen Einrichtungen (durch
öffentliche Mittel bereits finanziert)
– mehrere tausend Datenbanken via Web erreichbar
HHU Düsseldorf, SS 2003
Information Retrieval
47
Grundlagen des Information Retrieval
(Kommerzielle) Singuläre Datenbanken im Web –
„Selbstvermarkter“
– thematisch orientierte Datenbanken
– (i.d.R.) aufgebaut von Privatunternehmen mit dem
Zweck der Erzielung von Gewinnen
– teilweise auch zusätzlich bei Content-Aggregatoren
aufgelegt
Mechtild Stock; Wolfgang G. Stock: Professionelle Informationen über deutsche Unternehmen im Internet. –
In: Password Nr. 11 (2001), 26-33, und Nr. 12 (2001), 18-25.
HHU Düsseldorf, SS 2003
Information Retrieval
48
Grundlagen des Information Retrieval
Content-Aggregatoren
Wirtschaft
– Bündelung wirtschaftsrelevanter Datenbasen unter einer
Oberfläche
– Wirtschaftsnachrichten, Firmeninformationen,
Wirtschaftswissenschaft, Marktdaten usw.
Mechtild Stock: GBI – the contentmachine. Wirtschaftsinformationen für Hochschulen, Unternehmen und InternetSurfer. – In: Password Nr. 2 (2003), 8-17; Mechtild Stock; Wolfgang G. Stock : Dialog / DataStar. One-StopShops internationaler Fachinformationen. – In: Password Nr. 4 (2003), 22-29. - Mechtild Stock; Wolfgang G. Stock :
Dialog Profound / NewsEdge: Dialogs Spezialmärkte für Marktforschung und News. – In: Password Nr. 5 (2003).
HHU Düsseldorf, SS 2003
Information Retrieval
49
Grundlagen des Information Retrieval
Content-Aggregatoren
News
– Bündelung von Nachrichten-Datenbasen unter einer
Oberfläche
– (real-time)-Informationen von Nachrichtenagenturen,
Zeitungen, Zeitschriften
Mechtild Stock: Factiva.com. Neuigkeiten auf der Spur. – In: Password Nr. 5 (2002), 31-40. - Mechtild Stock;
Wolfgang G. Stock: Von Factiva.com zu Factiva Fusion. Globalität und Einheitlichkeit mit Integrationslösungen. –
In: Password Nr. 3 (2003), 19-28. – Mechtild Stock: ASV Infopool. Boulevard online. – In: Password Nr. 10
(2002), 22-27.
HHU Düsseldorf, SS 2003
Information Retrieval
50
Grundlagen des Information Retrieval
Content-Aggregatoren
WTM (Wissenschaft – Technik – Medizin)
– Bündelung von Wissenschaftsdatenbasen unter einer
Oberfläche
– disziplinspezifische bibliographische Datenbasen,
Volltexte von Wissenschaftszeitschriften,
Zitationsdatenbanken
Wolfgang G. Stock: Web of Science. Ein Netz wissenschaftlicher Informationen – gesponnen aus Fußnoten. – In:
Password Nr. 7+8 (1999), 21-25.
HHU Düsseldorf, SS 2003
Information Retrieval
51
Grundlagen des Information Retrieval
Content-Aggregatoren
Recht
– Bündelung von juristischen Datenbasen unter einer
Oberfläche
– Urteile, Volltexte juristischer Zeitschriften,
bibliographische Datenbanken
HHU Düsseldorf, SS 2003
Information Retrieval
52
Grundlagen des Information Retrieval
Weltregionen des Internet
Grenzüberschreitungen
– Hybrid-Suchmaschine (Content-Aggregator
und WWW-Suchmaschine)
HHU Düsseldorf, SS 2003
Information Retrieval
53
Grundlagen des Information Retrieval
Weltregionen des Internet / Grenzüberschreitungen
– Querweltein-Ergänzungen
Suchmaschinen mit Links ins Deep Web. Beispiel: AltaVista
(Oberflächenweb) – Wer liefert was? (Deep Web)
HHU Düsseldorf, SS 2003
Information Retrieval
54
Grundlagen des Information Retrieval
Weltregionen des Internet / Grenzüberschreitungen
– Querweltein-Ergänzungen
Deep Web-Datenbank mit Links ins Oberflächenweb
Beispiel: HWWA-Wirtschaftsdatenbank
HHU Düsseldorf, SS 2003
Information Retrieval
55
Grundlagen des Information Retrieval
Weltregionen des Internet / Überblick
Wolfgang G. Stock: Weltregionen des Internet: Digitale Informationen im WWW und via WWW. – In: Password
Nr. 2 (2003), 26-28.
HHU Düsseldorf, SS 2003
Information Retrieval
56
Grundlagen des Information Retrieval
Weltregionen des Internet und die Welt gedruckter
Dokumente
... wenn die benötigten
Dokumente nur in
Printausgaben vorliegen:
Nutzung von Document
Delivery Services
HHU Düsseldorf, SS 2003
Information Retrieval
57
Grundlagen des Information Retrieval
Typische
Dokumente:
Wirtschaftsinformation
Beispiel:
Firmendossier
(Creditreform
Online) - 1 -
HHU Düsseldorf, SS 2003
Information Retrieval
58
Grundlagen des Information Retrieval
Beispiel:
Firmendossier
(Creditreform
Online) - 2 -
HHU Düsseldorf, SS 2003
Information Retrieval
59
Grundlagen des Information Retrieval
Beispiel:
Firmendossier
(Creditreform
Online) - 3 -
HHU Düsseldorf, SS 2003
Information Retrieval
60
Grundlagen des Information Retrieval
Beispiel:
Firmendossier
(Creditreform
Online) - 4 -
HHU Düsseldorf, SS 2003
Information Retrieval
61
Grundlagen des Information Retrieval
Typische
Dokumente:
News
Beispiel:
Zeitungsartikel
bei Factiva
-1-
HHU Düsseldorf, SS 2003
Information Retrieval
62
Grundlagen des Information Retrieval
Beispiel:
Zeitungsartikel
bei Factiva
-2-
HHU Düsseldorf, SS 2003
Information Retrieval
63
Grundlagen des Information Retrieval
Typische
Dokumente:
WTM (1)
Beispiel:
Bibliographischer
Nachweis /
MEDLINE bei
DIMDI
HHU Düsseldorf, SS 2003
Information Retrieval
64
Grundlagen des Information Retrieval
Typische
Dokumente:
WTM (2)
Beispiel:
Patentnachweis
Derwent bei
DIALOG - 1 -
HHU Düsseldorf, SS 2003
Information Retrieval
65
Grundlagen des Information Retrieval
Beispiel:
Patentnachweis
Derwent bei
DIALOG - 2 -
HHU Düsseldorf, SS 2003
Information Retrieval
66
Grundlagen des Information Retrieval
Typische
Dokumente:
Rechtsinformation
Beispiel:
Grundsatzurteil
(Juris) - 1 -
HHU Düsseldorf, SS 2003
Information Retrieval
67
Grundlagen des Information Retrieval
Beispiel:
Grundsatzurteil
(Juris) - 2 -
HHU Düsseldorf, SS 2003
Information Retrieval
68
Grundlagen des Information Retrieval
Typische Dokumente: WWW
HHU Düsseldorf, SS 2003
Information Retrieval
69
Grundlagen des Information Retrieval
Dateien
– Dokumentenspeicher (sequentielle Aufnahme aller
Daten eines Dokumentes) – Zuordnung einer
eindeutigen Dok.-Nr.
– Invertierte Dateien: feldspezifische (i.d.R.
alphabetische) Listen aller Einträge eines Feldes aller
Dokumente – unter Zuordnung der Dok.-Nr. und
weiterer Angaben
– Basic Index: Invertierte Datei über bestimmte Felder
(je nach System alle Felder oder Auswahl)
– Wortindex: jedes einzelne Wort ist Indexeintrag
Phrasenindex: zusammengehörige Phrasen bilden
einen Indexeintrag
HHU Düsseldorf, SS 2003
Information Retrieval
70
Grundlagen des Information Retrieval
Invertierte Dateien. Jeder Eintrag enthält:
– eigene Adresse im Speicher
– Dokumentnummer(n) bzw. deren Adresse(n)
– Häufigkeit in Gesamtdatenbank
• Anzahl der Dokumente, in denen der Eintrag (min.
einmal) vorkommt
• Gesamtanzahl des Vorkommens in der Datenbank
– Position(en) im Dokument
•
•
•
•
Wortnummer(n)
Vorkommen in Satz/Sätzen Nummer(n) X, X‘, ...
Vorkommen in Absatz/Absätzen Nummer(n) Y, Y‘, ...
beim Einsatz syntaktischen Indexierens: Vorkommen in
Themenkette(n) T, T‘, ...
– ggf.: Kennzeichen auf Position (z.B. Größe des
Druckerfonts)
– ggf.: Gewichtungswert
– ggf. jeder Eintrag zweimal: normale Buchstabenfolge
und zusätzlich rückläufig
HHU Düsseldorf, SS 2003
Information Retrieval
71
Grundlagen des Information Retrieval
Invertierte Dateien. Beispiel (Textbody)
Eintrag:
Unternehmen / nemhenretnU
Dok.-Nr.
# Dok.
# insg.
Wort-Nr.
Satz-Nr.
Absatz-Nr.
Font
2, 23, 45, 56
4
7
(2: 4, 28), (23: 99), (45: 13, 17, 55), (56: 432)
(2: 1, 3), (23: 15), (45: 9, 9, 15), (56: 58)
(2: 1, 1), (23: 1), (45: 1, 2), (56: 4)
(2.4: 28), (2.28: 10), (23.99: 12), (45.13: 72),
(45.17: 12), (45.55: 12), (56.432: 20)
HHU Düsseldorf, SS 2003
Information Retrieval
72
Grundlagen des Information Retrieval
Invertierte Dateien. Beispiel (Deskriptorfeld)
Eintrag:
Just in Time-Logistik / kitsigoL-emiT ni tsuJ
Dok.-Nr.
# Dok.
# insg.
Kette-Nr.
Gewichtung
44, 1204
2
8
(44: 1, 3, 10), (1204: 1-5)
(44: 33), (1204: 100)
HHU Düsseldorf, SS 2003
Information Retrieval
73
Grundlagen des Information Retrieval
Wie kommen die Datenbanken zu ihren
Dokumenten?
– (1) intellektuelle Auswahl nach Kriterien der
Dokumentationswürdigkeit
– (2) automatisches Einsammeln durch Crawler (Spider,
Robots)
• Verfolgen der Links in bereits gesammelten
Dokumenten
• Beachtung von Robot Exclusion Standards
HHU Düsseldorf, SS 2003
Information Retrieval
74
Grundlagen des Information Retrieval
Analyse der erfassten Web-Seite
Crawler.
Beispiel: Scooter
von AltaVista
Sind alle URL-Links zu anderen WebSeiten abgearbeitet?
ja
nein
Sende erfasste Seite
an das
Indexierungssystem
Bearbeite nächste URL
Ist im Speicher bereits ein Eintrag für
diese URL?
Louis M. Monier: System for adding a new
entry to a web page table upon receiving a web
page including a link to another web page
not having a corresponding entry in the web
page table. – Patent Nr. US 6.032.196. –
Assignee: Digital Equipment Corp. –
Priorität: 28. August 1998;
erteilt: 29. Februar 2000.
HHU Düsseldorf, SS 2003
ja
nein
Ist im Speicher bereits ein Eintrag für
eine definierte Spiegelung dieser URL?
ja
nein
Füge Eintrag für eine neue Web-Seite in den aktuellen
Puffer ein (Markierung: "nicht erfasst");
füge Eintrag für eine neue Web-Seite in die Datenbank
ein (Markierung: "nicht erfasst")
Information Retrieval
75
Funktionalität Boolescher
Retrievalsysteme
HHU Düsseldorf, SS 2003
Information Retrieval
76
Funktionalität Boolescher Retrievalsysteme
Einsatz boolescher Systeme bei:
•
•
•
•
bibliographischen Datenbanken
Volltextdatenbanken
Faktendatenbanken
z.T. bei Suchmaschinen im WWW
Varianten:
• befehlsorientiert (für Information Professionals)
• menügeführt (für Laien)
Wolfgang G. Stock: Informationswirtschaft. – München; Wien: Oldenbourg. 2000. - Kap. 4: Retrieval von
elektronischen Informationen: Techniken und Strategien, 90-118.
HHU Düsseldorf, SS 2003
Information Retrieval
77
Funktionalität Boolescher Retrievalsysteme
Menügeführtes
Boolesches
Retrievalsystem
Beispiel:
Profound
HHU Düsseldorf, SS 2003
Information Retrieval
78
Funktionalität Boolescher Retrievalsysteme
Befehlsorientiertes
Boolesches
Retrievalsystem
Beispiel:
DialogWeb
HHU Düsseldorf, SS 2003
Information Retrieval
79
Funktionalität Boolescher Retrievalsysteme
Arbeiten mit booleschen Retrievalsystemen
– Suchen nach den bestpassenden Datenbanken (Nadel-imHeuhaufen-Syndrom – Phase 1)
Derzeit existieren mehrere zehntausend fachspezifische
Datenbanken. (Hinweis: recht vollständig ist der
Datenbankführer von GALE)
– Suchen nach den bestpassenden Dokumenten (Nadel-imHeuhaufen-Syndrom – Phase 2)
Derzeit existieren (außerhalb des WWW) mehrere
zehnmilliarden Dokumente.
– Ausgeben der gefundenen Dokumente
– Initiierung eines Pushdienstes
HHU Düsseldorf, SS 2003
Information Retrieval
80
Funktionalität Boolescher Retrievalsysteme
Suchen nach bestpassenden Datenbanken (Nadel-imHeuhaufen-Syndrom – Phase 1)
– „Bluesheets“: Detaillierte Datenbankbeschreibungen
HHU Düsseldorf, SS 2003
Information Retrieval
81
Funktionalität Boolescher Retrievalsysteme
Datenbankindex: Suchen der bestpassenden
Datenbanken (befehlsorientierte Variante)
• Öffnen der Indexdatenbank (bei DIALOG: b 411)
• Einschränken auf thematischen Bereich / SET FILES
(sf papersmj, 47, not 703)
• Suchargument eingeben / SELECT (s XXX)
• ggf. Suchargument speichern / SAVE TEMP (save temp
Name)
• Rangordnung der Datenbanken nach Treffern zum
Suchargument / RANK FILES (rf)
• Aussuchen der Datenbanken; Aufrufen entweder mit FileName oder mit Ausgabenummer (N1, N2, ...) / BEGIN
(b N1-N9)
HHU Düsseldorf, SS 2003
Information Retrieval
82
Funktionalität Boolescher Retrievalsysteme
Datenbankindex: Beispiel DIALOG (1)
HHU Düsseldorf, SS 2003
Information Retrieval
83
Funktionalität Boolescher Retrievalsysteme
Datenbankindex: Beispiel DIALOG (2)
HHU Düsseldorf, SS 2003
Information Retrieval
84
Funktionalität Boolescher Retrievalsysteme
Datenbankindex: Suchen der bestpassenden
Datenbanken (menügeführte Variante)
Beispiel: GBI (CROSS)
HHU Düsseldorf, SS 2003
Information Retrieval
85
Funktionalität Boolescher Retrievalsysteme
Suchen nach bestpassenden Dokumenten
(Nadel-im-Heuhaufen-Syndrom – Phase 2)
Zugang zu Datenbanken
– Öffnen einer Datenbank / BEGIN 3
– Öffnen von Segmenten einer Datenbank (etwa: nur die
letzten zwei Jahrgänge) / BEGIN 3 CURRENT 2
– Öffnen mehrerer (gleich strukturierter) Datenbanken
gleichzeitig / Einzelauswahl / BEGIN 3, 45, 47
– Öffnen mehrerer Datenbanken eines vordefinierten
Datenbankclusters / BEGIN PAPERS
HHU Düsseldorf, SS 2003
Information Retrieval
86
Funktionalität Boolescher Retrievalsysteme
Feldspezifische Suche
– alphanumerische Felder (wie AU, CT, TI, ...) / SELECT
S AU=Marx, Karl (bei Phrasenindex)
S AU=Marx AND AU=Karl (bei Wortindex)
– numerische Felder (wie YR, UM, PL, ...) / algebraische
Operatoren (gleich, größer, kleiner)
YR=2003; YR>1999; YR<1999
– Basic Index / Suchen ohne Feldkürzel
S Marx
Blättern im Wörterbuch
– Einstieg in die invertierten Dateien / EXPAND
E AU=Marx
– Anzeige der (alphabetischen) Umgebung mit lfd. Nr.
(etwa: T3 Marx, Karl)
– Übernahme der lfd. Nr. / S T3
HHU Düsseldorf, SS 2003
Information Retrieval
87
Funktionalität Boolescher Retrievalsysteme
Schreibvarianten (Beispiele: Lexis-Nexis)
– ohne weitere Befehle: je nach System: nicht
zeichensensitiv, automatische Pluralbildung,
automatische Weiterleitung zum Deskriptor
– nur Großbuchstaben suchen: ALLCAPS
ALLCAPS aids (findet AIDS)
– nur Kleinbuchstaben suchen: NOCAPS
NOCAPS aid (findet aid)
– erster Buchstabe groß: CAPS
CAPS aid (findet Aid)
– nur Pluralform suchen: PLURAL
PLURAL job (findet jobs)
– nur Singularform suchen: SINGULAR
SINGULAR job (findet job)
HHU Düsseldorf, SS 2003
Information Retrieval
88
Funktionalität Boolescher Retrievalsysteme
Fragmentierung (Truncation)
– Links-, Mitte-, Rechtsfragmentierung
– offene Fragmentierung (beliebig viele Zeichen werden
ersetzt) / $
Unternehm$ findet Unternehmen, Unternehmung,
Unternehmensgeschichtsschreibungstheorie, ...
$unternehmen findet Bauunternehmen,
Chemieunternehmen, Stahlunternehmen
– begrenzte Fragmentierung (genau ein Zeichen wird
ersetzt) / *
Unternehm*** findet Unternehmen, Unternehmung, aber
nicht längere Terme
Ma*er findet Maier, Mayer, Majer (aber auch Maler)
– Je nach System müssen n Zeichen (oft: 3 oder 5) vor
oder nach dem Jokerzeichen vorhanden sein
– Achtung bei großzügiger Fragmentierung: $affe$
HHU Düsseldorf, SS 2003
Information Retrieval
89
Funktionalität Boolescher Retrievalsysteme
Schnittmenge
A UND B
1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 1“.
2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 2“.
3. Bestimme Schnittmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei
„Menge 3“.
4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe!
Gerard Salton; Michael McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –
Hamburg [u.a.]: McGraw-Hill, 1983. – Kap.2: Invertierte Dateisysteme, 27-55.
HHU Düsseldorf, SS 2003
Information Retrieval
90
Funktionalität Boolescher Retrievalsysteme
Vereinigungsmenge
A ODER B
1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 1“.
2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 2“.
3. Bestimme Vereinigungsmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei
„Menge 3“.
4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe!
HHU Düsseldorf, SS 2003
Information Retrieval
91
Funktionalität Boolescher Retrievalsysteme
Exklusionsmenge
A UND NICHT B
1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 1“.
2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei
„Menge 2“.
3. Lösche sämtliche Elemente aus „Menge 1“, die auch Elemente aus „Menge 2“ sind!
4. Folge den Verweisen aus der verbleibenden „Menge 1“ zu den Dokumenten, kopiere
diese zur Ausgabe!
HHU Düsseldorf, SS 2003
Information Retrieval
92
Funktionalität Boolescher Retrievalsysteme
Ausschließende Exklusionsmenge
A XOR B
1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 1“.
2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 2“.
3. Bestimme Vereinigungsmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 3“.
4. Bestimme Schnittmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 4“.
5. Lösche alle Elemente aus „Menge 3“, die auch Element von „Menge 4“ sind!
6. Folge den Verweisen aus der verbleibenden „Menge 3“ zu den Dokumenten, kopiere diese zur
Ausgabe!
HHU Düsseldorf, SS 2003
Information Retrieval
93
Funktionalität Boolescher Retrievalsysteme
Boolesche Funktoren in aussagenlogischer Deutung
A
B
w
w
f
f
w
f
w
f
A UND B
w
f
f
f
Konjunktion
„beides“
A ODER B
A UND NICHT B
w
w
w
f
f
w
f
f
Disjunktion
„mindestens eines“
Postsektion
A XOR B
f
w
w
f
Kontravalenz
„das eine
„entweder das eine oder
ohne das andere“
das andere“
I.M.Bochenski; Albert Menne: Grundriß der Logistik. – Paderborn: Schöningh, 1973, 27-35.
HHU Düsseldorf, SS 2003
Information Retrieval
94
Funktionalität Boolescher Retrievalsysteme
Abstandsoperatoren (Verschärfung des Booleschen UND)
– (1) direkte Nachbarschaft:
• Phrasen: „Miranda Otto“
• benachbarte Worte in Reihenfolge: Miranda ADJ Otto findet
Miranda Otto
• benachbarte Worte ohne Beachtung der Reihenfolge: Miranda (N)
Otto findet Miranda Otto und Otto, Miranda
– (2) numerische Abstandsoperatoren:
• Suche nach Worten im Abstand von n Worten (n frei wählbar):
Miranda (N) Otto W/25 Eowyn findet alle Texte, in denen die Namen
im Abstand von max. 25 Worten vorkommen
– mehrfache Anwendung von W/n findet (bei geschickt gewähltem n)
hochrelevante Texte: Auenland W/25 Auenland W/25 Auenland
• Suche nach Worten im Abstand von n Worten (n fest, i.d.R. 10):
Eowyn NEAR Aragorn findet Texte, in denen die Namen im Abstand
von max. 10 Worten vorkommen
HHU Düsseldorf, SS 2003
Information Retrieval
95
Funktionalität Boolescher Retrievalsysteme
Abstandsoperatoren (Verschärfung des Booleschen UND)
– (3) grammatische Nachbarschaft:
• (nicht) im gleichen Satz (auch bei thematischen Ketten des
syntaktischen Indexierens)
– A UND.S B
– A NICHT.S B
• (nicht) im gleichen Absatz
– A UND.P B
– A NICHT.P B
• (nicht) im gleichen Feld
– A UND.F B
– A NICHT.F B
• Satzanfang: #A (A steht am Satzanfang)
Häufigkeitsoperator (Angabe der Minimalhäufigkeit)
– ATLEAST 20 (A): A muss min. 20mal vorkommen
HHU Düsseldorf, SS 2003
Information Retrieval
96
Funktionalität Boolescher Retrievalsysteme
Hierarchische Suche
Marketing
UB1 UB2
Werbung
HHU Düsseldorf, SS 2003
UB3
Dienstleister
UND
UB1 UB2
UB3
Consultant
Information Retrieval
97
Funktionalität Boolescher Retrievalsysteme
Hierarchische Suche
• bei Klassifikationen durch Rechtsfragmentierung
– DDC=382 findet alles zur Klasse 382
– DDC=382* findet alles zu 382 und zu den Unterbegriffen
der nächsten Hierarchieebene
– DDC=382** findet alles zu 382 und zu den Unterbegriffen der nächsten zwei Hierarchieebenen
– DDC=382$ findet alles zu 382 nebst allen Unterbegriffen
• bei Thesauri
– DOWN-Operator (findet alles zum Deskriptor nebst aller
Unterbegriffe)
DE DOWN Hepatitis findet alles zu Hepatitis und zu allen
Unterbegriffen (bis zu den Bottomterms) im unterlegten
Thesaurus
– NÄCHSTE EBENE (findet alles zum Deskriptor sowie zu
den Unterbegriffen der nächsten Hierarchieebene)
HHU Düsseldorf, SS 2003
Information Retrieval
98
Funktionalität Boolescher Retrievalsysteme
Hierarchische Suche
Beispiel:
GBI
HHU Düsseldorf, SS 2003
Information Retrieval
99
Funktionalität Boolescher Retrievalsysteme
Klammersetzung / Bindungsstärke der Operatoren
– je nach System binden die Operatoren jeweils stärker
als andere; Beispiel: UND stärker ODER
– Umgehen der Bindungsstärke durch Klammern; die
Systeme arbeiten die Klammern von innen nach außen
ab
– Gesucht: Artikel von Ernst Meier (oder Maier?) aus den Jahren
1998 und 1999 über Mineralwasser sowie Soft Drinks:
AU=M*ier, Ernst UND (YR=1998 ODER YR=1999) UND
(DE=Mineralwasser ODER DE=Soft Drinks)
– Gesucht: Unternehmen im Postleitzahlbereich Köln, die
Anwendersoftware anbieten und die entweder mehr als 30
Mitarbeiter oder mehr als 20 Mio. EURO Jahresumsatz haben.
Wir wollen dabei nichts mit Unternehmen zu tun haben, die
Software für militärische Zwecke erstellen.
(PL=5$ UND PC=7372002 UND (MI>30 ODER UM>20)) UND
NICHT PC=7372003
HHU Düsseldorf, SS 2003
Information Retrieval
100
Funktionalität Boolescher Retrievalsysteme
Datenbankübergreifende Suche
– Dubletten können vorkommen und sollten gelöscht werden
– Aufruf der Datenbanken in der Reihenfolge ihrer Qualität (damit die
besten Datensätze erhalten bleiben)
– nach Abschluss der Suche:
• Identifizieren der Dubletten / IDENTIFY DUPLICATES
• Löschen der Dubletten / REMOVE DUPLICATES
– ggf. Aufsplitten der
Ergebnisse in die
einzelnen Datenbanken
– Beispiel: DataStar
HHU Düsseldorf, SS 2003
Information Retrieval
101
Funktionalität Boolescher Retrievalsysteme
Umformulierung von Suchergebnissen zu
Suchargumenten (MAPPING)
– Suchschritt 1: Suche nach Argumenten für (den
eigentlich erwünschten) Suchschritt 2
– Interesse besteht nur an den gefundenen Inhalten
gewisser Felder; Zwischenspeichern / MAP (ggf.
Feldkürzel verändern)
– Suchschritt 2: ggf. Aufruf einer neuen Datenbank,
Ausführen des gespeicherten Sucharguments
– Beispiel: Suche nach Literatur zu „Aspirin“ – chemische
Bezeichnungen unbekannt: (1) Aufruf einer
Synonymdatenbank für chemische Bezeichnungen;
Suche nach Aspirin; MAP RN (RN: Feld mit den
Bezeichnungen) Suchergebnis wird
zwischengespeichert – (2) Aufruf einer ChemieLiteraturdatenbank; Auslösen des Zwischenspeichers
EXECUTE STEPS
HHU Düsseldorf, SS 2003
Information Retrieval
102
Funktionalität Boolescher Retrievalsysteme
Ausgeben der gefundenen Dokumente
– Anzeigen / TYPE [Suchschritt]/[Format]/[Dokumente]
TYPE S3/5/1-5,9
– bisherige Suchgeschichte / DISPLAY SET
– Sortieren / SORT [Suchschritt]/[Dokumente]/[Feld(er)]/
[Sortierrichtung] / SORT S3/all/yr,au/d
– Bilden einer Rangordnung nach Feldinhalten / RANK
– Bestellen von Volltexten (die nicht direkt im PDF-Format
vorliegen) / ORDER
HHU Düsseldorf, SS 2003
Information Retrieval
103
Funktionalität Boolescher Retrievalsysteme
Einrichten eines Pushdienstes
– Suchargument ist vorhanden; Treffermenge
zufriedenstellend
– Name des
Suchprofils
definieren
– Periodizität
festlegen
– Lieferanschrift
eingeben
hier:
E-Mail (GBI)
HHU Düsseldorf, SS 2003
Information Retrieval
104
Funktionalität Boolescher Retrievalsysteme
Einrichten eines Pushdienstes
– auf Homepage ausliefern (Beispiel: Factiva)
HHU Düsseldorf, SS 2003
Information Retrieval
105
Funktionalität Boolescher Retrievalsysteme
Auslieferung des Pushdienstes auf Homepage
HHU Düsseldorf, SS 2003
Information Retrieval
106
Herunterladen