Einführung • Was wird gesucht? Informationen versus Daten • Grundlegende Konzepte • Suche als Prozess • Überblick über die Vorlesung Information Retrieval und Datenbanken Alexander Hinneburg Sommersemester 2005 SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 0 SS 2005 Motivation • Aufgabe: – Repräsentation – Speicherung – Organisation – Zugriff – Finde alle Webseiten (Dokumente) über Fußballmannschaften, die (1) in Sachsen-(Anhalt) beheimatet sind und (2) in der ersten oder zweiten Bundesliga mitspielen. Um relevant zu sein, muss die Seite die Tabellenplätze des Vereins in den letzten drei Jahren sowie Telefonnummer und Adresse enthalten. • auf Informationseinheiten • orientiert am Bedürfnis des Anwenders • Charakterisierung dieses Bedürfnisses • Beschreibung muss in Anfrage übersetzt werden • meistens als Menge von Schlüsselwörtern – kein einfaches Problem Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 1 Motivation: Beispiel • Information Retrieval SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 2 SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 3 1 Motivation: Beispiel Informationen versus Daten • Google: Fussball Bundesliga Sachsen Telefon Adresse • Ergebnisse ungefähr 541 (0,17 Sekunden) – radio SAW - Superhits für Sachsen-Anhalt... Werdet der größte Fußball-Weise in SachsenAnhalt! Die neue Fußball Bundesliga-Saison ist im vollen Gange und radio SAW ist wieder mittendrin! ... Autobus Sippel GmbH... mit einem neuen Bus zu den Auswärtsspielen der FußballBundesliga reisen. ... Jäger unter Telefon: 06122-9124-0 oder per mail unter folgender < sz-online | sachsen im netz >... Als umfassender Anbieter von Inhalten etwa zur FußballBundesliga blickt ... sich einen DSL-Anschluss mit fester IP-Adresse zuzulegen Sehen Sie - Musik Musikfilme Sachsen Anhalt bei seekoo.de/regional ...... Händler aus Deutschland mit Telefon-Nummer, Adresse und Homepage. ... anstelle, gesundheit gewinnspiel, kraft, fussball bundesliga gewinnspiel, hinter, autogramm -- Ideen, die bewegen.... Während der Fußball-Bundesliga-Saison stellen wir in jeder ... Bitte Postkarte oder E-Mail (autogramm@ volkswagen.de) mit Adresse, Telefon-, ... – – – – • Das Finden von Informationen ist wichtig, im Gegensatz zum Finden von Daten SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 4 • Bereitstellen von Daten (IR) – welche Dokumente enthalten die Schlüsselwörter der Anfrage – reicht meist nicht um die Anfrage zu beantworten. • SQL Anfrage: exakt und vollständig • IR Anfrage: Ähnlichkeiten, kleine Fehler – Texte, natürliche Sprache ist nicht gut strukturiert und kann mehrdeutig sein – Semantik ist nicht exakt – Gegensatz: Datenbank-Schemata sind wohl-definiert SS 2005 Informationen versus Daten • IR wurde mit dem Erfolg des WWW (in den 90zigern) bekannt und interessant • WWW – muss Dokumente „interpretieren“ und entsprechend der Relevanz ordnen – Syntaktische und semantische Informationen müssen aus Dokumenten extrahiert werden – Definition von Relevanz ist sehr wichtig – universales Archiv für Wissen – Erfolg beruht auf Standard-Schnittstelle – Jeder darf Web-Seiten schreiben und auf andere verweisen • Probleme • Probleme – nützliche Infos schwierig, aufwendig zu finden – Navigieren im WWW ist kompliziert – Wohl-definiertes Datenmodell fehlt => Infos haben schlechte Qualität – wie werden die rel. Infos extrahiert – wie werden die Dokumente geordnet • Ziel – Anwort enthält alle relevanten Dokumente mit möglichst wenigen nicht-relevanten Dokumenten Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 5 IR und das WWW • Bereitstellen von Daten -> Datenbanken • IR System SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 6 • Trotz vieler Probleme: IR ist Schlüsseltechnologie SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 7 2 Grundlegende Konzepte, Anwender Aufgabe Grundlegende Konzepte, Logische Sicht auf Dokumente • Anwender übersetzt dem IR System Aufgabe in Anfrage (Schlüsselwörter+Bedingungen) • Anwender mit unbestimmten, allgemeinem Interesse • Texte repräsentiert durch eine Menge von Indexwörtern => logische Sicht – will einfach herumstöbern – stöbern anstatt suchen (klare Unterscheidung) Retrieval • Indexwörter = alle Wörter => Volltext • Textoperationen Database Browsing – Stopwörter – Stemming – Substantiv-Gruppen • IR Systeme können beides kombinieren • Stöbern und Suchen „pull“ Infos zum Anwender • IR Software Agents „push“ Infos => Info Filter SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg – handverlesene Indexmenge – automatisch generiert Seite 8 SS 2005 Logische Sicht auf Dokumente Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Suche als Prozess User Interface • Kontinuierliche Sicht auf Dokumente user need Text 4, 11 Text Text Operations Accents spacing Docs stopwords Noun groups stemming Manual indexing logical view Query user feedback Operations structure Full text Index terms Searching retrieved docs ranked docs SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 10 SS 2005 5 logical view Indexing 4 query structure Seite 9 6,7,8 9,10 inverted file DB Manager Module Index 6,7,8 9,10 Text Database Ranking 1,2 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 11 3 Vorlesungsüberblick 1. (07. 04.) Einführung, IR Modelle, Ranking 2. (14. 04.) IR Modelle, Ranking 3. (21. 04.) Evaluierung 4. (28. 04.) Anfrage Sprachen & Anfrage Operationen (05. 05.) Christi Himmelfahrt -- keine Vorlesung 5. (12. 05.) Text Repräsentationen & Text Operationen 6. (19. 05.) Text Indexing 1 7. (26. 05.) Text Indexing 2 8. (02. 06.) Paralleles & Verteiltes IR 9. (09. 06.) Multimedia IR Indexing 1 10. (16. 06.) Multimedia IR Indexing 2 11. (23. 06.) Anwender-Schnittstellen und Visualisierung 12. (30. 06.) Web IR 1 13. (07. 07.) Web IR 2 14. (14. 07.) Klausur SS 2005 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 12 4