Web-Retrieval PS: Künstliche Intelligenz PROLOG II SS 11 - Leitung: Claes Neuefeind Katja Diederichs, Christian Fass, Kim Opgenoorth Web-Retrieval ● Was ist für die erfolgreiche Suche im World Wide Web grundsätzlich nötig? PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Web-Retrieval ● Was ist für die erfolgreiche Suche im World Wide Web grundsätzlich nötig? ● Die richtigen Such-Techniken! PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Web-Retrieval ● Was ist für die erfolgreiche Suche im World Wide Web grundsätzlich nötig? ● Die richtigen Such-Techniken! ● Klassisches Information Retrieval ist auch der Grundstein für die Suche im Web PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Information Retrieval ● Weinberg-Report (Weinberg, A.M. 1963) Warnung vor „Informationsexplosion“: Aus Informationsüberfluss kann Informationsmangel entstehen → Lösung: Informationswissenschaft (u.a. Information Retrieval) PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Information Retrieval ● Definition „IR is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).“ [Manning et al., 2008, S. 1] PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Information Retrieval ● Für jede Suche ist die Relevanz der Ergebnisse entscheidend... Information Retrieval ● Maße der Relevanz des Gefundenen -Precision (Genauigkeit) Menge der Suchergebnisse, die relevant für die Anfrage ist -Recall (Vollständigkeit) Totale Menge an zurückgegebenen Suchergebnissen ● Beide Faktoren zusammen betrachten IR-Modelle ● 3 Grundlegende IR-Modelle ● Boolsches Modell ● Vektorraum-Modell ● Probabilistisches Modell PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle - Boolsches Modell ● Boolsches Modell ● Exakte Anfragen Operatoren: Und / Nicht / Oder ● Exaktes Matching: Vorkommen/Nicht-Vorkommen des Suchterms PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle - Boolsches Modell ● Boolsches Modell Vorteil ● Exaktes Matching Nachteil ● ● Irrelevanter Kontext wird gefunden, weil Wort vorkommt Relevantes wird nicht gefunden, weil Wort nicht vorkommt PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle - Vektorraummodell ● ● ● Vektorraummodell Dokumente und Suchanfragen sind Vektoren in einem n-dimensionalen Raum Hier nicht exakte Übereinstimmung sondern Ähnlichkeit zwischen Anfrage und Dokument bzw. Dokumenten untereinander PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle - Vektorraummodell ● Vektorraummodell Vorteil ● Annahme der Ähnlichkeit bietet Rankingmöglichkeit bei enorm großen Treffermengen Nachteil ● Das Modell sieht Suchbegriffe als völlig unabhängig voneinander an PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle - Probabilistisches ● ● ● ● ● Probabilistisches Modell Ermittlung der Wahrscheinlichkeit für Relevanz des Dokuments Ähnlichkeitswert abhängig von der Häufigkeit der Suchbegriffe im Dokument Je ähnlicher Anfrage u Dokument desto höher Wahrscheinlichkeit für Dokument-Relevanz In der Praxis hat sich Modell nicht bewährt PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Modelle ● In der Praxis nutzen Suchmaschinen Verfahren wie z. B. ● Eine Boolsche Anfrage und die Datenstruktur des Invertierten Indexes → Als Modell in der Web-Suche PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Datenstrukturen ● Der Invertierte Index ist ein Wort-orientierter Mechanismus um Texte zu indexieren und das Suchen innerhalb einer Textsammlung zu beschleunigen PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Datenstrukturen ● Der Invertierte Index ist ein Wort-orientierter Mechanismus um Texte zu indexieren und das Suchen innerhalb einer Textsammlung zu beschleunigen ● „Invertiert“ weil nicht die Dokumente auf Worte zeigen, sondern Worte auf Dokumente zeigen, die sie beinhalten PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Datenstrukturen ● Der Invertierte Index (Abb.: Manning 2008) PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass IR-Datenstrukturen Anwendungsbeispiel PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Klassisches IR versus Web-Suche ● Klassisches IR ● Man braucht für die Suche Expertenwissen ● ein Korpus mit zusammenhängenden Daten ● eine Aufarbeitung der Daten → Bestimmte Algorithmen u. Datenstrukturen zur Optimierung der Suche PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Klassisches IR versus Web-Suche ● Diese Art der Suche ist jedoch nicht analog in Web-Suche übertragbar! → berücksichtigt nicht: ● ● Den Nutzer (kein Experte im Suchen) Die Struktur des Webs (ungeordnet, uneinheitlich) PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Deep Web Deep Web ● Begriff “Deep Web” ● Dynamisch generierte Seiten ● Nichtverlinkte, “uncrawlbare” Seiten ● ● ● Seiten ausserhalb des http-Protokolls (z.B. Ftp, Usenet...) Seiten mit gesichertem Zugang (Captcha, Passwort usw.) Enthält (nach möglicherweise veralteten Schätzungen) 544x mehr Daten als das Surface Web Klassisches IR versus Web-Suche Spezifischer Suchkontext vorhanden Kein Suchkontext vorhanden Für Suche relevanter Dokumente in großen Ergebnismengen Für Suche relevanter Dokumente in großen Ergebnismengen Ranking nötig: Ranking nötig: Anfragebasiert Anfragebasiert allein unzureichend Weitere Rankingmethoden nötig! PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Linktopologie Die Linktopologie als wichtigster anfrageunabhängiger Rankingfaktor ● Grundthese: Die Linkstruktur in einer Hypertext-umgebung sagt etwas über die Relevanz eines Dokuments aus PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Page Rank - Algorithmus von Larry Page und Sergei Brin an Stanfort University entwickelt - jede Seite hat ein Gewicht, welches um so höher ist, je mehr Seiten (mit möglichst hohem Eigengewicht) darauf verweisen - Die Wahrscheinlichkeit, dass der Zufallssurfer eine Webseite besucht PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Page Rank-Algorithmus ● G Page Rank Eine Website hat einen hohen PageRank, wenn ● ● viele andere Seiten auf sie verlinken Seiten mit ihrerseits hohem PageRank auf sie verlinken PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Page Rank ● Bild PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Page Rank in Toolbar ● test PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Semantik und Suchmaschinen Probleme: ● Semantische Mehrdeutigkeiten(Homonyme) ● Syntaktische Mehrdeutigkeiten ● Pragmatik (Absichtserkennung) Semantik für Trefferlisten schema.org - strukturierte Daten - Kategorien Bsp. Autorenkennzeichnung <a rel=«author« href=«/autor/kim-opgenoorth«> Kim Opgenoorth</a> <a rel=«me« href=«http://www.meine-site.de/«></a> <a rel=«me«href=«http://www.twitter.com/ko«></a> <a rel=«me«href=«http://www.facebook.com/ko«></a> PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Related Search ● G PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Geo-Informationen ● IP-Adresse ● Automatische Voreinstellung ● Änderung muss aktiv vorgenommen werden PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Weitere Informationen ● ● Browserprofil (Bildschirmauflösung, Plugins, akzeptierte Sprachen, Datentypen, JavaScript, Flash) Cookies PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Soziale Suche: Google +1 Soziale Suche: Google +1 Inhalte, die von Freunden erstellt /geteilt - Websites, Blogs - Bilder - Google Reader-Abonnements - Profile von Personen aus Twitter und Flickr Kontakte aus - intern: Google Mail, Google Voice, Google Kontaktverwaltung... -extern:Twitter, Flickr, YouTube PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Suchfeldeinschränkung Google-Entwickler Yohann Coppel: "Dann stellt Google eine Vermutung darüber auf, wessen öffentliche Inhalte ihr in euren Suchergebnissen sehen möchtet." (Quelle: http://heise-online.mobi/ct/meldung/Google-bietet-Soziale-Suche-inDeutschland-an-1260326.html) PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Soziale Suche ● G PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Bezug zur KI ● ● Eine System mit gegebenem Input: Wissen und Regeln kann nur gegebenes Wissen mit gegebenen Regeln bearbeiten Für Intelligenz ist eine Erweiterung bzw. Öffnung des Systems nötig → Eine Schnittstelle nach Außen PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Bezug zur KI ● Bezogen auf intelligente Web-Suche sind die Schnittstellen z.B. : ● Daten von userspezifischem Verhalten Browser-Cookies, Auswertung frequentierter Seiten, Freundesumfeld (Soziale Netzwerke) ... PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Bezug zur KI Vorteil ● Nutzerfreundlichkeit ● Filterung aus unüberschaubarer Datenmenge Nachteil ● Einschränkung des Suchraums ● Einschränkung der Ergebnisse PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass Quellen Lewandowski, D. (2005): Web Information Retrieval. Technologien zur Informationssuche im Internet. –Frankfurt: DGI. –(DGI-Schrift Informationswissenschaft; 7) Manning, C. D., Raghavan, P., and Schütze, H. (2008): Introduction to Information Retrieval. Cambridge University Press. www.informationretrieval.org www.ims.uni-stuttgart.de/lehre/teaching/2007-SS/ir/