Web-Retrieval

Werbung
Web-Retrieval
PS: Künstliche Intelligenz PROLOG II
SS 11 - Leitung: Claes Neuefeind
Katja Diederichs, Christian Fass, Kim Opgenoorth
Web-Retrieval
●
Was ist für die erfolgreiche Suche im
World Wide Web grundsätzlich nötig?
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Web-Retrieval
●
Was ist für die erfolgreiche Suche im
World Wide Web grundsätzlich nötig?
●
Die richtigen Such-Techniken!
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Web-Retrieval
●
Was ist für die erfolgreiche Suche im
World Wide Web grundsätzlich nötig?
●
Die richtigen Such-Techniken!
●
Klassisches Information Retrieval
ist auch der Grundstein für die Suche im Web
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Information Retrieval
●
Weinberg-Report (Weinberg, A.M. 1963)
Warnung vor „Informationsexplosion“:
Aus Informationsüberfluss kann
Informationsmangel entstehen
→ Lösung:
Informationswissenschaft
(u.a. Information Retrieval)
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Information Retrieval
●
Definition
„IR is finding material (usually documents)
of an unstructured nature (usually text)
that satisfies an information need from
within large collections (usually stored on
computers).“
[Manning et al., 2008, S. 1]
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Information Retrieval
●
Für jede Suche ist die Relevanz der
Ergebnisse entscheidend...
Information Retrieval
●
Maße der Relevanz des Gefundenen
-Precision (Genauigkeit)
Menge der Suchergebnisse, die relevant für die
Anfrage ist
-Recall (Vollständigkeit)
Totale Menge an zurückgegebenen
Suchergebnissen
●
Beide Faktoren zusammen betrachten
IR-Modelle
●
3 Grundlegende IR-Modelle
●
Boolsches Modell
●
Vektorraum-Modell
●
Probabilistisches Modell
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle - Boolsches Modell
●
Boolsches Modell
●
Exakte Anfragen
Operatoren: Und / Nicht / Oder
●
Exaktes Matching:
Vorkommen/Nicht-Vorkommen des Suchterms
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle - Boolsches Modell
●
Boolsches Modell
Vorteil
●
Exaktes Matching
Nachteil
●
●
Irrelevanter Kontext wird gefunden, weil Wort
vorkommt
Relevantes wird nicht gefunden, weil Wort nicht
vorkommt
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle - Vektorraummodell
●
●
●
Vektorraummodell
Dokumente und Suchanfragen sind Vektoren in
einem n-dimensionalen Raum
Hier nicht exakte Übereinstimmung
sondern Ähnlichkeit
zwischen Anfrage und Dokument
bzw. Dokumenten untereinander
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle - Vektorraummodell
●
Vektorraummodell
Vorteil
●
Annahme der Ähnlichkeit bietet
Rankingmöglichkeit bei enorm großen
Treffermengen
Nachteil
●
Das Modell sieht Suchbegriffe als völlig
unabhängig voneinander an
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle - Probabilistisches
●
●
●
●
●
Probabilistisches Modell
Ermittlung der Wahrscheinlichkeit für Relevanz
des Dokuments
Ähnlichkeitswert abhängig von der Häufigkeit
der Suchbegriffe im Dokument
Je ähnlicher Anfrage u Dokument desto höher
Wahrscheinlichkeit für Dokument-Relevanz
In der Praxis hat sich Modell nicht bewährt
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Modelle
●
In der Praxis
nutzen Suchmaschinen Verfahren
wie z. B.
●
Eine Boolsche Anfrage und die Datenstruktur
des Invertierten Indexes
→ Als Modell in der Web-Suche
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Datenstrukturen
●
Der Invertierte Index
ist ein Wort-orientierter Mechanismus um Texte
zu indexieren und das Suchen innerhalb einer
Textsammlung zu beschleunigen
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Datenstrukturen
●
Der Invertierte Index
ist ein Wort-orientierter Mechanismus um Texte
zu indexieren und das Suchen innerhalb einer
Textsammlung zu beschleunigen
●
„Invertiert“ weil
nicht die Dokumente auf Worte zeigen,
sondern Worte auf Dokumente zeigen,
die sie beinhalten
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Datenstrukturen
●
Der Invertierte Index
(Abb.: Manning 2008)
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
IR-Datenstrukturen
Anwendungsbeispiel
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Klassisches IR versus Web-Suche
●
Klassisches IR
●
Man braucht für die Suche Expertenwissen
●
ein Korpus mit zusammenhängenden Daten
●
eine Aufarbeitung der Daten
→ Bestimmte Algorithmen u. Datenstrukturen zur
Optimierung der Suche
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Klassisches IR versus Web-Suche
●
Diese Art der Suche ist jedoch nicht analog
in Web-Suche übertragbar!
→ berücksichtigt nicht:
●
●
Den Nutzer (kein Experte im Suchen)
Die Struktur des Webs
(ungeordnet, uneinheitlich)
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Deep Web
Deep Web
●
Begriff “Deep Web”
●
Dynamisch generierte Seiten
●
Nichtverlinkte, “uncrawlbare” Seiten
●
●
●
Seiten ausserhalb des http-Protokolls (z.B. Ftp,
Usenet...)
Seiten mit gesichertem Zugang (Captcha,
Passwort usw.)
Enthält (nach möglicherweise veralteten
Schätzungen) 544x mehr Daten als das
Surface Web
Klassisches IR versus Web-Suche
Spezifischer Suchkontext
vorhanden
Kein Suchkontext
vorhanden
Für Suche relevanter
Dokumente in großen
Ergebnismengen
Für Suche relevanter
Dokumente in großen
Ergebnismengen
Ranking nötig:
Ranking nötig:
Anfragebasiert
Anfragebasiert allein
unzureichend
Weitere Rankingmethoden
nötig!
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Linktopologie
Die Linktopologie als wichtigster
anfrageunabhängiger Rankingfaktor
●
Grundthese:
Die Linkstruktur in einer Hypertext-umgebung
sagt etwas über die Relevanz eines Dokuments
aus
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Page Rank
- Algorithmus von Larry Page und Sergei Brin an
Stanfort University entwickelt
- jede Seite hat ein Gewicht, welches um so höher
ist, je mehr Seiten (mit möglichst hohem
Eigengewicht) darauf verweisen
- Die Wahrscheinlichkeit, dass der Zufallssurfer
eine Webseite besucht
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Page Rank-Algorithmus
●
G
Page Rank
Eine Website hat einen hohen PageRank, wenn
●
●
viele andere Seiten auf sie verlinken
Seiten mit ihrerseits hohem PageRank auf sie
verlinken
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Page Rank
●
Bild
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Page Rank in Toolbar
●
test
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Semantik und Suchmaschinen
Probleme:
●
Semantische Mehrdeutigkeiten(Homonyme)
●
Syntaktische Mehrdeutigkeiten
●
Pragmatik (Absichtserkennung)
Semantik für Trefferlisten
schema.org
- strukturierte Daten
- Kategorien
Bsp. Autorenkennzeichnung
<a rel=«author« href=«/autor/kim-opgenoorth«>
Kim Opgenoorth</a>
<a rel=«me« href=«http://www.meine-site.de/«></a>
<a rel=«me«href=«http://www.twitter.com/ko«></a>
<a rel=«me«href=«http://www.facebook.com/ko«></a>
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Related Search
●
G
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Geo-Informationen
●
IP-Adresse
●
Automatische Voreinstellung
●
Änderung muss aktiv
vorgenommen werden
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Weitere Informationen
●
●
Browserprofil
(Bildschirmauflösung,
Plugins, akzeptierte
Sprachen, Datentypen, JavaScript,
Flash)
Cookies
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Soziale Suche: Google +1
Soziale Suche: Google +1
Inhalte, die von Freunden erstellt /geteilt
- Websites, Blogs
- Bilder
- Google Reader-Abonnements
- Profile von Personen aus Twitter und Flickr
Kontakte aus
- intern: Google Mail, Google Voice,
Google Kontaktverwaltung...
-extern:Twitter, Flickr, YouTube
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Suchfeldeinschränkung
Google-Entwickler Yohann Coppel:
"Dann stellt Google eine Vermutung
darüber auf,
wessen öffentliche Inhalte ihr
in euren Suchergebnissen sehen möchtet."
(Quelle:
http://heise-online.mobi/ct/meldung/Google-bietet-Soziale-Suche-inDeutschland-an-1260326.html)
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Soziale Suche
●
G
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Bezug zur KI
●
●
Eine System mit gegebenem Input: Wissen und
Regeln kann nur gegebenes Wissen mit
gegebenen Regeln bearbeiten
Für Intelligenz ist eine Erweiterung bzw.
Öffnung des Systems nötig
→ Eine Schnittstelle nach Außen
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Bezug zur KI
●
Bezogen auf intelligente Web-Suche sind
die Schnittstellen z.B. :
●
Daten von userspezifischem Verhalten
Browser-Cookies, Auswertung frequentierter
Seiten, Freundesumfeld (Soziale Netzwerke)
...
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Bezug zur KI
Vorteil
●
Nutzerfreundlichkeit
●
Filterung aus unüberschaubarer Datenmenge
Nachteil
●
Einschränkung des Suchraums
●
Einschränkung der Ergebnisse
PS: Künstliche Intelligenz PROLOG II - SS 11 - Leitung: Claes Neuefeind
ReferentInnen: Katja Diederichs, Kim Opgenoorth, Christian Fass
Quellen
Lewandowski, D. (2005): Web Information
Retrieval. Technologien zur Informationssuche
im Internet. –Frankfurt: DGI. –(DGI-Schrift
Informationswissenschaft; 7)
Manning, C. D., Raghavan, P., and Schütze, H.
(2008): Introduction to Information Retrieval.
Cambridge University Press.
www.informationretrieval.org
www.ims.uni-stuttgart.de/lehre/teaching/2007-SS/ir/
Herunterladen