Information Retrieval • Bisher: – Datenbankabfrage mit Hilfe von SQL in relationalen Datenbanken. – Die Informationen liegen geordnet in Tabellen -> exakte Ergebnisse • Neu: – Die Informationen liegen in Datensammlungen – Unscharfe Ergebnisse geordnet nach Relevanz Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 1 1 Beispiel Dokumente enthalten folgende Stichworte: d1 {Sardinien, Strand, Camping} d2 {Sardinien, Strand, Ferienwohnung, Italien} d3 {Korsika, Strand, Ferienwohnung} d4 {Korsika, Gebirge} d5 {Strand, Camping} Die Menge aller Terme lautet: {Sardinien, Strand, Camping, Ferienwohnung, Italien, Korsika, Gebirge} Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 2 Stichwort: wichtige, sinntragende Wörter innerhalb eines Textes Schlagwort: vorgegebene Begriffe zur Beschreibung eines Objektes, in der Regel aus einem kontrollierten Vokabular 2 Tabellen und SQL Dokument Insel Landschaft Unterkunft d1 Sardinien Strand Camping d2 Sardinien Strand FeWo d3 Korsika Strand FeWo d4 Korsika Gebirge D5 Strand Land Italien Camping select dokument where Insel = 'Korsika' select dokument where Land = 'Italien' select dokument where Insel = 'Korsika' and Land = 'Italien' select dokument where Insel = 'Korsika' or Land = 'Italien' Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 3 3 Daten Retrieval <-> Information Retrieval Daten Retrieval Information Retrieval Ergebnisse exakt unscharf Anfrage einmalig iterativ Fehlertoleranz keine Ergebnisse Worzyk FH Anhalt Menge Dokumente bis zu einer definierten Abweichung geordnete Liste Medienarchive Winter 2010 Information Retrieval 4 Ergebnisse: DR liefert eine exakte Menge, die mit den Suchargumenten übereinstimmt. IR liefert auch Ergebnisse, die nicht vollständig mit den Suchargumenten übereinstimmen Anfrage: Beim DR sind die Suchargumente vollständig bekannt. Beim IR werden die Suchargumente iterativ verändert, bis eine zufrieden stellende Antwort vorliegt. Fehlertoleranz: DR liefert genau die Ergebnisse, die zu den Suchargumenten passen. IR liefert auch Ergebnisse innerhalb einer definierten Abweichung. Ergebnisse: DR liefert eine Menge von gleichwertigen Ergebnissen. IR liefert eine Liste, die nach der Distanz vom Ideal geordnet ist. -> Für das IR ist eine Definition eines Distanzfunktion notwendig. 4 Distanzfunktion (Metrik) Metrik: Abbildung Rn -> R mit: ∀ p1, p2 ∈ Rn: d(p1, p2) = 0 ⇔ p1 = p2 ∀ p1, p2 ∈ Rn: d(p1, p2) = d(p2, p1) ∀ p1, p2 , p3 ∈ Rn: d(p1,p2)+d(p2, p3) ≥ d(p1, p3) Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 5 5 IR - Prozess Anfrage Dokument Verarbeitung Verarbeitung Anfragedarstellung Int. Dokumentendarstellung Vergleich Ergebnisdokumente Worzyk FH Anhalt Relevanzbewertung Feedback Medienarchive Winter 2010 Information Retrieval 6 Dokumentenverarbeitung: Aufbau der Indizes Anfrageverarbeitung: stemming 6 Distanzfunktion Fuzzy - Modell Definition: Eine Fuzzy-Menge A = {u; μA(u)} über einer Menge U ist definiert durch eine Zugehörigkeitsfunktion μA : U → [0,1] welche jedem u aus der Menge U einen Wert μA aus dem Intervall [0,1] zuordnet. Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 7 7 Fuzzy – Modell Erweiterung der Boolschen Operationen μA∩B (u) = min (μA (u) , μB (u) ) μA∪B (u) = max (μA (u) , μB (u) ) μA (u) = 1 - μA (u) Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 8 8 Zugehörigkeitswerte 1. Berechnung der Term-zu-Term Korrelationswerte ni,j ci,j = -------------------ni + nj – ni,j 2. Berechnung der Zugehörigkeitswerte μti (dj) = 1 – Π (1 – ci,k) tk∈dj Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 9 C i,j = Korrelation zwischen den Begriffen i und j n i,j = Anzahl der Dokumente, in denen beide Begriffe vorhanden sind. n i = Anzahl der Dokumente, in denen der Begriff i vorkommt. Zugehörigkeitswerte: Wie stark gehört das Dokument dj zu dem Term ti? Doppelte Verneinung (1- ..(1-)) Welche Dokumente haben nicht nichts mit dem Term zu tun? C i,k = Korrelationswerte zwischen dem Term t i und allen Termen in dem untersuchten Dokument. 9 Term-zu-Term Korrelationswerte Sardinien Strand Camp FeWo Italien Korsika Gebirge Sardinien 1 ½ 1/3 1/3 ½ 0 0 Strand ½ 1 ½ ½ ¼ 1/5 0 Camp ½ 1/3 1 0 0 0 0 FeWo 1/3 ½ 0 1 ½ 1/3 0 Italien ½ ¼ 0 ½ 1 0 0 Korsika 0 1/5 0 1/3 0 1 1/2 Gebirge 0 0 0 0 0 1/2 1 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 10 10 Zugehörigkeitswerte d1 d2 d3 d4 d5 Sardinien 1 1 2/3 0 2/3 Strand 1 1 1 1/5 1 Camping 1 2/3 ½ 0 1 FeWo 7/9 1 1 1/3 2/3 Italien 5/8 1 5/8 0 1/4 Korsika 1/5 7/15 1 1 1/5 Gebirge 0 0 ½ 1 0 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 11 11 Abfragen mit Fuzzy - Logik d1 d2 d3 d4 d5 q1 Korsika μKorsika(di) 1/5 4 7/15 3 1 1 1 2 1/5 5 q2 Italien μItalien(di) 5/8 2 1 1 5/8 3 0 5 ¼ 4 q3 Korsika ∧ Italien q4 Korsika ∨ Italien min(μKorsika (di), μItalien (di) ) max(μKorsika (di), μItalien (di) ) 1/5 3 7/15 2 5/8 1 0 5 1/5 4 5/8 1 1 1 1/4 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 12 12 Vektorraum Ein reeller Vektorraum ist ein Tripel (V, + , ·), bestehend aus einer Menge V, einer Abbildung + (Addition) mit + : V x V → V , (x,y) → x + y und einer Abbildung · (skalare Multiplikation) mit · : R x V → V , (λ,x) → λx für die folgende Axiome gelten: 1. (x + y) + z = x + (y + z) für alle x, y, z ∈ V 2. x + y = y + x für alle x, y ∈ V 3. Es gibt einen Nullvektor 0 ∈ V mit 0 + x = x für alle x ∈ V 4. Zu jedem x ∈ V gibt es ein -x ∈ V mit x + (-x) = 0 5. λ(μx) = (λμ)x für λ, μ ∈ R und x ∈ V 6. Es gibt ein Einselement 1 ∈ R mit 1x = x für alle x ∈ V 7. λ(x + y) = λx + λy für alle λ, μ ∈ R und für alle x, y ∈ V 8. (λ + μ )x = λx + μx für alle λ, μ ∈ R und für alle x ∈ V Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 13 13 Skalarprodukt V sein Vektorraum über R. Unter einem Skalarprodukt 〈x,y〉 auf V versteht man die Abbildung V x V → R, (x,y) → 〈x,y〉 für die gilt: 1. 〈x,x〉 ≥ 0 〈x,x〉 = 0 ⇔ x = 0 Positiv Definit 2. 〈x,y〉 = 〈x,y〉 Symmetrie 3. 〈x+y,z〉 = 〈x,z〉 + 〈y,z〉 Bilinearität 〈λx,y〉 = λ〈x,y〉 Ein mögliches Skalarprodukt für den Rn ist: n 〈x,y〉 = ∑ xi · yi i=1 Worzyk FH Anhalt Ist in einem Vektorraum ein Skalarprodukt definiert, spricht man von einem Euklidischen Vektorraum Medienarchive Winter 2010 Information Retrieval 14 14 Norm In einem euklidischen Vektorraum wird |x| = √ 〈x,x〉 die Norm oder der Betrag von x genannt. Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 15 15 Vektorraum – Modell für das Information Retrieval Die Dokumente werden entsprechend ihrer Zugehörigkeitswerte in einen Vektorraum der Terme abgebildet. Die Anfragen werden ebenso in den Vektorraum der Terme abgebildet. Die Dokumente werden entsprechend ihrem Abstand zur Anfrage ausgewählt Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 16 16 Beispiel Italien 1 d2 q2 q3 d1 d3 d5 q1 Worzyk FH Anhalt d4 1 Korsika Medienarchive Winter 2010 Information Retrieval 17 17 Kosinusmaß Der Abstand zwischen einer Anfrage und einem Dokument wird durch den Kosinus des eingeschlossenen Winkels der zugehörigen Vektoren bestimmt 〈q,d〉 simcos (q,d) = |q| · |d| Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 18 18 Kosinusmaß Italien 1 d2 q2 q3 d1 d3 d5 q1 Worzyk FH Anhalt d4 1 Korsika Medienarchive Winter 2010 Information Retrieval 19 19 Kosinusmaß simcos (q,d) d1 d2 d3 d4 d5 q1 Korsika 0,3048 5 0.4224 3 0,8480 2 1 1 0.3714 4 q2 Italien 0,9524 1 0,9064 2 0,5300 4 0 5 0.7809 3 q3 Korsika ∧ Italien 0,8890 4 0,9396 3 0,9744 2 0,7071 5 0.9939 1 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 20 20 Euklidische Distanz Der Abstand zwischen einer Anfrage und einem Dokument wird durch den Abstand der beiden zugehörenden Punkte bestimmt. Je größer der Abstand ist, desto unähnlicher ist das Dokument der Anfrage. dissimL2(q,d) = √ ∑ (qi – di)2 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 21 21 Italien Euklidische Distanz 1 d2 q2 q3 d1 d3 d5 q1 Worzyk FH Anhalt d4 1 Korsika Medienarchive Winter 2010 Information Retrieval 22 22 Euklidische Distanz dissimL2(q,d)) d1 d2 d3 d4 d5 q1 Korsika 1,0151 4 1,1336 5 0,6250 2 0 1 0,9434 3 q2 Italien 0,4250 1 0,4660 2 1,0680 4 1,4142 5 0,7762 3 q3 Korsika ∧ Italien 0,8835 3 0,5340 2 0,3750 1 1 4 1.0966 5 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 23 23 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 24 24 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 25 25 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 26 26 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 27 27 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 28 28 Bewertung von Retrieval-Systemen Bewertungsebenen: 1. nicht formulierbarer Informationsbedarf 2. Natürlichsprachlich formulierter Informationsbedarf 3. Exakt formulierter Informationsbedarf Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 29 29 Nicht formulierbarer Informationsbedarf Beispiel: Zu einer Videosequenz wird eine passende Musik gesucht. Die „passende“ Musik kann nicht beschrieben werden Die vorhandenen Musiktitel können nicht entsprechend klassifiziert werden Diese Bewertungsebene wird im Folgenden nicht betrachtet. Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 30 30 Natürlichsprachlich formulierter Informationsbedarf Beispiel: Zeig mir alle Bilder mit Surfern im Sonnenuntergang Es wird bewertet, wie gut ein Benutzer einen Informationsbedarf formulieren kann und wie gut das Informationsbedürfnis in eine Anfrage umgesetzt werden kann Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 31 31 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 32 Abfrage bei Google – Bilder nach den Stichworten Surfer und Sonnenuntergang Das mittlere Bild in der obersten Zeile zeigt einen Punkt, der nur durch die Beschreibung als Surfer identifiziert werden kann. 32 Exakt formulierter Informationsbedarf Beispiel: Alle Texte, die Korsika und Italien enthalten Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 33 33 Bewertungsmaßstäbe Precision: Die Menge der tatsächlich relevanten Dokumente in der Menge der vom System als relevant eingestuften Dokumente Relevant System Worzyk FH Anhalt Relevant System Relevant System Medienarchive Winter 2010 Information Retrieval 34 34 Bewertungsmaßstäbe Recall: Die Menge der von System gelieferten relevanten Dokumente aus der Menge der tatsächlich vorhandenen relevanten Dokumente Relevant System Worzyk FH Anhalt Relevant System Relevant System Medienarchive Winter 2010 Information Retrieval 35 35 Bewertungsmaßstäbe Fallout: Die Menge der vom System gelieferten irrelevanten Dokumente aus der Menge aller irrelevanten Dokumente Relevant System Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 36 36 Beispiel Dokumentenmenge 20 Relevant = 8 Irrelevant = 12 Vom System als relevant berechnet 10 Davon vom Menschen akzeptiert 2 Vom System als nicht relevant berechnet 10 Davon vom Menschen akzeptiert 4 Relevant 8 2 System 10 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 37 37 Bewertung Precision 2 / 10 = 0,2 Recall 2 / (2 + 6) = 0,25 Fallout (10 – 2) / 12 = 0,66 Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 38 Extremsituationen: Es werden alle Dokumente vom System als relevant gemeldet: rp = 8, fp = 12, fn 0, rn = 0 Precision = 8 / 20 = 0,4 Recall = 8 / 8 = 1 Es wird nur ein relevantes Dokument zurückgegeben: rp = 1, fp = 0, fn 7, rn = 12 Precision = 1 / 1 = 1,0 Recall = 1 / (1 + 7) = 0,125 38 Eigene Messung der Precision Diplomarbeit von Frau Ilham Achkar Suchbegriff: Java Bewertung der ersten 100 Treffer von Yahoo durch 34 Testpersonen Aufgabe: Wie relevant ist der Link für ein Referat zum Einführung in die Programmiersprache Java Bewertung zwischen 5 = sehr relevant und 1= überhaupt nicht relevant Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 39 39 Mittelwerte über alle Bewertungen eines Links Mittelwert 4,50 4,00 3,50 3,00 2,50 Mittelwert 2,00 1,50 1,00 0,50 0,00 1 6 Worzyk FH Anhalt 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 Medienarchive Winter 2010 Information Retrieval 40 40 Mittelwerte über alle Bewertungen eines Links Standardabwe ichung 6,00 5,00 4,00 3,00 2,00 1,00 0,00 1 4 7 Worzyk FH Anhalt 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Medienarchive Winter 2010 Information Retrieval 41 41 Individuelle Bewertungen Etre me Einschätzunge n zwe ie r Te stpe rsone n 6 5 4 Proband C 3 Proband R 2 1 0 1 4 7 10 Worzyk FH Anhalt 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 Medienarchive Winter 2010 Information Retrieval 42 42 Verwaltung und Suche von Multimedia - Daten Anfrage Ergebnis Anfrageaufbereitung Ergebnisaufbereitung Feature Extraktion Optimierung Formatumwandlung Transformation Rekonstruktion Feature Werte Anfrageplan Ergebnisdaten Ähnlichkeitsberechnung Anfragebearbeitung Feature Index Rohdaten Feature Werte Relationale DB Metadaten Strukturdaten … Feature Extraktion Feature Erkennung Feature Aufbereitung Vorverarbeitung MM Objekte Relationale Daten Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 43 Vorverarbeiten: z.B. Bilder skalieren oder drehen oder entzerren, segmentieren in abgebildete Personen, einzelne Filmsequenzen Relationale Daten: beschreibende Elemente, technische Daten (Bildgröße, Speicherformat, Abspielzeit, ExiF…) Featurewerte: Texturen, Farbverteilung, Bewegungsvektoren Feature Index: Grundlage für die Suche nach gleichen oder ähnlichen Einträgen, mehrdimensionale features (Farbverteilung) Anfrageaufbereitung: Aufteilung in SQL-Abfragen mit exakten Treffen und Informationretrieval mit ähnlichen Ergebnissen, Ermittlung der Feature Werte des Vergleichsobjekts Ergebnisaufbereitung: An das Geräteprofil des Benutzers anpassen, Koordination unterschiedlicher Objekte 43 Beispiel Erstellung eines Fotoalbums • Zeitlich zusammenhängende digitale Fotos, z.B. Urlaub, Familienfeier • Automatische Auswahl der besten Fotos Boll, S., Sandhaus, P., Scherp, A., Thieme, S.: Multimedia Information Retrieval aus der Persperktive eines Fotoalbums Datenbankspektrum 18, 2006 (33-39) http://www.cewe.de/fotobuch/ Worzyk FH Anhalt Medienarchive Winter 2010 Information Retrieval 44 44 Extraktion und Anreicherung von Features Personen erkennung Auswahl des besten aus N Fotos Schärfen analyse Belichtungs analyse Farb- / Helligkeits Histogramme Kanten Erkennung Worzyk FH Anhalt Klassifikation Innen / Aussen Kalendarische Ereignisse Bild ähnlichkeiten Gesichtserkennung Datum / Zeit Extraktion ExiF Lichtbedingungen Season Detection Aufnahme Features ExiF GPS Extraktion ExiF Medienarchive Winter 2010 Information Retrieval 45 45 Exchangeable Image File Format ExiF Datum und Uhrzeit Orientierung (Hoch- oder Querformat) Brennweite Belichtungszeit Blendeneinstellung Belichtungsprogramm ASA-Wert („Lichtempfindlichkeit“) GPS-Koordinaten (siehe Fotoverortung Geo-Imaging) Vorschaubild („Thumbnail“) Worzyk FH Anhalt http://de.wikipedia.org/wiki/Exchangeable_Image_File_Format Medienarchive Winter 2010 Information Retrieval 46 46