Information Retrieval

Werbung
Information Retrieval
• Bisher:
– Datenbankabfrage mit Hilfe von SQL in
relationalen Datenbanken.
– Die Informationen liegen geordnet in Tabellen ->
exakte Ergebnisse
• Neu:
– Die Informationen liegen in Datensammlungen
– Unscharfe Ergebnisse geordnet nach Relevanz
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 1
1
Beispiel
Dokumente enthalten folgende Stichworte:
d1 {Sardinien, Strand, Camping}
d2 {Sardinien, Strand, Ferienwohnung, Italien}
d3 {Korsika, Strand, Ferienwohnung}
d4 {Korsika, Gebirge}
d5 {Strand, Camping}
Die Menge aller Terme lautet:
{Sardinien, Strand, Camping, Ferienwohnung, Italien,
Korsika, Gebirge}
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 2
Stichwort: wichtige, sinntragende Wörter innerhalb eines Textes
Schlagwort: vorgegebene Begriffe zur Beschreibung eines Objektes, in der
Regel aus einem kontrollierten Vokabular
2
Tabellen und SQL
Dokument
Insel
Landschaft
Unterkunft
d1
Sardinien
Strand
Camping
d2
Sardinien
Strand
FeWo
d3
Korsika
Strand
FeWo
d4
Korsika
Gebirge
D5
Strand
Land
Italien
Camping
select dokument where Insel = 'Korsika'
select dokument where Land = 'Italien'
select dokument where Insel = 'Korsika'
and Land = 'Italien'
select dokument where Insel = 'Korsika'
or Land = 'Italien'
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 3
3
Daten Retrieval <->
Information Retrieval
Daten Retrieval Information Retrieval
Ergebnisse
exakt
unscharf
Anfrage
einmalig
iterativ
Fehlertoleranz keine
Ergebnisse
Worzyk
FH Anhalt
Menge
Dokumente bis zu
einer definierten
Abweichung
geordnete Liste
Medienarchive Winter 2010
Information Retrieval 4
Ergebnisse: DR liefert eine exakte Menge, die mit den Suchargumenten
übereinstimmt. IR liefert auch Ergebnisse, die nicht vollständig mit den
Suchargumenten übereinstimmen
Anfrage: Beim DR sind die Suchargumente vollständig bekannt. Beim IR werden
die Suchargumente iterativ verändert, bis eine zufrieden stellende Antwort
vorliegt.
Fehlertoleranz: DR liefert genau die Ergebnisse, die zu den Suchargumenten
passen. IR liefert auch Ergebnisse innerhalb einer definierten Abweichung.
Ergebnisse: DR liefert eine Menge von gleichwertigen Ergebnissen. IR liefert
eine Liste, die nach der Distanz vom Ideal geordnet ist.
-> Für das IR ist eine Definition eines Distanzfunktion notwendig.
4
Distanzfunktion (Metrik)
Metrik: Abbildung Rn -> R
mit:
∀ p1, p2 ∈ Rn: d(p1, p2) = 0 ⇔ p1 = p2
∀ p1, p2 ∈ Rn: d(p1, p2) = d(p2, p1)
∀ p1, p2 , p3 ∈ Rn: d(p1,p2)+d(p2, p3) ≥ d(p1, p3)
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 5
5
IR - Prozess
Anfrage
Dokument
Verarbeitung
Verarbeitung
Anfragedarstellung
Int. Dokumentendarstellung
Vergleich
Ergebnisdokumente
Worzyk
FH Anhalt
Relevanzbewertung
Feedback
Medienarchive Winter 2010
Information Retrieval 6
Dokumentenverarbeitung: Aufbau der Indizes
Anfrageverarbeitung: stemming
6
Distanzfunktion
Fuzzy - Modell
Definition:
Eine Fuzzy-Menge A = {u; μA(u)} über einer
Menge U ist definiert durch eine
Zugehörigkeitsfunktion
μA : U → [0,1]
welche jedem u aus der Menge U einen
Wert μA aus dem Intervall [0,1] zuordnet.
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 7
7
Fuzzy – Modell
Erweiterung der Boolschen Operationen
μA∩B (u) = min (μA (u) , μB (u) )
μA∪B (u) = max (μA (u) , μB (u) )
μA (u) = 1 - μA (u)
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 8
8
Zugehörigkeitswerte
1. Berechnung der Term-zu-Term
Korrelationswerte
ni,j
ci,j = -------------------ni + nj – ni,j
2. Berechnung der Zugehörigkeitswerte
μti (dj) = 1 – Π (1 – ci,k)
tk∈dj
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 9
C i,j = Korrelation zwischen den Begriffen i und j
n i,j = Anzahl der Dokumente, in denen beide Begriffe vorhanden sind.
n i = Anzahl der Dokumente, in denen der Begriff i vorkommt.
Zugehörigkeitswerte: Wie stark gehört das Dokument dj zu dem Term ti?
Doppelte Verneinung (1- ..(1-)) Welche Dokumente haben nicht nichts mit dem
Term zu tun?
C i,k = Korrelationswerte zwischen dem Term t i und allen Termen in dem
untersuchten Dokument.
9
Term-zu-Term
Korrelationswerte
Sardinien Strand
Camp
FeWo
Italien
Korsika
Gebirge
Sardinien
1
½
1/3
1/3
½
0
0
Strand
½
1
½
½
¼
1/5
0
Camp
½
1/3
1
0
0
0
0
FeWo
1/3
½
0
1
½
1/3
0
Italien
½
¼
0
½
1
0
0
Korsika
0
1/5
0
1/3
0
1
1/2
Gebirge
0
0
0
0
0
1/2
1
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 10
10
Zugehörigkeitswerte
d1
d2
d3
d4
d5
Sardinien
1
1
2/3
0
2/3
Strand
1
1
1
1/5
1
Camping
1
2/3
½
0
1
FeWo
7/9
1
1
1/3
2/3
Italien
5/8
1
5/8
0
1/4
Korsika
1/5
7/15
1
1
1/5
Gebirge
0
0
½
1
0
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 11
11
Abfragen mit Fuzzy - Logik
d1
d2
d3
d4
d5
q1 Korsika
μKorsika(di)
1/5
4
7/15
3
1
1
1
2
1/5
5
q2 Italien
μItalien(di)
5/8
2
1
1
5/8
3
0
5
¼
4
q3 Korsika ∧
Italien
q4 Korsika ∨
Italien
min(μKorsika (di),
μItalien (di) )
max(μKorsika (di),
μItalien (di) )
1/5
3
7/15
2
5/8
1
0
5
1/5
4
5/8
1
1
1
1/4
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 12
12
Vektorraum
Ein reeller Vektorraum ist ein Tripel (V, + , ·), bestehend aus einer
Menge V, einer Abbildung + (Addition) mit
+ : V x V → V , (x,y) → x + y
und einer Abbildung · (skalare Multiplikation) mit
· : R x V → V , (λ,x) → λx
für die folgende Axiome gelten:
1.
(x + y) + z = x + (y + z) für alle x, y, z ∈ V
2.
x + y = y + x für alle x, y ∈ V
3.
Es gibt einen Nullvektor 0 ∈ V mit 0 + x = x für alle x ∈ V
4.
Zu jedem x ∈ V gibt es ein -x ∈ V mit x + (-x) = 0
5.
λ(μx) = (λμ)x für λ, μ ∈ R und x ∈ V
6.
Es gibt ein Einselement 1 ∈ R mit 1x = x für alle x ∈ V
7.
λ(x + y) = λx + λy für alle λ, μ ∈ R und für alle x, y ∈ V
8.
(λ + μ )x = λx + μx für alle λ, μ ∈ R und für alle x ∈ V
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 13
13
Skalarprodukt
V sein Vektorraum über R. Unter einem Skalarprodukt
⟨x,y⟩ auf V versteht man die Abbildung
V x V → R, (x,y) → ⟨x,y⟩
für die gilt:
1. ⟨x,x⟩ ≥ 0 ⟨x,x⟩ = 0 ⇔ x = 0
Positiv Definit
2. ⟨x,y⟩ = ⟨x,y⟩
Symmetrie
3. ⟨x+y,z⟩ = ⟨x,z⟩ + ⟨y,z⟩
Bilinearität
⟨λx,y⟩ = λ⟨x,y⟩
Ein mögliches Skalarprodukt für den Rn ist:
n
⟨x,y⟩ = ∑ xi · yi
i=1
Worzyk
FH Anhalt
Ist in einem Vektorraum ein
Skalarprodukt definiert, spricht man
von einem Euklidischen Vektorraum
Medienarchive Winter 2010
Information Retrieval 14
14
Norm
In einem euklidischen Vektorraum wird
|x| = √ ⟨x,x⟩
die Norm oder der Betrag von x genannt.
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 15
15
Vektorraum – Modell
für das Information Retrieval
Die Dokumente werden entsprechend
ihrer Zugehörigkeitswerte in einen
Vektorraum der Terme abgebildet.
Die Anfragen werden ebenso in den
Vektorraum der Terme abgebildet.
Die Dokumente werden entsprechend
ihrem Abstand zur Anfrage ausgewählt
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 16
16
Beispiel
Italien
1
d2
q2
q3
d1
d3
d5
q1
Worzyk
FH Anhalt
d4
1
Korsika
Medienarchive Winter 2010
Information Retrieval 17
17
Kosinusmaß
Der Abstand zwischen einer Anfrage und
einem Dokument wird durch den
Kosinus des eingeschlossenen Winkels
der zugehörigen Vektoren bestimmt
⟨q,d⟩
simcos (q,d) =
|q| · |d|
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 18
18
Kosinusmaß
Italien
1
d2
q2
q3
d1
d3
d5
q1
Worzyk
FH Anhalt
d4
1
Korsika
Medienarchive Winter 2010
Information Retrieval 19
19
Kosinusmaß
simcos (q,d)
d1
d2
d3
d4
d5
q1
Korsika
0,3048
5
0.4224
3
0,8480
2
1
1
0.3714
4
q2
Italien
0,9524
1
0,9064
2
0,5300
4
0
5
0.7809
3
q3
Korsika ∧
Italien
0,8890
4
0,9396
3
0,9744
2
0,7071
5
0.9939
1
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 20
20
Euklidische Distanz
Der Abstand zwischen einer Anfrage und einem
Dokument wird durch den Abstand der
beiden zugehörenden Punkte bestimmt. Je
größer der Abstand ist, desto unähnlicher ist
das Dokument der Anfrage.
dissimL2(q,d) = √ ∑ (qi – di)2
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 21
21
Italien
Euklidische Distanz
1
d2
q2
q3
d1
d3
d5
q1
Worzyk
FH Anhalt
d4
1
Korsika
Medienarchive Winter 2010
Information Retrieval 22
22
Euklidische Distanz
dissimL2(q,d))
d1
d2
d3
d4
d5
q1
Korsika
1,0151
4
1,1336
5
0,6250
2
0
1
0,9434
3
q2
Italien
0,4250
1
0,4660
2
1,0680
4
1,4142
5
0,7762
3
q3
Korsika ∧
Italien
0,8835
3
0,5340
2
0,3750
1
1
4
1.0966
5
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 23
23
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 24
24
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 25
25
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 26
26
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 27
27
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 28
28
Bewertung von
Retrieval-Systemen
Bewertungsebenen:
1. nicht formulierbarer
Informationsbedarf
2. Natürlichsprachlich formulierter
Informationsbedarf
3. Exakt formulierter Informationsbedarf
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 29
29
Nicht formulierbarer
Informationsbedarf
Beispiel:
Zu einer Videosequenz wird eine passende
Musik gesucht.
Die „passende“ Musik kann nicht beschrieben
werden
Die vorhandenen Musiktitel können nicht
entsprechend klassifiziert werden
Diese Bewertungsebene wird im Folgenden
nicht betrachtet.
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 30
30
Natürlichsprachlich
formulierter
Informationsbedarf
Beispiel:
Zeig mir alle Bilder mit Surfern im
Sonnenuntergang
Es wird bewertet, wie gut ein Benutzer
einen Informationsbedarf formulieren
kann und wie gut das
Informationsbedürfnis in eine Anfrage
umgesetzt werden kann
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 31
31
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 32
Abfrage bei Google – Bilder nach den Stichworten Surfer und Sonnenuntergang
Das mittlere Bild in der obersten Zeile zeigt einen Punkt, der nur durch die
Beschreibung als Surfer identifiziert werden kann.
32
Exakt formulierter
Informationsbedarf
Beispiel:
Alle Texte, die Korsika und Italien
enthalten
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 33
33
Bewertungsmaßstäbe
Precision: Die Menge der tatsächlich relevanten
Dokumente in der Menge der vom System als
relevant eingestuften Dokumente
Relevant
System
Worzyk
FH Anhalt
Relevant
System
Relevant
System
Medienarchive Winter 2010
Information Retrieval 34
34
Bewertungsmaßstäbe
Recall: Die Menge der von System gelieferten
relevanten Dokumente aus der Menge der
tatsächlich vorhandenen relevanten Dokumente
Relevant
System
Worzyk
FH Anhalt
Relevant
System
Relevant
System
Medienarchive Winter 2010
Information Retrieval 35
35
Bewertungsmaßstäbe
Fallout: Die Menge der vom System gelieferten
irrelevanten Dokumente aus der Menge aller
irrelevanten Dokumente
Relevant
System
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 36
36
Beispiel
Dokumentenmenge
20
Relevant = 8
Irrelevant = 12
Vom System als relevant
berechnet
10
Davon vom Menschen
akzeptiert
2
Vom System als nicht
relevant berechnet
10
Davon vom Menschen
akzeptiert
4
Relevant
8 2
System
10
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 37
37
Bewertung
Precision
2 / 10 = 0,2
Recall
2 / (2 + 6) =
0,25
Fallout
(10 – 2) / 12 =
0,66
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 38
Extremsituationen:
Es werden alle Dokumente vom System als relevant gemeldet:
rp = 8, fp = 12, fn 0, rn = 0
Precision = 8 / 20 = 0,4
Recall = 8 / 8 = 1
Es wird nur ein relevantes Dokument zurückgegeben:
rp = 1, fp = 0, fn 7, rn = 12
Precision = 1 / 1 = 1,0
Recall = 1 / (1 + 7) = 0,125
38
Eigene Messung der Precision
Diplomarbeit von Frau Ilham Achkar
Suchbegriff: Java
Bewertung der ersten 100 Treffer von Yahoo
durch 34 Testpersonen
Aufgabe: Wie relevant ist der Link für ein
Referat zum Einführung in die
Programmiersprache Java
Bewertung zwischen
5 = sehr relevant und
1= überhaupt nicht relevant
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 39
39
Mittelwerte über alle
Bewertungen eines Links
Mittelwert
4,50
4,00
3,50
3,00
2,50
Mittelwert
2,00
1,50
1,00
0,50
0,00
1
6
Worzyk
FH Anhalt
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
Medienarchive Winter 2010
Information Retrieval 40
40
Mittelwerte über alle
Bewertungen eines Links
Standardabwe ichung
6,00
5,00
4,00
3,00
2,00
1,00
0,00
1
4
7
Worzyk
FH Anhalt
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
Medienarchive Winter 2010
Information Retrieval 41
41
Individuelle Bewertungen
Etre me Einschätzunge n zwe ie r Te stpe rsone n
6
5
4
Proband C
3
Proband R
2
1
0
1
4
7
10
Worzyk
FH Anhalt
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
Medienarchive Winter 2010
Information Retrieval 42
42
Verwaltung und Suche von
Multimedia - Daten
Anfrage
Ergebnis
Anfrageaufbereitung
Ergebnisaufbereitung
Feature Extraktion
Optimierung
Formatumwandlung
Transformation Rekonstruktion
Feature Werte
Anfrageplan
Ergebnisdaten
Ähnlichkeitsberechnung
Anfragebearbeitung
Feature Index
Rohdaten
Feature Werte
Relationale DB
Metadaten
Strukturdaten
…
Feature Extraktion
Feature Erkennung
Feature Aufbereitung
Vorverarbeitung
MM Objekte
Relationale Daten
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 43
Vorverarbeiten: z.B. Bilder skalieren oder drehen oder entzerren, segmentieren
in abgebildete Personen, einzelne Filmsequenzen
Relationale Daten: beschreibende Elemente, technische Daten (Bildgröße,
Speicherformat, Abspielzeit, ExiF…)
Featurewerte: Texturen, Farbverteilung, Bewegungsvektoren
Feature Index: Grundlage für die Suche nach gleichen oder ähnlichen Einträgen,
mehrdimensionale features (Farbverteilung)
Anfrageaufbereitung: Aufteilung in SQL-Abfragen mit exakten Treffen und
Informationretrieval mit ähnlichen Ergebnissen, Ermittlung der Feature Werte
des Vergleichsobjekts
Ergebnisaufbereitung: An das Geräteprofil des Benutzers anpassen, Koordination
unterschiedlicher Objekte
43
Beispiel
Erstellung eines Fotoalbums
• Zeitlich zusammenhängende digitale
Fotos, z.B. Urlaub, Familienfeier
• Automatische Auswahl der besten
Fotos
Boll, S., Sandhaus, P., Scherp, A., Thieme, S.: Multimedia Information Retrieval aus der Persperktive eines Fotoalbums
Datenbankspektrum 18, 2006 (33-39)
http://www.cewe.de/fotobuch/
Worzyk
FH Anhalt
Medienarchive Winter 2010
Information Retrieval 44
44
Extraktion und Anreicherung
von Features
Personen
erkennung
Auswahl des
besten aus
N Fotos
Schärfen
analyse
Belichtungs
analyse
Farb- /
Helligkeits
Histogramme
Kanten
Erkennung
Worzyk
FH Anhalt
Klassifikation
Innen /
Aussen
Kalendarische
Ereignisse
Bild
ähnlichkeiten
Gesichtserkennung
Datum / Zeit
Extraktion
ExiF
Lichtbedingungen
Season
Detection
Aufnahme
Features
ExiF
GPS
Extraktion
ExiF
Medienarchive Winter 2010
Information Retrieval 45
45
Exchangeable Image File Format
ExiF
Datum und Uhrzeit
Orientierung (Hoch- oder Querformat)
Brennweite
Belichtungszeit
Blendeneinstellung
Belichtungsprogramm
ASA-Wert („Lichtempfindlichkeit“)
GPS-Koordinaten (siehe Fotoverortung Geo-Imaging)
Vorschaubild („Thumbnail“)
Worzyk
FH Anhalt
http://de.wikipedia.org/wiki/Exchangeable_Image_File_Format
Medienarchive Winter 2010
Information Retrieval 46
46
Herunterladen