Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell

Werbung
Entwicklung eines Distanzmaßes
zwischen Bildern über dem Modell
der Fields of Visual Words
André Viergutz
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
1
Inhalt
Einführung.
Einordnung der Arbeit in die zugrunde liegenden Konzepte
Das Modell der Fields of Visual Words
Definition, Illustration und Inferenz
Lernen der Modellparameter
Maximierung der Likelihood, Gradientenaufstieg
Anwendung in der inhaltsbasierten Bildsuche
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
2
Einführung
Maß für die Ähnlichkeit zweier Bilder anhand von den
Bildern innewohnenden Merkmalen
Farbe
Form
Textur
Objekte
Abstand in Form der
Anzahl übereinstimmender
Merkmale
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
3
Einführung
Bag of Words
Eine der populärsten Methoden zur Text- und
Objektkategorisierung
Bag of Words kann als Wörterbuch betrachtet werden – eine
indizierte Menge von Wörtern
Beispiel: Heute ist nicht morgen. Und gestern ist auch nicht heute.
BoW ={heute ,ist , nicht , morgen , und , gestern , auch}
Anordnung der Wörter frei aber fest
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
4
Einführung
Bag of Words
Konkreter Text (oder Bild) dabei als Histogramm der Häufigkeiten
der im BoW enthaltenen Wörter repräsentiert
BoW ={heute ,ist , nicht , morgen , und , gestern , auch}
ex1: Heute ist nicht morgen. Und gestern ist auch nicht heute.
hist ex1 =[2, 2, 2,1, 1,1, 1]
ex2: Heute ist heute.
hist ex2 =[2,1, 0, 0, 0,0, 0]
Histogramme werden als vereinfachte Form des konkreten Textes
genutzt.
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
5
Einführung
Bag of Words
Konzept findet in der Bildkategorisierung als Bag of Features oder
Bag of Visual Words seinen Namen
Visual Words häufig kleine Bildausschnitte, Bereiche um markante
Punkte oder andere Feature Deskriptoren, wie z.B. SIFT
Gesucht wird damit nach aussagekräftigen Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
6
Einführung
Fields of Experts
Stefan Roth, Michael J. Black, 2005
Patchbasierte Beschreibung der Statistiken
natürlicher Bilder
Bild als Menge all seiner m×m Bildausschnitte
Endliche Anzahl an Patches dienen als Parameter
eines Markov Random Fields
Patches können über Trainingsmenge gelernt
werden
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
7
Einführung
Fields of Experts
Stefan Roth, Michael J. Black, 2005
Idee:
Nutzung der Patches als Visual Words
Adaption des vorgeschlagenen Modells bzw. Definition eines
geeigneten Modells hin zu den Fields of Visual Words
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
8
Einführung
Markov Random Fields
'All models are wrong, but some are useful'
GEORGE BOX
Ein Markov Random Field (MRF) ist ein statistisches Graphenmodell
für die Beschreibung einer gemeinsamen Wahrscheinlichkeitsverteilung (auch Verbundwahrscheinlichkeit)
Ein MRF wird dargestellt als ein ungerichteter Graph G= N , E  ,
wobei ein Knoten ni ∈N die Zufallsvariable x i ∈ X repräsentiert
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
9
Einführung
Markov Random Fields
E ={i , j  ∣ x i , x j ∈ X } enthält die Menge
an Kanten, Paare von Knotenindizes, die
als Nachbarn definiert sind
Die Menge der Nachbarn M i eines Knotens ni ist durch alle
ausgehenden Kanten definiert als M i = { j∈N ∣i , j ∈E }
Knotens. (Beispiel hier: M i = { j , k , l , m} )
Die Markovsche Eigenschaft sagt nun: Ein Knoten, unter der
Bedingung, dass seine Nachbarn gegeben sind, ist unabhängig von
den restlichen Knoten
P  xi∣x M  = P  x i∣x N − x i 
i
x S ={xi ∣ i∈S }
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
10
Einführung
Markov Random Fields
Beispiel hier: Wenn alle grauen Knoten festgehalten werden, ist der schwarze Knoten
unabhängig von allen weißen.
Gemeinsame Wahrscheinlichkeit P  X  ist durch markovsche
Eigenschaft vollständig durch die bedingten Wahrscheinlichkeiten
P  xi∣x M  definiert.
i
P( X ) ∝
∏ P ( x i∣x M )
x i∈ X
i
Bedingte Wahrscheinlichkeiten meist intuitiv als parametrisierte
Funktion modelliert
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
11
Einführung
Gibbs Verteilung
p x  =
1 −U  x
e
Z
U  x wird als Energiefunktion bezeichnet
und schreibt sich
Z .. Normierungskonstante
U  x.. Energiefunktion
C .. Clique
φ c ..Cliquepotential
U ( x) = ∑ φc ( x)
c ∈C
c∈C ist eine Clique, eine Menge an Knoten, in der alle Knoten
paarweise Nachbarn sind
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
12
Fields of Visual Words
Definition des Modells
Bild als Grundlage des Modells
Jedem Pixel r eines Bildes Zufallsvariable x r zugeordnet,
die Grauwert repräsentiert
Annahme: Es existiert eine endliche Menge an Patches c i , die zur
Bewertung von Bildausschnitten dient
Einführung einer latenten Variable y r
für die Wahl eines Patches pro Pixel
zur Bewertung
Nachbarschaft durch Patchgröße bestimmt
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
13
Fields of Visual Words
1D-Darstellung einer 3x3 Nachbarschaft
x r=255
⋮
Konfiguration
x r =1
x r =0
x1
y1
x2
y2
x3
y3
x4
y4
...
...
xn
yn
x .. Bild
y .. Expertenfeld
y r =0
y r =1
⋮
Konfiguration
y r= L
L .. Anzahl der Patches
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
14
Fields of Visual Words
Gibbs-Verteilung
Die gemeinsame Wahrscheinlichkeit ist
p( x , y ∣ Θ) =
1
−U (x , y ∣ θ)
e
Z (Θ)
wobei
U ( x , y ∣ Θ)=∑ φ( x r , y r )
Θ.. Gesamtheit aller Patches
r .. Pixelposition
r
Aufgabe: Definition der Energiefunktion φ ( x r , y r )
Hohe Energie entspricht geringer Wahrscheinlichkeit
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
15
Fields of Visual Words
Die Energiefunktion
Zusammenhang zwischen
Grauwerten und Patches durch
Expertenfunktion hergestellt
Die Expertenfunktion φ ( x r ;θi ) ist definiert als
φ ( x r ;θi ) = a i +b i
∑
r ' ∈ M (r )
2
( x r ' − ̄x M −c i , r ' −r ) +
r
d
ln( π )
2
bi
r .. Pixelposition
Patches dabei erweitert zu Experten
x M .. Durchschnitt des Bildausschnittes
r
θi = {a i , bi , c i }
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
16
Fields of Visual Words
Illustration des Modells
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
17
Fields of Visual Words
Entwicklung eines Distanzmaßes
Modell erlaubt schnelle Berechnung der Wahrscheinlichkeitsverteilung der Experten an einem Bildpunkt
Idee:
Zusammenführung der Verteilungen jedes Punktes
ergibt globalen Bilddeskriptor
Histogramm beschreibt die normierte Summe aller
Einzelverteilungen
Korrelogramm beschreibt die Verteilung über das Auftreten
von Paaren von Experten
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
18
Fields of Visual Words
Entwicklung eines Distanzmaßes
Bild
Histogramm
Korrelogramm
Berechnungszeiten über einem 213×213 Pixel großen Bild:
10,3x3
25, 3x3
25, 5x5
Histogramm
0,125s
0,263s
0,424s
Korrelogramm
0,958s
5,258s
5,494s
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
19
Fields of Visual Words
Bestimmung des Abstandes
Ähnlichkeit zweier Bilder über verschiedene histogrammbasierte
Distanzmaße bestimmt
L1-Norm, L2-Norm, Kullback-Leibler-Divergenz, Jeffrey-Divergenz, ...
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
20
Lernen der Modellparameter
Motivation
Kleine Modelle haben nur geringe Ausdrucksstärke
Erhöhung der Anzahl und Größe der Experten und vor allem die
Belegung intuitiv nur schwer motivierbar
Lernen der Modellparameter an einer großen, repräsentativen
Datenbank
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
21
Lernen der Modellparameter
Maximierung der Likelihood-Funktion
Idee: Expertenparameter sollen so bestimmt werden, dass sie die
Wahrscheinlichkeit eines gegebenen Bildes x ∗ maximieren.
Zu einem Bild x ∗ ist kein Expertenfeld y ∗ gegeben. Damit
Marginalisierung der gemeinsamen Verteilung zu
x
∗
p x ∣  = ∑ p x , y i ∣ 
∗
∗
yi
Maximiert wird die Log-Likelihood der Wahrscheinlichkeit, da
einfacher berechenbar:
argmax L ,
L = ln  p∣x ∗ 

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
22
Lernen der Modellparameter
∗
L = ln ( p(θ∣x ))
p( x , y ∣ Θ) =
Maximierung der Likelihood-Funktion
1
−U (x , y ∣ θ)
e
Z (Θ)
Zur Maximierung wird der Gradientenaufstieg genutzt
∂L
neu =  alt ⋅
∂ alt
Dafür wird Ableitung
benötigt
∂L
=
∂
⟨
 .. Lernrate
∂L
der Funktion bezüglich der Parameter
∂
∂U  x , y ∣ 
∂
⟩ ⟨
pmodel
∗
∂U  y ' ∣ x , 
−
∂
⟩
p data
⟨⋅⟩ p .. Erwartungswert unter der Verteilung p
Nicht berechenbar aber über Sampling approximierbar
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
23
Fields of Visual Words
Der Gibbs Sampler
Iterative Methode, um sich über das Samplen aus berechenbaren
bedingten Wahrscheinlichkeitsverteilungen einer nicht
berechenbaren gemeinsamen WV zu nähern.
Das heißt: Um ein Sample aus p x  zu generieren, genügt es,
wiederholt einzelne Variablen aus p x r ∣ x N −r  zu samplen, während
der Rest fest bleibt.
Bedingte Wahrscheinlichkeit durch markovsche Eigenschaft leicht
ermittelbar.
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
24
Lernen der Modellparameter
Ablauf des Gradientenaufstiegs
∂L
=
∂
⟨
∂U  x , y ∣ 
∂
⟩ ⟨
pmodel
∗
∂U  y ' ∣ x ,
−
∂
⟩
p data
x und y aus Parametern 
y ' aus gegebenem Bild x
samplen
Parametern  samplen
∗
und
x
x
∗
Richtungsableitungen berechnen
y
y'
Parameter updaten
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
25
Lernen der Modellparameter
Ablauf des Gradientenaufstiegs
Globales Optimum kann nicht gefunden werden, nur lokales
Abbruch des Lernvorgangs noch manuell festgelegt
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
26
Lernen der Modellparameter
Ergebnisse
Modelle verschiedener Größen auf Brodatz-Datenbank
gelernt
Brodatz
Datenbank enthält 999 Bilder, wobei jeweils 9 Bilder einer
Texturklasse angehören
Jeweils ein Repräsentant aus 12 von 111 Klassen
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
27
Lernen der Modellparameter
Ergebnisse
25 Experten der Größe von 5x5 Pixeln größtes gelerntes Modell
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
28
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen
Zu einem gegebenen Bild soll geordnete Liste der ähnlichsten
Texturen ausgegeben werden
Klassifizierte Datenbank ermöglicht Bestimmung des mittleren
Recalls (mittlerer Anteil an Bildern der gleichen Klasse unter den n
ersten Suchergebnissen)
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
29
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen
Evaluation verschiedener Distanzmaße und Deskriptoren auf
Brodatz-Datenbank
Distanzmaße
Deskriptoren
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
30
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen
Jeffrey-Divergenz, robuste und symmetrische Variante der
Kullback-Leibler-Divergenz, bei allen Versuchen die besten
Ergebnisse
10 (HG)
25 (HG)
325 (KG)
L1-Norm
0,84s
1,28s
10,22s
Jeffrey-Divergenz
1,63s
3,34s
36,43s
Quadratische Form
9,21s
41,37s
-
EMD
11,94s
98,11s
-
Mehr Experten sowie auch größere Nachbarschaften vorteilhaft
aber zeitintensiver
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
31
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten
Vergleich mit 3 verschiedenen lokal invarianten Textur-Deskriptoren
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
32
Anwendung in der inhaltsbasierten Bildsuche
Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten
Brodatz-Datenbank
Brodatz
Sehr gute Ergebnisse - viele unterschiedliche Texturklassen aber
geringe Varianz innerhalb einer Klasse
UIUC-Datenbank
UIUC
Stark transformierte als auch deformierte Texturen innerhalb einer
Klasse
FoW-Deskriptoren sind nicht affin invariant
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
33
Zusammenfassung
Fields of Visual Words erlauben effektive Erzeugung von
globalen Bilddeskriptoren
Lernen der Modellparameter hat sich als vorteilhaft aber
schwer handhabbar erwiesen
Das generische Modell erzielte ansprechende Ergebnisse in der
inhaltsbasierten Bildsuche
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
ende.
34
Anhang
Herleitung der Ableitung der Log-Likelihood-Funktion
∗
L = ln  p∣x  = ln 
L = ln ∑ e
−U  y ' ∣ x ∗ , 
1
−U  y ' ∣ x
e
∑
Z  y '
∗
, 

−ln  Z 
y'
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
35
Anhang
Herleitung der Ableitung der Log-Likelihood-Funktion
∂L
1
−U  x ' , y ' ∣ ∂U  x ' , y ' ∣ 
=
e
⋅
∑
∂
Z  x ' , y '
∂
⟨
∗
p x , y ' 
−
−U  x ∗
∑e
Energieableitung
= E [ p data ]
∂U  x ∗ , y ' ∣ 
⋅
∂
−U  x ∗ , y ' ∣ 
e
, y ' ∣  ∑
y'
y'
=
⟨
⟩
= E [ p model ]
p x ' , y ' 
1
∂ U  x ' , y ' ∣ 
∂
∂ U  x ' , y ' ∣ 
∂
⟩ ⟨
p model
∗
∂ U  x , y ' ∣ 
−
∂
⟩
⟨
∗
∂U  x , y ' ∣ 
∂
⟩
p data
Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words
36
Herunterladen