Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields of Visual Words Definition, Illustration und Inferenz Lernen der Modellparameter Maximierung der Likelihood, Gradientenaufstieg Anwendung in der inhaltsbasierten Bildsuche Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 2 Einführung Maß für die Ähnlichkeit zweier Bilder anhand von den Bildern innewohnenden Merkmalen Farbe Form Textur Objekte Abstand in Form der Anzahl übereinstimmender Merkmale Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 3 Einführung Bag of Words Eine der populärsten Methoden zur Text- und Objektkategorisierung Bag of Words kann als Wörterbuch betrachtet werden – eine indizierte Menge von Wörtern Beispiel: Heute ist nicht morgen. Und gestern ist auch nicht heute. BoW ={heute ,ist , nicht , morgen , und , gestern , auch} Anordnung der Wörter frei aber fest Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 4 Einführung Bag of Words Konkreter Text (oder Bild) dabei als Histogramm der Häufigkeiten der im BoW enthaltenen Wörter repräsentiert BoW ={heute ,ist , nicht , morgen , und , gestern , auch} ex1: Heute ist nicht morgen. Und gestern ist auch nicht heute. hist ex1 =[2, 2, 2,1, 1,1, 1] ex2: Heute ist heute. hist ex2 =[2,1, 0, 0, 0,0, 0] Histogramme werden als vereinfachte Form des konkreten Textes genutzt. Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 5 Einführung Bag of Words Konzept findet in der Bildkategorisierung als Bag of Features oder Bag of Visual Words seinen Namen Visual Words häufig kleine Bildausschnitte, Bereiche um markante Punkte oder andere Feature Deskriptoren, wie z.B. SIFT Gesucht wird damit nach aussagekräftigen Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 6 Einführung Fields of Experts Stefan Roth, Michael J. Black, 2005 Patchbasierte Beschreibung der Statistiken natürlicher Bilder Bild als Menge all seiner m×m Bildausschnitte Endliche Anzahl an Patches dienen als Parameter eines Markov Random Fields Patches können über Trainingsmenge gelernt werden Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 7 Einführung Fields of Experts Stefan Roth, Michael J. Black, 2005 Idee: Nutzung der Patches als Visual Words Adaption des vorgeschlagenen Modells bzw. Definition eines geeigneten Modells hin zu den Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 8 Einführung Markov Random Fields 'All models are wrong, but some are useful' GEORGE BOX Ein Markov Random Field (MRF) ist ein statistisches Graphenmodell für die Beschreibung einer gemeinsamen Wahrscheinlichkeitsverteilung (auch Verbundwahrscheinlichkeit) Ein MRF wird dargestellt als ein ungerichteter Graph G= N , E , wobei ein Knoten ni ∈N die Zufallsvariable x i ∈ X repräsentiert Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 9 Einführung Markov Random Fields E ={i , j ∣ x i , x j ∈ X } enthält die Menge an Kanten, Paare von Knotenindizes, die als Nachbarn definiert sind Die Menge der Nachbarn M i eines Knotens ni ist durch alle ausgehenden Kanten definiert als M i = { j∈N ∣i , j ∈E } Knotens. (Beispiel hier: M i = { j , k , l , m} ) Die Markovsche Eigenschaft sagt nun: Ein Knoten, unter der Bedingung, dass seine Nachbarn gegeben sind, ist unabhängig von den restlichen Knoten P xi∣x M = P x i∣x N − x i i x S ={xi ∣ i∈S } Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 10 Einführung Markov Random Fields Beispiel hier: Wenn alle grauen Knoten festgehalten werden, ist der schwarze Knoten unabhängig von allen weißen. Gemeinsame Wahrscheinlichkeit P X ist durch markovsche Eigenschaft vollständig durch die bedingten Wahrscheinlichkeiten P xi∣x M definiert. i P( X ) ∝ ∏ P ( x i∣x M ) x i∈ X i Bedingte Wahrscheinlichkeiten meist intuitiv als parametrisierte Funktion modelliert Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 11 Einführung Gibbs Verteilung p x = 1 −U x e Z U x wird als Energiefunktion bezeichnet und schreibt sich Z .. Normierungskonstante U x.. Energiefunktion C .. Clique φ c ..Cliquepotential U ( x) = ∑ φc ( x) c ∈C c∈C ist eine Clique, eine Menge an Knoten, in der alle Knoten paarweise Nachbarn sind Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 12 Fields of Visual Words Definition des Modells Bild als Grundlage des Modells Jedem Pixel r eines Bildes Zufallsvariable x r zugeordnet, die Grauwert repräsentiert Annahme: Es existiert eine endliche Menge an Patches c i , die zur Bewertung von Bildausschnitten dient Einführung einer latenten Variable y r für die Wahl eines Patches pro Pixel zur Bewertung Nachbarschaft durch Patchgröße bestimmt Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 13 Fields of Visual Words 1D-Darstellung einer 3x3 Nachbarschaft x r=255 ⋮ Konfiguration x r =1 x r =0 x1 y1 x2 y2 x3 y3 x4 y4 ... ... xn yn x .. Bild y .. Expertenfeld y r =0 y r =1 ⋮ Konfiguration y r= L L .. Anzahl der Patches Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 14 Fields of Visual Words Gibbs-Verteilung Die gemeinsame Wahrscheinlichkeit ist p( x , y ∣ Θ) = 1 −U (x , y ∣ θ) e Z (Θ) wobei U ( x , y ∣ Θ)=∑ φ( x r , y r ) Θ.. Gesamtheit aller Patches r .. Pixelposition r Aufgabe: Definition der Energiefunktion φ ( x r , y r ) Hohe Energie entspricht geringer Wahrscheinlichkeit Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 15 Fields of Visual Words Die Energiefunktion Zusammenhang zwischen Grauwerten und Patches durch Expertenfunktion hergestellt Die Expertenfunktion φ ( x r ;θi ) ist definiert als φ ( x r ;θi ) = a i +b i ∑ r ' ∈ M (r ) 2 ( x r ' − ̄x M −c i , r ' −r ) + r d ln( π ) 2 bi r .. Pixelposition Patches dabei erweitert zu Experten x M .. Durchschnitt des Bildausschnittes r θi = {a i , bi , c i } Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 16 Fields of Visual Words Illustration des Modells Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 17 Fields of Visual Words Entwicklung eines Distanzmaßes Modell erlaubt schnelle Berechnung der Wahrscheinlichkeitsverteilung der Experten an einem Bildpunkt Idee: Zusammenführung der Verteilungen jedes Punktes ergibt globalen Bilddeskriptor Histogramm beschreibt die normierte Summe aller Einzelverteilungen Korrelogramm beschreibt die Verteilung über das Auftreten von Paaren von Experten Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 18 Fields of Visual Words Entwicklung eines Distanzmaßes Bild Histogramm Korrelogramm Berechnungszeiten über einem 213×213 Pixel großen Bild: 10,3x3 25, 3x3 25, 5x5 Histogramm 0,125s 0,263s 0,424s Korrelogramm 0,958s 5,258s 5,494s Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 19 Fields of Visual Words Bestimmung des Abstandes Ähnlichkeit zweier Bilder über verschiedene histogrammbasierte Distanzmaße bestimmt L1-Norm, L2-Norm, Kullback-Leibler-Divergenz, Jeffrey-Divergenz, ... Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 20 Lernen der Modellparameter Motivation Kleine Modelle haben nur geringe Ausdrucksstärke Erhöhung der Anzahl und Größe der Experten und vor allem die Belegung intuitiv nur schwer motivierbar Lernen der Modellparameter an einer großen, repräsentativen Datenbank Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 21 Lernen der Modellparameter Maximierung der Likelihood-Funktion Idee: Expertenparameter sollen so bestimmt werden, dass sie die Wahrscheinlichkeit eines gegebenen Bildes x ∗ maximieren. Zu einem Bild x ∗ ist kein Expertenfeld y ∗ gegeben. Damit Marginalisierung der gemeinsamen Verteilung zu x ∗ p x ∣ = ∑ p x , y i ∣ ∗ ∗ yi Maximiert wird die Log-Likelihood der Wahrscheinlichkeit, da einfacher berechenbar: argmax L , L = ln p∣x ∗ Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 22 Lernen der Modellparameter ∗ L = ln ( p(θ∣x )) p( x , y ∣ Θ) = Maximierung der Likelihood-Funktion 1 −U (x , y ∣ θ) e Z (Θ) Zur Maximierung wird der Gradientenaufstieg genutzt ∂L neu = alt ⋅ ∂ alt Dafür wird Ableitung benötigt ∂L = ∂ 〈 .. Lernrate ∂L der Funktion bezüglich der Parameter ∂ ∂U x , y ∣ ∂ 〉 〈 pmodel ∗ ∂U y ' ∣ x , − ∂ 〉 p data 〈⋅〉 p .. Erwartungswert unter der Verteilung p Nicht berechenbar aber über Sampling approximierbar Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 23 Fields of Visual Words Der Gibbs Sampler Iterative Methode, um sich über das Samplen aus berechenbaren bedingten Wahrscheinlichkeitsverteilungen einer nicht berechenbaren gemeinsamen WV zu nähern. Das heißt: Um ein Sample aus p x zu generieren, genügt es, wiederholt einzelne Variablen aus p x r ∣ x N −r zu samplen, während der Rest fest bleibt. Bedingte Wahrscheinlichkeit durch markovsche Eigenschaft leicht ermittelbar. Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 24 Lernen der Modellparameter Ablauf des Gradientenaufstiegs ∂L = ∂ 〈 ∂U x , y ∣ ∂ 〉 〈 pmodel ∗ ∂U y ' ∣ x , − ∂ 〉 p data x und y aus Parametern y ' aus gegebenem Bild x samplen Parametern samplen ∗ und x x ∗ Richtungsableitungen berechnen y y' Parameter updaten Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 25 Lernen der Modellparameter Ablauf des Gradientenaufstiegs Globales Optimum kann nicht gefunden werden, nur lokales Abbruch des Lernvorgangs noch manuell festgelegt Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 26 Lernen der Modellparameter Ergebnisse Modelle verschiedener Größen auf Brodatz-Datenbank gelernt Brodatz Datenbank enthält 999 Bilder, wobei jeweils 9 Bilder einer Texturklasse angehören Jeweils ein Repräsentant aus 12 von 111 Klassen Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 27 Lernen der Modellparameter Ergebnisse 25 Experten der Größe von 5x5 Pixeln größtes gelerntes Modell Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 28 Anwendung in der inhaltsbasierten Bildsuche Suche ähnlicher Texturen Zu einem gegebenen Bild soll geordnete Liste der ähnlichsten Texturen ausgegeben werden Klassifizierte Datenbank ermöglicht Bestimmung des mittleren Recalls (mittlerer Anteil an Bildern der gleichen Klasse unter den n ersten Suchergebnissen) Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 29 Anwendung in der inhaltsbasierten Bildsuche Suche ähnlicher Texturen Evaluation verschiedener Distanzmaße und Deskriptoren auf Brodatz-Datenbank Distanzmaße Deskriptoren Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 30 Anwendung in der inhaltsbasierten Bildsuche Suche ähnlicher Texturen Jeffrey-Divergenz, robuste und symmetrische Variante der Kullback-Leibler-Divergenz, bei allen Versuchen die besten Ergebnisse 10 (HG) 25 (HG) 325 (KG) L1-Norm 0,84s 1,28s 10,22s Jeffrey-Divergenz 1,63s 3,34s 36,43s Quadratische Form 9,21s 41,37s - EMD 11,94s 98,11s - Mehr Experten sowie auch größere Nachbarschaften vorteilhaft aber zeitintensiver Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 31 Anwendung in der inhaltsbasierten Bildsuche Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten Vergleich mit 3 verschiedenen lokal invarianten Textur-Deskriptoren Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 32 Anwendung in der inhaltsbasierten Bildsuche Suche ähnlicher Texturen – Vergleich mit anderen Arbeiten Brodatz-Datenbank Brodatz Sehr gute Ergebnisse - viele unterschiedliche Texturklassen aber geringe Varianz innerhalb einer Klasse UIUC-Datenbank UIUC Stark transformierte als auch deformierte Texturen innerhalb einer Klasse FoW-Deskriptoren sind nicht affin invariant Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 33 Zusammenfassung Fields of Visual Words erlauben effektive Erzeugung von globalen Bilddeskriptoren Lernen der Modellparameter hat sich als vorteilhaft aber schwer handhabbar erwiesen Das generische Modell erzielte ansprechende Ergebnisse in der inhaltsbasierten Bildsuche Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words ende. 34 Anhang Herleitung der Ableitung der Log-Likelihood-Funktion ∗ L = ln p∣x = ln L = ln ∑ e −U y ' ∣ x ∗ , 1 −U y ' ∣ x e ∑ Z y ' ∗ , −ln Z y' Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 35 Anhang Herleitung der Ableitung der Log-Likelihood-Funktion ∂L 1 −U x ' , y ' ∣ ∂U x ' , y ' ∣ = e ⋅ ∑ ∂ Z x ' , y ' ∂ 〈 ∗ p x , y ' − −U x ∗ ∑e Energieableitung = E [ p data ] ∂U x ∗ , y ' ∣ ⋅ ∂ −U x ∗ , y ' ∣ e , y ' ∣ ∑ y' y' = 〈 〉 = E [ p model ] p x ' , y ' 1 ∂ U x ' , y ' ∣ ∂ ∂ U x ' , y ' ∣ ∂ 〉 〈 p model ∗ ∂ U x , y ' ∣ − ∂ 〉 〈 ∗ ∂U x , y ' ∣ ∂ 〉 p data Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words 36