Ausarbeitung Seminar RoboCup: Autonome mobile Roboter im

Ausarbeitung Seminar
RoboCup: Autonome mobile Roboter im Wettbewerb
Object Recognition with Statistically
Independent Features:
A Model Inspired by the Primate Visual
Cortex
Sven Stumm
Submitted on : September 21, 2009
Contents
1 Einleitung
1
2 Visueller Cortex
2
3 Neuronale Netze
4
4 Idee von M. Malmir und S. Shiry [MS09c]
7
5 Implementation und Applikation
5.1 Gabor–Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Hierarchie und Trace Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Redundanz Reduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
9
9
10
6 Ergebnisse
12
7 Zusammenfassung
13
Bibliography
15
II
1 Einleitung
Ziel dieser Ausarbeitung ist es, ein Modell zur Objekterkennung zu erläutern, welches versucht,
den visuellen Cortex von Primaten nachzuempfinden.
Menschen sind dazu in der Lage, Objekte aus verschiedenen Perspektiven mit hoher Genauigkeit
zu erkennen. Das vorgestellte Modell versucht, die bisherigen besser bekannten
Forschungsergebnisse im Bereich des visuellen Cortexes auszunutzen, um ein hierarchisch aufgebautes künstliches neuronales Netz zu schaffen. Dieses künstliche neuronale Netz soll ebenso
Objekte mit hoher Genauigkeit unter verschiedenen Rotationen, Verschiebungen
und bei unterschiedlichem Hintergrund erkennen.
Da unter anderem im Bereich der Robotik Objekterkennung aus verschiedenen Perspektiven und
Entfernungen eine wichtige Rolle spielt, wird gerade in diesem Bereich zunehmend geforscht.
Die meisten bekannten Methoden, die dazu in der Lage sind, Objekte relativ exakt zu erkennen,
benötigen zu viele Ressourcen oder haben zu hohe Ansprüche in Bezug auf Hintergrund und
Beleuchtung für reale Anwendungen.
Auch aus diesem Grund wird versucht, Objekt–Erkennungs–Methoden zu entwickeln, die dem
visuellen System von Primaten nachempfunden sind, da dieses besser dazu in der Lage ist,
Objekte in verschiedenen Transformationen zu erkennen als bis jetzt bekannte Objekt–Erkennungs–
Systeme.
Im Nachfolgenden wird es zunächst einen Einblick zum visuellen Cortex geben.
Danach wird ein Überblick in neuronalen Netzen geschaffen und die später verwendete Trace–
Lernregel erläutert.
Nachdem diese Grundlagen geklärt sind, wird das Objekt–Erkennungs–Modell und dessen
Implementation, sowie die vorhandenen Forschungsergebnisse vorgestellt.
1
2 Visueller Cortex
Der visuelle Cortex ist ein Teil der Großhirnrinde und somit zentraler Bestandteil des Sehsystems, welches die visuelle Wahrnehmung ermöglicht. Er wird in die primäre Sehrinde V1
sowie in die extrastriären Bereiche V2 – V5 unterteilt. Er ist “retinotop” aufgebaut,
was bedeutet, dass auf der Netzhaut (Retina) nebeneinander abgebildete Punkte auch hier
nebeneinander liegen.
Der visuelle Cortex befindet sich im Occipitallappen des Gehirns und erhält Informationen
direkt vom Metathalamus. Der Metathalamus ist das Zentrum der visuellen informationen, die
von der Retina des Auges kommen.
Häufig wird zwischen zwei Strömen unterschieden dem ventralen und dem dorsalen Strom.
Informationen vom dorsalen Strom wandern durch die Schichten V1, V2 und V5 und enden
im “Planungszentrum” des Gehirns. Der dorsale Strom ist somit für Bewegungsinformationen
zuständig. Der ventrale Strom wandert durch die Schichten V1, V2 und V4 und ist nach aktueller
Forschung für die Objekterkennung zuständig. Er endet im Bereich für komplexere Objektinformationen und Gesichtserkennung. Eine direkte Unterscheidung zwischen beiden Strömen ist
als kritisch zu betrachten, da sie eng miteinander verbunden sind [R.09]. Jedoch genügt zunächst
eine Betrachtung des ventralen Stroms und seiner Bereiche für eine guten Objekterkennung aus
verschiedenen Perspektiven.
Der ventrale Strom
Wie bereits erwähnt, wandern Informationen von der Retina des Auges durch verschiedene
Schichten des Visuellen Cortex. Im Fall des ventralen Stroms heißen diese Schichten V1, V2 und
V4.
Beim Wandern durch diese Schichten ändern sich die neuralen Repräsentationen von neuralen
Reaktionen auf kleine Ecken bis hin zur Repräsentation von speziellen Objekten im Bild.
Somit kann das Feuern eines einzelnen Neurons in einer höheren Schicht das Auftreten einer
bestimmten geometrischen Form im Bild bedeutend. Deutlich wird der Aufbau des visuellen
Cortexes als hierarchisches Eigenschaften–Erkennungs–System in [DT62] dargestellt.
Die hierarchische Struktur, entlang derer immer komplexer werdende Eigenschaften dem Bild
entnommen werden, soll hier als Grundlage für das später folgende Modell dienen und wird
ausführlich in [DT62] und [K.94] beschrieben.
Im Folgenden wollen wir die Schichten des Ventral Stroms näher betrachten.
V1 – die primäre Sehrinde
Die primäre Sehrinde V1 ist der bis jetzt am besten untersuchte Bereich des visuellen Cortex.
V1 ist wichtig sowohl für statische, als auch für sich bewegende Objekte und dient sehr stark
zur Mustererkennung. Bereiche in V1 können direkt Bereichen der Retina des Auges zugeordnet
werden; sogar der Blinde Fleck kann zugeordnet werden.
Nach aktuell herrschender Meinung bestehen die Reaktionen von V1–Neuronen aus Gruppen von
lokalen zeitlichen Filtern vergleichbar mit der Gabor–Transformation. Die Gabor–Transformation
ist eine spezielle Art der Fouriertransformation, auf die später noch genauer eingegangen wird.
2
Somit können theoretisch durch diese Filter Informationen über Raum, Frequenz, Orientierung,
Bewegung, Richtung und Geschwindigkeit gewonnen werden.
Informationen werden nicht als räumliches oder optisches Bild an V1 weiter geleitet, sondern
eher als lokale Kontraste. In den darüber liegenden Schichten werden Informationen immer
weniger lokal verarbeitet. Das Wissen über die räumliche Lage der Information bleibt in der
lokalen Kontrastdarstellung erhalten.
Allgemein sammeln sich Neuronen mit ähnlichen Eigenschaften in Klustern als kortikale
Spalten. Durch die Überschneidung einzelner Wahrnehmungsbereiche im Bild ensteht eine
gewisse Redundanz, die im später folgendem Modell ausgenutzt werden soll.
V2
V2 ist der erste Bereich des visuellen Assoziationsareals und erhält starke Verbindungen von V1
und sendet starke Verbindungen zu V3, V4 und V5. V2 Sendet auch Feedback zu V1.
Von der Funktionalität sind hier viele Eigenschaften ähnlich denen von V1. Die Zellen werden
auf bestimmte simple Eigenschaften, wie Orientierung, räumliche Frequenz und Farbe, trainiert.
Im Gegensatz zu V1 werden sie aber auch an komplexere Eigenschaften angepasst wie Scheinkonturen und ob die Stimulation vom Objekt oder vom Untergrund ausgeht. V2 Zellen können
zudem komplexere Muster erkennen. Einzelne V2–Neuronen feuern, wenn ein bestimmtes Muster
der anliegenden V1–Neuronen feuert.
V4
V4 ist der erste Bereich im ventralen Strom, der starke Aufmerksamkeitsmodulation zeigt.
Das bedeutet unter anderem, dass die Feuerrate der Neuronen durch selektive Wahrnehmung
beeinflusst wird [MD85].
Somit beeinflusst eine Fokussierung der Wahrnehmung auf einen bestimmten Bildbereich, ob
V4–Neuronen feuern, wenn sie ein bestimmtes Muster in V2–Neuronen erkennen.
Ähnlich V1 sind V4 Neuronen auf Eigenschaften wie Orientierung, räumliche Frequenz und
Farbe trainiert.
Anders als bei V1 ist V4 darauf angepasst, Objekteigenschaften mittlerer Komplexität zu
erkennen wie einfache geometrische Formen, obwohl es für diesen Bereich noch keine genaueren
Erkenntnisse über die genaue Ausrichtung gibt. V4 ist jedoch nicht für komplexere Objekterkennung wie Gesichter zuständig, diese werden im IT–Cortex erkannt.
Zunächst wurde vermutet, dass V4 für das Verarbeiten von Farbinformationen zuständig ist.
Erst später wurde gezeigt das V4 direkt mit der Formerkennung verknüpft ist .
3
3 Neuronale Netze
Das folgende Kapitel soll einen kleinen Einblick in den Bereich der künstlichen neuronalen Netze
geben, um das Verständniss des später folgenden Modells zu erleichtern. Außerdem wird das im
Modell verwendete Lernverfahren näher erläutert.
Figure 3.1: Beispiel eines Künstlichen neuronalen Netzes
Figure 3.2: Schematischer Aufbau eines künstichen Neurons
Künstliche neuronale Netze sind Netze aus künstlichen Neuronen. Ihr Ursprung liegt in der
Biologie. Zumeist ist jedoch die Idee eine Abstraktion bzw. Modellbildung von Informationsverarbeitung zu schaffen und nicht das Nachbilden biologischer neuronaler Netze.
Die Topologie eines Netzes, d.h. die Zuordnung von Verbindungen zu Knoten, muss abhängig
4
von seiner Aufgabe gut durchdacht sein. Nach der Konstruktion eines Netzes folgt die Trainingsphase, in der das Netz lernt. Theoretisch kann ein Netz durch folgende Methoden lernen:
• Entwicklung neuer Verbindungen, Löschen bestehender Verbindungen
• Ändern der Gewichtung (der Gewichte wij von Neuron i zu Neuron j)
• Anpassen der Schwellwerte der Neuronen
• Hinzufügen oder Löschen von Neuronen
Außerdem verändert sich das Lernverhalten bei Veränderung der Aktivierungsfunktion der
Neuronen oder der Lernrate des Netzes. Praktisch gesehen ”lernt” ein Netz hauptsächlich durch
Modifikation der Gewichte der Neuronen.
Dadurch sind KNNs in der Lage, komplizierte nichtlineare Funktionen über einen Lern-Algorithmus,
der durch iterative oder rekursive Vorgehensweise aus vorhandenen Eingangs– und gewünschten
Ausgangswerten alle Parameter der Funktion zu bestimmen versucht, zu erlernen. Die Funktion
besteht aus vielen einfachen gleichartigen Teilen und wird erst in ihrer Summe komplex.
Trace–Lernregel
Die Trace-Lernregel baut direkt auf der Hebbschen Lernregel auf. Die Hebbsche Lernregel wurde
vom Psychologen Donald Olding Hebb im Buch ”The Organization of Behavior” formuliert.
Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft
zur Erzeugung von Aktionspotenzialen in Zelle B beiträgt, so resultiert dies in
Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden
Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung
eines Aktionspotenzials in B größer wird. [Heb49]
Also werden, wenn Neuron A häufiger gleichzeitig mit Neuron B aktiv ist, die beiden
Neuronen aufeinander bevorzugt reagieren (”what fires together, wires together”). Dieser Prozess
wurde von Hebb anhand von Veränderungen der synaptischen Übertragung zwischen Neuronen
nachgewiesen.
Die Hebbsche Lernregel gehört zu den unüberwachten Lernregeln bei denen das Lernen
ausschließlich durch Eingabe der zu lernenden Muster erfolgt. Solche neuronalen Netze verändern
sich entsprechend den Eingabemustern von selbst. In künstlichen neuronalen Netzen wird diese
Veränderung der synaptischen Übertragung als Gewichtsänderung des neuronalen Graphen
abgebildet.
Die Hebbsche Lernregel ist die älteste und einfachste neuronale Lernregel. Das Gewichtungsupdate wird dabei wie folgt berechnet:
∆wij = λ · ai · oj
wobei:
• ∆wij : Veränderung des Gewichtes von Neuron j zu Neuron i (also die Änderung der
Verbindungsstärke dieser beiden Neuronen)
• λ : Lernrate (ein geeignet zu wählender konstanter Faktor)
• ai : Aktivierung von Neuron i
5
3 Neuronale Netze
• oj : Ausgabe von Neuron j, das mit Neuron i verbunden ist
Von Földiák wurde später die Trace-Lernregel beschrieben, bei der invariante Selektivität der
Neuronen entwickelt wird durch stetige räumliche und zeitliche Transformation der Objekte
[P.91]. Wie hier zu erkennen sein dürfte, sind solche Neuronen relativ nah orientiert an denen,
die im biologischen neuronalen Cortex zu finden sind.
Die Erweiterung der Hebbschen Lernregel besteht hierbei darin, einen Teil der vorherigen
Reaktion des Neurons mit im Gewichtungsupdate zu berücksichtigen:
t−1
t
∇wij
= λ · yj−t · (xti − wij
)
wobei:
• wij : Gewichtung der Verbindung zwischen Neuron i und Neuron j
• xti : Eingabe i in iteration t
• λ : Lernrate
t−1
• λ·yj−t ·wij
: wird abgezogen, um eine unbegrenzte Erhöhung der Gewichtung zu verhindern
• yj−t : ist hierbei der Tracewert vom Neuron j in der Iteraton t und wird wie folgt berechnet:
yj−t = η · yj−t−1 + (1 − η) · yjt
wobei :
• 0 < η < 1: Trace Konstante
• yjt : Bottum-up-Aktivität des Neurons j in der Iteration t(genaueres hierzu später bei der
Modelbeschreibung)
6
4 Idee von M. Malmir und S. Shiry
[MS09c]
Im Bereich der Objekterkennung sind bereits eine Reihe von Verfahren bekannt. Jedoch sind
die meisten davon nicht besonders effektiv für Anwendung in der realen Welt.
Simple Verfahren wie correlationsbasiertes Template Matching sind z.B. sehr empfindlich gegenüber
von Objekttransformationen.
Komponentenbasierte Methoden, die versuchen, Komponenten des Objekts zu extrahieren und
diese für die Objekterkennung zu verwenden, besitzen leider das Problem, dass hierbei
Selektivität und Invarianz gegeneinander arbeiten. Also sind diese Modelle entweder, wie zum
Beispiel histrogrammbasierte Modelle, unempfindlich gegenüber Objekttransformationen, können
jedoch nicht zwischen ähnlichen Objekten unterscheiden oder, wie Methoden die Graustufflecken
nutzen, sind sie sehr selektiv aber empfindlich gegenüber Objekttransformationen.
Daher sind einige Modelle ausprobiert worden, die versuchen, Invarianz bzgl. Objekttransformationen
zu erreichen, indem sie sich am visuellen Cortex orientieren. Die Idee von M. Malmir und S.
Shiry ist es, ein Modell aufzustellen, dass näher an der biologischen Vorlage ist.
Man versucht, ein hierachisches neuronales Netz zu erzeugen, bei dem die einzelnen Neuronen
auf ähnliche Eigenschaften trainiert werden, wie die des visuellen Cortex.
Dieses Modell wird duch die Combination zweier unterschiedlicher Ideen aus dem Bereich des
visuellen Cortexes erzeugt. So werden zum einen Neuronen mit der am visuellen Cortex
orientierten Trace-Lernregel auf Invarianz trainiert werden. Zum anderen werden statistische
Eigenschaften natürlicher Bilder, auf die wir später genauer eingehen werden, genutzt um jede
Schicht des neuronalen Netze zu optimieren und Redundanz von Neuronen zu reduzieren.
7
5 Implementation und Applikation
Das Modell von M. Malmir und S. Shiry besitzt einen hierachischen Aufbau ähnlich dem
ventralen Strom des visuelen Cortex. Die Neuronen in jeder Schicht erhalten Bottom-UpEingabe von der darunter liegenden Schicht und horizontale Eingabe von der selben Schicht.
Hierbei wirken die Bottum-Up-Eingaben stimulierend und entscheiden über die primäre Form
der Selektivität, während die horizontalen Eingaben hemmend wirken und das Extrahieren
optimaler Eigenschaften im Bild erleichtern sollen.
Da Neuronen aus V1 gut durch Gabor–Filter beschrieben werden können werden im Modell
Gabor–Filter mit unterschiedlicher Orientierung verwendet.
Figure 5.1: Das Modell nach M. Malmir und S. Shiry. V1 ist durch Gabor–Filter mit
Orientierung zwischen 0◦ und 150◦ in 30◦ Schritten modelliert.
Die zwei verschiedenen Inputs der Schichten (Bottom-Up und Horizontal) sind nur
aus Gründen der Übersichtlichkeit für unterschiedliche Neronen eingezeichnet
8
5.1 Gabor–Filter
5.1 Gabor–Filter
Die Gabor–Transformation stellte eine spezielle gefensterte Fourier–Transformation dar.
Jede lokale Änderung eines Signals bewirkt eine Änderung der Fourier–Transformation über
die gesamte Frequenzachse. Daher stellte eine Fenster–Fourier–Transformation eine Möglichkeit
dar, eine Fourier–Transformation im Ortsraum zu lokalisieren. Sie beschreibt dann den lokalen
Frequenzinhalt in einem Fenster g um einen Punkt.
Die Relation zwischen Aktivierungen für bestimmte räumliche Positionen sind sehr
charakteristisch zwischen Objekten in einem Bild. Ein Gabor–Filter ermöglicht es so, auch
wichtige Aktivierungen aus dem Bild zu extrahieren und somit eine effiziente Objekt Repräsentation
zu erzeugen.
F (x, y) = exp(−
x20 + γ 2 · y02
) · cos((2πx0 )/(λ))
2σ 2
wobei:
• x0 = x · cos(θ) + y · sin(θ)
• y0 = −x · sin(θ) + y · cos(θ)
• x,y: Position des Filter im Bild
• θ : Orientierung
• γ : Aspekt ratio
• σ : effektive Breite
• λ : wellenlänge des Filters
Im Modell von M. Malmir und S. Shiry wurde ein Satz von Gabor–Filtern mit 6 verschiedenen
Orientierungen und einer räumlichen Frequenz verwendet:
Figure 5.2: Gabor–Filter mit 6 Orientierungen verwendet für V1
5.2 Hierarchie und Trace Lernregel
Figure 5.3: [MS09c]
9
5 Implementation und Applikation
Die Buttom-Up Aktivität der V2 und V4 Neuronen wird als gewichtete Summe der Neuronen
Aktivität in ihrem Wahrnehmungsfeld(RF) berechnet:
yibup =
X
bup
· xj
wij
j∈RFi
wobei:
• yibup : Bottom-Up Aktivität des Neurons i
• RFi : Wahrnehmungsfeld des Neurons i in der daruntergelegenen Schicht
• xj : Neuron in RFi
bup
• wij
: Gewichtung der bottum-up Verbindung zwischen Neuron i und j
Somit wird eine Hirachie geschaffen, bei der das Wahrnehmungsfeld jedes Neurons mit jeder
Schicht wächst. Auch die Stimulation jedes Neurons wird mit jeder Schicht komplizierter, ähnlich
dem ventralen Strom im visuellen Cortex. Neuronen in V2 und V4 sind invariant zu
Transformationen ihres gewünschten Stimulus.
Basierend auf partieller Invarianz von V2 und V4–Neuronen kann vollständige Invarianz
gewonnen werden.
[SPRP06] stellt einen neuronalen Mechanismus vor, um invariante Antwort zu Transformationen
eines gewünschten Stimulus zu erhalten. Dieser basiert darauf, dass Neuronen ihrer Aktivierung
für längere Zeit erhalten. Dementsprechend stellt die vorgestellte Trace Lernregel eine geeignete
Lernregel dar, um Invariante Selektivität bzgl. des Bottom-Up-Inputs des Modells zu erlernen,
da diese die vorhergehende Aktvierung des Neurons mit berücksichtigt.
Das neuronale Netz wird mit Bildern von Objekten aus verschiedenen Perspektiven trainiert.
5.3 Redundanz Reduktion
Ein Eigenschaften basiertes Objekterkennungssystem kann nur effizient sein wenn die extrahierten
Eigenschaften einen hohen Informationgehalt besitzen. Somit reicht das Lernen einer invarianten
Antwort nicht aus, um hohe Erkennungsraten für verschiedene Objekte zu erhalten.
Per Redundanz–Reduktion muss auch dafür gesorgt werden, dass wichtige Eigenschaften, die
Objekte unterscheiden können, extrahiert werden.
Im Modell von M. Malmir und S. Shiry wird hierzu ein Redundanz–Reduzierungsverfahren,
welches statistische Eigenschaften von natürlichen Bildern nutzt, verwendet. Das Verfahren
wird auf mehreren Schichten verwendet um Optimale Eigenschaften für die Objekterkennung zu
sichern.
Lineare Filter wie Gabor–Filter stellen optimale Eigenschaften bzgl. Statistiken erster Ordnung
dar. Die Abhängigkeiten in natürlichen Bildern sind jedoch nichtlinear und bzgl. Statistiken
erster Ordnung nicht erkennbar. Jedoch gibt es spezielle Formen von Abhängigkeiten zwischen
den Filterantworten. So ist zum Beispiel die Varianz eines Filters abhängig von den Antworten
anliegender Filter.
Schwartz und Simoncelli benutzten trennende Normalisierung, um unabhängige Eigenschaften
aus Teilen natürlicher Bilder zu gewinnen [OE01]. M. Malmir und S. Shiry entwickelten diese
System weiter für hierarchische Architekturen und erzeugten so Neuronen, ähnlich denen in V2
[MS09b],[MS09a]. Diese Idee wurde hier verwendet, um Eigenschaften mit möglichst hohem
Informationsgehalt aus natürlichen Bildern zu gewinnen.
Hierbei werden die Gewichtungen der horizontalen Verbindungen der neuronalen Netze so
10
5.3 Redundanz Reduktion
gelernt, dass sie die Varianz ihrer korrespondierenden Neuronen lernen.
var(Lx |Ly , y ∈ Cx ) =
X
wxy · L2y + σx2
y∈Cx
wobei:
• Lx und Ly : Antwort der Neuronen x bzw. y
• wxy : Gewichtung der horizontalen Verbindung zwischen den Neuronen x und y
• Cx : Nachbarregion von Neuron x
• σx2 : Varianz des Neurons x die unabhängig von anderen Neuronen ist
Die Neuronenantwort wird nun durch diese Varianz geteilt um eine Unabhängigkeit von der
Varianz zu erzielen.
L2x
l
2
2
y y ∈ Cx wxy · Ly + σx
Responsex = P
Auf die verschiedenen Schichten angewendet erhält man somit global unabhängige neuronale
Aktivitäten.
Die Gewichtung der Horizontalen Verbindung werden für jedes Neuron gelernt, nachdem die
Bottom-Up Verbindung hergestellt wurde.
11
6 Ergebnisse
Das vorgestellte Objekterkennungsmodell wurde zum einen mit Hilfe der Coil100 Datenbank
getestet und schnitt dort besser ab, als andere Objekterkennungsmodelle 6.1 .
Figure 6.1: [MS09c]
Zum anderen wurden herausvorderndere Bilder mit verschiedenen Hintergünden und Beleuchtungen getestet und eine Erkennungsrate höher als 95% erreicht 6.2.
Figure 6.2: [MS09c]
12
7 Zusammenfassung
Insgesamt wurde ein effizientes Objekt-Erkennungs-Modell vorgestellt, dass sich am visuellen
Cortex orientiert.
Zunächst wurde ein hierarchisches künstliches neuronales Netz erstellt, mit den Schichten V1,
V2 und V4.
Neuronen in V1 sind hierbei repräsentiert durch Gabor–Filter mit 6 verschiedenen
Ausrichtungen. V1–Neuronen extrahieren lokale Eigenschaften, wie Raum, Frequenz und Ausrichtung aus einem kleinen Fenster des Bildes.
V2–Neuronen erhalten Bottom-Up-Input aus den V1–Neuronen und können somit auf Muster
in diesen trainiert werden. Ähnliches gilt für V4–Neuronen welche Bottom-Up-Input aus V2
erhalten und somit Muster in V2–Neuronen erkennen können, welche bereits als geometrische
Formen interpretiert werden können. Ein bestimmtes Muster von feuernden V4–Neuronen ist
nun repräsentativ für ein bestimmtes Objekt.
Um eine Invarianz gegenüber Objekttransformationen zu erreichen, werden die Bottom-UpInputs mit Hilfe der Trace-Lernregel trainiert. Durch die Eigenschaft der Trace-Lernregel, die
vorherige Aktivierung der Neuronen zu berücksichtigen, können die Verbindungen durch Bilder
des selben Objekts aus verschiedenen Perspektiven so trainiert werden, dass Eigenschaften, die
in allen Bildern unabhängig von Transformation für das Objekt gelten, für das Feuern eines
Neurons in V2 bzw. V4 zuständig sind. Durch schritthafte Änderungen der Perspektive von
einem Objekt, werden die Verbindungen somit invariant trainiert. Somit werden Eigenschaften,
die in jeder Perpektive vorkommen erlernt.
Jedoch sind nur solche Eigenschaften, die repräsentativ für ein bestimmtes Objekt sind wichtig
und können durch Redundanz-Reduktion extrahiert werden. In natürlichen Bildern sind aneinanderliegende Bildbereiche in gewisser Form von einander abhängig. Konkret ist die Varianz eines
Gabor–Filters für ein bestimmtes Fenster im Bild abhängig von den Gabor–Filter Ergebnissen
der benachbarten Fenster. Um unabhängige Eigenschaften eines Objektes zu extrahieren, wird
ein horizontaler Input innerhalb jeder Schicht verwendet. Jedes Neuron einer Schicht ist nun
verbunden mit seinen Nachbarn. Es berechnet die von den Nachbarn abhängige Varianz. Die
Aktivierung des Neurons wird nun durch die abhängige Varianz geteilt. Somit wird eine von den
Nachbarn unabhängige Eigenschaft extrahiert und eindeutigere Informationen bzgl. des Objekts
zur darüberliegenden Schicht transportiert.
Im Modell werden also Bottom-Up-Verbindungen zur Invarianz bzgl. Objekttransformation
trainiert, während horizontale Verbindungen das Extrahieren eindeutiger Objekteigenschaften
fördern. Alles im allem wird so ein neuronales Netz ähnlich dem visuellen Cortex erzeugt und
ein
biologisch einleuchtendes Objekt-Erkennungsmodell geschaffen.
13
7 Zusammenfassung
Figure 7.1: Für den zweiten Test verwendete Objekte
Figure 7.2: Beispiele von Bildern von Objekt 2 aus dem zweiten Test aus verschiedenen Perspektiven
14
Bibliography
[DT62]
D.H., Hubel ; T.N., Wiesel: Receptive fields, binocular interaction and functional
architecture in the cat’s visual cortex. J. Physiology, 1962
[Heb49]
Hebb, Donald: The organization of behavior. A neuropsychological theory. Erlbaum
Books ISBN 0-8058-4300-0 (Nachdruck der Ausgabe New York 1949), 1949
[K.94]
K., Tanaka: Inferotemporal cortex and object vision. Ann. Rev. Neuroscience, 1994
[MD85]
Moran ; Desimone: Selective Attention Gates Visual Processing in the Extrastriate
Cortex. Science 229(4715), 1985
[MS09a]
M., Malmir ; S., Shiry: Class Specific Redundancies in Natural Images: a Theory of
Extrastriate Visual Processing. International Joint Conference on Neural Networks,
2009
[MS09b]
M., Malmir ; S., Shiry: A Model of Angle Selectivity in Area V2 with Local Divisive
Normalization. IEEE Symposium Series on Computational Intelligence, 2009
[MS09c]
M., Malmir ; S., Shiry: Object Recognition with Statistically Independent Features:
A Model Inspired by the Primate Visual Cortex. Robocup2009, 2009
[OE01]
O., Schwartz ; E.P., Simoncelli: Natural signal statistics and sensory gain control.
Nature Neuroscience, 2001
[P.91]
P., Földiák: Learning Invariance from Transformation Sequences. Neural Computation, 1991
[R.09]
R., Farivar: Dorsal-ventral integration in object recognition. Brain Research Reviews
Elsevier, 2009
[SPRP06] Stringer, M. ; Perry, G. ; Rolls, T. ; Proske, H.: Learning invariant object
recognition in the visual system with continuous transformations. Biological Cybernetics 94, 2006
15