Ausarbeitung Seminar RoboCup: Autonome mobile Roboter im

Werbung
Ausarbeitung Seminar
RoboCup: Autonome mobile Roboter im Wettbewerb
Object Recognition with Statistically
Independent Features:
A Model Inspired by the Primate Visual
Cortex
Sven Stumm
Submitted on : September 21, 2009
Contents
1 Einleitung
1
2 Visueller Cortex
2
3 Neuronale Netze
4
4 Idee von M. Malmir und S. Shiry [MS09c]
7
5 Implementation und Applikation
5.1 Gabor–Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Hierarchie und Trace Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Redundanz Reduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
9
9
10
6 Ergebnisse
12
7 Zusammenfassung
13
Bibliography
15
II
1 Einleitung
Ziel dieser Ausarbeitung ist es, ein Modell zur Objekterkennung zu erläutern, welches versucht,
den visuellen Cortex von Primaten nachzuempfinden.
Menschen sind dazu in der Lage, Objekte aus verschiedenen Perspektiven mit hoher Genauigkeit
zu erkennen. Das vorgestellte Modell versucht, die bisherigen besser bekannten
Forschungsergebnisse im Bereich des visuellen Cortexes auszunutzen, um ein hierarchisch aufgebautes künstliches neuronales Netz zu schaffen. Dieses künstliche neuronale Netz soll ebenso
Objekte mit hoher Genauigkeit unter verschiedenen Rotationen, Verschiebungen
und bei unterschiedlichem Hintergrund erkennen.
Da unter anderem im Bereich der Robotik Objekterkennung aus verschiedenen Perspektiven und
Entfernungen eine wichtige Rolle spielt, wird gerade in diesem Bereich zunehmend geforscht.
Die meisten bekannten Methoden, die dazu in der Lage sind, Objekte relativ exakt zu erkennen,
benötigen zu viele Ressourcen oder haben zu hohe Ansprüche in Bezug auf Hintergrund und
Beleuchtung für reale Anwendungen.
Auch aus diesem Grund wird versucht, Objekt–Erkennungs–Methoden zu entwickeln, die dem
visuellen System von Primaten nachempfunden sind, da dieses besser dazu in der Lage ist,
Objekte in verschiedenen Transformationen zu erkennen als bis jetzt bekannte Objekt–Erkennungs–
Systeme.
Im Nachfolgenden wird es zunächst einen Einblick zum visuellen Cortex geben.
Danach wird ein Überblick in neuronalen Netzen geschaffen und die später verwendete Trace–
Lernregel erläutert.
Nachdem diese Grundlagen geklärt sind, wird das Objekt–Erkennungs–Modell und dessen
Implementation, sowie die vorhandenen Forschungsergebnisse vorgestellt.
1
2 Visueller Cortex
Der visuelle Cortex ist ein Teil der Großhirnrinde und somit zentraler Bestandteil des Sehsystems, welches die visuelle Wahrnehmung ermöglicht. Er wird in die primäre Sehrinde V1
sowie in die extrastriären Bereiche V2 – V5 unterteilt. Er ist “retinotop” aufgebaut,
was bedeutet, dass auf der Netzhaut (Retina) nebeneinander abgebildete Punkte auch hier
nebeneinander liegen.
Der visuelle Cortex befindet sich im Occipitallappen des Gehirns und erhält Informationen
direkt vom Metathalamus. Der Metathalamus ist das Zentrum der visuellen informationen, die
von der Retina des Auges kommen.
Häufig wird zwischen zwei Strömen unterschieden dem ventralen und dem dorsalen Strom.
Informationen vom dorsalen Strom wandern durch die Schichten V1, V2 und V5 und enden
im “Planungszentrum” des Gehirns. Der dorsale Strom ist somit für Bewegungsinformationen
zuständig. Der ventrale Strom wandert durch die Schichten V1, V2 und V4 und ist nach aktueller
Forschung für die Objekterkennung zuständig. Er endet im Bereich für komplexere Objektinformationen und Gesichtserkennung. Eine direkte Unterscheidung zwischen beiden Strömen ist
als kritisch zu betrachten, da sie eng miteinander verbunden sind [R.09]. Jedoch genügt zunächst
eine Betrachtung des ventralen Stroms und seiner Bereiche für eine guten Objekterkennung aus
verschiedenen Perspektiven.
Der ventrale Strom
Wie bereits erwähnt, wandern Informationen von der Retina des Auges durch verschiedene
Schichten des Visuellen Cortex. Im Fall des ventralen Stroms heißen diese Schichten V1, V2 und
V4.
Beim Wandern durch diese Schichten ändern sich die neuralen Repräsentationen von neuralen
Reaktionen auf kleine Ecken bis hin zur Repräsentation von speziellen Objekten im Bild.
Somit kann das Feuern eines einzelnen Neurons in einer höheren Schicht das Auftreten einer
bestimmten geometrischen Form im Bild bedeutend. Deutlich wird der Aufbau des visuellen
Cortexes als hierarchisches Eigenschaften–Erkennungs–System in [DT62] dargestellt.
Die hierarchische Struktur, entlang derer immer komplexer werdende Eigenschaften dem Bild
entnommen werden, soll hier als Grundlage für das später folgende Modell dienen und wird
ausführlich in [DT62] und [K.94] beschrieben.
Im Folgenden wollen wir die Schichten des Ventral Stroms näher betrachten.
V1 – die primäre Sehrinde
Die primäre Sehrinde V1 ist der bis jetzt am besten untersuchte Bereich des visuellen Cortex.
V1 ist wichtig sowohl für statische, als auch für sich bewegende Objekte und dient sehr stark
zur Mustererkennung. Bereiche in V1 können direkt Bereichen der Retina des Auges zugeordnet
werden; sogar der Blinde Fleck kann zugeordnet werden.
Nach aktuell herrschender Meinung bestehen die Reaktionen von V1–Neuronen aus Gruppen von
lokalen zeitlichen Filtern vergleichbar mit der Gabor–Transformation. Die Gabor–Transformation
ist eine spezielle Art der Fouriertransformation, auf die später noch genauer eingegangen wird.
2
Somit können theoretisch durch diese Filter Informationen über Raum, Frequenz, Orientierung,
Bewegung, Richtung und Geschwindigkeit gewonnen werden.
Informationen werden nicht als räumliches oder optisches Bild an V1 weiter geleitet, sondern
eher als lokale Kontraste. In den darüber liegenden Schichten werden Informationen immer
weniger lokal verarbeitet. Das Wissen über die räumliche Lage der Information bleibt in der
lokalen Kontrastdarstellung erhalten.
Allgemein sammeln sich Neuronen mit ähnlichen Eigenschaften in Klustern als kortikale
Spalten. Durch die Überschneidung einzelner Wahrnehmungsbereiche im Bild ensteht eine
gewisse Redundanz, die im später folgendem Modell ausgenutzt werden soll.
V2
V2 ist der erste Bereich des visuellen Assoziationsareals und erhält starke Verbindungen von V1
und sendet starke Verbindungen zu V3, V4 und V5. V2 Sendet auch Feedback zu V1.
Von der Funktionalität sind hier viele Eigenschaften ähnlich denen von V1. Die Zellen werden
auf bestimmte simple Eigenschaften, wie Orientierung, räumliche Frequenz und Farbe, trainiert.
Im Gegensatz zu V1 werden sie aber auch an komplexere Eigenschaften angepasst wie Scheinkonturen und ob die Stimulation vom Objekt oder vom Untergrund ausgeht. V2 Zellen können
zudem komplexere Muster erkennen. Einzelne V2–Neuronen feuern, wenn ein bestimmtes Muster
der anliegenden V1–Neuronen feuert.
V4
V4 ist der erste Bereich im ventralen Strom, der starke Aufmerksamkeitsmodulation zeigt.
Das bedeutet unter anderem, dass die Feuerrate der Neuronen durch selektive Wahrnehmung
beeinflusst wird [MD85].
Somit beeinflusst eine Fokussierung der Wahrnehmung auf einen bestimmten Bildbereich, ob
V4–Neuronen feuern, wenn sie ein bestimmtes Muster in V2–Neuronen erkennen.
Ähnlich V1 sind V4 Neuronen auf Eigenschaften wie Orientierung, räumliche Frequenz und
Farbe trainiert.
Anders als bei V1 ist V4 darauf angepasst, Objekteigenschaften mittlerer Komplexität zu
erkennen wie einfache geometrische Formen, obwohl es für diesen Bereich noch keine genaueren
Erkenntnisse über die genaue Ausrichtung gibt. V4 ist jedoch nicht für komplexere Objekterkennung wie Gesichter zuständig, diese werden im IT–Cortex erkannt.
Zunächst wurde vermutet, dass V4 für das Verarbeiten von Farbinformationen zuständig ist.
Erst später wurde gezeigt das V4 direkt mit der Formerkennung verknüpft ist .
3
3 Neuronale Netze
Das folgende Kapitel soll einen kleinen Einblick in den Bereich der künstlichen neuronalen Netze
geben, um das Verständniss des später folgenden Modells zu erleichtern. Außerdem wird das im
Modell verwendete Lernverfahren näher erläutert.
Figure 3.1: Beispiel eines Künstlichen neuronalen Netzes
Figure 3.2: Schematischer Aufbau eines künstichen Neurons
Künstliche neuronale Netze sind Netze aus künstlichen Neuronen. Ihr Ursprung liegt in der
Biologie. Zumeist ist jedoch die Idee eine Abstraktion bzw. Modellbildung von Informationsverarbeitung zu schaffen und nicht das Nachbilden biologischer neuronaler Netze.
Die Topologie eines Netzes, d.h. die Zuordnung von Verbindungen zu Knoten, muss abhängig
4
von seiner Aufgabe gut durchdacht sein. Nach der Konstruktion eines Netzes folgt die Trainingsphase, in der das Netz lernt. Theoretisch kann ein Netz durch folgende Methoden lernen:
• Entwicklung neuer Verbindungen, Löschen bestehender Verbindungen
• Ändern der Gewichtung (der Gewichte wij von Neuron i zu Neuron j)
• Anpassen der Schwellwerte der Neuronen
• Hinzufügen oder Löschen von Neuronen
Außerdem verändert sich das Lernverhalten bei Veränderung der Aktivierungsfunktion der
Neuronen oder der Lernrate des Netzes. Praktisch gesehen ”lernt” ein Netz hauptsächlich durch
Modifikation der Gewichte der Neuronen.
Dadurch sind KNNs in der Lage, komplizierte nichtlineare Funktionen über einen Lern-Algorithmus,
der durch iterative oder rekursive Vorgehensweise aus vorhandenen Eingangs– und gewünschten
Ausgangswerten alle Parameter der Funktion zu bestimmen versucht, zu erlernen. Die Funktion
besteht aus vielen einfachen gleichartigen Teilen und wird erst in ihrer Summe komplex.
Trace–Lernregel
Die Trace-Lernregel baut direkt auf der Hebbschen Lernregel auf. Die Hebbsche Lernregel wurde
vom Psychologen Donald Olding Hebb im Buch ”The Organization of Behavior” formuliert.
Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft
zur Erzeugung von Aktionspotenzialen in Zelle B beiträgt, so resultiert dies in
Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden
Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung
eines Aktionspotenzials in B größer wird. [Heb49]
Also werden, wenn Neuron A häufiger gleichzeitig mit Neuron B aktiv ist, die beiden
Neuronen aufeinander bevorzugt reagieren (”what fires together, wires together”). Dieser Prozess
wurde von Hebb anhand von Veränderungen der synaptischen Übertragung zwischen Neuronen
nachgewiesen.
Die Hebbsche Lernregel gehört zu den unüberwachten Lernregeln bei denen das Lernen
ausschließlich durch Eingabe der zu lernenden Muster erfolgt. Solche neuronalen Netze verändern
sich entsprechend den Eingabemustern von selbst. In künstlichen neuronalen Netzen wird diese
Veränderung der synaptischen Übertragung als Gewichtsänderung des neuronalen Graphen
abgebildet.
Die Hebbsche Lernregel ist die älteste und einfachste neuronale Lernregel. Das Gewichtungsupdate wird dabei wie folgt berechnet:
∆wij = λ · ai · oj
wobei:
• ∆wij : Veränderung des Gewichtes von Neuron j zu Neuron i (also die Änderung der
Verbindungsstärke dieser beiden Neuronen)
• λ : Lernrate (ein geeignet zu wählender konstanter Faktor)
• ai : Aktivierung von Neuron i
5
3 Neuronale Netze
• oj : Ausgabe von Neuron j, das mit Neuron i verbunden ist
Von Földiák wurde später die Trace-Lernregel beschrieben, bei der invariante Selektivität der
Neuronen entwickelt wird durch stetige räumliche und zeitliche Transformation der Objekte
[P.91]. Wie hier zu erkennen sein dürfte, sind solche Neuronen relativ nah orientiert an denen,
die im biologischen neuronalen Cortex zu finden sind.
Die Erweiterung der Hebbschen Lernregel besteht hierbei darin, einen Teil der vorherigen
Reaktion des Neurons mit im Gewichtungsupdate zu berücksichtigen:
t−1
t
∇wij
= λ · yj−t · (xti − wij
)
wobei:
• wij : Gewichtung der Verbindung zwischen Neuron i und Neuron j
• xti : Eingabe i in iteration t
• λ : Lernrate
t−1
• λ·yj−t ·wij
: wird abgezogen, um eine unbegrenzte Erhöhung der Gewichtung zu verhindern
• yj−t : ist hierbei der Tracewert vom Neuron j in der Iteraton t und wird wie folgt berechnet:
yj−t = η · yj−t−1 + (1 − η) · yjt
wobei :
• 0 < η < 1: Trace Konstante
• yjt : Bottum-up-Aktivität des Neurons j in der Iteration t(genaueres hierzu später bei der
Modelbeschreibung)
6
4 Idee von M. Malmir und S. Shiry
[MS09c]
Im Bereich der Objekterkennung sind bereits eine Reihe von Verfahren bekannt. Jedoch sind
die meisten davon nicht besonders effektiv für Anwendung in der realen Welt.
Simple Verfahren wie correlationsbasiertes Template Matching sind z.B. sehr empfindlich gegenüber
von Objekttransformationen.
Komponentenbasierte Methoden, die versuchen, Komponenten des Objekts zu extrahieren und
diese für die Objekterkennung zu verwenden, besitzen leider das Problem, dass hierbei
Selektivität und Invarianz gegeneinander arbeiten. Also sind diese Modelle entweder, wie zum
Beispiel histrogrammbasierte Modelle, unempfindlich gegenüber Objekttransformationen, können
jedoch nicht zwischen ähnlichen Objekten unterscheiden oder, wie Methoden die Graustufflecken
nutzen, sind sie sehr selektiv aber empfindlich gegenüber Objekttransformationen.
Daher sind einige Modelle ausprobiert worden, die versuchen, Invarianz bzgl. Objekttransformationen
zu erreichen, indem sie sich am visuellen Cortex orientieren. Die Idee von M. Malmir und S.
Shiry ist es, ein Modell aufzustellen, dass näher an der biologischen Vorlage ist.
Man versucht, ein hierachisches neuronales Netz zu erzeugen, bei dem die einzelnen Neuronen
auf ähnliche Eigenschaften trainiert werden, wie die des visuellen Cortex.
Dieses Modell wird duch die Combination zweier unterschiedlicher Ideen aus dem Bereich des
visuellen Cortexes erzeugt. So werden zum einen Neuronen mit der am visuellen Cortex
orientierten Trace-Lernregel auf Invarianz trainiert werden. Zum anderen werden statistische
Eigenschaften natürlicher Bilder, auf die wir später genauer eingehen werden, genutzt um jede
Schicht des neuronalen Netze zu optimieren und Redundanz von Neuronen zu reduzieren.
7
5 Implementation und Applikation
Das Modell von M. Malmir und S. Shiry besitzt einen hierachischen Aufbau ähnlich dem
ventralen Strom des visuelen Cortex. Die Neuronen in jeder Schicht erhalten Bottom-UpEingabe von der darunter liegenden Schicht und horizontale Eingabe von der selben Schicht.
Hierbei wirken die Bottum-Up-Eingaben stimulierend und entscheiden über die primäre Form
der Selektivität, während die horizontalen Eingaben hemmend wirken und das Extrahieren
optimaler Eigenschaften im Bild erleichtern sollen.
Da Neuronen aus V1 gut durch Gabor–Filter beschrieben werden können werden im Modell
Gabor–Filter mit unterschiedlicher Orientierung verwendet.
Figure 5.1: Das Modell nach M. Malmir und S. Shiry. V1 ist durch Gabor–Filter mit
Orientierung zwischen 0◦ und 150◦ in 30◦ Schritten modelliert.
Die zwei verschiedenen Inputs der Schichten (Bottom-Up und Horizontal) sind nur
aus Gründen der Übersichtlichkeit für unterschiedliche Neronen eingezeichnet
8
5.1 Gabor–Filter
5.1 Gabor–Filter
Die Gabor–Transformation stellte eine spezielle gefensterte Fourier–Transformation dar.
Jede lokale Änderung eines Signals bewirkt eine Änderung der Fourier–Transformation über
die gesamte Frequenzachse. Daher stellte eine Fenster–Fourier–Transformation eine Möglichkeit
dar, eine Fourier–Transformation im Ortsraum zu lokalisieren. Sie beschreibt dann den lokalen
Frequenzinhalt in einem Fenster g um einen Punkt.
Die Relation zwischen Aktivierungen für bestimmte räumliche Positionen sind sehr
charakteristisch zwischen Objekten in einem Bild. Ein Gabor–Filter ermöglicht es so, auch
wichtige Aktivierungen aus dem Bild zu extrahieren und somit eine effiziente Objekt Repräsentation
zu erzeugen.
F (x, y) = exp(−
x20 + γ 2 · y02
) · cos((2πx0 )/(λ))
2σ 2
wobei:
• x0 = x · cos(θ) + y · sin(θ)
• y0 = −x · sin(θ) + y · cos(θ)
• x,y: Position des Filter im Bild
• θ : Orientierung
• γ : Aspekt ratio
• σ : effektive Breite
• λ : wellenlänge des Filters
Im Modell von M. Malmir und S. Shiry wurde ein Satz von Gabor–Filtern mit 6 verschiedenen
Orientierungen und einer räumlichen Frequenz verwendet:
Figure 5.2: Gabor–Filter mit 6 Orientierungen verwendet für V1
5.2 Hierarchie und Trace Lernregel
Figure 5.3: [MS09c]
9
5 Implementation und Applikation
Die Buttom-Up Aktivität der V2 und V4 Neuronen wird als gewichtete Summe der Neuronen
Aktivität in ihrem Wahrnehmungsfeld(RF) berechnet:
yibup =
X
bup
· xj
wij
j∈RFi
wobei:
• yibup : Bottom-Up Aktivität des Neurons i
• RFi : Wahrnehmungsfeld des Neurons i in der daruntergelegenen Schicht
• xj : Neuron in RFi
bup
• wij
: Gewichtung der bottum-up Verbindung zwischen Neuron i und j
Somit wird eine Hirachie geschaffen, bei der das Wahrnehmungsfeld jedes Neurons mit jeder
Schicht wächst. Auch die Stimulation jedes Neurons wird mit jeder Schicht komplizierter, ähnlich
dem ventralen Strom im visuellen Cortex. Neuronen in V2 und V4 sind invariant zu
Transformationen ihres gewünschten Stimulus.
Basierend auf partieller Invarianz von V2 und V4–Neuronen kann vollständige Invarianz
gewonnen werden.
[SPRP06] stellt einen neuronalen Mechanismus vor, um invariante Antwort zu Transformationen
eines gewünschten Stimulus zu erhalten. Dieser basiert darauf, dass Neuronen ihrer Aktivierung
für längere Zeit erhalten. Dementsprechend stellt die vorgestellte Trace Lernregel eine geeignete
Lernregel dar, um Invariante Selektivität bzgl. des Bottom-Up-Inputs des Modells zu erlernen,
da diese die vorhergehende Aktvierung des Neurons mit berücksichtigt.
Das neuronale Netz wird mit Bildern von Objekten aus verschiedenen Perspektiven trainiert.
5.3 Redundanz Reduktion
Ein Eigenschaften basiertes Objekterkennungssystem kann nur effizient sein wenn die extrahierten
Eigenschaften einen hohen Informationgehalt besitzen. Somit reicht das Lernen einer invarianten
Antwort nicht aus, um hohe Erkennungsraten für verschiedene Objekte zu erhalten.
Per Redundanz–Reduktion muss auch dafür gesorgt werden, dass wichtige Eigenschaften, die
Objekte unterscheiden können, extrahiert werden.
Im Modell von M. Malmir und S. Shiry wird hierzu ein Redundanz–Reduzierungsverfahren,
welches statistische Eigenschaften von natürlichen Bildern nutzt, verwendet. Das Verfahren
wird auf mehreren Schichten verwendet um Optimale Eigenschaften für die Objekterkennung zu
sichern.
Lineare Filter wie Gabor–Filter stellen optimale Eigenschaften bzgl. Statistiken erster Ordnung
dar. Die Abhängigkeiten in natürlichen Bildern sind jedoch nichtlinear und bzgl. Statistiken
erster Ordnung nicht erkennbar. Jedoch gibt es spezielle Formen von Abhängigkeiten zwischen
den Filterantworten. So ist zum Beispiel die Varianz eines Filters abhängig von den Antworten
anliegender Filter.
Schwartz und Simoncelli benutzten trennende Normalisierung, um unabhängige Eigenschaften
aus Teilen natürlicher Bilder zu gewinnen [OE01]. M. Malmir und S. Shiry entwickelten diese
System weiter für hierarchische Architekturen und erzeugten so Neuronen, ähnlich denen in V2
[MS09b],[MS09a]. Diese Idee wurde hier verwendet, um Eigenschaften mit möglichst hohem
Informationsgehalt aus natürlichen Bildern zu gewinnen.
Hierbei werden die Gewichtungen der horizontalen Verbindungen der neuronalen Netze so
10
5.3 Redundanz Reduktion
gelernt, dass sie die Varianz ihrer korrespondierenden Neuronen lernen.
var(Lx |Ly , y ∈ Cx ) =
X
wxy · L2y + σx2
y∈Cx
wobei:
• Lx und Ly : Antwort der Neuronen x bzw. y
• wxy : Gewichtung der horizontalen Verbindung zwischen den Neuronen x und y
• Cx : Nachbarregion von Neuron x
• σx2 : Varianz des Neurons x die unabhängig von anderen Neuronen ist
Die Neuronenantwort wird nun durch diese Varianz geteilt um eine Unabhängigkeit von der
Varianz zu erzielen.
L2x
l
2
2
y y ∈ Cx wxy · Ly + σx
Responsex = P
Auf die verschiedenen Schichten angewendet erhält man somit global unabhängige neuronale
Aktivitäten.
Die Gewichtung der Horizontalen Verbindung werden für jedes Neuron gelernt, nachdem die
Bottom-Up Verbindung hergestellt wurde.
11
6 Ergebnisse
Das vorgestellte Objekterkennungsmodell wurde zum einen mit Hilfe der Coil100 Datenbank
getestet und schnitt dort besser ab, als andere Objekterkennungsmodelle 6.1 .
Figure 6.1: [MS09c]
Zum anderen wurden herausvorderndere Bilder mit verschiedenen Hintergünden und Beleuchtungen getestet und eine Erkennungsrate höher als 95% erreicht 6.2.
Figure 6.2: [MS09c]
12
7 Zusammenfassung
Insgesamt wurde ein effizientes Objekt-Erkennungs-Modell vorgestellt, dass sich am visuellen
Cortex orientiert.
Zunächst wurde ein hierarchisches künstliches neuronales Netz erstellt, mit den Schichten V1,
V2 und V4.
Neuronen in V1 sind hierbei repräsentiert durch Gabor–Filter mit 6 verschiedenen
Ausrichtungen. V1–Neuronen extrahieren lokale Eigenschaften, wie Raum, Frequenz und Ausrichtung aus einem kleinen Fenster des Bildes.
V2–Neuronen erhalten Bottom-Up-Input aus den V1–Neuronen und können somit auf Muster
in diesen trainiert werden. Ähnliches gilt für V4–Neuronen welche Bottom-Up-Input aus V2
erhalten und somit Muster in V2–Neuronen erkennen können, welche bereits als geometrische
Formen interpretiert werden können. Ein bestimmtes Muster von feuernden V4–Neuronen ist
nun repräsentativ für ein bestimmtes Objekt.
Um eine Invarianz gegenüber Objekttransformationen zu erreichen, werden die Bottom-UpInputs mit Hilfe der Trace-Lernregel trainiert. Durch die Eigenschaft der Trace-Lernregel, die
vorherige Aktivierung der Neuronen zu berücksichtigen, können die Verbindungen durch Bilder
des selben Objekts aus verschiedenen Perspektiven so trainiert werden, dass Eigenschaften, die
in allen Bildern unabhängig von Transformation für das Objekt gelten, für das Feuern eines
Neurons in V2 bzw. V4 zuständig sind. Durch schritthafte Änderungen der Perspektive von
einem Objekt, werden die Verbindungen somit invariant trainiert. Somit werden Eigenschaften,
die in jeder Perpektive vorkommen erlernt.
Jedoch sind nur solche Eigenschaften, die repräsentativ für ein bestimmtes Objekt sind wichtig
und können durch Redundanz-Reduktion extrahiert werden. In natürlichen Bildern sind aneinanderliegende Bildbereiche in gewisser Form von einander abhängig. Konkret ist die Varianz eines
Gabor–Filters für ein bestimmtes Fenster im Bild abhängig von den Gabor–Filter Ergebnissen
der benachbarten Fenster. Um unabhängige Eigenschaften eines Objektes zu extrahieren, wird
ein horizontaler Input innerhalb jeder Schicht verwendet. Jedes Neuron einer Schicht ist nun
verbunden mit seinen Nachbarn. Es berechnet die von den Nachbarn abhängige Varianz. Die
Aktivierung des Neurons wird nun durch die abhängige Varianz geteilt. Somit wird eine von den
Nachbarn unabhängige Eigenschaft extrahiert und eindeutigere Informationen bzgl. des Objekts
zur darüberliegenden Schicht transportiert.
Im Modell werden also Bottom-Up-Verbindungen zur Invarianz bzgl. Objekttransformation
trainiert, während horizontale Verbindungen das Extrahieren eindeutiger Objekteigenschaften
fördern. Alles im allem wird so ein neuronales Netz ähnlich dem visuellen Cortex erzeugt und
ein
biologisch einleuchtendes Objekt-Erkennungsmodell geschaffen.
13
7 Zusammenfassung
Figure 7.1: Für den zweiten Test verwendete Objekte
Figure 7.2: Beispiele von Bildern von Objekt 2 aus dem zweiten Test aus verschiedenen Perspektiven
14
Bibliography
[DT62]
D.H., Hubel ; T.N., Wiesel: Receptive fields, binocular interaction and functional
architecture in the cat’s visual cortex. J. Physiology, 1962
[Heb49]
Hebb, Donald: The organization of behavior. A neuropsychological theory. Erlbaum
Books ISBN 0-8058-4300-0 (Nachdruck der Ausgabe New York 1949), 1949
[K.94]
K., Tanaka: Inferotemporal cortex and object vision. Ann. Rev. Neuroscience, 1994
[MD85]
Moran ; Desimone: Selective Attention Gates Visual Processing in the Extrastriate
Cortex. Science 229(4715), 1985
[MS09a]
M., Malmir ; S., Shiry: Class Specific Redundancies in Natural Images: a Theory of
Extrastriate Visual Processing. International Joint Conference on Neural Networks,
2009
[MS09b]
M., Malmir ; S., Shiry: A Model of Angle Selectivity in Area V2 with Local Divisive
Normalization. IEEE Symposium Series on Computational Intelligence, 2009
[MS09c]
M., Malmir ; S., Shiry: Object Recognition with Statistically Independent Features:
A Model Inspired by the Primate Visual Cortex. Robocup2009, 2009
[OE01]
O., Schwartz ; E.P., Simoncelli: Natural signal statistics and sensory gain control.
Nature Neuroscience, 2001
[P.91]
P., Földiák: Learning Invariance from Transformation Sequences. Neural Computation, 1991
[R.09]
R., Farivar: Dorsal-ventral integration in object recognition. Brain Research Reviews
Elsevier, 2009
[SPRP06] Stringer, M. ; Perry, G. ; Rolls, T. ; Proske, H.: Learning invariant object
recognition in the visual system with continuous transformations. Biological Cybernetics 94, 2006
15
Herunterladen