Ausarbeitung Seminar RoboCup: Autonome mobile Roboter im Wettbewerb Object Recognition with Statistically Independent Features: A Model Inspired by the Primate Visual Cortex Sven Stumm Submitted on : September 21, 2009 Contents 1 Einleitung 1 2 Visueller Cortex 2 3 Neuronale Netze 4 4 Idee von M. Malmir und S. Shiry [MS09c] 7 5 Implementation und Applikation 5.1 Gabor–Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Hierarchie und Trace Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Redundanz Reduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 9 9 10 6 Ergebnisse 12 7 Zusammenfassung 13 Bibliography 15 II 1 Einleitung Ziel dieser Ausarbeitung ist es, ein Modell zur Objekterkennung zu erläutern, welches versucht, den visuellen Cortex von Primaten nachzuempfinden. Menschen sind dazu in der Lage, Objekte aus verschiedenen Perspektiven mit hoher Genauigkeit zu erkennen. Das vorgestellte Modell versucht, die bisherigen besser bekannten Forschungsergebnisse im Bereich des visuellen Cortexes auszunutzen, um ein hierarchisch aufgebautes künstliches neuronales Netz zu schaffen. Dieses künstliche neuronale Netz soll ebenso Objekte mit hoher Genauigkeit unter verschiedenen Rotationen, Verschiebungen und bei unterschiedlichem Hintergrund erkennen. Da unter anderem im Bereich der Robotik Objekterkennung aus verschiedenen Perspektiven und Entfernungen eine wichtige Rolle spielt, wird gerade in diesem Bereich zunehmend geforscht. Die meisten bekannten Methoden, die dazu in der Lage sind, Objekte relativ exakt zu erkennen, benötigen zu viele Ressourcen oder haben zu hohe Ansprüche in Bezug auf Hintergrund und Beleuchtung für reale Anwendungen. Auch aus diesem Grund wird versucht, Objekt–Erkennungs–Methoden zu entwickeln, die dem visuellen System von Primaten nachempfunden sind, da dieses besser dazu in der Lage ist, Objekte in verschiedenen Transformationen zu erkennen als bis jetzt bekannte Objekt–Erkennungs– Systeme. Im Nachfolgenden wird es zunächst einen Einblick zum visuellen Cortex geben. Danach wird ein Überblick in neuronalen Netzen geschaffen und die später verwendete Trace– Lernregel erläutert. Nachdem diese Grundlagen geklärt sind, wird das Objekt–Erkennungs–Modell und dessen Implementation, sowie die vorhandenen Forschungsergebnisse vorgestellt. 1 2 Visueller Cortex Der visuelle Cortex ist ein Teil der Großhirnrinde und somit zentraler Bestandteil des Sehsystems, welches die visuelle Wahrnehmung ermöglicht. Er wird in die primäre Sehrinde V1 sowie in die extrastriären Bereiche V2 – V5 unterteilt. Er ist “retinotop” aufgebaut, was bedeutet, dass auf der Netzhaut (Retina) nebeneinander abgebildete Punkte auch hier nebeneinander liegen. Der visuelle Cortex befindet sich im Occipitallappen des Gehirns und erhält Informationen direkt vom Metathalamus. Der Metathalamus ist das Zentrum der visuellen informationen, die von der Retina des Auges kommen. Häufig wird zwischen zwei Strömen unterschieden dem ventralen und dem dorsalen Strom. Informationen vom dorsalen Strom wandern durch die Schichten V1, V2 und V5 und enden im “Planungszentrum” des Gehirns. Der dorsale Strom ist somit für Bewegungsinformationen zuständig. Der ventrale Strom wandert durch die Schichten V1, V2 und V4 und ist nach aktueller Forschung für die Objekterkennung zuständig. Er endet im Bereich für komplexere Objektinformationen und Gesichtserkennung. Eine direkte Unterscheidung zwischen beiden Strömen ist als kritisch zu betrachten, da sie eng miteinander verbunden sind [R.09]. Jedoch genügt zunächst eine Betrachtung des ventralen Stroms und seiner Bereiche für eine guten Objekterkennung aus verschiedenen Perspektiven. Der ventrale Strom Wie bereits erwähnt, wandern Informationen von der Retina des Auges durch verschiedene Schichten des Visuellen Cortex. Im Fall des ventralen Stroms heißen diese Schichten V1, V2 und V4. Beim Wandern durch diese Schichten ändern sich die neuralen Repräsentationen von neuralen Reaktionen auf kleine Ecken bis hin zur Repräsentation von speziellen Objekten im Bild. Somit kann das Feuern eines einzelnen Neurons in einer höheren Schicht das Auftreten einer bestimmten geometrischen Form im Bild bedeutend. Deutlich wird der Aufbau des visuellen Cortexes als hierarchisches Eigenschaften–Erkennungs–System in [DT62] dargestellt. Die hierarchische Struktur, entlang derer immer komplexer werdende Eigenschaften dem Bild entnommen werden, soll hier als Grundlage für das später folgende Modell dienen und wird ausführlich in [DT62] und [K.94] beschrieben. Im Folgenden wollen wir die Schichten des Ventral Stroms näher betrachten. V1 – die primäre Sehrinde Die primäre Sehrinde V1 ist der bis jetzt am besten untersuchte Bereich des visuellen Cortex. V1 ist wichtig sowohl für statische, als auch für sich bewegende Objekte und dient sehr stark zur Mustererkennung. Bereiche in V1 können direkt Bereichen der Retina des Auges zugeordnet werden; sogar der Blinde Fleck kann zugeordnet werden. Nach aktuell herrschender Meinung bestehen die Reaktionen von V1–Neuronen aus Gruppen von lokalen zeitlichen Filtern vergleichbar mit der Gabor–Transformation. Die Gabor–Transformation ist eine spezielle Art der Fouriertransformation, auf die später noch genauer eingegangen wird. 2 Somit können theoretisch durch diese Filter Informationen über Raum, Frequenz, Orientierung, Bewegung, Richtung und Geschwindigkeit gewonnen werden. Informationen werden nicht als räumliches oder optisches Bild an V1 weiter geleitet, sondern eher als lokale Kontraste. In den darüber liegenden Schichten werden Informationen immer weniger lokal verarbeitet. Das Wissen über die räumliche Lage der Information bleibt in der lokalen Kontrastdarstellung erhalten. Allgemein sammeln sich Neuronen mit ähnlichen Eigenschaften in Klustern als kortikale Spalten. Durch die Überschneidung einzelner Wahrnehmungsbereiche im Bild ensteht eine gewisse Redundanz, die im später folgendem Modell ausgenutzt werden soll. V2 V2 ist der erste Bereich des visuellen Assoziationsareals und erhält starke Verbindungen von V1 und sendet starke Verbindungen zu V3, V4 und V5. V2 Sendet auch Feedback zu V1. Von der Funktionalität sind hier viele Eigenschaften ähnlich denen von V1. Die Zellen werden auf bestimmte simple Eigenschaften, wie Orientierung, räumliche Frequenz und Farbe, trainiert. Im Gegensatz zu V1 werden sie aber auch an komplexere Eigenschaften angepasst wie Scheinkonturen und ob die Stimulation vom Objekt oder vom Untergrund ausgeht. V2 Zellen können zudem komplexere Muster erkennen. Einzelne V2–Neuronen feuern, wenn ein bestimmtes Muster der anliegenden V1–Neuronen feuert. V4 V4 ist der erste Bereich im ventralen Strom, der starke Aufmerksamkeitsmodulation zeigt. Das bedeutet unter anderem, dass die Feuerrate der Neuronen durch selektive Wahrnehmung beeinflusst wird [MD85]. Somit beeinflusst eine Fokussierung der Wahrnehmung auf einen bestimmten Bildbereich, ob V4–Neuronen feuern, wenn sie ein bestimmtes Muster in V2–Neuronen erkennen. Ähnlich V1 sind V4 Neuronen auf Eigenschaften wie Orientierung, räumliche Frequenz und Farbe trainiert. Anders als bei V1 ist V4 darauf angepasst, Objekteigenschaften mittlerer Komplexität zu erkennen wie einfache geometrische Formen, obwohl es für diesen Bereich noch keine genaueren Erkenntnisse über die genaue Ausrichtung gibt. V4 ist jedoch nicht für komplexere Objekterkennung wie Gesichter zuständig, diese werden im IT–Cortex erkannt. Zunächst wurde vermutet, dass V4 für das Verarbeiten von Farbinformationen zuständig ist. Erst später wurde gezeigt das V4 direkt mit der Formerkennung verknüpft ist . 3 3 Neuronale Netze Das folgende Kapitel soll einen kleinen Einblick in den Bereich der künstlichen neuronalen Netze geben, um das Verständniss des später folgenden Modells zu erleichtern. Außerdem wird das im Modell verwendete Lernverfahren näher erläutert. Figure 3.1: Beispiel eines Künstlichen neuronalen Netzes Figure 3.2: Schematischer Aufbau eines künstichen Neurons Künstliche neuronale Netze sind Netze aus künstlichen Neuronen. Ihr Ursprung liegt in der Biologie. Zumeist ist jedoch die Idee eine Abstraktion bzw. Modellbildung von Informationsverarbeitung zu schaffen und nicht das Nachbilden biologischer neuronaler Netze. Die Topologie eines Netzes, d.h. die Zuordnung von Verbindungen zu Knoten, muss abhängig 4 von seiner Aufgabe gut durchdacht sein. Nach der Konstruktion eines Netzes folgt die Trainingsphase, in der das Netz lernt. Theoretisch kann ein Netz durch folgende Methoden lernen: • Entwicklung neuer Verbindungen, Löschen bestehender Verbindungen • Ändern der Gewichtung (der Gewichte wij von Neuron i zu Neuron j) • Anpassen der Schwellwerte der Neuronen • Hinzufügen oder Löschen von Neuronen Außerdem verändert sich das Lernverhalten bei Veränderung der Aktivierungsfunktion der Neuronen oder der Lernrate des Netzes. Praktisch gesehen ”lernt” ein Netz hauptsächlich durch Modifikation der Gewichte der Neuronen. Dadurch sind KNNs in der Lage, komplizierte nichtlineare Funktionen über einen Lern-Algorithmus, der durch iterative oder rekursive Vorgehensweise aus vorhandenen Eingangs– und gewünschten Ausgangswerten alle Parameter der Funktion zu bestimmen versucht, zu erlernen. Die Funktion besteht aus vielen einfachen gleichartigen Teilen und wird erst in ihrer Summe komplex. Trace–Lernregel Die Trace-Lernregel baut direkt auf der Hebbschen Lernregel auf. Die Hebbsche Lernregel wurde vom Psychologen Donald Olding Hebb im Buch ”The Organization of Behavior” formuliert. Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotenzialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotenzials in B größer wird. [Heb49] Also werden, wenn Neuron A häufiger gleichzeitig mit Neuron B aktiv ist, die beiden Neuronen aufeinander bevorzugt reagieren (”what fires together, wires together”). Dieser Prozess wurde von Hebb anhand von Veränderungen der synaptischen Übertragung zwischen Neuronen nachgewiesen. Die Hebbsche Lernregel gehört zu den unüberwachten Lernregeln bei denen das Lernen ausschließlich durch Eingabe der zu lernenden Muster erfolgt. Solche neuronalen Netze verändern sich entsprechend den Eingabemustern von selbst. In künstlichen neuronalen Netzen wird diese Veränderung der synaptischen Übertragung als Gewichtsänderung des neuronalen Graphen abgebildet. Die Hebbsche Lernregel ist die älteste und einfachste neuronale Lernregel. Das Gewichtungsupdate wird dabei wie folgt berechnet: ∆wij = λ · ai · oj wobei: • ∆wij : Veränderung des Gewichtes von Neuron j zu Neuron i (also die Änderung der Verbindungsstärke dieser beiden Neuronen) • λ : Lernrate (ein geeignet zu wählender konstanter Faktor) • ai : Aktivierung von Neuron i 5 3 Neuronale Netze • oj : Ausgabe von Neuron j, das mit Neuron i verbunden ist Von Földiák wurde später die Trace-Lernregel beschrieben, bei der invariante Selektivität der Neuronen entwickelt wird durch stetige räumliche und zeitliche Transformation der Objekte [P.91]. Wie hier zu erkennen sein dürfte, sind solche Neuronen relativ nah orientiert an denen, die im biologischen neuronalen Cortex zu finden sind. Die Erweiterung der Hebbschen Lernregel besteht hierbei darin, einen Teil der vorherigen Reaktion des Neurons mit im Gewichtungsupdate zu berücksichtigen: t−1 t ∇wij = λ · yj−t · (xti − wij ) wobei: • wij : Gewichtung der Verbindung zwischen Neuron i und Neuron j • xti : Eingabe i in iteration t • λ : Lernrate t−1 • λ·yj−t ·wij : wird abgezogen, um eine unbegrenzte Erhöhung der Gewichtung zu verhindern • yj−t : ist hierbei der Tracewert vom Neuron j in der Iteraton t und wird wie folgt berechnet: yj−t = η · yj−t−1 + (1 − η) · yjt wobei : • 0 < η < 1: Trace Konstante • yjt : Bottum-up-Aktivität des Neurons j in der Iteration t(genaueres hierzu später bei der Modelbeschreibung) 6 4 Idee von M. Malmir und S. Shiry [MS09c] Im Bereich der Objekterkennung sind bereits eine Reihe von Verfahren bekannt. Jedoch sind die meisten davon nicht besonders effektiv für Anwendung in der realen Welt. Simple Verfahren wie correlationsbasiertes Template Matching sind z.B. sehr empfindlich gegenüber von Objekttransformationen. Komponentenbasierte Methoden, die versuchen, Komponenten des Objekts zu extrahieren und diese für die Objekterkennung zu verwenden, besitzen leider das Problem, dass hierbei Selektivität und Invarianz gegeneinander arbeiten. Also sind diese Modelle entweder, wie zum Beispiel histrogrammbasierte Modelle, unempfindlich gegenüber Objekttransformationen, können jedoch nicht zwischen ähnlichen Objekten unterscheiden oder, wie Methoden die Graustufflecken nutzen, sind sie sehr selektiv aber empfindlich gegenüber Objekttransformationen. Daher sind einige Modelle ausprobiert worden, die versuchen, Invarianz bzgl. Objekttransformationen zu erreichen, indem sie sich am visuellen Cortex orientieren. Die Idee von M. Malmir und S. Shiry ist es, ein Modell aufzustellen, dass näher an der biologischen Vorlage ist. Man versucht, ein hierachisches neuronales Netz zu erzeugen, bei dem die einzelnen Neuronen auf ähnliche Eigenschaften trainiert werden, wie die des visuellen Cortex. Dieses Modell wird duch die Combination zweier unterschiedlicher Ideen aus dem Bereich des visuellen Cortexes erzeugt. So werden zum einen Neuronen mit der am visuellen Cortex orientierten Trace-Lernregel auf Invarianz trainiert werden. Zum anderen werden statistische Eigenschaften natürlicher Bilder, auf die wir später genauer eingehen werden, genutzt um jede Schicht des neuronalen Netze zu optimieren und Redundanz von Neuronen zu reduzieren. 7 5 Implementation und Applikation Das Modell von M. Malmir und S. Shiry besitzt einen hierachischen Aufbau ähnlich dem ventralen Strom des visuelen Cortex. Die Neuronen in jeder Schicht erhalten Bottom-UpEingabe von der darunter liegenden Schicht und horizontale Eingabe von der selben Schicht. Hierbei wirken die Bottum-Up-Eingaben stimulierend und entscheiden über die primäre Form der Selektivität, während die horizontalen Eingaben hemmend wirken und das Extrahieren optimaler Eigenschaften im Bild erleichtern sollen. Da Neuronen aus V1 gut durch Gabor–Filter beschrieben werden können werden im Modell Gabor–Filter mit unterschiedlicher Orientierung verwendet. Figure 5.1: Das Modell nach M. Malmir und S. Shiry. V1 ist durch Gabor–Filter mit Orientierung zwischen 0◦ und 150◦ in 30◦ Schritten modelliert. Die zwei verschiedenen Inputs der Schichten (Bottom-Up und Horizontal) sind nur aus Gründen der Übersichtlichkeit für unterschiedliche Neronen eingezeichnet 8 5.1 Gabor–Filter 5.1 Gabor–Filter Die Gabor–Transformation stellte eine spezielle gefensterte Fourier–Transformation dar. Jede lokale Änderung eines Signals bewirkt eine Änderung der Fourier–Transformation über die gesamte Frequenzachse. Daher stellte eine Fenster–Fourier–Transformation eine Möglichkeit dar, eine Fourier–Transformation im Ortsraum zu lokalisieren. Sie beschreibt dann den lokalen Frequenzinhalt in einem Fenster g um einen Punkt. Die Relation zwischen Aktivierungen für bestimmte räumliche Positionen sind sehr charakteristisch zwischen Objekten in einem Bild. Ein Gabor–Filter ermöglicht es so, auch wichtige Aktivierungen aus dem Bild zu extrahieren und somit eine effiziente Objekt Repräsentation zu erzeugen. F (x, y) = exp(− x20 + γ 2 · y02 ) · cos((2πx0 )/(λ)) 2σ 2 wobei: • x0 = x · cos(θ) + y · sin(θ) • y0 = −x · sin(θ) + y · cos(θ) • x,y: Position des Filter im Bild • θ : Orientierung • γ : Aspekt ratio • σ : effektive Breite • λ : wellenlänge des Filters Im Modell von M. Malmir und S. Shiry wurde ein Satz von Gabor–Filtern mit 6 verschiedenen Orientierungen und einer räumlichen Frequenz verwendet: Figure 5.2: Gabor–Filter mit 6 Orientierungen verwendet für V1 5.2 Hierarchie und Trace Lernregel Figure 5.3: [MS09c] 9 5 Implementation und Applikation Die Buttom-Up Aktivität der V2 und V4 Neuronen wird als gewichtete Summe der Neuronen Aktivität in ihrem Wahrnehmungsfeld(RF) berechnet: yibup = X bup · xj wij j∈RFi wobei: • yibup : Bottom-Up Aktivität des Neurons i • RFi : Wahrnehmungsfeld des Neurons i in der daruntergelegenen Schicht • xj : Neuron in RFi bup • wij : Gewichtung der bottum-up Verbindung zwischen Neuron i und j Somit wird eine Hirachie geschaffen, bei der das Wahrnehmungsfeld jedes Neurons mit jeder Schicht wächst. Auch die Stimulation jedes Neurons wird mit jeder Schicht komplizierter, ähnlich dem ventralen Strom im visuellen Cortex. Neuronen in V2 und V4 sind invariant zu Transformationen ihres gewünschten Stimulus. Basierend auf partieller Invarianz von V2 und V4–Neuronen kann vollständige Invarianz gewonnen werden. [SPRP06] stellt einen neuronalen Mechanismus vor, um invariante Antwort zu Transformationen eines gewünschten Stimulus zu erhalten. Dieser basiert darauf, dass Neuronen ihrer Aktivierung für längere Zeit erhalten. Dementsprechend stellt die vorgestellte Trace Lernregel eine geeignete Lernregel dar, um Invariante Selektivität bzgl. des Bottom-Up-Inputs des Modells zu erlernen, da diese die vorhergehende Aktvierung des Neurons mit berücksichtigt. Das neuronale Netz wird mit Bildern von Objekten aus verschiedenen Perspektiven trainiert. 5.3 Redundanz Reduktion Ein Eigenschaften basiertes Objekterkennungssystem kann nur effizient sein wenn die extrahierten Eigenschaften einen hohen Informationgehalt besitzen. Somit reicht das Lernen einer invarianten Antwort nicht aus, um hohe Erkennungsraten für verschiedene Objekte zu erhalten. Per Redundanz–Reduktion muss auch dafür gesorgt werden, dass wichtige Eigenschaften, die Objekte unterscheiden können, extrahiert werden. Im Modell von M. Malmir und S. Shiry wird hierzu ein Redundanz–Reduzierungsverfahren, welches statistische Eigenschaften von natürlichen Bildern nutzt, verwendet. Das Verfahren wird auf mehreren Schichten verwendet um Optimale Eigenschaften für die Objekterkennung zu sichern. Lineare Filter wie Gabor–Filter stellen optimale Eigenschaften bzgl. Statistiken erster Ordnung dar. Die Abhängigkeiten in natürlichen Bildern sind jedoch nichtlinear und bzgl. Statistiken erster Ordnung nicht erkennbar. Jedoch gibt es spezielle Formen von Abhängigkeiten zwischen den Filterantworten. So ist zum Beispiel die Varianz eines Filters abhängig von den Antworten anliegender Filter. Schwartz und Simoncelli benutzten trennende Normalisierung, um unabhängige Eigenschaften aus Teilen natürlicher Bilder zu gewinnen [OE01]. M. Malmir und S. Shiry entwickelten diese System weiter für hierarchische Architekturen und erzeugten so Neuronen, ähnlich denen in V2 [MS09b],[MS09a]. Diese Idee wurde hier verwendet, um Eigenschaften mit möglichst hohem Informationsgehalt aus natürlichen Bildern zu gewinnen. Hierbei werden die Gewichtungen der horizontalen Verbindungen der neuronalen Netze so 10 5.3 Redundanz Reduktion gelernt, dass sie die Varianz ihrer korrespondierenden Neuronen lernen. var(Lx |Ly , y ∈ Cx ) = X wxy · L2y + σx2 y∈Cx wobei: • Lx und Ly : Antwort der Neuronen x bzw. y • wxy : Gewichtung der horizontalen Verbindung zwischen den Neuronen x und y • Cx : Nachbarregion von Neuron x • σx2 : Varianz des Neurons x die unabhängig von anderen Neuronen ist Die Neuronenantwort wird nun durch diese Varianz geteilt um eine Unabhängigkeit von der Varianz zu erzielen. L2x l 2 2 y y ∈ Cx wxy · Ly + σx Responsex = P Auf die verschiedenen Schichten angewendet erhält man somit global unabhängige neuronale Aktivitäten. Die Gewichtung der Horizontalen Verbindung werden für jedes Neuron gelernt, nachdem die Bottom-Up Verbindung hergestellt wurde. 11 6 Ergebnisse Das vorgestellte Objekterkennungsmodell wurde zum einen mit Hilfe der Coil100 Datenbank getestet und schnitt dort besser ab, als andere Objekterkennungsmodelle 6.1 . Figure 6.1: [MS09c] Zum anderen wurden herausvorderndere Bilder mit verschiedenen Hintergünden und Beleuchtungen getestet und eine Erkennungsrate höher als 95% erreicht 6.2. Figure 6.2: [MS09c] 12 7 Zusammenfassung Insgesamt wurde ein effizientes Objekt-Erkennungs-Modell vorgestellt, dass sich am visuellen Cortex orientiert. Zunächst wurde ein hierarchisches künstliches neuronales Netz erstellt, mit den Schichten V1, V2 und V4. Neuronen in V1 sind hierbei repräsentiert durch Gabor–Filter mit 6 verschiedenen Ausrichtungen. V1–Neuronen extrahieren lokale Eigenschaften, wie Raum, Frequenz und Ausrichtung aus einem kleinen Fenster des Bildes. V2–Neuronen erhalten Bottom-Up-Input aus den V1–Neuronen und können somit auf Muster in diesen trainiert werden. Ähnliches gilt für V4–Neuronen welche Bottom-Up-Input aus V2 erhalten und somit Muster in V2–Neuronen erkennen können, welche bereits als geometrische Formen interpretiert werden können. Ein bestimmtes Muster von feuernden V4–Neuronen ist nun repräsentativ für ein bestimmtes Objekt. Um eine Invarianz gegenüber Objekttransformationen zu erreichen, werden die Bottom-UpInputs mit Hilfe der Trace-Lernregel trainiert. Durch die Eigenschaft der Trace-Lernregel, die vorherige Aktivierung der Neuronen zu berücksichtigen, können die Verbindungen durch Bilder des selben Objekts aus verschiedenen Perspektiven so trainiert werden, dass Eigenschaften, die in allen Bildern unabhängig von Transformation für das Objekt gelten, für das Feuern eines Neurons in V2 bzw. V4 zuständig sind. Durch schritthafte Änderungen der Perspektive von einem Objekt, werden die Verbindungen somit invariant trainiert. Somit werden Eigenschaften, die in jeder Perpektive vorkommen erlernt. Jedoch sind nur solche Eigenschaften, die repräsentativ für ein bestimmtes Objekt sind wichtig und können durch Redundanz-Reduktion extrahiert werden. In natürlichen Bildern sind aneinanderliegende Bildbereiche in gewisser Form von einander abhängig. Konkret ist die Varianz eines Gabor–Filters für ein bestimmtes Fenster im Bild abhängig von den Gabor–Filter Ergebnissen der benachbarten Fenster. Um unabhängige Eigenschaften eines Objektes zu extrahieren, wird ein horizontaler Input innerhalb jeder Schicht verwendet. Jedes Neuron einer Schicht ist nun verbunden mit seinen Nachbarn. Es berechnet die von den Nachbarn abhängige Varianz. Die Aktivierung des Neurons wird nun durch die abhängige Varianz geteilt. Somit wird eine von den Nachbarn unabhängige Eigenschaft extrahiert und eindeutigere Informationen bzgl. des Objekts zur darüberliegenden Schicht transportiert. Im Modell werden also Bottom-Up-Verbindungen zur Invarianz bzgl. Objekttransformation trainiert, während horizontale Verbindungen das Extrahieren eindeutiger Objekteigenschaften fördern. Alles im allem wird so ein neuronales Netz ähnlich dem visuellen Cortex erzeugt und ein biologisch einleuchtendes Objekt-Erkennungsmodell geschaffen. 13 7 Zusammenfassung Figure 7.1: Für den zweiten Test verwendete Objekte Figure 7.2: Beispiele von Bildern von Objekt 2 aus dem zweiten Test aus verschiedenen Perspektiven 14 Bibliography [DT62] D.H., Hubel ; T.N., Wiesel: Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. J. Physiology, 1962 [Heb49] Hebb, Donald: The organization of behavior. A neuropsychological theory. Erlbaum Books ISBN 0-8058-4300-0 (Nachdruck der Ausgabe New York 1949), 1949 [K.94] K., Tanaka: Inferotemporal cortex and object vision. Ann. Rev. Neuroscience, 1994 [MD85] Moran ; Desimone: Selective Attention Gates Visual Processing in the Extrastriate Cortex. Science 229(4715), 1985 [MS09a] M., Malmir ; S., Shiry: Class Specific Redundancies in Natural Images: a Theory of Extrastriate Visual Processing. International Joint Conference on Neural Networks, 2009 [MS09b] M., Malmir ; S., Shiry: A Model of Angle Selectivity in Area V2 with Local Divisive Normalization. IEEE Symposium Series on Computational Intelligence, 2009 [MS09c] M., Malmir ; S., Shiry: Object Recognition with Statistically Independent Features: A Model Inspired by the Primate Visual Cortex. Robocup2009, 2009 [OE01] O., Schwartz ; E.P., Simoncelli: Natural signal statistics and sensory gain control. Nature Neuroscience, 2001 [P.91] P., Földiák: Learning Invariance from Transformation Sequences. Neural Computation, 1991 [R.09] R., Farivar: Dorsal-ventral integration in object recognition. Brain Research Reviews Elsevier, 2009 [SPRP06] Stringer, M. ; Perry, G. ; Rolls, T. ; Proske, H.: Learning invariant object recognition in the visual system with continuous transformations. Biological Cybernetics 94, 2006 15