Prof. Dr. Christoph von der Malsburg, Institut für Neuroinformatik

Werbung
Prof. Dr. Christoph von der Malsburg, Institut für Neuroinformatik
Neuronales Modell des Objektsehens: Schnelle Links für scharfe
Bilder
Mit jedem Augenschlag und jeder Bewegung unseres Gegenübers verändert
sich blitzschnell das Bild, das wir sehen. Auf einen Schirm an die Wand
projiziert, würde uns dieses bewegte Netzhautbild nur schwindelig machen.
Doch unser „inneres Auge“ scheint auf eine andere „Leinwand“ zu blicken.
Objekte mit den Au gen zu erfassen, ist uns so natürlich, dass uns kaum klar wird,
wie komplex dieser Vorgang ist. Das Bild, das von einem Objekt auf unserem
Augenhintergrund entworfen wird, variiert mit jeder Augenbewegung und jeder
Lageveränderung (Abb 1). Und doch sehen wir ein stabiles Bild des betrachteten
Objektes – aufgebaut aus aktueller visueller Information und dem Gedächtnis. Wie
macht das unser Sehsystem?
Wir haben ein Modell für diesen Vorgang entworfen und über viele Jahre verfeinert:
“Dynamic Link Matching“ (DLM). Dieses Objekterkennungsmodell (Info, S. 33) ist von
vornherein darauf angelegt, in natürlichen, nicht manipulierten und vereinfachten
Umgebungen zu funktionieren und kann inzwischen als sehr erfolgreich angesehen
werden. Seine Stärken hat es vor allem bei der Gesichtserkennung unter Beweis
gestellt und dort mehrfach die internationale Konkurrenz geschlagen. Seit einigen
Jahren wird DLM industriell eingesetzt, insbesondere für die Gesichtserkennung in
der ursprünglich als An-Institut der Ruhr-Universität gegründeten Firma ZN.
“Dynamic Link Matching“ ist als biologisches Modell konzipiert und orientiert sich
soweit wie möglich an den Neurowissenschaften. Doch mitunter ergeben sich
gerade dann neue, interessante Sichtweisen, wenn sich dieser Rahmen als zu eng
erweist.
Das Modell besteht aus einer „Bilddomäne“, einer “Modelldomäne“ und einem
System von „dynamischen Links“. Die Bilddomäne entspricht der primären visuellen
Hirnrinde im hinteren Bereich des Gehirns, in der sich das schnell variable Bild des
Augenhintergrunds widerspiegelt. Die Modelldomäne befindet sich vermutlich im
Schläfenlappen oder seitlichen Scheitellappen des Gehirns. Dort baut sich das
hypothetische stabile Bild auf. Die dynamischen Links werden von einem System
neuronaler Fasern gebildet, die auf schneller Zeitebene schalten.
Wie wir aus der Neurophysiologie wissen, ist eine Hirnrindenzelle im Bildbereich
durch die periphere Sehbahn mit einem kleinen Bereich (dem ,,rezeptiven Feld“) der
Netzhaut verbunden und empfängt von dort Signale. Sie ,,schaut“ so quasi wie durch
ein größeres oder kleineres Schlüsselloch auf die Umwelt. Durch dieses – ihr
spezielles – Guckloch hält jede Zelle nach einem bestimmten Merkmal Ausschau.
Das tut sie, indem sie ein entsprechendes Empfindlichkeitsprofil mit dem aktuellen
Bild vergleicht und dann je nach Ähnlichkeit stärker oder schwächer antwortet (Info
2). Alle Zellen, deren rezeptive Felder an derselben Stelle der Netzhaut zentriert sind,
werden durch einen „dynamischen Bindungsmechanismus“ zu einem Paket
zusammengefasst, so wie sich Atome zu Molekülen verbinden. Wenn die
Empfindlichkeitsverteilungen der Zellen bekannt sind, lässt sich aus den Signalen
eines solchen Merkmalspaketes ein kleiner Teil des Bildes rekonstruieren. Das
gesamte Bild eines Objektes wird durch ein Feld von Merkmalspaketen in der
Bilddomäne dargestellt.
Auch die Modelldomäne besteht aus Merkmalspaketen, die ein eigenes Feld für
jedes gespeicherte Objekt bilden. Dabei können einzelne Pakete oder ganze
Teilfelder auch für verschiedene Objekte wiederverwendet werden. So wie im
Augenhintergrund das zentrale Gebiet eine herausragende Rolle spielt, indem wir
dort das Bild des gerade interessierenden Objektes durch Augenbewegung
zentrieren, so gibt es in der Modelldomäne ein ähnliches ,,Fenster“, in dem jeweils
ein Objektfeld aktiviert werden kann (s. Info 2).
Wenn ein Objektbild irgendwo im Bereich des schärfsten Sehens des Auges (Fovea)
auftaucht, ist es die Aufgabe der dynamischen Links, in einem raschen Prozess –
buchstäblich im Augenblick – ein glattes Feld von Punkt-zu-Punkt-Verbindungen
zwischen der Bild- und der Modelldomäne aufzubauen. Dabei müssen
korrespondierende Punkte in Bild und Modell miteinander verbunden werden (s. Info
2). Sobald eine solche Abbildung installiert ist, wird die augenblickliche
Gesamtähnlichkeit zwischen allen Paaren von Merkmalspaketen in den verbundenen
Bild- und Modellpunkten ausgewertet. Die Ähnlichkeit verbessert sich, indem die
Abbildung kontinuierlich in Position, Größe und Orientierung angepasst wird.
Gleichzeitig wird auch das im Modellfenster dargestellte Objektmodell auf Ähnlichkeit
optimiert. In unserem Gehirn ist dieser Vorgang äußerst schnell, wir erkennen grobe
Objektklassen wie „Auto“, „Haus“ oder „Gorilla“ in weniger als einer Zehntelsekunde.
Wahrscheinlich wird in unserem Gehirn ein schnelles Index-System verwendet, das
die Objektklassen kategorisiert und ein entsprechendes Bild in das Modellfenster
projiziert. Dieses Bild wird dann auf größte Ähnlichkeit mit dem projizierten
Bildbereich optimiert und kann allen Objektbewegungen kontinuierlich nachgeführt
werden. Das aus aktuellen Bild- und gespeicherten Modelldaten konstruierte Bild im
Modellfenster vermittelt uns den stabilen, von Augenbewegungen unbeeinflussten
Eindruck von den Objekten. Unser „inneres Auge“ blickt auf das stabile Bild im
Modellfenster.
Im Rechner haben wir einen Prozess der Objekterkennung in dieser Art realisiert und
hauptsächlich auf das Problem der Gesichtserkennung angewendet – mit großem
Erfolg, soweit es um den Vergleich von statischen Bildern im Bild- und Modellbereich
geht (Abb. 2). Wir wollen nun die Fähigkeit des natürlichen Sehsystems nachbilden,
visuelle Erfahrung direkt aus der natürlichen Umwelt aufzunehmen. Sobald das
gelingt, wird unser System selbständig aus Bildern lernen und aus vielen Tausenden
von Einzelbildern ein plastisches Modell des menschlichen Gesichts aufbauen. Es
wird sich nach Gesichtsform, Pose, Ausdruck und Beleuchtung an beliebige
Eingangsbilder anpassen und diese damit genau wiedergeben und erkennen
können. Wir hoffen, dieses Ziel in ein oder zwei Jahren zu erreichen.
Obwohl unser Modell der Objekterkennung weiter verbessert wird, ergibt sich daraus
für die Neurowissenschaften schon heute eine Fülle von Konsequenzen und
experimentellen Voraussagen. Der wahrscheinlich wichtigste Punkt ist die im
Rechner experimentell nachgewiesene Fähigkeit des Modells, ganz verschiedene
Objekte zu erkennen. Nicht viele Konzepte lassen sich so experimentell bestätigen.
Seit entsprechende Rechner-Kapazitäten zur Verfügung stehen, sind
Rechnerexperimente eine scharfe Waffe gegen oberflächlich überzeugende, aber
funktionell nicht „lebensfähige“ Ideen.
Wenn wir das Modell für den biologischen Prozess der Objekterkennung ernst
nehmen, dann ergeben sich daraus eine ganze Reihe von experimentellen
Voraussagen. Dies betrifft zum Beispiel den Schwierigkeitsgrad von
Erkennungsaufgaben: Nach Experimenten, bei denen Testpersonen Gesichter auf
Fotos wiedererkennen sollten, konnte unser amerikanischer Kollege Irv Biederman
zeigen, dass das von uns entwickelte System diese menschliche Fähigkeit richtig
wiedergibt. Ohne jede Anpassung des Modells an die experimentelle Situation kann
es den Schwierigkeitsgrad bei der Erkennung von Gesichtern durch Menschen auch
bei wechselnder Pose oder verändertem Gesichtsausdruck richtig wiedergeben.
Dies ist noch mit keinem anderen Modell gelungen und stützt seine direkte
biologische Relevanz.
Nur wenn es um das Erkennen von vertrauten Gesichtern geht, bleibt das Modell in
der gegenwärtigen Form deutlich hinter den menschlichen Fähigkeiten zurück, weil
unser visuelles System vertraute Personen in allen Variationen von Gesichtsformund Ausdruck, Pose oder Beleuchtung kennt. Wir hoffen, diese Defizite durch Lernen
beseitigen zu können, indem auch das künstliche System viele Bilder „sammelt“.
Schließlich erreicht selbst der Mensch erst weit nach seinem zehnten Lebensjahr die
Kompetenz eines Erwachsenen, Objekte zu erkennen.
Objekte auch dann zu erkennen, wenn sich ein Bild ständig verändert, ist ein
zentraler Vorgang in unserem Verhältnis zur Umwelt. Es ist ein Beispiel für die
fundamentale Fähigkeit unseres Gehirns, die strukturelle Verwandtschaft zwischen
mentalen Objekten zu erkennen: selbst bis hin zu Analogien zwischen zwei
Geschichten. Dies alles ist nicht denkbar ohne einen dynamischen
Bindungsmechanismus zur Konstruktion strukturierter Objekte (Modelldomäne) und
ohne dynamische Links zur Darstellung struktureller Beziehungen zwischen Bild und
Modell. Das neuronale Standardmodell beschreibt dagegen ein starres
Verbindungsmuster, hier können sich Neuronen nicht situationsabhängig gruppieren
und verbinden. Unser Modell macht hier weitreichende experimentelle Voraussagen.
Dass der grundsätzliche dynamische Bindungsmechanismus unseres Gehirns darin
bestehen könnte, dass Neuronen Signale miteinander synchronisieren, haben wir
bereits vor mehr als zwei Jahrzehnten vorgeschlagen. Erst mit großer zeitlicher
Verzögerung setzte eine weltweite Kontroverse ein. Inzwischen stützen
experimentelle Daten aus einer Reihe von Labors die Existenz und funktionelle
Bedeutung dieses Mechanismus. Dynamische Links lassen sich im Gehirn einfach
realisieren, indem Synapsen durch Signalkorrelationen schnell und reversibel
zwischen einem leitenden und einem nichtleitenden Zustand schalten (Abb. 3).
Experimentell überprüft wurde das bis heute nicht, obgleich dies möglich wäre. Doch
die Hinweise in der Literatur mehren sich, dass sich Hirnzustände vermutlich nicht
allein über die Zellaktivität erfassen lassen: Zum Beispiel verändern Synapsen ihr
Gewicht ständig und sehr schnell.
Der enorme funktionelle Vorteil unseres Modells liegt in seiner Fähigkeit zur
Innovation, zur Erzeugung von Bindungen und Links, wo immer sie die Situation
erfordert. Der Nachteil ist ihr großer Zeitbedarf, da Signalkorrelationen in der Zeit
erzeugt und ausgewertet werden müssen. Wir vermuten daher, dass das Gehirn
Bindungen und Links, die einmal als wichtig erkannt wurden, durch geeignete
Verschaltungen der Neuronen so realisiert, dass sie sehr viel schneller aktiviert
werden können. Unabhängig von der Art der neuronalen Realisierung eröffnet die
Hypothese dynamischer Bindungen und Links eine völlig neue, weitreichende
Perspektive auf das Gehirn und seine Darstellung der Wirklichkeit.
Herunterladen