Prof. Dr. Christoph von der Malsburg, Institut für Neuroinformatik Neuronales Modell des Objektsehens: Schnelle Links für scharfe Bilder Mit jedem Augenschlag und jeder Bewegung unseres Gegenübers verändert sich blitzschnell das Bild, das wir sehen. Auf einen Schirm an die Wand projiziert, würde uns dieses bewegte Netzhautbild nur schwindelig machen. Doch unser „inneres Auge“ scheint auf eine andere „Leinwand“ zu blicken. Objekte mit den Au gen zu erfassen, ist uns so natürlich, dass uns kaum klar wird, wie komplex dieser Vorgang ist. Das Bild, das von einem Objekt auf unserem Augenhintergrund entworfen wird, variiert mit jeder Augenbewegung und jeder Lageveränderung (Abb 1). Und doch sehen wir ein stabiles Bild des betrachteten Objektes – aufgebaut aus aktueller visueller Information und dem Gedächtnis. Wie macht das unser Sehsystem? Wir haben ein Modell für diesen Vorgang entworfen und über viele Jahre verfeinert: “Dynamic Link Matching“ (DLM). Dieses Objekterkennungsmodell (Info, S. 33) ist von vornherein darauf angelegt, in natürlichen, nicht manipulierten und vereinfachten Umgebungen zu funktionieren und kann inzwischen als sehr erfolgreich angesehen werden. Seine Stärken hat es vor allem bei der Gesichtserkennung unter Beweis gestellt und dort mehrfach die internationale Konkurrenz geschlagen. Seit einigen Jahren wird DLM industriell eingesetzt, insbesondere für die Gesichtserkennung in der ursprünglich als An-Institut der Ruhr-Universität gegründeten Firma ZN. “Dynamic Link Matching“ ist als biologisches Modell konzipiert und orientiert sich soweit wie möglich an den Neurowissenschaften. Doch mitunter ergeben sich gerade dann neue, interessante Sichtweisen, wenn sich dieser Rahmen als zu eng erweist. Das Modell besteht aus einer „Bilddomäne“, einer “Modelldomäne“ und einem System von „dynamischen Links“. Die Bilddomäne entspricht der primären visuellen Hirnrinde im hinteren Bereich des Gehirns, in der sich das schnell variable Bild des Augenhintergrunds widerspiegelt. Die Modelldomäne befindet sich vermutlich im Schläfenlappen oder seitlichen Scheitellappen des Gehirns. Dort baut sich das hypothetische stabile Bild auf. Die dynamischen Links werden von einem System neuronaler Fasern gebildet, die auf schneller Zeitebene schalten. Wie wir aus der Neurophysiologie wissen, ist eine Hirnrindenzelle im Bildbereich durch die periphere Sehbahn mit einem kleinen Bereich (dem ,,rezeptiven Feld“) der Netzhaut verbunden und empfängt von dort Signale. Sie ,,schaut“ so quasi wie durch ein größeres oder kleineres Schlüsselloch auf die Umwelt. Durch dieses – ihr spezielles – Guckloch hält jede Zelle nach einem bestimmten Merkmal Ausschau. Das tut sie, indem sie ein entsprechendes Empfindlichkeitsprofil mit dem aktuellen Bild vergleicht und dann je nach Ähnlichkeit stärker oder schwächer antwortet (Info 2). Alle Zellen, deren rezeptive Felder an derselben Stelle der Netzhaut zentriert sind, werden durch einen „dynamischen Bindungsmechanismus“ zu einem Paket zusammengefasst, so wie sich Atome zu Molekülen verbinden. Wenn die Empfindlichkeitsverteilungen der Zellen bekannt sind, lässt sich aus den Signalen eines solchen Merkmalspaketes ein kleiner Teil des Bildes rekonstruieren. Das gesamte Bild eines Objektes wird durch ein Feld von Merkmalspaketen in der Bilddomäne dargestellt. Auch die Modelldomäne besteht aus Merkmalspaketen, die ein eigenes Feld für jedes gespeicherte Objekt bilden. Dabei können einzelne Pakete oder ganze Teilfelder auch für verschiedene Objekte wiederverwendet werden. So wie im Augenhintergrund das zentrale Gebiet eine herausragende Rolle spielt, indem wir dort das Bild des gerade interessierenden Objektes durch Augenbewegung zentrieren, so gibt es in der Modelldomäne ein ähnliches ,,Fenster“, in dem jeweils ein Objektfeld aktiviert werden kann (s. Info 2). Wenn ein Objektbild irgendwo im Bereich des schärfsten Sehens des Auges (Fovea) auftaucht, ist es die Aufgabe der dynamischen Links, in einem raschen Prozess – buchstäblich im Augenblick – ein glattes Feld von Punkt-zu-Punkt-Verbindungen zwischen der Bild- und der Modelldomäne aufzubauen. Dabei müssen korrespondierende Punkte in Bild und Modell miteinander verbunden werden (s. Info 2). Sobald eine solche Abbildung installiert ist, wird die augenblickliche Gesamtähnlichkeit zwischen allen Paaren von Merkmalspaketen in den verbundenen Bild- und Modellpunkten ausgewertet. Die Ähnlichkeit verbessert sich, indem die Abbildung kontinuierlich in Position, Größe und Orientierung angepasst wird. Gleichzeitig wird auch das im Modellfenster dargestellte Objektmodell auf Ähnlichkeit optimiert. In unserem Gehirn ist dieser Vorgang äußerst schnell, wir erkennen grobe Objektklassen wie „Auto“, „Haus“ oder „Gorilla“ in weniger als einer Zehntelsekunde. Wahrscheinlich wird in unserem Gehirn ein schnelles Index-System verwendet, das die Objektklassen kategorisiert und ein entsprechendes Bild in das Modellfenster projiziert. Dieses Bild wird dann auf größte Ähnlichkeit mit dem projizierten Bildbereich optimiert und kann allen Objektbewegungen kontinuierlich nachgeführt werden. Das aus aktuellen Bild- und gespeicherten Modelldaten konstruierte Bild im Modellfenster vermittelt uns den stabilen, von Augenbewegungen unbeeinflussten Eindruck von den Objekten. Unser „inneres Auge“ blickt auf das stabile Bild im Modellfenster. Im Rechner haben wir einen Prozess der Objekterkennung in dieser Art realisiert und hauptsächlich auf das Problem der Gesichtserkennung angewendet – mit großem Erfolg, soweit es um den Vergleich von statischen Bildern im Bild- und Modellbereich geht (Abb. 2). Wir wollen nun die Fähigkeit des natürlichen Sehsystems nachbilden, visuelle Erfahrung direkt aus der natürlichen Umwelt aufzunehmen. Sobald das gelingt, wird unser System selbständig aus Bildern lernen und aus vielen Tausenden von Einzelbildern ein plastisches Modell des menschlichen Gesichts aufbauen. Es wird sich nach Gesichtsform, Pose, Ausdruck und Beleuchtung an beliebige Eingangsbilder anpassen und diese damit genau wiedergeben und erkennen können. Wir hoffen, dieses Ziel in ein oder zwei Jahren zu erreichen. Obwohl unser Modell der Objekterkennung weiter verbessert wird, ergibt sich daraus für die Neurowissenschaften schon heute eine Fülle von Konsequenzen und experimentellen Voraussagen. Der wahrscheinlich wichtigste Punkt ist die im Rechner experimentell nachgewiesene Fähigkeit des Modells, ganz verschiedene Objekte zu erkennen. Nicht viele Konzepte lassen sich so experimentell bestätigen. Seit entsprechende Rechner-Kapazitäten zur Verfügung stehen, sind Rechnerexperimente eine scharfe Waffe gegen oberflächlich überzeugende, aber funktionell nicht „lebensfähige“ Ideen. Wenn wir das Modell für den biologischen Prozess der Objekterkennung ernst nehmen, dann ergeben sich daraus eine ganze Reihe von experimentellen Voraussagen. Dies betrifft zum Beispiel den Schwierigkeitsgrad von Erkennungsaufgaben: Nach Experimenten, bei denen Testpersonen Gesichter auf Fotos wiedererkennen sollten, konnte unser amerikanischer Kollege Irv Biederman zeigen, dass das von uns entwickelte System diese menschliche Fähigkeit richtig wiedergibt. Ohne jede Anpassung des Modells an die experimentelle Situation kann es den Schwierigkeitsgrad bei der Erkennung von Gesichtern durch Menschen auch bei wechselnder Pose oder verändertem Gesichtsausdruck richtig wiedergeben. Dies ist noch mit keinem anderen Modell gelungen und stützt seine direkte biologische Relevanz. Nur wenn es um das Erkennen von vertrauten Gesichtern geht, bleibt das Modell in der gegenwärtigen Form deutlich hinter den menschlichen Fähigkeiten zurück, weil unser visuelles System vertraute Personen in allen Variationen von Gesichtsformund Ausdruck, Pose oder Beleuchtung kennt. Wir hoffen, diese Defizite durch Lernen beseitigen zu können, indem auch das künstliche System viele Bilder „sammelt“. Schließlich erreicht selbst der Mensch erst weit nach seinem zehnten Lebensjahr die Kompetenz eines Erwachsenen, Objekte zu erkennen. Objekte auch dann zu erkennen, wenn sich ein Bild ständig verändert, ist ein zentraler Vorgang in unserem Verhältnis zur Umwelt. Es ist ein Beispiel für die fundamentale Fähigkeit unseres Gehirns, die strukturelle Verwandtschaft zwischen mentalen Objekten zu erkennen: selbst bis hin zu Analogien zwischen zwei Geschichten. Dies alles ist nicht denkbar ohne einen dynamischen Bindungsmechanismus zur Konstruktion strukturierter Objekte (Modelldomäne) und ohne dynamische Links zur Darstellung struktureller Beziehungen zwischen Bild und Modell. Das neuronale Standardmodell beschreibt dagegen ein starres Verbindungsmuster, hier können sich Neuronen nicht situationsabhängig gruppieren und verbinden. Unser Modell macht hier weitreichende experimentelle Voraussagen. Dass der grundsätzliche dynamische Bindungsmechanismus unseres Gehirns darin bestehen könnte, dass Neuronen Signale miteinander synchronisieren, haben wir bereits vor mehr als zwei Jahrzehnten vorgeschlagen. Erst mit großer zeitlicher Verzögerung setzte eine weltweite Kontroverse ein. Inzwischen stützen experimentelle Daten aus einer Reihe von Labors die Existenz und funktionelle Bedeutung dieses Mechanismus. Dynamische Links lassen sich im Gehirn einfach realisieren, indem Synapsen durch Signalkorrelationen schnell und reversibel zwischen einem leitenden und einem nichtleitenden Zustand schalten (Abb. 3). Experimentell überprüft wurde das bis heute nicht, obgleich dies möglich wäre. Doch die Hinweise in der Literatur mehren sich, dass sich Hirnzustände vermutlich nicht allein über die Zellaktivität erfassen lassen: Zum Beispiel verändern Synapsen ihr Gewicht ständig und sehr schnell. Der enorme funktionelle Vorteil unseres Modells liegt in seiner Fähigkeit zur Innovation, zur Erzeugung von Bindungen und Links, wo immer sie die Situation erfordert. Der Nachteil ist ihr großer Zeitbedarf, da Signalkorrelationen in der Zeit erzeugt und ausgewertet werden müssen. Wir vermuten daher, dass das Gehirn Bindungen und Links, die einmal als wichtig erkannt wurden, durch geeignete Verschaltungen der Neuronen so realisiert, dass sie sehr viel schneller aktiviert werden können. Unabhängig von der Art der neuronalen Realisierung eröffnet die Hypothese dynamischer Bindungen und Links eine völlig neue, weitreichende Perspektive auf das Gehirn und seine Darstellung der Wirklichkeit.