Vorwissen über Objekte Die Erkennung von Objekten ist ein unterbestimmtes Problem, weil aus einem zweidimensionalen Abbild auf der Retina auf die dreidimensionale Struktur des Objekts geschlossen werden soll. Dieses Problem ist nur durch Vorwissen über Objekte und Szenen zu lösen. Hierarchien in der Objekterkennung Unter Objekterkennung wird sowohl die Kategorisierung als auch die Identifikation eines Objektes verstanden. Objekterkennung kann auf unterschiedlichen Ebenen erfolgen: auf der untergeordneten Ebene (Schäferhund), der Grundebene (Hund) oder auf der übergeordneten Ebene (Tier). Bei der Benennung von Objekten wird zuerst auf die Grundebene zurückgegriffen. Theorien der Objekterkennung Objekterkennung setzt einen Vergleich zwischen einem gesehenen Objekt und einer internen Repräsentation dieses Objekts in unserem Gedächtnis voraus. Wie kann diese interne Repräsentation aussehen und wie kann der Vergleich zwischen Gesehenem und Gespeichertem ablaufen? Welche Bildinformationen im Gehirn wie gespeichert werden, wird gegenwärtig intensiv mit den unterschiedlichsten Methoden untersucht. Mit der psychophysischen Methodik kann man zwar nicht direkt in das Gehirn hineinschauen, aber man kann durch geeignete Aufgaben und durch die Antworten der Versuchspersonen auf die Prinzipien der Informationsverarbeitung im Gehirn schließen. In der Objekterkennungsforschung werden zumeist die Reaktionszeit und die Fehlerrate der Versuchsperson aufgezeichnet, die dann mit den konkreten Voraussagen von rechnergestützten Objekterkennungstheorien verglichen werden können. Der Hauptunterschied zwischen den verschiedenen Theorien besteht in der Festlegung des Repräsentationsraums und des Koordinatensystems, in dem Objekte codiert werden. Eine mögliche Aufteilung der Theorien unterscheidet zwischen einer dreidimensionalen (3D) oder einer zweidimensionalen (2D) Repräsentation eines Objekts im visuellen Gedächtnis. Weiterhin kann das Koordinatensystem entweder auf den Beobachter (egozentrisch) oder auf das Objekt zentriert werden. Damit ergibt sich im ersten Fall ein beobachterzentriertes (view dependent), im zweiten Fall ein Unterschiedliche Zentrierung eines Koordinatenobjektzentriertes Koordinatensystem (view independent). systems. Links: Der Beobachter betrachtet das Objekt und speichert die Abbildung des Objekts (beobachterzentrierte Repräsentation). Rechts: Das Objekt wird in einem objekteigenen Koordinatensystem gespeichert (objektzentrierte Repräsentation) Theorien, die eine 3D-Repräsentation voraussetzen Zwei Ansätze sollen hier näher betrachtet werden. Der erste Ansatz beruht auf einer objektzentrierten 3D-Repräsentation im Gedächtnis. Er setzt voraus, dass ein 3D-Modell vom visuellen Input rekonstruiert wird, bevor dieses mit ähnlichen Modellen im visuellen Gedächtnis verglichen werden kann. Der zweite Ansatz benutzt räumliche Transformationen, um beobachterzentrierte 3DModelle mit dem visuellem Input in Übereinstimmung zu bringen (Alignment oder Normalisierung). Objektzentrierte 3D-Repräsentationen Generalized Cylinders und Recognition by Components In ihrer bahnbrechenden Arbeit auf dem Gebiet der Objekterkennung schlugen Marr u. Nishihara (1978) vor, dass Objekte in einer hierarchischen Anordnung von generalisierten Zylindern repräsentiert sind. Ein anderer, aber verwandter Ansatz zur menschlichen Objekterkennung wurde von Biederman vorgeschlagen (Biederman 1987). In diesem Objekterkennungsmodell (Recognition by Components, RBC) werden komplexe Objekte als räumliche Arrangements von Grundbausteinen beschrieben. Diese Grundkomponenten gehören zu einem limitierten Satz von Formen (Geons) die durch möglichst ansichtsunabhängige Eigenschaften (non-accidental properties) charakterisiert sind. Im Gegensatz zu Marr und Nishihara‘s Theorie besteht keine Notwendigkeit, die Hauptachse eines Objektes aus dem Bild heraus zu extrahieren. Beobachterzentrierte 3D-Repräsentationen Recognition by Alignment Ullman entwickelte die Methode der »Erkennung durch Anpassung« mit vorheriger Normalisierung (Ullman 1989). Dabei wird ein 2D-Bild mit der Projektion von gespeicherten 3D-Modellen verglichen, nachdem das Bild und die Projektion in Übereinstimmung gebracht wurden. Die dazu notwendige Transformation wird mithilfe von einigen wenigen Merkmalspunkten, die sowohl im Bild als auch im 3D-Modell vorkommen, berechnet. Diese Anpassung wird für jedes gespeicherte Modell berechnet und das Bild wird dem Modell zugeordnet, d. h. als solches erkannt, das die beste Übereinstimmung erzielt. Theorien, die eine 2D-Repräsentation voraussetzen Bei Theorien, die auf einer 2D-Repräsentation aufbauen, werden ansichtsspezifische Repräsentationen gespeichert, die zur Abgleichung zwischen dem Gesehenen und der gespeicherten Ansicht, oder der von der gespeicherten Ansicht abgeleiteten Ansicht, benötigt werden. Diese Theorien werden auch unter dem Begriff »Multiple-views-plus-transformation «-Modelle (MVPT) zusammengefasst. MVPT besagt, dass Objekte als verbundene Sammlungen von blickpunktspezifischen Ansichten repräsentiert sind. Die Erkennung erfolgt dann, wenn das Gesehene die Ansicht aktiviert, die mit einem bekannten Objekt korrespondiert (ansichtsbasierte Erkennung, view-based recognition). Beobachterzentrierte 2D-Repräsentationen View Interpolation In dem Bildinterpolationsansatz (view interpolation, Poggio u. Edelman 1990; Bülthoff u. Edelmann 1992) wird die Generalisierung von gespeicherten zu neuen Ansichten als eine Funktionsinterpolation in dem Raum aller möglichen Ansichten betrachtet. Mithilfe weniger Stützstellen in diesem Raum, d. h. mit wenigen Ansichten, ist es nicht nur möglich, Ansichten zwischen diesen Stützstellen zu erkennen, sondern auch begrenzt zu Ansichten außerhalb des aufgespannten Raums zu extrapolieren. Man kann sich diesen Ansatz am besten anhand eines Zirkuszeltes vorstellen: Das Dach wird von den Mittel- und Randpfeilern getragen. Die gesamte Zeltplane deckt den Raum aller möglichen Ansichten eines Objekts ab, die Pfeiler entsprechen den gespeicherten Ansichten. Um von einer gespeicherten Ansicht zu einer neuen Ansicht zu generalisieren, läuft man entlang der gespannten Zeltplane von dem entsprechenden Stützpfeiler zu dem neuen Punkt auf der Zeltplane. Zunächst sollte man keine Abhängigkeit der Reaktionszeit vom Abstand der Testansicht zur gespeicherten Ansicht erwarten, aber es kommt hierbei auf Details in der Umsetzung eines solchen Mechanismus an. Wenn nämlich der instantane Vergleich zu allen gespeicherten Ansichten durch einen schrittweisen ersetzt wird, dann würde man auch hier eine Abhängigkeit der Reaktionszeit finden. Die Fehlerrate sollte für bekannte Ansichten geringer sein als für neue in Abhängigkeit vom Abstand zu gespeicherten Ansichten. Ebenso kann man unterschiedliche Fehlerraten für bekannte Ansichten erwarten, da eine Ansicht zwar bekannt sein mag, jedoch nicht Bestandteil der Repräsentation ist. 1. Welche sind die Haupttheorien der Objekterkennung und wie unterscheiden sich diese Theorien grundsätzlich? 2. Wie schaffen wir es überhaupt, ein Objekt zu erkennen, da die räumliche Interpretation (3D) der Bildinformation auf unserer Netzhaut (2D) grundsätzlich ein unterbestimmtes Problem ist und nicht eindeutig lösbar ist?