Objekterkennung

Werbung
Vorwissen über Objekte
Die Erkennung von Objekten ist ein unterbestimmtes Problem, weil aus einem zweidimensionalen
Abbild auf der Retina auf die dreidimensionale Struktur des Objekts geschlossen werden soll. Dieses
Problem ist nur durch Vorwissen über Objekte und Szenen zu lösen.
Hierarchien in der Objekterkennung
Unter Objekterkennung wird sowohl die Kategorisierung als auch die Identifikation eines Objektes
verstanden. Objekterkennung kann auf unterschiedlichen Ebenen erfolgen: auf der untergeordneten
Ebene (Schäferhund), der Grundebene (Hund) oder auf der übergeordneten Ebene (Tier). Bei der
Benennung von Objekten wird zuerst auf die Grundebene zurückgegriffen.
Theorien der Objekterkennung
Objekterkennung setzt einen Vergleich zwischen einem gesehenen Objekt und einer internen
Repräsentation dieses Objekts in unserem Gedächtnis voraus. Wie kann diese interne Repräsentation
aussehen und wie kann der Vergleich zwischen Gesehenem und Gespeichertem ablaufen? Welche
Bildinformationen im Gehirn wie gespeichert werden, wird gegenwärtig intensiv mit den
unterschiedlichsten Methoden untersucht. Mit der psychophysischen Methodik kann man zwar nicht
direkt in das Gehirn hineinschauen, aber man kann durch geeignete Aufgaben und durch die
Antworten der Versuchspersonen auf die Prinzipien der Informationsverarbeitung im Gehirn
schließen. In der Objekterkennungsforschung werden zumeist die Reaktionszeit und die Fehlerrate
der Versuchsperson aufgezeichnet, die dann mit den konkreten Voraussagen von rechnergestützten
Objekterkennungstheorien verglichen werden können.
Der Hauptunterschied zwischen den verschiedenen Theorien
besteht in der Festlegung des Repräsentationsraums und
des Koordinatensystems, in dem Objekte codiert werden.
Eine mögliche Aufteilung der Theorien unterscheidet
zwischen einer dreidimensionalen (3D) oder einer
zweidimensionalen (2D) Repräsentation eines Objekts im
visuellen Gedächtnis.
Weiterhin kann das Koordinatensystem entweder auf den
Beobachter (egozentrisch) oder auf das Objekt zentriert
werden. Damit ergibt sich im ersten Fall ein
beobachterzentriertes (view dependent), im zweiten Fall ein
Unterschiedliche Zentrierung eines Koordinatenobjektzentriertes Koordinatensystem (view independent).
systems. Links: Der Beobachter betrachtet das
Objekt und speichert die Abbildung des Objekts
(beobachterzentrierte Repräsentation). Rechts:
Das Objekt wird in einem objekteigenen
Koordinatensystem gespeichert (objektzentrierte
Repräsentation)
Theorien, die eine 3D-Repräsentation voraussetzen
Zwei Ansätze sollen hier näher betrachtet werden. Der erste
Ansatz beruht auf einer objektzentrierten 3D-Repräsentation
im Gedächtnis. Er setzt voraus, dass ein 3D-Modell vom visuellen
Input rekonstruiert wird, bevor dieses mit ähnlichen Modellen im visuellen Gedächtnis verglichen
werden kann. Der zweite Ansatz benutzt räumliche Transformationen, um beobachterzentrierte 3DModelle mit dem visuellem Input in Übereinstimmung zu bringen (Alignment oder Normalisierung).
Objektzentrierte 3D-Repräsentationen
Generalized Cylinders und Recognition by Components
In ihrer bahnbrechenden Arbeit auf dem Gebiet der Objekterkennung schlugen Marr u. Nishihara
(1978) vor, dass Objekte in einer hierarchischen Anordnung von generalisierten Zylindern
repräsentiert sind. Ein anderer, aber verwandter Ansatz zur menschlichen Objekterkennung wurde
von Biederman vorgeschlagen (Biederman 1987). In diesem Objekterkennungsmodell (Recognition
by Components, RBC) werden komplexe Objekte als räumliche Arrangements von Grundbausteinen
beschrieben. Diese Grundkomponenten gehören zu einem limitierten Satz von Formen (Geons) die
durch möglichst ansichtsunabhängige Eigenschaften (non-accidental properties) charakterisiert sind.
Im Gegensatz zu Marr und Nishihara‘s Theorie besteht keine Notwendigkeit, die Hauptachse eines
Objektes aus dem Bild heraus zu extrahieren.
Beobachterzentrierte 3D-Repräsentationen
Recognition by Alignment
Ullman entwickelte die Methode der »Erkennung durch Anpassung« mit vorheriger Normalisierung
(Ullman 1989). Dabei wird ein 2D-Bild mit der Projektion von gespeicherten 3D-Modellen verglichen,
nachdem das Bild und die Projektion in Übereinstimmung gebracht wurden. Die dazu notwendige
Transformation wird mithilfe von einigen wenigen Merkmalspunkten, die sowohl im Bild als auch im
3D-Modell vorkommen, berechnet. Diese Anpassung wird für jedes gespeicherte Modell berechnet
und das Bild wird dem Modell zugeordnet, d. h. als solches erkannt, das die beste Übereinstimmung
erzielt.
Theorien, die eine 2D-Repräsentation voraussetzen
Bei Theorien, die auf einer 2D-Repräsentation aufbauen, werden ansichtsspezifische
Repräsentationen gespeichert, die zur Abgleichung zwischen dem Gesehenen und der gespeicherten
Ansicht, oder der von der gespeicherten Ansicht abgeleiteten Ansicht, benötigt werden. Diese
Theorien werden auch unter dem Begriff »Multiple-views-plus-transformation «-Modelle (MVPT)
zusammengefasst. MVPT besagt, dass Objekte als verbundene Sammlungen von
blickpunktspezifischen Ansichten repräsentiert sind. Die Erkennung erfolgt dann, wenn das Gesehene
die Ansicht aktiviert, die mit einem bekannten Objekt korrespondiert (ansichtsbasierte Erkennung,
view-based recognition).
Beobachterzentrierte 2D-Repräsentationen
View Interpolation
In dem Bildinterpolationsansatz (view interpolation, Poggio u. Edelman 1990; Bülthoff u. Edelmann
1992) wird die Generalisierung von gespeicherten zu neuen Ansichten als eine
Funktionsinterpolation in dem Raum aller möglichen Ansichten betrachtet. Mithilfe weniger
Stützstellen in diesem Raum, d. h. mit wenigen Ansichten, ist es nicht nur möglich, Ansichten
zwischen diesen Stützstellen zu erkennen, sondern auch begrenzt zu Ansichten außerhalb des
aufgespannten Raums zu extrapolieren. Man kann sich diesen Ansatz am besten anhand eines
Zirkuszeltes vorstellen: Das Dach wird von den Mittel- und Randpfeilern getragen. Die gesamte
Zeltplane deckt den Raum aller möglichen Ansichten eines Objekts ab, die Pfeiler entsprechen den
gespeicherten Ansichten. Um von einer gespeicherten Ansicht zu einer neuen Ansicht zu
generalisieren, läuft man entlang der gespannten Zeltplane von dem entsprechenden Stützpfeiler zu
dem neuen Punkt auf der Zeltplane. Zunächst sollte man keine Abhängigkeit der Reaktionszeit vom
Abstand der Testansicht zur gespeicherten Ansicht erwarten, aber es kommt hierbei auf Details in
der Umsetzung eines solchen Mechanismus an. Wenn nämlich der instantane Vergleich zu allen
gespeicherten Ansichten durch einen schrittweisen ersetzt wird, dann würde man auch hier eine
Abhängigkeit der Reaktionszeit finden. Die Fehlerrate sollte für bekannte Ansichten geringer sein als
für neue in Abhängigkeit vom Abstand zu gespeicherten Ansichten. Ebenso kann man
unterschiedliche Fehlerraten für bekannte Ansichten erwarten, da eine Ansicht zwar bekannt sein
mag, jedoch nicht Bestandteil der Repräsentation ist.
1. Welche sind die Haupttheorien der Objekterkennung und wie unterscheiden sich diese
Theorien grundsätzlich?
2. Wie schaffen wir es überhaupt, ein Objekt zu erkennen, da die räumliche Interpretation (3D)
der Bildinformation auf unserer Netzhaut (2D) grundsätzlich ein unterbestimmtes Problem
ist und nicht eindeutig lösbar ist?
Herunterladen