Zur Konstruktion künstlicher Gehirne Ulrich Ramacher · Christoph von der Malsburg (Hrsg.) Zur Konstruktion künstlicher Gehirne 123 Herausgeber Prof. Dr. Ulrich Ramacher COM SDR Infineon Technologies AG Otto-Hahn-Ring 6 81739 München Deutschland [email protected] Prof. Dr. Christoph von der Malsburg Frankfurt Institute for Advanced Studies Max-von-Laue-Str. 1 60438 Frankfurt a.M. Deutschland [email protected] ISBN 978-3-642-00187-1 e-ISBN 978-3-642-00191-8 DOI 10.1007/978-3-642-00191-8 Springer Dordrecht Heidelberg London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c Springer-Verlag Berlin Heidelberg 2009 Dieses Werk ist urheberrechtlich geschätzt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: eStudioCalamar, Figueres/Berlin Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.de) Inhaltsverzeichnis Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.1 Hauptergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2 Vorgeschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.3 Danksagung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 6 8 1 Problematik der Modellierung künstlicher Gehirne . . . . . . . . 1.1 McCullogh–Pitts Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Lernende Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Pulsende Neuronen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Architektur des Sehens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Die Schritte des Konstruktionsprozeß . . . . . . . . . . . . . . . . . . . . . . 1.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 12 13 14 15 17 18 2 Informationsverarbeitung in Netzen mit konstanten Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Allgemeine Signalgleichungen für Pulsneuron und Synapse . . . . 2.2 Zerlegungen und ihre zeitliche Entwicklung . . . . . . . . . . . . . . . . . 2.3 Experimente mit konstanten Synapsen . . . . . . . . . . . . . . . . . . . . . 2.4 Entropie als informationsübertragende Funktion . . . . . . . . . . . . . 2.5 Betriebsbereich eines Netzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Pulsraten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Auflösung und Netzgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Anwendungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Zur Simulationsproblematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 22 23 25 32 34 36 37 42 46 46 Allgemeine Theorie der Netze mit dynamischen Synapsen . 3.1 Herleitung der Signalenergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Zeitmittel und Raummittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Maximierung des Nicht-Wissens . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Zustandsgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 54 56 60 3 VI Inhaltsverzeichnis 3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4 Makrodynamik der Netze mit konstanten Synapsen . . . . . . . 4.1 Bekannte Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Bekannte Verteilung von Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Prüfung der Übereinstimmung von Theorie und Experiment . . 4.4 Korrelationsfreiheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Bestimmung der Signalenergie und Entropie durch die Pulsrate 4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 64 68 70 85 85 88 5 Informationsverarbeitung mit dynamischen Synapsen . . . . . . 89 5.1 Lösungstypen der Synapsengleichungen . . . . . . . . . . . . . . . . . . . . . 90 5.2 Synchronisation der Neuronen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.3 Segmentation per Synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.4 Berechnung von Pulsdifferenzen und -summen . . . . . . . . . . . . . . . 100 5.5 Einfache Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.6 Zeitkodierung und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.7 Entropie und Zustandsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.8 Vorüberlegungen zur Statistik der Synchronisation . . . . . . . . . . . 113 5.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 6 Netze für die Merkmalsdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.1 Visuelles System im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.2 Simple Cells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.3 Erzeugung von Detektorprofilen vom Gabor-Wavelet-Typ . . . . . 124 6.4 Experimentelle Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7 Netze für die Merkmalserkennung . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.1 Prinzipien der Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2 Netzarchitektur für die robuste Merkmalserkennung . . . . . . . . . . 137 7.3 Merkmalserkenner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 7.4 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.5 Orthogonalität bei Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.6 Invarianz gegenüber Helligkeit der Beleuchtung . . . . . . . . . . . . . . 147 7.7 Invarianz gegenüber Veränderungen der Form und Mimik . . . . . 149 7.8 Komposition mehrerer Merkmale zu einer Objektkomponente . 151 7.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8 Netze für die robuste Kopfdetektion . . . . . . . . . . . . . . . . . . . . . . . 157 8.1 Ergebnisse der Kopfdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 8.2 Potential und Grenzen der bisher entwickelten Seharchitektur . 163 8.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Inhaltsverzeichnis 9 VII Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 9.1 Das Datenformat des Gehirns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 9.2 Selbstorganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.3 Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.4 Invariante Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 9.5 Strukturierte Gedächtnisdomäne . . . . . . . . . . . . . . . . . . . . . . . . . . 175 9.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 10 Vorüberlegungen zur mikroelektronischen Realisierung . . . . 179 10.1 Äquivalente Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 10.2 Mikroelektronische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 180 10.3 Grundlegende Modelle biologischer und technischer Neuronen . 183 11 Elementare Schaltungen für Neuronen, Synapsen und Photosensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.1 Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.2 Adaptive Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 11.3 Bildsensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 11.4 DA-Wandler und analoger Bildspeicher für die Bildeingabe . . . 238 11.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 12 Simulation mikroelektronischer neuronaler Schaltungen und Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 12.1 Modellierung von Neuron und Synapse . . . . . . . . . . . . . . . . . . . . . 242 12.2 Ergebnisse der Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 12.3 Simulationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 12.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 13 Architektur und Chip-Entwurf des Merkmalserkenners . . . . 261 13.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 13.2 Schnittstellen für Test und Anzeige . . . . . . . . . . . . . . . . . . . . . . . . 263 13.3 Layoutimplementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 13.4 Demonstrator und Meßergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . 266 13.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 14 Architektur und Chip-Entwurf für Merkmalsdetektoren . . . 269 14.1 Digitale Darstellung der Merkmalsdetektion . . . . . . . . . . . . . . . . . 270 14.2 VLSI-Design eines neuronalen Prozessor- und RouterSchaltkreises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 14.3 Demonstration der Merkmalsdetektion . . . . . . . . . . . . . . . . . . . . . 279 14.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 VIII Inhaltsverzeichnis 15 3D-Stapeltechnik für den Sehwürfel . . . . . . . . . . . . . . . . . . . . . . . . 285 15.1 Prinzip der 3D Stapelung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 15.2 Prozeßschritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 15.3 Verbindungstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 15.4 Elektrische Eigenschaften von 3D-Verbindungen . . . . . . . . . . . . . 314 15.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 16 Architektur eines Sehwürfels der ersten Generation . . . . . . . . 317 16.1 Dimensionen der Merkmalskaskade und Auflösungspyramide . . 317 16.2 Sparsame Implementierung des Merkmalsdetektors . . . . . . . . . . 326 16.3 Photosensor-Chip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 16.4 Chip für die restliche Auflösungspyramide . . . . . . . . . . . . . . . . . . 329 16.5 Größe des NPU-Arrays und Speicherbedarf . . . . . . . . . . . . . . . . . 332 16.6 Merkmalsdetektor-Chip für 8 Orientierungen . . . . . . . . . . . . . . . 338 16.7 Merkmalserkenner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 16.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 17 Ausklang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 18 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 18.1 Simulator für Kapitel 3 und 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 18.2 Axon-Modell von Hodgkin und Huxley . . . . . . . . . . . . . . . . . . . . . 364 18.3 Transistor-Grundschaltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 18.4 Optische Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387 Vorwort Unser Gehirn hat eine geschätzte Rechenleistung von 1015 Operationen pro Sekunde (wenn man eine Operation pro Synapse und Sekunde im Durchschnitt ansetzt), und ist damit ein sehr ernst zu nehmender Computer. Das Gehirn ist als Instrument zur Akquisition, Strukturierung, Indexierung und Koordinierung von Weltwissen und als Instrument flexiblen autonomen Verhaltens allen künstlichen Systemen weit überlegen. Außerdem sollten wir nicht verdrängen, daß das Gehirn die Quelle aller formalen Systeme und Algorithmen ist. Und trotz dieser Vorzüge verstehen wir nicht, wie es funktioniert, obgleich das Wissen gewaltig zugenommen hat. Seit mehr als 100 Jahren wird das menschliche Hirn beforscht. Dünne Schnitte wurden zu Millionen angelegt, an die hundert Nadeln simultan positioniert, ungezählte Experimente zu den elektrisch-chemischen Vorgängen an Synapsen und Neuronen duchgeführt, mit verschiedensten Techniken Bilder von den Hirnarealen aufgenommen und unübersehbar viele Verhaltensexperimente ausgeführt. All dies führte zu Einsichten in die vermutete Funktionsweise des Hirns, welche nur auf der Ebene von einzelnen Synapsen und Neuronen mit der quantitativen Modellierung der elektro-chemischen Vorgänge zu einer gesicherten Theorie fand [1]. Netzwerke von Neuronen und Synapsen, welche eine bestimmte Informationsverarbeitung erbringen, wurden – wenn überhaupt – sensornah aufgeklärt [2, 3, 4]. Der überwiegende Teil der Arbeiten trug also hauptsächlich bei zur phänomenologischen Beschreibung, begleitet von Vermutungen über die Wirkzusammenhänge. Von einer anerkannten Beschreibung der Informationsverarbeitung des Hirns und der Rekonstruktion seiner Leistungen sind wir deshalb weit entfernt. In dieser Situation hatten wir es uns zur Aufgabe gemacht, auf der ausschließlichen Grundlage von Neuron- und Synapsenmodellen - welche genügend einfach sind, um simulierbar zu bleiben, und genügend komplex, um nicht-triviale Erkennungsaufgaben wahrzunehmen - zu bestimmen, wie Information durch pulsende neuronale Netze dargestellt wird und wie die elementaren Muster der Vernetzung von Neuronen und Synapsen aussehen. Um nicht einfach nur ein weiteres Mosaiksteinchen der Vermutung dem eingangs 2 Vorwort geschilderten Stand der „neuronalen Kunst“ hinzuzufügen, haben wir durch geeignete Kombination dieser elementaren informationsverarbeitenden Netze ein kleines künstliches Hirn konstruiert, welches komplette und anspruchsvolle Aufgaben auszuführen erlaubt. Damit der Leser sich frühzeitig ein Bild unserer Methodik machen kann, stellen wir unser Vorgehen und die erhaltenen Hauptergebnisse übersichtsartig vor. 0.1 Hauptergebnisse Allgemeine Erkennungskette in neuronaler Architektur Wir beschränken uns auf das Sehen und haben folgendes erstes Hauptergebnis erzielt: es liegen Module zur Merkmalsdetektion und -erkennung vor, ein Netzwerk zur Bindung verschiedener Merkmale zu einer Objektkomponente bzw. von Objektkomponenten zu Objekten, welche in geeigneter Vernetzung die robuste Erkennung von Köpfen bewerkstelligen (Kapitel 8). Damit existiert eine minimale, aber komplette Kette von Erkennungsmodulen; wir sprechen im folgenden von der Erkennungskette. Die Besonderheit unseres Ansatzes scheint darin zu bestehen, daß der gesamte Satz von Funktionen zur Merkmalsdetektion, -erkennung und Objektbindung auf der Basis eines einzigen Neuron- und Synapsenmodells realisiert werden kann – ohne weitere Zutaten an Lernalgorithmen oder Ähnlichem. Wir hegen den Verdacht, daß unser Ansatz universell ist, d.h. die vorgestellte Merkmalserkennung und Objektbindung mit derselben Struktur dieser Module und ihrer Vernetzung nutzbar ist nicht nur für Kopf-Objekte, sondern für beliebige Objekte, ja sogar für beliebige Erkennungsaufgaben. Zum Beispiel könnte das Objekt eine Bildszene sein, mit verschiedensten darin enthaltenen Subjekten, und Merkmale würden in diesem Fall durch die Anwesenheit bestimmter Subjekte in der Bildszene definiert sein. In der Sprache der Informatik ausgedrückt heißt dies, daß allein das Datenformat sich ändert, aber die Prozesse die gleichen bleiben. Darstellung von Information durch Entropie und Korrelation Ein zweites Hauptergebnis betrifft die quantitative Charakterisierung von Informationsverarbeitung in Netzen mit pulsenden Neuronen durch Entropie und Korrelation. Bezeichnet man als Zustandsraum die Menge aller Zerlegungen von unabhängig voneinander agierenden Neuronen eines Netzes in empfangende und sendende Neuronen und als Verteilung die Funktion, welche die Häufigkeit des Auftretens jeder Zerlegung verzeichnet, so ist die daraus berechnete Entropie die Grundfunktion des Netzes, welche in eindeutigem Zusammenhang mit den Pulsraten der Neuronen des Netzes steht. Dagegen mißt die Korrelation die zeitliche Abhängigkeit der Sendetätigkeit der Neuronen des Netzes und bestimmt damit Struktur und Größe des Zustandsraumes; 0.1 Hauptergebnisse 3 wenn beispielsweise 8 von 10 Neuronen in einer festen und konstanten Zeitbeziehung senden, dann lebt die Verteilung bzw. Entropie nur noch von den 2 Neuronen und dem 8-Neuronen-Cluster. Wie wir im Kapitel 5 und 7 sehen werden, tritt die Synchronisation (zeitgleiches Senden als spezielle Form einer Zeitbeziehung) auf, wenn die Merkmale eines zu erkennenden Objektes im betrachteten Bild vorliegen. Der Grad der Synchronisation wird durch ein entsprechendes Netz ermittelt und liegt als Pulsrate vor. Die Kodierung von Information geschieht also durch die zwei Größen Entropie und Korrelation, und beide werden durch Pulsraten repäsentiert. Der Streit um Raten- oder Zeitkodierung ist somit hinfällig: beides ist zur Übertragung von Information nötig. Mustererkennung mit dynamischen Synapsen am Beispiel von Köpfen Das dritte Hauptergebnis betrifft die Anwendung solcher Netze. Es zeigt sich, daß Netze mit konstanten Synapsen oder Synapsen mit festem Zeitverhalten unter realen Bedingungen zur Mustererkennung in Bildern nicht in der Lage sind, wenn das Ergebnis der Erkennung unabhängig von Anfangswerten, Signalrauschen und endlicher Genauigkeit der synaptischen Werte sein soll. Charakteristisch für diese Netze ist, daß die Korrelation sehr klein wird und im Limes großer Neuronenzahl verschwindet, somit der Zustandsraum keine Cluster bzw. Muster enthalten kann. Erst wenn dynamische Synapsen eingeführt werden, welche abhängig vom einkommenden Puls und umgebenden Potentialen am Dendriten oder an der Neuronenmembran ihr zeitliches Verhalten gemäß einer von uns entwickelten einfachen Differentialgleichung entfalten, ergibt sich die Möglichkeit zur Mustererkennung. Letztere beruht im wesentlichen auf Korrelation bzw. Dekorrelation, welche mit exitatorischen Synapsen (positives Vorzeichen für den Wechselwirkungsterm der Synapsengleichung) bzw. inhibitorischen Synapsen (negatives Vorzeichen) verwirklicht wird und in allen Stufen der Erkennungskette von der Merkmalsdetektion über die Objektbindung zum Einsatz kommt. Verbunden damit ist eine kleine Anzahl von in ihrer Verbindungsstruktur spezialisierten Teilnetzen (Kapitel 5-8). Die auf diese Weise im gesamten Netz als Entropie-Korrelation-Tupel repräsentierte Information tritt im Bild auf als eine Vielzahl von örtlich verteilten Merkmalen, welche selektiv zu Objekten zusammentreten, oder als eine spezielle Komposition von Objekten in einem Bilde, etc. In diesem Sinne können wir den umgangssprachlichen Informationsbegriff in eindeutiger Weise mit dem wohldefinierten Informationsbegriff für ein neuronales Netz verbinden, welcher durch das Entropie-Korrelations-Tupel gegeben ist. 4 Vorwort Theorie der Dynamik neuronaler Netze Als viertes Hauptergebnis betrachten wir die Formulierung einer Theorie, welche gemessene Größen wie Entropie und Pulsrate in Abhängigkeit von den Eingangssignalen vorhersagen kann. Von zentraler Bedeutung ist hierbei die Aufstellung einer Signalenergie, welche man sich als an den Neuronmembranen aufgesammelte Ladungen und durch die Synapsen fließende Ströme vorstellen kann. Mittels dieser Signalenergie lassen sich zum einen die ursprünglichen Signalgleichungen für Synapsen und Neuronen wiedergewinnen und zum anderen Entropie und Korrelation eines Netzes berechnen. Im speziellen Fall der konstanten Synapsen bzw. Synapsen fest vorgegebenen Zeitverhaltens können wir zeigen (Kapitel 3-4), daß experimentelle und theoretische Entropiewerte um weniger als 3 % voneinander abweichen. Ein Ergebnis für dynamische Synapsen steht noch aus, wenn auch der formale Rahmen von Signalenergie und partieller Differentialgleichung für die Verteilungsfunktion formuliert werden kann. Damit steht nun eine Theorie zur Verfügung, mit welcher die Modellierung der informationsverarbeitenden Prozesse eines Gehirns angegangen werden kann. Sowohl Experiment als Theorie benötigen zu ihrer Simulation erhebliche Rechenleistung; wegen der endlichen, uns zur Verfügung stehenden Rechenkapazität begrenzt dies die Größe der in diesem Buch behandelten Netze. Für die experimentelle Bestimmung der Pulsraten sind Netze bis ca. 3000 vollvernetzte Neuronen auf einem PC ausführbar; für Stichproben-basierte Schätzungen der Entropiewerte ca. 100 vollvernetzte Neuronen. Genaue Werte der Entropie erhält man mit einem PC jedoch nur mit weniger als 30 vollvernetzten Neuronen, wobei jedoch die Grenzen des geduldigen Wartens viel eher erreicht werden – in diesem Buch werden für den Fall genauer Werte nie mehr als 11 vollvernetzte Neuronen betrachtet. Selbst mit dem allfälligen Fortschritt bei den Rechnern wird es in den nächsten zehn Jahren demnach dabei bleiben, daß nur kleine Module gerechnet und ihre typischen Eingangs-Ausgangsbeziehungen abgespeichert werden können. Die Zusammensetzung der Module zu einem Gesamtnetz wird sich deshalb immer nur auf eine beschränkte Zahl von Testbildern stützen können, welche die Kette der Eingangs-Ausgangsbeziehungen aller Module füttert. Die Theorie liefert somit nur eine Entwurfsvorlage und beschreibt die vermutete Aktion des Gesamtnetzes, so daß man nicht umhin können wird, spezielle elektronische Realisierungen der Module zu bauen. Diese werden um Größenordnungen über der Leistungsfähigkeit der PCs liegen und erlauben, eine Vielzahl wirklicher Bilder in Echtzeit zu verarbeiten und auszutesten (Kapitel 16). Neurocomputer der zweiten Generation Als fünftes Hauptergebnis stellen wir deshalb eine modulare Architektur samt ihrer schaltungstechnischen Realisierung in CMOS-Technologie vor, mit welcher die Erkennungskette und prinzipiell beliebig große Netze aufgebaut werden können. Entsprechende Kapitel behandeln die schaltungstechnische Reali- 0.1 Hauptergebnisse 5 sierung von Neuronen, Synapsen sowie Bildsensoren und von Modulen für die Merkmalsdetektion und -erkennung bzw. Objekterkennung (Kapitel 11-14). Dabei ist das gemessene Verhalten der Chip-Module in sehr guter Übereinstimmung mit dem simulatorisch bzw. theoretisch erzielten Verhalten. Da die einzelnen Chip-Module leicht tausendmal schneller als biologische Netze sein können, können diese Module wegen ihrer universellen Anwendbarkeit zeitlich mehrfach eingesetzt werden, um ein viel größeres Netz zu emulieren. Auf diese Weise können beispielsweise vollständige Merkmalspyramiden realisiert werden. Vonnöten ist dazu jedoch ein Architekturkonzept, welches Lesen/Speichern und Multiplexen der Signalwerte der Neuronen und Synapsen bewerkstelligt. Dies wiederum bedeutet die Hinzunahme einer klassischen Computerarchitektur zur Steuerung und Verwaltung der Ressourcen einerseits und Weiterleitung der Pulssignale andererseits. Anders als die erste Generation von Neurocomputern, welche entweder analog oder digital entwickelt wurde, wird die zweite Generation sich also beider Entwurfsstile bedienen. Wegen der Vielzahl der benötigten Module – verschieden sind nur wenige, da die oben erwähnte Erkenntniskette universal einsetzbar ist – mußte ferner eine neue Aufbautechnologie entwickelt werden: Einzelne Silizium-Scheiben werden zu einem Stapel aufgetürmt, und vertikal durch die Scheiben verlaufene Verbindungsleitungen ergänzen das in jeder Scheibe liegende Verbindungsnetzwerk. 6 Schichten in nur jeweils 14 µm Abstand wurden auf diese Weise miteinander verbunden, allerdings handelte es sich bei dem gefertigtem Stapel noch um einen „dummy“, mit welchem die Qualität der Verbindungsleitungen und die Ausbeute getestet wurde (Kapitel 15). Erst im nächsten Schritt ist die Integration der existierenden Chips für Merkmalserkennung und Objektbindung als 3D Stapel vorgesehen. Ein Vorschlag dafür ist in Kapitel 16 gemacht: für die entfernungsunabhängige Erkennung von 1000 Objekten mittels einer kompletten Merkmalskaskade für 8 Orientierungen und 5 Auflösungsebenen werden 59 Chips auf einer Grundfläche von ca. 70 mm2 in 14 µm Abstand aufeinandergestapelt zu einem 1 mm hohen Sehwürfel. Vom programmierbaren zum selbstorganisiernden Computer Wiewohl wir nur eine erste Generation von künstlichen Hirnen in diesem Buch vorstellen können und der Überzeugung sind, daß noch viele Generationen werden folgen müssen, um die volle Leistungsfähigkeit des menschlichen Gehirns zu erreichen, sehen wir doch ein neues Rechen-Zeitalter heraufziehen. Es gab Zeiten, da wurden Computer mit ihrer Präzision, Zuverlässigkeit und rasanten Geschwindigkeit der feuchten Materie unseres Gehirns als so weit überlegen angesehen wie das Düsenflugzeug dem Spatzen. Daß diese Zeiten vorbei sind, ist gewiß, wenn wir nur die Ergebnisse dieses Buches zugrunde legen und berücksichtigen, daß durch formale Logik inspirierte, algorithmisch gesteuerte und mit digitaler Elektronik realisierte Systeme – die heutigen Computer – an ihre Komplexitätsgrenzen stoßen. Ein Paradigmenwechsel liegt in der Luft: vom fremdorganisierten zum selbstorganisierten Computer [5]. 6 Vorwort Moore’s Law ist sowohl eine Chance als auch eine Herausforderung. Einerseits rückt die zunehmend verfügbare Rechenleistung die Nachbildung des Gehirns in den Bereich des Möglichen, andererseits werden wir dieses Eldorado nur durch Entwicklung völlig neuer Organisationsprinzipien erreichen. Ein Aspekt der Herausforderung besteht darin, die in diesem Buch beschriebenen Strukturen in ihrer Vielfalt und massiven Parallelität zu organisieren. Ein anderer besteht in der Entwicklung eines neuen Begriffs von „Computing“, der weniger auf das Rechnen im engeren Sinne abzielt als vielmehr auf die Koordination von massiven Mengen von Daten und auf das Aufgeben der für das algorithmische Konzept grundlegenden Arbeitsteilung zwischen Mensch und Maschine bzw. auf die Ansiedlung der bisher fast ausschließlich im Gehirn des Programmierers vorhandenen kreativen Infrastruktur in die Maschine. Bei der Geburt der Informatik haben mathematische Logik und formale Systeme Pate gestanden (beide nur denkbar als Produkt denkenden menschlichen Geistes). Zukünftig werden wir uns an dynamischen Systemen orientieren müssen, die mit probabilistischen Methoden, Statistik und nichtlinearen Differentialgleichungen zu beschreiben sind. Insbesondere wird es einerseits notwendig sein, eine Phänomenologie der für organisierte Systeme relevanten kohärenten Datenstrukturen zu entwickeln, andererseits müssen noch mehr theoretische Werkzeuge entwickelt werden, als sie in diesem Buche vorgestellt wurden, mit denen sich Brücken schlagen lassen zwischen den makroskopischen Datenstrukturen und den mikroskopischen Signalgleichungen von Neuronen und Synapsen. In neuronaler Sprache heißt das: Was ist die Struktur mentaler Objekte, und wie hängen diese mit dem Verhalten von Nervenzellen zusammen? Dies alles läuft auf eine Doppelstrategie zweier sich gegenseitig ermöglichender Entwicklungen heraus: Realisation einer in den Gehirnen manifesten Technologie massiv parallelen, „organischen“ Rechnens und Entwicklung einer selbstorganisierenden Daten- und Prozessarchitektur. Versuche der Achtziger Jahre, große Prozessor-Arrays zu bauen, sind vor allem am Fehlen eines Architekturkonzeptes für die Informationsverabeitung gescheitert. Letzteres braucht ein sehr tiefgreifendes Umdenken. 0.2 Vorgeschichte Vorweg schicken wir noch einige Zeilen zur Entstehung des Projektes. Es entstand in der Abteilung „VLSI System Integration“ der Zentralabteilung Technik der Siemens AG und baut auf dem 1994 ausgelaufenen „Neurocomputer“Projekt auf, welches von Prof. Ramacher geleitet wurde. Mit dem Neurocomputer SYNAPSE („SYnthezising Neural Algorithms on a Parallel Systolic Engine“) konnten allerdings nur analoge Neuronmodelle gerechnet werden, welche Signalmittelwerte und Sigmoid-ähnliche Neuronfunktionen verwendeten. Wie sich nach einigen Jahren herausstellte, waren die neuronalen Architekturen dieser Tage nicht leistungsfähig genug für Anwendungen wie Sehen. 0.2 Vorgeschichte 7 Insbesondere waren neuronale Netze dieser Entwicklungsstufe nicht zentrale, sondern Rand-Elemente der gesamten Lösungssarchitektur einer Anwendung. Mit der Unterstützung von Prof. Werrmann vom BMBF wurde von Prof. Ramacher das Nachfolge-Projekt „Electronic Eye“ ins Leben gerufen. Zusammen mit den Professoren von Seelen und von der Malsburg (Universität Bochum) und Prof. Buhmann (Universität Bonn) wurde eine Rechner-Plattform höchster Leistung für prototypische Anwendungen wie Fahrzeugsehsysteme, Überwachung von U-Bahnstationen und Video-Conferencing im Jahre 2000 konstruiert; zentrale Komponente war hierin der Vision Instruction Processor, ein hochintegrierter Chip, welcher ein großes paralleles Rechenfeld mit einer Vielzahl von allgemeinen Rechenbefehlen und zusätzlichen, auf Bildverarbeitung, Bildkodierung bzw. -dekodierung und Bilderzeugung sowie auf analoge neuronale Netze spezialisierte Befehle enthielt. Es handelte sich also um eine klassische DSP-Architektur mit erweitertem Instruktionssatz, so daß allgemeine Algorithmen der Bildverarbeitung wie auch neuronale Algorithmen in Programme einfliessen konnten. Zu Ende des Projektes konnten zwar Echtzeitanwendungen wie Überholwarner, Gesichtserkennung, MPEG2Enkodierung von Fernsehbildern und 2-dimensionale Bilderzeugung demonstriert werden; der Anteil der neuronalen Architektur in der Geamtarchitektur der Bilderkennung blieb jedoch unverändert klein. Erst im Nachfolge-Projekt „VisionIC“, welches von Prof. Ramacher aufgesetzt und von Prof. Werrmann (BMBF) unterstützt wurde, sind in einem Teilprojekt gepulste Neuronen, dynamische Synapsen und ihre informationsverarbeitenden Prozesse untersucht und ist damit der Schritt zurück zu einer rein neuronalen Architektur gemacht worden. Prof. Ramacher und Mitarbeiter (ab April 1999 bei Corporate Research von Infineon Technologies AG, der früheren Halbleiter-Sparte von Siemens) widmeten sich der Entwicklung der grundlegenen Experimente und der Theorie zur Informationsverarbeitung von gepulsten Netzen sowie dem Aufbau der Architektur der oben beschriebenen Erkenntniskette, während Prof. Schüffny und Mitarbeiter (TU Dresden) die Realisierung von dazu passenden Silizium-Chips mit pulsenden Neuronen und dynamischen Synapsen anvertraut war. Im Hauptteil des VisionIC-Projektes führten derweil die Professoren von der Malsburg, von Seelen und Buhmann ihre Bemühungen fort, klassische „Computer Vision“ und neuronale Architektur vorteilhaft zusammenzuführen. Von dieser Spannungslage zwischen Grundlagenforschung und anwendungsorientierter Forschung hat das Teilprojekt sehr profitiert. Einerseits waren die „angewandten“ Forscher frei von dem Zwang, jeden informationsverarbeitenden Prozeß in neuronaler Architektur zu realisieren, und damit in der Lage, schneller zu einer Lösung zu kommen; andererseits zeigten sie dadurch den Stand der Kunst auf, d.h. die Grenzen der robusten Objekterkennung. Und diese Grenzen sind trotz 40 Jahren Computer-Vision-Forschung deutlich wahrnehmbar. Faszinierend war aber auch zu sehen, daß bei Beschränkung des allgemeinen Objekterkennungsproblems auf Gesichter in fester Entfernung, der Anteil der „neuronal“ inspirierten Architektur an der Gesamtarchitektur do- 8 Vorwort minieren konnte. Insbesondere war die Dynamic Link Architecture von Prof. von der Malsburg [6] ein steter Ansporn für das Teilprojekt, ihre Realisierung auf der Basis von pulsenden Neuronen und dynamischen Synapsen zu suchen. Die Ergebnisse dieses Teilprojektes von „VisionIC“, welches von 2001 bis 2004 lief und vom BMBF gefördert wurde, und nachfolgender Arbeiten sind in diesem Buch wiedergegeben. Uns ist bewußt, daß mit den Darlegungen dieses Buches nur erste kleine Schritte gemacht sind und wir nicht behaupten können, die Architektur des Sehens entschlüsselt zu haben. Wir hoffen jedoch, daß der Leser am Ende uns zustimmen kann, daß wir den Anfang eines Weges gefunden haben, auf dem weitere Erkenntnisse zu erwarten sind. Darüber hinaus war ein Ziel des Buches, die Umrisse einer neuen Disziplin sichtbar werden zu lassen, welche Anwendung, Theorie und Implementierung mit gleichem Gewicht nebeneinander stellt und diese zur Konstruktion künstlicher Gehirne zusammenführt. 0.3 Danksagung Unser Programm hätte nicht umgesetzt werden können und dieses Buch wäre nicht entstanden ohne die Professoren Kohn und Pfleiderer (Universität Ulm), Rückert (Universität Paderborn), Schüffny (Technische Universität Dresden) und die Zuarbeit ihrer Doktoranden und Diplomanden. Ebenso nicht ohne die Kollegen von Siemens bzw. Infineon (abgekürzt durch S bzw. IFX), welche an den oben beschriebenen Projekten mitarbeiteten. Den Aufschrieb der Kapitel 1 und 9 hat Christoph von der Malsburg, der Kapitel 2-8 Ulrich Ramacher besorgt, die Bearbeitung der Kapitel 11-14 hat Jens-Uwe Schlüßler und der Kapitel 15-16 Arne Heittmann übernommen. Die Endredaktion aller Kapitel lag bei Ulrich Ramacher. Mitgewirkt haben in den Kapiteln im einzelnen folgende Personen: Kap. 2: Helge Ludwig (IFX) hat die Muskelsteuerung entwickelt und simuliert. Alle anderen Simulationen sind von Dr. Arne Heittmann (S/IFX) durchgeführt worden; Kap. 3: unzählige Gespräche zur Grundlegung einer Theorie neuronaler Informationsverarbeitung habe ich mit Dr. Wieland Jass (S) geführt; Kap. 4: die effiziente Programmierung der Theorie und Ausführung aller Simulationen hat Jens Harnisch (S/IFX) übernommen; Kap. 5-8: alle neuronalen Netze wurden von Dr. Arne Heittmann (IFX) programmiert, darüberhinaus stammt von ihm die grundlegende Schaltung zur Realisierung der Pulsdifferenzschaltung in Kap. 5 und der Gabor-Wavelets in Kap. 6; Kap. 7-8: auf dem Parallelrechner der Universität Paderborn haben Prof. Rückert, Dr. Ulf Witkowski und Tim Kaulmann einige komplexe Netze zur Merkmalsdetektion und -erkennung simuliert; 0.3 Danksagung 9 Kap. 10-14: unter Anleitung von Jens-Uwe Schlüßler und Prof. René Schüffny (beide TUD) sowie Arne Heittmann (IFX) haben die Doktoranden Jörg Schreiter, Christian Mayr, Holger Eisenreich, Stefan Henker, Daniel Matolin und Jens Döge die Schaltungen und Chips für den Merkmalserkenner und die Merkmalsdetektion entwickelt; Kap. 15: Alexander Kaiser, Andreas Munding, Peter Benkart unter Anleitung von Prof. Kohn und Markus Bschorr unter Anleitung von Prof. Pfleiderer haben die einzelnen Prozeßschritte der 3D-Integration erprobt und erfolgreich getestet; wesentliche Beiträge zu der hier vorgestellten 3D-Stapeltechnik hat Dr. Holger Hübner von Infineon durch seine Vorarbeiten zu SoLID eingebracht. Allen diesen Herren möchten wir herzlichen Dank sagen für die Mitarbeit an unserem Programm – wir waren ein wundervolles Team! Schließlich möchten wir Emeritus Prof. Werner von Seelen (früher Universität Bochum) nennen, welcher unser Programm über mehr als 10 Jahre aktiv begleitete und für dessen konstruktive Kritik wir uns sehr herzlich bedanken. Zuletzt ein Dankeswort an Hr. Ditzinger und Mitarbeiter vom SpringerVerlag, ihre Betreuung und das Verständnis für unsere Wünsche waren vorbildlich. München, im November 2008 Ulrich Ramacher Christoph von der Malsburg 1 Problematik der Modellierung künstlicher Gehirne Christoph von der Malsburg und Ulrich Ramacher Die mit Abstand erfolgreichste Version von Informationstechnologie weist das Gehirn auf. Tierische und menschliche Nervensysteme sind flexibel im Umgang mit Unerwartetem, passen sich an, lernen, evolvieren, integrieren sich leicht in soziale Netzwerke, haben eine inhärente Tendenz, Ordnung zu bilden, sind extrem Energie-genügsam und massiv parallel, und sie agieren vor allen Dingen vollständig autonom. In allen diesen Eigenschaften sind sie der Technik weit voraus. Kein Zweifel, daß die Technik von diesem Beispiel profitieren sollte. Nun ist leider unser Wissen um Struktur und Funktion des Nervensystems zwar extensiv, aber noch längst nicht ausreichend, um als direkte Anleitung zum Nachbau zu dienen. Das bereits akkumulierte Wissen setzt jedoch Randbedingungen, die vielleicht schon jetzt deutlich genug sind, um funktionelle Nachkonstruktion in viel versprechende Richtung zu lenken. Im Gegenzug werden die Neurowissenschaften profitieren, da der Versuch technischen Nachbaus erfahrungsgemäß ein sehr scharfes Instrument ist, um tragfähige Hirnfunktionsideen aus der Masse derer auszusondern, die fehlerhaft sind. Das Gehirn ist in seiner neuronalen Grundarchitektur nicht digital und nicht algorithmisch gesteuert, sondern selbstorganisierend. Im Unterschied zum Rechner, der dank seiner digitalen Bauweise ein rein logisch beschreibbares statisches System mit deterministischem Verhalten darstellt, ist das Gehirn ein dynamisches System mit kontinuierlichen, rauschbehafteten „Rechenelementen“ und steht im Verdacht des indeterministischen Verhaltens. Dabei wird das dynamische Verhalten erzeugt durch die ausschließliche Interaktion seiner Rechenelemente untereinander sowie mit äußeren Signalquellen; von einer externen Programmierung kann keine Rede sein, stattdessen organisiert das Gehirn sich selbst. Während der Rechner nur durch die Einsicht des Programmierers gelenkt wird, hat das Gehirn eine inhärente Tendenz zur Selbstorganisation. Um dieses Verhalten zu verstehen, müssen Methoden ähnlich denen der Physik angewendet werden, welche bekanntermaßen die Grundgesetze der lokalen Wechselwirkungen von Teilchen nutzen, um die von einer Masse von Teilchen getragenen makroskopischen Erscheinungen vollständig zu beschreiben. Übersetzt auf die 12 1 Problematik der Modellierung künstlicher Gehirne „Rechenelemente“ des Gehirns bedeutet dies, die informationsverarbeitenden Funktionen der diversen Gehirnareale und ihrer Submodule aus den Grundgesetzen der Interaktion von Pulsen, Synapsen und Neuronen abzuleiten. Diese Aufgabe hat eine Vielzahl von Disziplinen immer wieder beschäftigt und ist in mehreren Phasen abgelaufen. 1.1 McCullogh–Pitts Modell Die Neuronen in unserem Nervensystem sind komplexe Organismen, direkte, wenn auch entfernte Erben unserer freilebenden, einzelligen Urahnen. Jedes Neuron trägt, wie fast ausnahmslos alle unsere Körperzellen, ein volles Genom von etwa einem GByte mit sich. Wahrscheinlich ist jedes unserer Neuronen an Komplexität jedem heutigen Rechner samt Betriebssystem vergleichbar oder überlegen. Ihre evolvierte Komplexität befähigt sie zu selbständiger Organisation. Diese Fähigkeit kommt allein schon in der Regulierung der Auslastung der Nervenzelle zum Ausdruck [7, 8], einem wichtigen Aspekt im Rahmen der Energieoptimierung [9], und natürlich besonders auch im Rahmen der Lastverteilung von Informationsverarbeitungsaufgaben auf Nervenzellen. Das Gehirn wird als dreidimensionales Gebilde durch seine Bauteile, die Nervenzellen, von innen heraus in einem genetisch gesteuerten Wachstumsprozeß hergestellt. Man kann die Nervenzelle als Äquivalent eines einfachen Mikroprozessors ansehen, und in diesem Sinne ist unser Gehirn mit seinen geschätzten 1011 Nervenzellen und 1015 Verbindungsleitungen ein massiv paralleles, hochvernetztes System. Die einzelnen Bauteile – Zellen, Axonen, Synapsen, Dendritenzweige – sind aktiv regulierte Elemente mit multipel verschachtelten Regelkreisen. Bei der Modellierung des Gehirns besteht deshalb die erste große Herausforderung in der Beschränkung der Komplexität des biologischen Neurons samt Dendrit und Synapsen und damit in der Formulierung eines abstrakten Modells. Ein System partieller Differentialgleichungen, welches die Austauschprozesse der diversen Membrankanäle eines Neurons wiedergibt [10], ist nicht sinnvoll, wenn die informationsverarbeitenden Prozesse einer großen Menge miteinander vernetzter Neuronen untersucht werden sollen. Andererseits darf das Modell nicht zu einfach sein. Im Jahre 1943 haben McCulloch und Pitts eine Formalisierung neuronaler Hirnzellen vorgeschlagen [11], basierend auf diskreter Zeit und binären Signalen, ganz wie im heutigen digitalen Rechner. Die wesentliche Aussage der Veröffentlichung war, daß sich beliebige logische Funktionen auf diese Weise realisieren lassen. Damit können auch die universelle Turing-Maschine (abgesehen von der Unendlichkeit ihres Bandes) und somit sämtliche vorstellbaren Symbolmanipulationsprozeduren durch McCulloch–Pitts-Neuronen implementiert werden. Die undurchdringliche Wand zwischen Geist und Materie schien niedergerissen. Leider ist dieses Bild zu simpel. Offen bleibt die Frage nach dem Ursprung der Schaltung, nach dem Ursprung der zu implementierenden Funktionen und Prozeduren. Wegen ihrer starren synaptischen Verbindungen kön- 1.2 Lernende Netze 13 nen McCulloch–Pitts-Netze ferner nicht als Grundlage von Selbstorganisation dienen. 1.2 Lernende Netze Seit Turing und McCulloch & Pitts wurde die Modellierung des Gehirns und seiner Funktion kraftvoll weiterentwickelt, sowohl in algorithmischer Hinsicht im Rahmen der sogenannten Künstlichen Intelligenz, als auch in neuronaler Sichtweise (d.h. unter Betonung von Selbstorganisation) mit Modellen wie dem Assoziativen Gedächtnis [12, 13, 14] oder den geschichteten Netzwerken [15, 16, 17], letztere unter Namen wie Konnektionismus oder künstliche Neuronale Netze (KNN). Dahinter verbirgt sich eine Vielzahl von Netztypen [18, 19], welche sich allerdings hinsichtlich der wahrzunehmenden Funktion nicht unbedingt unterscheiden müssen. Die zweite Klasse von Neuron-Modellen, welche in dieser Phase sehr populär war, hinsichtlich ihrer Aufklärungskraft die in sie gesetzten Erwartungen nicht erfüllen konnte, sieht von der ursprünglichen Pulsnatur ab, stützt sich auf Pulsmittelwerte und benutzt ein Neuron-Modell, welches aus einem analogen Eingangssignal gemäß einer Sigmoidalfunktion ein analoges Ausgangssignal macht. Die damalige und heutige neuronale Sichtweise legt das Hauptgewicht auf die Erzeugung der interessierenden Strukturen durch (statistisches) Lernen, worunter oft die Soll-Ist-Wert-Angleichung mittels eines Algorithmus zur Fehlerreduzierung verstanden wird. Eine zentrale Rolle spielt dabei synaptische Plastizität: die plastische Veränderung von Verbindungsstärken zwischen Zellen unter der Kontrolle lokal verfügbarer Signale, indem diejenigen Synapsen verstärkt werden, deren übertragene Pulse das Signal der Zielzelle erfolgreich beeinflussen oder vorhersagen. Leider ist das Problem des Lernens aus natürlicher Umgebung damit noch nicht gelöst. An diesem Problem wird die Beschränkung der KNN am konkretesten deutlich. Ein neuronales Netz lernt nur dann effizient, wenn die angebotenen Eingangsmuster nicht viel mehr als 100 oder 200 bit an Information enthalten, und wenn alle Eingangsmuster zum selben Kontext gehören [20]. Wenn diese Grenzen nicht beachtet werden, wächst die Zahl der benötigten Muster und damit die Lernzeit in’s Astronomische. Das liegt daran, daß mit wachsender Muster- und System-Größe die zu findenden signifikanten neuronalen Verbindungen (d.h. solche, die wesentliche strukturelle Beziehungen ausdrücken) in einem immer größeren Meer von insignifikanten Verbindungen untergehen und mit statistischen Mitteln nicht mehr zu identifizieren sind. Der tiefere Grund für diese Schwierigkeit der KNN ist darin zu suchen, daß sie kein Mittel haben, die Zusammengehörigkeit oder Nicht-Zusammengehörigkeit von Neuronen zum Ausdruck zu bringen, geschweige denn in einer gegebenen Situation durch aktive Prozesse zu entscheiden. Dies ist das so genannte Bindungsproblem [21]. 14 1 Problematik der Modellierung künstlicher Gehirne In den 80er Jahren des letzten Jahrhunderts kam es auf der Grundlage dieser erlernten Vernetzung analoger Neuronen zu einem „Sturm auf das Gehirn“ [22]. Insgesamt kann man sagen, daß die KNNs zu einer weitverzweigten Methodik statistischen Schätzens geführt haben und damit breite Anwendung gerade auch im industriellem Rahmen finden, aber die vor 20 Jahren gesteckten Ziele bis heute nicht erreichen: das Gehirn zu verstehen und eine auf Selbstorganisation gegründete Informationstechnologie zu erarbeiten. Insbesondere sind Künstliche Neuronale Netze nur für ein enges Spektrum von Aufgaben einsatzfähig (z.B. Steuern und Regeln [23]), und sie eignen sich nicht für die Konstruktion von komplexen Gesamtsystemen, sondern nur für kleine Subsysteme in algorithmisch betriebenem Rahmen. So kann man für Anwendungen wie Bild- oder Sprachverstehen von einer „neuronalen Lücke“ sprechen, welche bis heute fortbesteht. 1.3 Pulsende Neuronen Nach dem Gesagten sind die KNN der 80er und 90er Jahre nicht geeignet für die Abbildung der kognitiven Architektur des Gehirns. Offensichtlich ist es nötig, die Modelle der Neuronen und Synapsen stärker an den biologischen Vorbildern auszurichten. Statt Signalmittelwerte werden nun Spikes oder ganze Spikefolgen betrachtet und entsprechende Neuronmodelle aufgestellt; auch die Übertragung der verschiedensten Lernalgorithmen oder Varianten der Hebb’schen Regel auf gepulste Neuronen und langsam veränderliche Synapsen ist inzwischen erfolgt [24]. Durch die Berücksichtigung der zeitlichen Signalstruktur ist es möglich, zeitliche Korrelationen zwischen Neuronen zur Kodierung von Information zu nutzen; dies kann zusätzlich zu der Kodierung vermittels Signalmittelwerten bzw. Pulsraten geschehen. Die Existenz eines „zeitlichen Bindens“ und damit die Notwendigkeit zeitlicher Korrelation sind im Gehirn in der speziellen Form synchron pulsender Neuronen experimentell gut bestätigt [25]. Wodurch aber wird eine zeitliche Korrelation herbeigeführt, wie schnell muß sie ablaufen, wie wird sie angezeigt und eingespeist in die Hierarchie der informationsverarbeitenden Module des Gehirns? Was läßt sich mit pulsenden Neuronen überhaupt an visueller Informationsverarbeitung leisten? Auf diese Fragen gibt es zur Antwort sehr viele Hypothesen, aber keine schlüssigen Nachweise in Form von Netzen, welche Neuronen, Synapsen und ihre lokalen pulsbasierten Wechselwirkungen als einzige Ausgangspunkte nehmen und damit diejenige nicht-triviale Erkennungsaufgabe vollbringen, in welcher Merkmalsdetektion, Bindung von Merkmalen zu Objekten und Unterscheidung von Objekten eingebunden sind. Letztlich muß die Orientierung an dieser Objekterkennungskette die Grundlage der Modellierung von Neuronen und Synapsen sein. Denn löst man sich von der Erkennungskette, indem man feinere Modelle von Synapsen und Neuronen aufgreift, als mit der Anwendung in nächster Zeit ausgetestet werden können, so verliert man sich in Spekula- 1.4 Architektur des Sehens 15 tionen über die Funktion größerer neuronaler Netze; und verwendet man als Grundelemente nicht Neuronen und Synapsen, sondern Konglomerate bzw. Abstraktionen dieser, so befindet man sich in der Situation eines Demokrit, welcher Atome forderte, ohne dafür die Möglichkeit des Nachweises zu haben. Eine dieser Abstraktionen sieht folgendermaßen aus. Die Vielzahl neuronaler Module, welche am Sehprozeß teilnehmen, werden durch einen Graphenbaum dargestellt; dieser besteht aus Knoten und schnellveränderlichen, dynamischen Links. Die Knoten können einzelne Neuronen, deren Cluster oder auch Verbände von Clustern darstellen. Sogenannte Links nehmen die Signale von Knoten auf und geben sie an Knoten weiter. Der Prozeß der Graphendynamik besteht dann im wesentlichen darin, aus der großen Zahl von Links eines Knotens zu all den anderen, mit denen er sich im Laufe der Zeit assoziiert hat, die sehr kleine Untermenge derer zu aktivieren (oder offen zu halten), die für den jeweiligen Kontext geeignet sind. Es wird angenommen, daß Links durch schnelle synaptische Verbindungen realisiert sind, welche ihrerseits durch die Auswertung der Korrelation der Signale der verbundenen Neuronen gesteuert werden. Mit diesen Hypothesen und Abstraktionen ist es gelungen, Anwendungen wie die Gesichtserkennung in die industrielle Praxis zu bringen [26]. Dieser Hypothese mangelte jedoch die Bestätigung durch die von unten – Neuronen, Synapsen – nach oben – Cluster, Teilnetze – betriebene Rekonstruktion; insbesondere war der neuronale Mechanismus der Korrelation und ihrer Auswertung bisher nicht geklärt. In diesem Buch nehmen wir ein einfaches Integrate-and-Fire-Neuronmodell und eine einfache gewöhnliche Differentialgleichung für die Synapse zum Ausgangspunkt für den Aufbau der oben beschriebenen Objekterkennungskette. Damit wird die „bottom-up“ gerichtete Konstruktion von Teilnetzen für Merkmalserkennung, Objektbindung und -erkennung geleistet. Die erzielten Ergebnisse scheinen zu bestätigen, daß auf diese Weise die rechte Balance zwischen Einfachheit des Aufbaus und Leistungsfähigkeit der Informationsverarbeitung geschafft wurde. 1.4 Architektur des Sehens Eine erfolgreiche kognitive Architektur wird sich nur im Rahmen praktischer, beispielhafter Anwendungen entwickeln lassen, sei es für Zwecke der Informationstechnologie oder der Neurowissenschaften. Dementsprechend gilt es, eine Funktion des Gehirns mit generischen Zügen herauszugreifen und diese im Detail zu modellieren und zu verstehen. Das Sehen spielt für uns eine zentrale Rolle, und es ist die Forschung in diesem Bereich sehr weit fortgeschritten. Es bietet sich daher als Beispielanwendung an. Außerdem wäre eine erfolgreiche Replikation des biologischen Sehprozesses von großem wissenschaftlichem und wirtschaftlichem Wert. Nun ist Sehen ein sehr komplexer Prozess, bestehend aus vielen miteinander integrierten Teilprozessen, und etwa ein Drittel unseres Gehirns ist damit 16 1 Problematik der Modellierung künstlicher Gehirne beschäftigt. Wir konzentrieren uns daher in diesem Buch lediglich auf zwei dieser Teilprozesse, Bildsegmentierung und Objekt-Erkennen. Wir können uns dabei auf die Ergebnisse mehrerer Jahrzehnte von Forschung im Rahmen der Neurophysiologie, Psychologie und technischen Bildverarbeitung stützen. Eine zentrale Rolle spielt die Extraktion von lokalen Bildmerkmalen, und hierbei haben sich Gabor-artige Wavelets als sehr relevant herausgestellt [27, 28]. Wichtig ist auch das Wissen um eine Hierarchie von kortikalen Arealen [29], die verschiedene Bildaspekte wie lokale Form, Farbe oder Bewegung betonen und die eine Progression hin zu immer invarianteren Darstellungen realisieren, siehe etwa [30]. Der Sehprozeß des Menschen ist sequentieller Natur, indem selektive Aufmerksamkeit sich einem Strukturstück (kohärenten Objekt, Objektteil o.ä.) nach dem anderen zuwendet und das gesamte System jeweils seine Ressourcen koordiniert, um dieses Strukturstück zu analysieren und darzustellen. Wichtiger Aspekt dieses Prozesses ist die Segmentierung, d.h. die Abtrennung des Strukturstücks vom Hintergrund. Die Zusammenfassung aller Teile eines Strukturstücks zu einem Ganzen wird oft als kanonisches Beispiel des Bindungsproblems gesehen [31, 32], und es gibt zahlreiche Modelle, die dieses Problem durch zeitliche Signalkorrelation zu lösen vorschlagen, siehe etwa [33, 34, 35, 36]. Beispielhaft für Probleme der Systemorganisation bzw. -architektur ist das Problem der invarianten Erkennung. Die Erscheinung eines Objekts im Bild oder auf der Retina des Auges variiert, und das System muß das Objekt unabhängig von Translation, Skalierung, Rotation, Deformation, Teilverdeckung, Beleuchtung oder Signalrauschen erkennen und in seiner Struktur invariant darstellen, so daß andere Teilsysteme (Sprache, motorische Steuerung etc.) unabhängig von Bildvariation darauf reagieren können. Ein früher Vorschlag zur Lösung des Problems der Translationsinvarianz [15] spricht von vier Systemschichten. Die erste Schicht ist die Bilddomäne, eine zweidimensionale Mannigfaltigkeit besetzt mit Punktdetektoren. Die zweite Schicht enthält variante Merkmale: neuronale Einheiten, die lokale Muster oder „Merkmale“ extrahieren (etwa Gabor-Wavelets), wobei jede dieser Einheiten spezifisch ist sowohl im Sinne von Merkmalstyp als auch Ort. Die dritte Schicht enthält jeweils nur noch eine Einheit pro Merkmalstyp, die aktiviert wird, wenn mindestens eine Einheit dieses Typs in der zweiten Schicht aktiv ist. Auf diese Weise stellt die dritte Schicht ein gesehenes Objekt als unstrukturierte Liste von Merkmalen dar, die auf das Objekt zutreffen. Die vierte Schicht enthält Einheiten, deren Verbindungen von der dritten Schicht so strukturiert sind, daß sie selektiv auf bestimmte Mengen von Einheiten der dritten Schicht, also auf bestimmte Mengen von invarianten Merkmalen, reagieren. Wenn der in der zweiten und dritten Schicht realisierte Satz von Merkmalen differenziert genug ist, dann reagieren die Einheiten der vierten Schicht selektiv auf einen Objekttyp. Systeme dieser Art werden üblicherweise merkmalsbasiert genannt. 1.5 Die Schritte des Konstruktionsprozeß 17 Der merkmalsbasierte Ansatz hat mehrere fundamentale Probleme. Erstens ist es ein ungelöstes, oder vielleicht unlösbares, Problem, einen Merkmalssatz so zu definieren, daß keine zwei zu unterscheidenden Objekte dieselben Merkmale, wenn auch in verschiedener Anordnung enthalten. Dieses Problem wird entscheidend erschwert, wenn keine akkurate Segmentierung erfolgt ist und Merkmale des Hintergrunds mit aktiviert werden, und es wird noch entscheidender erschwert, wenn Invarianz nicht nur gegen Translation, sondern auch Skalierung und Rotation gefordert wird, so daß auf dem Weg von der zweiten zur dritten Schicht Merkmale verschiedener Größe und Orientierung miteinander identifiziert werden. Das Problem der Definition eines Merkmalssatzes muß angesichts der Komplexität der visuellen Umwelt durch Lernen gelöst werden. Dieser Versuch führt allerdings direkt zu einem zweiten Problem des merkmalsbasierten Ansatzes, dem Henne-Ei Problem, geeignete Merkmale nur nach ihrem Beitrag zum Erfolg der Objektdiskriminierung auswählen zu können, während aber Objektdiskriminierung ohne geeignete Merkmale nicht möglich ist. Ein drittes Problem mit dem merkmalsbasierten Ansatz ist die Strukturlosigkeit der invarianten Objektdarstellung in der dritten (oder gar vierten) Schicht, die es dem Rest des Systems unmöglich macht, etwa die relative Lage von Merkmalen wahrzunehmen: auf dem Weg von der zweiten zur dritten Schicht ist das Kind – die Objektstruktur – mit dem Bade – der Objektposition – ausgeschüttet worden. Es sind zahlreiche Versuche unternommen worden, die Probleme des merkmalsbasierten Ansatzes zu lösen. Ein Vorschlag, das Neocognitron von Fukushima [37] (wiederbelebt in [38]), betrifft die Einführung einer Vielzahl von Schichten, die eine Progression von Merkmalstypen enthalten, die graduell komplexer und invarianter werden. Dieser Vorschlag löst vielleicht das erste der genannten Probleme, nicht jedoch das zweite und dritte. 1.5 Die Schritte des Konstruktionsprozeß Universelle Merkmalsdetektion Es wurde gezeigt, daß Gabor-Wavelets die an sogenannten einfachen Zellen im visuellen Kortex V1 gemessenen Pulsraten mit großer Genauigkeit approximieren [28]. Wir stellen eine echtzeitfähige 6-schichtige Netzarchitektur vor, welche die Pulsraten der „simple cells“ sehr genau reproduziert. Dieses Netz ist zusammengesetzt aus konstanten und dynamischen Synapsen und besitzt in der letzten, 6. Schicht nur ein einziges Neuron. Das Merkmalsprofil repräsentiert sich dabei nicht in einer Gewichtung der Pixel, sondern in der Ankopplung an ausgesuchte Pixel. Die Übereinstimmung der so erzeugten Gabor-Wavelets mit den mathematischen ist frappant. Über die GaborWavelets hinaus können mit dem vorgestellten Netz beliebige Merkmale erfasst werden. Verbunden mit der Retina, stellen wir uns die verschiedenen Typen von Gabor-Wavelets auf je einer Fläche angeordnet und diese übereinander ge- 18 1 Problematik der Modellierung künstlicher Gehirne stapelt vor. Die von einem Bild verursachte Vielfalt der Pulsantworten der Gabor-Wavelet-Module in allen Flächen wird im nächsten Schritt invariant selektiert. Robuste Merkmalserkennung Als Zone bezeichnen wir das Retinagebiet der möglichen Erscheinung eines Merkmals, wenn sich das zum Merkmal gehörige Objekt in der Eingangsschicht in seiner Referenzposition befindet, etwa ein Kopf in Sehfeld-füllender Entfernung als Objekt, eine Braue als Objektkomponente bzw. Merkmalszone. (Zu dem Problem, mit größeren Verschiebungen des Objektes in der Bildebene fertig zu werden, siehe Kapitel 16.) Jedes Detektor-Ausgangsneuron eines Merkmalstyps ist mit einem Erkennungsneuron unidirektional vernetzt, während die Erkennungsneuronen untereinander i.a. weder vollständig noch einfach nächstnachbarlich vernetzt sind. In der Regel sind ebenso viele Erkennungsneuronen in der Zone untergebracht als Merkmalsdetektoren. Unabhängig von der Lage und Form des Merkmals in seiner Zone und unabhängig von der Beleuchtungsstärke synchronisieren sich vollkommen autonom diejenigen Neuronen der Erkennungsschicht, welche „über“ den Neuronen der Detektorschicht liegen, die das Merkmal detektiert haben. Robuste Objektdetektion Jedem Objekt (in Referenzposition zur Retina) ordnen wir eine Anzahl von Zonen zu, in welchen je ein einziges oder mehrere Merkmale erscheinen können; im letzteren Falle werden verschiedene Merkmale zu einer Objektkomponente zusammengebunden. Die Anzahl der Zonen eines Objektes wächst im allgemeinem mit der Anzahl der zu unterscheidenden Objekte. Im nächsten Schritt binden wir die zu einem Objekt gehörigen Objektkomponenten bzw. Zonen zusammen. Nur wenn genügend viele Gabor-WaveletModule die Merkmalscharakteristik des betrachteten Objekts in den einzelnen Zonen erfasst haben, kann der Objektdetektor anschlagen. Auf diese Weise lassen sich Köpfe detektieren, auch wenn sie unterschiedliche Mimik und Pose, Lage und Helligkeit aufweisen. Potential und Grenzen dieses Vorgehens werden im Kapitel 8 erörtert. 1.6 Zusammenfassung Die Verfügbarkeit eines sehr schnellen neuro-synaptischen Bindungsmechanismus, welchen wir in Kapitel 5 vorstellen, macht eine andere Lösung des Invarianzproblems möglich als von Rosenblatt vorgeschlagen: die korrespondenzbasierte Erkennung. In unserem Ansatz ist die räumliche Anordnung der Merkmale, die in der zweiten Schicht (Merkmalsdetektion) explizit vorhanden ist, auf dem Weg zur dritten Schicht (Merkmalserkennung) beibehalten worden und dort dargestellt. Für jedes zu erkennende Objekt ist also in der 1.6 Zusammenfassung 19 dritten Schicht ein zweidimensionales Netz von merkmalsspezifischen Knoten vorhanden, das die im Objekt vorhandenen Merkmale in derselben Anordnung wie im Bild enthält. Der Kontrast zum merkmalsbasierten Ansatz besteht also nicht, wie die etwas unglückliche Namensgebung nahelegt, im Verzicht auf Merkmale, sondern auf der Darstellung und Erhaltung von Merkmalsanordnung. Damit wird die dritte Schicht zu einer komplexen Modelldomäne, mit je einem Satz von Merkmalsnetzen für jedes Objekt. Die vierte Schicht bindet die Merkmalssätze zu je einem Objekt zusammmen. Im Erkennungsvorgang muß sowohl das richtige Netzwerk als auch ein ganzes System von Punkt-zu-PunktKorrespondenzen zwischen den Knoten des Netzes und Merkmalseinheiten der zweiten und dritten Schicht aktiviert werden. Korrespondenzen werden hierbei durch dynamische Synapsen vermittelt: Sie bewirken die Synchronisation der Pulsaktivität von Knoten in der dritten Schicht. Die genannten Probleme des merkmalsbasierten Ansatzes werden im korrespondenzbasierten System durch dynamische Synapsen in natürlicher Weise gelöst, insbesondere das erste (Anordnungsvieldeutigkeit) und das dritte durch explizite Darstellung räumlicher Objektstruktur. Auch das zweite Problem wird zumindest entscheidend reduziert, indem das System bereits mit einem einfachen Standardsatz von Merkmalen, etwa Gabor-Wavelets, Objekte eindeutig erkennen kann, ohne Merkmals-Lernen in Anspruch zu nehmen. Das genannte Henne-Ei Problem tritt also nicht auf. In den Kapiteln 5–8 werden die Details der einzelnen Schritte des Konstruktionsprozesses behandelt. In Kapitel 16 wird die neuronale Architektur der kompletten Erkennungskette samt Merkmalskaskade mit 8 Orientierungen und 5 Auflösungsebenen in allen Einzelheiten sowie eine Implementierung in 3D-Technologie vorgestellt. In Kapitel 9 gestatten wir uns einen Ausblick auf offene Fragen zur invarianten Objekt- und Szenenerkennung. 2 Informationsverarbeitung in Netzen mit konstanten Synapsen Ulrich Ramacher und Arne Heittmann In diesem Buch wird der Versuch unternommen, ein künstliches Sehsystem mit Ähnlichkeit zum menschlichen Gehirn zu konstruieren, welches komplette Bilderkennungsaufgaben ausführen kann, d.h. solche, welche Merkmalsextraktion, Bindung von Merkmalen zu Objekten und Objekterkennung umfassen. Die Ähnlichkeit sehen wir durch die Verwendung möglichst einfacher Neurone und Synapsen sowie durch die Beschränkung nur auf diese gegeben: eine Beifügung von Algorithmen zusätzlich zu den Neuron und Synapse definierenden Algorithmen versagen wir uns. Dementsprechend wird das Signalverhalten von biologischen Neuronen und Synapsen gerade so weit abstrahiert, daß noch die besagten anspruchsvollen Bilderkennungsaufgaben auszuführen sind. Genauer gesagt, es werden künstliche Neuronen betrachtet, welche bei Erreichen eines Schwellwertes einen Puls abfeuern und für die Dauer des Sendens das Membranpotential auf null setzen. Nach der Sendephase beginnt die Akkumulationsphase, dabei können externe Eingangssignale an jedem Neuron anliegen, insbesondere aber auch die synaptisch gewichteten Pulssignale anderer Neuronen. Es wird ferner angenommen, daß die Synapsen unter dem Einfluß der lokal anliegenden Signale (beispielsweise eines einkommenden Pulses und des anliegenden Membranpotentials) ihre Stärke verändern können. Von entscheidender Bedeutung für unseren Ansatz sind sowohl die Experimente als auch die Theorie. Unter Experimenten verstehen wir Simulationen von Pulsneuronen, Synapsen und daraus zusammengesetzten Netzen auf Rechnern, wobei immer wieder nur die einmal ausgewählten Signalgleichungen verwendet werden, welche die Dynamik der Synapsen und Pulsneuronen definieren. Unter Theorie eine quantitative Modellierung der in den experimentellen Messgrößen zum Ausdruck kommenden Zusammenhänge. Erst nachdem wir grundlegende Experimente und Theorie zum Einklang gebracht haben, beginnen wir mit der Konstruktion von Merkmalsdetektoren und arbeiten uns in der Erkennungskette hoch. Ziel dieses Kapitels ist zunächst die Aufstellung der Signalgleichungen für Pulsneurone und Synapsen. Sodann spezialisieren wir uns auf Synapsen mit 22 2 Informationsverarbeitung in Netzen mit konstanten Synapsen konstanten Gewichten und betreiben ausgiebig die experimentelle Beantwortung der Frage, was Information darstellt und wie sie verarbeitet wird. Das Studium des allgemeinen Falls der dynamischen Synapsen wird in Kapitel 5 wieder aufgenommen. Dieses Kapitel dient nicht der Einführung von Neuronen und Synapsen; dazu sei auf die einschlägige Literatur verwiesen [39, 40, 41]; siehe auch Kapitel 10. 2.1 Allgemeine Signalgleichungen für Pulsneuron und Synapse Von den N Neuronen mögen zur Zeit t0 σ Neuronen Pulse aussenden und ε andere diese Pulse empfangen; dabei gilt immer: σ + ε = N , für σ, ε = 0 . . . N . Die Pulsform kann beliebig kompliziert vorgegeben werden: beispielsweise als Kombination von aufsteigenden und abfallenden Exponentialfunktionen oder als Folge solcher Funktionen. Für unsere Bilderkennungsaufgaben reichen jedoch schon Rechtecksignale: alle Pulse dauern td Sekunden (im nachfolgenden mit 1 ms Pulsdauer festgesetzt) und sie haben eine konstante Amplitude x; mit x(t) sei die Zeitfunktion des Pulses bezeichnet. Es bezeichne ferner E(t0 ) die Menge der zur Zeit t0 empfangenden Neuronen und S(t0 ) die zu dieser Zeit sendenden. Der Anfangszustand des Netzes zur Zeit t0 ist gegeben durch die verstrichenen Sendezeiten ∆s (t0 ), s ∈ S(t0 ) sowie durch die bis zu diesem Zeitpunkt von den empfangenden Neuronen aufsummierten Membransignale ae (t0 ), e ∈ E(t0 ). Schließlich sind noch die augenblicklichen Signalwerte in (t0 ), n = 1 . . . N , des äußeren Inputs und der Synapsen Wes (t0 ) bzw. We0 (t0 ) zu verzeichnen; in können auch Pulssignale sein. Dabei bezeichnet Wes bzw. We0 die Synapse, welche das Pulssignal des s-ten Neurons zum e-ten Neuron bzw. das e-te Eingangssignal zum e-ten Neuron leitet. Als Signalgleichungen für Empfangen und Senden eines Neurons werden angesetzt1 : (1) sobald ein Neuron (es sei das e-te) nicht mehr sendet und solange es noch nicht den Schwellwert θ erreicht hat, bezeichne 1 Wählen wir Neuron- und Eingangssignale sowie den Schwellwert als dimensionslose Größen, so müssen die Synapsen die Dimension Hz haben. Hierbei ist darauf zu achten, ob man die Einheit mit der Sekunde oder mit der Millisekunde festlegt; in diesem Buch benutzen wir die Millisekunde als Einheit, so daß die Synapsen in Kilohertz angegeben sind. Der Bequemlichkeit zuliebe unterdrücken wir die Dimensionsangabe. 2.2 Zerlegungen und ihre zeitliche Entwicklung 0 ≤ ae (t) := Z t t0 X s∈S(t0 )∩Ne 23 Wes (t′ ) xs (t′ ) + We0 (t′ ) ie (t′ ) dt′ +ae (t0 ) ≤ θ (2.1a) den akkumulierten Signalwert des e-ten Neurons zur Zeit t. Hierbei bezeichnet Ne die Menge der Neuronen, welche mit dem e-ten Neuron verbunden sind (wir nehmen im weiteren zeitlich konstante Verbindungsstrukturen an). (2) sobald ein empfangendes Neuron den Schwellwert erreicht oder solange ein sendendes Neuron nicht aufgehört hat zu senden, gelte: 0 < xs (t) für t0 < t ≤ t0 + td − ∆(t0 ) (2.1b) Wir heben hervor, daß wir keinen Zerfallsterm für das akkumulierende Neuron einführen, da wir es für die in diesem Buch ins Auge gefassten Bilderkennungsaufgaben nicht benötigen. Selbstverständlich gehen wir davon aus, daß komplexere Bilderkennungsaufgaben eine Ergänzung unseres Neuronmodells und des noch zu besprechenden Synapsenmodells nötig machen werden. Um die durch eine Ergänzung zustandekommende neue Informationsverarbeitungsqualität jedoch klar hervortreten lassen zu können, entfernen wir jeden noch so gewohnten Term in den Signalgleichungen, wenn wir ihn nicht benötigen. Wir benötigen noch eine Gleichung zur Beschreibung der Synapse. Da nur lokale Wechselwirkungen zwischen Neuronen und Synapsen betrachtet werden, wird als allgemeine synaptische Gleichung angesetzt: dWes (t) = −γ · Wes (t) + Q(ae (t), xs (t)) für e ∈ E(t), s ∈ S(t) dt dWes (t) = −γ · Wes (t) für e, s ∈ E(t) , dt (2.1c) wobei Q eine Funktion (oder auch ein Funktional) der Sende- und Membransignale und γ eine Zerfallskonstante ist. In den späteren Kapiteln werden auch an Dendriten gelagerte Synapsen betrachtet, welche statt des Membranpotentials ein lokales Synapsenpotential verwenden (natürlich kann Gleichung (2.1c) auch für die Eingangssynapsen aufgestellt werden). Wie ersichtlich, gehorchen die Synapsen einer verallgemeinerten Hebb’schen Dynamik; ihre genaue Ausprägung, die entscheidend für den erfolgreichen Einsatz ist, werden wir erst in Kapitel 5 angeben. 2.2 Zerlegungen und ihre zeitliche Entwicklung Erreicht irgendein ae (t) den Schwellwert θ zur Zeit t = te , so geht das e-te Neuron in den Zustand des Sendens über, und damit hört die Größe ae (t) 24 2 Informationsverarbeitung in Netzen mit konstanten Synapsen auf zu existieren. Gleichzeitig hat sich die Zerlegung in empfangende und sendende Neuronen geändert. Ebenso ändert sich die Zerlegung, wenn eines der Neurone mit Senden aufhört: statt des Sendesignals existiert nun ein Membransignal, welches immer bei null beginnt – im Gegensatz zu ae (t0 ), welches als Anfangswert i.a. von null verschieden ist. Der Zeitpunkt des Übergangs von einer Zerlegung in die nächste kann auf eindeutige Weise bestimmt werden, wobei äußere Signale und Synapsen irgendwelche zeitliche Funktionen sein können. Bezeichne dazu τs (t0 , t) = t0 + td − ∆s (t0 ) − t (2.2a) τ0 = td − ∆x (t0 ) bzw. tf (0) = t0 + τ0 (2.2b) die aktuelle verbleibende Lebenszeit des s-ten Sendeneurons zum Zeitpunkt t. Irgendeines der Sendeneuronen (angenommen das x-te) weist die kleinste Lebenszeit auf. Wenn kein Empfängerneuron früher den Schwellwert erreicht, ist die Lebenszeit der ersten Zerlegung dadurch bestimmt, daß τx (t0 , t) zu null wird. Als Lebensdauer τ0 bzw. Endzeitpunkt tf (0) der initialen Zerlegung ergibt sich dann in explizierter Form: Ebenso wird die aktuell geschätzte verbleibende Lebenszeit τe (t0 , t) des e-ten Empfängerneurons durch θ − ae (t0 ) τe (t0 , t) := − 1 · (t − t0 ) (2.2c) ae (t) − ae (t0 ) definiert. Irgendeines der Empfängerneurone weist momentan die kleinste Lebenszeit auf; allerdings kann im nächsten Moment ein anderes die kleinste Lebenszeit erhalten. Wenn kein Senderneuron früher ablebt als ein Empfängerneuron den Schwellwert erreicht, ist die Lebenszeit der ersten Zerlegung dadurch bestimmt, daß das Minimum über alle Lebenszeiten τe (t0 , t) zu irgendeiner Zeit t zu null wird. Das Empfängerneuron mit Lebenszeit null werde wieder mit x bezeichnet. Als Lebensdauer τ0 der ersten Zerlegung ergäbe sich dann in implizierter Form: τ0 = (t − t0 ) ⇔ θ − ax (t) = 0 (2.2d) Es muß also in jeder Zerlegung zu jeder Zeit t das über alle Empfänger- und Sendeneuronen genommene Minimum der Lebenszeiten τe (t0 , t) und τs (t0 , t) berechnet werden, um den Umschaltpunkt von einer Zerlegung in die nachfolgende zu berechnen. Diese Prozedur der Berechnung von Lebensdauer und Endzeitpunkt einer Zerlegung bleibt unverändert, auch wenn eine weitere Gleichung für die synaptische Aktivität hinzutritt. Auf diese Weise kann von Zerlegung zu Zerlegung fortgeschritten werden, wobei zu beachten ist, daß keine Zerlegung – mit Ausnahme derjenigen, in welcher alle Neuronen empfangen – länger als die Dauer eines Pulses leben kann. Die Vermutung liegt nahe, daß die durchschnittliche Dauer einer Zerlegung mit der Zahl der Neurone abnimmt. 2.3 Experimente mit konstanten Synapsen 25 Abbildung 2.1 bestätigt diese Vermutung. Da mit der Steigerung der Neuronzahl in einem vollvernetzten Netz die Zahl der Pulse, welche bei jedem Neuron eingehen, sehr schnell wächst, sind die Synapsen in Abbildung 2.1 so normiert worden, daß das Produkt aus Neuronzahl N und mittlerem Synapsenwert W konstant ist. Dabei ist dem mittleren Synapsenwert W das Werteintervall [0, 2W ] zugeordnet und angenommen, daß die Synapsen gleichverteilt sind. Abb. 2.1 Lebenszeit der Zerlegungen als Funktion der Neuronenzahl Die Inspektion von (2.1a) zeigt, daß die Signaldynamik erhalten bleibt, wenn von dem Satz (Wes , We0 , ae (t0 ), θ) zu (Wes /θ, We0 /θ, ae (t0 )/θ, 1) übergegangen wird. Im Nachfolgenden setzen wir den Schwellwert immer auf 1, d.h. wir entledigen uns eines überflüssigen Parameters. Da eine wichtige Klasse von Netzen durch solche gegeben ist, in welchen die Synapsen durch konstante Werte bzw. feste Zeitfunktionen dargestellt werden, beginnen wir das Studium der Informationsverarbeitung mit diesem Fall. 2.3 Experimente mit konstanten Synapsen Wir betrachten ein Netz von 11 Neuronen, welche alle miteinander vernetzt sind und von denen jedes ein Eingangssignal über eine Synapse mit dem Wert 0.1 zugeleitet bekommt. Die Eingangssignale haben zufällig gewählte feste Werte zwischen 0 und 1, und die die Neurone miteinander verbindenden Synapsen weisen den Mittelwert 0.081 und eine Streuung von 34% auf. Die Zeitdauer td eines Pulses ist auf 1 ms gesetzt. Wird nun das Netz aktiviert, d.h. werden die Signalgleichungen (2.1a–c) für jedes der 11 Neurone berechnet, so erhält man für jedes Neuron eine Folge von Pulsen.