Zur Konstruktion künstlicher Gehirne

Zur Konstruktion künstlicher Gehirne
Ulrich Ramacher · Christoph von der Malsburg (Hrsg.)
Zur Konstruktion künstlicher
Gehirne
123
Herausgeber
Prof. Dr. Ulrich Ramacher
COM SDR
Infineon Technologies AG
Otto-Hahn-Ring 6
81739 München
Deutschland
[email protected]
Prof. Dr. Christoph von der Malsburg
Frankfurt Institute for Advanced Studies
Max-von-Laue-Str. 1
60438 Frankfurt a.M.
Deutschland
[email protected]
ISBN 978-3-642-00187-1
e-ISBN 978-3-642-00191-8
DOI 10.1007/978-3-642-00191-8
Springer Dordrecht Heidelberg London New York
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;
detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
c Springer-Verlag Berlin Heidelberg 2009
Dieses Werk ist urheberrechtlich geschätzt. Die dadurch begründeten Rechte, insbesondere die der
Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in
Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der
gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der
Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann
benutzt werden dürften.
Einbandentwurf: eStudioCalamar, Figueres/Berlin
Gedruckt auf säurefreiem Papier
Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.de)
Inhaltsverzeichnis
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
0.1 Hauptergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
0.2 Vorgeschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
0.3 Danksagung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
6
8
1
Problematik der Modellierung künstlicher Gehirne . . . . . . . .
1.1 McCullogh–Pitts Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Lernende Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Pulsende Neuronen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Architektur des Sehens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Die Schritte des Konstruktionsprozeß . . . . . . . . . . . . . . . . . . . . . .
1.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
12
13
14
15
17
18
2
Informationsverarbeitung in Netzen mit konstanten
Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Allgemeine Signalgleichungen für Pulsneuron und Synapse . . . .
2.2 Zerlegungen und ihre zeitliche Entwicklung . . . . . . . . . . . . . . . . .
2.3 Experimente mit konstanten Synapsen . . . . . . . . . . . . . . . . . . . . .
2.4 Entropie als informationsübertragende Funktion . . . . . . . . . . . . .
2.5 Betriebsbereich eines Netzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Pulsraten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Auflösung und Netzgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Anwendungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Zur Simulationsproblematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
22
23
25
32
34
36
37
42
46
46
Allgemeine Theorie der Netze mit dynamischen Synapsen .
3.1 Herleitung der Signalenergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Zeitmittel und Raummittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Maximierung des Nicht-Wissens . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Zustandsgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
49
54
56
60
3
VI
Inhaltsverzeichnis
3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4
Makrodynamik der Netze mit konstanten Synapsen . . . . . . .
4.1 Bekannte Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Bekannte Verteilung von Synapsen . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Prüfung der Übereinstimmung von Theorie und Experiment . .
4.4 Korrelationsfreiheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Bestimmung der Signalenergie und Entropie durch die Pulsrate
4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
64
68
70
85
85
88
5
Informationsverarbeitung mit dynamischen Synapsen . . . . . . 89
5.1 Lösungstypen der Synapsengleichungen . . . . . . . . . . . . . . . . . . . . . 90
5.2 Synchronisation der Neuronen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Segmentation per Synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.4 Berechnung von Pulsdifferenzen und -summen . . . . . . . . . . . . . . . 100
5.5 Einfache Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.6 Zeitkodierung und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.7 Entropie und Zustandsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.8 Vorüberlegungen zur Statistik der Synchronisation . . . . . . . . . . . 113
5.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6
Netze für die Merkmalsdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1 Visuelles System im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.2 Simple Cells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.3 Erzeugung von Detektorprofilen vom Gabor-Wavelet-Typ . . . . . 124
6.4 Experimentelle Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7
Netze für die Merkmalserkennung . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.1 Prinzipien der Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.2 Netzarchitektur für die robuste Merkmalserkennung . . . . . . . . . . 137
7.3 Merkmalserkenner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.4 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.5 Orthogonalität bei Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.6 Invarianz gegenüber Helligkeit der Beleuchtung . . . . . . . . . . . . . . 147
7.7 Invarianz gegenüber Veränderungen der Form und Mimik . . . . . 149
7.8 Komposition mehrerer Merkmale zu einer Objektkomponente . 151
7.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8
Netze für die robuste Kopfdetektion . . . . . . . . . . . . . . . . . . . . . . . 157
8.1 Ergebnisse der Kopfdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.2 Potential und Grenzen der bisher entwickelten Seharchitektur . 163
8.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Inhaltsverzeichnis
9
VII
Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1 Das Datenformat des Gehirns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.2 Selbstorganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.3 Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.4 Invariante Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.5 Strukturierte Gedächtnisdomäne . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10 Vorüberlegungen zur mikroelektronischen Realisierung . . . . 179
10.1 Äquivalente Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
10.2 Mikroelektronische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 180
10.3 Grundlegende Modelle biologischer und technischer Neuronen . 183
11 Elementare Schaltungen für Neuronen, Synapsen und
Photosensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.1 Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
11.2 Adaptive Synapsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
11.3 Bildsensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
11.4 DA-Wandler und analoger Bildspeicher für die Bildeingabe . . . 238
11.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
12 Simulation mikroelektronischer neuronaler Schaltungen
und Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
12.1 Modellierung von Neuron und Synapse . . . . . . . . . . . . . . . . . . . . . 242
12.2 Ergebnisse der Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
12.3 Simulationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
12.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
13 Architektur und Chip-Entwurf des Merkmalserkenners . . . . 261
13.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
13.2 Schnittstellen für Test und Anzeige . . . . . . . . . . . . . . . . . . . . . . . . 263
13.3 Layoutimplementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
13.4 Demonstrator und Meßergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . 266
13.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
14 Architektur und Chip-Entwurf für Merkmalsdetektoren . . . 269
14.1 Digitale Darstellung der Merkmalsdetektion . . . . . . . . . . . . . . . . . 270
14.2 VLSI-Design eines neuronalen Prozessor- und RouterSchaltkreises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
14.3 Demonstration der Merkmalsdetektion . . . . . . . . . . . . . . . . . . . . . 279
14.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
VIII
Inhaltsverzeichnis
15 3D-Stapeltechnik für den Sehwürfel . . . . . . . . . . . . . . . . . . . . . . . . 285
15.1 Prinzip der 3D Stapelung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
15.2 Prozeßschritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
15.3 Verbindungstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
15.4 Elektrische Eigenschaften von 3D-Verbindungen . . . . . . . . . . . . . 314
15.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
16 Architektur eines Sehwürfels der ersten Generation . . . . . . . . 317
16.1 Dimensionen der Merkmalskaskade und Auflösungspyramide . . 317
16.2 Sparsame Implementierung des Merkmalsdetektors . . . . . . . . . . 326
16.3 Photosensor-Chip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
16.4 Chip für die restliche Auflösungspyramide . . . . . . . . . . . . . . . . . . 329
16.5 Größe des NPU-Arrays und Speicherbedarf . . . . . . . . . . . . . . . . . 332
16.6 Merkmalsdetektor-Chip für 8 Orientierungen . . . . . . . . . . . . . . . 338
16.7 Merkmalserkenner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
16.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
17 Ausklang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
18 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
18.1 Simulator für Kapitel 3 und 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
18.2 Axon-Modell von Hodgkin und Huxley . . . . . . . . . . . . . . . . . . . . . 364
18.3 Transistor-Grundschaltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
18.4 Optische Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Vorwort
Unser Gehirn hat eine geschätzte Rechenleistung von 1015 Operationen pro
Sekunde (wenn man eine Operation pro Synapse und Sekunde im Durchschnitt
ansetzt), und ist damit ein sehr ernst zu nehmender Computer. Das Gehirn
ist als Instrument zur Akquisition, Strukturierung, Indexierung und Koordinierung von Weltwissen und als Instrument flexiblen autonomen Verhaltens
allen künstlichen Systemen weit überlegen. Außerdem sollten wir nicht verdrängen, daß das Gehirn die Quelle aller formalen Systeme und Algorithmen
ist. Und trotz dieser Vorzüge verstehen wir nicht, wie es funktioniert, obgleich
das Wissen gewaltig zugenommen hat.
Seit mehr als 100 Jahren wird das menschliche Hirn beforscht. Dünne
Schnitte wurden zu Millionen angelegt, an die hundert Nadeln simultan positioniert, ungezählte Experimente zu den elektrisch-chemischen Vorgängen an
Synapsen und Neuronen duchgeführt, mit verschiedensten Techniken Bilder
von den Hirnarealen aufgenommen und unübersehbar viele Verhaltensexperimente ausgeführt. All dies führte zu Einsichten in die vermutete Funktionsweise des Hirns, welche nur auf der Ebene von einzelnen Synapsen und
Neuronen mit der quantitativen Modellierung der elektro-chemischen Vorgänge zu einer gesicherten Theorie fand [1]. Netzwerke von Neuronen und
Synapsen, welche eine bestimmte Informationsverarbeitung erbringen, wurden – wenn überhaupt – sensornah aufgeklärt [2, 3, 4]. Der überwiegende Teil
der Arbeiten trug also hauptsächlich bei zur phänomenologischen Beschreibung, begleitet von Vermutungen über die Wirkzusammenhänge. Von einer
anerkannten Beschreibung der Informationsverarbeitung des Hirns und der
Rekonstruktion seiner Leistungen sind wir deshalb weit entfernt.
In dieser Situation hatten wir es uns zur Aufgabe gemacht, auf der ausschließlichen Grundlage von Neuron- und Synapsenmodellen - welche genügend einfach sind, um simulierbar zu bleiben, und genügend komplex, um
nicht-triviale Erkennungsaufgaben wahrzunehmen - zu bestimmen, wie Information durch pulsende neuronale Netze dargestellt wird und wie die elementaren Muster der Vernetzung von Neuronen und Synapsen aussehen. Um
nicht einfach nur ein weiteres Mosaiksteinchen der Vermutung dem eingangs
2
Vorwort
geschilderten Stand der „neuronalen Kunst“ hinzuzufügen, haben wir durch
geeignete Kombination dieser elementaren informationsverarbeitenden Netze
ein kleines künstliches Hirn konstruiert, welches komplette und anspruchsvolle
Aufgaben auszuführen erlaubt.
Damit der Leser sich frühzeitig ein Bild unserer Methodik machen kann,
stellen wir unser Vorgehen und die erhaltenen Hauptergebnisse übersichtsartig
vor.
0.1 Hauptergebnisse
Allgemeine Erkennungskette in neuronaler Architektur
Wir beschränken uns auf das Sehen und haben folgendes erstes Hauptergebnis
erzielt: es liegen Module zur Merkmalsdetektion und -erkennung vor, ein Netzwerk zur Bindung verschiedener Merkmale zu einer Objektkomponente bzw.
von Objektkomponenten zu Objekten, welche in geeigneter Vernetzung die
robuste Erkennung von Köpfen bewerkstelligen (Kapitel 8). Damit existiert
eine minimale, aber komplette Kette von Erkennungsmodulen; wir sprechen
im folgenden von der Erkennungskette. Die Besonderheit unseres Ansatzes
scheint darin zu bestehen, daß der gesamte Satz von Funktionen zur Merkmalsdetektion, -erkennung und Objektbindung auf der Basis eines einzigen
Neuron- und Synapsenmodells realisiert werden kann – ohne weitere Zutaten an Lernalgorithmen oder Ähnlichem. Wir hegen den Verdacht, daß unser
Ansatz universell ist, d.h. die vorgestellte Merkmalserkennung und Objektbindung mit derselben Struktur dieser Module und ihrer Vernetzung nutzbar
ist nicht nur für Kopf-Objekte, sondern für beliebige Objekte, ja sogar für beliebige Erkennungsaufgaben. Zum Beispiel könnte das Objekt eine Bildszene
sein, mit verschiedensten darin enthaltenen Subjekten, und Merkmale würden
in diesem Fall durch die Anwesenheit bestimmter Subjekte in der Bildszene
definiert sein. In der Sprache der Informatik ausgedrückt heißt dies, daß allein
das Datenformat sich ändert, aber die Prozesse die gleichen bleiben.
Darstellung von Information durch Entropie und Korrelation
Ein zweites Hauptergebnis betrifft die quantitative Charakterisierung von Informationsverarbeitung in Netzen mit pulsenden Neuronen durch Entropie
und Korrelation. Bezeichnet man als Zustandsraum die Menge aller Zerlegungen von unabhängig voneinander agierenden Neuronen eines Netzes in empfangende und sendende Neuronen und als Verteilung die Funktion, welche
die Häufigkeit des Auftretens jeder Zerlegung verzeichnet, so ist die daraus
berechnete Entropie die Grundfunktion des Netzes, welche in eindeutigem
Zusammenhang mit den Pulsraten der Neuronen des Netzes steht. Dagegen
mißt die Korrelation die zeitliche Abhängigkeit der Sendetätigkeit der Neuronen des Netzes und bestimmt damit Struktur und Größe des Zustandsraumes;
0.1 Hauptergebnisse
3
wenn beispielsweise 8 von 10 Neuronen in einer festen und konstanten Zeitbeziehung senden, dann lebt die Verteilung bzw. Entropie nur noch von den
2 Neuronen und dem 8-Neuronen-Cluster. Wie wir im Kapitel 5 und 7 sehen
werden, tritt die Synchronisation (zeitgleiches Senden als spezielle Form einer Zeitbeziehung) auf, wenn die Merkmale eines zu erkennenden Objektes
im betrachteten Bild vorliegen. Der Grad der Synchronisation wird durch ein
entsprechendes Netz ermittelt und liegt als Pulsrate vor. Die Kodierung von
Information geschieht also durch die zwei Größen Entropie und Korrelation,
und beide werden durch Pulsraten repäsentiert. Der Streit um Raten- oder
Zeitkodierung ist somit hinfällig: beides ist zur Übertragung von Information
nötig.
Mustererkennung mit dynamischen Synapsen am Beispiel von Köpfen
Das dritte Hauptergebnis betrifft die Anwendung solcher Netze. Es zeigt sich,
daß Netze mit konstanten Synapsen oder Synapsen mit festem Zeitverhalten unter realen Bedingungen zur Mustererkennung in Bildern nicht in der
Lage sind, wenn das Ergebnis der Erkennung unabhängig von Anfangswerten, Signalrauschen und endlicher Genauigkeit der synaptischen Werte sein
soll. Charakteristisch für diese Netze ist, daß die Korrelation sehr klein wird
und im Limes großer Neuronenzahl verschwindet, somit der Zustandsraum
keine Cluster bzw. Muster enthalten kann. Erst wenn dynamische Synapsen
eingeführt werden, welche abhängig vom einkommenden Puls und umgebenden Potentialen am Dendriten oder an der Neuronenmembran ihr zeitliches
Verhalten gemäß einer von uns entwickelten einfachen Differentialgleichung
entfalten, ergibt sich die Möglichkeit zur Mustererkennung. Letztere beruht
im wesentlichen auf Korrelation bzw. Dekorrelation, welche mit exitatorischen
Synapsen (positives Vorzeichen für den Wechselwirkungsterm der Synapsengleichung) bzw. inhibitorischen Synapsen (negatives Vorzeichen) verwirklicht
wird und in allen Stufen der Erkennungskette von der Merkmalsdetektion über
die Objektbindung zum Einsatz kommt. Verbunden damit ist eine kleine Anzahl von in ihrer Verbindungsstruktur spezialisierten Teilnetzen (Kapitel 5-8).
Die auf diese Weise im gesamten Netz als Entropie-Korrelation-Tupel repräsentierte Information tritt im Bild auf als eine Vielzahl von örtlich verteilten
Merkmalen, welche selektiv zu Objekten zusammentreten, oder als eine spezielle Komposition von Objekten in einem Bilde, etc. In diesem Sinne können
wir den umgangssprachlichen Informationsbegriff in eindeutiger Weise mit
dem wohldefinierten Informationsbegriff für ein neuronales Netz verbinden,
welcher durch das Entropie-Korrelations-Tupel gegeben ist.
4
Vorwort
Theorie der Dynamik neuronaler Netze
Als viertes Hauptergebnis betrachten wir die Formulierung einer Theorie, welche gemessene Größen wie Entropie und Pulsrate in Abhängigkeit von den
Eingangssignalen vorhersagen kann. Von zentraler Bedeutung ist hierbei die
Aufstellung einer Signalenergie, welche man sich als an den Neuronmembranen
aufgesammelte Ladungen und durch die Synapsen fließende Ströme vorstellen
kann. Mittels dieser Signalenergie lassen sich zum einen die ursprünglichen
Signalgleichungen für Synapsen und Neuronen wiedergewinnen und zum anderen Entropie und Korrelation eines Netzes berechnen. Im speziellen Fall der
konstanten Synapsen bzw. Synapsen fest vorgegebenen Zeitverhaltens können
wir zeigen (Kapitel 3-4), daß experimentelle und theoretische Entropiewerte
um weniger als 3 % voneinander abweichen. Ein Ergebnis für dynamische Synapsen steht noch aus, wenn auch der formale Rahmen von Signalenergie und
partieller Differentialgleichung für die Verteilungsfunktion formuliert werden
kann. Damit steht nun eine Theorie zur Verfügung, mit welcher die Modellierung der informationsverarbeitenden Prozesse eines Gehirns angegangen
werden kann.
Sowohl Experiment als Theorie benötigen zu ihrer Simulation erhebliche
Rechenleistung; wegen der endlichen, uns zur Verfügung stehenden Rechenkapazität begrenzt dies die Größe der in diesem Buch behandelten Netze. Für die
experimentelle Bestimmung der Pulsraten sind Netze bis ca. 3000 vollvernetzte Neuronen auf einem PC ausführbar; für Stichproben-basierte Schätzungen
der Entropiewerte ca. 100 vollvernetzte Neuronen. Genaue Werte der Entropie
erhält man mit einem PC jedoch nur mit weniger als 30 vollvernetzten Neuronen, wobei jedoch die Grenzen des geduldigen Wartens viel eher erreicht werden – in diesem Buch werden für den Fall genauer Werte nie mehr als 11 vollvernetzte Neuronen betrachtet. Selbst mit dem allfälligen Fortschritt bei den
Rechnern wird es in den nächsten zehn Jahren demnach dabei bleiben, daß nur
kleine Module gerechnet und ihre typischen Eingangs-Ausgangsbeziehungen
abgespeichert werden können. Die Zusammensetzung der Module zu einem
Gesamtnetz wird sich deshalb immer nur auf eine beschränkte Zahl von Testbildern stützen können, welche die Kette der Eingangs-Ausgangsbeziehungen
aller Module füttert. Die Theorie liefert somit nur eine Entwurfsvorlage und
beschreibt die vermutete Aktion des Gesamtnetzes, so daß man nicht umhin
können wird, spezielle elektronische Realisierungen der Module zu bauen. Diese werden um Größenordnungen über der Leistungsfähigkeit der PCs liegen
und erlauben, eine Vielzahl wirklicher Bilder in Echtzeit zu verarbeiten und
auszutesten (Kapitel 16).
Neurocomputer der zweiten Generation
Als fünftes Hauptergebnis stellen wir deshalb eine modulare Architektur samt
ihrer schaltungstechnischen Realisierung in CMOS-Technologie vor, mit welcher die Erkennungskette und prinzipiell beliebig große Netze aufgebaut werden können. Entsprechende Kapitel behandeln die schaltungstechnische Reali-
0.1 Hauptergebnisse
5
sierung von Neuronen, Synapsen sowie Bildsensoren und von Modulen für die
Merkmalsdetektion und -erkennung bzw. Objekterkennung (Kapitel 11-14).
Dabei ist das gemessene Verhalten der Chip-Module in sehr guter Übereinstimmung mit dem simulatorisch bzw. theoretisch erzielten Verhalten. Da die
einzelnen Chip-Module leicht tausendmal schneller als biologische Netze sein
können, können diese Module wegen ihrer universellen Anwendbarkeit zeitlich
mehrfach eingesetzt werden, um ein viel größeres Netz zu emulieren. Auf diese
Weise können beispielsweise vollständige Merkmalspyramiden realisiert werden. Vonnöten ist dazu jedoch ein Architekturkonzept, welches Lesen/Speichern und Multiplexen der Signalwerte der Neuronen und Synapsen bewerkstelligt. Dies wiederum bedeutet die Hinzunahme einer klassischen Computerarchitektur zur Steuerung und Verwaltung der Ressourcen einerseits und
Weiterleitung der Pulssignale andererseits. Anders als die erste Generation
von Neurocomputern, welche entweder analog oder digital entwickelt wurde,
wird die zweite Generation sich also beider Entwurfsstile bedienen.
Wegen der Vielzahl der benötigten Module – verschieden sind nur wenige,
da die oben erwähnte Erkenntniskette universal einsetzbar ist – mußte ferner
eine neue Aufbautechnologie entwickelt werden: Einzelne Silizium-Scheiben
werden zu einem Stapel aufgetürmt, und vertikal durch die Scheiben verlaufene Verbindungsleitungen ergänzen das in jeder Scheibe liegende Verbindungsnetzwerk. 6 Schichten in nur jeweils 14 µm Abstand wurden auf diese Weise
miteinander verbunden, allerdings handelte es sich bei dem gefertigtem Stapel
noch um einen „dummy“, mit welchem die Qualität der Verbindungsleitungen
und die Ausbeute getestet wurde (Kapitel 15). Erst im nächsten Schritt ist die
Integration der existierenden Chips für Merkmalserkennung und Objektbindung als 3D Stapel vorgesehen. Ein Vorschlag dafür ist in Kapitel 16 gemacht:
für die entfernungsunabhängige Erkennung von 1000 Objekten mittels einer
kompletten Merkmalskaskade für 8 Orientierungen und 5 Auflösungsebenen
werden 59 Chips auf einer Grundfläche von ca. 70 mm2 in 14 µm Abstand
aufeinandergestapelt zu einem 1 mm hohen Sehwürfel.
Vom programmierbaren zum selbstorganisiernden Computer
Wiewohl wir nur eine erste Generation von künstlichen Hirnen in diesem Buch
vorstellen können und der Überzeugung sind, daß noch viele Generationen
werden folgen müssen, um die volle Leistungsfähigkeit des menschlichen Gehirns zu erreichen, sehen wir doch ein neues Rechen-Zeitalter heraufziehen. Es
gab Zeiten, da wurden Computer mit ihrer Präzision, Zuverlässigkeit und rasanten Geschwindigkeit der feuchten Materie unseres Gehirns als so weit überlegen angesehen wie das Düsenflugzeug dem Spatzen. Daß diese Zeiten vorbei
sind, ist gewiß, wenn wir nur die Ergebnisse dieses Buches zugrunde legen und
berücksichtigen, daß durch formale Logik inspirierte, algorithmisch gesteuerte
und mit digitaler Elektronik realisierte Systeme – die heutigen Computer –
an ihre Komplexitätsgrenzen stoßen. Ein Paradigmenwechsel liegt in der Luft:
vom fremdorganisierten zum selbstorganisierten Computer [5].
6
Vorwort
Moore’s Law ist sowohl eine Chance als auch eine Herausforderung. Einerseits rückt die zunehmend verfügbare Rechenleistung die Nachbildung des
Gehirns in den Bereich des Möglichen, andererseits werden wir dieses Eldorado nur durch Entwicklung völlig neuer Organisationsprinzipien erreichen. Ein
Aspekt der Herausforderung besteht darin, die in diesem Buch beschriebenen
Strukturen in ihrer Vielfalt und massiven Parallelität zu organisieren. Ein anderer besteht in der Entwicklung eines neuen Begriffs von „Computing“, der
weniger auf das Rechnen im engeren Sinne abzielt als vielmehr auf die Koordination von massiven Mengen von Daten und auf das Aufgeben der für das
algorithmische Konzept grundlegenden Arbeitsteilung zwischen Mensch und
Maschine bzw. auf die Ansiedlung der bisher fast ausschließlich im Gehirn des
Programmierers vorhandenen kreativen Infrastruktur in die Maschine.
Bei der Geburt der Informatik haben mathematische Logik und formale
Systeme Pate gestanden (beide nur denkbar als Produkt denkenden menschlichen Geistes). Zukünftig werden wir uns an dynamischen Systemen orientieren müssen, die mit probabilistischen Methoden, Statistik und nichtlinearen
Differentialgleichungen zu beschreiben sind. Insbesondere wird es einerseits
notwendig sein, eine Phänomenologie der für organisierte Systeme relevanten
kohärenten Datenstrukturen zu entwickeln, andererseits müssen noch mehr
theoretische Werkzeuge entwickelt werden, als sie in diesem Buche vorgestellt
wurden, mit denen sich Brücken schlagen lassen zwischen den makroskopischen Datenstrukturen und den mikroskopischen Signalgleichungen von Neuronen und Synapsen. In neuronaler Sprache heißt das: Was ist die Struktur
mentaler Objekte, und wie hängen diese mit dem Verhalten von Nervenzellen
zusammen?
Dies alles läuft auf eine Doppelstrategie zweier sich gegenseitig ermöglichender Entwicklungen heraus: Realisation einer in den Gehirnen manifesten
Technologie massiv parallelen, „organischen“ Rechnens und Entwicklung einer selbstorganisierenden Daten- und Prozessarchitektur. Versuche der Achtziger Jahre, große Prozessor-Arrays zu bauen, sind vor allem am Fehlen eines
Architekturkonzeptes für die Informationsverabeitung gescheitert. Letzteres
braucht ein sehr tiefgreifendes Umdenken.
0.2 Vorgeschichte
Vorweg schicken wir noch einige Zeilen zur Entstehung des Projektes. Es entstand in der Abteilung „VLSI System Integration“ der Zentralabteilung Technik der Siemens AG und baut auf dem 1994 ausgelaufenen „Neurocomputer“Projekt auf, welches von Prof. Ramacher geleitet wurde. Mit dem Neurocomputer SYNAPSE („SYnthezising Neural Algorithms on a Parallel Systolic
Engine“) konnten allerdings nur analoge Neuronmodelle gerechnet werden,
welche Signalmittelwerte und Sigmoid-ähnliche Neuronfunktionen verwendeten. Wie sich nach einigen Jahren herausstellte, waren die neuronalen Architekturen dieser Tage nicht leistungsfähig genug für Anwendungen wie Sehen.
0.2 Vorgeschichte
7
Insbesondere waren neuronale Netze dieser Entwicklungsstufe nicht zentrale,
sondern Rand-Elemente der gesamten Lösungssarchitektur einer Anwendung.
Mit der Unterstützung von Prof. Werrmann vom BMBF wurde von Prof.
Ramacher das Nachfolge-Projekt „Electronic Eye“ ins Leben gerufen. Zusammen mit den Professoren von Seelen und von der Malsburg (Universität Bochum) und Prof. Buhmann (Universität Bonn) wurde eine Rechner-Plattform
höchster Leistung für prototypische Anwendungen wie Fahrzeugsehsysteme,
Überwachung von U-Bahnstationen und Video-Conferencing im Jahre 2000
konstruiert; zentrale Komponente war hierin der Vision Instruction Processor, ein hochintegrierter Chip, welcher ein großes paralleles Rechenfeld mit
einer Vielzahl von allgemeinen Rechenbefehlen und zusätzlichen, auf Bildverarbeitung, Bildkodierung bzw. -dekodierung und Bilderzeugung sowie auf
analoge neuronale Netze spezialisierte Befehle enthielt. Es handelte sich also um eine klassische DSP-Architektur mit erweitertem Instruktionssatz, so
daß allgemeine Algorithmen der Bildverarbeitung wie auch neuronale Algorithmen in Programme einfliessen konnten. Zu Ende des Projektes konnten
zwar Echtzeitanwendungen wie Überholwarner, Gesichtserkennung, MPEG2Enkodierung von Fernsehbildern und 2-dimensionale Bilderzeugung demonstriert werden; der Anteil der neuronalen Architektur in der Geamtarchitektur
der Bilderkennung blieb jedoch unverändert klein.
Erst im Nachfolge-Projekt „VisionIC“, welches von Prof. Ramacher aufgesetzt und von Prof. Werrmann (BMBF) unterstützt wurde, sind in einem
Teilprojekt gepulste Neuronen, dynamische Synapsen und ihre informationsverarbeitenden Prozesse untersucht und ist damit der Schritt zurück zu einer
rein neuronalen Architektur gemacht worden. Prof. Ramacher und Mitarbeiter (ab April 1999 bei Corporate Research von Infineon Technologies AG, der
früheren Halbleiter-Sparte von Siemens) widmeten sich der Entwicklung der
grundlegenen Experimente und der Theorie zur Informationsverarbeitung von
gepulsten Netzen sowie dem Aufbau der Architektur der oben beschriebenen
Erkenntniskette, während Prof. Schüffny und Mitarbeiter (TU Dresden) die
Realisierung von dazu passenden Silizium-Chips mit pulsenden Neuronen und
dynamischen Synapsen anvertraut war.
Im Hauptteil des VisionIC-Projektes führten derweil die Professoren von
der Malsburg, von Seelen und Buhmann ihre Bemühungen fort, klassische
„Computer Vision“ und neuronale Architektur vorteilhaft zusammenzuführen.
Von dieser Spannungslage zwischen Grundlagenforschung und anwendungsorientierter Forschung hat das Teilprojekt sehr profitiert. Einerseits waren die
„angewandten“ Forscher frei von dem Zwang, jeden informationsverarbeitenden Prozeß in neuronaler Architektur zu realisieren, und damit in der Lage,
schneller zu einer Lösung zu kommen; andererseits zeigten sie dadurch den
Stand der Kunst auf, d.h. die Grenzen der robusten Objekterkennung. Und
diese Grenzen sind trotz 40 Jahren Computer-Vision-Forschung deutlich wahrnehmbar. Faszinierend war aber auch zu sehen, daß bei Beschränkung des allgemeinen Objekterkennungsproblems auf Gesichter in fester Entfernung, der
Anteil der „neuronal“ inspirierten Architektur an der Gesamtarchitektur do-
8
Vorwort
minieren konnte. Insbesondere war die Dynamic Link Architecture von Prof.
von der Malsburg [6] ein steter Ansporn für das Teilprojekt, ihre Realisierung
auf der Basis von pulsenden Neuronen und dynamischen Synapsen zu suchen.
Die Ergebnisse dieses Teilprojektes von „VisionIC“, welches von 2001 bis
2004 lief und vom BMBF gefördert wurde, und nachfolgender Arbeiten sind
in diesem Buch wiedergegeben. Uns ist bewußt, daß mit den Darlegungen
dieses Buches nur erste kleine Schritte gemacht sind und wir nicht behaupten
können, die Architektur des Sehens entschlüsselt zu haben. Wir hoffen jedoch,
daß der Leser am Ende uns zustimmen kann, daß wir den Anfang eines Weges
gefunden haben, auf dem weitere Erkenntnisse zu erwarten sind.
Darüber hinaus war ein Ziel des Buches, die Umrisse einer neuen Disziplin
sichtbar werden zu lassen, welche Anwendung, Theorie und Implementierung
mit gleichem Gewicht nebeneinander stellt und diese zur Konstruktion künstlicher Gehirne zusammenführt.
0.3 Danksagung
Unser Programm hätte nicht umgesetzt werden können und dieses Buch wäre
nicht entstanden ohne die Professoren Kohn und Pfleiderer (Universität Ulm),
Rückert (Universität Paderborn), Schüffny (Technische Universität Dresden)
und die Zuarbeit ihrer Doktoranden und Diplomanden. Ebenso nicht ohne die
Kollegen von Siemens bzw. Infineon (abgekürzt durch S bzw. IFX), welche an
den oben beschriebenen Projekten mitarbeiteten.
Den Aufschrieb der Kapitel 1 und 9 hat Christoph von der Malsburg, der
Kapitel 2-8 Ulrich Ramacher besorgt, die Bearbeitung der Kapitel 11-14 hat
Jens-Uwe Schlüßler und der Kapitel 15-16 Arne Heittmann übernommen. Die
Endredaktion aller Kapitel lag bei Ulrich Ramacher. Mitgewirkt haben in den
Kapiteln im einzelnen folgende Personen:
Kap. 2: Helge Ludwig (IFX) hat die Muskelsteuerung entwickelt und simuliert. Alle anderen Simulationen sind von Dr. Arne Heittmann (S/IFX)
durchgeführt worden;
Kap. 3: unzählige Gespräche zur Grundlegung einer Theorie neuronaler
Informationsverarbeitung habe ich mit Dr. Wieland Jass (S) geführt;
Kap. 4: die effiziente Programmierung der Theorie und Ausführung aller
Simulationen hat Jens Harnisch (S/IFX) übernommen;
Kap. 5-8: alle neuronalen Netze wurden von Dr. Arne Heittmann (IFX)
programmiert, darüberhinaus stammt von ihm die grundlegende Schaltung
zur Realisierung der Pulsdifferenzschaltung in Kap. 5 und der Gabor-Wavelets
in Kap. 6;
Kap. 7-8: auf dem Parallelrechner der Universität Paderborn haben Prof.
Rückert, Dr. Ulf Witkowski und Tim Kaulmann einige komplexe Netze zur
Merkmalsdetektion und -erkennung simuliert;
0.3 Danksagung
9
Kap. 10-14: unter Anleitung von Jens-Uwe Schlüßler und Prof. René
Schüffny (beide TUD) sowie Arne Heittmann (IFX) haben die Doktoranden
Jörg Schreiter, Christian Mayr, Holger Eisenreich, Stefan Henker, Daniel Matolin und Jens Döge die Schaltungen und Chips für den Merkmalserkenner
und die Merkmalsdetektion entwickelt;
Kap. 15: Alexander Kaiser, Andreas Munding, Peter Benkart unter Anleitung von Prof. Kohn und Markus Bschorr unter Anleitung von Prof. Pfleiderer
haben die einzelnen Prozeßschritte der 3D-Integration erprobt und erfolgreich
getestet; wesentliche Beiträge zu der hier vorgestellten 3D-Stapeltechnik hat
Dr. Holger Hübner von Infineon durch seine Vorarbeiten zu SoLID eingebracht.
Allen diesen Herren möchten wir herzlichen Dank sagen für die Mitarbeit
an unserem Programm – wir waren ein wundervolles Team!
Schließlich möchten wir Emeritus Prof. Werner von Seelen (früher Universität Bochum) nennen, welcher unser Programm über mehr als 10 Jahre aktiv
begleitete und für dessen konstruktive Kritik wir uns sehr herzlich bedanken.
Zuletzt ein Dankeswort an Hr. Ditzinger und Mitarbeiter vom SpringerVerlag, ihre Betreuung und das Verständnis für unsere Wünsche waren vorbildlich.
München,
im November 2008
Ulrich Ramacher
Christoph von der Malsburg
1
Problematik der Modellierung künstlicher
Gehirne
Christoph von der Malsburg und Ulrich Ramacher
Die mit Abstand erfolgreichste Version von Informationstechnologie weist das
Gehirn auf. Tierische und menschliche Nervensysteme sind flexibel im Umgang
mit Unerwartetem, passen sich an, lernen, evolvieren, integrieren sich leicht in
soziale Netzwerke, haben eine inhärente Tendenz, Ordnung zu bilden, sind extrem Energie-genügsam und massiv parallel, und sie agieren vor allen Dingen
vollständig autonom. In allen diesen Eigenschaften sind sie der Technik weit
voraus. Kein Zweifel, daß die Technik von diesem Beispiel profitieren sollte.
Nun ist leider unser Wissen um Struktur und Funktion des Nervensystems
zwar extensiv, aber noch längst nicht ausreichend, um als direkte Anleitung
zum Nachbau zu dienen. Das bereits akkumulierte Wissen setzt jedoch Randbedingungen, die vielleicht schon jetzt deutlich genug sind, um funktionelle
Nachkonstruktion in viel versprechende Richtung zu lenken. Im Gegenzug werden die Neurowissenschaften profitieren, da der Versuch technischen Nachbaus
erfahrungsgemäß ein sehr scharfes Instrument ist, um tragfähige Hirnfunktionsideen aus der Masse derer auszusondern, die fehlerhaft sind.
Das Gehirn ist in seiner neuronalen Grundarchitektur nicht digital und
nicht algorithmisch gesteuert, sondern selbstorganisierend. Im Unterschied
zum Rechner, der dank seiner digitalen Bauweise ein rein logisch beschreibbares statisches System mit deterministischem Verhalten darstellt, ist das Gehirn ein dynamisches System mit kontinuierlichen, rauschbehafteten „Rechenelementen“ und steht im Verdacht des indeterministischen Verhaltens. Dabei
wird das dynamische Verhalten erzeugt durch die ausschließliche Interaktion
seiner Rechenelemente untereinander sowie mit äußeren Signalquellen; von einer externen Programmierung kann keine Rede sein, stattdessen organisiert
das Gehirn sich selbst.
Während der Rechner nur durch die Einsicht des Programmierers gelenkt
wird, hat das Gehirn eine inhärente Tendenz zur Selbstorganisation. Um dieses
Verhalten zu verstehen, müssen Methoden ähnlich denen der Physik angewendet werden, welche bekanntermaßen die Grundgesetze der lokalen Wechselwirkungen von Teilchen nutzen, um die von einer Masse von Teilchen getragenen
makroskopischen Erscheinungen vollständig zu beschreiben. Übersetzt auf die
12
1 Problematik der Modellierung künstlicher Gehirne
„Rechenelemente“ des Gehirns bedeutet dies, die informationsverarbeitenden
Funktionen der diversen Gehirnareale und ihrer Submodule aus den Grundgesetzen der Interaktion von Pulsen, Synapsen und Neuronen abzuleiten. Diese
Aufgabe hat eine Vielzahl von Disziplinen immer wieder beschäftigt und ist
in mehreren Phasen abgelaufen.
1.1 McCullogh–Pitts Modell
Die Neuronen in unserem Nervensystem sind komplexe Organismen, direkte,
wenn auch entfernte Erben unserer freilebenden, einzelligen Urahnen. Jedes
Neuron trägt, wie fast ausnahmslos alle unsere Körperzellen, ein volles Genom
von etwa einem GByte mit sich. Wahrscheinlich ist jedes unserer Neuronen an
Komplexität jedem heutigen Rechner samt Betriebssystem vergleichbar oder
überlegen. Ihre evolvierte Komplexität befähigt sie zu selbständiger Organisation. Diese Fähigkeit kommt allein schon in der Regulierung der Auslastung
der Nervenzelle zum Ausdruck [7, 8], einem wichtigen Aspekt im Rahmen der
Energieoptimierung [9], und natürlich besonders auch im Rahmen der Lastverteilung von Informationsverarbeitungsaufgaben auf Nervenzellen.
Das Gehirn wird als dreidimensionales Gebilde durch seine Bauteile, die
Nervenzellen, von innen heraus in einem genetisch gesteuerten Wachstumsprozeß hergestellt. Man kann die Nervenzelle als Äquivalent eines einfachen Mikroprozessors ansehen, und in diesem Sinne ist unser Gehirn mit seinen geschätzten 1011 Nervenzellen und 1015 Verbindungsleitungen ein massiv paralleles, hochvernetztes System. Die einzelnen Bauteile – Zellen, Axonen, Synapsen, Dendritenzweige – sind aktiv regulierte Elemente mit multipel verschachtelten Regelkreisen. Bei der Modellierung des Gehirns besteht deshalb
die erste große Herausforderung in der Beschränkung der Komplexität des
biologischen Neurons samt Dendrit und Synapsen und damit in der Formulierung eines abstrakten Modells. Ein System partieller Differentialgleichungen,
welches die Austauschprozesse der diversen Membrankanäle eines Neurons
wiedergibt [10], ist nicht sinnvoll, wenn die informationsverarbeitenden Prozesse einer großen Menge miteinander vernetzter Neuronen untersucht werden
sollen. Andererseits darf das Modell nicht zu einfach sein.
Im Jahre 1943 haben McCulloch und Pitts eine Formalisierung neuronaler
Hirnzellen vorgeschlagen [11], basierend auf diskreter Zeit und binären Signalen, ganz wie im heutigen digitalen Rechner. Die wesentliche Aussage der Veröffentlichung war, daß sich beliebige logische Funktionen auf diese Weise realisieren lassen. Damit können auch die universelle Turing-Maschine (abgesehen
von der Unendlichkeit ihres Bandes) und somit sämtliche vorstellbaren Symbolmanipulationsprozeduren durch McCulloch–Pitts-Neuronen implementiert
werden. Die undurchdringliche Wand zwischen Geist und Materie schien niedergerissen. Leider ist dieses Bild zu simpel. Offen bleibt die Frage nach dem
Ursprung der Schaltung, nach dem Ursprung der zu implementierenden Funktionen und Prozeduren. Wegen ihrer starren synaptischen Verbindungen kön-
1.2 Lernende Netze
13
nen McCulloch–Pitts-Netze ferner nicht als Grundlage von Selbstorganisation
dienen.
1.2 Lernende Netze
Seit Turing und McCulloch & Pitts wurde die Modellierung des Gehirns und
seiner Funktion kraftvoll weiterentwickelt, sowohl in algorithmischer Hinsicht
im Rahmen der sogenannten Künstlichen Intelligenz, als auch in neuronaler
Sichtweise (d.h. unter Betonung von Selbstorganisation) mit Modellen wie
dem Assoziativen Gedächtnis [12, 13, 14] oder den geschichteten Netzwerken [15, 16, 17], letztere unter Namen wie Konnektionismus oder künstliche
Neuronale Netze (KNN). Dahinter verbirgt sich eine Vielzahl von Netztypen
[18, 19], welche sich allerdings hinsichtlich der wahrzunehmenden Funktion
nicht unbedingt unterscheiden müssen.
Die zweite Klasse von Neuron-Modellen, welche in dieser Phase sehr populär war, hinsichtlich ihrer Aufklärungskraft die in sie gesetzten Erwartungen
nicht erfüllen konnte, sieht von der ursprünglichen Pulsnatur ab, stützt sich
auf Pulsmittelwerte und benutzt ein Neuron-Modell, welches aus einem analogen Eingangssignal gemäß einer Sigmoidalfunktion ein analoges Ausgangssignal macht.
Die damalige und heutige neuronale Sichtweise legt das Hauptgewicht auf
die Erzeugung der interessierenden Strukturen durch (statistisches) Lernen,
worunter oft die Soll-Ist-Wert-Angleichung mittels eines Algorithmus zur Fehlerreduzierung verstanden wird. Eine zentrale Rolle spielt dabei synaptische
Plastizität: die plastische Veränderung von Verbindungsstärken zwischen Zellen unter der Kontrolle lokal verfügbarer Signale, indem diejenigen Synapsen
verstärkt werden, deren übertragene Pulse das Signal der Zielzelle erfolgreich
beeinflussen oder vorhersagen.
Leider ist das Problem des Lernens aus natürlicher Umgebung damit noch
nicht gelöst. An diesem Problem wird die Beschränkung der KNN am konkretesten deutlich. Ein neuronales Netz lernt nur dann effizient, wenn die angebotenen Eingangsmuster nicht viel mehr als 100 oder 200 bit an Information
enthalten, und wenn alle Eingangsmuster zum selben Kontext gehören [20].
Wenn diese Grenzen nicht beachtet werden, wächst die Zahl der benötigten
Muster und damit die Lernzeit in’s Astronomische. Das liegt daran, daß mit
wachsender Muster- und System-Größe die zu findenden signifikanten neuronalen Verbindungen (d.h. solche, die wesentliche strukturelle Beziehungen
ausdrücken) in einem immer größeren Meer von insignifikanten Verbindungen
untergehen und mit statistischen Mitteln nicht mehr zu identifizieren sind. Der
tiefere Grund für diese Schwierigkeit der KNN ist darin zu suchen, daß sie kein
Mittel haben, die Zusammengehörigkeit oder Nicht-Zusammengehörigkeit von
Neuronen zum Ausdruck zu bringen, geschweige denn in einer gegebenen Situation durch aktive Prozesse zu entscheiden. Dies ist das so genannte Bindungsproblem [21].
14
1 Problematik der Modellierung künstlicher Gehirne
In den 80er Jahren des letzten Jahrhunderts kam es auf der Grundlage
dieser erlernten Vernetzung analoger Neuronen zu einem „Sturm auf das Gehirn“ [22]. Insgesamt kann man sagen, daß die KNNs zu einer weitverzweigten
Methodik statistischen Schätzens geführt haben und damit breite Anwendung gerade auch im industriellem Rahmen finden, aber die vor 20 Jahren
gesteckten Ziele bis heute nicht erreichen: das Gehirn zu verstehen und eine auf Selbstorganisation gegründete Informationstechnologie zu erarbeiten.
Insbesondere sind Künstliche Neuronale Netze nur für ein enges Spektrum
von Aufgaben einsatzfähig (z.B. Steuern und Regeln [23]), und sie eignen sich
nicht für die Konstruktion von komplexen Gesamtsystemen, sondern nur für
kleine Subsysteme in algorithmisch betriebenem Rahmen. So kann man für
Anwendungen wie Bild- oder Sprachverstehen von einer „neuronalen Lücke“
sprechen, welche bis heute fortbesteht.
1.3 Pulsende Neuronen
Nach dem Gesagten sind die KNN der 80er und 90er Jahre nicht geeignet
für die Abbildung der kognitiven Architektur des Gehirns. Offensichtlich ist
es nötig, die Modelle der Neuronen und Synapsen stärker an den biologischen Vorbildern auszurichten. Statt Signalmittelwerte werden nun Spikes
oder ganze Spikefolgen betrachtet und entsprechende Neuronmodelle aufgestellt; auch die Übertragung der verschiedensten Lernalgorithmen oder Varianten der Hebb’schen Regel auf gepulste Neuronen und langsam veränderliche
Synapsen ist inzwischen erfolgt [24].
Durch die Berücksichtigung der zeitlichen Signalstruktur ist es möglich,
zeitliche Korrelationen zwischen Neuronen zur Kodierung von Information zu
nutzen; dies kann zusätzlich zu der Kodierung vermittels Signalmittelwerten
bzw. Pulsraten geschehen. Die Existenz eines „zeitlichen Bindens“ und damit
die Notwendigkeit zeitlicher Korrelation sind im Gehirn in der speziellen Form
synchron pulsender Neuronen experimentell gut bestätigt [25]. Wodurch aber
wird eine zeitliche Korrelation herbeigeführt, wie schnell muß sie ablaufen, wie
wird sie angezeigt und eingespeist in die Hierarchie der informationsverarbeitenden Module des Gehirns? Was läßt sich mit pulsenden Neuronen überhaupt
an visueller Informationsverarbeitung leisten?
Auf diese Fragen gibt es zur Antwort sehr viele Hypothesen, aber keine schlüssigen Nachweise in Form von Netzen, welche Neuronen, Synapsen
und ihre lokalen pulsbasierten Wechselwirkungen als einzige Ausgangspunkte
nehmen und damit diejenige nicht-triviale Erkennungsaufgabe vollbringen, in
welcher Merkmalsdetektion, Bindung von Merkmalen zu Objekten und Unterscheidung von Objekten eingebunden sind. Letztlich muß die Orientierung an
dieser Objekterkennungskette die Grundlage der Modellierung von Neuronen
und Synapsen sein. Denn löst man sich von der Erkennungskette, indem man
feinere Modelle von Synapsen und Neuronen aufgreift, als mit der Anwendung
in nächster Zeit ausgetestet werden können, so verliert man sich in Spekula-
1.4 Architektur des Sehens
15
tionen über die Funktion größerer neuronaler Netze; und verwendet man als
Grundelemente nicht Neuronen und Synapsen, sondern Konglomerate bzw.
Abstraktionen dieser, so befindet man sich in der Situation eines Demokrit,
welcher Atome forderte, ohne dafür die Möglichkeit des Nachweises zu haben.
Eine dieser Abstraktionen sieht folgendermaßen aus. Die Vielzahl neuronaler Module, welche am Sehprozeß teilnehmen, werden durch einen Graphenbaum dargestellt; dieser besteht aus Knoten und schnellveränderlichen,
dynamischen Links. Die Knoten können einzelne Neuronen, deren Cluster oder
auch Verbände von Clustern darstellen. Sogenannte Links nehmen die Signale
von Knoten auf und geben sie an Knoten weiter. Der Prozeß der Graphendynamik besteht dann im wesentlichen darin, aus der großen Zahl von Links
eines Knotens zu all den anderen, mit denen er sich im Laufe der Zeit assoziiert hat, die sehr kleine Untermenge derer zu aktivieren (oder offen zu
halten), die für den jeweiligen Kontext geeignet sind. Es wird angenommen,
daß Links durch schnelle synaptische Verbindungen realisiert sind, welche ihrerseits durch die Auswertung der Korrelation der Signale der verbundenen
Neuronen gesteuert werden. Mit diesen Hypothesen und Abstraktionen ist es
gelungen, Anwendungen wie die Gesichtserkennung in die industrielle Praxis
zu bringen [26]. Dieser Hypothese mangelte jedoch die Bestätigung durch die
von unten – Neuronen, Synapsen – nach oben – Cluster, Teilnetze – betriebene
Rekonstruktion; insbesondere war der neuronale Mechanismus der Korrelation
und ihrer Auswertung bisher nicht geklärt.
In diesem Buch nehmen wir ein einfaches Integrate-and-Fire-Neuronmodell
und eine einfache gewöhnliche Differentialgleichung für die Synapse zum Ausgangspunkt für den Aufbau der oben beschriebenen Objekterkennungskette.
Damit wird die „bottom-up“ gerichtete Konstruktion von Teilnetzen für Merkmalserkennung, Objektbindung und -erkennung geleistet. Die erzielten Ergebnisse scheinen zu bestätigen, daß auf diese Weise die rechte Balance zwischen
Einfachheit des Aufbaus und Leistungsfähigkeit der Informationsverarbeitung
geschafft wurde.
1.4 Architektur des Sehens
Eine erfolgreiche kognitive Architektur wird sich nur im Rahmen praktischer,
beispielhafter Anwendungen entwickeln lassen, sei es für Zwecke der Informationstechnologie oder der Neurowissenschaften. Dementsprechend gilt es, eine
Funktion des Gehirns mit generischen Zügen herauszugreifen und diese im
Detail zu modellieren und zu verstehen. Das Sehen spielt für uns eine zentrale
Rolle, und es ist die Forschung in diesem Bereich sehr weit fortgeschritten. Es
bietet sich daher als Beispielanwendung an. Außerdem wäre eine erfolgreiche
Replikation des biologischen Sehprozesses von großem wissenschaftlichem und
wirtschaftlichem Wert.
Nun ist Sehen ein sehr komplexer Prozess, bestehend aus vielen miteinander integrierten Teilprozessen, und etwa ein Drittel unseres Gehirns ist damit
16
1 Problematik der Modellierung künstlicher Gehirne
beschäftigt. Wir konzentrieren uns daher in diesem Buch lediglich auf zwei
dieser Teilprozesse, Bildsegmentierung und Objekt-Erkennen. Wir können uns
dabei auf die Ergebnisse mehrerer Jahrzehnte von Forschung im Rahmen der
Neurophysiologie, Psychologie und technischen Bildverarbeitung stützen.
Eine zentrale Rolle spielt die Extraktion von lokalen Bildmerkmalen, und
hierbei haben sich Gabor-artige Wavelets als sehr relevant herausgestellt
[27, 28]. Wichtig ist auch das Wissen um eine Hierarchie von kortikalen Arealen [29], die verschiedene Bildaspekte wie lokale Form, Farbe oder Bewegung
betonen und die eine Progression hin zu immer invarianteren Darstellungen
realisieren, siehe etwa [30].
Der Sehprozeß des Menschen ist sequentieller Natur, indem selektive Aufmerksamkeit sich einem Strukturstück (kohärenten Objekt, Objektteil o.ä.)
nach dem anderen zuwendet und das gesamte System jeweils seine Ressourcen koordiniert, um dieses Strukturstück zu analysieren und darzustellen.
Wichtiger Aspekt dieses Prozesses ist die Segmentierung, d.h. die Abtrennung des Strukturstücks vom Hintergrund. Die Zusammenfassung aller Teile
eines Strukturstücks zu einem Ganzen wird oft als kanonisches Beispiel des
Bindungsproblems gesehen [31, 32], und es gibt zahlreiche Modelle, die dieses Problem durch zeitliche Signalkorrelation zu lösen vorschlagen, siehe etwa
[33, 34, 35, 36].
Beispielhaft für Probleme der Systemorganisation bzw. -architektur ist das
Problem der invarianten Erkennung. Die Erscheinung eines Objekts im Bild
oder auf der Retina des Auges variiert, und das System muß das Objekt unabhängig von Translation, Skalierung, Rotation, Deformation, Teilverdeckung,
Beleuchtung oder Signalrauschen erkennen und in seiner Struktur invariant
darstellen, so daß andere Teilsysteme (Sprache, motorische Steuerung etc.)
unabhängig von Bildvariation darauf reagieren können.
Ein früher Vorschlag zur Lösung des Problems der Translationsinvarianz
[15] spricht von vier Systemschichten. Die erste Schicht ist die Bilddomäne, eine zweidimensionale Mannigfaltigkeit besetzt mit Punktdetektoren. Die
zweite Schicht enthält variante Merkmale: neuronale Einheiten, die lokale Muster oder „Merkmale“ extrahieren (etwa Gabor-Wavelets), wobei jede dieser
Einheiten spezifisch ist sowohl im Sinne von Merkmalstyp als auch Ort. Die
dritte Schicht enthält jeweils nur noch eine Einheit pro Merkmalstyp, die aktiviert wird, wenn mindestens eine Einheit dieses Typs in der zweiten Schicht
aktiv ist. Auf diese Weise stellt die dritte Schicht ein gesehenes Objekt als
unstrukturierte Liste von Merkmalen dar, die auf das Objekt zutreffen. Die
vierte Schicht enthält Einheiten, deren Verbindungen von der dritten Schicht
so strukturiert sind, daß sie selektiv auf bestimmte Mengen von Einheiten
der dritten Schicht, also auf bestimmte Mengen von invarianten Merkmalen,
reagieren. Wenn der in der zweiten und dritten Schicht realisierte Satz von
Merkmalen differenziert genug ist, dann reagieren die Einheiten der vierten
Schicht selektiv auf einen Objekttyp. Systeme dieser Art werden üblicherweise
merkmalsbasiert genannt.
1.5 Die Schritte des Konstruktionsprozeß
17
Der merkmalsbasierte Ansatz hat mehrere fundamentale Probleme. Erstens ist es ein ungelöstes, oder vielleicht unlösbares, Problem, einen Merkmalssatz so zu definieren, daß keine zwei zu unterscheidenden Objekte dieselben Merkmale, wenn auch in verschiedener Anordnung enthalten. Dieses
Problem wird entscheidend erschwert, wenn keine akkurate Segmentierung
erfolgt ist und Merkmale des Hintergrunds mit aktiviert werden, und es wird
noch entscheidender erschwert, wenn Invarianz nicht nur gegen Translation,
sondern auch Skalierung und Rotation gefordert wird, so daß auf dem Weg
von der zweiten zur dritten Schicht Merkmale verschiedener Größe und Orientierung miteinander identifiziert werden.
Das Problem der Definition eines Merkmalssatzes muß angesichts der Komplexität der visuellen Umwelt durch Lernen gelöst werden. Dieser Versuch
führt allerdings direkt zu einem zweiten Problem des merkmalsbasierten Ansatzes, dem Henne-Ei Problem, geeignete Merkmale nur nach ihrem Beitrag
zum Erfolg der Objektdiskriminierung auswählen zu können, während aber
Objektdiskriminierung ohne geeignete Merkmale nicht möglich ist. Ein drittes Problem mit dem merkmalsbasierten Ansatz ist die Strukturlosigkeit der
invarianten Objektdarstellung in der dritten (oder gar vierten) Schicht, die es
dem Rest des Systems unmöglich macht, etwa die relative Lage von Merkmalen wahrzunehmen: auf dem Weg von der zweiten zur dritten Schicht ist das
Kind – die Objektstruktur – mit dem Bade – der Objektposition – ausgeschüttet worden. Es sind zahlreiche Versuche unternommen worden, die Probleme
des merkmalsbasierten Ansatzes zu lösen. Ein Vorschlag, das Neocognitron
von Fukushima [37] (wiederbelebt in [38]), betrifft die Einführung einer Vielzahl von Schichten, die eine Progression von Merkmalstypen enthalten, die
graduell komplexer und invarianter werden. Dieser Vorschlag löst vielleicht
das erste der genannten Probleme, nicht jedoch das zweite und dritte.
1.5 Die Schritte des Konstruktionsprozeß
Universelle Merkmalsdetektion
Es wurde gezeigt, daß Gabor-Wavelets die an sogenannten einfachen Zellen
im visuellen Kortex V1 gemessenen Pulsraten mit großer Genauigkeit approximieren [28]. Wir stellen eine echtzeitfähige 6-schichtige Netzarchitektur
vor, welche die Pulsraten der „simple cells“ sehr genau reproduziert. Dieses
Netz ist zusammengesetzt aus konstanten und dynamischen Synapsen und
besitzt in der letzten, 6. Schicht nur ein einziges Neuron. Das Merkmalsprofil repräsentiert sich dabei nicht in einer Gewichtung der Pixel, sondern in
der Ankopplung an ausgesuchte Pixel. Die Übereinstimmung der so erzeugten Gabor-Wavelets mit den mathematischen ist frappant. Über die GaborWavelets hinaus können mit dem vorgestellten Netz beliebige Merkmale erfasst werden.
Verbunden mit der Retina, stellen wir uns die verschiedenen Typen von
Gabor-Wavelets auf je einer Fläche angeordnet und diese übereinander ge-
18
1 Problematik der Modellierung künstlicher Gehirne
stapelt vor. Die von einem Bild verursachte Vielfalt der Pulsantworten der
Gabor-Wavelet-Module in allen Flächen wird im nächsten Schritt invariant
selektiert.
Robuste Merkmalserkennung
Als Zone bezeichnen wir das Retinagebiet der möglichen Erscheinung eines
Merkmals, wenn sich das zum Merkmal gehörige Objekt in der Eingangsschicht in seiner Referenzposition befindet, etwa ein Kopf in Sehfeld-füllender
Entfernung als Objekt, eine Braue als Objektkomponente bzw. Merkmalszone. (Zu dem Problem, mit größeren Verschiebungen des Objektes in der Bildebene fertig zu werden, siehe Kapitel 16.) Jedes Detektor-Ausgangsneuron
eines Merkmalstyps ist mit einem Erkennungsneuron unidirektional vernetzt,
während die Erkennungsneuronen untereinander i.a. weder vollständig noch
einfach nächstnachbarlich vernetzt sind. In der Regel sind ebenso viele Erkennungsneuronen in der Zone untergebracht als Merkmalsdetektoren. Unabhängig von der Lage und Form des Merkmals in seiner Zone und unabhängig von
der Beleuchtungsstärke synchronisieren sich vollkommen autonom diejenigen
Neuronen der Erkennungsschicht, welche „über“ den Neuronen der Detektorschicht liegen, die das Merkmal detektiert haben.
Robuste Objektdetektion
Jedem Objekt (in Referenzposition zur Retina) ordnen wir eine Anzahl von
Zonen zu, in welchen je ein einziges oder mehrere Merkmale erscheinen können; im letzteren Falle werden verschiedene Merkmale zu einer Objektkomponente zusammengebunden. Die Anzahl der Zonen eines Objektes wächst im
allgemeinem mit der Anzahl der zu unterscheidenden Objekte.
Im nächsten Schritt binden wir die zu einem Objekt gehörigen Objektkomponenten bzw. Zonen zusammen. Nur wenn genügend viele Gabor-WaveletModule die Merkmalscharakteristik des betrachteten Objekts in den einzelnen
Zonen erfasst haben, kann der Objektdetektor anschlagen. Auf diese Weise
lassen sich Köpfe detektieren, auch wenn sie unterschiedliche Mimik und Pose, Lage und Helligkeit aufweisen. Potential und Grenzen dieses Vorgehens
werden im Kapitel 8 erörtert.
1.6 Zusammenfassung
Die Verfügbarkeit eines sehr schnellen neuro-synaptischen Bindungsmechanismus, welchen wir in Kapitel 5 vorstellen, macht eine andere Lösung des
Invarianzproblems möglich als von Rosenblatt vorgeschlagen: die korrespondenzbasierte Erkennung. In unserem Ansatz ist die räumliche Anordnung der
Merkmale, die in der zweiten Schicht (Merkmalsdetektion) explizit vorhanden ist, auf dem Weg zur dritten Schicht (Merkmalserkennung) beibehalten
worden und dort dargestellt. Für jedes zu erkennende Objekt ist also in der
1.6 Zusammenfassung
19
dritten Schicht ein zweidimensionales Netz von merkmalsspezifischen Knoten
vorhanden, das die im Objekt vorhandenen Merkmale in derselben Anordnung
wie im Bild enthält. Der Kontrast zum merkmalsbasierten Ansatz besteht also nicht, wie die etwas unglückliche Namensgebung nahelegt, im Verzicht auf
Merkmale, sondern auf der Darstellung und Erhaltung von Merkmalsanordnung. Damit wird die dritte Schicht zu einer komplexen Modelldomäne, mit je
einem Satz von Merkmalsnetzen für jedes Objekt. Die vierte Schicht bindet die
Merkmalssätze zu je einem Objekt zusammmen. Im Erkennungsvorgang muß
sowohl das richtige Netzwerk als auch ein ganzes System von Punkt-zu-PunktKorrespondenzen zwischen den Knoten des Netzes und Merkmalseinheiten der
zweiten und dritten Schicht aktiviert werden. Korrespondenzen werden hierbei durch dynamische Synapsen vermittelt: Sie bewirken die Synchronisation
der Pulsaktivität von Knoten in der dritten Schicht.
Die genannten Probleme des merkmalsbasierten Ansatzes werden im korrespondenzbasierten System durch dynamische Synapsen in natürlicher Weise gelöst, insbesondere das erste (Anordnungsvieldeutigkeit) und das dritte
durch explizite Darstellung räumlicher Objektstruktur. Auch das zweite Problem wird zumindest entscheidend reduziert, indem das System bereits mit
einem einfachen Standardsatz von Merkmalen, etwa Gabor-Wavelets, Objekte eindeutig erkennen kann, ohne Merkmals-Lernen in Anspruch zu nehmen.
Das genannte Henne-Ei Problem tritt also nicht auf.
In den Kapiteln 5–8 werden die Details der einzelnen Schritte des Konstruktionsprozesses behandelt. In Kapitel 16 wird die neuronale Architektur
der kompletten Erkennungskette samt Merkmalskaskade mit 8 Orientierungen
und 5 Auflösungsebenen in allen Einzelheiten sowie eine Implementierung in
3D-Technologie vorgestellt. In Kapitel 9 gestatten wir uns einen Ausblick auf
offene Fragen zur invarianten Objekt- und Szenenerkennung.
2
Informationsverarbeitung in Netzen mit
konstanten Synapsen
Ulrich Ramacher und Arne Heittmann
In diesem Buch wird der Versuch unternommen, ein künstliches Sehsystem
mit Ähnlichkeit zum menschlichen Gehirn zu konstruieren, welches komplette
Bilderkennungsaufgaben ausführen kann, d.h. solche, welche Merkmalsextraktion, Bindung von Merkmalen zu Objekten und Objekterkennung umfassen.
Die Ähnlichkeit sehen wir durch die Verwendung möglichst einfacher Neurone
und Synapsen sowie durch die Beschränkung nur auf diese gegeben: eine Beifügung von Algorithmen zusätzlich zu den Neuron und Synapse definierenden
Algorithmen versagen wir uns.
Dementsprechend wird das Signalverhalten von biologischen Neuronen und
Synapsen gerade so weit abstrahiert, daß noch die besagten anspruchsvollen
Bilderkennungsaufgaben auszuführen sind. Genauer gesagt, es werden künstliche Neuronen betrachtet, welche bei Erreichen eines Schwellwertes einen Puls
abfeuern und für die Dauer des Sendens das Membranpotential auf null setzen.
Nach der Sendephase beginnt die Akkumulationsphase, dabei können externe
Eingangssignale an jedem Neuron anliegen, insbesondere aber auch die synaptisch gewichteten Pulssignale anderer Neuronen. Es wird ferner angenommen,
daß die Synapsen unter dem Einfluß der lokal anliegenden Signale (beispielsweise eines einkommenden Pulses und des anliegenden Membranpotentials)
ihre Stärke verändern können.
Von entscheidender Bedeutung für unseren Ansatz sind sowohl die Experimente als auch die Theorie. Unter Experimenten verstehen wir Simulationen von Pulsneuronen, Synapsen und daraus zusammengesetzten Netzen auf
Rechnern, wobei immer wieder nur die einmal ausgewählten Signalgleichungen
verwendet werden, welche die Dynamik der Synapsen und Pulsneuronen definieren. Unter Theorie eine quantitative Modellierung der in den experimentellen Messgrößen zum Ausdruck kommenden Zusammenhänge. Erst nachdem
wir grundlegende Experimente und Theorie zum Einklang gebracht haben, beginnen wir mit der Konstruktion von Merkmalsdetektoren und arbeiten uns
in der Erkennungskette hoch.
Ziel dieses Kapitels ist zunächst die Aufstellung der Signalgleichungen für
Pulsneurone und Synapsen. Sodann spezialisieren wir uns auf Synapsen mit
22
2 Informationsverarbeitung in Netzen mit konstanten Synapsen
konstanten Gewichten und betreiben ausgiebig die experimentelle Beantwortung der Frage, was Information darstellt und wie sie verarbeitet wird. Das
Studium des allgemeinen Falls der dynamischen Synapsen wird in Kapitel 5
wieder aufgenommen.
Dieses Kapitel dient nicht der Einführung von Neuronen und Synapsen;
dazu sei auf die einschlägige Literatur verwiesen [39, 40, 41]; siehe auch Kapitel 10.
2.1 Allgemeine Signalgleichungen für Pulsneuron und
Synapse
Von den N Neuronen mögen zur Zeit t0 σ Neuronen Pulse aussenden und ε
andere diese Pulse empfangen; dabei gilt immer: σ + ε = N , für σ, ε = 0 . . . N .
Die Pulsform kann beliebig kompliziert vorgegeben werden: beispielsweise als
Kombination von aufsteigenden und abfallenden Exponentialfunktionen oder
als Folge solcher Funktionen. Für unsere Bilderkennungsaufgaben reichen jedoch schon Rechtecksignale: alle Pulse dauern td Sekunden (im nachfolgenden
mit 1 ms Pulsdauer festgesetzt) und sie haben eine konstante Amplitude x;
mit x(t) sei die Zeitfunktion des Pulses bezeichnet.
Es bezeichne ferner E(t0 ) die Menge der zur Zeit t0 empfangenden Neuronen und S(t0 ) die zu dieser Zeit sendenden. Der Anfangszustand des Netzes
zur Zeit t0 ist gegeben durch die verstrichenen Sendezeiten ∆s (t0 ), s ∈ S(t0 )
sowie durch die bis zu diesem Zeitpunkt von den empfangenden Neuronen
aufsummierten Membransignale ae (t0 ), e ∈ E(t0 ). Schließlich sind noch die
augenblicklichen Signalwerte in (t0 ), n = 1 . . . N , des äußeren Inputs und der
Synapsen Wes (t0 ) bzw. We0 (t0 ) zu verzeichnen; in können auch Pulssignale sein. Dabei bezeichnet Wes bzw. We0 die Synapse, welche das Pulssignal
des s-ten Neurons zum e-ten Neuron bzw. das e-te Eingangssignal zum e-ten
Neuron leitet.
Als Signalgleichungen für Empfangen und Senden eines Neurons werden
angesetzt1 :
(1) sobald ein Neuron (es sei das e-te) nicht mehr sendet und solange es noch
nicht den Schwellwert θ erreicht hat, bezeichne
1
Wählen wir Neuron- und Eingangssignale sowie den Schwellwert als dimensionslose Größen, so müssen die Synapsen die Dimension Hz haben. Hierbei ist darauf
zu achten, ob man die Einheit mit der Sekunde oder mit der Millisekunde festlegt;
in diesem Buch benutzen wir die Millisekunde als Einheit, so daß die Synapsen
in Kilohertz angegeben sind. Der Bequemlichkeit zuliebe unterdrücken wir die
Dimensionsangabe.
2.2 Zerlegungen und ihre zeitliche Entwicklung
0 ≤ ae (t) :=
Z
t
t0


X
s∈S(t0 )∩Ne
23

Wes (t′ ) xs (t′ ) + We0 (t′ ) ie (t′ ) dt′ +ae (t0 ) ≤ θ
(2.1a)
den akkumulierten Signalwert des e-ten Neurons zur Zeit t. Hierbei bezeichnet Ne die Menge der Neuronen, welche mit dem e-ten Neuron verbunden sind (wir nehmen im weiteren zeitlich konstante Verbindungsstrukturen an).
(2) sobald ein empfangendes Neuron den Schwellwert erreicht oder solange
ein sendendes Neuron nicht aufgehört hat zu senden, gelte:
0 < xs (t)
für t0 < t ≤ t0 + td − ∆(t0 )
(2.1b)
Wir heben hervor, daß wir keinen Zerfallsterm für das akkumulierende
Neuron einführen, da wir es für die in diesem Buch ins Auge gefassten Bilderkennungsaufgaben nicht benötigen. Selbstverständlich gehen wir davon aus,
daß komplexere Bilderkennungsaufgaben eine Ergänzung unseres Neuronmodells und des noch zu besprechenden Synapsenmodells nötig machen werden.
Um die durch eine Ergänzung zustandekommende neue Informationsverarbeitungsqualität jedoch klar hervortreten lassen zu können, entfernen wir jeden
noch so gewohnten Term in den Signalgleichungen, wenn wir ihn nicht benötigen.
Wir benötigen noch eine Gleichung zur Beschreibung der Synapse. Da
nur lokale Wechselwirkungen zwischen Neuronen und Synapsen betrachtet
werden, wird als allgemeine synaptische Gleichung angesetzt:
dWes (t)
= −γ · Wes (t) + Q(ae (t), xs (t))
für e ∈ E(t), s ∈ S(t)
dt
dWes (t)
= −γ · Wes (t)
für e, s ∈ E(t) ,
dt
(2.1c)
wobei Q eine Funktion (oder auch ein Funktional) der Sende- und Membransignale und γ eine Zerfallskonstante ist. In den späteren Kapiteln werden
auch an Dendriten gelagerte Synapsen betrachtet, welche statt des Membranpotentials ein lokales Synapsenpotential verwenden (natürlich kann Gleichung
(2.1c) auch für die Eingangssynapsen aufgestellt werden). Wie ersichtlich, gehorchen die Synapsen einer verallgemeinerten Hebb’schen Dynamik; ihre genaue Ausprägung, die entscheidend für den erfolgreichen Einsatz ist, werden
wir erst in Kapitel 5 angeben.
2.2 Zerlegungen und ihre zeitliche Entwicklung
Erreicht irgendein ae (t) den Schwellwert θ zur Zeit t = te , so geht das e-te
Neuron in den Zustand des Sendens über, und damit hört die Größe ae (t)
24
2 Informationsverarbeitung in Netzen mit konstanten Synapsen
auf zu existieren. Gleichzeitig hat sich die Zerlegung in empfangende und sendende Neuronen geändert. Ebenso ändert sich die Zerlegung, wenn eines der
Neurone mit Senden aufhört: statt des Sendesignals existiert nun ein Membransignal, welches immer bei null beginnt – im Gegensatz zu ae (t0 ), welches
als Anfangswert i.a. von null verschieden ist.
Der Zeitpunkt des Übergangs von einer Zerlegung in die nächste kann
auf eindeutige Weise bestimmt werden, wobei äußere Signale und Synapsen
irgendwelche zeitliche Funktionen sein können. Bezeichne dazu
τs (t0 , t) = t0 + td − ∆s (t0 ) − t
(2.2a)
τ0 = td − ∆x (t0 ) bzw. tf (0) = t0 + τ0
(2.2b)
die aktuelle verbleibende Lebenszeit des s-ten Sendeneurons zum Zeitpunkt
t. Irgendeines der Sendeneuronen (angenommen das x-te) weist die kleinste
Lebenszeit auf. Wenn kein Empfängerneuron früher den Schwellwert erreicht,
ist die Lebenszeit der ersten Zerlegung dadurch bestimmt, daß τx (t0 , t) zu
null wird. Als Lebensdauer τ0 bzw. Endzeitpunkt tf (0) der initialen Zerlegung
ergibt sich dann in explizierter Form:
Ebenso wird die aktuell geschätzte verbleibende Lebenszeit τe (t0 , t) des
e-ten Empfängerneurons durch
θ − ae (t0 )
τe (t0 , t) :=
− 1 · (t − t0 )
(2.2c)
ae (t) − ae (t0 )
definiert. Irgendeines der Empfängerneurone weist momentan die kleinste Lebenszeit auf; allerdings kann im nächsten Moment ein anderes die kleinste
Lebenszeit erhalten. Wenn kein Senderneuron früher ablebt als ein Empfängerneuron den Schwellwert erreicht, ist die Lebenszeit der ersten Zerlegung
dadurch bestimmt, daß das Minimum über alle Lebenszeiten τe (t0 , t) zu irgendeiner Zeit t zu null wird. Das Empfängerneuron mit Lebenszeit null werde
wieder mit x bezeichnet. Als Lebensdauer τ0 der ersten Zerlegung ergäbe sich
dann in implizierter Form:
τ0 = (t − t0 ) ⇔ θ − ax (t) = 0
(2.2d)
Es muß also in jeder Zerlegung zu jeder Zeit t das über alle Empfänger- und
Sendeneuronen genommene Minimum der Lebenszeiten τe (t0 , t) und τs (t0 , t)
berechnet werden, um den Umschaltpunkt von einer Zerlegung in die nachfolgende zu berechnen. Diese Prozedur der Berechnung von Lebensdauer und
Endzeitpunkt einer Zerlegung bleibt unverändert, auch wenn eine weitere Gleichung für die synaptische Aktivität hinzutritt. Auf diese Weise kann von Zerlegung zu Zerlegung fortgeschritten werden, wobei zu beachten ist, daß keine
Zerlegung – mit Ausnahme derjenigen, in welcher alle Neuronen empfangen –
länger als die Dauer eines Pulses leben kann. Die Vermutung liegt nahe, daß die
durchschnittliche Dauer einer Zerlegung mit der Zahl der Neurone abnimmt.
2.3 Experimente mit konstanten Synapsen
25
Abbildung 2.1 bestätigt diese Vermutung. Da mit der Steigerung der Neuronzahl in einem vollvernetzten Netz die Zahl der Pulse, welche bei jedem Neuron
eingehen, sehr schnell wächst, sind die Synapsen in Abbildung 2.1 so normiert
worden, daß das Produkt aus Neuronzahl N und mittlerem Synapsenwert
W konstant ist. Dabei ist dem mittleren Synapsenwert W das Werteintervall
[0, 2W ] zugeordnet und angenommen, daß die Synapsen gleichverteilt sind.
Abb. 2.1 Lebenszeit der Zerlegungen als Funktion der Neuronenzahl
Die Inspektion von (2.1a) zeigt, daß die Signaldynamik erhalten bleibt,
wenn von dem Satz (Wes , We0 , ae (t0 ), θ) zu (Wes /θ, We0 /θ, ae (t0 )/θ, 1) übergegangen wird. Im Nachfolgenden setzen wir den Schwellwert immer auf 1,
d.h. wir entledigen uns eines überflüssigen Parameters.
Da eine wichtige Klasse von Netzen durch solche gegeben ist, in welchen die
Synapsen durch konstante Werte bzw. feste Zeitfunktionen dargestellt werden,
beginnen wir das Studium der Informationsverarbeitung mit diesem Fall.
2.3 Experimente mit konstanten Synapsen
Wir betrachten ein Netz von 11 Neuronen, welche alle miteinander vernetzt
sind und von denen jedes ein Eingangssignal über eine Synapse mit dem Wert
0.1 zugeleitet bekommt. Die Eingangssignale haben zufällig gewählte feste
Werte zwischen 0 und 1, und die die Neurone miteinander verbindenden Synapsen weisen den Mittelwert 0.081 und eine Streuung von 34% auf. Die Zeitdauer td eines Pulses ist auf 1 ms gesetzt. Wird nun das Netz aktiviert, d.h.
werden die Signalgleichungen (2.1a–c) für jedes der 11 Neurone berechnet, so
erhält man für jedes Neuron eine Folge von Pulsen.