Zusammenfassung - Universität Ulm

Werbung
Neuronal Grammar
Phillipp Hehrmann
[email protected]
Stefan Scherer
[email protected]
Fakultät für Informatik
Universität Ulm
Zusammenfassung
Es wird ein neurowissenschaftlich motiviertes Modell der menschlichen Sprachverarbeitung vorgestellt. Functional Webs, speziell organisierte Verbünde von Neuronen,
werden als grundlegende funktionale Einheit der Informationsrepräsentation und
-verarbeitung im Gehirn vorgestellt. Aus verschiedenen, spezialisierten Formen von
Functional Webs wie etwa Word Webs zu Repräsentation von Worten oder Sequence
Sets zur Erkennung von Wortfolgen wird schließlich ein Modell zusammengesetzt,
welches – abseits der Pfade gängiger, linguistischer Syntax-Theorien – das Verständnis komplexer grammatikalischer Abhängigkeiten ermöglichen könnte.
8. Februar 2005
Inhaltsverzeichnis
1
Grundlegende Syntax
4
1.1
Ersetzungsregeln
4
1.2
Zentrale Einbettung
5
1.3
Diskontinuierliche Satzbestandteile und verteilte Wörter
6
1.4
Abhängigkeitsgrammatiken
7
1.5
Fragen zu einer neuronalen Grammatik
8
2
Grundlagen zur Sprachverarbeitung im Gehirn
8
2.1
Modellierung von Nervenzellen
9
2.1.1
Natürliche Neurone
9
2.1.2
Künstliche Neuronenmodelle
2.2
2.3
11
Worte im Gehirn
13
2.2.1
Die Topologie des Kortex
13
2.2.2
Functional Webs
16
2.2.3
Word Webs
19
Neuronale Mechanismen zur Repräsentation serieller Ordnung
21
2.3.1
Grundsätzliche Überlegungen anhand künstlicher Neurone
21
2.3.2
Synfire Chains
24
2.3.3
Neuronale Sequenzdetektoren
26
3
Neuronale Grammatik
28
3.1
Erregungszustände von funktionellen Netzen
28
3.2
Neuronale Sets
29
3.3
Schwellwertkontrolle
30
3.4
Sequenzdetektion in Netzwerken von neuronalen Sets
31
3.5
Sequenzerkennung
31
2
3.6
Lexikale Kategorien in neuronalen Sets
33
3.6.1
Warum lexikale Kategorien?
33
3.6.2
Lexikale Kategorien als Mengen von Sequenz-Sets
33
3.6.3
Lexikale Unterscheidungen durch Sequenz-Sets
34
3.6.4
Anforderungen an eine neuronale ’Grammar Machine’
34
Literatur
35
3
1
Grundlegende Syntax
In diesem Kapitel wird dargestellt, wie man Sprache auf formale Weise definieren kann. Es werden die so genannten Phrasenstruktur-Grammatiken 1 und
die Abhängigkeitsgrammatiken behandelt. Außerdem geht dieses Kapitel darauf ein, welche Beschränkungen es bezüglich Sprachen bei neuronalen Netzen
gibt und was neuronale Netze bieten, was formalen Grammatiken fehlt.
1.1 Ersetzungsregeln
Eine einfache Methode um eine formale Syntax zu definieren sind die Ersetzungsregeln 2 . Eine Ersetzungsregel ist eine Formel, die ausdrückt, dass etwas
ersetzt werden kann durch etwas anderes. Eine Menge solcher Regeln wird
auch als Phrasenstruktur-Grammatik bezeichnet, wenn auf der linken Seite
des Pfeils immer nur ein Symbol und auf der rechten beliebig viele stehen,
wird diese Grammatik auch als kontextfreie Grammatik bezeichnet. Der Pfeil
x → y kann so gelesen werden: x wird ersetzt durch y, was auch den Namen
der Regeln erläutert. Eine Menge solcher Regeln wird nun als Grammatik bezeichnet. Diese Grammatik hat die Einschränkung, dass sie die Bedeutung von
Wörtern völlig außer Acht lässt und nur auf die Syntax achtet. Nun folgt ein
Beispiel einer solchen Grammatik. In diesem Beispiel werden einige Abkürzungen bzw. Symbole benutzt, die für gewisse syntaktische Kategorien stehen. S
bezeichnet das Startsymbol, NP die Nominalphrase, VP die Verbalphrase, Det
ist der Artikel und V das Verb. Ausdrücke in runden Klammern sind nicht obligatorisch und Ausdrücke in geschweiften Klammern sind dann die eigentlichen
Wörter im Satz.
(1)
(2)
(3)
(4)
(5)
(6)
S → NP VP
NP → (Det) N
N → V (NP)
N → {Betty, machine}
V → {laughs, cleans, switches}
Det → {the, a}
Mit dieser kleinen Grammatik können sowohl sinnvolle als auch unsinnige
Sätze gebildet werden, die aber vom syntaktischen Aspekt betrachtet durchaus
richtig sind:
(1) Betty cleans the machine.
(2) The Betty laughs machine.
1
2
Phrase structure grammars
Rewriting rules
4
Zu diesem Zeitpunkt könnte man sich eigentlich fragen, ob ein neuronales
Netz, das eine neuronale Grammatik 3 beinhaltet, nicht gleichermaßen wie
eine solche Phrasenstruktur-Grammatik fähig ist, dieses Problem zu lösen.
Das folgende Teilkapitel wird jedoch zeigen, dass dem nicht so ist.
1.2 Zentrale Einbettung
Der Vorteil, den kontextfreie Grammatiken besitzen, ist, dass die Regeln rekursiv anwendbar sind und so Sätze gebildet werden können, die syntaktisch
korrekt und sehr komplex sind. Es wurde bewiesen[2], dass neuronale Netze
äquivalent zu regulären Grammatiken sind, die jedoch nicht so mächtig sind
wie kontextfreie. Kontextfreie Grammatiken ermöglichen es Sätze zu bilden, in
denen andere Sätze eingebettet sind. Diese Einbettung von Sätzen wird auch
zentrale Einbettung 4 genannt. Nun folgen zwei Beispiele solcher Sätze 5 :
(1) The rat (the cat (the dog chased) killed) ate the malt.
(2) Anyone (1 who feels (2 that (3 if so many more students (4 whom we
haven’t actually admitted )4 are sitting in on the course (4 than ones we
have )4 (4 that the room had to be changed )4 )3 then probably auditors
will have to be excluded )2 )1 is likely to agree that the curriculum needs
revision.
Was diese Beispiele jedoch auch zeigen, dass es wahrscheinlich gar nicht nötig
ist, dass man unendlich komplexes bzw. tiefes zentrales Einbetten von Sätzen
in einer neuronalen Grammatik ermöglichen muss, um Sprache sinnvoll verstehen zu können, da das menschliche Gehirn es auch nicht ohne Hilfe und
langes Nachdenken schafft, vor allem den zweiten Beispielsatz zu verstehen.
Es scheint also irgendwo eine Art Grenze der verständlichen Komplexität zu
geben. Diese Grenze wurde von einigen Wissenschaftlern bei drei eingebetteten Sätzen festgelegt[3]. Um einen Satz wie den ersten Beispielsatz sprechen
zu können, ist es nötig im Speicher bzw. im Gehirn die Information des bereits
Gesprochenen zu behalten und zwar Reihenfolge und fehlende Teile. Kontextfreie Grammatiken sind dazu in der Lage, da bewiesen wurde, dass sie äquivalent zu einem Kellerautomaten, der unendlich viel Speicherplatz besitzt, sind.
Dieser Automat funktioniert nach dem first-in last-out Prinzip und speichert
so ein ’Spiegelbild’ des bereits Gesprochenen. Der Satz ist dann fertig, wenn
der Speicher wieder leer ist.
3
Neuronal grammar
Center embedding
5 Die Klammern wurden zur Verdeutlichung des Einbettens und zur Vereinfachung
des Verständnisses eingefügt
4
5
Da es in vielen Sprachen vorkommt, dass zentral eingebettete Sätze benutzt
werden, muss man neuronale Netze anpassen und verändern, um dieser Begebenheit gerecht zu werden. Eine Möglichkeit, die Tatsache, dass ein neuronales
Netz mit endlich vielen Neuronen nur endlich viele Zustände besitzt zu umgehen, wäre z.B. ein Wachstum des Netzes zu erlauben[4]. Dieses Wachstum ist
jedoch nicht unbedingt sehr realistisch, wenn man interne Prozesse des Gehirns
beschreiben will, da ein unendliches Wachstum des Gehirns alleine durch den
Schädelknochen beschränkt ist. Wie schon gesagt, ist dies aber auch nicht unbedingt nötig, da Sprache nur bis zu einer gewissen Komplexität verständlich
ist.
1.3 Diskontinuierliche Satzbestandteile und verteilte Wörter
Die vorher definierte Grammatik besteht aus sechs Ersetzungsregeln, die alle
nicht eine relativ häufig auftretende grammatikalische Besonderheit beschreiben. Diese Besonderheit wird auch ein verteiltes Wort 6 genannt. ’Betty switches the machine on.’ ist ein Beispiel für dies. Es müsste mindestens eine
Regel verändert werden um dem verteilten Wort ’switches ... on’ gerecht zu
werden.
(1) VP → V (NP) (on)
Diskontinuierliche Satzbestandteile 7 sind ein Überbegriff für solche verteilten
Wörter, die grammatikalisch gesehen eng miteinander verbunden sind, jedoch
in geschriebener Sprache durch den Raum bzw. in gesprochener Sprache durch
die Zeit getrennt sind. Die Problematik besteht darin, dass dieser Abstand
unterschiedlich lange sein kann, wie folgende Beispiele zeigen:
(1) Betty switched it on.
(2) Betty switched the coffee machine on.
(3) Betty switched the nice brown coffee machine on.
Um nun solche Sätze produzieren bzw. verstehen zu können, muss man Informationen über die vorherigen Wörter speichern und das über einen unbestimmten Zeitraum.
Eine weitere Schwierigkeit besteht darin, dass Wörter wie ’switch’ und ’switch
... on’ zwar den selben Wortstamm teilen jedoch eine völlig unterschiedliche
Bedeutung besitzen, d.h. also, dass die Bedeutung des Wortes möglicherweise
erst am Ende des Satzes eindeutig bestimmt werden kann. Eine Grammatik
wie:
6
7
Distributed word
Discontinuous constituents
6
(1)
(2)
(3)
(4)
a→Ab
b → switches c
c→Bd
d → C (on),
ermöglicht es zwar, das verteilte Wort ’switches ... on’ zu schreiben, ist jedoch
nicht korrekt im eigentlichen Sinne, da in (2) schon entschieden werden muss,
welches der beiden wortstammgleichen Wörter gewählt wird. Um dies zu lösen,
wurde vorgeschlagen die Wörter genauer zu unterscheiden und mehr lexikale
Untergruppen zu benutzen, wie z.B. ’switch ... on’ in die Gruppe der transitiven Verben mit Partikel zu stecken und das Wort ’switch’ in die Gruppe
der transitiven Verben ohne Partikel. Eine Grammatik, die das berücksichtigt
wäre z.B.:
(1)
(2)
(3)
(4)
(5)
(6)
b → switches1 c1
c1 → B d1
d1 → C on
b → switches2 c2
c2 → B d2
d2 → C
Hierbei wird sichergestellt, dass falls ’switches1 ’ gewählt wird, der Partikel
’on’ am Ende gesetzt werden muss.
Ein Nachteil dieser Lösung für das Problem der diskontinuierlichen Satzbestandteile ist jedoch die höhere Komplexität der Grammatik: Wenn angenommen wird, dass die Zahl der diskontinuierlichen Satzbestandteile n ist, dann
würde die Zahl der Ersetzungsregeln mit 2n erhöht werden.
1.4 Abhängigkeitsgrammatiken
Ein anderer Ansatz, um Grammatiken zu beschreiben, ist, Wörter in ihre lexikalen Kategorien einzuteilen und sie in Abhängigkeiten zu ihren Komplementen - die notwendigen Zusätze für diese Wörter - zu stellen. Solche Abhängigkeitsgrammatiken 8 können mit Abhängigkeitsregeln beschrieben werden, deren Notation folgendermaßen erfolgt: Auf der linken Seite einer runden Klammer steht die Kategorie des Wortes, das gerade behandelt wird. In den Klammern befindet sich ein Stern-Symbol /*/, welches den Platz des aktuellen
Wortes besetzt. Links davon stehen eine bzw. mehrere abhängige lexikale Kategorien, die im Satz zeitlich bzw. räumlich vor dem aktuellen Wort stehen
und analog hierzu stehen auf der rechten Seite eine bzw. mehrere lexikale
Kategorien, die danach auftreten. Eine Beispielgrammatik wäre nun:
8
Dependency grammars
7
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
V14par (N1 /*/ N4 Par)
V14 (N1 /*/ N4)
V1 (N1 /*/)
N1 ((Det) /*/)
N4 ((Det) /*/)
V14par {switches}
V14 {cleans}
V1 {laughs}
V14par {Betty, machine}
Par {on},
wobei V14par ein transitives Verb mit Partikel, V14 ein transitives Verb, V1
ein intransitives Verb, N1 ein Nomen im Nominativ, N4 ein Nomen im Akkusativ und Par einen Partikel bezeichnen. Beispielsätze, die mit dieser Grammatik
gebildet werden können, sind:
(1) Betty cleans the machine.
V14 (N1 /*/ N4 (Det /*/))
(2) Betty switched the machine on.
V14par (N1 /*/ N4 (Det /*/) Par)
1.5 Fragen zu einer neuronalen Grammatik
Nachdem nun gezeigt wurde, wie man mit formalen Grammatiken diverse
Begebenheiten verschiedener Sprachen lösen kann stellen sich nun einige sehr
bedeutende Fragen zu neuronalen Grammatiken:
(1) Wie lässt sich die zentrale Einbettung realisieren bzw. wie kann kann man
solche Sätze repräsentieren?
(2) Wie können diskontinuierliche Satzbestandteile bzw. verteilte Wörter realisiert werden?
(3) Wie kann der wiederholte Gebrauch ein und desselben Wortes in einem
Satz gespeichert werden?
(4) Wie können lexikale Kategorien repräsentiert werden?
Zu all diesen Fragen versuchen wir in den folgenden Kapiteln Antworten bzw.
Lösungsvorschläge zu finden.
2
Grundlagen zur Sprachverarbeitung im Gehirn
In diesem Abschnitt werden – ausgehend von neurophysiologischen Beobachtungen – mögliche Modelle zur Repräsentation und Verarbeitung von Infor8
mationen und Strukturen vorgestellt, wie beim Verständnis und bei der Produktion natürlicher Sprache auftreten. Zunächst wird ein vereinfachtes Neuronenmodell vorgestellt, das die Grundlage aller weiteren Überlegungen bildet.
Im zweiten Abschnitt wird diskutiert, wie Wörter und ihre Semantik im Gehirn repräsentiert werden könnten. Zuletzt werden wir einige Mechanismen
betrachten, die darauf aufbauend das Verständnis grammatikalischer Strukturen ermöglichen. Der Schwerpunkt liegt auf einer konzeptuellen Darstellung,
die die Entwicklung eines konkreten Modells in Abschnitt 3 vorbereiten und
als dessen biologische Rechtfertigung dienen soll.
2.1 Modellierung von Nervenzellen
2.1.1 Natürliche Neurone
Hauptinformationsträger und -prozessor des menschlichen Gehirns sind Neurone – grob geschätzt 1011 dieser hochspezialisierten Zellen beinhaltet unser Zentralnervensystem. Zwar finden sich in unserem Nervensystem daneben
auch noch andere Zelltypen wie etwa Glia-Zellen (Astrozyten, Schwann’sche
Zellen u.a.). Jedoch dienen diese heutigem Wissen nach vor allem der Aufrechterhaltung des Stoffwechselhaushalts sowie als mechanisches Stützgerüst
der informationsverarbeitenden Nervenzellen.
A.
B.
Abbildung 1. A. Schematische Darstellung eines Neurons (nach [8]). B. Synaptische
Kontakte (aus [6])
9
Spezialisiert sind Neurone hinsichtlich der Erzeugung und Übertragung elektrischer Impulse in Reaktion auf elektrochemische Reize aus ihrer Umgebung.
Abbildung 1 zeigt vereinfacht die Anatomie einer solchen Zelle. Zur Aufnahme externer Reize dienen dem Neuron die Dendriten, ein oftmals baumartig
verzweigter Zellauswuchs bestehend aus Nervenfasern. Die Erzeugung eines
eigenen Reizimpulses (Aktionspotenzials) erfolgt – unter bestimmten Bedingungen, s.u. – am Axonhügel, dem Übergang zwischen Zellkörper (Soma) und
Axon. Das Axon ist ein weiterer, faserartiger Auswuchs der Zelle, welcher der
Übertragung der am Axonhügel erzeugten Aktionspotenziale an andere Neurone dient. Die Impulsleitung erfolgt je nach Zelltyp mit Geschwindigkeiten
zwischen 1 und 100 m/s. Auch das Axon ist oftmals stark verzweigt. Am Ende
eines jeden Astes befindet sich eine Kontaktstelle zu einer dendritischen Faser
eines weiteren Neurons. An diesen sog. Synapsen können elektrische Impulse von Zelle zu Zelle übertragen werden: bei Eintreffen eines präsynaptischen
(axonalen) Impulses werden chemische Botenstoffe – sog. Neurotransmitter
– freigesetzt. Durch spezifische Rezeptoren kann die postsynaptischen Zelle
nun auf den Impuls reagieren. Das Eintreffen eines chemischen Reizes beeinflusst die Wahrscheinlichkeit, mit der am postsynaptischen Dendrit wiederum
ein elektrischer Impuls erzeugt wird, der dann entlang der dendritische Faser
bis zum Zellkörper der postsynaptische Zelle wandert. Erhöhen die Impulse
an einer Synapse die Wahrscheinlichkeit einer postsynaptischen Impulserzeugung, so nennt man die Synapse erregend oder exzitatorisch. Verringert sie
hingegen die Wahrscheinlichkeit, so spricht man von einer hemmenden oder
auch inhibitorischen Synapse. Die Bedingung für die Erzeugung eines Impulses am Axonhügel schließlich ist das gleichzeitige Eintreffen ausreichend vieler
Impulse aus den Dendriten der Zelle. Wird hierbei eine bestimmt Schwelle
überschritten, so feuert die Zelle und der Impuls wandert entlang des Axons
zu den Dendriten weiterer Zellen und so weiter und so fort.
Soweit ist das Funktionsprinzip einer einzelnen Nervenzelle – trotz aller hässlichen, biochemischen Details, versteht sich – vergleichsweise einfach. Die große
Leistungsfähigkeit unseres Nervensystems entsteht aus dem hohen Vernetzungsgrad der Neurone untereinander: jede der 1011 Zellen steht mittels synaptischer Verbindungen in Kontakt mit durchschnittlich 1.000–10.000 weiteren
Zellen. Dabei entstehen zahllose Rückkopplungsschleifen, fernerhin sind die
Einflussstärken der Zellen aufeinander variabel. Eine zentrale Frage ist daher die nach den Mechanismen neuronaler Plastizität, d.h. nach welchen Regeln sich die Verbindungsstärken zwischen einzelnen Neuronen im Laufe der
Zeit verändern. Obwohl die Details dieser Vorgänge auch heute noch teilweise unklar sind, so scheint sich doch die frühe Hypothese des amerikanischen
Psychologen Donald Hebb prinzipiell bestätigt zu haben:
Wenn ein Axon der Zelle A einer Zelle B nahe genug ist, diese zu erregen
und sich wiederholt und dauerhaft an deren Impulserzeugung beteiligt, so
geschieht ein Wachstumsprozess oder eine metabolische Veränderung in ei10
ner oder beiden Zellen, wodurch sich die Effizienz von A bezüglich ihrer
Wirkung auf B erhöht.
D. Hebb, 1949
Besteht also eine hohe, positive Korrelation zwischen der Aktivität von Zelle
A und Zelle B, so wird die Verbindung der beiden langfristig Verstärkt. Dieser
Prozess wird auch als long-term potentiation, kurz: LTP, bezeichnet. Darüber
hinaus hat man durch Zellstimulationsexperimente auch noch einen gegenteiligen Prozess festgestellt: besteht keine oder nur geringe Korrelation zwischen
der Aktivität von A und B, so nimmt die Verbindungsstärke ab. Man spricht
hierbei analog von LTD, long-term depression, oder auch anti-Hebb´schem
Lernen. Da die Feuerfrequenz einer Zelle nie negativ ist, gilt die Hebb‘sche
Regel in dieser Formulierung allerdings höchstens für erregende Synapsen.
Zwar ließe sich die Regel problemlos für hemmende Synapsen umformulieren.
Die Faktenlage ist jedoch in diesem Fall spärlicher und weit weniger eindeutig([11]), so dass eine solche Behauptung aus neurophysiologischer Sicht noch
nicht ausreichend gestützt wäre.
2.1.2 Künstliche Neuronenmodelle
Bei näherer Betrachtung liegen der neuronalen Reizleitung – im vorigen Abschnitt weitestgehend übergangen – komplexe bio- und elektrochemische Prozesse zu Grunde. Zwar sind biologisch realistische mathematische Beschreibungen dieser Prozesse bekannt. Will man aber das Verhalten eines Neurons
auf diese Weise simulieren, so kommt man nicht umhin, ein verschachteltes
System von Differentialgleichungen zu berechnen – der Rechenaufwand überschreitet bei wachsender Anzahl zu simulierender Neurone schnell die Grenzen
des Machbaren. Daher sind vereinfachte Modelle notwendig, die die Simulation einer großen Anzahl von Neuronen erlauben. Das älteste dieser abstrakten
Neuronenmodelle ist die McCulloch-Pitts-Zelle. Eine solche Zelle hat n binäre
Eingangsleitungen x = x1 . . . xn (entsprechend den Dendriten) sowie einen
ebenfalls binären Ausgang (analog zum Axon), dessen Wert sich als Funktion f (x) der Eingänge berechnet. Des weiteren ist jeder Eingang mit +1 oder
−1 gewichtet (entsprechend erregenden und hemmenden Synapsen), zusammengefasst als bipolarer Gewichtsvektor w = w1 . . . wn . Zur Berechnung der
Ausgabe werden die gewichteten Eingangssignale summiert. Überschreitet die
Summe einen bestimmten Schwellwert θ ∈ R, so ist die Ausgabe 1, andernfalls
0. Es ist also
f (x) =


 1,

 0,
falls
Pn
i=1
w i xi ≥ θ
sonst
11
(1)
Abbildung 2 zeigt beispielhaft McCulloch-Pitts-Zellen für die booleschen Funktionen UND, ODER und NICHT. Offenbar kann man diese genau wie herkömmliche logische Gatter parallel und in Reihe schalten und so jede beliebige
boolesche Funktion berechnen – auch wenn ein einzelnes Neuron nur linear
trennbare Funktionen berechnen kann. Lässt man – im Gegensatz zu reinen
Abbildung 2. UND, ODER und NICHT Neurone
Feed-Forward-Architekturen – Rückkopplungsschleifen zu, so existiert zu jeder
regulären Sprache ein McCulloch-Pitts-Netz, welches diese erkennt. Genauer
gesagt sind McCulloch-Pitts-Netze (mit endlicher Neuronenzahl) und endliche
Automaten als Berechenbarkeitsmodell genau gleich mächtig. Die Mächtigkeit
des McCulloch–Pitts–Modells ändert sich auch dann nicht, wenn man als Gewichte wi anstelle von ±1 beliebige reelle Zahlen zulässt. Abbildung 3 demonstriert, wie sich ein Neuron mit reellwertigen Gewichten in ein äquivalentes
Neuron mit bipolaren Gewichten umwandeln lässt. In Anbetracht der Dis-
Abbildung 3. Überführung reeller in bipolare Gewichte
kussion um Hebbs Regel in Abschnitt 2.1.1 ist es jedoch offensichtlich, dass
ohne eine derartige Erweiterung des Gewichtsvektors eine biologisch plausible
Modellierung synaptischer Plastizität nicht gelingen kann. Auch hat sich neben der hier vorgestellten, binären Schwellwertfunktion eine Vielzahl anderer
Ausgabefunktionen eingebürgert, darunter beispielsweise die Sigmoide
x 7→
1
1 + e−x
(2)
oder lineare Funktionen mit Schwellwert (siehe Abb. 4):
x 7→


 c(x − θ), falls x ≥ θ

 0,
(3)
sonst
Dadurch ändert sich auch die Interpretation des Ausgabewertes in Bezug auf
den Aktivitätszustand des Neurons. Anstelle einzelner Impulse repräsentiert
12
Abbildung 4. verschiedene neuronale Ausgabefunktionen: A. Binär mit Schwellwert,
B. Sigmoid, C. Linear mit Schwellwert (aus [7])
der Ausgabewert bei diesen Funktionen vielmehr die Impulsfrequenz, gemittelt über einen gewissen Zeitraum – im Falle der Sigmoiden zusätzlich normiert, wobei ein Ausgabewert von 1 der maximalen Feuerfrequenz der Zelle
entspräche, unabhängig von deren absolutem Wert.
Der Vollständigkeit halber sei an dieser Stelle noch angedeutet, wie Hebb’sches
(LTP) und anti-Hebb’sches (LTD) Lernen auf künstliche Neuronen übertragen werden kann (vgl. Anschnitt 2.1.1) . Eine einfache Form von LTP lässt
sich folgendermaßen formulieren: Sei wij ∈ R das Gewicht der Verbindung
von Neuron i zu j, und seien ai und aj deren Aktivität zum Zeitpunkt des
Lernschrittes. Dann beträgt die Veränderung des Gewichtes
∆wij = ηai aj ,
(4)
mit Lernrate η. Da ai und aj in natura immer positiv sind (und auch bei
allen hier vorgestellten Ausgabefunktionen), kann wij nur ständig größer werden. Ausgeklügeltere Lernregeln ermöglichen sowohl LTP als auch LTD, auch
bei rein positiven Ausgabefunktionen. Beispiele hierfür sind u.a. Sejnowskis
Kovarianz-Regel, Ojas Regel oder die BCM-Regel, siehe [5] für einen umfassenden Überblick.
2.2 Worte im Gehirn
2.2.1 Die Topologie des Kortex
Der für Sprachproduktion und -verständnis entscheidende Teil des Gehirns
ist elektrophysiologische, bildgebenden sowie Läsionsstudien zufolge die Rinde des Großhirn, der cerebrale Kortex. Daneben ermöglicht der Kortex noch
zahlreiche weitere Formen höheren Denkens“ wie z.B. alle Formen bewusster
”
sinnlicher Wahrnehmung und bewussten Handelns sowie Lang- und Kurzzeitgedächtnis. Der Kortex ist in zwei Hälften (Hemisphären) geteilt, die nur über
die Nervenfasern des sog. Balkens (Corpus callosum) miteinander verbunden
sind. Dabei ist eine der beiden Hemisphären – bei ca. 90% der Menschen die
13
Abbildung 5. Die vier Lappen des Großhirns sowie die primäre Areale des motorischen, somatosensorischen, visuellen und auditorischen Kortex
linke – bei der Sprachverarbeitung stärker beteiligt als die andere. Erstere wird
als die dominante Hemisphere bezeichnet. Ausgebreitet beträgt die Fläche der
Großhirnrinde etwa 0.2m2 . Notwendigerweise ist sie daher stark gefaltet und
gliedert sich in vier von Furchen (Sulci ) und Windungen (Gyri ) durchzogene
Lappen. Aufgrund genauer Betrachtung der neuroanatomischer Eigenschaften
lassen sich pro Hemisphere rund 50 verschiedene Areale unterscheiden. Leicht
auszumachen sind z.B. der primäre motorische Kortex und der primäre somatosensorische Kortex unmittelbar vor bzw. hinter der Zentralfurche (siehe
Abb. 5). Beide dieser Areale sind topographische Karten des Körpers - benachbarte Köperregionen werden abgebildet auch benachbarte Verbünde von
Nervenzellen. Aktivität im motorischen Kortex ruft Muskelkontraktionen in
der entsprechenden Körperregion hervor, während Aktivität im somatosensorischen Kortex Berührungs- oder Schmerzwahrnehmungen aus der entsprechenden Region erzeugt – auch wenn diese gar nicht durch einen tatsächlichen
Berührungsreiz hervorgerufen wurde. Abb. 6 zeigt beispielsweise die Abbildung der Körperoberfläche auf den motorischen Kortex, die Abbildung des
somatosensorischen Kortex sieht dieser weitgehend ähnlich. Es ist erkennbar,
dass sich die sprachrelevanten Muskelgruppen (Gesicht, Kehle, Zunge) am unteren Ende des motorischen u. sensorischen Kortex wiederfinden. Damit liegen
sie u.a. in direkter Nachbarschaft zum primären und sekundären auditorischen
Kortex (siehe Abb. 5), ungefähr da, wo die Zentralfurche auf die Sylvische Furche trifft.
Zum Verständnis der neuronalen Verbindungsstruktur zwischen und innerhalb der einzelnen Hirnareale ist es sinnvoll, sich zunächst eine anatomische
Besonderheit der kortikalen Neurone vor Augen zu führen. Der häufigste Neuronentyp im Kortex ist mit einem Anteil von ca. 80% die Pyramidenzelle ([9]).
Deren dendritischer Baum ist zweigeteilt, man unterscheidet den basalen und
den apikalen Dendriten. Der basale Dentrit umfasst ein Fasergeflecht, das den
Zellkörper des Neurons umgibt und daher Verbindungen zu lokalen Axon14
Abbildung 6. Projektion des Körpers auf den motorischen Kortex – der motorische
Homunkulus
Abbildung 7. Anatomie einer kortikalen Pyramidenzelle mit basalem und apikalem
Dendrit, Axon und Axonkollateralen (aus [5])
verästelungen (Axonkollateralen) benachbarter Zellen ermöglicht. Der apikale
Dendrit hingegen ist ein langgestreckter Ast, der es der Zelle erlaubt, synaptischen Kontakt zu weiter entfernt verlaufenden Axonen aufzubauen (siehe
Abb. 7). Die basalen Verbindungen führen zu einem hohen Vernetzungsgrad
von Neuronen innerhalb eines Areals – Schätzungen für die Verbindungswahrscheinlichkeit zweier benachbarter Neurone liegen zwischen 10% und 80%.
Zwischen diesen Neuronen besteht also ein reger, lokaler Informationsaustausch, der auch mit ähnlichen funktionellen Eigenschaften einhergeht. Über
apikale Verbindungen entstehen Kontakte zwischen den verschiedenen lokalen
Arealen. Ungefähre Anhaltspunkte für deren Konnektivität bieten neuroanatomische Studien bei Katzen und Affen. Es hat sich gezeigt, dass benachbarte
kortikale Areale mit Wahrscheinlichkeiten von über 70% miteinander verbun15
den sind. Für nichtbenachbarte Areale beträgt die Wahrscheinlichkeit nur noch
15–30%. Dabei ist zu beachten, dass fast alle Verbindungen zwischen verschiedenen Arealen – sofern sie denn existieren – wechselseitig sind, Informationen
also jeweils sowohl empfangen wie auch gesendet werden. Eine weitere Beobachtung ist, dass die primären Areale untereinander nicht direkt verbunden
sind - der motorische und der somatosensorische Kortex bilden hierbei die
einzige Ausnahme. Die übrigen Verbindung bestehen allenfalls indirekt über
Umschaltneurone in nicht-primären Arealen. Dadurch werden aber gleichzeitig
auch komplexere Verschaltungen und damit Informationsverarbeitungsschritte
möglich – ähnlich wie beispielsweise Perzeptrone mit zwei Berechnungsschichten komplexere Funktionen berechnen können also solche mit nur einer.
2.2.2 Functional Webs
Zieht man nun zu diesen grundlegenden Beobachtungen über die Verbindungsstrukturen innerhalb des Kortex die in Abschnitt 2.1.1 vorgestellten Mechanismen synaptischer Plastizität – LTP und LTD – in Betracht, so wird man
erwarten, dass häufig auftretende Aktivitätsmuster zur Stärkung der Gewichte zwischen den beteiligten Neuronen führen. Dies kann sowohl innerhalb
einzelner Areale geschehen, durch die apikalen Verbindungen aber auch in
räumlich getrennten Regionen. Sogar die indirekte Verbindung zweier häufig
koaktivierter Neurone aus unterschiedlichen primären Arealen könnte auf diese Weise verstärkt werden – durch Verstärkung der jeweiligen Verbindungen
zu einem gemeinsamen Umschaltneuron. Korrelation zwischen der Aktivität
benachbarter Neurone ist aufgrund der allgemein verbreiteten, topographischen Form der Repräsentation zu erwarten: benachbarte Neurone innerhalb
eines der Wahrnehmungsareale beispielsweise reagieren auf ähnliche Reize.
Aber auch selektive Korrelationen zwischen Neuronen verschiedener Areale
sind leicht vorstellbar: jedes Mal zum Beispiel, wenn wir durch Aktivität im
motorischen Kortex unsere Stimmbänder aktivieren, entstehen im somatosensorischen Kortex Empfindungsreize durch die hervorgerufenen Vibrationen.
Und mit zeitlicher Verzögerung schlägt sich die Schallwahrnehmung des eigenen Lautes als Aktivität im auditorischen Kortex nieder. Vergleichbare Beispiele lassen sich auch für viele weitere Sinnesmodalitäten finden, wie etwa
gemeinsam auftretenden Geschmacks- und Konsistenzempfindungen beim Essen und vieles andere mehr. Auf diese Weise kann es zur Bildung von über
den Kortex verteilten Netzwerken kommen, die häufig zusammen auftretende
Aktivitäts- oder Reizmuster repräsentieren. Im folgenden werden Netze dieser
Art als Functional Web bezeichnet. Zusammengefasst sind Functional Webs
definiert als eine Gruppe von Neuronen, die
(1) untereinander hochgradig vernetzt sind
(2) über mehrere kortikale Hirnareale verteilt sind
(3) zusammen als funktionale Einheit wirken
16
(4) voneinander funktional abhängig sind in dem Sinne, dass jedes einzelne
für das optimale Funktionieren des Netzes notwendig ist.
Abgesehen davon, dass sich dieses Modell kortikaler Repräsentation auf natürliche Weise aus den bereits vorgestellten Prinzipien neuronaler Plastizität und
kortikaler Konnektivität ergibt, bringt sie auch aus theoretischer Sicht eine
Reihe von Vorteilen mit sich. Ein Vorteil der Functional Webs liegt in der
stochastischen Natur des Feuerverhaltens einzelner Neurone begründet. Da
Neurone unabhängig von externer Stimulation immer wieder spontan Aktionspotentiale erzeugen, haben sie für sich genommen ein schlechtes SignalRausch-Verhältnis. Durch Mittelung der Signale mehrerer Neurone lässt sich
dieses Verhältnis entscheidend verbessern. Das Rauschen hebt sich mit wachsender Anzahl von Neuronen gegenseitig, während das Signal erhalten bleibt.
Ebenso ist es eine wünschenswerte Eigenschaft, dass der Verlust eines einzelnen Neurons nicht den Verlust einer gesamten Repräsentation nach sich zieht.
Wichtig ist es auch, dass zwei Functional Webs nicht aus disjunkten Mengen
von Neuronen bestehen müssen, eine Neuron also Teil mehrerer Functional
Webs sein. Dies zieht einige Konsequenzen nach sich. Zum einen wird es durch
den Überlapp schwierig zu bestimmen, welche Neurone tatsächlich Teil eines
gegebenen Functional Webs sind. Diese Form der Repräsentation beinhaltet
also zwangsläufig eine gewisse Unschärfe (Fuzziness). Zum zweiten gilt es zu
vermeiden, dass sich die Functional Webs im Cortex durch ihren wechselseitigen Überlapp nach und nach alle gegenseitig aktivieren. Hierzu bedarf es eines
Regulationsprozesses, der sicherstellt, dass der gemittelte kortikale Aktivierungsgrad bestimmt Ober- und Untergrenzen nicht überschreitet (ein völliges
Aussterben jeglicher Aktivität wäre natürlich ebenso unerwünscht). Prinzipiell lässt sich dies durch zusätzliche, inhibitorische Verbindungen der Neurone
untereinander erreichen, so dass nach dem Winner–Takes–All“–Prinzip nur
”
wenige, maximal aktivierte Functional Webs ihre Aktivität aufrecht erhalten
können. Ein genaueres Modell für einen derartigen Mechanismus unter Einbeziehung anatomisch bekannter, subkortikaler Rückkopplungswege findet sich
in [1].
Was nun sind die bislang weitgehend übergangenen, funktionalen Eigenschaften von Functional Webs? Was außer einer etwas stabileren Repräsentation
gewinnt man durch sie gegenüber einzelnen Neuronen? Kurz gesagt liegt der
entscheidende Vorteil von Functional Webs in ihrer größeren Anzahl qualitativ
verschiedener Aktivitätszustände. Betrachten wir zunächst ein solches Netz,
bei dem ein ausreichend großer Anteil von Neuronen extern stimuliert wird.
Durch die die wechselseitigen, erregenden Verbindungen innerhalb des Netzes kommt es zur Ausbreitung und gegenseitigen Verstärkung der Aktivität
im gesamten Netz, bis schließlich alle enthaltenen Neurone maximal Aktiviert
sind. Dieser Vorgang wird als Ignition“ (Zündung) des Netzes bezeichnet.
”
Nützlich ist dies zur automatischen Ergänzung unvollständiger Repräsentati17
Abbildung 8. Verlauf der Aktivität eines Neurons aus dem temporalen Kortex eines
Makaken während eines visuellen Gedächtnistests(aus [12])
onsmuster: man stelle sich beispielsweise ein Functional Web vor, das das semantische Konzept Mücke“ repräsentiert. Allein die Wahrnehmung des sum”
menden Fluggeräusches könnte dann ausreichen, um uns durch Ignition des
Netzes sofort alle semantischen Aspekte einer Mücke ins Bewusstsein zu rufen,
vom Aussehen eines Facettenauges bis hin zur Abneigung gegen den Juckreiz.
Bei der Ignition handelt es sich allerdings nur um eine kurzzeitige vollständige Aktivierung. Anschließend kommt es durch Ermüdung“ der Neurone und
”
möglicherweise auch entgegenwirkenden, regulatorischen Prozessen zu einer
Reduzierung der Aktivität im gesamten Web. Dennoch kommt es nicht zu
einem plötzlichen Aussterben, da wiederum die gegenseitigen Verbindungen
als positive Rückkopplung wirken und den Abfallsprozess stark abbremsen
bzw. die Aktivität teilweise auf niedrigerem Level aufrechterhalten können.
Dieser Prozess des allmählichen Aktivitätsrückgangs wird als Reverberation“
”
(Nachhall) bezeichnet. Im Elektroenzephalogramm (EEG) oder Magnetoenzephalogramm (MEG) schlägt sich dieser Vorgang in Form hochfrequenter
Hirnwellen (∼ 30 Hz) nieder. Experimentell konnten derartige Phänomene
u.a. bei Gedächtnistests mit Affen nachgewiesen werden ([12]). Die Aufgabe
für den Affen bestand darin, die Form eines nur kurz (0.2s) präsentierten,
visuellen Stimulus 16s lang bis zur Präsentation eines Vergleichsstimulus im
Gedächtnis zu behalten und bei Übereinstimmung bzw. Verschiedenheit einen
entsprechenden Schalter zu betätigen. Abbildung 8 zeigt den Aktivitätsverlauf
eines einzelnen Neurons aus dem temporalen Kortex eines Affen. Klar erkennbar ist die starke Aktivierung des Neurons gleich nach Präsentation des ersten
Stimulus, entsprechend der Ignition seines Functional Webs. Darauf folgt eine
Phase reduzierter, aber nur schwach abfallender Aktivität bis zur Präsentation des Vergleichsstimulus. Diese würde durch die anschließende Reverberation
des Functional Webs erklärt. Im übrigen gibt dieses Beispiel auch eine Vorstellung über den möglichen zeitlichen Umfang des Reverberation-Prozesses.
18
2.2.3 Word Webs
In diesem Abschnitt soll nun vertieft werden, wie Wörter mit ihren phonetischen wie semantischen Aspekten im Gehirn mittels Functional Webs repräsentiert werden könnten. Die Ausgangsbasis für eine derartige Repräsentation wird bereits im frühesten Neugeborenenalter geschaffen, besonders mit
Beginn der sog. Lallphase im Alter von etwa 6 Monaten. Aktivität im unteren
Teil des primären motorischen Kortex löst spontane Lautäußerungen aus, die
über den Umweg des Gehörs Aktivität in den auditorischen Hirnregionen hervorrufen. Da bei gleicher Stellung des Stimmorgane auch immer ein ähnlicher
Laut erzeugt wird, können durch Hebb’sches Lernen Netze von Neuronen entstehen, die sowohl die akustischen als auch die motorischen Aspekte der häufig
erzeugten Phoneme verbinden. Damit ermöglichen sie das imitierende Nachsprechen wahrgenommener Silben oder Worte – ein Fähigkeit, die Säuglinge
bereits kurz nach Beginn der Lallphase entwickeln. Durch übergeordnete“
”
Verbindungen zwischen einzelnen Phonemnetzen können dann Repräsentationen für häufig auftretende Folgen von Phonemen entstehen - der Grundstein
für neuronale Wortrepräsentationen ist gelegt. Eine berechtigte Frage ist, wie
der Säugling aus der Wahrnehmung eines kontinuierlichen Sprachflusses lernen kann, welche Phoneme überhaupt zu einem Wort gehören. Denn nur in
den seltensten Fällen werden ihm ja einzelne Wörter isoliert vorgesprochen.
Auch dies lässt sich jedoch mit Hilfe des Korrelations-Lernprinzips erklären:
Phonemfolgen, die zu ein und dem selben Wort gehören, tauchen statistisch
gesehen häufiger auf als die eher zufälligen Lautfolgen, die an Wortgrenzen
entstehen. Zur Bildung von Wortrepräsentationen scheint es also das Vorsprechen isolierter Worte nicht notwendig zu sein.
Das bis hierhin vorgeschlagenen Modell wurden auch in elektrophysiologischen
Studien experimentell überprüft. Eine der Vorhersagen des Modells ist die,
dass die Wahrnehmung von echten Wörtern und Pseudowörtern zu unterschiedlichen Hirnreaktionen führt. Genauer gesagt sollte ein echtes Wort Ignition und Reverberation des entsprechenden Wortnetzes hervorrufen, während
Pseudowörter zu keinerlei solchen Reaktionen führen sollten. Tatsächlich wurden bei EEG- und MEG-Studien bei echten Worten signifikant stärkere, hochfrequente Hirnwellen gemessen als bei Pseudowörtern, und zwar nahe der Sylvischen Furche, wo sich sowohl der auditorische Kortex als auch die Sprachrelevanten motorischen und somatosensorischen Projektionsfelder befinden (vgl.
Abschnitt 2.2.1). Somit stimmt das experimentelle Ergebnis also mit der getroffenen Vorhersage überein.
Durch den häufigen Gebrauch von Wörtern im Zusammenhang mit bestimmten Gegenständen oder Handlungen können die bislang ausschließlich phonologischen Wortrepräsentationen durch das Prinzip des Korrelationslernens
mit semantischen Inhalten verknüpft werden. Dies könnten etwa Farbe, Griffgefühl und Geruch eines Gegenstandes aus der Umgebung des Säuglings sein,
19
Abbildung 9. Topologie mutmaßlicher Word Webs zur Repräsentation von Wörtern
verschiedener semantischer Kategorien
aber ebenso auch der Bewegungsablauf beim Krabbeln. Functional Webs, die
aus diese Weise sowohl die phonologische Information eines Wortes als auch
dessen zugehörige Wahrnehmungs- und Handlungsaspekte beinhalten, werden
im folgenden auch als Word Webs bezeichnet. Word Webs sollten gemäß der
bisher angewandten Prinzipien der kortikalen Organisation nicht unspezifisch
über den Kortex verteilt sein. Vielmehr würde man erwarten, dass sich semantische Aspekte eines Begriffs in der Topologie seines zugehörigen Word
Webs widerspiegelt. Die Bedeutung von Worten wie z.B. Hai“ oder Wal“
”
”
werden den meisten von uns in erster Linie durch visuelle Eindrücke (sprich:
Bilder oder Filme) bekannt sein. Im Gegensatz dazu ergibt sich die Bedeutung
etwa von Werkzeugnamen viel eher aus der mit ihren Benutzung verbundenen Handlungen. Word Webs für vornehmlich visuell geprägte Begriffe sollten
daher überproportional viele Neurone aus den okzipital gelegenen visuellen
Arealen enthalten, Word Webs für handlungsgeprägte Begriffe hingegen viele
Neurone im präzentralen, motorischen Kortex. Auch diese Hypothese deckt
sich mit Schwankungen im Energieverbrauch der betroffenen Areale, die mit
Hilfe hirnbildgebender Verfahren experimentell beobachtet worden sind. Und
es finden sich sogar noch feinere topologische Unterschiede: beim Vergleich
zwischen gesichts-, arm- und beinbezogenen Verben (z.B. sprechen“, grei”
”
fen“ und gehen“) zeigte sich unterschiedlich starke Aktivität entlang des mo”
torischen Kortex, und zwar dergestalt, dass das Zentrum der Aktivität je nach
Verbkategorie im motorischen Projektionsfeld des Gesichts, der Arme bzw. der
Beine lag (vgl. Abb. 6). Abbildung 9 zeigt die mutmaßlichen Word Webs für
die hier behandelten Wortkategorien: visuell geprägte und handlungsorientierte Substantive sowie gesichts-, arm- und beinbezogene Verben.
Ist erstmal ein Grundstock“ von Wörtern im Gehirn repräsentiert, so kann
”
die Bedeutung neuer, unbekannter Wörter auch ihrem sprachlichen Kontext
erschlossen werden. Es ist also keinesfalls notwendig, dass jedes neu zu er20
lernende Wort in Zusammenhang mit einem konkreten Gegenstand oder ein
konkreten Handlung präsentiert werden muss, um dessen phonologische Eigenschaften mit zusätzlichen, semantischen Aspekten zu verknüpfen.
Aus dem hebb’schen Lernprinzip ergibt sich im Übrigen auch eine Modell
dafür, wie sich die Ähnlichkeit verschiedener Wort in ihrer neuronalen Repräsentation niederschlagen könnte. In Abschnitt 2.2.2 wurde gesagt, dass
verschiedene Functional Webs nicht aus disjunkten Gruppen von Neuronen
bestehen müssen. Ganz im Gegenteil macht es sogar Sinn, dass sich einzelne
Webs teilweise sehr stark überlappen – dann nämlich, wenn sie sich semantisch
ähnlich sind. Word Webs vollständig synonymer Wörter z.B. würden sich im
idealisierten Fall nur in ihrem Phonemteil unterscheiden. Im Gegensatz dazu
würden sich homophone Wörter gerade in ihrer Phonemrepräsentation überlappen und der semantische Teil ihrer Word Webs wäre weitgehend disjunkt
(siehe Abbildung 10).
Abbildung 10. Topologie mutmaßlicher Word Webs zur Repräsentation von Wörtern
verschiedener semantischer Kategorien
Zusammenfassend lässt sich also festhalten, dass Word Webs ein plausibles
Modell der Repräsentation von Worten im Gehirn darstellen, sowohl auf Grund
prinzipieller Überlegungen zu Organisation und Plastizität des Kortex als auch
gestützt auf experimentelle Ergebnisse aus elektrophysiologischen und funktional bildgebenden Studien.
2.3 Neuronale Mechanismen zur Repräsentation serieller Ordnung
2.3.1 Grundsätzliche Überlegungen anhand künstlicher Neurone
Nach der vorangegangen Diskussion um die grundlegende Repräsentationsform von Worten im Gehirn wenden wir uns jetzt allmählich wieder den
in Abschnitt 1 aufgeworfenen Fragen nach den Prinzipien einer neuronalen
Grammatik zu. Es wird aufgezeigt, mit welchen Mechanismen verschieden
Aspekte serieller Ordnung in künstlichen McCulloch-Pitts-Netzen repräsentiert werden können. Diese Überlegungen führen zusammen mit dem Konzept
der Functional Webs und Word Webs auf ein konkretes Modell einer neuronalen Grammatik hin, das in Abschnitt 3 abschließend vorgestellt wird.
21
Das Neuronenmodell von McCulloch&Pitts wurde in Abschnitt 2.1.2 vorgestellt. Für die Abbildungen dieses Abschnitts gelten folgende Konventionen:
der Schwellwert eines Neurons ist die Zahl in dessen Inneren, und das Gewicht aller Verbindungen beträgt jeweils 1, soweit nicht anders angegeben.
Wie nun lassen sich Netze von solchen Neuronen nutzen, um Sequenzen von
Wörtern zu erkennen? Betrachten wir zunächst den einfachsten Fall: gesucht
ist ein Netz, das genau einen einzelnen Satz erkennen kann, wobei die einzelnen Wörter dem Netz sequentiell präsentiert werden. In Abbildung 11 sehen
wir zwei mögliche solche Netze zur Erkennung des Beispielsatzes Betty get
”
up“. Die Neurone in der Input-Schicht reagieren selektiv auf je eines der drei
Worte. Wird die Wortfolge Betty get up“ etwa dem linken der beiden Netze
”
präsentiert, so läuft folgende Netzreaktion ab (alle Neurone seine zu Beginn
inaktiv):
(1) Input Betty“ aktiviert Neuron a.
”
(2) Input get“ aktiviert Neuron b, während gleichzeitig Neuron d durch a
”
aktiviert wird.
(3) Input “up“ aktiviert Neuron c, während die Neurone e und f von Neuron
b und d erregt werden
(4) Durch ihre gleichzeitige Aktivität erregen die Neurone c e und f Neuron
g
Man erkennt leicht, dass Neuron g nur dann feuert, wenn der Satz Betty get
”
up“ wörtlich und ohne Unterbrechung im Input vorkommt. Es könnte damit
als interne Repräsentation dieses Satzes genutzt werden. g wird hierbei als
Großmutter- oder Kardinalzelle bezeichnet, da es alleine ein komplexes, zeitlich ausgedehntes Ereignis repräsentiert oder vermittelt – man spricht auch
von vermittelter Sequenzerkennung 9 . Im Vergleich dazu kommt das Netz in
Abb. 11B mit weniger Neuronen aus. Zwar ist auch hier das letzte Neuron der
Kette letztendlich eine Kardinalzelle. Zusätzlich dazu geht aber die Erkennung
des Beispielsatzes einher mit Aktivitätswelle, die sich entlang der unteren Reihe von Neuronen fortpflanzt - ein Phänomen, auf das in Abschnitt ?? noch
näher eingegangen wird.
Einfache Stringdetektoren lassen sich also mit Hilfe künstlicher Neuronaler
Netze implementieren. Eine zentrale Rolle beim Verständnis von Sprache spielt
jedoch aufgrund des Prinzips der zentralen Einbettung Abhängigkeiten zwischen Wörtern, die im Satz räumlich bzw. zeitlich beliebig weit voneinander
entfernt stehen können (vgl. Abschnitt 1.2 und 1.3). Dem sind die bisherigen
Stringdetektoren jedoch nicht gewachsen – hierzu bedarf der Einführung von
rückgekoppelten Verbindungen. In Abbildung 12 sehen wir zwei Neurone mit
Gedächtnis“. Nehmen wir an, das linke Neuron zu Beginn einer Wortfolge
”
voraktiviert. Dann ist es nach Präsentation der Folge nur dann noch aktiv,
9
mediated sequence processing
22
Abbildung 11. Zwei Netze zur Erkennung der Wortfolge Betty get up“ A. durch
”
eine Kardinalzelle. B. begleitet von einer Aktivitätswelle in der unteren Zellreihe.
Abbildung 12. Netze zur Erkennung des A. dauerhaften bzw. B. einmaligen Auftretens eines Wortes in einer Wortfolge.
wenn kontinuierlich extern stimuliert wurde. Kommt es hingegen zu einer Unterbrechung der externen Stimulation, so ist das Neuron am Ende inaktiv.
Das rechte Neuron dagegen bleibt aktiv, sobald es einmal stimuliert wurde (es
bedarf dann freilich noch irgendeiner Art von Reset-Mechanismus). Diese Art
von Verhalten erinnert an den All- bzw. den Existenzquantor aus der Prädikatenlogik. Speziell das rechte Existenz-Neuron“ eignet sich dazu, den Zusam”
menhang zwischen verteilten Satzbestandteilen herzustellen. Dies verdeutlicht
Abbildung 13: das abgebildete Netz ist durch seine Rückkopplungsschleifen in
der Lage, alle der folgenden Sätze zuerkennen:
(1) Betty switched it on.
(2) Betty switched the nice brown coffee machine on.
(3) Betty switched the coffee machine she received as a present from her
mother at her 25th birthday on.
Auf diese Weise gelingt es mit neuronalen Netzen, Strukturen zu repräsentieren, bei denen das auftreten eines Bestandteils das sichere Auftreten eines
anderen Bestandteils bedingt, und zwar mit beliebigem Abstand zwischen den
beiden. Damit sind sie rein stochastische Modelle wie z.B. Markov-Ketten in
dieser Hinsicht überlegen. Im Folgenden sollen nun ausgehend von den hier
skizzierten Überlegungen anhand von McCulloch-Pitts-Zellen sollen nun noch
zwei auch neurophysiologisch plausible Ansätze zur neuronalen Modellierung
serieller Ordnung vorgestellt werden.
23
Abbildung 13. Netz zur Erkennung der Wörter Betty“, switches“ und on“ inner”
”
”
halb einer längeren Wortfolge in genau dieser Reihenfolge und mit beliebig langen
Unterbrechungen zwischen den Wörtern
2.3.2 Synfire Chains
Der erste Ansatz zielt hierbei nicht primär auf das Erkennen oder die Repräsentation grammatikalischer Ordnung, sondern auf die Speicherung von
Phonemfolgen. Seien in Analogie zum motorischen Kortex Neurone gegeben,
der Aktivierung die Äußerung verschiedener Laute hervorruft. Der denkbar
einfachste Weg, eine Phonemfolge zu speichern wäre es, die entsprechenden
Neurone mit erregenden Synapsen zu verbinden. Wird nun das erste Neuron
der Folge aktiviert, pflanzt sich die Aktivität entlang dieser Verbindungen fort
und führt dabei zur entsprechenden Lautäußerung. Allerdings hat man festgestellt, dass die synaptischen Gewichte im Kortex im Regelfall viel zu schwach
sind, als dass ein einzelnes Neuron ein anderes erregen könnte. Dazu ist normalerweise die annähernd gleichzeitige Aktivität zahlreicher Input-Neurone
notwendig. Statt dessen wäre es also plausibler anzunehmen, dass anstelle einzelner Neurone jeweils ganze Neuronengruppen miteinander verbunden sind,
wobei alle Neuronen einer Gruppe jeweils synchron von ihrer Vorgängergruppe innerhalb der Verbindungskette erregt werden. Diese Form der neuronalen
Verschaltung wird als Synfire Chain bezeichnet. Auch experimentell konnten
Phänomene beobachtet werden, die sich mit diesem Modell decken. Untersucht wurde die Korrelation zwischen dem Feuerverhalten mehrerer Neurone.
Dabei fiel auf, dass ein Neuron besonders häufig dann feuerte, wenn zuvor
zwei weitere Neurone in einem ganz bestimmten Zeitabstand gefeuert hatten.
Abbildung 14 zeigt eine solche Synfire Chain. Durch Aktivierung aller Neurone der ersten Gruppe entsteht eine Welle synchroner Aktivität innerhalb der
Gruppen. Eine nur teilweise Aktivierung hingegen reicht nicht aus, um eine
sich fortpflanzende Welle zu erzeugen. In Wirklichkeit sind die Gruppen wahrscheinlich deutlich größer und könnten geschätzt ca. 50–100 Neurone enthalten, mit einem Schwellwert jeweils zwischen 5 und 10. Mehrere Synfire Chains
können sich teilweise überlappen und kreuzen, ohne dass sich eine Aktivitätswelle dabei unkontrolliert in alle Richtungen weiter ausbreitet. Die verdeutlicht
Abbildung 15. Aktivierung der Neuronen in der Gruppe links oben ( b“) führt
”
zu einer Aktivitätswelle, die sich nach rechts unten ausbreitet, nicht aber – ent24
Abbildung 14. Ein Synfire Chain bestehend aus 5 Gruppen von je 3 synchron aktiven
Neuronen. Der Schwellenwert der Neurone beträgt 2.
lang der kreuzende Synfire Chain – nach links unten. Dies wird durch den nur
teilweisen Überlapp der jeweils mittleren Neuronengruppen der beiden Ketten
gewährleistet. Die beiden Neurone in Mitte ganz links und ganz rechts dienen
also als Kontextindikator, die bestimmen, in welche Richtung sich die Aktivität
im Überlapp-Bereich weiter ausbreitet. In der Abbildung ist zudem wieder der
Bezug zur Speicherung von Phonemfolgen angedeutet. Jedes Wort würde nach
dieser Vorstellung phonetisch durch eine eigene Synfire Chain repräsentiert,
die sich mit den Ketten zahlreicher anderer Wörter überschneidet und kreuzt.
Freilich bedarf dieses Modell noch der Verfeinerung. Die Geschwindigkeit der
Welle ist bisher konstant. Wir aber können unsere Sprechgeschwindigkeit nach
Belieben variieren. Dies ließe sich aber beispielsweise durch die Regulation der
unspezifischen Hintergrundaktivität erreichen. Durch starkes Hintergrundrauschen wären die Neuronen schon von vornherein näher an ihrem Schwellwert,
so ihre letztendliche Aktivierung schneller von statten ginge als bei schwacher
Hintergrundaktivität. Dies könnte auch erklären, wie es bei hoher Sprechgeschwindigkeit zunehmend zum Nuscheln und Versprechen kommt. Zum einen
könnte es geschehen, dass sich die Aktivität schneller durch den motorischen
Kortex ausbreitet, als es die Muskulatur umsetzen kann. Zudem steigt durch
die hohe Voraktivierung der kreuzenden Synfire Chains die Wahrscheinlichkeit, dass sich die Aktivität entlang eines falschen Pfades, möglicherweise sogar entlang mehrerer Pfade gleichzeitig ausbreitet. Das Synfire-Chain-Modell
zur phonetischen Repräsentation deckt sich also auch mit psycholinguistischen
Beobachtungen.
Dennoch erscheint es unwahrscheinlich, dass sich ein Ähnlicher Ansatz – etwa
Synfire Chains zwischen Worten anstelle von Phonemen – auf die Verarbeitung von ganzen Sätzen übertragen läßt. Der zeitliche Abstand zwischen der
Aktivierung zwei benachbarter Neuronengruppen liegt bei Synfire Chains im
Millisekundenbereich, während bei der Verarbeitung von Sätzen Verzögerungen von einigen Sekunden auftreten können, noch dazu von Fall zu Fall variabel. Kritisch ist auch die riesige Anzahl möglicher Wortfolgen und daher der
25
Abbildung 15. Kreuzende Synfire Chains zur phonologischen Repräsentation der
englischen Wörter bat“ und tab“
”
”
benötigten Synfire Chains. Im Falle von Phonemfolgen liegt die Anzahl der
möglichen Nachfolger zwischen 5 und 20, im Falle von Wort jedoch rund 104 .
Dies ließe sich Reduzierung durch die Einführung verschiedener Wortkategorien. In diesem Falle ist jedoch unklar, wie eine Synfire Chain die Auswahl
zwischen verschiedenen Wörtern einer Kategorie vornehmen könnte. Und wie
könnte ein solches System – egal ob auf der Ebene von Wörtern oder Wortkategorien – von bereits bekannten auf unbekannte Strukturen generalisieren?
Im Folgenden wird ein alternativer Ansatz vorgestellt, der kombiniert mit dem
Modell der Functional Webs diese Probleme überwinden könnte.
2.3.3 Neuronale Sequenzdetektoren
Kehren wir in Gedanken noch einmal zurück zu Abbildung 11A. Präsentation
des Beispielsatzes Betty get up“ führte zur Aktivierung der Kardinalzelle g.
”
Die Zellen d, e, f dienen hierbei lediglich der Verzögerung der Aktivität der
Input-Neurone a und b. Aus neurophysiologischer erscheint allerdings ein anderer Verzögerungsmechanismus wahrscheinlicher. Da die Reizleitung in einer
Nervenfaser nur mit begrenzter Geschwindigkeit erfolgt, könnte die Verzögerung allein durch unterschiedlich Längen der Verbindungsleitungen erfolgen.
Solche Verzögerungsstrecken konnten im Kleinhirn bereits nachgewiesen werden, die auch dort sicherstellen, dass zeitlich genau abgestimmte Sequenzen
26
Abbildung 16. A. Ein Phrasenstruktur-Baum zur syntaktischen Repräsentation des
Satzes He comes“. B. Word Webs und Sequenzdetektoren zur Repräsentation syn”
taktischer Abhängigkeiten
neuronaler Aktivität gleichzeitig an einer Kardinalzelle eintreffen und diese
erregen.
Dennoch kann auch diese Art von Sequenzdetektor so kaum als Grundlage zur
Sprachverarbeitung dienen. Die beobachteten Verzögerungen liegen im Bereich
von deutlich unter 1s, während im Fall von Sprache viele Sekunden zwischen
den einzelnen Bestandteilen verteilter Wörter liegen können – zudem können
die Verzögerungen von Fall zu Fall stark schwanken. Einen möglichen Ausweg bietet die Implementierung von Sequenzdetektoren als Funktional Webs
anstelle einzelner Kardinalzellen. Dieses Modell wird in Abschnitt 3 im Detail vorgestellt. An dieser Stelle sei nur noch als zusätzliche Motivation noch
angedeutet, welche Vorteile eine Grammatik basierend auf Sequenzdetektoren gegenüber formalen linguistischen Modellen wie etwa PhrasenstrukturGrammatiken bieten könnte. Ein in der Linguistik gängiger Ansatz zur Repräsentation syntaktischer Strukturen sind hierarchische Bäume mit syntaktischen Kategorien als inneren Knoten und den Wörtern oder Morphemen 10
eines Satzes als Blättern (siehe Abb. 16A). Ein Problem hierbei ist die Modellierung von bestimmten Abhängigkeiten zwischen verteilten Satzbestandteilen
wie etwa der Kongruenz zwischen Subjekt und Verb-Endung ( He“ und -s“
”
”
im abgebildeten Beispiel). Zur Prüfung der grammatikalischen Korrektheit eines Satzes müsste zusätzlich zum Aufbau eines syntaktisch korrekten Baumes
10
Morphem: kleinste bedeutungstragende Spracheinheit, z.B. ein Wortstamm oder
eine Verb-Endung
27
gemäß der Phrasenstrukturgrammatik noch derartige Abhängigkeiten in einem weiteren Arbeitsschritt überprüft werden. Dagegen kommt das Modell in
Abbildung 16B basierend auf Sequenzdetektoren mit einem einheitlichen Mechanismus aus. Die Detektoren sind nicht hierarchisch angeordnet: jeder für
sich erkennt ein Wort-/Morphempaar: Pronomen – Verb, Verb – Verb-Endung
sowie Pronomen – Verb-Endung. Speziell letzterer gibt Auskunft über die
Kongruenz zwischen Subjekt und Prädikat des Satzes. Zusammengenommen
vermittelt – so die Behauptung – der Aktivitätszustand zahlreicher solcher
paarweiser Sequenzdetektoren genügend Information über die Struktur eines
präsentierten Satzes, um seine Bedeutung erschließen zu können. Diese Behauptung zu Untermauern ist Sinn des folgenden Abschnitts.
3
Neuronale Grammatik
Bisher haben wir neuronale Ensembles und funktionelle Netze betrachtet. In
diesem Kapitel werden zwei neue Begriffe eingeführt.
(1) Neuronale Sets, die funktionelle Netze mit speziellen Eigenschaften sind.
(2) Sequenz Sets sind, neuronale Sets sind, die Sequenzen von Wörtern repräsentieren können.
3.1 Erregungszustände von funktionellen Netzen
Ein solches Netz agiert aufgrund der starken internen Verbindungen als eine
funktionelle Einheit, d.h. wenn ein angemessener Teil des Netzes durch einen
Input erregt wird, führt die Konnektivität dazu, dass alle bzw. ein Großteil der
Neuronen aktiviert werden. Diese volle Aktivität bezeichnet man mit Ignition.
Diverse Erschöpfungseffekte reduzieren danach kontinuierlich die Aktivität,
die jedoch nicht ganz ausstirbt. Der Rest der Aktivität, der nicht verloren geht,
wird Reverberation genannt. Im Gegensatz zur Ignition ist die Reverberation
ein lang anhaltender Prozess innerhalb des funktionellen Netzes, jedoch sind
bei weitem nicht so viele Neuronen aktiviert wie bei der Ignition. Zusätzlich
besteht die Möglichkeit, dass sich das Netz in einem inaktiven Ruhezustand
befindet.
Im Folgenden wird das neuronale Set eingeführt und erläutert weshalb es ein
Spezialfall dieses funktionellen Netzes ist, das drei Zustände besitzt: Ignition,
Reverberation und Ruhe.
28
3.2 Neuronale Sets
Ein neuronales Set zeichnet sich gegenüber einem funktionellen Netz durch
eine größere Variabilität der Zustände aus.
Aktivität eines neuronalen Sets kann sich in einer Menge solcher Sets über externe Verbindungen, die schwächer sind als interne Verbindungen, ausbreiten
und beeinflusst so benachbarte Sets. Um ein neuronales Set in den Zustand
der vollen Aktivität Ignition zu führen, ist immer ein externer Input notwendig. Eine solche Aktivierung wirkt sich dann auf andere Sets aus, die dann in
den Zustand des Primings geführt werden. Das Priming ist weitaus schwächer
als Ignition und Reverberation.
Über die Zeit verringert sich die Aktivität aller Zustände mit exponentieller
Geschwindigkeit:
A(Si , t) = A(Si , t0 ) ∗ e−c∆t ,
(5)
wobei t0 den Zeitpunkt der externen Aktivierung durch ein anderes Set bzw.
durch externen Input, ∆t den Abstand zwischen t0 und t, A(Si , t) die Aktivität
von Set Si zu Zeitpunkt t0 und c die Steigung des Abfallens der Aktivität
bezeichnet.
Inputs anderer Sets, die sich in den Zuständen Reverberation bzw. Priming befinden, wirken über verschiedene Verbindungen auf das neuronale Set. Es wird
angenommen, dass sich die Inputs der anderen im Set summieren. Insofern ist
die Aktivität von Si so zu beschreiben:
A(Si , t) =
X
A(Sj , t − 1),
(6)
j
wobei A(Sj , t − 1) die Menge der exzitatorischen Stimulation von Set Sj auf Si
zum Zeitpunkt t−1 bezeichnet. Die Stimulation erreicht Set Si zum Zeitpunkt
t.
Falls sich ein Netz bereits im Zustand Reverberation befindet verändert sich
die Gleichung nur um einen zusätzlichen Term:
A(Si , t) = A(Si , t0 ) ∗ e−c∆t +
X
A(Sj , t − 1)
(7)
j
Der Zustand der Ignition wird dann erreicht, wenn die zeitliche bzw. räumliche
Summation eine Schwelle θ übersteigt. Nach einer Ignition I wechselt der
Zustand im nächsten Zeitschritt zur Reverberation R1 , wobei R1 der stärkste
29
Reverberation Zustand ist. Durch den exponentiellen Abfall gibt es theoretisch
unendlich viele solche Reverberation Zustände. Kurz gefasst verändern sich die
Zustände folgendermaßen:
A(Si , t) > θ ⇒ A(Si , t + 1) = I ⇒ A(Si , t + 2) = R1
(8)
Ein neuronales Set kann sich in vier Zuständen befinden:
AS = {0, P, R, I},
(9)
wobei P und R eigentlich eine Menge von Zuständen bezeichnen. Aufgrund des
kontinuierlichen Abfalls der Aktivität kann es jeweils unendlich viele Zustände
R1 , R2 , ... und P1 , P2 , ... geben. Dies ist jedoch unwahrscheinlich in der Realität, weil das Signal-zu-Rausch Verhältnis die Anzahl beschränkt, weswegen
wir auch nur eine endliche Menge von Zuständen betrachten, die ihrer Stärke
nach sortiert sind, wobei R1 , P1 die stärksten Zustände bezeichnen. Weitere
Vereinfachungen sind, dass der zeitliche Abfall der Aktivität ignoriert wird
und die räumliche und zeitliche Summation der Aktivität vereinfacht wird.
3.3 Schwellwertkontrolle
Um das Aktivitätslevel in einem gewissen Rahmen zu halten muss eine Regulation der Schwellwert eingeführt werden. Es wird angenommen, dass ein
starker Anstieg der Aktivität detektiert werden muss und in Folge darauf der
Schwellwert angepasst wird. Die Realisierung ist eigentlich relativ einfach. Der
extremste Anstieg der Aktivität ist dann, wenn ein neuronales Set aus dem
Ruhezustand in den Zustand Ignition springt. Dies führt dann zu einer globalen Erhöhung des Schwellwerts. Diesen Anstieg der Aktivität mit folgender
ˆ Die Ignition ohne
Schwellwertkontrolle 11 bezeichnen wir mit dem Symbol I.
darauf folgende Korrektur wird wie bisher mit I bezeichnet. I tritt dann auf,
wenn ein Set aktiviert wird, das sich zuvor schon in einem Zustand der Reverberation bzw. Priming befand. Die globale Inhibition der Aktivität durch die
Schwellwertregulierung wird so realisiert, dass alle Sets, die sich in Rn bzw.
Pn befinden, in die Zustände Rn+1 bzw. Pn+1 herabgestuft werden.
11
Threshold control
30
Abbildung 17. Detektor für die Sequenz alpha – beta
3.4 Sequenzdetektion in Netzwerken von neuronalen Sets
An dieser Stelle genügt es zu sagen, dass es einen Mechanismus gibt, der zur
Detektion von Sequenzen oder seriellen Reihenfolgen 12 herangezogen werden
kann. Dieser Mechanismus könnte beispielsweise über Verbindungen, die in nur
einer Richtung verlaufen, implementiert werden. Da dies jedoch unrealistisch
ist und in der Natur nicht so vorkommt, wird im Folgenden von bidirektionalen
Verbindungen ausgegangen, die jedoch asymmetrisch sind, d.h. es gibt in eine
Richtung sehr starke und in die andere Richtung eher schwache Verbindungen
zwischen zwei neuronalen Sets. Eine Unterscheidung zwischen ’starken’ und
’schwachen’ Verbindungen ist selbstverständlich eine weitere Vereinfachung
des realen Modells. Die stärkeren Verbindungen werden in die Richtung des
üblichen Flusses angenommen, d.h. Sets, die Wörter die oft vor gewissen anderen gesprochen werden, repräsentieren, haben starke Verbindungen zu einem
Sequenz-Set und dieses wiederum zu den Sets, die häufig danach gesprochene
Wörter repräsentieren. Abbildung 17 zeigt ein Netz, das α vor β akzeptiert:
Solche starken Verbindungen, wie zwischen α und γ, ließen sich beispielsweise
durch Hebb’sches-Lernen trainiert, da durch eine solche Regel Synapsen dann
verstärkt werden, wenn sowohl prä- als auch postsynaptische Aktivität vorhanden ist. Im Folgenden wird genauer auf ein Beispiel eines Netzwerks aus
neuronalen Sets eingegangen und erläutert, warum das Netz nur dann einen
String akzeptiert, wenn dieser in der korrekten Weise präsentiert wird.
3.5 Sequenzerkennung
Es wird im Folgenden angenommen, dass jedes Wort bzw. Morphem im Input
sein Wortnetz 13 bzw. neuronales Set aktiviert und als Konsequenz das Set
in den Zustand Ignition bringt und daraufhin in den Zustand Reverberation.
Reverberation wiederum bringt andere Sets über starke Verbindungen in den
12
13
Serial order
Word web
31
Zustand Priming. Ignition aktiviert auch über schwache Verbindungen sich
im Ruhezustand befindliche Sets und bringt sie in den Zustand Priming. Ein
Sequenz-Set wird nur dann in den Zustand Ignition geführt, wenn es von einer
Ignition eines anderen Sets aktiviert wird und sich zuvor schon in Reverberation bzw. Priming befand. Nun folgt die konkrete Abfolge einer Sequenz (Es
wird angenommen, dass die Sequenz AB ein korrekter Satz ist.):
(1) Das Wort A aktiviert die Inputeinheit α.
(2) Da α im Ruhezustand war, erfolgt eine volle Aktivierung Iˆ und die
Schwellwertregulierung wird aktiviert. Diese hat jedoch keinen weiteren
Einfluss, da sich kein Set in einem aktivierten Zustand befand außer α.
(3) α aktiviert und ’primet’ das verbundene Sequenz-Set γ. γ wird jedoch
nicht vollständig aktiviert, da es sich nicht in Priming oder Reverberation
befand.
(4) α ändert seinen Zustand in R1 und ’primet’ so konstant γ über die starke
Verbindung zwischen den beiden. Da es auch starke Verbindungen von γ
zu β gibt, wird auch β von γ ’geprimet’.
(5) Nun erscheint B als Input und β wird vollständig aktiviert und verändert
seinen Zustand in I, da β zuvor schon im Zustand Priming war.
(6) β aktiviert nun mit I den Sequenzdetektor γ, welcher sich nun auch in I
befindet.
(7) Schlussendlich aktiviert auch γ noch einmal α, was zum Akzeptieren des
Satzes führt. Daraufhin ruhen alle Sets wieder.
Damit man nicht glaubt, dass das auch bei einem grammatikalisch falschem
Satz passiert, wird der Input in BA geändert:
(1) Der Input B führt zu Ignition Iˆ von β. Die Schwellwertregulierung hat
keinen Effekt.
(2) Die Ignition Iˆ von β führt zu einem kurzen Priming in γ. Dieses Priming schwindet jedoch schnell wieder, da nur eine schwache Verbindung
zwischen β und γ besteht.
(3) β befindet sich in R1 und sowohl α als auch γ sind im Ruhezustand.
(4) Es folgt nun A im Input und führt zu Iˆ in α.
(5) Die Schwellwertregulierung verringert nun die Aktivierung von β zu R2 .
(6) Am Ende der Sequenz befinden sich also alle Sets in unterschiedlichen
Zuständen: β in R2 , γ in P1 und α in R1 . Insofern wird die Sequenz BA
nicht akzeptiert.
Zusammenfassend sind drei Dinge notwendig, damit ein String akzeptiert wird:
(1) Synchronization - Eine sich durch das Netz fortpflanzende Welle der Ignition ’synchronisiert’ alle beteiligten Sets.
(2) Satisfaction - Die Sequenz-Sets, die direkt mit Inputeinheiten verbunden
sind befinden sich in R1 .
32
(3) Visibility - Die Inputeinheiten befinden sich in R1 und sind somit ’sichtbar’.
3.6 Lexikale Kategorien in neuronalen Sets
Im ersten Kapitel haben wir lexikale Kategorien eingeführt um gewisse Abhängigkeiten korrekt zu repräsentieren und um feiner unterscheiden zu können. Ist
dies nun wieder notwendig in Bezug auf das Modell mit neuronalen Sets? Im
folgenden Abschnitt wird dies diskutiert.
3.6.1 Warum lexikale Kategorien?
Nehmen wir nun das Beispielwort aus Kapitel (1) wieder auf: ’switch’ bzw.
’switch ... on’. Der Inputdetektor für den Wortstamm ’switch’ ist wie gehabt
ein neuronales Set, das reagiert, falls das Wort ’switch’ im Input erscheint. Man
bräuchte danach jedoch unterschiedliche Sequenz-Sets, die auf unterschiedliche
nachfolgende Wörter reagieren. In diesem Beispiel gibt es z.B. einen für das
Wort ’switch’ als Nomen, welches ein Verb erwartet oder für das Wort ’switch’
als transitives Verb, das ein Nomen im Akkusativ erwartet oder auch für das
Wort ’switch ... on’, das zuerst ein Nomen im Akkusativ und dann später den
Partikel ’on’ erwartet. Man sieht also, dass es viele Verzweigungen gibt. Wenn
man das für jedes mögliche Wortpaar oder für jede mögliche Wortsequenz
machen würde wäre die Zahl der Sequenz-Sets astronomisch groß. Ein Weg,
dieser Tatsache auszuweichen wäre, Wörter, so wie schon bei den formalen
Grammatiken vorgeschlagen, in lexikale Kategorien einzuteilen. Wenn man die
Wörter in etwa 100 lexikale Kategorien einteilt, wie z.B. Nomen im Nominativ,
Akkusativ oder Dativ und Verben in transitive, intransitive etc., würde man
die Zahl der nötigen Sequenz-Sets drastisch senken.
3.6.2 Lexikale Kategorien als Mengen von Sequenz-Sets
Wie schon weiter oben beschrieben, wird ein Sequenzmerkmal dadurch repräsentiert, dass ein Sequenz-Set zuerst im Zustand Ignition ist und dann im
Zustand Reverberation verweilt und so die Information über die aufgetretene
Sequenz speichert. Eine lexikale Kategorie kann nun als eine Vereinigung von
mehreren Sequenz-Sets gesehen werden. Zwei Beispiele hierfür wären:
(1) Ein Nomen im Nominativ würde mittels zwei Sequenz-Sets repräsentiert
werden. Das erste erkennt, dass ein Artikel vor dem aktuellen Wort erschien und das zweite, dass ein Verb dem aktuellen Wort folgt.
(2) Ein Nomen im Akkusativ würde ebenfalls zwei Sequenz-Sets benötigen.
Das erste steht für ein voranstehendes transitives Verb und das zweite
33
Tabelle 1
Ungefähre Anzahl und Größenordnung der neuronalen Sets zur Sprachverarbeitung
Lingusitisch
Sets
Neuronen
Wort/Morphem
1 Inputeinheit
105 Neuronen
Sequenzmerkmale
1 Sequenz-Set
105 Neuronen
Lexikale Kategorie
< 10 Sequenz-Sets
< 106 Neuronen
Vokabular
105 Inputeinheiten
1010 Neuronen
103 Sequenz-Sets
108 Neuronen
Grammatik
107 Verbindungen zwischen den Sets
für einen voranstehenden Artikel.
Hierbei ist wichtig zu unterscheiden, dass es Sequenz-Sets gibt, die in die ’Zukunft blicken’ und welche, die sich die ’Vergangenheit merken’. Diese SequenzSets können direkt aus den Regeln der Abhängigkeitsgrammatiken abgelesen
werden.
3.6.3 Lexikale Unterscheidungen durch Sequenz-Sets
Um Wörter, wie ’switch’, eindeutig zu einer lexikalen Kategorie zuordnen zu
können, ist noch ein zusätzlicher Mechanismus notwendig, der die anderen
Zuordnungsmöglichkeiten unterdrückt. Es muss gewährleistet werden, dass das
wahrscheinlichste Set, die anderen hemmt und so eine Art ’the-winner-takes-itall’ Selektion entsteht. Dieser Mechanismus könnte beispielsweise so realisiert
werden, dass erkannt wird, wessen Sequenzmerkmale vollständig erfüllt werden
und so kann entschieden werden, welches Set gewonnen hat gegenüber denen,
die nicht alle Merkmale erfüllen. Falls die letzten nötigen Sequenz-Sets zweier
lexikalen Kategorien gleichzeitig im Zustand Ignition sind, ist die Kategorie,
die die meisten aktiven Sets besitzt, der Sieger.
3.6.4 Anforderungen an eine neuronale ’Grammar Machine’
In diesem Abschnitt geht es darum mathematisch abzuschätzen, wie viele
Sets bzw. Neuronen notwendig sind, um eine Grammatik zu repräsentieren.
Wie ein vorhergehender Abschnitt zeigte, kann man die Abhängigkeitsgrammatiken dazu benutzen, für ein Wort die Anzahl der benötigten Sequenz-Sets
abzuschätzen. In einer Grammatik, wie sie im Englischen üblich ist, ist es nahezu unmöglich Wörter zu finden, die mehr als fünf abhängige Wörter besitzen.
Man kann nun ein mehrdeutiges Wort mit fünf möglichen Bedeutungen und
jeweils fünf abhängigen Wörtern als Extremfall für eine Abschätzung annehmen. In diesem Fall würde die Inputeinheit 25 Verbindungen zu Sequenz-Sets
34
benötigen. Nun kann man ein Vokabular von ca. 100000 Wörtern annehmen,
die durchschnittlich in zwei der 100 lexikalen Kategorien stehen und jeweils
fünf Sequenzmerkmale besitzen. Nun wird für jedes Wort ein neuronales Set
benötigt. Um jede der lexikalen Kategorien zu repräsentieren, benötigt man
jeweils fünf Sequenz-Sets, also 500. Man benötigt also nur 500 Sequenzdetektoren um eine solche Grammatik repräsentieren zu können. Man sieht also,
dass die Repräsentation der 100000 Wörter weitaus aufwändiger ist als die
Repräsentation der Sequenzen. Wenn man nun noch etwa 100000 Neuronen
für jedes Set veranschlagt, ergibt das eine maximale Gesamtzahl von 1010
Neuronen, die das Vokabular repräsentieren. Eine ’feinere’ Grammatik, die
mehrere lexikale Kategorien repräsentiert, schlägt also gar nicht so stark ins
Gewicht, da auch bei 1000 Kategorien nur 5000 Sequenz-Sets benötigt werden. Man sieht also, dass es entscheidend darauf ankommt, wie viele Wörter
repräsentiert werden sollen.
Literatur
[1] Pulvermüller, P. (2002). The Neuroscience of Language. Cambridge University
Press, Cambridge
[2] Chomsky, N. (1963). Formal properties of grammars.
[3] Bach, E., C. Brown, W. Marslen-Wilson (1986). Crossed and nested
deoendencies in German und Dutch; a psycholinguistic study. Language and
Cognitive Processes, 1, 249–262.
[4] Petri, C. (1970). Kommunikation mit Automaten. Dessertation: Universität
Bonn.
[5] Dayan, P., L. P. Abbot (2001). Theoretical Neuroscience. MIT Press,
Cambridge, MA
[6] Rojas, R. (1993). Theorie der neuronalen Netze. Springer Verlag, Berlin
[7] McLeod, P., K. Plunkett, E. T. Rolls (1998). Introduction to Connectionist
Modelling of Cognitive Processes. Oxford University Press, New York
[8] Penrose, R. (1991). Computerdenken. Spektrum Verlag, Heidelberg
[9] Silbernagel, S., A. Depopoulos (2001). Taschenatlas der Physiologie. Thieme
Verlag, Stuttgart
[10] Schmidt, F., G. Thews, F. Lang (1997). Physiologie des Menschen. Springer
Verlag, Berlin
[11] Gaı̈arsa, J.-L. (2004). Plasticity of GABAergic synapses in the neonatal rat
hippocampus. J. Cell. Mol. Med. 8(1): 31-37
[12] Miyashita, Y., H. S. Chang (1988). Neural correlate of pictorial short-term
memory in the primate temporal cortey. Nature 331: 307-311
35
Herunterladen