Neuronal Grammar Phillipp Hehrmann [email protected] Stefan Scherer [email protected] Fakultät für Informatik Universität Ulm Zusammenfassung Es wird ein neurowissenschaftlich motiviertes Modell der menschlichen Sprachverarbeitung vorgestellt. Functional Webs, speziell organisierte Verbünde von Neuronen, werden als grundlegende funktionale Einheit der Informationsrepräsentation und -verarbeitung im Gehirn vorgestellt. Aus verschiedenen, spezialisierten Formen von Functional Webs wie etwa Word Webs zu Repräsentation von Worten oder Sequence Sets zur Erkennung von Wortfolgen wird schließlich ein Modell zusammengesetzt, welches – abseits der Pfade gängiger, linguistischer Syntax-Theorien – das Verständnis komplexer grammatikalischer Abhängigkeiten ermöglichen könnte. 8. Februar 2005 Inhaltsverzeichnis 1 Grundlegende Syntax 4 1.1 Ersetzungsregeln 4 1.2 Zentrale Einbettung 5 1.3 Diskontinuierliche Satzbestandteile und verteilte Wörter 6 1.4 Abhängigkeitsgrammatiken 7 1.5 Fragen zu einer neuronalen Grammatik 8 2 Grundlagen zur Sprachverarbeitung im Gehirn 8 2.1 Modellierung von Nervenzellen 9 2.1.1 Natürliche Neurone 9 2.1.2 Künstliche Neuronenmodelle 2.2 2.3 11 Worte im Gehirn 13 2.2.1 Die Topologie des Kortex 13 2.2.2 Functional Webs 16 2.2.3 Word Webs 19 Neuronale Mechanismen zur Repräsentation serieller Ordnung 21 2.3.1 Grundsätzliche Überlegungen anhand künstlicher Neurone 21 2.3.2 Synfire Chains 24 2.3.3 Neuronale Sequenzdetektoren 26 3 Neuronale Grammatik 28 3.1 Erregungszustände von funktionellen Netzen 28 3.2 Neuronale Sets 29 3.3 Schwellwertkontrolle 30 3.4 Sequenzdetektion in Netzwerken von neuronalen Sets 31 3.5 Sequenzerkennung 31 2 3.6 Lexikale Kategorien in neuronalen Sets 33 3.6.1 Warum lexikale Kategorien? 33 3.6.2 Lexikale Kategorien als Mengen von Sequenz-Sets 33 3.6.3 Lexikale Unterscheidungen durch Sequenz-Sets 34 3.6.4 Anforderungen an eine neuronale ’Grammar Machine’ 34 Literatur 35 3 1 Grundlegende Syntax In diesem Kapitel wird dargestellt, wie man Sprache auf formale Weise definieren kann. Es werden die so genannten Phrasenstruktur-Grammatiken 1 und die Abhängigkeitsgrammatiken behandelt. Außerdem geht dieses Kapitel darauf ein, welche Beschränkungen es bezüglich Sprachen bei neuronalen Netzen gibt und was neuronale Netze bieten, was formalen Grammatiken fehlt. 1.1 Ersetzungsregeln Eine einfache Methode um eine formale Syntax zu definieren sind die Ersetzungsregeln 2 . Eine Ersetzungsregel ist eine Formel, die ausdrückt, dass etwas ersetzt werden kann durch etwas anderes. Eine Menge solcher Regeln wird auch als Phrasenstruktur-Grammatik bezeichnet, wenn auf der linken Seite des Pfeils immer nur ein Symbol und auf der rechten beliebig viele stehen, wird diese Grammatik auch als kontextfreie Grammatik bezeichnet. Der Pfeil x → y kann so gelesen werden: x wird ersetzt durch y, was auch den Namen der Regeln erläutert. Eine Menge solcher Regeln wird nun als Grammatik bezeichnet. Diese Grammatik hat die Einschränkung, dass sie die Bedeutung von Wörtern völlig außer Acht lässt und nur auf die Syntax achtet. Nun folgt ein Beispiel einer solchen Grammatik. In diesem Beispiel werden einige Abkürzungen bzw. Symbole benutzt, die für gewisse syntaktische Kategorien stehen. S bezeichnet das Startsymbol, NP die Nominalphrase, VP die Verbalphrase, Det ist der Artikel und V das Verb. Ausdrücke in runden Klammern sind nicht obligatorisch und Ausdrücke in geschweiften Klammern sind dann die eigentlichen Wörter im Satz. (1) (2) (3) (4) (5) (6) S → NP VP NP → (Det) N N → V (NP) N → {Betty, machine} V → {laughs, cleans, switches} Det → {the, a} Mit dieser kleinen Grammatik können sowohl sinnvolle als auch unsinnige Sätze gebildet werden, die aber vom syntaktischen Aspekt betrachtet durchaus richtig sind: (1) Betty cleans the machine. (2) The Betty laughs machine. 1 2 Phrase structure grammars Rewriting rules 4 Zu diesem Zeitpunkt könnte man sich eigentlich fragen, ob ein neuronales Netz, das eine neuronale Grammatik 3 beinhaltet, nicht gleichermaßen wie eine solche Phrasenstruktur-Grammatik fähig ist, dieses Problem zu lösen. Das folgende Teilkapitel wird jedoch zeigen, dass dem nicht so ist. 1.2 Zentrale Einbettung Der Vorteil, den kontextfreie Grammatiken besitzen, ist, dass die Regeln rekursiv anwendbar sind und so Sätze gebildet werden können, die syntaktisch korrekt und sehr komplex sind. Es wurde bewiesen[2], dass neuronale Netze äquivalent zu regulären Grammatiken sind, die jedoch nicht so mächtig sind wie kontextfreie. Kontextfreie Grammatiken ermöglichen es Sätze zu bilden, in denen andere Sätze eingebettet sind. Diese Einbettung von Sätzen wird auch zentrale Einbettung 4 genannt. Nun folgen zwei Beispiele solcher Sätze 5 : (1) The rat (the cat (the dog chased) killed) ate the malt. (2) Anyone (1 who feels (2 that (3 if so many more students (4 whom we haven’t actually admitted )4 are sitting in on the course (4 than ones we have )4 (4 that the room had to be changed )4 )3 then probably auditors will have to be excluded )2 )1 is likely to agree that the curriculum needs revision. Was diese Beispiele jedoch auch zeigen, dass es wahrscheinlich gar nicht nötig ist, dass man unendlich komplexes bzw. tiefes zentrales Einbetten von Sätzen in einer neuronalen Grammatik ermöglichen muss, um Sprache sinnvoll verstehen zu können, da das menschliche Gehirn es auch nicht ohne Hilfe und langes Nachdenken schafft, vor allem den zweiten Beispielsatz zu verstehen. Es scheint also irgendwo eine Art Grenze der verständlichen Komplexität zu geben. Diese Grenze wurde von einigen Wissenschaftlern bei drei eingebetteten Sätzen festgelegt[3]. Um einen Satz wie den ersten Beispielsatz sprechen zu können, ist es nötig im Speicher bzw. im Gehirn die Information des bereits Gesprochenen zu behalten und zwar Reihenfolge und fehlende Teile. Kontextfreie Grammatiken sind dazu in der Lage, da bewiesen wurde, dass sie äquivalent zu einem Kellerautomaten, der unendlich viel Speicherplatz besitzt, sind. Dieser Automat funktioniert nach dem first-in last-out Prinzip und speichert so ein ’Spiegelbild’ des bereits Gesprochenen. Der Satz ist dann fertig, wenn der Speicher wieder leer ist. 3 Neuronal grammar Center embedding 5 Die Klammern wurden zur Verdeutlichung des Einbettens und zur Vereinfachung des Verständnisses eingefügt 4 5 Da es in vielen Sprachen vorkommt, dass zentral eingebettete Sätze benutzt werden, muss man neuronale Netze anpassen und verändern, um dieser Begebenheit gerecht zu werden. Eine Möglichkeit, die Tatsache, dass ein neuronales Netz mit endlich vielen Neuronen nur endlich viele Zustände besitzt zu umgehen, wäre z.B. ein Wachstum des Netzes zu erlauben[4]. Dieses Wachstum ist jedoch nicht unbedingt sehr realistisch, wenn man interne Prozesse des Gehirns beschreiben will, da ein unendliches Wachstum des Gehirns alleine durch den Schädelknochen beschränkt ist. Wie schon gesagt, ist dies aber auch nicht unbedingt nötig, da Sprache nur bis zu einer gewissen Komplexität verständlich ist. 1.3 Diskontinuierliche Satzbestandteile und verteilte Wörter Die vorher definierte Grammatik besteht aus sechs Ersetzungsregeln, die alle nicht eine relativ häufig auftretende grammatikalische Besonderheit beschreiben. Diese Besonderheit wird auch ein verteiltes Wort 6 genannt. ’Betty switches the machine on.’ ist ein Beispiel für dies. Es müsste mindestens eine Regel verändert werden um dem verteilten Wort ’switches ... on’ gerecht zu werden. (1) VP → V (NP) (on) Diskontinuierliche Satzbestandteile 7 sind ein Überbegriff für solche verteilten Wörter, die grammatikalisch gesehen eng miteinander verbunden sind, jedoch in geschriebener Sprache durch den Raum bzw. in gesprochener Sprache durch die Zeit getrennt sind. Die Problematik besteht darin, dass dieser Abstand unterschiedlich lange sein kann, wie folgende Beispiele zeigen: (1) Betty switched it on. (2) Betty switched the coffee machine on. (3) Betty switched the nice brown coffee machine on. Um nun solche Sätze produzieren bzw. verstehen zu können, muss man Informationen über die vorherigen Wörter speichern und das über einen unbestimmten Zeitraum. Eine weitere Schwierigkeit besteht darin, dass Wörter wie ’switch’ und ’switch ... on’ zwar den selben Wortstamm teilen jedoch eine völlig unterschiedliche Bedeutung besitzen, d.h. also, dass die Bedeutung des Wortes möglicherweise erst am Ende des Satzes eindeutig bestimmt werden kann. Eine Grammatik wie: 6 7 Distributed word Discontinuous constituents 6 (1) (2) (3) (4) a→Ab b → switches c c→Bd d → C (on), ermöglicht es zwar, das verteilte Wort ’switches ... on’ zu schreiben, ist jedoch nicht korrekt im eigentlichen Sinne, da in (2) schon entschieden werden muss, welches der beiden wortstammgleichen Wörter gewählt wird. Um dies zu lösen, wurde vorgeschlagen die Wörter genauer zu unterscheiden und mehr lexikale Untergruppen zu benutzen, wie z.B. ’switch ... on’ in die Gruppe der transitiven Verben mit Partikel zu stecken und das Wort ’switch’ in die Gruppe der transitiven Verben ohne Partikel. Eine Grammatik, die das berücksichtigt wäre z.B.: (1) (2) (3) (4) (5) (6) b → switches1 c1 c1 → B d1 d1 → C on b → switches2 c2 c2 → B d2 d2 → C Hierbei wird sichergestellt, dass falls ’switches1 ’ gewählt wird, der Partikel ’on’ am Ende gesetzt werden muss. Ein Nachteil dieser Lösung für das Problem der diskontinuierlichen Satzbestandteile ist jedoch die höhere Komplexität der Grammatik: Wenn angenommen wird, dass die Zahl der diskontinuierlichen Satzbestandteile n ist, dann würde die Zahl der Ersetzungsregeln mit 2n erhöht werden. 1.4 Abhängigkeitsgrammatiken Ein anderer Ansatz, um Grammatiken zu beschreiben, ist, Wörter in ihre lexikalen Kategorien einzuteilen und sie in Abhängigkeiten zu ihren Komplementen - die notwendigen Zusätze für diese Wörter - zu stellen. Solche Abhängigkeitsgrammatiken 8 können mit Abhängigkeitsregeln beschrieben werden, deren Notation folgendermaßen erfolgt: Auf der linken Seite einer runden Klammer steht die Kategorie des Wortes, das gerade behandelt wird. In den Klammern befindet sich ein Stern-Symbol /*/, welches den Platz des aktuellen Wortes besetzt. Links davon stehen eine bzw. mehrere abhängige lexikale Kategorien, die im Satz zeitlich bzw. räumlich vor dem aktuellen Wort stehen und analog hierzu stehen auf der rechten Seite eine bzw. mehrere lexikale Kategorien, die danach auftreten. Eine Beispielgrammatik wäre nun: 8 Dependency grammars 7 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) V14par (N1 /*/ N4 Par) V14 (N1 /*/ N4) V1 (N1 /*/) N1 ((Det) /*/) N4 ((Det) /*/) V14par {switches} V14 {cleans} V1 {laughs} V14par {Betty, machine} Par {on}, wobei V14par ein transitives Verb mit Partikel, V14 ein transitives Verb, V1 ein intransitives Verb, N1 ein Nomen im Nominativ, N4 ein Nomen im Akkusativ und Par einen Partikel bezeichnen. Beispielsätze, die mit dieser Grammatik gebildet werden können, sind: (1) Betty cleans the machine. V14 (N1 /*/ N4 (Det /*/)) (2) Betty switched the machine on. V14par (N1 /*/ N4 (Det /*/) Par) 1.5 Fragen zu einer neuronalen Grammatik Nachdem nun gezeigt wurde, wie man mit formalen Grammatiken diverse Begebenheiten verschiedener Sprachen lösen kann stellen sich nun einige sehr bedeutende Fragen zu neuronalen Grammatiken: (1) Wie lässt sich die zentrale Einbettung realisieren bzw. wie kann kann man solche Sätze repräsentieren? (2) Wie können diskontinuierliche Satzbestandteile bzw. verteilte Wörter realisiert werden? (3) Wie kann der wiederholte Gebrauch ein und desselben Wortes in einem Satz gespeichert werden? (4) Wie können lexikale Kategorien repräsentiert werden? Zu all diesen Fragen versuchen wir in den folgenden Kapiteln Antworten bzw. Lösungsvorschläge zu finden. 2 Grundlagen zur Sprachverarbeitung im Gehirn In diesem Abschnitt werden – ausgehend von neurophysiologischen Beobachtungen – mögliche Modelle zur Repräsentation und Verarbeitung von Infor8 mationen und Strukturen vorgestellt, wie beim Verständnis und bei der Produktion natürlicher Sprache auftreten. Zunächst wird ein vereinfachtes Neuronenmodell vorgestellt, das die Grundlage aller weiteren Überlegungen bildet. Im zweiten Abschnitt wird diskutiert, wie Wörter und ihre Semantik im Gehirn repräsentiert werden könnten. Zuletzt werden wir einige Mechanismen betrachten, die darauf aufbauend das Verständnis grammatikalischer Strukturen ermöglichen. Der Schwerpunkt liegt auf einer konzeptuellen Darstellung, die die Entwicklung eines konkreten Modells in Abschnitt 3 vorbereiten und als dessen biologische Rechtfertigung dienen soll. 2.1 Modellierung von Nervenzellen 2.1.1 Natürliche Neurone Hauptinformationsträger und -prozessor des menschlichen Gehirns sind Neurone – grob geschätzt 1011 dieser hochspezialisierten Zellen beinhaltet unser Zentralnervensystem. Zwar finden sich in unserem Nervensystem daneben auch noch andere Zelltypen wie etwa Glia-Zellen (Astrozyten, Schwann’sche Zellen u.a.). Jedoch dienen diese heutigem Wissen nach vor allem der Aufrechterhaltung des Stoffwechselhaushalts sowie als mechanisches Stützgerüst der informationsverarbeitenden Nervenzellen. A. B. Abbildung 1. A. Schematische Darstellung eines Neurons (nach [8]). B. Synaptische Kontakte (aus [6]) 9 Spezialisiert sind Neurone hinsichtlich der Erzeugung und Übertragung elektrischer Impulse in Reaktion auf elektrochemische Reize aus ihrer Umgebung. Abbildung 1 zeigt vereinfacht die Anatomie einer solchen Zelle. Zur Aufnahme externer Reize dienen dem Neuron die Dendriten, ein oftmals baumartig verzweigter Zellauswuchs bestehend aus Nervenfasern. Die Erzeugung eines eigenen Reizimpulses (Aktionspotenzials) erfolgt – unter bestimmten Bedingungen, s.u. – am Axonhügel, dem Übergang zwischen Zellkörper (Soma) und Axon. Das Axon ist ein weiterer, faserartiger Auswuchs der Zelle, welcher der Übertragung der am Axonhügel erzeugten Aktionspotenziale an andere Neurone dient. Die Impulsleitung erfolgt je nach Zelltyp mit Geschwindigkeiten zwischen 1 und 100 m/s. Auch das Axon ist oftmals stark verzweigt. Am Ende eines jeden Astes befindet sich eine Kontaktstelle zu einer dendritischen Faser eines weiteren Neurons. An diesen sog. Synapsen können elektrische Impulse von Zelle zu Zelle übertragen werden: bei Eintreffen eines präsynaptischen (axonalen) Impulses werden chemische Botenstoffe – sog. Neurotransmitter – freigesetzt. Durch spezifische Rezeptoren kann die postsynaptischen Zelle nun auf den Impuls reagieren. Das Eintreffen eines chemischen Reizes beeinflusst die Wahrscheinlichkeit, mit der am postsynaptischen Dendrit wiederum ein elektrischer Impuls erzeugt wird, der dann entlang der dendritische Faser bis zum Zellkörper der postsynaptische Zelle wandert. Erhöhen die Impulse an einer Synapse die Wahrscheinlichkeit einer postsynaptischen Impulserzeugung, so nennt man die Synapse erregend oder exzitatorisch. Verringert sie hingegen die Wahrscheinlichkeit, so spricht man von einer hemmenden oder auch inhibitorischen Synapse. Die Bedingung für die Erzeugung eines Impulses am Axonhügel schließlich ist das gleichzeitige Eintreffen ausreichend vieler Impulse aus den Dendriten der Zelle. Wird hierbei eine bestimmt Schwelle überschritten, so feuert die Zelle und der Impuls wandert entlang des Axons zu den Dendriten weiterer Zellen und so weiter und so fort. Soweit ist das Funktionsprinzip einer einzelnen Nervenzelle – trotz aller hässlichen, biochemischen Details, versteht sich – vergleichsweise einfach. Die große Leistungsfähigkeit unseres Nervensystems entsteht aus dem hohen Vernetzungsgrad der Neurone untereinander: jede der 1011 Zellen steht mittels synaptischer Verbindungen in Kontakt mit durchschnittlich 1.000–10.000 weiteren Zellen. Dabei entstehen zahllose Rückkopplungsschleifen, fernerhin sind die Einflussstärken der Zellen aufeinander variabel. Eine zentrale Frage ist daher die nach den Mechanismen neuronaler Plastizität, d.h. nach welchen Regeln sich die Verbindungsstärken zwischen einzelnen Neuronen im Laufe der Zeit verändern. Obwohl die Details dieser Vorgänge auch heute noch teilweise unklar sind, so scheint sich doch die frühe Hypothese des amerikanischen Psychologen Donald Hebb prinzipiell bestätigt zu haben: Wenn ein Axon der Zelle A einer Zelle B nahe genug ist, diese zu erregen und sich wiederholt und dauerhaft an deren Impulserzeugung beteiligt, so geschieht ein Wachstumsprozess oder eine metabolische Veränderung in ei10 ner oder beiden Zellen, wodurch sich die Effizienz von A bezüglich ihrer Wirkung auf B erhöht. D. Hebb, 1949 Besteht also eine hohe, positive Korrelation zwischen der Aktivität von Zelle A und Zelle B, so wird die Verbindung der beiden langfristig Verstärkt. Dieser Prozess wird auch als long-term potentiation, kurz: LTP, bezeichnet. Darüber hinaus hat man durch Zellstimulationsexperimente auch noch einen gegenteiligen Prozess festgestellt: besteht keine oder nur geringe Korrelation zwischen der Aktivität von A und B, so nimmt die Verbindungsstärke ab. Man spricht hierbei analog von LTD, long-term depression, oder auch anti-Hebb´schem Lernen. Da die Feuerfrequenz einer Zelle nie negativ ist, gilt die Hebb‘sche Regel in dieser Formulierung allerdings höchstens für erregende Synapsen. Zwar ließe sich die Regel problemlos für hemmende Synapsen umformulieren. Die Faktenlage ist jedoch in diesem Fall spärlicher und weit weniger eindeutig([11]), so dass eine solche Behauptung aus neurophysiologischer Sicht noch nicht ausreichend gestützt wäre. 2.1.2 Künstliche Neuronenmodelle Bei näherer Betrachtung liegen der neuronalen Reizleitung – im vorigen Abschnitt weitestgehend übergangen – komplexe bio- und elektrochemische Prozesse zu Grunde. Zwar sind biologisch realistische mathematische Beschreibungen dieser Prozesse bekannt. Will man aber das Verhalten eines Neurons auf diese Weise simulieren, so kommt man nicht umhin, ein verschachteltes System von Differentialgleichungen zu berechnen – der Rechenaufwand überschreitet bei wachsender Anzahl zu simulierender Neurone schnell die Grenzen des Machbaren. Daher sind vereinfachte Modelle notwendig, die die Simulation einer großen Anzahl von Neuronen erlauben. Das älteste dieser abstrakten Neuronenmodelle ist die McCulloch-Pitts-Zelle. Eine solche Zelle hat n binäre Eingangsleitungen x = x1 . . . xn (entsprechend den Dendriten) sowie einen ebenfalls binären Ausgang (analog zum Axon), dessen Wert sich als Funktion f (x) der Eingänge berechnet. Des weiteren ist jeder Eingang mit +1 oder −1 gewichtet (entsprechend erregenden und hemmenden Synapsen), zusammengefasst als bipolarer Gewichtsvektor w = w1 . . . wn . Zur Berechnung der Ausgabe werden die gewichteten Eingangssignale summiert. Überschreitet die Summe einen bestimmten Schwellwert θ ∈ R, so ist die Ausgabe 1, andernfalls 0. Es ist also f (x) = 1, 0, falls Pn i=1 w i xi ≥ θ sonst 11 (1) Abbildung 2 zeigt beispielhaft McCulloch-Pitts-Zellen für die booleschen Funktionen UND, ODER und NICHT. Offenbar kann man diese genau wie herkömmliche logische Gatter parallel und in Reihe schalten und so jede beliebige boolesche Funktion berechnen – auch wenn ein einzelnes Neuron nur linear trennbare Funktionen berechnen kann. Lässt man – im Gegensatz zu reinen Abbildung 2. UND, ODER und NICHT Neurone Feed-Forward-Architekturen – Rückkopplungsschleifen zu, so existiert zu jeder regulären Sprache ein McCulloch-Pitts-Netz, welches diese erkennt. Genauer gesagt sind McCulloch-Pitts-Netze (mit endlicher Neuronenzahl) und endliche Automaten als Berechenbarkeitsmodell genau gleich mächtig. Die Mächtigkeit des McCulloch–Pitts–Modells ändert sich auch dann nicht, wenn man als Gewichte wi anstelle von ±1 beliebige reelle Zahlen zulässt. Abbildung 3 demonstriert, wie sich ein Neuron mit reellwertigen Gewichten in ein äquivalentes Neuron mit bipolaren Gewichten umwandeln lässt. In Anbetracht der Dis- Abbildung 3. Überführung reeller in bipolare Gewichte kussion um Hebbs Regel in Abschnitt 2.1.1 ist es jedoch offensichtlich, dass ohne eine derartige Erweiterung des Gewichtsvektors eine biologisch plausible Modellierung synaptischer Plastizität nicht gelingen kann. Auch hat sich neben der hier vorgestellten, binären Schwellwertfunktion eine Vielzahl anderer Ausgabefunktionen eingebürgert, darunter beispielsweise die Sigmoide x 7→ 1 1 + e−x (2) oder lineare Funktionen mit Schwellwert (siehe Abb. 4): x 7→ c(x − θ), falls x ≥ θ 0, (3) sonst Dadurch ändert sich auch die Interpretation des Ausgabewertes in Bezug auf den Aktivitätszustand des Neurons. Anstelle einzelner Impulse repräsentiert 12 Abbildung 4. verschiedene neuronale Ausgabefunktionen: A. Binär mit Schwellwert, B. Sigmoid, C. Linear mit Schwellwert (aus [7]) der Ausgabewert bei diesen Funktionen vielmehr die Impulsfrequenz, gemittelt über einen gewissen Zeitraum – im Falle der Sigmoiden zusätzlich normiert, wobei ein Ausgabewert von 1 der maximalen Feuerfrequenz der Zelle entspräche, unabhängig von deren absolutem Wert. Der Vollständigkeit halber sei an dieser Stelle noch angedeutet, wie Hebb’sches (LTP) und anti-Hebb’sches (LTD) Lernen auf künstliche Neuronen übertragen werden kann (vgl. Anschnitt 2.1.1) . Eine einfache Form von LTP lässt sich folgendermaßen formulieren: Sei wij ∈ R das Gewicht der Verbindung von Neuron i zu j, und seien ai und aj deren Aktivität zum Zeitpunkt des Lernschrittes. Dann beträgt die Veränderung des Gewichtes ∆wij = ηai aj , (4) mit Lernrate η. Da ai und aj in natura immer positiv sind (und auch bei allen hier vorgestellten Ausgabefunktionen), kann wij nur ständig größer werden. Ausgeklügeltere Lernregeln ermöglichen sowohl LTP als auch LTD, auch bei rein positiven Ausgabefunktionen. Beispiele hierfür sind u.a. Sejnowskis Kovarianz-Regel, Ojas Regel oder die BCM-Regel, siehe [5] für einen umfassenden Überblick. 2.2 Worte im Gehirn 2.2.1 Die Topologie des Kortex Der für Sprachproduktion und -verständnis entscheidende Teil des Gehirns ist elektrophysiologische, bildgebenden sowie Läsionsstudien zufolge die Rinde des Großhirn, der cerebrale Kortex. Daneben ermöglicht der Kortex noch zahlreiche weitere Formen höheren Denkens“ wie z.B. alle Formen bewusster ” sinnlicher Wahrnehmung und bewussten Handelns sowie Lang- und Kurzzeitgedächtnis. Der Kortex ist in zwei Hälften (Hemisphären) geteilt, die nur über die Nervenfasern des sog. Balkens (Corpus callosum) miteinander verbunden sind. Dabei ist eine der beiden Hemisphären – bei ca. 90% der Menschen die 13 Abbildung 5. Die vier Lappen des Großhirns sowie die primäre Areale des motorischen, somatosensorischen, visuellen und auditorischen Kortex linke – bei der Sprachverarbeitung stärker beteiligt als die andere. Erstere wird als die dominante Hemisphere bezeichnet. Ausgebreitet beträgt die Fläche der Großhirnrinde etwa 0.2m2 . Notwendigerweise ist sie daher stark gefaltet und gliedert sich in vier von Furchen (Sulci ) und Windungen (Gyri ) durchzogene Lappen. Aufgrund genauer Betrachtung der neuroanatomischer Eigenschaften lassen sich pro Hemisphere rund 50 verschiedene Areale unterscheiden. Leicht auszumachen sind z.B. der primäre motorische Kortex und der primäre somatosensorische Kortex unmittelbar vor bzw. hinter der Zentralfurche (siehe Abb. 5). Beide dieser Areale sind topographische Karten des Körpers - benachbarte Köperregionen werden abgebildet auch benachbarte Verbünde von Nervenzellen. Aktivität im motorischen Kortex ruft Muskelkontraktionen in der entsprechenden Körperregion hervor, während Aktivität im somatosensorischen Kortex Berührungs- oder Schmerzwahrnehmungen aus der entsprechenden Region erzeugt – auch wenn diese gar nicht durch einen tatsächlichen Berührungsreiz hervorgerufen wurde. Abb. 6 zeigt beispielsweise die Abbildung der Körperoberfläche auf den motorischen Kortex, die Abbildung des somatosensorischen Kortex sieht dieser weitgehend ähnlich. Es ist erkennbar, dass sich die sprachrelevanten Muskelgruppen (Gesicht, Kehle, Zunge) am unteren Ende des motorischen u. sensorischen Kortex wiederfinden. Damit liegen sie u.a. in direkter Nachbarschaft zum primären und sekundären auditorischen Kortex (siehe Abb. 5), ungefähr da, wo die Zentralfurche auf die Sylvische Furche trifft. Zum Verständnis der neuronalen Verbindungsstruktur zwischen und innerhalb der einzelnen Hirnareale ist es sinnvoll, sich zunächst eine anatomische Besonderheit der kortikalen Neurone vor Augen zu führen. Der häufigste Neuronentyp im Kortex ist mit einem Anteil von ca. 80% die Pyramidenzelle ([9]). Deren dendritischer Baum ist zweigeteilt, man unterscheidet den basalen und den apikalen Dendriten. Der basale Dentrit umfasst ein Fasergeflecht, das den Zellkörper des Neurons umgibt und daher Verbindungen zu lokalen Axon14 Abbildung 6. Projektion des Körpers auf den motorischen Kortex – der motorische Homunkulus Abbildung 7. Anatomie einer kortikalen Pyramidenzelle mit basalem und apikalem Dendrit, Axon und Axonkollateralen (aus [5]) verästelungen (Axonkollateralen) benachbarter Zellen ermöglicht. Der apikale Dendrit hingegen ist ein langgestreckter Ast, der es der Zelle erlaubt, synaptischen Kontakt zu weiter entfernt verlaufenden Axonen aufzubauen (siehe Abb. 7). Die basalen Verbindungen führen zu einem hohen Vernetzungsgrad von Neuronen innerhalb eines Areals – Schätzungen für die Verbindungswahrscheinlichkeit zweier benachbarter Neurone liegen zwischen 10% und 80%. Zwischen diesen Neuronen besteht also ein reger, lokaler Informationsaustausch, der auch mit ähnlichen funktionellen Eigenschaften einhergeht. Über apikale Verbindungen entstehen Kontakte zwischen den verschiedenen lokalen Arealen. Ungefähre Anhaltspunkte für deren Konnektivität bieten neuroanatomische Studien bei Katzen und Affen. Es hat sich gezeigt, dass benachbarte kortikale Areale mit Wahrscheinlichkeiten von über 70% miteinander verbun15 den sind. Für nichtbenachbarte Areale beträgt die Wahrscheinlichkeit nur noch 15–30%. Dabei ist zu beachten, dass fast alle Verbindungen zwischen verschiedenen Arealen – sofern sie denn existieren – wechselseitig sind, Informationen also jeweils sowohl empfangen wie auch gesendet werden. Eine weitere Beobachtung ist, dass die primären Areale untereinander nicht direkt verbunden sind - der motorische und der somatosensorische Kortex bilden hierbei die einzige Ausnahme. Die übrigen Verbindung bestehen allenfalls indirekt über Umschaltneurone in nicht-primären Arealen. Dadurch werden aber gleichzeitig auch komplexere Verschaltungen und damit Informationsverarbeitungsschritte möglich – ähnlich wie beispielsweise Perzeptrone mit zwei Berechnungsschichten komplexere Funktionen berechnen können also solche mit nur einer. 2.2.2 Functional Webs Zieht man nun zu diesen grundlegenden Beobachtungen über die Verbindungsstrukturen innerhalb des Kortex die in Abschnitt 2.1.1 vorgestellten Mechanismen synaptischer Plastizität – LTP und LTD – in Betracht, so wird man erwarten, dass häufig auftretende Aktivitätsmuster zur Stärkung der Gewichte zwischen den beteiligten Neuronen führen. Dies kann sowohl innerhalb einzelner Areale geschehen, durch die apikalen Verbindungen aber auch in räumlich getrennten Regionen. Sogar die indirekte Verbindung zweier häufig koaktivierter Neurone aus unterschiedlichen primären Arealen könnte auf diese Weise verstärkt werden – durch Verstärkung der jeweiligen Verbindungen zu einem gemeinsamen Umschaltneuron. Korrelation zwischen der Aktivität benachbarter Neurone ist aufgrund der allgemein verbreiteten, topographischen Form der Repräsentation zu erwarten: benachbarte Neurone innerhalb eines der Wahrnehmungsareale beispielsweise reagieren auf ähnliche Reize. Aber auch selektive Korrelationen zwischen Neuronen verschiedener Areale sind leicht vorstellbar: jedes Mal zum Beispiel, wenn wir durch Aktivität im motorischen Kortex unsere Stimmbänder aktivieren, entstehen im somatosensorischen Kortex Empfindungsreize durch die hervorgerufenen Vibrationen. Und mit zeitlicher Verzögerung schlägt sich die Schallwahrnehmung des eigenen Lautes als Aktivität im auditorischen Kortex nieder. Vergleichbare Beispiele lassen sich auch für viele weitere Sinnesmodalitäten finden, wie etwa gemeinsam auftretenden Geschmacks- und Konsistenzempfindungen beim Essen und vieles andere mehr. Auf diese Weise kann es zur Bildung von über den Kortex verteilten Netzwerken kommen, die häufig zusammen auftretende Aktivitäts- oder Reizmuster repräsentieren. Im folgenden werden Netze dieser Art als Functional Web bezeichnet. Zusammengefasst sind Functional Webs definiert als eine Gruppe von Neuronen, die (1) untereinander hochgradig vernetzt sind (2) über mehrere kortikale Hirnareale verteilt sind (3) zusammen als funktionale Einheit wirken 16 (4) voneinander funktional abhängig sind in dem Sinne, dass jedes einzelne für das optimale Funktionieren des Netzes notwendig ist. Abgesehen davon, dass sich dieses Modell kortikaler Repräsentation auf natürliche Weise aus den bereits vorgestellten Prinzipien neuronaler Plastizität und kortikaler Konnektivität ergibt, bringt sie auch aus theoretischer Sicht eine Reihe von Vorteilen mit sich. Ein Vorteil der Functional Webs liegt in der stochastischen Natur des Feuerverhaltens einzelner Neurone begründet. Da Neurone unabhängig von externer Stimulation immer wieder spontan Aktionspotentiale erzeugen, haben sie für sich genommen ein schlechtes SignalRausch-Verhältnis. Durch Mittelung der Signale mehrerer Neurone lässt sich dieses Verhältnis entscheidend verbessern. Das Rauschen hebt sich mit wachsender Anzahl von Neuronen gegenseitig, während das Signal erhalten bleibt. Ebenso ist es eine wünschenswerte Eigenschaft, dass der Verlust eines einzelnen Neurons nicht den Verlust einer gesamten Repräsentation nach sich zieht. Wichtig ist es auch, dass zwei Functional Webs nicht aus disjunkten Mengen von Neuronen bestehen müssen, eine Neuron also Teil mehrerer Functional Webs sein. Dies zieht einige Konsequenzen nach sich. Zum einen wird es durch den Überlapp schwierig zu bestimmen, welche Neurone tatsächlich Teil eines gegebenen Functional Webs sind. Diese Form der Repräsentation beinhaltet also zwangsläufig eine gewisse Unschärfe (Fuzziness). Zum zweiten gilt es zu vermeiden, dass sich die Functional Webs im Cortex durch ihren wechselseitigen Überlapp nach und nach alle gegenseitig aktivieren. Hierzu bedarf es eines Regulationsprozesses, der sicherstellt, dass der gemittelte kortikale Aktivierungsgrad bestimmt Ober- und Untergrenzen nicht überschreitet (ein völliges Aussterben jeglicher Aktivität wäre natürlich ebenso unerwünscht). Prinzipiell lässt sich dies durch zusätzliche, inhibitorische Verbindungen der Neurone untereinander erreichen, so dass nach dem Winner–Takes–All“–Prinzip nur ” wenige, maximal aktivierte Functional Webs ihre Aktivität aufrecht erhalten können. Ein genaueres Modell für einen derartigen Mechanismus unter Einbeziehung anatomisch bekannter, subkortikaler Rückkopplungswege findet sich in [1]. Was nun sind die bislang weitgehend übergangenen, funktionalen Eigenschaften von Functional Webs? Was außer einer etwas stabileren Repräsentation gewinnt man durch sie gegenüber einzelnen Neuronen? Kurz gesagt liegt der entscheidende Vorteil von Functional Webs in ihrer größeren Anzahl qualitativ verschiedener Aktivitätszustände. Betrachten wir zunächst ein solches Netz, bei dem ein ausreichend großer Anteil von Neuronen extern stimuliert wird. Durch die die wechselseitigen, erregenden Verbindungen innerhalb des Netzes kommt es zur Ausbreitung und gegenseitigen Verstärkung der Aktivität im gesamten Netz, bis schließlich alle enthaltenen Neurone maximal Aktiviert sind. Dieser Vorgang wird als Ignition“ (Zündung) des Netzes bezeichnet. ” Nützlich ist dies zur automatischen Ergänzung unvollständiger Repräsentati17 Abbildung 8. Verlauf der Aktivität eines Neurons aus dem temporalen Kortex eines Makaken während eines visuellen Gedächtnistests(aus [12]) onsmuster: man stelle sich beispielsweise ein Functional Web vor, das das semantische Konzept Mücke“ repräsentiert. Allein die Wahrnehmung des sum” menden Fluggeräusches könnte dann ausreichen, um uns durch Ignition des Netzes sofort alle semantischen Aspekte einer Mücke ins Bewusstsein zu rufen, vom Aussehen eines Facettenauges bis hin zur Abneigung gegen den Juckreiz. Bei der Ignition handelt es sich allerdings nur um eine kurzzeitige vollständige Aktivierung. Anschließend kommt es durch Ermüdung“ der Neurone und ” möglicherweise auch entgegenwirkenden, regulatorischen Prozessen zu einer Reduzierung der Aktivität im gesamten Web. Dennoch kommt es nicht zu einem plötzlichen Aussterben, da wiederum die gegenseitigen Verbindungen als positive Rückkopplung wirken und den Abfallsprozess stark abbremsen bzw. die Aktivität teilweise auf niedrigerem Level aufrechterhalten können. Dieser Prozess des allmählichen Aktivitätsrückgangs wird als Reverberation“ ” (Nachhall) bezeichnet. Im Elektroenzephalogramm (EEG) oder Magnetoenzephalogramm (MEG) schlägt sich dieser Vorgang in Form hochfrequenter Hirnwellen (∼ 30 Hz) nieder. Experimentell konnten derartige Phänomene u.a. bei Gedächtnistests mit Affen nachgewiesen werden ([12]). Die Aufgabe für den Affen bestand darin, die Form eines nur kurz (0.2s) präsentierten, visuellen Stimulus 16s lang bis zur Präsentation eines Vergleichsstimulus im Gedächtnis zu behalten und bei Übereinstimmung bzw. Verschiedenheit einen entsprechenden Schalter zu betätigen. Abbildung 8 zeigt den Aktivitätsverlauf eines einzelnen Neurons aus dem temporalen Kortex eines Affen. Klar erkennbar ist die starke Aktivierung des Neurons gleich nach Präsentation des ersten Stimulus, entsprechend der Ignition seines Functional Webs. Darauf folgt eine Phase reduzierter, aber nur schwach abfallender Aktivität bis zur Präsentation des Vergleichsstimulus. Diese würde durch die anschließende Reverberation des Functional Webs erklärt. Im übrigen gibt dieses Beispiel auch eine Vorstellung über den möglichen zeitlichen Umfang des Reverberation-Prozesses. 18 2.2.3 Word Webs In diesem Abschnitt soll nun vertieft werden, wie Wörter mit ihren phonetischen wie semantischen Aspekten im Gehirn mittels Functional Webs repräsentiert werden könnten. Die Ausgangsbasis für eine derartige Repräsentation wird bereits im frühesten Neugeborenenalter geschaffen, besonders mit Beginn der sog. Lallphase im Alter von etwa 6 Monaten. Aktivität im unteren Teil des primären motorischen Kortex löst spontane Lautäußerungen aus, die über den Umweg des Gehörs Aktivität in den auditorischen Hirnregionen hervorrufen. Da bei gleicher Stellung des Stimmorgane auch immer ein ähnlicher Laut erzeugt wird, können durch Hebb’sches Lernen Netze von Neuronen entstehen, die sowohl die akustischen als auch die motorischen Aspekte der häufig erzeugten Phoneme verbinden. Damit ermöglichen sie das imitierende Nachsprechen wahrgenommener Silben oder Worte – ein Fähigkeit, die Säuglinge bereits kurz nach Beginn der Lallphase entwickeln. Durch übergeordnete“ ” Verbindungen zwischen einzelnen Phonemnetzen können dann Repräsentationen für häufig auftretende Folgen von Phonemen entstehen - der Grundstein für neuronale Wortrepräsentationen ist gelegt. Eine berechtigte Frage ist, wie der Säugling aus der Wahrnehmung eines kontinuierlichen Sprachflusses lernen kann, welche Phoneme überhaupt zu einem Wort gehören. Denn nur in den seltensten Fällen werden ihm ja einzelne Wörter isoliert vorgesprochen. Auch dies lässt sich jedoch mit Hilfe des Korrelations-Lernprinzips erklären: Phonemfolgen, die zu ein und dem selben Wort gehören, tauchen statistisch gesehen häufiger auf als die eher zufälligen Lautfolgen, die an Wortgrenzen entstehen. Zur Bildung von Wortrepräsentationen scheint es also das Vorsprechen isolierter Worte nicht notwendig zu sein. Das bis hierhin vorgeschlagenen Modell wurden auch in elektrophysiologischen Studien experimentell überprüft. Eine der Vorhersagen des Modells ist die, dass die Wahrnehmung von echten Wörtern und Pseudowörtern zu unterschiedlichen Hirnreaktionen führt. Genauer gesagt sollte ein echtes Wort Ignition und Reverberation des entsprechenden Wortnetzes hervorrufen, während Pseudowörter zu keinerlei solchen Reaktionen führen sollten. Tatsächlich wurden bei EEG- und MEG-Studien bei echten Worten signifikant stärkere, hochfrequente Hirnwellen gemessen als bei Pseudowörtern, und zwar nahe der Sylvischen Furche, wo sich sowohl der auditorische Kortex als auch die Sprachrelevanten motorischen und somatosensorischen Projektionsfelder befinden (vgl. Abschnitt 2.2.1). Somit stimmt das experimentelle Ergebnis also mit der getroffenen Vorhersage überein. Durch den häufigen Gebrauch von Wörtern im Zusammenhang mit bestimmten Gegenständen oder Handlungen können die bislang ausschließlich phonologischen Wortrepräsentationen durch das Prinzip des Korrelationslernens mit semantischen Inhalten verknüpft werden. Dies könnten etwa Farbe, Griffgefühl und Geruch eines Gegenstandes aus der Umgebung des Säuglings sein, 19 Abbildung 9. Topologie mutmaßlicher Word Webs zur Repräsentation von Wörtern verschiedener semantischer Kategorien aber ebenso auch der Bewegungsablauf beim Krabbeln. Functional Webs, die aus diese Weise sowohl die phonologische Information eines Wortes als auch dessen zugehörige Wahrnehmungs- und Handlungsaspekte beinhalten, werden im folgenden auch als Word Webs bezeichnet. Word Webs sollten gemäß der bisher angewandten Prinzipien der kortikalen Organisation nicht unspezifisch über den Kortex verteilt sein. Vielmehr würde man erwarten, dass sich semantische Aspekte eines Begriffs in der Topologie seines zugehörigen Word Webs widerspiegelt. Die Bedeutung von Worten wie z.B. Hai“ oder Wal“ ” ” werden den meisten von uns in erster Linie durch visuelle Eindrücke (sprich: Bilder oder Filme) bekannt sein. Im Gegensatz dazu ergibt sich die Bedeutung etwa von Werkzeugnamen viel eher aus der mit ihren Benutzung verbundenen Handlungen. Word Webs für vornehmlich visuell geprägte Begriffe sollten daher überproportional viele Neurone aus den okzipital gelegenen visuellen Arealen enthalten, Word Webs für handlungsgeprägte Begriffe hingegen viele Neurone im präzentralen, motorischen Kortex. Auch diese Hypothese deckt sich mit Schwankungen im Energieverbrauch der betroffenen Areale, die mit Hilfe hirnbildgebender Verfahren experimentell beobachtet worden sind. Und es finden sich sogar noch feinere topologische Unterschiede: beim Vergleich zwischen gesichts-, arm- und beinbezogenen Verben (z.B. sprechen“, grei” ” fen“ und gehen“) zeigte sich unterschiedlich starke Aktivität entlang des mo” torischen Kortex, und zwar dergestalt, dass das Zentrum der Aktivität je nach Verbkategorie im motorischen Projektionsfeld des Gesichts, der Arme bzw. der Beine lag (vgl. Abb. 6). Abbildung 9 zeigt die mutmaßlichen Word Webs für die hier behandelten Wortkategorien: visuell geprägte und handlungsorientierte Substantive sowie gesichts-, arm- und beinbezogene Verben. Ist erstmal ein Grundstock“ von Wörtern im Gehirn repräsentiert, so kann ” die Bedeutung neuer, unbekannter Wörter auch ihrem sprachlichen Kontext erschlossen werden. Es ist also keinesfalls notwendig, dass jedes neu zu er20 lernende Wort in Zusammenhang mit einem konkreten Gegenstand oder ein konkreten Handlung präsentiert werden muss, um dessen phonologische Eigenschaften mit zusätzlichen, semantischen Aspekten zu verknüpfen. Aus dem hebb’schen Lernprinzip ergibt sich im Übrigen auch eine Modell dafür, wie sich die Ähnlichkeit verschiedener Wort in ihrer neuronalen Repräsentation niederschlagen könnte. In Abschnitt 2.2.2 wurde gesagt, dass verschiedene Functional Webs nicht aus disjunkten Gruppen von Neuronen bestehen müssen. Ganz im Gegenteil macht es sogar Sinn, dass sich einzelne Webs teilweise sehr stark überlappen – dann nämlich, wenn sie sich semantisch ähnlich sind. Word Webs vollständig synonymer Wörter z.B. würden sich im idealisierten Fall nur in ihrem Phonemteil unterscheiden. Im Gegensatz dazu würden sich homophone Wörter gerade in ihrer Phonemrepräsentation überlappen und der semantische Teil ihrer Word Webs wäre weitgehend disjunkt (siehe Abbildung 10). Abbildung 10. Topologie mutmaßlicher Word Webs zur Repräsentation von Wörtern verschiedener semantischer Kategorien Zusammenfassend lässt sich also festhalten, dass Word Webs ein plausibles Modell der Repräsentation von Worten im Gehirn darstellen, sowohl auf Grund prinzipieller Überlegungen zu Organisation und Plastizität des Kortex als auch gestützt auf experimentelle Ergebnisse aus elektrophysiologischen und funktional bildgebenden Studien. 2.3 Neuronale Mechanismen zur Repräsentation serieller Ordnung 2.3.1 Grundsätzliche Überlegungen anhand künstlicher Neurone Nach der vorangegangen Diskussion um die grundlegende Repräsentationsform von Worten im Gehirn wenden wir uns jetzt allmählich wieder den in Abschnitt 1 aufgeworfenen Fragen nach den Prinzipien einer neuronalen Grammatik zu. Es wird aufgezeigt, mit welchen Mechanismen verschieden Aspekte serieller Ordnung in künstlichen McCulloch-Pitts-Netzen repräsentiert werden können. Diese Überlegungen führen zusammen mit dem Konzept der Functional Webs und Word Webs auf ein konkretes Modell einer neuronalen Grammatik hin, das in Abschnitt 3 abschließend vorgestellt wird. 21 Das Neuronenmodell von McCulloch&Pitts wurde in Abschnitt 2.1.2 vorgestellt. Für die Abbildungen dieses Abschnitts gelten folgende Konventionen: der Schwellwert eines Neurons ist die Zahl in dessen Inneren, und das Gewicht aller Verbindungen beträgt jeweils 1, soweit nicht anders angegeben. Wie nun lassen sich Netze von solchen Neuronen nutzen, um Sequenzen von Wörtern zu erkennen? Betrachten wir zunächst den einfachsten Fall: gesucht ist ein Netz, das genau einen einzelnen Satz erkennen kann, wobei die einzelnen Wörter dem Netz sequentiell präsentiert werden. In Abbildung 11 sehen wir zwei mögliche solche Netze zur Erkennung des Beispielsatzes Betty get ” up“. Die Neurone in der Input-Schicht reagieren selektiv auf je eines der drei Worte. Wird die Wortfolge Betty get up“ etwa dem linken der beiden Netze ” präsentiert, so läuft folgende Netzreaktion ab (alle Neurone seine zu Beginn inaktiv): (1) Input Betty“ aktiviert Neuron a. ” (2) Input get“ aktiviert Neuron b, während gleichzeitig Neuron d durch a ” aktiviert wird. (3) Input “up“ aktiviert Neuron c, während die Neurone e und f von Neuron b und d erregt werden (4) Durch ihre gleichzeitige Aktivität erregen die Neurone c e und f Neuron g Man erkennt leicht, dass Neuron g nur dann feuert, wenn der Satz Betty get ” up“ wörtlich und ohne Unterbrechung im Input vorkommt. Es könnte damit als interne Repräsentation dieses Satzes genutzt werden. g wird hierbei als Großmutter- oder Kardinalzelle bezeichnet, da es alleine ein komplexes, zeitlich ausgedehntes Ereignis repräsentiert oder vermittelt – man spricht auch von vermittelter Sequenzerkennung 9 . Im Vergleich dazu kommt das Netz in Abb. 11B mit weniger Neuronen aus. Zwar ist auch hier das letzte Neuron der Kette letztendlich eine Kardinalzelle. Zusätzlich dazu geht aber die Erkennung des Beispielsatzes einher mit Aktivitätswelle, die sich entlang der unteren Reihe von Neuronen fortpflanzt - ein Phänomen, auf das in Abschnitt ?? noch näher eingegangen wird. Einfache Stringdetektoren lassen sich also mit Hilfe künstlicher Neuronaler Netze implementieren. Eine zentrale Rolle beim Verständnis von Sprache spielt jedoch aufgrund des Prinzips der zentralen Einbettung Abhängigkeiten zwischen Wörtern, die im Satz räumlich bzw. zeitlich beliebig weit voneinander entfernt stehen können (vgl. Abschnitt 1.2 und 1.3). Dem sind die bisherigen Stringdetektoren jedoch nicht gewachsen – hierzu bedarf der Einführung von rückgekoppelten Verbindungen. In Abbildung 12 sehen wir zwei Neurone mit Gedächtnis“. Nehmen wir an, das linke Neuron zu Beginn einer Wortfolge ” voraktiviert. Dann ist es nach Präsentation der Folge nur dann noch aktiv, 9 mediated sequence processing 22 Abbildung 11. Zwei Netze zur Erkennung der Wortfolge Betty get up“ A. durch ” eine Kardinalzelle. B. begleitet von einer Aktivitätswelle in der unteren Zellreihe. Abbildung 12. Netze zur Erkennung des A. dauerhaften bzw. B. einmaligen Auftretens eines Wortes in einer Wortfolge. wenn kontinuierlich extern stimuliert wurde. Kommt es hingegen zu einer Unterbrechung der externen Stimulation, so ist das Neuron am Ende inaktiv. Das rechte Neuron dagegen bleibt aktiv, sobald es einmal stimuliert wurde (es bedarf dann freilich noch irgendeiner Art von Reset-Mechanismus). Diese Art von Verhalten erinnert an den All- bzw. den Existenzquantor aus der Prädikatenlogik. Speziell das rechte Existenz-Neuron“ eignet sich dazu, den Zusam” menhang zwischen verteilten Satzbestandteilen herzustellen. Dies verdeutlicht Abbildung 13: das abgebildete Netz ist durch seine Rückkopplungsschleifen in der Lage, alle der folgenden Sätze zuerkennen: (1) Betty switched it on. (2) Betty switched the nice brown coffee machine on. (3) Betty switched the coffee machine she received as a present from her mother at her 25th birthday on. Auf diese Weise gelingt es mit neuronalen Netzen, Strukturen zu repräsentieren, bei denen das auftreten eines Bestandteils das sichere Auftreten eines anderen Bestandteils bedingt, und zwar mit beliebigem Abstand zwischen den beiden. Damit sind sie rein stochastische Modelle wie z.B. Markov-Ketten in dieser Hinsicht überlegen. Im Folgenden sollen nun ausgehend von den hier skizzierten Überlegungen anhand von McCulloch-Pitts-Zellen sollen nun noch zwei auch neurophysiologisch plausible Ansätze zur neuronalen Modellierung serieller Ordnung vorgestellt werden. 23 Abbildung 13. Netz zur Erkennung der Wörter Betty“, switches“ und on“ inner” ” ” halb einer längeren Wortfolge in genau dieser Reihenfolge und mit beliebig langen Unterbrechungen zwischen den Wörtern 2.3.2 Synfire Chains Der erste Ansatz zielt hierbei nicht primär auf das Erkennen oder die Repräsentation grammatikalischer Ordnung, sondern auf die Speicherung von Phonemfolgen. Seien in Analogie zum motorischen Kortex Neurone gegeben, der Aktivierung die Äußerung verschiedener Laute hervorruft. Der denkbar einfachste Weg, eine Phonemfolge zu speichern wäre es, die entsprechenden Neurone mit erregenden Synapsen zu verbinden. Wird nun das erste Neuron der Folge aktiviert, pflanzt sich die Aktivität entlang dieser Verbindungen fort und führt dabei zur entsprechenden Lautäußerung. Allerdings hat man festgestellt, dass die synaptischen Gewichte im Kortex im Regelfall viel zu schwach sind, als dass ein einzelnes Neuron ein anderes erregen könnte. Dazu ist normalerweise die annähernd gleichzeitige Aktivität zahlreicher Input-Neurone notwendig. Statt dessen wäre es also plausibler anzunehmen, dass anstelle einzelner Neurone jeweils ganze Neuronengruppen miteinander verbunden sind, wobei alle Neuronen einer Gruppe jeweils synchron von ihrer Vorgängergruppe innerhalb der Verbindungskette erregt werden. Diese Form der neuronalen Verschaltung wird als Synfire Chain bezeichnet. Auch experimentell konnten Phänomene beobachtet werden, die sich mit diesem Modell decken. Untersucht wurde die Korrelation zwischen dem Feuerverhalten mehrerer Neurone. Dabei fiel auf, dass ein Neuron besonders häufig dann feuerte, wenn zuvor zwei weitere Neurone in einem ganz bestimmten Zeitabstand gefeuert hatten. Abbildung 14 zeigt eine solche Synfire Chain. Durch Aktivierung aller Neurone der ersten Gruppe entsteht eine Welle synchroner Aktivität innerhalb der Gruppen. Eine nur teilweise Aktivierung hingegen reicht nicht aus, um eine sich fortpflanzende Welle zu erzeugen. In Wirklichkeit sind die Gruppen wahrscheinlich deutlich größer und könnten geschätzt ca. 50–100 Neurone enthalten, mit einem Schwellwert jeweils zwischen 5 und 10. Mehrere Synfire Chains können sich teilweise überlappen und kreuzen, ohne dass sich eine Aktivitätswelle dabei unkontrolliert in alle Richtungen weiter ausbreitet. Die verdeutlicht Abbildung 15. Aktivierung der Neuronen in der Gruppe links oben ( b“) führt ” zu einer Aktivitätswelle, die sich nach rechts unten ausbreitet, nicht aber – ent24 Abbildung 14. Ein Synfire Chain bestehend aus 5 Gruppen von je 3 synchron aktiven Neuronen. Der Schwellenwert der Neurone beträgt 2. lang der kreuzende Synfire Chain – nach links unten. Dies wird durch den nur teilweisen Überlapp der jeweils mittleren Neuronengruppen der beiden Ketten gewährleistet. Die beiden Neurone in Mitte ganz links und ganz rechts dienen also als Kontextindikator, die bestimmen, in welche Richtung sich die Aktivität im Überlapp-Bereich weiter ausbreitet. In der Abbildung ist zudem wieder der Bezug zur Speicherung von Phonemfolgen angedeutet. Jedes Wort würde nach dieser Vorstellung phonetisch durch eine eigene Synfire Chain repräsentiert, die sich mit den Ketten zahlreicher anderer Wörter überschneidet und kreuzt. Freilich bedarf dieses Modell noch der Verfeinerung. Die Geschwindigkeit der Welle ist bisher konstant. Wir aber können unsere Sprechgeschwindigkeit nach Belieben variieren. Dies ließe sich aber beispielsweise durch die Regulation der unspezifischen Hintergrundaktivität erreichen. Durch starkes Hintergrundrauschen wären die Neuronen schon von vornherein näher an ihrem Schwellwert, so ihre letztendliche Aktivierung schneller von statten ginge als bei schwacher Hintergrundaktivität. Dies könnte auch erklären, wie es bei hoher Sprechgeschwindigkeit zunehmend zum Nuscheln und Versprechen kommt. Zum einen könnte es geschehen, dass sich die Aktivität schneller durch den motorischen Kortex ausbreitet, als es die Muskulatur umsetzen kann. Zudem steigt durch die hohe Voraktivierung der kreuzenden Synfire Chains die Wahrscheinlichkeit, dass sich die Aktivität entlang eines falschen Pfades, möglicherweise sogar entlang mehrerer Pfade gleichzeitig ausbreitet. Das Synfire-Chain-Modell zur phonetischen Repräsentation deckt sich also auch mit psycholinguistischen Beobachtungen. Dennoch erscheint es unwahrscheinlich, dass sich ein Ähnlicher Ansatz – etwa Synfire Chains zwischen Worten anstelle von Phonemen – auf die Verarbeitung von ganzen Sätzen übertragen läßt. Der zeitliche Abstand zwischen der Aktivierung zwei benachbarter Neuronengruppen liegt bei Synfire Chains im Millisekundenbereich, während bei der Verarbeitung von Sätzen Verzögerungen von einigen Sekunden auftreten können, noch dazu von Fall zu Fall variabel. Kritisch ist auch die riesige Anzahl möglicher Wortfolgen und daher der 25 Abbildung 15. Kreuzende Synfire Chains zur phonologischen Repräsentation der englischen Wörter bat“ und tab“ ” ” benötigten Synfire Chains. Im Falle von Phonemfolgen liegt die Anzahl der möglichen Nachfolger zwischen 5 und 20, im Falle von Wort jedoch rund 104 . Dies ließe sich Reduzierung durch die Einführung verschiedener Wortkategorien. In diesem Falle ist jedoch unklar, wie eine Synfire Chain die Auswahl zwischen verschiedenen Wörtern einer Kategorie vornehmen könnte. Und wie könnte ein solches System – egal ob auf der Ebene von Wörtern oder Wortkategorien – von bereits bekannten auf unbekannte Strukturen generalisieren? Im Folgenden wird ein alternativer Ansatz vorgestellt, der kombiniert mit dem Modell der Functional Webs diese Probleme überwinden könnte. 2.3.3 Neuronale Sequenzdetektoren Kehren wir in Gedanken noch einmal zurück zu Abbildung 11A. Präsentation des Beispielsatzes Betty get up“ führte zur Aktivierung der Kardinalzelle g. ” Die Zellen d, e, f dienen hierbei lediglich der Verzögerung der Aktivität der Input-Neurone a und b. Aus neurophysiologischer erscheint allerdings ein anderer Verzögerungsmechanismus wahrscheinlicher. Da die Reizleitung in einer Nervenfaser nur mit begrenzter Geschwindigkeit erfolgt, könnte die Verzögerung allein durch unterschiedlich Längen der Verbindungsleitungen erfolgen. Solche Verzögerungsstrecken konnten im Kleinhirn bereits nachgewiesen werden, die auch dort sicherstellen, dass zeitlich genau abgestimmte Sequenzen 26 Abbildung 16. A. Ein Phrasenstruktur-Baum zur syntaktischen Repräsentation des Satzes He comes“. B. Word Webs und Sequenzdetektoren zur Repräsentation syn” taktischer Abhängigkeiten neuronaler Aktivität gleichzeitig an einer Kardinalzelle eintreffen und diese erregen. Dennoch kann auch diese Art von Sequenzdetektor so kaum als Grundlage zur Sprachverarbeitung dienen. Die beobachteten Verzögerungen liegen im Bereich von deutlich unter 1s, während im Fall von Sprache viele Sekunden zwischen den einzelnen Bestandteilen verteilter Wörter liegen können – zudem können die Verzögerungen von Fall zu Fall stark schwanken. Einen möglichen Ausweg bietet die Implementierung von Sequenzdetektoren als Funktional Webs anstelle einzelner Kardinalzellen. Dieses Modell wird in Abschnitt 3 im Detail vorgestellt. An dieser Stelle sei nur noch als zusätzliche Motivation noch angedeutet, welche Vorteile eine Grammatik basierend auf Sequenzdetektoren gegenüber formalen linguistischen Modellen wie etwa PhrasenstrukturGrammatiken bieten könnte. Ein in der Linguistik gängiger Ansatz zur Repräsentation syntaktischer Strukturen sind hierarchische Bäume mit syntaktischen Kategorien als inneren Knoten und den Wörtern oder Morphemen 10 eines Satzes als Blättern (siehe Abb. 16A). Ein Problem hierbei ist die Modellierung von bestimmten Abhängigkeiten zwischen verteilten Satzbestandteilen wie etwa der Kongruenz zwischen Subjekt und Verb-Endung ( He“ und -s“ ” ” im abgebildeten Beispiel). Zur Prüfung der grammatikalischen Korrektheit eines Satzes müsste zusätzlich zum Aufbau eines syntaktisch korrekten Baumes 10 Morphem: kleinste bedeutungstragende Spracheinheit, z.B. ein Wortstamm oder eine Verb-Endung 27 gemäß der Phrasenstrukturgrammatik noch derartige Abhängigkeiten in einem weiteren Arbeitsschritt überprüft werden. Dagegen kommt das Modell in Abbildung 16B basierend auf Sequenzdetektoren mit einem einheitlichen Mechanismus aus. Die Detektoren sind nicht hierarchisch angeordnet: jeder für sich erkennt ein Wort-/Morphempaar: Pronomen – Verb, Verb – Verb-Endung sowie Pronomen – Verb-Endung. Speziell letzterer gibt Auskunft über die Kongruenz zwischen Subjekt und Prädikat des Satzes. Zusammengenommen vermittelt – so die Behauptung – der Aktivitätszustand zahlreicher solcher paarweiser Sequenzdetektoren genügend Information über die Struktur eines präsentierten Satzes, um seine Bedeutung erschließen zu können. Diese Behauptung zu Untermauern ist Sinn des folgenden Abschnitts. 3 Neuronale Grammatik Bisher haben wir neuronale Ensembles und funktionelle Netze betrachtet. In diesem Kapitel werden zwei neue Begriffe eingeführt. (1) Neuronale Sets, die funktionelle Netze mit speziellen Eigenschaften sind. (2) Sequenz Sets sind, neuronale Sets sind, die Sequenzen von Wörtern repräsentieren können. 3.1 Erregungszustände von funktionellen Netzen Ein solches Netz agiert aufgrund der starken internen Verbindungen als eine funktionelle Einheit, d.h. wenn ein angemessener Teil des Netzes durch einen Input erregt wird, führt die Konnektivität dazu, dass alle bzw. ein Großteil der Neuronen aktiviert werden. Diese volle Aktivität bezeichnet man mit Ignition. Diverse Erschöpfungseffekte reduzieren danach kontinuierlich die Aktivität, die jedoch nicht ganz ausstirbt. Der Rest der Aktivität, der nicht verloren geht, wird Reverberation genannt. Im Gegensatz zur Ignition ist die Reverberation ein lang anhaltender Prozess innerhalb des funktionellen Netzes, jedoch sind bei weitem nicht so viele Neuronen aktiviert wie bei der Ignition. Zusätzlich besteht die Möglichkeit, dass sich das Netz in einem inaktiven Ruhezustand befindet. Im Folgenden wird das neuronale Set eingeführt und erläutert weshalb es ein Spezialfall dieses funktionellen Netzes ist, das drei Zustände besitzt: Ignition, Reverberation und Ruhe. 28 3.2 Neuronale Sets Ein neuronales Set zeichnet sich gegenüber einem funktionellen Netz durch eine größere Variabilität der Zustände aus. Aktivität eines neuronalen Sets kann sich in einer Menge solcher Sets über externe Verbindungen, die schwächer sind als interne Verbindungen, ausbreiten und beeinflusst so benachbarte Sets. Um ein neuronales Set in den Zustand der vollen Aktivität Ignition zu führen, ist immer ein externer Input notwendig. Eine solche Aktivierung wirkt sich dann auf andere Sets aus, die dann in den Zustand des Primings geführt werden. Das Priming ist weitaus schwächer als Ignition und Reverberation. Über die Zeit verringert sich die Aktivität aller Zustände mit exponentieller Geschwindigkeit: A(Si , t) = A(Si , t0 ) ∗ e−c∆t , (5) wobei t0 den Zeitpunkt der externen Aktivierung durch ein anderes Set bzw. durch externen Input, ∆t den Abstand zwischen t0 und t, A(Si , t) die Aktivität von Set Si zu Zeitpunkt t0 und c die Steigung des Abfallens der Aktivität bezeichnet. Inputs anderer Sets, die sich in den Zuständen Reverberation bzw. Priming befinden, wirken über verschiedene Verbindungen auf das neuronale Set. Es wird angenommen, dass sich die Inputs der anderen im Set summieren. Insofern ist die Aktivität von Si so zu beschreiben: A(Si , t) = X A(Sj , t − 1), (6) j wobei A(Sj , t − 1) die Menge der exzitatorischen Stimulation von Set Sj auf Si zum Zeitpunkt t−1 bezeichnet. Die Stimulation erreicht Set Si zum Zeitpunkt t. Falls sich ein Netz bereits im Zustand Reverberation befindet verändert sich die Gleichung nur um einen zusätzlichen Term: A(Si , t) = A(Si , t0 ) ∗ e−c∆t + X A(Sj , t − 1) (7) j Der Zustand der Ignition wird dann erreicht, wenn die zeitliche bzw. räumliche Summation eine Schwelle θ übersteigt. Nach einer Ignition I wechselt der Zustand im nächsten Zeitschritt zur Reverberation R1 , wobei R1 der stärkste 29 Reverberation Zustand ist. Durch den exponentiellen Abfall gibt es theoretisch unendlich viele solche Reverberation Zustände. Kurz gefasst verändern sich die Zustände folgendermaßen: A(Si , t) > θ ⇒ A(Si , t + 1) = I ⇒ A(Si , t + 2) = R1 (8) Ein neuronales Set kann sich in vier Zuständen befinden: AS = {0, P, R, I}, (9) wobei P und R eigentlich eine Menge von Zuständen bezeichnen. Aufgrund des kontinuierlichen Abfalls der Aktivität kann es jeweils unendlich viele Zustände R1 , R2 , ... und P1 , P2 , ... geben. Dies ist jedoch unwahrscheinlich in der Realität, weil das Signal-zu-Rausch Verhältnis die Anzahl beschränkt, weswegen wir auch nur eine endliche Menge von Zuständen betrachten, die ihrer Stärke nach sortiert sind, wobei R1 , P1 die stärksten Zustände bezeichnen. Weitere Vereinfachungen sind, dass der zeitliche Abfall der Aktivität ignoriert wird und die räumliche und zeitliche Summation der Aktivität vereinfacht wird. 3.3 Schwellwertkontrolle Um das Aktivitätslevel in einem gewissen Rahmen zu halten muss eine Regulation der Schwellwert eingeführt werden. Es wird angenommen, dass ein starker Anstieg der Aktivität detektiert werden muss und in Folge darauf der Schwellwert angepasst wird. Die Realisierung ist eigentlich relativ einfach. Der extremste Anstieg der Aktivität ist dann, wenn ein neuronales Set aus dem Ruhezustand in den Zustand Ignition springt. Dies führt dann zu einer globalen Erhöhung des Schwellwerts. Diesen Anstieg der Aktivität mit folgender ˆ Die Ignition ohne Schwellwertkontrolle 11 bezeichnen wir mit dem Symbol I. darauf folgende Korrektur wird wie bisher mit I bezeichnet. I tritt dann auf, wenn ein Set aktiviert wird, das sich zuvor schon in einem Zustand der Reverberation bzw. Priming befand. Die globale Inhibition der Aktivität durch die Schwellwertregulierung wird so realisiert, dass alle Sets, die sich in Rn bzw. Pn befinden, in die Zustände Rn+1 bzw. Pn+1 herabgestuft werden. 11 Threshold control 30 Abbildung 17. Detektor für die Sequenz alpha – beta 3.4 Sequenzdetektion in Netzwerken von neuronalen Sets An dieser Stelle genügt es zu sagen, dass es einen Mechanismus gibt, der zur Detektion von Sequenzen oder seriellen Reihenfolgen 12 herangezogen werden kann. Dieser Mechanismus könnte beispielsweise über Verbindungen, die in nur einer Richtung verlaufen, implementiert werden. Da dies jedoch unrealistisch ist und in der Natur nicht so vorkommt, wird im Folgenden von bidirektionalen Verbindungen ausgegangen, die jedoch asymmetrisch sind, d.h. es gibt in eine Richtung sehr starke und in die andere Richtung eher schwache Verbindungen zwischen zwei neuronalen Sets. Eine Unterscheidung zwischen ’starken’ und ’schwachen’ Verbindungen ist selbstverständlich eine weitere Vereinfachung des realen Modells. Die stärkeren Verbindungen werden in die Richtung des üblichen Flusses angenommen, d.h. Sets, die Wörter die oft vor gewissen anderen gesprochen werden, repräsentieren, haben starke Verbindungen zu einem Sequenz-Set und dieses wiederum zu den Sets, die häufig danach gesprochene Wörter repräsentieren. Abbildung 17 zeigt ein Netz, das α vor β akzeptiert: Solche starken Verbindungen, wie zwischen α und γ, ließen sich beispielsweise durch Hebb’sches-Lernen trainiert, da durch eine solche Regel Synapsen dann verstärkt werden, wenn sowohl prä- als auch postsynaptische Aktivität vorhanden ist. Im Folgenden wird genauer auf ein Beispiel eines Netzwerks aus neuronalen Sets eingegangen und erläutert, warum das Netz nur dann einen String akzeptiert, wenn dieser in der korrekten Weise präsentiert wird. 3.5 Sequenzerkennung Es wird im Folgenden angenommen, dass jedes Wort bzw. Morphem im Input sein Wortnetz 13 bzw. neuronales Set aktiviert und als Konsequenz das Set in den Zustand Ignition bringt und daraufhin in den Zustand Reverberation. Reverberation wiederum bringt andere Sets über starke Verbindungen in den 12 13 Serial order Word web 31 Zustand Priming. Ignition aktiviert auch über schwache Verbindungen sich im Ruhezustand befindliche Sets und bringt sie in den Zustand Priming. Ein Sequenz-Set wird nur dann in den Zustand Ignition geführt, wenn es von einer Ignition eines anderen Sets aktiviert wird und sich zuvor schon in Reverberation bzw. Priming befand. Nun folgt die konkrete Abfolge einer Sequenz (Es wird angenommen, dass die Sequenz AB ein korrekter Satz ist.): (1) Das Wort A aktiviert die Inputeinheit α. (2) Da α im Ruhezustand war, erfolgt eine volle Aktivierung Iˆ und die Schwellwertregulierung wird aktiviert. Diese hat jedoch keinen weiteren Einfluss, da sich kein Set in einem aktivierten Zustand befand außer α. (3) α aktiviert und ’primet’ das verbundene Sequenz-Set γ. γ wird jedoch nicht vollständig aktiviert, da es sich nicht in Priming oder Reverberation befand. (4) α ändert seinen Zustand in R1 und ’primet’ so konstant γ über die starke Verbindung zwischen den beiden. Da es auch starke Verbindungen von γ zu β gibt, wird auch β von γ ’geprimet’. (5) Nun erscheint B als Input und β wird vollständig aktiviert und verändert seinen Zustand in I, da β zuvor schon im Zustand Priming war. (6) β aktiviert nun mit I den Sequenzdetektor γ, welcher sich nun auch in I befindet. (7) Schlussendlich aktiviert auch γ noch einmal α, was zum Akzeptieren des Satzes führt. Daraufhin ruhen alle Sets wieder. Damit man nicht glaubt, dass das auch bei einem grammatikalisch falschem Satz passiert, wird der Input in BA geändert: (1) Der Input B führt zu Ignition Iˆ von β. Die Schwellwertregulierung hat keinen Effekt. (2) Die Ignition Iˆ von β führt zu einem kurzen Priming in γ. Dieses Priming schwindet jedoch schnell wieder, da nur eine schwache Verbindung zwischen β und γ besteht. (3) β befindet sich in R1 und sowohl α als auch γ sind im Ruhezustand. (4) Es folgt nun A im Input und führt zu Iˆ in α. (5) Die Schwellwertregulierung verringert nun die Aktivierung von β zu R2 . (6) Am Ende der Sequenz befinden sich also alle Sets in unterschiedlichen Zuständen: β in R2 , γ in P1 und α in R1 . Insofern wird die Sequenz BA nicht akzeptiert. Zusammenfassend sind drei Dinge notwendig, damit ein String akzeptiert wird: (1) Synchronization - Eine sich durch das Netz fortpflanzende Welle der Ignition ’synchronisiert’ alle beteiligten Sets. (2) Satisfaction - Die Sequenz-Sets, die direkt mit Inputeinheiten verbunden sind befinden sich in R1 . 32 (3) Visibility - Die Inputeinheiten befinden sich in R1 und sind somit ’sichtbar’. 3.6 Lexikale Kategorien in neuronalen Sets Im ersten Kapitel haben wir lexikale Kategorien eingeführt um gewisse Abhängigkeiten korrekt zu repräsentieren und um feiner unterscheiden zu können. Ist dies nun wieder notwendig in Bezug auf das Modell mit neuronalen Sets? Im folgenden Abschnitt wird dies diskutiert. 3.6.1 Warum lexikale Kategorien? Nehmen wir nun das Beispielwort aus Kapitel (1) wieder auf: ’switch’ bzw. ’switch ... on’. Der Inputdetektor für den Wortstamm ’switch’ ist wie gehabt ein neuronales Set, das reagiert, falls das Wort ’switch’ im Input erscheint. Man bräuchte danach jedoch unterschiedliche Sequenz-Sets, die auf unterschiedliche nachfolgende Wörter reagieren. In diesem Beispiel gibt es z.B. einen für das Wort ’switch’ als Nomen, welches ein Verb erwartet oder für das Wort ’switch’ als transitives Verb, das ein Nomen im Akkusativ erwartet oder auch für das Wort ’switch ... on’, das zuerst ein Nomen im Akkusativ und dann später den Partikel ’on’ erwartet. Man sieht also, dass es viele Verzweigungen gibt. Wenn man das für jedes mögliche Wortpaar oder für jede mögliche Wortsequenz machen würde wäre die Zahl der Sequenz-Sets astronomisch groß. Ein Weg, dieser Tatsache auszuweichen wäre, Wörter, so wie schon bei den formalen Grammatiken vorgeschlagen, in lexikale Kategorien einzuteilen. Wenn man die Wörter in etwa 100 lexikale Kategorien einteilt, wie z.B. Nomen im Nominativ, Akkusativ oder Dativ und Verben in transitive, intransitive etc., würde man die Zahl der nötigen Sequenz-Sets drastisch senken. 3.6.2 Lexikale Kategorien als Mengen von Sequenz-Sets Wie schon weiter oben beschrieben, wird ein Sequenzmerkmal dadurch repräsentiert, dass ein Sequenz-Set zuerst im Zustand Ignition ist und dann im Zustand Reverberation verweilt und so die Information über die aufgetretene Sequenz speichert. Eine lexikale Kategorie kann nun als eine Vereinigung von mehreren Sequenz-Sets gesehen werden. Zwei Beispiele hierfür wären: (1) Ein Nomen im Nominativ würde mittels zwei Sequenz-Sets repräsentiert werden. Das erste erkennt, dass ein Artikel vor dem aktuellen Wort erschien und das zweite, dass ein Verb dem aktuellen Wort folgt. (2) Ein Nomen im Akkusativ würde ebenfalls zwei Sequenz-Sets benötigen. Das erste steht für ein voranstehendes transitives Verb und das zweite 33 Tabelle 1 Ungefähre Anzahl und Größenordnung der neuronalen Sets zur Sprachverarbeitung Lingusitisch Sets Neuronen Wort/Morphem 1 Inputeinheit 105 Neuronen Sequenzmerkmale 1 Sequenz-Set 105 Neuronen Lexikale Kategorie < 10 Sequenz-Sets < 106 Neuronen Vokabular 105 Inputeinheiten 1010 Neuronen 103 Sequenz-Sets 108 Neuronen Grammatik 107 Verbindungen zwischen den Sets für einen voranstehenden Artikel. Hierbei ist wichtig zu unterscheiden, dass es Sequenz-Sets gibt, die in die ’Zukunft blicken’ und welche, die sich die ’Vergangenheit merken’. Diese SequenzSets können direkt aus den Regeln der Abhängigkeitsgrammatiken abgelesen werden. 3.6.3 Lexikale Unterscheidungen durch Sequenz-Sets Um Wörter, wie ’switch’, eindeutig zu einer lexikalen Kategorie zuordnen zu können, ist noch ein zusätzlicher Mechanismus notwendig, der die anderen Zuordnungsmöglichkeiten unterdrückt. Es muss gewährleistet werden, dass das wahrscheinlichste Set, die anderen hemmt und so eine Art ’the-winner-takes-itall’ Selektion entsteht. Dieser Mechanismus könnte beispielsweise so realisiert werden, dass erkannt wird, wessen Sequenzmerkmale vollständig erfüllt werden und so kann entschieden werden, welches Set gewonnen hat gegenüber denen, die nicht alle Merkmale erfüllen. Falls die letzten nötigen Sequenz-Sets zweier lexikalen Kategorien gleichzeitig im Zustand Ignition sind, ist die Kategorie, die die meisten aktiven Sets besitzt, der Sieger. 3.6.4 Anforderungen an eine neuronale ’Grammar Machine’ In diesem Abschnitt geht es darum mathematisch abzuschätzen, wie viele Sets bzw. Neuronen notwendig sind, um eine Grammatik zu repräsentieren. Wie ein vorhergehender Abschnitt zeigte, kann man die Abhängigkeitsgrammatiken dazu benutzen, für ein Wort die Anzahl der benötigten Sequenz-Sets abzuschätzen. In einer Grammatik, wie sie im Englischen üblich ist, ist es nahezu unmöglich Wörter zu finden, die mehr als fünf abhängige Wörter besitzen. Man kann nun ein mehrdeutiges Wort mit fünf möglichen Bedeutungen und jeweils fünf abhängigen Wörtern als Extremfall für eine Abschätzung annehmen. In diesem Fall würde die Inputeinheit 25 Verbindungen zu Sequenz-Sets 34 benötigen. Nun kann man ein Vokabular von ca. 100000 Wörtern annehmen, die durchschnittlich in zwei der 100 lexikalen Kategorien stehen und jeweils fünf Sequenzmerkmale besitzen. Nun wird für jedes Wort ein neuronales Set benötigt. Um jede der lexikalen Kategorien zu repräsentieren, benötigt man jeweils fünf Sequenz-Sets, also 500. Man benötigt also nur 500 Sequenzdetektoren um eine solche Grammatik repräsentieren zu können. Man sieht also, dass die Repräsentation der 100000 Wörter weitaus aufwändiger ist als die Repräsentation der Sequenzen. Wenn man nun noch etwa 100000 Neuronen für jedes Set veranschlagt, ergibt das eine maximale Gesamtzahl von 1010 Neuronen, die das Vokabular repräsentieren. Eine ’feinere’ Grammatik, die mehrere lexikale Kategorien repräsentiert, schlägt also gar nicht so stark ins Gewicht, da auch bei 1000 Kategorien nur 5000 Sequenz-Sets benötigt werden. Man sieht also, dass es entscheidend darauf ankommt, wie viele Wörter repräsentiert werden sollen. Literatur [1] Pulvermüller, P. (2002). The Neuroscience of Language. Cambridge University Press, Cambridge [2] Chomsky, N. (1963). Formal properties of grammars. [3] Bach, E., C. Brown, W. Marslen-Wilson (1986). Crossed and nested deoendencies in German und Dutch; a psycholinguistic study. Language and Cognitive Processes, 1, 249–262. [4] Petri, C. (1970). Kommunikation mit Automaten. Dessertation: Universität Bonn. [5] Dayan, P., L. P. Abbot (2001). Theoretical Neuroscience. MIT Press, Cambridge, MA [6] Rojas, R. (1993). Theorie der neuronalen Netze. Springer Verlag, Berlin [7] McLeod, P., K. Plunkett, E. T. Rolls (1998). Introduction to Connectionist Modelling of Cognitive Processes. Oxford University Press, New York [8] Penrose, R. (1991). Computerdenken. Spektrum Verlag, Heidelberg [9] Silbernagel, S., A. Depopoulos (2001). Taschenatlas der Physiologie. Thieme Verlag, Stuttgart [10] Schmidt, F., G. Thews, F. Lang (1997). Physiologie des Menschen. Springer Verlag, Berlin [11] Gaı̈arsa, J.-L. (2004). Plasticity of GABAergic synapses in the neonatal rat hippocampus. J. Cell. Mol. Med. 8(1): 31-37 [12] Miyashita, Y., H. S. Chang (1988). Neural correlate of pictorial short-term memory in the primate temporal cortey. Nature 331: 307-311 35