Tutorial-Neuronale Netze

Werbung
Center
Computational Intelligence
and
Cognitive Systems
Prof. Dr. habil. A. Grauel
Josef-Stern-Weg 3
59494 Soest / Germany
E-Mail : [email protected]
Tutorial-Neuronale Netze
1
Tutorial: Neuronale Netze
1.
Einführung
1.1
Motivation
1.1.1 Gegenüberstellung: Computer-Gehirn
1.1.2 Leistungsvergleich: Kommunikationsbandbreite
unterschiedlicher Rechnerarchitekturen
1.2
Biologisches Vorbild und Extraktion künstlicher
Neuronaler Netze
1.2.1 Funktionsprinzipien biologischer Netze
1.2.2 Lernen und Gedächtnis
1.3
Künstliche Neuronale Netze
1.3.1 Charakteristika Neuronaler Netze
1.3.2 Funktionselemente
1.3.3 Architekturprinzipien
2.
Neuronale Informationsverarbeitung
2.1
Darstellung mit symbolisierten Bausteinen
2.1.1 Gewichtete Summation
2.1.2 Modell-Neuron
2.1.3 Funktionalität
2.1.4 Lernmechanismen
2.1.5 Fehlermaße
2.2
Darstellung mit symbolischen Bausteinen
2.2.1 Einfache Verknüpfungen und ihre Interpretation
2.2.2 Eine Energiebetrachtung: Bemerkung zur Minimalkonfiguration
2.3
Optimierung für Neuronale Netze
2.3.1 Genetische Algorithmen (GA)
2.3.2 Optimierung mit Evolutionären Strategien (ES)
2.4
Zusammenfassung
3.
Struktur und Funktionsweise künstlicher Neuronaler Netze
3.1
Multilayer Perceptron
3.2
Rückgekoppelte Netzwerke
3.2.1 NN für eine Funktionsapproximation
2
3.2.2
Simulation nichtlinearer Systeme
3.3
Radiale-Basisfunktionen-Netze
3.3.1 Radiale Basisfunktionen
3.3.2 Radiale-Basisfunktionen-Netze (RBFN)
3.4
Lattice-Band-Networks
3.4.1 Selbstorganisierende Karten (SOM)
4.
Neuere Entwicklungen
4.1
Support Vector Machines (SVM)
4.2
Bemerkungen zu Immune Systems (IS)
5.
Softwareprodukte
Literaturverzeichnis
3
Tutorial: Neuronale Netze
1.
Einleitung
Die neuronalen Netze (NN) sind integrierter Bestandteil der
Computational Intelligence (CI), zu der auch die Bereiche Fuzzy Logik (FL) und Evolutionäre Algorithmen (EA) gehören
(siehe Fig. 1 und 2). Letztere werden für eine numerische Optimierung verwendet, sie basieren auf Evolutionsstrategien. In
letzter Zeit werden für die numerische Optimierung auch sogenannte Immune Systems (IS) aus der Biologie für die Optimierung eingesetzt, die auf antagonistischen Strategien basieren.
Neuro-Fuzzy-Systeme
oder Fuzzy-Neuro-
FL
(Fuzzy-Logic)
NN
(Neuronale Netze)
Computational
Intelligence
EA
(Evolutionäre Algorithmen)
EA-NN
optimierte
Neuronale Netze:
Struktur –und
Parameteroptimierung
EA-Fuzzy
optimierte
Fuzzy-Systeme:
Regeloptimierung
von
Fuzzy-Systemen
Fig.1.1 Computational Intelligence als Schnittmenge unterschiedlicher Forschungsbereiche
Der Forschungszweig Computational Intelligence dient letztlich dem Zweck auf einem Computer Verhaltensweisen zu imitieren bzw. simulieren von menschlichen Experten und optimierenden Vorgängen aus der Natur. Das Ziel ist es assoziatives und schöpferisches Denken zu simulieren und mit Computer zu verifizieren.
4
Computational
Intelligence
optimierend
regelbasiert
lernfähig
Fuzzy Logik
Evolutionäre Algorithmen
8
Genetische Algorithmen
Evolutionäre Strategien künstliche Neuronale Netze
Modelle für die
Optimierung
Fig. 1.2
Modelle für die
exakte Verarbeitung
von vagem Wissen
Modelle für die Verarbeitung
von unvollständigem Wissen
Generalisierung
Computational Intelligence
Neuronale Netze sind eine Imitation der Neuronen und ihre Art
miteinander zu kommunizieren, basierend auf der Arbeitsweise
des menschlichen Gehirns: Eingehende Signale und Daten
wandern über sogenannte Synapsen von Neuron (Verarbeitungseinheit) zu Neuron, wobei der synaptische Einfluss durch
Gewichtsfaktoren festgelegt werden kann.
5
1.1
Motivation
Betrachtet man die Computertechnologie heute, so ist festzustellen, dass der Computer heute Aufgaben gut lösen kann, die
einem Menschen schwer fallen. Andererseits aber die Alltagsaufgeben versagt, die der Mensch mühelos beherrscht. Betrachten wir nur unser Sehsystem in Verbindung mit der informationsverarbeitenden Zentrale "Gehirn", das vorzüglich beispielsweise für die Mustererkennung geeignet ist. In Bruchteilen von Sekunden erkennen wir ein Muster in groben Umrissen
als auch in seinen wesentlichen Details, in einer Zeit die für auf
dem Markt befindlichen Hochleistungsrechner nicht erreichbar
ist. Dieses Beispiel weist auf einen fundamentalen Unterschied
zur biologischen Informationsverarbeitung hin und letztlich
auch zum Nervensystems des Menschen mit dem Gehirn als
"Schaltzentrale".
Es ist deshalb nicht verwunderlich die Arbeitsweise des
menschlichen Gehirns zu verstehen und abzubilden.
1.1.1 Gegenüberstellung: Computer-Gehirn
Prozessoren
informationsspeichernde Einheiten
Taktfrequenz
Signalgeschwindigkeit
Arbeitsweise
Speicher
Redundanz
Ausfallsicherheit
Organisation
Lernfähigkeit
Retrieval-Eigenschaft
Algorithmen
Computer
von-Neumann-Maschine: 1 bzw.
mehrere
Connection Machine: 65536
z.B. optische Platte: 1 GByte
9
ca. 10 Hz
schnell
PC, CRAY, Connection Machine:
CM
(Leitungsgeschw. Elektronen:
einige cm pro Sekunde)
von-Neumann-Maschine: seriell
Connection Machine:
parallel
lokalisierter Speicher
adressenorientiert
keine bzw. geringe
Ausfall von Bauteilen: TotalAusfall des Computers
Programmierung erforderlich
keine bzw. beschränkt in Expertensystemen der Kl
umfangreiche zeitintensive Suchroutinen
genaue Festlegung erforderlich
6
Gehirn
10
10 Neurone (Prozessoren
14
15
10 Synapsen: ca. 10
bit (siehe Bemerkung)
3
ca. 10 Hz
relativ langsam
auf Axon: 1m/sec bis
120 m/sec
parallel (vergleichsweise
hoch)
inhaltsadressierter
(assoziativer) Speicher
hohe
Ausfall einzelner Neurone: keine Beeinträchtigung des Resultates
"Training"
Lernfähigkeit, flexibel
schnelles Wiederauffinden der Information
Fehlertolerant und
lernfähig
Bemerkung:
Obwohl wir hinreichend gute Kenntnisse über die einzelnen
Bauelemente besitzen, lässt sich darauf noch nicht die Funktion
des Nervensystems, d.h. Wahrnehmung, Denken, Handeln und
Gedächtnis etc. des Netzwerkes verstehen. An dieser Stelle ist
es interessant danach zu fragen, inwieweit das Netzwerk fest
"verdrahtet" ist. Wäre das biologische Netzwerk vollständig
determiniert, wäre Lernen praktisch nicht möglich. Wir betrachten zunächst die im menschlichen Genom (Gesamtzahl
aller Gene in einer Zelle) gespeicherte Information. Mit 3∗109
Basenpaaren und 2 bit pro Base erhält man aufgerundet 1010 bit
als Informationsspeicherkapazität des Genoms. Wird andererseits die Gesamtzahl der Neuronen mit 1010 sowie 104 Synapsen pro Neuron angenommen, so erhalten wir insgesamt
1014 Synapsen für das menschliche Gehirn. Allein für die Determinierung der "Verdrahtung" des Gehirns wären damit 1014
∗ld(1010) bit = 33 ∗1014 bit = 3∗1015 bit nötig. Wir folgern hieraus, dass sich die Evolution zusätzlich etwas "überlegt" haben
muss – entweder eine Selbstorganisation, die aus einfachen
Vorgaben komplexe Muster entstehen lässt oder aber eine im
Genom determinierte Vorstruktur.
7
1.1.2
Leistungsvergleich: Kommunikationsbandbreite
unterschiedlicher Rechnerarchitekturen
Rechnerarchitektur
von NeumannRechner
PCs
CRAY
Transputer-arrays
ConnectionMachine
Intel: PSC/860
(N=Zahl der verwendeten Prozessoren)
integrierter Schaltkreis (IC): 80 nutzbare Anschlüsse
Gehirn: 1014
Synapsen
Hybridsystem
(Silizium-Technik
verknüpft mit
Gehirnarchitektur)
typische Taktzeit
ein Prozessor
intern
Kommunikationsbandbreite auf lokalem Bus
Prozessor mit einem
Speicher
Kommunikationsbandbreite zwischen den
Prozessoren
30 nsec
1nsec
40 nsec Transputer
2⋅108 bis/sec
107 bit/s (ETHERNET)
1010 bit/sec
½ N·108 bit/sec
N·108 bit/sec
1,3·109 bit/sec
(bei 128er ProzessorSystem)
30 nsec
3,2⋅108 bit/sec
109 bit/sec
30 nsec
1012 bit/sec
5 msec
1 µsec f. Transistor
5 msec f. Neuron
1015 bit/sec
Bem.: Kommunikationsbandbreite ist ein Maß für den Austausch von Informationen zwischen den Prozessoren.
8
1.2
Biologisches Vorbild und Extraktion künstlicher Neuronaler Netze
1.2.1
Funktionsprinzipien biologischer Netze
Die Großhirnrinde (Kortex) besitzt als sechsschichtiges afferente und efferente Nervenfasern (Axone) sowie verschiedene
Nervenzellen in den Schichten. Die Morphologie der Nervenzellen ist ausgeprägt, hauptsächliche Erscheinungsformen sind
die Pyramidenzellen (85 %), Sternzellen und in geringer Zahl
Spindelzellen, Korbzellen, etc. Die Pyramidenzellen besitzen
viele Dornen auf den Dendriten und ein langes Axon meistens
senkrecht zur Schichtstruktur. Am Axon und den Dendriten
sitzen überwiegend erregende Synapsen, aber am Zellkörper
(Soma) ausschließlich hemmende Synapsen. Anders bei den
Sternzellen, diese besitzen kaum Dornen, sind dagegen aber
reichhaltiger verzweigt, und tragen am Axon ausschließlich
hemmende Synapsen und am Zellkörper sowohl hemmende als
auch erregende Synapsen. Spindelzellen durchsetzen die sechs
Schichten mit geringeren Verzweigungen.
a)
Nervenzelle
Ein Neuron oder eine Nervenzelle erfüllt funktionell die gleichen Aufgaben wie andere Zellen. Der Zellkörper (Soma) ist
umgeben mit der Zellmembran in der sich zahlreiche Ionenkanäle befinden, innerhalb der Zellmembran befindet sich der
eigentliche Zellkörper sowie andere funktionelle Einheiten
(Golgi-Apparat), Mitochondrien, endoplasmatische Retikulum,
Lipidtröpfchen etc. (/Dur/) die für eine funktionsgerechte Arbeitsweise der Zelle notwendig sind. Die Nervenzelle selbst
besitzt zahlreiche Dendriten, Ausstülpungen (Dornen) und ein
Axon (Wahl: die längste aller Nervenfasern an einem Neuron
wird Axon genannt) mit einer präsynaptischen Endigung. Präsynaptische Endigung, synaptischer Spalt und postsynaptische
Membran repräsentieren die Kontaktstelle, d.h. die Synapse.
Informationstechnisch gesehen nimmt die Nervenzelle über
ihre Verzweigungen "Informationen" auf, vergleicht diese mit
einem Schwellwert und gibt gegebenenfalls Signale (idealisiert
in Form von Spikes) über das Axon weiter, sie besitzt einen
Gleichgewichtszustand bei ca. − 80mV (Ruhepotential) innen,
und wir sagen deshalb die Zelle ist polarisiert. Depolarisierte
Reize, d.h. positive Potentialbeiträge, z. B. von erregenden
Synapsen auf den Verzweigungen des Neurons herrührend,
können bewirken, dass das Schwellwertpotential überschritten
wird. Die Folge ist, dass sich spannungsgesteuerte NatriumKanäle öffnen und Na + − Ionen durch die Membran ins Innere
9
der Membran strömen und damit das Konzentrationsgefälle
(Konzentration der Na + − Ionen ist außerhalb ca. 12 mal höher
als innerhalb der Membran) auszugleichen. Ein negativer Ladungsüberschuss innerhalb der Membran wird abgebaut und es
kommt zu einem positiven Spannungsanstieg. Danach schließen die Na + − Kanäle wieder, die Membran erreicht ihr größtes Potential (positiv). Anschließend beginnt die Repolarisation
veranlasst durch den Ausstrom von K + − Ionen durch die
Membran nach außen aufgrund eines Konzentrationsgefälles
(die K + − Ionenkonzentration ist innen ca. 40 mal höher als
außen). Dieser Vorgang schreitet solange fort bis sich ein negatives "hemmendes" Potential im Innern der Zelle aufgebaut hat,
dabei kann es zu einem negativen Potentialanstieg kommen,
der unterhalb des Ruhepotentials zu liegen kommt. Dieser Zustand wird als Hyperpolarisation bezeichnet, der zeitlich im
Millisekundenbereich abläuft, bis sich endlich nach einigen
Millisekunden wieder das Ruhepotential eingestellt hat. Diese
Einstellung geschieht nicht automatisch sondern über einen
"Pumpmechanismus" (Na-Ka-Pumpe). Die Energie die bei
diesem Prozess, Ionen entgegen einem Konzentrationsgefälle
zu transportieren (aktiver Transport), nötig ist, kommt von einer biochemischen Umwandlung bei der Adenosintriphosphat
in Adenosindiphosphat gespalten wird und mit einer Energiefreisetzung abläuft. An dieser Stelle sei angemerkt, dass die
Ionen-Austauschvorgänge hier vereinfacht dargestellt wurden.
Außer den Na + − , K + − Ionenkanälen gibt es Kanäle für
Magnesium
( Mg 2 + ) ,
Calzium
( Ca 2 + ) ,
Chlor
( Cl − )
etc.
Weiterhin spielen die spannungsabhängigen K + − Kanäle, wie
am Beispiel hippocampaler Neuronen gezeigt werden kann,
eine besonders wichtige Rolle für die parallel ablaufenden Prozesse. Die Pyramidenzellen im Hippocampus z. B. besitzen
zwei unterschiedliche K + − Leitfähigkeiten, die bei einer ansteigenden intrazellulären C 2 + − Konzentration wirksam werden. Sie bewirken eine schnelle sowie eine langsame NachHyperpolarisation (/Ni/). Die schnellere Nach-Hyperpolarisation bewirkt die Repolarisation des Aktionspotentials. Durch
die langsamere Nach-Hyperpolarisation wird die Entladungsrate des Neurons reduziert und den gegebenen Verhältnissen angepasst. Blockiert man diese Nach-Hyperpolarisation, indem
der intrazelluläre Ca 2 + − Einstrom reduziert wird über spannungsabhängige Ca 2 + − Kanäle, so antwortet die Zelle mit
einer höheren Impulsrate als vorher auf denselben Depolarisationsstimulus.
Die langsamere Nach-Hyperpolarisation wird über den Neurotransmitter Norepinephrine verkleinert. Dieser aktiviert über
10
Rezeptoren die G-Proteine und cAMP, dabei wird durch die
cAMP-abhängige Proteinkinase A schließlich der für die langsamere Nach-Hyperpolarisation verantwortliche Ca 2 + − gesteuerte K + − Kanal gehemmt. Weiterhin greift an dem
Ca 2 + − gesteuerten K + − Kanal auch Acetylcholin inhibierend
an.
Aber auch durch den Neurotransmitter GABA (GammaAminobuttersäure) kann die K + − Leitfähigkeit in den Pyramidenzellen beeinflusst werden (/Ni/). Die Freisetzung von GABA (z. B. durch Interneuronen im Hippocampus) bewirkt an
den Pyramidenzellen zweierlei: einen Cl − − Strom über GABAA-Rezeptoren und einen langsameren K + − Strom über die
Aktivierung der von GABAB-Rezeptoren. Der langsamere Prozess läuft über die Aktivierung von G-Proteinen ab, die direkt
ohne zweite Botenstoffe K + − Kanäle aktivieren können. Mittels dieser synaptischen Beeinflussung einer Zelle mit GABA
wird das Aktivitätsverhalten bzw. Ladungsverhalten der Zelle
stark gehemmt. Anzumerken bleibt, dass derselbe K + − Kanal
auch durch die Neurotransmitter Serotonin und Adenosin aktiviert werden (/Ni/).
Vorstehende Überlegungen machen die intrinsische Parallelität
der ablaufenden Prozesse deutlich. Für die folgenden Betrachtungen wird vereinfachend angenommen, dass für die Entstehung des Aktionspotentials die Überwindung des Schwellwertpotentials erforderlich ist. Vereinfacht ausgedrückt führen unterschwellige Reize zu keinem, aber überschwellige Reize zur
vollen Ausbildung eines Aktionspotentials. Daraus wurde das
"Alles- oder Nichts-Gesetz" deduziert, das die Grundlage für
die mathematische Formulierung eines Zwei-ZustandsElementes (Zwei-Zustands-Neuron) oder Prozessorelementes
bildet.
b)
Impulsausbreitung
Erst nach der Refraktärzeit, d.h. wenn die Membran ihr Ruhepotential wieder erreicht hat ist eine Depolarisation möglich.
Die erregte Membranstelle auf dem Axon ist folglich nicht
wieder sofort erregbar. Ein zuvor nicht erregter nachbarschaftlicher Bereich, der zu jeder Zeit sofort erregbar ist, kann erregt
werden. Durch diesen Mechanismus kann sich die Erregung
einseitig entlang eines Axons mit einer Geschwindigkeit von 2
m/s bis 120 m/s ausbreiten, je nach Ummantelung des Axons.
Die Impulsausbreitung auf den Dendriten und dem Axon kann
man unter vereinfachten Annahmen berechnen. Solche Annahmen sind:
11
• Zellkern sei punktförmig
• Dendritenbäume bestehen aus zylindrischen Stämmen und
Zweigen, die von einer einheitlichen Membran umgeben
sind.
• Die Enden der Dendriten sind isoliert, d.h. es existiert kein
Stromdurchfluss durch die Endungen.
Die elektrischen Eigenschaften der Dendriten können durch die
Kabelgleichung beschrieben werden. Dazu kann eine Nervenfaser als eine Art "leckendes" Koaxialkabel dargestellt werden,
bei dem die radialen Potentialanteile vernachlässigt werden.
Wird die intrazelluläre Impedanz als ohmscher Widerstand
betrachtet und die Hüllmembran der Faser als ohmscher Widerstand rm mit einer parallelen Kapazität cm , so ergibt sich die
Kabelgleichung (/Ko/) für eine passive Membran.
Mit Hilfe des BCK-Algorithmus von Butz, Cowan und Koch
oder des Algorithmus von Poggio (/Pol,2/), lassen sich die
Spannungsverläufe in neuronalen Strukturen berechnen (/Ko/).
c)
Impulsübertragung
Die biologisch-chemischen Vorgänge auf molekularer Ebene
an einer Synapse sind sehr komplex, sie können hier nur vereinfacht (schematisch) auf phänomenologischer Ebene dargestellt werden.
Gelangt ein elektrischer Impuls zur präsynaptischen Membran
der Synapse, so bewirkt er dort eine Leitfähigkeitsänderung der
Membran, so dass dort eine Überträgersubstanz (Neurotransmitter genannt und auch als Vesikel oder Quant bezeichnet)
ausgeschüttet wird und damit in den synaptischen Spalt gelangt. Durch Diffusion einer Überträgersubstanz von der präzur postsynaptischen Membran, fließt ein postsynaptischer
Strom (PSC). Dieser kommt dadurch zustande, dass durch die
Anbindung der Überträgersubstanz an die Rezeptoren der
postsynaptischen Membran eine Leitfähigkeitsänderung der
postsynaptischen Membran bewirkt wird. Die Häufigkeit (Frequenz) der ankommenden Aktionspotentiale an der präsynaptischen Membran bestimmt die Konzentration des Neurotransmitters im synaptischen Spalt und diese wiederum die elektrische Aktivität der postsynaptischen Membran. Diese Vorgänge
an dem synaptischen Spalt sind nicht umkehrbar, die Informationsübertragung ist somit einseitig gerichtet aufgrund der
Funktion von prä- und postsynaptischer Membran. Es sei schon
jetzt vermerkt, dass dieses Phänomen der gerichteten Übertragung einen ganz wesentlichen Einfluss auf die mathematische
Modellierung künstlicher Neuronaler Netze hat. Hauptsächlich
zwei Arten von Neurotransmitter sind bekannt. Zu den erregenden Transmittersubstanzen zählen Acetylcholin, Glutamat
etc. die die Permeabilität für die Na + − Ionen erhöhen, so dass
für die postsynaptische Membran das Schwellwertpotential
12
leichter erreichbar wird. Hemmende Transmitter sind GABA,
Glycin etc. Demzufolge gibt es funktionell zwei Arten von
Synapsen, einerseits die erregenden (exzitatorischen) Synapsen, es wird ein erregendes postsynaptisches Potential
(EPSP) erzeugt, das die Membran depolarisiert und zur Entstehung eines Aktionspotentials beiträgt. Andererseits existieren
Synapsen mit hemmender Funktion, kurz hemmende (inhibitorische) Synapsen genannt, diese hyperpolarisieren die Membran und erzeugen ein inhibierendes postsynaptisches Potential
(IPSP). Die zugeordneten postsynaptischen Ströme (EPSC und
IPSC) sind durch das Ohmsche Gesetz über die Widerstände
mit den entsprechenden Spannungen verknüpft.
d)
Selektive Wechselwirkung
Betrachten wir die Kommunikation (via elektrischer Impulse)
zwischen zwei Neuronen über eine Synapse, so folgt aufgrund
der Eigenschaften der Synapsen, dass über die synaptische
Kontaktstelle die Informationsübertragung einseitig gerichtet
ist. Hieraus folgt aber für das "Rücksignal", dass dieses sich
einen anderen Weg durch das Nervengeflecht suchen muss,
wenn das nachgeschaltete Neuron mit dem Ausgangsneuron in
Wechselwirkung treten will.
Wird für die synaptische Stärke (Kopplungsstärke) zwischen
Neuron i und Neuron j die Größe w ij eingeführt, gibt es keine
biologische Motivation für eine Symmetrierelation der Form
w ij = w ji . Bei Symmetrie-Erhaltung würde jedes Neuron mit
jedem Neuron in direkter Wechselwirkung stehen, so aber liegt
eine "selektive" Wechselwirkung vor. Dieses erscheint auch
biologisch plausibel, da nicht alle Neuronen im Kortex gleichzeitig aktiv sind. Einzelne Hirnbereiche können partiell erregt
werden.
1.2.2 Lernen und Gedächtnis
Lernen nach dem heutigen Erkenntnisstand kann auf verschiedenen Ebenen diskutiert werden. Hier ist ganz allgemein die
Frage interessant: Wie lernt der Mensch?
Wir müssen unterscheiden:
• Etwas Neues lernen im Sinne von Wissen erwerben.
• Lernen aus Erfahrung, aus dem Wissen bzw. der Kenntnis
heraus.
13
a)
Lernen biologisch
Auf der biologischen Ebene können wir zusammenfassen:
• Lernen erfolgt im wesentlichen durch die Modifikation der
Verbindungen zwischen den Neuronen, d.h. durch die Modifikation ("Veränderung") ihrer Synapsen.
• Die Stärke der Verbindungen zwischen den Neuronen und
damit ihr Verhalten ist abhängig von:
(1) Anzahl der zwischen zwei Neuronen geschalteten Synapsen.
(2) Art der Verschaltung, z. B. Synapsen nebeneinander
oder aufeinander (Triggerschaltung) etc.
(3) Synapsenaufbau
• Menge und Art der gespeicherten Transmittersubstanz.
• Zahl der Rezeptoren (Rezeptordichte) auf der postsynaptischen Membran, die die Transmittersubstanz aufnehmen.
Jede Veränderung der Einflussgrößen bzw. der Parameter führt
zur Veränderung im Signalfluss, d.h. der Frequenzfolge von
Aktionspotentialen und letztlich zu einer Verhaltensänderung
des Organismus. Somit vergröbert interpretiert, seiner Lernfähigkeit.
Schon sehr früh hat D. Hebb (1949) versucht auf biologischer
Basis , die Zellaktivität benachbarter Zellen phänomenologisch
zu beschreiben. Hebbsche Regel (1949): Benachbarte Zellen
die gleichzeitig aktiv sind, werden dadurch in ihrer Kopplung
verstärkt, wobei die Effektivität des Einflusses der ersten auf
die zweite Nervenzelle sich erhöht. Auch heute ist der Hebbsche Ansatz nicht aus der Mode gekommen, der Hebbsche Ansatz und Abwandlungen davon werden als Lernregel in den
künstlichen neuronalen Netzen benutzt. Es ist ein Ansatz für
das assoziative Lernen. In diesem Zusammenhang sei der Ansatz für assoziatives Lernen von Alkon (/Al/) zitiert, der ebenfalls auf neurobiologischen Beobachtungen basiert.
b)
Lernen psychologisch
Lernen bedeutet die Modifikation des Verhaltens aufgrund von
Erfahrungen. Als einfachstes Lernmodell gilt das ReizReaktions-Modell: Auf einen bestimmten Reiz mit einer bestimmten Reaktion zu antworten (klassische Konditionierung
(/Te/), Versuch von Pavlov (/Pav/)).
Lernen aufgrund eines Belohnungssystems (operante Konditionierung (/Sch/)). Hier erfolgt Lernen durch Belohnung (Verstärkung einer Reaktion auf einen Reiz), die Belohnung erfolgt
auf eine richtige Reaktion und führt so zu einer Verstärkung
der Reiz-Reaktions-Kopplung.
14
c)
Gedächtnis
Die Psychologie entwickelte und entwickelte Modelle für verschiedene geistige Fähigkeiten des Menschen wie: Wahrnehmung, Verhalten, Gedächtnisleistung und Denken. Die experimentellen Erfahrungen bezüglich der Gedächtnisleistungen des
Menschen legen nahe, eine Unterteilung in ein Kurzzeitgedächtnis und ein Langzeitgedächtnis vorzunehmen. Das Kurzzeitgedächtnis sollte für eine kurzfristige Speicherung von Informationen zur Verfügung stehen. Experimentelle Erfahrungen zeigen, dass Informationen für einige Sekunden im Gedächtnis beibehalten werden können, aber schon nach ca. 20
Sekunden gehen im allgemeinen ca. 80% der Informationen
verloren. Dieses erscheint verständlich, wenn man davon ausgeht, dass die Speicherung von Informationen in Form von
elektrischen Erregungen erfolgt, die im Verlaufe der Zeit gedämpft werden und verschwinden, falls sie nicht aktiv aufrechterhalten werden. Das Langzeitgedächtnis wird als das
"Medium" angesehen, das für die "permanente" Speicherung
von Gedächtnisinhalten verantwortlich ist. Eine scharfe Trennung zwischen Langzeit- und Kurzzeitgedächtnis ist bisher
nicht möglich. Ebenfalls gibt es keine klare Abgrenzung und
Begriffsbildung für das Aufnahmevermögen von Informationen (Kapazität) des Gedächtnisses. Experimente zeigen, dass
die Kapazität stark vom Bedeutungsinhalt der Information und
den Assoziationsmöglichkeiten abhängt. Zum Beispiel können
unvollständige "Erinnerungsstücke" benutzt werden (Vorgabe
durch eine andere Person) um Erinnerungsinhalte aus dem Gedächtnis abrufen zu können. An dieser Stelle sei betont, dass
vorstehende Überlegungen nicht der biologischen Vorstellung
von der Speicherung (Abspeicherung von Information) durch
synaptische Plastizität zwischen den Nervenzellen widerspricht. Grundsätzlich kann man sagen, dass über diese Sachverhalte noch gründlich nachgedacht werden sollte und muss.
Erkenntnisse daraus sollten dann bei einer mathematischen
Modellierung künstlicher Netzwerke berücksichtigt werden.
1.3
Künstliche Neuronale Netze
1.3.1
Charakteristika Neuronale Netze
a)
Klassifikation
Die Einteilung der neuronalen Netze kann nach verschiedenen
Gesichtspunkten erfolgen. Üblich ist eine Einteilung bezüglich
15
der Architektur, Verbindungstopologie, Verarbeitungsmodus,
Verwendungszweck etc.
(1)
Einteilung bezüglich der Architektur
• einschichtige Netzwerke (typisch: Gitterbasierte Netzwerke (Lattice Based Associative Memory) wie der Assoziativspeicher)
• mehrschichtige Netzwerke (beispielsweise: MultilayerPerceptron motiviert durch den sechsschichtigen Aufbau des menschlichen Gehirns).
Dabei können die elektrischen Signale auf Nervenfasern
symbolisiert durch gerichtete Verbindungen bei mehrschichtigen Netzwerken nur in einer Richtung erlaubt
sein (gerichtete Verschaltung): top-down- oder bottomup-Verschaltung. Informationsausbreitung kann auch in
beiden Richtungen erfolgen (nicht biologisch motiviert), dann liegt abstrakt gesehen eine bidirektionale
Verbindung vor. Zusätzlich zu diesen Verbindungen
können auch noch laterale Verbindungen erlaubt sein
um eine laterale Inhibition auf einer Nervenfaser (Axon) zu simulieren.
(2)
Charakterisierung nach einer Verbindungstopologie
• Nicht total verschaltet: Nicht jedes Neuron innerhalb
einer Neuronenschicht ist mit jedem Neuron dieser
Schicht oder anderen Schichten verbunden. Beispielsweise kann eine totale Verschaltung zwischen den
Schichten, im Sinne einer Vorwärtsverschaltung oder
einer bidirektionalen Verschaltung ART-System oder
bidirektionaler Assoziativspeicher) existieren aber keine
Kopplung innerhalb einer Schicht.
• Totale Verschaltung: Es liegt ein Netzwerk mit einer
Verschaltung zwischen den Schichten und innerhalb der
Schichten vor.
• Zufällige (probabilistische) Verschaltung. Bei dieser
Art der Verschaltung werden die Verbindungsgewichte
nach einer Wahrscheinlichkeitsverteilung ausgewählt.
16
Eingang
Ausgang
Eingangsneuronenschicht
Ausgangsneuronenschicht
1. Zwischenschicht
( hidden Neuronen )
2. Zwischenschicht
( hidden Neuronen )
Fig. 1.3: Multilayer-Perceptron: Allgemeines mehrschichtiges Netzwerk mit Vorwärtsverschaltung. Das Summationszeichen ∑ bedeutet, dass an der entsprechenden Einheit
alle ankommenden Signale gewichtet mit einem Gewichtsfaktor w ij aufsummiert werden. Die Stufe
deutet an, dass für
eine gewichtete Summation eine Schwellwertoperation auszuführen ist. Für die Schwellwertbildung kann eine Sprung-Funktion, sigmoide Funktion, Signumsfunktion etc. verwendet werden. Künstliche Neuronen mit einer sigmoiden Funktion besitzen eine nichtlineare Charakteristik und können somit formal
als nichtlineares Prozessorelement betrachtet werden.
(3) Charakterisierung bezüglich der Art der Kopplungsstärke
•
•
symmetrische Kopplungsstärke: w ij = w ji .
asymmetrische Kopplungsstärke: w ij ≠ w ji
(4) Charakterisierung hinsichtlich des Verarbeitungsmodus
•
•
•
feed-forward Netzwerke: Die Eingabe wird durch
Vorwärtspropagation zum Ausgang propagiert (siehe
Multilayer-Perceptron).
interaktive Netzwerke
Relaxationsnetzwerke sind Modelle, die sich in einem
Gleichgewichtszustand einschwingen.
(5) Charakterisierung nach der Art des Verarbeitungsmodus
17
•
•
Synchroner Verarbeitungsmodus: Alle Elemente ändern gleichzeitig ihren Zustand.
Verarbeitungsmodus asynchron: Zu jedem Zeitpunkt
wird jeweils nur ein Neuron herausgegriffen und nur
dieses erhält seinen neuen Aktivitätszustand. Die Reihenfolge der Veränderung kann rein zufällig oder fest
vorgegeben sein. Die asynchrone Dynamik findet
hauptsächlich bei Modellen mit diskreten Aktivitätszuständen a j ∈ { 0, 1} oder a j ∈ { − 1,"1 } Anwendung.
(6) Einteilung der neuronalen Netze hinsichtlich ihres Anwendungsbereiches, beispielsweise:
•
•
•
•
Mustererkennung,
Optimierungsprobleme,
Roboterkontrolle und Überwachung,
Entscheidungstheorie und Klassifizierung.
1.3.2 Funktionselemente
a)
Aktivierung eines Netzwerkes
Die Aktivierung ist im allgemeinen für alle Elemente (Zellkörper) eines Netzwerkes gleich. Eine sinnvolle Wahl für die Aktivierungszustände können z.B. reelle Zahlen oder binäre Werte sein. Global kann der Aktivierungszustand eines Netzwerkes
zur Zeit t durch einen N-dimensionalen Vektor charakterisiert
werden:
a(t ) = { a i (t )} iN=1 .
a i (t ) ist der Aktivierungszustand des i-ten Elementes u i und
N ist die Zahl der Netzwerkzustände.
b)
Eingabegröße für ein Netzwerkelement (Neuron)
Ein Neuron u j kann i Eingangsverbindungen besitzen. Demzufolge kann der Eingangszustand eines Neurons durch einen ikomponentigen Inputvektor beschrieben werden.
c)
Funktioneller Zusammenhang zwischen der Aktivierung
und der Ausgabe an einem Neuron
Die Netzwerkelemente sind untereinander durch Leitungen
verbunden (symbolisiert durch Linien mit einer Richtung für
die Propagation der Information) über die sie interagieren können. Die Häufigkeit der Spikefolge die ein Neuron verlässt, ist
18
abhängig von der überschwelligen Aktivierungsdauer. Jedem
Neuron kann informationstheoretisch eine individuelle Ausgabefunktion f j (auch f out genannt, meistens ist f out gleich der
Identitätsfunktion) zugeordnet werden, die den Zusammenhang
zwischen der Aktivierung a j und der Ausgabe o j am Neuron j
beschreibt:
(
)
o j (t ) = f j a j (t ) .
Geben alle N Elemente des Netzwerkes zur Zeit t ihre Werte
aus, so gilt in Vektornotation:
o (t ) = { o i (t )} iN=1 .
Haben alle Neuronen das gleiche funktionelle Verhalten, so
beschreibt f: A → 0 die Abbildung der Menge der Aktivierungszustände A in die gesamte Ausgabe 0.
Die Ausgabefunktion kann eine deterministische Funktion,
eine sigmoide (probabilistische) Funktion oder, wie oben erwähnt, die identische Abbildung sein.
d)
Propagierungsfunktion
net ist die Propagierungsfunktion die zum Zeitpunkt t anhand
der Gewichte w ij und der Ausgabe der vorgeschalteten Elemente, die Eingabe in die einzelnen Elemente (interne Eingabe) bestimmt. Mathematisch besteht der folgende Zusammenhang:
net = g ( w ij , Aktivierung).
Neuron i mit
Aktivität a i und Output o i
Neuron j mit
Aktivität a j und Output o j
Axon
Synapse symbolisiert
mit dem Synaptischen
Gewicht w ij zwischen
Synapse
Neuron i und Neuron j.
Fig.1.4: Das Neuron i gibt über die Nervenfaser (Axon, Dendriten) seine Information (Spikefolge) an das Neuron j. Positive
Gewicht symbolisieren anregende Synapsen, negative Gewichte hemmende Synapsen.
19
Aus der Biologie ist bekannt, dass ein Neuron j alle ankommenden Signale aufsummiert, somit folgt:
N
net j (t ) = ∑ a i (t ) ⋅ w ij .
i =1
Für einfache Elemente können wir die identische Abbildung
o i (t) = a i (t) benutzen und erhalten für die Propagierungsfunktion:
N
net j (t ) = ∑ o i (t ) ⋅ w ij .
i =1
net j ( t ) ist somit der aufsummierte gewichtete Input am Neu-
ron j von allen Ausgaben der Vorgängerneuronen multipliziert
mit den synaptischen Gewichten (genannt auch Verbindungsgewichte) w ij der Verbindung von Neuron i nach Neuron j. Es
ist die gesamte Netzeingabe am Neuron j. Symbolisch:
net j
ai
oi
aj
oj
net i
Fig. 1.5:
Neuron.
net repräsentiert den gewichteten Input an einem
Bem.: Die w ij repräsentieren die Elemente einer Matrix
W = w ij zwischen Eingabevektor und Ausgabevektor.
( )
e)
Externe Eingabefunktion e(t)
Durch eine externe Eingabe e j (t) in ein Element u j zur Zeit t
können die Neuronenzustände von außen beeinflusst werden.
Die externe Eingabe kann statistisch erfolgen, indem den einzelnen Eingabeelementen (unabhängig von der Ausgabe) Werte zugewiesen werden oder indem die Eingabeelemente bestimmte Initialisierungs-Aktivitätswerte (Bias-Werte) simultan
erhalten.
20
f)
Aktivierungsfunktion
f.1) Allgemeiner Ansatz
Die Aktivierungsfunktion f act auch Übertragungsfunktion
genannt, bestimmt für jedes Prozessorelement (formales Neuron) u j ( t ) den neuen Aktivierungszustand a j ( t + τ) im nächsten Zeitschritt
(
)
a j (t + τ ) = f act a j (t ), e j (t ), net j ,... .
Der Wert der Aktivierung zur Zeit t + τ ist abhängig von der
aktuellen Aktivierung a j ( t ) , einer möglichen externen Eingabe e j ( t ) in das Prozessorelement, möglichen exzitatorischen
und inhibitorischen Einflüssen über net j , etc. Im einfachsten
Fall hängt die Aktivierungsfunktion f act nur von der gewichteten Summe der Ausgabe der vorgeschalteten Elemente ab, die
das Element j aufnimmt:
(
)
a j (t + τ ) = f act net j (t ) .
Zur Vereinfachung kann angenommen werden, dass alle Elemente die gleiche Aktivierungsfunktion besitzen:
(
)
a j (t + τ ) = f net j (t ) .
f.2) Nichtlineare Übertragungsfunktion
Als Ansatz für eine nichtlineare Übertragungsfunktion kann
eine sigmoide Kurvencharakteristik benutzt werden
( )
f Ej =
1
1 + exp − E j /T
(
)
,
wobei
N
E j = net j + e j − θ j = ∑ o i w ij + e j − θ j
i=1
die gesamte Eingabe am Neuron j (Fig. 1.6) ist.
21
( )
f Ej
i
T = 0.5
1.0
1.0
2.0
4.0
8.0
0.8
0.6
0.4
0.2
Ej
E
-20
-10
0
10
20
Fig .1.6: Abhängigkeit der nichtlinearen Übertragungsfunktion von dem Parameter T (auch als Temperaturparameter bekannt).
Bezeichnung:
T
θj
Parameter (wird oft als Temperatur interpretiert werden),
Schwellwert des Neurons i,
w ij Verbindungsgewichte (Kopplungsstärke) zwischen dem
Neuron i und dem Neuron j.
In den folgenden Ausführungen wird angenommen, dass das
vorgeschaltete Neuron den Index i und das nachgeschaltete
Neuron den Index j besitzt. Interpretation von f: Ein Neuron j
summiert alle gewichteten Inputwerte E j auf und transformiert
diesen Wert nach Maßgabe der nichtlinearen Übertragungsfunktion in seinen Ausgang o j = f (E i ) .
Der Temperaturparameter T dient zur dynamischen Veränderung der sigmoiden Funktion. Größere T-Werte verringern den
Einfluss von E j , entsprechend signifikant sind kleine Veränderungen in der Eingabe bei geringeren T-Werten bezüglich der
Ausgabe.
f.3) Übertragungsfunktion Tangenshyperbolikus
Eine weitere sigmoide Funktion ist durch den hyperbolischen
Tangens (tanh) gegeben:
22
( )
( )
f E j = tanh E j
mit
( )
lim tanh E j → 1 und
E j →∞
( )
lim tanh E j → −1
E j → −∞
f.4) Signumsfunktion als Übertragungsfunktion
Die Signumsfunktion besitzt folgende Eigenschaft:
E i > 0⎫
⎧+1
⎪
⎪
sign (E j ) = ⎨ 0 für E i = 0⎬ .
⎪⎩−1
E i < 0⎪⎭
Ist E j = 0 , d.h. liegt keine Veränderung am Neuron vor, dann
wird bei einem Zweizustands-Neuron sign (E j ) = 0 gesetzt.
f.5) Sprungfunktion
Die ϑ -Funktion mit ihren zwei Werten kann ebenfalls als Übertragungsfunktion benutzt werden:
E j > 0⎫
⎧1
⎪
⎪
ϑ E j = ⎨ für
⎬.
⎪⎩0
E j ≤ 0⎪⎭
( )
Ist E j = 0 , d.h. liegt keine Veränderung für das Neuron vor,
dann soll es auch nicht stereotyp reagieren. Wir setzen deshalb
ϑ(E j ) = 0 , falls E j = 0 ist.
f.6) Spezielle Aktivierungsfunktionen
(6.1)
Die Aktivierungsfunktion von Grossberg lässt zu, dass
die Werte der Aktivierungszustände in einem vorgegebenen Intervall [min, max] liegen:
a j ( t + τ) = a j ( t ) ⋅ (1 − d ) + (max − a j ( t )) ⋅ net e, i − (a i ( t ) + min) ⋅
net i,i ( t )
Es bedeuten:
23
net e, i
net i, i
1-d
die aufsummierte exzitatorische Eingabe für das Neuron j ,
entsprechend die aufsummierte inhibitorische Eingabe,
Simulation einer abnehmenden Aktivierung .
Durch die eine maximale Deaktivierung min und die maximale
Aktivierung max, kann die Aktivierung nicht beliebige Werte
annehmen.
(6.2)
Die Aktivierungsfunktion von Feldman und Ballard für
Schwellwert-Elemente ist gegeben durch
a j ( t + τ) = a j ( t ) + c1 ⋅ ∑ o i ( t ) w ij ,
i
mit
⎧a j ( t ) − c 2 , falls a j ( t ) > c 3 ⎫
o j (t) = ⎨
⎬
sonst .
⎭
⎩0
c1 , c 2 und c3 sind reelle Zahlen, wobei c 3 eine untere Aktivierungsbegrenzung darstellt. Die Aktualisierung des Aktivitätszustandes kann synchron oder asynchron stochastisch erfolgen.
g)
Operanden
Da die Input- als auch die Outputwerte diskret oder kontinuierlich sein können, sind verschiedene Fälle zu unterscheiden.
Falls Input und Output kontinuierlich sind, sollte zwischen den
Musterpaaren (Input, Output) eine Abbildung gefunden werden, die zwischen diesen interpoliert. Kohonen /Ko1-4/ hat
gezeigt, wie diese für den linearen Fall zu finden ist. Er benutzt
als Maß für die Ähnlichkeit den euklidischen Abstand. Palm
/Pa1-7/ hat eine Erweiterung auf polynomiale Abbildung vorgenommen. Die Anwendungsbereiche mit solchen (Input, Output)-Paaren liegen im Bereich der Regelungstechnik, z.B. balancieren eines Stabes, Steuerung einer chemischen Reaktion
(/Ers/) etc., aber auch als Abbildung von sensorischen Feldern
auf die innere Repräsentation (Kohonen /Ko2/) etc.
Ist der Input kontinuierlich und der Output diskret, wird der
kontinuierliche Inputraum in Bereiche eingeteilt und diesen
jeweils ein diskretes Outputmuster zugeordnet. Das neuronale
Netz leistet eine Klassifizierung, es sollte sich daher für die
Aufgaben der Mustererkennung, Entscheidungen, Klasseneinteilung etc. eignen, allerdings sind diese Netzwerke oft mehr-
24
schichtig. Als Beispiel sei genannt NETtalk (/Se/) für das Lernen der Aussprache eines geschriebenen Textes (Text-toSpeech-Recognition) und das Perceptron (/Ro1-3/, /Mi/) für
Aufgaben der Mustererkennung.
Sind Input und Output diskret, so liegt der übliche Fall der Informationsverarbeitung vor. Beispiele sind das HopfieldModell, der Assoziativspeicher etc.
1.3.3 Architekturprinzipien
a)
Einschichtige Netzwerke
Einschichtige Netzwerke sind solche, die nur aus einer Neuronenschicht bestehen und bei denen eine gewisse Anzahl von
Neuronen einen Inputvektor aufnehmen und andere Neuronen
einen Outputvektor ausgeben. Beispiele für solche einschichtige Systeme sind in der Literatur bekannt als
• Hopfield-Modell und hopfieldartige Modelle,
• gitterartige Netzwerke (Lattice-Based-Networks).
b)
geschichtete Netzwerke
Als Vorbild für geschichtete Netzwerke kann die Großhirnrinde mit ihren sechs Schichten angesehen werden. Geschichtete
Netzwerke repräsentieren eine hardwaremäßige Hierarchie und
sollten leistungsfähiger als einschichtige Netzwerke sein. n
Eingangssignale aus {0,1} sollen durch ein geschichtetes
Netzwerk zu m Ausgangssignalen aus {0,1} verschaltet werden. Mathematisch kann eine solche Verschaltung durch eine
Funktion F repräsentiert werden:
F : { 0,1}in= 1 → { 0,1}m
j= 1 .
Ist eine Menge von Mustern p = (I, 0 ) gegeben, wobei I ein
Inputvektor und 0 ein Zielvektor (Outputvektor) ist, so muss
jedes p die Bedingung
F(I ) = 0
erfüllen.
Die einzelnen Neuronen können auf verschiedene Art verschaltet werden (Verbindungstopologie):
•
gerichtete Verschaltung:
feed-forward-Verschaltung
25
•
•
•
Diese Verschaltungsart besagt, dass ein Input durch Vorwärtspropagation im Netzwerk verarbeitet wird und einen
Output erzeugt. Analog zu dieser Begriffsbildung sind die
Begriffe top-down und bottom-up zu interpretieren:
top-down-Verschaltung,
bottom-up-Verschaltung.
bidirektionale Verschaltung (Beispiel: BoltzmannMaschine, BAM-System, ART-Topologie)
laterale Verschaltung
totale Verschaltung:
Dabei handelt es sich um eine Verschaltung mit Verbindungen zu allen Neuronen.
26
Herunterladen