Document

Neuronale Netze und Gedächtnis
pdf-File (farbig): http://www.cns.unibe.ch/~wsenn/#teaching
1.
Physiologische Grundlagen
2.
Affen-Experiment
3.
Binäre Klassifikation
4.
Hopfield-Modell
Walter Senn, 2003
Die 7 Schichten des Neokortex
Frontaler
kortex
I
II
Primärer
visueller
Kortex (V1)
III
IV
V
VI
Ramon y Cajal, 1898
Kortikales Netzwerk von Nervenzellen
Dendriten
Aktionspotential
(binär)
Synapse
post-synaptisches
Potential (analog)
Soma
Axon
100 mV
10 ms
Die Synapse als elektrochemisches Bindeglied
Aktionspotential
Mg2+
Glutamat
K+
(Neurotransmittor)
+
Na
NMDARezeptor
Exitatorisches postsynaptisches Potential
(EPSP)
~100 EPSPs Æ 1 Aktionspotential
Gleichzeitige prä- und postsynaptische Aktivierung: Æ Einbau weiterer Kanäle („LangzeitPotenzierung der Synapsen“) Æ grösserers EPSP (grösserer „synaptisches Gewicht“)
Prinzip der assoziativen synaptischen Plastizität
nach Paarung
auf Rosenduft
(Stim. Koll. B)
auf Zwiebelduft
(Stim. Koll. C)
Antworten des CA1 Neurons....
Verstärkung
Bild oder Duft aktivieren CA1Neuron („Rosenneuron“)
auf Bild der Rose
(Stim. Koll. A)
vor Paarung
Zeit
Ort der Hebb‘schen Plastizität
(Schaffer Kollateral Æ CA1 Neuron; Hippocampus)
Paarung: gleichzeitige
visuelle und olfaktorische
Stimulation mit Rose
(bzw. elektr. Stim. von
Kollateral A und B)
Baer-Connors-Paradiso, Neuroscience, 2001
Gedächtnis: Vernetzung verschiedener Inhalte
• Wann? 31. August 1997 Æ Fakten
• Wo war ich? Æ Ereignisse
• Schuldige? Æ Emotionen
• Wie hätte ich als Fahrer reagiert? Æ Skills/Reflexe
(Qualitative) Klassifikation von Gedächtnis
Deklarativ (explizit)
Fakten
Ereignisse
Nicht-deklarativ (implizit)
Priming,
Habituation
(perzeptives
Lernen)
prozedural
(Fertigkeiten)
Konditionierung
(„assoziatives
Lernen“)
emotional
medialer Temporallappen +
Neocortex
Neokortex
Basalganglien
Motorik
Amygdala Kleinhirn
Kandel-Schwartz-Jessel, Principles of Neuroscience, 2001
Repräsentation der verschiedenen
Gedächtnisarten im Gehirn
prozedural: basothalamo-cortical
Angst-Konditionierung,
Emotionen: Amygdala
deklarativ (Fakten + Ereignisse):
cortico-hippokampal
Priming: sensorische Areale
Motor-Konditionierung:
Kleinhirn
Zeitliche Klassifikation von Gedächtnis
Sensorische Eingänge
< 1s
Sensorisches Gedächtnis: verblassende
Neuronen-Aktivität, unbewusst,
vorwiegend primäre sensorische Areale
Bsp: optische Nachbilder beim Lesen
SekMin
Kurzzeitgedächtnis: selbsterhaltende
(„kreisende“) Netzwerk-Aktivität,
willentlich, vorwiegend höhere Areale
Bsp: Telefonnummern wiederholen
Abruf
TageJahre
Langzeitgedächtnis: Lang-ZeitPotenzierung/Depression synaptischer
Verbindungen; Neocortex, Hippocampus,
Basalganglien, Amygdala, Kleinhirn, etc.
Das Affenexperiment:
Entstehung von Lang- und
Kurzzeitgedächtnis (deklarativ)
V. Yakovlev, S. Fusi, E. Berman, E. Zohary. Inter-trial neuronal activity in infero-temporal cortex: a
putative vehicle to generate long term associations. Nature Neuroscience, 1, No. 4, 310-317 (1998)
Das delayed match-to-sample Experiment
Sample-Stimulus in
Kurzzeitgedächtnis
Extrazelluläre Ableitungen in IT
Inferotemporaler Kortex
IT
Ableitungen
Selektive Delay-Aktivität
Keine Delay-Aktivität:
Stimulus unbekannt (Ænicht
genügend LTP) oder Neuron
nicht selektiv für Stim 24.
Delay-Aktivität:
Neuron selektiv für Sim 14 und
Stimulus genügend oft gezeigt
(ÆLangzeitgedächtnis)
Verschiedene Stimuli aktivieren verschiedene Netzwerke
Lernen der Stimuli: Hebb‘s Postulat
Gleichzeitige Aktivität von Neuronen stärkt ihre synaptische Verbindung:
"When an axon of cell A is near enough to excite B and repeatedly or persistently takes part
in firing it, some growth process or metabolic change takes place in one or both cells such
that A's efficiency, as one of the cells firing B, is increased." (Donald O. Hebb, 1949)
Verbindung zwischen
aktiven Neuronen
verstärkt
Nach synaptischer Potenzierung: Delay-Aktivität als
selbsterhaltende Netzwerk-Aktivität
Ist Delay-Aktivität wirklich ein Attraktor?
0
1
Computererzeugter
Stimulus, nicht verrauscht,
hundertfach gezeigt.
Degradation Level
2
3
Verrauschte Varianten,
nicht gelernt.
4
Attraktor!
...da kein kontinuierlicher
Übergang in den DelayAktivitäten mit zunehmendem
Degradationsgrad.
Binäre Klassifikation:
Arbeitsweise eines neuronalen
Attraktor-Netzwerkes
Das schwarz-weiss Klassifikationsproblem
Lösung:
-
Seriell, durch Auszählen der schwarzen und weissen Pixels.
-
Parallel, als emergente Funktion eines interagierenden Systems einfacher
Recheneinheiten.
61/100 (black/total)
52/100 (black/total)
179/400 (black/total)
220/400 (black/total)
5381/10’000 (black/total)
4459/10’000 (black/total)
Antwortzeit
Pop-out versus serielles Auszählen
l
l
e
ri
e
s
Pop-out (Relaxation)
Bildgrösse
Antwortzeiten des Hirns
Aktivitätsdifferenz zwischen `go´
und `no-go´ Fällen (schwarz/weiss
bzw. Tier/kein Tier). Motorische
Antwort nach 400ms.
Aktivitätsprofil der 7 frontalen
Elektroden. Signifikanter
Unterschied nach 150ms.
S Thorpe, F Fize & C Marlot. Speed of processing in the human visual system. Nature, 1996
Dynamik des neuronalen Netzwerkes
Aktivität von Neuron i: si=±1, je nach dem ob Pixel i schwarz (-1) oder
weiss (+1) ist.
Verbindung von Neuron j zu Neuron i mit synaptischem Gewicht Jij.
Interaktion zwischen Neuronen: Neuron j trägt proportional zum
synaptischen Gewicht Jij zum Potential hi von Neuron i bei.
si (t + 1) = sign (hi (t ) ) ,
s1
J11
Σ
sN
J1N
hi (t ) = ∑ Jij s j (t )
j
1 if J 1s = ∑ J1 j s j ≥ 0

j
s1 = 
− 1 if ∑ J1 j s j < 0
j

Lösung des schwarz-weiss Problems
Identische synaptische Gewichte Jij=1.


si (t + 1) = sign ∑ s j (t )  ,
 j

Majoritätsregel!
Schneeballeffekt Æ alles wird entweder schwarz oder weiss
Allgemeiner Konvergenzbeweis
Annahme: symmetrische Verbindungen, Jij= Jji (“Integrabilitätsbedingung“)
Energie:
E (t ) = − ∑ si (t )hi (t ) = − ∑ si (t )∑ Jij s j (t ) = − ∑ Jij si s j
i
j ≠i
i
i,j
Behauptung: Energie wird höchstens kleiner! Æ Gradientenabstieg
Beweis: Nimm an, höchstens Neuron (Pixel) 1 werde zur Zeit t verändert.
E = E ( t ), E' = E( t + 1) , s = s( t ) , s' = s( t + 1) , s' j = s j
fuer j≠1 und
s '1 = −s1
E ' = − ∑ Jij si ' s j ' = −J11s1' s1'− ∑ J1 j s1' s j − ∑ Ji 1si s1 = − J11 − 2∑ J1 j s1' s j
j ≠1
i,j
i ≠1
s’j=sj fuer j≠1
j ≠1
Jij=Jji
E = − ∑ Jij si s j = −J11 − 2∑ J1 j s1s j
j ≠1
i,j
⇒ E '−E = −2∑ J1 j s1' s j + 2∑ J1 j s1s j = 4∑ J1 j s1s j = 4s1 ∑ J1 j s j = 4s1h1 < 0 .
j ≠1
j ≠1
j ≠1
j ≠1
s’1=-s1


s1' = sign(h1) = sign ∑ Jij s j  = −s1 ⇒ s1h1 < 0 .
 j

Somit: s(t) konvergiert gegen lokales Minimum der Energie!
Landschafts - Metapher
Klassifikation schwarz/weiss:
E(s1,…,sN)
grauer Hügel
N
E (s1,..., sN ; t ) = − ∑ si (t )hi (t )
i =1
schwarzes Tal
weisses Tal
Das Hopfield-Modell
Attraktor-Netzwerk als assoziativer
Speicher
Literatur: J Hertz, A Krogh, RG Palmer. Introduction to the theory of neural computation, 1991
R. Rojas. Theorie der neuronalen Netze, 1993
Platzierung eines beliebigen Tales
- Wähle beliebiges Muster (Talsohle), z.B. ξ=(1,-1,-1,1,...,-1).
-
Transformiere si Æ s’i= ξisi
⇒ Falls si=ξi wird s‘=(1,1,...,1), d.h. S liegt im weissen Tal.
-
Schwarz/weiss-Dynamik:


s 'i (t + 1) = sign ∑ s ' j (t ) 

 j
oder


ξ i si (t + 1) = sign ∑ξ j s j (t ) 

j







⇒ si (t + 1) = ξ i sign ∑ ξ j s j (t )  = sign ∑ ξ iξ j s j (t )  = sign ∑ Jij s j (t ) 
 j

 j

 j

Jij
Setze Jij=ξiξj , um Muster ξ zum lokalen Energieminimum zu machen.
Platzierung mehrerer Täler (Hopfield-Modell)
- Talsohlen bei den p Mustern ξ1=(ξ11,..., ξ1Ν), ..., ξp .
p
- Synaptische Gewichte: Jij = ∑ξ i ξ j . In Matrix-Form:
µ
µ
µ =1
p
J = ∑ξ ξ
µ
µ
µ =1
- Dynamik wie vorher: si (t + 1) = sign(hi (t ) ) , hi (t ) = ∑ Jij s j (t )
j
In Matrix-Form: s (t + 1) = sign (J s (t ) )
- Neue Landschaft: Klassifikation von Muster in p Klassen
N
E(s1,…,sN)
E (s1,..., sN ; t ) = − ∑ si (t )hi (t )
i =1
U-Tal
L-Tal
C-Tal
“spurious state” Æ
erhöhe “Temperatur”Æ
spontanes Entweichen
Sind die Muster wirklich stabil?
Setze s(t)=ξ1 =(ξ11,..., ξ1Ν). Gilt s(t+1)= s(t)=ξ1 ?
?
( )
ξ = sign Jξ
1
1


 p µ µ 1
µ µ
= sign  ∑ξ ξ ξ  = sign  Nξ 1 + ∑ξ ξ ξ 1 
µ ≠1



 µ =1
C „Crosstalk“
µ ν
Fall 1: Orthogonale Muster, d.h. ξ ξ = 0 fuer µ ≠ ν .
µ
⇒ ξ ξ 1 = 0 fuer
( )
µ ≠ 1, und damit C = 0.
( )
⇒ sign Jξ 1 = sign Nξ 1 = ξ 1
Muster ξ1 ist Fixpunkt. Stabil aufgrund der bewiesenen Attraktoreigenschaft.
Stabilität für gelernte zufällige Muster
Fall 2: Zufällig gewählte Komponenten ξµi = ±1
?
( )
ξ = sign Jξ
1
1
 p µ µ 1


µ µ
= sign  ∑ξ ξ ξ  = sign  Nξ 1 + ∑ξ ξ ξ 1 
µ ≠1
 µ =1



C „Crosstalk“

µ µ 1

Ci =  ∑ξ ξ ξ  = ∑∑ ξ iµξ jµξ 1j = Summe von (p-1)N zuffällig gewählten ±1.
 µ ≠1
i µ ≠1 j
±1
⇒ Erwartungswert: Ci = 0
2
Varianz: Ci = ( p − 1)N (zentraler Grenzwertsatz)
⇒ hi1 = Nξ i1 + η pN , mit η gaussverteilt um 0 mit Varianz 1 (p≈p-1).
1
⇒ ξ1 ist Fixpunkt: s (t ) = ξ
( )
(
)
⇒ si (t + 1) = sign Jξ 1 i = sign Nξ i1 + η pN = ξ i1 = si (t ) , falls p nicht zu gross.
Die gelernten zufälligen Muster sind Attraktoren
Talsohlen (ξµ) sind auch Attraktoren: Starte mit s(t)= ξ1 und invertiere m Pixel.
m nicht zu gross: m p pN
( )
(
)
⇒ si (t + 1) = sign Jξ 1 i = sign (N − 2m)ξ i1 + η pN = ξ i1 = si (t )
Bereits beim nächsten Zeitschritt sind alle m Pixel wieder zurückgedreht. Das
Muster wird korrekt ergänzt („erkannt“).
Beispiel 1
Zahlen 0,..,9 abgespeichert in 10x10 Netzwerk
 100

si ( t + 1) = sign ∑ Jijs j ( t )  ,
 j=1

9
Jij = ∑ξi µξ jµ
µ =0
Korrekte Ergänzung
Original
Falsche Ergänzung
Präsentation
t=5
t=10
t=15
t=20
t=25
t=30
t=35
Original
Präsentation
t=7
t=14
t=21
t=28
t=35
t=42
t=47
Beispiel 2
Vervollständigung von
gelernten Bildern
Aus: J Hertz, A Krogh, RG Palmer, Introduction
to the theory of neural computation, 1991
Landschafts-Metapher im Affenexperiment
1. Zustand vor Präsentation des visuellen Stimulus: Netzwerk im „schwarzen“
(vollständig inaktiven) Tal. Neuron X und Y beide nicht aktiv, s(t1)=(-1,-1).
Landschafts-Metapher im Affenexperiment
2. Zustand während Präsentation des visuellen Stimulus ξ=(1,-1): Netzwerk wird
im „Hang“ des „ ξ-Tales“ festgehalten. Neuron X ist (stark) aktiv, Neuron Y ist
nicht aktiv, s(t2)=(1,-1).
Landschafts-Metapher im Affenexperiment
3. Zustand nach Präsentation des visuellen Stimulus ξ =(1,-1): Netzwerk rutscht
in „ξ-Tal“. Neuron X bleibt aktiv, Neuron Y bleibt inaktiv, s(t3)=(1,-1).
Speicherkapazität des Hopfield-Netzwerkes
Wieviele Muster können mit N Neuronen gespeichert werden?
Intuition: 1 zusätzliches Neuron Æ N zusätzliche Synapsen Æ N zusätzliche
Freiheitsgrade Æ 1 zusätzliches Muster mit N Pixel. ⇒ Speicherkapazität ∝N.
Methode: Abschätzung des Crosstalks C.
pN

µ µ 1 
µ µ 1
Ci =  ∑ ξ ξ ξ  = ∑∑ ξi ξ j ξ j = ∑ ζ k , mit ζ k = ±1 (50%).
k =1
 µ ≠1
i µ ≠1 j
σ
Perror =
N
Ci
1
2πσ
∫
∞
N
e −x
2
2σ
dx =
(
(
1
1 − erf N
2
)
2σ2 = P(p,N) < 0.01
σ = pN
Resultat: Perror = P(p,N) < 0.01 falls p < 0.185·N. ⇒ Speicherkapazität≈0.18·N
d.h. mit N=1000 Neuronen können p=185 zufällige Muster mit einer
Fehlerwahrscheinlichkeit <1% pro Pixel gespeichert werden.
Appendix: Summe Sn von n Zufallszahlen ±1
n → ∞ (n=pN)
Binomialverteilung → Normalverteilung
Summe S
1
1
1
−1
1
1
3
2
1
6
3
1
4
4
Wahrsch‘keit
von Sn=S
50%
Sn
50%
σ
n
Pn (S) =
Stirling‘sche Formel
n
1

2n  (S + n)

 →
2 
2
1
e −S 2 n
2πn
Varianz : σ2 = n
1
1
S + 1 , 50%
Sn+1 =  n
Sn − 1 , 50%
n gross
(für Binomial- und Normalverteilung)
2
⇒ Sn+1
⇒ Sn
2
=
1
(Sn + 1)2 + 1 (Sn − 1)2
2
2
= n, ⇒ σ = n
(n=pN)
2
= Sn + 1 = Sn
2
+1