657 kB - Allgemeine Psychologie I

Werbung
Memory is a mud trap
Über den Verlauf
des Vergessens
Christian Kaernbach
Universität Leipzig
Wie zerfallen Gedächtnisinhalte?
• Zerfall oder Interferenz?
– Untrennbar miteinander verbunden:
Es gibt keine Retentionsdauer,
in der keine Interferenz stattfände,
und sei es durch interne Zustände.
– Ob man Zerfall oder Interferenz mißt,
hängt von der eingesetzten Methode ab.
– Im folgenden wird nur betrachtet
der Zerfall als Funktion der Zeit.
Wie zerfällt Uran?
• Radioaktiver Zerfall ...
Ausschwingen einer Gitarrensaite
Bremsvorgänge in Flüssigkeit oder Gas
allgemein: Relaxation in linearen Systemen
... verläuft exponentiell
x(t )  x0e  t
• generiert durch „negative Verzinsung“
d
– Pro Zeiteinheit zerfällt
x(t )    x(t )
ein gleicher Prozentsatz. dt
Ebbinghaus
60
Ersparnis [%]
50
40
30
20
10
0
0
5
10
15
20
25
Retentionsintervall [Tage]
Ebbinghaus, H. (1885). Über das Gedächtnis.
Untersuchungen zur experimentellen Psychologie.
Leipzig: Duncker & Humblot.
30
100  k
x(t ) 
(log 10 t ) c  k
Ebbinghaus
60
Woodworth &
Schlosberg (1954):
Ersparnis [%]
50
40
x(t )  d  a log t
30
20
Anderson (1983):
10
x(t )  x0t  
0
0
5
10
15
20
25
Retentionsintervall [Tage]
Ebbinghaus, H. (1885). Über das Gedächtnis.
Untersuchungen zur experimentellen Psychologie.
Leipzig: Duncker & Humblot.
30
100  k
x(t ) 
(log 10 t ) c  k
Ebbinghaus
100
log10 (Ersparnis [%])
Woodworth &
Schlosberg (1954):
x(t )  d  a log t
Anderson (1983):
x(t )  x0t  
10
10
100
1000
10000
log10 (Retentionsintervall [Minuten])
Ebbinghaus, H. (1885). Über das Gedächtnis.
Untersuchungen zur experimentellen Psychologie.
Leipzig: Duncker & Humblot.
100000
100  k
x(t ) 
(log 10 t ) c  k
Ebbinghaus
100
log10 (Ersparnis [%])
Woodworth &
Schlosberg (1954):
x(t )  d  a log t
Anderson (1983):
x(t )  x0t  
10
10
100
1000
10000
log10 (Retentionsintervall [Minuten])
Ebbinghaus, H. (1885). Über das Gedächtnis.
Untersuchungen zur experimentellen Psychologie.
Leipzig: Duncker & Humblot.
100000
100  k
x(t ) 
(log 10 t ) c  k
Ebbinghaus
100
log10 (Ersparnis [%])
Woodworth &
Schlosberg (1954):
x(t )  d  a log t
Anderson (1983):
x(t )  x0t  
10
10
100
1000
10000
log10 (Retentionsintervall [Minuten])
Ebbinghaus, H. (1885). Über das Gedächtnis.
Untersuchungen zur experimentellen Psychologie.
Leipzig: Duncker & Humblot.
100000
Kurvenanpassung
• Rubin, D.C. & Wenzel, A.E. (1996)
One hundred years of forgetting:
a quantitative description of retention.
Psychol. Rev. 103, 734-760.
– 210 Datensätze
– 105 zweiparametrige Formeln (theoriefrei)
– kein Sieger
Gültigkeit des „Potenzgesetzes“
• Material
– Sinnlose Silben, Wörter
– Alltagswissen
– Fertigkeiten
• Explizites und implizites Gedächtnis
• Lernen und Vergessen
• Zeitbereiche
– Wixted & Ebbesen (1991): 2.5-40 s
– Squire (1989): 1 - 15 Jahre
• Spezies
– Menschen
– Hunde, Ratten, Katzen, ...
– Bienen
Gültigkeit des „Potenzgesetzes“
• Material
– Sinnlose Silben, Wörter
– Alltagswissen
– Fertigkeiten
• Explizites und implizites Gedächtnis
• Lernen und Vergessen
• Zeitbereiche
Baddeley, A. (1997)
– Wixted & Ebbesen (1991): 2.5-40 s
– Squire (1989): 1 - 15 Jahre
• Spezies
– Menschen
– Hunde, Ratten, Katzen, ...
– Bienen
Human memory: Theory and
practice. Hove: Psychology Press.
“We know surprisingly little
about this most fundamental
aspect of human memory.”
Gedächtnismodelle
• Jede Spur ist ein getrennter Knoten im Netzwerk.
– Suche unter parallel aktivierten Spuren
• SAM (Raaijmakers & Shiffrin, 1980)
– Aktivierungsausbreitung zwischen den Spuren
• ACT (Anderson, 1983)
• Die Spur ist auf alle beteiligten Knoten verteilt.
Parallel Distributed Processing
(Rumelhart McClelland 1986)
– Hopfield Netz (Hopfield & Tank, 1986)
Das Hopfield-Netz
• N Neurone, symmetrisch all-to-all verbunden.
cj
wij
Zustand des Neurons j
Gewicht der Synapse zwischen Neuron j und Neuron i
• internes Potential =
Summe der Aktivität  Synapsengewichte.
N
Vi (t )   wij c j (t  1)
j 1
1
p(ci feuert ) 
1  e Vi / kT
k 1
p(Feuern)
• Feuern probabilistisch.
internes Potential
Hebbsches Lernen
• wij wird vergrößert,
„wenn es mit den Geschehnissen
kompatibel ist“.
cj(t1) = +1, ci(t) = +1, oder cj(t1) = –1, ci(t) = –1.
• wij wird verkleinert,
„wenn es mit den Geschehnissen
inkompatibel ist“.
cj(t1) = +1, ci(t) = –1, oder cj(t1) = –1, ci(t) = +1.
• Größe der Veränderung: Lernrate h
wii  0
wij  1
Vergessen im Hopfield-Netz
• Start mit Idealgewichten für zu erinnerndes Muster.
• Hebbsches Lernen bei hoher Temperatur bewirkt allmähliches Vergessen.
x(t )  x0e  t
ln x(t )  ln x0  t
Diffusion mit Hindernissen
x
E
d
x    x
dt
  e  E / kT
x(t )  x0e  t
Systematisch durchvariieren:
Neuronenzahl N = 8, 16, 32, 64
Temperatur
T = 0.1...0.5
Lernrate
h = 0.1...0.4
Mit steigendem h sinkt E:
E  0.58  h0.6
ln x(t )  ln x0  t
E  kT ln 
Diffusion mit Hindernissen
x
d
x    x
dt
E
  e  E / kT
x(t )  x0e  t
Nicht-exponentielle Diffusion
E
Häufigkeit E
x

d

  x    x
 dt 
  0,1
x(t )  x0  ML ((t ) )
Mittag-Leffler-Funktion
• Beispiel für  = 0.5:
Spur
log (Spur)
Anwendbarkeit in der
Gedächtnispsychologie?
Zeit
?
log (Zeit)
• ML-Funktionen passen zu den Gedächtnis-Daten.
• ML-Funktionen haben keine Singularität bei t = 0.
• Es gibt eine erzeugende Differentialgleichung,
die von einem mikromechanischen Modell motiviert ist.
Fallen verschiedener Tiefe
• Einwand: Im Hopfieldnetz
liegen bei konstantem h
Fallen gleicher Tiefe vor.
• Bei einer Exponentialverteilung
der Fallentiefe ergibt sich eine
Wartezeitverteilung mit
nicht-finitem Mittelwert:
t   : W (t ) 
1
t
 1
,   0,1
E
Dynamische Fallen
• In der Neuroinformatik üblich:
T oder h mit der Zeit verkleinern.
– simulated annealing: T nimmt ab.
– Kohonen-Karten: h nimmt ab.
• äquivalent: E vergrößern.
– setzt globalen Effektor voraus (Hormon?)
– festes Zeitschema
• inadäquat für kontinuierlichen Input

E
E
e Et1 / kT  e Et / kT  
Dynamische Fallen
• In der Neuroinformatik üblich:
T oder h mit der Zeit verkleinern.
Wartezeitverteilung mit
nicht-finitem Mittelwert:
W (t ) 
1
t  1
mud trap
– simulated annealing: T nimmt ab.
– Kohonen-Karten: h nimmt ab.
• äquivalent: E vergrößern.
– setzt globalen Effektor voraus (Hormon?)
– festes Zeitschema
• inadäquat für kontinuierlichen Input
• alternativer Ansatz: „adaptive Fallen“
Je länger ein item in einer Falle ist,
desto tiefer wird sie.
E
Hopfield mit dynamischen Fallen
• Bei unverändertem Muster sinkt die Temperatur: e1/ Tt 1  e1/ Tt  
• Wenn sich das Muster ändert, wird die Temperatur wieder hochgesetzt.
Hopfield mit dynamischen Fallen
0.6
0.6
• Bei unverändertem Muster sinkt die Lernrate:
eh t1  eh t  
• Wenn sich das Muster ändert, wird die Lernrate wieder hochgesetzt.
Steuerung pro Neuron
• Bei unverändertem Einzelverhalten des Neurons sinkt dessen Temperatur.
• Wenn sich das Einzelverhalten ändert, wird die Temperatur wieder hochgesetzt.
Lernen im Hopfield-Netz
•
•
Start mit zufälligen Gewichten. Hebbsches Lernen bei verrauschtem Muster.
Bei unverändertem Muster sinkt die Lernrate. Wenn sich das Muster ändert, wird sie wieder hochgesetzt.
set effect
„Potenzgesetz“
des Lernens
Bringt die mudtrap einen Vorteil?
• Hebbsches Lernen bei verrauschtem Muster bewirkt allmähliches Lernen.
• Ab Zeitschritt 1000 wird unkorreliertes Rauschen eingesetzt: Vergessen.
mit mudtrap
ohne mudtrap
Das Jostsche Gesetz
• Sind zwei Spuren jetzt unter einer bestimmten Operationalisierung gleich stark,
dann wird später diejenige stärker sein, die früher gesetzt wurde.
Jost, A. (1897). Die Assoziationsfestigkeit
in ihrer Abhängigkeit von der Verteilung
der Wiederholungen.
Zeitschrift für Psychologie und Physiologie
der Sinnesorgane, 14, 436-472.
Das Netzwerk
Igor Sokolov
Sverker Sikström
Sokolov, I., Klafter, J., Blumen, A. (2002).
Fractional Kinetics.
Physics Today 55, 48-54.
– fraktale Kinetik
Sikström, S. (2002). Forgetting curves:
implications for connectionist models.
Cognitive Psychology 45, 95–152.
– verteilte Lerngeschwindigkeiten
– primacy, recency-Effekte
Fazit
learn and
Memory is the thing you forget with.
Alexander Chase, Perspectives (1966)
• Das Lernen und Vergessen in einem Hopfield-Netz
mit verteilten oder adaptiven Fallen
wird durch eine fraktale Differentialgleichung beschrieben
und verläuft wie eine Mittag-Leffler-Funktion.
– Wichtig ist nicht die genaue Implementierung.
• Wird menschliches Lernen/Vergessen durch eine fraktale DG beschrieben?
Es könnte schon so sein...
– Die Daten werden zwar nicht besser beschrieben, aber der Verlauf wird zum
ersten Mal von theoretischen Modellvorstellungen abgeleitet.
– „Potenzgesetz“ zum x-ten Mal bestätigen: wenig hilfreich
– Abweichungen vom „Potenzgesetz“ finden
Vorhersage: für kleine t
(Wixted & Ebbesen, 1991: 2.5 - 40 s)
 Test: sensorisches Gedächtnis
log (Spur)
• Experimentelle Überprüfung
log (Zeit)
Ausblick
• Lebensdauer des auditiv sensorischen Gedächtnisses
Inhalt
1. Intervall
2. Intervall
log (Spur)
SOA Inhalt
log (Zeit)
Herunterladen