Vorlesung 5

Belohnungslernen I
Philippe Tobler, Grit Hein, Susanne Leiberg
Universität Zürich
http://www.socialbehavior.uzh.ch/teaching/NeurooekonomieFS11.html
1
Gliederung der Vorlesung
• Was ist Belohnungslernen (und Bestrafungslernen)?
• Warum ist es wichtig?
• Einfache Formen: klassisches und operantes Konditionieren
• Einfache Theorien: Kontiguität und Vorhersagefehler
• Nächste Vorlesung: Neuronale Grundlagen des
Belohnungslernens
2
Was ist Belohnungslernen?
• Das Verbinden von neutralen Reizen und Handlungen mit
Wert/Nutzen (Belohnung/Bestrafung sind werttragende Reize)
• Die Umwelt wird mit Wert versehen, wobei Geld eine Form
3
von Belohnung ist
Was ist Belohnungslernen?
Zum Beispiel dann, wenn Sie zum ersten Mal etwas Ihnen
bisher Unbekanntes essen
4
Was ist Belohnungslernen?
Belohnungslernen kann unabhängig von anderen stattfinden
oder die Handlungen anderer als Informationsquelle
beiziehen (individuelles versus soziales Lernen)
5
Was ist Belohnungslernen?
Lernen unterscheidet sich von
Instinkt und Reflex dadurch,
dass es nicht angeboren,
sondern erfahrungsabhängig
und modifizierbar ist (wobei
der Übergang fliessend ist,
z.B. Prägung)
6
Warum ist Belohnungslernen wichtig?
• Bildet die Grundlage von wertbezogenen Entscheidungen
(Nutzenmaximierung/-optimierung, z.B. im Kaufverhalten;
Annäherung oder Vermeidung; gefühlsrelevant)
• Kann allenfalls Grundlage von zielgerichtetem Verhalten und
von komplizerterem Lernen bilden
• Kann helfen, die Umwelt schneller einzuschätzen und sich
7
deshalb erfolgreicher in ihr einzurichten (Fitnessmaximierung)
Einfache Formen: Klassisches Konditionieren
8
Einfache Formen: Klassisches Konditionieren
Stellen sie sich
vor, Sie schauen
sich einen Film an
Der Held nähert
sich einer Tür, die
Musik verändert
sich (wird z.B.
lauter)
Was geschieht
mit Ihnen?
Ihr Puls wird
schneller
Ihre Atmung
wird schneller
und flacher
Warum?
9
Klassisches Konditionieren: Ein Beispiel
Bedrohliche Musik ist in Filmen oft mit Gefahr für den
Helden verbunden; ihre physiologische Reaktion darauf
kann als klassisches Konditionieren interpretiert werden:
• Ein ehemals neutraler Reiz (Musik) sagt ein bestimmtes
Ereignis (Blut, Schmerz) hervor, was eine natürliche
physiologische Reaktion bewirkt (Anstieg der Herzrate)
• Erfolgreiche Konditionierung hat zur Folge, dass der
ehemals neutrale Reiz ausreicht, um die physiologische
Reaktion auszulösen
10
Einfache Formen: Klassisches Konditionieren
David Hume: Philosophische
Beschreibung assoziativen
Lernens (z.B. Assoziation
von Ursache und Effekt)
Ivan Pavlov: Experimentelle
Untersuchung klassischen
Konditionierens als Form von
assoziativem Lernen
11
Pavlovsches = klassisches Konditionieren
• Pavlov untersuchte eigentlich Verdauungsvorgänge und
sammelte dafür den Speichel von Hunden
• Um die Verdauung anzuregen, gab er ihnen Fleischpulver
• Überraschende Entdeckung: Hunde produzierten
Speichel, noch bevor sie das Pulver bekamen, z.B. wenn
12
sie den Assistenten an der Tür hörten
Klassisches Konditionieren: Ablauf
1. Vor Konditionierung
Reaktion
Fleischpulver
Unkonditionierter Reiz
2. Vor Konditionierung
Speichel
Unkonditionierte Reaktion
3. Während Konditionierung
Reaktion
Tongabel + Fleischpulver
Reaktion
Tongabel
Kein Speichel
Neutraler Reiz
Keine Reaktion
4. Nach Konditionierung
Speichel
Unkonditionierte
Reaktion
Reaktion
Tongabel
Konditionierter
Reiz
Speichel
Konditionierte
Reaktion
13
Klassisches Konditionieren: Begriffe
• Reiz, der natürliche physiologische Reaktion
hervorruft oder Bedürfnis stillt (hier Nahrung) =
unkonditionierter Reiz (US)
• Natürliche physiologische Reaktion (hier Speichelfluss)
= unkonditionierte Reaktion (UR)
• Ehemals neutraler Reiz, der mit unkonditionierten Reiz
gepaart wird (hier Ton) = konditionierter Reiz (CS)
• Reaktion die auf ehemals neutralen Reiz erfolgt (hier
Speichelfluss bei Hören des Tones) = konditionierte
Reaktion (CR)
14
Klassisches Konditionieren:
Exzitatorisch vs. inhibitorisch
Während Konditionierung
Tongabel
Nach Konditionierung (exzitatorisch)
Reaktion
Fleischpulver
Unkonditionierte
Reaktion
Reaktion
Tongabel
Speichel
Exzitatorische
Konditionierter
CR
Exzitator
Nach Konditionierung (inhibitorisch)
Tongabel + Metronom
Kein Fleischpulver
Reaktion
Metronom
Kein Speichel
Konditionierter
Inhibitorische
Inhibitor
CR
15
Klassisches Konditionieren: Begriffe
• CS, der CR hervorruft = Exzitator; exzitatorisches
Konditionieren
• CS, der CR unterdrückt = Inhibitor; inhibitorisches
Konditionieren
16
Klassisches Konditionieren: Beispiele für US
US können appetitiv oder
aversiv sein (CS sind
demgegenüber neutraler
und lösen von sich aus
kaum eine Reaktion aus)
17
Klassisches Konditionieren höherer Ordnung
(… CS3 ->) CS2 -> CS1 -> US
Ein vormals neutraler Reiz wird mit einem
konditionierten Reiz gepaart
Dadurch wird er zum konditionierten
Reiz (zweiter Ordnung)
Beispiele:
Ton -> Fleischpulver; Ton = CS1
Licht -> Ton; Licht = CS2
(Anblick von Nahrung = CS1; Geld = CS2)
18
Delay versus Trace Konditionierung
CS
US
Zeit
Delay Konditionierung: CS überlappt zeitlich mit US
19
Delay versus Trace Konditionierung
CS
US
Trace
Zeit
Trace Konditionierung: CS überlappt zeitlich nicht mit US;
Konditionierung basiert auf Erinnerung von CS;
Entwickelt sich langsamer als Delay Konditionierung
20
Klassische Konditionierung: Acquisition,
Extinktion und spontane Remission
Stärke der CR
In der Lernphase (Acquisition) wird die
Assoziation zwischen CS und US stärker,
in der Extinktion schwächer, oder von CS
-> kein US Assoziation überlagert;
CR kann nach Ablauf von Zeit spontan
wieder auftreten (Remission)
Acquisition
CS + US
Nur CS
(1. Extinktion)
Spontane
Remission
Nur CS
(2. Extinktion)
Zeit
21
Klassische Konditionierung: Generalisierung
Wenn ein Kind von einem braunen
Labrador gebissen wird, fürchtet es
sich oft auch vor Hunden anderer
Farbe und Rasse
Konditionierte Reaktionen auf einen CS können auf
andere CS generalisiert werden, auch wenn diese nie
zusammen mit dem US auftraten
Sicherheitsmechanismus: lieber Prädator generalisieren
22
als gefressen werden
Klassische Konditionierung: Diskriminierung
Verhalten aufgrund von Generalisierung allein ist
nicht optimal, z.B. Angststörungen
CS- 900 Hz
CS+ 1200 Hz
CS- 1500 Hz
US nur nach CS von 1200 Hz; die CR diskriminiert
zwischen CS+ und CS-
23
Klassische Konditionierung: Diskriminierung
vermindert Generalisierung
Stärke der CR
CS- (900
Hz)
1200 Hz
CS+
CS+
CS- (1500
Hz)
Tonhöhe (Hz)
24
Einfache Formen: Instrumentelles oder
operantes Konditionieren
Durch Versuch und Irrtum (trial and error) drückt die
Katze zufällig den Hebel, welcher die Tür zum
Futter öffnet
25
Einfache Formen: Instrumentelles oder
operantes Konditionieren
Edward Thorndike: Law of Effect – Wenn ein Verhalten eine
positive Konsequenz (Effekt) hat, steigt die
Wiederholungswahrscheinlichkeit dieses Verhaltens, bei einer
26
negativen Konsequenz sinkt sie
Operantes Konditionieren mit der "Skinnerbox"
Skinner entwarf Versuchsanordnung, um operantes
Verhalten im Detail zu untersuchen
Lautsprecher
Lichter
Ratte bekommt Belohnung
wenn sie bestimmtes
Verhalten zeigt, (z.B. im Kreis
rennen vor Hebel drücken)
Verhalten wird graduell durch
Belohnung und Bestrafung
erworben (shaping)
Hebel
Nahrungsabgabe
Elektrfiziertes
Netz
27
Operantes Konditionieren: Verstärkung
Positive Verstärkung
Negative Verstärkung
Hebeldruck
Hebeldruck
Futter erscheint
Elektroschock endet
28
Operantes Konditionieren: Verstärkung
Verstärkung erhöht die Auftretenswahrscheinlichkeit eines
bestimmten Verhaltens
Das Erscheinen von appetitiven Reizen ist ein positiver
Verstärker, die Abwesenheit von aversiven Reizen ein
negativer Verstärker
29
Operantes Konditionieren: Verstärkung
Beispiel aus der 1. Vorlesung
30
Operantes Konditionieren: Bestrafung
Positive Bestrafung
Negative Bestrafung
Hebeldruck
Hebeldruck
Elektroschock
Futter erscheint nicht
31
Operantes Konditionieren: Bestrafung
Bestrafung vermindert die Auftretenswahrscheinlichkeit
eines bestimmten Verhaltens
Das Erscheinen von aversiven Reizen ist eine positive
Bestrafung, die Abwesenheit (das Nicht-Erscheinen) von
appetitiven Reizen eine negative Bestrafung
32
Primäre vs. sekundäre Verstärkung/Bestrafung
33
Primäre vs. sekundäre Verstärkung/Bestrafung
Primäre Verstärkung/Bestrafung
• Steht in direktem Bezug zu biologischen Grundbedürfnissen
(z.B. Hunger oder Durst) oder Fitness
Sekundäre Verstärkung/Bestrafung
• Ehemals neutrale Reize, die zu konditionierter Verstärkung
oder Bestrafung werden, wenn sie mit primärer Verstärkung
oder Bestrafung assoziiert werden (z.B. Geld)
34
Klassische vs. operante Konditionierung
Reiz (CS) –
Reiz (US)
Assoziation
Verhalten –
Effekt
Assoziation
CR is nicht
notwendig, damit
US erfolgt
Verhalten ist
notwendig, damit
Effekt erfolgt
Beide Formen von Konditionierung finden aber
normalerweise parallel statt; operante
Konditionierung kann auch unter diskriminativer
Reizkontrolle stehen
35
Einfache Theorien: Kontiguität (zeitliche Nähe)
Assoziation (CS und US oder Verhalten und Effekt) findet
immer dann statt, wenn die beiden Komponenten zeitlich
nahe aufeinander folgen (z.B. Hume)
Aber:
• Zeitliche Reihenfolge von CS und US spielt eine Rolle;
Vorwärtsassoziation (CS-US) führt zu mehr exzitatorischem
Konditionieren als Rückwärtsassoziation (US-CS) mit
demselben Intervall
• Konditionierte Geschmacksaversion erfolgt nach
langen CS-US-Intervallen
• Blocking-Experiment: wenig Lernen sogar wenn CS
und US nahe und vorwärts aufeinanderfolgen
36
Zeitliche Reihenfolge: Rückwärtskonditionierung
kann sogar inhibitorisch wirken
CR
US-CS-Intervall (sec)
37
Adapted from Hellstern et al., 1998
Konditionierte Geschmacksaversion
Wenn ein Geschmack (CS) mit
darauffolgendem Unwohlsein (US)
assoziiert wird, kann der CS-US
Intervall bis zu 12 Stunden betragen
und sehr kurze CS-US-Intervalle
(sec) scheinen weniger gut gelernt
zu werden als längere (min)
38
Konditionierte Geschmacksaversion: Garcia et al., 1955
Blocking-Experiment: Kontiguität reicht nicht
Phase 1 (preconditioning)
Verhalten
Ton – Schock
Unterdrückung von
Hebeldrücken für Nahrung
Phase 2 (compound conditioning)
Ton+Licht – Schock
Unterdrückung
Phase 3 (test)
Licht allein
Keine Unterdrückung
39
Kamin, 1969
Blocking-Experiment: Kontiguität reicht nicht
Phase 1 (preconditioning)
Ton – Schock
Phase 2 (compound conditioning)
Ton+Licht – Schock
Licht erfolgt zeitlich genauso nah mit Schock wie der Ton; trotzdem
wird nur der Ton gelernt
40
Kamin, 1969
Einfache Theorien: Rescorla & Wagner (1972)
und Erweiterung durch Sutton & Barto (1981)
Robert Rescorla
Allan Wagner
Richard Sutton
Andrew Barto
41
Einfache Theorien: Rescorla & Wagner (1972)
• Modell der klassischen Konditionierung
• Grundannahme: Konditionierung geschieht immer dann,
wenn ein Vorhersagefehler (prediction error) auftritt
• Vorhersagefehler = Diskrepanz gibt zwischen
konditionierter Erwartung und tatsächlichem Ergebnis
• Blocking-Experiment: der Schock wurde vom Ton schon
vorgesagt; das Licht wurde von keinem Vorhersagefehler
gefolgt und deshalb erfolgt keine Konditionierung aufs
Licht
42
Einfache Theorien: Rescorla & Wagner (1972)
∆ V = α β (λ −ΣV)
Vorhersagefehler
∆ V Änderung im durch den CS vorhergesagten Wert
(= Konditionierung)
α, β Salienz von CS und US (Lernrate)
λ
Maximaler Wert, welcher vom US unvorhergesagt
unterhalten werden kann
ΣV Summierter vorhergesagter Wert aller
gegenwärtigen CS (= bisheriges Lernen)
Exzitatorische Konditionierung, Blocking und inhibitorische
Konditionierung sind mit dem Modell erklärbar
43
Beispiel: Exzitatorische Konditionierung
Wert
(arbiträre
Einheiten;
US hat
Wert von
20)
Vorhergesagter
Wert
Vorhersagefehler
Trials
Problem: zeitliche Auflösung ist auf trial begrenzt; neuronale
Systeme und Computer arbeiten aber viel schneller
44
Einfache Theorien: Sutton & Barto (1981)
V(t+1) = V(t) + α(R(t)-V(t))
Vorhersagefehler
• t = Zeit
• α = Lernrate
• R(t) = Ergebnis zur Zeit t
• V(t) = Vorhergesagtes
Ergebnis zur Zeit t
Sutton & Barto, 1998
• Die Vorhersage wird
aufgrund des bereits
Gelernten und des
gewichteten
Vorhersagefehlers
aktualisiert
45
Positive und negative Vorhersagefehler:
Exzitatorisches & inhibitorisches Konditionieren
Vorhersagefehler
Phase 1
Phase 2
1
l
l
Fa
Negativ
Metronom:
Inhibitor
Fall 2
Fa
ll 3
Null
Metronom geblockt
Positiv
Metronom:
Exzitator
46
Zusammenfassung I
• Belohnungs- und Bestrafungslernen versehen Reize (v.a.
klassisches Konditinieren) und Handlungen (v.a. operantes
Konditionieren) mit Nutzen/Wert
• Ursprünglich neutrale Reize können durch Assoziation mit
US oder CS Wert annehmen (Konditionierung 1. oder
höherer Ordnung)
• Delay- und Vorwärtskonditionierung sind effektiver als
Trace- und Rückwärtskonditionierung
• Spezifizität und Verallgemeinerung durch Diskrimination und
Generalisierung
• Extinktion (lernen von CS-kein US Assoziation) und
spontane Remission
47
Zusammenfassung II
• Beim operanten Konditionieren: positive/negative
Verstärkung erhöht Auftretenswahrscheinlichkeit eines
Verhaltens, positivie/negative Bestrafung verringert sie
• Das Rescorla-Wagner bzw. Sutton-Barto Modell erklärt
Konditionieren als Verringerung von Fehlern in der
Vorhersage des US; Blocking zeigt die Wichtigkeit solcher
Fehler experimentell
• Positive Vorhersagefehler liegen exzitatorischem
Konditionieren zugrunde, negative inhibitorischem
Konditionieren
48
Die Themen der Vorlesung im Überblick
23.02.2011
Einführung in die Neuroökonomie und Soziale
Neurowissenschaft
02.03.2011
Das Gehirn: Anatomie und Funktionen
09.03.2011
Methoden I: fMRI und real-time fMRI; EEG
16.03.2011
Methoden II: TMS, Endokrinologie, Physiologie
23.03.2011
Belohnungslernen I
30.03.2011
Belohnungslernen II
06.04.2011
Risiko und Temporal Discounting
13.04.2011
Heuristiken und Bias
20.04.2011
Enttäuschung, Bedauern, Neid
04.05.2011
Vertrauen, Oxytocin und Amygdala
11.05.2011
Empathie, Theory of mind, Spiegelneuronensystem
18.05.2011
Soziale Kognition in Tieren
25.05.2011
Synopsis und Diskussion
15.06.2011
Klausur (16.15-17.45 Uhr); KO2-F-180 (A-N), KOL-F-101 (O-Z)
49
Vielen Dank für Ihre Aufmerksamkeit
50